CZ200232A3

CZ200232A3 - Způsob zaloľený na vyuľití počítače, systém a způsob přisuzování funkce proteinu

Info

Publication number: CZ200232A3
Application number: CZ200232A
Authority: CZ
Inventors: Kumar Samir Brahmachari; Debasis Dash
Original assignee: Council Of Scientific And Industrial Research
Priority date: 2000-03-30
Filing date: 2000-08-31
Publication date: 2002-05-15
Also published as: HUP0204426A2; HU228447B1; EP1268512B1; EP1268512A2; KR100780874B1; JP2003528639A; US7657378B1; WO2001074130A2; KR20020097137A; RU2249044C2; CA2376710A1; DE60017471D1; DE60017471T2; IL147435A0; BR0017193A; WO2001074130A3; CN1211398C; HUP0204426A3; CN1452631A; AU2001228793A1

Description

ZPŮSOB ZALOŽENÝ NA VYUŽITÍ POČÍTAČE, SYSTÉM A ZPŮSOB PŘISUZOVÁNÍ FUNKCE PROTEINU.

Oblast techniky

Předmětem předkládaného vynálezu je způsob založený na využití počítače určený k identifikaci peptidů využívaných jako cíle léků. Blíže se předkládaný vynález zabývá způsobem identifikace neměnných peptidových motivů v proteinových sekvencích různých organismů využívaných jako potenciální cíle léků. Předkládaný vynález dále poskytuje způsob přisuzování funkce hypotetickým otevřeným čtecím rámcům (proteinům), jejichž funkce je neznámá, pomocí přesné identifikační signatury aminokyselinové sekvence.

Předkládaný vynález představuje nový přístup k identifikaci strukturních a funkčních signatur konzervovaných neměnných aminokyselinových sekvencí proteinů, které mohou sloužit jako potenciální kandidáti na cíle léků. Vznik lékům odolných bakteriálních kmenů vyžaduje vývoj nových léků a identifikaci nových cílů pro tyto léky. Jedinečné neměnné peptidové motivy přítomné v proteinech pathogenních mikroorganismů, ale nepřítomné v proteinech hostitele, určují potenciální cíle léků. Předkládaný vynález poskytuje také způsob genomického porovnávání velkého množství proteinových sekvencí současně. Další možností je využití tohoto způsobu k identifikaci peptidových sekvencí využitelných k specifické diagnostice infekcí.

Dosavadní stav techniky

Je známo, že většina léků, které jsou dnes k dispozici k léčbě infekcí, se váže na specifické cílové molekuly proteinů v buňce cizorodého organismu, např. je známa schopnost různých antibiotik znemožňovat funkci ribozómů a ovlivňovat tak translaci proteinů. Bylo zjištěno, že v takových případech dochází buď k vazbě léků přímo na ribozomální RNA nebo na komplexy RNA proteinů (Wimberly a kol., 1999). Chemické sondovací experimenty odhalily, že se lék váže na určité nukleotidové sekvence ribozomální RNA, které jsou „neměnné“ v strukturně shodných regionech v různých organismech (Porse a Garett, 1999). Jiná třída léků slouží k blokování jiných funkcí v bakteriální buňce, jako je transkripce (Cutler a kol., 1999) nebo syntéza mastných kyselin (McCafferty a kol., 1999).

• *

Nedávno se objevily různé lékům odolné kmeny pathogenních baktérií (Ghannoum a Rice, 1999), které činí současné způsoby léčby infekcí způsobených bakteriálními pathogeny neefektivní. To vede k potřebě určení nových cílů léků a vývoji odpovídajících léků. K tomuto účelu nám dostupnost kompletních genomových sekvencí z různých mikrobů nabízí možnost analyzovat všechny proteiny zakódované v daném genomu. Jelikož většina dnes známých léků je cílena na proteiny, je pravděpodobné, že analýza všech proteinů v dané baktérii může vést k identifikaci nových účinných cílů léků.

Znalost konzervovaných neměnných sekvencí v proteinu může být užitečná pro pochopení různých charakterů proteinové architektury, jako je skryté versus odhalené umístění segmentu nebo přítomnost specifických sekundárních strukturních elementů (Rooman a Wodak, 1988, Presnell a kol., 1992). Funkční role proteinů je nejdůležitějším aspektem konzervovaných neměnných sekvencí. Metody běžné sekvenční analýzy zahrnují BLAST (Altschul a kol., 1990) a FASTA (Wilbur a Lipman, 1983). Tyto metody provádějí sekvenční porovnávání jejichž kvalita je vyhodnocována pomocí aminokyselinové substituční matrice. Jsou prováděny statistické výpočty a výsledky jsou prezentovány v klasifikovaném pořadí, kdy je nej shodnější sekvence řazena jako první. Avšak tyto metody nejsou navrženy pro současné genomické porovnávání vedoucí k identifikaci neměnných sekvenčních motivů, které jsou v této práci mimořádně důležité.

Aby mohl být porovnán každý protein určitého organismu se všemi dalšími proteiny různých dalších organismů, musí být využito buď metody BLAST postupně pro každý protein nebo musí být využito dávkové metody BLAST, která je vysoce časově náročná a tedy nepraktická. I přesto když by toto bylo provedeno, tak by na konci analýzy vědec obdržel celkovou podobnost série homologických proteinů a jejich srovnání.

Problém několikanásobného sekvenčního porovnávání je, že je ovlivněno výběrem proteinů. Pouze proteiny, které jsou funkčně podobné, poskytnou jasný obraz o vztazích mezi vybranými proteiny. Takové postupy jsou pracné a časově náročné a poskytují výsledky, které vyžadují další zpracovávání a třídění. Pomocí těchto metod není možné porovnat všechny proteiny z různých organismů a vyhledat konzervované neměnné peptidy.

Předkládaný vynález poskytuje nový způsob založený na využití počítače umožňující hledání neměnných sekvenčních motivů, který umožní rozmanité využívaní, jak je uvedeno výše, a vyhýbá se výše uvedeným překážkám.

Způsob žadatele o patent je založený na paradigmatu, že neměnné sekvenční motivy mezi různými bakteriálními proteiny musí být zodpovědné za důležitou roli ve struktuře a funkci proteinu. Z mnoha cest, jak mohou být identifikovány cíle léků, jsme zvolili přístup založený na • «« · ♦ ·· · β · · · 9 * • 4 · ♦ 9 · ·

4 9 «94 ·· 4« 44 9 · ···· srovnávací a strukturní genomice. V tomto případě mohou být neměnné sekvenční motivy buď přímo nebo nepřímo zodpovědné za funkci dané molekuly proteinu. Tento přístup je odvozen od konceptu, že neměnné sekvenční motivy, které zůstaly nezměněny mezi baktériemi, a které jsou více či méně příbuzné, by měli odkrývat jedinečný strukturní rys, který nemůže být kompromitován. Je dokonce možné, že ani tak zvané konzervativní substituce nejsou v těchto neměnných sekvenčních motivech tolerovány. Pro tento účel jsme identifikovali několik neměnných peptidových motivů pomocí přímého sekvenčního porovnávání mezi různými bakteriálními genomy bez jakýchkoliv apriorních předpokladů. Tento čistě nestranný a nenáročný způsob výzkumu sekvencí je výhodný pro možnost odhalování neidentifikovaných sekvenčních charakteristik v různých genomech.

Protože mohou být neměnné sekvenční motivy důležité pro funkci dané molekuly proteinu, snažili jsme se prozkoumat tyto peptidové motivy jako potenciální cíle pro široké spektrum antibakteriálních léků. Je pravděpodobné, že malá molekula, která se může specificky vázat na tyto neměnné sekvence, může způsobit znemožnění funkce molekuly daného proteinu. Předpokládá se tedy, že tento přístup poskytne nový podklad pro experimentální potvrzení vedoucí k odvození funkcí z proteinových sekvencí přítomných v dostupných databázích.

Podstata vynálezu

Hlavním předmětem předkládaného vynálezu je poskytnutí způsobu genomického porovnávání proteinových sekvencí různých organismů a identifikace neměnných konzervovaných peptidů.

Dalším předmětem předkládaného vynálezu je nový způsob založený na využití počítače určený k provádění genomického porovnávání různých organismů, který’ zahrnuje tvorbu peptidových knihoven z peptidových sekvencí různých organismů a následné porovnávání vedoucí k identifikaci konzervovaných neměnných peptidových motivů

Dále je předmětem předkládaného vynálezu poskytnutí způsobu využitelného k identifikaci potenciálních cílů pro léky a který může sloužit jako rastr léků pro široké spektrum antibakteriálních látek, tak jako pro specifické diagnózy infekcí.

Dalším předmětem předkládaného vynálezu je také přisouzení vhodné funkce proteinům, jejichž funkce není doposud známa.

Dalším předmětem předkládaného vynálezu je dále poskytnutí počítačového způsobu využívajícího neměnné peptidy nebo jejich analogy k určení potenciálních cílů pro léky.

Žadatelé o patent vynalezli způsob identifikace neměnných peptidových motivů získaných z miliónů peptidů obsažených v proteinových sekvencích mnoha organismů, které odolaly přirozenému výběru. Tyto sekvence představují tedy strukturální determinanty proteinů, které mohou být zvoleny jako cíl pro léky nebo využity jako rastr pří vývoji léků. Bylo také zjištěno, že tyto zvláštní neměnné proteinové signatury jsou spojeny se zvláštní funkční třídou proteinů.

Předkládaný způsob také umožňuje předpovídat toxicitu, pozměnit cíl v hostitelské buňce na cíl pro lék podle specifického peptidového motivu pathogenního organismu nebo jakéhokoliv hostitelského cílového proteinu zodpovědného za průběh nemoci. Tento způsob by mohl být, s nižší přesností, dále rozšířen na větší množství proteinů a také na eukaryotické a mnohobuněčné organismy.

Další aspekty, charakteristiky a výhody předkládaného vynálezu budou zřejmé z následujícího popisu preferovaných pojetí daného vynálezu určených k zveřejnění.

Krátký popis počítačových programů:

1. PEPLIB

Úkol: Vytvoření peptidových knihoven organismů ze souborů jejich proteinů ve formátu FASTA. Jsou tak generovány překrývající se peptidy uživatelem definované délky a poté jsou pouze statisticky určité peptidy abecedně uspořádány do výstupního souboru.

Programovací jazyk: PERL na platformě IRIX

2. PEPLIMP

Úkol: Tento program porovnává peptidové knihovny uživatelem vybraných organismů a poskytuje peptidové sekvence, které jsou společné pro všechny genomy.

Programovací jazyk: PERL na platformě IRIX

3. PEPXTRACT

Úkol: Tento program využívá soubor peptidů jako vstupní data, vyhledává v proteinových souborech ve formátu FASTA (pep soubory) a poskytuje detailní informace o peptidech. Detailní informace zahrnují PID, umístění peptidů v proteinu, název organismu, atd.

Programovací jazyk: PERL na platformě IRIX « φ •♦ ···· φ · φ φ «φφφ

4. PEPSTITCH

Úkol: Tento program spojuje peptidy podle určitých neměnných kritérií (dva peptidy by měly mít stejný PID a jejich umístění by měla být v sousedství), odstraňuje překryvy a poskytuje všechny konzervované neměnné peptidy.

Programovací jazyk: PERL na platformě IRIX

Teoreticky řečeno, přestože je pro tvorbu peptidu o dané délce možné obrovské množství kombinací na aminokyselinové úrovni, byl v biologických systémech doposud prokázán jen omezený zlomek takového množství. Z tohoto omezeného množství zůstalo napříč genomy různých organismů pouze málo peptidů nezměněno. V této práci jsme usilovali o nalezení odpovědi na otázku týkající se původu proteinů, které jsou neměnné napříč genomem všech pathogenních i nepathogenních organismů.

V předkládaném vynálezu bylo prokázáno, že rozsah konzervovaných aminokyselin v proteinech různých organismů může poskytnout podklad pro přesné rozlišení mezi různými skupinami proteinů. Tyto proteiny jsou obvykle identifikovány jako proteiny plnící základní úkoly v organismu nezbytné k přežití.

Proteinové sekvence různých organismů byly získány pomocí počítače z různých existujících databází (NCBI, genbank/genomes/bacteria). Ty byly poté pomocí počítače rozřezány na peptidové fragmenty obsahující “N” aminokyselinových zbytků s využitím speciálně vyvinutého počítačového programu PEPLIB. Pro všechny proteiny každého organismu byla vytvořena knihovna peptidů o délce “N” posouváním okna o délce “N” postupně o jeden zbytek podél celé sekvence. Takto získané peptidy byly pomocí počítače seřazeny v abecedním pořadí podle jednopísmenného aminokyselinového kódu, a statistická neurčitost byla eliminována odstraněním duplicitních peptidů. Poté byly pomocí počítače porovnány peptidové knihovny různých organismů, aby byly nalezeny společné peptidy. Porovnávání bylo provedeno s využitím speciálně vyvinutého počítačového programu nazvaného PEPLIMP. Pomocí počítače bylo zjištěno umístění společných peptidů v původních proteinech s využitím programu PEPXTRACT a peptidy byly označeny podle proteinů původu a podle umístění. Tyto společné peptidy byly pomocí počítače zpětně spojeny do dlouhého řetězce společných peptidů. Toto bylo provedeno pomocí programu PEPSTITCH.

Takto získané fragmenty společných peptidů byly označeny jako neměnné peptidy, protože pocházejí z funkčně konzervovaných proteinů. Všechny konzervované neměnné peptidy získané ze stejného proteinu byly poté seskupeny do jedné skupiny. Sekundární struktura těchto ·*· «·· * · · ·· ·»« «· ··«« ·· ···· peptidů byla potvrzena z databáze proteinových krystalových struktur nazvané Proteinová Data Banka (PDB).

Předkládaný vynález tedy poskytuje způsob založený na využití počítače určený k identifikaci neměnných peptidových motivů využitelných jako cíle pro léky, který zahrnuje kroky:

i) počítačového generování překrývajících peptidových knihoven ze všech proteinových sekvencí vybraných organismů přístupných na internetové adrese http://www.cbi.nlm.nih.gov, ii) počítačového třídění peptidů o délce „N“ získaných podle výše uvedeného postupu podle abecedy v závislosti na jednopísmenném aminokyselinovém kódu, iii) počítačového výběru společných peptidových sekvencí vybraných baktérií, iv) počítačového vyhledání umístění těchto společných peptidů v původních proteinech a následného označení peptidů podle jejich původu a umístění,

v) počítačové spojení překrývajících se společných peptidů vedoucí k získání dlouhého řetězce neměnných peptidových sekvencí, vi) označení sekundární struktury těchto konzervovaných peptidů pomocí krystalové strukturní databáze, vii) porovnání genomů pathogenních kmenů s genomy kmenů nepathogenních a výběr sekvencí které nejsou mezi těmito dvěma skupinami konzervovány a viii) počítačového ověření takových neměnných sekvenčních motivů jako potenciálních cílových sekvencí pro léky pomocí vyhledání daných konzervovaných sekvencí v hostitelském genomu a odmítnutí těch sekvencí, které jsou v hostitelském genomu přítomny.

Podle pojetí předkládaného vynálezu může být délka posuvného okna o délce “N” v rozsahu od 4 do jakékoliv délky aminokyselinových zbytků.

Podle pojetí předkládaného vynálezu mohou být využita proteinová sekvenční data z jakéhokoliv organismu, nejen specificky omezeného na mikroby jako jsou Mycopiasma pneumoniae, Helicobacter pylori, Haemophillus influenzae, Mycobacterium tuberculosis, Mycoplasma genitalium, Bacillus subtilis, Escherichia coli.

• · · * «« ····

Identifikované konzervované peptidové motivy zahrnuté v dalším pojetí vynálezu zahrnují:

1. AAQSIGEPGTQLT

2. AGDGTTTAT

3. AGRHGNKG

4. AHIDAGKTTT

5. CPIETPEG

6. DEPSIGLH

7. DEPTSALD

8. DEPTTALDVT

9. DHAGIATQ

10. DHPHGGGEG

11. DLGGGTFD

12. DVLDTWFSS

13. ERERGITI

14. ERGITITSAAT

15. ESRRIDNQLRGR

16. FSGGQRQR

17. GEPGVGKTA

18. GFDYLRDN

19. GHNLQEHS

20. GIDLGTTNS

21. GINLLREGLD

22. GIVGLPNVGKS

23. GKSSLLNA

24. GLTGRKIIVDTYG

25. GPPGTGKTLLA

26. GPPGVGKT

Ti. GSGKTTLL

28. GTRIFGPV

29. IDTPGHVDFT

30. HAHIDHGKSTL 31.INGFGRIGR

32. IREGGRTVG

33. IVGESGSGKS

34. KFSTYATWWl

35. KMSKSKGN

36. KMSKSLGN

37. KNMITGAAQMDGAILVV

38. KPNSALRK

39. LFGGAGVGKTV

40. LGPSGCGK

41. LHAGGKFD

42. LIDEARTPLIISG

43. LLNRAPTLH

44. LPDKAIDLIDE

45. LPGKLADC

46. LSGGQQQR

47. MGHVDHGKT

48. NADFDGDQMAVH « *4 * • 44

4 4·4·

49. NGAGKSTL

50. NLLGKRVD

51. NTDAEGRL

52. PSAVGYQPTLA

53. QRVAIARA

54. QRYKGLGEM

55. RDGLKPVHRR

56. SALDVSIQA

57. SGGLHGVG

58. SGSGKSSL

59. SGSGKSTL

60. SVFAGVGERTREGND

61. TGRTHQIRVH

62. TGVSGSGKS

63. TLSGGEAQRI

64. TNKYAEGYP

65. TPRSNPATY

66. VEGDSAGG

67. VRKRPGMYIG

V dalším pojetí předkládaného vynálezu může množství neměnných peptídů kolísat v závislosti na příbuznosti organismů a počtu porovnávaných organismů.

V dalším pojetí vynálezu mohou neměnné sekvence patřit následujícím proteinům přístupným v databázi na internetové adrese http://www.ncbi.nlm.nih.gov, kdy seznam proteinů obsahuje:

I.	beta řetězec DNA řízené RNA polymerasy
II.	podjednotka A excinukleasy ABC
III.	podjednotka B excinukleasy ABC
IV,	podjednotka B DNA gyrasy
v.	beta řetězec DNA synthasy
VI.	S-adenosylmethionin synthetasa
VII.	glyceraldehyd-3-fosfatdehydrogenasa
VIII.	elongační faktor G (EF-G)
IX.	elongační faktor TU (EF-TU)
X.	30S ribozomální protein Sl2
XI.	50S ribozomální protein L12
XII.	5 OS ribozomální protein L14
XIII.	valyl tRNA-synthetasa (VALRS)
XIV.	homolog proteinu buněčného dělení FtSH
XV.	DnaK protein (HSP70)

*«·* · »» « • * · »·· ··» ., ... ·· ···· ·♦ ·»··

XVI. GTP vázající protein Lep A

XVII. transportér

XVIII. oligopeptidy transportující ATP vážící protein (OPPF)

V dalším pojetí předkládaného vynálezu je zmíněný způsob porovnávání peptidových knihoven, jak je popsáno v kroku iii) nároku I, prováděn podle kroků uvedených na obrázku 1.

V dalším pojetí předkládaného vynálezu je způsob vyhledání společných peptidů v původních proteinových sekvencích, jak je popsáno v kroku iv) nároku 1, prováděn podle kroků uvedených na obrázku 2.

V dalším pojetí předkládaného vynálezu je způsob tvorby společného peptidu různé délky po odstranění překryvů, jak je popsáno v kroku v) nároku 1, prováděn podle kroků uvedených na obrázku 3.

V dalším pojetí předkládaného vynálezu zahrnuje systém založený na využití mikroprocesoru určený k provádění způsobů předkládaného vynálezu:

i) způsoby určování okna aminokyselinové sekvence pro tvorbu peptidové knihovny a následného označení původu, ii) způsoby porovnávání peptidové knihovny, iii) počítačové vyhledání těchto společných peptidů v původních proteinech a následné označení těchto proteinů podle jejich původu a umístění, a iv) počítačové spojení překrývajících se společných peptidů vedoucí k tvorbě dlouhého řetězce neměnných peptidových sekvencí.

V dalším pojetí předkládaného vynálezu je systém založený na využití počítače určený k provádění způsobů podle předkládaného vynálezu, který dále zahrnuje centrální řídící jednotku vykonávající program pro vytváření peptidových knihoven (PEPLIB), program pro porovnávání peptidových knihoven (PEPLIMP), program pro spojování peptidů (PEPSTITCH), program pro výběr peptidů (PEPXTRACT), které jsou všechny uloženy v paměťovém zařízení přístupném pro centrální řídící jednotku připojenou k displeji na kterém centrální řídící jednotka zobrazuje výše zmíněné programy v závislosti na vstupu uživatele přes uživatelské vstupní zařízení.

V dalším pojetí předkládaného vynálezu může být způsob přisuzování funkce proteinu, jehož funkce není známa, vykazující žádnou/slabou homologii sjinými proteinovými sekvencemi z veřejně přístupné databáze (SWISSPROT), prováděn podle následujících kroků:

i) počítačového generování překrývající peptidové knihovny z proteinových sekvencí, jejichž funkce není známa, *··· «**· · · · · t · · ·· · · · . ’ «· ···· ···· · ·«· *»· ··* ·· ··· · ·»»· ·« ···· ii) počítačového třídění peptidů o délce „N“ (N je délka posuvného okna aminokyselin) získaných podle výše uvedeného postupu podle abecedy, v závislosti na jednopísmenném aminokyselinovém kódu, iii) počítačového srovnání aktuální knihovny speptidovou knihovnou obsahující všechny funkčně známé proteiny vedoucí k získání společných peptidů, iv) počítačového vyhledání umístění těchto společných peptidů v původních proteinech a následného označení peptidů podle jejich původu a umístění,

v) počítačového spojení překrývajících se společných peptidů vedoucí k získání dlouhého řetězce neměnných peptidových sekvencí, a ví) přisouzení funkce neznámému proteinu podle funkce proteinu, ke kterému je nalezena maximální sekvenční shoda. Čím více je nalezeno shod s proteiny se stejnou funkcí, tím větší bude pravděpodobnost správnosti funkčního přisouzení.

Detailnější informace o organismech, jako je jejich název, kmen, přírůstkové číslo a další podrobnosti, jsou uvedeny níže.

Genomy

Kmen Přírůstkové Bází Datum číslo v sekvenci doplnění celkem

Mycobacterium tuberculosis H37Rv AL123456 4411529 bp 11.5,1998

Cole, S. T., a kol., Nátuře 393 (6685), 537 až 544 (1998)

Bacillus subtilis DY AL0O9126 4214814 bp 20.11.1997

Kunst, F., a kol., Nátuře 390 (6657), 249 až 256 (1997)

Mycoplasma genitalium G37 L43967 580074 bp 30.10.1995

Fraser, C. M., a kol., Science 270 (5235), 347 až 403 (1995)

Mycoplasma pneumoniae Ml 29 U00089 816394 bp 15.11,1996

Hímmelreich, R., a kol., Nucleic. Acids. Res. 24 (22), 4420 až 4449 (1996)

Escherichia coli

K-12 U00096 4639221 bp 13.10.1998

Blattner, F. R., a kol., Science 277 (5331), 1453 až 1474 (1997)

β	• ·	• * * *	« · Φ ·
« ·	*
•	II*	« · ll	III»	··	«

Helicobacter pylori	26695	AE000511	1667867 bp 6.8.1997
Tomb, J.-F., a kol., Nátuře 388 (6642), 539 až 547 (1997)
Haemophillus influenzae	Rd	L42023	1830138 bp 25.7.1995
Fleischmann, R. D., a kol., Science 269 (5223), 496 až 512 (1995)
Genom	Proteiny	Počet oktamemích Počet proteinů ve peptidů kterých se nachází společné peptidy
Bacillus subtilis	4100	1174826	69
Escherichia coli	4289	1302149	81
Haemophillus influenzae	1709	504044	56
Helicobacter pylori	1566	474087	51
Mycoplasma genitalium	467	165523	30
Mycoplasma pneumoniae	677	221216	43
Mycobacterium tuberculosis	3918	1252582	58

Předkládaný vynález je vysvětlen s pomocí následujících příkladů, které nelze chápat jako omezení rámce předkládaného vynálezu.

Přehled obrázků na výkresech

Obrázek 1 znázorňuje logický obvod programu pro porovnávání peptidových knihoven.

Obrázek 2 znázorňuje logický obvod programu pro výběr peptidů.

Obrázek 3 znázorňuje logický obvod programu pro spojování peptidů.

Obrázek 4 znázorňuje krystalové struktury tří peptidů (VRKPRGMYIG, LHAGGKFD a SGGLHGVG) z proteinu DNA gyrasy B • » • ♦· • · · • · · ·· *·» » · · · «* 4w·· * * ·· ····

Příklady provedení vynálezu

Příklad 1: Program pro tvorbu peptidových knihoven (PEPLIB) /

Úkolem tohoto programu je vytvářet statisticky určité peptidové knihovny s uživatelem specifikovanou délkou okna “N” zdaného genomu posouváním okna postupně po jednom aminokyselinovém zbytku.

Program pracuje jak je popsáno níže:

Soubory ve formátu FASTA stažené z Internetu z adresy http://www.ncbi.nlm.nih.gov, které byly uloženy pod jménem <název_organismu>.pep jsou zadány jako vstupní data do programu PERL, který vytváří jedinečné peptidy o délce, která je specifikována při spuštění programu.

Vstupní / Výstupní formát souboru:

Stažené soubory a jejich formát:

<název_organismu>.pep : soubor ve kterém jsou uloženy poznámky a proteinová sekvence <název_organismu> označuje:

Tb {Mycobacterium tuberculosis), Bs (Bacillus subtilis), Mg (Mycoplasma genitalium), Mp {Mycoplasma pneumoniae), Ec {Escherichia coli), Hp {Helicobacter pylorí), Hi (Haemophiilus influenzae)

Formát: FASTA „>gij‘‘<poznániky>

«celá proteinová sekvence...............

Například, „>gi|280871 l!emb|CAA16238.1)dnaA

MTDDPGSGFTTVWNAVVSELNGDPKVDDGPSSDANLSAPLTPQQRAWLNLVQP LTIVEGFALLSVPSSFVQNEIERHLRAPITDALSRRLGHQIQLGVRIAPPATDEADD TTVPPSENPATTSPDTTTDNDEIDDSAAARGDNQHSWP...........

„>gi|3261513|emb|CAAl 6239.1 |dnaN

MDAATTRVGLTDLTFRLLRESFADAVSWVAKNLPARPAVPVLSGVLLTGSDNGL TISGFDYEVSAEAQVGAEIVSPGSVLVSGRLLSDITRALPNKPVDVHVEGNRVAL TCGNARFSLPTMPVEDYPTLPTLPEETGLLPAE............

Výstupní soubor: <název_organismu><název_peptidu>.txt

Formát: <všechny jedinečné peptidy délky specifikované při spuštění programu> například formát souboru Tb8.txt:

AAAAAAAA

AAAAAAAG

AAAAAAAQ

AAAAAAAS

AAAAAAAT

Příklad 2: Program pro porovnávání peptidových knihoven (PEPLIMP)

Úkolem tohoto programuje porovnávat uživatelem definované peptidové knihovny mezi sebou a zaznamenávat společné/jedinečné peptidy. Výstupní soubory programu PEPLIB jsou využívány jako vstupní data pro program PEPLIMP. Poté co je program spuštěn, je uživatel vyzván, aby vybral knihovny, které mají být porovnány. V závislosti na vybraných knihovnách je vygenerován výstupní soubor obsahující společné peptidy (obr. 1). Porovnávání oktamemích peptidových knihoven výše zmíněných organismů poskytlo 164 oktamemích peptidů.

Porovnávání Čtyř pathogenních organismů, jako jsou Mycobacterium tuberculosis, Helicobacter pylori, Mycoplasma pneumoniae a Haemophillus influenzae poskytlo 206 ·

• · · · · · · · · · · · 9 999 9999*9 9999·· neměnných peptidů a porovnávání tří nepathogenních mikroorganismů Bacillus sublilis, Mycoplasma genitalium a Escherichia coli poskytlo 601 neměnných peptidů.

Porovnávací strom vypadá následovně:

Příklad 3: Program pro výběr peptidů (PEPXTRACT)

Tento program přebírá výstup z programu PEPLIMP, tj. všechny neměnné peptidy, jako vstupní data, vyhledává umístění těchto peptidů v proteinových sekvencích z původní databáze a pro účely další analýzy je označuje pomocí proteinového identifikačního čísla (PID), umístění a názvu organismu. Logický obvod tohoto programu je naznačen blokovým schématem znázorněným na obrázku 2.

Příklad 4: Program spojující peptidy (PEPSTITCH)

Tento program inteligentně odstraňuje překrývající se neměnné peptidy a zaznamenává spojitý úsek neměnného peptidu ve zkoumaném proteinu. Toto je prováděno nejprve seskupením „N“-memích peptidů z téhož proteinu daného organismu a poté, podle informací o jejich umístění, jejich spojením do jednoho dlouhého peptidu. Logický obvod tohoto programu je znázorněn na obrázku 3.

Příklad 5: Předpovídání funkce hypotetického proteinu

Bylo zjištěno, že neměnný peptid, který měl sekvenci FSGGQRQR, existuje v oppF/dppF proteinech šesti organismů ze sedmi zkoumaných (kromě Aí tuberculosis). Tento protein působí jako ATP vázající protein. Protože byla zjištěna lokalizace tohotb neměnného proteinu v hypotetickém proteinu kódovaném genem Rvi273c M. tuberculosis, usuzuje se že tento • * « ·

protein kódovaný genem Rvi273c musí působit jako ATP vázající protein, neboť vykazuje charakteristiky této třídy proteinů.

Příklad 6: Předpovídání funkce hypotetického proteinu

Byla zjištěna přítomnost dalšího neměnného peptidu, který měl sekvenci GIVGLPNVGKS, v proteinech vykazujících vazebnou funkci pro GTP v šesti baktériích ze sedmi zkoumaných (kromě A/. tuberculosis), avšak stejná neměnná sekvence je přítomná také v hypotetickém proteinu kódovaném genem Rvi 112 Aí tuberculosis. Usuzuje se tedy, že tento hypotetický protein se může vyznačovat vazebnou schopností pro GTP, neboť vykazuje charakteristiky této třídy proteinů.

Příklad 7: Identifikace cíle pro lék založená na neměnných peptidových motivech

Je známa schopnost enzymu DNA gyrasy snižovat nadšroubovicovité vinutí DNA. Tento protein není v lidském organismu přítomen a byl po několik let využíván jako cíl pro léky. Ačkoliv přesná sekvence na kterou by měli být léky cíleny není zcela zřejmá. Neměnné peptidy jako jsou VRKRPGMYÍG, LHAGGKFD, SGGLHGVG, LPGKLADC, VEGDSAGG a QRYKGLGEM, které jsou neměnné v beta podjednotce bakteriální DNA gyrasy u mnoha pathogenních a nepathogenních organismů, avšak nejsou přítomny v hostiteli, představují strukturní determinanty, které mohou být využity jako potenciální cíle pro léky proti bakteriálním infekcím. Krystalové struktury tri z těchto peptidů jsou znázorněny na obrázku 4.

Příklad 8: Přisuzování funkce proteinu, jehož funkce není známa

Pomocí tohoto způsobu může být přisouzena funkce proteinu, jehož funkce není známa, vykazující žádnou/slabou homologii s jinými proteinovými sekvencemi z veřejně přístupné databáze (SWISSPROT), podle následujících kroků:

i) počítačového generování překrývající peptidové knihovny z proteinových sekvencí, jejichž funkce není známa, ii) počítačového třídění peptidů o délce „N“ (N je délka posuvného okna aminokyselin) získaných podle výše uvedeného postupu podle abecedy, v závislosti na jednopísmenném aminokyselinovém kódu, * ·

• · · iii) počítačového srovnání aktuální knihovny speptidovou knihovnou obsahující všechny funkčně známé proteiny vedoucí k získání společných peptidů, iv) počítačového vyhledání umístění těchto společných peptidů v původních proteinech a následného označení peptidů podle jejich původu a umístění,

v) počítačového spojení překrývajících se společných peptidů vedoucí k získání dlouhého řetězce neměnných peptidových sekvencí, a vi) přisouzení funkce neznámému proteinu podle funkce proteinu, ke kterému je nalezena maximální sekvenční shoda.

Čím více je nalezeno shod s proteiny se stejnou funkcí, tím včtší bude pravděpodobnost správnosti funkčního přisouzení.

Přednosti:

1. Hlavní předností předkládaného vynálezu je poskytnutí nového způsobu genomického porovnávání velkých množství (tisíců) proteinů jednoho organismu s proteiny jiných organismů současně vedoucí k získání signatur neměnných peptidových sekvenčních motivů.

2. Poskytuje rychlý způsob identifikace neměnných peptidových motivů.

3. Poskytuje jednoduchý a vysoce přesný způsob určování neměnných peptidových motivů, protože nezahrnuje žádné komplexní matematické výpočty.

4. Poskytuje základ pro třídící analýzu pro široké spektrum antibakteriálních sloučenin.

Citace:

Altschul, S. F., Carol, R. J. a Lipman, D. J., (1990). „Basic local alignment search tool.“ J. Mol. Biol. 215, 403 až 410.

Cutler, N. S., Heitman, J., Cardenas, Μ. E., (1999). „TOR kinase homologs function in a signál transduction pathway that is conserved from yeast to mammals. “ Mol. Cell. Endocrinol. 155 (1 až 2), 135 až 142.

Ghannoum, M. A. a Rice, L. B., (1999). „Antifungal agents: mode of action, mechanisms of resistance, and correlation of these mechanisms with bacterial resistance. Clin. Microbiol. Rev. 12(4), 501 až 517.

McCafferty, D. G„ Cudic, P., Yu, M. K„ Behenna, D. C„ Kruger, R., (1999) „Synergy and duality in peptide antibiotic mechanisms.“ Curr. Opin. Chem. Biol. 3 (6), 672 až 680.

Porse, Β. T. a Garette, R. A,, (1999), „Ribosomal machanics, antibiotics, and GTP hydrolysis “ Cell 97,423 až 426.

Presenell, S. R., Cohen, B.I. a Cohen, F. E,, (1992). „A segment based approach to protein secondary structure prediction.“ Biochemistry 31,983 až 993.

Rooman, M. J. a Wodak, S. J., (1988). „Identification of predictive sequence motifs limited by protein structure database size.“ Nátuře 335,45 až 49.

Wilbur, W. J. a Lipman D. J., (1983). „Rapid similarly searches of nucleic acid and protein data banks.“ Proč. Nati. Acad. Sci. USA 80, 726 až 730.

Wimberly, Β. T., Guymon, R., McCutcheon, White, S. W. a Ramakrishan, V., (1999), „A detailed view of a ribosomal active site: The structure of the LI 1-RNA complcx.“ Cell 97, 451 až 502.

Claims

1. Způsob založený na využití počítače určený k identifikaci neměnných peptidových motivů působících jako cíle léků vyznačující se tím, že zahrnuje kroky:

i) počítačového generování překrývající peptidové knihovny ze všech proteinových sekvencí vybraných organismů přístupných na internetové adrese http://www.ncbi.nlm.nih.gov, ii) počítačového třídění peptidů o délce „N“ získaných podle výše uvedeného postupu podle abecedy v závislosti na jednopísmenném aminokyselinovém kódu, iii) počítačového výběru společných peptidových sekvencí vybraných baktérií, iv) počítačového vyhledání umístění těchto společných peptidů v původních proteinech a následného označení peptidů podle jejich původu a umístění,

v) počítačového spojení překrývajících se společných peptidů vedoucí k získání dlouhého řetězce neměnných peptidových sekvencí, vi) označení sekundární struktury těchto konzervovaných peptidů pomocí krystalové strukturní databáze, vii) porovnání genomů pathogenních kmenů s genomy kmenů nepathogenních a výběr sekvencí které nejsou mezi těmito dvěma skupinami konzervovány a viii) počítačového ověření takových neměnných sekvenčních motivů jako potenciálních cílových sekvencí pro léky pomocí vyhledání daných konzervovaných sekvencí v hostitelském genomu a odmítnutí těch sekvencí, které jsou v hostitelském genomu přítomny.

2. Způsob podle nároku 1 vyznačující se tím, že délka posuvného okna o délce „N“ může být v rozsahu od 4 do jakékoliv délky aminokyselinových zbytků.

3. Způsob podle nároku 1 vyznačující se tím, že proteinová sekvenční data mohou být vzata z jakéhokoliv organismu, nejen specificky omezeného na mikroby jako jsou Mycoplasma pneumoniae, Helicobacter pylori, Haemophilhts influenzae, Mycobacterium tuberculosis, Mycoplasma genitalium, Bacillus subtilis, Escherichia coli.

φ 9 99 9 9··

9 9 · · · 9 • 9 ··· · · · ·· ·

9 · · > 9

9 ·

99 ♦···

4. Způsob podle nároku 1 vyznačující se tím, že identifikované konzervované peptidové motivy zahrnují:

1. AAQSIGEPGTQLT

2. AGDGTTTAT

3. AGRHGNKG

4. AHIDAGKTTT

5. CPIETPEG

6. DEPSIGLH

7. DEPTSALD

8. DEPTTALDVT

9. DHAGIATQ

10. DHPHGGGEG

11. DLGGGTFD

12. DVLDTWFSS

13. ERERGITI

14. ERGITITSAAT

15. ESRRIDNQLRGR

16. FSGGQRQR

17. GEPGVGKTA

18. GFDYLRDN

19. GHNLQEHS

20. GIDLGTTNS

21. GINLLREGLD

22. GIVGLPNVGKS

23. GKSSLLNA

24. GLTGRKIIVDTYG

25. GPPGTGKTLLA

26. GPPGVGKT

27. GSGKTTLL

28. GTRIFGPV

29. IDTPGHVDFT

30. IIAHIDHGKSTL

31. INGFGRIGR

32. IREGGRTVG

33. IVGESGSGKS

34. KFSTYATWWI

35. KMSKSKGN

36. KMSKSLGN

37. KNMITGAAQMDGAILVV

38. KPNSALRK

39. LFGGAGVGKTV

40. LGPSGCGK

41. LHAGGKFD

42. LIDEARTPLIISG

43. LLNRAPTLH

44. LPDKAIDLIDE

45. LPGKLADC

46. LSGGQQQR

47. MGHVDHGKT ·· · · v · · * • · · • ♦ · ·· ·**·

48. NADFDGDQMAVH

49. NGAGKSTL

50. NLLGKRVD

51. NTDAEGRL

52. PSAVGYQPTLA

53. QRVAIARA

54. QRYKGLGEM

55. RDGLKPVHRR

56. SALDVSIQA

57. SGGLHGVG

58. SGSGKSSL

59. SGSGKSTL

60. SVFAGVGERTREGND

61. TGRTHQIRVH

62. TGVSGSGKS

63. TLSGGEAQRI

64. TNKYAEGYP

65. TPRSNPATY

66. VEGDSAGG

67. VRKRPGMYIG

5. Způsob podle nároku 1 vyznačující se tím, že počet neměnných peptidů se může lišit v závislosti na příbuznosti organismů a počtu porovnávaných organismů.

6. Způsob podle kteréhokoliv z nároků 1 až 4 vyznačující se tím, že neměnné sekvence mohou patřit následujícím proteinům přístupným v databázi na internetové adrese http://www.ncbi.nlm.nih.gov, kdy seznam proteinů obsahuje:

I. beta řetězec DNA řízené RNA polymerasy II. podjednotka A excinukleasy ABC III. podjednotka B excinukleasy ABC IV. podjednotka B DNA gyrasy v. beta řetězec DNA synthasy VI. S-adenosylmethionin synthetasa VII. gly ceraldehyd-3 -fosfát dehydrogenasa VIII. elongační faktor G (EF-G) IX. elongační faktor TU (EF-TU) X. 3 OS ribozomální protein S12 XI, SOS ribozomální protein Ll2 XII. 50S ribozomální protein L14 XIII. valyl tRNA-synthetasa (VALRS)

• 94

4 * »

4 9 ·

4 · ·

44 4*49

XIV. homolog proteinu buněčného dělení FtSH

XV. DnaK protein (HSP70)

XVI. GTP vázající protein LepA

XVII. transportér

XVIII. oligopeptidy transportující ATP vážící protein (OPPF)

7. Způsob podle nároku 1 vyznačující se tím, že způsob porovnávání peptidových knihoven, jak je popsáno v kroku iii) nároku 1, je prováděn podle kroků uvedených na obrázku 1.

8. Způsob podle nároku 1 vyznačující se tím, že způsob vyhledávání společných peptidů v původních proteinových sekvencích, jak je popsáno v kroku iv) nároku 1, je prováděn podle kroků uvedených na obrázku 2.

9. Způsob podle nároku 1 vyznačující se tím, že způsob tvorby společného peptidu různé délky po odstranění prekryvů, jak je popsáno v kroku v) nároku 1, je prováděn podle kroků uvedených na obrázku 3.

10. Systém založený na využití mikroprocesoru určený k provádění způsobů podle předkládaného vynálezu vyznačující se tím, že zahrnuje:

i) způsoby určování okna aminokyselinové sekvence pro tvorbu peptidové knihovny a následného označení původu, ii) způsoby porovnávání peptidové knihovny, iii) počítačové vyhledání těchto společných peptidů v původních proteinech a následné označení těchto proteinů podle jejich původu a umístění a iv) počítačové spojení překrývajících se společných peptidů vedoucí k tvorbě dlouhého řetězce neměnných peptidových sekvencí.

11. Systém založený na využití počítače určený k provádění způsobů podle předkládaného vynálezu vyznačující se tím, že dále zahrnuje centrální řídící jednotku vykonávající program pro vytváření peptidových knihoven (PEPLIB), program pro porovnávání peptidových knihoven (PEPLIMP), program pro spojování peptidů (PEPSTITCH), program pro výběr peptidů (PEPXTRACT), které jsou všechny uloženy v paměťovém zařízení přístupném pro centrální řídící jednotku připojenou k displeji na kterém centrální řídící jednotka zobrazuje výše zmíněné programy v závislosti na vstupu uživatele přes uživatelské vstupní zařízení.

12. Způsob přisuzování funkce proteinu, jehož funkce není známa, vykazující žádnou/slabou homologii s jinými proteinovými sekvencemi z veřejně přístupné databáze (SWiSSPROT) vyznačující se tím, že zahrnuje následující kroky:

i) počítačového generování překrývající peptidové knihovny z proteinových sekvencí, jejichž funkce není známa, i i) počítačového třídění peptidů o délce „N“ (N je délka posuvného okna aminokyselin) získaných podle výše uvedeného postupu podle abecedy v závislosti na jednopísmenném aminokyselinovém kódu, iii) počítačového srovnání aktuální knihovny speptidovou knihovnou obsahující všechny funkčně známé proteiny vedoucí k získání společných peptidů, iv) počítačového vyhledání umístění těchto společných peptidů v původních proteinech a následného označení peptidů podle jejich původu a umístění,

v) počítačového spojení překrývajících se společných peptidů vedoucí k získání dlouhého řetězce neměnných peptidových sekvencí a vi) přisouzení funkce neznámému proteinu podle funkce proteinu, ke kterému je nalezena maximální sekvenční shoda, Čím více je nalezeno shod s proteiny se stejnou funkcí, tím větší bude pravděpodobnost správnosti funkčního přisouzení.