-
Bereich der
Erfindung
-
Diese
Erfindung betrifft ein rechnergestütztes Verfahren zum Identifizieren
von Peptiden, die als Zielmoleküle
von Arzneimitteln bzw. Arzneimittelziele ("drug targets") nützlich
sind. Genauer gesagt, betrifft diese Erfindung ein Verfahren zum
Identifizieren von invarianten Peptidmotiven in Proteinsequenzdaten
verschiedener Organismen, die als potentielle Arzneimittelziele
nützlich
sind. Diese Erfindung macht weiterhin ein Verfahren zum Zuordnen
einer Funktion zu einem hypothetischen offen Leseraster (Proteine)
mit unbekannter Funktion durch eine exakte Signatur einer Aminosäuresequenzidentität verfügbar.
-
Diese
Erfindung macht einen neuen Ansatz zum Identifizieren struktureller
und funktioneller Signaturen von konservierten invarianten Aminosäuresequenzen
von Proteinen verfügbar,
die als potentielle Kandidaten für
Arzneimittelziele dienen können.
Die Herausbildung von Arzneimittelresistenten Stämmen hat eine Identifizierung
von neuen Arzneimitteln und Arzneimittelzielen notwendig gemacht.
Einzigartige invariante Peptidmotive, die in den Proteinen eines
Pathogens vorhanden sind, in den Proteinen eines Wirts jedoch fehlen,
weisen auf potentielle Arzneimittelziele hin. Die Erfindung macht
auch ein Verfahren verfügbar,
um eine große
Anzahl von Proteinsequenzen gleichzeitig genomweise zu vergleichen.
Noch eine weitere Anwendbarkeit ist das Identifizieren von Peptidsequenzen,
die zur speziellen Diagnose von Infektionen nützlich sind.
-
Hintergrund
der Erfindung
-
Es
ist bekannt, daß die
meisten Arzneimittel, die heute zur Verfügung stehen, um Infektionen
zu kurieren, an spezielle Protein-Zielmoleküle in der Zelle des verursachenden
Organismus binden. Beispielsweise ist bekannt, daß einige
Antibiotika die Funktion von Ribosomen stören, so daß die Proteintranslation beeinträchtigt ist.
In diesen Fällen
ist festgestellt worden, daß die
Arzneimittel entweder direkt an die ribosomale RNA oder an RNA-Proteinkomplexe
binden (Wimberly et al., 1999). Chemische Forschungsexperimente
haben gezeigt, daß diese Arzneimittel
an bestimmte Nukleotidsequenzen von ribosomaler RNA binden, die
in strukturell analogen Bereichen in verschiedenen Organismen „invariant" sind (Porse and
Garrett, 1999). Die andere Klasse von Arzneimitteln dient dazu,
andere Funktionen, wie etwa die Transkription (Cutler et al., 1999)
oder die Fettsäuresynthese
(McCafferty et al., 1999) in der Bakterienzelle zu blockieren.
-
Kürzlich hat
sich herausgestellt, daß mehrere
Arzneimittel-resistente Stämme
(Ghannoum and Rice, 1999) pathogener Bakterien die gegenwärtigen Behandlungsverfahren
zum Kurieren von Infektionen durch bakterielle Pathogene unwirksam
machen. Dies macht die Identifizierung neuer Arzneimittelziele und
der korrespondierenden Arzneimittel erforderlich. Zu diesem Zweck
bietet uns die Verfügbarkeit
vollständiger
Genomsequenzen aus verschiedenen Mikroben eine Möglichkeit, alle Proteine zu
analysieren, die in einem gegebenen Genom kodiert sind. Da die meisten
Arzneimittel, die heute bekannt sind, Proteine anzielen, ist es
wahrscheinlich, daß ein
Analysieren aller Proteine in einen gegebenem Bakterium neue valide
Arzneimittelziele verfügbar
macht.
-
Die
Kenntnis konservierter invarianter Sequenzen in einem Protein kann
beim Verstehen bestimmter Merkmale der Architektur eines Proteins
nützlich
sein, wie etwa eine verdeckte im Unterschied zu einer exponierten
Lage eines Segments oder das Vorhandensein spezieller sekundärer Strukturelemente
(Rooman and Wodak, 1988; Presnell et al., 1992). Die funktionelle
Rolle des Proteins ist der wichtigste Aspekt bei konservierten invarianten
Sequenzen. Verfahren einer gebräuchlichen
Sequenzanalyse schließen
BLAST (Altschul et al., 1990) und FASTA (Wilbur and Lipman, 1983)
ein. Diese Verfahren führen
einen Sequenzabgleich durch, dessen Qualität unter Verwendung einer Aminosäuresubstitutionsmatrix
evaluiert wird. Es werden statistische Berechnungen durchgeführt und
die Ergebnisse in der Art einer Rangordnung ausgegeben, wobei die
größte Sequenzähnlichkeit
die höchste
Rangordnung erhält.
Diese Verfahren sind allerdings nicht dafür entworfen, einen gleichzeitigen
genomweisen Vergleich durchzuführen,
um invariante Sequenzmotive, die in dieser Arbeit von besonderer
Wichtigkeit sind, zu identifizieren.
-
Um
jedes Protein eines Organismus mit allen anderen Proteinen einiger
anderer Organismen zu vergleichen, muß man entweder BLAST mehrfach
hintereinander verwenden oder es muß ein Satz BLAST verwendet
werden, was sehr zeitaufwendig und deshalb nicht praktikabel ist.
-
Selbst
wenn dies durchgeführt
würde,
erhielte man am Ende der Aufgabe die Gesamtähnlichkeit eines Satzes von
homologen Proteinen und Abgleichen.
-
Das
Problem mit einem vielfachen Sequenzabgleich besteht darin, daß dieser
durch die Proteinauswahl verzerrt wird. Nur Proteine, die funktionell
verwandt sind, werden ein klares Bild von einer Verwandtschaft zwischen
den ausgewählten
Proteinen ergeben. Derartige Verfahren sind arbeitsintensiv und
zeitaufwendig und führen
zu Ergebnissen, die ein weiteres Bearbeiten und Filtern erfordern.
Dennoch ist es durch diese Verfahren nicht möglich, alle Proteine von einigen
Organismen zu vergleichen und konservierte invariante Peptide hervorzuholen.
-
Die
vorliegende Erfindung macht ein neues rechnergestütztes Verfahren
verfügbar,
um nach invarianten Sequenzmotiven zu suchen, was zu einer vielfachen
Anwendung, wie oben beschrieben, führen wird, und die oben aufgeführten Rückschläge vermeidet.
-
Der
Ansatz der Anmelder beruht auf dem Paradigma, daß die invarianten Sequenzmotive
zwischen den verschiedenen Bakterienproteinen für eine wichtige Rolle im Bezug
auf Struktur und Funktion des Proteins verantwortlich sein müssen. Von
den zahlreichen Wegen, auf denen Arzneimittelziele identifiziert
werden können,
haben wir einen Ansatz genommen, der auf vergleichender und struktureller
Genomics-Technologie beruht. In diesem Fall können die invarianten Sequenzmotive
entweder direkt oder indirekt an der Funktion des fraglichen Proteinmoleküls beteiligt
sein. Dieser Ansatz leitet sich von dem Konzept ab, daß invariante
Sequenzmotive, die zwischen Bakterien, die entweder entfernt oder
eng miteinander verwandt sind, unverändert geblieben sind, ein einzigartiges
strukturelles Merkmal entwickelt haben sollten, das nicht beeinträchtigt werden
kann. Tatsächlich
ist es sogar möglich,
daß die
sogenannten konservativen Substitutionen in diesen invarianten Sequenzmotiven
auch nicht toleriert werden. Schließlich haben wir einige invariante
Peptidmotive durch direkten Sequenzvergleich zwischen verschiedenen
Bakteriengenomen ohne jede a priori-Annahme identifiziert. Diese
ganz unvoreingenommene und nicht vermutete Art, die Sequenzen zu
untersuchen, hat den Vorteil, daß nicht identifizierte Sequenzeigenschaften
in den verschiedenen Genomen aufgedeckt werden.
-
Da
invariante Sequenzmotive für
die Funktion des fraglichen Proteinmoleküls wichtig sein können, setzten
wir uns zum Ziel, diese Peptidmotive als potentielle Arzneimittelziele
für Breitband-Antibiotika
zu entwickeln. Es ist wahrscheinlich, daß ein kleines Molekül, das spe zifisch
an diese invarianten Sequenzen bindet, eine Störung der Funktion des fraglichen
Proteinmoleküls
verursacht. Es ist wahrscheinlich, daß dieser in silico-Ansatz neue
Hinweise auf eine experimentelle Validierung verfügbar machen
wird, um von Proteinsequenzen, die in den verfügbaren Datenbanken vorhanden
sind, Funktionen abzuleiten.
-
Aufgaben der
Erfindung
-
Die
Hauptaufgabe der vorliegenden Erfindung ist, ein Verfahren zum genomweisen
Vergleich von Proteinsequenzen einiger Organismen und zum Identifizieren
invarianter konservierter Peptide verfügbar zu machen.
-
Eine
weitere Aufgabe der vorliegenden Erfindung betrifft ein neues rechnergestütztes Verfahren
zum Durchführen
eines genomweisen Vergleichs einiger Organismen, wobei das rechnergestützte Verfahren
die Schaffung von Peptid-Bibliotheken mit Proteinsequenzen von einigen
Organismen und den anschließenden Vergleich,
der zur Identifikation konservierter invarianter Peptidmotive führt, umfaßt.
-
Noch
eine weitere Aufgabe der vorliegenden Erfindung betrifft das Verfügbarmachen
eines Verfahrens, das zur Identifikation potentieller Arzneimittelziele
nützlich
ist und auf der Suche nach Breitband-Antibakteriziden zum Durchmustern
von Arzneimitteln („drug
screen") ebenso
wie zur Suche nach einer spezifischen Diagnose von Infektionen dienen
kann.
-
Noch
eine weitere Aufgabe der vorliegenden Erfindung ist, Proteinen mit
bisher unbekannten Funktionen eine geeignete Funktion zuzuordnen.
-
Noch
eine weitere Aufgabe ist, ein rechnergestütztes Verfahren, welches die
invarianten Peptide oder ihre Analoga zum Identifizieren potentieller
Arzneimittelziele beinhaltet, verfügbar zu machen.
-
Zusammenfassung
der Erfindung
-
Die
Anmelder haben ein Verfahren erfunden, um invariante Peptidmotive
zu identifizieren, die von Millionen von Peptiden, die in Proteinsequenzen
vieler Organismen, die einer natürlichen
Selektion widerstanden haben, vorhanden sind, erhalten wurden.
-
Das
vorliegende Verfahren wird auch erlauben, eine Toxizität, ein alternatives
Ziel für
ein Arzneimittel, das ein spezielles Peptidmotiv eines pathogenen
Organismus anzielt, in Wirtszellen oder jedes Wirtsproteinziel,
das für
einen Krankheitsprozeß verantwortlich
ist, vorherzusagen. Das Verfahren kann weniger streng auf eine größere Anzahl
von Proteinen und auch auf Eukaryonten und multizelluläre Organismen
ausgedehnt werden.
-
Andere
und weitere Aspekte, Merkmale und Vorteile der vorliegenden Erfindung
werden aus der folgenden Beschreibung der gegenwärtig bevorzugten Ausführungen
der Erfindung, die zum Zwecke der Offenbarung gegeben wird, offensichtlich
werden.
-
Kurze Beschreibung der
Computerprogramme
-
1. PEPLIB
-
Ziel:
Erzeugen von Peptid-Bibliotheken aus Organismen anhand ihrer Protein-Dateien
im FASTA-Format.
-
Dadurch
werden überlappende
Peptide mit einer vom Anwender definierten Länge erzeugt und dann werden
nur nicht-redundante Peptide in der Ausgabedatei alphabetisch angeordnet.
Programmsprache:
PERL auf IRIX-Plattform.
-
2. PEPLIMP
-
Ziel:
Dieses Programm vergleicht die Peptid-Bibliotheken von Organismen,
die durch den Anwender ausgewählt
werden, und wählt
die Peptidsequenzen aus, die den Genomen gemeinsam sind.
Programmsprache:
PERL auf IRIX-Plattform.
-
3. PEPXTRACT
-
Ziel:
Dieses Programm nimmt eine Peptid-Datei als Eingabe, sucht in den
FASTA-Format-Protein-Dateien
(pep-Dateien) und wählt
die Einzelheiten im Bezug auf die Peptide aus. Die Einzelheiten
schließen
die PID, die Lage des Peptids im Protein, den Namen des Organismus
etc. ein.
Programmsprache: PERL auf IRIX-Plattform.
-
4. PEPSTITCH
-
Ziel:
Dieses Programm verbindet die Peptide in Abhängigkeit von bestimmten festgelegten
Kriterien (die beiden Peptide sollten das selbe PID aufweisen und
ihre Lagen sollten benachbart sein) und entfernt Überlappungen
und meldet alle konservierten invarianten Peptide.
Programmsprache:
PERL auf IRIX-Plattform.
-
Einzelheiten
der Erfindung
-
Obwohl
theoretisch eine riesige Anzahl von Kombinationen auf der Aminosäure-Ebene
möglich
ist, um ein Peptid mit einer vorgegebenen Länge zu bilden, ist nur ein
beschränkter
Anteil in biologischen Systemen beobachtet worden. Von diesem beschränkten Anteil
blieben nur wenige Peptide in den Genomen verschiedener Organismen
invariant. Bei dieser Arbeit haben wir eine Antwort auf die Frage
gesucht, welche die Natur von Peptiden betrifft, die bei allen Genomen
pathogener und nicht-pathogener Bakterien invariant sind.
-
Im
Zusammenhang mit der vorliegenden Erfindung ist gezeigt worden,
daß eine
Strecke aus konservierten Aminosäuren
in Proteinen verschiedener Organismen eine akkurate Unterscheidung
zwischen verschiedenen Klassen von Proteinen verfügbar machen
kann. Im allgemeinen werden diese Proteine als Proteine mit einer
sehr grundlegenden Funktion beim Überleben des Organismus identifiziert.
-
Die
Proteinsequenzen einiger Organismen wurden rechnergestützt aus
den vorhandenen Datenbanken (NCBI, genbank/genomes/bacteria) erhalten.
Diese wurden dann computergestützt
in Peptidfragmente mit „N" Aminosäureresten
durch ein speziell entwickeltes Computerprogramm, PEPLIB, gestückelt. Eine
Bibliothek aus Peptiden mit einer Länge „N" wurde für alle Proteine eines jeden
Organismus geschaffen, indem das Fenster mit einer Länge „N" an der Sequenz an
einem Rest zu einer Zeit entlang gleiten gelassen wurde. Die dabei
erhaltenen Peptide wurden rechnergestützt in alphabetischer Reihenfolge
nach dem Einzelbuchstaben-Aminosäuren-Code
sortiert und die Redundanz wurde entfernt, indem doppelte Peptide
gelöscht
wurden. Die Peptid-Bibliotheken verschiedener Organismen wurden
dann rechnergestützt
verglichen, um gemeinsame Peptide aufzufinden. Der Vergleich wurde
unter Verwendung eines speziell entwickelten Computerprogramms, bezeichnet
als PEPLIMP, durchgeführt.
Die gemeinsamen Peptide wurden rechnergestützt in den Originalproteinen
unter Verwendung des PEPXTRACT-Programms lokalisiert und wurden
anschließend
mit ihren Ursprungsproteinen und ihrer Lage gekennzeichnet. Diese
gemeinsamen Peptide wurden rechnergestützt zusammengeheftet, um eine
lange Kette gemeinsamer Peptide zu bilden. Dies wurde unter Verwendung
des PEPSTICH-Programms durchgeführt.
-
Diese
auf diese Weise erhaltenen Fragmente gemeinsamer Peptide wurden
als invariante Peptide bezeichnet, da sie aus funktionell konservierten
Proteinen stammten. Alle konservierten invarianten Peptide, die aus
dem selben Protein erhalten wurden, wurden dann in einer Gruppe
zusammengefaßt.
Die Sekundärstruktur
dieser Peptide wurde anhand der Protein-Kristallstruktur-Datenbank, nämlich Potein
Data Bank (PDB), validiert.
-
Dementsprechend
macht die Erfindung ein computergestütztes Verfahren zum Identifizieren
invarianter Peptidmotive verfügbar,
die als Arzneimittelziele nützlich
sind, wobei das Verfahren folgende Schritte umfaßt:
- i)
rechnergestütztes
Erzeugen einer Bibliothek aus überlappenden
Peptiden von allen bekannten Proteinsequenzen der ausgewählten Organismen,
die unter http://www.ncbi.nlm.nih.gov verfügbar sind,
- ii) rechnergestütztes,
alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer
Länge „N" nach dem Einzelbuchstaben-Aminosäuren-Code,
- iii) rechnergestütztes
Abgleichen von gemeinsamen Peptidsequenzen der ausgewählten Bakterien,
- iv) rechnergestütztes
Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen
und anschließendes
Markieren von diesen in Bezug auf Ursprung und Ort bzw. Lokalisation,
- v) rechnergestütztes
Verbinden der überlappenden
gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen
zu erhalten,
- vi) Vermerken einer Sekundärstruktur
dieser konservierten Peptide anhand der Kristallstruktur-Datenbank,
- vii) Vergleichen von Genomen pathogener Stämme mit Genomen von nicht-pathogenen Stämmen und Auswählen der
Sequenzen, die in diesen beiden Gruppen nicht allgemein konserviert
sind, und
- viii) rechnergestütztes
Validieren der invarianten Sequenzmotive als potentielle Sequenz
von Zielmolekülen von
Arzneimitteln bzw. Arzneimittelzielsequenz durch Suchen nach den
angegebenen konservierten Sequenzen im Wirtsgenom und Verwerfen
derjenigen, die im Wirtsgenom vorhanden sind.
-
In
einer Ausführung
der vorliegenden Erfindung kann die Länge des Gleitfensters mit einer
Länge „N" von 4 Aminosäureresten
bis zu jeder Länge
reichen.
-
In
einer Ausführung
der Erfindung können
die Proteinsequenzdaten von jedem Organismus genommen werden, ohne
jedoch speziell auf Mikroben, wie etwa Mycoplasma pneumoniae, Helicobacter
pylori, Hemophilus influenzae, Mycobacterium tuberculosis, Mycoplasma
genitalium, Bacillus subtillis, Escherichia coli, beschränkt zu sein.
-
In
einer weiteren Ausführung
umfassen die konservierten Peptidmotive folgende:
- 1.
AAQSIGEPGTQLT
- 2. AGDGTTTAT
- 3. AGRHGNKG
- 4. AHIDAGKTTT
- 5. CPIETPEG
- 6. DEPSIGLH
- 7. DEPTSALD
- 8. DEPTTALDVT
- 9. DHAGIATQ
- 10. DHPHGGGEG
- 11. DLGGGTFD
- 12. DVLDTWFSS
- 13. ERERGITI
- 14. ERGITITSAAT
- 15. ESRRIDNQLRGR
- 16. FSGGQRQR
- 17. GEPGVGKTA
- 18. GFDYLRDN
- 19. GHNLQEHS
- 20. GIDLGTTNS
- 21. GINLLREGLD
- 22. GIVGLPNVGKS
- 23. GKSSLLNA
- 24. GLTGRKIIVDTYG
- 25. GPPGTGKTLLA
- 26. GPPGVGKT
- 27. GSGKTTLL
- 28. GTRIFGPV
- 29.IDTPGHVDFT
- 30. IIAHIDHGKSTL
- 31. INGFGRIGR
- 32. IREGGRTVG
- 33. IVGESGSGKS
- 34. KFSTYATWWI
- 35. KMSKSKGN
- 36. KMSKSLGN
- 37. KNMITGAAQMDGAILW
- 38. KPNSALRK
- 39. LFGGAGVGKTV
- 40. LGPSGCGK
- 41. LHAGGKFD
- 42. LIDEARTPLIISG
- 43. LLNRAPTLH
- 44. LPDKAIDLIDE
- 45. LPGKLADC
- 46. LSGGQQQR
- 47. MGHVDHGKT
- 48. NADFDGDQMAVH
- 49. NGAGKSTL
- 50. NLLGKRVD
- 51. NTDAEGRL
- 52. PSAVGYQPTLA
- 53. QRVAIARA
- 54. QRYKGLGEM
- 55. RDGLKPVHRR
- 56. SALDVSIQA
- 57. SGGLHGVG
- 58. SGSGKSSL
- 59. SGSGKSTL
- 60. SVFAGVGERTREGND
- 61. TGRTHQIRVH
- 62. TGVSGSGKS
- 63. TLSGGEAQRI
- 64. TNKYAEGYP
- 65. TPRSNPATY
- 66. VEGDSAGG
- 67. VRKRPGMYIG
-
In
noch einer weiteren Ausführung
der vorliegenden Erfindung kann die Anzahl von invarianten Peptiden
je nach Verwandtschaft zwischen den Organismen und der Anzahl der
Organismen, die verglichen werden, variieren.
-
In
noch einer weiteren Ausführung
können
die invarianten Sequenzen zu den folgenden Proteinen gehören, die
in der Datenbank http://www.ncbi.nlm.nih.gov verfügbar sind,
wobei die Liste von Proteinen folgende umfaßt:
- I)
DNA-GESTEUERTE RNA-POLYMERASE, BETA-KETTE
- II) ABC-EXCINUCLEASE, UNTEREINHEIT A
- III) ABC-EXCINUCLEASE, UNTEREINHEIT B
- IV) DNA-GYRASE, UNTEREINHEIT B
- V) ATP-SYNTHASE, BETA-KETTE
- VI) S-ADENOSYLMETHIONIN-SYNTHETASE
- VII) GLYCERALDEHYDE-3-PHOSPHAT-DEHYDROGENASE
- VIII) ELONGATIONSFAKTOR G (EF-G)
- IX) ELONGATIONSFAKTOR TU (EF-TU)
- X) 30S RIBOSOMALES PROTEIN S12
- XI) 50S RIBOSOMALES PROTEIN L12
- XII) 50S RIBOSOMALES PROTEIN L14
- XIII) VALYL-tRNA-SYNTHETASE (VALRS)
- XIV) ZELLTEILUNGSPROTEIN FtSH-HOMOLOG
- XV) DnaK-PROTEIN (HSP70)
- XVI) GTP-BINDENDES PROTEIN LepA
- XVII) TRANSPORTER
- XVIII) OLIGOPEPTID-TRANSPORT-ATP-BINDENDES PROTEIN OPPF
-
In
noch einer weiteren Ausführung
der vorliegenden Erfindung wird das Verfahren eines Vergleichens der
Peptid-Bibliotheken, wie in Schritt (iii) des oben erklärten Verfahrens
angegeben, durch Nachvollziehen der in 1 angegebenen
Schritte durchgeführt.
-
In
noch einer Ausführung
der vorliegenden Erfindung wird das Verfahren zum Lokalisieren der
gemeinsamen Peptiden in den Originalproteinsequenzen, wie in Schritt
(iv) des oben er klärten
Verfahrens angegeben, durch Nachvollziehen der in 2 angegebenen
Schritte durchgeführt.
-
In
einer weiteren Ausführung
wird das Verfahren zum Erzeugen eines gemeinsamen Peptids von variabler
Länge nach
Entfernen der Überlappungen,
wie in Schritt (v) des oben erklärten
Verfahrens angegeben, durch Nachvollziehen der in 3 angegebenen
Schritte durchgeführt.
-
In
einer weiteren Ausführung
der vorliegenden Erfindung umfaßt
das Mikroprozessorgestützte
System zum Durchführen
des Verfahrens der Erfindung folgendes:
- i)
Mittel zum Bestimmen des Aminosäuresequenz-Fensters
zum Erzeugen einer Peptid-Bibliothek und anschließenden Sortieren,
- ii) Mittel zum Vergleichen der Peptid-Bibliothek,
- iii) rechnergestütztes
Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen
und anschließendes
Markieren von diesen in Bezug auf Ursprung und Ort bzw. Lokalisation,
und
- iv) rechnergestütztes
Verbinden der überlappenden
gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen
zu erhalten.
-
In
einer weiteren Ausführung
der Erfindung umfaßt
das rechnergestützte
System zum Durchführen
der Verfahren der Erfindung eine zentrale Prozessoreinheit, die
ein eine Peptid-Bibliothek
erzeugendes Programm (PEPLIB), ein eine Peptid-Bibliothek abgleichendes
Programm (PEPLIMP), ein Peptide zusammenheftendes Programm (PEPSTITCH),
ein Peptid-Extraktionsprogramm
(PEPXTRACT) ausführt,
wobei die Programme alle in einer Speichervorrichtung gespeichert
sind, die durch die zentrale Prozessoreinheit angesteuert wird, die
mit einer Bildanzeige verbunden ist, auf der die zentrale Prozessoreinheit
die Darstellungen der oben genannten Programme als Antwort auf Eingaben
des Anwenders an einer Benutzer-Schnittstelle-Vorrichtung
anzeigt.
-
In
einer weiteren Ausführung
der vorliegenden Erfindung kann das Verfahren zum Zuordnen einer Funktion
zu einem Protein mit unbekannter Funktion, das keine/eine schwache
Homologie zu anderen Proteinsequenzen in einer allgemein verfügbaren Datenbank
(SWISSPROT) zeigt, ausgeführt
werden, indem folgende Schritte eingesetzt werden:
- I. rechnergestütztes
Erzeugen einer Bibliothek aus überlappenden
Peptiden von den Proteinsequenzen mit unbekannter Funktion,
- II. rechnergestütztes,
alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer
Länge „N" (N ist die Länge des
Gleitfensters von Aminosäuren)
nach dem Einzelbuchstaben-Aminosäuren-Code,
- III. rechnergestütztes
Abgleichen der aktuellen Bibliothek mit einer Peptid-Bibliothek aus allen
bekannten funktionellen Proteinen, um gemeinsame Peptide zu erhalten,
- IV. rechnergestütztes
Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen
und anschließendes
Markieren von diesen in Bezug auf Ursprung und Ort bzw. Lokalisation,
- V. rechnergestütztes
Verbinden der überlappenden
gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen
zu erhalten, und
- VI. Zuordnen einer Funktion zu dem unbekannten Protein auf der
Grundlage der Funktion des Proteins, mit dem eine maximale Länge einer
Peptidsequenzidentität
aufgefunden wird. Je größer die
Anzahl an Übereinstimmungen
mit den Proteinen mit ähnlicher
Funktion, desto größer wird
die Wahrscheinlichkeit einer funktionellen Zuordnung sein.
-
Die
Besonderheiten der Organismen, wie etwa ihr Name, ihr Stamm, die
Zugangsnummer und andere Einzelheiten, werden unten angegeben.
-
-
-
Kurze Beschreibung der
beigefügten
Zeichnungen:
-
1 zeigt
einen Logikschaltkreis eines eine Peptid-Bibliothek abgleichenden
Programms.
-
2 zeigt
einen Logikschaltkreis eines Peptid-Extraktionsprogramms.
-
3 zeigt
einen Logikschaltkreis eines Peptide zusammenheftenden Programms.
-
4 zeigt
Kristallstrukturen von drei invarianten Peptiden (VRKRPGMYIG, LHAGGKFD
und SGGLHGVG) des DNA-Gyrase B-Proteins.
-
Die
Erfindung wird unter Zuhilfenahme der folgenden Beispiele erläutert, was
nicht als Beschränkung des
Umfangs der vorliegenden Erfindung aufgefaßt werden soll.
-
BEISPIELE
-
Beispiel 1: Das eine Peptid-Bibliothek
erzeugende Programm (PEPLIB)
-
Der
Zweck des Programms ist, eine nicht-redundante Peptid-Bibliothek
mit einer vom Anwender bestimmten Fensterlänge „N" eines gegebenen Genoms durch Entlanggleiten
des Fensters an einem Aminosäurerest
zu einer Zeit zu erzeugen.
-
Das
Programm arbeitet wie folgt:
Die aus dem Internet heruntergeladenen
FASTA-Format-Dateien, erhalten aus http://ncbi.nlm.nih.gov, wurden durch
die Bezeichnung <organism_name>.pep gesichert und
als Eingabe in das PERL-Programm verschoben, welches einzigartige
Peptide mit einer Länge,
wie sie zum Zeitpunkt der Durchführung
festgelegt wird, erzeugt.
-
Eingabe-/Ausgabe-Dateiformat:
-
Heruntergeladene
Dateien und ihr Format:
-
- <organism_name>.pep: Datei, welche
die Kommentierung und die Proteinsequenz speichert.
- <organism_name> bezieht sich auf:
Tb
((Mycobacterium tuberculosis) Bs (Bacillus subtilis) Mg (Mycoplasma
genitalium) Mp (Mycoplasmsa pneumonia) Ec (Escherichia coli) Hp
(Helicobacter pylori) Hi (Haemophilus influenzae)
Format: FASTA
„>gi" <annotation>
«the entire
protein sequence ... ... ... ... ... .
-
Zum
Beispiel:
-
-
Die
Ausgabedatei:
<organism_name> <peptide_length>.txt
-
Format:
<all unique peptides
of length specified at the time of execution>
-
Zum
Beispiel Format von Tb8.txt:
-
-
Beispiel 2: Das eine Peptid-Bibliothek
abgleichende Programm (PEPLIMP)
-
Der
Zweck des Programms ist, die vom Anwender definierten Peptid-Bibliotheken
miteinander zu vergleichen und die gemeinsamen/einzigartigen Peptide
zu melden. Die Ausgabedateien des Programms PEPLIB werden als Eingabe
für das
PEPLIMP-Programm verwendet. Sobald das Programm ausgeführt wird,
wird der Anwender veranlaßt,
die Bibliotheken, die verglichen werden sollen, auszuwählen. In
Abhängigkeit
von den ausgewählten
Bibliotheken wird eine Ausgabedatei mit gemeinsamen Peptiden erzeugt
(1). Ein Vergleich von 8-mer-Peptid-Bibliotheken der oben erwähnten sieben
Organismen führte
zu 164 8-mer-Peptiden.
-
Ein
Vergleich von vier pathogenen Organismen, wie etwa Mycobacterium
tuberculosis, Helicobacter pylori, Mycoplasma pneumonia and Haemophilus
influenzae führte
zu 206 invarianten Peptiden, und ein Vergleich von drei nicht-pathogenen
Organismen, wie etwa Bacillus subtilis, Mycoplasma genitalium and
Escherichia coli, führte
zu 601 invarianten Peptiden. Der Vergleichsbaum sieht folgendermaßen aus:
-
-
Beispiel 3: Das Peptidextraktionsprogramm
(PEPXTRACT)
-
Dieses
Programm nimmt die Ausgabe des PEPLIMP-Programms, d.h. alle invarianten
Peptide, als Eingabe und lokalisiert diese Peptide in den Proteinsequenzen
aus der ursprünglichen
Datenbank und markiert sie mit der Proteinidentifikationsnummer
(protein identification numer, PID), der Lage und dem Namen des Organismus
zur weiteren Analyse. Der Logik-Schaltkreis
dieses Programms wird in dem in 2 gezeigten Flußdiagramm
erklärt.
-
Beispiel 4: Das Peptide
zusammenheftende Programm (PEPSTITCH)
-
Dieses
Programm entfernt intelligent die überlappenden invarianten Peptide
und meldet alle kontinuierlichen Strecken von invarianten Peptiden,
die in dem geprüften
Protein vorhanden sind. Dies wird durchgeführt, indem die „N"-mer-Peptide von
dem selben Protein eines Organismus zunächst in Gruppen eingeteilt werden
und dann werden sie, indem ihrer Lage nachgegangen wird, zu einem
langen einzelnen Peptid zusammengefügt. Der Logik-Schaltkreis dieses
Programms wird in 3 gezeigt.
-
Beispiel 5: Vorhersage
einer Funktion eines hypothetischen Proteins
-
Es
wurde festgestellt, daß ein
invariantes Peptid mit der Sequenz in FSGGQRQR in oppF/dppF-Proteinen
von sechs der sieben untersuchten Organismen existiert (mit Ausnahme
von M. tuberculosis). Dieses Protein wirkt als ein ATP-bindendes
Protein. Da für
dieses Invariante Peptid auch gefunden wurde, daß es auf einem hypothetischen
Protein, das durch das Rv1273c-Gen in M. tuberculosis kodiert wird,
lokalisiert ist, wird nahegelegt, daß dieses durch das Rv1273c-Gen
kodierte Protein als ein ATP-bindendes Protein wirkt, da es die
Signatur dieser Klasse von Proteinen besitzt.
-
Beispiel 6: Vorhersage
einer Funktion eines hypothetischen Proteins
-
Es
ist festgestellt worden, daß ein
anderes invariantes Peptid mit der Sequenz GIVGLPNVGKS in Proteinen
eine GTP-bindende Funktion in sechs der sieben untersuchten Bakterien
aufweist (mit Ausnahme von M. tuberculosis), wobei die selbe invariante
Sequenz in einem hypothetischen Protein, das durch das Rv1112-Gen
in M. tuberculosis kodiert wird, vorhanden ist. Es wird stark nahegelegt,
daß dieses
hypothetische Protein eine GTP-bindende Eigenschaft aufweisen kann,
da es die Signatur dieser Klasse von Proteinen besitzt.
-
Beispiel 7: Arzneimittelziel-Indentifizierung
auf der Grundlage von invarianten Peptidmotiven
-
Von
dem Enzym DNA-Gyrase ist bekannt, daß es das Supercoiling von DNA
reduziert. Dieses Protein fehlt beim Menschen und ist in den vergangenen
Jahren als ein Ziel berücksichtigt
worden. Allerdings ist die genaue Sequenz, welche die Arzneimittelmoleküle anzielen
sollten, noch nicht klar. Invariante Peptide, wie etwa VRKRPGMYIG,
LHAGGKFD, SGGLHGVG, LPGKLADC, VEGDSAGG und QRYKGLGEM, die in der DNA-Gyrase-beta-Untereinheit
von vielen pathogenen und nicht-pathogenen Bakterien invariant sind,
im Wirt jedoch fehlen, sind die strukturellen Determinanten, die
als potentielle Arzneimittelziele bei der Bekämpfung bakterieller Infektion
verwendet werden können.
Die Kristallstrukturen von drei dieser Peptide werden in 4 gezeigt.
-
Beispiel 8: Zuordnung
einer Funktion zu einem Protein mit unbekannter Funktion.
-
Unter
Zuhilfenahme dieses Verfahrens kann man einem Protein mit unbekannter
Funktion, das keine/eine schwache Homologie zu anderen, in einer öffentlich
zugänglichen
Datenbank (SWISSPROT) verfügbaren
Proteinsequenzen zeigt, eine Funktion zuordnen, indem die folgenden
Schritte eingesetzt werden:
- I. rechnergestütztes Erzeugen
einer Bibliothek aus überlappenden
Peptiden von den Proteinsequenzen mit unbekannter Funktion,
- II. rechnergestütztes,
alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer
Länge „N" (N ist die Länge des
Gleitfensters von Aminosäuren)
nach dem Einzelbuchstaben-Aminosäuren-Code,
- III. rechnergestütztes
Abgleichen der aktuellen Bibliothek mit einer Peptid-Bibliothek aus allen
funktionellen bekannten Proteinen, um gemeinsame Peptide zu erhalten,
- IV. rechnergestütztes
Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen
und anschließendes
Markieren von diesen in Bezug auf Ursprung und Lage bzw. Lokalisation,
- V. rechnergestütztes
Verbinden der überlappenden
gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen
zu erhalten, und
- VI. Zuordnen einer Funktion zu dem unbekannten Protein auf der
Grundlage der Funktion des Proteins, mit dem eine maximale Länge einer
Peptidsequenzidentität
aufgefunden wird.
-
Je
größer die
Anzahl an Übereinstimmungen
mit den Proteinen mit ähnlicher
Funktion, desto größer wird
die Wahrscheinlichkeit einer funktionellen Zuordnung sein.
-
Vorteile:
-
- 1. Der Hauptvorteil der vorliegenden Erfindung
ist, ein neues Verfahren zum genomweisen Vergleich einer großen Anzahl
(tausend) von Proteinen eines Organismus mit Proteinen anderer Organismen
gleichzeitig verfügbar
zu machen, um zu invarianten Peptidsequenzmotiv-Signaturen zu gelangen.
- 2. Sie macht ein schnelles Verfahren zur Identifikation von
invarianten Peptidmotiven verfügbar.
- 3. Sie macht ein einfaches und höchst genaues Verfahren zum
Bestimmen invarianter Peptidmotive verfügbar, da keine komplexen mathematischen
Berechnungen beteiligt sind.
- 4. Sie macht eine Grundlage für einen Durchmusterungstest
für antibakterielle
Breitband-Verbindungen verfügbar.
-
Referenzen:
-
- Altschul, S. F., Carol, R. J., & Lipman, D. J. (1990). Basic local
alignment search tool. J. Mol. Biol. 215, 403-410.
- Cutler N. S., Heitman J., Cardenas M. E., (1999). TOR kinase
homologs function in a signal transduction pathway that is conserved
from yeast to mammals. Mol Cell Endocrinol 155 (1-2), 135-142.
- Ghannoum, M. A. and Rice, L. B., (1999). Antifungal agents:
mode of action, mechanisms of resistance, and correlation of these
mechanisms with bacterial resistance. Clin Microbiol Rev 12 (4),
501-517.
- McCafferty D. G., Cudic,P., Yu, M. K., Behenna, D. C., Kruger,
R, (1999). Synergy and duality in peptide antibiotic mechanisms.
Curr Opin Chem Biol 3 (6), 672-680.
- Porse, B. T., & Garrette.
R. A. (1999). Ribosomal mechanics, antibiotics, and GTP hydrolysis.
Cell 97, 423-426.
- Presenell, S. R., Cohen, B. I., & Cohen, F.E., (1992). A segment based
approach to protein secondary structure prediction. Biochemistry
31, 983-993.
- Rooman, M. J., & Wodak,
S. J. (1988). Identification of predictive sequence motifs limited
by protein structure database size. Nature 335, 45-49.
- Wilbur, W.J., & Lipman,
D. J. (1983). Rapid similarly searches of nucleic acid and protein
data banks. Proc Natl Acad Sci USA 80, 726-730.
- Wimberly, B. T., Guymon, R., McCutcheon, White, S. W., & Ramakrishnan,
V., (1999). A detailed view of a ribosomal active site: The structure
of the L11-RNA complex. Cell 97, 491-502.