DE60017471T2 - Ein auf computerverwendung basiertes verfahren zur identifizierung von unveränderlichen peptid-motiven - Google Patents

Ein auf computerverwendung basiertes verfahren zur identifizierung von unveränderlichen peptid-motiven Download PDF

Info

Publication number
DE60017471T2
DE60017471T2 DE60017471T DE60017471T DE60017471T2 DE 60017471 T2 DE60017471 T2 DE 60017471T2 DE 60017471 T DE60017471 T DE 60017471T DE 60017471 T DE60017471 T DE 60017471T DE 60017471 T2 DE60017471 T2 DE 60017471T2
Authority
DE
Germany
Prior art keywords
peptide
protein
peptides
computer
invariant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60017471T
Other languages
English (en)
Other versions
DE60017471D1 (de
Inventor
Samir Kumar BRAHMACHARI
Debasis Dash
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Council of Scientific and Industrial Research CSIR
Original Assignee
Council of Scientific and Industrial Research CSIR
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Council of Scientific and Industrial Research CSIR filed Critical Council of Scientific and Industrial Research CSIR
Publication of DE60017471D1 publication Critical patent/DE60017471D1/de
Application granted granted Critical
Publication of DE60017471T2 publication Critical patent/DE60017471T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Library & Information Science (AREA)
  • Medicinal Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Description

  • Bereich der Erfindung
  • Diese Erfindung betrifft ein rechnergestütztes Verfahren zum Identifizieren von Peptiden, die als Zielmoleküle von Arzneimitteln bzw. Arzneimittelziele ("drug targets") nützlich sind. Genauer gesagt, betrifft diese Erfindung ein Verfahren zum Identifizieren von invarianten Peptidmotiven in Proteinsequenzdaten verschiedener Organismen, die als potentielle Arzneimittelziele nützlich sind. Diese Erfindung macht weiterhin ein Verfahren zum Zuordnen einer Funktion zu einem hypothetischen offen Leseraster (Proteine) mit unbekannter Funktion durch eine exakte Signatur einer Aminosäuresequenzidentität verfügbar.
  • Diese Erfindung macht einen neuen Ansatz zum Identifizieren struktureller und funktioneller Signaturen von konservierten invarianten Aminosäuresequenzen von Proteinen verfügbar, die als potentielle Kandidaten für Arzneimittelziele dienen können. Die Herausbildung von Arzneimittelresistenten Stämmen hat eine Identifizierung von neuen Arzneimitteln und Arzneimittelzielen notwendig gemacht. Einzigartige invariante Peptidmotive, die in den Proteinen eines Pathogens vorhanden sind, in den Proteinen eines Wirts jedoch fehlen, weisen auf potentielle Arzneimittelziele hin. Die Erfindung macht auch ein Verfahren verfügbar, um eine große Anzahl von Proteinsequenzen gleichzeitig genomweise zu vergleichen. Noch eine weitere Anwendbarkeit ist das Identifizieren von Peptidsequenzen, die zur speziellen Diagnose von Infektionen nützlich sind.
  • Hintergrund der Erfindung
  • Es ist bekannt, daß die meisten Arzneimittel, die heute zur Verfügung stehen, um Infektionen zu kurieren, an spezielle Protein-Zielmoleküle in der Zelle des verursachenden Organismus binden. Beispielsweise ist bekannt, daß einige Antibiotika die Funktion von Ribosomen stören, so daß die Proteintranslation beeinträchtigt ist. In diesen Fällen ist festgestellt worden, daß die Arzneimittel entweder direkt an die ribosomale RNA oder an RNA-Proteinkomplexe binden (Wimberly et al., 1999). Chemische Forschungsexperimente haben gezeigt, daß diese Arzneimittel an bestimmte Nukleotidsequenzen von ribosomaler RNA binden, die in strukturell analogen Bereichen in verschiedenen Organismen „invariant" sind (Porse and Garrett, 1999). Die andere Klasse von Arzneimitteln dient dazu, andere Funktionen, wie etwa die Transkription (Cutler et al., 1999) oder die Fettsäuresynthese (McCafferty et al., 1999) in der Bakterienzelle zu blockieren.
  • Kürzlich hat sich herausgestellt, daß mehrere Arzneimittel-resistente Stämme (Ghannoum and Rice, 1999) pathogener Bakterien die gegenwärtigen Behandlungsverfahren zum Kurieren von Infektionen durch bakterielle Pathogene unwirksam machen. Dies macht die Identifizierung neuer Arzneimittelziele und der korrespondierenden Arzneimittel erforderlich. Zu diesem Zweck bietet uns die Verfügbarkeit vollständiger Genomsequenzen aus verschiedenen Mikroben eine Möglichkeit, alle Proteine zu analysieren, die in einem gegebenen Genom kodiert sind. Da die meisten Arzneimittel, die heute bekannt sind, Proteine anzielen, ist es wahrscheinlich, daß ein Analysieren aller Proteine in einen gegebenem Bakterium neue valide Arzneimittelziele verfügbar macht.
  • Die Kenntnis konservierter invarianter Sequenzen in einem Protein kann beim Verstehen bestimmter Merkmale der Architektur eines Proteins nützlich sein, wie etwa eine verdeckte im Unterschied zu einer exponierten Lage eines Segments oder das Vorhandensein spezieller sekundärer Strukturelemente (Rooman and Wodak, 1988; Presnell et al., 1992). Die funktionelle Rolle des Proteins ist der wichtigste Aspekt bei konservierten invarianten Sequenzen. Verfahren einer gebräuchlichen Sequenzanalyse schließen BLAST (Altschul et al., 1990) und FASTA (Wilbur and Lipman, 1983) ein. Diese Verfahren führen einen Sequenzabgleich durch, dessen Qualität unter Verwendung einer Aminosäuresubstitutionsmatrix evaluiert wird. Es werden statistische Berechnungen durchgeführt und die Ergebnisse in der Art einer Rangordnung ausgegeben, wobei die größte Sequenzähnlichkeit die höchste Rangordnung erhält. Diese Verfahren sind allerdings nicht dafür entworfen, einen gleichzeitigen genomweisen Vergleich durchzuführen, um invariante Sequenzmotive, die in dieser Arbeit von besonderer Wichtigkeit sind, zu identifizieren.
  • Um jedes Protein eines Organismus mit allen anderen Proteinen einiger anderer Organismen zu vergleichen, muß man entweder BLAST mehrfach hintereinander verwenden oder es muß ein Satz BLAST verwendet werden, was sehr zeitaufwendig und deshalb nicht praktikabel ist.
  • Selbst wenn dies durchgeführt würde, erhielte man am Ende der Aufgabe die Gesamtähnlichkeit eines Satzes von homologen Proteinen und Abgleichen.
  • Das Problem mit einem vielfachen Sequenzabgleich besteht darin, daß dieser durch die Proteinauswahl verzerrt wird. Nur Proteine, die funktionell verwandt sind, werden ein klares Bild von einer Verwandtschaft zwischen den ausgewählten Proteinen ergeben. Derartige Verfahren sind arbeitsintensiv und zeitaufwendig und führen zu Ergebnissen, die ein weiteres Bearbeiten und Filtern erfordern. Dennoch ist es durch diese Verfahren nicht möglich, alle Proteine von einigen Organismen zu vergleichen und konservierte invariante Peptide hervorzuholen.
  • Die vorliegende Erfindung macht ein neues rechnergestütztes Verfahren verfügbar, um nach invarianten Sequenzmotiven zu suchen, was zu einer vielfachen Anwendung, wie oben beschrieben, führen wird, und die oben aufgeführten Rückschläge vermeidet.
  • Der Ansatz der Anmelder beruht auf dem Paradigma, daß die invarianten Sequenzmotive zwischen den verschiedenen Bakterienproteinen für eine wichtige Rolle im Bezug auf Struktur und Funktion des Proteins verantwortlich sein müssen. Von den zahlreichen Wegen, auf denen Arzneimittelziele identifiziert werden können, haben wir einen Ansatz genommen, der auf vergleichender und struktureller Genomics-Technologie beruht. In diesem Fall können die invarianten Sequenzmotive entweder direkt oder indirekt an der Funktion des fraglichen Proteinmoleküls beteiligt sein. Dieser Ansatz leitet sich von dem Konzept ab, daß invariante Sequenzmotive, die zwischen Bakterien, die entweder entfernt oder eng miteinander verwandt sind, unverändert geblieben sind, ein einzigartiges strukturelles Merkmal entwickelt haben sollten, das nicht beeinträchtigt werden kann. Tatsächlich ist es sogar möglich, daß die sogenannten konservativen Substitutionen in diesen invarianten Sequenzmotiven auch nicht toleriert werden. Schließlich haben wir einige invariante Peptidmotive durch direkten Sequenzvergleich zwischen verschiedenen Bakteriengenomen ohne jede a priori-Annahme identifiziert. Diese ganz unvoreingenommene und nicht vermutete Art, die Sequenzen zu untersuchen, hat den Vorteil, daß nicht identifizierte Sequenzeigenschaften in den verschiedenen Genomen aufgedeckt werden.
  • Da invariante Sequenzmotive für die Funktion des fraglichen Proteinmoleküls wichtig sein können, setzten wir uns zum Ziel, diese Peptidmotive als potentielle Arzneimittelziele für Breitband-Antibiotika zu entwickeln. Es ist wahrscheinlich, daß ein kleines Molekül, das spe zifisch an diese invarianten Sequenzen bindet, eine Störung der Funktion des fraglichen Proteinmoleküls verursacht. Es ist wahrscheinlich, daß dieser in silico-Ansatz neue Hinweise auf eine experimentelle Validierung verfügbar machen wird, um von Proteinsequenzen, die in den verfügbaren Datenbanken vorhanden sind, Funktionen abzuleiten.
  • Aufgaben der Erfindung
  • Die Hauptaufgabe der vorliegenden Erfindung ist, ein Verfahren zum genomweisen Vergleich von Proteinsequenzen einiger Organismen und zum Identifizieren invarianter konservierter Peptide verfügbar zu machen.
  • Eine weitere Aufgabe der vorliegenden Erfindung betrifft ein neues rechnergestütztes Verfahren zum Durchführen eines genomweisen Vergleichs einiger Organismen, wobei das rechnergestützte Verfahren die Schaffung von Peptid-Bibliotheken mit Proteinsequenzen von einigen Organismen und den anschließenden Vergleich, der zur Identifikation konservierter invarianter Peptidmotive führt, umfaßt.
  • Noch eine weitere Aufgabe der vorliegenden Erfindung betrifft das Verfügbarmachen eines Verfahrens, das zur Identifikation potentieller Arzneimittelziele nützlich ist und auf der Suche nach Breitband-Antibakteriziden zum Durchmustern von Arzneimitteln („drug screen") ebenso wie zur Suche nach einer spezifischen Diagnose von Infektionen dienen kann.
  • Noch eine weitere Aufgabe der vorliegenden Erfindung ist, Proteinen mit bisher unbekannten Funktionen eine geeignete Funktion zuzuordnen.
  • Noch eine weitere Aufgabe ist, ein rechnergestütztes Verfahren, welches die invarianten Peptide oder ihre Analoga zum Identifizieren potentieller Arzneimittelziele beinhaltet, verfügbar zu machen.
  • Zusammenfassung der Erfindung
  • Die Anmelder haben ein Verfahren erfunden, um invariante Peptidmotive zu identifizieren, die von Millionen von Peptiden, die in Proteinsequenzen vieler Organismen, die einer natürlichen Selektion widerstanden haben, vorhanden sind, erhalten wurden.
  • Das vorliegende Verfahren wird auch erlauben, eine Toxizität, ein alternatives Ziel für ein Arzneimittel, das ein spezielles Peptidmotiv eines pathogenen Organismus anzielt, in Wirtszellen oder jedes Wirtsproteinziel, das für einen Krankheitsprozeß verantwortlich ist, vorherzusagen. Das Verfahren kann weniger streng auf eine größere Anzahl von Proteinen und auch auf Eukaryonten und multizelluläre Organismen ausgedehnt werden.
  • Andere und weitere Aspekte, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung der gegenwärtig bevorzugten Ausführungen der Erfindung, die zum Zwecke der Offenbarung gegeben wird, offensichtlich werden.
  • Kurze Beschreibung der Computerprogramme
  • 1. PEPLIB
  • Ziel: Erzeugen von Peptid-Bibliotheken aus Organismen anhand ihrer Protein-Dateien im FASTA-Format.
  • Dadurch werden überlappende Peptide mit einer vom Anwender definierten Länge erzeugt und dann werden nur nicht-redundante Peptide in der Ausgabedatei alphabetisch angeordnet.
    Programmsprache: PERL auf IRIX-Plattform.
  • 2. PEPLIMP
  • Ziel: Dieses Programm vergleicht die Peptid-Bibliotheken von Organismen, die durch den Anwender ausgewählt werden, und wählt die Peptidsequenzen aus, die den Genomen gemeinsam sind.
    Programmsprache: PERL auf IRIX-Plattform.
  • 3. PEPXTRACT
  • Ziel: Dieses Programm nimmt eine Peptid-Datei als Eingabe, sucht in den FASTA-Format-Protein-Dateien (pep-Dateien) und wählt die Einzelheiten im Bezug auf die Peptide aus. Die Einzelheiten schließen die PID, die Lage des Peptids im Protein, den Namen des Organismus etc. ein.
    Programmsprache: PERL auf IRIX-Plattform.
  • 4. PEPSTITCH
  • Ziel: Dieses Programm verbindet die Peptide in Abhängigkeit von bestimmten festgelegten Kriterien (die beiden Peptide sollten das selbe PID aufweisen und ihre Lagen sollten benachbart sein) und entfernt Überlappungen und meldet alle konservierten invarianten Peptide.
    Programmsprache: PERL auf IRIX-Plattform.
  • Einzelheiten der Erfindung
  • Obwohl theoretisch eine riesige Anzahl von Kombinationen auf der Aminosäure-Ebene möglich ist, um ein Peptid mit einer vorgegebenen Länge zu bilden, ist nur ein beschränkter Anteil in biologischen Systemen beobachtet worden. Von diesem beschränkten Anteil blieben nur wenige Peptide in den Genomen verschiedener Organismen invariant. Bei dieser Arbeit haben wir eine Antwort auf die Frage gesucht, welche die Natur von Peptiden betrifft, die bei allen Genomen pathogener und nicht-pathogener Bakterien invariant sind.
  • Im Zusammenhang mit der vorliegenden Erfindung ist gezeigt worden, daß eine Strecke aus konservierten Aminosäuren in Proteinen verschiedener Organismen eine akkurate Unterscheidung zwischen verschiedenen Klassen von Proteinen verfügbar machen kann. Im allgemeinen werden diese Proteine als Proteine mit einer sehr grundlegenden Funktion beim Überleben des Organismus identifiziert.
  • Die Proteinsequenzen einiger Organismen wurden rechnergestützt aus den vorhandenen Datenbanken (NCBI, genbank/genomes/bacteria) erhalten. Diese wurden dann computergestützt in Peptidfragmente mit „N" Aminosäureresten durch ein speziell entwickeltes Computerprogramm, PEPLIB, gestückelt. Eine Bibliothek aus Peptiden mit einer Länge „N" wurde für alle Proteine eines jeden Organismus geschaffen, indem das Fenster mit einer Länge „N" an der Sequenz an einem Rest zu einer Zeit entlang gleiten gelassen wurde. Die dabei erhaltenen Peptide wurden rechnergestützt in alphabetischer Reihenfolge nach dem Einzelbuchstaben-Aminosäuren-Code sortiert und die Redundanz wurde entfernt, indem doppelte Peptide gelöscht wurden. Die Peptid-Bibliotheken verschiedener Organismen wurden dann rechnergestützt verglichen, um gemeinsame Peptide aufzufinden. Der Vergleich wurde unter Verwendung eines speziell entwickelten Computerprogramms, bezeichnet als PEPLIMP, durchgeführt. Die gemeinsamen Peptide wurden rechnergestützt in den Originalproteinen unter Verwendung des PEPXTRACT-Programms lokalisiert und wurden anschließend mit ihren Ursprungsproteinen und ihrer Lage gekennzeichnet. Diese gemeinsamen Peptide wurden rechnergestützt zusammengeheftet, um eine lange Kette gemeinsamer Peptide zu bilden. Dies wurde unter Verwendung des PEPSTICH-Programms durchgeführt.
  • Diese auf diese Weise erhaltenen Fragmente gemeinsamer Peptide wurden als invariante Peptide bezeichnet, da sie aus funktionell konservierten Proteinen stammten. Alle konservierten invarianten Peptide, die aus dem selben Protein erhalten wurden, wurden dann in einer Gruppe zusammengefaßt. Die Sekundärstruktur dieser Peptide wurde anhand der Protein-Kristallstruktur-Datenbank, nämlich Potein Data Bank (PDB), validiert.
  • Dementsprechend macht die Erfindung ein computergestütztes Verfahren zum Identifizieren invarianter Peptidmotive verfügbar, die als Arzneimittelziele nützlich sind, wobei das Verfahren folgende Schritte umfaßt:
    • i) rechnergestütztes Erzeugen einer Bibliothek aus überlappenden Peptiden von allen bekannten Proteinsequenzen der ausgewählten Organismen, die unter http://www.ncbi.nlm.nih.gov verfügbar sind,
    • ii) rechnergestütztes, alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer Länge „N" nach dem Einzelbuchstaben-Aminosäuren-Code,
    • iii) rechnergestütztes Abgleichen von gemeinsamen Peptidsequenzen der ausgewählten Bakterien,
    • iv) rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Ort bzw. Lokalisation,
    • v) rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten,
    • vi) Vermerken einer Sekundärstruktur dieser konservierten Peptide anhand der Kristallstruktur-Datenbank,
    • vii) Vergleichen von Genomen pathogener Stämme mit Genomen von nicht-pathogenen Stämmen und Auswählen der Sequenzen, die in diesen beiden Gruppen nicht allgemein konserviert sind, und
    • viii) rechnergestütztes Validieren der invarianten Sequenzmotive als potentielle Sequenz von Zielmolekülen von Arzneimitteln bzw. Arzneimittelzielsequenz durch Suchen nach den angegebenen konservierten Sequenzen im Wirtsgenom und Verwerfen derjenigen, die im Wirtsgenom vorhanden sind.
  • In einer Ausführung der vorliegenden Erfindung kann die Länge des Gleitfensters mit einer Länge „N" von 4 Aminosäureresten bis zu jeder Länge reichen.
  • In einer Ausführung der Erfindung können die Proteinsequenzdaten von jedem Organismus genommen werden, ohne jedoch speziell auf Mikroben, wie etwa Mycoplasma pneumoniae, Helicobacter pylori, Hemophilus influenzae, Mycobacterium tuberculosis, Mycoplasma genitalium, Bacillus subtillis, Escherichia coli, beschränkt zu sein.
  • In einer weiteren Ausführung umfassen die konservierten Peptidmotive folgende:
    • 1. AAQSIGEPGTQLT
    • 2. AGDGTTTAT
    • 3. AGRHGNKG
    • 4. AHIDAGKTTT
    • 5. CPIETPEG
    • 6. DEPSIGLH
    • 7. DEPTSALD
    • 8. DEPTTALDVT
    • 9. DHAGIATQ
    • 10. DHPHGGGEG
    • 11. DLGGGTFD
    • 12. DVLDTWFSS
    • 13. ERERGITI
    • 14. ERGITITSAAT
    • 15. ESRRIDNQLRGR
    • 16. FSGGQRQR
    • 17. GEPGVGKTA
    • 18. GFDYLRDN
    • 19. GHNLQEHS
    • 20. GIDLGTTNS
    • 21. GINLLREGLD
    • 22. GIVGLPNVGKS
    • 23. GKSSLLNA
    • 24. GLTGRKIIVDTYG
    • 25. GPPGTGKTLLA
    • 26. GPPGVGKT
    • 27. GSGKTTLL
    • 28. GTRIFGPV
    • 29.IDTPGHVDFT
    • 30. IIAHIDHGKSTL
    • 31. INGFGRIGR
    • 32. IREGGRTVG
    • 33. IVGESGSGKS
    • 34. KFSTYATWWI
    • 35. KMSKSKGN
    • 36. KMSKSLGN
    • 37. KNMITGAAQMDGAILW
    • 38. KPNSALRK
    • 39. LFGGAGVGKTV
    • 40. LGPSGCGK
    • 41. LHAGGKFD
    • 42. LIDEARTPLIISG
    • 43. LLNRAPTLH
    • 44. LPDKAIDLIDE
    • 45. LPGKLADC
    • 46. LSGGQQQR
    • 47. MGHVDHGKT
    • 48. NADFDGDQMAVH
    • 49. NGAGKSTL
    • 50. NLLGKRVD
    • 51. NTDAEGRL
    • 52. PSAVGYQPTLA
    • 53. QRVAIARA
    • 54. QRYKGLGEM
    • 55. RDGLKPVHRR
    • 56. SALDVSIQA
    • 57. SGGLHGVG
    • 58. SGSGKSSL
    • 59. SGSGKSTL
    • 60. SVFAGVGERTREGND
    • 61. TGRTHQIRVH
    • 62. TGVSGSGKS
    • 63. TLSGGEAQRI
    • 64. TNKYAEGYP
    • 65. TPRSNPATY
    • 66. VEGDSAGG
    • 67. VRKRPGMYIG
  • In noch einer weiteren Ausführung der vorliegenden Erfindung kann die Anzahl von invarianten Peptiden je nach Verwandtschaft zwischen den Organismen und der Anzahl der Organismen, die verglichen werden, variieren.
  • In noch einer weiteren Ausführung können die invarianten Sequenzen zu den folgenden Proteinen gehören, die in der Datenbank http://www.ncbi.nlm.nih.gov verfügbar sind, wobei die Liste von Proteinen folgende umfaßt:
    • I) DNA-GESTEUERTE RNA-POLYMERASE, BETA-KETTE
    • II) ABC-EXCINUCLEASE, UNTEREINHEIT A
    • III) ABC-EXCINUCLEASE, UNTEREINHEIT B
    • IV) DNA-GYRASE, UNTEREINHEIT B
    • V) ATP-SYNTHASE, BETA-KETTE
    • VI) S-ADENOSYLMETHIONIN-SYNTHETASE
    • VII) GLYCERALDEHYDE-3-PHOSPHAT-DEHYDROGENASE
    • VIII) ELONGATIONSFAKTOR G (EF-G)
    • IX) ELONGATIONSFAKTOR TU (EF-TU)
    • X) 30S RIBOSOMALES PROTEIN S12
    • XI) 50S RIBOSOMALES PROTEIN L12
    • XII) 50S RIBOSOMALES PROTEIN L14
    • XIII) VALYL-tRNA-SYNTHETASE (VALRS)
    • XIV) ZELLTEILUNGSPROTEIN FtSH-HOMOLOG
    • XV) DnaK-PROTEIN (HSP70)
    • XVI) GTP-BINDENDES PROTEIN LepA
    • XVII) TRANSPORTER
    • XVIII) OLIGOPEPTID-TRANSPORT-ATP-BINDENDES PROTEIN OPPF
  • In noch einer weiteren Ausführung der vorliegenden Erfindung wird das Verfahren eines Vergleichens der Peptid-Bibliotheken, wie in Schritt (iii) des oben erklärten Verfahrens angegeben, durch Nachvollziehen der in 1 angegebenen Schritte durchgeführt.
  • In noch einer Ausführung der vorliegenden Erfindung wird das Verfahren zum Lokalisieren der gemeinsamen Peptiden in den Originalproteinsequenzen, wie in Schritt (iv) des oben er klärten Verfahrens angegeben, durch Nachvollziehen der in 2 angegebenen Schritte durchgeführt.
  • In einer weiteren Ausführung wird das Verfahren zum Erzeugen eines gemeinsamen Peptids von variabler Länge nach Entfernen der Überlappungen, wie in Schritt (v) des oben erklärten Verfahrens angegeben, durch Nachvollziehen der in 3 angegebenen Schritte durchgeführt.
  • In einer weiteren Ausführung der vorliegenden Erfindung umfaßt das Mikroprozessorgestützte System zum Durchführen des Verfahrens der Erfindung folgendes:
    • i) Mittel zum Bestimmen des Aminosäuresequenz-Fensters zum Erzeugen einer Peptid-Bibliothek und anschließenden Sortieren,
    • ii) Mittel zum Vergleichen der Peptid-Bibliothek,
    • iii) rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Ort bzw. Lokalisation, und
    • iv) rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten.
  • In einer weiteren Ausführung der Erfindung umfaßt das rechnergestützte System zum Durchführen der Verfahren der Erfindung eine zentrale Prozessoreinheit, die ein eine Peptid-Bibliothek erzeugendes Programm (PEPLIB), ein eine Peptid-Bibliothek abgleichendes Programm (PEPLIMP), ein Peptide zusammenheftendes Programm (PEPSTITCH), ein Peptid-Extraktionsprogramm (PEPXTRACT) ausführt, wobei die Programme alle in einer Speichervorrichtung gespeichert sind, die durch die zentrale Prozessoreinheit angesteuert wird, die mit einer Bildanzeige verbunden ist, auf der die zentrale Prozessoreinheit die Darstellungen der oben genannten Programme als Antwort auf Eingaben des Anwenders an einer Benutzer-Schnittstelle-Vorrichtung anzeigt.
  • In einer weiteren Ausführung der vorliegenden Erfindung kann das Verfahren zum Zuordnen einer Funktion zu einem Protein mit unbekannter Funktion, das keine/eine schwache Homologie zu anderen Proteinsequenzen in einer allgemein verfügbaren Datenbank (SWISSPROT) zeigt, ausgeführt werden, indem folgende Schritte eingesetzt werden:
    • I. rechnergestütztes Erzeugen einer Bibliothek aus überlappenden Peptiden von den Proteinsequenzen mit unbekannter Funktion,
    • II. rechnergestütztes, alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer Länge „N" (N ist die Länge des Gleitfensters von Aminosäuren) nach dem Einzelbuchstaben-Aminosäuren-Code,
    • III. rechnergestütztes Abgleichen der aktuellen Bibliothek mit einer Peptid-Bibliothek aus allen bekannten funktionellen Proteinen, um gemeinsame Peptide zu erhalten,
    • IV. rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Ort bzw. Lokalisation,
    • V. rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten, und
    • VI. Zuordnen einer Funktion zu dem unbekannten Protein auf der Grundlage der Funktion des Proteins, mit dem eine maximale Länge einer Peptidsequenzidentität aufgefunden wird. Je größer die Anzahl an Übereinstimmungen mit den Proteinen mit ähnlicher Funktion, desto größer wird die Wahrscheinlichkeit einer funktionellen Zuordnung sein.
  • Die Besonderheiten der Organismen, wie etwa ihr Name, ihr Stamm, die Zugangsnummer und andere Einzelheiten, werden unten angegeben.
  • Figure 00130001
  • Figure 00140001
  • Kurze Beschreibung der beigefügten Zeichnungen:
  • 1 zeigt einen Logikschaltkreis eines eine Peptid-Bibliothek abgleichenden Programms.
  • 2 zeigt einen Logikschaltkreis eines Peptid-Extraktionsprogramms.
  • 3 zeigt einen Logikschaltkreis eines Peptide zusammenheftenden Programms.
  • 4 zeigt Kristallstrukturen von drei invarianten Peptiden (VRKRPGMYIG, LHAGGKFD und SGGLHGVG) des DNA-Gyrase B-Proteins.
  • Die Erfindung wird unter Zuhilfenahme der folgenden Beispiele erläutert, was nicht als Beschränkung des Umfangs der vorliegenden Erfindung aufgefaßt werden soll.
  • BEISPIELE
  • Beispiel 1: Das eine Peptid-Bibliothek erzeugende Programm (PEPLIB)
  • Der Zweck des Programms ist, eine nicht-redundante Peptid-Bibliothek mit einer vom Anwender bestimmten Fensterlänge „N" eines gegebenen Genoms durch Entlanggleiten des Fensters an einem Aminosäurerest zu einer Zeit zu erzeugen.
  • Das Programm arbeitet wie folgt:
    Die aus dem Internet heruntergeladenen FASTA-Format-Dateien, erhalten aus http://ncbi.nlm.nih.gov, wurden durch die Bezeichnung <organism_name>.pep gesichert und als Eingabe in das PERL-Programm verschoben, welches einzigartige Peptide mit einer Länge, wie sie zum Zeitpunkt der Durchführung festgelegt wird, erzeugt.
  • Eingabe-/Ausgabe-Dateiformat:
  • Heruntergeladene Dateien und ihr Format:
    • <organism_name>.pep: Datei, welche die Kommentierung und die Proteinsequenz speichert.
    • <organism_name> bezieht sich auf: Tb ((Mycobacterium tuberculosis) Bs (Bacillus subtilis) Mg (Mycoplasma genitalium) Mp (Mycoplasmsa pneumonia) Ec (Escherichia coli) Hp (Helicobacter pylori) Hi (Haemophilus influenzae) Format: FASTA „>gi" <annotation> «the entire protein sequence ... ... ... ... ... .
  • Zum Beispiel:
  • Figure 00160001
  • Die Ausgabedatei:
    <organism_name> <peptide_length>.txt
  • Format:
    <all unique peptides of length specified at the time of execution>
  • Zum Beispiel Format von Tb8.txt:
  • Figure 00160002
  • Beispiel 2: Das eine Peptid-Bibliothek abgleichende Programm (PEPLIMP)
  • Der Zweck des Programms ist, die vom Anwender definierten Peptid-Bibliotheken miteinander zu vergleichen und die gemeinsamen/einzigartigen Peptide zu melden. Die Ausgabedateien des Programms PEPLIB werden als Eingabe für das PEPLIMP-Programm verwendet. Sobald das Programm ausgeführt wird, wird der Anwender veranlaßt, die Bibliotheken, die verglichen werden sollen, auszuwählen. In Abhängigkeit von den ausgewählten Bibliotheken wird eine Ausgabedatei mit gemeinsamen Peptiden erzeugt (1). Ein Vergleich von 8-mer-Peptid-Bibliotheken der oben erwähnten sieben Organismen führte zu 164 8-mer-Peptiden.
  • Ein Vergleich von vier pathogenen Organismen, wie etwa Mycobacterium tuberculosis, Helicobacter pylori, Mycoplasma pneumonia and Haemophilus influenzae führte zu 206 invarianten Peptiden, und ein Vergleich von drei nicht-pathogenen Organismen, wie etwa Bacillus subtilis, Mycoplasma genitalium and Escherichia coli, führte zu 601 invarianten Peptiden. Der Vergleichsbaum sieht folgendermaßen aus:
  • Figure 00170001
  • Beispiel 3: Das Peptidextraktionsprogramm (PEPXTRACT)
  • Dieses Programm nimmt die Ausgabe des PEPLIMP-Programms, d.h. alle invarianten Peptide, als Eingabe und lokalisiert diese Peptide in den Proteinsequenzen aus der ursprünglichen Datenbank und markiert sie mit der Proteinidentifikationsnummer (protein identification numer, PID), der Lage und dem Namen des Organismus zur weiteren Analyse. Der Logik-Schaltkreis dieses Programms wird in dem in 2 gezeigten Flußdiagramm erklärt.
  • Beispiel 4: Das Peptide zusammenheftende Programm (PEPSTITCH)
  • Dieses Programm entfernt intelligent die überlappenden invarianten Peptide und meldet alle kontinuierlichen Strecken von invarianten Peptiden, die in dem geprüften Protein vorhanden sind. Dies wird durchgeführt, indem die „N"-mer-Peptide von dem selben Protein eines Organismus zunächst in Gruppen eingeteilt werden und dann werden sie, indem ihrer Lage nachgegangen wird, zu einem langen einzelnen Peptid zusammengefügt. Der Logik-Schaltkreis dieses Programms wird in 3 gezeigt.
  • Beispiel 5: Vorhersage einer Funktion eines hypothetischen Proteins
  • Es wurde festgestellt, daß ein invariantes Peptid mit der Sequenz in FSGGQRQR in oppF/dppF-Proteinen von sechs der sieben untersuchten Organismen existiert (mit Ausnahme von M. tuberculosis). Dieses Protein wirkt als ein ATP-bindendes Protein. Da für dieses Invariante Peptid auch gefunden wurde, daß es auf einem hypothetischen Protein, das durch das Rv1273c-Gen in M. tuberculosis kodiert wird, lokalisiert ist, wird nahegelegt, daß dieses durch das Rv1273c-Gen kodierte Protein als ein ATP-bindendes Protein wirkt, da es die Signatur dieser Klasse von Proteinen besitzt.
  • Beispiel 6: Vorhersage einer Funktion eines hypothetischen Proteins
  • Es ist festgestellt worden, daß ein anderes invariantes Peptid mit der Sequenz GIVGLPNVGKS in Proteinen eine GTP-bindende Funktion in sechs der sieben untersuchten Bakterien aufweist (mit Ausnahme von M. tuberculosis), wobei die selbe invariante Sequenz in einem hypothetischen Protein, das durch das Rv1112-Gen in M. tuberculosis kodiert wird, vorhanden ist. Es wird stark nahegelegt, daß dieses hypothetische Protein eine GTP-bindende Eigenschaft aufweisen kann, da es die Signatur dieser Klasse von Proteinen besitzt.
  • Beispiel 7: Arzneimittelziel-Indentifizierung auf der Grundlage von invarianten Peptidmotiven
  • Von dem Enzym DNA-Gyrase ist bekannt, daß es das Supercoiling von DNA reduziert. Dieses Protein fehlt beim Menschen und ist in den vergangenen Jahren als ein Ziel berücksichtigt worden. Allerdings ist die genaue Sequenz, welche die Arzneimittelmoleküle anzielen sollten, noch nicht klar. Invariante Peptide, wie etwa VRKRPGMYIG, LHAGGKFD, SGGLHGVG, LPGKLADC, VEGDSAGG und QRYKGLGEM, die in der DNA-Gyrase-beta-Untereinheit von vielen pathogenen und nicht-pathogenen Bakterien invariant sind, im Wirt jedoch fehlen, sind die strukturellen Determinanten, die als potentielle Arzneimittelziele bei der Bekämpfung bakterieller Infektion verwendet werden können. Die Kristallstrukturen von drei dieser Peptide werden in 4 gezeigt.
  • Beispiel 8: Zuordnung einer Funktion zu einem Protein mit unbekannter Funktion.
  • Unter Zuhilfenahme dieses Verfahrens kann man einem Protein mit unbekannter Funktion, das keine/eine schwache Homologie zu anderen, in einer öffentlich zugänglichen Datenbank (SWISSPROT) verfügbaren Proteinsequenzen zeigt, eine Funktion zuordnen, indem die folgenden Schritte eingesetzt werden:
    • I. rechnergestütztes Erzeugen einer Bibliothek aus überlappenden Peptiden von den Proteinsequenzen mit unbekannter Funktion,
    • II. rechnergestütztes, alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer Länge „N" (N ist die Länge des Gleitfensters von Aminosäuren) nach dem Einzelbuchstaben-Aminosäuren-Code,
    • III. rechnergestütztes Abgleichen der aktuellen Bibliothek mit einer Peptid-Bibliothek aus allen funktionellen bekannten Proteinen, um gemeinsame Peptide zu erhalten,
    • IV. rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Lage bzw. Lokalisation,
    • V. rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten, und
    • VI. Zuordnen einer Funktion zu dem unbekannten Protein auf der Grundlage der Funktion des Proteins, mit dem eine maximale Länge einer Peptidsequenzidentität aufgefunden wird.
  • Je größer die Anzahl an Übereinstimmungen mit den Proteinen mit ähnlicher Funktion, desto größer wird die Wahrscheinlichkeit einer funktionellen Zuordnung sein.
  • Vorteile:
    • 1. Der Hauptvorteil der vorliegenden Erfindung ist, ein neues Verfahren zum genomweisen Vergleich einer großen Anzahl (tausend) von Proteinen eines Organismus mit Proteinen anderer Organismen gleichzeitig verfügbar zu machen, um zu invarianten Peptidsequenzmotiv-Signaturen zu gelangen.
    • 2. Sie macht ein schnelles Verfahren zur Identifikation von invarianten Peptidmotiven verfügbar.
    • 3. Sie macht ein einfaches und höchst genaues Verfahren zum Bestimmen invarianter Peptidmotive verfügbar, da keine komplexen mathematischen Berechnungen beteiligt sind.
    • 4. Sie macht eine Grundlage für einen Durchmusterungstest für antibakterielle Breitband-Verbindungen verfügbar.
  • Referenzen:
    • Altschul, S. F., Carol, R. J., & Lipman, D. J. (1990). Basic local alignment search tool. J. Mol. Biol. 215, 403-410.
    • Cutler N. S., Heitman J., Cardenas M. E., (1999). TOR kinase homologs function in a signal transduction pathway that is conserved from yeast to mammals. Mol Cell Endocrinol 155 (1-2), 135-142.
    • Ghannoum, M. A. and Rice, L. B., (1999). Antifungal agents: mode of action, mechanisms of resistance, and correlation of these mechanisms with bacterial resistance. Clin Microbiol Rev 12 (4), 501-517.
    • McCafferty D. G., Cudic,P., Yu, M. K., Behenna, D. C., Kruger, R, (1999). Synergy and duality in peptide antibiotic mechanisms. Curr Opin Chem Biol 3 (6), 672-680.
    • Porse, B. T., & Garrette. R. A. (1999). Ribosomal mechanics, antibiotics, and GTP hydrolysis. Cell 97, 423-426.
    • Presenell, S. R., Cohen, B. I., & Cohen, F.E., (1992). A segment based approach to protein secondary structure prediction. Biochemistry 31, 983-993.
    • Rooman, M. J., & Wodak, S. J. (1988). Identification of predictive sequence motifs limited by protein structure database size. Nature 335, 45-49.
    • Wilbur, W.J., & Lipman, D. J. (1983). Rapid similarly searches of nucleic acid and protein data banks. Proc Natl Acad Sci USA 80, 726-730.
    • Wimberly, B. T., Guymon, R., McCutcheon, White, S. W., & Ramakrishnan, V., (1999). A detailed view of a ribosomal active site: The structure of the L11-RNA complex. Cell 97, 491-502.

Claims (12)

  1. Rechnergestütztes Verfahren zum Identifizieren invarianter Peptidmotive, die als Zielmoleküle von Arzneistoffen nützlich sind, wobei das Verfahren folgende Schritte umfaßt: i) rechnergestütztes Erzeugen einer Bibliothek aus überlappenden Peptiden von allen bekannten Proteinsequenzen der ausgewählten Organismen, ii) rechnergestütztes, alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer Länge „N" nach dem Einzelbuchstaben-Aminosäuren-Code, iii) rechnergestütztes Abgleichen von gemeinsamen Peptidsequenzen der ausgewählten Bakterien, iv) rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Lokalisation, v) rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten, vi) Vermerken einer Sekundärstruktur dieser konservierten Peptide anhand der Kristallstruktur-Datenbank, vii) Vergleichen von Genomen pathogener Stämme mit Genomen von nicht-pathogenen Stämmen und Auswählen der Sequenzen, die in diesen beiden Gruppen nicht allgemein konserviert sind, und viii) rechnergestütztes Validieren der invarianten Sequenzmotive als potentielle Sequenz von Zielmolekülen von Arzneistoffen durch Suchen nach den angegebenen konservierten Sequenzen im Wirtsgenom und Verwerfen derjenigen, die im Wirtsgenom vorhanden sind.
  2. Verfahren nach Anspruch 1, wobei die Länge des Gleitfensters mit einer Länge „N" von 4 Aminosäureresten bis zu jeder Länge reichen kann.
  3. Verfahren nach Anspruch 1, wobei die Proteinsequenzdaten von jedem Mikroorganismus, wie etwa Mycoplasma pneumoniae, Helicobacter pylori, Hemophilus influenzae, Mycobacterium tuberculosis, Mycoplasma genitalium, Bacillus subtillis, Escherichia coli genommen werden können.
  4. Verfahren nach Anspruch 1, wobei die identifizierten konservierten Peptidmotive folgende umfassen: 1. AAQSIGEPGTQLT 2. AGDGTTTAT 3. AGRHGNKG 4. AHIDAGKTTT 5. CPIETPEG 6. DEPSIGLH 7. DEPTSALD 8. DEPTTALDVT 9. DHAGIATQ 10. DHPHGGGEG 11. DLGGGTFD 12. DVLDTWFSS 13. ERERGITI 14. ERGITITSAAT 15. ESRRIDNQLRGR 16. FSGGQRQR 17. GEPGVGKTA 18. GFDYLRDN 19. GHNLQEHS 20. GIDLGTTNS 21. GINLLREGLD 22. GIVGLPNVGKS 23. GKSSLLNA 24. GLTGRKIIVDTYG 25. GPPGTGKTLLA 26. GPPGVGKT 27. GSGKTTLL 28. GTRIFGPV 29. IDTPGHVDFT 30. IIAHIDHGKSTL 31. INGFGRIGR 32. IREGGRTVG 33. IVGESGSGKS 34. KFSTYATWWI 35. KMSKSKGN 36. KMSKSLGN 37. KNMITGAAQMDGAILW 38. KPNSALRK 39. LFGGAGVGKTV 40. LGPSGCGK 41. LHAGGKFD 42. LIDEARTPLIISG 43. LLNRAPTLH 44. LPDKAIDLIDE 45. LPGKLADC 46. LSGGQQQR 47. MGHVDHGKT 48. NADFDGDQMAVH 49. NGAGKSTL 50. NLLGKRVD 51. NTDAEGRL 52. PSAVGYQPTLA 53. QRVAIARA 54. QRYKGLGEM 55. RDGLKPVHRR 56. SALDVSIQA 57. SGGLHGVG 58. SGSGKSSL 59. SGSGKSTL 60. SVFAGVGERTREGND 61. TGRTHQIRVH 62. TGVSGSGKS 63. TLSGGEAQRI 64. TNKYAEGYP 65. TPRSNPATY 66. VEGDSAGG 67. VRKRPGMYIG
  5. Verfahren nach Anspruch 1, wobei die Anzahl von invarianten Peptiden je nach Verwandtschaft zwischen den Organismen und der Anzahl an Organismen, die verglichen werden, variert.
  6. Verfahren nach einem der Ansprüche 1–4, wobei die invarianten Sequenzen zu folgenden Proteinen, die in der Datenbank http://www.ncbi.nlm.nih.gov. verfügbar sind, gehören können, wobei die Liste von Proteinen folgende umfaßt I) DNA-GESTEUERTE RNA-POLYMERASE, BETA-KETTE II) ABC-EXCINUCLEASE, UNTEREINHEIT A III) ABC-EXCINUCLEASE, UNTEREINHEIT B IV) DNA-GYRASE, UNTEREINHEIT B V) ATP-SYNTHASE, BETA-KETTE VI) S-ADENOSYLMETHIONIN-SYNTHETASE VII) GLYCERALDEHYDE-3-PHOSPHAT-DEHYDROGENASE VIII) ELONGATIONSFAKTOR G (EF-G) IX) ELONGATIONSFAKTOR TU (EF-TU) X) 30S RIBOSOMALES PROTEIN S12 XI) 50S RIBOSOMALES PROTEIN L12 XII) 50S RIBOSOMALES PROTEIN L14 XIII) VALYL-tRNA-SYNTHETASE (VALRS) XIV) ZELLTEILUNGSPROTEIN FtSH-HOMOLOG XV) DnaK-PROTEIN (HSP70) XVI) GTP-BINDENDES PROTEIN LepA XVII) TRANSPORTER XVIII) OLIGOPEPTID-TRANSPORT-ATP-BINDENDES PROTEIN OPPF
  7. Verfahren nach Anspruch 1, wobei das Verfahren eines Abgleichens der Peptidbibliotheken, wie in Schritt (iii) von Anspruch 1 angegeben, durch Nachvollziehen der in 1 angegebenen Schritte durchgeführt wird.
  8. Verfahren nach Anspruch 1, wobei das Verfahren zum Lokalisieren der gemeinsamen Peptide in den Originalproteinsequenzen, wie in Schritt (iv) von Anspruch 1 angegeben, durch Nachvollziehen der in 2 angegebenen Schritte durchgeführt wird.
  9. Verfahren nach Anspruch 1, wobei das Verfahren zum Erzeugen eines gemeinsamen Peptids von variabler Länge nach Entfernen der Überlappungen, wie in Schritt (v) von Anspruch 1 angegeben, durch Nachvollziehen der in 3 angegebenen Schritte durchgeführt wird.
  10. Mikroprozessorgestütztes System zum Durchführen der Verfahren der Erfindung, das folgendes umfaßt: i) Mittel zum Bestimmen des Aminosäuresequenz-Fensters zum Erzeugen einer Peptid-Bibliothek und anschließenden Markieren des Ursprungs, ii) Mittel zum Vergleichen der Peptid-Bibliothek, iii) rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Lokalisation, und iv) rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten.
  11. Rechnergestütztes System zum Durchführen der Verfahren der Erfindung, das weiterhin eine zentrale Prozessoreinheit umfaßt, die ein eine Peptid-Bibliothek erzeugendes Programm (PEPLIB), ein eine Peptid-Bibliothek abgleichendes Programm (PEPLIMP), ein Peptide zusammenheftendes Programm (PEPSTICH), ein Peptidextraktionsprogramm (PEPXTRACT) ausführt, wobei die Programme alle in einer Speichervorrichtung gespeichert sind, die durch die zentrale Prozessoreinheit angesteuert wird, die mit einer Bildanzeige verbunden ist, auf der die zentrale Prozessoreinheit die Darstellungen der oben genannten Programme als Antwort auf Eingaben eines Anwenders an einer Benutzer-Schnittstelle-Vorrichtung wiedergibt.
  12. Verfahren zum Zuordnen einer Funktion zu einem Protein mit unbekannter Funktion, das keine/eine schwache Homologie zu anderen Proteinsequenzen in einer allgemein verfügbaren Datenbank (SWISSPROT) zeigt, indem folgende Schritte eingesetzt werden: I. rechnergestütztes Erzeugen einer Bibliothek aus überlappenden Peptiden von den Proteinsequenzen mit unbekannter Funktion, II. rechnergestütztes, alphabetisches Sortieren der wie oben erhaltenen Peptide mit einer Länge „N" (N ist die Länge des Gleitfensters von Aminosäuren) nach dem Einzelbuchstaben-Aminosäuren-Code, III. rechnergestütztes Abgleichen der aktuellen Bibliothek mit einer Peptid-Bibliothek aus allen funktionellen bekannten Proteinen, um gemeinsame Peptide zu erhalten, IV. rechnergestütztes Lokalisieren dieser gemeinsamen Peptide in den Originalproteinen und anschließendes Markieren von diesen in Bezug auf Ursprung und Lokalisation, V. rechnergestütztes Verbinden der überlappenden gemeinsamen Peptide, um eine lange Kette von invarianten Peptidsequenzen zu erhalten, und VI. Zuordnen einer Funktion zu dem unbekannten Protein auf der Grundlage der Funktion des Proteins, mit dem eine maximale Länge einer Peptidsequenzidentität aufgefunden wurde. Je größer die Anzahl an Übereinstimmungen mit den Proteinen mit ähnlicher Funktion, desto größer wird die Wahrscheinlichkeit einer funktionellen Zuordnung sein.
DE60017471T 2000-03-30 2000-08-31 Ein auf computerverwendung basiertes verfahren zur identifizierung von unveränderlichen peptid-motiven Expired - Lifetime DE60017471T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US539032 1995-10-04
US09/539,032 US7657378B1 (en) 2000-03-30 2000-03-30 Computer based method for identifying peptides useful as drug targets
PCT/IN2000/000085 WO2001074130A2 (en) 2000-03-30 2000-08-31 A computer based method for identifying conserved invariant peptide motifs

Publications (2)

Publication Number Publication Date
DE60017471D1 DE60017471D1 (de) 2005-02-17
DE60017471T2 true DE60017471T2 (de) 2005-12-22

Family

ID=24149472

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60017471T Expired - Lifetime DE60017471T2 (de) 2000-03-30 2000-08-31 Ein auf computerverwendung basiertes verfahren zur identifizierung von unveränderlichen peptid-motiven

Country Status (14)

Country Link
US (1) US7657378B1 (de)
EP (1) EP1268512B1 (de)
JP (1) JP2003528639A (de)
KR (1) KR100780874B1 (de)
CN (1) CN1211398C (de)
AU (1) AU2001228793A1 (de)
BR (1) BR0017193A (de)
CA (1) CA2376710A1 (de)
CZ (1) CZ200232A3 (de)
DE (1) DE60017471T2 (de)
HU (1) HU228447B1 (de)
IL (1) IL147435A0 (de)
RU (1) RU2249044C2 (de)
WO (1) WO2001074130A2 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057464A1 (en) * 2003-12-05 2005-06-23 Council Of Scientific And Industrial Research A computer based versatile method for identifying protein coding dna sequences useful as drug targets
US8165823B2 (en) 2005-07-15 2012-04-24 Novartis Ag Pamps, pathogen associated molecular patterns
BRPI0708912B8 (pt) * 2006-03-14 2021-07-27 Univ Oregon Health & Science métodos in vitro para detecção de mycobacterium tuberculosis e de células t expressando cd8 que especificamente reconhecem seq id no: 11 em um indivíduo
EP3373950B1 (de) 2015-11-11 2024-05-01 Serimmune Inc. Verfahren und zusammensetzungen zur beurteilung von antikörperspezifitäten
GB202101078D0 (en) * 2021-01-27 2021-03-10 Oxford Immunotec Ltd Fragment pools

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999050770A1 (en) * 1998-03-27 1999-10-07 Combichem, Inc. Method and system for search of implicitly described virtual libraries

Also Published As

Publication number Publication date
HUP0204426A2 (en) 2003-05-28
HU228447B1 (en) 2013-03-28
EP1268512B1 (de) 2005-01-12
EP1268512A2 (de) 2003-01-02
KR100780874B1 (ko) 2007-11-29
JP2003528639A (ja) 2003-09-30
US7657378B1 (en) 2010-02-02
WO2001074130A2 (en) 2001-10-11
KR20020097137A (ko) 2002-12-31
RU2249044C2 (ru) 2005-03-27
CA2376710A1 (en) 2001-10-11
DE60017471D1 (de) 2005-02-17
IL147435A0 (en) 2002-08-14
BR0017193A (pt) 2003-01-14
WO2001074130A3 (en) 2002-01-24
CN1211398C (zh) 2005-07-20
HUP0204426A3 (en) 2004-10-28
CN1452631A (zh) 2003-10-29
AU2001228793A1 (en) 2001-10-15
CZ200232A3 (cs) 2002-05-15

Similar Documents

Publication Publication Date Title
DE69901544T2 (de) Verfahren und vorrichtung zum erstellen eines musterwörterbuches zur anwendung in der erkennung von homologen sequenzen
Linial et al. Global self-organization of all known protein sequences reveals inherent biological signatures
Malebary et al. ProtoPred: advancing oncological research through identification of proto-oncogene proteins
DE60035860T2 (de) Rationale auswahl von mutmasslichen peptiden aus identifizierten nukleotid- beziehungsweise peptidsequenzen
WO2008110282A2 (de) Verfahren für das erzeugen von peptidbibliotheken und deren verwendung
DE60017471T2 (de) Ein auf computerverwendung basiertes verfahren zur identifizierung von unveränderlichen peptid-motiven
Andersen Reductionism in the biomedical sciences
US20010049585A1 (en) Computer predictions of molecules
Camproux et al. Hidden Markov model-derived structural alphabet for proteins: the learning of protein local shapes captures sequence specificity
DE60017586T2 (de) Automatisiertes Verfahren zum Identifizieren verwandter biomolekularer Sequenzen
Plewczynski et al. The RPSP: Web server for prediction of signal peptides
Weinstock et al. Identification of virulence genes in silico: infectious disease genomics
EP1513092B1 (de) Verfahren zur Konformationsanalyse von Aminosäuresequenzen
Guruprasad et al. Database of structural motifs in proteins
Andersen Biomedical sciences
Connolly et al. Estimating protein fold from incomplete and approximate NMR data
US20060210972A1 (en) Annotation of genome sequences
Brocklehurst et al. Creating integrated computer systems for target discovery and drug discovery
Gordeev et al. Novel structural tree of β-proteins containing abcd units
Pucci et al. Bacterial “Genes-to-Screens” in the Post-Genomic Era
Akcesme et al. Accuracy of Identical Subsequences Based Protein Secondary Structure Prediction
DE3619036C2 (de)
Schrattenholz Functional Proteomics in der medizinischen Forschung
EP0582755A1 (de) Verfahren zum Einordnen von Informationsträgern in Datenbanken
Gilis et al. Ab initio structure predictions using a hierarchical approach applied to 434 cro and the Drosophila homeodomain

Legal Events

Date Code Title Description
8364 No opposition during term of opposition