DE102015121485A1 - Verfahren für die Suche in einem Datenbestand von Makromolekülen - Google Patents

Verfahren für die Suche in einem Datenbestand von Makromolekülen Download PDF

Info

Publication number
DE102015121485A1
DE102015121485A1 DE102015121485.7A DE102015121485A DE102015121485A1 DE 102015121485 A1 DE102015121485 A1 DE 102015121485A1 DE 102015121485 A DE102015121485 A DE 102015121485A DE 102015121485 A1 DE102015121485 A1 DE 102015121485A1
Authority
DE
Germany
Prior art keywords
motif
units
selections
macromolecules
target structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102015121485.7A
Other languages
English (en)
Inventor
Gerd Anders
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ars Computer und Consulting GmbH
Original Assignee
Ars Computer und Consulting GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ars Computer und Consulting GmbH filed Critical Ars Computer und Consulting GmbH
Priority to DE102015121485.7A priority Critical patent/DE102015121485A1/de
Publication of DE102015121485A1 publication Critical patent/DE102015121485A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Es wird ein Verfahren für die Suche (50) in einem auf einer Datenverarbeitungsanlage vorgehaltenen Datenbestand von Makromolekülen vorgeschlagen. Bei dem Verfahren werden die Motive einer Zielstruktur in Motiveinheiten zerlegt (55, 50) und auf der Grundlage der Motiveinheiten Selektionen gebildet (57), die Raumkoordinaten der Raumstruktur von Tupeln enthalten. Die Tupeln werden aus den Motiveinheiten ausgewählt, wobei die Motiveinheiten eines Tupels jeweils verschiedenen Motiven der Zielstruktur zugeordnet sind. Die eigentliche Suche (50) nach in der Moleküldatenbank gespeicherten Makromolekülen, die die Zielstruktur aufweisen, wird anhand eines Metadatenbestands durchgeführt, der vor der eigentlichen Suche auf der Grundlage des Moleküldatenbestands erstellt worden ist (51). Der Metadatenbestand enthält zu einer Mehrzahl von Makromolekülen zugeordnete Selektionen, die jeweils ein Makromolekül betreffen und die Raumkoordinaten der Raumstruktur von Tupeln aufweisen. Diese Tupeln umfassen entsprechend den der Zielstruktur zugeordneten Tupeln die Motiveinheiten der Motive des jeweiligen Makromoleküls, wobei die Motiveinheiten eines Tupels jeweils verschiedenen Motiven des jeweiligen Makromoleküls zugeordnet sind. Dieses Verfahren ist auch dann durchführbar, wenn der Suchraum eine sehr große Zahl von Makromolekülen umfasst und liefert dabei zuverlässige Ergebnisse.

Description

  • Die Erfindung betrifft ein Verfahren für die Suche nach einer Zielstruktur in einem auf einer Datenverarbeitungsanlage vorgehaltenen Moleküldatenbestand für Makromoleküle, wobei
    • – der Moleküldatenbestand Informationen über die räumliche Anordnung von Bestandteilen der Makromoleküle enthält, und
    • – die Makromoleküle Raumstrukturen aufweisen, in denen gleichförmige Motive identifizierbar sind.
  • Unter Motiven sind dabei Molekülstrukturen zu verstehen, die entweder bei einem Makromolekül oder bei verschiedenen Makromolekülen an verschiedenen Stellen wiederkehren. Bei Proteinen kann solchen Motiven auch eine biologische Bedeutung oder Funktion zugeschrieben werden.
  • Durch die umfangreichen Analysemöglichkeiten, insbesondere die Röntgenkristallographie/Röntgenstrukturanalyse und Kernspinresonanzspektroskopie (NMR-Spektroskopie), und die intensive Forschungstätigkeit auf dem Gebiet der Biochemie sind detaillierte Informationen über die räumliche Struktur von biochemischen Makromolekülen bekannt geworden. Diese Informationen sind in Moleküldatensammlungen gespeichert.
  • Eine derartige Moleküldatensammlung ist die Protein Data Bank (= PDB), die weltweit einmalige Datenbank für biologische Strukturdaten, insbesondere für die räumliche Struktur von Proteinen und Nukleinsäuren. Bei der PDB sind die Moleküldaten in Dateien gespeichert, die in Verzeichnissen geordnet sind. Die in der PDB gespeicherten Informationen auszuwerten ist allerdings schwierig.
  • Aus KIUCHI, Y.; OZAKI, T; OHKAWA, T.: Partial Geometric Hashing for Retrieving Similar Interaction Protein Using Profile, International Conference on Information Technology, 2007, ist ein Suchverfahren nach Proteinen mit einer bestimmten Zielstruktur bekannt. Bei dem bekannten Verfahren handelt es sich um eine mehrstufige geometrische Streuwertsuche ("partial geometric hashing"), bei der Kandidaten für die Suche vorab identifiziert und die eigentliche geometrische Streuwertsuche auf eine kleine Zahl von Kandidaten angewendet wird.
  • Für die Bestimmung der Kandidaten und die eigentliche Suche werden Atome betrachtet, die sich auf der Oberfläche der Proteine befinden und mit der gleichen Komponente oder mit ähnlichen Komponenten wechselwirken. Eine Gruppe dieser Atome wird zu einem Profil zusammengefasst, wobei das Profil Informationen über die Anordnung und die Eigenschaften der umfassten Atome enthält.
  • Zur Bestimmung geeigneter Kandidaten werden aus den Atomen des Profils Tripel ("reference sets") ausgewählt und entsprechende Tripel mittels eines geometrischen Streuwertverfahrens in den Proteinen gesucht. Bei den so gefundenen Kandidaten wird anschließend die gesamte räumliche Struktur der Atome auf Übereinstimmung mit dem Profil mittels einer zweiten geometrischen Streuwertsuche überprüft.
  • Dem bekannten Verfahren liegt der Gedanke zugrunde, dass auf den Oberflächen von Proteinen mit gleicher biologischer Funktion die gleichen interaktiven Atomgruppen vorhanden sein müssen. Dadurch lässt sich der Suchraum stark einschränken. In der Praxis lässt sich das bekannte Verfahren mit den heutigen Rechenkapazitäten eines Arbeitsplatzrechners jedoch nur dann in einem vertretbaren Zeitrahmen durchführen, wenn der Suchraum eine vergleichsweise geringe Anzahl von Proteinen umfasst.
  • Ausgehend von diesem Stand der Technik liegt der Erfindung daher die Aufgabe zugrunde, ein verbessertes Suchverfahren zu schaffen. Der Erfindung liegt ferner die Aufgabe zugrunde, ein zur Durchführung des Verfahrens geeignetes Computerprogrammprodukt, einen Server und einen Arbeitsplatzrechner zu schaffen.
  • Diese Aufgaben werden durch ein Verfahren und durch die Vorrichtungen mit den Merkmalen der unabhängigen Ansprüche gelöst. In davon abhängigen Ansprüchen sind vorteilhafte Ausgestaltungen und Weiterbildungen angegeben.
  • Bei dem Verfahren werden die Motive einer Zielstruktur in Motiveinheiten zerlegt und auf der Grundlage der Motiveinheiten Selektionen gebildet. Die Selektionen enthalten die Raumkoordinaten der Raumstruktur von Tupeln, die aus den Motiveinheiten ausgewählt worden sind, wobei die Motiveinheiten eines Tupels jeweils verschiedenen Motiven der Zielstruktur zugeordnet sind. Die eigentliche Suche nach in dem Moleküldatenbestand gespeicherten Makromolekülen, die die Zielstruktur aufweisen, wird anhand eines Metadatenbestands durchgeführt, der vor der eigentlichen Suche auf der Grundlage des Moleküldatenbestands erstellt worden ist. Der Metadatenbestand enthält zu einer Mehrzahl von Makromolekülen zugeordnete Selektionen, die jeweils ein Makromolekül betreffen und die Raumkoordinaten der Raumstruktur von Tupeln aufweisen. Diese Tupeln umfassen entsprechend den der Zielstruktur zugeordneten Tupeln die Motiveinheiten der Motive des jeweiligen Makromoleküls, wobei die Motiveinheiten eines Tupels jeweils verschiedenen Motiven des jeweiligen Makromoleküls zugeordnet sind. Dieses Verfahren ist auch dann durchführbar, wenn der Suchraum eine sehr große Zahl von Makromolekülen umfasst, und liefert dabei zuverlässige Ergebnisse.
  • Bei einer Ausführungsform des Verfahrens können die Selektionen auch Information über die Beschaffenheit der Motiveinheiten enthalten. Dabei wird der für den Metadatenbestand benötigte Speicherplatz vergrößert, aber dafür kann die Zuverlässigkeit der Treffer erhöht werden.
  • Bei einer weiteren Ausführungsform des Verfahrens umfassen die Motiveinheiten mehrere Molekülbestandteile der in dem Moleküldatenbestand gespeicherten Makromoleküle. Auf diese Weise kann die räumliche Struktur der Motive effektiv erfasst und die bei der Suche zu verarbeitende Datenmenge reduziert werden.
  • Die Motive der Makromoleküle und/oder die Motive der Zielstruktur werden in jeweils wenigstens eine Motiveinheit zerlegt, wobei die Motiveinheiten jeweils die gleiche Zahl von Molekülbestandteilen umfassen, so dass die Datenverarbeitung aufgrund der gleichförmigen Datenstruktur vereinfacht wird.
  • Bei der Zerlegung der Motive in Motiveinheiten werden Motive, deren Zahl von Molekülbestandteilen größer oder gleich einem Vielfachen der in einer Motiveinheit enthaltenen Molekülbestandteilen ist, überlappungsfrei unter Nichtberücksichtigung von restlichen Molekülbestandteilen in die Motiveinheiten zerlegt.
  • Bei den Motiven kann die Zerlegung auch teilweise überlappend erfolgen. Insbesondere kann bei Motiven, deren Zahl von Molekülbestandteilen kleiner einem Vielfachen der in einer Motiveinheit enthaltenen Molekülbestandteile ist, weniger einem Molekülbestandteil ist, teilweise überlappend durchgeführt werden, so dass diese Motive möglichst vollständig erfasst werden.
  • Da der Vergleich der Raumstruktur von räumlich weit auseinanderliegende Strukturen der Zielstruktur einerseits und räumlich weit auseinanderliegende Strukturen des gesuchten Makromoleküls andererseits ergeben kann, dass die verglichenen Strukturen trotz gleicher chemischer Funktion in räumlicher Hinsicht voneinander stark abweichen und daher nicht als Treffer gelten, werden bei der Bestimmung der Selektionen des jeweiligen Makromoleküls Motiveinheiten ausgewählt, deren Abstand kleiner einer vorbestimmten Selektionsobergrenze ist.
  • Entsprechend werden bei der Bestimmung der Selektionen der Zielstruktur die Motiveinheiten unter Berücksichtigung des Auswahlkriteriums ausgewählt, dass deren Abstand kleiner der vorbestimmten Selektionsobergrenze ist.
  • Um den Vergleich der Raumstrukturen der Selektionen zu erleichtern, werden die Raumkoordinaten der Raumstruktur der Selektionen auf ein Koordinatensystem bezogen, das nach einer vorbestimmten Zuordnungsregel auf die Motiveinheiten der Selektionen ausgerichtet wird.
  • Bei einer Ausführungsform des Verfahrens werden als Tupel der Motiveinheiten Paare der Motiveinheiten verwendet, wobei der Ursprung des Koordinatensystems zwischen die beiden Motiveinheiten gelegt wird. Dies bietet den Vorteil, dass sich bei einem Vergleich einer Selektion der Zielstruktur mit einer Selektion eines Makromoleküls die räumlichen Abweichungen über beide Motiveinheiten verteilen, so dass bei abweichender Raumstruktur eher ein Treffer festgestellt wird, als wenn der Ursprung des Koordinatensystems in eine der beiden Motiveinheiten gelegt wird.
  • Eine Möglichkeit, den Koordinatenursprung auf einen Punkt zwischen den Motiveinheiten zu legen, besteht darin, den Ursprung des Koordinatensystems auf einen gemeinsamen Schwerpunkt des Paares von Motiveinheiten zu legen.
  • Die Zuordnungsregel kann ferner vorsehen, dass ein vorbestimmter Ort einer Motiveinheit auf eine vorbestimmte Achse des Koordinatensystems gelegt wird und dass ein weiterer vorbestimmter Ort der anderen Motiveinheit in eine Ebene gelegt wird, die von der erwähnten Achse und einer weiteren vorbestimmten Achse des Koordinatensystems aufgespannt wird.
  • Bei einer abgewandelten Ausführungsform werden als Tupel der Motiveinheiten Tripel der Motiveinheiten verwendet, wobei ein Zentrum der ersten Motiveinheit in den Ursprung des Koordinatensystems gelegt wird, ein Zentrum einer zweiten Motiveinheit auf eine Achse des Koordinatensystems gelegt wird und ein Zentrum der dritten Motiveinheit in eine Ebene gelegt wird, die von der erwähnten Achse und einer weiteren Achse aufgespannt wird.
  • Um eine hohe Treffersicherheit zu gewährleisten, umfasst die Menge der einem Makromolekül oder einer Suchstruktur zugeordneten Selektionen sämtliche Kombinationen von Motiveinheiten, die unter Berücksichtigung des geltenden Auswahlkriteriums aus den Motiveinheiten unterschiedlicher Motive auswählbar sind.
  • Bei einer Ausführungsform des Verfahrens wird für die Suche eine geometrische Streuwertsuche verwendet, mit der in dem Metadatenbestand nach Selektionen gesucht wird, die unter Anwendung eines Suchkriteriums mit den Selektionen übereinstimmen, die der Suchstruktur zugeordnet sind.
  • Die Suche kann insbesondere unter Verwendung eines Suchkriteriums durchgeführt werden, das erfordert, dass der Abstand zwischen einander entsprechende Zentren der Motiveinheiten kleiner einem Suchschwellwert ist.
  • Nachdem bei der Suche in dem Metadatenbestand Makromoleküle identifiziert worden sind, bei denen eine vorbestimmte Zahl von Selektionen mit Selektionen der Zielstruktur übereinstimmt, werden die gefundenen Makromoleküle mittels einer Vollständigkeits- und Eindeutigkeitsüberprüfung auf das Vorliegen aller Selektionen der Zielstruktur und auf die eindeutige Zuordnung zwischen den Selektionen der Zielstruktur und den Selektionen des jeweiligen Makromoleküls überprüft.
  • Die Überprüfung auf Vollständigkeit und Eindeutigkeit kann mit Hilfe eines graphentheoretischen Verfahrens der Cliquen-Analyse („clique detection“) durchgeführt werden.
  • Die dabei erhaltenen Ergebnisse können anschließend auf räumliche Deckungsgleichheit überprüft werden, indem der mittlere quadratische Abstand (root-mean-square deviation, rmsd) zwischen sich entsprechenden Motiveinheiten der Zielstruktur und der aufgefundenen Makromoleküle berechnet wird und indem der berechnete mittlere quadratische Abstand auf die Einhaltung einer vorbestimmten Prüfobergrenze für den mittleren quadratischen Abstand überprüft wird.
  • Bei einer üblichen Ausführungsform des Verfahrens umfassen die Makromoleküle wenigstens zwei Motive, welche sich auf mindestens einem Strang befinden. Makromoleküle, die über wenigstens einen Strang verfügen, weisen häufig Motive auf, die sich gut für die hier beschriebene Suche eignen.
  • In der Regel sind die Molekülbestandteile wohldefinierte Atomgruppen. Ferner sind die Motiveinheiten Gruppen von wohldefinierten Atomgruppen. Auf diese Weise kann die bei der Suche zu verarbeitende Datenmenge im Vergleich zu einer auf einzelne Atome gestützten Suche reduziert werden.
  • Falls die gesuchten Makromoleküle Proteine sind, können die Motiveinheiten Pentapeptide und die Molekülbestandteile Peptide sein. Pentapeptide sind einerseits klein genug, um die räumliche Struktur der Motive von Proteinen wiederzugeben, und sind andererseits groß genug, um die zu verarbeitende Datenmenge erheblich zu reduzieren.
  • Ein Computerprogrammprodukt zur Ausführung des Verfahrens kann auf einem computerlesbaren nicht-flüchtigen Datenträger Programmcode enthalten, der zur Ausführung des Verfahrens geeignet ist. Dieser Programmcode kann auch eine Datenbank, insbesondere die zur Ausführung des Verfahrens benötigte Metadatenbank enthalten. Der Datenträger kann jede Art von physikalischem Datenträger sein, zum Beispiel eine Festplatte, eine CD-ROM, ein Halbleiterspeicher oder ein über ein Datennetz übertragenes elektrisches Signal sein.
  • Ein derartiges Computerprogrammprodukt kann auf einem Server installiert sein, der zur Durchführung des Verfahrens eingerichtet ist und demnach Datenbankabfragen an die auf dem Server vorgehaltene Metadatenbank ermöglicht. Die Datenbankabfragen können dabei mithilfe eines auf dem Server installierten Programms erstellt und durchgeführt werden oder aber mithilfe eines auf einem entfernten Client installierten Programms auf dem entfernten Client erstellt und zur Ausführung über ein lokales oder weltweites Datennetz an den Server übermittelt werden. Der Server kann eine physikalische Einheit oder eine auf mehrere physikalische Einheiten verteilte logische Einheit sein.
  • Ein derartiges Computerprogrammprodukt kann auch auf einem Arbeitsplatzrechner installiert sein, der dazu eingerichtet ist, zur Durchführung des Verfahrens Datenbankabfragen zu generieren und über ein lokales oder weltweites Datennetz an einen Server zu übertragen sowie die Ergebnisse der Datenbanksuche zu verarbeiten. Der Arbeitsplatzrechner kann eine physikalische Einheit oder eine auf mehrere physikalische Einheiten verteilte logische Einheit sein.
  • Weitere Vorteile und Eigenschaften der Erfindung gehen aus der nachfolgenden Beschreibung hervor, in der Ausführungsbeispiele der Erfindung anhand der Zeichnung im Einzelnen erläutert werden. Es zeigen:
  • 1A eine perspektivische Ansicht eines Pepsininhibitors als Beispiel für ein Makromolekül;
  • 1B eine perspektivische Ansicht einer Zielstruktur, bei der es sich um monomeres Interleukin-8 (IL-8) handelt;
  • 1C eine perspektivische Darstellung der Überlagerung des Makromoleküls aus 1A und der Zielstruktur aus 1B;
  • 2A eine Darstellung der Zerlegung eines Motivs eines Makromoleküls in nicht überlappende Motiveinheiten;
  • 2B eine Darstellung der Zerlegung eines Motivs in zwei teilweise überlappende Motiveinheiten;
  • 2C eine Darstellung der Zuordnung einer Motiveinheit zu einem kurzen Motiv mit wenigen Molekülbestandteilen;
  • 3 eine perspektivische Darstellung der Bildung von Selektionen aus den Motiveinheiten;
  • 4 eine schematische Darstellung einer Datenverarbeitungsanlage mit einer möglichen Datenbankstruktur; und
  • 5 eine Übersicht über den Verfahrensablauf.
  • 1A zeigt in einer perspektivischen Ansicht die räumliche Struktur eines Makromoleküls 10. Dabei handelt es sich um einen Strang 11, nämlich Strang B, eines Pepsin-Inhibitors, der in der PDB als Proteinkomplex (PDB code: 1F34) gespeichert ist. Strang B ist der Pepsin Inhibitor-3, PI-3, des parasitären Nematoden Ascaris suum. Es sei angemerkt, dass Strang A porzines Pepsin ist, d.h. Schweinepepsin.
  • Hinsichtlich der Struktur von Proteinen lassen sich Primärstrukturen, Sekundärstrukturen, Tertiärstrukturen und bei einigen Proteinen auch Quartiärstrukturen unterscheiden. Unter der Primärstruktur wird die Abfolge der Aminosäuren einer den Strang 11 bildenden Polypeptidkette verstanden. Unter Sekundärstruktur wird weiter der Aufbau des Strangs 11 aus häufig auftretenden Motiven 12 für die Anordnung der Aminosäuren entlang des Strangs 11 verstanden. So weist der in 1 dargestellte Strang 11 unter anderem zwei α-Helices 13 und mehrere β-Faltblätter 14 als Motive 12 auf. Die Tertiärstruktur schließlich betrifft die der Sekundärstruktur übergeordnete räumliche Struktur eines Proteins, also die räumliche Anordnung der Motive 12. Die Quartiärstruktur beschreibt den räumlichen Aufbau von Proteinkomplexen.
  • 1B zeigt weiterhin eine Zielstruktur 15, nach der mit Hilfe einer Abfrage in einer Proteindatenbank gesucht werden soll. Der räumliche Aufbau der Zielstruktur 15 weist ebenfalls Motive 16 auf, beispielsweise eine α-Helix 17 und mehrere β-Faltblätter 18. Bei der in 1B dargestellten Zielstruktur 15 handelt es sich um den Strang A von humanem Interleukin-8 (PDB code: 1IL8).
  • 1C veranschaulicht das Ergebnis einer Suche in einer Datenbank für Makromoleküle. Anhand von 1C ist erkennbar, dass eine der beiden α-Helices 13 und β-Faltblätter 14 des Makromoleküls 10 einerseits und die α-Helix 17 und die β-Faltblätter 18 der Zielstruktur gut übereinstimmen. Anhand von 1C wird allerdings auch deutlich, dass die überlagerten Strukturen nicht deckungsgleich sind, sondern dass bei einer Suche nach einer Zielstruktur 15 entsprechenden Proteinstruktur auch räumliche Abweichungen zugelassen und berücksichtigt werden müssen.
  • Für ein besseres Verständnis des nachfolgend näher beschriebenen Verfahrens sei vorab angemerkt, dass die Motive 12 bei der Ausführung des nachfolgend näher beschriebenen Verfahrens, wie in 2A bis C dargestellt, in Motiveinheiten 20 zerlegt werden. Die Motiveinheiten 20 umfassen eine feste Zahl identifizierbarer Molekülbestandteile 21 des Makromoleküls 10 und sind so gewählt, dass die Motive 12 durch eine Aneinanderreihung der Motiveinheiten 20 beschrieben werden können. Die Molekülbestandteile 21 des Makromoleküls 10 stellen chemische Einheiten dar, die jeweils eine Mehrzahl von Atomen umfassen. Im Fall von Proteinen können die Molekülbestandteile 21 die einzelnen Peptide sein, aus denen die Proteine zusammengesetzt sind. Die Motiveinheiten 20 umfassen vorzugsweise eine ungerade Zahl von Molekülbestandteilen 21. Die Länge der Motiveinheiten 20 ist ferner so gewählt, dass die Motiveinheiten 20 auch kleine Motive 12 und stark gekrümmte Motive 12 abbilden können. Im Fall von Proteinen sind die Motiveinheiten 20 Pentapeptide, die aus jeweils fünf Peptiden zusammengesetzt sind. Der Ort einer Motiveinheit 20 kann gleich dem Ort eines zentralen Atoms eines zentralen Molekülbestandteils 21 der Motiveinheiten 20 gewählt werden. Falls die Makromoleküle 10 Proteine sind, ist der Ort eines Pentapeptids jeweils gleich dem Cα-Atom des zentralen Peptids des Pentapeptids.
  • Durch die Aneinanderreihung der Pentapeptide können auch räumliche komplexe Motive 12, zum Beispiel stark gekrümmte Motive 12, wie beispielsweise die α-Helices 13, nachgebildet werden. Außerdem können die Motive 12 vollständig in Reihen von Motiveinheiten 20 abgebildet werden, so dass sich die Suche über die gesamte Länge der Motive 12 erstreckt.
  • Die Zerlegung der Motive 12 in die Motiveinheiten 20 erfolgt wie in 2A dargestellt nach Möglichkeit überlappungsfrei, wobei eventuelle restliche Peptide unberücksichtigt bleiben können. Falls die Motive 12 nur mit Überlappung auf eine Folge von Motiveinheiten 20 abgebildet werden können, kann ein teilweises Überlappen der Motiveinheiten 20 zugelassen werden. Ein Motiv 12 mit neun Peptiden wird beispielsweise entsprechend 2B auf zwei Pentapeptide abgebildet, wobei nur die beiden Pentapeptide hinsichtlich des mittleren Peptids überlappen. Daneben ist es möglich auch einzelne Peptide unberücksichtigt zu lassen. Motive 12 mit weniger als neun Peptiden werden, wie in 2C dargestellt, beispielsweise auf ein Pentapeptid abgebildet, wobei Peptide am Anfang und am Ende des Motivs 12 unberücksichtigt bleiben. Schließlich ist es auch möglich, fehlende Peptide zu ergänzen. So können Motive 12 mit vier Peptiden jeweils um ein einzelnes Peptid zu einem Pentapeptid erweitert werden.
  • Es sei angemerkt, dass die Motive 16 der Zielstruktur 15 ebenfalls in Motiveinheiten 22 zerlegt werden, wobei genauso vorgegangen wird wie bei der Zerlegung der Motive 12 des Makromoleküls 10.
  • Wie nachfolgend noch näher erläutert werden wird, werden mit den Motiveinheiten 20 Selektionen 30 gebildet. Eine derartige Selektion 30 ist in 3 veranschaulicht. Die in der 3 dargestellte Selektion 30 umfasst ein Paar von Motiveinheiten 20, insbesondere eine erste Motiveinheit 31 und eine zweite Motiveinheit 32. Die Selektionen 30 sind Objekte, die Informationen zu den jeweils ausgewählten Motiveinheiten 31 und 32 enthalten.
  • Die in 3 dargestellte Selektion 30 umfasst Informationen über die räumliche Anordnung der beiden Motiveinheiten 31 und 32 bezogen auf ein kartesisches Koordinatensystem 33, dessen Ursprung 34 in einen gemeinsamen Schwerpunkt 35 der beiden Motiveinheiten 31 und 32 gelegt wird. Der gemeinsame Schwerpunkt 35 wird dabei unter Berücksichtigung der Orte sämtlicher in den Motiveinheiten 31 und 32 enthaltenen Molekülbestandteile 21 berechnet. Die Orte der Molekülbestandteile 21 werden jeweils gleich dem Ort eines zentralen Atoms des jeweiligen Molekülbestandteils 21 gewählt. Falls die Makromoleküle 10 Proteine sind, können die Orte der Molekülbestandeile gleich den Cα-Atomen der in einem Pentapeptid enthaltenen Peptide sein. Die unterschiedlichen Molekülgewichte der verschiedenen Peptide brauchen dabei nicht berücksichtigt zu werden, sondern es kann angenommen werden, dass die Peptide jeweils das gleiche Molekülgewicht aufweisen.
  • Nachdem der Schwerpunkt 35 der Selektion 30 bestimmt worden ist und nachdem der Ursprung 34 des Koordinatensystems 33 auf den Schwerpunkt 35 gelegt worden ist, wird ein Zentrum 36 der ersten Motiveinheit 31 durch eine Rotation um den Ursprung 34 des Koordinatensystems 33 als Rotationszentrum herum auf die x-Achse des Koordinatensystems 33 gelegt und durch eine weitere Rotation um die x-Achse wird ein Zentrum 37 der zweiten Motiveinheit 32 auf die von der x-Achse und der y-Achse des Koordinatensystems 33 aufgespannte Ebene gelegt. Die Zentren 36 und 37 können am Ort eines zentralen Atoms oder jeweils in den Schwerpunkten der Motiveinheiten 31 und 32 liegen.
  • Die Selektion 30 der beiden Motiveinheiten 31 und 32 beinhaltet somit eine der ersten Motiveinheit 31 zugeordnete x-Koordinate und jeweils eine der zweiten Motiveinheit 32 zugeordnete x- und y-Koordinate. Neben den räumlichen Koordinaten bezüglich des Koordinatensystems 33 kann die Selektion 30 auch Informationen über die Zusammensetzung der Motiveinheiten 31 und 32, insbesondere Informationen über die Abfolge der in den Motiveinheiten 31 und 32 enthaltenen Peptiden oder Aminosäuren umfassen.
  • Es sei angemerkt, dass mit den Motiveinheiten 22 der Zielstruktur 15 in gleicher Weise Selektionen 39 gebildet werden können. Dabei gelten die Ausführungen zu den Selektionen 30 aus 3 entsprechend.
  • Der Koordinatenursprung 34 des Koordinatensystems 33 braucht nicht notwendigerweise im Schwerpunkt 35 der Motiveinheiten 31 und 32 liegen, sondern kann auch auf der Mitte einer Verbindungslinie zwischen den Motiveinheiten 31 und 32 angeordnet sein, beispielsweise auf der Mitte der Verbindungslinie zwischen den Cα-Atomen der zentralen Peptide der Motiveinheiten 31 und 32.
  • Allgemein soll in diesem Zusammenhang ein Koordinatenursprung 34 als zwischen den Motiveinheiten 31 und 32 liegend angesehen werden, wenn der Koordinatenursprung 34 zwischen Ebenen liegt, die jeweils durch die Zentren 36 und 37 verlaufen und im rechten Winkel zu der sich zwischen den Zentren 36 und 37 stehenden Verbindungsstrecke ausgerichtet sind.
  • Ferner sei angemerkt, dass der zwischen den Motiveinheiten 31 und 32 angeordnete Koordinatenursprung 34 den Vorteil bietet, dass die räumlichen Abweichungen zwischen beiden Motiveinheiten 31 und 32 des Makromoleküls 10 einerseits und den entsprechenden Motiveinheiten 31 und 32 der Zielstruktur 15 andererseits auf die Motiveinheiten 31 und 32 verteilt werden. Falls eine Selektion 30 des Makromoleküls 10 mit einer Selektion 39 der Suchstruktur 15 nicht deckungsgleich ist, tritt nämlich sowohl zwischen den Motiveinheiten 31 des Makromoleküls 10 und der Suchstruktur 15 als auch zwischen den Motiveinheiten 32 des Makromoleküls 10 und der Suchstruktur 15 eine räumliche Abweichung auf, die beide in etwa gleich groß sind, wenn die Koordinatenursprünge 34 und die Achsen der Koordinatensysteme 33 übereinanderlegt werden. Im Gegensatz dazu, würde die räumliche Abweichung nur zwischen den Motiveinheiten 31 oder den Motiveinheiten 32 auftreten, wenn der Koordinatenursprung in die Motiveinheiten 32 oder 31 gelegt werden würde. Im Vergleich zu einem Koordinatenursprung in den Motiveinheiten 31 oder 32, erlaubt daher ein zwischen die Motiveinheiten 31 und 32 gelegter Koordinatenursprung 34 den Suchschwellwert für die Suche niedriger zu legen und dadurch die Genauigkeit der Suche zu erhöhen.
  • Die räumliche Struktur von Makromolekülen 10 von der in 1 dargestellten Art lässt sich unter anderem mit Hilfe der Röntgenkristallographie/Röntgenstrukturanalyse oder Kernspinresonanzspektroskopie (NMR-Spektroskopie) bestimmen. Die räumlichen Koordinaten jedes einzelnen Atoms und dessen Eigenschaften sind in Moleküldatensammlungen wie der PDB gespeichert. Die Moleküldatensammlung kann auf einer in 4 dargestellten Datenverarbeitungsanlage 40, insbesondere auf einem Server 41 vorgehalten sein. Ein Moleküldatenbestand 42 der Moleküldatensammlung kann in eine Moleküldatenbanken 43 eingebracht werden, die ein Datenbankverwaltungssystem und den eigentlichen Datenbestand umfasst. Im Zusammenhang mit dem nachfolgend noch näher beschriebenen Verfahren kann auf der Grundlage der in 4 dargestellten Moleküldatenbank 43 ein Metadatenbestand 44 in einer Metadatenbank 45 erstellt werden, die mit Hilfe eines Datenbankclients 46 abgefragt werden kann.
  • Es sei angemerkt, dass der Datenbankclient 46 auch dazu verwendet werden kann, Datenbankabfragen an die Moleküldatenbank 43 zu richten, beispielsweise um eine Untermenge der in der Moleküldatenbank 43 gespeicherten Makromoleküle 10 zu extrahieren und so den Suchraum einzuschränken. In diesem Fall wird die Metadatenbank 45 auf der Grundlage der Untermenge der Makromoleküle 10 erstellt.
  • Ferner sei angemerkt, dass der Moleküldatenbestand 42 der Moleküldatenbank 43 und der Metadatenbestand 44 der Metadatenbank 45 auch von einem gemeinsamen Datenverwaltungssystem in einer gemeinsamen Datenbank verwaltet werden können.
  • Die Moleküldatenbank 43, die Metadatenbank 45 und der Datenbankclient 46 können je nach Bedarf auf derselben physikalischen oder logischen Einheit oder auch auf verschiedenen physikalischen oder logischen Einheiten ausgeführt werden. Beispielsweise kann die Moleküldatenbank 43, die Metadatenbank 45 und der Datenbankclient auch auf einer einzelnen Arbeitsplatzrechner ausgeführt werden.
  • 5 zeigt ein Flussdiagram eines Suchverfahrens 50 für die Suche nach einer Zielstruktur 15 in der Moleküldatenbank 43 für Makromoleküle 10 von der Art des in 1 dargestellten Makromoleküls 10.
  • Das Suchverfahren 50 setzt voraus, dass vor der Durchführung des Suchverfahrens 50 eine Datenaufbereitung 51 durchgeführt wird, durch die die Metadatenbank 45 auf der Grundlage der Moleküldatenbank 43 erstellt worden ist.
  • Die bei der Datenaufbereitung 51 durchgeführten Verfahrensschritte seien im Folgenden erläutert: Die Datenaufbereitung 51 beginnt mit einer Bestimmung 52 der Motive 12 der in der Moleküldatenbank 43 gespeicherten Makromoleküle 10. Im Fall von Proteinen kann dazu ein dem Fachmann bekanntes Verfahren zur Bestimmung der Sekundärstrukturen der Makromoleküle 10 verwendet werden. Ein derartiges Verfahren ist aus KABSCH, W.; SANDER C.: Dictionary of Protein Secondary Structure: Pattern Recognition of Hydrogen-Bonded and Geometrical Features, Biopolymers, Vol. 22, 2577–2637, 1983 bekannt.
  • Nach der Bestimmung 52 der Motive 12 erfolgt eine Zerlegung 53 der Motive 12 in die Motiveinheiten 20. Dabei werden die Motive 12 aller Makromoleküle 10 entsprechen den Ausführungen zu 2 in die Motiveinheiten 20 zerlegt. Anschließend erfolgt die Zusammenstellung 54 der Selektionen 30, wobei mindestens zwei Motiveinheiten 20 pro Selektion 30 ausgewählt werden. Die Motiveinheiten 20 einer Selektion 30 sind jeweils von verschiedenen Motiven 12 des jeweiligen Makromoleküls 10. Außerdem umfasst die Menge der Selektionen 30 zu einem Makromolekül 10 sämtliche mögliche Kombinationen, die aus den Motiveinheiten 20 der Motive 12 des jeweiligen Makromoleküls 10 gebildet werden können. Dabei müssen aber die paarweisen Abstände zwischen den in einer bestimmten Selektion 30 enthaltenen Motiveinheiten 20 kleiner einer vorbestimmten Selektionsobergrenze sein, die im Bereich von einigen Ångström, beispielsweise bei 20 Ångström liegt. Vorausgesetzt, dass die Abstände von Motiveinheiten 20 von zwei Motiven 12 eines bestimmten Makromoleküls 10 unterhalb der Selektionsobergrenze liegen und dass das erste Motiv 12 i Motiveinheiten 20 umfasst und das zweite Motiv 12 j Motiveinheiten umfasst, werden somit grundsätzlich insgesamt n = ij Selektionen 30 gebildet. Die Selektionen 30 werden aus den Motiveinheiten 20 aller Motive 12 eines Makromoleküls 10 gebildet und die Selektionen 30 zu allen Makromolekülen 10, werden in der Metadatenbank 45 abgespeichert. Die in der Metadatenbank 45 gespeicherten Daten stehen dann dem Suchverfahren 50 nach verschiedenen Zielstrukturen 15 zur Verfügung.
  • Die Zielstrukturen 15 entsprechen im Allgemeinen den Abschnitten eines Makromoleküls 10 und weisen wie die Makromoleküle 10 Motive 16 auf, die sich in die Motiveinheiten 22 zerlegen lassen. Dementsprechend können mit den Motiveinheiten 22 der Zielstruktur 15 ebenfalls die Selektionen 39 gebildet werden, wobei die Selektionen 39 der Zielstruktur 15 den gleichen Bedingungen genügen wie die Selektion 30, die beim Aufbau der Metadatenbank 45 erstellt worden sind.
  • Eine Suche 50 nach einer bestimmten Zielstruktur 15 beginnt daher mit einer Bestimmung 55 der Motive 16 der Zielstruktur 15, sofern diese nicht bereits in der Metadatenbank 45 enthalten ist. Anhand der Motive 16 wird eine Zerlegung 56 der Motive 16 in die Motiveinheiten 22 durchgeführt. Auf die Zerlegung 56 folgt ein Zusammenstellen 57 der Selektion 39, die der Zielstruktur 15 zugeordnet sind.
  • Mit den Selektionen 39 der Zielstruktur 15 werden dann Datenbankabfragen 58 an die Metadatenbank 45 durchgeführt. Dabei wird insbesondere nach denjenigen Makromolekülen 10 gesucht, denen eine Selektion 30 zugeordnet ist, die eine der Selektionen 39 der Zielstruktur 15 entspricht. Es wird angenommen, dass sich eine Selektion 30 eines Makromoleküls 10 und die Selektion 39 einer Zielstruktur 15 entsprechen, wenn für die beiden Motiveinheiten 20 der Selektion 30 und die beiden Motiveinheiten 22 der Selektion 39 jeweils gilt, dass der Abstand zwischen dem Cα-Atom des zentralen Peptids der Motiveinheit 20 der Selektion 30 und dem entsprechenden Cα-Atom des zentralen Peptids der entsprechenden Motiveinheit 22 der Selektion 39 kleiner einem vorbestimmten Suchschwellwert ist. Außerdem kann auch die Zusammensetzung der Motiveinheiten 20 und 22 geprüft werden. Der Suchschwellwert liegt typischerweise im Bereich von wenigen Ångström, zum Beispiel bei 3 Ångström.
  • Die Treffer werden in einem Zwischenergebnis 59 zusammengefasst, das anschließend einer Überprüfung 60 auf Eindeutigkeit und Vollständigkeit unterzogen wird. Für die Überprüfung 60 auf Eindeutigkeit und Vollständigkeit wird eine graphentheoretische Cliquen-Analyse ("clique detection") durchgeführt. Derartige Verfahren sind als solche dem Fachmann bekannt. Ein mögliche Implementierung ist in NISKANEN, S.; and ÖSTERGÅRD, P. R. J.: "Cliquer User's Guide, Version 1.0", Communications Laboratory, Helsinki University of Technology, Espoo, Finland, Tech. Rep. T48, 2003 beschrieben.
  • Mithilfe der Cliquen-Analyse wird beispielsweise überprüft, ob die in dem Zwischenergebnis zu einem Makromolekül 10 enthaltenen Menge an Selektionen 30 neben den Paaren ij und jk von Motiveinheiten 20 auch das Paar ik von Motiveinheiten 20 enthält.
  • Ferner muss zu jeder Selektion 39 der Zielstruktur 15 eine entsprechende Selektion 30 von einem als Treffer angesehenen Makromolekül 10 geben. Es wird daher geprüft, ob zwischen den Selektionen 39 der Zielstruktur 15 und den Selektionen 30 des Makromoleküls 10 eine n:n-Beziehung besteht.
  • Diejenigen Makromoleküle 10, bei denen diese Bedingungen erfüllt sind, werden schließlich einer abschließenden Überprüfung 61 auf räumliche Übereinstimmung unterzogen. Dabei wird der mittlere quadratische Abstand zwischen den Cα-Atomen der Motiveinheiten 20 des Makromoleküls 10 und den entsprechenden Motiveinheiten 22 der Zielstruktur 15 überprüft.
  • Falls der mittlere quadratische Abstand unterhalb einer vorbestimmten Prüfobergrenze liegt, wird das entsprechende Makromolekül 10 in ein Endergebnis 62 aufgenommen. Die Prüfobergrenze liegt typischerweise im Bereich von wenigen Ångström und kann beispielsweise 5 Ångström betragen.
  • Mit dem hier beschriebenen Verfahren lassen sich Suchen nach komplexen Zielstrukturen 15 innerhalb der gesamten PDB durchführen. Insbesondere wurde der Nachweis erbracht, dass Interleukin-8, eine Struktur aufweist, die auch bei dem in 1A dargestellten Pepsin-Inhibitor zu finden ist. Aufgrund dieser Erkenntnis und zusätzlichen Laborexperimenten konnte die Pepsin-Resistenz von Interleukin-8 auf molekularer Ebene erklärt werden.
  • Das hier beschriebene Verfahren kann auf verschiede Weise abgewandelt werden. Anstelle von Pentapeptiden können auch andere Moleküleinheiten als Motiveinheiten verwendet werden. Beispielsweise ist es denkbar, in einer weiteren Datensammlung zur organischen oder anorganischen Chemie eine Suche nach bestimmten Zielstrukturen durchzuführen, wobei die Molekülbestandteile einzelne Atome und die Motiveinheiten Atomgruppen sind, die charakteristische Motive bilden.
  • Auch die Selektionen können erforderlichenfalls angepasst werden. So können anstelle der Paare auch Tripel von Motiveinheiten verwendet werden. Der Koordinatenursprung des Koordinatensystems kann dann in das Zentrum der ersten Motiveinheit gelegt werden. Ein Zentrum der zweiten Motiveinheit wird auf die x-Achse des Koordinatensystems gelegt und ein Zentrum der dritten Motiveinheit befindet sich dann in der von der x-Achse und y-Achse aufgespannten Ebene.
  • Abschließend sei noch darauf hingewiesen, dass Merkmale und Eigenschaften, die im Zusammenhang mit einem bestimmten Ausführungsbeispiel beschrieben worden sind, auch mit einem anderen Ausführungsbeispiel kombiniert werden können, außer wenn dies aus Gründen der Kompatibilität ausgeschlossen ist.
  • Schließlich wird noch darauf hingewiesen, dass in den Ansprüchen und in der Beschreibung der Singular den Plural einschließt, außer wenn sich aus dem Zusammenhang etwas anderes ergibt. Insbesondere wenn der unbestimmte Artikel verwendet wird, ist sowohl der Singular als auch der Plural gemeint.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • KIUCHI, Y.; OZAKI, T; OHKAWA, T.: Partial Geometric Hashing for Retrieving Similar Interaction Protein Using Profile, International Conference on Information Technology, 2007 [0005]
    • KABSCH, W.; SANDER C.: Dictionary of Protein Secondary Structure: Pattern Recognition of Hydrogen-Bonded and Geometrical Features, Biopolymers, Vol. 22, 2577–2637, 1983 [0068]
    • NISKANEN, S.; and ÖSTERGÅRD, P. R. J.: "Cliquer User's Guide, Version 1.0", Communications Laboratory, Helsinki University of Technology, Espoo, Finland, Tech. Rep. T48, 2003 [0073]

Claims (25)

  1. Verfahren für die Suche nach einer Zielstruktur (15) in einem auf einer Datenverarbeitungsanlage vorgehaltenen Moleküldatenbestand (42) von Makromolekülen (10), wobei – der Moleküldatenbestand (42) Informationen über die räumliche Anordnung von Bestandteilen der Makromoleküle (10) enthält, und – die Makromoleküle (10) Raumstrukturen aufweisen, in denen gleichförmige Motive (20) identifizierbar sind, mit den Verfahrensschritten: – Bestimmen von Selektionen (39) der Zielstruktur (15), wobei die Selektionen (39) Raumkoordinaten der Raumstruktur von Tupeln aufweisen, die Motiveinheiten (22) der Motive (16) der Zielstruktur (15) umfassen, wobei die Motiveinheiten (22) eines Tupels jeweils verschiedenen Motiven (17) der Zielstruktur (15) zugeordnet sind; – Suche (50) in einem auf der Grundlage des Moleküldatenbestands (42) erstellten Metadatenbestands (44) nach den Selektionen (39) der Zielstruktur (15), wobei der Metadatenbestand (44) zu einer Mehrzahl von Makromolekülen (10) zugeordnete Selektionen (30) enthält, die jeweils ein Makromolekül (10) betreffen und die Raumkoordinaten der Raumstruktur von Tupeln aufweisen, die Motiveinheiten (20) der Motive (12) des jeweiligen Makromoleküls (10) umfassen, und wobei die Motiveinheiten (20) eines Tupels jeweils verschiedenen Motiven (12) des jeweiligen Makromoleküls (10) zugeordnet sind.
  2. Verfahren nach Anspruch 1, bei dem die Selektionen (30, 39) auch Informationen über die Beschaffenheit der Motiveinheiten (20, 22) enthalten.
  3. Verfahren nach Anspruch 1 oder 2, bei dem die Motiveinheiten (20, 22) mehrere Molekülbestandteile (21) der in dem Moleküldatenbestand (42) enthaltenen Makromoleküle (10) umfassen.
  4. Verfahren nach einem der Ansprüche 3, bei dem die Motive (12) der Makromoleküle (10) und/oder die Motive (16) der Zielstruktur (15) in jeweils wenigstens eine Motiveinheit (20, 22) zerlegt werden, wobei die Motiveinheiten (20, 22) jeweils die gleiche Zahl von Molekülbestandteilen (21) umfassen.
  5. Verfahren nach Anspruch 4, bei dem die Zerlegung bei Motiven (12, 16), deren Zahl von Molekülbestandteilen (21) gleich oder größer einem Vielfachen der in einer Motiveinheit (20, 22) enthaltenen Molekülbestandteile (21) ist, überlappungsfrei unter Nichtberücksichtigung der restlichen Molekülbestandteile (21) durchgeführt wird.
  6. Verfahren nach Anspruch 4 oder 5, bei dem die Zerlegung bei Motiven (12, 16), deren Zahl von Molekülbestandteilen (21) kleiner einem Vielfachen der in einer Motiveinheit (20, 22) enthaltenen Molekülbestandteile (21) ist, überlappend durchgeführt wird, wobei alle Molekülbestandteile (21) wenigstens einer Motiveinheit zugeordnet werden.
  7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem bei der Bestimmung der Selektionen (30) des jeweiligen Makromoleküls (10) Motiveinheiten (20) ausgewählt werden, deren Abstand kleiner einer vorbestimmten Selektionsobergrenze ist.
  8. Verfahren nach Anspruch 7, bei dem bei der Bestimmung der Selektionen (39) der Zielstruktur (15) Motiveinheiten (22) ausgewählt werden, deren Abstand kleiner der vorbestimmten Selektionsobergrenze ist.
  9. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die Raumkoordinaten der Raumstruktur der Selektionen (30, 39) auf ein Koordinatensystem (33) bezogen sind, das nach einer vorbestimmten Zuordnungsregel auf die Motiveinheiten (20, 22, 31, 32) der Selektionen (30, 39) ausgerichtet ist.
  10. Verfahren nach Anspruch 9, bei dem als Tupel der Motiveinheiten (20, 22, 31, 32) Paare der Motiveinheiten (20, 22, 31, 32) verwendet werden, wobei der Ursprung des Koordinatensystems (33) zwischen die beiden Motiveinheiten (20, 22, 31, 32) gelegt wird.
  11. Verfahren nach Anspruch 10, bei dem der Ursprung (34) des Koordinatensystems (33) auf den Schwerpunkt (35) des Paares von Motiveinheiten (20, 22, 31, 32) gelegt wird.
  12. Verfahren nach Anspruch 10 oder 11, bei dem ein vorbestimmter Ort (36) einer Motiveinheit (31) auf eine vorbestimmte Achse des Koordinatensystems (33) gelegt wird und bei dem ein weiterer vorbestimmter Ort (37) der anderen Motiveinheit (32) in eine Ebene gelegt wird, die von der erwähnten Achse und einer weiteren vorbestimmten Achse des Koordinatensystems (33) aufgespannt wird.
  13. Verfahren nach Anspruch 9, bei dem als Tupel der Motiveinheiten (20, 22) Tripel der Motiveinheiten (20, 22) verwendet werden, wobei ein Zentrum der ersten Motiveinheit (20, 22) in den Ursprung des Koordinatensystems gelegt wird, ein Zentrum einer zweiten Motiveinheit (20, 22) auf eine Achse des Koordinatensystems gelegt wird und ein Zentrum der dritten Motiveinheit (20, 22) in eine Ebene gelegt wird, die von der erwähnten Achse und einer weiteren Achse aufgespannt wird.
  14. Verfahren nach einem der Ansprüche 1 bis 13, bei dem die Menge der einem Makromolekül (10) oder einer Suchstruktur (15) zugeordneten Selektionen sämtliche Kombinationen von Motiveinheiten (20, 22) umfasst, die aus den Motiveinheiten (20, 22) unterschiedlicher Motive (12, 16) auswählbar sind.
  15. Verfahren nach einem der Ansprüche 1 bis 14, bei dem für die Suche (50) eine geometrische Streuwertsuche verwendet wird.
  16. Verfahren nach einem der Ansprüche 1 bis 15, bei dem die Suche (50) unter Verwendung eines Suchkriterium durchgeführt wird, nach dem der Abstand zwischen einander entsprechende Zentren der Motiveinheiten (20, 22) kleiner einem Suchschwellwert sein muss.
  17. Verfahren nach Anspruch einem der Ansprüche 1 bis 16, bei dem die bei der Suche in dem Metadatenbestand (44) gefundenen Makromoleküle (10), bei denen eine vorbestimmte Zahl von Selektionen (30) mit Selektionen (39) der Zielstruktur (15) übereinstimmt, mittels einer Vollständigkeits- und Eindeutigkeitsüberprüfung (60) auf das Vorhandensein aller Selektionen (39) der Zielstruktur (15) und die eindeutige Zuordnung zwischen Selektionen (39) der Zielstruktur (15) und den Selektionen (30) des jeweiligen Makromoleküls (10) überprüft wird.
  18. Verfahren nach Anspruch 17, bei dem die Überprüfung auf Vollständigkeit und Eindeutigkeit (60) mit Hilfe eines Verfahrens der Cliquen-Analyse durchgeführt wird.
  19. Verfahren nach einem der Ansprüche 1 bis 18, bei dem die Ergebnisse der Suche (50) eine Überprüfung (61) auf räumliche Deckungsgleichheit unterzogen werden, indem der mittlere quadratische Abstand zwischen sich entsprechenden Motiveinheiten (20) der Zielstruktur (15) und Motiveinheiten (22) der aufgefundenen Makromoleküle (10) berechnet wird und indem der berechnete mittlere quadratische Abstand auf die Einhaltung einer vorbestimmten Prüfobergrenze für den mittleren quadratischen Abstand überprüft wird.
  20. Verfahren nach einem der Ansprüche 1 bis 19, bei dem die Molekülbestandteile (21) Atomgruppen und bei dem die Motiveinheiten (20, 22) Gruppen von Atomgruppen sind.
  21. Verfahren nach einem der Ansprüche 1 bis 20, bei dem Makromoleküle (10) wenigstens einen Strang (11) umfassen, der wenigstens ein Motiv (12) aufweist.
  22. Verfahren nach einem der Ansprüche 1 bis 21, bei dem die Makromoleküle (10) Proteine, die Motiveinheiten (20, 22) Pentapeptide und die Molekülbestandteile (21) Peptide sind.
  23. Computerprogrammprodukt, das zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 22 geeigneten Programmcode enthält.
  24. Server, der dazu eingerichtet ist, zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 22, Datenbankabfragen an eine auf dem Server vorgehaltene Datenbank durchzuführen, die den Metadatenbestand verwaltet.
  25. Arbeitsplatzrechner, der dazu eingerichtet ist, zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 22, Datenbankabfragen zu generieren.
DE102015121485.7A 2015-12-10 2015-12-10 Verfahren für die Suche in einem Datenbestand von Makromolekülen Withdrawn DE102015121485A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102015121485.7A DE102015121485A1 (de) 2015-12-10 2015-12-10 Verfahren für die Suche in einem Datenbestand von Makromolekülen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102015121485.7A DE102015121485A1 (de) 2015-12-10 2015-12-10 Verfahren für die Suche in einem Datenbestand von Makromolekülen

Publications (1)

Publication Number Publication Date
DE102015121485A1 true DE102015121485A1 (de) 2017-06-14

Family

ID=58773349

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015121485.7A Withdrawn DE102015121485A1 (de) 2015-12-10 2015-12-10 Verfahren für die Suche in einem Datenbestand von Makromolekülen

Country Status (1)

Country Link
DE (1) DE102015121485A1 (de)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KABSCH, W.; SANDER C.: Dictionary of Protein Secondary Structure: Pattern Recognition of Hydrogen-Bonded and Geometrical Features, Biopolymers, Vol. 22, 2577–2637, 1983
KIUCHI, Y.; OZAKI, T; OHKAWA, T.: Partial Geometric Hashing for Retrieving Similar Interaction Protein Using Profile, International Conference on Information Technology, 2007
NISKANEN, S.; and ÖSTERGÅRD, P. R. J.: "Cliquer User's Guide, Version 1.0", Communications Laboratory, Helsinki University of Technology, Espoo, Finland, Tech. Rep. T48, 2003
PENNEC, Xavier; AYACHE, Nicholas: A geometric algorithm to find small but highly similar 3D substructures in proteins. Bioinformatics, 1998, 14. Jg., Nr. 6, S. 516-522 *

Similar Documents

Publication Publication Date Title
DE68926849T2 (de) Struktur und Verfahren zur Anordnung rekursiv abgeleiteter Daten in einer Datenbank
Hudson et al. Parameter based methods for compound selection from chemical databases
DE112005001143T5 (de) System und Verfahren zum Gruppieren von Vorläufer- und Fragmentionen unter Verwendung von Chromatogrammen ausgewählter Ionen
DE19646624B4 (de) Verfahren und Computersystem zur Identifizierung konformationselastischer Moleküle
DE102014204830A1 (de) Computerimplementierte Systeme und Verfahren zum Vergleichen und Assoziieren von Objekten
EP1056046B1 (de) Verfahren zur Bearbeitung eines Röntgenbildes
DE102014204834A1 (de) Computerimplementierte Systeme und Verfahren zum Vergleichen und Assoziieren von Objekten
JP2017509945A (ja) 分子イメージングデータを処理する方法及び対応するデータサーバ
EP3563261B1 (de) Bitsequenzbasiertes datenklassifikationssystem
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
EP1966733A2 (de) Screening-verfahren
DE112017004738T5 (de) Bestimmung von molekularen Strukturen und molekularen Anordnungsstrukturen aus Impulsübertrag-Querschnittsverteilungen
DE112012006749T5 (de) Suchmethode
DE102010013548A1 (de) Mobilitätsspektrometrische Substanz-Identifizierung
DE102015121485A1 (de) Verfahren für die Suche in einem Datenbestand von Makromolekülen
DE112016007194T5 (de) Verfahren zum Erzeugen eines Zeichenkettenwörterbuchs, Verfahren zum Suchen eines Zeichenkettenwörterbuchs und ein System zum Verarbeiten eines Zeichenkettenwörterbuchs
DE102019003473A1 (de) Verfahren zur zuverlässigen Fahrzeuglokalisierung mittels Konstellationscodetabellen
EP1094415A2 (de) Verfahren zur Identifizierung von Kandidatenmolekülen
EP2910937A1 (de) Verfahren zur Identifizierung einer kristallographischen Kandidatenphase eines Kristalls
EP1451750B1 (de) Verfahren zur identifikation von pharmakophoren
DE4495111C2 (de) Verfahren zur Bestimmung einer Menge von charakteristischen Merkmalen im Rahmen einer Objekterkennung
DE19849231C2 (de) Verfahren zum Verifizieren der Synthese organischer Moleküle in der kombinatorischen Chemie
EP1682917B1 (de) Verfahren zur verifikation der korrekten räumlichen struktur von molekülen mittels nmr-spektroskopie
DE102014207091A1 (de) Verfahren und Klassifikationssystem zum Abfragen von Klassifikationsfällen aus einer Datenbasis
EP1687756B1 (de) Verfahren zur klassifikation von messwerten in der medizinischen und biochemischen analytik

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0019280000

Ipc: G16B0050000000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee