DE102008005062B4 - Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls - Google Patents

Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls Download PDF

Info

Publication number
DE102008005062B4
DE102008005062B4 DE102008005062A DE102008005062A DE102008005062B4 DE 102008005062 B4 DE102008005062 B4 DE 102008005062B4 DE 102008005062 A DE102008005062 A DE 102008005062A DE 102008005062 A DE102008005062 A DE 102008005062A DE 102008005062 B4 DE102008005062 B4 DE 102008005062B4
Authority
DE
Germany
Prior art keywords
molecule
domain
feature
determining
molecules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102008005062A
Other languages
English (en)
Other versions
DE102008005062A1 (de
Inventor
Dr. Horvath Tamas
Dr. Gärtner Thomas
Prof. Dr. Wrobel Stefan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE102008005062A priority Critical patent/DE102008005062B4/de
Priority to PCT/EP2008/010779 priority patent/WO2009089890A1/de
Priority to EP08870846A priority patent/EP2232395A1/de
Publication of DE102008005062A1 publication Critical patent/DE102008005062A1/de
Application granted granted Critical
Publication of DE102008005062B4 publication Critical patent/DE102008005062B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls (M), mit folgenden Merkmalen: einer Einrichtung (110) zum Bestimmen von in dem Molekül auftretenden Atomstrukturen; einer Einrichtung (120) zum Zuweisen eines Merkmalsindex (MI) zu einer der auftretenden Atomstrukturen in dem Molekül (M) abhängig von der jeweiligen Atomstruktur und einer Nachbarschaft der jeweiligen Atomstruktur in dem Molekül (M); einer Einrichtung (130) zum Ermitteln eines Merkmalsvektors (MV) für das Molekül (M) abhängig von dem zugewiesenen Merkmalsindex (MI), wobei der Merkmalsvektor (MV) auf einen Punkt in einem Merkmalsraum (MR) zeigt, wobei der Merkmalsraum (MR) eine erste Domain (A), die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain (B), die pharmazeutisch inaktiven Molekülen entspricht, aufweist; und einer Einrichtung (140) zum Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain (A) oder der zweiten Domain (B).

Description

  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls und insbesondere auf einen Atom-Zykel-Baum molekularen Fingerabdruck (ACT molecular fingerprint).
  • Untersuchungen von Graphen-strukturierten Objekten, die beispielsweise in der Biologie, dem World Wide Web (WWW, weltweitem Netz), und einer Reihe von anderen Gebieten angewendet werden, haben in der jüngsten Vergangenheit ein beachtliches Interesse hervorgerufen. Dies umfasst beispielsweise eine Datenermittlung in Graphen-basierten Datenbanken, bei denen bestimmte Ereignisse sich durch spezielle Graphen darstellen lassen und die es ferner erlauben, eine Vorhersage hinsichtlich des Auftretens der Ereignisse zu treffen. Ein Beispiel für ein Ereignis wäre eine gewünschte pharmazeutische Aktivität eines Moleküls. Einige Verfahren, die eine sehr gute Performance hinsichtlich der Zuverlässigkeit von Klassifizierungen von Ereignissen zeigen, basieren oder nutzen die so genannte Support-Vektor-Maschine (Stütz-Vektor-Maschine). Um den Computeraufwand dieser Verfahren, die beispielsweise in V. Vapnik: „Statistical Learning Theory”, John Wiley, 1998 beschrieben sind, zu begrenzen, können beispielsweise Kernelfunktionen verwendet werden, denen häufig auftretende Muster zugrunde liegen. Diese Kernelfunktionen, die auf Mustererkennung hinsichtlich ihrer Häufigkeit basieren, sind allerdings dahingehend nachteilig, dass deren Vorhersagekraft oft unzureichend ist.
  • Während in den meisten Anwendungen, die sich auf ein Auffinden von Daten in einem Datennetz konzentrieren, wo bestimmte Ereignisse durch Vertices von einem einfachen massiven Netzgraphen dargestellt sind, kann es bei anderen Anwendungen vorkommen, dass jedes Ereignis selbst durch einen Graphen dargestellt wird. Ein Beispiel dafür sind Anwendungen, die sich mit Molekülen umfassen, da jedes Molekül selbst aus einer Reihe von Atomen (= Vertices in einem Graphen) besteht, die ihrerseits über Bindungen mit anderen Atomen verbunden sind. Bei derartigen Anwendungen wird gewöhnlich jedem Vertex und jeder Verbindung ein Label zugeordnet, welches beispielsweise den Atomtyp oder Atomsorte und den Bindungstyp spezifiziert.
  • Als ein Beispiel für derartige chemische Anwendungen kann beispielsweise das pharmazeutische Umfeld genannt werden. Bei der heute verfügbaren Vielfalt von chemischen Stoffen und Verbindungen ist es enorm wichtig, im Vorfeld von konkreten biologischen Untersuchungen, die Aktivität eines bestimmten Moleküls abschätzen zu können. So würde die Identifikation von neuen chemischen Bestandteilen, die zu neuen Medikamenten entwickelt werden könnten, eine extrem hohe Anzahl von experimentellen Untersuchungen für eine sehr große Anzahl von Verbindungen erfordern. Dies ist insbesondere deshalb zutreffend, da für die pharmazeutische Aktivität nicht nur das Vorhandensein bestimmter Moleküle, sondern auch die Kombination von bestimmten Molekülen entscheidend ist. Es ist nicht ungewöhnlich, dass gegenwärtig Datenbanken mit pharmazeutischen Verbindungen und Probenbibliotheken mehrere Millionen Moleküle enthalten.
  • Ein einfaches Fingerprintverfahren zur Ähnlichkeitsanalyse ist in Williams, C., u. a.: ”Reverse fingerprinting, similarity searching by group fusion and fingerprint bit importance”, Molecular Diversity (2006) 10, 311–332, offenbart. Der Fingerabdruck eines unbekannten Moleküls wird dabei mit einer Fusion von Fingerabdrücken von als aktiv bekannten Molekülen verglichen. In der WO 2005/038429 A2 ist ein weiteres Verfahren zur Analyse einer molekularenKonfiguration offenbart, bei dem die Wahrscheinlichkeit einer Reaktion zwischen einer Trägerstruktur für ein Biomolekül und einem potentiell reaktiven Molekül abgeschätzt wird. Beide Verfahren sind für die Abschätzung von Reaktionsaffinitäten einzelner Strukturen geeignet, sind jedoch für die oben erwähnten Probenbibliotheken eher ungeeignet.
  • Aus diesem Grund haben chemoinformatische Verfahren eine zunehmende Anwendung gefunden, um mit deren Hilfe die Identifikation eines viel versprechenden Kandidaten zu beschleunigen und gleichzeitig den Umfang von biologischen Probeuntersuchungen zu reduzieren. So kann beispielsweise computerbasiert eine große Anzahl von Proben vorselektiert werden, so dass viel versprechende Kandidaten für Verbindungen bereits ausgewählt werden können. Das Design eines effizienten Algorithmus zum Überprüfen virtueller (chemischer) Verbindungen und für andere chemoinformatische Anwendungen ist zu einem integralen Bestandteil einer computergestützten Medikamentenentwicklung geworden. Ein Überblick über den Stand der Technik auf diesem Gebiet kann beispielsweise dem folgenden Dokument entnommen werden: B. A. Bunin, B. Siesel, G. Morales, and J. Bajorath: „Chemoinformatics: Theory, Practice, & Products”; Springer, 2007.
  • Ein Nachteil des bekannten Standes der Technik besteht darin, dass die dort gezeigten Verfahren nur eine sehr begrenzte Vorhersagekraft hinsichtlich der Aktivität von Molekülen aufweisen, was in Anbetracht der beträchtlichen Anzahl von verfügbaren Molekülen einen enormen Mehraufwand bei biologischen Tests bedeutet. Um ein möglichst effizientes Verfahren bereitstellen zu können, ist es dabei von enormer Wichtigkeit, einen Satz von Merkmalen für jene Moleküle in den zu entwerfenden Medikamenten herauszufinden, für die eine pharmazeutische Aktivität erwartet werden kann.
  • Ausgehend von diesem Stand der Technik liegt der vorliegenden Erfindung die Aufgabe zugrunde, eine Vorrichtung und ein Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls zu schaffen, deren Voraussagefähigkeit deutlich erhöht ist, so dass der Aufwand für durchzuführende biologische Tests deutlich reduziert wird.
  • Diese Aufgabe wird von einer Vorrichtung gemäß Anspruch 1 und einem Verfahren nach Anspruch 15 gelöst.
  • Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die pharmazeutische Aktivität eines Moleküls durch Atomstrukturen, die das Molekül bilden und neben den Atomen selber insbesondere auch deren Nachbaratome umfassen, bestimmbar ist. Die Atomstrukturen können somit einzelne Atome als auch Gruppen von Atomen umfassen und das Molekül kann durch die Gesamtheit der vorkommenden Atomstrukturen dargestellt werden. Zum Bestimmen der pharmazeutischen Aktivität werden die Atomstrukturen bzw. deren Merkmale für ein Molekül in einem Merkmalsvektor zusammengefasst. Der Merkmalsvektor kann anschließend beispielsweise unter Nutzung einer Stützvektormaschine hinsichtlich der zu erwartenden pharmazeutischen Aktivität untersucht werden.
  • Die Untersuchung kann vorzugsweise mittels Graphen geschehen, wobei der Graph Vertices und Kanten (Verbindungslinien zwischen Vertices) aufweist. Für die vorliegende Anwendung wird jedem Molekül ein Graph zugeordnet, wobei die Vertices die Atome und Kanten die (chemischen) Verbindungen darstellen. Die Atome oder Atomsorten können durch Labels an den Vertices markiert werden.
  • Zusätzlich zu den einzelnen Atomen und deren Nachbaratomen in dem Molekül wird optional der Graph des Moleküls dahingehend untersucht, wie viele und welche Art von geschlossenen Zykeln (geschlossene Loops in einem Graphen) in dem Graph ausgebildet sind und durch welche Brücken die Zykeln miteinander verbunden sind. Die Zykel beschreiben also geschlossene Wege entlang von Kanten eines Graphens, die sich selbst nicht schneiden. Die auftretenden Zykeln und Brücken können wiederum entsprechenden Labels zugeordnet werde, die als weitere Komponenten in dem Merkmalsvektor aufgenommen werden. Bei weiteren Ausführungsbeispielen kann ebenso der Bindungstyp zwischen den Atomen oder zwischen den Zykeln in dem Merkmalsvektor als ein Merkmal aufgenommen werden.
  • Diese Erkenntnis kann bei Ausführungsbeispielen der vorliegenden Erfindung wie folgt umgesetzt werden. Eine Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls weist zunächst eine Einrichtung zum Bestimmen von in dem Molekül auftretenden Atomstrukturen auf. Ferner weist die Vorrichtung eine Einrichtung zum Zuweisen eines Merkmalsindexes auf, wobei der Merkmalsindex zu einer der auftretenden Atomstrukturen in dem Molekül in Abhängigkeit von der jeweiligen Atomstruktur und der Nachbarschaft der jeweiligen Atomstruktur in dem Molekül zugewiesen wird. Die Vorrichtung weist ebenfalls eine Einrichtung zum Ermitteln eines Merkmalsvektors für das Molekül auf, wobei der Merkmalsvektor von dem zugewiesenen Merkmalsindex abhängt und der Merkmalsvektor auf einen Punkt in einem Merkmalsraum zeigt, wobei der Merkmalsraum eine erste Domain, die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain, die pharmazeutisch inaktiven Molekülen entspricht, aufweist. Schließlich weist die Vorrichtung eine Einrichtung zum Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain oder der zweiten Domain auf.
  • Weitere Ausführungsbeispiele beschreiben den Merkmalsvektor als einen binären Vektor, der Komponenten aufweist, die entweder das Vorliegen oder Fehlen eines Merkmals signalisiert. Zum Beispiel kann ein bestimmter Eintrag für eine Vektorkomponente des Merkmalsvektors das Vorliegen des bestimmten Merkmales (z. B. ein bestimmter Atomtyp wie beispielsweise Wasserstoff) und ein davon abweichender Eintrag das Fehlen dieses Merkmalstyps entsprechen. Ebenso ist es möglich, eine Multiplizität in den Merkmalsvektor einzuführen, die beispielsweise die Anzahl eines bestimmten Merkmals (z. B. die Anzahl von Atomstrukturen wie beispielsweise von Zykeln) in dem vorliegenden Graphen bezeichnet.
  • Um die Vorgehensweise besser zu verstehen, ist es wichtig, die zwei-dimensionale Graphenstruktur genau zu analysieren und zu beschreiben. Die Darlegungen hier basieren auf der Annahme, dass es sich um eine planaren Graphen handelt, d. h. dass die Moleküle durch Graphen in einer zweidimensionalen Ebene (ohne Überlappungen) darstellbar sind.
  • Dies dient hier der Einfachheit, braucht im Allgemeinen jedoch nicht der Fall zu sein.
  • Der Algorithmus basiert auf der durch die Atome und die Bindungen gegebene zwei-dimensionale Graphenstruktur für die chemische Verbindung, die das Molekül darstellt. Das im folgenden beschriebene Atom-Zykel-Baum (ACT = Atom-Cycle-Tree) molekulares Fingerabdruckverfahren liefert eine Rangfolge der chemischen Verbindungen (Moleküle) hinsichtlich der zu erwartenden pharmazeutischen Aktivität der chemischen Verbindung. Die pharmazeutische Aktivität kann sich dabei auf eine Veränderung eines Krankheitsbildes hinsichtlich einer Krankheit, die behandelt werden soll, oder auf den kosmetischen Bereich (Beeinflussung oder Veränderung von biologischem Gewebe) beziehen.
  • In dem Algorithmus gehen zwei voneinander getrennte Sätze von chemischen Verbindungen ein, von denen:
    • 1. ein Satz A, der eine kleine Anzahl von Molekülen aufweist, von denen bekannt ist, dass sie eine Aktivität hinsichtlich der Krankheit zeigen und
    • 2. ein Satz U, der Moleküle aufweist, deren Aktivität unbekannt ist.
  • Der Algorithmus liefert als Ergebnis eine reell-wertige Funktion, die die Aktivität des Moleküls, das zum Satz U gehört, vorhersagt. Der Wert der Funktion gibt der Wahrscheinlichkeit an, mit der eine Aktivität des Moleküls zu erwarten ist – zum Beispiel je höher der Funktionswert ist desto höher ist die Wahrscheinlichkeit, dass die Verbindung aktiv im Hinblick auf die Krankheit sein wird.
  • Ein erfindungsgemäßes Verfahren umfasst die folgenden Schritte:
    • (i) Für jede chemische Verbindung M aus der Vereinigung von A und U (A U U) wird ein ungerichteter Graph GM, der die Atom-Bindungsstruktur von M darstellt, wie folgt berechnet. Für jedes Atom a von M wird der entsprechende Vertex va von GM mit einem Label versehen, das aus einem Paar (L1, L2) besteht, wobei L1 den Atomtyp von A und L2 einen Vielzahl von Atomtypen von den zu a benachbarten Atomen darstellt. Die Vereinigung aller dieser Datensätze (alle Labels), die für jedes Molekül in der Vereinigung von A und U berechnet werden, wird mit FATOM bezeichnet. Ferner kann jede Verbindung E in dem Graphen GM mit einem weiteren Label versehen werden, wobei das weitere Label den Verbindungstyp (die vorliegende Atombindung beispielsweise) von E aufweist.
    • (ii) Für jeden Graphen, der unter (i) berechnet und mit Labels versehen wurde, kann anschließend ein Satz von zweifach zusammenhängenden Komponenten und ein Satz von Brücken gebildet werden. Zweifach zusammenhängende Komponenten bezeichnen dabei Untergraphen (Teilgraphen), die durch Kanten (edges) gebildet werden, die zu Zykeln gehören. Brücken bezeichnen andererseits einen Untergraphen, der durch Kanten gebildet wird, wobei die Kanten nicht zu einem Zykel gehören. Von dem Satz der zweifach zusammenhängenden Komponenten werden die Zykel aufgelistet und jedem Zykel wird ein String eindeutig bis auf Isomorphismen zugeordnet. Der String entspricht beispielsweise einer Serie von Labels, die den Zykel identifizieren (Anzahl und Art der Atome, Verbindungstyp, etc.). Somit stellt der Satz der Strings einen Satz von Zykeln des Moleküls oder der Moleküle in der Vereinigung von A und U dar und wird mit FCYCLE bezeichnet.
  • Der Satz von Brücken wird auch als Wald (d. h. die nicht zusammenhängende Vereinigung von Bäumen) bezeichnet. Ähnlich zu den Zykeln wird jedem Baum in dem Wald ein String eindeutig bis auf Isomorphismen zugeordnet, wobei der Satz von Strings, die den Säumen zugeordneten sind, für die Moleküle in der Vereinigung von A und U als FTREE bezeichnet wird. Eine Darstellung wie FCYCLE und FTREE für allgemeine Graphen berechnet werden kann, ist beispielsweise in T. Horvath, T. Gärtner und S. Wrobel: „Cyclic pattern kernels for predictive graph mining” in Proc. of the 10th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 158–167, 2004, gegeben.
  • Unter Verwendung einer nicht-leeren Teilmenge aus der Vereinigung {FATOM, FCYCLE, FTREE} und durch Bilden der Vereinigung F der Sätze, die zur nicht-leeren Teilmenge gehören, kann für jedes Molekül M in der Vereinigung von A und U der folgende Satz berechnet werden:
    FM = {f ∊ F:f stellt einen Untergraphen von M dar}.
  • Da es sich bei FM um einen Satz handelt, kann er als ein Bool'scher Vektor in einem hochdimensionalen Raum aufgefasst werden, wobei der hochdimensionale Raum auch als Merkmalsraum, der zu F korrespondiert, bezeichnet wird.
    • (iii) Unter Verwendung von Standardtechniken wie einer Support-Vektor-Maschine, die ein Teilgebiet der Kernel-Methoden darstellen, kann anschließend eine Hyperfläche berechnet werden, die die aktiven und inaktiven Verbindungen von A in den oben beschriebenen Merkmalsraum trennt.
    • (iv) Schließlich liefert das Verfahren eine Funktion f:U →
      Figure 00090001
      (Menge aller reeller Zahlen), die den Abstand von FM (für jedes Molekül M ∊ U) von der oben beschriebenen Hyperfläche angibt, wobei das Vorzeichen der Funktion f die Seite der Hyperfläche kennzeichnet. Das eine Vorzeichen entspricht einem Merkmalsvektor (für ein Molekül), der zu jenem Halbraum des Merkmalsraums gerichtet ist, der aktive Trainingsbeispiele enthält, währenddessen das andere Vorzeichen einen Merkmalsvektor beschreibt, der den Bereich inaktive Trainingsbeispiele entspricht.
  • Für das zu lösende Problem, d. h. für die Auswahl der viel versprechendsten N Kandidaten aus der Menge der Moleküle des Satzes U für mögliche In-vitro-Tests (biologische Tests) kann die Vorhersagefunktion f wie folgt genutzt werden: Der Funktionswert der Funktion f gibt eine Vorhersage für eine Aktivität für das jeweilige Molekül aus dem Satz U. Durch Vergleich der Funktionswerte, die zu verschiedenen Moleküle gehören, werden die N Moleküle, die einem höchsten Vorhersagewert entsprechen, bestimmt. Somit liefert f jene Moleküle, für die eine pharmazeutische Aktivität mit der größten Wahrscheinlichkeit zu erwarten ist. Dementsprechend kann ein Ranking von Molekülen aufgestellt werden, wobei in der erhaltenen Reihenfolge (Ranking) mögliche In-vitro-Tests durchgeführt werden können, so dass zunächst nur biologische Tests durchgeführt werden an Molekülen, die viel versprechend sind und jene Moleküle vernachlässigt werden, für die die Simulation keine Hinweise auf eine pharmazeutische Aktivität liefert.
  • Dementsprechend liefern Ausführungsbeispiele der vorliegenden Erfindung eine Vorrichtung und ein Verfahren zur Selektion oder eines Screenings einer großen Anzahl von Molekülen in viel versprechende Kandidaten und weniger versprechende Kandidaten, so dass keine Ressourcen an Tests verschwendet werden, die kaum Aussicht auf Erfolg haben. In Anbetracht der Situation, dass die Anzahl möglicher Moleküle oder Bestandteilen, die in Medikamenten aufgenommen werden können, die Millionengrenze deutlich überschreiten kann, ist es besonders wichtig, nur In-vitro-Tests an Molekülen oder chemischen Verbindungen durchzuführen, die eine signifikante pharmazeutische Aktivität erwarten lassen und alle Moleküle, die keinen Hinweis auf eine pharmazeutische Aktivität versprechen, zunächst zu vernachlässigen.
  • Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • 1 eine schematische Darstellung eines Ausführungsbeispiels der vorliegenden Erfindung;
  • 2 ein Flussdiagramm zur Bestimmung des Merkmalsvektors;
  • 3 ein Beispiel für einen Merkmalsvektor, der aus binären Komponenten aufgebaut ist;
  • 4 ein Teil eines Merkmalsvektors, der ein Atom und dessen Nachbarn identifiziert;
  • 5A, 5B eine Darstellung des Merkmalsraumes mit verschiedenen Molekülen, die durch eine Domaingrenze voneinander getrennt sind;
  • 6A, 6B Darstellungen für ungerichtete Graphen; und
  • 7 ein Beispiel für eine Darstellung einer chemischen Verbindung in Form eines Graphen.
  • Bezüglich der nachfolgenden Beschreibung sollte beachtet werden, dass bei den unterschiedlichen Ausführungsbeispielen gleiche oder gleich wirkende Funktionselemente gleiche Bezugszeichen aufweisen und somit die Beschreibungen dieser Funktionselemente in den verschiedenen Ausführungsbeispielen untereinander austauschbar sind.
  • 1 zeigt eine Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls, wobei die Vorrichtung eine Einrichtung 110 zum Bestimmen von Atomstrukturen eines Moleküls aufweist, eine Einrichtung 120 zum Zuweisen eines Merkmalsindex MI aufweist, wobei der Merkmalsindex MI in Abhängigkeit von der Atomstruktur und der Nachbarschaft zuwiesen wird. Ferner weist die Vorrichtung eine Einrichtung 130 zum Ermitteln eines Punktes auf, wobei der Punkt Teil eines Merkmalsraumes MR für das Molekül ist und von dem zugewiesenen Merkmalsindex MI abhängt. Schließlich weist die Vorrichtung eine Einrichtung 140 zum Bestimmen auf, wobei eine Zugehörigkeit des Punktes zu einer Domain pharmazeutisch aktiver Moleküle bestimmt wird.
  • Der Punkt in dem Merkmalsraum MR kennzeichnet somit einen Satz von Merkmalen für das entsprechende Molekül, wobei ein Merkmalsvektor MV, dessen Komponenten ein Vorliegen/Fehlen eines bestimmten Merkmales signalisieren, auf den Punkt in dem Merkmalsraum MR zeigt. Der Merkmalsraum MR ist oft ein hochdimensionaler Raum, dessen Dimension von der Anzahl der zur Charakterisierung der Moleküle verwandten Merkmale (z. B. chemische Elemente der einzelnen Atome, chemische Bindung zwischen den Atomen, Art und Anzahl von Zykeln und Brücken, etc.) abhängt.
  • Bei weiteren Ausführungsbeispielen ist die Einrichtung 130 zum Ermitteln ausgebildet, zunächst Moleküle, deren pharmazeutische Aktivität (z. B. im Hinblick auf eine Krankheit) bekannt ist zu nutzen, um in dem Merkmalsraum MR eine erste Domain zu bestimmen, wobei die erste Domain die Merkmalsvektoren von Molekülen entspricht, deren pharmazeutische Aktivität nachgewiesen ist. Ferner können Moleküle, die bekannt sind, dass sie keine pharmazeutische Aktivität aufweisen, dazu benutzt werden, um in dem Merkmalsraum MR eine zweite Domain zu identifizieren, so dass Merkmalsvektoren MV, die in die zweite Domain zeigen, Molekülen entsprechen, die keine pharmazeutische Aktivität aufweisen. Im Anschluss an diesen Lernprozess, kann für ein unbekanntes Molekül ein Merkmalsvektor (mit der gleichen Anzahl von Molekülen) gebildet werden und anschließend festgestellt werden, ob für das unbekannte Molekül eine pharmazeutische Aktivität zu erwarten ist oder nicht (je nachdem ob der Merkmalsvektor MV in die erste oder zweite Domain zeigt).
  • 2 zeigt ein Ausführungsbeispiel für das Bestimmen eines Merkmalsvektors MV zu einem Molekül. In dem dargestellten Flussdiagramm werden zunächst Atomstrukturen des Moleküls erfasst. Die Atomstrukturen sind zum einen die Vielzahl von Atomen (chemische Elemente), die das Molekül bilden. Weitere Atomstrukturen umfassen eine Vielzahl von Atomen, die mittels chemischer Verbindung zu einer Struktur zusammengefasst sind. Beispiele hierfür sind Zykel, Brücken (die beispielsweise Zykel verbinden können), oder auch andere zu einer Gruppe zusammengefasste Atome, die häufiger in Molekülen auftreten.
  • Die erfassten Atomstrukturen werden in einem nachfolgenden Schritt nacheinander verarbeitet, d. h. es wird zunächst für eine der Atomstrukturen untersucht, ob diese Atomstruktur bereits bekannt ist, d. h. ob dieser Atomstruktur bereits ein Merkmalsindex MI zugewiesen wurde. Ein Merkmalsindex MI bezieht sich dabei auf eine bestimmte Komponente des Merkmalsvektors MV, der ein bestimmtes Merkmal (hier: Atomstruktur) zugewiesen wurde. Zum Beispiel kann das Vorliegen eines Kohlenstoffatoms durch einen bestimmten Wert in einer bestimmten Komponente des Merkmalsvektors MV charakterisiert werden. Sofern also die Atomstruktur bereits bekannt ist, erfolgt als nächster Schritt das Setzen der entsprechenden Komponente in dem Merkmalsvektor MV, was beispielsweise durch ein Setzen eines Flags oder dem Zuweisen einer vorbestimmten Komponente geschehen kann.
  • Sofern die Atomstruktur noch nicht bekannt ist (z. B. ein Zykel aufgetreten ist, der bis dahin noch nicht codiert wurde), erfolgt eine Vergabe eines Merkmalsindexes MI und ein Hinzufügen des Merkmalsindexes MI zu dem Merkmalsvektor MV. Dadurch wird erreicht, dass der Merkmalsvektor MV sukzessive mehr Komponenten bekommt, wobei die zusätzlichen Komponenten zusätzlichen Strukturen in dem Molekül entsprechen. Wenn also z. B. ein bestimmter Zykel, der beispielsweise sechs Kohlenstoffatome umfassen kann, auftritt und bisher ein solcher Zykel noch nicht indiziert wurde, wird der Merkmalsvektor MV um eine weitere Komponente erweitert, wobei die weitere Komponente das Vorliegen eines solchen Zykels signalisiert.
  • Wenn dies geschehen ist, erfolgt die Verarbeitung der nächsten Atomstruktur, d. h. es wird gefragt, ob weitere Atomstrukturen noch vorhanden sind und sofern dies der Fall ist, wird wiederum zunächst festgestellt, ob die weitere Atomstruktur bereits bekannt ist und falls ja, erfolgt ein Setzen des entsprechenden Merkmalsindexes MI und wenn nicht, wird ein neuer Merkmalsindex MI vergeben. Diese Vorgehensweise erfolgt sukzessive so lange, bis sämtliche in dem Molekül vorhandene Atomstrukturen indiziert wurden, so dass der Merkmalsvektor MV an den entsprechenden Komponenten (die den Atomstrukturen entsprechen) z. B. einen vorbestimmten Wert aufweist. Wenn keine weiteren Atomstrukturen vorhanden sind, wird der Algorithmus beendet.
  • Neben der Indizierung der entsprechenden Atomstrukturen, die in dem Molekül vorhanden sind und dem somit erfolgten Setzen von Komponenten des Merkmalsvektors MV, erfolgt ebenfalls eine Indizierung der der Atomstruktur benachbarten Atomstrukturen. Das Schema ist dabei analog dem Schema der Indizierung der Atomstrukturen, d. h. für jede Atomstruktur werden die benachbarten Atomstrukturen dahingehend untersucht, ob sie bereits bekannt sind und wenn ja, wird ein entsprechender Index in dem Merkmalsvektor MV vergeben und wenn nicht, wird ein neuer Index hinzugefügt. Damit wird erreicht, dass neben den Atomstrukturen selbst auch die Nachbarschaft der Atomstrukturen in dem Merkmalsvektor MV indiziert ist. Um einen sinnvollen Vergleich von unterschiedlichen Molekülen zu ermöglichen, sollten die Merkmalsvektoren gleich lang sein und die Komponenten sollten den gleichen Merkmalen entsprechen. Deswegen kann es sinnvoll sein, zunächst alle Moleküle hinsichtlich ihrer Merkmale zu untersuchen und einen Merkmalsvektor mit genügend Komponenten aufzustellen, deren Komponenten dann anschließend für jedes Molekül bestimmt werden.
  • 3 zeigt ein Beispiel für einen Merkmalsvektor MV, deren Anzahl von Komponenten D beträgt, die gleichzeitig auch die Dimension des Merkmalsraumes MR darstellt. Der Merkmalsvektor MV beschreibt hier beispielsweise eine Atomstruktur A, eine Atomstruktur B und eine Atomstruktur C, wobei in dem Molekül, welches der Merkmalsvektor MV zu 3 beschreibt, die Atomstruktur A und die Atomstruktur B nicht vorkommen, während dessen die Atomstruktur C vorhanden ist. Wenn der Algorithmus, wie in der 2 gezeigt wurde, eine Atomstruktur feststellt, für die noch keine Komponente in dem Merkmalsvektor MV vergeben wurde, dann wird, wie zuvor beschrieben, ein neuer Merkmalsindex MI vergeben und zu dem Merkmalsvektor MV hinzugefügt. Als Beispiel ist hier eine Atomstruktur Z gezeigt, die bis dahin in dem Merkmalsvektor MV noch nicht indiziert wurde und die demzufolge zu dem Merkmalsvektor MV hinzugefügt wird. Als Folge erhöht sich die Dimension des Merkmalsvektors MV um eine Dimension. Es handelt sich somit um einen sukzessiven Prozess, in dem die Dimension D des Merkmalsvektors MV so lange erhöht, bis alle in den Molekülen vorkommenden Atomstrukturen (einschließlich der Nachbarschaft) durch das Setzen verschiedener Komponenten in dem Merkmalsvektor MV indiziert werden können.
  • In dem Ausführungsbeispiel der 3 ist gezeigt, dass der Merkmalsvektor MV ein binärer Vektor ist, der aus 0-Komponenten und 1-Komponenten besteht, wobei dies lediglich der Veranschaulichung dient. Bei anderen Ausführungsbeispielen kann das Vorliegen eines bestimmten Merkmals (= einer bestimmten Atomstruktur) dadurch signalisiert werden, dass die entsprechende Komponente (z. B. die Atomstruktur C in 3) einen vorbestimmten Webt aufweist, während dessen das Nichtvorliegen des Merkmals durch einen beliebigen anderen Wert des Merkmalsvektors MV signalisierte werden kann oder aber, wie in der 3 gezeigt, diesen Komponenten kein Wert zugewiesen wird oder eine Null vergeben wird.
  • 4 zeigt einen Merkmalsvektor MV, in dem neben der Atomstruktur selbst (hier ein Atom) auch die Nachbarschaft der Atomstruktur indiziert wurde. Das Atom entspricht dabei einem Vertex in dem Graphen und dem Vertex werden zwei Labels zugeordnet, ein erstes Label L1, das die Atomstruktur selbst beschreibt, und ein zweites Label L2, das die Nachbarschaft der Atomstruktur beschreibt. In dem in 4 gezeigten Beispiel werden für die Moleküle der Einfachheit halber nur drei chemische Elemente: z. B. Wasserstoff H, Kohlenstoff C und Sauerstoff O verwendet, so dass das Vorliegen eines bestimmten chemischen Elements (= einer bestimmten Atomstruktur) durch eine Sequenz von drei Komponenten indiziert werden kann. Zum Beispiel (1, 0, 0), wenn der Vertex durch ein Wasserstoffatom gebildet wird oder (0, 1, 0) für ein Kohlenstoffatom oder (0, 0, 1) für eine Sauerstoffatom.
  • Das Paar (L1, L2) kann ebenfalls anders kodiert werden, z. B. mit einer einzigen Zahl (z. B. einer positiven ganzen Zahl). Beispielsweise das Atom C mit den drei Nachbarn; C, C, O kann mit dem Paar: (C, {C, C, O}) beschriftet sein und mit einer einzigen Zahl kodiert werden (z. B. 142). In einem Merkmalsvektor MV von einem Molekül kommt MV[142] = 1 (z. B. die 142te Komponente ist 1) vor, wenn das Molekül ein Atom mit der Beschriftung (C, {C, C, O}) aufweist (d. h. ein Atom C mit drei Nachbarn C, C und O aufweist).
  • Dementsprechend kann der Teil des Merkmalsvektors MV, der die gegebene Atomstruktur beschreibt wie folgt aussehen. Zunächst erscheint der Index L1, der die Atomstruktur selbst beschreibt und durch die Sequenz (0, 1, 0) codiert ist, d. h. es handelt sich um ein Kohlenstoffatom. Es folgt der Index L2, der in diesem Beispiel durch die Zahlenfolge 1, 0, 0, 1, 0, 0, ... aufweist. Es handelt sich demzufolge um eine Atomstruktur, die durch ein Kohlenstoffatom, das mit zwei benachbarten Wasserstoffatomen chemisch verbunden ist. Durch Fortsetzung des Merkmalsvektors MV und dem Hinzufügen weiterer Komponenten kann somit ein komplexes Molekül durch einen binären Vektor (einem String, der beispielsweise „0”- und „1”-Komponenten aufweist) beschrieben werden.
  • 5A zeigt ein Beispiel für einen Merkmalsraum MR, wobei der Einfachheit halb der Merkmalsraum MR nur durch zwei Dimensionen angegeben wurde. Wie zuvor beschrieben, ist die Dimension D des Merkmalsraumes MR im allgemeinen sehr groß (kann oft mehr als 1.000 oder mehr als 100.000 betragen) und wird im wesentlichen durch die Komplexität der verwendeten Moleküle bestimmt. Der Merkmalsraum MR weist eine erste Domain A und eine zweite Domain B auf, die durch eine Domaingrenze H (= Hyperfläche in dem Merkmalsraum MR) getrennt sind. Die erste Domain A beschreibt beispielsweise Punkte im Merkmalsraum MR, die pharmazeutisch aktive Molekülen entsprechen und die zweite Domain B umfasst Punkte im Merkmalsraum MR, die pharmazeutisch inaktive Moleküle beschreiben. Beispielsweise ist in 5 gezeigt, dass die erste Domain A fünf Punkte aufweist, die fünf pharmazeutisch aktive Moleküle (a1, a2, a3, a4, a5) entsprechen und dass die zweite Domain B vier Punkte umfasst, die pharmazeutisch inaktive Moleküle (b1, b2, b3, b4) entsprechen.
  • Die Domaingrenze H kann dabei derart gewählt werden, dass zunächst ein Satz von Molekülen betrachtet wird, deren pharmazeutische Aktivität bekannt ist, d. h. die entweder pharmazeutisch aktiv sind oder nachgewiesenerweise pharmazeutisch inaktiv sind. Für diese bekannten Moleküle werden wie zuvor beschrieben Merkmalsvektoren MV aufgestellt, die Punkte in dem Merkmalsraum MR entsprechen und die in der 5 durch Kreise für pharmazeutisch aktive Moleküle beziehungsweise durch Kreuze für pharmazeutisch inaktive Moleküle dargestellt sind.
  • Die erste Domain A und die zweite Domain B sind durch die Domaingrenze H getrennt, die vorzugsweise derart gewählt ist, der Abstand zu den Punkten im Merkmalsraum MR, deren pharmazeutische Aktivität bekannt ist, möglichst groß gewählt ist (maximaler Abstand), d. h. der Abstand zur Domaingrenze H signalisiert den Grad der pharmazeutischen Aktivität. Zum Beispiel zeigt das Molekül a1 eine geringere pharmazeutische Aktivität als das Molekül a2, welches sich weiter von der Domaingrenze H entfernt befindet als das Molekül a1. Der Grad der Aktivität kann beispielsweise über die In-vitro-Tests bestimmt werden, d. h. durch Auswertung von Messserien wie oft ein positives/negatives Resultat hinsichtlich der Aktivität vorlag.
  • Die Entfernung zur Domaingrenze H entspricht dabei der minimalen Entfernung/Abstand und kann beispielsweise als die Länge des Vektors genommen werden, der parallel zu einer Flächennormalen der Domaingrenze H ist und gleichzeitig den Punkt in dem Merkmalsraum MR (z. B. a1) schneidet. Es ist ebenfalls zu berücksichtigen, dass die Domaingrenze H im Allgemeinen eine Hyperfläche in einem hochdimensionalen Merkmalsraum MR darstellt und auch als eine Domainwand, die die pharmazeutisch aktive Domain von der pharmazeutisch inaktiven Domain trennt, aufgefasst werden kann. Auf der Domaingrenze H ist folglich die pharmazeutische Aktivität unklar beziehungsweise unbestimmt. Nachdem die Domaingrenze H anhand von Lernbeispielen (Moleküle, deren pharmazeutische Aktivität bekannt ist) gebildet wurde, kann in einem anschließenden Prozess die pharmazeutische Aktivität von Kandidaten untersucht werden, für die das Wissen über deren voraussichtliche pharmazeutische Aktivität wünschenswert ist.
  • Mittels der Entfernung zur Domaingrenze H (d. h. minimaler Abstand) ist es ferner möglich, ein Ranking oder eine Reihenfolge hinsichtlich der pharmazeutischen Aktivität vorzunehmen. Wie in der 5B gezeigt, können dazu auf einem gerichteten Strahl die Moleküle aufgezeichnet werden, wobei in dem hier gezeigten Ausführungsbeispiel der positive Teil des gerichteten Strahls einer pharmazeutischen Aktivität entspricht und der negative Strahl einer pharmazeutischen Inaktivität entspricht. Der Nullpunkt stellt somit der Domaingrenze H dar. Dieser gerichtete Strahl kann auch durch die Funktion f beschrieben werden, die, wie oben bereits beschrieben, durch eine Support-Vektor-Maschine bestimmbar ist. Im gezeigten Ausführungsbeispiel ist somit das Molekül, das dem Punkt b2 entspricht, auf der negativen Seite aufgetragen und die Moleküle a1 und a2 auf der positiven Seite aufgetragen, wobei das Molekül a2 einen größeren Wert als das Molekül a1 aufweist. Diese Darstellung liefert somit ein Ranking hinsichtlich der zu erwartenden pharmazeutischen Aktivität der Moleküle, so dass für a2 eine höhere Aktivität zu erwarten ist als für das Molekül a1.
  • 6A veranschaulicht einen ungerichteten Graphen G, der aus sechs Vertices V1, V2, ..., V6 gebildet wird, die über Kanten E miteinander verbunden sind. Bei einem ungerichteten Graphen ist die Verbindung eines ersten Vertexes mit einem zweiten Vertex gleichbedeutend mit einer Verbindung des zweiten Vertexes mit dem ersten Vertex, während dessen bei einem gerichteten Graphen die Verbindungsrichtung von Bedeutung ist und mit einem entsprechenden Pfeil in der Kante E dargestellt wird (z. B. wenn die Verbindung durch ein gerichtetes Feld gebildet wird). In dem hier gezeigten Beispiel bilden die Vertices V2, V3, V4, V5 einen Zykel C. Bei einem Zykel C handelt es sich wie gesagt um einen zweifach zusammenhängenden Untergraphen, d. h. zu jedem Vertex eines Zykels S existiert ein geschlossener Weg, entlang dessen ein Pfad zurück zu dem Vertex führt, ohne dass der gleiche Pfad zweimal gegangen zu werden braucht. Anders ausgedrückt, ist ein zweifach zusammenhängender Graph dadurch gegeben, dass bei einem Schnitt durch eine Kante E der zweifach zusammenhängende Graph in einen einfach zusammenhängenden Graphen zerfällt, d. h. immer noch einen zusammenhängenden Graphen bildet. Ein einfach zusammenhängender Graph kann seinerseits dadurch charakterisiert werden, dass bei einem Schnitt durch eine Kante E des einfach zusammenhängenden Graphen der einfach zusammenhängende Graph in zwei Komponenten, die nicht miteinander verbunden sind, zerfällt. Oder, allgemein ausgedrückt, für einen n-fach zusammenhängenden Graphen existiert immer ein Schnitt, so dass der n-fach zusammenhängende. Graph in einen (n – 1)-fach zusammenhängenden Graphen zerfällt, wobei ein 0-fach zusammenhängender Graph einen unzusammenhängenden Graphen darstellt (getrennte Komponenten). Einfach zusammenhängende Graphen, die zwei Zykel miteinander verbinden werden auch als Brücken bezeichnet.
  • 6B zeigt ein weiteres Beispiel für einen ungerichteten Graphen, der ebenfalls aus sechs Vertices gebildet wird, wobei jedoch in dem hier gezeigten Beispiel der Graph drei Zykel aufweist, wobei ein erster Zykel C1 durch die Vertices V2, V3, V4 gebildet wird und der zweite Zykel C2 durch die Vertices V3, V4 und V5 gebildet wird und schließlich der dritte Zykel durch die Vertices V2, V3, V5, V4 gebildet ist. Die Vertices V3 und V4 sind in diesem Beispiel dreifach zusammenhängend.
  • 7 zeigt ein Beispiel für einen Graphen GM für ein Molekül M. Der Graph GM weist einen ersten Zykel C1 und einen zweiten Zykel C2 auf, die durch eine Brücke B1 miteinander verbunden sind und ferner ist der Zykel C1 mit einer Atomstruktur A verbunden. Die Atomstruktur A weist beispielsweise ein Atom a1 auf, das drei Nachbaratome n1, n2 und n3 hat. In der oben beschriebenen Notation, in der wiederum angenommen wird, dass die Atome lediglich Wasserstoff H = (1, 0, 0), Kohlenstoff C = (0, 1, 0) und Sauerstoff O = (0, 0, 1) aufweisen, kann das Atom a1 beispielsweise folgende Labels aufweisen: L1 = (0, 1, 0) und L2 = (1, 0, 0, 1, 0, 0, 0, 1, 0). Die ersten drei Einträge in dem Label L2 identifizieren das Nachbaratom n1, die drei folgenden Einträge das Nachbaratom n2 und die letzten drei Einträge in dem Label L2 identifizieren das dritte Nachbaratom n3. Somit handelt es sich bei dem Atom a1 um ein Kohlenstoffatom, dem Nachbar n1 und n2 um Wasserstoffatome und bei dem Nachbar n3 handelt es sich ebenfalls um ein Kohlenstoffatom. Die Labels L1 und L2 bestimmen, wie oben bereits beschrieben, die FATOM-Komponente des Merkmalsvektors MV.
  • Ferner weist der Merkmalsvektor MV noch FCYCLE und FTREE auf, wobei im hier gezeigten Beispiel FCYCLE = (1, 1, 0, ...), wobei der erste Eintrag das Vorhandensein des ersten Zykels C1 und der zweite Eintrag das Vorhandensein des zweiten Zykels C2 und der dritte Eintrag die Abwesenheit eines (nicht vorhandenen) dritten Zykel C3 signalisiert. Da der Zykel C1 und der zweite Zykel C2 voneinander unterschiedlich sind, bekommen sie unterschiedliche Einträge in dem Merkmalsvektor MV. In dem gezeigten Beispiel ist ferner FTREE = (1, 0, 0, ...), wobei wiederum der erste Eintrag sich auf die Brücke B bezieht und diese identifiziert (das Vorhandensein anzeigt) und die folgenden Einträge in dem oben gezeigten Molekül nicht vorkommen. Jede Brücke und jeder Zykel, die sich durch ihre Atomstruktur voneinander unterscheiden, bekommen somit einen eigenen Eintrag in dem Merkmalsvektor MV. Bei der Aufstellung des Merkmalsvektors MV wird zunächst untersucht, ob diese Atomstruktur (Zykel, Brücke, ...) bereits in dem Merkmalsvektor MV vorhanden ist oder nicht, wenn dies der Fall ist, erfolgt ein Setzen der Komponente (z. B. durch Setzen einer „1”), anderenfalls wird der Merkmalsvektor MV um diese Komponente erweitert.
  • Bei weiteren Ausführungsbeispielen ist es ebenfalls möglich, eine Multiplizität einzuführen, so dass nicht nur binäre Komponenten vergeben werden, sondern dass gleichzeitig auch die Anzahl der vorkommenden Strukturen entsprechend identifiziert wird. Dies kann beispielsweise dadurch erfolgen, dass bei einem Zykel die Zahl in dem Merkmalsvektor MV angibt, wie oft dieser Zykel in dem Molekül vorkommt. Das gleiche trifft natürlich ebenfalls für Brücken und andere in dem Molekül vorkommenden Strukturen zu.
  • Bei der Darstellung im Merkmalsraum MR kann es vorkommen, dass die Merkmalsvektoren MV der unterschiedlichen Moleküle nur auf Punkte zeigen, die sich nur hinsichtlich einer Untermenge der Dimensionen (d. h. nur entlang bestimmter Richtungen) des Merkmalsraums MR voneinander unterscheiden und in vielen der Komponenten miteinander übereinstimmen. In diesem Fall kann die Dimensionalität des Merkmalsraumes MR beziehungsweise die Berechnung des Abstandes zur Domaingrenze H dadurch vereinfacht werden, dass nur der Unterraum zu betrachten ist, in welchem sich die Merkmalsvektoren MV voneinander signifikant unterscheiden. In dem in 5 gezeigten Beispiel, könnte es z. B. so sein, dass sich die dargestellten Punkte bzgl. der dritten Dimension (Höhe) kaum oder nicht voneinander unterscheiden. Zum Beispiel könnte der Unterschied (der Höhenwert bspw.) weniger als 50 oder weniger als 10 oder weniger als 1 Prozent der Entfernung der Punkte zu der Domaingrenze ausmachen. In einem solchen Fall kann beispielsweise der Höhenwert zur Bestimmung des Abstandes zu der Domaingrenze vernachlässigt werden und somit verringert sich die Dimensionalität des Merkmalsraumes effektiv, wodurch der Rechenaufwand deutlich reduziert wird.
  • Ausführungsbeispiele der vorliegenden Erfindung können somit die Vorhersage der pharmazeutischen Aktivität signifikant erhöhen. Dies ist insbesondere dadurch möglich geworden, dass nicht nur die Atomstruktur selbst, sondern auch die Nachbarn der Atomstruktur mit einbezogen werden. Es hat sich gezeigt, dass eine Wechselwirkung zwischen der Atomstruktur und der Nachbarn einen deutlichen Einfluss auf die pharmazeutische Aktivität des jeweiligen Moleküls hat. Somit werden nicht nur die Atomstrukturen, die Zykel, die verbindenden Brücken erfasst, sondern jeweils auch die zu diesen Strukturen, Zykeln, Brücken gehörenden Nachbarn in der Parametrisierung des Merkmalsraums MR mit hinzugenommen.
  • Ferner ist die vorliegende Erfindung vorteilhaft, da sie ein Ranking für die Moleküle bietet (z. B. durch den Funktionswert der Funktion f) und nicht nur eine Vorhersage für eine pharmazeutische Aktivität oder Inaktivität liefert. Da die Anzahl der zu untersuchenden Moleküle beispielsweise mehr als eine Million betragen kann, von denen beispielsweise lediglich 20 hinsichtlich ihrer Aktivität bekannt sind, ist ein solches Ranking von herausragender Bedeutung. Nur dadurch ist es möglich, von den mehr als eine Million vorhandenen Molekülen jene zu betrachten, deren pharmazeutische Aktivität am wahrscheinlichsten erscheint. Die Gesamtheit aller als pharmazeutisch aktive eingestufter Moleküle könnten nämlich immer noch viel zu umfangreich sein, um an allen In-vitro-Tests durchzuführen. Nur durch ein Ranking wird das Problem gelöst.
  • Sofern nicht alle bekannten Moleküle zum Aufstellen der Domaingrenze H herangezogen werden, können die verbleibenden bekannten Moleküle dazu genutzt werden, um die Zuverlässigkeit des Verfahrens zu überprüfen und eventuell Nachjustierungen vorzunehmen (Verschiebungen der Domaingrenze H), so dass die Qualität der Aussage sich weiter erhöhen lässt. Somit bietet die vorliegende Erfindung ebenfalls eine Möglichkeit einer Fehlerabschätzung.
  • Ferner ist es möglich, bei Ausführungsbeispielen eine Zeitersparnis dadurch zu erreichen, dass eine Redundanz vernachlässigt wird. Ein Beispiel für eine Redundanz ist die oben erwähnte Unabhängigkeit der pharmazeutischen Aktivität hinsichtlich bestimmter Merkmale oder Merkmalskombinationen (bestimmte Atomstrukturen, bestimmte Zykel, usw.), die, sofern sie im Merkmalsraum MR berücksichtigt werden, nur eine geringere Variation der Punkte liefern. Die Dimension des Merkmalsvektors MV kann nämlich bis zu 100.000 betragen, wobei jedoch nur eine kleinere Untermenge davon Richtungen (Merkmale oder Merkmalskombinationen) sind, in denen sich die Punkte im Merkmalsraum MR signifikant voneinander unterscheiden. Diese Untermenge kann beispielsweise lediglich 20 bis 50 Zahlen (Richtungen) betragen und eine Projektion auf diesen 20- bis 50-dimensionalen Unterraum ist oft sinnvoll, so dass diese entsprechenden Komponenten bei der Auswertung entsprechend vernachlässigt werden können, wodurch sich eine enorme Zeitersparnis ergibt.
  • In ähnlicher Weise ist es bei weiteren Ausführungsbeispielen möglich, alle jene Komponenten (= Merkmalskombinationen) zu vernachlässigen, die einer parallelen Verschiebung des Punktes im Merkmalsraum MR zu der Hyperfläche H entsprechen. Interessant ist bei der Auswertung jene Richtung im Merkmalsraum MR (jene Merkmalskombination) zu finden, die senkrecht zur Domaingrenze H verläuft (oder parallel zum Normalenvektor), da gerade die Entfernung in dieser Richtung ein Ranking für die pharmazeutische Aktivität des Moleküls liefert.
  • Insbesondere wird darauf hingewiesen, dass abhängig von den Gegebenheiten das erfindungsgemäße Schema auch in Software implementiert sein kann. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder einer CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computerprogramm auf einem Computer abläuft.

Claims (16)

  1. Vorrichtung zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls (M), mit folgenden Merkmalen: einer Einrichtung (110) zum Bestimmen von in dem Molekül auftretenden Atomstrukturen; einer Einrichtung (120) zum Zuweisen eines Merkmalsindex (MI) zu einer der auftretenden Atomstrukturen in dem Molekül (M) abhängig von der jeweiligen Atomstruktur und einer Nachbarschaft der jeweiligen Atomstruktur in dem Molekül (M); einer Einrichtung (130) zum Ermitteln eines Merkmalsvektors (MV) für das Molekül (M) abhängig von dem zugewiesenen Merkmalsindex (MI), wobei der Merkmalsvektor (MV) auf einen Punkt in einem Merkmalsraum (MR) zeigt, wobei der Merkmalsraum (MR) eine erste Domain (A), die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain (B), die pharmazeutisch inaktiven Molekülen entspricht, aufweist; und einer Einrichtung (140) zum Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain (A) oder der zweiten Domain (B).
  2. Vorrichtung nach Anspruch 1, bei der die Atomstruktur ein Atom, einen Zykel oder eine Brücke aufweist, wobei der Zykel oder die Brücke durch chemisch miteinander verbundene Atome gebildet sind und bei der die Einrichtung (120) zum Zuweisen ausgebildet ist als Merkmalsindex (MI) ein Label (L1) zuzuweisen, wobei das Label (L1) das Atom, den Zykel oder die Brücke identifiziert.
  3. Vorrichtung nach Anspruch 1 oder Anspruch 2, bei der die Einrichtung (120) zum Zuweisen ausgebildet ist als Merkmalsindex (MI) einen vorbestimmten Wert zuzuweisen, sofern eine vorbestimmte Atomstruktur in dem Molekül (M) vorhanden ist.
  4. Vorrichtung nach Anspruch 3, bei dem der Merkmalsindex (MI) binär ist, so dass der vorbestimmte Wert einer logischen „1” entspricht.
  5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Nachbarschaft eine Menge von Atomen aufweist, die in chemischer Verbindung zu der Atomstruktur steht und bei der die Einrichtung (110) zum Bestimmen ferner ausgebildet ist, die Menge von Atome zu analysieren und ein weiteres Label (L2) zuzuweisen, wobei das weitere Label (L2) die Menge der Atome identifiziert.
  6. Vorrichtung nach Anspruch 5, bei der die Nachbarschaft einen Zykel oder eine Brücke aufweist und das weitere Label (L2) den Zykel oder die Brücke identifiziert.
  7. Vorrichtung nach einem der Ansprüche 2 bis 6, bei dem der Zykel einen zweifach zusammenhängenden Untergraphen darstellt und die Brücke einen einfach zusammenhängenden Untergraphen darstellt, wobei der Untergraph durch Vertices und Kanten gebildet ist, wobei die Vertices Atome und die Kanten chemische Bindungen darstellen.
  8. Vorrichtung nach einem der Ansprüche 2 bis 7, bei dem das Molekül (M) verschiedene Zykel aufweist und die Einrichtung (120) zum Zuweisen ausgebildet ist, verschiedenen Zykel verschieden Merkmalsindices (MI) zuzuweisen.
  9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (130) zum Ermitteln ausgebildet ist, anhand von Testbeispielen die erste Domain (A) und die zweite Domain (B) zu bestimmen, wobei die Testbeispiele eine bekannte pharmazeutische Aktivität aufweisen.
  10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (130) zum Ermitteln ausgebildet ist, eine Domaingrenze (H), die die erste Domain (A) von der zweiten Domain (B) voneinander trennt, anhand von Testbeispielen zu bestimmen, wobei die Testbeispiele eine bekannte pharmazeutische Aktivität aufweisen und Punkte im Merkmalsraum (MR) darstellen, und wobei die Domaingrenze (H) einen maximalen Abstand zu den Testbeispielen aufweist.
  11. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (140) zum Bestimmen ausgebildet ist, die Zugehörigkeit des Punktes für weitere Moleküle, deren pharmazeutischen Aktivität bekannt ist, zu bestimmen und die bestimmte Zugehörigkeit zu nutzen, um die Zuverlässigkeit bei der Bestimmung der pharmazeutischen Aktivität zu überprüfen.
  12. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (140) zum Bestimmen ausgebildet ist, einen Abstand zu der Domaingrenze (H) zu bestimmen und Abstände zu der Domaingrenze (H) für verschiedene Moleküle zu vergleichen, um dadurch eine Reihenfolge hinsichtlich der zu erwartenden pharmazeutischen Aktivität für die verschiedenen Moleküle festzulegen.
  13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (120) zum Zuweisen ausgebildet ist, einen neuen Merkmalsindex (MI) für eine weitere Atomstruktur zuzuweisen und bei dem die Einrichtung (130) zum Ermitteln ausgebildet ist den Merkmalsvektor (MV) um den neuen Merkmalsindex (MI) zu erweitern.
  14. Vorrichtung nach einem der vorhergehenden Ansprüche, bei dem die Einrichtung (120) zum Zuweisen ausgebildet ist, einen vorbestimmten Merkmalsindex (MI) für eine vorbestimmte Atomstruktur zuzuweisen und bei der die Einrichtung (130) zum Ermitteln ausgebildet ist eine Komponente des Merkmalsvektors (MV) auf einen vorbestimmten Wert zu setzen.
  15. Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls mit folgenden Schritten: Bestimmen von in dem Molekül (M) auftretenden Atomstrukturen; Zuweisen eines Merkmalsindex zu einer der auftretenden Atomstrukturen in dem Molekül (M) abhängig von der jeweiligen Atomstruktur und der Nachbarschaft der jeweiligen Atomstruktur in dem Molekül; Ermitteln eines Merkmalsvektors (MV) für das Molekül (M) abhängig von dem zugewiesenen Merkmalsindex (MI), wobei der Merkmalsvektor (MV) auf einem Punkt in einem Merkmalsraum (MR) zeigt, wobei der Merkmalsraum (MR) eine erste Domain (A), die pharmazeutisch aktiven Molekülen entspricht, und eine zweite Domain (B), die pharmazeutisch inaktiven Molekülen entspricht, aufweist; und Bestimmen einer Zugehörigkeit des Punktes zu der ersten Domain (A) oder zu der zweiten Domain (B).
  16. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 15, wenn das Computerprogramm auf einem Computer abläuft.
DE102008005062A 2008-01-18 2008-01-18 Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls Active DE102008005062B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102008005062A DE102008005062B4 (de) 2008-01-18 2008-01-18 Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls
PCT/EP2008/010779 WO2009089890A1 (de) 2008-01-18 2008-12-17 Vorrichtung und verfahren zum bestimmen einer pharmazeutischen aktivität eines moleküls
EP08870846A EP2232395A1 (de) 2008-01-18 2008-12-17 Vorrichtung und verfahren zum bestimmen einer pharmazeutischen aktivität eines moleküls

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102008005062A DE102008005062B4 (de) 2008-01-18 2008-01-18 Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls

Publications (2)

Publication Number Publication Date
DE102008005062A1 DE102008005062A1 (de) 2009-07-23
DE102008005062B4 true DE102008005062B4 (de) 2011-12-15

Family

ID=40456306

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008005062A Active DE102008005062B4 (de) 2008-01-18 2008-01-18 Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls

Country Status (3)

Country Link
EP (1) EP2232395A1 (de)
DE (1) DE102008005062B4 (de)
WO (1) WO2009089890A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038429A2 (en) * 2003-10-14 2005-04-28 Verseon Method and apparatus for analysis of molecular configurations and combinations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038429A2 (en) * 2003-10-14 2005-04-28 Verseon Method and apparatus for analysis of molecular configurations and combinations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WILLIAMS, C. u.a.: Reverse fingerprinting, similarity searching by group fusion and fingerprint bit importance. Molecular Diversity (2006) 10, 311-332 *

Also Published As

Publication number Publication date
DE102008005062A1 (de) 2009-07-23
EP2232395A1 (de) 2010-09-29
WO2009089890A1 (de) 2009-07-23

Similar Documents

Publication Publication Date Title
DE69014613T2 (de) Genetische synthese von neuronalen netzwerken.
DE19646624B4 (de) Verfahren und Computersystem zur Identifizierung konformationselastischer Moleküle
DE3789718T2 (de) Verfahren zur Konstruktion von baumstrukturierten Klassifikatoren.
DE69606794T2 (de) System und Verfahren zur Ermittlung von ähnlichen Zeitsequenzen in Datenbanken
DE68908910T2 (de) Paralleles, mehrere Einheiten umfassendes, anpassungsfähiges Musterklassifizierungssystem, das Korrelationen zwischen den Einheiten und eine Klassentrennungsmethodologie innerhalb der Einheiten benutzt.
DE60318471T2 (de) Extraktion von wissen mittels eines objektbasierten semantischen netzes
DE69327716T2 (de) System und verfahren, um wissen über das typische und aussergewöhnliche aus einer datenbank von vorfallsdaten herauszusuchen.
DE112016001796T5 (de) Feinkörnige bildklassifizierung durch erforschen von etiketten von einem bipartiten graphen
DE10035043A1 (de) Mehrdimensionale Indexierungsstruktur zur Verwendung mit linearen Optimierungsanfragen
DE112010000947T5 (de) Verfahren zur völlig modifizierbaren Framework-Datenverteilung im Data-Warehouse unter Berücksichtigung der vorläufigen etymologischen Separation der genannten Daten
EP3736817A1 (de) Überprüfung und/oder verbesserung der konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung
DE60217748T2 (de) Verfahren und Gerät zur Anzeige eines Bildraumes
DE19513960A1 (de) Abbildung eines Graphen in einen Speicher
EP2622540A1 (de) Verfahren zur klassifizierung von mustern in bilddatensätzen
DE102008005062B4 (de) Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls
DE19908204A1 (de) Fraktales Netz n-ter Ordnung zum Behandeln komplexer Strukturen
Purschwitz Netzwerke des Wissens-Thematische und personelle Relationen innerhalb der halleschen Zeitungen und Zeitschriften der Aufklärungsepoche (1688-1818)
DE102022207482B4 (de) Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit
EP2530604B1 (de) Computerimplementiertes Verfahren sowie Vorrichtung zur Erstellung eines Strukturbaums
DE19951078C2 (de) Verfahren zur Musterklassifizierung
WO2024132912A1 (de) Verfahren und system zur handhabung von produktspezifischen informationen für ein produktsystem
DE60212830T2 (de) Surf2lead
DE102004018174B4 (de) Verfahren zur Akquisition von Formen aus Bildern mit Fällen und zum fallbasierten Erkennen von Objekten in digitalen Bildern, Computer-Programm-Produkt und digitales Speichermedium zur Ausführung dieses Verfahrens
DE102006056106A9 (de) System und Verfahren zur Herstellung und Anwendung von Signal-Klassifikatoren
WO2008017430A1 (de) Verfahren zur herstellung skalierbarer bildmatrizen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: C12Q0001000000

Ipc: C40B0030020000

R018 Grant decision by examination section/examining division
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: C12Q0001000000

Ipc: C40B0030020000

Free format text: PREVIOUS MAIN CLASS: C12Q0001000000

Ipc: C40B0030020000

Effective date: 20110803

R020 Patent grant now final

Effective date: 20120316