DE10009479A1 - Verfahren zur Identifizierung von Kandidatenmolekülen - Google Patents

Verfahren zur Identifizierung von Kandidatenmolekülen

Info

Publication number
DE10009479A1
DE10009479A1 DE10009479A DE10009479A DE10009479A1 DE 10009479 A1 DE10009479 A1 DE 10009479A1 DE 10009479 A DE10009479 A DE 10009479A DE 10009479 A DE10009479 A DE 10009479A DE 10009479 A1 DE10009479 A1 DE 10009479A1
Authority
DE
Germany
Prior art keywords
molecules
biological activity
grid
molecular
descriptors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10009479A
Other languages
English (en)
Inventor
Daniel Vitt
Stefan Busemann
Ulrich Dauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4SC AG
Original Assignee
4SC AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4SC AG filed Critical 4SC AG
Priority to US09/693,731 priority Critical patent/US6727100B1/en
Priority to EP00122333A priority patent/EP1094415A3/de
Publication of DE10009479A1 publication Critical patent/DE10009479A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Food Science & Technology (AREA)
  • Hematology (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Urology & Nephrology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biomedical Technology (AREA)
  • Cell Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität, bei dem man: einen Satz aus verschiedenen Molekülen erzeugt, jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert; den Molekülsatz auf Punkten eines zweidimensionalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskriptoren darstellt; über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitätskriterium approximativ darstellt; und aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vorbestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität.
In der pharmazeutischen Wirkstoff-Forschung stellt die Evaluierung der Rezeptor- oder Targeteignung von Molekülen eine wichtige Aufgabe dar. Mit dem bei Wirkstoff-Findung im Lauf der letzten Jahre zunehmenden Einsatz von Automatisierungstechniken haben sich Verfahren wie das Hochdurchsatz-Screening (HTS, High Throughput Screening) und die Hochdurchsatz-Synthese in der pharmazeutischen Forschung zum Industriestandard entwickelt. Heutzutage kann man über 20.000 Moleküle pro Tag auf ihre biologischen Aktivitäten bei bestimmten Zielkrankheiten prüfen. Auch auf dem Gebiet der chemischen Synthese können mit Hilfe der kombinatorischen Chemie in Kombination mit Automatisie­ rungsverfahren hunderte von Molekülen pro Tag physisch zur Verfügung gestellt werden. Da ausgehend vom der­ zeitigen chemischen Wissen theoretisch mehr als 10100 Moleküle synthetisiert und geprüft werden könnten und mehrere hunderttausend Moleküle im Handel erhältlich sind, wurden computergestütze Verfahren zur Auswahl von Untergruppen von Molekülen, die nun tatsächlich geprüft werden sollen, auf der Basis ihres prognostizierten biologischen Aktivitätspotentials für bestimmte Ziel­ krankheiten entwickelt.
Zwei Kategorien von computergestützten Verfahren dienen zur Auffindung (Auswahl und/oder Prioritisierung) von Molekülen aus Datensätzen von theoretisch verfügbaren Molekülen für die Prüfung der biologischen Aktivität. Die erste Kategorie umfaßt auf Diversität oder Similarität beruhende Auffindungs­ verfahren, wohingegen die zweite Kategorie auf der Struktur basierende Auffindungsverfahren umfaßt. Zur zweiten Kategorie gehören Datenbanksuchtechniken sowie (Q)SAR- und Docking-Verfahren.
Nur die (Q)SAR- und Docking-Verfahren berück­ sichtigen implizit Informationen bezüglich spezifischer Targets, entweder übliche Strukturmuster einer Reihe von aktiven Molekülen ((Q)SAR) oder die dreidimensio­ nale Struktur eines Targetproteins (Docking), und liefern daher die genauesten Ergebnisse. In der Praxis werden auf (Q)SAR oder Docking beruhende Verfahren auf kleinere Datensätze (bis zu 50.000 Sätze) angewandt, da sie eine verhältnismäßig hohe Rechenleistung erfordern. Wenngleich die Geschwindigkeit mit Parallelrechen­ techniken gesteigert werden kann, sind Datensätze aus mehr als 106 Molekülen hinsichtlich ihrer biologischen Aktivität immer noch nicht in einem vertretbaren zeit­ lichen Rahmen prognostizierbar.
Der Begriff biologische Aktivität umfaßt im folgenden insbesondere pharmazeutische sowie agro­ chemische Aktivität bezüglich eines bestimmten Rezep­ tors oder Targets.
Die Suche nach Kandidatenmolekülen umfaßt auch die Suche nach Leitverbindungen.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein auf Molekülbibliotheken mit großen Datenmengen anwendbares und in vertretbarer Zeit Ergebnisse lieferndes Verfahren und System zur Auffindung von Kandidatenmolekülen mit erwarteter bio­ logischer Aktivität bereitzustellen.
Diese Aufgabe wird mit dem Verfahren und dem System gemäß den unabhängigen Ansprüchen gelöst. Vorteilhafte Ausführungsformen sind in den Unter­ ansprüchen definiert.
Erfindungsgemäß geht man bei dem Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität so vor, daß man:
  • a) einen Satz aus verschiedenen Molekülen erzeugt;
  • b) jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert;
  • c) den Molekülsatz auf Punkten eines zweidimensio­ nalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskrip­ toren darstellt;
  • d) über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitäts­ kriterium approximativ darstellt; und
  • e) aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vor­ bestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.
Erfindungsgemäß kann man in Schritt d) die dreidimensionale Oberfläche dadurch erstellen, daß man:
  • a) als Anfangsbereich für die Approximation das gesamte zweidimensionale Gitter nimmt;
  • b) auf vorbestimmten Gitterpunkten dieses Bereichs Moleküle auswählt und deren jeweilige Werte für die biologische Aktivität berechnet;
  • c) die Oberfläche unter Verwendung der vorher bestimmten Werte für die biologische Aktivität der Moleküle auf den vorbestimmten Gitter­ punkten über diesen Bereich approximiert und
  • d) bestimmt, ob die approximierte Oberfläche ein vorbestimmtes Qualitätskriterium erfüllt; wenn dies der Fall ist, geht man zu Schritt e); wenn dies nicht der Fall ist, verfeinert man die Approximation der Oberfläche durch Auswahl von Molekülen auf weiteren Gitterpunkten, Berech­ nung ihrer jeweiligen Werte für die biologische Aktivität und Wiederholung von Schritt dc) und diesem Schritt dd).
Die Erstellung der dreidimensionalen Oberfläche in Schritt d) erfolgt vorzugsweise durch eine Approximation nach der Methode der Delauney- Triangulierung.
Das erfindungsgemäße Verfahren besteht somit aus der Durchführung von zwei Hauptschritten. Im ersten Schritt werden die Moleküle der Similarität ihrer Deskriptoren entsprechend sortiert und auf einem 2-D- Gitter kartiert. Im zweiten Schritt wird die biologische Aktivität der kartierten Moleküle durch Modellierung der Verteilung als Oberfläche über die Molekülkarte approximiert. Aus der Oberfläche kann man geeignete Kandidatenmoleküle für die weitere Evaluie­ rung bestimmen. Erfindungsgemäß muß nur eine kleine Molekülmenge im Datensatz tatsächlich berechnet werden. Dadurch ergibt sich eine beträchtliche Steigerung der Leistungsfähigkeit. Die rekursive Vorgehensweise ermöglicht die Untersuchung der Datenbank auf Basis von speziell anpaßbaren Qualitätskriterien. Fehler- und Qualitätskriterien für die Analyse können genau auf ein gegebenes Problem abgestellt werden. Parallel dazu können leicht Docking-Simulationen von Molekülsammlun­ gen durchgeführt werden, was zu einer weiteren Leistungssteigerung führt.
Somit überträgt das erfindungsgemäße Verfahren prognostizierte/gemessene biologische Aktivität in topographische Informationen auf einer drei­ dimensionalen Oberfläche, die unter Verwendung von Approximationsalgorithmen iterativ analysiert wird. Eine gründliche Analyse erfolgt nur in denjenigen Bereiche der Oberfläche, die Bereichen hoher biologischer Aktivität darstellen, wohingegen die Bereiche mit niedrigen Bindungsenergien für eine gegebene Proteinbindungsstelle nur durch wenige Datenpunkte approximiert werden. Wie Beispiele gezeigt haben, kann man somit durch explizite Berech­ nung/Vermessung von nur 4-6% der Moleküle im Datensatz aktive Moleküle aus Datensätzen identifizieren.
Mit dem erfindungsgemäßen Verfahren kann man Wirkstoff-Leitkandidaten identifizieren, ohne große Molekülsätze physisch zur Verfügung stellen und prüfen zu müssen.
Die gewählten Kandidatenmoleküle sind für die chemische Synthese geeignet.
Vorzugsweise handelt es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um mindestens zwei der folgenden Eigenschaften:
  • - Molekulargewicht,
  • - Zahl der drehbaren Bindungen,
  • - Zahl der hydrophoben Gruppen,
  • - Zahl der hydrophilen Gruppen,
  • - Zahl der sauren Gruppen,
  • - Zahl der basischen Gruppen,
  • - Zahl der neutralen Gruppen,
  • - Zahl der Zwittergruppen,
  • - Zahl der Schweratome,
  • - Zahl der H-Bindungs-Donatoren,
  • - Zahl der H-Bindungs-Akzeptoren,
  • - Zahl der 1,2-Dipole,
  • - Zahl der 1,3-Dipole,
  • - Zahl der 1,4-Dipole.
Die Molekülkartierung erfolgt vorzugsweise mit selbstorganisierenden Karten in einem neuronalen Netz oder mit statistischen Methoden wie linearer Vektor­ quantisierung.
Einen weiteren Gegenstand der Erfindung bildet ein Computersystem mit Mitteln zur Durchführung des Identifizierungsverfahrens, Mitteln zur Eingabe von Systembefehlen und Mitteln zur Ausgabe des Ergebnisses der Durchführung des Verfahrens.
Die Erfindung und Beispiele dafür werden nun anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
Fig. 1 den hier verwendeten Deskriptortyp,
Fig. 2 die sich aus einem Molekülsortierschritt ergebende Verteilung,
Fig. 3 den Entclusterungsschritt,
Fig. 4 die sich aus der Entclusterung ergebende Verteilung,
Fig. 5 vier Zwischenschritte der Approximation einer Oberfläche durch Delauney-Triangulierung und
Fig. 6 die abschließende Approximation der Oberfläche durch Delauney-Triangulierung.
Das erfindungsgemäße Verfahren wird anhand des Beispiels der Auffindung von Inhibitoren von Dihydro­ folatreductase (PDB-Code: 4 dfr) erläutert.
Erfindungsgemäß wird vor der Evaluierung von speziellen Molekülen die sogenannte virtuelle Biblio­ thek erzeugt, die alle möglichen Moleküle enthält. Das bedeutet, daß die virtuelle Molekülbibliothek Moleküle, die mit vertretbaren Kosten käuflich erworben oder hergestellt werden können und handelsübliche Moleküle oder mittels kombinatorischer Synthese herstellbare Moleküle enthält. Nicht enthalten sind die Moleküle, die von vornherein für die Wirkstoffsynthese ungeeignet sind, insbesondere Moleküle mit toxischen Gruppen, einem Molekulargewicht von mehr als 500 u oder mehr als 5 Donatoren oder einem log-P-Wert von mehr als 5. Die Bibliothek wird in einer Computerdatenbank gespeichert.
In diesem Beispiel enthält die Datenbank 2000 Moleküle. Jedes der Moleküle wird durch 2-D-Struktur­ daten in maschinenlesbarer Form dargestellt.
Bei der Speicherung der Moleküle in der Biblio­ thek wird jedem Molekül in der Bibliothek ein Deskrip­ tor zugeordnet, der mit der biologischen Aktivität des jeweiligen Moleküls in Relation steht. Bei dem Deskrip­ tor handelt es sich um einen Vektor mehrerer skalarer molekularer Eigenschaften. Dieser Vektor umfaßt die folgenden Werte:
  • - Molekulargewicht,
  • - Zahl der drehbaren Bindungen,
  • - Zahl der hydrophoben Gruppen,
  • - Zahl der Schweratome,
  • - Zahl der H-Bindungs-Donatoren,
  • - Zahl der H-Bindungs-Akzeptoren.
Zur Durchführung einer Vorauswahl von Molekülen kann man Werte verwenden, die wirtschaftliche oder technische Aspekte abdecken, wie z. B. Verfügbarkeit und Herstellungskosten von Molekülen.
Fig. 1 zeigt vier Datenströme (die vier Mole­ küle beschreiben) des hier verwendeten Deskriptors. Die ersten Zeilen geben die Dimension des Deskriptors an, die zweiten bis fünften Zeilen geben die Moleküle an, und die letzte Spalte enthält die Identifizierung der entsprechenden Moleküle.
Die Deskriptoren sind auf die weitere Verarbei­ tung der Molekülbibliothek zwecks Auffindung der Molekülkandidaten für die Wirkstoffsynthese ausgelegt. Um eine weitere Verarbeitung zu ermöglichen, haben die für die Moleküle der Datenbank gewählten Desktiptoren alle die gleiche Dimension.
Im nächsten Schritt werden die Moleküle dieser Bibliothek ihrer Similarität hinsichtlich potentieller Ligand-Rezeptor-Aktivität entsprechend sortiert. Dies geschieht durch Kartieren der Moleküle auf einem zwei­ dimensionalen Gitter, wobei die Similarität der Mole­ küle miteinander durch die Abstände ihrer Positionen auf dem Gitter dargestellt wird. Die Bestimmung der Similarität erfolgt durch Evaluierung der Deskriptoren der Moleküle. Die Sortierung basiert auf einem neurona­ len Netz vom Typ der selbstorganisierenden Karte nach Kohonen. Selbstorganisierende Karten eignen sich gut, da sich herausgestellt hat, daß sie selbst bei Auftreten von linearen Abhängigkeiten in den Daten höherdimensionale Probleme auf niedrigere Dimensionen projizieren können.
Das Sortieren wird folgendermaßen durchgeführt: Zunächst werden alle Moleküle willkürlich auf das Gitter gesetzt. Das Gitter muß groß genug sein, um alle Moleküle der Datenbank aufzunehmen. Während der Lernphasen des neuronalen Netzes werden die Moleküle über das Gitter verschoben, um sie bezüglich ihrer Similarität zu ordnen. Hierbei werden drei Lernphasen angewandt. In der ersten Lernphase ist die Verschiebung auf einen Gitterradius von etwa 1/10 der Höchstzahl der Gitterpunkte in einer Richtung beschränkt, wobei die Konvergenz 0,3 beträgt. In der zweiten Lernphase beläuft sich der Radius auf einen Gitterpunkt und die Konvergenz auf 0,2; in der dritten Lernphase beläuft sich der Radius auf 0,5 und die Konvergenz auf 0,2. Der Gitterradius und die Konvergenz können selbstverständ­ lich auf das konkrete Problem abgestellt werden.
Als Ergebnis der Sortierung ergibt sich eine Molekülverteilung über das Gitter, bei der ein Gitter­ punkt von mehreren Molekülen besetzt sein kann, wohingegen andere Gitterpunkte frei bleiben können. Fig. 2 zeigt die nach drei Lernphasen erhaltene Karte.
Wenngleich eine derartige unregelmäßige Besetzung der Molekülkarte die weitere Verarbeitung der Molekülkarte eigentlich nicht behindert, wird die Molekülkarte entclustert, d. h. Moleküle, die mit anderen zusammen auf dem gleichen Gitterpunkt liegen, werden auf freie Gitterpunkte in der näheren Umgebung gesetzt. Hierzu führt man nach folgendem Schema eine Suche nach einem freien Gitterpunkt durch (siehe Fig. 3): Die Suche beginnt an einem der vier direkt angrenzenden Gitterpunkte (oberer, unterer, linker, rechter Gitterpunkt). Der erste dieser Punkte wird nach dem Zufallsprinzip ausgewählt. Das Molekül wird auf diesen Punkt gesetzt, wobei es keine Rolle spielt, ob der Punkt frei ist oder nicht. Wenn der Punkt vorher frei war, wird die Suche erfolgreich beendet. War der Punkt dagegen vorher besetzt, so wird die Suche mit den nächsten drei angrenzenden Gitterpunkten fortgesetzt. Wird kein freier Punkt gefunden, so werden die vier diagonalen Nachbarn (an den Ecken) untersucht. Ist auch dort kein freier Punkt vorhanden, so verbleibt das betreffende Molekül an dem Ort, an den es gesetzt wurde, d. h. auf dem ersten der angrenzenden Gitterpunkte. Für den Punkt, der sich ursprünglich an dieser Stelle befand, wird die gleiche Suche durchgeführt. Wenn nach einer vorbestimmten Anzahl n von Iterationen ein Molekül übrig bleibt, so wird dieses Molekül verworfen. Es wurde jedoch empirisch gefunden, daß schon mit n = 4 keine Moleküle zu verwerfen sind.
Es sei darauf hingewiesen, daß die Grenze des Gitters als besetzte Punkte angenommen wird. Wird ein Grenzpunkt erreicht, so wird die Suche fortgesetzt, bis sie sich wieder im Gitterbereich befindet.
Als Ergebnis dieses Schritts ergibt sich eine Molekülverteilung über das Gitter, bei der kein Gitter­ punkt von mehr als einem Molekül besetzt ist. Fig. 4 zeigt die resultierende Verteilung. Es sei außerdem darauf hingewiesen, daß bei dieser Entclusterungs­ methode die Nachbarschaftsbeziehungen zwischen den Molekülen gewahrt bleiben.
Bis hierher ist das erfindungsgemäße Verfahren nicht speziell für einen bestimmten Rezeptor oder ein bestimmtes Target ausgelegt. Die folgenden Schritte sind jedoch für den Rezeptor oder das Target spezi­ fisch. Es sei daran erinnert, daß die Kandidatenmole­ küle mit der höchsten biologischen Aktivität hinsicht­ lich des Rezeptors oder Targets gefunden werden sollen. Die biologische Aktivität eines Moleküls kann auf vielen verschiedenen Wegen bestimmt werden, nämlich durch Berechnungen, Simulationen oder Versuche.
Da die Bestimmung der biologischen Aktivität aller Moleküle im Gitter zu zeitaufwendig wäre, muß eine Strategie zur Verringerung der Zahl der möglichen Kandidaten für die weitere Evaluierung angewandt werden. Dabei besteht die Schlüsselidee darin, daß benachbarte Moleküle auf dem Gitter aufgrund ihrer ähnlichen Eigenschaften (wie sie durch die Deskriptoren ausgedrückt werden) ähnliche Werte für die biologische Aktivität aufweisen. Es sei jedoch darauf hingewiesen, daß konkrete Werte für die biologische Aktivität nicht direkt aus den Deskriptoren bekannt sind. Diese Werte müssen nach den oben aufgeführten (sehr zeitaufwendi­ gen) Methoden bestimmt werden.
Der geradlinigste Weg zur Suche der Moleküle mit den höchsten Werten für die biologische Aktivität über die Molekülverteilung hinweg bestünde in der Berechnung aller Werte des Molekülgitters. Eine derartige erschöpfende Herangehensweise wäre jedoch viel zu zeitaufwendig. Daher muß eine approximative Modellierung der Oberfläche durchgeführt werden.
Bei einer approximativen Modellierung der Oberfläche durch Bestimmung der Aktivitätswerte von Molekülen auf Gitterpunkten, die sich auf dem gesamten Gitter in regelmäßigem Abstand befinden, liefe man Gefahr, einige interessante Minimal- oder Maximalwerte zu übergehen.
Daher wird eine adaptive Suche durchgeführt, bei der interessante Bereiche des Gitters genauer evaluiert werden als andere Gitterbereiche.
Die Verteilung der biologischen Aktivität über das Molekülgitter wird als 3-D-Oberfläche modelliert, die die biologische Aktivität der Moleküle über das Gitter darstellt. Das Problem der Auffindung von geeig­ neten Molekülen wird in das Problem der Auffindung der Gitterpunkte (d. h. der Moleküle) mit den höchsten Werten für die biologische Aktivität transformiert.
Für die Approximation der Oberfläche der biologischen Aktivität hat sich die Methode der Delauney-Triangulierung als am besten geeignet erwiesen. Hierbei erfolgt die Approximation einer Ober­ fläche durch iterative Zerlegung in Dreiecke, wobei die Zahl der Iterationen in stärker geformten Bereichen, d. h. Bereichen mit größeren Aktivitätswert-Differenzen, erhöht wird.
Zunächst werden die Aktivitätswerte für die vier Eckpunkte des Gitters berechnet. Auf der Basis dieser vier Punkte wird die Oberfläche durch zwei Dreiecke approximiert (d. h. zerlegt). Für jedes der erhaltenen Dreiecke wird ein Qualitätskriterium berech­ net, das die Qualität der Approximation der Oberfläche durch das betreffende Dreieck definiert. Es hat sich herausgestellt, daß als Qualitätskriterium der folgende Ausdruck geeignet ist:
Das Qualitätskriterium DF(i) ist proportional zur Summe aller Gradientenwerte ∇i, ∇j an den Eckpunkten i, j und zum Mittelwert der Funktionswerte f(j) über die Zahl der Eckpunkte #nbi des jeweiligen Dreiecks i. Außerdem ist das Qualitätskriterium umgekehrt proportional zur Oberfläche λ(i) dieses Dreiecks. Der Faktor κ ist ein Skalierfaktor, der je nach den Anforderungen für die Darstellung der Oberfläche bestimmt wird. Somit führt die Verwendung dieses Qualitätskriteriums zu einer besseren Zerlegung von Bereichen, die Moleküle mit großen Aktivitätsdifferenzen enthalten. Da die Ober­ fläche der Dreiecke berücksichtigt wird, werden große Dreiecke selbst dann behandelt, wenn sie keine Moleküle mit besonders großen Aktivitätsdifferenzen enthalten.
Als weiterer Gitterpunkt, dessen Aktivität berechnet wird, wird der Schwerpunkt des Dreiecks mit dem schlechtesten Qualitätsfaktor (entsprechend dem Gitterbereich unter der Oberfläche mit den größen Aktivitätsänderungen) gewählt. Auf der Basis dieses berechneten Punkts und aller zuvor berechneten Punkte wird eine neue Zerlegung der gesamten Gitteroberfläche in Dreiecke durchgeführt. Wiederum wird für jedes Dreieck der jeweilige Qualitätsfaktor berechnet, um einen weiteren Berechnungspunkt für die Verfeinerung der Zerlegung auszuwählen.
Dieser Schritt wird iterativ durchgeführt. Fig. 5 zeigt die jeweilige Zerlegung für vier Iterations­ schritte, nämlich 15, 25, 50 und 80 berechnete Molekül­ gitterpunkte. Die Iteration wird beendet, wenn die Zerlegung genau genug geworden ist, d. h. wenn ein vorbestimmtes Stopkriterium, z. B. bei Berechnung von 5% aller Gitterpunkte, erreicht ist oder die allgemeine Fehlerfunktion (Summe aller Qualitätsfaktoren) einen vorbestimmten Schwellenwert erreicht. Die Gitter­ oberfläche kann dann als bezüglich der interessanten Bereiche des Gitters, d. h. der Bereiche mit Gitter­ punkten mit den höchsten Werten für die biologische Aktivität, als optimal approximiert erachtet werden, wie in Fig. 6 zu sehen ist.
Im letzten Schritt werden dann alle Moleküle innerhalb eines vorbestimmten Radius um die Gitter­ punkte mit der höchsten biologischen Aktivität explizit evaluiert.
Bei allen diesen Punkten handelt es sich um die resultierenden, als Kandidaten für die weitere pharma­ zeutische Forschung identifizierten Moleküle.
Durch Anwendung dieses Verfahrens können im Vergleich zu einer erschöpfenden Evaluierung mindestens 94% Rechenzeit eingespart werden. Außerdem werden infolge des Vorsortierungsschritts praktisch in jedem Fall die optimalen Kandidatenmoleküle gefunden.
Die identifizierten Moleküle können in geeigne­ ten biologischen Assays geprüft werden, beispielsweise gemäß R. Bolger, "High-throughput screening: new frontiers for the 21st century", veröffentlicht in DDT, Band 4, Nr. 6, S. 251-253, Juni 1999, oder J. S. Major, "Challenges of high throughput screening against cell surface receptors", J. of Receptor and Signal Trans­ duction Research, 15(1-4), S. 595-607. 1995).

Claims (28)

1. Verfahren zur Identifizierung von Kandidaten­ molekülen mit erwarteter biologischer Aktivität, bei dem man:
  • a) einen Satz aus verschiedenen Molekülen erzeugt;
  • b) jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert;
  • c) den Molekülsatz auf Punkten eines zweidimensio­ nalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskrip­ toren darstellt;
  • d) über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitäts­ kriterium approximativ darstellt; und
  • e) aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vor­ bestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.
2. Verfahren nach Anspruch 1, bei dem man in Schritt d) die dreidimensionale Oberfläche dadurch erstellt, daß man:
  • a) als Anfangsbereich für die Approximation das gesamte zweidimensionale Gitter nimmt;
  • b) auf vorbestimmten Gitterpunkten dieses Bereichs Moleküle auswählt und deren jeweilige Werte für die biologische Aktivität berechnet;
  • c) die Oberfläche unter Verwendung der vorher bestimmten Werte für die biologische Aktivität der Moleküle auf den vorbestimmten Gitter­ punkten über diesen Bereich approximiert und
  • d) bestimmt, ob die approximierte Oberfläche ein vorbestimmtes Qualitätskriterium erfüllt; wenn dies der Fall ist, geht man zu Schritt e); wenn dies nicht der Fall ist, verfeinert man die Approximation der Oberfläche durch Auswahl von Molekülen weiteren Gitterpunkten, Berechnung ihrer jeweiligen Werte für die biologische Aktivität und Wiederholung von Schritt dc) und diesem Schritt dd).
3. Verfahren nach Anspruch 1, bei dem man in Schritt d) die dreidimensionale Oberfläche durch eine Approximation von Dreiecken nach der Methode der Delauney-Triangulierung erstellt.
4. Verfahren nach Anspruch 1, bei dem die gewählten Kandidatenmoleküle für die chemische Synthese geeignet sind.
5. Verfahren nach Anspruch 1, bei dem es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um mindestens zwei der folgenden Eigen­ schaften handelt:
  • - Molekulargewicht,
  • - Zahl der drehbaren Bindungen,
  • - Zahl der hydrophoben Gruppen,
  • - Zahl der hydrophilen Gruppen,
  • - Zahl der sauren Gruppen,
  • - Zahl der basischen Gruppen,
  • - Zahl der neutralen Gruppen,
  • - Zahl der Zwittergruppen,
  • - Zahl der Schweratome,
  • - Zahl der H-Bindungs-Donatoren,
  • - Zahl der H-Bindungs-Akzeptoren,
  • - Zahl der 1,2-Dipole,
  • - Zahl der 1,3-Dipole,
  • - Zahl der 1,4-Dipole.
6. Verfahren nach Anspruch 1, bei dem es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um:
  • - Molekulargewicht,
  • - Zahl der drehbaren Bindungen,
  • - Zahl der hydrophoben Gruppen,
  • - Zahl der Schweratome,
  • - Zahl der H-Bindungs-Donatoren,
  • - Zahl der H-Bindungs-Akzeptoren
handelt.
7. Verfahren nach Anspruch 1, bei dem es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um mindestens zwei der folgenden Eigen­ schaften handelt:
  • - Molekulargewicht,
  • - Zahl der drehbaren Bindungen,
  • - Zahl der hydrophoben Gruppen,
  • - Zahl der Schweratome,
  • - Zahl der H-Bindungs-Donatoren,
  • - Zahl der H-Bindungs-Akzeptoren.
8. Verfahren nach Anspruch 1, bei dem man die Molekülkartierung mit selbstorganisierenden Karten in einem neuronalen Netz oder mit statistischen Methoden wie linearer Vektorquantisierung durchführt.
9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem man die Similaritätsbeziehung durch ein metrisches Maß der von den Deskriptoren dargestell­ ten molekularen Eigenschaften definiert.
10. Verfahren nach Anspruch 1, bei dem man zwischen Schritt c) und d) die Moleküle auf dem Gitter derart neu kartiert, daß kein Gitterpunkt von mehr als einem Molekül besetzt ist, wobei die Similaritätsbeziehung zwischen zwei Punkten jeweils gewahrt wird.
11. Verfahren nach Anspruch 1, bei dem man die dreidimensionale Oberfläche durch rechnerische oder experimentelle Identifizierung der biologischen Aktivität erstellt.
12. Verfahren nach Anspruch 1, bei dem es sich bei dem vorbestimmten Kriterium für die biologische Aktivität um den Mindestwert der biologischen Aktivität handelt.
13. Verfahren nach Anspruch 1, bei dem der Molekül­ satz in einer computergestützten Datenbank gespeichert wird.
14. Verfahren nach Anspruch 1, bei dem es sich bei den vorbestimmten Positionen des Schritts db) um die Eckpunkte des jeweiligen Bereichs handelt.
15. Verfahren nach Anspruch 3, bei dem das Qualitätskriterium durch
wobei:
i: das jeweilige Dreieck,
j: die Eckpunkte des Dreiecks i,
f(j): den Wert für die biologische Aktivität des Punkts j,
i, ∇j: den Wert einer auf den Punkt i, j angewandten Gradientenoperation,
λ(i): die Oberfläche des Dreiecks i,
κ: ein Skalierfaktor und
#nb: die Zahl der Eckpunkte bedeutet,
definiert ist.
16. Verfahren nach Anspruch 2, bei dem das Stop­ kriterium durch die Summe über alle in einem Schritt berechneten Werte des Qualitätskriteriums definiert ist.
17. Verfahren nach Anspruch 2, bei dem das Stop­ kriterium durch eine vorbestimmte Zahl von berechneten Gitterpunkten definiert ist.
18. Verfahren nach Anspruch 1, bei dem man in Schritt e) auf dem Gitter um jedes ausgewählte Molekül die Werte für die biologische Aktivität einer vor­ bestimmten Zahl von benachbarten Molekülen berechnet.
19. Verfahren nach Anspruch 1, bei dem man die zugeordneten Punkte des 2-D-Gitters visualisiert,
20. Verfahren nach Anspruch 1, bei dem man die erhaltenen 3-D-Oberflächen visualisiert.
21. Computersystem mit Mitteln zur Durchführung des Verfahrens gemäß Anspruch 1.
22. Computersystem nach dem vorhergehenden Anspruch mit Mitteln zur Verbindung mit einer den Molekülsatz enthaltenden Datenbank.
23. Datenspeichermittel mit gespeichertem Programm zur Durchführung des Verfahrens gemäß Anspruch 1.
24. Datenspeichermittel mit gespeicherter Daten­ bank, die den Molekülsatz zur Verwendung bei dem Verfahren gemäß Anspruch 1 enthält.
25. Programm zur Speicherung einer Datenbank, die den Molekülsatz zur Verwendung bei dem Verfahren gemäß Anspruch 1 enthält.
26. Datenbank zur Verwendung bei dem Verfahren gemäß Anspruch 1.
27. Verfahren zur Herstellung von Molekülen nach dem Verfahren gemäß Anspruch 1.
28. Verfahren nach Anspruch 27, das außerdem auch noch einen Schritt f) umfaßt, bei dem man die gefundenen Kandidatenmoleküle in einem geeigneten biologischen Assay prüft.
DE10009479A 1999-10-21 2000-02-29 Verfahren zur Identifizierung von Kandidatenmolekülen Withdrawn DE10009479A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US09/693,731 US6727100B1 (en) 1999-10-21 2000-10-20 Method of identifying candidate molecules
EP00122333A EP1094415A3 (de) 1999-10-21 2000-10-23 Verfahren zur Identifizierung von Kandidatenmolekülen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US42230399A 1999-10-21 1999-10-21

Publications (1)

Publication Number Publication Date
DE10009479A1 true DE10009479A1 (de) 2001-04-26

Family

ID=23674267

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10009479A Withdrawn DE10009479A1 (de) 1999-10-21 2000-02-29 Verfahren zur Identifizierung von Kandidatenmolekülen

Country Status (1)

Country Link
DE (1) DE10009479A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017075559A1 (en) 2015-10-30 2017-05-04 E. I. Du Pont De Nemours And Company Dihydroorotate dehydrogenase inhibitor compositions effective as herbicides

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017075559A1 (en) 2015-10-30 2017-05-04 E. I. Du Pont De Nemours And Company Dihydroorotate dehydrogenase inhibitor compositions effective as herbicides

Similar Documents

Publication Publication Date Title
DE19642651B4 (de) Verfahren und Rechnersystem zur Erkennung konformationsflexibler Moleküle
EP0441810B1 (de) Verfahren zur plazierung von modulen auf einem träger
DE202010017612U1 (de) Verbesserter genetischer Algorithmus mit mehreren Zielen für die Bauteildesignoptimierung
DE3911465C2 (de) Verfahren zur automatischen Konfiguration technischer Systeme aus Komponenten
EP0643289B1 (de) Untersuchungsverfahren zur Auswertung ortsabhängiger Spektren
EP2854045B1 (de) Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
DE69824607T2 (de) VERBESSERUNGEN AN ODER IN BEZIEHUNG ZU ÜBERWACHUNGs- UND ANANLYSE-SYSTEMEN
DE102021100149A1 (de) Computerimplementiertes Verfahren zum Bereitstellen eines Test-Verlaufs zu testender Verkehrsszenarien
DE112021002061T5 (de) Validierung der interpretierbarkeit von qsar- und qspr-modellen
EP1094415A2 (de) Verfahren zur Identifizierung von Kandidatenmolekülen
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE10009479A1 (de) Verfahren zur Identifizierung von Kandidatenmolekülen
EP0700544A1 (de) Verfahren und einrichtung zur raumfilterung
WO2012052106A1 (de) Verfahren zur klassifizierung von mustern in bilddatensätzen
DE10134926A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Klassifikators für das automatische Sortieren von Objekten
DE112016007312T5 (de) Netzwerk-bildungsvorrichtung und netzwerk-bildungsverfahren
DE102021108482A1 (de) Zuweisung von Verarbeitungsthreads für Matrix-Matrix-Multiplikation
DE102021123576A1 (de) Frühzeitiges stoppen von versuchen bei stapelweise erfolgender bayesscher optimierung in industrieprozessen
Raskin et al. STATISTICAL PROCESSING OF A SMALL SAMPLE OF RAW DATA USING ARTIFICIAL ORTHOGONALISATION TECHNOLOGY.
DE202023103509U1 (de) Ein System für beziehungsbasiertes neues K-Linien-Clustering
EP1451750B1 (de) Verfahren zur identifikation von pharmakophoren
DE19849231C2 (de) Verfahren zum Verifizieren der Synthese organischer Moleküle in der kombinatorischen Chemie
DE102014200158B4 (de) Merkmalauswahl für eine effektive Epistase-Modellierung zur Phänotyp-Vorhersage
DE102020215979A1 (de) Verfahren und Vorrichtung zum Zuordnen eines spezifischen Reagenz zu einem Reaktionsplatz
DE102023103743A1 (de) Verfahren und system zum vorhersagen einer prozesssequenz für einen fahrzeugherstellungsprozess

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: 4SC AG, 82152 PLANEGG, DE

8139 Disposal/non-payment of the annual fee