DE10009479A1 - Verfahren zur Identifizierung von Kandidatenmolekülen - Google Patents
Verfahren zur Identifizierung von KandidatenmolekülenInfo
- Publication number
- DE10009479A1 DE10009479A1 DE10009479A DE10009479A DE10009479A1 DE 10009479 A1 DE10009479 A1 DE 10009479A1 DE 10009479 A DE10009479 A DE 10009479A DE 10009479 A DE10009479 A DE 10009479A DE 10009479 A1 DE10009479 A1 DE 10009479A1
- Authority
- DE
- Germany
- Prior art keywords
- molecules
- biological activity
- grid
- molecular
- descriptors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/15—Medicinal preparations ; Physical properties thereof, e.g. dissolubility
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Immunology (AREA)
- Computing Systems (AREA)
- Biotechnology (AREA)
- Food Science & Technology (AREA)
- Hematology (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- Urology & Nephrology (AREA)
- Pharmacology & Pharmacy (AREA)
- Biomedical Technology (AREA)
- Cell Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Microbiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
Die vorliegende Erfindung betrifft ein Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität, bei dem man: einen Satz aus verschiedenen Molekülen erzeugt, jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert; den Molekülsatz auf Punkten eines zweidimensionalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskriptoren darstellt; über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitätskriterium approximativ darstellt; und aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vorbestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.
Description
Die vorliegende Erfindung betrifft ein
Verfahren zur Identifizierung von Kandidatenmolekülen
mit erwarteter biologischer Aktivität.
In der pharmazeutischen Wirkstoff-Forschung
stellt die Evaluierung der Rezeptor- oder Targeteignung
von Molekülen eine wichtige Aufgabe dar. Mit dem bei
Wirkstoff-Findung im Lauf der letzten Jahre zunehmenden
Einsatz von Automatisierungstechniken haben sich
Verfahren wie das Hochdurchsatz-Screening (HTS, High
Throughput Screening) und die Hochdurchsatz-Synthese in
der pharmazeutischen Forschung zum Industriestandard
entwickelt. Heutzutage kann man über 20.000 Moleküle
pro Tag auf ihre biologischen Aktivitäten bei
bestimmten Zielkrankheiten prüfen. Auch auf dem Gebiet
der chemischen Synthese können mit Hilfe der
kombinatorischen Chemie in Kombination mit Automatisie
rungsverfahren hunderte von Molekülen pro Tag physisch
zur Verfügung gestellt werden. Da ausgehend vom der
zeitigen chemischen Wissen theoretisch mehr als 10100
Moleküle synthetisiert und geprüft werden könnten und
mehrere hunderttausend Moleküle im Handel erhältlich
sind, wurden computergestütze Verfahren zur Auswahl von
Untergruppen von Molekülen, die nun tatsächlich geprüft
werden sollen, auf der Basis ihres prognostizierten
biologischen Aktivitätspotentials für bestimmte Ziel
krankheiten entwickelt.
Zwei Kategorien von computergestützten
Verfahren dienen zur Auffindung (Auswahl und/oder
Prioritisierung) von Molekülen aus Datensätzen von
theoretisch verfügbaren Molekülen für die Prüfung der
biologischen Aktivität. Die erste Kategorie umfaßt auf
Diversität oder Similarität beruhende Auffindungs
verfahren, wohingegen die zweite Kategorie auf der
Struktur basierende Auffindungsverfahren umfaßt. Zur
zweiten Kategorie gehören Datenbanksuchtechniken sowie
(Q)SAR- und Docking-Verfahren.
Nur die (Q)SAR- und Docking-Verfahren berück
sichtigen implizit Informationen bezüglich spezifischer
Targets, entweder übliche Strukturmuster einer Reihe
von aktiven Molekülen ((Q)SAR) oder die dreidimensio
nale Struktur eines Targetproteins (Docking), und
liefern daher die genauesten Ergebnisse. In der Praxis
werden auf (Q)SAR oder Docking beruhende Verfahren auf
kleinere Datensätze (bis zu 50.000 Sätze) angewandt, da
sie eine verhältnismäßig hohe Rechenleistung erfordern.
Wenngleich die Geschwindigkeit mit Parallelrechen
techniken gesteigert werden kann, sind Datensätze aus
mehr als 106 Molekülen hinsichtlich ihrer biologischen
Aktivität immer noch nicht in einem vertretbaren zeit
lichen Rahmen prognostizierbar.
Der Begriff biologische Aktivität umfaßt im
folgenden insbesondere pharmazeutische sowie agro
chemische Aktivität bezüglich eines bestimmten Rezep
tors oder Targets.
Die Suche nach Kandidatenmolekülen umfaßt auch
die Suche nach Leitverbindungen.
Der vorliegenden Erfindung liegt daher die
Aufgabe zugrunde, ein auf Molekülbibliotheken mit
großen Datenmengen anwendbares und in vertretbarer Zeit
Ergebnisse lieferndes Verfahren und System zur
Auffindung von Kandidatenmolekülen mit erwarteter bio
logischer Aktivität bereitzustellen.
Diese Aufgabe wird mit dem Verfahren und dem
System gemäß den unabhängigen Ansprüchen gelöst.
Vorteilhafte Ausführungsformen sind in den Unter
ansprüchen definiert.
Erfindungsgemäß geht man bei dem Verfahren zur
Identifizierung von Kandidatenmolekülen mit erwarteter
biologischer Aktivität so vor, daß man:
- a) einen Satz aus verschiedenen Molekülen erzeugt;
- b) jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert;
- c) den Molekülsatz auf Punkten eines zweidimensio nalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskrip toren darstellt;
- d) über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitäts kriterium approximativ darstellt; und
- e) aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vor bestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.
Erfindungsgemäß kann man in Schritt d) die
dreidimensionale Oberfläche dadurch erstellen, daß man:
- a) als Anfangsbereich für die Approximation das gesamte zweidimensionale Gitter nimmt;
- b) auf vorbestimmten Gitterpunkten dieses Bereichs Moleküle auswählt und deren jeweilige Werte für die biologische Aktivität berechnet;
- c) die Oberfläche unter Verwendung der vorher bestimmten Werte für die biologische Aktivität der Moleküle auf den vorbestimmten Gitter punkten über diesen Bereich approximiert und
- d) bestimmt, ob die approximierte Oberfläche ein vorbestimmtes Qualitätskriterium erfüllt; wenn dies der Fall ist, geht man zu Schritt e); wenn dies nicht der Fall ist, verfeinert man die Approximation der Oberfläche durch Auswahl von Molekülen auf weiteren Gitterpunkten, Berech nung ihrer jeweiligen Werte für die biologische Aktivität und Wiederholung von Schritt dc) und diesem Schritt dd).
Die Erstellung der dreidimensionalen Oberfläche
in Schritt d) erfolgt vorzugsweise durch eine
Approximation nach der Methode der Delauney-
Triangulierung.
Das erfindungsgemäße Verfahren besteht somit
aus der Durchführung von zwei Hauptschritten. Im ersten
Schritt werden die Moleküle der Similarität ihrer
Deskriptoren entsprechend sortiert und auf einem 2-D-
Gitter kartiert. Im zweiten Schritt wird die
biologische Aktivität der kartierten Moleküle durch
Modellierung der Verteilung als Oberfläche über die
Molekülkarte approximiert. Aus der Oberfläche kann man
geeignete Kandidatenmoleküle für die weitere Evaluie
rung bestimmen. Erfindungsgemäß muß nur eine kleine
Molekülmenge im Datensatz tatsächlich berechnet werden.
Dadurch ergibt sich eine beträchtliche Steigerung der
Leistungsfähigkeit. Die rekursive Vorgehensweise
ermöglicht die Untersuchung der Datenbank auf Basis von
speziell anpaßbaren Qualitätskriterien. Fehler- und
Qualitätskriterien für die Analyse können genau auf ein
gegebenes Problem abgestellt werden. Parallel dazu
können leicht Docking-Simulationen von Molekülsammlun
gen durchgeführt werden, was zu einer weiteren
Leistungssteigerung führt.
Somit überträgt das erfindungsgemäße Verfahren
prognostizierte/gemessene biologische Aktivität in
topographische Informationen auf einer drei
dimensionalen Oberfläche, die unter Verwendung von
Approximationsalgorithmen iterativ analysiert wird.
Eine gründliche Analyse erfolgt nur in denjenigen
Bereiche der Oberfläche, die Bereichen hoher
biologischer Aktivität darstellen, wohingegen die
Bereiche mit niedrigen Bindungsenergien für eine
gegebene Proteinbindungsstelle nur durch wenige
Datenpunkte approximiert werden. Wie Beispiele gezeigt
haben, kann man somit durch explizite Berech
nung/Vermessung von nur 4-6% der Moleküle im Datensatz
aktive Moleküle aus Datensätzen identifizieren.
Mit dem erfindungsgemäßen Verfahren kann man
Wirkstoff-Leitkandidaten identifizieren, ohne große
Molekülsätze physisch zur Verfügung stellen und prüfen
zu müssen.
Die gewählten Kandidatenmoleküle sind für die
chemische Synthese geeignet.
Vorzugsweise handelt es sich bei den von den
Deskriptoren dargestellten molekularen Eigenschaften um
mindestens zwei der folgenden Eigenschaften:
- - Molekulargewicht,
- - Zahl der drehbaren Bindungen,
- - Zahl der hydrophoben Gruppen,
- - Zahl der hydrophilen Gruppen,
- - Zahl der sauren Gruppen,
- - Zahl der basischen Gruppen,
- - Zahl der neutralen Gruppen,
- - Zahl der Zwittergruppen,
- - Zahl der Schweratome,
- - Zahl der H-Bindungs-Donatoren,
- - Zahl der H-Bindungs-Akzeptoren,
- - Zahl der 1,2-Dipole,
- - Zahl der 1,3-Dipole,
- - Zahl der 1,4-Dipole.
Die Molekülkartierung erfolgt vorzugsweise mit
selbstorganisierenden Karten in einem neuronalen Netz
oder mit statistischen Methoden wie linearer Vektor
quantisierung.
Einen weiteren Gegenstand der Erfindung bildet
ein Computersystem mit Mitteln zur Durchführung des
Identifizierungsverfahrens, Mitteln zur Eingabe von
Systembefehlen und Mitteln zur Ausgabe des Ergebnisses
der Durchführung des Verfahrens.
Die Erfindung und Beispiele dafür werden nun
anhand der beigefügten Zeichnungen näher erläutert. Es
zeigen:
Fig. 1 den hier verwendeten Deskriptortyp,
Fig. 2 die sich aus einem Molekülsortierschritt
ergebende Verteilung,
Fig. 3 den Entclusterungsschritt,
Fig. 4 die sich aus der Entclusterung ergebende
Verteilung,
Fig. 5 vier Zwischenschritte der Approximation
einer Oberfläche durch Delauney-Triangulierung und
Fig. 6 die abschließende Approximation der
Oberfläche durch Delauney-Triangulierung.
Das erfindungsgemäße Verfahren wird anhand des
Beispiels der Auffindung von Inhibitoren von Dihydro
folatreductase (PDB-Code: 4 dfr) erläutert.
Erfindungsgemäß wird vor der Evaluierung von
speziellen Molekülen die sogenannte virtuelle Biblio
thek erzeugt, die alle möglichen Moleküle enthält. Das
bedeutet, daß die virtuelle Molekülbibliothek Moleküle,
die mit vertretbaren Kosten käuflich erworben oder
hergestellt werden können und handelsübliche Moleküle
oder mittels kombinatorischer Synthese herstellbare
Moleküle enthält. Nicht enthalten sind die Moleküle,
die von vornherein für die Wirkstoffsynthese ungeeignet
sind, insbesondere Moleküle mit toxischen Gruppen,
einem Molekulargewicht von mehr als 500 u oder mehr als
5 Donatoren oder einem log-P-Wert von mehr als 5. Die
Bibliothek wird in einer Computerdatenbank gespeichert.
In diesem Beispiel enthält die Datenbank 2000
Moleküle. Jedes der Moleküle wird durch 2-D-Struktur
daten in maschinenlesbarer Form dargestellt.
Bei der Speicherung der Moleküle in der Biblio
thek wird jedem Molekül in der Bibliothek ein Deskrip
tor zugeordnet, der mit der biologischen Aktivität des
jeweiligen Moleküls in Relation steht. Bei dem Deskrip
tor handelt es sich um einen Vektor mehrerer skalarer
molekularer Eigenschaften. Dieser Vektor umfaßt die
folgenden Werte:
- - Molekulargewicht,
- - Zahl der drehbaren Bindungen,
- - Zahl der hydrophoben Gruppen,
- - Zahl der Schweratome,
- - Zahl der H-Bindungs-Donatoren,
- - Zahl der H-Bindungs-Akzeptoren.
Zur Durchführung einer Vorauswahl von Molekülen
kann man Werte verwenden, die wirtschaftliche oder
technische Aspekte abdecken, wie z. B. Verfügbarkeit und
Herstellungskosten von Molekülen.
Fig. 1 zeigt vier Datenströme (die vier Mole
küle beschreiben) des hier verwendeten Deskriptors. Die
ersten Zeilen geben die Dimension des Deskriptors an,
die zweiten bis fünften Zeilen geben die Moleküle an,
und die letzte Spalte enthält die Identifizierung der
entsprechenden Moleküle.
Die Deskriptoren sind auf die weitere Verarbei
tung der Molekülbibliothek zwecks Auffindung der
Molekülkandidaten für die Wirkstoffsynthese ausgelegt.
Um eine weitere Verarbeitung zu ermöglichen, haben die
für die Moleküle der Datenbank gewählten Desktiptoren
alle die gleiche Dimension.
Im nächsten Schritt werden die Moleküle dieser
Bibliothek ihrer Similarität hinsichtlich potentieller
Ligand-Rezeptor-Aktivität entsprechend sortiert. Dies
geschieht durch Kartieren der Moleküle auf einem zwei
dimensionalen Gitter, wobei die Similarität der Mole
küle miteinander durch die Abstände ihrer Positionen
auf dem Gitter dargestellt wird. Die Bestimmung der
Similarität erfolgt durch Evaluierung der Deskriptoren
der Moleküle. Die Sortierung basiert auf einem neurona
len Netz vom Typ der selbstorganisierenden Karte nach
Kohonen. Selbstorganisierende Karten eignen sich gut,
da sich herausgestellt hat, daß sie selbst bei
Auftreten von linearen Abhängigkeiten in den Daten
höherdimensionale Probleme auf niedrigere Dimensionen
projizieren können.
Das Sortieren wird folgendermaßen durchgeführt:
Zunächst werden alle Moleküle willkürlich auf das
Gitter gesetzt. Das Gitter muß groß genug sein, um alle
Moleküle der Datenbank aufzunehmen. Während der
Lernphasen des neuronalen Netzes werden die Moleküle
über das Gitter verschoben, um sie bezüglich ihrer
Similarität zu ordnen. Hierbei werden drei Lernphasen
angewandt. In der ersten Lernphase ist die Verschiebung
auf einen Gitterradius von etwa 1/10 der Höchstzahl der
Gitterpunkte in einer Richtung beschränkt, wobei die
Konvergenz 0,3 beträgt. In der zweiten Lernphase
beläuft sich der Radius auf einen Gitterpunkt und die
Konvergenz auf 0,2; in der dritten Lernphase beläuft
sich der Radius auf 0,5 und die Konvergenz auf 0,2. Der
Gitterradius und die Konvergenz können selbstverständ
lich auf das konkrete Problem abgestellt werden.
Als Ergebnis der Sortierung ergibt sich eine
Molekülverteilung über das Gitter, bei der ein Gitter
punkt von mehreren Molekülen besetzt sein kann,
wohingegen andere Gitterpunkte frei bleiben können.
Fig. 2 zeigt die nach drei Lernphasen erhaltene Karte.
Wenngleich eine derartige unregelmäßige
Besetzung der Molekülkarte die weitere Verarbeitung der
Molekülkarte eigentlich nicht behindert, wird die
Molekülkarte entclustert, d. h. Moleküle, die mit
anderen zusammen auf dem gleichen Gitterpunkt liegen,
werden auf freie Gitterpunkte in der näheren Umgebung
gesetzt. Hierzu führt man nach folgendem Schema eine
Suche nach einem freien Gitterpunkt durch (siehe Fig.
3): Die Suche beginnt an einem der vier direkt
angrenzenden Gitterpunkte (oberer, unterer, linker,
rechter Gitterpunkt). Der erste dieser Punkte wird nach
dem Zufallsprinzip ausgewählt. Das Molekül wird auf
diesen Punkt gesetzt, wobei es keine Rolle spielt, ob
der Punkt frei ist oder nicht. Wenn der Punkt vorher
frei war, wird die Suche erfolgreich beendet. War der
Punkt dagegen vorher besetzt, so wird die Suche mit den
nächsten drei angrenzenden Gitterpunkten fortgesetzt.
Wird kein freier Punkt gefunden, so werden die vier
diagonalen Nachbarn (an den Ecken) untersucht. Ist auch
dort kein freier Punkt vorhanden, so verbleibt das
betreffende Molekül an dem Ort, an den es gesetzt
wurde, d. h. auf dem ersten der angrenzenden
Gitterpunkte. Für den Punkt, der sich ursprünglich an
dieser Stelle befand, wird die gleiche Suche
durchgeführt. Wenn nach einer vorbestimmten Anzahl n
von Iterationen ein Molekül übrig bleibt, so wird
dieses Molekül verworfen. Es wurde jedoch empirisch
gefunden, daß schon mit n = 4 keine Moleküle zu
verwerfen sind.
Es sei darauf hingewiesen, daß die Grenze des
Gitters als besetzte Punkte angenommen wird. Wird ein
Grenzpunkt erreicht, so wird die Suche fortgesetzt, bis
sie sich wieder im Gitterbereich befindet.
Als Ergebnis dieses Schritts ergibt sich eine
Molekülverteilung über das Gitter, bei der kein Gitter
punkt von mehr als einem Molekül besetzt ist. Fig. 4
zeigt die resultierende Verteilung. Es sei außerdem
darauf hingewiesen, daß bei dieser Entclusterungs
methode die Nachbarschaftsbeziehungen zwischen den
Molekülen gewahrt bleiben.
Bis hierher ist das erfindungsgemäße Verfahren
nicht speziell für einen bestimmten Rezeptor oder ein
bestimmtes Target ausgelegt. Die folgenden Schritte
sind jedoch für den Rezeptor oder das Target spezi
fisch. Es sei daran erinnert, daß die Kandidatenmole
küle mit der höchsten biologischen Aktivität hinsicht
lich des Rezeptors oder Targets gefunden werden sollen.
Die biologische Aktivität eines Moleküls kann auf
vielen verschiedenen Wegen bestimmt werden, nämlich
durch Berechnungen, Simulationen oder Versuche.
Da die Bestimmung der biologischen Aktivität
aller Moleküle im Gitter zu zeitaufwendig wäre, muß
eine Strategie zur Verringerung der Zahl der möglichen
Kandidaten für die weitere Evaluierung angewandt
werden. Dabei besteht die Schlüsselidee darin, daß
benachbarte Moleküle auf dem Gitter aufgrund ihrer
ähnlichen Eigenschaften (wie sie durch die Deskriptoren
ausgedrückt werden) ähnliche Werte für die biologische
Aktivität aufweisen. Es sei jedoch darauf hingewiesen,
daß konkrete Werte für die biologische Aktivität nicht
direkt aus den Deskriptoren bekannt sind. Diese Werte
müssen nach den oben aufgeführten (sehr zeitaufwendi
gen) Methoden bestimmt werden.
Der geradlinigste Weg zur Suche der Moleküle
mit den höchsten Werten für die biologische Aktivität
über die Molekülverteilung hinweg bestünde in der
Berechnung aller Werte des Molekülgitters. Eine
derartige erschöpfende Herangehensweise wäre jedoch
viel zu zeitaufwendig. Daher muß eine approximative
Modellierung der Oberfläche durchgeführt werden.
Bei einer approximativen Modellierung der
Oberfläche durch Bestimmung der Aktivitätswerte von
Molekülen auf Gitterpunkten, die sich auf dem gesamten
Gitter in regelmäßigem Abstand befinden, liefe man
Gefahr, einige interessante Minimal- oder Maximalwerte
zu übergehen.
Daher wird eine adaptive Suche durchgeführt,
bei der interessante Bereiche des Gitters genauer
evaluiert werden als andere Gitterbereiche.
Die Verteilung der biologischen Aktivität über
das Molekülgitter wird als 3-D-Oberfläche modelliert,
die die biologische Aktivität der Moleküle über das
Gitter darstellt. Das Problem der Auffindung von geeig
neten Molekülen wird in das Problem der Auffindung der
Gitterpunkte (d. h. der Moleküle) mit den höchsten
Werten für die biologische Aktivität transformiert.
Für die Approximation der Oberfläche der
biologischen Aktivität hat sich die Methode der
Delauney-Triangulierung als am besten geeignet
erwiesen. Hierbei erfolgt die Approximation einer Ober
fläche durch iterative Zerlegung in Dreiecke, wobei die
Zahl der Iterationen in stärker geformten Bereichen,
d. h. Bereichen mit größeren Aktivitätswert-Differenzen,
erhöht wird.
Zunächst werden die Aktivitätswerte für die
vier Eckpunkte des Gitters berechnet. Auf der Basis
dieser vier Punkte wird die Oberfläche durch zwei
Dreiecke approximiert (d. h. zerlegt). Für jedes der
erhaltenen Dreiecke wird ein Qualitätskriterium berech
net, das die Qualität der Approximation der Oberfläche
durch das betreffende Dreieck definiert. Es hat sich
herausgestellt, daß als Qualitätskriterium der folgende
Ausdruck geeignet ist:
Das Qualitätskriterium DF(i) ist proportional zur Summe
aller Gradientenwerte ∇i, ∇j an den Eckpunkten i, j und
zum Mittelwert der Funktionswerte f(j) über die Zahl
der Eckpunkte #nbi des jeweiligen Dreiecks i. Außerdem
ist das Qualitätskriterium umgekehrt proportional zur
Oberfläche λ(i) dieses Dreiecks. Der Faktor κ ist ein
Skalierfaktor, der je nach den Anforderungen für die
Darstellung der Oberfläche bestimmt wird. Somit führt
die Verwendung dieses Qualitätskriteriums zu einer
besseren Zerlegung von Bereichen, die Moleküle mit
großen Aktivitätsdifferenzen enthalten. Da die Ober
fläche der Dreiecke berücksichtigt wird, werden große
Dreiecke selbst dann behandelt, wenn sie keine Moleküle
mit besonders großen Aktivitätsdifferenzen enthalten.
Als weiterer Gitterpunkt, dessen Aktivität
berechnet wird, wird der Schwerpunkt des Dreiecks mit
dem schlechtesten Qualitätsfaktor (entsprechend dem
Gitterbereich unter der Oberfläche mit den größen
Aktivitätsänderungen) gewählt. Auf der Basis dieses
berechneten Punkts und aller zuvor berechneten Punkte
wird eine neue Zerlegung der gesamten Gitteroberfläche
in Dreiecke durchgeführt. Wiederum wird für jedes
Dreieck der jeweilige Qualitätsfaktor berechnet, um
einen weiteren Berechnungspunkt für die Verfeinerung
der Zerlegung auszuwählen.
Dieser Schritt wird iterativ durchgeführt. Fig.
5 zeigt die jeweilige Zerlegung für vier Iterations
schritte, nämlich 15, 25, 50 und 80 berechnete Molekül
gitterpunkte. Die Iteration wird beendet, wenn die
Zerlegung genau genug geworden ist, d. h. wenn ein
vorbestimmtes Stopkriterium, z. B. bei Berechnung von 5%
aller Gitterpunkte, erreicht ist oder die allgemeine
Fehlerfunktion (Summe aller Qualitätsfaktoren) einen
vorbestimmten Schwellenwert erreicht. Die Gitter
oberfläche kann dann als bezüglich der interessanten
Bereiche des Gitters, d. h. der Bereiche mit Gitter
punkten mit den höchsten Werten für die biologische
Aktivität, als optimal approximiert erachtet werden,
wie in Fig. 6 zu sehen ist.
Im letzten Schritt werden dann alle Moleküle
innerhalb eines vorbestimmten Radius um die Gitter
punkte mit der höchsten biologischen Aktivität explizit
evaluiert.
Bei allen diesen Punkten handelt es sich um die
resultierenden, als Kandidaten für die weitere pharma
zeutische Forschung identifizierten Moleküle.
Durch Anwendung dieses Verfahrens können im
Vergleich zu einer erschöpfenden Evaluierung mindestens
94% Rechenzeit eingespart werden. Außerdem werden
infolge des Vorsortierungsschritts praktisch in jedem
Fall die optimalen Kandidatenmoleküle gefunden.
Die identifizierten Moleküle können in geeigne
ten biologischen Assays geprüft werden, beispielsweise
gemäß R. Bolger, "High-throughput screening: new
frontiers for the 21st century", veröffentlicht in DDT,
Band 4, Nr. 6, S. 251-253, Juni 1999, oder J. S. Major,
"Challenges of high throughput screening against cell
surface receptors", J. of Receptor and Signal Trans
duction Research, 15(1-4), S. 595-607. 1995).
Claims (28)
1. Verfahren zur Identifizierung von Kandidaten
molekülen mit erwarteter biologischer Aktivität, bei
dem man:
- a) einen Satz aus verschiedenen Molekülen erzeugt;
- b) jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert;
- c) den Molekülsatz auf Punkten eines zweidimensio nalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskrip toren darstellt;
- d) über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitäts kriterium approximativ darstellt; und
- e) aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vor bestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.
2. Verfahren nach Anspruch 1, bei dem man in
Schritt d) die dreidimensionale Oberfläche dadurch
erstellt, daß man:
- a) als Anfangsbereich für die Approximation das gesamte zweidimensionale Gitter nimmt;
- b) auf vorbestimmten Gitterpunkten dieses Bereichs Moleküle auswählt und deren jeweilige Werte für die biologische Aktivität berechnet;
- c) die Oberfläche unter Verwendung der vorher bestimmten Werte für die biologische Aktivität der Moleküle auf den vorbestimmten Gitter punkten über diesen Bereich approximiert und
- d) bestimmt, ob die approximierte Oberfläche ein vorbestimmtes Qualitätskriterium erfüllt; wenn dies der Fall ist, geht man zu Schritt e); wenn dies nicht der Fall ist, verfeinert man die Approximation der Oberfläche durch Auswahl von Molekülen weiteren Gitterpunkten, Berechnung ihrer jeweiligen Werte für die biologische Aktivität und Wiederholung von Schritt dc) und diesem Schritt dd).
3. Verfahren nach Anspruch 1, bei dem man in
Schritt d) die dreidimensionale Oberfläche durch eine
Approximation von Dreiecken nach der Methode der
Delauney-Triangulierung erstellt.
4. Verfahren nach Anspruch 1, bei dem die
gewählten Kandidatenmoleküle für die chemische Synthese
geeignet sind.
5. Verfahren nach Anspruch 1, bei dem es sich bei
den von den Deskriptoren dargestellten molekularen
Eigenschaften um mindestens zwei der folgenden Eigen
schaften handelt:
- - Molekulargewicht,
- - Zahl der drehbaren Bindungen,
- - Zahl der hydrophoben Gruppen,
- - Zahl der hydrophilen Gruppen,
- - Zahl der sauren Gruppen,
- - Zahl der basischen Gruppen,
- - Zahl der neutralen Gruppen,
- - Zahl der Zwittergruppen,
- - Zahl der Schweratome,
- - Zahl der H-Bindungs-Donatoren,
- - Zahl der H-Bindungs-Akzeptoren,
- - Zahl der 1,2-Dipole,
- - Zahl der 1,3-Dipole,
- - Zahl der 1,4-Dipole.
6. Verfahren nach Anspruch 1, bei dem es sich bei
den von den Deskriptoren dargestellten molekularen
Eigenschaften um:
- - Molekulargewicht,
- - Zahl der drehbaren Bindungen,
- - Zahl der hydrophoben Gruppen,
- - Zahl der Schweratome,
- - Zahl der H-Bindungs-Donatoren,
- - Zahl der H-Bindungs-Akzeptoren
7. Verfahren nach Anspruch 1, bei dem es sich bei
den von den Deskriptoren dargestellten molekularen
Eigenschaften um mindestens zwei der folgenden Eigen
schaften handelt:
- - Molekulargewicht,
- - Zahl der drehbaren Bindungen,
- - Zahl der hydrophoben Gruppen,
- - Zahl der Schweratome,
- - Zahl der H-Bindungs-Donatoren,
- - Zahl der H-Bindungs-Akzeptoren.
8. Verfahren nach Anspruch 1, bei dem man die
Molekülkartierung mit selbstorganisierenden Karten in
einem neuronalen Netz oder mit statistischen Methoden
wie linearer Vektorquantisierung durchführt.
9. Verfahren nach einem der vorhergehenden
Ansprüche, bei dem man die Similaritätsbeziehung durch
ein metrisches Maß der von den Deskriptoren dargestell
ten molekularen Eigenschaften definiert.
10. Verfahren nach Anspruch 1, bei dem man zwischen
Schritt c) und d) die Moleküle auf dem Gitter derart
neu kartiert, daß kein Gitterpunkt von mehr als einem
Molekül besetzt ist, wobei die Similaritätsbeziehung
zwischen zwei Punkten jeweils gewahrt wird.
11. Verfahren nach Anspruch 1, bei dem man die
dreidimensionale Oberfläche durch rechnerische oder
experimentelle Identifizierung der biologischen
Aktivität erstellt.
12. Verfahren nach Anspruch 1, bei dem es sich bei
dem vorbestimmten Kriterium für die biologische
Aktivität um den Mindestwert der biologischen Aktivität
handelt.
13. Verfahren nach Anspruch 1, bei dem der Molekül
satz in einer computergestützten Datenbank gespeichert
wird.
14. Verfahren nach Anspruch 1, bei dem es sich bei
den vorbestimmten Positionen des Schritts db) um die
Eckpunkte des jeweiligen Bereichs handelt.
15. Verfahren nach Anspruch 3, bei dem das
Qualitätskriterium durch
wobei:
i: das jeweilige Dreieck,
j: die Eckpunkte des Dreiecks i,
f(j): den Wert für die biologische Aktivität des Punkts j,
∇i, ∇j: den Wert einer auf den Punkt i, j angewandten Gradientenoperation,
λ(i): die Oberfläche des Dreiecks i,
κ: ein Skalierfaktor und
#nb: die Zahl der Eckpunkte bedeutet,
definiert ist.
wobei:
i: das jeweilige Dreieck,
j: die Eckpunkte des Dreiecks i,
f(j): den Wert für die biologische Aktivität des Punkts j,
∇i, ∇j: den Wert einer auf den Punkt i, j angewandten Gradientenoperation,
λ(i): die Oberfläche des Dreiecks i,
κ: ein Skalierfaktor und
#nb: die Zahl der Eckpunkte bedeutet,
definiert ist.
16. Verfahren nach Anspruch 2, bei dem das Stop
kriterium durch die Summe über alle in einem Schritt
berechneten Werte des Qualitätskriteriums definiert
ist.
17. Verfahren nach Anspruch 2, bei dem das Stop
kriterium durch eine vorbestimmte Zahl von berechneten
Gitterpunkten definiert ist.
18. Verfahren nach Anspruch 1, bei dem man in
Schritt e) auf dem Gitter um jedes ausgewählte Molekül
die Werte für die biologische Aktivität einer vor
bestimmten Zahl von benachbarten Molekülen berechnet.
19. Verfahren nach Anspruch 1, bei dem man die
zugeordneten Punkte des 2-D-Gitters visualisiert,
20. Verfahren nach Anspruch 1, bei dem man die
erhaltenen 3-D-Oberflächen visualisiert.
21. Computersystem mit Mitteln zur Durchführung des
Verfahrens gemäß Anspruch 1.
22. Computersystem nach dem vorhergehenden Anspruch
mit Mitteln zur Verbindung mit einer den Molekülsatz
enthaltenden Datenbank.
23. Datenspeichermittel mit gespeichertem Programm
zur Durchführung des Verfahrens gemäß Anspruch 1.
24. Datenspeichermittel mit gespeicherter Daten
bank, die den Molekülsatz zur Verwendung bei dem
Verfahren gemäß Anspruch 1 enthält.
25. Programm zur Speicherung einer Datenbank, die
den Molekülsatz zur Verwendung bei dem Verfahren gemäß
Anspruch 1 enthält.
26. Datenbank zur Verwendung bei dem Verfahren
gemäß Anspruch 1.
27. Verfahren zur Herstellung von Molekülen nach
dem Verfahren gemäß Anspruch 1.
28. Verfahren nach Anspruch 27, das außerdem auch
noch einen Schritt f) umfaßt, bei dem man die
gefundenen Kandidatenmoleküle in einem geeigneten
biologischen Assay prüft.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/693,731 US6727100B1 (en) | 1999-10-21 | 2000-10-20 | Method of identifying candidate molecules |
EP00122333A EP1094415A3 (de) | 1999-10-21 | 2000-10-23 | Verfahren zur Identifizierung von Kandidatenmolekülen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US42230399A | 1999-10-21 | 1999-10-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10009479A1 true DE10009479A1 (de) | 2001-04-26 |
Family
ID=23674267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10009479A Withdrawn DE10009479A1 (de) | 1999-10-21 | 2000-02-29 | Verfahren zur Identifizierung von Kandidatenmolekülen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10009479A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017075559A1 (en) | 2015-10-30 | 2017-05-04 | E. I. Du Pont De Nemours And Company | Dihydroorotate dehydrogenase inhibitor compositions effective as herbicides |
-
2000
- 2000-02-29 DE DE10009479A patent/DE10009479A1/de not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017075559A1 (en) | 2015-10-30 | 2017-05-04 | E. I. Du Pont De Nemours And Company | Dihydroorotate dehydrogenase inhibitor compositions effective as herbicides |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19642651B4 (de) | Verfahren und Rechnersystem zur Erkennung konformationsflexibler Moleküle | |
EP0441810B1 (de) | Verfahren zur plazierung von modulen auf einem träger | |
DE202010017612U1 (de) | Verbesserter genetischer Algorithmus mit mehreren Zielen für die Bauteildesignoptimierung | |
DE3911465C2 (de) | Verfahren zur automatischen Konfiguration technischer Systeme aus Komponenten | |
EP0643289B1 (de) | Untersuchungsverfahren zur Auswertung ortsabhängiger Spektren | |
EP2854045B1 (de) | Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems | |
DE69824607T2 (de) | VERBESSERUNGEN AN ODER IN BEZIEHUNG ZU ÜBERWACHUNGs- UND ANANLYSE-SYSTEMEN | |
DE102021100149A1 (de) | Computerimplementiertes Verfahren zum Bereitstellen eines Test-Verlaufs zu testender Verkehrsszenarien | |
DE112021002061T5 (de) | Validierung der interpretierbarkeit von qsar- und qspr-modellen | |
EP1094415A2 (de) | Verfahren zur Identifizierung von Kandidatenmolekülen | |
DE102012025349B4 (de) | Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten | |
DE10009479A1 (de) | Verfahren zur Identifizierung von Kandidatenmolekülen | |
EP0700544A1 (de) | Verfahren und einrichtung zur raumfilterung | |
WO2012052106A1 (de) | Verfahren zur klassifizierung von mustern in bilddatensätzen | |
DE10134926A1 (de) | Vorrichtung und Verfahren zum Erzeugen eines Klassifikators für das automatische Sortieren von Objekten | |
DE112016007312T5 (de) | Netzwerk-bildungsvorrichtung und netzwerk-bildungsverfahren | |
DE102021108482A1 (de) | Zuweisung von Verarbeitungsthreads für Matrix-Matrix-Multiplikation | |
DE102021123576A1 (de) | Frühzeitiges stoppen von versuchen bei stapelweise erfolgender bayesscher optimierung in industrieprozessen | |
Raskin et al. | STATISTICAL PROCESSING OF A SMALL SAMPLE OF RAW DATA USING ARTIFICIAL ORTHOGONALISATION TECHNOLOGY. | |
DE202023103509U1 (de) | Ein System für beziehungsbasiertes neues K-Linien-Clustering | |
EP1451750B1 (de) | Verfahren zur identifikation von pharmakophoren | |
DE19849231C2 (de) | Verfahren zum Verifizieren der Synthese organischer Moleküle in der kombinatorischen Chemie | |
DE102014200158B4 (de) | Merkmalauswahl für eine effektive Epistase-Modellierung zur Phänotyp-Vorhersage | |
DE102020215979A1 (de) | Verfahren und Vorrichtung zum Zuordnen eines spezifischen Reagenz zu einem Reaktionsplatz | |
DE102023103743A1 (de) | Verfahren und system zum vorhersagen einer prozesssequenz für einen fahrzeugherstellungsprozess |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: 4SC AG, 82152 PLANEGG, DE |
|
8139 | Disposal/non-payment of the annual fee |