DE10009479A1

DE10009479A1 - Verfahren zur Identifizierung von Kandidatenmolekülen

Info

Publication number: DE10009479A1
Application number: DE10009479A
Authority: DE
Inventors: Daniel Vitt; Stefan Busemann; Ulrich Dauer
Original assignee: 4SC AG
Current assignee: 4SC AG
Priority date: 1999-10-21
Filing date: 2000-02-29
Publication date: 2001-04-26

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität, bei dem man: einen Satz aus verschiedenen Molekülen erzeugt, jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert; den Molekülsatz auf Punkten eines zweidimensionalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskriptoren darstellt; über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitätskriterium approximativ darstellt; und aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vorbestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität.

In der pharmazeutischen Wirkstoff-Forschung stellt die Evaluierung der Rezeptor- oder Targeteignung von Molekülen eine wichtige Aufgabe dar. Mit dem bei Wirkstoff-Findung im Lauf der letzten Jahre zunehmenden Einsatz von Automatisierungstechniken haben sich Verfahren wie das Hochdurchsatz-Screening (HTS, High Throughput Screening) und die Hochdurchsatz-Synthese in der pharmazeutischen Forschung zum Industriestandard entwickelt. Heutzutage kann man über 20.000 Moleküle pro Tag auf ihre biologischen Aktivitäten bei bestimmten Zielkrankheiten prüfen. Auch auf dem Gebiet der chemischen Synthese können mit Hilfe der kombinatorischen Chemie in Kombination mit Automatisie rungsverfahren hunderte von Molekülen pro Tag physisch zur Verfügung gestellt werden. Da ausgehend vom der zeitigen chemischen Wissen theoretisch mehr als 10¹⁰⁰ Moleküle synthetisiert und geprüft werden könnten und mehrere hunderttausend Moleküle im Handel erhältlich sind, wurden computergestütze Verfahren zur Auswahl von Untergruppen von Molekülen, die nun tatsächlich geprüft werden sollen, auf der Basis ihres prognostizierten biologischen Aktivitätspotentials für bestimmte Ziel krankheiten entwickelt.

Zwei Kategorien von computergestützten Verfahren dienen zur Auffindung (Auswahl und/oder Prioritisierung) von Molekülen aus Datensätzen von theoretisch verfügbaren Molekülen für die Prüfung der biologischen Aktivität. Die erste Kategorie umfaßt auf Diversität oder Similarität beruhende Auffindungs verfahren, wohingegen die zweite Kategorie auf der Struktur basierende Auffindungsverfahren umfaßt. Zur zweiten Kategorie gehören Datenbanksuchtechniken sowie (Q)SAR- und Docking-Verfahren.

Nur die (Q)SAR- und Docking-Verfahren berück sichtigen implizit Informationen bezüglich spezifischer Targets, entweder übliche Strukturmuster einer Reihe von aktiven Molekülen ((Q)SAR) oder die dreidimensio nale Struktur eines Targetproteins (Docking), und liefern daher die genauesten Ergebnisse. In der Praxis werden auf (Q)SAR oder Docking beruhende Verfahren auf kleinere Datensätze (bis zu 50.000 Sätze) angewandt, da sie eine verhältnismäßig hohe Rechenleistung erfordern. Wenngleich die Geschwindigkeit mit Parallelrechen techniken gesteigert werden kann, sind Datensätze aus mehr als 10⁶ Molekülen hinsichtlich ihrer biologischen Aktivität immer noch nicht in einem vertretbaren zeit lichen Rahmen prognostizierbar.

Der Begriff biologische Aktivität umfaßt im folgenden insbesondere pharmazeutische sowie agro chemische Aktivität bezüglich eines bestimmten Rezep tors oder Targets.

Die Suche nach Kandidatenmolekülen umfaßt auch die Suche nach Leitverbindungen.

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein auf Molekülbibliotheken mit großen Datenmengen anwendbares und in vertretbarer Zeit Ergebnisse lieferndes Verfahren und System zur Auffindung von Kandidatenmolekülen mit erwarteter bio logischer Aktivität bereitzustellen.

Diese Aufgabe wird mit dem Verfahren und dem System gemäß den unabhängigen Ansprüchen gelöst. Vorteilhafte Ausführungsformen sind in den Unter ansprüchen definiert.

Erfindungsgemäß geht man bei dem Verfahren zur Identifizierung von Kandidatenmolekülen mit erwarteter biologischer Aktivität so vor, daß man:

a) einen Satz aus verschiedenen Molekülen erzeugt;
b) jedem der Moleküle des Satzes einen Deskriptor zuordnet, der eine vorbestimmte Zahl von molekularen Eigenschaften repräsentiert;
c) den Molekülsatz auf Punkten eines zweidimensio nalen Gitters hinsichtlich einer vorbestimmten Similaritätsbeziehung der jeweils zugeordneten Deskriptoren so kartiert, daß der Gitterabstand zwischen Gitterpunkten zweier Moleküle ein Maß für die Similarität der beiden Moleküldeskrip toren darstellt;
d) über dem Molekülgitter eine dreidimensionale Oberfläche erstellt, die die Verteilung der biologischen Aktivität der Moleküle auf dem Gitter gemäß einem vorbestimmten Qualitäts kriterium approximativ darstellt; und
e) aus der dreidimensionalen Oberfläche Kandidatenmoleküle auswählt, die ein vor bestimmtes Kriterium hinsichtlich ihrer biologischen Aktivität erfüllen.

Erfindungsgemäß kann man in Schritt d) die dreidimensionale Oberfläche dadurch erstellen, daß man:

a) als Anfangsbereich für die Approximation das gesamte zweidimensionale Gitter nimmt;
b) auf vorbestimmten Gitterpunkten dieses Bereichs Moleküle auswählt und deren jeweilige Werte für die biologische Aktivität berechnet;
c) die Oberfläche unter Verwendung der vorher bestimmten Werte für die biologische Aktivität der Moleküle auf den vorbestimmten Gitter punkten über diesen Bereich approximiert und
d) bestimmt, ob die approximierte Oberfläche ein vorbestimmtes Qualitätskriterium erfüllt; wenn dies der Fall ist, geht man zu Schritt e); wenn dies nicht der Fall ist, verfeinert man die Approximation der Oberfläche durch Auswahl von Molekülen auf weiteren Gitterpunkten, Berech nung ihrer jeweiligen Werte für die biologische Aktivität und Wiederholung von Schritt dc) und diesem Schritt dd).

Die Erstellung der dreidimensionalen Oberfläche in Schritt d) erfolgt vorzugsweise durch eine Approximation nach der Methode der Delauney- Triangulierung.

Das erfindungsgemäße Verfahren besteht somit aus der Durchführung von zwei Hauptschritten. Im ersten Schritt werden die Moleküle der Similarität ihrer Deskriptoren entsprechend sortiert und auf einem 2-D- Gitter kartiert. Im zweiten Schritt wird die biologische Aktivität der kartierten Moleküle durch Modellierung der Verteilung als Oberfläche über die Molekülkarte approximiert. Aus der Oberfläche kann man geeignete Kandidatenmoleküle für die weitere Evaluie rung bestimmen. Erfindungsgemäß muß nur eine kleine Molekülmenge im Datensatz tatsächlich berechnet werden. Dadurch ergibt sich eine beträchtliche Steigerung der Leistungsfähigkeit. Die rekursive Vorgehensweise ermöglicht die Untersuchung der Datenbank auf Basis von speziell anpaßbaren Qualitätskriterien. Fehler- und Qualitätskriterien für die Analyse können genau auf ein gegebenes Problem abgestellt werden. Parallel dazu können leicht Docking-Simulationen von Molekülsammlun gen durchgeführt werden, was zu einer weiteren Leistungssteigerung führt.

Somit überträgt das erfindungsgemäße Verfahren prognostizierte/gemessene biologische Aktivität in topographische Informationen auf einer drei dimensionalen Oberfläche, die unter Verwendung von Approximationsalgorithmen iterativ analysiert wird. Eine gründliche Analyse erfolgt nur in denjenigen Bereiche der Oberfläche, die Bereichen hoher biologischer Aktivität darstellen, wohingegen die Bereiche mit niedrigen Bindungsenergien für eine gegebene Proteinbindungsstelle nur durch wenige Datenpunkte approximiert werden. Wie Beispiele gezeigt haben, kann man somit durch explizite Berech nung/Vermessung von nur 4-6% der Moleküle im Datensatz aktive Moleküle aus Datensätzen identifizieren.

Mit dem erfindungsgemäßen Verfahren kann man Wirkstoff-Leitkandidaten identifizieren, ohne große Molekülsätze physisch zur Verfügung stellen und prüfen zu müssen.

Die gewählten Kandidatenmoleküle sind für die chemische Synthese geeignet.

Vorzugsweise handelt es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um mindestens zwei der folgenden Eigenschaften:

- Molekulargewicht,
- Zahl der drehbaren Bindungen,
- Zahl der hydrophoben Gruppen,
- Zahl der hydrophilen Gruppen,
- Zahl der sauren Gruppen,
- Zahl der basischen Gruppen,
- Zahl der neutralen Gruppen,
- Zahl der Zwittergruppen,
- Zahl der Schweratome,
- Zahl der H-Bindungs-Donatoren,
- Zahl der H-Bindungs-Akzeptoren,
- Zahl der 1,2-Dipole,
- Zahl der 1,3-Dipole,
- Zahl der 1,4-Dipole.

Die Molekülkartierung erfolgt vorzugsweise mit selbstorganisierenden Karten in einem neuronalen Netz oder mit statistischen Methoden wie linearer Vektor quantisierung.

Einen weiteren Gegenstand der Erfindung bildet ein Computersystem mit Mitteln zur Durchführung des Identifizierungsverfahrens, Mitteln zur Eingabe von Systembefehlen und Mitteln zur Ausgabe des Ergebnisses der Durchführung des Verfahrens.

Die Erfindung und Beispiele dafür werden nun anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:

Fig. 1 den hier verwendeten Deskriptortyp,

Fig. 2 die sich aus einem Molekülsortierschritt ergebende Verteilung,

Fig. 3 den Entclusterungsschritt,

Fig. 4 die sich aus der Entclusterung ergebende Verteilung,

Fig. 5 vier Zwischenschritte der Approximation einer Oberfläche durch Delauney-Triangulierung und

Fig. 6 die abschließende Approximation der Oberfläche durch Delauney-Triangulierung.

Das erfindungsgemäße Verfahren wird anhand des Beispiels der Auffindung von Inhibitoren von Dihydro folatreductase (PDB-Code: 4 dfr) erläutert.

Erfindungsgemäß wird vor der Evaluierung von speziellen Molekülen die sogenannte virtuelle Biblio thek erzeugt, die alle möglichen Moleküle enthält. Das bedeutet, daß die virtuelle Molekülbibliothek Moleküle, die mit vertretbaren Kosten käuflich erworben oder hergestellt werden können und handelsübliche Moleküle oder mittels kombinatorischer Synthese herstellbare Moleküle enthält. Nicht enthalten sind die Moleküle, die von vornherein für die Wirkstoffsynthese ungeeignet sind, insbesondere Moleküle mit toxischen Gruppen, einem Molekulargewicht von mehr als 500 u oder mehr als 5 Donatoren oder einem log-P-Wert von mehr als 5. Die Bibliothek wird in einer Computerdatenbank gespeichert.

In diesem Beispiel enthält die Datenbank 2000 Moleküle. Jedes der Moleküle wird durch 2-D-Struktur daten in maschinenlesbarer Form dargestellt.

Bei der Speicherung der Moleküle in der Biblio thek wird jedem Molekül in der Bibliothek ein Deskrip tor zugeordnet, der mit der biologischen Aktivität des jeweiligen Moleküls in Relation steht. Bei dem Deskrip tor handelt es sich um einen Vektor mehrerer skalarer molekularer Eigenschaften. Dieser Vektor umfaßt die folgenden Werte:

- Molekulargewicht,
- Zahl der drehbaren Bindungen,
- Zahl der hydrophoben Gruppen,
- Zahl der Schweratome,
- Zahl der H-Bindungs-Donatoren,
- Zahl der H-Bindungs-Akzeptoren.

Zur Durchführung einer Vorauswahl von Molekülen kann man Werte verwenden, die wirtschaftliche oder technische Aspekte abdecken, wie z. B. Verfügbarkeit und Herstellungskosten von Molekülen.

Fig. 1 zeigt vier Datenströme (die vier Mole küle beschreiben) des hier verwendeten Deskriptors. Die ersten Zeilen geben die Dimension des Deskriptors an, die zweiten bis fünften Zeilen geben die Moleküle an, und die letzte Spalte enthält die Identifizierung der entsprechenden Moleküle.

Die Deskriptoren sind auf die weitere Verarbei tung der Molekülbibliothek zwecks Auffindung der Molekülkandidaten für die Wirkstoffsynthese ausgelegt. Um eine weitere Verarbeitung zu ermöglichen, haben die für die Moleküle der Datenbank gewählten Desktiptoren alle die gleiche Dimension.

Im nächsten Schritt werden die Moleküle dieser Bibliothek ihrer Similarität hinsichtlich potentieller Ligand-Rezeptor-Aktivität entsprechend sortiert. Dies geschieht durch Kartieren der Moleküle auf einem zwei dimensionalen Gitter, wobei die Similarität der Mole küle miteinander durch die Abstände ihrer Positionen auf dem Gitter dargestellt wird. Die Bestimmung der Similarität erfolgt durch Evaluierung der Deskriptoren der Moleküle. Die Sortierung basiert auf einem neurona len Netz vom Typ der selbstorganisierenden Karte nach Kohonen. Selbstorganisierende Karten eignen sich gut, da sich herausgestellt hat, daß sie selbst bei Auftreten von linearen Abhängigkeiten in den Daten höherdimensionale Probleme auf niedrigere Dimensionen projizieren können.

Das Sortieren wird folgendermaßen durchgeführt: Zunächst werden alle Moleküle willkürlich auf das Gitter gesetzt. Das Gitter muß groß genug sein, um alle Moleküle der Datenbank aufzunehmen. Während der Lernphasen des neuronalen Netzes werden die Moleküle über das Gitter verschoben, um sie bezüglich ihrer Similarität zu ordnen. Hierbei werden drei Lernphasen angewandt. In der ersten Lernphase ist die Verschiebung auf einen Gitterradius von etwa 1/10 der Höchstzahl der Gitterpunkte in einer Richtung beschränkt, wobei die Konvergenz 0,3 beträgt. In der zweiten Lernphase beläuft sich der Radius auf einen Gitterpunkt und die Konvergenz auf 0,2; in der dritten Lernphase beläuft sich der Radius auf 0,5 und die Konvergenz auf 0,2. Der Gitterradius und die Konvergenz können selbstverständ lich auf das konkrete Problem abgestellt werden.

Als Ergebnis der Sortierung ergibt sich eine Molekülverteilung über das Gitter, bei der ein Gitter punkt von mehreren Molekülen besetzt sein kann, wohingegen andere Gitterpunkte frei bleiben können. Fig. 2 zeigt die nach drei Lernphasen erhaltene Karte.

Wenngleich eine derartige unregelmäßige Besetzung der Molekülkarte die weitere Verarbeitung der Molekülkarte eigentlich nicht behindert, wird die Molekülkarte entclustert, d. h. Moleküle, die mit anderen zusammen auf dem gleichen Gitterpunkt liegen, werden auf freie Gitterpunkte in der näheren Umgebung gesetzt. Hierzu führt man nach folgendem Schema eine Suche nach einem freien Gitterpunkt durch (siehe Fig. 3): Die Suche beginnt an einem der vier direkt angrenzenden Gitterpunkte (oberer, unterer, linker, rechter Gitterpunkt). Der erste dieser Punkte wird nach dem Zufallsprinzip ausgewählt. Das Molekül wird auf diesen Punkt gesetzt, wobei es keine Rolle spielt, ob der Punkt frei ist oder nicht. Wenn der Punkt vorher frei war, wird die Suche erfolgreich beendet. War der Punkt dagegen vorher besetzt, so wird die Suche mit den nächsten drei angrenzenden Gitterpunkten fortgesetzt. Wird kein freier Punkt gefunden, so werden die vier diagonalen Nachbarn (an den Ecken) untersucht. Ist auch dort kein freier Punkt vorhanden, so verbleibt das betreffende Molekül an dem Ort, an den es gesetzt wurde, d. h. auf dem ersten der angrenzenden Gitterpunkte. Für den Punkt, der sich ursprünglich an dieser Stelle befand, wird die gleiche Suche durchgeführt. Wenn nach einer vorbestimmten Anzahl n von Iterationen ein Molekül übrig bleibt, so wird dieses Molekül verworfen. Es wurde jedoch empirisch gefunden, daß schon mit n = 4 keine Moleküle zu verwerfen sind.

Es sei darauf hingewiesen, daß die Grenze des Gitters als besetzte Punkte angenommen wird. Wird ein Grenzpunkt erreicht, so wird die Suche fortgesetzt, bis sie sich wieder im Gitterbereich befindet.

Als Ergebnis dieses Schritts ergibt sich eine Molekülverteilung über das Gitter, bei der kein Gitter punkt von mehr als einem Molekül besetzt ist. Fig. 4 zeigt die resultierende Verteilung. Es sei außerdem darauf hingewiesen, daß bei dieser Entclusterungs methode die Nachbarschaftsbeziehungen zwischen den Molekülen gewahrt bleiben.

Bis hierher ist das erfindungsgemäße Verfahren nicht speziell für einen bestimmten Rezeptor oder ein bestimmtes Target ausgelegt. Die folgenden Schritte sind jedoch für den Rezeptor oder das Target spezi fisch. Es sei daran erinnert, daß die Kandidatenmole küle mit der höchsten biologischen Aktivität hinsicht lich des Rezeptors oder Targets gefunden werden sollen. Die biologische Aktivität eines Moleküls kann auf vielen verschiedenen Wegen bestimmt werden, nämlich durch Berechnungen, Simulationen oder Versuche.

Da die Bestimmung der biologischen Aktivität aller Moleküle im Gitter zu zeitaufwendig wäre, muß eine Strategie zur Verringerung der Zahl der möglichen Kandidaten für die weitere Evaluierung angewandt werden. Dabei besteht die Schlüsselidee darin, daß benachbarte Moleküle auf dem Gitter aufgrund ihrer ähnlichen Eigenschaften (wie sie durch die Deskriptoren ausgedrückt werden) ähnliche Werte für die biologische Aktivität aufweisen. Es sei jedoch darauf hingewiesen, daß konkrete Werte für die biologische Aktivität nicht direkt aus den Deskriptoren bekannt sind. Diese Werte müssen nach den oben aufgeführten (sehr zeitaufwendi gen) Methoden bestimmt werden.

Der geradlinigste Weg zur Suche der Moleküle mit den höchsten Werten für die biologische Aktivität über die Molekülverteilung hinweg bestünde in der Berechnung aller Werte des Molekülgitters. Eine derartige erschöpfende Herangehensweise wäre jedoch viel zu zeitaufwendig. Daher muß eine approximative Modellierung der Oberfläche durchgeführt werden.

Bei einer approximativen Modellierung der Oberfläche durch Bestimmung der Aktivitätswerte von Molekülen auf Gitterpunkten, die sich auf dem gesamten Gitter in regelmäßigem Abstand befinden, liefe man Gefahr, einige interessante Minimal- oder Maximalwerte zu übergehen.

Daher wird eine adaptive Suche durchgeführt, bei der interessante Bereiche des Gitters genauer evaluiert werden als andere Gitterbereiche.

Die Verteilung der biologischen Aktivität über das Molekülgitter wird als 3-D-Oberfläche modelliert, die die biologische Aktivität der Moleküle über das Gitter darstellt. Das Problem der Auffindung von geeig neten Molekülen wird in das Problem der Auffindung der Gitterpunkte (d. h. der Moleküle) mit den höchsten Werten für die biologische Aktivität transformiert.

Für die Approximation der Oberfläche der biologischen Aktivität hat sich die Methode der Delauney-Triangulierung als am besten geeignet erwiesen. Hierbei erfolgt die Approximation einer Ober fläche durch iterative Zerlegung in Dreiecke, wobei die Zahl der Iterationen in stärker geformten Bereichen, d. h. Bereichen mit größeren Aktivitätswert-Differenzen, erhöht wird.

Zunächst werden die Aktivitätswerte für die vier Eckpunkte des Gitters berechnet. Auf der Basis dieser vier Punkte wird die Oberfläche durch zwei Dreiecke approximiert (d. h. zerlegt). Für jedes der erhaltenen Dreiecke wird ein Qualitätskriterium berech net, das die Qualität der Approximation der Oberfläche durch das betreffende Dreieck definiert. Es hat sich herausgestellt, daß als Qualitätskriterium der folgende Ausdruck geeignet ist:

Das Qualitätskriterium DF(i) ist proportional zur Summe aller Gradientenwerte ∇_i, ∇_j an den Eckpunkten i, j und zum Mittelwert der Funktionswerte f(j) über die Zahl der Eckpunkte #nb_i des jeweiligen Dreiecks i. Außerdem ist das Qualitätskriterium umgekehrt proportional zur Oberfläche λ(i) dieses Dreiecks. Der Faktor κ ist ein Skalierfaktor, der je nach den Anforderungen für die Darstellung der Oberfläche bestimmt wird. Somit führt die Verwendung dieses Qualitätskriteriums zu einer besseren Zerlegung von Bereichen, die Moleküle mit großen Aktivitätsdifferenzen enthalten. Da die Ober fläche der Dreiecke berücksichtigt wird, werden große Dreiecke selbst dann behandelt, wenn sie keine Moleküle mit besonders großen Aktivitätsdifferenzen enthalten.

Als weiterer Gitterpunkt, dessen Aktivität berechnet wird, wird der Schwerpunkt des Dreiecks mit dem schlechtesten Qualitätsfaktor (entsprechend dem Gitterbereich unter der Oberfläche mit den größen Aktivitätsänderungen) gewählt. Auf der Basis dieses berechneten Punkts und aller zuvor berechneten Punkte wird eine neue Zerlegung der gesamten Gitteroberfläche in Dreiecke durchgeführt. Wiederum wird für jedes Dreieck der jeweilige Qualitätsfaktor berechnet, um einen weiteren Berechnungspunkt für die Verfeinerung der Zerlegung auszuwählen.

Dieser Schritt wird iterativ durchgeführt. Fig. 5 zeigt die jeweilige Zerlegung für vier Iterations schritte, nämlich 15, 25, 50 und 80 berechnete Molekül gitterpunkte. Die Iteration wird beendet, wenn die Zerlegung genau genug geworden ist, d. h. wenn ein vorbestimmtes Stopkriterium, z. B. bei Berechnung von 5% aller Gitterpunkte, erreicht ist oder die allgemeine Fehlerfunktion (Summe aller Qualitätsfaktoren) einen vorbestimmten Schwellenwert erreicht. Die Gitter oberfläche kann dann als bezüglich der interessanten Bereiche des Gitters, d. h. der Bereiche mit Gitter punkten mit den höchsten Werten für die biologische Aktivität, als optimal approximiert erachtet werden, wie in Fig. 6 zu sehen ist.

Im letzten Schritt werden dann alle Moleküle innerhalb eines vorbestimmten Radius um die Gitter punkte mit der höchsten biologischen Aktivität explizit evaluiert.

Bei allen diesen Punkten handelt es sich um die resultierenden, als Kandidaten für die weitere pharma zeutische Forschung identifizierten Moleküle.

Durch Anwendung dieses Verfahrens können im Vergleich zu einer erschöpfenden Evaluierung mindestens 94% Rechenzeit eingespart werden. Außerdem werden infolge des Vorsortierungsschritts praktisch in jedem Fall die optimalen Kandidatenmoleküle gefunden.

Die identifizierten Moleküle können in geeigne ten biologischen Assays geprüft werden, beispielsweise gemäß R. Bolger, "High-throughput screening: new frontiers for the 21^st century", veröffentlicht in DDT, Band 4, Nr. 6, S. 251-253, Juni 1999, oder J. S. Major, "Challenges of high throughput screening against cell surface receptors", J. of Receptor and Signal Trans duction Research, 15(1-4), S. 595-607. 1995).

Claims

1. Verfahren zur Identifizierung von Kandidaten molekülen mit erwarteter biologischer Aktivität, bei dem man:

2. Verfahren nach Anspruch 1, bei dem man in Schritt d) die dreidimensionale Oberfläche dadurch erstellt, daß man:

a) als Anfangsbereich für die Approximation das gesamte zweidimensionale Gitter nimmt;
b) auf vorbestimmten Gitterpunkten dieses Bereichs Moleküle auswählt und deren jeweilige Werte für die biologische Aktivität berechnet;
c) die Oberfläche unter Verwendung der vorher bestimmten Werte für die biologische Aktivität der Moleküle auf den vorbestimmten Gitter punkten über diesen Bereich approximiert und
d) bestimmt, ob die approximierte Oberfläche ein vorbestimmtes Qualitätskriterium erfüllt; wenn dies der Fall ist, geht man zu Schritt e); wenn dies nicht der Fall ist, verfeinert man die Approximation der Oberfläche durch Auswahl von Molekülen weiteren Gitterpunkten, Berechnung ihrer jeweiligen Werte für die biologische Aktivität und Wiederholung von Schritt dc) und diesem Schritt dd).

3. Verfahren nach Anspruch 1, bei dem man in Schritt d) die dreidimensionale Oberfläche durch eine Approximation von Dreiecken nach der Methode der Delauney-Triangulierung erstellt.

4. Verfahren nach Anspruch 1, bei dem die gewählten Kandidatenmoleküle für die chemische Synthese geeignet sind.

5. Verfahren nach Anspruch 1, bei dem es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um mindestens zwei der folgenden Eigen schaften handelt:

6. Verfahren nach Anspruch 1, bei dem es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um:

- Molekulargewicht,
- Zahl der drehbaren Bindungen,
- Zahl der hydrophoben Gruppen,
- Zahl der Schweratome,
- Zahl der H-Bindungs-Donatoren,
- Zahl der H-Bindungs-Akzeptoren

handelt.

7. Verfahren nach Anspruch 1, bei dem es sich bei den von den Deskriptoren dargestellten molekularen Eigenschaften um mindestens zwei der folgenden Eigen schaften handelt:

8. Verfahren nach Anspruch 1, bei dem man die Molekülkartierung mit selbstorganisierenden Karten in einem neuronalen Netz oder mit statistischen Methoden wie linearer Vektorquantisierung durchführt.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem man die Similaritätsbeziehung durch ein metrisches Maß der von den Deskriptoren dargestell ten molekularen Eigenschaften definiert.

10. Verfahren nach Anspruch 1, bei dem man zwischen Schritt c) und d) die Moleküle auf dem Gitter derart neu kartiert, daß kein Gitterpunkt von mehr als einem Molekül besetzt ist, wobei die Similaritätsbeziehung zwischen zwei Punkten jeweils gewahrt wird.

11. Verfahren nach Anspruch 1, bei dem man die dreidimensionale Oberfläche durch rechnerische oder experimentelle Identifizierung der biologischen Aktivität erstellt.

12. Verfahren nach Anspruch 1, bei dem es sich bei dem vorbestimmten Kriterium für die biologische Aktivität um den Mindestwert der biologischen Aktivität handelt.

13. Verfahren nach Anspruch 1, bei dem der Molekül satz in einer computergestützten Datenbank gespeichert wird.

14. Verfahren nach Anspruch 1, bei dem es sich bei den vorbestimmten Positionen des Schritts db) um die Eckpunkte des jeweiligen Bereichs handelt.

15. Verfahren nach Anspruch 3, bei dem das Qualitätskriterium durch
wobei:
i: das jeweilige Dreieck,
j: die Eckpunkte des Dreiecks i,
f(j): den Wert für die biologische Aktivität des Punkts j,
∇_i, ∇_j: den Wert einer auf den Punkt i, j angewandten Gradientenoperation,
λ(i): die Oberfläche des Dreiecks i,
κ: ein Skalierfaktor und
#nb: die Zahl der Eckpunkte bedeutet,
definiert ist.

16. Verfahren nach Anspruch 2, bei dem das Stop kriterium durch die Summe über alle in einem Schritt berechneten Werte des Qualitätskriteriums definiert ist.

17. Verfahren nach Anspruch 2, bei dem das Stop kriterium durch eine vorbestimmte Zahl von berechneten Gitterpunkten definiert ist.

18. Verfahren nach Anspruch 1, bei dem man in Schritt e) auf dem Gitter um jedes ausgewählte Molekül die Werte für die biologische Aktivität einer vor bestimmten Zahl von benachbarten Molekülen berechnet.

19. Verfahren nach Anspruch 1, bei dem man die zugeordneten Punkte des 2-D-Gitters visualisiert,

20. Verfahren nach Anspruch 1, bei dem man die erhaltenen 3-D-Oberflächen visualisiert.

21. Computersystem mit Mitteln zur Durchführung des Verfahrens gemäß Anspruch 1.

22. Computersystem nach dem vorhergehenden Anspruch mit Mitteln zur Verbindung mit einer den Molekülsatz enthaltenden Datenbank.

23. Datenspeichermittel mit gespeichertem Programm zur Durchführung des Verfahrens gemäß Anspruch 1.

24. Datenspeichermittel mit gespeicherter Daten bank, die den Molekülsatz zur Verwendung bei dem Verfahren gemäß Anspruch 1 enthält.

25. Programm zur Speicherung einer Datenbank, die den Molekülsatz zur Verwendung bei dem Verfahren gemäß Anspruch 1 enthält.

26. Datenbank zur Verwendung bei dem Verfahren gemäß Anspruch 1.

27. Verfahren zur Herstellung von Molekülen nach dem Verfahren gemäß Anspruch 1.

28. Verfahren nach Anspruch 27, das außerdem auch noch einen Schritt f) umfaßt, bei dem man die gefundenen Kandidatenmoleküle in einem geeigneten biologischen Assay prüft.