DE69125399T2

DE69125399T2 - Vergleichende molekulare feldanalyse

Info

Publication number: DE69125399T2
Application number: DE69125399T
Authority: DE
Inventors: Richard D Cramer Iii; Svante B Wold
Original assignee: Tripos Associates Inc
Current assignee: Tripos Associates Inc
Priority date: 1991-06-17
Filing date: 1991-06-17
Publication date: 1997-10-23
Anticipated expiration: 2011-06-18
Also published as: EP0592421A4; US5307287A; DK0592421T3; JPH06503908A; DE592421T1; EP0592421A1; DE69125399D1; GB9315049D0; US5025388A; GB2266391A; WO1992022875A1; EP0592421B1

Description

Sachgebiet

Die Erfindung bezieht sich auf ein Verfahren zum dreidimensionalen Vergleichen der sterischen und elektrostatischen Felder, die von Molekülen mit ähnlichen Bindungs-Affinitäten zu einem gemeinschaftlichen Molekül ausgehen, und zum Gewinnen der wichtigsten, den beobachteten Unterschieden der Bindungs-Affinitäten unter diesen Molekülen entsprechenden Topologie-Merkmale durch Kreuz- Korrelation der Felder. Das Verfahren ist insbesondere nützlich für das Verständnis von Struktur- bzw. Funktions-Zusammenhängen in der Biochemie.

Stand der Technik

In den letzten drei Jahrzehnten hat die moderne Biologie die Bedeutung dreidimensionaler Konformationen bzw. Formen biologischer Moleküle hinsichtlich deren beobachteter Funktion und Aktivität erkannt. Beginnend mit der ersten Identifizierung von Alpha-Helix-Strukturen bei Proteinen über die Erkennung der DNA-Struktur als wasserstoffgebundene verdrillte Doppelhelix bis zu neueren Röntgen-Kristallstruktur-Untersuchungen von Enzym-Substrat-Komplexen hat man die Rolle der Gestalt als bestimmendem Faktor immer besser einzuschätzen gelernt. Tatsächlich weiß man jetzt, daß eine richtige Beschreibung und Erkenntnis der Funktionsweise der meisten biologischen Makromoleküle von der Kenntnis ihrer dreidimensionalen Gestalt abhängt. Oft wird die Lage mit einem dreidimensionalen Mosaikspiel (Puzzle) verglichen, dessen zueinander passende Teile in spezifischen Mustern dreidimensional verrasten. Es ist jetzt anerkannt, daß die Bindung eines Molekularsubstrats an ein Enzym von der Fähigkeit des Substrats bestimmt wird, eine Kerbe/Nut/Höhlung im Enzym derart auszufüllen, daß das Substrat sowohl mechanisch als auch chemisch in korrekter dreidimensionaler und termodynamischer Orientierung stabilisiert wird, um die katalytische Reaktion zu unterstützen. Ähnlich hat man schon lange festgestellt, daß die ganz spezifische Bindung von Antikörpern an Antigene dadurch zustandekommt, daß die speziellen Oberflächen-Formmerkmale des Antigenmoleküls vom Antikörper erkannt werden.
Nicht nur für Basis-Erkenntnisse in der Enzymologie, Immunologie und Biochemie ist das Verständnis der dreidimensionalen Puzzles wichtig; vielmehr sind solche Untersuchungen auch für Pharmazeutik-Forscher von großem Interesse. Die meisten Wirkungen von Heilmitteln entstehen durch die Bindung eines Medikaments an ein Empfängermolekül (Rezeptor). In dem Maße, wie die Natur der Bindung besser verstanden wird, sollte es möglich sein, Arzneimittel zu schaffen, die an ihren Empfängermolekülen mit größerer Genauigkeit und Wirksamkeit andocken, als das selbst natürlich vorkommende Stoffe tun. Diese Therapiemittel- Suche ist vor allem in der Krebsforschung bedeutsam, wo generalisierte Nebenwirkungen vieler Medikamente auszuschließen und spezielle Wechselwirkungen herbeizuführen sind.
Die Anerkennung der Wichtigkeit der dreidimensionalen Stereo-Konformation von Biomolekülen ging einher mit der Erkenntnis, wie schwierig zu verstehen ist, welchen Zusammenhang die Konformation von Molekülen mit deren Aktivität hat. Zur Zeit ist die Röntgen-Kristallstruktur-Untersuchung das einzige bekannte Verfahren, um die dreidimensionale Gestalt irgendeines Biomoleküls genau zu bestimmen. Wenn auch die Zahl der Biomoleküle, deren Struktur kristallographisch mit Erfolg entschlüsselt wurde, rasch ansteigt, ist die Gesamtzahl doch recht klein; noch seltener ist die Untersuchung von Kristallformen zusammen mit ihren gebundenen Substraten bzw. Liganden. Bei den wenigen Liganden-Biomolekül-Kombinationen, die mittels Röntgen-Kristallstruktur-Untersuchungen erfolgreich analysiert wurden, bleibt die Frage offen, ob der Komplex in Lösung eine andere Konformations-Kombination hätte als in dem für die Analyse benutzten kristallinen Zustand; allerdings deuten die Befunde darauf, daß kein großer Unterschied besteht.
Man sieht, daß die Untersuchung der dreidimensionalen Konformation bzw. Form von Molekülen eine der Kernfragen in der modernen Molekularbiologie und Biophysik ist. In den letzten Jahren sind keine grundlegenden Fortschritte in der verfügbaren Meßtechnik hinzugekommen, abgesehen vielleicht von der in absehbarer Zukunft bevorstehenden Einführung kohärenter Röntgen-Laser, welche die dreidimensionale Abbildung biologischer Makromoleküle stark erleichtern können. Auch jüngere Fortschritte bei der Proteinsequenz-Bestimmung entweder durch direkte Sequenzanalyse der Proteine oder durch Sequenzanalyse der DNA-Molekül-Vorstufen waren für die Aufklärung der dreidimensionalen Strukturen wenig hilfreich, weil man bald entdeckte, daß - wegen der hochgradig verfalteten Proteinstruktur - Aminosäuren-Seitenketten von ganz verschiedenen Abschnitten eines Proteins zur Konformation des Rezeptors bzw. der Bindungsstelle beitragen. Ähnliche Betrachtungen gelten bezüglich der Antikörperbildung Erst vor einiger Zeit wurde auf der Grundlage der bekannten Aminosäuren-Sequenz eines Proteins ein Vorschlag für das Verständnis der Einleitung von Alpha-Helices gemacht, eventuell die einfachste Tertiär-Protein-Struktur (siehe L. G. Presta / G. D. Rose, Science 1988, 240, 1632).
In Anbetracht der schwierigen und zeitaufwendigen Röntgen-Kristallstruktur- Untersuchungen von Biomolekülen hat man in der Forschung alternative - wenn auch weniger genaue - Wege zur Gewinnung von informationen über die stereochemische Molekülbindung gesucht. Experimental-Chemiker wandten einen Auslegungs-Ansatz chemischer Grundregeln an, um die wahrscheinlichen Bindungs-Stellen von Substraten zu analysieren. Durch Untersuchung des chemischen Aufbaues verschiedener Liganden, deren Bindungsfähigkeit an ein bestimmtes Protein bekannt ist, kamen Chemiker unter Stützung auf verallgemeinerte chemische und stereochemische Theorie-Ansätze zu fundierten Vermutungen, welche Teile des Substrats bzw. Liganden am wahrscheinlichsten mit der Bindung an das Protein zu tun haben können. Aufgrund dieser fundierten Vermutungen wurden neue Verbindungen mit prognostizierten Reaktionsstellen synthetisiert. Die Bindungs-Affinität der neuen Substrate zu dem gewünschten Protein wurden gemessen. Durch diese empirische Methode ist ein gewisses Maß an besserem Verständnis der stereochemischen Bindung erzielt worden, aber Versager waren viel häufiger als Erfolge. Zwar ist das Programm rational, doch geht es im Kern um Ausprobieren, das nicht zu einem systematischen Vorgehen für das Auffinden oder Konstruieren neuer Moleküle mit den gewünschten Bindungs-Affinitäten führt.
Im Laufe der Jahre hat man versucht, das Verständnis stereochemischer Wechselwirkungen von Biomolekülen und die Entwicklung neuer Substratmoleküle quantitativer zu untermauern. Diese Arbeiten zeigen das Bestreben, Strukturunterschiede ähnlicher Substratmoleküle systematisch mit den Unterschieden ihrer beobachteten biologischen Aktivität in Verbindung zu bringen. So sucht man eine "Struktur-Aktivitäts-Beziehung" (Structure Activity Relationship, SAR) jeweils für eine gegebene Klasse von Substraten bzw. Liganden zu ermitteln. Soweit man jetzt zu einer Quantifizierung gelangt ist, nennt man diese Zusammenhänge jetzt "quantitative Struktur-Aktivitäts-Beziehung", (Quantitative Structure Activity Relationships, QSAR). Allgemein trachtet man, den durch eine QSAR formulierte Zusammenhang in einfachste Form zu bringen, nämlich in eine Linearkombination von Elementen. Der biologische Meßwert V soll durch eine Term-Reihe (A, B, C usw.) als Linearkombination ausgedrückt werden: V = A + B + C +... Die QSAR- Methode kann dazu dienen, viele Molekül-Werte bzw. -Eigenschaften in Zusammenhänge zu bringen, die irgendwie auf die Struktur hinweisen, z.B. Verteilungskoeffizienten und molares Reflexionsvermögen. Solche indirekten Formwerte sind herkömmlich bei QSAR-Untersuchungen verwendet worden, weil sich direkte Formwerte als begrifflich und rechnerisch schwierig erwiesen. Mit dem Fortschritt der Wissenschaft, und je mehr die Struktur-Unterschiede bei den QSAR-Untersuchungen im wesentlichen zu Molekülform-Unterschieden wurden, entwickelte sich das Gebiet der "dreidimensionalen quantitativen Struktur-Aktivitäts-Beziehungen" (Three-Dimensional Quantitative Structure Activity Relationships, 3D- QSAR).
Mit der 3D-QSAR-Methode werden ausgewählte Form-Parameter und -Tests quantifiziert, um zu sehen, ob eine Korrelation zwischen diesen Parametern und einer biologischen Variablen - im allgemeinen der Bindungs-Affinität - feststellbar ist. Ein Modell für die Wechselwirkung zwischen einem Liganden und einem Rezeptor zu finden, hat sich als sehr komplexe Aufgabe erwiesen. Die Hauptschwierigkeit war dabei, den einfachen Begriff "Form" quantitativ auszudrücken. Wie so oft ist das, was für Auge und Verstand klar ersichtlich ist, quantitativ bzw. mathematisch bloß komplex beschreibbar. Während eine Form auszudrücken schon schwierig genug ist, stellt sich die Suche nach Formähnlichkeiten unter Verwendung von Formdeskriptoren - die bestenfalls unzureichend sind - als extrem schwierig heraus.
Die allgemeine QSAR-Methodik beruht auf der Tatsache, daß es für die meisten Proteine eine Anzahl von bekannte Struktur-Unterschiede aufweisenden chemischen Verbindungen oder Substraten gibt, die sich mit verschiedenen Affinitäten an Protein binden. Der Grundgedanke ist dabei, daß es mit 3D-QSAR möglich sein sollte, Formdeskriptoren abzuleiten, die in der Anwendung auf die einzelnen Substrate die unterschiedlichen Bindungs-Affinitäten anzeigen. Ähnlich anderen QSAR-Methoden wird bei 3D-QSAR die Basis-Annahme getroffen, daß die maßgeblichen biologischen Parameter - gewöhnlich eine Bindungs-Affinität - als Linearkombination der gewichteten Beiträge der einzelnen Formdeskriptoren für die Substratmoleküle darstellbar sind. Sobald eine ganze Reihe von Substraten mit denselben Formdeskriptoren beschrieben sind, müßte es möglich sein, die Formdeskriptoren zu vergleichen bzw. zu korrelieren und die kritischen Formdeterminanten zu herauszuholen, die laut Befund den Differenzen der biologischen Aktivität zwischen den Substraten zugeordnet sind.
Durch Kenntnis der signifikantesten Struktur- Form- Elemente des Substrats bzw. Liganden könnte man dann auf die Hauptelemente der Rezeptorstellen auf dem Protein schließen. Im Idealfall hätte man ebensoviele Vergleichs-Substrate wie Variable unter den Formdeskriptoren. Es bestünde also ein exakt lösbares System von Gleichungen, deren Anzahl gleich der Anzahl der Formdeskriptoren mit unbekannten Gewichtungskoeffizienten wäre. In der Praxis zeigte sich jedoch selbst mit vereinfachenden Annahmen rasch, daß bei der Benutzung vorhandener Formdeskriptoren zur Beschreibung der Eigenschaften einer unbekannten Form die Anzahl der Deskriptor-Variablen weit über die Anzahl vorhandener Substrate mit bekannter Bindungs-Charakteristik hinausgeht. Statt also eine exakte Lösung zu gewinnen, mußte man statistische Näherungsverfahren anwenden, um aus den numerischen Formdeskriptoren diejenigen Formelemente zu erhalten, die am besten mit der beobachteten biologischen Aktivität korrelierten. Erst seit kurzer Zeit stehen aber statistische Methoden zur Verfügung, mit denen brauchbare Information aus einem Gleichungssystem erzielbar ist, das weit mehr Variable als Gleichungen aufweist.
Im letzten Jahrzehnt ist die Arbeit auf diesem Gebiet vorangekommen. Durch chemische Analyse von Substrat-Protein-Komplexen weiß man, daß molekulare Wechselwirkungen, die einen beobachteten biologischen Effekt erzeugen, gewöhnlich nicht kovalent sind. Man glaubt also, daß die zwischenmolekularen gerungen von Kräften bewirkt werden, die auf hydrophoben, van-der-Waals- (sterischen), Wasserstoff-Bindungs- und elektrostatischen Wechselwirkungen beruhen. Man hat versucht, auf der Grundlage dieser Eigenschaften Formdeskriptoren zusammenzusetzen, doch machen leider die ungeheuer große Anzahl von Freiheitsgraden und von großen labilen Protein-Substrat-Komplexen die Erstellung mathematischer Modelle der Komplex-Gestalt extrem schwer. Es erwies sich, daß weitere vereinfachende Kriterien und Annahmen notwendig sind. Eine solche als "Molekular-Form-Verfahren" bezeichnete Methode, die unabhängig von Simon et al. (siehe Z. Simon, I. Badilenscu, T. J. Racovitan in Theor. Biol. 1977, 66, 485; sowie Z. Simon, N. Dragomir, M. G. Planchithin, S. Holban, H. Glatt, F. Kerek in Eur. J. Med. 1980, 15, 521) und von Hopfinger (siehe A. J. Hopfinger, J. Am. Chem. Soc. 1980, 102, 7196) entwickelt wurde, vergleicht statt ortsabhängiger Differenzen Netz-Abhängigkeiten zwischen Molekülen. Das heißt, es wird eine Form-Charakteristik des Totalmoleküls berechnet, wobei alle Einzelheiten der speziellen Oberflächen-Merkmale zu einer Gesamt-Molekulareinheit verschmolzen werden. Das - im Sinne der biologischen Affinität - aktivste Molekül einer Reihe wird als Schablonen-Molekül angesehen, welches an der Rezeptorstelle im Protein optimal paßt. Daher sind Aktivitäts-Unterschiede unter den Reihen von Substratmolekülen in multipler Regressionsanalyse potentiell korreliert, wobei für jedes Molekül der Reihe drei Struktur- (oder Form-) Parameter definierbar sind. Die anfänglich in Betracht gezogenen Form-Parameter waren: 1) das gemeinsame Volumen, 2) das vom aktivsten, jedoch nicht von einem weniger aktiven Molekül eingenommene Volumen, und 3) das von einem weniger aktiven, aber nicht vom aktivsten Molekül eingenommene Volumen. Hopfinger bezeichnet diese Parameter als "gemeinsam-überlappende sterische Volumina" und deutet sie als quantitative Maße relativer Formähnlichkeit. Später hat Hopfinger (siehe A. J. Hopfinger, J. Med. Chem. 1983, 26, 900) eine neue Sorte Molekular-Formdeskriptoren entworfen, die vom Feld der potentiellen Energie eines Moleküls abgeleitet sind. Hierbei benutzt Hopfinger Potentiale der Molekularmechanik als Mittel zur Abschätzung der molekularen Potentialenergie- Felder:
Diese Gleichung definiert das molekulare Potentialenergie-Feld Pu(R, θ, φ) an einem beliebigen Punkt (R, θ, φ) für das Molekül u; a(T)i und b(T)i sind die Anziehungs- bzw. Abstoßungs-Energiekoeffizienten von Atom i im Molekül u bei Wechselwirkung mit der Testsonde T, die als Einzelkraft-Zentrum behandelt wird; Qi und Q(T) bezeichnen die Ladungsdichte von Atom i bzw. Testsonde; &epsi;(ri) ist ein dielektrischer Term, n die Anzahl der Atome in u und (ri) der Abstand zwischen Atom i und der Testsonde. Hopfinger gibt an, daß Paare von Felddifferenz- Deskriptoren (ΔPu] mit biologischen Parametern in einem 3D-QSAR korrelieren konnen. Zu beachten ist aber, daß dies ein Netz-Molekularform-Deskriptor ist, kein spezifisch ortsabhängiger Formdeskriptor.
Eine zweite Methode ist das Abstandsgeometrie-Verfahren von Crippen (siehe z.B. A. Ghose, G. J. Crippen, J. Med. Chem. 1985, 28, 333). Bei dieser Methode muß der Anwender einen "Pharmakoträger" (pharmacophore) oder eine Liste der möglichen rezeptorbindenden Atome jedes Substrats bzw. Liganden mit spezifischen physikalisch-chemischen Eigenschaften beibringen. Die Kenntnis des Pharmakoträgers stammt aus den chemischen Untersuchungen der Bindungs- Eigenschaften einer gegebenen Reihe von Substrat-Molekülen. Ferner muß der Anwender eine "Bindungsstelle" beitragen, d.h. eine Gruppe von Punkten im Kartesischen Raum, die mit einem nahen Pharmakoträger-Atom in Wechselwirkung treten können, sowie das Ausmaß der Anziehung oder Abstoßung, je nach der Beschaffenheit des Atoms. Die geometrisch zulässigen Wechselwirkungen zwischen den Ligandenatomen und der Bindungsstelle sind bestimmt. Jeder Ligand kann sich frei bewegen oder Torsions-Verformungen mitmachen, und zwar in beliebiger Art, solange die Summe der Lagerstellen-Energien der Wechselwirkung mit der "Bindungsstelle" minimiert wird. Im Einklang mit Crippen, der wiederum eine Linearfunktion der Wechselwirkung voraussetzt, ist die Bindungsenergie eines bestimmten Bindungsmodus gegeben durch:
wobei Ec die Konformationsenergie; C die durch quadratisches Programmieren zu bestimmenden Koeffizienten; i' die Art der Stelle i; ns die Anzahl der Nebennp die Anzahl der mit der Taschenstellen-Wechselwirkung korrelierenden Parameter; no die Anzahl der die Taschenstelle besetzenden Atome; Pj den j-ten physiochemischen Parameter des Atoms der Sorte tk bedeuten.
Ein erfolgreiches 3D-QSAR liegt vor, wenn die erhaltene Summe der Wechselwirkungs-Energien genügend nahe bei den beobachteten Bindungs-Affinitäten ist. Das Ergebnis liefert sowohl eine Rezeptorkarte (mit Lage und Art der "Bindungsstellen"-Punkte) als auch eine aktive Konformation jedes Moleküls der Reihe. Bei den Methoden von Hopfinger und Grippen muß am Anfang eine fundierte Annahme zur Auswahl der aktiven Molekül-Konformation getroffen werden, bevor die Analyse ausführbar ist; Crippen muß außerdem eine dreidimensionale Momentankarte der Rezeptorstellen hypothetisch voraussetzen.
Bei jeder quantitativen Methode der Formanalyse besteht das weitere große Problem, daß in Lösung die meisten Verbindungen als Gemisch von schnell gleichgewichtsbildenden Formen oder Konformeren vorliegen. Allgemein weiß man nicht einmal, welche der vielfältigen Konformationen eines Moleküls für seine gemessene biologische Aktivität verantwortlich ist. Wiederum muß man fundierte Annahmen treffen, um zu entscheiden, welche der vielen Molekular- Konformationen bei der 3D-QSAR-Analyse verwendet werden. Das Vorhandensein von Vielfach- Konformationen erschwert ferner die Aufgabe, die richtige Molekular-Ausrichtung zu wählen, in welcher der Vergleich der Substratmoleküle gemacht werden soll. Offensichtlich hängt die Eignung irgendeiner Formgröße für den Molekularform- Vergleich davon ab, daß bei der Erst-Festlegung der Formgröße die richtige Relativorientierung der Moleküle bestand. Würde man ein und dasselbe Molekül mit sich selbst um 90º gedreht vergleichen, ergäben sich wahrscheinlich kaum gemeinsame Strukturmerkmale. Infolgedessen benutzen einige 3D-QSAR- Methoden Ausrichtungsregeln, um zu gewährleisten, daß nur die variablen bzw. differierenden Molekülteile den größten Beitrag zum Formvergleich liefern. Es ist klar, daß das Vorhandensein von Vielfach-Konformationen eines gegebenen Moleküls diese Aufgabe noch kompliziert.
sch beginnt sonach eine 3D-QSAR-Analyse mit vielen formabhängigen Parametern für relativ wenige Moleküle, deren biologische Aktivität - z.B. Bindungs-Affinität - bekannt ist. Das führt zu einer Reihe von linearen Beziehungen hungen, welche die Formparameter den biologischen Größen zuordnen, die viel mehr Unbekannte (Spalten) als Beziehungen (Zeilen) aufweisen. Außer in den Einschränkungsfällen von Formdeskriptoren mit übervereinfachten Annahmen gab es bis vor kurzem kein statistisches Regressions- oder Korrelations-Verfahren, das auch nur eine Spur von Hoffnung auf Lösung eines solchen Gleichungssystems bot.
US-A-4 461 619 beschreibt ein Molekularmodell-Verfahren zur Erstellung eines körperlichen DNA-Modells. Vom Nukleotid wird ein Grundbestandteil ohne sonstige Spaltung des DNA entfernt, worauf versucht wird, den Grad der biologischen Aktivität eines Moleküls anhand des Ausmaßes vorherzusagen, in dem es in die so entstandene Höhlung paßt.
In WO 91/04543 ist ein Verfahren zur Berechnung der Elektronendichte um ein Molekül herum beschrieben. Flächen gleicher Elektronendichte sind darstellbar. Es wird vorausgesetzt, daß die biologische Aktivität eine Funktion der sterischen und elektrostatischen Wechselwirkung ist.
Im Kern offenbart US-A-4 473 890 eine computergestützte Fischer-Projektion mit Angabe einer Reihe von Regeln für die Beschreibung der Verbindbarkeit der Atome, die ein Molekül zusammensetzen, doch kann die eingenommene Konformation damit nicht beschrieben werden.

(Prinzip der Erfindung)

Die Erfindung schafft hingegen ein computergestütztes Verfahren zum Erzeugen und Sichtbarmachen einer dreidimensionalen quantitativen Struktur-Aktivitäts- Beziehung 3D-QSAR einer Reihe von Molekülen aufgrund der Annahme, daß relevante biologische Parameter, z.B. Bindungs-Affinität, mit einer Linearkombination gewichteter Beiträge einer Anzahl von Form-Deskriptoren für jedes Molekül der Reihe korrelieren, das durch folgende Verfahrensschritte gekennzeichnet ist:
a) Definieren von Molekülform-Deskriptoren für jedes Molekül (x) der Reihe durch Computer-Berechnung zumindest sterischer (Sx(N)) und elektrostatischer (Ex(N)) Wechselwirkungs-Energien zwischen einer mathematischen Darstellung einer Sonde und dem Molekül an es umgebenden vorbestimmten Gitterpunkten (N);
b) Bestimmen eines repräsentativen Konformators für jedes Molekül (x) der Reihe derart, daß durch Änderung von Lage und/oder Torsionswinkel eines Konformator-Anwärters dieser sich zu mindestens einem Bezugsmolekül hin ausrichtet;
c) Definieren einer Anzahl von Gleichungen, wobei jede Gleichung einem Molekül der Reihe entspricht und in jeder Gleichung ein gemessener biologischer Parameter (Valuex) des betreffenden Moleküls (x) gleich einer gewichteten Linearkombination der Molekülform-Deskriptoren (Sx(N), Ex(N)) gesetzt wird, wobei die Koeffizienten (bx, A&sub0;&sub0;&sub1;, A&sub0;&sub0;&sub2;, ..., AN, a001, a002, ..., aN) der gewichteten Linearkombination unbekannt sind und wobei die Anzahl von Gleichungen ein Gleichungssystem bildet, das viel mehr Unbekannte als Gleichungen aufweist;
d) Gewinnen einer Anfangslösung für das Gleichungssystem durch Anwendung einer Teil-Fehlerquadratmethode (PLS) der mehrdimensionalen Analysis, wobei die Anfangslösung von derjenigen Gruppe von Koeffizienten gebildet wird, die einer Erfüllung jeder Gleichung am nächsten kommt;
e) Berechnen eines Vergleichstest-Parameters (r²) zur Feststellung, wann die biologischen Parameter durch den Mittelwert aller gemessenen Werte besser abgeschätzt werden als durch die bei Anwendung der PLS-Lösung erhaltenen Werte;
f) Beginnen einer zyklischen Vergleichstest-Prozedur, so daß
f1) durch Ausschließen mindestens einer Gleichung aus dem Gleichungssystem und durch Wiederholung der PLS-Analysis an einem somit reduzierten Gleichungssystem eine Alternativgruppe von Gleichungskoeffizienten gefunden wird (CINTERCEPT, A001', ..., AN', A001' ..., aN'; Fig. 2);
f2) die Alternativgruppe von Gleichungskoeffizienten dazu benutzt wird, den biologischen Parameter (V) desjenigen Moleküls vorherzusagen, das der ausgeschlossenen Gleichung entspricht;
f3) der Vergleichstest-Parameter (r²) neu zur Feststellung berechnet wird, ob die Alternativkoeffizienten bessere Vorhersagewerte liefern;
f4) der Vergleichstest-Zyklus ab Schritt f1) wiederholt wird, so daß wenigstens eine weitere Gleichung aus dem Gleichungssystem ausgeschlossen wird;
g) Wiederholen des Vergleichstest-Zyklus so oft, wie ein Benutzer vorgibt, dem für gefundene Lösungs-Terme repräsentative Werte unter Anwendung von Computergrafik sichtbar dargestellt werden.
Ferner ist erfindungsgemäß ein computergestütztes System vorgesehen zum Erzeugen und Sichtbarmachen einer dreidimensionalen quantitativen Struktur- Aktivitäts-Beziehung (3D-QSAR) einer Reihe von Molekülen aufgrund der Annahme, daß relevante biologische Parameter, z.B. Bindungs-Affinität, mit einer Linearkombination gewichteter Beiträge einer Anzahl von Form-Deskriptoren für jedes Molekül der Reihe korrelieren, das gekennzeichnet ist durch:
a) Mittel zum Definieren von Molekülform-Deskriptoren für jedes Molekül (x) der Reihe durch Computer-Berechnung zumindest sterischer (Sx(N)) und elektrostatischer (Ex(N)) Wechselwirkungs-Energien zwischen einer mathematischen Darstellung einer Sonde und dem Molekül an es umgebenden vorbestimmten Gitterpunkten (N);
b) Mittel zum Bestimmen eines repräsentativen Konformators für jedes Molekül (x) der Reihe derart, daß durch Änderung von Lage und/oder Torsionswinkel eines Konformator-Anwärters dieser sich zu mindestens einem Bezugsmolekül hin ausrichtet;
c) Mittel zum Definieren einer Ahzahl von Gleichungen, wobei jede Gleichung einem Molekül der Reihe entspricht und in jeder Gleichung ein gemessener biologischer Parameter (Valuex) des betreffenden Moleküls (x) gleich einer gewichteten Linearkombination der Molekülform-Deskriptoren (Sx(N), Ex(N)) gesetzt wird, wobei die Koeffizienten (bX, A&sub0;&sub0;&sub1;, A&sub0;&sub0;&sub2;,..., AN, a&sub0;&sub0;&sub1;, a&sub0;&sub0;&sub2;, ..., aN) der gewichteten Linearkombination unbekannt sind und wobei die Anzahl von Gleichungen ein Gleichungssystem bildet, das viel mehr Unbekannte als Gleichungen aufweist;
d) Mittel zum Gewinnen einer Anfangslösung für das Gleichungssystem durch Anwendung einer Teil-Fehlerquadratmethode (PLS) der mehrdimensionalen Analysis, wobei die Anfangslösung von derjenigen Gruppe von Koeffizienten gebildet wird, die einer Erfüllung jeder Gleichung am nächsten kommt;
e) Mittel zum Berechnen eines Vergleichstest-Parameters (r²) zur Feststellung, wann die biologischen Parameter durch den Mittelwert aller gemessenen Werte besser abgeschätzt werden als durch die bei Anwendung der PLS- Lösung erhaltenen Werte;
f) Mittel zum Ausführen einer zyklischen Vergleichstest-Prozedur, so daß
f1) durch Ausschließen mindestens einer Gleichung aus dem Gleichungssystem und durch Wiederholung der PLS-Analysis an einem somit reduzierten Gleichungssystem eine Alternativgruppe von Gleichungskoeffizienten gefunden wird (CINTERCEPT, A001', ..., AN', A001', ..., aN'; Fig. 2);
f2) die Alternativgruppe von Gleichungskoeffizienten dazu benutzt wird, den biologischen Parameter (V) desjenigen Moleküls vorherzusagen, das der ausgeschlossenen Gleichung entspricht;
f3) der Vergleichstest-Parameter (r²) neu zur Feststellung berechnet wird, ob die Alternativkoeffizienten bessere Vorhersagewerte liefern;
f4) der Vergleichstest-Zyklus ab Schritt f1) wiederholt wird, so daß wenigstens eine weitere Gleichung aus dem Gleichungssystem ausgeschlossen wird;
g) Mittel zum Wiederholen des Vergleichstest-Zyklus so oft, wie ein Benutzer vorgibt, und Mittel zum für ihn sichtbaren Darstellen von für gefundene Lösungs-Terme repräsentativen Werten unter Anwendung von Computergrafik.
Die vorliegende Erfindung schafft eine effektive Computermethodik mit sowohl interaktiven Graphiken als auch statischen Verfahren zum Korrelieren der Formen von Molekülen mit ihren biologischen Eigenschaften. Die erfindungsgemäße Methode benutzt einen neuen 3D-QSAR-Ansatz, der ein objektives und quantitatives Maß für die dreidimensionale Form-Charakteristik aller Bereiche eines Moleküls liefert und gleichzeitig sehr wenige einschränkende Annahmen erfordert. Die quantitative Beschreibung der Molekülform wird von einer Analyse der sterischen und elektrostatischen Wechselwirkung der das Molekül zusammensetzenden Atome mit einer Testsonde abgeleitet. Die resultierenden Wechselwirkungsenergien, die an allen Schnittpunkten (Knoten) eines das Molekül umgebenden dreidimensionalen Netzwerks oder Gitters berechnet werden, bilden die quantitativen Formdeskriptoren, die zusammen mit der gemessenen biologischen Aktivität des Moleküls als Zeile in eine Datentabelle eingegeben werden.
Jede Molekül-Konformation läßt sich in ähnlicher Weise als Zeile von Gitterpunkt- Energien beschreiben, die der gleichen gemessenen biologischen Aktivität zugeordnet werden. Die Auswahl der bevorzugten Konformatoren kann entweder auf empirischer Basis oder im gewichteten Durchschnitt erfolgen, typisch als Boltzmann-Verteilung der einzelnen Konformationen. Dann wird eine Zeile der Wechselwirkungen verwendet, die für die Konformationen eines gegebenen Moleküls repräsentativ ist. Die sich ergebende 3D-QSAR-Tabelle hat typisch mehrere tausend Spalten von Gitterpunkt-Energien und eine Anzahl von Zeilen, die der Anzahl der Moleküle in der untersuchten Reihe entspricht.
Theoretisch enthält diese Tabelle eine vollständige Beschreibung der Formunterschiede zwischen den untersuchten Molekülen, doch war früher keine statistische Methodik verfügbar, um brauchbare Information aus der Tabelle zu gewinnen. Soferne nicht entweder einschränkende Voraussetzungen über die Bindungsstellen gemacht werden, was die Spalten-Anzahl vermindert, oder Kenntnis der spezifischen Bindungsstellen einer speziellen Konformation gegeben ist, läßt sich eine unendliche Anzahl von Koeffizienten-Gruppe berechnen, welche die gleichen biologischen Parameterwerte liefern. Anfang der 1980er Jahre wurde eine statistische Methodik entwickelt, welche diese Art von mehrdimensionalen Problemen explizit löst und als Teil-Fehlerquadrat-Methode (Partial Least Squares analysis, PLS) bezeichnet wird.
Die Software-Ausführungsbeispiele der vorliegenden Erfindung erlauben vier verschiedene Prozeduren, die zum Ausrichten der Moleküle im dreidimensionalen Gitter benutzbar sind, nämlich: 1) eine auf anderen Daten beruhende Ausrichtung nach Anwendervorgaben; 2) eine An-/Einpassungs-Routine; 3) eine Ausricht- Routine; und endlich 4) eine Field-Fit-Prozedur, welche die Differenzen der berechneten Atomfelder zwischen den einzelnen Molekülen minimiert. Vorzugsweise geschieht die Ausrichtung mittels Field-Fit. Eine 3D-QSAR-Tabelle wird erstellt und dann nach der für CoMFA abgewandelten PLS-Methode analysiert. Die sich ergebende Lösung der 3D-QSAR-Tabelle liefert Koeffizienten der Spaltenterme, die den Relativbeiträgen der verschiedenen Gitterpositionen zur biologischen Aktivität entsprechen. Weil die Lösung sich wiederum durch Wechselwirkungs-Energiewerte ausdrücken läßt, die den bei der Erzeugung der 3D- QSAR-Tabelle berechneten Werten ähneln, kann man den Vorgang umkehren und auf einem Videogerät ein Diagramm der Wechselwirkungs-Energien darstellen, das diejenigen Bereiche der Molekülform zeigt, welche den Differenzen der biologischen Aktivität zugeordnet sind. Stehen interaktive Graphik-Display-Geräte zur Verfügung, so gestattet die Erfindung es dem Anwender, die Analyse- Optionen zu verändern und mit angemessenem Zeitaufwand diejenigen Bereiche der Molekularform zu betrachten, die bezüglich biologischer Aktivität am wichtigsten und auf dem vor ihm angeordneten Bildschirm hervorgehoben sind. Indem er die sich durch Parameter-Änderung verwandelnde Darstellung untersucht, kann der Anwender ein Verständnis dafür gewinnen, in welcher Weise besondere Formmerkmale des Moleküls für dessen biologische Aktivität bedeutsam sind.

(Aufgabe der Erfindung)

Ein Ziel der vorliegenden Erfindung ist es, die Molekülformen mit Formdeskriptoren zu vergleichen, die von örtlichen Flächenbereichs-Differenzen empfindlich abhängen. Ferner bezweckt die Erfindung die Schaffung einer Methodik zum quantitativen Abschätzen der Bedeutung einzelner Komponenten der Molekularform für die biologische Aktivität eines Moleküls. Ein weiteres Ziel der Erfindung ist die Bereitstellung von Struktur-, Konformations- und Statistik-Information, mit der es Anwendern möglich ist, als Substrate bzw. Liganden verwendbare neue Moleküle vorzuschlagen bzw. zu identifizieren. Schließlich zielt die Erfindung darauf ab, interaktive Graphik-Mittel verfügbar zu machen, mit denen die verschiedenen Formparameter auf quantitative Weise untersucht werden können, um eine tiefere Kenntnis der Natur von Wechselwirkungen zwischen Molekülen zu erlangen.

Zeichnungs-Kurzbeschreibung

Fig. 1 ist ein Überblicks-Schema der CoMFA-Methode,
Fig. 2 stellt das Vergleichtest-Verfahren schematisch dar,
Fig. 3A zeigt ein Streubild (scatter plot) im dreidimensionalen Gitter-Raum einer sterischen CoMFA-Lösung,
Fig. 3B zeigt ein Konturbild (contour plot) im dreidimensionalen Gitter-Raum der CoMFA-Lösung von Fig. 3A,
Fig. 4A ist das Streubild von Fig. 3A mit einem überlagerten Molekül zur Veranschaulichung der dreidimensionalen Beziehung des Moleküls zur CoMFA-Lösung,
Fig. 4B ist das Konturbild von Fig. 3B mit einem überlagerten Molekül zur Veranschaulichung der dreidimensionalen Beziehung des Moleküls zur CoMFA-Lösung,
Fig. 5 zeigt schematisch die Integration der CoMFA-Software in eine Standardanlage für Molekular-Modellbildung und
Fig. 6 bis Fig. 9 sind Flußdiagramme von Abläufen zur Veranschaulichung der Zusammenhänge zwischen Hauptmerkmalen der vorliegenden Erfindung.

Detaillierte Erfindungs-Beschreibung

Die vorliegende Erfindung überwindet die Begrenzungen früherer 3D-QSAR- Ansätze und gestattet bedeutsame Einblicke in Molekular-Wechselwirkungen, die - ohne faktische Röntgenkristallographie-Kenntnis der Rezeptor-Bindungsstellen - nie zuvor erzielbar waren. Während nämlich Röntgen-Ergebnisse nur ein statisches Bild liefern, verschafft die vorliegende Erfindung detaillierteres Wissen über die Formunterschiede, die bei dynamischen Wechselwirkungen zwischen Molekülen in Lösung wirksam sind. Der Molekularfeld-Vergleich (Comparative Molecular Field Approach, CoMFA) ist ein heuristisches Verfahren zum Definieren, Bearbeiten und Veranschaulichen von Unterschieden bei Moleküle umgebenden Molekularfeldern, auf denen beobachtete Unterschiede der Aktivität dieser Moleküle beruhen. Die CoMFA-Erläuterung ist unterteilt in zwei zunehmend detaillierte Abschnitte: erstens einen Überblick des Gesamtverfahrens; zweitens Beschreibungen der Einzelkomponenten samt jeweiliger Grundlage und der Unterschiede zum Stand der Technik.

CoMFA-Überblick

Sobald eine Reihe von Molekülen, für die der gleiche biologische Wechselwirkungs-Parameter gemessen wurde, zur Untersuchung ausgewählt ist, beschafft man sich die dreidimensionale Struktur jedes Moleküls, typisch von der Cambridge Crystallographic Database oder mit Standardverfahren der Molekular- Modellbildung Die dreidimensionale Struktur des ersten Moleküls wird in ein dreidimensionales Gitter gesetzt, so daß die Lagebeziehung jedes Atoms im Molekül zu einem Gitter-Schnittpunkt (Gitterpunkt) bekannt ist. Ein Sonden-Atom wird ausgewählt und nacheinander an jeden Gitterpunkt gebracht. Diese sterischen und elektrostatischen Wechselwirkungs-Energien zwischen dem Sonden-Atom und dem Molekül werden für alle Gitterpunkte berechnet. Die berechneten Energien bilden in einer Konformator-Datentabelle eine dem betreffenden Molekül zugeordnete Zeile.
Wechselwirkungsenergien weiterer Konformationen des ersten Moleküls können in ähnlicher Weise berechnet werden. Nachdem für jeden Konformator die Zeile der Wechselwirkungsenergien berechnet ist, kann man den Konformator im Field- Fit-Verfahren ausrichten, wodurch an jedem Gitterpunkt die Energiedifferenzen zwischen diesem und dem ersten Konformator minimiert werden. Dann werden die Field-Fit-Wechselwirkungsenergie-Werte jedes Konformators in die Datentabelle für das erste Molekül eingegeben. Sobald die Wechseiwirkungsenergien aller Konformationen des ersten Moleküls berechnet sind, wird ein Durchschnittswert der Wechselwirkungsenergien an jedem Gitterpunkt von allen Konformatoren zur ersten Zeile in einer 3D-QSAR-Datentabelle gemacht und dem gemessenen biologischen Parameter für das erste Molekül zugeordnet.
Genauso wird für alle Moleküle der Reihe vorgegangen. Nachdem die Durchschnitts-Feldwerte der Konformationen für ein bestimmtes Molekül ermittelt sind, sorgt eine Field-Fit-Minimierung der Durchschnitts-Feldwerte bezogen auf die Feldwerte eines Ausrichtungsmoleküls für die Eingliederung des neuen Moleküls unter die anderen der Reihe. Der obere Bereich von Fig. 1 zeigt schematisch, wie die 3D-QSAR-Tabelle aufgebaut ist. Für jeden Gitterpunkt wird die sterische bzw. elektrostatische Wechselwirkungs-Energie mit einem Test-Sondenatom an dem Gitterpunkt in die passende sterische bzw. elektrostatische Spalte eingegeben, die diesem Punkt zugeordnet ist. Die Gitterpunkte werden durchnumeriert und die entsprechende Spalte wird als sterisch (S) bzw. elektrostatisch (E) gekennzeichnet.
Sobald die Daten (Wechselwirkungsenergien sowie gemessene biologische Aktivität) für alle Moleküle der Reihe in die 3D-QSAR-Datentabelle eingegeben sind, wird die Teil-Fehlerquadrat-Methode (PLS) angewandt, die einen Vergleichstest einschließt. Unter Verwendung der Wechselwirkungsenergien für jeden Gitterpunkt und der biologischen Werte löst PLS im wesentlichen eine Reihe von Gleichungen mit mehr Unbekannten als Gleichungen. Wie aus dem unteren Bereich der Fig. 1 hervorgeht, ist das Lösungsergebnis eine Reihe von Koeffizienten, je einer pro Spalte, dessen Betrag (in Energieeinheiten) den Beitrag der Wechselwirkungsenergien an dem betreffenden Gifferpunkt zu den Differenzen der gemessenen biologischen Parameter ausdrückt.
Während die Lösung viele Terme aufweist, gestattet es eine 1 : 1-Zuordnung von Term zu Gitterpunkt, die Lösung als interaktives farbcodiertes dreidimensionales Bild darzustellen, entweder in Form eines dem Oberteil von Fig. 1 ußerlich ähnlichen Graphen (vergl. Fig. 3A), wobei die Farbe eines Punktes den Betrag der betreffenden Terme anzeigt, oder besser mit Termwerten, die in Konturform summarisch abgebildet werden (vergl. Fig. 3B). Die graphische Wiedergabe zeigt deutlich den Bereich im Molekularraum, wo das 3D-QSAR Änderungen der Molekularfeldwerte in starke Zuordnung zu Änderungen der gemessenen biologischen Parameter bringt.

Molekular-Kraftfelder

Wie oben dargelegt, sind Biochemiker und Biophysiker zu der Ansicht gelangt, daß intermolekulare Wechselwirkungen hoch raumspezifisch sind, indem sie hauptsächlich von der Form-Komplementarität abhängen, und daß biologische Moleküle jedesmal bei einer Bindung ein dreidimensionales Baustein-Puzzle lösen. Die bereits erwähnten herkömmlichen 3D-QSAR-Formdeskriptoren liefern jedoch nur ein Grobmaß (net measure) der Gesamtform, wobei örtliche topologische Unterschiede zwischen Molekülen gänzlich ausgemittelt werden. Man erhält eigentlich Aggregat- bzw. Komplex-Indices, die eine Form nur so beschreiben, wie z.B. die Vergleichs-Form zweier Skulpturen durch das Maß ihres unterschiedlichen Gewichts bzw. Volumens beschrieben wird. Auch Kugel-Stäbchen-Molekularmodelle drücken weder die sterischen Wechselwirkungen ausgedehnter Molekular-Orbitale noch ladungsbedingte Wechselwirkungen aus. Für die Beschreibung von Molekularformen müßte ein Deskriptor den Einfluß wenigstens dreier Molekularparameter angeben: 1. das wahre sterische Ausmaß jedes Atoms im Molekül; 2. die elektrostatischen Wechselwirkungen jedes Atoms im Molekül; und 3. ein hinreichend feines Maß für die Angabe jedes örtlichen Topologie-Merkmals des Moleküls. Bei CoMFA wird der Ansatz verwendet, daß passendes Sampling der sterischen und elektrostatischen Wechselwirkungen eines Moleküls genügt, um die meisten Fragen betreffend mögliche formabhängige Rezeptor-Wechselwirkungen zu beantworten. Für sich genommen ist die Berechnung von Wechsetwirkungsenergien an ein Molekül umgebenden Gitterpunkten nicht neu; von anderen ist dieser Ansatz zur Einschätzung der Molekülform versuchsweise benutzt worden. Beispielsweise hat Goodford die Verwendung von Sonden-Wechselwirkungs-"Gittern" vorgeschlagen, die den erfindungsgemäß berechneten ähneln (siehe P. J. Goodford, J. Med. Chem. 1985, 28, 849).
Theoretisch enthält die Zeile mit den von allen Gitterpunkten erzeugten Wechselwirkungsenergie-Daten die hauptsächliche Information, wie ein Molekül für einen Rezeptor dreidimensional "aussieht". Vor der Erfindung hatte jedoch noch niemand herausgefunden, wie die von diesen Daten-Zeilen dargestellten Formen verschiedener Moleküle verglichen oder wie brauchbare Information über Formunterschiede, die für molekulare Gruppierungen wichtig sind, gewonnen und sichtbar dargestellt werden könnten.
Die Feinheit bzw. Auflösung, mit welcher die Form eines Moleküls nach dieser Methode beschrieben wird, hängt von drei Faktoren ab: 1) der sterischen Größe des Test-Sondenatoms, 2) der Ladung des Test-Sondenatoms und 3) dem Gitterabstand. Die Erfindung gestattet es dem Benutzer, sowohl die sterische Größe als auch die Ladung der Testsonde zu spezifizieren. Außerdem können die Sonden-Parameter an verschiedenen Gitterstellen verändert werden, von denen der Benutzer annimmt, daß dort feinere oder gröbere Messungen gebraucht werden. Ferner kann der Benutzer den Gitterabstand auswählen. Typisch reicht der Bereich der Sondenatom-Größe vom kovalenten Wasserstoff -H über sp³- Kohlenstoff und sp³-Sauerstoff zu zweiwertigem Schwefel. Die typisch verwendeten Sondenladungen sind + 1,0 und 0,0 während man Gitterabstandswerte von 1,0 bis 4.0 Å häufig verwendet.
Van der Waals-Radien werden allgemein für die sterische Berechnung verwendet, und die Atomladungen können aus der Kenntnis der Atomkoordinaten berechnet werden. So berechnet sich die sterische Wechselwirkungsenergie durch:
wobei Nat die Anzahl der Atome im Biomolekül sowie ri der Abstand zwischen dem Sondenatom und dem i-ten Atom im Biomolekül ist; Ai und Bi sind Konstanten, die charakteristisch einerseits für den Sondenatom-Typ und andererseits für den Typ des i-ten Atoms im Biomolekül sind. [Der Benutzer kann als Option statt des Exponenten 12 andere Werte auswählen.] Die elektrostatische Wechselwirkungsenergie ergibt sich durch:
wobei Nat und ri wie bei der sterischen Berechnung definiert sind; Q ist die Ladung des Sonden-Atoms und qi ist die Ladung auf dem i-ten Atom. Die qi-Werte können nach dem Verfahren von Gasteiger und Marsili (siehe J. Gasteiger, M. Marsili, Tetrahedron 1980, 36, 3219) berechnet werden. [Der Benutzer hat die Option, den Exponenten 2 wegzulassen.) Weil das Sondenatom nacheinander an alle Gitterpunkte gebracht wird, können die sterischen Abstoßungswerte für die Punkte innerhalb des Moleküls enorm groß werden. Da der Absolutwert keine andere Bedeutung hat als abzuschätzen, wieviel Atomvolumen-Überlappung besteht, wenn ein Sondenatom eine sterische Abstoßung oberhalb eines "Abschalt"- Grenzwerts (typisch 30 kcal/mol) erfährt, wird die sterische Wechselwirkung auf diesen Grenzwert eingestellt und die elektrostatischen Wechselwirkungen werden auf den Mittelwert der elektrostatischen Wechselwirkungen der anderen Moleküle an der gleichen Stelle festgelegt. Der Benutzer der Erfindung kann diese Grenzwerte auch selbst wählen. Offensichtlich geht keine topologische Information verloren.
Festzuhalten ist, daß jede von einem Molekularmodell berechenbare Eigenschaft, z.B. Abstände oder Torsionswinkel zwischen Atomen, in der 3D-QSAR-Tabelle zu einer weiteren Spalte werden kann. Ferner können Spalten auch Werte von anderen orientierungs-gemittelten Molekulareigenschaften (z.B. log P oder Bildungswärme), als Funktionen anderer Spalten definierte Daten oder sogar aufgrund von Anwendervorgaben mit eigenen Routinen berechnete Daten enthalten. Weil die gemessene biologische Aktivität von der Fähigkeit des Moleküls, sowohl zur Rezeptor-Stelle zu gelangen, als auch daran anzudocken bedingt ist, können zusätzliche Terme (Spalten) eingebaut werden, welche die molekulare Diffusion ausdrücken. Man erkennt, daß die statistische und visuelle Korrelation der Spalten-Daten nach dem erfindungsgemäßen Verfahren nicht auf Wechselwirkungsenergie-Formdeskriptoren beschränkt ist.
Ein besonders wichtiges und leistungsstarkes Merkmal der vorliegenden Erfindung ist sogar, daß die CoMFA-Methode Informationen liefert, die nicht einmal durch Röntgencrystallographie-Untersuchungen erhältlich sind, weil die Röntgenergebnisse statische Bilder liefern, welche die dynamischen Wechselwirkungen in Lösung überhaupt nicht wiedergeben. Hingegen ist das CoMFA-Modell der Wechselwirkung phänomenologisch; die tatsächlich gemessene Aktivität wird durch bestimmbare Beträge ausgedrückt bzw. vorhergesagt. Die vorliegende Erfindung zeigt die Abhängigkeit der gemessenen biologischen Parameter von in allen Spalten enthaltenen Daten (Form oder sonstige relevante Informationen). Für die Ausarbeitung der vorliegenden Erfindung wurde die Lagezuordnung der Moleküle im Gitter mit dem SYBYL-Softwareprogramm von Tripos Associates Inc. durchgeführt. Es gibt jedoch verschiedene andere Programme, die funktionell gleichwertig sind und bei der vorliegenden Erfindung angewandt werden können. Beispiele sind:
ChemX von Chemical Design Ltd., Oxford, UK
Insight von BioSym Technologies, San Diego, CA
Quanta von Polygen, Waltham, MA
ChemLab von Molecular Design Ltd., San Leandro, CA
Macromodel von Prof. Clark Still, Columbia Univ.
Solch ein Fremd-Softwareprogramm muß den Aufbau und die Speicherung von Molekular-Modellen (Zugriff zu Atomkoordinaten) sowie die Berechnung von Atomladungen (für die Berechnung der elektrostatischen Felder) und das Tabellieren der sterischen Parameter nach Atomsorten (zur Berechnung der sterischen Felder) möglich machen.

Ausrichtung und Field-Fit

CoMFA funktioniert so, daß die Wechselwirkungsenergie-Formdeskriptoren und zugehörige Formänderungen mit Unterschieden der gemessenen biologischen Aktivität verglichen werden. Weil die Formdeskriptoren an jedem Gitterpunkt berechnet werden, sind die für das gleiche Molekül berechneten gitterpunktspezifischen Wechselwirkungsenergien bei Versetzung auch um nur einen Gitterabstand jeweils signifikant verschieden. So kann eine CoMFA-Analyse dieser Daten Formunterschiede zeigen, wo gar keine sind. Daher ist die Positionierung eines Molekularmodells innerhalb eines gegebenen Gitters die bei weitem wichtigste Eingabevariable für CoMFA, zumal die relativen Wechselwirkungsenergien stark von den Relativ-Molekülpositionen im Gitter abhängen.
Mit der bevorzugten Field-Fit-Methode der vorliegenden Erfindung werden Moleküle so ausgerichtet, daß man ihre Feld-Unterschiede anstelle der Atomkoordinaten-Unterschiede minimiert. Weil die Wechselwirkungsenergien die Molekularform ausdrücken, können sie quantitativ für die Formgestaltung manipuliert werden. Dieser Ansatz ist besonders geeignet, weil die intermolekularen Vergleiche jeweils auf denselben Energiefeldern beruhen.
Bei der Field-Fit-Methode kann jedes Molekül als Bezugsmolekül dienen. Paßt man jedoch Konformationen des gleichen Moleküls ein, so wird man gewöhnlich als Vergleichs-Standard die Konformation benutzen, die aus anderen Gründen den wahrscheinlich aktivsten Konformator darstellt. Unterwirft man die letzte Reihe von Testmolekülen dem Fieldfitting, so benutzt man als Bezugsmolekül gewöhnlich dasjenige mit der größten biologischen Aktivität. Bei der Field-Fit-Anwendung minimiert man die quadratisch gemittelte Differenz (RMS, Effektivwert) der über alle Gitterpunkte gemittelten Summen der sterischen und elektrostatischen Wechseiwirkungsenergien zwischen dem neuen Molekül und dem Bezugsmolekül oder einer Bezugsgruppe von Molekülen in Hinsicht auf die drei Freiheitsgrade starrer Körper, auf etwaige Torsionswinkel laut Anwendervorgaben und auf Änderungen der Innengeometrie. Vor der Field-Fit-Bearbeitung hat der Anwender die Option, diejenigen Gitterstellen zu gewichten, von denen er aus anderen Gründen annimmt, daß sie für die Einordnung einer gegebenen Molekularreihe oder Konformation besonders signifikant sein können. Die Ergebnisse der Field-Fit- oder Test-Einordnungen unter Verwendung von Gewichtungs-Faktoren können als dreidimensionale Streu- oder Konturbilder in der gleichen Weise dargestellt und visuell verglichen werden, wie dies weiter unten für alle graphischen Darstellungen erörtert wird.
Mit Bezug auf die 3D-QSAR-Tabelle in Fig. 1 würde die Field-Fit-Anwendung von Molekül 2 zu Molekül 1 dem entsprechen, daß man die Summe der quadrierten Unterschiede zwischen ersten und zweiten Tabellenzeile (außer in der ersten Spalte) durch Änderung von Position und/oder Torsionswinkel des Moleküls 2 minimiert. Zufriedenstellende Field-Fit-Anwendung erfordert außerdem eine sterische Abstoßung jenseits der Gitterbegrenzung und, soweit Torsionswinkel verändert werden, die bei gleichem Kraftfeld nach herkömmlicher Molekularmechanik berechnete innere Energie. Folgendes ist der Grund für die sterische Abstoßung an der Begrenzung. Man kann sich die zu minimierende Funktion als formähnlich zum Querschnitt eines Vulkans vorstellen. Die sterische Begrenzungs-Abstoßung braucht man, weil die für die Minimierung gesuchte Antwort der Krater ist; wenn jedoch die Moleküle zu Anfang nicht näherungsweise ausgerichtet oder angepaßt sind, wird die Minimierungs-Richtung außen am Vulkan abwärtsverlaufen: d.h. die Minimierung der Felddifferenzen wird die Moleküle auseinanderstoßen. Legt man die sterische Abstoßung auf die Kante des Gitterbereichs, so wird die Abwärts-Bewegung an der Außenseite des Vulkans benachteiligt.
Das Field-Fit erlaubt es dem Anwender auch, die relative Gewichtung der drei verschiedenen Beiträge zu der zu minimierenden Funktion anzugehen, nämlich die Felddifferenz selbst, die sterische Kanten-Abstoßung und die unterschiedlichen inneren Energien bei Änderung der Torsions- bzw. Drehbindungen und anderer innerer Geometrien im Softwareprogramm zur Ausführung der Erfindung ist die Gewichtungs-Auswahl eine Benutzeroption. Die Möglichkeit, mit Field-Fit auf einer interaktiven Grafik-Anlage die dreidimensionale Auswirkungen verschiedener Gewichtungs-Auswahl auf die Molekularausrichtung sehen zu können, stellt für sich einen bedeutsamen Fortschritt bei 3D-QSAR dar. Die Minimierung erfolgt nach der Simplexmethode, einem weitverbreiteten Algorithmus, mit Schritten solcher Größe, daß die einzelnen Atome sich anfänglich um nicht mehr als 0,2 Å bewegen. Die Simplexmethode ist bevorzugt, weil die zu minimierende Funktion keine analytischen Ableitungen hat. Konvergenz tritt ein, sobald aufeinanderfolgende Funktions-Auswertungen um weniger als 1 % variieren. Wie bei allen Minimierungen hat man bei Field-Fit eine optimale Ausrichtung, wenn die Endgeometrie der Anfangsgeometrie voraussichtlich sehr ähnelt (is "downhill from", darunter liegt).
Die CoMFA-Softwareprogramme zur Durchführung der Erfindung ermöglichen es, andere Ausrichtungs-Verfahren einzusetzen, beispielsweise die üblichen Routinen für Anpassung und Orientierung (Fit and Orient). Beispielsweise benutzt Fit die Kleinstquadrat-Überlagerung von benutzerseitig vorgegebenen Gruppen von Atomkernen mit oder ohne Relaxation der inneren Geometrie, wogegen Orient drei Atome nach Anwendervorgaben wählt und das erste Atom an den Ursprung, das zweite Atom auf die X-Achse und das dritte Atom in die XZ-Ebene setzt. Der Benutzer kann sogar eine Probier-Ausrichtung (trial and error) aufgrund fundierter Annahmen oder sonstiger 3D-QSAR-Daten versuchen. Field-Fit eignet sich besonders, wenn bei einem auf einer anderen Ausrichtmethode basierenden CoMFA ein zu niedriges Vergleichstest-r² herauskommt, was seinerseits dadurch verursacht ist, daß ein oder mehr Moleküle sehr große Reste haben (residuals, sehr große Differenzen zwischen vorhergesagten und tatsächlichen Eigenschaften beim Vergleichstest-Schritt) Field-Fit bei der bzw. jeder Verbindung mit sehr großem Rest führt zu einer neuen Aussrichtung, die bei Wiederholung des CoMFA eine Verbesserung bewirkt. Die bei einem CoMFA-QSAR-Verfahren benutzen Konformatoren können durch irgendeinen dieser Ausrichtungs-Vorgänge entweder vor oder während der CoMFA-Rechnung ausgerichtet werden.
Wichtige Anwendungen hat Fiejd-Fit auch, wenn man Felddifferenzen maximiert (statt minimiert). Wenn man die Unterschiede der Wechselwirkungsenergien zweier formkomplementärer Moleküle maximiert, liefert Field-Fit bestes dreidimensionales Ausrichten oder "Andocken" zwischen bzw. an den Molekülen. Sind etwa die Strukturen sowohl des Substrats als auch des Enzyms (bzw. des Antigens und des Antikörpers) bekannt, so wird Field-Fit deren optimale Ausrichtung ermitteln.

Konformations-Auswahl

Ein herkömmlich ungelöstes großes Problem bei 3D-QSAR-Ansätzen ist die Bestimmung der richtigen Molekular-Konformation für eine Untersuchung. Hat man keine direkte Kenntnis der momentan aktiven Konformation, welche eine biologische Aktivität bedingt, so konnte man bisher lediglich eine fundierte Vermutung machen. CoMFA mit Field-Fit erlaubt jedoch eine quantitative Konformations-Auswahl. Man kann die CoMFA-Softwareprogramme dazu benutzen, in eine separate Datentabelle die Wechselwirkungsenergien jedes Konformators einzugeben und an einen ausgewählten Schablonen-Konformator anzupassen. Dann lassen sich verschiedene Ausmittelungs oder Gewichtungs-Schemata als Anwender-Optionen einsetzen, um den repräsentativsten Konformator festzulegen. Die Wechselwirkungsenergien für die einzelnen Konformationen können auf der Basis vernünftiger Annahmen dafür gewichtet werden, daß eine Wahrscheinlichkeit für gewisse Aktivst-Konformationen gegeben ist, ohne daß man Beiträge von vermutlich weniger aktiven Formen völlig ausschließen müßte. Weil die meisten Konformationen in freier wässriger Lösung bei normalen Temperaturen im Gleichgewicht sein dürften, erlauben es die CoMFA-Programme alternativ, die Gewichtung zum Ausdruck einer Boltzmann-Verteilung über die Energie der Konformatoren zu verwenden. Nur im Fall eines hochlabilen Moleküls (das multiple Rotomere und Tautomere besitzt) würde eine Boltzmann-Verteilung eine ausgefranste und bedeutungslose Durchschnitts-Kugel ergeben. CoMFA mit Field-Fit schafft die Möglichkeit, diese verschiedenen Gewichtungsfunktionen so einzusetzen, daß eine Molekülform bestimmt wird, welche die Rezeptorstelle "aller Wahrscheinlichkeit nach" sehen würde.

PLS: Teil-Fehlerquadratrechnung

Wie oben erwähnt, bildete die vorgegebene Unterbestimmtheit einer 3D-QSAR- Tabelle mit viel mehr Spalten als Zeilen herkömmlich ein unlösbares Problem, das die Verwendung zur Formbeschreibung von an Tausenden von Gitterpunkten berechneten Wechselwirkungsenergien verhinderte. Man kann die Werte in der Datentabelle als Gleichungssystem mit viel mehr Unbekannten als Gleichungen ansehen. Beispielsweise können für drei Moleküle die folgenden drei Gleichungen aufgestellt werden:
Value&sub1; = b¹ + A&sub0;&sub0;&sub1;S¹(001) + A&sub0;&sub0;&sub2;S¹(002) + ... ANS¹(N) + a&sub0;&sub0;&sub1;E¹(001) + a&sub0;&sub0;&sub2;E¹(002) + ... anE¹(N)
Value&sub2; = b² + A&sub0;&sub0;&sub1;S²(001) + A&sub0;&sub0;&sub2;S²(002) + ... ANS²(N) + a&sub0;&sub0;&sub1;E²(001) + a&sub0;&sub0;&sub2;E²(002) + ... aNE²(N)
Value&sub3; = b³ + A&sub0;&sub0;&sub1;S³(001) + A&sub0;&sub0;&sub2;S³(002) + ... ANS³(N) + a&sub0;&sub0;&sub1;E³(001) + a&sub0;&sub0;&sub2;E³(002) + ... aNE³(N)
Darin sind Values die gemessenen biologischen Aktivitäten jedes Moleküls; bx ist der Achsenabschnitt für jede Gleichung beim Molekül x; A... und a... sind die Koeffizienten der sterischen und elektrostatischen Terme, welche die relativen Beiträge jeder räumlichen Lage ausdrücken, wobei die lndices sowohl verschiedene Koeffizientenbeträge als auch Gitterpunkte anzeigen, denen die betreffenden Werte zugeordnet sind; Sx(N) und Ex(N) sind die für die die Gitterstelle N berechneten sterischen bzw. elektrostatischen Wechselwirkungsenergien für das Molekül x, wobei N im Bereich von 1 bis zur Höchstzahl der Gitterpunkte liegt. Die Teil-Fehlerquadratmethode (PLS) der mehrdimensionalen Analysis "löst" dieses anscheinend unterbestimmte Gleichungssystem durch eine Reihe von orthogonalen Rotationen im Überraum der Matrizen mit sowohl unabhängigen als auch abhängigen Variablen, wobei jede Rotation die Gemeinschaftlichkeit zwischen den Matrizen mit unabhängigen und abhängigen Variablen maximiert. (im Gegensatz hierzu werden bei der klassischen Kleinstquadrat-Regression die Spalten mit unabhängigen Variablen einzeln und unabhängig rotiert, nicht zusammen, so daß für jeden abgeschätzten Koeffizienten ein Freiheitsgrad verbraucht wird.) Die mit PLS ermittelte Gleichungslösung ist die Gruppe von Koeffizienten-Werten, welche am ehesten jede Gleichung erfüllen. PLS ist besonders günstig für CoMFA, weil damit nur zwei Vektor-Matrix-Multiplikationen verbunden sind, die Berechnung aufgrund von Rohdaten durchführbar ist und große Aufgaben auf einer kleineren Rechenanlage lösbar sind.
Zur Anwendung bei CoMFA hat man eine bedeutsame Verbesserung von PLS geschaffen, wobei die anfängliche PLS-Lösung in den ursprünglichen Datenraum zurückgerollt wird, so daß die als Lösung mittels des ursprünglichen metrischen Raums (in diesem Falle durch Energiewerte) erhaltenen Term-Koeffizienten neu ausgedrückt werden. Weil diese Lösung für jede Spalte der Datentabelle eine potentiell von Null verschiedenen Koeffizienten (tatsächlich 2 je Gitterpunkt) enthält, läßt sie sich im dreidimensionalen Raum darstellen und konturieren, wie jeder andere Ausdruck auch, der numerische Werte mit bekannten Orten im Raum in Verbindung bringt.
Mit dem Auffinden einer "Lösung" durch PLS ist automatisch eine zyklische Vergleichstest-Prozedur verbunden. Sie bewertet ein Modell nicht danach, wie gut es zu den Daten paßt, sondern wie gut es solche vorhersagt. Zwar ist das Vergleichstest-Verfahren in vielen Fällen nützlich, doch ist es bei der Validierung von unterbestimmten CoMFA-3D-QSAR-Tabellen mit Vorsicht anzuwenden. Als statistisches Maß für die Zuverlässigkeit einer PLS-Lösung berechnet man ein Vergleichstest- (oder Vorhersage-) r² analog zur Definition eines herkömmlichen r² wie folgt:
Vergleichstest r² SD-PRESS / SD,
wobei SD die Summe über alle Moleküle der quadratischen Abweichungen jedes biologischen Parameters vom Mittelwert ist und PRESS (= Vorhersage-Quadratsumme, Predictive Sum of Squares) die Summe über alle Moleküle der quadrierten Differenzen zwischen den tatsächlichen und den vorhergesagten biologischen Parametern bedeutet. Ein negatives Vergleichstest r² entsteht, wenn PRESS größer als SD ist, wenn also die biologischen Parameter durch den Mittelwert aller Meßwerte besser abgeschätzt werden als durch die gerade betrachtete Lösung.
Bei PLS geschieht der Einbau der Vergleichstest-Prozedur wie folgt: Zunächst wird die gesamte 3D-QSAR-Datentabelle mittels PLS durchgerechnet und eine Komponente im Überraum (hyperspace) herausgezogen. [Die Projektion dieser Komponente auf sämtliche Orthogonalebenen im Überraum liefert auf allen Ebenen Komponenten, welche die gesuchten Gleichungskoeffizienten sind.] Die PLS- Rechnung wird dann wiederholt (mit neu abgeleiteten Gleichungskoeffizienten), wobei ein zufällig gewähltes Molekül (Zeile) ausgeschlossen wird. Die resultierenden Koeffizienten werden dazu verwendet, den biologischen Wert für das ausgeschlossene Molekül (Zeile) zu berechnen bzw. vorherzusagen, und man berechnet ein neues r². [In der Praxis ermöglicht es das Softwareprogramm auch, Zufalis-Untergruppen von Molekülwerten auszuschließen und die ausgeschlossenen biologischen Werte zu berechnen. Dies vermindert den Zeitaufwand, der zur Berechnung einer ersten Koeffizientengruppe benötigt wird. Bei einer vollständigen Einzeirechnung wird jedes Molekül (Zeile) einzeln ausgeschlossen.) Diese Prozedur mit Weglassung, erneuter Ableitung und Vorhersage wird wiederholt, bis jeder biologische Parameter Wert durch eine Koeffizientengruppe vorhergesagt ist, aus deren Ableitung er ausgeschlossen war. Fig. 2 zeigt schematisch den Vergleichstest-Ablauf. Man beachte, daß bzw. wie die mittels PLS ohne die ausgeschlossene Zeile abgeleiteten Lösungskoeffizienten zusammen mit den Wechselwirkungswerten von der in der Gleichung ausgeschlossenen Reihe zur Vorhersage des biologischen Werts des ausgeschlossenen Moleküls benutzt werden.
Für jeden Vergleichstest-Zyklus werden Werte von r² und PRESS berechnet. Ergibt sich keine Korrelation unter den Daten, so liefern die abgeleiteten Koeffizienten keine sinnvollen Vorhersagewerte und PRESS ist größer als SD. Die r²- Werte geben an, wie gut die aus einer Ausblendung gewonnenen Komponenten sind.
Der Beitrag der bereits erhaltenen ersten Komponente wird sodann aus dem Matrix-Überraum entfernt, eine zweite PLS-Rechnung durchgeführt und noch eine Komponente herausgezogen. Eine weitere Vergleichstest-Runde wird durchgeführt, wobei wiederum der Zyklus mit Weglassung, Neuableitung und Vorhersage vollzogen wird. Der Anwender gibt an, wie oft die Ausblendungs-Vergleichstest- Prozedur wiederholt wird. Die herausgezogenen Komponenten werden addiert, in den Datenraum zurückgeführt und die resultierenden Koeffizienten erzeugt.
Das Ergebnis der PLS-Vergleichstest-Rechnung aufgrund der Datentabelle ist eine Koeffizientengruppe (je einer pro Spalte in der Datentabelle), die bei Anwendung in einer linearen Gleichung, welche die Spaltenwerte zu gemessenen biologischen Werten in Beziehung setzt, die beobachteten biologischen Eigenschaften am besten vorhersagt, und zwar mittels Energiefeld-Differenzen unter den Molekülen der Datengruppe an jedem einzelnen der herausgegriffenen Gitterpunkte.

Graphische Wiedergabe

Der abschließende Schritt bei CoMFA besteht in der Wiedergabe der analytischen Ergebnisse auf eine für den Biochemie-Forscher sinnvolle Weise. Allgemein sind das menschliche Auge und das Gehirn bei der Erkennung von komplexen Mustern viel geschickter in einem Bild als in einer Zahlentabelle. Auf einzigartige Weise kann man mit CoMFA-Outputs diesen gegebenen Vorteil der graphischen Darstellbarkeit ausnutzen, weil die drei Dimensionen der Eingangsdaten durchgängig beibehalten werden. Chemiker, die CoMFA anwenden, gehören ja zu den am stärksten visuell orientierten Wissenschaftler-Gruppen. Zusätzlich zu seiner Leistungsfähigkeit ist CoMFA daher auch sehr viel stärker graphisch orientiert als andere 3D-QSAR-Ansätze, und zwar sowohl hinsichtlich der Eingaben (Molekularmodelle) als auch hinsichtlich der Ausgabe (Streubilder und Konturkarten). Die einzige Zahl, auf die der Endanwender achten muß, ist das Vergleichstest-r², die Gütezahl für eine CoMFA-Rechnung.
Man erkennt, daß die gemeinschaftlich geformten Bereiche unter den Testmolekülen nicht stark zur Lösung beitragen, was auf der Art beruht, wie die CoMFA- 3D-QSAR-Methodik aufgebaut ist, nämlich als Versuch, Unterschiede der biologischen Aktivität mit Formunterschieden in Beziehung zu setzen. Auch werden sich nicht alle Gebiete mit Formunterschieden in größeren Beiträgen zur Lösung ausdrücken, sondern nur solche Formunterschieds-Bereiche, die eng mit den biologischen Differenzen verbunden sind. Es ist eine bedeutsame Errungenschaft der vorliegenden Erfindung, daß ihr Lösung der 3D-QSAR-Datentabelle für die Wechselwirkungsenergien einen quantitativen Vergleich der Molekularform schafft. Wegen der Rückführung der PLS-Lösung in die Datengruppe haben die festgelegten Koeffizienten ferner gleiche Einheiten wie die Datenwerte, und infolgedessen gibt jeder Term seinen Funktions-Beitrag in den gleichen Einheiten wieder, in denen er abgeleitet wurde, d.h. als Wechselwirkungsenergie. Je größer der Betrag eines Koeffizienten ist, desto stärker ist allgemein seine zugeordnete räumliche Lage mit den beobachteten biologischen Differenzen in Verbindung zu setzen. Das Vorzeichen des Koeffizienten steht in Beziehung zum Vorzeichen der Änderungs-Auswirkung auf die biologische Differenz.
Weil die Lösung den Spaltenaufbau der Datentabelle beibehält, sind ferner die Terme der Lösung den Positionen im dreidimensionalen Raum (Gitterkoordinaten) eindeutig zugeordnet. Eine graphische Darstellung in den drei Dimensionen der Term-Werte (Gitterpunkt für Gifferpunkt) führt daher zur Wiedergabe derjenigen Raumbereiche, welche für die Vorhersage von Änderungen der Molekularfunktionsweise am stärksten verantwortlich sind. Zu Vergleichs- und Untersuchungszwecken können für jeden Punkt verschiedene, jeden einzelenen Term representierende Werte dargestellt werden:
1) die Standardabweichung der Spaltenwerte mal 3D-QSAR-Koeffizient;
2) nur der 3D-QSAR-Koeffizient;
3) nur die Standardabweichung der Spalte;
4) der Spaltenwert für eines der Moleküle;
5) der Spaltenwert für ein Molekül mal 3D-QSAR-Koeffizient; oder
6) irgendwelche Daten von einer Fremddatei.
Die Werte für sterische und elektrostatische Terme können getrennt oder kombiniert wiedergegeben werden.
Man verwendet zwei Verfahren der graphischen Wiedergabe. Zum einen können die Terme in Form von dreidimensionalen farbkodierten Streubildern dargestellt werden, welche den Betrag und das Vorzeichen der Zuordnungen zwischen Energiefeld-Änderung und biologischer Aktivität an jedem Gitterpunkt darstellen. So zeigen in Fig. 3A blaue Punkte Lösungskoeffizienten, deren Werte angeben, daß zunehmende Molekülgröße in der Nähe die Molekül-Bindung verstärkt, während gelbe Bereiche andeuten, daß ein Größenzuwachs in der Nähe zur Abnahme der Molekülbindung führen würde. Das ursprünglich zum Einbringen der Moleküle in das Gitter benutzte Molekül-Modellbildungsprogramm kann dazu benutzt werden, irgendeines der Moleküle aus der Datengruppe auf die dreidimensionale Wiedergabe zu überlagern, so daß die farbigen Signifikanz-Bereiche mit spezifischen Atomstellen noch leichter erkennbar sind, wie in Fig. 4A gezeigt.
Die andere Methode der Veranschaulichung von Information besteht in räumlichen Konturbildern. Dabei verbinden Konturlinien jeweils Punkte (Terme) mit ähnlichen Werten im Gitterraum. Die Konturen bilden Polyeder und schließen einen Raum ein, worin die Werte höher oder niedriger als ein vom Anwender vorgegebener Begrenzungswert sind. Auf jeder Karte umgeben die farbigen Polyeder alle Gitterpunkte, wo gemäß CoMFA eine starke Zuordnung von Feldwert-Änderungen zu Unterschieden der biologischen Parameter besteht. Fig. 3B zeigt ein Konturbild für sich, während Fig. 4B ein Konturbild mit einem für Untersuchung und Vergleich überlagerten Molekül aus der Datengruppe veranschaulicht.
Diese Wiedergaben zeigen dem Anwender deutlich, wo entweder vergrößertes sterischen Volumen oder erhöhte elektrostatische Wechselwirkung in einem Bereich mit größerer biologischer Affinität in Beziehung steht. Umgekehrt werden auch solche Bereiche dargestellt, wo ein sterischer Volumenzuwachs oder eine zunehmende elektrostatische Wechselwirkung die biologische Affinität stören (mit ihr in negativer Beziehung stehen).
Man kann CoMFA-Karten nicht nur als dreidimensionale Darstellungen von Molekularformen ansehen, die signifikante Beziehung zur biologischen Funktionsweise haben, sondern auch als Karten der Rezeptorräume. Bei dieser Betrachtung drücken höhere Wechselwirkungsbereich die stereospezifischen Ausrichtungs-Erfordernisse des Rezeptors aus. Die Karte der sterischen Terme zeigt die sterischen Erfordernisse an der Rezeptorstelle an, und die Karte der elektrostatischen Terme zeigt die elektrostatischen Erfordernisse an der Rezeptorstelle. Bei Kombination mit auf andere Weise erlangter chemischer Kenntnis der Rezeptorstelle kann diese Information zu interessanten und vorhersagefähigen Einsichten in die Beschaffenheit der Rezeptorstelle führen. Dieses Verfahren hebt sich deutlich verschieden vom Stand der Technik ab, z.B. von der Abstandsgeometrie-Methode, weil keine Vermutungen bezüglich der speziellen Orte der Atome an der Rezeptorstelle notwendig sind, ehe das 3D-QSAR erstellt ist. Vielmehr wird bei CoMFA die spezifische sterische und elektrostatische Information über die Rezeptorstelle vom 3D-QSAR abgeleitet. Zu erwähnen ist ein warnender Hinweis betreffend Überinterpretation der Konturkoeffizienten-Karten als Rezeptorkarte. Bei einem stark unterbestimmten System, wie es CoMFA mit sehr viel mehr auszuwertenden Koeffizienten als Verbindungen ist, kann eine Anzahl von 3D-QSAR-Lösungen der Datengruppe existieren, welche gleichermaßen zu irgendeiner gegebenen Gruppe von Verbindungen und Daten paßt.
Dies mindert zwar nicht die Vorhersagefähigkeit oder die Lösungsauffindung mit der PLS-Vergleichstest-Methode, doch ergibt sich daraus, daß bei der Deutung der Endkarte als Rezeptorstellenkarte Vorsicht angebracht ist.
Schließlich läßt sich die CoMFA-Karte drehen bzw. wenden und aus beliebigem Winkel betrachten, um die darin enthaltene raumspezifische Information noch besser zu erfassen.

Vorhersagekraft

Ein mit der vorliegenden Erfindung erzielter wichtiger Fortschritt gegenüber dem Stand der Technik ist die Fähigkeit, das wahrscheinliche biologische Verhalten eines nicht in der ursprünglichen Datengruppe enthaltenen Moleküls quantitativ vorherzusagen. Ein starker Anstoß zur Weiterentwicklung zur 3D-QSAR für die Beschreibung von intermolekularen Anlagerungen ist, daß deren Verständnis die Konstruktion von Molekülen mit noch höherer biologischer Affinität ermöglichen sollte als bei den gegenwärtig bekannten Konstruktionen. Eine Anwendung dieses Potentials wäre dann die Schaffung von neuen und noch leistungsfähigeren bzw. selektiveren Medikamenten. Soweit nach dem Stand der Technik Vorschläge für veränderte Molekularstrukturen auf der Basis der Ergebnisse von QSAR-Rechnungen gemacht werden konnten, war es nötig, das vorgeschlagene Molekül synthetisch herzustellen und es in dem einschlägigen biologischen System zu testen, bevor man noch wußte, ob eine gewünschte Änderung erreicht worden war. Die vorliegende Erfindung erlaubt hingegen die sofortige Prüfung vorgeschlagener Molekül-Modifikationen im Vergleich mit der CoMFA-Musterlösung. Aufgrund der räumlichen Bereiche, die mit CoMFA als signifikant für die biologische Aktivität ermittelt wurden, kann man daher eine neue Molekular-Konfiguration planen. Das vorgeschlagene Molekül kann in die Gitterstruktur eingebracht und darin ausgerichtet werden, man kann seine Wechseiwirkungsenergien berechnen und in eine 3D-QSAR-Gleichung unter Verwendung der Koeffizienten einsetzen, die aus der ursprünglichen Datentabelle abgeleitet wurden. Die Gleichung ergibt einen biologischen Vorhersagewert für das Molekül.
Die für das vorgeschlagene Molekül berechneten Wechselwirkungsenergien können auch dargestellt und mit den anfänglichen CoMFA-Raumkarten verglichen werden. Aus der resultierenden Wiedergabe kann man unmittelbar erkennen, ob die bei der Molekülkonstruktion vorgenommenen Änderungen den gleichen höheren Wechselwirkungsenergie-Termen und räumlichen Bereichen entsprechen, wie mittels CoMFA vorhergesagt. Es wurde festgestellt, daß die CoMFA-Methodik in solchen Fällen den biologischen Wert vorgeschlagener Moleküle mit hoher Genauigkeit vorhersagt, in denen die Moleküle synthetisch hergestellt bzw. getestet worden oder bei Erstellung der CoMFA-Rechnung noch unbekannt waren. Mithin liefert die vorliegende Erfindung einen quantitativen Prozeß für die Strukturuntersuchung von noch nicht hergestellten Molekülen zur Bestimmung ihrer wahrscheinlichen biologischen Aktivität. Die Bedeutung dieses Potentials für alle Aspekte der Mediko- und Biochemie ist kaum zu überschätzen.
Die CoMFA-Methodik erlaubt ferner den Zugriff auf Moleküle mit erwünschten Strukturen aus Datenbanken von Molekülen, deren Form durch Wechselwirkungsenergien beschrieben ist. Es kann sich sogar herausstellen, daß unverdächtige, nie in einem gegebenen biologischen System getestete Moleküle die richtige Gestalt haben, um ebensogut in Wechselwirkung zu treten wie die bekannten Moleküle oder noch besser.
CoMFA-Ergebnisse können den Anwender auch zur Bestimmung des an der Molekül-Wechselwirkung momentan beteiligten Konformators führen. Wie oben erwähnt, stellt die CoMFA-Endwiedergabe diejenigen Volumengestaltungen dar, die biologischen Aktivitätsunterschieden am stärksten zugeordnet sind. Der Anwender kann eine beliebige Molekular-Konformation, die - entweder als Stäbchenmodell oder in Wechselwirkungsenergie-Form - bei der Erstellung der 3D-QSAR-Tabelle benutzt wurde, der Lösungs-Wiedergabe überlagern, um die Gestalt jener Konformation mit den kritischen Volumengestaltungen zu vergleichen.
In gewissem Ausmaß muß eine Korrelation bestehen, weil die Lösung aus einer Tabelle abgeleitet wird, die alle Konformationen enthält. Man kann jedoch diejenige Konformation, welche den Anforderungen des Lösungsraumes am nächsten kommt, als Hauptkonformation für die Erstellung einer weiteren 3D-QSAR- Tabelle verwenden. Sind die Vorhersagewerte r² für die neue Tabellen-Lösung höher als für die erste Lösung, so ist die ausgewählte Konformation wahrscheinlich die aktive. Man kann dieses Verfahren so oft wiederholen, wie der Anwender dies für nötig erachtet.
Das Verfahren der vorliegenden Erfindung ermöglicht es, die Probiermethoden für die Konstruktion von Medikamenten beträchtlich zu verringern, mit entsprechenden Einsparungen an Zeit, Energie und Geld. Extensive Verwendung von CoMFA wird auch zu einer schnelleren Entwicklung von lebensrettenden Medikamenten führen. Wie bereits erwähnt, läßt sich CoMFA auch für andere Arten von intermolekularen Anlagerungen einsetzen, z.B. Untersuchungen des Antigen-Antikörper- Bindungsverhaltens und Änderungen an der Rezeptorstelle von genetisch veränderten Enzymen. Man braucht dazu nur eine gewisse Kenntnis der jeweiligen Molekülumgebung, z.B. die Röntgenkristalistruktur des Enzyms und die Kenntnis, wie substituierte Aminosäuren in die Röntgenstruktur einpaßbar sind. Die Erläuterung der vorliegenden Erfindung durch Substrat-Enzym-Bindungsaffinitäten ist als repräsentativ für die gegenwärtige Gebrauchstüchtigkeit von CoMFA zu verstehen, nicht jedoch als irgendeine Form von Begrenzung der allgemeinen Methodik bzw. Verfahrensführung gemäß der Erfindung. Es wird sogar angenommen, daß die volle Bedeutung des Verfahrens erst später erkannt werden wird, weil die erstellten räumlichen Karten ein so außerordentlich leistungsfähiges Hilfsmittel für die Untersuchung von intermolekularen Anlagerungen sind.

CoMFA -Anwendung

Die vorliegende Erfindung dient dazu, in Verbindung mit einer Molekular-Modellbildungs-Anlage verwendet zu werden, von denen mehrere gegenwärtig handelsüblich sind. Diese Anlagen haben verschiedene Hardware- und Wiedergabe- Leistungsfähigkeit, und es gibt verschiedene Software-Ausgestaltungen. Für die Praxis der Erfindung sind jedoch die Berechnungs- und Wiedergabefunktionen besonders nützlich, die gleichwertig den Molekül-Modellbildungs-Geräten der Evans-Southerland-Reihe 300 sind.
Figur 6 bis 9 sind Software-Fließdiagramme, welche die CoMFA-Methodik der Erfindung veranschaulichen. Dabei werden sechs Abschnitte von CoMFA-spezifischem Software-Code benutzt: FFIT.C, EVAL.C, PLS.FOR, MAP.C, Q3DEF.C und DABDEF.C. Schematisch zeigt Figur 5, wie diese sechs CoMFA-spezifischen Programme mit einer Standardanlage für Molekül-Modellbildung integriert sind. FFIT.C, EVAL.C, PLS und MAP.C sind reine Programme, während Q3DEF.C eine Datenbeschreibung sämtlicher Daten ist, nach denen die CoMFA-Programme Ausschau halten; DABDEF.C enthält den globalen Datenaufbau für Software, welche Datentabellen verwaltet. Wie oben erwähnt, sind verschiedene Programme handelsüblich, die dazu verwendet werden können, interessierende Moleküle und deren Konformatoren in den dreidimensionalen Gitterraum einzubauen; erfinderseitig wurde allerdings das Programm SYBYL von Tripos Associates, Inc. verwendet. Für die Verwaltung von Zahlentabellen wurde das DABYL-Programm von Tripos Associates, Inc. eingesetzt, doch gibt es funktionell gleichwertige Software z.B. mit dem Programm RS/1 von BBN Software, Cambridge, MA.
Die erfindungsgemäße Methodik sieht vor, daß der Anwender die Eingabe- Optionen bzw. -Parameter auswählt. Die Daten-Strukturen für die Eingabe- Optionen bzw. -Parameter sind in Q3DEF.C festgelegt, während DABDEF.C Datenstrukturen für das Programm zur Datenverwaltung festlegt. EVAL.C erzeugt eine 3D-QSAR-Tabelle aus der Information, die vom Molekül-Modellbildungs- Programm und durch Eingabe der biologischen Parameter bereitgestellt wird. FFIT.C führt die Field-Fit-Ausrichtung durch, um Moleküle passend auszurichten, entweder Konformatoren oder die Moleküle der getesteten Reihen. PLS führt die Teil-Fehlerquadrat-Rechnung sowie den Vergleichstest der mittels EVAL.C geschaffenen 3D-QSAR-Tabelle aus. Schließlich erzeugt MAP.C die Raumkarten für die Graphik-Ausgabe. Wenn es erwünscht ist, eine Molekülstruktur den Output-Karten der CoMFA-Methodik zu überlagern, kann man die Standard-Programme für die Molekül-Modellbildung dafür verwenden.
Die CoMFA-Software-Programme versehen den Anwender mit einer Anzahl von Optionen für die Ausnutzung der vollen Leistungsfähigkeit erfindungsgemäßer CoMFA. Nachstehend wird die Liste der Optionen vollständig aufgeführt:

Field Fit

1) Berechnungen können entweder in "interaktivem" Modus, wobei der Fortgang auf einem Terminal beobachtet wird, oder "chargenweise" getrennt ausgeführt werden, wobei die Beendigung dem Anwender signalisiert wird.
2) Die Gewichtung der Gitterpunkte kann entweder: gleichmäßig; nach QSAR- Koeffizienten; oder durch Gewichtungs-Vorgaben des Anwenders erfolgen.
3) Die sterischen und elektrostatischen Komponenten können entweder unabhängig behandelt oder aufsummiert werden.
4) Gesamt-Verschiebungen bzw. Rotationen können ein- oder ausgeschlossen sein.
5) Torsionsdrehungen können ein- oder ausgeschlossen sein, bei Einschluß unter Anwender-Vorgabe welcher Torsionsdrehungen.
6) Wie weit ist das Molekül bei einem Versuch zu bewegen? (Anfangswert verändert sich mit Fortgang der Simplex-Minimierung.)
7) Konvergenz-Kriterium: Wie klein muß die Geometrie-Änderung in aufeinanderfolgenden Schritten sein, bevor Field-Fit als erfolgt angesehen wird?
8) Maximalanzahl von Schritten, bevor Field-Fit beendet ist, ohne Rücksicht darauf, ob Konvergenz eingetreten ist.
9) Das Schablonenfeld ("target") kann von einem einzelnen Molekül (Konformator) oder von mehreren zusammen gemittelten Molekülen (Konformatoren) genommen werden.
10) im interaktiven Modus (Punkt 1 oben): sind Zwischenergebnisse alle 10 Schritte darzustellen?
11) im interaktiven Modus und mit Wiedergabe von Zwischenergebnissen: soll der Anwender nach jeder Wiedergabe zur Fortsetzung gefragt werden?
12) Handelt es sich um normales Feld-Fit oder um ein "Andock"-Field-Fit (mit der Zielsetzung der Differenz-Maximierung durch Field-Fit-Anwendung auf das Komplement zum Schablonenfeld)?
13) Was ist zu tun, um das Ergebnis von Field-Fit zu bewahren? Die Optionen sind: Nichts, Überschreiben in einen äußeren Speicher, Rückführung des Moleküls in die Datenbank.

EVAL.C

1) Die Art von Ausrichtung, die auf den Molekül-Konformatoren auszuführen ist. Die Optionen sind: Keine, FIT, ORIENT, Field-Fit.
2) Sind die Ausrichtungs-Ergebnisse wieder in der Datenbank zu speichern?
3) Sollte die Energie geglättet werden? (In diesem Fall ist der QSAR-Tabellenwert an einem Gitterpunkt der Durchschnitt aus dem Momentanwert und 9 anderen, um diesen Punkt in gleichmäßigem Abstand verteilten Punkten.)
4) Element- bzw. Hybridisierungs-Zustand des Sondenatoms (steuert dessen sterische bzw. Van-der-Waals-Eigenschaften).
5) Ladung des Sondenatoms (steuert seine elektrostatische Wirkung).
6) Methode zur Abschätzung Van-der-Waals-Parameter (Standard-SYBYL- Methode oder berechnet nach Scott/Scheraga - der Bezug auf Scott/Scheraga ist im Code selbst enthalten).
7) Van-der-Waals-Abstoßungsexponent (üblicher Wert: 12).
8) Elektrostatischer Exponent (üblicher Wert 2, gleichwertig einem l/r-Dielektrikum).
9) Höchster sterischer Wert zur Aufzeichnung in der 3D-QSAR-Tabelle (gewöhnlich 30 kcal/mol).
10) Höchste zu betrachtende Energiekonformation bei Darstellung des Moleküls als Durchschnitt von Konformationen (wobei überhohe Energiekonformatoren verschwindend kleine Beiträge zur Gesamtform liefern).
11) Ist eine Spalte der 3D-QSAR-Tabelle auszuschließen, wenn eine beliebige Verbindung in der QSAR-Tabelle einen maximalen sterischen Wert beiträgt?
12) Sind am Terminal die Kennzeichnungen von ausgeschlossenen 3D-QSAR- Spalten aufzulisten (diese treten stets auf, wenn bei einem Wert entlang einer Spalte in der Tabelle kein Unterschied vorkommt, weil alle Verbindungen einen maximalen sterischen Wert an diesem Gitterpunkt haben)?

PLS. FOR

1) Ist ein Vergleichstest auszuführen? Wenn ja, Anzahl der Vergleichstest- Gruppen.
2) Ist "Urladen" (bootstrapping) auszuführen? Wenn ja, Anzahl der Urlade- Versuche.
3) Anzahl der abzufragenden Komponenten.
4) Ist Autoskalierung von Daten einzelner Spalten vorzusehen (Skalierung derart, daß der Werte-Durchschnitt 0.0 und die Standard-Abweichung 0, ist)? [Dieser spezielle Ablauf wird bei CoMFA nicht empfohlen, steht jedoch als allgemeine Routine bei PLS-Benutzung zur Verfügung.]
5) Gibt es eine Relativ-Gewichtung der Spalten? Bei Einschluß anderer Eigenschaften wie log P ist es notwendig, ihnen zusätzliches Gewicht für die Konkurrenz mit der großen Anzahl von Felddeskriptor-Spalten zu geben.)
6) Konvergenz-Kriterien, speziell Epsilon, Anzahl der Iterationen, zur Verwendung innerhalb von PLS selbst. (Ein Warnhinweis wird gedruckt, wenn eine PLS-Runde dadurch beendet wird, daß die Anzahl der Iterationen überschritten wird, statt daß eine Differenz kleiner als Epsilon erhalten würde.)

MAP.C

1) Welche Quelle der 3D-Daten wird für die Graphik, Konturzeichnung oder Auflistung verwendet? Die Optionen sind: (1) Spalten-Standardabweichung mal QSAR-Koeffizient; (2) nur Spalten-Standardabweichung; (3) nur QSAR Koeffizient; (4) Spaltenwert für eine einzelne Verbindung; (5) Spaltenwert für eine einzelne Verbindung mal QSAR-Koeffizient; (6) Fremddatei.
2) Welcher Aspekt der 3D-Daten soll geplottet oder konturgezeichnet werden? Zur Wahl stehen: sterisch, elektrostatisch, sowohl sterisch als auch elektrostatisch in verschiedenen Wiedergabe-Bereichen.
Die CoMFA-Methodik ist vorstehend unter Bezug auf besondere Anwendungen erläutert worden. Die Anwendung der Methodik auf andere Gebiete liegt jedoch ebenfalls im Schutzumfang der Erfindung.

Claims

1. Computergestütztes Verfahren zum Erzeugen und Sichtbarmachen einer dreidimensionalen quantitativen Struktur-Aktivitäts-Beziehung (3D-QSAR) einer Reihe von Molekülen aufgrund der Annahme, daß relevante biologische Parameter, z.B. Bindungs-Affinität, mit einer Linearkombination gewichteter Beiträge einer Anzahl von Form-Deskriptoren für jedes Molekül der Reihe korrelieren, gekennzeichnet durch folgende Verfahrensschritte:

a) Definieren von Molekülform-Deskriptoren für jedes Molekül (x) der Reihe durch Computer-Berechnung zumindest sterischer (Sx(N)) und elektrostatischer (Ex(N)) Wechselwirkungs-Energien zwischen einer mathematischen Darstellung einer Sonde und dem Molekül an es umgebenden vorbestimmten Gitterpunkten (N);

b) Bestimmen eines repräsentativen Konformators für jedes Molekül (x) der Reihe derart, daß durch Änderung von Lage und/oder Torsionswinkel eines Konformator-Anwärters dieser sich zu mindestens einem Bezugsmolekül hin ausrichtet;

c) Definieren einer Anzahl von Gleichungen, wobei jede Gleichung einem Molekül der Reihe entspricht und in jeder Gleichung ein gemessener biologischer Parameter (Valuex) des betreffenden Moleküls (x) gleich einer gewichteten Linearkombination der Molekülform-Deskriptoren (Sx(N), Ex(N)) gesetzt wird, wobei die Koeffizienten (bx, A&sub0;&sub0;&sub1;, A&sub0;&sub0;&sub2;, ..., AN, a&sub0;&sub0;&sub1;, a&sub0;&sub0;&sub2;, ..., aN) der gewichteten Linearkombination unbekannt sind und wobei die Anzahl von Gleichungen ein Gleichungssystem bildet, das viel mehr Unbekannte als Gleichungen aufweist;

d) Gewinnen einer Anfangslösung für das Gleichungssystem durch Anwendung einer Teil-Fehlerquadratmethode (PLS) der mehrdimensionalen Analysis, wobei die Anfangslösung von derjenigen Gruppe von Koeffizienten gebildet wird, die einer Erfüllung jeder Gleichung am nächsten kommt;

e) Berechnen eines Vergleichstest-Parameters (r²) zur Feststellung, wann die biologischen Parameter durch den Mittelwert aller gemessenen Werte besser abgeschätzt werden als durch die bei Anwendung der PLS-Lösung erhaltenen Werte;

f) Beginnen einer zyklischen Vergleichstest-Prozedur, so daß

f1) durch Ausschließen mindestens einer Gleichung aus dem Gleichungssystem und durch Wiederholung der PLS-Analysis an einem somit reduzierten Gleichungssystem eine Alternativgruppe von Gleichungskoeffizienten gefunden wird (CINTERCEPT, A001', ..., AN', A001'..., aN'; Fig. 2);

f2) die Alternativgruppe von Gleichungskoeffizienten dazu benutzt wird, den biologischen Parameter (V) desjenigen Moleküls vorherzusagen, das der ausgeschlossenen Gleichung entspricht;

f3) der Vergleichstest-Parameter (r²) neu zur Feststellung berechnet wird, ob die Alternativkoeffizienten bessere Vorhersagewerte liefern;

f4) der Vergleichstest-Zyklus ab Schritt f1) wiederholt wird, so daß wenigstens eine weitere Gleichung aus dem Gleichungssystem ausgeschlossen wird;

g) Wiederholen des Vergleichstest-Zyklus so oft, wie ein Benutzer vorgibt, dem für gefundene Lösungs-Terme repräsentative Werte unter Anwendung von Computergrafik sichtbar dargestellt werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß im Schritt b) ein am ehesten repräsentativer Konformator mittels einer Field-Fit-Ausrichtungsroutine derart bestimmt wird, daß man die Effektivwert-Differenz der Summe der über alle Gitterpunkte gemittelten sterischen und elektrostatischen Wechselwirkungsenergien zwischen dem Konformator-Anwärter und mindestens einem Bezugsmolekül durch Ändern von Lage und/oder Torsionswinkel des Konformator-Anwärters minimiert.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß Schritt b) mittels der Orient-or-Fit-Methode (Ausrichten oder An-/Einpassen) ausgeführt wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Wechselwirkungsenergien gemäß einer Boltzmann-Verteilung über die Konformatorenergien gewichtet werden.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Lösungs-Terme in Punkten des Gitter-Raums entsprechenden dreidimensionalen Streu-Diagrammen dargestellt werden, wobei letzteren wahlweise ein Molekularmodell überlagert wird.

6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Lösungs-Terme in dreidimensionalen Kontur-Diagrammen dargestellt werden, die Volumina im Gitter-Raum definieren, wobei den Kontur-Diagrammen wahlweise ein Molekularmodell überlagert wird.

7. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Minimieren gemäß der Simplex-Methode erfolgt.

8. Verfahren nach Anspruch 2 oder Anspruch 7, dadurch gekennzeichnet, daß die Ausrichtung des Konformator-Anwärters und eines Bezugsmoleküls dargestellt wird.

9. Verfahren nach einem der Ansprüche 2, 7 oder 8, dadurch gekennzeichnet, daß zusätzlich der Beitrag zur Minimierung derjenigen Gitterstellen gewichtet wird, die für die Ausrichtung der Moleküle besonders signifikant sein können, und wobei wahlweise die Auswirkung der gewählten Gewichtungen auf die Molekular-Ausrichtung dargestellt wird.

10. Verfahren nach einem der Ansprüche 2, 7, 8 oder 9, dadurch gekennzeichnet, daß ferner beispielsweise mittels der Simplex-Methode die Effektivwert-Differenz der berechneten inneren Energien zwischen dem auszurichtenden Molekül (x) und einem Bezugsmolekül durch Veränderung von Torsionswinkeln und innerer Geometrie des Moleküls (x) in vom Benutzer vorgegebenen Einheiten minimiert wird, wobei wahlweise die Molekular- Ausrichtung dargestellt wird.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß in einem zusätzlichen Schritt die Beiträge zur Minimierung von Feld-Differenzen, sterischer Kanten-Abstoßung und unterschiedlichen inneren Energien bei Änderung von Torsionswinkeln und inneren Geometrien gewichtet werden, wobei wahlweise die Auswirkung der gewählten Gewichtungen auf die Molekular-Ausrichtung dargestellt wird.

12. Verfahren zum Bestimmen der wahrscheinlichen biologischen oder chemischen Aktivität eines Testmoleküls, für dessen Grundstruktur ein dreidimensionales Gittermodell durch Vergleich seiner dreidimensionalen Gestalt mit derjenigen anderer Moleküle von bekannter biologischer oder chemischer Aktivität erstellt wurde, gekennzeichnet durch folgende Verfahrensschritte:

i Bestimmen des 3D-QSAR der Moleküle bekannter Aktivität gemäß Verfahren nach einem der vorhergehenden Ansprüche;

ii Ausrichten des Testmoleküls auf die Moleküle bekannter Aktivität; und

iii Anwenden der in Schritt i erhaltenen Lösungskoeffizienten auf die Wechseiwirkungsenergien des Testmoleküls zur Vorhersage des biologischen oder chemischen Parameterwerts des Testmoleküls.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß in einem weiteren Schritt die berechneten Wechselwirkungsenergien für das Testmolekül aufgrund der gemäß Schritt i erhaltenen Lösungskoeffizienten dargestellt werden, um Vergleichsgebiete von Ähnlichkeiten bzw. Unterschieden sichtbar zu machen.

14. Computergestütztes System zum Erzeugen und Sichtbarmachen einer dreidimensionalen quantitativen Struktur-Aktivitäts-Beziehung (3D-QSAR) einer Reihe von Molekülen aufgrund der Annahme, daß relevante biologische Parameter, z.B. Bindungs-Affinität, mit einer Linearkombination gewichteter Beiträge einer Anzahl von Form-Deskriptoren für jedes Molekül der Reihe korrelieren, gekennzeichnet durch:

a) Mittel zum Definieren von Molekülform-Deskriptoren für jedes Molekül (x) der Reihe durch Computer-Berechnung zumindest sterischer (Sx(N)) und elektrostatischer (Ex(N)) Wechselwirkungs- Energien zwischen einer mathematischen Darstellung einer Sonde und dem Molekül an es umgebenden vorbestimmten Gitterpunkten (N);

b) Mittel zum Bestimmen eines repräsentativen Konformators für jedes Molekül (x) der Reihe derart, daß durch Änderung von Lage und/oder Torsionswinkel eines Konformator-Anwärters dieser sich zu mindestens einem Bezugsmolekül hin ausrichtet;

c) Mittel zum Definieren einer Anzahl von Gleichungen, wobei jede Gleichung einem Molekül der Reihe entspricht und in jeder Gleichung ein gemessener biologischer Parameter (Valuex) des betreffenden Moleküls (x) gleich einer gewichteten Linearkombination der Molekülform-Deskriptoren (Sx(N), Ex(N)) gesetzt wird, wobei die Koeffizienten (bx, A&sub0;&sub0;&sub1;, A&sub0;&sub0;&sub2;, ..., AN, a&sub0;&sub0;&sub1;, a&sub0;&sub0;&sub2;, ..., aN) der gewichteten Linearkombination unbekannt sind und wobei die Anzahl von Gleichungen ein Gleichungssystem bildet, das viel mehr Unbekannte als Gleichungen aufweist;

d) Mittel zum Gewinnen einer Anfangslösung für das Gleichungssystem durch Anwendung einer Teil-Fehlerquadratmethode (PLS) der mehrdimensionalen Analysis, wobei die Anfangslösung von derjenigen Gruppe von Koeffizienten gebildet wird, die einer Erfüllung jeder Gleichung am nächsten kommt;

e) Mittel zum Berechnen eines Vergleichstest-Parameters (r²) zur Feststellung, wann die biologischen Parameter durch den Mittelwert aller gemessenen Werte besser abgeschätzt werden als durch die bei Anwendung der PLS-Läsung erhaltenen Werte;

f) Mittel zum Ausführen einer zyklischen Vergleichstest-Prozedur, so daß

f1) durch Ausschließen mindestens einer Gleichung aus dem Gleichungssystem und durch Wiederholung der PLS-Analysis an einem somit reduzierten Gleichungssystem eine Alternativgruppe von Gleichungskoeffizienten gefunden wird (CINTERCEPT, A001', ..., AN', A001', ..., aN'; Fig. 2);

g) Mittel zum Wiederholen des Vergleichstest-Zyklus so oft, wie ein Benutzer vorgibt, und Mittel zum für ihn sichtbaren Darstellen von für gefundene Lösungs-Terme repräsentativen Werten unter Anwendung von Computergrafik.

15. System nach Anspruch 14, dadurch gekennzeichnet, daß im Schritt b) ein am ehesten repräsentativer Konformator mittels einer Field-Fit-Ausrichtungsroutine derart bestimmt wird, daß man die Effektivwert-Differenz der Summe der über alle Gitterpunkte gemittelten sterischen und elektrostatischen Wechselwirkungsenergien zwischen dem Konformator-Anwärter und mindestens einem Bezugsmolekül durch Ändern von Lage und/oder Torsionswinkel des Konformator-Anwärters minimiert.

16. System nach Anspruch 15, dadurch gekennzeichnet, daß Schritt b) mittels der Orient-or-Fit-Methode (Ausrichten oder An-/Einpassen) ausgeführt wird.

17. System nach einem der Ansprüche 14 bis 16, dadurch gekennzeichnet, daß die Wechselwirkungsenergien gemäß einer Boltzmann-Verteilung über die Konformatorenergien gewichtet werden.

18. System nach einem der Ansprüche 14 bis 17, gekennzeichnet durch Mittel zum Darstellen der Lösungs-Terme in Punkten des Gitter-Raums entsprechenden dreidimensionalen Streu-Diagrammen und wahlweise durch Mittel zum Überlagern eines Molekularmodells auf die Streu-Diagramme.

19. System nach einem der Ansprüche 14 bis 17, gekennzeichnet durch Mittel zum Darstellen der Lösungs-Terme in dreidimensionalen Kontur-Diagrammen, die Volumina im Gitter-Raum definieren, und wahlweise durch Mittel zum Überlagern eines Molekularmodells auf die Kontur-Diagramme.

20. System nach Anspruch 19, dadurch gekennzeichnet, daß die Minimierung gemäß der Simplex-Methode erfolgt.

21. System nach Anspruch 15 oder Anspruch 20, gekennzeichnet durch Mittel zum Darstellen der Ausrichtung des Konformator-Anwärters und eines Bezugsmoleküls.

22. System nach einem der Ansprüche 15, 20 oder 21, zusätzlich gekennzeichnet durch Mittel für das Gewichten des Beitrags zur Minimierung derjenigen Gitterstellen, die für die Ausrichtung der Moleküle besonders signifikant sein können, und wahlweise durch Mittel zum Darstellen der Auswirkung der gewählten Gewichtungen auf die Molekular-Ausrichtung.

23. System nach einem der Ansprüche 15 oder 20 bis 22, ferner gekennzeichnet durch Mittel zur Minimierung, beispielsweise mittels der Simplex- Methode, der Effektivwert-Differenz der berechneten inneren Energien zwischen dem auszurichtenden Molekül (x) und einem Bezugsmolekül durch Veränderung von Torsionswinkeln und innerer Geometrie des Moleküls (x) in vom Benutzer vorgegebenen Einheiten und wahlweise durch Mittel zum Darstellen der Molekular-Ausrichtung.

24. System nach Anspruch 23, ferner gekennzeichnet durch Mittel für das Gewichten der Beiträge zur Minimierung von Feld-Differenzen, sterischer Kanten-Abstoßung und unterschiedlichen inneren Energien bei Änderung von Torsionswinkeln und inneren Geometrien und wahlweise durch Mittel zum Darstellen der Auswirkung der gewählten Gewichtungen auf die Molekular-Ausrichtung.

25. System zum Bestimmen der wahrscheinlichen biologischen oder chemischen Aktivität eines Testmoleküls, für dessen Grundstruktur ein dreidimensionales Gittermodell durch Vergleich seiner dreidimensionalen Gestalt mit derjenigen anderer Moleküle von bekannter biologischer oder chemischer Aktivität erstellt wurde, gekennzeichnet durch Mittel zum:

i Bestimmen des 3D-QSAR der Moleküle bekannter Aktivität mit dem System nach einem der Ansprüche 14 bis 24;

ii Ausrichten des Testmoleküls auf die Moleküle bekannter Aktivität; und

26. System nach Anspruch 25, gekennzeichnet durch Mittel zum Darstellen der berechneten Wechselwirkungsenergien für das Testmolekül aufgrund der gemäß Schritt i erhaltenen Lösungskoeffizienten, um Vergleichsgebiete von Ähnlichkeiten bzw. Unterschieden sichtbar zu machen.