-
1.0 GEBIET DER ERFINDUNG
-
Diese
Erfindung bezieht sich auf das Gebiet der Rechnerbiologie. Spezieller
bezieht sich die Erfindung auf ein Rechnersystem und ein Verfahren
zur Erkennung jener Moleküle
in einer Datenbank aus einem oder mehreren Molekülen, die gemeinsam mit einem
oder mehreren Testmolekülen
Substrukturen enthalten, auch wenn die Moleküle in der Datenbank Gruppen
von Atomen enthalten, die sich frei um jegliche kovalente Bindungen
herum drehen können,
die möglicherweise
in derartigen Molekülen
existieren (Torsionsflexibilität).
-
2.0 HINTERGRUND DER ERFINDUNG
-
Da
vorhandene Informationsdepots schneller bearbeitet werden müssen und
eine größere Vielzahl
an Werkzeugen verfügbar
wird, spielt der Rechner eine zunehmend wichtige Rolle bei der Führung und
Rationalisierung des Arzneimittelentdeckungs- und -entwurfsprozesses.
-
Einer
der grundlegenden Bestandteile jüngerer
Vorgehensweisen auf dieser Linie von Forschungsbemühungen war
der Wunsch, molekulare Eigenschaften, die auf den grundlegendsten
Niveaus von Arzneimittelwechselwirkung involviert sind, zu berechnen,
zu katalogisieren und nach ihnen zu suchen.
-
Speziell
können
Rechner den Forschern helfen, rasch a priori aussichtslose Kandidaten
zu eliminieren, um so langwierige und kostenintensive Aktivitätssichtungen
zu vermeiden. Wichtiger, sie können
es Forschern ermöglichen,
neue vielversprechende Verbindungen zu identifizieren, lediglich
basierend auf der verfügbaren
Information auf der Rezeptorstelle oder auf anderen Führungsverbindungen.
-
Indem
man in der Lage ist, diese Aufgaben schnell durchzuführen und
Information zu gewinnen, die sofort in das Ausgangsgemisch des Arzneimittels
eingebracht werden kann, wird erwartet, daß die Suchstrategie dieses
komplexe, multidisziplinäre
Bemühen
stark vereinfacht und die Geschwindigkeit, mit der neue und effektivere
Arzneimittel identifiziert, getestet und auf den Markt gebracht
werden, signifikant erhöht.
-
Bis
heute wurden Hunderte von Proteinstrukturen mittels Röntgenstrahlkristallographie-
und magnetischen Kernresonanz-(NMR)-Verfahren bestimmt. Diese Daten
sind ohne weiteres als eine öffentliche
Ressource von Molekularstrukturdaten verfügbar und erlauben es Pharmakologen
und Biologen, verschiedene Aspekte von Proteinstrukturen und deren
komplexe Verhaltensweisen zu untersuchen. Zusätzlich zu diesen öffentlichen
Datenbanken wurde eine Anzahl von weiteren (öffentlichen und privaten) Datenbanken
von kleinen organischen Molekülen
durch die Anstrengungen von zahlreichen pharmazeutischen und biotechnologischen Firmen
und Forschungsorganisationen aufgebaut.
-
Es
gibt verschiedene unterschiedliche Szenarien, auf die man wahrscheinlich
im Prozeß des
Entwurfs von Arzneimitteln stößt:
- 1. Es wird ein pharmakophores Modell von verschiedenen
aktiven Molekülen
vorgeschlagen; man wünscht, andere
Moleküle
zu finden, welche die pharmakophore Hypothese entweder unterstützen oder
widerlegen.
- 2. Eine Anzahl ungeprüfter
Moleküle
kann biologische Aktivität
zeigen; man wünscht,
vorhandene Beziehungen zwischen dreidimensionaler Struktur und Aktivität auszuwerten,
um potentiell vorhandene biologische Eigenschaften abzuleiten.
- 3. Es wurde vorgeschlagen, dass eine bestimmte Konformation
eines gegebenen Liganden biologisch aktiv ist; es wird angenommen,
dass eine dreidimensionale Suche weitere Moleküle identifiziert, die den Liganden
nachahmen. Siehe dazu etwa John H. van Drie, David Weininger, Yvonne
C. Martin: "Aladddin:
An integrated tool for computer-assisted molecular design and pharmacophore
recognition from geometric, steric, and substructure searching of
three-dimensional molecular structures", Journal of Computer-Aided Molecular
Design, 1989, Vol. 3, Seiten 225–251.
- 4. Die dreidimensionale Struktur einer Protein- oder DNA-Bindungsstelle
steht durch kristallographische Untersuchungen zur Verfügung. In
diesem Fall werden Liganden gesucht, die zu der Bindungsstelle passen.
Die Suche kann durch Verwenden von Information über das elektrostatische Verhalten
für einige
der Atomgruppen an der Stelle vergrößert werden. Diese Technik
ist von mehreren pharmazeutischen Firmen, wie Merck, American Cyanamid,
Agouron etc. erfolgreich angewendet worden, um Liganden zu entwerfen, die
das reverse Transkriptase-Enzym von HIV binden und blockieren.
-
In
jedem dieser Fälle
muss die entscheidende Information, welche Forscher in die Lage
versetzt, Hypothesen zu entwickeln, die potentiell neue Molekülkandidaten
für Synthese
und Prüfung
betreffen, durch eine Suche in einer potentiell sehr großen Datenbank
relevanter Information gewonnen werden. Tatsächlich ist das mehreren Stufen
medizinischer Chemieuntersuchungen gemeinsam zugrundeliegende Element
die Notwendigkeit eines Suchens nach Datenbanken für chemische
Information. Das Folgende konzentriert sich auf den Fall, in dem
die zu suchenden Datenbanken strukturelle Information enthalten,
die zu 3-dimensionalen atomaren Verbindungen gehören.
-
Typischerweise
liegt einem eine Verbindung/ein Molekül C in Form eines Satzes von
Koordinaten der Atomplätze
der Verbindung vor. Außerdem
ist eine Datenbank D, d.h. eine Sammlung von Sätzen Dj =
{...}, gegeben. Dj = {...} ist eine Sammlung
von Koordinatensätzen
der Atomplätze
für jedes
der beteiligten Moleküle. Bindungen,
von denen einige drehbar sein können
und somit für
eine Torsionsflexibilität
sorgen, verbinden die verschiedenen Atomplätze sowohl in C als auch den
Datenbankmitgliedern. Torsionsflexibilität bedeutet, daß die Gruppen
von Atomen, die an den zwei Endpunkten einer (drehbaren) Bindung
starr angebunden sind, relativ zueinander rotieren können. Jede
Verbindung/jedes Molekül
kann mehr als eine drehbare Bindung enthalten, und somit kann die
Verbindung/das Molekül
eine beliebige einer unbegrenzten Anzahl von Konformationen (dreidimensionalen
Konfigurationen) über
Drehungen um diese Bindungen herum annehmen. Gelegentlich können sterische
Randbedingungen oder Energiebetrachtungen die Anzahl an Wahlmöglichkeiten
begrenzen, die Hauptmenge des Satzes an möglichen Konfigurationen bleibt
jedoch nichtsdestoweniger unbegrenzt. Diese Konformationsflexibilität molekularer
Strukturen eröffnet
einen breiten Bereich von Möglichkeiten bei
der Suche nach potentiellen Liganden, während sie gleichzeitig das
Problem exponentiell schwieriger macht. Zusätzlich zu der (internen) Torsionsflexibilität ist es
den Molekülen
möglich,
starre Transformationen im dreidimensionalen Raum zu erfahren, d.h.
das Molekül
als ganzes kann sich drehen und verschieben. Im folgenden wird die
Verbindung/das Molekül
C austauschbar als 'Testverbindung' oder 'Testmolekül' oder 'Abfrageverbindung' oder 'Abfragemolekül' bezeichnet.
-
Bei
einer gegebenen Verbindung C und einer gegebenen Datenbank D, die
Informationen über
die 3-dimensionale Struktur eines möglicherweise großen Molekülsatzes
enthält,
müssen
die folgenden Operationen definiert und ausgeführt werden:
- 1. "Struktureinfügung": die Fähigkeit,
sämtliches
zur Verfü gung
stehendes strukturelles Wissen über
die Verbindung C in die Datenbank D einzubauen;
- 2. "Strukturzugehörigkeit": Bestimmung, ob
die Verbindung C bereits in der Datenbank D enthalten ist;
- 3. "Substruktursuche": Identifizieren
und Berichten aller Mitgliedsverbindungen von D, die eine bestimmte Substruktur
der Verbindung C enthalten;
- 4. "Ähnlichkeitssuche": Identifizieren
und Berichten aller Mitgliedsverbindungen von D, die der Verbindung C ähnlich sind.
Um eine derartige Operation in der Datenbank D zu implementieren,
muß ein Ähnlichkeitsmaß d(...)
definiert werden und zur Verfügung
stehen, und
- 5. "Überstruktursuche": Identifizieren
und Berichten aller Mitgliedsverbindungen von D, die eine Substruktur der
Verbindung C darstellen.
-
Als
erstes ist es leicht einzusehen, daß das Prädikat der Strukturzugehörigkeit
der Substruktursuchoperation untergeordnet ist. Des weiteren können alle
Suchoperationen auf das reduziert werden, was wir als "Substrukturähnlichkeit" bezeichnen wollen.
-
Im
folgenden wird der Ausdruck Substrukturähnlichkeit dazu verwendet,
eine einzelne Operation zu bezeichnen, die, wenn eine Verbindung
C, eine Datenbank D und ein Ähnlichkeitsmaß d(...)
gegeben sind, die Bestimmung aller Verbindungsmitglieder von D erlaubt,
die eine Substruktur enthalten, die einer Substruktur von C ähnlich ist.
Das Ausmaß an Ähnlichkeit
zwischen den fraglichen Molekülen
kann durch die Funktion d(...) bestimmt werden. Dies ist hier so
zu verstehen, daß die
implizierte gemeinsame Substruktur nicht notwendigerweise ein eigentlicher
Subsatz von C sein muß.
Die Ähnlichkeitsfunktion
d(...) bleibt unspezifiziert, wir nehmen jedoch an, daß sie von
einer sehr allgemeinen Natur ist.
-
Von
dem Problem des Substrukturvergleichs kann gezeigt werden, daß es NP-vollständig ist,
indem bemerkt wird, daß es
das Pro blem des Subgraph-Isomorphismus als einen Spezialfall beinhaltet.
Die reale Folge dieser Aussage besteht darin, daß die Zeitkomplexität zum Auffinden
aller optimalen Lösungen
eine exponentielle Funktion der Eingabelänge ist, und somit existiert
kein effizienter Algorithmus (d.h. mit polynomialer Zeitkomplexität) zum Auffinden
optimaler Lösungen.
Zur Berechnungskomplexität
des Problems trägt
des weiteren bei, daß eine
Torsionsflexibilität
um die kovalenten Bindungen des Moleküls herum ermöglicht wird.
-
Vor
der Beendigung dieses Abschnitts sollte eine letzte Unterscheidung
erwähnt
werden. Dies ist die Unterscheidung zwischen 'Identifizierung' und 'Erkennung' jener Moleküle von der Datenbank D und
Molekülen,
die der gegebenen Testverbindung/dem gegebenen Testmolekül C ähnlich sind.
Die Identifizierung beschränkt
sich selbst darauf, lediglich die Identitäten der Moleküle von der
Datenbank D zu berichten, die mit der Testverbindung/dem Testmolekül C zusammenpassen.
Andererseits erfordert eine Erkennung nicht nur das Berichten der
Identitäten
der zusammenpassenden Moleküle,
sondern auch die Bestimmung und das Berichten der notwendigen Transformationen,
die jedes der identifizierten zusammenpassenden Moleküle in "beste Übereinstimmung" mit der Testverbindung/dem
Testmolekül
bringen. ("Beste Übereinstimmung" positioniert die
Atomplätze
des Testmoleküls
und der dazu passenden Datenbankmoleküle in einer solchen Weise, daß die Anzahl
von Plätzen
im dreidimensionalen Raum, die gleichzeitig von Atomen des Testmoleküls und Atomen
jedes dazu passenden Datenbankmoleküls besetzt werden, die maximal
mögliche
ist.) Diese "notwendigen" Transformationen
umfassen Rotationen und Translationen der betrachteten Moleküle als ganzes,
jedoch auch Rotationen von Strukturen innerhalb der Moleküle um die
torsionsflexiblen Bindungen der Moleküle herum.
-
Erkennung
ist von der Sache her ein viel schwierigeres Problem als Identifizierung;
dies ist im Fall von sehr großen
Datenbanken D mit Molekülen,
die torsionsflexibel sind, besonders offensichtlich. Dies ist so,
weil die Anzahl von möglichen
Transformationen mit der Anzahl von drehbaren Bindungen, die für die gezeigte
Torsionsflexibilität
sorgen, exponentiell zunimmt: die Berechnungsvorgänge zum
Finden und Berichten der richtigen Transformation nehmen im allgemeinen
mit der Anzahl von Transformationen zu.
-
3.0 PROBLEME BEIM STAND
DER TECHNIK
-
Die
inhärente
Berechnungskomplexität
der Fragestellung bezüglich
Substrukturähnlichkeit
hat typisch alle zuvor vorgeschlagenen Vorgehensweisen zur Bewältigung
dieses Problems belastet. Auch wenn man das Problem auf den Fall
von starren Molekülen
ohne rotierbare Bindungen beschränkt,
bleibt das Problem aufgrund seiner dreidimensionalen Natur mit einer
hohen Anforderung für
die Berechnung.
-
Um
die Komplexität
der Fragestellung richtig einzuschätzen, wird ein eindimensionales
Analogon aus dem täglichen
Leben präsentiert.
Ist ein Regal voll von Büchern
und ein Satz wie
"Bilden
von 3D-Anfragen, die sich auf eine bestimmte Flexibilität in den
Targetstrukturen einstellen können,"
gegeben, so
ist eine Suchaufgabe als die Notwendigkeit definiert, jedes Auftreten ähnlicher
Redewendungen in dem Satz verfügbarer
Bücher
zu finden. Ähnlich
bedeutet, daß im
allge meinsten Fall eine Redewendung wie
"wir bilden eine 3D-Suchanfrage derart,
daß sie
sich auf die gewünschte
Flexibilität
einstellt"
als
ein gültiges
Zusammenpassen berichtet werden sollte. Mit anderen Worten sind
Operationen wie Ersetzung, Einfügung
und Löschung
der grundlegendsten Informationselemente (in diesem Fall der Buchstaben) gerechtfertigt
und somit erlaubt. (Im Fall von Molekülen sind die grundlegendsten
Informationselemente die Atome eines Moleküls.)
-
Eine
direkte Vorgehensweise zur Lösung
dieser Aufgabe erfordert die Erfassung der Inhalte aller Bücher des
Regals in einer erschöpfenden,
linearen Weise, d.h. von links nach rechts, von oben nach unten,
um alle ähnlichen
(in diesem Fall eindimensionalen) Strukturen zu lokalisieren. Klarerweise
erfordert ein derartiger Operationsmodus mit zunehmender Anzahl
von Büchern
auf dem Regal (d.h. Größe der Datenbank)
zunehmend mehr Zeit.
-
Selbstverständlich kann
es eine Anzahl heuristischer Betrachtungen erleichtern, die Antwort
zu finden. Zum Beispiel sind möglicherweise
bestimmte Operationen nicht erlaubt, oder die Suche kann auf einen
kleineren, gut spezifizierten Satz beschränkt werden; dies begrenzt unmittelbar
die Anzahl möglicher
Varianten für eine
gegebene Redewendung und macht eine Vorausberechnung und ein Speichern
alternativer Redewendungen plausibel. Beim Suchen wird die Testredewendung
mit dem Satz aller erlaubten, vorausberechneten Varianten verglichen.
-
Alternativ
können "Schlüssel" unter Verwendung
eines Subsatzes von Worten innerhalb eines Fensters von vorspezifizierter
Breite vorausberechnet und gespeichert werden. Wenn es mit einer
Anfrage konfrontiert ist, berechnet das System den Satz von Schlüsseln für die Anfrage
und verwendet sie dazu, den Satz von Schlüsseln zu suchen und zu finden,
der für
alle Redewendungen in allen Büchern
berechnet wurde. Mit anderen Worten werden, anstatt die Redewendungen
direkt miteinander zu vergleichen, stattdessen deren "Repräsentanten" verglichen, wiederum
in einer linearen Weise.
-
Eine
Situation, die analog zu der obigen Suchaufgabe nach ähnlichen
Redewendungen ist, existiert im Fall der Suche nach ähnlichen
Strukturen in Datenbanken dreidimensionaler molekularer Information.
Die folgende Darstellung repräsentativer
Techniken ist dazu gedacht, bei der Identifizierung der Gemeinsamkeiten und
der Unterschiede von zuvor vorgeschlagenen Vorgehensweisen zu helfen.
-
Die
verschiedenen Techniken, die über
die Jahre hinweg vorgeschlagen wurden, um dreidimensionale molekulare
Datenbanken zu durchsuchen, unterscheiden sich im Grundsatz hinsichtlich
ihrer Definition und ihrer Verwendung des Ähnlichkeitsmaßes d(...),
das oben einführt
wurde. Sind eine Testverbindung C und eine Datenbank D gegeben,
berechnet das Ähnlichkeitsmaß d(...)
das Ausmaß,
in dem C und ein gegebenes Mitglied von D ähnlich sind. Die Werte, die
dadurch erzeugt werden, daß C
mit jedem der Mitgliedsmoleküle
von D verglichen wird, erzeugen eine "Markierung", die nachfolgend dazu verwendet werden
kann, Antworten von Kandidaten in der Reihenfolge abnehmender Qualität zuordnen.
-
Zum
Beispiel wird in dem Verfahren der "Abbildung von Atomen" unter Verwendung des Ergebnisses von
paarweisen Vergleichen der Zeilen von den Abstandsmatrizen zweier
Moleküle
der Tanimoto-Koeffizient berechnet.
Dieser Koeffizient wird als Eingabe in eine intermolekulare Ähnlichkeitsmatrix
verwendet. Diese Matrix wird in Verbindung mit einem aufwendigen
Algorithmus verwendet, um den Grad der Ähnlichkeit zwischen den zwei
Molekülen
fest zustellen. Die Berechnung wird für alle Kombinationen zwischen
einem Anfragemolekül
C und jedem der Moleküle
in der Datenbank D wiederholt. Wie es mit aufwendigen Algorithmen
der Fall ist, gibt es keine Garantien, daß der Algorithmus alle richtigen
Lösungen
findet. Die Vorgehensweise stellt berechnungsmäßig hohe Anforderungen und
skaliert nicht gut mit der Datenbankgröße.
-
Bei
dem Verfahren der "Cliquen-Detektion" wird eine Anzahl
verschiedener Orientierungen für
jedes der Moleküle
in der Datenbank erzeugt, bevor es mit dem Anfragemolekül C verglichen
wird. Jede der Orientierungen wird dann über C gelegt und markiert,
basierend auf dem Vorhandensein oder Nichtvorhandensein von Datenbankatomen
in der Nachbarschaft eines Atoms von C. Alle Orientierungen, die
dazu führen,
daß weniger
Treffer als maximal möglich
stattfinden, werden ausgeschieden. Die Suche fährt dann mit dem nächsten Molekül der Datenbank
fort. An jeglichem Punkt während
der Suche werden die letzten n besten Markierungen behalten. Diese
Technik steht im Kern des molekularen Mosaik-Modelliersystems.
-
Bei
anderen bekannten Techniken werden die molekularen Strukturen als
Verknüpfungstafeln
dargestellt und somit als Graphen angesehen. Die Vertices jedes
derartigen Graphen entsprechen den Atomplätzen des Moleküls. Wenn
zwischen zwei gegebenen Atomplätzen
eine Bindung existiert, dann weist der entsprechende Graph eine
Ecke auf, welche die relevanten Knoten verbindet. Wenn jedes Molekül der Datenbank
D durch einen Graph dargestellt wird, kann man eine Suche nach ähnlichen
Substrukturen durch Verwenden von Subgraphisomorphismus-Algorithmen
ausführen.
Wie bereits oben erwähnt
wurde, ist das Problem des Subgraphisomorphismus NP-vollständig, und
somit existiert kein effizienter Algorithmus. Eine neuere Arbeit
verglich eine Anzahl verschiedener Subgraphisomorphismus-Algorithmen
und legt Beweise für
die Nützlichkeit
eines rückverfolgenden
Suchalgorithmus dar, der mit der "Verfeinerungsprozedur"-Heuristik verbessert
ist. Graphentheoretische Ergebnisse werden außerdem dazu verwendet, Ähnlichkeitsfunktionen
zum Vergleichen von molekularen Fragmenten (Substrukturen) zu entwickeln.
-
Eine
Variation des obigen Schemas beginnt durch Blockbildung aller Moleküle in der
Datenbank D in mehrere Blöcke.
In diesem Fall wird das Ähnlichkeitsmaß d(...)
zuerst dazu verwendet, intermolekulare Ähnlichkeiten für alle die
Paare zu berechnen, die durch Moleküle in D gebildet werden können. Nachfolgend
wird ein Blockbildungsschritt dazu verwendet, die verschiedenen
Moleküle
in Blöcke
zu gruppieren, basierend auf den Werten, die durch die paarweisen
Vergleiche erzeugt wurden. Bei Vorlegen eines Anfragemoleküls C klassifiziert
diese Vorgehensweise C durch Identifizieren des Blockes, zu dem
C gehört.
Die Moleküle
der Datenbank D, die am besten mit dem Anfragemolekül C zusammenpassen,
werden diesem Block ebenso wie dem Nachbarblock (oder den Nachbarblöcken) entnommen.
-
Bisher
war die Annahme, daß die
betrachteten Moleküle
starre dreidimensionale Strukturen sind. Dies ist jedoch meistens
nicht der Fall. Üblicherweise
besitzen Moleküle
mehrere interne drehbare Bindungen und sind somit in der Lage, ein
Kontinuum von Konformationen, d.h. dreidimensionale Konfigurationen,
anzunehmen. Hin und wieder können
sterische Randbedingungen oder Energiebetrachtungen die Anzahl von
Wahlmöglichkeiten
begrenzen.
-
Werden
die Moleküle
einer Datenbank als starr behandelt, erleichtert dies die Suche
in 3D-Datenbanken auf Kosten des Ausscheidens großer Mengen
wahrer Kandidaten: Wenngleich die gespeicherte Konformation eines
Moleküls
möglicherweise
nicht die (das) betrachtete pharmakophore Struktur/Modell zeigt,
kann eine andere Konformation des gleichen Moleküls biologisch aktiv sein. Somit öffnet die
Konformationsflexibilität
von molekularen Strukturen einen breiten Bereich von Möglichkeiten
bei der Suche nach potentiellen Liganden. Gleichzeitig wird dadurch
jedoch der Suchkomponente der herkömmlichen Vorgehensweisen eine
ernsthafte Bürde
auferlegt.
-
Ist
eine Datenbank D von Molekülen
gegeben, erfordert eine direkte Vorgehensweise, die es jedem beliebigen
Suchalgorithmus erlaubt, konformationsflexible Suchen in D durchzuführen, das
Speichern aller Konformationen von jedem der Moleküle in D.
In der Praxis wird in Anbetracht eines Kontinuums möglicher Konformationen
stattdessen eine große
Anzahl repräsentativer
Konformationen gespeichert. Die Auswirkungen einer derartigen Vorgehensweise
sind offensichtlich: Die resultierenden Datenbanken haben überwältigende
Größen, und
es sind sehr lange Suchzeiten notwendig. Eine alternative Vorgehensweise
zum Speichern aller möglichen
Konformationen beinhaltet das Speichern jedes Moleküls in nur
einer (oder einer Handvoll von) Konformation(en). Zum Beispiel verwendet
das Concord-3D-System einen Satz von Regeln, um eine einzelne Konformation
zu erzeugen, wobei die Verknüpfungstafeln
des Moleküls
verwendet werden. Diese Vorgehensweisen gehören im wesentlichen zu einer
Klasse von Verfahren, welche die Flexibilität in die Datenbank legt.
-
In
einer analogen Weise wendet eine Variante dieses Verfahrens einen
Satz von Regeln an (bestimmt mittels Durchführen einer systematischen Konformationsanalyse
von Ketten verschiedener Kombinationen von sechs Hauptgerüstatomen),
um den Konformationsraum zu untersuchen und lediglich bestimmte
Torsionswinkel für
jede drehbare Bindung zu behalten: Es wird ein Satz von "Niederenergie"-Konformationen zusammen
mit ihren entsprechenden "Masken" erzeugt. Diese Masken
werden nachfolgend während
der aktuellen Durchsuchung der Datenbank verwendet. Bei einer verwandten
Vorgehensweise wird eine große
Anzahl von Konformationen des Moleküls der Datenbank während der
Durchsuchung erzeugt und mit der pharmakophoren Struktur verglichen.
Dies ist eine berechnungsmäßig aufwendige
Vorgehensweise, und jegliche Versuche (durch die Verwendung von
Heuristiken), diese Belastung zu reduzieren, haben eine direkte
Einwirkung auf die Qualität
der erzeugten Ergebnisse: sonst zutreffende Gegenstücke werden
nun übersehen.
Beide dieser Verfahren sind für
eine Klasse von Techniken repräsentativ,
welche die Konformationsflexibilität in die Suche verlegen.
-
Es
gibt außerdem
eine dritte Vorgehensweise, bei der die Flexibilität in die
Anfrage selbst verlegt wird. Die Anfrage kombiniert in diesem Fall
sowohl starre als auch flexible Komponenten und wird mittels Durchsuchen
einer Datenbank von Verbindungen mit "bekannter" Aktivität iterativ verfeinert, bis
die gewünschte
Selektivität
erzielt wird. Steht einmal die endgültige Anfrage zur Verfügung, wird
sie dazu verwendet, eine Datenbank von Verbindungen mit "unbekannten" Aktivitäten zu durchsuchen,
um potentielle Verbindungen zu identifizieren. Siehe dazu etwa Osman
F. Güner,
Douglas R. Henry, Robert S. Perlman: "Use of Flexible Queries for Searching
Conformationally Flexible Molecules in Databases of Three-DimensionalStructures", J. Chem. Inf. Comput.
Sci., 1992, Vol. 32, Seiten 101–109.
-
Die
erfolgreicheren Suchtechniken greifen das Problem der Konformationsflexibilität in einer
berechnungsmäßig herausfordernden
Weise an; die Schlussfolgerung früherer Arbeiten war, dass ein
flexibles dreidimensionales Suchen unter Verwendung der von Clark
et al. entwickelten Vorgehensweise als ein Minimum eine 100fache
Verlangsamung gegenüber
dem starren Vergleichsfall zur Folge hat. Diese Verlangsamung scheint
typisch für
und unabhängig
von der aktuellen Technik zu sein, die verwendet wird.
-
In
einer Vergleichsstudie von Haraki et al. wurde gezeigt, dass ein
Vergrößern einer
Datenbank mit Mehrfachkonformationen eines gegebenen Moleküls im Allgemeinen
die Leistungsfähigkeit
eines Suchalgorithmus steigert. Die gleiche Studie stellte jedoch
auch fest, dass die resultierende Effektivität stark von dem Verfahren abhängig ist,
das zur Erzeugung der verschiedenen Konformationen, die zu der Datenbank
hinzuzufügen
sind, verwendet wird.
-
Als
eine Alternative zur mehrfachen Aufnahme eines Moleküls in der
Datenbank wird im "Diskrepanzraum" ein bestimmter Typ
von Minimierung ausgeführt.
Diese Vorgehensweise ist viel schneller, sie erfordert jedoch bestimmte
Beziehungen zwischen der Anzahl von strukturellen Randbedingungen
und der Anzahl von existierenden drehbaren Bindungen; des weiteren übernimmt
sie alle Probleme von nicht linearen Optimierungs-Vorgehensweisen.
-
Noch
ein weiterer Typ von Technik versucht im Wesentlichen, ein starres
Andocken lediglich auf den starren Subteilen des Moleküls durchzuführen und
dann die Kompatibilität
der verschiedenen angedockten Teile in einer Nachbearbeitungsphase
zu überprüfen. Diese
Technik stellt im Allgemeinen berechnungsmäßig hohe Anforderungen.
-
Eine
Anzahl von Abkürzungen
in Form von Such-Heuristiken wurde eingeführt, um einiges an berechnungsmäßiger Belastung
zu vermindern, jedoch nicht ohne nachteilige Auswirkung auf die
Qualität
der erzeugten Ergebnisse. Um ein Gegengewicht zu dieser Aussage
zu bilden, sind diese Heuristiken von einer allgemeineren Anwendbarkeit
und können
auch in dem Fall verwendet werden, in dem Konformationsflexibilität keiner der
Parameter des Problems ist.
-
Insbesondere
gibt ein gewisser Stand der Technik eine sehr gründliche Darstellung an und
führt eine Vergleichsstudie
einer Anzahl von Deskriptoren zum Zwecke einer Datenbanksichtung
aus. Siehe dazu W. Fisanick et al, Similarity Searching an CAS Registry
Substances, J. Chem. Inf. Comput. Sci., 32, pp. 664–674, Jun.
1992 und W. Fisanick et al, Similarity Searching an CAS Registry
Substances, J. Chem. Inf. Comput. Sci. 1994, 34, pp. 130–140. Die
Deskriptoren decken einen großen
Bereich an Eigenschaften der Moleküle in der Datenbank ab: physikalische,
chemische, geometrische ebenso wie verschiedene Kombinationen derselben. Die
Unterscheidungsfähigkeit
einiger der vorgeschlagenen Deskriptoren ist ermutigend, die Ergebnisse
wurden jedoch unter Verwen dung einer kleinen Datenbank mit nur einigen
wenigen tausend Verbindungen erzielt.
-
Dazu
in Beziehung stehende Arbeiten führten
ein zweistufiges Verfahren ein, das im wesentlichen die Gestalt
charakterisiert, ohne die Notwendigkeit zur Prüfung einer Vielzahl von Andockorientierungen.
In der ersten Stufe wird für
jedes der Moleküle
in der Datenbank durch Setzen geeigneter Bits in einem Bit-Vektor eine
Zahl mit 2048 Bit erzeugt. Die zu setzenden Bits werden basierend
auf einer 32-Bit-Codierung jedes Dreiecks ausgewählt, das durch drei Atomplätze in dem
Molekül
gebildet wird. Klarerweise enthält
die Zahl geometrische Charakteristika, die für jedes Molekül spezifisch
sind; aufgrund der Art und Weise, in der sie erzeugt wird, ist die
Darstellung jedoch nicht eindeutig. Während der zweiten Stufe wird
eine ähnliche
2048-Bit-Zahl für das
Testmolekül
erzeugt und mit jedem der gespeicherten Signaturen verglichen. Für jene Moleküle, deren
Signaturen einen Schwellwert überschreiten,
werden wiederum Tripletts von Atomplätzen gebildet und mit den Tripletts
in dem Testmolekül
zwecks Überschneidung
verglichen. Wenngleich das Verfahren die relative Orientierung zwischen
einem Kandidaten und dem Testmolekül nicht gewinnt, erweist es
sich als Sichtungsschritt adäquat.
-
Im
gesamten beschriebenen Stand der Technik skalieren die Techniken
entweder nicht gut mit der Größe der Datenbank
(aufgrund der Notwendigkeit für
eine serielle Abtastung und Bearbeitung aller Einträge) oder
verwerten die durch die drehbaren Bindungen auferlegten Randbedingungen,
um das Ausmaß der
Suche zu begrenzen, nicht vollständig.
-
Anders
als bei den Techniken, die eine lineare Abtastung der Datenbank
D erfordern, basieren Hash-Techniken auf der Identifikation bestimmter
invarianter Deskriptoren (Indizes), die dazu verwendet werden können, eine
partielle Darstellung, sagen wir eines Moleküls, in einer Suchtabelle zu
speichern. Kompatible Moleküle
können
durch Berechnen der Indizes von einer Testeingabe wiedergewonnen
werden, indem die partielle Darstellung aus der Suchtabelle zurückgeholt
und das Ergebnis direkt integriert wird, wodurch die Notwendigkeit
eliminiert wird, die gesamte Datenbank für einen oder mehrere Vergleiche
abzutasten. Für
Moleküle
können
Indizes durch Verwenden von Atomtupeln (z.B. Tripletts) mit Atomeigenschaften
oder Tupeln mit kleinen Oberflächenstücken gebildet
werden, die mit ihren Normalen und den chemischen Eigenschaften
an der Oberfläche
verknüpft
sind (zwei unabhängige
Stücke
sind in diesem Fall ausreichend).
-
In
früheren
Arbeiten wurde argumentiert, daß die
Verwendung von Indizes hochdimensionaler Natur (mit einer großen Anzahl
von einzelnen Werten) entscheidend für das richtige Verhalten dieser
Techniken ist, wenn die Ausdehnung der Datenbank groß wird.
Zwei Hauptpunkte tragen zu diesem sehr allgemeinen Ergebnis bei.
Erstens sind Fächer
in einer Suchtabelle mit einem größeren Satz von Fächern im
Durchschnitt weniger besetzt. Und zweitens kann eine gröbere Quantisierung
entlang jeder der Indexdimensionen verwendet werden, womit die Wahrscheinlichkeit
der Gewinnung des gleichen Index während des Wiederauffindens ähnlicher
Entitäten
erhöht
wird.
-
Anders
als bei auf Abtastung basierenden Techniken hat jedoch die Klasse
von Hash-Technik-Algorithmen die Speicheranforderungen erhöht. Insbesondere
die verschiedenen Stufen des Algorithmus leiten ihre Geschwindigkeit
aus dem Vorausberechnen von Ergebnissen und dem Speichern derselben
in geeignet aufgebauten Suchtabellen ab. Diese Vorausberechnung
kann off-line durchgeführt
werden, erfolgt lediglich einmal, und die Ergebnisse werden auf
Platte gespeichert und verwendet, wenn notwendig. Die Hash-Technik-Vorgehensweise
schafft im wesentlichen Raum für
die Berechnung; angesichts einer Verminderung der Kosten langsamer Speicher
wird der Kompromiß zunehmend
vertretbar und vernünftig.
-
4.0 AUFGABEN DER ERFINDUNG
-
Eine
Aufgabe dieser Erfindung ist ein verbessertes Rechnersystem und
Verfahren zur Bestimmung jener Moleküle aus einer Datenbank D, die
ein oder mehrere Moleküle,
die Substrukturen beinhalten, die Substrukturen von einem oder mehreren
Testmolekülen
C entsprechen, zusammen mit dem Satz von starren Transformationen
(d.h. starre Rotationen und Translationen) enthält, der bewirkt, daß jedes
dieser Moleküle am
besten mit dem (den) Testmolekül(en)
C überlappt
("beste Übereinstimmung"), das beschriebene
System und Verfahren können
dies erreichen, auch wenn die Moleküle in der Datenbank Gruppen
von Atomen enthalten, die frei um jegliche kovalente Bindungen herum
rotieren können,
die möglicherweise
in dem Molekül
vorhanden sind (Torsionsflexibilität).
-
5.0 ZUSAMMENFASSUNG DER
ERFINDUNG
-
Dieses
System und dieses Verfahren identifizieren Moleküle und/oder molekulare Substrukturen
in einer Datenbank D, die ähnlich
oder identisch mit einem oder mehreren Testmolekülen und/oder Substrukturen und/oder
Teilen von Substrukturen dieser Testmoleküle sind. Das System und das
Verfahren legen außerdem den
Satz starrer Transformationen (d.h. starrer Rotationen und Translationen)
fest, der bewirkt, daß jedes
der Moleküle,
die in D identifiziert sind, am besten mit dem (den) Testmolekül(en) überlappt.
Dies wurde oben als "beste Übereinstimmung" bezeichnet. Anders
als bei Techniken, die im Stand der Technik enthalten sind, ist die
Festlegung der geeigneten starren Transformationen weder das Ergebnis
irgendeiner erschöpfenden
Suche im Raum möglicher
Konformationen, noch irgendeiner anderen äquivalenten Suchprozedur. Stattdessen tritt
sie gleichzeitig mit der Festlegung der Identitäten jener Moleküle in D
auf, die Sub strukturen enthalten, die ähnlich oder identisch mit Substrukturen
sind, die in dem (den) Testmolekül(en)
enthalten sind. Wiederum ist aufgrund der auf Hash-Techniken basierenden
Natur der Erfindung keine lineare Abtastung der Moleküle in D notwendig.
-
Die
Erfindung verwendet einen Referenzspeicherprozeß, um eine Datenstruktur zu
bevölkern,
so daß die
Datenstruktur alle molekularen Strukturen und/oder Substrukturen
in der Datenbank enthält,
die gemäß Eigenschaften
von Tupeln klassifiziert sind. In einer bevorzugten Ausführungsform
werden die Tupel von Plätzen (z.B.
Atomplätzen)
der molekularen Strukturen (Substrukturen) abgeleitet, die gewählt sind,
um die Tupel zu erzeugen, und die Eigenschaften sind geometrische
(und andere) Informationen, die sich auf die gewählten Tupel beziehen. Die Eigenschaften
werden dazu verwendet, Indizes in einer Datenstruktur zu definieren,
die mit invarianten Vektorinformationen (Vektorinformation genannt)
verknüpft
sind, die zu den Molekülen
der Datenbank D gehören.
Zum Beispiel können
die invarianten Vektoren drehbare Bindungen in Referenzmolekülen in der
Datenbank D repräsentieren.
Diese invarianten Vektoren (z.B. drehbare Bindungen) werden in schiefwinkligen
lokalen Koordinatensystemen dargestellt, die von Tupeln erzeugt
werden, die von starren molekularen Substrukturen abgeleitet sind,
an welche der (die) Vektor(en) angebunden ist (sind). Diese Darstellungen sind
invariant bezüglich
der Rotation und Translation von molekularen Strukturen und/oder
der Rotation von Substrukturen um die angebundene(n) drehbare(n)
Bindung(en). Demgemäß können invariante
Vektorinformationen, die zu Molekülen in der Datenbank gehören, bezüglich der
Tupeleigenschaften dadurch klassifiziert werden, daß die invarianten
Vektorinformationen an Stellen (Vektorfeldern) der Datenstruktur
gespeichert werden, die mit dem von dem jeweiligen Tupel abgeleiteten
Index verknüpft
sind. Sobald die Datenstruktur bevölkert ist, erzeugt ein Vergleichsprozeß einen
oder mehrere Tupel, schiefwinklige lokale Referenzkoordinatensysteme
und Indizes (Testkoordinatensystemtupelindizes genannt) für die Struktur
(Substrukturen) eines Testmoleküls
unter Verwendung der gleichen Technik, die zur Bevölkerung
der Datenstruktur verwendet wurde. Der Testkoordinatensystemtupelindex
wird dazu verwendet, auf die invariante Vektorinformation zuzugreifen, die
sich in dem Vektorfeld des Datenstrukturindex befindet, der mit
dem Testkoordinatensystemindex zusammenpaßt. Es wird ein Zählwert der
Häufigkeit
des Zusammenpassens der Vektorinformationen (Indizes) von molekularen
Strukturen (Substrukturen und/oder Teilen) in der Datenbank mit
den Testkoordinatensystemtupelindizes, die für das Testmolekül erzeugt
wurden, um zu bestimmen, welche molekularen Strukturen (Substrukturen
und/oder Teile) identisch oder ähnlich
zu jenen in der Datenbank passen, und der notwendigen starren Transformationen
behalten, die zugehörige
Substrukturen in Übereinstimmung
miteinander bringen. In einer bevorzugten Ausführungsform wird die Kombination
von gezählten
Vektorinformationen und den notwendigen starren Transformationen
von Kandidaten ausgeschieden, wenn sie nicht durch eine oder mehrere
andere Substrukturen bestätigt
ist.
-
6.0 KURZBESCHREIBUNG DER
ZEICHNUNGEN
-
Die
vorstehenden und weitere Aufgaben, Aspekte und Vorteile der Erfindung
werden aus der folgenden detaillierten Beschreibung von bevorzugten
Ausführungsformen
der Erfindung unter Bezugnahme auf die Zeichnungen besser verständlich werden,
die wie folgt beschrieben sind:
-
1 ist
ein Blockdiagramm eines Rechnersystems, das die vorliegende Erfindung
verkörpert.
-
2A ist
eine Darstellung einer molekularen Struktur, die starre Substrukturen
von Atomgruppen in dem Molekül,
die Rotationsnatur von zwei typischen Drehbindungen zwischen starren Substrukturen,
ein globales Koordinatensystem, ein schiefwinkliges lokales Koordinatensystem,
ein "Koordinatensystem-Tupel", welches das schiefwinklige
lokale Koordinatensystem definiert, und eine Darstellung von zwei
invarianten Vektoren, die zwei Punktpaare auf zwei oder mehr starren
Substrukturen verbinden, sowie eine erste Konformation der molekularen
Struktur zeigt.
-
2B ist
eine Darstellung der molekularen Struktur von 2A,
die ein "magisches
Koordinatensystem" zeigt,
das mit einer der starren Substrukturen verknüpft ist.
-
2C ist
eine Darstellung, die eine zweite molekulare Konfirmation der molekularen
Struktur, das globale Koordinatensystem, das schiefwinklige lokale
Koordinatensystem und die invarianten Vektoren von 2A zeigt.
-
3 ist eine Sequenz von Zeichnungen, die
zeigen, wie Platzsätze
K-O definiert sind (3A), wie Dummy-Stellen Du definiert
sind und dann verwendet werden (3B) und
wie Tupel (3B bis 3E) durch
Wählen
eines Satzes von einem oder mehreren Atomplätzen und/oder Dummy-Plätzen Du
von der molekularen Struktur definiert sind.
-
4 ist
ein Blockdiagramm einer Datenstruktur, die einen Index, der zu einem
Tupel gehört,
mit einer Vektorinformation verknüpft, die der Darstellung von
zwei oder mehr invarianten Vektoren entspricht, die an jedes der
schiefwinkligen lokalen Koordinatensysteme des Tupels, das den Index
erzeugt, angebunden sind.
-
5, welche die 5A und 5B umfaßt, ist
ein Flußdiagramm,
das die Schritte der Bevölkerung der
Datenstruktur von 4 zeigt, damit sie strukturelle
Informationen und andere Informationen über ein oder mehrere Referenzmoleküle enthält.
-
6, welche die 6A, 6B und 6C umfaßt, ist
ein Flußdiagramm
eines bevorzugten Verfahrens, das die Schritte der Bestimmung, (a)
welche Referenzmoleküle
in der Bibliothek (Datenbank D), die ein oder mehrere Moleküle enthält, einem
Testmolekül
für einen
ausgewählten
Satz einer oder mehrerer molekularer Eigenschaften ähnlich sind
(= mit diesem zusammenpaßt)
und (b) des Satzes von starren Transformationen zeigt, die das Testmolekül mit den
in (a) identifizierten Referenzmolekülen in Übereinstimmung bringt.
-
7 ist
ein Blockdiagramm einer Abstimmtabelle, die dazu verwendet wird,
die relative Frequenz (Häufigkeitswerte)
von: (a) den Identitäten
jener Moleküle
und/oder molekularen Substrukturen in der Datenbank D, die mit dem
Testmolekül
für einen
gegebenen Satz von molekularen Eigenschaften zusammenpassen, und
(b) den starren Transformationen zu bestimmen, die das Testmolekül mit den
in (a) identifizierten Referenzmolekülen in Übereinstimmung bringen.
-
7.0 DETAILLIERTE BESCHREIBUNG
DER ERFINDUNG
-
Nunmehr
bezugnehmend auf die Zeichnungen und spezieller auf 1,
ist dort die Blockdiagrammdarstellung einer allgemeinen Rechner-Hardwareumgebung 100 gezeigt.
Dieser Rechner 100 kann einer aus der International Business
Machines Corporation (IBM) Personal System/2 (PS/2) Familie von
Personalcomputern, ein RISC System/6000 oder ein Power Parallel
System (SP/x) sein. Das System 100 beinhaltet eine oder
mehrere Zentralprozessoreinheiten (CPU) 10, die der x86-Architektur
von Intel entsprechen oder aus einem Mikroprozessor mit reduziertem
Befehlssatz bestehen können.
Die CPU 10 ist an einen Systembus 12 angebunden,
mit dem ein Schreib-/Lese-Speicher und/oder ein Speicher mit wahlfreiem
Zugriff (RAM) 14 verbunden ist, die einen oder mehrere
Ca che-Speicher, einen Festspeicher (ROM) 16, einen Eingabe-/Ausgabe-Adapter 18 und
einen Benutzerschnittstellen-Adapter 22 umfassen können. Das
RAM 14 sorgt für
eine temporäre
Speicherung eines oder mehrerer Anwenderprogramme 40, die
einen Code und/oder Daten enthalten, während das ROM 16 typischerweise
den grundlegenden Eingabe-/Ausgabesystem(BIOS)-Code beinhaltet. Der
E/A-Adapter 18 ist mit einem oder mehreren Speichereinheiten
mit direktem Zugriff (DASDs) verbunden, die hier als ein Floppy-Laufwerk 19,
ein Festplatten-Laufwerk 20 und ein CD-ROM 21 dargestellt
sind.
-
Das
Festplatten-Laufwerk 20 speichert typischerweise das Rechnerbetriebssystem
(OS), wie das OS/2-Betriebssystem von IBM, und verschiedene Anwenderprogramme,
Daten und/oder Datenbanken 50, von denen jede über den
Systembus 12 selektiv in das RAM 14 geladen werden
kann. Mit dem Benutzerschnittstellen-Adapter 22 sind eine
Tastatur 24, eine Maus 26 und/oder andere Benutzerschnittstelleneinheiten (nicht
gezeigt) verbunden.
-
Das
System 100 kann außerdem
eine Anzeige 38 umfassen, die hier als Kathodenstrahlröhren(CRT)-Anzeige
dargestellt ist, die jedoch auch eine Flüssigkristallanzeige (LCD) oder
eine andere geeignete Anzeige und/oder eine graphische Benutzerschnittstelle
(GUI) sein kann. Die Anzeige 38 ist über einen Anzeigeadapter 36 mit
dem Systembus 12 verbunden. Ein Multimedia-Adapter 34,
wie ein ActionMedia II Display Adapter von Intel Corporation, kann
ebenfalls mit dem Bus 12 sowie mit einem Mikrophon 32 und
einem Lautsprecher 28 verbunden sein. Der Multimedia-Adapter 34 wird
von einer geeigneten Software, wie Multimedia Presentation Manager/2,
unterstützt.
Diese Systeme 100 und Aquivalente dieser Systeme sind dem
Fachmann allgemein bekannt.
-
Personal
System/2, PS/2, OS/2, RISC System/6000, Power Parallel System, SP/x
und IBM sind Handelsmarken der International Busi ness Machines Corporation.
-
Einige
der Anwenderprogramme 40 werden unten als Prozeßverfahren
beschrieben. Molekulare Datenbanken 50, die ebenfalls unten
beschrieben sind, werden typischerweise in den Speichereinheiten
gespeichert, z.B. dem Festplatten-Laufwerk 20.
-
2A ist
eine Darstellung einer molekularen Struktur 200, die starre
Substrukturen (210, 220, 230) von Atomgruppen
in dem Molekül 200,
die Drehnatur 215 von zwei typischen drehbaren Bindungen
(218a, 218b) zwischen starren Substrukturen (210, 220)
beziehungsweise (220, 230), ein globales Koordinatensystem 235,
ein schiefwinkliges lokales Koordinatensystem 245 und ein "Koordinatensystem-Tupel" zeigt, welches das
schiefwinklige lokale Koordinatensystem 245 definiert.
Außerdem
ist in 2A die Darstellung von zwei
invarianten Vektoren gezeigt: (a) dem Vektor 238, der zwei
Punkte (D, G) auf einer oder mehreren starren Substrukturen (210, 220)
verbindet, und (b) dem Vektor 248, der zwei Punkte (O,
Q) auf einer oder mehreren starren Substrukturen (220, 230)
verbindet. Schließlich
zeigt 2A eine erste Konformation 200 der
betrachteten molekularen Struktur.
-
Unten
sind einige der Ausdrücke,
die im Text eingehend verwendet werden, definiert und klargestellt.
-
Eine
molekulare Struktur (200, 250) ist ein Satz von
Atomen (z.B. A-S), die über
chemische Bindungen, typischerweise MO, miteinander verbunden sind.
(Bindungen sind durch Buchstabenpaare bezeichnet, die den zwei durch
die Bindung verbundenen Atomen entsprechen.) Im allgemeinen ist
die molekulare Struktur 200 typischerweise durch einen
Satz von Koordinaten für
die von den verschiedenen Atomen besetzten Plätze definiert. Zum Beispiel
definieren die Koordinaten (x, y, z) die Position von Atom O in
dem globalen (Labor-)Koordinatensystem 235. Das globale Koordinatensystem 235 wird
für die
Zwecke der folgenden Analyse als fest und konstant angenommen.
-
Des
weiteren definiert eine Liste der chemischen Bindungen, welche die
Plätze
miteinander verbinden, z.B. MO, ebenfalls die molekulare Struktur 200.
Den verschiedenen Plätzen
(A-S) der molekularen Struktur 200 und/oder den jeweiligen
Atomen, die diese Plätze
in dem globalen Koordinatensystem 235 besetzen, werden
typischerweise Bezeichnungen (zum Beispiel: eine Zahl), zugeordnet,
die sie voneinander unterscheiden. Für unsere Zwecke werden wir
austauschbar einen Buchstaben (z.B. A-S) und/oder eine Zahl verwenden,
um das Atom und/oder den Platz, an dem sich das Atom in dem globalen
Koordinatensystem 235 befindet, zu bezeichnen.
-
Schließlich wird
zusätzlich
zu der Liste der Koordinaten der Plätze und der Liste von chemischen
Bindungen eine Liste der Atomtypen (z.B. N, C, O, H etc.) für jedes
der Atome bereitgestellt, welche die verschiedenen Plätze der
molekularen Struktur besetzen.
-
Es
ist zu erwähnen,
daß gelegentlich
eine molekulare Struktur unter Verwendung der Liste von chemischen
Bindungen und der Liste von Atomtypen für jedes der Atome, die an der
Struktur beteiligt sind, spezifiziert wird. Eine molekulare Struktur,
die in einer derartigen Weise definiert wurde, ist auf keinen Fall
unbestimmt: tatsächlich
können
die Koordinaten der Atomplätze
aus der gegebenen Information unter Verwendung einer Vielzahl üblicher
Verfahren gewonnen werden.
-
Eine
Bindung, MO, repräsentiert
eine chemische Verbindung zwischen zwei Atomen (M, O) in der molekularen
Struktur 200. Bindungen sind typischerweise in Form der
Bezeichnungen definiert, die mit den zwei Atomplätzen verknüpft sind, welche die Bindung verbindet.
-
Einige
der Bindungen in einem gegebenen Molekül können drehbar sein und somit
für eine
Torsionsflexibilität 215 sorgen:
die starren Substrukturen (210, 220) sind an den
zwei Endpunkten einer drehbaren Bindung 218a angebunden
und können
daher relativ zueinander rotieren 215. In einer ähnlichen
Weise sind die starren Substrukturen (220, 230)
an den zwei Endpunkten einer drehbaren Bindung 218b angebunden
und können
daher relativ zueinander rotieren 215.
-
Innerhalb
jeder der drei starren Substrukturen (210, 220, 230)
auf jeder Seite von drehbaren Bindungen (218a, 218b)
sind Atome miteinander durch Bindungen verbunden, die eine derartige
Torsionsflexibilität nicht
erlauben (nicht drehbare Bindungen – AC, MO). Dies trifft im allgemeinen
Fall nicht zu: es existieren molekulare Substrukturen, die eine
scharnierartige Flexibilität
zeigen, eine Behandlung dieser Substrukturen übersteigt jedoch den Umfang
dieser Analyse.
-
Daher
sind die starren Substrukturen (210, 220, 230)
Strukturen aus einem oder mehreren Atomen, die über nicht drehbare Bindungen
miteinander verbunden sind. Gruppen, die aus einem Atom, P, bestehen, das über Bindungen
wie NP mit einem Satz von Atomen wie G, H, I, J, K, L, M, N und
O verbunden sind, werden nicht als separate starre Substrukturen
betrachtet, ungeachtet der Tatsache, daß die Bindung NP möglicherweise
drehbar ist. Dies liegt daran, daß jegliche Rotation des Atoms
P um die Bindung NP herum den Ort von P in dem globalen Koordinatensystem 235 nicht ändert. Des
weiteren ändert
jegliche Rotation des Atoms P um die Bindung NP herum den Ort von
P bezüglich
des Satzes von Atomen G, H, I, J, K, L, M, N und O nicht. Es ist
außerdem
zu erwähnen,
daß starre
Moleküle,
d.h. jene Moleküle,
die keine drehbaren Bindungen enthalten, als Moleküle mit einer
starren Substruktur definiert werden können; in einem derartigen Fall
ist das gesamte Molekül
die Substruktur (210, 220, 230).
-
Es
ist außerdem
zu erwähnen,
daß die
Definition der Koordinaten (x, y, z) von drei oder mehr Atomen (Plätzen) (z.B.
G-P einer gegebenen starren Substruktur 220) in dem globalen
Koordinatensystem 235 genügt, um eine globale Position
O''O' und eine globale Orientierung (O'x', O'y', O'z') für
die starre Substruktur, z.B. 220, in dem globalen Koordinatensystem 235 zu
definieren. Man beachte außerdem,
daß der
Satz von drei oder mehr Atomen (Plätzen), der die globale Position
und Orientierung für
die starre Substruktur, z.B. 220, definiert, das Atom (den
Platz) D beinhalten kann, da die Rotation 215a um die drehbare
Bindung 218a der starren Substruktur 210 herum
in bezug auf die starre Substruktur 220 die Position des
Atomes (dem Platz) D bezüglich
der starren Substruktur 220 nicht ändert. Bei Verwenden eines ähnlichen
Arguments kann der Satz von drei oder mehr Atomen (Plätzen), welche
die globale Position und Orientierung für die starre Substruktur 220 definieren,
das Atom (den Platz) Q beinhalten, da die Rotation 215b um
die drehbare Bindung 218b der starren Substruktur 230 herum
in bezug auf die starre Substruktur 220 die Position des
Atoms (den Platz) Q bezüglich der
starren Substruktur 220 nicht ändert. Es ist außerdem zu
erwähnen,
daß bei
der Definition einer globalen Position und Orientierung für die starre
Substruktur 210 der Satz von drei oder mehr Atomen (Plätzen) das Atom
(den Platz) G zusätzlich
zu den Atomen (Plätzen)
A-F beinhalten kann. In einer analogen Weise kann bei der Definition
einer globalen Position und Orientierung für die starre Substruktur 230 der
Satz von drei oder mehr Atomen (Plätzen) das Atom (den Platz)
O zusätzlich
zu den Atomen (Plätzen)
Q-S beinhalten.
-
Demzufolge
besitzt der Vektor 238 (bzw. 248), der unten definiert
ist, eine feste Position und Orientierung bezüglich entwe der der Substruktur 210 oder 220 (bzw. 220 oder 230),
welche die drehbare Bindung 218a (bzw. 218b) verbindet.
Dies geschieht, weil sich die Position und Orientierung der drehbaren
Bindung 218a (bzw. 218b) bezüglich jeder starren Substruktur
ungeachtet der Rotation in dem globalen Koordinatensystem 235 jeder
der Substrukturen um die drehbare Bindung 218a (bzw. 218b)
herum nicht ändern.
-
Im
folgenden kann der Ausdruck starre Substruktur (210, 220, 230)
austauschbar mit dem Ausdruck starre Gruppe (210, 220, 230)
verwendet werden.
-
Wie
unten erörtert
wird, brauchen die Vektoren 238 (bzw. 248), die,
wie bereits erwähnt,
eine feste Position und Orientierung bezüglich entweder der starren
Substruktur 210 oder 220 (bzw. 220 oder 230)
besitzen, nicht in Form der drehbaren Bindung(en) 218a (bzw. 218b),
die von der starren Substruktur ausgehen, definiert zu werden. Tatsächlich kann
der Vektor 238 (bzw. 248) für eine gegebene starre Substruktur
jeder Vektor sein, der so definiert werden kann, daß er bezüglich der
starren Substruktur starr angeordnet ist.
-
Für den Augenblick
wird der Vektor 238 (bzw. 248) mit Hilfe der drehbaren
Bindung 218a (bzw. 218b) definiert: zum Beispiel
fallen die Größe und die
Richtung des Vektors 238 (bzw. 248) mit jenen
der Bindung 218a (bzw. 218b) zusammen. Es wird
angenommen, daß die
Konvention für
die Richtung diejenige von der Substruktur mit niedrigerer (höherer) Numerierung
(210, 220) (bzw. 220, 230) zu
der Substruktur mit der höheren
(niedrigeren) Numerierung (210, 220) (bzw. 220, 230)
ist, konsistent für
alle der einen oder mehreren analysierten molekularen Strukturen 200.
Eine alternative Konvention für
die Richtung basiert auf den Bezeichnungen der Atome (Plätze) an
den Endpunkten einer drehbaren Bindung: Es wird angenommen, daß die Richtung
von dem Atom (dem Platz) mit der niedrigeren (höheren) Numerierung zu dem Atom
(dem Platz) mit der höheren
(niedrigeren) Numerierung verläuft,
konsistent für
alle der einen oder mehreren analysierten molekularen Strukturen 200.
-
Eine
gegebene molekulare Struktur 200 kann mehr als eine drehbare
Bindung 218a (bzw. 218b) enthalten und kann somit über Drehungen
um diese Bindungen 218a (bzw. 218b) herum jede
beliebige einer möglicherweise
unendlichen Anzahl von Konfigurationen (200, 250)
annehmen. Molekulare Strukturen 200 mit einer oder mehreren
drehbaren Bindungen 218a (bzw. 218b) werden als "konformationsflexible" molekulare Strukturen
oder "konformationsflexible" Moleküle bezeichnet.
-
Es
ist zu erwähnen,
daß die
molekulare Struktur 250 eine weitere Konformation der molekularen
Struktur 200 ist (und umgekehrt), da sie die gleiche molekulare
Struktur ist, wobei (a) ihre starren Substrukturen (210, 220)
um die drehbare Bindung 218a relativ zueinander gedreht
sind 215a und (b) ihre starren Substrukturen (220, 230)
um die drehbare Bindung 218b relativ zueinander und unabhängig von
der Rotation in (a) gedreht sind 215b.
-
Alternativ
kann eine gegebene molekulare Struktur 200 keine drehbaren
Bindungen (218a, 218b) enthalten, und sie wird
dann als eine "starre" molekulare Struktur
oder ein "starres" Molekül bezeichnet.
-
Zusätzlich zu
der Konformationsflexibilität
einer molekularen Struktur (200, 250) durch Rotationen
um ihre drehbaren Bindungen (218a, 218b) herum
kann die gesamte molekulare Struktur (200, 250)
außerdem mit
drei Freiheitsgraden rotieren 290 und sich mit drei Freiheitsgraden
in dem globalen Koordinatensystem 235 verschieben 295.
-
Zusätzlich zu
dem globalen Koordinatensystem 235 können außerdem "lokale" Koordinatensysteme 245 durch
geeignetes Auswählen
eines kleinen Satzes von Atomplätzen
(z.B. I, K, H) in der molekularen Struktur (200, 250)
erzeugt werden. Zum Beispiel können,
wenn die drei Atomplätze
I, K und H (die so gewählt
sind, daß sie
nicht kollinear sind) in der molekularen Struktur (200, 250)
gegeben sind, die Vektoren i = I → H und j = I → K erzeugt
werden. Da angenommen wird, daß die
drei Punkte nicht kollinear sind, ist das Kreuzprodukt k = i × j der
zwei Vektoren i und j wohldefiniert und senkrecht zu der Ebene,
die durch die Vektoren i und j definiert ist. Die Einheitsvektoren
u1, u2 und u3 entlang der Richtungen, die durch die drei Vektoren
i, j beziehungsweise k definiert sind, definieren ein schiefwinkliges
lokales Koordinatensystem 245. Dieses Koordinatensystem 245 wird
als "schiefwinklig" bezeichnet, da die
Einheitsvektoren i und j im allgemeinen Fall nicht orthogonal zueinander
sind. Es ist jedoch möglich,
daß die
erzeugten schiefwinkligen lokalen Koordinatensysteme 245 aus
Einheitsvektoren u1 und u2 bestehen, die orthogonal zueinander sind.
-
Es
ist zu erwähnen,
daß, wie
oben beschrieben, ein schiefwinkliges lokales Koordinatensystem 245 durch
Auswählen
einer (oder beider) der Atomplätze,
welche die drehbare Bindung 218a definieren, D oder G (oder
D und G) und von zwei (oder einer) der restlichen Atomplätze der
gegebenen Substruktur (210, 220) erzeugt werden
kann. Zum Beispiel: ein schiefwinkliges lokales Koordinatensystem 245 für die Substruktur 210 kann
durch Verwenden von einem der Atomplätze H, I, J, K, L, M, N, O,
P und sowohl D als auch G definiert werden. Äquivalent kann ein schiefwinkliges
lokales Koordinatensystem 245 für die Substruktur 220 durch
Verwenden von zwei der Atomplätze
H, I, J, K, L, M, N, O, P und genau einem von D, G definiert werden.
In einer ähnlichen
Weise können
ein oder mehr schiefwinklige lokale Koordinatensysteme 245 für die Substruktur 210 gewählt werden.
Eine analoge Beobachtung kann für
die schiefwinkligen lokalen Koordinatensysteme 245 gemacht
werden, die so erzeugt werden, daß sie Atomplätze von
den molekularen Substrukturen (220, 230) und der
drehbaren Bindung 218b beinhalten.
-
Das
globale Koordinatensystem 235 ist von den schiefwinkligen
lokalen Koordinatensystemen 245, die man erzeugen kann,
verschieden, da die Position und Orientierung des schiefwinkligen
lokalen Koordinatensystems 245 in dem globalen Koordinatensystem 235 variieren
kann, wenn das jeweilige Molekül 200 starre Transformationen
(Drehungen 290 und Translationen 295) erfährt. Die
gleiche Aussage gilt, wenn eine starre Gruppe (210, 220, 230)
in der molekularen Struktur (200, 250) relativ
zu einer anderen starren Gruppe (210, 220, 230)
um die drehbare Bindung 218a (bzw. 218b) herum
rotiert 215a (bzw. 215b), welche die zwei starren Gruppen 210 und 220 (220 bzw. 230)
verbindet.
-
Es
ist zu erwähnen,
daß die
Vektoren 238 und 248 so definiert wurden, daß sie bezüglich der
starren Substruktur 220 starr angeordnet sind, und somit
auch das ausgewählte
schiefwinklige lokale Koordinatensystem 245. Des weiteren
befinden sich die Vektoren 238 und 248 stets in
einer festen Position und Orientierung in bezug zueinander. Von
diesem Punkt an werden die zwei Vektoren 238 und 248 als
das "magische Vektorpaar" bezeichnet, das
mit der molekularen starren Substruktur 220 verknüpft ist.
Jede molekulare starre Substruktur 210, 220, 230 eines
gegebenen Moleküls 200, 250 besitzt
ein magisches Vektorpaar, das mit derselben verknüpft ist.
Jedes der Elemente des magischen Vektorpaars (d.h. 238 und 248)
wird als ein "magischer Vektor" bezeichnet. Wie
bereits oben angedeutet, braucht ein magischer Vektor, der mit einer
gegebenen Substruktur verknüpft
ist, nicht notwendigerweise in Form einer der drehbaren Bindungen
definiert zu sein, die von der betrachteten Substruktur ausgehen.
Im folgenden kann der Ausdruck magisches Vektorpaar (bzw. magischer Vektor)
austauschbar mit dem Ausdruck Referenzvektorpaar (bzw. Referenzvektor)
verwendet werden.
-
Im
allgemeinen Fall wird angenommen, daß die zwei Vektoren 238 und 248 nicht
kollinear sind und somit ein Koordinatensystem erzeugen, das als
das "magische Koordinatensystem" 255 bezeichnet
wird. Es kann angenommen werden, daß das magische Koordinatensystem
(in 2B gezeigt) seinen Ursprung O''' im Schwerpunkt der
vier Endpunkte (zwei Anfangs- und zwei Endpunkte) der zwei magischen
Vektoren hat; die Hauptachsen O'''x und O'''y des Koordinatensystems
sind durch Translation der Vektoren 238 und 248 derart
definiert, daß ihre
Ursprünge
mit dem Ursprung O''' zusammenfallen. Da angenommen wird,
daß die
zwei Vektoren 238 und 248 nicht kollinear sind,
ist ihr Kreuzprodukt wohldefiniert und bestimmt die dritte Hauptachse
O'''z des magischen Koordinatensystems.
Da die Vektoren 238 und 248, die das magische
Koordinatensystem definieren, nicht notwendigerweise orthonormal
sind, sollte es klar sein, daß im
allgemeinen Fall das magische Koordinatensystem 255 ein
schiefwinkliges sein wird. Es sollte außerdem erwähnt werden, daß sich das
magische Koordinatensystem 255, das mit einer starren Substruktur 220 verknüpft ist,
stets in einer festen Position und Orientierung bezüglich der
letzteren befindet und sich somit zusammen mit der starren Substruktur 220 bewegt,
wenn die Substruktur Rotationen und Translationen in dem globalen
Koordinatensystem 235 erfährt; dies ist das Ergebnis
davon, daß das
magische Koordinatensystem 255 konstruktionsgemäß starr
an die starre Substruktur 220 angebunden ist. Dasselbe
gilt für
das schiefwinklige lokale Koordinatensystem 245: aufgrund
der Weise, in der es konstruiert ist, befindet sich das magische
Koordinatensystem 255 stets in einer festen Position und
Orientierung bezüglich
des schiefwinkligen lokalen Koordinatensystems 245. Schließlich sollte
erwähnt
werden, daß es
unter Verwendung des magischen Vektorpaars, das mit einer molekularen
Substruktur 220 verknüpft
ist, eine ganze Skala äquivalenter Weisen
zum Aufbau eines magischen Koordinatensystems 255 gibt.
Bevor weitergegangen wird, sei in Erinnerung gerufen, daß das schiefwinklige
lokale Koordinatensystem 245 unter Verwendung von einigen
der Atomplätze
der starren molekularen Substruktur 220 erzeugt wurde.
-
Aus
dem obigen ist es klar, daß die
Position und die Orientierung des magischen Vektorpaars (und somit
des magischen Koordinatensystems) in dem globalen Referenzkoordinatensystem
die Position und die Orientierung der starren Substruktur, z.B. 220,
an die das Paar angebunden ist, in dem globalen Referenzkoordinatensystem 235 unzweideutig
beschreiben.
-
Sobald
ein gegebenes schiefwinkliges lokales Koordinatensystem 245 unter
Verwendung von Plätzen von
einer molekularen starren Substruktur 220 gebildet ist,
kann jeder der Vektoren 238 & 248 des magischen Vektorpaars,
das mit der starren Substruktur 220 verknüpft ist,
in dem Koordinatensystem 245 dargestellt werden. Diese
Darstellung kann entweder explizit oder implizit sein.
-
In
der expliziten Darstellung besitzt der magische Vektor 238 (bzw. 248)
eine feste Position und Orientierung in dem ausgewählten schiefwinkligen
lokalen Koordinatensystem 245. Diese Position und Orientierung
können
zum Beispiel in Form eines Translationsvektors T, der den Mittelpunkt
des schiefwinkligen lokalen Koordinatensystems 245 mit
irgendeinem festen Punkt SP entlang der Achse (Richtung) 217 (bzw. 227)
des magischen Vektors 238 (bzw. 248) verbindet,
und einer Rotationsmatrix R beschrieben werden. Es sollte klar sein,
daß der
Punkt SP zum Beispiel einer der Endpunkte D, G (bzw. O, Q) des Vektors 238 (bzw. 248)
sein kann. Der Translationsvektor T gibt die Position des Punktes
SP in dem schiefwinkligen lokalen Koordinatensystem 245 an,
während
die Rotationsmatrix R die Orientierung des magischen Vektors 238 (bzw. 248)
in dem gleichen schiefwinkligen lokalen Koordinatensystem 245 angibt.
Es ist zu erwähnen,
daß die
Rotationsmatrix durch Auflisten der Längen der Projektionen des magischen
Vektors 238 (bzw. 248) auf die Achsen i, j und
k des schiefwinkligen lokalen Koordinatensystems 245 äquivalent
beschrieben werden kann. Alternativ kann die Rotationsmatrix durch
Auflisten der Winkel beschrieben werden, die der magische Vektor 238 (bzw. 248)
mit jeder der Achsen i, j und k des schiefwinkligen lokalen Koordinatensystems 245 einschließt. Außerdem können weitere
Informationen, z.B. die Identität
der drehbaren Bindung 218a (bzw. 218b) – in dem
Fall, daß der
magische Vektor in Form einer derartigen drehbaren Bindung definiert
ist, oder die Größe des Vektors 238 (bzw. 248),
in der Darstellung enthalten sein; diese zusätzlichen Informationen können für Verifikationszwecke
verwendet werden: zum Beispiel zur Bestimmung der Position einer
der zwei anderen Substrukturen 210, 230 bezüglich des
schiefwinkligen lokalen Koordinatensystems 245. In dieser
Erörterung
wurde angenommen, daß allen
Bindungen der betrachteten molekularen Struktur eindeutige Bezeichnungen
gegeben wurden.
-
Die
Größe, Position
und Orientierung der magischen Vektoren
238 &
248 können durch
eine geringfügige
Modifikation der homogenen 4×4-Transformationsmatrix,
die auf dem Gebiet von Computergraphiken weit verbreitet ist, kompakt
in einer Matrixform dargestellt werden. Insbesondere kann die modifizierte
Transformationsmatrix, wie das folgende Diagramm anzeigt, durch
Verwenden der oben erwähnten
3×3-Rotationsmatrix
R, des 3×1-Translationsvektors
T und der Längen
der 3 Projektionen des Vektors
238 (bzw.
248)
auf die Achsen i, j und k des schiefwinkligen lokalen Koordinatensystems
245 aufgebaut
werden:
-
Klarerweise
gibt es zwei derartige Matrizen, eine für jedes der zwei Vektorelemente
des magischen Vektorpaars.
-
In
der impliziten Darstellung können
die Position und Orientierung des magischen Vektorpaars (d.h. der
Vektoren 238 und 248) in dem ausgewählten schiefwinkligen
lokalen Koordinatensystem 245 durch Auflisten der identifizierenden
Bezeichnungen der Atomplätze,
die beim Definieren der magischen Vektoren helfen, angegeben werden.
Zum Beispiel können
in dem Fall, in dem die magischen Vektoren 238 und 248 für die starre
Substruktur 220 mit Hilfe der drehbaren Bindungen 218a & 218b definiert
werden, die Bezeichnungen D/G und O/Q verwendet werden: die Bezeichnungen
sind in der Reihenfolge aufzulisten, welche die Richtung der entsprechenden
Vektoren 238 & 248 definiert.
Im impliziten Fall werden die Position und Orientierung des magischen
Koordinatensystems 255 von den Bezeichnungen der definierenden
Atomplätze
D/G, O/Q und der Beschreibung der molekularen Struktur 200 erzeugt,
wann immer eine derartige Information über Position und Orientierung
notwendig ist. Jegliche weitere Information, wie im Fall der expliziten
Darstellung erläutert,
kann durch On-line-Berechnung
erhalten werden. Daher kann die implizite Darstellung die Speicheranforderungen in
dem System 100 vermindern.
-
Ist
entweder die implizite oder die explizite Darstellung der Elemente
des magischen Vektorpaars in einem ausgewählten schiefwinkligen lokalen
Koordinatensystem 245 gegeben, genügt dies, um die Position und
Orientierung der Elemente des magischen Vektorpaars in dem globalen
Koordinatensystem 235 zu bestimmen. Wie jedoch oben erläutert wurde,
legt eine Bestimmung der Position und Orientierung der Elemente des
magischen Vektorpaars in dem globalen Koordinatensystem 235 sofort
die Position und Orientierung (d.h. die Plazierung) der entsprechenden
starren Substruktur 220 in dem globalen Koordinatensystem 235 fest
und spezifiziert diese vollständig.
-
Wie
oben erwähnt,
genügt
die Definition der Koordinaten (x, y, z) von drei oder mehr Atomen
(Plätzen) (z.B.
G-P) einer gegebenen starren Substruktur 220 in dem globalen
Koordinatensystem 235, um ein schiefwinkliges lokales Koordinatensystem 245 ebenso
wie eine globale Position und eine globale Orientierung für die starre
Substruktur 220 in dem globalen Koordinatensystem 235 zu
definieren. Demzufolge genügt
die Definition der Koordinaten (x, y, z) von drei oder mehr Atomen
(Plätzen)
(z.B. G-P) einer gegebenen starren Substruktur 220 in dem
globalen Koordinatensystem 235, um die Position und Orientierung
des magischen Vektorpaars in dem globalen Koordinatensystem 235 zu
definieren. Dies wird dadurch erreicht, daß entweder die implizite oder
die explizite Darstellung der Vektoren 238 und 248 in
dem schiefwinkligen lokalen Koordinatensystem 245 verwendet
wird und eine Änderung
der Koordinatensysteme durch bekannte Vektortechniken auf das globale
Koordinatensystem 235 angewendet wird. In ähnlicher
Weise reicht die Definition der Koordinaten (x, y, z) von drei oder
mehr Atomen (Plätzen)
einer gegebenen starren Substruktur 210 (bzw. 230)
in dem globalen Koordinatensystem 235 aus, um die Position
und Orientierung des Vektors 238 (bzw. 248) in
dem globalen Koordinatensystem 235 zu definieren.
-
Wie
früher
angegeben, besitzt die molekulare starre Substruktur 220 ein
mit ihr verknüpftes
magisches Vektorpaar. Entsprechend unserer Beschreibung des magischen
Vektorpaars und wenn seine beteiligten Vektoren mit Hilfe von drehbaren
Bindungen beschrieben werden, beinhalten die mit den Substrukturen 210 und 230 (die
mit der starren Substruktur 220 verbunden sind) verknüpften magischen
Vektorpaare die Vektoren 238 beziehungsweise 248.
In diesem Moment bleibt die Identität des zweiten Vektors des mit
den Substrukturen 210 beziehungsweise 230 verknüpften magischen
Paars unspezifiziert. Unten wird geprüft, wie die magischen Vektorpaare
definiert sind, wenn eine Substruktur nicht wenigstens zwei drehbare
Bindungen aufweist, die von ihr ausgehen. Wenn die Position und
Orientierung der Elemente des magischen Vektorpaars für die Substruktur 220 in
dem globalen Koordinatensystem 235 bestimmt sind, sind
die Position und Orientierung der Substruktur 220 in dem
globalen Koordinatensystem 235 vollständig festgelegt, während gleichzeitig
die Position und Orientierung der Substrukturen 210 und 230 stark
eingeschränkt
sind. Tatsächlich
erlaubt die Kenntnis der Plazierung der starren Substruktur 220 in
dem globalen Koordinatensystem 235 und die Information über die
drehbaren Bindungen, die von dieser ausgehen, die Bestimmung der
Position und Orientierung der drehbaren Bindungen 218a und 218b in
dem globalen Koordinatensystem 235, wie vom Standpunkt
der starren Substruktur 220 aus gesehen. In ähnlicher
Weise erlaubt das magische Vektorpaar, das mit der starren Substruktur 210 verknüpft ist,
die Bestimmung der Plazierung der Substruktur 210 in dem
globalen Koordinatensystem 235 und somit die Bestimmung
der Position und Orientierung der drehbaren Bindung 218a,
wie vom Standpunkt der starren Substruktur 210 aus gesehen.
Die zwei Berechnungen müssen
jedoch unabhängig
davon, von welcher starren Substruktur der Standpunkt zur Bestimmung
der Position und Orientierung der drehbaren Bindung 218a in
dem globalen Koordinatensystem 235 verwendet wurde, übereinstimmen,
wenn die starren Substrukturen Teil einer zutreffenden Anordnung
der molekularen Struktur 200 sein sollen. Analoge Kommentare
können
für die
drehbare Bindung 218b und die starren Substrukturen 220 und 230 gemacht
werden. Diese Einschränkung
ist während
der letzten Phase des Vergleichsprozesses 600 (siehe Beschreibung unten)
sehr nützlich,
da sie es erlaubt, hypothetische Plazierungen für eine gegebene starre Substruktur 220 auszuscheiden, wenn
diese nicht durch hypothetische Plazierungen von starren Substrukturen 210 und 230, die
durch eine drehbare Bindung mit der starren Substruktur 220 verbunden
sind, bestätigt
werden.
-
2C ist
eine Darstellung, die eine zweite molekulare Konfirmation 250 der
molekularen Struktur 200, das globale Koordinatensystem 235,
das schiefwinklige lokale Koordinatensystem 245 und die
invarianten Vektoren 238 und 248 von 2A zeigt.
-
Der
Ausdruck Konfirmation wird verwendet, um irgendeine eines Satzes
von möglichen
Konfigurationen im dreidimensionalen Raum zu bezeichnen, die eine
gegebene molekulare Struktur (200, 250) aufgrund einer
inhärenten
strukturellen Flexibilität
annehmen kann; diese Flexibilität
ist typischerweise die Folge von drehbaren und/oder flexiblen Bindungen,
die in dem Molekül
existieren. Die Analyse hierin konzentriert sich lediglich auf drehbare
Bindungen und nimmt an, daß die
gezeigte strukturelle Flexibilität
das Ergebnis von Drehungen starrer Substrukturen um derartige drehbare
Bindungen herum ist. Typischerweise gibt es unendlich viele derartiger
Konfigurationen, wobei einige von ihnen energetisch günstiger
als andere sind. Außerdem
können
sterische Betrachtungen den Satz möglicher Konformationen weiter
begrenzen.
-
Wie
oben beschrieben, bleiben in jeder Konformation 250 der
molekularen Struktur 200 die Position und Orientierung
der drehbaren Bindung 218a (bzw. 218b) in bezug
auf ein schiefwinkliges lokales Koordinatensystem 245 entweder
der Substruktur 210 oder 220 (bzw. 220 oder 230)
die gleichen (invariant). In ähnlicher
Weise bleiben die Position und Orientierung der drehbaren Bindung 218a (bzw. 218b)
in bezug auf ein schiefwinkliges lokales Koordinatensystem 245 entweder
der Substruktur 210 oder 220 (bzw. 220 oder 230) die
gleichen (invariant), wenn sich die gesamte molekulare Struktur 200 dreht
und in dem globalen Koordi natensystem 235 verschiebt. Dies
liegt an der Tatsache, daß das
schiefwinklige lokale Koordinatensystem 245 und die drehbare
Bindung 218a (bzw. 218b) stets in einer festen
Position und Orientierung relativ zueinander liegen, ungeachtet
jeglicher Rotation 215a (bzw. 215b) der starren
Substruktur 220 um die drehbare Bindung 218a (bzw. 218b)
herum und jeglicher Translation 295 und/oder Rotation 290 der
gesamten molekularen Struktur 200 oder jeder ihrer Konformationen 250.
-
Um
einen Satz beschreibender Indizes für die molekulare Struktur (200, 250)
zu erzeugen, müssen Tupel
von Atomplätzen
(und/oder 'Dummy'-Plätzen, unten
beschrieben) gewählt
werden. Diese Tupel können zur
Bildung des schiefwinkligen lokalen Koordinatensystems 245 verwendet
werden. Die Tupel besitzen Tupel-Eigenschaften, die unter anderem
geometrische Merkmale, Ordnungs- und Vektorbeziehungen beinhalten können, die
durch die Atomplätze,
die das Tupel beinhaltet (siehe Beschreibung von 3),
definiert sind.
-
Außerdem können ein
oder mehrere Sätze
von Atomplätzen
(und/oder 'Dummy'-Plätzen), zum
Beispiel der Ring K-P, in der molekularen Struktur (200, 250)
als 'Charakteristika' aufweisend identifiziert
werden. Diese Charakteristika sind für den Satz von Atomplätzen K-P
spezifisch und können
umfassen: chemische (z.B. Valenz, Atomgewicht, Atomtyp etc.) und/oder
physikalische (z.B. elektrostatische, hydropathische etc.) Eigenschaften
des Satzes von Atomplätzen,
weitere Eigenschaften etc. Im folgenden werden diese Sätze von Atomplätzen K-P
als 'Platzsätze' bezeichnet.
-
Daher
können,
wenn ein oder mehr der Atomplätze,
die an einem Tupel teilhaben, auch ein Element von einem oder mehr
der Platzsätze
sind, die Charakteristika der Platzsätze, von denen der Atomplatz
in dem ausgewählten
Tupel ein Element ist, auch mit dem Tupel verknüpft sein. Somit können diese
Charakteristika dazu verwendet werden, den von dem Tupel abgeleiteten
Index zu vergrößern und
ihn beschreibender zu machen.
-
Die
Position und Orientierung der magischen Vektoren 238 und 248 sind
in jedem der schiefwinkligen lokalen Koordinatensysteme 245,
die unter Verwendung von Plätzen
von der Substruktur 220 erzeugt werden, dargestellt; die
Darstellung der Vektoren 238 und 248, invariant
in jedem der schiefwinkligen lokalen Koordinatensysteme 245,
ist über
eine Datenstruktur (siehe Beschreibung der 4 und 5 unten) mit dem Index verknüpft, der
von dem Tupel abgeleitet ist.
-
3 ist eine Sequenz von Zeichnungen, die
zeigen, wie Platzsätze
K-O definiert werden (3A), wie Dummy-Plätze Du definiert
und dann verwendet werden (3B) und
wie Tupel (typischerweise 335, 345, 355)
durch Wählen
eines Satzes von einem oder mehr Atomplätzen und/oder Dummy-Plätzen, Du,
von der molekularen Struktur 200 definiert werden. Jedes
Tupel (335, 345, 355) wird dazu verwendet,
ein spezifisches schiefwinkliges lokales Koordinatensystem 245 zu
definieren.
-
Ein
Platzsatz ist ein Satz, der ein oder mehr Atomplätze und/oder ein oder mehr
Dummy-Plätze
der molekularen Struktur 200 beinhaltet. Ein Beispiel für einen
Platzsatz kann eine allgemein auftretende Struktur (z.B. ein Phenylring
oder der Ring K-O) in einer Datenbank, D, aus molekularen Strukturen 200 sein.
Manchmal ist es nützlich,
eine derartige Struktur durch einen einzelnen Dummy-Platz Du zu
ersetzen. Ein alternativer Weg zur Definition eines Platzsatzes
besteht darin, Atome auszuwählen,
die einen gemeinsamen Satz von Charakteristika und/oder Eigenschaften
teilen. Zum Beispiel kann man einen Platzsatz durch Sammeln aller der
Atomplätze
erzeugen, die an einem aromatischen Ring teilhaben. Ein weiterer
Platzsatz kann durch Sammeln all jener Plätze erzeugt werden, die als
Wasserstoff-Donatoren (bezie hungsweise Akzeptoren) wirken. Diese
Platzsätze
können
auch durch eine Dummy-Einheit ersetzt werden, wobei in diesem Fall
die Dummy-Einheit alle die Charakteristika des Platzsatzes übernimmt,
der ersetzt wird. Zum Beispiel ist in 3A der Platzsatz
K-O an den Atomplatz P gebunden. Außerdem existiert eine drehbare
Bindung, welche die Plätze
O und Q verbindet. Wenn der Platzsatz K-O durch die Dummy-Einheit
Du (3B) ersetzt wird, ist es die Dummy-Einheit anstelle
des Platzsatzes K-O, die nun an den Atomplatz P gebunden ist. In
einer analogen Weise wird nun die drehbare Bindung OQ durch eine
Bindung ersetzt, welche die Dummy-Einheit mit dem Platz Q in der
Substruktur 230 verbindet. Außerdem übernimmt die Dummy-Einheit
Du, wenn der Platzsatz K-O Charakteristika besitzt (z.B. hydropathisches,
bestimmtes elektrostatisches Verhalten etc.) auch diese Charakteristika.
-
Ein
Tupel ist ein Satz von einem oder mehr Atomplätzen und/oder einem oder mehr
Dummy-Plätzen. Tupel,
die lediglich einen Atom-(oder
Dummy-)Platz beinhalten, sind bei der Beschreibung von Translationen 295 einer
starren Struktur nützlich.
In derartigen Fällen
kann eine Bestimmung von Information über die Rotation 290 eine
zusätzliche
berechnungsmäßige Belastung
nach sich ziehen. Des weiteren können
Informationen zur Erzeugung von Indizes auf die Charakteristika
des einzelnen Atom-(oder Dummy-)Platzes in dem Tupel beschränkt sein.
In ähnlicher
Weise sind Tupel, die lediglich zwei Atom-(oder Dummy-)Plätze beinhalten, bei
der Beschreibung von Translationen 295 einer starren Struktur
nützlich,
und sie können
auch die Rotation 290 auf zwei Freiheitsgrade beschränken, spezifizieren
die Rotation jedoch nicht vollständig:
eine Bestimmung von Information über
die Rotation 290 zieht eine zusätzliche berechnungsmäßige Belastung
nach sich. In diesem Fall können
Informationen zur Erzeugung von Indizes auf die Charakteristika
der zwei Atom-(oder Dummy-)Plätze
in dem Tupel beschränkt
sein.
-
Bei
der bevorzugten Ausführungsform
werden Tupel unter Verwendung von drei oder mehr Atom-(und/oder
Dummy-)Plätzen
definiert. Bei einer bevorzugteren Ausführungsform sind wenigstens
drei Atom-(und/oder Dummy-)Plätze
des Tupels nicht kollinear. Die Tupel werden dazu verwendet, ein
schiefwinkliges lokales Koordinatensystem 245 (wie oben
beschrieben) und einen Index zu definieren. Wenn das Tupel vier
Atom-(und/oder Dummy-)Plätze
beinhaltet, von denen jeweils drei nicht kollinear sind, dann kann
das Kreuzprodukt i × j
(oben beschrieben) durch den Vektor ersetzt werden, der den Ursprung
des schiefwinkligen lokalen Koordinatensystems 245 mit
dem vierten Platz verbindet.
-
Es
ist zu erwähnen,
daß vier
oder mehr Atom-(und/oder Dummy-)Plätze verwendet werden können. In
diesem Fall können
jeweils drei nicht kollineare Atom-(und/oder Dummy-)Plätze ausgewählt werden,
um das schiefwinklige lokale Koordinatensystem 245 zu bestimmen,
während
die restlichen Atom-(und/oder Dummy-)Plätze dazu verwendet werden können, die
während
der Vergleichsstufe des Verfahrens erzeugten Hypothesen weiter einzuschränken. Siehe
Beschreibung von 6 unten.
-
Man
beachte, daß keine,
einige oder alle dieser Eigenschaften und Charakteristika dazu verwendet werden
können,
eine Zahl (einen Index) zu bilden, der die erzeugten Dreiecke, die
den Tupeln entsprechen, eindeutig beschreibt.
-
Die
magischen Vektoren 238 und 248 sind starr in dem
schiefwinkligen lokalen Koordinatensystem 245 angeordnet,
das unter Verwendung von Plätzen
von der Substruktur 220 gebildet wurde, wie oben beschrieben.
Die magischen Vektoren 238 und 248 werden dann
(implizit oder explizit, wie oben beschrieben) in dem schiefwinkligen
lokalen Koordinatensystem 245 des gebildeten Dreiecks 300 dargestellt.
-
Tupel
werden während
der Durchführung
von zwei Prozessen, die in dieser Erfindung enthalten sind, gebildet:
einem Referenzspeicherprozeß (siehe 5) und einem Vergleichsprozeß (siehe 6). In dem Referenzspeicherprozeß werden
Tupel durch Auswählen
von Atom-(und/oder Dummy-)Plätzen
aus der molekularen Struktur (200, 250) gebildet.
Während
des Referenzspeicherprozesses werden die Tupel durch Auswählen aus
einem Satz von Atom-(und/oder Dummy-)Plätzen, 'Referenztupel-Auswahlsatz' genannt, gebildet.
Der Referenztupel-Auswahlsatz beinhaltet alle Atomplätze in einer
starren Substruktur (210, 220, 230),
alle Dummy-Plätze,
die mit einer starren Substruktur (210, 220, 230)
verknüpft
sind, und die Atom-(und/oder Dummy-)Plätze, die Endpunkte jeglicher
drehbarer Bindungen 218a und 218b sind, die an
die gegebene starre Substruktur (210, 220, 230)
angebunden, jedoch nicht in der Substruktur (210, 220, 230)
enthalten sind. Der Referenztupel-Auswahlsatz beinhaltet diese Atom-(und/oder
Dummy-)Plätze,
da Tupel, die einen oder mehr dieser Plätze enthalten, invariant bleiben,
ungeachtet der Rotation 215 um irgendwelche drehbaren Bindungen 218a und/oder 218b herum.
Dies liegt daran, wie oben erläutert,
daß die
Position und Orientierung der drehbaren Bindung 218a (bzw. 218b)
in bezug auf das schiefwinklige lokale Koordinatensystem 245,
welches von dem Tupel definiert wird, gleich (invariant) bleiben,
wenn die starre Substruktur 220 bezüglich entweder der starren
Substruktur 210 oder der starren Substruktur 230 rotiert.
Es ist des weiteren zu erwähnen,
daß die
Position und Orientierung der drehbaren Bindungen 218a und 218b in
dem schiefwinkligen lokalen Koordinatensystem 245, welches
von dem Tupel definiert wird, invariant sind, ungeachtet jeglicher
Rotation 290 und Translation 295 der molekularen
Struktur (200, 250). In einer bevorzugten Ausführungsform
können
die Tupel aus einem geeigneten Subsatz des soeben definierten Referenztupel-Auswahlsatzes
gewählt
werden.
-
Während des
Vergleichstestprozesses werden die Tupel durch Aus wählen aus
einem Satz von Atom-(und/oder Dummy-)Plätzen gebildet, welcher der 'Vergleichstupel-Auswahlsatz' genannt wird. Anders als
bei dem Referenztupel-Auswahlsatz kann der Vergleichstupel-Auswahlsatz
alle Atom-(und/oder Dummy-)Plätze
der gesamten molekularen Struktur (200, 250) beinhalten.
Bei einer alternativen bevorzugten Ausführungsform können Subsätze aller
dieser Plätze
verwendet werden, um den Vergleichstupel-Auswahlsatz zu erzeugen.
Bei einer bevorzugten Ausführungsform
beinhalten die Atomplätze
sowohl in dem Referenztupel-Auswahl- als auch dem Vergleichstupel-Auswahlsatz
keine Atom-(und/oder Dummy-)Plätze,
die zu weit voneinander entfernt sind (z.B. mehr als 10 Angström entfernt).
-
Die
Erfindung erzeugt eine Mehrzahl von Tupeln sowohl in dem Referenzspeicher- 500 als
auch dem Vergleichsprozeß 600.
Bei einer bevorzugten Ausführungsform
werden so viele Tupel wie möglich
durch Verwenden des Referenztupel-Auswahlsatzes (oder des Vergleichstupel-Auswahlsatzes)
erzeugt. In einer weiteren bevorzugten Ausführungsform werden alle möglichen
Tupel erzeugt, die durch diese Tupelauswahlsätze impliziert sind. Bei einer
weiteren bevorzugten Ausführungsform
werden alle möglichen
Tupel mit Ausnahme redundanter Permutationen der Tupelmitglieder
erzeugt, die durch diese Tupelauswahlsätze impliziert sind.
-
3C ist
eine Darstellung der Substruktur 220 mit angebundenen drehbaren
Bindungen 218a und 218b und der Ringstruktur K-O,
die durch den Dummy-Platz Du dargestellt ist. Ein Tupel 335 wird
durch Auswahl von drei Atomplätzen
H, I, J aus dem Referenztupel-Auswahlsatz gebildet, der den Satz
von Atomplätzen D,
G, H, I, J, P und den Dummy-Platz Du beinhaltet. Das Tupel 335 definiert
ein Dreieck 336 mit Eigenschaften, die folgendes umfassen:
geometrische Merkmale (z.B. die Längen der drei Seiten des Dreiecks 336,
die Winkel des Dreiecks 336, den Umfang des Dreiecks 336 etc.),
Ordnungsinformation (die durch Konvention aus der Reihenfolge, in
der die Plätze
ausgewählt
werden, impliziert ist), Vektorinformation etc. Zum Beispiel ist,
wenn die Atomplätze
in der Reihenfolge H, I, J ausgewählt werden, der Vektor i (siehe
Erörterung
oben) als i = H → I
definiert, und der Vektor j (siehe Erörterung oben) ist als j = H → J definiert;
diese Konvention wird durch den ganzen beschriebenen Prozeß hindurch
konsistent verwendet. Andere Konventionen sind möglich. Alternativ ist, wenn
die Atomplätze
in der Reihenfolge I, H, J ausgewählt werden, der Vektor i (siehe
Erörterung
oben) als i = I → H
definiert, und der Vektor j (siehe Erörterung oben) ist als j = I → J definiert.
In beiden Fällen
ist der Vektor k als k = i × j
definiert, wie oben beschrieben, und die Vektoren i, j, k definieren
das schiefwinklige lokale Koordinatensystem 245, das mit
dem Tupel 335 verknüpft
ist.
-
Wenn
eine gegebene Anzahl, z.B. 3, von Atomplätzen aus dem Referenztupel-Auswahlsatz
ausgewählt
wird, ist mehr als eine Tupelreihenfolge möglich. Mit anderen Worten können die
ausgewählten
Plätze, die
das Tupel bilden, permutiert werden, um weitere Tupel zu bilden.
Zum Beispiel können
die ausgewählten Atomplätze H, I,
J Tupel 335 wie folgt bilden: H-I-J, H-J-I, I-H-J, I-J-H,
J-I-H und J-H-I. Im allgemeinen ist die Anzahl von geordneten Tupeln,
die durch Auswahl von k Plätzen
aus einem Referenztupel-Auswahlsatz erzeugt werden können, der
l Plätze
enthält,
durch l!/(l – k)!
gegeben.
-
Tupel 335,
die Permutationen voneinander sind, definieren jedoch die gleichen
geometrischen Eigenschaften, z.B. die Längen der Seiten des Dreiecks 336 etc.
Daher sind in einigen bevorzugten Ausführungsformen redundante Permutationen
einer gegebenen Anzahl von Plätzen,
die ein Tupel bilden, nicht notwendig. Dies liegt daran, daß alle Permutationen
eines gegebenen Tupels 335 den gleichen Satz von Atomplätzen beinhalten
und daher die gleichen geometrischen Merkmale und Vektorinformationen
tragen.
-
Ordnungsinformationen
können
auch erhalten werden, wenn eine Ordnungskonvention auferlegt wird: Alle
Permutationen eines gegebenen Tupels 335 können aus
einer einzigen normierten Form des Tupels 335 unter Verwendung
der Ordnungskonvention erzeugt werden. Daher genügt es, lediglich ordnungsfreie
Kombinationen von Atomplätzen
von der molekularen Struktur (200, 250) zu berücksichtigen;
die Anzahl möglicher (ordnungsfreier)
Kombinationen, die durch Wählen
von k Plätzen
aus einem Referenztupel-Auswahlsatz, der 1 Plätze enthält, erzeugt werden kann, ist
durch l!/(k!(l – k)!)
gegeben, was um einen Faktor k! kleiner als die Anzahl geordneter
Tupel ist. Demgemäß sind die
Speicheranforderungen um den gleichen Faktor reduziert, bei einer
minimalen Zunahme der berechnungsmäßigen Kosten, die zur Ausführung der
notwendigen Verwaltungsoperationen notwendig sind.
-
Der
Prozeß des
Auswählens
eines einzelnen repräsentativen
ordnungsfreien Tupels (= einer Kombination) wird 'Normierung' genannt. Eine Normierung
beinhaltet eine Bestimmung einer eindeutigen Ordnung, wenn ein Satz
von Atomplätzen
gegeben ist; die auferlegte Ordnung ist unabhängig von der Reihenfolge, in der
die Atomplätze
gegeben sind. Dies wird durch Auferlegen einer Ordnungskonvention
bewerkstelligt, um ein einzelnes repräsentatives 'normiertes' Tupel bei einem gegebenen Satz von
Atomplätzen
auszuwählen. Die
Atomplätze
werden gemäß einer
bevorzugten Ordnungskonvention dadurch geordnet, daß zuerst
die aktuellen Längen
der Seiten der Form bestimmt werden, die durch Verbinden der ausgewählten Plätze erzeugt wird.
Es sind auch andere Ordnungskonventionen möglich. Der erste und zweite
Platz in der Reihenfolge sind jene Plätze, die am weitesten entfernt
sind und die längstmögliche Seite
eines Polygons bilden, das jeden der ausgewählten Plätze als einen Vertex besitzt.
Der dritte Platz in der Reihenfolge ist der Platz, der am weitesten von
jedem der ersten beiden Plätze
entfernt ist und die nächstlängste Seite
des Polygons bildet. Der zweite Platz in der Reihenfolge wird dann
der Platz an dem Vertex, an dem sich die zwei zuvor gebildeten Seiten schneiden.
Der erste Platz in der Reihenfolge wird dann der andere Platz auf
der längstmöglichen
Seite. Das Ordnen wird fortgesetzt durch Wählen des vierten Platzes als
jenem verbliebenen Atomplatz, der den weitesten Abstand von dem
dritten Platz hat, des fünften
Platzes als dem verbliebenen Atomplatz, der am weitesten von dem
vierten Platz entfernt ist und so weiter, bis alle Plätze des
Tupels 335 geordnet sind.
-
Zum
Beispiel kann unter Verwendung eines Tupels 335 aus drei
Atomplätzen
H, I und J ein Dreieck 336 gebildet werden, dessen Seiten
gemäß der oben
beschriebenen Ordnungskonvention geordnet sind. Um dies zu bewerkstelligen,
bildet der längste
Abstand I-J zwischen jeweils zwei der Plätze H, I, J die längste Seite des
Dreiecks 336. Die zweite Seite wird durch den größten Abstand
entweder von I oder J zu dem verbliebenen Platz H bestimmt; in diesem
Fall ist dieser Abstand I-H. Als Folge ist der zweite Platz in der
Reihenfolge I, da er sich am Vertex befindet, den sich I-J und I-H
teilen; der erste Platz in der Reihenfolge ist J, welches den anderen
Vertex auf der längsten
Seite darstellt; und der dritte Platz in der Reihenfolge ist der
als einziges verbliebene Platz, H.
-
Es
ist zu erwähnen,
daß Verbesserungen
für die
Konvention notwendig sind, um jegliche existierenden Symmetrien
in dem Polygon zu brechen. Zum Beispiel kann, wenn die Seiten I-H
und I-J die gleiche Länge haben,
das Ordnen nicht auf dem Abstand allein basieren, sondern es sind
weitere Kriterien zu verwenden. Diese Kriterien können auf
anderen Eigenschaften des Tupels basieren, wie Ordnungszahlen der
Atome an den Plätzen,
chemische Eigenschaften etc. Zum Beispiel ist in dem Fall, in dem
I-H und I-J die gleiche Länge haben,
der Atomplatz I der zweite in der Reihenfolge, da er den Vertex
darstellt, den sich die längste
und die zweitlängste
Seite (gleiche Seiten) teilen. Die Reihenfolge der Atomplätze J und
H ist jedoch zweideutig und kann zum Beispiel durch Auswählen jenes
Platzes von J und H mit der höchsten
Ordnungszahl als dem ersten Platz in der Reihenfolge gelöst werden. Ähnliche Überlegungen
können
in dem Fall verwendet werden, in dem das Dreieck 336 gleichseitig
ist.
-
Sobald
das Tupel 335 normiert ist, wie oben beschrieben, wird
ein eindeutiger Index gebildet, der das Tupel 335 repräsentiert.
Dieser Index kann unter Verwendung einer beliebigen Anzahl von geometrischen Merkmalen,
Eigenschaften der Plätze
des Tupels, chemischen und/oder physikalischen Informationen über das
Tupel oder die Atomplätze
des Tupels etc. erzeugt werden. Man nehme zum Beispiel an, daß der Atomplatz
J ein doppelt gebundenes Stickstoffatom, I ein einfach gebundenes
Kohlenstoffatom und der Atomplatz H ein doppelt gebundenes Kohlenstoffatom
sind. Des weiteren ist zu beachten, daß das Dreieck 336 eine längste Seite
mit der Länge
l1, eine zweitlängste
Seite mit der Länge
l2 und eine dritte Seite mit der Länge l3 besitzt. In ähnlicher
Weise besitzt das Dreieck 336 Winkel θ1, θ2 beziehungsweise θ3, die den
geordneten Atomplätzen
J, I und H entsprechen. Bei gegebener derartiger Information kann
ein eindeutiger Index unter Verwendung keiner oder mehr der Seiten
l1 bis l3, keinem oder mehr der Winkel θ1 bis θ3, keiner oder mehr der Bindungsartbezeichnungen
(einfach gebunden, doppelt gebunden etc.), keinem oder mehr der
chemischen Typen (Stickstoff, Kohlenstoff etc.) und/oder keinem
oder mehr der physikalischen Eigenschaften (Atomgewicht der Atome
an den Plätzen,
Elektronegativität
etc.) etc. erzeugt werden, der dieses Tupel J-I-H beschreibt. Bei
einer bevorzugten Ausführungsform
wird der Index durch Verwenden der Längen l1, l2, des Winkels θ2 und des
Atomtyps des Atoms am zweiten Platz in der Ordnung erzeugt. Bei
anderen Ausführungsformen
kann es erwünscht
sein, Indizes dann und nur dann zu erzeugen, wenn die Längen l1
und/oder l2 einen bestimmten Schwellwert überschreiten und/oder der Winkel θ2 einen
bestimmten Schwellwert überschrei tet; typische
Schwellwerte können
1 Angström
für die
Längenabmessung
und 10 Grad für
die Winkelabmessung sein. Schließlich kann es hin und wieder
wünschenswert
sein, den Index durch Verwenden der Längen l1, l2 und des größten Winkels
in dem durch das Tupel gebildeten Dreieck 336 zu erzeugen.
-
In
Anbetracht der obigen Erörterung
werden diese Tupel dadurch erzeugt, daß der Referenztupel-Auswahlsatz
während
des Referenzspeicherprozesses 500 und der Vergleichstupel-Auswahlsatz
während
des Vergleichsprozesses 600 verwendet werden. Bei einer
bevorzugten Ausführungsform
wird jede mögliche
Kombination von beteiligten Plätzen
in entweder dem Referenztupel-Auswahlsatz oder dem Vergleichstupel-Auswahlsatz
erzeugt. Bei alternativen Ausführungsformen
können
weniger Tupel erzeugt werden. Zum Beispiel wird in 3D ein
Tupel 345 durch Atomplätze
I, J und den Dummy-Platz Du gebildet. Dieses Tupel wird normiert,
wie oben erläutert,
und der entsprechende eindeutige Index wird erzeugt. In einer ähnlichen
Weise wird jedes andere mögliche
Tupel, typischerweise 355 (DGI) in 3E, gebildet,
normiert, und ein Index wird erzeugt. Man beachte, daß jeder
dieser Indizes für
das zugehörige
Tupel eindeutig und invariant bezüglich Translation 295 und
Rotationen 290 der molekularen Struktur (200, 250)
und jeglichen Rotationen 215a von jeder molekularen Substruktur
(210, 220) um irgendeine drehbare Bindung 218a herum
ist.
-
Außerdem wird
für jedes
gebildete Tupel (335, 345, 355) in der
oben beschriebenen Weise ein mit dem Tupel verknüpftes schiefwinkliges lokales
Koordinatensystem 245 abgeleitet. Mit den magischen Vektoren 238 & 248 ist
Vektorinformation verknüpft
und ist in jedem der schiefwinkligen lokalen Koordinatensysteme 245 dargestellt.
Daher sind die Vektorinformation, die Identität der molekularen Struktur 200,
die Identitäten
der molekularen Substrukturen (210, 220, 230),
die Identitäten
der drehbaren Bin dungen 218a und 218b, der Index 414, das
Tupel 335 und das schiefwinklige lokale Koordinatensystem 245 alle
miteinander verknüpft.
-
Vektorinformation
ist Information über
gegebene magische Vektoren 238 & 248 und beinhaltet die
Darstellungen der magischen Vektoren in dem schiefwinkligen lokalen
Koordinatensystem 245. Bei einer bevorzugten Ausführungsform
ist diese Vektorinformation die explizite und/oder implizite Darstellung
der magischen Vektoren, wie oben beschrieben (2A).
-
Es
ist zu erwähnen,
daß ein
ausgewähltes
Tupel 335 und das zugehörige
gebildete Dreieck 336 auch in einer anderen molekularen
Struktur als 200 auftauchen kann. Dies erfordert die Verbesserung
der Vektorinformation mit der Berücksichtigung der oben beschriebenen
Identität
der molekularen Struktur; diese Berücksichtigung erlaubt die Identifizierung
der einzelnen molekularen Struktur 200, der die Vektorinformation
entspricht.
-
4 ist
ein Blockdiagramm einer Datenstruktur 400, die einen Index 414,
der zu einem Tupel (typischerweise 335, 345, 355)
gehört,
mit Information über
die Identitäten
der Atomplätze,
die an dem Tupel teilhaben, und Information verknüpft, die
zu den Darstellungen 238A und 248A von magischen
Vektoren 238 und 248 in dem schiefwinkligen lokalen
Koordinatensystem 245 des das Tupel erzeugenden Index 414 gehört. Man beachte,
daß das
Tupel, das mit dem Index 414 verknüpft ist, mehr als einmal in
einer molekularen Struktur (200, 250) oder in
mehr als einer molekularen Struktur (200, 250)
in einer Datenbank D auftauchen kann, die eine Mehrzahl von molekularen
Strukturen (200, 250) enthält. Als eine Folge davon gibt
es im allgemeinen mehr als einen Eintrag 412 von Vektorinformation
in einen Datensatz 425 der Datenstruktur 400.
Demzufolge beinhaltet jeder derartige Eintrag, typischerweise 412,
von Vektorinformation Identifikationsinfor mationen für jede der
molekularen Strukturen 421A bis 421N, in denen
der das Tupel erzeugende Index 414 auftaucht. Ein Datensatz 425 enthält außerdem das
Koordinatensystemtupelfeld, das alle die Informationen beinhaltet,
die zu dem Index 410 gehören, das Koordinatensystemtupel,
das es erzeugte, und potentiell weitere Informationen.
-
Wie
oben beschrieben, wird der eindeutige Index 414 erzeugt,
der das Tupel 335 darstellt. Dieser Index 414 kann
unter Verwendung einer beliebigen Anzahl geometrischer Merkmale,
Eigenschaften der Plätze des
Tupels, chemischer und/oder physikalischer Informationen über das
Tupel oder die Atomplätze
des Tupels etc. erzeugt werden. Außerdem kann dieser Index einem
Offset in einem eindimensionalen linearen Datenfeld wie 400 zugeordnet
werden, indem übliche
Offset-Berechungsverfahren (z.B. 'Schritt'-Berechnung) verwendet werden. Zum Beispiel
wird unter Verwendung von l1, l2, θ2 und dem SYBYL-Atomtyp des
zweiten Atomplatzes in der (normierten) Reihenfolge zur Erzeugung
eines Index der berechnete Offset (d.h. die Stelle in der Datenstruktur 400)
wie folgt bestimmt:
- 1. Man quantisiert den
Wert VAi jeder Eigenschaft Ai (i
= 1, 2, 3, 4, ...), indem man den ganzzahligen Wert des Ausdrucks: nimmt, wobei min(Ai) der minimale Wert ist, der für die Eigenschaft
Ai erlaubt ist, max(Ai)
der maximale Wert ist, der für
die Eigenschaft Ai erlaubt ist, STEPS(Ai) die von den Daten abhängige Anzahl von Quantisierungsschritten
ist, in die das Intervall [min(Ai), max(Ai)) unterteilt ist (diese Anzahl von Schritten
wird vor dem Anwenden des Verfahrens festgelegt und fixiert), und
i den Satz von Eigenschaften durchläuft, die zur Erzeugung des
Index 414 verwendet werden. Beispiel: Wenn die Längeneigenschaft
l1 den Wert 1,3 Angström
besitzt und unter der Annahme, daß der Bereich möglicher
Werte, der sich von 0,9 Angström
bis 4,5 Angström
erstreckt, in 64 Quantisierungsschritte unterteilt wurde, ist der
abgeleitete quantisierte Wert für
l1: In einer ähnlichen
Weise wird der quantisierte Wert jeder Eigenschaft Ai bestimmt.
Es ist zu erwähnen,
daß für Eigenschaften
Ai, die inhärent Werte aus einem endlichen
Satz von ganzen Zahlen annehmen können (z.B. die 41 SYBYL-Atomarten),
die Variable STEPS(Ai) auf die Kardinalität dieses
Satzes von ganzen Zahlen reduziert werden kann.
- 2. Man nimmt die quantisierten Werte Ai und
rechnet unter Verwendung eines 'Schritt'-Berechnungsverfahrens
den Offset in die lineare Anordnung 400 hinein. In diesem
speziellen Beispiel liegen die folgenden Entsprechungen vor: A1 ↔ l1,
A2 ↔ l2,
A3 ↔ ∊,
A4 ↔ SYBYL-Atomart.
Die Berechnung des Offsets ergibt:
-
Die
Struktur 400 wird durch Prozesse 500 und 600 verwendet,
wie unten beschrieben. Die Erörterung nahm
bislang implizit an, daß (i)
jede molekulare starre Substruktur (210, 220, 230)
wenigstens zwei an diese angebundene drehbare Bindungen 218a und 218b besitzt;
(ii) jede molekulare starre Substruktur (210, 220, 230)
ein mit ihr verknüpftes
magisches Vektorpaar aufweist; und (iii) daß die Elemente des magischen
Vektorpaars manchmal mit Hilfe von drehbaren Bindungen definiert
sind.
-
Soweit
es die Annahme (i) betrifft, kann dies klarerweise nicht immer der
Fall sein. Tatsächlich
sind die folgenden Situationen ebenfalls möglich:
- (a)
starre Substrukturen ohne drehbare Bindungen; mit anderen Worten,
einige molekulare Strukturen in der Datenbank D können starr
sein und keine drehbaren Bindungen enthalten;
- (b) starre Substrukturen mit einer drehbaren Bindungen, die
von der Substruktur ausgeht; dies ist zum Beispiel der Fall der
starren Substrukturen 210 und 230 in 2; und
- (c) starre Substrukturen mit mehr als zwei drehbaren Bindungen,
die von der Substruktur ausgehen.
-
Die
Tatsache, daß molekulare
Strukturen mit einer oder mehr der obigen drei Charakteristika ebenfalls in
der Datenbank D vorhanden sind, erfordert eine leichte Modifikation
der oben beschriebenen Prozedur zur Indexerzeugung.
-
Im
Hinblick auf die Annahme (ii) wird als nächstes erläutert, wie das magische Vektorpaar
bestimmt wird. In dem Fall von starren molekularen Strukturen, die
keine drehbaren Bindungen enthalten (Fall (a) oben), kann das magische
Vektorpaar nicht mit Hilfe der drehbaren Bindungen erzeugt werden.
Stattdessen kann das magische Vektorpaar in einer bevorzugten Ausführungsform
leicht durch Identifizieren von zwei Paaren von Atomplätzen definiert
werden: ein derartiges Paar von Plätzen kann zum Beispiel durch
1) das Paar von Atomplätzen,
die in der betrachteten molekularen Struktur am weitesten voneinander
entfernt sind, und 2) das Paar von Atomplätzen gebildet werden, die so
weit wie möglich
voneinander entfernt liegen und eine Richtung festlegen, die so
orthogonal wie möglich
zu der durch das erste Paar definierten Richtung ist. Außerdem sind
Modifikationen dieser Prozedur möglich:
Das Hauptziel hier ist die Erzeugung eines nicht entarteten magischen Koordinatensystems.
Die Linie, welche die zwei Plätze
des ersten Paares verbindet, entspricht der Achse des Vektors 238.
Dies kann als äquivalent
zum Vorliegen einer 'fiktiven
drehbaren' Bindung 218a angesehen
werden, welche die starre Substruktur 210 mit sich selbst
verbindet. Die Richtung des Vektors 238 kann jedoch nicht
länger
durch Verwenden der Bezeichnungen der fraglichen starren Substrukturen
bestimmt werden: eine bevorzugte Ausführungsform führt eine
Modifikation ein, gemäß der die
Richtung von 238 durch Verwenden der Anzahl der Atomplätze bestimmt
wird, welche die (fiktive drehbare) Bindung verbindet: Es wird angenommen,
daß die
Konvention für
die Richtung konsistent für
alle der einen oder mehr analysierten molekularen Strukturen 200 vom
Atomplatz mit der kleineren (größeren) Zahl
zu dem Atomplatz mit der größeren (kleineren)
Zahl verläuft.
In einer ähnlichen
Weise entspricht die Linie, welche die zwei Plätze des zweiten Paares verbindet,
der Achse des Vektors 248; die Richtung von 248 wird
durch die gleiche Konvention bestimmt, die zur Bestimmung der Richtung
des Vektors 238 verwendet wurde.
-
Analog
kann in dem Fall von starren molekularen Substrukturen mit einer
drehbaren Bindung, die von der Substruktur ausgeht (Fall (b) oben),
einer der magischen Vektoren mit Hilfe der vorhandenen drehbaren Bindung
definiert werden, während
der zweite magische Vektor die Erzeugung einer 'fiktiven drehbaren' Bindung, wie oben erläutert, erfordert.
In einer bevorzugten Ausführungsform
kann dies leicht durch Identifizieren eines Paars von Atomplätzen in
der betrachteten starren molekularen Substruktur erreicht werden,
mit der offensichtlichen Einschränkung,
daß das
durch das magische Vektorpaar erzeugte magische Koordinatensystem
nicht entartet ist. Die Richtung der (fiktiven drehbaren) Bindung
und somit des zweiten magischen Vektors wird, wie bereits oben erläutert, durch
Konvention bestimmt. In einer alternativen Ausführungsform können beide
magische Vektoren in Form von fiktiven drehbaren Bindungen definiert
werden.
-
Im
Fall von starren molekularen Substrukturen mit mehr als zwei drehbaren
Bindungen, die von der Substruktur ausgehen (Fall (c) oben), gibt
es eine Wahl dahingehend, wie das magische Koordinatensystem (äquivalent:
das magische Vektorpaar) definiert wird. Zum Beispiel können zwei
der drehbaren Bindungen bei der Definition des magischen Vektorpaares
verwendet werden; klarerweise genügt jedes beliebige Paar drehbarer
Bindungen, das zu einem nicht entarteten magischen Koordinatensystem
führt.
Alternativ kann ein magischer Vektor mit Hilfe einer der drehbaren
Bindungen definiert werden, während
der zweite mit Hilfe einer 'fiktiven
drehbaren' Bindung
definiert werden kann. Oder es können
beide magischen Vektoren in Form von 'fiktiven drehbaren' Bindungen definiert werden.
-
Hin
und wieder und für
jene starren Substrukturen 220, die mehr als zwei drehbare
Bindungen aufweisen, die von der Substruktur ausgehen, kann es wünschenswert
sein, eine gewisse Redundanz einzuführen und mehr als zwei, mit
der starren Substruktur 220 zu verknüpfende, magische Vektoren zu
definieren; das magische Koordinatensystem kann dann in Form von
beliebigen zwei nicht kollinearen Vektoren aus dem Satz magischer
Vektoren definiert werden. In bestimmten Ausführungsformen können die
impliziten oder expliziten Darstellungen all dieser magischen Vektoren
in einen Eintrag 412 der Datenstruktur 400 aufgenommen
werden.
-
Was
die Annahme (iii) betrifft, ist es aus der Analyse der vorherigen
paar Absätze
klar, wie die Verwendung der drehbaren Bindungen bei der Definition
magischer Vektoren ausgedehnt werden kann. Von einem berechnungsmäßigen Standpunkt
aus erleichtert die Definition eines magischen Vektors mit Hilfe
einer drehbaren Bindung des weiteren die Erhärtung konsistenter Ergebnisse
während
der Stufe des Vergleichens, wobei Konformationen in Übereinstimmung
mit so vielen erzeugten Antworten (d.h. hypothetische Plazierungen für die jeweilige
starre Substruktur) wie möglich
bestimmt werden (für
eine Erläuterung
siehe unten). Gelegentlich kann es wünschenswert sein, einen Eintrag 412 der
Datenstruktur 400 um die Darstellung von einer oder mehreren
der drehbaren Bindungen, die von einer starren Substruktur ausgehen,
in einem schiefwinkligen lokalen Koordinatensystem zusätzlich zu
der Darstellung der magischen Vektoren zu vergrößern; mit anderen Worten enthält ein Eintrag
der Datenstruktur 400 die Darstellung in einem schiefwinkligen
lokalen Koordinatensystem von zwei oder mehr Vektoren, die starr
an die starre Substruktur angebunden sind, zu der das schiefwinklige
lokale Koordinatensystem gezeichnet ist. Siehe auch die Beschreibung
der Verwendung der Abstimmtabelle unten.
-
Als
Schlußfolgerung
ist zu erwähnen,
daß es,
wenn fiktive magische Vektoren erzeugt werden, Situationen geben
kann, in denen es notwendig ist, Symmetrien zu brechen. Zum Beispiel:
molekulare Strukturen, die zwei Paare von Atomplätzen enthalten, deren Paarelemente
sich in gleichem Abstand voneinander befinden. Um diesen Problempunkt
zu lösen,
kann eine Ausführungsform
zum Beispiel das Paar, das den Atomplatz mit der niedrigsten Nummer
enthält,
behalten und den anderen ausscheiden.
-
Mit
den beschriebenen Modifikationen kann nun jede molekulare starre
Substruktur 210, 220, 230 einer molekularen
Struktur 200, 250 mit einem Paar magischer Vektoren 238 und 248 verknüpft werden,
die wie üblich
in jedem schiefwinkligen lokalen Koordinatensystem 245 ausgedrückt werden
können,
die aus dem Referenztupel-Auswahlsatz erzeugt werden können.
-
Der
Prozeß 500 analysiert
einen Satz aus einer oder mehreren molekularen Strukturen (200, 250)
in einer Datenbank D, die eine Mehrzahl von molekularen Strukturen
(200, 250) enthält, indem für eine Mehrzahl von Indizes 414 keine
oder mehr molekulare Strukturen (200, 250) und/oder
Substrukturen (210, 220, 230) bestimmt
werden, die Tupel enthalten, die bezüglich der Eigenschaften Ai ähnlich
sind, die dazu verwendet werden, den Index 414 zu bestimmen,
für den
jede dieser molekularen Strukturen (200, 250)
und/oder Substrukturen (210, 220, 230)
einen Eintrag 412 erzeugt:
- (a) Identifizieren
(421A bis 421N) einer der molekularen Strukturen
(200, 250), die mit einem gegebenen magischen
Vektorpaar 238 und 248 verknüpft ist;
- (b) Identifizieren des Koordinatensystemtupels, das den Index 414 erzeugte;
- (c) Identifzieren (422A bis 422N) der starren
molekularen Substruktur (210, 220, 230),
aus der das Tupel an der Datenfeldstelle der Struktur 400 entnommen
wurde, die zu dem Index 414 gehört.
-
Außerdem vermehrt
der Prozeß 500 diese
Einträge 412 um
Vektorinformationen 238A über jeden der zwei oder mehr
magischen Vektoren in jedem der schiefwinkligen lokalen Koordinatensysteme 245,
die durch jeden der Indizes 414 in der gesamten Datenbank
D von molekularen Strukturen dargestellt sind. In diesen Einträgen 412 kann
auch zusätzliche
Information enthalten sein.
-
Sobald
der Prozeß 500 die
Datenstruktur 400 bevölkert
hat, enthält
die Datenstruktur 400 alle Strukturen (200, 250)
und/oder Substrukturen (210, 220, 230)
in der gesamten Datenbank D, die gemäß den Tupeleigenschaften klassifiziert
sind, die zur Bestimmung des Index 414 verwendet werden,
zusammen mit invarianter Information über die magischen Vektoren 238 und 248 (diese
können
realen oder fiktiven Bindungen entsprechen), die in jenen Strukturen
(200, 250) vorhanden sind, und möglicherweise
weite ren Informationen.
-
5 ist ein Flußdiagramm, das die Schritte
des Bevölkerns
der Datenstruktur von 4 zeigt, damit diese strukturelle
Informationen und andere Informationen über ein oder mehrere Referenzmoleküle enthält. Dieser
Prozeß wird
Referenzspeicherprozeß 500 genannt.
Der Prozeß 500 verknüpft einen
Index 414, der zu einem Tupel (typischerweise 335, 345, 355)
gehört,
mit Vektorinformation 420, die den Darstellungen 238A für jeden
der zwei oder mehr magischen Vektoren, die mit einer starren Substruktur
verknüpft
sind, in dem schiefwinkligen lokalen Koordinatensystem 245 des
Tupels entspricht, das den Index 414 für jedes Molekül in der Datenbank
D aus einer Mehrzahl bekannter Moleküle erzeugt.
-
Der
Prozeß 500 beginnt
mit der Auswahl 505 eines Moleküls mit einer Identifikation
aus der Datenbank D aus bekannten Molekülen. Diese Identifkation kann
eine beliebige bekannte Weise des Bezeichnens eines Moleküls sein,
wie oben beschrieben, z.B. ein Schema zur Numerierung der Moleküle.
-
Schritt 510 bestimmt
die Anzahl von starren Substrukturen (210, 220, 230)
in dem ausgewählten
Molekül 505 und
die Anzahl drehbarer Bindungen, die von jeder Substruktur ausgehen.
-
Dann
wird eine starre Substruktur aus dem Satz der starren Substrukturen
(210, 220, 230) des ausgewählten Moleküls 505 ausgewählt 515;
nachfolgend wird ein Satz von zwei oder mehr magischen Vektoren 238, 248 für die ausgewählte Substruktur
bestimmt 520; die Bestimmung der magischen Vektoren und
von deren Position und Orientierung in dem globalen Koordinatensystem 235 wird
in der früher
beschriebenen Weise erreicht. Wie bereits angegeben, kann ein magischer
Vektor in Form einer drehbaren Bindung definiert werden, die von
der betrachteten Substruktur ausgeht, es ist jedoch nicht notwendig.
Es wird ein Referenztupel-Auswahlsatz für die ausgewählte 515 starre
Substruktur erzeugt 525.
-
In
Schritten 530, 535, 540, 545, 550 und 555 werden
ein Tupel, das zugehörige
schiefwinklige lokale Koordinatensystem 245 und ein Index
(= Referenzkoordinatensystemtupelindex) in der Datenstruktur 400 – wobei
der Index eindeutig für
das Tupel ist – für jedes
Tupel erzeugt, das aus dem Referenztupel-Auswahlsatz gebildet werden
kann. Bei einer bevorzugten Ausführungsform
werden lediglich normierte Tupel verwendet (siehe oben).
-
In
Schritt 530 wird ein Tupel durch Auswählen unter den Elementen des
Referenztupel-Auswahlsatzes erzeugt. In Schritt 535 wird
ein schiefwinkliges lokales Koordinatensystem 245 von dem
in 530 erzeugten Tupel erzeugt, wie in den 2 und 3 oben beschrieben; jeder der zwei oder
mehr magischen Vektoren 238, 248, der mit der
ausgewählten 515 Substruktur 210, 220, 230 verknüpft ist,
wird in dem schiefwinkligen lokalen Koordinatensystem 245,
das durch das Tupel definiert ist, dargestellt 540. Oben
sind verschiedene Weisen der Darstellung 540 der magischen
Vektoren beschrieben.
-
In
Schritt 545 wird der mit dem erzeugten Tupel 530 verknüpfte Index 414 erzeugt
(siehe oben hinsichtlich bevorzugter Ausführungsformen zur Erzeugung
von Indizes). In Schritt 550 wird die Darstellung 540 jeder
der zwei oder mehr magischen Vektoren 238, 248 in
dem Datenfeld/der Datenstruktur 400 als ein Eintrag 412 gespeichert.
Man beachte, daß der
Eintrag 412 mit dem Index 414 verknüpft ist,
der dem ausgewählten/erzeugten
Tupel 530 entspricht. In Schritt 555 bestimmt
der Prozeß 500,
ob mehr Tupel von den Elementen des Referenztupel-Auswahlsatzes 525 zu
erzeugen sind 530. Wenn mehr Tupel zu erzeugen sind, werden
die Schritte 530, 535, 540, 545, 550 und 555 wiederholt.
Wenn keine Tupel mehr zu erzeugen sind 555, wird das identifizierte
Molekül 505 überprüft 560,
um zu bestimmen, ob alle seiner starren Substrukturen bearbeitet
wurden – mit 'Bearbeitung' ist hier gemeint,
daß ein
Eintrag 412 in die Datenstruktur 400 gemacht wird.
Wenn eine der Substrukturen des identifizierten Moleküls 505 weiterhin
unbearbeitet bleibt 560, wird die unbearbeitete Substruktur
ausgewählt 515,
und die Schritte 520, 525, 530, 535, 540, 545, 550 und 555 werden
wiederholt.
-
Wenn
alle starren Substrukturen in dem ausgewählten Molekül 505 bearbeitet wurden,
bestimmt 570 der Prozeß 500,
ob es irgendwelche unbearbeiteten Moleküle in der Datenbank D gibt.
Wenn es welche gibt, beginnt der Prozeß 500 von neuem mit
Schritt 505 mit einem neu ausgewählten Molekül. Wenn es keine gibt, endet 575 der
Prozeß 500,
wobei er die Datenstruktur 400 mit allen möglichen
Darstellungen 412 von jedem der zwei oder mehr magischen
Vektoren 238, 248 in allen schiefwinkligen lokalen
Koordinatensystemen 245 von allen starren Substrukturen 210, 220, 230 jedes
Moleküls 505 in
der Datenbank D bevölkert
hat. Es ist zu erwähnen,
daß mehr
als eine Darstellung von magischen Vektoren (z.B. 412A bis 412N)
in der Datenstruktur 400 angeordnet werden kann, wie sie
mit einem gegebenen Index 414 verknüpft ist, der einen Datensatz 425 der
Datenstruktur 400 identifiziert.
-
6 ist ein Flußdiagramm, das die Schritte
des Vergleichsprozesses 600 zeigt. Der Vergleichsprozeß verwendet
die Datenstruktur 400, die durch den Referenzspeicherprozeß 500 bevölkert wurde.
-
Der
Prozeß 600 bildet
Tupel aus dem Vergleichstupel-Auswahlsatz eines beliebigen gegebenen
Testmoleküls
und einen Satz von Indizes 414, die diesen Tupeln in der
oben beschriebenen Weise entsprechen. Dieser Satz von Indizes ist
der 'Testindex'-Satz. Bei gegebener
Information in der Datenstruktur 400 und gegebenem Testindex-Satz
kann der Prozeß 600 jene
Strukturen (200, 250) und/oder Substrukturen (210, 220, 230)
aller der Moleküle
in der Datenbank bestimmen, die Tupel enthalten, welche identische
Eigenschaften Ai mit den Tupeln des Testmoleküls teilen,
die zur Erzeugung des Testindex-Satzes verwendet wurden. Des weiteren
kann der Prozeß 600 unter
Verwendung einer markierenden Datenstruktur 700 und der
Information (410, 420) bestimmen, ob das ganze
oder ein Teil des Testmoleküls
identisch mit einer oder mehr Strukturen (200, 250)
und/oder Substrukturen (210, 220, 230)
in der Datenbank ist.
-
Der
Prozeß 600 beginnt
mit der Auswahl 605 eines Testmoleküls von einer Sammlung aus einem
oder mehreren Testmolekülen.
Dieses Testmolekül
wird gegenüber
der Datenbank D geprüft,
um jene Moleküle
von D, die molekulare Substrukturen (210, 220)
enthalten, die mit dem Testmolekül
zusammenpassen, zusammen mit dem Satz starrer Transformationen (d.h.
starrer Rotationen und Translationen) zu identifizieren, die bewirken,
daß jedes
dieser Moleküle
am besten mit dem ausgewählten 605 Testmolekül überlappt
("beste Übereinstimmung"). Mit 'Zusammenpassen' ist hier gemeint,
daß: (a)
das identifizierte Molekül
(oder die identifizierten Moleküle)
in D identisch mit dem Testmolekül
ist (sind); oder (b) das identifizierte Molekül (oder die identifizierten
Moleküle)
in D Substrukturen (210, 220, 230) enthält (enthalten),
deren Teile mit dem Testmolekül
in seiner Gesamtheit zusammenpassen; oder (c) das Testmolekül einen
Teil enthält,
der mit dem identifizierten Molekül (oder den identifizierten
Molekülen)
in D in seiner Gesamtheit zusammenpaßt; oder (d) das Testmolekül einen Teil
enthält,
der mit Teilen von einer oder mehreren starren Substrukturen in
dem identifizierten Molekül
(oder den identifizierten Molekülen)
von D zusammenpaßt.
Man beachte, daß das
Testmolekül
und das identifizierte Molekül
(oder die identifizierten Moleküle)
von D nicht in der gleichen Konformation vorliegen müssen. Der
Prozeß 600 bestimmt
im wesentlichen, ob das Testmolekül mit einem oder mehreren Molekülen in D
für eine
gegebene Konformation der letzteren zusammenpaßt. Der Prozeß 600 bestimmt
außerdem
die erforderlichen starren Transformationen, die das (die) identifizierte(n)
Molekül(e)
in die Konformation bringen, die am besten mit dem Testmolekül übereinstimmt.
Für ein
verwandtes System und Verfahren, das lediglich die Identität eines (von)
Moleküls
(Molekülen)
in D, jedoch nicht die starren Transformationen bestimmt, die notwendig
sind, um es (sie) in beste Übereinstimmung
mit dem ausgewählten 605 Testmolekül zu bringen,
nehme man bitte Bezug auf die US-Patentanmeldung, eingereicht am
22. Dezember 1995, mit dem Titel 'System and Method for Conformationally
Flexible Molecular Identification', von I. Rigoutsos und A. Califano,
die am gleichen Tag wie diese Anmeldung eingereicht wurde und die
in ihrer Gesamtheit hierin aufgenommen wird.
-
In
dem optionalen Schritt 610 bestimmt der Prozeß 600 unter
Verwendung irgendeiner der üblichen Vorgehensweisen,
ob eine oder mehrere drehbare Bindungen in dem Testmolekül vorliegen.
Indem dies durchgeführt
wird, werden alle starren Substrukturen (210, 220, 230)
in dem Testmolekül
identifiziert.
-
Wenn
lediglich eine starre Substruktur vorhanden ist, wird jene starre
Substruktur ausgewählt 620. Wenn
es mehr als eine Substruktur gibt, wird eine Substruktur ausgewählt 620,
die vorher nicht ausgewählt wurde.
Es wird ein Vergleichstupel-Auswahlsatz für die ausgewählte Substruktur
des Testmoleküls 605 erzeugt 625.
-
In
Schritten 630, 635, 645 werden ein Tupel,
das zugehörige
schiefwinklige lokale Koordinatensystem 245 und ein Index
(= Testkoordinatensystemtupelindex), der für das Tupel eindeutig ist,
für jedes
Tupel erzeugt, das von dem Vergleichstupel-Auswahlsatz gebildet
werden kann. Bei einer bevorzugten Ausführungsform werden lediglich
normierte Tupel verwendet (siehe oben).
-
In
Schritt 630 wird ein Tupel durch Auswahl unter den Elementen
des Vergleichstupel-Auswahlsatzes ausgewählt. In Schritt 635 wird
ein schiefwinkliges lokales Koordinatensystem 245 von dem
in 630 erzeugten Tupel erzeugt, wie in den 2 und 3 oben beschrieben. In Schritt 645 wird
der Testkoordinatensystemtupelindex 645i, der mit dem erzeugten
Tupel 630 verknüpft
ist, erzeugt (siehe oben hinsichtlich bevorzugter Ausführungsformen
zur Erzeugung. von Indizes).
-
Man
beachte, daß die
Schritte 610, 615, 620, 625, 630, 635 und 645 für das Testmolekül in einer
identischen Weise durchgeführt
werden wie die jeweiligen Schritte 510, 515, 520, 525, 530, 535 und 545 für alle Referenzmoleküle in der
Datenbank D durch den Prozeß 500 durchgeführt werden.
Daher ist der Testkoordinatensystemtupelindex 645i für das zugehörige Tupel
eindeutig und invariant unter Translation 295 und Rotationen 290 der
molekularen Struktur (200, 250) und jeglicher
Rotationen 215 einer beliebigen Substruktur (210, 220, 230)
um drehbare Bindungen 218a, 218b herum, die in
dem ausgewählten
Molekül 605 vorhanden
sind.
-
In
Schritt 650 gewinnt der Prozeß 600 Darstellungen
und andere Informationen aus der Datenstruktur (dem Datenfeld) 400 unter
Verwendung des Testkoordinatensystemtupelindex. In dem Fall, in
dem das Testmolekül
identisch (in allen Gesichtspunkten, die durch den gebildeten Index
abgedeckt sind: z.B. physikalische, chemische, geometrische etc.)
mit einem oder mehreren der Moleküle in der Datenbank D ist,
gibt es wenigstens einen Eintrag 412 von Vektorinformation 420 in
dem Datensatz 425, auf den durch jeden erzeugten Testkoordinatensystemtupelindex 645i zugegriffen
wird, in der Datenstruktur 400, der die gleiche Vektorinformation
aufweist, die jeden von zwei oder mehr magischen Vektoren in dem
Testmolekül
beschreibt. Der Testkoordinatensy stemtupelindex 645i greift
auf den Datensatz 425 zu, da der Testkoordinatensystemtupelindex 645i identisch
mit dem Referenzkoordinatensystemtupelindex 414 ist, da
sie beide von den gleichen molekularen Substrukturen (210, 220, 230)
unter Verwendung der gleichen Schritte (510, 515, 520, 525, 530, 535, 545 beziehungsweise 610, 615, 620, 625, 630, 635, 645)
erzeugt wurden.
-
Es
ist jedoch zu erwähnen,
daß es
weitere Moleküle
(oder starre Substrukturen und/oder Teile von starren Substrukturen)
in der Datenbank D geben kann, die Tupel enthalten, die Referenzkoordinatensystemtupelindizes 414 erzeugen,
welche die gleichen wie die Testkoordinatensystemtupelindizes 645i sind.
Dies ist so, da die entsprechenden Tupel identisch in bezug auf
die gewählten
Eigenschaften Ai sind, aus denen sowohl
der Referenzkoordinatensystemtupelindex 414 als auch der
Testkoordinatensystemtupelindex 645i besteht. Zum Beispiel
erzeugt in dem Fall, in dem die Eigenschaften geometrisch (l1/l2/θ2, wie oben)
und vom Atomtyp eines Platzes (Atomtyp, wie oben) sind, das Tupel
A-B-E in 2A den gleichen Index, ungeachtet des
tatsächlichen
chemischen Typs der Atome B und E, solange die Werte der Eigenschaften,
die den Index bilden, identisch bleiben. Daher weist die Struktur 400 Informationen
auf, die beim Identifizieren von einem oder mehr Molekülen (ebenso
wie der notwendigen starren Transformationen) von der Datenbank
D, die mit einem gegebenen Testmolekül zusammenpassen (siehe oben
hinsichtlich einer Definition von 'Zusammenpassen') durch Bestimmen der Häufigkeit
des Auftretens impliziter oder expliziter Information nützlich sind,
die durch die Vektorinformation 420 in einer oder mehr
der Einträge 412A bis 412N gegeben
ist, wie unten beschrieben.
-
Nach
der Gewinnung der Vektorinformation für die drehbaren Bindungen in
Schritt 650 wird die Vektorinformation 420 für jeden
Eintrag 412A bis 412N des Datensatzes 425,
auf den durch den Testkoordinatensystemtupelindex 645i zugegriffen
wird, dazu ver wendet, die Position und Orientierung in dem globalen
Koordinatensystem 235 von jedem der zwei oder mehr magischen
Vektoren zu gewinnen, die in jedem Eintrag 412A bis 412N in
dem Datensatz 425 enthalten sind. Diese gewonnenen Fälle der
magischen Vektoren können
in dieser Erörterung
auch als Testvektoren bezeichnet werden. Die Gewinnung wird durch
Verwenden der Darstellungen von jedem der zwei öder mehr magischen Vektoren,
die in den Einträgen 412A bis 412N enthalten
sind, und übliche
Vektoranalyseverfahren erreicht; für jeden Eintrag in jedem Datensatz
mit einem Referenzkoordinatensystemtupelindex, der mit dem Testkoordinatensystemtupelindex
zusammenpaßt,
erzeugen wir einen Abstimmdatensatz in einer Abstimmdatenstruktur 655,
wobei der Abstimmdatensatz Anordnungsinformationen in dem globalen
Koordinatensystem 235 für
jeden der magischen Vektoren enthält, deren Darstellungen in
den Einträgen 412A bis 412N enthalten
sind. Bei alternativen bevorzugten Ausführungsformen können die
molekulare Identität 421A bis 421N und/oder
Substruktur (210, 220, 230)-Identität 422A bis 422N zusätzlich zu
der gewonnenen Anordnungsinformation verwendet werden, wenn die
Abstimmtabelle bevölkert wird.
-
In
Schritt 660 wird jeder der in Schritt 650 erzeugten
Abstimmdatensätze
in die Abstimmtabelle eingegeben (siehe 700 unten). Klarerweise
erzeugt Schritt 650 viele identische Abstimmdatensätze, d.h.
Abstimmdatensätze,
welche die gleiche Anordnungsinformation, molekulare Identitätsinformation
und Substrukturidentitätsinformation
enthalten. Dies ist das Ergebnis von mehr als einem Koordinatensystemtupel,
die eine bestimmte Anordnung in dem globalen Koordinatensystem 235 für eine gegebene
starre Substruktur eines Moleküls
erhärten.
Das Ausmaß an
Zusammenpassen zwischen einem Teil eines Testmoleküls und einem
oder mehr Teilen von einer oder mehr Substrukturen von einem oder
mehr Molekülen
in der Datenbank D steht in direkter Beziehung zu der Multiplizität derartiger
identischer Abstimmdatensätze
oder äquivalent
zu der Häufigkeit
des Auftretens jedes der unterschiedlichen Abstimmdatensätze in der
Abstimmtabelle 700.
-
Sobald
alle Abstimmdatensätze,
die unter Verwendung der Punkte in den Einträgen 412A bis 412N der
Vektorinformation 420 für
den Datensatz 425, auf den zugegriffen wurde, erzeugt wurden,
in die Abstimmtabelle eingegeben sind, bestimmt 665 dann
der Prozeß 600,
ob mehr Tupel von den Elementen des Referenztupel-Auswahlsatzes 625 zu
erzeugen sind 630. Wenn mehr Tupel zu erzeugen sind 665,
werden die Schritte 630, 635, 645, 650 und 655 wiederholt.
Wenn keine Tupel mehr zu erzeugen sind 665, wird das Testmolekül 605 geprüft 670,
um zu bestimmen, ob alle Substrukturen (210, 220, 230)
bearbeitet wurden.
-
Wenn
es noch mehr unbearbeitete Substrukturen gibt, wird eine derartige
Substruktur ausgewählt 620,
und die Schritte 625, 630, 635, 645, 650 und 655 werden
wiederholt.
-
Nach
Beendigung der Bearbeitung des ausgewählten Testmoleküls 605 wurde
die Abstimmtabelle 700, die in 7 gezeigt
ist, durch Abstimmdatensätze 725 bevölkert, die
durch die Einträge
der Datenstruktur 400 erzeugt wurden.
-
Jeder
Datensatz 725 der Abstimmtabelle besitzt eine Adresse 710 und
enthält
die Information über
die Referenzmolekülidentität, die Information über die
Identität
der starren Referenzkoordinatensystemsubstruktur und Anordnungsinformationen
für jeden
der zwei oder mehr magischen Vektoren, deren Darstellungen in Einträgen 412A bis 412N des
Datensatzes 425 enthalten sind, auf den durch den Testkoordinatensystemtupelindex 465i zugegriffen
wird.
-
Bei
einer bevorzugten Ausführungsform
werden die Molekülidentität 736 und/oder
die Identität 738 der starren
Substruktur 210 dazu verwendet, um die Adresse 710 jedes
Abstimmdatensatzes 725 zu berechnen. Die Adresse 710 wird
durch das oben beschriebene 'Schritt'-Berechnungsverfahren
bestimmt. Bei einer alternativen bevorzugten Ausführungsform
können
die Anordnungsinformationen für
jeden der zwei oder mehr magischen Vektoren, deren Darstellungen
in den Einträgen 412A bis 412N des
Datensatzes 425 enthalten sind, dazu verwendet werden,
die Adresse 710 des Datensatzes 725 abzuleiten.
-
Nunmehr
zu 6 zurückkehrend, wird die bevölkerte Abstimmtabelle 700 dazu
verwendet, um zu bestimmen: (i) die Identität von einem oder mehr Molekülen in der
Datenbank D, (ii) die Identität
von einer oder mehr starren Substrukturen in jedem Molekül und (iii)
die Position und Orientierung der mit jeder starren Substruktur
verknüpften
magischen Vektoren, so daß (a)
eine starre Substruktur in jedem derartigen Molekül der beste
Kandidat für
ein Zusammenpassen mit einer Substruktur in dem Testmolekül ist, und
(b) wenn eine derartige starre Substruktur in dem globalen Koordinatensystem 235 angeordnet
ist, so daß die
Position und Orientierung der zugehörigen magischen Vektoren mit
denjenigen zusammenpaßt,
die in (iii) bestimmt wurden, jedes identifizierte Molekül in bester Übereinstimmung
mit dem Testmolekül
ist. Man beachte, daß es
mehr als ein Molekül
in der Datenbank D geben kann, die beste Kandidaten für ein Zusammenpassen
mit einer Substruktur in dem Testmolekül sind, und dies ist eine Folge
davon, daß eine
gegebene Testmolekülsubstruktur von
mehr als einem Molekül
in der Datenbank D geteilt werden kann. Eine Bestimmung dieser Antworten
(i), (ii) und (iii) kann durch Unterauswahl jener Datensätze aus
der Abstimmtabelle 700 mit einem Zählwert (einer Häufigkeit)
bewerkstelligt werden, der (die) einen vorgegebenen Schwellwert 675 übersteigt.
Diese ausgewählten
Datensätze 725 repräsentieren
die rekonstruierten Punkte mit den Eigenschaften (a) und (b) oben.
-
Hin
und wieder kann es wünschenswert
sein, die hypothetischen Anordnungen in jenen aus der Abstimmtabelle 700 erhaltenen
Antworten zu verwenden, die sich auf das gleiche Molekül aus der
Datenbank D beziehen, um jene Konformation des Moleküls zu bilden,
die in Übereinstimmung
mit so vielen dieser Antworten wie möglich ist. Wenn das fragliche
Molekül
in diese Konformation gebracht wird, befindet es sich in seiner bestmöglichen Übereinstimmung
mit dem Testmolekül
als ganzem. Die Qualität
der Übereinstimmung
zwischen den zwei Molekülen
variiert als Funktion des tatsächlichen
Grades an Ähnlichkeit
zwischen ihnen, wenn alle Konformationen des identifizierten Moleküls berücksichtigt
werden. Diese Kombination von Antworten kann mit minimalem Berechnungsaufwand
erreicht werden: jede Antwort enthält bereits Informationen über die Anordnung
der magischen Vektoren, die mit der bestimmten starren Substruktur
verknüpft
sind; da die magischen Vektoren konstruktionsbedingt starr an der
jeweiligen starren Substruktur angebunden sind, plaziert ihre Anordnung
in dem globalen Koordinatensystem 235 unmittelbar die starre
Substruktur und alle drehbaren Bindungen, die von der Substruktur
ausgehen, in dem gleichen Koordinatensystem. Zwei Antworten, die
dem gleichen Molekül
der Datenbank D, jedoch verschiedenen starren Substrukturen entsprechen,
die über
eine drehbare Bindung verbunden sind, können zu einer 'Zwei-Substruktur'-Teilanwort miteinander
kombiniert werden, wenn die Anordnung der jeweiligen starren Substrukturen
mit der Plazierung der gemeinsamen drehbaren Bindung, die sie verbindet, übereinstimmt;
eine Zwei-Substruktur-Teilantwort kann des weiteren zu einer 'Drei-Substruktur'-Teilantwort unter
Verwendung der hypothetischen Plazierung einer dritten starren Substruktur
in dem betrachteten Molekül
erweitert werden, wenn die dritte Substruktur mit jeder der ersten
zwei Substrukturen über
eine drehbare Bindung verbunden ist und ihre Anordnung in dem globalen
Koordinatensystem die gemeinsame drehbare Bindung in der Position
und Orientierung plaziert, die von dem Zwei-Substruktur-Komplex
erfordert wird. Klarerweise kann dieser Prozeß mit dem neu gebil deten Drei-Substruktur-Komplex fortgesetzt
werden und so weiter und so fort. Wenn die Antworten, die den vorgegebenen
Schwellwert überschreiten,
einen Subsatz enthalten, der sich auf das gleiche Molekül bezieht,
kann es möglich
sein, alle starren Substrukturen des Moleküls zu berücksichtigen und sie in einer
global konsistenten Konformation zu plazieren. Typischerweise erzeugen
die konsistenten Antworten Komplexe starrer Substrukturen, die eine
oder mehr Substrukturen von jedem der identifizierten Moleküle aus der
Datenbank D beinhalten.
-
Die
von der Tabelle 700 erhaltenen Antworten benötigen einen
minimalen Berechnungsaufwand, um jene Konformationen zu erzeugen,
welche die identifizierten Moleküle
aus der Datenbank D in bester Übereinstimmung
mit dem Testmolekül
anordnen.
-
In
Anbetracht dieser Offenbarung kann der Fachmann äquivalente alternative Ausführungsformen
für die
Identifikation von Molekülen
entwickeln, die ebenfalls innerhalb der Erwägungen der Erfinder liegen.