DE69914896T2

DE69914896T2 - System, verfahren und rechnerprogrammprodukt zur darstellung von annäherungsdaten in einem mehrdimensionalen raum

Info

Publication number: DE69914896T2
Application number: DE69914896T
Authority: DE
Inventors: K. Dimitris AGRAFIOTIS; S. Victor LOBANOV; R. Francis SALEMME
Original assignee: 3 Dimensional Pharmaceuticals Inc
Current assignee: 3 Dimensional Pharmaceuticals Inc
Priority date: 1998-05-07
Filing date: 1999-05-07
Publication date: 2004-12-09
Anticipated expiration: 2019-05-08
Also published as: WO1999057686A1; CN1306650A; JP2002513979A; AU3887899A; IL139527A0; PT1078333E; CA2331351A1; KR20010043417A; US6453246B1; EA200001159A1; DK1078333T3; EP1078333A1; ZA200006388B; ATE259981T1; DE69914896D1; ES2214854T3; EA003796B1; EP1078333B1

Description

Hintergrund der Erfindung
Gebiet der Erfindung
Die vorliegende Erfindung ist auf Datenanalysen gerichtet, genauer auf die Darstellung der Nachbarschaft von Daten in einem multi-dimensionalen Raum.
Stand der Technik
Die multidimensionale Skalierung („Multidimensional scaling", MDS) und die nicht-lineare Kartierung („non-linear mapping", NLM) stellen Techniken zur Erzeugung von Darstellungskarten, einschließlich nicht-linearer Karten, von Objekten dar, wobei die Distanzen zwischen den Objekten Beziehungen zwischen den Objekten darstellen.
MDS und NLM wurden von Torgerson, Phychametrika, 17: 401 (1952); Kruskal, Psychometrika, 29: 115 (1964); und Sammon, IEEE Trans Comput., C-18: 401 (1969) als ein Mittel eingeführt, um niederdimensionale Darstellungen psychologischer Daten zu erzeugen. In Schiffman, Reynolds and Young, Introduction to Multidimensional Scaling Academic Press, New York (1981); Young and Hamer, Multidimensional Scaling: Hirtory, Theory and Applications, Erlbaum Associates, Inc., Hillsdale, NJ (1987); and Cox and Cox, Multidimensional Scaling Nr. 59 in Monographs in Statirtics and Applied Probability, Chapman-Hall (1994) wird ein Überblick über die multidimensionale Skalierung und die nicht-lineare Kartierung gegeben. Der Inhalt dieser Veröffentlichungen wird hierin in ihrer Gesamtheit durch Bezugnahme eingeschlossen.
MDS und NLM (diese sind im allgemeinen das gleiche und werden hiernach gemeinsam als MDS bezeichnet) stellen eine Sammlung von Verfahren zur Visualisierung von Nachbarschaftsbeziehungen durch Distanzen von Punkten in einem niedrig-dimensionalen euklidischen Raum dar. Ein Überblick über Nachbarschaftsmessungen wird in Hartigan, J. Am. Sta tist. Ass., 62: 1140 (1967) gegeben, welches hierin in seiner Gesamtheit durch Bezugnahme eingeschlossen wird.
Insbesondere ausgehend von einem finiten Satz von vektoriellen oder anderen Beispielen A = {a_i, i = 1, ..., k}, einer Beziehungsfunktion r_ij = r(a_i, a_j), wobei a_i, a_j ∈ A, welches die Ähnlichkeit oder Unähnlichkeit zwischen dem i-ten und dem j-ten Objekt aus A angibt und einem Satz von Bildern X = {x_i, ..., x_k; x_i ∈
^m} aus A aus einer m-dimensionalen Anzeigeebene (
^m ist der Raum aller m-dimensionalen Vektoren der realen Zahlen), ist das Ziel auf der Anzeigeebene x_i derart zu platzieren, dass deren euklidische Abstände d_ih = ||x_i – x_j|| den betreffenden Werten r_ij so nahe wie möglich kommen. Diese Abschätzung, die in vielen Fällen nur annäherungsweise vorgenommen werden kann, wird auf eine iterative Weise durchgeführt durch Minimieren einer Fehlerfunktion, die den Unterschied zwischen der originalen Distanzmatrix r_ij und einer projizierten Distanzmatrix d_ij des ursprünglichen und des projizierten Vektorsatzes misst.
Es wurden einige solcher Fehlerfunktionen vorgeschlagen, von denen die meisten vom Kleinstquadrattyp sind einschließlich Kruskal's Spannung („Stress"):
Sammon's Fehlerkriterium:
und Lingoes' Entfremdungskoeffizient:
wobei d_ij = ||x_i – x_j|| die euklidische Distanz zwischen den Bildern x_i und x_j auf der Anzeigeebene ist.
Allgemein wird die Lösung auf iterative Weise gefunden durch:

(1) Berechnen oder Abfragen aus einer Datenbank der Beziehungen r_ij;
(2) Initialisieren der Bilder x_i;
(3) Berechnen der Distanzen der Bilder d_ij und des Werts der Fehlerfunktion (z. B. S, E oder K in den oben genannten Gleichungen 1–3);
(4) Berechnen einer neuen Konfiguration der Bilder x_i unter Verwendung einer Prozedur mit abnehmendem Gradienten, wie zum Beispiel Kruskal's lineare Regression oder Guttman's Bildrang-Permutation; und
(5) Wiederholen der Schritte 3 und 4, bis der Fehler innerhalb einer vorgegebenen Toleranz minimiert ist.

Beispielsweise minimiert der Sammon Algorithmus die Gleichung 2 durch iteratives Aktualisieren der Koordinaten x_i unter Verwendung von Gleichung 4: xpq(m + 1) = xpg(m) – λΔpq(m) Gleichung 4 wobei m die Iterationszahl ist, x_pq die q-te Koordinate des p-ten Bildes x_pq, λ die Lerngeschwindigkeit ist und
Die partiellen Ableitungen von Gleichung 5 lautet:
Das Kartieren wird erzielt durch wiederholtes Berechnen von Gleichung 2, gefolgt von einer Modifikation der Koordinaten unter Verwendung von Gleichungen 4 und 5, bis der Fehler innerhalb einer vorgeschriebenen Toleranz minimiert ist.
Das oben genannte generelle Verfeinerungsmuster ist für verhältnismäßig kleine Datensätze geeignet, weist jedoch eine wichtige Einschränkung auf, die es für große Datensätze unpraktisch macht. Diese Einschränkung rührt von der Tatsache her, dass der erforderliche Berechnungsaufwand, um die Gradienten zu berechnen (d. h., der oben genannte Schritt (4)) sich mit dem Quadrat der Größe des Datensatzes vergrößert. Bei verhältnismäßig großen Datensätzen ist aufgrund dieser quadratischen Zeitkomplexität sogar nur eine partielle Verfeinerung schwer zu bewältigen. Es wird ein System, ein Verfahren und ein Computerprogramm zur Darstellung von Näherungsdaten in einem multidimensionalen Raum benötigt, die sich vorzugsweise mit der Anzahl der Objekte vergrößert und die sowohl für kleine als auch für große Datensätze anwendbar sind. Darüber hinaus wird ein System, ein Verfahren und ein Computerprogramm benötigt, das mit fehlenden Daten und/oder Daten, die beschränkte oder unbeschränkte Unsicherheiten beinhalten, Rauschen oder Fehler effektiv umgehen können.
Agrafiotis, D. K, A New Method for Analysing Protein Sequence Relationships based on Sammon Maps, Protein Science, vol. 6, no. 2, Feb. 1997, Seiten 287–293 beschreibt ein Verfahren, zum Analysieren von Proteinsequenzen, basierend auf Sammon's nicht-linearen Kartierungsalgorithmus.
Agrafiotis, D. K.: Stochastic Algorithmus for Maximising Molecular Diversity, J. Chem. Inf. Comput. Sci., Vol. 37, no. 5, 1 January 1997, Seiten 841–851 beschreibt eine Familie von Selekrionsalgorithmen, die eine stochastische Suchmaschine mit einer benutzerdefinierten Zielfunktion kombinieren, die jedes gewünschte Selektionskriterium codiert. Die Ergebnisse werden unter Verwendung des Sammon's nicht-linearen Kartierungsalgorithmus visualisiert.
Die WO 98/20459 beschreibt ein System zum Visualisieren und interakriven Analysieren von Daten, die sich auf chemische Verbindungen beziehen. Ein Benutzer wählt eine Anzahl von Verbindungen zum Kartieren und wählt ebenso ein Verfahren zum Evaluieren von Ähnlichkeiten/Unähnlichkeiten zwischen den ausgewählten Verbindungen. In Übereinstimmung mit den ausgewählten Verbindungen und dem ausgewählten Verfahren wird eine nicht-lineare Karte erzeugt. Die nicht-lineare Karte hat einen Punkt für jeden der ausgewählten Verbindungen, wobei eine Distanz zwischen zwei beliebigen Punkten die Ähnlichkeit/Unähnlichkeit zwischen den entsprechenden Verbindungen repräsentiert. Anschließend wird ein Teil der nicht-linearen Karte angezeigt.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren bereitgestellt zum Darstellen von Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte, wobei ein oder mehrere Paare von Objekten durch assoziierte paarweise Beziehungen mit begrenzten Bereichen der Beziehungswerte verbunden sind, wobei das Verfahren die Schritte umfasst:

(1) Anordnen der Objekte auf der Karte;
(2) Auswählen eines Paares von Objekten, wobei das ausgewählte Paar der Objekte dazwischen eine solche assoziierte Beziehung aufweist;
(3) Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, basierend auf dieser assoziierten Beziehung und auf der Distanz, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt;
(4) Wiederholen der Schritte (2) und (3) für weitere Paare von Objekten; und
(5) Erzeugen von Kartierungskoordinaten für die Objekte.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Darstellen der Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte bereitgestellt, wobei ein oder mehrere Paare von Objekten durch assoziierte paarweise Beziehungen mit begrenzten Bereichen der Beziehungswerte verbunden sind, wobei das System umfasst:
ein Koordinatenmodul zum Anordnen der Objekte auf einer Darstellungskarte;
einen Unterdatensatzselektor für das Auswählen eines Paares von Objekten, wobei das ausgewählte Paar dazwischen eine solche assoziierte Beziehung aufweist; und
ein Koordinatenkorrekturmodul für das Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, beruhend auf dieser assoziierten Beziehung und auf der Distanz, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt, und für das Erzeugen von Kartierungskoordinaten für die Objekte.
In der nachfolgenden Beschreibung werden die Begriffe "Beziehung", "Ähnlichkeit" oder "Unähnlichkeit" verwendet, um eine Beziehung zwischen einem Paar von Objekten zu kennzeichnen. Der Begriff "Darstellungskarte" wird verwendet, um eine Sammlung von Bildern in einem n-dimensionalen Raum zu bezeichnen, welche die ursprünglichen Objekte repräsentieren. Der Begriff "Distanz" wird verwendet, um eine Distanz zwischen Bildern auf einer Darstellungskarte zu bezeichnen, die mit den Objekten korrespondieren.
Beispiele für die vorliegende Erfindung werden hier angegeben, einschließlich solcher Beispiele der vorliegenden Erfindung, in denen Daten chemischer Verbindungen und Beziehungen implementiert sind. Es ist jedoch selbstverständlich, dass die vorliegende Erfindung nicht auf die hier dargestellten Beispiele beschränkt ist. Die vorliegende Erfindung kann in einer Vielzahl von Anwendungen implementiert sein.
Während beispielsweise die hier beschriebene spezielle Ausführungsform Distanzen zwischen Punkten verwendet, um die Ähnlichkeit/Unähnlichkeit zwischen Objekten darzustellen, ist die Erfindung darauf gerichtet und geeignet, ein beliebiges Darstellungsattribut zu verwenden, um die Ähnlichkeit/Unähnlichkeit zwischen Objekten darzustellen, einschließlich, aber nicht beschränkt, auf Font, Größe, Farbe, Graustufe, kursive Darstellung, Unterstreichung, Fettschrift, Kontarschrift, Umrandung etc. Beispielsweise kann die Ähnlichkeit/Unähnlichkeit von Objekten durch die relative Größe der Punkte dargestellt werden, welche die Objekte repräsentieren.
Weitere Merkmale und Vorteile der vorliegenden Erfindung sowie die Struktur und Arbeitsweise unterschiedlicher Ausführungsformen der vorliegenden Erfindung werden nachfolgend unter Bezugnahme auf die beigefügten Zeichnungen im Detail beschrieben.
Kurze Beschreibung der Figuren
Die Unterlagen dieses Patents beinhalten zumindest eine Zeichnung in Farbe. Kopien dieses Patents mit farbigen Zeichnungen werden auf Auftrag und Zahlung der erforderlichen Gebühr vom Patent- und Markenamt geliefert.
Die vorliegende Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, wobei:
1 ein Blockdiagramm einer Rechnerumgebung gemäß einer Ausführungsform der Erfindung darstellt;
2 ein Blockdiagramm eines Computers ist, der zur Implementierung von Komponenten der Erfindung geeignet ist;
3 ein Flussdiagramm ist, das die Operation der Erfindung beim Visualisieren und interaktiven Bearbeiten der Darstellungskarten gemäß einer Ausführungsform der Erfindung darstellt;
4 ein Flussdiagramm ist, das die Art und Weise darstellt, in der eine Darstellungskarte gemäß einer Ausführungsform der Erfindung erzeugt wird;
5 die Beziehungen zwischen Objekten konzeptionell darstellt, wobei die Beziehungen innerhalb bestimmter Toleranzen bekannt sind;
6 ein Blockdiagramm eines Systems zum Darstellen von Beziehungen zwischen Objekten ist; und
7 ein Prozess-Flussdiagramm ist, das ein Verfahren zum Darstellen von Beziehungen zwischen Objekten zeigt.
In den Zeichnungen kennzeichnen Bezugszeichen identische oder hinsichtlich der Funktion ähnliche Elemente. Ferner bezeichnet die erste Ziffer(n) der Bezugszeichen die Zeichnungen, in der die betreffenden Elemente als erstes eingefügt wurden.
Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Darstellen von präzisen oder unpräzisen Messungen von Ähnlichkeiten/Unähnlichkeiten (Beziehungen) zwischen Objekten als Distanzen zwischen Punkten (oder unter Verwendung anderer Darstellungsatt ribute oder Techniken) in einen multidimensionalen Raum, der die Objekte darstellt. Der Algorithmus verwendet selbstorganisierende Prinzipien, um eine Anfangskonfiguration (zufällig oder teilweise geordnet) von Punkten iterativ zu verfeinern unter Verwendung von stochastischen Beziehungen/Distanzfehlern.
Die Beziehungen zwischen den Objekten können direkt aus der Beobachtung, aus Messungen, Vorkenntnissen oder Intuition abgeleitet werden oder sie können direkt oder indirekt bestimmt werden unter Verwendung einer beliebigen, geeigneten Technik zum Herleiten von Näherungs-(Beziehungs-)-Daten.
Die vorliegende Erfindung analysiert iterativ Paare von Objekten, um diese in einem multidimensionalen Raum darzustellen, der die Objekte repräsentiert.
Der Begriff "Objekt" bezieht sich auf eine beliebige Dateneinheit, Daten, Eigenschaft, Attribut, Komponente, Element, Bestandteil, Gegenstand etc., wobei es zweckmäßig ist, die Ähnlichkeit/Unähnlichkeit zwischen Beispielen oder unterschiedlichen Elementen aus einer/em solchen beliebigen Dateneinheit, Daten, Eigenschaft, Attribut, Komponente, Element, Bestandteil, Gegenstand etc. darzustellen. Ohne Einschränkung, sondern nur zur Illustration, beinhalten Objekte beispielsweise chemische Verbindungen, Prozesse, Maschinen, Zusammensetzungen, Gegenstände zur Fertigung, elektrische Vorrichtungen, mechanische Vorrichtungen, Finanzdaten, Finanzinstrumente, finanzielle Trends, auf Finanzen bezogene Merkmale und Charakteristika, Software-Produkte, menschliche Merkmale und Charakteristika, wissenschaftliche Eigenschaften, Merkmale und Charakteristika etc. Bei einer Ausführungsform funktioniert die Erfindung mit einer beliebigen Dateneinheit, Daten, Eigenschaft, Attribut, Komponente, Element, Bestandteil, Gegenstand etc., ausschließlich chemischer Verbindungen.
II. Auswahl untergeordneter Sätze
Die vorliegende Erfindung analysiert iterativ Paare von Objekten als Unterdatensätze bzw. untergeordnete Sätze von Objekten, um diese in einem multidimensionalen Raum darzustel len, der die Beziehungen zwischen den Objekten repräsenriert. In einer exemplarischen Ausführungsform analysiert die vorliegende Erfindung iterativ untergeordnete Sätze von Objekten unter Verwendung von Algorithmen zum herkömmlichen multidimensionalen Skalieren oder nicht-linearen Kartieren. Bei dieser Ausführungsform werden die Objekte in einem ausgewählten untergeordneten Satz als eine Gruppe unter Verwendung eines herkömmlichen Algorithmus analysiert, wie zum Beispiel, aber nicht darauf beschränkt, die oben beschriebenen. Insbesondere werden die Koordinaten der Bilder, die zu den Objekten korrespondieren, die in dem untergeordneten Satz enthalten sind, verfeinert unter Verwendung herkömmlichen multidimensionalen Skalierens, nicht-linearen Kartierens oder eines anderen geeigneten Algorithmus oder unter Verwendung des nachfolgend beschriebenen paarweise Verfeinerungs-Algorithmus.
Bei dieser Ausführungsform können untergeordnete Sätze von Objekten zufällig ausgewählt werden, halbzufällig, systematisch, teilweise systematisch etc. Mit dem Analysieren von untergeordneten Sätzen der Objekte und der Korrektur ihrer Distanzen neigen die Sätze der Objekte dazu, sich selbst zu organisieren. Auf diese Weise können große Datensätze mittels Algorithmen zum herkömmlichen multidimensionalen Skalieren oder nicht-linearen Kartierens geordnet werden.
III. Vollständige paarweise Beziehungsmatrizen ohne Unsicherheiten
Ein hier aufgenommener bevorzugter Ansatz ist, eine iterative Verfeinerung zu verwenden, die auf stochastischen oder sofortigen Fehlern beruht. Die Beschreibung in diesem Abschnitt beruht auf der Annahme, dass alle paarweisen Beziehungen bekannt sind und diese alle exakt sind. So wie beim traditionellen MDS beginnt das Verfahren mit einer Start- bzw. Anfangskonfiguration der durch Zufall oder eine andere Prozedur (siehe unten) erzeugten Punkte. Diese Anfangskonfiguration wird dann kontinuierlich verfeinert durch wiederholtes Selektieren zweier Punkte i, j durch Zufall und Modifizieren deren Koordinaten auf der Darstellungskarte gemäß Gleichung 8: xi(t + 1) = f(t, xi(t), xj(t), rij) Gleichung 8wobei t die laufende Iteration ist, x_i(t) und x_j(t) die laufenden Koordinaten des i-ten und j-ten Punkts auf der Darstellungskarte sind, x_i(t + 1) die neuen Koordinaten des i-ten Punkts auf der Darstellungskarte sind und r_ij die paarweise Beziehung zwischen dem i-ten und j-ten Objekt ist, das wir versuchen, auf der Darstellungskarte anzunähern (siehe oben).
f(.) in der obigen Gleichung 8 kann eine beliebige funktionale Form annehmen. Idealerweise sollte diese Funktion versuchen, die Differenz zwischen der aktuellen und der Zieldistanz zwischen dem i-ten und dem j-ten Punkt zu minimieren. Beispielsweise kann f(.) durch Gleichung 9 wiedergegeben werden:
wobei t die Iterationszahl ist, d_ij = ||x_i(t) – x_j(t)|| und λ(t) ein einstellbarer Parameter ist, der nachfolgend als "Lerngeschwindigkeit" bezeichnet wird, was aus der neutralen Netzwerkterminologie entlehnt ist. Dieser Vorgang wird für eine feste Anzahl von Zyklen oder bis irgendein globales Fehlerkriterium innerhalb einer vorgegebenen Toleranz minimiert ist, wiederholt. Typischerweise ist eine große Anzahl von Iterationen erforderlich, um eine statistische Genauigkeit zu erreichen.
Das oben beschriebene Verfahren erinnert an das neuronale Netzwerk-Rückwärtspropagationsstraining (Werbos, Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD Thesis, Harvard University, Cambridge, MA (1974), sowie Rumelhart und McClelland, Eds., Parallel Distributed Processing: Explorations in the Micro structure of Cognition. Vol. 1, MIT Press, Cambridge, MA (1986)) und Kohonen's selbstorganisierendem Prinzip (Kohonen, Biological Cybernetics, 43: 59 (1982)).
Die Lerngeschwindigkeit λ(t) in Gleichung 9 spielt eine Schlüsselrolle bei der Wahrung der Konvergenz. Wenn λ zu klein ist, sind die Aktualisierungen der Koordinaten klein und die Konvergenz ist langsam. Wenn andererseits λ zu groß ist, kann die Lerngeschwindigkeit zwar beschleunigt werden, aber die Darstellungskarte wird instabil (d. h. oszillatorisch). Typischerweise bewegt sich λ in dem Intervall zwischen [0, 1] und kann fest sein oder während des Verfeinerungsprozesses monoton abnehmen. Darüber hinaus kann λ auch eine Funktion von i, j und/oder r_ij sein und dazu verwendet werden, bestimmten Objekten und/oder Beziehungen unterschiedliche Gewichtungen zuzuordnen. Beispielsweise kann λ folgendermaßen berechnet werden:
wobei λ_max und λ_min die (untergewichteten) Start- und End-Lerngeschwindigkeiten sind, sodass λ_max, λ_min ∈ [0, 1], t die Gesamtzahl der Verfeinerungsschritte (Iterationen) ist, t die laufende Iterationszahl ist und α ein konstanter Skalierungsfaktor ist. Gleichungen 10 und 11 haben die Wirkung, die Korrektur bei großen Separierungen abnehmen zu lassen, wodurch eine Darstellungskarte erzeugt wird, welche die Interaktionen im kurzen Bereich zuverlässiger bewahrt als diejenigen im entfernteren Bereich. Nachfolgend wird die Gewichtung detaillierter beschrieben.
Einer der wichtigsten Vorteile des Ansatzes besteht darin, dass er partielle Verfeinerungen möglich macht. Es ist häufig ausreichend, dass die paarweisen Beziehungen nur näherungsweise dargestellt werden, um die allgemeine Struktur und Topologie der Daten aufzudecken. Im Gegensatz zum traditionellen MDS, erlaubt dieser Ansatz eine sehr feine Steuerung des Verfeinerungsprozesses. Da sich darüber hinaus die Darstellungskarte selbst organisiert, wird ferner die paarweise Verfeinerung kooperativ, was teilweise die quadratische Natur des Problems abmildert.
Das oben beschriebene Einbettungsverfahren garantiert keine Konvergenz zu dem globalen Minimum (d. h., die zuverlässigste Einbettung in eine Methode der kleinsten Quadrate). Wenn gewünscht, kann der Verfeinerungsprozess, ausgehend von unterschiedlichen Startkonfigurationen und/oder zufälligen Anfangszahlen einige Male wiederholt werden. Grundsätzlich tragen die absoluten Koordinaten der Darstellungskarte keine physikalische Signifikanz. Wichtig sind die relativen Distanzen zwischen den Punkten und die allgemeine Struktur und Topologie der Daten (Präsenz, Dichte und Separierung von Clustern etc.).
Das oben beschriebene Verfahren ist sowohl für metrisches als auch für nicht-metrisches Skalieren ideal geeignet. Letzteres ist insbesondere dann sinnvoll, wenn die paarweisen Beziehungen die Abstandspostulate und insbesondere die Dreiecksinäquivalenzen nicht erfüllen. Obwohl eine "exakte" Projektion nur dann möglich ist, wenn die paarweise Beziehungsmatrix positiv definit ist, können sinnvolle Karten auch dann erhalten werden, auch wenn dieses Kriterium nicht erfüllt ist. Wie oben erwähnt, wird die Gesamtqualität der Projektion durch eine „Summe der Quadrate"-Fehlerfunktion bestimmt, wie sie in den Gleichungen 1–3 gezeigt sind.
Der oben beschriebene allgemeine Algorithmus kann auch dann angewendet werden, wenn die paarweise Beziehungsmatrix unvollständig ist, d. h., wenn einige der paarweisen Beziehun gen unbekannt sind, wenn einige der paarweisen Beziehungen unsicher oder korrupt sind oder beides. Diese Fälle werden nachfolgend separat diskutiert.
IV. Gering besetzte paarweise Beziehungsmatrix ohne Unsicherheiten
Der oben beschriebene allgemeine Algorithmus kann auch dann angewendet werden, wenn die paarweise Beziehungsmatrix unvollständig ist, d. h., wenn einige der paarweisen Beziehungen unbekannt sind. In diesem Fall kann ein ähnlicher Algorithmus zu dem oben beschriebenen verwendet werden mit der Ausnahme, dass der Algorithmus über Paare von Punkten iteriert, für die die Beziehungen bekannt sind. In diesem Fall identifiziert der Algorithmus Konfigurationen im Raum, welche die bekannten paarweisen Beziehungen erfüllen; die unbekannten paarweisen Beziehungen passen sich im Laufe der Verfeinerung an und nehmen gegebenenfalls Werte an, die zu einem befriedigenden Einbetten der bekannten Beziehungen führen.
Abhängig von der Anzahl der fehlenden Daten können mehr als eine befriedigende Einbettungen (Kartierungen) der ursprünglichen Beziehungsmatrix vorliegen. In diesem Fall können unterschiedliche Konfigurationen (Karten) aus unterschiedlichen Startkonfigurationen oder zufälligen Anfangszahlen hergeleitet werden. Bei einigen Anwendungen, wie zum Beispiel beim Suchen der konformationellen Räume von Molekülen, bietet dieses Merkmal einen signifikanten Vorteil gegenüber einigen alternativen Techniken. In diesem Zusammenhang können alle Variationen des ursprünglichen Algorithmus (siehe nachfolgenden Abschnitt) verwendet werden.
V. Paarweise Beziehungsmatrizen mit begrenzten Unsicherheiten
Gemäß der vorliegenden Erfindung kann der oben beschriebene allgemeine Algorithmus auch dann angewendet werden, wenn die paarweisen Beziehungen begrenzte Unsicherheiten enthalten, d. h., wenn einige der paarweisen Beziehungen nur innerhalb bestimmter fester Toleranzen bekannt sind (zum Beispiel wenn bekannt ist, dass die Beziehungen innerhalb eines Bereichs oder Satzes von Bereichen mit vorgegebenen oberen und unteren Grenzen liegen). In diesem Fall kann ein ähnlicher Algorithmus zu dem oben beschriebenen verwendet werden, mit der Ausnahme, dass die Distanzen auf der Darstellungskarte nur dann korrigiert werden, wenn die korrespondierenden Punkte außerhalb der vorgegebenen Grenzen liegen. Beispielsweise wird angenommen, dass die Beziehung zwischen zwei Objekten i und j jeweils in Form einer oberen und unteren Grenze r_max und r_min liegen. Wenn dieses Paar von Objekten im Laufe der Verfeinerung ausgewählt wird, werden die Distanz der korrespondierenden Bilder auf der Darstellungskarte berechnet und als d_ij bezeichnet. Wenn d_ij größer r_max ist, werden die Koordinaten der Bilder aktualisiert unter Verwendung von r_max als Zieldistanz (Gleichung 12): xi(t + 1) = f(t, xi(t), xj(t),rmax) Gleichung 12
Wenn dagegen d_ij kleiner als r_max ist, werden die Koordinaten der Bilder unter Verwendung von r_min als Zieldistanz (Gleichung 13) aktualisiert: xi(t + 1) = f(t, xi(t), xj(t), rmin) Gleichung 13
Wenn d_ij zwischen der oberen und unteren Grenze liegt (d. h., wenn r_min ≤ d_ij ≤ r_max), wird keine Korrektur vorgenommen. In anderen Worten, der Algorithmus versucht die obere Grenze zu treffen, wenn die vorliegende Distanz zwischen den Bildern größer als die obere Grenze ist, oder die untere Grenze, wenn die vorliegende Distanz zwischen den Bildern geringer ist als die untere Grenze. Wenn die Distanz zwischen den Bildern innerhalb der oberen und unteren Grenze liegt, wird keine Korrektur vorgenommen.
Dieser Algorithmus kann in dem Fall erweitert werden, wenn einige der paarweisen Beziehungen durch einen finiten Satz erlaubter, diskreter Werte oder durch einen Satz von Bereichen von Werten oder durch eine Kombination daraus gegeben sind. Für die nachfolgende Diskussion betrachten wir die diskreten Werte als Bereiche mit einer Breite von 0 (beispielsweise kann der diskrete Wert 2 durch den Bereich [2, 2] dargestellt werden).
In 5 sind verschiedene Möglichkeiten für eine einzige hypothetische paarweise Beziehung und die aktuelle Distanz der korrespondierenden Bilder auf der Darstellungskarte gezeigt, wobei die schattierten Bereiche 510, 512 und 514 erlaubte Bereiche für eine gegebene paarweise Beziehung bezeichnen. Die Distanzen d1–d5 illustrieren fünf unterschiedliche Möglichkeiten für die aktuelle Distanz zwischen den korrespondierenden Bildern auf der Darstellungskarte. Pfeile 516, 518, 520 und 522 zeigen die Richtung der Korrektur an, die auf die Bilder auf der Karte angewendet werden sollte. Die nach links weisenden Pfeile 518 und 522 zeigen an, dass die Koordinaten der assoziierten Bilder auf der Darstellungskarte aktualisiert werden sollten, sodass die Bilder näher zusammenkommen. Die nach rechts weisenden Pfeile 516 und 520 zeigen an, dass die Koordinaten der assoziierten Bilder aktualisiert werden sollten, sodass die Bilder eine größere Distanz zueinander bekommen.
Wenn, wie in dem Fall eines einzelnen Bereichs, die aktuelle Distanz eines ausgewählten Paars von Bildern auf der Darstellungskarte innerhalb eines vorgegebenen Bereichs liegt, findet keine Aktualisierung der Koordinaten statt (d. h., der Fall d1 in 5). Falls nicht, wird die Korrektur unter Verwendung der nahesten Bereichsgrenze als Zieldistanz (d. h., Fälle d2– d5 in 5) durchgeführt. Wenn beispielsweise die Beziehung zwischen einem gegebenen Paar von Objekten in den Bereichen [1, 2],[3, 5] und [6, 7] liegt und die aktuelle Distanz der jeweiligen Bilder 2,9 beträgt (d5 in 5), findet die Korrektur unter Verwendung von 3 als die Zieldistanz (r_ij) in Gleichung 8 statt. Wenn jedoch die aktuelle Distanz 2,1 beträgt, werden die Koordinaten unter Verwendung von 2 als die Zieldistanz (r_ij) in Gleichung 8 aktualisiert.
Dieses deterministische Kriterium kann durch ein stochastisches oder ein wahrscheinlichkeitstheorerisches Kriterium ersetzt werden, bei dem die aktuelle Zieldistanz entweder zufällig oder mittels einer Wahrscheinlichkeit ausgewählt wird, die von der Differenz zwischen der aktuellen Distanz und den beiden nahesten Bereichsgrenzen abhängt. Bei dem oben beschriebenen Beispiel (d5 in 5), könnte eine wahrscheinlichkeitstheoretische Wahl zwischen 2 und 3 als Zieldistanz gemacht werden mit Wahrscheinlichkeiten von beispielsweise 0,1 respektive 0,9 (d. h. 2 könnte mit einer Wahrscheinlichkeit von 0,1 und 3 mit einer Wahrscheinlichkeit von 0,9 als die Zieldistanz gewählt werden). Zum Herleiten solcher Wahrscheinlichkeiten kann eine beliebiges Verfahren verwendet werden. Alternativ kann zufällig entweder 2 oder 3 als Zieldistanz verwendet werden.
Beispielsweise können begrenzte Unsicherheiten in den paarweisen Beziehungen stochastische oder systematische Fehler oder rauschassoziiert mit einer physikalischen Messung repräsentieren und können im allgemeinen von einer paarweisen Beziehung zur anderen abweichen. Ein typisches Beispiel sind die nuklearen Overhauser Effekte (NOE's) in multidimensionaler nuklearer Magnetresonanzspektrometrie.
Ein alternativer Algorithmus zum Behandeln von Unsicherheiten reduziert die Größe der Korrektur für Paare von Objekten, deren Beziehung als unsicher angenommen wird. Bei diesem Schema wird die Größe der Korrektur, wie sie beispielsweise durch die Lerngeschwindigkeit in Gleichung 9 bestimmt wird, für paarweise Beziehungen reduziert, die als unsicher angenommen werden. Die Größe der Korrektur kann von dem Grad der Unsicherheit abhängen, der mit der korrespondierenden paarweisen Beziehung assoziiert ist (beispielsweise kann die Größe der Korrektur umgekehrt proportional zu der Unsicherheit sein, die mit der korrespondierenden paarweisen Beziehung assoziiert ist). Wenn die Existenz und/oder Größe der Fehler unbekannt ist, können die Fehler automatisch durch den Algorithmus bestimmt werden. (Siehe nachfolgenden Abschnitt V).
VI. Paarweise Beziehungsmatrizen mit unbegrenzten Unsicherheiten (korrupte Daten)
Die in den vorangegangenen Abschnitten beschriebenen Ideen können angewendet werden, wenn angenommen wird, dass einige der paarweisen Beziehungen korrupte Daten enthalten, d. h., wenn einige der paarweisen Beziehungen nicht korrekt sind und im wesentlichen keine Beziehung zu den aktuellen Werten beinhalten. In diesem Fall können "problematische" Beziehungen im Laufe des Algorithmus detektiert und von der nachfolgenden Bearbeitung entfernt werden. In anderen Worten besteht die Aufgabe darin, die korrupten Einträge zu identifizieren und sie aus der Beziehungsmatrix zu entfernen. Dieser Prozess führt zu einer schwach besetzten Beziehungsmatrix, die unter Verwendung des oben in Abschnitt 1.2 genannten Algorithmus verfeinert werden kann.
VII. Modifikationen des Basisalgorithmus
In vielen Fällen kann der oben beschriebene Algorithmus durch Vorordnen der Daten und Verwendung eines geeigneten statistischen Verfahrens beschleunigt werden. Wenn beispielsweise die Näherungsdaten aus Daten hergeleitet werden, die in vektorieller oder binärer Form verfügbar sind, kann die Startkonfiguration der Punkte auf der Darstellungskarte unter Verwendung von prinzipieller Komponentenanalysis berechnet werden („Principal Component Analysis". In einer bevorzugten Ausführungsform kann die Startkonfiguration aus den ersten drei prinzipiellen Komponenten der Merkmalsmatrix (d. h., die drei latenten Variablen, die den größten Teil zu der Varianz in den Daten beitragen) konstruiert werden. In der Praxis kann diese Technik eine profunde Auswirkung auf die Geschwindigkeit der Verfeinerung haben. Wenn eine zufällige Startkonfiguration verwendet wird, wird ein signifikanter Teil der Trainingszeit dafür aufgewendet, die generelle Struktur und Topologie der Darstellungskarte aufzustellen, die typischerweise durch große Umordnungen gekennzeichnet ist. Wenn andererseits die Eingangskonfiguration teilweise geordnet ist, kann das Fehlerkrtierium relativ schnell auf ein akzeptables Niveau reduziert werden.
Wenn die Daten in hohem Maße geclustert sind, können auf Grund des „Sampling" Prozesses Bereiche geringer Dichte weniger effektiv verfeinert werden als Bereiche hoher Dichte. In einer exemplarischen Ausführungsform kann diese Tendenz teilweise kompensiert werden durch eine Modifikation des ursprünglichen Algorithmus, der die „Sampling" Wahrscheinlichkeit in Bereichen geringer Dichte erhöht. Bei einer Ausführungsform wird der Schwerpunkt der Darstellungskarte identifiziert und konzentrische Schalen zentral um diesen Punkt konstruiert. Anschließend wird eine Serie von regulären Verfeinerungsiterationen durchgeführt, wobei jedes Mal Punkte von innerhalb dieser oder zwischen diesen Schalen ausgewählt werden. Dieser Vorgang wird für eine vorgegebene Anzahl von Zyklen wiederholt. Diese Phase wird dann gefolgt von einer Phase regulärer Verfeinerung unter Verwendung globalen „Samplings" und dieses Verfahrens wird wiederholt.
Im allgemeinen unterscheidet der Basisalgorithmus nicht zwischen Distanzen im kurzen Bereich und Distanzen im langen Bereich. Gleichungen 10 und 11 beschreiben eine Methode, um sicherzustellen, dass die Distanzen im kurzen Bereich zuverlässiger erhalten bleiben als die Distanzen im langen Bereich, durch die Anwendung von Wichtungen.
Ein alternativer (und komplementärer) Ansatz ist es, sicherzustellen, dass die Punkte bei naher Separation intensiver „gesampelt" werden als die Punkte mit weiter Separation. Beispielsweise kann eine alternierende Sequenz globaler und lokaler Verfeinerungszyklen, ähnlich der oben beschriebenen angewendet werden. Bei dieser Ausführungsform wird anfangs eine Phase globaler Verfeinerung ausgeführt, nach der die resultierende Darstellungskarte in ein regelmäßiges Gitter „Grid" unterteilt wird. Die Punkte (Objekte) jeder Zelle des Gitters werden anschließend einer Phase lokaler Verfeinerung ausgesetzt (d. h., nur Punkte von innerhalb derselben Zelle werden verglichen und verfeinert). Die Anzahl der „Sampling" Schritte sollte in jeder Zelle vorzugsweise proportional zu der Anzahl von Punkten sein, die in der Zelle enthalten sind. Dieser Prozess ist in hohem Maße parallelisierbar. Auf diese lokale Verfeinerungsphase folgt eine weitere globale Verfeinerungsphase, und dieser Prozess wird wiederholt für eine vorgegebene Anzahl von Zyklen oder so lange, bis der eingebettete Fehler innerhalb einer vorgegebenen Toleranz minimiert ist. Alternativ kann die Gittermethode durch ein anderes geeignetes Verfahren zur Identifizierung nahestehender Punkte ersetzt werden, wie zum Beispiel ein k-d-Baum.
Die hier beschriebenen Verfahren können für inkrementelle Verfeinerung verwendet werden. D. h., ausgehend von einer organisierten Darstellungskarte eines Satzes von Punkten, kann ein neuer Satz von Punkten hinzugefügt werden, ohne Modifikation der ursprünglichen Karte. Streng genommen ist dies statistisch akzeptabel, wenn der neue Satz von Punkten signifikant kleiner ist als der ursprüngliche Satz. In einer exemplarischen Ausführungsform kann der neue Satz von Punkten in die existierende Karte "diffundiert" werden, unter Verwendung einer Modifikation des oben beschriebenen Basisalgorithmus. Insbesondere können Gleichung 8 und 9 verwendet werden, um ausschließlich die eingehenden Punkte zu aktualisieren. Zusätzlich gewährleistet die „Sampling" Prozedur, dass die ausgewählten Paare zumindest einen Punkt aus dem eingehenden Satz enthalten. Das bedeutet, dass zwei Punkte zufällig ausgewählt werden, sodass zumindest einer dieser beiden Punkte zu dem eingehenden Satz gehört. Alternativ kann jeder neue Punkt unabhängig unter Verwendung des oben beschriebenen Ansatzes diffundiert werden.
VIII. Bewertungseigenschaften (Merkmale), Beziehungen und Abstandsmaße
In einer exemplarischen Ausführungsform können Beziehungen zwischen Objekten als Ähnlichkeiten/Unähnlichkeiten zwischen Objekten auf einer Darstellungskarte dargestellt und von den mit den Objekten assoziierten Eigenschaften oder Merkmalen hergeleitet werden. Um die Darstellungskarte aufzubauen, kann jedes beliebige Ähnlichkeitsmaß verwendet werden. Die Eigenschaften oder Merkmale, die zur Bewertung der Ähnlichkeiten oder Unähnlichkeiten verwendet werden, werden hier auch manchmal kollektiv als "Bewertungseigenschaften" bezeichnet.
Wenn beispielsweise die Objekte chemische Verbindungen sind, können die Ähnlichkeiten zwischen Objekten auf strukturellen Ähnlichkeiten, chemischen Ähnlichkeiten, physikalischen Ähnlichkeiten, biologischen Ähnlichkeiten und/oder auf einer anderen Art eines Ähnlichkeitsmaßes beruhen, da es aus der Struktur oder der Identität der Verbindungen hergeleitet werden kann.
A. Bewertungseigenschaften mit kontinuierlichen oder diskreten realen Werten
Ähnlichkeitsmaße können aus einer Liste von mit einem Satz von Objekten assoziierten Bewertungseigenschaften hergeleitet werden. Wenn beispielsweise die Objekte chemische Verbindungen sind, können die Bewertungseigenschaften physikalische, chemische und/oder biologische Eigenschaften sein, die mit einem Satz von chemischen Verbindungen assoziiert sind. Ausgehend von diesem Formalismus können die Objekte als Vektoren in einem multiplen-variablen Eigenschaftsraum dargestellt werden, und deren Ähnlichkeit kann durch einige geometrische Distanzmaße berechnet werden.
In einer exemplarischen Ausführungsform wird der Eigenschaftsraum unter Verwendung einer oder mehrerer Merkmale oder Deskriptoren definiert. Bei der chemischen Verbindung kann beispielsweise der Eigenschaftsraum unter Verwendung einer oder mehrerer molekularer Merkmale oder Deskriptoren definiert werden. Solche molekularen Merkmale können topologische Indizes, physikochemische Eigenschaften, elektrostatische Feldparameter, Volumen und Oberflächenparameter etc. umfassen. Diese Merkmale können beinhalten, ohne darauf beschränkt zu sein, das molekulare Volumen und Oberflächenbereiche, Dipolmomente, Oktanol-Wasser-Verteilungskoeffizienten, molare Refraktivitäten, Bildungswärme, totale Energien, Ionisierungspotenziale, molekulare Verbindungsindizes, zweidimensionale und dreidimensionale Autokorrelationsvektoren, dreidimensionale strukturelle und/oder Pharmakophorparameter, elektronische Felder etc.
Selbstverständlich ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt. Beispielsweise können molekulare Merkmale die beobachteten biologischen Aktivitäten eines Satzes von Verbindungen gegen einen Array von biologischen Zielen, wie zum Beispiel Enzymen oder Rezeptoren (ebenso bekannt als Affinität-Fingerabdrücke), umfassen. Tatsächlich kann bei der vorliegenden Erfindung eine beliebige vektorielle Darstellung von chemischen Daten verwendet werden.
Es ist ebenso selbstverständlich, dass die vorliegende Erfindung nicht auf die Anwendung auf Objekte chemischer Verbindungen beschränkt ist. Stattdessen kann die vorliegende Erfin dung mit einem beliebigen Datensatz oder Objekten implementiert werden, einschließlich solcher Objekte, die mit Bewertungseigenschaften assoziiert sind, welche kontinuierliche oder diskrete, reale Werte haben.
1. Beziehungen oder Distanzmaße, wobei Werte von Bewertungseigenschaften kontinuierliche oder diskrete, reale Zahlen sind
Ein "Distanzmaß" ist ein Algorithmus oder eine Technik, die auf der Basis von ausgewählten Bewertungseigenschaften zur Bestimmung einer Beziehung zwischen Objekten verwendet wird. Das spezielle Distanzmaß, das in einer bestimmten Situation verwendet wird, ist zumindest teilweise von dem Satz von Werten abhängig, welche die Bewertungseigenschaften aufnehmen können.
Beispielsweise können die Bewertungskriterien reale Zahlen als Werte annehmen, sodass ein geeignetes Distanzmaß die Minkowskimetrik ist, wie in Gleichung 14 gezeigt:
wobei k verwendet wird, um die Elemente des Eigenschaftsvektors zu indizieren und r ∈ [1, ∞]. Für r = 1,0 ist Gleichung 14 der "City-Block" oder die "Manhattan-Metrik". Für r = 2,0 ist Gleichung 14 die normale euklidische Metrik. Für r = ∞ ist Gleichung 14 das Maximum der absoluten Koordinatendistanzen, auch bezeichnet als die "Dominanz" Metrik, die "sup"-Metrik oder die "Ultrametrische" Distanz. Für jeden Wert von r ∈ [1, ∞] kann gezeigt werden, dass die Minkowskimetrik eine echte Metrik ist, d. h., sie erfüllt die Distanzpostulate und insbesondere die Dreiecksinäquivalenzen.
B. Bewertungseigenschaften mit binären Werten
Alternativ können die Bewertungseigenschaften der Objekte in einer binären Form dargestellt werden, wobei die Bits so verwendet werden, dass sie die Anwesenheit oder Abwesenheit oder die mögliche Anwesenheit oder die mögliche Abwesenheit von Merkmalen oder Eigenschaften anzeigen.
Wenn beispielsweise die Objekte chemische Verbindungen sind, können die Objekte codiert werden unter Verwendung von Substrukturschlüsseln, wobei jedes Bit die Anwesenheit oder Abwesenheit eines bestimmten strukturellen Merkmals oder Musters in dem Zielmolekül angibt. Solche Merkmale können beinhalten, sind aber nicht darauf beschränkt, die Anwesenheit, die Abwesenheit oder minimale Anzahl von Erscheinungen eines bestimmten Elements (beispielsweise die Anwesenheit von mindestens 1, 2 oder 3 Stickstoffatomen), unübliche oder wichtige elektronische Konfigurationen und Atomtypen (beispielsweise doppelt gebundener Stickstoff oder aromatischer Kohlenstoff, gemeinsame funktionelle Gruppen, wie zum Beispiel Alkohole, Amine etc., bestimmte primitive und zusammengesetzte Ringe, ein Paar oder ein Triplett von Pharmakophor-Gruppen in einer bestimmten Separation im dreidimensionalen Raum sowie "Fehlverbindungen" von unüblichen Merkmalen, die so selten sind, dass sie kein individuelles Bit wert sind, allerdings extrem wichtig sind, wenn diese auftreten. Typischerweise sind diese unüblichen Merkmale einem gemeinsamen Bit zugeordnet, das gesetzt wird, wenn eines der Muster in dem Zielmolekül vorhanden ist.
Alternativ können Bewertungseigenschaften von Verbindungen in Form von binären Fingerabdrücken codiert werden, die nicht von einem vordefinierten Fragment oder Merkmalsverzeichnis abhängen, um die Bit-Zuordnung durchzuführen. Stattdessen wird jedes Muster in dem Molekül bis zu einer vordefinierten Grenze systematisch aufgezählt und dient als Eingabe für einen verkleinernden Algorithmus, der eine kleine Anzahl von Bits in pseudozufälligen Positionen in der Bitmap "einschaltet". Obwohl es denkbar ist, dass zwei unterschiedliche Moleküle exakt den gleichen Fingerabdruck haben, ist die Wahrscheinlichkeit für diesen Zufall für alle, außer den einfachsten Fällen, extrem gering. Erfahrungen lassen vermuten, dass diese Fingerabdrücke ausreichende Informationen über die molekulare Struktur enthalten, um sinnvolle Ähnlichkeitsvergleiche zu erlauben.
1. Distanzmaße, wobei Werte der Bewertungseigenschaften binär sind
Eine Anzahl von Beziehungsmaßen können mit binären Deskriptoren verwendet werden (d. h., wo Bewertungseigenschaften binär oder binäre Fingerabdrücke sind). Die am häufigsten verwendeten ist die normalisierte Hamming Distanz:
welches das Maß der Anzahl von Bits angibt, die zwischen x und y unterschiedlich sind, der Tanimoto- oder Jaccard-Koeffizient:
was ein Maß für die Anzahl von Unterstrukturen ist, welche die beiden Moleküle miteinander haben, relativ zu denjenigen, welche sie gemeinsam haben könnten, und der „Dice"-Koeffizient:
In den oben angeführten Gleichungen ist AND(x, y) die Schnittmenge der binären Sätze x und y (Bits, die in beiden Sätzen "eingeschaltet" sind), IOR(x, y) die Vereinigungsmenge oder "einschließlich oder" der Sätze x und y (Bits, die entweder in x oder y "eingeschaltet" sind), XOR "exklusiv oder "von x und y (Bits, die entweder in x oder y "eingeschaltet" sind, aber nicht in beide), |x| die Anzahl von Bits, die im Satz x "eingeschaltet" sind und N die Länge der in Bits gemessenen binären Sätze (eine Konstante).
Eine weitere übliche Metrik ist die Euklidische Distanz, die in dem Fall von binären Sätzen ausgedruckt werden kann in der Form:
wobei NOT(y) das binäre Komplement von y bezeichnet. Der Ausdruck |XOR(x, NOT(y))| stellt eine Anzahl von Bits dar, die in x und y identisch sind (entweder "Einsen" oder "Nullen"). Die euklidische Distanz ist ein gutes Maß für Ähnlichkeit, wenn der binäre Sätze verhältnismäßig gehaltvoll sind, und wird meistens in Situationen verwendet, in denen die Ähnlichkeit im relativen Sinne gemessen wird.
Bei dem Beispiel mit der Verbindungen kann die Distanz zwischen Objekten unter Verwendung einer binären oder multivariablen Darstellung berechnet werden. Jedoch ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt.
Beispielsweise kann die Ähnlichkeit zwischen zwei Verbindungen durch Vergleichen der Formen der Moleküle bestimmt werden unter Verwendung einer geeigneten dreidimensiona len Vergleichs oder sie kann aus einem Ähnlichkeitsmodell abgeleitet werden, das gemäß einer vorgegebenen Prozedur definiert ist. Beispielsweise kann ein solches Ähnlichkeitsmodell ein neuronales Netzwerk sein, das darauf trainiert ist, ausgehend von einem geeigneten codierten Paar von Verbindungen Ähnlichkeitskoeffizienten vorauszusagen. Solche neuronalen Netze können trainiert werden unter Verwendung eines Trainingssatzes von Strukturpaaren und bekannten Ähnlichkeitskoeffizienten für jedes dieser Paare, die beispielsweise durch die Benutzereingabe bestimmt werden.
C. Skalieren der Bewertungseigenschaften
Bezug nehmend auf Gleichung 14 können Merkmale (d. h. Bewertungseigenschaften) unterschiedlich skaliert werden, um deren relative Bedeutung bei der Bewertung der Beziehung zwischen den Verbindungen zu reflektieren. Beispielsweise kann einer Eigenschaft A eine Wichtung von 2 zugeordnet werden und einer Eigenschaft B eine Wichtung von 10 zugeordnet werden. Die Eigenschaft B hat auf diese Weise eine fünffach größere Auswirkung auf die Beziehungsberechnung als die Eigenschaft A.
Dementsprechend kann Gleichung 14 durch Gleichung 19 ersetzt werden:
wobei w_k die Wichtung der k-ten Eigenschaft ist. Ein Beispiel eines solchen Wichtungsfaktors ist ein Normalisierungskoeffizient. Es können jedoch auch andere Wichtungsschemata verwendet werden.
Die Skalierung (Wichtung) muß nicht über die gesamte Darstellungskarte einheitlich sein, d. h., die resultierende Darstellungskarte muß nicht isomorph sein. Demnach werden Karten, die von einheitlichen Wichtungen hergeleitet sind, als global gewichtet (isomorph) bezeichnet, während Karten, die von nicht-einheitlichen Wichtungen hergeleitet sind, als logisch gewichtet (nicht-isomorph) bezeichnet werden. Auf lokal gewichteten Karten reflektieren die Beziehungen (oder Distanzen) auf der Darstellungskarte ein lokales Maß oder Ähnlichkeit. D. h., was in einem Bereich der Darstellungskarte als Ähnlichkeit festgelegt ist, stimmt nicht notwendigerweise mit dem überein, was in einem anderen Bereich der Darstellungskarte als Ähnlichkeit festgelegt ist.
Beispielsweise können lokal gewichtige Karten verwendet werden, um Ähnlichkeiten darzustellen, die von einem lokal gewichteten Fall-abhängig lernenden Algorithmus hergeleitet sind. Lokal gewichtetes Lernen verwendet lokal gewichtetes Training, um auf Trainingsdaten einen Durchschnitt zu bilden, dazwischen zu interpolieren, davon zu extrapolieren oder sie in anderer Weise zu kombinieren. Die meisten Lernmethoden (auch bezeichnet als Modellierungs- oder Vorhersagemethoden) erzeugen ein einziges Modell, das auf alle Trainingsdaten passt. Andererseits versuchen lokale Modelle, die Trainingsdaten in ein lokales Gebiet um die Lage der Abfrage herum anzupassen. Beispiele lokaler Modelle umfassen das „Nächste-Nachbar-Modell", den gewichteten Durchschnitt und lokal gewichtete Regression. Lokal gewichtetes Lernen ist beschrieben in Vapnik, in Advances in Neural Information Processing Systems, 4: 831, Morgan-Kaufman, San Mateo, CA (1982); Bottou and Vapnik, Neural Computation, 4(6): 888 (1992); sowie Vapnik and Bottou, Neural Computation, 5(6): 893 (1993), wobei all diese Literaturstellen in ihrer Gesamtheit durch Bezugnahme hierin aufgenommen sind.
Darstellungskarten können ebenso aus einer Beziehungsmatrix erzeugt werden, die nicht strikt symmetrisch ist, d. h., eine Beziehungsmatrix, bei der r_ij ≠ r_ji. Eine potentielle Verwendung dieses Ansatzes ist in Situationen möglich, in denen eine Beziehung (d. h. Beziehungsfunktion)lokal definiert ist, beispielsweise in einem lokal gewichteten Modell unter Verwendung einer punktbasierten lokalen Distanzfunktion. In dieser Ausführungsform ist jeder Trainingsfall mit einer Distanzfunktion und mit den Werten der korrespondierenden Parameter assoziiert. Um eine Darstellungskarte zu erzeugen, welche die lokalen Distanzbeziehungen reflektiert, wird die Distanz zwischen zwei Punkten unter Verwendung der lokalen Distanzfunktion der jeweiligen Punkte vorzugsweise zweimal bewertet. Aus den resultierenden Distanzen wird ein Durchschnitt gebildet, der als Eingabe in dem oben beschriebenen Darstel lungskarten-Algorithmus dient. Wenn die punktbasierten lokalen Distanzfunktionen in einer kontinuierlichen oder semi-kontinuierlichen Weise über dem Merkmalsraum variieren, könnte dieser Ansatz möglicherweise zu einer sinnvollen Projektion führen.
IX. Implementierung der Erfindung
A. Allgemeines
Die Erfindung kann unter Verwendung einer Vielzahl von Algorithmen und unter Verwendung von Hardware, Software, Firmware oder einer Kombination davon in vielerlei Wiese implementiert werden. 6 zeigt ein exemplarisches Blockdiagramm mit Modulen und Datenflüssen, die in einem System 610 enthalten sein können, das die vorliegende Erfindung implementiert. Das Blockdiagramm in 6 ist als Hilfe zum Verständnis der vorliegenden Erfindung gedacht. Die vorliegende Erfindung ist nicht beschränkt auf die exemplarische Ausführungsform, die in dem Blockdiagramm von 6 dargestellt ist.
Das System 610 beinhaltet eine relationale Datenbank 612, in der Beziehungsdaten 630 mit assoziierten Objekten gespeichert sind. Die Arten von Daten und zugeordneten Beziehungen, die durch die relationale Datenbank 612 angeordnet werden können, sind ohne Begrenzungen, da die vorliegende Erfindung für beliebige Arten von Daten implementiert werden kann, für die Beziehungen definiert werden können.
Die Beziehungsdaten 630 können aus einer oder mehreren aus einer Anzahl von Quellen geliefert werden. Beispielsweise kann die Beziehung 630a durch eine externe Quelle 632 geliefert werden, die Beziehung 630b kann von einer anderen Quelle 640 geliefert werden und die Beziehungsdaten 630n können durch ein optionales Beziehungsgeneratormodul 634, basierend auf den Bewertungseigenschaften 636 erzeugt werden. Das optionale Beziehungsgenerator-Modul 634 kann zum Ausführen eines oder mehrerer Algorithmen, wie zum Beispiel eine oder mehrere der Gleichungen 14–19, Hardware, Software, Firmware oder eine beliebige Kombination davon umfassen.
Die Beziehungsdaten 630 werden an ein Koordinatenmodul 616 geliefert. In einer exemplarischen Ausführungsform wird die Beziehung 630 an das Koordinatenmodul 616 als eine Beziehungsmatrix 614 geliefert, die vorzugsweise eine Matrix ist, die eine beliebige Anzahl von Beziehungsdaten 630 aus der Beziehungsdatenbank 612 enthält.
Das Koordinatenmodul 616 ordnet Startkoordinaten Datenpunkten oder Objekten zu, die durch die Beziehungsdaten 630 in einer Beziehung zueinander stehen. Die Anfangskoordinaten können zufällig oder durch eine beliebige andere Technik zugeordnet werden. Beispielsweise können die Daten vorgeordnet oder teilweise geordnet sein. Die Koordinaten umfassen eine Darstellungskarte. Die Darstellungskarte kann linear oder eine Anzeige-Darstellungskarte sein. Die Darstellungskarte ist eine n-dimensionale Darstellungskarte.
Untergruppen (Subsätze) 618 von Beziehungen/Koordinaten und assoziierte Beziehungen 620 werden ein Koordinaten-Korrekturmodul 622 geliefert. In einer exemplarischen Ausführungsform wird der Subsatz 618 von Beziehungen/Koordinaten nacheinander an das Koordinaten-Korrekturmodul 622 geliefert.
Es kann ein Subsatz-Auswahlmodul 636 vorgesehen sein, um die Subsätze 618 von Beziehungen/Koordinaten auszuwählen, die an das Koordinaten-Korrekturmodul 622 geliefert werden sollen. Das Subsatz-Auswahlmodul 636 für Subsätze kann untergeordnete Sätze 618 von Beziehungen/Koordinaten zufällig oder durch ein beliebiges anderes geeignetes Verfahren auswählen, einschließlich eines oder mehrerer der oben beschriebenen Verfahren.
Das Koordinaten-Korrekturmodul 622 korrigiert die Positionen der Objekte auf der Darstellungskarte (d. h., korrigiert Koordinaten 618) basierend auf präzisen oder unpräzisen Messungen der Ähnlichkeit/Unähnlichkeit (Beziehungen 620). Insbesondere misst das Koordinaten-Korrekturmodul 622 die Distanzen zwischen den Objekten auf der Darstellungskarte und vergleicht diese mit den assoziierten Beziehungen 620. Anschließend korrigiert das Koordinaten-Korrekturmodul 622 die Koordinaten 618 auf der Grundlage des Vergleichs. Dieses Distanzen können direkt oder um andere Darstellungsattribute zu modifizieren, verwendet werden.
Das Koordinaten-Korrekturmodul 622 zum Ausführen von einer oder mehreren konventionellen multidimensionalen Skalierungs- oder nicht-linearen Kartierungs-Algorithmen kann, wie oben beschrieben, Hardware, Software, Firmware oder eine beliebige Kombination davon enthalten. Zusätzlich oder alternativ kann das Koordinaten-Korrekturmodul 622 zum Ausführen eines oder mehrerer neuer Algorithmen zur paarweisen Analyse, wie zum Beispiel einer oder mehrerer von den Gleichungen 8 bis 13 oder Variationen davon, Hardware, Software, Firmware oder eine beliebige Kombination davon beinhalten.
Wenn das Koordinaten-Korrekturmodul 622 eine paarweise Analyse durchführt, wie oben beschrieben, kann es eine Lerngeschwindigkeit λ anwenden, um die Konvergenz der Distanz zwischen den Koordinaten in den Subsätzen 618 von Beziehungen/Koordinaten und den assoziierten Beziehungen) 620 zu gewährleisten. Das Koordinaten-Korrekturmodul 622 kann so gestaltet sein, dass es präzise oder unpräzise Messungen der Ähnlichkeit/Unähnlichkeit (Beziehungen 620) repräsentiert. Beispielsweise kann das Koordinaten-Korrekturmodul 622 programmiert sein, vollständige paarweise Matrizen zu behandeln, die keine Unsicherheiten haben, schwach besetzte paarweise Matrizen, die keine Unsicherheiten haben, paarweise Matrizen, die begrenzte Unsicherheiten beinhalten, und paarweise Matrizen, die unbegrenzte Unsicherheiten (d. h. korrupte (fehlerhafte) Daten) beinhalten, oder eine beliebige Kombination davon. Das Koordinaten-Korrekturmodul 622 kann ebenso programmiert sein, zusätzliche Objekte oder Datenpunkte in einen Satz von Objekten zu diffundieren, wie oben beschrieben.
Das Koordinaten-Korrekturmodul 622 erzeugt korrigierte Koordinaten 624, die an das Koordinatenmodul 616 zurückgegeben werden. Dieser Vorgang wird für zusätzliche Subsätze von Koordinaten 618 und assoziierte Beziehungen 620 wiederholt und wird vorzugsweise für die gleichen Subsätze 618 von Beziehungen/Koordinaten und assoziierte Beziehungen 620 wiederholt, bis eine vorgegebene Toleranz oder einige andere Kriterien erfüllt sind.
In einer exemplarischen Ausführungsform, bei der die Visualisierung der Beziehungen zwischen den Objekten angestrebt wird, können die Koordinaten 626 an ein optionales Visualisierungsmodul 628 zur Anzeige geliefert werden. So wie der iterative Prozess der Erfindung voranschreitet, werden die korrigierten Koordinaten 626 an das optionale Visualisierungsmodul 628 geliefert.
B. Implementierung der Erfindung in einem Computerprogrammprodukt
Die vorliegende Erfindung kann unter Verwendung einer oder mehrerer Computer implementiert werden. Bezugnehmend auf 2 beinhaltet ein exemplarischer Computer 202 einen oder mehrere Prozessoren, wie zum Beispiel einen Prozessor 204. Der Prozessor, 204 ist mit einem Kommunikationsbus 206 verbunden. Im Rahmen dieses exemplarischen Computersystems werden unterschiedliche Ausführungsformen von Software beschrieben. Einem in der betreffenden Technik bewanderten Fachmann wird nach der Lektüre dieser Beschreibung offenbar, wie die Erfindung unter Verwendung anderer Computersysteme und/oder Computerarchitekturen zu implementieren ist.
Der Computer 202 beinhaltet auch einen Hauptspeicher 208, vorzugsweise Speicher mit wahlweisem Zugriff (random access memory, RAM) und kann ebenso ein oder mehrere sekundäre Speichervorrichtungen 210 beinhalten. Die sekundären Speichervorrichtungen 210 können beispielsweise eine Festplatte 212 beinhalten und/oder ein Laufwerk 214 für austauschbare Speichermittel, wie z. B. ein Diskettenlaufwerk, ein magnetisches Bandlaufwerk, ein Laufwerk für optische Speichermittel etc. Das Laufwerk 214 für austauschbare Speichermittel liest von und/oder schreibt in bekannter Weise auf das austauschbare Speichermittel 216. Das austauschbare Speichermittel 216 ist eine Diskette, ein magnetisches Band, eine optische CD etc., die durch das Laufwerk 214 für das austauschbare Speichermittel gelesen und beschrieben wird. Das austauschbare Speichermittel 216 beinhaltet ein für Computer verwendbares Speichermedium, auf dem Computersoftware und/oder Daten gespeichert sind.
Bei alternativen Ausführungsformen kann der Computer 210 andere, ähnliche Mittel beinhalten, um das Laden von Computerprogrammen oder anderen Instruktionen in den Computer 202 zu ermöglichen. Solche Mittel können beispielsweise eine austauschbare Speichereinheit 220 sowie eine Schnittstelle 218 umfassen. Beispiele davon können eine Programm-Kassetten und Kassetten-Schnittstellen (wie sie beispielsweise bei Videospielvorrichtungen verwendet werden) umfassen, einen entfernbaren Speicherchip (wie zum Beispiel einen EPROM oder PROM) sowie einen zugeordneten Steckplatz und andere entfernbare Speichereinheiten 220 und Schnittstellen 218, die es ermöglichen, Daten von der entfernbaren Speichereinheit 220 auf den Computer 202 zu übertragen.
Der Computer 202 kann ebenso eine Kommunikationsschnittstelle 222 umfassen, die Kommunikationsschnittstelle 222 macht es möglich, Software und Daten zwischen dem Computer 202 und externen Vorrichtungen zu übertragen. Beispiele von Kommunikationsschnittstellen 222 beinhalten, ohne darauf beschränkt zu sein, Modems, eine Netzwerk-Schnittstelle (wie zum Beispiel eine Ethernet-Karte), einen Kommunikationsanschluss, einen PCMCIA Steckplatz und -Karte etc. Die über die Kommunikationsschnittstelle 222 übertragene Software und Daten werden in Form von Signalen (typischerweise Daten auf einem Träger) übermittelt, das elektronisch sein kann, elektromagnetisch, optisch oder andere Signale, die von einer Kommunikations-Schnittstelle 222 empfangen werden können.
In diesem Dokument wird der Begriff "Computer Programm Produkt" verwendet, um allgemein Medien zu bezeichnen, wie austauschbare Speichereinheiten 216, 222, eine Festplatte 212, die aus dem Computer 202 entfernt werden kann, und Signale tragende Software, die von der Kommunikations-Schnittstelle 222 empfangen wurde. Diese Computerprogrammprodukte sind Mittel, um Software an den Computer 202 zu liefern.
Die Computerprogramme (ebenso bezeichnet als Computersteuerungslogik) werden im Hauptspeicher und/oder in der sekundären Speichervorrichtung 210 gespeichert. Die Computerprogramnie können ebenso über die Kommunikationsschnittstelle 222 empfangen werden. Wenn solche Computerprogramme ausgeführt werden, versetzen sie den Computer 202 in die Lage, die hier beschriebenen Merkmale der vorliegenden Erfindung auszuführen. Wenn die Computerprogramme ausgeführt werden, versetzen sie insbesondere den Prozessor 204 in die Lage, die Merkmale der vorliegenden Erfindung auszuführen. Dementsprechend repräsentierten solche Computerprogramme Controller der Computer 202.
Bei einer Ausführungsform wird die Erfindung und Verwendung von Software implementiert, wobei die Software in einem Computerprogrammprodukt gespeichert und im Computer 202 geladen werden kann unter Verwendung eines Laufwerks 214 für austauschbare Speichermittel, einer Festplatte 212 und/oder einer Kommunikations-Schnittstelle 222. Wenn die Steuerungslogik (Software) durch den Prozessor 204 ausgeführt wird, veranlasst sie den Prozessor 204, die hier beschriebenen Funktionen der Erfindung durchzuführen.
Bei einer weiteren Ausführungsform wird der automatische Abschnitt der Erfindung hauptsächlich oder vollständig durch Hardware implementiert unter Verwendung von Hardware-Komponenten, wie zum Beispiel anwendungsspezifische integrierte Schaltkreise (ASIC). Die Implementierung der Hardware stellt die Maschine so ein, dass sie die hier beschriebenen Funktionen ausführt, wie das einem Fachmann in der betreffenden Technik offenbar wird.
Bei noch einer weiteren Ausführungsform wird die Erfindung unter Verwendung einer Kombination von Hardware und Software implementiert.
Der Computer 202 kann ein beliebiger geeigneter Computer sein, wie zum Beispiel ein Computersystem, auf dem ein Betriebssystem läuft, das eine graphische Benutzerschnittstelle unterstützt sowie eine Umgebung mit Fenstertechnik. Ein geeignetes Computersystem ist eine Workstation/Server von Silicon Graphics, Inc. (SGI), eine Workstation/Server von Sun, eine Workstation/Server von DEC, eine Workstation/Server von IBM, ein kompatibler Personal Computer von IBM, ein Macintosh Apple oder ein anderes geeignetes Computersystem, das einen oder mehrere Prozessoren aus der Intel Pentium Familie verwendet, wie zum Beispiel der Pentium Pro oder Pentium II. Geeignete Betriebssysteme sind, jedoch nicht beschränkend, Betriebssysteme von IRIX, OS/Solaris, Digital Unix, AIX, Microsoft Windows 95/NT, Apple Mac OS oder ein beliebiges anderes Betriebssystem. In einer exemplarischen Ausführungsform kann das Programm beispielsweise auf einer Silicon Graphics Octane Workstation implementiert werden und unter dem Betriebssystem IRIX 6.4 unter Verwendung der graphischen Motif Benutzerschnittstelle basierend auf dem X Windows System laufen.
C. Betriebsablauf der vorliegenden Erfindung
Bezugnehmend auf 7 wird der Betriebsablauf der vorliegenden Erfindung in einem Flussdiagramm 700 dargestellt. Der Betriebsablauf der vorliegenden Erfindung wird für einen allgemeinen Fall dargestellt, wobei eine Beziehungsmatrix 614 eine vollständige paarweise Beziehungsmatrix ohne Unsicherheiten ist. Ausgehend von der vorangehenden Beschreibung und dem Flussdiagramm 700 wird ein in der betreffenden Technik bewanderter Fachmann in der Lage sein, das Flussdiagramm 700 zu modifizieren, um es auf andere Situationen anzupassen, wie zum Beispiel: die Beziehungsmatrix 614 ist eine schwach besetzte n-weise oder paarweise Beziehungsmatrix ohne Unsicherheiten; die Beziehungsmatrix 614 ist eine n-weise oder paarweise Beziehungsmatrix mit begrenzten Unsicherheiten; die Beziehungsmatrix 614 ist eine paarweise Beziehungsmatrix mit unbegrenzten Unsicherheiten (d. h. korrupte Daten); etc.
Für einen allgemeinen Fall, bei dem eine Beziehungsmatrix 614 eine vollständige paarweise Beziehungsmatrix ohne Unsicherheiten ist, beginnt der Prozess bei Schritt 702, in den das Koordinatenmodul 616 die Beziehungsmatrix 614 von der Beziehungsdatenbank 612 empfängt.
Im Schritt 704 ordnet das Koordinatenmodul 616 den Objekten Startkoordinaten zu, die mit Beziehungen in der Beziehungsmatrix 614 assoziiert sind. Die Zuordnung der Startkoordinaten kann zufällig erfolgen. Alternativ können die Startkoordinaten vorgeordnet oder teilweise vorgeordnet sein.
In Schritt 706 wird ein untergeordneter Satz 618 von Beziehungen/Koordinaten von der Beziehungsmatrix 614 zur Korrektur ausgewählt. Der untergeordnete Satz 618 kann durch den untergeordneten Satz-Selektor 638 zufällig ausgewählt werden, semi-zufällig, systematisch, teilweise systematisch etc.
In Schritt 708 wird der ausgewählte untergeordnete Satz 618 und eine assoziierte Beziehung 620 an das Koordinaten-Korrekturmodul 622 geliefert. Das Koordinaten-Korrekturmodul 622 korrigiert die Koordinaten im untergeordneten Satz 618 von Beziehungen/Koordinaten basierend auf den assoziierten Beziehungen 620.
Im Schritt 710 wird eine Feststellung getroffen, ob ein weiterer untergeordneter Satz zur Korrektur der Koordinaten ausgewählt wird. Falls ein weiterer untergeordneter Satz 618 von Beziehungen/Koordinaten korrigiert werden soll, kehrt der Prozess zum Schritt 706 zum Auswählen eines weiteren untergeordneten Satzes 618 von Beziehungen/Koordinaten zurück. Andernfalls endet der Prozess bei Schritt 712.
Bei einer optionalen exemplarischen Ausführungsform werden im Schritt 714 Koordinaten 626 an das optionale Visualisierungs-Modul 628 zur Anzeige geliefert. Der Schritt 714 kann jederzeit durchgeführt werden, während einer oder mehrerer der Schritte 706–712.
Bei einer weiteren optionalen exemplarischen Ausführungsform werden die Beziehungsdaten 630 vor dem Schritt 702 erzeugt. In dieser optionalen exemplarischen Ausführungsform werden die Bewertungseigenschaften 636 im Schritt 716 empfangen. Im Schritt 718 erzeugt der Beziehungsgenerator 634 Beziehungsdaten 630 aus den Bewertungseigenschaften. Im Schritt 720 werden die Beziehungsdaten 630 an die Beziehungsdatenbank 612 geliefert.
Der Prozess setzt sich fort im Schritt 702, wo die Beziehungsdaten 630 an das Koordinatenmodul in Form der Beziehungsmatrix 614 geliefert werden.
X. Beispiele der Erfindung
Die vorliegende Erfindung kann in einer Vielzahl von Anwendungen und mit einer Vielzahl von Datentypen implementiert werden. In einer exemplarischen Ausführungsform kann die vorliegenden Erfindung als ein System implementiert werden, ein Verfahren und/oder ein Computerprogrammprodukt zum Visualisieren und interaktiven Analysieren von auf chemische Verbindungen bezogenen Daten, wobei die Distanzen zwischen den Objekten in einem multidimensionalen Raum Ähnlichkeiten und/oder Unähnlichkeiten der korrespondierenden Verbindungen darstellen (relativ zu den ausgewählten Eigenschaften oder Merkmalen der Verbindungen), die durch einige vorgeschriebene Verfahren berechnet werden. Die resultierenden Karten können auf geeigneten graphischen Vorrichtungen (wie zum Beispiel einem graphischen Terminal) dargestellt und interaktiv analysiert werden, um Beziehungen zwischen den Daten aufzudecken und um eine Reihe von Maßnahmen in Bezug auf diese Verbindungen zu initiieren.
Ein Benutzer kann eine Anzahl von Verbindungen zum Kartieren und ein Verfahren zum Bewerten von Ähnlichkeiten/Unähnlichkeiten zwischen den ausgewählten Verbindungen auswählen. Eine Darstellungskarte kann in Übereinstimmung mit den ausgewählten Verbindungen und dem ausgewählten Verfahren erzeugt werden. Die Darstellungskarte hat einen Punkt für jede ausgewählte Verbindung, wobei eine Distanz zwischen zwei beliebigen Punkten für die Ähnlichkeit/Unähnlichkeit zwischen den korrespondierenden Verbindungen repräsentativ ist. Daraufhin wird ein Teil der Darstellungskarte angezeigt. Es wird dem Benutzer ermöglicht, die in der Darstellungskarte angezeigten Verbindungen interaktiv zu analysieren. Alternativ kann jeder Punkt zu multiplen Verbindungen oder Objekten korrespondieren.
1 ist ein Blockdiagramm einer Computerumgebung 102 gemäß einer exemplarischen Ausführungsform der vorliegenden Erfindung.
Ein Modul 104 zur Visualisierung und interaktiven Analyse chemischer Daten umfasst ein Kartenerzeugungsmodul 106 sowie eine oder mehrere Benutzerhilfsschnittstellenkomponenten 108. Das kartenerzeugende Modul 106 bestimmt Ähnlichkeiten zwischen chemischen Verbindungen in Bezug auf eine oder mehrere ausgewählte Eigenschaften oder Merkmale (hierin manchmal als Bewertungseigenschaften oder Merkmale bezeichnet) der Komponenten. Das Kartenerzeugende Modul 106 erfüllt diese Funktion durch Abfragen und Analysieren von Daten über chemische Verbindungen und Reagenzien aus einer oder mehreren Datenbanken 120.
Das Modul 104 zur Visualisierung und interaktiven Analyse chemischer Daten kommuniziert mit einer oder mehreren Datenbanken 120 über ein Kommunikationsmedium 118. Das Kommunikationsmedium 118 ist vorzugsweise ein beliebiger Typ von Datenkommunikationsmitteln, wie zum Beispiel ein Datenbus, ein Computernetzwerk etc.
Das Benutzerschnittstellenmodul 108 zeigt eine vorzugsweise zweidimensionale oder dreidimensionale Darstellungskarte auf einer geeigneten graphischen Vorrichtung. Das Benutzerschnittstellenmodul 108 versetzt die Bedienungsperson in die Lage, die Information auf der Darstellungskarte interaktiv zu analysieren und zu verarbeiten, sodass die Beziehungen zwischen den Daten aufgedeckt werden, und einer Reihe von Anwendungen in Bezug auf die korrespondierenden Verbindungen zu initiieren.
Das Benutzerschnittstellenmodul 108 versetzt den Benutzer in die Lage, die Verbindungen als Sammlungen (beispielsweise als kombinatorische Bibliothek) zu organisieren. Die auf die Verbindungssammlungen bezogenen Informationen sind vorzugsweise in einer oder mehreren Datenbanken 120 gespeichert.
Die Eingangsvorrichtung(en) 114 empfangen Eingaben (wie zum Beispiel Daten, Befehle, Abfragen etc.) von der Benutzerperson und leiten diese über das Kommunikationsmedium 118 weiter, beispielsweise an das Modul 104 zur Visualisierung und interaktiven Analyse chemischer Daten. Es kann jede bekannte, geeignete Eingabevorrichtung für die vorliegende Erfindung verwendet werden, wie zum Beispiel eine Tastatur, eine Anzeigevorrichtung (Maus, Rollerball, Track Ball, Light Pen, etc.), Touch Screen, Spracherkennung, etc. Die Benutzereingabe kann auch gespeichert und je nach Bedarf von Daten/Befehls-Dateien abgefragt werden.
Ausgabevorrichtung(en) 116 geben Informationen an die Benutzerperson aus. Bei der vorliegenden Erfindung kann jede bekannte, geeignete Ausgabevorrichtung verwendet werden, wie zum Beispiel ein Monitor, ein Drucker, ein Diskettenlaufwerk oder eine Speichervorrichtung, ein Text-Sprache-Synthesizer etc.
Das Modul zur Visualisierung und interaktiven Analyse von chemischen Daten kann über das Kommunikationsmedium 118 mit einem oder mehreren Rechnermodulen 122 kommunizieren.
Die in 1 gezeigten Komponenten in der Computerumgebung 102 (wie zum Beispiel das Modul 104 zur Visualisierung und interaktiven Analyse von chemischen Daten) kann unter Verwendung einer oder mehrerer Computer implementiert werden, wie zum Beispiel der in 2 gezeigte exemplarische Computer 202.
A. Betriebsweise einer exemplarischen Ausführungsform
Nachfolgend wird die Betriebsweise der vorliegenden Erfindung, wie sie zur Visualisierung und interaktiven Bearbeitung chemischer Verbindungen in einer Darstellungskarte implementiert wurde, unter Bezugnahme auf die in 3 gezeigten Flussdiagramme 302 beschrieben werden. Sofern nicht anders spezifiziert, wird die unten beschriebene Interaktion mit dem Benutzer durch den Betrieb des Benutzerschnittstellenmoduls 108 (1) hergestellt.
In Schrift 304 wählt der Benutzer eine oder mehrere Verbindungen zum Kartieren in einer neuen Darstellungskarte. Der Benutzer kann Verbindungen zum Kartieren auswählen durch Abfragen einer Liste von Verbindungen von einer Datei, durch manuelle Eingabe in eine Liste von Verbindungen und/oder durch Verwendung einer graphischen Benutzerschnittstelle (GUI). Die Erfindung sieht auch andere Mittel vor, um den Benutzer in die Lage zu versetzen, die in der Darstellungskarte anzuzeigende Verbindung zu spezifizieren.
In Schritt 306 wählt der Benutzer ein Verfahren aus, das für die Bewertung der molekularen Ähnlichkeit oder Unähnlichkeit zwischen den im Schritt 304 ausgewählten Verbindungen verwendet wird. Bei einer Ausführungsform wird die Ähnlichkeit/Unähnlichkeit zwischen den im Schritt 304 ausgewählten Verbindungen bestimmt (im Schritt 308) basierend auf einem vorgeschriebenen Satz von Bewertungseigenschaften. Wie oben beschrieben, können die Bewertungseigenschaften eine beliebige Eigenschaft in Bezug auf die Struktur, Funktion oder Identität der im Schritt 304 ausgewählten Verbindung sein. Die Bewertungseigenschaften beinhalten, sind aber nicht darauf beschränkt, strukturelle Eigenschaften, funktionale Eigenschaften, chemische Eigenschaften, physikalische Eigenschaften, biologische Eigenschaften etc. der in Schritt 304 ausgewählten Verbindungen.
Bei einer Ausführungsform der vorliegenden Erfindung können die ausgewählten Bewertungseigenschaften unterschiedlich skaliert werden, um deren relative Bedeutung bei der Bewertung der Näherungsdaten (d. h. Ähnlichkeit oder Unähnlichkeit) zwischen zwei Verbindungen zu reflektieren. Dementsprechend wählt der Benutzer ebenfalls in Schritt 306 einen Skalierungsfaktor für jede der ausgewählten Bewertungseigenschaften. Es ist zu bemerken, dass die Auswahl von Skalierungsfaktoren optional ist. Der Benutzer muss nicht einen Skalierungsfaktor für jede der ausgewählten Bewertungseigenschaften auswählen. Wenn der Benutzer keinen Skalierungsfaktor für eine gegebene Bewertungseigenschaft auswählt, dann wird dieser Bewertungseigenschaft einheitlich ein vorgegebener Skalierungsfaktor gegeben.
Alternativ kann der Benutzer in Schritt 304 wählen, zu ausgewählten Verbindungen gehörige Werte bezüglich der Ähnlichkeit/Unähnlichkeit aus einer Quelle, wie zum Beispiel einer Datenbank, abzufragen. Diese Werte in der Datenbank bezüglich der Ähnlichkeit/Unähnlichkeit werden zuvor erzeugt. Bei einer weiteren Ausführungsform kann der Benutzer im Schritt 306 wählen, die Werte bezüglich der Ähnlichkeit/Unähnlichkeit unter Verwendung einer bekannten Technik oder Prozedur zu bestimmen.
Im Schritt 308 erzeugt das kartenerzeugende Modul 106 eine neue Darstellungskarte. Diese neue Darstellungskarte beinhaltet einen Punkt für jede der im Schritt 304 ausgewählten Verbindungen. In dieser neuen Darstellungskarte ist die Distanz zwischen zwei beliebigen Punkten ebenfalls repräsentativ für die Ähnlichkeit/Unähnlichkeit der korrespondierenden Verbindungen. Anschließend soll die Art und Weise, in der das kartengenerierende Modul 106 die neue Darstellungskarte erzeugt, unter Bezugnahme auf das Flussdiagramm 402 in 4 weiterbeschrieben werden.
Im Schritt 404 werden auf der neuen Darstellungskarte die Koordinaten der zu den im Schritt 304 ausgewählten Verbindungen korrespondierenden Punkte initialisiert.
Im Schritt 406 werden zwei Verbindungen i, j der in Schritt 304 ausgewählten Verbindungen für die Bearbeitung ausgewählt.
In Schritt 408 werden Ähnlichkeiten/Unähnlichkeiten r_ij zwischen den Verbindungen i, j basierend auf dem vom Benutzer im Schritt 306 ausgewählten Verfahren bestürmt.
Im Schritt 410 werden auf der Grundlage der im Schritt 408 bestimmten Ähnlichkeiten/Unähnlichkeiten r_ij die Koordinaten der Punkte der korrespondierenden Verbindungen i, j auf der Darstellungskarte ermittelt.
Im Schritt 412 werden die Trainings/Lern-Parameter aktualisiert.
Im Schritt 414 wird eine Entscheidung getroffen, ob das Verfahren beendet werden soll oder nicht. Wenn die Entscheidung getroffen wird, das Verfahren an dieser Stelle nicht zu beenden, dann kehrt die Steuerung zum Schritt 406 zurück. Andernfalls wird Schritt 416 durchgeführt.
Im Schritt 416 wird die Darstellungskarte ausgegeben (d. h., die Erzeugung der Darstellungskarte ist abgeschlossen).
Details bezüglich der Schritte im Flussdiagramm 402 sind oben diskutiert.
Bezugnehmend auf 3 zeigt im Schritt 312 der Kartenbetrachter 112 die neue Darstellungskarte auf einer Ausgabevorrichtung 116 (wie zum Beispiel ein graphischer Computermonitor) an.
Im Schritt 314 versetzt das Benutzerschnittstellenmodul 108 den Benutzer in die Lage, die in der angezeigten Darstellungskarte repräsentierten Verbindungen interaktiv zu analysieren und zu bearbeiten.
Die vorliegende Erfindung versetzt den Benutzer in die Lage, bestehende Darstellungskarten zur Visualisierung von Verbindungen (wobei der Begriff "Darstellungskarte zur Visualisierung von Verbindungen" sich auf eine erstellte Darstellungskarte bezieht) zu modifizieren. Beispielsweise kann der Benutzer zu der Karte zusätzliche Verbindungen hinzufügen, Verbindungen von der Karte entfernen, Verbindungen auf der Karte hervorheben etc. In solchen Fällen werden die entsprechenden funktionalen Schritte des Flussdiagramms 302 wiederholt. Beispielsweise im Schritt 304 (Auswählen einer Verbindung zum Kartieren), im Schritt 310 (Erzeugen einer Darstellungskarte) und im Schritt 312 (Anzeigen der Karte) werden wiederholt, wenn der Benutzer sich entscheidet, neue Verbindungen zu einer existierenden Karte hinzuzufügen. Gemäß einer Ausführungsform der Erfindung wird die Karte inkrementell verfeinert und in Schritten 310 und 312 angezeigt, wenn zu einer bestehenden Darstellungskarte zur Visualisierung von Verbindungen weitere Verbindungen hinzugefügt werden (dieses inkrementelle Verfeinern ist oben beschrieben).
Das oben gegebene Beispiel einer chemischen Verbindung ist zum Visualisieren und interaktiven Prozessieren einer beliebigen chemischen Einheit zweckvoll, einschließlich, aber nicht darauf beschränkt (kann jedoch dafür verwendet werden) kleine Moleküle, Polymere, Peptide, Proteine etc. Es kann ebenso zweckvoll sein, unterschiedliche Ähnlichkeits-Beziehungen zwischen diesen Verbindungen darzustellen.
XI. Zusammenfassungen
Die vorliegende Erfindung wurde oben mit Hilfe von funktionalen, aufbauenden Blöcken beschrieben, wobei die Durchführung der spezifischen Funktionen und deren Beziehungen dargestellt wurde. Die Abgrenzungen dieser funktionalen, aufbauenden Blöcke wurden hier zur Erleichterung der Beschreibung zufällig definiert. Es können alternative Abgrenzungen definiert weiden, so lange spezifizierte Funktionen und deren Beziehungen angemessen durchgeführt werden. Jeder dieser alternativen Abgrenzungen liegt deshalb innerhalb des Schutzumfangs und der Idee der beanspruchten Erfindung und wäre für Personen, die in der betreffenden Technik bewanderten sind, offensichtlich.
Diese funktionalen, aufbauenden Blöcke können diskrete Bauteile, anwendungsspezifische, integrierte Schaltkreise, sowie Prozessoren, welche die entsprechende Software ausführen, und ähnliches und in einer beliebigen Kombination davon, implementiert werden. Es liegt innerhalb der Möglichkeiten einer in der betreffenden Technik bewanderten Person, einen entsprechenden Schaltkreis und/oder Software zu entwickeln, um diese funktionalen, aufbauenden Blöcke zu implementierten.
Ausgehend von den oben genannten Beispielen und der Beschreibung ist eine in der betreffenden Technik bewanderten Person in der Lage, die vorliegende Erfindung in einer großen Vielzahl von Anwendungen zu implementieren, die alle innerhalb des Schutzumfangs der Erfindung liegen.
Während unterschiedliche Ausführungsformen der vorliegenden Erfindung oben beschrieben wurden, ist es selbstverständlich, dass diese lediglich exemplarisch und nicht einschränkend dargestellt wurden. Deshalb sollte die Breite und der Schutzumfang der vorliegenden Erfindung nicht durch eine der oben beschriebenen exemplarischen Ausführungsformen beschränkt werden, sondern ausschließlich in Übereinstimmung mit den folgenden Ansprüchen definiert werden.

Claims

Verfahren zur Darstellung der Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte, wobei ein oder mehr Paar(e) von Objekten durch assoziierte paarweise Beziehungen mit vorgegebenen Bereichen der Beziehungswerte verbunden sind, wobei das Verfahren die Schritte umfasst: (1) Anordnen der Objekte auf der Karte; (2) Auswählen eines Paares von Objekten, wobei das ausgewählte Paar der Objekte (618) dazwischen eine solche assoziierte Beziehung (620) aufweist; (3) Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, das auf dieser assoziierten Beziehung und auf der Distanz beruht, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt; (4) Wiederholen der Schritte (2) and (3) für weitere Paare von Objekten; und (5) Erzeugen von Kartierungskoordinaten (626) für die Objekte.
Verfahren gemäß Anspruch 1, wobei die Beziehungen zwischen einem oder mehr Paar(en) der Objekte unbekannt sind, wobei das Verfahren weiterhin die Schritte umfasst: Durchführen der Schritte (2) bis (4) nur für die Paare von Objekten, für die eine assoziierte Beziehung bekannt ist; und Zulassen, dass sich die Distanzen zwischen den Objekten auf der Karte, deren Beziehungen nicht bekannt sind, mit der Durchführung der Schritte (2) bis (4) ändern.
Verfahren gemäß Anspruch 1, wobei die Distanz nur korrigiert wird, wenn die Distanz eine obere Grenze der Beziehungswerte der assoziierten Beziehung überschreitet.
Verfahren gemäß Anspruch 1, wobei diese Distanz nur korrigiert wird, wenn diese Distanz eine untere Grenze der Beziehungswerte der assoziierten Beziehung unterschreitet.
Verfahren nach Anspruch 1, wobei ein oder mehr Paar(e) der Objekte durch eine assoziierte Beziehung in Beziehung zueinander stehen, die fehlerhaft ist, wobei das Verfahren weiterhin die Schritte umfasst: Nachweisen eines Paares von Objekten, für welche die entsprechende Beziehung fehlerhaft ist; Entfernen der Beziehung, die fehlerhaft ist; und Zulassen, dass die Distanz zwischen den Objekten, deren entsprechende Beziehung entfernt worden ist, sich mit der Durchführung der Schritte (2) bis (4) ändert.
Verfahren gemäß Anspruch 1, wobei Schritt (3) den Schritt des Korrigierens der Distanz umfasst, beruhend auf einer Lerngeschwindigkeit.
Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit festgelegt ist.
Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit variabel ist.
Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit eine Funktion der assoziierten Beziehung zwischen den Objekten ist.
Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit eine Funktion von mindestens einem Objekt des Paares von Objekten ist.
Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit eine Funktion des ausgewählten Paares von Objekten ist.
System zur Darstellung der Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte, wobei ein oder mehr Paar(e) von Objekten durch assoziierte paarweise Beziehungen mit vorgegebenen Bereichen der Beziehungswerte verbunden sind, wobei das System umfasst: ein Koordinatenmodul (616) für die Anordnung der Objekte auf einer Karte; einen Untergruppenselektor (638) für das Auswählen eines Paares (618) von Objekten, wobei das ausgewählte Paar dazwischen eine solche assoziierte Beziehung (620) aufweist; und ein Koordinatenkorrekturmodul (622) für das Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, das auf dieser assoziierten Beziehung und auf der Distanz beruht, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt, und für das Erzeugen von Kartierungskoordinaten (626) für die Objekte.