DE69914896T2 - System, verfahren und rechnerprogrammprodukt zur darstellung von annäherungsdaten in einem mehrdimensionalen raum - Google Patents

System, verfahren und rechnerprogrammprodukt zur darstellung von annäherungsdaten in einem mehrdimensionalen raum Download PDF

Info

Publication number
DE69914896T2
DE69914896T2 DE69914896T DE69914896T DE69914896T2 DE 69914896 T2 DE69914896 T2 DE 69914896T2 DE 69914896 T DE69914896 T DE 69914896T DE 69914896 T DE69914896 T DE 69914896T DE 69914896 T2 DE69914896 T2 DE 69914896T2
Authority
DE
Germany
Prior art keywords
objects
relationship
relationships
distance
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69914896T
Other languages
English (en)
Other versions
DE69914896D1 (de
Inventor
K. Dimitris AGRAFIOTIS
S. Victor LOBANOV
R. Francis SALEMME
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3 Dimensional Pharmaceuticals Inc
Original Assignee
3 Dimensional Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3 Dimensional Pharmaceuticals Inc filed Critical 3 Dimensional Pharmaceuticals Inc
Application granted granted Critical
Publication of DE69914896D1 publication Critical patent/DE69914896D1/de
Publication of DE69914896T2 publication Critical patent/DE69914896T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/00686Automatic
    • B01J2219/00689Automatic using computers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/007Simulation or vitual synthesis
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)
  • Stacking Of Articles And Auxiliary Devices (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Complex Calculations (AREA)
  • Knitting Machines (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Digital Computer Display Output (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Sewing Machines And Sewing (AREA)
  • Circuits Of Receivers In General (AREA)

Description

  • Hintergrund der Erfindung
  • Gebiet der Erfindung
  • Die vorliegende Erfindung ist auf Datenanalysen gerichtet, genauer auf die Darstellung der Nachbarschaft von Daten in einem multi-dimensionalen Raum.
  • Stand der Technik
  • Die multidimensionale Skalierung („Multidimensional scaling", MDS) und die nicht-lineare Kartierung („non-linear mapping", NLM) stellen Techniken zur Erzeugung von Darstellungskarten, einschließlich nicht-linearer Karten, von Objekten dar, wobei die Distanzen zwischen den Objekten Beziehungen zwischen den Objekten darstellen.
  • MDS und NLM wurden von Torgerson, Phychametrika, 17: 401 (1952); Kruskal, Psychometrika, 29: 115 (1964); und Sammon, IEEE Trans Comput., C-18: 401 (1969) als ein Mittel eingeführt, um niederdimensionale Darstellungen psychologischer Daten zu erzeugen. In Schiffman, Reynolds and Young, Introduction to Multidimensional Scaling Academic Press, New York (1981); Young and Hamer, Multidimensional Scaling: Hirtory, Theory and Applications, Erlbaum Associates, Inc., Hillsdale, NJ (1987); and Cox and Cox, Multidimensional Scaling Nr. 59 in Monographs in Statirtics and Applied Probability, Chapman-Hall (1994) wird ein Überblick über die multidimensionale Skalierung und die nicht-lineare Kartierung gegeben. Der Inhalt dieser Veröffentlichungen wird hierin in ihrer Gesamtheit durch Bezugnahme eingeschlossen.
  • MDS und NLM (diese sind im allgemeinen das gleiche und werden hiernach gemeinsam als MDS bezeichnet) stellen eine Sammlung von Verfahren zur Visualisierung von Nachbarschaftsbeziehungen durch Distanzen von Punkten in einem niedrig-dimensionalen euklidischen Raum dar. Ein Überblick über Nachbarschaftsmessungen wird in Hartigan, J. Am. Sta tist. Ass., 62: 1140 (1967) gegeben, welches hierin in seiner Gesamtheit durch Bezugnahme eingeschlossen wird.
  • Insbesondere ausgehend von einem finiten Satz von vektoriellen oder anderen Beispielen A = {ai, i = 1, ..., k}, einer Beziehungsfunktion rij = r(ai, aj), wobei ai, aj ∈ A, welches die Ähnlichkeit oder Unähnlichkeit zwischen dem i-ten und dem j-ten Objekt aus A angibt und einem Satz von Bildern X = {xi, ..., xk; xi
    Figure 00020001
    m} aus A aus einer m-dimensionalen Anzeigeebene (
    Figure 00020002
    m ist der Raum aller m-dimensionalen Vektoren der realen Zahlen), ist das Ziel auf der Anzeigeebene xi derart zu platzieren, dass deren euklidische Abstände dih = ||xi – xj|| den betreffenden Werten rij so nahe wie möglich kommen. Diese Abschätzung, die in vielen Fällen nur annäherungsweise vorgenommen werden kann, wird auf eine iterative Weise durchgeführt durch Minimieren einer Fehlerfunktion, die den Unterschied zwischen der originalen Distanzmatrix rij und einer projizierten Distanzmatrix dij des ursprünglichen und des projizierten Vektorsatzes misst.
  • Es wurden einige solcher Fehlerfunktionen vorgeschlagen, von denen die meisten vom Kleinstquadrattyp sind einschließlich Kruskal's Spannung („Stress"):
    Figure 00020003
    Sammon's Fehlerkriterium:
    Figure 00020004
    und Lingoes' Entfremdungskoeffizient:
    Figure 00030001
    wobei dij = ||xi – xj|| die euklidische Distanz zwischen den Bildern xi und xj auf der Anzeigeebene ist.
  • Allgemein wird die Lösung auf iterative Weise gefunden durch:
    • (1) Berechnen oder Abfragen aus einer Datenbank der Beziehungen rij;
    • (2) Initialisieren der Bilder xi;
    • (3) Berechnen der Distanzen der Bilder dij und des Werts der Fehlerfunktion (z. B. S, E oder K in den oben genannten Gleichungen 1–3);
    • (4) Berechnen einer neuen Konfiguration der Bilder xi unter Verwendung einer Prozedur mit abnehmendem Gradienten, wie zum Beispiel Kruskal's lineare Regression oder Guttman's Bildrang-Permutation; und
    • (5) Wiederholen der Schritte 3 und 4, bis der Fehler innerhalb einer vorgegebenen Toleranz minimiert ist.
  • Beispielsweise minimiert der Sammon Algorithmus die Gleichung 2 durch iteratives Aktualisieren der Koordinaten xi unter Verwendung von Gleichung 4: xpq(m + 1) = xpg(m) – λΔpq(m) Gleichung 4 wobei m die Iterationszahl ist, xpq die q-te Koordinate des p-ten Bildes xpq, λ die Lerngeschwindigkeit ist und
  • Figure 00040001
  • Die partiellen Ableitungen von Gleichung 5 lautet:
  • Figure 00040002
  • Das Kartieren wird erzielt durch wiederholtes Berechnen von Gleichung 2, gefolgt von einer Modifikation der Koordinaten unter Verwendung von Gleichungen 4 und 5, bis der Fehler innerhalb einer vorgeschriebenen Toleranz minimiert ist.
  • Das oben genannte generelle Verfeinerungsmuster ist für verhältnismäßig kleine Datensätze geeignet, weist jedoch eine wichtige Einschränkung auf, die es für große Datensätze unpraktisch macht. Diese Einschränkung rührt von der Tatsache her, dass der erforderliche Berechnungsaufwand, um die Gradienten zu berechnen (d. h., der oben genannte Schritt (4)) sich mit dem Quadrat der Größe des Datensatzes vergrößert. Bei verhältnismäßig großen Datensätzen ist aufgrund dieser quadratischen Zeitkomplexität sogar nur eine partielle Verfeinerung schwer zu bewältigen. Es wird ein System, ein Verfahren und ein Computerprogramm zur Darstellung von Näherungsdaten in einem multidimensionalen Raum benötigt, die sich vorzugsweise mit der Anzahl der Objekte vergrößert und die sowohl für kleine als auch für große Datensätze anwendbar sind. Darüber hinaus wird ein System, ein Verfahren und ein Computerprogramm benötigt, das mit fehlenden Daten und/oder Daten, die beschränkte oder unbeschränkte Unsicherheiten beinhalten, Rauschen oder Fehler effektiv umgehen können.
  • Agrafiotis, D. K, A New Method for Analysing Protein Sequence Relationships based on Sammon Maps, Protein Science, vol. 6, no. 2, Feb. 1997, Seiten 287–293 beschreibt ein Verfahren, zum Analysieren von Proteinsequenzen, basierend auf Sammon's nicht-linearen Kartierungsalgorithmus.
  • Agrafiotis, D. K.: Stochastic Algorithmus for Maximising Molecular Diversity, J. Chem. Inf. Comput. Sci., Vol. 37, no. 5, 1 January 1997, Seiten 841–851 beschreibt eine Familie von Selekrionsalgorithmen, die eine stochastische Suchmaschine mit einer benutzerdefinierten Zielfunktion kombinieren, die jedes gewünschte Selektionskriterium codiert. Die Ergebnisse werden unter Verwendung des Sammon's nicht-linearen Kartierungsalgorithmus visualisiert.
  • Die WO 98/20459 beschreibt ein System zum Visualisieren und interakriven Analysieren von Daten, die sich auf chemische Verbindungen beziehen. Ein Benutzer wählt eine Anzahl von Verbindungen zum Kartieren und wählt ebenso ein Verfahren zum Evaluieren von Ähnlichkeiten/Unähnlichkeiten zwischen den ausgewählten Verbindungen. In Übereinstimmung mit den ausgewählten Verbindungen und dem ausgewählten Verfahren wird eine nicht-lineare Karte erzeugt. Die nicht-lineare Karte hat einen Punkt für jeden der ausgewählten Verbindungen, wobei eine Distanz zwischen zwei beliebigen Punkten die Ähnlichkeit/Unähnlichkeit zwischen den entsprechenden Verbindungen repräsentiert. Anschließend wird ein Teil der nicht-linearen Karte angezeigt.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren bereitgestellt zum Darstellen von Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte, wobei ein oder mehrere Paare von Objekten durch assoziierte paarweise Beziehungen mit begrenzten Bereichen der Beziehungswerte verbunden sind, wobei das Verfahren die Schritte umfasst:
    • (1) Anordnen der Objekte auf der Karte;
    • (2) Auswählen eines Paares von Objekten, wobei das ausgewählte Paar der Objekte dazwischen eine solche assoziierte Beziehung aufweist;
    • (3) Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, basierend auf dieser assoziierten Beziehung und auf der Distanz, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt;
    • (4) Wiederholen der Schritte (2) und (3) für weitere Paare von Objekten; und
    • (5) Erzeugen von Kartierungskoordinaten für die Objekte.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Darstellen der Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte bereitgestellt, wobei ein oder mehrere Paare von Objekten durch assoziierte paarweise Beziehungen mit begrenzten Bereichen der Beziehungswerte verbunden sind, wobei das System umfasst:
    ein Koordinatenmodul zum Anordnen der Objekte auf einer Darstellungskarte;
    einen Unterdatensatzselektor für das Auswählen eines Paares von Objekten, wobei das ausgewählte Paar dazwischen eine solche assoziierte Beziehung aufweist; und
    ein Koordinatenkorrekturmodul für das Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, beruhend auf dieser assoziierten Beziehung und auf der Distanz, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt, und für das Erzeugen von Kartierungskoordinaten für die Objekte.
  • In der nachfolgenden Beschreibung werden die Begriffe "Beziehung", "Ähnlichkeit" oder "Unähnlichkeit" verwendet, um eine Beziehung zwischen einem Paar von Objekten zu kennzeichnen. Der Begriff "Darstellungskarte" wird verwendet, um eine Sammlung von Bildern in einem n-dimensionalen Raum zu bezeichnen, welche die ursprünglichen Objekte repräsentieren. Der Begriff "Distanz" wird verwendet, um eine Distanz zwischen Bildern auf einer Darstellungskarte zu bezeichnen, die mit den Objekten korrespondieren.
  • Beispiele für die vorliegende Erfindung werden hier angegeben, einschließlich solcher Beispiele der vorliegenden Erfindung, in denen Daten chemischer Verbindungen und Beziehungen implementiert sind. Es ist jedoch selbstverständlich, dass die vorliegende Erfindung nicht auf die hier dargestellten Beispiele beschränkt ist. Die vorliegende Erfindung kann in einer Vielzahl von Anwendungen implementiert sein.
  • Während beispielsweise die hier beschriebene spezielle Ausführungsform Distanzen zwischen Punkten verwendet, um die Ähnlichkeit/Unähnlichkeit zwischen Objekten darzustellen, ist die Erfindung darauf gerichtet und geeignet, ein beliebiges Darstellungsattribut zu verwenden, um die Ähnlichkeit/Unähnlichkeit zwischen Objekten darzustellen, einschließlich, aber nicht beschränkt, auf Font, Größe, Farbe, Graustufe, kursive Darstellung, Unterstreichung, Fettschrift, Kontarschrift, Umrandung etc. Beispielsweise kann die Ähnlichkeit/Unähnlichkeit von Objekten durch die relative Größe der Punkte dargestellt werden, welche die Objekte repräsentieren.
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung sowie die Struktur und Arbeitsweise unterschiedlicher Ausführungsformen der vorliegenden Erfindung werden nachfolgend unter Bezugnahme auf die beigefügten Zeichnungen im Detail beschrieben.
  • Kurze Beschreibung der Figuren
  • Die Unterlagen dieses Patents beinhalten zumindest eine Zeichnung in Farbe. Kopien dieses Patents mit farbigen Zeichnungen werden auf Auftrag und Zahlung der erforderlichen Gebühr vom Patent- und Markenamt geliefert.
  • Die vorliegende Erfindung wird unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, wobei:
  • 1 ein Blockdiagramm einer Rechnerumgebung gemäß einer Ausführungsform der Erfindung darstellt;
  • 2 ein Blockdiagramm eines Computers ist, der zur Implementierung von Komponenten der Erfindung geeignet ist;
  • 3 ein Flussdiagramm ist, das die Operation der Erfindung beim Visualisieren und interaktiven Bearbeiten der Darstellungskarten gemäß einer Ausführungsform der Erfindung darstellt;
  • 4 ein Flussdiagramm ist, das die Art und Weise darstellt, in der eine Darstellungskarte gemäß einer Ausführungsform der Erfindung erzeugt wird;
  • 5 die Beziehungen zwischen Objekten konzeptionell darstellt, wobei die Beziehungen innerhalb bestimmter Toleranzen bekannt sind;
  • 6 ein Blockdiagramm eines Systems zum Darstellen von Beziehungen zwischen Objekten ist; und
  • 7 ein Prozess-Flussdiagramm ist, das ein Verfahren zum Darstellen von Beziehungen zwischen Objekten zeigt.
  • In den Zeichnungen kennzeichnen Bezugszeichen identische oder hinsichtlich der Funktion ähnliche Elemente. Ferner bezeichnet die erste Ziffer(n) der Bezugszeichen die Zeichnungen, in der die betreffenden Elemente als erstes eingefügt wurden.
  • Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Darstellen von präzisen oder unpräzisen Messungen von Ähnlichkeiten/Unähnlichkeiten (Beziehungen) zwischen Objekten als Distanzen zwischen Punkten (oder unter Verwendung anderer Darstellungsatt ribute oder Techniken) in einen multidimensionalen Raum, der die Objekte darstellt. Der Algorithmus verwendet selbstorganisierende Prinzipien, um eine Anfangskonfiguration (zufällig oder teilweise geordnet) von Punkten iterativ zu verfeinern unter Verwendung von stochastischen Beziehungen/Distanzfehlern.
  • Die Beziehungen zwischen den Objekten können direkt aus der Beobachtung, aus Messungen, Vorkenntnissen oder Intuition abgeleitet werden oder sie können direkt oder indirekt bestimmt werden unter Verwendung einer beliebigen, geeigneten Technik zum Herleiten von Näherungs-(Beziehungs-)-Daten.
  • Die vorliegende Erfindung analysiert iterativ Paare von Objekten, um diese in einem multidimensionalen Raum darzustellen, der die Objekte repräsentiert.
  • Der Begriff "Objekt" bezieht sich auf eine beliebige Dateneinheit, Daten, Eigenschaft, Attribut, Komponente, Element, Bestandteil, Gegenstand etc., wobei es zweckmäßig ist, die Ähnlichkeit/Unähnlichkeit zwischen Beispielen oder unterschiedlichen Elementen aus einer/em solchen beliebigen Dateneinheit, Daten, Eigenschaft, Attribut, Komponente, Element, Bestandteil, Gegenstand etc. darzustellen. Ohne Einschränkung, sondern nur zur Illustration, beinhalten Objekte beispielsweise chemische Verbindungen, Prozesse, Maschinen, Zusammensetzungen, Gegenstände zur Fertigung, elektrische Vorrichtungen, mechanische Vorrichtungen, Finanzdaten, Finanzinstrumente, finanzielle Trends, auf Finanzen bezogene Merkmale und Charakteristika, Software-Produkte, menschliche Merkmale und Charakteristika, wissenschaftliche Eigenschaften, Merkmale und Charakteristika etc. Bei einer Ausführungsform funktioniert die Erfindung mit einer beliebigen Dateneinheit, Daten, Eigenschaft, Attribut, Komponente, Element, Bestandteil, Gegenstand etc., ausschließlich chemischer Verbindungen.
  • II. Auswahl untergeordneter Sätze
  • Die vorliegende Erfindung analysiert iterativ Paare von Objekten als Unterdatensätze bzw. untergeordnete Sätze von Objekten, um diese in einem multidimensionalen Raum darzustel len, der die Beziehungen zwischen den Objekten repräsenriert. In einer exemplarischen Ausführungsform analysiert die vorliegende Erfindung iterativ untergeordnete Sätze von Objekten unter Verwendung von Algorithmen zum herkömmlichen multidimensionalen Skalieren oder nicht-linearen Kartieren. Bei dieser Ausführungsform werden die Objekte in einem ausgewählten untergeordneten Satz als eine Gruppe unter Verwendung eines herkömmlichen Algorithmus analysiert, wie zum Beispiel, aber nicht darauf beschränkt, die oben beschriebenen. Insbesondere werden die Koordinaten der Bilder, die zu den Objekten korrespondieren, die in dem untergeordneten Satz enthalten sind, verfeinert unter Verwendung herkömmlichen multidimensionalen Skalierens, nicht-linearen Kartierens oder eines anderen geeigneten Algorithmus oder unter Verwendung des nachfolgend beschriebenen paarweise Verfeinerungs-Algorithmus.
  • Bei dieser Ausführungsform können untergeordnete Sätze von Objekten zufällig ausgewählt werden, halbzufällig, systematisch, teilweise systematisch etc. Mit dem Analysieren von untergeordneten Sätzen der Objekte und der Korrektur ihrer Distanzen neigen die Sätze der Objekte dazu, sich selbst zu organisieren. Auf diese Weise können große Datensätze mittels Algorithmen zum herkömmlichen multidimensionalen Skalieren oder nicht-linearen Kartierens geordnet werden.
  • III. Vollständige paarweise Beziehungsmatrizen ohne Unsicherheiten
  • Ein hier aufgenommener bevorzugter Ansatz ist, eine iterative Verfeinerung zu verwenden, die auf stochastischen oder sofortigen Fehlern beruht. Die Beschreibung in diesem Abschnitt beruht auf der Annahme, dass alle paarweisen Beziehungen bekannt sind und diese alle exakt sind. So wie beim traditionellen MDS beginnt das Verfahren mit einer Start- bzw. Anfangskonfiguration der durch Zufall oder eine andere Prozedur (siehe unten) erzeugten Punkte. Diese Anfangskonfiguration wird dann kontinuierlich verfeinert durch wiederholtes Selektieren zweier Punkte i, j durch Zufall und Modifizieren deren Koordinaten auf der Darstellungskarte gemäß Gleichung 8: xi(t + 1) = f(t, xi(t), xj(t), rij) Gleichung 8wobei t die laufende Iteration ist, xi(t) und xj(t) die laufenden Koordinaten des i-ten und j-ten Punkts auf der Darstellungskarte sind, xi(t + 1) die neuen Koordinaten des i-ten Punkts auf der Darstellungskarte sind und rij die paarweise Beziehung zwischen dem i-ten und j-ten Objekt ist, das wir versuchen, auf der Darstellungskarte anzunähern (siehe oben).
  • f(.) in der obigen Gleichung 8 kann eine beliebige funktionale Form annehmen. Idealerweise sollte diese Funktion versuchen, die Differenz zwischen der aktuellen und der Zieldistanz zwischen dem i-ten und dem j-ten Punkt zu minimieren. Beispielsweise kann f(.) durch Gleichung 9 wiedergegeben werden:
    Figure 00110001
    wobei t die Iterationszahl ist, dij = ||xi(t) – xj(t)|| und λ(t) ein einstellbarer Parameter ist, der nachfolgend als "Lerngeschwindigkeit" bezeichnet wird, was aus der neutralen Netzwerkterminologie entlehnt ist. Dieser Vorgang wird für eine feste Anzahl von Zyklen oder bis irgendein globales Fehlerkriterium innerhalb einer vorgegebenen Toleranz minimiert ist, wiederholt. Typischerweise ist eine große Anzahl von Iterationen erforderlich, um eine statistische Genauigkeit zu erreichen.
  • Das oben beschriebene Verfahren erinnert an das neuronale Netzwerk-Rückwärtspropagationsstraining (Werbos, Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD Thesis, Harvard University, Cambridge, MA (1974), sowie Rumelhart und McClelland, Eds., Parallel Distributed Processing: Explorations in the Micro structure of Cognition. Vol. 1, MIT Press, Cambridge, MA (1986)) und Kohonen's selbstorganisierendem Prinzip (Kohonen, Biological Cybernetics, 43: 59 (1982)).
  • Die Lerngeschwindigkeit λ(t) in Gleichung 9 spielt eine Schlüsselrolle bei der Wahrung der Konvergenz. Wenn λ zu klein ist, sind die Aktualisierungen der Koordinaten klein und die Konvergenz ist langsam. Wenn andererseits λ zu groß ist, kann die Lerngeschwindigkeit zwar beschleunigt werden, aber die Darstellungskarte wird instabil (d. h. oszillatorisch). Typischerweise bewegt sich λ in dem Intervall zwischen [0, 1] und kann fest sein oder während des Verfeinerungsprozesses monoton abnehmen. Darüber hinaus kann λ auch eine Funktion von i, j und/oder rij sein und dazu verwendet werden, bestimmten Objekten und/oder Beziehungen unterschiedliche Gewichtungen zuzuordnen. Beispielsweise kann λ folgendermaßen berechnet werden:
    Figure 00120001
    wobei λmax und λmin die (untergewichteten) Start- und End-Lerngeschwindigkeiten sind, sodass λmax, λmin ∈ [0, 1], t die Gesamtzahl der Verfeinerungsschritte (Iterationen) ist, t die laufende Iterationszahl ist und α ein konstanter Skalierungsfaktor ist. Gleichungen 10 und 11 haben die Wirkung, die Korrektur bei großen Separierungen abnehmen zu lassen, wodurch eine Darstellungskarte erzeugt wird, welche die Interaktionen im kurzen Bereich zuverlässiger bewahrt als diejenigen im entfernteren Bereich. Nachfolgend wird die Gewichtung detaillierter beschrieben.
  • Einer der wichtigsten Vorteile des Ansatzes besteht darin, dass er partielle Verfeinerungen möglich macht. Es ist häufig ausreichend, dass die paarweisen Beziehungen nur näherungsweise dargestellt werden, um die allgemeine Struktur und Topologie der Daten aufzudecken. Im Gegensatz zum traditionellen MDS, erlaubt dieser Ansatz eine sehr feine Steuerung des Verfeinerungsprozesses. Da sich darüber hinaus die Darstellungskarte selbst organisiert, wird ferner die paarweise Verfeinerung kooperativ, was teilweise die quadratische Natur des Problems abmildert.
  • Das oben beschriebene Einbettungsverfahren garantiert keine Konvergenz zu dem globalen Minimum (d. h., die zuverlässigste Einbettung in eine Methode der kleinsten Quadrate). Wenn gewünscht, kann der Verfeinerungsprozess, ausgehend von unterschiedlichen Startkonfigurationen und/oder zufälligen Anfangszahlen einige Male wiederholt werden. Grundsätzlich tragen die absoluten Koordinaten der Darstellungskarte keine physikalische Signifikanz. Wichtig sind die relativen Distanzen zwischen den Punkten und die allgemeine Struktur und Topologie der Daten (Präsenz, Dichte und Separierung von Clustern etc.).
  • Das oben beschriebene Verfahren ist sowohl für metrisches als auch für nicht-metrisches Skalieren ideal geeignet. Letzteres ist insbesondere dann sinnvoll, wenn die paarweisen Beziehungen die Abstandspostulate und insbesondere die Dreiecksinäquivalenzen nicht erfüllen. Obwohl eine "exakte" Projektion nur dann möglich ist, wenn die paarweise Beziehungsmatrix positiv definit ist, können sinnvolle Karten auch dann erhalten werden, auch wenn dieses Kriterium nicht erfüllt ist. Wie oben erwähnt, wird die Gesamtqualität der Projektion durch eine „Summe der Quadrate"-Fehlerfunktion bestimmt, wie sie in den Gleichungen 1–3 gezeigt sind.
  • Der oben beschriebene allgemeine Algorithmus kann auch dann angewendet werden, wenn die paarweise Beziehungsmatrix unvollständig ist, d. h., wenn einige der paarweisen Beziehun gen unbekannt sind, wenn einige der paarweisen Beziehungen unsicher oder korrupt sind oder beides. Diese Fälle werden nachfolgend separat diskutiert.
  • IV. Gering besetzte paarweise Beziehungsmatrix ohne Unsicherheiten
  • Der oben beschriebene allgemeine Algorithmus kann auch dann angewendet werden, wenn die paarweise Beziehungsmatrix unvollständig ist, d. h., wenn einige der paarweisen Beziehungen unbekannt sind. In diesem Fall kann ein ähnlicher Algorithmus zu dem oben beschriebenen verwendet werden mit der Ausnahme, dass der Algorithmus über Paare von Punkten iteriert, für die die Beziehungen bekannt sind. In diesem Fall identifiziert der Algorithmus Konfigurationen im Raum, welche die bekannten paarweisen Beziehungen erfüllen; die unbekannten paarweisen Beziehungen passen sich im Laufe der Verfeinerung an und nehmen gegebenenfalls Werte an, die zu einem befriedigenden Einbetten der bekannten Beziehungen führen.
  • Abhängig von der Anzahl der fehlenden Daten können mehr als eine befriedigende Einbettungen (Kartierungen) der ursprünglichen Beziehungsmatrix vorliegen. In diesem Fall können unterschiedliche Konfigurationen (Karten) aus unterschiedlichen Startkonfigurationen oder zufälligen Anfangszahlen hergeleitet werden. Bei einigen Anwendungen, wie zum Beispiel beim Suchen der konformationellen Räume von Molekülen, bietet dieses Merkmal einen signifikanten Vorteil gegenüber einigen alternativen Techniken. In diesem Zusammenhang können alle Variationen des ursprünglichen Algorithmus (siehe nachfolgenden Abschnitt) verwendet werden.
  • V. Paarweise Beziehungsmatrizen mit begrenzten Unsicherheiten
  • Gemäß der vorliegenden Erfindung kann der oben beschriebene allgemeine Algorithmus auch dann angewendet werden, wenn die paarweisen Beziehungen begrenzte Unsicherheiten enthalten, d. h., wenn einige der paarweisen Beziehungen nur innerhalb bestimmter fester Toleranzen bekannt sind (zum Beispiel wenn bekannt ist, dass die Beziehungen innerhalb eines Bereichs oder Satzes von Bereichen mit vorgegebenen oberen und unteren Grenzen liegen). In diesem Fall kann ein ähnlicher Algorithmus zu dem oben beschriebenen verwendet werden, mit der Ausnahme, dass die Distanzen auf der Darstellungskarte nur dann korrigiert werden, wenn die korrespondierenden Punkte außerhalb der vorgegebenen Grenzen liegen. Beispielsweise wird angenommen, dass die Beziehung zwischen zwei Objekten i und j jeweils in Form einer oberen und unteren Grenze rmax und rmin liegen. Wenn dieses Paar von Objekten im Laufe der Verfeinerung ausgewählt wird, werden die Distanz der korrespondierenden Bilder auf der Darstellungskarte berechnet und als dij bezeichnet. Wenn dij größer rmax ist, werden die Koordinaten der Bilder aktualisiert unter Verwendung von rmax als Zieldistanz (Gleichung 12): xi(t + 1) = f(t, xi(t), xj(t),rmax) Gleichung 12
  • Wenn dagegen dij kleiner als rmax ist, werden die Koordinaten der Bilder unter Verwendung von rmin als Zieldistanz (Gleichung 13) aktualisiert: xi(t + 1) = f(t, xi(t), xj(t), rmin) Gleichung 13
  • Wenn dij zwischen der oberen und unteren Grenze liegt (d. h., wenn rmin ≤ dij ≤ rmax), wird keine Korrektur vorgenommen. In anderen Worten, der Algorithmus versucht die obere Grenze zu treffen, wenn die vorliegende Distanz zwischen den Bildern größer als die obere Grenze ist, oder die untere Grenze, wenn die vorliegende Distanz zwischen den Bildern geringer ist als die untere Grenze. Wenn die Distanz zwischen den Bildern innerhalb der oberen und unteren Grenze liegt, wird keine Korrektur vorgenommen.
  • Dieser Algorithmus kann in dem Fall erweitert werden, wenn einige der paarweisen Beziehungen durch einen finiten Satz erlaubter, diskreter Werte oder durch einen Satz von Bereichen von Werten oder durch eine Kombination daraus gegeben sind. Für die nachfolgende Diskussion betrachten wir die diskreten Werte als Bereiche mit einer Breite von 0 (beispielsweise kann der diskrete Wert 2 durch den Bereich [2, 2] dargestellt werden).
  • In 5 sind verschiedene Möglichkeiten für eine einzige hypothetische paarweise Beziehung und die aktuelle Distanz der korrespondierenden Bilder auf der Darstellungskarte gezeigt, wobei die schattierten Bereiche 510, 512 und 514 erlaubte Bereiche für eine gegebene paarweise Beziehung bezeichnen. Die Distanzen d1–d5 illustrieren fünf unterschiedliche Möglichkeiten für die aktuelle Distanz zwischen den korrespondierenden Bildern auf der Darstellungskarte. Pfeile 516, 518, 520 und 522 zeigen die Richtung der Korrektur an, die auf die Bilder auf der Karte angewendet werden sollte. Die nach links weisenden Pfeile 518 und 522 zeigen an, dass die Koordinaten der assoziierten Bilder auf der Darstellungskarte aktualisiert werden sollten, sodass die Bilder näher zusammenkommen. Die nach rechts weisenden Pfeile 516 und 520 zeigen an, dass die Koordinaten der assoziierten Bilder aktualisiert werden sollten, sodass die Bilder eine größere Distanz zueinander bekommen.
  • Wenn, wie in dem Fall eines einzelnen Bereichs, die aktuelle Distanz eines ausgewählten Paars von Bildern auf der Darstellungskarte innerhalb eines vorgegebenen Bereichs liegt, findet keine Aktualisierung der Koordinaten statt (d. h., der Fall d1 in 5). Falls nicht, wird die Korrektur unter Verwendung der nahesten Bereichsgrenze als Zieldistanz (d. h., Fälle d2– d5 in 5) durchgeführt. Wenn beispielsweise die Beziehung zwischen einem gegebenen Paar von Objekten in den Bereichen [1, 2],[3, 5] und [6, 7] liegt und die aktuelle Distanz der jeweiligen Bilder 2,9 beträgt (d5 in 5), findet die Korrektur unter Verwendung von 3 als die Zieldistanz (rij) in Gleichung 8 statt. Wenn jedoch die aktuelle Distanz 2,1 beträgt, werden die Koordinaten unter Verwendung von 2 als die Zieldistanz (rij) in Gleichung 8 aktualisiert.
  • Dieses deterministische Kriterium kann durch ein stochastisches oder ein wahrscheinlichkeitstheorerisches Kriterium ersetzt werden, bei dem die aktuelle Zieldistanz entweder zufällig oder mittels einer Wahrscheinlichkeit ausgewählt wird, die von der Differenz zwischen der aktuellen Distanz und den beiden nahesten Bereichsgrenzen abhängt. Bei dem oben beschriebenen Beispiel (d5 in 5), könnte eine wahrscheinlichkeitstheoretische Wahl zwischen 2 und 3 als Zieldistanz gemacht werden mit Wahrscheinlichkeiten von beispielsweise 0,1 respektive 0,9 (d. h. 2 könnte mit einer Wahrscheinlichkeit von 0,1 und 3 mit einer Wahrscheinlichkeit von 0,9 als die Zieldistanz gewählt werden). Zum Herleiten solcher Wahrscheinlichkeiten kann eine beliebiges Verfahren verwendet werden. Alternativ kann zufällig entweder 2 oder 3 als Zieldistanz verwendet werden.
  • Beispielsweise können begrenzte Unsicherheiten in den paarweisen Beziehungen stochastische oder systematische Fehler oder rauschassoziiert mit einer physikalischen Messung repräsentieren und können im allgemeinen von einer paarweisen Beziehung zur anderen abweichen. Ein typisches Beispiel sind die nuklearen Overhauser Effekte (NOE's) in multidimensionaler nuklearer Magnetresonanzspektrometrie.
  • Ein alternativer Algorithmus zum Behandeln von Unsicherheiten reduziert die Größe der Korrektur für Paare von Objekten, deren Beziehung als unsicher angenommen wird. Bei diesem Schema wird die Größe der Korrektur, wie sie beispielsweise durch die Lerngeschwindigkeit in Gleichung 9 bestimmt wird, für paarweise Beziehungen reduziert, die als unsicher angenommen werden. Die Größe der Korrektur kann von dem Grad der Unsicherheit abhängen, der mit der korrespondierenden paarweisen Beziehung assoziiert ist (beispielsweise kann die Größe der Korrektur umgekehrt proportional zu der Unsicherheit sein, die mit der korrespondierenden paarweisen Beziehung assoziiert ist). Wenn die Existenz und/oder Größe der Fehler unbekannt ist, können die Fehler automatisch durch den Algorithmus bestimmt werden. (Siehe nachfolgenden Abschnitt V).
  • VI. Paarweise Beziehungsmatrizen mit unbegrenzten Unsicherheiten (korrupte Daten)
  • Die in den vorangegangenen Abschnitten beschriebenen Ideen können angewendet werden, wenn angenommen wird, dass einige der paarweisen Beziehungen korrupte Daten enthalten, d. h., wenn einige der paarweisen Beziehungen nicht korrekt sind und im wesentlichen keine Beziehung zu den aktuellen Werten beinhalten. In diesem Fall können "problematische" Beziehungen im Laufe des Algorithmus detektiert und von der nachfolgenden Bearbeitung entfernt werden. In anderen Worten besteht die Aufgabe darin, die korrupten Einträge zu identifizieren und sie aus der Beziehungsmatrix zu entfernen. Dieser Prozess führt zu einer schwach besetzten Beziehungsmatrix, die unter Verwendung des oben in Abschnitt 1.2 genannten Algorithmus verfeinert werden kann.
  • VII. Modifikationen des Basisalgorithmus
  • In vielen Fällen kann der oben beschriebene Algorithmus durch Vorordnen der Daten und Verwendung eines geeigneten statistischen Verfahrens beschleunigt werden. Wenn beispielsweise die Näherungsdaten aus Daten hergeleitet werden, die in vektorieller oder binärer Form verfügbar sind, kann die Startkonfiguration der Punkte auf der Darstellungskarte unter Verwendung von prinzipieller Komponentenanalysis berechnet werden („Principal Component Analysis". In einer bevorzugten Ausführungsform kann die Startkonfiguration aus den ersten drei prinzipiellen Komponenten der Merkmalsmatrix (d. h., die drei latenten Variablen, die den größten Teil zu der Varianz in den Daten beitragen) konstruiert werden. In der Praxis kann diese Technik eine profunde Auswirkung auf die Geschwindigkeit der Verfeinerung haben. Wenn eine zufällige Startkonfiguration verwendet wird, wird ein signifikanter Teil der Trainingszeit dafür aufgewendet, die generelle Struktur und Topologie der Darstellungskarte aufzustellen, die typischerweise durch große Umordnungen gekennzeichnet ist. Wenn andererseits die Eingangskonfiguration teilweise geordnet ist, kann das Fehlerkrtierium relativ schnell auf ein akzeptables Niveau reduziert werden.
  • Wenn die Daten in hohem Maße geclustert sind, können auf Grund des „Sampling" Prozesses Bereiche geringer Dichte weniger effektiv verfeinert werden als Bereiche hoher Dichte. In einer exemplarischen Ausführungsform kann diese Tendenz teilweise kompensiert werden durch eine Modifikation des ursprünglichen Algorithmus, der die „Sampling" Wahrscheinlichkeit in Bereichen geringer Dichte erhöht. Bei einer Ausführungsform wird der Schwerpunkt der Darstellungskarte identifiziert und konzentrische Schalen zentral um diesen Punkt konstruiert. Anschließend wird eine Serie von regulären Verfeinerungsiterationen durchgeführt, wobei jedes Mal Punkte von innerhalb dieser oder zwischen diesen Schalen ausgewählt werden. Dieser Vorgang wird für eine vorgegebene Anzahl von Zyklen wiederholt. Diese Phase wird dann gefolgt von einer Phase regulärer Verfeinerung unter Verwendung globalen „Samplings" und dieses Verfahrens wird wiederholt.
  • Im allgemeinen unterscheidet der Basisalgorithmus nicht zwischen Distanzen im kurzen Bereich und Distanzen im langen Bereich. Gleichungen 10 und 11 beschreiben eine Methode, um sicherzustellen, dass die Distanzen im kurzen Bereich zuverlässiger erhalten bleiben als die Distanzen im langen Bereich, durch die Anwendung von Wichtungen.
  • Ein alternativer (und komplementärer) Ansatz ist es, sicherzustellen, dass die Punkte bei naher Separation intensiver „gesampelt" werden als die Punkte mit weiter Separation. Beispielsweise kann eine alternierende Sequenz globaler und lokaler Verfeinerungszyklen, ähnlich der oben beschriebenen angewendet werden. Bei dieser Ausführungsform wird anfangs eine Phase globaler Verfeinerung ausgeführt, nach der die resultierende Darstellungskarte in ein regelmäßiges Gitter „Grid" unterteilt wird. Die Punkte (Objekte) jeder Zelle des Gitters werden anschließend einer Phase lokaler Verfeinerung ausgesetzt (d. h., nur Punkte von innerhalb derselben Zelle werden verglichen und verfeinert). Die Anzahl der „Sampling" Schritte sollte in jeder Zelle vorzugsweise proportional zu der Anzahl von Punkten sein, die in der Zelle enthalten sind. Dieser Prozess ist in hohem Maße parallelisierbar. Auf diese lokale Verfeinerungsphase folgt eine weitere globale Verfeinerungsphase, und dieser Prozess wird wiederholt für eine vorgegebene Anzahl von Zyklen oder so lange, bis der eingebettete Fehler innerhalb einer vorgegebenen Toleranz minimiert ist. Alternativ kann die Gittermethode durch ein anderes geeignetes Verfahren zur Identifizierung nahestehender Punkte ersetzt werden, wie zum Beispiel ein k-d-Baum.
  • Die hier beschriebenen Verfahren können für inkrementelle Verfeinerung verwendet werden. D. h., ausgehend von einer organisierten Darstellungskarte eines Satzes von Punkten, kann ein neuer Satz von Punkten hinzugefügt werden, ohne Modifikation der ursprünglichen Karte. Streng genommen ist dies statistisch akzeptabel, wenn der neue Satz von Punkten signifikant kleiner ist als der ursprüngliche Satz. In einer exemplarischen Ausführungsform kann der neue Satz von Punkten in die existierende Karte "diffundiert" werden, unter Verwendung einer Modifikation des oben beschriebenen Basisalgorithmus. Insbesondere können Gleichung 8 und 9 verwendet werden, um ausschließlich die eingehenden Punkte zu aktualisieren. Zusätzlich gewährleistet die „Sampling" Prozedur, dass die ausgewählten Paare zumindest einen Punkt aus dem eingehenden Satz enthalten. Das bedeutet, dass zwei Punkte zufällig ausgewählt werden, sodass zumindest einer dieser beiden Punkte zu dem eingehenden Satz gehört. Alternativ kann jeder neue Punkt unabhängig unter Verwendung des oben beschriebenen Ansatzes diffundiert werden.
  • VIII. Bewertungseigenschaften (Merkmale), Beziehungen und Abstandsmaße
  • In einer exemplarischen Ausführungsform können Beziehungen zwischen Objekten als Ähnlichkeiten/Unähnlichkeiten zwischen Objekten auf einer Darstellungskarte dargestellt und von den mit den Objekten assoziierten Eigenschaften oder Merkmalen hergeleitet werden. Um die Darstellungskarte aufzubauen, kann jedes beliebige Ähnlichkeitsmaß verwendet werden. Die Eigenschaften oder Merkmale, die zur Bewertung der Ähnlichkeiten oder Unähnlichkeiten verwendet werden, werden hier auch manchmal kollektiv als "Bewertungseigenschaften" bezeichnet.
  • Wenn beispielsweise die Objekte chemische Verbindungen sind, können die Ähnlichkeiten zwischen Objekten auf strukturellen Ähnlichkeiten, chemischen Ähnlichkeiten, physikalischen Ähnlichkeiten, biologischen Ähnlichkeiten und/oder auf einer anderen Art eines Ähnlichkeitsmaßes beruhen, da es aus der Struktur oder der Identität der Verbindungen hergeleitet werden kann.
  • A. Bewertungseigenschaften mit kontinuierlichen oder diskreten realen Werten
  • Ähnlichkeitsmaße können aus einer Liste von mit einem Satz von Objekten assoziierten Bewertungseigenschaften hergeleitet werden. Wenn beispielsweise die Objekte chemische Verbindungen sind, können die Bewertungseigenschaften physikalische, chemische und/oder biologische Eigenschaften sein, die mit einem Satz von chemischen Verbindungen assoziiert sind. Ausgehend von diesem Formalismus können die Objekte als Vektoren in einem multiplen-variablen Eigenschaftsraum dargestellt werden, und deren Ähnlichkeit kann durch einige geometrische Distanzmaße berechnet werden.
  • In einer exemplarischen Ausführungsform wird der Eigenschaftsraum unter Verwendung einer oder mehrerer Merkmale oder Deskriptoren definiert. Bei der chemischen Verbindung kann beispielsweise der Eigenschaftsraum unter Verwendung einer oder mehrerer molekularer Merkmale oder Deskriptoren definiert werden. Solche molekularen Merkmale können topologische Indizes, physikochemische Eigenschaften, elektrostatische Feldparameter, Volumen und Oberflächenparameter etc. umfassen. Diese Merkmale können beinhalten, ohne darauf beschränkt zu sein, das molekulare Volumen und Oberflächenbereiche, Dipolmomente, Oktanol-Wasser-Verteilungskoeffizienten, molare Refraktivitäten, Bildungswärme, totale Energien, Ionisierungspotenziale, molekulare Verbindungsindizes, zweidimensionale und dreidimensionale Autokorrelationsvektoren, dreidimensionale strukturelle und/oder Pharmakophorparameter, elektronische Felder etc.
  • Selbstverständlich ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt. Beispielsweise können molekulare Merkmale die beobachteten biologischen Aktivitäten eines Satzes von Verbindungen gegen einen Array von biologischen Zielen, wie zum Beispiel Enzymen oder Rezeptoren (ebenso bekannt als Affinität-Fingerabdrücke), umfassen. Tatsächlich kann bei der vorliegenden Erfindung eine beliebige vektorielle Darstellung von chemischen Daten verwendet werden.
  • Es ist ebenso selbstverständlich, dass die vorliegende Erfindung nicht auf die Anwendung auf Objekte chemischer Verbindungen beschränkt ist. Stattdessen kann die vorliegende Erfin dung mit einem beliebigen Datensatz oder Objekten implementiert werden, einschließlich solcher Objekte, die mit Bewertungseigenschaften assoziiert sind, welche kontinuierliche oder diskrete, reale Werte haben.
  • 1. Beziehungen oder Distanzmaße, wobei Werte von Bewertungseigenschaften kontinuierliche oder diskrete, reale Zahlen sind
  • Ein "Distanzmaß" ist ein Algorithmus oder eine Technik, die auf der Basis von ausgewählten Bewertungseigenschaften zur Bestimmung einer Beziehung zwischen Objekten verwendet wird. Das spezielle Distanzmaß, das in einer bestimmten Situation verwendet wird, ist zumindest teilweise von dem Satz von Werten abhängig, welche die Bewertungseigenschaften aufnehmen können.
  • Beispielsweise können die Bewertungskriterien reale Zahlen als Werte annehmen, sodass ein geeignetes Distanzmaß die Minkowskimetrik ist, wie in Gleichung 14 gezeigt:
    Figure 00220001
    wobei k verwendet wird, um die Elemente des Eigenschaftsvektors zu indizieren und r ∈ [1, ∞]. Für r = 1,0 ist Gleichung 14 der "City-Block" oder die "Manhattan-Metrik". Für r = 2,0 ist Gleichung 14 die normale euklidische Metrik. Für r = ∞ ist Gleichung 14 das Maximum der absoluten Koordinatendistanzen, auch bezeichnet als die "Dominanz" Metrik, die "sup"-Metrik oder die "Ultrametrische" Distanz. Für jeden Wert von r ∈ [1, ∞] kann gezeigt werden, dass die Minkowskimetrik eine echte Metrik ist, d. h., sie erfüllt die Distanzpostulate und insbesondere die Dreiecksinäquivalenzen.
  • B. Bewertungseigenschaften mit binären Werten
  • Alternativ können die Bewertungseigenschaften der Objekte in einer binären Form dargestellt werden, wobei die Bits so verwendet werden, dass sie die Anwesenheit oder Abwesenheit oder die mögliche Anwesenheit oder die mögliche Abwesenheit von Merkmalen oder Eigenschaften anzeigen.
  • Wenn beispielsweise die Objekte chemische Verbindungen sind, können die Objekte codiert werden unter Verwendung von Substrukturschlüsseln, wobei jedes Bit die Anwesenheit oder Abwesenheit eines bestimmten strukturellen Merkmals oder Musters in dem Zielmolekül angibt. Solche Merkmale können beinhalten, sind aber nicht darauf beschränkt, die Anwesenheit, die Abwesenheit oder minimale Anzahl von Erscheinungen eines bestimmten Elements (beispielsweise die Anwesenheit von mindestens 1, 2 oder 3 Stickstoffatomen), unübliche oder wichtige elektronische Konfigurationen und Atomtypen (beispielsweise doppelt gebundener Stickstoff oder aromatischer Kohlenstoff, gemeinsame funktionelle Gruppen, wie zum Beispiel Alkohole, Amine etc., bestimmte primitive und zusammengesetzte Ringe, ein Paar oder ein Triplett von Pharmakophor-Gruppen in einer bestimmten Separation im dreidimensionalen Raum sowie "Fehlverbindungen" von unüblichen Merkmalen, die so selten sind, dass sie kein individuelles Bit wert sind, allerdings extrem wichtig sind, wenn diese auftreten. Typischerweise sind diese unüblichen Merkmale einem gemeinsamen Bit zugeordnet, das gesetzt wird, wenn eines der Muster in dem Zielmolekül vorhanden ist.
  • Alternativ können Bewertungseigenschaften von Verbindungen in Form von binären Fingerabdrücken codiert werden, die nicht von einem vordefinierten Fragment oder Merkmalsverzeichnis abhängen, um die Bit-Zuordnung durchzuführen. Stattdessen wird jedes Muster in dem Molekül bis zu einer vordefinierten Grenze systematisch aufgezählt und dient als Eingabe für einen verkleinernden Algorithmus, der eine kleine Anzahl von Bits in pseudozufälligen Positionen in der Bitmap "einschaltet". Obwohl es denkbar ist, dass zwei unterschiedliche Moleküle exakt den gleichen Fingerabdruck haben, ist die Wahrscheinlichkeit für diesen Zufall für alle, außer den einfachsten Fällen, extrem gering. Erfahrungen lassen vermuten, dass diese Fingerabdrücke ausreichende Informationen über die molekulare Struktur enthalten, um sinnvolle Ähnlichkeitsvergleiche zu erlauben.
  • 1. Distanzmaße, wobei Werte der Bewertungseigenschaften binär sind
  • Eine Anzahl von Beziehungsmaßen können mit binären Deskriptoren verwendet werden (d. h., wo Bewertungseigenschaften binär oder binäre Fingerabdrücke sind). Die am häufigsten verwendeten ist die normalisierte Hamming Distanz:
    Figure 00240001
    welches das Maß der Anzahl von Bits angibt, die zwischen x und y unterschiedlich sind, der Tanimoto- oder Jaccard-Koeffizient:
    Figure 00240002
    was ein Maß für die Anzahl von Unterstrukturen ist, welche die beiden Moleküle miteinander haben, relativ zu denjenigen, welche sie gemeinsam haben könnten, und der „Dice"-Koeffizient:
  • Figure 00240003
  • In den oben angeführten Gleichungen ist AND(x, y) die Schnittmenge der binären Sätze x und y (Bits, die in beiden Sätzen "eingeschaltet" sind), IOR(x, y) die Vereinigungsmenge oder "einschließlich oder" der Sätze x und y (Bits, die entweder in x oder y "eingeschaltet" sind), XOR "exklusiv oder "von x und y (Bits, die entweder in x oder y "eingeschaltet" sind, aber nicht in beide), |x| die Anzahl von Bits, die im Satz x "eingeschaltet" sind und N die Länge der in Bits gemessenen binären Sätze (eine Konstante).
  • Eine weitere übliche Metrik ist die Euklidische Distanz, die in dem Fall von binären Sätzen ausgedruckt werden kann in der Form:
    Figure 00250001
    wobei NOT(y) das binäre Komplement von y bezeichnet. Der Ausdruck |XOR(x, NOT(y))| stellt eine Anzahl von Bits dar, die in x und y identisch sind (entweder "Einsen" oder "Nullen"). Die euklidische Distanz ist ein gutes Maß für Ähnlichkeit, wenn der binäre Sätze verhältnismäßig gehaltvoll sind, und wird meistens in Situationen verwendet, in denen die Ähnlichkeit im relativen Sinne gemessen wird.
  • Bei dem Beispiel mit der Verbindungen kann die Distanz zwischen Objekten unter Verwendung einer binären oder multivariablen Darstellung berechnet werden. Jedoch ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt.
  • Beispielsweise kann die Ähnlichkeit zwischen zwei Verbindungen durch Vergleichen der Formen der Moleküle bestimmt werden unter Verwendung einer geeigneten dreidimensiona len Vergleichs oder sie kann aus einem Ähnlichkeitsmodell abgeleitet werden, das gemäß einer vorgegebenen Prozedur definiert ist. Beispielsweise kann ein solches Ähnlichkeitsmodell ein neuronales Netzwerk sein, das darauf trainiert ist, ausgehend von einem geeigneten codierten Paar von Verbindungen Ähnlichkeitskoeffizienten vorauszusagen. Solche neuronalen Netze können trainiert werden unter Verwendung eines Trainingssatzes von Strukturpaaren und bekannten Ähnlichkeitskoeffizienten für jedes dieser Paare, die beispielsweise durch die Benutzereingabe bestimmt werden.
  • C. Skalieren der Bewertungseigenschaften
  • Bezug nehmend auf Gleichung 14 können Merkmale (d. h. Bewertungseigenschaften) unterschiedlich skaliert werden, um deren relative Bedeutung bei der Bewertung der Beziehung zwischen den Verbindungen zu reflektieren. Beispielsweise kann einer Eigenschaft A eine Wichtung von 2 zugeordnet werden und einer Eigenschaft B eine Wichtung von 10 zugeordnet werden. Die Eigenschaft B hat auf diese Weise eine fünffach größere Auswirkung auf die Beziehungsberechnung als die Eigenschaft A.
  • Dementsprechend kann Gleichung 14 durch Gleichung 19 ersetzt werden:
    Figure 00260001
    wobei wk die Wichtung der k-ten Eigenschaft ist. Ein Beispiel eines solchen Wichtungsfaktors ist ein Normalisierungskoeffizient. Es können jedoch auch andere Wichtungsschemata verwendet werden.
  • Die Skalierung (Wichtung) muß nicht über die gesamte Darstellungskarte einheitlich sein, d. h., die resultierende Darstellungskarte muß nicht isomorph sein. Demnach werden Karten, die von einheitlichen Wichtungen hergeleitet sind, als global gewichtet (isomorph) bezeichnet, während Karten, die von nicht-einheitlichen Wichtungen hergeleitet sind, als logisch gewichtet (nicht-isomorph) bezeichnet werden. Auf lokal gewichteten Karten reflektieren die Beziehungen (oder Distanzen) auf der Darstellungskarte ein lokales Maß oder Ähnlichkeit. D. h., was in einem Bereich der Darstellungskarte als Ähnlichkeit festgelegt ist, stimmt nicht notwendigerweise mit dem überein, was in einem anderen Bereich der Darstellungskarte als Ähnlichkeit festgelegt ist.
  • Beispielsweise können lokal gewichtige Karten verwendet werden, um Ähnlichkeiten darzustellen, die von einem lokal gewichteten Fall-abhängig lernenden Algorithmus hergeleitet sind. Lokal gewichtetes Lernen verwendet lokal gewichtetes Training, um auf Trainingsdaten einen Durchschnitt zu bilden, dazwischen zu interpolieren, davon zu extrapolieren oder sie in anderer Weise zu kombinieren. Die meisten Lernmethoden (auch bezeichnet als Modellierungs- oder Vorhersagemethoden) erzeugen ein einziges Modell, das auf alle Trainingsdaten passt. Andererseits versuchen lokale Modelle, die Trainingsdaten in ein lokales Gebiet um die Lage der Abfrage herum anzupassen. Beispiele lokaler Modelle umfassen das „Nächste-Nachbar-Modell", den gewichteten Durchschnitt und lokal gewichtete Regression. Lokal gewichtetes Lernen ist beschrieben in Vapnik, in Advances in Neural Information Processing Systems, 4: 831, Morgan-Kaufman, San Mateo, CA (1982); Bottou and Vapnik, Neural Computation, 4(6): 888 (1992); sowie Vapnik and Bottou, Neural Computation, 5(6): 893 (1993), wobei all diese Literaturstellen in ihrer Gesamtheit durch Bezugnahme hierin aufgenommen sind.
  • Darstellungskarten können ebenso aus einer Beziehungsmatrix erzeugt werden, die nicht strikt symmetrisch ist, d. h., eine Beziehungsmatrix, bei der rij ≠ rji. Eine potentielle Verwendung dieses Ansatzes ist in Situationen möglich, in denen eine Beziehung (d. h. Beziehungsfunktion)lokal definiert ist, beispielsweise in einem lokal gewichteten Modell unter Verwendung einer punktbasierten lokalen Distanzfunktion. In dieser Ausführungsform ist jeder Trainingsfall mit einer Distanzfunktion und mit den Werten der korrespondierenden Parameter assoziiert. Um eine Darstellungskarte zu erzeugen, welche die lokalen Distanzbeziehungen reflektiert, wird die Distanz zwischen zwei Punkten unter Verwendung der lokalen Distanzfunktion der jeweiligen Punkte vorzugsweise zweimal bewertet. Aus den resultierenden Distanzen wird ein Durchschnitt gebildet, der als Eingabe in dem oben beschriebenen Darstel lungskarten-Algorithmus dient. Wenn die punktbasierten lokalen Distanzfunktionen in einer kontinuierlichen oder semi-kontinuierlichen Weise über dem Merkmalsraum variieren, könnte dieser Ansatz möglicherweise zu einer sinnvollen Projektion führen.
  • IX. Implementierung der Erfindung
  • A. Allgemeines
  • Die Erfindung kann unter Verwendung einer Vielzahl von Algorithmen und unter Verwendung von Hardware, Software, Firmware oder einer Kombination davon in vielerlei Wiese implementiert werden. 6 zeigt ein exemplarisches Blockdiagramm mit Modulen und Datenflüssen, die in einem System 610 enthalten sein können, das die vorliegende Erfindung implementiert. Das Blockdiagramm in 6 ist als Hilfe zum Verständnis der vorliegenden Erfindung gedacht. Die vorliegende Erfindung ist nicht beschränkt auf die exemplarische Ausführungsform, die in dem Blockdiagramm von 6 dargestellt ist.
  • Das System 610 beinhaltet eine relationale Datenbank 612, in der Beziehungsdaten 630 mit assoziierten Objekten gespeichert sind. Die Arten von Daten und zugeordneten Beziehungen, die durch die relationale Datenbank 612 angeordnet werden können, sind ohne Begrenzungen, da die vorliegende Erfindung für beliebige Arten von Daten implementiert werden kann, für die Beziehungen definiert werden können.
  • Die Beziehungsdaten 630 können aus einer oder mehreren aus einer Anzahl von Quellen geliefert werden. Beispielsweise kann die Beziehung 630a durch eine externe Quelle 632 geliefert werden, die Beziehung 630b kann von einer anderen Quelle 640 geliefert werden und die Beziehungsdaten 630n können durch ein optionales Beziehungsgeneratormodul 634, basierend auf den Bewertungseigenschaften 636 erzeugt werden. Das optionale Beziehungsgenerator-Modul 634 kann zum Ausführen eines oder mehrerer Algorithmen, wie zum Beispiel eine oder mehrere der Gleichungen 14–19, Hardware, Software, Firmware oder eine beliebige Kombination davon umfassen.
  • Die Beziehungsdaten 630 werden an ein Koordinatenmodul 616 geliefert. In einer exemplarischen Ausführungsform wird die Beziehung 630 an das Koordinatenmodul 616 als eine Beziehungsmatrix 614 geliefert, die vorzugsweise eine Matrix ist, die eine beliebige Anzahl von Beziehungsdaten 630 aus der Beziehungsdatenbank 612 enthält.
  • Das Koordinatenmodul 616 ordnet Startkoordinaten Datenpunkten oder Objekten zu, die durch die Beziehungsdaten 630 in einer Beziehung zueinander stehen. Die Anfangskoordinaten können zufällig oder durch eine beliebige andere Technik zugeordnet werden. Beispielsweise können die Daten vorgeordnet oder teilweise geordnet sein. Die Koordinaten umfassen eine Darstellungskarte. Die Darstellungskarte kann linear oder eine Anzeige-Darstellungskarte sein. Die Darstellungskarte ist eine n-dimensionale Darstellungskarte.
  • Untergruppen (Subsätze) 618 von Beziehungen/Koordinaten und assoziierte Beziehungen 620 werden ein Koordinaten-Korrekturmodul 622 geliefert. In einer exemplarischen Ausführungsform wird der Subsatz 618 von Beziehungen/Koordinaten nacheinander an das Koordinaten-Korrekturmodul 622 geliefert.
  • Es kann ein Subsatz-Auswahlmodul 636 vorgesehen sein, um die Subsätze 618 von Beziehungen/Koordinaten auszuwählen, die an das Koordinaten-Korrekturmodul 622 geliefert werden sollen. Das Subsatz-Auswahlmodul 636 für Subsätze kann untergeordnete Sätze 618 von Beziehungen/Koordinaten zufällig oder durch ein beliebiges anderes geeignetes Verfahren auswählen, einschließlich eines oder mehrerer der oben beschriebenen Verfahren.
  • Das Koordinaten-Korrekturmodul 622 korrigiert die Positionen der Objekte auf der Darstellungskarte (d. h., korrigiert Koordinaten 618) basierend auf präzisen oder unpräzisen Messungen der Ähnlichkeit/Unähnlichkeit (Beziehungen 620). Insbesondere misst das Koordinaten-Korrekturmodul 622 die Distanzen zwischen den Objekten auf der Darstellungskarte und vergleicht diese mit den assoziierten Beziehungen 620. Anschließend korrigiert das Koordinaten-Korrekturmodul 622 die Koordinaten 618 auf der Grundlage des Vergleichs. Dieses Distanzen können direkt oder um andere Darstellungsattribute zu modifizieren, verwendet werden.
  • Das Koordinaten-Korrekturmodul 622 zum Ausführen von einer oder mehreren konventionellen multidimensionalen Skalierungs- oder nicht-linearen Kartierungs-Algorithmen kann, wie oben beschrieben, Hardware, Software, Firmware oder eine beliebige Kombination davon enthalten. Zusätzlich oder alternativ kann das Koordinaten-Korrekturmodul 622 zum Ausführen eines oder mehrerer neuer Algorithmen zur paarweisen Analyse, wie zum Beispiel einer oder mehrerer von den Gleichungen 8 bis 13 oder Variationen davon, Hardware, Software, Firmware oder eine beliebige Kombination davon beinhalten.
  • Wenn das Koordinaten-Korrekturmodul 622 eine paarweise Analyse durchführt, wie oben beschrieben, kann es eine Lerngeschwindigkeit λ anwenden, um die Konvergenz der Distanz zwischen den Koordinaten in den Subsätzen 618 von Beziehungen/Koordinaten und den assoziierten Beziehungen) 620 zu gewährleisten. Das Koordinaten-Korrekturmodul 622 kann so gestaltet sein, dass es präzise oder unpräzise Messungen der Ähnlichkeit/Unähnlichkeit (Beziehungen 620) repräsentiert. Beispielsweise kann das Koordinaten-Korrekturmodul 622 programmiert sein, vollständige paarweise Matrizen zu behandeln, die keine Unsicherheiten haben, schwach besetzte paarweise Matrizen, die keine Unsicherheiten haben, paarweise Matrizen, die begrenzte Unsicherheiten beinhalten, und paarweise Matrizen, die unbegrenzte Unsicherheiten (d. h. korrupte (fehlerhafte) Daten) beinhalten, oder eine beliebige Kombination davon. Das Koordinaten-Korrekturmodul 622 kann ebenso programmiert sein, zusätzliche Objekte oder Datenpunkte in einen Satz von Objekten zu diffundieren, wie oben beschrieben.
  • Das Koordinaten-Korrekturmodul 622 erzeugt korrigierte Koordinaten 624, die an das Koordinatenmodul 616 zurückgegeben werden. Dieser Vorgang wird für zusätzliche Subsätze von Koordinaten 618 und assoziierte Beziehungen 620 wiederholt und wird vorzugsweise für die gleichen Subsätze 618 von Beziehungen/Koordinaten und assoziierte Beziehungen 620 wiederholt, bis eine vorgegebene Toleranz oder einige andere Kriterien erfüllt sind.
  • In einer exemplarischen Ausführungsform, bei der die Visualisierung der Beziehungen zwischen den Objekten angestrebt wird, können die Koordinaten 626 an ein optionales Visualisierungsmodul 628 zur Anzeige geliefert werden. So wie der iterative Prozess der Erfindung voranschreitet, werden die korrigierten Koordinaten 626 an das optionale Visualisierungsmodul 628 geliefert.
  • B. Implementierung der Erfindung in einem Computerprogrammprodukt
  • Die vorliegende Erfindung kann unter Verwendung einer oder mehrerer Computer implementiert werden. Bezugnehmend auf 2 beinhaltet ein exemplarischer Computer 202 einen oder mehrere Prozessoren, wie zum Beispiel einen Prozessor 204. Der Prozessor, 204 ist mit einem Kommunikationsbus 206 verbunden. Im Rahmen dieses exemplarischen Computersystems werden unterschiedliche Ausführungsformen von Software beschrieben. Einem in der betreffenden Technik bewanderten Fachmann wird nach der Lektüre dieser Beschreibung offenbar, wie die Erfindung unter Verwendung anderer Computersysteme und/oder Computerarchitekturen zu implementieren ist.
  • Der Computer 202 beinhaltet auch einen Hauptspeicher 208, vorzugsweise Speicher mit wahlweisem Zugriff (random access memory, RAM) und kann ebenso ein oder mehrere sekundäre Speichervorrichtungen 210 beinhalten. Die sekundären Speichervorrichtungen 210 können beispielsweise eine Festplatte 212 beinhalten und/oder ein Laufwerk 214 für austauschbare Speichermittel, wie z. B. ein Diskettenlaufwerk, ein magnetisches Bandlaufwerk, ein Laufwerk für optische Speichermittel etc. Das Laufwerk 214 für austauschbare Speichermittel liest von und/oder schreibt in bekannter Weise auf das austauschbare Speichermittel 216. Das austauschbare Speichermittel 216 ist eine Diskette, ein magnetisches Band, eine optische CD etc., die durch das Laufwerk 214 für das austauschbare Speichermittel gelesen und beschrieben wird. Das austauschbare Speichermittel 216 beinhaltet ein für Computer verwendbares Speichermedium, auf dem Computersoftware und/oder Daten gespeichert sind.
  • Bei alternativen Ausführungsformen kann der Computer 210 andere, ähnliche Mittel beinhalten, um das Laden von Computerprogrammen oder anderen Instruktionen in den Computer 202 zu ermöglichen. Solche Mittel können beispielsweise eine austauschbare Speichereinheit 220 sowie eine Schnittstelle 218 umfassen. Beispiele davon können eine Programm-Kassetten und Kassetten-Schnittstellen (wie sie beispielsweise bei Videospielvorrichtungen verwendet werden) umfassen, einen entfernbaren Speicherchip (wie zum Beispiel einen EPROM oder PROM) sowie einen zugeordneten Steckplatz und andere entfernbare Speichereinheiten 220 und Schnittstellen 218, die es ermöglichen, Daten von der entfernbaren Speichereinheit 220 auf den Computer 202 zu übertragen.
  • Der Computer 202 kann ebenso eine Kommunikationsschnittstelle 222 umfassen, die Kommunikationsschnittstelle 222 macht es möglich, Software und Daten zwischen dem Computer 202 und externen Vorrichtungen zu übertragen. Beispiele von Kommunikationsschnittstellen 222 beinhalten, ohne darauf beschränkt zu sein, Modems, eine Netzwerk-Schnittstelle (wie zum Beispiel eine Ethernet-Karte), einen Kommunikationsanschluss, einen PCMCIA Steckplatz und -Karte etc. Die über die Kommunikationsschnittstelle 222 übertragene Software und Daten werden in Form von Signalen (typischerweise Daten auf einem Träger) übermittelt, das elektronisch sein kann, elektromagnetisch, optisch oder andere Signale, die von einer Kommunikations-Schnittstelle 222 empfangen werden können.
  • In diesem Dokument wird der Begriff "Computer Programm Produkt" verwendet, um allgemein Medien zu bezeichnen, wie austauschbare Speichereinheiten 216, 222, eine Festplatte 212, die aus dem Computer 202 entfernt werden kann, und Signale tragende Software, die von der Kommunikations-Schnittstelle 222 empfangen wurde. Diese Computerprogrammprodukte sind Mittel, um Software an den Computer 202 zu liefern.
  • Die Computerprogramme (ebenso bezeichnet als Computersteuerungslogik) werden im Hauptspeicher und/oder in der sekundären Speichervorrichtung 210 gespeichert. Die Computerprogramnie können ebenso über die Kommunikationsschnittstelle 222 empfangen werden. Wenn solche Computerprogramme ausgeführt werden, versetzen sie den Computer 202 in die Lage, die hier beschriebenen Merkmale der vorliegenden Erfindung auszuführen. Wenn die Computerprogramme ausgeführt werden, versetzen sie insbesondere den Prozessor 204 in die Lage, die Merkmale der vorliegenden Erfindung auszuführen. Dementsprechend repräsentierten solche Computerprogramme Controller der Computer 202.
  • Bei einer Ausführungsform wird die Erfindung und Verwendung von Software implementiert, wobei die Software in einem Computerprogrammprodukt gespeichert und im Computer 202 geladen werden kann unter Verwendung eines Laufwerks 214 für austauschbare Speichermittel, einer Festplatte 212 und/oder einer Kommunikations-Schnittstelle 222. Wenn die Steuerungslogik (Software) durch den Prozessor 204 ausgeführt wird, veranlasst sie den Prozessor 204, die hier beschriebenen Funktionen der Erfindung durchzuführen.
  • Bei einer weiteren Ausführungsform wird der automatische Abschnitt der Erfindung hauptsächlich oder vollständig durch Hardware implementiert unter Verwendung von Hardware-Komponenten, wie zum Beispiel anwendungsspezifische integrierte Schaltkreise (ASIC). Die Implementierung der Hardware stellt die Maschine so ein, dass sie die hier beschriebenen Funktionen ausführt, wie das einem Fachmann in der betreffenden Technik offenbar wird.
  • Bei noch einer weiteren Ausführungsform wird die Erfindung unter Verwendung einer Kombination von Hardware und Software implementiert.
  • Der Computer 202 kann ein beliebiger geeigneter Computer sein, wie zum Beispiel ein Computersystem, auf dem ein Betriebssystem läuft, das eine graphische Benutzerschnittstelle unterstützt sowie eine Umgebung mit Fenstertechnik. Ein geeignetes Computersystem ist eine Workstation/Server von Silicon Graphics, Inc. (SGI), eine Workstation/Server von Sun, eine Workstation/Server von DEC, eine Workstation/Server von IBM, ein kompatibler Personal Computer von IBM, ein Macintosh Apple oder ein anderes geeignetes Computersystem, das einen oder mehrere Prozessoren aus der Intel Pentium Familie verwendet, wie zum Beispiel der Pentium Pro oder Pentium II. Geeignete Betriebssysteme sind, jedoch nicht beschränkend, Betriebssysteme von IRIX, OS/Solaris, Digital Unix, AIX, Microsoft Windows 95/NT, Apple Mac OS oder ein beliebiges anderes Betriebssystem. In einer exemplarischen Ausführungsform kann das Programm beispielsweise auf einer Silicon Graphics Octane Workstation implementiert werden und unter dem Betriebssystem IRIX 6.4 unter Verwendung der graphischen Motif Benutzerschnittstelle basierend auf dem X Windows System laufen.
  • C. Betriebsablauf der vorliegenden Erfindung
  • Bezugnehmend auf 7 wird der Betriebsablauf der vorliegenden Erfindung in einem Flussdiagramm 700 dargestellt. Der Betriebsablauf der vorliegenden Erfindung wird für einen allgemeinen Fall dargestellt, wobei eine Beziehungsmatrix 614 eine vollständige paarweise Beziehungsmatrix ohne Unsicherheiten ist. Ausgehend von der vorangehenden Beschreibung und dem Flussdiagramm 700 wird ein in der betreffenden Technik bewanderter Fachmann in der Lage sein, das Flussdiagramm 700 zu modifizieren, um es auf andere Situationen anzupassen, wie zum Beispiel: die Beziehungsmatrix 614 ist eine schwach besetzte n-weise oder paarweise Beziehungsmatrix ohne Unsicherheiten; die Beziehungsmatrix 614 ist eine n-weise oder paarweise Beziehungsmatrix mit begrenzten Unsicherheiten; die Beziehungsmatrix 614 ist eine paarweise Beziehungsmatrix mit unbegrenzten Unsicherheiten (d. h. korrupte Daten); etc.
  • Für einen allgemeinen Fall, bei dem eine Beziehungsmatrix 614 eine vollständige paarweise Beziehungsmatrix ohne Unsicherheiten ist, beginnt der Prozess bei Schritt 702, in den das Koordinatenmodul 616 die Beziehungsmatrix 614 von der Beziehungsdatenbank 612 empfängt.
  • Im Schritt 704 ordnet das Koordinatenmodul 616 den Objekten Startkoordinaten zu, die mit Beziehungen in der Beziehungsmatrix 614 assoziiert sind. Die Zuordnung der Startkoordinaten kann zufällig erfolgen. Alternativ können die Startkoordinaten vorgeordnet oder teilweise vorgeordnet sein.
  • In Schritt 706 wird ein untergeordneter Satz 618 von Beziehungen/Koordinaten von der Beziehungsmatrix 614 zur Korrektur ausgewählt. Der untergeordnete Satz 618 kann durch den untergeordneten Satz-Selektor 638 zufällig ausgewählt werden, semi-zufällig, systematisch, teilweise systematisch etc.
  • In Schritt 708 wird der ausgewählte untergeordnete Satz 618 und eine assoziierte Beziehung 620 an das Koordinaten-Korrekturmodul 622 geliefert. Das Koordinaten-Korrekturmodul 622 korrigiert die Koordinaten im untergeordneten Satz 618 von Beziehungen/Koordinaten basierend auf den assoziierten Beziehungen 620.
  • Im Schritt 710 wird eine Feststellung getroffen, ob ein weiterer untergeordneter Satz zur Korrektur der Koordinaten ausgewählt wird. Falls ein weiterer untergeordneter Satz 618 von Beziehungen/Koordinaten korrigiert werden soll, kehrt der Prozess zum Schritt 706 zum Auswählen eines weiteren untergeordneten Satzes 618 von Beziehungen/Koordinaten zurück. Andernfalls endet der Prozess bei Schritt 712.
  • Bei einer optionalen exemplarischen Ausführungsform werden im Schritt 714 Koordinaten 626 an das optionale Visualisierungs-Modul 628 zur Anzeige geliefert. Der Schritt 714 kann jederzeit durchgeführt werden, während einer oder mehrerer der Schritte 706712.
  • Bei einer weiteren optionalen exemplarischen Ausführungsform werden die Beziehungsdaten 630 vor dem Schritt 702 erzeugt. In dieser optionalen exemplarischen Ausführungsform werden die Bewertungseigenschaften 636 im Schritt 716 empfangen. Im Schritt 718 erzeugt der Beziehungsgenerator 634 Beziehungsdaten 630 aus den Bewertungseigenschaften. Im Schritt 720 werden die Beziehungsdaten 630 an die Beziehungsdatenbank 612 geliefert.
  • Der Prozess setzt sich fort im Schritt 702, wo die Beziehungsdaten 630 an das Koordinatenmodul in Form der Beziehungsmatrix 614 geliefert werden.
  • X. Beispiele der Erfindung
  • Die vorliegende Erfindung kann in einer Vielzahl von Anwendungen und mit einer Vielzahl von Datentypen implementiert werden. In einer exemplarischen Ausführungsform kann die vorliegenden Erfindung als ein System implementiert werden, ein Verfahren und/oder ein Computerprogrammprodukt zum Visualisieren und interaktiven Analysieren von auf chemische Verbindungen bezogenen Daten, wobei die Distanzen zwischen den Objekten in einem multidimensionalen Raum Ähnlichkeiten und/oder Unähnlichkeiten der korrespondierenden Verbindungen darstellen (relativ zu den ausgewählten Eigenschaften oder Merkmalen der Verbindungen), die durch einige vorgeschriebene Verfahren berechnet werden. Die resultierenden Karten können auf geeigneten graphischen Vorrichtungen (wie zum Beispiel einem graphischen Terminal) dargestellt und interaktiv analysiert werden, um Beziehungen zwischen den Daten aufzudecken und um eine Reihe von Maßnahmen in Bezug auf diese Verbindungen zu initiieren.
  • Ein Benutzer kann eine Anzahl von Verbindungen zum Kartieren und ein Verfahren zum Bewerten von Ähnlichkeiten/Unähnlichkeiten zwischen den ausgewählten Verbindungen auswählen. Eine Darstellungskarte kann in Übereinstimmung mit den ausgewählten Verbindungen und dem ausgewählten Verfahren erzeugt werden. Die Darstellungskarte hat einen Punkt für jede ausgewählte Verbindung, wobei eine Distanz zwischen zwei beliebigen Punkten für die Ähnlichkeit/Unähnlichkeit zwischen den korrespondierenden Verbindungen repräsentativ ist. Daraufhin wird ein Teil der Darstellungskarte angezeigt. Es wird dem Benutzer ermöglicht, die in der Darstellungskarte angezeigten Verbindungen interaktiv zu analysieren. Alternativ kann jeder Punkt zu multiplen Verbindungen oder Objekten korrespondieren.
  • 1 ist ein Blockdiagramm einer Computerumgebung 102 gemäß einer exemplarischen Ausführungsform der vorliegenden Erfindung.
  • Ein Modul 104 zur Visualisierung und interaktiven Analyse chemischer Daten umfasst ein Kartenerzeugungsmodul 106 sowie eine oder mehrere Benutzerhilfsschnittstellenkomponenten 108. Das kartenerzeugende Modul 106 bestimmt Ähnlichkeiten zwischen chemischen Verbindungen in Bezug auf eine oder mehrere ausgewählte Eigenschaften oder Merkmale (hierin manchmal als Bewertungseigenschaften oder Merkmale bezeichnet) der Komponenten. Das Kartenerzeugende Modul 106 erfüllt diese Funktion durch Abfragen und Analysieren von Daten über chemische Verbindungen und Reagenzien aus einer oder mehreren Datenbanken 120.
  • Das Modul 104 zur Visualisierung und interaktiven Analyse chemischer Daten kommuniziert mit einer oder mehreren Datenbanken 120 über ein Kommunikationsmedium 118. Das Kommunikationsmedium 118 ist vorzugsweise ein beliebiger Typ von Datenkommunikationsmitteln, wie zum Beispiel ein Datenbus, ein Computernetzwerk etc.
  • Das Benutzerschnittstellenmodul 108 zeigt eine vorzugsweise zweidimensionale oder dreidimensionale Darstellungskarte auf einer geeigneten graphischen Vorrichtung. Das Benutzerschnittstellenmodul 108 versetzt die Bedienungsperson in die Lage, die Information auf der Darstellungskarte interaktiv zu analysieren und zu verarbeiten, sodass die Beziehungen zwischen den Daten aufgedeckt werden, und einer Reihe von Anwendungen in Bezug auf die korrespondierenden Verbindungen zu initiieren.
  • Das Benutzerschnittstellenmodul 108 versetzt den Benutzer in die Lage, die Verbindungen als Sammlungen (beispielsweise als kombinatorische Bibliothek) zu organisieren. Die auf die Verbindungssammlungen bezogenen Informationen sind vorzugsweise in einer oder mehreren Datenbanken 120 gespeichert.
  • Die Eingangsvorrichtung(en) 114 empfangen Eingaben (wie zum Beispiel Daten, Befehle, Abfragen etc.) von der Benutzerperson und leiten diese über das Kommunikationsmedium 118 weiter, beispielsweise an das Modul 104 zur Visualisierung und interaktiven Analyse chemischer Daten. Es kann jede bekannte, geeignete Eingabevorrichtung für die vorliegende Erfindung verwendet werden, wie zum Beispiel eine Tastatur, eine Anzeigevorrichtung (Maus, Rollerball, Track Ball, Light Pen, etc.), Touch Screen, Spracherkennung, etc. Die Benutzereingabe kann auch gespeichert und je nach Bedarf von Daten/Befehls-Dateien abgefragt werden.
  • Ausgabevorrichtung(en) 116 geben Informationen an die Benutzerperson aus. Bei der vorliegenden Erfindung kann jede bekannte, geeignete Ausgabevorrichtung verwendet werden, wie zum Beispiel ein Monitor, ein Drucker, ein Diskettenlaufwerk oder eine Speichervorrichtung, ein Text-Sprache-Synthesizer etc.
  • Das Modul zur Visualisierung und interaktiven Analyse von chemischen Daten kann über das Kommunikationsmedium 118 mit einem oder mehreren Rechnermodulen 122 kommunizieren.
  • Die in 1 gezeigten Komponenten in der Computerumgebung 102 (wie zum Beispiel das Modul 104 zur Visualisierung und interaktiven Analyse von chemischen Daten) kann unter Verwendung einer oder mehrerer Computer implementiert werden, wie zum Beispiel der in 2 gezeigte exemplarische Computer 202.
  • A. Betriebsweise einer exemplarischen Ausführungsform
  • Nachfolgend wird die Betriebsweise der vorliegenden Erfindung, wie sie zur Visualisierung und interaktiven Bearbeitung chemischer Verbindungen in einer Darstellungskarte implementiert wurde, unter Bezugnahme auf die in 3 gezeigten Flussdiagramme 302 beschrieben werden. Sofern nicht anders spezifiziert, wird die unten beschriebene Interaktion mit dem Benutzer durch den Betrieb des Benutzerschnittstellenmoduls 108 (1) hergestellt.
  • In Schrift 304 wählt der Benutzer eine oder mehrere Verbindungen zum Kartieren in einer neuen Darstellungskarte. Der Benutzer kann Verbindungen zum Kartieren auswählen durch Abfragen einer Liste von Verbindungen von einer Datei, durch manuelle Eingabe in eine Liste von Verbindungen und/oder durch Verwendung einer graphischen Benutzerschnittstelle (GUI). Die Erfindung sieht auch andere Mittel vor, um den Benutzer in die Lage zu versetzen, die in der Darstellungskarte anzuzeigende Verbindung zu spezifizieren.
  • In Schritt 306 wählt der Benutzer ein Verfahren aus, das für die Bewertung der molekularen Ähnlichkeit oder Unähnlichkeit zwischen den im Schritt 304 ausgewählten Verbindungen verwendet wird. Bei einer Ausführungsform wird die Ähnlichkeit/Unähnlichkeit zwischen den im Schritt 304 ausgewählten Verbindungen bestimmt (im Schritt 308) basierend auf einem vorgeschriebenen Satz von Bewertungseigenschaften. Wie oben beschrieben, können die Bewertungseigenschaften eine beliebige Eigenschaft in Bezug auf die Struktur, Funktion oder Identität der im Schritt 304 ausgewählten Verbindung sein. Die Bewertungseigenschaften beinhalten, sind aber nicht darauf beschränkt, strukturelle Eigenschaften, funktionale Eigenschaften, chemische Eigenschaften, physikalische Eigenschaften, biologische Eigenschaften etc. der in Schritt 304 ausgewählten Verbindungen.
  • Bei einer Ausführungsform der vorliegenden Erfindung können die ausgewählten Bewertungseigenschaften unterschiedlich skaliert werden, um deren relative Bedeutung bei der Bewertung der Näherungsdaten (d. h. Ähnlichkeit oder Unähnlichkeit) zwischen zwei Verbindungen zu reflektieren. Dementsprechend wählt der Benutzer ebenfalls in Schritt 306 einen Skalierungsfaktor für jede der ausgewählten Bewertungseigenschaften. Es ist zu bemerken, dass die Auswahl von Skalierungsfaktoren optional ist. Der Benutzer muss nicht einen Skalierungsfaktor für jede der ausgewählten Bewertungseigenschaften auswählen. Wenn der Benutzer keinen Skalierungsfaktor für eine gegebene Bewertungseigenschaft auswählt, dann wird dieser Bewertungseigenschaft einheitlich ein vorgegebener Skalierungsfaktor gegeben.
  • Alternativ kann der Benutzer in Schritt 304 wählen, zu ausgewählten Verbindungen gehörige Werte bezüglich der Ähnlichkeit/Unähnlichkeit aus einer Quelle, wie zum Beispiel einer Datenbank, abzufragen. Diese Werte in der Datenbank bezüglich der Ähnlichkeit/Unähnlichkeit werden zuvor erzeugt. Bei einer weiteren Ausführungsform kann der Benutzer im Schritt 306 wählen, die Werte bezüglich der Ähnlichkeit/Unähnlichkeit unter Verwendung einer bekannten Technik oder Prozedur zu bestimmen.
  • Im Schritt 308 erzeugt das kartenerzeugende Modul 106 eine neue Darstellungskarte. Diese neue Darstellungskarte beinhaltet einen Punkt für jede der im Schritt 304 ausgewählten Verbindungen. In dieser neuen Darstellungskarte ist die Distanz zwischen zwei beliebigen Punkten ebenfalls repräsentativ für die Ähnlichkeit/Unähnlichkeit der korrespondierenden Verbindungen. Anschließend soll die Art und Weise, in der das kartengenerierende Modul 106 die neue Darstellungskarte erzeugt, unter Bezugnahme auf das Flussdiagramm 402 in 4 weiterbeschrieben werden.
  • Im Schritt 404 werden auf der neuen Darstellungskarte die Koordinaten der zu den im Schritt 304 ausgewählten Verbindungen korrespondierenden Punkte initialisiert.
  • Im Schritt 406 werden zwei Verbindungen i, j der in Schritt 304 ausgewählten Verbindungen für die Bearbeitung ausgewählt.
  • In Schritt 408 werden Ähnlichkeiten/Unähnlichkeiten rij zwischen den Verbindungen i, j basierend auf dem vom Benutzer im Schritt 306 ausgewählten Verfahren bestürmt.
  • Im Schritt 410 werden auf der Grundlage der im Schritt 408 bestimmten Ähnlichkeiten/Unähnlichkeiten rij die Koordinaten der Punkte der korrespondierenden Verbindungen i, j auf der Darstellungskarte ermittelt.
  • Im Schritt 412 werden die Trainings/Lern-Parameter aktualisiert.
  • Im Schritt 414 wird eine Entscheidung getroffen, ob das Verfahren beendet werden soll oder nicht. Wenn die Entscheidung getroffen wird, das Verfahren an dieser Stelle nicht zu beenden, dann kehrt die Steuerung zum Schritt 406 zurück. Andernfalls wird Schritt 416 durchgeführt.
  • Im Schritt 416 wird die Darstellungskarte ausgegeben (d. h., die Erzeugung der Darstellungskarte ist abgeschlossen).
  • Details bezüglich der Schritte im Flussdiagramm 402 sind oben diskutiert.
  • Bezugnehmend auf 3 zeigt im Schritt 312 der Kartenbetrachter 112 die neue Darstellungskarte auf einer Ausgabevorrichtung 116 (wie zum Beispiel ein graphischer Computermonitor) an.
  • Im Schritt 314 versetzt das Benutzerschnittstellenmodul 108 den Benutzer in die Lage, die in der angezeigten Darstellungskarte repräsentierten Verbindungen interaktiv zu analysieren und zu bearbeiten.
  • Die vorliegende Erfindung versetzt den Benutzer in die Lage, bestehende Darstellungskarten zur Visualisierung von Verbindungen (wobei der Begriff "Darstellungskarte zur Visualisierung von Verbindungen" sich auf eine erstellte Darstellungskarte bezieht) zu modifizieren. Beispielsweise kann der Benutzer zu der Karte zusätzliche Verbindungen hinzufügen, Verbindungen von der Karte entfernen, Verbindungen auf der Karte hervorheben etc. In solchen Fällen werden die entsprechenden funktionalen Schritte des Flussdiagramms 302 wiederholt. Beispielsweise im Schritt 304 (Auswählen einer Verbindung zum Kartieren), im Schritt 310 (Erzeugen einer Darstellungskarte) und im Schritt 312 (Anzeigen der Karte) werden wiederholt, wenn der Benutzer sich entscheidet, neue Verbindungen zu einer existierenden Karte hinzuzufügen. Gemäß einer Ausführungsform der Erfindung wird die Karte inkrementell verfeinert und in Schritten 310 und 312 angezeigt, wenn zu einer bestehenden Darstellungskarte zur Visualisierung von Verbindungen weitere Verbindungen hinzugefügt werden (dieses inkrementelle Verfeinern ist oben beschrieben).
  • Das oben gegebene Beispiel einer chemischen Verbindung ist zum Visualisieren und interaktiven Prozessieren einer beliebigen chemischen Einheit zweckvoll, einschließlich, aber nicht darauf beschränkt (kann jedoch dafür verwendet werden) kleine Moleküle, Polymere, Peptide, Proteine etc. Es kann ebenso zweckvoll sein, unterschiedliche Ähnlichkeits-Beziehungen zwischen diesen Verbindungen darzustellen.
  • XI. Zusammenfassungen
  • Die vorliegende Erfindung wurde oben mit Hilfe von funktionalen, aufbauenden Blöcken beschrieben, wobei die Durchführung der spezifischen Funktionen und deren Beziehungen dargestellt wurde. Die Abgrenzungen dieser funktionalen, aufbauenden Blöcke wurden hier zur Erleichterung der Beschreibung zufällig definiert. Es können alternative Abgrenzungen definiert weiden, so lange spezifizierte Funktionen und deren Beziehungen angemessen durchgeführt werden. Jeder dieser alternativen Abgrenzungen liegt deshalb innerhalb des Schutzumfangs und der Idee der beanspruchten Erfindung und wäre für Personen, die in der betreffenden Technik bewanderten sind, offensichtlich.
  • Diese funktionalen, aufbauenden Blöcke können diskrete Bauteile, anwendungsspezifische, integrierte Schaltkreise, sowie Prozessoren, welche die entsprechende Software ausführen, und ähnliches und in einer beliebigen Kombination davon, implementiert werden. Es liegt innerhalb der Möglichkeiten einer in der betreffenden Technik bewanderten Person, einen entsprechenden Schaltkreis und/oder Software zu entwickeln, um diese funktionalen, aufbauenden Blöcke zu implementierten.
  • Ausgehend von den oben genannten Beispielen und der Beschreibung ist eine in der betreffenden Technik bewanderten Person in der Lage, die vorliegende Erfindung in einer großen Vielzahl von Anwendungen zu implementieren, die alle innerhalb des Schutzumfangs der Erfindung liegen.
  • Während unterschiedliche Ausführungsformen der vorliegenden Erfindung oben beschrieben wurden, ist es selbstverständlich, dass diese lediglich exemplarisch und nicht einschränkend dargestellt wurden. Deshalb sollte die Breite und der Schutzumfang der vorliegenden Erfindung nicht durch eine der oben beschriebenen exemplarischen Ausführungsformen beschränkt werden, sondern ausschließlich in Übereinstimmung mit den folgenden Ansprüchen definiert werden.

Claims (12)

  1. Verfahren zur Darstellung der Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte, wobei ein oder mehr Paar(e) von Objekten durch assoziierte paarweise Beziehungen mit vorgegebenen Bereichen der Beziehungswerte verbunden sind, wobei das Verfahren die Schritte umfasst: (1) Anordnen der Objekte auf der Karte; (2) Auswählen eines Paares von Objekten, wobei das ausgewählte Paar der Objekte (618) dazwischen eine solche assoziierte Beziehung (620) aufweist; (3) Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, das auf dieser assoziierten Beziehung und auf der Distanz beruht, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt; (4) Wiederholen der Schritte (2) and (3) für weitere Paare von Objekten; und (5) Erzeugen von Kartierungskoordinaten (626) für die Objekte.
  2. Verfahren gemäß Anspruch 1, wobei die Beziehungen zwischen einem oder mehr Paar(en) der Objekte unbekannt sind, wobei das Verfahren weiterhin die Schritte umfasst: Durchführen der Schritte (2) bis (4) nur für die Paare von Objekten, für die eine assoziierte Beziehung bekannt ist; und Zulassen, dass sich die Distanzen zwischen den Objekten auf der Karte, deren Beziehungen nicht bekannt sind, mit der Durchführung der Schritte (2) bis (4) ändern.
  3. Verfahren gemäß Anspruch 1, wobei die Distanz nur korrigiert wird, wenn die Distanz eine obere Grenze der Beziehungswerte der assoziierten Beziehung überschreitet.
  4. Verfahren gemäß Anspruch 1, wobei diese Distanz nur korrigiert wird, wenn diese Distanz eine untere Grenze der Beziehungswerte der assoziierten Beziehung unterschreitet.
  5. Verfahren nach Anspruch 1, wobei ein oder mehr Paar(e) der Objekte durch eine assoziierte Beziehung in Beziehung zueinander stehen, die fehlerhaft ist, wobei das Verfahren weiterhin die Schritte umfasst: Nachweisen eines Paares von Objekten, für welche die entsprechende Beziehung fehlerhaft ist; Entfernen der Beziehung, die fehlerhaft ist; und Zulassen, dass die Distanz zwischen den Objekten, deren entsprechende Beziehung entfernt worden ist, sich mit der Durchführung der Schritte (2) bis (4) ändert.
  6. Verfahren gemäß Anspruch 1, wobei Schritt (3) den Schritt des Korrigierens der Distanz umfasst, beruhend auf einer Lerngeschwindigkeit.
  7. Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit festgelegt ist.
  8. Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit variabel ist.
  9. Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit eine Funktion der assoziierten Beziehung zwischen den Objekten ist.
  10. Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit eine Funktion von mindestens einem Objekt des Paares von Objekten ist.
  11. Verfahren gemäß Anspruch 6, wobei die Geschwindigkeit eine Funktion des ausgewählten Paares von Objekten ist.
  12. System zur Darstellung der Beziehungen zwischen Objekten als Distanzen voneinander auf einer Darstellungskarte, wobei ein oder mehr Paar(e) von Objekten durch assoziierte paarweise Beziehungen mit vorgegebenen Bereichen der Beziehungswerte verbunden sind, wobei das System umfasst: ein Koordinatenmodul (616) für die Anordnung der Objekte auf einer Karte; einen Untergruppenselektor (638) für das Auswählen eines Paares (618) von Objekten, wobei das ausgewählte Paar dazwischen eine solche assoziierte Beziehung (620) aufweist; und ein Koordinatenkorrekturmodul (622) für das Korrigieren einer Distanz zwischen dem Paar von Objekten auf der Karte, das auf dieser assoziierten Beziehung und auf der Distanz beruht, nur dann, wenn diese Distanz außerhalb der Grenzen der Beziehungswerte dieser assoziierten Beziehung liegt, und für das Erzeugen von Kartierungskoordinaten (626) für die Objekte.
DE69914896T 1998-05-07 1999-05-07 System, verfahren und rechnerprogrammprodukt zur darstellung von annäherungsdaten in einem mehrdimensionalen raum Expired - Lifetime DE69914896T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US73845 1998-05-07
US09/073,845 US6453246B1 (en) 1996-11-04 1998-05-07 System, method, and computer program product for representing proximity data in a multi-dimensional space
PCT/US1999/009963 WO1999057686A1 (en) 1998-05-07 1999-05-07 System, method, and computer program product for representing proximity data in a multi-dimensional space

Publications (2)

Publication Number Publication Date
DE69914896D1 DE69914896D1 (de) 2004-03-25
DE69914896T2 true DE69914896T2 (de) 2004-12-09

Family

ID=22116149

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69914896T Expired - Lifetime DE69914896T2 (de) 1998-05-07 1999-05-07 System, verfahren und rechnerprogrammprodukt zur darstellung von annäherungsdaten in einem mehrdimensionalen raum

Country Status (16)

Country Link
US (1) US6453246B1 (de)
EP (1) EP1078333B1 (de)
JP (1) JP2002513979A (de)
KR (1) KR20010043417A (de)
CN (1) CN1306650A (de)
AT (1) ATE259981T1 (de)
AU (1) AU3887899A (de)
CA (1) CA2331351A1 (de)
DE (1) DE69914896T2 (de)
DK (1) DK1078333T3 (de)
EA (1) EA003796B1 (de)
ES (1) ES2214854T3 (de)
IL (1) IL139527A0 (de)
PT (1) PT1078333E (de)
WO (1) WO1999057686A1 (de)
ZA (1) ZA200006388B (de)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574876A (en) * 1992-09-18 1996-11-12 Hitachi, Ltd. Processor system using synchronous dynamic memory
US6571227B1 (en) * 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
US7321828B2 (en) * 1998-04-13 2008-01-22 Isis Pharmaceuticals, Inc. System of components for preparing oligonucleotides
US20030228597A1 (en) * 1998-04-13 2003-12-11 Cowsert Lex M. Identification of genetic targets for modulation by oligonucleotides and generation of oligonucleotides for gene modulation
US20040186071A1 (en) 1998-04-13 2004-09-23 Bennett C. Frank Antisense modulation of CD40 expression
US7318051B2 (en) * 2001-05-18 2008-01-08 Health Discovery Corporation Methods for feature selection in a learning machine
AU745157B2 (en) * 1998-10-02 2002-03-14 Canon Kabushiki Kaisha Method and apparatus for generating a geometric skeleton of a polygonal shape
US6631211B1 (en) * 1999-07-08 2003-10-07 Perkinelmer Las, Inc. Interactive system for analyzing scatter plots
US7366719B2 (en) 2000-01-21 2008-04-29 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
ATE365947T1 (de) * 2000-01-21 2007-07-15 Health Discovery Corp Verfahren zur manipulation, speicherung, modellierung, darstellung und quantifizierung von datensätzen
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
US7624074B2 (en) * 2000-08-07 2009-11-24 Health Discovery Corporation Methods for feature selection in a learning machine
US6571228B1 (en) * 2000-08-09 2003-05-27 Po-Tong Wang Hybrid neural networks for color identification
US6778946B1 (en) * 2000-10-17 2004-08-17 International Business Machines Corporation Methods and apparatus for processing ranked fuzzy cartesian queries
US7174304B1 (en) * 2000-12-05 2007-02-06 Ims Health Incorporated System and method for estimating product distribution using a product specific universe
US7167851B2 (en) * 2001-01-31 2007-01-23 Accelrys Software Inc. One dimensional molecular representations
US7089592B2 (en) * 2001-03-15 2006-08-08 Brighterion, Inc. Systems and methods for dynamic detection and prevention of electronic fraud
US6721737B2 (en) * 2001-04-04 2004-04-13 International Business Machines Corporation Method of ranking items using efficient queries
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
JP2003141159A (ja) * 2001-11-06 2003-05-16 Fujitsu Ltd 距離インデクスを用いた検索装置および方法
US7363311B2 (en) * 2001-11-16 2008-04-22 Nippon Telegraph And Telephone Corporation Method of, apparatus for, and computer program for mapping contents having meta-information
US20040034612A1 (en) * 2002-03-22 2004-02-19 Nick Mathewson Support vector machines for prediction and classification in supply chain management and other applications
EP1495432A2 (de) * 2002-04-10 2005-01-12 TransTech Pharma Inc. System und verfahren für datenanalyse, manipulierung und abbildung
US8120618B2 (en) * 2002-06-11 2012-02-21 Hewlett-Packard Development Company, L.P. System and method for visualization of objects using energy minimization of customized potential functions
AU2003276998A1 (en) * 2002-09-27 2004-04-19 Carnegie Mellon University A sensitivity based pattern search algorithm for component layout
US7103609B2 (en) * 2002-10-31 2006-09-05 International Business Machines Corporation System and method for analyzing usage patterns in information aggregates
WO2005006179A1 (en) * 2003-07-10 2005-01-20 Health Discovery Corporation A method for identifying biomarkers using fractal genomics modeling
US20050114331A1 (en) * 2003-11-26 2005-05-26 International Business Machines Corporation Near-neighbor search in pattern distance spaces
JP2005234994A (ja) * 2004-02-20 2005-09-02 Fujitsu Ltd 類似度判定プログラム、マルチメディアデータ検索プログラム、類似度判定方法、および類似度判定装置
JP2005250721A (ja) * 2004-03-03 2005-09-15 Hitachi High-Technologies Corp 蛋白質または高分子複合体の検索・照合方法及び装置
US20050222828A1 (en) * 2004-04-02 2005-10-06 Ehtibar Dzhafarov Method for computing subjective dissimilarities among discrete entities
WO2006026985A2 (en) * 2004-07-12 2006-03-16 Atomistix A/S Method and computer system for quantum chemical modelling of molecules under non-equilibrium conditions
US20060052943A1 (en) * 2004-07-28 2006-03-09 Karthik Ramani Architectures, queries, data stores, and interfaces for proteins and drug molecules
US20060089812A1 (en) * 2004-10-25 2006-04-27 Jacquez Geoffrey M System and method for evaluating clustering in case control data
US8078488B2 (en) * 2005-01-25 2011-12-13 Ims Software Services Ltd. System and method for determining trailing data adjustment factors
US20060190288A1 (en) * 2005-01-22 2006-08-24 Ims Software Services Ltd. System and method for allocating prescriptions to non-reporting outlets
US8744897B2 (en) * 2005-01-22 2014-06-03 Ims Software Services Ltd. Sample store forecasting process and system
US20060290697A1 (en) * 2005-06-24 2006-12-28 Tom Sawyer Software System for arranging a plurality of relational nodes into graphical layout form
JP2009509259A (ja) * 2005-09-20 2009-03-05 フランス テレコム 一組の電子文書を並べ替える方法
US20070112667A1 (en) * 2005-10-31 2007-05-17 Dun And Bradstreet System and method for providing a fraud risk score
US7313454B2 (en) * 2005-12-02 2007-12-25 Mks Instruments, Inc. Method and apparatus for classifying manufacturing outputs
US20080133496A1 (en) * 2006-12-01 2008-06-05 International Business Machines Corporation Method, computer program product, and device for conducting a multi-criteria similarity search
US8271103B2 (en) 2007-05-02 2012-09-18 Mks Instruments, Inc. Automated model building and model updating
US8645440B2 (en) * 2007-06-11 2014-02-04 Guy Rosman Acceleration of multidimensional scaling by vector extrapolation techniques
JP5052985B2 (ja) * 2007-07-31 2012-10-17 住友重機械工業株式会社 分子シミュレーション方法、分子シミュレーション装置、分子シミュレーションプログラム、及び該プログラムを記録した記録媒体
US8520906B1 (en) 2007-09-24 2013-08-27 Videomining Corporation Method and system for age estimation based on relative ages of pairwise facial images of people
USRE47320E1 (en) 2007-11-20 2019-03-26 Ionis Pharmaceuticals, Inc. Modulation of CD40 expression
WO2009086083A2 (en) * 2007-12-21 2009-07-09 Mks Instruments, Inc. Hierarchically organizing data using a partial least squares analysis (pls-trees)
US8494798B2 (en) * 2008-09-02 2013-07-23 Mks Instruments, Inc. Automated model building and batch model building for a manufacturing process, process monitoring, and fault detection
US8499284B2 (en) * 2008-09-11 2013-07-30 Microsoft Corporation Visualizing relationships among components using grouping information
RU2382407C1 (ru) * 2008-11-21 2010-02-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система для обнаружения лица
US9069345B2 (en) * 2009-01-23 2015-06-30 Mks Instruments, Inc. Controlling a manufacturing process with a multivariate model
US8086327B2 (en) 2009-05-14 2011-12-27 Mks Instruments, Inc. Methods and apparatus for automated predictive design space estimation
US8577480B2 (en) 2009-05-14 2013-11-05 Mks Instruments, Inc. Methods and apparatus for automated predictive design space estimation
JP2011160379A (ja) * 2010-02-04 2011-08-18 Sony Corp 画像処理装置および方法、並びにプログラム
US8855804B2 (en) 2010-11-16 2014-10-07 Mks Instruments, Inc. Controlling a discrete-type manufacturing process with a multivariate model
US8407639B2 (en) * 2011-01-27 2013-03-26 Raytheon Company Systems and methods for mapping state elements of digital circuits for equivalence verification
US8577876B2 (en) * 2011-06-06 2013-11-05 Met Element, Inc. System and method for determining art preferences of people
US9541471B2 (en) 2012-04-06 2017-01-10 Mks Instruments, Inc. Multivariate prediction of a batch manufacturing process
US9429939B2 (en) 2012-04-06 2016-08-30 Mks Instruments, Inc. Multivariate monitoring of a batch manufacturing process
CN102789490B (zh) * 2012-07-04 2014-11-05 苏州大学 一种数据可视化方法及系统
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US10163034B2 (en) 2013-06-19 2018-12-25 Oracle International Corporation Tripoint arbitration for entity classification
FR3011377B1 (fr) * 2013-10-01 2015-11-06 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
US20180053114A1 (en) 2014-10-23 2018-02-22 Brighterion, Inc. Artificial intelligence for context classifier
US10896421B2 (en) 2014-04-02 2021-01-19 Brighterion, Inc. Smart retail analytics and commercial messaging
US10992675B2 (en) 2014-04-14 2021-04-27 Oracle International Corporation Anomaly detection using tripoint arbitration
US20150032589A1 (en) 2014-08-08 2015-01-29 Brighterion, Inc. Artificial intelligence fraud management solution
US20150066771A1 (en) 2014-08-08 2015-03-05 Brighterion, Inc. Fast access vectors in real-time behavioral profiling
US20150339673A1 (en) 2014-10-28 2015-11-26 Brighterion, Inc. Method for detecting merchant data breaches with a computer network server
US20160055427A1 (en) 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
US20160071017A1 (en) 2014-10-15 2016-03-10 Brighterion, Inc. Method of operating artificial intelligence machines to improve predictive model training and performance
US20160078367A1 (en) 2014-10-15 2016-03-17 Brighterion, Inc. Data clean-up method for improving predictive model training
US20160063502A1 (en) 2014-10-15 2016-03-03 Brighterion, Inc. Method for improving operating profits with better automated decision making with artificial intelligence
US10546099B2 (en) 2014-10-15 2020-01-28 Brighterion, Inc. Method of personalizing, individualizing, and automating the management of healthcare fraud-waste-abuse to unique individual healthcare providers
US11080709B2 (en) 2014-10-15 2021-08-03 Brighterion, Inc. Method of reducing financial losses in multiple payment channels upon a recognition of fraud first appearing in any one payment channel
US10290001B2 (en) 2014-10-28 2019-05-14 Brighterion, Inc. Data breach detection
US10671915B2 (en) 2015-07-31 2020-06-02 Brighterion, Inc. Method for calling for preemptive maintenance and for equipment failure prevention
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11416129B2 (en) 2017-06-02 2022-08-16 The Research Foundation For The State University Of New York Data access interface
US10229092B2 (en) 2017-08-14 2019-03-12 City University Of Hong Kong Systems and methods for robust low-rank matrix approximation
US20190342297A1 (en) 2018-05-01 2019-11-07 Brighterion, Inc. Securing internet-of-things with smart-agent technology
US10721256B2 (en) 2018-05-21 2020-07-21 Oracle International Corporation Anomaly detection based on events composed through unsupervised clustering of log messages
US11178161B2 (en) 2019-04-18 2021-11-16 Oracle International Corporation Detecting anomalies during operation of a computer system based on multimodal data

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61223941A (ja) 1985-03-29 1986-10-04 Kagaku Joho Kyokai 化学構造の検索方法
US4773099A (en) * 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
US4908773A (en) 1987-04-06 1990-03-13 Genex Corporation Computer designed stabilized proteins and method for producing same
US4859736A (en) 1987-03-30 1989-08-22 Ciba-Geigy Corporation Synthetic polystyrene resin and its use in solid phase peptide synthesis
US4939666A (en) 1987-09-02 1990-07-03 Genex Corporation Incremental macromolecule construction methods
US4935875A (en) 1987-12-02 1990-06-19 Data Chem, Inc. Chemical analyzer
US5147608A (en) 1988-04-29 1992-09-15 Millipore Corporation Apparatus and process for performing repetitive chemical processing
US5010175A (en) 1988-05-02 1991-04-23 The Regents Of The University Of California General method for producing and selecting peptides with specific properties
DE58906153D1 (de) 1988-08-24 1993-12-16 Siemens Ag Verfahren zur chemischen Dekontamination der Oberfläche eines metallischen Bauteils einer Kernreaktoranlage.
US5025388A (en) 1988-08-26 1991-06-18 Cramer Richard D Iii Comparative molecular field analysis (CoMFA)
US5265030A (en) 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
US5723289A (en) 1990-06-11 1998-03-03 Nexstar Pharmaceuticals, Inc. Parallel selex
IE66205B1 (en) 1990-06-14 1995-12-13 Paul A Bartlett Polypeptide analogs
US5650489A (en) 1990-07-02 1997-07-22 The Arizona Board Of Regents Random bio-oligomer library, a method of synthesis thereof, and a method of use thereof
US5167009A (en) 1990-08-03 1992-11-24 E. I. Du Pont De Nemours & Co. (Inc.) On-line process control neural network using data pointers
US5181259A (en) * 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
US5155801A (en) 1990-10-09 1992-10-13 Hughes Aircraft Company Clustered neural networks
US5331573A (en) 1990-12-14 1994-07-19 Balaji Vitukudi N Method of design of compounds that mimic conformational features of selected peptides
US5260882A (en) 1991-01-02 1993-11-09 Rohm And Haas Company Process for the estimation of physical and chemical properties of a proposed polymeric or copolymeric substance or material
US5499193A (en) 1991-04-17 1996-03-12 Takeda Chemical Industries, Ltd. Automated synthesis apparatus and method of controlling the apparatus
WO1993001484A1 (en) 1991-07-11 1993-01-21 The Regents Of The University Of California A method to identify protein sequences that fold into a known three-dimensional structure
JPH07117950B2 (ja) * 1991-09-12 1995-12-18 株式会社エイ・ティ・アール視聴覚機構研究所 パターン認識装置およびパターン学習装置
US5270170A (en) 1991-10-16 1993-12-14 Affymax Technologies N.V. Peptide library and screening method
US5240680A (en) 1991-12-19 1993-08-31 Chiron Corporation Automated apparatus for use in peptide synthesis
US6037135A (en) 1992-08-07 2000-03-14 Epimmune Inc. Methods for making HLA binding peptides and their uses
EP0555024B1 (de) * 1992-02-07 2000-05-17 Canon Kabushiki Kaisha Verfahren und Einrichtung zur Mustererkennung
US5573905A (en) 1992-03-30 1996-11-12 The Scripps Research Institute Encoded combinatorial chemical libraries
US5288514A (en) 1992-09-14 1994-02-22 The Regents Of The University Of California Solid phase and combinatorial synthesis of benzodiazepine compounds on a solid support
US5565325A (en) 1992-10-30 1996-10-15 Bristol-Myers Squibb Company Iterative methods for screening peptide libraries
JP2513395B2 (ja) 1992-11-09 1996-07-03 株式会社島津製作所 ペプチドアミド合成用リンカ―
US5703792A (en) 1993-05-21 1997-12-30 Arris Pharmaceutical Corporation Three dimensional measurement of molecular diversity
WO1994028504A1 (en) 1993-05-21 1994-12-08 Arris Pharmaceutical A machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5679582A (en) 1993-06-21 1997-10-21 Scriptgen Pharmaceuticals, Inc. Screening method for identifying ligands for target proteins
ES2165880T3 (es) 1993-06-21 2002-04-01 Selectide Corp Conectores segmentables selectivamente basados en enlaces ester de acido iminodiacetico.
US5585277A (en) 1993-06-21 1996-12-17 Scriptgen Pharmaceuticals, Inc. Screening method for identifying ligands for target proteins
US5434796A (en) 1993-06-30 1995-07-18 Daylight Chemical Information Systems, Inc. Method and apparatus for designing molecules with desired properties by evolving successive populations
JP2948069B2 (ja) 1993-09-20 1999-09-13 株式会社日立製作所 化学分析装置
US5598510A (en) 1993-10-18 1997-01-28 Loma Linda University Medical Center Self organizing adaptive replicate (SOAR)
EP0754238A4 (de) 1994-04-05 1998-01-28 Pharmagenics Inc Die bestimmung und identifikation von aktiven substanzen in substanzbibliotheken
US5602938A (en) * 1994-05-20 1997-02-11 Nippon Telegraph And Telephone Corporation Method of generating dictionary for pattern recognition and pattern recognition method using the same
US5549974A (en) 1994-06-23 1996-08-27 Affymax Technologies Nv Methods for the solid phase synthesis of thiazolidinones, metathiazanones, and derivatives thereof
EP0694855B1 (de) * 1994-07-28 2002-05-02 International Business Machines Corporation Such/Sortier-Schaltung für Neuronalnetzwerke
US5463564A (en) 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
US5574844A (en) 1994-09-22 1996-11-12 International Business Machines Corporation Computer system and method for processing atomic data to calculate and exhibit the properties and structure of matter
US5553225A (en) 1994-10-25 1996-09-03 International Business Machines Corporation Method and apparatus for combining a zoom function in scroll bar sliders
US5712171A (en) 1995-01-20 1998-01-27 Arqule, Inc. Method of generating a plurality of chemical compounds in a spatially arranged array
US5845225A (en) 1995-04-03 1998-12-01 Mosher; Frederick A. Microcomputer controlled engine cleaning system
US5807754A (en) 1995-05-11 1998-09-15 Arqule, Inc. Combinatorial synthesis and high-throughput screening of a Rev-inhibiting arylidenediamide array
US5602755A (en) 1995-06-23 1997-02-11 Exxon Research And Engineering Company Method for predicting chemical or physical properties of complex mixtures
EP0791008A4 (de) 1995-09-08 2003-04-23 Anadys Pharmaceuticals Inc Screeningmethode für verbindungen, die eine affinität zur rns haben
US5811241A (en) 1995-09-13 1998-09-22 Cortech, Inc. Method for preparing and identifying N-substitued 1,4-piperazines and N-substituted 1,4-piperazinediones
US5734796A (en) 1995-09-29 1998-03-31 Ai Ware, Inc. Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping
CA2184195C (en) 1995-10-25 2002-04-16 Andrew Pakula Screening method for identifying ligands for target proteins
EP0865502A4 (de) 1995-12-07 2000-08-16 Scriptgen Pharm Inc Auf fluoreszenz basierendes erkennungsverfahren für liganden
US5712564A (en) 1995-12-29 1998-01-27 Unisys Corporation Magnetic ink recorder calibration apparatus and method
WO1997027559A1 (en) 1996-01-26 1997-07-31 Patterson David E Method of creating and searching a molecular virtual library using validated molecular structure descriptors
US5995938A (en) 1996-02-27 1999-11-30 Whaley; Susan S. Medication compliance system
US6014661A (en) 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6026397A (en) 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
EP0818744A3 (de) 1996-07-08 1998-07-08 Proteus Molecular Design Limited Verfahren zur Auswahl von Kandidat-Drogenverbindungen
WO1998020459A1 (en) 1996-11-04 1998-05-14 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for the visualization and interactive processing and analysis of chemical data
US5861532A (en) 1997-03-04 1999-01-19 Chiron Corporation Solid-phase synthesis of N-alkyl amides
US5908960A (en) 1997-05-07 1999-06-01 Smithkline Beecham Corporation Compounds
US5933819C1 (en) 1997-05-23 2001-11-13 Scripps Research Inst Prediction of relative binding motifs of biologically active peptides and peptide mimetics
US5960443A (en) 1997-07-25 1999-09-28 Young; David E. Quantitative visual system for comparing parameters which characterize multiple complex entities
US6049797A (en) 1998-04-07 2000-04-11 Lucent Technologies, Inc. Method, apparatus and programmed medium for clustering databases with categorical attributes

Also Published As

Publication number Publication date
EP1078333B1 (de) 2004-02-18
IL139527A0 (en) 2001-11-25
CA2331351A1 (en) 1999-11-11
EP1078333A1 (de) 2001-02-28
ES2214854T3 (es) 2004-09-16
WO1999057686A1 (en) 1999-11-11
EA003796B1 (ru) 2003-10-30
KR20010043417A (ko) 2001-05-25
ZA200006388B (en) 2001-05-23
DK1078333T3 (da) 2004-06-07
PT1078333E (pt) 2004-07-30
ATE259981T1 (de) 2004-03-15
JP2002513979A (ja) 2002-05-14
AU3887899A (en) 1999-11-23
DE69914896D1 (de) 2004-03-25
CN1306650A (zh) 2001-08-01
EA200001159A1 (ru) 2001-06-25
US6453246B1 (en) 2002-09-17

Similar Documents

Publication Publication Date Title
DE69914896T2 (de) System, verfahren und rechnerprogrammprodukt zur darstellung von annäherungsdaten in einem mehrdimensionalen raum
Zhu et al. Do we need more training data?
Severson et al. Unsupervised learning with contrastive latent variable models
Bach et al. Structured sparsity through convex optimization
US6295514B1 (en) Method, system, and computer program product for representing similarity/dissimilarity between chemical compounds
Yan et al. Substructure similarity search in graph databases
Osindero et al. Topographic product models applied to natural scene statistics
US7139739B2 (en) Method, system, and computer program product for representing object relationships in a multidimensional space
DE69938339T2 (de) Ein skalierbares system zum gruppieren von grossen datenbänken
DE60024452T2 (de) Verbesserte Kenntnisentdeckung von mehreren Datensätzen unter Verwendung von multiplen Support-Vektormaschinen
Kiang et al. An evaluation of self-organizing map networks as a robust alternative to factor analysis in data mining applications
Cao et al. Automatic selection of t-SNE perplexity
JP2002543525A (ja) 多次元データの非線形マッピングのための方法、システムおよびコンピュータプログラム製品
WO2001071624A9 (en) System, method, and computer program product for representing object relationships in a multidimensional space
Geng et al. Local-density subspace distributed clustering for high-dimensional data
Sanchez et al. Feature selection based on star coordinates plots associated with eigenvalue problems
Lebart et al. Correspondence analysis and classification
Nurlanov et al. Universe points representation learning for partial multi-graph matching
Acosta et al. Quantifying extrinsic curvature in neural manifolds
DE102021003294A1 (de) Organisieren und Darstellen einer Sammlung von Fonts entsprechend der visuellen Ähnlichkeit unter Einsatz maschinellen Lernens
Krämer Tree tensor networks, associated singular values and high-dimensional approximation
Chen et al. A visual framework invites human into the clustering process
Toda et al. Visualization, Clustering, and Graph Generation of Optimization Search Trajectories for Evolutionary Computation Through Topological Data Analysis: Application of the Mapper
CN112069365B (zh) 一种基于范例的节点链接图布局的迁移方法及装置
Aziz Coloring of the Self-Organising Maps based on class labels

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: GRAF VON STOSCH PATENTANWALTSGESELLSCHAFT MBH, 805