DE102005040306B4

DE102005040306B4 - System und Verfahren zur biologischen Datenanalyse unter Verwendung eines Bayes'schen Netzwerks in Verbindung mit einer Support-Vektor Maschine

Info

Publication number: DE102005040306B4
Application number: DE102005040306A
Authority: DE
Inventors: Jie Cheng; Chao Yuan; Bernd Wachmann; Claus Neubauer
Original assignee: Siemens Medical Solutions USA Inc
Current assignee: Siemens Medical Solutions USA Inc
Priority date: 2004-08-25
Filing date: 2005-08-24
Publication date: 2010-01-21
Anticipated expiration: 2025-08-25
Also published as: US7240042B2; US20060047616A1; DE102005040306A1

Abstract

Verfahren zur Analyse biologischer Daten, welches die Schritte umfasst:
Klassifikation eines ersten biologischen Datensatzes in einem ersten Klassifikator, wobei der erste Klassifikator eine Support-Vektor Repräsentations- und Unterscheidungsmaschine ist, wobei die Maschine die Daten in mehreren Klassen unterscheidet unter Verwendung mehrerer Unterscheidungsfunktionen, wobei ein inneres Produkt jeder Unterscheidungsfunktion mit einer Kernfunktion anhand der Daten ausgewertet wird, wobei die Norm jeder Unterscheidung minimiert wird und wobei er Wert jedes inneren Produktes mit einem Schwellenwert verglichen wird, um festzustellen, ob ein biologischer Datenpunkt zu einer mit der Unterscheidungsfunktion verknüpften Klasse gehört;
Klassifikation eines zweiten biologischen Datensatzes in einem zweiten Klassifikator, wobei der zweite Klassifikator ein Bayes'sches Netzwerk ist; und wobei das Bayes'sche Netzwerk die Berechnung wechselseitiger Information von Datenpaaren des Datensatzes, die Bildung eines Netzwerkentwurfs, der auf der wechselseitigen Information beruht, wobei Datenpunkte des Datensatzes Knoten des Netzwerks umfassen und die ein Paar der Datenknoten verbindenden Kanten wechselseitige Information der Knoten...

Description

QUERVERWEIS AUF VERWANDTE US-ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität von ”Kombination von Bayes'schen Netzwerken und verbesserten Support-Vektor Maschinen zur Analyse biologischer Daten”, vorläufige U. S. Anmeldung Nr. 60/604,233 von Cheng et al., eingereicht am 25. August 2004, deren Inhalt durch Querverweis hierin aufgenommen ist.
TECHNISCHES GEBIET
Die Erfindung richtet sich auf die Analyse biologischer Daten unter Verwendung von Lernhilfsmitteln, wie etwa Bayes'schen Netzwerken und Support-Vektor Maschinen (SVMs).
ERÖRTERUNG DES STANDES DER TECHNIK
Ein bioinformatisches Interessensgebiet ist die Entdeckung von Abhängigkeiten, z. B. in genetischen Netzwerken, die auf Daten aus Mikroarrays beruhen und deren Veränderung aus einem gesunden Zustand auf Grund von Krankheiten. Diese Daten weisen aus biologischen und technischen Gründen inhärente Ungenauigkeiten (Hintergrundrauschen) auf und machen fortgeschrittene Technologien erforderlich, um nützliche Informationen für die spätere Klassifizierung zu erfassen.
Zwei Verfahren zur Erfassung dieser Abhängigkeiten sind Bayes'sche Netzwerke und Support-Vektor Maschinen. Bayes'sche Netzwerke (BN) sind wirkungsvolle Hilfsmittel zur Wissensrepräsentation und Inferenz unter Ungewißheitsbedingungen. Ein Bayes'sches Netzwerk B = [N, A, Θ] ist ein gerichteter azyklischer Graph (DAG), bei dem jeder Knoten n ∊ N eine Domänenvariable repräsentiert und jede Kante a ∊ A zwischen den Knoten eine probabilistische Abhängigkeit repräsentiert, die unter Verwendung einer bedingten Wahrscheinlichkeitsverteilung θ_i ∊ Θ für jeden Knoten n_i quantifiziert wird. Ein Bayes'sches Netzwerk (BN) kann zur Berechnung der bedingten Wahrscheinlichkeit eines Knotens verwendet werden, wobei den anderen Knoten vorgegebene Werte zugeordnet werden; somit kann ein BN als Klassifikator verwendet werden, welcher die spätere Wahrscheinlichkeitsverteilung der Knotenklasse bei gegebenen Werten anderer Attribute beschreibt. Ein Vorteil von BNs gegenüber anderen Arten von Vorhersagemodellen, wie etwa neuronalen Netzwerken, ist, dass die Struktur Bayes'scher Netzwerke die Beziehungen zwischen den Attributen des Datensatzes wiedergibt. Menschliche Experten können die Netzwerkstrukturen in einfacher Art und Weise verstehen und diese, falls erforderlich, zum Erhalt besserer Vorhersagemodelle modifizieren.
Support-Vektor Maschinen (SVMs) sind Techniken, die zur statistischen Mustererkennung entwickelt wurden und auf vielen Gebieten der Mustererkennung angewandt wurden. SVMs sind in erster Linie Zwei-Klassen Klassifikatoren, welche einen Randbereich zwischen den beiden Klassen aufweisen und Trainingsmuster, Support-Vektoren genannt, aufweisen, welche die Klassifikationsfunktion definieren. SVMs haben sich als wirkungsvolle Klassifikationsmittel erwiesen, die eine gute Verallgemeinerung zeigen. Dies kann der Tatsache zugeschrieben werden, dass der Regulationsterm in einer SVM nicht nur das Problem des Übertrainings, welches typische neuronale Netzwerke aufweisen, überwindet, sondern ebenfalls die Trennung zwischen den Klassen maximiert. Eine SVM unterdrückt jedoch keine Daten, die den Klassifikationskriterien nicht entsprechen. Die Verwendung einer Entscheidungsschwelle kann die SVM zu einer Datenunterdrückung befähigen, jedoch weisen solche SVMs eine schlechte Unterdrückungleistung auf, weil die SVM breite Entscheidungsregionen für jede Klasse bildet, was zu hohen Fehlalarmraten führt.
Die Verwendung von Support-Vektor-Maschinen-Klassifikatoren bei der biologischen Datenanalyse und deren parallele Kombination ist beispielsweise aus dem Artikel von R. Rifkin et al. „An Analytical Method for Multiclass Molecular Cancer Classification”, siam review (2003) 45 (4), siehe Seiten 706 bis 723, bekannt.
Ebenfalls bekannt ist es, unterschiedliche Klassifikatoren zu kombinieren. Die wesentlichen Bedingungen, die dabei zu beachten sind, beschreiben z. B. J. Kittler et al., „On Combining Classifiers”, IEEE Transactions an Pattenern Analysis and Machine Intelligence (1998) 20 (3), Seiten 226 bis 239.
Auch der WO 99/67731 A1 ist die Möglichkeit der Kombination der Ergebnisse mehrerer Klassifikatoren zu entnehmen. Konkret ist dabei die Möglichkeit angesprochen, einen Support-Vektor-Klassifikator oder einen Bayes'schen Klassifikator zu verwenden.
Eine weitere detaillierte Darstellung eines Bayes'schen Netzwerks und einer Support-Vektor-Maschine sowie der Kombination von Klassifikatoren ist dem Artikel von R. L. de Màntaras „Trends in Automatic Learning” Upgrade (2002) III (5), Seiten 25 bis 31 zu entnehmen.
Alle vorstehend genannten Verfahren bzw. Kombinationen von Verfahren weisen aber Probleme insbesondere bei der Datengewinnung aus hochdimensionierten Datensätzen auf. Hinsichtlich der vorbekannten Support-Vektor-Maschinen ist hier eine unzureichende Unterdrückungsleistung festzustellen, während die vorstehend beschriebenen Verfahren zur Verwendung von Bayes'schen Netzwerken bei hochdimensionierten Datensätzen Effizienzprobleme zeigen. Dies führt zu einer unzureichenden Gesamt-Performance bekannter Verfahren bei der Analyse biologischer Daten.
Dieses Problem wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
KURZDARSTELLUNG DER ERFINDUNG
Beispielhafte Ausführungsformen der Erfindung weisen im Allgemeinen, wie hierin beschrieben, Verfahren und Systeme zur Kombinierung eines Bayes'schen Netzwerks mit einer verbesserten SVM zur Analyse biologischer Daten auf. Eine neue Support-Vektor Repräsentations- und Unterscheidungsmaschine weist eine vergleichbare Unterscheidungsleistung wie die SVM, jedoch eine wesentlich bessere Unterdrückungsleistung auf, während ein neuer BN Lernalgorithmus auf einer dreiphasigen Abhängigkeitsanalyse beruht, welche, aufgrund ihrer Effizienz, besonders zur Datengewinnung bei hochdimensionierten Datensätzen geeignet ist. Die Leistung der SVMs wurde durch die Unterdrückungsklassifizierung verbessert, wobei M Zielklassen unterschieden werden und eine Nicht-Zielklasse unterdrückt wird. Diese Nicht-Zielklasse kann alles außer der M Zielklassen darstellen.
Ein Aspekt der Erfindung betrifft die Bereitstellung eines Verfahrens zur Analyse biologischer Daten, wobei das Verfahren die Klassifikation eines ersten biologischen Datensatzes in einem ersten Klassifikator, die Klassifizierung eines zweiten biologischen Datensatzes in einem zweiten Klassifikator, die Kombination der Ergebnisse des ersten Klassifikators mit den Ergebnissen des zweiten Klassifikators sowie die Analyse der Ergebnisse als Funktion des Ähnlichkeitsmaßes des ersten Klassifikators und des Ähnlichkeitsmaßes des zweiten Klassifikators umfasst.
Gemäß eines weiteren Aspekts der Erfindung sind der erste biologische Datensatz und der zweite biologische Datensatz identisch.
Gemäß eines weiteren Aspekts der Erfindung ist der erste Klassifikator eine Support-Vektor Repräsentations- und Unterscheidungsmaschine.
Gemäß eines weiteren Aspekts der Erfindung ist der zweite Klassifikator ein Bayes'sches Netzwerk.
Gemäß eines weiteren Aspekts der Erfindung ist der erste biologische Datensatz ein Satz von Mikroreihendaten.
Gemäß eines weiteren Aspekts der Erfindung ist der zweite biologische Datensatz ein Satz aus Proteinmassenspektren.
Gemäß eines weiteren Aspekts der Erfindung werden die Ergebnisse des ersten Klassifikators und des zweiten Klassifikators parallel kombiniert.
Gemäß eines weiteren Aspekts der Erfindung umfasst das Bayes'sche Netzwerk die Berechnung wechselseitiger Information von Datenpaaren des Datensatzes, die Bildung eines Netzwerkentwurfs, der auf der wechselseitigen Information beruht, wobei Datenpunkte des Datensatzes Knoten des Netzwerks umfassen und die ein Paar der Datenknoten verbindenden Kanten wechselseitige Information der Knoten repräsentieren, die Verdichtung des Netzwerks durch Hinzufügen von Kanten, wenn Paare von Datenknoten nicht d-separiert werden können sowie die Ausdünnung des Netzwerks durch Analyse jeder Kante des Netzwerkentwurfs durch einen bedingten Unnabhängigkeitstest und das Entfernen der Kante, wenn die entsprechenden Datenknoten d-separiert werden können.
Gemäß eines weiteren Aspekts der Erfindung umfasst der Schritt der Kombination das Gewichten der Ergebnisse des ersten und zweiten Klassifikators auf Grundlage der Eingabemuster.
Gemäß eines weiteren Aspekts der Erfindung wird eine computerlesbare Programmspeichervorrichtung bereitgestellt, die ein Programm von Anweisungen greifbar verkörpert, welche von dem Computer ausgeführt werden können, um die Verfahrensschritte zur Analyse biologischer Daten zu durchlaufen.
KURZDARSTELLUNG DER ZEICHNUNGEN
1 stellt ein schematisches Diagramm der Kombination der beiden Klassifikatoren gemäß einer Ausführungsform der Erfindung dar.
2 veranschaulicht die Entscheidungsungewissheit für zwei beispielhafte Wahrscheinlichkeitsverteilungsfunktionen gemäß einer Ausführungsform der Erfindung.
3 veranschaulicht die Kombination zweier Klassifikatorverteilungen für zwei verschiedene Klassen gemäß einer Ausführungsform der Erfindung.
4 stellt ein einfaches vielfach-verbundenes Netzwerk gemäß einer Ausführungsform der Erfindung dar.
5 ist ein Blockdiagramm eines beispielhaften Computersystems zum Einsatz einer Kombination von BN und SVM gemäß einer Ausführungsform der Erfindung.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Beispielhafte Ausführungsformen der Erfindung, wie hierin beschrieben, weisen im Allgemeinen Systeme und Verfahren zur Kombinierung zweier Klassifikatoren auf, sowohl zur Analyse desselben Datentyps, als auch zur Analyse von Daten unterschiedlicher Herkunft, welche verschiedenartige biomolekulare Information tragen.
Gemäß einer Ausführungsform der Erfindung wird eine erste Kombination einer Support-Vektor Repräsentations- und Unterscheidungsmaschine (SVRDM) und eines Bayes'schen Netzwerks (BN) zur Analyse desselben Satzes von Mikroreihendaten verwendet. Eine zweite Kombination der SVRDM und des BN wird zur Analyse desselben Satzes von Proteinmassenspektren verwendet, während bei einer dritten Kombination eine SVRDM zur Analyse von Proteinmassenspektren und ein BN zur Analyse von Mikroreihendaten verwendet wird, oder umgekehrt.
Bevor eine SVRDM beschrieben wird, soll eine Support-Vektor Repräsentationsmaschine (SVRM) beschrieben werden. Es werden zwei Klassen betrachtet, wobei C₁ die Zielklasse und C₀ die Nicht-Zielklasse darstellt. Die Aufgabe einer Einklassen-Klassifikation ist es, eine Entscheidungsregion R₁ für C₁ zu finden, so dass bei einer Eingabe x ∊ R₁, x C₁ zugeordnet wird; andernfalls wird es als Co unterdrückt. Es wird angenommen, dass N Trainingsvektoren {x₁, ..., x_N} von C₁ vorliegen und kein Trainingsvektor von Co. Die Trainingsaufgabe ist es, eine Evaluationsfunktion f₁(x) zu finden, welche das Vertrauen erzeugt, dass sich die Eingabe x innerhalb der Zielklasse befindet. Die Region R₁ wird als R₁ = (x: f₁(x) ≥ T) so definiert, dass sie solche Zielproben x enthält, welche Evaluationsfunktionswerte erzeugen, die oberhalb eines Schwellenwertes T liegen. Zur Erhaltung einer hohen Erkennungsrate sollten Trainingsvektoren hohe Evaluationsfunktionswerte bilden.
Eine Kartierung aus dem Eingaberaum zu einem hochdimensionierten Merkmalsraum wird als ϕ: RτF definiert, worin R den Eingaberaum und F den transformierten Merkmalsraum bezeichnet. Die explizite Form von ϕ und die Berechnung von ϕ(x) sind nicht erforderlich. Es muss eher nur das innere Produkt ϕ(x_i)^Tϕ(x_j) als eine Kernfunktion spezifiziert werden. Zur Evaluation von ϕ^Tϕ wird die zugeordnete Kernfunktion evaluiert. Gemäß einer Ausführungsform der Erfindung wird ein Gauß'scher Kern exp(–|x_i– x_j|²/2σ²) verwendet, da dieser die Volumenschätzung vereinfacht und weitere wünschenswerte Eigenschaften aufweist. Bei einem Gauß'schen Kern liegen die transformierten Trainings- und Testvektoren auf der Einheitssphäre, die am Ursprung in F zentriert ist. Da die Daten automatisch auf Einheitsgröße genormt werden, kann die Entfernung zweier Vektoren in F durch deren inneres Produkt repräsentiert werden. Daher kann das innere Produkt f₁(x) = h^Tϕ(x) als Evaluationsfunktion verwendet werden, wobei h ein Vektor in F ist, welcher aus dem Trainigssatz berechnet wird. Er beschreibt die SVRM und wird zur Bestimmung der Klasse der Testeingaben verwendet.
Die Lösung h für die SVRM genügt Min|h|2/2 hTϕ(xi) ≥ T = 1, i = 1, ..., N.
Die zweite obige Bedingung gewährleistet breite Evaluationsfunktionswerte für den Trainingssatz, größer als ein Schwellenwert T, der vorzugsweise gleich 1 ist.
Die Norm |h| von h ist bei der ersten Bedingung zur Reduzierung des Volumens von R₁ minimiert, um eine Unterdrückung von Nichtzielen bereitzustellen. Es kann gezeigt werden, dass eine Lösung h mit einer niedrigeren Norm kleinere C₁-Klasse-Akzeptanzvolumina bereitstellt. Es werden jedoch Ausreißer (Fehler) erwartet und die zweite obige Einschränkung wird nicht für den gesamten Trainingssatz befriedigt. Daher werden Schlupfvariablen ξ_i eingeführt und h genügt
ξ1 ≥ 0, i = 1, ..., N.
Dies erlaubt Klassifizierungsfehler der Größen ξ₁ für verschiedene Trainingssatzproben x_i. Der Faktor C in der ersten Bedingung ist die Gewichtung der Strafbedingung für die Schlupfvariablen. Die Losung h ist eine lineare Kombination der Supportvektoren, welche einen kleinen Anteil des gesamten Trainingssatzes ausmachen. Zur Klassifizierung einer Eingabe x wird das innere Produkt h^Tϕ(x) gebildet; wenn sich dieses bei oder über einem Schwellenwert T befindet, wird x als ein Mitglied der Zielklasse klassifiziert. Unter vielen Bedingungen ist der Trainingssatz nicht angemessen, um den Testsatz zu repräsentieren. Somit wird in der Praxis ein Schwellenwert T < 1 in den obigen Gleichungen verwendet, und es wird eine Entscheidungsregion verwendet, die breiter als die nur von den Trainingsdaten eingenommene ist.
Ein SVRDM Klassifikator ist ein SVRM, der auf den Fall multipler Zielklassen erweitert ist. Bei Betrachtung von K Zielklassen mit N_k Trainingsproben pro Klasse sind die Trainingsvektoren für die Klasse k{x_ki}. Zur Betrachtung von Klassifikation und Unterdrückung wird P_C als Klassifikationsrate definiert, welche den prozentualen Anteil der Zielklassenproben beschreibt, der in der korrekten Zielklasse klassifiziert wurde, und PR wird als Unterdrückungsrate definiert, welche den Anteil an Zielklassenproben darstellt, der als Nicht-Zielklasse unterdrückt wurde. P_E wird als Klassifikationsfehlerrate definiert, welche den Anteil an Zielklassenproben darstellt, der in den falschen Zielklassen klassifiziert wurde. Somit ist P_C + P_R + P_E = 1. P_FA bezeichnet den prozentualen Anteil der Nicht-Objektzielklassen, der fälschlicherweise in einer Zielklasse klassifiziert wurde (d. h. Fehlalarme). Das Ziel ist es, einen hohen P_C und einen niedrigen P_FA Wert zu erhalten. Der Klassifikatorenansatz wird zum Erhalt von K Funktionen h_k eingesetzt, von denen jede eine der K Klassen (k) von den anderen K – 1 Klassen unterschei det. Für eine gegebene Testeingabe x wird das innere Vektorprodukt (VIP) von ϕ(x) mit jedem h_k ermittelt. Wenn eines dieser Kern-VIPs μT entspricht, wird x der Klasse zugeordnet, welche den maximalen VIP Wert bildet; anderenfalls wird es unterdrückt. Es wird davon ausgegangen, dass sich keine Nicht-Zielklassenproben im Trainingssatz befinden. Der Einfachheit halber wird ein Zwei-Zielklassenproblem betrachtet. Für Proben der Klasse 1 x_1i beträgt der Ausgabewert der Evaluationsfunktion VIP h T / 1Φ(x_1i) ≥ T und h T / 2Φ(x_1i) ≤ p. Für Proben der Klasse 2 x_2j beträgt der Ausgabewert h T / 2Φ(x_2j) ≥ T und h T / 1Φ(x_2j) ≤ p. Der Parameter p bezeichnet den maximalen Wert der Evaluationsfunktion, der für die anderen Zielklassenproben akzeptiert werden kann. Die beiden Lösungsvektoren h₁ und h₂ genügen somit den Formeln Min|h1|2/2 hT1 Φ(x1i) ≥ 1 i = 1, ..., N1, hT1 Φ(x2j) ≤ p j = 1, ..., N2,und Min|h2|2/2 hT2 Φ(x2i) ≥ 1 i = 1, ..., N1, hT2 Φ(x1j) ≤ p j = 1, ..., N2,
Es muss beachtet werden, dass der Wert der VIP Kernfunktion für die zu unterscheidende Zielklasse in diesem Fall als p festgelegt wird. Der Unterschied in der Formulierung der SVRM und der SVRDM liegt in der dritten obigen Bedingung begründet; diese Bedingung stellt Unterscheidungsinformation zwischen Zielklassen unter Verwendung von p > –1 und p < –1 (die SVM Lösung ist p = –1) sowie Unterdrückung von Nichtzielen bereit. In Gegenwart von Abweichungen (Trainingsklassenfehlern) werden selbstverständlich Schlupfvariablen ξ_i sowohl in h₁ als auch h₂ eingeführt. Die endgültige Version von h₁ ist somit
und h₂ ist ähnlich.
Für ein K-Klassenproblem enthält eine SVRDM K Funktionen h_k ähnlich der h₁ im SVRM Fall. Jede erkennt eine der K Klassen (Trainingssatzproben x_ki) mit einem inneren Vektorprodukt μ1 und alle anderen Trainingssatzproben in den anderen k – 1 Klassen (Trainingssatzproben x_mj, bei mγk) mit einem inneren Vektorprodukt p. Bei einer Testeingabe x wird, wenn das Maximum aller transformierten inneren Vektorprodukte für alle der K Funktionen h_k μT beträgt, die Testprobe der Klasse zugeordnet, welche das maximale innere Vektorprodukt bildet; anderenfalls wird diese als Nichtobjekt unterdrückt.
Ein Bayes'sches Netzwerk (BN) ist ein probabilistisches graphisches Modell, bei dem die Knoten zufällige Variablen darstellen und die Kanten bedingte Unabhängigkeitsannahmen darstellen. Zusätzlich wird jedem Knoten eine bedingte Wahrscheinlichkeitsverteilung (CPD) zugewiesen. Ein BN ist ebenso ein gerichteter Graph, bei dem die Richtung einer Kante die deterministische Beziehung zwischen den Knoten bezeichnet. Die CPD zeigt dann die Wahrscheinlichkeit an, dass ein Kinderknoten all seine unterschiedlichen Werte für jede Kombination von Elternknoten annimmt. Bayes'sche Netzwerke erlauben die Bestimmung von probabilistischen Inferenzketten, einschließlich der Bestimmung von Ursächlichkeit und des Wegerklärens.
Gemäß einer Ausführungsform der Erfindung nimmt ein wirksamer Algorithmus zur Bildung von Bayes'schen Überzeugungsnetzwerken aus Datenbanken eine Datenbank und eine Attributenordnung (d. h. die ursächlichen Attribute für ein Attribut sollten in der Ordnung vorher erscheinen) als Eingabe und bildet ein Überzeugungsnetzwerk als Ausgabe. Ein Überzeugungsnetzwerk kann als Netzwerksystem von Informationskanälen betrachtet werden, wobei jeder Knoten ein Ventil darstellt, das entweder aktiv oder nicht aktiv ist und die Ventile durch rauschende Informationskanäle (Kanten) verbunden sind. Der Informationsfluss kann ein aktives, nicht aber ein inaktives Ventil passieren. Wenn alle Ventile (Knoten) auf einem nichtgerichteten Weg zwischen zwei Knoten aktiv sind, wird dieser Weg als geöffnet angesehen. Falls ein beliebiges Ventil des Weges inaktiv ist, wird der Weg als geschlossen angesehen. Wenn alle Wege zwischen zwei Knoten im Zustand eines Ventilsatzes (Knotensatzes) geschlossen sind, werden die zwei Knoten als durch den Knotensatz d-separiert angesehen. Der Zustand der Ventile kann durch Einführung eines Knotensatzes verändert werden. Die Menge des Informationsflusses zwischen zwei Knoten kann unter Verwendung von wechselseitiger Information ermittelt werden, wenn keine Knoten eingeführt werden, oder bedingter wechselseitiger Information, wenn einige weitere Knoten eingeführt werden.
In der Informationstheorie wird die wechselseitige Information zweier Knoten X_i, X_j definiert als
und die bedingte wechselseitige Information wird de finiert als
worin X_i, X_j zwei Knoten und C einen Knotensatz darstellen. Gemäß einer Ausführungsform der Erfindung wird bedingte wechselseitige Information als ein bedingter Unabhängigkeitstest verwendet, um die durchschnittliche Information zwischen zwei Knoten zu ermitteln, wenn die Zustände einiger Ventile durch den Bedingungssatz C verändert werden. Wenn I(X_i, X_j|C) kleiner als ein bestimmter Schwellenwert ε ist, werden X_i, X_j als durch den Bedingungssatz C d-separiert angesehen, und sie sind bedingt unabhängig. Dieser Algorithmus macht des Weiteren die folgenden Annahmen: (1) Die Datenbankattribute Weisen diskrete Werte auf und es gibt keine fehlenden Werte in allen Dokumenten; (2) Das Datenvolumen ist groß genug für verlässliche bedingte Unabhängigkeitstests; und (3) die Ordnung der Attribute ist vor der Netzwerkbildung zugänglich, d. h. die Elternknoten eines Knoten sollten in der Ordnung früher erscheinen.
Gemäß einer Ausführungsform der Erfindung weist dieser Algorithmus drei Phasen auf: Entwurf, Verdichtung und Ausdünnung. In der ersten Phase errechnet der Algorithmus wechselseitige Information jedes Knotenpaars als Maß für Übereinstimmung und bildet basierend auf dieser Information einen Entwurf. In der zweiten Phase fügt der Algorithmus Kanten hinzu, wenn die Knotenpaare nicht d-separiert werden können. Das Ergebnis der zweiten Phase ist eine Unabhängigkeitskarte des zu Grunde liegenden Abhängigkeitsmodells. In der dritten Phase wird jede Kante der Unabhängigkeitskarte unter Verwendung bedingter Unabhängigkeitstests untersucht und wird entfernt, wenn die zwei Knoten der Kante d-separiert werden können.
Gemäß einer Ausführungsform der Erfindung kann die Entwurfsphase wie folgt zusammengefasst werden.

1. Einführung eines Graphs G(V E), worin V = {alle Knoten des Datensatzes} und E = {}. Einführung von zwei leeren geordneten Sätzen S, R.
2. Berechnung der wechselseitigen Information I(v_i, v_j) für jedes Knotenpaar (v_i, v_j), worin v_i, v_j ∊ V. Knotenpaare, die eine wechselseitige Information aufweisen, die größer als ein bestimmter kleiner Wert ε ist, werden gemäß ihrer wechselseitigen Information von groß nach klein sortiert und in einen geordneten Satz S abgelegt.
3. Entfernung der beiden ersten Knotenpaare aus S. Zufügung der entsprechenden Kanten zu E (die Richtung der Kanten bei diesem Algorithmus wird durch die vorher zugängliche Knotenordnung bestimmt).
4. Entfernung des ersten verbleibenden Knotenpaars aus S. Wenn kein geöffneter Weg zwischen den beiden Knoten besteht (diese beiden Knoten sind bei einem leeren Satz d-separiert), wird die entsprechende Kante zu E hinzugefügt, anderenfalls wird das Knotenpaar dem Ende eines geordneten Satzes R hinzugefügt.
5. Schritt 4 wird wiederholt bis S leer ist.

Zur Veranschaulichung der Arbeitsweise dieses Algorithmus sei eine Datenbank mit zu Grunde liegendem Bayes'schen Netzwerk, wie in 4a veranschaulicht, und geordneten Knoten A, B, C, D, E betrachtet. Nach Schritt 2 kann die wechselseitige Information aller 10 Knotenpaare erhalten werden. Unter der Annahme von I(B, D)μI(C, E)μI(B, E)μI(A, B)μI(B, C)μI(C, D)μI(D, E)μI(A, D)μI(A, E)μI(A, C) und dass sämtliche wechselseitige Information größer als ε ist, kann ein Entwurfsgraph wie in 4b nach Schritt 5 gebildet werden. Es ist zu berücksichtigen, dass die Ordnung wechselseitiger Information zwischen den Knoten nicht zufällig ist. Zum Beispiel aus der Informationstheorie I(A, C) < Min(I(A, B), I(B, C)). Falls der zu Grunde liegende Graph undicht ist, kann in Phase I ein Graph gebildet werden, der dem ursprünglichen sehr nahe kommt. Wenn es sich bei dem zu Grunde liegenden Graph um einen einfach verbundenen Graph handelt (ein Graph ohne einen ungerichteten Zyklus), garantiert Phase I dafür, dass das gebildete Netzwerk dem ursprünglichen identisch ist. In diesem Beispiel wurde (B, E) fälschlicherweise hinzugefügt und (D, E) fehlt auf Grund des vorhandenen geöffneten Weges (D-B-E) und (D-B-C-E). Der in dieser Phase gebildete Entwurfsgraph bildet die Grundlage für die nächste Phase.
Gemäß einer Ausführungsform der Erfindung kann die Verdichtungsphase wie folgt zusammengefasst werden.

6. Entfernung des ersten Knotenpaars aus R.
7. Auffindung eines Blocksatzes, der jeden geöffneten Weg zwischen diesen beiden Knoten durch eine minimale Anzahl von Knoten blockiert. Ausführung eines bedingten Unabhängigkeitstests. Falls die beiden Knoten trotz des Blocksatzes nach abhängig voneinander sind, Verbindung dieser durch eine Kante.
8. Wiederholung von Schritt 6 bis R leer ist.

Der Graph nach Phase II wird in 4c gezeigt. Wenn dieser Algorithmus das Knotenpaar (D, E) in Schritt 7 untersucht, wird herausgefunden, dass (B) den minimalen Satz darstellt, der alle geöffneten Wege zwischen D und E blockiert. Da der bedingte Unabhängigkeitstest enthüllen kann, dass D und E unter (B) noch immer abhängig sind, wird die Kante (D, E) hinzugefügt. Die Kante (A, C) wird nicht hinzugefügt, da der bedingte Unabhängigkeitstest enthüllt, dass A und C unter dem gegebenen Blocksatz (B) unabhängig sind. Die Kanten (A, D), (C, D) und (A, E) werden aus demselben Grund nicht hinzugefügt. In dieser Phase untersucht der Algorithmus alle Knotenpaare, die eine wechselseitige Information größer als ε aufweisen, eine Kante wird nicht hinzugefügt, wenn beide Knoten unter einem gegebenen Blocksatz voneinander unabhängig sind. Es ist möglich, dass einige Kanten in dieser Phase fälschlicherweise hinzugefügt werden.
Gemäß einer Ausführungsform der Erfindung kann die Ausdünnungsphase wie folgt zusammengefasst werden.

9. Jede Kante in E, für die geöffnete Wege zwischen den beiden die Kante begrenzenden Knoten existieren, wird zeitweilig aus E entfernt und es wird ein Blocksatz gefunden, der jeden geöffneten Weg zwischen diesen beiden Knoten durch einen Satz einer minimalen Anzahl von Knoten blockiert. Ausführung eines bedingten Unabhängigkeitstests auf den Zustand des Blocksatzes. Wenn die beiden Knoten abhängig sind, wird die Kante wieder zu E hinzugefügt; anderenfalls wird die Kante dauerhaft entfernt. Der ”ausgedünnte” Graph wird in 4d dargestellt, der mit dem ursprünglichen Graph identisch ist. Die Kante (B, E) wurde entfernt, da B und E unter (C, D) unabhängig sind.

Gemäß einer Ausführungsform der Erfindung stellt sich ein Algorithmus zur Auffindung eines Blocksatzes, der jeden geöffneten Weg zwischen den beiden Knoten durch einen Satz einer minimalen Anzahl von Knoten blockiert, wie folgt dar. Da dieser Vorgang ein gieriges Suchverfahren verwendet, wird das Auffinden eines minimalen Blocksatzes nicht garantiert.
Vorgang finde_Block_Satz (derzeitiger Graph, Knoten1, Knoten2) starten
finde alle nichtgerichteten Wege zwischen Knoten1 und Knoten2;
speichere die geöffneten Wege im geöffneten_Weg_Satz, speichere die geschlossenen Wege im geschlossenen_Weg_Satz;
führe aus
während geöffnete Wege vorhanden sind, die nur einen, Knoten aufweisen führe aus
sichere die Knoten eines jeden solchen Weges im Blocksatz;
entferne alle durch diese Knoten blockierten Wege von dem geöffneten_Weg_Satz und dem geschlossenen_Weg_Satz;
aus dem geschlossenen_Weg_Satz finde Wege, die durch die Knoten im Blocksatz geöffnet wurden und schiebe diese zum geöffneten_Block_Satz, verkürze solche Wege durch Entfernung der Knoten, die sich auch in dem Blocksatz befinden;
beende während
wenn geöffnete Wege vorhanden sind führe aus
finde einen Knoten, der eine maximale Anzahl der übrigen Wege blockieren kann und überführe diesen in den Blocksatz;
entferne alle durch diesen Knoten blockierten Wege von dem geöffneten_Weg_Satz und dem geschlossenen_Weg_Satz;
aus dem geschlossenen_Weg_Satz finde Wege, die durch diesen Knoten geöffnet wurden und schiebe diese zum geöffneten_Weg_Satz, verkürze solche Wege durch Entfernung der Knoten, die sich auch in dem Blocksatz befinden;
beende wenn
bis keine geöffneten Wege mehr vorhanden sind
beende den Vorgang.
Gemäß einer Ausführungsform der Erfindung wird in 1 ein schematisches Diagramm der Kombination der beiden Klassifikatoren, einer Support-Vektor Repräsentations- und Unterscheidungsmaschine (SVRDM) und einem Bayes'schen Netzwerk (BN), veranschaulicht. Die biologischen Daten 10 werden in beide Klassifikatoren 11, 12 parallel eingegeben. Ein Kombinator 14 verwendet die Zwischenergebnisse 13 beider Klassifikatoren gleichzeitig. Das Ergebnis 15 ist eine gemischte Entscheidung, die selbst eine Klassifikation darstellt. Die Kombination von Klassifikatoren erlaubt die Verbindung auf verschiedene Merkmalssätze trainierter Klassifikatoren, verschiedener Trainingssätze, unterschiedlicher Klassifikationsverfahren oder verschiedener Trainingsrunden zur Verbesserung der allgemeinen Klassifikationsgenauigkeit.
Ein einzelner Klassifikator weist für gewöhnlich eine besondere Ungewissheit in seiner Entscheidung auf, welche durch eine Wahrscheinlichkeitsdichtefunktion für jede Klasse beschrieben werden kann. 2 veranschaulicht die Entscheidungsungewissheit für zwei beispielhafte Wahrscheinlichkeitsverteilungsfunktionen (PDFs). Der Graph 20 zeigt die PDFs aufgetragen als Funktion des Ähnlichkeitsmaßes. Die PDfs eines Klassifikators für zwei verschiedene Klassen werden veranschaulicht und werden als Glockenform angenommen. Eine PDF für Klasse A wird durch Kurve 21 wiedergegeben, während eine PDF für Klasse B durch Kurve 22 dargestellt wird. Wie aus der Figur ersichtlich wird, können die beiden Glockenkurven überlappen und der Bereich der Überlappung stellt ein Maß für die Qualität des Klassifikationsalgorithmus dar. Klassifikationsergebnisse, die zwischen den beiden Glockenkurven liegen wiesen eine hohe Ungewissheit auf, wohingegen Klassifikationsergebnisse, die von der Mitte weit entfernt liegen, eine geringe Ungewissheit aufwiesen.
Gemäß einer Ausführungsform der Erfindung verwendet ein Klassifikator eine Kombination von zwei Klassifikatoren, die sich nicht in starker Weise entsprechen, wobei, wenn ein gegebenes Beispiel durch einen Klassifikator mit hoher Ungewissheit klassifiziert wird, der andere eine Klassifikation geringer Ungewissheit liefern kann und umgekehrt. In dieser Situation kann eine kombinierte Klassifikation von geringerer Ungewissheit erzeugt werden. 3 veranschaulicht eine Kombination zweier Klassifikationsverteilungen für zwei verschiedene Klassen. Bei dem Graph 30 ist das Ähnlichkeitsmaß des ersten Klassifikators auf der horizontalen Achse aufgetragen, während das Ähnlichkeitsmaß des zweiten Klassifikators auf der vertikalen Achse aufgetragen ist, wobei die Formen der entsprechenden PDFs entlang der entsprechenden Achse skizziert sind. Die Bereiche des Ahnlichkeitsraums, bei dem die entsprechenden PDFs ein Maximum erreichen, werden durch die Ellipsen 31, 32 angedeutet. Ellipse 31 deutet jenen Bereich an, bei dem die PDF für Klasse A am Maximum ist, während Ellipse 32 den Bereich anzeigt, bei dem die PDF für Klasse B maximal ist. Die Rohdaten können für beide Klassifikatoren identisch sein oder die Daten können sich unterscheiden, jedoch dieselben Klassen beschreiben.
Durch Kombination der Zwischenergebnisse beider Klassifikatoren, sollte sich der Überlappungsbereich der kombinierten PDFs verringern, um eine verbesserte Klassifikationsleistung bereitzustellen, selbst wenn die Überlappung der Klassen PDFs für jeden Klassifikator individuell groß ist. Es bleibt festzustellen, daß gemäß einer Ausführungsform der Erfindung der Kombinator selbst ein Klassifikator ist, der die Klassifikationsergebnisse des BN und der SVRDM mit deren Ungewissheiten als Eingabe erhält. Der Kombinator teilt daraufhin die Entscheidungsbereiche in zwei Teile, die den zwei verschiedenen Klassen entsprechen.
Die Art des Klassifikators, der in den Kombinator einbezogen ist, hängt von der Verteilung der Daten des Merkmalsvektors als auch der Verteilung der Klassifikationsergebnisse des BN und der SVRDM ab. Manche Kombinatoren sind adaptiv, indem der Kombinator die Entscheidungen der einzelnen Klassifikatoren in Abhängigkeit von den Eingabemustern gewichtet. Adaptive Kombinationsschemata können auch die detaillierten Fehlereigenschaften und die Kompetenz der einzelnen Klassifikatoren ausnutzen. Zusätzlich erwarten verschiedene Kombinatoren unterschiedliche Ausgabearten von den einzelnen Klassifikatoren. Diese Erwartungen können in drei Gruppen eingeteilt werden: (1) Messung (oder Konfidenz); (2) Rang und (3) Auszug. Auf dem Niveau der Konfidenz gibt der einzelne Klassifikator einen numerischen Wert für jede Klasse aus, der die Wahrscheinlichkeit anzeigt, dass das gegebene Eingabemuster zu dieser Klasse gehört. Auf dem Niveau des Ranges weist der Klassifikator jeder Klasse einen Rang zu, wobei der höchste Rang der ersten Wahl entspricht. Auf dem Niveau des Auszugs gibt der Klassifikator nur ein einmaliges Klassenetikett aus (oder mehrere Klassenetiketten, wenn die Klassen gleich wahrscheinlich sind). Das Zuverlässigkeitsniveau vermittelt die meiste Information, während das Zusammenfassungsniveau die geringste Information über die erhaltene Entscheidung vermittelt.
Die SVRDM wurde bei Schiffs- und Gesichtsdatenbanken angewendet und hat sich gegenüber der SVM hinsichtlich Unterdrückung und Klassifikation als überlegen erwiesen. Die empirischen Ergebnisse für einen Satz von Eckdatensätzen zeigen, dass Bayes'sche Netzwerke ausgezeichnete Klassifikatoren sind.
Kombinationsklassifikatoren finden gemäß einer Ausführungsform der Erfindung Anwendung zur kombinierten Analyse von Protein- und Genexpressionsdaten bei gesunden Personen und Patienten mit bestimmten Krankheiten, wie etwa Lungenkrebs. Es können Modelle für jeden Datensatz und für jeden Klassifikator gebildet werden und die Kombination ergibt daraufhin ein kombiniertes Modell, welches eine Zuordnung genotypischer Information zu phänotypischer Information erlaubt.
Es versteht sich, dass die vorliegende Erfindung für zahlreiche Arten von Hardware, Software, Firmware, spezielle Zweckverfahren oder deren Kombinationen eingesetzt werden kann. In einer Ausführungsform kann die vorliegende Erfindung in Software als Anwendungsprogramm, das durch eine computerlesbare Programmspeichervorrichtung greifbar verkörpert wird, eingesetzt werden. Das Anwendungsprogramm kann auf eine Maschine von jedweder geeigneter Bauweise geladen und durch diese ausgeführt werden.
5 stellt ein Blockdiagramm eines beispielhaften Computersystems zum Einsatz einer Kombination von BN und SVM gemäß einer Ausführungsform der Erfindung dar. Mit Bezugnahme auf 5 kann ein Computersystem 51 zum Einsatz der vorliegenden Erfindung unter anderem eine zentrale Prozessoreinheit (CPU) 52, einen Speicher 53 und eine Eingabe/Ausgabe (I/O) Schnittstelle 54 umfassen. Das Computersystem 51 ist im Allgemeinen über die I/O Schnittstelle 54 mit einer Anzeige 55 und verschiedenen Eingabevorrichtungen 56 verbunden, wie etwa einer Maus und einer Tastatur. Die Versorgungsschaltungen können Schaltungen wie etwa Cache, Stromversorgungen, Taktschaltungen und einen Kommunikationsbus enthalten. Der Speicher 53 kann einen Direktzugriffsspeicher (RAM), Festwertspeicher (ROM), Plattenlaufwerk, Magnetbandlaufwerk, usw. oder deren Kombinationen enthalten. Die vorliegende Erfindung kann als Routine 57, die in einem Speicher 53 gespeichert ist und durch eine CPU 52 ausgeführt wird, eingesetzt werden, um das Signal aus der Signalquelle 58 zu verarbeiten. Das Computersystem 51 ist an sich ein Allzweckcomputersystem, welches zu einem spezifischen zweckgebundenen Computersystem wird, wenn es die Routine 57 der vorliegenden Erfindung ausführt.
Das Computersystem 51 enthält außerdem ein Betriebssystem und einen Mikroanweisungscode. Die zahlreichen hierin beschriebenen Verfahren und Funktionen können entweder Teil des Mikroanweisungscodes oder Teil des Anwendungsprogramms (oder Kombinationen davon) sein, das durch das Betriebssystem ausgeführt wird. Zusätzlich können zahlreiche weitere periphere Vorrichtungen an die Computerplattform angeschlossen werden, wie etwa eine zusätzliche Datenspeichervorrichtung und eine Druckvorrichtung.
Es versteht sich weiterhin, dass auf Grund der Tatsache, dass einige der Systembestandteile und Verfahrensschritte, die in den beiliegenden Zeichnungen dargestellt sind, in der Software eingesetzt werden können, sich die eigentlichen Verbindungen zwischen den Systembestandteilen (oder den Verfahrensschritten) in Abhängigkeit von der Art und Weise, in der die vorliegende Erfindung programmiert wird, unterscheiden können. Gemäß der hiermit bereitgestellten Lehre der vorliegenden Erfindung, ist der Fachmann in der Lage diese und ähnliche Einsatzmöglichkeiten oder Gestaltungen der vorliegenden Erfindung in Betracht zu ziehen.
Die oben offenbarten besonderen Ausführungsformen dienen ausschließlich der Veranschaulichung, da die Erfindung auf unterschiedliche aber entsprechende Art und Weise verändert und ausgeführt werden kann, die dem von den hierin beschriebenen Lehren profitierenden Fachmann offenbar wird. Weiterhin sind, anders als in den folgenden Ansprüchen beschriebenen, keinerlei Einschränkungen bezüglich der hierin gezeigten Konstruktions- oder Entwurfdetails beabsichtigt. Es ist daher offensichtlich, dass die oben offenbarten besonderen Ausführungsformen abgewandelt oder verändert werden können und dass solche Variationen alle als im Umfang und Geiste der Erfindung einbezogen angesehen werden. Demgemäß wird der beanspruchte Schutzumfang in den folgenden Ansprüchen dargelegt.

Claims

Verfahren zur Analyse biologischer Daten, welches die Schritte umfasst: Klassifikation eines ersten biologischen Datensatzes in einem ersten Klassifikator, wobei der erste Klassifikator eine Support-Vektor Repräsentations- und Unterscheidungsmaschine ist, wobei die Maschine die Daten in mehreren Klassen unterscheidet unter Verwendung mehrerer Unterscheidungsfunktionen, wobei ein inneres Produkt jeder Unterscheidungsfunktion mit einer Kernfunktion anhand der Daten ausgewertet wird, wobei die Norm jeder Unterscheidung minimiert wird und wobei er Wert jedes inneren Produktes mit einem Schwellenwert verglichen wird, um festzustellen, ob ein biologischer Datenpunkt zu einer mit der Unterscheidungsfunktion verknüpften Klasse gehört; Klassifikation eines zweiten biologischen Datensatzes in einem zweiten Klassifikator, wobei der zweite Klassifikator ein Bayes'sches Netzwerk ist; und wobei das Bayes'sche Netzwerk die Berechnung wechselseitiger Information von Datenpaaren des Datensatzes, die Bildung eines Netzwerkentwurfs, der auf der wechselseitigen Information beruht, wobei Datenpunkte des Datensatzes Knoten des Netzwerks umfassen und die ein Paar der Datenknoten verbindenden Kanten wechselseitige Information der Knoten repräsentieren, die Verdichtung des Netzwerks durch Hinzufügen von Kanten, wenn Paare von Datenknoten nicht d-separiert werden können sowie die Ausdünnung des Netzwerks durch Analyse jeder Kante des Netzwerkentwurfs durch einen bedingten Unabhängigkeitstest und das Entfernen der Kante, wenn die Ent sprechenden Datenknoten d-separiert werden können, umfasst. Analyse der kombinierten Ergebnisse des ersten Klassifikators und des zweiten Klassifikators als Funktion des Ähnlichkeitsmaßes des ersten Klassifikators und des Ähnlichkeitsmaßes des zweiten Klassifikators.
Verfahren nach Anspruch 1, wobei der erste biologische Datensatz und der zweite biologische Datensatz identisch sind.
Verfahren nach Anspruch 1, wobei der erste biologische Datensatz ein Satz von Mikroreihendaten ist.
Verfahren nach Anspruch 1, wobei der zweite biologische Datensatz ein Satz von Proteinmassenspektren ist.
Verfahren nach Anspruch 1, wobei die Ergebnisse des ersten Klassifikators und des zweiten Klassifikators parallel kombiniert werden.
Verfahren nach Anspruch 1, wobei der Schritt der Kombination das Gewichten der Ergebnisse des ersten und zweiten Klassifikators auf Grundlage der Eingabemuster umfasst.
Computerlesbar Programmspeichervorrichtung, die ein Programm von Anweisungen greifbar verkörpert, die von dem Computer ausgeführt werden können, um ein Verfahren zur Analyse biologischer Daten nach einem der Ansprüche 1 bis 6 durchzuführen.