-
Querverweis
auf verwandte US-Anmeldungen
-
Diese
Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nummer 60/644,154 "An Automatic Molecular
Diagnosis Approach Based on Boosting Classification and application
in ALS disease",
von Wang, et al., eingereicht am 14. Januar 2005, auf deren Inhalte
hierin vollständig
Bezug genommen wird.
-
Technisches
Gebiet
-
Diese
Erfindung ist auf die automatische Diagnose von ALS (Amyotrophe
Lateralsklerose) gerichtet, die auf einer Boosting-Klassifikation von
proteomischen Daten basiert.
-
Erläuterung
des Standes der Technik
-
Da
das Humangenom-Projekt derzeit beendet wird, besteht für die Bioinformatik
ein erhöhter
Bedarf, die enorme Menge an Genom-Informationen zu verwenden, um
Rechenverfahren zu entwickeln, die biomedizinische und klinische
Probleme lösen.
Darüber
hinaus stellt die moderne Biotechnologie verschiedene Hilfsmittel
der "High-Throughout-Technologien" für einen
Bioinformatiker bereit, wie z. B. Mikroarray, SAGE (Serial Analysis
of Gene Expression) und die Proteomik (engl. Proteomiks), um die
komplexe Natur von menschlichen Krankheiten zu erforschen.
-
Das
Protein-Profiling wird in Geweben und Flüssigkeiten bei Krankheits-
und pathologischen Kontrollen häufig
zur molekularbasierten Diagnose verwendet. Proteomik-Technologien
werden eine zunehmend wichtige Rolle bei der molekularen Diagnose,
der Wirkstoff-Entdeckung (Drug Discovery) und der medizi nischen
Praxis in der Post-Genom-Ära,
dem ersten Jahrzehnt des 21. Jahrhunderts spielen. Die Proteomik
sorgt für
ein besseres Verständnis
von Pathomechanismen menschlicher Krankheiten. Die Analyse von verschiedenen
Ebenen der Genexpression in gesunden und krankhaften Geweben durch
Proteomik-Ansätze ist
so wichtig wie die Erfassung von Mutationen und Polymorphismen auf
der Genom-Ebene und kann bei der Gestaltung einer vernünftigen
Therapie wertvoller sein. Das Protein-Profiling in Körpergeweben
und -flüssig-keiten
in gesundem sowie in krankem Zustand ist die Basis der Verwendung
von Proteomik-Technologien zur molekularen Diagnostik. Die Proteomik
wird eine wichtige Rolle in der Medizin der Zukunft spielen, die
personalisiert sein wird und die Diagnostik mit der Therapeutik
verbindet.
-
Die
amyotrophe Lateralsklerose (ALS) ist eine progressive neurodegenerative
Krankheit, die Nervenzellen im Gehirn und im Rückenmark schädigt. Motorische
Nervenzellen reichen vom Gehirn zum Rückenmark und vom Rückenmark
zu den Muskeln über
den gesamten Körper.
Die progressive Degeneration der motorischen Nervenzellen bei ALS
führt letztlich
zu ihrem Tod. Wenn die motorischen Nervenzellen sterben, ist die Eigenschaft
des Gehirns verloren, eine Muskelbewegung einzuleiten und zu steuern.
Indem die spontane Muskelbetätigung
in fortschreitendem Maße
beeinträchtigt
ist, können
Patienten in späteren
Stadien der Krankheit vollständig
gelähmt
werden.
-
Zusammenfassung
der Erfindung
-
Beispielhafte
Ausführungsformen
der Erfindung, wie sie hierin beschrieben ist, umfassen im Allgemeinen
Verfahren und Systeme für
eine auf Boosting basierende Klassifikation für die ALS-Diagnose, basierend auf
Protein-Profilen, die aus Massenspektrometriedaten erhalten wurden.
AdaBoost ist eines der besten Klassifikationsverfahren, die beim
statistischen Lernen bekannt sind, um Klassifikatoren zu trainieren,
die ALS-Krankheit
aus den normalen Kontrollen vorherzusagen. AdaBoost ist ein allgemeines
Verfahren zur Verbesserung der Klassifikationsgenauigkeit eines
beliebigen Klassifikationsverfahrens. Nach jeder Basislerniteration
werden fehlklassifizierten Trainingsproben in adaptiver Art und
Weise hohe Gewichtungen bei der nächsten Iteration gegeben. Dies
zwingt den nächsten
Basislerner dazu, sich auf die fehlklassifizierten Lerndaten zu
fokussieren. AdaBoost wird verwendet, um die Entscheidungsregeln
zu lernen, die einen alternierenden Entscheidungsbaum bilden. Dieser
kombinatorische Algorithmus, hierin als ADTboost bezeichnet, erzeugt Klassifikationsregeln,
die einfach und leicht zu deuten sind. Er identifiziert oft die
charakteristischen Merkmale wie z. B. Spitzenwerte bei Massenspektrometriedaten
oder Gene bei Mikroarray-Daten, die als Biomarker für diagnostische
Zwecke verwendet werden können.
Darüber
hinaus kann ADTboost ein Maß für die Vorhersage-Konfidenz
liefern. Ein Verfahren gemäß einer
Ausführungsform
der Erfindung wird auf SELDI MS (oberflächenaktivierte Laserdesorptions-/-ionisations-Massenspektrometrie;
Service enhanced Laser desorption ionization mass spectrometer)
Daten von ALS-Patienten und neurologische Kontrollen angewendet,
um ein Molekulardiagnoseverfahren bereitzustellen, das die ALS-Krankheit
von neurologischen Kontrollen unterscheiden kann. Die sich ergebenden
Regeln können
in einem einfachen und geradlinigen alternierenden Entscheidungsbaumformat
oder einem Konditionalregelformat ausgedrückt werden, und identifizieren
die am meisten charakteristischen Spitzenwerte bei SELDI-Daten,
die als Biomarker für
die Diagnose verwendet werden können.
-
Ein
Diagnoseverfahren gemäß einer
Ausführungsform
der Erfindung kann die falschen positiven Raten reduzieren, die
Vorhersagegenauigkeit verbessern, ein Maß für die Konfidenz bei der Klassifikation
bereitstellen und ist gegenüber
Lernfehlern robust. Ein auf einer Boosting-Klassifikation basierendes
Diagnoseverfahren ist ein nützliches
und wirksames Werkzeug bei der Diagnose von neurologischen Krankheiten
wie ALS. Es kann durch Mikroarray- und Proteomik-Datenanalyse auf
Mo lekulardiagnose angewendet werden und kann in einer Post-Genom-Ära auf personalisierte
Medizin angewendet werden.
-
Gemäß eines
Aspekt der Erfindung wird ein Verfahren zum Diagnostizieren von
amyotropher Lateralsklerose bereitgestellt einschließlich des
Bereitstellens von oberflächenaktivierten
Laserdesorptions-/-ionisations-Massenspektrometrie-Daten (SELDI-MS;
service-enhanced laser desorption/ionisation mass spectrometry data)
einer Vielzahl von Proteinen, wobei die Daten von einem Patienten
ermittelt werden und eine Vielzahl von Spitzenwerten aufweisen,
und des Analysierens der Spitzenwerte mit einem alternierenden Entscheidungsbaum,
der einen Satz von Tests der Datenspitzenwerte und zugehörige Vorhersagewerte
aufweist, wobei die Daten eine Senke vorhersagen, wenn eine Summe
von Vorhersagewerten des Baumes größer als 1.0 ist.
-
Gemäß eines
weiteren Aspekts der Erfindung werden die SELDI-MS Spitzenwerte aus einer univarianten
Analyse von SELDI-MS Daten identifiziert, die von einer Vielzahl
von Patienten ermittelt wurden, einschließlich Patienten, die mit amyotropher
Lateralsklerose diagnostiziert wurden, und Kontroll-Patienten.
-
Gemäß eines
weiteren Aspekts der Erfindung weist die univariante Analyse die
Durchführung
eines Standard t-Tests und eine Bonferroni-Korrektur auf.
-
Gemäß eines
weiteren Aspekts der Erfindung wird der alternierende Entscheidungsbaum
durch Anwenden eines Boosting-Algorithmus
auf die SELDI-MS Spitzenwerte trainiert, die aus der Vielzahl von
Patienten identifiziert wurden.
-
Gemäß eines
weiteren Aspekts der Erfindung umfasst der Boosting-Algorithmus
das Bereitstellen eines Satzes von Trainingsbeispielen (x1, y2), ..., (xm, ym), wobei xi ∈ Rd und yi ∈ {+1,–1}, das
Bereitstellen eines Satzes von Basisbedingun gen, das Initialisieren
eines Satzes von Vorbedingungen auf den Wert WAHR, das Initialisieren
eines Satzes von Gewichtungen für
die Trainingsbeispielen auf denselben Initialwert, das Initialisieren
des alternierenden Entscheidungsbaums auf eine einzige Regel, wobei
eine Vorbedingung und eine Basisbedingung beide auf WAHR gesetzt
werden, das Hinzufügen
einer neuen Regel zu dem alternierenden Entscheidungsbaum, wobei
die neue Regel eine Basisbedingung und eine Vorbedingung aufweist,
die eine Vorhersagefunktion minimieren, das Aktualisieren des Vorhersagesatzes
mit einer Konjunktion der Basisbedingung und einer Negation der
Basisbedingung, und das Aktualisieren des Satzes von Gewichtungen
basierend auf den Vorhersagewerten der neuen Regeln.
-
Gemäß eines
weiteren Aspekts der Erfindung wird die Vorhersagefunktion Z
t(c
1,c
2),
wobei c
1 eine Vorbedingung und c
2 eine Basisbedingung darstellt, definiert
durch
wobei W
+(c),
W
–(c)
die Gesamtgewichtung der Lernsatzbeispiele bezeichnen, die c genügen.
-
Gemäß eines
weiteren Aspekts der Erfindung sind die Vorhersagewerte der neuen
Regel
wobei c
1 eine
Vorbedingung und c
2 eine Basisbedingung
darstellen, und wobei W
+(c), W
–(c)
die Gesamtgewichtung der Trainingssatzbeispiele bezeichnen, die
c genügen.
-
Gemäß eines
weiteren Aspekts der Erfindung weist das Aktualisieren des Satzes
von Gewichtungen das Multiplizieren jeder Gewichtung mit exp(–yir(xi)) auf, wobei
r(xi) einen Wert darstellt, der mit dem
Trainingsbeispiel xi durch die neue Regel
r verbunden ist, und wobei yi ∈ {+1,–1} ist.
-
Gemäß eines
weiteren Aspekts der Erfindung werden die Proteine aus der Zerebrospinalflüssigkeit
eines Patienten erhalten.
-
Gemäß eines
weiteren Aspekts der Erfindung wurde die Vielzahl von Proteinen
auf einem schwachen kationischen Austausch-Chip (exchanger chip)
absorbiert.
-
Gemäß eines
weiteren Aspekts der Erfindung wird eine Programmspeichervorrichtung
bereitgestellt, die von einem Computer lesbar ist, und das konkret
ein Programm von Anweisungen verkörpert, die von dem Computer
ausführbar
sind, um die Verfahrensschritte zum Diagnostizieren von amyotropher
Lateralsklerose durchzuführen.
-
Kurze Beschreibung
der Figuren
-
1 stellt
Pseudocode eines beispielhaften AdaBoost-Algorithmus gemäß einer
Ausführungsform der
Erfindung dar.
-
2(a)-(c) stellen mehrere baumbasierte Klassifikatoren
gemäß einer
Ausführungsform
der Erfindung dar.
-
3 stellt
Pseudocode eines beispielhaften alternierenden Boosting-Entscheidungsbaum-Algorithmus gemäß einer
Ausführungsform
der Erfindung dar.
-
4 ist
eine Ergebnistabelle einer univarianten Analyse von WCX SELDI 30
Spitzenwerten zwischen 36 ALS-Patienten und 31 neurologischen Kontrollen
gemäß einer
Ausführungsform
der Erfindung.
-
5(a)-(b) stellen beispielhafte Klassifikatoren
in einem alternierenden Baumformat von einem 5-rundigen AdaBoost-Training
und die entsprechenden Re geln gemäß einer Ausführungsform
der Erfindung dar.
-
6 ist
eine Ereignistabelle einer WCX SELDI-Diagnose mittels AdaBoost gemäß einer
Ausführungsform
der Erfindung.
-
7 ist
eine Darstellung von ROC-Kurven basierend auf einer AdaBoost Klassifikation
von der ALS vs. Peskind-Kontrolle, die durch das WCX-Verfahren erhalten
wurde, gemäß einer
Ausführungsform
der Erfindung.
-
8 ist
ein Blockschaltbild eines beispielhaften Computersystems zur Implementierung
eines auf Boosting basierenden Verfahrens zum Diagnostizieren von
ALS gemäß einer
Ausführungsform
der Erfindung.
-
9 ist ein Flussdiagramm eines beispielhaften
auf Boosting basierenden Verfahrens zum Diagnostizieren von ALS
gemäß einer
Ausführungsform
der Erfindung.
-
Detaillierte
Beschreibung der bevorzugten Ausführungsformen
-
Die
wie hierin beschriebenen beispielhaften Ausführungsformen der Erfindung
umfassen im Allgemeinen Systeme und Verfahren für ein neues diagnostisches
Verfahren, das auf Boosting basiert, um die Klassifikationsgenauigkeit
von ALS Krankheitsdaten zu verbessern, die aus verschiedenen SELDI
MS (oberflächenaktivierte
Laserdesorptions-/-ionisations-Massenspektrometrie;
surface enhanced laser desorption ionization mass spectrometer)
experimentellen Verfahren erhalten wurden. Ein Verfahren gemäß einer
Ausführungsform der
Erfindung erzeugt Klassifikationsregeln, die einfach und leicht
zu interpretieren sind, identifiziert die am meisten charakte ristischen
Merkmale, die als Biomarker für
diagnostische Zwecke verwendet werden können und stellt ein Maß für die Vorhersage-Konfidenz
bereit. Die Kreuzvalidierung und ROC Analyseergebnisse zeigten an,
dass eine gute Vorhersageleistung basierend auf SELDI Ergebnissen
und das WCX-Verfahren erhalten wurde, obwohl die SAX2 und IMAC SELDI
Verfahren nicht ausreichend charakteristische Informationen für ALS-Patienten
bereitstellten.
-
Boosting
ist ein allgemeines Verfahren zum Verbessern der Genauigkeit eines
beliebigen gegebenen Lernalgorithmus. AdaBoost hat viele praktische
Schwierigkeiten von früheren
Boosting-Verfahren gelöst.
AdaBoost ist ein Boosting-Algorithmus
dadurch, dass er wirkungsvoll einen schwachen Lernalgorithmus, der
immer eine Hypothese mit einem schwachen Rand für eine beliebige Verteilung
erzeugen kann, in einen starken Lernalgorithmus umwandeln kann,
der eine Hypothese mit einer beliebig niedrigen Fehlerrate bei gegebenen ausreichenden
Daten erzeugen kann. Nach jeder Basislerniteration werden fehlklassifizierten
Trainingsbeispielen adaptiv hohe Gewichtungen bei der nächsten Iteration
gegeben. Dies zwingt den nächsten
Basislerner dazu, sich auf die fehlklassifizierten Trainingsdaten
zu fokussieren. Gemäß einer
Ausführungsform
der Erfindung wird AdaBoost dazu verwendet, um Entscheidungsregeln
zu lernen, die einen alternierenden Entscheidungsbaum aufweisen.
Dieser kombinatorische Algorithmus erzeugt Klassifikationsregeln,
die am meisten charakteristische Merkmale bereitstellen wie z. B.
Spitzenwerte bei Massenspektrometriedaten, die als Biomarker für diagnostische
Zwecke verwendet werden können.
AdaBoost kann auch ein Maß für die Vorhersage-Konfidenz
bereitstellen.
-
Pseudocode
für AdaBoost
ist in 1 dargestellt. Unter Bezugnahme auf die Figur
nimmt der Algorithmus bei Schritt 1.1 als Eingabe einen
Trainingssatz (x1, y1),
..., (xm, ym), wobei
jedes xi zu einem bestimmten Domänen- oder
Instanzenraum gehört,
und jede Bezeichnung yi sich in einem Bezeichnungssatz Y
befindet. Für
Darstellungszwecke kann es ohne Einschränkung angenommen werden, dass
Y = {–1,+1},
obwohl Erweiterungen des Mehrklassen-Falles auch offenbart werden.
Eine Hauptidee des Algorithmus ist es, eine Verteilung oder einen
Satz von Gewichtungen über
den Trainingssatz zu halten. Die Gewichtung dieser Verteilung auf
das Trainingsbeispiel i in der Runde t wird mit Wt(i)
bezeichnet. Anfangs werden bei Schritt 1.2 alle Gewichtungen
gleich gesetzt. AdaBoost ruft anschließend einen gegebenen schwachen
oder Basislern-Algorithmus wiederholt in einer Reihe von Runden
t = 1, ..., T in den Schritten 1.2 und 1.4 auf. In jeder
Runde werden die Gewichtungen der falsch klassifizierten Beispiele
erhöht,
so dass der schwache Lerner gezwungen wird, sich auf die schwierigen
Beispiele in dem Trainingssatz zu fokussieren. Schließlich werden
alle schwachen Hypothesen in eine einzelne starke Hypothese unter
Verwendung eines gewichteten Mehrheitswahlschemas kombiniert.
-
Es
ist die Aufgabe des schwachen Lerners, bei Schritt
1.5 eine
schwache Hypothese h
t : X → {–1,+1} zu
finden, die für
die Verteilung W
t geeignet ist. Bei Schritt
1.6 wird
die Güte
einer schwachen Hypothese durch ihren Fehler et gemessen:
-
Man
bemerke, dass der Fehler bezüglich
der Verteilung Wt gemessen wird, auf der
der schwache Lerner trainiert wurde. In der Praxis kann der schwache
Lerner ein beliebiger Algorithmus sein, der die Gewichtungen alt
auf den Trainingsbeispielen verwenden kann. Alternativ kann, wenn
dies nicht möglich
ist, eine Untermenge der Trainingsbeispiele gemäß Wt probiert
werden, und diese (ungewichteten) erneut probierten Beispiele können verwendet
werden, um den schwachen Lerner zu trainieren.
-
Sobald
die schwache Hypothese ht empfangen wurde,
wählt AdaBoost
bei Schritt 1.7 einen Parameter αt, der
die Wichtigkeit misst, die ht zugeordnet
wird. Man bemerke, dass αt ≥ 0,
wenn εt ≤ 1/2,
(was wir ohne Beschränkung
der Allgemeinheit annehmen können),
und dass αt größer wird,
je kleiner et wird.
-
Die
Verteilung Wt wird als nächstes bei Schritt 1.8 unter
der Verwendung der in der Figur dargestellten Regel aktualisiert.
Die Wirkung dieser Regel ist, die Gewichtung der ht fehlklassifizierten
Beispiele zu erhöhen, und
die Gewichtung der richtig klassifizierten Beispiele zu mindern.
Damit neigt die Gewichtung dazu, sich auf "schwierige" Beispiele zu konzentrieren. Die endgültige Hypothese
H, die bei Schritt 1.9 ausgegeben wird, ist eine gewichtete
Mehrheitswahl der T schwachen Hypothesen, wobei αt die
ht zugeordnete Gewichtung ist.
-
AdaBoost
und seine Analyse kann erweitern werden, um schwache Hypothesen
zu verarbeiten, die wirklich gewertete oder Konfidenz-bewertete
Vorhersagen ausgeben. D. h., für
jede Instanz x gibt die schwache Hypothese ht eine
Vorhersage ht(x) ∈ R aus, dessen Vorzeichen
das vorhergesagte Kennzeichen (–1
oder +1) und dessen Betrag |ht(x)| ein Maß für die "Konfidenz" in der Vorhersage
angibt. Zu Erläuterungszwecken fokussieren
jedoch die beispielhaften, nicht einschränkenden Ausführungsformen
der Erfindung auf den Fall der binär ({–1,+1}) gewerteten Schwach-Hypothesen-Vorhersagen.
Viele Lernprobleme der realen Welt sind jedoch mehrklassig mit mehr
als zwei möglichen
Klassen, und es gibt verschiedene Verfahren des Erweiterns von AdaBoost
auf den Mehrklassenfall im Stand der Technik.
-
Eine
wichtige Eigenschaft von AdaBoost betrifft seine Fähigkeit,
den Lernfehler zu reduzieren. AdaBoost ist auch anpassungsfähig dahingehend,
dass es sich an die Fehlerraten der individuellen schwachen Hypothesen
anpasst. Dies ist auch die Basis für seinen Namen: "Ada" steht kurz für "adaptiv".
-
Boosting-Entscheidungsbaum-Lernalgorithmen
können
hervorragende Klassifikatoren hervorbringen. Ein einfacher Entscheidungsbaum
ist in 2(a) abgebildet. Der Entscheidungsbaum
weist zwei Entscheidungsknoten und drei Vorhersageblätter auf.
Der Baum definiert eine binäre
Klassifikationsregel, die Instanzen der Form (a,b) ∈ R2 in ein oder mehrere Klassen zuordnet, die
mit –1
und +1 bezeichnet sind. 2(b) veranschaulicht
eine unterschiedliche Darstellung derselben Klassifikationsregel.
In dieser Darstellung wird jeder Entscheidungsknoten durch zwei
Knoten ersetzt: (1) ein Vorhersageknoten, dargestellt durch eine
Ellipse; und (2) ein Splitknoten, der durch ein Rechteck dargestellt
ist. Der Entscheidungsknoten ist mit dem aus 2(a) identisch,
wohingegen der Vorhersageknoten nun mit einer realen bewerteten
Zahl verknüpft
ist. Damit wird eine Instanz einem Pfad entlang des Baumes von der
Wurzel zu einem der Blätter
zugeordnet. Die Klassifikation, die dem Pfad zugeordnet ist, ist
jedoch nicht das Kennzeichen des Blattes, sondern vielmehr das Vorzeichen
der Summe der Vorhersagen entlang des Pfades. Z. B. ist die Klassifikation
der Instanz a = b = 0,5 sign(0,5 – 0,7 – 0,2) = sign (–0,4) = –1. Es ist
einfach zu überprüfen, dass
die zwei Bäume
dieselbe Klassifikationsregel definieren. Es ist ebenfalls klar,
dass viele unterschiedliche Bäume
der zweiten Art denselben Baum der ersten Art darstellen können. Die
zweite Darstellung bezeichnet man als "alternierende Baumdarstellung" aus dem Grund, dass
sie alternierende Schichten von Vorhersageknoten und Splitknoten
aufweist.
-
Alternierende
Bäume können als
eine Wahl über
einfache Vorhersageregeln wie folgt dargestellt werden. Der Baum
in
2(b) kann derart betrachtet
werden, dass er einen Wurzelvorhersageknoten und zwei Einheiten
von jeweils drei Knoten: einen Entscheidungsknoten und die beiden
Vorhersageknoten, die seine Kinder sind, umfasst. Die in
2(b) beschriebene Klassifikationsregel kann nun
erneut als eine gewichtete Mehrheitswahl geschrieben werden durch
Verbinden einer einfachen Regel der folgenden Form mit jedem der Entscheidungsknoten:
-
Insbesondere
können
die nachfolgenden beiden Regeln mit den Entscheidungsknoten aus
2(b) verknüpft
werden:
-
Durch
Kombinieren dieser beiden Regeln mit der konstanten Vorhersage,
die mit dem Wurzelknoten verbunden ist, kann man die Klassifikationsregel,
die durch den Entscheidungsbaum dargestellt ist als: sign(0,5 +
r1(a,b) + r2(a,b)) schreiben. Diese Regeln werden auch als Grundregeln
bezeichnet.
-
Diese
Transformation ermöglicht
es, einen beliebigen Standard-Entscheidungsbaum als eine Summe von
Grundregeln darzustellen, von denen jede einem der Entscheidungsknoten
in dem Baum entspricht. Im Allgemeinen ist "precondition" die Konjunktion von Bedingungen, die
zu einem gegebenen Entscheidungsknoten führen, "condition" ist die Entscheidung, die mit diesem
Knoten verknüpft
ist, und "p1, p2" sind die mit den beiden
Kindern des Entscheidungsknotens verbundenen Vorbedingungen.
-
Standard-Entscheidungsbäume können auf
allgemeine alternierende Entscheidungsbäume verallgemeinert werden,
um eine flexiblere Semantik zur Darstellung von Klassifikatoren
bereitzustellen. Standard-Entscheidungsbäume definieren eine Partition
des Instanzenraumes in disjunkte Regionen. Die meisten Algorithmen
für Lern-Entscheidungsbäume arbeiten
durch iteratives Aufsplitten der Partitionen in zwei. Jeder Teil
kann höchstens
einmal gesplittet werden. Mit anderen Worten, nur Blattknoten können aufgesplittet
werden. Bei allgemeinen alternierenden Entscheidungsbäumen jedoch
kann jeder Teil mehrfach aufgesplittet werden. Kehrt man zu dem
Beispiel zurück,
ist anzumerken, dass bei dem in 2(b) abgebildeten
alternierenden Baum jeder Vorhersageknoten höchstens einen Splitknoten aufweist
der daran angeschlossen ist. In 2(c) wurden zwei
Splitknoten hinzugefügt,
um ein Beispiel eines allgemeinen alternierenden Baumes zu erhalten.
-
Ein
allgemeiner alternierender Baum definiert eine Klassifikationsregel
wie folgt. Eine Instanz definiert einen Satz von Pfaden in dem alternierenden
Baum. Wenn ein Pfad einen Entscheidungsknoten erreicht, fährt er mit
dem Kind fort, das dem Ausgang der Entscheidung entspricht, die
mit dem Knoten verknüpft
ist. Wenn jedoch ein Vorhersageknoten erreicht wird, fährt der
Pfad fort mit allen Kindern des Knotens. Genauer gesagt, die Pfade
spalten sich in einen Satz von Pfaden auf, die jeweils einem der
Kinder des Vorhersageknotens entsprechen. Die Vereinigung aller
auf diesem Weg erreichten Pfade für eine gegebene Instanz bezeichnet
man als den "Multi-Pfad" (multi-path), der
zu dieser Instanz gehörig
ist. Das Vorzeichen der Summe aller Vorhersageknoten, die in einem
Multi-Pfad umfasst sind, ist die Klassifikation, mit der der Baum
die Instanz verbindet. Als Beispiele betrachte man die folgenden
beiden Instanzen: wenn a = 1 und b = 0,5, dann ist die Klassifikation sign(0,5
+ 0,3 – 0,7 – 0,2 +
0,1) = sign(0,1) = +1; wenn a = 5 und b = 1, dann ist die Klassifikation
sign(0,5 + 0,2 + 0,3) = sign(1,0) = +1. In beiden Fällen ist
die Klassifikation +1, die zweite Vorhersage kann jedoch als sicherer
betrachtet werden als die erste.
-
Formal
kann ein alternierender Entscheidungsbaum unter Verwendung der folgenden
Notation und Definitionen gemäß einer
Ausführungsform
der Erfindung definiert werden. Eine Basisbedingung ist ein Boole'sches Prädikat über Instanzen.
Das Symbol n wird verwendet, um die Konjunktion (AND) zu bezeich nen,
wird
verwendet, um die Negation (NOT) zu bezeichnen, und T bezeichnet
das konstante Prädikat,
das immer wahr ist. Ein Satz von Basisbedingungen wird mit Θ bezeichnet.
Eine Vorbedingung ist eine Konjunktion von Basisbedingungen und
von Negationen der Basisbedingungen. Eine Grundregel r ist eine
Zuordnung von Instanzen zu realen Zahlen, die in Bezug auf eine
Vorbedingung c
1, eine Basisbedingung c
2 und zwei reale Zahlen a und b definiert
ist. Die Grundregel ordnet jede Instanz einer Vorbedingung zu, die
definiert ist als a, wenn c
1 ∧ c
2, als b, wenn c
1 ∧
c
2, und als 0, wenn
c
1. Eine Grundregel wird mit r bezeichnet
und r(x) bezeichnet den realen Wert, den die Regel mit der Instanz
x verbindet. Mit diesen Definitionen weist ein alternierender Entscheidungsbaum
einen Satz von Grundregeln auf, der Instanzen realen Zahlen zuordnet.
Der Satz von Grundregeln muss den folgenden beiden Bedingungen gehorchen:
- (1) Der Satz sollte eine Grundregel umfassen,
für die
sowohl die Bedingung als auch die Vorbedingung T sind. Der a-Wert dieser Regel
ist die Vorbedingung, die mit der Wurzel des Baumes verbunden ist.
- (2) Eine Grundregel r mit der Vorbedingung d kann nur in dem
Satz sein, wenn der Satz eine Regel r' mit der Vorbedingung c1 und
die Basisbedingung c2 umfasst, so dass d
= c1 ∧ c2 oder d = c1 ∧ c2. Hier entspricht d dem Vorhersageknoten,
der das direkte Elternteil von r ist.
-
Der
alternierende Baum ordnet jede Instanz einer realen bewerteten Vorhersage
zu, die die Summe der Vorhersagen der Grundregeln in ihrem Satz
ist. Die Klassifikation einer Instanz ist das Vorzeichen der Vorhersage.
-
Damit
können
alternierende Bäume
als eine Summe von einfachen Grundregeln definiert werden. Die Grundregeln
erzeugen Vorhersagen, die eine beliebige reale bewertete Zahl sein
können.
Im Ergebnis ist es eine einfache Sache, einen beliebigen Boosting-Algorithmus
auf lernende alternierende Entscheidungsbäume von Stichproben anzuwenden.
Die einzige Betrachtung hier ist, dass der Satz von Grundregeln
(manchmal auch "schwache
Hypothesen" genannt),
die in jeder Stufe betrachtet werden, nicht konstant ist, sondern
anwächst,
wenn der Baum wächst.
-
Ein
alternierender Entscheidungslern-Algorithmus gemäß einer Ausführungsform
der Erfindung ist in
3 dargestellt. Für Erläuterungszwecke
betrachte man einen Satz von Ungleichheitsbedingungen, der ein einzelnes
Merkmal mit einer Konstanten vergleicht. Dieser Satz von Bedingungen
ist ausreichend beschränkt, dass
es machbar ist, alle möglichen
Grundregeln aufzuzählen,
die einem gegebenen Baum für
einen gegebenen Trainingssatz hinzugefügt werden können. Unter Bezugnahme auf
die Figur nimmt der Algorithmus bei Schritt
3.1 als Eingang
einen Trainingssatz (x
1, y
1),
..., (x
m, y
m), wobei
x
i ∈ R
d und y
i ∈ {+1,–1}, und
ein fester Satz von Basisbedingungen wird mit 0 bezeichnet. Die
Basisbedingungen sind Boolesche Prädikate, die ein einzelnes Merkmal
und eine Konstante vergleichen. Der Algorithmus enthält zwei
Sätze,
einen Satz von Vorbedingungen und einen Satz von Regeln. Die Symbole
P
t bzw. R
t entsprechen
diesen beiden Sätzen
bei der Boosting-Iteration
t. Der initiale Vorbedingungssatz ist P
1 =
{T} bei Schritt
3.2. Der Algorithmus verbindet eine positive
Gewichtung mit jedem Trainingsbeispiel. Man bezeichnet mit w
i,t die Gewichtung des Beispiels i bei der
Boosting-Iteration t. Die Anfangsgewichtungen werden bei Schritt
3.3 als
w
i, 0 = 1 für alle Beispiele 1 ≤ i ≤ m gesetzt.
Dieser Satz von Regeln, der den Baum bildet, wird bei Schritt
3.4 auf
eine einzelne Grundreel initialisiert, deren Vorbedingung und Basisbedingung
beide T sind und dessen erster Vorhersagewert
ist. Die Notation W(c) stellt
die Gesamtgewichtung der Trainingsbeispiele dar, die dem Prädikat c
genügen,
und W
+(c),+W
–(c)
bezeichnen die Gesamtgewichtung dieser Beispiele, die c genügen und
die mit +1 bzw. –1
gekennzeichnet sind (d. h.
-
W(c)
= W+(c)+W–(c)).
Diese Regel stellt die beste konstante Vorhersage für den gesamten
Datensatz dar und wird an der Wurzel des Baumes angeordnet.
-
Der
Baum wächst
beginnend bei Schritt
3.5 iterativ an, wobei jeweils eine
Grundregel hinzugefügt
wird. Bei Schritt
3.6 werden eine Vorbedingung c
1 und eine Basisbedingung c
2 ausgewählt, die
die Funktion Z
t(c
1, c
2) minimieren, wie in der Figur angegeben.
Eine neue Grundregel wird anschließend zu dem ADT (alternierenden
Entscheidungsbaum; alternating decision tree) bei Schritt
3.7 hinzugefügt, deren
Vorbedingung c
1, Basisbedingung c
2 sind und dessen beide Vorhersagewerte
sind. Die hinzugefügte Grundregel
entspricht einem Unterbaum mit einem Entscheidungsknoten als dessen Wurzel
und zwei Vorhersageknoten als Blätter.
Dieser Unterbaum wird als ein Kind eines Vorhersageknotens hinzugefügt, der
ein Blattknoten sein kann oder nicht. Bei Schritt
3.8 wird
der Vorhersagesatz mit dem Hinzufügen der Bedingungen c
1 ∧ c
2 und c
1 ∧
c
2 zu dem Satz aktualisiert. Die Gewichtungen
jedes Trainingsbeispiels werden bei Schritt
3.9 gemäß der Gleichung
in der Figur aktualisiert. Man beachte, dass, wenn r(x
i)
= 0 ist, die Gewichtung unverändert
bleibt.
-
Nach
T Iterationen wird der ADT, der durch den Satz von Grundregeln RT+1 dargestellt wird, bei Schritt 3.10 ausgegeben.
In dieser Beschreibung wurde ein Kriterium zum Stoppen des Boosting-Prozesses
nicht spezifiziert, oder mit anderen Worten wie man T wählt, den
Maximalwert für
den Iterationszähler
t. Eine beispielhafte nicht einschränkende Technik für das Anhalten
des Boostings verwendet eine Kreuzvalidierung.
-
Wenn
man den ADT für
die Analyse und Klassifikation neuer Daten verwendet, ist die Ausgabe
bei Schritt
3.11 eine Klassifikationsregel, die das Vorzeichen
der Summe der Vorhersagen aller Grundregeln in R
T+1 ist:
-
Die
Interpretation der alternierenden Bäume beruht auf der Tatsache,
dass der Beitrag jedes Entscheidungsknotens nicht in Isolation verstanden
werden kann. Das Aufsummieren dieser Beiträge erzeugt die Vorhersage und
die Klassifikation. Nach Aufsammeln der Bedeutung jedes Entscheidungsknotens
getrennt kann man die Interaktionen der Knoten analysieren. Parallele
Entscheidungsknoten stellen wenig oder keine Interaktion dar. Im
Gegensatz zur Unabhängigkeit
von parallelen Entscheidungsknoten hängt die Signifikanz der Entscheidungsknoten
auf tieferer Ebene von der Evaluierung ihrer Stamm-Entscheidungsknoten
ab. Die Entscheidungsknotenstruktur kann Abhängigkeiten zwischen Indikatoren
darstellen. Die Wurzel des Baumes ist mit einem festen (unbedingten)
Beitrag verbunden, der die Wahrscheinlichkeit einer Vorhersage vor
dem Testen eines beliebigen Merkmalwertes ist. Alle Beiträge werden
aufsummiert, um die endgültige
Vorhersage zu ergeben, und diese Vorhersage wird grenzbewertet,
um die Klassifikation zu ergeben. Dies bedeutet, dass, wenn die
in dem Baum gegebenen Bedingungen seriell getestet werden, man den
Beweis für
oder gegen die Gesundheit der Person mit dem Fortschreiten akkumuliert.
Wenn an einem gewissen Zwischenpunkt während dieses Prozesses eine
Summe auftritt, deren absoluter Wert groß ist, und der Gesamtbeitrag
aller der (ungetesteten) Vorhersageknoten klein ist, dann besteht
kein Bedarf, die Berechnung fortzuführen, da das vorliegende Vorzeichen
der Summe sich nicht verändern
kann. Der absolute Wert der Summe kann als ein Maß für die Konfidenz
der Klassifikation gedacht werden.
-
Die
Klassifikationsregeln, die durch das Kombinieren eines alternierenden
Baumes mit Boosting gemäß einer
Ausführungsform
der Erfindung erzeugt wurden, sind oft einfacher und leichter zu
deuten als die, die durch frühere
Lerntechniken erzeugt wurden, und stellen ein Maß für die Konfidenz dar.
-
Ein
Verfahren gemäß einer
Ausführungsform
der Erfindung wurde auf SELDI MS Daten von ALS-Patienten und neurologische
Kontrollen angewendet. Das Ziel dieser Studie war es, bestimmte
Sätze von
ALS-diagnostischen Proteinfingerabdrücken basierend auf WCX SELDI
Spitzenwerten in CSF zu identifizieren, die in einer klinischen
Situation verwendet werden sollten. Eine univariante Analyse wurde
auf 30 WCX SELDI Spitzenwerte zwischen 36 ALS-Patienten und 31 neurologischen
Kontrollen angewendet. Das statistische Verfahren setzt sich aus
Standard t-Test
und dessen Bonferroni-Korrektur zusammen. 4 ist eine
Tabelle von Ergebnissen der univarianten Analyse dieser WCX SELDI
30 Spitzenwerte zwischen den 36 ALS-Patienten und 31 neurologischen
Kontrollen. Wie in der Tabelle angegeben beträgt der am signifikantesten
unterschiedliche WCX SELDI Spitzenwert 6690, der einen t-Test p-Wert
von 1,05%10–9 aufweist.
-
Ein
AdaBoost-Algorithmus gemäß einer
Ausführungsform
der Erfindung wurde verwendet, um Entscheidungsregeln zu lernen,
die alternierende Entscheidungsbäume
bilden, und um Klassifikationsregeln zu erzeugen, während man
die meisten charakteristischen SELDI Spitzenwerte bestimmt. Die 5(a)-(b) stellen beispielhafte Klassifikatoren
in einem Format eines alternierenden Baums von fünf Runden AdaBoost-Training dar:
(a) alternierender Entscheidungsbaum; und (b) die entsprechenden
Entscheidungsregeln. Wie in den Figuren dargestellt wurde in dieser
Studie ein alternierender Entscheidungsbaum angewendet, um einen
Klassifikator basierend auf WCX Proteinart-Änderungen zu erstellen. Der
alternierende Entscheidungsbaum für Diagnosevorhersage, der in 5(a) dargestellt ist, kann ebenfalls auf Sätze von äquivalenten
Entscheidungsregeln transformiert werden, die in 5(b) dargestellt sind, wodurch der Klassifikator
in einem Satz von Entscheidungsregeln durch fünf Runden Training unter Verwendung
von AdaBoost dargestellt wird.
-
Bei
Verwendung dieses Ansatzes errichtet der Lernalgorithmus einen alternierenden
Entscheidungsbaum mit einer von "oben-nach-unten"-Strategie (top-down),
die auf SELDI MS Spitzenwerten von den ALS-Patienten und den bei
dieser Studie verwendeten neurologischen Kontrollfällen basiert.
Ein alternierender Entscheidungsbaum enthält Splitknoten (mit einem Test
verbunden) und Vorhersageknoten (mit einem Wert verbunden). Bei
jedem Boosting-Schritt wählt
er aus und fügt
eine neue Regel oder in äquivalenter
Weise eine neue Einheit hinzu, die aus einem Splitknoten und zwei
Vorhersageknoten besteht; und die Gewichtungen werden aktualisiert.
Die Vorhersagewerte werden gemäß der Regelsatz-Aktualisierungsberechnungsformel
in den in
3 abgebildeten Algorithmen ausgewählt. Der
Anfangsvorhersagewert, in
5(a) am
Wurzelvorhersageknoten als +0, 075 angegeben, wird als
definiert, wobei W+(T) und
W
–(T)
die entsprechenden Summen der Gewichtungen der positiven (negativen) Beispiele
sind, die eine geweisse Bedingung erfüllen. Für den Wurzelvorhersageknoten
ist die die anfängliche "Wahr"-Bedingung.
-
Wie
in 5(a) dargestellt, wurde eine
diagnostische Vorhersage basierend auf WCX SELDI Spitzenwerten als
ein Vorzeichen der Summe der Vorhersagen entlang der betreffenden
Pfade in dem Baum angegeben. Der reale Wert dieser Summe wurde verwendet,
um die Konfidenz beim Vorhersagen einer ALS-Diagnose zu bestimmen.
Wenn zum Beispiel zwei WCX SELDI Spitzenwerte ein m/z 6690 und ein
m/z 22810 mit einem p-Wert von 0,2449 bzw. 0,0545 aufweisen, wie
das bei einem der Pfade der Fall ist, der in dem zweiten Knoten
von 5(a) endet, dann ist die Summe
der Vorhersagen (+0,075 – 0,331
+ 1,302) = +1,046. Da die Summe positiv ist, klassifizierte der
Algorithmus diese als +1, was bedeutet, dass diese SELDI Spitzenwerte diagnostisch
ALS mit einer hohen relativen Konfidenz (>1,0 in diesem Fall) vorhersagten.
-
Um
die AdaBoost-diagnostische Fähigkeit
zu bewerten, wurde ein 10-facher Kreuzvalidierungstest verwendet.
Unter Verwen dung der in dieser Studie erfassten WCX SELDI MS Spitzenwerte
wurden 9/10 der Daten von sowohl positiven als auch negativen Stichproben
als Trainingssatz ausgewählt,
das verbleibende 1/10 der Daten wurde zum Testen verwendet, und
der Prozess wurde mehrfach wiederholt. Die Vorhersageergebnisse
wurden unter Verwendung einer 10-fachen Kreuzvalidierung bewertet,
und die echt positiven (TP; true positive) Treffer, falsch positiven
(FP) Treffer, echt negativen (TN; true negative) Treffer und falsch
negativen (FN) Treffer wurden berechnet. Unter Verwendung dieses
Ansatzes wurde die Vorhersagefähigkeit
des AdaBoost-Klassifikationsverfahrens hinsichtlich Sensitivität und Spezifität evaluiert
(Sensitivität
= TP/(TP + FN); Spezifität
= TN/(TN + FP)). 6 ist eine Ergebnistabelle einer
WCX SELDI Diagnose mittels AdaBoost. Die Ergebnisse in der Tabelle
basieren auf einer 10-fachen Kreuzvalidierung; die Daten werden
aus den ALS vs. Peskind-Kontrollfällen unter
Verwendung des WCX-Analyseverfahrens berechnet. Wie in der Tabelle
dargestellt wurde herausgefunden, dass die Sensitivität dieses
diagnostischen Verfahrens 77,8% und die Spezifität 77,4 beträgt.
-
Eine
ROC-Kurve (Receiver Operating Characteristic) wurde verwendet, um
die diagnostische Leistungsfähigkeit
eines Verfahrens gemäß einer
Ausführungsform
der Erfindung zu bewerten. Die ROC-Kurve ist eine graphische Darstellung
der echt-positiv-Rate
(Sensitivität)
gegenüber
der falsch-positiv-Rate (1-Spezifität) für die unterschiedlichen möglichen
Referenzgrenzen (Cut-off-points) eines diagnostischen Tests, z.
B. auf ALS. 7 ist eine graphische Darstellung
von ROC-Kurven basierend
auf einer AdaBoost-Klassifikation von der ALS vs. Peskind-Kontrolle,
die durch das WCX-Verfahren erhalten wurde. Die ROC-Kurven wurden
durch das Ändern
des Cut-off-Wertes
des Klassifikationsalgorithmus erzeugt und bilden die Beziehung
zwischen der echt-positiv-Rate und der falsch-positiv-Rate ab. Die durchgezogene Kurve
zeigt die Klassifikationsergebnisse nach 100 Lernrunden, währen die
gepunktete Kurve die Klassifikationsergebnisse nach 50 Lernrunden
dar stellt. Die gestrichelte Kurve gibt die Klassifikationsergebnisse
nach 5 Lernrunden an. Deutlich steigt mit zunehmendem Lernen die
Fläche
unter der ROC-Kurve an, d. h. die Leistung des Algorithmus verbessert
sich. Die oberen vier am meisten signifikanten SELDI-Spitzenwerte
waren 6690 (der wichtigste Spitzenwert); 22516; 23211; 1185. Die
Klassifikationsergebnisse wurden mit der Differentialanalyse (t-Test
mit Bonferroni-Korrektur) für
unterschiedliche Spitzenwerte verglichen. Der Top-Differentialspitzenwert
ist: m/z = 6690, der einen p-Wert von
1,05%10–9 und
einen p-Wert nach Bonferroni-Korrektur von 3,16%10–8 aufweist.
Damit ist die wichtigste Entscheidungsregel basierend auf den Boosting-Ergebnissen
konsistent mit der Differentialanalyse.
-
Es
versteht sich, dass die vorliegende Erfindung in unterschiedlichen
Formen von Hardware, Software, Firmware, Spezialzweckprozessen oder
einer Kombination davon implementiert werden kann. In einer Ausführungsform
kann die vorliegende Erfindung in Software als ein Anwendungsprogramm,
das konkret auf einer Computer-lesbaren Programmspeichervorrichtung
verkörpert
ist, implementiert werden. Das Anwendungsprogramm kann auf eine
Maschine hochgeladen und von ihr ausgeführt werden, die eine beliebige
geeignete Architektur aufweist.
-
8 ist
ein Blockschaltbild eines beispielhaften Computersystems zum Implementieren
eines auf Boosting basierenden alternierenden Entscheidungsbaum-Klassifikators
gemäß einer
Ausführungsform
der Erfindung. Unter Bezugnahme auf die 8 kann ein
Computersystem 81 zur Implementierung der vorliegenden
Erfindung unter anderem eine zentrale Verarbeitungseinheit (Central
Processing Unit; CPU) 82, einen Speicher 83 und
eine Eingabe/Ausgabe (E/A)-Schnittstelle 84 aufweisen. Das Computersystem 81 ist
im Allgemeinen über
die E/A-Schnittstelle 84 mit
einer Anzeige 85 und verschiedenen Eingabevorrichtungen 86 wie z.
B. einer Maus und einer Tastatur gekoppelt. Die Unterstützungsschaltungen
können
Schaltungen wie z. B. Zwischenspeicher, Stromversorgung, Taktschaltungen und
einen Kommunikationsbus umfassen. Der Speicher 83 kann
Direktzugriffsspeicher (Random Access Memory; RAM), Festwertspeicher
(Read Only Memory; ROM), ein Festplattenlaufwerk, ein Bandlaufwerk
usw. oder Kombinationen davon umfassen. Die vorliegende Erfindung
kann als ein Ablauf 87, der im Speicher 83 gespeichert
ist und von der CPU 82 ausgeführt wird, implementiert werden,
um das Signal von der Signalquelle 88 zu verarbeiten. Als
solches ist das Computersystem 81 ein Allzweck-Computersystem,
das zu einem Spezialzweck-Computersystem
wird, wenn der Ablauf 87 der vorliegenden Erfindung ausgeführt wird.
-
Das
Computersystem 81 umfasst ebenfalls ein Betriebssystem
und Mikrobefehlscode. Die verschiedenen hierin beschriebenen Prozesse
und Funktionen können
entweder Teil des Mikrobefehlscodes oder Teil des Anwendungsprogramms
(oder einer Kombination davon) sein, das über das Betriebssystem ausgeführt wird.
Zusätzlich
können
andere Peripherieeinrichtungen mit der Computerplattform verbunden
sein wie z. B. eine zusätzliche
Datenspeichervorrichtung und eine Druckeinrichtung.
-
Es
versteht sich des Weiteren, dass, da einige der systembildenden
Komponenten und Verfahrensschritte, die in den beigefügten Figuren
abgebildet sind, in Software implementiert werden können, die
eigentlichen Verbindungen zwischen den Systemkomponenten (oder den
Prozessschritten) je nach Art und Weise, in der die vorliegende
Erfindung programmiert ist, unterschiedlich sein können. Mit
der hierin bereit gestellten gegebenen Lehre der vorliegenden Erfindung
wird der Fachmann auf dem einschlägigen Fachgebiet in der Lage
sein, diese und ähnliche
Implementierungen oder Konfigurationen der vorliegenden Erfindung
zu betrachten.
-
Während die
vorliegende Erfindung unter Bezugnahme auf eine bevorzugte Ausführungsform
im Detail beschrieben wurde, wird der Fachmann schätzen, dass
verschiedene Modifikationen und Ersetzungen daran durchgeführt werden
können,
ohne vom Wesen und Umfang der wie in den beigefügten Ansprüchen dargelegten Erfindung
abzuweichen.