DE102006001780A1 - System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation - Google Patents

System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation Download PDF

Info

Publication number
DE102006001780A1
DE102006001780A1 DE102006001780A DE102006001780A DE102006001780A1 DE 102006001780 A1 DE102006001780 A1 DE 102006001780A1 DE 102006001780 A DE102006001780 A DE 102006001780A DE 102006001780 A DE102006001780 A DE 102006001780A DE 102006001780 A1 DE102006001780 A1 DE 102006001780A1
Authority
DE
Germany
Prior art keywords
data
decision tree
seldi
values
patients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102006001780A
Other languages
English (en)
Inventor
Amil Chakraborty
Dorin Comaniciu
Lu-Yong Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of DE102006001780A1 publication Critical patent/DE102006001780A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/564Immunoassay; Biospecific binding assay; Materials therefor for pre-existing immune complex or autoimmune disease, i.e. systemic lupus erythematosus, rheumatoid arthritis, multiple sclerosis, rheumatoid factors or complement components C1-C9
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • G01N33/6851Methods of protein analysis involving laser desorption ionisation mass spectrometry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details
    • H01J49/10Ion sources; Ion guns
    • H01J49/16Ion sources; Ion guns using surface ionisation, e.g. field-, thermionic- or photo-emission
    • H01J49/161Ion sources; Ion guns using surface ionisation, e.g. field-, thermionic- or photo-emission using photoionisation, e.g. by laser
    • H01J49/164Laser desorption/ionisation, e.g. matrix-assisted laser desorption/ionisation [MALDI]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/28Neurological disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Hematology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Urology & Nephrology (AREA)
  • Analytical Chemistry (AREA)
  • Optics & Photonics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Rehabilitation Therapy (AREA)
  • Rheumatology (AREA)
  • Plasma & Fusion (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

Ein Verfahren zum Diagnostizieren von amyotropher Lateralsklerose umfasst das Bereitstellen von oberflächenaktivierten Laserdesorptions-/-ionisations-Massenspektrometrie-Daten (Surface Enhanced Laser Desorption/Ionisation Mass Sepctrometric Data; SELDI-MS) einer Vielzahl von Proteinen, wobei die Daten von einem Patienten erhalten werden und eine Vielzahl von Spitzenwerten aufweisen, und das Analysieren der Spitzenwerte mit einem alternierenden Entscheidungsbaum, der einen Satz von Tests der Datenspitzenwerte und zugehörige Vorhersagewerte aufweist, wobei die Daten prädiktiv für eine Senke sind, wenn eine Summe der Vorhersagewerte des Baumes größer als 1,0 ist.

Description

  • Querverweis auf verwandte US-Anmeldungen
  • Diese Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nummer 60/644,154 "An Automatic Molecular Diagnosis Approach Based on Boosting Classification and application in ALS disease", von Wang, et al., eingereicht am 14. Januar 2005, auf deren Inhalte hierin vollständig Bezug genommen wird.
  • Technisches Gebiet
  • Diese Erfindung ist auf die automatische Diagnose von ALS (Amyotrophe Lateralsklerose) gerichtet, die auf einer Boosting-Klassifikation von proteomischen Daten basiert.
  • Erläuterung des Standes der Technik
  • Da das Humangenom-Projekt derzeit beendet wird, besteht für die Bioinformatik ein erhöhter Bedarf, die enorme Menge an Genom-Informationen zu verwenden, um Rechenverfahren zu entwickeln, die biomedizinische und klinische Probleme lösen. Darüber hinaus stellt die moderne Biotechnologie verschiedene Hilfsmittel der "High-Throughout-Technologien" für einen Bioinformatiker bereit, wie z. B. Mikroarray, SAGE (Serial Analysis of Gene Expression) und die Proteomik (engl. Proteomiks), um die komplexe Natur von menschlichen Krankheiten zu erforschen.
  • Das Protein-Profiling wird in Geweben und Flüssigkeiten bei Krankheits- und pathologischen Kontrollen häufig zur molekularbasierten Diagnose verwendet. Proteomik-Technologien werden eine zunehmend wichtige Rolle bei der molekularen Diagnose, der Wirkstoff-Entdeckung (Drug Discovery) und der medizi nischen Praxis in der Post-Genom-Ära, dem ersten Jahrzehnt des 21. Jahrhunderts spielen. Die Proteomik sorgt für ein besseres Verständnis von Pathomechanismen menschlicher Krankheiten. Die Analyse von verschiedenen Ebenen der Genexpression in gesunden und krankhaften Geweben durch Proteomik-Ansätze ist so wichtig wie die Erfassung von Mutationen und Polymorphismen auf der Genom-Ebene und kann bei der Gestaltung einer vernünftigen Therapie wertvoller sein. Das Protein-Profiling in Körpergeweben und -flüssig-keiten in gesundem sowie in krankem Zustand ist die Basis der Verwendung von Proteomik-Technologien zur molekularen Diagnostik. Die Proteomik wird eine wichtige Rolle in der Medizin der Zukunft spielen, die personalisiert sein wird und die Diagnostik mit der Therapeutik verbindet.
  • Die amyotrophe Lateralsklerose (ALS) ist eine progressive neurodegenerative Krankheit, die Nervenzellen im Gehirn und im Rückenmark schädigt. Motorische Nervenzellen reichen vom Gehirn zum Rückenmark und vom Rückenmark zu den Muskeln über den gesamten Körper. Die progressive Degeneration der motorischen Nervenzellen bei ALS führt letztlich zu ihrem Tod. Wenn die motorischen Nervenzellen sterben, ist die Eigenschaft des Gehirns verloren, eine Muskelbewegung einzuleiten und zu steuern. Indem die spontane Muskelbetätigung in fortschreitendem Maße beeinträchtigt ist, können Patienten in späteren Stadien der Krankheit vollständig gelähmt werden.
  • Zusammenfassung der Erfindung
  • Beispielhafte Ausführungsformen der Erfindung, wie sie hierin beschrieben ist, umfassen im Allgemeinen Verfahren und Systeme für eine auf Boosting basierende Klassifikation für die ALS-Diagnose, basierend auf Protein-Profilen, die aus Massenspektrometriedaten erhalten wurden. AdaBoost ist eines der besten Klassifikationsverfahren, die beim statistischen Lernen bekannt sind, um Klassifikatoren zu trainieren, die ALS-Krankheit aus den normalen Kontrollen vorherzusagen. AdaBoost ist ein allgemeines Verfahren zur Verbesserung der Klassifikationsgenauigkeit eines beliebigen Klassifikationsverfahrens. Nach jeder Basislerniteration werden fehlklassifizierten Trainingsproben in adaptiver Art und Weise hohe Gewichtungen bei der nächsten Iteration gegeben. Dies zwingt den nächsten Basislerner dazu, sich auf die fehlklassifizierten Lerndaten zu fokussieren. AdaBoost wird verwendet, um die Entscheidungsregeln zu lernen, die einen alternierenden Entscheidungsbaum bilden. Dieser kombinatorische Algorithmus, hierin als ADTboost bezeichnet, erzeugt Klassifikationsregeln, die einfach und leicht zu deuten sind. Er identifiziert oft die charakteristischen Merkmale wie z. B. Spitzenwerte bei Massenspektrometriedaten oder Gene bei Mikroarray-Daten, die als Biomarker für diagnostische Zwecke verwendet werden können. Darüber hinaus kann ADTboost ein Maß für die Vorhersage-Konfidenz liefern. Ein Verfahren gemäß einer Ausführungsform der Erfindung wird auf SELDI MS (oberflächenaktivierte Laserdesorptions-/-ionisations-Massenspektrometrie; Service enhanced Laser desorption ionization mass spectrometer) Daten von ALS-Patienten und neurologische Kontrollen angewendet, um ein Molekulardiagnoseverfahren bereitzustellen, das die ALS-Krankheit von neurologischen Kontrollen unterscheiden kann. Die sich ergebenden Regeln können in einem einfachen und geradlinigen alternierenden Entscheidungsbaumformat oder einem Konditionalregelformat ausgedrückt werden, und identifizieren die am meisten charakteristischen Spitzenwerte bei SELDI-Daten, die als Biomarker für die Diagnose verwendet werden können.
  • Ein Diagnoseverfahren gemäß einer Ausführungsform der Erfindung kann die falschen positiven Raten reduzieren, die Vorhersagegenauigkeit verbessern, ein Maß für die Konfidenz bei der Klassifikation bereitstellen und ist gegenüber Lernfehlern robust. Ein auf einer Boosting-Klassifikation basierendes Diagnoseverfahren ist ein nützliches und wirksames Werkzeug bei der Diagnose von neurologischen Krankheiten wie ALS. Es kann durch Mikroarray- und Proteomik-Datenanalyse auf Mo lekulardiagnose angewendet werden und kann in einer Post-Genom-Ära auf personalisierte Medizin angewendet werden.
  • Gemäß eines Aspekt der Erfindung wird ein Verfahren zum Diagnostizieren von amyotropher Lateralsklerose bereitgestellt einschließlich des Bereitstellens von oberflächenaktivierten Laserdesorptions-/-ionisations-Massenspektrometrie-Daten (SELDI-MS; service-enhanced laser desorption/ionisation mass spectrometry data) einer Vielzahl von Proteinen, wobei die Daten von einem Patienten ermittelt werden und eine Vielzahl von Spitzenwerten aufweisen, und des Analysierens der Spitzenwerte mit einem alternierenden Entscheidungsbaum, der einen Satz von Tests der Datenspitzenwerte und zugehörige Vorhersagewerte aufweist, wobei die Daten eine Senke vorhersagen, wenn eine Summe von Vorhersagewerten des Baumes größer als 1.0 ist.
  • Gemäß eines weiteren Aspekts der Erfindung werden die SELDI-MS Spitzenwerte aus einer univarianten Analyse von SELDI-MS Daten identifiziert, die von einer Vielzahl von Patienten ermittelt wurden, einschließlich Patienten, die mit amyotropher Lateralsklerose diagnostiziert wurden, und Kontroll-Patienten.
  • Gemäß eines weiteren Aspekts der Erfindung weist die univariante Analyse die Durchführung eines Standard t-Tests und eine Bonferroni-Korrektur auf.
  • Gemäß eines weiteren Aspekts der Erfindung wird der alternierende Entscheidungsbaum durch Anwenden eines Boosting-Algorithmus auf die SELDI-MS Spitzenwerte trainiert, die aus der Vielzahl von Patienten identifiziert wurden.
  • Gemäß eines weiteren Aspekts der Erfindung umfasst der Boosting-Algorithmus das Bereitstellen eines Satzes von Trainingsbeispielen (x1, y2), ..., (xm, ym), wobei xi ∈ Rd und yi ∈ {+1,–1}, das Bereitstellen eines Satzes von Basisbedingun gen, das Initialisieren eines Satzes von Vorbedingungen auf den Wert WAHR, das Initialisieren eines Satzes von Gewichtungen für die Trainingsbeispielen auf denselben Initialwert, das Initialisieren des alternierenden Entscheidungsbaums auf eine einzige Regel, wobei eine Vorbedingung und eine Basisbedingung beide auf WAHR gesetzt werden, das Hinzufügen einer neuen Regel zu dem alternierenden Entscheidungsbaum, wobei die neue Regel eine Basisbedingung und eine Vorbedingung aufweist, die eine Vorhersagefunktion minimieren, das Aktualisieren des Vorhersagesatzes mit einer Konjunktion der Basisbedingung und einer Negation der Basisbedingung, und das Aktualisieren des Satzes von Gewichtungen basierend auf den Vorhersagewerten der neuen Regeln.
  • Gemäß eines weiteren Aspekts der Erfindung wird die Vorhersagefunktion Zt(c1,c2), wobei c1 eine Vorbedingung und c2 eine Basisbedingung darstellt, definiert durch
    Figure 00050001
    wobei W+(c), W(c) die Gesamtgewichtung der Lernsatzbeispiele bezeichnen, die c genügen.
  • Gemäß eines weiteren Aspekts der Erfindung sind die Vorhersagewerte der neuen Regel
    Figure 00050002
    wobei c1 eine Vorbedingung und c2 eine Basisbedingung darstellen, und wobei W+(c), W(c) die Gesamtgewichtung der Trainingssatzbeispiele bezeichnen, die c genügen.
  • Gemäß eines weiteren Aspekts der Erfindung weist das Aktualisieren des Satzes von Gewichtungen das Multiplizieren jeder Gewichtung mit exp(–yir(xi)) auf, wobei r(xi) einen Wert darstellt, der mit dem Trainingsbeispiel xi durch die neue Regel r verbunden ist, und wobei yi ∈ {+1,–1} ist.
  • Gemäß eines weiteren Aspekts der Erfindung werden die Proteine aus der Zerebrospinalflüssigkeit eines Patienten erhalten.
  • Gemäß eines weiteren Aspekts der Erfindung wurde die Vielzahl von Proteinen auf einem schwachen kationischen Austausch-Chip (exchanger chip) absorbiert.
  • Gemäß eines weiteren Aspekts der Erfindung wird eine Programmspeichervorrichtung bereitgestellt, die von einem Computer lesbar ist, und das konkret ein Programm von Anweisungen verkörpert, die von dem Computer ausführbar sind, um die Verfahrensschritte zum Diagnostizieren von amyotropher Lateralsklerose durchzuführen.
  • Kurze Beschreibung der Figuren
  • 1 stellt Pseudocode eines beispielhaften AdaBoost-Algorithmus gemäß einer Ausführungsform der Erfindung dar.
  • 2(a)-(c) stellen mehrere baumbasierte Klassifikatoren gemäß einer Ausführungsform der Erfindung dar.
  • 3 stellt Pseudocode eines beispielhaften alternierenden Boosting-Entscheidungsbaum-Algorithmus gemäß einer Ausführungsform der Erfindung dar.
  • 4 ist eine Ergebnistabelle einer univarianten Analyse von WCX SELDI 30 Spitzenwerten zwischen 36 ALS-Patienten und 31 neurologischen Kontrollen gemäß einer Ausführungsform der Erfindung.
  • 5(a)-(b) stellen beispielhafte Klassifikatoren in einem alternierenden Baumformat von einem 5-rundigen AdaBoost-Training und die entsprechenden Re geln gemäß einer Ausführungsform der Erfindung dar.
  • 6 ist eine Ereignistabelle einer WCX SELDI-Diagnose mittels AdaBoost gemäß einer Ausführungsform der Erfindung.
  • 7 ist eine Darstellung von ROC-Kurven basierend auf einer AdaBoost Klassifikation von der ALS vs. Peskind-Kontrolle, die durch das WCX-Verfahren erhalten wurde, gemäß einer Ausführungsform der Erfindung.
  • 8 ist ein Blockschaltbild eines beispielhaften Computersystems zur Implementierung eines auf Boosting basierenden Verfahrens zum Diagnostizieren von ALS gemäß einer Ausführungsform der Erfindung.
  • 9 ist ein Flussdiagramm eines beispielhaften auf Boosting basierenden Verfahrens zum Diagnostizieren von ALS gemäß einer Ausführungsform der Erfindung.
  • Detaillierte Beschreibung der bevorzugten Ausführungsformen
  • Die wie hierin beschriebenen beispielhaften Ausführungsformen der Erfindung umfassen im Allgemeinen Systeme und Verfahren für ein neues diagnostisches Verfahren, das auf Boosting basiert, um die Klassifikationsgenauigkeit von ALS Krankheitsdaten zu verbessern, die aus verschiedenen SELDI MS (oberflächenaktivierte Laserdesorptions-/-ionisations-Massenspektrometrie; surface enhanced laser desorption ionization mass spectrometer) experimentellen Verfahren erhalten wurden. Ein Verfahren gemäß einer Ausführungsform der Erfindung erzeugt Klassifikationsregeln, die einfach und leicht zu interpretieren sind, identifiziert die am meisten charakte ristischen Merkmale, die als Biomarker für diagnostische Zwecke verwendet werden können und stellt ein Maß für die Vorhersage-Konfidenz bereit. Die Kreuzvalidierung und ROC Analyseergebnisse zeigten an, dass eine gute Vorhersageleistung basierend auf SELDI Ergebnissen und das WCX-Verfahren erhalten wurde, obwohl die SAX2 und IMAC SELDI Verfahren nicht ausreichend charakteristische Informationen für ALS-Patienten bereitstellten.
  • Boosting ist ein allgemeines Verfahren zum Verbessern der Genauigkeit eines beliebigen gegebenen Lernalgorithmus. AdaBoost hat viele praktische Schwierigkeiten von früheren Boosting-Verfahren gelöst. AdaBoost ist ein Boosting-Algorithmus dadurch, dass er wirkungsvoll einen schwachen Lernalgorithmus, der immer eine Hypothese mit einem schwachen Rand für eine beliebige Verteilung erzeugen kann, in einen starken Lernalgorithmus umwandeln kann, der eine Hypothese mit einer beliebig niedrigen Fehlerrate bei gegebenen ausreichenden Daten erzeugen kann. Nach jeder Basislerniteration werden fehlklassifizierten Trainingsbeispielen adaptiv hohe Gewichtungen bei der nächsten Iteration gegeben. Dies zwingt den nächsten Basislerner dazu, sich auf die fehlklassifizierten Trainingsdaten zu fokussieren. Gemäß einer Ausführungsform der Erfindung wird AdaBoost dazu verwendet, um Entscheidungsregeln zu lernen, die einen alternierenden Entscheidungsbaum aufweisen. Dieser kombinatorische Algorithmus erzeugt Klassifikationsregeln, die am meisten charakteristische Merkmale bereitstellen wie z. B. Spitzenwerte bei Massenspektrometriedaten, die als Biomarker für diagnostische Zwecke verwendet werden können. AdaBoost kann auch ein Maß für die Vorhersage-Konfidenz bereitstellen.
  • Pseudocode für AdaBoost ist in 1 dargestellt. Unter Bezugnahme auf die Figur nimmt der Algorithmus bei Schritt 1.1 als Eingabe einen Trainingssatz (x1, y1), ..., (xm, ym), wobei jedes xi zu einem bestimmten Domänen- oder Instanzenraum gehört, und jede Bezeichnung yi sich in einem Bezeichnungssatz Y befindet. Für Darstellungszwecke kann es ohne Einschränkung angenommen werden, dass Y = {–1,+1}, obwohl Erweiterungen des Mehrklassen-Falles auch offenbart werden. Eine Hauptidee des Algorithmus ist es, eine Verteilung oder einen Satz von Gewichtungen über den Trainingssatz zu halten. Die Gewichtung dieser Verteilung auf das Trainingsbeispiel i in der Runde t wird mit Wt(i) bezeichnet. Anfangs werden bei Schritt 1.2 alle Gewichtungen gleich gesetzt. AdaBoost ruft anschließend einen gegebenen schwachen oder Basislern-Algorithmus wiederholt in einer Reihe von Runden t = 1, ..., T in den Schritten 1.2 und 1.4 auf. In jeder Runde werden die Gewichtungen der falsch klassifizierten Beispiele erhöht, so dass der schwache Lerner gezwungen wird, sich auf die schwierigen Beispiele in dem Trainingssatz zu fokussieren. Schließlich werden alle schwachen Hypothesen in eine einzelne starke Hypothese unter Verwendung eines gewichteten Mehrheitswahlschemas kombiniert.
  • Es ist die Aufgabe des schwachen Lerners, bei Schritt 1.5 eine schwache Hypothese ht : X → {–1,+1} zu finden, die für die Verteilung Wt geeignet ist. Bei Schritt 1.6 wird die Güte einer schwachen Hypothese durch ihren Fehler et gemessen:
    Figure 00090001
  • Man bemerke, dass der Fehler bezüglich der Verteilung Wt gemessen wird, auf der der schwache Lerner trainiert wurde. In der Praxis kann der schwache Lerner ein beliebiger Algorithmus sein, der die Gewichtungen alt auf den Trainingsbeispielen verwenden kann. Alternativ kann, wenn dies nicht möglich ist, eine Untermenge der Trainingsbeispiele gemäß Wt probiert werden, und diese (ungewichteten) erneut probierten Beispiele können verwendet werden, um den schwachen Lerner zu trainieren.
  • Sobald die schwache Hypothese ht empfangen wurde, wählt AdaBoost bei Schritt 1.7 einen Parameter αt, der die Wichtigkeit misst, die ht zugeordnet wird. Man bemerke, dass αt ≥ 0, wenn εt ≤ 1/2, (was wir ohne Beschränkung der Allgemeinheit annehmen können), und dass αt größer wird, je kleiner et wird.
  • Die Verteilung Wt wird als nächstes bei Schritt 1.8 unter der Verwendung der in der Figur dargestellten Regel aktualisiert. Die Wirkung dieser Regel ist, die Gewichtung der ht fehlklassifizierten Beispiele zu erhöhen, und die Gewichtung der richtig klassifizierten Beispiele zu mindern. Damit neigt die Gewichtung dazu, sich auf "schwierige" Beispiele zu konzentrieren. Die endgültige Hypothese H, die bei Schritt 1.9 ausgegeben wird, ist eine gewichtete Mehrheitswahl der T schwachen Hypothesen, wobei αt die ht zugeordnete Gewichtung ist.
  • AdaBoost und seine Analyse kann erweitern werden, um schwache Hypothesen zu verarbeiten, die wirklich gewertete oder Konfidenz-bewertete Vorhersagen ausgeben. D. h., für jede Instanz x gibt die schwache Hypothese ht eine Vorhersage ht(x) ∈ R aus, dessen Vorzeichen das vorhergesagte Kennzeichen (–1 oder +1) und dessen Betrag |ht(x)| ein Maß für die "Konfidenz" in der Vorhersage angibt. Zu Erläuterungszwecken fokussieren jedoch die beispielhaften, nicht einschränkenden Ausführungsformen der Erfindung auf den Fall der binär ({–1,+1}) gewerteten Schwach-Hypothesen-Vorhersagen. Viele Lernprobleme der realen Welt sind jedoch mehrklassig mit mehr als zwei möglichen Klassen, und es gibt verschiedene Verfahren des Erweiterns von AdaBoost auf den Mehrklassenfall im Stand der Technik.
  • Eine wichtige Eigenschaft von AdaBoost betrifft seine Fähigkeit, den Lernfehler zu reduzieren. AdaBoost ist auch anpassungsfähig dahingehend, dass es sich an die Fehlerraten der individuellen schwachen Hypothesen anpasst. Dies ist auch die Basis für seinen Namen: "Ada" steht kurz für "adaptiv".
  • Boosting-Entscheidungsbaum-Lernalgorithmen können hervorragende Klassifikatoren hervorbringen. Ein einfacher Entscheidungsbaum ist in 2(a) abgebildet. Der Entscheidungsbaum weist zwei Entscheidungsknoten und drei Vorhersageblätter auf. Der Baum definiert eine binäre Klassifikationsregel, die Instanzen der Form (a,b) ∈ R2 in ein oder mehrere Klassen zuordnet, die mit –1 und +1 bezeichnet sind. 2(b) veranschaulicht eine unterschiedliche Darstellung derselben Klassifikationsregel. In dieser Darstellung wird jeder Entscheidungsknoten durch zwei Knoten ersetzt: (1) ein Vorhersageknoten, dargestellt durch eine Ellipse; und (2) ein Splitknoten, der durch ein Rechteck dargestellt ist. Der Entscheidungsknoten ist mit dem aus 2(a) identisch, wohingegen der Vorhersageknoten nun mit einer realen bewerteten Zahl verknüpft ist. Damit wird eine Instanz einem Pfad entlang des Baumes von der Wurzel zu einem der Blätter zugeordnet. Die Klassifikation, die dem Pfad zugeordnet ist, ist jedoch nicht das Kennzeichen des Blattes, sondern vielmehr das Vorzeichen der Summe der Vorhersagen entlang des Pfades. Z. B. ist die Klassifikation der Instanz a = b = 0,5 sign(0,5 – 0,7 – 0,2) = sign (–0,4) = –1. Es ist einfach zu überprüfen, dass die zwei Bäume dieselbe Klassifikationsregel definieren. Es ist ebenfalls klar, dass viele unterschiedliche Bäume der zweiten Art denselben Baum der ersten Art darstellen können. Die zweite Darstellung bezeichnet man als "alternierende Baumdarstellung" aus dem Grund, dass sie alternierende Schichten von Vorhersageknoten und Splitknoten aufweist.
  • Alternierende Bäume können als eine Wahl über einfache Vorhersageregeln wie folgt dargestellt werden. Der Baum in 2(b) kann derart betrachtet werden, dass er einen Wurzelvorhersageknoten und zwei Einheiten von jeweils drei Knoten: einen Entscheidungsknoten und die beiden Vorhersageknoten, die seine Kinder sind, umfasst. Die in 2(b) beschriebene Klassifikationsregel kann nun erneut als eine gewichtete Mehrheitswahl geschrieben werden durch Verbinden einer einfachen Regel der folgenden Form mit jedem der Entscheidungsknoten:
    Figure 00110001
    Figure 00120001
  • Insbesondere können die nachfolgenden beiden Regeln mit den Entscheidungsknoten aus 2(b) verknüpft werden:
    Figure 00120002
  • Durch Kombinieren dieser beiden Regeln mit der konstanten Vorhersage, die mit dem Wurzelknoten verbunden ist, kann man die Klassifikationsregel, die durch den Entscheidungsbaum dargestellt ist als: sign(0,5 + r1(a,b) + r2(a,b)) schreiben. Diese Regeln werden auch als Grundregeln bezeichnet.
  • Diese Transformation ermöglicht es, einen beliebigen Standard-Entscheidungsbaum als eine Summe von Grundregeln darzustellen, von denen jede einem der Entscheidungsknoten in dem Baum entspricht. Im Allgemeinen ist "precondition" die Konjunktion von Bedingungen, die zu einem gegebenen Entscheidungsknoten führen, "condition" ist die Entscheidung, die mit diesem Knoten verknüpft ist, und "p1, p2" sind die mit den beiden Kindern des Entscheidungsknotens verbundenen Vorbedingungen.
  • Standard-Entscheidungsbäume können auf allgemeine alternierende Entscheidungsbäume verallgemeinert werden, um eine flexiblere Semantik zur Darstellung von Klassifikatoren bereitzustellen. Standard-Entscheidungsbäume definieren eine Partition des Instanzenraumes in disjunkte Regionen. Die meisten Algorithmen für Lern-Entscheidungsbäume arbeiten durch iteratives Aufsplitten der Partitionen in zwei. Jeder Teil kann höchstens einmal gesplittet werden. Mit anderen Worten, nur Blattknoten können aufgesplittet werden. Bei allgemeinen alternierenden Entscheidungsbäumen jedoch kann jeder Teil mehrfach aufgesplittet werden. Kehrt man zu dem Beispiel zurück, ist anzumerken, dass bei dem in 2(b) abgebildeten alternierenden Baum jeder Vorhersageknoten höchstens einen Splitknoten aufweist der daran angeschlossen ist. In 2(c) wurden zwei Splitknoten hinzugefügt, um ein Beispiel eines allgemeinen alternierenden Baumes zu erhalten.
  • Ein allgemeiner alternierender Baum definiert eine Klassifikationsregel wie folgt. Eine Instanz definiert einen Satz von Pfaden in dem alternierenden Baum. Wenn ein Pfad einen Entscheidungsknoten erreicht, fährt er mit dem Kind fort, das dem Ausgang der Entscheidung entspricht, die mit dem Knoten verknüpft ist. Wenn jedoch ein Vorhersageknoten erreicht wird, fährt der Pfad fort mit allen Kindern des Knotens. Genauer gesagt, die Pfade spalten sich in einen Satz von Pfaden auf, die jeweils einem der Kinder des Vorhersageknotens entsprechen. Die Vereinigung aller auf diesem Weg erreichten Pfade für eine gegebene Instanz bezeichnet man als den "Multi-Pfad" (multi-path), der zu dieser Instanz gehörig ist. Das Vorzeichen der Summe aller Vorhersageknoten, die in einem Multi-Pfad umfasst sind, ist die Klassifikation, mit der der Baum die Instanz verbindet. Als Beispiele betrachte man die folgenden beiden Instanzen: wenn a = 1 und b = 0,5, dann ist die Klassifikation sign(0,5 + 0,3 – 0,7 – 0,2 + 0,1) = sign(0,1) = +1; wenn a = 5 und b = 1, dann ist die Klassifikation sign(0,5 + 0,2 + 0,3) = sign(1,0) = +1. In beiden Fällen ist die Klassifikation +1, die zweite Vorhersage kann jedoch als sicherer betrachtet werden als die erste.
  • Formal kann ein alternierender Entscheidungsbaum unter Verwendung der folgenden Notation und Definitionen gemäß einer Ausführungsform der Erfindung definiert werden. Eine Basisbedingung ist ein Boole'sches Prädikat über Instanzen. Das Symbol n wird verwendet, um die Konjunktion (AND) zu bezeich nen,
    Figure 00140001
    wird verwendet, um die Negation (NOT) zu bezeichnen, und T bezeichnet das konstante Prädikat, das immer wahr ist. Ein Satz von Basisbedingungen wird mit Θ bezeichnet. Eine Vorbedingung ist eine Konjunktion von Basisbedingungen und von Negationen der Basisbedingungen. Eine Grundregel r ist eine Zuordnung von Instanzen zu realen Zahlen, die in Bezug auf eine Vorbedingung c1, eine Basisbedingung c2 und zwei reale Zahlen a und b definiert ist. Die Grundregel ordnet jede Instanz einer Vorbedingung zu, die definiert ist als a, wenn c1 ∧ c2, als b, wenn c1
    Figure 00140002
    c2, und als 0, wenn
    Figure 00140003
    c1. Eine Grundregel wird mit r bezeichnet und r(x) bezeichnet den realen Wert, den die Regel mit der Instanz x verbindet. Mit diesen Definitionen weist ein alternierender Entscheidungsbaum einen Satz von Grundregeln auf, der Instanzen realen Zahlen zuordnet. Der Satz von Grundregeln muss den folgenden beiden Bedingungen gehorchen:
    • (1) Der Satz sollte eine Grundregel umfassen, für die sowohl die Bedingung als auch die Vorbedingung T sind. Der a-Wert dieser Regel ist die Vorbedingung, die mit der Wurzel des Baumes verbunden ist.
    • (2) Eine Grundregel r mit der Vorbedingung d kann nur in dem Satz sein, wenn der Satz eine Regel r' mit der Vorbedingung c1 und die Basisbedingung c2 umfasst, so dass d = c1 ∧ c2 oder d = c1
      Figure 00140004
      c2. Hier entspricht d dem Vorhersageknoten, der das direkte Elternteil von r ist.
  • Der alternierende Baum ordnet jede Instanz einer realen bewerteten Vorhersage zu, die die Summe der Vorhersagen der Grundregeln in ihrem Satz ist. Die Klassifikation einer Instanz ist das Vorzeichen der Vorhersage.
  • Damit können alternierende Bäume als eine Summe von einfachen Grundregeln definiert werden. Die Grundregeln erzeugen Vorhersagen, die eine beliebige reale bewertete Zahl sein können. Im Ergebnis ist es eine einfache Sache, einen beliebigen Boosting-Algorithmus auf lernende alternierende Entscheidungsbäume von Stichproben anzuwenden. Die einzige Betrachtung hier ist, dass der Satz von Grundregeln (manchmal auch "schwache Hypothesen" genannt), die in jeder Stufe betrachtet werden, nicht konstant ist, sondern anwächst, wenn der Baum wächst.
  • Ein alternierender Entscheidungslern-Algorithmus gemäß einer Ausführungsform der Erfindung ist in 3 dargestellt. Für Erläuterungszwecke betrachte man einen Satz von Ungleichheitsbedingungen, der ein einzelnes Merkmal mit einer Konstanten vergleicht. Dieser Satz von Bedingungen ist ausreichend beschränkt, dass es machbar ist, alle möglichen Grundregeln aufzuzählen, die einem gegebenen Baum für einen gegebenen Trainingssatz hinzugefügt werden können. Unter Bezugnahme auf die Figur nimmt der Algorithmus bei Schritt 3.1 als Eingang einen Trainingssatz (x1, y1), ..., (xm, ym), wobei xi ∈ Rd und yi ∈ {+1,–1}, und ein fester Satz von Basisbedingungen wird mit 0 bezeichnet. Die Basisbedingungen sind Boolesche Prädikate, die ein einzelnes Merkmal und eine Konstante vergleichen. Der Algorithmus enthält zwei Sätze, einen Satz von Vorbedingungen und einen Satz von Regeln. Die Symbole Pt bzw. Rt entsprechen diesen beiden Sätzen bei der Boosting-Iteration t. Der initiale Vorbedingungssatz ist P1 = {T} bei Schritt 3.2. Der Algorithmus verbindet eine positive Gewichtung mit jedem Trainingsbeispiel. Man bezeichnet mit wi,t die Gewichtung des Beispiels i bei der Boosting-Iteration t. Die Anfangsgewichtungen werden bei Schritt 3.3 als wi, 0 = 1 für alle Beispiele 1 ≤ i ≤ m gesetzt. Dieser Satz von Regeln, der den Baum bildet, wird bei Schritt 3.4 auf eine einzelne Grundreel initialisiert, deren Vorbedingung und Basisbedingung beide T sind und dessen erster Vorhersagewert
    Figure 00150001
    ist. Die Notation W(c) stellt die Gesamtgewichtung der Trainingsbeispiele dar, die dem Prädikat c genügen, und W+(c),+W(c) bezeichnen die Gesamtgewichtung dieser Beispiele, die c genügen und die mit +1 bzw. –1 gekennzeichnet sind (d. h.
  • W(c) = W+(c)+W(c)). Diese Regel stellt die beste konstante Vorhersage für den gesamten Datensatz dar und wird an der Wurzel des Baumes angeordnet.
  • Der Baum wächst beginnend bei Schritt 3.5 iterativ an, wobei jeweils eine Grundregel hinzugefügt wird. Bei Schritt 3.6 werden eine Vorbedingung c1 und eine Basisbedingung c2 ausgewählt, die die Funktion Zt(c1, c2) minimieren, wie in der Figur angegeben. Eine neue Grundregel wird anschließend zu dem ADT (alternierenden Entscheidungsbaum; alternating decision tree) bei Schritt 3.7 hinzugefügt, deren Vorbedingung c1, Basisbedingung c2 sind und dessen beide Vorhersagewerte
    Figure 00160001
    sind. Die hinzugefügte Grundregel entspricht einem Unterbaum mit einem Entscheidungsknoten als dessen Wurzel und zwei Vorhersageknoten als Blätter. Dieser Unterbaum wird als ein Kind eines Vorhersageknotens hinzugefügt, der ein Blattknoten sein kann oder nicht. Bei Schritt 3.8 wird der Vorhersagesatz mit dem Hinzufügen der Bedingungen c1 ∧ c2 und c1
    Figure 00160002
    c2 zu dem Satz aktualisiert. Die Gewichtungen jedes Trainingsbeispiels werden bei Schritt 3.9 gemäß der Gleichung in der Figur aktualisiert. Man beachte, dass, wenn r(xi) = 0 ist, die Gewichtung unverändert bleibt.
  • Nach T Iterationen wird der ADT, der durch den Satz von Grundregeln RT+1 dargestellt wird, bei Schritt 3.10 ausgegeben. In dieser Beschreibung wurde ein Kriterium zum Stoppen des Boosting-Prozesses nicht spezifiziert, oder mit anderen Worten wie man T wählt, den Maximalwert für den Iterationszähler t. Eine beispielhafte nicht einschränkende Technik für das Anhalten des Boostings verwendet eine Kreuzvalidierung.
  • Wenn man den ADT für die Analyse und Klassifikation neuer Daten verwendet, ist die Ausgabe bei Schritt 3.11 eine Klassifikationsregel, die das Vorzeichen der Summe der Vorhersagen aller Grundregeln in RT+1 ist:
    Figure 00170001
  • Die Interpretation der alternierenden Bäume beruht auf der Tatsache, dass der Beitrag jedes Entscheidungsknotens nicht in Isolation verstanden werden kann. Das Aufsummieren dieser Beiträge erzeugt die Vorhersage und die Klassifikation. Nach Aufsammeln der Bedeutung jedes Entscheidungsknotens getrennt kann man die Interaktionen der Knoten analysieren. Parallele Entscheidungsknoten stellen wenig oder keine Interaktion dar. Im Gegensatz zur Unabhängigkeit von parallelen Entscheidungsknoten hängt die Signifikanz der Entscheidungsknoten auf tieferer Ebene von der Evaluierung ihrer Stamm-Entscheidungsknoten ab. Die Entscheidungsknotenstruktur kann Abhängigkeiten zwischen Indikatoren darstellen. Die Wurzel des Baumes ist mit einem festen (unbedingten) Beitrag verbunden, der die Wahrscheinlichkeit einer Vorhersage vor dem Testen eines beliebigen Merkmalwertes ist. Alle Beiträge werden aufsummiert, um die endgültige Vorhersage zu ergeben, und diese Vorhersage wird grenzbewertet, um die Klassifikation zu ergeben. Dies bedeutet, dass, wenn die in dem Baum gegebenen Bedingungen seriell getestet werden, man den Beweis für oder gegen die Gesundheit der Person mit dem Fortschreiten akkumuliert. Wenn an einem gewissen Zwischenpunkt während dieses Prozesses eine Summe auftritt, deren absoluter Wert groß ist, und der Gesamtbeitrag aller der (ungetesteten) Vorhersageknoten klein ist, dann besteht kein Bedarf, die Berechnung fortzuführen, da das vorliegende Vorzeichen der Summe sich nicht verändern kann. Der absolute Wert der Summe kann als ein Maß für die Konfidenz der Klassifikation gedacht werden.
  • Die Klassifikationsregeln, die durch das Kombinieren eines alternierenden Baumes mit Boosting gemäß einer Ausführungsform der Erfindung erzeugt wurden, sind oft einfacher und leichter zu deuten als die, die durch frühere Lerntechniken erzeugt wurden, und stellen ein Maß für die Konfidenz dar.
  • Ein Verfahren gemäß einer Ausführungsform der Erfindung wurde auf SELDI MS Daten von ALS-Patienten und neurologische Kontrollen angewendet. Das Ziel dieser Studie war es, bestimmte Sätze von ALS-diagnostischen Proteinfingerabdrücken basierend auf WCX SELDI Spitzenwerten in CSF zu identifizieren, die in einer klinischen Situation verwendet werden sollten. Eine univariante Analyse wurde auf 30 WCX SELDI Spitzenwerte zwischen 36 ALS-Patienten und 31 neurologischen Kontrollen angewendet. Das statistische Verfahren setzt sich aus Standard t-Test und dessen Bonferroni-Korrektur zusammen. 4 ist eine Tabelle von Ergebnissen der univarianten Analyse dieser WCX SELDI 30 Spitzenwerte zwischen den 36 ALS-Patienten und 31 neurologischen Kontrollen. Wie in der Tabelle angegeben beträgt der am signifikantesten unterschiedliche WCX SELDI Spitzenwert 6690, der einen t-Test p-Wert von 1,05%10–9 aufweist.
  • Ein AdaBoost-Algorithmus gemäß einer Ausführungsform der Erfindung wurde verwendet, um Entscheidungsregeln zu lernen, die alternierende Entscheidungsbäume bilden, und um Klassifikationsregeln zu erzeugen, während man die meisten charakteristischen SELDI Spitzenwerte bestimmt. Die 5(a)-(b) stellen beispielhafte Klassifikatoren in einem Format eines alternierenden Baums von fünf Runden AdaBoost-Training dar: (a) alternierender Entscheidungsbaum; und (b) die entsprechenden Entscheidungsregeln. Wie in den Figuren dargestellt wurde in dieser Studie ein alternierender Entscheidungsbaum angewendet, um einen Klassifikator basierend auf WCX Proteinart-Änderungen zu erstellen. Der alternierende Entscheidungsbaum für Diagnosevorhersage, der in 5(a) dargestellt ist, kann ebenfalls auf Sätze von äquivalenten Entscheidungsregeln transformiert werden, die in 5(b) dargestellt sind, wodurch der Klassifikator in einem Satz von Entscheidungsregeln durch fünf Runden Training unter Verwendung von AdaBoost dargestellt wird.
  • Bei Verwendung dieses Ansatzes errichtet der Lernalgorithmus einen alternierenden Entscheidungsbaum mit einer von "oben-nach-unten"-Strategie (top-down), die auf SELDI MS Spitzenwerten von den ALS-Patienten und den bei dieser Studie verwendeten neurologischen Kontrollfällen basiert. Ein alternierender Entscheidungsbaum enthält Splitknoten (mit einem Test verbunden) und Vorhersageknoten (mit einem Wert verbunden). Bei jedem Boosting-Schritt wählt er aus und fügt eine neue Regel oder in äquivalenter Weise eine neue Einheit hinzu, die aus einem Splitknoten und zwei Vorhersageknoten besteht; und die Gewichtungen werden aktualisiert. Die Vorhersagewerte werden gemäß der Regelsatz-Aktualisierungsberechnungsformel in den in 3 abgebildeten Algorithmen ausgewählt. Der Anfangsvorhersagewert, in 5(a) am Wurzelvorhersageknoten als +0, 075 angegeben, wird als
    Figure 00190001
    definiert, wobei W+(T) und W(T) die entsprechenden Summen der Gewichtungen der positiven (negativen) Beispiele sind, die eine geweisse Bedingung erfüllen. Für den Wurzelvorhersageknoten ist die die anfängliche "Wahr"-Bedingung.
  • Wie in 5(a) dargestellt, wurde eine diagnostische Vorhersage basierend auf WCX SELDI Spitzenwerten als ein Vorzeichen der Summe der Vorhersagen entlang der betreffenden Pfade in dem Baum angegeben. Der reale Wert dieser Summe wurde verwendet, um die Konfidenz beim Vorhersagen einer ALS-Diagnose zu bestimmen. Wenn zum Beispiel zwei WCX SELDI Spitzenwerte ein m/z 6690 und ein m/z 22810 mit einem p-Wert von 0,2449 bzw. 0,0545 aufweisen, wie das bei einem der Pfade der Fall ist, der in dem zweiten Knoten von 5(a) endet, dann ist die Summe der Vorhersagen (+0,075 – 0,331 + 1,302) = +1,046. Da die Summe positiv ist, klassifizierte der Algorithmus diese als +1, was bedeutet, dass diese SELDI Spitzenwerte diagnostisch ALS mit einer hohen relativen Konfidenz (>1,0 in diesem Fall) vorhersagten.
  • Um die AdaBoost-diagnostische Fähigkeit zu bewerten, wurde ein 10-facher Kreuzvalidierungstest verwendet. Unter Verwen dung der in dieser Studie erfassten WCX SELDI MS Spitzenwerte wurden 9/10 der Daten von sowohl positiven als auch negativen Stichproben als Trainingssatz ausgewählt, das verbleibende 1/10 der Daten wurde zum Testen verwendet, und der Prozess wurde mehrfach wiederholt. Die Vorhersageergebnisse wurden unter Verwendung einer 10-fachen Kreuzvalidierung bewertet, und die echt positiven (TP; true positive) Treffer, falsch positiven (FP) Treffer, echt negativen (TN; true negative) Treffer und falsch negativen (FN) Treffer wurden berechnet. Unter Verwendung dieses Ansatzes wurde die Vorhersagefähigkeit des AdaBoost-Klassifikationsverfahrens hinsichtlich Sensitivität und Spezifität evaluiert (Sensitivität = TP/(TP + FN); Spezifität = TN/(TN + FP)). 6 ist eine Ergebnistabelle einer WCX SELDI Diagnose mittels AdaBoost. Die Ergebnisse in der Tabelle basieren auf einer 10-fachen Kreuzvalidierung; die Daten werden aus den ALS vs. Peskind-Kontrollfällen unter Verwendung des WCX-Analyseverfahrens berechnet. Wie in der Tabelle dargestellt wurde herausgefunden, dass die Sensitivität dieses diagnostischen Verfahrens 77,8% und die Spezifität 77,4 beträgt.
  • Eine ROC-Kurve (Receiver Operating Characteristic) wurde verwendet, um die diagnostische Leistungsfähigkeit eines Verfahrens gemäß einer Ausführungsform der Erfindung zu bewerten. Die ROC-Kurve ist eine graphische Darstellung der echt-positiv-Rate (Sensitivität) gegenüber der falsch-positiv-Rate (1-Spezifität) für die unterschiedlichen möglichen Referenzgrenzen (Cut-off-points) eines diagnostischen Tests, z. B. auf ALS. 7 ist eine graphische Darstellung von ROC-Kurven basierend auf einer AdaBoost-Klassifikation von der ALS vs. Peskind-Kontrolle, die durch das WCX-Verfahren erhalten wurde. Die ROC-Kurven wurden durch das Ändern des Cut-off-Wertes des Klassifikationsalgorithmus erzeugt und bilden die Beziehung zwischen der echt-positiv-Rate und der falsch-positiv-Rate ab. Die durchgezogene Kurve zeigt die Klassifikationsergebnisse nach 100 Lernrunden, währen die gepunktete Kurve die Klassifikationsergebnisse nach 50 Lernrunden dar stellt. Die gestrichelte Kurve gibt die Klassifikationsergebnisse nach 5 Lernrunden an. Deutlich steigt mit zunehmendem Lernen die Fläche unter der ROC-Kurve an, d. h. die Leistung des Algorithmus verbessert sich. Die oberen vier am meisten signifikanten SELDI-Spitzenwerte waren 6690 (der wichtigste Spitzenwert); 22516; 23211; 1185. Die Klassifikationsergebnisse wurden mit der Differentialanalyse (t-Test mit Bonferroni-Korrektur) für unterschiedliche Spitzenwerte verglichen. Der Top-Differentialspitzenwert ist: m/z = 6690, der einen p-Wert von 1,05%10–9 und einen p-Wert nach Bonferroni-Korrektur von 3,16%10–8 aufweist. Damit ist die wichtigste Entscheidungsregel basierend auf den Boosting-Ergebnissen konsistent mit der Differentialanalyse.
  • Es versteht sich, dass die vorliegende Erfindung in unterschiedlichen Formen von Hardware, Software, Firmware, Spezialzweckprozessen oder einer Kombination davon implementiert werden kann. In einer Ausführungsform kann die vorliegende Erfindung in Software als ein Anwendungsprogramm, das konkret auf einer Computer-lesbaren Programmspeichervorrichtung verkörpert ist, implementiert werden. Das Anwendungsprogramm kann auf eine Maschine hochgeladen und von ihr ausgeführt werden, die eine beliebige geeignete Architektur aufweist.
  • 8 ist ein Blockschaltbild eines beispielhaften Computersystems zum Implementieren eines auf Boosting basierenden alternierenden Entscheidungsbaum-Klassifikators gemäß einer Ausführungsform der Erfindung. Unter Bezugnahme auf die 8 kann ein Computersystem 81 zur Implementierung der vorliegenden Erfindung unter anderem eine zentrale Verarbeitungseinheit (Central Processing Unit; CPU) 82, einen Speicher 83 und eine Eingabe/Ausgabe (E/A)-Schnittstelle 84 aufweisen. Das Computersystem 81 ist im Allgemeinen über die E/A-Schnittstelle 84 mit einer Anzeige 85 und verschiedenen Eingabevorrichtungen 86 wie z. B. einer Maus und einer Tastatur gekoppelt. Die Unterstützungsschaltungen können Schaltungen wie z. B. Zwischenspeicher, Stromversorgung, Taktschaltungen und einen Kommunikationsbus umfassen. Der Speicher 83 kann Direktzugriffsspeicher (Random Access Memory; RAM), Festwertspeicher (Read Only Memory; ROM), ein Festplattenlaufwerk, ein Bandlaufwerk usw. oder Kombinationen davon umfassen. Die vorliegende Erfindung kann als ein Ablauf 87, der im Speicher 83 gespeichert ist und von der CPU 82 ausgeführt wird, implementiert werden, um das Signal von der Signalquelle 88 zu verarbeiten. Als solches ist das Computersystem 81 ein Allzweck-Computersystem, das zu einem Spezialzweck-Computersystem wird, wenn der Ablauf 87 der vorliegenden Erfindung ausgeführt wird.
  • Das Computersystem 81 umfasst ebenfalls ein Betriebssystem und Mikrobefehlscode. Die verschiedenen hierin beschriebenen Prozesse und Funktionen können entweder Teil des Mikrobefehlscodes oder Teil des Anwendungsprogramms (oder einer Kombination davon) sein, das über das Betriebssystem ausgeführt wird. Zusätzlich können andere Peripherieeinrichtungen mit der Computerplattform verbunden sein wie z. B. eine zusätzliche Datenspeichervorrichtung und eine Druckeinrichtung.
  • Es versteht sich des Weiteren, dass, da einige der systembildenden Komponenten und Verfahrensschritte, die in den beigefügten Figuren abgebildet sind, in Software implementiert werden können, die eigentlichen Verbindungen zwischen den Systemkomponenten (oder den Prozessschritten) je nach Art und Weise, in der die vorliegende Erfindung programmiert ist, unterschiedlich sein können. Mit der hierin bereit gestellten gegebenen Lehre der vorliegenden Erfindung wird der Fachmann auf dem einschlägigen Fachgebiet in der Lage sein, diese und ähnliche Implementierungen oder Konfigurationen der vorliegenden Erfindung zu betrachten.
  • Während die vorliegende Erfindung unter Bezugnahme auf eine bevorzugte Ausführungsform im Detail beschrieben wurde, wird der Fachmann schätzen, dass verschiedene Modifikationen und Ersetzungen daran durchgeführt werden können, ohne vom Wesen und Umfang der wie in den beigefügten Ansprüchen dargelegten Erfindung abzuweichen.

Claims (23)

  1. Verfahren zum Diagnostizieren der Amyotrophen Lateralsklerose mit den folgenden Schritten: Bereitstellen von oberflächenaktivierten Laserdesorptions-/-ionisations-Massenspektrometrie-Daten (surfaceenhanced laser desorption/ionisation mass spectromatic data; SELDI-MS) einer Vielzahl von Proteinen, wobei die Daten von einem Patienten ermittelt wurden und eine Vielzahl von Spitzenwerten aufweisen; und Analysieren der Spitzenwerte mit einem alternierenden Entscheidungsbaum, der einen Satz von Tests der Datenspitzenwerte und zugehörige Vorhersagewerte aufweist, wobei die Daten prädiktiv für eine Senke sind, wenn eine Summe der Vorhersagewerte des Baumes größer als 1,0 ist.
  2. Verfahren nach Anspruch 1, wobei die SELDI-MS Spitzenwerte aus einer univarianten Analyse von SELDI-MS Daten identifiziert werden, die aus einer Vielzahl von Patienten ermittelt wurden, einschließlich Patienten, die mit amyotropher Lateralsklerose diagnostiziert wurden, und Kontrollpatienten.
  3. Verfahren nach Anspruch 2, wobei die univariante Analyse das Durchführen eines Standard t-Tests und einer Bonferroni-Korrektur umfasst.
  4. Verfahren nach Anspruch 2, wobei der alternierende Entscheidungsbaum durch Anwenden eines Boosting-Algorithmus auf die SELDI-MS Spitzenwerte trainiert wird, die aus der Vielzahl von Patienten identifiziert wurden.
  5. Verfahren nach Anspruch 4, wobei der Boosting-Algorithmus folgende Schritte aufweist: Bereitstellen eines Satzes von Trainingsbeispielen (x1, y1), ..., (xm, ym), wobei xi ∈ Rd und yi ∈ {–1,+1} gilt; Bereitstellen eines Satzes von Basisbedingungen; Initialisieren eines Satzes von Vorbedingungen auf WAHR; Initialisieren eines Satzes von Gewichtungen für die Trainingsbeispiele auf einen gleichen Anfangswert; Initialisieren des alternierenden Entscheidungsbaumes auf eine einzige Regel mit einer Vorbedingung und einer Basisbedingung, die beide auf WAHR gesetzt werden; Hinzufügen einer neuen Regel zu dem alternierenden Entscheidungsbaum, wobei die neue Regel eine Basisbedingung und eine Vorbedingung aufweist, die eine Vorhersagefunktion minimieren; Aktualisieren des Vorhersagesatzes mit einer Konjunktion der Basisbedingung und einer Negation der Basisbedingung; und Aktualisieren des Satzes von Gewichtungen basierend auf den Vorhersagewerten der neuen Regel.
  6. Verfahren nach Anspruch 5, wobei die Vorhersagefunktion Zt(c1, c2), wobei c1 eine Vorbedingung und c2 eine Basisbedingung darstellt, definiert ist durch
    Figure 00250001
    wobei W+(c), W(c) die Gesamtgewichtung von Trainingssatzbeispielen bezeichnen, die c genügen.
  7. Verfahren nach Anspruch 5, wobei die Vorhersagewerte der neuen Regel
    Figure 00250002
    sind, wobei c1 eine Vorbedingung und c2 eine Basisbedingung dar stellt, und wobei W+(c), W(c) die Gesamtgewichtung der Trainingssatzbeispiele bezeichnen, die c genügen.
  8. Verfahren nach Anspruch 7, wobei das Aktualisieren des Satzes von Gewichtungen das Multiplizieren jeder Gewichtung mit exp(–yir(xi)) umfasst, wobei r(xi) einen wert darstellt, der mit dem Trainingsbeispiel xi durch die neue Regel r verbunden ist, und wobei yi ∈ {–1,+1} gilt.
  9. Verfahren nach Anspruch 1, wobei die Proteine aus der zerebrospinalen Flüssigkeit eines Patienten entnommen wurden.
  10. Verfahren nach Anspruch 1, wobei die Vielzahl von Proteinen auf einem schwachen kationischen Austausch-Chip absorbiert wurde.
  11. Verfahren zum Diagnostizieren von amyothropher Lateralsklerose mit den folgenden Schritten: Bereitstellen von oberflächenaktivierten Laser-Desorptions-/-ionisations-Massenspektrometrie-Daten (surface enhanced laser desorption/ionisation mass spectrometric data; SELDI-MS) einer Vielzahl von Proteinen, wobei die Daten aus einer Vielzahl von Patienten ermittelt wurden einschließlich Patienten, die mit amyotropher Lateralsklerose diagnostiziert wurden, und Kontrollpatienten, statistisches Analysieren der Daten, um signifikante Spitzenwerte zu identifizieren; und Trainieren eines alternierenden Entscheidungsbaumes mit einem Boosting-Algorithmus unter Verwendung der signifikanten Spitzenwerte, wobei der alternierende Entscheidungsbaum einen Satz von Tests von Spitzenwerten und dazu gehörige Vorhersagewerte aufweist.
  12. Verfahren nach Anspruch 11, das des Weiteren die Verwendung eines alternierenden Entscheidungsbaumes aufweist, um SELDI-MS-Daten zu analysieren, die von einem neuen Patienten erhalten wurden.
  13. Verfahren nach Anspruch 12, wobei eine Ausgabe der alternierenden Entscheidungsbaumanalyse der neuen Patientendaten prädiktiv für amyotrophe Lateralsklerose ist, wenn eine Summe der Vorhersagewerte des Baumes größer als 1,0 ist.
  14. Computerlesbare Programmspeichervorrichtung, die konkret ein Programm von Befehlen verkörpert, die durch den Computer ausführbar sind, um die Verfahrensschritte zum Diagnostizieren von amyotropher Lateralsklerose durchzuführen, das folgende Schritte aufweist: Bereitstellen von oberflächenaktivierten Laser Desorptions-/-ionisations-Massenspektrometrie-Daten (surface enhanced laser desorption/ionisation mass spectrometric data; SELDI-MS) einer Vielzahl von Proteinen, wobei die Daten von einem Patienten erhalten wurden und eine Vielzahl von Spitzenwerten aufweisen; und Analysieren der Spitzenwerte mit einem alternierenden Entscheidungsbaum, der einen Satz von Tests der Datenspitzenwerte und zugehörigen Vorhersagewerte aufweist, wobei die Daten prädiktiv für eine Senke sind, wenn eine Summe der Vorhersagewerte des Baumes größer als 1,0 ist.
  15. Computerlesbare Programmspeichervorrichtung nach Anspruch 14, wobei die SELDI-MS Spitzenwerte auf einer univarianten Analyse von SELDI-MS Daten identifiziert werden, die aus einer Vielzahl von Patienten erhalten wurden, einschließlich Patienten, die mit amyotropher Lateralsklerose diagnostiziert wurden, und Kontrollpatienten.
  16. Computerlesbare Programmspeichervorrichtung nach Anspruch 14, wobei die univariante Analyse die Durchführung eines Standard t-Tests und einer Bonferroni-Korrektur aufweist.
  17. Computerlesbare Programmspeichervorrichtung nach Anspruch 14, wobei der alternierende Entscheidungsbaum durch Anwenden eines Boosting-Algorithmus auf die SELDI-MS Spitzenwerte trainiert wird, die aus der Vielzahl von Patienten identifiziert wurden.
  18. Computerlesbare Programmspeichervorrichtung nach Anspruch 17, wobei der Boosting-Algorithmus folgende Schritte aufweist: Bereitstellen eines Satzes von Trainingsbeispielen (x1, y1), ..., (xm, ym), wobei xi ∈ Rd und yi ∈ {–1,+1}; Bereitstellen eines Satzes von Basisbedingungen; Initialisieren eines Satzes von Vorbedingungen auf WAHR; Initialisieren eines Satzes von Gewichtungen für die Trainingsbeispiele auf einen selben Anfangswert; Initialisieren des alternierenden Entscheidungsbaums auf eine einzige Regel mit einer Vorbedingung und einer Basisbedingung, die beide auf WAHR gesetzt werden; Hinzufügen einer neuen Regel zu dem alternierenden Entscheidungsbaum, wobei die neue Regel eine Basisbedingung und eine Vorbedingung aufweist, die eine Vorhersagefunktion minimieren; Aktualisieren des Vorhersagesatzes mit einer Konjunktion der Basisbedingung und einer Negation der Basisbedingung; und Aktualisieren des Satzes von Gewichtungen basierend auf den Vorhersagewerten der neuen Regel.
  19. Computerlesbare Programmspeichervorrichtung nach Anspruch 18, wobei die Vorhersagefunktion Zt (c1, c2), wobei c1 eine Vorbedingung und c2 eine Basisbedingung darstellt, definiert ist durch
    Figure 00290001
    wobei W+(c), W(c) die Gesamtgewichtung von Trainingssatzbeispielen bezeichnen, die c genügen.
  20. Computerlesbare Programmspeichervorrichtung nach Anspruch 18, wobei die Vorhersagewerte der neuen Regel
    Figure 00290002
    sind, wobei c1 eine Vorbedingung und c2 eine Basisbedingung darstellt, und wobei W+(c), W(c) die Gesamtgewichtung der Trainingssatzbeispiele bezeichnen, die c genügen.
  21. Computerlesbare Programmspeichervorrichtung nach Anspruch 20, wobei das Aktualisieren des Satzes von Gewichtungen das Multiplizieren jeder Gewichtung mit exp(–yir(xi)) umfasst, wobei r(xi) einen Wert darstellt, der mit dem Trainingsbeispiel xi durch die neue Regel r verbunden ist, und wobei yi ∈ {–1,+1} gilt.
  22. Computerlesbare Programmspeichervorrichtung nach Anspruch 14, wobei die Proteine aus der zerebrospinalen Flüssigkeit eines Patienten entnommen wurden.
  23. Computerlesbare Programmspeichervorrichtung nach Anspruch 14, wobei die Vielzahl von Proteinen auf einem schwachen kationischen Austausch-Chip absorbiert wurde.
DE102006001780A 2005-01-14 2006-01-12 System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation Withdrawn DE102006001780A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US64415405P 2005-01-14 2005-01-14
US60/644,154 2005-01-14

Publications (1)

Publication Number Publication Date
DE102006001780A1 true DE102006001780A1 (de) 2006-08-24

Family

ID=36776351

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102006001780A Withdrawn DE102006001780A1 (de) 2005-01-14 2006-01-12 System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation

Country Status (2)

Country Link
US (1) US7356521B2 (de)
DE (1) DE102006001780A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962215B2 (en) 2004-07-23 2011-06-14 Synapse Biomedical, Inc. Ventilatory assist system and methods to improve respiratory function
US9050005B2 (en) 2005-08-25 2015-06-09 Synapse Biomedical, Inc. Method and apparatus for transgastric neurostimulation
US20080097153A1 (en) * 2006-08-24 2008-04-24 Ignagni Anthony R Method and apparatus for grasping an abdominal wall
US9079016B2 (en) * 2007-02-05 2015-07-14 Synapse Biomedical, Inc. Removable intramuscular electrode
WO2008144578A1 (en) * 2007-05-17 2008-11-27 Synapse Biomedical, Inc. Devices and methods for assessing motor point electromyogram as a biomarker
US8428726B2 (en) 2007-10-30 2013-04-23 Synapse Biomedical, Inc. Device and method of neuromodulation to effect a functionally restorative adaption of the neuromuscular system
WO2009059033A1 (en) 2007-10-30 2009-05-07 Synapse Biomedical, Inc. Method of improving sleep disordered breathing
WO2013130654A1 (en) 2012-02-29 2013-09-06 Coyote Pharmaceuticals, Inc. Gga and gga derivatives, compositions thereof and methods for treating neurodegenerative diseases including paralysis including them
US9119808B1 (en) 2012-10-08 2015-09-01 Coyote Pharmaceuticals, Inc. Treating neurodegenerative diseases with GGA or a derivative thereof
WO2015157669A1 (en) 2014-04-11 2015-10-15 Siemens Healthcare Diagnostics Inc. Spectroscopic methods for the detection of glycated hemoglobin
US11471683B2 (en) 2019-01-29 2022-10-18 Synapse Biomedical, Inc. Systems and methods for treating sleep apnea using neuromodulation
CN112861986B (zh) * 2021-03-02 2022-04-22 广东工业大学 一种基于卷积神经网络的血脂亚组分含量检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL129728A0 (en) * 1996-11-04 2000-02-29 Dimensional Pharm Inc System method and computer program product for the visualization and interactive processing and analysis of chemical data
CA2429633A1 (en) * 2000-11-16 2002-05-30 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
US6905827B2 (en) * 2001-06-08 2005-06-14 Expression Diagnostics, Inc. Methods and compositions for diagnosing or monitoring auto immune and chronic inflammatory diseases
US7026121B1 (en) * 2001-06-08 2006-04-11 Expression Diagnostics, Inc. Methods and compositions for diagnosing and monitoring transplant rejection

Also Published As

Publication number Publication date
US7356521B2 (en) 2008-04-08
US20060218109A1 (en) 2006-09-28

Similar Documents

Publication Publication Date Title
DE102006001780A1 (de) System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation
Hameed et al. Multi-class skin diseases classification using deep convolutional neural network and support vector machine
Banerjee et al. Semiparametric spatio‐temporal frailty modeling
Kabakchieva et al. Analyzing university data for determining student profiles and predicting performance
DE102015201688A1 (de) Verfahren und systeme zur analyse von gesundheitsdaten
Chaigneau et al. The role of variability in the property listing task
KR20190109710A (ko) 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 도구를 구축하기 위한 방법
DE102006001784A1 (de) System und Verfahren zur Molekulardiagnose von Depressionen auf der Grundlage eines Boosting der Klassifikation
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
Asogbon et al. A multi-class support vector machine approach for students academic performance prediction
Vargas Cardona et al. Multi-task learning for subthalamic nucleus identification in deep brain stimulation
EP4016543A1 (de) Verfahren und vorrichtung zur bereitstellung einer medizinischen information
DE112018005891T5 (de) Bibliotheks-Screening auf Krebswahrscheinlichkeit
Yao Hearing loss classification via stationary wavelet entropy and cat swarm optimization
Ninness et al. Neural network and multivariate analyses: Pattern recognition in academic and social research
DE102007044380A1 (de) Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes
Hou et al. Deep Clustering Survival Machines with Interpretable Expert Distributions
Baghfalaki et al. A transition model for analysis of zero-inflated longitudinal count data using generalized poisson regression model
Al_Rashid Predicting the behaviour of the senescence-accelerated mouse (Sam) strains (samps and samr) using machine learning algorithm
Qazi et al. A framework for optimizing measurement weight maps to minimize the required sample size
Moya et al. Check for Clustering ABI Patients for a Customized Rehabilitation Process
LU504466B1 (de) Nicht-therapeutisches klinisches diagnosesystem für neurologische syphilis basierend auf maschinellem lernen
Moya et al. Clustering ABI Patients for a Customized Rehabilitation Process
DE112021007611T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
Kowalski Marginal treatment effects and the external validity of the oregon health insurance experiment

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee