DE112018005891T5

DE112018005891T5 - Bibliotheks-Screening auf Krebswahrscheinlichkeit

Info

Publication number: DE112018005891T5
Application number: DE112018005891.3T
Authority: DE
Inventors: Avijit Chatterjee; Wendy Wang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-01-08
Filing date: 2018-12-21
Publication date: 2020-08-13
Also published as: US20190214141A1; CN111512381A; US20200350078A1; US11521749B2; GB202011046D0; GB2583310A; US20190362854A1; US11521747B2; WO2019135143A1; CN111512381B; JP7195514B2; JP2021509502A; US10692605B2

Abstract

Es werden ein Verfahren, ein System und ein Computerprogrammprodukt zum Erzeugen eines Vorhersagemodells bereitgestellt. Ein (Mehrere) Prozessor(en) erhält (erhalten) eine Rohdatei (Peptidbibliotheken) von Patienten, bei denen ein Zustand diagnostiziert/vordiagnostiziert oder nicht diagnostiziert wurde. Der (die) Prozessor(en) segmentiert (segmentieren) die Rohdatei in eine vordefinierte Anzahl von Gruppen und trennt (trennen) eine Ausschlussgruppe heraus. Der (die) Prozessor(en) führt (führen) eine Hauptkomponentenanalyse bei den übrigen Gruppen durch, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale (Hauptkomponenten) in den übrigen Gruppen zu identifizieren, und gewichtet (gewichten) die gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens. Der (Die) Prozessor(en) bestimmt (bestimmen) eine kleinste Anzahl der Hauptkomponenten, die einen vordefinierten Wert einer Validierungsgenauigkeit ergibt. Der (Die) Prozessor(en) erzeugt (erzeugen) ein Vorhersagemodell, indem er (sie) die kleinste Anzahl für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet (verwenden). Das Vorhersagemodell stellt binäre Ergebnisse bereit.

Description

HINTERGRUND
In den Vereinigten Staaten erkrankt etwa eine (1) von acht (8) Frauen (d.h. zwölf (12) Prozent) im Laufe ihres Lebens an invasivem Brustkrebs. Vor 2017 schätzten Organisationen des öffentlichen Gesundheitswesens, dass in den Vereinigten Staaten 252.710 neue Fälle von invasivem Brustkrebs und 63.410 neue Fälle von nichtinvasivem (In-situ-)Brustkrebs bei Frauen diagnostiziert würden. Bei einem In-situ-Krebsfall sind bösartige Zellen als Tumor vorhanden, jedoch haben diese weder Metastasen gebildet noch die Basalmembran durchdrungen, wo der Tumor entdeckt wurde. Trotz verbesserter Behandlungsmethoden wurde die Zahl der Todesfälle durch Brustkrebs für Frauen in den Vereinigten Staaten im Jahr 2017 auf etwa 40.610 geschätzt, was einen Rückgang darstellt, da die Zahl der Todesfälle seit 1989 jedes Jahr sinkt, insbesondere bei Frauen unter fünfzig (50) Jahren. Dennoch ist Brustkrebs von allen Krebserkrankungen unter Frauen die häufigste Todesursache in den Vereinigten Staaten. Es wird geschätzt, dass etwa dreißig (30) Prozent der neu diagnostizierten Krebserkrankungen bei Frauen Fälle von Brustkrebs sind. Zwar gibt es bestimmte genetische Indikatoren für ein erhöhtes Brustkrebsrisiko, jedoch treten etwa fünfundachtzig (85) Prozent der Brustkrebsfälle bei Frauen ohne familiäre Vorgeschichte von Brustkrebs auf. Gegenwärtig sind die wichtigsten Risikofaktoren für Brustkrebs das Geschlecht (Frau) und das Alter (Erreichen eines höheren Alters).
KURZDARSTELLUNG
Durch die Bereitstellung eines Computerprogrammprodukts zum Vorhersagen einer Zustandswahrscheinlichkeit werden die Mängel des Standes der Technik beseitigt und zusätzliche Vorteile bereitgestellt. Das Computerprogrammprodukt weist ein Speichermedium auf, das von einer Verarbeitungsschaltung lesbar ist und Anweisungen speichert, die von der Verarbeitungsschaltung zum Durchführen eines Verfahrens ausgeführt werden. Das Verfahren umfasst zum Beispiel: Erhalten einer Rohdatei (raw data set) durch den einen oder die mehreren Prozessoren, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde; Segmentieren der Rohdatei durch den einen oder die mehreren Prozessoren in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten von den übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen durch den einen oder die mehreren Prozessoren, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale in Daten der übrigen Gruppen durch den einen oder die mehreren Prozessoren zu identifizieren, und Gewichten der gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen, wobei die gemeinsamen Merkmale durch Koeffizienten dargestellte Hauptkomponenten aufweisen; Ermitteln einer kleinsten Anzahl der Hauptkomponenten durch das eine oder die mehreren Programme, die einen vordefinierten Wert der Validierungsgenauigkeit ergibt; und Erzeugen eines Vorhersagemodells durch den einen oder die mehreren Prozessoren, indem die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet wird, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.
Durch die Bereitstellung eines Systems zum Vorhersagen einer Zustandswahrscheinlichkeit werden die Mängel des Standes der Technik beseitigt und zusätzliche Vorteile werden bereitgestellt. Das Verfahren umfasst zum Beispiel: Erhalten einer Rohdatei durch einen oder mehrere Prozessoren, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde; Segmentieren der Rohdatei durch den einen oder die mehreren Prozessoren in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten von den übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen durch den einen oder die mehreren Prozessoren, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale in Daten der übrigen Gruppen durch den einen oder die mehreren Prozessoren zu identifizieren, und Gewichten der gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen, wobei die gemeinsamen Merkmale durch Koeffizienten dargestellte Hauptkomponenten aufweisen; Ermitteln einer kleinsten Anzahl der Hauptkomponenten durch das eine oder die mehreren Programme, die einen vordefinierten Wert der Validierungsgenauigkeit ergibt; und Erzeugen eines Vorhersagemodells durch den einen oder die mehreren Prozessoren, indem die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet wird, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.
Durch die Bereitstellung eines Systems zum Vorhersagen einer Zustandswahrscheinlichkeit werden die Mängel des Standes der Technik beseitigt und zusätzliche Vorteile bereitgestellt. Das System umfasst einen Speicher, einen oder mehrere Prozessoren, die mit dem Speicher Daten austauschen, und Programmanweisungen, die von dem einen oder den mehreren Prozessoren über den Speicher ausführbar sind, um ein Verfahren durchzuführen. Das Verfahren umfasst zum Beispiel: Erhalten einer Rohdatei durch den einen oder die mehreren Prozessoren, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde; Segmentieren der Rohdatei durch den einen oder die mehreren Prozessoren in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten von den übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen durch den einen oder die mehreren Prozessoren, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale in Daten der übrigen Gruppen durch den einen oder die mehreren Prozessoren zu identifizieren, und Gewichten der gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen, wobei die gemeinsamen Merkmale durch Koeffizienten dargestellte Hauptkomponenten aufweisen; Ermitteln einer kleinsten Anzahl der Hauptkomponenten durch das eine oder die mehreren Programme, die einen vordefinierten Wert der Validierungsgenauigkeit ergibt; und Erzeugen eines Vorhersagemodells durch den einen oder die mehreren Prozessoren, indem die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet wird, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.
Verfahren und Systeme in Bezug auf einen oder mehrere Aspekte werden hierin ebenfalls beschrieben und beansprucht. Ferner werden auch Dienste in Bezug auf einen oder mehrere Aspekte hierin beschrieben und beansprucht.
Zusätzliche Merkmale und Vorteile werden durch die hierin beschriebenen Techniken umgesetzt. In einigen Ausführungsformen der vorliegenden Erfindung umfasst das Verfahren Testen des Vorhersagemodells durch den einen oder die mehreren Prozessoren durch Anwenden der Koeffizienten, um für die Ausschlussgruppe zu verwendende Merkmale zu berechnen; und Anpassen des Vorhersagemodells durch den einen oder die mehreren Prozessoren durch Vergleichen der Merkmale für die Ausschlussgruppe mit den Hauptkomponenten. In einigen Ausführungsformen der vorliegenden Erfindung weisen die Peptidbibliotheken 12-mer Peptidbibliotheken auf, und/oder der Zustand weist Brustkrebs im Stadium I auf. In einigen Ausführungsformen der vorliegenden Erfindung weist Segmentieren Erzeugen von Zufallszahlen auf, um auszuwählen, welcher Datensatz der Rohdatei welcher der Gruppen zugewiesen wird.
In einigen Ausführungsformen der vorliegenden Erfindung umfasst das Verfahren vor dem Durchführen der Hauptkomponentenanalyse Normalisieren der die Rohdatei aufweisenden Peptide durch den einen oder die mehreren Prozessoren durch Addieren von Peptidwerten der Peptide aus allen Peptiden und Dividieren jedes Expressionswerts durch eine resultierende Summe, um ein Verhältnis zu berechnen.
In einigen Ausführungsformen der vorliegenden Erfindung weist Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen auf: Erzeugen von Trainingsdatensätzen durch den einen oder die mehreren Prozessoren, wobei jeder Trainingsdatensatz der Trainingsdatensätze Daten in allen außer einer Gruppe der übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse durch den einen oder die mehreren Prozessoren einzeln bei jedem Trainingsdatensatz, um gemeinsame Merkmale in jedem Trainingsdatensatz zu identifizieren; Ausführen einer Hauptkomponentenanalyse durch das eine oder die mehreren Programme durch Verwenden der übrigen Gruppen als einzelnen Trainingssatz, um gemeinsame Merkmale in dem einzelnen Trainingssatz zu identifizieren; und Durchführen einer Kreuzvalidierung der gemeinsamen Merkmale jedes Trainingsdatensatzes und der gemeinsamen Merkmale in dem einzelnen Trainingssatz, wobei die Kreuzvalidierung eine Anzahl von Aufteilungen (folds) aufweist, die einer Anzahl der übrigen Gruppen entspricht, um die Hauptkomponenten zu identifizieren und die Koeffizienten zu bestimmen. In einigen Ausführungsformen der vorliegenden Erfindung ist ein vordefinierter Wert der Validierungsgenauigkeit eine höchste Validierungsgenauigkeit auf Grundlage der Anzahl von Aufteilungen.
In einigen Ausführungsformen der vorliegenden Erfindung umfasst das Verfahren: Erhalten neuer Rohdaten durch den einen oder die mehreren Prozessoren, die eine 12-mer Peptidbibliothek einer gegebenen Person aufweisen; und Anwenden des Vorhersagemodells durch den einen oder die mehreren Prozessoren auf die neuen Rohdaten, um ein binäres Ergebnis für die gegebene Person zu ermitteln. In einigen Ausführungsformen der vorliegenden Erfindung umfasst Anwenden des Vorhersagemodells Durchführen einer Hauptkomponentenanalyse bei den neuen Rohdaten mithilfe der Koeffizienten und Durchführen einer logistischen Regression, um das binäre Ergebnis zu erzeugen.
Figurenliste
Ein oder mehrere Aspekte werden besonders hervorgehoben und in den Ansprüchen am Ende der Beschreibung eindeutig als Beispiele beansprucht. Das Vorstehende und andere Aufgaben, Merkmale und Vorteile ergeben sich aus der nachfolgenden ausführlichen Beschreibung in Verbindung mit den beigefügten Zeichnungen, in denen:

1 einen Arbeitsablauf darstellt, der bestimmte Aspekte einiger Ausführungsformen der vorliegenden Erfindung veranschaulicht.
2 einen Arbeitsablauf darstellt, der bestimmte Aspekte einiger Ausführungsformen der vorliegenden Erfindung veranschaulicht.
3 bestimmte Aspekte einer Ausführungsform der vorliegenden Erfindung darstellt.
4 einen Arbeitsablauf darstellt, der bestimmte Aspekte einiger Ausführungsformen der vorliegenden Erfindung veranschaulicht.
5 eine Ausführungsform eines Datenverarbeitungsknotens darstellt, der in einer Cloud-Computing-Umgebung verwendet werden kann;
6 eine Cloud-Computing-Umgebung gemäß Ausführungsformen der vorliegenden Erfindung darstellt; und
7 Abstraktionsmodellschichten gemäß Ausführungsformen der vorliegenden Erfindung darstellt.

AUSFÜHRLICHE BESCHREIBUNG
Die beigefügten Figuren, in denen sich gleiche Bezugszahlen auf identische oder funktional ähnliche Elemente in allen unterschiedlichen Ansichten beziehen und die in die Beschreibung aufgenommen sind und einen Teil davon bilden, veranschaulichen die vorliegende Erfindung weiter und dienen zusammen mit der ausführlichen Beschreibung der Erfindung dazu, die Grundgedanken der vorliegenden Erfindung zu erläutern. Für den Fachmann ist offensichtlich, dass die beigefügten Figuren dem besseren Verständnis dienen und Aspekte bestimmter Ausführungsformen der vorliegenden Erfindung veranschaulichen. Die Erfindung ist nicht auf die in den Figuren dargestellten Ausführungsformen beschränkt.
Für den Fachmann ist offensichtlich, dass Programmcode, auf den in dieser Anmeldung Bezug genommen wird, sowohl Software als auch Hardware umfasst. Beispielsweise umfasst Programmcode in bestimmten Ausführungsformen der vorliegenden Erfindung Hardware mit fester Funktion, während in anderen Ausführungsformen eine softwaregestützte Implementierung der beschriebenen Funktionalität verwendet wurde. Bestimmte Ausführungsformen verknüpfen beide Arten von Programmcode. Ein Beispiel für Programmcode, der auch als ein oder mehrere Programme bezeichnet wird, ist in 5 als Programm/Dienstprogramm 40 mit einem Satz (mindestens einem) von Programmmodulen 42 dargestellt und kann im Speicher 28 gespeichert werden.
Ausführungsformen der vorliegenden Erfindung umfassen ein durch einen Computer implementiertes Verfahren, ein Computerprogrammprodukt und ein Computersystem, die eine erhöhte Wahrscheinlichkeit eines möglichen Vorliegens von Brustkrebs erkennen, wobei ein oder mehrere Programme eine Peptidbibliothek mit zwölf (12) Aminosäuren (12-mer), Immunglobulin-G(IgG)-Antikörper und verschiedene computergestützte Datenmodelle und computergestütztes Verwalten anwenden, um dieses Ermitteln mit einer angemessenen Genauigkeit durchzuführen. Eine Peptidbibliothek enthält zufällige Desoxyribonukleinsäure-Sequenzen (DNS-Sequenzen), die verschiedene Peptide codieren, die ein auf die Bakteriophagen aufgeschmolzenes Ziel erkennen können. Währenddessen ist IgG der am häufigsten vorkommende Antikörpertyp, der in allen Körperflüssigkeiten vorkommt und vor bakteriellen und viralen Infektionen schützt.
Aspekte von Ausführungsformen der vorliegenden Erfindung stellen Verbesserungen der bestehenden Datenverarbeitungstechnologie dar und sind untrennbar mit der Datenverarbeitung verbunden. Konkret stellen Ausführungsformen der vorliegenden Erfindung verbesserte Verfahren im Umgang mit großen Datenmengen und zum Aufbauen logistischer Modelle aus den Daten dar. Beispielsweise verringern Ausführungsformen der vorliegenden Erfindung die beobachtete Datenrate in den Endergebnissen, weil der Programmcode die zum Bilden eines Musters verwendeten Daten vorverarbeitet, anstatt ein weniger effizientes binäres Klasseneinteilungsverfahren (binning) zu verwenden.
Aspekte von Ausführungsformen der vorliegenden Erfindung sind untrennbar mit der Datenverarbeitung verbunden, zumindest weil die elektronischen Modelle, darunter automatisch erzeugte selbstlernende Vorhersagemodelle aus Trainingsdaten, die durch Ausführungsformen der vorliegenden Erfindung erzeugt werden, nicht außerhalb der Datenverarbeitung erzeugt werden können und außerhalb der Datenverarbeitung nicht vorkommen. Bei Datensätzen, die ursprünglich in Ausführungsformen der vorliegenden Erfindung verwendet wurden, handelt es sich um elektronische Datensätze in einer oder mehreren Dateien, die in einer oder mehreren Datenbanken enthalten und maschinenlesbar sind. Die sich daraus ergebenden Modelle sind ebenfalls elektronisch und werden mithilfe von Datenverarbeitungsressourcen auf zusätzliche elektronische Dateien angewendet. Sowohl aufgrund des Umfangs als auch der Art der Daten ist eine einzelne Person nicht in der Lage, die spezifischen Aspekte von Ausführungsformen der vorliegenden Erfindung zu erfüllen, die zu einem maschinenlesbaren Datenmodell führen, das durch Programmcode auf zusätzliche Dateien angewendet werden kann, um Datensätze mit einer Wahrscheinlichkeit eines Ereignisses oder Zustands zu identifizieren, dass das Modell erstellt wurde, um das wahrscheinliche Vorliegen von Brustkrebs zu einem (z.B. vordefinierten) Zeitpunkt in der Zukunft vorherzusagen.
Ausführungsformen der vorliegenden Erfindung stellen einen Nutzen bereit, den Personen und bestehende Systeme aufgrund der Geschwindigkeit, mit der diese Ausführungsformen Ergebnisse bereitstellen können, nicht bieten können. Um nützlich zu sein, erzeugt und aktualisiert Programmcode in Ausführungsformen der vorliegenden Erfindung Modelle und stellt Ergebnisse (Ermitteln von Datensätzen, die mit dem Modell übereinstimmen) innerhalb einer begrenzten Zeitspanne bereit. In einem Szenario, in dem eine Person einen Termin bei einem Gesundheitsdienstleister hat, würden die Person und der Dienstleister beispielsweise davon profitieren, Informationen darüber zu erhalten, ob die Person, wie sie elektronisch mit isolierten Werten in einer Daten-(Peptid-)Bibliothek dargestellt wird, Elemente im Datensatz hat, die mit den mit dem Vorhersagemodell gesuchten Daten übereinstimmen. Wenn diese Informationen nicht im Rahmen des Termins bereitgestellt werden können, sind sie verständlicherweise weder für die Person noch für den Gesundheitsdienstleister von Nutzen. Somit analysiert der Programmcode in Ausführungsformen der vorliegenden Erfindung eine bestimmte Stichprobe einer Person und wendet das Vorhersagemodell in Echtzeit oder nahezu in Echtzeit an. Ausführungsformen der vorliegenden Erfindung ermöglichen daher die Echtzeitanalyse einer elektronischen Datenbibliothek, abhängig davon, ob die große Menge an Peptiden, die in der Bibliothek enthalten sind, mit einem Vorhersagemodell übereinstimmt, das durch Programmcode in Ausführungsformen der vorliegenden Erfindung erzeugt wird.
Ausführungsformen der vorliegenden Erfindung stellen Vorteile und Verbesserungen bereit, die untrennbar mit der Computertechnologie verbunden sind, auch weil Ausführungsformen der vorliegenden Erfindung bestimmte Vorteile bieten, die die Effizienz und Wirksamkeit der Berechnungen erhöhen. Wie später noch ausführlicher beschrieben wird, verwenden Ausführungsformen der vorliegenden Erfindung beispielsweise eine verteilte Verarbeitung auf Grundlage erwarteter Abfrageergebnisse, um den erforderlichen Zeitrahmen für die wichtigsten analytischen Ergebnisse zu verkürzen. Diese verteilte Verarbeitung ermöglicht es dem Programmcode, mehrere Analyseprozesse gleichzeitig durchzuführen. Teile bestimmter Ausführungsformen der vorliegenden Erfindung können in eine Cloud-Architektur verlagert und den Nutzern als Software as a Service-Angebot (SaaS) zur Verfügung gestellt werden. Die unbegrenzte Rechenkapazität der Ressourcen in einer Cloud-Architektur ist geeignet, die Verteilung von gleichzeitigen Abfragen und Prozessen durch den Programmcode zu unterstützen, um den Effizienzanforderungen des Systems in einer datenreichen Umgebung gerecht zu werden.
Ausführungsformen der vorliegenden Erfindung stellen auch Vorteile und Verbesserungen bereit, die untrennbar mit der Computertechnologie verbunden sind, da sie maschinelles Lernen verwenden. Ein vorteilhafter Aspekt einiger Ausführungsformen der vorliegenden Erfindung gegenüber bestehenden Ansätzen zur Ereignisidentifikation (z.B. Zustandsidentifikation) in datendichten Umgebungen besteht darin, dass einige andere Verfahren das Problem der Ereignisidentifikation und -erkennung als statistisches Problem behandeln anstatt als Problem des maschinellen Lernens - ein Ansatz, der die Möglichkeiten verfügbarer Werkzeuge einschränkt. Durch den Einsatz des maschinellen Lernens können Ausführungsformen der vorliegenden Erfindung Datensätze identifizieren, die ein Ereignis enthalten, wobei die das Ereignis direkt identifizierenden Informationen fehlen. Beispielsweise kann Programmcode durch Verwenden von maschinellem Lernen eine einzelne Patientin mit einer Wahrscheinlichkeit, an Brustkrebs zu erkranken, mithilfe einer 12-mer Peptidbibliothek einer nichtdiagnostizierten Patientin identifizieren, d.h., wenn die Daten nicht bereits darauf hinweisen, dass die Patientin die Krankheit hat. In einigen Fällen kann der Programmcode maschinelles Lernen nutzen, um anzuzeigen, dass eine Person eine Schwellenwahrscheinlichkeit für die Entwicklung von Brustkrebs hat, wenn die Daten zu dieser Person das Gegenteil anzeigen. Der Programmcode dient also nicht nur zum Identifizieren und Abrufen vorhandener festgestellter Daten, die in einer oder mehreren Speichereinheiten gespeichert sind. Vielmehr erstellt der Programmcode ein Muster, trainiert kontinuierlich einen Algorithmus für maschinelles Lernen, um das Muster anzuwenden, und nutzt das resultierende Vorhersagemodell, um Fälle eines Ereignisses zu identifizieren, die nicht bereits explizit durch die Daten angezeigt werden.
In einer Ausführungsform der vorliegenden Erfindung nutzen ein oder mehrere Programme die Hauptkomponentenanalyse (Principal Component Analysis, PCA), bei der es sich um ein statistisches Verfahren handelt, um einen zugehörigen Satz von Konzepten oder Komponenten eines oder mehrerer Merkmale zu bestimmen, die mit einer Anzahl von Personen in einem Trainingsdatensatz übereinstimmen. Die Hauptkomponentenanalyse weist eine orthogonale Transformation zum Umwandeln eines Satzes von Beobachtungen möglicherweise korrelierter Variablen in einen Satz von Werten linear nichtkorrelierter Variablen auf, die als Hauptkomponenten bezeichnet werden. Die Anzahl der Hauptkomponenten ist kleiner als oder gleich groß wie die Anzahl von ursprünglichen Variablen. So nutzt der Programmcode in einer Ausführungsform der vorliegenden Erfindung ein übergeordnetes Konzept, um mehrere Unterkomponenten zu erzeugen. Diese Transformation ist so definiert, dass die erste Hauptkomponente die größtmögliche Varianz aufweist (d.h. einen möglichst großen Anteil an der Variabilität der Daten hat) und jede nachfolgende Komponente wiederum die größtmögliche Varianz unter der Einschränkung hat, dass sie orthogonal zu den vorhergehenden Komponenten ist. Die resultierenden Vektoren sind ein nichtkorrelierter orthogonaler Basissatz. Die Hauptkomponentenanalyse reagiert auf die relative Skalierung der ursprünglichen Variablen.
Aspekte verschiedener Ausführungsformen der vorliegenden Erfindung stellen gegenüber bestehenden Systemen Vorteile beim Verwenden von durch einen Computer implementierten Verfahren, Computersystemen und/oder Computerprogrammprodukten zum Vorhersagen von Wahrscheinlichkeiten von Brustkrebs bei Personen auf Grundlage des Erzeugens und Anwendens eines Vorhersagemodells bereit. Bestehende Verfahren stützen sich auf Brustkrebsmarker auf Polymorphismen, Veränderungen im genetischen Code der DNS, Entnehmen von Gewebe-, Urin- und/oder Milchproben zum Nachweisen überexprimierter Biomarker, Einsetzen von Massenspektrometrie zum Analysieren präoperativer Proben, Analysieren von Genexpressionsprofilen, Analysieren von Genexpressionsdaten von Ribonukleinsäure (RNS) und Einführen von Immuntherapeutika oder Impfstoffen zum Auslösen von Reaktionen. Im Gegensatz zu diesen bestehenden Verfahren wird in Ausführungsformen der vorliegenden Erfindung durch ein oder mehrere Programme ein Vorhersagemodell erzeugt und angewendet, das zum Teil auf Analysieren von Immunsignaturproben von 12-mer Peptiden und Trainieren des Programmcodes beruht, um Muster zu erzeugen und zu erkennen, die auf ein quantifizierbares Brustkrebsrisiko bei einer Patientin hinweisen.
1 stellt einen allgemeinen Arbeitsablauf 100 einiger Aspekte bestimmter Ausführungsformen der vorliegenden Erfindung dar. 2 ist ein Arbeitsablauf 200, der im Arbeitsablauf 100 von 1 enthaltene Aspekte ausführlicher beschreibt.
Mit Bezug zunächst auf 1 erhalten ein oder mehrere Programme in einigen Ausführungsformen der vorliegenden Erfindung eine elektronische Rohdatei (110). In einer Ausführungsform der vorliegenden Erfindung weisen die elektronischen Rohdaten Rohdaten eines 12-mer Peptidbibliotheks-Screenings mithilfe von anti-humanen IgG-Antikörpern auf. Die Datei kann bis zu einhundertzwanzigtausend (120.000) Werte umfassen, wobei jeder Wert ein zwölf (12) Aminosäuren langes Peptid darstellt, das durch ein Verfahren isoliert wurde, darunter - ohne darauf beschränkt zu sein - Fluoreszenzmarkierung und das Verwenden eines grünen Farbstoffs. Die Datei enthält Daten zu Personen, bei denen zuvor Brustkrebs vor dem oder im Stadium I diagnostiziert wurde, sowie zu Personen, die diese Diagnose nicht haben. Die Datensätze in der Datei sind gekennzeichnet, um auf diese Charakterisierung hinzuweisen.
Mithilfe der Datei erzeugen das eine oder die mehreren Programme ein Vorhersagemodell, das die Daten von Personen mit Brustkrebs vor dem oder im Stadium I von den durch die Daten dargestellten Personen ohne diese Diagnose unterscheidet (120). Das von dem einen oder den mehreren Programmen in Ausführungsformen der vorliegenden Erfindung erzeugte Vorhersagemodell kann als Klassifikator oder Klassifikatoralgorithmus betrachtet werden. Der Prozess zum Erzeugen des Vorhersagemodells wird in 2 ausführlicher beschrieben. Das eine oder die mehreren Programme verwenden jedoch beim Erzeugen des Vorhersagemodells die Datei als Trainingsdaten und erzeugen auf Grundlage des von dieser Datei bereitgestellten Trainings das Vorhersagemodell.
Das eine oder die mehreren Programme erhalten Daten zu einer Person, ohne Kenntnis darüber zu besitzen, ob bei dieser Person zuvor Brustkrebs vor dem oder im Stadium I diagnostiziert wurde, und es ist auch nicht bekannt, ob auf diese Person diese Diagnose nicht zutrifft (130). In einer Ausführungsform der vorliegenden Erfindung weisen die Daten Werte für entsprechende Peptide in der 12-mer-Bibliothek für diese Person auf. Die Daten können 120.000 Werte aufweisen.
In einer Ausführungsform der vorliegenden Erfindung wenden das eine oder die mehreren Programme das Vorhersagemodell auf die Daten an, die sich auf die Person beziehen, um zu ermitteln, ob die Daten, die sich auf die Person beziehen, eine Wahrscheinlichkeit für einen Zustand anzeigen (140). Bei dem Zustand kann es sich um eine oder mehrere Wahrscheinlichkeiten (innerhalb eines bestimmten Bereichs) handeln, dass bei der Person Brustkrebs diagnostiziert wird (z.B. bei einer Person mit einem Tumor), und/oder eine Wahrscheinlichkeit, dass bei der Person innerhalb eines bestimmten Zeitraums ab dem Anwenden des Vorhersagemodells Brustkrebs diagnostiziert wird. Zum Beispiel erzeugen einige Ausführungsformen der vorliegenden Erfindung Modelle, die eine Wahrscheinlichkeit angeben, dass ein Zustand zu einem zukünftigen Zeitpunkt identifiziert wird, darunter, ohne darauf beschränkt zu sein, zwei (2) Jahre, nachdem das eine oder die mehreren Programme das Modell anwenden.
2 ist im Vergleich zu 1 ein ausführlicherer Arbeitsablauf 200, der verschiedene Aspekte einiger Ausführungsformen der vorliegenden Erfindung veranschaulicht. Wie in 1 dargestellt, erhalten das eine oder die mehreren Programme in einigen Ausführungsformen der vorliegenden Erfindung elektronische Rohdaten (110) und nutzen diese Daten, um ein Vorhersagemodell zu erzeugen (120). 2 stellt zusätzliche Einzelheiten zum Erstellen dieses Modells bereit.
Mit Bezug auf 2 erhalten das eine oder die mehreren Programme in einer Ausführungsform der vorliegenden Erfindung eine Datei, in der jeder einzelne Datensatz danach gekennzeichnet wird, ob er in eine von zwei Kategorien gehört: 1) zugehörig zu einer Person, bei der zuvor entweder Brustkrebs im Stadium I diagnostiziert wurde oder die eine Vordiagnose dieses Krebses erhielt; oder 2) zugehörig zu einer Person, bei der ausdrücklich nicht dieser Krebs diagnostiziert wurde (d.h. durch Anwenden herkömmlicher Diagnoseverfahren gibt es keine Hinweise darauf, dass die Person diesen Krebs hat oder sich in dessen Anfangsstadium befindet) (210). Wie später erläutert wird, umfassen die Daten Identifizieren von 12-mer Peptiden und können als Peptidbibliotheken betrachtet werden. In Ausführungsformen der vorliegenden Erfindung verarbeiten das eine oder die mehreren Programme Daten, um die Effizienz der Modellerzeugung zu verbessern. In einigen Ausführungsformen der vorliegenden Erfindung trennen das eine oder die mehreren Programme die Daten in einen Aminosäuresequenzteil (z.B. dim: 1100+ durch 120.000+) und einen Merkmalsteil (z.B. dim: 1100+ durch 5, einschließlich Probenkennung, Status, Quelle, PreDx und Wafer).
Das eine oder die mehreren Programme teilen die Datensätze in eine vordefinierte Anzahl von Gruppen auf, indem sie nach dem Zufallsprinzip Gruppen Datensätze zuweisen (220). In einigen Ausführungsformen der vorliegenden Erfindung erzeugen das eine oder die mehreren Programme mehrere zufällige Startwerte (seeds) und verteilen die Datensätze auf die vordefinierte Anzahl von Gruppen für jeden Startwert. Wenn eine Zufallszahl zum Beispiel fünfundzwanzig (25) ist, weisen das eine oder die mehreren Programme jeden 25. Datensatz einer der Gruppen zu. Das eine oder die mehreren Programme erzeugen kontinuierlich verschiedene Startwerte und verwenden diese Startwerte, um den Gruppen die Datensätze nach dem Zufallsprinzip zuzuweisen. Die Gruppen werden von dem einen oder den mehreren Programmen so erzeugt, dass jede Gruppe eine gleiche (oder ähnliche) Datenmenge wie jede andere Gruppe enthält. In einer Ausführungsform der vorliegenden Erfindung verteilen das eine oder die mehreren Programme die Datensätze mithilfe der Randomisierung auf sechs (6) Gruppen.
Wenn das eine oder die mehreren Programme die Daten in Ausführungsformen der vorliegenden Erfindung sechs (6) Gruppen von Dateien zuweisen (z.B. 2K-mer durch 3 Kanäle), können beide Teile, der Aminosequenzteil und der Merkmalsteil, als Listenobjekt in R mit einer Anzahl von Unterlisten gespeichert werden, die gleich der Anzahl von Gruppen (z.B. 6) ist, deren Namen dem Dateinamen folgen. Probenkennung- und Kennzeichnungspaare können von allen Teildateien gemeinsam genutzt werden, um eine Tabelle zu bilden. Probenkennung und Status (oder Kennzeichnung) werden zu einem Schlüssel zum Indizieren der Aminosäuresequenzdaten verknüpft. Um Klassen oder Probenkennungen usw. zu filtern, können das eine oder die mehreren Programme das Filtern in dieser kleinen Tabelle durchführen und dann den Zeilenindex verwenden, um entsprechende Aminosäuresequenzdaten zu extrahieren. Wenn das eine oder die mehreren Programme die Aminosäuresequenzdaten filtern (damit die Proben von allen Dateien gemeinsam genutzt werden können), ändern das eine oder die mehreren Programme die Zeilenreihenfolge so, dass sie mit der Reihenfolge in der Tabelle übereinstimmt. In Ausführungsformen der vorliegenden Erfindung verwenden das eine oder die mehreren Programme als Maßnahme gegen unausgewogene Klassen Downsampling und Upsampling, um eine ausgewogene Verteilung der Klassen zum Trainieren zu schaffen.
Das eine oder die mehreren Programme wählen eine (1) Gruppe aus den Gruppen, die das eine oder die mehreren Programme erzeugt haben, als Ausschlussgruppe aus und bestimmen die übrigen Gruppen für Durchführen genauso vieler Kreuzvalidierungen wie Gruppen (abzüglich der Ausschlussgruppe), wobei jede Validierung Verwenden jeder übrigen Gruppe als Test/Validierungs-Satz umfasst, während die übrigen Gruppen (d.h. abzüglich der Ausschlussgruppe und des Testsatzes) als Trainingssatz in jeder Iteration der Validierungen verwendet werden (230). Als Teil einer Hauptkomponentenanalyse (z.B. 250), die hierin erläutert wird, führen das eine oder die mehreren Programme diese Validierung so viele Male (d.h. für so viele Aufteilungen) durch, wie es eine Anzahl von Gruppen gibt (abzüglich der Ausschlussgruppe). Wenn demnach das eine oder die mehreren Programme sechs (6) Gruppen erzeugt haben, führen das eine oder die mehreren Programme eine Kreuzvalidierung fünfmal (5) durch. Beim Durchführen dieser Validierung wird von den Gruppen, die an der Kreuzvalidierung beteiligt sind (d.h. die Gesamtzahl von Gruppen minus der ursprünglich abgezogenen Gruppe), eine (1) weitere Gruppe als Testgruppe herausgezogen. Das eine oder die mehreren Programme verwenden die übrigen Gruppen (d.h. alle Gruppen minus der ursprünglich abgezogenen Gruppe und der Testgruppe) zum Training, während die Testgruppe zum Durchführen einer Validierung verwendet wird. Das eine oder die mehreren Programme wiederholen diesen Arbeitsschritt eine Anzahl von Malen, die der Anzahl von Gruppen (minus der ersten abgezogenen Gruppe) entspricht, rundumlaufend, sodass jede Gruppe aus diesen Gruppen von dem einen oder den mehreren Programmen als Validierungssatz verwendet wird. Somit entspricht die Anzahl der Aufteilungen in der Kreuzvalidierung der Anzahl von Trainingsdatensätzen.
Zurück zum Beispiel mit sechs (6) Gruppen. Bei sechs (6) Gruppen schließen das eine oder die mehreren Programme eine erste Gruppe aus. Das eine oder die mehreren Programme verwenden die fünf (5) übrigen Gruppen, um eine fünffache Kreuzvalidierung durchzuführen. Beim Durchführen dieser Validierung wählen das eine oder die mehreren Programme eine Gruppe aus den fünf (5) Gruppen als Testgruppe aus und führen eine Validierung mit dieser Gruppe durch, während die übrigen Gruppen als Trainingsdaten verwendet werden. Das eine oder die mehreren Programme wiederholen diesen Validierungsschritt, wobei variiert wird, welche der fünf (5) Gruppen als Testgruppe bezeichnet wird. Das eine oder die mehreren Programme wiederholen diesen Arbeitsschritt zyklisch, bis jede der fünf (5) Gruppen als Testgruppe dient.
Zurück zu 2, in einigen Ausführungsformen der vorliegenden Erfindung normalisieren das eine oder die mehreren Programme für jede Probe (oder jede Person, wie durch die elektronischen Datensätze dargestellt) etwa hundertzwanzigtausend (120.000) Peptide, die durch grünen Farbstoff gekennzeichnet sind, in der Bibliothek, indem die Werte der 120.000 Peptide addiert werden und dann jeder Expressionswert durch die Summe dividiert wird, um ein Verhältnis zu berechnen (240). Normalisieren der Werte ermöglicht es dem einen oder den mehreren Programmen, Expressionswerte der Personen und der 120.000-Peptidbibliothek zu vergleichen. In einer Ausführungsform der vorliegenden Erfindung erfolgt das Normalisieren, indem das eine oder die mehreren Programme Expressionen der 120.000 Peptide für die Probe jeder Person addieren und danach die jeweiligen Expressionen durch die Summe teilen.
Die Zahl 120.000 wird in den in 2 dargestellten Ausführungsformen als Beispiel verwendet, doch für den Fachmann ist offensichtlich, dass mehr oder weniger Peptide in verschiedenen Proben identifiziert und in Ausführungsformen der vorliegenden Erfindung verwendet werden können.
In einigen Ausführungsformen der vorliegenden Erfindung verwenden ein oder mehrere Programme für jeden Trainingssatz (wie oben bezeichnet, wenn eine Testgruppe von den Gruppen ausgeschlossen wird, abzüglich der ersten Ausschlussgruppe) die Hauptkomponentenanalyse, um eine Anzahl von Merkmalen zu bestimmen, die eine Anzahl von Personen im Trainingssatz gemeinsam haben (dargestellt durch die elektronischen Datensätze) (250). Die Hauptkomponentenanalyse stellt in den Kreuzvalidierungsschritten stabile Werte für jeden verwendeten zufälligen Startwert bereit. Für den Fachmann ist offensichtlich, dass die Hauptkomponentenanalyse eine orthogonale Transformation aufweist, um eine Reihe von Beobachtungen möglicherweise korrelierter Variablen in einen Satz von Werten linear nichtkorrelierter Variablen umzuwandeln, die als Hauptkomponenten bezeichnet werden. Die Anzahl der Hauptkomponenten ist kleiner als oder gleich groß wie die Anzahl von ursprünglichen Variablen. Entsprechend nutzt der Programmcode in einer Ausführungsform der vorliegenden Erfindung identifizierte Expressionswerte (durch die Normalisierung), um auf Grundlage der Testdaten mehrere gemeinsame Merkmale zu erzeugen. Diese Transformation ist so definiert, dass die erste Hauptkomponente die größtmögliche Varianz aufweist (d.h. einen möglichst großen Anteil an der Variabilität der Daten hat) und jede nachfolgende Komponente wiederum die größtmögliche Varianz unter der Einschränkung aufweist, dass sie orthogonal zu den vorhergehenden Komponenten ist. Die resultierenden Vektoren sind ein nichtkorrelierter orthogonaler Basissatz. Die Hauptkomponentenanalyse reagiert auf die relative Skalierung der ursprünglichen Variablen.
Zurück zu 2, in einer Ausführungsform der vorliegenden Erfindung führen das eine oder die mehreren Programme eine Hauptkomponentenanalyse aus, um Merkmale zu ermitteln, die für die in den Testdaten repräsentierten Personen relevant sind (z.B. 250). In der Hauptkomponentenanalyse ermitteln das eine oder die mehreren Programme, welche Merkmale in den Testdaten am repräsentativsten sind. Zum Teil als Ergebnis der Hauptkomponentenanalyse kann das von dem einen oder den mehreren Programmen erstellte Endmodell ein kumulatives Verständnis der gemeinsamen Merkmale der Personen enthalten. Das eine oder die mehreren Programme verwenden diese Daten, um daraus abzuleiten, welche Merkmale die größte Varianz aufweisen, und das eine oder die mehreren Programme können eine Reihenfolge für die Terme festlegen.
Das eine oder die mehreren Programme führen die Hauptkomponentenanalyse (z.B. 250) innerhalb der Kreuzvalidierung aus. Für jeden Schritt der Kreuzvalidierung führen das eine oder die mehreren Programme eine Hauptkomponentenanalyse beim Trainingssatz aus und wandeln die Validierung mithilfe der Gewichtungen aus dieser Hauptkomponentenanalyse um, bevor sie sie in das Vorhersagemodell einspeisen, um eine Validierungsgenauigkeit zu berechnen. In einer Ausführungsform der vorliegenden Erfindung führen das eine oder die mehreren Programme pro Kreuzvalidierungsschritt eine Hauptkomponentenanalyse bei jedem Trainingssatz sowie den abschließenden Auswertungsschritt (z.B. 260, der später beschrieben wird) durch und schreiben die Ergebnisliste für jede Teildatei in eine Datei. Das eine oder die mehreren Programme lesen diese Ergebnisdatei der Hauptkomponentenanalyse in den Speicher ein, wenn ihre Inhalte in der Kreuzvalidierung und Modellierung verwendet werden.
Nach der Hauptkomponentenanalyse der einzelnen Testdatengruppen verknüpfen das eine oder die mehreren Programme die Gruppen (z.B. die fünf (5) Gruppen im Fünffach-Beispiel, alle Gruppen abzüglich der Ausschlussgruppe) zu einer konsolidierten Trainingsdatei und führen eine Hauptkomponentenanalyse aus (260). 3 ist ein Beispiel für Ergebnisse einer Hauptkomponentenanalyse, die durch das eine oder die mehreren Programme mit Trainingssätzen erhalten wurden, wobei die Aufteilungen 1 bis 5 Ergebnisse von Trainingssätzen von Personen sind und Aufteilung 6 ein Ergebnis aus der gesamten Kreuzvalidierung ist.
Das eine oder die mehreren Programme erzeugen ein Vorhersagemodell, indem sie eine Reihe von durch Hauptkomponentenanalyse identifizierten Merkmalen (z.B. ausgewählt auf Grundlage von Dominanz) als einen Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell (LR-Modell) verwenden, um ein (vorhergesagtes) binäres Ergebnis zu erhalten (z.B. Brustkrebs im Stadium I innerhalb eines Grades von Fehler- oder Kontrolldaten, wie die ursprünglich gekennzeichneten Daten) (270). Ein Ergebnis dieses Aspekts ist das Erzeugen von Hauptkomponentenanalyse-Koeffizienten (z.B. 270). Wie in 2 dargestellt, wenden das eine oder die mehreren Programme in einigen Ausführungsformen der vorliegenden Erfindung eine Hauptkomponentenanalyse auf die Datei an und verwenden die resultierenden Hauptkomponenten, um ein logistisches Regressionsmodell zu erzeugen, mit dem Ziel, (binäre) Klassenkennzeichnungen vorherzusagen, in diesem Fall Stadium I oder Kontrolle. Wie in 2 bis 3 veranschaulicht, verwenden das eine oder die mehreren Programme eine Kreuzvalidierung, um die beste Anzahl der in das Modell aufzunehmenden Hauptkomponenten anzupassen (z.B. bedeutet 10 die ersten 10 Komponenten, 100 bedeutet die ersten 100 Komponenten). Das eine oder die mehreren Programme wählen die kleinste (beste) Anzahl aus, die die höchste Validierung für die Anzahl von Aufteilungen ergibt. In Ausführungsformen der vorliegenden Erfindung, die insgesamt sechs Gruppen und eine Fünffach-Validierung verwenden, wählen beispielsweise das eine oder die mehreren Programme die kleinste (beste) Anzahl aus, die die höchste Fünffach-Validierungsgenauigkeit ergibt. Das eine oder die mehreren Programme bewerten die Genauigkeit des Tests auf Grundlage eines Modells, das diesen Parameter verwendet. In diesen Ausführungsformen der vorliegenden Erfindung mit 6 Gruppen führen das eine oder die mehreren Programme die Kreuzvalidierung durch und stellen fest, dass ein logistisches Regressionsmodell mit mehreren Hauptkomponenten aus 12-mer (grün) eine durchschnittliche Validierungsgenauigkeit von bis zu 95 % ergibt und dass die hohe Genauigkeit bei der Auswertung des Testsatzes erhalten bleibt.
In einigen Ausführungsformen der vorliegenden Erfindung verwenden das eine oder die mehreren Programme ein einziges von der Hauptkomponentenanalyse abgeleitetes Merkmal, um das Modell zu erzeugen (z.B. durch Verwenden des dominantesten Merkmals, das die Varianz der Daten erklärt). Beispielsweise können einige Modelle nur die ersten drei abgeleiteten Hauptkomponenten aus den 12-mer-Daten enthalten, da sie eine durchschnittliche Validierungsgenauigkeit von 95,08 %, 0,005 % und eine durchschnittliche Validierungsfläche unter der ROC-Kurve (AUC) von 96,02 %, 0,006 % sowie eine Testgenauigkeit von 96,72 % und eine Test-AUC von 95,55 % ergeben können. In einigen Ausführungsformen der vorliegenden Erfindung wählen das eine oder die mehreren Programme einen Parameter aus, der die höchste Validierungsgenauigkeit und Validierungs-AUC ergibt.
Das eine oder die mehreren Programme testen und passen das Vorhersagemodell an (ein Modell der besten Übereinstimmung), indem sie die Hauptkomponentenanalyse-Koeffizienten verwenden, um Merkmale zu berechnen, die für die Daten der Ausschlussgruppe (die Gruppe, die ursprünglich ausgeschlossen wurde) verwendet werden sollen (280). Dieses Anpassen sowie die beschriebenen sich wiederholenden Hauptkomponentenanalysen können als maschinelles Lernen verstanden werden - durch Wiederholen verschiedener Schritte durch Verwenden einer Datei mit bekannten Informationen können das eine oder die mehreren Programme die Genauigkeit der erkannten Merkmale (Muster) anpassen und erhöhen, die das Modell verwendet, um zu ermitteln, ob ein Zustand vorliegt.
Das eine oder die mehreren Programme erhalten eine neue Datenprobe, die eine 12-mer Peptidbibliothek einer gegebenen Person aufweist (290). Das eine oder die mehreren Programme bewerten die Person, um das Ergebnis des Vorhandenseins oder Nichtvorhandenseins von potenziellem Brustkrebs im Stadium I mit einer Wahrscheinlichkeit vorherzusagen, indem sie das angepasste Vorhersagemodell anwenden (295). Das eine oder die mehreren Programme wenden das angepasste Vorhersagemodell an, indem sie eine Hauptkomponentenanalyse-Berechnung mithilfe der Hauptkomponentenanalyse-Koeffizienten durchführen und die logistische Regression durchführen, um die (binäre) Vorhersage zu erzeugen (z.B. je nach Modell eine Wahrscheinlichkeit für Brustkrebs im Stadium I oder keine erhaltbare Wahrscheinlichkeit für Brustkrebs im Stadium I). Entsprechend verwenden das eine oder die mehreren Programme die Hauptkomponenten als Anpassungsparameter für das Vorhersagemodell.
4 ist ein Arbeitsablauf 400, der bestimmte Aspekte einiger Ausführungsformen der vorliegenden Erfindung veranschaulicht. Insbesondere veranschaulichen das eine oder die mehreren Programme Ausführungsformen, in denen das eine oder die mehreren Programme erhaltene Daten in sechs (6) Gruppen aufteilen. In einigen Ausführungsformen der vorliegenden Erfindung erhalten ein oder mehrere Programme Daten, die repräsentativ für 12-mer Peptidbibliotheksexpressionen von Personen sind und in eine oder zwei Kategorien segmentiert werden: 1) Stadium I oder vorhergesagtes Stadium I, um das Vorhandensein des Referenzkrebses oder dessen Möglichkeit anzuzeigen; und 2) Kontrolle, wodurch das Fehlen der Indikationen der ersten Kategorie angezeigt wird (410). Das eine oder die mehreren Programme teilen die Daten in sechs (6) gleich große Gruppen auf, wobei zufällige unterschiedliche Startwerte verwendet werden, um die Datensätze (die Personen repräsentieren) den verschiedenen Gruppen zuzuweisen (420).
Das eine oder die mehreren Programme bestimmen eine (1) der sechs (6) Gruppen als Ausschlussgruppe, und die übrigen Gruppen werden in einer Kreuzvalidierung verwendet (430). Wie oben beschrieben, ist die Validierung eine Fünffach-Kreuzvalidierung, da das eine oder die mehreren Programme die Validierung fünfmal rundumlaufend wiederholen, bis jede Gruppe als Validierungssatz verwendet wird. Das eine oder die mehreren Programme normalisieren die Expressionswerte für etwa 120.000 Peptide in einer Bibliothek, indem sie die Werte der 120.000 Peptide addieren und dann jeden Expressionswert durch die Summe dividieren, um ein Verhältnis zu berechnen (440). In einer Ausführungsform der vorliegenden Erfindung erfolgt das Normalisieren, indem das eine oder die mehreren Programme Expressionen der 120.000 Peptide für die Probe jeder Person addieren und danach die jeweiligen Expressionen durch die Summe teilen. Das eine oder die mehreren Programme führen eine Hauptkomponentenanalyse durch, um eine Anzahl von Merkmalen zu bestimmen, die einer Anzahl von Personen gemeinsam sind, die in einem gegebenen Trainingsdatensatz repräsentiert sind, um eine Anzahl von Merkmalen zu erzeugen (kleiner als oder gleich groß wie die Anzahl der im Trainingssatz repräsentierten Personen) (450). Es gibt vier (4) Trainingssätze der Daten, und jeder Trainingssatz besteht aus vier (4) der fünf (5) Gruppen, die nicht die Ausschlussgruppe sind. Das eine oder die mehreren Programme führen eine Hauptkomponentenanalyse bei jedem Trainingssatz durch.
Das eine oder die mehreren Programme verknüpfen die fünf (5) Aufteilungen zu einem verknüpften Trainingsdatensatz, und das eine oder die mehreren Programme wenden eine Hauptkomponentenanalyse auf den verknüpften Satz an, um die Anzahl der Merkmale zu ermitteln (460). Da das eine oder die mehreren Programme innerhalb der Kreuzvalidierungen eine Hauptkomponentenanalyse durchführen, führen das eine oder die mehreren Programme insgesamt eine Hauptkomponentenanalyse für 6 Teildateien * (5 Aufteilungen + 1 CV-Satz als Ganzes für den Test) = sechsunddreißig (36) Mal durch. Das eine oder die mehreren Programme wählen eine kleinste Anzahl von Merkmalen aus, die eine höchste fünffache Validierungsgenauigkeit ergibt, um mit einem Modell übereinzustimmen, indem sie die Anzahl der Merkmale als Parameter für beste Übereinstimmung für ein logistisches Regressionsmodell (LR-Modell) weiterleiten, das ein binäres Ergebnis (Stadium I oder Kontrolle) vorhersagt (470). Das eine oder die mehreren Programme testen/passen das resultierende Modell mit der besten Übereinstimmung auf Grundlage der Ausschlussdaten an, indem sie Hauptkomponentenanalyse-Koeffizienten verwenden, die aus den Trainingsdaten berechnet wurden, um für die Ausschlussdaten zu verwendende Merkmale zu berechnen (480).
Sobald das Modell erzeugt ist, kann jede neue Probe einer 12-mer Peptidbibliotheksexpression für eine Person mit diesem Modell bewertet werden, um das Ergebnis eines Nichtvorliegens oder Vorliegens von potenziellem Brustkrebs im Stadium I mit einer Wahrscheinlichkeit vorherzusagen. Um die Bewertung der neuen Probe zu berechnen, führen das eine oder die mehreren Programme eine Berechnung durch, indem sie die Koeffizienten aus den Trainingsdaten (erneut) verwenden und diese für die Vorhersage auf das logistische Regressionsmodell anwenden.
Ausführungsformen der vorliegenden Erfindung umfassen ein durch einen Computer implementiertes Verfahren, ein Computerprogrammprodukt und ein Computersystem, die ein oder mehrere Programme enthalten, die von einem oder mehreren Prozessoren ausgeführt werden, um eine Rohdatei zu erhalten, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde. Das eine oder die mehreren Programme segmentieren die Rohdateien in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten aus den übrigen Gruppen aufweist. Das eine oder die mehreren Programme führen eine Hauptkomponentenanalyse bei den übrigen Gruppen durch, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen durch den einen oder die mehreren Prozessoren gemeinsame Merkmale in Daten der übrigen Gruppen zu identifizieren und die gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen zu gewichten, wobei die gemeinsamen Merkmale Hauptkomponenten aufweisen, die durch Koeffizienten dargestellt werden. Das eine oder die mehreren Programme ermitteln eine kleinste Anzahl der Hauptkomponenten, die einen vordefinierten Wert einer Validierungsgenauigkeit ergibt. Das eine oder die mehreren Programme erzeugen ein Vorhersagemodell, indem sie die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwenden, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.
In einigen Ausführungsformen der vorliegenden Erfindung testen das eine oder die mehreren Programme ferner das Vorhersagemodell durch Anwenden der Koeffizienten, um für die Ausschlussgruppe zu verwendende Merkmale zu berechnen; und Anpassen des Vorhersagemodells, indem die Merkmale für die Ausschlussgruppe mit den Hauptkomponenten verglichen werden. Die Peptidbibliotheken können 12-mer Peptidbibliotheken aufweisen. Der Zustand kann Brustkrebs im Stadium I aufweisen.
In einigen Ausführungsformen der vorliegenden Erfindung erzeugen das eine oder die mehreren Programme, wenn das eine oder die mehreren Programme Segmentieren durchführen, Zufallszahlen, um auszuwählen, welcher Datensatz der Rohdatei welcher der Gruppen zugewiesen wird.
In einigen Ausführungsformen der vorliegenden Erfindung normalisieren das eine oder die mehreren Programme vor Durchführen der Hauptkomponentenanalyse die Peptide, die die Rohdatei aufweisen, indem sie Peptidwerte der Peptide aus allen Peptiden addieren und jeden Expressionswert durch eine resultierende Summe dividieren, um ein Verhältnis zu berechnen.
In einigen Ausführungsformen der vorliegenden Erfindung erzeugen das eine oder die mehreren Programme Trainingsdatensätze, wenn das eine oder die mehreren Programme eine Hauptkomponentenanalyse bei den übrigen Gruppen durchführen, wobei jeder Trainingsdatensatz der Trainingsdatensätze Daten in allen außer einer Gruppe der übrigen Gruppen aufweist. Das eine oder die mehreren Programme führen eine Hauptkomponentenanalyse einzeln bei jedem Trainingsdatensatz durch, um gemeinsame Merkmale in dem Trainingsdatensatz zu identifizieren. Das eine oder die mehreren Programme führen eine Hauptkomponentenanalyse aus, wobei die übrigen Gruppen als einzelner Trainingssatz verwendet werden, um gemeinsame Merkmale in dem einzelnen Trainingssatz zu identifizieren; und das eine oder die mehreren Programme führen eine Kreuzvalidierung der gemeinsamen Merkmale jedes Trainingsdatensatzes und der gemeinsamen Merkmale in dem einzelnen Trainingssatz durch, wobei die Kreuzvalidierung mit einer Anzahl von Aufteilungen stattfindet, die einer Anzahl der übrigen Gruppen entspricht, um die Hauptkomponenten zu identifizieren und die Koeffizienten zu bestimmen.
In einigen Ausführungsformen der vorliegenden Erfindung ist ein vordefinierter Wert der Validierungsgenauigkeit eine höchste Validierungsgenauigkeit auf Grundlage der Anzahl von Aufteilungen.
In einigen Ausführungsformen der vorliegenden Erfindung erhalten das eine oder die mehreren Programme neue Rohdaten, die eine 12-mer Peptidbibliothek einer gegebenen Person aufweisen. Das eine oder die mehreren Programme wenden das Vorhersagemodell auf die neuen Rohdaten an, um ein binäres Ergebnis für die gegebene Person zu ermitteln. Wenn das eine oder die mehreren Programme das Vorhersagemodell anwenden, führen das eine oder die mehreren Programme in einigen Ausführungsformen der vorliegenden Erfindung, eine Hauptkomponentenanalyse bei den neuen Rohdaten durch, indem sie die Koeffizienten verwenden und eine logistische Regression durchführen, um das binäre Ergebnis zu erzeugen.
Mit Bezug nunmehr auf 5 wird eine schematische Darstellung eines beispielhaften Datenverarbeitungsknotens dargestellt, bei dem es sich um einen Cloud-Computing-Knoten 10 handeln kann. Der Cloud-Computing-Knoten 10 ist nur ein Beispiel eines geeigneten Cloud-Computing-Knotens und soll keine Beschränkung des Anwendungsbereichs der Nutzung oder Funktionalität von Ausführungsformen der hierin beschriebenen Erfindung nahelegen. Ungeachtet dessen kann der Cloud-Computing-Knoten 10 implementiert werden und/oder eine beliebige der vorstehend dargelegten Funktionalitäten durchführen. In einer Ausführungsform der vorliegenden Erfindung können die Datenverarbeitungsressource(n), die z.B. Verarbeitungseinheiten umfassen, die die Hauptkomponentenanalyse durchgeführt haben, als Teil eines oder mehrerer Cloud-Computing-Knoten 10 (5) verstanden werden, und wenn sie nicht als Beispiele für Teile eines Cloud-Computing-Knotens 10 verstanden werden, dann als Teil eines oder mehrerer allgemeiner Cloud-Computing-Knoten, die Aspekte des Cloud-Computing-Knotens 10 enthalten.
Im Cloud-Datenverarbeitungsknoten 10 befindet sich ein Computersystem/ein Server 12, das/der mit zahlreichen anderen universellen oder speziellen Datenverarbeitungssystem-Umgebungen oder Konfigurationen funktionsfähig ist. Beispiele für bekannte Datenverarbeitungssysteme, Umgebungen und/oder Konfigurationen, die für die Nutzung mit dem Computersystem/Server 12 geeignet sein können, sind unter anderem, ohne darauf beschränkt zu sein, Personal-Computer-Systeme, Server-Computer-Systeme, schlanke Clients, leistungsintensive Clients, Hand- oder Laptop-Einheiten, Mehrprozessorsysteme, Systeme auf der Grundlage von Mikroprozessoren, Beistellgeräte, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputersysteme, Großrechnersysteme und verteilte Cloud-Computing-Umgebungen, die jedes beliebige der oben genannten Systeme oder Einheiten und Ähnliches enthalten.
Das Computersystem/der Server 12 kann im allgemeinen Kontext von durch ein Computersystem ausführbaren Anweisungen beschrieben werden, z.B. Programmmodule, die von einem Computersystem ausgeführt werden. Im Allgemeinen können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen usw. enthalten, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Das Computersystem/der Server 12 kann in verteilten Cloud-Computing-Umgebungen eingesetzt werden, wo die Aufgaben von entfernt angeordneten Verarbeitungseinheiten durchgeführt werden, die über ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl auf lokalen als auch auf entfernt angeordneten Computersystem-Speichermedien befinden, darunter Speichereinheiten mit Arbeitsspeichern.
Wie in 5 gezeigt, ist das Computersystem/der Server 12, das/der als Cloud-Computing-Knoten 10 verwendet werden kann, in Form einer universellen Datenverarbeitungseinheit dargestellt. Bei den Komponenten des Computersystems/Servers 12 kann es sich - ohne darauf beschränkt zu sein - um einen oder mehrere Prozessoren oder Verarbeitungseinheiten 16, einen Systemspeicher 28 und einen Bus 18 handeln, der verschiedene Systemkomponenten, darunter den Systemspeicher 28, mit dem Prozessor 16 verbindet.
Der Bus 18 stellt einen oder mehrere von beliebigen mehreren Arten von Busstrukturen dar, darunter einen Speicherbus oder eine Speichersteuereinheit, einen Peripheriebus, eine AGP-Schnittstelle (Accelerated Graphics Port) und einen Prozessor oder lokalen Bus, der eine beliebige aus einer Vielfalt von Busarchitekturen nutzt. Beispielsweise und nicht einschränkend enthalten solche Architekturen einen Industry-Standard-Architecture(ISA)-Bus, einen Micro-Channel-Architecture(MCA)-Bus, einen Enhanced-ISA(EISA)-Bus, einen lokalen Video-Electronics-Standards-Association(VESA)-Bus und einen Peripheral-Component-Interconnects(PCI)-Bus.
Das Computersystem/der Server 12 umfasst in der Regel eine Vielfalt von durch einen Computer lesbare Medien. Bei diesen Medien kann es sich um beliebige verfügbare Medien handeln, auf die das Computersystem/der Server 12 zugreifen kann, darunter flüchtige und nichtflüchtige Medien, wechselbare und nichtwechselbare Medien.
Der Systemspeicher 28 kann vom Computersystem lesbare Medien in Form von flüchtigen Speichern, z.B. Direktzugriffsspeicher (RAM) 30 und/oder Zwischenspeicher 32, enthalten. Das Computersystem/der Server 12 kann ferner weitere wechselbare/nichtwechselbare, flüchtige/nichtflüchtige Computersystem-Speichermedien enthalten. Nur beispielhaft kann das Speichersystem 34 bereitgestellt werden, um ein nichtwechselbares, nichtflüchtiges magnetisches Medium auszulesen und zu beschreiben (nicht dargestellt und üblicherweise als „Festplatte“ bezeichnet). Obwohl nicht dargestellt, können ein Laufwerk für magnetische Speicherplatten zum Auslesen und Beschreiben einer wechselbaren, nichtflüchtigen magnetischen Speicherplatte (z.B. „Diskette“) und ein Laufwerk für optische Speicherplatten zum Auslesen oder Beschreiben einer wechselbaren, nichtflüchtigen optischen Speicherplatte wie einem CD-ROM, DVD-ROM und andere optische Medien bereitgestellt werden. In solchen Fällen kann jedes über eine oder mehrere Datenmedien-Schnittstellen mit dem Bus 18 verbunden sein. Wie unten weiter dargestellt und beschrieben, kann der Speicher 28 mindestens ein Programmprodukt mit einem (z.B. mindestens einem) Satz von Programmmodulen enthalten, die so konfiguriert sind, dass sie die Funktionen der Ausführungsformen der Erfindung ausführen.
Das Programm/Dienstprogramm 40 mit (mindestens) einem Satz von Programmmodulen 42 kann beispielsweise und nicht einschränkend im Speicher 28 gespeichert sein, ebenso ein Betriebssystem, ein oder mehrere Anwendungsprogramme, weitere Programmmodule und Programmdaten. Das Betriebssystem, ein oder mehrere Anwendungsprogramme, weitere Programmmodule und Programmdaten oder eine Kombination daraus können jeweils eine Implementierung einer Netzwerkumgebung enthalten. Die Programmmodule 42 führen im Allgemeinen die Funktionen und/oder Methodiken von Ausführungsformen der hierin beschriebenen Erfindung aus.
Das Computersystem/der Server 12 kann auch mit einer oder mehreren externen Einheiten 14, z.B. einer Tastatur, einer Zeigeeinheit, einer Anzeige 24 usw., Daten austauschen; sowie mit einer oder mehreren Einheiten, die einen Benutzer in die Lage versetzen, mit dem Computersystem/dem Server 12 zu interagieren; und/oder beliebigen Einheiten (z.B. Netzwerkkarte, Modem usw.), die das Computersystem/den Server 12 in die Lage versetzen, mit einer oder mehreren Datenverarbeitungseinheiten Daten auszutauschen. Eine solche Datenübertragung kann über die Eingabe/Ausgabe-Schnittstellen (E/A-Schnittstellen) 22 erfolgen. Überdies kann das Computersystem/der Server 12 mit einem oder mehreren Netzwerken, z.B. einem lokalen Netzwerk (LAN), einem allgemeinen Weitverkehrsnetzwerk (WAN) und/oder einem öffentlichen Netzwerk (z.B. das Internet), über den Netzwerkadapter 20 Daten austauschen. Wie dargestellt, tauscht der Netzwerkadapter 20 über den Bus 18 mit den anderen Komponenten des Computersystems/Servers 12 Daten aus. Es versteht sich, dass sonstige Hardware- und/oder Software-Komponenten in Verbindung mit dem Computersystem/Server 12 verwendet werden können, auch wenn sie nicht dargestellt sind. Beispiele sind unter anderem, ohne darauf beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, Anordnungen externer Festplattenlaufwerke, RAID-Systeme, Bandlaufwerke und Speichersysteme für die Datenarchivierung usw.
Die vorliegende Offenbarung enthält zwar eine ausführliche Beschreibung von Cloud-Computing, es versteht sich jedoch, dass die Umsetzung der hierin dargelegten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist. Stattdessen können Ausführungsformen der vorliegenden Erfindung gemeinsam mit beliebigen Arten von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
Cloud-Computing ist ein Modell zum Liefern eines Dienstes, der einen problemlosen, bedarfsorientierten Netzwerkzugriff auf einen gemeinsamen Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Speicher, Anwendungen, virtuelle Maschinen und Dienste) ermöglicht, die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Dienstes schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle enthalten.
Bei den Eigenschaften handelt es sich um die Folgenden:
On-Demand Self-Service (bedarfsorientierte Selbstbedienung): Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher bereitstellen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access (breiter Netzzugriff): Über ein Netzwerk sind Funktionen verfügbar, auf die durch Standardmechanismen zugegriffen wird, die die Verwendung durch heterogene schlanke oder leistungsintensive Client-Plattformen unterstützen (z.B. Mobiltelefone, Laptops und PDAs). Ressource Pooling (Ressourcen-Bündelung): Die Datenverarbeitungsressourcen des Anbieters werden gebündelt, um mehreren Nutzern unter Verwendung eines Mehrmietermodells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum). Rapid Elasticity (schnelle Anpassungsfähigkeit): Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service (messbarer Dienst): Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Der Ressourcenverbrauch kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz bereitgestellt wird.
Es gibt folgende Dienstmodelle:
Software as a Service (Saas) (Software als Dienst): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine schlanke Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende eMail) von verschiedenen Client-Einheiten aus zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Einstellungen der Anwendungskonfiguration.
Platform as a Service (Paas) (Plattform als Dienst): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Werkzeugen erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen der Hosting-Umgebung der Anwendung.
Infrastructure as a Service (laas) (Infrastruktur als Dienst): Die dem Nutzer bereitgestellte Funktion besteht darin, Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Es gibt folgende Einsatzmodelle:
Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder fremden Räumen befinden.
Community Cloud (Benutzergemeinschafts-Cloud): Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Anliegen hat (z.B. Aufgabe, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder fremden Räumen befinden.
Public Cloud (öffentliche Cloud): Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Branchengruppe zur Verfügung gestellt und gehört einer Organisation, die Cloud-Dienste verkauft.
Hybrid Cloud (hybride Cloud): Die Cloud-Infrastruktur besteht aus zwei oder mehr Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Entitäten bleiben, aber durch eine standardisierte oder herstellereigene Technologie miteinander verbunden sind, die eine Übertragbarkeit von Daten und Anwendungen ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert und schwerpunktmäßig auf Statusunabhängigkeit, geringe Kopplung, Modularität und semantische Interoperabilität ausgerichtet. Der Kern der Cloud-Computing ist eine Infrastruktur, die ein Netzwerk aus miteinander verbundenen Knoten enthält.
Mit Bezug nunmehr auf 6 ist eine veranschaulichende Cloud-Computing-Umgebung 50 dargestellt. Wie gezeigt, enthält die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 10, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie der persönliche digitale Assistent (PDA) oder das Mobiltelefon 54A, der Desktop-Computer 54B, der Laptop-Computer 54C und/oder das Kraftfahrzeug-Computersystem 54N Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in einem oder mehreren Netzwerken wie private, benutzergemeinschaftliche, öffentliche oder hybride Clouds wie oben beschrieben oder in einer Kombination davon in Gruppen angeordnet sein (nicht dargestellt). Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienste anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es versteht sich, dass die in 6 gezeigten Arten von Datenverarbeitungseinheiten 54A bis N nur veranschaulichend sein sollen und die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 mit jeder Art von computergestützter Einheit über jede Art von Netzwerk und/oder netzwerkadressierbarer Verbindung Daten austauschen kann (z.B. über einen Web-Browser).
Mit Bezug nunmehr auf 7 wird ein Satz funktionaler Abstraktionsschichten gezeigt, die von der Cloud-Computing-Umgebung 50 (6) bereitgestellt werden. Es versteht sich im Voraus, dass die in 7 dargestellten Komponenten, Schichten und Funktionen nur veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie dargestellt, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Die Hardware- und Software-Schicht 60 enthält Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: die Großrechner 61; die Server 62 auf Grundlage der RISC-Architektur (RISC = Reduced Instruction Set Computer, Computer mit reduziertem Befehlssatz), die Server 63; die Blade-Server 64; die Speichereinheiten 65; sowie die Netzwerke und Netzwerkkomponenten 66. In einigen Ausführungsformen enthalten die Software-Komponenten die Netzwerkanwendungs-Serversoftware 67 und die Datenbank-Software 68.
Die Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Entitäten bereitgestellt werden können: virtuelle Server 71; virtuelle Speicher 72; virtuelle Netzwerke 73; darunter virtuelle private Netzwerke; virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
In einem Beispiel kann die Verwaltungsschicht 80 die nachfolgend beschriebenen Funktionen bereitstellen. Die Ressourcenbereitstellung 81 ermöglicht eine dynamische Bereitstellung von Datenverarbeitungsressourcen und anderen Ressourcen, die verwendet werden, um Aufgaben in der Cloud-Computing-Umgebung durchzuführen. Messen und Preisfindung 82 stellen Kostenverfolgung beim Verwenden von Ressourcen in der Cloud-Computing-Umgebung sowie Abrechnung oder Rechnungsstellung für die Inanspruchnahme dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Lizenzen für Anwendungssoftware umfassen. Die Sicherheitsfunktion stellt eine Identitätsprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 83 stellt Nutzern und Systemadministratoren den Zugang zur Cloud-Computing-Umgebung bereit. Die Verwaltung der Dienstgüte 84 stellt Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, sodass die erforderliche Dienstgüte erreicht wird. Die Planung und Erfüllung der Dienstgütevereinbarung (Service Level Agreement, SLA) 85 stellt eine Vorabeinteilung und eine Beschaffung von Cloud-Computing-Ressourcen bereit, deren künftiger Bedarf auf der Grundlage einer Dienstgütevereinbarung vorausgesehen wird.
Die Arbeitslastschicht 90 stellt Beispiele für Funktionalitäten bereit, für die die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 93; Datenanalyseverarbeitung 94; Transaktionsverarbeitung 95; und Erzeugen eines Vorhersagemodells 96.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jedem möglichen technischen Detaillierungsgrad der Integration handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder gehobene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. einen Lichtwellenleiter durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs/Verarbeitungs-Einheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Router, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs/Verarbeitungs-Einheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs/Verarbeitungs-Einheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o. ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, einen Herstellungsartikel aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die hierin verwendete Terminologie dient lediglich zum Zweck des Beschreibens von speziellen Ausführungsformen und soll die Erfindung nicht einschränken. Wie hierin verwendet, sollen die Singularformen „ein/eine/einer/eines“ und „der/die/das“ ebenfalls die Pluralformen umfassen, es sei denn, der Zusammenhang zeigt eindeutig etwas anderes auf. Es versteht sich ferner, dass die Begriffe „aufweisen“ und/oder „aufweisend“, wenn sie in dieser Beschreibung verwendet werden, die Anwesenheit von angegebenen Merkmalen, Ganzzahlen, Schritten, Operationen, Elementen und/oder Komponenten spezifizieren, jedoch nicht die Anwesenheit oder Hinzufügung von einem oder mehreren anderen Merkmalen, Ganzzahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen davon ausschließen.
Die entsprechenden Strukturen, Materialien, Maßnahmen und Äquivalente aller Mittel oder Schritt-plus-Funktion-Elemente in den nachfolgenden Ansprüchen sollen alle Strukturen, Materialien oder Maßnahmen zur Durchführung der Funktion in Kombination mit anderen beanspruchten Elementen umfassen, wie dies speziell beansprucht wird. Die Beschreibung einer oder mehrere Ausführungsformen wurde zum Zwecke der Veranschaulichung und Beschreibung vorgestellt, soll jedoch nicht erschöpfend oder auf die Erfindung in der offenbarten Form beschränkt sein. Für Fachleute ist offensichtlich, dass viele Änderungen und Abwandlungen möglich sind. Die Ausführungsform wurde ausgewählt und beschrieben, um verschiedene Aspekte und die praktische Anwendung am besten zu erläutern und um anderen Fachleuten ein Verständnis verschiedener Ausführungsformen mit verschiedenen Änderungen zu ermöglichen, wie sie für die jeweils beabsichtigte Verwendung geeignet sind.

Claims

Durch einen Computer implementiertes Verfahren, das aufweist: Erhalten einer Rohdatei durch einen oder mehrere Prozessoren, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde; Segmentieren der Rohdatei durch den einen oder die mehreren Prozessoren in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten von den übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen durch den einen oder die mehreren Prozessoren, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale in Daten der übrigen Gruppen durch den einen oder die mehreren Prozessoren zu identifizieren, und Gewichten der gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen, wobei die gemeinsamen Merkmale durch Koeffizienten dargestellte Hauptkomponenten aufweisen; Ermitteln einer kleinsten Anzahl der Hauptkomponenten durch das eine oder die mehreren Programme, die einen vordefinierten Wert einer Validierungsgenauigkeit ergibt; und Erzeugen eines Vorhersagemodells durch den einen oder die mehreren Prozessoren, indem die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet wird, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, das weiterhin aufweist: Testen des Vorhersagemodells durch den einen oder die mehreren Prozessoren durch Anwenden der Koeffizienten, um für die Ausschlussgruppe zu verwendende Merkmale zu berechnen; und Anpassen des Vorhersagemodells durch den einen oder die mehreren Prozessoren durch Vergleichen der Merkmale für die Ausschlussgruppe mit den Hauptkomponenten.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, wobei die Peptidbibliotheken 12-mer Peptidbibliotheken aufweisen.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, wobei der Zustand Brustkrebs im Stadium I aufweist.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, wobei das Segmentieren Erzeugen von Zufallszahlen aufweist, um auszuwählen, welcher Datensatz der Rohdatei welcher der Gruppen zugewiesen wird.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, das aufweist: vor Durchführen der Hauptkomponentenanalyse Normalisieren der Peptide, die die Rohdatei aufweisen, durch den einen oder die mehreren Prozessoren, indem Peptidwerte der Peptide aus allen Peptiden addiert werden und jeder Expressionswert durch eine resultierende Summe dividiert wird, um ein Verhältnis zu berechnen.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, wobei das Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen aufweist: Erzeugen von Trainingsdatensätzen durch den einen oder die mehreren Prozessoren, wobei jeder Trainingsdatensatz der Trainingsdatensätze Daten in allen außer einer Gruppe der verbleibenden Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse durch den einen oder die mehreren Prozessoren einzeln bei jedem Trainingsdatensatz, um gemeinsame Merkmale in jedem Trainingsdatensatz zu identifizieren; Ausführen einer Hauptkomponentenanalyse durch das eine oder die mehreren Programme durch Verwenden der übrigen Gruppen als einzelnen Trainingssatz, um gemeinsame Merkmale im einzelnen Trainingssatz zu identifizieren; und Durchführen einer Kreuzvalidierung der gemeinsamen Merkmale jedes Trainingsdatensatzes und der gemeinsamen Merkmale im einzelnen Trainingssatz, wobei die Kreuzvalidierung mit einer Anzahl von Aufteilungen stattfindet, die einer Anzahl der übrigen Gruppen entspricht, um die Hauptkomponenten zu identifizieren und die Koeffizienten zu bestimmen.
Durch einen Computer implementiertes Verfahren nach Anspruch 7, wobei der vordefinierte Wert der Validierungsgenauigkeit eine höchste Validierungsgenauigkeit auf Grundlage der Anzahl von Aufteilungen ist.
Durch einen Computer implementiertes Verfahren nach Anspruch 1, das weiterhin aufweist: Erhalten neuer Rohdaten durch den einen oder die mehreren Prozessoren, die eine 12-mer Peptidbibliothek einer gegebenen Person aufweisen; und Anwenden des Vorhersagemodells durch den einen oder die mehreren Prozessoren auf die neuen Rohdaten, um ein binäres Ergebnis für die gegebene Person zu ermitteln.
Durch einen Computer implementiertes Verfahren nach Anspruch 9, wobei das Anwenden des Vorhersagemodells Durchführen einer Hauptkomponentenanalyse bei den neuen Rohdaten mithilfe der Koeffizienten und Durchführen einer logistischen Regression aufweist, um das binäre Ergebnis zu erzeugen.
Computerprogrammprodukt, das aufweist: durch einen Computer lesbares Speichermedium, das durch einen Prozessor lesbar ist und Anweisungen speichert, die von dem einem oder den mehreren Prozessoren zum Durchführen eines Verfahrens ausgeführt werden, das aufweist: Erhalten einer Rohdatei durch den einen oder die mehreren Prozessoren, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde; Segmentieren der Rohdatei durch den einen oder die mehreren Prozessoren in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten von den übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen durch den einen oder die mehreren Prozessoren, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale in Daten der übrigen Gruppen durch den einen oder die mehreren Prozessoren zu identifizieren, und Gewichten der gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen, wobei die gemeinsamen Merkmale durch Koeffizienten dargestellte Hauptkomponenten aufweisen; Ermitteln einer kleinsten Anzahl der Hauptkomponenten durch das eine oder die mehreren Programme, die einen vordefinierten Wert einer Validierungsgenauigkeit ergibt; und Erzeugen eines Vorhersagemodells durch den einen oder die mehreren Prozessoren, indem die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet wird, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.
Computerprogrammproduktverfahren nach Anspruch 11, das weiterhin aufweist: Testen des Vorhersagemodells durch den einen oder die mehreren Prozessoren durch Anwenden der Koeffizienten, um für die Ausschlussgruppe zu verwendende Merkmale zu berechnen; und Anpassen des Vorhersagemodells durch den einen oder die mehreren Prozessoren durch Vergleichen der Merkmale für die Ausschlussgruppe mit den Hauptkomponenten.
Computerprogrammproduktverfahren nach Anspruch 11, wobei die Peptidbibliotheken 12-mer Peptidbibliotheken aufweisen.
Computerprogrammproduktverfahren nach Anspruch 11, wobei der Zustand Brustkrebs im Stadium I aufweist.
Computerprogrammproduktverfahren nach Anspruch 11, wobei das Segmentieren Erzeugen von Zufallszahlen aufweist, um auszuwählen, welcher Datensatz der Rohdatei welcher der Gruppen zugewiesen wird.
Computerprogrammproduktverfahren nach Anspruch 11, das aufweist: vor Durchführen der Hauptkomponentenanalyse Normalisieren der Peptide, die die Rohdatei aufweisen, durch den einen oder die mehreren Prozessoren, indem Peptidwerte der Peptide aus allen Peptiden addiert werden und jeder Expressionswert durch eine resultierende Summe dividiert wird, um ein Verhältnis zu berechnen.
Computerprogrammproduktverfahren nach Anspruch 11, wobei das Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen aufweist: Erzeugen von Trainingsdatensätzen durch den einen oder die mehreren Prozessoren, wobei jeder Trainingsdatensatz der Trainingsdatensätze Daten in allen außer einer Gruppe der verbleibenden Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse durch den einen oder die mehreren Prozessoren einzeln bei jedem Trainingsdatensatz, um gemeinsame Merkmale in jedem Trainingsdatensatz zu identifizieren; Ausführen einer Hauptkomponentenanalyse durch das eine oder die mehreren Programme durch Verwenden der übrigen Gruppen als einzelnen Trainingssatz, um gemeinsame Merkmale im einzelnen Trainingssatz zu identifizieren; und Durchführen einer Kreuzvalidierung der gemeinsamen Merkmale jedes Trainingsdatensatzes und der gemeinsamen Merkmale in dem einzelnen Trainingssatz, wobei die Kreuzvalidierung mit einer Anzahl von Aufteilungen stattfindet, die einer Anzahl der übrigen Gruppen entspricht, um die Hauptkomponenten zu identifizieren und die Koeffizienten zu bestimmen.
Computerprogrammproduktverfahren nach Anspruch 17, wobei der vordefinierte Wert der Validierungsgenauigkeit eine höchste Validierungsgenauigkeit auf Grundlage der Anzahl von Aufteilungen ist.
Computerprogrammproduktverfahren nach Anspruch 11, das weiterhin aufweist: Erhalten neuer Rohdaten durch den einen oder die mehreren Prozessoren, die eine 12-mer Peptidbibliothek einer gegebenen Person aufweisen; und Anwenden des Vorhersagemodells durch den einen oder die mehreren Prozessoren auf die neuen Rohdaten, um ein binäres Ergebnis für die gegebene Person zu ermitteln.
System, das aufweist: einen Speicher; einen Prozessor, der mit dem Speicher Daten austauscht; und Programmanweisungen, die durch den Prozessor über den Speicher ausführbar sind, um ein Verfahren durchzuführen, wobei das Verfahren das aufweist: Erhalten einer Rohdatei durch den einen oder die mehreren Prozessoren, die Peptidbibliotheken von Patienten aufweist, bei denen ein Zustand entweder diagnostiziert oder vordiagnostiziert wurde oder bei denen der Zustand nicht diagnostiziert wurde; Segmentieren der Rohdatei durch den einen oder die mehreren Prozessoren in eine vordefinierte Anzahl von Gruppen, wobei das Segmentieren Trennen einer Ausschlussgruppe von Daten von den übrigen Gruppen aufweist; Durchführen einer Hauptkomponentenanalyse bei den übrigen Gruppen durch den einen oder die mehreren Prozessoren, um auf Grundlage einer Häufigkeit von Merkmalen in den übrigen Gruppen gemeinsame Merkmale in Daten der übrigen Gruppen durch den einen oder die mehreren Prozessoren zu identifizieren, und Gewichten der gemeinsamen Merkmale auf Grundlage der Häufigkeit des Auftretens in den übrigen Gruppen, wobei die gemeinsamen Merkmale durch Koeffizienten dargestellte Hauptkomponenten aufweisen; Ermitteln einer kleinsten Anzahl der Hauptkomponenten durch das eine oder die mehreren Programme, die einen vordefinierten Wert einer Validierungsgenauigkeit ergibt; und Erzeugen eines Vorhersagemodells durch den einen oder die mehreren Prozessoren, indem die kleinste Anzahl von Hauptkomponenten als Parameter für eine beste Übereinstimmung in einem logistischen Regressionsmodell verwendet wird, wobei das Vorhersagemodell binäre Ergebnisse bereitstellt, die aus der Gruppe ausgewählt werden, die besteht aus: Wahrscheinlichkeit des Vorliegens des Zustands innerhalb eines vordefinierten Schwellenwerts oder keine Wahrscheinlichkeit des Vorliegens des Zustands innerhalb des vordefinierten Schwellenwerts.