DE102014200158B4

DE102014200158B4 - Merkmalauswahl für eine effektive Epistase-Modellierung zur Phänotyp-Vorhersage

Info

Publication number: DE102014200158B4
Application number: DE102014200158.7A
Authority: DE
Inventors: David HAWS; Dan HE; Laxmi P. Parida
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-01-21
Filing date: 2014-01-09
Publication date: 2014-09-04
Anticipated expiration: 2034-01-10
Also published as: DE102014200158A1

Abstract

Verschiedene Ausführungsformen wählen Marker zum Modellieren von Epistase-Wirkungen aus. Bei einer Ausführungsform empfängt ein Prozessor eine Gruppe von genetischen Markern und einen Phänotyp. Eine Relevanz-Bewertungszahl wird in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern ermittelt. Ein Schwellenwerk wird anhand der Relevanz-Bewertungszahl eines genetischen Markers mit einer höchsten Relevanz-Bewertungszahl eingestellt. Eine Relevanz-Bewertungszahl wird für wenigstens einen genetischen Marker in der Gruppe genetischer Marker für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe genetischer Marker ermittelt. Die wenigstens eine Interaktion wird einer Gruppe von oberen k Merkmalen anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion hinzugefügt, die den Schwellenwert nicht übersteigt.

Description

Querbezug auf verwandte Anmeldungen
HINTERGRUND
Die vorliegende Erfindung bezieht sich allgemein auf das Gebiet der Bioinformatik und insbesondere auf ein Auswählen von Merkmalen zum Modellieren einer Gen-Epistase zur Phänotyp-Vorhersage.
Verfahren zur Merkmalauswahl sind entscheidend für Klassifizierungs- und Regressionsprobleme. Es ist z. B. bei umfangreichen Lernanwendungen, insbesondere bei biologischen Daten wie etwa Gen-Ausdrucksdaten und Genotyp-Daten, üblich, dass die Anzahl von Variablen die Anzahl von Proben weit überschreitet. Das Problem „Fluch der hohen Dimension” betrifft nicht nur die rechnerische Wirksamkeit der Lernalgorithmen, sondern führt außerdem zu einer geringen Leistungsfähigkeit dieser Algorithmen. Um sich diesem Problem zu widmen, können verschiedenen Verfahren zur Merkmalauswahl verwendet werden, bei denen eine Teilmenge von wichtigen Merkmalen ausgewählt wird und die Lernalgorithmen an diesen Merkmalen trainiert werden.
KURZDARSTELLUNG
In einer Ausführungsform wird ein durch einen Computer umgesetztes Verfahren zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen offenbart. Das durch einen Computer umgesetzte Verfahren beinhaltet Empfangen einer Gruppe von genetischen Markern und eines Phänotyps durch einen Prozessor. Eine Relevanz-Bewertungszahl wird in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern ermittelt. Ein Schwellenwert wird eingerichtet anhand der Relevanz-Bewertungszahl eines genetischen Markers in der Gruppe von genetischen Markern mit einer höchsten Relevanz-Bewertungszahl. Eine Relevanz-Bewertungszahl wird für wenigstens einen genetischen Marker in der Gruppe von genetischen Markern für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe von genetischen Markern ermittelt. Die wenigstens eine Interaktion wird einer Gruppe der oberen k Merkmale anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion angefügt, die den Schwellenwert nicht übersteigt. Jedes Merkmal aus der Gruppe der oberen k Merkmale ist ein Merkmal eines genetischen Markers und einer Interaktion, die jeweils eine der oberen k Relevanz-Bewertungszahlen enthalten. Eine Teilgruppe der Gruppe der oberen k Merkmale wird ausgewählt, um eine Wirkung der Epistase auf eine physische Eigenschaft zu modellieren.
Bei einer weiteren Ausführungsform wird ein Datenverarbeitungssystem zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen offenbart. Das Datenverarbeitungssystem enthält einen Speicher und einen Prozessor, der zum Datenaustausch mit dem Speicher verbunden ist. Ein Merkmalauswahlmodul ist zum Datenaustausch mit dem Speicher und dem Prozessor verbunden. Das Merkmalauswahlmodul ist so eingerichtet, dass es ein Verfahren ausführt. Das Verfahren beinhaltet Empfangen einer Gruppe von genetischen Markern und eines Phänotyps. Eine Relevanz-Bewertungszahl wird in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern ermittelt. Ein Schwellenwert wird anhand der Relevanz-Bewertungszahl eines genetischen Markers in der Gruppe von genetischen Markern mit einer höchsten Relevanz-Bewertungszahl eingerichtet. Eine Relevanz-Bewertungszahl wird für wenigstens einen genetischen Marker in der Gruppe von genetischen Markern für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe von genetischen Markern ermittelt. Die wenigstens eine Interaktion wird der Gruppe der oberen k Merkmale anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion, die den Schwellenwert nicht übersteigt, angefügt. Jedes Merkmal in der Gruppe der oberen k Merkmale ist ein Merkmal eines genetischen Markers und einer Interaktion, die jeweils eine der oberen k Relevanz-Bewertungszahlen enthalten. Eine Teilgruppe der Gruppe von oberen k Merkmale wird zum Modellieren einer Epistase-Wirkung auf eine physische Eigenschaft ausgewählt.
Bei einer weiteren Ausführungsform wird ein nichtflüchtiges Computerprogrammprodukt zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen offenbart. Das Computerprogrammprodukt enthält ein Speichermedium, das durch eine Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung zum Ausführen eines Verfahrens speichert. Das Verfahren beinhaltet Empfangen einer Gruppe von genetischen Markern und eines Phänotyps. Eine Relevanz-Bewertungszahl wird in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern ermittelt. Ein Schwellenwerk wird anhand der Relevanz-Bewertungszahl eines genetischen Markers in der Gruppe von genetischen Markern mit einer höchsten Relevanz-Bewertungszahl eingestellt. Eine Relevanz-Bewertungszahl wird für wenigstens einen genetischen Marker in der Gruppe von genetischen Markern für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe von genetischen Markern ermittelt. Die wenigstens eine Interaktion wird einer Gruppe von k oberen Merkmalen anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion, die den Schwellenwert nicht übersteigt, angefügt. Jedes Merkmal in der Gruppe von oberen k Merkmalen ist ein Merkmal eines genetischen Markers und einer Interaktion, die jeweils eine der oberen k Relevanz-Bewertungszahlen enthalten. Eine Teilmenge der Menge von oberen k Merkmalen wird zum Modellieren einer Epistase-Wirkung auf eine physische Eigenschaft ausgewählt.
KURZBESCHREIBUNG DER MEHREREN ZEICHNUNGSANSICHTEN
Die angefügten Figuren, bei denen sich gleiche Bezugszeichen auf identische oder funktional ähnliche Elemente in den verschiedenen Ansichten beziehen und die gemeinsam mit der nachfolgenden ausführlichen Beschreibung eingeschlossen sind und Teil der Spezifikation bilden, dienen dazu, verschiedene Ausführungsformen weiter zu veranschaulichen und verschiedene Grundgedanken und Vorteile im Hinblick auf die vorliegende Erfindung zu erklären, wobei:
1 ein Blockschaltplan ist, der ein Beispiel einer Funktionsumgebung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht; und
2 ein Funktionsablaufplan ist, der ein Beispiel zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
GENAUE BESCHREIBUNG
1 veranschaulicht eine allgemeine Übersicht einer Funktionsumgebung 100 gemäß einer Ausführungsform der vorliegenden Erfindung. Im Einzelnen veranschaulicht 1 ein Datenverarbeitungssystem 102, das bei Ausführungsformen der vorliegenden Erfindung verwendet werden kann. Bei dem in 1 gezeigten Datenverarbeitungssystem 102 handelt es sich lediglich um ein Beispiel eines geeigneten Systems, und es soll den Umfang der Verwendung oder die Funktionalität von Ausführungsformen der vorliegenden Erfindung, die oben beschrieben wurde, nicht einschränken. Das Datenverarbeitungssystem 102 von 1 ist in der Lage, jede der oben dargestellten Funktionalitäten umzusetzen und/oder auszuführen. Jedes in geeigneter Weise konfigurierte Verarbeitungssystem kann in Ausführungsformen der vorliegenden Erfindung als Datenverarbeitungssystem 102 verwendet werden.
Wie in 1 dargestellt fegt das Datenverarbeitungssystem 102 in Form einer Mehrzweck-Datenverarbeitungseinheit vor. Zu den Komponenten des Datenverarbeitungssystems 102 können ein oder mehrere Prozessoren oder Verarbeitungseinheiten 104, ein Systemspeicher 106 und ein Bus 108 gehören, der zahlreiche Systemkomponenten, darunter den Systemspeicher 106, mit dem Prozessor 104 verbindet, sind jedoch nicht auf diese beschränkt.
Der Bus 108 repräsentiert einen oder mehrere von verschiedenen Typen von Busstrukturen, zu denen ein Speicherbus oder eine Speichersteuereinheit, ein peripherer Bus, ein beschleunigter Grafikanschluss und ein Prozessor- oder Lokalbus gehören, die eine aus einer Vielzahl von Busarchitekturen verwenden. Lediglich beispielhaft und ohne Einschränkung gehören zu derartigen Architekturen Industry-Standard-Architecture-(ISA-)Bus, Micro-Channel-Architecture-(MCA-)Bus, Enhanced ISA-(EISA-)Bus, Video-Electronics-Standards-Association-(VESA-)Lokalbus und Peripheral-Component-Interconnects-(PCI-)Bus.
Der Systemspeicher 106 enthält bei einer Ausführungsform ein Merkmalauswahlmodul 109, das so eingerichtet ist, dass es eine oder mehrere Ausführungsformen ausführt, die später erläutert werden. Bei einer Ausführungsform ist das Merkmalauswahlmodul 109 z. B. für einen Epistase-Merkmalauswahlprozess eingerichtet, der auf Kriterien der maximalen Relevanz und der minimalen Redundanz beruht. Dieser Merkmalauswahlmechanismus wird hier im Folgenden als „EMRMR” bezeichnet. Wie später genauer erläutert wird, wählt das Merkmalauswahlmodul 109 unter Verwendung von EMRMR eine Gruppe von Merkmalen aus einem Merkmalraum aus unter Verwendung der Kriterien der maximalen Relevanz und der minimalen Redundanz, um Epistase für eine Phänotyp-Vorhersage effektiv zu modellieren. Obwohl 1 zeigt, dass sich das Merkmalauswahlmodul 109 im Hauptspeicher befindet, sollte angemerkt werden, dass sich das Merkmalauswahlmodul 109 im Prozessor 104 befinden kann, eine separate Hardware-Komponente sein kann und/oder über eine Vielzahl von Datenverarbeitungssystemen und/oder Prozessoren verteilt sein kann.
Der Systemspeicher 106 kann außerdem lesbare Medien des Computersystems in Form eines flüchtigen Speichers enthalten wie z. B. einen Direktzugriffsspeicher (RAM) 110 und/oder einen Cache-Speicher 112. Das Datenverarbeitungssystem 102 kann des Weiteren andere entnehmbare/nichtentnehmbare, flüchtige/nichtflüchtige Speichermedien des Computersystems enthalten. Lediglich beispielhaft kann ein Speichersystem 114 bereitgestellt werden, um von einem nichtentnehmbaren oder entnehmbaren, nichtflüchtigen Medium zu lesen oder zu diesem zu schreiben wie z. B. eine oder mehrere Solid-State-Platten und/oder magnetische Medien (die üblicherweise als „Festplatte” bezeichnet werden). Ein magnetisches Plattenlaufwerk zum Lesen und Schreiben von/zu einer entnehmbaren nichtflüchtigen magnetischen Platte (z. B. ein „Floppy Disk”) und ein optisches Plattenlaufwerk zum Lesen/Schreiben von/zu einer entnehmbaren nichtflüchtigen optischen Platte wie z. B. ein CD-ROM, DVD-ROM oder andere optische Medien können bereitgestellt werden. Bei diesen Fällen kann jede Einheit durch eine oder mehrere Datenmedienschnittstellen mit dem Bus 108 verbunden sein. Der Speicher 106 kann wenigstens ein Programmprodukt enthalten, das eine Gruppe von Programmmodulen aufweist, die so eingerichtet sind, dass sie die Merkmale einer Ausführungsform der vorliegenden Erfindung ausführen.
Das Programm/Dienstprogramm 116, das eine Gruppe von Programmmodulen 118 aufweist, kann beispielhaft und nicht einschränkend im Speicher 106 gespeichert sein wie auch ein Betriebssystem, ein oder mehrere Anwendungsprogramme, weitere Programmmodule und Programmdaten. Das Betriebssystem, ein oder mehrere Anwendungsprogramme, weitere Programmmodule und Programmdaten oder Kombinationen hiervon können eine Umsetzung einer Netzwerk-Umgebung darstellen. Programmmodule 118 führen im Allgemeinen die Funktionen und/oder Methodiken von Ausführungsformen der vorliegenden Erfindung aus.
Das Datenverarbeitungssystem 102 kann außerdem Daten austauschen mit einer oder mehreren externen Einheiten 120 wie etwa eine Tastatur, eine Zeigeeinheit, eine Anzeige 122 usw.; mit einer oder mehreren Einheiten, die es einem Benutzer ermöglichen, mit dem Datenverarbeitungssystem 102 zusammenzuwirken; und/oder mit allen Einheiten (z. B. Netzwerkkarte, Modem usw.), die es dem Computersystem/Server 102 ermöglichen, mit einer oder mehreren anderen Datenverarbeitungseinheiten Daten auszutauschen. Ein derartiger Datenaustausch kann über E/A-Schnittstellen 124 erfolgen. Das Datenverarbeitungssystem 102 kann des Weiteren mit einem oder mehreren Netzwerken wie z. B. ein Lokalbereichsnetzwerk (LAN), ein allgemeines Weitbereichsnetzwerk (WAN) und/oder ein öffentliches Netzwerk (z. B. das Internet) über Netzwerkadapter 126 Daten austauschen. Wie dargestellt tauscht der Netzwerkadapter 126 mit den anderen Komponenten des Datenverarbeitungssystems 102 über den Bus 108 Daten aus. Weitere Hardware- und/oder Softwarekomponenten können außerdem in Verbindung mit dem Datenverarbeitungssystem 102 verwendet werden. Zu Beispielen gehören Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Arrays aus Plattenlaufwerken, RAID-Systeme, Bandlaufwerke und Datenarchivierungs-Speichersysteme.
Ein Kriterium für eine Merkmalauswahl wird als Maximale Relevanz und minimale Redundanz (MRMR) bezeichnet. MRMR wählt auf gierige Weise (greedily) Merkmale aus, die für den Klassenwert maximal relevant sind und außerdem minimal voneinander abhängig sind. Bei MRMR sucht das Kriterium der maximalen Relevanz nach Merkmalen, die den Mittelwert aller gegenseitigen Datenwerte zwischen einzelnen Merkmalen und einer Klassenvariablen maximal machen. Eine Merkmalauswahl, die lediglich auf maximaler Relevanz beruht, neigt jedoch dazu, Merkmale auszuwählen, die eine hohe Redundanz aufweisen, und zwar neigt die Korrelation der ausgewählten Merkmale dazu, einen hohen Wert zu besitzen. Wenn einige dieser stark korrelierten Merkmale entfernt werden, würde sich die entsprechende Klassenunterscheidungsleistung nicht ändern oder sich lediglich um einen unbedeutenden Betrag ändern. Deswegen wird das Kriterium der minimalen Redundanz verwendet, um sich gegenseitig ausschließende Merkmale auszuwählen. Eine genauere Erläuterung zu MRMR erfolgt in Peng et al. „Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy”, Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(8): 1226 bis 1238, 2005, die hier in ihrer Gesamtheit durch Bezugnahme eingeschlossen ist.
Bei dem Problem einer Phänotyp-Vorhersage handelt es sich bei der Eingabe im Allgemeinen um eine Gruppe von Abtastwerten, wobei jeder einen Phänotyp-Wert aufweist, und eine Gruppe von Genotyp-Werten (hier außerdem bezeichnet als „Merkmal”, „Marker” und „Genotyp”). Die Aufgabe bei der Phänotyp-Vorhersage besteht darin, diese Eingabedaten zu verwenden, um ein Modell zu trainieren, so dass weitere Genotyp-Daten verwendet werden können, um nichtverfügbare Phänotyp-Daten vorherzusagen. Deswegen wird die Regression folgendermaßen dargestellt:
wobei Y der Phänotyp ist und X_i der i-te Genotyp-Wert ist, d ist die Gesamtanzahl von Genotypen und β_i ist der Regressionskoeffizient für den i-ten Genotyp und e ist der Fehler, von dem üblicherweise angenommen wird, dass er normalverteilt ist. Da die Anzahl von Genotypen die Anzahl von Abtastwerten gewöhnlich weit übersteigt, leidet die Vorhersage unter dem Problem „Fluch der hohen Dimension”.
Bei Epistase handelt es sich um das Phänomen, bei dem unterschiedliche Genotypen miteinander zusammenwirken können. Mit den Epistase-Wirkungen kann ein Typ des Epistase-Regressionsmodells angegeben werden durch:
wobei X_iX_j das Produkt der Genotyp-Werte des i-ten und j-ten Genotyps ist und die Interaktion der beiden Genotypen bezeichnet. Die Anzahl aller Paare von möglicher Epistase beträgt O(d²), wobei d die Anzahl von Genotypen darstellt. Unter der Voraussetzung, dass d üblicherweise im Bereich von Zehntausenden bis Millionen liegt, ist eine erschöpfende Suche selbst für moderate Datengruppen nicht machbar. Bei einer Problemstellung, bei der der Merkmalraum im Bereich von Zehntausenden bis zu Millionen liegt, würde die erschöpfende Suche bis zum Ende Wochen bis Jahre in Anspruch nehmen. Es ist deswegen sehr wichtig, effektivere Verfahren zu entwickeln.
Greedy-Strategien wurden auf die Erfassung von Epistase-Wirkungen angewendet, bei denen eine Teilmenge von stark marginalen Wirkungsmarkern zuerst ausgewählt wurden. Eine statistische Prüfung nach Epistase wird dann entweder zwischen allen Markern in der Teilgruppe oder zwischen den Markern in der Teilgruppe und den restlichen Markern ausgeführt. Ein Problem bei diesen Strategien besteht darin, dass sie im Allgemeinen die mögliche Epistase zwischen den schwach-marginalen Wirkungsmarkern auslassen, die nachgewiesen vorhanden sind. Deswegen stellen ein oder mehrere Ausführungsformen ein Modell bereit, bei dem jeder einzelne Marker bewertet und die Wahrscheinlichkeit berechnet wird, dass der Marker zu bedeutenden Epistase-Effekten führt. Wenn die Wahrscheinlichkeit höher als ein bestimmter Schwellenwert ist, werden alle Interaktionen zwischen dem Marker und den verbleibenden Markern analysiert.
Bei einer Ausführungsform empfängt das Merkmalauswahlmodul 109 als Eingabe eine Gruppe von Trainings-Abtastwerten, von denen jeder eine Gruppe von Merkmalen enthält wie z. B. genetische Marker und einen Klassen/Soll-Wert wie etwa einen Phänotyp. Bei einer weiteren Ausführungsform empfängt das Merkmalauswahlmodul 190 außerdem eine Gruppe von Prüf-Abtastwerten, von denen jeder lediglich dieselbe Gruppe von Merkmalen wie die Trainings-Abtastwerte enthält, wobei die Sollwerte fehlen. Die Anzahl k von Merkmalen, die auszuwählen sind, wird außerdem als Eingabe durch das Merkmalauswahlmodul 109 empfangen. Bei einer Ausführungsform können Merkmale als Zeilen und Abtastwerte als Spalten dargestellt werden. Deswegen weisen die Trainings- und Prüf-Abtastwerte dieselben Spalten (Merkmale), jedoch unterschiedliche Zeilen (Abtastwerte) auf. Es wird angemerkt, dass bei anderen Ausführungsformen die Prüf-Abtastwerte nicht empfangen werden, und der EMRME-Auswahlprozess wird lediglich an den Trainingsabtastwerten ausgeführt. Die Ausgabe des EMRMR-Merkmalauswahlprozesses, der durch das Merkmalauswahlmodul 109 ausgeführt wird, ist eine Gruppe von Merkmalen und Epistase-Effekten (d. h. Interaktionen). Wenn Prüf-Abtastwerte außerdem als Eingabe für das Merkmalauswahlmodul 109 bereitgestellt werden, kann die ausgewählte Gruppe von Merkmalen weiter verarbeitet werden, um ein Modell zum Vorhersagen der fehlenden Sollwerte der Prüf-Abtastwerte zu bilden.
Auf der Grundlage der oben genannten Eingabe ermittelt das Merkmalauswahlmodul 109 eine Relevanz-Bewertungszahl aller Merkmale, wobei lediglich die Trainings-Abtastwerte berücksichtigt werden, gemäß: I(x training / j; c^training) (Gleichung 3), wobei I die gegenseitigen Informationen zwischen einem gegebenen Merkmal x_j (z. B. ein Marker) und dem Klassenwert c (z. B. ein Phänotyp) darstellt. Die gegenseitigen Informationen I von zwei Variablen x und y können auf der Grundlage ihrer gemeinsamen marginalen Wahrscheinlichkeiten p(x) und p(y) und der probabilistischen Verteilung p(x, y) definiert werden als:
Es sollte angemerkt werden, dass weitere Verfahren zum Ermitteln der gegenseitigen Informationen I von Variablen außerdem verwendet werden können.
Das Merkmalauswahlmodul 109 bildet anschließend eine Rangordnung aller Merkmale unter Verwendung ihrer Relevanz-Bewertungszahl. Das Merkmalauswahlmodul achtet einen Schwellenwert K gemäß der Relevanz-Bewertungszahl des oberen k-ten Merkmals ein. Dieser Schwellenwert verhindert, dass Interaktionen ausgewählt werden, wenn sie eine Relevanz-Bewertungszahl aufweisen, die die kleiner als K ist. Der Schwellenwert K wird weiter verfeinert, um Interaktionen wirksamer auszuschließen, indem Interaktionen zu der Gruppe der oberen k Merkmale hinzugefügt werden. Zum Beispiel analysiert das Merkmalauswahlmodul 109 für jedes Merkmal in den Trainings-Abtastwerten die Interaktion zwischen einem vorgegebenen Merkmal und den anderen Merkmalen in der Gruppe von Trainings-Abtastwerten. Das Merkmalauswahlmodul 109 ermittelt eine Relevanz-Bewertungszahl für jede dieser Interaktionen in Bezug auf den Klassenwert, ähnlich wie oben unter Bezugnahme auf Gleichung 3 und Gleichung 4 erläutert wurde.
Das Merkmalauswahlmodul 109 vergleicht dann diese Relevanz-Bewertungszahl mit dem Schwellenwert K. Wenn die Relevanz-Bewertungszahl größer ist als der Schwellenwert K, fügt das Merkmalauswahlmodul 109 die Interaktion der Gruppe der oberen k Merkmale hinzu. Die Gruppe der oberen k Merkmale wird anschließend aktualisiert, indem ein letztes Merkmal entfernt wird, das das Merkmal mit der niedrigsten Rangordnung in der Gruppe der oberen k Merkmale darstellt. Der Schwellenwert K wird dynamisch aktualisiert mit der aktuellen Relevanz-Bewertungszahl des k-ten Merkmals in der aktualisierten Merkmalgruppe. Da der Schwellenwert K größer wird, ist es schwieriger, dass eine Interaktion ausgewählt wird, wodurch das Modell einer oder mehrerer Ausführungsformen effektiver wird.
Es sollte angemerkt werden, dass das Merkmalauswahlmodul 109 bei einer Ausführungsform nicht unbedingt alle Interaktionen zwischen einem vorgegebenen Merkmal und allen anderen Merkmalen berücksichtigen muss. Bei dieser Ausführungsform tastet z. B. das Merkmalauswahlmodul 109 willkürlich eine geringe Anzahl von Interaktionen zwischen dem Merkmal und den anderen Merkmalen ab und berechnet die Relevanz-Bewertungszahl dieser abgetasteten Interaktionen. Bei dem Merkmalauswahlmodul 109 wird im Einzelnen angenommen, dass alle Merkmale unabhängig erzeugt wurden. Wenn ein vorgegebenes Merkmal betrachtet wird, tastet das Merkmalauswahlmodul 109 willkürlich f Merkmale aus der Gruppe aller Merkmale ab. Die Relevanz-Bewertungszahl jeder Interaktion zwischen dem vorgegebenen Merkmal und jedem aus der Gruppe von f ausgewählten Markern wird dann ähnlich wie oben erläutert ermittelt.
Bei dem Merkmalauswahlmodul 109 wird dann angenommen, dass die Relevanz-Bewertungszahl der Interaktionen, bei denen das vorgegebene Merkmal beteiligt ist, einer Normalverteilung folgt. Unter Verwendung der f Relevanz-Bewertungszahlen schätzt das Merkmalauswahlmodul 109 die mittlere und die Standard-Abweichung der Normalverteilung. Dann berechnet das Merkmalauswahlmodul 109 unter Verwendung dieser Verteilung und bei Vorgabe der Gesamtzahl von Merkmalen als N die Wahrscheinlichkeit, wenigstens eine relevante Relevanz-Bewertungszahl aus den N – 1 möglichen Interaktionen zu erkennen, wobei eine Bewertungszahl signifikant ist, wenn sie höher als der aktuelle Bewertungszahl-Schwellenwert K ist. Wenn die Wahrscheinlichkeit geringer ist als ein im Voraus definierter Schwellenwert P von beispielsweise 0,005 ist, wird dieses Merkmal übersprungen. Wenn die Wahrscheinlichkeit höher ist als der Schwellenwert P, berücksichtigt/prüft das Merkmalauswahlmodul 109 die Interaktionen zwischen dem vorgegebenen Merkmal und allen restlichen Merkmalen.
Das Merkmalauswahlmodul 109 ermittelt z. B. die Relevanz-Bewertungszahl der Interaktionen zwischen dem vorgegebenen Merkmal und den restlichen Merkmalen in der Gruppe aller Merkmale, ähnlich wie bereits oben beschrieben wurde. Das Merkmalauswahlmodul 109 vergleicht die Relevanz-Bewertungszahlen mit dem Schwellenwert K. Wenn eine Relevanz-Bewertungszahl größer ist als der Schwellenwert K, wird die Interaktion zu der Gruppe der oberen k Merkmale hinzugefügt, und das letzte Merkmal wird entfernt. Der Schwellenwert K wird dynamisch aktualisiert mit der aktuellen Relevanz-Bewertungszahl des k-ten Merkmals in der aktualisierten Merkmalgruppe, die nun sowohl Marker als auch Interaktionen enthält. Der obige Prozess wird fortgesetzt, bis alle Merkmale in der Trainingsgruppe berücksichtigt wurden, um eine endgültige Gruppe der oberen k Merkmale zu bilden. Das Merkmalauswahlmodul 109 gibt dann die endgültige Gruppe der oberen k Merkmale aus.
Eine Teilgruppe von Merkmalen aus den oberen k Merkmalen kann dann unter Verwendung eines MRMR-Prozesses ausgewählt werden wie z. B. der transduktive MRMR-(TMRMR-)Prozess (ohne auf diesen beschränkt zu sein), der in der im gemeinschaftlichen Besitz befindlichen und gleichzeitig anhängigen US-Anmeldung Nr. 13/745.930 mit dem Titel „Transductive Feature Selection With Maximum-Relevancy and Minimum-Redundancy Criteria” erläutert ist, die hier durch Bezugnahme in ihrer Gesamtheit eingeschlossen ist. Bei dieser Ausführungsform macht jedes Merkmal in der Teilgruppe von Merkmalen eine Relevanz mit dem Phänotyp maximal und eine Redundanz in Bezug auf andere ausgewählte Merkmale minimal.
2 ist ein Funktionsablaufplan, der ein Beispiel eines Gesamtprozesses zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen veranschaulicht. Der Funktionsablaufplan beginnt am Schritt 2 und geht direkt zum Schritt 204. Das Merkmalauswahlmodul 109 empfängt im Schritt 204 eine Gruppe genetischer Marker und einen Phänotyp. Das Merkmalauswahlmodul 109 ermittelt im Schritt 206 eine Relevanz-Bewertungszahl in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern. Das Merkmalauswahlmodul 109 stellt im Schritt 208 einen Schwellenwert anhand der Relevanz-Bewertungszahl eines genetischen Markers in der Gruppe von genetischen Markern mit einer höchsten Relevanz-Bewertungszahl ein. Das Merkmalauswahlmodul 109 ermittelt im Schritt 210 eine Relevanz-Bewertungszahl für wenigstens einen genetischen Marker in der Gruppe von genetischen Markern für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe von genetischen Markern. Das Merkmalauswahlmodul 109 fügt im Schritt 212 die wenigstens eine Interaktion einer Gruppe von oberen k Merkmalen anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion hinzu, die den Schwellenwert nicht übersteigt. Jedes Merkmal in der Gruppe der oberen k Merkmale ist ein Merkmal eines genetischen Markers und einer Interaktion, die jeweils eine der oberen k Relevanz-Bewertungszahlen enthalten. Der Steuerablauf endet am Schritt 214.
Dem Fachmann ist klar, dass Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt ausgeführt werden können. Dementsprechend können Aspekte der vorliegenden Erfindung die Form einer reinen Hardware-Ausführungsform, einer reinen Software-Ausführungsform (mit Firmware, residenter Software, Mikrocode usw.) oder einer Ausführungsform, die Software- und Hardware-Aspekte kombiniert, annehmen, die hier alle als ”Schaltung”, ”Modul” oder ”System” bezeichnet werden können. Des Weiteren können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien ausgeführt wird, die computerlesbaren Programmcode aufweisen, der darin ausgeführt wird.
Jede Kombination aus einem oder mehreren computerlesbaren Medien kann verwendet werden. Bei dem computerlesbaren Medium kann es sich um ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium handeln. Ein computerlesbares Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, -vorrichtung oder -einheit oder jede geeignete Kombination des Vorhergehenden sein, ist jedoch nicht darauf beschränkt. Zu spezifischeren Beispielen (eine nicht erschöpfende Liste) des computerlesbaren Speichermediums würde Folgendes gehören: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Compactdisk-Festwertspeicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder jede geeignete Kombination des Vorhergehenden. Im Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes materielle Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Befehlsausführung enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein verbreitetes Datensignal mit einem computerlesbaren Programmcode, der darin z. B. im Basisband oder als Teil einer Trägerwelle verkörpert wird, enthalten. Ein derartiges verbreitetes Signal kann jede von einer Vielzahl von Formen annehmen, zu denen elektromagnetische, optische Formen oder jede geeignete Kombination hiervon gehören, jedoch nicht darauf beschränkt sind. Ein computerlesbares Signalmedium kann jedes computerlesbare Medium sein, das kein computerlesbares Speichermedium ist und ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Befehlsausführung kommunizieren, verbreiten oder transportieren kann.
Programmcode, der auf einem computerlesbaren Medium verkörpert ist, kann unter Verwendung jedes geeigneten Mediums übertragen werden, darunter drahtlose, leitungsgestützte, Lichtwellenleiterkabel-, HF-Medien oder jeder geeigneten Kombination aus dem Vorhergehenden, ohne darauf beschränkt zu sein.
Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in jeder Kombination aus einer oder mehreren Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie etwa die Programmiersprache ”C” oder ähnliche Programmiersprachen. Der Programmcode kann nur auf dem Computer eines Benutzers, teilweise auf dem Computer eines Benutzers, als ein selbstständiges Software-Paket, teilweise auf dem Computer eines Benutzers und teilweise auf einem fernen Computer oder nur auf dem fernen Computer oder Server ausgeführt werden. In dem zuletzt genannten Szenario kann der ferne Computer mit dem Computer des Benutzers durch jeden Netzwerktyp verbunden sein, einschließlich eines lokalen Netzwerks (LAN) oder eines Weitverkehrsnetzes (WAN), oder die Verbindung kann zu einem externen Computer (z. B. über das Internet unter Verwendung eines Internet-Dienstanbieters) hergestellt werden.
Aspekte der vorliegenden Erfindung wurden oben unter Bezugnahme auf Ablaufplan-Darstellungen und/oder Blockschaltbilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es ist klar, dass jeder Block der Ablaufplan-Darstellungen und/oder Blockschaltbilder und Kombinationen von Blöcken in den Ablaufplan-Darstellungen und/oder Blockschaltbildern durch Computerprogrammbefehle umgesetzt werden können. Diese Computerprogrammbefehle können an einen Prozessor eines Universalcomputers, eines Spezialcomputers oder eine andere programmierbare Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu bilden, so dass Befehle, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, Mittel zum Umsetzen der Funktionen/Wirkungen, die in dem Block oder den Blöcken des Ablaufplans und/oder Blockschaltbilds spezifiziert sind, erzeugen.
Diese Computerprogrammbefehle können außerdem in einem computerlesbaren Medium gespeichert sein, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, in einer bestimmten Weise zu funktionieren, so dass die in dem computerlesbaren Medium gespeicherten Befehle einen Herstellungsgegenstand produzieren, zu dem Befehle gehören, die die Funktion/Wirkung umsetzen, die in dem Block/den Blöcken des Ablaufplans und/oder Blockschaltbilds spezifiziert sind.
Computerprogrammbefehle können außerdem in einen Computer, andere programmierbare Datenverarbeitungsvorrichtungen oder andere Einheiten geladen werden, um eine Reihe von Operationsschritten zu bewirken, die auf dem Computer, der anderen programmierbaren Datenverarbeitungsvorrichtung oder anderen Einheiten ausgeführt werden sollen, um einen durch einen Computer implementierten Prozess zu erzeugen, so dass die Befehle, die auf dem Computer oder der anderen programmierbaren Vorrichtung ausgeführt werden, Prozesse zum Umsetzen der Funktionen/Wirkungen bereitstellen, die in dem Block oder Blöcken des Ablaufplans und/oder Blockschaltbilds spezifiziert sind.
Die hier verwendete Terminologie dient lediglich dem Zweck der Beschreibung bestimmter Ausführungsformen und ist nicht vorgesehen, die Erfindung einzuschränken. Es ist vorgesehen, dass die hier verwendeten Singularformen ”ein” und ”der/die/das” ebenso die Pluralformen einschließen, falls im Kontext nicht anders deutlich angegeben. Es ist ferner klar, dass die Ausdrücke ”weist auf” und/oder ”aufweisen”, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein von angegebenen Merkmalen, Ganzzahlen, Schritten, Operationen, Elementen und/oder Komponenten spezifizieren, jedoch nicht das Vorhandensein oder die Hinzufügung von einem oder mehreren anderen Merkmalen, Ganzzahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen hiervon ausschließen.
Die Beschreibung der vorliegenden Erfindung wurde für Zwecke der Erläuterung und Beschreibung dargestellt, es ist jedoch nicht vorgesehen, dass sie in der beschriebenen Form für die Erfindung erschöpfend oder einschränkend ist. Viele Modifikationen und Variationen werden einem Fachmann ersichtlich sein, ohne vom Umfang und Erfindungsgedanken der Erfindung abzuweichen. Die Ausführungsform wurde ausgewählt und beschrieben, um die Grundgedanken der Erfindung und die praktische Anwendung am besten zu erläutern und um andere Fachleute zu befähigen, die Erfindung zu verstehen, da verschiedene Ausführungsformen mit zahlreichen Modifikationen für die vorgesehene bestimmte Verwendung geeignet sind.

Claims

Datenverarbeitungssystem zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen, wobei das durch einen Computer umgesetzte Verfahren aufweist: einen Speicher; einen Prozessor, der zum Datenaustausch mit dem Speicher verbunden ist; und ein Merkmalauswahlmodul, das mit dem Speicher und dem Prozessor verbunden ist, wobei das Merkmalauswahlmodul so eingerichtet ist, dass es ein Verfahren ausführt, das aufweist: Empfangen einer Gruppe genetischer Marker und eines Phänotyps durch einen Prozessor; Ermitteln einer Relevanz-Bewertungszahl in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern; Einstellen eines Schwellenwerts anhand der Relevanz-Bewertungszahl eines genetischen Markers in der Gruppe genetischer Marker mit einer höchsten Relevanz-Bewertungszahl; Ermitteln für wenigstens einen genetischen Marker in der Gruppe genetischer Marker einer Relevanz-Bewertungszahl für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe genetischer Marker; und Hinzufügen der wenigstens einen Interaktion zu einer Gruppe oberer k Merkmale anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion, die den Schwellenwert erreicht, wobei jedes Merkmal in der Gruppe der oberen k Merkmale ein Merkmal eines genetischen Markers und einer Interaktion ist, die jeweils eine der oberen k Relevanz-Bewertungszahlen aufweisen.
Datenverarbeitungssystem nach Anspruch 1, wobei das Verfahren ferner aufweist: willkürliches Abtasten einer Teilgruppe von genetischen Markern aus der Gruppe genetischer Marker; und Auswählen des wenigstens einen zusätzlichen genetischen Markers aus der Teilgruppe von genetischen Markern.
Datenverarbeitungssystem nach Anspruch 2, wobei das Ermitteln der Relevanz-Bewertungszahl der wenigstens einen Interaktion aufweist: Ermitteln einer ersten Gruppe von Relevanz-Bewertungszahlen, die eine Relevanz-Bewertungszahl in Bezug auf den Phänotyp für jede aus einer Vielzahl von Interaktionen zwischen dem wenigstens einen genetischen Marker und jedem aus der Untergruppe von genetischen Markern aufweist; Ermitteln anhand einer Normalverteilung, die der ersten Gruppe von Relevanz-Bewertungszahlen zugehörig ist, einer Wahrscheinlichkeit, dass der wenigstens eine genetische Marker einer Interaktion zugehörig ist, die eine Relevanz-Bewertungszahl aufweist, die größer als der Schwellenwert ist; Vergleichen der Wahrscheinlichkeit mit einem Wahrscheinlichkeits-Schwellenwert; und Ermitteln anhand der Wahrscheinlichkeit, die den Wahrscheinlichkeits-Schwellenwert erreicht, einer zweiten Gruppe von Relevanz-Bewertungszahlen, die eine Relevanz-Bewertungszahl für jede aus einer zweiten Vielzahl von Interaktionen zwischen dem wenigstens einen genetischen Marker und einer verbleibenden Gruppe von Interaktionen in der Gruppe von genetischen Markern aufweist, wobei die zweite Vielzahl von Interaktionen die mindestens eine Interaktion aufweist, und wobei die verbleibende Gruppe von genetischen Markern den wenigstens einen zusätzlichen genetischen Marker aufweist.
Datenverarbeitungssystem nach Anspruch 1, wobei das Verfahren ferner aufweist: anhand des Hinzufügens der wenigstens einen Interaktion zu der Gruppe der oberen k Merkmale Erzeugen einer aktualisierten Gruppe der oberen k Merkmale durch Entfernen eines genetischen Markers und einer Interaktion, die einer niedrigsten Relevanz-Bewertungszahl aus der Gruppe der oberen k Merkmale zugehörig ist.
Datenverarbeitungssystem nach Anspruch 1, wobei das Verfahren ferner aufweist: Aktualisieren des Schwellenwerts gemäß einer höchsten Relevanz-Bewertungszahl, die einem genetischen Merker oder einer Interaktion in den aktualisierten oberen k Merkmalen zugehörig ist; Ermitteln einer Relevanz-Bewertungszahl für wenigstens eine zusätzliche Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe genetischer Marker; Vergleichen der Relevanz-Bewertungszahl von wenigstens einer zusätzlichen Interaktion mit dem Schwellenwert, der aktualisiert wurde; und Hinzufügen der wenigstens einen zusätzlichen Interaktion zu der Gruppe der oberen k Merkmale anhand der Relevanz-Bewertungszahl der wenigstens einen zusätzlichen Interaktion, die den Schwellenwert nicht übersteigt, der aktualisiert wurde.
Datenverarbeitungssystem nach Anspruch 1, wobei die Relevanz-Bewertungszahl, die für jeden aus der Gruppe von genetischen Markern ermittelt wurde, auf gegenseitigen Informationen zwischen jedem aus der Gruppe von genetischen Markern und dem Phänotyp beruht.
Datenverarbeitungssystem nach Anspruch 1, wobei die Relevanz-Bewertungszahl, die für die wenigstens eine Interaktion ermittelt wurde, auf gegenseitigen Informationen zwischen der wenigstens einen Interaktion und dem Phänotyp beruht.
Datenverarbeitungssystem nach Anspruch 1, wobei jedes Merkmal in der Teilgruppe der oberen k Merkmale eine Relevanz mit dem Phänotyp maximal macht und eine Redundanz in Bezug auf andere ausgewählte Merkmale minimal macht.
Nichtflüchtiges Computerprogrammprodukt zum Auswählen von Markern zum Modellieren von Epistase-Wirkungen, wobei das Computerprogrammprodukt aufweist: ein Speichermedium, das durch eine Verarbeitungsschaltung gelesen werden kann und Befehle zum Ausführen durch die Verarbeitungsschaltung speichert, um ein Verfahren auszuführen, das aufweist: Empfangen einer Gruppe von genetischen Markern und eines Phänotyps durch einen Prozessor; Ermitteln einer Relevanz-Bewertungszahl in Bezug auf den Phänotyp für jeden aus der Gruppe von genetischen Markern; Einstellen eines Schwellenwerts anhand der Relevanz-Bewertungszahl eines genetischen Markers in der Gruppe von genetischen Markern mit einer höchsten Relevanz-Bewertungszahl; Ermitteln für wenigstens einen genetischen Marker in der Gruppe von genetischen Markern einer Relevanz-Bewertungszahl für wenigstens eine Interaktion zwischen dem wenigstens einen genetischen Marker und wenigstens einem anderen genetischen Marker in der Gruppe von genetischen Markern; und Hinzufügen der wenigstens einen Interaktion zu einer Gruppe oberer k Merkmale anhand der Relevanz-Bewertungszahl der wenigstens einen Interaktion, die den Schwellenwert nicht übersteigt, wobei jedes Merkmal in der Gruppe oberer k Merkmale ein genetischer Marker oder eine Interaktion ist, der bzw. die jeweils eine der oberen k Relevanz-Bewertungszahlen aufweist.