DE102004007215A1 - Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle - Google Patents

Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle Download PDF

Info

Publication number
DE102004007215A1
DE102004007215A1 DE102004007215A DE102004007215A DE102004007215A1 DE 102004007215 A1 DE102004007215 A1 DE 102004007215A1 DE 102004007215 A DE102004007215 A DE 102004007215A DE 102004007215 A DE102004007215 A DE 102004007215A DE 102004007215 A1 DE102004007215 A1 DE 102004007215A1
Authority
DE
Germany
Prior art keywords
data
network
model
variables
subgraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102004007215A
Other languages
English (en)
Inventor
Anton Schwaighofer
Volker Dr. Tresp
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102004007215A priority Critical patent/DE102004007215A1/de
Priority to PCT/EP2005/050507 priority patent/WO2005078653A2/de
Publication of DE102004007215A1 publication Critical patent/DE102004007215A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft eine Erkennung einer graphischen Modellstruktur in Daten für stetige Variablen. DOLLAR A Dabei wird ein graphisches Modell zur Beschreibung der Daten in Teilgraphen zerlegt. Unter Verwendung von Kerndichteschätzern werden Teilgraphendichten für die Teilgraphen ermittelt. Unter Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas wird eine Bewertungsfunktion ermittelt, welche das Hinzufügen einer Kante zu dem Modell in Hinsicht auf eine Beschreibungsqualität einer in den Daten enthaltenen Struktur durch das Modell bewertet. Unter Verwendung der Bewertungsfunktion werden diejenigen Kanten bestimmt, die in das Modell eingefügt werden, und damit die graphische Modellstruktur bestimmt.

Description

  • Die Erfindung betrifft eine Erkennung sowie Bildung einer graphischen Modellstruktur in Daten für stetige Variablen.
  • Dabei wird bei der Erfindung unter "Daten für stetige Variablen" verstanden, dass die Daten dadurch erzeugbar sind, dass die den Daten zugrundeliegenden Variablen, welche stetige bzw. kontinuierliche Größen beschreiben, bestimmte Werte einnehmen. Dabei ist auch verständlich, dass diskrete Variablen mit von kontinuierlichen Variablen umfasst werden, welche diskrete Variabeln nämlich durch mathematische Verfahren, wie eine Interpolation, auf steige Variablen abbildbar sind.
  • Aus dem Stand der Technik sind graphische Modelle, wie kausale Netze oder im speziellen Bayesianische (Bayessche) Netze [3, 5, 9], zur Ermittlung einer in Daten enthaltenen Struktur bekannt.
  • Weiter ist bekannt, diese graphischen Modelle, die bei der Erkennung an die Daten angepasst werden, zur Beschreibung der Daten sowie zur Analyse der Daten wie auch von den Daten zugrundeliegenden Systemen zu verwenden.
  • Es ist bekannt, dass diese graphische Modelle die Unabhängigkeiten innerhalb einer Menge zufälliger Variablen bzw. Systemvariablen, die den Daten zugrunde liegen, unter bestimmten Bedingungen (Annahmen) kodieren bzw, beschreiben.
  • Neue Entwicklungen und Erkenntnisse auf diesem Gebiet der graphischen Modellierung von Daten, speziell die Modellierung bzw. Beschreibung von Daten unter Verwendung Bayesianischer Netze [9], betreffen dabei diskrete Variablen und sind im Umfeld diskreter Variablen anwendbar.
  • Graphische Modelle für stetige Variablen wurden bis auf wenige Ausnahmen (z.B. [10, 7]) entweder durch Diskretisierung erstellt oder unter der einschränkenden Annahme, dass die Daten aus einer einzelnen multivariaten Gaußdichte erzeugt werden [16].
  • Aus dem Stand der Technik ist ferner bekannt, bei graphischen Modellen zwischen gerichteten Modellen, wie zum Beispiel die Bayesianischen Netze, und ungerichteten Modellen zu unterscheiden. Ungerichtete Modelle beschreiben dabei Abhängigkeiten zwischen Variablen im allgemeinen, wohingegen gerichtete Modelle darüber hinaus eine Richtung der Abhängigkeit (gerichteter Kausalzusammenhang) beschreiben.
  • Weiter sind aus dem Stand der Technik in Teilgraphen zerlegbare graphische Modelle bekannt [6].
  • Ein solches zerlegbares Modell über Variablen {1, ..., n} ist repräsentiert durch einen ungerichteten Graphen G = (V, E) mit einer Menge V = {1, ..., n} von Knoten und Kanten E.
  • Ein ungerichteter Graph heißt chordal, wenn jeder Kreis der Länge ≥ 4 eine Sehne hat, d.h. eine Kante, der zwei nicht benachbarte Knoten des Kreises miteinander verbindet.
  • Ein graphisches Modell bildet ein zerlegbares Modell genau dann, wenn sein Graph chordal ist [6, Satz 4.4]. Ein Teilgraph von G ist eine Menge paarweise benachbarter Knoten in G. Ein Teilgraph C ist maximal, wenn C nicht echt in einem anderen Teilgraphen enthalten ist. K bezeichnet die Menge maximaler Teilgraphen des Graphen G. Der Schnitt benachbarter Teilgraphen innerhalb des Verbindungsbaumes wird Trenner genannt.
  • Eine spezielle Eigenschaft zerlegbarer Modelle besteht darin, dass die Teilgraphen der Darstellung eines Graphen in einem Verbindungsbaum angeordnet werden können. Der Verbindungsbaum ist ein Baum T mit einer Teilgraphenmenge K als Knotenmenge, die die Schnitteigenschaft für Teilgraphen erfüllt: für beliebige zwei Teilgraphen C1, C2 ∈ K ist die Menge C1 ∩ C2 in jedem Teilgraphen entlang des Weges in T zwischen C1 und C2 enthalten. Der Verbindungsbaum T von Teilgraphen existiert genau dann, wenn G zerlegbar ist [6, Satz 4.6]. Dabei ist beachten, dass der Verbindungsbaum eines Graphen G generell nicht eindeutig ist.
  • Ferner sind aus dem Stand der Technik viele Probleme im Unfeld großer Datenmengen, insbesondere ökonomischen Daten, und/oder komplexen Systemen, insbesondere ökonomischen und biologischen Systemen, wie beispielweise ein regulatorisches genetisches Netzwerk, bekannt, die eine effiziente Vorgehensweise zur Analyse der Daten und/oder zur Beschreibung der komplexen Systeme und zur Analyse deren Systemverhalten erfordern.
  • Aus [1] sind Grundlagen eines regulatorischen genetischen Netzwerks einer Zelle bekannt. Unter einem solchen regulatorischen genetischen Netzwerk seien dabei im Folgenden insbesondere regulatorische Wechselwirkungen (Abhängigkeiten) zwischen Genen einer Zelle verstanden.
  • Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schätzungsweise 20.000 bis 40.000 Gene, von denen jeweils eine biologisch bestimmte Anzahl – abhängig von einer Spezialisierung einer Zelle – in Form einer DNA oder eines Teils einer DNA in einer Zelle vorhanden sind.
  • Als ein Gen wird dabei ein nicht notwendigerweise zusammenhängender Abschnitt dieser DNA bezeichnet, der einen genetischen Code für ein Protein oder auch für eine Gruppe von Proteinen (Eiweißstoffe) bzw. für eine Erzeugung eines Proteins oder einer Proteingruppe enthält. Insgesamt beinhalten die Gene einen genetischen Code für etwa eine Million Proteine.
  • Ein Wechselspiel bzw. die Wechselwirkungen der Gene untereinander sowie mit den Proteinen stellt den wichtigsten Teil einer Maschinerie (regulatorisches genetisches Netzwerk) dar, die einer Entwicklung eines menschlichen Körpers aus einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.
  • Auch aus [1, 2] ist bekannt, dass sogenannte Gen-Expressionsraten, welche ein Gen-Expressionsmuster bilden, eine Beschreibung bzw. Repräsentation eines regulatorischen genetischen Netzwerks bzw. eines aktuellen Zustands des regulatorischen genetischen Netzwerks liefern.
  • Vereinfacht oder anschaulich ausgedrückt repräsentiert somit ein Gen-Expressionsmuster einer Zelle einen Zustand des regulatorischen genetischen Netzwerks dieser Zelle.
  • Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz-Genexpressions-Messungen (Microarray-Daten) diese Gen-Expressionsraten messbar sind. Die Microarray-Daten, in der Regel eine riesige Datenmenge, beschreiben wiederum Momentaufnahmen des Gen-Expressionsmusters.
  • Viele Krankheiten und Fehlfunktionen des Körpers gehen auf Störungen des regulatorischen genetischen Netzwerks zurück, welche sich in eine stark veränderten Gen-Expressionsverhalten (Gen-Expressionsraten) bzw. einem veränderten Gen-Expressmuster einer Zelle widerspiegeln.
  • Somit stellt ein Verständnis des regulierenden genetischen Netzwerks einen wichtigen Schritt auf dem Weg zu einer Charakterisierung und einem Verstehen von genetischen Mechanismen sowie in weiterer Folge zu einer Identifizierung von sogenannten dominanten oder Funktionsstörungen auslösenden Ge nen dar, welche den Krankheiten oder Fehlfunktionen zugrunde liegen.
  • Beispielsweise kann in einer Krebsforschung, bei der die Identifizierung von Geschwülste und Tumore unterdrückenden Genen eine Schlüsselrolle spielt, die Kenntnis neuer potenzieller Onkogene und ihre Wechselwirkung mit anderen Genen ein Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebserkrankungen) sein, welche ein Umwandlung normaler Zellen in bösartige Krebszellen bestimmen.
  • Weitergehend ist für eine Entwicklung von verbesserten Medikamenten und Therapien zur Bekämpfung von genetischen Krankheiten daher ebenfalls ein quantitatives Verständnis des regulatorischen genetischen Netzwerks einer Zelle erforderlich.
  • So wirken einige Medikamente als Agonisten bzw. Antagonisten spezifischer Zielproteine, d. h. sie verstärken oder schwächen die Funktion eines Proteins mit entsprechender Rückwirkung auf das regulatorische genetische Netzwerk mit dem Ziel, dieses zurück in einen normalen Funktionsmodus zu bringen.
  • Aus [2] ist eine Erkennung und Beschreibung eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines graphischen Modells bekannt.
  • Der Erfindung liegt die Aufgabe zugrunde, eine Vorgehensweise zum Erkennen einer graphischen Modellstruktur für stetige Variablen anzugeben. Die Vorgehensweise soll überdies mit möglichst wenig Annahmen für die bei der Modellierung zugrundegelegten (Wahrscheinlichkeits-)Verteilungen auszukommen.
  • Weiter soll die Erfindung es ermöglichen, Strukturen auch in größeren Datenmengen zu erkennen.
  • Diese Aufgabe wird durch das Verfahren, durch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm- Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle gelöst.
  • Bei dem grundlegenden Verfahren zur Erkennung einer in Daten enthaltenen Struktur, welche Daten abbildbar sind auf einen Satz von Variablen, wird ein in Teilgraphen zerlegbares graphisches Modell verwendet. Dieses Modell ist durch ein Netzwerk mit Knoten und Kanten darstellbar, wobei die Knoten die Variablen und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren.
  • Bei dem erfindungsgemäßen Verfahren werden den Daten eine Ausgangsstruktur des Netzwerks zugrunde gelegt. Es werden in dem Netzwerk Kanten zwischen den Knoten eingefügt, wobei eine Endstruktur des Netzwerks gebildet wird. Die Endstruktur des Netzwerks beschreibt die in den Daten enthaltene Struktur
  • Dabei wird bei der erfindungsgemäßen Vorgehensweise das graphische Modell in Teilgraphen zerlegt, deren jeder eine Teilmenge von Variablen aus dem Satz von Variablen repräsentiert.
  • Unter Verwendung von Kerndichteschätzern werden Teilgraphendichten für die Teilgraphen ermittelt.
  • Unter Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas wird eine Bewertungsfunktion ermittelt, welche das Hinzufügen einer Kante zu dem Netzwerk in Hinsicht auf eine Beschreibungsqualität der in den Daten enthaltenen Struktur durch das Netzwerk bewertet.
  • Unter Verwendung der Bewertungsfunktion werden diejenigen Kanten bestimmt, die in dem Netzwerk zur Bildung der Endstruktur eingefügt werden.
  • Das Computerprogramm mit Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Das Computerprogramm mit Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner nachfolgend erläuterten Weiterbildungen.
  • Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Die im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf das Verfahren als auch auf das Computerprogramm mit Programmcode-Mitteln und das Computerprogrammprodukt.
  • Die Erfindung und die im weiteren beschriebenen Weiterbildungen können sowohl in Software als auch in Hardware, beispielsweise unter Verwendung einer speziellen elektrischen Schaltung, realisiert werden.
  • Ferner ist eine Realisierung der Erfindung oder einer im weiteren beschriebenen Weiterbildung möglich durch ein computerlesbares Speichermedium, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.
  • Auch kann die Erfindung oder jede im weiteren beschriebene Weiterbildung durch ein Computerprogrammerzeugnis realisiert sein, welches ein Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.
  • Im folgenden seien beispielhaft Weiterbildungen genannt, bei den die erfinderischen Vorgehensweise sowie das durch die erfinderische Vorgehensweise erzeugte graphische Modell bevorzugt einsetzbar ist.
  • Diese genannten Weiterbildungen betreffen ein bzw. die Erkennung einer Struktur eines regulatorischen genetischen Netzwerks [1] sowie eine Analyse und/oder Modellierung bzw. Beschreibung eines solchen regulatorischen genetischen Netzwerks [1].
  • In diesen Fällen werden Gene des regulatorischen genetischen Netzwerks bzw. ihre entsprechenden Proteine durch die Knoten repräsentiert bzw. symbolisiert.
  • Regelungsmechanismen werden durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale Art und Weise interpretiert werden können, die sich durch die durch die erfinderische Vorgehensweise erkannte (Daten-)Struktur erschließt.
  • Bei einer solchen Weiterbildung sind die zu strukturierenden Daten Gen-Expressionsmuster [4] eines genetischen regulatorischen Netzwerks einer Zelle, insbesondere einer kranken Zelle.
  • Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle sein, insbesondere eine Onko-Zelle mit ALL (Akute lymphoblastische Leukämie) [4].
  • Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere ein ALL-Onko-Gen, aufweisen.
  • Ferner eignet sich die erfinderische Vorgehensweise oder Weiterbildung davon, insbesondere das Modell sowie die erkannte Struktur, im Besonderen zur Identifizierung eines dominanten Gens und/oder eines degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor Gens.
  • Auch eignet sie sich zur Identifizierung einer Tumorzelle, beispielsweise im Zusammenhang mit einer Krebserkennung.
  • Ferner ist die erfinderische Vorgehensweise, insbesondere das Modell sowie die erkannte Struktur, im Besonderen geeignet zu einer Ursachenanalyse für ein abnormales Gen-Expressionsmuster/Gen-Expressrate.
  • Auch kann das Modell sowie die erkannte Struktur eingesetzt werden zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
  • Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
  • Es zeigen
  • 1 eine Skizze, die ein Ergebnis einer Strukturerkennung gemäß der erfindungsgemäßen Vorgehensweise bei einem Spielmodell zeigt, wobei Proben aus einem zerlegbaren Modell mit bekannter Struktur entnommen wurden;
  • 2 eine Skizze, die ein Ergebnis einer Strukturerkennung gemäß der erfindungsgemäßen Vorgehensweise bei einem Bostoner Mietspiegel (Boston housing data) zeigt;
  • 3 eine Skizze, die einen Teil einer zerlegbaren Modellstruktur gemäß der erfindungsgemäßen Vorgehensweise bei einer ALL-Datenmenge [4] zeigt;
  • Ausführungsbeispiel(e): Effiziente Strukturerkennung für zerlegbare Modelle auf stetigen Variablen
  • Überblick
  • Nachfolgend wird eine Vorgehensweise zum Erkennen einer graphischen Modellstruktur für stetige Variablen beschrieben.
  • Ziel und Vorteil der ausführungsgemäßen Vorgehensweise ist es, mit möglichst wenig Annahmen für die damit verbundenen Verteilungen auszukommen. Zusätzlich zeichnet sich die Vorgehensweise dadurch aus, dass sie anwendbar ist auch auf größere Datenmengen.
  • Ausführungsgemäß – aber in nicht einschränkender Weise – werden hier ungerichtete Modelle verwendet.
  • Ungerichtete Modelle werden bevorzugt, wenn eine kausale Struktur innerhalb des Gebietes nicht vernünftig angenommen werden kann und der Betrachtungsschwerpunkt darin besteht, Abhängigkeiten zu finden.
  • Generelle ungerichtete Modelle erfordern die Einführung von Potenzialen, die schwierig zu erkennen und zu interpretieren sind.
  • Somit werden hier eine spezielle und wichtige Unterklasse solcher ungerichteten Modelle, nämlich zerlegbare ungerichtete Modelle verwendet, die attraktive Eigenschaften haben.
  • Insbesondere ermöglichen sie eine Faktorisierung der Gesamtdichte in das Produkt der Teilgraphendichten.
  • Dichtemodelle für eine Variablenmenge müssen bei einer Evaluierung der Kandidatenstruktur innerhalb des Strukturerkennungsprozesses ständig erneuert und angepasst werden. Die ausführungsgemäße Strukturerkennungsmethode basiert auf Schätzungen der Kerndichte (Parzendichte) für die Teilgraphendichten, die bei einer Veränderung der Struktur nicht angepasst werden müssen und die außerdem für eine konsistente Teilgraphendichte sorgen.
  • Zudem können die Kriterien zur Modellauswahl, basierend auf einer Vorausbewertung, leicht erhalten werden. Näheres dazu wird nachfolgend näher beschrieben.
  • Weiter wird hier ausführungsgemäß ein Greedy-Schema mit Vorwärtsselektion für die Strukturerkennung angewandt.
  • Deshalb muss die Modellsuche auf die Klasse der zerlegbaren Modelle eingeschränkt werden.
  • Es wird ein passendes (und hoch effizientes) Kriterium vorgestellt werden, das auf Entwicklungen bei dynamischen Algorithmen für chordale Graphen basiert.
  • Die Leistungsfähigkeit der ausführungsgemäßen Vorgehensweise wird anhand eines Spielproblems demonstriert werden und danach angewandt zur Schätzung regelhafter genetischer Netzwerkstrukturen, die bei der Pathogenese von Leukämie bei Kindern beteiligt sind [4].
  • Genetische und Proteinnetzwerke zeigen oft skalenfreie Topologien [12]. Das impliziert, dass sie in Mengen dicht zusammenhängender Gencluster zerfallen (Cliquishness) [15].
  • Aufgrund dieser Eigenschaft sind zerlegbare Modelle besonders zur Beschreibung genetischer Netzwerke geeignet.
  • Zerlegbare Modelle
  • Im Stand der Technik sind in Teilgraphen zerlegbare graphische Modelle in [6] beschrieben.
  • Ein solches zerlegbares Modell über Variablen {1, ..., n} ist repräsentiert durch einen ungerichteten Graphen G = (V, E) mit einer Menge V = {1, ..., n} von Knoten und Kanten E.
  • Ein ungerichteter Graph heißt chordal, wenn jeder Kreis der Länge ≥ 4 eine Sehne hat, d.h. eine Kante, der zwei nicht benachbarte Knoten des Kreises miteinander verbindet.
  • Ein graphisches Modell bildet ein zerlegbares Modell genau dann, wenn sein Graph chordal ist [6, Satz 4.4]. Ein Teilgraph von G ist eine Menge paarweise benachbarter Knoten in G. Ein Teilgraph C ist maximal, wenn C nicht echt in einem anderen Teilgraphen enthalten ist. K bezeichnet die Menge maximaler Teilgraphen des Graphen G. Der Schnitt benachbarter Teilgraphen innerhalb des Verbindungsbaumes wird Trenner genannt.
  • Eine spezielle Eigenschaft zerlegbarer Modelle besteht darin, dass die Teilgraphen der Darstellung eines Graphen in einem Verbindungsbaum angeordnet werden können. Der Verbindungsbaum ist ein Baum T mit einer Teilgraphenmenge K als Knotenmenge, die die Schnitteigenschaft für Teilgraphen erfüllt: für beliebige zwei Teilgraphen C1, C2 ∈ K ist die Menge C1 ∩ C2 in jedem Teilgraphen entlang des Weges in T zwischen C1 und C2 enthalten. Der Verbindungsbaum T von Teilgraphen existiert genau dann, wenn G zerlegbar ist [6, Satz 4.6]. Dabei ist beachten, dass der Verbindungsbaum eines Graphen G generell nicht eindeutig ist.
  • Kerndichtemodelle für Teilgraphen
  • Bei dem ausführungsgemäßen, generellen Strukturerkennungsalgorithmus für stetige Variablen wird nun für jeden Teilgraphen ein Kerndichtemodell (Parzendichte) angewandt.
  • Eigenschaften, die Schätzungen der Parzendichte besonders attraktiv für zerlegbare Modelle machen, sind:
    • – Modelle für Teilgraphen sind automatisch konsistent;
    • – eine Anpassung der Modelle bei einer Veränderung der Modellstruktur ist nicht notwendig;
    • – ein auf einer Vorausbewertung basierendes Modellauswahlschema (Kantenscoring) kann leicht abgeleitet werden.
  • Nicht-parametrische Dichteschätzungen sind bis zum heutigen Zeitpunkt nur selten im Zusammenhang mit graphischen Modellen verwandt worden; Ausnahmen stellen z.B. die Arbeit über Einfache Bayes-Klassifikatoren [13] und die Kerndichteschätzungen für Markov-Deckenmodelle unter bestimmten Bedingungen [10] dar.
  • Ein Kerndichtemodell mit Gaußschen Fensterfunktionen g für ndimensionale Werte D = {x1, ..., xM} ist gegeben durch:
    Figure 00130001
  • Dabei ist g(z; xi, θ) eine multivariate Gaußsche Dichte mit dem Mittelwert xi und diagonaler Kovarianzmatrix mit der Varianz entlang der j-ten Dimension, gegeben durch θj, j = 1, ..., n.
  • Ausführungsgemäß werden die Varianzparameter θj gewählt, indem die Leave-one-out-Validation für die Likelihood-Funktion für die Datenmenge D in Bezug auf θ mit einem Gradientenalgorithmus maximiert wird.
  • Die Verwendung von Gaußschen Fensterfunktionen hat speziell bei zerlegbaren Modellen Vorteile.
  • Man betrachte eine Menge C ⊂ {1, ..., n} und ihr Komplement C - = {1, ..., n}\C. Durch die allgemeinen Integrationseigenschaften der Gaußschen Dichtefunktion ergibt sich durch Herausintegrieren aller Variablen in C - einfach:
    Figure 00140001
    z(C) und θ(C) bezeichnet die Elemente der Vektoren z und θ, deren Indizes in C liegen. In gleicher Weise gilt: D(C) enthält {X1(C), ..., xN(C)}.
  • Diese Eigenschaft gewährleistet, dass (bei konstantem Parametervektor θ) alle marginalen Verteilungen, die aus einem globalen Parzendichtemodell gewonnen werden, konsistent sind.
  • Das bedeutet, wenn p(z(C1)|D(C1), θ(C1)) und p(z(C2)|D(C2), θ(C2)) von einem globalen Parzenmodell durch Marginalisierung in Bezug auf die Teilgraphen C1 und C2 gewonnen wurden, sind die marginalen Verteilungen für den Trenner S = C1 ∩ C2, die aus den beiden Teilgraphendichten erhalten werden, identisch.
  • Modell und Kantenscoring durch Vorausbewertung
  • Aus dem Stand der Technik sind verschiedene Kriterien bekannt [9, 6], um die Modellauswahl auf die Voraussagequalität des erkannten Modells zu stützen:
    • – Prequenzielle Validation (äquivalent zum Logarithmus der marginalen Likelihood-Funktion und dem BIC-Kriterium für große Probennahmen),
    • – Leave-one-out-Validation der Likelihood-Funktion (äquivalent zum AIC-Kriterium) und Kreuzvalidierung (cross validation).
  • Ausführungsgemäß wird hier zur Modellauswahl ein 5-faches Cross-Validations-Schema verwendet, da Leave-one-out-Validation für seine Tendenz zur Überbestimmtheit bekannt ist und prequenzielle Validation eine erneute Abschätzung der Modellparameter erforderlich macht.
  • Ausführungsgemäß wird festgestellt, dass die gemeinsame Dichtefunktion eines zerlegbaren Modells das Produkt aus den marginalen Dichten der einzelnen Teilgraphen geteilt durch das Produkt der marginalen Dichten ihrer Trenner ist.
  • Sowohl Teilgraphen als auch Trenner sind Schätzungen der Parzendichte von der Form wie in Gleichung (3).
  • Zieht man nun Logarithmen, kann die Cross-Validations-Wahrscheinlichkeit in eine Summe bestehend aus den Termen für Teilgraphen und Trenner aufgeteilt werden.
  • Für einen Teilgraphen C erhalten wir somit die logarithmische Cross-Validations-Wahrscheinlichkeit (Teilgraphscore) L(D(C)), kurz L(C) als:
    Figure 00150001
  • Das bedeutet, dass die Datenmenge D = {x1, ..., xN} in 5 disjunkte Mengen D1, ..., D5 aufgeteilt wird. Die Schätzungen der Parzendichte werden aus allen Daten außerhalb Dk gewonnen und auf die Daten in Dk hochgerechnet.
  • Die Gesamt-Cross-Validation der Likelihood-Funktion (Modellscore) für ein zerlegbares Modell, gegeben als Menge seiner Teilgraphen K = {C1, ..., CA} und seiner Trenner S = {S1, ..., SB},
    Figure 00150002
    ergibt sich zu Basierend auf diesem Modellscore ist die Änderung des Modellscores bei Hinzufügung einer Kante in ein Modell auf direktem Wege abzuleiten.
  • Insbesondere kann die Differenz von Scores allein aus den lokalen Änderungen berechnet werden, d.h., es ist lediglich notwendig, die in die Operation involvierten Teilgraphen zu berücksichtigen. Man füge beispielsweise eine Kante (u, v) hinzu, die die beiden Teilgraphen Cu und Cv miteinander verbindet.
  • Im gegenwärtigen Modell G tragen beide Teilgraphen (und ihr eventuell vorhandener Trenner Suv = Cu ∩ Cv) mit L(Cu) + L(Cv) – L(Suv) zum Modellscore bei.
  • Das Hinzufügen einer Kante (u, v) erzeugt ein neues Modell G' mit einem neuen Teilgraphen Cw = Suw ∪ {u, v} und neuen Trennern Suv = Cu ∩ Cw und Svw = Cv ∩ Cw. Die Änderung im Modellscore von G nach G' berechnet sich dann einfach zu:
    Figure 00160001
  • Es ist leicht nachzuprüfen, dass diese Gleichung ebenso für den Fall fusionierender Teilgraphen gilt, also dann wenn CU und/oder Cv nicht länger maximal in G' sind und mit Cw fusionieren.
  • Berechnungskomplexität des Kantenscoring
  • Für eine Datenmenge mit M Beispielen über n Variablen ist die Bewertung der Parzendichte (s. Gleichung (1)) eine O(nM2)-Operation.
  • Die Bewertung des Score (Likelihood-Verteilung) für einen Teilgraphen C, wie in Gl. (4), erfordert O(|C|M2)-Operationen.
  • Zu Beginn der Erkennung mit einem leeren Modell kostet die Berechnung aller Kantenscores, nach Gl. (6), also O(n2M2), da für jede der O(n2) anfänglich möglichen Kanten lediglich Teilgraphen mit der Kantenzahl O(1) einberechnet werden müssen.
  • Der worst Gase tritt dann ein, wenn alle hinzugefügten Kanten Teil eines einzigen riesigen Teilgraphen sind. In diesem Fall sind zur Erkennung des vollständig zusammenhängenden Modells O(n4M2) Operationen für die Aktualisierung der Kantenscores notwendig.
  • In der Praxis bleiben glücklicherweise die meisten Kantenscores bei Hinzufügung einer Kante unverändert. Nur wenige Kantenscores müssen neu berechnet werden.
  • Beispielsweise war dies bei einem Problem mit 100 Variablen bei durchschnittlich 4,5 Kantenscores der Fall. Empirische Untersuchungen brachten ein sublineares Wachstum dieser durchschnittlichen Anzahl von neu zu berechnenden Kantenscores.
  • Ein effizienter Algorithmus zum Hinzufügen von Kanten in zerlegbaren Modellen
  • Ausführungsgemäß wird ein Greedy-Schema mit Vorwärtsselektion für das Erkennen der Modellstruktur angewandt.
  • Dieses beginnt mit einem nicht zusammenhängenden Modell und fügt iterativ Kanten hinzu, vorausgesetzt, der Graph G' bleibt nach diesem Schritt noch zerlegbar.
  • Allgemeine Testalgorithmen für die Chordalität von G' [6] haben eine Zeitkomplexität von O(n + |E|).
  • Geht man von einer O(n6)-Komplexität für das Erkennen des vollständig zusammenhängenden Modells aus, muss diese Abfrage nach jeder Hinzufügung einer Kante O(n2)-mal durchgeführt werden (um die Kanten zu finden, die die Kandidatenmenge für die nächste Hinzufügung bilden).
  • Erst in jüngster Zeit sind Methoden erforscht worden, die unter der Annahme operieren, dass sich G' von dem augenblicklichen (chordalen) Graphen G lediglich um eine Kante unterscheidet.
  • In [8] wird ein Kriterium vorgeschlagen, wobei eine O(n2)-Skalierung möglich ist. Unabhängig davon hat Ibarra [11] dynamische Algorithmen für chordale Graphen entwickelt, mit deren Hilfe die Zerlegbarkeit von G' mit gerade mal O(log2n) Operationen geprüft werden kann. Dadurch wird die Komplexität von Kantenprüfungen bei der Erkennung des vollständig zusammenhängenden Modells auf nur O(n4log2n) reduziert.
  • Weiter werden nun die Bedingungen zur Prüfung der Chordalität von G' dar festgelegt, basierend auf [6].
  • Anschließend werden Methoden angeben, die für eine effiziente Implementierung anwendbar sind.
  • Chordalitätsprüfung in G'
  • Zur Prüfung der Chordalität von G' wird ausführungsgemäß eine Gewichtsfunktion w: K × K → N0, definiert, wobei w(C1, C2) = |c1 ∩ c2|.
  • So kann jeder Kante e = (C1, C2) eines Teilbaumes ein Kantengewicht w(e) = w(C1, C2) = |C1 ∩ C2| zugewiesen werden.
  • In Übereinstimmung mit Ibarras [11] wird angenommen, dass nicht zusammenhängende Komponenten eines Teilbaumes durch leere Kanten (dummy edges) mit dem Gewicht 0 verbunden sind.
  • Satz 1 (Ibarra [11]): Sei G ein chordaler Graph ohne die Kante (u, v). Dann gilt: G' = (V, E ∪ (u, v)) ist chordal genau dann, wenn G einen Verbindungsbaum T hat mit (Cu, Cv) ∈ T für Teilgraphen u ∈ Cu und v ∈ Cv.
  • Vereinfacht gesagt besagt dieser Satz, dass eine Kante (u, v) hinzugefügt werden kann, wenn diese Kante zwei Teilgraphen verbindet, die bereits im aktuellen Verbindungsbaum T benachbart sind.
  • Doch der Verbindungsbaum T eines beliebigen Graphen G ist im Allgemeinen nicht eindeutig.
  • Es kann erforderlich sein, den Baum T zu restrukturieren, bevor die Prüfung vorgenommen werden kann, wie sie in Satz 1 vorgeschlagen wird.
  • Der folgende Satz liefert die notwendige und hinreichende Bedingung dafür, ob ein geeigneter restrukturierter Verbindungsbaum existiert.
  • Satz 2 (Ibarra [11]): Sei G ein chordaler Graph ohne die Kante (u, v). Sei T der Verbindungsbaum von G und seien Cu, Cv die nahesten Knoten in T so, dass u ∈ Cu und v ∈ Cv. Ferner gelte (Cu, Cv)
    Figure 00190001
    T. Dann gibt es einen Teilbaum T' von G mit u ∈ Cu', v ∈ Cv' und (Cu', Cv') ∈ T' genau dann, wenn die Kante e auf dem Weg zwischen Cu und Cv in T mit minimalem Gewicht (Minimalkante) der Gleichung w(e) = w(Cu, Cv) genügt.
  • Diese beiden Sätze können direkt in die folgenden Methoden zur Überprüfung der Chordalität von G' = (V, E ∪ (u, v)) und zum Hinzufügen einer Kante (u, v) (falls G' chordal) herangezogen werden:
    Abfrage (u, v) Finde die nächsten Knoten Cu, Cv so, dass u ∈ Cu und v ∈ Cv. Falls (Cu, Cv) ∈ T, kann die Kante (u, v) hinzugefügt werden. Andernfalls finde die Minimalkante e auf dem Weg zwi schen Cu und Cv. Gilt w(e) = w( Cu, Cv), kann die Kante (u, v) hinzugefügt werden, sonst nicht.
  • In jedem Fall sollten die beteiligten Teilgraphen Cu, Cv, eventuell auch die Minimalkante e, zurückgeführt werden.
  • Einfügen (u, v) Rufe Abfrage (u, v) auf, um die Teilgraphen Cu, Cv und die Minimalkante e zu erhalten. Sind Cu und Cv im augenblicklichen Verbindungsbaum bereits benachbart, muss die Kante (Cu, Cv) aus T entfernt werden, andernfalls die Minimalkante e.
  • Füge den neuen Teilgraphen Cw = (Cu ∩ Cv) ∪ {u, v} mit den Kanten (Cu, Cw) und (Cv, Cw) hinzu.
  • Möglicherweise sind die alten Teilgraphen Cu und/oder Cv im neuen Graphen G' nicht mehr maximal. In diesem Fall müssen Cu und/oder Cv mit Cw fusioniert werden. Das kann entweder durch Ersetzen der alten Teilgraphen oder durch Wiederverknüpfen der alten Nachbarn der verschwindenden Teilgraphen mit Cw geschehen.
  • Splay-Tree-Repräsentation für den Verbindungsbaum
  • Während der Abfrage(u, v)-Operationen ist die wichtigste Operation am Verbindungsbaum die Suche nach den nächsten Teilgraphen, die die Variablen u und v enthalten.
  • In [14] wird eine Baumrepräsentation vorgestellt, die eine besonders effiziente Implementierung der Suche nach dem kürzesten Weg gestattet, mit gerade einmal O(log n) Operationen pro Suche.
  • Ausführungsgemäß wird diese Datenstruktur genutzt, um den Verbindungsbaum T aufrecht zu erhalten.
  • Die Schlüsselidee hinter [14] ist, den Baum in eine Menge knoten-disjunkter Wege aufzuteilen, sogenannte solid paths (feste Wege), die nunmehr mit gestrichelten Kanten verbunden sind, um den Originalbaum zu bilden.
  • Feste Wege werden repräsentiert als selbst-regelnde binäre Suchbäume, die sogenannten splay trees. Grundlegendes und Weiterführendes dazu, wie Datenstrukturen und Operationen, sind in [14] beschrieben.
  • Berechnungskomplexität von Einfügeabfragen und Kantenhinzufügung
  • Um Einfügeabfragen (kann Kante (u, v) in den aktuellen Graphen G eingefügt werden?) schnellstmöglich ausführen zu können, wird folgende Information behalten:
    Jeder (maximale) Teilgraph C des Graphen G ist als Vektor bestehend aus Einsen und Nullen abgespeichert. Dabei stellen die Einsen Elemente des Teilgraphen C dar.
  • Das ermöglicht eine Überprüfung von v ∈ C mit O(1)-Operationen.
  • Ebenso enthält eine Gewichtsmatrix W der Größe n × n die Gewichte zwischen jedem Paar von Teilgraphen so, dass Kantengewichte durch O(1)-Operationen in Abfrage(u, v) abgeleitet werden können.
  • Der Verbindungsbaum ist als splay tree repräsentiert, dadurch kann nach den nächsten Teilgraphen Cu, Cv mittels binärer Suche in O(log n) gesucht werden. Die Suche nach der Minimalkante e auf dem Weg von Cu nach Cv erfordert O(log2 n)-Operationen [14, 11].
  • Die Frage, ob eine Kante (u, v) eingefügt werden kann, ist also mit O(log2n)-Operationen zu beantworten. Die Einfügung selbst erfordert O(n)-Operationen, wohingegen die Kosten zur Erstellung eines neuen Teilgraphen Cw durch einen O(n)-Term dominiert werden. Die Aktualisierung der Gewichtsmatrix W kann ebenfalls in O(n) absolviert werden.
  • Ausführungsgemäße Strukturerkennung an Beispielen
  • Spieldaten (1)
  • In einer ersten beispielhaften Anwendung des ausführungsgemäßen Strukturerkennungsverfahren wird (anhand von Spieldaten) gezeigt, dass die ausführungsgemäße Strukturerkennung tatsächlich die wahre Struktur über echten Daten abdecken kann.
  • Dazu werden 50 Stichproben aus einem zerlegbaren Modell genommen, bei dem jeder Teilgraph durch ein zufällig initialisiertes Gaußsches Mischmodell mit 10 Komponenten modelliert wird (mit gesicherter Konsistenz zwischen den einzelnen Teilgraphen).
  • In 1 ist der Modellscore L(D|K, S), wie in Gl. (5) definiert, in seiner Abhängigkeit von steigender Kantenzahl aufgetragen.
  • Im Ergebnis steht, dass der Algorithmus die tatsächliche Struktur des erzeugenden zerlegbaren Modells abdeckt, wenn L(D|K, S) sein Maximum erreicht.
  • Boston Housing Data (2)
  • In einer zweiten beispielhaften Abwendung werden die Boston Housing Data benutzt, die 506 Stichproben von Unterkunftspreisen enthält sowie 13 andere Variablen, von denen ein Einfluss auf die Preise für Unterkunft in der Bostoner Nachbarschaft anzunehmen ist.
  • Die gefundene Struktur ist, zusammen mit einer Erläuterung der Variablen, in 2 dargestellt.
  • Die vier Kanten mit den höchsten Scores, vgl. Gl. (6), wurden ebenso mithilfe des Markovschen Deckenmodells über denselben Daten gefunden [10].
  • Die übrigen Kanten stellen Abhängigkeiten höherer Ordnung dar, die aus der Kovarianzmatrix der Daten nicht direkt ersichtlich sind.
  • Microarray-Daten (3)
  • In einer dritten beispielhaften Anwendung wird das erfindungsgemäße Strukturerkennungsverfahren an Daten aus Microarraymessungen (Expressionsmusterdaten) getestet.
  • Die Daten, die für die Analyse gemäß diesem Ausführungsbeispiel verwendet werden, bestehen aus 327 Stichproben von verschiedenen Untertypen von pädiatrischer akuter Lymphoblasten-Leukämie (ALL) [4].
  • Der Datensatz wurde von Yeoh und seinen Kollegen vom St. Jude Children's Research Hospital [4] zusammengestellt.
  • ALL ist eine heterogene Krankheit, die verschiedene Untertypen umfasst, einschließlich sowohl Leukämie vom T-Zelltyp als auch Leukämie vom B-Zelltyp, die sich hinsichtlich ihrer Reaktion auf eine medizinische Behandlung deutlich unterscheiden.
  • Abgesehen von T-ALL, deren Ursache noch nicht klar bekannt ist, kann jeder B-Zellen-Untertyp auf eine spezifische genetische Veränderung zurückgeführt werden, z. B. auf genetische Translokationen t(9;22) [BCR-ABL], t(1;19) [E2A-PBX1], t(12;21) [TEL-AML1], t(4;11) [MLL] oder auf einen hyperdiploiden Karyotyp [> 50 Chromosomen].
  • Daher ist es nicht verwunderlich, dass Expressionsmuster der verschiedenen Untertypen recht deutlich voneinander unterscheiden.
  • Ferner zeigen Microarray-Daten noch ein anderes deutliches Expressionsprofil, welches auf die Existenz eines weiteren ALL-Untertyps zusätzlich zu den 6 bekannten hindeutet.
  • Für die Analyse gemäß dem Ausführungsbeispiel wird der reduzierte Datensatz von 271 Genen und 327 Stichproben von verschiedenen ALL-Untertypen [4], wie oben beschrieben, verwendet.
  • Dazu wurde aus 12.000 gemessenen Genen eine Teilmenge von 271 ausgewählt, die laut [4] die einzelnen Gruppen am besten definieren.
  • Die Knoten 310 der erkannten Struktur (3, 300) repräsentieren einzelne Gene 311. Statistische Abhängigkeiten, die durch Kanten 320 dargestellt werden, spiegeln biologische Wechselwirkungen zwischen den Genen 311, 310 wider und können Indikatoren für eine direkte Regulierung der Transkription zwischen ihnen sein.
  • Die gefundene Netzwerktopologie 300 zeigt wenige hochgradig zusammenhängende Gene, bei denen die meisten Kanten zu Genen eines für den Subtyp typischen Clusters führen.
  • Das Gen PSMD10 (Affymetrix-ID 37350 at, in der Mitte der Abbildung) ist wie 3 entnehmbar ist mit einer großen Anzahl anderer Gene verbunden.
  • Betrachtet man (3) eines dieser hochgradig zusammenhängenden Gene, sind also die meisten Gene konditional unabhängig voneinander.
  • Das bedeutet biologisch, dass das Expressionsverhalten vieler Gene lediglich von wenigen Gene abhängt. Dies – zusammen mit der hohen Cliquishness – ist eine typische Eigenschaft skalenfreier Netzwerke.
  • Es scheint sich also zu bestätigen, dass speziell zerlegbare Modelle mit ihrer inhärenten Teilgraphenstruktur gut geeignet sind, die Struktur genetischer Netzwerke bzw., allgemeiner gesprochen, skalenfreier Netzwerke zu erkennen [15, 12].
  • Weiter zeigt die ausführungsgemäße Anwendung (3), dass die meisten der hochgradig zusammenhängenden Gene entweder als Gene mit einer onkogenen Charakteristik – es ist beispielweise bekannt, dass das hochgradig zusammenhängende Gen PSMD10 (Affymetrix-ID 37350-at, in der Mitte der Abbildung) bei zellulären Deregulierungen beteiligt ist, die zu Onkogenese führen – oder aber als in biologisch kritischen Prozessen wie DNS-Reparatur oder Proteolyse beteiligte Gene bekannt sind.
  • Somit kann aus dem Modell auf seine Wichtigkeit für die Stabilität der Zellfunktion geschlossen werden.
  • In der Tat ist PSMD10 eine regulatorische Untereinheit des Proteasoms 26S, eines Proteinkomplexes, welcher – in Übereinstimmung mit der Topologie des Modells – eine große Familie an Proteinen, die für Zerstörung markiert ist, abbaut und so hilft, den Proteindurchsatz in eukaryotischen Zellen zu regulieren.
  • Seine entscheidende Bedeutung für die normale Zellfunktion ist also bereits bekannt. Insbesondere weiß man, dass eine Fehlfunktion von PSMD10 eine fehlerhafte Regulierung einer großen Zahl intrazellulärer Proteine, die für Zellteilung, Tumorwachstum und Tumorüberleben verantwortlich sind und welche in Krebszellen funktional verändert werden, zur Folge hat.
  • Tatsächlich haben jüngste Forschungen ergeben, dass der Weg hin zu PSMD10 oft das Ziel einer Deregulierung im Zusammenhang mit Krebserkrankungen ist und solchen Prozessen wie onkogener Transformation oder Tumorprogression zugrunde liegen kann.
  • Zusammenfassung der Anwendungsbeispiele
  • Bei den beschriebenen Anwendungsbeispielen wurde eine neue, ausführungsgemäße Vorgehensweise zur Strukturerkennung mittels zerlegbarer graphischer Modelle auf stetigen Variablen bzw. aus Datenmengen mit stetigen Variablen angewandt.
  • Hier soll darauf hingewiesen werden, dass die Anwendung der ausführungsgemäßen Vorgehensweise nicht auf beschriebene Anwendungen beschränkt ist, sondern sich, wie auch erfindungsseitig vorgeschlagen wird, auf beliebige Daten anwendbar ist.
  • Basis dieser Vorgehensweise ist die Strukturerkennung und Modellierung von Daten durch ein zerlegbares Modell, wobei stetige Variable durch Knoten des Modells symbolisiert werden. Regelungsmechanismen werden durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale Art und Weise interpretiert werden können.
  • Die Besonderheit der erfinderischen Vorgehensweise liegen in Kerndichtemodellen für Teilgraphendichten sowie einer effizienten Prüfung auf Zerlegbarkeit beim Hinzufügen von Kanten.
  • Diese Methode erlaubt, direkt von stetigen Datenmengen auszugehen, d.h. ohne dass eine Diskretisierung notwendig wäre, kann diese doch möglicherweise bereits die Abhängigkeitsstrukturen modifizieren.
  • Durch die Verwendung von Kernschätzungen bei der Modellierung von Teilgraphendichten (Parzendichte) können allgemeine Ver teilungen bearbeitet werden. Außerdem ermöglicht die Vorgehensweise eine Modellauswahl mittels Vorausbewertung und sichert automatisch konsistente Teilgraphendichten.
  • Die Strukturerkennung erfolgt durch Vorwärtsselektion mit einem hoch effizienten Algorithmus, der prüft, ob eine bestimmte Kante ohne Verlust der Zerlegbarkeit (Chordalität) des Modells hinzugefügt werden können.
  • Die Vorgehensweise bei dem erfindungsgemäßen Strukturerkennungsverfahren wurde beschrieben anhand von Spieldaten, von Boston housing data sowie einer großen Datenmenge zu Genexpression mit insgesamt 271 Variablen.
  • Dort ist es insbesondere mit der erkennten Struktur bzw. mit dem dabei gebildeten Modell möglich, Gene, die eine potenzielle Ursache für eine Tumorgenese sind, durch Analysieren der Zusammenhänge zwischen Microarray-Daten von Leukämie-Untertypen und einem Datensatz, der Ergebnis einer Stichprobenentnahme aus dem erzeugten Modell ist, zu identifizieren.
  • Insgesamt zeigt die Anwendung der erfinderischen Strukturerkennung auf die Spieldaten, der Boston housing data sowie Genexpressionsdaten, dass die Strukturerkennungsmethode vernünftige Strukturen findet.
  • So sind die meisten gefundenen Kanten sind recht robust und unempfindlich gegen geringe Modifikationen der Datenbasis.
  • In diesem Dokument sind folgende Schriften zitiert:
    • [1] Stetter Martin et al., Large-Scale Computational Modeling of Generic Regulatory Networks, Kluwer Academic Publisher, Niederlande, 2003;
    • [2] Offenlegungsnummer DE 10159262.0 ;
    • [3] F. W. Jensen, F. V. (1996), An introduction to Bayesian networks, UCL Press, London; 178 pages;
    • [4] E.-J. Yeoh, M. E. Ross, S. A. Shurtleff, W. K. Williams, D. Petal et al. (2002), Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling. Cancer cell 1:133-143;
    • [5] D. Heckerman, D. Geiger and D. Chickering (1995), Learning Bayesian networks: The combination of knowledge and statistical data, Machine Learning 20:197-243;
    • [6] Cowell, R.G.; Dawid, A.P.; Lauritzen, S.L. and Spiegelhalter, D.J. (1999): Probabilistic Networks and Expert Systems. Statistics for Engineering and Information Sciences, Springer
    • [7] Friedman, N. und Nachman, I. (2000): "Gaussian process networks." in: Proceedings of UAI 2000, 5.211-219, Morgan Kaufmann
    • [8] Giudici, P. und Green, P.J. (1999): "Decomposable graphical Gaussian model determination" in: Biometrika, 86, S.785-801
    • [9] Heckerman, D. (1998): "A tutorial on learning with Bayesian networks" in: M.I.Jordan [Hg.]: Learning in Graphical Models, MIT Press
    • [10] Hofmann, R. und Tresp, V. (1998): "Nonlinear Markov networks for continuous variable" in: M.I.Jordan, M.J.Kearns and S.A.Solla [Hgs.]: Advances in Neural Information Processing Systems 10, MIT Press
    • [11] Ibarra, L. (2000): Fully dynamic algorithms for chordal graphs and split graphs, Tech.Rep. DCS-262-IR, Dept. of Computer Science, University of Victoria, CA
    • [12] Jeong, H.; Mason, S.; Barabási, A.-L. and Oltvai, Z.N. (2001): "Lethality and centrality in protein networks" in: Nature, 411, 5.41-42
    • [13] John, G.H. und Langley, P. (1995): "Estimating continuous distributions in Bayesian classifiers" in: P.Besnard und S.Hanks [Hgs.]: Proceedings of UAI 95, S.338-345, Morgan Kaufmann
    • [14] Sleator, D.D. und Tarjan, R.E. (1985): "Self-adjusting binary search trees", in: Journal of the ACM, 32(3), 5.652-686
    • [15] Watts, D.J. und Strogatz, S.H. (1998): "Collective dynamics of 'small-world' networks" in: Nature, 393, 5.440-442
    • [16] Whittaker, J. (1990): Graphical Models in Applied Multivariate Statistics, Wiley Series in Probability and Mathematical Statistics, John Wiley&Sons

Claims (25)

  1. Verfahren zur Erkennung einer in Daten enthaltenen Struktur, welche Daten abbildbar sind auf einen Satz von Variablen, unter Verwendung eines in Teilgraphen zerlegbaren graphischen Modells, welches Modell durch ein Netzwerk mit Knoten und Kanten darstellbar ist, wobei die Knoten die Variablen und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren, a) bei dem den Daten eine Ausgangsstruktur des Netzwerks zugrunde gelegt wird, b) bei dem in dem Netzwerk Kanten zwischen den Knoten eingefügt werden, wobei eine Endstruktur des Netzwerks gebildet wird c) bei dem die Endstruktur des Netzwerks die in den Daten enthaltene Struktur beschreibt, dadurch gekennzeichnet, dass d) das graphische Modell in Teilgraphen zerlegt wird, deren jeder eine Teilmenge von Variablen aus dem Satz von Variablen repräsentiert, e) unter Verwendung von Kerndichteschätzern Teilgraphendichten für die Teilgraphen ermittelt werden, f) unter Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas eine Bewertungsfunktion ermittelt wird, welche das Hinzufügen einer Kante zu dem Netzwerk in Hinsicht auf eine Beschreibungsqualität der in den Daten enthaltenen Struktur durch das Netzwerk bewertet, g) unter Verwendung der Bewertungsfunktion diejenigen Kanten bestimmt werden, die in dem Netzwerk zur Bildung der Endstruktur eingefügt werden.
  2. Verfahren nach einem der vorangehenden Ansprüche, bei dem als Ausgangsstruktur des Netzwerks ein unvernetztes Netzwerk verwendet wird.
  3. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Variablen zumindest zum Teil stetige Variablen sind.
  4. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Kanten schrittweise eingefügt werden.
  5. Verfahren nach einem der vorangehenden Ansprüche, bei dem das in Teilgraphen zerlegbare Modell in ungerichtetes, zerlegbares Modell ist.
  6. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Bewertungsfunktion auf dynamischen Algorithmen für chordale Graphen basiert und/oder eine Kante als einzufügende Kante bestimmt und/oder eingefügt wird, wenn der durch die Einfügung der Kante entstehende Graph ein chordaler Graph ist.
  7. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Bestimmung der einzufügenden Kanten unter Verwendung einer Einfügeabfrage und/oder Vorausbewertung erfolgt.
  8. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Bestimmung der einzufügenden Kanten unter Verwendung eines Greedy-Schemas mit einer Vorwärtsselektion erfolgt.
  9. Verfahren nach einem der vorangehenden Ansprüche, bei dem bei der Bestimmung der Teilgraphendichten für die Daten eine multivariante Gaußsche Dichte angenommen wird.
  10. Verfahren nach einem der vorangehenden Ansprüche, bei dem Parameter der multivarianten Gaußschen Dichte ermittelt werden, indem eine Leave-one-out-Validation für eine Likelihood-Funktion für die Daten in Bezug auf einen Parameter, insbesondere einer Varianz, mit einem Gradientenalgorithmus maximiert wird.
  11. Verfahren nach einem der vorangehenden Ansprüche, bei dem für jeden Teilgraphen ein Kerndichtemodell, insbesondere eine Parzendichte, im speziellen ein Kerndichtemodell mit einer Gaußschen Fensterfunktion, angewandt wird.
  12. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Datenanalyse.
  13. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse von Einflussgrößen auf einen Mietpreis
  14. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse von Genexpressionsdaten und/oder eines genetischen Netzwerks und/oder biologischer Wechselwirkungen zwischen Genen
  15. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse einer genetischen Änderung und/oder Defekts, insbesondere einer pädiatrischer Akuter Lymphoblastischer Leukämie (ALL).
  16. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse eines Systems, welches durch die Daten beschrieben wird und/oder dessen Zustände durch die Daten beschrieben werden.
  17. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung eines dominanten Gens.
  18. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung eines degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor Gens.
  19. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung einer Tumorzelle.
  20. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Krebserkennung.
  21. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Ursachenanalyse für ein abnormales Gen-Expressionsmuster/Gen-Expressrate.
  22. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
  23. Computerprogramm mit Programmcode-Mitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  24. Computerprogramm mit Programmcode-Mitteln gemäß dem vorangehenden Anspruch, welche Programmcode-Mitteln auf einem computerlesbaren Datenträger gespeichert sind.
  25. Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE102004007215A 2004-02-13 2004-02-13 Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle Ceased DE102004007215A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102004007215A DE102004007215A1 (de) 2004-02-13 2004-02-13 Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle
PCT/EP2005/050507 WO2005078653A2 (de) 2004-02-13 2005-02-07 Verfahren und computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur ermittlung einer in daten enthaltenen struktur unter verwendung zerlegbarer graphischer modelle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004007215A DE102004007215A1 (de) 2004-02-13 2004-02-13 Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle

Publications (1)

Publication Number Publication Date
DE102004007215A1 true DE102004007215A1 (de) 2005-09-15

Family

ID=34853462

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004007215A Ceased DE102004007215A1 (de) 2004-02-13 2004-02-13 Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle

Country Status (2)

Country Link
DE (1) DE102004007215A1 (de)
WO (1) WO2005078653A2 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19549300C1 (de) * 1995-11-24 1997-02-20 Siemens Ag Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen
DE10159262A1 (de) * 2001-12-03 2003-06-18 Siemens Ag Identifizieren pharmazeutischer Targets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19549300C1 (de) * 1995-11-24 1997-02-20 Siemens Ag Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen
DE10159262A1 (de) * 2001-12-03 2003-06-18 Siemens Ag Identifizieren pharmazeutischer Targets

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FRIEDMAN, N.; NACHMAN, I.: Gaussian Process Net- works. In: Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence. Edited by C. Boutilier, M. Goldszmidt. San Francisco: Morgan Kaufmann Publishers, 2000, S. 211-219. ISBN 1-55860-709-9 *

Also Published As

Publication number Publication date
WO2005078653A8 (de) 2006-08-17
WO2005078653A2 (de) 2005-08-25

Similar Documents

Publication Publication Date Title
DE10134229A1 (de) Verfahren und System zum Ermitteln von Abweichungen in Datentabellen
Azwa et al. First semester computer science students’ academic performances analysis by using data mining classification algorithms
LU501881B1 (de) Eine methode und ein system zur vorhersage von mirna-krankheitsassoziationen auf der grundlage von heterogenen graphen
DE102019205130A1 (de) Datenanalyse-Server, Datenanalysesystem und Datenanalyseverfahren
DE10159262A1 (de) Identifizieren pharmazeutischer Targets
DE102005015000A1 (de) Verfahren und System zur Analyse von arraybasierten Komparativhybridisierungsdaten
WO2005003368A2 (de) Verfahren, computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse eines regulatorischen genetischen netzwerks einer zelle
DE102007044380A1 (de) Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes
DE102022121889A1 (de) System und Verfahren zur Entdeckung von einer arzneimittelaktiven Stelle im Protein unter Verwendung von pathogenen Mutationen
DE102004007215A1 (de) Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle
DE112021000251T5 (de) Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz
DE10358332A1 (de) Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
DE112020001314T5 (de) System und Verfahren für eine Datenkuration
DE19549300C1 (de) Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen
WO2000033150A1 (de) Verfahren und anordnung zur reduktion einer anzahl von messwerten eines technischen systems
DE102004030296B4 (de) Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
DE112010005924T5 (de) Verfahren und System zum Weitergeben von Änderungen an einer Master-Einheit zu Duplikaten
DE102005030136B4 (de) Verfahren zur rechnergestützten Simulation von biologischen RNA-Interferenz-Experimenten
EP1451750B1 (de) Verfahren zur identifikation von pharmakophoren
DE102005028975B4 (de) Verfahren zur Ermittlung eines Biomarkers zur Kennzeichnung eines spezifischen biologischen Zustands eines Organismus aus mindestens einem Datensatz
DE102005062163A1 (de) Verfahren zur Identifizierung von prediktiven Biomarken aus Patientendaten
WO2022069162A1 (de) Bestimmen von vergleichspatienten basierend auf ontologien
DE102022115101A1 (de) Automatisierter entwurf von architekturen künstlicher neuronaler netze
WO2006013131A2 (de) Verfahren zur analyse eines regulatorischen genetischen netzwerks einer zelle
DE102007005152A1 (de) Verfahren zur rechnergestützten Simulation von biomolekularen und/oder biomedizinischen Daten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection