DE102004007215A1

DE102004007215A1 - Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle

Info

Publication number: DE102004007215A1
Application number: DE102004007215A
Authority: DE
Inventors: Anton Schwaighofer; Volker Dr. Tresp
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-02-13
Filing date: 2004-02-13
Publication date: 2005-09-15
Also published as: WO2005078653A8; WO2005078653A2

Abstract

Die Erfindung betrifft eine Erkennung einer graphischen Modellstruktur in Daten für stetige Variablen. DOLLAR A Dabei wird ein graphisches Modell zur Beschreibung der Daten in Teilgraphen zerlegt. Unter Verwendung von Kerndichteschätzern werden Teilgraphendichten für die Teilgraphen ermittelt. Unter Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas wird eine Bewertungsfunktion ermittelt, welche das Hinzufügen einer Kante zu dem Modell in Hinsicht auf eine Beschreibungsqualität einer in den Daten enthaltenen Struktur durch das Modell bewertet. Unter Verwendung der Bewertungsfunktion werden diejenigen Kanten bestimmt, die in das Modell eingefügt werden, und damit die graphische Modellstruktur bestimmt.

Description

Die Erfindung betrifft eine Erkennung sowie Bildung einer graphischen Modellstruktur in Daten für stetige Variablen.
Dabei wird bei der Erfindung unter "Daten für stetige Variablen" verstanden, dass die Daten dadurch erzeugbar sind, dass die den Daten zugrundeliegenden Variablen, welche stetige bzw. kontinuierliche Größen beschreiben, bestimmte Werte einnehmen. Dabei ist auch verständlich, dass diskrete Variablen mit von kontinuierlichen Variablen umfasst werden, welche diskrete Variabeln nämlich durch mathematische Verfahren, wie eine Interpolation, auf steige Variablen abbildbar sind.

Aus dem Stand der Technik sind graphische Modelle, wie kausale Netze oder im speziellen Bayesianische (Bayessche) Netze [3, 5, 9], zur Ermittlung einer in Daten enthaltenen Struktur bekannt.

Weiter ist bekannt, diese graphischen Modelle, die bei der Erkennung an die Daten angepasst werden, zur Beschreibung der Daten sowie zur Analyse der Daten wie auch von den Daten zugrundeliegenden Systemen zu verwenden.

Es ist bekannt, dass diese graphische Modelle die Unabhängigkeiten innerhalb einer Menge zufälliger Variablen bzw. Systemvariablen, die den Daten zugrunde liegen, unter bestimmten Bedingungen (Annahmen) kodieren bzw, beschreiben.

Neue Entwicklungen und Erkenntnisse auf diesem Gebiet der graphischen Modellierung von Daten, speziell die Modellierung bzw. Beschreibung von Daten unter Verwendung Bayesianischer Netze [9], betreffen dabei diskrete Variablen und sind im Umfeld diskreter Variablen anwendbar.

Graphische Modelle für stetige Variablen wurden bis auf wenige Ausnahmen (z.B. [10, 7]) entweder durch Diskretisierung erstellt oder unter der einschränkenden Annahme, dass die Daten aus einer einzelnen multivariaten Gaußdichte erzeugt werden [16].

Aus dem Stand der Technik ist ferner bekannt, bei graphischen Modellen zwischen gerichteten Modellen, wie zum Beispiel die Bayesianischen Netze, und ungerichteten Modellen zu unterscheiden. Ungerichtete Modelle beschreiben dabei Abhängigkeiten zwischen Variablen im allgemeinen, wohingegen gerichtete Modelle darüber hinaus eine Richtung der Abhängigkeit (gerichteter Kausalzusammenhang) beschreiben.

Weiter sind aus dem Stand der Technik in Teilgraphen zerlegbare graphische Modelle bekannt [6].

Ein solches zerlegbares Modell über Variablen {1, ..., n} ist repräsentiert durch einen ungerichteten Graphen G = (V, E) mit einer Menge V = {1, ..., n} von Knoten und Kanten E.

Ein ungerichteter Graph heißt chordal, wenn jeder Kreis der Länge ≥ 4 eine Sehne hat, d.h. eine Kante, der zwei nicht benachbarte Knoten des Kreises miteinander verbindet.

Ein graphisches Modell bildet ein zerlegbares Modell genau dann, wenn sein Graph chordal ist [6, Satz 4.4]. Ein Teilgraph von G ist eine Menge paarweise benachbarter Knoten in G. Ein Teilgraph C ist maximal, wenn C nicht echt in einem anderen Teilgraphen enthalten ist. K bezeichnet die Menge maximaler Teilgraphen des Graphen G. Der Schnitt benachbarter Teilgraphen innerhalb des Verbindungsbaumes wird Trenner genannt.

Eine spezielle Eigenschaft zerlegbarer Modelle besteht darin, dass die Teilgraphen der Darstellung eines Graphen in einem Verbindungsbaum angeordnet werden können. Der Verbindungsbaum ist ein Baum T mit einer Teilgraphenmenge K als Knotenmenge, die die Schnitteigenschaft für Teilgraphen erfüllt: für beliebige zwei Teilgraphen C₁, C₂ ∈ K ist die Menge C₁ ∩ C₂ in jedem Teilgraphen entlang des Weges in T zwischen C₁ und C₂ enthalten. Der Verbindungsbaum T von Teilgraphen existiert genau dann, wenn G zerlegbar ist [6, Satz 4.6]. Dabei ist beachten, dass der Verbindungsbaum eines Graphen G generell nicht eindeutig ist.

Ferner sind aus dem Stand der Technik viele Probleme im Unfeld großer Datenmengen, insbesondere ökonomischen Daten, und/oder komplexen Systemen, insbesondere ökonomischen und biologischen Systemen, wie beispielweise ein regulatorisches genetisches Netzwerk, bekannt, die eine effiziente Vorgehensweise zur Analyse der Daten und/oder zur Beschreibung der komplexen Systeme und zur Analyse deren Systemverhalten erfordern.

Aus [1] sind Grundlagen eines regulatorischen genetischen Netzwerks einer Zelle bekannt. Unter einem solchen regulatorischen genetischen Netzwerk seien dabei im Folgenden insbesondere regulatorische Wechselwirkungen (Abhängigkeiten) zwischen Genen einer Zelle verstanden.

Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schätzungsweise 20.000 bis 40.000 Gene, von denen jeweils eine biologisch bestimmte Anzahl – abhängig von einer Spezialisierung einer Zelle – in Form einer DNA oder eines Teils einer DNA in einer Zelle vorhanden sind.

Als ein Gen wird dabei ein nicht notwendigerweise zusammenhängender Abschnitt dieser DNA bezeichnet, der einen genetischen Code für ein Protein oder auch für eine Gruppe von Proteinen (Eiweißstoffe) bzw. für eine Erzeugung eines Proteins oder einer Proteingruppe enthält. Insgesamt beinhalten die Gene einen genetischen Code für etwa eine Million Proteine.

Ein Wechselspiel bzw. die Wechselwirkungen der Gene untereinander sowie mit den Proteinen stellt den wichtigsten Teil einer Maschinerie (regulatorisches genetisches Netzwerk) dar, die einer Entwicklung eines menschlichen Körpers aus einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.

Auch aus [1, 2] ist bekannt, dass sogenannte Gen-Expressionsraten, welche ein Gen-Expressionsmuster bilden, eine Beschreibung bzw. Repräsentation eines regulatorischen genetischen Netzwerks bzw. eines aktuellen Zustands des regulatorischen genetischen Netzwerks liefern.

Vereinfacht oder anschaulich ausgedrückt repräsentiert somit ein Gen-Expressionsmuster einer Zelle einen Zustand des regulatorischen genetischen Netzwerks dieser Zelle.

Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz-Genexpressions-Messungen (Microarray-Daten) diese Gen-Expressionsraten messbar sind. Die Microarray-Daten, in der Regel eine riesige Datenmenge, beschreiben wiederum Momentaufnahmen des Gen-Expressionsmusters.

Viele Krankheiten und Fehlfunktionen des Körpers gehen auf Störungen des regulatorischen genetischen Netzwerks zurück, welche sich in eine stark veränderten Gen-Expressionsverhalten (Gen-Expressionsraten) bzw. einem veränderten Gen-Expressmuster einer Zelle widerspiegeln.

Somit stellt ein Verständnis des regulierenden genetischen Netzwerks einen wichtigen Schritt auf dem Weg zu einer Charakterisierung und einem Verstehen von genetischen Mechanismen sowie in weiterer Folge zu einer Identifizierung von sogenannten dominanten oder Funktionsstörungen auslösenden Ge nen dar, welche den Krankheiten oder Fehlfunktionen zugrunde liegen.

Beispielsweise kann in einer Krebsforschung, bei der die Identifizierung von Geschwülste und Tumore unterdrückenden Genen eine Schlüsselrolle spielt, die Kenntnis neuer potenzieller Onkogene und ihre Wechselwirkung mit anderen Genen ein Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebserkrankungen) sein, welche ein Umwandlung normaler Zellen in bösartige Krebszellen bestimmen.

Weitergehend ist für eine Entwicklung von verbesserten Medikamenten und Therapien zur Bekämpfung von genetischen Krankheiten daher ebenfalls ein quantitatives Verständnis des regulatorischen genetischen Netzwerks einer Zelle erforderlich.

So wirken einige Medikamente als Agonisten bzw. Antagonisten spezifischer Zielproteine, d. h. sie verstärken oder schwächen die Funktion eines Proteins mit entsprechender Rückwirkung auf das regulatorische genetische Netzwerk mit dem Ziel, dieses zurück in einen normalen Funktionsmodus zu bringen.

Aus [2] ist eine Erkennung und Beschreibung eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines graphischen Modells bekannt.

Der Erfindung liegt die Aufgabe zugrunde, eine Vorgehensweise zum Erkennen einer graphischen Modellstruktur für stetige Variablen anzugeben. Die Vorgehensweise soll überdies mit möglichst wenig Annahmen für die bei der Modellierung zugrundegelegten (Wahrscheinlichkeits-)Verteilungen auszukommen.

Weiter soll die Erfindung es ermöglichen, Strukturen auch in größeren Datenmengen zu erkennen.

Diese Aufgabe wird durch das Verfahren, durch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm- Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle gelöst.

Bei dem grundlegenden Verfahren zur Erkennung einer in Daten enthaltenen Struktur, welche Daten abbildbar sind auf einen Satz von Variablen, wird ein in Teilgraphen zerlegbares graphisches Modell verwendet. Dieses Modell ist durch ein Netzwerk mit Knoten und Kanten darstellbar, wobei die Knoten die Variablen und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren.

Bei dem erfindungsgemäßen Verfahren werden den Daten eine Ausgangsstruktur des Netzwerks zugrunde gelegt. Es werden in dem Netzwerk Kanten zwischen den Knoten eingefügt, wobei eine Endstruktur des Netzwerks gebildet wird. Die Endstruktur des Netzwerks beschreibt die in den Daten enthaltene Struktur

Dabei wird bei der erfindungsgemäßen Vorgehensweise das graphische Modell in Teilgraphen zerlegt, deren jeder eine Teilmenge von Variablen aus dem Satz von Variablen repräsentiert.

Unter Verwendung von Kerndichteschätzern werden Teilgraphendichten für die Teilgraphen ermittelt.

Unter Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas wird eine Bewertungsfunktion ermittelt, welche das Hinzufügen einer Kante zu dem Netzwerk in Hinsicht auf eine Beschreibungsqualität der in den Daten enthaltenen Struktur durch das Netzwerk bewertet.

Unter Verwendung der Bewertungsfunktion werden diejenigen Kanten bestimmt, die in dem Netzwerk zur Bildung der Endstruktur eingefügt werden.

Das Computerprogramm mit Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

Das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.

Das Computerprogramm mit Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner nachfolgend erläuterten Weiterbildungen.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf das Verfahren als auch auf das Computerprogramm mit Programmcode-Mitteln und das Computerprogrammprodukt.

Die Erfindung und die im weiteren beschriebenen Weiterbildungen können sowohl in Software als auch in Hardware, beispielsweise unter Verwendung einer speziellen elektrischen Schaltung, realisiert werden.

Ferner ist eine Realisierung der Erfindung oder einer im weiteren beschriebenen Weiterbildung möglich durch ein computerlesbares Speichermedium, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.

Auch kann die Erfindung oder jede im weiteren beschriebene Weiterbildung durch ein Computerprogrammerzeugnis realisiert sein, welches ein Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.

Im folgenden seien beispielhaft Weiterbildungen genannt, bei den die erfinderischen Vorgehensweise sowie das durch die erfinderische Vorgehensweise erzeugte graphische Modell bevorzugt einsetzbar ist.

Diese genannten Weiterbildungen betreffen ein bzw. die Erkennung einer Struktur eines regulatorischen genetischen Netzwerks [1] sowie eine Analyse und/oder Modellierung bzw. Beschreibung eines solchen regulatorischen genetischen Netzwerks [1].

In diesen Fällen werden Gene des regulatorischen genetischen Netzwerks bzw. ihre entsprechenden Proteine durch die Knoten repräsentiert bzw. symbolisiert.

Regelungsmechanismen werden durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale Art und Weise interpretiert werden können, die sich durch die durch die erfinderische Vorgehensweise erkannte (Daten-)Struktur erschließt.

Bei einer solchen Weiterbildung sind die zu strukturierenden Daten Gen-Expressionsmuster [4] eines genetischen regulatorischen Netzwerks einer Zelle, insbesondere einer kranken Zelle.

Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle sein, insbesondere eine Onko-Zelle mit ALL (Akute lymphoblastische Leukämie) [4].

Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere ein ALL-Onko-Gen, aufweisen.

Ferner eignet sich die erfinderische Vorgehensweise oder Weiterbildung davon, insbesondere das Modell sowie die erkannte Struktur, im Besonderen zur Identifizierung eines dominanten Gens und/oder eines degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor Gens.

Auch eignet sie sich zur Identifizierung einer Tumorzelle, beispielsweise im Zusammenhang mit einer Krebserkennung.

Ferner ist die erfinderische Vorgehensweise, insbesondere das Modell sowie die erkannte Struktur, im Besonderen geeignet zu einer Ursachenanalyse für ein abnormales Gen-Expressionsmuster/Gen-Expressrate.

Auch kann das Modell sowie die erkannte Struktur eingesetzt werden zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.

Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
Es zeigen
1 eine Skizze, die ein Ergebnis einer Strukturerkennung gemäß der erfindungsgemäßen Vorgehensweise bei einem Spielmodell zeigt, wobei Proben aus einem zerlegbaren Modell mit bekannter Struktur entnommen wurden;
2 eine Skizze, die ein Ergebnis einer Strukturerkennung gemäß der erfindungsgemäßen Vorgehensweise bei einem Bostoner Mietspiegel (Boston housing data) zeigt;
3 eine Skizze, die einen Teil einer zerlegbaren Modellstruktur gemäß der erfindungsgemäßen Vorgehensweise bei einer ALL-Datenmenge [4] zeigt;
Ausführungsbeispiel(e): Effiziente Strukturerkennung für zerlegbare Modelle auf stetigen Variablen
Überblick
Nachfolgend wird eine Vorgehensweise zum Erkennen einer graphischen Modellstruktur für stetige Variablen beschrieben.
Ziel und Vorteil der ausführungsgemäßen Vorgehensweise ist es, mit möglichst wenig Annahmen für die damit verbundenen Verteilungen auszukommen. Zusätzlich zeichnet sich die Vorgehensweise dadurch aus, dass sie anwendbar ist auch auf größere Datenmengen.
Ausführungsgemäß – aber in nicht einschränkender Weise – werden hier ungerichtete Modelle verwendet.
Ungerichtete Modelle werden bevorzugt, wenn eine kausale Struktur innerhalb des Gebietes nicht vernünftig angenommen werden kann und der Betrachtungsschwerpunkt darin besteht, Abhängigkeiten zu finden.
Generelle ungerichtete Modelle erfordern die Einführung von Potenzialen, die schwierig zu erkennen und zu interpretieren sind.
Somit werden hier eine spezielle und wichtige Unterklasse solcher ungerichteten Modelle, nämlich zerlegbare ungerichtete Modelle verwendet, die attraktive Eigenschaften haben.
Insbesondere ermöglichen sie eine Faktorisierung der Gesamtdichte in das Produkt der Teilgraphendichten.
Dichtemodelle für eine Variablenmenge müssen bei einer Evaluierung der Kandidatenstruktur innerhalb des Strukturerkennungsprozesses ständig erneuert und angepasst werden. Die ausführungsgemäße Strukturerkennungsmethode basiert auf Schätzungen der Kerndichte (Parzendichte) für die Teilgraphendichten, die bei einer Veränderung der Struktur nicht angepasst werden müssen und die außerdem für eine konsistente Teilgraphendichte sorgen.
Zudem können die Kriterien zur Modellauswahl, basierend auf einer Vorausbewertung, leicht erhalten werden. Näheres dazu wird nachfolgend näher beschrieben.
Weiter wird hier ausführungsgemäß ein Greedy-Schema mit Vorwärtsselektion für die Strukturerkennung angewandt.
Deshalb muss die Modellsuche auf die Klasse der zerlegbaren Modelle eingeschränkt werden.
Es wird ein passendes (und hoch effizientes) Kriterium vorgestellt werden, das auf Entwicklungen bei dynamischen Algorithmen für chordale Graphen basiert.
Die Leistungsfähigkeit der ausführungsgemäßen Vorgehensweise wird anhand eines Spielproblems demonstriert werden und danach angewandt zur Schätzung regelhafter genetischer Netzwerkstrukturen, die bei der Pathogenese von Leukämie bei Kindern beteiligt sind [4].
Genetische und Proteinnetzwerke zeigen oft skalenfreie Topologien [12]. Das impliziert, dass sie in Mengen dicht zusammenhängender Gencluster zerfallen (Cliquishness) [15].
Aufgrund dieser Eigenschaft sind zerlegbare Modelle besonders zur Beschreibung genetischer Netzwerke geeignet.
Zerlegbare Modelle
Im Stand der Technik sind in Teilgraphen zerlegbare graphische Modelle in [6] beschrieben.
Ein solches zerlegbares Modell über Variablen {1, ..., n} ist repräsentiert durch einen ungerichteten Graphen G = (V, E) mit einer Menge V = {1, ..., n} von Knoten und Kanten E.
Ein ungerichteter Graph heißt chordal, wenn jeder Kreis der Länge ≥ 4 eine Sehne hat, d.h. eine Kante, der zwei nicht benachbarte Knoten des Kreises miteinander verbindet.
Ein graphisches Modell bildet ein zerlegbares Modell genau dann, wenn sein Graph chordal ist [6, Satz 4.4]. Ein Teilgraph von G ist eine Menge paarweise benachbarter Knoten in G. Ein Teilgraph C ist maximal, wenn C nicht echt in einem anderen Teilgraphen enthalten ist. K bezeichnet die Menge maximaler Teilgraphen des Graphen G. Der Schnitt benachbarter Teilgraphen innerhalb des Verbindungsbaumes wird Trenner genannt.
Eine spezielle Eigenschaft zerlegbarer Modelle besteht darin, dass die Teilgraphen der Darstellung eines Graphen in einem Verbindungsbaum angeordnet werden können. Der Verbindungsbaum ist ein Baum T mit einer Teilgraphenmenge K als Knotenmenge, die die Schnitteigenschaft für Teilgraphen erfüllt: für beliebige zwei Teilgraphen C₁, C₂ ∈ K ist die Menge C₁∩ C₂ in jedem Teilgraphen entlang des Weges in T zwischen C₁ und C₂ enthalten. Der Verbindungsbaum T von Teilgraphen existiert genau dann, wenn G zerlegbar ist [6, Satz 4.6]. Dabei ist beachten, dass der Verbindungsbaum eines Graphen G generell nicht eindeutig ist.
Kerndichtemodelle für Teilgraphen
Bei dem ausführungsgemäßen, generellen Strukturerkennungsalgorithmus für stetige Variablen wird nun für jeden Teilgraphen ein Kerndichtemodell (Parzendichte) angewandt.
Eigenschaften, die Schätzungen der Parzendichte besonders attraktiv für zerlegbare Modelle machen, sind:

– Modelle für Teilgraphen sind automatisch konsistent;
– eine Anpassung der Modelle bei einer Veränderung der Modellstruktur ist nicht notwendig;
– ein auf einer Vorausbewertung basierendes Modellauswahlschema (Kantenscoring) kann leicht abgeleitet werden.

Nicht-parametrische Dichteschätzungen sind bis zum heutigen Zeitpunkt nur selten im Zusammenhang mit graphischen Modellen verwandt worden; Ausnahmen stellen z.B. die Arbeit über Einfache Bayes-Klassifikatoren [13] und die Kerndichteschätzungen für Markov-Deckenmodelle unter bestimmten Bedingungen [10] dar.
Ein Kerndichtemodell mit Gaußschen Fensterfunktionen g für ndimensionale Werte D = {x₁, ..., x_M} ist gegeben durch:
Dabei ist g(z; x_i, θ) eine multivariate Gaußsche Dichte mit dem Mittelwert x_i und diagonaler Kovarianzmatrix mit der Varianz entlang der j-ten Dimension, gegeben durch θ_j, j = 1, ..., n.
Ausführungsgemäß werden die Varianzparameter θ_j gewählt, indem die Leave-one-out-Validation für die Likelihood-Funktion für die Datenmenge D in Bezug auf θ mit einem Gradientenalgorithmus maximiert wird.
Die Verwendung von Gaußschen Fensterfunktionen hat speziell bei zerlegbaren Modellen Vorteile.
Man betrachte eine Menge C ⊂ {1, ..., n} und ihr Komplement C - = {1, ..., n}\C. Durch die allgemeinen Integrationseigenschaften der Gaußschen Dichtefunktion ergibt sich durch Herausintegrieren aller Variablen in C - einfach:
z(C) und θ(C) bezeichnet die Elemente der Vektoren z und θ, deren Indizes in C liegen. In gleicher Weise gilt: D(C) enthält {X₁(C), ..., x_N(C)}.
Diese Eigenschaft gewährleistet, dass (bei konstantem Parametervektor θ) alle marginalen Verteilungen, die aus einem globalen Parzendichtemodell gewonnen werden, konsistent sind.
Das bedeutet, wenn p(z(C₁)|D(C₁), θ(C₁)) und p(z(C₂)|D(C₂), θ(C₂)) von einem globalen Parzenmodell durch Marginalisierung in Bezug auf die Teilgraphen C₁ und C₂ gewonnen wurden, sind die marginalen Verteilungen für den Trenner S = C₁∩ C₂, die aus den beiden Teilgraphendichten erhalten werden, identisch.
Modell und Kantenscoring durch Vorausbewertung
Aus dem Stand der Technik sind verschiedene Kriterien bekannt [9, 6], um die Modellauswahl auf die Voraussagequalität des erkannten Modells zu stützen:

– Prequenzielle Validation (äquivalent zum Logarithmus der marginalen Likelihood-Funktion und dem BIC-Kriterium für große Probennahmen),
– Leave-one-out-Validation der Likelihood-Funktion (äquivalent zum AIC-Kriterium) und Kreuzvalidierung (cross validation).

Ausführungsgemäß wird hier zur Modellauswahl ein 5-faches Cross-Validations-Schema verwendet, da Leave-one-out-Validation für seine Tendenz zur Überbestimmtheit bekannt ist und prequenzielle Validation eine erneute Abschätzung der Modellparameter erforderlich macht.
Ausführungsgemäß wird festgestellt, dass die gemeinsame Dichtefunktion eines zerlegbaren Modells das Produkt aus den marginalen Dichten der einzelnen Teilgraphen geteilt durch das Produkt der marginalen Dichten ihrer Trenner ist.
Sowohl Teilgraphen als auch Trenner sind Schätzungen der Parzendichte von der Form wie in Gleichung (3).
Zieht man nun Logarithmen, kann die Cross-Validations-Wahrscheinlichkeit in eine Summe bestehend aus den Termen für Teilgraphen und Trenner aufgeteilt werden.
Für einen Teilgraphen C erhalten wir somit die logarithmische Cross-Validations-Wahrscheinlichkeit (Teilgraphscore) L(D(C)), kurz L(C) als:
Das bedeutet, dass die Datenmenge D = {x₁, ..., x_N} in 5 disjunkte Mengen D¹, ..., D⁵ aufgeteilt wird. Die Schätzungen der Parzendichte werden aus allen Daten außerhalb D^k gewonnen und auf die Daten in D^k hochgerechnet.
Die Gesamt-Cross-Validation der Likelihood-Funktion (Modellscore) für ein zerlegbares Modell, gegeben als Menge seiner Teilgraphen K = {C₁, ..., C_A} und seiner Trenner S = {S₁, ..., S_B},
ergibt sich zu Basierend auf diesem Modellscore ist die Änderung des Modellscores bei Hinzufügung einer Kante in ein Modell auf direktem Wege abzuleiten.
Insbesondere kann die Differenz von Scores allein aus den lokalen Änderungen berechnet werden, d.h., es ist lediglich notwendig, die in die Operation involvierten Teilgraphen zu berücksichtigen. Man füge beispielsweise eine Kante (u, v) hinzu, die die beiden Teilgraphen C_u und C_v miteinander verbindet.
Im gegenwärtigen Modell G tragen beide Teilgraphen (und ihr eventuell vorhandener Trenner S_uv = C_u ∩ C_v) mit L(C_u) + L(C_v) – L(S_uv) zum Modellscore bei.
Das Hinzufügen einer Kante (u, v) erzeugt ein neues Modell G' mit einem neuen Teilgraphen C_w = S_uw∪ {u, v} und neuen Trennern S_uv = C_u ∩ C_w und S_vw = C_v ∩ C_w. Die Änderung im Modellscore von G nach G' berechnet sich dann einfach zu:
Es ist leicht nachzuprüfen, dass diese Gleichung ebenso für den Fall fusionierender Teilgraphen gilt, also dann wenn C_U und/oder C_v nicht länger maximal in G' sind und mit C_w fusionieren.
Berechnungskomplexität des Kantenscoring
Für eine Datenmenge mit M Beispielen über n Variablen ist die Bewertung der Parzendichte (s. Gleichung (1)) eine O(nM²)-Operation.
Die Bewertung des Score (Likelihood-Verteilung) für einen Teilgraphen C, wie in Gl. (4), erfordert O(|C|M²)-Operationen.
Zu Beginn der Erkennung mit einem leeren Modell kostet die Berechnung aller Kantenscores, nach Gl. (6), also O(n²M²), da für jede der O(n²) anfänglich möglichen Kanten lediglich Teilgraphen mit der Kantenzahl O(1) einberechnet werden müssen.
Der worst Gase tritt dann ein, wenn alle hinzugefügten Kanten Teil eines einzigen riesigen Teilgraphen sind. In diesem Fall sind zur Erkennung des vollständig zusammenhängenden Modells O(n⁴M²) Operationen für die Aktualisierung der Kantenscores notwendig.
In der Praxis bleiben glücklicherweise die meisten Kantenscores bei Hinzufügung einer Kante unverändert. Nur wenige Kantenscores müssen neu berechnet werden.
Beispielsweise war dies bei einem Problem mit 100 Variablen bei durchschnittlich 4,5 Kantenscores der Fall. Empirische Untersuchungen brachten ein sublineares Wachstum dieser durchschnittlichen Anzahl von neu zu berechnenden Kantenscores.
Ein effizienter Algorithmus zum Hinzufügen von Kanten in zerlegbaren Modellen
Ausführungsgemäß wird ein Greedy-Schema mit Vorwärtsselektion für das Erkennen der Modellstruktur angewandt.
Dieses beginnt mit einem nicht zusammenhängenden Modell und fügt iterativ Kanten hinzu, vorausgesetzt, der Graph G' bleibt nach diesem Schritt noch zerlegbar.
Allgemeine Testalgorithmen für die Chordalität von G' [6] haben eine Zeitkomplexität von O(n + |E|).
Geht man von einer O(n⁶)-Komplexität für das Erkennen des vollständig zusammenhängenden Modells aus, muss diese Abfrage nach jeder Hinzufügung einer Kante O(n²)-mal durchgeführt werden (um die Kanten zu finden, die die Kandidatenmenge für die nächste Hinzufügung bilden).
Erst in jüngster Zeit sind Methoden erforscht worden, die unter der Annahme operieren, dass sich G' von dem augenblicklichen (chordalen) Graphen G lediglich um eine Kante unterscheidet.
In [8] wird ein Kriterium vorgeschlagen, wobei eine O(n²)-Skalierung möglich ist. Unabhängig davon hat Ibarra [11] dynamische Algorithmen für chordale Graphen entwickelt, mit deren Hilfe die Zerlegbarkeit von G' mit gerade mal O(log²n) Operationen geprüft werden kann. Dadurch wird die Komplexität von Kantenprüfungen bei der Erkennung des vollständig zusammenhängenden Modells auf nur O(n⁴log²n) reduziert.
Weiter werden nun die Bedingungen zur Prüfung der Chordalität von G' dar festgelegt, basierend auf [6].
Anschließend werden Methoden angeben, die für eine effiziente Implementierung anwendbar sind.
Chordalitätsprüfung in G'
Zur Prüfung der Chordalität von G' wird ausführungsgemäß eine Gewichtsfunktion w: K × K → N₀, definiert, wobei w(C₁, C₂) = |c₁∩ c₂|.
So kann jeder Kante e = (C₁, C₂) eines Teilbaumes ein Kantengewicht w(e) = w(C₁, C₂) = |C₁∩ C₂| zugewiesen werden.
In Übereinstimmung mit Ibarras [11] wird angenommen, dass nicht zusammenhängende Komponenten eines Teilbaumes durch leere Kanten (dummy edges) mit dem Gewicht 0 verbunden sind.
Satz 1 (Ibarra [11]): Sei G ein chordaler Graph ohne die Kante (u, v). Dann gilt: G' = (V, E ∪ (u, v)) ist chordal genau dann, wenn G einen Verbindungsbaum T hat mit (C_u, C_v) ∈ T für Teilgraphen u ∈ C_u und v ∈ C_v.
Vereinfacht gesagt besagt dieser Satz, dass eine Kante (u, v) hinzugefügt werden kann, wenn diese Kante zwei Teilgraphen verbindet, die bereits im aktuellen Verbindungsbaum T benachbart sind.
Doch der Verbindungsbaum T eines beliebigen Graphen G ist im Allgemeinen nicht eindeutig.
Es kann erforderlich sein, den Baum T zu restrukturieren, bevor die Prüfung vorgenommen werden kann, wie sie in Satz 1 vorgeschlagen wird.
Der folgende Satz liefert die notwendige und hinreichende Bedingung dafür, ob ein geeigneter restrukturierter Verbindungsbaum existiert.
Satz 2 (Ibarra [11]): Sei G ein chordaler Graph ohne die Kante (u, v). Sei T der Verbindungsbaum von G und seien C_u, C_v die nahesten Knoten in T so, dass u ∈ C_u und v ∈ C_v. Ferner gelte (C_u, C_v)
T. Dann gibt es einen Teilbaum T' von G mit u ∈ C_u', v ∈ C_v' und (C_u', C_v') ∈ T' genau dann, wenn die Kante e auf dem Weg zwischen C_u und C_v in T mit minimalem Gewicht (Minimalkante) der Gleichung w(e) = w(C_u, C_v) genügt.
Diese beiden Sätze können direkt in die folgenden Methoden zur Überprüfung der Chordalität von G' = (V, E ∪ (u, v)) und zum Hinzufügen einer Kante (u, v) (falls G' chordal) herangezogen werden:
Abfrage (u, v) Finde die nächsten Knoten C_u, C_v so, dass u ∈ C_u und v ∈ C_v. Falls (C_u, C_v) ∈ T, kann die Kante (u, v) hinzugefügt werden. Andernfalls finde die Minimalkante e auf dem Weg zwi schen C_u und C_v. Gilt w(e) = w( C_u, C_v), kann die Kante (u, v) hinzugefügt werden, sonst nicht.
In jedem Fall sollten die beteiligten Teilgraphen C_u, C_v, eventuell auch die Minimalkante e, zurückgeführt werden.
Einfügen (u, v) Rufe Abfrage (u, v) auf, um die Teilgraphen C_u, C_v und die Minimalkante e zu erhalten. Sind C_u und C_v im augenblicklichen Verbindungsbaum bereits benachbart, muss die Kante (C_u, C_v) aus T entfernt werden, andernfalls die Minimalkante e.
Füge den neuen Teilgraphen C_w = (C_u ∩ C_v) ∪ {u, v} mit den Kanten (C_u, C_w) und (C_v, C_w) hinzu.
Möglicherweise sind die alten Teilgraphen C_u und/oder C_v im neuen Graphen G' nicht mehr maximal. In diesem Fall müssen C_u und/oder C_v mit C_w fusioniert werden. Das kann entweder durch Ersetzen der alten Teilgraphen oder durch Wiederverknüpfen der alten Nachbarn der verschwindenden Teilgraphen mit C_w geschehen.
Splay-Tree-Repräsentation für den Verbindungsbaum
Während der Abfrage(u, v)-Operationen ist die wichtigste Operation am Verbindungsbaum die Suche nach den nächsten Teilgraphen, die die Variablen u und v enthalten.
In [14] wird eine Baumrepräsentation vorgestellt, die eine besonders effiziente Implementierung der Suche nach dem kürzesten Weg gestattet, mit gerade einmal O(log n) Operationen pro Suche.
Ausführungsgemäß wird diese Datenstruktur genutzt, um den Verbindungsbaum T aufrecht zu erhalten.
Die Schlüsselidee hinter [14] ist, den Baum in eine Menge knoten-disjunkter Wege aufzuteilen, sogenannte solid paths (feste Wege), die nunmehr mit gestrichelten Kanten verbunden sind, um den Originalbaum zu bilden.
Feste Wege werden repräsentiert als selbst-regelnde binäre Suchbäume, die sogenannten splay trees. Grundlegendes und Weiterführendes dazu, wie Datenstrukturen und Operationen, sind in [14] beschrieben.
Berechnungskomplexität von Einfügeabfragen und Kantenhinzufügung
Um Einfügeabfragen (kann Kante (u, v) in den aktuellen Graphen G eingefügt werden?) schnellstmöglich ausführen zu können, wird folgende Information behalten:
Jeder (maximale) Teilgraph C des Graphen G ist als Vektor bestehend aus Einsen und Nullen abgespeichert. Dabei stellen die Einsen Elemente des Teilgraphen C dar.
Das ermöglicht eine Überprüfung von v ∈ C mit O(1)-Operationen.
Ebenso enthält eine Gewichtsmatrix W der Größe n × n die Gewichte zwischen jedem Paar von Teilgraphen so, dass Kantengewichte durch O(1)-Operationen in Abfrage(u, v) abgeleitet werden können.
Der Verbindungsbaum ist als splay tree repräsentiert, dadurch kann nach den nächsten Teilgraphen C_u, C_v mittels binärer Suche in O(log n) gesucht werden. Die Suche nach der Minimalkante e auf dem Weg von C_u nach C_v erfordert O(log² n)-Operationen [14, 11].
Die Frage, ob eine Kante (u, v) eingefügt werden kann, ist also mit O(log²n)-Operationen zu beantworten. Die Einfügung selbst erfordert O(n)-Operationen, wohingegen die Kosten zur Erstellung eines neuen Teilgraphen C_w durch einen O(n)-Term dominiert werden. Die Aktualisierung der Gewichtsmatrix W kann ebenfalls in O(n) absolviert werden.
Ausführungsgemäße Strukturerkennung an Beispielen
Spieldaten (1)
In einer ersten beispielhaften Anwendung des ausführungsgemäßen Strukturerkennungsverfahren wird (anhand von Spieldaten) gezeigt, dass die ausführungsgemäße Strukturerkennung tatsächlich die wahre Struktur über echten Daten abdecken kann.
Dazu werden 50 Stichproben aus einem zerlegbaren Modell genommen, bei dem jeder Teilgraph durch ein zufällig initialisiertes Gaußsches Mischmodell mit 10 Komponenten modelliert wird (mit gesicherter Konsistenz zwischen den einzelnen Teilgraphen).
In 1 ist der Modellscore L(D|K, S), wie in Gl. (5) definiert, in seiner Abhängigkeit von steigender Kantenzahl aufgetragen.
Im Ergebnis steht, dass der Algorithmus die tatsächliche Struktur des erzeugenden zerlegbaren Modells abdeckt, wenn L(D|K, S) sein Maximum erreicht.
Boston Housing Data (2)
In einer zweiten beispielhaften Abwendung werden die Boston Housing Data benutzt, die 506 Stichproben von Unterkunftspreisen enthält sowie 13 andere Variablen, von denen ein Einfluss auf die Preise für Unterkunft in der Bostoner Nachbarschaft anzunehmen ist.
Die gefundene Struktur ist, zusammen mit einer Erläuterung der Variablen, in 2 dargestellt.
Die vier Kanten mit den höchsten Scores, vgl. Gl. (6), wurden ebenso mithilfe des Markovschen Deckenmodells über denselben Daten gefunden [10].
Die übrigen Kanten stellen Abhängigkeiten höherer Ordnung dar, die aus der Kovarianzmatrix der Daten nicht direkt ersichtlich sind.
Microarray-Daten (3)
In einer dritten beispielhaften Anwendung wird das erfindungsgemäße Strukturerkennungsverfahren an Daten aus Microarraymessungen (Expressionsmusterdaten) getestet.
Die Daten, die für die Analyse gemäß diesem Ausführungsbeispiel verwendet werden, bestehen aus 327 Stichproben von verschiedenen Untertypen von pädiatrischer akuter Lymphoblasten-Leukämie (ALL) [4].
Der Datensatz wurde von Yeoh und seinen Kollegen vom St. Jude Children's Research Hospital [4] zusammengestellt.
ALL ist eine heterogene Krankheit, die verschiedene Untertypen umfasst, einschließlich sowohl Leukämie vom T-Zelltyp als auch Leukämie vom B-Zelltyp, die sich hinsichtlich ihrer Reaktion auf eine medizinische Behandlung deutlich unterscheiden.
Abgesehen von T-ALL, deren Ursache noch nicht klar bekannt ist, kann jeder B-Zellen-Untertyp auf eine spezifische genetische Veränderung zurückgeführt werden, z. B. auf genetische Translokationen t(9;22) [BCR-ABL], t(1;19) [E2A-PBX1], t(12;21) [TEL-AML1], t(4;11) [MLL] oder auf einen hyperdiploiden Karyotyp [> 50 Chromosomen].
Daher ist es nicht verwunderlich, dass Expressionsmuster der verschiedenen Untertypen recht deutlich voneinander unterscheiden.
Ferner zeigen Microarray-Daten noch ein anderes deutliches Expressionsprofil, welches auf die Existenz eines weiteren ALL-Untertyps zusätzlich zu den 6 bekannten hindeutet.
Für die Analyse gemäß dem Ausführungsbeispiel wird der reduzierte Datensatz von 271 Genen und 327 Stichproben von verschiedenen ALL-Untertypen [4], wie oben beschrieben, verwendet.
Dazu wurde aus 12.000 gemessenen Genen eine Teilmenge von 271 ausgewählt, die laut [4] die einzelnen Gruppen am besten definieren.
Die Knoten 310 der erkannten Struktur (3, 300) repräsentieren einzelne Gene 311. Statistische Abhängigkeiten, die durch Kanten 320 dargestellt werden, spiegeln biologische Wechselwirkungen zwischen den Genen 311, 310 wider und können Indikatoren für eine direkte Regulierung der Transkription zwischen ihnen sein.
Die gefundene Netzwerktopologie 300 zeigt wenige hochgradig zusammenhängende Gene, bei denen die meisten Kanten zu Genen eines für den Subtyp typischen Clusters führen.
Das Gen PSMD10 (Affymetrix-ID 37350 at, in der Mitte der Abbildung) ist wie 3 entnehmbar ist mit einer großen Anzahl anderer Gene verbunden.
Betrachtet man (3) eines dieser hochgradig zusammenhängenden Gene, sind also die meisten Gene konditional unabhängig voneinander.
Das bedeutet biologisch, dass das Expressionsverhalten vieler Gene lediglich von wenigen Gene abhängt. Dies – zusammen mit der hohen Cliquishness – ist eine typische Eigenschaft skalenfreier Netzwerke.
Es scheint sich also zu bestätigen, dass speziell zerlegbare Modelle mit ihrer inhärenten Teilgraphenstruktur gut geeignet sind, die Struktur genetischer Netzwerke bzw., allgemeiner gesprochen, skalenfreier Netzwerke zu erkennen [15, 12].
Weiter zeigt die ausführungsgemäße Anwendung (3), dass die meisten der hochgradig zusammenhängenden Gene entweder als Gene mit einer onkogenen Charakteristik – es ist beispielweise bekannt, dass das hochgradig zusammenhängende Gen PSMD10 (Affymetrix-ID 37350_-at, in der Mitte der Abbildung) bei zellulären Deregulierungen beteiligt ist, die zu Onkogenese führen – oder aber als in biologisch kritischen Prozessen wie DNS-Reparatur oder Proteolyse beteiligte Gene bekannt sind.
Somit kann aus dem Modell auf seine Wichtigkeit für die Stabilität der Zellfunktion geschlossen werden.
In der Tat ist PSMD10 eine regulatorische Untereinheit des Proteasoms 26S, eines Proteinkomplexes, welcher – in Übereinstimmung mit der Topologie des Modells – eine große Familie an Proteinen, die für Zerstörung markiert ist, abbaut und so hilft, den Proteindurchsatz in eukaryotischen Zellen zu regulieren.
Seine entscheidende Bedeutung für die normale Zellfunktion ist also bereits bekannt. Insbesondere weiß man, dass eine Fehlfunktion von PSMD10 eine fehlerhafte Regulierung einer großen Zahl intrazellulärer Proteine, die für Zellteilung, Tumorwachstum und Tumorüberleben verantwortlich sind und welche in Krebszellen funktional verändert werden, zur Folge hat.
Tatsächlich haben jüngste Forschungen ergeben, dass der Weg hin zu PSMD10 oft das Ziel einer Deregulierung im Zusammenhang mit Krebserkrankungen ist und solchen Prozessen wie onkogener Transformation oder Tumorprogression zugrunde liegen kann.
Zusammenfassung der Anwendungsbeispiele
Bei den beschriebenen Anwendungsbeispielen wurde eine neue, ausführungsgemäße Vorgehensweise zur Strukturerkennung mittels zerlegbarer graphischer Modelle auf stetigen Variablen bzw. aus Datenmengen mit stetigen Variablen angewandt.
Hier soll darauf hingewiesen werden, dass die Anwendung der ausführungsgemäßen Vorgehensweise nicht auf beschriebene Anwendungen beschränkt ist, sondern sich, wie auch erfindungsseitig vorgeschlagen wird, auf beliebige Daten anwendbar ist.
Basis dieser Vorgehensweise ist die Strukturerkennung und Modellierung von Daten durch ein zerlegbares Modell, wobei stetige Variable durch Knoten des Modells symbolisiert werden. Regelungsmechanismen werden durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale Art und Weise interpretiert werden können.
Die Besonderheit der erfinderischen Vorgehensweise liegen in Kerndichtemodellen für Teilgraphendichten sowie einer effizienten Prüfung auf Zerlegbarkeit beim Hinzufügen von Kanten.
Diese Methode erlaubt, direkt von stetigen Datenmengen auszugehen, d.h. ohne dass eine Diskretisierung notwendig wäre, kann diese doch möglicherweise bereits die Abhängigkeitsstrukturen modifizieren.
Durch die Verwendung von Kernschätzungen bei der Modellierung von Teilgraphendichten (Parzendichte) können allgemeine Ver teilungen bearbeitet werden. Außerdem ermöglicht die Vorgehensweise eine Modellauswahl mittels Vorausbewertung und sichert automatisch konsistente Teilgraphendichten.
Die Strukturerkennung erfolgt durch Vorwärtsselektion mit einem hoch effizienten Algorithmus, der prüft, ob eine bestimmte Kante ohne Verlust der Zerlegbarkeit (Chordalität) des Modells hinzugefügt werden können.
Die Vorgehensweise bei dem erfindungsgemäßen Strukturerkennungsverfahren wurde beschrieben anhand von Spieldaten, von Boston housing data sowie einer großen Datenmenge zu Genexpression mit insgesamt 271 Variablen.
Dort ist es insbesondere mit der erkennten Struktur bzw. mit dem dabei gebildeten Modell möglich, Gene, die eine potenzielle Ursache für eine Tumorgenese sind, durch Analysieren der Zusammenhänge zwischen Microarray-Daten von Leukämie-Untertypen und einem Datensatz, der Ergebnis einer Stichprobenentnahme aus dem erzeugten Modell ist, zu identifizieren.
Insgesamt zeigt die Anwendung der erfinderischen Strukturerkennung auf die Spieldaten, der Boston housing data sowie Genexpressionsdaten, dass die Strukturerkennungsmethode vernünftige Strukturen findet.
So sind die meisten gefundenen Kanten sind recht robust und unempfindlich gegen geringe Modifikationen der Datenbasis.
In diesem Dokument sind folgende Schriften zitiert:

[1] Stetter Martin et al., Large-Scale Computational Modeling of Generic Regulatory Networks, Kluwer Academic Publisher, Niederlande, 2003;
[2] Offenlegungsnummer DE 10159262.0 ;
[3] F. W. Jensen, F. V. (1996), An introduction to Bayesian networks, UCL Press, London; 178 pages;
[4] E.-J. Yeoh, M. E. Ross, S. A. Shurtleff, W. K. Williams, D. Petal et al. (2002), Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling. Cancer cell 1:133-143;
[5] D. Heckerman, D. Geiger and D. Chickering (1995), Learning Bayesian networks: The combination of knowledge and statistical data, Machine Learning 20:197-243;
[6] Cowell, R.G.; Dawid, A.P.; Lauritzen, S.L. and Spiegelhalter, D.J. (1999): Probabilistic Networks and Expert Systems. Statistics for Engineering and Information Sciences, Springer
[7] Friedman, N. und Nachman, I. (2000): "Gaussian process networks." in: Proceedings of UAI 2000, 5.211-219, Morgan Kaufmann
[8] Giudici, P. und Green, P.J. (1999): "Decomposable graphical Gaussian model determination" in: Biometrika, 86, S.785-801
[9] Heckerman, D. (1998): "A tutorial on learning with Bayesian networks" in: M.I.Jordan [Hg.]: Learning in Graphical Models, MIT Press
[10] Hofmann, R. und Tresp, V. (1998): "Nonlinear Markov networks for continuous variable" in: M.I.Jordan, M.J.Kearns and S.A.Solla [Hgs.]: Advances in Neural Information Processing Systems 10, MIT Press
[11] Ibarra, L. (2000): Fully dynamic algorithms for chordal graphs and split graphs, Tech.Rep. DCS-262-IR, Dept. of Computer Science, University of Victoria, CA
[12] Jeong, H.; Mason, S.; Barabási, A.-L. and Oltvai, Z.N. (2001): "Lethality and centrality in protein networks" in: Nature, 411, 5.41-42
[13] John, G.H. und Langley, P. (1995): "Estimating continuous distributions in Bayesian classifiers" in: P.Besnard und S.Hanks [Hgs.]: Proceedings of UAI 95, S.338-345, Morgan Kaufmann
[14] Sleator, D.D. und Tarjan, R.E. (1985): "Self-adjusting binary search trees", in: Journal of the ACM, 32(3), 5.652-686
[15] Watts, D.J. und Strogatz, S.H. (1998): "Collective dynamics of 'small-world' networks" in: Nature, 393, 5.440-442
[16] Whittaker, J. (1990): Graphical Models in Applied Multivariate Statistics, Wiley Series in Probability and Mathematical Statistics, John Wiley&Sons

Claims

Verfahren zur Erkennung einer in Daten enthaltenen Struktur, welche Daten abbildbar sind auf einen Satz von Variablen, unter Verwendung eines in Teilgraphen zerlegbaren graphischen Modells, welches Modell durch ein Netzwerk mit Knoten und Kanten darstellbar ist, wobei die Knoten die Variablen und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren, a) bei dem den Daten eine Ausgangsstruktur des Netzwerks zugrunde gelegt wird, b) bei dem in dem Netzwerk Kanten zwischen den Knoten eingefügt werden, wobei eine Endstruktur des Netzwerks gebildet wird c) bei dem die Endstruktur des Netzwerks die in den Daten enthaltene Struktur beschreibt, dadurch gekennzeichnet, dass d) das graphische Modell in Teilgraphen zerlegt wird, deren jeder eine Teilmenge von Variablen aus dem Satz von Variablen repräsentiert, e) unter Verwendung von Kerndichteschätzern Teilgraphendichten für die Teilgraphen ermittelt werden, f) unter Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas eine Bewertungsfunktion ermittelt wird, welche das Hinzufügen einer Kante zu dem Netzwerk in Hinsicht auf eine Beschreibungsqualität der in den Daten enthaltenen Struktur durch das Netzwerk bewertet, g) unter Verwendung der Bewertungsfunktion diejenigen Kanten bestimmt werden, die in dem Netzwerk zur Bildung der Endstruktur eingefügt werden.
Verfahren nach einem der vorangehenden Ansprüche, bei dem als Ausgangsstruktur des Netzwerks ein unvernetztes Netzwerk verwendet wird.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Variablen zumindest zum Teil stetige Variablen sind.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Kanten schrittweise eingefügt werden.
Verfahren nach einem der vorangehenden Ansprüche, bei dem das in Teilgraphen zerlegbare Modell in ungerichtetes, zerlegbares Modell ist.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Bewertungsfunktion auf dynamischen Algorithmen für chordale Graphen basiert und/oder eine Kante als einzufügende Kante bestimmt und/oder eingefügt wird, wenn der durch die Einfügung der Kante entstehende Graph ein chordaler Graph ist.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Bestimmung der einzufügenden Kanten unter Verwendung einer Einfügeabfrage und/oder Vorausbewertung erfolgt.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Bestimmung der einzufügenden Kanten unter Verwendung eines Greedy-Schemas mit einer Vorwärtsselektion erfolgt.
Verfahren nach einem der vorangehenden Ansprüche, bei dem bei der Bestimmung der Teilgraphendichten für die Daten eine multivariante Gaußsche Dichte angenommen wird.
Verfahren nach einem der vorangehenden Ansprüche, bei dem Parameter der multivarianten Gaußschen Dichte ermittelt werden, indem eine Leave-one-out-Validation für eine Likelihood-Funktion für die Daten in Bezug auf einen Parameter, insbesondere einer Varianz, mit einem Gradientenalgorithmus maximiert wird.
Verfahren nach einem der vorangehenden Ansprüche, bei dem für jeden Teilgraphen ein Kerndichtemodell, insbesondere eine Parzendichte, im speziellen ein Kerndichtemodell mit einer Gaußschen Fensterfunktion, angewandt wird.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Datenanalyse.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse von Einflussgrößen auf einen Mietpreis
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse von Genexpressionsdaten und/oder eines genetischen Netzwerks und/oder biologischer Wechselwirkungen zwischen Genen
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse einer genetischen Änderung und/oder Defekts, insbesondere einer pädiatrischer Akuter Lymphoblastischer Leukämie (ALL).
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Analyse eines Systems, welches durch die Daten beschrieben wird und/oder dessen Zustände durch die Daten beschrieben werden.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung eines dominanten Gens.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung eines degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor Gens.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung einer Tumorzelle.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Krebserkennung.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Ursachenanalyse für ein abnormales Gen-Expressionsmuster/Gen-Expressrate.
Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
Computerprogramm mit Programmcode-Mitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
Computerprogramm mit Programmcode-Mitteln gemäß dem vorangehenden Anspruch, welche Programmcode-Mitteln auf einem computerlesbaren Datenträger gespeichert sind.
Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.