-
Die
Erfindung betrifft eine Erkennung sowie Bildung einer graphischen
Modellstruktur in Daten für
stetige Variablen.
-
Dabei
wird bei der Erfindung unter "Daten
für stetige
Variablen" verstanden,
dass die Daten dadurch erzeugbar sind, dass die den Daten zugrundeliegenden
Variablen, welche stetige bzw. kontinuierliche Größen beschreiben,
bestimmte Werte einnehmen. Dabei ist auch verständlich, dass diskrete Variablen
mit von kontinuierlichen Variablen umfasst werden, welche diskrete
Variabeln nämlich
durch mathematische Verfahren, wie eine Interpolation, auf steige
Variablen abbildbar sind.
-
Aus
dem Stand der Technik sind graphische Modelle, wie kausale Netze
oder im speziellen Bayesianische (Bayessche) Netze [3, 5, 9], zur
Ermittlung einer in Daten enthaltenen Struktur bekannt.
-
Weiter
ist bekannt, diese graphischen Modelle, die bei der Erkennung an
die Daten angepasst werden, zur Beschreibung der Daten sowie zur
Analyse der Daten wie auch von den Daten zugrundeliegenden Systemen
zu verwenden.
-
Es
ist bekannt, dass diese graphische Modelle die Unabhängigkeiten
innerhalb einer Menge zufälliger Variablen
bzw. Systemvariablen, die den Daten zugrunde liegen, unter bestimmten
Bedingungen (Annahmen) kodieren bzw, beschreiben.
-
Neue
Entwicklungen und Erkenntnisse auf diesem Gebiet der graphischen
Modellierung von Daten, speziell die Modellierung bzw. Beschreibung
von Daten unter Verwendung Bayesianischer Netze [9], betreffen dabei
diskrete Variablen und sind im Umfeld diskreter Variablen anwendbar.
-
Graphische
Modelle für
stetige Variablen wurden bis auf wenige Ausnahmen (z.B. [10, 7])
entweder durch Diskretisierung erstellt oder unter der einschränkenden
Annahme, dass die Daten aus einer einzelnen multivariaten Gaußdichte
erzeugt werden [16].
-
Aus
dem Stand der Technik ist ferner bekannt, bei graphischen Modellen
zwischen gerichteten Modellen, wie zum Beispiel die Bayesianischen
Netze, und ungerichteten Modellen zu unterscheiden. Ungerichtete Modelle
beschreiben dabei Abhängigkeiten
zwischen Variablen im allgemeinen, wohingegen gerichtete Modelle
darüber
hinaus eine Richtung der Abhängigkeit
(gerichteter Kausalzusammenhang) beschreiben.
-
Weiter
sind aus dem Stand der Technik in Teilgraphen zerlegbare graphische
Modelle bekannt [6].
-
Ein
solches zerlegbares Modell über
Variablen {1, ..., n} ist repräsentiert
durch einen ungerichteten Graphen G = (V, E) mit einer Menge V =
{1, ..., n} von Knoten und Kanten E.
-
Ein
ungerichteter Graph heißt
chordal, wenn jeder Kreis der Länge ≥ 4 eine Sehne
hat, d.h. eine Kante, der zwei nicht benachbarte Knoten des Kreises
miteinander verbindet.
-
Ein
graphisches Modell bildet ein zerlegbares Modell genau dann, wenn
sein Graph chordal ist [6, Satz 4.4]. Ein Teilgraph von G ist eine
Menge paarweise benachbarter Knoten in G. Ein Teilgraph C ist maximal, wenn
C nicht echt in einem anderen Teilgraphen enthalten ist. K bezeichnet
die Menge maximaler Teilgraphen des Graphen G. Der Schnitt benachbarter
Teilgraphen innerhalb des Verbindungsbaumes wird Trenner genannt.
-
Eine
spezielle Eigenschaft zerlegbarer Modelle besteht darin, dass die
Teilgraphen der Darstellung eines Graphen in einem Verbindungsbaum
angeordnet werden können.
Der Verbindungsbaum ist ein Baum T mit einer Teilgraphenmenge K
als Knotenmenge, die die Schnitteigenschaft für Teilgraphen erfüllt: für beliebige zwei
Teilgraphen C1, C2 ∈ K ist
die Menge C1 ∩ C2 in
jedem Teilgraphen entlang des Weges in T zwischen C1 und
C2 enthalten. Der Verbindungsbaum T von
Teilgraphen existiert genau dann, wenn G zerlegbar ist [6, Satz 4.6].
Dabei ist beachten, dass der Verbindungsbaum eines Graphen G generell
nicht eindeutig ist.
-
Ferner
sind aus dem Stand der Technik viele Probleme im Unfeld großer Datenmengen,
insbesondere ökonomischen
Daten, und/oder komplexen Systemen, insbesondere ökonomischen
und biologischen Systemen, wie beispielweise ein regulatorisches
genetisches Netzwerk, bekannt, die eine effiziente Vorgehensweise
zur Analyse der Daten und/oder zur Beschreibung der komplexen Systeme
und zur Analyse deren Systemverhalten erfordern.
-
Aus
[1] sind Grundlagen eines regulatorischen genetischen Netzwerks
einer Zelle bekannt. Unter einem solchen regulatorischen genetischen
Netzwerk seien dabei im Folgenden insbesondere regulatorische Wechselwirkungen
(Abhängigkeiten)
zwischen Genen einer Zelle verstanden.
-
Ein
Genom, d.h. die menschliche Erbsubstanz, umfasst schätzungsweise
20.000 bis 40.000 Gene, von denen jeweils eine biologisch bestimmte
Anzahl – abhängig von
einer Spezialisierung einer Zelle – in Form einer DNA oder eines
Teils einer DNA in einer Zelle vorhanden sind.
-
Als
ein Gen wird dabei ein nicht notwendigerweise zusammenhängender
Abschnitt dieser DNA bezeichnet, der einen genetischen Code für ein Protein
oder auch für
eine Gruppe von Proteinen (Eiweißstoffe) bzw. für eine Erzeugung
eines Proteins oder einer Proteingruppe enthält. Insgesamt beinhalten die
Gene einen genetischen Code für
etwa eine Million Proteine.
-
Ein
Wechselspiel bzw. die Wechselwirkungen der Gene untereinander sowie
mit den Proteinen stellt den wichtigsten Teil einer Maschinerie
(regulatorisches genetisches Netzwerk) dar, die einer Entwicklung
eines menschlichen Körpers
aus einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.
-
Auch
aus [1, 2] ist bekannt, dass sogenannte Gen-Expressionsraten, welche
ein Gen-Expressionsmuster bilden, eine Beschreibung bzw. Repräsentation
eines regulatorischen genetischen Netzwerks bzw. eines aktuellen
Zustands des regulatorischen genetischen Netzwerks liefern.
-
Vereinfacht
oder anschaulich ausgedrückt
repräsentiert
somit ein Gen-Expressionsmuster einer Zelle einen Zustand des regulatorischen
genetischen Netzwerks dieser Zelle.
-
Ferner
ist bekannt, dass unter Verwendung von Hochdurchsatz-Genexpressions-Messungen
(Microarray-Daten) diese Gen-Expressionsraten messbar sind. Die
Microarray-Daten, in der Regel eine riesige Datenmenge, beschreiben
wiederum Momentaufnahmen des Gen-Expressionsmusters.
-
Viele
Krankheiten und Fehlfunktionen des Körpers gehen auf Störungen des
regulatorischen genetischen Netzwerks zurück, welche sich in eine stark
veränderten
Gen-Expressionsverhalten (Gen-Expressionsraten) bzw. einem veränderten
Gen-Expressmuster
einer Zelle widerspiegeln.
-
Somit
stellt ein Verständnis
des regulierenden genetischen Netzwerks einen wichtigen Schritt
auf dem Weg zu einer Charakterisierung und einem Verstehen von genetischen
Mechanismen sowie in weiterer Folge zu einer Identifizierung von
sogenannten dominanten oder Funktionsstörungen auslösenden Ge nen dar, welche den
Krankheiten oder Fehlfunktionen zugrunde liegen.
-
Beispielsweise
kann in einer Krebsforschung, bei der die Identifizierung von Geschwülste und
Tumore unterdrückenden
Genen eine Schlüsselrolle
spielt, die Kenntnis neuer potenzieller Onkogene und ihre Wechselwirkung
mit anderen Genen ein Beitrag zu einer Aufdeckung von Grundprinzipien
(von Krebserkrankungen) sein, welche ein Umwandlung normaler Zellen
in bösartige
Krebszellen bestimmen.
-
Weitergehend
ist für
eine Entwicklung von verbesserten Medikamenten und Therapien zur
Bekämpfung
von genetischen Krankheiten daher ebenfalls ein quantitatives Verständnis des
regulatorischen genetischen Netzwerks einer Zelle erforderlich.
-
So
wirken einige Medikamente als Agonisten bzw. Antagonisten spezifischer
Zielproteine, d. h. sie verstärken
oder schwächen
die Funktion eines Proteins mit entsprechender Rückwirkung auf das regulatorische genetische
Netzwerk mit dem Ziel, dieses zurück in einen normalen Funktionsmodus
zu bringen.
-
Aus
[2] ist eine Erkennung und Beschreibung eines regulatorischen genetischen
Netzwerks einer Zelle unter Verwendung eines graphischen Modells
bekannt.
-
Der
Erfindung liegt die Aufgabe zugrunde, eine Vorgehensweise zum Erkennen
einer graphischen Modellstruktur für stetige Variablen anzugeben.
Die Vorgehensweise soll überdies
mit möglichst
wenig Annahmen für
die bei der Modellierung zugrundegelegten (Wahrscheinlichkeits-)Verteilungen
auszukommen.
-
Weiter
soll die Erfindung es ermöglichen,
Strukturen auch in größeren Datenmengen
zu erkennen.
-
Diese
Aufgabe wird durch das Verfahren, durch das Computerprogramm mit
Programmcode-Mitteln und das Computerprogramm- Produkt zur Ermittlung einer in Daten
enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle
gelöst.
-
Bei
dem grundlegenden Verfahren zur Erkennung einer in Daten enthaltenen
Struktur, welche Daten abbildbar sind auf einen Satz von Variablen,
wird ein in Teilgraphen zerlegbares graphisches Modell verwendet.
Dieses Modell ist durch ein Netzwerk mit Knoten und Kanten darstellbar,
wobei die Knoten die Variablen und die Kanten Abhängigkeiten
zwischen den Variablen repräsentieren.
-
Bei
dem erfindungsgemäßen Verfahren
werden den Daten eine Ausgangsstruktur des Netzwerks zugrunde gelegt.
Es werden in dem Netzwerk Kanten zwischen den Knoten eingefügt, wobei
eine Endstruktur des Netzwerks gebildet wird. Die Endstruktur des
Netzwerks beschreibt die in den Daten enthaltene Struktur
-
Dabei
wird bei der erfindungsgemäßen Vorgehensweise
das graphische Modell in Teilgraphen zerlegt, deren jeder eine Teilmenge
von Variablen aus dem Satz von Variablen repräsentiert.
-
Unter
Verwendung von Kerndichteschätzern
werden Teilgraphendichten für
die Teilgraphen ermittelt.
-
Unter
Verwendung der Teilgraphendichten und eines Verfahrens eines Cross-Validation-Schemas
wird eine Bewertungsfunktion ermittelt, welche das Hinzufügen einer
Kante zu dem Netzwerk in Hinsicht auf eine Beschreibungsqualität der in
den Daten enthaltenen Struktur durch das Netzwerk bewertet.
-
Unter
Verwendung der Bewertungsfunktion werden diejenigen Kanten bestimmt,
die in dem Netzwerk zur Bildung der Endstruktur eingefügt werden.
-
Das
Computerprogramm mit Programmcode-Mitteln ist eingerichtet, um alle
Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn
das Programm auf einem Computer ausgeführt wird.
-
Das
Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten
Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren
durchzuführen,
wenn das Programm auf einem Computer ausgeführt wird.
-
Das
Computerprogramm mit Programmcode-Mitteln, eingerichtet um alle
Schritte gemäß dem erfinderischen
Verfahren durchzuführen,
wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt
mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, eingerichtet
um alle Schritte gemäß dem erfinderischen
Verfahren durchzuführen,
wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere
geeignet zur Durchführung
des erfindungsgemäßen Verfahrens
oder einer seiner nachfolgend erläuterten Weiterbildungen.
-
Bevorzugte
Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
-
Die
im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf
das Verfahren als auch auf das Computerprogramm mit Programmcode-Mitteln
und das Computerprogrammprodukt.
-
Die
Erfindung und die im weiteren beschriebenen Weiterbildungen können sowohl
in Software als auch in Hardware, beispielsweise unter Verwendung
einer speziellen elektrischen Schaltung, realisiert werden.
-
Ferner
ist eine Realisierung der Erfindung oder einer im weiteren beschriebenen
Weiterbildung möglich
durch ein computerlesbares Speichermedium, auf welchem das Computerprogramm
mit Programmcode-Mitteln gespeichert ist, welches die Erfindung
oder Weiterbildung ausführt.
-
Auch
kann die Erfindung oder jede im weiteren beschriebene Weiterbildung
durch ein Computerprogrammerzeugnis realisiert sein, welches ein
Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln
gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.
-
Im
folgenden seien beispielhaft Weiterbildungen genannt, bei den die
erfinderischen Vorgehensweise sowie das durch die erfinderische
Vorgehensweise erzeugte graphische Modell bevorzugt einsetzbar ist.
-
Diese
genannten Weiterbildungen betreffen ein bzw. die Erkennung einer
Struktur eines regulatorischen genetischen Netzwerks [1] sowie eine
Analyse und/oder Modellierung bzw. Beschreibung eines solchen regulatorischen
genetischen Netzwerks [1].
-
In
diesen Fällen
werden Gene des regulatorischen genetischen Netzwerks bzw. ihre
entsprechenden Proteine durch die Knoten repräsentiert bzw. symbolisiert.
-
Regelungsmechanismen
werden durch Kanten zwischen zwei Knoten beschrieben, welche auf
eine kausale Art und Weise interpretiert werden können, die
sich durch die durch die erfinderische Vorgehensweise erkannte (Daten-)Struktur
erschließt.
-
Bei
einer solchen Weiterbildung sind die zu strukturierenden Daten Gen-Expressionsmuster
[4] eines genetischen regulatorischen Netzwerks einer Zelle, insbesondere
einer kranken Zelle.
-
Dabei
kann beispielsweise die kranke Zelle eine Onko-Zelle sein, insbesondere
eine Onko-Zelle mit ALL (Akute lymphoblastische Leukämie) [4].
-
Ferner
kann auch die kranke Zelle ein Onko-Gen, insbesondere ein ALL-Onko-Gen,
aufweisen.
-
Ferner
eignet sich die erfinderische Vorgehensweise oder Weiterbildung
davon, insbesondere das Modell sowie die erkannte Struktur, im Besonderen
zur Identifizierung eines dominanten Gens und/oder eines degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor
Gens.
-
Auch
eignet sie sich zur Identifizierung einer Tumorzelle, beispielsweise
im Zusammenhang mit einer Krebserkennung.
-
Ferner
ist die erfinderische Vorgehensweise, insbesondere das Modell sowie
die erkannte Struktur, im Besonderen geeignet zu einer Ursachenanalyse
für ein
abnormales Gen-Expressionsmuster/Gen-Expressrate.
-
Auch
kann das Modell sowie die erkannte Struktur eingesetzt werden zu
einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
-
Weitere
Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden
Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen
im Zusammenhang mit den Figuren.
-
Es
zeigen
-
1 eine
Skizze, die ein Ergebnis einer Strukturerkennung gemäß der erfindungsgemäßen Vorgehensweise
bei einem Spielmodell zeigt, wobei Proben aus einem zerlegbaren
Modell mit bekannter Struktur entnommen wurden;
-
2 eine
Skizze, die ein Ergebnis einer Strukturerkennung gemäß der erfindungsgemäßen Vorgehensweise
bei einem Bostoner Mietspiegel (Boston housing data) zeigt;
-
3 eine
Skizze, die einen Teil einer zerlegbaren Modellstruktur gemäß der erfindungsgemäßen Vorgehensweise
bei einer ALL-Datenmenge [4] zeigt;
-
Ausführungsbeispiel(e): Effiziente
Strukturerkennung für
zerlegbare Modelle auf stetigen Variablen
-
Überblick
-
Nachfolgend
wird eine Vorgehensweise zum Erkennen einer graphischen Modellstruktur
für stetige Variablen
beschrieben.
-
Ziel
und Vorteil der ausführungsgemäßen Vorgehensweise
ist es, mit möglichst
wenig Annahmen für die
damit verbundenen Verteilungen auszukommen. Zusätzlich zeichnet sich die Vorgehensweise
dadurch aus, dass sie anwendbar ist auch auf größere Datenmengen.
-
Ausführungsgemäß – aber in
nicht einschränkender
Weise – werden
hier ungerichtete Modelle verwendet.
-
Ungerichtete
Modelle werden bevorzugt, wenn eine kausale Struktur innerhalb des
Gebietes nicht vernünftig
angenommen werden kann und der Betrachtungsschwerpunkt darin besteht,
Abhängigkeiten
zu finden.
-
Generelle
ungerichtete Modelle erfordern die Einführung von Potenzialen, die
schwierig zu erkennen und zu interpretieren sind.
-
Somit
werden hier eine spezielle und wichtige Unterklasse solcher ungerichteten
Modelle, nämlich
zerlegbare ungerichtete Modelle verwendet, die attraktive Eigenschaften
haben.
-
Insbesondere
ermöglichen
sie eine Faktorisierung der Gesamtdichte in das Produkt der Teilgraphendichten.
-
Dichtemodelle
für eine
Variablenmenge müssen
bei einer Evaluierung der Kandidatenstruktur innerhalb des Strukturerkennungsprozesses
ständig
erneuert und angepasst werden. Die ausführungsgemäße Strukturerkennungsmethode
basiert auf Schätzungen
der Kerndichte (Parzendichte) für
die Teilgraphendichten, die bei einer Veränderung der Struktur nicht
angepasst werden müssen
und die außerdem
für eine
konsistente Teilgraphendichte sorgen.
-
Zudem
können
die Kriterien zur Modellauswahl, basierend auf einer Vorausbewertung,
leicht erhalten werden. Näheres
dazu wird nachfolgend näher
beschrieben.
-
Weiter
wird hier ausführungsgemäß ein Greedy-Schema
mit Vorwärtsselektion
für die
Strukturerkennung angewandt.
-
Deshalb
muss die Modellsuche auf die Klasse der zerlegbaren Modelle eingeschränkt werden.
-
Es
wird ein passendes (und hoch effizientes) Kriterium vorgestellt
werden, das auf Entwicklungen bei dynamischen Algorithmen für chordale
Graphen basiert.
-
Die
Leistungsfähigkeit
der ausführungsgemäßen Vorgehensweise
wird anhand eines Spielproblems demonstriert werden und danach angewandt
zur Schätzung
regelhafter genetischer Netzwerkstrukturen, die bei der Pathogenese
von Leukämie
bei Kindern beteiligt sind [4].
-
Genetische
und Proteinnetzwerke zeigen oft skalenfreie Topologien [12]. Das
impliziert, dass sie in Mengen dicht zusammenhängender Gencluster zerfallen
(Cliquishness) [15].
-
Aufgrund
dieser Eigenschaft sind zerlegbare Modelle besonders zur Beschreibung
genetischer Netzwerke geeignet.
-
Zerlegbare
Modelle
-
Im
Stand der Technik sind in Teilgraphen zerlegbare graphische Modelle
in [6] beschrieben.
-
Ein
solches zerlegbares Modell über
Variablen {1, ..., n} ist repräsentiert
durch einen ungerichteten Graphen G = (V, E) mit einer Menge V =
{1, ..., n} von Knoten und Kanten E.
-
Ein
ungerichteter Graph heißt
chordal, wenn jeder Kreis der Länge ≥ 4 eine Sehne
hat, d.h. eine Kante, der zwei nicht benachbarte Knoten des Kreises
miteinander verbindet.
-
Ein
graphisches Modell bildet ein zerlegbares Modell genau dann, wenn
sein Graph chordal ist [6, Satz 4.4]. Ein Teilgraph von G ist eine
Menge paarweise benachbarter Knoten in G. Ein Teilgraph C ist maximal, wenn
C nicht echt in einem anderen Teilgraphen enthalten ist. K bezeichnet
die Menge maximaler Teilgraphen des Graphen G. Der Schnitt benachbarter
Teilgraphen innerhalb des Verbindungsbaumes wird Trenner genannt.
-
Eine
spezielle Eigenschaft zerlegbarer Modelle besteht darin, dass die
Teilgraphen der Darstellung eines Graphen in einem Verbindungsbaum
angeordnet werden können.
Der Verbindungsbaum ist ein Baum T mit einer Teilgraphenmenge K
als Knotenmenge, die die Schnitteigenschaft für Teilgraphen erfüllt: für beliebige zwei
Teilgraphen C1, C2 ∈ K ist
die Menge C1 ∩ C2 in
jedem Teilgraphen entlang des Weges in T zwischen C1 und
C2 enthalten. Der Verbindungsbaum T von
Teilgraphen existiert genau dann, wenn G zerlegbar ist [6, Satz 4.6].
Dabei ist beachten, dass der Verbindungsbaum eines Graphen G generell
nicht eindeutig ist.
-
Kerndichtemodelle
für Teilgraphen
-
Bei
dem ausführungsgemäßen, generellen
Strukturerkennungsalgorithmus für
stetige Variablen wird nun für
jeden Teilgraphen ein Kerndichtemodell (Parzendichte) angewandt.
-
Eigenschaften,
die Schätzungen
der Parzendichte besonders attraktiv für zerlegbare Modelle machen, sind:
- – Modelle
für Teilgraphen
sind automatisch konsistent;
- – eine
Anpassung der Modelle bei einer Veränderung der Modellstruktur
ist nicht notwendig;
- – ein
auf einer Vorausbewertung basierendes Modellauswahlschema (Kantenscoring)
kann leicht abgeleitet werden.
-
Nicht-parametrische
Dichteschätzungen
sind bis zum heutigen Zeitpunkt nur selten im Zusammenhang mit graphischen
Modellen verwandt worden; Ausnahmen stellen z.B. die Arbeit über Einfache Bayes-Klassifikatoren
[13] und die Kerndichteschätzungen
für Markov-Deckenmodelle
unter bestimmten Bedingungen [10] dar.
-
Ein
Kerndichtemodell mit Gaußschen
Fensterfunktionen g für
ndimensionale Werte D = {x
1, ..., x
M} ist gegeben durch:
-
Dabei
ist g(z; xi, θ) eine multivariate Gaußsche Dichte
mit dem Mittelwert xi und diagonaler Kovarianzmatrix
mit der Varianz entlang der j-ten Dimension, gegeben durch θj, j = 1, ..., n.
-
Ausführungsgemäß werden
die Varianzparameter θj gewählt,
indem die Leave-one-out-Validation für die Likelihood-Funktion für die Datenmenge
D in Bezug auf θ mit
einem Gradientenalgorithmus maximiert wird.
-
Die
Verwendung von Gaußschen
Fensterfunktionen hat speziell bei zerlegbaren Modellen Vorteile.
-
Man
betrachte eine Menge C ⊂ {1,
..., n} und ihr Komplement C - = {1, ..., n}\C. Durch die allgemeinen Integrationseigenschaften
der Gaußschen
Dichtefunktion ergibt sich durch Herausintegrieren aller Variablen
in C - einfach:
z(C) und θ(C) bezeichnet die Elemente
der Vektoren z und θ,
deren Indizes in C liegen. In gleicher Weise gilt: D(C) enthält {X
1(C), ..., x
N(C)}.
-
Diese
Eigenschaft gewährleistet,
dass (bei konstantem Parametervektor θ) alle marginalen Verteilungen,
die aus einem globalen Parzendichtemodell gewonnen werden, konsistent
sind.
-
Das
bedeutet, wenn p(z(C1)|D(C1), θ(C1)) und p(z(C2)|D(C2), θ(C2)) von einem globalen Parzenmodell durch
Marginalisierung in Bezug auf die Teilgraphen C1 und
C2 gewonnen wurden, sind die marginalen
Verteilungen für
den Trenner S = C1 ∩ C2,
die aus den beiden Teilgraphendichten erhalten werden, identisch.
-
Modell und
Kantenscoring durch Vorausbewertung
-
Aus
dem Stand der Technik sind verschiedene Kriterien bekannt [9, 6],
um die Modellauswahl auf die Voraussagequalität des erkannten Modells zu
stützen:
- – Prequenzielle
Validation (äquivalent
zum Logarithmus der marginalen Likelihood-Funktion und dem BIC-Kriterium
für große Probennahmen),
- – Leave-one-out-Validation
der Likelihood-Funktion (äquivalent
zum AIC-Kriterium) und Kreuzvalidierung (cross validation).
-
Ausführungsgemäß wird hier
zur Modellauswahl ein 5-faches Cross-Validations-Schema verwendet, da
Leave-one-out-Validation
für seine
Tendenz zur Überbestimmtheit
bekannt ist und prequenzielle Validation eine erneute Abschätzung der
Modellparameter erforderlich macht.
-
Ausführungsgemäß wird festgestellt,
dass die gemeinsame Dichtefunktion eines zerlegbaren Modells das
Produkt aus den marginalen Dichten der einzelnen Teilgraphen geteilt
durch das Produkt der marginalen Dichten ihrer Trenner ist.
-
Sowohl
Teilgraphen als auch Trenner sind Schätzungen der Parzendichte von
der Form wie in Gleichung (3).
-
Zieht
man nun Logarithmen, kann die Cross-Validations-Wahrscheinlichkeit
in eine Summe bestehend aus den Termen für Teilgraphen und Trenner aufgeteilt
werden.
-
Für einen
Teilgraphen C erhalten wir somit die logarithmische Cross-Validations-Wahrscheinlichkeit (Teilgraphscore)
L(D(C)), kurz L(C) als:
-
Das
bedeutet, dass die Datenmenge D = {x1, ...,
xN} in 5 disjunkte Mengen D1,
..., D5 aufgeteilt wird. Die Schätzungen
der Parzendichte werden aus allen Daten außerhalb Dk gewonnen
und auf die Daten in Dk hochgerechnet.
-
Die
Gesamt-Cross-Validation der Likelihood-Funktion (Modellscore) für ein zerlegbares
Modell, gegeben als Menge seiner Teilgraphen K = {C
1,
..., C
A} und seiner Trenner S = {S
1, ..., S
B},
ergibt
sich zu Basierend auf diesem Modellscore ist die Änderung
des Modellscores bei Hinzufügung
einer Kante in ein Modell auf direktem Wege abzuleiten.
-
Insbesondere
kann die Differenz von Scores allein aus den lokalen Änderungen
berechnet werden, d.h., es ist lediglich notwendig, die in die Operation
involvierten Teilgraphen zu berücksichtigen.
Man füge
beispielsweise eine Kante (u, v) hinzu, die die beiden Teilgraphen
Cu und Cv miteinander
verbindet.
-
Im
gegenwärtigen
Modell G tragen beide Teilgraphen (und ihr eventuell vorhandener
Trenner Suv = Cu ∩ Cv) mit L(Cu) + L(Cv) – L(Suv) zum Modellscore bei.
-
Das
Hinzufügen
einer Kante (u, v) erzeugt ein neues Modell G' mit einem neuen Teilgraphen C
w = S
uw ∪ {u, v} und
neuen Trennern S
uv = C
u ∩ C
w und S
vw = C
v ∩ C
w. Die Änderung
im Modellscore von G nach G' berechnet
sich dann einfach zu:
-
Es
ist leicht nachzuprüfen,
dass diese Gleichung ebenso für
den Fall fusionierender Teilgraphen gilt, also dann wenn CU und/oder Cv nicht
länger
maximal in G' sind
und mit Cw fusionieren.
-
Berechnungskomplexität des Kantenscoring
-
Für eine Datenmenge
mit M Beispielen über
n Variablen ist die Bewertung der Parzendichte (s. Gleichung (1))
eine O(nM2)-Operation.
-
Die
Bewertung des Score (Likelihood-Verteilung) für einen Teilgraphen C, wie
in Gl. (4), erfordert O(|C|M2)-Operationen.
-
Zu
Beginn der Erkennung mit einem leeren Modell kostet die Berechnung
aller Kantenscores, nach Gl. (6), also O(n2M2), da für
jede der O(n2) anfänglich möglichen Kanten lediglich Teilgraphen
mit der Kantenzahl O(1) einberechnet werden müssen.
-
Der
worst Gase tritt dann ein, wenn alle hinzugefügten Kanten Teil eines einzigen
riesigen Teilgraphen sind. In diesem Fall sind zur Erkennung des
vollständig
zusammenhängenden
Modells O(n4M2)
Operationen für
die Aktualisierung der Kantenscores notwendig.
-
In
der Praxis bleiben glücklicherweise
die meisten Kantenscores bei Hinzufügung einer Kante unverändert. Nur
wenige Kantenscores müssen
neu berechnet werden.
-
Beispielsweise
war dies bei einem Problem mit 100 Variablen bei durchschnittlich
4,5 Kantenscores der Fall. Empirische Untersuchungen brachten ein
sublineares Wachstum dieser durchschnittlichen Anzahl von neu zu
berechnenden Kantenscores.
-
Ein effizienter Algorithmus
zum Hinzufügen
von Kanten in zerlegbaren Modellen
-
Ausführungsgemäß wird ein
Greedy-Schema mit Vorwärtsselektion
für das
Erkennen der Modellstruktur angewandt.
-
Dieses
beginnt mit einem nicht zusammenhängenden Modell und fügt iterativ
Kanten hinzu, vorausgesetzt, der Graph G' bleibt nach diesem Schritt noch zerlegbar.
-
Allgemeine
Testalgorithmen für
die Chordalität
von G' [6] haben
eine Zeitkomplexität
von O(n + |E|).
-
Geht
man von einer O(n6)-Komplexität für das Erkennen
des vollständig
zusammenhängenden
Modells aus, muss diese Abfrage nach jeder Hinzufügung einer
Kante O(n2)-mal durchgeführt werden (um die Kanten zu
finden, die die Kandidatenmenge für die nächste Hinzufügung bilden).
-
Erst
in jüngster
Zeit sind Methoden erforscht worden, die unter der Annahme operieren,
dass sich G' von
dem augenblicklichen (chordalen) Graphen G lediglich um eine Kante
unterscheidet.
-
In
[8] wird ein Kriterium vorgeschlagen, wobei eine O(n2)-Skalierung möglich ist.
Unabhängig
davon hat Ibarra [11] dynamische Algorithmen für chordale Graphen entwickelt,
mit deren Hilfe die Zerlegbarkeit von G' mit gerade mal O(log2n)
Operationen geprüft
werden kann. Dadurch wird die Komplexität von Kantenprüfungen bei
der Erkennung des vollständig
zusammenhängenden
Modells auf nur O(n4log2n)
reduziert.
-
Weiter
werden nun die Bedingungen zur Prüfung der Chordalität von G' dar festgelegt,
basierend auf [6].
-
Anschließend werden
Methoden angeben, die für
eine effiziente Implementierung anwendbar sind.
-
Chordalitätsprüfung in
G'
-
Zur
Prüfung
der Chordalität
von G' wird ausführungsgemäß eine Gewichtsfunktion
w: K × K → N0, definiert, wobei w(C1,
C2) = |c1 ∩ c2|.
-
So
kann jeder Kante e = (C1, C2)
eines Teilbaumes ein Kantengewicht w(e) = w(C1,
C2) = |C1 ∩ C2| zugewiesen werden.
-
In Übereinstimmung
mit Ibarras [11] wird angenommen, dass nicht zusammenhängende Komponenten
eines Teilbaumes durch leere Kanten (dummy edges) mit dem Gewicht
0 verbunden sind.
-
Satz
1 (Ibarra [11]): Sei G ein chordaler Graph ohne die Kante (u, v).
Dann gilt: G' =
(V, E ∪ (u,
v)) ist chordal genau dann, wenn G einen Verbindungsbaum T hat mit
(Cu, Cv) ∈ T für Teilgraphen
u ∈ Cu und v ∈ Cv.
-
Vereinfacht
gesagt besagt dieser Satz, dass eine Kante (u, v) hinzugefügt werden
kann, wenn diese Kante zwei Teilgraphen verbindet, die bereits im
aktuellen Verbindungsbaum T benachbart sind.
-
Doch
der Verbindungsbaum T eines beliebigen Graphen G ist im Allgemeinen
nicht eindeutig.
-
Es
kann erforderlich sein, den Baum T zu restrukturieren, bevor die
Prüfung
vorgenommen werden kann, wie sie in Satz 1 vorgeschlagen wird.
-
Der
folgende Satz liefert die notwendige und hinreichende Bedingung
dafür,
ob ein geeigneter restrukturierter Verbindungsbaum existiert.
-
Satz
2 (Ibarra [11]): Sei G ein chordaler Graph ohne die Kante (u, v).
Sei T der Verbindungsbaum von G und seien C
u,
C
v die nahesten Knoten in T so, dass u ∈ C
u und v ∈ C
v. Ferner gelte (C
u,
C
v)
T.
Dann gibt es einen Teilbaum T' von
G mit u ∈ C
u',
v ∈ C
v' und
(C
u',
C
v') ∈ T' genau dann, wenn
die Kante e auf dem Weg zwischen C
u und
C
v in T mit minimalem Gewicht (Minimalkante)
der Gleichung w(e) = w(C
u, C
v)
genügt.
-
Diese
beiden Sätze
können
direkt in die folgenden Methoden zur Überprüfung der Chordalität von G' = (V, E ∪ (u, v))
und zum Hinzufügen
einer Kante (u, v) (falls G' chordal)
herangezogen werden:
Abfrage (u, v) Finde die nächsten Knoten
Cu, Cv so, dass
u ∈ Cu und v ∈ Cv. Falls (Cu, Cv) ∈ T,
kann die Kante (u, v) hinzugefügt
werden. Andernfalls finde die Minimalkante e auf dem Weg zwi schen
Cu und Cv. Gilt
w(e) = w( Cu, Cv),
kann die Kante (u, v) hinzugefügt
werden, sonst nicht.
-
In
jedem Fall sollten die beteiligten Teilgraphen Cu,
Cv, eventuell auch die Minimalkante e, zurückgeführt werden.
-
Einfügen (u,
v) Rufe Abfrage (u, v) auf, um die Teilgraphen Cu,
Cv und die Minimalkante e zu erhalten. Sind
Cu und Cv im augenblicklichen
Verbindungsbaum bereits benachbart, muss die Kante (Cu,
Cv) aus T entfernt werden, andernfalls die
Minimalkante e.
-
Füge den neuen
Teilgraphen Cw = (Cu ∩ Cv) ∪ {u,
v} mit den Kanten (Cu, Cw)
und (Cv, Cw) hinzu.
-
Möglicherweise
sind die alten Teilgraphen Cu und/oder Cv im neuen Graphen G' nicht mehr maximal. In diesem Fall
müssen
Cu und/oder Cv mit
Cw fusioniert werden. Das kann entweder
durch Ersetzen der alten Teilgraphen oder durch Wiederverknüpfen der
alten Nachbarn der verschwindenden Teilgraphen mit Cw geschehen.
-
Splay-Tree-Repräsentation
für den
Verbindungsbaum
-
Während der
Abfrage(u, v)-Operationen ist die wichtigste Operation am Verbindungsbaum
die Suche nach den nächsten
Teilgraphen, die die Variablen u und v enthalten.
-
In
[14] wird eine Baumrepräsentation
vorgestellt, die eine besonders effiziente Implementierung der Suche
nach dem kürzesten
Weg gestattet, mit gerade einmal O(log n) Operationen pro Suche.
-
Ausführungsgemäß wird diese
Datenstruktur genutzt, um den Verbindungsbaum T aufrecht zu erhalten.
-
Die
Schlüsselidee
hinter [14] ist, den Baum in eine Menge knoten-disjunkter Wege aufzuteilen,
sogenannte solid paths (feste Wege), die nunmehr mit gestrichelten
Kanten verbunden sind, um den Originalbaum zu bilden.
-
Feste
Wege werden repräsentiert
als selbst-regelnde binäre
Suchbäume,
die sogenannten splay trees. Grundlegendes und Weiterführendes
dazu, wie Datenstrukturen und Operationen, sind in [14] beschrieben.
-
Berechnungskomplexität von Einfügeabfragen
und Kantenhinzufügung
-
Um
Einfügeabfragen
(kann Kante (u, v) in den aktuellen Graphen G eingefügt werden?)
schnellstmöglich
ausführen
zu können,
wird folgende Information behalten:
Jeder (maximale) Teilgraph
C des Graphen G ist als Vektor bestehend aus Einsen und Nullen abgespeichert. Dabei
stellen die Einsen Elemente des Teilgraphen C dar.
-
Das
ermöglicht
eine Überprüfung von
v ∈ C
mit O(1)-Operationen.
-
Ebenso
enthält
eine Gewichtsmatrix W der Größe n × n die
Gewichte zwischen jedem Paar von Teilgraphen so, dass Kantengewichte
durch O(1)-Operationen in Abfrage(u, v) abgeleitet werden können.
-
Der
Verbindungsbaum ist als splay tree repräsentiert, dadurch kann nach
den nächsten
Teilgraphen Cu, Cv mittels
binärer
Suche in O(log n) gesucht werden. Die Suche nach der Minimalkante
e auf dem Weg von Cu nach Cv erfordert
O(log2 n)-Operationen [14, 11].
-
Die
Frage, ob eine Kante (u, v) eingefügt werden kann, ist also mit
O(log2n)-Operationen zu beantworten. Die
Einfügung
selbst erfordert O(n)-Operationen, wohingegen die Kosten zur Erstellung
eines neuen Teilgraphen Cw durch einen O(n)-Term
dominiert werden. Die Aktualisierung der Gewichtsmatrix W kann ebenfalls in
O(n) absolviert werden.
-
Ausführungsgemäße Strukturerkennung an Beispielen
-
Spieldaten (1)
-
In
einer ersten beispielhaften Anwendung des ausführungsgemäßen Strukturerkennungsverfahren wird
(anhand von Spieldaten) gezeigt, dass die ausführungsgemäße Strukturerkennung tatsächlich die
wahre Struktur über
echten Daten abdecken kann.
-
Dazu
werden 50 Stichproben aus einem zerlegbaren Modell genommen, bei
dem jeder Teilgraph durch ein zufällig initialisiertes Gaußsches Mischmodell
mit 10 Komponenten modelliert wird (mit gesicherter Konsistenz zwischen
den einzelnen Teilgraphen).
-
In 1 ist
der Modellscore L(D|K, S), wie in Gl. (5) definiert, in seiner Abhängigkeit
von steigender Kantenzahl aufgetragen.
-
Im
Ergebnis steht, dass der Algorithmus die tatsächliche Struktur des erzeugenden
zerlegbaren Modells abdeckt, wenn L(D|K, S) sein Maximum erreicht.
-
Boston Housing Data (2)
-
In
einer zweiten beispielhaften Abwendung werden die Boston Housing
Data benutzt, die 506 Stichproben von Unterkunftspreisen enthält sowie
13 andere Variablen, von denen ein Einfluss auf die Preise für Unterkunft
in der Bostoner Nachbarschaft anzunehmen ist.
-
Die
gefundene Struktur ist, zusammen mit einer Erläuterung der Variablen, in 2 dargestellt.
-
Die
vier Kanten mit den höchsten
Scores, vgl. Gl. (6), wurden ebenso mithilfe des Markovschen Deckenmodells über denselben
Daten gefunden [10].
-
Die übrigen Kanten
stellen Abhängigkeiten
höherer
Ordnung dar, die aus der Kovarianzmatrix der Daten nicht direkt
ersichtlich sind.
-
Microarray-Daten (3)
-
In
einer dritten beispielhaften Anwendung wird das erfindungsgemäße Strukturerkennungsverfahren an
Daten aus Microarraymessungen (Expressionsmusterdaten) getestet.
-
Die
Daten, die für
die Analyse gemäß diesem
Ausführungsbeispiel
verwendet werden, bestehen aus 327 Stichproben von verschiedenen
Untertypen von pädiatrischer
akuter Lymphoblasten-Leukämie (ALL)
[4].
-
Der
Datensatz wurde von Yeoh und seinen Kollegen vom St. Jude Children's Research Hospital
[4] zusammengestellt.
-
ALL
ist eine heterogene Krankheit, die verschiedene Untertypen umfasst,
einschließlich
sowohl Leukämie
vom T-Zelltyp als auch Leukämie
vom B-Zelltyp, die sich hinsichtlich ihrer Reaktion auf eine medizinische Behandlung
deutlich unterscheiden.
-
Abgesehen
von T-ALL, deren Ursache noch nicht klar bekannt ist, kann jeder
B-Zellen-Untertyp auf eine spezifische genetische Veränderung
zurückgeführt werden,
z. B. auf genetische Translokationen t(9;22) [BCR-ABL], t(1;19)
[E2A-PBX1], t(12;21) [TEL-AML1], t(4;11) [MLL] oder auf einen hyperdiploiden
Karyotyp [> 50 Chromosomen].
-
Daher
ist es nicht verwunderlich, dass Expressionsmuster der verschiedenen
Untertypen recht deutlich voneinander unterscheiden.
-
Ferner
zeigen Microarray-Daten noch ein anderes deutliches Expressionsprofil,
welches auf die Existenz eines weiteren ALL-Untertyps zusätzlich zu
den 6 bekannten hindeutet.
-
Für die Analyse
gemäß dem Ausführungsbeispiel
wird der reduzierte Datensatz von 271 Genen und 327 Stichproben
von verschiedenen ALL-Untertypen [4], wie oben beschrieben, verwendet.
-
Dazu
wurde aus 12.000 gemessenen Genen eine Teilmenge von 271 ausgewählt, die
laut [4] die einzelnen Gruppen am besten definieren.
-
Die
Knoten 310 der erkannten Struktur (3, 300)
repräsentieren
einzelne Gene 311. Statistische Abhängigkeiten, die durch Kanten
320 dargestellt werden, spiegeln biologische Wechselwirkungen zwischen den
Genen 311, 310 wider und können
Indikatoren für
eine direkte Regulierung der Transkription zwischen ihnen sein.
-
Die
gefundene Netzwerktopologie 300 zeigt wenige hochgradig zusammenhängende Gene,
bei denen die meisten Kanten zu Genen eines für den Subtyp typischen Clusters
führen.
-
Das
Gen PSMD10 (Affymetrix-ID 37350 at, in der Mitte der Abbildung)
ist wie 3 entnehmbar ist mit einer großen Anzahl
anderer Gene verbunden.
-
Betrachtet
man (3) eines dieser hochgradig zusammenhängenden
Gene, sind also die meisten Gene konditional unabhängig voneinander.
-
Das
bedeutet biologisch, dass das Expressionsverhalten vieler Gene lediglich
von wenigen Gene abhängt.
Dies – zusammen
mit der hohen Cliquishness – ist
eine typische Eigenschaft skalenfreier Netzwerke.
-
Es
scheint sich also zu bestätigen,
dass speziell zerlegbare Modelle mit ihrer inhärenten Teilgraphenstruktur
gut geeignet sind, die Struktur genetischer Netzwerke bzw., allgemeiner
gesprochen, skalenfreier Netzwerke zu erkennen [15, 12].
-
Weiter
zeigt die ausführungsgemäße Anwendung
(3), dass die meisten der hochgradig zusammenhängenden
Gene entweder als Gene mit einer onkogenen Charakteristik – es ist
beispielweise bekannt, dass das hochgradig zusammenhängende Gen
PSMD10 (Affymetrix-ID 37350-at, in der Mitte
der Abbildung) bei zellulären
Deregulierungen beteiligt ist, die zu Onkogenese führen – oder aber
als in biologisch kritischen Prozessen wie DNS-Reparatur oder Proteolyse
beteiligte Gene bekannt sind.
-
Somit
kann aus dem Modell auf seine Wichtigkeit für die Stabilität der Zellfunktion
geschlossen werden.
-
In
der Tat ist PSMD10 eine regulatorische Untereinheit des Proteasoms
26S, eines Proteinkomplexes, welcher – in Übereinstimmung mit der Topologie
des Modells – eine
große
Familie an Proteinen, die für
Zerstörung
markiert ist, abbaut und so hilft, den Proteindurchsatz in eukaryotischen
Zellen zu regulieren.
-
Seine
entscheidende Bedeutung für
die normale Zellfunktion ist also bereits bekannt. Insbesondere weiß man, dass
eine Fehlfunktion von PSMD10 eine fehlerhafte Regulierung einer
großen
Zahl intrazellulärer Proteine,
die für
Zellteilung, Tumorwachstum und Tumorüberleben verantwortlich sind
und welche in Krebszellen funktional verändert werden, zur Folge hat.
-
Tatsächlich haben
jüngste
Forschungen ergeben, dass der Weg hin zu PSMD10 oft das Ziel einer
Deregulierung im Zusammenhang mit Krebserkrankungen ist und solchen
Prozessen wie onkogener Transformation oder Tumorprogression zugrunde
liegen kann.
-
Zusammenfassung
der Anwendungsbeispiele
-
Bei
den beschriebenen Anwendungsbeispielen wurde eine neue, ausführungsgemäße Vorgehensweise
zur Strukturerkennung mittels zerlegbarer graphischer Modelle auf
stetigen Variablen bzw. aus Datenmengen mit stetigen Variablen angewandt.
-
Hier
soll darauf hingewiesen werden, dass die Anwendung der ausführungsgemäßen Vorgehensweise nicht
auf beschriebene Anwendungen beschränkt ist, sondern sich, wie
auch erfindungsseitig vorgeschlagen wird, auf beliebige Daten anwendbar
ist.
-
Basis
dieser Vorgehensweise ist die Strukturerkennung und Modellierung
von Daten durch ein zerlegbares Modell, wobei stetige Variable durch
Knoten des Modells symbolisiert werden. Regelungsmechanismen werden
durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale
Art und Weise interpretiert werden können.
-
Die
Besonderheit der erfinderischen Vorgehensweise liegen in Kerndichtemodellen
für Teilgraphendichten
sowie einer effizienten Prüfung
auf Zerlegbarkeit beim Hinzufügen
von Kanten.
-
Diese
Methode erlaubt, direkt von stetigen Datenmengen auszugehen, d.h.
ohne dass eine Diskretisierung notwendig wäre, kann diese doch möglicherweise
bereits die Abhängigkeitsstrukturen
modifizieren.
-
Durch
die Verwendung von Kernschätzungen
bei der Modellierung von Teilgraphendichten (Parzendichte) können allgemeine
Ver teilungen bearbeitet werden. Außerdem ermöglicht die Vorgehensweise eine Modellauswahl
mittels Vorausbewertung und sichert automatisch konsistente Teilgraphendichten.
-
Die
Strukturerkennung erfolgt durch Vorwärtsselektion mit einem hoch
effizienten Algorithmus, der prüft,
ob eine bestimmte Kante ohne Verlust der Zerlegbarkeit (Chordalität) des Modells
hinzugefügt
werden können.
-
Die
Vorgehensweise bei dem erfindungsgemäßen Strukturerkennungsverfahren
wurde beschrieben anhand von Spieldaten, von Boston housing data
sowie einer großen
Datenmenge zu Genexpression mit insgesamt 271 Variablen.
-
Dort
ist es insbesondere mit der erkennten Struktur bzw. mit dem dabei
gebildeten Modell möglich,
Gene, die eine potenzielle Ursache für eine Tumorgenese sind, durch
Analysieren der Zusammenhänge
zwischen Microarray-Daten von Leukämie-Untertypen und einem Datensatz, der
Ergebnis einer Stichprobenentnahme aus dem erzeugten Modell ist,
zu identifizieren.
-
Insgesamt
zeigt die Anwendung der erfinderischen Strukturerkennung auf die
Spieldaten, der Boston housing data sowie Genexpressionsdaten, dass
die Strukturerkennungsmethode vernünftige Strukturen findet.
-
So
sind die meisten gefundenen Kanten sind recht robust und unempfindlich
gegen geringe Modifikationen der Datenbasis.
-
In
diesem Dokument sind folgende Schriften zitiert:
- [1]
Stetter Martin et al., Large-Scale Computational Modeling of Generic
Regulatory Networks, Kluwer Academic Publisher, Niederlande, 2003;
- [2] Offenlegungsnummer DE
10159262.0 ;
- [3] F. W. Jensen, F. V. (1996), An introduction to Bayesian
networks, UCL Press, London; 178 pages;
- [4] E.-J. Yeoh, M. E. Ross, S. A. Shurtleff, W. K. Williams,
D. Petal et al. (2002), Classification, subtype discovery, and prediction
of outcome in pediatric acute lymphoblastic leukemia by gene expression
profiling. Cancer cell 1:133-143;
- [5] D. Heckerman, D. Geiger and D. Chickering (1995), Learning
Bayesian networks: The combination of knowledge and statistical
data, Machine Learning 20:197-243;
- [6] Cowell, R.G.; Dawid, A.P.; Lauritzen, S.L. and Spiegelhalter,
D.J. (1999): Probabilistic Networks and Expert Systems. Statistics
for Engineering and Information Sciences, Springer
- [7] Friedman, N. und Nachman, I. (2000): "Gaussian process networks." in: Proceedings
of UAI 2000, 5.211-219, Morgan Kaufmann
- [8] Giudici, P. und Green, P.J. (1999): "Decomposable graphical Gaussian model
determination" in:
Biometrika, 86, S.785-801
- [9] Heckerman, D. (1998): "A
tutorial on learning with Bayesian networks" in: M.I.Jordan [Hg.]: Learning in Graphical
Models, MIT Press
- [10] Hofmann, R. und Tresp, V. (1998): "Nonlinear Markov networks for continuous
variable" in: M.I.Jordan, M.J.Kearns
and S.A.Solla [Hgs.]: Advances in Neural Information Processing
Systems 10, MIT Press
- [11] Ibarra, L. (2000): Fully dynamic algorithms for chordal
graphs and split graphs, Tech.Rep. DCS-262-IR, Dept. of Computer
Science, University of Victoria, CA
- [12] Jeong, H.; Mason, S.; Barabási, A.-L. and Oltvai, Z.N.
(2001): "Lethality
and centrality in protein networks" in: Nature, 411, 5.41-42
- [13] John, G.H. und Langley, P. (1995): "Estimating continuous distributions
in Bayesian classifiers" in:
P.Besnard und S.Hanks [Hgs.]: Proceedings of UAI 95, S.338-345,
Morgan Kaufmann
- [14] Sleator, D.D. und Tarjan, R.E. (1985): "Self-adjusting binary search trees", in: Journal of
the ACM, 32(3), 5.652-686
- [15] Watts, D.J. und Strogatz, S.H. (1998): "Collective dynamics of 'small-world' networks" in: Nature, 393, 5.440-442
- [16] Whittaker, J. (1990): Graphical Models in Applied Multivariate
Statistics, Wiley Series in Probability and Mathematical Statistics,
John Wiley&Sons