DE102007044380A1

DE102007044380A1 - Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes

Info

Publication number: DE102007044380A1
Application number: DE102007044380A
Authority: DE
Inventors: Mathäus Dr. Dejori; Andreas Nägele; Martin Dr. Stetter
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-09-17
Filing date: 2007-09-17
Publication date: 2009-03-19

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes mit einem Datensatz aus gemessenen und/oder experimentell ermittelten und/oder empirischen Daten. Mit dem erfindungsgemäßen Verfahren kann in robuster Weise eine näherungsweise Berechnung der Graphstruktur auch sehr großer Beziehungsnetzwerke durchgeführt werden. Dies wird dadurch erreicht, dass in dem Verfahren kleinere Substrukturen des probabilistischen Netzes gelernt werden, wobei diese gelernten Teilnetzwerke anschließend geeignet zu einer Graphstruktur für das gesamte Netz kombiniert werden können. Mit dem erfindungsgemäßen Verfahren können beliebige Datensätze aus unterschiedlichsten Gebieten gelernt werden. In einer bevorzugten Variante werden mit dem Verfahren biomedizinische Daten gelernt, insbesondere Genexpressionsmuster, welche beispielsweise aus Mikroarray-Experimenten stammen. Diese Datensätze sind häufig sehr groß und enhalten oftmals Messwerte von 10000 bis 50000 Genen gleichzeitig. Mit dem Verfahren kann, basierend auf solchen Datensätzen, das Geflecht von Gen-Gen-Interaktionen extrahiert werden, wobei auf der Basis eines mit solchen Daten gelernten Netzes die für eine Krankheit relevanten Gene identifiziert werden können. Andere Anwendungsbereiche der Erfindung betreffen das Lernen eines Netzes, basierend auf Daten aus einem technischen System, z. B. einem Automatisierungssystem, einem Energieerzeugungssystem oder einem Kommunikationsnetz. Für ...

Description

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes aus einem Datensatz mit gemessenen und/oder experimentell ermittelten und/oder empirischen Größen.
In der modernen Informationstechnologie werden Abläufe immer komplexer und zunehmend miteinander verwoben. In der Regel wird zur Beschreibung eines Ablaufs eine Vielzahl von Messgrößen benötigt, welche experimentell und/oder empirisch ermittelt wurden. Beispielsweise werden in einem Krankenhaus von vielen Patienten oft hunderte bis tausende klinische, physiologische oder histologische Befunde erhoben, wobei zwischen den einzelnen Daten Abhängigkeiten bestehen, die aufgrund der Menge der Daten keine aus sich heraus ersichtliche Abhängigkeitsstruktur zeigen. Hierzu ist es notwendig, dass eine Vielzahl von Daten verschiedener Patienten ausgewertet und verglichen werden. In der pharmazeutischen Wirkstoffforschung werden oftmals Momentaufnahmen zellulärer Zustände mit DNA-Chips in Microarray-Experimenten gemessen. Als Ergebnis erhält man dabei Messwerte für die momentane Gen-Expression von 10000 bis 50000 Genen gleichzeitig. Um aus diesen Daten das größtenteils unbekannte Geflecht von Gen-Gen-Interaktionen zu extrahieren, werden effiziente rechnergestützte Verfahren mit möglichst geringem Rechenaufwand benötigt.
Die Erfindung kann neben den oben beschriebenen biomedizinischen Anwendungsbeispielen auch in beliebigen anderen Bereichen eingesetzt werden, in denen große Mengen an Messwerten auftreten. Insbesondere eignet sich die Erfindung zur Verwendung in technischen Systemen, welche z. B. industrielle Produktionsabläufe steuern. Auch hier sind aufgrund der großen Menge an Messwerten keine Abhängigkeiten zwischen den einzelnen Messgrößen aus sich heraus ersichtlich. Technische Syste me, in denen die Erfindung eingesetzt werden kann, sind insbesondere Automatisierungssysteme, z. B. Fertigungsstraßen, Energieerzeugungssysteme, beispielsweise Kraftwerke, oder Kommunikationsnetze.
Aus dem Stand der Technik sind verschiedene Verfahren bekannt, aus denen das Beziehungsgeflecht aus einer Vielzahl von Daten gelernt wird. Diese Verfahren beruhen auf probabilistischen Netzen, welche eine gerichtete Graphstruktur mit einer Vielzahl von Knoten und gerichteten Kanten zwischen den Knoten umfassen, wobei die Knoten Variablen des Datensatzes und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren. Diese Abhängigkeiten werden durch Parameter von Wahrscheinlichkeitsverteilungen bzw. Wahrscheinlichkeitstabellen beschrieben. Mit geeigneten scorebasierten bzw. testbasierten Lernverfahren können basierend auf dem Datensatz dann die Struktur und die Parameter des Netzes gelernt werden. Mit Hilfe der gelernten Netze können dann weitere Datensätze generiert werden bzw. entsprechende Szenarien simuliert werden, beispielsweise können bestimmte Variablen auf vorbestimmte Werte gesetzt werden und anschließend das Verhalten der Netze untersucht werden.
Die gängigen Verfahren zum rechnergestützten Lernen von probabilistischen Netzen weisen den Nachteil auf, dass der Rechenaufwand zum Lernen der Netze oft sehr hoch ist und sich die Verfahren nicht für Datenräume mit mehreren tausenden Variablen eignen. Bislang wurde deshalb die Dimension des Datenraums soweit reduziert, bis ein Teilraum entsteht, auf dessen Basis die Lernverfahren mit akzeptablem Rechneraufwand durchgeführt werden können. Bei Genexpressions-Daten werden beispielsweise aus mehreren 10000 Genen einige 10 bis 100 Gene zur Erzeugung des Netzwerks ausgewählt. Alle anderen Variablen werden als sog. versteckte Variable behandelt. Es wird hierbei angenommen, dass die versteckten Variablen keinen Einfluss auf das betrachtete verkleinerte Netz haben, was jedoch nicht immer der Fall ist. Ferner können keine Aussagen über die Rolle der versteckten Variablen im Beziehungsgeflecht gemacht werden.
Aufgabe der Erfindung ist es deshalb, ein Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes zu schaffen, welches mit geringem Aufwand das Lernen einer Netzstruktur mit einer großen Anzahl an Variablen ermöglicht.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
Das erfindungsgemäße Verfahren dient zum Lernen eines probabilistischen Netzes aus einem Datensatz mit entsprechenden gemessenen bzw. experimentell ermittelten bzw. empirischen Größen, wobei das probabilistische Netz eine gerichtete Graphstruktur mit einer Vielzahl von Knoten und gerichteten Kanten zwischen den Knoten umfasst, wobei die Knoten Variablen des Datensatzes und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren, wobei die Abhängigkeiten durch Parameter von Wahrscheinlichkeitsverteilungen beschrieben werden.
In dem erfindungsgemäßen Verfahren wird in einem Schritt a) aus dem Datensatz die Struktur eines ungerichteten Graphen umfassend Knoten und ungerichtete Kanten zwischen Knoten gelernt. Aus dem ungerichteten Graphen wird in einem Schritt b) für jede Variable ein ungerichteter Teilgraph erzeugt, der Knoten und ungerichtete Kanten zwischen den Knoten in der Umgebung der jeweiligen Variablen umfasst. Auf diese Weise werden Substrukturen aus dem ursprünglichen ungerichteten Graphen extrahiert. Anschließend werden in einem Schritt c) aus jedem ungerichteten Teilgraphen unabhängig von den anderen ungerichteten Teilgraphen die Struktur und Parameter eines gerichteten Teilgraphs mit Knoten und gerichteten Kanten zwischen Knoten gelernt. Alternativ oder zusätzlich können auch die Struktur und Parameter eines Teilgraphen eines probabilistischen Modells gelernt werden, z. B. eines Decomposable Models. Bei diesem Lernen wird vorzugsweise die ungerichtete Struktur der Teilgraphen dadurch berücksichtigt, dass der erzeugte gerichtete Teilgraph nur Knoten enthalten darf, welche in dem entsprechenden ungerichteten Teilgraphen als Konten vorhanden sind, und dass der gerichtete Teilgraph nur gerichtete Kanten enthalten darf, welche in dem entsprechenden ungerichteten Teilgraphen als ungerichtete Kanten vorhanden sind.
Durch das separate Lernen von verkleinerten Substrukturen in der Form von ungerichteten Teilgraphen wird der Rechenaufwand des Lernverfahrens deutlich gegenüber dem Lernen eines Gesamtgraphen reduziert. Dennoch wird mit einem solchen, aus gerichteten Teilgraphen bestehenden probabilistischen Netz sehr gut das zu Grunde liegende Beziehungsgeflecht zwischen den Variablen beschrieben, wie die Erfinder anhand von Tests mit Benchmark-Netzen nachweisen konnten.
Zum Lernen der Struktur des ungerichteten Graphen in Schritt a) können beliebige, aus dem Stand der Technik bekannte Verfahren eingesetzt werden. Insbesondere können testbasierte Lernverfahren verwendet werden, beispielsweise ein statistischer Unabhängigkeitstest und/oder der PC-Algorithmus und/oder der TPDA-Algorithmus. In einer bevorzugten Variante wird als testbasiertes Lernverfahren ein Verfahren verwendet, welches in der Druckschrift [1] beschrieben ist, deren gesamte Offenbarung durch Verweis zum Inhalt der vorliegenden Anmeldung gemacht wird.
Das in der Erfindung verwendete testbasierte Lernverfahren ist vorzugsweise derart ausgestaltet, dass für jede Variable folgende Schritte durchgeführt werden:

i) es werden solche, von der jeweiligen Variablen bedingt abhängige Variablen zu einem Kandidatensatz von Variablen hinzugefügt, welche eine vorgegebene heuristische Funktion erfüllen;
ii) es werden aus dem Kandidatensatz solche Variablen entfernt, welche bedingt unabhängig von der jeweiligen Va riablen gegeben einer Untermenge von Variablen des Kandidatensatzes sind.

Die heuristische Funktion in Schritt i) ist vorzugsweise derart festgelegt, dass diejenige Variable dem Kandidatensatz als nächstes hinzugefügt wird, welche die geringste bedingte Abhängigkeit von der jeweiligen Variablen getestet für alle möglichen Teilmengen an Variablen des Kandidatensatzes maximiert.
Nach der Durchführung der obigen Schritt i) und ii) für eine jeweilige Variable werden schließlich gerichtete Kanten zwischen der jeweiligen Variablen und den Variablen des Kandidatensatzes erzeugt.
Um aus der Struktur des ungerichteten Graphen ungerichtete Teilgraphen zu extrahieren, wird in einer bevorzugten Ausführungsform in Schritt b) für eine jeweilige Variable eine lokale Struktur innerhalb des ungerichteten Graphen festgelegt, wobei die lokale Struktur als Knoten die jeweilige Variable, die Nachbarn der jeweiligen Variablen und gegebenenfalls die Nachbarn höheren Grades, d. h. die Nachbarn dieser Nachbarn und gegebenenfalls weitere Nachbarn von Nachbarn, sowie die ungerichteten Kanten zwischen diesen Knoten umfasst, wobei die lokale Struktur den ungerichteten Teilgraphen der jeweiligen Variablen darstellt.
In einer bevorzugten Variante des erfindungsgemäßen Verfahrens wird in Schritt c) zum Lernen der Struktur und Parameter eines gerichteten Teilgraphen ein scorebasiertes Lernverfahren verwendet, bei dem unter Berücksichtigung einer Bewertung nach einem gerichteten Teilgraphen gesucht wird. Scorebasierte Lernverfahren sind hinlänglich aus dem Stand der Technik bekannt und die Vorgehensweise des scorebasierten Lernens wird nochmals in der detaillierten Beschreibung kurz umrissen. Vorzugsweise wird hierbei ein scorebasiertes Lernverfahren verwendet, welches einen heuristischen Suchalgorithmus, beispielsweise den Greedy-Algorithmus, zur Suche nach einem gerichteten Teilgraphen verwendet.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens können zur Reduzierung der Größe des jeweiligen gerichteten Teilgraphen nach dem Lernen des gerichteten Teilgraphen in Schritt c) diejenigen Knoten (und die mit diesen verbundenen Kanten) aus dem gerichteten Teilgraphen entfernt werden, welche nicht zum Markov-Blanket gehören. Das Markov-Blanket ist eine dem Fachmann hinlänglich bekannte Größe. Insbesondere ist das Markov-Blanket einer Variablen die kleinste Teilmenge von Variablen, welche diese Variable unabhängig von allen anderen Variablen macht.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird zur Darstellung einer geeigneten Graphstruktur aus den in Schritt c) erzeugten gerichteten Teilgraphen, vorzugsweise nach der Entfernung von nicht zu Markov-Blanket gehörenden Knoten, ein fPDAG-Graph erzeugt (fPDAG = feature Partial Directed Acyclic Graph), indem aus den gerichteten Teilgraphen für jede auftretende Kante die Wahrscheinlichkeiten ermittelt werden, in welche Richtung die Kante gerichtet ist. Vorzugsweise werden ferner die Wahrscheinlichkeiten ermittelt, dass der Kante keine Richtung zugeordnet werden kann bzw. dass überhaupt keine Kante vorliegt. Die Struktur und Erzeugung von fPDAG-Graphen ist hinlänglich aus dem Stand der Technik bekannt und wird deshalb an dieser Stelle nicht näher erläutert.
Mit dem erfindungsgemäßen Verfahren können beliebige probabilistische Netze gelernt werden, insbesondere eignet sich das Verfahren zum Lernen eines Bayesianischen Netzes. Ebenso können beliebige Arten von Daten mit dem Verfahren gelernt werden. Der Datensatz kann beispielsweise biologische und/oder medizinische und/oder biomedizinische Daten umfassen, insbesondere Genexpressionsmuster und/oder das Auftreten von Krankheiten und/oder klinische Daten und/oder Lebensgewohnheiten von Patienten und/oder Vorerkrankungen von Patienten.
Ebenso kann der Datensatz Daten aus einem technischen System, insbesondere aus einem Automatisierungssystem und/oder einem Energieerzeugungssystem und/oder einem Kommunikationsnetz, umfassen.
Mit dem oben beschriebenen, mit dem erfindungsgemäßen Verfahren gelernten probabilistischen Netz können anschließend Daten simuliert werden, wobei mit Hilfe eines Gibbs-Samplers aus den gerichteten Teilgraphen und/oder Teilgraphen des probabilistischen Modells Datensätze generiert werden. Der Gibbs-Sampler ist aus dem Stand der Technik bekannt und es kann gezeigt werden, dass mit einem solchen Sampler auch mit den erfindungsgemäß erzeugten Netzen, in denen Teilgraphen überlappen können, geeignete Daten generiert werden können. Insbesondere können mit Hilfe des Gibbs-Samplers auch Interventionen simuliert werden, indem eine oder mehrere Variablen auf einen festen Wert gesetzt werden.
Neben dem erfindungsgemäßen Verfahren betrifft die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung jeder beliebigen Variante des oben beschriebenen Verfahrens, wenn das Programm auf einem Rechner abläuft.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
Es zeigen:
1 eine schematische Darstellung, welche das gemäß der Erfindung durchgeführte Lernen von Teilgraphen verdeutlicht; und
2 eine Tabelle, welche anhand von Testdatensätzen das erfindungsgemäße Verfahren mit einem Verfahren aus dem Stand der Technik vergleicht.
Das erfindungsgemäße Verfahren wird nachfolgend an dem Beispiel eines Bayesianischen Netzes erläutert, bei dem es sich um ein häufig eingesetztes graphisches Modell handelt, welches Abhängigkeiten zwischen einem Satz von Zufallsvariablen auf probabilistische sowie graphentheoretische Weise beschreibt. Zum besseren Verständnis wird zunächst das aus dem Stand der Technik bekannte Lernen von solchen Bayesianischen Netzen erläutert. Bayesianische Netze werden verwendet, um eine Gesamtwahrscheinlichkeitsverteilung von n Zufallvariablen X = {X₁, X₂, X₃, ..., X_n} zu beschreiben. Ein Bayesianisches Netz B = (B₄, Θ) besteht aus zwei Teilen. Der erste Teil ist die Netzstruktur, welche ein gerichteter azyklischer Graph G ist, der auch als DAG-Graph (DAG = Directed Acyclic Graph) bezeichnet wird. In dem Graphen wird jede Variable X_i durch einen Knoten repräsentiert und die Kanten in dem DAG-Graphen repräsentieren statistische Abhängigkeiten zwischen den Variablen. Der zweite Teil eines Bayesianischen Netzes ist ein Parametersatz, der als Θ bezeichnet ist. In dem DAG-Graphen sind Unabhängigkeits-Aussagen codiert und die Gesamtwahrscheinlichkeitsfunktion über X kann in folgendes Produkt zerlegt werden:
wobei Pa_i die Eltern der Variablen X_i in dem DAG-Graphen G sind.
Bayesianische Netze dienen dazu, aus bekannten Datensätzen mit einer Vielzahl von Daten Zusammenhänge abzuleiten, die zwischen den einzelnen Variablen in dem Datensatz enthalten sind. Ausgehend von einem Datensatz D werden diese Zusammenhänge durch Lernen der Struktur und der Parameter des Bayesianischen Netzes in dem Netz codiert. Die Aufgabe des Lernens eines Bayesianischen Netzes kann wie folgt beschrieben werden: Ausgehend von einem Datensatz D = (d¹, ..., d^N) mit N unterschiedlichen unabhängigen Beobachtungen, wobei jeder Datenpunkt d1 = (dl1 , ..., dln ) eine Beobachtung von allen n Variablen ist, wird nach der Graphstruktur G und den Parametern Θ gesucht, welche am Besten den Datensatz D wiedergeben. Die Suche erfolgt durch die Maximierung einer Score-Funktion p(G|D) = p(D|G)p ( ( G)p(D) G) (2)wobei p(G) die A-Priori-Wahrscheinlichkeit für die Struktur ist, p(D) eine Normalisierungskonstante ist und p(D|G) die Randwahrscheinlichkeit von D gegeben den Modellgraph G ist.
Unter der Verwendung einer einheitlichen A-Priori-Wahrscheinlichkeit über alle möglichen Netzstrukturen kann das Lernproblem reduziert werden auf die Suche derjenigen Struktur mit der besten Randwahrscheinlichkeit: p(D|G) = ∫p(D|G,Θ)p(Θ|G)dΘ (3)wobei p(D|Θ,G) die Wahrscheinlichkeit des Datensatzes D gegeben das Bayesianische Netz (G, Θ) ist und wobei p(Θ|G) die A-Priori-Wahrscheinlicheit für die lokalen Wahrscheinlichkeitsverteilungen Θ des Bayesianischen Netzes mit der Struktur G bezeichnet.
Das soeben beschriebene Lernverfahren ist allgemein auch als scorebasiertes Verfahren bekannt, da die DAG-Graphen durch ihren Score bewertet werden. Es können hierbei verschiedene Arten von Scores verwendet werden. Aus dem Stand der Technik sind unterschiedliche Scores bekannt, wie z. B. der BDe-Score. Statt einem scorebasierten Verfahren sind zum Lernen von Bayesianischen Netzen auch testbasierte Verfahren bekannt, welche im Englischen als „constraint-based methods" bezeichnet werden. Statt der Suche nach dem DAG-Graphen mit dem besten Score wird hierbei das Netz über die Durchführung von bedingten Unabhängigkeitstests auf den Daten rekonstruiert. Es sind eine Vielzahl von unterschiedlichen testbasierten Verfahren bekannt, z. B. der PC-Algorithmus oder der TPDA-Algorithmus.
In der nachfolgend beschriebenen Ausführungsform der Erfindung werden testbasierte Verfahren zum Lernen eines sog. Skeletts eines Bayesianischen Netzes eingesetzt, und scorebasierte Verfahren werden anschließend zum Lernen von Teilgraphen dieses Skeletts verwendet. Bei dem Skelett eines Bayesianischen Netzes handelt es sich um einen Graphen, der ausschließlich ungerichtete Kanten zwischen Knoten aufweist.
Das Lernen des ungerichteten Graphen aus den Datensätzen erfolgt in der hier beschriebenen Ausführungsform mit einem testbasierten Verfahren, welches in der Druckschrift [1] beschrieben ist. Das Verfahren verwendet einen Algorithmus, der nachfolgend als MMPC (MMPC = Max-Min Parents and Children) bezeichnet wird. Der MMPC-Algorithmus ist ein lokaler Suchalgorithmus, um den Satz von Eltern und Kindern PC_i einer Variablen X_i zu beurteilen. Dabei können in einer ersten Phase Variablen, die bedingt von der Variablen X_i abhängen, einem Kandidatensatz der Eltern und Kinder der Variablen hinzugefügt werden, und zwar gemäß einer heuristischen Funktion, welche als Max-Min-Heuristik bezeichnet wird. Gemäß dieser Funktion wird eine Variable als nächstes dem Kandidatensatz hinzugefügt, wenn die Variable die minimale Assoziation zu X_i gegeben den momentanen Kandidatensatz maximiert. Hierbei ist die minimale Assoziation definiert als die minimale bedingte Abhängigkeit zwischen einer Variablen und X_i, getestet für alle möglichen Untermengen des momentanen Kandidatensatzes. Dies bedeutet, dass diejenige Variable dem Kandidatensatz hinzugefügt wird, welche mit der geringsten Wahrscheinlichkeit bedingt unabhängig von X_i ist. Die Erzeugung eines Kandidatensatzes wird beendet, wenn alle abhängigen Variablen dem Kandidatensatz zugefügt wurden.
In einer zweiten Phase werden falsche positive Variablen entfernt, welche möglicherweise dem Kandidatensatz in der ersten Phase hinzugefügt wurden. Falsche Positive sind solche Variablen, welche unabhängig von X_i gegeben eine Untermenge von allen Variablen sind. Somit werden alle Variablen, welche be dingt unabhängig gegeben eine Untermenge der Kandidaten sind, von dem Kandidatensatz entfernt. In dem Dokument [1] wird gezeigt, dass unter der Annahme der sog. „Faithfulness" der Algorithmus keine falschen Negative zurückgibt. Er gibt auch keine falschen Positiven zurück, falls die PC-Relation symmetrisch gemacht wird, d. h. dass für alle X_j ∊ PC_i getestet wird, ob X_i ∊ PC_j gilt. Falls diese Bedingung nicht erfüllt ist, wird X_j von PC_i entfernt. Nach der Durchführung des obigen Algorithmus für alle Variablen X_i erhält man das Skelett des Bayesianischen Netzes, indem jede Variablen mit allen Mitgliedern ihres Kandidatensatzes verbunden wird. Dieser Graph ist ungerichtet, so dass die Mitglieder in einem Kandidatensatz sowohl Eltern als auch Kinder der jeweiligen Variablen sein können.
Der in dem Dokument [1] beschriebene Algorithmus verwendet anschließend ein scorebasiertes Greedy-Suchverfahren, um die Orientierung der Kanten innerhalb des Skeletts zu lernen. Der Algorithmus zeigt gute Ergebnisse im Hinblick auf die Qualität und die Laufzeit, so lange nicht mehr als einige tausend Variablen verwendet werden. In vielen Gebieten ist es jedoch oftmals wünschenswert, eine höhere Anzahl an Variablen zu verarbeiten. Beispielsweise sind in genetischen regulatorischen Netzwerken ungefähr 30000 Gene als Variablen enthalten. Erfindungsgemäß wurde deshalb ein anderer Ansatz als in dem Verfahren des Dokuments [1] zur Ermittlung der Richtung der Kanten in dem Bayesianischen Netz gewählt. Der in der Erfindung gewählte Ansatz beruht auf einem sog. Substruktur-Lernen, bei dem aus dem Skelett des Bayesianischen Netzes entsprechende Substrukturen extrahiert werden, die anschließend getrennt gelernt werden.
Der Algorithmus zum Substruktur-Lernen wird nunmehr anhand von 1 beschrieben. 1 zeigt ein Skelett SK eines Bayesianischen Netzes, welches beispielsweise mit dem oben erläuterten MMPC-Algorithmus generiert wurde. Das Skelett SK enthält neun Knoten 1 bis 9 sowie ungerichtete Kanten UE zwischen den Knoten, wobei aus Übersichtlichkeitsgründen nur ei ne ungerichtete Kante mit dem Bezugszeichen UE versehen ist. Aus diesem Skelett SK werden nunmehr für jede einzelne Variable 1 bis 9 ungerichtete Teilgraphen als Substrukturen des Skeletts extrahiert. In 1 ist die Extraktion solcher Teilgraphen beispielhaft für die Variablen 1, 5 und 9 gezeigt, wobei der Schritt der Bildung der Substruktur für die Variable 1 durch den Pfeil P1, für die Variable 5 durch den Pfeil P2 und für die Variable 9 durch den Pfeil P3 angedeutet ist. In der hier beschriebenen Ausführungsform des Substruktur-Lernens werden als Substruktur einer jeweiligen Variablen die Nachbarn der jeweiligen Variablen, d. h. die über eine Kante mit der jeweiligen Variablen verbundenen Variablen, sowie die Nachbarn dieser Nachbarn bestimmt. Für die Variable 1 ergibt sich somit eine Substruktur umfassend die Knoten 1, 2, 4, 5 und 7 mit entsprechend dazwischen liegenden Kanten. Für die Variable 5 ergibt sich eine Substruktur umfassend die Variablen 1, 2, 5, 8 und 6 mit dazwischen liegenden Kanten. Für die Variable 9 enthält die entsprechend erzeugte Substruktur die Variablen 3, 6, 8 und 9. Die geeignete Auswahl der Variablen ist hierbei ein wichtiger Schritt, da eine suboptimale Auswahl, bei der in einer Substruktur Variablen fehlen, welche strukturell wichtig sind, zu falschen Positiven sowie falschen Negativen führen kann. Als Ergebnis des Substruktur-Lernens erhält man gemäß 1 einzelne ungerichtete Teilgraphen UPG1, UPG2 und UPG3.
An die Erzeugung der ungerichteten Teilgraphen UPG1, UPG2 und UPG3 schließt sich als weiterer wesentlicher Schritt das Lernen der einzelnen gerichteten Teilgraphen an, wobei jeder Teilgraph unabhängig von den anderen gelernt wird. Als Lernverfahren wird hierbei insbesondere ein scorebasiertes Lernverfahren eingesetzt, welches bereits im Vorangegangenen allgemein mit Bezug auf die Gleichungen (1) bis (3) erläutert wurde. Insbesondere kann hierbei ein heuristischer Suchalgorithmus zum Lernen der einzelnen lokalen Netze eingesetzt werden, beispielsweise der Greedy-Algorithmus. Als Randbedingung ist hierbei jedoch zu berücksichtigen, dass in der gelernten gerichteten Struktur nur solche Kanten auftreten dür fen, welche auch in dem jeweiligen ungerichteten Teilgraphen als ungerichtete Kanten vorhanden sind. Das heißt, eine Kante zwischen zwei Variablen kann während der Suche nach der Netzstruktur nur hinzugefügt werden, falls die Variablen auch in dem entsprechenden Skelett SK miteinander verbunden waren. Nach dem Durchführen des scorebasierten Lernens erhält man schließlich gerichtete Teilgraphen für jede Substruktur, wobei in 1 die aus den einzelnen ungerichteten Teilgraphen UPG1 bis UPG3 generierten gerichteten Graphen PG1, PG2 bzw. PG3 wiedergegeben sind, welche nunmehr gerichtete Kanten E enthalten. Aus Übersichtlichkeitsgründen ist wiederum nur eine der gerichteten Kanten mit dem Bezugszeichen E versehen.
In der hier beschriebenen Variante des erfindungsgemäßen Substruktur-Lernens werden die einzelnen gerichteten Teilgraphen PG1 bis PG3 nochmals modifiziert, um die Qualität des Algorithmus zu verbessern. Die Modifikation besteht hierbei darin, dass alle Knoten und Kanten aus den einzelnen gerichteten Teilgraphen entfernt werden, welche nicht zu dem Markov-Blanket der entsprechenden Variable X_i gehören, aus der die Teilgraphen hervorgegangen sind. Das Markov-Blanket ist ein dem Fachmann hinlänglich bekannter Begriff und ein Markov-Blanket einer Variablen ist die minimale Untermenge von Variablen, welche diese Variable unabhängig von allen anderen Variablen macht. In einem Bayesianischen Netz umfasst ein Markov-Blanket für eine jeweilige Variable die Eltern der Variablen, die Kinder der Variablen sowie die Eltern dieser Kinder. Durch die Begrenzung der einzelnen Teilgraphen auf das Markov-Blanket erhält man modifizierte Substrukturen, welche in 1 als jeweilige Teilgraphen PG1', PG2' und PG3' für die jeweiligen Graphen PG1, PG2 bzw. PG3 wiedergegeben sind. Man erkennt hierbei, dass das Markov-Blanket für PG1 (d. h. für die Variable 1) aus den Knoten 1, 2 und 4, für PG2 (d. h. für die Variable 5) aus den Knoten 2, 5, 8 und 6 und für PG3 (d. h. für die Variable 9) lediglich aus den Knoten 6 und 9 besteht.
Als Ergebnis der hier beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens erhält man somit ein Bayesianisches Netz, welches aus einer Vielzahl von unabhängig gelernten Substrukturen in der Form von gerichteten Teilgraphen besteht. Mit Hilfe dieses Netzes können nunmehr entsprechende Simulationen vorgenommen werden. Insbesondere können neue Datensätze generiert werden bzw. Interventionen simuliert werden, indem die Zustände bestimmter Knoten auf vorbestimmte Werte eingestellt werden. Interventionen sind ein wichtiges Instrument in Bayesianischen Netzen, welche mit Genexpressionsmustern gelernt wurden. In solchen Netzen werden zum Lernen aus Microarray-Experimenten stammenden Expressionsprofile von Genen verwendet, wobei die Expressionen einzelner Gene durch die Zustände „überexprimiert", „unterexprimiert" und „normalexprimiert" ausgedrückt werden. Indem Interventionen dadurch durchgeführt werden, dass einzelne Gene, welche möglicherweise für eine Krankheit relevant sind, auf einen überexprimierten Zustand gesetzt werden, können krankheitsrelevante Genexpressionsprofile simuliert werden und anschließend mit Expressionsprofilen von Patienten verglichen werden, welche eine entsprechend zu untersuchende Krankheit haben. Auf diese Weise können in der biomedizinischen Forschung Zusammenhänge zwischen einzelnen Genen und dem Auftreten von Krankheiten ermittelt werden.
Zur Generierung von Datensätzen aus den einzelnen Substrukturen bzw. zur Durchführung von Interventionen wird vorzugsweise der Gibbs-Sampler verwendet, der hinlänglich aus dem Stand der Technik bekannt ist und deshalb nicht näher erläutert wird. Der Gibbs-Sampler eignet sich sehr gut zur Verwendung in der hier beschriebenen Ausführungsform, da er auf dem Markov-Blanket der einzelnen Substrukturen arbeitet. Üblicherweise wird der Gibbs-Sampler in einem Netz eingesetzt, welches aus nicht-überlappenden Teilstrukturen besteht. In der hier beschriebenen Ausführungsform können die einzelnen ermittelten Substrukturen jedoch miteinander überlappen, wie sich aus 1 ergibt. Dort ist beispielsweise ersichtlich, dass ein Knoten in einem der Teilgraphen PG1' bis PG3' auch in einem anderen Teilgraphen auftreten kann. Beispielsweise ist der Knoten 2 sowohl in dem Teilgraphen PG1' als auch in dem Teilgraphen PG2' enthalten. Das gleiche gilt für den Knoten 6, der sowohl im Teilgraphen PG2' als auch im Teilgraphen PG3' enthalten ist. Es kann jedoch gezeigt werden, dass mit dem Gibbs-Sampler auch für Netze mit überlappenden Substrukturen gute Ergebnisse erzielt werden können.
Um eine einheitliche Repräsentation aller Substrukturen in einem Gesamtnetz zu ermöglichen, kann gegebenenfalls ein sog. fPDAG-Graph aus allen Teilgraphen erzeugt werden. Dieser Graph veranschaulicht die gesamte Bayesianische Netzstruktur, und es können gegebenenfalls auch weitere Eigenschaften des Netzes aus einer solchen Netzstruktur abgeleitet werden, beispielsweise wie viele Kanten von einem Knoten ausgehen bzw. in einem Knoten enden. Die Erzeugung von fPDAG-Graphen ist hinlänglich aus dem Stand der Technik bekannt und wird deshalb nur kurz skizziert. Bei einem fPDAG-Graphen handelt es sich um einen teilweise gerichteten Graphen, bei dem die Kanten Merkmale aufweisen, denen wiederum Konfidenzen zugewiesen sind. Die Merkmale einer Kante zwischen zwei Variablen X_i und X_j werden dabei durch eine Wahrscheinlichkeitsverteilung mit vier Zuständen beschrieben. Es gilt insbesondere: pi↔j = {pi↔j, pi–j, pi←j, pi⊥j}.
Hierbei bezeichnet p_i→j die Wahrscheinlichkeit einer gerichteten Kante von X_i nach X_j, p_i bezeichnet die Wahrscheinlichkeit für eine gerichtete Kante von X_j nach X_i, p_i–j bezeichnet die Wahrscheinlichkeit einer ungerichteten Kante zwischen X_i und X_j, und p_i⊥j bezeichnet die Wahrscheinlichkeit, dass es keine Kante zwischen Variablen X_i und X_j gibt.
Ungerichtete Kanten können deshalb in einem solchen Graphen auftreten, da die Richtung einer Kante mehrdeutig sein kann. Insbesondere ist die Richtung solcher Kanten mehrdeutig, welche nicht zu einer Collider-Struktur gehören, d. h. welche nicht in einem Knoten enden, in dem mehrere Kanten enden.
Die Wahrscheinlichkeitsverteilung p_i↔j wird erfindungsgemäß aus den Substrukturen dadurch ermittelt, dass für Paare von Knoten, welche in mehreren Substrukturen auftreten, die Zustände der entsprechenden Kanten zwischen diesen Paaren bestimmt werden und aus der Häufigkeitsverteilung der Zustände die entsprechende Wahrscheinlichkeitsverteilung der Zustände einer Kante zwischen dem Variablenpaar berechnet wird. Die Konfidenz eines Merkmals einer Kante wird somit als Mittelwert der Konfidenzen in allen n Teilgraphen wie folgt beschrieben:
Hierbei repräsentiert k einen der oben genannten vier Zustände und f_i↔j hat den Wert 1, wenn der entsprechende Zustand einer Kante in der Substruktur B_g auftritt. Ansonsten hat f_i↔j den Wert 0. Die obige Normalisierungskonstante α bezeichnet die Anzahl an Netzwerken, welche eine Aussage über den entsprechenden Zustand einer Kante machen können. Insbesondere ist die Normalisierungskonstante eines Merkmals einer Kante zwischen X_i und X_j die Anzahl an Netzwerken, welche beide Variablen X_i und X_j enthalten, da die anderen Substrukturen keine Information über dieses Merkmal enthalten. Da, wie oben erwähnt, die Richtung von Kanten mehrdeutig sein kann, werden die Merkmale nicht direkt aus der Struktur eines Bayesianischen Netzes, sondern aus der dem Fachmann hinlänglich bekannten PDAG-Repräsentation dieser Netzwerkstruktur berechnet (PDAG = Partial Directed Acyclic Graph).
1 deutet durch entsprechende Pfeile P4, P5 und P6 die Erzeugung eines entsprechenden fPDAG-Graphen B an. Üblicherweise wird in einem solchen Graphen visuell die Konfidenz eines entsprechenden Kanten-Merkmals beispielsweise durch die Dicke der Kante codiert. Aus Übersichtlichkeitsgründen ist eine solche visuelle Codierung nicht in 1 gezeigt. Der fPDAG-Graph des Bayesianischen Netzes stellt dabei einen Gra phen dar, der alle Variablen enthält, welche in dem Bayesianischen Netz vorhanden sind. Jede Kante zwischen zwei Variablen X_i und X_jwird über den entsprechenden Zustand bzw. das Merkmal p_i↔j gewichtet. Anders als bei Bayesianischen Netzen oder PDAG-Graphen ist die Struktur eines fPDAG-Graphen weder eine azyklisch gerichtete noch eine teilweise gerichtete azyklische Graphstruktur. Stattdessen ist der fPDAG-Graph ein gewichteter Graph, der Kanten zwischen in Beziehung stehenden Variablen umfasst, wobei diese Kanten mit entsprechenden Konfidenzen versehen sind.
Es kann gezeigt werden, dass der Aufwand des im Vorangegangenen beschriebenen Verfahrens polynomiell in der Anzahl der Variablen ist, da die Bestimmung des Skeletts des Bayesianischen Netzes in der Regel polynomielles Laufzeitverhalten besitzt. Die Bestimmung der einzelnen Substrukturen weist eine Komplexität von O(nm²) auf, wobei m die maximale Größe einer Substruktur bezeichnet. Das heißt, bei einer festen maximalen Größe der Substrukturen hat der Algorithmus lineare Laufzeit in der Anzahl der Variablen n. Dies ist ein entscheidender Vorteil gegenüber dem in der Druckschrift [1] beschriebenen Verfahren, bei dem keine Substrukturen, sondern das gesamte Skelett des Bayesianischen Netzes gelernt wird. Insbesondere wird die Laufzeit des erfindungsgemäßen Verfahrens gegenüber dem Verfahren der Druckschrift [1] deutlich verbessert, wobei oftmals auch noch bessere Ergebnisse bei der Rekonstruktion von Beichmark-Netzen erreicht wurden, wie nachfolgend anhand von 2 erläutert wird.
Das oben beschriebene erfindungsgemäße Verfahren wurde anhand von Benchmark-Netzwerken getestet und mit dem Algorithmus aus der Druckschrift [1] verglichen, der nachfolgend auch als MMHC-Algorithmus bezeichnet wird. Hierzu wurden Trainings-Datensätze aus bekannten Benchmark-Netzen erzeugt, und anschließend wurde mit dem erfindungsgemäßen Verfahren sowie dem MMHC-Algorithmus die Netzstruktur anhand der Datensätze gelernt, um die ursprüngliche Netzstruktur wiederherzustellen. Die wiederhergestellten Netzwerke wurden dann mit dem ursprünglichen Netzwerk verglichen, aus dem die Datensätze generiert wurden, um die Qualität der gelernten Strukturen zu beurteilen. Als Benchmark-Netze wurden die hinlänglich aus dem Stand der Technik bekannten Netze „Alarm" und „Insurance" verwendet. Beide Netze sind relativ klein und weisen nur einige Variablen auf. Da insbesondere die Performanz der Verfahren bei einer großen Anzahl von Variablen untersucht werden sollte, wurde ein sog. Tiling-Verfahren verwendet, welches ein Netz als Kachel verwendet und mehrere Kacheln zusammensetzt, um sowohl das Alarm-Netz als auch das Insurance-Netz zu vergrößern. Auf diese Weise wurden mehrere große Netze erzeugt, die 10-mal, 20-mal und 30-mal größer als die ursprünglichen Netze sind. In der Tabelle gemäß 2 ist das ursprüngliche Alarm-Netzwerk als A. und das ursprüngliche Insurance-Netz als I. bezeichnet. Die jeweils um das 10-fache, 20-fache bzw. 30-fache vergrößerten Alarm- bzw. Insurance-Netze sind als A._10, A._20, A._30 bzw. I._10, I._20, I._30 bezeichnet.
Für jedes Benchmark-Netz wurden Datensätze in unterschiedlichen Größen erzeugt, wobei in 2 Ergebnisse für Datensätze mit 500 Datenpunkten, mit 1000 Datenpunkten sowie mit 5000 Datenpunkten wiedergegeben sind. Um die Qualität der rekonstruierten Netze zu messen, wurde die sog. SHD-Distanz verwendet (SHD = Structural Hamming Distance), welche als die Anzahl der Operationen definiert ist, um zwei PDAG-Graphen in Übereinstimmung zu bringen. Die Aktionen sind hierbei das Einfügen oder Entfernen einer ungerichteten Kante oder das Einfügen, Umdrehen oder Entfernen einer gerichteten Kante. Für fPDAG-Graphen wurde diese Definition derart erweitert, dass jede Operation nicht als eine Operation zählt, sondern der Konfidenz des entsprechenden Merkmals der Kante entspricht. Je kleiner die SHD-Distanz ist, desto besser ist die Qualität des Verfahrens.
In der Tabelle der 2 ist für die meisten der oben genannten Netzwerke mit den unterschiedlichen Datengrößen 500, 1000 und 5000 die Laufzeit RT sowie die SHD-Distanz SHD ange geben. Damit die Laufzeiten des erfindungsgemäßen Verfahrens und der MMHC-Methode vergleichbar sind, wurden die gleichen Rechner zur Durchführung der Verfahren verwendet. In der Tabelle der 2 entsprechen die Werte in Klammern in den jeweiligen Spalten RT der Laufzeit des erfindungsgemäßen Verfahrens in Sekunden. Die in Klammern angegebenen Werte in den Spalten SHD geben die SHD-Distanz des erfindungsgemäßen Verfahrens an. Demgegenüber entsprechen die Werte, welche in den jeweiligen Spalten RT bzw. SHD nicht in Klammern angegeben sind, der normalisierten Laufzeit bzw. SHD-Distanz, d. h. es handelt sich hierbei um den entsprechenden Wert des erfindungsgemäßen Verfahrens geteilt durch den Wert, der sich mit dem MMHC-Verfahren ergibt. Dies bedeutet, dass die Qualität des erfindungsgemäßen Verfahrens immer dann besser ist, wenn die Werte, welche nicht in Klammern angegeben sind, kleiner als 1 sind. Diese Werte sind in der Tabelle der 2 auch dick gedruckt hervorgehoben.
Man erkennt aus 2, dass der erfindungsgemäße Substruktur-Lernalgorithmus im Allgemeinen bessere oder vergleichbare Qualität in Bezug auf die Laufzeit und die Rekonstruktion des ursprünglichen Netzes liefert wie der MMHC-Algorithmus, insbesondere für größere Netzwerke. Es gibt nur eine Ausnahme, und zwar wird das relativ kleine Alarm-Netzwerk für die Datengröße 5000 mit einer normalisierten SHD-Distanz von 1,85 schlecht rekonstruiert. Für alle anderen Fälle sind die SHD-Distanzen beider Verfahren jedoch vergleichbar, in einigen Fällen ist das Substruktur-Lernen auch besser als das MMHC-Verfahren. Darüber hinaus zeigen sich deutliche Laufzeitverbesserungen für das erfindungsgemäße Substruktur-Lernen. Beispielsweise benötigt das Substruktur-Lernen für das I._30-Netz (gemittelt für 500 und 1000 Datenpunkte) nur ca. 40% der Laufzeit, die das MMHC-Verfahren braucht. In Bezug auf das größte Alarm-Netz A._30 benötigt das Substruktur-Lernen (gemittelt für 500 und 1000 Datenpunkte) sogar nur ca. 30% der Laufzeit des MMHC-Verfahrens. Es wird somit ersichtlich, dass mit dem erfindungsgemäßen Verfahren größtenteils bessere Ergebnisse erzielt werden als mit dem MMHC-Verfahren nach dem Stand der Technik.
Literaturverzeichnis:

[1] Ioannis Tsamardinos, Laura E. Brown, Constantin F. Aliferis. The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning, 65(1): 31–78, 2006.

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- Ioannis Tsamardinos, Laura E. Brown, Constantin F. Aliferis. The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning, 65(1): 31–78, 2006 [0050]

Claims

Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes (B) aus einem Datensatz aus gemessenen und/oder experimentell ermittelten und/oder empirischen Größen, wobei das probabilistische Netz eine gerichtete Graphstruktur (B) mit einer Vielzahl von Knoten (1, ..., 9) und gerichteten Kanten (E) zwischen den Knoten (1, ..., 9) umfasst, wobei die Knoten (1, ..., 9) Variablen des Datensatzes und die Kanten (E) Abhängigkeiten zwischen den Variablen repräsentieren, wobei die Abhängigkeiten durch Parameter von Wahrscheinlichkeitsverteilungen beschrieben werden, bei dem: a) aus dem Datensatz die Struktur eines ungerichteten Graphen (SK) umfassend Knoten (1, ..., 9) und ungerichtete Kanten (UE) zwischen den Knoten gelernt wird; b) aus dem ungerichteten Graphen (SK) für jede Variable ein ungerichteter Teilgraph (UPG1, UPG2, UPG3) erzeugt wird, der Knoten (1, ..., 9) und ungerichtete Kanten (UE) zwischen den Knoten in der Umgebung der jeweiligen Variablen umfasst; c) aus jedem ungerichteten Teilgraphen (UPG1, UPG2, UPG3) unabhängig von den anderen ungerichteten Teilgraphen (UPG1, UPG2, UPG3) die Struktur und Parameter eines gerichteten Teilgraphen (PG1, PG2 , PG3) mit Knoten (1, ..., 9) und gerichteten Kanten (E) zwischen den Knoten und/oder die Struktur und Parameter eines Teilgraphen eines probabilistischen graphischen Modells mit Knoten (1, ..., 9) und Kanten zwischen den Knoten gelernt wird.
Verfahren nach Anspruch 1, bei dem ein jeweiliger gerichteter Teilgraph (PG1, PG2, PG3) in Schritt c) derart gelernt wird, dass der gerichtete Teilgraph (PG1, PG2, PG3) nur Knoten (1, ..., 9) enthält, welche in dem entsprechenden ungerichteten Teilgraphen (UPG1, UPG2, UPG3) als Knoten (1, ..., 9) vorhanden sind, und der gerichtete Teilgraph (PG1, PG2, PG3) nur gerichtete Kanten (E) enthält, welche in dem entsprechenden ungerichteten Teilgraphen (UPG1, UPG2, UPG3) als ungerichtete Kanten (UE) vorhanden sind.
Verfahren nach Anspruch 1 oder 2, bei dem zum Lernen der Struktur des ungerichteten Graphen (SK) in Schritt a) ein testbasiertes Lernverfahren verwendet wird, insbesondere ein statistischer Unabhängigkeitstest und/oder der PC-Algorithmus und/oder der TPDA-Algorithmus.
Verfahren nach Anspruch 3, bei dem das testbasierte Lernverfahren derart ausgestaltet ist, dass für jede Variable folgende Schritte durchgeführt werden: i) es werden solche, von der jeweiligen Variablen bedingt abhängige Variablen zu einem Kandidatensatz von Variablen hinzugefügt, welche eine vorgegebene heuristische Funktion erfüllen; ii) es werden aus dem Kandidatensatz solche Variablen entfernt, welche bedingt unabhängig von der jeweiligen Variablen gegeben eine Untermenge von Variablen des Kadidatensatzes sind.
Verfahren nach Anspruch 4, bei dem die in Schritt i) verwendete heuristische Funktion derart festgelegt ist, dass diejenige Variable dem Kandidatensatz als nächstes hinzugefügt wird, welche die geringste bedingte Abhängigkeit von der jeweiligen Variablen getestet für alle möglichen Teilmengen an Variablen des Kandidatensatzes maximiert.
Verfahren nach Anspruch 4 oder 5, bei dem nach Durchführung der Schritte i) und ii) für eine jeweilige Variable gerichtete Kanten (E) zwischen der jeweiligen Variablen und den Variablen des Kandidatensatzes erzeugt werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Schritt b) für eine jeweilige Variable eine lokale Struktur innerhalb des ungerichteten Graphen (SK) festgelegt wird, wobei die lokale Struktur als Knoten (1, ..., 9) die jeweilige Variable, die Nachbarn der jeweiligen Variablen und gegebenenfalls Nachbarn höheren Grades sowie die ungerichteten Kanten zwischen diesen Knoten (1, ..., 9) umfasst, wobei die lokale Struktur den ungerichteten Teilgraphen (UPG1, UPG2, UPG3) der jeweiligen Variablen darstellt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Schritt c) zum Lernen der Struktur und Parameter eines jeweiligen gerichteten Teilgraphen (PG1, PG2, PG3) ein scorebasiertes Lernverfahren verwendet wird, bei dem unter Berücksichtigung einer Bewertung nach dem jeweiligen gerichteten Teilgraphen (PG1, PG2, PG3) gesucht wird.
Verfahren nach Anspruch 8, bei dem das scorebasierte Lernverfahren einen heuristischen Suchalgorithmus, insbesondere den Greedy-Algorithmus, zur Suche nach dem jeweiligen gerichteten Teilgraphen (PG1, PG2, PG3) verwendet.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem nach dem Lernen eines jeweiligen gerichteten Teilgraphen (PG1, PG2 , PG3) in Schritt c) diejenigen Knoten (1, ..., 9) aus dem gerichteten Teilgraphen (PG1, PG2, PG3) entfernt werden, welche nicht zum Markov-Blanket gehören.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem aus den in Schritt c) erzeugten gerichteten Teilgraphen (PG1, PG2, PG3), vorzugsweise nach der Entfernung von nicht zum Markov-Blanket gehörenden Knoten (1, ..., 9), ein fPDAG-Graph erzeugt wird, indem aus den gerichteten Teilgraphen (PG1, PG2, PG3) für jede auftretende Kante (E) die Wahrscheinlichkeiten ermittelt werden, in welche Richtung die Kante (E) gerichtet ist.
Verfahren nach Anspruch 11, bei dem ferner die Wahrscheinlichkeiten ermittelt werden, dass der Kante (E) keine Richtung zugeordnet werden kann und/oder dass überhaupt keine Kante (E) vorliegt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Bayesianisches Netz gelernt wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Datensatz biologische und/oder medizinische und/oder biomedizinische Daten umfasst, insbesondere Genexpressionsmuster und/oder das Auftreten von Krankheiten und/oder klinische Daten und/oder Lebensgewohnheiten von Patienten und/oder Vorerkrankungen von Patienten.
Verfahren nach einem der Ansprüche 1 bis 13, bei dem der Datensatz Daten aus einem technischen System, insbesondere aus einem Automatisierungssystem und/oder einem Energieerzeugungssystem und/oder einem Kommunikationsnetz, umfasst.
Verfahren zur rechnergestützten Simulation von Daten basierend auf einem mit einem Verfahren nach einem der vorhergehenden Ansprüche gelernten probabilistischen Netz, bei dem mit Hilfe eines Gibbs-Samplers aus den gerichteten Teilgraphen (PG1, PG2, PG3) und/oder den Teilgraphen des probabilistischen graphischen Modells Datensätze generiert werden.
Verfahren nach Anspruch 16, bei dem Interventionen simuliert werden, indem ein oder mehrere Variablen auf einen festen Wert gesetzt werden.
Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 17 wenn das Programm auf einem Rechner abläuft.