DE102007044380A1 - Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes - Google Patents

Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes Download PDF

Info

Publication number
DE102007044380A1
DE102007044380A1 DE102007044380A DE102007044380A DE102007044380A1 DE 102007044380 A1 DE102007044380 A1 DE 102007044380A1 DE 102007044380 A DE102007044380 A DE 102007044380A DE 102007044380 A DE102007044380 A DE 102007044380A DE 102007044380 A1 DE102007044380 A1 DE 102007044380A1
Authority
DE
Germany
Prior art keywords
directed
nodes
variables
graphs
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102007044380A
Other languages
English (en)
Inventor
Mathäus Dr. Dejori
Andreas Nägele
Martin Dr. Stetter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102007044380A priority Critical patent/DE102007044380A1/de
Publication of DE102007044380A1 publication Critical patent/DE102007044380A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes mit einem Datensatz aus gemessenen und/oder experimentell ermittelten und/oder empirischen Daten. Mit dem erfindungsgemäßen Verfahren kann in robuster Weise eine näherungsweise Berechnung der Graphstruktur auch sehr großer Beziehungsnetzwerke durchgeführt werden. Dies wird dadurch erreicht, dass in dem Verfahren kleinere Substrukturen des probabilistischen Netzes gelernt werden, wobei diese gelernten Teilnetzwerke anschließend geeignet zu einer Graphstruktur für das gesamte Netz kombiniert werden können. Mit dem erfindungsgemäßen Verfahren können beliebige Datensätze aus unterschiedlichsten Gebieten gelernt werden. In einer bevorzugten Variante werden mit dem Verfahren biomedizinische Daten gelernt, insbesondere Genexpressionsmuster, welche beispielsweise aus Mikroarray-Experimenten stammen. Diese Datensätze sind häufig sehr groß und enhalten oftmals Messwerte von 10000 bis 50000 Genen gleichzeitig. Mit dem Verfahren kann, basierend auf solchen Datensätzen, das Geflecht von Gen-Gen-Interaktionen extrahiert werden, wobei auf der Basis eines mit solchen Daten gelernten Netzes die für eine Krankheit relevanten Gene identifiziert werden können. Andere Anwendungsbereiche der Erfindung betreffen das Lernen eines Netzes, basierend auf Daten aus einem technischen System, z. B. einem Automatisierungssystem, einem Energieerzeugungssystem oder einem Kommunikationsnetz. Für ...

Description

  • Die Erfindung betrifft ein Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes aus einem Datensatz mit gemessenen und/oder experimentell ermittelten und/oder empirischen Größen.
  • In der modernen Informationstechnologie werden Abläufe immer komplexer und zunehmend miteinander verwoben. In der Regel wird zur Beschreibung eines Ablaufs eine Vielzahl von Messgrößen benötigt, welche experimentell und/oder empirisch ermittelt wurden. Beispielsweise werden in einem Krankenhaus von vielen Patienten oft hunderte bis tausende klinische, physiologische oder histologische Befunde erhoben, wobei zwischen den einzelnen Daten Abhängigkeiten bestehen, die aufgrund der Menge der Daten keine aus sich heraus ersichtliche Abhängigkeitsstruktur zeigen. Hierzu ist es notwendig, dass eine Vielzahl von Daten verschiedener Patienten ausgewertet und verglichen werden. In der pharmazeutischen Wirkstoffforschung werden oftmals Momentaufnahmen zellulärer Zustände mit DNA-Chips in Microarray-Experimenten gemessen. Als Ergebnis erhält man dabei Messwerte für die momentane Gen-Expression von 10000 bis 50000 Genen gleichzeitig. Um aus diesen Daten das größtenteils unbekannte Geflecht von Gen-Gen-Interaktionen zu extrahieren, werden effiziente rechnergestützte Verfahren mit möglichst geringem Rechenaufwand benötigt.
  • Die Erfindung kann neben den oben beschriebenen biomedizinischen Anwendungsbeispielen auch in beliebigen anderen Bereichen eingesetzt werden, in denen große Mengen an Messwerten auftreten. Insbesondere eignet sich die Erfindung zur Verwendung in technischen Systemen, welche z. B. industrielle Produktionsabläufe steuern. Auch hier sind aufgrund der großen Menge an Messwerten keine Abhängigkeiten zwischen den einzelnen Messgrößen aus sich heraus ersichtlich. Technische Syste me, in denen die Erfindung eingesetzt werden kann, sind insbesondere Automatisierungssysteme, z. B. Fertigungsstraßen, Energieerzeugungssysteme, beispielsweise Kraftwerke, oder Kommunikationsnetze.
  • Aus dem Stand der Technik sind verschiedene Verfahren bekannt, aus denen das Beziehungsgeflecht aus einer Vielzahl von Daten gelernt wird. Diese Verfahren beruhen auf probabilistischen Netzen, welche eine gerichtete Graphstruktur mit einer Vielzahl von Knoten und gerichteten Kanten zwischen den Knoten umfassen, wobei die Knoten Variablen des Datensatzes und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren. Diese Abhängigkeiten werden durch Parameter von Wahrscheinlichkeitsverteilungen bzw. Wahrscheinlichkeitstabellen beschrieben. Mit geeigneten scorebasierten bzw. testbasierten Lernverfahren können basierend auf dem Datensatz dann die Struktur und die Parameter des Netzes gelernt werden. Mit Hilfe der gelernten Netze können dann weitere Datensätze generiert werden bzw. entsprechende Szenarien simuliert werden, beispielsweise können bestimmte Variablen auf vorbestimmte Werte gesetzt werden und anschließend das Verhalten der Netze untersucht werden.
  • Die gängigen Verfahren zum rechnergestützten Lernen von probabilistischen Netzen weisen den Nachteil auf, dass der Rechenaufwand zum Lernen der Netze oft sehr hoch ist und sich die Verfahren nicht für Datenräume mit mehreren tausenden Variablen eignen. Bislang wurde deshalb die Dimension des Datenraums soweit reduziert, bis ein Teilraum entsteht, auf dessen Basis die Lernverfahren mit akzeptablem Rechneraufwand durchgeführt werden können. Bei Genexpressions-Daten werden beispielsweise aus mehreren 10000 Genen einige 10 bis 100 Gene zur Erzeugung des Netzwerks ausgewählt. Alle anderen Variablen werden als sog. versteckte Variable behandelt. Es wird hierbei angenommen, dass die versteckten Variablen keinen Einfluss auf das betrachtete verkleinerte Netz haben, was jedoch nicht immer der Fall ist. Ferner können keine Aussagen über die Rolle der versteckten Variablen im Beziehungsgeflecht gemacht werden.
  • Aufgabe der Erfindung ist es deshalb, ein Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes zu schaffen, welches mit geringem Aufwand das Lernen einer Netzstruktur mit einer großen Anzahl an Variablen ermöglicht.
  • Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
  • Das erfindungsgemäße Verfahren dient zum Lernen eines probabilistischen Netzes aus einem Datensatz mit entsprechenden gemessenen bzw. experimentell ermittelten bzw. empirischen Größen, wobei das probabilistische Netz eine gerichtete Graphstruktur mit einer Vielzahl von Knoten und gerichteten Kanten zwischen den Knoten umfasst, wobei die Knoten Variablen des Datensatzes und die Kanten Abhängigkeiten zwischen den Variablen repräsentieren, wobei die Abhängigkeiten durch Parameter von Wahrscheinlichkeitsverteilungen beschrieben werden.
  • In dem erfindungsgemäßen Verfahren wird in einem Schritt a) aus dem Datensatz die Struktur eines ungerichteten Graphen umfassend Knoten und ungerichtete Kanten zwischen Knoten gelernt. Aus dem ungerichteten Graphen wird in einem Schritt b) für jede Variable ein ungerichteter Teilgraph erzeugt, der Knoten und ungerichtete Kanten zwischen den Knoten in der Umgebung der jeweiligen Variablen umfasst. Auf diese Weise werden Substrukturen aus dem ursprünglichen ungerichteten Graphen extrahiert. Anschließend werden in einem Schritt c) aus jedem ungerichteten Teilgraphen unabhängig von den anderen ungerichteten Teilgraphen die Struktur und Parameter eines gerichteten Teilgraphs mit Knoten und gerichteten Kanten zwischen Knoten gelernt. Alternativ oder zusätzlich können auch die Struktur und Parameter eines Teilgraphen eines probabilistischen Modells gelernt werden, z. B. eines Decomposable Models. Bei diesem Lernen wird vorzugsweise die ungerichtete Struktur der Teilgraphen dadurch berücksichtigt, dass der erzeugte gerichtete Teilgraph nur Knoten enthalten darf, welche in dem entsprechenden ungerichteten Teilgraphen als Konten vorhanden sind, und dass der gerichtete Teilgraph nur gerichtete Kanten enthalten darf, welche in dem entsprechenden ungerichteten Teilgraphen als ungerichtete Kanten vorhanden sind.
  • Durch das separate Lernen von verkleinerten Substrukturen in der Form von ungerichteten Teilgraphen wird der Rechenaufwand des Lernverfahrens deutlich gegenüber dem Lernen eines Gesamtgraphen reduziert. Dennoch wird mit einem solchen, aus gerichteten Teilgraphen bestehenden probabilistischen Netz sehr gut das zu Grunde liegende Beziehungsgeflecht zwischen den Variablen beschrieben, wie die Erfinder anhand von Tests mit Benchmark-Netzen nachweisen konnten.
  • Zum Lernen der Struktur des ungerichteten Graphen in Schritt a) können beliebige, aus dem Stand der Technik bekannte Verfahren eingesetzt werden. Insbesondere können testbasierte Lernverfahren verwendet werden, beispielsweise ein statistischer Unabhängigkeitstest und/oder der PC-Algorithmus und/oder der TPDA-Algorithmus. In einer bevorzugten Variante wird als testbasiertes Lernverfahren ein Verfahren verwendet, welches in der Druckschrift [1] beschrieben ist, deren gesamte Offenbarung durch Verweis zum Inhalt der vorliegenden Anmeldung gemacht wird.
  • Das in der Erfindung verwendete testbasierte Lernverfahren ist vorzugsweise derart ausgestaltet, dass für jede Variable folgende Schritte durchgeführt werden:
    • i) es werden solche, von der jeweiligen Variablen bedingt abhängige Variablen zu einem Kandidatensatz von Variablen hinzugefügt, welche eine vorgegebene heuristische Funktion erfüllen;
    • ii) es werden aus dem Kandidatensatz solche Variablen entfernt, welche bedingt unabhängig von der jeweiligen Va riablen gegeben einer Untermenge von Variablen des Kandidatensatzes sind.
  • Die heuristische Funktion in Schritt i) ist vorzugsweise derart festgelegt, dass diejenige Variable dem Kandidatensatz als nächstes hinzugefügt wird, welche die geringste bedingte Abhängigkeit von der jeweiligen Variablen getestet für alle möglichen Teilmengen an Variablen des Kandidatensatzes maximiert.
  • Nach der Durchführung der obigen Schritt i) und ii) für eine jeweilige Variable werden schließlich gerichtete Kanten zwischen der jeweiligen Variablen und den Variablen des Kandidatensatzes erzeugt.
  • Um aus der Struktur des ungerichteten Graphen ungerichtete Teilgraphen zu extrahieren, wird in einer bevorzugten Ausführungsform in Schritt b) für eine jeweilige Variable eine lokale Struktur innerhalb des ungerichteten Graphen festgelegt, wobei die lokale Struktur als Knoten die jeweilige Variable, die Nachbarn der jeweiligen Variablen und gegebenenfalls die Nachbarn höheren Grades, d. h. die Nachbarn dieser Nachbarn und gegebenenfalls weitere Nachbarn von Nachbarn, sowie die ungerichteten Kanten zwischen diesen Knoten umfasst, wobei die lokale Struktur den ungerichteten Teilgraphen der jeweiligen Variablen darstellt.
  • In einer bevorzugten Variante des erfindungsgemäßen Verfahrens wird in Schritt c) zum Lernen der Struktur und Parameter eines gerichteten Teilgraphen ein scorebasiertes Lernverfahren verwendet, bei dem unter Berücksichtigung einer Bewertung nach einem gerichteten Teilgraphen gesucht wird. Scorebasierte Lernverfahren sind hinlänglich aus dem Stand der Technik bekannt und die Vorgehensweise des scorebasierten Lernens wird nochmals in der detaillierten Beschreibung kurz umrissen. Vorzugsweise wird hierbei ein scorebasiertes Lernverfahren verwendet, welches einen heuristischen Suchalgorithmus, beispielsweise den Greedy-Algorithmus, zur Suche nach einem gerichteten Teilgraphen verwendet.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens können zur Reduzierung der Größe des jeweiligen gerichteten Teilgraphen nach dem Lernen des gerichteten Teilgraphen in Schritt c) diejenigen Knoten (und die mit diesen verbundenen Kanten) aus dem gerichteten Teilgraphen entfernt werden, welche nicht zum Markov-Blanket gehören. Das Markov-Blanket ist eine dem Fachmann hinlänglich bekannte Größe. Insbesondere ist das Markov-Blanket einer Variablen die kleinste Teilmenge von Variablen, welche diese Variable unabhängig von allen anderen Variablen macht.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird zur Darstellung einer geeigneten Graphstruktur aus den in Schritt c) erzeugten gerichteten Teilgraphen, vorzugsweise nach der Entfernung von nicht zu Markov-Blanket gehörenden Knoten, ein fPDAG-Graph erzeugt (fPDAG = feature Partial Directed Acyclic Graph), indem aus den gerichteten Teilgraphen für jede auftretende Kante die Wahrscheinlichkeiten ermittelt werden, in welche Richtung die Kante gerichtet ist. Vorzugsweise werden ferner die Wahrscheinlichkeiten ermittelt, dass der Kante keine Richtung zugeordnet werden kann bzw. dass überhaupt keine Kante vorliegt. Die Struktur und Erzeugung von fPDAG-Graphen ist hinlänglich aus dem Stand der Technik bekannt und wird deshalb an dieser Stelle nicht näher erläutert.
  • Mit dem erfindungsgemäßen Verfahren können beliebige probabilistische Netze gelernt werden, insbesondere eignet sich das Verfahren zum Lernen eines Bayesianischen Netzes. Ebenso können beliebige Arten von Daten mit dem Verfahren gelernt werden. Der Datensatz kann beispielsweise biologische und/oder medizinische und/oder biomedizinische Daten umfassen, insbesondere Genexpressionsmuster und/oder das Auftreten von Krankheiten und/oder klinische Daten und/oder Lebensgewohnheiten von Patienten und/oder Vorerkrankungen von Patienten.
  • Ebenso kann der Datensatz Daten aus einem technischen System, insbesondere aus einem Automatisierungssystem und/oder einem Energieerzeugungssystem und/oder einem Kommunikationsnetz, umfassen.
  • Mit dem oben beschriebenen, mit dem erfindungsgemäßen Verfahren gelernten probabilistischen Netz können anschließend Daten simuliert werden, wobei mit Hilfe eines Gibbs-Samplers aus den gerichteten Teilgraphen und/oder Teilgraphen des probabilistischen Modells Datensätze generiert werden. Der Gibbs-Sampler ist aus dem Stand der Technik bekannt und es kann gezeigt werden, dass mit einem solchen Sampler auch mit den erfindungsgemäß erzeugten Netzen, in denen Teilgraphen überlappen können, geeignete Daten generiert werden können. Insbesondere können mit Hilfe des Gibbs-Samplers auch Interventionen simuliert werden, indem eine oder mehrere Variablen auf einen festen Wert gesetzt werden.
  • Neben dem erfindungsgemäßen Verfahren betrifft die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung jeder beliebigen Variante des oben beschriebenen Verfahrens, wenn das Programm auf einem Rechner abläuft.
  • Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
  • Es zeigen:
  • 1 eine schematische Darstellung, welche das gemäß der Erfindung durchgeführte Lernen von Teilgraphen verdeutlicht; und
  • 2 eine Tabelle, welche anhand von Testdatensätzen das erfindungsgemäße Verfahren mit einem Verfahren aus dem Stand der Technik vergleicht.
  • Das erfindungsgemäße Verfahren wird nachfolgend an dem Beispiel eines Bayesianischen Netzes erläutert, bei dem es sich um ein häufig eingesetztes graphisches Modell handelt, welches Abhängigkeiten zwischen einem Satz von Zufallsvariablen auf probabilistische sowie graphentheoretische Weise beschreibt. Zum besseren Verständnis wird zunächst das aus dem Stand der Technik bekannte Lernen von solchen Bayesianischen Netzen erläutert. Bayesianische Netze werden verwendet, um eine Gesamtwahrscheinlichkeitsverteilung von n Zufallvariablen X = {X1, X2, X3, ..., Xn} zu beschreiben. Ein Bayesianisches Netz B = (B4, Θ) besteht aus zwei Teilen. Der erste Teil ist die Netzstruktur, welche ein gerichteter azyklischer Graph G ist, der auch als DAG-Graph (DAG = Directed Acyclic Graph) bezeichnet wird. In dem Graphen wird jede Variable Xi durch einen Knoten repräsentiert und die Kanten in dem DAG-Graphen repräsentieren statistische Abhängigkeiten zwischen den Variablen. Der zweite Teil eines Bayesianischen Netzes ist ein Parametersatz, der als Θ bezeichnet ist. In dem DAG-Graphen sind Unabhängigkeits-Aussagen codiert und die Gesamtwahrscheinlichkeitsfunktion über X kann in folgendes Produkt zerlegt werden:
    Figure 00080001
    wobei Pai die Eltern der Variablen Xi in dem DAG-Graphen G sind.
  • Bayesianische Netze dienen dazu, aus bekannten Datensätzen mit einer Vielzahl von Daten Zusammenhänge abzuleiten, die zwischen den einzelnen Variablen in dem Datensatz enthalten sind. Ausgehend von einem Datensatz D werden diese Zusammenhänge durch Lernen der Struktur und der Parameter des Bayesianischen Netzes in dem Netz codiert. Die Aufgabe des Lernens eines Bayesianischen Netzes kann wie folgt beschrieben werden: Ausgehend von einem Datensatz D = (d1, ..., dN) mit N unterschiedlichen unabhängigen Beobachtungen, wobei jeder Datenpunkt d1 = (dl1 , ..., dln ) eine Beobachtung von allen n Variablen ist, wird nach der Graphstruktur G und den Parametern Θ gesucht, welche am Besten den Datensatz D wiedergeben. Die Suche erfolgt durch die Maximierung einer Score-Funktion p(G|D) = p(D|G)p ( ( G)p(D) G) (2)wobei p(G) die A-Priori-Wahrscheinlichkeit für die Struktur ist, p(D) eine Normalisierungskonstante ist und p(D|G) die Randwahrscheinlichkeit von D gegeben den Modellgraph G ist.
  • Unter der Verwendung einer einheitlichen A-Priori-Wahrscheinlichkeit über alle möglichen Netzstrukturen kann das Lernproblem reduziert werden auf die Suche derjenigen Struktur mit der besten Randwahrscheinlichkeit: p(D|G) = ∫p(D|G,Θ)p(Θ|G)dΘ (3)wobei p(D|Θ,G) die Wahrscheinlichkeit des Datensatzes D gegeben das Bayesianische Netz (G, Θ) ist und wobei p(Θ|G) die A-Priori-Wahrscheinlicheit für die lokalen Wahrscheinlichkeitsverteilungen Θ des Bayesianischen Netzes mit der Struktur G bezeichnet.
  • Das soeben beschriebene Lernverfahren ist allgemein auch als scorebasiertes Verfahren bekannt, da die DAG-Graphen durch ihren Score bewertet werden. Es können hierbei verschiedene Arten von Scores verwendet werden. Aus dem Stand der Technik sind unterschiedliche Scores bekannt, wie z. B. der BDe-Score. Statt einem scorebasierten Verfahren sind zum Lernen von Bayesianischen Netzen auch testbasierte Verfahren bekannt, welche im Englischen als „constraint-based methods" bezeichnet werden. Statt der Suche nach dem DAG-Graphen mit dem besten Score wird hierbei das Netz über die Durchführung von bedingten Unabhängigkeitstests auf den Daten rekonstruiert. Es sind eine Vielzahl von unterschiedlichen testbasierten Verfahren bekannt, z. B. der PC-Algorithmus oder der TPDA-Algorithmus.
  • In der nachfolgend beschriebenen Ausführungsform der Erfindung werden testbasierte Verfahren zum Lernen eines sog. Skeletts eines Bayesianischen Netzes eingesetzt, und scorebasierte Verfahren werden anschließend zum Lernen von Teilgraphen dieses Skeletts verwendet. Bei dem Skelett eines Bayesianischen Netzes handelt es sich um einen Graphen, der ausschließlich ungerichtete Kanten zwischen Knoten aufweist.
  • Das Lernen des ungerichteten Graphen aus den Datensätzen erfolgt in der hier beschriebenen Ausführungsform mit einem testbasierten Verfahren, welches in der Druckschrift [1] beschrieben ist. Das Verfahren verwendet einen Algorithmus, der nachfolgend als MMPC (MMPC = Max-Min Parents and Children) bezeichnet wird. Der MMPC-Algorithmus ist ein lokaler Suchalgorithmus, um den Satz von Eltern und Kindern PCi einer Variablen Xi zu beurteilen. Dabei können in einer ersten Phase Variablen, die bedingt von der Variablen Xi abhängen, einem Kandidatensatz der Eltern und Kinder der Variablen hinzugefügt werden, und zwar gemäß einer heuristischen Funktion, welche als Max-Min-Heuristik bezeichnet wird. Gemäß dieser Funktion wird eine Variable als nächstes dem Kandidatensatz hinzugefügt, wenn die Variable die minimale Assoziation zu Xi gegeben den momentanen Kandidatensatz maximiert. Hierbei ist die minimale Assoziation definiert als die minimale bedingte Abhängigkeit zwischen einer Variablen und Xi, getestet für alle möglichen Untermengen des momentanen Kandidatensatzes. Dies bedeutet, dass diejenige Variable dem Kandidatensatz hinzugefügt wird, welche mit der geringsten Wahrscheinlichkeit bedingt unabhängig von Xi ist. Die Erzeugung eines Kandidatensatzes wird beendet, wenn alle abhängigen Variablen dem Kandidatensatz zugefügt wurden.
  • In einer zweiten Phase werden falsche positive Variablen entfernt, welche möglicherweise dem Kandidatensatz in der ersten Phase hinzugefügt wurden. Falsche Positive sind solche Variablen, welche unabhängig von Xi gegeben eine Untermenge von allen Variablen sind. Somit werden alle Variablen, welche be dingt unabhängig gegeben eine Untermenge der Kandidaten sind, von dem Kandidatensatz entfernt. In dem Dokument [1] wird gezeigt, dass unter der Annahme der sog. „Faithfulness" der Algorithmus keine falschen Negative zurückgibt. Er gibt auch keine falschen Positiven zurück, falls die PC-Relation symmetrisch gemacht wird, d. h. dass für alle Xj ∊ PCi getestet wird, ob Xi ∊ PCj gilt. Falls diese Bedingung nicht erfüllt ist, wird Xj von PCi entfernt. Nach der Durchführung des obigen Algorithmus für alle Variablen Xi erhält man das Skelett des Bayesianischen Netzes, indem jede Variablen mit allen Mitgliedern ihres Kandidatensatzes verbunden wird. Dieser Graph ist ungerichtet, so dass die Mitglieder in einem Kandidatensatz sowohl Eltern als auch Kinder der jeweiligen Variablen sein können.
  • Der in dem Dokument [1] beschriebene Algorithmus verwendet anschließend ein scorebasiertes Greedy-Suchverfahren, um die Orientierung der Kanten innerhalb des Skeletts zu lernen. Der Algorithmus zeigt gute Ergebnisse im Hinblick auf die Qualität und die Laufzeit, so lange nicht mehr als einige tausend Variablen verwendet werden. In vielen Gebieten ist es jedoch oftmals wünschenswert, eine höhere Anzahl an Variablen zu verarbeiten. Beispielsweise sind in genetischen regulatorischen Netzwerken ungefähr 30000 Gene als Variablen enthalten. Erfindungsgemäß wurde deshalb ein anderer Ansatz als in dem Verfahren des Dokuments [1] zur Ermittlung der Richtung der Kanten in dem Bayesianischen Netz gewählt. Der in der Erfindung gewählte Ansatz beruht auf einem sog. Substruktur-Lernen, bei dem aus dem Skelett des Bayesianischen Netzes entsprechende Substrukturen extrahiert werden, die anschließend getrennt gelernt werden.
  • Der Algorithmus zum Substruktur-Lernen wird nunmehr anhand von 1 beschrieben. 1 zeigt ein Skelett SK eines Bayesianischen Netzes, welches beispielsweise mit dem oben erläuterten MMPC-Algorithmus generiert wurde. Das Skelett SK enthält neun Knoten 1 bis 9 sowie ungerichtete Kanten UE zwischen den Knoten, wobei aus Übersichtlichkeitsgründen nur ei ne ungerichtete Kante mit dem Bezugszeichen UE versehen ist. Aus diesem Skelett SK werden nunmehr für jede einzelne Variable 1 bis 9 ungerichtete Teilgraphen als Substrukturen des Skeletts extrahiert. In 1 ist die Extraktion solcher Teilgraphen beispielhaft für die Variablen 1, 5 und 9 gezeigt, wobei der Schritt der Bildung der Substruktur für die Variable 1 durch den Pfeil P1, für die Variable 5 durch den Pfeil P2 und für die Variable 9 durch den Pfeil P3 angedeutet ist. In der hier beschriebenen Ausführungsform des Substruktur-Lernens werden als Substruktur einer jeweiligen Variablen die Nachbarn der jeweiligen Variablen, d. h. die über eine Kante mit der jeweiligen Variablen verbundenen Variablen, sowie die Nachbarn dieser Nachbarn bestimmt. Für die Variable 1 ergibt sich somit eine Substruktur umfassend die Knoten 1, 2, 4, 5 und 7 mit entsprechend dazwischen liegenden Kanten. Für die Variable 5 ergibt sich eine Substruktur umfassend die Variablen 1, 2, 5, 8 und 6 mit dazwischen liegenden Kanten. Für die Variable 9 enthält die entsprechend erzeugte Substruktur die Variablen 3, 6, 8 und 9. Die geeignete Auswahl der Variablen ist hierbei ein wichtiger Schritt, da eine suboptimale Auswahl, bei der in einer Substruktur Variablen fehlen, welche strukturell wichtig sind, zu falschen Positiven sowie falschen Negativen führen kann. Als Ergebnis des Substruktur-Lernens erhält man gemäß 1 einzelne ungerichtete Teilgraphen UPG1, UPG2 und UPG3.
  • An die Erzeugung der ungerichteten Teilgraphen UPG1, UPG2 und UPG3 schließt sich als weiterer wesentlicher Schritt das Lernen der einzelnen gerichteten Teilgraphen an, wobei jeder Teilgraph unabhängig von den anderen gelernt wird. Als Lernverfahren wird hierbei insbesondere ein scorebasiertes Lernverfahren eingesetzt, welches bereits im Vorangegangenen allgemein mit Bezug auf die Gleichungen (1) bis (3) erläutert wurde. Insbesondere kann hierbei ein heuristischer Suchalgorithmus zum Lernen der einzelnen lokalen Netze eingesetzt werden, beispielsweise der Greedy-Algorithmus. Als Randbedingung ist hierbei jedoch zu berücksichtigen, dass in der gelernten gerichteten Struktur nur solche Kanten auftreten dür fen, welche auch in dem jeweiligen ungerichteten Teilgraphen als ungerichtete Kanten vorhanden sind. Das heißt, eine Kante zwischen zwei Variablen kann während der Suche nach der Netzstruktur nur hinzugefügt werden, falls die Variablen auch in dem entsprechenden Skelett SK miteinander verbunden waren. Nach dem Durchführen des scorebasierten Lernens erhält man schließlich gerichtete Teilgraphen für jede Substruktur, wobei in 1 die aus den einzelnen ungerichteten Teilgraphen UPG1 bis UPG3 generierten gerichteten Graphen PG1, PG2 bzw. PG3 wiedergegeben sind, welche nunmehr gerichtete Kanten E enthalten. Aus Übersichtlichkeitsgründen ist wiederum nur eine der gerichteten Kanten mit dem Bezugszeichen E versehen.
  • In der hier beschriebenen Variante des erfindungsgemäßen Substruktur-Lernens werden die einzelnen gerichteten Teilgraphen PG1 bis PG3 nochmals modifiziert, um die Qualität des Algorithmus zu verbessern. Die Modifikation besteht hierbei darin, dass alle Knoten und Kanten aus den einzelnen gerichteten Teilgraphen entfernt werden, welche nicht zu dem Markov-Blanket der entsprechenden Variable Xi gehören, aus der die Teilgraphen hervorgegangen sind. Das Markov-Blanket ist ein dem Fachmann hinlänglich bekannter Begriff und ein Markov-Blanket einer Variablen ist die minimale Untermenge von Variablen, welche diese Variable unabhängig von allen anderen Variablen macht. In einem Bayesianischen Netz umfasst ein Markov-Blanket für eine jeweilige Variable die Eltern der Variablen, die Kinder der Variablen sowie die Eltern dieser Kinder. Durch die Begrenzung der einzelnen Teilgraphen auf das Markov-Blanket erhält man modifizierte Substrukturen, welche in 1 als jeweilige Teilgraphen PG1', PG2' und PG3' für die jeweiligen Graphen PG1, PG2 bzw. PG3 wiedergegeben sind. Man erkennt hierbei, dass das Markov-Blanket für PG1 (d. h. für die Variable 1) aus den Knoten 1, 2 und 4, für PG2 (d. h. für die Variable 5) aus den Knoten 2, 5, 8 und 6 und für PG3 (d. h. für die Variable 9) lediglich aus den Knoten 6 und 9 besteht.
  • Als Ergebnis der hier beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens erhält man somit ein Bayesianisches Netz, welches aus einer Vielzahl von unabhängig gelernten Substrukturen in der Form von gerichteten Teilgraphen besteht. Mit Hilfe dieses Netzes können nunmehr entsprechende Simulationen vorgenommen werden. Insbesondere können neue Datensätze generiert werden bzw. Interventionen simuliert werden, indem die Zustände bestimmter Knoten auf vorbestimmte Werte eingestellt werden. Interventionen sind ein wichtiges Instrument in Bayesianischen Netzen, welche mit Genexpressionsmustern gelernt wurden. In solchen Netzen werden zum Lernen aus Microarray-Experimenten stammenden Expressionsprofile von Genen verwendet, wobei die Expressionen einzelner Gene durch die Zustände „überexprimiert", „unterexprimiert" und „normalexprimiert" ausgedrückt werden. Indem Interventionen dadurch durchgeführt werden, dass einzelne Gene, welche möglicherweise für eine Krankheit relevant sind, auf einen überexprimierten Zustand gesetzt werden, können krankheitsrelevante Genexpressionsprofile simuliert werden und anschließend mit Expressionsprofilen von Patienten verglichen werden, welche eine entsprechend zu untersuchende Krankheit haben. Auf diese Weise können in der biomedizinischen Forschung Zusammenhänge zwischen einzelnen Genen und dem Auftreten von Krankheiten ermittelt werden.
  • Zur Generierung von Datensätzen aus den einzelnen Substrukturen bzw. zur Durchführung von Interventionen wird vorzugsweise der Gibbs-Sampler verwendet, der hinlänglich aus dem Stand der Technik bekannt ist und deshalb nicht näher erläutert wird. Der Gibbs-Sampler eignet sich sehr gut zur Verwendung in der hier beschriebenen Ausführungsform, da er auf dem Markov-Blanket der einzelnen Substrukturen arbeitet. Üblicherweise wird der Gibbs-Sampler in einem Netz eingesetzt, welches aus nicht-überlappenden Teilstrukturen besteht. In der hier beschriebenen Ausführungsform können die einzelnen ermittelten Substrukturen jedoch miteinander überlappen, wie sich aus 1 ergibt. Dort ist beispielsweise ersichtlich, dass ein Knoten in einem der Teilgraphen PG1' bis PG3' auch in einem anderen Teilgraphen auftreten kann. Beispielsweise ist der Knoten 2 sowohl in dem Teilgraphen PG1' als auch in dem Teilgraphen PG2' enthalten. Das gleiche gilt für den Knoten 6, der sowohl im Teilgraphen PG2' als auch im Teilgraphen PG3' enthalten ist. Es kann jedoch gezeigt werden, dass mit dem Gibbs-Sampler auch für Netze mit überlappenden Substrukturen gute Ergebnisse erzielt werden können.
  • Um eine einheitliche Repräsentation aller Substrukturen in einem Gesamtnetz zu ermöglichen, kann gegebenenfalls ein sog. fPDAG-Graph aus allen Teilgraphen erzeugt werden. Dieser Graph veranschaulicht die gesamte Bayesianische Netzstruktur, und es können gegebenenfalls auch weitere Eigenschaften des Netzes aus einer solchen Netzstruktur abgeleitet werden, beispielsweise wie viele Kanten von einem Knoten ausgehen bzw. in einem Knoten enden. Die Erzeugung von fPDAG-Graphen ist hinlänglich aus dem Stand der Technik bekannt und wird deshalb nur kurz skizziert. Bei einem fPDAG-Graphen handelt es sich um einen teilweise gerichteten Graphen, bei dem die Kanten Merkmale aufweisen, denen wiederum Konfidenzen zugewiesen sind. Die Merkmale einer Kante zwischen zwei Variablen Xi und Xj werden dabei durch eine Wahrscheinlichkeitsverteilung mit vier Zuständen beschrieben. Es gilt insbesondere: pi↔j = {pi↔j, pi–j, pi←j, pi⊥j}.
  • Hierbei bezeichnet pi→j die Wahrscheinlichkeit einer gerichteten Kante von Xi nach Xj, pi bezeichnet die Wahrscheinlichkeit für eine gerichtete Kante von Xj nach Xi, pi–j bezeichnet die Wahrscheinlichkeit einer ungerichteten Kante zwischen Xi und Xj, und pi⊥j bezeichnet die Wahrscheinlichkeit, dass es keine Kante zwischen Variablen Xi und Xj gibt.
  • Ungerichtete Kanten können deshalb in einem solchen Graphen auftreten, da die Richtung einer Kante mehrdeutig sein kann. Insbesondere ist die Richtung solcher Kanten mehrdeutig, welche nicht zu einer Collider-Struktur gehören, d. h. welche nicht in einem Knoten enden, in dem mehrere Kanten enden.
  • Die Wahrscheinlichkeitsverteilung pi↔j wird erfindungsgemäß aus den Substrukturen dadurch ermittelt, dass für Paare von Knoten, welche in mehreren Substrukturen auftreten, die Zustände der entsprechenden Kanten zwischen diesen Paaren bestimmt werden und aus der Häufigkeitsverteilung der Zustände die entsprechende Wahrscheinlichkeitsverteilung der Zustände einer Kante zwischen dem Variablenpaar berechnet wird. Die Konfidenz eines Merkmals einer Kante wird somit als Mittelwert der Konfidenzen in allen n Teilgraphen wie folgt beschrieben:
    Figure 00160001
  • Hierbei repräsentiert k einen der oben genannten vier Zustände und fi↔j hat den Wert 1, wenn der entsprechende Zustand einer Kante in der Substruktur Bg auftritt. Ansonsten hat fi↔j den Wert 0. Die obige Normalisierungskonstante α bezeichnet die Anzahl an Netzwerken, welche eine Aussage über den entsprechenden Zustand einer Kante machen können. Insbesondere ist die Normalisierungskonstante eines Merkmals einer Kante zwischen Xi und Xj die Anzahl an Netzwerken, welche beide Variablen Xi und Xj enthalten, da die anderen Substrukturen keine Information über dieses Merkmal enthalten. Da, wie oben erwähnt, die Richtung von Kanten mehrdeutig sein kann, werden die Merkmale nicht direkt aus der Struktur eines Bayesianischen Netzes, sondern aus der dem Fachmann hinlänglich bekannten PDAG-Repräsentation dieser Netzwerkstruktur berechnet (PDAG = Partial Directed Acyclic Graph).
  • 1 deutet durch entsprechende Pfeile P4, P5 und P6 die Erzeugung eines entsprechenden fPDAG-Graphen B an. Üblicherweise wird in einem solchen Graphen visuell die Konfidenz eines entsprechenden Kanten-Merkmals beispielsweise durch die Dicke der Kante codiert. Aus Übersichtlichkeitsgründen ist eine solche visuelle Codierung nicht in 1 gezeigt. Der fPDAG-Graph des Bayesianischen Netzes stellt dabei einen Gra phen dar, der alle Variablen enthält, welche in dem Bayesianischen Netz vorhanden sind. Jede Kante zwischen zwei Variablen Xi und Xjwird über den entsprechenden Zustand bzw. das Merkmal pi↔j gewichtet. Anders als bei Bayesianischen Netzen oder PDAG-Graphen ist die Struktur eines fPDAG-Graphen weder eine azyklisch gerichtete noch eine teilweise gerichtete azyklische Graphstruktur. Stattdessen ist der fPDAG-Graph ein gewichteter Graph, der Kanten zwischen in Beziehung stehenden Variablen umfasst, wobei diese Kanten mit entsprechenden Konfidenzen versehen sind.
  • Es kann gezeigt werden, dass der Aufwand des im Vorangegangenen beschriebenen Verfahrens polynomiell in der Anzahl der Variablen ist, da die Bestimmung des Skeletts des Bayesianischen Netzes in der Regel polynomielles Laufzeitverhalten besitzt. Die Bestimmung der einzelnen Substrukturen weist eine Komplexität von O(nm2) auf, wobei m die maximale Größe einer Substruktur bezeichnet. Das heißt, bei einer festen maximalen Größe der Substrukturen hat der Algorithmus lineare Laufzeit in der Anzahl der Variablen n. Dies ist ein entscheidender Vorteil gegenüber dem in der Druckschrift [1] beschriebenen Verfahren, bei dem keine Substrukturen, sondern das gesamte Skelett des Bayesianischen Netzes gelernt wird. Insbesondere wird die Laufzeit des erfindungsgemäßen Verfahrens gegenüber dem Verfahren der Druckschrift [1] deutlich verbessert, wobei oftmals auch noch bessere Ergebnisse bei der Rekonstruktion von Beichmark-Netzen erreicht wurden, wie nachfolgend anhand von 2 erläutert wird.
  • Das oben beschriebene erfindungsgemäße Verfahren wurde anhand von Benchmark-Netzwerken getestet und mit dem Algorithmus aus der Druckschrift [1] verglichen, der nachfolgend auch als MMHC-Algorithmus bezeichnet wird. Hierzu wurden Trainings-Datensätze aus bekannten Benchmark-Netzen erzeugt, und anschließend wurde mit dem erfindungsgemäßen Verfahren sowie dem MMHC-Algorithmus die Netzstruktur anhand der Datensätze gelernt, um die ursprüngliche Netzstruktur wiederherzustellen. Die wiederhergestellten Netzwerke wurden dann mit dem ursprünglichen Netzwerk verglichen, aus dem die Datensätze generiert wurden, um die Qualität der gelernten Strukturen zu beurteilen. Als Benchmark-Netze wurden die hinlänglich aus dem Stand der Technik bekannten Netze „Alarm" und „Insurance" verwendet. Beide Netze sind relativ klein und weisen nur einige Variablen auf. Da insbesondere die Performanz der Verfahren bei einer großen Anzahl von Variablen untersucht werden sollte, wurde ein sog. Tiling-Verfahren verwendet, welches ein Netz als Kachel verwendet und mehrere Kacheln zusammensetzt, um sowohl das Alarm-Netz als auch das Insurance-Netz zu vergrößern. Auf diese Weise wurden mehrere große Netze erzeugt, die 10-mal, 20-mal und 30-mal größer als die ursprünglichen Netze sind. In der Tabelle gemäß 2 ist das ursprüngliche Alarm-Netzwerk als A. und das ursprüngliche Insurance-Netz als I. bezeichnet. Die jeweils um das 10-fache, 20-fache bzw. 30-fache vergrößerten Alarm- bzw. Insurance-Netze sind als A._10, A._20, A._30 bzw. I._10, I._20, I._30 bezeichnet.
  • Für jedes Benchmark-Netz wurden Datensätze in unterschiedlichen Größen erzeugt, wobei in 2 Ergebnisse für Datensätze mit 500 Datenpunkten, mit 1000 Datenpunkten sowie mit 5000 Datenpunkten wiedergegeben sind. Um die Qualität der rekonstruierten Netze zu messen, wurde die sog. SHD-Distanz verwendet (SHD = Structural Hamming Distance), welche als die Anzahl der Operationen definiert ist, um zwei PDAG-Graphen in Übereinstimmung zu bringen. Die Aktionen sind hierbei das Einfügen oder Entfernen einer ungerichteten Kante oder das Einfügen, Umdrehen oder Entfernen einer gerichteten Kante. Für fPDAG-Graphen wurde diese Definition derart erweitert, dass jede Operation nicht als eine Operation zählt, sondern der Konfidenz des entsprechenden Merkmals der Kante entspricht. Je kleiner die SHD-Distanz ist, desto besser ist die Qualität des Verfahrens.
  • In der Tabelle der 2 ist für die meisten der oben genannten Netzwerke mit den unterschiedlichen Datengrößen 500, 1000 und 5000 die Laufzeit RT sowie die SHD-Distanz SHD ange geben. Damit die Laufzeiten des erfindungsgemäßen Verfahrens und der MMHC-Methode vergleichbar sind, wurden die gleichen Rechner zur Durchführung der Verfahren verwendet. In der Tabelle der 2 entsprechen die Werte in Klammern in den jeweiligen Spalten RT der Laufzeit des erfindungsgemäßen Verfahrens in Sekunden. Die in Klammern angegebenen Werte in den Spalten SHD geben die SHD-Distanz des erfindungsgemäßen Verfahrens an. Demgegenüber entsprechen die Werte, welche in den jeweiligen Spalten RT bzw. SHD nicht in Klammern angegeben sind, der normalisierten Laufzeit bzw. SHD-Distanz, d. h. es handelt sich hierbei um den entsprechenden Wert des erfindungsgemäßen Verfahrens geteilt durch den Wert, der sich mit dem MMHC-Verfahren ergibt. Dies bedeutet, dass die Qualität des erfindungsgemäßen Verfahrens immer dann besser ist, wenn die Werte, welche nicht in Klammern angegeben sind, kleiner als 1 sind. Diese Werte sind in der Tabelle der 2 auch dick gedruckt hervorgehoben.
  • Man erkennt aus 2, dass der erfindungsgemäße Substruktur-Lernalgorithmus im Allgemeinen bessere oder vergleichbare Qualität in Bezug auf die Laufzeit und die Rekonstruktion des ursprünglichen Netzes liefert wie der MMHC-Algorithmus, insbesondere für größere Netzwerke. Es gibt nur eine Ausnahme, und zwar wird das relativ kleine Alarm-Netzwerk für die Datengröße 5000 mit einer normalisierten SHD-Distanz von 1,85 schlecht rekonstruiert. Für alle anderen Fälle sind die SHD-Distanzen beider Verfahren jedoch vergleichbar, in einigen Fällen ist das Substruktur-Lernen auch besser als das MMHC-Verfahren. Darüber hinaus zeigen sich deutliche Laufzeitverbesserungen für das erfindungsgemäße Substruktur-Lernen. Beispielsweise benötigt das Substruktur-Lernen für das I._30-Netz (gemittelt für 500 und 1000 Datenpunkte) nur ca. 40% der Laufzeit, die das MMHC-Verfahren braucht. In Bezug auf das größte Alarm-Netz A._30 benötigt das Substruktur-Lernen (gemittelt für 500 und 1000 Datenpunkte) sogar nur ca. 30% der Laufzeit des MMHC-Verfahrens. Es wird somit ersichtlich, dass mit dem erfindungsgemäßen Verfahren größtenteils bessere Ergebnisse erzielt werden als mit dem MMHC-Verfahren nach dem Stand der Technik.
  • Literaturverzeichnis:
    • [1] Ioannis Tsamardinos, Laura E. Brown, Constantin F. Aliferis. The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning, 65(1): 31–78, 2006.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • - Ioannis Tsamardinos, Laura E. Brown, Constantin F. Aliferis. The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning, 65(1): 31–78, 2006 [0050]

Claims (18)

  1. Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes (B) aus einem Datensatz aus gemessenen und/oder experimentell ermittelten und/oder empirischen Größen, wobei das probabilistische Netz eine gerichtete Graphstruktur (B) mit einer Vielzahl von Knoten (1, ..., 9) und gerichteten Kanten (E) zwischen den Knoten (1, ..., 9) umfasst, wobei die Knoten (1, ..., 9) Variablen des Datensatzes und die Kanten (E) Abhängigkeiten zwischen den Variablen repräsentieren, wobei die Abhängigkeiten durch Parameter von Wahrscheinlichkeitsverteilungen beschrieben werden, bei dem: a) aus dem Datensatz die Struktur eines ungerichteten Graphen (SK) umfassend Knoten (1, ..., 9) und ungerichtete Kanten (UE) zwischen den Knoten gelernt wird; b) aus dem ungerichteten Graphen (SK) für jede Variable ein ungerichteter Teilgraph (UPG1, UPG2, UPG3) erzeugt wird, der Knoten (1, ..., 9) und ungerichtete Kanten (UE) zwischen den Knoten in der Umgebung der jeweiligen Variablen umfasst; c) aus jedem ungerichteten Teilgraphen (UPG1, UPG2, UPG3) unabhängig von den anderen ungerichteten Teilgraphen (UPG1, UPG2, UPG3) die Struktur und Parameter eines gerichteten Teilgraphen (PG1, PG2 , PG3) mit Knoten (1, ..., 9) und gerichteten Kanten (E) zwischen den Knoten und/oder die Struktur und Parameter eines Teilgraphen eines probabilistischen graphischen Modells mit Knoten (1, ..., 9) und Kanten zwischen den Knoten gelernt wird.
  2. Verfahren nach Anspruch 1, bei dem ein jeweiliger gerichteter Teilgraph (PG1, PG2, PG3) in Schritt c) derart gelernt wird, dass der gerichtete Teilgraph (PG1, PG2, PG3) nur Knoten (1, ..., 9) enthält, welche in dem entsprechenden ungerichteten Teilgraphen (UPG1, UPG2, UPG3) als Knoten (1, ..., 9) vorhanden sind, und der gerichtete Teilgraph (PG1, PG2, PG3) nur gerichtete Kanten (E) enthält, welche in dem entsprechenden ungerichteten Teilgraphen (UPG1, UPG2, UPG3) als ungerichtete Kanten (UE) vorhanden sind.
  3. Verfahren nach Anspruch 1 oder 2, bei dem zum Lernen der Struktur des ungerichteten Graphen (SK) in Schritt a) ein testbasiertes Lernverfahren verwendet wird, insbesondere ein statistischer Unabhängigkeitstest und/oder der PC-Algorithmus und/oder der TPDA-Algorithmus.
  4. Verfahren nach Anspruch 3, bei dem das testbasierte Lernverfahren derart ausgestaltet ist, dass für jede Variable folgende Schritte durchgeführt werden: i) es werden solche, von der jeweiligen Variablen bedingt abhängige Variablen zu einem Kandidatensatz von Variablen hinzugefügt, welche eine vorgegebene heuristische Funktion erfüllen; ii) es werden aus dem Kandidatensatz solche Variablen entfernt, welche bedingt unabhängig von der jeweiligen Variablen gegeben eine Untermenge von Variablen des Kadidatensatzes sind.
  5. Verfahren nach Anspruch 4, bei dem die in Schritt i) verwendete heuristische Funktion derart festgelegt ist, dass diejenige Variable dem Kandidatensatz als nächstes hinzugefügt wird, welche die geringste bedingte Abhängigkeit von der jeweiligen Variablen getestet für alle möglichen Teilmengen an Variablen des Kandidatensatzes maximiert.
  6. Verfahren nach Anspruch 4 oder 5, bei dem nach Durchführung der Schritte i) und ii) für eine jeweilige Variable gerichtete Kanten (E) zwischen der jeweiligen Variablen und den Variablen des Kandidatensatzes erzeugt werden.
  7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Schritt b) für eine jeweilige Variable eine lokale Struktur innerhalb des ungerichteten Graphen (SK) festgelegt wird, wobei die lokale Struktur als Knoten (1, ..., 9) die jeweilige Variable, die Nachbarn der jeweiligen Variablen und gegebenenfalls Nachbarn höheren Grades sowie die ungerichteten Kanten zwischen diesen Knoten (1, ..., 9) umfasst, wobei die lokale Struktur den ungerichteten Teilgraphen (UPG1, UPG2, UPG3) der jeweiligen Variablen darstellt.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in Schritt c) zum Lernen der Struktur und Parameter eines jeweiligen gerichteten Teilgraphen (PG1, PG2, PG3) ein scorebasiertes Lernverfahren verwendet wird, bei dem unter Berücksichtigung einer Bewertung nach dem jeweiligen gerichteten Teilgraphen (PG1, PG2, PG3) gesucht wird.
  9. Verfahren nach Anspruch 8, bei dem das scorebasierte Lernverfahren einen heuristischen Suchalgorithmus, insbesondere den Greedy-Algorithmus, zur Suche nach dem jeweiligen gerichteten Teilgraphen (PG1, PG2, PG3) verwendet.
  10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem nach dem Lernen eines jeweiligen gerichteten Teilgraphen (PG1, PG2 , PG3) in Schritt c) diejenigen Knoten (1, ..., 9) aus dem gerichteten Teilgraphen (PG1, PG2, PG3) entfernt werden, welche nicht zum Markov-Blanket gehören.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem aus den in Schritt c) erzeugten gerichteten Teilgraphen (PG1, PG2, PG3), vorzugsweise nach der Entfernung von nicht zum Markov-Blanket gehörenden Knoten (1, ..., 9), ein fPDAG-Graph erzeugt wird, indem aus den gerichteten Teilgraphen (PG1, PG2, PG3) für jede auftretende Kante (E) die Wahrscheinlichkeiten ermittelt werden, in welche Richtung die Kante (E) gerichtet ist.
  12. Verfahren nach Anspruch 11, bei dem ferner die Wahrscheinlichkeiten ermittelt werden, dass der Kante (E) keine Richtung zugeordnet werden kann und/oder dass überhaupt keine Kante (E) vorliegt.
  13. Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Bayesianisches Netz gelernt wird.
  14. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Datensatz biologische und/oder medizinische und/oder biomedizinische Daten umfasst, insbesondere Genexpressionsmuster und/oder das Auftreten von Krankheiten und/oder klinische Daten und/oder Lebensgewohnheiten von Patienten und/oder Vorerkrankungen von Patienten.
  15. Verfahren nach einem der Ansprüche 1 bis 13, bei dem der Datensatz Daten aus einem technischen System, insbesondere aus einem Automatisierungssystem und/oder einem Energieerzeugungssystem und/oder einem Kommunikationsnetz, umfasst.
  16. Verfahren zur rechnergestützten Simulation von Daten basierend auf einem mit einem Verfahren nach einem der vorhergehenden Ansprüche gelernten probabilistischen Netz, bei dem mit Hilfe eines Gibbs-Samplers aus den gerichteten Teilgraphen (PG1, PG2, PG3) und/oder den Teilgraphen des probabilistischen graphischen Modells Datensätze generiert werden.
  17. Verfahren nach Anspruch 16, bei dem Interventionen simuliert werden, indem ein oder mehrere Variablen auf einen festen Wert gesetzt werden.
  18. Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 17 wenn das Programm auf einem Rechner abläuft.
DE102007044380A 2007-09-17 2007-09-17 Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes Ceased DE102007044380A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102007044380A DE102007044380A1 (de) 2007-09-17 2007-09-17 Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007044380A DE102007044380A1 (de) 2007-09-17 2007-09-17 Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes

Publications (1)

Publication Number Publication Date
DE102007044380A1 true DE102007044380A1 (de) 2009-03-19

Family

ID=40348629

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007044380A Ceased DE102007044380A1 (de) 2007-09-17 2007-09-17 Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes

Country Status (1)

Country Link
DE (1) DE102007044380A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107111603A (zh) * 2014-09-11 2017-08-29 博格有限责任公司 基于患者数据的用于健康护理诊断和治疗的贝叶斯因果关系网络模型
CN111444395A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN112069412A (zh) * 2020-09-11 2020-12-11 腾讯科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Ioannis Tsamardinos, Laura E. Brown, Constantin F. Aliferis. The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning, 65(1): 31-78, 2006
K. Murphy: "A Brief Introduction to Graphical Mode ls and Bayesian Networks, Grapical Models, 1998, S . 1-16, http://www.cs.ubc.ca/~murphyk/Bayes /bnint ro.html; S.K.M. Wong et al.: "A Bayesian Approach to User Profiling in Information Retrieval", Tecno logy Letters, 4 (1), 50-56, 2000, http://citeseer. ist. psu.edu/wong00bayesian.html; T. Raiko: "Bayes ian Inference in Nonlinear and Relational Latent V ariable Models, Dissertation, Helsinki Univ. of Te chnology, 2006, S. 1-99
K. Murphy: "A Brief Introduction to Graphical Models and Bayesian Networks, Grapical Models, 1998, S. 1-16, http://www.cs.ubc.ca/~murphyk/Bayes/bnint ro.html *
S.K.M. Wong et al.: "A Bayesian Approach to User Profiling in Information Retrieval", Tecnology Letters, 4 (1), 50-56, 2000, http://citeseer.ist.psu.edu/wong00bayesian.html *
T. Raiko: "Bayesian Inference in Nonlinear and Relational Latent Variable Models, Dissertation, Helsinki Univ. of Technology, 2006, S. 1-99 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107111603A (zh) * 2014-09-11 2017-08-29 博格有限责任公司 基于患者数据的用于健康护理诊断和治疗的贝叶斯因果关系网络模型
EP3191975A4 (de) * 2014-09-11 2018-04-18 Berg LLC Bayes-kausalbeziehung-netzwerkmodelle zur gesundheitswesensdiagnose und -behandlung auf basis von patientendaten
US10482385B2 (en) 2014-09-11 2019-11-19 Berg Llc Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data
AU2020244596B2 (en) * 2014-09-11 2023-02-23 Berg Llc Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data
US11734593B2 (en) 2014-09-11 2023-08-22 Bpgbio, Inc. Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data
CN111444395A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444395B (zh) * 2019-01-16 2023-05-16 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN112069412A (zh) * 2020-09-11 2020-12-11 腾讯科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN112069412B (zh) * 2020-09-11 2023-08-04 腾讯科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
DE102018009243A1 (de) Abstrahierendes Zusammenfassen langer Dokumente unter Nutzung des Deep-Learning strukturierter Dokumente
DE102018111905A1 (de) Domänenspezifische Sprache zur Erzeugung rekurrenter neuronaler Netzarchitekturen
DE112018002822T5 (de) Klassifizieren neuronaler netze
DE102014108191A1 (de) Fehlerkorrektur in Tabellen unter Verwendung erkannter funktionaler Abhängigkeiten
DE102014223226A1 (de) Diskriminator, Unterscheidungsprogramm und Unterscheidungsverfahren
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
EP3736817A1 (de) Überprüfung und/oder verbesserung der konsistenz von datenkennzeichnungen bei der medizinischen bildverarbeitung
DE112013001740T5 (de) Textverarbeitungsverfahren zum Aufbauen eines Textmodells
DE102006001780A1 (de) System und Verfahren zur automatischen molekularen Diagnose von ALS basierend auf einer Boosting-Klassifikation
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
LU501881B1 (de) Eine methode und ein system zur vorhersage von mirna-krankheitsassoziationen auf der grundlage von heterogenen graphen
EP2854045B1 (de) Verfahren und System zum Bewerten von erhobenen Messwerten eines Systems
DE102021130081A1 (de) Auf deep learning basierende automatische ontologieextraktion zur erfassung von neuen wissensbereichen
DE102022201753A1 (de) Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung
DE102020206135A1 (de) Vorrichtung und Verfahren zum Bestimmen wenigstens eines Teils eines Knowledge Graphs
DE102007044380A1 (de) Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes
DE102021124445A1 (de) Metamerkmal-trainingsmodelle für maschinenlernalgorithmen
DE112021003761T5 (de) Prädiktive modelle mit zerlegbaren hierarchischen ebenen, die konfiguriert werden, um interpretierbare resultate zu erzeugen
WO2005003368A2 (de) Verfahren, computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse eines regulatorischen genetischen netzwerks einer zelle
DE102004030296B4 (de) Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
DE102005030136B4 (de) Verfahren zur rechnergestützten Simulation von biologischen RNA-Interferenz-Experimenten
DE102004007215A1 (de) Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle
DE112022001967T5 (de) Klassifizierung von zellkernen mit vermeidung von artefakten
DE102022115101A1 (de) Automatisierter entwurf von architekturen künstlicher neuronaler netze
DE112021007611T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection