DE102004030296B4 - Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle - Google Patents

Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle Download PDF

Info

Publication number
DE102004030296B4
DE102004030296B4 DE102004030296A DE102004030296A DE102004030296B4 DE 102004030296 B4 DE102004030296 B4 DE 102004030296B4 DE 102004030296 A DE102004030296 A DE 102004030296A DE 102004030296 A DE102004030296 A DE 102004030296A DE 102004030296 B4 DE102004030296 B4 DE 102004030296B4
Authority
DE
Germany
Prior art keywords
network
regulatory
cell
causal
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102004030296A
Other languages
English (en)
Other versions
DE102004030296A1 (de
Inventor
Mathäus Dejori
Martin Dr. Stetter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102004030296A priority Critical patent/DE102004030296B4/de
Priority to US11/155,554 priority patent/US20060004529A1/en
Publication of DE102004030296A1 publication Critical patent/DE102004030296A1/de
Application granted granted Critical
Publication of DE102004030296B4 publication Critical patent/DE102004030296B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines kausalen Netzes,
– welches kausale Netz das regulatorische genetische Netzwerk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks repräsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen den Genen des regulatorischen genetischen Netzwerks repräsentieren, und
– welches kausale Netz unter Verwendung eines rechnergestützten Strukturlernverfahrens auf Grundlage von Gen-Expressionsmustern an das regulatorische genetische Netzwerk angepasst wird, wobei die Knoten und die Kanten des kausalen Netzes zumindest strukturell an das regulatorische genetische Netzwerk der Zelle angepasst werden,
dadurch gekennzeichnet, dass
a) unter Verwendung eines Vorwissens über eine ausgewählte regulatorische Wechselwirkung zwischen zwei Genen eine a-priori-Information für die die ausgewählte regulatorische Wechselwirkung repräsentierende Kante ermittelt wird,
b) bei der Anpassung des kausalen Netzes an das regulatorische genetische Netzwerk unter Verwendung des Strukturlernverfahrens die a-priori-Information berücksichtigt wird.

Description

  • Die Erfindung betrifft eine Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines statistischen Verfahrens.
  • Aus [1] sind Grundlagen eines regulatorischen genetischen Netzwerks einer Zelle bekannt. Unter einem solchen regulatorischen genetischen Netzwerk seien dabei im Folgenden insbesondere regulatorische Wechselwirkungen zwischen Genen einer Zelle verstanden.
  • Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schätzungsweise 20.000 bis 40.000 Gene, von denen jeweils eine biologisch bestimmte Anzahl – abhängig von einer Spezialisierung einer Zelle – in Form einer DNA oder eines Teils einer DNA in einer Zelle vorhanden sind.
  • Als ein Gen wird dabei ein nicht notwendigerweise zusammenhängender Abschnitt dieser DNA bezeichnet, der einen genetischen Code für ein Protein oder auch für eine Gruppe von Proteinen (Eiweißstoffe) bzw. für eine Erzeugung eines Proteins oder einer Proteingruppe enthält. Insgesamt beinhalten die Gene einen genetischen Code für etwa eine Million Proteine.
  • Ein Wechselspiel bzw. die Wechselwirkungen der Gene untereinander sowie mit den Proteinen stellt den wichtigsten Teil einer Maschinerie (regulatorisches genetisches Netzwerk) dar, die einer Entwicklung eines menschlichen Körpers aus einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.
  • Auch aus [1] ist bekannt, dass sogenannte Gen-Expressionsraten, welche ein Gen-Expressionsmuster bilden, eine Beschreibung bzw. Repräsentation eines regulatorischen genetischen Netzwerks bzw. eines aktuellen Zustands des regulatorischen genetischen Netzwerks liefern.
  • Vereinfacht oder anschaulich ausgedrückt repräsentiert somit ein Gen-Expressionsmuster einer Zelle einen Zustand des regulatorischen genetischen Netzwerks dieser Zelle.
  • Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz-Genexpressions-Messungen (Microarray-Daten) diese Gen-Expressionsraten messbar sind. Die Microarray-Daten beschreiben wiederum Momentaufnahmen des Gen-Expressionsmusters.
  • Weiter ist bekannt, dass sogenannte funktionale Pfade in einer bestimmten Zelle oder einem bestimmten Gewebe Prozesse eines Stoffwechsels, einer Genregulation, eines Transports und einer Signaltransduktion beschreiben bzw. widerspiegeln.
  • Grundsätzlich können zelluläre, molekulare Beziehungen in direkte und indirekte Protein-Protein-Wechselwirkungen unterteilt werden.
  • a) Indirekte Protein-Protein-Wechselwirkungen (1, 2)
  • a1) Stoffwechsel und Stoffwechselpfade
  • Der Stoffwechsel kann als Summe aller in einer Zelle vorkommenden enzymkatalysierten Reaktionen definiert werden.
  • Dabei kann der Stoffwechsel in konzeptionelle Einheiten, so genannte Stoffwechselpfade, unterteilt werden, die durch gemeinsame Substrate in komplexen Netzwerken miteinander verflochten sind (vgl. 4).
  • Der Stoffwechsel hat zwei Hauptfunktionen:
    • (1) Der Stoffwechsel liefert Energie, die zur Erhaltung einer internen Zusammensetzung der Zelle und zur Unterstützung ihrer Funktionen erforderlich ist.
    • (2) Weiter liefert der Stoffwechsel Metaboliten, die die Zelle benötigt, um ihre Bestandteile und Produkte zu synthetisieren.
  • Die Menge aller möglichen Stoffwechselreaktionen kann als Graph (4) mit Kanten und Knoten dargestellt werden. Der Stoffwechsel-Graph umfasst dabei zwei Arten von Knoten, nämlich Metaboliten und Enzyme. Die Kanten des Graphs stellen Substratreaktionen und Reaktion-Produkt-Beziehungen dar.
  • 1 zeigt – graphisch verdeutlicht – eine indirekte Protein-Protein-Wechselwirkung, bei der ein Enzym e2 1000 durch ein Enzym e1 1100 mithilfe eines Substrats s1 1200 reguliert wird, im Ausschnitt.
  • So katalysiert nach 1 das Enzym e1 1100 das Substrat s1 1200, das vom Enzym e2 1000 benötigt wird. Eine Abhängigkeit 1101 des Substrats s1 1200 vom Enzym e1 1100 ist in 1 dargestellt. Ferner zeigt 1 eine Abhängigkeit 1102 des Enzyms e2 1000 vom Substrat s1 1200. Damit interagiert e1 1100 mit e2 1000 durch Substrat s1 1200. Da fast alle Enzyme Proteine sind, kann dies als eine indirekte Protein-Protein-Wechselwirkung angesehen werden.
  • a2) Regulation der Genexpression
  • Eine die Genexpression betreffende grundlegende Frage ist, durch welche Faktoren diese gesteuert wird. Die Genexpression wird auf vielen molekularen Ebenen reguliert, beginnend mit der DNA-Ebene durch DNA-Aufwindungsprozesse bis zur mRNA-Ebene durch Transkriptionsregulation.
  • 2 zeigt – graphisch verdeutlicht –, wie die Regulation der Genexpression als eine indirekte Protein-Protein-Wechselwirkung interpretiert werden kann.
  • So reguliert nach 2 ein Protein p1 2000 die Expression eines Gens 2200, das seinerseits für ein Protein p2 2100 kodiert. Dies ist in 2 als Regulation 2101 und Kodierung 2102 gezeigt. Graphisch verdeutlicht erscheint es somit, dass p1 2000 indirekt mit p2 2100 interagiert.
  • b) Direkte Protein-Protein-Wechselwirkung (3)
  • Viele Zellprozesse erfordern spezifische Wechselwirkungen zwischen verschiedenen Proteinen.
  • Eine sogenannte posttranslationale Modifizierung dient als wichtiger Mechanismus zur Modulation des Aufbaus, der Funktion, der Aktivität und Halbwertszeit vieler Proteine.
  • Eine Phosphorylierung, d.h. die kovalente Bindung einer Phosphatgruppe an entweder Serin, Threonin oder Tyrosin, ist die häufigste Modifizierung.
  • Die Phosphorylierung, darstellbar als Fall einer direkten Protein-Protein-Wechselwirkung, ist in 3 – graphisch verdeutlicht – dargestellt.
  • So wird nach 3 ein Protein p2 3100 von einem Protein p1 3000 durch die Bindung 3201 einer Phosphatgruppe p+ 3200 (Phosphorylierung) modifiziert. Diese Interaktion kann als eine direkte Protein-Protein-Wechselwirkung angesehen werden.
  • Aus der Literatur sind Zusammenstellungen genetisch-biologischer Informationen, wie eine Datenbank TRANSFAC oder eine Datenbank Kyoto Encyclopedia of Genes and Genomes (KEGG), bekannt.
  • TRANSFAC ist eine Datenbank über eukaryotische, cis-aktive regulatorische DNA-Elemente und trans-aktive Faktoren, die alles von der Hefe bis zum Menschen abdeckt.
  • TRANSFAC bietet Informationen über Transkriptionsfaktoren, ihre genomischen Bindungsstellen sowie ihre DNA-Bindungsprofile.
  • Der zentrale Teil der Datenbank besteht in der Beschreibung spezifischer Protein-DNA-Wechselwirkungen, die für die Transkription von regulatorischer Bedeutung sind.
  • Die Daten der TRANSFAC wurden im Allgemeinen der Originalliteratur entnommen, gelegentlich auch aus anderen Zusammenstellungen [15, 16], die geeignete Angaben enthalten.
  • Die Kyoto Encyclopedia of Genes and Genomes (KEGG) ist ein Versuch, das derzeitige Wissen der Molekular- und Zellbiologie in Bezug auf Informationspfade, die aus interagierenden Molekülen oder Genen bestehen, zu computerisieren und Links aus den durch die Genom-Sequenzierungsprojekte erstellten Genkatalogen zur Verfügung zu stellen.
  • 4 zeigt – graphisch verdeutlicht – einen Ausschnitt, d.h. einen Informationspfad, aus der KEGG, einen sogenannten Methionin-Biosynthesepfad in S. cerevisiae 4000.
  • 4 zeigt als Knoten symbolisierte Metaboliten 4100. Reaktionen, nach 4 durch Kanten 4200 dargestellt, sind mit der EC-Nummer 4300 des reaktionsspezifischen Enzyms gekennzeichnet.
  • Viele Krankheiten und Fehlfunktionen des Körpers gehen auf Störungen des regulatorischen genetischen Netzwerks zurück, welche sich in einem stark veränderten Gen-Expressionsverhalten (Gen-Expressionsraten) bzw. einem veränderten Gen-Expressmuster einer Zelle widerspiegeln.
  • Somit stellt ein Verständnis des regulierenden genetischen Netzwerks einen wichtigen Schritt auf dem Weg zu einer Charakterisierung und einem Verstehen von genetischen Mechanismen sowie in weiterer Folge zu einer Identifizierung von sogenannten dominanten oder Funktionsstörungen auslösenden Genen dar, welche den Krankheiten oder Fehlfunktionen zugrunde liegen.
  • Beispielsweise kann in einer Krebsforschung, bei der die Identifizierung von Geschwülste und Tumore unterdrückenden Genen eine Schlüsselrolle spielt, die Kenntnis neuer potenzieller Onkogene und ihre Wechselwirkung mit anderen Genen ein Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebserkrankungen) sein, welche eine Umwandlung normaler Zellen in bösartige Krebszellen bestimmen.
  • Weitergehend ist für eine Entwicklung von verbesserten Medikamenten und Therapien zur Bekämpfung von genetischen Krankheiten daher ebenfalls ein quantitatives Verständnis des regulatorischen genetischen Netzwerks einer Zelle erforderlich.
  • So wirken einige Medikamente als Agonisten bzw. Antagonisten spezifischer Zielproteine, d. h. sie verstärken oder schwächen die Funktion eines Proteins mit entsprechender Rückwirkung auf das regulatorische genetische Netzwerk mit dem Ziel, dieses zurück in einen normalen Funktionsmodus zu bringen.
  • Aus [2] ist eine Beschreibung eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines statistischen Verfahrens, eines kausalen Netzes, bekannt.
  • Aus [3, 5] ist ein kausales Netz, ein Bayesianisches (Bayessches) Netzwerk, bekannt.
  • Bayes'sche Netzwerke
  • Ein Bayes'sches Netzwerk B ist ein spezieller Typ der Darstellung einer gemeinsamen multivariaten Wahrscheinlichkeitsdichtefunktion (WDF) einer Menge von Variablen X durch ein graphisches Modell, welches aus zwei Teilen besteht.
  • Es ist durch einen gerichteten azyklischen Graphen (directed acyclic graph, DAG) G – der erste Bestandteil – definiert, in welchem jeder Knoten i = 1,..., n einer Zufallsvariablen Xi entspricht.
  • Die Kanten zwischen den Knoten repräsentieren statistische Abhängigkeiten und können als Kausalzusammenhänge zwischen ihnen interpretiert werden.
  • Der zweite Bestandteil des Bayes'schen Netzwerkes ist die Menge von bedingten WDFen P (Xi|Pai, θ, G), welche mittels eines Vektors θ parametriert sind.
  • Diese bedingten WDFen spezifizieren die Art der Abhängigkeiten der einzelnen Variablen i von der Menge ihrer Elternknoten (Parents) Pai. Somit kann die gemeinsame WDF in die Produktform
    Figure 00070001
    zerlegt werden (Markov-Unabhängigkeit).
  • Der DAG eines Bayes'schen Netzwerkes beschreibt auf eindeutige Weise die bedingten Abhängigkeits- und Unabhängigkeitsbezeichnungen zwischen einer Menge von Variablen, jedoch hat im Gegensatz dazu eine gegebene statistische Struktur der WDF keinen eindeutigen DAG zur Folge.
  • Vielmehr kann gezeigt werden, dass zwei DAG ein und dieselbe WDF beschreiben, dann und nur dann, wenn sie dieselbe Menge von Kanten und dieselbe Menge von "Colliders" aufweisen, wobei ein Collider eine Konstellation ist, in welcher wenigstens zwei gerichtete Kanten zu demselben Knoten führen.
  • Weitere Informationen zur Verwendung statistischer Verfahren, insbesondere im Umfeld biologischer und genetischer Erkenntnisse, sind aus [11] bis [14] bekannt und stellen insbesondere hier mit einzubeziehendes Fachwissen eines Fachmanns dar.
  • Die WO 03/027262 A2 beschreibt ein Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines kausalen Netzes. Hierbei wird das regulatorische genetische Netzwerk in einem ersten Schritt ermittelt und in einem nachfolgenden Schritt anhand anderer biologischer Datenbanken validiert.
  • Aus der WO 2004/047020 A1 ist ebenfalls ein Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle bekannt. Hierbei wird ein Netzwerk aus der KEGG-Datenbank herangezogen, um das geschätzte regulatorische genetische Netzwerk zu validieren; es wird dabei überprüft, wie viele Kanten übereinstimmend mit der KEGG-Datenbank, also zutreffend, geschätzt wurden.
  • Aus Kim S. Y. et al., Dynamic Bayesian Network and Nonparametric Regression Model for Inferring Gene Networks, Genome Informatics (2002) 13, S. 371–372, ist ebenfalls ein Verfahren bekannt, bei dem ein der KEGG-Datenbank entnommenes Netzwerk dazu herangezogen wird, um das geschätzte regulatorische genetische Netzwerk zu validieren.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, welches eine Analyse eines regulatorischen genetischen Netzwerks einer Zelle, beispielsweise repräsentiert durch mindestens ein Gen-Expressionsmuster der Zelle, ermöglicht.
  • Ferner liegt der Erfindung die Aufgabe zugrunde, ein Verfahren anzugeben, welches es ermöglicht bzw. welches ein Instrument schafft, mit welchem grundlegende Zusammenhänge genetischer, biologischer Vorgänge in einer Zelle analysiert und veranschaulicht werden können.
  • Darüber hinaus soll die Erfindung es ermöglichen, ein bestimmtes Gen, wie ein defektes Gen, beispielsweise ein Onko- oder Tumor-Gen, in dem regulatorischen genetischen Netzwerk einer Zelle zu identifizieren.
  • Weiter soll die Erfindung eine Simulation und/oder eine Analyse einer Wirkweise eines Medikaments auf das regulatorische genetische Netzwerk einer Zelle ermöglichen.
  • Diese Aufgabe wird durch das Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle mit den Merkmalen gemäß dem unabhängigen Patentanspruch gelöst.
  • Bei dem grundlegenden Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle wird ein kausales Netz verwendet, welches das regulatorische genetische Netzwerk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks repräsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen den Genen des regulatorischen genetischen Netzwerks repräsentieren.
  • Dieses kausale Netz wird unter Verwendung eines Strukturlernverfahrens an das regulatorische genetische Netzwerk angepasst, wobei die Knoten und die Kanten des kausalen Netzes zumindest strukturell an das regulatorische genetische Netzwerk der Zelle angepasst werden.
  • Kennzeichnend wird hier unter Verwendung eines Vorwissens über eine ausgewählte regulatorische Wechselwirkung zwischen zwei Genen eine a-priori-Information für die die ausgewählte regulatorische Wechselwirkung repräsentierende Kante ermittelt.
  • Diese, d.h. die a-priori-Information für die die ausgewählte regulatorische Wechselwirkung repräsentierende Kante, wird nun bei der Anpassung des kausalen Netzes an das regulatorische genetische Netzwerk unter Verwendung des Strukturlernverfahrens berücksichtigt.
  • Das Computerprogramm mit Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Das Computerprogramm mit Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner nachfolgend erläuterten Weiterbildungen.
  • Der Erfindung liegen grundlegende, nicht triviale Erkenntnisse, deren Anwendung und Umsetzung zugrunde.
  • So wird erkannt, dass eine probabilistische Semantik eines kausalen Netzes, wie eines Bayes'schen Netzwerkes, zur Analyse von Gen-Expressionsraten, beispielsweise gegeben in Form von Microarray-Daten, sehr gut geeignet ist, da sie an die stochastische Natur sowohl von biologischen Prozessen als auch von mit einem Rauschen behafteten Experimente angepasst ist.
  • Ferner wird, anschaulich gesehen, ein Effekt eines Expressionszustandes bestimmter Gene auf ein globales Gen-Expressionsmuster (inverse Modellierung) geschätzt, indem ein resultierendes Gen-Expressionsmuster – erhältlich aus dem kausalen Netz – analysiert wird.
  • Weiter liegt dem Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle die nicht triviale und erfinderische Erkenntnis zugrunde, dass durch Einführung eines Strukturpriors in einem Bayes'schen Schätzer Vorwissen über regulatorische Beziehungen des regulatorischen genetischen Netzwerks berücksichtigt werden bzw. miteinbezogen werden kann.
  • Somit kann die Erfindung auch anschaulich in einer Schätzung regulatorischer Beziehungen zwischen den Genen eines Organismus aus statistischen Daten, wie den Genexpressionsdaten, unter Miteinbeziehung von unscharfem Vorwissen über regulatorische Beziehungen gesehen werden.
  • Durch die nicht triviale Einführung eines Strukturpriors in einem Bayes'schen Schätzer wird ein datengetriebenes Schätzverfahren durch Vorwissen geführt. Die Einführung des Priors über die regulatorischen Beziehungen zwischen Genen erlaubt einen Grad des Wissens über das Vorhandensein und die Art der Beziehungen festzulegen.
  • Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Die im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf die Verfahren als auch auf die Anordnung.
  • Die Erfindung und die im weiteren beschriebenen Weiterbildungen können sowohl in Software als auch in Hardware, beispielsweise unter Verwendung einer speziellen elektrischen Schaltung, realisiert werden.
  • Ferner ist eine Realisierung einer im weiteren beschriebenen Weiterbildung möglich durch ein computerlesbares Speichermedium, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Weiterbildung ausführt.
  • Auch kann die im weiteren beschriebene Weiterbildung durch ein Computerprogrammerzeugnis realisiert sein, welches ein Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Weiterbildung ausführt.
  • Bei einer bevorzugten Weiterbildung ist das Vorwissen eine Information über einen funktionellen Pfad, insbesondere einen Stoffwechselpfad, einer Zelle. Ein solcher funktioneller Pfad ist insbesondere geeignet zur Beschreibung von Wechselwirkungen zwischen Stoffwechselprodukten.
  • Auch kann der funktionelle Pfad eine Wechselwirkung zwischen einer Genregulation, einem Transport oder einer Signaltransduktion beschreiben.
  • Bevorzugt ist die a-priori-Information mindestens eine a-priori-Wahrscheinlichkeit für ein Vorliegen oder Nichtvorliegen einer Markov-Beziehung zwischen Knoten des kausalen Netzes oder für ein Vorliegen oder Nichtvorliegen einer Markov-Beziehung einer Kante des kausalen Netzes.
  • Bei der bevorzugten Weiterbildung werden mehrere a-priori-Informationen für mehrere die jeweiligen ausgewählten regula torischen Wechselwirkungen repräsentierenden Kanten ermittelt.
  • Auch kann bei der Ermittlung der a-priori-Information unter Verwendung des Vorwissens die regulatorische Wechselwirkung zumindest als Teil eines gerichteten Graphs interpretiert werden, wobei der Teil des gerichteten Graphs eine direkte oder indirekte, gerichtete Protein-Protein-Wechselwirkung sein kann.
  • Das Strukturlernen kann unter Verwendung einer Bewertungsfunktion, beispielsweise eines Bayes'schen Scores, durchgeführt werden, welche insbesondere gebildet wird aus einer marginalen Likelihood-Wahrscheinlichkeit und einer a-priori-Wahrscheinlichkeit einer Struktur des kausalen Netzes.
  • Dabei kann eine Annahme zweckmäßig sein, nämlich dass die a-priori-Wahrscheinlichkeit der Struktur des kausalen Netzes zerlegbar ist.
  • In einer Weiterbildung wird als kausales Netz ein Bayesianisches bzw. Bayes'sches Netz verwendet, dessen Struktur insbesondere von einem Typ DAG (directed acylic graph) ist.
  • Auch kann vorgesehen werden, dass das kausale Netz unter Verwendung von Gen-Expressionsmustern trainiert wird, wobei die Knoten und die Kanten des kausalen Netzes angepasst werden.
  • Ferner ist es zweckmäßig, dass die Gen-Expressionsmuster, bestimmt werden unter Verwendung einer DNA-Micro-Array-Technik.
  • Bei einer Ausgestaltung sind die Gen-Expressionsmuster für das Training Gen-Expressionsmuster eines genetischen regulatorischen Netzwerks einer kranken Zelle.
  • Dabei kann beispielsweise die kranke Zelle eine Krebszelle sein, insbesondere eine Krebszelle mit akuter lymphoblastischer Leukämie.
  • Ferner kann auch die kranke Zelle ein Onkogen, insbesondere ein Onkogen für akute lymphoblastische Leukämie, aufweisen.
  • Ferner eignet sich die erfinderische Vorgehensweise oder Weiterbildung davon insbesondere zur Identifizierung eines dominanten Gens und/oder eines degenerierten/mutierten/kranken/onkogenen/Tumor-Suppressor Gens.
  • Auch eignet sie sich zur Identifizierung einer Tumorzelle, beispielsweise im Zusammenhang mit einer Krebserkennung.
  • Ferner ist die erfinderische Vorgehensweise insbesondere geeignet zu einer Ursachenanalyse für ein abnormales Gen-Expressionsmuster/Gen-Expressrate.
  • Auch kann sie eingesetzt werden zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
  • Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
  • Es zeigen
  • 1 eine Skizze, die eine indirekte Protein-Protein-Wechselwirkung zeigt, bei der ein Enzym e2 durch ein Enzym e1 mithilfe eines Substrats reguliert wird;
  • 2 eine Skizze, die eine indirekte Protein-Protein-Wechselwirkung zeigt, bei der ein Protein p1 mit einem Protein p2 durch Regulation der Genexpression interagiert;
  • 3 eine Skizze, die eine direkte Protein-Protein-Wechselwirkung zeigt, bei der ein Protein p1 mit einem Protein p2 durch Phosphorylierung interagiert;
  • 4 eine Skizze, die einen Ausschnitt, einen Informationspfad aus der KEGG, einen sogenannten Methionin-Biosynthesepfad in S. cerevisiae, zeigt;
  • 5 eine Skizze, die einen Stoffwechselpfad aus einem Schwefelmetabolismus von S. cerevisiae zeigt.
  • Ausführungsbeispiel: Analyse eines regulatorischen genetischen Netzwerks unter Verwendung kausaler Netze – Integration biologischer a-priori-Informationen für das Erlernen von Kontrollnetzwerken
  • Einleitung/Überblick
  • Zelluläre molekulare Netzwerksysteme entstehen durch komplexe Wechselwirkungen zwischen Proteinen, DNA, RNA und anderen Molekülen.
  • Das komplexe regulatorische Netzwerk zwischen Genen und Proteinen, das genetische Netzwerk, bildet einen zentralen Teil dieses zellulären Lebensmechanismus, wobei seine unterschiedlichen Betriebsarten die Vielzahl biochemischer Vorgänge in einer lebenden Zelle kontrollieren.
  • Ein Hauptinteresse der postgenomischen Ära besteht daher darin, die Struktur und Funktion genetischer Netzwerke im normalen Zellbetrieb, bei pathologischen Zuständen nach Genschädigung und bei der Antwort auf Eingriffe von außen, wie z.B. Behandlung mit Arzneistoffen oder extrazelluläre Signale, zu verstehen.
  • Bei der ausführungsgemäßen Vorgehensweise wird eine Bayes'sche Statistik für die Analyse und Abbildung der Topologie genetischer regulatorischer Netzwerke angewandt.
  • Durch die Verwendung lernender Bayes'scher Netze [3, 6, 7, 9] wird die Struktur eines genetischen Netzwerks aus einem Satz von Genexpressions-Messungen [4] abgeschätzt, wobei das Bayes'sche Netz das genetische Netzwerk strukturell und/oder funktionell abbildet.
  • Weiter wird bei dem hier beschriebenen, ausführungsgemäßen Vorgehen die Netzwerktopologie, beispielsweise aus Mikroarray-Daten, mittels der Bayes'schen Statistik gelernt – und damit das regulatorische genetische Netzwerk (funktionell) nachgebildet bzw. erzeugt –, wobei hier allerdings auf eine besondere Fähigkeit der Bayes'schen Statistik zurückgegriffen und diese miteinbezogen wird.
  • Die Bayes'sche Statistik ermöglicht eine Integration von Vorwissen bzw. a-priori-Wissen bei der Anpassung eines Bayesschen Netzes an die Topologie eines genetischen regulatorischen Netzwerkes, beispielsweise bekannte Wechselwirkungen zwischen bestimmten Genen.
  • Die Integration von a-priori-Wissen kann dann helfen, Strukturen zu bestrafen, die keinen biologischen Sinn ergeben, und im Gegenzug biologisch sinnvolle zu bevorzugen.
  • Methoden
  • Bayes'sche Netzwerke aus Expressionsmustern
  • Bayes'sche Netzwerke
  • Eine Dichteabschätzung von Genexpressionsdaten ist in [7, 8, 9] beschrieben und wird an dieser Stelle nur kurz zusammengefasst.
  • Bei einem Bayes'schen Netzwerk B handelt es sich um eine spezifische, zweiteilige Darstellungsform einer gemeinsamen multivariaten Wahrscheinlichkeitsdichtefunktion (probability density function, pdf) P eines Satzes von Variablen X mittels eines graphischen Modells.
  • Es ist durch einen gerichteten azyklischen Graphen (directed acyclic graph, DAG) G – einen ersten Bestandteil – definiert, bei dem jeder Knoten i = 1,..., n einer beliebigen Variablen Xi entspricht. Die Kanten zwischen den Knoten stellen statistische Abhängigkeiten dar und lassen sich unter bestimmten Bedingungen [10] als Kausalbeziehungen zwischen ihnen interpretieren.
  • Der Satz von Eltern Pa(i) von i wird durch die Graphstruktur G als Knoten, die eine gerichtete Kante zu i aussenden, bestimmt.
  • Der zweite Teil des Bayes'schen Netzes besteht aus dem Satz bedingter pdfs P(Xi|Pai, θ, G), die durch einen Vektor θ parametriert werden. Die Verbindung zwischen G und θ wird durch eine Markov-Unabhängigkeit definiert. Jede Variable Xi ist, bei gegebenen Elternknoten Pai in G, von seinen Nicht-Nachkommen unabhängig.
  • Diese bedingten pdfs bestimmen die Art von Abhängigkeiten für jede Variable i von seinen Eltern Pai. So lässt sich die gemeinsame pdf in die Produktform
    Figure 00190001
    zerlegen.
  • Durch den DAG eines Bayes'schen Netzwerks werden die bedingten Abhängigkeits- und Unabhängigkeitsbeziehungen zwischen einem Satz von Variablen eindeutig beschrieben, doch kann im Gegensatz dazu durch eine gegebene statistische Struktur der pdf nicht auf einen eindeutigen DAG geschlossen werden.
  • Stattdessen lässt sich zeigen, dass zwei DAGs dieselbe pdf beschreiben, wenn, und zwar nur wenn sie denselben Kantensatz und denselben Collidersatz aufweisen, wobei es sich bei einem Collider um eine Konstellation handelt, bei der wenigstens zwei gerichtete Kanten im selben Knoten zusammenlaufen.
  • DAGs der selben Äquivalenzklasse lassen sich mit einem einzigen partiellen gerichteten Graphen (partial directed graph, PDAG) darstellen, wobei alle reversiblen Kanten in ungerichteter Form gezeichnet werden.
  • Bei der Modellierung eines regulatorischen genetischen Netzwerks durch ein Bayes'sches Netz sind die Gene bzw. ihre entsprechenden Proteine durch Knoten symbolisiert. Dabei wird angenommen, dass die regulatorischen Mechanismen durch Kanten zwischen zwei Knoten widergespiegelt werden.
  • Sind die Kanten gerichtet, so wird dies als Richtung der Regulation interpretiert. Die Qualität der Regulation (Erleichterung oder Unterdrückung) ist in der bedingten Wahrscheinlichkeitsverteilung des betroffenen Gens unter Vorgabe seiner Regulatoren codiert.
  • Strukturelles Lernen
  • Das Erlernen Bayes'scher Netzwerke aus Daten ist zu einem zu nehmend aktiven Forschungsbereich geworden und kann in zwei Problemstellungen unterteilt werden.
  • Im ersten Fall ist die Netzwerkstruktur bereits bekannt und nur die Parameter müssen aus einer Datenmenge gelernt werden.
  • Die zweite Aufgabe, das strukturelle Lernen, ist schwieriger, da außer den Parameterwerten auch die Netzwerkstruktur aus der Datenmenge gelernt werden muss (strukturelles Lernen).
  • Das Verfahren des strukturellen Lernens lässt sich wie folgt angeben: Es sei angenommen dass D = {d1, d2,..., dN} ein Datensatz aus N unabhängigen Beobachtungen ist, wobei es sich bei jedem Datenpunkt um einen n-dimensionalen Vektor mit den Komponenten d1 = {d l / 1,..., d l / n}, l = 1,..., N handelt.
  • Bewertungsfunktion (Bayes'scher Score)
  • Um die Güte der Anpassung eines Netzwerks in Bezug auf die Datenmenge D zu bewerten, wird dem Graph G durch eine statistisch motivierte Bewertungsfunktion S ein Wert S(G) (Bayesscher Score) zugeordnet.
  • Diese Bewertungsfunktion S ist aus den Methoden der Bayesschen Statistik hergeleitet. Sie ist proportional zur a-posteriori-Wahrscheinlichkeit einer Netzwerkstruktur bei gegebenen Daten:
    Figure 00200001
  • P (D|G) ist die marginale Likelihood-Wahrscheinlichkeit, P (G) die a-priori-Wahrscheinlichkeit der Struktur und P(D) wird Evidence genannt.
  • Da die Evidence P(D) über die verschiedenen Strukturen konstant ist, kann sie ignoriert werden.
  • Des Weiteren kann die a-priori-Wahrscheinlichkeit der Struktur P(G) bei nicht vorhandenem a-priori-Wissen über die Strukturen durch eine nicht-informative a-priori-Wahrscheinlichkeit ersetzt werden, also P(G) = const..
  • Wenn beide a-priori-Wahrscheinlichkeiten ignoriert werden, ist das Problem jetzt darauf reduziert, die Struktur mit der zu den entsprechenden Daten besten marginalen Likelihood-Wahrscheinlichkeit zu finden.
  • In anderen Worten: Wie wahrscheinlich ist es, dass die Daten aus der Struktur generiert worden sind.
  • Figure 00210001
  • Bei der gegebenen Gleichung 1 kann P (D|Θ, G) umgeschrieben werden:
    Figure 00210002
  • Bei einem gegebenen Multinomial-Modell von n Variablen können, wie aus der Literatur bekannt ist, eine Reihe von Annahmen, und zwar vollständige Daten, Parameterunabhängigkeit und Modularität der Parameter, angenommen werden.
  • Damit und in Kombination mit a-priori-Dirichletverteilungen kann Gleichung 4 umgeschrieben werden:
    Figure 00210003
    wobei ri die Menge von Werten bezeichnet, die die Variable Xi annehmen kann, und qi eine Menge von Werten bezeichnet, die die Eltern von Xi annehmen können.
    Figure 00220001
    ist die Gammafunktion; für positive ganze Zahlen ist Γ(x) = (x – 1)!.
  • Nijk bezeichnet die Anzahl der Fälle in der Datenmenge D, bei denen d l / 1, = k und Pai (dl) = j ist, und
    Figure 00220002
    drückt Parameter der a-priori-Dirichletverteilungen aus und
    Figure 00220003
    was oft a priori als nicht-informativer Parameter verwendet wird.
  • A-priori-Wahrscheinlichkeit der Struktur
  • Ein Vorteil der Bayes'schen Statistik liegt in der Fähigkeit, a-priori-Wissen mit den aus den Daten gewonnenen Informationen zu kombinieren.
  • Daher sollte in Bereichen, in denen a-priori-Wissen über die Struktur zur Verfügung steht, dieses a-priori-Wissen über die a-priori-Wahrscheinlichkeit der Struktur P(G) in das Strukturlernen gemäß der Bewertungsfunktion beim Strukturlernen nach Gleichung 2 bzw. Gleichung 6 integriert werden.
  • Insbesondere dann, wenn die Wahrscheinlichkeitsverteilung der Datenmenge sehr spärlich ist, wie beispielsweise in Microarray-Versuchen, kann die Einbeziehung von a-priori-Wissen in den Strukturlernalgorithmus dessen Leistung erheblich steigern.
  • In diesem Falle zerlegt sich die Bewertungsfunktion S in zwei Teile: S(G|D) = P(D|G)P(G) (6), wobei P(D|G), wie oben beschrieben und nach Gleichung 5 berechenbar, die marginale Likelihood-Wahrscheinlichkeit ist und P(G) die a-priori-Wahrscheinlichkeit der Struktur.
  • Der Einfachheit halber sei angenommen, dass die a-priori-Wahrscheinlichkeit der Struktur zerlegbar ist. Dann kann jede Kante von Knoten i zu Knoten j mit einer Wahrscheinlichkeit pji versehen werden.
  • Dies ist die gemeinsame Wahrscheinlichkeit p(i → j, ¬ j → i), wobei p(i → j, j → i) = 0 – auf Grund der Bedingung der A-zyklizität des Graphen.
  • Damit kann die a-priori-Wahrscheinlichkeit der Struktur zwischen Knoten i und Knoten j mit drei Ausdrücken beschrieben werden: pji, pij und 1 – (pji + pji), die a-priori-Wahrscheinlichkeit für das Nicht-Vorliegen einer Markov-Beziehung zwischen Knoten i und Knoten j.
  • Wenn a priori keine Informationen über die Markov-Beziehung zwischen Knoten i und Knoten j vorliegen, haben alle drei oben beschriebenen Ausdrücke dieselbe Wahrscheinlichkeit von 1/3.
  • Falls aus Vorwissen bekannt ist, dass es eine Kante zwischen i und j geben muss, jedoch keine Information zur Richtung der Kante verfügbar ist, haben pji und pij denselben Wert von 1/2.
  • Andernfalls, d.h. bei Vorliegen der Richtungsinformation für die Kante i,j, hat das jeweilige pji bzw. pij den Wert von 1.
  • Struktur-Beispiel
  • Die Matrix P(G) stellt die a-priori-Informationen über die Struktur G eines Bayes'schen Netzwerks B dar, das aus 3 Variablen X1, X2 und X3 besteht.
  • Figure 00230001
  • Für zwei Markov-Beziehungen, nämlich X2–X3 und X1–X3, liegen a-priori-Informationen vor.
  • Für X1–X3 besagt die a-priori-Information, dass eine Markov-Beziehung zwischen ihnen bestehen muss, und zwar von X2 nach X3, das gleiche gilt für X1–X3, jedoch ohne Wissen über die Richtung.
  • In diesem Falle erreichen von den 25 möglichen DAG 5 die maximale a-priori-Wahrscheinlichkeit von 1·1/3·1/2 = 0,16.
  • Diese Graphen haben die folgenden Struktureigenschaften: X2 → X3, X1 → X3 oder X3 → X1 und eine beliebige Beziehung zwischen X1 und X2.
  • Zusammen nun mit der marginalen Likelihood-Wahrscheinlichkeit P(D|G), wie oben beschrieben und nach Gleichung 5 berechenbar, kann die Bewertungsfunktion S für das Strukturlernen gemäß Gleichung 6 ermittelt werden, um – beim Strukturlernen – die Netzwerkstruktur zu identifizieren, welche die Daten am besten nachbildet.
  • A-priori-Strukturwahrscheinlichkeit aus der Biologie
  • Im obigen wurden bereits Quellen bzw. Zusammenstellungen genetisch-biologischer Informationen, wie die Datenbank TRANFAC oder die Datenbank Kyoto Encyclopedia of Genes and Genomes (KEGG), genannt, welche eine ungeheure Menge an biologischen Daten, die als strukturelles a-priori-Wissen verwendet werden können, zur Verfügung stellen.
  • Nachfolgend wird gezeigt, wie Vorwissen bzw. a-priori-Wissen aus der Molekularbiologie in einen Strukturlernalgorithmus integriert werden kann.
  • 5 zeigt einen Stoffwechselpfad 5000 aus dem Schwefelmetabolismus von S. cerevisiae.
  • Der Pfad 5000 kann als eine Kette indirekter Protein-Protein-Wechselwirkungen interpretiert werden, wobei jeder Metabolit 5100 das Produkt einer enzymatischen Reaktion 5200 sowie das Substrat für das folgende Enzym 5300 ist.
  • Da Enzyme eine Reaktion nur in einer Richtung katalysieren können, kann der Pfad 5000 als ein gerichteter Graph dargestellt werden, was als strukturelles a-priori-Wissen verwendet werden kann.
  • Der entsprechende Graph G besteht aus 3 Variablen X = {MET16, MET10, MET17}. Die a-priori-Wahrscheinlichkeit P(G) der Struktur kann unter Berücksichtigung des Vorwissens aus den oben genannten Quellen umgeschrieben werden:
    Figure 00250001
  • Gemäß den biologischen Informationen aus oben genannten Quellen kann hier pMET16 MET16 und pMET16 MET17 mit 0,8 (gerundet), eine hohe a-priori-Wahrscheinlichkeit, angenommen werden.
  • Die entsprechenden, umgekehrten Kanten haben eine geringe a-priori-Wahrscheinlichkeit von 0,1 (gerundet), da, wie bereits oben erklärt, Enzyme nur in einer Richtung tätig sind.
  • Nur für die Markov-Beziehung, zwischen MET16 und MET17, kann oben genannten Datenquellen keine a-priori-Information entnommen werden, so dass die Wahrscheinlichkeit für alle drei Wahrscheinlichkeiten (pji, pik, 1 – (pj i + pij)) gerundet 0,3 beträgt.
  • Weiter nun kann gemäß Gleichung 2 bzw. Gleichung 6 zusammen mit der marginale Likelihood-Wahrscheinlichkeit nach Gleichung 5 das Strukturlernen bewertet werden, um die Netzwerkstruktur zu identifizieren, welche die Daten am besten nach bildet.
  • Abschließend wird gesondert ein besonderer Vorteil der Bayes'schen Statistik erwähnt: Die Bayes'sche Statistik ermöglicht, a-priori-Wissen mit den aus Daten gewonnenen Informationen zu kombinieren.
  • Daher sollte in Bereichen, in denen a-priori-Wissen über die Struktur zur Verfügung steht, dieses a-priori-Wissen über die a-priori-Wahrscheinlichkeit der Struktur P(G) in das Strukturlernen gemäß der Bewertungsfunktion beim Strukturlernen nach Gleichung 2 bzw. Gleichung 6 integriert werden.
  • Die Integration von a-priori-Wissen kann dann helfen, Strukturen zu bestrafen, die keinen biologischen Sinn ergeben, z.B. wie hier gezeigt Kante MET10–MET16, und im Gegenzug biologisch sinnvolle zu bevorzugen, wie z.B. MET16–MET10.
  • Zusammenfassung
  • Die Erforschung und das Verständnis von Netzwerken molekularer Wechselwirkungen, ihrer Betriebsweisen unter unterschiedlichen Umständen und ihrer Antwort auf äußere Signale ist eine der Hauptherausforderungen der postgenomischen Ära.
  • Der Datenpool zur Rekonstruktion solcher Netzwerke wächst aufgrund von Techniken mit hohem Durchsatz schnell an. Die erhaltenen Netzwerke sind meistens sehr komplex, so dass die relevanten Informationen über das kartierte System und seine Komponenten nicht intuitiv sichtbar sind und eine zusätzliche ausführliche statistische Analyse erforderlich machen.
  • Bei dem beschriebenen ausführungsgemäßen Vorgehen wird eine Netzwerktopologie, beispielsweise aus Mikroarray-Daten, mittels Bayes'scher Statistik gelernt und damit das regulatorische genetische Netzwerk (funktionell) nachgebildet bzw. erzeugt. Dabei wird auf eine besondere Fähigkeit der Bayes'scher Statistik zurückgegriffen bzw. beim Strukturlernen ein Vorwissen bzw. a-priori-Wissen miteinbezogen.
  • Die Integration von a-priori-Wissen kann dann helfen, Strukturen zu bestrafen, die keinen biologischen Sinn ergeben und im Gegenzug biologisch sinnvolle zu bevorzugen.
  • In diesem Dokument sind folgende Schriften zitiert:
    • [1] Stetter, M., Schürmann, B. and Dejori, M. (2004). Systems Level Modeling of Gene Regulatory Networks, in: Artificial Intelligence Methods and Tools for Systems Biology, Computational Biology Volume 5, Springer, Niederlande, S. 175–195
    • [2] DE 101 59 262 A1
    • [3] Jensen, F. V. (1996). An introduction to Bayesian networks, UCL Press, London, S. 1–31
    • [4] Yeoh E.-J., Ross M. E., Shurtleff S. A., Williams W. K., Petal D. et al. (2002). Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling, Cancer cell 1:133–143
    • [5] Heckerman D., Geiger D. und Chickering D. (1995). Learning Bayesian networks: The combination of knowledge and statistical data, Machine Learning 20:197–243
    • [6] Friedman, N., Goldszmidt, M. und Wyner, A. (1999). Data analysis with bayesian networks: a bootstrap approach, in: Uncertainty in Artificial Intelligence, Proceedings of the Fifteenth Conference, July 30 – August 1, 1999, Royal Institute of Technology (KTH), Stockholm, Sweden, Morgan Kaufmann, San Francisco, California, S. 196–205
    • [7] Friedman, N., Linial, M., Nachman, I. und Pe'er, D. (2000). Using Bayesian network analyze expression data., J. Comput. Biology 7: 601–620
    • [8] Dejori, M. und Stetter, M. (2003). Bayesian inference of genetic networks from gene-expression data: convergence and reliability, Proc. of the 2003 International Conf. on Artificial Intelligence (IC-A1'03), S. 323–327
    • [9] Heckerman, D., Geiger, D. und Chickering, D. (1995). Learning Bayesian networks: The combination of knowledge and statistical data, Machine Learning 20: 197–243
    • [10] Lauritzen, S. L. (1999). Causal Inference from Graphical Models, Aalborg University, Technical report R-99-2021, November 1999, S. 1–51
    • [11] Gavin, A. C., Bosche, M., Krause, R. Grandi, P. et al. (2002). Functional organization of the yeast proteome by systematic analysis of protein complexes, Nature, Vol. 415, 10 January 2002, S. 141–147
    • [12] Baldi, P. und Hatfield, G. W. (2002). DNA microarrays and gene expression, Cambridge university press, Cambridge MA
    • [13] Stetter, M., Deco, G. und Dejori, M. (2003). Large-scale computational modeling of genetic regulatory networks, AI Review, 20: 75–93
    • [14] van Dijk, M.A., Voorhoeve, P.M. und Murre, C. (1993). PBX1 is converted into a transcriptional activator upon acquiring the N-terminal region of E2A in pre-b-cell acute lymphoblastoid leukaemia, Proc. Natl. Acad. Sci. USA, Vol. 90, July 1993, S. 6061–6065
    • [15] Faisst, S. und Meyer, S. (1992). Compilation of vertebrate-encoded transcription factors, Nucleic Acids Research, Vol. 20, No. 1, S. 3–26.
    • [16] Dhawale, S. S. und Lane, A. C., (1993). Compilation of sequence-specific DNA-binding proteins implicated in transcriptional control in fungi, Nucleic Acids Research, Vol. 21, S. 5537–5546

Claims (18)

  1. Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines kausalen Netzes, – welches kausale Netz das regulatorische genetische Netzwerk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks repräsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen den Genen des regulatorischen genetischen Netzwerks repräsentieren, und – welches kausale Netz unter Verwendung eines rechnergestützten Strukturlernverfahrens auf Grundlage von Gen-Expressionsmustern an das regulatorische genetische Netzwerk angepasst wird, wobei die Knoten und die Kanten des kausalen Netzes zumindest strukturell an das regulatorische genetische Netzwerk der Zelle angepasst werden, dadurch gekennzeichnet, dass a) unter Verwendung eines Vorwissens über eine ausgewählte regulatorische Wechselwirkung zwischen zwei Genen eine a-priori-Information für die die ausgewählte regulatorische Wechselwirkung repräsentierende Kante ermittelt wird, b) bei der Anpassung des kausalen Netzes an das regulatorische genetische Netzwerk unter Verwendung des Strukturlernverfahrens die a-priori-Information berücksichtigt wird.
  2. Verfahren nach Anspruch 1, – bei dem das Vorwissen eine Information über einen funktionellen Pfad, insbesondere einen Stoffwechselpfad, einer Zelle ist.
  3. Verfahren nach dem voranstehenden Anspruch, – bei dem der funktionelle Pfad eine Wechselwirkung zwischen Stoffwechselprodukten, einer Genregulation, eines Transports oder einer Signaltransduktion beschreibt.
  4. Verfahren nach mindestens einem der voranstehenden Ansprüche, – bei dem die a-priori-Information mindestens eine a-priori-Wahrscheinlichkeit für ein Vorliegen einer Markov-Beziehung zwischen Knoten des kausalen Netzes oder einer Kante des kausalen Netzes ist.
  5. Verfahren nach mindestens einem der voranstehenden Ansprüche, – bei dem mehrere a-priori-Informationen für mehrere die jeweiligen ausgewählten regulatorischen Wechselwirkungen repräsentierenden Kanten ermittelt werden.
  6. Verfahren nach mindestens einem der voranstehenden Ansprüche, – bei dem bei der Ermittlung der a-priori-Information unter Verwendung des Vorwissens die regulatorische Wechselwirkung zumindest als Teil eines gerichteten Graphs interpretiert wird.
  7. Verfahren nach dem vorangehenden Anspruch, – bei dem der Teil des gerichteten Graphs eine gerichtete Protein-Protein-Wechselwirkung ist.
  8. Verfahren nach einem der vorangehenden Ansprüche, – bei dem als kausales Netz ein Bayes'sches Netz verwendet wird, dessen Struktur insbesondere vom Typ gerichteter azyklischer Graph ist.
  9. Verfahren nach mindestens einem der voranstehenden Ansprüche, – bei dem das Strukturlernen unter Verwendung einer Bewertungsfunktion durchgeführt wird, welche insbesondere gebildet wird aus einer marginalen Likelihood-Wahrscheinlichkeit und einer a-priori-Wahrscheinlichkeit einer Struktur des kausalen Netzes.
  10. Verfahren nach mindestens dem voranstehenden Anspruch, – bei dem die a-priori-Wahrscheinlichkeit der Struktur des kausalen Netzes zerlegbar ist.
  11. Verfahren nach einem der vorangehenden Ansprüche, – bei dem die Gen-Expressionsmuster bestimmt werden unter Verwendung einer DNA-Micro-Array-Technik.
  12. Verfahren nach einem der vorangehenden Ansprüche, – bei dem die Gen-Expressionsmuster für das Training Gen-Expressionsmuster eines genetischen regulatorischen Netzwerks einer kranken Zelle sind.
  13. Verfahren nach einem der vorangehenden Ansprüche, – bei dem die kranke Zelle eine Krebszelle, insbesondere eine Krebszelle mit akuter lymphoblastischer Leukämie ist, welche insbesondere ein Onkogen, insbesondere ein Onkogen für akute lymphoblastische Leukämie, aufweist.
  14. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Identifizierung eines dominanten Gens.
  15. Verfahren nach Anspruch 1 bis 13, – eingesetzt zur Identifizierung einer degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor Zelle und/oder Gens.
  16. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Identifizierung einer Tumorzelle.
  17. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Krebserkennung.
  18. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
DE102004030296A 2004-06-23 2004-06-23 Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle Expired - Fee Related DE102004030296B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102004030296A DE102004030296B4 (de) 2004-06-23 2004-06-23 Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
US11/155,554 US20060004529A1 (en) 2004-06-23 2005-06-20 Method, computer program product with program code segments and computer program product for analysis of a regulatory genetic network of a cell

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004030296A DE102004030296B4 (de) 2004-06-23 2004-06-23 Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle

Publications (2)

Publication Number Publication Date
DE102004030296A1 DE102004030296A1 (de) 2006-01-12
DE102004030296B4 true DE102004030296B4 (de) 2008-03-06

Family

ID=35501780

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004030296A Expired - Fee Related DE102004030296B4 (de) 2004-06-23 2004-06-23 Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle

Country Status (2)

Country Link
US (1) US20060004529A1 (de)
DE (1) DE102004030296B4 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375840A (zh) * 2010-08-19 2012-03-14 浙江中医药大学附属第一医院 一种基于自然语言处理系统的microRNA靶基因的筛选方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003027262A2 (en) * 2001-09-26 2003-04-03 Gni Kk Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries
DE10159262A1 (de) * 2001-12-03 2003-06-18 Siemens Ag Identifizieren pharmazeutischer Targets
WO2004047020A1 (en) * 2002-11-19 2004-06-03 Gni Usa Nonlinear modeling of gene networks from time series gene expression data
WO2004048532A2 (en) * 2002-11-25 2004-06-10 Gni Usa Inferring gene regulatory networks from time-ordered gene expression data using differential equations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003027262A2 (en) * 2001-09-26 2003-04-03 Gni Kk Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries
DE10159262A1 (de) * 2001-12-03 2003-06-18 Siemens Ag Identifizieren pharmazeutischer Targets
WO2004047020A1 (en) * 2002-11-19 2004-06-03 Gni Usa Nonlinear modeling of gene networks from time series gene expression data
WO2004048532A2 (en) * 2002-11-25 2004-06-10 Gni Usa Inferring gene regulatory networks from time-ordered gene expression data using differential equations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, S.Y. u.a.: Dynamic Bayesian Network and Nonparametric Regression Model for Inferring Gene Networks, Genome Informatics (2002) 13, 371-372 *

Also Published As

Publication number Publication date
DE102004030296A1 (de) 2006-01-12
US20060004529A1 (en) 2006-01-05

Similar Documents

Publication Publication Date Title
DE112005002331B4 (de) Verfahren, System und Vorrichtung zur Zusammenstellung und Nutzung von biologischem Wissen
Hadley et al. Refocusing habitat fragmentation research using lessons from the last decade
Smith et al. Dynamic analysis of learning in behavioral experiments
Nueda et al. Discovering gene expression patterns in time course microarray experiments by ANOVA–SCA
DE102005020618B4 (de) Verfahren und Systeme zur Erweiterung, Untersuchung, Verfeinerung und Analyse von biologischen Netzwerken
Leckie et al. Partitioning variation in multilevel models for count data.
Buteneers et al. Real-time detection of epileptic seizures in animal models using reservoir computing
DE112005000569T5 (de) System und Verfahren zur Patientenidentifikation für klinische Untersuchungen unter Verwendung von inhaltsbasiertem Erlangen und Lernen
DE112012001902T5 (de) Vorrichtung, System und Verfahren zur Beurteilung der Wirksamkeit von Arzneistoffen anhand holistischer Analyse und Visualisierung von pharmakologischen Daten
Smith et al. Modeling evidence accumulation decision processes using integral equations: Urgency-gating and collapsing boundaries.
WO2003021478A2 (de) Verfahren und anordnung zur datenauswertung sowie ein entsprechendes computerprogramm-erzeugnis und ein entsprechendes computerlesbares speichermedium
DE112021005910T5 (de) Schnellere abdeckungskonvergenz mit automatischer testparameterabstimmung bei eingeschränkter zufallsverifikation
Panigrahi et al. Selection-adjusted inference: an application to confidence intervals for cis-eQTL effect sizes
DE112018006656T5 (de) 3erzeugen von neuronenmodellen für eine personalisierte medikamentöse therapie
DE10159262A1 (de) Identifizieren pharmazeutischer Targets
DE102004030296B4 (de) Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
DE102005015000A1 (de) Verfahren und System zur Analyse von arraybasierten Komparativhybridisierungsdaten
WO2017202713A1 (de) Verfahren und system zur dokumentation eines diagnostischen tests
DE69432316T2 (de) Automatische erbgut bestimmung
WO2005003368A2 (de) Verfahren, computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse eines regulatorischen genetischen netzwerks einer zelle
DE102005028975B4 (de) Verfahren zur Ermittlung eines Biomarkers zur Kennzeichnung eines spezifischen biologischen Zustands eines Organismus aus mindestens einem Datensatz
Yousefi et al. Real-time point process filter for multidimensional decoding problems using mixture models
DE102005030136B4 (de) Verfahren zur rechnergestützten Simulation von biologischen RNA-Interferenz-Experimenten
WO2022069162A1 (de) Bestimmen von vergleichspatienten basierend auf ontologien
Baspinar et al. A biologically plausible decision-making model based on interacting cortical columns

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee