DE10358332A1 - Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle - Google Patents

Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle Download PDF

Info

Publication number
DE10358332A1
DE10358332A1 DE10358332A DE10358332A DE10358332A1 DE 10358332 A1 DE10358332 A1 DE 10358332A1 DE 10358332 A DE10358332 A DE 10358332A DE 10358332 A DE10358332 A DE 10358332A DE 10358332 A1 DE10358332 A1 DE 10358332A1
Authority
DE
Germany
Prior art keywords
network
cell
gene
regulatory
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10358332A
Other languages
English (en)
Inventor
Mathäus Dejori
Martin Dr. Stetter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10358332A priority Critical patent/DE10358332A1/de
Priority to US11/009,552 priority patent/US20050130212A1/en
Publication of DE10358332A1 publication Critical patent/DE10358332A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft eine Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines kausalen Netzes mit Knoten und Kanten. DOLLAR A Bei dem Analyseverfahren wird für mindestens einen ein Gen repräsentierenden, ausgewählten Knoten des kausalen Netzes unter Verwendung einer Theorie eines skalenfreien Netzes eine Kennzahl ermittelt, welche Kennzahl einen Topologiezustand des ausgewählten Knotens in dem kausalen Netz beschreibt. Unter Verwendung der Kennzahl wird eine Bedeutung des durch den ausgewählten Knoten repräsentierenden Gens in dem regulatorischen genetischen Netzwerk beschrieben.

Description

  • Die Erfindung betrifft eine Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines statistischen Verfahrens.
  • Aus [1] sind Grundlagen eines regulatorischen genetischen Netzwerks einer Zelle bekannt. Unter einem solchen regulatorischen genetischen Netzwerk seien dabei im Folgenden insbesondere regulatorische Wechselwirkungen zwischen Genen einer Zelle verstanden.
  • Ein Genom, d.h. die menschliche Erbsubstanz, umfasst schätzungsweise 20.000 bis 40.000 Gene, von denen jeweils eine biologisch bestimmte Anzahl – abhängig von einer Spezialisierung einer Zelle – in Form einer DNA oder eines Teils einer DNA in einer Zelle vorhanden sind.
  • Als ein Gen wird dabei ein nicht notwendigerweise zusammenhängender Abschnitt dieser DNA bezeichnet, der einen genetischen Code für ein Protein oder auch für eine Gruppe von Proteinen (Eiweißstoffe) bzw. für eine Erzeugung eines Proteins oder einer Proteingruppe enthält. Insgesamt beinhalten die Gene einen genetischen Code für etwa eine Million Proteine.
  • Ein Wechselspiel bzw. die Wechselwirkungen der Gene untereinander sowie mit den Proteinen stellt den wichtigsten Teil einer Maschinerie (regulatorisches genetisches Netzwerk) dar, die einer Entwicklung eines menschlichen Körpers aus einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.
  • Auch aus [1] ist bekannt, dass sogenannte Gen-Expressions-Raten, welche ein Gen-Expressions-Muster bilden, eine Beschreibung bzw. Repräsentation eines regulatorischen genetischen Netzwerks bzw. eines aktuellen Zustands des regulatorischen genetischen Netzwerks liefern.
  • Vereinfacht oder anschaulich ausgedrückt repräsentiert somit ein Gen-Expressions-Muster einer Zelle einen Zustand des regulatorischen genetischen Netzwerks dieser Zelle.
  • Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz-Genexpressions-Messungen (Microarray-Daten) diese Gen-Expressions-Raten messbar sind. Die Microarray-Daten beschreiben wiederum Momentaufnahmen des Gen-Expressionsmusters.
  • Viele Krankheiten und Fehlfunktionen des Körpers gehen auf Störungen des regulatorischen genetischen Netzwerks zurück, welche sich in eine stark veränderten Gen-Expressionsverhalten (Gen-Expressions-Raten) bzw. einem veränderten Gen-Expressmuster einer Zelle widerspiegeln.
  • Somit stellt ein Verständnis des regulierenden genetischen Netzwerks einen wichtigen Schritt auf dem Weg zu einer Charakterisierung und einem Verstehen von genetischen Mechanismen sowie in weiterer Folge zu einer Identifizierung von sogenannten dominanten oder Funktionsstörungen auslösenden Genen dar, welche den Krankheiten oder Fehlfunktionen zugrunde liegen.
  • Beispielsweise kann in einer Krebsforschung, bei der die Identifizierung von Geschwülste und Tumore unterdrückenden Genen eine Schlüsselrolle spielt, die Kenntnis neuer potenzieller Onkogene und ihre Wechselwirkung mit anderen Genen ein Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebserkrankungen) sein, welche ein Umwandlung normaler Zellen in bösartige Krebszellen bestimmen.
  • Weitergehend ist für eine Entwicklung von verbesserten Medikamenten und Therapien zur Bekämpfung von genetischen Krankheiten daher ebenfalls ein quantitatives Verständnis des regulatorischen genetischen Netzwerks einer Zelle erforderlich.
  • So wirken einige Medikamente als Agonisten bzw. Antagonisten spezifischer Zielproteine, d. h. sie verstärken oder schwächen die Funktion eines Proteins mit entsprechender Rückwirkung auf das regulatorische genetische Netzwerk mit dem Ziel, dieses zurück in einen normalen Funktionsmodus zu bringen.
  • Aus [2] ist eine Beschreibung eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines statistischen Verfahrens, eines kausalen Netzes, bekannt.
  • Aus [3, 5] ist ein kausales Netz, ein Bayesianisches (Bayessches) Netzwerk, bekannt.
  • Bayessche Netzwerke
  • Ein Bayessches Netzwerk B ist ein spezieller Typ der Darstellung einer gemeinsamen multivariaten Wahrscheinlichkeitsdichtefunktion (WDF) einer Menge von Variablen X durch ein graphisches Modell.
  • Es ist durch einen gerichteten azyklischen Graphen (directed acyclic graph, DAG) G definiert, in welchem jeder Knoten i = 1, ..., n einer Zufallsvariablen Xi entspricht.
  • Die Kanten zwischen den Knoten repräsentieren statistische Abhängigkeiten und können als Kausalzusammenhänge zwischen ihnen interpretiert werden. Der zweite Bestandteil des Bay esschen Netzwerkes ist die Menge von bedingten WDFen P(Xi|Pai, θ, G), welche mittels eines Vektors θ parametriert sind.
  • Diese bedingten WDFen spezifizieren die Art der Abhängigkeiten der einzelnen Variablen i von der Menge ihrer Elternknoten (Parents) Pai. Somit kann die gemeinsame WDF in die Produktform
    Figure 00040001
    zerlegt werden.
  • Der DAG eines Bayesschen Netzwerkes beschreibt auf eindeutige Weise die bedingten Abhängigkeits- und Unabhängigkeitsbeziehungen zwischen einer Menge von Variablen, jedoch hat im Gegensatz dazu eine gegebene statistische Struktur der WDF keinen eindeutigen DAG zur Folge.
  • Vielmehr kann gezeigt werden, dass zwei DAG ein und dieselbe WDF beschreiben, dann und nur dann, wenn sie dieselbe Menge von Kanten und dieselbe Menge von "Colliders" aufweisen, wobei ein Collider eine Konstellation ist, in welcher wenigstens zwei gerichtete Kanten zu demselben Knoten führen.
  • Aus [7, 8, 9, 10] ist eine Theorie skalenfreier Netze bekannt.
  • Insbesondere aus [7, 8] ist bekannt, dass viele großskalige biologische Netzwerke eine skalenfreie Topologie aufweisen, was bedeutet, dass eine Gradverteilung von Knoten in den Netzen einem Potenzgesetz gehorcht.
  • Weiter ist aus [9] bekannt, dass skalenfreie Netzwerke im allgemeinen sehr unempfindlich sind bei einem willkürlichen Ausfall von Knoten, jedoch in hohem Maße anfällig gegenüber koordinierten Angriffen an einer kleinen Untergruppe von Knoten, die hier als kritische Knoten bezeichnet werden.
  • Ferner ist aus [10] bekannt, dass kritische Knoten durch eine besonders hohe Verkehrslast charakterisiert sind. Mit anderen Worten: Knoten mit hoher Last sind Punkte hoher Anfälligkeit, sie sind die Achillesferse des Netzwerks. Ein örtlicher Schaden, der einem Knoten mit hoher Last eines skalenfreien Netzwerks zugefügt wurde, kann zu einer globalen Schädigung des Netzwerkbetriebs führen. Daher lässt sich die Last als Maß für die Kritikalität eines Knotens verwenden.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, welches eine Analyse eines regulatorischen genetischen Netzwerks einer Zelle, beispielsweise repräsentiert durch ein Gen-Expressions-Muster der Zelle, ermöglicht.
  • Ferner liegt der Erfindung die Aufgabe zugrunde, ein Verfahren anzugeben, welches eine Identifikation eines defekten Gens, beispielsweise eines Onko- oder Tumor-Gens, in dem regulatorischen genetischen Netzwerk einer Zelle ermöglicht.
  • Weiter soll die Erfindung eine Simulation und/oder eine Analyse einer Wirkweise eines Medikaments auf das regulatorische genetische Netzwerk einer Zelle ermöglichen.
  • Diese Aufgabe wird durch das Verfahren, durch das Computerprogramm mit Programmcode-Mitteln und das Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle mit den Merkmalen gemäß dem jeweiligen unabhängigen Patentanspruch gelöst.
  • Bei dem grundlegenden Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle wird ein kausales Netz verwendet,
    – welches kausale Netz das regulatorische genetische Netzwerk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks repräsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen den Genen des regulatorischen genetischen Netzwerks repräsentieren.
  • Bei dem Analyseverfahren wird nun für mindestens einen ein Gen repräsentierenden, ausgewählten Knoten des kausalen Netzes unter Verwendung einer Theorie eines skalenfreien Netzes eine Kennzahl ermittelt, welche Kennzahl einen Topologiezustand des ausgewählten Knotens in dem kausalen Netz beschreibt. Unter Verwendung der Kennzahl wird eine Bedeutung des durch den ausgewählten Knoten repräsentierten Gens in dem regulatorischen genetischen Netzwerks beschrieben.
  • Das Computerprogramm mit Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  • Das Computerprogramm mit Programmcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, einge richtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner nachfolgend erläuterten Weiterbildungen.
  • Der Erfindung liegen grundlegende, nicht triviale Erkenntnisse und deren Anwendung und Umsetzung zugrunde.
  • So wird erkannt, dass eine probabilistische Semantik eines kausalen Netzes, wie eines Bayesschen Netzwerkes, zur Analyse von Gen-Expressions-Raten, beispielsweise gegeben in Form von Microarray-Daten, sehr gut geeignet ist, da sie an die stochastische Natur sowohl von biologischen Prozesse als auch von mit einem Rauschen behafteten Experimente angepasst ist.
  • Ferner wird, anschaulich gesehen, ein Effekt eines Expressionszustandes bestimmter Gene auf ein globales Gen-Expressions-Muster (inverse Modellierung) geschätzt, indem ein resultierendes Gen-Expressions-Muster – erhältlich aus dem kausalen Netz – analysiert wird.
  • Weiter liegt dem Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle die nicht triviale und erfinderische Erkenntnis zugrunde, dass regulatorische genetische Netzwerke häufig eine skalenfreie Topologie aufweisen.
  • Somit kann die Erfindung auch anschaulich in der Anwendung der Theorie skalenfreier Netze zusammen mit kausalen Netze auf genetische regulatorische Netze gesehen werden.
  • Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Die im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf die Verfahren als auch auf die Anordnung.
  • Die Erfindung und die im weiteren beschriebenen Weiterbildungen können sowohl in Software als auch in Hardware, beispielsweise unter Verwendung einer speziellen elektrischen Schaltung, realisiert werden.
  • Ferner ist eine Realisierung der Erfindung oder einer im weiteren beschriebenen Weiterbildung möglich durch ein computerlesbares Speichermedium, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.
  • Auch kann die Erfindung oder jede im weiteren beschriebene Weiterbildung durch ein Computerprogrammerzeugnis realisiert sein, welches ein Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.
  • In Anwendung der Erkenntnis, dass regulatorische genetische Netze skalenfreie Topologien aufweisen, kann die Kennzahl ein Topologieparameter einer skalenfreien Topologie, insbesondere eine Konnektivität bzw. ein Grad ki oder eine Beladung ci ("load") sein.
  • Dabei kann die Kennzahl für eine Vielzahl von ausgewählten Knoten ermittelt werden.
  • Unter Verwendung der Vielzahl von ermittelten Kennzahlen kann eine Bedeutungsrangliste der durch die ausgewählten Knoten repräsentierten Gene für das regulatorische genetische Netzwerk bestimmt werden.
  • Weiter ist in einer bevorzugten Weiterbildung vorgesehen, dass eine Verknüpfungsgröße, beispielsweise eine Potenzkonstante α, für das kausales Netz ermittelt wird, welche Verknüpfungsgröße eine Verteilung von Verknüpfungszuständen in dem kausalen Netz beschreibt.
  • Unter Verwendung dieser Verknüpfungsgröße kann festgelegt werden, welcher Art die Kennzahl, beispielsweise die Konektivität oder die belastung ("load") ist.
  • In einer Weiterbildung wird als kausales Netz ein Bayesianisches bzw. Bayessches Netz verwendet.
  • Auch kann das kausale Netz von einem Typ DAG (directed acylic graph) sein.
  • Auch kann vorgesehen werden, dass das kausale Netz unter Verwendung von Gen-Expressionsmustern trainiert wird, wobei die Knoten und die Kanten des kausalen Netzes angepasst werden.
  • Ferner ist es zweckmäßig, dass die Gen-Expressionsmuster, insbesondere das vorgegebene Gen-Expressions-Muster und/oder die Gen-Expressions-Muster für das Training, bestimmt werden unter Verwendung einer DNA-Micro-Array-Technik.
  • Bei einer Ausgestaltung ist das vorgegebene Gen-Expressions-Muster und/oder die Gen-Expressions-Muster für das Training ein Gen-Expressions-Muster eines genetischen regulatorischen Netzwerks einer kranken Zelle.
  • Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle sein, insbesondere eine Onko-Zelle mit ALL (Akute lymphoblastische Leukämie).
  • Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere ein ALL-Onko-Gen, aufweisen.
  • Ferner eignet sich die erfinderische Vorgehensweise oder Weiterbildung davon insbesondere zur Identifizierung eines dominanten Gens und/oder eines degenerierten/mutierten/kranken/onkogenen/Tumor-suppressor Gens.
  • Auch eignet sie sich zur Identifizierung einer Tumorzelle, beispielsweise im Zusammenhang mit einer Krebserkennung.
  • Ferner ist die erfinderische Vorgehensweise insbesondere geeignet zu einer Ursachenanalyse für ein abnormales Gen-Expressionsmuster/Gen-Expressrate.
  • Auch kann sie eingesetzt werden zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
  • Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen im Zusammenhang mit den Figuren.
  • Es zeigen
  • 1 eine Skizze, die einen ausführungsgemäßen ALL-fPDAG zeigt;
  • 2 eine Skizze, die die skalenfreie Eigenschaft des ALL-Netzwerks zeigt, wobei die Verteilung der Knotengrade über das gelernte Netzwerk einem Potenzgesetz mit einem Skalierungsexponenten von γ = 3,2 folgt;
  • 3 eine Skizze, die in einem Punktediagramm der Auftragung Last gegen Grad zeigt, dass beide Merkmale im wesentlichen korreliert sind, jedoch bei Genen mit hoher Last und hoher Anzahl von Verbindungen sich meistens die Last und der Grad voneinander unterscheiden;
  • 4 eine Tabelle von Genen mit hoher Last und hohem Grad. (kritische Vorgänge).
  • Ausführungsbeispiel: Analyse eines regulatorischen genetischen Netzwerks unter Verwendung kausaler Netze – Identifizierung kritischer Gene mittels der Theorie skalenfreier Netze
  • Einleitung/Überblick
  • Zelluläre molekulare Netzwerksysteme entstehen durch komplexe Wechselwirkungen zwischen Proteinen, DNA, RNA und anderen Molekülen.
  • Das komplexe regulatorische Netzwerk zwischen Genen und Proteinen, das genetische Netzwerk, bildet einen zentralen Teil dieses zellulären Lebensmechanismus, wobei seine unterschiedlichen Betriebsarten die Vielzahl biochemischer Vorgänge in einer lebenden Zelle kontrollieren.
  • Ein Hauptinteresse der postgenomischen Ära besteht daher darin, die Struktur und Funktion genetischer Netzwerke im normalen Zellbetrieb, bei pathologischen Zuständen nach Genschädigung und bei der Antwort auf Eingriffe von außen, wie z.B. Behandlung mit Arzneistoffen oder extrazelluläre Signale, zu verstehen.
  • In den letzten paar Jahren konnte durch empirische Untersuchungen gezeigt werden, dass viele großskalige biologische Netzwerke eine skalenfreie Topologie aufweisen, was bedeutet, dass die Gradverteilung der Knoten einem Potenzgesetz gehorcht [7, 8].
  • Skalenfreie Netzwerke sind im allgemeinen sehr unempfindlich beim willkürlichen Ausfall von Knoten, jedoch in hohem Maße anfällig gegenüber koordinierten Angriffen an einer kleinen Untergruppe von Knoten, die hier als kritische Knoten bezeichnet werden [9].
  • Kürzlich konnte gezeigt werden, dass kritische Knoten durch eine besonders hohe Verkehrslast charakterisiert sind [10].
  • Mit anderen Worten: Knoten mit hoher Last sind Punkte hoher Anfälligkeit, sie sind die Achillesferse des Netzwerks. Ein örtlicher Schaden, der einem Knoten mit hoher Last eines skalenfreien Netzwerks zugefügt wurde, kann zu einer globalen Schädigung des Netzwerkbetriebs führen. Daher lässt sich die Last als Maß für die Kritikalität eines Knotens verwenden.
  • Bei der ausführungsgemäßen Vorgehensweise wird die Theorie skalenfreier Netzwerke auf die Analyse der Topologie genetischer regulatorischer Netzwerke angewandt.
  • Durch Verwendung lernender Bayes-Netze [3, 11, 12] wird zunächst die Struktur des genetischen Netzwerks für mit akuter Lymphoblastenleukämie (ALL) in Kindern im Zusammenhang stehende Gene aus einem Satz von Genexpressions-Messungen [4] abgeschätzt.
  • Danach wird gezeigt, dass dieses Netzwerk eine skalenfreie Topologie aufweist.
  • Aufgrund dieses Ergebnisses wird dann die Hypothese aufgestellt, dass Gene mit einer hohen Last Punkte hoher Anfälligkeit sind und daher eine entscheidende Rolle in der Pathogenese spielen könnten.
  • Es wird vorgeschlagen, die Last als Marker für mit Krankheiten im Zusammenhang stehende Gene zu betrachten und sie als Leitpunkte bei der Suche nach Zielen für pharmazeutische Arzneistoffe zu verwenden.
  • Die gerichtete Last eines genetischen Netzwerks wird definiert und dieser quantitative Wert für die Gene des Netzwerks berechnet.
  • Es stellt sich dabei heraus, dass die Gene mit der höchsten Last entweder als Tumorigenese verursachende Onkogene oder Protoonkogene bekannt sind oder eine Schlüsselrolle bei kritischen Prozessen, wie z.B. DNA-Reparatur, Apoptose oder Zellzyklusregulation spielen.
  • Schließlich wird festgestellt, dass die Last mit dem Grad der Knoten korreliert (jedoch nicht identisch damit ist).
  • Damit wird durch die Theorie skalenfreier Netzwerke auf eine systematische Grundlage gestellt, dass "dominante Gene", die eine hohe Anzahl anderer Gene regulieren, als wichtige Knoten des Netzwerks identifiziert werden können.
  • Methoden
    • Bayes'sche Netzwerke aus Expressionsmustern
    • Bayes'sche Netzwerke
  • Eine Dichteabschätzung von Genexpressionsdaten ist in [12, 13] beschrieben und wird an dieser Stelle nur kurz zusammengefasst.
  • Bei einem Bayes'schen Netzwerk B handelt es sich um eine spezifische Darstellungsform einer gemeinsamen multivariaten Wahrscheinlichkeitsdichtefunktion (probability density function, pdf) P eines Satzes von variablen X mittels eines graphischen Modells.
  • Es ist durch einen gerichteten azyklischen Graphen (directed acyclic graph, DAG) G definiert, bei dem jeder Knoten i = 1, ..., n einer beliebigen Variablen Xi entspricht. Die Kanten zwischen den Knoten stellen statistische Abhängigkeiten dar und lassen sich unter bestimmten Bedingungen [20] als Kausalbeziehungen zwischen ihnen interpretieren.
  • Der Satz von Eltern Pa(i) von i wird durch die Graphstruktur G als Knoten, die eine gerichtete Kante zu i aussenden, bestimmt. Der zweite Teil des Bayes'schen Netzes besteht aus dem Satz bedingter pdfs P(Xi|Pai, θ, G), die durch einen Vektor θ parametriert werden.
  • Diese bedingten pdfs bestimmen die Art von Abhängigkeiten für jede Variable i von seinen Eltern Pai. So läßt sich die gemeinsame pdf in die Produktform
    Figure 00140001
    zerlegen.
  • Durch den DAG eines Bayes'schen Netzwerks werden die bedingten Abhängigkeits- und Unabhängigkeitsbeziehungen zwischen einem Satz von Variablen eindeutig beschrieben, doch kann im Gegensatz dazu durch eine gegebene statistische Struktur der pdf nicht auf einen eindeutigen DAG geschlossen werden.
  • Stattdessen lässt sich zeigen, dass zwei DAGs dieselbe pdf beschreiben, wenn, und zwar nur wenn sie denselben Kantensatz und denselben Collidersatz aufweisen, wobei es sich bei einem Collider um eine Konstellation handelt, bei der wenigstens zwei gerichtete Kanten im selben Knoten zusammenlaufen.
  • DAGs der selben Äquivalenzklasse lassen sich mit einem einzigen partiellen gerichteten Graphen (partial directed graph, PDAG) darstellen, wobei alle reversiblen Kanten in ungerichteter Form gezeichnet werden.
  • Bei der Modellierung eines regulatorischen genetischen Netzwerks durch ein Bayes-Netz sind die Gene bzw. ihre entsprechenden Proteine durch Knoten symbolisiert. Dabei wird angenommen, dass die regulatorischen Mechanismen durch Kanten zwischen zwei Knoten widergespiegelt werden.
  • Sind die Kanten gerichtet, so wird dies als Richtung der Regulation interpretiert. Die Qualität der Regulation (Erleichterung oder Unterdrückung) ist in der bedingten Wahrscheinlichkeitsverteilung des betroffenen Gens unter Vorgabe seiner Regulatoren codiert.
  • Strukturelles Lernen
  • Das Verfahren des strukturellen Lernens läßt sich wie folgt angeben: Es sei angenommen daß D = {d1, d2, ..., dN} ein Datensatz aus N unabhängigen Beobachtungen ist, wobei es sich bei jedem Datenpunkt um einen n-dimensionalen Vektor mit den Komponenten dl = {d l / 1, ..., d l / n}, l = 1, ..., N handelt.
  • Bei gegebenem D soll die Struktur G des Bayes-Netzes gefunden werden, die am besten mit D übereinstimmt, d.h. die die Bayes'sche Trefferwahrscheinlichkeit (Score)
    Figure 00150001
    wobei P(D|G) für die marginale (Likelihood-)Wahrscheinlichkeit, P(G) für die a-priori-Wahrscheinlichkeit der Struktur und P(D) für die Evidenz steht, maximiert.
  • Unter Vernachlässigung sowohl der a-priori-Wahrscheinlichkeit als auch der Evidenz reduziert sich das Problem darauf, die Struktur mit der gemäß den Daten besten marginalen Wahrscheinlichkeit zu finden [14].
  • Besteht der Datensatz D aus N Mikroarray-Experimenten, z.B. Zellsonden aus verschiedenen Patienten, so stellt jeder Datenvektor dl = {d l / 1, ... d l / n} das Expressionsprofil von n Genen in einem Mikroarray-Experiment dar.
  • Ein aus solchen Daten gelerntes Bayes-Netz codiert die Wahrscheinlichkeitsverteilung von n Genexpressionsniveaus, wie sie aus diesen N Mikroarray-Experimenten geschätzt wurden.
  • Bootstrap-Analyse
  • Aufgrund der Spärlichkeit an Mikroarray-Daten und dem "NP-hard"-Optimierungsproblem der Aufgabe des strukturellen Lernens würde ein einziges "bestes" trainiertes Modell keine hinreichend robuste Aussage über die Beziehung von Genen untereinander liefern.
  • Eine Möglichkeit zur Überwindung dieses Problems besteht darin, Q Modelle mittels eines nicht parametrischen Bootstrap-Verfahrens zu trainieren, d.h. Q Modelle aus Q unterschiedlichen Datensätzen zu lernen, die jeweils durch N-faches "resampling with replacement" aus dem ursprünglichen Datensatz D erzeugt wurden [15, 11].
  • Die Q erhaltenen Strukturen lassen sich dann zu einem fPDAG (feature partial directed graph) zusammenlegen, wobei jede Kante jeweils durch ihre Wahrscheinlichkeit (Likelihood):
    Figure 00160001
    mit Eij(G) gleich 1, falls G eine Kante zwischen Knoten i und Knoten j enthält, bzw. 0, falls dies nicht der Fall ist, beschrieben ist.
  • Skalenfreie Topologie
  • Biologische Systeme sind oftmals durch eine Netzwerkstruktur gekennzeichnet, worin Knoten durch Verknüpfungen, die eine Wechselwirkung oder Assoziation andeuten, miteinander verbunden sind.
  • Auf der Ebene der Proteinnetzwerke stellen Knoten Proteine dar, wobei eine Kante zwischen zwei Proteinen andeutet, dass diese aneinander binden können [16].
  • Auf der Ebene der genetischen Netzwerke stellen Knoten Gene dar, wobei eine Kante zwischen zwei Genen eine regulatorische Beziehung zwischen diesen beschreibt [17, 18].
  • Durch empirische Untersuchungen konnte in den letzten paar Jahren gezeigt werden, dass viele großskalige reale Netzwerke ein gemeinsames topologisches Merkmal, nämlich eine skalenfreie Topologie, miteinander teilen.
  • In einem skalenfreien Netzwerk ist der Grad k eines Knotens, definiert als Anzahl von Verbindungen k zu oder von diesen, gemäß einem Potenzgesetz der Form P(k) ~ k–γ, (4)worin γ den Skalierungsexponenten bezeichnet, verteilt. Solche Netzwerke enthalten einige Knoten mit sehr hohem Grad und viele mit niedrigem Grad.
  • Beim Betrieb skalenfreier Netzwerke wurde als ein interessantes Phänomen festgestellt, dass diese im allgemeinen sehr robust gegen willkürliche Ausfälle, jedoch in hohem Maße anfällig gegenüber gerichteten Angriffen auf eine kleine Anzahl kritischer Knoten sind.
  • Neben dem Grad ist ein weiteres, eingeführtes topologisches Merkmal [10] die Last ci eines Knotens i, die durch die Gesamtzahl an kürzesten Wegen zwischen allen möglichen Knotenpaaren, die durch ihn hindurchführen, definiert ist.
  • Je nach dem Skalierungsexponenten γ stellen Knoten mit hohem Grad oder Knoten mit hoher Last Punkte des Netzwerks mit hoher Anfälligkeit dar. Für Exponenten um 3 konnte gezeigt werden, dass eine hohe Last kritische Knoten andeutet.
  • Somit lässt eine skalenfreie Topologie eines Netzwerks mit Exponenten in diesem Bereich darauf schließen, dass nur eine kleine Anzahl von durch eine hohe Last gekennzeichneten Knoten das Verhalten des globalen Netzwerks kontrolliert.
  • Berechnung der Verknüpfbarkeit und Last in fPDAGs
  • Aus Gründen der Robustheit werden beide Knotenmerkmale berechnet, indem über Q aus unterschiedlichen mit Bootstrap-Sampling erhaltenen Datensätzen gelernten Bayes'schen Netzwerk-Strukturen gemittelt wird.
  • Die mittlere Verknüpfbarkeit eines Gens i ist durch:
    Figure 00180001
    gegeben. Die mittlere gerichtete Last eines Gens i ist als:
    Figure 00180002
    definiert.
  • Die gerichtete Last ci(G) wird berechnet, indem für jedes Knotenpaar der kürzeste Verbindungsweg durch das Netz, der mit den Kantenrichtungen am Ende übereinstimmt, gesucht und die Last ci eines jeden Knotens i auf diesem kürzesten Weg um jeweils 1 erhöht wird.
  • Existiert mehr als ein kürzester Weg, so wird jeder Knoten um jeweils
    Figure 00190001
    wobei n für die Anzahl kürzester Wege derselben Länge steht, erhöht.
  • Da analysierte Strukturen teilweise gerichtet sind, ist es möglich, dass es keinen Verbindungsweg zwischen zwei Knoten gibt, selbst wenn diese über eine Kette von Kanten miteinander verknüpft sind.
  • Vorverarbeitung der ALL-Daten
  • 327 Messungen von 12600 Genexpressionsniveaus wurden zusammen mit den Markern für die ALL-Subtypen heruntergeladen (http://www.stjuderesearch.org/ALL1/).
  • Die 271 Gene mit der höchsten diskriminativen Potenz zwischen den Subtypen wurden ausgewählt, und der Datensatz wurde zur besseren Sichtbarmachung zweidimensional in Cluster eingeteilt, wie anderweitig beschrieben [4].
  • Die Genexpressionsniveaus wurden in drei Niveaus, nämlich überexprimiert, unverändert und unterexprimiert, diskretisiert, wobei der Schwellenwert jeweils durch die Standardabweichung der Expressionsniveaus über den gesamten Datensatz gebildet wurde.
  • Analyse/Durchführung
  • Der für das Training unserer Strukturen verwendete Datensatz teilt sich in deutlich unterschiedliche Genexpressionsmuster auf, die durch unterschiedliche über- oder unterexprimierte Gencluster gekennzeichnet sind und sich entweder den sechs bekannten ALL-Subtypen oder einem siebten neuen Typ [4] zuordnen lassen.
  • Die Grundlage für die ausführungsgemäße Analyse besteht aus einem fPDAG (feature partial directed graph) aus einem Satz Bayes'scher Netzwerke, die aus Bootstrap-Experimenten, wie obig beschrieben, gelernt wurden.
  • 1 zeigt den erhaltenen ALL-fPDAG, wobei die Linienbreite einer Kante für ihre Konfidenz als Ergebnis eines Bootstrap-Verfahrens mit Q = 20fach codiert.
  • Die Lage der 271 Knoten, die jeweils ein bestimmtes Gen 1 repräsentieren, wird aus der Projektion des der Expression entsprechenden Expressionsvektors über die Experimente hinweg, dl = (d l / 1,..., d l / N ), auf die von der ersten und zweiten Hauptkomponente über diese Vektoren gespannte Ebene erhalten.
  • Diese Darstellung gestattet bereits eine erste grobe Klassifizierung des hochdimensionierten Genraums in mehrere Gencluster.
  • Die Knotendurchmesser codieren den mittleren Grad des entsprechenden Gens.
  • In 2 ist die mittlere Gradverteilung in Form eines log-log-Plots dargestellt.
  • Wie 2 zeigt, gibt es nur eine kleine Anzahl an Genen mit einem sehr hohen Grad, während die Mehrzahl der Knoten nur einen kleinen Grad aufweist, was auf die skalenfreie Charakteristik des fPDRG-Netzwerks hindeutet.
  • Dabei zeigt sich deutlich ein einem Potenzgesetz gehorchender Abfall der Verteilung, wie in Gl. (4) angegeben.
  • Dadurch wird die skalenfreie Charakteristik des Netzwerks mit einem Skalierungsexponenten von γ = 3,2 demonstriert.
  • Die einzige Abweichung rührt von einer zu niedrigen Anzahl an Genen mit einer Verknüpfung her. Diese niedrige Anzahl könnte daran liegen, dass hier nur ein Teilnetzwerk betrachtet wurde und dass durch Ausschluss von Genen aus dem Netzwerk Gene mit einem Grad größer als 1 schließlich einen erniedrigten Grad erhalten, während Gene mit dem Grad 1 vollständig aus dem Histogramm entfernt werden.
  • Nachdem die skalenfreie Charakteristik des abgeschätzten genetischen Netzwerks gezeigt wurde, können nun die bekannten Eigenschaften skalenfreier Netzwerke eingesetzt werden, um Stabilitätskriterien für das biologische Regulationssystem zu formulieren.
  • Insbesondere besitzt das genetische Netzwerk eine kleine Anzahl an Knoten, die Punkte hoher Anfälligkeit darstellen.
  • Für den gefundenen Skalierungsexponenten ist die Last ci als ein guter Maßstab für die Anfälligkeit des globalen Netzwerkbetriebs gegenüber einer örtlichen Schädigung an diesem Knoten bekannt.
  • Im Zusammenhang mit biologischen Regulationsnetzwerken lässt sich ein Weg zwischen zwei Genen als eine chemische Signalkette interpretieren, durch die sich die Information von einem Quellengen zu einem Zielgen in Form einer chemischen Reaktionskaskade, beispielsweise einer Kaskade aus Bindungen von Transkriptionsfaktoren an die regulatorischen Bereiche, fortpflanzt.
  • Die Last eines Gens lässt sich dann als die chemische Gesamtinformation, die durch diesen Knoten fließt, interpretieren, wodurch indirekte regulatorische Mehrschrittbeziehungen zwischen Genpaaren in dem Netzwerk gebildet werden.
  • Unter Berücksichtigung der skalenfreien Topologie des genetischen Netzwerks wird hier vorgeschlagen, die Last eines Gens als Maß dafür, wie kritisch seine Mutation oder ein anderer Schaden für die normale Funktion des Netzwerks ist, zu verwenden.
  • Falls Gene mit hoher Last geschädigt werden, ist der Zusammenbruch des normalen Betriebs des regulatorischen Netzwerks wahrscheinlicher als bei einer Schädigung von Genen mit niedriger Last.
  • Insbesondere wird hiermit der Schaden an Genen mit einer hohen Last als Ursache für eine pathologische Zellfunktion vorhergesagt.
  • Diese Gene sollten für Onkogenese, Tumorentwicklung und andere kritische Vorgänge verantwortlich sein. Folglich werden kritische Gene mit hoher Last als Ziel für pharmazeutische Arzneistoffe angesehen.
  • Der obere Teil der in 3 dargestellten Tabelle zeigt die Bezeichnung der 10 Gene mit der höchsten durchschnittlichen gerichteten Last.
  • Manche von ihnen sind als Onkogene oder Protoonkogene bekannt, während andere in kritischen Vorgängen, wie zum Beispiel DNA-Reparatur, Apoptose oder Zellzyklusregulation, beteiligt sind.
  • Alle Gene mit hoher Last sind an kritischen zellulären Vorgängen beteiligt. POU2AF1, das Gen mit der höchsten Last, ist als Protoonkogen, das als ein B-Zellen-spezifischer Transkriptionskoaktivator fungiert, ausgewiesen.
  • Die Ergebnisse können bestätigen, dass eine hohe Last ein guter Prädiktor von an der Onkogenese beteiligten Genfunktionen ist.
  • Ein weiteres natürliches Maß für die Wichtigkeit eines Gens ist der Grad ki selbst.
  • Daher wurde der Grad und die Last eines jeden Gens miteinander verglichen (vgl. 3).
  • Das Punktediagramm der Auftragung des Grads gegen die Last (3) zeigt, dass beide Merkmale korreliert sind, dass jedoch für Gene mit hoher Last und einer hohen Anzahl von Verbindungen die Last und der Grad sich meistens voneinander unterscheiden.
  • Im unteren Teil der in 4 dargestellten Tabelle sind die Bezeichnungen für die 10 Gene mit dem höchsten Grad aufgeführt.
  • Das Gen PBX1, das Gen mit dem höchsten Grad, ist als Protoonkogen bekannt, das die Transformation von normalen Blutzellen zu bösartigen ALL-Krebszellen verursacht.
  • Aufgrund der chromosomalen Translokation t(1:19) fusioniert PBX1 mit dem Gen E2A und wird dabei in einen potenten Transkriptionsaktivator umgewandelt [19].
  • Die Relevanz des Grads eines Gens für die Reihenfolge seiner Wichtigkeit für das Verhalten des globalen Netzwerks entsteht hier aus der Theorie der skalenfreien Netzwerke.
  • Dabei wird systematisch nachgewiesen, dass "dominante Gene", die eine hohe Anzahl anderer Gene regulieren, wichtige Knoten des Netzwerks sind.
  • Zusammenfassung
  • Die Erforschung und das Verständnis von Netzwerken molekularer Wechselwirkungen, ihrer Betriebsweisen unter unterschiedlichen Umständen und ihrer Antwort auf äußere Signale ist eine der Hauptherausforderungen der postgenomischen Ära.
  • Der Datenpool zur Rekonstruktion solcher Netzwerke wächst aufgrund von Techniken mit hohem Durchsatz schnell an. Die erhaltenen Netzwerke sind meistens sehr komplex, so dass die relevanten Informationen über das kartierte System und seine Komponenten nicht intuitiv sichtbar sind und eine zusätzliche ausführliche statistische Analyse erforderlich machen.
  • Bei dem beschriebenen ausführungsgemäßen Vorgehen wird die Netzwerktopologie eines aus Mikroarray-Daten gelernten regulatorischen genetischen Netzwerks analysiert, um eine Teilmenge von Genen zu identifizieren, die für den stabilen Netzwerkbetrieb kritisch sind.
  • Das ausführungsgemäße Vorgehen beruht auf der Theorie skalenfreier Netzwerke, wobei die Tatsache genutzt wird, dass solche Netzwerke eine besondere Eigenschaft bezüglich ihrer Stabilität aufweisen.
  • Indem Gene mit topologischen Merkmalen beschrieben werden, kann die Auswirkung von Genen auf die Stabilität des skalenfreien genetischen Netzwerks abgeschätzt werden, wobei diejenigen Gene gefunden werden, die die Achillesferse (kritische Gene) dieses Netzwerks molekularer Wechselwirkungen darstellen.
  • In dem aus Mikroarray-Datensätzen für Leukämie in Kindern gelernten Netzwerk wird eine kleine Anzahl Gene gefunden, von denen man weiß, dass sie entweder an der Onkogenese und Tumorentwicklung oder an kritischen Vorgängen, wie z.B. der DNA-Reparatur oder Apoptose, beteiligt sind.
  • Somit scheinen beide Merkmale, die Last ci und der Grad ki, ein guter Maßstab zur Vorhersage "kritischer" Gene in einem regulatorischen Netzwerk mit skalenfreier Topologie zu sein.
  • Die erhaltenen Informationen können für das Verständnis der Qualität eines molekularen Netzwerks mit skalenfreier Charakteristik, wie z.B. durch Mikroarray-Daten erhaltene genetische Netzwerke oder Proteinwechselwirkungsnetzwerke, hilfreich sein.
  • Weiterhin lassen sich damit mögliche Kandidaten für neue Ziele von Arzneistoffen, z.B. zur Unterdrückung fehlgeleiteter Stoffwechselwege in Krebszellen, anzeigen.
  • In diesem Dokument sind folgende Schriften zitiert:
    • [1] Stetter Martin et al., Large-Scale Computational Modeling of Generic Regulatory Networks, Kluwer Academic Publisher, Niederlande, 2003;
    • [2] Offenlegungsnummer DE 10159262.0 ;
    • [3] F. W. Jensen, F. V. (1996), An introduction to Bayesian networks, UCL Press, London; 178 pages;
    • [4] E.-J. Yeoh, M. E. Ross, S. A. Shurtleff, W. K. Williams, D. Petal et al. (2002), Classification, subtype discovery, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling. Cancer cell 1:133–143;
    • [5] D. Heckerman, D. Geiger and D. Chickering (1995), Learning Bayesian networks: The combination of knowledge and statistical data, Machine Learning 20:197–243;
    • [6] R. Dechter (1996), Bucket elimination: A unifying framework for probabilistic inference. In: Uncertainty in Artificial intelligence, UA196:211–219.
    • [7] Jeong, H., Tombor, B., Albert, R., Oltvai, Z. und Barabasi, A. (2000). The large-scale organization of metabolic networks, Nature 407: 651–654.
    • [8] Ravasz, E., Somera, A.L., Mongru, D.A., Oltvai, Z.N. und Barabasi, A.L. (2002). Hierarchical organization of modularity in metabolic networks, Science 297: 1551–1555.
    • [9] Albert, R., Jeong, H. und Barabasi, A.-L. (2000). Error and attack tolerance of complex networks, Nature 406: 378–381.
    • [10] Motter, A.E., Nishikawa, T. und Lai, Y.-C. (2002). Range-based attacks on links in scale-free networks: are long-range links responsible for the small-world phenomenon?, Phys. Rev. E 66: 065103.
    • [11] Friedman, N., Goldszmidt, M. und Wyner, A. (1999). Data analysis with bayesian networks: a bootstrap approach, S. 196–205.
    • [12] Friedman, N., Linial, M., Nachman, I. und Pe'er, D. (2000). Using Bayesian network analyze expression data., J. Comput. Biology 7: 601–620.
    • [13] Dejori, M. und Stetter, M. (2003). Bayesian inference of genetic networks from gene-expression data: convergence and reliability, Proceedings of the 2003 International Conference on Artificial Intelligence (IC-Al'03), S. 323–327.
    • [14] Heckerman, D., Geiger, D. und Chickering, D. (1995). Learning Bayesian networks: The combination of knowledge and statistical data, Machine Learning 20: 197–243.
    • [15] Efron, B. und Tibshirani, R.J. (1993). An introduction to the bootstrap, Chapman und Hall, New York.
    • [16] Gavin, A.C., Bosche, M., Krause, R. und Grandi, P. (2002). Functional organization of the yeast proteome by systematic analysis of protein complexes, Nature 415: 378–381.
    • [17] Baldi, P. und Hatfield, G.W. (2002). DNA microarrays and gene expression, Cambridge university press, Cambridge MA.
    • [18] Stetter, M., Deco, G. und Dejori, M. (2003). Large-scale computational modeling of genetic regulatory networks, AI Review.
    • [19] van Duk, M.A., Voorhoeve, P.M. und Murre, C. (1993). PBX1 is converted into a transcriptional activator upon acquiring the N-terminal region of E2A in pre-b-cell acute lymphoblastic leukaemia, Proc. Natl. Acad. Sci. USA 90: 6061–6065.
    • [20] Lauritzen, S.L. (1999). Causal interference from graphical models, Technical report S. R-99-2021.

Claims (21)

  1. Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines kausalen Netzes, – welches kausale Netz das regulatorische genetische Netzwerk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks repräsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen den Genen des regulatorischen genetischen Netzwerks repräsentieren, dadurch gekennzeichnet, dass a) für mindestens einen ein Gen repräsentierenden, ausgewählten Knoten des kausalen Netzes unter Verwendung einer Theorie eines skalenfreien Netzes eine Kennzahl ermittelt wird, welche Kennzahl einen Topologiezustand des ausgewählten Knotens in dem kausalen Netz beschreibt; b) unter Verwendung der Kennzahl eine Bedeutung des durch den ausgewählten Knoten repräsentierten Gens in dem regulatorischen genetischen Netzwerks beschrieben wird.
  2. Verfahren nach Anspruch 1, – bei dem die Kennzahl ein Topologieparameter einer skalenfreien Topologie, insbesondere eine Konnektivität oder eine Beladung ("load") ist.
  3. Verfahren nach Anspruch 1 oder 2, – bei dem die Kennzahl für eine Vielzahl von ausgewählten Knoten ermittelt wird.
  4. Verfahren nach einem der vorangehenden Ansprüche, – bei dem unter Verwendung der Vielzahl von den ermittelten Kennzahlen eine Bedeutungsrangliste der durch die ausgewählten Knoten repräsentierten Gene für das regulatorische genetische Netzwerk bestimmt wird.
  5. Verfahren nach einem der vorangehenden Ansprüche, – bei dem eine Verknüpfungsgröße für das kausales Netz ermittelt wird, welche Verknüpfungsgröße eine Verteilung von Verknüpfungszuständen in dem kausalen Netz beschreibt.
  6. Verfahren nach dem vorherigen Anspruch, – bei dem unter Verwendung der Verknüpfungsgröße festgelegt wird, welcher Art die Kennzahl ist.
  7. Verfahren nach Anspruch 6 und Anspruch 2, – bei dem unter Verwendung der Verknüpfungsgröße festgelegt wird, ob als Kennzahl die Konnektivität oder die Beladung ermittelt wird.
  8. Verfahren nach einem der Ansprüche 5 bis 7, – bei dem die Verknüpfungsgröße eine Potenzkonstante α ist.
  9. Verfahren nach einem der vorangehenden Ansprüche, – bei dem das kausales Netz unter Verwendung von Gen-Expressionsmustern trainiert wird, wobei die Knoten und die Kanten des kausalen Netzes angepasst werden.
  10. Verfahren nach einem der vorangehenden Ansprüche, – bei dem die Gen-Expressionsmuster, insbesondere das vorgegebene Gen-Expressions-Muster und/oder die Gen-Expressions-Muster für das Training, bestimmt werden unter Verwendung einer DNA-Micro-Array-Technik.
  11. Verfahren nach einem der vorangehenden Ansprüche, – bei dem das vorgegebene Gen-Expressions-Muster und/oder die Gen-Expressions-Muster für das Training Gen-Expressions-Muster eines genetischen regulatorischen Netzwerks einer kranken Zelle ist.
  12. Verfahren nach einem der vorangehenden Ansprüche, – bei dem die kranke Zelle eine Onko-Zelle, insbesondere eine Onko-Zelle mit ALL (Akute lymphoblastische Leukämie) ist.
  13. Verfahren nach einem der vorangehenden Ansprüche, – bei dem die kranke Zelle ein Onko-Gen, insbesondere ein ALL-Onko-Gen, aufweist.
  14. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Identifizierung eines dominanten Gens.
  15. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Identifizierung einer degenerierten/mutierten/kranken/onkogenen/tumot-suppressor Zelle und/oder Gens.
  16. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Identifizierung einer Tumorzelle.
  17. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zur Krebserkennung.
  18. Verfahren nach einem der vorangehenden Ansprüche, – eingesetzt zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.
  19. Computerprogramm mit Programmcode-Mitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
  20. Computerprogramm mit Programmcode-Mitteln gemäß dem vorangehenden Anspruch, welche Programmcode-Mitteln auf einem computerlesbaren Datenträger gespeichert sind.
  21. Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE10358332A 2003-12-12 2003-12-12 Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle Withdrawn DE10358332A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE10358332A DE10358332A1 (de) 2003-12-12 2003-12-12 Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
US11/009,552 US20050130212A1 (en) 2003-12-12 2004-12-13 Method, computer program having program code means and computer program product for analyzing a regulatory genetic network of a cell

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10358332A DE10358332A1 (de) 2003-12-12 2003-12-12 Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle

Publications (1)

Publication Number Publication Date
DE10358332A1 true DE10358332A1 (de) 2005-07-21

Family

ID=34638649

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10358332A Withdrawn DE10358332A1 (de) 2003-12-12 2003-12-12 Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle

Country Status (2)

Country Link
US (1) US20050130212A1 (de)
DE (1) DE10358332A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373502A (zh) * 2022-01-07 2022-04-19 吉林大学第一医院 一种基于甲基化的肿瘤数据分析系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101626487B1 (ko) * 2012-10-09 2016-06-01 파이브3 제노믹스, 엘엘씨 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10159262A1 (de) * 2001-12-03 2003-06-18 Siemens Ag Identifizieren pharmazeutischer Targets

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10159262A1 (de) * 2001-12-03 2003-06-18 Siemens Ag Identifizieren pharmazeutischer Targets

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KIM, S., WEINSTEIN, J.N., GREIFENSTETTE, J.J.: "Interference of large-scale topology of gene re- gulation networks by neural nets", 0-7803-7952-703 2003 IEEE, S. 3969-3975
KIM, S., WEINSTEIN, J.N., GREIFENSTETTE, J.J.: "Interference of large-scale topology of gene re- gulation networks by neural nets", 0-7803-7952-7032003 IEEE, S. 3969-3975 *
WUCHTY, Stefan: "Scale-Free Behavior in Protein Domain Networks", Society for Molecular Biology and Evolution, 2001, Mol.Biol.Evol. 18(9): 1694-1702, 2001 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373502A (zh) * 2022-01-07 2022-04-19 吉林大学第一医院 一种基于甲基化的肿瘤数据分析系统
CN114373502B (zh) * 2022-01-07 2022-12-06 吉林大学第一医院 一种基于甲基化的肿瘤数据分析系统

Also Published As

Publication number Publication date
US20050130212A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
DE112005002331B4 (de) Verfahren, System und Vorrichtung zur Zusammenstellung und Nutzung von biologischem Wissen
DE102005020618B4 (de) Verfahren und Systeme zur Erweiterung, Untersuchung, Verfeinerung und Analyse von biologischen Netzwerken
DE112018002822T5 (de) Klassifizieren neuronaler netze
EP3540632B1 (de) Verfahren zum klassifizieren von gewebeproben
DE10159262B4 (de) Identifizieren pharmazeutischer Targets
Zhao et al. An L 1-regularized logistic model for detecting short-term neuronal interactions
DE102005015000A1 (de) Verfahren und System zur Analyse von arraybasierten Komparativhybridisierungsdaten
DE10358332A1 (de) Verfahren, Computerprogramm mit Progammcode-Mitteln und Computerprogramm-Produkt zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
WO2005003368A2 (de) Verfahren, computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse eines regulatorischen genetischen netzwerks einer zelle
DE112018006656T5 (de) 3erzeugen von neuronenmodellen für eine personalisierte medikamentöse therapie
DE102007044380A1 (de) Verfahren zum rechnergestützten Lernen eines probabilistischen Netzes
DE102004030296B4 (de) Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
DE102005028975B4 (de) Verfahren zur Ermittlung eines Biomarkers zur Kennzeichnung eines spezifischen biologischen Zustands eines Organismus aus mindestens einem Datensatz
DE102004007215A1 (de) Verfahren und Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung einer in Daten enthaltenen Struktur unter Verwendung zerlegbarer graphischer Modelle
DE102005030136B4 (de) Verfahren zur rechnergestützten Simulation von biologischen RNA-Interferenz-Experimenten
DE102014200158B4 (de) Merkmalauswahl für eine effektive Epistase-Modellierung zur Phänotyp-Vorhersage
WO2022069162A1 (de) Bestimmen von vergleichspatienten basierend auf ontologien
perioperativer Mortalität TUM School of Medicine and Health
WO2006013131A2 (de) Verfahren zur analyse eines regulatorischen genetischen netzwerks einer zelle
WO2010060746A2 (de) Verfahren und vorrichtung zur automatischen analyse von modellen
DE102007039917A1 (de) Verfahren zur rechnergestützten Analyse eines Interaktionsnetzwerks von biomedizinischen Entitäten
DE102008005062B4 (de) Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls
Winter Smoothing spline regression estimates for randomly right censored data
DE102021210920A1 (de) Einrichtung und computerimplementiertes Verfahren zum Trainieren eines Systems für maschinelles Lernen zum Zuordnen einer Scan-Untersuchung zu einem standardisierten Identifizierercode
DE102022112731A1 (de) Verfahren für ein maschinelles lernsystem zur operationsassistenz

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee