-
Die
Erfindung betrifft ein Verfahren zur rechnergestützten Simulation von biologischen
RNA-Interferenz-Experimenten sowie ein entsprechendes Computerprogrammprodukt.
-
Lebensvorgänge in der
Zelle werden durch komplexe Wechselwirkungen verschiedener Gene
gesteuert. In einer lebenden Zelle werden kontinuierlich aus den
Genen der Erbsubstanz (DNA) Ribonukleinsäure-Moleküle (im folgenden RNA-Moleküle) und
anschließend
Proteinmoleküle
produziert, welche die vielfältigen
Aufgaben in der Zelle übernehmen.
Das Wechselspiel bzw. die Wechselwirkungen der Gene untereinander
sowie mit den Proteinen stellen ein sog. regulatorisches genetisches
Netzwerk dar, welches der Entwicklung des menschlichen Körpers aus
einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.
-
Der
Vorgang der Proteinsynthese aus einem Gen über den Zwischenschritt der
RNA-Produktion wird als Genexpression bezeichnet. Wird aus einem
Gen zu einem bestimmten Zeitpunkt mehr Protein (bzw. mehr RNA als
Zwischenprodukt) als in einem Referenzzustand erzeugt, spricht man
von Überexpression,
bei zu wenig Protein (bzw. zu wenig RNA) von einer Unterexpression.
Der Expressionszustand aller Gene zusammengenommen zu einem Zeitpunkt
wird hierbei als Genexpressionsmuster bezeichnet. Das Genexpressionsmuster ändert sich über die
Zeit abhängig
vom Zustand der Zelle, von der zellulären Umgebung sowie von dem betrachteten
Zelltyp. Da eine Zelle während
ihres Lebens unterschiedliche und sehr komplexe Zustände durchläuft, verändert sich
auch ihr Genexpressionsmuster kontinuierlich. Ein Genexpressionsmuster
stellt somit eine Momentaufnahme des Zustandes der Zelle dar.
-
Für lange
Zeit wurden die Ribonukleinsäuren
nur als Zwischenprodukt bei der Proteinsynthese in einer Zelle angesehen.
Die Genforschung der letzten Jahre hat jedoch gezeigt, dass die
Ribonukleinsäuren
eine weit wichtigere Rolle im Zellsystem spielen und grundlegende
Mechanismen bei den biologischen Prozessen in einer Zelle steuern.
Bisher wurde angenommen, dass die Regulation der Genexpression einer
Zelle vornehmlich durch die in der Zelle erzeugten Proteine gesteuert
wird. Forschungsergebnisse der letzten Jahre zeigen jedoch, dass
kurze einsträngige
RNA-Moleküle
die Übersetzung
von Genen in Proteine hemmen können (sog.
Gene Silencing), indem sie die als Zwischenprodukt bei der Proteinsynthese
erzeugten RNA-Moleküle binden
und damit ein Ablesen in das entsprechende Protein verhindern.
-
Ein
verstärkter
Effekt wurde bei doppelsträngigen
RNA-Molekülen beobachtet,
welche die als Zwischenprodukt erzeugten RNA-Moleküle nicht
nur hemmen, sondern zusätzlich
deren Abbau durch Enzyme bewirken. Dieses Phänomen wird als RNA-Interferenz (im folgenden
RNAi) bezeichnet. RNAi stellt ein wichtiges Werkzeug der Genomforschung
dar, denn man kann gezielt und sehr wirksam die Aktivität einzelner
Gene abschalten, die daraus resultierenden Effekte studieren und
auf diese Weise Erkenntnisse über
deren Funktionsweise gewinnen. Mit RNAi ist es sehr viel gezielter
und genauer möglich,
die Funktion von Genen zu studieren, da diese – im Gegensatz zu herkömmlichen
Knock-out-Studien – nicht
vollständig
entfernt werden, sondern nur vorübergehend
und reversibel blockiert werden.
-
Neben
der Gen-Funktionsanalyse ist RNAi vor allem für therapeutische und pharmazeutische
Anwendungsgebiete interessant. Beispielsweise können durch Ausschalten einzelner
krankheitsrelevanter Gene (z. B. Onkogene) krankheitsverursachende
Mechanismen gehemmt werden und neue Medikamentenwirkstoffe aufgefunden
werden. RNAi-Studien werden heutzutage als in-vivo und in-vitro
Experimente durchgeführt,
die aufwändig
und teuer sind. Zudem bedarf es zusätzlicher experimenteller Daten, z.
B. DNA-Microarray-Daten, um die für ein RNAi-Experiment interessanten
RNA-Moleküle
zu selektieren.
-
Die
Druckschrift
WO
2005/003368 A2 beschreibt ein Verfahren zur rechnergestützten Simulation
von Gen-Expressionsmustern, wobei ein kausales Netz verwendet wird,
welches das regulatorische genetische Netzwerk einer Zelle beschreibt.
-
Der
Artikel RICE J. J. u. a.: Reconstructing biological networks using
conditional correlation analysis, Bioinformatics (März 2005)
21 (6) 765–773,
beschreibt die Rekonstruktion von biologischen Netzwerken mit Hilfe
einer Korrelationsanalyse zwischen einzelnen mRNA-Konzentrationen
von Genen in dem Netzwerk. Die in diesem Artikel beschriebenen Netzwerke
dienen nicht zur Simulation von RNA-Interferenz-Experimenten.
-
Aus
der Druckschrift Chen C.-I. u. a.: A Bayesian approach toward analyzing
the network of genes involved in C. elegans programmed cell death,
West Coast Worm Meeting, 2004, Poster and talk (http://elegans.swmed.edu/wli/[wcwm2004p85]/)
ist ein Bayesianischer Ansatz zur Analyse von genetischen Netzwerken
bekannt, wobei die mit den Netzwerken durchgeführten Prädiktionen mit Daten aus RNAi-Experimenten verglichen
werden.
-
In
der Veröffentlichung
Pe'er D. u. a.:
Inferring subnetworks from perturbed expression profiles, Bioinformatics
(2001) 7 (Suppl. 1) S215–224,
wird die Modellierung von Störungen
in Bayesianischen Netzen beschrieben, wobei insbesondere Störungen in
der Form von Abschaltung von Genen erwähnt sind.
-
In
dem Dokument Markowetz F, Grossmann S, Spang R: Probabilistic soft
interventions in Conditional Gaussian networks, Tenth International
Workshop an Artificial Intelligence and Statistics (AISTATS), Barbados, Januar
2005 (http://compdiag. molgen.mpg.de/research/projectRNAi.shtml),
wird ein Lernverfahren für
ein Bayesianisches Netz beschrieben, wobei im Zusammenhang mit dem
Lernen des Netzes RNAi-Experimente erwähnt werden. Die Druckschrift
beschreibt nicht die Simulation von RNAi-Experimenten mit einem
kausalen Netz.
-
Aus
der Druckschrift
DE
101 59 262 A1 ist die Simulation von Gen-Expressionsmustern
mit Hilfe von graphischen Modellen bekannt.
-
Die
Veröffentlichungen
DEJORI M.: Analyzing Gene-Expression Data with Bayesian Networks,
Diplomarbeit, Technische Universität Graz, Juni 2002, FRIEDMAN
N. u. a.: Using Bayesian Networks to Analyze Expression Data, Journal
of computational biology (2000) 7 (3–4) 601–620, und YOO C. u. a.: Discovery
of causal relationships in a gene-regulation pathway from a mixture
of experimental and observational DNA microarray data, Proceedings
of the Pacific Symposium an Biocomputing (2002) 7: 498–509, beschäftigen sich mit
der Analyse von Gen-Expressions-Daten
basierend auf Bayesianischen Netzen.
-
Aufgabe
der Erfindung ist es, ein Verfahren und ein entsprechendes Computerprogrammprodukt
zu schaffen, mit denen rechnergestützt RNAi-Experimente simulierbar
sind.
-
Diese
Aufgabe wird durch die unabhängigen
Patentansprüche
gelöst.
Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
-
In
dem erfindungsgemäßen Verfahren
werden rechnergestützt
RNA-Aktivitäts-Muster
einer Zelle dadurch bestimmt, dass
- a) ein kausales
Netz verwendet wird, welches das regulatorische genetische Netzwerk
der Zelle derart beschreibt, dass Knoten des kausalen Netzes jeweils
die Aktivität
einer RNA-Molekülart
in der Zelle repräsentieren
und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen
den RNA-Molekülarten der
Zelle repräsentieren;
- b) das kausale Netz unter Verwendung von einem oder mehreren
bekannten RNA-Aktivitäts-Mustern,
welche mithilfe der DNA-Microarray-Technologie
gemessene Muster sind, trainiert wird, wobei die Knoten und die
Kanten des kausalen Netzes angepasst werden;
- c) die Aktivität
von einer oder mehreren RNA-Molekülarten der Zelle blockiert
wird, indem deren Aktivität auf
Null gesetzt wird;
- d) unter Verwendung des kausalen Netzes für die blockierten RNA-Molekülarten ein
oder mehrere RNA-Aktivitäts-Muster
der Zelle generiert werden.
-
Unter
Aktivität
versteht man hierbei die Konzentration oder ein Maß für die Konzentration
der entsprechenden RNA-Molekülarten in
der Zelle.
-
Das
Verfahren stellt im Wesentlichen eine Weiterentwicklung des in der
oben genannten Druckschrift
WO 2005/003368 A2 beschriebenen Verfahrens
dar, wobei die Offenbarung dieser Druckschrift hiermit durch Verweis
zum Inhalt der vorliegenden Anmeldung gemacht wird. Dem erfindungsgemäßen Verfahren
liegt dabei die Erkenntnis zugrunde, dass das Verfahren zur Simulation
von Gen-Expressionsmustern gemäß der
WO 2005/003368 A2 auch
zur Simulation von RNAi-Experimenten eingesetzt werden kann, indem
die Variablen des Verfahrens als Aktivitäten der einzelnen RNA-Molekülarten in
der Zelle interpretiert werden und die Aktivitäten einzelner RNA-Moleküle im Wesentlichen
ausgeschaltet werden. Durch das erfindungsgemäße Verfahren können somit
RNAi-Experimente am Rechner simuliert werden, wodurch der experimentelle
und zeitliche Aufwand minimiert werden kann.
-
Vorzugsweise
verwendet das erfindungsgemäße Verfahren
als kausales Netz ein Bayesianisches Netz (auch Bayessches Netz
genannt), das hinlänglich
aus dem Stand der Technik bekannt ist. Das kausale Netz ist ferner
vorzugsweise vom Typ eines gerichteten azylkischen Graphen (englisch:
DAG = directed acylic graph).
-
In
dem erfindungsgemäßen Verfahren
können
die Aktivitäten
der RNA-Molekülarten
durch diskrete Zustände
repräsentiert
werden, welche Maße
für bestimmte
Konzentrationen der RNA-Molekülarten in
der Zelle darstellen. Beispielsweise können die diskreten Zustände einen überexprimierten,
normalexprimierten und unterexprimierten Zustand umfassen. Hierbei
steht ein überexprimierter
Zustand für
eine hohe, einen Normbereich überschreitende
Aktivität,
ein normalexprimierter Zustand für
eine in einem Normbereich liegende Aktivität und ein unterexprimierter
Zustand für
eine Aktivität,
die unterhalb eines Normbereichs liegt.
-
In
einer Weiterentwicklung des erfindungsgemäßen Verfahrens wird ein rechnergestützter Vergleich des
oder der in Schritt d) generierten RNA-Aktivitäts-Muster mit einem oder mehreren
vorgegebenen RNA-Aktivitäts-Mustern
durchgeführt,
um beispielsweise Rückschlüsse über den
Einfluss bestimmter RNA-Molekülarten
auf RNA-Aktivitäts-Muster
zu gewinnen. Der rechnergestützte
Vergleich wird dabei vorzugsweise unter Verwendung eines statistischen
Verfahrens und/oder einer statistischen Kennzahl, insbesondere eines
Abstandsmaßes,
durchgeführt.
-
Zur
Gewinnung von Erkenntnissen bezüglich
des Einflusses bestimmter RNA-Moleküle auf Krankheiten, stammen
in einer Ausführungsform
der Erfindung das eine oder die mehreren bekannten und/oder vorgegebenen
RNA-Aktivitäts-Muster,
mit denen das Netz trainiert bzw. der rechnergestützte Vergleich
durchgeführt wird,
aus kranken Zellen.
-
Das
erfindungsgemäße Verfahren
kann insbesondere als Voruntersuchung für nass-biochemische RNA-Interferenz-Experimente
verwendet werden, wobei mit dem Verfahren RNA-Molekülarten mit
großem Einfluss
auf die in Schritt d) generierte RNA-Aktivitäts-Muster extrahiert werden,
so dass bei den nachfolgenden RNAi-Experimenten vorzugsweise die
extrahierten RNA-Molekülarten blockiert
werden.
-
Neben
dem soeben beschriebenen Verfahren betrifft die Erfindung ferner
ein Computerprogramm-Produkt mit einem auf einem maschinenlesbaren
Träger
gespeicherten Programmcode zur Ausführung des erfindungsgemäßen Verfahrens,
wenn das Programm auf einem Rechner abläuft.
-
Ausführungsbeispiele
der Erfindung werden nachfolgend detailliert anhand der beigefügten Figuren beschrieben.
-
Es
zeigen:
-
1 den
Ablauf einer Ausführungsform
des erfindungsgemäßen Verfahrens;
-
2 den
Ablauf eines Verfahrens zur Erzeugung eines Datensatzes von Stichproben
aus einem Bayesschen Netz; und
-
3 den
Ablauf eines Verfahrens der interventionellen Stichprobenentnahme
gemäß einem
Teilschritt des Verfahrens aus 1.
-
Im
folgenden wird mit Bezug auf 1 ein Ausführungsbeispiel
der Erfindung beschrieben, bei dem als kausales Netzwerk zur Simulation
eines RNAi-Experiments ein Bayessches Netzwerk B verwendet wird, mit
dem eine sog. Bayessche inverse Modellierung (BIM) durchgeführt wird.
-
Ein
Bayessches Netzwerk B ist ein spezieller Typ der Darstellung einer
gemeinsamen multivariaten Wahrscheinlichkeitsdichtefunktion (WDF)
einer Menge von Variablen X durch ein graphisches Modell.
-
Es
ist durch einen gerichteten azyklischen Graphen (directed acyclic
graph, DAG) G definiert, in welchem jeder Knoten i = 1, ..., n einer
Zufallsvariablen Xi entspricht.
-
Die
Kanten zwischen den Knoten repräsentieren
statistische Abhängigkeiten
und können
als Kausalzusammenhänge
zwischen ihnen interpretiert werden. Der zweite Bestandteil des
Bayesschen Netzwerkes ist die Menge von bedingten WDFen P(Xi|Pai, θ, G), welche
mittels eines Vektors θ parametriert
sind.
-
Diese
bedingten WDFen spezifizieren die Art der Abhängigkeiten der einzelnen Variablen
i von der Menge ihrer Elternknoten (Parents) Pa
i.
Somit kann die gemeinsame WDF in die Produktform
zerlegt werden.
-
Der
DAG eines Bayesschen Netzwerkes beschreibt auf eindeutige Weise
die bedingten Abhängigkeits-
und Unabhängigkeitsbeziehungen
zwischen einer Menge von Variablen, jedoch hat im Gegensatz dazu eine
gegebene statistische Struktur der WDF keinen eindeutigen DAG zur
Folge.
-
Vielmehr
kann gezeigt werden, dass zwei DAG ein und dieselbe WDF beschreiben,
dann und nur dann, wenn sie dieselbe Menge von Kanten und dieselbe
Menge von ”Colliders” aufweisen,
wobei ein Collider eine Konstellation ist, in welcher wenigstens
zwei gerichtete Kanten zu demselben Knoten führen.
-
In
diesem Netzwerk repräsentieren
gemäß der hier
beschriebenen Ausführungsform
der Erfindung Knoten die Aktivität
einer RNA-Molekülart
in der Zelle und die Kanten beschreiben die Regelungsmechanismen
zwischen zwei Knoten, welche auf kausale Art und Weise interpretiert
werden können.
-
Um
mit dem Bayesschen Netzwerk B RNAi-Experimente zu simulieren, wird
das Netzwerk gemäß Schritt 101 der 1 zunächst strukturell
gelernt.
-
Der
Vorgang des strukturellen Lernens kann wie folgt beschrieben werden:
Sei
D = {d
1, d
2, ...,
d
N} ein Datensatz von N unabhängigen Beobachtungen,
wobei jeder Datenpunkt ein n-dimensionaler Vektor mit Komponenten
d
l = {d
l l, d
l 2,
..., d
l n} ist. Bei
gegebenem D ist die Struktur G des Bayesschen Netzwerkes zu finden,
welche am besten mit D übereinstimmt,
d. h. welche die Bayes-Punktbewertung (Bayes-Score)
maximiert, wobei P(D|G) die
Randwahrscheinlichkeit, P(G) die Apriori-Wahrscheinlichkeit der
Struktur und P(D) die Evidenz ist.
-
Da
sowohl die Apriori-Wahrscheinlichkeit als auch die Evidenz unbekannt
sind, reduziert sich das Problem auf das Ermitteln der Struktur
mit der besten Randwahrscheinlichkeit entsprechend den Daten.
-
In
der hier beschriebenen Ausführungsform
besteht der Datensatz D aus N Microarray-Experimenten, z. B. aus
Zellproben von unterschiedlichen Patienten, und jeder Datenvektor
{dl 1, d1 2, ..., d1 n} entspricht der Aktivität von n RNA-Molekülarten in
dem Microarray-Experiment.
-
Ein
aus solchen Daten gelerntes Bayessches Netzwerk codiert die Wahrscheinlichkeitsverteilung
von n RNA-Molekülarten,
die aus diesen N Microarray-Experimenten erhalten wurden.
-
Als
nächstes
wird gemäß Schritt 102 der 1 eine
sog. interventionelle Stichprobenentnahme (B, E, N) durchgeführt, mit
der in dem gelernten Bayesschen Netzwerk Datensätze von N unabhängigen Stichproben bei
einer vorgegebenen Evidenz erzeugt werden. Das Verfahren der interventionellen
Stichprobenentnahme wird weiter unten mit Bezug auf 3 näher erläutert. Die
Evidenz stellt hierbei die in dem erfindungsgemäßen Verfahren vorgegebene Menge
an Beobachtungen des zu simulierenden RNAi-Experiments dar. D. h.
E steht für
eine oder mehrere blockierte RNA-Molekülarten, deren Aktivitätswert im
Wesentlichen auf Null gesetzt wird.
-
Nach
Durchführung
der interventionellen Stichprobenentnahme wird im Schritt 103 schließlich der
Datensatz von N Stichpro ben ausgegeben, wobei dieser Datensatz das
Ergebnis des simulierten RNAi-Experiments darstellt.
-
Zum
besseren Verständnis
wird zunächst
mit Bezug auf 2 allgemein ein Verfahren zur
Stichprobenentnahme (B, N) von N unabhängigen Stichproben aus einem
Bayesschen Netzwerk B beschrieben. Hierbei entspricht jeder Knoten
i = 1, ..., n des Bayesschen Netzwerks einer Zufallsvariablen Xi, wobei die Knoten im erfindungsgemäßen Verfahren
für Aktivitäten einzelner
RNA-Molekülarten
stehen.
-
In
einem ersten Schritt 201 wird zunächst die Variablenmenge X gemäß der Bedingung
geordnet, dass Parents (Elternknoten) Pai vor
den Xi angeordnet sind.
-
Anschließend wird
für jede
Stichprobe s = 1, ..., N und für
i = 1, ..., n der Knoten Xi mit der höchsten Ordnungsnummer
in der Strichprobe, der nicht instantiiert ist, ausgewählt (Schritt 202).
Falls Xi ein Wurzelknoten (d. h. ein Knoten
ohne Elternknoten) ist, wird ein zufälliger Zustand mit der Wahrscheinlichkeit
P(Zustand) gewählt
(Schritt 203). Andernfalls wird ein zufälliger Zustand mit der bedingten
Wahrscheinlichkeit P(Zustand|entnommene Zustände von Pai)
gewählt
(Schritt 204). Schließlich
wird im Schritt 205 der Knoten Xi mit dem
zufälligen
Zustand instantiiert, d. h. Xi = Zustand.
Nach Instantiierung aller Xi für alle Stichproben
N hat man einen Datensatz DB von N unabhängigen Stichproben
erhalten.
-
Das
soeben beschriebene Verfahren zur Stichprobenentnahme wird nun unter
Berücksichtigung
einer Evidenz angewandt, welche – wie oben erwähnt – eine Menge
XE an RNA-Molekülarten repräsentiert, deren Aktivität zur Simulation
des RNAi-Experiments
blockiert wird. Die Menge an durch die Stichprobenentnahme zu bestimmenden
Abfragevariablen Xq ist somit gegeben durch
Xq = {X\XE}.
-
In
Bezug auf 3 werden nachfolgend die einzelnen
Schritte des Verfahrens erläutert,
wobei das Verfahren das oben erwähnte
Verfahren zur interventionellen Stichprobenentnahme darstellt.
-
In
einem ersten Schritt 301 wird zunächst die Variablenmenge Xq
gemäß der Bedingung
geordnet, dass Parents (Elternknoten) Pai vor
den Xi angeordnet sind.
-
Anschließend wird
für jede
Stichprobe s = 1, ..., N und für
i 1, ..., n der Knoten Xi mit der höchsten Ordnungsnummer
in der Strichprobe, der nicht instantiiert ist, ausgewählt (Schritt 302).
Falls Xi ein Wurzelknoten (d. h. ein Knoten
ohne Elternknoten) ist, wird ein zufälliger Zustand mit der Wahrscheinlichkeit
P(Zustand|E) gewählt
(Schritt 303). Andernfalls wird ein zufälliger Zustand mit der bedingten
Wahrscheinlichkeit P(Zustand|entnommene Zustände von Pai,
E) gewählt
(Schritt 304). Schließlich
wird im Schritt 305 der Knoten Xi mit
dem zufälligen
Zustand instantiiert, d. h. Xi = Zustand.
Nach Instantiierung aller Xi für alle Stichproben
N hat man einen Datensatz DB|E von N unabhängigen Stichproben
in Abhängigkeit
von der Evidenz E erhalten. Dieser Datensatz stellt die simulierten
Aktivitäten
der RNA-Molekülarten
eines RNAi-Experiments dar, bei dem gemäß der Evidenz E bestimmte RNA-Molekülarten blockiert
wurden.
-
Die
Berechnung der Wahrscheinlichkeiten P(Zustand|E) und P(Zustand|entnommene
Zustände
von Pai, E) in Schritten 303 und 304 des
obigen Verfahrens erfolgt mittels probabilistischer Interferenz.
Hierbei wird die Aposteriori-Verteilung P(Xq|E)
einer Abfragevariablen Xq ermittelt, wenn
eine gewisse Evidenz E im Bayesschen Netzwerk beobachtet worden
ist.
-
Aufgrund
der Definition einer bedingten Wahrscheinlichkeit ist die Aposteriori-Wahrscheinlichkeit
gegeben durch
wobei X
E die
Menge der beobachteten Variablen bezeichnet.
-
Um
die Zeitkomplexität
zu überwinden,
verwenden die verschiedenen Methoden der exakten Interferenzberechnung
das allgemeine Prinzip der dynamischen Programmierung.
-
Im
Rahmen dieses Ausführungsbeispiels
wird ein einfacher Interferenzalgorithmus, der ”bucket elimination”, verwendet.
-
Die
Grundidee bei diesem Interferenzalgorithmus besteht darin, Variablen
eine nach der anderen entsprechend einer Eliminationsreihenfolge ρ durch Summieren
zu eliminieren. Auf diese Weise kann P(Xq|E)
innerhalb einer annehmbaren Zeit effizient berechnet werden.
-
Ggf.
kann das im Vorangegangenen beschriebene Simulationsverfahren dadurch
erweitert werden, dass die Qualität des Einflusses der Evidenz
E auf das Verhalten des Bayesschen Netzwerkes B abgeschätzt wird,
um hierdurch biologische bzw. medizinische Erkenntnisse aus dem
Verfahren zu gewinnen. Hierzu wird der erzeugte Datensatz DB|E mit einer Menge von Datensätzen D von
bekannten Zuständen
S verglichen.
-
Es
wird angenommen, dass D die Auswirkung verschiedener Krebsarten
beschreibt. Ausführungsgemäß kann nun
das Verhalten der Evidenz E in Bezug auf eine bestimmte Krebsart
S beschrieben werden.
-
Unter
Verwendung eines Abstandsmaßes
wird die Änderung
a der Korrelation zwischen D
B|E und D
S infolge von E schätzbar:
wobei der Abstand zwischen
den zwei Datensätzen
mit Hilfe des Abstands zwischen D
B, welches
aus B ohne Evidenz entnommen wurde, und D
S normiert
wurde.
-
Folglich
ist ausführungsgemäß der Einfluss
einer beobachteten Evidenz in der Form von blockierten RNA-Molekülarten auf
ein für
Krebs charakteristisches Verhalten des Modells messbar.
-
Zweitens
ist die Wahrscheinlichkeit dafür
berechenbar, dass B einen Datensatz DB|E erzeugt,
welcher gleich DS bei gegebenem E ist.
-
Zu
diesem Zweck wird geschätzt,
wie viele Stichproben dl von DB|E am
nächsten
bei DS liegen, indem der Abstand zwischen
jeder Stichprobe und jedem Datensatz von D berechnet wird.
-
Somit
erhält
man die Aposteriori-Wahrscheinlichkeit P(S|E) des Auftretens der
Krebsart S bei gegebener Evidenz E aus:
wobei N
ES die
Anzahl der Stichproben von D
B|E ist, welche
statistisch dem Datensatz D
S am nächsten kommen, und
wobei N die Gesamtzahl der Stichproben von D
B|E ist.