-
Verwandte
Anmeldungen
-
Diese
Anmeldung erhebt Anspruch auf die Nutzung der provisorischen Anmeldung
Nr. 60/535,352 mit dem Titel „Verfahren,
System und Vorrichtung zur Zusammenstellung und Nutzung von biologischem
Wissen", beantragt
am 9. Januar 2004, deren Offenlegung hierin durch Bezugnahme eingefügt ist.
-
Technisches
Gebiet
-
Die
Erfindung betrifft Verfahren, Systeme und Vorrichtungen, um neues
biologisches Wissen zu ermitteln, insbesondere Verfahren, Systeme
und Vorrichtungen, um eine biologischen Wissensbank zusammenzustellen,
Verfahren, Systeme und Vorrichtungen, um Teilmengen aus biowissenschaftlichen
Daten und Informationen zu bilden und in biologische Modelle zu
transformieren sowie Verfahren, Systeme und Vorrichtungen zur Vereinfachung
der elektronischen Verarbeitung von und des Schlussfolgerns aus
biologischen Informationen.
-
Hintergrund
-
Die
in der heutigen Welt erzeugte Menge biologischer Informationen nimmt
dramatisch zu. Man schätzt,
dass die Menge der Information sich derzeit alle vier bis fünf Jahre
verdoppelt. Mit der riesigen Informationsmenge, die verarbeitet
und analysiert werden muss, sind traditionelle Verfahren (bzw. Methoden)
des Erkennens und Verstehens der Bedeutung dieser Informationen,
vor allem im Bereich der Biowissenschaften, überfordert.
-
Um
zu einem tatsächlichen
Verständnis
eines biologischen Systems zu gelangen, muss ein Forscher in den
Biowissenschaften Informationen aus vielen Quellen zusammenfügen. Das
Begreifen biologischer Systeme wird durch die interdisziplinäre Natur
der Biowissenschaften erschwert. Um biologische Systeme verstehen
zu können,
kann umfassendes Wissen in Genetik, Zellbiologie, Biochemie, Medizin
und vielen anderen Fachgebieten erforderlich sein. Um biologische
Systeme zu verstehen, kann es nötig
sein, viele verschiedene Informationen zu verknüpfen. Biowissenschaftliche
Informationen können Material über grundlegende
Chemie, Proteine, Zellen, Gewebe und Auswirkungen auf Organismen
und Populationen umfassen – die
alle miteinander in Wechselbeziehung stehen könnten. Diese Wechselbeziehungen
können
komplex, kaum verstanden oder verborgen sein.
-
Es
wird bereits versucht, elektronische Modelle biologischer Systeme
zu erschaffen. Dazu gehören
die Zusammenstellung und Organisation enormer Datenmengen und der
Aufbau eines Systems, das die Daten dazu verwenden kann, das verhalten eines
biologischen Systems zu simulieren. Wegen der Komplexität der Biologie
und der schieren Datenmenge kann der Aufbau eines solchen Systems
Hunderte von Jahren dauern und mehrere zehn Millionen Dollar kosten.
Dazu stehen diejenigen, die in den Biowissenschaften neue Einsichten
und neue Erkenntnisse suchen, vor der immer schwierigeren Aufgabe, die
richtigen Daten aus den Bergen von Informationen, zusammengetragen
aus vollkommen unterschiedlichen Quellen, zu verknüpfen. Unternehmen, die
bereit waren, dafür
Mittel zu investieren, hatten bisher keinen Erfolg beim Erarbeiten
von tatsächlich brauchbaren
Modellen, die Forscher wesentlich dabei unterstützen, biowissenschaftliches
Wissen zu vergrößern. Deshalb
sind die derzeitigen zur Verarbeitung und Analyse von wissen entwickelten
Systeme zur Verarbeitung und Aufzeichnung biowissenschaftliche Daten
bei weitem nicht optimal und maßgebliche
neue Leistungen werden benötigt.
-
Genauer
ausgedrückt,
braucht die Branche eine Methode, um die riesigen Mengen von Wissen aus
den verschiedenen Bereichen der Biowissenschaften zusammenzustellen,
und mit deren Hilfe kenntnisreiche und sinnvolle Modelle zu schaffen,
die geprüft
und abgefragt werden können,
um neue biologische Beziehungen, Pfade, Ursachen und Wirkungen und
andere Einsichten effizient und einfach zu erkennen.
-
Zusammenfassung
der Erfindung
-
In Übereinstimmung
mit der Erfindung wird erkannt, dass die Bereitstellung von Mitteln
für den raschen
und effektiven Aufbau von Teilwissensbanken und abgeleiteten Wissensbanken
ein Schlüssel ist
zur Bereitstellung nützlicher
und leichter zu bedienenden biologischer Wissensbanken, die biologische Systeme
effektiv nachstellen können.
Diese spezialisierten Wissensbanken können von einer globalen Wissensbank
ausgehend aufgebaut werden, indem zu Beginn eine potenziell relevante
Teilmenge von biowissenschaftlich relevanten Daten, die von einem Benutzer
spezifizierte Kriterien erfüllen,
erfasst wird eine speziell ausgerichtete Wissensbank mit der hier dargelegten
Struktur zusammengestellt wird.
-
Diese
können
in verschiedenen Formaten verfeinert, augmentiert, untersucht und
in verschiedenen Formaten dargestellt, durch menschliche Beobachtung
und Analyse genutzt werden; dazu können mithilfe einer Vielzahl
von Instrumenten Verständnis und
Aufdeckung versteckter Interaktionen und Beziehungen in biologischen
Systemen erleichtert werden, d. h. neues biologisches Wissen wird
geschaffen. Das wiederum erlaubt das Aufstellen neuer Hypothesen über biologische
Pfadverläufe,
die auf dem neuen biologischen Wissen basieren, und erlaubt dem Nutzer,
eine Hypothese zu bestätigen
oder zu widerlegen, indem er biologische Experimente mit Biomolekülen, Zellen
und Tiermodellen oder einen klinischen Versuch entwirft und durchführt.
-
Die
Erfindung bietet also ein neues Paradigma, neue Verfahren, Vorrichtungen
und Instrumente, die auf eine globale Wissensbank angewendet werden
können.
Die Instrumente und Verfahren ermöglichen eine effiziente Durchführung von
Erkundungsprojekten in den für
die Biowissenschaften relevanten Bereichen. Die Erfindung stellt
neue Verfahren und Instrumente bereit, die es erlauben, eine Wissensbank
zu konditionieren, um bei einem Projekt oder einer Aufgabe sowohl
Fokussierung als auch Flexibilität
zu ermöglichen.
Die Erfindung erlaubt es auch, jedes biologische Thema zu behandeln,
egal wie obskur oder esoterisch es sein mag, vorausgesetzt, es gibt
zumindest einige Assertionen in einer globalen Wissensbank, die
für dieses
Thema relevant sind. Assertionen sind wahre Aussagen, die sich auf
ein existierendes Objekt in einem System oder eine wahre Aussage über ein
Objekt in diesem System und einen Literalwert oder eine beliebige
Kombination daraus beziehen. Jede wahre Aussage in einer Wissensbank
oder einer Einheit wird hier als eine Assertion bezeichnet.
-
Ein
Aspekt der vorliegenden Erfindung ist die Erfassung einer Teilmenge
von Daten, die notwendig oder hilfreich ist, aus einer globalen
Wissensbank oder einer zentralen Datenbank und der Neuaufbau einer
spezialisierteren Teilwissensbank, die speziell für den vorliegenden
Zweck konzipiert wird. Dazu ist es wichtig, dass die Struktur der
globalen Wissensbank so konzipiert wird, dass man eine Teilwissensbank
erfassen kann, die die relevanten Beziehungen zwischen den Informationen
der Teilwissensbank bewahrt. Die Teilwissensbank, oder was hier
der Einfachheit halber als eine Einheit bezeichnet wird, erlaubt
eine Selektion und die logische Organisation von scheinbar verschiedenen
Daten in ein kohärentes
Modell eines beliebigen biologischen Systems, definiert durch irgendeine
gewünschte
Kombination von Kriterien. Diese Einheiten sind Mikrokosmen der globalen
Wissensbank, sie können
in dem Gebiet, das sie abdecken, detaillierter und umfassender als die
globale Wissensbank sein und einfacher, produktiver und effizienter
genutzt werden. Einheiten können
zusammengeführt
werden, sie können
sich gegenseitig augmentieren oder wieder zur globalen Wissensbank
hinzugefügt
werden. Wie bereits dargestellt, sind die Begriffe Einheit und Wissensbank austauschbar.
-
Ein
wichtiger Aspekt der Erfindung ist, dass sie die Generierung von
abgeleiteten Einheiten ermöglicht.
Abgeleitete Einheiten sind solche, in denen auf der Basis von logischen
Inferenzen aus Assertionen neue Assertionen erzeugt werden. Abgeleitete Einheiten
können
durch das Ziehen von Schlüssen und
andere Algorithmen augmentiert werden. Die Augmentierung wird durch
das Hinzufügen
neuen Wissens erreicht, das möglicherweise,
aber nicht notwendigerweise Teil der ursprünglichen Einheit oder der globalen
Wissensbank ist. Die Augmentierung beinhaltet das Ziehen von Schlüssen aus
der Einheit und den Abgleich der Einheit mit externen Daten (z.
B. Labordaten, klinischen Daten, Literaturdaten usw.), ist aber
nicht darauf beschränkt.
-
Die
Erfindung stellt Verfahren zum Aufbau einer Wissensbank, Mittel
zur deren Erstellung und Instrumente zu derer Verfeinerung bereit.
Im Einzelnen bietet die Erfindung Verfahren an, um eine biologische
Wissensbank aufzubauen, indem zuerst eine Datenbank biologischer
Assertionen oder Mittel wie eine Benutzeroberfläche zum Zugriff auf eine solche Wissensbank
bereitgestellt werden, die eine Vielzahl von Knoten umfasst, welche
biologische Elemente repräsentieren,
und Deskriptoren, die die Elemente oder Beziehungen zwischen diesen
charakterisieren. Eine bevorzugte Wissensbank ist in der parallel
anhängigen
US-Patentanmeldung mit der Seriennummer 10/644,582 des selben Anmelders
dargelegt, deren Offenlegung hierin durch Bezugnahme eingefügt ist.
Als nächstes
erfasst die Methode eine Teilmenge von Assertionen aus der Wissensbank,
die eine Reihe biologischer Kriterien erfüllt, die ein Benutzer spezifiziert
hat, um ein ausgewähltes
biologisches System zu definieren. Dann werden die erfassten Daten kompiliert,
um eine Einheit, d. h. eine biologische Wissensbank von Assertionen,
die für
das ausgewählte
biologische System relevant sein könnten, zu erstellen.
-
Die
Erfindung stellt Verfahren zur Ermittlung von neuem biologischen
Wissen bereit. Die Verfahren beinhalten die Bereitstellung einer
Datenbank biologischer Assertionen, die eine Vielzahl von Knoten umfasst,
die biologische Elemente repräsentieren, und
Deskriptoren, die die Elemente oder Beziehungen zwischen diesen
charakterisieren. Die Verfahren beinhalten auch die Erfassung einer
Teilmenge von Assertionen, die eine Reihe von biologischen Kriterien
erfüllen,
die ein Benutzer spezifiziert hat, um ein ausgewähltes biologisches System zu
definieren. Die Verfahren beinhalten darüber hinaus die Kompilierung
der erfassten Assertionen, um eine biologische Wissensbank von Assertionen,
die für
das ausgewählte
biologische System relevant sein könnten, zu erstellen, und die
biologische Wissensbank danach zu analysieren, um neues biologisches
Wissen zu ermitteln. Die Erfindung stellt auch Verfahren zur Generierung
von neuem biologischen Wissen bereit, indem eine Datenbank biologischer
Assertionen bereitgestellt wird, die eine Vielzahl von Knoten umfasst, welche
biologische Elemente repräsentieren,
und Deskriptoren, die die Elemente oder Beziehungen zwischen diesen
charakterisieren, und dann eine Vielzahl der biologischen Assertionen
zu transformieren, um ein abgeleitetes Wissensnetzwerk zu erzeugen.
-
Die
Erfindung bietet Verfahren, um eine biologische Wissensbank zu nutzen,
darunter auch die Bereitstellung einer Datenbank biologischer Assertionen,
die eine Vielzahl von Knoten umfasst, welche biologische Elemente
repräsentieren,
und Deskriptoren, die die Elemente oder Beziehungen zwischen diesen
charakterisieren, um eine Vielzahl der biologischen Assertionen
zu transformieren und so ein abgeleitetes Wissensnetzwerk zu erzeugen
und neues biologisches Wissen aus der Einheit zu schöpfen.
-
Die
Erfindung stellt Systeme bereit, um eine biologische Wissensbank
zusammenzustellen. Die Systeme beinhalten eine Datenbank biologischer
Assertionen in elektronischer Form, die eine Vielzahl von Knoten
umfasst, welche biologische Elemente repräsentieren, und Deskriptoren,
die die Elemente oder Beziehungen zwischen diesen charakterisieren. Die
Systeme beinhalten auch eine Anwendung zur Erfassung einer Teilmenge
von Assertionen, die eine Reihe biologischer Kriterien erfüllt, die
ein Benutzer spezifiziert hat, um ein ausgewähltes biologisches System zu
definieren, aus der Datenbank. Die Systeme beinhalten außerdem noch
einen Wissens-Assembler, der für
die Kompilierung der erfassten Assertionen konfiguriert ist, um
so eine biologische Wissensbank von Assertionen zu erzeugen, die
für das ausgewählte biologische
System potenziell relevant sind. Die Erfindung stellt auch Systeme
bereit, um eine biologische Wissensbank einschließlich einer Datenbank
biologischer Assertionen zusammenzustellen, die eine Vielzahl von
Knoten haben, welche biologische Elemente repräsentieren, und Deskriptoren,
die die Elemente oder Beziehungen zwischen diesen charakterisieren,
sowie eine Anwendung zur Transformation einer Vielzahl von biologischen
Assertionen, um ein abgeleitetes Wissensnetz zu erzeugen.
-
Die
Erfindung stellt Rechner zur Zusammenstellung einer biologischen
Wissensbank und zur Ermittlung von neuem biologischen Wissen bereit.
Die Rechner umfassen Mittel zum Zugriff auf eine elektronische Datenbank
biologischer Assertionen, die eine Vielzahl von Knoten umfasst,
welche biologische Elemente repräsentieren,
und Deskriptoren, die die Elemente oder Beziehungen zwischen diesen charakterisieren,
sowie eine Benutzeroberfläche
für spezifische
biologische Kriterien, die von diesem Rechner zum Aufbau einer Einheit
verwendet werden, die ein ausgewähltes
biologisches System darstellt. Die Rechner umfassen außerdem eine
Computeranwendung zur Erfassung einer Teilmenge von Assertionen,
die vom Benutzer spezifizierte biologische Kriterien erfüllen, aus
der Datenbank, und einen Wissens-Assembler, für die Kompilierung der erfassten
Assertionen konfiguriert ist, um so eine biologische Wissensbank
von Assertionen zu erzeugen, die für das ausgewählte biologische
System potenziell relevant sind. Die Erfindung stellt auch einen
Herstellungsartikel mit einem computerlesbaren Programmträger bereit,
auf dem computerlesbare Instruktionen enthalten sind, um die oben
genannten Verfahren und Systeme anzuwenden.
-
In
verschiedenen Ausgestaltungen beinhaltet die Erfindung methodische
Schritte, Anwendungen und Rechner, um aus den erfassten Assertionen Schlüsse zu ziehen,
damit logische Inkonsistenzen in der Wissensbank beseitigt werden
können;
um aus den erfassten Assertionen Schlüsse zu ziehen, damit dadurch
neues biologisches Wissen generiert wird; um aus den erfassten Assertionen
Schlüsse
zu ziehen, um so die Assertionen darin zu augmentieren, indem man
der Wissensbank zusätzliche
Assertionen aus der Datenbank, die den Auswahlkriterien entsprechen,
hinzufügt;
oder um die Assertionen darin zu augmentieren, indem man zusätzliche
Assertionen aus Datenquellen außerhalb
der Datenbank zur Wissensbank hinzufügt.
-
In
verschiedenen Ausgestaltungen beinhaltet die Erfindung methodische
Schritte, Anwendungen und Rechner, um aus den erfassten Assertionen Schlüsse zu ziehen,
um die Assertionen darin zu augmentieren, indem man zusätzliche
Assertionen, die in der Einheit neu sind, zur Wissensbank hinzufügt; indem
man eine Pfadanalyse für
die Wissenseinheit durchführt,
um einen oder mehrere Pfade zu erfassen, der sich auf experimentelle
oder klinische Daten bezieht; indem man auf die erfassten Assertionen
eine homologe Transformation anwendet; indem man mit den erfassten
Assertionen eine logische Simulation durchführt oder indem man der Einheit
zusätzliche
Assertionen aus Datenquellen außerhalb
der Datenbank hinzufügt.
-
In
verschiedenen Ausgestaltungen beinhaltet die Erfindung methodische
Schritte, Anwendungen und Rechner, um aus den biologischen Assertionen
auf neue Assertionen zu schließen;
um eine Teilmenge von Assertionen aus der Datenbank zu erfassen,
die eine vom Benutzer spezifizierte Reihe von biologischen Kriterien
zur Festlegung eines ausgewählten
biologischen Systems erfüllt;
um mathematische Operationen auf Reihen biologischer Assertionen
anzuwenden, um dadurch neue Assertionen zu erzeugen; und um biologische
Assertionen zusammenzufassen, um neue Assertionen zu erzeugen.
-
In
verschiedenen Ausgestaltungen sind Knoten Enzyme, Kofaktoren, Enzymsubstrate,
Enzyminhibitoren, DNS, RNS, Transkriptionsregulatoren, DNS-Aktivatoren,
DNS-Repressoren,
Signalmoleküle,
Transmembran-Moleküle,
Transportmoleküle, Fressmoleküle, Regulationsmoleküle, Hormone,
Zytokine, Chemokine, Antikörper,
Strukturmoleküle, Metaboliten,
Vitamine, Toxine, Nährstoffe,
Mineralien, Agonisten, Antagonisten, Liganden, Rezeptoren oder Kombinationen
daraus. In anderen Ausgestaltungen sind Knoten Protonen, Gasmoleküle, organische
Moleküle,
Aminosäuren,
Peptide, Proteinbereiche, Proteine, Glykoproteine, Nukleotide, Oligonukleotide,
Polysaccharide, Lipide, Glykolipide oder Kombinationen daraus. In
weiteren Ausgestaltungen umfassen Knoten Zellen, Gewebe oder Organe
oder Moleküle,
die als Medikamente infrage kommen.
-
In
verschiedenen Ausgestaltungen können die
durch die Knoten und Assertionen repräsentierten biologischen Informationen
experimentelle Daten, Wissen aus der Fachliteratur, Patientendaten, Daten
aus klinischen Versuchen, Compliance-Daten, chemische Daten, medizinische
Daten oder hypothetische Daten umfassen. In anderen Ausgestaltungen können die
biologischen Informationen wahre Aussagen über ein Molekül, eine
biologische Struktur, einen physiologischen Zustand, eine Eigenschaft,
einen Phänotyp
oder einen biologischen Prozess repräsentieren.
-
In
verschiedenen Ausgestaltungen repräsentieren die biologischen
Informationen ein Molekül, eine
biologische Struktur, einen physiologischen Zustand, eine Eigenschaft,
einen Phänotyp,
einen biologischen Prozess, klinische Daten, medizinische Daten,
Daten über
Krankheiten oder Unverträglichkeiten.
In verschiedenen Ausgestaltungen beinhaltet die biologische Information
einen Deskriptor für
Zustand, Ort, Menge oder Unterstruktur eines Moleküls, biologische
Struktur, physiologischen Zustand, Eigenschaft, Phänotyp, biologischen
Prozess, klinische Daten, medizinische Daten, Daten über Krankheiten oder
Unverträglichkeiten.
-
In
verschiedenen Ausgestaltungen beinhaltet das durch die Methode erzeugte
neue biologische Wissen Vorhersagen über physiologisches Verhalten bei
Menschen, z. B. aus der Analyse von an Tieren durchgeführten Experimenten
wie Studien über
Medikamentenwirksamkeit und/oder Medikamententoxizität oder über die
Ermittlung von Biomarkern, die auf die Prognose, Diagnose, Empfänglichkeit
für Medikamente,
Medikamententoxizität
sowie Schwere oder Stadium der Krankheit schließen lassen. In einigen Ausgestaltungen
schließt
die Methode das Vergleichen verschiedener Einheiten ein, in anderen
Datenabbildung und in wiederum anderen die grafische Darstellung
aller oder mehrerer Teile der Einheit, um so das Verständnis, die
Extrapolation, die Interpolation und das Ziehen von Schlüssen zu
erleichtern.
-
Die
vorhergehenden und andere Funktionen und Vorteile der vorliegenden
Erfindung sowie die Erfindung an sich werden aus der Beschreibung,
den Zeichnungen und Ansprüchen,
die noch folgen, besser verständlich.
-
Kurze Beschreibung
der Zeichnungen
-
In
allen Ansichten der Zeichnungen beziehen sich gleiche Bezugszeichen
durchgehend auf dieselben Teile. Die Zeichnungen sind nicht unbedingt
maßstabsgetreu,
das Gewicht wurde stattdessen ganz allgemein auf die Darstellung
der Grundlagen der Erfindung gelegt. In der folgenden Beschreibung
werden verschiedene Ausgestaltungen mit Verweis auf die folgenden
Zeichnungen beschrieben, in denen:
-
1 ein Übersichtsdiagramm
ist, das eine erläuternde
Ausgestaltung der Erfindung darstellt.
-
2A ein
Originalnetzwerk zeigt und 2B eine
Teilmenge eines Netzwerkes in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
3 einen
Wissenseinheitsgraphen in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
4 die
Vereinigung von zwei Pfaden in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
5 einen
Wissenseinheitsgraphen in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
6 einen
Wissenseinheitsgraphen in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
7 ein
transformiertes Netzwerk in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
8 die
Darstellung einer zusammengefassten Stoffwechselreaktion in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
9 ein
abgeleitetes Netzwerk in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
10 ein
erläuterndes
Beispiel von Datenabbildung in Übereinstimmung
mit einer Ausgestaltung der Erfindung zeigt.
-
11 Inferenzpfade
für übergeordnete
Ursachen zeigt, beginnend mit einer Veränderung der Boten-RNS-Niveaus
für ein
spezielles Gen in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung.
-
12 ein
Diagramm ist, das in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung die Ausbreitung von vorausgesagten Veränderungen
in einer Vorwärtssimulation
zeigt, die mit beobachteten Expressionsänderungen verglichen, werden.
-
13 ein
Diagramm ist, das in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung durch eine Rückwärtssimulation aus neun Expressionsdatenpunkten
generiert wurde, gefolgt von der Beschneidung des Graphen, um nur
die Folgerungsketten zu zeigen, die die Primärhypothesen stützen.
-
14 in Übereinstimmung
mit der vorliegenden Erfindung ein erläuterndes Beispiel einer Visualisierungstechnik
zeigt, die auf einer Vorwärtssimulation
basiert, die vorausgesagte Ergebnisse mit tatsächlichen Labordaten vergleicht.
-
15 einen
Einheitsübersichtsgraphen
in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
16 ein
Graph ist, der in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung Simulationsergebnisse zeigt.
-
17 eine Darstellung von Zeitserienexpression und
einer Abbildung proteometrischer Daten auf ein Segment eines bekannten
metabolischen Pfadverlaufs in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung zeigt.
-
18 ein Diagramm zeigt, das in Übereinstimmung mit einer erläuternden
Ausgestaltung der Erfindung ein Mittel zur Zusammenfassung von Zeit, Dosis
oder Daten anderer Datenreihen aus vielen Experimenten rund um ein
bestimmtes Gen oder Protein anzeigt.
-
19 ein Tortendiagramm zeigt, die in Übereinstimmung
mit einer erläuternden
Ausgestaltung der Erfindung die Übereinstimmung
einer Hypothese mit beobachteten Daten zusammenfasst.
-
20 in Übereinstimmung
mit der Erfindung ein Beispiel für
einen Algorithmus zur Verwendung bei der Bewertung eines biologischen
Modells durch Vergleichen vorausgesagter Ergebnisse mit tatsächlichen
Ergebnissen zeigt.
-
21 in Übereinstimmung
mit der Erfindung ein Beispiel für
einen Algorithmus zur Identifizierung eines Biomarkers zeigt.
-
Beschreibung
-
Um
die gegenwärtige
Erfindung umzusetzen, wird eine globale Wissensbank oder zentrale Datenbank
so strukturiert, dass sie eine Vielzahl von Knoten und Deskriptoren
umfasst, und diese Knoten und Deskriptoren kopiert oder transferiert
werden können,
ohne dass dabei interne Konsistenz oder biologischer Kontext verloren
geht. Knoten sind Elemente biologischer Systeme, sowohl physisch
als auch funktionell, und schließen zum Beispiel solche Dinge
wie bestimmte Organe, Gewebe, Zellen, Organellen, Zellkompartimente,
Membrane, Proteine, DNS, RNS, kleine Moleküle, Medikamente und Metaboliten
ein. Die Deskriptoren sind Dateneinträge, welche die Knoten funktionell
und/oder strukturell miteinander verbinden (z. B. Kasusrahmen, die „Verben" sind, welche die
Wechselbeziehung von Knoten bestimmen) und Dateneinträge, die
zusätzliche
Informationen mit einem oder beiden Knoten und ihren Wechselbeziehungen
in Verbindung bringen (z. B. Aufzeichnen der Spezies oder des Organs,
wo das Protein gefunden wird, Bestimmen der Zeitschrift, in der
die Daten veröffentlicht
wurden, Vermerk von tertiärer
struktureller Information über
das behandelte Protein, Vermerk, dass das Protein bei Patienten
mit Hypertonie erhöht
ist, usw.). Die globale Zentralwissensbank kann eine große Menge
an Informationen enthalten, und tut das meist auch, die für die vorliegende
Aufgabe nicht relevant sind, doch hat sie eine Struktur, die eine
Erfassung von potenziell relevanten Assertionen erlaubt, die auf
der Anwendung von Benutzer spezifizierten biologischen Kriterien
basieren.
-
Knoten
können,
wobei die aufgeführten
Beispiele nicht erschöpfend
sind, biologische Moleküle sein,
darunter Proteine, kleine Moleküle,
Ionen, Gene, ESTs, RNS, DNS, Transkriptionsfaktoren, Metaboliten,
Liganden, Transmembran-Proteine, Transportmoleküle, Fressmoleküle, Regulierungsmoleküle, Hormone,
Zytokine, Chemokine, Histone, Antikörper, Strukturmoleküle, Metaboliten,
Vitamine, Toxine, Nährstoffe,
Mineralien, Agonisten, Antagonisten, Liganden oder Rezeptoren. Die
Knoten können
Arzneimittelsubstanzen, Verbindung, die als Kandidaten für Medikamente
angesehen werden, Antisense-Moleküle, RNS, RNS-Interferenz, Haarnadel-RNS,
Doppelstrang-RNS oder chemogenetische oder chemoproteomische Untersuchungen
sein. Chemisch betrachtet können
die Knoten Protonen, Gasmoleküle, kleine
organische Moleküle,
Aminosäuren,
Peptide, Proteindomänen,
Proteine, Glykoproteine, Nukleotide, Oligonukleotide, Polysaccharide,
Lipide oder Glykolipide sein. In Modellen höherer Ordnung können die
Knoten Proteinkomplexe, Protein-Nukleotid-Komplexe wie Ribosomen,
Zellkompartimente, Organellen oder Membrane sein. Strukturell betrachtet
können
sie verschiedene Nanostrukturen wie Filamente, interzellulare Lipid-Doppellagen, Zellmembrane,
Lipid Rafts, Zelladhäsionsmoleküle, Gewebeschranken
und halbdurchlässige
Membrane, Kollagenstrukturen, mineralisierte Strukturen oder Bindegewebe sein.
In noch höheren
Ordnungen sind die Knoten Zellen, Gewebe, Organe oder andere anatomische Strukturen.
So kann ein Modell des Immunsystems zum Beispiel Immunglobuline,
Zytokine, verschiedene Leukozyten, Knochenmark, Thymusdrüse, Lymphknoten
und Milz einschließen.
Bei der Simulierung von klinischen Versuchsreihen können die
Knoten zum Beispiel Personen, deren klinische Prognose oder derzeitigen
Symptome, Medikamente, Niveaus der Medikamentendosierung und klinische Endpunkte
sein. Bei der Simulierung von Epidemiologie können die Knoten zum Beispiel
Personen, deren Symptome, physiologische oder gesundheitliche Charakteristika,
Umwelteinflüsse,
denen sie ausgesetzt sind, Substanzen, die sie einnehmen, sowie Krankheitsdiagnosen
sein. Knoten können
auch Ionen, physiologische Prozesse, Krankheiten, Krankheitsprozesse,
Translokationen, Reaktionen, molekulare Komplexe, Zellkomponenten,
Zellen, anatomische Teile, Gewebe, Zelllinien und Proteindomänen sein.
-
Deskriptoren
können
biologische Beziehungen zwischen Knoten darstellen und beinhalten nichtkovalente
Bindung, Adhärenz,
kovalente Modifikation, multimolekulare Interaktionen (Komplexe), Spaltung
einer kovalenten Bindung, Konversion, Transport, Zustandsänderung,
Katalyse, Aktivierung, Stimulierung, Agonismus, Antagonismus, Aufwärtsregulierung,
Repression, Inhibition, Abwärtsregulierung,
Expression, posttranskriptionale Modifikation, posttranslationale
Modifikation, Internalisierung, Abbau, Steuerung, Regulierung, Chemoattraktion, Phosphorylation,
Azetylierung, Dephosphorylation, Deazetylierung, Transport und Transformation,
sind aber nicht auf diese beschränkt.
-
Eine
bevorzugte Form von Deskriptoren zur Verwendung bei der Erfindung
sind zum Beispiel Kasusrahmen, die aus der Darstellungsstruktur
erfasst werden, was eine unmittelbare und allgemeine Anwendung der
Modelle auf eine Vielzahl von biowissenschaftlichen oder anderen
Systemen erlaubt. Kasusrahmen werden im Einzelnen in der anhängigen US-Patentanmeldung
mit der Seriennummer 10/644,582 des selben Anmelders beschrieben,
deren Offenlegung hierin durch Bezugnahme eingefügt ist. Deskriptoren können quantitative
Funktionen wie Differenzialgleichungen umfassen, die mögliche quantitative
Beziehungen zwischen Knotenpaaren darstellen, welche genutzt werden
können,
um das Netzwerkweiter zu verfeinern. Deskriptoren können auch
qualitative Eigenschaften umfassen, die entweder nicht gemessen
oder analytisch oder quantitativ nur schwer beschrieben werden können, oder
aufgrund von ungenügender
Kenntnis eines Systems im Allgemeinen oder der Eigenschaft an sich
unmöglich beschrieben
werden können.
-
Der
Prozess der Sammlung von Wissen kann auf ungleichartige Systeme
angewendet werden, und das Ergebnis kann zu einer Sammeleinheit zusammengefasst
werden, die ein Modell begründet. Darüber hinaus
kann auf eine Wissenseinheit, die auf ungleichartigen Systemen aufgebaut
ist, als geschlossenes Modell zugegriffen werden, indem auf die
Fragmente des Modells dezentral zugegriffen wird. Ein Modell stellt
eine Hypothese dar, die die Arbeitsweise des Systems erklärt, d. h.
basierend auf einer Simulation ist es in der Lage, vorausgesagte Daten
zu erzeugen, die zu den tatsächlichen
Daten passen, die als Eignungskriterien dienen. Die Hypothese kann
mittels weiterer Experimente getestet werden, sie kann mit anderen.
Modellen oder Netzen kombiniert werden, sie kann verfeinert, verifiziert,
reproduziert, modifiziert, perfektioniert, korrigiert oder mit neuen
Knoten und neuen Assertionen, die auf manuellen oder computergestützten Analysen
neuer Daten beruhen, erweitert und produktiv als biologische Wissensbank
genutzt werden Modelle von Teilen eines physiologischen Pfades oder
Teilnetzwerks in einem Zellkompartiment, einer Zelle, einem Organismus,
einer Population oder Ökologie
können
zu einem geschlossenen Modell verknüpft werden, indem ein oder
mehrere Knoten in einem Modell mit einem oder mehreren Knoten in
einem anderen Modell verbunden werden.
-
Jede
wahre Aussage in einer Wissensbank oder einer Einheit wird hier
als eine Assertion bezeichnet. Assertionen sind wahre Aussagen,
die sich auf ein existierendes Objekt in einem System beziehen,
auf eine wahre Aussage über
ein Objekt in diesem System und einen Literalwert oder jede beliebige
Kombination daraus. In verschiedenen Ausgestaltungen können Assertionen
Wissen wie RNS, proteomisches, metabolitisches oder klinisches Wissen aus
Quellen wie medizinischen Fachpublikationen, Patientendaten, Daten
aus klinischen Versuchen, Compliance-Daten, chemische Daten, medizinische Daten,
hypothetische Daten oder Daten aus biologischen Datenbanken sein.
-
Der
Aufbau einer Einheit beginnt, sobald ein Individuum durch Eingabe über eine
Benutzeroberfläche
biologische Kriterien spezifiziert, die so gestaltet sind, dass
sie aus der zentralen Wissensbank alle Assertionen abrufen, die
für das
behandelte Thema als potenziell relevant erachtet werden. Die Beispielklassen
von Kriterien, die auf die zentrale Wissensbank angewendet werden,
um die unaufbereitete Einheit zu erzeugen, umfassen Zuordnungen,
spezielle Netzwerke (z. B. transkriptionelle Steuerung, metabolisch)
und biologische Kontexte (z. B. Spezies, Gewebe, Entwicklungsstadium),
sind aber nicht auf diese beschränkt.
Zusätzliche
Beispielklassen von Kriterien beinhalten Assertionen, die auf Beziehungs-Deskriptoren
basieren, Assertionen, die auf Textabgleich regulärer Begriffe
basieren, Assertionen, die mithilfe von Algorithmen zur Vorwärtsverkettung
berechnet wurden, Assertionen, die auf Homologie-Berechnungen basieren,
und alle Kombinationen dieser Kriterien, sind aber nicht auf diese
beschränkt.
Oft werden Schlüsselbegriffe
oder Wortwurzeln verwendet, aber auch andere Kriterien sind wertvoll.
Man kann z. B. Assertionen wählen,
die auf verschiedenen strukturbezogenen Algorithmen beruhen, z.
B. kann man Algorithmen zur Vorwärtsverkettung
oder Rückwärtsverkettung
anwenden (z. B. alle verknüpften
Assertionen drei oder mehreren Schritten unterhalb von allen Serinkinasen
in Mastzellen erfassen). Verschiedene logische Operationen wie „oder", „und" und „nicht" können auf
alle beliebigen Auswahlkriterien angewendet werden, um komplexere
Auswahlen zu spezifizieren. Es ist die Unterschiedlichkeit der Kriterienreihen,
die ausgearbeitet werden können,
und die Tiefe der Assertionen in der globalen Wissensbank, die die
Flexibilität
ermöglichen,
die der Erfindung eigen ist.
-
Assertionen,
die in Übereinstimmung
mit der Erfindung in der Form der Dateneinträge, die eine Reihe bestimmter
Kriterien erfüllen,
ausgewählt
wurden, werden von der Wissensbank abgerufen und dann in einer Teilwissensbank
oder Einheit, die aus einer Teilmenge von Knoten mit Wechselbeziehungen
und Deskriptoren, die für
das untersuchte System potenziell relevant sind, besteht, wieder
zusammengesetzt. Durch diese Teilmengenbildung wird ein neues biologisches
Modell erstellt. Dieses Modell umfasst typischerweise weit weniger
Assertionen als die globale Wissensbank und dient als Ausgangspunkt
auf dem Weg, eine nützlichere
Einheit mit kleinerem Fokus zu erstellen. Danach wird es von automatischen
Routinen in der Softwareanwendung, die es erstellt hat, und dadurch,
dass die Person, die die Anwendung ausführt, Werkzeuge anwendet, transformiert
und verfeinert. Es kann durch andere Informationen augmentiert und
andere Informationen können
darin eingegliedert werden, einschließlich, aber nicht nur Assertionen,
die aus der Literatur stammen und von der Person, die die Daten
einpflegt, als relevant für
das biologische System erachtet werden.
-
Einheiten,
die durch die vorliegende Erfindung erstellt wurden, sind für gewöhnlich besser
als die globale Wissensbank oder die zentrale Datenbank, aus der
sie abgeleitet wurden, da sie die tatsächliche Biologie typischerweise
besser voraussagen und beschreiben. Diese Errungenschaft der Erfindung
beruht auf der Anwendung von Logik während oder nach der Kompilierung
der Rohdatenreihe, um die anfangs abgerufenen Daten zu augmentieren und
die resultierende Struktur wie hier angemerkt zu verbessern und
zweckmäßiger zu
gestalten. Das kann automatisch bei der Erstellung der Einheit erfolgen,
zum Beispiel durch Programme, die in Computersoftware eingebettet
sind, oder durch die Anwendung von Softwareinstrumenten, welche
die Person, die die Anwendung durchführt, auswählt und steuert.
-
Eine
Einheit ist in vielerlei Hinsicht mit einer globalen Zentralwissensbank
strukturell identisch, sie ist jedoch kleiner und viel stärker auf
das betrachtete Thema oder Problem fokussiert, rechnerisch leichter
lenkbar und entweder physisch oder virtuell isoliert, damit sie
auf ein bestimmtes Projekt zugeschnitten ist, und erleichtert die
Einhaltung von Auflagen bei beschränkter Nutzung oder Offenlegungsvorschriften,
die möglicherweise
durch eine Datenquelle auferlegt sind. Außerdem wird eine Einheit oft
die Kennzeichen einer laufenden Arbeit aufweisen, die im Lauf der
Anwendung geändert,
verbessert, geprüft
und korrigiert wird. Eine Einheit kann jederzeit oder bei jedem
Schritt in einem berechenbaren Format gespeichert und der globalen
Wissensbank wieder hinzugefügt
werden.
-
Die
Erstellung einer wertvollen Einheit beinhaltet daher einen Prozess
der Teilmengenbildung oder Segmentierung, der auf eine globale Zentralwissensbank
angewendet wird, gefolgt von Datentransformationen oder -manipulationen,
um die erste erstellte Einheit zu verbessern, zu verfeinern und/oder zu
augmentieren, um die Einheit zu vervollständigen und die Einheit an die
Analyse anzupassen. Das wird durch die Umsetzung eines Prozesses
wie der Anwendung von Logik auf die resultierende Datenbank, um
sie mit der tatsächlichen
Biologie abzustimmen, erreicht. So können die Kriterien nach allen
Proteinen fragen, die in menschlichen Muskelzellen vorkommen, und
die zentrale Datenbank schließt
vielleicht Muskelzellenproteine mit ein, die bei Mäusen vorkommen
und von denen einige nicht in menschlichen Muskelzellen vorkommen,
dann werden diese Daten aus einer Einheit, die die Physiologie menschlicher Muskelzellen
untersucht, entfernt. Eine Einheit kann durch das Einfügen neuer
Knoten und Beziehungs-Deskriptoren, die aus der Wissensbank stammen
und auf den weiter oben festgelegten Annahmen basieren (und vieler
anderer logischer Annahmen, die möglich sind), augmentiert werden.
Eine Einheit kann gefiltert werden, indem man Teilmengen von Daten,
die auf anderen biologischen Kriterien basieren, ausschließt. Die
Körnung
des Systems kann so verfeinert oder vergröbert werden, wie es für die anstehende
Analyse angemessen ist (was wesentlich ist für die Fähigkeit, gültige Extrapolationen zwischen
Arten oder Generalisierungen innerhalb einer Art machen zu können, da
Datenreihen in ihrer Körnigkeit
variieren). Eine Einheit kann kompakter und relevanter gemacht werden,
indem detailliertes Wissen zu stärker
folgernden Assertionen zusammengefasst wird, die für eine Untersuchung
mittels Datenanalysealgorithmen oder für den Einsatz von generischen
Analyseinstrumenten wie Instrumenten zur Analyse von Häufungen
besser geeignet sind.
-
Eine
Einheit kann dem Wissenszuwachs folgend regelmäßig aktualisiert werden und
die daraus entstehenden Einheiten können gespeichert werden, um
die Progression des Wissens auf diesem Gebiet zu zeigen. Eine Einheit
kann auf verschiedene Arten augmentiert werden, zum Beispiel kann
die Person, die die Daten einpflegt, neue Daten aus einer strukturierten
oder unstrukturierten Datenbank oder Daten aus der Fachliteratur
hinzufügen.
Eine Einheit kann auch wieder in eine zentrale Datenbank zurückgeführt werden,
damit neue Assertionen als Rohmaterial für die Erstellung einer anderen
Einheit verwendet werden können.
-
Die
zugrunde liegende Darstellung des Wissens einer zentralen Wissensbank
ist konzipiert, um Wissen detailliert und ohne Verzerrung in Bezug
auf die Nutzung des Wissens zu erfassen. Bei einem Netzwerk von
solcher Komplexität
kann das Schlussfolgern schwierig sein. Deshalb umfassen die Verfahren
und Systeme der Erfindung einen flexiblen Rahmen, um das Wissen
stufenweise zu bearbeiten und durch die Anwendung genau definierter
Regeln und Prozeduren abgeleitete Einheiten zu erstellen. Diese abgeleiteten
Einheiten sind so aufgebaut, dass sie aufeinander folgende Durchgänge des
Schlussfolgerns in den Einheiten ermöglichen.
-
Einheiten
können
verwendet werden, um ein beliebiges biologisches System nachzubilden,
egal wie es definiert ist und so detailliert wie gewünscht, und
werden nur durch den Wissensstand in dem betreffenden Fachgebiet,
dem Zugang zu Daten und (bei neuen Daten) der Zeit, die benötigt wird,
um sie einzupflegen und zu importieren, begrenzt. In einer Ausgestaltung
können
Einheiten verwendet werden, um Modelle kontinuierlich oder in Abständen zu
aktualisieren, sobald neue Daten zur Erfassung verfügbar sind,
und um ein Mittel zum besseren Verständnis der Biologie bereitzustellen.
In einer anderen Ausgestaltung können
Einheiten zur Darstellung biologischer Systeme im Ganzen oder in
Teilen in verschiedenen Formaten verwendet werden, damit Menschen
sie betrachten und analysieren können.
-
Einheiten
können
auch verwendet werden, um auf verschiedene Arten Daten über biologische Systeme
abzufragen, um aus neuem biologischen Wissen (z. B. Überlagerung
verschiedener Einheiten, um Unterschiede zu erkennen) zu schöpfen. In
verschiedenen Ausgestaltungen können
Einheiten verwendet werden, um: (a) aus der Analyse von Experimenten
mit Tieren physiologisches Verhalten bei Menschen vorauszusagen
(z. B. Wirksamkeit und Toxizität
von Medikamenten); (b) ideale Biomarker zu finden (leicht erkennbare
oder leicht quantifizierbare Substanzen in Körperflüssigkeiten, um Voraussagen über das
Vorhandensein einer Krankheit, ihre Prognose, ob der Patient auf
Medikament X ansprechen wird, Schwere der Krankheit usw. zu machen);
oder (c), um zu lernen, wie man Mitglieder einer Population segmentiert,
um Ergebnisse zu verbessern und Komplikationen in klinischen Versuchen
zu vermeiden.
-
Einheiten
können
außerdem
verwendet werden, um die Biologie zu untersuchen, indem man verschiedene
Einheiten vergleicht (z. B. Mensch mit Maus, krankes Gewebe mit
gesundem, die adipöse Physiologie
unter mehreren unterschiedlichen Ernährungsbedingungen). Einheiten
können
verwendet werden, um die Biologie von Geweben zu verschiedenen Zeitpunkten
während
der Entwicklung, des Fortschreitens oder der Heilung einer Krankheit
zu vergleichen, oder um die Wirkung verschiedener Störungen wie
die Wirkungen von Medikamenten oder die Wirkung eines anderen Umwelteinflusses
innerhalb eines beliebigen biologischen Systems zu bestimmen. Einheiten
können
verwendet werden, um Daten abzubilden (um z. B. durch den Import
experimenteller Daten die Auswirkung von Störungen auf ein biologisches
System auf eine oder mehrere Komponenten des Systems zu zeigen).
In weiteren Ausgestaltungen können
Einheiten verwendet werden, um logische Simulationen umzusetzen,
um Datenreihen zu evaluieren, die in einer globalen zentralen Datenbank
zur Zeit der Erstellung der ursprünglichen Einheit nicht enthalten
sind (um z. B. eine Hypothese, die auf neuen experimentellen Daten
basiert, nochmals zu testen), um Mutmaßungen über Pfadverläufe anzustellen
und komplexe und subtile Kausalbeziehungen innerhalb eines biologischen
Systems zu erkennen, und um eine Krankheitsursache zu erkennen,
toxische biochemische Mechanismen zu verstehen und toxische Reaktionen
vorherzusagen.
-
Neues
Wissen kann ermittelt werden, indem die Einheiten zum Beispiel mit
epistemischen Motoren verwendet werden. Epistemische Motoren werden
im Einzelnen in der ebenfalls angemeldeten und gehaltenen US-Patentanmeldung
mit der Seriennummer 10/717,224 beschrieben, deren Offenlegung hierin
durch Verweis eingefügt
ist. Epistemische Motoren sind programmierte Computer, die biologische Daten
von tatsächlich
oder gedanklich durchgeführten
Experimenten zur Untersuchung eines biologischen Systems akzeptieren
und sie zur Erzeugung eines Netzwerkmodells von Protein-Interaktionen, Gen-Interaktionen
und Gen-Protein-Interaktionen verwenden,
das mit den Daten und dem vorherigen Wissen über das System übereinstimmt,
und dadurch die biologische Wirklichkeit dekonstruieren und überprüfbare Erklärungen (Modelle)
der Arbeitsweise natürlicher
Systeme vorschlagen. Die Motoren identifizieren neue Wechselbeziehungen
zwischen biologischen Strukturen, zum Beispiel zwischen Biomolekülen, welche
die Substanz des Lebens darstellen. Diese neuen Beziehungen erklären für sich allein
genommen oder gemeinsam das Verhalten des Systems. Sie können zum
Beispiel die beobachtete Wirkung einer Störung im System erklären, Faktoren identifizieren,
die die Homöostase
aufrechterhalten, Wirkungsweise und Nebenwirkungen von Medikamenten
erklären,
epidemiologische und klinische Daten zweckmäßiger gestalten, Gründe für den Erfolg einer
Art offenbaren, embryologische Prozesse entschleiern und die Mechanismen
von Krankheiten erkennen. Die Programme enthüllen feine Muster in komplexen
Datenreihen, die der menschliche Verstand ohne Hilfe nicht aufspüren kann.
Der Output des epistemischen Motors ermöglicht es, das untersuchte
System besser zu verstehen, Hypothesen aufzustellen, das untersuchte
System in andere Systeme zu integrieren, komplexere und verständlichere Modelle
zu bilden und neue Experimente vorzuschlagen, um die Gültigkeit
von Hypothesen zu testen.
-
Die
Funktionsweise der hier dargelegten Systeme und Verfahren kann als
Software auf einem Computer für
allgemeine Zwecke implementiert werden. In manchen Ausgestaltungen
kann ein Computerprogramm in einer der höheren Computersprachen wie
FORTRAN, PASCAL, C, C++, LISP, JAVA oder BASIC geschrieben werden.
Darüber
hinaus kann ein Computerprogramm als Script, Makro oder in anderen
Funktionsweisen, die in handelsüblicher Software
eingebettet sind wie EXCEL oder VISUAL BASIC, geschrieben werden.
Zusätzlich
könnte
Software in einer Assemblersprache, die auf einen Mikroprozessor
gerichtet ist, der auf einem Computer speicherresident ist, implementiert
werden. Zum Beispiel könnte
Software in der Assemblersprache Intel 80×86 implementiert werden, wenn
sie so konfiguriert wird, dass sie auf einem IBM-PC oder einem PC-Klon
läuft.
Software kann in einen Herstellungsartikel eingebettet werden, einschließlich eines
Speichermediums oder computerlesbaren Mediums wie einer Diskette,
einer Festplatte, einer Bildplatte, eines Tonbands, eines PROM,
eines EPROM oder einer CD-ROM, aber nicht nur auf diese beschränkt.
-
Zusammenziehung
von Einheiten
-
Die
Erfindung erlaubt die Erstellung von Wissenseinheiten mittels Erfassung
aus einer globalen Zentraldatenbank und dem nachfolgenden Hinzufügen von
neuem Wissen durch Einpflegen von Daten und andere Verfahren. In
einem Beispiel wird neues Wissen einer globalen Zentraldatenbank
in einem schrittweisen Prozess hinzugefügt, dessen Fokus auf der Anwendung
liegt. Zuerst wird der globalen Zentraldatenbank allgemeines Wissen,
das in der globalen Zentraldatenbank noch nicht vorhanden ist, hinzugefügt (z. B.
zusätzliches
Wissen über
Krebs). Zweitens wird grundlegendes Wissen im Abfragebereich der
beabsichtigten Anwendung (z. B. Prostatakrebs) aus der Fachliteratur
gesammelt, dazu gehören
unter anderem Lehrbücher,
wissenschaftliche Schriften und Rezensionen von Artikeln. Drittens
wird der spezielle Fokus des Projekts (z. B. Androgenunabhängigkeit
bei Prostatakrebs) genutzt, um noch speziellere Informationsquellen
auszuwählen.
Dem folgt die Verwendung von experimentellen Daten, um den nächsten Schritt
beim Einpflegen von Daten und Sammeln von Wissen zu lenken. Zum
Beispiel können
experimentelle Daten zeigen, welche Gene und Proteine im fokussierten
Bereich beteiligt sind. Durch das Einpflegen von Daten aus der Fachliteratur,
die sich auf Gene und Proteine beziehen, kann eine Untereinheit
erstellt werden, die sich auf das spezielle Interessengebiet konzentriert.
-
1 zeigt
in Übereinstimmung
mit der Erfindung eine erläuternde Übersicht über ein
System. In diesem Diagramm wird das System 100 benutzt, um
neues biologisches Wissen zu ermitteln. In Phase 110 wird
eine globale Zentralwissensbank erstellt, indem Informationen (z.
B. eingepflegte wissenschaftliche Daten aus der Fachliteratur, aus öffentlichen
Datenbanken und Informationen aus dem Studium von Publikationen)
in eine Computerdatenbank eingegeben werden. In Phase 120 wird
eine Teilmenge der Informationen in der globalen Zentralwissensbank
erfasst, um Wissenseinheiten zu generieren, die auf biologischen
Inhalten basieren. Die Wissenseinheiten sind dann verfeinert. In
Phase 130 werden experimentelle Daten (z. B. Daten, die
sich auf Proteine, RNS, Stoffwechselaktivität, klinische Informationen usw.
beziehen) verwendet, um das Einpflegen und Sammeln von Wissen anzuleiten.
In Phase 140 können
Wissenseinheiten in verschiedenen Anwendungen verwendet werden,
darunter zum Beispiel auch Datenabbildung, fokussierter Zusammenbau
durch Anwendung von Pfadsuche, grafische Ausgabe und logische Simulation.
-
Um
abgeleitete Einheiten zu erstellen, können Algorithmen eingesetzt
werden. In einigen Ausgestaltungen können Algorithmen als Computerprogramme
zum Ausdruck kommen und dazu verwendet werden, abgeleitete Einheiten
als Datenobjekte innerhalb eines Programmierungsrahmens zu erstellen
Ein Beispielalgorithmus führt
eine oder mehrere Transformationen an den bestehenden Einheiten durch,
um eine neue Einheit zu generieren. Transformationen können zum
Beispiel durch irgendeine der folgenden Techniken erreicht werden:
(a) indem man Assertionen aus bestehenden Einheiten auswählt und
die ausgewählten
Assertionen in eine neue, im Aufbau befindliche Einheit einfügt; (b)
indem man Knoten und Assertionen aus bestehenden Einheiten zusammenfasst
und die zusammengefassten Knoten und Assertionen in eine Einheit
einfügt;
(c) indem man mathematische Mengenlehreoperationen auf die Knoten
und Assertionen aus bestehenden Einheiten anwendet und die Knoten
und Assertionen, welche aus diesen Operationen resultieren, in eine
Einheit einfügt;
(d) indem man Zusammenstellungsoperationen auf bestehende Einheiten
anwendet, um eine Einheit zu erstellen, die für weitere Transformationen
verwendet wird, oder (e) indem man eine beliebige Kombination der
oben genannten Techniken anwendet.
-
Die
einfachste Form der Transformation einer Einheit ist die Erstellung
einer Teilmenge der Einheit. So kann zum Beispiel eine Teilmenge
einer Einheit eine Teilmenge der Knoten und Deskriptoren in der
ursprünglichen
Einheit enthalten. Eine Teilmenge ist im Wesentlichen das Ergebnis
einer Anfrage, die Knoten und Assertionen anhand einer Reihe von
Kriterien auswählt.
Diese Kriterien können
verfahrensmäßig definiert
werden, z. B. kann die Auswahl das Resultat eines Algorithmus sein,
der iterativ oder rekursiv Knoten und Deskriptoren, die die Einheit
verkörpern,
erkundet. Wie zum Beispiel in 2A gezeigt,
wurde ein Originalnetzwerk 200 von Knoten 210 und
Deskriptoren 220 wie in 2B gezeigt transformiert,
um ein Teilmengennetzwerk 205 aus Knoten 210 und
Deskriptoren 220 nur vom Typ „A BindungInput B" zu erstellen und
deswegen alle anderen auszuschließen. "A BindungInput B" ist eine Assertion, die eine Klasse
A von molekularen Bindungsprozessen mit einer Klasse B von molekularen Einheiten
verbindet (z. B. Molekül
oder Komplex).
-
In
manchen Ausgestaltungen kann eine Einheit die Form einer oder mehrerer
Datenbanktabellen mit Spalten und Zeilen annehmen. In diesen Ausgestaltungen
kann die Transformation oder Teilmengenbildung einer globalen Wissensbank
zu einer Einheit zum Beispiel durch die Auswahl von Zeilen erreicht
werden, die Assertionen aus einer Datenbanktabelle darstellen, die
zu den Auswahlkriterien des Benutzers passen. Es sollte sich verstehen,
dass eine Wissensbank oder eine Einheit in Form einer Datenbank
nur eine Möglichkeit
ist, in der Information in einem Computer dargestellt werden kann.
Informationen könnten
stattdessen auch als Vektor, als mehrdimensionale Anordnung von
Daten, als verknüpfte Datenstruktur
oder in Form vieler anderer geeigneter Strukturen oder Ausgestaltungen
von Daten dargestellt sein.
-
Ein
Aspekt einer Assertion ist eine Zuordnung. Eine Zuordnung stellt
die Quelle der Assertion dar, zum Beispiel einen wissenschaftlichen
Artikel, eine Zusammenfassung (z. B. Medline oder PubMed), ein Kapitel
eines Buches, Tagungsberichte, eine persönliche Mitteilung oder ein
internes Memo. Eine Einheit kann durch die Auswahl von Deskriptoren
erstellt werden, deren Zuordnung bestimmte Kriterien erfüllen, z.
B. Übereinstimmung
nach Art der Zuordnungsquelle, Name der Zuordnungsquelle oder Datum
der Zuordnungsquelle. Man könnte
zum Beispiel alle Assertionen auswählen, deren Zuordnung ein Knoten
ist, der einen im Jahr 2001 oder später veröffentlichten Zeitschriftenartikel
repräsentiert.
-
Ein
weiterer Aspekt einer Assertion ist ihr biologischer Kontext. So
können
Assertionen ausgewählt
werden, die mit einem bestimmten biologischen Kontext verknüpft sind.
-
Biologischer
Kontext bezieht sich beispielsweise auf Spezies, Gewebe, Körperteile,
Zelllinien, Tumor, Krankheit, Probe, Virus, Organismus, Entwicklungsstadium
oder jede beliebige Kombination daraus. Ein weiterer Aspekt einer
Assertion ist ihre Vertrauenswürdigkeit,
ein Maß des
Vertrauens darauf, dass die Assertion wahrhaft repräsentative,
tatsächliche
Biologie widerspiegelt und reproduzierbar ist. Assertionen können auch
nach ihrer Vertrauenswürdigkeit
ausgewählt
werden. Dabei wird ein Mindestschwellenwert gesetzt und alle Assertionen,
die diesem Schwellenwert entsprechen oder ihn übersteigen, werden ausgewählt.
-
Teilmengen
einer Wissensbank können
auch mithilfe von Spezifizierungen, die ein komplexes Muster von
Assertionen zwischen Knoten definieren, gebildet werden. Alle Reihen
von Knoten und Assertionen, die den Kriterien des Musters entsprechen, bilden
die Teilmenge. In einer Ausgestaltung kann ein Suchalgorithmus die
Datenbank filtern, um eine Liste von biologischen Entitäten, die
dem vorher festgelegten Muster entsprechen, zu generieren. Beispielsweise
kann eine Struktursuche verwendet werden, um die Teilmenge aller
Reaktionen zu generieren, die ein Produkt, das phosphoryliert wird,
und einen Molekülkomplex
als Katalysator haben. Diese Suche wird alle durch einen Molekularkomplex
katalysierten phosphorylierten Reaktionen finden und durch ein einzelnes
Protein katalysierte phosphorylierte Reaktionen auslassen.
-
In
einer weiteren Ausgestaltung können
Teilmengen mithilfe von Algorithmen zur Pfadsuche generiert werden,
dazu gehören
radiale Pfadsuche, Suche nach dem kürzesten Pfad und Suchen aller
Pfade. Radiale Pfadsuche ist hilfreich, um herauszufinden, wie eine
biologische Entität
funktionell oder strukturell mit einer anderen biologischen Entität in Verbindung
steht. Enthält
zum Beispiel irgendeine gegebene Zelle eine mutierte Form von P53,
könnte jemand
daran interessiert sein, ihre Wirkung auf über- und untergeordnete Moleküle des mutierten Genprodukts
aufzuklären.
Ein Algorithmus, um diese Informationen zu finden, kann bei einem
bestimmten Knoten beginnen und alle Knoten finden, die mit diesem
Knoten durch eine vorher festgelegte Anzahl vom Knoten entfernter
Schritte verbunden sind. Falls Richtcharakteristik von Bedeutung
ist (wie z. B. bei Reaktionen), kann der Algorithmus so instruiert
werden, dass er Verknüpfungen
nur in die Richtung folgt, die von den Kriterien für die Pfadsuche
vorgegeben wird. Die radiale Pfadsuche kann in mehreren Schritten
durchgeführt
werden. Eine radiale Pfadsuche in zwei Schritten wird beispielsweise
beinhalten, dass von einem Knoten ausgehend begonnen wird, die unmittelbar
mit ihm verknüpften
Knoten zu suchen und danach die unmittelbar mit diesen Knoten verknüpften Knoten
zu suchen. Dieser Prozess kann auf so viele Schritte wie nötig angewendet
werden. Diese Analyse kann verwendet werden, um die erwarteten Veränderungen
zu bestimmen und vorauszusagen, wenn ein vorhandener Knoten gestört wird.
Diese Analyse kann dem Benutzer gezeigt werden, um zu erläutern, wie
eine Veränderung
sich in der Wissensbank ausbreiten könnte und dadurch ihre tatsächliche
Wirkung auf ein biologisches System festzustellen. 3 zeigt
ein Beispiel für
die Progression einer radialen Pfadsuche in zwei Schritten, die
von einem spezifizierten Knoten 300 ausgeht. Im ersten
Schritt der Suche werden die verbundenen Knoten 310 gefunden.
Im zweiten Schritt der Suche werden die verbundenen Knoten 320 gefunden.
Das Ergebnis dieser radialen Pfadsuche ist die Kombination aller
Knoten und Assertionen wie in 3 gezeigt.
3. Eine Pfadsuche kann optional auch so konfiguriert werden, dass
sie nur bestimmten Deskriptoren folgt, bestimmte Knoten, die vielleicht
ubiquitär
oder uninformativ sind, ignoriert oder aufhört, neue Knoten zu suchen,
sobald sie auf bestimmte Knoten gestoßen ist.
-
In
großen
biologischen Netzen gibt es zwischen zwei Entitäten für gewöhnlich mehrere Pfade. Oftmals
ist der kürzeste
Pfad der nützlichste
für eine Analyse.
Ein Algorithmus zur Bestimmung des kürzesten Pfads in einem Netzwerk
beginnt damit, eine radiale Breitensuche von jedem der beiden Startknoten
durchzuführen.
Sobald ein gemeinsamer Knoten gefunden ist, wird der Pfad als kürzester
Pfad zwischen den Knoten bekannt gegeben. Um die Pfadverläufe zwischen
mehreren Knoten zu bestimmen, kann der oben besprochene Algorithmus
zum Auffinden des kürzesten
Pfades angewendet werden, bis man alle Pfadverläufe zwischen den Knoten gefunden
hat. Bei dieser Technik beginnt man von jedem einzelnen Startknoten
aus eine radiale Pfadsuche. Dann werden die Pfade aufgezeichnet,
denen man in jeder der radialen Suchen gefolgt ist. Das Ergebnis dieses
Algorithmus ist die Vereinigung aller Pfade von den Startknoten
zu den Zielknoten. Da dieser Ansatz dazu neigt, in Bezug auf die
Anzahl von Pfaden und Knoten exponentiell zu wachsen, kann der Algorithmus
beschränkt
werden, damit er einer vorher festgelegten Anzahl von Schritten
folgt. So wird eine Suche in drei Schritten nur all die Pfade generieren, die
zwischen den gegebenen Ursprungsknoten bestehen, indem von jedem
Knoten aus eine radiale Suche in drei Schritten durchgeführt wird.
Das Ergebnis dieses Pfadverlaufsalgorithmus kann zum Beispiel als
sortierte Liste von Pfadverläufen
angezeigt werden, beginnend mit dem kürzesten oder längsten, oder
als integrierter Graph.
-
Ein
integrierter Graph wird erzeugt, indem im Falle einer radialen Pfadsuche
alle genutzten Pfadverläufe
bis zu einer bestimmten Länge
zusammengefasst werden oder indem die Reihe von Pfaden zusammengefasst
wird, die irgendeinen der Quellknoten mit irgendeinem der Zielknoten
verknüpfen.
Das erreicht man, indem man zwei Pfadverläufe zugleich zusammenfasst,
bis nur ein einzelner Graph entsteht, der alle Knoten und Assertionen
enthält.
Ein Beispiel für
das Zusammenfassen von zwei Pfadverläufen beinhaltet, alle gemeinsamen
Knoten und Assertionen, wie in 4 gezeigt,
in einem kombinierten Pfad zusammenzufassen. Da die Knoten A, B und
D in diesem Diagramm sowohl zu Pfadverlauf 410 als auch
zu Pfadverlauf 420 gehören,
werden diese Knoten nur einmal im kombinierten Pfadverlauf 430 dargestellt.
Knoten B taucht in Pfadverlauf 410 auf und Knoten E in
Pfadverlauf 420, und sie werden auch im kombinierten Pfadverlauf 430 dargestellt. 5 zeigt
das Ergebnis der Zusammenführung
aller Pfadverläufe
in einen einzigen Graphen, basierend auf einer Pfadsuche zwischen
dem Startknoten „FXR" (in der oberen linken
Ecke des Diagramms) und einem Zielknoten „LDL" (in der unteren rechten Ecke des Diagramms).
Diese Art der Analyse erlaubt auch die Untersuchung der Implikationen
von beobachteten Veränderungen
in Genexpressionsstudien oder von Veränderungen bei Konzentrationen
von Proteinen und Metaboliten. Anhand der Analyse wird gezeigt,
in welchem Zusammenhang die veränderten Entitäten stehen,
damit man die abhängigen
Veränderungen
erkennen und Veränderungen
finden kann, die für
das durchgeführte
Experiment zentral sind.
-
Die
Matrixmethode ist eine andere Möglichkeit,
um die Veränderungen
in einem Wissenseinheitsgraphen zu untersuchen. Anhand einer Liste von
Knoten von Interesse (z. B. statistisch signifikante, hoch modulierte
RNS in einem Experiment) werden die Knoten in einer Matrix platziert,
wobei jeder Knoten mit einem Eintrag in einer Spalte und einer Reihe
platziert wird. Dann wird für
jedes Knotenpaar der kürzeste
Pfad generiert (redundante Paarungen werden ignoriert). Dann werden
alle generierten Pfadverläufe
wie oben erklärt
zusammengeführt.
Die Matrixmethode kann auch angewendet werden, indem man nicht nur
einen Pfad für
jede Zelle in der Matrix sucht, sondern indem man mehrere Pfadverläufe generiert.
Das kann auf verschiedene Arten geschehen: (1) man generiert alle
Pfade für
jedes Paar; (2) man generiert die oberen „n" Pfadverläufe beginnend mit dem kürzesten
oder längsten;
(3) man generiert alle oberen „n" Pfadverläufe, die
nicht länger sind
als eine vorher festgelegte Anzahl von Schritten. Die Matrixmethode
ist auch hilfreich, um zu bestimmen, wie eine Reihe biologischer
Entitäten
miteinander in Zusammenhang steht. 6 zeigt
das Ergebnis einer Matrixmethodenanalyse zwischen drei Knoten, „Acoxl", „LDL" und „FXR", nachdem alle kürzesten
Pfade zwischen jedem Knotenpaar zusammengeführt wurden.
-
Ein
abgeleitetes Netzwerk ist nicht auf Operationen beschränkt, die
das Anfangsnetzwerkunterteilen, vereinfachen oder zusammenfassen.
Die Ableitung kann eine Theorie über
das Wissen verkörpern,
die es ermöglicht,
einen Schluss aus neuen Fakten zu ziehen, die auf anderen Fakten
beruhen. Ein Primärbeispiel
dafür ist
die Theorie, dass biologische Mechanismen erhalten werden und dieser
Mechanismus von Gen- und Proteinsequenzen abhängt. Falls also ein Mechanismus
einer Spezies bekannt ist, kann geschlossen werden, dass dieser
Mechanismus in anderen Spezies existiert, wenn alle beteiligten
Gene/Proteine in diesem Mechanismus die gleichen – homologe – Gegenstücke in der
zweiten Spezies haben. Diese Technik wird verwendet, um Wissenseinheiten,
die sich auf einen einzigen Organismustyp konzentrieren, zu augmentieren.
So kann eine Einheit, die auf Humanbiologie ausgerichtet ist, durch
Fakten aus der Biologie der Maus vergrößert werden, indem man festlegt,
welche Fakten über
die Maus die Kriterien für
eine Homologie mit dem Menschen erfüllen, und dann in der Einheit
die homologen menschlichen Fakten erstellt. Der Grad der Homologie
wird durch Homologiepunktwerte bestimmt, die berechnet werden, indem
man die Sequenzen der Gene oder Proteine vergleicht. Diese Punktwerte
erlauben es, für
einen bestimmten Zweck Grenzwerte für die Gemeinsamkeiten festzulegen – in manchen
Ausgestaltungen können
die Homologiekriterien weit gefasst werden, damit man Fakten, die in
Zusammenhang mit anderen Organismen stehen, importieren kann. In
anderen Ausgestaltungen können
die Grenzwerte eng gefasst werden, damit nur Mechanismen erfasst
werden, die auf den ähnlichsten
Genen und Proteinen beruhen.
-
Eineinfaches
Beispiel für
ein abgeleitetes Netzwerk ist ein Netzwerk aus kollabierenden Knoten,
die nicht als eigenständige
Begriffe unterschieden werden müssen.
So unterscheidet die Darstellung den Akt des "Bindens" – ein
Vorgang, bei dem Entitäten
einen Komplex formen – von
einem „Komplex" – dem Ergebnis dieses Vorgangs
des Bindens. Diese Unterscheidung ist in vielen Zusammenhängen irritierend – vor allem,
wenn man ein Netzwerk in einem Graphen darstellt oder Proteine nach
ihren Bindungsbeziehungen in Gruppen einteilt. 7 zeigt
ein Beispielnetzwerk, das aus kollabierenden Knoten gebildet wird.
In diesem Diagramm wird die Bindung von A und B mit dem Knoten,
der den Komplex von A und B darstellt, zusammengelegt, und der neue
Knoten ersetzt in allen Fällen
jeden der Ursprungsknoten.
-
Eine
Einheit kann durch einen Zusammenfassungsprozess transformiert werden.
Eine Zusammenfassung beginnt mit dem Prozess der Teilmengenbildung,
wobei Reihen von Knoten, die einer Spezifikation entsprechen, ausgewählt werden.
Jede dieser Reihen kann durch eine neue Reihe von Knoten und Assertionen
ersetzt werden, für
gewöhnlich
ein einfaches Muster wie eine einzelne Assertion zwischen zwei Knoten. 8 zeigt
ein Beispiel für
eine Zusammenfassung von zwei Reaktionen, dargestellt als R1 und
R2, die einen gemeinsamen Metaboliten CoA gemeinsam haben. Die Assertionen
in diesem Beispiel sind "R1
Reaktionspartner M" und „R2 Produkt
M". Die zusammengefasste
Verbindung zwischen den Reaktionen R1 und R2 wird als die Assertion "R1 neue Beziehung
R2" dargestellt.
Eine komplexere Ableitung kann verwendet werden, um ein Netzwerk
einfacher Verknüpfungen
zu schaffen und eine einfache Verknüpfung an die Stelle eines komplexen
Musters aus Beziehungen zwischen zwei Verknüpfungen zu setzen. Das kann
als Prozess des "Zusammenfassens" betrachtet werden.
In diesem Beispiel wird zwischen zwei Genen eine Beziehung geschaffen,
wenn sie die folgenden Kriterien erfüllen: (1) jedes Gen hat ein
Produkt, das als Enzym in einer Reaktion agiert und (2) bei einer
Reaktion, bei der ein Genprodukt als Katalysator agiert, entsteht
ein Produkt, das seinerseits als Reaktionspartner in einer anderen
Reaktion agiert, bei der das Produkt des anderen Gens als Katalysator
agiert. Das resultierende abgeleitete Netzwerk, wie in 9 gezeigt,
verknüpft die
Gene G1 und G2, die in einer abgeleiteten Einheit aneinander angrenzen.
Für diese
abgeleitete Einheit gibt es viele Anwendungen. Enthält sie zum
Beispiel Vermerke zu Genexpressionsdaten, kann ein Algorithmus Gruppen
von koregulierten Genen finden, die in der abgeleiteten Einheit
benachbart sind. Das entspricht dem Finden von Reaktionspfadverläufen, die gemeinsam
reguliert werden.
-
Transformationen
der Einheit können
durch mathematische Mengenlehreoperationen durchgeführt werden.
Zu diesen Operationen gehört
zum Beispiel das Bilden der Schnittmenge, der Differenzmenge und
der Vereinigungsmenge. Mithilfe von Mengenlehreoperationen kann
man Einheiten vergleichen. Alle Mengenlehreoperationen setzen voraus, dass
es zwei bestehende Einheiten gibt. Wendet man die Schnittmengenoperation
für jede
Assertion in einer ersten Einheit an, wird dieselbe Assertion überprüft, um zu
erkennen, ob sie nicht in einer zweiten Einheit vorkommt. Taucht
die Assertion in einer zweiten Einheit auf, wird sie zur Schnittmengeneinheit
hinzugefügt.
Knoten, die in irgendeiner Assertion in der Schnittmengeneinheit
erwähnt
werden, werden ebenfalls aus der ersten Einheit ausgewählt und zur
Schnittmengeneinheit hinzugefügt.
Wendet man die Differenzoperation für jede Assertion in einer ersten
Einheit an, wird dieselbe Assertion überprüft, um zu erkennen, ob sie
nicht in einer zweiten Einheit vorkommt. Taucht die Assertion in
der zweiten Einheit nicht auf, wird sie zur Differenzeinheit hinzugefügt. Knoten,
die in irgendeiner Assertion in der Differenzeinheit erwähnt werden,
werden auch aus den ersten oder zweiten Einheiten ausgewählt und
zur Differenzeinheit hinzugefügt.
Mit einer Vereinigungsmengenoperation wird eine Vereinigungsmengeneinheit erzeugt.
Alle Assertionen in einer ersten Einheit werden zur Vereinigungsmengeneinheit
hinzugefügt. Denn
jede Assertion in einer zweiten Einheit wird nun der Vereinigungsmengeneinheit
hinzugefügt,
falls sie in der Vereinigungsmengeneinheit nicht existiert. Knoten,
die in der Vereinigungsmengeneinheit erwähnt werden, werden aus den
ersten oder zweiten Einheiten ebenfalls ausgewählt. Die Vereinigungsmengenoperation
ist eine weitere Möglichkeit,
um darzulegen, dass zwei oder mehr Einheiten zusammengeführt werden
können.
-
Ein
Beispiel für
eine Vergleichstechnik in Übereinstimmung
mit der Erfindung ist die Messung der Fortentwicklung einer Wissenseinheit über einen bestimmten
Zeitraum. Das kann erreicht werden, indem man eine Sequenz von Einheiten
nimmt, die im Lauf der Zeit erstellt werden, und den Unterschied zwischen
jedem Paar in der Sequenz bestimmt. Außerdem können in Übereinstimmung mit der Erfindung
zwei oder mehr Einheiten miteinander verglichen werden. Verwendet
man zum Beispiel eine Schnittmenge aus zwei Einheiten, wobei die
beiden Einheiten nicht identisch sind, wird die Schnittmenge der
Assertionen in den beiden Einheiten bestimmt. Die Schnittmenge enthält die Assertionen,
die in beiden Einheiten vorkommen. Verwendet man zum Beispiel die
Differenzmenge von zwei Einheiten, wobei die beiden Einheiten nicht
identisch sind, wird die Differenzmenge der Assertionen in den beiden
Einheiten bestimmt. Die Differenzmenge enthält die Assertionen, die in
einer der Einheiten vorkommen, nicht aber in der anderen. Vergleiche
zwischen Einheiten können
hilfreich sein, um Gemeinsamkeiten und Unterschiede biologischer
Systeme zu erklären.
So könnte
beispielsweise eine Einheit ein normales System repräsentieren
und eine andere Einheit ein krankes System. Für einen Wissenschaftler wäre es sehr aufschlussreich,
die Gemeinsamkeiten und Unterschiede von zwei Systemen zu bestimmen.
-
Instrumente,
um aus Einheiten Wissen zu schöpfen
Die vorliegende Erfindung kann die Analyse einer Einheit zur Ermittlung
von neuem biologischen Wissen beinhalten. Analyse schließt unter
anderem eine algorithmische Analyse ein, die von Computern oder
Personen durchgeführt
werden kann. Algorithmen, die Pfadsuche, homologes Schlussfolgern
oder simulationsbasiertes Schlussfolgern beinhalten, können neue
Assertionen ableiten, die danach der Einheit zugeführt werden
können,
um diese zu augmentieren. Einheiten können durch Homologietransformation
auch verfeinert und augmentiert werden, unter der Annahme, dass
(1) die Physik und die fundamentalen biochemischen Eigenschaften und
Wechselbeziehungen von Substanzen unter typischen biologischen Bedingungen
konstant bleiben und (2) homologe Strukturen identische oder analoge Funktion
haben. Enthält
eine globale Wissensbank beispielsweise Daten darüber, dass
Komplex C produziert wird, wenn Molekül A mit Molekül B in einer Nervenzelle
kollidiert, dann kann angenommen werden, dass A + B = C auch dann
gilt, wenn A und B in einer Leberzelle kollidieren. Wenn die Leberzellenassertion
der globalen Wissensbank Knoten A und Knoten B enthält, aber
nicht den Deskriptor, der besagt, dass sie zusammen den Komplex
C bilden, kann diese Information während der Kompilierung einer
Lebereinheit in dieses importiert werden. Ganze Kaskaden biologischer
Aktivitäten
können
mithilfe solcher Logik in eine Einheit importiert werden. Ähnlich verhält es sich,
wenn eine globale Wissensbank die Information enthält, dass
ein Mäuseprotein
M sich mit dem Mäuserezeptor
R verbindet, um die Reparatur der Nierentubuli zu starten, und humanbiologische Assertionen
in der Wissensbank einen Knoten homolog zu Mäuseprotein M und einen weiteren
homologen Knoten zu Rezeptor R enthalten, dann können die Wechselwirkung und
möglichen
nachgeordneten Ereignisse aus der Mauseinheit in eine Einheit importiert
werden, die auf ein humanbiologisches System ausgerichtet ist. Darüber hinaus
kann eine Einheit mit einer anderen, die mit anderen Kriterien generiert wurde,
kombiniert und danach die logischen Inkonsistenzen und Redundanzen
entfernt werden, damit ein noch besseres, vollständigeres oder enger fokussiertes
biologisches Modell erstellt werden kann.
-
Techniken
zur grafischen Ausgabe
-
Eine
Wissenseinheit kann visuell als ein Graph aus Knoten dargestellt
werden, die durch Verknüpfungen,
die biologische Beziehungen zwischen und unter Knoten repräsentieren,
verbunden sind. Diese Graphen können
von einem Wissenschaftler untersucht werden, damit er das biologische
System besser versteht und ihm die Ermittlung von neuem biologischen
Wissen über
Systeme, die mit den Biowissenschaften in Beziehung stehen, erleichtert
wird. Die Nutzung von Einheiten, um biologisch relevante Einsichten
darüber
zu erhalten, wie ein System sich verhält, kann in der Arzneimittelforschung
und -entwicklung sowie bei der Entwicklung einer Vielzahl von Therapien äußerst wertvoll
sein. Mit den hier beschriebenen Techniken kann man durch die Nutzung von
Einheiten, die durch Verfahren und Systeme dieser Erfindung geschaffen
wurden, zu biologisch relevanten Einsichten gelangen. Visualisierungstechniken
können
auch genutzt werden, um Wissen und verwandte Daten darzustellen,
um so das Verständnis
des Nutzers und das Erkennen von Beziehungen zwischen Entitäten, die
als Muster und Häufungen vorkommen
können,
zu verbessern.
-
Nachdem
man mit irgendeiner der oben genannten Techniken Graphen generiert
hat, möchte man
vielleicht eine bessere Vorstellung vom biologischen Kontext der
Pfadverläufe
bekommen. Das kann erreicht werden, indem man bei jedem Knoten im
Eingabe-Graphen beginnt und von jedem Knoten aus eine Radialsuche
mit n-Schritten durchführt.
Dieser Schritt „dehnt" die Knoten und die
Größe des Graphen „aus". Durch farbliche
Codierung der Knoten, um eine Modulation anzuzeigen (wie durch experimentelle
Daten festgelegt) kann man die relevanten Veränderungen erkennen, die funktionell
oder strukturell proximal zum relevanten Graphen stehen, oder anders
gesagt, zum biologischen Kontext.
-
Experimentelle
Daten können
in einer Einheit kartografiert werden, indem Messungen aus Experimenten
an die Assertionen in der Einheit, die die gemessenen Quantitäten darstellen,
angepasst werden. In diesem Kontext bedeutet kartografieren, visuell
wiedererkennbare Indizien wie Farbe auf eine Karte von Pfadverläufen zu
legen, um so kenntlich zu machen, welche Knoten bei einem Prozess
beteiligt sind. Das kann zum Beispiel gemacht werden, indem Knoten,
die Genexpressionsprozesse darstellen, an die durch Mikrobereiche
oder andere Techniken wie RT-PCR gemessenen Niveaus von Boten-RNA
angepasst werden. Knoten, die eine Fülle von Proteinen repräsentieren,
können
an Daten aus proteometrischen Messungen angepasst werden. Knoten,
die eine Fülle
von chemischen Substanzen repräsentieren,
können
an Daten aus metabolomischen Messungen angepasst werden. Einmal
kartografiert können
die Daten verarbeitet werden, um einfachere Qualitätsmerkmale
des Knotens zu erstellen, die den Einsatz von Algorithmen für die Darstellung
oder Analyse vereinfachen. Zum Beispiel können Faltungsveränderungsdaten
basierend auf Benutzer gesteuerten Grenzwerten zusammengefasst werden und
Knoten mit Vermerken zu zusätzlichen
Qualitätsmerkmalen
wie „nach
oben" oder „nach unten" versehen werden,
damit die Anwendung einfacher Algorithmen zur Darstellung oder Analyse
möglich
ist. Faltungsveränderungsdaten
können
auch durch Schattierung gezeigt werden, wie in 10 dargestellt,
wo die Schattierung jedes ausgedrückten Gens im Diagramm (z.
B. Mat1a, Mat2b, Pemt, Ahcyl1, Bhmt, Bhmt2, Mfmt, Shmt und Mthdf)
in einem Experiment seine Faltungsveränderung anzeigt (d. h, je dunkler die
Schattierung, desto größer der
Faltungsveränderung).
-
Logische
Simulation kann in Übereinstimmung
mit der Erfindung ebenfalls eingesetzt werden. Als logische Simulation
bezeichnet man eine Klasse von Operationen, die auf eine Einheit
angewendet werden, in der beobachtete oder hypothetische Änderungen
auf einen oder mehrere Knoten in der Einheit gültig werden und in der die
Implikationen dieser Veränderungen
basierend auf den kausalen Beziehungen, die als Assertionen in der
Einheit dargestellt werden, im Netzwerk verbreitet werden. Eine
logische Simulation kann entweder vorwärts gerichtet sein, dann werden
die Auswirkungen der Änderungen
von den Ursprungspunkten der Änderung
ausgehend in Richtung nach unten verbreitet und wirken dort, oder
sie kann rückwärts gerichtet
sein, dann werden die Auswirkungen der Änderungen von den Ursprungspunkten
der Änderung
ausgehend in Richtung nach oben verbreitet und wirken dort. In jedem Fall
ist ein Ergebnis einer logischen Simulation ein neues abgeleitetes
Netzwerk, das aus den Konten und Assertionen besteht, die bei der
Verbreitung der Ursache oder der Wirkung beteiligt waren. Dieses
abgeleitete Netzwerk enthält
eine Hypothese über
das zu untersuchende System.
-
Im
Fall einer auf beobachteten Änderungen in
RNS-Expressionsniveaus
basierenden Rückwärtssimulation
zeigt 11 Inferenzpfade, um übergeordnete
Ursachen zu finden, die mit einer beobachteten Änderung in den Boten-RNS-Niveaus bei einem bestimmten
Gen beginnen. Eine spezielle Ursachenkette könnte wie folgt aussehen: Eine
Phosphorylation eines Transkriptionsfaktors durch eine Kinase, bei der
die Kinase die Aktivität
des Transkriptionsfaktors verändert,
kann umgekehrt Änderungen
in der Expression von Genen induzieren, die durch diesen Transkriptionsfaktor
gesteuert werden. Dieses Diagramm gibt eine "Pseudocode"-Beschreibung der Inferenzen, die dann
durchgeführt
werden, um mögliche
Ursachen für
jede der beobachteten RNS-Veränderungen
zu finden. Die zu untersuchenden Assertionstypen sind nicht auf
die in diesem Diagramm dargestellten beschränkt. Jede Assertion in der
Einheit, die eine kausale biologische Verknüpfung darstellt, kann in diese
Art der Analyse eingeschlossen werden. Umgekehrt kann dann jede
der möglichen
Ursachen untersucht werden, um deren jeweilige Ursache zu finden.
Der Prozess kann für
jede gewünschte
Anzahl von Schritten wiederholt werden, wobei Knoten in der Einheit
mit Vermerken zu ihrer möglichen
Rolle in der Kausalität
der beobachteten Veränderungen versehen
werden.
-
Das
resultierende abgeleitete Netzwerk enthält eine Hypothese über die
möglichen
Ursachen der beobachteten Daten. Dazu kann es außerdem, abhängig von den Verfahren zur
Verbreitung der Kausalität,
als Hypothese über
die am stärksten
mitverantwortlichen und konsistenten möglichen Ursachen der beobachteten
Daten werden, d. h. einer Reihe von möglichen Ursachen, die nach
objektiven Kriterien angeordnet sind. Diese Technik ist nicht auf RNS-Expressionsdaten
beschränkt,
sondern kann auf jede Reihe von Veränderungen angewendet werden,
die als Darstellungssystem ausgedrückt werden kann, darunter,
aber nicht ausschließlich,
proteometrische Daten, metabolomische Daten, posttranslationale
Modifikationsdaten oder sogar Reaktionszeitdaten.
-
12 ist
ein manuell zusammengestelltes Diagramm, das die Ausbreitung von
vorausgesagten Veränderungen 1210 in
einer Vorwärtssimulation zeigt,
die mit beobachteten Expressionsänderungen 1220 verglichen
werden. Dieses Diagramm zeigt die Ausbreitung von vorausgesagten
Proteinveränderungen 1210 basierend
auf einer Zunahme der Menge einer Verbindung 1230 über einen
bekannten Pfadverlauf. In diesem Diagramm stellen Kugeln 1240 Proteine
dar. Paare von angrenzenden Kugeln 1250 stellen Proteinkomplexe
dar. Dünne
Pfeile mit T-förmigen
Spitzen 1260 zeigen Hemmungen oder kausale Abnahmen an.
Dünne Pfeile
mit Spitzen 1270 zeigen eine Aktivierung oder eine kausale
Zunahme an. Genexpressionsbeziehungen werden durch die Pfeile 1280 angezeigt.
Das Diagramm soll die Art und Weise verdeutlichen, auf die Veränderungen,
die durch eine Hypothese vorausgesagt wurden, mit beobachteten Daten
verglichen werden können.
-
13 ist
ein Diagramm, das durch Rückwärtssimulation
aus neun beobachteten Expressionsdatenpunkten 1320 erstellt
wurde, nachfolgend wurde der Graph gekappt, um nur die Verbindungen 1330 zu
zeigen, die die Primärhypothesen
stützen. Jeder
Knoten 1310 in dieser Abbildung repräsentiert entweder ein Gen,
ein Protein oder eine Verbindung. Neun dieser Knoten 1320 repräsentieren
Veränderungen
in der Expression von Genen als Reaktion auf eine Ernährung mit
mehrfach ungesättigten
Fettsäuren.
Der Rest des Diagramms wird durch die Durchsuchung der Einheit nach
möglichen
Knoten 1310 erzeugt, die, würden sie verändert, eine
oder mehrere der neun beobachteten Veränderungen 1320 erklären könnten, und
durch die Entfernung von Knoten 1310 und Verbindungen 1330,
damit nur die besten Erklärungen
gezeigt werden.
-
Abgeleitete
Netzwerke können
als Datenobjekte innerhalb eines Programmierungsrahmens für allgemeine
Zwecke wie einer Skriptsprache erstellt werden. Spezielle Operatoren
wie die oben beschriebenen Verfahren zur Suche nach Pfadverläufen oder logischen
Simulation ermöglichen
es, diese Datenobjekte zu speichern, zu laden und auf sie zuzugreifen. Außerdem können die
Objekte mithilfe der Standardfunktionen des Programmierungsrahmens
bearbeitet werden. Weil sowohl die Eingabe als auch die Ausgabe
dieser Operationen die abgeleiteten Netzwerke umfasst, können in
größeren Verfahren,
in Verfahren, die biologisch signifikante Inferenzen umfassen, und in
Verfahren, die Theorien und Techniken für automatische Verarbeitung
biologischer Datenreihen und biologischen Wissens umfassen, mehrere
Verarbeitungsschritte kombiniert werden. Durch unterschiedliche
Kriterien können
vielfältige
abgeleitete Netzwerke erstellt und danach verglichen, zusammengeführt oder
auf andere Weise bearbeitet werden. Eine Vielzahl von Hypothesen,
wie sie in diesen Netzwerken enthalten sind, kann evaluiert, verglichen
und eingestuft werden.
-
Ein
Beispiel für
eine Methode, die aus hier genannten Techniken besteht, würde wie
folgt aussehen: (1) Laden Sie eine Reihe von Expressionsdaten über Faltungsveränderung
in die Einheit; (2) führen Sie
eine auf den Faltungsveränderungsdaten
basierende logische Rückwärtssimulation
durch; (3) untersuchen Sie das resultierende abgeleitete Netzwerk und
wählen
Sie die am häufigsten
betroffenen Knoten – diejenigen,
welche die als am wahrscheinlichsten eingestuften möglichen
Ursachen der beobachteten Daten sind; (4) kehren Sie für diese
Reihe von Knoten zurück
zur Ursprungseinheit und führen
Sie einen Algorithmus zur Pfadsuche aus, um das abgeleitete Netzwerk
zu finden, das der kleinste Graph ist, der die Knoten verbindet;
und (5) geben Sie das resultierende abgeleitete Netzwerk als Graph
aus. Verfahren wie dieses Beispiel können als Funktionen im Programmierungsrahmen
enthalten sein und benannt und erneut verwendet werden.
-
14 zeigt
eine Visualisierungstechnik, die einen Aspekt der vorliegenden Erfindung
umfasst, der auf einer Vorwärtssimulation
basiert, die vorausgesagte Ergebnisse mit tatsächlichen Labordaten vergleicht.
Dieses Diagramm zeigt die direkten untergeordneten Effekte einer
Störung.
Die Spalte ganz rechts zeigt das erwartete Ergebnis einer Störung in dem
System. Jeder vorausgesagte Wert wird mit den tatsächlichen
Werten verglichen, um zu bestimmen, wie genau die voraussagen die
Labordaten erklären. Eine
Korrelation zwischen dem vorausgesagten Ergebnis und der tatsächlichen
Wirkung jeder Behandlung kann berechnet werden. In 14 zeigen
die mit horizontalen Linien markierten Zellen eine signifikante
Zunahme, die mit vertikalen Linien markierten Zellen eine signifikante
Abnahme, die dunkel gezeichneten Zellen zeigen keine Veränderung
und die nicht dunkel gezeichneten Zellen sind nicht signifikant.
Störungen
können
unter anderem die Zunahme oder Abnahme der Konzentration eines Transkriptionsfaktors,
eines kleinen Moleküls
oder eines biochemischen Katalysator einschließen.
-
15 zeigt
einen Einheitsübersichtsgraphen,
der die Verknüpfbarkeit
der zugrunde liegenden Einheit veranschaulicht, aus der er generiert
wurde. Er kann einem Biologen einen schnellen visuellen Überblick
geben über
die Anzahl der Assertionen, die Verteilung verschiedener Arten von
Assertionen in der Einheit und die Dichte oder den Grad, mit der
die zugrunde liegende Einheit verknüpft ist. Die visuelle Übersicht
kann verwendet werden, um zu bestimmen, ob die zugrunde liegende
Einheit auf einem bestimmten Gebiet über ausreichendes Wissen, über genug
verschiedene Assertionsarten oder über eine ausreichende Dichte
von Assertionen verfügt.
Zwei Diagramme, die zwei verschiedene Einheiten repräsentieren,
können
nebeneinander verglichen werden, um festzustellen, ob eine Einheit
mehr Wissen enthält
als die andere. Eine Vergleichsart wäre es, zwei Diagramme zu vergleichen,
die dieselbe Wissensbank zu zwei verschiedenen Zeitpunkten repräsentieren,
um das Wachsen des Wissens optisch zu untersuchen. Die Mechanik
zum Erstellen des Diagramms in 15 ist
wie folgt: Alle Knoten und Assertionen in der Einheit werden in
ein Diagramm umgewandelt, indem ein Algorithmus für den Aufbau
des Graphen angewendet wird, um ein zweidimensionales Diagramm der
Einheit zu erstellen. Das resultierende einfarbige Diagramm zeigt
die Skala des Wissens, das in der Einheit enthalten ist, und kann
als Ausgangspunkt für
andere Visualisierungen verwendet werden. Der Einheitsübersichtsgraph
kann verbessert werden, indem man die Assertionen, die einen bestimmten
Beziehungs-Deskriptor enthalten, mit einer speziellen Farbe hervorhebt.
-
Eine
Variation des Einheitsübersichtsgraphen
ist es, einen Graphen zu generieren, der Simulationsergebnisse zeigt,
wie in 16 dargestellt. Dieses Diagramm
kann erstellt werden, indem man mit einem einfarbigen Einheitsübersichtsgraphen
beginnt. Die Ergebnisse einer Simulation werden dann über dieses
Diagramm gelegt. Inferenzkausalketten können markiert werden, indem
Knoten gemäß ihres Implikationsgrades
mit Vermerken versehen werden. So können zum Beispiel alle Knoten,
die impliziert sind und von der die Hypothese voraussagt, dass sie abnehmen
werden, mit einem Vermerk versehen werden, indem die Knoten rot
gefärbt
werden oder indem das Symbol des Knotens durch ein anderes Symbol
wie einem abwärts
zeigenden Pfeil ersetzt wird. Andere Knotenzustände können durch entsprechende Wahl
der Farben oder Symbole angezeigt werden. Das Erscheinungsbild der
Assertionen zwischen Knoten kann auch verändert werden, um ihre kausale
Signifikanz zu markieren. 16 zeigt
die Ergebnisse einer Rückwärtssimulation
dunkelgrau markiert, wohingegen der Rest der Einheit hellgrau markiert
ist. Die Ausgabe als Graph kann einem Biologen helfen, das Ausmaß der Wirkungen
einer gegebenen Störung
auf das System zu bestimmen.
-
17 zeigt eine Visualisierung einer Zeitreihenexpression
und proteometrischen Daten, abgebildet auf ein Segment eines bekannten
metabolischen Pfadverlaufs. In einigen Ausgestaltungen können Hintergrundfarben
Quantität
und Richtung von Veränderung
relativ zu Kontrollen anzeigen Jede gefärbte Zelle korrespondiert mit
einem bestimmten Protein und zeigt entweder die Veränderungen
des Expressionsniveaus des korrespondierenden Gens oder die Veränderungen
in seiner beobachteten Proteinhäufigkeit.
Jede mit einem Zeitpunkt beschriftete Spalte kann Datenwerte für ein bestimmtes
Experiment in der Zeitreihe anzeigen. Diese Darstellungsmethode
soll die Veränderungen
in der Modulation eines Pfadverlaufs während einer Reihe von Experimenten
zeigen, in diesem Fall einen Behandlungszeitverlauf. In 17 wird Schattierung verwendet, um die Expressionsniveaus
im Zeitverlauf zu zeigen (d. h. je dunkler die Schattierung, desto
größer die
Genexpession).
-
18 zeigt ein Diagramm, das ein Mittel zum Zusammenfassen
von Zeit, Dosis oder anderen Reihendaten aus vielen Experimenten
für ein
bestimmtes Gen oder Protein anzeigt. Ein Hauptpunkt ist, dass jeder
horizontale Block eine spezielle Art der Messung anzeigt, die dem.
Gen oder Protein zugeordnet werden kann. In diesem Beispiel ist
das Protein Anx7 (Mus musculus) mit fünf Arten der Messung verbunden – zwei sind
proteometrische Messungen per 2D-Gel, drei sind Untersuchungsreihendaten
im Mikrobereich, die Genexpressionsmessdaten ergeben. In diesem
Fall werden die Daten als Faltungsveränderungen versus Steuerungen
ausgedrückt, aber
in anderen Fällen
kann es wünschenswert
sein, absolute Werte grafisch darzustellen. Für jeden Messtyp werden acht
Faltungsveränderungen
als Histogrammbalken dargestellt. Generell kann jede Anzahl von
Datenpunkten bis zu einer praktischen Grenze, die von der Auflösung des
Darstellungsmediums abhängt,
auf diese Art dargestellt werden. Die Balken können mit Farbe gekennzeichnet
werden – zum
Beispiel mit Rot, um Abwärtsveränderungen
zu zeigen, und mit Grün,
um Aufwärtsveränderungen
zu zeigen – um
für den
Nutzer, der möglicherweise
Hunderte dieser Datenreihen durchsuchen muss, wenn er einen Datensatz überprüft, die
allgemeine Tendenz jeder Messreihe besser zu verdeutlichen. Auch die
Hintergrundfarben jedes Balken können
die Signifikanz der Daten zeigen. So sind die Expressionsdaten in
dem Experiment eigentlich der Durchschnitt aus multiplen Replikationen
jedes Experiments, daher kann jedem Datenpunkt eine statistische
Signifikanzmessung zugeordnet werden. In einer Ausgestaltung kann
ein blauer Hintergrund die signifikantesten Daten anzeigen, p-Wert < 0,01, wohingegen ein
purpurroter Hintergrund einen p-Wert < 0,05 anzeigen kann. Ein gelber Hintergrund
könnte
außerdem
irgendeinen höheren
p-Wert anzeigen. Diese Technik ermöglicht dem Nutzer, die Details
der Daten leicht zu erkennen, Details, die in abstrakteren Darstellungen
wie einem Netzwerkgraphen vielleicht unterdrückt worden wären, wo
Knoten einfach eingefärbt
sind, um „nach
oben" oder „nach unten" anzuzeigen, diese
Bestimmungen aber aus multiplen Datenpunkten stammen.
-
19 zeigt ein Tortendiagramm, das die Übereinstimmung
der Veränderungen
zusammenfasst, die durch eine Hypothese über die Veränderungen, die in einem großen Datensatz
beobachtet wurden, vorausgesagt wurde. Der Datensatz in diesem Beispiel
besteht aus Expressionsänderungen
aufgrund einer Behandlung von Leberzellen mit Fenofibrat. Die Hypothese
ist, dass die Veränderungen
auf eine Zunahme der Aktivität
des Transkriptionsfaktors PPARA zurückzuführen sind. Das Tortendiagramm
in 19 zeigt die folgenden fünf Kategorien: (1) korrekte
Voraussagen (17%), die durch die Daten bestätigt werden; (2) gegenteilige
Voraussagen (1%), die durch die Daten widerlegt werden; (3) Voraussagen (27%),
die bei den Daten nicht beobachtet wurden; (4) Datenbeobachtungen
(26%), für
die keine übereinstimmenden
Voraussagen vorliegen; und (5) widersprechende Voraussagen (3%),
denen keine Netto-Änderung
in den Daten zugeschrieben werden kann.
-
BEISPIEL 1
-
Validationsalgorithmus
für biologische
Modelle
-
Ein
Beispiel für
einen Algorithmus, der zur Validation eines biologischen Modells
durch Vergleich von vorausgesagten mit tatsächlichen Ergebnissen verwendet wird,
wird weiter unten und im Pseudocode in 20 beschrieben.
Dieser Algorithmus nimmt an, dass eine Wissensbank existiert, die ein
biologisches System mit auf die Wissensbank abgebildeten Daten aus
Experimenten zur Genexpression repräsentiert.
-
Die
vorausgesagten Ergebnisse können
in zwei Stufen bestimmt werden. Zuerst wird eine Rückwärtssimulation,
wie sie hier beschrieben ist, an einer Wissensbank durchgeführt, um
potenzielle Ursachen der Genexpressionsänderungen zu bestimmen. Die Rückwärtssimulation
erzeugt eine Liste von Genen und einen Punktwert für jedes
Gen. Der Punktwert für jeden
Knoten basiert auf den „Voten", die er während der
Rückwärtssimulation
erhalten hat. Beim Beginn der Rückwärtssimulation
werden Knoten, die die signifikant heraufregulierte Gene repräsentieren,
positive Voten zugeordnet, während
solche, die signifikant herunterreguliert sind, negative Voten bekommen. Während der
Simulation werden Voten gemäß einer Reihe
von Regeln, die den in der Wissensbank dargestellten Kausalbeziehungen
entsprechen, von Knoten zu Knoten kopiert. Am Ende der Simulation wird
der Punktwert für
jeden Knoten als ein Satz aus drei Ziffern berechnet: die Summe
der positiven Voten, die Summe der negativen Voten und eine Gesamtsumme,
die die Summe der positiven und negativen Voten ist. An diesem Punkt
kann der Satz von Knoten, die potenzielle Ursachen („die Gründe") darstellen, für den nächsten Schritt
verwendet und basierend auf dem Punktwert eines jeden Knotens ausgewählt werden,
oder die Reihe potenzieller Ursachen kann manuell bestimmt werden.
Auf der zweiten Stufe werden die Voten für alle Knoten auf Null gesetzt
und mit der ausgewählten
Reihe von Ursachen wird wie hier beschrieben eine Vorwärtssimulation durchgeführt. Mit
den Voten wird auf dieselbe Weise verfahren, außer dass sie von Ursachen auf
potenzielle Wirkungen ausgebreitet werden. Am Ende der Vorwärtssimulation
werden Knoten überprüft, die
die Expression von Genen repräsentieren.
Solche mit einem positiven Gesamtpunktwert sind diejenigen, von der
die Vorwärtssimulation
voraussagt, dass sie nach oben reguliert werden, und solche mit
einem negativen Gesamtpunktwert sind diejenigen, die laut Voraussage
nach unten reguliert werden. Die Ergebnisse der Vorwärtssimulation
stellen die Gesamtheit der vorausgesagten Ergebnisse dar.
-
Die
tatsächlichen
Resultate werden in zwei Kategorien eingeteilt, die auf den Genexpressionsdaten
basieren. Eine Liste enthält
nach oben regulierte Gene und die andere Liste enthält nach
unten regulierte Gene. Die in diesen Listen enthaltenen Gene können durch
verschiedene statistische Verfahren generiert werden, wobei absolute
Größenordnung der
Veränderung
(z. B. Signalniveau), relative Größenordnung der Veränderung
(z. B. Faltungswerte), statistische Signifikanz usw. mit berücksichtigt
werden. Die Gene können
aber auch manuell ausgewählt
werden.
-
Nachdem
die vorausgesagten und tatsächlichen
Ergebnisse generiert worden sind, werden die Ergebnisse für jedes
Gen in den folgenden drei Fällen
tabellarisch angeordnet. Im ersten Fall soll das Gen laut Voraussage
nach oben reguliert werden. Wenn das Gen sich in der aktuellen Liste
der nach oben regulierter Gene befindet, wird der „Zähler für korrekte
Voraussagen" erhöht. Wenn
das Gen sich aber in der aktuellen Liste der nach unten regulierter Gene
befindet, wird der „Zähler für gegenteilige
Voraussagen" erhöht. Wenn
das Gen sich aber in keiner der Listen für tatsächliche Genexpressionsänderungen
befindet, wird der „Zähler für nicht
beobachtete Voraussagen" erhöht. Im zweiten
Fall soll das Gen laut Voraussage nach unten reguliert werden. Wenn das
Gen sich in der Liste der tatsächlich
nach oben regulierter Gene befindet, wird der „Zähler für gegenteilige Voraussagen" erhöht. Wenn
das Gen sich aber in der Liste der tatsächlich nach unten regulierter Gene
befindet, wird der „Zähler für korrekte
Voraussagen" erhöht. Wenn
das Gen sich aber in keiner der Listen für tatsächliche Genexpressionsänderungen befindet,
wird der „Zähler für nicht
beobachtete Voraussagen" erhöht. Im dritten
Fall existiert keine Voraussage für das Gen und der „Zähler für keine
Netto-Veränderung" wird erhöht.
-
Für jedes
Gen, das sich in einer der Listen der Gene befindet, die tatsächlich nach
oben oder unten reguliert werden, für das es aber keine Voraussage
gibt, wird der „Zähler für nicht
vorausgesagte Beobachtungen" erhöht. Die
fünf Zähler werden
dann wie folgt ausgegeben: (1) „Zähler für korrekte Voraussagen", (2) „Zähler für gegenteilige
Voraussagen", (3) „Zähler für nicht
beobachtete Voraussagen",
(4) „Zähler für nicht
vorausgesagte Beobachtungen" und (5) „Zähler für keine
Netto-Veränderung". Diese Zähler können zum
Beispiel in einem Histogramm oder eines Tortendiagramms, wie in 19 gezeigt, bildlich dargestellt werden. Solche
bildlichen Darstellungen bieten dem Wissenschaftler ein intuitives
Mittel, um zu bestimmen, inwieweit die aufgestellte Hypothese mit
den beobachteten Daten übereinstimmt.
-
BEISPIEL 2
-
Algorithmus
zur Identifizierung von Biomarkern
-
Ein
Beispiel für
einen Algorithmus zur Identifizierung von Biomarkern in Übereinstimmung
mit der Erfindung wird weiter unten und im Pseudocode in 21 beschrieben. Generell befasst sich der Algorithmus
mit Daten, die ein infrage kommendes Protein charakterisieren, und
bewertet es, indem er eine Reihe von Faktoren berücksichtigt,
durch die das Protein zu einem geeigneten Biomarker würde. Der Algorithmus
bringt Maße
aus einer Reihe von Quellen zusammen, ordnet ihnen einen numerischen Wert
zu und bündelt
sie, um dann einen Gesamtpunktwert auszugeben, der zur Bewertung
eines Proteins herangezogen werden kann. Insbesondere die Proteine,
die den höchsten
absoluten Punktwert haben, weisen die höchste Anzahl von Ähnlichkeiten mit
einem idealen Biomarker auf. Die in diesem Beispiel verwendeten
Faktoren sind Genexpressionsänderungen
durch ein Medikament, vorhandenes Wissen über die Natur des Genprodukts
und Nähe
zu einem bekannten Biomarker. Der Algorithmus wurde auf Datensätze angewendet,
die aus einem Experiment stammen, in dem Genexpressionsänderungen als
Reaktion auf ein Medikament über
drei Zelllinien von unterschiedlicher Empfänglichkeit für dieses
Medikament gemessen wurden.
-
Der
erste Schritt des Biomarker-Algorithmus ist es, ausgehend von einer
Liste bekannter sezernierter Proteine eine Pfadverlaufssuche auszuführen. Bei
jedem Suchschritt werden Knoten mit dem Mindestabstand zu einem
Quellknoten gekennzeichnet, d. h. der Anzahl von Schritten, die
sie von einem sezernierten Protein entfernt sind. Der zweite Schritt ist,
an der Liste der Proteine in der Einheit eine Iteration vorzunehmen.
Für jedes
Protein auf der Liste wird wie folgt eine Liste von Maßen berechnet:
Berechnung von Richtungskoeffizient und Faltung, Biomarker- und
Sekretionspunktwert, Entfernung von einem sezernierten Protein (wurde
im ersten Schritt berechnet). Diese Maße werden in eine Zeile in
eine Ausgabedatei geschrieben. Faltungsberechnungen beziehen sich
auf Daten, die als Faltungsveränderungen
gegenüber
Steuerungen ausgedrückt
werden, und können
auf verschiedene Weise berechnet werden, zum Beispiel (1) Krankheit
gegenüber
Normalzustand; (2) Behandlung mit Medikamenten gegenüber keine
Medikamentengabe; (3) Widerstandsfähigkeit gegenüber Suszeptibilität. Der Richtungskoeffizient
ist ein Maß für die Veränderungsrate
einer Reihe von Datenpunkten. Eine Datenreihe kann zum Beispiel
zu verschiedenen Zeitpunkten oder bei unterschiedlichen Dosierungsniveaus
gemessen werden. Ein Verfahren, um den Richtungskoeffizienten einer
Reihe zu bestimmen, ist die Anwendung einer linearen Regression,
die in einer geraden Linie resultiert, die am besten zu der Datenreihe
passt.
-
Punktwerte
für den
Richtungskoeffizienten werden gemessen, indem man die Genexpressionsmessungen
für jede
Untersuchung, die mit dem Protein korrespondiert, über drei
Zelltypen betrachtet. Untersuchungen, die einer Kreuzbindung unterliegen,
werden ignoriert. Die restlichen Werte werden mit einem Referenzniveau
verglichen, wobei ein Wert von 2 zugewiesen wird, wenn der Richtungskoeffizient
dieses überschreitet,
ein Wert von 1, wenn er nur die halbe Höhe des Referenzniveaus erreicht,
oder 0, falls der Richtungskoeffizient weniger als die halbe Höhe des Referenzniveaus
erreicht. Für
negative Richtungskoeffizienten werden negative Werte zugewiesen. Über die
Zelllinien wird, je nachdem welche benutzt wird, nach drei Mustern
gesucht und die Untersuchungspunktwerte werden berechnet. Für ein Dosis
abhängiges
Muster werden die Werte über
die Zelltypen addiert. Für
ein Resistenzmuster wird der Wert für die resistente Zelllinie
mit 2 multipliziert und davon die
-
Summe
der Werte der beiden sensiblen Zelllinien subtrahiert. Für ein Wirksamkeitsmuster
wird der Wert der sensibelsten Zelllinie verdoppelt, der Wert der
partiell sensiblen Zelllinie hinzuaddiert und davon der Wert für die resistente
Zelllinie subtrahiert. Die Punktwerte aller Untersuchungen werden
verglichen, und falls bei einem Paar ein Vorzeichenkonflikt auftritt,
wird ein Gesamtpunktzahl von 0 gemeldet, um einen Konflikt anzuzeigen.
In allen anderen Fällen
wird der höchste
oder negativste Punktwert gemeldet. Berechnungen für die Faltungswerte
werden auf dieselbe Weise durchgeführt.
-
Für die Bewertung
von Biomarkern wird eine Punktzahl von 2 aufgezeichnet, wenn das
Protein ein bekannter Biomarker ist, oder eine 1, falls es keiner ist.
In gleicher Weise wird für
sezernierte Proteine ein Punktwert von 2 aufgezeichnet, wenn es
ein (mutmaßlich)
sezerniertes Protein ist, ansonsten wird ein Punktwert von 1 aufgezeichnet.
-
Die
Ausgabedatei wird mithilfe eines Algorithmus sortiert, der aus den
Werten der Maße
einen Gesamtpunktwert berechnet. Im aktuellen Beispiel wird nur
der Faltungspunktwert verwendet. Proteine, die die höchsten absoluten
Werte haben (d. h. solche, die ganz oben oder ganz unten auf der
sortierten Liste stehen), werden für die weitere Evaluation, ob sie
gute Kandidaten für
Biomarker wären,
ausgewählt.
-
Die
Hauptkomponenten des Punktwerts des Algorithmus basieren auf Genexpressionsdaten.
Für jede
Locus-ID gibt es Werte für
multiple Untersuchungsreihen, die verarbeitet werden, um Werte über Richtungskoeffizienten
und Faltungsveränderung
zu liefern. Die Maße
für jede
Locus-ID werden berechnet, indem die Daten aus den Untersuchungen
gebündelt
werden, während
man nach Zeichen sucht, die sich widersprechen (sich widersprechende
Vorzeichen hätten
den Punktwert 0 zur Folge). Der Algorithmus kann Dosisdependenz,
Sensibilität,
Resistenz und Wirksamkeit des Medikaments überprüfen, und das Punktwertmaß berechnet
sich für
jede dieser Eigenschaften anders. Sucht man zum Beispiel nach einem
Resistenzmuster, würde
der Richtungskoeffizient positiv bewertet, falls die beiden resistenten Zelllinien
gleich wären
und die sensible Zelllinie andersartig wäre, wohingegen man für die Dosis-Wirkung-Beziehung
nach einer parallelen Veränderung über alle
Zelllinien suchen würde.
Der oben näher
erläuterte
Algorithmus liefert eine Liste, die dann nach Spalten sortiert wird,
und die Gene, die ganz oben (Faltung) stehen, werden als gute Biomarker
eingeschätzt.
-
Obwohl
die Erfindung besonders unter Bezugnahme auf spezielle Ausgestaltungen
vorgestellt und beschrieben worden ist, sollte jedoch klar sein, dass
von denen, die in dieser Kunst besonders geschickt sind, vielfältige Veränderungen
in Form und Detail gemacht werden können, ohne dass dadurch vom
Geist und Umfang der Erfindung, wie sie durch die Ansprüche im Anhang
dargelegt sind, abgewichen wird. Der Umfang der Erfindung wird deshalb durch
die im Anhang dargelegten Ansprüche
angezeigt, und es ist beabsichtigt, hier alle Änderungen, die innerhalb von
Bedeutung und Umfang der Bedeutungsgleichheit der Ansprüche auftreten,
ebenfalls einzuschließen.
-
ZUSAMMENFASSUNG
-
Offenbart
sind Verfahren, Systeme und Vorrichtungen zum Aufbauen von Zusammenstellungen biologischen
Wissens, die eine biologische Wissensbank bilden, und zum Auswählen und Übertragen von
Biowissenschaft betreffenden Daten und Informationen in biologische
Modelle, um die elektronische Verarbeitung und elektronisches Schlussfolgern auf
biologische Informationen zu vereinfachen. Eine Teilmenge von Daten
wird von einer umfassenden Wissensbank oder einem Wissensspeicher
extrahiert, um eine spezialisiertere untergeordnete Wissensbank
oder -einheit zu erzeugen, die speziell für die vorliegenden Zwecke ausgebildet
ist. Mittels der Erfindung generierte Zusammenstellungen erlauben die
Selektion und rationale Organisation von scheinbar verschiedenen
Daten in einem Modell eines beliebig ausgewählten biologischen Systems,
das durch beliebig gewünschte
biologische Kriterien definiert ist. Aus diesen Zusammenstellungen
kann auf einfache Weise geschöpft
und mit großer
Leistungsfähigkeit
und Effizienz logisch geschlussfolgert werden.