DE10041325A1

DE10041325A1 - Verfahren und Vorrichtung zur Korrelationsanalyse von Datenfolgen

Info

Publication number: DE10041325A1
Application number: DE10041325A
Authority: DE
Inventors: Werner Terhalle
Original assignee: Genprofile AG
Current assignee: ROOTS, IVAR, PROF.DR.MED., 10117 BERLIN, DE
Priority date: 2000-08-23
Filing date: 2000-08-23
Publication date: 2002-03-21
Also published as: WO2002017127A2; AU2001285898A1; WO2002017127A3

Abstract

Es wird ein Verfahren zur Bearbeitung von Datenfolgen, die jeweils eine Anzahl von Daten in einer vorbestimmten Reihenfolge von Positionen umfassen, beschrieben, das die Schitte aufweist: Ermittlung von Korrelationswerten für alle Paare, Tripel oder n-Tupel von Positionen in einem Satz von Datenfolgen auf der Grundlage eines vorbestimmten Korrelationsmaßes, Ermittlung von Positionsgewichtungen aus den Korrelationswerten für jede Position der Datenfolgen, Erfassung von Gruppen zueinander korrelierter Positionen in den Datenfolgen, deren Positionsgewichtungen ungleich Null sind und von einem vorbestimmten Schwellwert abweichen, und Bereitstellung von abgeleiteten Datenfolgen, die durch Daten an den korrelierten Positionen gebildet werden. Es wird auch eine Korrelatorvorrichtung zur Umsetzung des Verfahrens beschrieben.

Description

Die Erfindung betrifft Verfahren zur Bearbeitung von Datenfol gen, insbesondere zur Korrelationsanalyse von Datenfolgen, um Positionen von miteinander korrelierten Daten in verschiedenen Datenfolgen zu erfassen, wie z. B. Verfahren zur Kompression von Datenfolgen, zur Identifikation von bedeutungstragenden Positionen in Datenfolgen und/oder zur Klassifikation von Da tenfolgen mittels Korrelationsanalysen, Vorrichtungen zur Durchführung der Verfahren und Anwendungen der Verfahren.

In allen Bereichen von Forschung und Technik fallen Daten an, die in Form von Symbolen mit technischem Bedeutungsinhalt (z. B. Alphabete aus Zahlen, Buchstaben, Benennungen von Substan zen oder Systemzuständen, oder dgl.) Informationen über einen technischen Aufbau, eine chemische Reaktion, ein biologisches System, einen physikalischen Zustand oder dgl. gegeben sind. Die Daten fallen in der Regel in einer bestimmten Reihenfolge an, die sich beispielsweise aus einer zeitlichen Reihenfolge, einer geometrischen Anordnung oder auch einem zahlenmäßigen Systemparameter ergibt. Datenfolgen können eindimensional (z. B. Zeitreihen von Messwerten, biologische Substanzfrequen zen) sein. Sie können aber auch mehrdimensional sein: dies ist offensichtlich bei Grauwertmatrizen in der Bildverarbeitung, aber auch beispielsweise bei DNA-Sequenzen gegeben. Letztere werden zu mehrdimensionalen Datenfolgen, wenn man zu jeder Nukleinsäure ihre Strukturparameter abspeichert. Die zur Ver fügung stehenden Datenmengen wachsen durch sich erweiternde Mess- und Speichermöglichkeiten ständig. Beispielsweise liegen in der Gentechnik umfangreiche biologisch relevante Informationen in Form von Datenfolgen, z. B. als DNA-Sequenzen, Prote insequenzen, kodierte Umweltdaten, kodierte Phänotypen, Ban denmuster einer gelelektrophoretischen Analyse, Haplotypen, oder Kombinationen aus diesen, vor. Es besteht ein Interesse an Verfahren, um die anwendungsabhängig wichtigeren von den weniger wichtigen Daten zu trennen oder die Daten nach vorge gebenen Gesichtspunkten zu klassifizieren. Dies ist sowohl für eine effektive Handhabung der Daten in Datenverarbeitungsanla gen (Speicherbedarf, Rechenzeiten und dgl.) als auch für die Auswertung der Daten (Mustererkennung, Gewinnung neuer System parameter oder dgl.) von Bedeutung. Speziell in der Bioinfor matik sollen in Datenfolgen biologisch bedeutungstragender Symbole, die relevanten Positionen und/oder Gruppen von Posi tionen und deren Assoziation zu äußeren Ausprägungen oder Um weltbedingungen des betrachteten biologischen Systems erkannt werden. Es besteht ein besonderes Interesse an der Charakteri sierung des Verhaltens von komplexen Systemen, zu denen mehre re Datenfolgen, z. B. in Bezug auf innere Systemzustände und äußere Systembedingungen, vorliegen. Bisher sind keine effek tiven Verfahren zur Verarbeitung von Datenfolgen komplexer Systeme, insbesondere zur Erfassung von Korrelationen zwischen bedeutungstragenden Positionen in den Datenfolgen, verfügbar.

Herkömmliche Verfahren zur Analyse und Klassifizierung von Da tenfolgen basieren auf einer nur positionsweisen Untersuchung der Daten und einer darauf additiv aufbauenden Berechnung. Solche herkömmlichen Techniken sind beispielsweise in von M. J. Bishop et al. in "DNA and Protein Sequence Analysis" Ox ford 1997, dargestellt. Sie sind jedoch nicht in der Lage, die Bedeutung von Positionen in den Datenfolgen zu erkennen, wenn diese sich erst aus dem Kontext einer oder mehrerer anderer, unter Umständen in der Datenfolge weit auseinander liegender Positionen ergibt, und führen deshalb durch die Vernachlässi gung oder gar Unterschlagung solcher Positionen bei jeder auf der Unterscheidung wichtiger bzw. unwichtiger Positionen beruhenden Datenkompression und Klassifikation zu fehlerhaften Er gebnissen.

Die Aufgabe der Erfindung ist es, verbesserte Verfahren zur Untersuchung von Datenfolgen anzugeben, die sich insbesondere dadurch auszeichnen, dass die Daten nicht nur mit hoher Effek tivität, sondern derart verarbeitet und gegebenenfalls redu ziert werden können, dass Fehler vermieden werden, die auf ei ner Nichtberücksichtigung von bestehenden Abhängigkeiten zwi schen den Positionen in den Datenfolgen beruhen. Das verbes serte Verfahren soll insbesondere auch eine zuverlässige Klas sifikation von Daten ermöglichen. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Umsetzung der Verfahren und neue Anwendungen anzugeben.

Diese Aufgaben werden mit Verfahren, Computerprogrammprodukten und Vorrichtungen mit den Merkmalen gemäß den Patentansprüchen 1, 14 bzw. 15 gelöst. Vorteilhafte Ausführungsformen und An wendungen der Erfindung ergeben sich aus den abhängigen An sprüchen.

Die Grundidee der Erfindung ist es, Zusammenhänge oder Wech selwirkungen (Interdependenzen) zwischen einzelnen Positionen verschiedener Datenfolgen durch eine Korrelationsanalyse mit den folgenden Schritten zu erfassen. Zunächst wird in der Ge samtheit aller Datenfolgen für alle Paare von Positionen mit einem vorgegebenem Korrelationsmaß jeweils ein Korrelations wert ermittelt. Die Datenfolgen können als Vektoren aufgefasst werden, deren Komponenten durch die Daten gebildet werden. Auf alle Komponentenpaare wird das Korrelationsmaß zur Ermittlung des jeweiligen Korrelationswertes angewendet. Um die ermittel ten Korrelationswerte in Bezug auf ihre Signifikanz beurteilen zu können, werden zum Vergleich systembezogene Referenzwerte oder ggf. Simulationskorrelationswerte bzw. aus diesen gewon nene repräsentative Referenzwerte herangezogen. Die Ermittlung von Simulationskorrelations- bzw. Referenzwerten erfolgt an wendungsabhängig ein- oder mehrmalig vor oder nach der Ermitt lung der paarweisen Korrelationswerte. Durch Vergleich der Korrelationswerte insbesondere mit den zu den entsprechenden Positionspaaren gehörenden Referenzwerten kann im Rahmen eines einfachen Schwellwertverfahrens festgestellt werden, ob der jeweilige Korrelationswert oder ein davon abgeleiteter Positi onsgewichtungswert so hoch ist, dass die zugehörigen Daten bzw. Positionen einer Gruppe von korrelierten Daten bzw. Posi tionen zugeordnet werden oder nicht. Die genannten Schritte können analog auch auf Tripel oder höhere n-Tupel von Positio nen angewendet werden.

Je nach dem Ergebnis des Schwellwertverfahrens wird zu jeder Datenfolge (mindestens) eine abgeleitete Datenfolge erzeugt, die durch die korrelierten Positionen der Ausgangsdatenfolgen gebildet wird. Auf der Basis des Vergleichs der Korrelations werte mit den Simulationskorrelationswerten oder den repräsen tativen Referenzwerten können auch differenziertere Klassifi kationen innerhalb der Gruppen der korrelierten bzw. nicht- korrelierten Daten vorgenommen werden.

Die Ermittlung und Bewertung paarweiser Korrelationswerte be sitzt den Vorteil, dass die weitere Verarbeitung der abgelei teten Datenfolgen sowie die oft zeit- und kostenaufwendige Er zeugung eventuell weiterer zum betrachteten Datensatz gehören der Datenfolgen je nach dem interessierenden Gesichtspunkt auf den relevanten Teil der Datenfolge beschränkt werden kann. Das erfindungsgemäße Verfahren ergibt eine Datenkompression, die Speicher- und Rechenzeiten sowie Arbeitszeit und -kosten spart. Des Weiteren ergibt sich als besonderer Vorteil, dass zwischen Datenfolgen, die zu einem System gehören, jedoch ganz verschiedene Datentypen enthalten, Assoziationen zwischen ver schiedenen Positionen bestimmt werden können. Beispielsweise können die Datenfolgen jeweils DNA-Sequenzen, relevante Umweltdaten und auch die zugehörigen Phänotypen in geeignet ko dierter Form enthalten. Die erfindungsgemäß ermittelten Asso ziationen liefern Zusammenhänge zwischen Gruppen von DNA- Positionen, Umwelteinflüssen und Phänotypen und damit wiederum neue Informationen als Ausgangspunkt für eine Bewertung oder Veränderung des betrachteten biologischen Systems.

Die genannten Vorteile spielen nicht nur in der Auswertung biologisch relevanter Daten eine Rolle. Es ergeben sich allge mein eine Vereinfachung und Beschleunigung von Arbeiten wie z. B. der Laboranalyse biologischer Sequenzen, der automatisier ten Bilderkennung oder der Überwachung technischer Anlagen, und der anwendungsrelevanten Interpretation der Datenfolgen. In komplexen technischen Anlagen können Korrelationen zwischen Systemzuständen zuverlässig erfasst und in Bezug auf die Steu erung von Prozessparametern oder die Abgabe von Warnsignalen verwendet werden. Bevorzugte Anwendungen der Erfindung ergeben sich somit neben der Informationsverarbeitung an technischen Anlagen vor allem in der Molekularbiologie, der Medizin, der Biologie, der Veterinärmedizin, der Agrarwirtschaft und der Ökobiologie.

Gegenstand der Erfindung ist auch ein Computerprogrammprodukt, das zur Kompression von Datenfolgen, Erfassung von Mustern in Datenfolgen und/oder Erfassung von Klassen in Datenfolgen nach dem erfindungsgemäßen Verfahren eingerichtet ist.

Gegenstand der Erfindung ist ferner eine Korrelatorvorrichtung zur Verarbeitung von Datenfolgen nach dem erfindungsgemäßen Verfahren. Eine Korrelatorvorrichtung umfasst insbesondere ei ne Speichereinrichtung zur Speicherung der zu bearbeitenden Datenfolgen, eine Recheneinrichtung zur Ermittlung von Korre lationswerten, Simulationskorrelationswerten und Referenzwer ten, und eine Vergleichereinrichtung zur Bewertung der Korrelationswerte und zur Erfassung der Positionen von korrelierten bzw. nicht-korrelierten Daten.

Weitere Einzelheiten und Vorteile der Erfindung werden im Fol genden anhand einer Darstellung des erfindungsgemäßen Grund konzepts der Korrelationsanalyse, einer Verfahrensdarstellung und eines Beispiels verdeutlicht. Die Erläuterung bezieht sich auf die Verarbeitung biologisch relevanter Informationen. Die Erfindung ist jedoch nicht auf diese Anwendung beschränkt, sondern auch in allen anderen technischen Gebieten zur Verar beitung von Datenfolgen anwendbar.

Prinzipien der erfindungsgemäßen Korrelationsanalyse

Dem erfindungsgemäßen Verfahren liegen die folgenden Erkennt nisse der Erfinder zu Grunde. Die einzelnen Positionen der be trachteten Menge von Datenfolgen sind mehr oder weniger "ver rauscht". Einige Positionen sind in (nahezu) allen Datenfolgen identisch besetzt, während andere Positionen hochvariabel sind. Zum Zwecke der Klassifikation oder Zuordnung unter schiedlicher Funktionsausprägungen zu den Datenfolgen sind die konstanten Positionen unbrauchbarer. Es sind vielmehr die va riablen Positionen, an denen die zu klassifizierenden Daten folgen nicht übereinstimmen, zu betrachten. Unter Funktions ausprägung wird hier und im folgenden allgemein ein Zusammen hang zwischen Datenfolgen und Systembedingungen verstanden, der in der Regel in der einen oder anderen Richtung kausal in terpretiert wird. Eine Änderung der Systembedingungen kann ei ne Änderung der in der Datenfolge festgehaltenen Messwerte verursachen. Andererseits kann eine Änderung z. B. in einer Gensequenz zu einer Änderung des Phänotypen führen. Dabei kann die Funktionsausprägung in geeignet kodierter Form selbst Be standteil der Datenfolge sein.

Es sind zwei prinzipiell verschiedene Qualitäten der Variabi lität einer Position in einer Datenfolge unterscheidbar. Ei nerseits kann eine Position hochvariabel sein, weil eine Ände rung der Besetzung keine Auswirkung auf die Ausprägung der Funktion hat. Andererseits kann eine hohe Variabilität gegeben sein, weil die jeweilige Position mit unterschiedlichen Funk tionsausprägungen assoziiert ist. Da die Funktionsausprägung einer Datenfolge durch spezifische Besetzung einer Kombination mehrerer, im allgemeinen nicht benachbarter Positionen be stimmt wird, ist davon auszugehen, dass die in Zusammenhang mit der betrachteten Funktion bedeutungstragenden Positionen voneinander abhängig besetzt sind und korreliert veränderlich sind ("synchron rauschen"), während die zufällig rauschenden Positionen eher unabhängig von jeder anderen Position besetzt sind.

Die Erfinder haben ferner festgestellt, dass das synchrone Rauschen der bedeutungstragenden Positionen nicht nur auf Da tenpaare beschränkt ist, sondern auch größere Gruppen von Da ten an bestimmten Positionen betreffen. Das erfindungsgemäße Verfahren ist nun darauf gerichtet, die im Zusammenhang mit einer betrachteten Funktion stehende Bedeutung der einzelnen Positionen in einer Menge von Datenfolgen zu quantifizieren und auf dieser Grundlage die Datenfolgen Kompressions-, Klas sifizierungs- und/oder Vorhersageprozeduren zu unterziehen. Datenkompression bedeutet, dass in der weiteren Verarbeitung der Datenfolgen nur die relevanten Positionen oder Positions gruppen in Betracht gezogen werden.

Die durch die erfindungsgemäße Korrelationsanalyse gewonnene Information kann auch unmittelbar zur Klassifikation benutzt werden. Die Datenfolgen, die an den Positionen einer Gruppe stark voneinander abhängiger, verrauschter Positionen (zumin dest nahezu) dieselben Besetzungen besitzen, werden zu einer Teilklasse zusammengefasst. Von den vielen theoretisch möglichen Besetzungen an diesen Positionen kommen wegen der gegen seitigen Abhängigkeiten nur wenige, die jeweilige Teilklasse charakterisierenden Muster vor.

Besitzt nun die so konstruierte Klassifikation die Eigen schaft, dass jeweils in einer Teilklasse zusammengefasste Po sitionsfolgen sich in ihrer Funktionsausprägung nicht oder nur unwesentlich unterscheiden, so hat man eine Korrelation mit der betrachteten Funktion gefunden, die im Hinblick auf die betrachtete Funktion auch Vorhersagen zukünftiger Systemzu stände möglich macht. Sind zusätzlich zu den ursprünglich be trachteten Datenfolgen weitere Datenfolgen gegeben und besit zen diese an den ausgezeichneten Positionskombinationen be kannte, d. h. im Rahmen der Klassifikation ermittelte Beset zungen, so können diese Positionskombinationen mit der ent sprechenden Funktionsausprägung in Beziehung gebracht werden. Anwendungsabhängig kann vorgesehen sein, dass derartige Vor hersagen durch zusätzliche Verfahren oder Informationen vali diert werden.

Die technische Anwendung der erfindungsgemäßen Korrelations analyse ergibt sich aus der Datenkompression, bei der in Bezug auf eine bestimmte Funktion die wichtigen Datenpositionen er kannt und weiter verarbeitet werden, der Mustererkennung bzw. Klassifikation, bei der Kombinationen von Positionsbesetzungen an den erkannten wichtigen Positionen ermittelt werden, die relevante Teilklassen der betrachteten Datenfolgen beschrei ben, der Assoziation von Mustern in den Positionsfolgen zu Ausprägungen der betrachteten Funktionen und der Vorhersage von Funktionsausprägungen in neuen Datenfolgen.

Durchführung der erfindungsgemäßen Korrelationsanalyse 1. Schritt Bereitstellung der Daten

In einem ersten Schritt werden die interessierenden Daten für die erfindungsgemäße Korrelationsanalyse bereitgestellt, z. B. auf eine Korrelatorvorrichtung übertragen. Anwendungsabhängig werden zunächst die Daten gemessen oder erfasst, über eine Schnittstelle in die Korrelatorvorrichtung eingegeben, zwi schengespeichert und zu Datenfolgen zusammengestellt. Dieser Teilschritt ist nicht zwingend notwendig, die Datenfolgen kön nen bereits bspw. als Messwertfolgen vorliegen. Anschließend werden die Datenfolgen zur Bildung einer Menge von Folgen, die einander entsprechende Daten an jeweils derselben Position be sitzen und die alle die gleiche Länge besitzen, formatiert. Falls die zunächst bereitgestellten Daten zu Datenfolgen mit verschiedenen Längen führen, wie dies beispielsweise bei Da tenfolgen zur Beschreibung eines Phänotyps der Fall sein kann, entstehen in der entsprechenden Datenfolge Lücken. Zur Forma tierung werden die Lücken aufgefüllt oder die entsprechenden Positionen in den übrigen Datenfolgen (z. B. Gensequenzen) ge strichen. Das Auffüllen erfolgt beispielsweise mit einem ge sonderten "Lücke"- oder "gap"-Symbol, mit dem an dieser Posi tion häufigsten Wert oder - bei numerischen Daten - mit einem Durchschnittswert.

Die Datenfolgen basieren gegebenenfalls auf jeweils verschie denen Symbolvorräten oder "Alphabeten" und liegen beispiels weise in gespeicherter Form vor.

2. Schritt Ermittlung von Korrelationswerten und Positionsge wichtungen

Je nach der Aufgabenstellung wird eine problemrelevante Metho de zur Berechnung der Abhängigkeiten zwischen je zwei Positionen verschiedener Datenfolgen verwendet. Die paarweisen gegen seitigen Abhängigkeiten (Korrelationswerte) werden in einem ersten Teilschritt durch ein Korrelationsmaß entsprechend der gewählten Methode ermittelt. Im Folgenden werden beispielhaft zwei Korrelationsmaße, nämlich die Transinformation und die Vorhersagbarkeit, illustriert. Die Erfindung ist jedoch nicht auf diese Maße beschränkt, sondern mit allen Methoden umsetz bar, die allgemein geeignet sind, Assoziationen oder Korrela tionen zwischen Positionen durch Angabe von quantitativen Kor relationswerten zu charakterisieren. Verschiedene solche Me thoden sind an sich bekannt und basieren beispielsweise auf χ²- Tests oder lehrbuchbekannten Algorithmen.

(a) Transinformation

Die Transinformation ist ein auf der Shannon'schen Entropie basierendes Korrelationsmaß, das aus der Informationstheorie zur Charakterisierung der Kombination zweier Signale an sich bekannt ist (siehe z. B. H. Rohling "Einführung in die Infor mations- und Codierungstheorie", Stuttgart, 1995). Der Korre lationswert Transinformation wird wie folgt gebildet. Sind A_i das Alphabet für die Position i und A_j das Alphabet für die Po sition j, p_i bzw. p_j die zugehörigen Häufigkeitsverteilungen und p_ij die gemeinsame Häufigkeitsverteilung der beiden Positi onen, so ist die Transinformation T (ij) der Positionen i und j gemäß der folgenden Gleichung gegeben.

Die Transinformation T ergibt sich als Summe der Entropien für die einzelnen Positionen, vermindert um die Entropie des Posi tionenpaares. Die Transinformation ist in der Informationsthe orie ein gebräuchliches Maß für die Beschreibung der gegensei tigen Beeinflussung zweier Signale. Sie ist minimal, wenn betrachtete Positionen statistisch unabhängig sind, und maximal, wenn beide Positionen gleichverteilt und sich gegenseitig in eindeutiger Weise bestimmend sind.

Das Korrelationsmaß Transinformation liefert für jedes Positi onenpaar eine Zahl, die die Korrelation beschreibt. Aus dem quantitativen Wert allein ist die Korrelation ohne Zusatzin formationen nicht bewertbar, da die Größe von T auch von der Zahl der Symbole in den Datenfolgen abhängt. Je mehr Symbole die Alphabete umfassen, desto größere T-Werte treten auf. Die Bewertung erfolgt im dritten Schritt (siehe unten).

(b) Vorhersagbarkeit

Die Vorhersagbarkeit ist ein neu entwickeltes, gerichtetes Maß für Korrelationen zwischen verschiedenen Positionen, das davon abhängt, ob bei zwei betrachteten Positionen die eine aus der anderen ableitbar oder vorhersagbar ist. Der Korrelationswert Vorhersagbarkeit ist ein quantitatives Maß für die Aussage "falls an Position i ein a, dann an Position j ein b". Das Maß Vorhersagbarkeit ergibt sich aus den folgenden Überlegungen. Für jedes a∈ A_i sei f_ij(a) ∈A_j der am häufigsten mit einem a an Position i einhergehende "Buchstabe" an Position j. Falls es mehrere häufigste Buchstaben gibt, so wird einer von ihnen be liebig ausgewählt, da das Ergebnis der Ermittlung der Vorher sagbarkeit nicht von dieser Auswahl unter den häufigsten Buch staben abhängt. Ist N die Anzahl aller Datenfolgen und n_ij(a) die Anzahl derjenigen Datenfolgen unter ihnen, die an Position i ein a und an Position j ein f_ij(a) besitzen, so ist die Vor hersagbarkeit V(i, j) der Position j durch Position i durch die folgende Gleichung gegeben.

Dabei ist H(j) die Entropie

Die Vorher sagbarkeit ist die mit der Entropie der vorherzusagenden Posi tion gewichtete Anteil derjenigen Datenfolgen, bei denen die Vorhersage der Position j richtig ist, falls man aus der Kenntnis der Besetzung von Position i auf die jeweils am häu figsten damit einhergehende Besetzung von Position j schließt.

Schließlich werden in einem weiteren Teilschritt aus den paar weise für alle Positionen der Datenfolgen ermittelten Korrela tionswerten Positionsgewichtungen bestimmt. Für jede Position der Datenfolgen werden alle zugehörigen Korrelationswerte ei ner Summation (gleichbedeutend einer Mittelwertbildung) oder einer Maximumsbildung unterzogen, so dass sich jeweils als quantitativer Parameter die Positionsgewichtung ergibt, die zusätzlich zu den Korrelationswerten als eine Form der Infor mationsverdichtung ausgegeben bzw. gespeichert wird. Hierdurch werden diejenigen Positionen stark gewichtet, die - im Falle der Summation - im Mittel zu allen anderen Positionen eine starke Abhängigkeit besitzen bzw. - im Falle der Maximumsbil dung - zu mindestens einer anderen Position.

Bereits nach diesem Schritt kann anwendungsabhängig eine erste Reduzierung der Datenfolge durch Streichung aller Positionen erfolgen, deren Wert der Positionsgewichtung Null beträgt oder so niedrig ist, dass eine Korrelation mit anderen Positionen ausscheidet. Hierzu erfolgt beispielsweise ein Vergleich mit vorbestimmten systembezogenen Referenzwerten.

3. Schritt Ermittlung von Referenzwerten für die statistische Bewertung der Positionsgewichtungen

Die mit dem Korrelationsmaß gelieferten quantitativen Werte zur Charakterisierung der gegenseitigen Abhängigkeit zwischen Positionen können in Bezug auf ihre statistische Signifikanz durch ein Simulationsverfahren bewertet werden. Die Durchfüh rung des Simulationsverfahrens ist kein zwingendes Merkmal der Erfindung. Anwendungsabhängig kann darauf verzichtet werden, falls beispielsweise Zusatzinformationen über das betrachtete System vorliegen oder wenn die ermittelten Korrelationen ohne weiteres dahingehend beurteilt werden können, ob sie im System technisch oder biologisch sinnvoll sind.

Das Simulationsverfahren umfasst die Erzeugung einer großen Anzahl von randomisierten Referenzdatensätzen (sogenannte "Shuffles"). Die Referenzdatensätze bestehen jeweils aus der selben Anzahl an Datenfolgen wie der betrachtete Datensatz, besitzen alle dieselbe Länge wie die gegebenen Datenfolgen und gehen auf folgende Weise aus diesen hervor: Stellt man sich die einzelnen Datenfolgen des gegebenen Datensatzes zeilenwei se untereinander geschrieben vor, so werden die Daten inner halb der Spalten, also die jeweils an derselben Position ste henden Daten untereinander zufällig vertauscht. Derartige po sitionsinterne Vertauschungen verändern das Rauschen der Posi tionen nicht, brechen jedoch gegebene Abhängigkeiten auf und schaffen möglicherweise neue Abhängigkeiten. Für jeden Refe renzdatensatz wird wie bei Schritt 2 das Korrelationsmaß zur quantitativen Bewertung gegenseitiger Abhängigkeiten angewen det. Es ergeben sich eine Vielzahl von Simulationskorrelati onswerten für alle Paare von Positionen jedes betrachteten "Shuffles".

Es wird für jeden Referenzdatensatz des Simulationsverfahrens die jeweils maximale auftretende Abhängigkeit zwischen zwei Positionen bestimmt. Ferner wird für jeden Referenzdatensatz die maximale Positionsgewichtung entsprechend dem für den ge gebenen Datensatz gewählten Verfahren bestimmt. Jeweils Mit telwert und Varianz dieser beiden Werte, über alle Referenzda tensätze ermittelt, werden als repräsentative Referenzwerte für den späteren Vergleich mit den für die betrachteten Datenfolgen berechneten Korrelationswerten und Positionsgewichtun gen ausgegeben oder gespeichert.

4. Schritt Erfassung der Positionen von miteinander korre lierten Daten

In einem ersten Teilschritt werden Abhängigkeitsgruppen von Positionen ermittelt. Hierzu werden die paarweisen Abhängig keiten der Positionen mit einem vorbestimmten Schwellwert ver glichen. Der Schwellwert ist beispielsweise (wie bei Entschei dungen über statistische Signifikanz üblich) die Summe aus Mittelwert und Varianz der in Schritt 3 bestimmten maximalen Abhängigkeit in den Referenzdatensätzen. Alternativ kann als Schwellwert eine anwendungsabhängig eingestellte Größe verwen det werden, die auf Zusatzinformationen, Erfahrungswerten oder dgl. basiert. Die Bestimmung von korrelierten Positionen er folgt vorzugsweise durch Bildung von Abhängigkeitsgruppen der Positionen nach dem folgenden Schema.

Gruppen von Positionen, deren paarweise Abhängigkeiten vonein ander sämtlich über dem Schwellwert liegen, werden als soge nannte Cliquen zusammengefasst. Falls die Mehrzahl der Korre lationswerte über dem Schwellwert liegen, eine kleine Anzahl von Positionspaaren jedoch geringere Korrelationswerte erge ben, so werden die zugehörigen Positionen in Gruppen zusammen gefasst, die als "Beinahe-Cliquen" bezeichnet werden. Bei der Definition einer "Beinahe-Clique" kann ein zweiter, niedrige rer Schwellwert als Mindestgröße für diejenigen Korrelations werte berücksichtigt werden, die den Schwellwert für eine Cli que nicht erreichen. Als schwächste Form einer Abhängigkeits gruppe werden Positionen, die lediglich mittelbar voneinander stark abhängig sind, als "Komponenten" zusammengefasst. Dabei ist eine mittelbare Abhängigkeit der Positionen i und q dann gegeben, wenn es Positionen j, k, . . . q derart gibt, dass die Positionenpaare (i, j), (j, k), . . ., (p, q) jeweils über dem Schwellwert liegende Korrelationswerte besitzen. Ein hoher Korrelationswert für das Positionenpaar (i, q) muss jedoch nicht notwendigerweise vorliegen.

Zum Zwecke der Verkürzung der Datenfolgen und damit der Daten kompression können alle außerhalb der Abhängigkeitsgruppen liegenden Positionen gestrichen (gelöscht) werden. Es bleiben dann nur die relevanten für die weitere Verarbeitung gewünsch ten Daten bestehen.

In einem weiteren Teilschritt werden die Abhängigkeitsgruppen ausgegeben bzw. gespeichert. Den Positionen der Datenfolgen wird eine Information zugeordnet, wonach sie zu einer der ge nannten Abhängigkeitsgruppen gehören oder nicht. Es werden ab geleitete Datenfolgen gebildet, die ausschließlich die korre lierten Positionen umfassen. Die abgeleiteten Datenfolgen wer den anwendungsabhängig an eine Schnittstelle zu einem weiteren Auswertungs- oder Diagnosegerät gegeben, gespeichert, ange zeigt oder anderweitig dargestellt.

5. Schritt Bestimmung von Teilklassen der Datenfolgen

Auf der Grundlage der bei Schritt 4 ermittelten Abhängigkeits gruppen werden anschließend Teilklassen der gegebenen Menge von Datenfolgen ermittelt. Die Abhängigkeitsgruppen bilden be stimmte Muster, d. h. Kombinationen von Positionsbesetzungen. Die Teilklassen und die sie charakterisierenden Muster inner halb der Datenfolgen werden ausgegeben bzw. gespeichert.

Im Ergebnis sind die für die weitere Bearbeitung, Anzeige oder Auswertung relevanten Datenfolgen in ihrer Anzahl durch Aus wahl jeweils einer repräsentativen Datenfolge je Teilklasse reduziert worden.

6. Schritt Vorhersage

Die Vorhersage umfasst die Bearbeitung einer oder mehrerer neuer Datenfolgen entsprechend den Schritten 1 bis 5 und den Vergleich der bei Schritt 5 für die neuen Datenfolgen ermit telten Muster mit den Mustern der vorher verarbeiteten Daten folgen. Wenn Übereinstimmungen charakteristischer Muster gege ben sind, so wird den jeweiligen Positionen der neuen Daten folgen die entsprechend für die zuerst verarbeiteten Datenfol gen ermittelte Teilklasse zugeordnet bzw. die entsprechende Zugehörigkeit zu dieser Teilklasse vorhergesagt.

Beispiel 1. Schritt

Das erfindungsgemäße Verfahren wird an einem konstruierten Beispiel erläutert Es werden 16 Positionsfolgen der Länge 9 betrachtet, die in Position 8 über dem Alphabet "1, 2, 3 . . .", in Position 9 über dem Alphabet "+, -", sonst über dem Alphabet "A, C, G, T" gebildet sind. Es handelt sich bspw. um DNA- Sequenzen der Länge 7 mit einem in der angehängten Position 8 codierten Umwelteinfluss und einem in Position 9 vermerkten Vorhandensein einer phänotypischen Eigenschaft.

2. Schritt

Die paarweisen Abhängigkeiten zwischen den Positionen werden als Korrelationswert Transinformation berechnet:

Ein Wert der Transinformation von 0 bedeutet stochastische Un abhängigkeit im üblichen Sinne. Diese liegt insbesondere vor, wenn eine der betrachteten Positionen konstant ist, wie hier die Daten in Position 3. Die stärksten Abhängigkeiten in dem Beispiel bestehen zwischen den Positionen 1 und 4 bzw. zwi schen den Positionen 2 und 5: Während die Positionen 2 und 5 identisch besetzt sind, also offensichtlich im höchsten Maße voneinander abhängig sind, so bestimmen sich auch die Positio nen 1 und 4 gegenseitig eindeutig - ein "G" an Position 1 ist stets mit einem "A" an Position 4 verbunden, ein "T" mit einem "T", ein "A" mit "C" und ein "C" mit einem "G".

Anschließend folgt die durch Summenbildung bestimmte Positi onsgewichtung:

Position
Gewicht
1	4,0406
2	2,2506
3	0,0000
4	4,0406
5	2,2506
6	1,5417
7	3,4334
8	3,4334
9	1,4707

Die Positionen 1 und 4 sind im Sinne dieser Gewichtung von größter Bedeutung, da alle anderen Positionen von ihnen durch schnittlich am stärksten abhängig sind.

3. Schritt

Die Überprüfung der statistischen Relevanz mittels Simulation ergibt: 100 "Shuffles" besitzen durchschnittlich eine maximale Abhängigkeit zweier Positionen voneinander von 0,5941 bei ei ner Varianz von 0,0870; für die Positionspaare mit einer stär keren Abhängigkeit als 0,5941 + 0,0870 = 0,6811 ist die sta tistische Relevanz gegeben.

4. Schritt

Wählt man als Schwellwert 0,5941 + 2.0,0870 = 0,7681, be trachtet also nur diejenigen Positionspaare mit einer Transin formation, die um mindestens zwei Varianzen größer als der zu erwartenden maximalen ist, so findet man zwei Cliquen: die Gruppe der Positionen 1, 4, 7, 8 (je zwei dieser vier Positionen besitzen eine über der gewählten Schwelle liegende Transinfor mation) und die Gruppe der Positionen 2, 5.

5. Schritt

An den Positionen 1, 4, 7, 8 kommen folgende Muster innerhalb der Menge von Positionsfolgen vor:

Dies führt zur Einteilung der Menge in vier Teilklassen:
Teilklasse 1 (Zum Muster "GAA3") : Folgen 1, 6, 8, 9, 14
Teilklasse 2 (Zum Muster "TTA3") : Folgen 2, 12, 15
Teilklasse 3 (Zum Muster "ACG2") : Folgen 3, 4, 10, 16
Teilklasse 4 (Zum Muster "CGT1") : Folgen 5, 7, 11, 13

Hier ist zu bemerken, dass die Klassifizierung nach den an den Positionen 2, 5 vorkommenden Mustern zu einer anderen Eintei lung geführt hätte:
Teilklasse 1 (Zum Muster "AA") : Folgen 1, 4, 13
Teilklasse 1 (Zum Muster "CC") : Folgen 2, 5, 14, 16
Teilklasse 1 (Zum Muster "TT") : Folgen 3, 8, 9, 11, 12
Teilklasse 1 (Zum Muster "GG") : Folgen 6, 7, 10, 15

Wahlweise können zu allen in Schritt 4 gefundenen Positions gruppen die jeweils implizierte Klassifizierung ausgegeben werden, um dann unter Ausnutzung zusätzlicher Informationen zu entscheiden, welche auf das Problem bezogen am geeignetsten ist. Es ist auch möglich, eine gemeinsame Partitionierung zu konstruieren - je nach Zielsetzung etwa die gröbste Partitionierung, die feiner als alle gefundenen ist, oder die feinste unter den gröberen.

6. Schritt

Schließlich wird für die nicht zu den ursprünglichen Positi onsfolgen gehörende Folge "GGAATTC3" ein "+" für die in Posi tion 9 codierte Funktion, also das Vorhandensein der betrach teten phänotypischen Eigenschaft, vorhergesagt, da ihr Muster "GAA3" an den Positionen 1, 4, 7, 8 mit dem die Teilklasse 1 cha rakterisierenden Muster übereinstimmt und jede Positionsfolge aus dieser Teilklasse ein "+" an Position 9 besitzt.

Vorrichtung zur Korrelationsanalyse

Eine erfindungsgemäße Korrelatorvorrichtung umfasst eine For matierungseinrichtung zur Bereitstellung einer Vielzahl von Datenfolgen gleicher Länge, eine Recheneinrichtung zur Bestim mung der Korrelationswerte zwischen allen Positionspaaren der Datenfolgen und der daraus abgeleiteten Positionsgewichtungen, eine Vergleichereinrichtung zum Vergleich der Positionsgewich tungen mit vorbestimmten Referenzwerten und zur Ermittlung von korrelierten Positionen, und eine Einrichtung zur Anzeige, Ausgabe oder Speicherung von abgeleiteten Datenfolgen, die durch die korrelierten Positionen gebildet werden. Die ver schiedenen Komponenten der Korrelatorvorrichtung werden vor zugsweise durch eine Datenverarbeitungsanlage, z. B. einen Computer, implementiert.

Claims

1. Verfahren zur Bearbeitung von Datenfolgen, die jeweils ei ne Anzahl von Daten in einer vorbestimmten Reihenfolge von Po sitionen umfassen, mit den Schritten:

- Ermittlung von Korrelationswerten für alle Paare, Tripel oder n-Tupel von Positionen in einem Satz von Datenfolgen auf der Grundlage eines vorbestimmten Korrelationsmaßes,
- Ermittlung von Positionsgewichtungen aus den Korrelations werten für jede Position der Datenfolgen,
- Erfassung von Gruppen zueinander korrelierter Positionen in den Datenfolgen, deren Positionsgewichtungen ungleich Null sind und von einem vorbestimmten Schwellwert abweichen, und
- Bereitstellung von abgeleiteten Datenfolgen, die durch Daten an den korrelierten Positionen gebildet werden.

2. Verfahren gemäß Anspruch 1, bei dem die Erfassung der kor relierten Positionen die folgenden Schritte umfasst:

- Ermittlung von Simulationskorrelationswerten für alle Paare von Positionen in einer Vielzahl randomisierter Referenzdaten sätze,
- Ermittlung von repräsentativen Referenzwerten aus den simu lierten Referenzdatensätzen für die Korrelationswerte und Po sitionsgewichtungen,
- Ermittlung von Schwellwerten aus den Referenzwerten,
- Zuordnung der Positionen, für die die Positionsgewichtung der zu bearbeitenden Datenfolgen größer oder kleiner als der entsprechende Schwellwert ist, zu einer Gruppe der korrelier ten Positionen oder einer Gruppe von nicht-korrelierten Posi tionen.

3. Verfahren gemäß Anspruch 1 oder 2, bei dem als Korrelati onswerte Transinformations- oder Vorhersage-Werte ermittelt werden.

4. Verfahren gemäß Anspruch 2 oder 3, bei dem die repräsenta tiven Referenzwerte durch Berechnung statistischer Momente (Erwartungswert, Varianz, höhere Momente) und Kombinationen aus ihnen oder anderer mathematischer Funktionen aus allen oder den jeweils maximalen Korrelationswerten und Positionsge wichtungen über alle Referenzdatensätze ermittelt werden.

5. Verfahren gemäß Anspruch 4, bei dem die Gruppe der korre lierten Positionen in Untergruppen unterteilt wird, bei denen alle paarweisen Korrelationen oder die Mehrzahl aller paarwei sen Korrelationen oder alle paarweisen mittelbaren Korrelatio nen der Positionen die Schwellwerte überschreiten.

6. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Datenfolgen und/oder die gemäß einem der vorhergehen den Ansprüche von ihnen abgeleiteten Datenfolgen einer Klassi fizierung und/oder einer Mustererkennung unterzogen wird.

7. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Bereitstellung der Datenfolgen und/oder ihrer Ablei tungen ein Speichern, Anzeigen oder Senden an eine Schnitt stelle einer Datenverarbeitungseinrichtung umfasst.

8. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem eine Formatierung der zu bearbeitenden Datenfolgen derart vorgesehen ist, dass in jeder Datenfolge die gleiche Anzahl von Positionen gegeben ist.

9. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Datenfolgen über demselben Alphabet oder verschiedenen Alphabeten gebildet sind.

10. Verfahren gemäß Anspruch 9, bei dem die Alphabete der ein zelnen Positionen der Datenfolgen biologische Substanzen, Ei genschaften biologischer Substanzen, Nukleinsäuren, Aminosäu ren, Strukturparameter, Ausprägungen phänotypischer Merkmale und/oder Ausprägungen von Umweltmerkmalen kodieren.

11. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Datenfolgen Gensequenzen, Nukleinsäuresequenzen, Ami nosäuresquenzen, Bandenmuster gelelektrophoretischer Analysen, Haplotypen, kodierte Phänotypen, kodierte Umweltdaten oder Kombinationen aus diesen umfassen.

12. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Alphabete Gruppen von Systemparametern eines Regelsys tems, Messwerten und/oder Bildwerten umfassen.

13. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die abgeleiteten Datenfolgen als Eingangsgröße für ein Vorhersage- oder Diagnoseverfahren bereitgestellt werden.

14. Computerprogrammprodukt, das zur Kompression von Datenfol gen, Erfassung von Mustern in Datenfolgen und/oder Erfassung von Klassen in Datenfolgen nach einem Verfahren gemäß einem der vorhergehenden Ansprüche eingerichtet ist.

15. Korrelatorvorrichtung, die umfasst:
eine Formatierungseinrichtung zur Bereitstellung einer Viel zahl von Datenfolgen gleicher Länge,
eine Speichereinrichtung zur Zwischenspeicherung der zu be arbeitenden Datenfolgen,
eine Recheneinrichtung zur Bestimmung der Korrelationswerte zwischen allen Positionspaaren der Datenfolgen und der daraus abgeleiteten Positionsgewichtungen,
eine Vergleichereinrichtung zum Vergleich der Positionsge wichtungen mit vorbestimmten Schwellwerten und zur Ermittlung von korrelierten Positionen, und
eine Ausgabe- und/oder Speichereinrichtung zur Ausgabe oder Speicherung von abgeleiteten Datenfolgen, die durch die korre lierten Positionen gebildet werden.

16. Korrelatorvorrichtung gemäß Anspruch 15, die zur Durchfüh rung der Schritte eines Verfahrens gemäß einem der Ansprüche 1 bis 14 eingerichtet ist.

17. Korrelatorvorrichtung gemäß Anspruch 15 oder 16, die durch eine Datenverarbeitungsanlage gebildet wird.

18. Verwendung eines Verfahrens, eines Computerprogrammpro dukts oder einer Vorrichtung gemäß einem der vorhergehenden Ansprüche zur Erfassung von Korrelationen zwischen Positionen in Datenfolgen.