DE102009058298B4

DE102009058298B4 - Genexpressionsanalyse

Info

Publication number: DE102009058298B4
Application number: DE102009058298.3A
Authority: DE
Inventors: Dr. Hüttner Steffen
Original assignee: Holle & Huettner AG
Current assignee: Holle & Huettner AG
Priority date: 2009-12-01
Filing date: 2009-12-01
Publication date: 2014-10-30
Anticipated expiration: 2029-12-02
Also published as: DE102009058298A1

Abstract

Verfahren zur Analyse von Nukleotid-Sequenzen, enthaltend die folgenden Schritte: Vorsortieren der Sequenzen anhand von durch Restriktionsenzymverdau bedingten Präfixen, wobei Sequenzen mit übereinstimmendem Präfix jeweils genau einer Gruppe zugeordnet werden und die Sequenzen jeder dieser Gruppen in einen dem jeweiligen Präfix zugeordneten Sequenzbaum angeordnet werden wobei der Sequenzbaum jeweils erstellt wird nach den folgenden Schritten: a) Gruppieren der Sequenzen zu mindestens einem mehrere Pfade mit einer Mehrzahl von Knoten umfassenden Sequenzbaum, wobei Sequenzen mit innerhalb einer sich vom Beginn der Sequenz an erstreckenden Teilsequenz vorgebbarer Länge identischen Nukleotidabfolge demselben Pfad zugeordnet werden und diese Sequenzen innerhalb desselben Pfades jeweils ein Cluster bilden; b) Umordnen der dem Sequenzbaum zugeordneten Sequenzen, wobei zumindest die Sequenzen eines ersten Clusters, das nicht mehr als eine vorgebbare Mindestanzahl von Sequenzen enthält, einem zweiten Cluster zugeordnet werden, falls sich die Sequenzen des ersten Clusters in einer vorgebbaren Anzahl von Nukleotiden von den Sequenzen des zweiten Clusters unterscheiden.

Description

Die Erfindung betrifft ein Verfahren zur Analyse von Nukleotidsequenzen. Die Erfindung betrifft auch ein Computerprogramm zur Analyse von Nukleotidsequenzen. Die Erfindung betrifft weiter ein Speichermedium, worauf ein Computerprogramm zur Analyse von Nukleotidsequenzen abgespeichert ist.
Die Erfindung steht in Zusammenhang mit der sogenannten Hochparallelsequenzierung, die für die globale Genexpressionsanalyse beziehungsweise Transkriptom-Analyse eingesetzt werden soll. Die Hochparallelsequenzierung ermöglicht die Sequenzierung und gegebenenfalls Quantifizierung eines gesamten Transkriptoms einer biologischen Zelle, und zwar unabhängig von den Einschränkungen der konventionellen Mikrochip-Array-Technoiogie. Genexpressionsprofile lassen sich genauer und flexibler erstellen. Durch solche modernen „next generation”-Sequenziersysteme können DNA-Einzelmoleküle (cDNA-Fragmente) in einer Größenordnung von 10⁵ bis 10⁷ innerhalb eines einzigen Analyselaufs automatisch analysiert und deren Sequenz ermittelt werden. Aktuelle Beispiele für Hochparallelsequenziersysteme sind GS FLX^TM der Firma Roche Diagnostics/454 und Genome Analyzer^TM der Firma Illumina.
Allgemein gestaltet sich ein Verfahren zur Genexpressionsanalyse an Einzelzellen oder an Metatranskriptomen im Wesentlichen wie folgt: In einem ersten Verfahrensabschnitt werden die Proben vorbereitet, um cDNA-Bibliotheken im Wesentlichen durch reverse Transkription und Amplifikation (PCR) aus der gewonnenen Gesamt-RNA zu erzeugen. Durch gezielten Restriktionsverdau werden letztlich 3'-terminale, 5'-terminale sowie interne Fragmente der exprimierten Gene erhalten. Eine selektive Amplifikation kann selektiv die erhaltenen Fragmente amplifizieren. Ein auf einer sogenannten Suppressions-PCR basiertes Verfahren zur selektiven Applikation der Fragmente ist aus der EP 1 797 198 A1 bekannt. Die gewonnenen cDNA-Fragmente sollten dabei speziell für die automatische Sequenzierung vorbereitet sein; relevante Aspekte sind vor allem die Länge der zu analysierenden Fragmente sowie die Asymmetrie der Fragmentenden. Mit der Hochparallelsequenzierung werden dann pro Ansatz von 10⁵ bis 10⁷ Einzelsequenzen erhalten. Bei einer Sequenzlänge von etwa 30 bis etwa 250 bp entspricht dies einem Datenvolumen der Größenordnung von etwa einer Giga-Base pro Analyseansatz. Aus diesem Sequenzdatenpool soll dann in einem weiteren Abschnitt des Verfahrens vermittelst bioinformatischer Tools ein „Profil” der Genexpression ermittelt werden.
Aus Qu W et al., 2009 ist ein Verfahren bekannt, worin Nukleotidsequenzen sortiert und geclustert werden anhand ihrer Häufigkeit und dem Grad ihrer Übereinstimmung. Aus Luo et al., 2004 ist ein Verfahren zur Sortierung von Nukleotidsequenzen mittels Baumstruktur bekannt. Aus Zerbino & Birney et al., 2008 ist eine Analyse von Nukleotidsequenzen durch sogenannte Brujingrafen und „Tourbus”-Algorithmen bekannt. Aus Leber und Hüttner, 2009: PASSAGE: Technologie-Plattform für die Genexpressionsanalyse, Chemie Ingenieur Technik 2009, 81 (8), Seite 1260, ist eine Sequenz-Cluster-Analyse bekannt, welche die Schritte der Sequenz-Vorverarbeitung, Vorsortierung, Clusterung und quantitative Auswertung umfasst.
Bisherige bioinformatische Verfahren zur Ermittlung eines Genexpressionsprofils setzen hohe Rechenleistungen voraus und verlangen den Zugriff auf bekannte Genomsequenzen zur Korrelation der gefundenen Sequenzdaten. Sowohl die Problematik, Datenbanken für sehr große Datenmengen bereitzustellen oder zu verwalten, als auch die Problematik, geeignete Zuordnungsalgorithmen für Sequenzdaten bereitzustellen, sind bis heute nicht gelöst.
Bisherige Verfahren zur Genexpressionsanalyse auf Basis der Hochparallelsequenzierungstechnologie besitzen daneben den Nachteil, dass im Wesentlichen ausschließlich Sequenzdaten von den 3'-Fragmenten der sequenzierten DNA-Moleküle (3'-Fingerprints) ausgewertet werden können. Die entsprechenden 5'-Fingerprints besitzen keine gemeinsame und eindeutig definierte Startposition für eine zweckmäßige Sequenzanalyse nach bekannten Verfahren. Demgemäß bleiben bei der Analyse vor allem kodierende Genregionen oder Sequenzen im Genstartbereich der sequenzierten DNA-Moleküle weitgehend unberücksichtigt. Die bisher gewinnbaren Genexpressionsprofile sind daher bezüglich ihrer Aussagekraft noch ungenau und unvollständig. Die Analyse der aus der Hochparallelsequenzierung gewonnenen Daten ist daher verbesserungswürdig.
Insbesondere wünschenswert ist eine schnelle und möglichst vollständige Analyse von Sequenzdaten innerhalb einer einzigen Analyse. Wünschenswert ist ein Verfahren, womit das gesamte Transkriptom einer biologischen Zelle sequenziert und gegebenenfalls quantifiziert werden kann. Bisherige Analyseverfahren zur Auswertung von bei der Sequenzierung gewonnener Sequenzdaten verlangen regelmäßig die Abfrage von Genom-Bibliotheken und Gen-Datenbanken, um durch Korrelation mit den genommenen Sequenzdaten ein Genexpressionsprofil zu erstellen. Dies setzt demgemäß bisher voraus, dass das Genom des untersuchten Organismus/der untersuchten biologischen Zelle bereits zuvor weitgehend sequenziert wurde und die Daten in den Genom-Bibliotheken und Gen-Datenbanken vorhanden sind. Es soll deshalb die Analyse des Genexpressionsprofils auch für Organismen mit bislang nicht sequenziertem Genom, das heißt mit unbekannten oder weitgehend unbekannten Genomsequenzen ermöglicht werden.
Die vorliegende Erfindung hat sich demgemäß die Aufgabe gestellt, Verfahren und Mittel bereitzustellen, die den durch die Hochparallelsequenziertechnologie erzeugten Sequenzdatenpool so verarbeitet, dass ein reproduzierbares und aussagekräftiges Genexpressionsprofil, bevorzugt durch den Einsatz geringer Rechenleistung, erhalten werden kann. Weiter hat sich die Erfindung die Aufgabe gestellt, eine generelle Plattformtechnologie bereitzustellen, welche unabhängig von der Beschaffenheit der Daten im Sequenzdatenpool und damit unabhängig von der konkreten Sequenziertechnik und vom Hersteller der Sequenzierautomaten verwendet werden kann.
Das der Erfindung zugrunde liegende technische Problem wird vollständig gelöst durch die Bereitstellung eines Verfahrens gemäß Anspruch 1. Besondere Ausgestaltungen sind in den abhängigen Ansprüchen formuliert.
Erfindungsgemäß enthält das Verfahren zur Analyse von Nukleotidsequenzen zumindest die folgenden Schritte oder besteht daraus, die bevorzugt in der dargestellten Reihenfolge, bevorzugt unmittelbar aneinander anschließend oder quasi-parallel, bevorzugt ohne weitere Zwischenschritte, ausgeführt werden:

a) Die Sequenzen werden in mindestens einem mehrere Pfade mit einer Mehrzahl von Knoten umfassenden Sequenzbaum eingruppiert, indem Sequenzen mit bevorzugt identischer Nukleotidabfolge jeweils innerhalb einer Teilsequenz (Sequenzabschnitt) davon, die bevorzugt eine vorgebbare Länge (Baumtiefe) aufweist und sich vom Beginn der jeweiligen Sequenz an erstreckt, demselben Pfad zugeordnet werden (Sequenzbaumerstellung). Dabei bilden die Sequenzen, die demselben Pfad zugeordnet sind und die gleiche Länge aufweisen, ein sogenanntes Cluster.
b) Die dem Sequenzbaum zugeordneten Sequenzen werden anschließend bevorzugt umgeordnet, das heißt der erstellte Sequenzbaum wird umstrukturiert (Sequenzbaumumstrukturierung), indem bevorzugt zumindest die Sequenzen eines ersten sogenannten „kleinen” Clusters, das nicht mehr als eine vorgebbare Mindestanzahl von Sequenzen enthält, einem zweiten Cluster, das bevorzugt zumindest die vorgebbare Mindestanzahl an Sequenzen enthält, zugeordnet werden, und zwar gemäß der Erfindung bevorzugt für den Fall, dass sich die Sequenzen des ersten Clusters in einer vorgebbaren Anzahl von Nukleotiden von den Sequenzen des zweiten Clusters unterscheiden (Sequenzabweichung).

Die Erfindung stellt also allgemein ein Verfahren zur Gruppierung, das heißt Clusterung, und letztlich zur Clusteranalyse großer Mengen von im Wesentlichen ähnlicher oder identischer Nukleotidabfolgen, also insbesondere sogenannte „Reads”, wie sie vor allem aus der Hochparallelsequenzierung oder ähnlichen Verfahren erhalten werden, bereit. Die Erfindung beruht unter anderem auf der Erkenntnis, dass bei der Parallelsequenzierung eine hohe Redundanz in der Sequenzabfolge vorliegt und deshalb die Sequenzdaten zweckmäßigerweise in sogenannten Clustern gruppiert werden können, um den Rechenaufwand bei der Analyse zu minimieren und gleichzeitig das Analyseergebnis zu verbessern. Die erfindungsgemäße Gruppierung der Sequenzen in Clustern erlaubt dabei auch eine zweckmäßige Korrektur von Sequenzierfehlern, wie sie typischerweise im Zusammenhang mit der Parallelsequenzierung oder entsprechenden Verfahren auftreten können, und damit eine Reduktion der Zahl redundanter Daten. Die Erfindung sieht zur Auswertung und zur Erstellung eines „digitalen” Genexpressionsprofils im Wesentlichen die Gruppierung (Sequenzbaumerstellung) und Umstrukturierung der Sequenzdaten (Sequenzbaumumstrukturierung) mit anschließender optionaler Häufigkeitsverteilung der gefundenen und bevorzugt umgruppierten Cluster vor. Eine ansonsten zeitaufwändige sequentielle Datenbankanalyse aller Reads des Sequenzdatenpools kann umgangen werden.
In dem erfindungsgemäßen Gruppierungsschritt werden die Sequenzen zunächst in einen gewurzelten Baum (Sequenzbaum) überführt. Ein Baum lässt dich in der Graphentheorie als Graph darstellen, der aus einer Menge von Knoten und Kanten besteht. Erfindungsgemäß repräsentieren die Knoten die einzelnen Nukleotide der Sequenzen. Die Kanten zeigen, wie die Nukleotide innerhalb der Sequenz miteinander verbunden sind. Folgt man den Kanten innerhalb eines Baumes, ergeben sich verschiede Pfade, die jeweils Sequenzen repräsentieren. Zur Überführung der Sequenzen in einen gewurzelten Baum werden die Sequenzen bevorzugt sukzessiv abgearbeitet und in den Baum eingefügt. Weicht eine Sequenz an einer Stelle von der bisherigen Baumstruktur ab, wird eine neue Verzweigung eingefügt und der Baum entsprechend erweitert.
Jeder Knoten des Pfades enthält eine definierte Anzahl von Variablen sowie Referenzen auf seine Eltern und/oder Kinder (Pointer). Zu weiteren Kind-Elementen können im Zusammenhang mit Sequenzdaten von DNA-Molekülen lediglich die vier Basen, A, T, G oder C, führen. Für späteres Suchen im Baum enthält jedes Knotenelement bevorzugt einen Backpointer als Referenz auf den jeweiligen Elternknoten. Jedes Element enthält eine Variable zum Speichern des jeweiligen Nukleotids und bevorzugt eine Liste, in der Sequenzen abgespeichert werden können, die an dieser Stelle im Baum enden.
Der Aufbau des Baumes erfolgt bevorzugt durch rekursiven Funktionsaufruf. Innerhalb des Baumes überprüft die Funktion für das jeweils nächste Sequenzelement, ob es bereits eine Referenz auf einen weiteren Knoten mit dementsprechenden Nukleotidtyp gibt. Ist dies der Fall, erfolgt die Funktion der Verzweigung, indem es die Funktion mit den geänderten Funktionsparametern erneut aufruft. In einem weiteren Schritt werden die Referenzen des nächsten Knotens für das darauffolgende Sequenzelement überprüft. Gibt es bei einer Verzweigung hingegen keine Referenz auf einen nachfolgenden Knoten mit dem jeweiligen Nukleotidtyp, wird eine neue Verzweigung gesetzt. Die Erfindung sieht bevorzugt vor, dass bei einer neuen Verzweigung auch für die nachfolgenden Sequenzelemente neue Knoten erzeugt werden.
Die Erfindung sieht vor, dass bevorzugt für jede in den erstellten Sequenzbaum zu gruppierende Sequenz ein Pfad innerhalb des Sequenzbaums ausgewählt wird, der die größtmögliche Übereinstimmung mit dieser Sequenz aufweist, wobei eine Übereinstimmung umso größer ist, je mehr aufeinanderfolgende Knoten des Pfades, beginnend ab der Wurzel, aufeinanderfolgenden Nukleotiden der Sequenz, beginnend ab dem Beginn der Sequenz, entsprechen; beginnend ab dem Nukleotid, für welches kein übereinstimmender Knoten innerhalb des ausgewählten Pfades vorhanden ist, für jedes Nukleotid, dessen Abstand zum ersten Nukleotid der Sequenz die vorgebbare Länge der Teilsequenz nicht überschreitet, ein dem Nukleotid entsprechender Knoten erzeugt wird; und die erzeugten Knoten in den Sequenzbaum derart eingeordnet werden, dass die Reihenfolge der erzeugten Knoten der Reihenfolge der entsprechenden Nukleotide in der Sequenz entsprechen, wobei der bezüglich dieser Reihenfolge erste erzeugte Knoten an den letzten mit einem Nukleotid in der Sequenz übereinstimmen Knoten des ausgewählten Pfades angehängt wird.
Das heißt also, für jedes Nukleotid, dessen Abstand zum ersten Nukleotid der Sequenz die vorgebbare Länge der Teilsequenz nicht überschreitet, wird ein neuer Knoten erzeugt und, falls das Nukleotid das erste Nukleotid in der Sequenz ist, wird der erzeugte Knoten an den Wurzelknoten angehängt; falls hingegen das Nukleotid das erste Nukleotid innerhalb der Sequenz ist, für das kein übereinstimmender Knoten in dem Sequenzbaum vorhanden ist, wird der erzeugte Knoten an den Knoten des Pfades angehängt, der mit dem in der Reihenfolge innerhalb der Sequenz vorangehenden Nukleotid übereinstimmt; andernfalls wird der erzeugte Knoten an den zuvor erzeugten Knoten angehängt.
Die erfindungsgemäße Einordnung der Sequenzen in die Baumstruktur erfolgt vorteilhafterweise in linearer Zeit, da erfindungsgemäß jede Sequenz nur einmal betrachtet werden muss. Hiermit ergibt sich ein deutlicher Geschwindigkeitsvorteil gegenüber bekannten Gruppierungsverfahren, die auf einem paarweisen Sequenzvergleich beruhen.
Vorteilhafterweise erlaubt das erfindungsgemäße Gruppierverfahren insgesamt eine sehr hohe Datenreduktion. Diese beträgt eine bis zwei oder mehr Zehnerpotenzen. Dadurch können große Sequenzdatenpools schnell und vor allem vollständig analysiert werden.
Der Erfindung liegt unter anderem die Erkenntnis zugrunde, dass, obwohl die Anzahl der Sequenzen (Reads) im Sequenzdatenpool der Hochparallelsequenzierung hoch ist, diese sich nur auf wenige Tausend exprimierte Gene zurückführen lassen. Von diesen liegen bekanntermaßen jeweils zahlreiche mRNA-Kopien in den Zellen vor, die in cDNA umgeschrieben und fragmentiert werden. Werden von jeder cDNA mehrere Abschnitte sequenziert, sind mehrere verschiedene Reads von den Genabschnitten im Sequenzdatenpool zu erwarten. Auch Reads, die von einem gemeinsamen Genabschnitt stammen, können sich in einer gewissen Anzahl an Nukleotiden unterscheiden: einerseits besitzen diese Sequenzen verschiedene Längen, zum anderen steigen die Sequenzierfehler mit zunehmender Sequenzlänge zum „Ende” der Sequenz hin an.
Die Erfinder fanden überraschend, dass eine Baumstruktur besonders gut den Sequenziereigenschaften und Parametern moderner Hochparallelsequenziersysteme gerecht wird. Dies vor allem deshalb, da Sequenzierungsfehler mit zunehmender Sequenzlänge häufiger auftreten. Daher war zu erwarten, dass mit zunehmender Tiefe des erzeugten Baumes die Anzahl der Verzweigungen steigt. Auf dieser Grundlage ist es erfindungsgemäß möglich, ein sogenanntes Scoring-System zu verwenden, dass je nach Tiefe des Baums die Verzweigungen als signifikant oder als nicht relevant klassifiziert. Auf diese Weise können auch Sequenzen, die sich in den Endsequenzen unterscheiden, einem Cluster zugerechnet werden. Als Kriterium für die Analyse sieht die Erfindung bevorzugt vor, dass die Baumtiefe entsprechend vorgewählt wird. Jenseits der Grenze der vorgebbaren Baumtiefe, das heißt die bei der Erstellung des Sequenzbaumes zu betrachtende Sequenzlänge vom Beginn der Sequenz an, das heißt von der Wurzel des Baumes an gezählt, sind Verzweigungen für die Bildung der Cluster dann nicht mehr als für die Analyse und deren Ergebnis relevant zu betrachten, was zu einer weiteren Datenreduktion führt.
Die Erfindung beruht weiter auf der Erkenntnis, dass die Hochparallelsequenzierung im Vergleich zur bekannten Sequenzierungsmaßnahmen, beispielsweise die Dideoxymethode nach Sanger, zu kürzeren Sequenzen (Reads) führt und eine höhere Fehlerrate aufweist. Die Analyse von Experimenten zur Transkriptom-Analyse zeigt beispielsweise, dass Cluster mit 1 bis 10 enthaltenen Reads bis ca. 20% der Gesamtreads eines experimentellen Ansatzes für ein gesamtes Transkriptom enthalten. Dies ist vor allem darauf zurückzuführen, da durch methodische Artefakte bei der Hochparallelsequenzierung unvermeidbare Fehler mit einer „Backgroundrate” von 5 bis 10 auftreten. Es ist daher eine hohe Anzahl von vereinzelten Sequenzen zu erwarten, die nicht unmittelbar zu einem Cluster in der Baumstruktur zugeordnet werden können. Die Erfindung sieht deshalb in einem nachfolgenden weiteren Schritt vor, diese vereinzelten Reads den Clustern anderer Reads zuzuordnen.
Erfindungsgemäß wird auf Basis des zuerst erzeugten Sequenzbaums eine Änderung der Zuordnung einzelner Sequenzen oder Cluster zu anderen Clustern vorgenommen, um eine weitere Datenreduktion zu erreichen. Dies hat gleichzeitig den Vorteil, dass die ursprüngliche Gruppierung von mit Sequenzierfehlern behafteten Sequenzen korrigiert werden kann. Vorzugsweise wird eine Umsortierung für einzelne Sequenzen und für „kleine” Cluster, deren Anzahl von Sequenzen eine vorgegebene Mindestanzahl nicht erreicht, durchgeführt. Beispielsweise kann vorgesehen sein, dass bei der Umstrukturierung des Sequenzbaums für eine mögliche Neuzuordnung nur Cluster betrachtet werden, die weniger als 10 oder weniger als 20, 30, 40 oder 50 Sequenzen, bevorzugt weniger als 10 Sequenzen (Reads), umfassen. Diese Mindestanzahl kann in Abhängigkeit von der zu erzielenden Datenreduktion, der Häufigkeit von Sequenzierfehlern sowie von der zu erzielenden Auflösung des zu erzeugenden Genexpressionsprofils gewählt werden. Diese erfindungsgemäße Umstrukturierung findet bevorzugt als einmaliger Zyklus statt. In weiteren Varianten der Erfindung wird dieser Zyklus mehrfach durchlaufen, um die Zuordnung zu verbessern.
Die Erfindung sieht in einer bevorzugten Ausgestaltung vor, dass das Umordnen oder Neuzuordnen der zugeordneten Sequenzen zumindest die folgenden Schritte umfasst:

– ein Verzweigungsknoten wird aus dem dem ersten „kleinen” Cluster zugeordneten ersten Pfad innerhalb des Sequenzbaums auswählt;
– es wird geprüft, ob die Knoten des ersten Pfades, beginnend mit dem zweiten Knoten nach der Verzweigung, mit den jeweiligen Knoten eines zweiten Pfades übereinstimmen, wobei der zweite Pfad ebenfalls den Verzweigungsknoten umfasst, und, falls dies der Fall ist, werden die Sequenzen des ersten kleinen Clusters zu dem zweiten, bevorzugt „großen” Cluster, das dem zweiten Pfad zugeordnet ist, zugeordnet, und der erste Pfad wird bevorzugt gelöscht.

Ein Sequenzierfehler kann sich darin äußern, dass in einer Sequenz ein oder mehrere Nukleotide fehlen. Da auch mit Sequenzierfehlern behaftete Sequenzen bei der Erzeugung des Sequenzbaums berücksichtigt werden, können in dem Sequenzbaum fälschlicherweise Pfade und weitere Cluster entstehen, was die Komplexität des Sequenzbaums erhöht. Dies wiederum erhöht den Aufwand bei der Erstellung eines Genexpressionsprofils. Ferner führen auf Sequenzierfehler beruhende Sequenzen zu unklaren Genexpressionsprofilen. Es wird erfindungsgemäß erreicht, dass einerseits die Anzahl der unterschiedlichen Cluster reduziert werden und andererseits, auf Sequenzierfehlern beruhende Sequenzen – soweit möglich – korrigiert werden.
Bei der Hochparallelsequenzierung können auch Sequenzen entstehen, denen ein größeres Fragment zu Beginn der Sequenz fehlt. Diese Sequenzen können innerhalb des Sequenzbaums beispielsweise dadurch erkannt werden, dass diese einem Cluster zugeordnet sind, in welchem die Mehrzahl der Sequenzen eine größere Anzahl von Nukleotiden aufweisen als die zu analysierenden Sequenzen beziehungsweise zu analysierenden Cluster. Derartige Sequenzen beziehungsweise Cluster zeichnen sich vor allem dadurch aus, dass der diesen Clustern zugeordnete Pfad keinen Endknoten enthält, beziehungsweise dass der letzte Knoten in dem Cluster mindestens einen weiteren Kindknoten hat. Dies bedeutet, dass das umzusortierende Cluster mit einem anderen Cluster zwar in den ersten Nukleotiden übereinstimmt, jedoch eine geringere Anzahl von Nukleotiden aufweist. Um festzustellen, ob dies möglicherweise auf einem fehlenden Fragment beruht, wird der Sequenzbaum bevorzugt rekursiv durchsucht, wobei als Startpunkt beziehungsweise als erstes Nukleotid der zu analysierenden Sequenz beziehungsweise des zu analysierenden Clusters eine Position in dem Cluster ausgewählt werden muss. Bevorzugt sind als Startpunkte Verschiebungen um –3, –2, –1, +1, +2 oder +3 Positionen vorgesehen; eine Verschiebung um beispielsweise +3 entspricht dem Einfügen von drei Leerknoten. Es wird dann bevorzugt geprüft, ob die Sequenzen eines derart verschobenen Clusters einem anderen Pfad innerhalb des Sequenzbaums zugeordnet werden können. Eine Verschiebung um beispielsweise –3 bedeutet, dass ein Vergleich der Nukleotide mit den Knoten der bestehenden Pfade erst mit dem vierten Nukleotid des umzusortierenden Clusters beginnt. Es werden also in diesem Beispiel die ersten drei Nukleotide abgeschnitten, da diese möglicherweise einer anderen Sequenz angehören und nicht den Startpunkt der Sequenz markieren können. Es kann dann versucht werden, die zu analysierende Sequenz beziehungsweise das zu analysierende Cluster erneut dem Sequenzbaum zuzuordnen, wobei nun die ersten drei Nukleotide nicht berücksichtigt werden. Wird dann ein Pfad gefunden, an dem die Sequenzen abgespeichert werden können, so werden sie diesem Cluster zugeordnet und der bisherige Pfad wird gelöscht, soweit diesem kein weiteres Cluster zugeordnet ist.
Die Erfindung sieht demgemäß in einer bevorzugten Ausgestaltung alternativ oder bevorzugt zusätzlich vor, dass das Umordnen oder Neuzuordnen der Sequenzen zumindest die folgenden Schritte umfasst:

– ein Verzweigungsknoten wird aus dem dem ersten „kleinen” Cluster zugeordneten ersten Pfad innerhalb des Sequenzbaums auswählt;
– der dem Verzweigungsknoten folgende Knoten des ersten Pfades wird um jeweils eine Position in Richtung Endknoten verschoben, und zwar bevorzugt durch Einfügen eines Leerknotens (Gap) unmittelbar nach dem Verzweigungsknoten;
– es wird geprüft, ob die Knoten des nun verschobenen ersten Pfades beginnend mit dem zweiten Knoten nach der Verzweigung, das heißt bevorzugt mit dem ersten Knoten nach dem Leerknoten, mit den jeweiligen Knoten eines zweiten Pfades übereinstimmen, wobei der zweite Pfad ebenfalls den Verzweigungsknoten umfasst, und, falls dies der Fall ist, werden die Sequenzen des ersten Clusters zu dem zweiten, bevorzugt „großen” Cluster, das dem zweiten Pfad zugeordnet ist, zugeordnet, und der erste Pfad wird bevorzugt gelöscht.

Gemäß den vorbeschriebenen Ausgestaltungen wird bevorzugt der letzte Verzweigungsknoten in Richtung des Endknotens (Blattes, Blattknotens) des der Sequenz zugeordneten Pfades ausgewählt.
Eine erfindungsgemäße alternative oder bevorzugt zusätzliche Korrektur der Clusterung wird in Form der sogenannten „Raster- oder Längenverschiebung” durchgeführt. Diese sieht bevorzugt vor, dass einzelne Sequenzen am Sequenzbeginn durch ein oder mehrere Nukleotide vorbestimmbarer Zahl oder durch größere Fragmente ergänzt werden können. Bei dieser bevorzugten Variante der erfindungsgemäßen Fehlerkorrektur werden bei einer rekursiven Suche sogenannte „interne” Sequenzen (Reads) und Cluster festgestellt, die sich dadurch auszeichnen, dass von ihren letzten Knoten, der ein Endknoten (Blatt) sein müsste, ein weiterer Kindknoten ausgeht. Solche einzelnen Reads oder kleinere Readgruppen werden dabei in Richtung der Endknoten verschoben und dabei überprüft, ob sie größeren Clustern im selben Zweig oder einem anderen Zweig zugeordnet werden können. Die Verschiebung erfolgt so lange, bis eine Verzweigung oder ein Endknoten erreicht wird.
Die Erfindung sieht weiter bevorzugt vor, dass die Sequenzen eines Clusters, dessen zugeordneter Pfad keinen Endknoten umfasst, in Richtung des/der Endknoten verschoben werden und falls die Nukleotide der Sequenzen des Clusters mit den jeweils entsprechenden Knoten des Pfades übereinstimmen, die Sequenzen des Clusters in dasjenige Cluster eingeordnet werden, welches dem nun von der Sequenz oder dem Cluster überdeckten Pfad zugeordnet ist.
Die Zahl der bei dieser erfindungsgemäßen Sequenzneuordnung zu berücksichtigenden Anzahl von Sequenzabweichungen wird bevorzugt durch Benutzereingabe oder durch vorbestimmte Kriterien, die sich an der Natur der Sequenzdaten orientieren, voreingestellt. Bevorzugt beträgt diese zur Erzielung einer hohen Rechengeschwindigkeit 1, das heißt pro Einzelsequenz oder Cluster wird pro Durchlauf genau ein Mismatch und/oder Gap und/oder Rasterverschiebungen berücksichtigt. Die Erfindung ist nicht darauf beschränkt; je nach Grad der gewünschten Datenreduktion oder der Fehlerhäufigkeit können eine größere oder kleinere Anzahl zuzulassender Sequenzabweichungen, die bei einem erfindungsgemäßen Umstrukturierungsdurchgang berücksichtigt werden können, gewählt werden. Diese betragen 2, 3, 4 oder gegebenenfalls mehr Abweichungen, insbesondere Mismatches, Gaps oder Rasterverschiebungen.
Die Erfindung erlaubt außerdem, dass die Parameter der Strukturierung und Umstrukturierung, wie vorbestimmbare Länge der beim Sequenzvergleich zu berücksichtigenden Teilsequenzen (Baumtiefe), Anzahl der zu berücksichtigenden Nukleotide mit Sequenzabweichung, Umfang der Rasterverschiebung, die Mindestanzahl der Sequenzen eines sogenannten „kleinen” Clusters und andere die Analyse bestimmende Parameter, für jede der durch die Vorsortierung gebildeten Sequenzgruppe, bevorzugt jeweils individuell, gewählt werden. Dies erlaubt vorteilhafterweise, dass diese Parameter an die jeweilige Natur der in die Gruppen sortierten Sequenzen, wie Abhängigkeit der Fehlerhäufigkeit von der Sequenzlänge, Art der Sequenzierfehler etc., angepasst werden können, um die Analyse weiter zu beschleunigen und/oder das Analyseergebnis zu verbessern.
Erfindungsgemäß lassen sich aus dem so gewonnenen bevorzugt umstrukturierten Sequenzbaum diejenigen Sequenzen ablesen, die offensichtlich einem einzigen Cluster angehören. Sie werden vorzugsweise in einem weiteren Schritt zusammengefasst, und für bevorzugt jedes Cluster wird bevorzugt eine sogenannte Konsensussequenz abgeleitet. Das erfindungsgemäße Erstellen der Konsensussequenz hat insbesondere den Vorteil, dass nicht alle unterschiedlichen Sequenzen innerhalb des zu analysierenden bzw. umzugruppierenden Clusters auf Übereinstimmung mit möglichen alternativen Pfaden untersucht werden müssen, sondern dass lediglich die Konsensussequenz auf Übereinstimmung mit anderen Pfaden geprüft werden muss. Dadurch ergibt sich eine weitere Verminderung des Rechenaufwands.
Unter „Konsensussequenz” wird eine Sequenz verstanden, die in der Summe am geringsten von einer gegebenen Menge an Sequenzen abweicht. Konsensussequenzen werden vorzugsweise durch „multiple alignment” in an sich bekannter Weise erstellt. Bevorzugt wird dasjenige Nukleotid in die Konsensussequenz aufgenommen, das in einer Spalte „multiple alignment” am häufigsten auftritt. Alternative Konzepte zur Ermittlung einer Konsensusequenz sind der sogenannte „Stringvergleich”. In einer bevorzugten Ausführung des erfindungsgemäßen Verfahrens wird jeweils eine Konsensussequenz mindestens eines oder bevorzugt aller gefundenen Cluster gebildet. Diese wird vorzugsweise für die Überprüfung der Übereinstimmung der Nukleotide des Clusters und/oder der Sequenzen des Clusters mit den Knoten eines Pfades die Konsensussequenz herangezogen. Umfasst das Cluster ausschließlich identische Sequenzen, so entspricht die Konsensussequenz diesen identischen Sequenzen. Aufgrund der Restrukturierung des Sequenzbaums kann es vorkommen, dass ein Cluster auch nicht identische Sequenzen umfasst. In diesem Fall wird die Konsensussequenz gebildet, die eine Art Mittelwert der Sequenzen darstellt und zu den Sequenzen innerhalb des Clusters einen möglichst geringen Abstand aufweist, wobei eine Vielzahl von Metriken für die Bestimmung der Ähnlichkeit herangezogen werden kann.
Vor der Durchführung der Sequenzierung wird die Probe beispielsweise durch selektive Amplifikation vorbereitet. Bei der Aufbereitung einer Probe werden Restriktionsenzyme eingesetzt, die die DNA meist an bestimmten palindromischen Mustern schneiden. Die Erfindung sieht dazu in einem der Sequenzbaumerstellung vorausgehenden ersten Schritt eine Vorsortierung der Sequenzen in 3'-Reads, 5'-Reads und Reads vom internen Teil des Gens vor. An dem 3'-Ende besitzen mRNAs einen charakteristischen Poly-A-Bereich, der eine Vorsortierung der Reads anhand dieser Struktur ermöglicht. Dies wird durch die Spezifität der jeweils eingesetzten Restriktionsenzyme ermöglicht. Diese spalten DNA nur an spezifischen Stellen.
Wird beispielsweise das Restriktionsenzym Rsal verwendet, wird die DNA an der Sequenzabfolge derart geschnitten, dass sich die Sequenzen anhand der folgenden Präfixe unterscheiden lassen. Bevorzugt kennzeichnet der Präfix ACGG ein 5'-Read (5'-Fingerprint); bevorzugt kennzeichnet dabei der Präfix ACT'13' (Poly-T-tail) ein 3'-Read (3'-Fingerprint); bevorzugt werden interne Fingerprints durch einen Präfix ausgewählt aus der Gruppe: ACA, ACC, ACG (ohne GG-Sufflx) und ACT (ohne Poly-T-tail) gekennzeichnet.
Zusätzlich erlaubt die Erfindung die Gruppierung der Sequenzen in weitere Gruppen, deren Sequenz nicht mit dem Motiv AC (im Falle des Beispiels Rsal) beginnt und deren Entstehung nicht auf das Restriktionsenzym (beispielsweise Rsal) zurückgeht. Sequenzen, die nicht mit einem bestimmten Präfix beginnen, werden insbesondere als Artefakte betrachtet und sind kein spezifisches Produkt der Probenaufbereitung.
Neben dem Restriktionsenzym Rsal können andere oder weitere Restriktionsenzyme, beispielsweise HpyCH4V, verwendet werden. Der Fachmann kennt analog fungierende Restriktionsenzyme. Dann werden jeweils andere Präfixe für die Vorsortierung der Fingerprints herangezogen.
Die Erfindung sieht demgemäß vor, in einem bevorzugt vorgeschalteten ersten Schritt eine Vorsortierung der Sequenzen aus dem Sequenzdatenpool anhand ihres Präfixes in Abhängigkeit von dem konkret gewählten Restriktionsenzym vorzunehmen. Anschließend wird erfindungsgemäß für jede vorsortierte Gruppe ein eigener Sequenzdatenbaum erstellt. Insgesamt werden bevorzugt sieben Gruppen gebildet und demgemäß für jede Gruppe jeweils ein eigener Sequenzbaum generiert (8).
Die Wahrscheinlichkeit, dass ein Gen mit einem Restriktionsenzym geschnitten wird, liegt bei etwa 90%. Entsprechend sollte die durchschnittliche Anzahl der Fingerprints cDNA bei vier liegen, wenn nur ein Typ eines Restriktionsenzyms eingesetzt wird. Bei einem Gen, das vielfach durch ein Restriktionsenzym gespalten wird, werden insgesamt mehr Sequenzen (Reads) erzeugt, als bei einem Gen, das keine spaltbare Sequenz aufweist, wenn beide Gene in gleichem Maße exprimiert werden. Die Häufigkeit der verschiedenen Fingerprints, die einem Gen zugeordnet werden können, werden bei der Quantifizierung bevorzugt berücksichtigt.
Das erfindungsgemäße Verfahren ist bevorzugt weiter dadurch gekennzeichnet, dass vor der Gruppierung der Sequenzen in dem mindestens einen Sequenzbaum eine Vorsortierung durchgeführt wird, wobei Sequenzen mit übereinstimmendem Präfix jeweils genau einer Gruppe zugeordnet und die Sequenzen jeder dieser Gruppen in einen dem jeweiligen Präfix zugeordneten Sequenzbaum angeordnet werden. Bevorzugt ist das eine Präfix aus der Gruppe der Nukleotidfolgen ACA, ACC, ACG, ACT, ACGGG und ACT₁₃ ausgewählt, wenn Rsal als einziges Restriktonsenzym eingesetzt wird. In bevorzugter Ausgestaltung werden die nach Vorsortierung anhand der Präfixe getrennt erstellten Sequenzbäume quasi-parallel erfindungsgemäß ausgewertet, das heißt erstellt und/oder umstrukturiert.
Selbstverständlich ist eine Vielzahl weiterer Ausführungsformen und insbesondere Kombinationen der hier beschriebenen Teilverfahren vorstellbar. Insbesondere kann die Reihenfolge einzelner Schritte und Schleifendurchläufe geändert werden, und die einzelnen Teilverfahren können in anderer Weise kombiniert werden.
Die durch die erfindungsgemäße Sequenzstrukturierung erhaltenen Daten können vorteilhafterweise zu einem charakteristischen sogenannten „digitalen Profil” der Genexpression zusammengefasst werden. Bei der Hochparallelsequenzierung zeigt die Anzahl der Reads eines Gens den jeweiligen Expressionslevel an. Das digitale Profil stellt sich bevorzugt als Häufigkeitsverteilung dar, wobei jeweils bevorzugt normiert, die Größe der Cluster (Anzahl der Einzelreads im Cluster) gegen die Anzahl der gefundenen Cluster aufgetragen wird.
Die Erfindung sieht zur Erstellung des digitalen Profils bevorzugt zusätzlich weitere Schritte vor: Berechnen der relativen Häufigkeit der den Clustern zugeordneten Sequenzen; Normierung der Expressionsdaten; Erstellen eines „Expressionsprofils” für die gefundenen exprimierten Gene; und Ausgabe der Expressionsprofile in einer Datei oder einer Datenbank zur statischen Auswertung und/oder graphischen Darstellung.
Die bevorzugt zusätzlich gefundenen Konsensussequenzen der einzelnen Cluster stehen für weitere Analysen, zum Beispiel für das Mapping gegen Genomdatenbanken, zur Funktionsaufklärung etc., zur Verfügung. Die gewonnenen Sequenzdaten nach erfindungsgemäßer Analyse erlauben sowohl die Genidentifizierung durch Datenbankabfrage als auch die Genidentifizierung durch Genom Analyse. Die Zuordnung der Konsensussequenzen oder weiterer Sequenzdaten aus der erfindungsgemäßen Sequenzstrukturierung erfolgt bevorzugt durch an sich bekannte Sequenzvergleichsalgorithmen. Damit stellt die Erfindung ein universelles Verfahren zur Analyse der aus der Hochparallelsequenzierung gewonnenen Sequenzdaten bereit.
Bevorzugt erfolgt die Sequenzierung über Hochparallelsequenzierer vom Typ GS FLX^TM (Firma Roche Diagnostics/Firma 454) in an sich bekannter Weise. Dieser kann bis zu 400.000 DNA-Einzelmoleküle gleichzeitig analysieren. Die dabei sequenzierten Genbereiche (Reads) weisen dabei jeweils eine Länge von einigen hundert Basen auf. Ein alternativer Ansatz zur Hochparallelsequenzierung ist ein Hochparallelsequenzierer vom Typ Genome Analyzer^TM (Firma Illumina) in an sich bekannter Weise. Dieser ist in der Lage, innerhalb eines Experiments bis zu 40 Millionen Einzelmoleküle zu analysieren. Die gewonnenen Reads besitzen in diesem Fall jeweils eine Länge von etwa 40 Basen.
Von besonderer Bedeutung ist die Realisierung des erfindungsgemäßen Verfahrens in Form eines Computerprogramms, das zur Ausführung des erfindungsgemäßen Verfahrens programmiert ist. In diesem Fall wird also die Erfindung durch das Computerprogramm realisiert, so dass dieses Computerprogramm in gleicher Weise die Erfindung darstellt wie das Verfahren, zu dessen Ausführung das Computerprogramm programmiert ist. Das Computerprogramm ist vorzugsweise auf einem Speichermedium, ein Daten- oder Programmspeichermedium, abgespeichert. Als Speichermedium kann insbesondere ein optisches, elektronisches oder magnetisches Speichermedium zur Anwendung kommen. Gegenstand der Erfindung ist demgemäß auch ein Computerprogramm zur erfindungsgemäßen Analyse von Nukleotidsequenzen. Gegenstand der Erfindung ist auch ein Speichermedium, worauf das Computerprogramm zur Analyse von Nukleotidsequenzen abgespeichert ist.
Das erfindungsgemäße Verfahren kann extrem schnell ausgeführt werden, da die benötigte Rechenzeit eine lineare Korrelation zur Ausgangsdatenmenge aufweist. Damit wird das Verfahren auch außerhalb von Großrechner-Systemen auch zur Anwendung an Einzelplatzrechnern und/oder auf On-Board-Systemen innerhalb der Sequenzierapparate möglich.
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die anhand der Zeichnungen erläutert werden.
Es zeigen:
1: Ablaufdiagramm eines Verfahrens zur Gruppierung von Nukleotidsequenzen in einem Sequenzbaum gemäß einem Ausführungsbeispiel;
2: Ablaufdiagramm eines Verfahrens zur Vorsortierung von Nukleotidsequenzen gemäß einem Ausführungsbeispiel;
3 bis 6: Ablaufdiagramme zu einzelnen Aspekten einer Umgruppierung von Nukleotidsequenzen gemäß mehreren Ausführungsbeispielen;
7 und 7a: Ablaufdiagramm von Verfahren zur Restrukturierung eines Sequenzbaums gemäß mehreren Ausführungsbeispielen.
8: Sequenzdatenbäume, die nach der Vorgruppierung anhand der Präfixe erstellt werden können.
9: Änderungen in den absoluten Häufigkeiten der einzelnen Reads und der Clustergruppen infolge der erfindungsgemäßen Sequenzstrukturierung (Candida albicans Kultur bei 30°C inkubiert, Sequenziersystem: Genome Analyser^TM der Fa. Illumina).
10: log₂-Ratio Berechnung aus dem Vergleich von C. albicans (30°C) mit C. albicans (37°C).
11: digitales Profil der Genexpression.
In 1 ist ein Ablaufdiagramm dargestellt, das eine mögliche Ausführungsform eines Teilverfahrens des erfindungsgemäßen Verfahrens zum Gruppieren von Nukleotidsequenzen in einem Sequenzbaum zeigt. Das in 1 gezeigte Verfahren zeigt den sukzessiven Aufbau des Sequenzbaums während der Zuordnung der Sequenzen zu dem Sequenzbaum bzw. während des Gruppierens der Sequenzen zu Clustern. Zu Beginn des Verfahrens umfasst der Sequenzbaum lediglich einen als Wurzel bezeichneten Knoten.
In einem Schritt 100 werden zunächst mehrere Variablen initialisiert. Diese Variablen umfassen beispielsweise eine Laufvariable i sowie eine Variable K_aktuell, die stets auf einen aktuell betrachteten Knoten des Sequenzbaums zeigt. Die Laufvariablen j wird beispielsweise mit dem Wert 0 initialisiert und die Variable K_aktuell zeigt zu Beginn des Verfahrens auf die Wurzel des Sequenzbaums.
Die Laufvariable i ist in der in 1 dargestellten Ausführungsform den Sequenzen zugeordnet; eine ebenfalls in diesem Ausführungsbeispiel verwendete Laufvariable j ist den Nukleotiden in der jeweiligen Sequenz zugeordnet.
In einem Schritt 101 wird zunächst eine erste Sequenz ausgewählt. In einem Schritt 102 wird nun ein erster Pfad in dem Sequenzbaum angelegt. Hierbei wird für jedes Nukleotid in der betrachteten ersten Sequenz S1 ein entsprechender Knoten erzeugt, wobei die Reihenfolge der Nukleotide in der Sequenz der Reihenfolge der Knoten in dem Sequenzbaum entspricht. In diesem ersten Pfad hat jeder Knoten genau einen sogenannten Kindknoten. Es treten also noch keine Verzweigungen auf.
In einem Schritt 103 wird die Sequenz S1 dem in dem Schritt 102 erzeugten Pfad zugeordnet. Dies kann durch geeignete Einträge in den vorgesehenen Datenstrukturen erfolgen. Beispielsweise könnte vorgesehen sein, dass jedem Knoten in dem Sequenzbaum eine Liste zugeordnet ist, die die Sequenzen bezeichnet, deren zugehöriger Pfad an dem entsprechenden Knoten beginnt und/oder endet. Ebenso könnte vorgesehen sein, dass in einer Datenstruktur, in der die Sequenzen abgelegt sind, für jede Sequenz eine Referenz auf den Startknoten und den Endknoten des zugehörigen Pfades abgelegt wird.
In einem Schritt 104 wird geprüft, ob weitere Sequenzen vorhanden sind, die bei dem Aufbau des Sequenzbaums noch nicht berücksichtigt worden sind, bzw. die noch nicht mittels des Sequenzbaums einem Cluster zugeordnet sind. Ist dies der Fall, so wird in einem Schritt 105 eine weitere Sequenz ausgewählt und die Laufvariable i wird um den Wert 1 erhöht. Ferner wird die dem aktuell betrachteten Nukleotid innerhalb der Sequenz zugeordnete Laufvariable j mit dem Wert 0 initialisiert. In einem Schritt 106 wird die Laufvariable j um den Wert 1 erhöht und zeigt im vorliegend beschriebenen Ablauf des Verfahrens damit zunächst auf das erste Nukleotid in der aktuell betrachteten Sequenz Si. In einem Schritt 107 wird zunächst geprüft, ob die aktuell betrachtete Sequenz Si ein Nukleotid Nj aufweist. Diese Abfrage wird stets dann verneint, wenn das Ende der Sequenz Si erreicht ist und die Sequenz Si folglich keine weiteren Nukleotide umfasst. In diesem Fall wird zu dem Schritt 103 zurückverzweigt. Umfasst die Sequenz Si jedoch ein weiteres noch nicht betrachtetes Nukleotid Nj, so wird in einem Schritt 108 geprüft, ob der aktuell betrachtete Knoten K_aktuell bereits einen Kindknoten hat, der dem Nukleotid Nj entspricht. Ein Kindknoten eines Knotens bezeichnet all die Knoten, die unmittelbar mit dem Knoten verbunden sind und näher in Richtung des Endknotens angeordnet sind als der Knoten selbst. Wird ein dem aktuellen Nukleotid entsprechender Kindknoten gefunden, so wird dieser Kindknoten als aktueller Knoten betrachtet. Hierzu ist beispielsweise die Variable K_aktuell als Zeigerstruktur ausgebildet, die nun auf den in dem Schritt 108 aufgefundenen Kindknoten zeigt. Dies ist symbolisch in Schritt 109 dargestellt. Nach dem Schritt 109 wird das Verfahren in dem Schritt 106 fortgesetzt.
Es werden also alle in der aktuell betrachteten Sequenz Si vorhandenen Nukleotide der Reihenfolge nach betrachtet und es wird geprüft, ob ein diesem Nukleotid entsprechender Knoten in dem Sequenzbaum bereits vorhanden ist, ob also ein der Nukleotidabfolge entsprechender Pfad in dem Sequenzbaum bereits vorhanden ist. Ist ein solcher Pfad bereits vorhanden, so werden die Schritte 106 bis 109 so lange durchlaufen, bis in dem Schritt 107 festgestellt wird, dass kein weiterer Nukleotid in der Sequenz vorhanden ist. Es wird dann in dem Schritt 103 die Sequenz diesem Pfad zugeordnet. Sind ein und demselben Pfad mehrere Sequenzen zugeordnet, so bilden diese Sequenzen eine Gruppierung, die als Cluster bezeichnet wird.
Ist die aktuell betrachtete Sequenz Si, das heißt die durch die Sequenz realisierte Nukleotidabfolge, noch nicht als Pfad in dem Sequenzbaum vorhanden, so wird dies in dem Schritt 108 beispielsweise dadurch erkannt, dass der aktuelle Knoten in dem Sequenzbaum, der dem bisher letzten Knoten des übereinstimmenden Pfades des Sequenzbaums mit der aktuell betrachteten Sequenz entspricht, keinen Kindknoten hat, der dem dort aktuell betrachteten Nukleotid entspricht. Tritt dieser Fall auf, so wird in einem Schritt 110 unterhalb des aktuell betrachteten Knotens des Sequenzbaums K_aktuell ein neuer Teilpfad angefügt, dessen Knoten und jeweilige Kindknoten der restlichen Nukleotidabfolge der betrachteten Sequenz entsprechen.
Die Sequenz wird dann dem neu erzeugten Pfad in dem Schritt 103 zugeordnet.
Der erfindungsgemäße Verfahrensabschnitt zur Gruppierung der Sequenzen und Erzeugung des Sequenzbaums endet in dem Schritt 111, falls alle Sequenzen gruppiert bzw. für den Aufbau des Sequenzbaums berücksichtigt worden sind. Der Sequenzbaum beinhaltet folglich alle Nukleotidabfolgen, die der Genexpressionsanalyse zugrunde gelegt bzw. für die Erzeugung eines Genexpressionsprofils berücksichtigt werden sollen.
Der erfindungsgemäß erzeugte Sequenzbaum umfasst für alle zu berücksichtigenden Sequenzen genau einen Pfad. Identischen Sequenzen ist derselbe Pfad zugeordnet. Identische Sequenzen von derselben Länge innerhalb eines Pfades bilden jeweils ein Cluster. Dadurch, dass identische Sequenzen demselben Pfad zugeordnet sind, wird eine erste Datenreduktion erreicht. Daneben werden Sequenzen, die in einem oder mehreren Nukleotiden ab dem Beginn der Sequenz übereinstimmen, denselben Teilpfaden zugeordnet. Daraus resultiert eine weitere Datenreduktion. Der so gebildete Sequenzbaum stellt folglich die für die Herstellung eines Genexpressionsprofils notwendigen Informationen zur Verfügung und ermöglicht gleichzeitig einen schnellen und systematisierten Zugriff auf die relevanten Informationen im Sequenzdatenpool.
Eine bevorzugte Ausführungsform eines Verfahrens zur Durchführung der Vorsortierung ist in 2 gezeigt. Das Verfahren beginnt in einem Schritt 200, in welchem eine Initialisierung stattfindet. Beispielsweise umfasst die Initialisierung die manuelle oder automatische Vorgabe der Präfixe, nach denen eine Vorsortierung der Sequenzen erfolgen soll. Die Vorsortierung prüft für jede der vorliegenden Sequenzen deren Präfix und ordnet die Sequenz anhand deren Präfix dem jeweils zu erzeugenden Baum zu. Hierzu wird zunächst in einem Schritt 201 geprüft, ob bereits alle Sequenzen vorsortiert sind. Ist dies nicht der Fall, so wird in einem Schritt 202 eine noch nicht vorsortierte Sequenz ausgewählt und deren Präfix analysiert. In einem Schritt 203 wird geprüft, ob für diesen Präfix bereits ein Sequenzbaum initialisiert bzw. angelegt worden ist. Ist dies der Fall, so wird in einem Schritt 205 die Sequenz dem bereits existierenden Baum beispielsweise mittels des in 1 gezeigten Verfahrens zugeordnet und das Verfahren wird in dem Schritt 201 fortgesetzt.
Wird in dem Schritt 203 jedoch festgestellt, dass noch kein Sequenzbaum für die aktuell betrachtete Sequenz existiert, so wird ein entsprechender Sequenzbaum erzeugt bzw. initialisiert und die Sequenz wird dann diesem Sequenzbaum zugeordnet. Wenn alle Sequenzen vorsortiert sind, endet das Verfahren in dem Schritt 206.
Bei der Vorsortierung ist bevorzugt vorgesehen, die Sequenzen zunächst in Abhängigkeit von dem jeweiligen Präfix in eine Präfixabhängige Gruppe einzuordnen. Es könnte dann für vorzugsweise jede dieser Gruppen oder alternativ bevorzugt für eine oder mehrere bestimmte Gruppen ein Sequenzbaum, beispielsweise mittels des in 1 dargestellten Verfahrens, erzeugt werden (8). Vorzugsweise werden jedoch in den Schritten 204 und 205 die Sequenzbäume sukzessive erstellt. Dies bedeutet, dass für jedes mögliche Präfix das in 1 dargestellte Verfahren zur Erzeugung des Sequenzbaums quasi-parallel durchgeführt wird, so dass mehrere Instanzen dieses Verfahrens quasi-parallel ablaufen können. Eine solche Vorgehensweise hat den Vorteil, dass die insgesamt vorliegenden Sequenzen des ursprünglichen Sequenzdatenpools nur einmal gelesen werden müssen und für jede gelesene Sequenz direkt nach der Vorsortierung die Zuordnung zu dem entsprechenden Sequenzbaum bzw. der Aufbau des entsprechenden Sequenzbaums erfolgen kann. Dadurch kann eine Beschleunigung des Verfahrensablaufs erreicht werden.
In den 3 bis 6 sind Verfahrensabschnitte einer bevorzugten Ausführungsform des Verfahrens zur Durchführung der Umsortierung anhand schematisierter Ablaufdiagramme dargestellt. Das Verfahren zur Umsortierung eines Sequenzbaums beginnt in 3 in einem Schritt 300, in welchem zunächst eine Initialisierung durchgeführt wird. Die Initialisierung kann von der konkreten Implementierung abhängige Zähl-, Lauf- sowie Schleifenvariablen umfassen, mit deren Hilfe beispielsweise sichergestellt wird, dass alle Cluster eines Sequenzbaums bei der Umstrukturierung berücksichtigt werden. In einem Schritt 301 wird zunächst geprüft, ob bereits alle Sequenzen bzw. Cluster des Sequenzbaums analysiert sind.
Ist dies nicht der Fall, so wird ein erstes Cluster ausgewählt, und in einem Schritt 302 wird geprüft, ob die Anzahl der Sequenzen in dem Cluster unterhalb des vorgebbaren Schwellwerts ist. Wenn dies nicht der Fall ist, wird zu dem Schritt 301 zurückverzweigt und es wird gegebenenfalls das nächste Cluster analysiert. Wird dabei ein sogenanntes kleines Cluster gewählt, das weniger Sequenzen umfasst als mittels der vorgebbaren Mindestanzahl bestimmt ist, so wird in einem Schritt 303 die letzte Verzweigung des Clusters bzw. der in Richtung des Endknotens letzte Verzweigungsknoten des dem Cluster zugeordneten Pfades innerhalb des Sequenzbaums aufgesucht. Dies ist im Zusammenhang mit der Erfindung derjenige Verzweigungsknoten, der dem auch als Blatt bezeichneten Endknoten eines Pfades am nächsten ist. Es wird dann in einem Schritt 304 geprüft, ob in dem Knoten direkt unterhalb der Verzweigung, also dem Kindknoten des Verzweigungsknotens mindestens eine Sequenzabweichung vorliegt. Diese Sequenzabweichung ist in bevorzugter Ausgestaltung dieses Verfahrensschritts ein sogenannter Mismatch. Dies kann bedeuten, dass der diesem Knoten zugeordnete Nukleotid bei dem Sequenziervorgang falsch bestimmt worden ist. Details dieses Verfahrens sind in 4 dargestellt.
In einem weiteren Schritt 305 wird geprüft, ob eine Korrektur der Sequenzabweichung möglich ist, ob also eine Zuordnung der Sequenzen dieses kleinen Clusters zu einem anderen sogenannten großen Cluster, das mindestens die vorbestimmte Mindestanzahl von Sequenzen umfasst, möglich ist. Ist dies der Fall, so wird das kleine Cluster bzw. werden die Sequenzen des kleinen Clusters an einer neuen Position innerhalb des Sequenzbaums gespeichert. Dies bedeutet, dass die Sequenzen des kleinen Clusters mindestens einem anderen großen Cluster und damit mindestens einem und vorzugsweise alle Sequenzen des geprüften kleinen Clusters genau einem großen Cluster oder Pfad neu zugeordnet werden, wodurch eine weitere Datenreduktion, und zwar die Verminderung der Gesamtzahl der Cluster, erreicht wird.
Ist jedoch keine Korrektur möglich, so wird in einem Schritt 306 bevorzugt geprüft, ob durch Einfügen mindestens eines als „Gap” bezeichneten Leerknotens möglicherweise eine Zuordnung der Sequenzen zu einem anderen Cluster erreicht werden kann. Dies kann ein Hinweis auf das Vorliegen eines Sequenzierfehlers sein, aufgrund dessen ein Nukleotid in der Sequenz bzw. den Sequenzen des Clusters fehlt. Eine mögliche Ausführungsform dieses Teilverfahrens ist in 5 dargestellt und ist an entsprechender Stelle weiter unten beschrieben. Die Zahl der bei dieser Sequenzneuordnung in den Schritten 305 und/oder 306 zu berücksichtigenden Anzahl an Sequenzabweichungen wird durch Benutzereingabe vorbestimmt.
In einem Schritt 307 wird bevorzugt geprüft, ob nach Einfügen des Gaps eine Korrektur möglich ist. Ist dies nicht der Fall, so wird in einem Schritt 308 geprüft, ob durch eine sogenannte Rasterverschiebung eine Korrektur bzw. eine Datenreduktion erreichbar ist. Ein diesbezügliches Teilverfahren ist in 6 dargestellt und nachfolgend näher beschrieben.
Wenn eine der vorgenannten Korrekturen möglich ist, so wird die Sequenz bzw. das kleine Cluster an der neu gefundenen Position in dem Sequenzbaum abgelegt bzw. einem anderen Cluster zugeordnet. Wenn bevorzugt alle Sequenzen bzw. Cluster des Sequenzbaums betrachtet sind, endet das Verfahren in einem Schritt 311.
Es kann vorgesehen sein, dass für jedes kleine Cluster oder jede Sequenz eines kleinen Clusters, wofür zunächst keine Korrektur möglich war, die weiteren Verzweigungen ausgehend von der letzten Verzweigung in Richtung des Endknotens (Blattes) der Reihe nach in Richtung der Wurzel ausgewählt werden und geprüft wird, ob sich bei einer der anderen Verzweigungen eine Korrekturmöglichkeit ergibt. Da erfahrungsgemäß in der Hochparallelsequenzierung die Sequenzierfehler mit der Länge der Sequenzen zunehmen, wird bei der Umstrukturierung des Sequenzbaums mit der in Richtung des Blattes letzten Verzweigung begonnen.
Ferner kann vorgesehen sein, dass eine Güte der Umstrukturierung des Baums geprüft wird. Hierzu kann beispielsweise die Anzahl der Cluster vor und nach der Umstrukturierung betrachtet werden. Wenn die hierbei erzielte Datenreduktion unterhalb eines gewünschten Werts liegt, kann vorgesehen sein, die in dem Schritt 302 geprüften vorbestimmte Mindestanzahl hochzusetzen und das Verfahren zur Umstrukturierung des Sequenzbaums erneut durchzuführen. Da durch die Erhöhung der Mindestanzahl weitere „kleine” Cluster bei der Umstrukturierung berücksichtigt werden, kann bei möglicher Umstrukturierung bzw. Zuordnung derartiger kleiner Cluster zu anderen großen Clustern eine weitere Datenreduzierung erreicht werden.
In 4 ist eine bevorzugte Ausführungsform zur Durchführung des Tests auf Vorliegen eines als Mismatch bezeichneten Sequenzierfehlers dargestellt. Das Verfahren beginnt in einem Schritt 401, in dem zunächst geprüft wird, ob alle möglichen Pfade unterhalb der in 3 in dem Schritt 303 gewählten Verzweigung bereits analysiert sind. Ist dies nicht der Fall, so wird in einem Schritt 402 ein erster bzw. ein weiterer Pfad ausgewählt. Hierbei ist unter einem Pfad ab der Verzweigung die Knotenfolge zu verstehen, die von dem ausgewählten Verzweigungsknotens in Richtung des Endknotens verläuft. Selbstverständlich wird der Pfad, der ausschließlich Teil der aktuell umzugruppierenden Sequenz bzw. des aktuell umzugruppierenden Clusters ist, hierbei nicht überprüft.
In einem Schritt 403 wird der erste Knoten nach der Verzweigung, also der Kindknoten des Verzweigungsknotens ausgewählt. In einem Schritt 404 wird geprüft, ob dieser Knoten bereits ein Endknoten ist. Ist dies der Fall, so wird dieser Pfad nicht weiter untersucht und es wird zu dem Schritt 401 zurückverzweigt. Ist der Knoten jedoch kein Endknoten, so wird in einem Schritt 405 der diesem Knoten folgende Knoten ausgewählt. Es wird dann in einem Schritt 406 geprüft, ob der ausgewählte Knoten mit dem entsprechenden, also dem nächsten Knoten in dem Cluster, übereinstimmt. Ist dies der Fall und ist der letzte Knoten in dem Cluster noch nicht erreicht bzw. ist der ausgewählte Knoten in dem Pfad kein Endknoten, so wird zu dem Schritt 405 verzweigt und der nächste Knoten in dem Pfad in Richtung Endknoten ausgewählt.
Die Schritte 405 bis 407 realisieren folglich einen knotenweisen Vergleich der Nukleotide in dem umzugruppierenden kleinen Cluster (bzw. der Knoten des bisher dem Cluster zugeordneten Pfades) sowie der Knoten des möglicherweise alternativen Pfades unterhalb der Verzweigung. Stimmen alle Knoten des zu untersuchenden Clusters (mit Ausnahme des direkten Kindknotens des Verzweigungsknotens) mit einem Alternativpfad überein, so werden die Sequenzen des Clusters dem alternativen Pfad bzw. dem Cluster, das dem alternativen Pfad zugeordnet ist, zugeordnet. Ist eine derartige Umgruppierung möglich, so kann darauf geschlossen werden, dass in dem Kindknoten unterhalb der Verzweigung des umzugruppierenden Clusters ein Sequenzierfehler vorliegt. Selbstverständlich wird hierbei auch der Pfad in dem Sequenzbaum gelöscht, dem das nun umsortierte Cluster zuvor zugeordnet war, falls dieser Pfad keinem weiteren Cluster angehört.
In 5 ist ein bevorzugtes Verfahren dargestellt, vermittelst dessen eine Lücke in einer Sequenzabfolge, das heißt ein oder gegebenenfalls mehrere Nukleotide, die in der Sequenzabfolge im Vergleich zu einer korrekt sequenzierten Sequenz fehlen, korrigierbar ist. Hierzu wird in einem Schritt 501 mindestens ein/bevorzugt genau ein sogenanntes Gap zwischen dem dem Verzweigungsknoten entsprechenden Nukleotid und dem folgenden Nukleotid in der zu analysierenden Sequenz beziehungsweise dem zu analysierenden Cluster eingefügt. Im weiteren Verlauf des Verfahrens werden dann alle alternativen Pfade unterhalb des Verzweigungsknotens darauf hin untersucht, ob diese – mit Ausnahme des direkten Kindknotens unterhalb der Verzweigung – mit den Nukleotiden übereinstimmen. Wird ein solcher Pfad gefunden, so wird diese Sequenz/das Cluster diesem gefundenen Pfad zugeordnet, und der ursprüngliche Pfad wird, soweit diesem kein anderes Cluster zugeordnet ist – aus dem Sequenzbaum entfernt.
In der in 5 gezeigten bevorzugten Ausführungsform wird zur Durchführung des Verfahrens in einem Schritt 502 geprüft, ob bereits alle alternativen Pfade unterhalb des Verzweigungsknotens geprüft worden sind. Ist dies der Fall, so ist keine Korrektur möglich. Ist dies jedoch nicht der Fall, so wird ein erster oder nächster Pfad unterhalb der Verzweigung gewählt. Es wird dann analog zu dem in 4 gezeigten Verfahren geprüft, ob der erste Knoten nach der Verzweigung, also der Kindknoten des Verzweigungsknotens, bereits ein Endknoten ist. Wenn dies nicht der Fall ist, so wird in einem Schritt 506 der nächste Knoten in Richtung des Endknotens gewählt und in einem Schritt 507 wird geprüft, ob der so gewählte Knoten des möglichen Alternativpfades mit dem (bei Berücksichtigung des eingefügten Leerknotens) entsprechenden Knoten beziehungsweise Nukleotid in dem Cluster übereinstimmt. Wenn dies der Fall ist, wird geprüft, ob der letzte Knoten in dem Cluster erreicht ist. Ist dies der Fall, so stimmen also sämtliche Knoten in dem Alternativpfad mit Ausnahme des direkten Kindknotens der Verzweigung mit den entsprechenden Knoten beziehungsweise Nukleotiden des zu betrachtenden Clusters überein. Folglich ist eine Korrektur möglich und es wird, wie in Schritt 310 in 3 gezeigt, das zu analysierende Cluster beziehungsweise die zu analysierende Sequenz an der neuen Position abgespeichert beziehungsweise dem Alternativpfad zugeordnet.
Auch bei der in 5 gezeigten Ausführung ist selbstverständlich eine Vielzahl weiterer Ausgestaltungen möglich. Insbesondere kann vorgesehen sein, den Test auf das Vorhandensein eines Sequenzierfehlers für weitere Verzweigungen innerhalb der zu analysierenden Sequenz beziehungsweise des zu analysierenden Clusters durchzuführen, denn möglicherweise liegt ein Sequenzierfehler an anderer Stelle vor.
Bei der in 6 gezeigten bevorzugten Ausführung wird in einem Schritt 601 zunächst eine sogenannte Konsensussequenz des zu analysierenden Clusters gebildet.
In einem Schritt 602 wird geprüft, ob alle vorgesehenen Startpunkte bereits geprüft sind. Wenn dies nicht der Fall ist, wird in einem Schritt 603 ein nächster Startpunkt gewählt und in einem Schritt 604 wird der Sequenzbaum nach dem Vorliegen eines übereinstimmenden Pfades untersucht. Hierbei wird in Abhängigkeit von dem gewählten Startpunkt entweder bevorzugt eine entsprechend Anzahl von Gaps eingefügt oder es werden bei dem Vergleich der Konsensussequenz mit den möglichen Pfaden in dem Sequenzbaum bevorzugt eine entsprechende Anzahl von Nukleotiden an den ersten Position in der Konsensussequenz quasi abgeschnitten, also bei dem Vergleich nicht berücksichtigt, was einem Verschieben der Konsensussequenz entspricht. Es werden dann analog zum Aufbau des Sequenzbaums bzw. zum in 1 gezeigten Verfahren zur Gruppierung der Sequenzen die Nukleotide der Konsensussequenz mit den entsprechenden Knoten der möglichen Alternativpfade in dem Sequenzbaum überprüft. Wird eine Übereinstimmung gefunden, so wird das gesamte Cluster dem neu gefundenen Pfad beziehungsweise dem dort befindlichen Cluster zugeordnet.
Gemäß einer bevorzugten Ausführung ist bei der Restrukturierung des Sequenzbaums eine Prüfung vorgesehen, ob in einem Pfad Cluster vorhanden sind, die kürzer sind als der Pfad, dem sie zugeordnet sind. Dies bedeutet, dass derartige Cluster keinen Blattknoten des zugeordneten Pfades umfassen. Nachteilig kann dies insbesondere dann sein, wenn der Pfad ein oder mehrere Verzweigungen ausgehend von den Blättern in Richtung Wurzel aufweist, die aufgrund der geringen Länge des Clusters nicht Teil des Clusters sind. In dem bezüglich 3 beschriebenen Verfahren könnte beispielsweise in Schritt 303 vorgesehen sein, stets die letzte Verzweigung des Pfades in Richtung des Blattknotens auszuwählen. In diesem Fall würden diese Sequenzen beziehungsweise Cluster bei der Restrukturierung des Sequenzbaums nicht berücksichtigt werden können. Es ist deshalb bevorzugt vorgesehen, derartige Cluster beziehungsweise Sequenzen, in Richtung des Blattes oder der Blätter zu verschieben, bis ein Blatt oder eine Verzweigung erreicht ist. Das Cluster könnte dann an dieser neuen Position gespeichert werden.
Eine bevorzugte Ausführung eines derartigen Teilverfahrens ist in 7 gezeigt. In einem Schritt 701 wird zunächst geprüft, ob weitere Sequenzen beziehungsweise Cluster zu analysieren bzw. umzugruppieren sind. Ist dies nicht der Fall, so wird eine Sequenz beziehungsweise ein Cluster ausgewählt und in einem Schritt 702 wird geprüft, ob das ausgewählte Cluster kürzer als der diesem Cluster zugeordnete Pfad ist. Wenn dies nicht der Fall ist, wird das nächste Cluster in dem Sequenzbaum überprüft.
Ist dies jedoch der Fall, ist das Cluster also kürzer als der zugeordnete Pfad, so wird in den Schritten 703 und 704 eine Verschiebung des Clusters in Richtung der Endknoten durchgeführt, bis ein Endknoten oder eine Verzweigung erreicht ist. Das zu analysierende Cluster wird dann an der neuen Position abgespeichert beziehungsweise dem Pfad an dieser Position zugeordnet. Wenn alle Sequenzen diesbezüglich analysiert sind, kann das Verfahren beispielsweise mit dem in 3 gezeigten Verfahren fortgesetzt werden.
Alternativ bevorzugt werden die in den 3 und 7 gezeigten Teilverfahren derart kombiniert, sodass lediglich einmal auf eine zu analysierende Sequenz beziehungsweise ein zu analysierendes Cluster zugegriffen werden muss. Eine derartige Kombination ist anhand eines Ausführungsbeispiels in 7a gezeigt. Hierzu können beispielsweise die Schritte 701 bis 705 den Schritt 301 in geeigneter Weise ersetzen, wobei nach dem Schritt 702 für Cluster, die nicht kürzer als der zugrunde liegende Pfad sind, zu dem Schritt 302 verzweigt werden könnte und nach dem Abspeichern an einer neuen Position in dem Schritt 705 könnte ebenfalls der Schritt 302 folgen.
Beispiel: Analyse von aus Candida gewonnenen Sequenzdaten Material und Methoden:
Als Testorganismus werden humanpathogene Hefen gewählt, deren Genom bereits vollständig bekannt ist. Neben Candida albicans wurde der Candida dubliniensis Stamm CBS geprüft. Diese Organismen dienen als Vergleichs- oder Standardorganismen zur Verifikation des erfindungsgemäßen Ansatzes. Um unterschiedliche Expressionsprofile zu erhalten, sollen temperaturinduzierte Gene analysiert werden. Dazu werden die Organismen in an sich bekannter Weise in getrennten Experimentalansätzen bei einer Temperatur von 30°C oder bei einer Temperatur von 37°C kultiviert.
Zur Probenvorbereitung wird die Gesamt-RNA aus den Zellen extrahiert. Dabei werden zwischen 1 μg und 10 pg Gesamt-RNA erhalten; letztere Menge entspricht ungefähr dem RNA-Gehalt einer Einzelzelle. Nach Durchführen einer reversen Transkription der Gesamt-RNA in an sich bekannter Weise wird zur Amplifizierung der gewonnenen cDNA eine „long-distance”-PCR durchgeführt. Zur selektiven Amplifikation nach einer Adapter-Ligation der cDNA werden in einer Supressions-PCR die durch Restriktionsverdau mit Rsa-I erhaltenen 3'-terminalen, internen und 5'-terminalen Fragmente der exprimierten Gene selektiv amplifiziert.
Anschließend werden die erhaltenen doppelsträngigen DNA-Fragmente mit dem Genome Analyzer^TM der Firma Illumina parallel sequenziert und ein Sequenzdatenpool erhalten. In einem alternativen Ansatz werden die erhaltenen doppelsträngigen DNA-Fragmente mit dem GS FLX^TM der Firma Roche Diagnostics/454 parallel sequenziert und ein weiterer Sequenzdatenpool erhalten.
Die Sequenzdaten werden jeweils der erfindungsgemäßen Sequenzdatenstrukturierung durch Sequenzbaumerstellung und anschließend einer erfindungsgemäßen Sequenzbaumumstrukturierung unterzogen. Die Umstrukturierung des Baumes betrifft alle Gruppen mit weniger als 10 Reads. Für die 3'-terminalen, alle internen und 5'-terminalen Fingerprints werden getrennte Sequenzbäume erstellt. Das erfindungsgemäße Verfahren wird auf einem Arbeitsplatzrechner: Fa. DELL, Precision M4400, Intel Duo Processor, 2,53 GHz, 4 GB RAM, durchgeführt.
Die gefundenen Sequenz-Cluster der verschiedenen Experimente werden auf korrespondierende Konsensussequenzen untersucht. Die Berechnung der Korrelationskoeffizienten erfolgt nach Pearson.
Die Korrelationsanalyse ermöglicht eine Aussage darüber, ob zwischen zwei Experimenten eine lineare Beziehung besteht. Um Informationen über die Änderungen der einzelnen korrespondierenden Cluster zu erhalten, wurde eine log₂-Ratio Berechnung der Datenpunkte durchgeführt. Die log₂-Ratio Berechnung zeigt Unterschiede in der Regulation auf, selbst wenn nur wenige Daten verfügbar sind. Regulationsraten werden symmetrisch behandelt. Um regulierte Cluster von wenig veränderten Clustern zu unterscheiden, wurde als Maß ein Faktor von 4 gewählt.
Ergebnisse:
Die Laufzeit des Baumsortierverfahrens ist linear O(n), da jede Sequenz nur einmal betrachtet wird. Das Einsortieren von 5 Millionen Reads und das Auslesen der Cluster benötigt 40 Sekunden auf dem Einlesen und Vorsortierung erfolgen in ca. 20 Sekunden. Die Umstrukturierung des Baumes zur Verringerung der Single Reads und kleinerer Gruppen nimmt ca. 50 Sekunden in Anspruch.
Für die Proben aus der Illumina-Sequenzierung (RNA Ausgangsmenge 1 μg RNA) zeigt 9 repräsentativ die Veränderung der Read-Cluster von Candida albicans (30°C) infolge der Baumumstrukturierung. Die Clusterung von 4,6 Millionen Reads führt zunächst zu 646 Tausend Gruppen, die mehrere Sequenzen (Cluster) oder einzelne Sequenzen (Single Reads) enthalten können. Durch die Umstrukturierung reduziert sich die Zahl auf 378 Tausend Gruppen. Die Anzahl der Single Reads verringert sich von 512 Tausend auf 232 Tausend, während die Anzahl der Cluster von 134 Tausend vergleichsweise gering auf 145 Tausend ansteigt. Von den 145 Tausend Clustern bestehen 58 Tausend aus Zweiergruppen („Read Pairs”).
Ein Vergleich der Daten aus den Sequenzierungen macht deutlich, dass allein durch den isolierten Vorgang der Sequenzbaumumstrukturierung bei der Analyse von Illumina Daten die Anzahl der Sequenzen um den Faktor 9 bis 16 vermindert werden kann. Den größten Anteil der Sequenzen bilden hierbei Single Reads und Read Pairs. Ohne Berücksichtigung der Single Reads und Read Pairs lässt sich die Anzahl der Sequenzen auf 1,3 bis 2,2 Prozent der Ausgangsmenge reduzieren.
Die Datenanalyse aus der GS FLX^TM Sequenzierung (Candida albicans, 30°C, 1 μg RNA) ergab hingegen eine Reduzierung der Sequenzdaten auf 4,4 Prozent ohne Berücksichtigung der Single Reads und Read Pairs.

Tabelle 1 zeigt die Ergebnisse der Korrelationsanalyse korrespondierender Cluster aus den in den verschiedenen Experimentalansätzen gewonnenen Sequenzdaten. Aus Tabelle 1 geht die Anzahl der korrespondierenden Cluster aus den Experimentvergleichen hervor. Die korrespondierenden Cluster zeigen in Bezug auf die Read Anzahl eine hohe bis sehr starke Korrelation. Entsprechend müssen große Unterschiede in der Read-Anzahl korrespondierender Cluster in den vorliegenden Experimenten als signifikant eingestuft werden. Tabelle 1:

Experiment	Korresp. Cluster	Korrel.-koeff.
C. albicans (30°C, 1 μg RNA)/C. albicans (37°C, 1 μg RNA)	27598	0,9
C. albicans (30°C, 100 pg RNA)/C. albi(37°C 100 pg RNA)	18949	0,97
C. albicans (30°C, 1 μg RNA)/C. albicans (30°C 100 pg RNA)	16039	0,74
C. albicans (37°C, 1 μg RNA)/C. albicans (37°C 100 pg RNA)	12655	0,65
CBS (H-Medium, 1 μg RNA)/CBS (Y-Medium, 1 μg RNA)	25296	0,69
CBS (H-Medium, 100 pg RNA)/CBS (Y-Medium, 100 pg RNA)	15606	0,84
CBS (H-Medium, 1 μg RNA)/CBS (H-Medium, 100 pg RNA)	15491	0,87
CBS (Y-Medium, 1 μg RNA)/CBS (Y-Medium, 100 pg RNA)	11921	0,83

Obwohl die korrespondierenden Cluster nur einen kleinen Teil der gesamten Cluster ausmachen, enthalten sie meist den überwiegenden Anteil der Reads. Aus dem Vergleich von C. albicans (37°C, 1 μg RNA) mit C. albicans (37°C, 1 μg RNA) resultieren 27598 korrespondierende Cluster. Diese enthalten 3,26 Millionen Reads (71,68%) des Experiments C. albicans (30°C) und 3,74 Millionen Reads (74,3%) des Experiments C. albicans (37°C).
10 zeigt die Ergebnisse der log₂-Ratio Berechnung aus dem Vergleich von C. albicans (30°C) mit C. albicans (37°C). Von den insgesamt 27,6 Tausend korrespondierenden Clustern unterscheiden sich 22856 nicht oder geringfügig. 1691 korrespondierende Cluster zeigen hingegen eine Erhöhung und 3051 eine Erniedrigung in den Read-Häufigkeiten. 10 zeigt dazu die Häufigkeitsverteilung der signifikanten Cluster für den Experimentvergleich C. albicans (30°C, 1 μg RNA) mit C. albicans (37°C, 1 μg RNA). Neben den korrespondierenden Clustern sind noch die für jedes Experiment spezifischen Cluster interessant, die mit einer hohen Häufigkeit auftreten und nur in einem der Experimente vorkommen. Werden die Cluster ab einer Größe von 10 Reads berücksichtigt, so finden sich in Experiment C. albicans (30°C) 19356 und in Experiment C. albicans (37°C) 12982 dieser Cluster.
Ein digitales Profil der Genexpression ist in 11 dargestellt. 11 zeigt die Verteilung der Cluster nach ihrer Größe. Zugrunde liegen beispielhaft die Daten eines vorstehenden Experimentes mit Candida albicans (30°C, 1 μg RNA).
Zusammenfassung:
Die Ergebnisse machen deutlich, das auch ohne Kenntnis der beteiligten ORF ein Genexpresionsprofil (digitales Profil) generiert werden kann, das Aufschluss über potentiell regulierte Sequenz-Cluster gibt. Das erfindungsgemäße System erlaubt es in wenigen Minuten Millionen von Reads aus verschiedenen Experimenten zu grupperien (clustern) und zu vergleichen. Über das dabei generierte Profil kann die Anzahl der Cluster auf wenige Tausend reduziert werden, die mögliche Kandidaten für regulierte Gene darstellen.

Claims

Verfahren zur Analyse von Nukleotid-Sequenzen, enthaltend die folgenden Schritte: Vorsortieren der Sequenzen anhand von durch Restriktionsenzymverdau bedingten Präfixen, wobei Sequenzen mit übereinstimmendem Präfix jeweils genau einer Gruppe zugeordnet werden und die Sequenzen jeder dieser Gruppen in einen dem jeweiligen Präfix zugeordneten Sequenzbaum angeordnet werden wobei der Sequenzbaum jeweils erstellt wird nach den folgenden Schritten: a) Gruppieren der Sequenzen zu mindestens einem mehrere Pfade mit einer Mehrzahl von Knoten umfassenden Sequenzbaum, wobei Sequenzen mit innerhalb einer sich vom Beginn der Sequenz an erstreckenden Teilsequenz vorgebbarer Länge identischen Nukleotidabfolge demselben Pfad zugeordnet werden und diese Sequenzen innerhalb desselben Pfades jeweils ein Cluster bilden; b) Umordnen der dem Sequenzbaum zugeordneten Sequenzen, wobei zumindest die Sequenzen eines ersten Clusters, das nicht mehr als eine vorgebbare Mindestanzahl von Sequenzen enthält, einem zweiten Cluster zugeordnet werden, falls sich die Sequenzen des ersten Clusters in einer vorgebbaren Anzahl von Nukleotiden von den Sequenzen des zweiten Clusters unterscheiden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für jede in dem Sequenzbaum zu gruppierende Sequenz ein Pfad innerhalb des Sequenzbaums ausgewählt wird, der die größtmögliche Übereinstimmung mit der Sequenz aufweist, wobei eine Übereinstimmung umso größer ist, je mehr aufeinanderfolgende Knoten des Pfades beginnend ab der Wurzel aufeinanderfolgenden Nukleotiden der Sequenz beginnend ab dem Beginn der Sequenz entsprechen; beginnend ab dem Nukleotid, für welches kein übereinstimmender Knoten innerhalb des ausgewählten Pfades vorhanden ist, für jedes Nukleotid, dessen Abstand zum ersten Nukleotid der Sequenz die vorgebbare Länge der Teilsequenz nicht überschreitet, ein dem Nukleotid entsprechender Knoten erzeugt wird; und die erzeugten Knoten in den Sequenzbaum derart eingeordnet werden, dass die Reihenfolge der erzeugten Knoten der Reihenfolge der entsprechenden Nukleotide in der Sequenz entsprechen, wobei der bezüglich dieser Reihenfolge erste erzeugte Knoten an den letzten mit einem Nukleotid in der Sequenz übereinstimmen Knoten des ausgewählten Pfades angehängt wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Umordnen der dem Sequenzbaum zugeordneten Sequenzen umfasst: Auswählen eines Verzweigungsknotens aus dem dem ersten Cluster zugeordneten ersten Pfad innerhalb des Sequenzbaums; Prüfen, ob die Knoten des ersten Pfades beginnend mit dem zweiten Knoten nach der Verzweigung mit den jeweiligen Knoten eines zweiten Pfades übereinstimmen, wobei der zweite Pfad ebenfalls den Verzweigungsknoten umfasst, und falls dies der Fall ist, Zuordnen der Sequenzen des ersten Clusters zu dem dem zweiten Pfad zugeordneten Cluster und Löschen des ersten Pfades.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Umordnen der dem Sequenzbaum zugeordneten Sequenzen umfasst: Auswählen eines Verzweigungsknotens auf dem dem ersten Cluster zugeordneten ersten Pfad innerhalb des Sequenzbaums; Verschieben der dem Verzweigungsknoten folgenden Knoten des ersten Pfades um jeweils eine Position in Richtung Endknoten; Prüfen, ob die Knoten des nun verschobenen ersten Pfades beginnend mit dem zweiten Knoten nach der Verzweigung mit den jeweiligen Knoten eines zweiten Pfades übereinstimmen, wobei der zweite Pfad ebenfalls den Verzweigungsknoten umfasst, und falls dies der Fall ist, Zuordnen der Sequenzen des ersten Clusters zu dem dem zweiten Pfad zugeordneten Cluster und Löschen des ersten Pfades.
Verfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, dass der letzte Verzweigungsknoten in Richtung des Blattes des der Sequenz zugeordneten Pfades ausgewählt wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Sequenzen eines Clusters, dessen zugeordneter Pfad keinen Endknoten umfasst, in Richtung des/der Endknoten verschoben werden und falls die Nukleotide der Sequenzen des Clusters mit den jeweils entsprechenden Knoten des Pfades übereinstimmen, die Sequenzen des Clusters in dasjenige Cluster eingeordnet werden, welches dem nun von der Sequenz oder dem Cluster überdeckten Pfad zugeordnet ist.
Verfahren nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass eine Konsensussequenz des Clusters gebildet wird und für die Überprüfung der Übereinstimmung der Nukleotide des Clusters und/oder der Sequenzen des Clusters mit den Knoten eines Pfades die Konsensussequenz herangezogen wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mindestens ein Präfix mindestens einer der Nukleotidfolgen ACA, ACC, ACG, ACT, ACGGG oder ACT₁₃ entspricht.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein Expressionsprofil bestimmt wird, wobei das Expressionsprofil für zumindest eine Mehrzahl der Cluster die Anzahl der dem jeweiligen Cluster zugeordneten Sequenzen umfasst.
Computerprogramm zur Analyse von Nukleotid-Sequenzen, dadurch gekennzeichnet, dass das Computerprogramm zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 9 programmiert ist.
Speichermedium dadurch gekennzeichnet, dass auf dem Speichermedium ein Computerprogramm zur Analyse von Nukleotid-Sequenzen abgespeichert ist, wobei das Computerprogramm zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 9 programmiert ist.