DE60126491T2

DE60126491T2 - Verfahren zur sequenzanalyse

Info

Publication number: DE60126491T2
Application number: DE60126491T
Authority: DE
Inventors: Raj Amersham ODEDRA
Original assignee: GE Healthcare UK Ltd
Current assignee: GE Healthcare UK Ltd
Priority date: 2000-07-05
Filing date: 2001-07-02
Publication date: 2007-11-15
Anticipated expiration: 2021-07-03
Also published as: ATE353455T1; EP1297484B1; EP1297484A2; US20030186276A1; CA2412973A1; GB0016472D0; WO2002003305A2; AU2001270760A1; JP2004501669A; US7133782B2; ES2281426T3; DE60126491D1; IL153472A0; WO2002003305A3

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Sequenzierverfahren und auf eine Vorrichtung, die eine Fehlerkorrektur während des Sequenzierens individueller Moleküle ermöglicht.
Hintergrund der Erfindung
Sequenzieren wird routinemäßig ausgeführt durch das Verfahren der Kettentermination und Geltrennung, im wesentlichen wie beschrieben von Sanger, F., S. Nicklen und A. Coulson (Proc. Natl. Acad. Sci. USA, 1977. 74(12); S. 5463–7). Das Verfahren beruht auf der Erzeugung einer gemischten Population von DNA-Fragmenten, die Terminationen an jeder Base in der Sequenz repräsentieren. Die Sequenz wird dann bestimmt durch elektrophoretische Trennung dieser Fragmente.
Kürzliche Anstrengungen, um den Durchsatz des Sequenzierens zu vergrößern, resultierten in der Entwicklung alternativer Verfahren, die den elektrophoretischen Trennschritt eliminieren. Eine Anzahl dieser Verfahren nutzen Basen-Extension (d.h. Basen-Addition) und wurden beschrieben z.B. in WO 93/21340, US 5,302,509 und US 5,547,839 . In diesen Verfahren werden die Templates oder Primer auf einer festen Oberfläche immobilisiert, bevor sie Reagenzien ausgesetzt werden zum Sequenzieren. Die immobilisierten Moleküle werden in der Anwesenheit von Nukleotid-Analoga inkubiert, die eine Modifikation am 3'-Kohlenstoff des Zuckerrests besitzen, der die Hydroxylgruppe an jener Position reversibel blockiert. Der Einbau derartiger modifizierter Nukleotide durch eine Polymerase stellt sicher, dass nur ein Nukleotid während jedem Zyklus der Basenextension hinzugefügt wird. Die hinzugefügte Base wird dann aufgrund eines Markers detektiert, das in die 3'-Blockiergruppe eingebaut worden ist. Nach der Detektion wird die Blockiergruppe entfernt (oder „abgespalten"), typischerweise durch photochemische Mittel, um eine freie Hydroxylgruppe freizulegen, die zur Basen-Addition während des nächsten Zyklus verfügbar ist.
Im allgemeinen beruhen nicht auf Trennung basierende Ansätze auf der Anwesenheit einer großen Anzahl von Template-Molekülen für jede Zielsequenz, um eine Konsensus-Sequenz von einem gegebenen Ziel zu erzeugen. So können z.B. Basen-Extensions-Reaktionen auf mehrfache Templates angewandt werden durch Abfragen diskreter Spots von Nukleinsäure, von denen jeder eine Mehrzahl von Molekülen umfasst, immobilisiert in einem räumlich adressierbaren Array.
Jedoch neigen Reaktionen des/der Terminatoreinbaus/-abspaltung oder der Basen-Exzision zu Fehlern. Zum Beispiel haben, wie oben beschrieben, Basen-Extensions-Strategien im allgemeinen Nukleotid-Analoga genutzt, die die Funktionen eines Reportermoleküls, üblicherweise ein fluoreszierender Stoff, mit jenem eines Terminators kombinieren, der die 3'-Position auf der Zuckereinheit besetzt. Die voluminöse Natur der Gruppe und ihre Position macht diese Verbindung zu hoch-ineffizienten Substraten für Polymerasen. Zusätzlich unterliegt die Abspaltung der Terminatorgruppe, um nachfolgende Additionen zu erlauben, auch Ineffizienzen. Bei Vorhandensein von Tausenden, oder bevorzugt Millionen, von Molekülen für jedes Ziel führen sogar moderate Fehler von weniger als 5% zu einem kumulativen Verlust der Synchronität, zwischen der Vielzahl von Strängen, die jedes Molekül repräsentieren, innerhalb einer kleinen Anzahl von Zyklen. Daher steigt mit jedem Sequenzierzyklus das Untergrundrauschen progressiv mit einer nachfolgenden Verschlechterung des Signals mit jeder Addition. Dies bedeutet, dass die Anzahl von Basen der Sequenzdaten, die erhalten werden können, begrenzt ist, bevor das spezifische Signal ununterscheidbar vom Untergrund wird.
Kürzliche Fortschritte in Verfahren der Detektion von einzelnen Molekülen (beschrieben z.B. in Trabesinger, W. et al., Anal. Chem., 1999. 71(1); S. 279–83 und WO 00/06770) machen es möglich, Sequenzierstrategien auf einzelne Moleküle anzuwenden. Jedoch ist das Sequenzieren, wenn es auf klonale Populationen von Mole külen angewandt wird, ein stochastischer Prozess, der zu einigen Molekülen führt, die Reaktionen unterliegen, während andere unmodifiziert bleiben. Daher sind in herkömmlichen Sequenzierverfahren Fehler, wie Fehleinbauten normalerweise von ernsthafter Signifikanz, da die großen Zahlen vorhandener Moleküle sicherstellen, dass ein Konsenus-Signal erhalten wird. Wenn diese Reaktionen auf einzelne Moleküle angewandt werden, sind die Ausbeuten effektiv quantisiert.
Ein derartiges Sequenzierverfahren für ein einzelnes Molekül basiert auf Basen-Exzision und ist z.B. beschrieben in Hawkins, G. und L. Hoffman, Nature Biotechnology, 1997, Bd. 15; S. 803–804 und US 5,674,743 . Mit dieser Strategie werden einzelne Template-Moleküle derart erzeugt, dass jede Base mit einem geeigneten Reporter markiert ist. Die Template-Moleküle werden mit Exonuklease verdaut und die exzisierten Basen werden überwacht und identifiziert. Da diese Verfahren stark progressive Enzyme, wie Lambda-Exonuklease, nutzen, gibt es das Potenzial zum Analysieren großer Templates mehrerer Kilobasen in der Länge. Jedoch begrenzt das kontinuierliche Überwachen exzisierter Basen von jedem Template-Molekül in Echtzeit die Anzahl von Molekülen, die parallel analysiert werden können. Zusätzlich gibt es Schwierigkeiten beim Erzeugen eines Templates, wenn jede Base mit einem geeigneten Reporter derart markiert ist, dass exzisierte Basen auf der Basis intrinsischer, optischer oder chemischer Eigenschaften detektiert werden können.
Verfahren, die auf Basen-Extension (wie BASS) basieren, wurden auch an einen Einzel-Molekül-Ansatz angepasst.
Jedoch neigen diese Techniken zu Fehlern. Insbesondere kann der Einbau modifizierter Nukleotide fehlschlagen, z.B. als das Ergebnis einer verringerten Effizienz der Polymerase-Wirkung mit modifizierten Nukleotiden. Wo das Reportermolekül ein fluoreszierendes Molekül ist, können Fehler auch auftreten aufgrund eines Versagens der Floureszenz, weil der floureszierende Stoff verloren, beschädigt, gebleicht oder nicht angeregt ist. Auf dem Niveau des einzelnen Moleküls werden Fehler wie diese zu einem Fehler beim Erhalten der angemessenen Sequenz führen.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Sequenzierverfahren bereitzustellen, das ermöglicht, dass Fehler detektiert werden. Es ist eine weitere Aufgabe der vorliegenden Erfindung, eine Analyse und Fehlerprävention oder -korrektur durch Überwachen des Schicksals individueller Moleküle durch Sequenzierreaktionen zu ermöglichen.
Zusammenfassung der Erfindung
Die Erfindung ist in ihren verschiedenen Aspekten in den unabhängigen Ansprüchen unten definiert, auf die nun Bezug genommen werden sollte. Vorteilhafte Merkmale sind in den zugehörigen Ansprüchen dargelegt.
Kurz gefasst wird in einer bevorzugten Ausführungsform der Erfindung, die die Form eines Verfahrens zum Analysieren einer Nukleotidsequenz annimmt, eine Sequenz von Basen aus einem Template erhalten, und eine Base in der Sequenz wird als eine unbekannte Base identifiziert. Ein „unbekannter" Indikator ist in die Sequenz an der Position eingeschlossen, die der unbekannten Base entspricht, und eine Ausgabesequenz wird erzeugt, die den unbekannten Basen-Indikator enthält. In der bevorzugten Ausführungsform wird die Sequenz von Basen aus dem Template durch Bewertung eines Reporters und Zuordnen von Basen in Übereinstimmung damit erhalten. Eine Bestimmung wird in Bezug darauf ausgeführt, ob der Reporter aus einem vorhergehenden Zyklus der Basenbestimmung stammt, und falls der Reporter von einem vorhergehenden Zyklus der Basenbestimmung stammt, wird die Basenzuordnung verworfen.
Die zu analysierende Nukleotidsequenz kann eine RNA- oder DNA-Sequenz sein.
Kurze Beschreibung der Zeichnung
Die Erfindung wird nun detaillierter mittels eines Beispiels mit Bezugnahme auf die beigefügte Zeichnung beschrieben, in der:
1 ein Flussdiagramm ist, das ein Verfahren zum Analysieren von Daten darstellt, die während einer Reaktion zum Bestimmen der Sequenz eines biologischen Moleküls, wie ein Nukleinsäuremolekül, erhalten werden, und eine bevorzugte Ausführungsform der Erfindung darstellt.
Detaillierte Beschreibung der bevorzugten Ausführungsform
1 zeigt ein Flussdiagramm, das ein Verfahren zum Erhalten einer Sequenzinformation aus einem Template veranschaulicht. Das Verfahren berücksichtigt Fehler durch (a) Identifizieren von Basen, die von einem vorhergehenden Zyklus übertragen werden und (b) Detektieren von pausierenden Molekülen, die aus einem Fehler des Markierens oder des Fehleinbaus von Basen auftreten können. Das Datenanalyseverfahren nutzt eine Standard-Sequenzierreaktion, die ausgeführt wird wie folgt. Zuerst wird ein Nukleinsäuremolekül, für das Sequenzdaten erforderlich sind, ein Template, an eine feste Oberfläche, wie einen Objektträger, gebunden. Das Template kann derart markiert werden, dass seine Position bestimmt werden kann, wenn der Träger beispielsweise durch einen Fluoreszenzmikroskopscanner betrachtet wird. Die erste Base oder das erste Nukleotid, d.h. A, C, G oder T in der Sequenz des Templates wird durch eine chemische Reaktion abgefragt, die eine floureszierend markierte Base oder ein Tag hinzufügt, die/das jene Base repräsentiert. Diese kann eine beliebige sein von A, C, G oder T, oder alle vier von diesen, markiert mit vier verschiedenen unterscheidbaren Markern. Die erste Base im Template wird an ihre komplementäre Base in einer gut bekannten Weise binden; das heißt, A bindet an T und C bindet an G und vice versa. Der Baseneinbau kann bewirkt werden durch Strecken des Templates mit einem Polymeraseenzym oder durch Ligieren eines markierten Oligonukleotids mit einer Ligase. Der Einbau der markierten Base wird detektiert und ihre Identität wird bestimmt. Der Marker von jener Base wird dann entfernt. Diese Reihe von Schritten wird dann für die aufeinanderfolgenden Basen im Template wiederholt.
Geeignete Standard-Sequenzierreaktionen, die Basen-Addition/-Einbau beinhalten, umfassen Basen-Extensions-Reaktionen, wie jene beschrieben in WO 93/21340, US 5,302,509 und US 5,547,839 und Techniken, wie jene, die beschrieben sind US 5,763,175 , US 5,599,675 , US 5,856,093 und US 5,715,330 , in denen aufeinanderfolgende Runden des Sequenzierens die Basen-Exzision des Templates vor dem Einbau der nachfolgenden Basen beinhaltet.
Wenn diese Sequenzierreaktion ausgeführt wird, können Fehler auftreten. Zum Beispiel (i) kann eine Base falsch eingebaut werden, d.h. fehleingebaut werden, oder (ii) es kann fehlschlagen, einen Marker von einem Zyklus zu entfernen, bevor der nächste Zyklus ausgeführt wird, oder (iii) der Einbau einer Base in einem beliebigen Zyklus kann fehlschlagen. In der bevorzugten Ausführungsform der zu beschreibenden Erfindung werden die Daten von Sequenzreaktionen auf eine derartige Weise assimiliert, dass die Effekte dieser Fehler reduziert werden können.
Verfahren zur Abscheidung und Fixierung von Molekülen auf festen Phasen sind in der Technik gut bekannt. Verfahren zum Binden von Nukleinsäuren sind z.B. im Überblick zusammengestellt in Schena (Hrsg.), DNA-Microarrays: A Practical Approach, Oxford University Press (1999) ISBN: 0199637768. Typischerweise wird die feste Phase Glas sein, obwohl andere Materialien, wie amorphes oder kristallines Silizium oder Kunststoffe verwendet werden können.
Eine Mehrzahl von Molekülen können an die feste Phase in einem geordneten Array angebracht werden, aber bevorzugter können sie in einer willkürlichen Weise angebracht werden. Eine willkürliche Anbringung von Molekülen kann eine beliebige Anzahl von Molekülen umfassen, bevorzugt verteilt bei einer Dichte, die für die optische Auflösung der Sequenzinformation geeignet ist.
Eine geeignete Reportereinheit kann eine beliebige von verschiedenen bekannten Reporter-Systemen sein. Sie kann ein Radioisotop sein, mittels dem das eingebaute Nukleosid-Analogon leicht detektierbar gemacht wird, z.B. ³²P, ³³P, ³⁵S, eingebaut in eine Phosphat- oder Thiophosphat- oder H-Phosphonat-Gruppe oder alternativ ³H oder ¹ ⁴C oder ein Iod-Isotop. Sie kann ein Isotop sein, das durch Massenspektrometrie oder NMR detektierbar ist. Sie kann eine Signaleinheit sein, z.B. ein Enzym, Hapten, Fluorophor, Chromophor, chemilumineszente Gruppe, Raman-Marker, elektrochemischer Marker oder eine Signalverbindung, die angepasst ist zur Detektion durch Massenspektrometrie.
Jeder Sequenzierschritt wird zum Anbringen von Reportermolekülen an individuellen Templates führen, und die Detektion der eingebauten Reportereinheit wird ermöglichen, die Identität der Base zuzuordnen. Im Falle von fluoreszierenden Reportern werden diese Moleküle dann identifiziert durch z.B. Fluoreszenzmikroskopie (z.B. unter Verwenden eines PMT oder CCD) und die Fluoreszenz-Eigenschaft des Reporters wird die Zuordnung der Identität an die Base erlauben, die in der Sequenzierreaktion eingebaut wurde.
Um Daten von sequentiellen Runden der Sequenzierzyklen zu sammeln, muss das Template lokalisiert sein. Dies kann erreicht werden gleichzeitig mit dem ersten Zyklus des Sequenzierens, bei dem das Reportermolekül in der ersten Base eine Template-Position identifiziert, oder das Template und/oder der Primer kann selbst mit einer Reportereinheit derart markiert sein, dass seine Position auf der festen Phase vor der Sequenz-Zyklisierungs-Reaktion detektiert werden kann. Das Bekanntsein der Position jedes Template-Moleküls macht es möglich, den Zustand jedes Moleküls zu überwachen und alle nachfolgenden Ereignisse während der Zyklen des Sequenzierens zu verfolgen. Ein nachfolgendes Fehlschlagen der Addition manifestiert sich beispielsweise selbst durch einen Mangel an Fluoreszenz an einer Position, für die bekannt ist, dass sie ein Template enthält. Ein Fehler des Reporters aufgrund entweder eines Mangels an Stimulus oder einer chemischen Beschädigung kann auch bestimmt werden, sobald die Position des Templates bestimmt worden ist. Diese fehlgeschlagenen Reaktionen können verfolgt und in der Endsequenz behandelt werden als mögliche Lücken aufgrund des Reporter-Fehlers. Falls diese Moleküle die Teilnahme in nachfolgenden Zyklen wieder aufnehmen, kann dies auch ver folgt werden und eine bedeutungsvolle Sequenz erhalten werden. Individuelle Punkte von einzelnen Basenlücken können identifiziert werden, und, wo mehrfache identische Sequenzen auf der festen Oberfläche in einem Array angeordnet worden sind, kann eine Konsensus-Sequenz aufgebaut werden durch Vergleiche mit Referenz-Strängen, wie Sequenzen anderer Kopien von Templates im Sequenzierarray. Alternativ können einzelne Basenlücken identifiziert werden, durch Vergleichen mit einem Referenzstrang, der die bekannte Sequenz sein kann (z.B. in der Anwendung dieser Technik auf Mutationsdetektion).
So haben wir anerkannt, dass es in diesem System möglich ist, Fehler zu korrigieren, insbesondere Fehler, die mit einer Sequenzierung von einzelnen Molekülen zusammenhängt. Fehler, die korrigiert werden müssen, sind Fehler der Reporterabspaltung und -eliminierung vor dem nächsten Zyklus, Fehler des Einbaus, ein Schaden am Reporter (z.B. ein Schaden am fluoreszierenden Stoff), und der Fehleinbau.
Sobald lokalisiert, werden alle Sequenzierzyklus-Ergebnisse für das lokalisierte Molekül messbar sein. Verwenden zweier Sätze von Nukleotid-Analoga ermöglicht die Identifizierung des Reporters, der von dem vorherigen Zyklus übertragen worden ist. Das Wiederauftreten eines Reporters vom vorherigen Zyklus kann daher identifiziert und überwacht werden.
Das Kennen der Position des Template-Moleküls ermöglicht auch die Identifizierung von Templates, die nicht erstreckt worden zu sein scheinen. Wie oben diskutiert, kann ein Fehlschlag des Beobachtens eine Reportermoleküls auf einem Mangel eines Einbaus beruhen, kann aber auch auf einem Schaden an der Reportereinheit beruhen. Jedoch ist, da das Vorhandensein von beschädigten Molekülen effektiv minimiert werden kann durch einen Reinigungsprozess während der Synthese von modifizierten Nukleotiden, wo Abbauprodukte und Produkte von Nebenreaktionen identifiziert und elminiert werden können, die Abwesenheit von Fluoreszenz deshalb wahrscheinlicher ein Ergebnis eines Fehlschlags, ein modifiziertes Nukleotid einzubauen.
Falls nach einem beliebigen Sequenzierzyklus ein Template-Molekül mit keinerlei Reportern verbunden ist, wird die Sequenz demgemäß an diesem Punkt markiert, um eine „Pause" anzuzeigen. In der nächsten Runde des Sequenzierens kann das Template-Molekül dann mit einem Reporter verbunden werden, d.h. das „pausierende" Molekül nimmt die Extension wieder auf, und ermöglicht, dass Sequenzdaten erhalten werden. Jedoch kann dem Template-Molekül fortdauernd eine Verbindung mit beliebigen Reportern für mehr als einen Zyklus fehlen, und die Sequenz wird markiert werden als eine Pause für jeden jeweiligen Zyklus.
Ein Positionsmarker, der während des Sequenzierens erzeugt wird, wird nützlich sein zum Interpretieren von Lücken in Anordnungen, wenn er mit der Sequenz verglichen wird, die mit Referenzsequenzen erzeugt wird, oder mit anderen Sequenzen, die während der Sequenzierprozedur erzeugt sind unter Verwenden von einem der Anordnungsalgorithmen, die jenen Fachleuten bekannt sind.
Es ist möglich, Positionen des Fehleinbaus vorherzusagen unter Bekanntsein der inhärenten Eigenschaften der entsprechenden verwendeten Polymerasen und Ligasen. Zum Beispiel ist es jenen Praktikern in der Technik bekannt, dass Primersequenzen, die eine nicht übereinstimmende terminale Base enthalten, schlechtere Templates für Polymerasen sind, mit Extensions-Effizienzen von zwischen 10² bis 10⁶-fach geringer als übereinstimmende Sequenzen (siehe Huang, M., N. Anheim und M. Goodman, Nucleic Acid Res. 1992. 20(17): S. 4567–73, Tindall KR, K.T., Biobechmistry, 1988. 27(16); S. 6008–13, Esteban, J., M. Salas und L. Blanco, J. Biol. Chem., 1993. 268(4): S. 2719–26. Moleküle, die mehrere Zyklen oder bis zum Ende des Sequenzierprotokolls pausierend bleiben, besitzen deswegen eine höhere Wahrscheinlichkeit, dass sie eine terminale Fehlübereinstimmung enthalten. Templates, die derartige Pausen durchlaufen, werden deshalb an der letzten Basenabrufposition als potentielle Terminationen aufgrund von Fehlübereinstimmungen mit einer Markierung versehen. Die Identifizierung des sequenzierten Fragments wird dann erreicht durch Anordnung an einer Referenzsequenz oder anderen sequenzierten Templates von derselben Probe. Fehlübereinstimmungen, die an markierten Positio nen auftreten, sind wahrscheinlicher das Ergebnis eines Fehleinbaus, als dass sie die wahre Sequenz repräsentieren, und können deshalb dementsprechend interpretiert werden.
Die Anzahl von Zyklen, für die ein Template-Molekül pausiert, kann gezählt werden durch aufeinanderfolgende Detektion eines Mangels an eingebautem Reporter. Eine Schwelle für die Wahrscheinlichkeit sukzessiver Pausen, die zufällig resultieren, kann gesetzt werden während der Analyse der Sequenzdaten. Die Schwelle, über der sukzessive Pausen klassifiziert werden können als Ergebnis einer Fehlübereinstimmung, wird abhängen von der Effizienz des Markierens entweder durch Polymerase-abhängige Basen-Extension oder durch Sequenz-abhängige Ligation. Zum Beispiel werden, falls die Schwelle für die Wahrscheinlichkeit sukzessiver Pausen, die zufällig resultieren, auf 1 × 10^–6% gesetzt ist, die folgenden Anzahlen von Pausen gezählt werden, was verschiedene Effizienzen des Markierens berücksichtigt, bevor die Pause als eine Fehlübereinstimmung gezählt wird.
Für eine größere Sicherheit kann der Schwellenwert angemessen vergrößert werden. Der Grad der erforderlichen Sicherheit wird abhängen von der Toleranz der Sequenzieranwendung; eine weniger stringente Schwelle kann toleriert werden, falls es das Ziel ist, einfach die Template-Fragmente zu identifizieren, eher als Sequenzdifferenzen präzise zu bestimmen. Der Effekt einer geringeren Effizienz des Markereinbaus kann auch verschoben werden durch den Grad der Sequenzierredundanz. Die Wahrscheinlichkeit eines Fehleinbaus wird in diesem Fall statistisch behandelt.
Eine Bildgebung und Lokalisierung einzelner Moleküle, hauptsächlich durch Fluoreszenz, ist jenen Fachleuten geläufig (s. Trabesinger, W. et al., Anal. Chem., 1999. 71(1): S. 279-83, Harms, G. et al., Biophys. J. 1999. 177: S. 2864–2870, Deschryver, F., Pure & Appl. Chem, 1998. 70: S. 2147–2156, Bartko, A. und R. Dickson, J. Phys. Chem. B, 1999. 103: S. 11237–11241). Datenfiles, die Information enthalten in Hinblick auf die Position und den Typ des Markers, werden deshalb einfach erzeugt. In einer Ausführungsform der Erfindung wird die Analyse von Sequenzdaten am Ende der Sequenzierprozedur ausgeführt und nachdem all die Sequenzierdaten aufgenommen worden sind. Diese Daten können in einem oder mehreren Files analysiert werden, um die Positionen der Templates zu bestimmen und irgendwelche an diesen Positionen angebrachten Reporter zu identifizieren. Derartige Daten werden dann einer zweiten Analyse unterzogen, um Sequzenzen für alle lokalisierten Templates zu bilden.
Bevorzugt werden Zyklen einer Sequenzierreaktion und Datenanalyse gleichzeitig ausgeführt. In diesem Fall werden Daten, die von jedem Zyklus erzeugt werden, analysiert, um Reportermoleküle zu lokalisieren, diese Positionen werden dann mit Positionen der Templates korreliert. Die Sequenzen für jedes lokalisierte Template können dann weitergebildet werden mit jedem sukzessiven Zyklus.
Die bevorzugte Prozedur, die die Erfindung verkörpert, wird nun mit Bezugnahme auf 1 beschrieben.
In dem System, das in 1 dargestellt ist, sind zu sequenzierende Moleküle auf festen Phasen durch Standardprozeduren fixiert worden, wie in der Technik beschrieben (im Überblick in Schena (Hrsg.), DNA Microarrays: A practical approach, Oxford University Press (1999) ISBN 0199637768). Das Template, gebunden an eine feste Oberfläche, wie ein Objektträger, ist markiert, so dass seine Position bestimmt werden kann, wenn der Träger beispielsweise durch einen Fluoreszenzmikroskopscanner betrachtet wird. Beim Schritt 10 wird ein relevantes Template zuerst lokalisiert.
Sequenzierreaktionen, die Basen-Einbau beinhalten, der durch Erstrecken des Templates mit einem Polymerase-Enzym oder durch Ligieren eines markierten Oligonukleotids mit einer Ligase bewirkt werden kann, werden nun ausgeführt (Schritt 12).
Wie oben beschrieben wird der Sequenzierschritt zum Anbringen eines Reportermoleküls an der ersten Base in der Sequenz des Templates führen, und die Detektion der Reportereinheit, die eingebaut ist, erlaubt es, die Identität der Base zuzuordnen, Schritt 14. Der nächste Schritt, Schritt 16, dient zum Korrelieren der Basen- und Template-Positionen; bei diesem ersten Zyklus ist dies ein trivialer Schritt. Eine Bestimmung wird dann ausgeführt, ob das Template-Molekül mit einem Reporter verbunden ist. Das soll heißen, in Schritt 18 wird ein Test ausgeführt, ob das betreffende Template einen Reporter besitzt oder nicht. Falls nach dem Sequenzierbetrieb das Template mit einem Reporter verbunden ist, läuft die Prozedur weiter zu Schritt 20. Hier wird ein Test ausgeführt, um zu bestimmen, ob der Reporter aus einem vorherigen Zyklus kommt. Falls nicht, wird er dann identifiziert und eine neue Base zugeordnet, Schritt 22. So ist die Base korrekt identifiziert worden und alles ist gut.
Die Prozedur läuft dann zu Schritt 24, bei dem ein Test ausgeführt wird, ob es irgendwelche weiteren Templates gibt. Falls ja, wiederholt sich die Prozedur von Schritt 18.
Falls in Schritt 20 bestimmt wird, dass der mit der Base verbundene Reporter aus einem vorherigen Zyklus stammt, wird keine Base zugeordnet, Schritt 26, und die Prozedur geht gleich zu Schritt 24 und zu dem nächsten Template, falls vorhanden.
Falls in Schritt 18 gefunden wird, dass das Template keinen Reporter aufweist, wird in Schritt 50 eine Überprüfung ausgeführt, ob das Nicht-Übereinstimmungs-Flag aktiv ist. Das Nicht-Übereinstimmungs-Flag wird aktiviert, wenn die Anzahl von aufeinanderfolgenden Pausen das vorbestimmte Maximum überschreitet, gemäß eines Tests, der bei Schritt 30 ausgeführt wird. Falls das Nicht-Übereinstimmungs-Flag nicht aktiv ist, läuft die Prozedur zu Schritt 28 und eine Pause P wird in die Sequenz eingefügt. Auch wird ein Pausen-Zähler, der die Anzahl von aufeinanderfolgenden Pausen, die auftreten, überwacht, um eins erhöht. Ein Test wird in Schritt 30 ausgeführt, um zu bestimmen, ob die Anzahl von aufeinanderfolgenden Pausen einen vorbestimmten Schwellenwert oder einen vorbestimmten Maximalwert überschreitet. Falls sie es nicht tut, läuft die Prozedur zu Schritt 24, wobei die Pause in der Sequenz belassen wird. Falls die Anzahl von aufeinanderfolgenden Pausen das vorbestimmte Maximum überschreitet, wird die vorhergehende Base als fehlübereinstimmend eingestuft, und das Nicht-Übereinstimmungs-Flag wird aktiviert, Schritt 32, und die Prozedur läuft dann zu Schritt 24.
Der Pausenindikator liefert die Funktion des Bereitstellens einer Anzeige einer unbekannten Base. Diese kann sich herausstellen als eine beliebige von den Basen A, C, G und T, oder kann sich tatsächlich herausstellen als überhaupt keine Base. Durch Bereitstellen der Möglichkeit einer unbekannten Base wird die Information für jenes Template nicht vollständig verworfen.
Eher wird sie noch verwendet, z.B. mit Bezugnahme auf eine Referenzsequenz, wie in den Beispielen unten beschrieben.
Falls in Schritt 20 bestimmt wird, dass der Reporter von einem vorherigen Zyklus stammt, wird in Schritt 52 eine Überprüfung ausgeführt, ob das Nicht-Übereinstimmungs-Flag aktiv ist. Falls das Nicht-Übereinstimmungs-Flag nicht aktiv ist, läuft die Prozedur zu Schritt 22 und eine Base wird zugeordnet. Die Prozedur läuft dann zu Schritt 24, um zu bestimmen, ob es ein anderes Template zur Verarbeitung gibt.
Falls das Nicht-Übereinstimmungs-Flag aktiv ist, wird bei Schritt 54 die zuvor zugeordnete Base ersetzt mit einem IUB-Code, der alle anderen Basen repräsentiert, mit Ausnahme jener, die nicht in Übereinstimmung gebracht wurde. Dies beruht darauf, dass, falls die vorherige Base „C"-markiert war, aber als fehlübereinstimmend bekannt ist, es klar ist, dass die Base entweder A, G oder T ist.
Wenn es keine weiteren Templates gibt, besitzt der Test bei Schritt 24 das Ergebnis NEIN, und die Prozedur läuft zu Schritt 34, wo eine Bestimmung ausgeführt wird, ob es irgendwelche weiteren zu vervollständigenden Zyklen gibt, d.h. ob es irgendwelche weiteren Base für jenes Molekül gibt. Falls es sie gibt, läuft die Prozedur zu den Daten für den nächsten Zyklus, Schritt 36, nachdem die Verarbeitung wieder von Schritt 16 voranschreitet, mit einer Korrelation der Basen- und Template-Positionen.
Schließlich wird der Test bei Schritt 34 das Ergebnis NEIN besitzen, und das führt zum Ende der Prozedur, Schritt 38.
Es kann eine nachfolgende Verarbeitung geben, die auf die Sequenz angewandt wird, wie sie vom System der 1 erzeugt ist, z.B., um die Sequenz, die durch das Verfahren gefunden wurde, mit einer Referenzsequenz zu vergleichen. Beispiele davon sind unten beschrieben.
Die in 1 gezeigten Schritte, nachfolgend zu den Schritten 10 bis 14, die chemische Reaktionen beinhalten, werden auf einem digitalen Computer, wie einen Personal Computer (PC) implementiert. Zwei Beispiele sind detaillierter mittels eines Pseudocodes im Anhang zu dieser Beschreibung gezeigt. Der erste Pseudocode nimmt an, dass die Nukleotide von einer Mischung aller vier Basen A, C, G und T abgefragt werden, und der zweite Pseudocode ist für eine Verwendung gedacht, wenn die vier Basen getrennt in der Sequenz verwendet werden.
Die vorliegende Erfindung besitzt viele Anwendungen, von denen einige hier angegeben sind.
Zum Beispiel kann die Sequenz von DNA- und RNA-Genomen bestimmt werden unter Verwenden dieses Verfahrens. Ferner können Sequenz-Variationen in Bereichen von oder gesamte Genome, mRNA-Repräsentationen von Bereichen von oder gesamte Genome oder in künstlich erzeugten Repräsentationen eines Genoms (z.B. PCR-Produkte von Bereichen eines Genoms), die von Substitutionen, Deletionen oder Insertionen einer oder mehrerer Basen resultieren, identifiziert werden.
Die vorliegende Erfindung besitzt eine Anwendung im Haplotyping (Bestimmen von Sequenzdifferenzen zwischen Chromosomenpaaren in einem Individuum) und auch in der quantitativen mRNA-Expressionsanalyse, z.B. beim Vergleichen von Niveaus der mRNA-Expression zwischen Proben, die von verschiedenen Zelltypen (Geweben) oder verschieden behandelten Zellen abgeleitet sind. Diese Technik kann auch angewandt werden, um Sequenzen zu identifizieren, die von pathogenen Genomen abgeleitet sind, zur Verwendung in der Pathogen-Detektion und -Identifizierung.
Es werden nun Beispiele der Weise angegeben, auf die spezifische Sequenzen durch das System auf eine derartige Weise gehandhabt werden, damit Fehler in der bestimmten Sequenz verringert werden.
Beispiel 1
Die folgende Sequenz ist erhalten von einer Sequenzierreaktion:
GATCGGCTGACCATGGAC1
wobei 1 anzeigt, dass T eingebaut worden ist (und 2=C, 3=A, 4=G).
Ein Fehler einer weiteren Erstreckung für die Schwellenzahl von Zyklen führt zum Markieren der Sequenz, um anzuzeigen, dass eine Base fehleingebaut worden ist, vor der Schwellenzahl von Pausen. Hier zeigt 1 (eins) an, dass ein T vor einer Anzahl von Pausen über dem vorbestimmten Schwellenniveau eingebaut worden ist, und daher wahrscheinlich fehleingebaut worden ist. Die Sequenz kann deshalb verworfen werden. Es wird auf 1 Bezug genommen; die Prozedur folgt dem Weg 28, 30 für eine vorbestimmte Anzahl von Schritten, bis ein JA bei Schritt 30 ausgegeben wird, und die vorhergehende Base wird als fehlübereinstimmend in Schritt 32 markiert. Statt einer 1 werden für die anderen Basen 2 oder 3 oder 4 verwendet, wobei 2 ein C anzeigt, 3 ein A anzeigt und 4 ein G anzeigt.
Beispiel 2
Die folgenden Sequenzen sind erhalten von einer Sequenzierreaktion. Die erste ist eine neu bestimmte Sequenz und die zweite ist eine Referenzsequenz:
GATCGGCTGACCATGGACC1CTGACAGT
GATCGGCTGACCATGGACCTCTGACAGT
Das Pausieren länger als die Schwellenzahl von Zyklen zeigt eine 1 für T als Fehleinbau. In diesem Fall wurde das Sequenzieren nach der Schwellenzahl von Sequenzen wieder aufgenommen. Wenn die erhaltene Sequenz mit der Referenzsequenz verglichen wird, zeigt eine Sequenzanordnung eine T.1-Anordnung an der Pausenposition. Sie kann deshalb unberücksichtigt gelassen werden als eine tatsächliche Basendifferenz mit der Referenzsequenz. Die Sequenzanordnung repräsentiert eine Stufe zusätzlich zur Verarbeitung, die in 1 dargestellt ist.
Beispiel 3
Wenn eine Pause während des Sequenzierens gezählt wird, wird ihre Position als P markiert. Falls die folgenden neuen und Referenzsequenzen erhalten werden:
GATCGGCTGACCATGGAPCCTCTGACAGT
GATCGGCTGACCATGGACCTCTGACAGT
zeigt eine Sequenzanordnung mit der Referenzsequenz bei Vorhandensein oder Abwesenheit einer Lücke an der Position, die mit einem P markiert ist, dass sie eine Pause war. Die gesamte Sequenz ist daher kontinuierlich und nützlich. Die Sequenzanordnung repräsentiert wieder eine Stufe zusätzlich zu der in 1 dargestellten Verarbeitung.
Beispiel 4
Die folgende Sequenz ist erhalten in einer Sequenzierreaktion:
GATCGGCTGACCATGGPCCTCTGACAGT
GATCGGCTGACCATGGACCTCTGACAGT
Die als P markierte Position ist der Einbau einer Base mit einem fehlerhaften Reporter. Sequenzanordnung mit einer Referenzsequenz bei Vorhandensein oder Abwesenheit einer Lücke an der markierten Position zeigt, dass diese eine Lücke in der Sequenz repräsentiert. Die extrahierte Sequenz bleibt nützlich. In diesem Fall kann das P mit einem „N" substituiert werden, um eine Lücke in der Sequenz zu kennzeichnen. Die Sequenzanordnung repräsentiert wieder eine Stufe zusätzlich zu der in 1 dargestellten Verarbeitung.
Anhang Erster Pseudocode
Beispiel eines Pseudocodes für eine Sequenzgruppe nach Abschluss der Sequenzierreaktionen.
Zweiter Pseudocode Pseudocode für sequentielles Sequenzieren von einzelnen Basen

Claims

Verfahren zum Bestimmen der Sequenz einer Nukleinsäure, bei dem sequentiell Nukleotide an einen Primer oder ein Template hinzugefügt werden, wobei das Template an einen festen Träger gebunden ist, umfassend die Schritte a) Hybridisieren eines Primers an das Template, wobei das Template die Nukleinsäure umfasst, für die die Sequenz erforderlich ist, um einen Template-Primer-Komplex zu bilden, b) Zuordnen von einem oder mehreren markierten Nukleotiden, umfassend eine oder mehrere von A, C, G oder T, und Strecken des Primers durch eine DNA-Polymerase oder eine Ligase durch Versuchen, die einzeln markierten Nukleotide hinzuzufügen, wobei das Markieren durch eine Reportereinheit bereitgestellt wird, c) Bestimmen des Typs oder der Identität des Reporter-markierten Nukleotids, das an den Primer hinzugefügt wurde, um so ein Nukleotid in der Sequenz des Templates zu identifizieren, d) Entfernen oder Neutralisieren der Reportereinheit, e) Wiederholen der Schritte b) bis d) sequentiell in jedem der folgenden Zyklen und Aufnehmen der Ordnung des Einbaus von Reportermarkierten Nukleotiden, f) Bestimmen, ob eine Reportereinheit detektierbar ist in Schritt c) jedes Zyklus, g) falls die Reportereinheit nicht in Schritt c) jedes Zyklus detektierbar ist, Einführen eines Pausenindikators in der Sequenz, um eine Anzeige einer unbekannten Base bereitzustellen, h) falls die Reportereinheit nicht detektierbar ist, Bestimmen, falls die Anzahl von aufeinanderfolgenden Pausenindikatoren eine vorbestimmte Schwelle überschreitet, und, falls es so ist, Zuordnen eines Nicht-Übereinstimmungs-Flags, i) falls die Reportereinheit in Schritt c) detektierbar ist, und nicht in der vorhergehenden Iteration der Schritte b) bis d) identifiziert worden ist, oder falls kein Nicht-Übereinstimmungs-Flag detektiert wird, Zuordnen der entsprechenden Base zur Sequenz j) falls die Reportereinheit in Schritt c) detektierbar ist und in der vorhergehenden Iteration der Schritte b) bis d) identifiziert worden ist und falls das Nicht-Übereinstimmungs-Flag detektiert wird, Ersetzen der zuvor zugeordneten Base mit einem IUB-Code für alle anderen Basen und k) falls die Reportereinheit nicht in Schritt c) detektierbar ist, und falls die Abwesenheit der Reportereinheit für weniger als eine vorbestimmte Schwellenzahl von einer oder mehreren Iterationen der Schritte b) bis d) beobachtet wird, wird das Nukleotid entsprechend dem Reporter in der aktuellen Iteration der Schritte b) bis d) in die Sequenz fortlaufend an die zuvor eingebaute Base eingebaut.
Verfahren nach Anspruch 1, bei dem ein Positionsmarker an die Sequenz zwischen dem Nukleotid, das in der aktuellen Iteration von b) bis d) eingebaut wird, und dem Nukleotid, das diesem vorangeht, annotiert wird, um eine mögliche Lücke in der Sequenz anzuzeigen.
Verfahren nach Anspruch 1 oder 2, umfassend zusätzlich den Schritt des Bestimmens der Position des Templates durch Detektieren des Ortes der Reportereinheit.
Verfahren nach Anspruch 3, bei dem der Ort des Templates bestimmt wird durch Detektieren einer Reportereinheit, die an das Template gebunden ist.
Verfahren nach Anspruch 3, bei dem der Ort des Templates bestimmt wird durch Detektieren einer Reportereinheit, die an den Primer gebunden ist.
Verfahren nach Anspruch 1, bei dem eine beliebige nachfolgende Addition als eine Fortsetzung der Sequenz bestimmt ist.
Verfahren nach Anspruch 6, bei dem ein Positionsmarker an die Sequenz zwischen dem Nukleotid, das in der aktuellen Iteration von b) bis d) eingebaut wird, und dem Nukleotid, dass diesem vorangeht, annotiert wird, um eine mögliche Lücke in der Sequenz anzuzeigen.
Computerprogrammcode-Mittel zum Ausführen all der Schritte nach einem der Ansprüche 1 bis 7, wenn das Programm auf einem Computer ausgeführt wird.