-
Gebiet der
Erfindung
-
Die
vorliegende Erfindung bezieht sich auf ein Sequenzierverfahren und
auf eine Vorrichtung, die eine Fehlerkorrektur während des Sequenzierens individueller
Moleküle
ermöglicht.
-
Hintergrund
der Erfindung
-
Sequenzieren
wird routinemäßig ausgeführt durch
das Verfahren der Kettentermination und Geltrennung, im wesentlichen
wie beschrieben von Sanger, F., S. Nicklen und A. Coulson (Proc.
Natl. Acad. Sci. USA, 1977. 74(12); S. 5463–7). Das Verfahren beruht auf
der Erzeugung einer gemischten Population von DNA-Fragmenten, die
Terminationen an jeder Base in der Sequenz repräsentieren. Die Sequenz wird
dann bestimmt durch elektrophoretische Trennung dieser Fragmente.
-
Kürzliche
Anstrengungen, um den Durchsatz des Sequenzierens zu vergrößern, resultierten
in der Entwicklung alternativer Verfahren, die den elektrophoretischen
Trennschritt eliminieren. Eine Anzahl dieser Verfahren nutzen Basen-Extension
(d.h. Basen-Addition) und wurden beschrieben z.B. in WO 93/21340,
US 5,302,509 und
US 5,547,839 . In diesen
Verfahren werden die Templates oder Primer auf einer festen Oberfläche immobilisiert,
bevor sie Reagenzien ausgesetzt werden zum Sequenzieren. Die immobilisierten
Moleküle werden
in der Anwesenheit von Nukleotid-Analoga
inkubiert, die eine Modifikation am 3'-Kohlenstoff des Zuckerrests besitzen,
der die Hydroxylgruppe an jener Position reversibel blockiert. Der
Einbau derartiger modifizierter Nukleotide durch eine Polymerase
stellt sicher, dass nur ein Nukleotid während jedem Zyklus der Basenextension
hinzugefügt
wird. Die hinzugefügte
Base wird dann aufgrund eines Markers detektiert, das in die 3'-Blockiergruppe eingebaut
worden ist. Nach der Detektion wird die Blockiergruppe entfernt
(oder „abgespalten"), typischerweise
durch photochemische Mittel, um eine freie Hydroxylgruppe freizulegen,
die zur Basen-Addition während
des nächsten
Zyklus verfügbar
ist.
-
Im
allgemeinen beruhen nicht auf Trennung basierende Ansätze auf
der Anwesenheit einer großen Anzahl
von Template-Molekülen
für jede
Zielsequenz, um eine Konsensus-Sequenz von einem gegebenen Ziel
zu erzeugen. So können
z.B. Basen-Extensions-Reaktionen auf mehrfache Templates angewandt
werden durch Abfragen diskreter Spots von Nukleinsäure, von
denen jeder eine Mehrzahl von Molekülen umfasst, immobilisiert
in einem räumlich
adressierbaren Array.
-
Jedoch
neigen Reaktionen des/der Terminatoreinbaus/-abspaltung oder der
Basen-Exzision zu
Fehlern. Zum Beispiel haben, wie oben beschrieben, Basen-Extensions-Strategien im allgemeinen
Nukleotid-Analoga genutzt, die die Funktionen eines Reportermoleküls, üblicherweise
ein fluoreszierender Stoff, mit jenem eines Terminators kombinieren,
der die 3'-Position
auf der Zuckereinheit besetzt. Die voluminöse Natur der Gruppe und ihre
Position macht diese Verbindung zu hoch-ineffizienten Substraten
für Polymerasen.
Zusätzlich
unterliegt die Abspaltung der Terminatorgruppe, um nachfolgende
Additionen zu erlauben, auch Ineffizienzen. Bei Vorhandensein von
Tausenden, oder bevorzugt Millionen, von Molekülen für jedes Ziel führen sogar moderate
Fehler von weniger als 5% zu einem kumulativen Verlust der Synchronität, zwischen
der Vielzahl von Strängen,
die jedes Molekül
repräsentieren,
innerhalb einer kleinen Anzahl von Zyklen. Daher steigt mit jedem
Sequenzierzyklus das Untergrundrauschen progressiv mit einer nachfolgenden
Verschlechterung des Signals mit jeder Addition. Dies bedeutet,
dass die Anzahl von Basen der Sequenzdaten, die erhalten werden können, begrenzt
ist, bevor das spezifische Signal ununterscheidbar vom Untergrund
wird.
-
Kürzliche
Fortschritte in Verfahren der Detektion von einzelnen Molekülen (beschrieben
z.B. in Trabesinger, W. et al., Anal. Chem., 1999. 71(1); S. 279–83 und
WO 00/06770) machen es möglich,
Sequenzierstrategien auf einzelne Moleküle anzuwenden. Jedoch ist das
Sequenzieren, wenn es auf klonale Populationen von Mole külen angewandt
wird, ein stochastischer Prozess, der zu einigen Molekülen führt, die
Reaktionen unterliegen, während
andere unmodifiziert bleiben. Daher sind in herkömmlichen Sequenzierverfahren
Fehler, wie Fehleinbauten normalerweise von ernsthafter Signifikanz,
da die großen
Zahlen vorhandener Moleküle
sicherstellen, dass ein Konsenus-Signal erhalten wird. Wenn diese
Reaktionen auf einzelne Moleküle
angewandt werden, sind die Ausbeuten effektiv quantisiert.
-
Ein
derartiges Sequenzierverfahren für
ein einzelnes Molekül
basiert auf Basen-Exzision
und ist z.B. beschrieben in Hawkins, G. und L. Hoffman, Nature Biotechnology,
1997, Bd. 15; S. 803–804
und
US 5,674,743 . Mit
dieser Strategie werden einzelne Template-Moleküle derart erzeugt, dass jede
Base mit einem geeigneten Reporter markiert ist. Die Template-Moleküle werden
mit Exonuklease verdaut und die exzisierten Basen werden überwacht
und identifiziert. Da diese Verfahren stark progressive Enzyme,
wie Lambda-Exonuklease, nutzen, gibt es das Potenzial zum Analysieren
großer
Templates mehrerer Kilobasen in der Länge. Jedoch begrenzt das kontinuierliche Überwachen
exzisierter Basen von jedem Template-Molekül in Echtzeit die Anzahl von
Molekülen,
die parallel analysiert werden können.
Zusätzlich
gibt es Schwierigkeiten beim Erzeugen eines Templates, wenn jede
Base mit einem geeigneten Reporter derart markiert ist, dass exzisierte
Basen auf der Basis intrinsischer, optischer oder chemischer Eigenschaften
detektiert werden können.
-
Verfahren,
die auf Basen-Extension (wie BASS) basieren, wurden auch an einen
Einzel-Molekül-Ansatz
angepasst.
-
Jedoch
neigen diese Techniken zu Fehlern. Insbesondere kann der Einbau
modifizierter Nukleotide fehlschlagen, z.B. als das Ergebnis einer
verringerten Effizienz der Polymerase-Wirkung mit modifizierten
Nukleotiden. Wo das Reportermolekül ein fluoreszierendes Molekül ist, können Fehler
auch auftreten aufgrund eines Versagens der Floureszenz, weil der
floureszierende Stoff verloren, beschädigt, gebleicht oder nicht
angeregt ist. Auf dem Niveau des einzelnen Moleküls werden Fehler wie diese
zu einem Fehler beim Erhalten der angemessenen Sequenz führen.
-
Es
ist eine Aufgabe der vorliegenden Erfindung, ein Sequenzierverfahren
bereitzustellen, das ermöglicht,
dass Fehler detektiert werden. Es ist eine weitere Aufgabe der vorliegenden
Erfindung, eine Analyse und Fehlerprävention oder -korrektur durch Überwachen
des Schicksals individueller Moleküle durch Sequenzierreaktionen
zu ermöglichen.
-
Zusammenfassung
der Erfindung
-
Die
Erfindung ist in ihren verschiedenen Aspekten in den unabhängigen Ansprüchen unten
definiert, auf die nun Bezug genommen werden sollte. Vorteilhafte
Merkmale sind in den zugehörigen
Ansprüchen
dargelegt.
-
Kurz
gefasst wird in einer bevorzugten Ausführungsform der Erfindung, die
die Form eines Verfahrens zum Analysieren einer Nukleotidsequenz
annimmt, eine Sequenz von Basen aus einem Template erhalten, und
eine Base in der Sequenz wird als eine unbekannte Base identifiziert.
Ein „unbekannter" Indikator ist in
die Sequenz an der Position eingeschlossen, die der unbekannten
Base entspricht, und eine Ausgabesequenz wird erzeugt, die den unbekannten
Basen-Indikator enthält.
In der bevorzugten Ausführungsform
wird die Sequenz von Basen aus dem Template durch Bewertung eines
Reporters und Zuordnen von Basen in Übereinstimmung damit erhalten.
Eine Bestimmung wird in Bezug darauf ausgeführt, ob der Reporter aus einem
vorhergehenden Zyklus der Basenbestimmung stammt, und falls der
Reporter von einem vorhergehenden Zyklus der Basenbestimmung stammt,
wird die Basenzuordnung verworfen.
-
Die
zu analysierende Nukleotidsequenz kann eine RNA- oder DNA-Sequenz
sein.
-
Kurze Beschreibung
der Zeichnung
-
Die
Erfindung wird nun detaillierter mittels eines Beispiels mit Bezugnahme
auf die beigefügte
Zeichnung beschrieben, in der:
-
1 ein
Flussdiagramm ist, das ein Verfahren zum Analysieren von Daten darstellt,
die während
einer Reaktion zum Bestimmen der Sequenz eines biologischen Moleküls, wie
ein Nukleinsäuremolekül, erhalten
werden, und eine bevorzugte Ausführungsform
der Erfindung darstellt.
-
Detaillierte
Beschreibung der bevorzugten Ausführungsform
-
1 zeigt
ein Flussdiagramm, das ein Verfahren zum Erhalten einer Sequenzinformation
aus einem Template veranschaulicht. Das Verfahren berücksichtigt
Fehler durch (a) Identifizieren von Basen, die von einem vorhergehenden
Zyklus übertragen
werden und (b) Detektieren von pausierenden Molekülen, die
aus einem Fehler des Markierens oder des Fehleinbaus von Basen auftreten
können.
Das Datenanalyseverfahren nutzt eine Standard-Sequenzierreaktion,
die ausgeführt
wird wie folgt. Zuerst wird ein Nukleinsäuremolekül, für das Sequenzdaten erforderlich
sind, ein Template, an eine feste Oberfläche, wie einen Objektträger, gebunden.
Das Template kann derart markiert werden, dass seine Position bestimmt
werden kann, wenn der Träger beispielsweise
durch einen Fluoreszenzmikroskopscanner betrachtet wird. Die erste
Base oder das erste Nukleotid, d.h. A, C, G oder T in der Sequenz
des Templates wird durch eine chemische Reaktion abgefragt, die eine
floureszierend markierte Base oder ein Tag hinzufügt, die/das
jene Base repräsentiert.
Diese kann eine beliebige sein von A, C, G oder T, oder alle vier
von diesen, markiert mit vier verschiedenen unterscheidbaren Markern.
Die erste Base im Template wird an ihre komplementäre Base
in einer gut bekannten Weise binden; das heißt, A bindet an T und C bindet
an G und vice versa. Der Baseneinbau kann bewirkt werden durch Strecken
des Templates mit einem Polymeraseenzym oder durch Ligieren eines
markierten Oligonukleotids mit einer Ligase. Der Einbau der markierten
Base wird detektiert und ihre Identität wird bestimmt. Der Marker
von jener Base wird dann entfernt. Diese Reihe von Schritten wird
dann für
die aufeinanderfolgenden Basen im Template wiederholt.
-
Geeignete
Standard-Sequenzierreaktionen, die Basen-Addition/-Einbau beinhalten,
umfassen Basen-Extensions-Reaktionen, wie jene beschrieben in WO
93/21340,
US 5,302,509 und
US 5,547,839 und Techniken,
wie jene, die beschrieben sind
US
5,763,175 ,
US 5,599,675 ,
US 5,856,093 und
US 5,715,330 , in denen aufeinanderfolgende
Runden des Sequenzierens die Basen-Exzision des Templates vor dem
Einbau der nachfolgenden Basen beinhaltet.
-
Wenn
diese Sequenzierreaktion ausgeführt
wird, können
Fehler auftreten. Zum Beispiel (i) kann eine Base falsch eingebaut
werden, d.h. fehleingebaut werden, oder (ii) es kann fehlschlagen,
einen Marker von einem Zyklus zu entfernen, bevor der nächste Zyklus
ausgeführt
wird, oder (iii) der Einbau einer Base in einem beliebigen Zyklus
kann fehlschlagen. In der bevorzugten Ausführungsform der zu beschreibenden
Erfindung werden die Daten von Sequenzreaktionen auf eine derartige
Weise assimiliert, dass die Effekte dieser Fehler reduziert werden
können.
-
Verfahren
zur Abscheidung und Fixierung von Molekülen auf festen Phasen sind
in der Technik gut bekannt. Verfahren zum Binden von Nukleinsäuren sind
z.B. im Überblick
zusammengestellt in Schena (Hrsg.), DNA-Microarrays: A Practical
Approach, Oxford University Press (1999) ISBN: 0199637768. Typischerweise
wird die feste Phase Glas sein, obwohl andere Materialien, wie amorphes
oder kristallines Silizium oder Kunststoffe verwendet werden können.
-
Eine
Mehrzahl von Molekülen
können
an die feste Phase in einem geordneten Array angebracht werden,
aber bevorzugter können
sie in einer willkürlichen
Weise angebracht werden. Eine willkürliche Anbringung von Molekülen kann
eine beliebige Anzahl von Molekülen
umfassen, bevorzugt verteilt bei einer Dichte, die für die optische
Auflösung
der Sequenzinformation geeignet ist.
-
Eine
geeignete Reportereinheit kann eine beliebige von verschiedenen
bekannten Reporter-Systemen sein. Sie kann ein Radioisotop sein,
mittels dem das eingebaute Nukleosid-Analogon leicht detektierbar gemacht
wird, z.B. 32P, 33P, 35S, eingebaut in eine Phosphat- oder Thiophosphat-
oder H-Phosphonat-Gruppe oder alternativ 3H
oder 1 4C oder ein
Iod-Isotop. Sie kann ein Isotop sein, das durch Massenspektrometrie
oder NMR detektierbar ist. Sie kann eine Signaleinheit sein, z.B.
ein Enzym, Hapten, Fluorophor, Chromophor, chemilumineszente Gruppe,
Raman-Marker, elektrochemischer Marker oder eine Signalverbindung,
die angepasst ist zur Detektion durch Massenspektrometrie.
-
Jeder
Sequenzierschritt wird zum Anbringen von Reportermolekülen an individuellen
Templates führen,
und die Detektion der eingebauten Reportereinheit wird ermöglichen,
die Identität
der Base zuzuordnen. Im Falle von fluoreszierenden Reportern werden
diese Moleküle
dann identifiziert durch z.B. Fluoreszenzmikroskopie (z.B. unter
Verwenden eines PMT oder CCD) und die Fluoreszenz-Eigenschaft des
Reporters wird die Zuordnung der Identität an die Base erlauben, die
in der Sequenzierreaktion eingebaut wurde.
-
Um
Daten von sequentiellen Runden der Sequenzierzyklen zu sammeln,
muss das Template lokalisiert sein. Dies kann erreicht werden gleichzeitig
mit dem ersten Zyklus des Sequenzierens, bei dem das Reportermolekül in der
ersten Base eine Template-Position identifiziert, oder das Template
und/oder der Primer kann selbst mit einer Reportereinheit derart
markiert sein, dass seine Position auf der festen Phase vor der Sequenz-Zyklisierungs-Reaktion
detektiert werden kann. Das Bekanntsein der Position jedes Template-Moleküls macht
es möglich,
den Zustand jedes Moleküls
zu überwachen
und alle nachfolgenden Ereignisse während der Zyklen des Sequenzierens
zu verfolgen. Ein nachfolgendes Fehlschlagen der Addition manifestiert sich
beispielsweise selbst durch einen Mangel an Fluoreszenz an einer
Position, für
die bekannt ist, dass sie ein Template enthält. Ein Fehler des Reporters
aufgrund entweder eines Mangels an Stimulus oder einer chemischen
Beschädigung
kann auch bestimmt werden, sobald die Position des Templates bestimmt
worden ist. Diese fehlgeschlagenen Reaktionen können verfolgt und in der Endsequenz
behandelt werden als mögliche Lücken aufgrund
des Reporter-Fehlers. Falls diese Moleküle die Teilnahme in nachfolgenden
Zyklen wieder aufnehmen, kann dies auch ver folgt werden und eine
bedeutungsvolle Sequenz erhalten werden. Individuelle Punkte von
einzelnen Basenlücken
können
identifiziert werden, und, wo mehrfache identische Sequenzen auf der
festen Oberfläche
in einem Array angeordnet worden sind, kann eine Konsensus-Sequenz
aufgebaut werden durch Vergleiche mit Referenz-Strängen,
wie Sequenzen anderer Kopien von Templates im Sequenzierarray. Alternativ
können
einzelne Basenlücken
identifiziert werden, durch Vergleichen mit einem Referenzstrang, der
die bekannte Sequenz sein kann (z.B. in der Anwendung dieser Technik
auf Mutationsdetektion).
-
So
haben wir anerkannt, dass es in diesem System möglich ist, Fehler zu korrigieren,
insbesondere Fehler, die mit einer Sequenzierung von einzelnen Molekülen zusammenhängt. Fehler,
die korrigiert werden müssen,
sind Fehler der Reporterabspaltung und -eliminierung vor dem nächsten Zyklus,
Fehler des Einbaus, ein Schaden am Reporter (z.B. ein Schaden am
fluoreszierenden Stoff), und der Fehleinbau.
-
Sobald
lokalisiert, werden alle Sequenzierzyklus-Ergebnisse für das lokalisierte
Molekül
messbar sein. Verwenden zweier Sätze
von Nukleotid-Analoga ermöglicht
die Identifizierung des Reporters, der von dem vorherigen Zyklus übertragen
worden ist. Das Wiederauftreten eines Reporters vom vorherigen Zyklus
kann daher identifiziert und überwacht
werden.
-
Das
Kennen der Position des Template-Moleküls ermöglicht auch die Identifizierung
von Templates, die nicht erstreckt worden zu sein scheinen. Wie
oben diskutiert, kann ein Fehlschlag des Beobachtens eine Reportermoleküls auf einem
Mangel eines Einbaus beruhen, kann aber auch auf einem Schaden an
der Reportereinheit beruhen. Jedoch ist, da das Vorhandensein von
beschädigten
Molekülen
effektiv minimiert werden kann durch einen Reinigungsprozess während der
Synthese von modifizierten Nukleotiden, wo Abbauprodukte und Produkte
von Nebenreaktionen identifiziert und elminiert werden können, die
Abwesenheit von Fluoreszenz deshalb wahrscheinlicher ein Ergebnis
eines Fehlschlags, ein modifiziertes Nukleotid einzubauen.
-
Falls
nach einem beliebigen Sequenzierzyklus ein Template-Molekül mit keinerlei
Reportern verbunden ist, wird die Sequenz demgemäß an diesem Punkt markiert,
um eine „Pause" anzuzeigen. In der
nächsten Runde
des Sequenzierens kann das Template-Molekül dann mit einem Reporter verbunden
werden, d.h. das „pausierende" Molekül nimmt
die Extension wieder auf, und ermöglicht, dass Sequenzdaten erhalten
werden. Jedoch kann dem Template-Molekül fortdauernd eine Verbindung
mit beliebigen Reportern für
mehr als einen Zyklus fehlen, und die Sequenz wird markiert werden
als eine Pause für
jeden jeweiligen Zyklus.
-
Ein
Positionsmarker, der während
des Sequenzierens erzeugt wird, wird nützlich sein zum Interpretieren
von Lücken
in Anordnungen, wenn er mit der Sequenz verglichen wird, die mit
Referenzsequenzen erzeugt wird, oder mit anderen Sequenzen, die
während
der Sequenzierprozedur erzeugt sind unter Verwenden von einem der
Anordnungsalgorithmen, die jenen Fachleuten bekannt sind.
-
Es
ist möglich,
Positionen des Fehleinbaus vorherzusagen unter Bekanntsein der inhärenten Eigenschaften
der entsprechenden verwendeten Polymerasen und Ligasen. Zum Beispiel
ist es jenen Praktikern in der Technik bekannt, dass Primersequenzen,
die eine nicht übereinstimmende
terminale Base enthalten, schlechtere Templates für Polymerasen
sind, mit Extensions-Effizienzen von zwischen 102 bis
106-fach geringer als übereinstimmende Sequenzen (siehe
Huang, M., N. Anheim und M. Goodman, Nucleic Acid Res. 1992. 20(17):
S. 4567–73,
Tindall KR, K.T., Biobechmistry, 1988. 27(16); S. 6008–13, Esteban,
J., M. Salas und L. Blanco, J. Biol. Chem., 1993. 268(4): S. 2719–26. Moleküle, die
mehrere Zyklen oder bis zum Ende des Sequenzierprotokolls pausierend
bleiben, besitzen deswegen eine höhere Wahrscheinlichkeit, dass
sie eine terminale Fehlübereinstimmung
enthalten. Templates, die derartige Pausen durchlaufen, werden deshalb
an der letzten Basenabrufposition als potentielle Terminationen
aufgrund von Fehlübereinstimmungen
mit einer Markierung versehen. Die Identifizierung des sequenzierten
Fragments wird dann erreicht durch Anordnung an einer Referenzsequenz
oder anderen sequenzierten Templates von derselben Probe. Fehlübereinstimmungen, die
an markierten Positio nen auftreten, sind wahrscheinlicher das Ergebnis
eines Fehleinbaus, als dass sie die wahre Sequenz repräsentieren,
und können
deshalb dementsprechend interpretiert werden.
-
Die
Anzahl von Zyklen, für
die ein Template-Molekül
pausiert, kann gezählt
werden durch aufeinanderfolgende Detektion eines Mangels an eingebautem
Reporter. Eine Schwelle für
die Wahrscheinlichkeit sukzessiver Pausen, die zufällig resultieren,
kann gesetzt werden während
der Analyse der Sequenzdaten. Die Schwelle, über der sukzessive Pausen klassifiziert
werden können
als Ergebnis einer Fehlübereinstimmung, wird
abhängen
von der Effizienz des Markierens entweder durch Polymerase-abhängige Basen-Extension oder
durch Sequenz-abhängige
Ligation. Zum Beispiel werden, falls die Schwelle für die Wahrscheinlichkeit sukzessiver
Pausen, die zufällig
resultieren, auf 1 × 10
–6%
gesetzt ist, die folgenden Anzahlen von Pausen gezählt werden,
was verschiedene Effizienzen des Markierens berücksichtigt, bevor die Pause
als eine Fehlübereinstimmung
gezählt
wird.
-
Für eine größere Sicherheit
kann der Schwellenwert angemessen vergrößert werden. Der Grad der erforderlichen
Sicherheit wird abhängen
von der Toleranz der Sequenzieranwendung; eine weniger stringente Schwelle
kann toleriert werden, falls es das Ziel ist, einfach die Template-Fragmente
zu identifizieren, eher als Sequenzdifferenzen präzise zu
bestimmen. Der Effekt einer geringeren Effizienz des Markereinbaus
kann auch verschoben werden durch den Grad der Sequenzierredundanz.
Die Wahrscheinlichkeit eines Fehleinbaus wird in diesem Fall statistisch
behandelt.
-
Eine
Bildgebung und Lokalisierung einzelner Moleküle, hauptsächlich durch Fluoreszenz, ist
jenen Fachleuten geläufig
(s. Trabesinger, W. et al., Anal. Chem., 1999. 71(1): S. 279-83,
Harms, G. et al., Biophys. J. 1999. 177: S. 2864–2870, Deschryver, F., Pure & Appl. Chem, 1998.
70: S. 2147–2156,
Bartko, A. und R. Dickson, J. Phys. Chem. B, 1999. 103: S. 11237–11241).
Datenfiles, die Information enthalten in Hinblick auf die Position
und den Typ des Markers, werden deshalb einfach erzeugt. In einer
Ausführungsform
der Erfindung wird die Analyse von Sequenzdaten am Ende der Sequenzierprozedur
ausgeführt
und nachdem all die Sequenzierdaten aufgenommen worden sind. Diese
Daten können
in einem oder mehreren Files analysiert werden, um die Positionen
der Templates zu bestimmen und irgendwelche an diesen Positionen
angebrachten Reporter zu identifizieren. Derartige Daten werden
dann einer zweiten Analyse unterzogen, um Sequzenzen für alle lokalisierten
Templates zu bilden.
-
Bevorzugt
werden Zyklen einer Sequenzierreaktion und Datenanalyse gleichzeitig
ausgeführt.
In diesem Fall werden Daten, die von jedem Zyklus erzeugt werden,
analysiert, um Reportermoleküle
zu lokalisieren, diese Positionen werden dann mit Positionen der
Templates korreliert. Die Sequenzen für jedes lokalisierte Template
können
dann weitergebildet werden mit jedem sukzessiven Zyklus.
-
Die
bevorzugte Prozedur, die die Erfindung verkörpert, wird nun mit Bezugnahme
auf 1 beschrieben.
-
In
dem System, das in 1 dargestellt ist, sind zu sequenzierende
Moleküle
auf festen Phasen durch Standardprozeduren fixiert worden, wie in
der Technik beschrieben (im Überblick
in Schena (Hrsg.), DNA Microarrays: A practical approach, Oxford
University Press (1999) ISBN 0199637768). Das Template, gebunden an
eine feste Oberfläche,
wie ein Objektträger,
ist markiert, so dass seine Position bestimmt werden kann, wenn
der Träger
beispielsweise durch einen Fluoreszenzmikroskopscanner betrachtet
wird. Beim Schritt 10 wird ein relevantes Template zuerst
lokalisiert.
-
Sequenzierreaktionen,
die Basen-Einbau beinhalten, der durch Erstrecken des Templates
mit einem Polymerase-Enzym oder durch Ligieren eines markierten
Oligonukleotids mit einer Ligase bewirkt werden kann, werden nun
ausgeführt
(Schritt 12).
-
Wie
oben beschrieben wird der Sequenzierschritt zum Anbringen eines
Reportermoleküls
an der ersten Base in der Sequenz des Templates führen, und
die Detektion der Reportereinheit, die eingebaut ist, erlaubt es,
die Identität
der Base zuzuordnen, Schritt 14. Der nächste Schritt, Schritt 16,
dient zum Korrelieren der Basen- und Template-Positionen; bei diesem
ersten Zyklus ist dies ein trivialer Schritt. Eine Bestimmung wird
dann ausgeführt,
ob das Template-Molekül
mit einem Reporter verbunden ist. Das soll heißen, in Schritt 18 wird
ein Test ausgeführt,
ob das betreffende Template einen Reporter besitzt oder nicht. Falls
nach dem Sequenzierbetrieb das Template mit einem Reporter verbunden
ist, läuft
die Prozedur weiter zu Schritt 20. Hier wird ein Test ausgeführt, um
zu bestimmen, ob der Reporter aus einem vorherigen Zyklus kommt.
Falls nicht, wird er dann identifiziert und eine neue Base zugeordnet,
Schritt 22. So ist die Base korrekt identifiziert worden und
alles ist gut.
-
Die
Prozedur läuft
dann zu Schritt 24, bei dem ein Test ausgeführt wird,
ob es irgendwelche weiteren Templates gibt. Falls ja, wiederholt
sich die Prozedur von Schritt 18.
-
Falls
in Schritt 20 bestimmt wird, dass der mit der Base verbundene
Reporter aus einem vorherigen Zyklus stammt, wird keine Base zugeordnet,
Schritt 26, und die Prozedur geht gleich zu Schritt 24 und
zu dem nächsten
Template, falls vorhanden.
-
Falls
in Schritt 18 gefunden wird, dass das Template keinen Reporter
aufweist, wird in Schritt 50 eine Überprüfung ausgeführt, ob das Nicht-Übereinstimmungs-Flag
aktiv ist. Das Nicht-Übereinstimmungs-Flag wird
aktiviert, wenn die Anzahl von aufeinanderfolgenden Pausen das vorbestimmte
Maximum überschreitet, gemäß eines
Tests, der bei Schritt 30 ausgeführt wird. Falls das Nicht-Übereinstimmungs-Flag
nicht aktiv ist, läuft
die Prozedur zu Schritt 28 und eine Pause P wird in die
Sequenz eingefügt.
Auch wird ein Pausen-Zähler, der
die Anzahl von aufeinanderfolgenden Pausen, die auftreten, überwacht,
um eins erhöht.
Ein Test wird in Schritt 30 ausgeführt, um zu bestimmen, ob die
Anzahl von aufeinanderfolgenden Pausen einen vorbestimmten Schwellenwert
oder einen vorbestimmten Maximalwert überschreitet. Falls sie es
nicht tut, läuft
die Prozedur zu Schritt 24, wobei die Pause in der Sequenz
belassen wird. Falls die Anzahl von aufeinanderfolgenden Pausen
das vorbestimmte Maximum überschreitet,
wird die vorhergehende Base als fehlübereinstimmend eingestuft,
und das Nicht-Übereinstimmungs-Flag
wird aktiviert, Schritt 32, und die Prozedur läuft dann
zu Schritt 24.
-
Der
Pausenindikator liefert die Funktion des Bereitstellens einer Anzeige
einer unbekannten Base. Diese kann sich herausstellen als eine beliebige
von den Basen A, C, G und T, oder kann sich tatsächlich herausstellen als überhaupt
keine Base. Durch Bereitstellen der Möglichkeit einer unbekannten
Base wird die Information für
jenes Template nicht vollständig
verworfen.
-
Eher
wird sie noch verwendet, z.B. mit Bezugnahme auf eine Referenzsequenz,
wie in den Beispielen unten beschrieben.
-
Falls
in Schritt 20 bestimmt wird, dass der Reporter von einem
vorherigen Zyklus stammt, wird in Schritt 52 eine Überprüfung ausgeführt, ob
das Nicht-Übereinstimmungs-Flag
aktiv ist. Falls das Nicht-Übereinstimmungs-Flag
nicht aktiv ist, läuft
die Prozedur zu Schritt 22 und eine Base wird zugeordnet.
Die Prozedur läuft
dann zu Schritt 24, um zu bestimmen, ob es ein anderes
Template zur Verarbeitung gibt.
-
Falls
das Nicht-Übereinstimmungs-Flag
aktiv ist, wird bei Schritt 54 die zuvor zugeordnete Base
ersetzt mit einem IUB-Code, der alle anderen Basen repräsentiert,
mit Ausnahme jener, die nicht in Übereinstimmung gebracht wurde.
Dies beruht darauf, dass, falls die vorherige Base „C"-markiert war, aber
als fehlübereinstimmend
bekannt ist, es klar ist, dass die Base entweder A, G oder T ist.
-
Wenn
es keine weiteren Templates gibt, besitzt der Test bei Schritt 24 das
Ergebnis NEIN, und die Prozedur läuft zu Schritt 34,
wo eine Bestimmung ausgeführt
wird, ob es irgendwelche weiteren zu vervollständigenden Zyklen gibt, d.h.
ob es irgendwelche weiteren Base für jenes Molekül gibt.
Falls es sie gibt, läuft
die Prozedur zu den Daten für
den nächsten
Zyklus, Schritt 36, nachdem die Verarbeitung wieder von
Schritt 16 voranschreitet, mit einer Korrelation der Basen-
und Template-Positionen.
-
Schließlich wird
der Test bei Schritt 34 das Ergebnis NEIN besitzen, und
das führt
zum Ende der Prozedur, Schritt 38.
-
Es
kann eine nachfolgende Verarbeitung geben, die auf die Sequenz angewandt
wird, wie sie vom System der 1 erzeugt
ist, z.B., um die Sequenz, die durch das Verfahren gefunden wurde,
mit einer Referenzsequenz zu vergleichen. Beispiele davon sind unten
beschrieben.
-
Die
in 1 gezeigten Schritte, nachfolgend zu den Schritten 10 bis 14,
die chemische Reaktionen beinhalten, werden auf einem digitalen
Computer, wie einen Personal Computer (PC) implementiert. Zwei Beispiele
sind detaillierter mittels eines Pseudocodes im Anhang zu dieser
Beschreibung gezeigt. Der erste Pseudocode nimmt an, dass die Nukleotide
von einer Mischung aller vier Basen A, C, G und T abgefragt werden, und
der zweite Pseudocode ist für
eine Verwendung gedacht, wenn die vier Basen getrennt in der Sequenz verwendet
werden.
-
Die
vorliegende Erfindung besitzt viele Anwendungen, von denen einige
hier angegeben sind.
-
Zum
Beispiel kann die Sequenz von DNA- und RNA-Genomen bestimmt werden
unter Verwenden dieses Verfahrens. Ferner können Sequenz-Variationen in
Bereichen von oder gesamte Genome, mRNA-Repräsentationen von Bereichen von
oder gesamte Genome oder in künstlich
erzeugten Repräsentationen
eines Genoms (z.B. PCR-Produkte von Bereichen eines Genoms), die
von Substitutionen, Deletionen oder Insertionen einer oder mehrerer
Basen resultieren, identifiziert werden.
-
Die
vorliegende Erfindung besitzt eine Anwendung im Haplotyping (Bestimmen
von Sequenzdifferenzen zwischen Chromosomenpaaren in einem Individuum)
und auch in der quantitativen mRNA-Expressionsanalyse, z.B. beim
Vergleichen von Niveaus der mRNA-Expression zwischen Proben, die
von verschiedenen Zelltypen (Geweben) oder verschieden behandelten
Zellen abgeleitet sind. Diese Technik kann auch angewandt werden,
um Sequenzen zu identifizieren, die von pathogenen Genomen abgeleitet
sind, zur Verwendung in der Pathogen-Detektion und -Identifizierung.
-
Es
werden nun Beispiele der Weise angegeben, auf die spezifische Sequenzen
durch das System auf eine derartige Weise gehandhabt werden, damit
Fehler in der bestimmten Sequenz verringert werden.
-
Beispiel 1
-
Die
folgende Sequenz ist erhalten von einer Sequenzierreaktion:
GATCGGCTGACCATGGAC1
wobei
1 anzeigt, dass T eingebaut worden ist (und 2=C, 3=A, 4=G).
-
Ein
Fehler einer weiteren Erstreckung für die Schwellenzahl von Zyklen
führt zum
Markieren der Sequenz, um anzuzeigen, dass eine Base fehleingebaut
worden ist, vor der Schwellenzahl von Pausen. Hier zeigt 1 (eins)
an, dass ein T vor einer Anzahl von Pausen über dem vorbestimmten Schwellenniveau
eingebaut worden ist, und daher wahrscheinlich fehleingebaut worden
ist. Die Sequenz kann deshalb verworfen werden. Es wird auf 1 Bezug
genommen; die Prozedur folgt dem Weg 28, 30 für eine vorbestimmte
Anzahl von Schritten, bis ein JA bei Schritt 30 ausgegeben
wird, und die vorhergehende Base wird als fehlübereinstimmend in Schritt 32 markiert.
Statt einer 1 werden für
die anderen Basen 2 oder 3 oder 4 verwendet, wobei 2 ein C anzeigt,
3 ein A anzeigt und 4 ein G anzeigt.
-
Beispiel 2
-
Die
folgenden Sequenzen sind erhalten von einer Sequenzierreaktion.
Die erste ist eine neu bestimmte Sequenz und die zweite ist eine
Referenzsequenz:
GATCGGCTGACCATGGACC1CTGACAGT
GATCGGCTGACCATGGACCTCTGACAGT
-
Das
Pausieren länger
als die Schwellenzahl von Zyklen zeigt eine 1 für T als Fehleinbau. In diesem Fall
wurde das Sequenzieren nach der Schwellenzahl von Sequenzen wieder
aufgenommen. Wenn die erhaltene Sequenz mit der Referenzsequenz
verglichen wird, zeigt eine Sequenzanordnung eine T.1-Anordnung
an der Pausenposition. Sie kann deshalb unberücksichtigt gelassen werden
als eine tatsächliche
Basendifferenz mit der Referenzsequenz. Die Sequenzanordnung repräsentiert
eine Stufe zusätzlich
zur Verarbeitung, die in 1 dargestellt ist.
-
Beispiel 3
-
Wenn
eine Pause während
des Sequenzierens gezählt
wird, wird ihre Position als P markiert. Falls die folgenden neuen
und Referenzsequenzen erhalten werden:
GATCGGCTGACCATGGAPCCTCTGACAGT
GATCGGCTGACCATGGACCTCTGACAGT
zeigt
eine Sequenzanordnung mit der Referenzsequenz bei Vorhandensein
oder Abwesenheit einer Lücke
an der Position, die mit einem P markiert ist, dass sie eine Pause
war. Die gesamte Sequenz ist daher kontinuierlich und nützlich.
Die Sequenzanordnung repräsentiert
wieder eine Stufe zusätzlich
zu der in 1 dargestellten Verarbeitung.
-
Beispiel 4
-
Die
folgende Sequenz ist erhalten in einer Sequenzierreaktion:
GATCGGCTGACCATGGPCCTCTGACAGT
GATCGGCTGACCATGGACCTCTGACAGT
-
Die
als P markierte Position ist der Einbau einer Base mit einem fehlerhaften
Reporter. Sequenzanordnung mit einer Referenzsequenz bei Vorhandensein
oder Abwesenheit einer Lücke
an der markierten Position zeigt, dass diese eine Lücke in der
Sequenz repräsentiert.
Die extrahierte Sequenz bleibt nützlich.
In diesem Fall kann das P mit einem „N" substituiert werden, um eine Lücke in der
Sequenz zu kennzeichnen. Die Sequenzanordnung repräsentiert
wieder eine Stufe zusätzlich
zu der in 1 dargestellten Verarbeitung.
-
Anhang Erster
Pseudocode
-
Beispiel
eines Pseudocodes für
eine Sequenzgruppe nach Abschluss der Sequenzierreaktionen.
-
-
Zweiter
Pseudocode Pseudocode
für sequentielles
Sequenzieren von einzelnen Basen