DE69634605T2

DE69634605T2 - Verfahren zur überlappenden Genomsequenzierung

Info

Publication number: DE69634605T2
Application number: DE69634605T
Authority: DE
Inventors: Periannan Senapathy
Original assignee: Senapathy Periannan Wheaton
Current assignee: Senapathy Periannan Wheaton
Priority date: 1996-07-16
Filing date: 1996-07-16
Publication date: 2006-02-02
Anticipated expiration: 2016-07-17
Also published as: ATE293172T1; DE69634605D1

Description

Hintergrund der Erfindung
Die vorliegende Erfindung stellt ein Verfahren für die zusammenhängende Sequenzierung sehr langer DNA unter Verwendung einer Modifikation der Standard-PCR-Technik bereit, bei dem es nicht notwendig ist, die lange DNA zu zerteilen und zu subklonieren.
Die PCR-Technik erlaubt die Amplifikation von DNA, die zwischen zwei Regionen mit bekannter Sequenz liegt (K.B. Mullis et al., Patentnummern: 4,683,202, 7/1987; 435/91; und 4,683,195, 7/1987; 435/6). Oligonukleotide, die an den beiden Enden komplementär zu diesen bekannten Sequenzen sind, dienen als „Primer" bei der PCR-Prozedur. Die doppelsträngige Ziel-DNA wird zunächst aufgeschmolzen, um die DNA-Stränge voneinander zu trennen, wonach die Oligonukleotid (Oligo)-Primer, die komplementär zu den Enden des zu amplifizierenden Segments sind, an die Matrizen-DNA anhybridisiert werden. Die Oligos dienen als Primer für die Synthese neuer, komplementärer DNA-Stränge unter Verwendung eines DNA-Polymerase-Enzyms und eines als Primer-Verlängerung bekannten Prozesses. Die Orientierung der Primer zueinander ist so, dass das 5'→3'-Verlängerungsprodukt von jedem Primer, wenn es hinreichend verlängert wurde, die Sequenz enthält, die komplementär zu dem anderen Oligo ist. Somit wird jeder neu synthetisierte DNA-Strang zu einer Matrize für die Synthese eines weiteren DNA-Strangs, beginnend mit dem anderen Oligo als Primer. Wiederholte Zyklen des Aufschmelzens und Anhybridisierens der Oligo-Primer, sowie die Primer-Verlängerung führen bei jedem Zyklus (nahezu) zu einer Verdoppelung der DNA-Stränge, die die Matrizensequenz enthalten, jeweils beginnend mit der Sequenz des einen Oligos und endend mit der Sequenz des anderen Oligos.
Die Schlüsselvoraussetzung für diese exponentielle Zunahme der Matrizen-DNA besteht darin, dass die beiden Oligo-Primer komplementär zu den Enden der Sequenz sind, die man amplifizieren möchte, und so orientiert, dass ihre 3'-Verlängerungsprodukte aufeinander zulaufen. Wenn die Sequenz an beiden Enden des zu amplifizierenden Segments unbekannt ist, können keine komplementären Oligos hergestellt werden, und es kann keine Standard-PCR durchgeführt werden. Die Aufgabe der vorliegenden Erfindung besteht darin, die Notwendigkeit der Sequenzinformation an beiden Enden des zu amplifizierenden Segments zu überwinden, d.h. ein Verfahren bereitzustellen, das die Durchführung von PCR erlaubt, wenn die Sequenz nur für eine einzige Region bekannt ist, und ein Verfahren für die zusammenhängende Sequenzierung sehr langer DNA ohne die Notwendigkeit zur Subklonierung der DNA bereitzustellen.
Die DNA-Sequenzierung ist eine Technik, durch die die vier DNA-Nukleotide („Buchstaben") in einer linearen DNA-Sequenz durch chemische oder biochemische Mittel in ihrer Reihenfolge ermittelt werden. Es gibt zwei Techniken: 1) das chemische Verfahren von Maxam und Gilbert (A.M. Maxam, und W. Gilbert, „A new method of sequencing DNA." Proceedings of the National Academy of Sciences, USA, 74: 560-564 (1977)) und das enzymatische Verfahren von Sanger und Kollegen (F. Sanger, S. Nicklen, und A.R. Coulson, „DNA sequencing with chain-terminating inhibitors." 74: 5463-5467 (1977)). Bei dem chemischen Verfahren wird der DNA-Strang an einem Ende durch ein Isotop markiert, an Sequenzstellen, die mit einem bestimmten Nukleotid (A, T, C oder G) enden, durch chemische Mittel in kleinere Fragmente zerteilt und die Fragmente auf Basis dieser Information in eine Reihefolge gebracht. Die vier Nukleotid-spezifischen Reaktionsprodukte werden auf einem Polyacrylamidgel aufgetrennt, und das autoradiographische Bild des Gels wird analysiert, um die DNA-Sequenz abzuleiten.
An dem enzymatischen Verfahren sind die folgenden grundlegenden Schritte beteiligt:
(i) Anhybridisieren eines Oligonukleotid-Primers an eine geeignete einzelsträngige oder denaturierte doppelsträngige DNA-Matrize; (ii) Verlängerung des Primers mit DNA-Polymerase in vier getrennten Reaktionen, jeweils enthaltend ein α-markiertes dNTP oder ddNTP (alternativ kann ein markierter Primer verwendet werden), ein Gemisch von unmarkierten dNTPs und ein Ketten-terminierendes Didesoxynukleosid-5'-triphosphat (ddNTP); (iii) Auftrennung der vier Sets von Reaktionsprodukten auf einem hochauflösenden Polyacrylamid-Harnstoff-Gel; und (iv) Erzeugen eines autoradiographischen Bildes des Gels, das analysiert werden kann, um die DNA-Sequenz abzuleiten. Alternativ können fluoreszenzmarkierte Primer oder Nukleotide verwendet werden, um die Reaktionsprodukte zu identifizieren. Bekannte Didesoxy-Sequenzierverfahren verwenden eine DNA-Polymerase, wie etwa das Klenow-Fragment von E. coli-DNA-Polymerase, reverse Transkriptase, eine modifizierte T7 DNA-Polymerase oder die Taq-Polymerase.
Die Prozedur der PCR-Amplifikation ist verwendet worden, um DNA, die amplifiziert wird, zu sequenzieren (z.B. „Introduction to the AmpliTaq Cycle Sequencing Kit Protocol", ein Handbuch der Perkin Elmer Cetus Corporation). Die DNA kann zunächst amplifiziert und dann sequenziert werden, wobei die beiden konventionellen Techniken der DNA-Sequenzierung verwendet werden. Modifizierte Verfahren zur Sequenzierung PCR-amplifizierter DNA sind ebenfalls entwickelt worden (z.B. Bevan et al., „Sequencing of PCR-Amplified DNA" PCR Meth. App. 4:222 (1992)). Jedoch erfordern die Amplifizierung und Sequenzierung unter Verwendung der PCR-Prozedur, dass die Sequenzen an den Enden der DNA (die beiden Primer-Sequenzen) vorab bekannt sind. Somit ist diese Prozedur in ihrer Anwendbarkeit begrenzt und kann nicht auf die zusammenhängende Sequenzierung eines langen DNA-Strangs ausgedehnt werden. Wenn die Kenntnis nur eines Primers ohne irgendwelche Informationen über den anderen Primer ausreichend wäre, so wäre dies für die Sequenzierung sehr langer DNA-Moleküle unter Verwendung der PCR-Prozedur überaus vorteilhaft. Es wäre dann möglich, ein solches Verfahren für die zusammenhängende Sequenzierung einer langen genomischen DNA zu verwenden, und zwar ohne die Notwendigkeit, die DNA in kleineren Fragmenten zu subklonieren und unter Kenntnis nur des allerersten, anfänglichen Primers in der gesamten langen DNA.
Bei den derzeit existierenden Verfahren zur Sequenzierung sehr langer DNA mit Millionen von Nukleotiden, wird die DNA in kleinere, überlappende Fragmente zerteilt und subkloniert, um zahlreiche Klone zu erzeugen, die überlappende DNA-Sequenzen enthalten. Diese Klone werden nach dem Zufallsprinzip sequenziert und die Sequenzen durch „überlappende Sequenzpaarung" zusammengesetzt, um die zusammenhängende Sequenz zu erhalten. Bei diesem „Schrotschussverfahren" der Sequenzierung wird etwa zehnmal mehr an Sequenzierung benötigt, als es der Länge der sequenzierten DNA entspricht, um die zusammenhängende Sequenz zusammenzubauen. Bei dem „gerichteten" Sequenzierverfahren muss die lineare Reihenfolge der DNA-Klone zunächst durch „physikalische Kartierung" der Klone bestimmt werden.
Es existiert ein Verfahren zur zusammenhängenden DNA-Sequenzierung, das als „Primer-walking-Verfahren" bezeichnet wird und das enzymatische DNA-Polymerase-Sequenzierverfahren nach Sanger verwendet. Bei diesem Verfahren muss das Kopieren der DNA während der DNA-Sequenzierung jedoch stets ausgehend von der Matrizen-DNA erfolgen. Bei der PCR-Prozedur wird die Ziel-DNA, die in den ersten Runden ausgehend von der ursprünglich vorhandenen Matrizen-DNA amplifiziert wurde, im Gegensatz dazu bei den nachfolgenden Amplifikationszyklen selbst als Matrizen-DNA fungieren. Nach einer bestimmten Anzahl von Amplifikationszyklen wird die DNA-Sequenzierungsreaktion durch die Zugabe des Sequenzierungs-„Cocktails" gestartet. Somit ist bei der PCR-Reaktion nur eine Kopie der Matrizen-DNA theoretisch ausreichend, um bis auf Millionen von Kopien zu amplifizieren, und daher ist sehr wenig genomische (oder Matrizen-) DNA für die Sequenzierung ausreichend. Der Vorteil der DNA-Amplifikation, der bei der PCR besteht, fehlt bei dem konventionellen Sanger-Verfahren. Somit wird dieses Primer-walking-Verfahren im Vergleich zum PCR-Sequenzierverfahren eine größere Menge an Matrizen-DNA erfordern. Außerdem kann es so sein, dass das Sequenziergelmuster bei der Sequenzierung einer sehr langen DNA nicht so klar ist wie bei einem PCR-Verfahren, da eine lange DNA die Neigung hat, erneut zur Duplex-DNA zu hybridisieren. Dies kann die Länge der DNA begrenzen, die zusammenhängend und ohne Aufspaltung der DNA unter Verwendung des Primer-walking-Verfahrens sequenziert werden kann. Das PCR-Verfahren ermöglicht auch die Reduzierung einer nicht-spezifischen Bindung der Primer an die Matrizen-DNA, da die bei diesen Protokollen verwendeten Enzyme bei hohen Temperaturen arbeiten und somit die Verwendung „stringenter" Reaktionsbedingungen zur Verbesserung der Sequenzierung erlauben.
Das vorliegende Verfahren der zusammenhängenden DNA-Sequenzierung unter Verwendung der grundlegenden PCR-Technik hat somit viele Vorteile gegenüber dem Primer-walking-Verfahren. Weiterhin existiert bislang kein Verfahren für die zusammenhängende Sequenzierung einer sehr langen DNA unter Verwendung der PCR-Technik. Die vorliegende Erfindung bietet somit ein singuläres und sehr vorteilhaftes Verfahren für die zusammenhängende DNA-Sequenzierung.
Zusammenfassung der Erfindung
Die vorliegende Erfindung erlaubt die Amplifikation eines DNA-Abschnitts unter Verwendung des PCR-Verfahrens bei Kenntnis nur eines der Primer. Unter Verwendung dieses grundlegenden Verfahrens beschreibt die vorliegende Erfindung eine Prozedur, mittels derer eine sehr lange DNA in der Größenordnung von Millionen von Nukleotiden zusammenhängend sequenziert werden kann, und zwar ohne die Notwendigkeit einer Fragmentierung und Subklonierung der DNA. Bei diesem Verfahren wird die allgemeine PCR-Technik verwendet, jedoch ist die Kenntnis nur eines Primers ausreichend, und die Kenntnisse über den anderen Primer werden anhand der Statistik der Verteilung von Oligonukleotidsequenzen bestimmter Längen abgeleitet.
Derzeitige Verfahren der DNA-Sequenzierung unter Verwendung einer Auftrennung der DNA-Fragmente auf einem Gel haben ihre Begrenzung hinsichtlich der Auflösung der Produkte bei Längen von bis zu etwa 1000 Nukleotiden. Somit kann in einem einzigen Schritt die Sequenz eines DNA-Fragments bis zu einer Länge von nur etwa 1000 Nukleotiden durch die beiden konventionellen Verfahren der DNA-Sequenzierung erhalten werden. Durch die PCR-Prozedur kann eine DNA-Sequenz von einigen wenigen Nukleotiden bis zu vielen tausend Nukleotiden amplifiziert werden. Somit kann die PCR-Prozedur erfolgreich mit der Prozedur der DNA-Sequenzierung kombiniert werden.
Ein Primer besitzt für gewöhnlich eine Länge von zwölf Nukleotiden und mehr. Nehmen wir an, dass die Sequenz eines Primers in einer langen DNA-Sequenz, deren DNA-Sequenz ermittelt werden soll, bekannt ist. Bei dieser Primer-Sequenz kommt eine spezifische Sequenz von vier Nukleotiden statistisch mit einen durchschnittlichen Abstand von 256 Nukleotiden vor. Es ist von Senapathy errechnet worden, dass eine bestimmte Sequenz von vier Buchstaben mit einer Wahrscheinlichkeit von 99,9% irgendwo zwischen einem Abstand von null bis zu etwa 1500 Buchstaben vorkommen wird (P. Senapathy, „Distribution and repetition of sequence elements in eukaryotic DNA: New insights by computer aided statistical analysis", Molecular Genetics (Life Sciences Advances), 7: 53-65 (1988)). Der durchschnittliche Abstand für ein solches Auftreten beträgt 256 Buchstaben, und der Median beträgt 180 Buchstaben. Dementsprechend wird eine 5 Nukleotide lange spezifische Sequenz in einem durchschnittlichen Abstand von 1024 Buchstaben vorkommen, wobei diese in 99,99% der Fälle innerhalb von 6000 Buchstaben ab dem ersten Primer vorkommen wird. Der Median des Abstands für das Auftreten einer spezifischen 5er-Nukleotidsequenz beträgt 730 Nukleotide. Entsprechend wird eine bestimmte 6 Nukleotide lange Sequenz in einem durchschnittlichen Abstand von 4096 Nukleotiden und bei einem Median des Abstands von 2800 Nukleotiden auftauchen. Ein Primer bekannter Länge, z.B. der Länge 14, kann mit einer bekannten Sequenz von 6 Buchstaben hergestellt werden, wobei der Rest der Sequenz eine willkürliche Sequenz darstellt. Dies bedeutet, dass jedes der vier Nukleotide an den „willkürlichen" Sequenzpositionen vorkommen kann. Mit einer festgelegten 5er-, 6er- oder 7er-Nukleotidsequenz in dem zweiten Primer kann ein Primer der Länge 12-18 mit einer hohen Bindungsspezifität erzeugt werden.
Ein solcher, teilweise nicht-willkürlicher Primer (hier im Folgenden als „teilweise festgelegter Primer" oder „teilweise nicht-willkürlicher Primer" bezeichnet, was bedeutet, dass ein Teil seiner Sequenz festgelegt ist) kann nur an eine solche Sequenz „anhybridisieren" bzw. „annealen", in der die festgelegte Sequenz vorkommt. Dies bedeutet, dass der teilweise festgelegte Primer im Bezug auf den ersten Primer in einem durchschnittlichen Abstand von 1024 Buchstaben (bei 5 festgelegten Nukleotidpositionen) binden wird. Bezogen auf den ersten Primer wird dieser Primer nur an derjenigen Stelle spezifisch binden, an der die spezifische 5er-Nukleotidsequenz vorkommt. Dieser durchschnittliche Abstand zwischen dem ersten Primer und dem zweiten, nicht-willkürlichen Primer ist ideal für die DNA-Amplifikation und DNA-Sequenzierung. In dieser Situation ist der erste Primer markiert. Obwohl es viele Positionen in dem langen DNA-Molekül geben wird, an die der nicht-willkürliche Primer binden kann, wird dies die DNA-Sequenzierung somit nicht beeinträchtigen, da diese nur von dem markierten Primer abhängig ist.
Obwohl der teilweise festgelegte zweite Primer einen willkürlichen Sequenzanteil enthält, wird eine Subpopulation des Primer-Moleküls die exakte Sequenz besitzen, die an die exakte Zielsequenz binden wird. Der Anteil der Moleküle mit exakter Sequenz, der an die exakte Zielsequenz binden wird, wird in Abhängigkeit von der Anzahl der willkürlichen Buchstaben in dem teilweise festgelegten zweiten Primer variieren. So wird z.B. bei einem zweiten Primer, der 11 Nukleotide lang ist und 6 festgelegte und 5 willkürliche Buchstaben besitzt, eines von 1000 Molekülen die exakte Sequenz aufweisen, die zu der Zielsequenz der Matrize komplementär ist. Durch eine geeignete Erhöhung der Konzentration des teilweise festgelegten zweiten Primers kann ein günstiges Niveau der PCR-Amplifikation, die für die Sequenzierung benötigt wird, erreicht werden. Wenn die Primer-Konzentration erhöht wird, so erfordert dies eine Erhöhung der Konzentration an Magnesium, das für die Funktion des Polymerase-Enzyms erforderlich ist. Die überschüssigen Primer (und die aufgrund des Primer-Überschusses gebildeten „Primer-Dimere") können nach der Amplifikationsreaktion durch einen Schritt der Gelreinigung entfernt werden.
Jede nicht-spezifische Bindung einer jedweden Population des zweiten Primers an Nicht-Zielsequenzen kann vermieden werden, indem man die Temperatur des Wieder-Anhybridisierens während der DNA-Amplifikation geeignet anpasst (erhöht). Es ist wohlbekannt, dass der Austausch auch nur eines Nukleotids aufgrund einer Punktmutation in einigen Krebsgenen durch DNA-Hybridisierung detektiert werden kann. Diese Technik wird routinemäßig angewendet, um bestimmte Krebsgene zu diagnostizieren (z.B. John Lyons, „Analysis of ras gene point mutations by PCR and oligonucleotide hybridisation", in PCR Protocols: A guide to methods and applications, herausgegeben von Michael A Innis et al., (1990), Academic Press, New York). Dies erfolgt, indem das „Wieder-Anhybridisieren" bzw. Reannealing oder die „Schmelztemperatur" angepasst wird und die Reaktionsbedingungen exakt abgestimmt werden. Somit kann die Bindung nicht-spezifischer Sequenzen auch mit dem Unterschied von nur einem Nukleotid im Vergleich zur Ziel-Bindungsstelle in der Matrizensequenz vermieden werden.
Es ist außerdem anzumerken, dass das Auftreten unspezifischer Bindungsstellen für die teilweise festgelegten zweiten Primer bei einer langen genomischen DNA statistisch auch an vielen anderen Stellen als an der in Nachbarschaft zum ersten Primer befindlichen Zielstelle zu erwarten ist. Eine Amplifikation unspezifischer DNA zwischen diesen Primer-Bindungsstellen, die an entgegengesetzten Strängen der Matrizen-DNA vorkommen können, könnte erfolgen. Jedoch wird dies nicht das Ziel der vorliegenden Erfindung, die spezifische DNA-Sequenzierung der Zielsequenz, beeinflussen. Da nur der erste Primer radioaktiv oder fluoreszierend markiert ist, werden nur die Reaktionsprodukte der Ziel-DNA im Sequenziergelmuster sichtbar gemacht werden. Die Anwesenheit solcher unspezifischer Amplifikationsprodukte in dem Reaktionsgemisch wird auch die DNA-Sequenzier-Reaktion nicht beeinflussen.
Eine Amplifikation der DNA wird nicht nur zwischen dem ersten Primer und dem teilweise festgelegten zweiten Primer, der in nächster Nachbarschaft stromabwärts des ersten Primers auftritt, erfolgen, sondern auch zwischen dem ersten Primer und einem oder zwei nachfolgend auftretenden zweiten Primern, und zwar in Abhängigkeit vom Abstand, in dem diese auftreten. Jedoch werden diese Amplifikationsprodukte alle ausgehend von dem ersten Primer beginnen und bis zu diesen zweiten Primern fortschreiten. Da die Produkte der DNA-Sequenzierung über die Markierung des ersten Primers sichtbar gemacht werden, und da die DNA-Synthese während der Sequenzierungsreaktion ausgehend von dem ersten Primer fortschreitet, wird die Anwesenheit von zwei oder drei Amplifikationsprodukten, die am ersten Primer beginnen, die DNA-Sequenzierungsprodukte und deren Sichtbarmachung auf den Gelen nicht beeinflussen. Allenfalls wird die Intensität der Banden, die Untergruppen verschiedener Amplifikationsprodukte sind, geringfügig auf dem Gel variieren, jedoch nicht das Gelmuster beeinflussen. Tatsächlich ist zu erwarten, dass dieses Phänomen die Sequenzierung eines längeren DNA-Strangs ermöglichen wird, wenn der nächstgelegene stromabwärtige Primer zu nah an dem ersten Primer liegt – wodurch die Notwendigkeit, wiederum und unter Verwendung eines anderen teilweise festgelegten zweiten Primers ausgehend vom ersten Primer zu sequenzieren, vermieden wird.
Die minimale Primerlänge für eine hochspezifische Amplifikation zwischen den Primern an einer Matrizen-DNA wird für gewöhnlich auf etwa 15 Nukleotide eingeschätzt. Jedoch kann diese Länge bei der vorliegenden Erfindung auf 12-14 Nukleotide verringert werden, indem man den G/C-Anteil der festgelegten Sequenz erhöht.
Als wesentlicher Punkt ist die grundlegende Prozedur der vorliegenden Erfindung vollständig realisierbar und durchführbar, und jede Unspezifität kann durch eine Feineinstellung der Reaktionsbedingungen vermieden werden, wie etwa durch eine Anpassung der Anhybridisierungstemperatur und Reaktionstemperatur bei der Amplifikation und/oder durch die Anpassung der Länge und des G/C-Gehalts der Primer, was bei Standardprotokollen der PCR-Amplifikation routinemäßig durchgeführt wird.
Der primäre Vorteil der vorliegenden Erfindung besteht darin, dass sie einen extrem spezifischen zweiten Primer bereitstellt, der exakt an eine Sequenz in einem ungefähren Abstand von dem ersten Primer binden wird, was in der Möglichkeit resultiert, eine DNA ohne vorherige Kenntnis des zweiten Primers zu sequenzieren. Ausgehend von der neu ermittelten DNA-Sequenz kann eine Primer-Sequenz erzeugt werden, die komplementär zu einer Sequenz ist, die sich nahe dem stromabwärtigen Ende befindet. Diese Sequenz kann als erster Primer bei der nächsten DNA-Amplifikations/Sequenzierungs-Reaktion verwendet werden, und die unbekannte Sequenz stromabwärts von dieser kann wiederum unter Verwendung des gleichen teilweise festgelegten Primers, der bei der ersten Runde der Sequenzierung als der zweite Primer verwendet wurde, erhalten werden. Somit kann bei Kenntnis nur einer kurzen Sequenz in einem zusammenhängenden langen DNA-Molekül die gesamte Sequenz unter Verwendung der vorliegenden Erfindung ermittelt werden.
Wenn die Länge der festgelegten Sequenz in dem teilweise festgelegten zweiten Primer bei der vorliegenden Erfindung erhöht wird, so wird der Abstand von dem ersten Primer, bei dem der zweite Primer an die Matrize binden wird, sich ebenfalls entsprechend erhöhen. Bei einer festgelegten 6er-Nukleotidsequenz wird der Median der Länge der amplifizierten DNA 2800 Nukleotide (Durchschnittswert: 4096 Nukleotide) betragen, bei einer festgelegten 7er-Nukleotidsequenz wird der Median der Länge der amplifizierten DNA 11.000 Nukleotide betragen (Durchschnittswert: 16.000 Nukleotide). Selbst dann jedoch, wenn die Länge der amplifizierten DNA mehrere tausend Nukleotide beträgt, kann diese DNA immer noch bei den DNA-Sequenzierprozeduren verwendet werden. Weiterhin kann die vorliegende Erfindung verwendet werden, um eine DNA mit einer Länge zu amplifizieren, die nur durch die inhärenten Fähigkeiten der PCR-Amplifikation begrenzt wird. Eine Technik, die als „lange PCR" bekannt ist, wird verwendet, um lange DNA-Sequenzen zu amplifizieren (Kainz et al., „In vitro amplification of DNA Fragments >10 kb", Anal Biochem., 202:46 (1992); Ponce & Micol, „PCR amplification of long DNA fragments", Nucleic Acids Research, 20:623 (1992)).
Bestehende Verfahren der Genom-Sequenzierung verwenden die Zerlegung einer sehr langen genomischen DNA in viele kleine Fragmente, deren Subklonierung, Sequenzierung und schließlich die Zusammensetzung der Sequenz der langen DNA. Typischerweise wird eine genomische DNA zerlegt und in überlappenden Fragmenten von etwa einer Million Nukleotiden in „YAC" (künstliche Hefechromosom)-Klonen kloniert, wobei jeder YAC-Klon wiederum fragmentiert und in überlappenden Fragmenten von 25.000 Nukleotiden in „Cosmid"-Klonen subkloniert wird; schließlich wird jeder Cosmid-Klon wiederum in überlappenden Fragmenten von 1000 Nukleotiden in „M13-Phagen"- oder „Plasmid"-Klonen subkloniert. Diese werden nach dem Zufallsprinzip sequenziert, um die längeren Sequenzen in der Hierarchie zusammenzusetzen. Die vorliegende Erfindung umgeht die Notwendigkeit der Zerlegungs- und Subklonierungsschritte, was sie außerordentlich vorteilhaft für die zusammenhängende Sequenzierung langer genomischer DNA macht.
Unter Ausweitung der obigen Erfindung wird hier eine weitere Erfindung vorgestellt. Diese erweiterte Erfindung wird die Sequenzierung von Sequenzen mit 500 Nukleotiden Länge irgendwo innerhalb einer gegebenen langen DNA ohne irgendwelche vorab vorliegenden Informationen über irgendeine Sequenz innerhalb der langen DNA ermöglichen. Die Wahrscheinlichkeit, dass irgendein spezifischer Primer der Länge 10 Nukleotide irgendwo in einer DNA von etwa einer Million Nukleotiden vorkommt, beträgt etwa 1. Die Wahrscheinlichkeit, dass irgendein Primer der Länge 15 Nukleotide irgendwo in einem Genom von etwa einer Milliarde Nukleotiden vorkommt, beträgt etwa 1. Somit werden die Verwendung eines beliebigen exakten Primers mit einer Sequenz von etwa 15 Nukleotiden bei einer genomischen DNA als der erste Primer der vorliegenden Erfindung und die Verwendung eines zweiten, teilweise festgelegten Primers die Sequenzierung derjenigen DNA-Sequenz, die irgendwo in dem Genom von den beiden Primern „eingeklammert" wird, ermöglichen. Somit kann dieses Verfahren verwendet werden, um eine exakte Sequenz von etwa 500 Buchstaben irgendwoher aus einem Genom zu erhalten, und zwar ohne jedwede vorherige Kenntnis irgendwelcher Sequenzen davon. Somit kann man durch die Verwendung vieler verschiedener Primer mit beliebigen, aber exakten Sequenzen viele 500 Nukleotide große Sequenzen an zufälligen Positionen innerhalb eines Genoms erhalten. Unter Verwendung dieser Sequenzen als Startpunkte für die zusammenhängende Genom-Sequenzierung bei der vorliegenden Erfindung, kann die gesamte genomische Sequenz abgedeckt und vervollständigt werden. Somit besteht ein Vorteil der vorliegenden Erfindung darin, dass die gesamte Sequenz eines Genoms ohne irgendeine vorab vorliegende Kenntnis über irgendwelche Sequenzen in dem Genom erhalten werden kann.
Es muss angemerkt werden, dass nicht jeder beliebige 15er-Nukleotid-Primer stets eine komplementäre Sequenz in einem Genom (mit einer Länge von ~1 Milliarde Nukleotiden) haben muss. Jedoch wird diese in den allermeisten Fällen vorhanden sein und nützlich dafür sein, die oben dargestellte Sequenzierung durchzuführen. In einigen Fällen kann es mehr als ein einmaliges Vorkommen der Primer-Sequenz in dem Genom geben, so dass diese möglicherweise nicht nützlich dafür ist, die Sequenz zu erhalten. Jedoch kann die Häufigkeit erfolgreicher einfacher Treffer extrem hoch sein (~90%) und kann durch die Verwendung einer geeigneten Länge des beliebigen Primers weiter verfeinert werden. Bei Genomen (oder langen DNAs), die kürzer als eine Milliarde Nukleotide sind, können kürzere exakte Sequenzen für die ersten Primer (z.B. 10 Buchstaben) verwendet werden, und den Rest können willkürliche oder „degenerierte" Nukleotide ausmachen. Obwohl diese Primer nach wie vor an die Sequenz binden werden, die komplementär zu der exakten Sequenz ist, wird der längere Primer dabei helfen, unspezifische DNA-Amplifikation zu vermeiden. Die Länge des ersten Primers kann somit unter Verwendung degenerierter Nukleotide an den Enden bis zu einem gewünschten Maße erhöht werden, ohne dabei die Spezifität in irgendeiner Weise zu beeinträchtigen. Sobald eine Sequenz in einer unbekannten genomischen DNA bekannt ist, kann das vorliegende Verfahren durchgeführt werden, um ausgehend von diesem Startpunkt eine zusammenhängende Sequenz in beiden Richtungen der DNA zu verlängern.
Die vorliegende Erfindung kann auch nützlich sein, um die DNA zwischen dem ersten Primer und dem teilweise festgelegten zweiten Primer mit der Zielsetzung zu amplifizieren, diese amplifizierte DNA für andere Zwecke als die DNA-Sequenzierung zu verwenden, wie etwa für die Klonierung. Obwohl eine hinreichende Menge der zielspezifisch amplifizierten DNA in den Reaktionsprodukten vorliegen wird, werden die Reaktionsprodukte jedoch auch die Population der unspezifisch amplifizierten DNA zwischen den nicht-spezifisch vorkommenden Zweitprimer-Bindungsstellen an gegenüberliegenden Strängen enthalten. Jedoch kann durch die Einführung eines Reinigungsschritts bei diesem Reaktionsgemisch, wie etwa durch die Verwendung einer immobilisierten Säule, die nur den ersten Primer enthält, die amplifizierte Ziel-DNA gereinigt und für weitere Zwecke verwendet werden.
Nützlichkeit der Erfindung
Die vorliegende Erfindung ermöglicht die Amplifikation einer DNA, die an eine bekannte Sequenz angrenzt, unter Verwendung der PCR und ohne die Kenntnis der Sequenz für einen zweiten Primer.
Die vorliegende Erfindung stellt somit ein Verfahren zum Amplifizieren einer Zielnukleinsäuresequenz aus einer Matrizen-Nukleinsäuresequenz über eine Polymerasekettenreaktion (PCR) bereit, wobei das Verfahren folgendes umfasst:

(a) das Bereitstellen eines ersten Oligonukleotid-Primers, der zum Hybridisieren mit einer ersten Primer-Bindungsstelle an der Matrizen-Nukleinsäuresequenz unter PCR-Amplifikationsbedingungen befähigt ist;
(b) das Bereitstellen eines zweiten Oligonukleotid-Primers, wobei der zweite Primer mindestens 4 Nukleotide mit festgelegter Sequenz, die sich an einer beliebigen Stelle innerhalb des zweiten Primers befinden, und eine Vielzahl von Nukleotiden von willkürlicher Sequenz umfasst, wobei der zweite Primer zum Hybridisieren mit einer zweiten Primer-Bindungsstelle an der Matrizen-Nukleinsäuresequenz unter PCR-Amplifikationsbedingungen befähigt ist, und anschließend
(c) das Durchführen einer PCR-Amplifikation an der Matrizen-Nukleinsäuresequenz unter Verwendung des ersten und zweiten Primers zum Bewirken der Amplifikation der Ziel- Nukleinsäure, wobei die Amplifikation unter Bedingungen von ausreichender Stringenz erfolgt, so dass eine spezifische Amplifikation der Ziel-Nukleinsäuresequenz erfolgt, wobei die spezifisch amplifizierte Ziel-Nukleinsäuresequenz bei Fehlen einer Subklonierung der spezifisch amplifizierten Zielsequenz nachweisbar ist.

Die vorliegende primäre Erfindung stellt ein neues Verfahren für die Sequenzierung einer zusammenhängenden, sehr langen DNA-Sequenz unter Verwendung der PCR-Technik bereit, was somit zusammenhängendes genomisches Sequenzieren ermöglicht. Dies wird die Notwendigkeit für eine Kartierung oder Subklonierung kürzerer DNA-Fragmente aus haploiden Genomen, wie etwa bakteriellen Genomen, vermeiden. Dieses Verfahren kann bei sehr langen DNA-Inserts in Vektoren, wie etwa dem YAC, verwendet werden. Somit können diploide Genome ohne irgendeine weitere Notwendigkeit, ausgehend von den YAC-Klonen zu subklonieren, sequenziert werden. Die klonierten Inserts können von beliebiger Länge sein, mit mehreren Millionen Nukleotiden. Alternativ kann dieses Verfahren dort, wo immer gereinigte Chromosomen verfügbar sind, direkt angewendet werden, um das gesamte Chromosom zu sequenzieren, ohne die Notwendigkeit, das Chromosom zu fragmentieren oder YAC-Klone von dem Chromosom zu gewinnen. Dieses Verfahren kann mit geeigneten Modifikationen auch bei ganzen, ungereinigten Genomen verwendet werden, um die allelischen Variationen der beiden auf den beiden Chromosomen vorliegenden Allele zu berücksichtigen. Wesentlich ist, dass man unter Verwendung des Verfahrens der vorliegenden Erfindung eine zusammenhängende genomische Sequenzinformation in einer Weise erzeugen kann, die mit keinem anderen bekannten Protokoll, das PCR verwendet, möglich war.
Die vorliegende Erfindung kann Verwendung in vielen Bereichen finden, z.B. bei der medizinischen, diagnostischen, forensischen, genetischen, biotechnologischen und genomischen Forschung. Es ist anzumerken, dass diese Technik in vielen anderen Bereichen und bei vielen anderen Gelegenheiten anwendbar sein wird, und dass diese Anwendungen Durchschnittsfachleuten auf den jeweiligen Gebieten ersichtlich sein werden.
Die erweiterte Erfindung, die die Sequenzierung einer unbekannten Region einer sehr langen DNA (z.B. einer genomischen DNA) vollständig unbekannter Sequenz ermöglicht, wird ebenfalls viele Anwendungen in der Biologie und Medizin finden. Beispielsweise kann sie dazu verwendet werden, ein Chromosom oder Genom physikalisch zu „kartieren". Sie wird z.B. die Herstellung eines Inventars von vielen 500 Nukleotide langen Sequenzen, von denen jede mit dem exakten Primer assoziiert ist, ermöglichen. Dieses Verfahren wird auch die Klonierung der amplifizierten DNA-Sequenzen aus beliebigen Regionen einer genomischen DNA ohne die Erfordernis, die DNA zu zerlegen, ermöglichen. Unter Verwendung geeigneter längerer teilweise festgelegter Primer (als den zweiten Primern) können sehr lange DNA-Stücke (mehrere Kilobasen lang) durch die Anwendung dieses Verfahrens amplifiziert und kloniert werden.
Kurze Beschreibung der Zeichnungen
1 zeigt, dass der teilweise festgelegte zweite Primer nur an Sequenzpositionen in der „Matrizen"-DNA (der zu sequenzierenden DNA) binden kann, die die komplementäre Sequenz zu der spezifischen festgelegten Sequenz beinhalten. Die festgelegte Sequenz in dem zweiten Primer ist lang genug und der Rest der willkürlichen Sequenz ist kurz genug, damit die zufällige Bindung dieses Primers an irgendwelche anderen Sequenzpositionen in der Matrizen-DNA automatisch ausgeschlossen wird. Dies stellt sicher, dass der zweite Primer unter den bei PCR-Protokollen allgemein verwendeten Reaktionsbedingungen extrem spezifisch an die Sequenz binden wird, die komplementär zu der festgelegten 4er- oder 5er-Nukleotidsequenz ist, die in dem zweiten Primer verwendet wird. Es ist anzumerken, dass jedwede Sequenz von fünf Nukleotiden Länge in dem festgelegten Primer verwendet werden kann, und dass der Rest dann willkürliche Sequenz ist. Dies erklärt sich daraus, dass statistisch jede dieser Sequenzen mit einem geeigneten durchschnittlichen Abstand von dem ersten Primer vorkommen wird. Dies ist einer der wesentlichen Vorteile, die von der neuen Erfindung geboten werden. Der Vorteil dieses Verfahrens leitet sich von der Wahrscheinlichkeit des Auftretens festgelegter Sequenzen bestimmter Länge, die für die DNA-Sequenzierung durch die PCR-Technik geeignet sind, ab. Die statistische Verteilung von Sequenzen bestimmter Länge ist von Senapathy herausgearbeitet worden. Senapathy hat auch gezeigt, dass natürliche DNA im wesentlichen zufällig in ihrer DNA-Sequenz ist (P. Senapathy, „Origin of Eukaryotic Introns: A hypothesis based on codon distribution statistics in genes, and its implications," Proceedings of the National Academy of Sciences, USA, 83: 2133-2137 (1986)). Die festgelegte Sequenz in dem teilweise festgelegten zweiten Primer kann entweder am einen oder anderen Ende des Primers oder irgendwo innerhalb des Primers vorliegen. Ebenso kann die festgelegte Sequenz innerhalb des zweiten Primers von beliebiger Länge sein, ein 4er-, 5er, 6er- oder längeres Oligonukleotid. Weiterhin kann die festgelegte Sequenz in 2 oder 3 kürzere festgelegte Sequenzen an verschiedenen Positionen innerhalb des zweiten Primers aufgeteilt sein, was weiterhin dasselbe statistische Ergebnis und dieselbe Bindungseigenschaft ergibt.
2 zeigt, dass die Durchschnittslänge zwischen dem ersten Primer und dem teilweise festgelegten zweiten Primer geeignet für die DNA-Sequenzierung unter Verwendung der PCR-Technik ist. Beispielsweise beträgt der Median der Länge, bei der die zu dem zweiten Primer komplementäre Sequenz zu finden sein wird, 730 Nukleotide, was für die DNA-Sequenzierung ideal ist. Dies bedeutet, dass der zweite Primer trotz seines Auftretens irgendwo zwischen der Distanz von null bis etwa 6000 Nukleotiden in 50% der Fälle bei etwa 730 Nukleotiden auftreten wird. Somit kann durch die Verwendung von zwei verschiedenen festgelegten 5er-Nukleotidsequenzen in zwei verschiedenen zweiten Primern die Chance zur Sequenzierung einer DNA-Sequenz geeigneter Länge mit einer Wahrscheinlichkeit von 99,9% erreicht werden. Bei dem tatsächlichen Protokoll würde die Länge einer DNA-Sequenz, die in dem neuen Verfahren erhalten wird, nur dann bekannt werden, wenn die Ergebnisse eines Sequenzierungsversuchs erhalten werden. In diesem Stadium kann dann, wenn keine hinreichende Sequenzlänge erhalten wird, ein weiterer zweiter Primer mit einer anderen festgelegten Sequenz verwendet werden. Mit nur einigen wenigen verschiedenen festgelegten 5er- oder 6er-Nukleotidsequenzen in den zweiten Primern kann die zusammenhängende genomische Sequenzierung systematisch durchgeführt werden. Dies bedeutet, man muss nur wenige, sagen wir zehn, verschiedene zweite Primer für die Sequenzierung des gesamten Genoms herstellen, was bei – relativ gesehen – sehr geringen Kosten und sehr geringem Aufwand zu einem Zeitpunkt zu Beginn der Sequenzierung eines Genoms durchgeführt werden kann.
3 zeigt, wie der teilweise festgelegte Primer als der „unbekannte" zweite Primer bei der zusammenhängenden Genom-Sequenzierung verwendet wird. Bei einer langen Matrizen-DNA sollte eine Sequenz am Startpunkt bekannt sein, anhand derer ein erster Primer erzeugt werden kann. Ausgehend von diesem Punkt, kann ein Abschnitt der DNA-Sequenz unter Verwendung des neuen Verfahrens erhalten werden. Es wird eine geeignete Sequenz vom stromabwärtigen Ende dieser Sequenz ausgewählt, um einen Primer herzustellen, der als der erste, bekannte Primer zur Ausdehnung der Sequenzierung verwendet werden wird. Unter Verwendung dieses Primers und des gleichen teilweise festgelegten Primers als dem unbekannten zweiten Primer wird die Sequenz weiter ausgedehnt. Diese Prozedur wird kontinuierlich wiederholt, bis das Ende der Sequenz erreicht ist.
4 ist ein Schema, welches anzeigt, dass die vorliegende Erfindung die Sequenzierung einer sehr langen DNA ausgehend von einer beginnenden, bekannten Sequenzposition in beide Richtungen ermöglicht. Ausgehend von einer bekannten kurzen Sequenz von nur etwa hundert Nukleotiden können zwei Primer derart hergestellt werden, dass diese an gegenüberliegenden Strängen der DNA binden. Unter Verwendung jedes dieser bekannten Primer und des jeweils gleichen zweiten, teilweise festgelegten Primers kann die Sequenzierung von der Startposition aus in entgegengesetzte Richtungen an der DNA ausgedehnt werden.
5 beschreibt das Verfahren zum Erhalt einer Sequenz von etwa 500 Nukleotiden von einem Genom oder einer sehr langen DNA, von der keinerlei Sequenzinformation erhältlich ist. In Abhängigkeit von der Länge der sehr langen DNA (oder des Genoms) wird ein Primer mit einer beliebigen, aber exakten Sequenz derart entworfen, dass er etwa eine Bindungsstelle in der langen DNA haben wird. Diese Primer-Bindungsstelle wird auch eine Stelle in ihrer Nähe haben (in einem durchschnittlichen Abstand von etwa 800 Nukleotiden), die den zweiten, teilweise festgelegten (5er-Nukleotid)-Sequenzprimer binden wird. Bei Radiomarkierung oder Fluoreszenzmarkierung des ersten Primers kann die DNA-Sequenz zwischen den beiden Primern mittels Durchführung von PCR-Amplifikation und DNA-Sequenzierung erhalten werden. Es ist anzumerken, dass dies nur deshalb möglich ist, da der unbekannte zweite, teilweise festgelegte Primer nahezu mit Sicherheit innerhalb eines für die PCR-Amplifikation und DNA-Sequenzierung idealen Abstandes von dem ersten Primer auftreten wird – unabhängig davon, wo in der langen DNA der erste Primer vorkommt.
Detaillierte Beschreibung der Erfindung
Die obigen und verschiedene andere Ziele und Vorteile der vorliegenden Erfindung werden durch ein Verfahren erreicht, das folgendes umfasst:

a) Synthetisieren eines teilweise festgelegten Primers mit 4, 5, 6 Nukleotiden oder mehr Sequenzbuchstaben, die darin festgelegt sind. Die festgelegte Sequenz kann eine beliebige Sequenz sein, mit einigen bevorzugten Sequenzen, wie etwa solchen, die viele G-C-Paare enthalten, die die Bindungsaffinität erhöhen. Die festgelegte Position kann innerhalb des Primers an beliebiger Stelle sein, mit einigen bevorzugten Positionen;
b) Heranziehen einer sehr langen genomischen DNA, entweder unkloniert oder ein kloniertes großes Insert, wie etwa ein YAC oder ein Cosmid, in dem eine kurze Sequenz von etwa 20 Buchstaben irgendwo in der DNA bekannt ist;
c) Synthetisieren eines Primers aus der Sequenz, die von der DNA in Schritt b) bekannt ist;
d) Radioaktives Markieren des Primers aus Schritt c);
e) Anhybridisieren des Primers (aus Schritt a, Schritt d oder Schritt g, wie es passend ist) an die DNA aus Schritt b) und Amplifizieren der DNA zwischen den angehefteten Primern;
f) Durchführen einer DNA-Sequenzierung der amplifizierten DNA durch das chemische Abbauverfahren von Maxam und Gilbert, oder Durchführen der DNA-Sequenzierung durch das Sanger-Verfahren, oder durch ein modifiziertes Verfahren der PCR-Sequenzierung;
g) Nach dem Erhalt der DNA-Sequenz aus Schritt f) Auswählen eines geeigneten ersten Primers gegen das 3'-Ende der Sequenz, dessen Synthese und radioaktive Markierung;
h) Wiederholen der Schritte e) bis g) mit den beiden Primern (dem gleichen teilweise festgelegten unbekannten Primer als dem zweiten Primer und dem neu synthetisierten Primer aus Schritt g) als dem ersten Primer);
i) Wenn die in Schritt f) erhaltene Sequenz zu kurz ist, um von Wert zu sein, Verwendung eines anderen teilweise festgelegten Primers mit einer anderen festgelegten Sequenz und des gleichen ersten Primers zum Erhalten einer längeren DNA-Sequenz.

Solange es nicht anders definiert ist, haben alle hier verwendeten technischen und wissenschaftlichen Begriffe dieselbe Bedeutung, mit der sie gewöhnlich vom Durchschnittsfachmann auf dem Gebiet, zu dem diese Erfindung gehört, verstanden werden. Solange nicht anders angegeben, sind die hier verwendeten Techniken Standardmethodiken, die dem Durchschnittsfachmann wohlbekannt sind.
Der teilweise festgelegte Primer, der verwendet wird, um die DNA-Amplifikation und DNA-Sequenzierung durchzuführen, ist selbstverständlich nicht auf diejenigen beschränkt, die bei den Beispielen beschrieben sind. Weitere Modifikationen bei dem Verfahren können durchgeführt werden, indem man die Länge, Zusammensetzung und Position der festgelegten Sequenz und die Länge der willkürlichen Sequenz variiert. Weitere offenkundige Modifikationen beinhalten die Verwendung verschiedener DNA-Polymerasen und die Veränderung der Reaktionsbedingungen der DNA-Amplifikation und DNA-Sequenzierung. Weiterhin kann die grundlegende Technik dafür verwendet werden, um RNA unter Verwendung geeigneter Enzyme zu sequenzieren.
Anstatt den ersten Primer komplett herzustellen, kann dieser auch wie folgt hergestellt werden. Zwei oder drei kürzere Oligonukleotide, die den vollständigen Primer umfassen würden, können, nachdem sie an die Matrizen-DNA anhybridisiert sind, durch Ende-an- Ende-Verknüpfung ligiert werden, wie dies in einem anderen Patent (Helmut Blocker, Patentnummer 5,114,839, 435/6, 5/1992) oder in der Publikation von L.E. Kotler, et al., Proceedings of the National Academy of Science, USA, 90: 4241-4245 (1993)) beschrieben ist. Alternativ kann er unter Verwendung des Einzelstrang-DNA-bindenden Proteins, das Gegenstand einer anderen Erfindung ist (J. Kieleczawa, et al., Science, 258: 1787-1791 (1992)) synthetisiert werden. Eine dieser Prozeduren oder eine verbesserte Version hiervon kann verwendet werden, um den ersten Primer der vorliegenden Erfindung herzustellen. Zusammenfassend muss der erste Primer nicht bei jeder PCR-Reaktion zur zusammenhängenden Sequenzierung einer langen DNA synthetisiert werden, sondern kann direkt aus einer Oligonukleotidbank konstruiert werden. Basierend auf der vorliegenden Erfindung kann der zweite Primer auch aus einem Set von nur wenigen vorab hergestellten Primern ausgewählt werden. Dies ermöglicht die direkte Automatisierung der Sequenzierung der vollständigen langen DNA durch Einbeziehung der Primer-Elemente in die Reihe sequentieller PCR-Reaktionen.
Ein Vorteil der vorliegenden Erfindung besteht darin, dass ausgehend von einer bekannten Sequenz in einer sehr langen DNA die Sequenzierung in beide Richtungen an der DNA durchgeführt werden kann. Die beiden ersten Primer können, je einer pro Strang, hergestellt werden und in entgegengesetzte Richtungen laufen, sodass die Sequenz in beide Richtungen verlängert werden kann, bis die zwei endgültigen Enden der langen DNA durch die vorliegende Erfindung erreicht werden, wobei ein kleines Set vorab hergestellter teilweise festgelegter zweiter Primer verwendet wird.
Einer der Hauptvorteile der vorliegenden Erfindung besteht darin, dass sie hochgradig zugänglich für verschiedene Arten der Automatisierung ist. Anstelle einer radioaktiven Markierung des ersten, bekannten Primers kann dieser fluoreszierend markiert werden, wobei damit die DNA-Sequenzierung in einer automatisierten Prozedur auf Maschinen wie derjenigen, die von Applied Biosystems vertrieben wird („373 DNA Sequencer: Automated sequencing, sizing and quantitation", eine Broschüre von Applied Biosystems, einer Gruppe der Perkin-Elmer Corporation (1994)) durchgeführt werden kann. Bei der vorliegenden Erfindung besteht nicht die Notwendigkeit, irgendwelche Primer neu zu synthetisieren, um eine sehr lange DNA zu sequenzieren. Somit kann mit dem vorab erstellten Set teilweise festgelegter zweiter Primer, einer Oligonukleotidbank für die Synthese des ersten Primers und einer umfänglichen Quelle für die genomische Matrizen-DNA (oder eine beliebige, lange DNA) die Sequenzierung der vollständigen langen DNA unter Verwendung von Robotern nahezu ohne menschliches Eingreifen, mit der Ausnahme des Austauschens der Sequenziergele, automatisiert werden.
Die folgenden Prozesse können durch Computer kontrolliert werden: 1) die Auswahl der geeigneten Sequenz für das Konstruieren des ersten Primers nahe dem 3'-Ende der neu ermittelten Sequenz, 2) die Bestimmung, ob die erhaltene Sequenz zu kurz ist, und die Auswahl eines anderen, teilweise festgelegten zweiten Primers, 3) die Zusammensetzung der zusammenhängenden DNA-Sequenzen aus den verschiedenen Spuren und verschiedenen Gelen und das Anbringen bei einer Datenbank und andere derartige Prozesse. Somit ermöglicht die vorliegende Erfindung die Konstruktion eines voll automatisierten, zusammenhängenden DNA-Sequenziersystems. Alle diese Automatisierungen stellen offenkundige Modifikationen an der vorliegenden Erfindung dar.
Die vorliegende Erfindung ist nicht nur auf unbekannte genomische DNA beschränkt und kann verwendet werden, um eine beliebige DNA unter allen möglichen Situationen zu sequenzieren. DNAs oder RNAs aus vielen verschiedenen Quellen (z.B. viral, cDNA, mRNA) können nicht nur in Begrenzung auf Zwecke der Forschung oder Informationssammlung, sondern auch für andere Zwecke, wie etwa die Diagnostik und Behandlung von Krankheiten, die DNA-Testung und forensische Anwendungen sequenziert werden.
Es ist anzumerken, dass jedes Kit oder jeder Prozess, der für die Forschung, Diagnostik, Forensik, Behandlung, Produktion oder für andere Zwecke genutzt wird und die vorliegende Erfindung verwendet, von diesen Ansprüchen abgedeckt ist. Weiterhin sind die verschiedenen Sequenzen der teilweise festgelegten zweiten Primer, die bei der vorliegenden Erfindung verwendet werden können, von diesem Patent abgedeckt. Somit wird jedes Kit oder jeder Prozess, das/der dieses Verfahren und/oder die DNA-Stränge mit den Sequenzen, die die teilweise festgelegten zweiten Primer umfassen, verwendet, ebenfalls hiervon abgedeckt sein.
Zusätzlich zu der zusammenhängenden DNA-Sequenzierung wird die vorliegende Erfindung die Amplifikation der DNA-Stränge abdecken, die zwischen dem bekannten Primer und dem teilweise festgelegten zweiten Primer (entweder von Anspruch 1 oder von Anspruch 2) eingegrenzt sind. Die DNA-Amplifikation kann auch für lange DNA-Stränge unter Verwendung der Amplifikationsprotokolle für lange PCR durchgeführt werden.

Claims

Verfahren zum Amplifizieren einer Zielnucleinsäuresequenz aus einer Matrizen-Nucleinsäuresequenz über eine Polymerase-Kettenreaktion (PCR), wobei das Verfahren folgendes umfasst: (a) das Bereitstellen eines ersten Oligonucleotid-Primers, der zum Hybridisieren mit einer ersten Primer-Bindungsstelle an der Matrizen-Nucleinsäuresequenz unter PCR-Amplifikationsbedingungen befähigt ist; (b) das Bereitstellen eines zweiten Oligonucleotid-Primers, wobei der zweite Primer mindestens 4 Nucleotide mit festgelegter Sequenz, die sich an einer beliebigen Stelle innerhalb des zweiten Primers befinden, und eine Vielzahl von Nucleotiden von willkürlicher Sequenz umfasst, wobei der zweite Primer zum Hybridisieren mit einer zweiten Primer-Bindungsstelle an der Matrizen-Nucleinsäuresequenz unter PCR-Amplifikationsbedingungen befähigt ist, und anschließend (c) das Durchführen einer PCR-Amplifikation an der Matrizen-Nucleinsäuresequenz unter Verwendung des ersten und zweiten Primers zum Bewirken der Amplifikation der Ziel-Nucleinsäure, wobei die Amplifikation unter Bedingungen von ausreichender Stringenz erfolgt, so dass eine spezifische Amplifikation der Ziel-Nucleinsäuresequenz erfolgt, wobei die spezifisch amplifizierte Ziel-Nucleinsäuresequenz bei Fehlen einer Subklonierung der spezifisch amplifizierten Zielsequenz nachweisbar ist.
Verfahren nach Anspruch 1, ferner umfassend nach der Stufe (c): (d) das Sequenzieren der spezifisch amplifizierten Ziel-Nucleinsäuresequenz von Stufe (c).
Verfahren nach Anspruch 1 oder 2, wobei es sich bei der Matrizen-Nucleinsäure um DNA handelt.
Verfahren nach Anspruch 1 oder 2, wobei es sich bei der Matrizen-Nucleinsäure um RNA handelt.
Verfahren nach einem der vorstehenden Ansprüche, wobei sämtliche Nucleotide mit festgelegter Sequenz im zweiten Primer sich am 5'- oder 3'-Terminus des Primers befinden.
Verfahren nach Anspruch 5, wobei sich am 5'- oder 3'-Terminus des Primers bis zu 10 Nucleotide mit festgelegter Sequenz befinden.
Verfahren nach einem der vorstehenden Ansprüche, wobei der zweite Primer 5, 6 oder 7 Nucleotide mit festgelegter Sequenz enthält und eine Länge von 12 bis 16 Nucleotiden aufweist.