DE69627862T2 - Gleichzeitige sequenzierung von markierten polynukleotiden - Google Patents

Gleichzeitige sequenzierung von markierten polynukleotiden Download PDF

Info

Publication number
DE69627862T2
DE69627862T2 DE69627862T DE69627862T DE69627862T2 DE 69627862 T2 DE69627862 T2 DE 69627862T2 DE 69627862 T DE69627862 T DE 69627862T DE 69627862 T DE69627862 T DE 69627862T DE 69627862 T2 DE69627862 T2 DE 69627862T2
Authority
DE
Germany
Prior art keywords
tags
tag
oligonucleotide
primer
polynucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69627862T
Other languages
English (en)
Other versions
DE69627862D1 (de
Inventor
Sydney Brenner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Solexa Inc
Original Assignee
Lynx Therapeutics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/611,155 external-priority patent/US5780231A/en
Application filed by Lynx Therapeutics Inc filed Critical Lynx Therapeutics Inc
Publication of DE69627862D1 publication Critical patent/DE69627862D1/de
Application granted granted Critical
Publication of DE69627862T2 publication Critical patent/DE69627862T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

  • Bereich der Erfindung
  • Die Erfindung betrifft allgemein Verfahren zur Sequenzierung von Polynucleotiden und genauer ein Verfahren zur Sortierung und Sequenzierung von vielen Polynucleotiden gleichzeitig.
  • Hintergrund
  • Nach Adams et al., Herausgeber, Automated DNA Sequencing and Analysis (Academic Press New York 1994) ist der Wunsch, das menschliche Genom zu entschlüsseln und die genetische Basis von Krankheiten zu verstehen sowie ein Beobachter von anderen physiologischen Zuständen zu sein, die mit der differenziellen Genexpression verbunden sind, eine Haupt-Triebkraft bei der Entwicklung von verbesserten Verfahren zur Analyse und Sequenzierung von DNA gewesen. Gegenwärtige Projekte zur Genomsequenzierung verwenden auf Sanger basierende Sequenzierungsverfahren, die die Sequenzierung und die Anordnung eines Genoms von 1,8 Millionen Basen mit etwa 24 Monaten menschlicher Arbeitsleistung, z. B. Fleischmann et al., Science, 269: 496–512 (1995) ermöglichen. Ein solches Genom hat etwa 0,005 mal die Größe des menschlichen Genoms, von dem geschätzt wird, dass es etwa 105 Gene enthält, von denen 15% – oder etwa 3 Megabasen – in jedem vorhandenen Gewebe aktiv sind. Die große Anzahl an exprimierten Genen erschwert die Verfolgung von Veränderungen in Expressionsmustern durch Sequenzanalyse. Gewöhnlicherweise werden Expressionsmuster anfänglich durch Verfahren mit niedriger Auflösung wie Differenzialnachweis, Richtwertverfahren, Subtraktionshybridisierung, oder eine der zahlreichen DNA-Fingerprint-Verfahren analysiert, z. B. Lingo et al., Science 257: 967–971 (1992); Erlander et al., Internationale Patentanmeldung PCT/US94/13041; Mc Clelland et al., U.S.-Patent 5.427.975; Unrau et al., Gene, 145: 163–169 (1994); und Ähnliche. Die Sequenzanalyse wird dann häufig auf Teilmengen von cDNA_Clonen ausgeführt, die durch die Anwesenheit solcher Verfahren, z. B. Linskens et al., Nucleic Acids Research, 23: 3244–3251 (1995) identifiziert wurde. Eine solche aufeinanderfolgende Analyse wird ohne Ausnahme unter Verwendung der herkömmlichen Sanger-Sequenzierung von zufällig ausgewählten Clonen aus einer Teilmenge durchgeführt: demnach ist der Maßstab der Analyse durch das Sanger-Sequenzierungsverfahren begrenzt.
  • Verschiedene frühere Veröffentlichungen durch die Anmelder (PCT Veröff. Nrn. WO 9641011, WO 9612039 und WO 9612014) beschreiben die Sortierung und Sequenzierung von Populationen von Polynucleotiden. In diesen Offenbarungen wird jedes Polynucleotid mit einem Oligonucleotid-Anhang (Tag) verbunden und die Polynucleotid-Anhangs(Tag)-Konjugate werden durch Hybridisieren der Anhänge (Tags) mit ihren jeweiligen Komplementen auf einem festen Träger sortiert. Die Sequenzierungsreaktionen werden auf den Polynucleotiden durchgeführt, wenn sie an den festen Träger gebunden werden.
  • Zwei Verfahren durch Hitachi Ltd. (EP A 0701001 und EP a 0630792) beschreiben Verfahren der DNA-Sequenzanalyse unter Verwendung von Oligonucleotidsonden, die an einen festen Träger gebunden sein können und die eine "gemeinsame Sequenz" und eine variable "selektive Sequenz" von 1–3 Basen haben. Das Komplement der gemeinsamen Sequenz wird an jedes der Analyt-DNA-Fragmente angehängt und dann werden sie über diese gemeinsame Sequenz mit den Sonden hybridisiert. Dann wird eine selektive Verlängerungsreaktion durchgeführt und findet nur statt, wenn die "selektive Sequenz" der Sonde zu einem Abschnitt des Analyt-Fragments (angrenzend an die angehängte gemeinsame Sequenz) komplementär ist. Nicht-verlängerte Analyte werden dann durch Erhöhen der Temperatur entfernt.
  • Kürzlich wurde von zwei Verfahren berichtet, die eine direkte Sequenzinformation zur Analyse von Mustern der Genexpression anstreben, Schena et al., Science 270: 467–469 (1995) (Hybridisierung von mRNA mit 45 exprimierten Sequenzanhängen (Tags), die an einen Glasträger angeheftet waren) und Velculescu et al., Science 270: 484–486 (1995) (Excision und Verkettung von kurzen Anhängen (Tags) angrenzend an Restriktionsorte vom Typ IIs in Sequenzen aus einer cDNA-Genbank, gefolgt von Sanger-Sequenzierung der verketteten Anhänge (Tags)). Die Implementierung dieser Verfahren beinhaltete jedoch nur relativ wenige Sequenzen (45 beziehungsweise 30), somit ist nicht klar, ob sie die Fähigkeit haben, eine bedeutendere Probe exprimierter Gene zu verfolgen, z. B. Kollner et al., Genomics, 23: 185–191 (1994). Ohne bedeutend größere Stichprobengrößen werden die Verfahren nicht in der Lage sein, Veränderungen in den Transkriptionsmengen von Genen mit geringer Expression zu verfolgen.
  • Aus dem Vorstehenden wird klar, dass es einen dringenden Bedarf für Sequenzierungsverfahren mit einem höheren Durchlauf gibt, welche Zeit und Aufwand verringern können, die benötigt werden, um genomisierte DNAs zu analysieren und die bei der Analyse von großen Stichproben von Sequenzen aus komplexen Gemischen von Polynucleotiden, wie cDNA-Banken angewendet werden können. Die Verfügbarkeit solcher Verfahren würde in der medizinischen und wissenschaftlichen Forschung, dem Nachweis von Arzneimitteln, der Diagnose, der forensischen Analyse, der Ernährungswissenschaft, der genetischen Identifizierung, der Veterinärwissenschaft und einer Menge anderer Gebiete eine unmittelbare Anwendung finden.
  • Zusammenfassung der Erfindung
  • Ein Ziel meiner Erfindung ist es, ein neues Verfahren und einen neuen Ansatz zur Bestimmung der Sequenz von Polynucleotiden bereitzustellen.
  • Ein anderes Ziel meiner Erfindung ist es, ein Verfahren zur schnellen Analyse von Mustern der Genexpression bei normalen und kranken Geweben und Zellen bereitzustellen. Ein weiteres Ziel meiner Erfindung ist es, ein Verfahren zur gleichzeitigen Analyse und/oder Sequenzierung einer Population von vielen Tausenden verschiedenen Polynucleotiden bereitzustellen, wie eine Probe von Polynucleotiden aus einer cDNA-Genbank oder eine Probe von Fragmenten von einem Segment genomischer DNA.
  • Noch ein weiteres Ziel meiner Erfindung ist es, ein Verfahren zur Identifizierung von Populationen von Polynucleotiden bereitzustellen.
  • Ein weiteres Ziel meiner Erfindung ist es, ein Verfahren zur Sequenzierung von DNA-Segmenten in einer Größenordnung bereitzustellen, die typischen Cosmiden oder YAC- Insertionen entsprechen.
  • Meine Erfindung erreicht diese und andere Ziele dadurch, dass sie jedes Polynecleotid einer Population mit einem Oigonucleotid-Anhang (Tag) zur Übertragung von Sequenzinformationen an ein Anhangs(Tag)-Komplement auf einer räumlich zurordenbaren Anordnung solcher Komplemente zur Verfügung stellt. Dies bedeutet, dass an jedes Polynucleotid einer Population eine einzigartige Markierung angeheftet wird, die gespalten oder kopiert werden und dazu verwendet werden kann, Sequenzinformationen zu seinem Komplement an einer bestimmten Position auf einer Ansammlung derartiger Komplemente zu übertragen. Nachdem ein Anhang (Tag) spezifisch mit seinem Komplement hybridisiert, wird ein Signal erzeugt, das für die übertragene Sequenzinformation Indikativ ist. Die Erfindung wird bevorzugt durch wiederholte Zyklen der Amplifikation der Polynucleotide, durch Identifizieren eines oder mehrerer Nucleotide an einem Ende jedes Polynucleotids durch Verwendung der Oligonucleotid-Anhänge (Tags) und durch Verkürzen der Polynucleotide durch Entfernen eines oder mehrerer Nucleotide durchgeführt.
  • Durch die Verwendung von Anhängen (Tags) zur Übertragung von Informationen an räumlich getrennte Orte an Stelle der Sortierung einer gesamten Population von Polynucleotiden an solche Orte werden mindestens zwei hauptsächliche Vorteile erreicht: zum einen sind Anhänge (Tags) viel kleinere molekulare Einheiten, so dass die Kinetik der Diffusion und der Hybridisierung viel günstiger sind. Zum anderen muss das Laden der Markierung an den räumlich getrennten Orten nur zum Nachweis ausreichen, wohingegen ein Laden der Polynucleotide sowohl für das biochemische Verfahren als auch für den Nachweis ausreichen müsste; demnach müssten viel weniger Markierungen an den räumlich getrennten Orten geladen werden.
  • Ein wichtiger Aspekt der Erfindung ist das Anhängen eines Oligonucleotidanhangs (Tags) an jedes Polynucleotid einer Population auf eine solche Weise, dass im Wesentlichen alle verschiedenen Polynucleotide verschiedene Anhänge (Tags) haben. Wie im Folgenden vollständiger beschrieben, wird dies dadurch erreicht, dass eine Probe aus einem gesamten Ensemble von Anhangs(Tag)-Polynucleotid-Konjugaten genommen wird, worin jeder Anhang (Tag) eine gleiche Wahrscheinlichkeit hat, an irgendein Polynucleotid angeheftet zu werden. Der Schritt der Probenahme stellt sicher, dass die Markierungs-Polynucleotid-Konjugat-Population die vorstehend festgestellte Bedingung erfüllen wird, dass der Anhang (Tag) jedes Polynucleotids einer solchen Population im Wesentlichen einzigartig ist.
  • Komplemente der Oligonucleotid-Anhänge (Tags) werden bevorzugt auf der Oberfläche eines Festphasenträgers, wie einem mikroskopischen Kügelchen oder einem spezifischen Ort auf einer Ansammlung von Syntheseorten auf einem einzelnen Träger auf eine Weise synthetisiert, dass Populationen von identischen Sequenzen in spezifischen Regionen hergestellt werden. Das bedeutet, dass die Oberfläche jedes Trägers, im Fall eines Kügelchens, oder jeder Region, im Fall einer Ansammlung durch nur eine Art eines Markierungs-Komplements, welches eine bestimmte Sequenz hat, derivatisiert wird. Die Population solcher Kügelchen oder Regionen enthält ein Repertoire von Komplementen mit verschiedenen Sequenzen. Wie hierin in Bezug auf Oligonucleotid-Anhänge (Tags) und Markierungs-Komplemente verwendet, bedeutet der Begriff "Repertoire" den Satz von minimal kreuz-hybridisierenden Oligonucleotiden, aus denen die Anhänge (Tags) in einer bestimmten Ausführungsform bestehen oder dem entsprechenden Satz an Markierungskomplementen.
  • Meine Erfindung stellt ein ausreichend automatisiertes System zur Erhaltung von Sequenzinformationen aus großen Mengen an Polynucleotiden auf einmal bereit. Meine Erfindung ist bei Operationen besonders nützlich, die die Erzeugung von sehr großen Mengen an Sequenzinformationen benötigen wie der Sequenzierung von genomischen DNA-Fragmenten im großen Maßstab, dem mRNA- und/oder cDNA-Fingerprinting und stark auflösenden Messungen von Genexpressionsmustern.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Fließdiagramm, das einen allgemeinen Algorithmus zur Erzeugung von minimal kreuz-hybridisierenden Sätzen illustriert.
  • 2a illustriert die Hauptschritte der bevorzugten Ausführungsform des Verfahrens der Endung.
  • 2b illustriert die Verwendung von rollenden Primern im Verfahren der Erfindung.
  • 2c illustriert die Weise, auf die rollende Primer in aufeinanderfolgenden Zyklen der Amplifikation, der Markierungsübertragung und der Matrizenmutation ausgewählt werden.
  • 2d illustriert die Verwendung von S- und T-Primern in einer Ausführungsform der Erfindung.
  • 3 illustriert im Diagramm einen Apparat zum Nachweis von markierten Anhängen (Tags) auf einer räumlich zugänglichen Ansammlung von Anhangs (Tag)-Komplementen.
  • Definitionen
  • "Komplement" oder "Anhangs (Tag)-Komplement" wie hierin in Bezugnahme auf Oligonucleotid-Anhänge (Tags) verwendet bezieht sich auf ein Oligonucleotid, mit dem ein Oligonucleotid-Anhang (Tag) spezifisch hybridisiert, um eine perfekt passende Duplex oder Triplex zu bilden. In Ausführungsformen, in denen eine spezifische Hybridisierung eine Triplex ergibt, kann der Oligonucleotid-Anhang (Tag). so ausgewählt werden, dass er entweder doppelsträngig oder einzelsträngig ist. Demnach bedeutet der Begriff "Komplement" dort, wo Triplices gebildet werden, dass er entweder ein doppelsträngiges Komplement eines einzelsträngigen Oligonucleotid-Anhangs (Tags) oder ein einzelsträngiges Komplement eines doppelsträngigen Oligonucleotid-Anhangs (Tags) begleitet.
  • Der Begriff "Oligonucleotid", wie hierin verwendet, umfasst lineare Oligomere von natürlichen oder modifizierten Monomeren oder Verbindungen, einschließlich Desoxyribonucleosiden, Ribonucleosiden, anomeren Formen davon, Peptid-Nucleinsäuren (PNAs) und Ähnliche, welche durch ein reguläres Muster von Monomer-zu Monomer-Interaktionen wie dem Watson-Crick-Typ der Basenpaarung, der Basenstapelung, dem Hoogsteen- oder dem reversen Hoogsteen-Typ der Basenpaarung oder Ähnlichem zur spezifischen Bindung an ein Polynucleotid fähig sind. Üblicherweise sind Monomere durch Phosphodiesterbindungen oder Analoga davon verbunden und bilden Oligomere, die in der Größe zwischen wenigen monomeren Einheiten, z. B. 3–4 zu mehreren zehn monomeren Einheiten liegen. Wird ein Oligonucleotid durch eine Buchstabensequenz dargestellt wie "ATGCCTG", dann wird dies so verstanden, dass die Nucleotide in 5'?3'-Anordnung von links nach rechts vorliegen und dass "A" Desoxyadenosin bezeichnet, "C" Desoxycytidin bezeichnet, "G" Desoxyguanosin bezeichnet und "T" Thymidin bezeichnet, wenn nicht anders dargelegt. Analoga von Phosphodiester-Verbindungen umfassen Phosphorthioat, Phosphordithioat, Phosphoranilidat, Phosphoramidat und Ähnliche. Für den Fachmann ist es klar, dass, wenn Oligonucleotide, die natürliche oder unnatürliche Nucleotide haben, verwendet werden, z. B. wenn ein Verfahren durch Enzyme benötigt wird, in der Regel Oligonucleotide, die aus natürlichen Nucleotiden bestehen, benötigt werden.
  • "Perfekt passend" in Bezug auf eine Duplex bedeutet, dass die Poly- oder Oligonucleotidstränge, die die Duplex zusammensetzen, eine doppelsträngige Struktur mit einer anderen bilden, auf eine Weise, dass jedes Nucleotid in jedem Strang eine Watson-Crick-Baseripaarung mit einem Nucleotid aus dem anderen Strang eingeht. Der Begriff umfasst auch die Paarung von Nucleosid-Analoga wie Desoxyinosin, Nucleosiden mit 2-Aminopurinbasen und Ähnlichem, welche verwendet werden können. In Bezug auf eine Duplex bedeutet der Begriff dass die Triplex aus einer perfekt passenden Duplex und einem dritten Strang besteht, in dem jedes Nucleotid eine Hoogsteen- oder reverse Hoogsteen-Bindung mit einem Basenpaar der perfekt passenden Duplex eingeht. Umgekehrt bedeutet ein "nicht-passen" in einer Duplex zwischen einem Anhang (Tag) und einem Oligonucleotid, dass es einem Nucleotid-Paar oder -Triplett in der Duplex oder in der Triplex nicht gelingt, eine Watson-Crick- und/oder Hoogsteen- und/oder reverse Hoogsteen-Bindung einzugehen.
  • Wie hierin verwendet umfasst "Nucleosid" die natürlichen Nucleoside einschließlich 2'-Desoxy- und 2'-Hydroxy-Formen, wie z. B. in Kornberg und Baker, DNA Replication, 2. Ausgabe (Freeman, San Francisco 1992) beschrieben. "Analoga" in Bezug auf Nucleoside umfasst synthetische Nucleoside, die modifizierte Basengemische und/oder modifizierte Zuckergemische haben, z. B. wie beschrieben von Scheit, Nucleotide Analogs (John Wiley, New York, 1980); Uhlman und Peyman, Chemical Reviews, 90: 543–584 (1990) oder Ähnliche mit der einzigen Maßgabe, dass sie zur spezifischen Hybridisierung fähig sind. Solche Analoga umfassen synthetische Nucleoside, die so konzipiert sind, dass sie die Bindungseigenschaften verstärken, die Komplexität der Sonden reduzieren, die Spezifität erhöhen und Ähnliches.
  • Wie hierin verwendet bedeutet "Amplicon" das Produkt einer Amplifikationsreaktion. Das heißt, es ist eine Population identischer Polynucleotide, normalerweise doppelsträngig, die von wenigen Startsequenzen repliziert sind. Vorzugsweise werden Amplicons in einer Polymerase-Kettenreaktion (PCR) hergestellt.
  • Wie hierin verwendet bezieht sich "Komplexität reduzierendes Molekül" auf ein natürliches oder unnatürliches Nucleotid (i), das, wenn es entweder mit mehr als einem natürlichen Nucleotid gepaart wird, eine Duplex von im Wesentlichen äquivalenter Stabilität, zu der derselben Duplex, die verwandte natürliche Nucleotide enthält, d.h. das natürliche Nucleotid, das es ersetzt, bilden kann und (ü) das durch Enzyme gespalten werden kann, die im Wesentlichen ihrem verwandten natürlichen Nucleotid ähnlich sind. Vorzugsweise zeigen Komplexitäts-reduzierende Nucleotide keine Degenerationen oder Mehrdeutigkeit, wenn sie durch DNA-Polymerasen verarbeitet werden. Das bedeutet, wenn ein Komplexitäts reduzierendes Nucleotid in einer Matrize ist, die durch eine Polymerase kopiert wird, schließt die Polymerase ein einzigartiges Nucleotid an der Stelle eines Komplexitäts reduzierenden Nucleotids ein. Ähnlich wird, wenn ein Komplexitäts reduzierendes Nucleotidtriphosphat ein Substrat für eine DNA-Polymerase ist, dies nur an der Stelle einer einzigen Art von Nucleotid, d. h. einem oder dem anderen seiner Komplemente eingeschlossen, jedoch nicht bei beiden. Kandidaten für Komplexitäts reduzierende Nucleotide werden in geradeaus gerichteten Hybridisierungstests ausreichend getestet, z. B. mit Vergleichen der Schmelztemperatur und in Einschlusstests, in welchen Testpolymerisierungen durch herkömmliche Sequenzierung oder durch Einschluss von radio-markierten Komplexitäts reduzierenden Nucleotiden überprüft werden, z. B. Bessman et al., Proc. Natl. Acad. Sci. 44: 633 (1958). Vorzugsweise bedeutet "im Wesentlichen äquivalente Stabilität", wie hierin verwendet, dass die Schmelztemperatur einer 13-meren Testduplex, wie bei Kawase et al., Nucleic Acids Research, 14: 7727–7736 (1986) beschrieben, innerhalb von zwanzig Prozent derer derselben Duplex, die ein natürliches verwandtes Nucleotid enthält, liegt.
  • Detaillierte Beschreibung der Erfindung
  • Die Erfindung stellt ein Verfahren zur 'Sequenzierung großer Mengen an Polynucleotiden parallel durch die Verwendung von Oligonucleotid-Anhängen (Tags) zum Transport von Sequenzinformationen, welche in großen Mengen erhalten werden oder biochemischen Verfahren in der löslichen Phase an verschiedenen räumlich erreichbaren Stellen auf einem Festkörper zur Verfügung. Signale, die an den räumlich erreichbaren Stellen erzeugt werden übertragen die Sequenzinformation, die durch den Oligonucleotid-Anhang (Tag) getragen wird. Wie nachstehend ausführlicher erklärt, wird die Sequenzierung vorzugsweise durch wiederholte Amplifikationszyklen der Polynucleotide, durch Identifikation der Nucleotide und Verkürzen der Polynucleotide durchgeführt. Bei den verkürzenden Zyklen wird eine vorbestimmte Anzahl an Nucleotiden (normalerweise die im vorherigen Zyklus identifizierten Nucleotide) von den Polynucleotiden gespalten und die verkürzten Polynucleotide werden im nächsten Zyklus der Amplifikation, Identifikation und Verkürzung verwendet. Da die Oligonucleotid-Anhänge (Tags) spezifisch mit dem gleichen Ort auf einer räumlich erreichbaren Anordnung an Anhang (Tag)-Komplementen hybridisieren, kann die Sequenz eines bestimmten Polynucleotids durch Beobachten der Signale gelesen werden, die von diesem Ort durch aufeinanderfolgende Zyklen des Verfahrens erzeugt werden.
  • Genauer wird die Endung durch die folgenden Schritte durchgeführt: (a) Anheften eines Oligonucleotid-Anhangs (Tags) von einer Auswahl an Anhängen (Tags) an jedes Polynucleotid einer Population, um Anhang (Tag)-Konjugate auf eine solche Weise zu bilden, dass im Wesentlichen an alle verschiedenen Polynucleotide verschiedene Oligonucleotid- Anhänge (Tags) angeheftet sind; (b) Bereitstellen einer Markierung für jeden Oligonucleotid-Anhang (Tag) zur Identifizierung eines oder mehrerer terminaler Nucleotide seiner assoziierten Polynucleotide; (C) Übertragen der markierten Oligonucleotid-Anhänge (Tags) oder Kopien davon auf eine räumlich erreichbare Anordnung von Anhang (Tag)-Komplementen für die Sortierung und spezifische Hybridisierung der Oligonucleotid-Anhänge (Tags) oder Kopien davon und Nachweis der Markierungen. Bevorzugt umfasst das Verfahren des Weiteren die Schritte der (d) Verkürzung der Polynucleotide, so dass weitere Sequenzinformation erhalten werden kann und (e) dem Wiederholen der Schritte (b)–(d) bis eine ausreichende Sequenzinformation für die Identifizierung der Polynucleotide angesammelt ist. Bevorzugt umfasst der Schritt der Übertragung der Oligonucleotid-Anhänge (Tags) zu der Anordnung an Anhangs (Tag)-Komplementen die Trennung der Oligonucleotid-Anhänge (Tags) von dein Amplifikations-Reaktionsgemisch, der Spaltung der Oligonucleotid-Anhänge (Tags) von ihren Anhang (Tag)-Polynucleotid-Konjugaten und dem Anwenden der Oligonucleotid-Anhänge (Tags) an der Anordnung an Anhang (Tag)-Komplementen.
  • Vorzugsweise wird der Schritt der Bereitstellung einer Markierung für die Oligonucleotid-Anhänge (Tags) durch die selektive Amplifikation von Polynucleotiden in einer Polymerase-Kettenreaktion durchgeführt. Wie in 2a in der bevorzugten Ausführungsform gezeigt wird eine Population von markierten Polynucleotiden (200), welche flankierende Primer-Bindungsstellen (12 & 22) haben, in vier Reaktionsgefäße (28)–(34) aliquotiert, welche herkömmliche oder "T"-Primer (210) und "S" oder zweite Primer, welche definierte 3'-terminale Nucleotide von A, C, G beziehungsweise T (202)–(208) enthalten. Ein T-Primer enthält vorzugsweise eine Fluoreszenzmarkierung, die das definierte 3'-terminale Nucleotid des S-Primers in seinem Reaktionsgefäß anzeigt. Nach der Amplifikation (207) wird ein Aliquot der Amplicons aus jedem Gefäß genommen (209), gelagert, und die markierten Oligonucleotid-Anhänge (Tags) werden für die Überführung in eine räumlich erreichbare Anordnung (48) aufbereitet. Getrennt davon werden Aliquots auch von jedem Gefäß genommen, gelagert und durch Mutation (wenn nötig) oder Spalten der Polynucleotide zur Entfernung des eben identifizierten Nucleotids oder der Nucleotide, verkürzt (213). Die verkürzten Polynucleotide werden dann für den nächsten Zyklus der selektiven Amplifikation, dem Transfer von markierten Anhängen (Tags) und Verkürzung erneut vier Reaktionsgefäße aliquotiert (214). In aufeinanderfolgenden Zyklen werden Anhang (Tag)- Komplement-Orte (216), die markierte Oligonucleotide erhalten, aufeinanderfolgend Signale erzeugen, die die definierten 3'-terminalen Nucleotide der S-Primer anzeigen.
  • In einer Auführungsform wird die Identität des einen oder mehrerer terminaler Nucleotide durch die selektive Amplifikation von korrekten Sequenzprimern in einer Polymerase-Kettenreaktion (PCR) bestimmt, bei der Primer verwendet werden, deren 3'-Sequenzen zu jeder möglichen Sequenz des einen oder mehrerer terminaler Nucleotide, deren Identität gesucht wird, komplementär sind. Demnach können, wenn die Identität eines einzigen terminalen Nucleotids gesucht wird, vier getrennte Polymerase-Kettenreaktionen mit einem identischen Primer in jeder der vier Reaktionen ausgeführt werden, wobei jedoch jedes der anderen vier Primer ein 3'-terminales Nucleotid hat, welches entweder A, C, G, oder T ist. Wie hierin verwendet, wird dieses Nucleotid als "definiertes 3'-terminales Nucleotid bezeichnet. Das definierte 3'-terminale Nucleotid ist so positioniert, dass es für die stattfindende Amplifikation zum terminalen Nucleotid des Polynucleotids komplementär sein muss. Demnach ergibt die Identität eines Primers in einer erfolgreichen Amplifikation die Identität einer Zielsequenz. Diese Information wird dann parallel durch Ablösen oder Kopieren der amplifizierten Anhänge (Tags) von der Population der Polynucleotide und durch ihr Sortieren auf ihre Anhang (Tag)-Komplemente auf einer räumlich erreichbaren Anordnung extrahiert. Nach der Amplifikation und Identifikation werden die Polynucleotide durch Entfernen eines oder mehrerer terminaler Nucleotide, zum Beispiel durch Spalten mit einer Restriktions-Endonuclease vom Typ IIs verkürzt. Durch Wiederholen dieses Prozesses für aufeinanderfolgende Nucleotide werden die Sequenzen einer Population von Polynucleotiden parallel bestimmt.
  • In einer anderen Ausführungsform wird der Schritt der Verkürzung dadurch ausgeführt, dass ein Primer durch Matrizenmutation entlang der Polynucleotidmatrizen angenähert wird. Ein wichtiges Merkmal dieser Ausführungsform ist die Bereitstellung eines Satzes von Primern, hierin als "rollende Primer" bezeichnet, die Komplexitäts-reduzierende Nucleotide zur Reduzierung der Anzahl an Primern enthalten, welche notwendig sind für die Bindung an jede mögliche Primer-Bindungsstelle auf Matrizen, die von den Polynucleotiden gebildet werden. Ein anderes wichtiges Merkmal dieser Ausführungsform ist die systematische Ersetzung mindestens eines der vier Nucleotide in dem Polynucleotid mit seinem verwandten Komplexitäts-reduzierenden Nucleotid oder Komplement davon. Die Sequenzierung wird durch Verbinden von rollenden Primern initiiert, welche sich nur in ihren terminalen Nucleotiden von einer Primer-Bindungsstelle der Polynucleotid-Matrizen unterscheiden, so dass nur der rollende Primer, dessen terminales Nucleotid ein perfektes Komplement mit der Matrize bildet, zur Erzeugung eines Verlängerungs-Produkts führt. Nach Amplifizierung des doppelsträngigen Verlängerungsprodukts zur Bildung eines Amplicons wird das terminale Nucleotid und damit sein Komplement in der Matrize durch die Identität des Amplicons identifiziert. Zum Beispiel kann in einer Form dieser Ausführungsform ein terminales Nucleotid durch die Gegenwart oder Abwesenheit von Amplicon in vier Gefäßen identifiziert werden, welche für getrennte Verlängerungs- und Amplifikationsreaktionen verwendet werden. Die Primer-Bindungsstelle der Matrize des erfolgreich amplifizierten Polynucleotids wird dann zum Beispiel durch Oligonucleotid-geführte Mutagenese derart mutiert, dass ein nachfolgender rollender Primer aus dem Satz ausgewählt werden kann, welcher an einer Stelle, die in Richtung auf die Verlängerung hin durch ein Nucleotid in Bezug zur Bindungsstelle des vorherigen rollenden Primers verschoben ist, eine perfekt passende Duplex mit der mutierten Matrize bildet. Die Schritte der selektiven Verlängerung, Amplifikation und Identifikation werden dann wiederholt. Auf diese Weise "rollen" die Primer während des Sequenzierungsverfahrens das Polynucleotid entlang, wobei sie sich mit jedem Zyklus entlang der Matrize eine Base auf einmal bewegen. In der Ausführungsform mit dem "rollenden Primer" wird das Anhang (Tag)-Konjugat in jedem Zyklus der Schritte um ein einziges Nucleotid verkürzt.
  • Die bevorzugten Ausführungsformen und herkömmlichen Elemente der Erfindung werden nachfolgend detaillierter beschrieben.
  • Rollende Primer
  • Rollende Primer sind vorzugsweise zwischen 15 und 30 Nucleotide lang und haben die folgende Form: X1X2 ... X kYY ... YN wobei die Xi's Nucleotide sind, welche vorzugsweise in repetitiven Untereinheiten angeordnet sind; Y's sind Komplexitäts reduzierende Nucleotide auf ihren Komplementen; und N ist ein terminales Nucleotid von entweder A, C, G, oder T, oder ein Komplexitäts reduzierendes Nucleotid wie Desoxyinosin. Die Segmente von Xi-Nucleotiden, hierin als die "Matrizen positionierenden Segmente" bezeichnet, sind vorzugsweise in repetitiven Untereinheiten arrangiert, so dass der Primer auf der Primerbindungsstelle mit dem terminalen Nucleotid das dem ersten Nucleotid des Polynucleotids gegenüberliegt, ordentlich registriert wird. Die Wiederholungs-Untereinheit ist vorzugsweise lang genug, so dass sie, wenn der Primer bei einem oder mehreren Wiederholungs-Untereinheiten nicht mehr registriert wird, zu instabil wird, um an der Matrize zu bleiben. Die Wiederholungs-Untereinheit ist vorzugsweise 4 bis 8 Nucleotide lang. Wie im Folgenden deutlicher wird, reduziert die Anordnung des Matrizen positionierenden Segments als einen Satz von identischen Untereinheiten die Gesamtanzahl von Primern, die in einem Satz von rollenden Primern benötigt wird. Die Matrizen positionierenden Segmente werden vorzugsweise aus einer Gruppe von nicht weniger als zwei Nucleotiden ausgewählt, wobei mindestens eines davon ein Komplement eines verwendeten Komplexitäts reduzierenden Nucleotids ist. In bevorzugten Ausführungsformen zeigt das unterstrichene X k die Position an, bei dem die Matrize durch Oligonucleotid gerichtete Mutagenese mutiert wird, z. B. durch ein Verfahren, das in Current Protocols in Molecular Biology (John Wiley & Sons, New York, 1995) gänzlich beschrieben ist.
  • Das Segment YY ... YN wird hierin als der "Verlängerungsbereich" des Primers bezeichnet, da der Primer von diesem Ende entlang der Matrize verlängert wird. Die Verlängerung wird bevorzugt durch eine Polymerase durchgeführt, so dass YY ... YN in 5'-3'-Orientierung vorliegt. Mit anderen Verlängerungsverfahren könnte die Orientierung jedoch 3'-5' sein, z. B. durch Verbinden von Oligonucleotid-Blocks, wie im U.S.-Patent 5.114.839 beschrieben. Ein wichtiges Merkmal der Erfindung ist, dass die Verlängerung nur stattfindet, wenn das terminale Nucleotid, N, ein Watson-Crick-Basenpaar mit dem angrenzenden Nucleotid in der Matrize bildet. Der Verlängerungsbereich umfasst die Minimumanzahl von mehr als zwei Nucleotiden, welche mit der Matrize eine stabile Duplex bilden können, sogar wenn sie an den X k-Positionen nicht zueinander passen. Das bedeutet, dass die Duplex zwischen dem Verlängerungsbereich und der Matrize in den bevorzugten Ausführungsformen stabil genug sein muss, damit die Oligonucleotid gerichtete Mutagenese durchgeführt werden kann. Der Verlängerungsbereich umfasst bevorzugt zwischen 3 und 6 Nucleotide und am meisten bevorzugt umfasst sie 4 Nucleotide. Y wird bevorzugt aus der Gruppe bestehend aus Desoxyadenosin (A) und Desoxyinosin (I) ausgewählt.
  • Die Anzahl an rollenden Primern, welche für eine bestimmte Ausführungsform benötigt wird, hängt von mehreren Faktoren ab, einschließlich dem Typ der verwendeten Komplexitäts reduzierenden Nucleotide, der Länge des Primers, der Länge des Verlängerungsbereichs und der Länge der Wiederholungs-Untereinheit des Matrizen positionierenden Segments. Der folgende Satz an Primern (SEQ ID NO: 1–6) hat zum Beispiel ein Matrizen positionierendes Segment, welches 18 Nucleotide lang ist und welches aus Untereinheiten, aus G's und A's zusammengesetzt ist, welche 6 Nucleotide lang sind.
  • Figure 00130001
  • Wenn Y A oder I ist und N A, C, I oder T ist, dann umfasst der vorstehende Satz an rollenden Primern 192 (= 6 × 23 × 4) Primer. Im Besonderen stellt jedes "YYY" jede der folgenden Sequenzen dar: AAA, AAI, AII, IAI, IAA, IIA und III. Wie aus dem vorstehenden Beispiel ersichtlich ist, ist ein Matrizen positionierendes Segment verfügbar, um den Primer nach jedem Zyklus ein Nucleotid weiter in Richtung zur Verlängerung zu verschieben. Das bedeutet, wenn ein Primer aus Untergruppe (5) in einem Zyklus verwendet würde, würde der nächste Primer von Untergruppe (6) ausgewählt, wenn ein Primer aus Untergruppe (6) in einem Zyklus verwendet würde, würde der nächste Primer von Untergruppe (1) ausgewählt und so weiter. Wird PCR verwendet, um die Matrize zu kopieren und zu amplifizieren, so wird die Matrize als Folge davon in jedem Zyklus um ein Nucleotid verkürzt.
  • Alternativ kann die Bindungsstärke des Verlängerungsbereichs durch Ersetzen von I durch G und von A durch Diaminopurin (D) an allen Positionen mit Ausnahme von jenen, welche direkt an das terminale Nucleotid angrenzen, verbessert werden. Das bedeutet, ein alternativer Satz an "YYY"-Sequenzen umfasst DDA, DDI, DGI, DGA, GDI, GDA, GGI und GGA.
  • Sequenzierung mit rollenden Primern Im Allgemeinen wird dieser Aspekt meiner Erfindung mit den folgenden Schritten durchgeführt: (a) Bereitstellen eines Satzes von Primern, z. B. die rollenden Primer, wobei jeder Primer des Satzes einen Verlängerungsbereich hat, der einen oder mehrere Komplexitäts reduzierende Nucleotide und ein terminales Nucleotid umfasst; (b) Bilden einer Matrize, die ein Primerbindungsstelle und das Polynucleotid umfasst, dessen Sequenz bestimmt werden soll, wobei die Primerbindungsstelle komplementär zur Extensionsregion von mindestens einem Primer des Satzes ist; (c) Verbinden eines Primers von dem Satz mit der Primerbindungsstelle, wobei der Verlängerungsbereich des Primers eine perfekt passende Duplex mit der Matrize bildet und Verlängern des Primers, so dass er eine doppelsträngige DNA bildet; (d) Verlängerung der doppelsträngigen DNA, so dass sie ein Amplicon bildet; (e) Identifizieren des terminalen Nucleotids der Extensionsregion des Primers durch die Identität des Amplicons; (f) Mutation der Primerbindungsstelle der Matrize, so dass die Primerbindungsstelle um einen oder mehrere Nucleotide in Richtung zur Verlängerung verschoben wird, wobei das Polynucleotid dadurch um ein oder mehrere Nucleotide verkürzt wird; und (g) Wiederholungsschritte (c) bis (f) bis die Nucleotidsequenz des Polynucleotids bestimmt ist.
  • Vor der Sequenzierung wird ein Polynucleotid so behandelt, dass ein oder mehrere Arten von Nucleotiden durch ihre verwandten Komplexitäts reduzierenden Nucleotide substituiert werden. In einer bevorzugten Ausführungsform wird dies auf angenehme Weise durch Replikation der Polynucleotide in einer PCR durchgeführt, wobei dGTP durch dITP ersetzt wird. Dann wird eine Matrize zur Sequenzierung durch Verbinden der Polynucleotide mit einer Primerbindungsstelle hergestellt. Typischerweise wird dies durch Inserieren des Polynucleotids in einen Vektor, der die Primerbindungsstelle trägt, durchgeführt. Die Primerbindungsstelle liegt vorzugsweise in der 3'-Richtung relativ zum Polynucleotid, so dass Primer-Verlängerungen mit einer DNA-Polymerase durchgeführt werden können.
  • Ein solche Insertion wird normalerweise unter Verwendung einer Restriktionsendonuclease mit stumpfem Schnittende, wie Stu I oder EcI 136 II durchgeführt, wenn die vorstehend beschriebenen rollenden Primer verwendet werden. Diese Enzyme hinterlassen eine Sequenz aus drei Basen, welche sich benachbart zum Anfang des Polynucleotids befindet, das zu den vorstehend beschriebenen Basen komplementär ist. Vorzugsweise befindet sich ein Primer, hierin als "T"-Primer bezeichnet, am anderen Ende des Polynucleotids, so dass es durch PCR amplifiziert werden kann. Zum Beispiel kann eine Sequenzierung auf einer solchen Matrize wie vorstehend gezeigt in vier getrennten Reaktionen initiiert werden, wenn man die Verwendung der vorstehend beschriebenen Primer (SEQ ID NO: 1–6) annimmt.
    Figure 00150001
    worin "NNNN ... NNN" das Polynucleotid und "BBBB ... BB" das Komplement einer T-Primerbindungsstelle zur Amplifikation der Sequenzen durch PCR darstellen. Die unterstrichenen Sequenzen zeigen die Verlängerungsbereiche der rollenden Primer an. Das Matrizen positionierende Segment der Primer wurde absichtlich ausgewählt, so dass es zu einem Primer aus Untergruppe (I) entsprach, welche vorstehend beschrieben wurde. Wenn – um das Verfahren zu illustrieren – angenommen wird, dass die Sequenz des Polynucleotids, welche zur Bindungsstelle des rollenden Primers benachbart ist, "TAIC" ist, wird nur Reaktion 1 die Bildung eines Amplicons ergeben und das erste Nucleotid des Polynucleotids wird als T identifiziert. Vorzugsweise wird der Primer vor der Amplifikation mit einer DNA-Polymerase von hoher Genauigkeit, wie Sequenase, in Gegenwart von dATP, dCTP, dITP und dTTP in den bevorzugten Ausführungsformen verlängert. Es sollte so verstanden werden, dass eine selektive Verlängerung auch in einem einzigen Gefäß durchgeführt werden kann, zum Beispiel wenn markierte Primer verwendet werden und die Verlängerungsprodukte von den Primern, die nicht verlängern, getrennt werden. Das wichtige Merkmal ist, dass nur Primer, deren terminales Nucleotid mit der Matrize ein korrektes Watson-Crick-Basenpaar bilden, verlängert werden. Vorzugsweise wird nach der Verlängerung jede einzelsträngige DNA in dem Reaktionsgemisch mit einer einzelsträngigen Nuclease, wie Mungobohnennuclease gespalten. Nach einer solchen Verlängerung und Spaltung wird die übriggebliebene doppelsträngige DNA dann, wiederum in Gegenwart von dATP, dCTP, dITP und dTTP in den bevorzugten Ausführungsformen amplifiziert, um ein Amplicon herzustellen. Diese Amplifikation wird vorzugsweise durch 5–10 Zyklen PCR vervollständigt, so dass die Wahrscheinlichkeit von anormalen Amplifikationsprodukten, welche produziert werden, gering ist.
  • Beispiele für das Amplicon aus Reaktion 1 werden entfernt und in vier neue Gefäße aliquotiert, welche die folgenden Primer aus Untergruppe (2)(SEQ ID NO: 2) enthalten:
  • Figure 00160001
  • Da das erste Nucleotid des Polynucleotids in dem vorherigen Zyklus bestimmt wurde, wählt man Primer aus Untergruppe (2) aus, deren Verlängerungsregionen, wie gezeigt, die Form "IIAN" haben. Dies führt zu einem Nicht-Passen bei dem unterstrichenen T in den unteren Strängen, welches in jedem Amplicon, welches durch Oligonucleotid-gerichtete Mutagenese hergestellt wurde, zu C mutiert ist. Das bedeutet, dass der Primer das Oligonucleotid ist, das die Mutation der Stelle in dem Amplicon steuert. Demnach wird das "T" in den Amplicons in ein "C" verwandelt. Da das zweite Nucleotid des Ziels A ist, führen sowohl Reaktion 7 als auch 8 zur Herstellung von Amplicons. Jedes Amplicon kann für den nächsten Zyklus als Probe genommen werden, da gegenwärtig nur ein einziges Polynucleotid betrachtet wird. Wie im Folgenden ausführlicher erklärt, muss ein zusätzlicher "Vermischungsschritt" durchgeführt werden, wenn multiple Polynucleotide gleichzeitig sequenziert werden.
  • Wie zuvor werden Proben von einem der beiden Amplicons in vier neue Gefäße verteilt, welche Primer von der Untergruppe (3) (SEQ ID NO: 3) mit einer Verlängerungsregion mit der Form "IAIN" enthalten.
  • Figure 00170001
  • Sowohl Reaktion 9 als auch Reaktion 10 werden Amplicons herstellen; demnach wird die dritte Base als "I" identifiziert. Für den nächsten Zyklus führt dies dann zur Selektion von Primern aus der Untergruppe (4), die eine Verlängerungsregion mit der From "AIAN" hat und das Verfahren wird fortgesetzt.
  • Sequenzierung von markierten Polynucleotiden unter Verwendung von rollenden Primern
  • Eine bevorzugte Ausführungsform zur simultanen Sequenzierung einer Population von markierten Polynucleotiden wird in 2b im Diagramm gezeigt. Die Population von markierten Polynucleotiden wird, wie vorstehend beschrieben, bevorzugt von einem Vektor in Gegenwart von dATP, dCTP, dITP und dTTP amplifiziert, um eine Population von doppelsträngigen DNAs (10) zu erhalten, welche eine T-Primer-Bindungsstelle (12), eine Spaltungsstelle (14) – welche wie nachstehend gezeigt optional ist, einen Anhang (Tag) (16), eine Spaltungsstelle (18), Polynucleotide (20) und eine rollende Primer-Bindungsstelle (22) hat. Die Population doppelsträngiger DNAs (10) wird methyliert, so dass, wenn Anhänge (Tags) später abgeschnitten werden, nur die doppelsträngigen DNAs; welche selektiv amplifiziert wurden – und denen deshalb methylierte Basen fehlen -gespalten werden, um Anhänge (Tags) für den Nachweis zu erhalten.
  • IIn der anfänglichen Population enthält die rollende Primer-Bindungsstelle (22) ein bekanntes Komplement zum Verlängerungsbereich (24), zum Beispiel AGG, wie im nachstehenden Beispiel gezeigt. Beispiele für die anfängliche Population werden bevorzugt in vier getrennte Gefäße (28–34) überführt (26), wo sie mit den rollenden Primern aus Untergruppe (1), welche vorstehend beschrieben ist und welche die Verlängerungsbereiche -AIIA, -AIIC, -AIIG und AIIT hat, kombiniert werden. (Die vier rollenden Primer könnten in ein einziges Gefäß platziert werden und man könnte sie gegeneinander um Verlängerung kompetitieren lassen; Irrtümer sind jedoch weniger wahrscheinlich, wenn die Primer getrennt verwendet werden). Die rollenden Primer der Untergruppen (1)–(6) werden hierin verwendet, um die Erfindung beispielhaft darzustellen. Natürlich könnten viele alternative Formen der rollenden Primer verwendet werden. In aufeinanderfolgenden Zyklen wird der Übertragungsschritt (26) komplexer, weil mehr als vier Gefäße, d. h. bis zu 32 (= 4 × 8) in der hier beispielhaften Ausführungsform, für die Verlängerungsreaktionen benötigt werden. Nach der Verbindung der doppelsträngigen DNAs (l0) mit den geeigneten rollenden Primern werden die folgenden Schritte (36) unternommen: die doppelsträngigen DNAs werden z. B. durch Erhitzen denaturiert; die Temperatur wird gesenkt, damit die rollenden Primer an die Bindungsstelle für die rollenden Primer anheften können; die Primer werden mit einer DNA-Polymerase von hoher Genauigkeit, wie Sequenase, in Gegenwart von dATP, dCTP, dITP und dTTP verlängert; bevorzugt wird jede übriggebliebene einzelsträngige DNA, z. B. mit einer einzelsträngigen Nuclease, wie Mungobohnennuclease gespalten, um die Wahrscheinlichkeit einer Interferenz der übrig gebliebenen einzelsträngigen DNA in der nachfolgenden Amplifikation zu reduzieren; T-Primer wird zugesetzt; und die doppelsträngigen Verlängerungsprodukte werden amplifiziert, vorzugsweise mit 5–10 Zyklen PCR um Amplicon A (38), Amplicon C (40), Amplicon G (42) beziehungsweise Amplicon T (44) zu erzeugen.
  • Nachdem von jedem Amplicon eine Probe genommen wurde, werden Anhänge (Tags) über Spaltungsstellen (14) und (18) ausgeschnitten und markiert (48), wie im Folgenden detaillierter beschrieben wird. Die markierten Anhänge (Tags) werden dann entweder getrennt an ihre Anhang (Tag)-Komplemente auf Festphasenträgermaterial (48) angeheftet oder gelagert und an den Träger angeheftet, abhängig von dem verwendeten Markierungssystem, der Komplexität des Anhangs(Tag)-Gemisches und ähnliche Faktoren. Proben der Amplicons werden ebenfalls in Übereinstimmung mit dem Verfahren der Erfindung für das weitere Verfahren (50–56) verwendet. Abhängig von der Identität des zuletzt bestimmten Nucleotids und der Identität des aktuellen Verlängerungsbereichs kann eine Probe entweder getrennt in Gefäße mit rollenden Primern für den nächsten Zyklus aliquotiert werden oder eine Probe kann mit einem oder mehreren anderen Proben kombiniert werden und in Gefäße mit rollenden Primern für den nächsten Zyklus aliquotiert werden.
  • Anders als im Falle des einzelnen Polynucleotids wird, wenn eine Population von Polynucleotiden sequenziert wird, jedes Gefäß am Zusammenschluss der Amplifikationsreaktion fast immer ein Amplicon enthalten. Demnach entsprechen die Amplicons in den Gefäßen 28, 30, 32 und 34 Polynucleotiden, die ein T, G (oder F), C beziehungsweise A an ihren Anfangspositionen haben (oder allgemeiner, an der Nucleotidstelle, die benachbart zur Bindungsstelle des rollenden Primers liegt). Mit dieser Information und einer Kenntnis der Sequenz des Verlängerungsbereichs des aktuellen Amplicons können die rollenden Primer des nächsten Zyklus ausgewählt werden. Wie im Falle des einzelnen Polynucleotids wird in jedem aufeinanderfolgenden Zyklus ein rollender Primer ausgewählt, der die Bindungsstelle des rollenden Primers einen oder mehrere Nucleotide weiter entlang der Matrize in Richtung auf die Verlängerung der rollenden Primer verschiebt oder vorrückt. Vorzugsweise findet die Verschiebung eines einzelnen Nucleotids in jedem Zyklus statt. Wie vorstehend beschrieben dienen die rollenden Primer, die für den Verlängerungsschritt ausgewählt wurden, auch dazu, bei der Amplifikation eine Mutation in der Matrize zu erzeugen. Die Mutation verändert das innerste Nucleotid des Verlängerungsbereichs in eines, welches zu dem Matrizen positionierenden Segment des rollenden Primers des aktuellen Zyklus komplementär ist. In den nachstehenden Tabellen wird das Muster der Primerselektion und der Amplicon-Lagerung in den Zyklen 2 bis 4 eines Sequenzierungsvorgangs für die vorstehende Ausführungsform illustriert. In dem ersten Zyklus wird die ursprüngliche Matrize zur Denaturierung und Verlängerung in vier Gefäße verteilt.
  • Auswahl der rollenden Primer für den 2. Zyklus
    Figure 00200001
  • Das Nucleotid rechts zu der Linie zwischen den Nucleotiden in der zweiten Spalte ist das terminale Nucleotid des rollenden Primers, welcher verwendet wurde, um das Amplicon zu produzieren. Im Allgemeinen ist der Algorithmus zur Bestimmung des rollenden Primers des nächsten Zyklus wie folgt: (i) Abspalten des Nucleotids, welches sich in der Extensionsregion des aktuellen rollenden Primers distal zum terminalen Nucleotid befindet (das "I", der "IIA"-Sequenzen am weitesten links in der zweiten Spalte)(ii) Bestimmung, welches Nucleotid, I oder A komplementär ist zu dem Nucleotid, welches mit dem terminalen Nucleotid verpaart ist (z. B. für das vorstehende Beispiel: "A" für Amplicon A, "A" für Amplicon C – da A sich mit I ebenso gut wie mit T verpaart, "I" für Amplicon G – da sich I mit C verpaart, und "I" für Amplicon T – da sich I auch mit A verpaart), (iii) Insertion des bestimmten Nucleotids, I oder A, mit dem linken terminalen Nucleotid. Für diese Ausführungsformen wird das allgemeine Muster von Übergängen zwischen Sequenzen des Verlängerungsbereichs in 2b illustriert. Längere Verlängerungsregionen führen zu komplexeren Mustern, aber der grundlegende Algorithmus, der erlaubbare Übergänge definiert, bleibt derselbe.
  • Auswahl der rollenden Primer für den 3. Zyklus
    Figure 00210001
  • Auswahl der rollenden Primer für den 4. Zyklus
    Figure 00220001
  • Typischerweise werden durch den achten Zyklus zweiunddreißig Reaktionen benötigt und es werden in jedem Zyklus weiter benötigt bis die Sequenzierung angehalten wird.
  • Natürlich können zusätzliche Schritte zu den vorstehend erläuterten eingesetzt werden, zum Beispiel die Trennung des anfänglichen Extensionsprodukts von externer einzelsträngiger DNA und/oder der einzelsträngigen Nuclease, wenn eine solche verwendet wird. Eine Manipulation von Polynucleotiden und anderen Reagenzien, die Temperaturkontrolle von PCRs und Ähnliches kann mit herkömmlich erhältlichen Laborrobotern, z. B. Biomek 1000 (Beckman Instruments, Fullerton CA) durchgeführt werden.
  • Rollende Primer und T-Primer können so konstruiert sein, dass sie ein doppelsträngiges Segment haben, das in der Lage ist, über eine Triplexbildung zur Trennung an ein verankertes einzelsträngiges Oligonucleotid zu binden, wie z. B. von Ji et al., Anal. Chem. 65: 1323–1328 (1993); Cantor et al., U.S. Patent 5.482.836 oder Ähnliche gelehrt wird. Demnach können zum Beispiel magnetische Kügelchen, die ein solches einzelsträngiges Oligonucleotid tragen, verwendet werden, um die Amplicons einzufangen und sie in ein separates Gefäß zu überführen, welches eine Nuclease zur Spaltung des Anhangs (Tags) enthält, z. B. an der Spaltungsstelle 18 jener doppelsträngigen DNAs, welche selektiv amplifiziert wurden (andere DNAs bleiben nicht amplifiziert und deshalb hemi-methyliert, deshalb findet keine Spaltung statt. Der T-Primer enthält bevorzugt ein 5'-Biotin welches es erlaubt, dass der freigesetzte Anhang gefangen und in Ruhe markiert werden kann. Nach dem Einfangen, z. B. durch avidinierte magnetische Kügelchen, werden die 3'-Stränge des doppelsträngigen Segments durch die Verwendung von T4- DNA-Polymerase oder ähnliche Enzyme in Gegenwart eines Desoxynucleosid-Triphosphats (dNTP), welches dem Nucleotid, welches benachbart zu dem Anhang (Tag) ist, entspricht, zurückgestrippt. Demnach wird, vorausgesetzt, dass die sie flankierenden Nucleotide nicht irgendwo anders entlang des Stranges zu den 3'-Enden vorhanden sind, die 3'→5'-Exonucleaseaktivität der Polymerase den 3'-Strang zu den benachbarten Nucleotiden zurückstrippen, an welchem Punkt eine Austauschreaktion eingeleitet wird, die ein weiteres Strippen hinter den benachbarten Nucleotiden verhindert. Die 3'-Enden des Anhangs (Tags) können dann in einer Verlängerungsreaktion mit markierten dNTPs markiert werden. Nach der Markierung kann der nicht biotinylierte Strang durch Denaturierung entfernt und an der räumlich erreichbaren Anordnung zum Nachweis aufgebracht werden.
  • Nachdem die markierten Anhänge (Tags) mit ihren Anhang (Tag)-Komplementen hybridisiert und nachgewiesen werden, werden die Anhänge (Tags) durch Waschen entfernt, so dass markierte Anhänge (Tags) von dem nächsten Amplicon-Satz aufgebracht werden können.
  • Sequenzierung von markierten Polynucleotiden mit S- und T-Primern
  • In einer bevorzugten Ausführungsform der Erfindung wird die Identifikation der terminalen Nucleotide von Polynucleotid-Insertionen durch die selektive Amplifikation von Sequenzen erreicht, welche mit dem 3'-Ende der S-Primer perfekt passende Duplices bilden. Wie in 2d in jedem Identifikationszyklus illustriert, werden multiple Sätze von S-Primern mit derselben T-Primen-Bindungsstelle verwendet, um PCR-Amplicons herzustellen. Segmente des Clonierungsvektors 410, der die T-Primen-Bindungsstelle 412 enthält, – Spaltungsstelle 414, –Anhang (Tag) 416, -Spaltungsstelle 418, –Polynucleotid 420 und S-Primerbindungsstelle 422 werden in getrennten PCRs für jeden der verschiedenen S-Primer, welche in 2d die Nummer 4k haben, amplifiziert. Die S-Primer der Sätze 1 bis k bilden Duplices mit der S-Primer-Bindungsstelle beziehungsweise 1 bis k terminalen Nucleotiden des Polynucleotids. In 2d repräsentiert "N" ein Gemisch der vier natürlichen Nucleotide A, C, G und T. Demnach sind die S-Primer von Satz 2 jeweils Gemische aus 4 Primern: eines mit einem 3'terminalen A und einem vorletzten Nucleotid A, C, G oder T; eines mit einem 3'terminalen G und einem vorletzten Nucleotid A, C, G oder T; und eines mit einem 3'terminalen G und einem vorletzten Nucleotid A, C, G oder T; und eines mit einem 3'terminalen T und einem vorletzten Nucleotid A, C, G oder T. In den Sätzen 3 bis k repräsentiert "B" ein Komplexitäts reduzierendes Analogum oder ein Gemisch aus solchen Analoga und natürlichen Nucleotiden. Zum Beispiel könnte B aus C und Desoxyinosin bestehen. Solche Analoga sind wohlbekannt und werden in Kong Thoo Lin et al., Nucleic Acids Research, 20: 5149–5152, U.S.-Patent 5.002867; Loakes et al., Nucleic Acids Research, 22: 4039–4043 (1994); Nichols et al., Nature, 369: 492–493 (1994); und ähnliche Bezugnahmen beschrieben. Die vorletzten N's in den S-Primern 2 bis k könnten auch Komplexitäts reduzierende Analoga sein, mit der Maßgabe, dass die Gegenwart eines solchen Analogums keine Auswirkung auf die Basenpaarung oder die Verlängerung des terminalen Nucleotids hat. In der Tat ist es nicht entscheidend, dass ein S-Primer mit seiner Bindungsstelle und dem Polynucleotid über die gesamte Länge des Primers eine perfekt passende Duplex bildet. Es ist nur notwendig, dass die terminale Nucleotidbase sich korrekt paart. Bevorzugt haben die S und die T-Primer in etwa gleiche Schmelz- und Doppelstrangbildungstemperaturen und sind etwa 12 bis 30 Nucleotide lang.
  • Nach Durchführen der PCRs werden k-Sätze von 4 Amplicons hergestellt. Die 4k-Amplicons tragen die folgende Information: in Satz 1 zeigen Amplicons, welche mit S-Primern hergestellt sind und welche ein Terminal A haben, Polynucleotide an, deren erstes Nucleotid T ist; Amplicons, welche mit S-Primern hergestellt sind und welche ein terminales C haben, zeigen Polynucleotide an, deren erstes Nucleotid G ist; und so weiter. in Satz 2 zeigen Amplicons, welche mit S-Primern hergestellt sind und welche ein Terminal AN haben, Polynucleotide an, deren zweites Nucleotid T ist; Amplicons, welche mit S-Primern hergestellt sind und welche ein Terminal CN haben, zeigen Polynucleotide an, deren zweites Nucleotid G ist; und so weiter. Auf ähnliche Weise sind für Amplicons der Sätze 3 bis 1 die Identitäten der Nucleotide der dritten beziehungsweise kten Positionen angezeigt. Um diese Information zu extrahieren, müssen die Anhänge (Tags) in den Amplicons ausgeschnitten, markiert, einzelsträngig gemacht und mit ihren Anhangs (Tag)-Komplementen auf einer räumlich erreichbaren Anordnung hybridisiert werden. Die Anhänge (Tags) 416 werden mit Restriktionsendonucleasen, die sich auf die Stellen 414 und 418 richten, ausgeschnitten. Vorzugsweise wird der T-Primer konstruiert, um ein Mittel zur Isolierung der Amplicons, wie eines Biotingemischs oder eines doppelsträngigen Segments zu haben, welches mit einem verankerten einzelsträngigen 0ligonucleotid eine Triplex-Struktur bilden kann. Die Anhänge (Tags) jedes der vier Amplicons aus jedem Satz werden, vorzugsweise nach der Trennung, getrennt markiert, z. B. mit einer spektral auflösbaren Fluoreszenzfärbung. Demnach haben alle Anhänge (Tags) im Amplicon, welches aus S-Primern, welche auf A enden, dieselbe Markierung, welche von den Markierungen für C, G, und T unterschieden werden kann. Selbiges gilt für Anhänge (Tags) in Amplicons, die aus S-Primern, welche auf C, G, und T enden, unabhängig von der Anzahl des Satzes. Demnach wird die Identität der Nucleotide an der nten Position aller Polynucleotide bestimmt, wenn die Anhänge (Tags) des nten Satzes gleichzeitig auf die räumlich erreichbaren Stellen aufgebracht werden.
  • Anhänge (Tags) können auf verschiedene Arten markiert werden, einschließlich der direkten oder indirekten Anheftung von radioaktiven Gemischen, fluoreszenten Gemischen, kolorimetrischen Gemischen, chemiluminenszenten Markierungen und Ähnlichen. Viele Zusammenfassungen über Verfahren zur DNA-Markierung und zur Konstruktion von DNA-Sonden stellen einen Leitfaden zur Verfügung, der zur Markierung von Anhängen (Tags) der vorliegenden Erfindung anwendbar ist. Solche Veröffentlichungen umfassen Kricka, Herausgeber, Nonisotopic DNA Probe Techniques (Academic Press, San Diego, 1992); Haugland, Handbook of Fluorescent Probes and Research Chemicals (Molecular Probes, Inc., Eugene 1992); Keller und Manak, DNA Probes, 2. Ausgabe (Stockton Press, New York, 1993); und Eckstein, Herausgeber, Oligonucleotides and Analogues: A Practical Approach (IRL Press, Oxford, 1991); Kessler, Herausgeber, Nonradioactive Labeling and Detection of Biomolecules (Springer-Verlag, Berlin, 1992); und Ähnliche.
  • Die Anhänge (Tags) werden vorzugsweise mit einem oder mehreren fluoreszierenden Färbungen markiert, wie z. B. von Menchen et al., U.S.-Patent 5.188.934 und Begot et al., International Application PCT/US90/05565 offenbart.
  • Die S-Primer werden vorzugsweise so hergestellt, dass sie ein doppelsträngiges Segment, haben, welches in der Lage ist, an ein verankertes einzelsträngiges Nucleotid zur Trennung zu binden, wie z. B. von Ji et al., Anal. Chem. 65: 1323–1328 (1993) gelehrt wird. Demnach können zum Beispiel magnetische Kügelchen, welche ein solches einzelsträngiges Oligonucleotid tragen, verwendet werden, um die Amplicons einzufangen und sie in ein getrenntes Gefäß, welches eine Nuclease zur Spaltung des Anhangs (Tags), z. B. an der Spaltungsstelle 418 enthält, zu überführen. Der T-Primer enthält vorzugsweise ein 5'-Biotin, welches es erlaubt, dass der freigesetzte Anhang (Tag) eingefangen und auf herkömmliche Weise markiert wird. Nach dem Einfangen werden die 3'-Enden des doppelsträngigen Segments, z. B. über avinidierte magnetische Kügelchen unter Verwendung von T4-DNA-Polymerase oder ähnliche Enzyme in Gegenwart eines Desoxyribonucleosid-Triphosphats (dNTP), welches dem Nucleotid, das dem Anhang (Tag) flankiert, entspricht zudem Anhang zurückgestrippt. Demnach wird, mit der Maßgabe, dass die benachbarten Nucleotide nicht irgendwo anders entlang des Stranges zu den 3'-Enden hin vorhanden sind, die 3'-5-Exonucleaseaktivität der Polymerase den 3'-Strang zu den benachbarten Nucleotiden zurückstrippen, und an diesem Punkt wird eine Austauschreaktion eingeleitet, die ein weiteres Strippen jenseits der benachbarten Nucleotide verhindert. Die 3'-Enden des Anhangs (Tags) können dann in einer Verlängerungsreaktion mit markierten dNTPs markiert werden. Nach der Markierung kann der nicht-biotinylierte Strang durch Denaturieren entfernt werden und zum Nachweis an die räumlich erreichbare Anordnung angebracht werden.
  • Nach Hybridisierung der markierten Anhänge (Tags) an ihre Anhang (Tag) – Komplemente und ihrem Nachweis werden die Anhänge (Tags) durch Waschen entfernt, so dass markierte Anhänge (Tags) von dem nächsten Satz an Amplicons aufgetragen werden können. So lange wie die Anzahl der Amplicons von welchem die Anhänge (Tags) entstehen, nachverfolgt werden, ist das Veranlassen von Hybridisierungen nicht schwierig. Die Hybridisierungen werden vorzugsweise in derselben Reihenfolge wie die Reihenfolge der entsprechenden Nucleotide in der Zielsequenz durchgeführt.
  • Das Ausmaß, mit dem die S-Primer das Polynucleotid zur Identifikation von aufeinanderfolgenden Nucleotiden überlappen können, ist, wenn die Überlappung ansteigt, durch Degeneration oder Komplexität des Primergemisches begrenzt. Diese Schwierigkeit wird dadurch in Angriff genommen, dass die identifizierten Polynucleotide von dem Polynucleotid abgespalten werden und dann der Identifikationszyklus auf dem gekürzten Polynucleotid erneut gestartet wird. Eine solche Spaltung wird durch Bereitstellung eines Adaptors mit einer S-Primer-Bindungsregion, welche eine Erkennungsstelle für eine Nuclease hat, die getrennt von ihrer Erkennungsstelle eine Spaltungsstelle hat, durchgeführt. Die Erkennungsstelle der Nuclease ist so positioniert, dass sie das Polynucleotid eine vorherbestimmte Anzahl an Nucleotiden von der Grenze der S-Primer-Bindungsstelle spaltet. Eine solche Nuclease wird hierin als „stepping“ Nuclease bezeichnet. Vorzugsweise wird in der Erfindung eine Restriktionsendonuclease vom Typ IIs als Stepping-Nuclease verwendet. Vor der Spaltung muss das Polynucleotid, z. B. durch Methylierung behandelt werden, um eine zufällige Spaltung auf Grund interner Erkennungsstellen der verwendeten Stepping-Nuclease zu verhindern. Nach der Spaltung wird der Strand, der die S-Primer-Bindungsstelle trägt, z. B. durch ein Einfangen einer Triplex auf magnetischen Kügelchen; entfernt und der Adaptor, der eine Ersatz-S-Primer-Bindungsstelle enthält (und eine Stepping-Nuclease-Erkennungsstelle) wird an den übriggebliebenen Strang angeheftet. Der Adaptor enthält einen degenerierten herausragenden Strang, der mit der Spaltung, die durch die Stepping-Nuclease entstanden ist, kompatibel ist. Zum Beispiel kann der Adaptor, wenn die Nuclease Bbv I vom Typ IIs verwendet wird, die folgende Struktur haben (SEQ ID NO: 7):
    Figure 00270001
    wobei N wie vorstehend definiert ist und das Unterstrichene die Stelle einer Bbv I – Erkennungsstelle anzeigt.
  • Eine Stepping-Nuclease, die in der Erfindung verwendet wird, muss nicht ein einzelnes Protein sein, oder nur aus einer Kombination an Proteinen bestehen. Ein Schlüsselmerkmal der Stepping-Nuclease oder der Kombination an Reagenzien, welche als Stepping-Nuclease verwendet wurden, ist, dass seine (ihre) Spaltungsstelle(n) von seinen (ihren) Erkennungsstellen getrennt sind. Der Abstand zwischen der Erkennungsstelle einer Stepping-Nuclease und ihrer Spaltungsstelle wird hierin als seine „Reichweite" bezeichnet. Per Konvention wird „Reichweite“ durch zwei ganze Zahlen definiert, die die Anzahl an Nucleotiden zwischen der Erkennungsstelle und den hydrolisierten Phosphodiester-Bindungen jedes Strangs angeben. Zum Beispiel werden die Erkennungs- und Spaltungseigenschaften von Fok I typischerweise als „GGATG(9/13)" repräsentiert, weil es eine doppelsträngige DNA wie folgt schneidet (SEQ ID NO: 8):
    Figure 00280001
    wobei die fett gedruckten Nucleotide die Erkennungsstelle von Fok I sind und die N's willkürliche Nucleotide und ihre Komplemente sind.
  • Bevorzugt sind Stepping-Nucleasen, die in der Erfindung verwendet werden, natürliche Protein-Endonucleasen (i), deren Erkennungsstelle von ihrer Spaltungsstelle getrennt ist und deren Spaltung einen herausragenden Strang auf dem Polynucleotid ergibt. Am meisten bevorzugt werden Restriktionsendonucleasen vom Typ IIs in der Erfindung als Stepping-Nucleasen verwendet, z. B. wie in Szybalski et al, Gene, 100: 13–26 (1991); Robersts et al, Nucleic Acids Research 21: 3125–3137 (1993); und Livak und Brenner, U.S.-Patent 5.093.245 beschrieben. Beispielhafte Nucleasen vom Typ IIs umfassen Alw XI, Bsm AI, Bbv I, Bsm FI, Sts I, Hga I, Bsc AI, Bbv II, Bce fl, Bce 851, Bcc I, Bcg I, Bsa I, Bsg I, Bsp MI, Bst 71 I, Ear I Eco 571, Esp 3I, Fau I, Fok I, Gsu I, Hph I, Mbo II, Mme I, Rle AI, Sap I, Sfa NI, Taq II, Tth 111II, Bco 5I, Bpu AI, Fin I, Bsr DI und Isoschizomere davon. Bevorzugte Nucleasen umfassen Fok I, Bbv I, Hga I, Ear I, und Sfa NI.
  • Vor den Nuclease-Spaltungsschritten, üblicherweise zu Beginn eines Identifikationszyklus, wird das Polynucleotid behandelt, so dass es die Erkennungsstellen und/oder die Spaltungsstellen der verwendeten Nuclease blockiert. Dieses verhindert eine unerwünschte Spaltung des Polynucleotids, auf Grund des zufälligen Auftretens von Nuclease-Erkennungsstellen an inneren Orten des Polynucleotids. Eine Blockierung kann auf verschiedene Weisen erreicht werden, einschließlich der Methylierung und der Behandlung durch Sequenz spezifische Aptamere, DNA-bindende Proteine oder Oligonucleotide, die Triplices bilden. Wann immer natürliche Protein-Endonucleasen verwendet werden, können Erkennungsstellen herkömmlicherweise durch Methylieren des Polynucleotids mit der verwandten Methylase der verwendeten Nuclease blockiert werden. Das bedeutet, dass für die meisten, wenn nicht alle bakteriellen Restriktionsendonucleasen vom Typ II, eine sogenannte „verwandte“ Methylase existiert, die ihre Erkennungsstelle methyliert. Viele solcher Methylasen werden in Roberts et al (vorstehend zitiert) und Nelson et al, Nucleic Acids Research 21: 3139–3154 (1993) offenbart und sind bei verschiedenen Quellen, besonders bei New England Biolabs (Beverly, MA) erhältlich.
  • Oligonucleotid-Anhänge (Tags) und Anhang (Tag)-Komplemente
  • In einer Hinsicht umfassen die Oligonucleotide der Erfindung eine Vielzahl an „Wörtern" oder Untereinheiten, die aus minimalen kreuzhybridisierenden Sätzen an Untereinheiten ausgewählt sind. Untereinheiten solcher Sätze können mit dem Komplement einer anderen Untereinheit desselben Satzes mit weniger als zwei nicht passenden Nucleotiden keine Duplex oder Triplex bilden. Demnach werden die Sequenzen irgendwelcher zweier Oligonucleot-Anhänge (Tags) eines Repertoires, welches Duplices bildet, nie „näher“ sein als dass sie sich um zwei Nucleotide unterscheiden. In besonderen Ausführungsformen können die Sequenzen irgendwelcher zwei Oligonucleotid-Anhänge (Tags) sogar „weiter“ voneinander entfernt sein, z. B durch die Herstellung eines minimalen kreuzhybridisierenden Satzes auf eine solche Weise, dass Untereinheiten mit dem Komplement einer anderen Untereinheit desselben Satzes mit weniger als drei nicht passenden Nucleotiden keine Duplex bilden können, etc. Üblicherweise sind Oligonucleotid-Anhänge (Tags) der Erfindung und ihre Komplemente Oligomere der natürlichen Nucleotide, so dass sie normalerweise durch Enzyme wie Ligasen, Polymerasen, Nucleasen, terminale Transferasen und Ähnliche verarbeitet werden können.
  • Komplemente von Oligonucleotid-Anhängen (Tags) der Erfindung, hierin bezeichnet als „Anhang (Tag)-Komplemente" können natürliche Nucleotide oder nicht-natürliche Anhang (Tag)-Analoga umfassen. Anhang (Tag)-Komplemente sind vorzugsweise an Festphasenträger angeheftet.
  • Minimal kreuzhybridisierende Sätze von Oligonucleotid-Anhängen (Tags) und Anhang (Tag)-Komplemente können entweder kombinatorisch oder individuell synthetisiert werden, abhängig von der Größe des erwünschten Satzes und dem Grad, zu dem eine Kreuz-Hybridisierung minimiert werden soll (oder auf andere Weise dargelegt, der Grad, in dem eine Spezifität verstärkt werden soll). Zum Beispiel kann ein minimal kreuzhybridisierender Satz aus einem Satz von individuell synthetisierten 10-meren Sequenzen bestehen, die sich voneinander in mindestens 4 Nucleotiden unterscheiden, wobei ein solcher Satz eine maximale Größe von 332 hat (wenn er aus 3 Arten von Nucleotiden zusammengesetzt ist und unter Verwendung eines Computerprogramms wie jenem, welcher in Anhang Ic offenbart ist, gezählt wird).
  • Alternativ kann ein minimal kreuzhybridisierender Satz an Oligonucleotid-Anhängen (Tags) auch kombinatorisch aus Untereinheiten, welche wiederum aus einem minimal kreuzhybridisierenden Satz ausgewählt sind, zusammengesetzt werden. Zum Beispiel kann ein Satz aus minimal kreuzhybridisierenden 12-meren, welche sich sich voneinander in mindestens 3 Nucleotiden unterscheiden, durch Zusammensetzen von 3 Untereinheiten synthetisiert werden, die aus einem Satz an minimal kreuzhybridisierenden 4-meren, die sich voneinander in mindestens 3 Nucleotiden unterscheiden, ausgewählt werden. Eine solche Ausführungsform ergibt einen Satz von maximal 93 oder 729 12-meren. Die Zahl 9 ist die Anzahl an Oligonucleotiden, die von dem Computerprogramm aus Anhang Ia aufgelistet werden, welcher wie bei den 10-meren vorgibt, dass nur 3 der 4 verschiedenen Arten an Nucleotiden verwendet werden. Der Satz wird als „maximal“ beschrieben, weil die Computerprogramme aus den Anhängen Ia-c den größten Satz für einen gegebenen Input (z. B. Länge, Zusammensetzung, Unterschiede hinsichtlich der Anzahl der Nucleotide zwischen Angehörigen) bereitstellen. Zusätzliche minimale kreuzhybridisierende Sätze können aus Untersätzen solcher errechneter Sätze erzeugt werden.
  • Oligonucleotid-Anhänge (Tags) können einzelsträngig sein und für die spezifische Hybridisierung in einzelsträngige Anhang (Tag)-Komplemente durch Duplex-Bildung oder für die spezifische Hybridisierung in doppelsträngige Anhang (Tag)-Komplemente durch Triplex-Bildung hergestellt werden.
  • Oligonucleotid-Anhänge (Tags) können auch doppelsträngig sein und für die spezifische Hybridisierung in einzelsträngige Anhang (Tag)-Komplemente durch Triplexbildung hergestellt werden. Da sie zur Übertragung von Sequenzinformationen verwendet werden, sind Anhänge (Tags) und Anhang (Tag)-Komplemente vorzugsweise einzelsträngig.
  • Bei der kombinatorischen Synthese besteht ein Oligonucleotid-Anhang (Tag) der Erfindung vorzugsweise aus einer Vielzahl an Untereinheiten, wobei jede Untereinheit aus einem Oligonucleotid von 3 bis 9 Nucleotiden in Länge besteht, worin jede Untereinheit ausgewählt wird aus demselben kreuzhybridisierenden Satz. In solchen Ausführungsformen hängt die Zahl der verfügbaren Oligonucleotid-Anhänge (Tags) von der Zahl der Untereinheiten pro Anhang (Tag) ab, und von der Länge der Untereinheiten. Die Zahl ist im Allgemeinen viel weniger die Zahl aller möglichen Sequenzen als vielmehr die Länge des Anhangs (Tags), der für einen Anhang (Tag), der n Nucleotide lang ist, 4n wäre.
  • Die Nucleotid-Sequenzen von Oligonucleotiden eines minimal kreuzhybridisierenden Satzes werden herkömmlicherweise durch einfache Computerprogramme aufgezählt, die dem allgemeinen Algorithmus, dargestellt in 1, folgen und die durch Programme, deren Quellencodes in den Appendices Ia und Ib aufgelistet sind, beispielhaft dargestellt sind. Das Programm Minhx aus Anhang Ia berechnet alle minimal kreuzhybridisierenden Sätze, die 4-mere Untereinheiten haben, welche aus drei Arten von Nucleotiden zusammengesetzt sind. Das Programm tagN aus Anhang Ib zählt längere Oligonucleotide eines minimal kreuzhybridisierenden Satzes. Ähnliche Algorithmen und Computerprogramme sind aureichend beschrieben für die Auflistung von Oligonucleotiden von minimal kreuzhybridisierenden Sätzen für alle Ausführungsformen der Erfindung. Die folgende Tabelle I stellt eine Hilfestellung hinsichtlich der Satzgröße von minimal kreuzhybridisierenden Oligonucleotiden für die angezeigten Längen und Anzahl der Nucleotidunterschiede zur Verfügung. Die vorstehenden Computerprogramme wurden verwendet um die Zahlen zu erzeugen.
  • Tabelle I
    Figure 00320001
  • Für einige Ausführungsformen der Erfindung, wo keine extrem großen Repertoires an Anhängen (Tags) benötigt werden, können Oligonucleotid-Anhänge (Tags) eines minimal kreuzhybridisierenden Satzes getrennt synthetisiert werden. Sätze, die mehrere hundert bis mehrere zehntausend Oligonucleotide enthalten, können direkt durch verschiedene parallele Syntheseansätze synthetisiert werden, z. B. wie in Frank et al., U.S.-Patent 4.689.405; Frank et al., Nucleic Acids Research, 11: 4365–4377 (1983); Matson et al., Anal. Biochem., 224 : 110-116 (1995); Fodor et al., Internationale Anmeldung PCT/US93/04145; Pease et al., Proc. Natl. Acad. Sci. 91: 5022–5026 (1994); Southern et al., 7. Biotechnology 35: 217–227 (1994), Brennan, Internationale Anmeldung PCT/US94/05896; Lashkari et al., Proc. Natl. Acad. Sci. 92: 7912–7915 (1995) oder Ähnliche offenbart.
  • Oligonucleotid-Anhänge (Tags) der Erfindung werden vorzugsweise kombinatorisch aus Untereinheiten zwischen drei und sechs Nucleotiden Länge synthetisiert und aus demselben minimal kreuzhybridisierenden Satz ausgewählt. Für Oligonucleotide in dieser Größe können die Mitglieder solcher Sätze durch Computerprogramme basierend auf dem Algorithmus von 1 aufgezählt werden.
  • Der Algorithmus von 1 wird dadurch eingeführt, dass zuerst die Charakteristika der Untereinheiten des minimal kreuzhybridisierenden Satzes, d. h. Länge, Anzahl an Basenunterschieden zwischen Mitgliedern und Zusammensetzung, z. B. ob sie aus zwei, drei oder vier Basenarten zusammengesetzt sind, definiert werden. Eine Tabelle Mn, n = 1 wird erzeugt (100), die aus allen möglichen Sequenzen einer gegebenen Länge und Zusammensetzung besteht. Eine anfängliche Untereinheit S1 wird ausgewählt und mit aufeinanderfolgenden Untereinheiten Si für i = n + 1 mit dem Ende der Tabelle verglichen (120). Immer wenn eine aufeinanderfolgende Untereinheit die benötigte Anzahl an nicht passenden Stellen hat, um ein Mitglied des minimal kreuzhybridisierenden Satzes zu sein, wird es in einer neuen Tabelle Mn+1 (125) gespeichert, welche auch Untereinheiten enthält, welche zuvor in vorherigen Durchgängen durch Schritt 120 ausgewählt wurden. Zum Beispiel wird in dem ersten Vergleichssatz M2 S1 enthalten; in dem zweiten Vergleichssatz wird M3 S1 und S2 enthalten;; in dem dritten Vergleichssatz wird M4 S1 S2 und S3 enthalten; und so weiter. Auf ähnliche Weise werden Vergleiche in Tabelle Mj zwischen Sj und allen aufeinanderfolgenden Untereinheiten in Mj stattfinden. Es ist zu bemerken, dass jede aufeinanderfolgende Tabelle Mn+1 kleiner ist als ihre Vorgänger, da Untereinheiten in aufeinanderfolgenden Durchgängen bis Schritt 130 eliminiert werden. Nachdem jede Untereinheit der Tabelle Mn verglichen wurde (140) wird die alte Tabelle durch die neue Tabelle Mn+1 ersetzt und die nächste Vergleichsrunde wird gestartet. Der Prozess hält an (160), wenn eine Tabelle Mn erreicht ist, die keine aufeinanderfolgenden Untereinheit enthält, die mit dem ausgewählten Untereinheit Si , d. h. Mn = Mn+1 verglichen werden kann.
  • Vorzugsweise umfassen minimal kreuzhybridisierende Sätze Untereinheiten, die in etwa äquivalente Beiträge zur Duplex-Stabilität leisten, wie jede andere Untereinheit in dem Satz. Auf diese Weise ist die Stabilität von perfekt passenden Duplices zwischen jeder Untereinheit und ihrem Komplement in etwa gleich. Eine Unterweisung zum Auswählen solcher Sätze wird durch veröffentlichte Verfahren zur Auswahl von optimalen PCR-Primern und zur Berechnung von Duplex-Stabilitäten bereitgestellt, z. B. Rychlik et al., Nucleic Acids Research, 17: 8543–8551 (1989) und 18: 6409–6412 (1990); Breslauer et al., Proc. Natl. Acad. Sci., 83: 3746–3750 (1986); Wetmur. Crit. Rev. Biochem. Mol. Biol., 26:227-259 (1991) und Ähnliche. Für kürzere Anhänge (Tags), z. B. etwa 30 Nucleotide oder weniger, wird der von Rychlik und Wetmur beschriebene Algorithmus vorgezogen und für längere Anhänge (Tags), z. B. etwa 30–35 Nucleotide oder mehr, kann ein Algorithmus, welcher von Suggs et al., Seiten 683–693 in Brown, Herausgeber, ICN-UCLA Symp. Dev. Biol., Bd. 23 (Academic Press, New York, 1981) offenbart wurde, herkömmlicherweise verwendet werden. Natürlich gibt es viele Ansätze, die dem Fachmann zur Herstellung von Sätzen von minimal kreuzhybridisierenden Untereinheiten zur Verfügung stehen und welche innerhalb des Bereichs der Erfindung liegen. Zum Beispiel können Untereinheiten, die die gleichen terminalen Nucleotide haben, zur Verfügung gestellt werden, um die Auswirkungen von verschiedenen basenstapelnden Energien bei der Verbindung von Untereinheiten zu minimieren. Aus diese Weise wird die Summe der basenstapelnden Energien all der sich verbindenden terminalen Nucleotide gleich sein, wobei gleichzeitig die Variablität der Anhang (Tag) schmelzenden Temperaturen reduziert oder ausgelöscht wird.
  • Ein „Wort“ aus terminalen Nucleotiden, kursiv im Nachstehenden gezeigt, kann ebenfalls zu jedem Ende des Anhangs (Tags) zugesetzt werden, wodurch zwischen ihm und einem ähnlichen terminalen „Wort“ auf einem anderen Anhang (Tag)-Komplement eine perfekt passende Verbindung hergestellt wird. Ein solcher verbesserter Anhang (Tag) würde die Form haben:
    Figure 00340001
    worin die geprimten W's Komplemente anzeigen. Da die Anhang (Tag)-Enden immer perfekt passende Duplices bilden, werden alle nicht passenden Wörter intern nicht passend sein und dabei die Stabilität von Anhang (Tag)-Komplement- Duplices reduzieren, die andernfalls nicht passende Wörter an ihren Enden haben würden. Es ist wohlbekannt, dass Duplices, welche intern nicht passende Stellen haben, signifikant weniger stabil sind als Duplices mit derselben nicht passenden Stelle an einem Ende.
  • Eine bevorzugte Ausführungsform von minimal kreuzhybridisierenden Sätzen sind jene, deren Untereinheiten aus drei der vier natürlichen Nucleotide bestehen. Wie im Folgenden detaillierter beschrieben werden wird, erlaubt die Abwesenheit eines Nucleotid-Typs in den Oligonucleotid- Anhängen (Tags), dass Polynucleotide unter Verwendung der 5'?3' Exonuclease-Aktivität einer DNA-Polymerase auf Festphasenträger geladen werden können. Folgendes ist ein beispielhafter minimal kreuzhybridisierender Satz an Untereinheiten, wobei jeder vier Nucleotide ausgewählt aus der Gruppe bestehend aus A, G und T umfasst:
  • Tabelle II
    Figure 00350001
  • In diesem Satz würde jedes Mitglied eine Duplex bilden, die drei nicht passende Basen mit dem Komplement jedes anderen Mitglieds hat.
  • Weitere beispielhafte minimal kreuzhybridisierende Sätze sind nachstehend in Tabelle III aufgelistet. Natürlich können zusätzliche Sätze durch Substitution verschiedener Gruppen von Nucleotiden oder durch Verwendung von Untersätzen bekannter minimal kreuzhybridisierender Sätze erzeugt werden.
  • Tabelle III Beispielhafte minimal kreuzhybridisierende Sätze von 4-meren Untereinheiten
    Figure 00350002
  • Die Oligonucleotid-Anhänge (Tags) der Erfindung und ihre Komplemente sind herkömlicherweise auf einem automatischen DNA-Synthesegerät synthetisiert, z. B. einem Modell 392 oder 394 DNA/RNA-Synthesegerät von Applied Biosystems Inc. (Foster City, California), unter Verwendung von Standard-Chemikalien wie Phosphoramidit-Chemkalien, z. B. in den folgenden Bezugnahmen offenbart: Beaucage und Iyer. Tetrahedron, 48: 2223-2311 (1992); Molko et al., Patent der Vereinigten Staaten 4.980.460; Koster et al., Patent der Vereinigten Staaten 4.725.677; Caruthers et al., Patente der Vereinigten Staaten 4.415.732; 4.458.066; und 4.973.679; und Ähnliche. Alternative Chemikalien, welche z. B. unnatürliche Rückgrat-Gruppen, wie Phosphorthioat, Phosphoramidat und Ähnliche ergeben, können ebenfalls verwendet werden, mit der Maßgabe, dass die entstehenden Oligonucleotide zur spezifischen Hybridisierung fähig sind. In einigen Ausführungsformen können Anhänge (Tags) natürlich vorkommende Nucleotide umfassen, die eine Verarbeitung oder Manipulation durch Enzyme erlauben, wohingegen die entsprechenden Anhang (Tag)-Komplemente unnatürliche Nucleotid-Analoga wie Peptid-Nucleinsäuren oder ähnliche Verbindungen umfassen können, welche die Bildung von stabileren Duplices während der Sortierung fördern.
  • Werden Microteilchen als Träger verwendet, so können Repertoires von Oligonucleotid- Anhängen (Tags) und Anhang (Tag)-Komplementen durch eine Synthese pro Untereinheit über „Split und Mix“-Verfahren, wie z. B. in Shortle et al., Internationale Patentanmeldung PCT/US93/03418 oder Lyttle et al., Biotechniques, 19: 274–280 (1995) offenbart, erzeugt werden. Kurz, die Basiseinheit der Synthese ist eine Untereinheit des Oligonucleotid-Anhangs (Tags). Vorzugsweise wird die Phosphoramidit-Chemie verwendet und 3'-Phopshoramidit-Polynucleotide werden für jede Untereinheit in einem minimal kreuzhybridisierenden Satz hergestellt, z. B. gäbe es für den vorstehend am ersten aufgelisteten Satz acht 4-mere 3'-Phopshoramidite. Die Synthese läuft wie von Shortle et al. offenbart oder in direkter Analogie mit den Verfahren, die verwendet wurden, um unter Verwendung von Nucleosid-Monomeren verschiedene Oligonucleotid-Banken zu erzeugen, z. B. wie in Telenius et al., Genomics, 13: 718–725 (1992); Welsh et al., Nucleic Acids Research 19: 5275–5279 (1991); Grothues et al., Nucleic Acids Research, 21: 1321–1322 (1993); Hartley, Europäische Patentanmeldung 90304496.4; Lam et al., Nature, 354: 82–84 (1991); Zuckerman et al., Int. J. Pep. Protein Research, 40: 498–507 (1992) und Ähnliche offenbart. Im Allgemeinen wird für diese Verfahren nur der Zusatz von Gemischen der aktivierten Monomere zu den wachsenden Oligonucleotiden während der Kopplungsschritte gebraucht. Vorzugsweise werden Oligonucleotid-Anhänge (Tags) und Anhang (Tag)-Kornplemente auf einem DNA-Synthesegerät synthetisiert, das eine Anzahl an Synthesekammern hat, die größer oder gleich ist der Anzahl verschiedener Arten von Wörtern, welche bei der Konstruktion der Anhänge (Tags) verwendet werden. Das bedeutet, dass es vorzugsweise eine Synthesekammer gibt, die jedem Worttyp entspricht. In dieser Ausführungsform werden Wörter Nucleotid auf Nucleotid zugesetzt, so dass, wenn ein Wort aus fünf Nucleotiden besteht, es fünf Monomere-Kopplungen in jeder Synthesekammer gibt. Nachdem ein Wort vollständig synthetisiert ist, werden die Syntheseträger von den Kammern entfernt, gemischt und erneut in die Kammern verteilt für den nächsten Zyklus der Wort-Addition. Diese letztere Ausführungsform zieht, z. B. in der Phosphoramidit-Chemie, einen Vorteil aus den hohen Kopplungserträgen der Monomer-Addition.
  • Doppelsträngige Formen von Anhängen (Tags) können durch die getrennte Synthese der komplementären Stränge, gefolgt von Mischen unter Bedingungen, die eine Duplexbildung erlauben, hergestellt werden. Alternativ können doppelsträngige Anhänge (Tags) gebildet werden, indem zuerst ein einzelsträngiges Repertoire synthetisiert wird, das mit einer bekannten Oligonucleotidsequenz verbunden ist, die als Primerbindungsstelle dient. Der zweite Strang wird dann durch Kombination des einzelsträngigen Repertoires mit einem Primer und Verlängern mit einer Polymerase synthetisiert. Dieser letztere Ansatz wird in Oliphant et al., Gene, 44: 177–183 (1986) beschrieben. Solche Duplex-Anhänge (Tags) können dann zusammen mit Polynucleotiden zur Sortierung und Manipulation des Polynucleotids in Übereinstimmung mit der Erfindung in Klonierungsvektoren inseriert werden.
  • Wenn Anhang (Tag)-Komplemente verwendet werden, die aus Nucleotiden bestehen, die verstärkte Bindungscharakteristika haben, wie PNAs oder Oligonucleotid-N3'?P5'-Phosphoramidat, kann die Sortierung durch die Bildung von D-Schleifen zwischen Anhängen (Tags), welche natürliche Nucleotide umfassen und ihren PNA- oder Phosphoramidat-Komplementen als Alternative zur „Stripping“-Reaktion, welche die 3'?5'-Exonuclease-Aktivität einer DNA-Polymerase verwendet, um einen Anhang (Tag) einzelsträngig zu machen, eingesetzt werden.
  • Oligonucleotid-Anhänge (Tags) der Erfindung können in der Länge von 12 bis 60 Nucleotiden oder Basenpaaren variieren. Bevorzugt liegen Oligonucleotid-Anhänge (Tags) in der Länge im Bereich zwischen 18 und 40 Nucleotiden oder Basenpaaren. Stärker bevorzugt liegen Oligonucleotid-Anhänge (Tags) in der Länge im Bereich zwischen 25 und 40 Nucleotiden oder Basenpaaren. Hinsichtlich bevorzugter und stärker bevorzugter Zahlen an Untereinheiten können deren Bereiche wie folgt ausgedrückt werden: Tabelle IV Anzahl an Untereinheiten in Anhängen (Tags)in bevorzugten Ausführungsformen
    Figure 00380001
  • Am stärksten bevorzugt sind Oligonucleotid-Anhänge (Tags) einzelsträngig und eine spezifische Hybridisierung findet über Watson-Crick-Paarung mit einem Anhang (Tag)-Komplement statt.
  • Vorzugsweise enthalten Repertoires von einzelsträngigen Oligonucleotid-Anhängen (Tags) der Erfindung mindestens 100 Mitglieder; stärker bevorzugt enthalten Repertoires von einzelsträngigen Oligonucleotid-Anhängen (Tags) der Erfindung mindestens 1000 Mitglieder und am stärksten bevorzugt enthalten Repertoires von einzelsträngigen Oligonucleotid-Anhängen (Tags) der Endung mindestens 10 000 Mitglieder.
  • Triplex-Anhänge (Tags)
  • In Ausführungsformen, in denen eine spezifische Hybridisierung über Triplex-Bildung stattfinden, folgt die Codierung von Tag (Anhang)-Sequenzen denselben Prinzipien wie für Duplex bildende Anhänge (Tags); es gibt jedoch weitere Einschränkungen hinsichtlich der Auswahl von Untereinheits-Sequenzen. Im Allgemeinen ist die Drittstrangverbindung über den Hoogsteen-Bindungstyp entlang Homopyrimidin-Homopurtn-Bahnen in einem doppelsträngigen Ziel am stabilsten. Normalerweise bilden Basentripletts ein T - A*T oder C-G*C-Motive (worin „–“ Watson-Crick-Paarung und „*“ den Hoogsteen -Bindungstyp indizieren); es sind jedoch auch andere Motive möglich. Zum Beispiel erlaubt die Hoogsteen-Basenpaarung parallele und antiparallele Orientierungen zwischen dem dritten Strang (dem Hoogsteen-Strang) und dem purinreichen Strang der Duplex, an den der dritte Strang bindet, abhängig von den Bedingungen und der Zusammensetzung der Stränge. Es gibt in der Literatur für die Auswahl von geeigneten Sequenzen, Orientierungen, Bedingungen, Nucleosid-Typ (z. B. ob Ribose- oder Desoxyribose-Nucleoside verwendet werden), Basenmodifikationen (z. B. methyliertes Cytosin und Ähnliche) ausführliche Anleitungen, um die Triplexstabilität zu maximieren oder andererseits zu regulieren, wie es in bestimmten Ausführungsformen gewünscht wird, z. B. Roberts et al., Proc. Natl. Acad. Sci., 88: 9397–9401 (1991); Roberts et al., Science, 258: 1463–1466 (1992); Roberts et al., Proc. Natl. Acad. Sci. 93: 4320–4325 (1996); Distefano et al., Proc. Natl. Acad. Sci. 90: 1179–1183 (1993); Mergny et al., Biochemistry, 30: 9791–9798 (1991); Cheng et al., J. Am. Chem. Soc. 114: 4465–4474 (1992); Beal und Dervan, Nucleic Acids Research, 20: 2773–2776 (1992); Beal und Dervan, J. Am. Chem. Soc. 114: 4976–4982 (1992); Giovannangeli et al., Proc. Natl. Acad. Sci. 89: 8631–8635 (1992); Moser und Dervan, Science 238: 645–650 (1987); Mc. Shan et al., J. Biol. Chem. 267: 5712–5721 (1992); Yoon et al., Proc. Natl. Acad. Sci. 89: 3840–3844 (1992); Blume et al., Nucleic Acids Research 20: 1777–1784 (1992); Thuong und Helene, Angew. Chem. Int. Ed. Engl. 32: 666–690 (1993); Escude et al., Proc. Natl. Acad. Sci. 93: 4365–4369 (1996); und Ähnliche. Die Bedingungen für die Verbindung von einzelsträngigen oder doppelsträngigen Anhängen (Tags) mit ihren einzelsträngigen oder doppelsträngigen Komplementen sind wohlbekannt, z. B. Ji et al., Anal. Chem. 65: 1323–1328 (1993); Cantor et al., Patent der Vereinigten Staaten 5.482.836; und Ähnliche. Die Verwendung von Triplex-Anhängen (Tags) hat den Vorteil, dass dazu keine „Stripping"-Reaktion mit Polymerase benötigt wird, um den Anhang mit seinem Komplement zu verbinden.
  • Vorzugsweise sind Oligonucleotid-Anhänge (Tags) der Erfindung, welche eine Triplex-Hybridisierung verwenden, doppelsträngige DNA und die entsprechenden Komplement-Anhänge (Tags) einzelsträngig. Stärker bevorzugt wird S-Methylcytosin an Stelle von Cytosin in den Anhang (Tag)-Komplementen verwendet, um den Bereich der pH-Stabilität der Triplex, die zwischen einem Anhang (Tag) und seinem Komplement gebildet wird, zu erweitern. Bevorzugte Bedingungen zur Bildung von Triplices werden in den vorstehenden Referenzen vollständig offenbart. Kurz, eine Hybridisierung findet in konzentrierter Salzlösung, z. B. 1,0 M NaCl, 1,0 M Kaliumacetat oder Ähnlichem statt, bei einem pH-Wert unter 5,5 (oder 6,5, wenn 5-Methylcytosin verwendet wird). Die Hybridisierungstemperatur hängt von der Länge und der Zusammensetzung des Anhangs (Tags) ab; für einen 18–20-meren oder längeren Anhang (Tag) ist die Hybridisierung bei Raumtemperatur adäquat. Waschungen können mit weniger konzentirerten Salzlösungen, z. B. 10 mM Natriumacetat, 100 mM MgCl2, pH-Wert 5,8, bei Raumtemperatur durchgeführt werden. Anhänge (Tags) können von ihren Anhang (Tag)-Komplementen durch Inkubation in einer ähnlichen Salzlösung bei einem pH-Wert von 9,0 eluiert werden.
  • Minimal kreuzhybridisierende Sätze von Oligonucleotid-Anhängen (Tags), welche Triplices bilden, können durch das Computerprogramm aus Anhang Ic oder ähnliche Programme erzeugt werden. Ein beispielhafter Satz an doppelsträngigen 8-meren Worten ist im Folgenden in Großbuchstaben mit den entsprechenden Komplementen in Kleinbuchstaben aufgelistet. Jedes derartige Wort unterscheidet sich von jedem der anderen Wörter in dem Satz in drei Basenpaaren. Tabelle V Beispielhafter Minimal kreuzhybridisierender Satz an doppelsträngigen 8-meren Anhängen (Tags)
    Figure 00400001
    Tabelle VI Größe des Repertoires von verschiedenden doppelsträngigen Anhängen (Tags), die Triplices mit ihren Anhang (Tag)-Komplementen bilden
    Figure 00410001
  • Vorzugsweise enthalten Repertoires von doppelsträngigen Oligonucleotid-Anhängen (Tags) der Erfindung mindestens 10 Mitglieder; stärker bevorzugt enthalten Repertoires von solchen-Anhängen (Tags) mindestens 100 Mitglieder. Vorzugsweise sind die Wörter für kombinatorisch synthetisierte doppelsträngige Oligonucleotid-Anhänge (Tags) zwischen 4 und 8 Nucleotide lang und Oligonucleotid-Anhänge (Tags) sind zwischen 12 und 60 Basenpaare lang. Stärker bevorzugt sind solche Anhänge (Tags) zwischen 18 und 40 Basenpaare lang.
  • Festphasenträger
  • Festphasenträger zur Verwendung innerhalb der Erfindung können eine breite Varietät an Formen haben, einschließlich Microteilchen, Kügelchen und Membranen, Objektträger, Plättchen, von einer Micromaschine hergestellte Chips und Ähnliche. Ähnlich können Festphasenträger der Erfindung eine breite Varietät an Zusammensetzungen, einschließlich Glas, Plastik, Silikon, Alkanthiolat-abgeleitetes Gold, Cellulose, niedrig kreuzvernetztes und hoch keruzvernetztes Polystyrol, Siliciumgel, Polyamid und Ähnliche haben. Vorzugsweise wird entweder eine Population von getrennten Teilchen auf eine Weise verwendet, dass jedes eine gleiche Beschichtung oder Population von komplementären Sequenzen desselben Anhangs (Tags) (und keines anderen) oder ein einzelner oder wenige Träger mit räumlich getrennten Regionen werden verwendet, welche jeweils eine gleiche Beschichtung oder Population von komplementären Sequenzen desselben Anhangs (Tags) (und keines anderen) haben. In der letzteren Ausführungsform kann der Bereich der Regionen gemäß besonderen Anwendungen variieren; normalerweise bewegen sich die Regionen im Bereich von mehreren μm2 , z. B. 3–5 bis mehrere hundert μm2 , z. B. 100–500. Vorzugsweise sind solche Regionen räumlich getrennt, so dass Signale, welche durch Vorkommnisse, z. B. Fluoreszenzemissionen hervorgerufen sind, in benachbarten Regionen durch das verwendete Nachweissystem aufgelöst werden können. In einigen Anwendungen kann es erwünscht sein, Regionen mit gleichen Beschichtungen von mehr als einem Anhang (Tag)-Komplement zu haben, z. B. für die simultane Sequenzanalyse, oder dafür, dass getrennt markierte Moleküle in starke Nähe zueinander gebracht werden.
  • Anhang (Tag)-Komplemente können mit dem Festphasenträger, auf dem sie synthetisiert werden; verwendet werden, oder sie können getrennt synthetisiert werden und zur Verwendung auf einen Festphasenträger angeheftet werden, z. B. wie durch Lund et al., Nucleic Acids Research 16: 10861–10880 (1988); Albretsen et al., Anal. Biochem. 189: 40–50 (1990); Wolf et al., Nucleic Acids Research 15: 2911–2926 (1987) oder Ghosh et al., Nucleic Acids Research 15: 5353–5372 (1987) offenbart. Vorzugsweise werden Anhang (Tag)-Komplemente auf dem Festphasenträger synthetisiet und mit demselben verwendet, was eine Verschiedenheit an Formen umfassen kann und eine Verschiedenheit an Verbindungsgemischen umfasst. Solche Träger können Mikroteilchen oder Anordnungen oder Matrices von Regionen umfassen, wo gleiche Populationen von Anhang (Tag)- Komplementen synthetisiert werden. Eine breite Varietät von Microteilchen-Trägern können innerhalb der Erfindung verwendet werden, einschließlich Microteilchen, welche aus Porenglas (CPG), hoch quervernetztem Polystyrol, Acryl-Copolymeren, Cellulose, Nylon, Dextran, Latex, Polyacrolein, und Ähnlichen hergestellt sind und welche in den folgenden beispielhaften Referenzen offenbart sind: Meth. Enzymol., Sektion A, Seiten 11–147, Bd. 44 (Academic Press, New York, 1976); Patente der Vereinigten Staaten 4.678.814; 4.413.070; und 4.046.720 und Pon, Kapitel 19 in Agrawal, Hrsg., Methods in Molecular Biology, Bd. 20 (Humana Press, Totowa, NJ, 1993). Microteilchen-Träger umfassen des Weiteren herkömmlich erhältliches Nucleosid-abgeleitetes CPG und Polystyrol-Kügelchen, (z. B. erhältlich bei Applied Biosystems, Foster City, CA); derivatisierte magnetische Kügelchen; Polystyrol überzogen mit Polyethylenglycol (z. B. TentaGelTM, Rapp Polymere, Tübingen, Deutschland) und Ähnliche. Die Auswahl der Trägercharakteristika wie Material, Porosität, Größe, Form, und Ähnliche und die Art des Verbindungsgemisches, welches verwendet wird hängt von den Bedingungen ab, unter welchen die Anhänge (Tags) verwendet werden. Zum Beispiel werden in Anwendungen, die die aufeinanderfolgende Verarbeitung mit Enzymen beinhalten, Träger und Verbindungen bevorzugt, die die sterische Behinderung der Enzyme minimieren und die den Zugang zum Substrat erleichtern. Andere wichtige Faktoren, die bei der Auswahl des geeignetsten Microteilchen-Trägers betrachtet werden müssen, umfassen die Größenuniformität, die Effizienz als Syntheseträger, den Grad, zu dem der Oberflächenbereich bekannt ist, und optische Eigenschaften, zum Beispiel stellen klare glatte Kügelchen instrumentelle Vorteile bereit, wenn eine große Anzahl von Kügelchen auf einer Oberfläche behandelt werden soll.
  • Beispielhafte Verbindungsgemische zur Anheftung und/oder zur Synthese von Anhängen (Tags) auf Microteilchen-Oberflächen werden in Pon et al., Biotechniques 6: 768-775 (1988); Webb, Patent der Vereinigten Staaten 4.659.774; Barany et al., Internationale Patentanmeldung PCT/US91/06103; Brown et al., J. Chem. Soc. Commun. 1989: 891–893; Damha et al., Nucleic Acids Research 18: 3813–3821 (1990); Beattie et al., Clinical Chemistry, 39; 719–722 (1993); Maskos und Southern, Nucleic Acids Research 20: 1679–1684 (1992) und Ähnliche offenbart.
  • Wie vorstehend erwähnt können Anhang (Tag)-Komplemente auch auf einem einzelnen (oder wenigen) Festphasenträgern synthetisiert werden, um eine Anordnung von Regionen zu bilden, die einheitlich mit Anhang (Tag)-Komplementen beschichtet sind. Das heißt, innerhalb einer Region in einer solchen Anordnung wird dasselbe Anhang (Tag)-Komplement synthetisiert. Verfahren zur Synthese solcher Anordnungen sind in McGall et al., Internationale Anmeldung PCT/US93/03767; Pease et al., Proc. Natl. Acad. Sci., 91: 5022–5026 (1994); Southern und Maskos, Internationale Anmeldung PCT/GB89/01114; Maskos und Southern (vorstehend zitiert); Southern et al., Genomics 13: 1008–1017 (1992) Und Maskos und Southern, Nucleic Acids Research 21: 4663–4669 (1993) offenbart.
  • Vorzugsweise wird die Erfindung mit Microteilchen oder Kügelchen, welche einheitlich mit Komplementen derselben Anhangs (Tag)-Sequenz beschichtet sind, eingereicht. Microteilchen-Träger und Verfahren der kovalenten oder nicht-kovalenten Verbindung von Oligonucleotiden mit ihren Oberflächen sind, wie durch die folgenden Referenzen beispielhaft aufgeführt, wohlbekannt: Beaucage und Iyer (vorstehend zitiert); Gait, Hrsg. Oligonucleotide Synthesis: A Practical Approach (IRL Press), Oxford, 1984) und die vorstehend zitierten Referenzen. Im Allgemeinen sind Größe und Form eines Microteilchens nicht kritisch; Microteilchen liegen im Größenbereich jedoch zwischen wenigen, z. B. 1–2 und einigen hundert, z. B. sind 200–1000 μm Durchmesser bevorzugt, da sie die Konstruktion und die Manipulation von großen Repertoires an Oligonucleotid-Anhängen (Tags) mit minimalem Verbrauch an Reagens und Probe erleichtern.
  • In einigen bevorzugten Anmeldungen werden herkömmlich erhältliche Träger aus kontrolliertem Porenglas (CPG) oder Polystyrol als Festphasenträger in der Erfindung verwendet. Solche Träger sind mit basenlabilen Verbindungen und angehefteten Anfangsnucleosiden erhältlich (z. B. Applied Biosystems (Foster City, CA). Vorzugsweise werden Microteilchen mit einer Porengröße zwischen 500 und 1000 Angström verwendet.
  • In anderen bevorzugten Anmeldungen werden nicht-poröse Microteilchen auf Grund ihrer optischen Eigenschaften verwendet, die bei der Verfolgung von großen Zahlen an Microteilchen auf planaren Trägern wie z. B. einem mikroskopischer Objektträger, vorteilhaft genutzt werden können.
  • Besonders bevorzugte nicht-poröse Microteilchen sind die Glycid-Methacrylat (GMA)-Kügelchen, erhältlich bei Bangs Laboratories (Carmel, IN). Solche Microteilchen sind in verschiedenen Größen von Nutzen und mit verschiedenen Bindungsgruppen zur Synthese von Anhängen (Tags) und Anhang (Tag)-Komplementen abgeleitet. Für massive parallele Manipulationen von markierten Microteilchen werden GMA-Kügelchen mit einem Durchmesser von 5 μm verwendet.
  • Anheften von Anhängen (Tags) an Polynucleotide zur Sortierung auf Festphasenträger
  • Ein wichtiger Aspekt der Erfindung ist die Sortierung und das Anheften von Populationen von Polynucleotiden, z. B. von einer cDNA-Bank an Microteilchen oder an getrennte Regionen auf einem Festphasenträger, so dass an jedes Microteilchen oder jede Region im Wesentlichen nur eine Art von Polynucleotiden angeheftet ist. Diese Ziel wird dadurch erreicht, dass gewährleistet wird, dass im Wesentlichen an alle verschiedenen Polynucleotide verschiedene Anhänge (Tags) angeheftet sind. Diese Bedingung wird wiederum dadurch erreicht, dass eine Probe von der Gesamtheit der Anhang (Tag)-Konjugat-Polynucleotid-Konjugate für die Analyse genommen wird. (Es ist annehmbar, dass identische Polynucleotide verschiedene Anhänge (Tags) haben, da dies kaum dazu führt, dass dasselbe Polynucleotid bearbeitet wird oder zweimal in verschiedenen Orten analysiert wird.) Eine solche Probenahme kann entweder offen durchgeführt werden – zum Beispiel dadurch, dass ein kleines Volumen von einem größeren Gemisch genommen wird – nachdem die Anhänge (Tags) an die Polynucleotide angeheftet sind, es kann auch inhärent durchgeführt werden als sekundäre Wirkung der Verfahren, die zur Verarbeitung der Polyucleotide und der Anhänge (Tags) verwendet werden, oder die Probenahme kann sowohl offen als auch als inhärenter Teil der Verarbeitungsschritte durchgeführt werden.
  • Vorzugsweise wird bei der Konstruktion von einer cDNA-Bank, bei der im Wesentlichen alle verschiedenen cDNAs verschiedene Anhänge (Tags) haben, ein Anhang (Tag)-Repertoire verwendet werden, dessen Komplexität oder die Zahl der verschiedenen Anhänge (Tags) die Gesamtanzahl der mRNAs, die aus einer Zell- oder Gewebeprobe extrahiert sind, um vieles übersteigt. Vorzugsweise ist die Komplexität des Anhang (Tag)-Repertoires mindestens 10 mal die der Polynucleotid-Population; und stärker bevorzugt ist die Komplexität des Anhang (Tag)-Repertoires mindestens 100 mal die der Polynucleotid-Population. Im Folgenden wird ein Protokoll zur Konstruktion einer cDNA-Bank unter Verwendung eines Primer-Gemisches offenbart, der ein volles Repertoire an beispielhaften Anhängen (Tags) mit 9 Wörtern enthält. Ein solches Gemisch an Anhang (Tag) enthaltenden Primern hat eine Komplexität von 89 oder etwa 1,34 × 108. Wie von Winslow et al., Nucleic Acids Research 19: 3251–3253 (1991) angezeigt, kann mRNA für die Konstruktion einer Bank von nur 10–100 Säugerzellen extrahiert werden. Da eine einzelne Säugerzelle etwa 5 × 105 Kopien von mRNA-Molekülen mit etwa 3,4 × 104 verschiedenen Arten enthält, kann man durch Standardverfahren die mRNA von etwa 100 Zellen, oder (theoretisch) von etwa 5 × 107 mRNA-Molekülen isolieren. Der Vergleich dieser Zahl mit der Komplexität des Primer-Gemisches zeigt, dass ohne irgendwelche zusätzlichen Schritte und sogar wenn man annimmt, dass die mRNAs mit einem perfekten Wirkungsgrad in cDNAs (1% Wirkungsgrad ist genauer) konvertiert werden, ergibt das cDNA-Protokoll der cDNA-Bank-Konstruktion eine Population, die nicht mehr als 37% der Gesamtzahl der verschiedenen Anhänge (Tags) enthält. Das heißt, ohne irgendeinen offenen Probeschritt erzeugt das Protokoll inhärent eine Probe, die 37% oder weniger des Anhang (Tag)-Repertoires erzeugt. Die Wahrscheinlichkeit, unter diesen Bedingungen ein Double zu erhalten, beträgt etwa 5%, was im bevorzugten Bereich liegt. Mit mRNA aus 10 Zellen wird die Fraktion des Anhang (Tag)-Repertoires, von dem die Probe genommen wurde, auf nur 3,7% reduziert, sogar wenn man annimmt, dass alle Verfahrenschritte mit 100%igem Wirkungsgrad ablaufen. In der Tat sind die Wirkungsgrade für die Verfahrensschritte zur Konstruktion von cDNA-Banken sehr gering, wobei es eine „Daumenregel" ist, dass eine gute Bank von mRNA, welche aus 106 Säugerzellen extrahiert ist, etwa 108 cDNA-Clone enthalten sollte.
  • Die Verwendung von größeren Mengen an mRNA in dem vorstehenden Protokoll oder für größere Mengen an Polynucleotiden im Allgemeinen, in dem die Anzahl solcher Moleküle die Komplexität des Anhang (Tag)-Repertoires übersteigt, enthält ein Anhang (Tag)- Polynucleotidkonjugatgemisch potenziell jede mögliche Paarung von Anhängen (Tags) und Typen von mRNA oder Polynucleotiden. In solchen Fällen kann eine offene Probenahme durch Entfernen eines Probevolumens nach eine seriellen Verdünnung des Start-Gemisches an Anhang (Tag)-Polynucleotidkonjugaten eingesetzt werden. Die Menge der benötigten Verdünnung hängt von der Menge an Startermaterial und dem Wirkungsgrad der Verfahrensschritte ab, die ausreichend geschätzt wurden.
  • Wird mRNA aus 106 Zellen extrahiert (was etwa 0,5 μg an Poly(A)+RNA entspräche) und wären Primer in etwa 10–100-fachem Konzentrationsüberschuss vorhanden – wie für ein typischen Protokoll gefordert wird, z. B. Sambrook et al., Molecular Cloning, Zweite Ausgabe, Seite 8.61 [10 μL 1,8 kB mRNA auf 1 mg/mL entspricht etwa 1,68 × 10-11 Mol, und 10 μL 18-merer Primer auf 1 mg/mL entspricht etwa 1,68 × 10-9 Mol], dann wäre die Gesamtzahl der Anhang (Tag)-Polynucleotid-Konjugate in einer cDNA-Bank einfach gleich zur oder weniger als die Startzahl an mRNAs sein oder etwa 5 × 1011 Vektoren, welche Anhang (Tag)- Polynucleotid-Konjugate enthalten -wiederum setzt dieses voraus, dass jeder Schritt in der cDNA-Konstruktion – Synthese des ersten Strangs, Synthese des zweiten Strangs, Ligation in einen Vektor – mit einem perfenkten Wirkungsgrad stattfindet, was eine sehr konservative Schätzung ist. Die wirkliche Anzahl ist signifikant weniger. Wird eine Probe von n Anhang (Tag)-Polynucleotid-Konjugaten zufällig aus einem Reaktionsgemisch gezogen – wie durch das Nehmen eines Probevolumens bewirkt werden könnte, so wird die Wahrscheinlichkeit, dass Konjugate entstehen, die denselben Anhang (Tag) haben, durch die Poisson-Verteilung P(r) = e–λ(λ)r/r beschrieben, wobei r die Anzahl der Konjugate ist, die denselben Anhang (Tag) haben und λ = np, wobei p die Wahrscheinlichkeit ist, dass ein bestimmter Anhang (Tag) ausgewählt wird. Ist n = 106 und p = 1/(1,34 × 108), dann ist λ = 0,00746 und P(2) = 2,76 × 10-5. Somit veranlasst eine Probe aus einer Million Moleküle eine erwartete Anzahl von Doubles, der sich gut innerhalb des bevorzugten Bereichs befindet. Eine solche Probe wird wie folgt erhalten: Nimm an, dass die 5 × 1011 mRNAs perfekt in 5 × 1011 Vektoren mit Anhang (Tag)cDNA Konjugaten als Insertionen konvertiert werden und dass die 5 × 1011 Vektoren sich in einer Reaktionslösung mit einem Volumen von 100 μl befinden. Vier 10-fache serielle Verdünnungen können durch Übertragen von 10 μl von der ursprünglichen Lösung in ein Gefäß, welches 90 μl eines geeigneten Puffers, wie TE enthält, ausgeführt werden. Dieser Prozess kann über drei zusätzliche Verdünnungen wiederholt werden, um eine Lösung von 100 μl zu erhalten, die 5 × 105 Vektormoleküle pro μl enthält. Ein 2 μl-Aliguot von dieser Lösung erbringt 106 Vektoren, die Anhang (Tag)-cDNA-Konjugate als Insertionen enthalten. Diese Probe wird dann durch eine geradeaus-Transformation einer geeigneten Wirtszelle amplifziert, gefolgt von Inkulturnahme.
  • Natürlich findet, wie vorstehend erwähnt, kein Schritt im vorstehenden Verfahren mit perfektem Wirkungsgrad statt. Im Besonderen wenn Vektoren verwendet werden, um eine Probe von Anhang (Tag)-Polynucleotid-Konjugaten zu amplifizieren, ist der Schritt, einen Wirt zu transformieren, sehr unwirksam. Normalerweise werden nicht mehr als 1% der Vektoren von dem Wirt aufgenommen und repliziert. Demnach würden für ein solches Amplifikationsverfahren sogar weniger Verdünnungen benötigt werden, um eine Probe von 106 Konjugaten zu erhalten.
  • Ein Repertoire an Oligonucleotid- Anhängen (Tags) kann auf eine Vielzahl von Arten mit einer Population von Polynucleotiden konjugiert werden, einschließlich der direkten enzymatischen Ligation, der Amplifiaktion, z. B. über PCR unter Verwendung von Primern, die die Anhang (Tag)-Sequenzen enthalten und Ähnliche. Der anfängliche Ligationsschritt produziert eine sehr große Population an Anhang (Tag)-Polynucleotid-Konjugaten, so dass ein einzelner Anhang (Tag) allgemein an viele verschiedene Polynucleotide angeheftet ist. Wie jedoch vorstehend bemerkt kann die Wahrscheinlichkeit „Doubles“ zu erhalten, d. h. denselben Anhang (Tag) auf zwei verschiedenen Polynucleotiden, vernachlässigenswert gemacht werden. Im Allgemeinen gilt, je größer die Probe, desto größer die Wahrscheinlichkeit ein Double zu erhalten. Demnach gibt es bei der Herstellung Einbußen zwischen der Auswahl einer großen Probe von Anhang (Tag)-Polynucleotid-Konjugaten – was zum Beispiel ein adäquates Vorkommen eines Polynucleotids in einem Shot-gun-Sequenzierungsvorgang öder einer adäquaten Darstellung eines sich schnell verändernden mRNA-Pools gewährleistet und der Auswahl einer kleinen Probe, die gewährleistet, dass eine Minimalanzahl an Doubles vorhanden sein werden. In den meisten Ausführungsformen stellt die Gegenwart von Doubles kaum eine zusätzliche Lärmquelle dar, oder, im Fall der Sequenzierung, eine geringe Komplikation beim Scannen und bei der Signalverarbeitung, da Microteilchen, die multiple fluoreszente Signale abgeben, einfach ignoriert werden können.
  • Wie hierin verwendet soll der Begriff „im Wesentlichen alle“ in Bezug auf das Anheften von Anhängen (Tags) an Moleküle, besonders Polynucleotide, die statistische Natur des verwendeten Probeverfahrens wiederspiegeln, um eine Population von Anhang (Tag)-Molekül-Konjugaten zu erhalten, das im Wesentlichen frei ist von Doubles. Die Bedeutung von im Wesentlichen alle hinsichtlich der aktuellen Prozentsätze an Anhang (Tag)-Molekül-Könjugaten hängt davon ab, wie die Anhänge (Tags) verwendet werden. Vorzugsweise bedeutet bei der Nucleinsäuresequenzierung „im Wesentlichen alle“, dass an mindestens 80% der Polynucleotide einzigartige Anhänge (Tags) angeheftet sind. Stärker bevorzugt bedeutet es, dass an mindestens 90% der Polynucleotide einzigartige Anhänge (Tags) angeheftet sind. Noch stärker bevorzugt bedeutet es, dass an mindestens 95% der Polynucleotide einzigartige Anhänge (Tags) angeheftet sind. Und am stärksten bevorzugt, bedeutet es, dass an mindestens 99% der Polynucleotide einzigartige Anhänge (Tags) angeheftet sind.
  • Vorzugsweise wenn die Population an Polynucleotiden aus Messenger-RNA (mRNA) besteht, können Oligonucleotid- Anhänge (Tags) durch reverses Überschreiben der mRNA mit einem Satz an Primern, die vorzugsweise Komplemente von Anhang (Tag)-Sequenzen enthalten, angeheftet werden. Ein beispielhafter Satz für solche Primer könnte die folgenden Sequenz haben (SEQ ID NR: 9):
    Figure 00490001
    worin „[W,W,W,C]9“ die Sequenz eines Oligonucleotid- Anhangs (Tags) aus neuen Untereinheiten mit je vier Nucleotiden repräsentiert und „[W,W,W,C]“ die vorstehend aufgelisteten Untereinheits-Sequenzen repräsentiert, d. h. „W“ repräsentiert T oder A. Die unterstrichenen Sequenzen identifzieren eine optionale Restriktions-Endonucleasestelle, die verwendet werden kann, um das Polynucleotid über das Biotin, wenn ein solches verwendet wird, von der Anheftung an einen Festphasenträger freizusetzen. Hinsichtlich des vorstehenden Primers könnte das an ein Microteilchen angeheftete Komplement die Form haben:
  • Figure 00490002
  • Nach der reversen Transkription wird die mRNA entfernt, z. B. durch Rnase-H-Abspaltung und der zweite Strang der cDNA wird z. B. unter Verwendung eines Primers mit der folgenden Form (SEQ ID NR: 10) synthetisiert:
    Figure 00490003
    worin N eines aus A, T, G oder C ist; R ist ein Purin enthaltendes Nucleotid und Y ist ein Pyrimidin enthaltendes Nucleotid. Dieser besondere Primer schafft eine Bst Y1 Restriktionsstelle in der entstehenden doppelsträngigen DNA, die, zusammen mit der Stelle Sal I die Klonierung mit, beispielsweise Bam HI und Xho-I-Stellen in einen Vektor erleichtert. Nach der Bst Y1 und der Sal I Spaltung hätte das beispielhafte Konjugat die folgende Form:
  • Figure 00490004
  • Die Anhang (Tag)-Polynucleotid-Konjugate können dann unter Standard-Molekularbiologischen Verfahren manipuliert werden. Zum Beispiel kann das vorstehende Konjugat – welches tatsächlich ein Gemisch ist – in herkömmlich erhältliche Klonierungsvektoren, z. B. Stratagene Cloning System (La Jolla, CA) inseriert werden, in einen Wirt transfiziert werden, wie eine herkömmlich erhältliche Wirtszelle; welche dann in Kultur genommen wird um die Anzahl der Konjugate zu erhöhen. Die Klonierungsvektoren können dann unter Verwendung von Standardverfahren, z. B. Sambrook et al., Molecular Cloning, Zweite Ausgabe (Cold Spring Harbor Laboratory, New York, 1989) isoliert werden. Alternativ können geeignete Adaptoren und Primer verwendet werden, so dass die Konjugat-Population durch PCR erhöht werden kann.
  • Vorzugsweise wenn das Ligase-basierende Verfahren der Sequenzierung verwendet wird, werden die Bst Y1 und Sal I gespaltenen Fragmente in einen Bam HI-/Xho Igespaltenen Vektor kloniert, welcher die folgenden einmal vorkommenden Restriktionsstellen hat (SEQ ID NO: 11):
  • Figure 00500001
  • Dies addiert die Fok I Stelle, die eine Initiation des Sequenzierungsverfahrens erlauben wird, welche nachstehend vollständiger beschrieben wird.
  • Anhänge (Tags) können durch Standard-Clonierungsverfahren zu cDNAs aus bestehenden Banken konjugiert werden. cDNAs werden aus ihrem bestehenden Vektor ausgeschnitten, isoliert und dann in einen Vektor, der ein Repertoire an Anhängen (Tags) enthält, ligiert. Vorzugsweise wird der Anhang (Tag)-enthaltende Vektor durch Spaltung mit zwei Restriktionsenzymen linearisiert, so dass die ausgeschnittenen cDNAs in einer vorherbestimmten Ausrichtung ligiert werden können. Die Konzentration des linearisierten Anhang (Tag)-enthaltenden Vektors ist in Wesentlichem Überschuss zu der der cDNA-Insertionen vorhanden, so dass eine Ligation eine inhärente Anhang (Tag)-Probenahme bereitstellt.
  • Ein allgemeines Verfahren zur Exposition des einzelsträngigen Anhangs (Tags) nach der Amplifikation beinhaltet die Spaltung eines Polynucleotid enthaltenden Konjugats mit der 5'→3'-Exonuclease-Aktivität der 4-DNA-Polymerase oder eines ähnlichen Enzyms. Wird es in Gegenwart eines einzelnen Desoxynucleosid-Triphosphats verwendet, wird eine solche Polymerase Nucleotide von 3'-eingebuchteten Enden spalten, die auf dem nicht-Matrizen-Strang eines doppelsträngigen Fragments vorhanden sind, bis ein Komplement des einzelnen Desoxyribonucleosid-Triphosphats auf dem Matrizenstrang erreicht ist.
  • Wird ein solches Nucleotid erreicht, hört die 5'?3'-Spaltung auf, da die Verlängerungsaktivität der Polymerase in einer höheren Rate Nucleotide zufügt als die Excisionsaktivität Nucleotide entfernt. Daraus folgt, dass einzelsträngige Anhänge (Tags), die mit drei Nucleotiden konstruiert sind, für die Beladung auf Festphasenträger ausreichend bereit sind.
  • Das Verfahren kann auch verwendet werden, um vorzugsweise interne Fok I-Stellen eines Polynucleotids zu methylieren, wobei eine einzelne Fok I Stelle am Terminus des Polynucleotids unmethyliert bleibt. Zuerst wird die terminale Fok I-Stelle unter Verwendung einer Polymerase mit Desoxycytidin-Trophosphat einzelsträngig gemacht. Das doppelsträngige Fragment wird dann methyliert, wonach der einzelsträngige Terminus mit einer DNA-Polymerase in Gegenwart aller vier Nucleosid-Triphosphate aufgefüllt wird, wobei die Fok I-Stelle erneuert wird. Natürlich kann dieses Verfahren auch für andere Endonucleasen als Fok I verallgemeinert werden.
  • Nachdem die Oligonucleotid-Anhänge (Tags) für die spezifische Hybridisierung vorbereitet sind, z. B. dadurch, dass sie wie vorstehend beschrieben einzelsträngig gemacht wurden, werden die Polynucleotide mit Microteilchen vermischt, die die komplementären Sequenzen der Anhänge (Tags) enthalten, unter Bedingungen, die die Bildung von perfekt passenden Duplices zwischen den Anhängen (Tags) und ihren Komplementen begünstigen. Es gibt in der Literatur für die Erzeugung dieser Bedingungen extensive Anleitung. Beispielhafte Referenzen, die eine solche Anleitung bereitstellen umfassen Wetmur, Critical Reviews in Biochemistry and Molecular Biology, 26: 227–259 (1991); Sambrook et al., Molecular Cloning: A Laboratory Manual, 2. Ausgabe (Cold Spring Harbor Laboratory New York, 1989); und Ähnliche. Die Hybridisierungsbedingungen sind vorzugsweise ausreichend stringent, so dass nur perfekt passende Sequenzen stabile Duplices bilden. Unter solchen Bedingungen können die Polynucleotide, die durch ihre Anhänge (Tags) spezifisch hybridisiert sind, zu den komplementären Sequenzen, die an die Microteilchen angeheftet sind, ligiert werden. Schließlich werden die Microteilchen gewaschen, um Polynucleotide mit nicht-ligierten und/oder nicht passenden Anhängen (Tags) zu entfernen.
  • Werden CPG-Microteilchen, die herkömmlich als Syntheseträger verwendet wurden, verwendet, ist die Dichte der Anhang (Tag)-Komplemente auf der Oberfläche der Microteilchen typischerweise größer als es für einige Sequenzierungsvorgänge nötig ist. Das heißt, bei Sequenzierungsansätzen, die eine aufeinanderfolgende Behandlung der angehefteten Polynucleotide mit verschiedenen Enzymen benötigen, können räumlich dichte Polynucleotide dazu tendieren, dass sie den Zugang der relativ sperrigen Enzyme zu den Polynucleotiden hemmen. In solchen Fällen werden die Polynucleotide vorzugsweise mit den Microteilchen vermischt, so dass Anhang (Tag)-Komplemente in signifikantem Überschuss zu den Polynucleotiden, z. B. von 10 : 1 zu 100 : 1 oder größer, vorhanden sind. Dieses gewährleistet, dass die Dichte der Polynucleotide auf der Oberfläche der Microteilchen nicht so hoch sein wird, dass sie den Enzymzugang hemmt. Vorzugsweise liegt der durchschnittliche Raum zwischen den Polynucleotiden auf der Microteilchen-Oberfläche im Bereich von 30–100 nm. Eine Anleitung bei der Auswahl der Verhältnisse für Standard-CPG-Träger und Ballotini-Kügelchen (eine Art von Festglasträger) wird in Maskos und Southern, Nucleic Acids Research, 20: 1679–1684 (1992) gefunden. Vorzugsweise werden für Sequenzierungsanwendungen Standard-CPG-Kügelchen mit einem Durchmesser im Bereich von 20–50 μm mit etwa 105 Polynucleotiden beladen, und GMA- Kügelchen mit einem Durchmesser im Bereich von 5–10 μm werden mit wenigen zehntausend Polynucleotiden, z. B. 4 × 104 bis 6 × 104 beladen
  • In der bevorzugten Ausführungsform werden Anhang (Tag)-Komplemente kombinatorisch auf Microteilchen synthetisiert; somit erhält man am Ende der Synthese ein komplexes Gemisch aus Microteilchen, von welchen eine Probe für die Beladung von markierten Polynucleotiden genommen wird. Die Größe der Probe von Microteilchen wird von verschiedenen Faktoren abhängen, einschließlich der Größe des Repertoires für Anhang (Tag)-Komplemente, der Natur des Geräts, das zur Beobachtung von geladenen Microteilchen verwendet werden – z. B. seine Kapazität, die Toleranz für multiple Kopien von Microteilchen mit demselben Anhang (Tag)-Komplement (d. h. „Kügelchen-Doubles“) und Ähnliche. Die folgende Tabelle liefert eine Anleitung hinsichtlich der Probengröße für Microteilchen, den Microteilchen-Durchmesser, und der ungefähren physikalischen Dimensionen einer gepackten Anordnung von Microteilchen verschiedener Durchmesser.
  • Figure 00530001
  • Die Wahrscheinlichkeit, dass die Probe an Microteilchen ein bestimmtes Anhang (Tag)-Komplement enthält, oder in multiplen Kopien vorhanden ist, wird durch die Poisson-Verteilung beschrieben, wie in der folgenden Tabelle angezeigt.
  • Tabelle VII
    Figure 00530002
  • Gerät zur Beobachtung von Nachweissignalen an räumlich getrennten Stellen
  • Vorzugsweise wird eine räumlich zugängliche Anordnung durch Fixieren von Microteilchen enthaltende Anhang (Tag)-Komplemente an eine Festphasenoberfläche eingerichtet.
  • Vorzugsweise werden, wann auch immer lichterzeugende Signale, z. B. chemilumineszente, fluoreszente oder Ähnliche, verwendet werden, um Anhänge (Tags) nachzuweisen, Microteilchen zur Untersuchung mit einem Scanning-System, wie in den Internationalen Patentanmeldungen PCT/US91/09217, PCT/NL90/00081, und PCT/US95/01886 beschrieben, auf einem flachen Substrat, z. B. einem Glas-Objektträger ausgestrichen. Das Scanning-System sollte in der Lage sein, das Substrat reproduzierbar zu scannen und die Positionen jedes Microteilchens in einer vorherbestimmten Region durch ein Koordinatensystem zu definieren. Bei Polynucleotid-Sequenzierungsanmeldungen ist es wichtig, dass die Identifikation der Position der Microteilchen in aufeinanderfolgenden Scan Schritten wiederholbar ist.
  • Solche Scanning-Systeme können aus herkömmlich erhältlichen Komponenten, z. B. x-y-Translationstabelle, welche durch einen digitalen Computer kontrolliert wird, zusammen mit einem Nachweissystem verwendet werden, das eine oder mehrere Photomultiplier-Röhren umfasst, oder alternativ, einer CCD-Anordnung und geeigneter Optik, z. B. zum Erregen, Sammeln und Sortieren fluoreszenter Signale. In einigen Ausführungsformen kann ein konfocales optisches System wünschenswert sein. Ein beispielhaftes Scanning-System, das für die Verwendung bei der Vierfarbsequenzierung geeignet ist, wird diagrammatisch in 3 illustriert. Substrat 300, z. B. ein mikroskopischer Objektträger mit fixierten Microteilchen wird auf die x-y-Translationstabelle 302 platziert, die mit einem geeigneten programmierten digitalen Computer 304 verbunden ist und von ihm kontrolliert wird, der irgendeiner aus verschiedenen herkömmlich erhältlichen Personal Computern sein kann, z. B. 486-basierende Geräte oder das Power PC Modell 7100 oder 8100 erhältlich von Apple Computer (Cupertino, CA). Die Computer-Software zur die Tabellen-Translation und die Datensammlung kann durch herkömmlich erhältliche Laborsoftware bereitgestellt werden, wie Lab Windows, erhältlich von National Instruments.
  • Substrat 300 und Tabelle 302 werden operationell mit Mikroskop 306 verbunden, das ein oder mehrere Objektlinsen 308 hat, die in der Lage sind, Licht auf Microteilchen zu leiten, die an Substrat 300 fixiert sind. Der Erregungsstrahl 310 von Lichtquelle 312, welches vorzugsweise ein Laser ist, wird auf den Strahlenteiler 314, z. B. einen dichroitischen Spiegel geleitet, der den Strahl wiederum durch Mikroskop 306 und die Objektivlinse 308 leitet, welche nun den Strahl auf Substrat 300 leitet. Die Linse 308 sammelt Fluoreszenz, die von den Microteilchen emittiert wird und leitet sie durch den Strahlenteiler 314 zur Signalverteilungsoptik 318, die wiederum Fluoreszenz zu einer oder mehreren geeigneten opto-elektronischen Geräten leitet, um einige Fluoreszenzcharakteristika zu konvertieren, z. B. Intensität, Lebensdauer oder Ähnliche in ein elektrisches Signal. Die Signalverteilungsoptik 318 kann verschiedene Komponenten umfassen, die auf dem Fachgebiet Standard sind, wie Bandpass-Filter, Faseroptik, Rotationsspiegel, Festpositionsspiegel und Linsen, Diffraktions-Gelenke und Ähnliche. Wie in 5 gezeigt leitet die Signalverteilungsoptik 318 die Fluoreszenz 316 auf vier getrennte Photomultiplier-Röhren 330, 332, 334, und 336, deren Ergebnis dann auf Prä-Amplifikatoren und Photonenzähler 350, 352, 354 und 356 geleitet wird. Das Ergebnis der Photonenzähler wird durch Computer 304 gesammelt, wo er gelagert, analysiert und auf Video 360 gezeigt wird. Alternativ könnte die Signalverteilungsoptik 318 ein Diffraktions-Gelenk sein, das das fluoreszente Signal 318 auf eine CCD-Anordnung leitet.
  • Die Stabilität und Reproduzierbarkeit der positionalen Lokalisierung beim Scannen wird zu einem großen Teil die Lösung zur Trennung von räumlich nahen Microteilchen bestimmen. Die Scanning-Systeme sollten vorzugsweise in der Lage sein, räumlich nahe Microteilchen, die z. B. durch einen Teilchendurchmesser oder weniger getrennt sind, aufzulösen. Demnach sollte das Scanning-System in den meisten Anwendungn, z. B. bei der Verwendung von CPG-Microteilchen, wenigstens die Fähigkeit haben, Objekte im Bereich von 5–100 nm aufzulösen. Es kann in einigen Ausführungsformen sogar eine höhere Auflösung wünschenswert sein, jedoch wird bei einer erhöhten Auflösung die Zeit, die für einen vollständigen Scan benötigt wird, ansteigen; somit kann in einigen Ausführungsformen ein Kompromiss zwischen Schnelligkeit und Auflösung nötig sein. Zunahmen in der Scan-Zeit können durch ein System erreicht werden, das nur Stellen scannt, wo bekannt ist, dass sich Microteilchen befinden, z. B. von einem anfänglichen Gesamtscan her. Vorzugsweise werden Größe der Microteilchen und Auflösung des Scanning-Systems ausgewählt, um eine Auflösung von fluoreszenzmarkierten Microteilchen zu erlauben, die auf einer Ebene mit einer Dichte zwischen etwa zehtausend bis einhunderttausend Microteilchen pro cm2 zufällig verteilt sind.
  • In Sequenzierungsanwendungen können Microteilchen auf verschiedene Arten auf der Oberfläche eines Substrats befestigt werden. Die Fixierung sollte stark genug sein, um zu gewährleisten, dass die Microteilchen aufeinanderfolgende Zyklen der Reagens-Exposition und Waschen ohne signifikante Verluste unterlaufen. Wenn das Substrat Glas ist, dann kann seine Oberfläche mit einer Alkylamino-Verbindung unter Verwendung von herkömmlich erhältlichen Reagenzien derivatisiert werden, z. B. Perce Chemical, welches wiederum mit Avidin kreuzverbunden sein kann, wiederum unter Verwendung von herkömmlichen Chemikalien, um eine avdinierte Oberfläche zu bilden. Biotingemische können auf viele verschiedene Weisen in die Microteilchen eingeführt werden.
  • In einer Alternative, wenn DNA-beladene Microteilchn auf ei Glassubstrat aufgebracht werden, adsorbiert die DNA nicht-spezifisch während mehrerer Stunden, z. B, 24 Stunden, an die Glasoberfläche, wird inkubiert, um eine Bindung zu schaffen, die ausreichend stark ist, um verschiedenes Aussetzen an Reagenzien und Waschungen ohne signifikante Verluste von Microteilchen zu gewährleisten. Ein solches Glassubstrat kann eine Durchflusszelle sein, die einen Tunnel, der in einen Glas-Objektträger geritzt ist, umfassen kann. Ein solcher Tunnel ist vorzugsweise geschlossen, so dass Flüssigkeiten durch sie durchgepumpt werden können und er hat eine Tiefe, die dem Durchmesser der Microteilchen ähnlich genug ist, dass ein Monolayer aus Microteilchen innerhalb einer definierten Beobachtungsregion aufgefangen wird.
  • Beispiel 1
  • Konstruktion einer Anhang (Tag) Bank
  • Eine beispielhafte Anhang (Tag)-Bank wird wie folgt konstruiert, um die chemisch synthetisierten 9-Wort-Anhänge (Tags) der Nucleotide A, G, und T zu bilden, die durch die Formel definiert sind:
    Figure 00560001
    wobei „-[4(A,G,T)9] ein Anhang (Tag)-Gemisch anzeigt, wobei jeder Anhang (Tag) aus neun 4-meren Worten aus A, G und T besteht; und „p“ zeigt ein 5'-Phosphat. Dieses Gemisch wird mit den folgenden linken und rechten Primer-bindenden Regionen verbunden (SEQ ID NR: 12 & 13):
  • Figure 00570001
  • Die linken und rechten Primer-bindenden Regionen werden mit dem vorstehenden Anhang (Tag)-Gemisch verbunden, wonach der einzelsträngige Abschnitt der ligierten Struktur mit DNA-Polymerase ausgefüllt wird, dann mit den linken und rechten Primern, welche unten angezeigt sind, verbunden und amplifiziert, um eine Anhang (Tag)-Bank zu erhalten.
  • Figure 00570002
  • Der unterstrichene Abschnitt der linken Primer-bindenden Region zeigt eine Rsr II Erkennungsstelle an. Die am meisten linke unterstrichene Region der rechten Primerbindenden Region zeigt Erkennungsstellen für Bsp 120I, Apa I und Eco O 1091 und eine Spaltungsstelle für Hga I an. Die am meisten rechte unterstrichene Region der rechten Primer-bindenden Region zeigt eine Erkennungsstelle für Hga I an. Optional können die rechten oder linken Primer mit einem angehefteten Biotin synthetisiert werden (unter Verwendung von herkömmlichen Reagenzien, z. B. erhältlich von Clontech Laboratories, Palo Alto, CA), um die Reinigung nach Amplifikation und/oder Spaltung zu erleichtern.
  • Beispiel 2
  • Konstruktion einer Plasmid-Bank von Anhang (Tag)-Polynucleotid-Konjugaten für die cDNA- "Signature"-Sequenzierung
  • cDNA wird aus einer mRNA-Probe durch herkömmliche Protokolle unter Verwendung von pGGCCCT15 (A oder G oder C) als Primer für die Synthese des ersten Strangs, welche an der Grenze der Poly A-Region der mRNAs verankert ist und N8 (A oder T)GATC als Primer für die Synthese des zweiten Strangs hergestellt. Das heißt, beides sind degenerierte Primer, so dass der Primer des zweiten Strangs in zwei Formen und der Primer des ersten Strangs in drei Formen vorliegt. Die GATC-Sequenz in dem Primer des zweiten Strangs entspricht der Erkennungsstelle von Mbo I; vier andere Basenerkennungsstellen könnten ebenfalls verwendet werden, wie jene für Bam H1, Sph I, Eco RI oder Ähnliche. Die Gegenwart von A und T angrenzend an die Erkennungsstelle des Primers des zweiten Strangs stellt sicher, dass im nächsten Schritt eine Stripping- und eine Austauschreaktion verwendet werden kann, um einen Überhang von 5 Basen 5' zu „GGCCC“ zu erzeugen.
  • Der Primer des ersten Strangs wird mit der mRNA-Probe verbunden und mit reverser Transkriptase verlängert, wonach der RNA-Strang durch die RNase-H-Aktivität der reversen Transkriptase abgebaut wird, und eine einzelsträngige DNA übriglässt. Der Primer des zweiten Strangs wird unter Verwendung von herkömmlichen Protokollen mit einer DNA-Polymerase verbunden und verlängert. Nach der Synthese des zweiten Strangs werden die entstehenden cDNAs mit CpG-Methylase (New England Biolabs, Beverly, MA) unter Verwendung der Protokolle der Hersteller methyliert. Die 3'-Stränge der cDNAs werden dann mit der vorstehend erwähnten Stripping- und Austauschreaktion unter Verwendung von T4-DNA-Polymerase in Gegenwart von dATP und dTTP zurückgeschnitten, wonach die cDNAs mit der Anhang (Tag)-Bank aus Beispiel 1, welche zuvor mit Hga I gespalten wurden, verbunden werden, um das folgende Konstrukt zu erhalten:
    Figure 00580001
  • Getrennt davon wird der folgende Clonierungsvektor konstruiert, z. B. ausgehend von einem herkömmlich erhältlichen Plasmid, wie einem Bluescript Phagemid (Stratagene, La Jolla, CA) (SEQ ID NR: 14).
  • Figure 00590001
  • Das Plasmid wird mit Ppu MI und Pme I gespalten und dann mit DAM-Methylase methyliert. Das Anhang (Tag)-enthaltende Konstrukt wird mit Rsr II gespalten und dann mit dem offenen Plasmid verbunden, wonach das Konjugat mit Mbo I und Bam HI gespalten wird, um eine Ligation und Schließen des Plasmids zu erlauben. Das Plasmid wird dann amplifiziert und zum Gebrauch als Matrize in den selektiven Amplifikationen unter Verwendung der Sund T-Primer isoliert.
  • Beispiel 3
  • Signatur-Seguenzierung einer cDNA-Bank unter Verwendung von S- und T-Primern
  • Das Plasmid, das in Beispiel 2 konstruiert wird, wird als eine Basenbank für die Erzeugung von Amplicons mit S- und T- Primern verwendet. Der folgende T-Primer wird verwendet (SEQ ID NR: 15):
    Figure 00590002
    worin die I's Desoxyinosine sind, welche zugesetzt wurden, um die Bindungs- und Schmelztemperaturen der S- und T-Primer auszubalancieren. Die folgenden 32 S-Primer werden verwendet (SEQ ID NR: 16–23)
    Figure 00600001
    Bbv I-Stelle worin X eine der vier Nucleotide A, C, G und T darstellt, so dass jede der vorstehenden Sequenzen vier verschiedene Gemische von S-Primern darstellt und worin N ein Gemische aus den vier natürlichen Nucleotiden darstellt und B ein Gemisch aus I und C darstellt, welche als Degenerations-reduzierende Analoga wirken. Natürlich können auch andere Spacer-Nucleotide verwendet werden.
  • Die Plasmid-DNA wird mit Hae III-Methylase mehtyliert und in 32 getrennte Gefäße verteilt, z. B. Vertiefungen auf einer Microtiterplatte, wobei PCRs unter Verwendung der vorstehenden Primer durchgeführt werden. Vorzugsweise werden die Reaktionen in 8 Reihen mit 4 Reaktionen arrangiert: eine Reihe für jede Polynucleotid-Position, welche untersucht wird und eine Spalte für jedes 3'-terminale Nucleotid des S-Primers. Es werden 8 Reihen benötigt, da die Reichweite von Bbv (8/12) ist, so dass, nachdem 8 Nucleotide durch die vorstehenden PCRs identifiziert sind, die Nucleotide durch Bbv I-Spaltung von der cDNA entfernt werden.
  • Nach der PCR-Amplifikation werden die Amplicons von jeder Reaktion getrennt auf magnetischen Kügelchen eingefangen, die eine einzelsträngige Sequenz tragen, welche eine Triplex mit den S-Primern bildet. Die Kügelchen werden dann in Reaktionsgemische überführt, die Apa I enthalten, welches alle Stränge spaltet, die keine Methylgruppen haben, d. h. alle Stränge, die selektiv amplifiziert wurden. Die freigesetzten Stränge werden dann über ihre biotinylierten T-Primer mit magnetischen Kügelchen eingefangen, welche mit Avidin beschichtet sind und in Reaktionsgefäße überführt, wo ihre 3'-Enden in Gegenwart von T4-DNA-Polymerase und dGTP, wie nachstehend gezeigt, gestrippt werden:
  • Nach Spaltung mit Apa I (SEQ ID NR: 24):
    Figure 00610001
  • Hier stellt dUTP* ein markiertes dUTP dar und ddATP stellt ein Didesoxyadenosintriphosphat dar. Bevorzugt wird dUTP mit einer spektral getrennt auflösbaren Fluoreszenzfärbung für jede der vier Säulen-PCRs markiert. Die freigesetzten Anhänge (Tags) für jede der acht PCR-Reihen werden vermischt und mit der räumlich getrennten Anordnung zur Hybridisierung an ihre Komplemente und Nachweis angewendet.
  • Nach oder gleichzeitig mit den 32 PCRs wird Bbv I verwendet, um die cDNA-Insertionen der Bank zu verkürzen. Aus einer frischen Plasmidprobe wird unter Verwendung der folgenden S- und T-Primer ein Amplicon hergestellt (SEQ ID NR: 26 & 27):
  • Figure 00610002
  • Nach der Amplifikation wird das Amplicon methyliert, um interne Bbv I-Stellen zu schützen, seine 3'-Enden werden unter Verwendung von T4-Polymerase und dGTP gestrippt, wonach die herausragenden Stränge durch Zusetzen von dTTP und dCTP aufgefüllt werden. Danach wird das Amplicon mit Bbv I gespalten und das S-Primersegment wird mit magnetischen Kügelchen, welche mit Avidin beschichtet sind, entfernt. Das folgende Adaptor-Gemisch, welches eine neue S-Primer-Bindungsstelle enthält, wird dann mit dem T-Primersegment verbunden:
  • Figure 00620001
  • Das ligierte Fragment wird dann dür den nächsten Zyklus selektiver Amplifikationen mit den 32 S-Primern, welche vorstehend beschrieben wurden, amplifiziert.
  • Beispiel 4
  • Signatur Sequenzierung einer cDNA-Bank unter Verwendung von rollenden Primern
  • Eine Plasmid-Bank von Anhang (Tag)-Polynucleotid-Konjugaten wird wie in Beispiel 2 beschrieben konstruiert, mit der Ausnahme, dass die Primer bindende Region wie folgt konstruiert wird:
  • Figure 00620002
  • Die Bindungsstelle des rollenden Primers entspricht einem rollenden Primer aus der vorstehend beschriebenen Untergruppe (1). Wie in Beispiel 2 wird das vorstehende Plasmid mit Ppu MI und Pme I gespalten ( um ein Rsr II-kompatibles Ende und ein glattes Ende zu erhalten, so dass die Insertion ausgerichtet ist) und dann mit DAM-Methylase methyliert. Das Anhang (Tag)-enthaltende Konstrukt (beschrieben in Beispiel 2) wird dann mit Rsr II gespalten und dann mit dem offenen Plasmid verbunden, wonach das Konjugat mit Mbo I und Bam HI gespalten wird, um eine Verwendung und Verschließung des Plasmids zu erlauben. Das Plasmid wird dann für die Verwendung als Matrize für Verlängerungen und Amplifikationen mit rollenden Primern amplifiziert und isoliert.
  • Beispiel 5
  • Signatur-Sequenzierung einer cDNA-Bank mit rollenden Primern
  • Das Plasmid, welches in Beispiel 2 konstruiert wurde, wird für die Erzeugung von Verlängerungsproduktien und Amplicons mit den vorstehend beschriebenen rollenden Primern und dem folgenden T-Primer (SEQ ID NR: 15) verwendet:
    Figure 00630001
    worin die I's Desoxyinosine sind, welche zugesetzt wurden, um die Bindungs- und Schmelztemperaturen der T-Primer und der rollenden Primer auszubalancieren. Die Bindungstemperatur ist vorzugsweise etwa 55°C. Natürlich könnten bei der Umsetzung der Endung viele andere Sequenzen verwendet werden. Die vorstehend beschriebenen rollenden Primer werden verwendet.
  • Das Segment, welches die T-Primer-Bindungsstelle bis zur Primer-Bindungsstelle des rollenden Primers enthält, wird ausgeschnitten und von dem Plasmid aus Beispiel 2 getrennt. (Dies kann auf verschiedene Weisen, welche dem Fachmann bekannt sind, durchgeführt werden, zum Beispiel durch Verarbeiten des Plasmids, so dass es Restriktionsstellen hat, die das Segment flankieren oder einfach durch direkte Amplifikation durch PCR). Nach Ersetzen der Desoxyguanosine durch Desoxyinosine, z. B. durch PCR in Gegenwart von dITP wird das Segment in vier Gefäße aliquotiert, denaturiert, und der geeignete rollende Primer wird zugesetzt. Die Bedingungen werden so angeglichen, dass der rollende Primer binden kann, wonach die Primer mit Sequenase oder einer ähnlichen Hochleistungspolymerase in Gegenwart von dATP, dCTP, dITP, und dTTP unter Verwendung des Protokolls des Herstellers, verlängert werden. Die übrige einzelsträngige DNA wird mit einer einzelsträngigen Nuclease, wie Mungbohnennuclease, gespalten. Optional kann das doppelsträngige DNA-Verlängerungsprodukt vom Reaktionsgemisch getrennt werden, z. B. durch Einfangen über die Bildung einer Triplex zwischen zum Beispiel der T-Primerbindenden Region und einem geeigneten einzelsträngigen Komplement, das an ein magnetisches Kügelchen angeheftet ist.
  • Die doppelsträngige DNA wird mit T-Primer (und rollendem Primer, wenn ein Trennungsschritt verwendet wurde), kombiniert, durch 5–12 Zyklen PCR in Gegemwart von dATP, dCTP, dITP und dTTP amplifiziert, um die vier anfänglichen Amplicons zu bilden. Beispiele für diese werden kombiniert und wieder in Gefäße mit den geeigneten rollenden Primern für den nächsten Verlängerungsschritt verteilt. Wie in Beispiel 3 beschrieben, werden auch Proben für die Analyse abgezogen.
  • Anhang Ia Beispielhaftes Computerprogramm zur Herstellung von minimal kreuzhybridisierenden Sätzen (einzelsträngiger Anhang (Tag)/ einzelsträngiges Anhang (Tag)-Komplement)
    Figure 00650001
  • Figure 00660001
  • Figure 00670001
  • Anhang 1b Beispielhaftes Computerprogramm zur Herstellung von minimal kreuzhybridisierenden Sätzen (einzelsträngiger Anhang (Tag)/ einzelsträngiges Anhang (Tag)-Komplement)
    Figure 00680001
  • Figure 00690001
  • Figure 00700001
  • Anhang 1c Beispielhaftes Computerprogramm zur Herstellung von minimal kreuzhybridisierenden Sätzen (doppelsträngiger Anhang (Tag)/ einzelsträngiges Anhang (Tag)-Komplement)
    Figure 00710001
  • Figure 00720001
  • SEQUENZPROTOKOLL
    Figure 00730001
  • Figure 00740001
  • Figure 00750001
  • Figure 00760001
  • Figure 00770001
  • Figure 00780001
  • Figure 00790001

Claims (12)

  1. Verfahren zur gleichzeitigen Identifizierung eines oder mehrerer terminalen Nucleotids/Nucleotide von Polynucleotiden in einer Population von Polynucleotiden, wobei das Verfahren die Schritte umfasst: (a) Anfügen eines Oligonucleotid-Anhangs (Tag) aus einem Repertoire von Anhängen (Tags) an ein Ende eines jeden Polynucleotids der Population, um Anhang(Tag)-Polynucleotid-Konjugate zu bilden, so dass im Wesentlichen alle verschiedenen Polynucleotide verschiedene Oligonucleotid-Anhänge (Tags) angefügt haben, wobei die Oligonucleotid-Anhänge (Tags) ausgewählt sind aus dem gleichen minimal kreuzhybridisierenden Satz; (b) Markieren eines jeden Oligonucleotid-Anhangs (Tag) oder einer Kopie davon, so dass die Markierung ein oder mehrere terminale(s) Nucleotid(e) der Polynucleotide in dem Anhang(Tag)-Polynucleotid-Konjugate identifiziert und, vor oder nach einem solchen Markieren, Abspalten des Anhangs (Tags) oder einer Kopie davon von dem angefügten Polynucleotid; (c) Überführen der abspaltenen Oligonucleotid-Anhänge (Tags) oder Kopien davon auf eine räumlich zuordenbare Anordnung von Anhang (Tag)-Komplementen, so dass die Oligonucleotid-Anhänge (Tags) oder Kopien davon spezifisch an ihre entsprechenden Anhang(Tag)-Komplemente hybridisieren; und (d) Nachweisen der Markierungen der Oligonucleotid-Anhänge (Tags) oder Kopien davon auf der räumlich zuordenbaren Anordnung zur Identifizierung eines oder mehrerer terminalen Nucleotids/Nucleotide der Polynucleotide in der Population.
  2. Verfahren nach Anspruch 1, wobei die Population der Polynucleotide eine Population von mRNA-Molekülen ist, und wobei die Population der Polynucleotide gebildet wird durch: Bilden einer Population von cDNA-Molekülen aus der Population von mRNA-Molekülen, so dass jedes cDNA-Molekül einen Oligonucleotid-Anhang (Tag) an einem Ende angefügt hat, wobei die Oligonucleotid-Anhänge (Tags) ausgewählt sind aus dem gleichen minimal kreuzhybridisierenden Satz; und Entnehmen einer Probe von cDNA-Molekülen aus der Population, so dass im Wesentlichen alle verschiedenen cDNA-Moleküle in der Probe verschiedene Oligonucleotid-Anhänge (Tags) angefügt haben; und wobei das Verfahren weiterhin die Schritte umfasst: (e) Verkürzen der cDNA-Moleküle durch Entfernen von einem oder mehreren identifizierten terminalen Nucleotid(en); (f) Wiederholen der Schritte (b) bis (e), bis ein Teil der Sequenz eines jeden cDNA-Moleküls bestimmt ist; und (g) Identifizieren der Population von mRNA-Molekülen durch Häufigkeitsverteilung der Anteile von Sequenzen der cDNA-Moleküle.
  3. Verfahren nach Anspruch 1, zusätzlich beinhaltend die Schritte: (e) Verkürzen der Polynucleotide; und (f) Wiederholen der Schritte (b) bis (e).
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Anhang(Tag)-Polynucleotid-Konjugate zusätzlich eine erste und zweite Primer-Bindestelle umfassen und der Schritt des Markierens selektives Amplifizieren der Anhang (Tag)-Polynucleotid-Konjugate durch eine Polymerasekettenreaktion einschließt, durch Verwenden eines ersten Primers und eines zweiten Primers, wobei der zweite Primer ein definiertes 3'-terminales Nucleotid besitzt und ein Duplex mit der zweiten Primer-Bindestelle und einem oder mehreren terminalen Nucleotid(en) an einem Ende des Polynucleotids bildet, so dass ein Anhang(Tag)-Polynucleotid-Konjugat nur dann amplifiziert wird, wenn das definierte 3'-terminale Nucleotid mit dem einen oder einem von mehreren terminalen Nucleotid/Nucleotiden am Ende des Polynucleotids eine Basenpaarung eingeht und Markieren der Anhänge (Tags) der amplifizierten Konjugate gemäß der Identität des definierten 3'-terminalen Nucleotids.
  5. Verfahren nach einem der Ansprüche 2 bis 4, wobei der Schritt des Verkürzens beinhaltet: Bereitstellen einer Nuclease und einer Nuclease-Erkennungsstelle in dem Duplex, der zwischen dem zweiten Primer und der Primer-Bindestelle gebildet wurde, wobei die Nuclease eine Erkennungsstelle hat, die getrennt ist von ihrer Schnittstelle, und die Erkennungsstelle so gelegen ist, dass sie das Schneiden des Polynucleotides zulässt, so dass das eine oder die mehreren terminale(n) Nucleotid(e) am Ende des Polynucleotids entfernt werden, und Abtrennen der terminalen Nucleotide von dem Polynucleotid durch Verwenden der Nuclease.
  6. Verfahren nach einem der Ansprüche 3 bis 5, wobei der Schritt des Verkürzens zusätzlich das Ligieren eines Adaptors an das Ende des Polynucleotids nach dem Schneiden einschließt, wobei der Adaptor die zweite Primer-Bindestelle und die Nuclease-Erkennungsstelle enthält.
  7. Verfahren nach Anspruch 6, wobei der Oligonucleotid-Anhang (Tag) einzelsträngig ist und aus einer Vielzahl von Untereinheiten besteht, wobei jede Untereinheit aus einem Oligonucleotid von 3 bis 9 Nucleotiden in der Länge besteht und jede Untereinheit ausgewählt ist aus dem gleichen minimal kreuzhybridisierenden Satz.
  8. Verfahren nach Anspruch 7, wobei das Repertoire der Oligonucleotid-Anhänge (Tags) mindestens 100 der Oligonucleotid-Anhänge (Tags) beinhaltet.
  9. Verfahren nach Anspruch 8, wobei die Untereinheiten der Oligonucleotid-Anhänge (Tags) Oligonucleotide sind, von denen jedes eine Länge zwischen 4 und 9 Nucleotiden hat und wobei jeder Oligonucleotid-Anhang (Tag) sich von jedem anderen Oligonucleotid-Anhang (Tag) des gleichen minimal kreuzhybridisierenden Satzes durch mindestens 3 Nucleotide unterscheidet.
  10. Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Bereitstellens der Markierung einschließt: (i) Bereitstellen eines Satzes von Primern, wobei jeder Primer des Satzes ein terminales Nucleotid, einen Verlängerungsbereich, umfassend ein oder mehrere Komplexität-reduzierende(s) Nucleotid(e) oder Komplemente davon, und ein Matrizen-positionierendes Segment hat, (ii) Bilden einer Vielzahl von Matrizen, von denen jede eine Primer-Bindestelle und ein Anhang(Tag)-Polynucleotid-Konjugat umfasst, wobei die Primer-Bindestelle komplementär zu mindestens einem Primer des Satzes ist; (iii) Verlängern der Primer, deren Verlängerungsbereiche einen perfekt passenden Duplex mit der Primer-Bindestelle der Matrize ausbilden, um doppelsträngige DNAs zu bilden; (iv) Bilden von Amplicons von den Matrizen durch Amplifizieren von doppelsträngigen DNAs, die durch Verlängern gebildet werden, und (v) Markieren der Anhänge (Tags) in den Amplicons gemäß dem terminalen Nucleotid des Primers, der bei der Verlängerung und Amplifizierung benutzt wurde.
  11. Verfahren nach Anspruch 10, wobei der Schritt des Verkürzens der Polynucleotide umfasst: Mutieren der Primer-Bindestelle der Matrize durch Verlängern und Amplifizieren von jeder der Matrizen mit einem Primer, dessen Matrizepositionierendes Segment ein fehlgepaartes Nucleotid mit seinem angrenzenden Nucleotid in der Primer-Bindestelle der Matrize beinhaltet, so dass die Identität des angrenzenden Nucleotids in dem Amplicon durch Oligonucleotid-gerichtete Mutagenese durch Verwenden des Primers verändert wird.
  12. Verfahren nach Anspruch 11, wobei das Komplexität-reduzierende Nucleotid Desoxyinosin ist und wobei die Polymerasekettenreaktion und das Verlängern, um die doppelsträngige DNA zu bilden, in Anwesenheit von Desoxyadenosintriphosphat, Desoxycytidintriphosphat, Desoxyinosintriphosphat und Thymidintriphosphat durchgeführt wird.
DE69627862T 1996-03-05 1996-11-19 Gleichzeitige sequenzierung von markierten polynukleotiden Expired - Lifetime DE69627862T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/611,155 US5780231A (en) 1995-11-17 1996-03-05 DNA extension and analysis with rolling primers
US611155 1996-03-05
PCT/US1996/018708 WO1997032999A1 (en) 1995-11-17 1996-11-19 Simultaneous sequencing of tagged polynucleotides

Publications (2)

Publication Number Publication Date
DE69627862D1 DE69627862D1 (de) 2003-06-05
DE69627862T2 true DE69627862T2 (de) 2004-02-26

Family

ID=24447864

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69627862T Expired - Lifetime DE69627862T2 (de) 1996-03-05 1996-11-19 Gleichzeitige sequenzierung von markierten polynukleotiden

Country Status (3)

Country Link
EP (1) EP0840803B1 (de)
AU (1) AU1161997A (de)
DE (1) DE69627862T2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LT2841601T (lt) * 2012-04-24 2019-07-10 Gen9, Inc. Nukleorūgščių rūšiavimo būdai ir multipleksinis preparatyvinis in vitro klonavimas

Also Published As

Publication number Publication date
EP0840803A1 (de) 1998-05-13
DE69627862D1 (de) 2003-06-05
AU1161997A (en) 1997-09-22
EP0840803B1 (de) 2003-05-02

Similar Documents

Publication Publication Date Title
DE69737450T2 (de) Sequenzierung durch ligation kodierter adapter
DE69637285T2 (de) Oligonukleotid-tags zur sortierung und identifizierung
DE69534930T2 (de) Molekulares markierungssystem
DE69534389T2 (de) Mit PNA- und Amidat-Etiketten bestückte Festphasenträger
US5763175A (en) Simultaneous sequencing of tagged polynucleotides
WO1997032999A1 (en) Simultaneous sequencing of tagged polynucleotides
DE69836809T2 (de) Verbesserungen bei der auf Adaptoren basierenden Sequenzanalyse
US20200370105A1 (en) Methods for performing spatial profiling of biological molecules
US7993883B2 (en) Complexity management of genomic DNA
EP2175021B1 (de) Verfahren zur Herstellung von Polymeren
US5962228A (en) DNA extension and analysis with rolling primers
WO1997013877A1 (en) Measurement of gene expression profiles in toxicity determination
WO1999035293A2 (en) Solid phase selection of differentially expressed genes
KR20210104555A (ko) 서열분석을 위한 프라이머 올리고뉴클레오타이드
DE69929708T2 (de) Methode zur herstellung von sätzen komplementärer oligonucleotide
DE69627862T2 (de) Gleichzeitige sequenzierung von markierten polynukleotiden
WO2022199242A1 (zh) 一组条码接头以及中通量多重单细胞代表性dna甲基化建库和测序方法
EP3828283A1 (de) Verbessertes sequenzierungsverfahren und -kit
US20030044827A1 (en) Method for immobilizing DNA
DE10144132A1 (de) Identifikation und Quantifizierung von Nukleinsäuren durch Erzeugen und Analyse von Sequenz-tags einheitlicher Länge
EP1234056A2 (de) Dynamische bestimmung von analyten
DE19957116A1 (de) Verfahren zur Herstellung synthetischer Nukleinsäuredoppelstränge
van Roessel A Cell-Specific Analysis of Gene Expression in the Neural Crest of Zebrafish
EP0931165A1 (de) Messung von genexpressionsprofilen zur toxizitätsbestimmung
WO2002072879A2 (de) Erzeugung und verwendung von zufallsanordnungen klonaler nukleinsäureinseln auf einer oberfläche

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SOLEXA, INC., HAYWARD, CALIF., US