DE69929542T2

DE69929542T2 - Komplexitätsmanagement und analyse genomischer dna

Info

Publication number: DE69929542T2
Application number: DE69929542T
Authority: DE
Inventors: Shoulian San Jose DONG; J. Robert Palo Alto LIPSHUTZ; J. David Del Mar LOCKHART
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 1998-10-27
Filing date: 1999-10-27
Publication date: 2006-09-14
Anticipated expiration: 2019-10-28
Also published as: US6361947B1; EP1124990A1; CA2345441A1; US20020142314A1; AU2144000A; JP2002528096A; EP1124990A4; US20060063158A1; DE69929542D1; WO2000024939A1; US7267966B2; ATE316152T1; EP1124990B1

Description

HINTERGRUND DER ERFINDUNG
Die letzten Jahre haben bei der Fähigkeit der Wissenschaft, riesige Mengen von Daten zu verstehen, einen dynamischen Wandel erlebt. Bahnbrechende Technologien, wie beispielsweise Nukleinsäurearrays erlauben es Wissenschaftlern, sich eingehend mit sehr viel genaueren Details als jemals zuvor mit der Welt der Genetik zu befassen. Die Erforschung der genomischen DNA ist lange ein Traum der wissenschaftlichen Gemeinschaft gewesen. Innerhalb der komplexen Struktur der genomischen DNA festgehalten liegt das Potential, Krankheiten wie Krebs, Alzheimer oder Alkoholismus zu identifizieren, zu diagnostizieren oder zu behandeln. Antworten auf die weltweiten Nahrungsmittelverteilungsprobleme können in der Erforschung der genomischen Information von Pflanzen und Tieren enthalten sein.
Es wird geschätzt, dass im Frühjahr des Jahres 2000 eine Referenzsequenz des gesamten menschlichen Genoms sequenziert sein wird, was Arten der genetischen Analyse erlaubt, die zuvor niemals möglich waren. Neue Verfahren der Probenherstellung und Probenanalyse werden gebraucht, um die schnelle und kosteneffektive Untersuchung komplexer Proben von Nukleinsäuren, insbesondere genomischer DNA, zu ermöglichen.
WO 99/23256 bezieht sich auf Verfahren zur Reduzierung der Komplexität von Nukleinsäureproben und Hybridisieren der erhaltenen Proben auf ein Array. Jedoch offenbart diese Veröffentlichung nicht, dass eine Computer-basierte Modellierungsreaktion verwendet werden kann, um Informationen zum Entwerfen der Sonde zu gewinnen. Statt dessen lehrt WO 99/23256, daß es notwendig ist, die Nukleinsäureprodukte, die durch den Schritt der Komplexitätsreduktion erhalten werden, für die Identifikation geeigneter Sonden zu sequenzieren.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung stellt ein Verfahren zur Bestimmung, ob eine erste Nukleinsäureprobe Sequenzvariationen enthält, zur Verfügung, Schritte umfassend, bei denen man:

(a) die erste Nukleinsäureprobe bereitstellt;
(b) die Komplexität dieser ersten Nukleinsäureprobe reproduzierbar verringert, um eine zweite Nukleinsäureprobe zu erzeugen, die eine Mehrzahl nicht-identischer Sequenzen umfasst, wobei die zweite Nukleinsäureprobe durch Schritte erhältlich ist, bei denen man: (i) die erste Nukleinsäureprobe mit mindestens einem Restriktionsenzym fragmentiert, um Fragmente zu erzeugen; (ii) an die Fragmente Adaptersequenzen ligiert, die Primerzielsequenzen umfassen; und (iii) PCR-Amplifikation der Fragmente durchführt;
(c) die in der zweiten Nukleinsäureprobe vorliegenden Sequenzen zuvor bestimmt, wofür ein Computersystem verwendet wird, um die obigen Reaktionen zu modellieren;
(d) ein Computersystem dazu verwendet, um ein Array mit Nukleinsäuresonden zu entwerfen, das Sondensequenzen umfasst, die auf den Ergebnissen der Modellierung der Reaktionen an den zu untersuchenden Sequenzen basieren;
(e) das Array bereitstellt;
(f) die zweite Nukleinsäureprobe mit dem Array hybridisiert; und
(g) das Hybridisierungsmuster, das aus der Hybridisierung hervorgeht, analysiert;

Die vorliegende Erfindung stellt ein flexibles und skalierbares Verfahren zum Analysieren komplexer Proben von Nukleinsäuren, wie beispielsweise genomischer DNA zur Verfügung. Diese Verfahren sind nicht auf irgendeine bestimmte Art von Nukleinsäureprobe beschränkt: pflanzliche, bakterielle, tierische (einschließlich menschlicher) genomischer Gesamt-DNA, RNA, cDNA und dergleichen können unter Verwendung einiger oder aller Verfahren, die in dieser Erfindung offenbart sind, analysiert werden. Das Wort "DNA" kann im Folgenden als ein Beispiel einer Nukleinsäure verwendet werden. Es wird verstanden, dass dieser Ausdruck alle Nukleinsäuren, wie beispielsweise DNA und RNA umfasst, solange nicht eine der nachfolgend beschriebenen Verwendungen einen spezifischen Typ von Nukleinsäure verlangt. Diese Erfindung stellt ein leistungsfähiges Werkzeug für die Analyse komplexer Nukleinsäureproben zur Verfügung. Vom experimentellen Design bis zur Isolierung der gewünschten Fragmente und Hybridisierung auf ein geeignetes Array stellt die Erfindung schnellere, effizientere und weniger kostspielige Verfahren der komplexen Nukleinsäureanalyse zur Verfügung.
Die vorliegende Erfindung stellt neue Verfahren der Probenherstellung und Analyse zur Verfügung, welche das Handhaben („managing") oder Reduzieren der Komplexität einer Nukleinsäureprobe in einer reproduzierbaren Art umfassen. Die vorliegende Erfindung beseitigt den Bedarf nach Multiplex-PCR, einem zeitintensiven und teuren Schritt bei den meisten im großen Maßstab durchgeführten Analyseprotokollen, und bei vielen der Ausführungsformen kann der Schritt der Komplexitätsreduzierung vollständig in einem einzigen Gefäß durchgeführt werden. Die Erfindung stellt weiterhin die Analyse der Probe durch Hybridisierung auf ein Array zur Verfügung, das spezifisch entwor fen werden kann, um Fragmente auf bestimmte Charakteristiken, wie beispielsweise das Vorhandensein oder das Fehlen eines Polymorphismus hin zu untersuchen. Die Erfindung stellt außerdem neue Verfahren des Verwendens eines Computersystems zur Verfügung, um enzymatische Reaktionen zu modellieren, um die experimentellen Bedingungen zu bestimmen und/oder Arrays zu entwerfen. In einer bevorzugten Ausführungsform offenbart die Erfindung neue Verfahren der genomweiten Polymorphismusermittlung und Genotypisierung.
In einer Ausführungsform der Erfindung umfaßt der Schritt des Komplexitätsmanagements der Nukleinsäureprobe das enzymatische Zerschneiden der Nukleinsäureprobe in Fragmente, Auftrennen der Fragmente und Auswählen eines bestimmten Fragmentpools. Optional werden die ausgewählten Fragmente dann an Adaptersequenzen ligiert, die PCR-Primertemplates enthalten.
In einer bevorzugten Ausführungsform wird der Schritt des Komplexitätsmanagements vollständig in einem einzigen Gefäß ausgeführt.
In einer Ausführungsform des Komplexitätsmanagements wird eine Typ IIs-Endonuklease verwendet, um die Nukleinsäureprobe zu verdauen, und die Fragmente werden selektiv an Adaptersequenzen ligiert und dann amplifiziert.
In einer weiteren Ausführungsform verwendet das Verfahren des Komplexitätsmanagements zwei Restriktionsenzyme mit verschiedenen Schneidestellen und -häufigkeiten und zwei verschiedene Adaptersequenzen.
KURZE BESCHREIBUNG DER FIGUREN
1 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Restriktionsenzymverdau, Fragmentauftrennung und Isolierung und Aufreinigung eines Fragmentgrößenbereichs von Interesse umfaßt.
2 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Restriktionsenzymverdau, Fragmentauftrennung, Isolierung und Aufreinigung eines Fragmentgrößenbereichs von Interesse, Ligation einer Adaptersequenz an die gewünschten Fragmente und Amplifikation dieser Fragmente umfaßt.
3 zeigt die Wirkung einer PCR-Amplifikation unter Verwendung von Primern mit und ohne spezifische Nukleotide auf die Komplexität.
4 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das einen Typ IIs-Restriktionsenzymverdau, Adaptersequenzligation und Amplifikation der gewünschten Fragmente umfaßt.
5 zeigt Typ IIs-Restriktionsenzyme und ihre Schneidestellen.
6 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das einen Typ IIs-Restriktionsenzymverdau, Adaptersequenzligation und Amplifikation der gewünschten Fragmente umfaßt.
7 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das AP-PCR umfaßt.
8 zeigt die Ergebnisse einer AP-PCR auf menschliche genomische DNA.
9 zeigt die Reproduzierbarkeit der AP-PCR.
10 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Entfernen von repetitiven Sequenzen durch Denaturierung und Wiederanlagerung genomischer DNA umfaßt.
11 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Hybridisieren einer Sondensequenz, die an ein magnetisches Kügelchen („magnetic bead") heftet ist, an einen Pool fraktionierter DNA umfaßt.
12 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Hybridisieren einer Sondensequenz, die an ein magnetisches Kügelchen gebunden ist, an einen Pool fraktionierter DNA, Ligieren einer Adaptersequenz, die eine Klasse IIs-Restriktionsenzymstelle enthält, an den DNA/Sondenduplex, Verdauen des Duplexes, Ligieren einer zweiten Adaptersequenz an den Duplex und Amplifizieren umfaßt.
13 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das die Hybridisieren einer Sondensequenz, die an ein magnetisches Kügelchen gebunden ist, an einen Pool fraktionierter DNA, Ligieren einer Adaptersequenz, die eine Klasse IIs-Restriktionsenzymstelle enthält, an den DNR/Sondenduplex, Verdauen des Duplexes, Ligieren einer zweiten Adaptersequenz an den Duplex und Amplifizieren umfaßt.
14 zeigt ein chimäres Sondenarray.
15 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Hybridisieren einer Sondense quenz, die an ein magnetisches Kügelchen angeheftet ist, an einen Pool fraktionierter DNA, Ligieren einer Adaptersequenz, die eine Klasse IIs-Restriktionsenzymstelle enthält, an den DNA/Sondenduplex, Verdauen des Duplexes, Ligieren einer zweiten Adaptersequenz an den Duplex, Amplifizieren und Hybridisieren des Amplikons an ein chimäres Sondenarray umfaßt.
16 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Hybridisieren eines Fehlpaarungs- („mismatch") Bindeproteins an DNA, die einen Polymorphismus enthält, und Isolieren des Bereiches, die den Polymorphismus enthält, umfaßt.
17 ist eine schematische Darstellung eines Verfahrens des Komplexitätsmanagements, das Anheften eines magnetischen Kügelchens an das Fehlpaarungs-Bindeprotein aus 16 umfaßt.
18 zeigt den Verdau einer DNA durch eine Kombination von Restriktionsenzymen.
19 zeigt verdaute Gesamt-DNA der Hefe.
Anhang 1 ist ein Beispiel für eine Art eines Computerprogramms, das geschrieben werden kann, um Restriktionsenzymverdaus zu modellieren.
Anhang 2 ist ein Beispiel für eine Art eines Computerprogramms, das geschrieben werden kann, um Ligationsreaktionen zu modellieren.
DETAILLIERTE BESCHREIBUNG DER VORLIEGENDEN ERFINDUNG
Definitionen
Ein "Genom" ist das gesamte genetische Material in den Chromosomen eines Organismus. DNA, die aus dem genetischen Material in den Chromosomen eines bestimmten Organismus abgeleitet ist, ist genomische DNA. Eine genomische Bibliothek ist eine Sammlung von Klonen, die aus einem Satz von zufällig generierten überlappenden DNA-Fragmenten, die das gesamte Genom eines Organismus repräsentieren, hergestellt wurde.
Ein "Oligonukleotid" kann Nukleinsäure, wie beispielsweise DNA oder RNA, und einzel- oder doppelsträngig sein. Oligonukleotide können natürlich vorkommen oder synthetisch sein, werden aber normalerweise mit Hilfe synthetischer Mittel hergestellt. Oligonukleotide können jede Länge aufweisen, sind aber für gewöhnlich mindestens 5, 10 oder 20 Basen lang und können bis zu 20, 50, 100, 1000 oder 5000 Basen lang sein. Eine polymorphe Stelle kann innerhalb jeder Position des Oligonukleotids vorkommen. Oligonukleotide können Peptidnukleinsäuren (PNAs) oder analoge Nukleinsäuren einschließen. Siehe US-Patent Nr. 6,156,501, eingereicht am 3.4.1996.
Ein Array umfasst einen festen Träger mit Nukleinsäuresonden, die an den Träger angeheftet sind. Arrays umfassen typischerweise eine Vielzahl von verschiedenen Oligonukleotidsonden, die an die Oberfläche eines Substrats an verschiedenen bekannten Stellen gekoppelt sind. Diese Arrays, die auch als "Mikroarrays" oder umgangssprachlich als "Chips" bezeichnet werden, sind im Stand der Technik allgemein beschrieben worden, z.B. in den US-Patent Nr. 5,143,854, 5445934, 5,744,305, 5,677,195 und den PCT-Patentveröffentlichungen Nr. WO 90/15070 und 92/10092. Diese Arrays können allgemein unter Verwendung mechanischer Syntheseverfahren oder lichtgesteuerter Synthese verfahren, die eine Kombination von photolithographischen Verfahren und Festphasensyntheseverfahren beinhalten, hergestellt werden. Siehe Fodor et al., Science, 251:767-777 (1991), Pirrung et al., US-Patente Nr. 5,143,854 (siehe auch PCT-Anmeldung Nr. WO 90/15070) und Fodor et al., PCT-Veröffentlichung Nr. WO 92/10092 und US-Patent Nr. 5,424,186. Techniken für die Synthese dieser Arrays unter Verwendung von mechanischen Syntheseverfahren sind z.B. im US-Patent Nr. 5,384,261 beschrieben. Obwohl eine plane Arrayoberfläche bevorzugt ist, kann das Array auf einer Oberfläche mit praktisch jeder Form oder selbst einer Vielzahl von Oberflächen hergestellt werden. Arrays können Nukleinsäuren auf Kügelchen, Fasern, wie beispielsweise optischen Fasern, Glas oder jedem anderen geeigneten Substrat sein, siehe US-Patente Nr. 5,770,358, 5,789,162, 5,708,153 und 5,800,992. Die Arrays können in einer Weise verpackt werden, um Diagnosen oder andere Handhabungen davon in einer „alles inklusive"-Vorrichtung zu erlauben, siehe z.B. US-Patente Nr. 5,856,174 und 5,922,591.
Hybridisierungssonden sind Oligonukleotide, die in der Lage sind, in einer Basen-spezifischen Art an einen komplementären Strang Nukleinsäure zu binden. Solche Sonden schließen Peptidnukleinsäuren, wie in Nielsen et al., Science 254, 1497-1500 (1991) beschrieben, und andere Nukleinsäureanaloga und Nu- kleinsäuremimetika ein. Siehe US-Patent Nr. 6,156,501, eingereicht am 3.4.1996.
Hybridisierungen werden normalerweise unter stringenten Bedingungen durchgeführt, z.B. bei einer Salzkonzentration von nicht mehr als 1 M und einer Temperatur von mindestens 25°C. Zum Beispiel sind Bedingungen von 5 × SSPE (750 mM NaCl, 50 mM NaPhosphat, 5 mM EDTA, pH 7,4) und einer Temperatur von 25 bis 30 °C × für allel-spezifische Sondenhybridisierungen geeignet. Für stringente Bedingungen siehe z.B. Sambrook, Fritsche und Maniatis. "Molecular Cloning. A laboratory Manual" 2. Auflage, Cold Spring Harbor Press (1989).
Polymorphismen bezeichnen das Vorkommen von zwei oder mehr genetisch bestimmten alternativen Sequenzen oder Allelen in einer Population. Ein polymorpher Marker oder eine polymorphe Stelle ist der Locus, an dem der Unterschied auftritt. Bevorzugte Marker weisen mindestens zwei Allele auf, wobei jedes mit einer Häufigkeit von mehr als 1 % und bevorzugter von mehr als 10 % oder 20 % einer ausgewählten Population vorkommt. Ein Polymorphismus kann ein oder mehrere Basenänderungen, eine Insertion, eine Wiederholung oder eine Deletion umfassen. Ein polymorpher Locus kann so klein wie ein Basenpaar sein. Polymorphe Marker schließen Restriktionsfragmentlängenpolymorphismen, variable Anzahlen von Tandemwiederholungen („tandem repeats") (VNTRs), hypervariable Regionen, Minisatelliten, Dinukleotidwiederholungen, Trinukleotidwiederholungen, Tetranukleotidwiederholungen, einfache Sequenzwiederholungen und Insertionselemente, wie beispielsweise Alu, ein. Die erste identifizierte allele Form wird willkürlich als Referenzform bezeichnet und andere allele Formen werden als alternative oder variante Allele bezeichnet. Die allele Form, die am häufigsten in einer ausgewählten Population auftritt, wird manchmal als die Wildtypform bezeichnet. Diploide Organismen können für allele Formen homozygot oder heterozygot sein. Ein diallelischer Polymorphismus hat zwei Formen. Ein triallelischer Polymorphismus hat drei Formen.
Ein Einzelnukleotidpolymorphismus (SNP) tritt an einer polymorphen Stelle, die von einem einzelnen Nukleotid besetzt ist, auf, welche die Stelle der Variation zwischen allelen Sequenzen ist. Hochkonservierte Sequenzen des Allels (z.B. Sequenzen, die bei weniger als 1/100 oder 1/1000 Mitgliedern der Populationen variieren) gehen der Stelle normalerweise voran und folgen ihr.
Ein Einzelnukleotidpolymorphismus ergibt sich normalerweise als Folge einer Substitution eines Nukleotids durch ein anderes an der polymorphen Stelle. Eine Transition ist das Ersetzen eines Purins durch ein anderes Purin oder eines Pyrimidins durch ein anderes Pyrimidin. Eine Transversion ist die Ersetzung eines Purins durch ein Pyrimidin oder umgekehrt. Einzelnukleotidpolymorphismen können sich auch durch eine Deletion eines Nukleotids oder eine Insertion eines Nukleotids relativ zu einem Referenzallel ergeben.
Ein Individuum ist nicht beschränkt auf einen Mensch, sondern kann auch andere Organismen einschließen, einschließlich, aber nicht beschränkt auf Säugetiere, Pflanzen, Bakterien oder Zellen, die von jedem der oben Genannten abgeleitet sind.
Allgemeines
Die vorliegende Erfindung stellt neue Verfahren der Probenherstellung und -analyse bereit, welche das Handhaben oder Reduzieren der Komplexität einer Nukleinsäureprobe, wie beispielsweise genomischer DNA, in reproduzierbarer Weise einschließen. Die Erfindung stellt außerdem die Analyse der oben genannten Probe durch Hybridisierung auf ein Array bereit, das spezifisch entworfen sein kann, um die gewünschten Fragmente auf bestimmte Eigenschaften, wie z.B. das Vorkommen oder Fehlen eines Polymorphismus hin zu untersuchen. Die Erfindung stellt weiterhin neue Verfahren des Verwendens eines Computersystems zum Modellieren enzymatischer Reaktionen bereit, um die experimentellen Bedingungen zu bestimmen, bevor irgendwelche tatsächlichen Experimente durchgeführt werden. Als ein Beispiel sind die vorliegenden Techniken nützlich, um neue Polymorphismen zu identifizieren, und um Individuen zu genotypisieren, nachdem Polymorphismen identifiziert wurden.
Generell schließen die Schritte der vorliegenden Erfindung das Reduzieren der Komplexität einer Nukleinsäureprobe unter Verwendung der offenbarten Techniken ein. Keine dieser Techniken benötigt Multiplex-PCR und die meisten von ihnen können in einem einzigen Gefäß durchgeführt werden. Die Verfahren der Komplexitätsreduzierung schließen das Auftrennen der Nukleinsäureprobe durch Restriktionsenzymverdau ein. Die erhaltenen Fragmente von Interesse werden dann isoliert. Die Isolierungsschritte der vorliegenden Erfindung variieren, können aber Größenselektion oder direkte Amplifikation einschließen, wobei oft Adaptersequenzen eingesetzt werden, um die Isolierung zu erleichtern. In einer bevorzugten Ausführungsform werden die isolierten Sequenzen dann auf ein Array exponiert, das oder das nicht spezifisch entworfen und hergestellt wurde, um die isolierten Sequenzen zu untersuchen. Das Design sowohl der Komplexitätsmanagementschritte als auch der Arrays wird durch Computermodellierungstechniken unterstützt, die ebenfalls in der vorliegenden Erfindung beschrieben sind.
Komplexitätsmanagement
Die vorliegende Erfindung stellt eine Anzahl neuer Verfahren des Komplexitätsmanagements von Nukleinsäureproben, wie z.B. genomischer DNA, zur Verfügung. Diese Verfahren werden nachfolgend offenbart.
Eine Anzahl der hier offenbarten Verfahren erfordern die Verwendung von Restriktionsenzymen, um die Nukleinsäureprobe zu fragmentieren. Verfahren der Verwendung von Restriktionsenzym oder Enzymen, um Nukleinsäuren an einer großen Anzahl Stellen zu schneiden und einen Größenbereich von Restriktionsfragmenten für den Assay auszuwählen, wurden gezeigt. Dieses Schema ist in 1 dargestellt.
In einer Ausführungsform der Erfindung, die schematisch in 2 dargestellt ist, werden Restriktionsenzyme verwendet, um die Nukleinsäuren in der Probe zu schneiden (2, Schritt 1). Im Allgemeinen erkennt ein Restriktionsenzym eine spezifische Nukleotidsequenz von 4 bis 8 Nukleotiden (obgleich diese Anzahl variieren kann) und schneidet ein DNA-Molekül an einer spezifischen Stelle. Das Restriktionsenzym EcoRI erkennt beispielsweise die Sequenz GAATTC und wird ein DNA-Molekül zwischen dem G und dem ersten A schneiden. Viele verschiedene Restriktionsenzyme sind bekannt und geeignete Restriktionsenzyme können für ein gewünschtes Ergebnis ausgewählt werden. Zum Beispiel können Restriktionsenzyme von Lieferanten wie beispielsweise New England Biolabs bezogen werden. Verfahren zum Ausführen von Restriktionsverdaus werden dem Fachmann bekannt sein, Anweisungen für jedes Restriktionsenzym werden jedoch im Allgemeinen mit den Restriktionsenzymen selbst geliefert. Für eine vollständige Erklärung der Verwendung von Restriktionsenzymen siehe z.B. Abschnitt 5, insbesondere die Seiten 5.2-5.32 von Sambrook et al.
Nach dem Restriktionsenzymverdau verlangt das Verfahren weiterhin, daß der Pool der verdauten DNA-Fragmente anhand seiner Größe aufgetrennt wird, und daß DNA-Fragmente der gewünschten Größe ausgewählt (2, Schritt 2) und isoliert werden (2, Schritt 3). Verfahren zum Auftrennen von DNA-Fragmenten nach einem Restriktionsverdau werden dem Fachmann bekannt sein. Als ein nicht-einschränkendes Beispiel können DNA-Fragmente, die mit einem Restriktionsenzym verdaut wurden, unter Verwendung von Gelelektrophorese aufgetrennt werden, siehe z.B. Maniatis, Abschnitt 6. Bei dieser Technik werden DNA-Fragmente in eine Gelmatrix gegeben. Ein elektrisches Feld wird über dem Gel angelegt und die DNA-Fragmente wandern in Richtung des positiven Endes. Je größer die DNA-Fragmente, desto stärker wird die Wanderung der Fragmente durch die Gelmatrix behindert. Dies ermöglicht die Auftrennung der DNA- Fragmenten nach ihrer Größe. Ein Größenmarker läuft gleichzeitig mit den DNA Fragmenten in dem Gel, so daß die Fragmente der gewünschten Größe identifiziert und aus dem Gel isoliert werden können. Verfahren zur Aufreinigung von DNA-Fragmenten aus der Gelmatrix werden ebenfalls in Sambrook et al. beschrieben.
Jedes andere nicht-zerstörende Verfahren des Isolierens von DNA-Fragmenten der gewünschten Größe kann angewendet werden. Zum Beispiel kann eine Größen-basierte Chromatographie, HPLC, dHPLC oder ein Saccharosedichtegradient verwendet werden, um den DNA-Pool auf die Fragmente innerhalb eines bestimmten Größenbereichs zu reduzieren und danach kann dieser kleinere Pool in einem Elektrophoresegel laufen lassen.
Nach der Isolierung werden Adaptersequenzen an die Fragmente ligiert (2, Schritt 4). Adaptersequenzen sind im Allgemeinen Oligonukleotide von mindestens 5 oder 10 Basen und vorzugsweise nicht mehr als 50 oder 60 Basen Länge, jedoch können Adaptersequenzen, abhängig von dem gewünschten Ergebnis, auch länger als 100 oder 200 Basen sein. Falls das gewünschte Ergebnis z.B. die Verhinderung der Amplifizierung eines bestimmten Fragmentes ist, können längere Adaptersequenzen, die entworfen wurden, um Stammschleifen ("stem loops") oder andere Tertiärstrukturen zu bilden, an das Fragment ligiert werden. Adaptersequenzen können unter Verwendung aller Verfahren, die dem Fachmann bekannt sind, synthetisiert werden. Für die Zwecke dieser Erfindung können sie als Alternativen Templates für PCR-Primer und/oder Markierungs- oder Erkennungssequenzen umfassen. Das Design und die Verwendung von Markierungsequenzen wird im US-Patent Nr. 5,800,992 und der US Provisional-Patentanmeldung Nr. 60/140,359, eingereicht am 23.6.1999, beschrieben. Adaptersequenzen können entweder an DNA mit stumpfen Enden ("blunt end") oder klebrigen Enden ("sticky end") ligiert werden. Verfahren der Ligation werden dem Fachmann bekannt sein und sind beispielsweise in Sambrook et al. beschrieben. Die Verfahren schließen einen DNase-Verdau ein, um die DNA einzuschneiden ("nick"), die Ligation mit ddNTP und die Verwendung von Polymerase I, um die Lücken zu füllen, oder jedes andere Verfahren, das im Stand der Technik beschrieben ist.
Weitere Komplexitätsreduktion wird durch Hinzufügen eines spezifischen Nukleotids an das 5'-Ende des PCR-Primers wie in 3 dargestellt erreicht. Das spezifische Nukleotid reduziert die Komplexität des resultierenden DNA-Pools weiter, da nur solche Fragmente amplifiziert werden, die nach dem Restriktionsenzymverdau isoliert wurden und die das Komplementär des (der) spezifischen Nukleotids(e) enthalten, das (die) in den PCR-Primer eingebaut war(en). 3A zeigt die Ergebnisse der Hybridisierung auf ein Array nach Enzymverdau, Ligation an einen Adapter und PCR-Amplifikation. 3B und 3C zeigen die Ergebnisse der Hybridisierung an ein Array nach Enzymverdau, Ligation an einen Adapter und PCR-Amplifikation, wobei die PCR-Primer spezifische Nukleotide an den 5'-Enden der Primer eingebaut aufweisen. In 3B weisen die 5'- und 3'-Primer verschiedene spezifische Nukleotide eingebaut auf. In 3A weisen die 5'- und 3'-Primer dieselben Nukleotide eingebaut auf. Das Niveau der Komplexität in dem isolierten Pool kann abhängig von der Identität und der Anzahl der Nukleotide, die in die PCR-Primer eingebaut sind, variiert werden. Eine Anzahl von Ausführungsformen der vorliegenden Erfindung schließen die Amplifikation durch PCR ein. Jede dieser Ausführungsformen kann unter Verwendung der oben offenbarten Technik weiter modifiziert werden, um die Komplexität zu verringern.
Verschiedene Verfahren zum Durchführen von PCR-Amplifikation und Primerdesign und Konstruktion für die PCR-Amplifikation werden dem Fachmann bekannt sein. PCR ist ein Verfahren, bei dem eine spezifische Polynukleotidsequenz in vitro amplifiziert werden kann. PCR ist eine äußerst leistungsfähige Technik zum Amplifizieren von spezifischen Polynukleotidsequenzen, einschließlich unter anderem genomischer DNA, einzelsträngiger cDNA und mRNA. Wie in US-Patenten Nr. 4,683,202, 4,683,195 und 4,800,159 beschrieben, umfaßt die PCR üblicherweise die Behandlung von aufgetrennten komplementären Strängen einer Zielnukleinsäure mit zwei Oligonukleotidprimern, um komplementäre Primerverlängerungsprodukte auf beiden Strängen zu bilden, die als Templates für das Synthetisieren von Kopien der gewünschten Nukleinsäuresequenzen dienen. Durch Wiederholung der Auftrennungs- und Syntheseschritte in einem automatisierten System kann eine im Wesentlichen exponentielle Vervielfältigung der Zielsequenzen erreicht werden. Standardprotokolle können z.B. in Sambrook et al. gefunden werden, das hierbei für sämtliche Zwecke durch Bezugnahme aufgenommen wird.
In einer anderen Ausführungsform, die schematisch in 4 dargestellt ist, umfasst der Schritt des Komplexitätsmanagements der DNA-Proben den Verdau mit einer Typ IIs-Endonuklease, wobei klebrige Enden erzeugt werden, die aus zufälligen Nukleinsäuresequenzen bestehen (4, Schritt 1). Typ IIs-Endonukleasen sind allgemein käuflich erwerbbar und im Stand der Technik gut bekannt. Eine Beschreibung von Typ IIs-Endonukleasen kann im US-Patent Nr. 5,170,000 gefunden werden. Wie ihre Typ II-Pendants erkennen Typ Iis-Endonukleasen spezifische Sequenzen von Nukleinsäurebasenpaaren innerhalb einer doppelsträngigen Polynukleotidsequenz. Nach dem Erkennen dieser Sequenz wird die Endonuklease die Polynukleotidsequenz spalten, wobei im Allgemeinen ein Überhang an einem Strang der Sequenz oder ein "klebriges Ende" ("sticky end") zurück bleibt.
Typ II-Endonukleasen erfordern jedoch im Allgemeinen, dass die spezifische Erkennungsstelle palindromisch ist. Dies ist der Fall, wenn die Basenpaarsequenz für beide Stränge der Erkennungsstelle dieselbe ist, wenn in 5'- nach 3'-Richtung gelesen wird. Zum Beispiel ist die Sequenz
G-↕-A-A-T-T-C
C-T-T-A-A-↕-G
die Erkennungsstelle für die Typ II-Endonuklease EcoRI, wobei die Pfeile die Spaltungsstelle in jedem Strang kennzeichnen. Diese Sequenz ist palindromisch, da beide Stränge der Sequenz, wenn sie in 5'- nach 3'-Richtung gelesen werden, die selben sind.
Auf der anderen Seite erfordern die Typ IIs-Endonukleasen im Allgemeinen keine palindromische Erkennungssequenz. Zusätzlich spalten diese Typ IIs-Endonukleasen im Allgemeinen außerhalb ihrer Erkennungsstellen. Zum Beispiel erkennt und spaltet die Typ IIs-Endonuklease EarI in der folgenden Art:
CTCTTCN↕NNNN (SEQ ID NO: 1)
GAGAAGnnnn↕n,
wobei die Erkennungssequenz -C-T-C-T-T-C- ist, und N und n komplementäre beliebige Basenpaare sind und die Pfeile die Spaltungsstellen in jedem Strang anzeigen. Wie das Beispiel darstellt, ist die Erkennungssequenz nicht-palindromisch und die Spaltung findet außerhalb der Erkennungsstelle statt.
Spezifische Typ IIs-Endonukleasen, die für die vorliegende Erfindung verwendbar sind, schließen z.B. EarI, MnlI, PleI, AlwI, BbsI, BsaI, BsmAI, BspMI, Esp3I, HgaI, SapI, SfaNI, BbvI, BsmFI, FokI, BseRI, HphI und MboII ein. Die Aktivität dieser Typ IIs-Endonukleasen wird in 5 dargestellt, wel che die Spaltungs- und Erkennungsmuster der Typ IIs-Endonukleasen zeigt.
Die klebrigen Enden, die sich aus dem Typ IIs-Endonukleaseverdau ergeben, werden dann an Adaptersequenzen 1igiert (4, Schritt 2). Die Fachleute werden mit solchen Ligationsverfahren vertraut sein. Standardprotokolle können z.B. in Sambrook et al. gefunden werden. Nur solche Fragmente, welche die Adaptersequenzen enthalten, werden isoliert (6).
Zusätzlich zu diesen oben diskutierten Verfahren der Isolierung können Verfahren der Isolierung eingesetzt werden, welche die Vorteile von einzigartigen Markierungssequenzen ("tag sequences"), die in die Adaptersequenzen eingebaut wurden, ausnutzen. Diese Markierungssequenzen können oder können nicht als PCR-Primervorlagen verwendet werden. Fragmente, die diese Markierungen enthalten, können dann von anderen, keine Markierung enthaltenen Sequenzen unter Verwendung verschiedener Verfahren der Hybridisierung oder jedes der Verfahren, die in der oben angegebenen Anmeldung beschrieben sind, isoliert werden.
In einer anderen Ausführungsform, die in 18 dargestellt ist, umfasst das Verfahren der Komplexitätsreduzierung Verdauen der DNA-Probe mit zwei verschiedenen Restriktionsenzymen. Das erste Restriktionsenzym ist ein häufige Basen-Schneider („frequent base cutter"), wie beispielsweise MSE I, das eine Erkennungsstelle von vier Basen hat. Das zweite Restriktionsenzym ist ein seltene Basen-Schneider („rare base cutter"), wie beispielsweise EcoRI, das eine Erkennungsstelle von 6 Basen hat. Dies führt zu drei möglichen Gruppen von Fragmenten; (am häufigsten) solche, die an beiden Enden mit dem häufige Basen-Schneider geschnitten wurden, (am wenigstens häufig) solche, die an beiden Enden mit dem seltene Basen- Schneider geschnitten wurden, und solche, die an einem Ende mit dem häufige Basen-Schneider und an einem Ende mit dem seltene Basen-Schneider geschnitten wurden. Adapter werden an die Fragmente ligiert und PCR-Primer werden entworfen, so daß nur die Fragmente, die in die gewünschte Kategorie oder Kategorien fallen, amplifiziert werden. Diese Technik, die mit einem 6 Basen-Schneider und einem 4 Basen-Schneider durchgeführt wurde, kann die Komplexität achtfach reduzieren, wenn nur solche Fragmente aus der letzten Kategorie amplifiziert werden. Andere Kombinationen von Restriktionsenzymen können eingesetzt werden, um das gewünschte Niveau der Komplexität zu erzielen.
Computer-implementierte Analyse
In einer anderen Ausführungsform wird ein Computersystem verwendet, um die oben diskutierten Reaktionen zu modellieren, um den Anwender dabei zu unterstützen, die korrekten experimentellen Bedingungen auszuwählen. In dieser Ausführungsform muss die Sequenz der DNA-Probe bekannt sein. Ein Computerprogramm fragt eine elektronische Datenbank ab, welche die Sequenz der DNA-Probe enthält, und sucht nach Stellen, die von den verwendeten Enzymen erkannt werden. Das Verfahren des Modellierens von Experimenten kann für eine große Vielfalt von Experimenten eingesetzt werden.
In einer Ausführungsform kann der Anwender durch Veränderung verschiedener Bedingungen mehrere Experimente durchführen. Falls der Anwender beispielsweise wünscht, eine bestimmte Sequenz von Interesse in einem Fragment, das mit einem Restriktionsenzym verdaut worden ist, zu isolieren, kann der Anwender den Computer nutzen, um die möglichen Ergebnisse unter Verwendung einer großen Vielfalt von Restriktionsenzymen zu modellieren. Die bestimmte Sequenz, die ausgewählt wird, kann durch spezifische Kriterien gewählt werden, d.h. weil von dem Bereich angenommen wird, dass sie beispielsweise mit spezifi schen Genen, Polymorphismen oder Phänotypen in Verbindung steht, oder sie kann zufällig ausgewählt werden. Der Anwender kann dann das Restriktionsenzym auswählen, das beispielsweise die gewünschte Sequenz in einem Fragment von einzigartiger Größe isoliert. Zusätzlich oder alternativ kann der Anwender, falls der Anwender wünscht, die Komplexität unter Verwendung der Typ IIs-Nuklease/Ligationstechniken wie oben beschrieben zu reduzieren, mit der Länge und Sequenz der Adapter experimentieren, um die optimale Sequenz für die klebrigen Enden der Adapter zu bestimmen. Dies ermöglicht es dem Anwender sicher zu sein, dass er ein Fragment, das eine bestimmte Sequenz von Interesse enthält, erhalten wird, oder die Komplexität des DNA-Pools feiner einstellen zu können. In einer anderen Ausführungsform kann der Anwender die Kinetiken der Denaturierung, Wiederanlagerungstechnik für die Entfernung von oben diskutierten wiederholten Sequenzen modellieren, um die Bedingungen zu bestimmen, die das gewünschte Ergebnis ermöglichen. Zum Beispiel kann ein Anwender die Entfernung nur eines bestimmten Prozentsatzes von wiederholten Sequenzen wünschen.
Zum Beispiel können virtuelle Restriktionsverdaue durch Abfragen einer elektronischen Datenbank durchgeführt werden, welche die DNA-Sequenz von Interesse enthält. Da die Datenbank die Nukleinsäuresequenz enthält und Restriktionsenzyme basierend auf der DNA-Sequenz an bekannten Positionen schneiden, kann man die Sequenz und die Größe der Fragmente, die sich aus dem Restriktionsverdau der DNA ergeben werden, leicht vorhersagen. Idealerweise sind Restriktionsenzyme erwünscht, die keine zwei Fragmente der gleichen oder sehr ähnlicher Größe ergeben. Kombinationen von Restriktionsenzymen können eingesetzt werden. Fachleute werden mit den elektronischen Datenbanken von DNA-Sequenzen vertraut sein. GenBank zum Beispiel enthält mit Stand April 1999 ungefähr 2.570.000.000 Nukleinsäurebasen in 3.525.000 Sequenzeinträgen. Ein Computerprogramm durchsucht die elektronische Datenbank nach einer Sequenz, die den Anforderungen des bestimmten Restriktionsenzyms genügt. Zum Beispiel erkennt das Restriktionsenzym EcoRI die Sequenz GAATTC und wird ein DNA-Molekül zwischen dem G und dem ersten A schneiden. Das Computerprogramm wird die ausgewählte Sequenz nach jedem Auftreten der Sequenz GARTTC durchsuchen und die Stelle markieren, an der das Restriktionsenzym schneiden wird. Das Programm wird den Anwender dann mit einer Anzeige der sich ergebenden Fragmente beliefern.
Anhang 1 ist ein Beispiel eines Computerprogramms zum Durchführen dieses Typs des virtuellen Enzymverdaus. Anhang 2 ist ein Beispiel eines Programms, um die Ligation von zwei Sequenzen aneinander virtuell zu modellieren.
In einer anderen Ausführungsform kann das Verfahren zum Modellieren von Experimenten in einem Computersystem verwendet werden, um Sondenarrays zu entwerfen. Eine Datenbank kann nach jeder gewünschten Sequenz, beispielsweise einem Polymorphismus, abgefragt werden. Computer-modellierte Reaktionen werden dann durchgeführt, um das Verfahren zum Isolieren eines DNA-Fragments, das die Sequenz von Interesse enthält, bestimmen zu helfen. Diese Verfahren können jedes der oben beschriebenen Verfahren alleine oder in Kombination enthalten. Dann werden Arrays hergestellt, die entworfen wurden, um die erhaltenen Fragmente zu untersuchen. Es ist wichtig anzumerken, dass für den Zweck des Entwerfens der Arrays die virtuellen Reaktionen nicht fehlerlos durchgeführt werden müssen, da die Arrays Hunderttausende von Sequenzen enthalten können.
Eine Ausführungsform der Erfindung stützt sich auf die Verwendung von virtuellen Reaktionen, um die Sequenz von ausgewählten DNA-Fragmenten, die verschiedenen Prozeduren unterzogen wurden, vorherzubestimmen. Die Sequenzinformation für die ausgewählten Fragmente wird dann verwendet, um die Sonden zu entwerfen, die an DNA-Arrays angeheftet werden sollen. Arrays können auf einer Vielzahl von Arten entworfen und hergestellt werden. Beispielsweise können DNA-Arrays direkt auf einen festen Träger unter Verwendung von Verfahren synthetisiert werden, die beispielsweise in den US-Patenten Nr. 5,837,832, 5,744,305 und 5,800,992 und WO 95/11995 beschrieben sind. Siehe ebenfalls Fodor et al., Science, 251:767-777 (1991), Pirrung et al., US-Patent Nr. 5,143,854 (siehe ebenfalls PCT-Anmeldung Nr. WO 90/15070) und Fodor et al., PCT-Veröffentlichung Nr. WO 92/10092 und US-Patent Nr. 5,424,186. Techniken für die Synthese dieser Arrays unter Verwendung von mechanischen Syntheseverfahren sind beispielsweise im US-Patent Nr. 5,384,261 beschrieben. Kurz gesagt beschreibt 5,837,832 ein „Tiling"-Verfahren für die Arrayherstellung, wonach Sonden auf einem festen Träger synthetisiert werden. Diese Arrays umfassen einen Satz von Oligonukleotidsonden dergestalt, dass der Satz für jede Base in einer spezifischen Referenzsequenz eine Sonde einschließt (als die "Wildtyp" oder "WT"-Sonde bezeichnet), die exakt komplementär zu einem Bereich der Sequenz des ausgewählten Fragmentes ist, einschließlich der Base von Interesse, und vier zusätzlichen Sonden (bezeichnet als "Substitutionssonden"), die mit der Wildtypsonde identisch sind, mit der Ausnahme, daß die Base von Interesse durch ein Nukleotid aus einem vorher festgelegten Satz (typischerweise 4) von Nukleotiden ersetzt wurde. Sonden können synthetisiert werden, um jede Base in der Sequenz des ausgewählten Fragmentes abzufragen. Zielnukleinsäuresequenzen, die an eine Sonde auf dem Array hybridisieren, das eine Substitutionssonde enthält, weisen auf das Vorkommen eines Einzelnukleotidpolymorphismus hin. Andere Anmeldungen, die Verfahren zum Entwerfen von „Tiling"-Arrays beschreiben schließen ein: US-Patente Nr. 5,858,659 und 5,861,242. Auf eine ähnliche Art können Arrays erstellt werden, um auf eine Vielzahl von Sequenzvariationen, einschließlich Deletionen, Wiederholungen oder Basenänderungen, die größer als ein Nukleotid sind, hin zu testen. US-Patente Nr. 5,593,839 und 5,856,101 beschreiben Verfahren zum Verwenden von Computern, um Arrays und lithographische Masken zu entwerfen.
Die Markierung, die verwendet wird, um die Zielsequenzen nachzuweisen, wird teilweise durch die Nachweisverfahren, die angewendet werden, bestimmt. Somit werden das Markierungsverfahren und die verwendete Markierung in Verbindung mit den tatsächlich verwendeten Nachweissystemen ausgewählt. Wenn eine bestimmte Markierung ausgewählt worden ist, werden geeignete Markierungsprotokoll, wie unten für spezielle Ausführungsformen beschrieben angewendet. Standardmarkierungsprotokolle für Nukleinsäuren werden beispielsweise in Maniatis; Kambara, H. et al. (1988) BioTechnology 6:816-821; Smith, L. et al. (1985) Nuc. Acids. Res. 13:2399-2412 beschrieben, für Polypeptide siehe beispielsweise. Allen G. (1989) "Sequencing of Proteins and Peptides", Elsevier, N.Y., insbesondere Kapitel 5, und Greenstein und Winitz (1961) "Chemistry of the Amino Acids", Wiley and Sons, N.Y.. Kohlenhydratmarkierung wird beispielsweise in Chaplin und Kennedy (1986) "Carbohydrate Analysis: A Practical Approach", IRL Press, Oxford, beschrieben. Andere Techniken wie beispielsweise TdT-Endmarkierung können gleichermaßen eingesetzt werden. Techniken für Markierungsprotokolle zur Verwendung mit SBE werden beispielsweise in der US „provisional" Patentanmeldung 60/140,359 beschrieben.
Im Allgemeinen wird ein schnell und einfach nachweisbares Signal bevorzugt, wenn ein DNA-Array verwendet wird. Fluoreszenzmarkierung der Zielsequenz ist häufig bevorzugt, aber andere geeignete Markierungen schließen Schwermetallmarkierungen, magnetische Sonden, chromogene Markierungen (z.B. phosphofluoreszente Markierungen, Farbstoffe und Fluorophore), spektroskopische Markierungen, Enzym-gekoppelte Markierungen, radioaktive Markierungen und markierte Bindeproteine ein. Zusätzliche Markierungen werden in den US-Patenten Nr. 5,800,992 und 4,366,241 und der veröffentlichten PCT-Anmeldung WO 99/13319 beschrieben.
Die Hybridisierungsbedingungen zwischen Sonde und Ziel sollten so gewählt werden, dass die spezifische Erkennungsinteraktion, d.h. die Hybridisierung der beiden Moleküle sowohl ausreichend spezifisch als auch ausreichend stabil ist. Siehe z.B. Hames und Higgins (1985) "Nucleic Acid Hybridisation: A Practical Approach", IRL Press, Oxford. Diese Bedingungen werden sowohl von der spezifischen Sequenz als auch häufig von dem Guanin- und Cytosin- (GC) Gehalt der komplementären hybriden Stränge abhängen. Die Bedingungen werden häufig so ausgewählt, daß sie allgemein gleichmäßig stabil unabhängig von den spezifischen beteiligten Sequenzen sind. Dafür wird typischerweise von einem Reagenz wie beispielsweise einem Alkylammoniumpuffer Gebrauch gemacht. Siehe Wood et al. (1985) "Base Composition-independent Hybridization in Tetramethylammonium Chloride: A Method for Oligonucleotide Screening of Highly Complex Gene Libraries", Proc. Natl. Acad. Sci. USA, 82:1585-1588 und Krupov et al. (1989) "An Oligonucleotide Hybridization Approach to DNA Sequencing" FEBS Letters, 256:118-122. Ein Alkylammoniumpuffer neigt dazu, die Unterschiede bei den Hybridisierungsraten und der Stabilität als Folge des GC-Gehaltes zu minimieren. Aufgrund der Tatsache, dass die Sequenzen dann mit ungefähr gleicher Affinität und Stabilität hybridisieren, gibt es nur eine sehr kleine Abweichung („bias") in Bindungsstärke oder -kinetiken für bestimmte Sequenzen. Temperatur- und Salzbedingungen sollten zusammen mit anderen Pufferparametern so ausgewählt werden, so dass die Kinetiken der Renaturierung im Wesentlichen unabhängig von der spezifischen Ziel-Subsequenz oder Oligonukleotidsonden sind, die beteiligt sind. Um dies sicherzustellen, werden die Hybridisierungsreaktionen normalerweise in einer einzigen Inkubation aller Substratmatrizen zusammen durchgeführt, die der identischen selben Zielsondenlösung unter den gleichen Bedingungen ausgesetzt werden. Die Hybridisierungsbedingungen werden normalerweise so ausgewählt, daß sie ausreichend spezifisch sind, sodass die Genauigkeit der Basenpaarungen genau unterschieden wird. Natürlich sollten Kontrollhybridisierungen eingeschlossen sein, um die Stringenz und die Kinetiken der Hybridisierung zu bestimmen. Siehe z.B. US-Patent Nr. 5,871,928.
Ein anderer Faktor, der eingestellt werden kann, um die Fähigkeit von Zielen, an ihre Sonden zu hybridisieren, zu steigern, ist die Verwendung von Nukleinsäureanaloga von PNAs in den Sonden. Sie können in die Sonden eingebaut werden, um einen gleichförmigeren Satz von Hybridisierungsbedingungen über das gesamte Array herzustellen. Siehe US-Patent Nr. 6,156,501.
Die Nachweisverfahren, die verwendet werden, um zu bestimmen, wo Hybridisierung stattgefunden hat, werden üblicherweise von der ausgewählten Markierung abhängen. So wird für eine Fluoreszenzmarkierung üblicherweise ein Fluoreszenzdetektionsgerät verwendet. Pirrung et al. (1992) US-Patent Nr. 5,143,854 und Ser.-Nr. 07/624,120, jetzt aufgegeben, beschreiben Geräte und Mechanismen für das Abtasten („scanning") einer Substratmatrix unter Verwendung von Fluoreszenzerkennung, ein ähnlicher Apparat ist aber auch für andere optisch nachweisbare Markierungen verwendbar. Siehe auch US-Patente Nr. 5,578,832, 5,834,758 und 5,837,832.
Eine Vielzahl von Verfahren kann verwendet werden, um den Nachweis von markierten, an eine Sonde, die an einen festen Träger angeheftet ist, gebundenen Zielen zu verbessern. In einer Ausführungsform wird das Protein MutS (aus E. coli) oder äquivalente Proteine, wie beispielsweise Hefe MSHl, MSH2 und MSH3, Maus Rep-3 und Streptococcus Hex-A, in Verbindung mit Zielhybridisierung verwendet, um den Sonden-Zielkomplex, der fehlgepaarte Basenpaare enthält, nachzuweisen. Das Protein, das direkt oder indirekt markiert ist, kann während oder nach der Hybridisierung der Zielnukleinsäure zugegeben werden und bindet unterschiedlich an Homo- und Heteroduplex-Nukleinsäuren. Eine große Vielfalt von Farbstoffen und anderen Markierungen kann für ähnliche Zwecke verwendet werden. Zum Beispiel ist von dem Farbstoff YOYO-1 bekannt, dass er vorzugsweise an Nukleinsäuren bindet, die Sequenzen enthalten, die eine Serie von 3 oder mehr G-Resten umfassen. Signalamplifizierungsverfahren, wie in der US-Patentanmeldung Nr. 09/276,774 beschrieben, können ebenfalls verwendet werden.
Verschiedene Verfahren des Hybridisierungnachweises werden dem Fachmann bekannt sein. Siehe z.B. US-Patente Nr. 5,578,832, 5,631,734, 5,744,305 und 5,800,992.
Beispiele
Beispiel 1 – Restriktionsenzymverdau/Größenbestimmung
Die Komplexität genomischer Gesamt-DNA aus Mensch und Hefe wurde durch Verwendung eines Restriktionsenzymverdaus reproduzierbar reduziert. Für jede Art wurden 0,5 μg genomische DNA mit 20 Einheiten EcoRI in einem Gesamtvolumen von 40 μl bei 37 °C über Nacht verdaut (2, Schritt 1). Das Enzym wurde durch Inkubation bei 65 °C für 10 Minuten inaktiviert.
Die DNA-Lösung wurde mit 10 μl 5-fach Ladungspuffer gemischt und durch Gelelektrophorese auf einem 2 % Agarosegel aufgetrennt (2, Schritt 2). Das Gel wurde durch Ethidiumbromidfärbung visualisiert. Fragmente von 250 bis 350 Basenpaaren wurden aus dem Gel ausgeschnitten und durch Verwendung eines QIAquick-Gelextraktionskits (Qiagen) aufgereinigt (2, Schritt 3). Alternativ konnten die Fragmente der erforderlichen Größe unter Verwendung einer HPLC isoliert werden.
Adaptersequenzen, die PCR-Primertemplatesequenzen enthielten, wurden dann an die auf gereinigten Fragmente unter Verwendung von 100 U T4-Lipase in 1 × T4-Ligasepuffer (New England Biolabs) bei 16 °C über Nacht ligiert. Die Adapetersequenzen waren 5'-d(pAATTCGAACCCCTTCGGATC)-3' und 5'-d(GATCCGAAGGGGTTCGAATT)-3' (2, Schritt 4) (SEQ ID NOS: 2-3). Die Lipase wurde dann bei 65 °C für 15 Minuten hitzeinaktiviert.
Die Fragmente wurden dann einer PCR ausgesetzt, mit einem Primer, welcher der PCR-Primertemplatesequenz 5'-d(GATCGGAAGGGGTTCGAATT)-3' (SEQ ID NO: 3) entspricht (2, Schritt 5). Die PCR-Mischung enthielt ungefähr 1 ng ligierte DNA-Fragmente, 5 Einheiten AmpliTaq Goldpolymerase (Perkins Elmer), 5 μM Primer, 200 μM dNTPs, 15 mM Tris-HCl (pH 8,2), 50 mM KCl, 2,5 mM MgCl₂ in einem Endvolumen von 50 μl. Die PCR wurde in einem Perkin-Elmer 9600 Thermocycler unter Verwendung von anfänglichen Denaturierung von 10 Minuten bei 95 °C, 35 Zyklen von je 1 Minute Denaturierung bei 94 °C, Anlagerung für 1 Minute bei 57 °C und Verlängerung bei 72 °C für 2 Minuten durchgeführt. Darauf folgte ein abschließender Verlängerungszyklus von 5 Minuten bei 72 °C.
Die PCR-Produkte wurden dann mit dem QIAquick PCR-Aufreinigungskit (Qiagen) gemäß den Anleitungen des Herstellers auf gereinigt und mit DNase I fragmentiert.
Die verbliebenen Fragmente wurden dann mit Biotin-N6-ddATP wie folgt markiert: inkubiere in jedem Gefäß 10 μg DNA mit 0,3 Einheiten DnaseI (Promega) bei 37 °C für 30 Minuten in einer 45 μl Mischung, die darüber hinaus 10 mM Tris-Acetat (pH 7,5), 10 mM Magnesiumacetat und 50 mM Kaliumacetat enthält. Stoppe die Reaktion durch Erhitzen der Probe auf 95 °C für 15 Minuten. Markiere die Probe durch Hinzufügen von 60 Einheiten terminaler Transferase und 4 pmol Biotin-N6-ddATP (Dupont NEN), gefolgt von einer Inkubation bei 37 °C für 90 Minuten und einer abschließenden Hitzeinaktivierung bei 95 °C für 15 Minuten.
Die markierte DNA wurde dann in einer Hybridisierungsmischung, die 80 μg markierte DNA, 160 μg humane COT-1 DNA (GIBCO), 3,5 M Tetramethylammoniumchlorid, 10 mM MES (pH 6,5), 0,01 % Triton-100, 20 μg Heringssperma-DNA, 100 μg bovines Serumalbumin und 200 pM Kontroll-Oligomer enthielt, bei 44 °C für 40 Stunden in einem Drehofen („rotisserie") mit 40 UpM auf das Array hybridisiert. Die Arrays wurden dann mit 0,1 M NaCl in 10 mM MES bei 44 °C für 30 Minuten in einem Drehofen mit 40 UpM gewaschen. Die hybridisierten Arrays wurden dann mit einer Färbelösung [10 mM MES (pH 6,5), 1 M NaCl, 10 μg/ml Streptavidin R-Phycoerythrin, 0,5 mg/ml acetyliertes BSA, 0,01 % Triton-100] bei 40 °C für 15 Minuten gefärbt. Die Arrays wurden dann mit 6 × SSPET [0,9 M NaCl, 60 mM NaH₂PO₄ (pH 7,4), 6 mM EDTA, 0,005 % Triton-100] auf einer GeneChip^® Flüssigkeitsstation (Affymetrix, Inc., Santa Clara, CA) 10 mal bei 22 °C gewaschen. Die Arrays wurden dann bei 40 °C für 30 Minuten mit einer Antikörperlösung [10 mM MES (pH 6,5), 1 M NaCl, 10 μg/ml Streptavidin R-Phycoerythrin, 0,5 mg/ml acetyliertes BSA, 0,01 % Triton-100] mit anti-Streptavidin-Antikörper gefärbt. Die Arrays werden dann mit Färbelösung für 15 Minuten gefolgt von einer 6 × SSPET-Waschung wie oben erneut gefärbt. Die Arrays werden dann mit einem konfokalen Scanner bei 560 nm abgetastet. Die Hybridisierungsmuster wurden dann für SNP-Nachweis mit einem Computerprogramm, wie in D.G. Wang et al. Science 280, 1077-1082, 1998 beschrieben, gescreent. Die Ergebnisse der Hybridisierung können in den 8A und 8B gesehen werden.
Beispiel 2 – Verdau mit einer Typ IIs Endonuklease und selektive Ligation
Die Komplexität wurde reproduzierbar nach einem Verdau mit einer Typ IIs-Endonuklease und selektiver Ligation an eine Adaptersequenz reduziert. 2 μg genomische DNA wurden mit BbvI bei 37 °C über Nacht verdaut (1, Schritt 1). Das Enzym wurde bei 65 °C für 15 Minuten hitzeinaktiviert.
Adapter, welche die PCR-Primertemplatesequenzen enthielten, wurden in einer 50 μl-Mischung von 400 ng verdauter genomischer DNA, 10 pmol Adapter und 40 Einheiten T4-Ligase in einem 1 × T4-Ligasepuffer ligiert (3, Schritt 2). Die Adaptersequenzen waren wie folgt: 5'-d(pATNNGATCCGAAGGGTTCGAATTC)-3' (SEQ ID NO: 4) und 5'-GAATTCGAACCCCTTCGGATC)-3' (SEQ ID NO: 5). Die Ligation wurde bei 16 °C über Nacht durchgeführt. Die Ligase wurde durch Inkubation bei 65 °C für 15 Minuten inaktiviert.
Die Fragmente wurden dann mit einem Primer, welcher der PCR-Primertemplatesequenz: 5'-GAATTCGAACCCCTTCGGATC)-3' (SEQ ID NO: 5) entsprach, in einer 50 μl-Reaktion, die 20 ng ligierte DNA, 1 Einheit AmpliTaq Goldpolymerase (Perkins Elmer), 3 μM Primer, 200 μM dNTPs, 15 mM Tris-HCl (pH 8,0), 50 mM KCl, 2,5 mM MgCl₂ enthielt, einer PCR unterzogen. Die PCR wurde in einem Perkin-Elmer 9600 Thermocycler unter Verwendung von anfänglichen Denaturierung von 10 Minuten bei 95 °C, 35 Zyklen von je 0,5 Minuten Denaturierung bei 94 °C, Anlagerung für 0,5 Minuten bei 57 °C und Verlängerung bei 72 °C für 2 Minuten durchgeführt. Darauf folgte ein abschließender Verlängerungszyklus von 5 Minuten 72 °C.
Beispiel 3 – Doppelverdau und selektive PCR
Menschliche genomische DNA wurde in einer 40 μl-Reaktion bei 37 °C für 1 Stunde verdaut. Die Reaktionsmischung enthielt 0,5 μg menschliche genomische DNA, 0,5 mM DTT, 5 Einheiten EcoRI (New England Biolabs), 5 Einheiten Sau3AI (New England Biolabs), 0,5 ng/μl BSA, 10 mM Tris-Acetat (pH 7,5), 10 mM Magnesiumacetat und 50 mM Kaliumacetat. Die Enzyme wurden bei 65 °C für 15 Minuten inaktiviert.
Die Restriktionsfragmente wurden dann an Adaptersequenzen ligiert. Die Ligationsmischung enthielt: 5 pmol EcoRI-Adapter [5'-d(pAATTCGAACCCCTTCGGATC)-3' (SEQ ID NO: 2) und 5'-d(GATCCGAAGGGGTTCG)-3' (SEQ ID NO: 6], 50 pmol Sau3AI-Adapter [5'-d(pGATCGCCCTATAGTGAGTCGTATTACAGTGGACCATCGAGGGTCA)-3' (SEQ ID NO: 7)), 5 mM DTT, 0,5 ng/μl BSA, 100 Einheiten T4 DNA-Ligase, 1 mM ATP, 10 mM Tris-Acetat (pH 7,5), 10 mM Magnesiumacetat und 50 mM Kaliumacetat]. Die Ligationsmischung wurde mit den Restriktionsfragmenten bei 37 °C für 3 Stunden inkubiert. Die Ligase wurde bei 65 °C für 20 Minuten inaktiviert.
Das ligierte DNA-Ziel wurde dann durch PCR amplifiziert. Die PCR-Mischung enthielt 12,5 ng ligierte DNA, 1 Einheit AmpliTaq Goldpolymerase (Perkins Elmer), 0,272 mM EcoRI selektiver Primer (5'-AAGGGGTTCGGAATTCCC-3' (SEQ ID NO: 8); CC als selektive Basen), 0,272 μM Sau3AI selektiver Primer (5'-TCACTATAGGGCGATCTG-3' (SEQ ID NO: 9); TG als selektive Basen), 200 μM dNTPs, 15mM Tris-HCl (pH 8,0), 50 mM KCl, 2,5 mM MgCl₂ in einem Endvolumen von 50 μl. Die PCR wurde in einem Perkin-Elmer 9600 Thermocycler unter Verwendung einer anfänglichen Denaturierung von 10 Minuten bei 95 °C, 35 Zyklen von je 1 Minute Denaturierung bei 94 °C, Anlagerung für 1 Minute bei 56 °C und Verlängerung bei 72 °C für 2 Minuten durchgeführt. Darauf folgte ein abschließender Verlängerungszyklus von 5 Minuten bei 72 °C.
Referenzbeispiel 4. Willkürlich geprimte PCR
PCR-Primer wurden mit dem Operon Oligo Toolkit, das in der obigen Beschreibung beschrieben ist, entworfen.
Menschliche genomische DNA wurde in einer 100 μl-Reaktion, die 100 ng genomische DNA, 1,25 Einheiten AmpliTaq Goldpolymerase (Perkins Elmer), 10 μM willkürliche Primer, 200 mM dNTPs, 10 mM Tris-HCl (pH 8,3), 50 mM KCl und 2,5 mM MgCl₂ enthielt, amplifiziert.
Die PCR wurde in einem Perkin-Elmer 9600 Thermocycler unter Verwendung einer anfänglichen Denaturierung von 10 Minuten bei 95 °C, 35 Zyklen von je 1 Minute Denaturierung bei 94 °C, Anlagerung für 1 Minute bei 56 °C und Verlängerung bei 72 °C für 2 Minuten durchgeführt. Darauf folgte eine abschließende Verlängerung von 7 Minuten bei 72 °C.
Das PCR-Produkt wurde dann auf gereinigt, fragmentiert, markiert und hybridisiert, wie in den Beispielen oben beschrieben ist.
Beispiel 5 – SNP-Ermittlung – Allgemeines
Zum Beispiel kann die vorliegende Erfindung auf ein Verfahren zum Vereinfachen des Nachweises oder des Vergleichens von Vorkommen oder Fehlen von SNPS zwischen einzelnen Populationen, Arten oder zwischen verschiedenen Arten gerichtet sein. Diese Erfindung ermöglicht ein schnelles und kosteneffektives Verfahren des Vergleichens von Polymorphismusdaten zwischen vielen Individuen. Als erstes wird eine reduzierte Verkörperung („representation") einer Nukleinsäureprobe in einer wie derholbaren und hochreproduzierbaren Weise von vielen Individuen unter Verwendung einer der oben beschriebenen Techniken alleine oder in Kombination erzeugt. Dann werden die Daten, die durch Hybridisierung der DNA-Proben, die von vielen Individuen gesammelt wurden, auf identische Arrays erhalten wurden, um das Vorkommen oder Fehlen einer Anzahl von Sequenzvarianten nachzuweisen, verglichen. Die Arrays wurden entworfen, um spezifische SNPS oder einfach das Vorkommen eines Bereiches, von dem bekannt ist, dass er häufig SNPS enthält, nachzuweisen. Im letzteren Fall können andere Techniken, wie beispielsweise eine Sequenzierung, eingesetzt werden, um den SNP zu identifizieren.
SNP-Ermittlung – Verfahren 1
Üblicherweise wurde der Nachweis von SNPs unter Verwendung mindestens eines Verfahrens durchgeführt, bei dem die Nukleinsäuresequenz, die den SNP enthalten könnte, unter Verwendung von PCR-Primern amplifiziert wurde. Diese Verwendung kann einen finanziellen Aufwand erzeugen, wenn viele SNPs untersucht oder getestet werden sollen und es fügt dem Experiment signifikant mehr Zeit für Primerdesign und Auswahl und Testen hinzu. Das folgende Beispiel beseitigt den Bedarf für den/die spezifischen PCR-Amplifizierungsschritt(e). Als erstes wird/werden durch Verwenden der in Beispiel 1 oben zur Verfügung gestellten der Verfahren ein Restriktionsenzym oder Restriktionsenzymenzyme verwendet, um genomische DNA an einer großen Anzahl von Stellen zu schneiden und ein Größenbereich der Restriktionsfragmente wird für den Assay ausgewählt. Eine elektronische Datenbank, wie beispielsweise GenBank, wird abgefragt, um zu bestimmen, welche Sequenzen mit dem (den) spezifischen Restriktionsenzym(en), die oben ausgewählt wurden, geschnitten würden. Die Sequenzen der sich ergebenden Fragmente werden dann verwendet, um DNA-Arrays zu entwerfen, welche die Bereiche auf SNPs oder andere Varianten hin durchmustern. Die ausgewählten Fragmente werden dann einer weiteren Fragmentierung unterzogen und für die Analyse auf das Array hybridisiert.
SNP-Ermittlung – Verfahren 2
Alternativ kann das oben in Beispiel 2 bereitgestellte Verfahren eingesetzt werden, Typ IIs-Restriktionsenzyme schneiden genomische DNA von jedem Individuum und Adaptersequenzen werden entworfen, um die spezifischen Fragmente wie gewünscht zu ligieren. Adaptersequenzen können sowohl zufällige als auch spezifische Nukleotidenden einschließen, wie es erforderlich ist, um das gewünschte Ergebnis zu erzeugen. Wenn gewünscht, können die Amplifizierungsprimer entworfen werden, um mit den Adaptersequenzen zu hybridisieren, was die Amplifizierung ausschließlich der Fragmente von Interesse erlaubt. Eine elektronische Datenbank und ein Computer-Modellierungssystem können verwendet werden, um die Auswahl von geeigneten experimentellen Bedingungen zu unterstützen und um die geeigneten Arrays zu entwerfen. Die Fragmente werden für die Analyse dann auf das Array hybridisiert.
SNP-Ermittlung – Referenzverfahren 3
Als eine andere Alternative wurde MutS-Protein verwendet, um DNA, die SNPs enthält, für die Analyse auf einem Array zu isolieren. 3 μg DNA wurden mit EcoRI (alternativ könnte eine DNase I verwendet worden sein) fragmentiert. Zu diesem Zeitpunkt wurde eine gleiche Menge Kontroll-DNA zugegeben (dieser Schritt ist optional).
0,5 μg der Fragmente wurden bei 95 °C für 10 Minuten denaturiert und schrittweise auf 65 °C über eine 60 Minutenperiode abgekühlt. Die Fragmente wurden dann bei 65 °C für 30 Minuten inkubiert und die Temperatur wurde auf 25 °C über eine 60 Mi nutenperiode runtergefahren. 1,5 μg MutS Protein (Epicenter) wurden dann zugefügt und konnten bei Raumtemperatur für 15 Minuten inkubieren, um die Bindung zu ermöglichen (7, Schritt 1).
Die gebundenen Fragmente wurden dann mit 20 Einheiten T7-Polymerase (New England Biolabs) bei 30 °C für 30 Minuten verdaut (7, Schritt 2). Die T7-Polymerase wurde durch Inkubation bei 65 °C für 10 Minuten inaktiviert.
Einzelsträngige DNA wurde mit 100 Einheiten Nuklease S1 (Boehringer-Mannheim) bei 16 °C für 15 Minuten zurecht geschnitten (7, Schritt 3). Die Enzyme wurden durch Zugabe von 50 nmol EDTA und Inkubation bei 65 °C für 15 Minuten inaktiviert.
Adaptersequenzen, welche die PCR-Primertemplates enthielten, wurden dann an die DNA-Sequenzen in einer 10 μl Ligationsmischung ligiert: 1 μl DNA-Lösung, 4 μl dH₂O, 1 μl 10X T4-DNA-Ligasepuffer, 3 μl 10 mM Adapter 5'-d(GATCCGAAGGGGTTCGAATT)-3' (SEQ ID NO: 3) und 5'-d(pGAATTCGAACCCCTTCGGATC)-e' (SEQ ID NO: 5) und 1 μl 400 U/μl T4-DNA-Ligase], und bei 16 °C über Nacht inkubiert und dann bei 65 °C für 15 Minuten inaktiviert (7, Schritt 4).
Die Sequenzen wurden in einer 25 μl-Reaktion amplifiziert, die 0,25 pmol Template-DNA, 0,125 Einheiten AmpliTaq Goldpolymerase (Perkins Elmer), 3 μM Primer [5'-d(GATCCGAAGGGGTTCGAATT)-3' (SEQ ID NO: 3)], 200 μM dNTPs, 15 mM Tris-HCl (pH 8,0), 50 mM KCl und 1,5 mM MgCl₂ enthielt.
Die PCR wurde in einem MJ Research Tetrad Thermocycler unter Verwendung einer anfänglichen Denaturierung von 10 Minuten bei 95 °C, 35 Zyklen von je 0,5 Minuten Denaturierung bei 94 °C, Anlagerung für 0,5 Minuten bei 57 °C und Verlängerung bei 72 °C durchgeführt. Darauf folgte ein abschließender Verlängerungszyklus von 5 Minuten bei 72 °C.
Die Sequenzen wurden dann wie oben beschrieben markiert und auf ein Array hybridisiert.
SNP-Ermittlung – Referenzverfahren 4
Als eine andere Alternative können Oligonukleotide, die an magnetische Kügelchen angeheftet sind, für die Allel-spezifische SNP-Anreicherung und Genotypisierung verwendet werden. Synthetisierte Biotin-markierte Oligonukleotide, die Sequenzen enthielten, die komplementär zu den Bereichen der gewünschten SNPs waren, wurden mit Ziel-DNA in einem 1000 : 1-Verhältnis gemischt. (Alternativ könnte ein 10 : 1, 20 : 1, 50 : 1, 250 : 1 oder jedes andere Verhältnis ausgewählt worden sein.)
Die Probe wurde dann bei 95 °C für 10 Minuten denaturiert und ihr wurde ermöglicht, sich durch langsames Abkühlen auf Raumtemperatur erneut zusammenzulagern.
Die Probe wurde dann an Streptavidin-magnetische Kügelchen (Promega) durch Mischen der Probe und der Kügelchen und Inkubation bei Raumtemperatur für 10 Minuten gebunden. Die Kügelchen wurden dann mit 1 × MES mit 1 M Natriumchlorid (NaCl) dreimal gewaschen. Die Kügelchen wurden dann in 50 μl 1 × Mungobohnen-Nukleasepuffer suspendiert und mit 1 Einheit Mungobohnen-Nuklease gemischt. Die Kügelchen wurden dann bei 30 °C für 15 Minuten inkubiert. Die Mungobohnen-Nuklease wurde danach durch Zugabe von 1 % SDS inaktiviert. Die Kügelchen wurden mit 1 × MES mit 1M NaCl dreimal gewaschen.
Die Kügelchen wurden dann in einer Ligationsmischung, die T4-Ligase in 1 × T4-Ligasepuffer und einen 200-fachen Über schuss Adapter 1 Sequenz [5'-d(ATTAACCCTCACTAAAGCTGGAG)-3' (SEQ ID NO: 10) und 5'-d(pCTCCAGCTTTAGTGAGGGTTAAT)-3' (SEQ ID NO: 11), die BpmI-Erkennungsstellen sind durch Fettbuchstaben hervorgehoben] bei 16 °C über Nacht resuspendiert. Die Ligase wurde dann durch Inkubation bei 65 °C für 10 Minuten inaktiviert.
Die Kügelchen wurden dann dreimal mit 1 × MES mit 1 M NaCl gewaschen und danach in 50 μl 1 × BpmI Restriktionspuffer resuspendiert. BPMI wurde dann zugegeben und die Kügelchen wurden bei 37 °C für 1 Stunde inkubiert. Das Enzym wurde durch Inkubation bei 65 °C für 10 Minuten inaktiviert und die Überstandslösung mit den Sequenzen, welche die gewünschten SNPs enthalten, gesammelt.
Ein zweiter Satz Adaptersequenzen, der die PCR-Vorlagesequenzen [5'-d(pCTATAGTGAGTCGTATT-3' (SEQ ID NO: 12)) und (5'-AATACGRCTCACTATRGNN-3' (SEQ ID NO: 13))] enthielt, und Ligase wurden dann zu der Überstandslösung hinzugegeben und bei 16 °C über Nacht inkubiert. Die Ligase wurde dann bei 65 °C für 10 Minuten hitzeinaktiviert.
Die Proben wurden dann mit PCR unter Verwendung von T3 (5'-ATTAACCCTCACTAAAG-3' (SEQ ID NO: 14)) und T7 5'-d(TAATACGACTCACTATAGGG)-3')(SEQ ID NO: 15) Sequenzierungsprimern (Operon) in einer 50 ml-Reaktion, die 10⁶-Kopien jeder Ziel-DNA enthielt, 1 Einheit AmpliTaq Goldpolymerase (Perkin Elmer), 2 μM jedes Primers, 200 μM dNTPs, 15 mM Tris-HCl (pH 8,0), 50 mM KCl und 2,5 mM MgCl₂, amplifiziert.
Die PCR wurde in einem MJ Research Tetrad Thermocycler unter Verwendung einer anfänglichen Denaturierung von 10 Minuten bei 95 °C, 45 Zyklen von je 0,5 Minuten Denaturierung bei 94 °C, Anlagerung für 0,5 Minuten bei 52 °C und Verlängerung bei 72 °C für 1 Minute durchgeführt. Darauf folgte eine ab schließende Verlängerung von 5 Minuten bei 72 °C. Die Fragmente wurden dann markiert und auf ein Array hybridisiert.
Verfahren der Verwendung
Die vorliegenden Verfahren der Probenherstellung und – analyse sind für eine große Vielzahl von Anwendungen geeignet. Jede Analyse genomischer DNA kann durch ein reproduzierbares Verfahren des Komplexitätsmanagements begünstigt sein.
Als eine bevorzugte Ausführungsform kann das vorliegende Verfahren für die SNP-Ermittlung und die Genotypisierung von Individuen verwendet werden. Beispielsweise kann jedes der oben beschriebenen Verfahren allein oder in Kombination verwendet werden, um SNPs, die in einem oder mehreren spezifischen Bereichen in genomischer DNA enthalten sind, zu isolieren. Arrays können dann auf im großen Maßstab entworfen und hergestellt werden, um nur solche Fragmente zu untersuchen, welche die Bereiche von Interesse enthalten. Danach würde eine Probe von einem oder mehreren Individuen erhalten und durch Verwenden derselben Techniken verarbeitet, die eingesetzt wurden, um das Array zu entwerfen. Jede Probe kann dann auf ein vorentworfenes Array hybridisiert werden und das Hybridisierungsmuster kann analysiert werden, um den Genotyp jedes Individuums oder einer Population von Individuen als Ganzes zu bestimmen. Verfahren der Verwendung für Polymorphismen können beispielsweise in der gleichzeitig anhängigen US-Anmeldung 08/813, 159 gefunden werden. Einige dieser Verfahren werden unten kurz diskutiert.
Korrelierung von Polymorphismen mit phänotypischen Merkmalen („traits")
Einige Polymorphismen treten innerhalb einer Protein-kodierenden Sequenz auf und tragen zum Phänotyp durch Beein flussung der Proteinstruktur bei. Der Einfluß kann abhängig von den Umständen neutral, vorteilhaft oder nachteilig, oder sowohl vorteilhaft und nachteilig sein. Beispielsweise verleiht eine heterozygote Sichelzellmutation (die einen Einzelnukleotidpolymorphismus beinhaltet) Resistenz gegen Malaria, jedoch ist eine homozygote Sichelzellenmutation normalerweise tödlich. Andere Polymorphismen treten in nicht-kodierenden Bereichen auf, können aber phänotypische Einflüsse indirekt über Beeinflussung der Replikation, Transkription und Translation ausüben. Ein einziger Polymorphismus kann mehr als ein phänotypisches Merkmal beeinflussen. Ebenfalls kann ein einzelnes phänotypisches Merkmal durch Polymorphismen in verschiedenen Genen beeinflusst werden. Außerdem schaffen einige Polymorphismen in einem Individuum die Veranlagung („predispose") für eine bestimmte Mutation, die zu einem bestimmten Phänotyp ursächlich in Beziehung steht.
Phänotyische Merkmale schließen Krankheiten ein, die bekannte, aber bis jetzt nicht kartierte genetische Komponenten haben (z.B. Agammaglobulimenie, Diabetes insipidus, Lesch-Nyhan-Syndrom, muskuläre Dystrophie, Wiskott-Aldrich-Syndrom, Fabry's-Krankheit, familiäre Hypercholesterolemie, polyzystische Nierenkrankheit, vererbbare Spherozytose, von Willebrand's Krankheit, tuberöse Sklerose, vererbbare hämorrhagische Telangiectasie, familiäre Darmpolyposis, Ehlers-Danlos-Syndrom, Osteogenesis imperfecta, und akute intermittierende Porphyrie). Phänotypische Merkmale schließen auch Symptome von oder Empfänglichkeiten gegenüber multifaktoriellen Krankheiten ein, von denen eine Komponente genetisch ist oder sein kann, wie beispielsweise Autoimmunerkrankungen, Entzündungen, Krebs, Krankheiten des Nervensystems und Infektionen durch pathogene Mikroorganismen. Einige Beispiele für Autoimmunkrankheiten schließen rheumatoide Arthritis, Multiple Sklerose, Diabetes (Insulin-abhängig und nicht-unabhängig), systemischer Lupus erythematosus und Graves-Krankheit ein. Einige Beispiele der Krebsarten schließen Krebs der Blase, des Gehirns, der Brust, des Darms, der Speiseröhre, der Niere, Leukämie, der Leber, der Lunge, der Mundhöhle, des Eierstocks, der Bauchspeicheldrüse, der Prostata, der Haut, des Magens und der Gebärmutter ein. Phänotypische Merkmale schließen ebenfalls Charakteristiken wie beispielsweise Langlebigkeit, Erscheinung (z.B. Kahlheit, Fettleibigkeit), Stärke, Geschwindigkeit, Ausdauer, Fertilität und Empfänglichkeit für oder Aufnahmefähigkeit von bestimmte Medikamente oder therapeutische Behandlungen ein.
Eine Korrelation wird für Populationen von Individuen durchgeführt, die auf das Vorkommen oder Fehlen eines interessierenden phänotypischen Merkmals und auf polymorphe Markersätze untersucht wurden. Um eine solche Analyse durchzuführen, wird das Vorkommen oder Fehlen eines Satzes von Polymorphismen (d.h. ein polymorpher Satz) für einen Satz von Individuen bestimmt, von denen einige ein besonderes Merkmal zeigen, und von denen einige ein Fehlen dieses Merkmals zeigen. Die Allele jedes Polymorphismus des Satzes werden dann untersucht, um zu bestimmen, ob das Vorkommen oder Fehlen eines besonderen Allels mit dem Merkmal von Interesse assoziiert ist. Die Korrelation kann durch statistische Standardverfahren, wie beispielsweise einen κ-Quadrattest, durchgeführt werden und statistisch signifikante Korrelationen zwischen polymorphen Form(en) und phänotypischen Charakteristiken werden bemerkt. Beispielsweise könnte gefunden werden, dass das Vorkommen eines Allels A1 am Polymorphismus A mit einer Herzkrankheit korreliert. Als ein weiteres Beispiel könnte gefunden werden, dass das kombinierte Vorkommen von Allels A1 am Polymorphismus A und von Allel B1 am Polymorphismus B mit der gesteigerten Milchproduktion eines Farmtieres korreliert (siehe Beitz et al., US 5,292,639 ).
Genetische Kartierung von phänotypischen Merkmalen
Verknüpfungsanalysen sind für die Kartierung eines genetischen Locus, der mit einem phänotypischen Merkmal assoziiert ist, auf eine chromosomale Position nützlich und dadurch für das Klonieren von Genen/einem Gen, die/das für das Merkmal verantwortlich sind. Siehe Lander et al., Proc. Natl. Acad. Sci (USA) 83, 7353-7357 (1986); Lander et al., Proc. Natl. Acad. Sci (USA) 84, 2363-2367 (1987); Donis-Keller et al., Cell 51, 319-337 (1987); Lander et al., Genetics 121, 185-199 (1989)). Gene, die durch eine Verknüpfung lokalisiert sind, können durch ein Verfahren, das als direktionales Klonieren bekannt ist, kloniert werden. Siehe Wainwright, Med. J. Australia 159, 170-174 (1993); Collins, Nature Genetics 1, 3-6 (1992).
Verknüpfungsstudien werden üblicherweise auf Mitgliedern einer Familie angewendet. Zur Verfügung stehende Mitglieder einer Familie werden auf das Vorkommen oder Fehlen eines phänotypischen Merkmals und auf einen Satz polymorpher Marker hin charakterisiert. Die Verteilung polymorpher Marker in einer aussagefähigen Meiose wird dann analysiert, um zu bestimmen, welche polymorphen Marker mit dem phänotypischen Merkmal kosegregieren. Siehe z.B. Kerem et al., Science 245, 1073-1080 (1989); Monaco et al., Nature 316, 842 (1985); Yamoka et al., Neurology 40, 222-226 (1990); Rossiter et al., FASEB 5, 21-27 (1991).
Ungleichgewichtskartierung des gesamten Genoms
Das Verknüpfungsungleichgewicht oder die allele Verbindung ist die bevorzugte Verbindung eines bestimmten Allels oder genetischen Markers mit einem spezifischen Allel oder genetischem Marker an einer nahegelegenen chromosomalen Position, die häufiger, als per Zufall erwartet, für jede besonderes al lele Häufigkeit in der Population auftritt. Falls der Locus X beispielsweise die Allele a und b aufweist, die normalerweise gleich häufig auftreten, und der verknüpfte Locus Y weist die Allele c und d auf, die normalerweise gleich häufig auftreten, würde man erwarten, daß die Kombination ac mit einer Häufigkeit von 0,25 auftritt. Wenn ac häufiger auftritt, dann befinden sich die Allele a und c in einem Verknüpfungsungleichgewicht. Ein Verknüpfungsungleichgewicht kann durch natürliche Auswahl bestimmter Kombinationen von Allelen entstehen oder dadurch, daß ein Allel erst kürzlich in eine Population eingefügt wurde, um Gleichgewicht mit den verknüpften Allelen zu erreichen.
Ein Marker in Verknüpfungsungleichgewicht kann besonders beim Nachweisen von Empfänglichkeit gegenüber einer Krankheit (oder einen anderen Phänotyp) nützlich sein, obwohl der Marker die Krankheit nicht verursacht. Beispielsweise kann ein Marker (X), der nicht selbst ein verursachendes Element einer Krankheit ist, aber der in einem Verknüpfungsungleichgewicht mit einem Gen (einschließlich regulatorischer Sequenzen) (Y) steht, das ein verursachendes Element eines Phänotyps ist, nachgewiesen werden, um die Empfänglichkeit gegenüber der Krankheit bei Umständen, in denen das Gen Y nicht identifiziert werden konnte oder nicht richtig nachweisbar ist, anzuzeigen.
Marker-unterstütztes Züchten
Genetische Marker können die Genome in Tieren oder Feldfrüchten entschlüsseln. Genetische Marker können einem Züchter beim Verstehen, Auswählen und dem Handhaben der genetischen Komplexität eines agronomischen oder wünschenswerten Merkmals unterstützen. Die Welt der Landwirtschaft hat beispielsweise einen großen Anreiz zu versuchen, Nahrung mit einer steigenden Anzahl von gewünschten Merkmalen (hohe Ausbeute, Krankheitsre sistenz, Geschmack, Geruch, Farbe, Textur, etc.) zu produzieren, da Verbraucheranforderungen und -erwartungen steigen. Viele Merkmale sind jedoch, selbst wenn die molekularen Mechanismen bekannt sind, zu schwierig und zu kostenintensiv während der Produktion zu beobachteten. Leicht nachweisbare Polymorphismen, die in enger physikalischer Nähe zu den gewünschten Genen stehen, können als ein Stellvertreter verwendet werden, um zu bestimmen, ob das gewünschte Merkmal in dem speziellen Organismus vorhanden ist oder nicht. Dies stellt ein effizientes Screeningwerkzeug zur Verfügung, das den selektiven Züchtungsprozess beschleunigen kann.
Pharmakogenomik
Genetische Information kann ein leistungsfähiges Werkzeug für Ärzte sein, um zu bestimmen, welche Form von Medizin für einen bestimmten Patienten die Beste ist. Ein kürzlich erschienener Science-Artikel mit dem Titel "Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expressing Monitoring" (wird am 15.10.1999 veröffentlicht und wird hiermit durch Bezugnahme in seiner Gesamtheit für alle Zwecke aufgenommen) diskutiert die Verwendung genetischer Information, die durch die Verwendung von Arrays entdeckt wurde, um spezifische Krebsarten, die ein bestimmter Patient hat, zu bestimmen. Der Artikel fährt fort, die Wege zu diskutieren, mit denen bestimmte Behandlungsoptionen für jeden besonderen Krebstyp eines Patienten maßgeschneidert werden können. Ähnliche Verwendungen genetischer Information für Behandlungspläne sind für Patienten mit HIV offenbart worden (siehe US-Patentanmeldung 5,861,242).
Die pharmazeutische Industrie ist gleichfalls an dem Gebiet der Pharmakogenomik interessiert. Jedes Jahr erleiden pharmazeutische Unternehmen große Verluste wegen Medikamenten, bei denen die klinischen Versuche aus dem einen oder anderen Grund fehlschlagen. Einige der schwierigsten sind solche Medikamente, die sich, während sie sehr effektiv für einen großen Prozentsatz der Population sind, als gefährlich oder sogar tödlich für einen sehr kleinen Prozentsatz der Population erweisen. Pharmakogenomik kann verwendet werden, um einen spezifischen Genotyp mit spezifischen Antworten auf ein Medikament zu korrelieren. Die Grundidee ist dabei, das richtige Medikament dem richtigen Patienten zu verabreichen. Wenn pharmazeutische Unternehmen (und später Ärzte) beschleunigt die Patienten aus dem möglichen Empfängerpool entfernen können, die nachteilige Reaktionen auf ein bestimmtes Medikament erleiden, können viele Forschungsanstrengungen, die derzeit von den pharmazeutischen Unternehmen fallen gelassen werden, wieder aufleben gelassen werden, was Hunderttausende Dollar für die Unternehmen einsparen würde, und dem Patienten viele derzeit nicht verfügbare Medikationen zur Verfügung stellen würde.
Ganz ähnlich sind einige Medikationen für nur einen sehr kleinen Prozentsatz der Population sehr effektiv, während sie für einen großen Prozentsatz der Patienten nur schwach effektiv oder sogar ineffektiv sind. Pharmakogenomik erlaubt es pharmazeutischen Unternehmen vorherzusagen, welche Patienten die idealen Kandidaten für ein bestimmtes Medikament sind, wodurch die Fehlschlagrate dramatisch reduziert würde und ein größerer Anreiz für die Unternehmen geschaffen würde, fortzufahren, die Forschung an solchen Medikamenten durchzuführen.
Forensik
Die Fähigkeit, einen unterscheidbaren oder einzigartigen Satz forensischer Marker in einem Individuum zu identifizieren, ist für die forensische Analyse nützlich. Beispielsweise kann man bestimmen, ob eine Blutprobe von einem Verdächtigen mit einer Blut- oder Gewebeprobe von einem Tatort übereinstimmt, indem bestimmt wird, ob der Satz polymorpher Formen, die ausgewählte polymorphe Stellen besetzen, in dem Verdächtigen und der Probe derselbe ist. Wenn der Satz polymorpher Marker zwischen einem Verdächtigen und einer Probe nicht übereinstimmt, kann geschlussfolgert werden (abgesehen von einem experimentellem Fehler), dass der Verdächtige nicht die Quelle der Probe war. Wenn der Satz von Markern übereinstimmt, kann man schlussfolgern, dass die DNA des Verdächtigen mit der am Tatort gefundenen übereinstimmt. Wenn Häufigkeiten der polymorphen Formen an den untersuchten Loci bestimmt wurden (z.B. durch Analyse einer geeigneten Population von Individuen), kann man eine statistische Analyse durchführen, um die Wahrscheinlichkeit zu bestimmen, mit der eine Übereinstimmung eines Verdächtigen und einer Tatortprobe per Zufall auftreten würde.
Vaterschaftstest/Bestimmung der Verwandtschaft
Das Ziel von Vaterschafts-Tests ist es normalerweise, zu bestimmen, ob ein Mann der Vater eines Kindes ist. In den meisten Fällen ist die Mutter des Kindes bekannt und somit kann der Beitrag der Mutter zu dem Genotyp des Kindes verfolgt werden. Ein Vaterschaftstest untersucht, ob der Teil des Genotyps des Kindes, der nicht der Mutter zurechenbar ist, mit dem des vermeintlichen Vaters übereinstimmt. Ein Vaterschaftstest kann durch Analyse von Polymorphismussätzen bei dem vermeintlichen Vater und dem Kind durchgeführt werden. Selbstverständlich kann die vorliegende Erfindung auf die Verwendung dieses Verfahrens zur Bestimmung, ob ein Individuum mit einem anderen verwandt ist, erweitert werden. Sehr viel breiter kann die vorliegende Erfindung eingesetzt werden, um zu bestimmen, wie verwandt ein Individuum mit einem anderen ist, z.B. zwischen Rassen oder Arten.
Schlussfolgerung
Aus dem Vorangegangenen kann man sehen, dass der Vorteil der vorliegenden Erfindung darin liegt, dass es ein flexibles und skalierbares Verfahren für die Analyse komplexer DNA-Proben, wie beispielsweise genomischer DNA, zur Verfügung stellt. Diese Verfahren sind nicht auf irgendeinen bestimmten Typ von Nukleinsäureprobe begrenzt: pflanzliche, bakterielle, tierische (einschließlich menschliche) genomische Gesamt-DNA, RNA, cDNA und dergleichen können durch Verwenden einiger oder aller der in dieser Erfindung offenbarten Verfahren analysiert werden. Diese Erfindung stellt ein leistungsfähiges Werkzeug für die Analyse komplexer Nukleinsäureproben zur Verfügung. Vom Experimentdesign bis zur Isolierung gewünschter Fragmente und Hybridisierung auf ein geeignetes Array stellt die obige Erfindung schnellere, effizientere und weniger kostenintensive Verfahren der komplexen Nukleinsäureanalyse zur Verfügung.
Alle Veröffentlichungen und Patentanmeldungen, die oben zitiert wurden, werden hier durch Bezugnahme in ihrer Gesamtheit für alle Zwecke in dem selben Ausmaß aufgenommen, als wenn für jede einzelne Veröffentlichung oder Patentanmeldung spezifisch und individuell angegeben worden wäre, daß sie so durch Bezugnahme aufgenommen wurde. Obwohl die vorliegende Erfindung mit einiger Genauigkeit mittels Darstellung und Beispiel für die Zwecke der Klarheit und des Verstehens beschrieben worden ist, ist es offensichtlich, daß bestimmte Änderungen und Modifikationen innerhalb des Rahmens der anhängigen Ansprüche durchgeführt werden können.
Anhang A
Anhang B

Claims

Verfahren zur Bestimmung, ob eine erste Nukleinsäureprobe Sequenzvariationen enthält, Schritte umfassend, bei denen man: (a) die erste Nukleinsäureprobe bereitstellt; (b) die Komplexität dieser ersten Nukleinsäureprobe reproduzierbar verringert, um eine zweite Nukleinsäureprobe zu erzeugen, die eine Mehrzahl nicht-identischer Sequenzen umfasst, wobei die zweite Nukleinsäureprobe durch Schritte erhältlich ist, bei denen man: (i) die erste Nukleinsäureprobe mit mindestens einem Restriktionsenzym fragmentiert, um Fragmente zu erzeugen; (ii) an die Fragmente Adaptorsequenzen ligiert, die Primerzielsequenzen umfassen; und (iii) PCR-Amplifikation der Fragmente durchführt; (c) die in der zweiten Nukleinsäureprobe vorliegenden Sequenzen zuvor bestimmt, wofür ein Computersystem verwendet wird, das die obigen Reaktionen modelliert; (d) ein Computersystem dazu verwendet, um einen Array mit Nukleinsäuresonden zu entwerfen, das Sondensequenzen umfasst, die auf den Ergebnissen der Modellierung der Reaktionen an den zu untersuchenden Sequenzen basiert; (e) das Array bereitstellt; (f) die zweite Nukleinsäureprobe mit dem Array hybridisiert; und (g) das Hybridisierungsmuster, das aus der Hybridisierung hervorgeht analysiert; wobei die Sequenzvariationen Einzelnukleotidpolymorphismen sind.
Verfahren gemäß Anspruch 1, bei dem die erste Nukleinsäureprobe DNA ist.
Verfahren gemäß Anspruch 1, bei dem die erste Nukleinsäureprobe genomische DNA ist.
Verfahren gemäß Anspruch 1, bei dem die erste Nukleinsäureprobe cDNA ist, die von RNA oder mRNA abgeleitet wurde.
Verfahren gemäß Anspruch 1, bei dem der Schritt der Fragmentierung der ersten Nukleinsäureprobe einen Verdau mit einer Typ II Endonuklease umfasst.
Verfahren gemäß Anspruch 1, bei dem die Adaptorsequenzen ferner tag-Sequenzen umfassen.
Verfahren gemäß Anspruch 1, bei dem die SNP mit einer Erkrankung assoziiert ist.
Verfahren gemäß Anspruch 1, bei dem die SNP mit den Wirkungen eines Arzneimittels assoziiert ist.
Verfahren gemäß Anspruch 1, bei dem Schritt (a) die Gewinnung einer ersten Nukleinsäureprobe aus einer ersten Gruppe von Individuen umfasst; Schritt (b) die reproduzierbare Verringerung der Komplexität der ersten Nukleinsäureprobe für jede der ersten Nukleinsäureproben umfasst, wodurch eine zweite Nukleinsäureprobe erzeugt wird, die eine Mehrzahl nicht-identischer Sequenzen umfasst, wobei die zweite Nukleinsäureprobe erhältlich ist, indem man: (ii) die erste Nukleinsäureprobe fragmentiert, um Fragmente zu erzeugen; und (ii) an diese Fragmente Adaptorsequenzen ligiert, die Primerzielsequenzen umfassen; (iii) PCR-Amplifikationen der Fragmente durchführt; Schritt (c) die Bestimmung der Sequenzen umfasst, die in den zweiten Nukleinsäureproben enthalten sind, wobei ein Computersystem verwendet wird, um die obigen Reaktionen zu modellieren; Schritt (d) die Verwendung eines Computersystems umfasst, mit dem ein Nukleinsäuresondenarray entworfen wird, das Sondensequenzen umfasst, die auf den Ergebnissen der Modulation der Reaktionen der zu untersuchenden Sequenzen basiert; Schritt (f) die Hybridisierung der zweiten Nukleinsäureproben an das Array umfasst, und Schritt (g) die Analyse des Hybridisierungsmusters umfasst, das aus dem Hybridisierungen entstanden ist.
Verfahren gemäß Anspruch 9, bei dem man ferner die Analysen der individuellen Hybridisierungsmuster kompilliert.
Verfahren gemäß Anspruch 9, bei dem man ferner die Daten der Polymorphismen der Individuen vergleicht.
Verfahren gemäß Anspruch 11, bei dem die Daten der Polymorphismen die Gegenwart oder Abwesenheit von SNPs darstellen.
Verfahren gemäß Anspruch 1, bei dem man ferner die Fragmente nach einer gewünschten Größe auftrennt.
Verfahren gemäß Anspruch 1, bei dem die erst Nukleinsäureprobe vollständige genomische DNA umfasst.