DE69918130T2

DE69918130T2 - Verwendung von vereinigten sonden zur genetischen analyse

Info

Publication number: DE69918130T2
Application number: DE69918130T
Authority: DE
Inventors: Erik Gentalen; Mark Chee
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 1998-08-24
Filing date: 1999-08-19
Publication date: 2005-07-07
Anticipated expiration: 2019-08-20
Also published as: DE69918130D1; US8586312B2; WO2000011223A9; WO2000011223A1; US20020106663A1; US20100041569A1; EP1108062A1; CA2341483A1; EP1108062A4; JP2002523064A; US6306643B1; US20050191675A1; US6852490B2; AU5577899A; US20050170412A1; EP1108062B1; ATE269416T1; US20110009289A1

Description

Arrays aus Oligonukleotidsonden wurden in verschiedenen Verfahren zur Analyse ausgewählter Nukleinsäuren verwendet. Bei einer dieser Anwendungen erfolgt eine de-novo-Sequenzierung einer Ziel-Nukleinsäure. Dies läßt sich zumindest in der Theorie dadurch erreichen, daß man eine Ziel-Nukleinsäure mit einem vollständigen Array aller Sondensequenzen einer gegebenen Länge hybridisiert und die Teilmenge der Sonden, die mit dem Ziel hybridisieren, identifiziert. Eine weitere Anwendung besteht im Nachweis und der Quantifizierung von mRNA-Niveaus in einer Mischpopulation. Bei anderen Anwendunger wird eine bekannte Referenzsequenz mit einer Zielsequenz, die sich von der Referenzsequenz hinsichtlich des Vorhandenseins von Mutationen, Polymorphismen und anderen Variationen unterscheidet, verglichen.
Eine einfache Strategie zur Identifizierung von Variationen in einer Zielsequenz ist der reverse Dot-Blot, wie er bei Dattagupta, EP 235,726 , Saiki, WO 89/11548 erörtert wird. Weitere Strategien zur Vergleichsanalyse von Zielnukleinsäuren mit Referenznukleinsäuren sind in WO 95/11995 beschrieben. Manche dieser Arrays enthalten vier Sondensätze. Ein erster Sondensatz enthält überlappende Sonden, die einen ausgewählten Bereich in einer Referenzsequenz überspannen. Jede Sonde in dem ersten Sondensatz weist eine Abfrageposition auf, die einem Nukleotid in der Referenzsequenz entspricht. Das heißt, daß die Abfrageposition auf einer Linie mit dem entsprechenden Nukleotid in der Referenzsequenz liegt, wenn die Sonde und die Referenzsequenz so ausgerichtet werden, daß die größtmögliche Komplimentarität zwischen den beiden vorliegt. Für jede Sonde im ersten Satz gibt es drei entsprechende Sonden aus drei zusätzlichen Sondensätzen. Somit gibt es für jedes Nukleotid in der Referenzsequenz jeweils vier entsprechende Sonden. Die Sonden aus den drei zusätzlichen Sondensätzen sind mit der entsprechenden Sonde aus dem ersten Sondensatz identisch, außer an der Abfrageposition, die in jeder der vier entsprechenden Sonden aus den vier Sondensätzen an der gleichen Position auftritt und die in den vier Sondensätzen jeweils von einem unterschiedlichen Nukleotid besetzt ist.
Ein derartiger Array wird mit einer markierten Zielsequenz hybridisiert, bei der es sich um dieselbe Sequenz wie die Referenzsequenz oder um eine Variante davon handeln kann. Die Identität eines beliebigen ausgewählten Nukleotids in der Zielsequenz läßt sich dadurch bestimmen, daß man die Hybridisierungsintensitäten der vier Sonden, deren Abfragepositionen jeweils mit diesem Nukleotid auf einer Linie liegen, vergleicht. Das Nukleotid in der Zielsequenz ist das Komplement zu dem Nukleotid, das die Abfrageposition der Sonde mit der höchsten Hybridisierungsintensität besetzt.
Eine weitere Strategie zum Vergleich einer Zielsequenz mit einer Referenzsequenz ist in EP 717,113 beschrieben. Bei dieser Strategie enthält ein Array überlappende Sonden, die einen ausgewählten Bereich in einer Referenzsequenz überspannen. Der Array wird mit einer markierten Zielsequenz hybridisiert, bei der es sich um die gleiche Sequenz wie die Referenzsequenz oder um eine Variante davon handeln kann. Handelt es sich bei der Zielsequenz um eine Variante der Referenzsequenz, so zeigen die den Ort der Abweichung überlappenden Sonden eine verringerte Hybridisierungsintensität verglichen mit anderen Sonden in dem Array. In Arrays, bei denen die Sonden stufenweise durch die Referenzsequenz hindurch angeordnet sind (z.B. jede nachfolgende Sonde weist jeweils eine 5'-Base weniger und eine 3'-Base mehr auf als ihre Vorgängerin), zeigt sich der Verlust der Hybridisierungsintensität in Form eines "Fußabdrucks" von Sonden, deren Mittelpunkt ungefähr bei dem Punkt der Abweichung zwischen der Zielsequenz und der Referenzsequenz liegt.
In den meisten der oben beschriebenen Array-Strategien besetzt jede in einem Array vorliegende Sonde jeweils einen nur einmal vorkommenden ce-Bereich des Arrays. In dieser Anordnung ist das von jeder Sonde gebundene Signal jeweils getrennt bestimmbar. In Bains & Smith, J. Theor. Biol. 135, 303-307 (1988) wird jedoch ein Sequenzierverfahren mittels Hybridisierung erörtert, bei dem ein Array aus sechs Nukleotiden langen Oligonukleotiden eingesetzt wird, wobei in den Oligonukleotiden die beiden Mittelpositionen jeweils von Pools aus jeder der vier Nukleotidbasen besetzt sind. Anders ausgedrückt: eine Zelle eines solchen Arrays wird von einem Gemisch aus sechzehn Sonden mit verwandter Sequenz besetzt. Die sechzehn Sonden besitzen vier gemeinsame Positionen und unterscheiden sich an den beiden Mittelpositionen. In WO 95/11995 werden ebenso einige Arrays beschrieben, die vereinigte Mischungen von Sonden enthalten. Unter diesen vereinigten Sonden befinden sich Sondenkomponenten, die zu einem gemeinsamen Abschnitt einer Zielsequenz komplementär sind, außer an einer oder einigen wenigen Positionen auf der Länge der Sonden, an denen sich die Sonden unterscheiden. Solche Sonden lassen sich bei mehreren Strategien zum Nachweis von Variationen in einer Zielsequenz gegenüber einer Referenzsequenz einsetzen. Diese Pooling-Strategien können dahingehend Vorteile aufweisen, daß sie die Anzahl der zur Analyse einer gegebenen Zielsequenz benötigten Array-Zellen reduzieren.
KURZE BESCHREIBUNG DER BEANSPRUCHTEN ERFINDUNG
Erfindungsgemäß werden Verfahren bereitgestellt, in denen Arrays aus Polynukleotidsonden, die an einen Träger mit mindestens einer vereinigten Position gebunden sind, verwendet werden. Einige der Arrays weisen einen Träger mit mindestens drei getrennten Bereichen auf. Ein erster Bereich trägt einen Pool von Polynukleotidsonden, der eine erste und eine zweite Sonde umfaßt. Ein zweiter Bereich trägt die erste, jedoch nicht die zweite Sonde, und ein dritter Bereich trägt die zweite, jedoch nicht die erste Sonde. In einigen Arrays ist die erste bzw. die zweite Sonde komplementär zu einem ersten bzw. zweiten nichtüberlappenden Abschnitt einer Zielsequenz. In einigen Arrays enthält der erste bzw. der zweite nichtüberlappende Abschnitt der Ziel-Nukleinsäure einen ersten bzw. einen zweiten polymorphen Ort, wobei die erste Sonde komplementär zu einer polymorphen Form des ersten Ortes ist und die zweite Sonde komplementär zu einer polymorphen Form des zweiten Ortes ist.
In einigen Arrays trägt der zweite Bereich die erste Sonde mit einer dritten Sonde als zweiten Pool von Polynukleotidsonden, und der dritte Bereich trägt die zweite Sonde mit einer vierten Sonde als einen dritten Pool von Polynukleotidsonden. In einigen Arrays ist die dritte Sonde komplementär zu einer zweiten polymorphen Form des zweiten polymorphen Ortes und die vierte Sonde komplementär zu einer zweiten polymorphen Form des ersten polymorphen Ortes.
Einige Arrays weisen ein Substrat mit einer Vielzahl getrennter Bereiche auf, wobei die getrennten Bereiche verschiedene Sonden-Pools tragen. Ein Sonden-Pool umfaßt erste und zweite Sonden, die komplementär zu nichtüberlappenden Abschnitten einer Zielsequenz sind. In einigen dieser Arrays enthalten die nichtüberlappenden Abschnitte der Zielsequenz erste und zweite polymorphe Orte, und die ersten und zweiten Sonden sind jeweils komplementär zu polymorphen Formen der ersten und zweiten polymorphen Orte, wobei die verschiedenen Pools zu verschiedenen Kombinationen der polymorphen Formen komplementäre Sonden umfassen, wobei sich die verschiedenen Pools in der Kombination der polymorphen Formen unterscheiden. In einigen Arrays weist mindestens eine Teilmenge der Vielzahl von Pools dieselbe erste Sonde auf, wobei die zweite Sonde in verschiedenen Pools in der Teilmenge jeweils verschieden ist. In einigen Arrays umfaßt der Sonden-Pool erste und zweite Teilmengen von Sonden. Dabei weist jeder Pool in der ersten Teilmenge von Pools eine gemeinsame erste Sonde und eine verschiedene zweite Sonde auf. Jeder Pool in der zweiten Teilmenge von Pools weist eine gemeinsame erste Sonde und eine verschiedene zweite Sonde auf, wobei sich die gemeinsame erste Sonde zwischen der ersten Teilmenge von Pools und der zweiten Teilmenge von Pools unterscheidet.
Erfindungsgemäß werden weiterhin Verfahren bereitgestellt, bei denen Arrays, die einen Träger mit mindestens drei getrennten Bereichen aufweisen, verwendet werden. Ein erster Bereich trägt einen Pool von Polynukleotidsonden, der erste und zweite Sonden in einem Molverhältnis von ersten zu zweiten Sonden umfaßt. Ein zweiter Bereich, der die erste, jedoch nicht die zweite Sonde trägt oder bei dem die zweite Sonde mit einem zweiten Molverhältnis von erster Sonde zu zweiter Sonde, das größer als das erste Molverhältnis ist, vorliegt. Ein dritter Bereich trägt die zweite, jedoch nicht die erste Sonde oder enthält die erste Sonde mit einem dritten Molverhältnis von erster Sonde zu zweiter Sonde, das geringer als das erste Molverhältnis ist.
Erfindungsgemäß werden weiterhin Verfahren zur Bestimmung der Kopplung polymorpher Formen in einer Ziel-Nukleinsäure bereitgestellt. Solche Verfahren bestehen darin, daß man eine diploide Ziel-Nukleinsäure, die erste und zweite polymorphe Orte aufweist, mit einem Array hybridisiert, der einen Träger mit mindestens drei getrennten Bereichen aufweist. Ein erster Bereich trägt einen Pool von Polynukleotidsonden, der eine erste Sonde umfaßt, die komplementär zu einer polymorphen Form des ersten polymorphen Ortes ist, und eine zweite Sonde umfaßt, die komplementär zu einer polymorphen Form des zweiten polymorphen Ortes ist. Ein zweiter Bereich trägt die erste, jedoch nicht die zweite Sonde, und ein dritter Bereich trägt die zweite, jedoch nicht die erste Sonde. Der nächste Schritt besteht darin, daß man das Verhältnis der gebundenen Ziel-Nukleinsäure an den ersten Bereich und an den zweiten und dritten Bereich in Kombination bestimmt, um einen Hinweis darauf zu erlangen, ob die polymorphe Form des ersten polymorphen Ortes und die polymorphe Form des zweiten polymorphen Ortes in demselben Molekül der diploiden Ziel-Nukleinsäure vorliegen.
Erfindungsgemäß werden zusätzliche Verfahren zur Bestimmung der Kopplung polymorpher Formen in einer Ziel-Nukleinsäure bereitgestellt. Derartige Verfahren bestehen darin, daß man eine diploide Ziel-Nukleinsäure, die erste und zweite polymorphe Orte aufweist, mit einem Array hybridisiert, welcher einen Träger mit einer Vielzahl getrennter Bereiche aufweist, wobei die getrennten Bereiche verschiedene Sonden-Pools tragen, ein Sonden-Pool erste und zweite Sonden umfaßt, die jeweils komplementär zu polymorphen Formen der ersten und zweiten polymorphen Orte sind und die verschiedenen Pools Sonden umfassen, die komplementär zu verschiedenen Kombinationen polymorpher Formen sind. Anschließend bestimmt man die Bindung der Ziel-Nukleinsäure an die getrennten Bereiche, um mindestens einen getrennten Bereich zu identifizieren, der mehr Ziel-Nukleinsäure als ein Durchschnitt an Ziel-Nukleinsäuren bindet, welcher von den getrennten Bereichen gebunden wird, wobei der mindestens eine getrennte Bereich einen Pool von Sonden trägt, die jeweils komplementär zu einer Kombination der polymorphen Formen sind, die in einem einzigen Molekül der diploiden Ziel-Nukleinsäure vorliegen. Einige dieser Verfahren umfassen ferner Schritte, bei denen man eine Kontrollmischung mit einer ersten Nukleinsäure, welche eine polymorphe Form an dem ersten polymorphen Ort aufweist, und mit einer zweiten Nukleinsäure, welche eine polymorphe Form an dem zweiten polymorphen Ort aufweist, hybridisiert und die Hybridisierung der Mischung an die getrennten Bereiche bestimmt. Danach bestimmt man die Bindung des Kontrollbereichs an die getrennten Bereiche. Anschließend vergleicht man die Bindung der Ziel-Nukleinsäure und der Kontrolle an die getrennten Bereiche, um einen getrennten Bereich zu identifizieren, der stärker als die Kontrolle an die Ziel-Nukleinsäure bindet, wobei dieser getrennte Bereich einen Pool von Sonden trägt, die jeweils zu einer Kombination polymorpher Formen komplementär sind, die in einem einzigen Molekül der diploiden Ziel-Nukleinsäure vorliegen.
Erfindungsgemäß werden ferner Verfahren zur Sequenzierung einer Ziel-Nukleinsäure bereitgestellt. Derartige Verfahren bestehen darin, daß man die Ziel-Nukleinsäure mit einem Array hybridisiert, der ein Substrat mit einer Vielzahl getrennter Bereiche aufweist, welche verschiedene Pools von Sonden tragen, wobei jeder Pool eine gemeinsame erste und eine verschiedene zweite Sonde aufweist und die gemeinsame erste Sonde komplementär zu einem bekannten Marker im Zielmolekül ist. Danach bestimmt man eine Sequenz eines Abschnitts der Ziel-Nukleinsäure aufgrund der relativen Bindung der Ziel-Nukleinsäure an die vereinigten Sonden. Anschließend bestimmt man die Position des Abschnitts in der Ziel-Sequenz im Verhältnis zu dem bekannten Marker.
Weitere Sequenzierverfahren bestehen darin, daß man eine Ziel-Nukleinsäure mit einem Array hybridisiert, der ein Substrat mit einer Vielzahl von getrennten Bereichen aufweist, wobei unterschiedliche Bereiche verschiedene Pools von Sonden tragen, wobei die Pools in erste und zweite Subarray-Pools unterteilt sind, von denen jedes Pool in dem ersten Subarray von Pools eine gemeinsame erste Sonde und eine verschiedene zweite Sonde aufweist, jedes Pool in dem zweiten Subarray von Pools eine gemeinsame erste Sonde, die komplementär zu einem bekannten Marker im Zielmolekül ist, und eine verschiedene zweite Sonde aufweist, wobei die gemeinsame erste Sonde in dem ersten Subarray von Pools komplementär zu einem anderen bekannten Marker in dem zweiten Subarray von Pools ist. Danach bestimmt man aufgrund der Bindung der Ziel-Nukleinsäure an die Pools der ersten und zweiten Subarrays eine Sequenz erster und zweiter Abschnitte der Ziel-Nukleinsäure. Anschließend kartiert man die Position der ersten und zweiten Abschnitte der Ziel-Nukleinsäure im Verhältnis zu der Position bekannter Marker.
Erfindungsgemäß werden ferner Verfahren zur Überwachung der Expression einer nRNA-Population bereitgestellt. Derartige Verfahren bestehen darin, daß man eine Probe bereitstellt, die eine Population von mRNA-Molekülen umfaßt. Man hybridisiert dann die Population der mRNA oder der Nukleinsäuren, welche von diesen kopiert wurden, mit einem Array, der einen Träger mit einer Vielzahl getrennter Bereiche aufweist, wobei die getrennten Bereiche verschiedene Pools von Sonden tragen, ein Pool an Sonden erste und zweite Sonden umfaßt, die jeweils komplementär zu nichtüberlappenden Abschnitten eines bekannten nRNA-Moleküls sind, die verschiedenen Pools erste und zweite Sonden umfassen, die komplementär zu nichtüberlappenden Abschnitten verschiedener bekannter mRNA-Moleküle sind. Anschließend bestimmt man, welche getrennten Bereiche spezifische Bindung an die Population zeigen, wodurch ein Hinweis darauf erlangt wird, welche mRNA-Moleküle in der Probe vorliegen.
Bei einigen dieser Verfahren umfaßt der Träger ferner eine zweite Vielzahl getrennter Bereiche, wobei die unterschiedlichen Bereiche verschiedene Pools von Sonden tragen, und jedes Pool die gleichen ersten und zweiten Sonden mit Ausnahme eines Mismatches in einer einzelnen Base in der ersten oder zweiten Sonde oder in beiden wie ein entsprechender Pool der Mehrzahl der getrennten Bereiche aufweist, und das Verfahren ferner Schritte umfaßt, bei denen man die Bindung der entsprechenden Sonden-Pools der Mehrzahl und der zweiten Mehrzahl getrennter Bereiche vergleicht, wobei ein Unterschied in der Bindung zeigt, daß die bekannte mRNA, zu welcher die Sonden des Pools der Mehrzahl der getrennten Bereiche komplementär sind, in der Probe vorliegt.
Erfindungsgemäß werden weiterhin Verfahren zur Analyse einer Ziel-Nukleinsäure bereitgestellt. Derartige Verfahren bestehen darin, daß man eine Ziel-Nukleinsäure mit einem Array hybridisiert, der einen Träger mit mindestens drei getrennten Bereichen umfaßt, von denen ein erster Bereich einen Pool von Polynukleotidsonden trägt, der erste und zweite Sonden umfaßt, ein zweiter Bereich die erste Sonde, jedoch nicht die zweite Sonde trägt und ein dritter Bereich die zweite Sonde, jedoch nicht die erste Sonde trägt. Man vergleicht dann die Bindung der Ziel-Nukleinsäure an den ersten getrennten Bereich mit dem Aggregat, das sich aus der Bindung der Ziel-Nukleinsäure an die zweiten und dritten Bereiche bildet, um zu bestimmen, ob die Ziel-Nukleinsäure zu den ersten und zweiten Sonden komplementäre Abschnitte umfaßt.
KURZE BESCHREIBUNG DER FIGUREN
1. Synthese von Arrays mit gepaarten Sonden. Zunächst wird ein 1:1-Gemisch aus mit photolabilen Schutzgruppen und DMT-Schutzgruppen versehenen Linkern über die Gesamtoberfläche des Arrays erzeugt. Dies wird dadurch erreicht, daß man eine mit photolabilen MeNPOC-Linker geschützte Glasoberfläche mit UV-Licht von 365 nm bestrahlt, so daß die Hälfte der Stellen entschützt werden (T_1/2 = Halbwertszeit der MeNPOC-Gruppe). Die entschützten Stellen werden mit einem 5'-DMT-geschützten Nukleosid umgesetzt. Als nächstes wird die erste Sondensequenz an jedem Ort auf dem Array synthetisiert: Die restlichen MeNPOC-Stellen werden entschützt, und es erfolgt eine lichtgesteuerte Standard-Oligonukleotidsynthese an diesen Stellen. Nach Beendigung der Erstsondensynthese werden die 5'-Enden mit einem Cap versehen. Schließlich wird die zweite Sondensequenz synthetisiert. Um die zuvor durch den DMT-Schutz aufgesparten Stellen verfügbar zu machen, wird eine Säureentschützung verwendet. Nach der Zugabe eines mit einer photolabilen Schutzgruppe versehenen Linkers wird dann eine lichtgesteuerte Standard-Oligonukleotidsynthese durchgeführt, um die zweite Sondensequenz herzustellen.
2. Eine kooperative Hybridisierung unterscheidet zwischen physikalisch gekoppelten und nichtgekoppelten Zielsequenzen. Zwei. unterschiedliche Sondensequenzen (blau und rosa) werden an der gleichen Adresse auf dem Oligonukleotid-Array synthetisiert, wie in Material und Methoden beschrieben. Komplementäre Zielsequenzen (grün und violett) werden getrennt; zusammen, aber nicht gekoppelt; oder gekoppelt in einem einzigen Molekül hybridisiert. A) Individuelle Zielmoleküle hybridisieren weniger stark als gekoppelte Zielmoleküle, die kooperativ hybridisieren. Daher ist die Summe der Hybridisierungssignale von zwei individuellen Zielmolekülen geringer als das Signal von den gekoppelten Zielmolekülen. B) Die Summe der Hybridisierungssignale von jedem getrennt hybridisierten individuellen Zielmolekül sollte ähnlich wie das Signal von den beiden zusammen hybridisierten nichtgekoppelten Zielmolekülen ausfallen.
3. Konstruktion und Auslegung eines Arrays mit gepaarten Sonden. A) Sonde 1 wurde in vier 400 μm × 1600 μm großen Rechtecken synthetisiert, wobei die Mittelposition N₁ = A, C, G und T in den aufeinanderfolgenden Rechtecken war. B) Sonde 2 wurde in vier 400 μm × 1600 μm großen Rechtecken, die senkrecht zu den Rechtecken der Sonde 1 auf dem gleichen Bereich des Substrats standen, synthetisiert. Die Mittelposition der Sonde 2 war in den aufeinanderfolgenden Rechtecken N₂ = A, C, G und T. C) Das erhaltene Array enthielt 16 Stellen, jeweils mit einer unterschiedlichen Kombination von N₁ und N₂ in den beiden Sonden.
4A. Fluoreszenzabbildungen von kooperativer gegenüber nicht kooperativer Hybridisierung an Arrays mit gepaarten Sonden. Die Konstruktion des Arrays ist in 3 gezeigt. Dargestellt ist die eindeutige Hybridisierung an das Sondenpaar mit doppeltem perfektem Match für vier verschiedene gekoppelte Sequenzpaare (10g-27c, 10c-27t, 10c-27g und 10g-27t vom oberen Ende der linken Spalte). Die Hybridisierungsabbildungen der entsprechenden nicht gekoppelten Zielmoleküle sind in der danebenliegenden rechten Spalte gezeigt.
4B 50:50-Mischungen aus (10c-27t und 10g-27c) und (10g-27t und 10c-27c) sind in den beiden Tafeln der linken Spalte gezeigt. Obwohl es sich bei den Zielmolekülen der beiden Experimente um Moleküle mit identischer Sequenzzusammensetzung handelt, ist die Paarung verschieden. Dies wird eindeutig in dem Experiment, bei dem in jedem Fall die Bestimmung der Paarungen (Kopplungen) gestattet ist, nachgewiesen. Die untere Tafel in der rechten Spalte zeigt eine Hybridisierungsabbildung von (10c, 10g, 27c und 27t). Die Sequenzzusammensetzung ist identisch mit den beiden unteren Tafeln der linken Spalte. Jedoch sind in diesem Fall die individuellen Zielmoleküle nicht gekoppelt, und somit wird kein kooperativer Effekt beobachtet.
5. Kooperative Hybridisierung und Zuordnung der Kopplung zwischen SNPs, die durch 693, 1345 und 2038 Nukleotide getrennt sind. Die Zielmoleküle sind 50:50-Mischungen aus zwei 2,5 kb großen Amplifikaten, die sich in ihrer Sequenz an den Positionen 93, 1438 und 2131 unterscheiden. Die Arrays werden wie in 3 beschrieben synthetisiert, außer daß es sich bei den Sonden um 30-mere handelt, bei denen die variable Base 15 nt vom 3'-Ende entfernt liegt. A) Linke Tafel: Hintergrund-korrigierte Intensitäten von einem Array mit gepaarten Sonden, der die Positionen 1438 und 2131 in den 2,5 kb großen Amplifikaten abfragt. Die 50:50-Ziel-Mischung enthält 1438g-2131t und 1438a-2131c. Die Kopplungen lassen sich eindeutig aus den Hybridisierungsmustern zuordnen. Dabei ist die Sonde 1 auf dem Array komplementär zu den Positionen 1424-1448 und Sonde 2 ist komplementär zu den Positionen 2117-2141. Rechte Tafel: Diskriminierungsgraph der gleichen Hybridisierung. B) Abfrage der Positionen 93 und 1438. Die 50:50-Ziel-Mischung enthält 91t-1438t und 91c-1438c. Sonde 1 komplementiert die Positionen 79-103. Sonde 2 komplementiert die Positionen 1424-1448. C) Abfrage der Positionen 93 und 2131. Die 50:50-Ziel-Mischung enthält 91g-2131t und 91a-2131c. Sonde 1 komplementiert die Positionen 79-103. Sonde 2 komplementiert die Positionen 2117-2141.
6. Effekt der Paarung von sechs verschiedenen Ankersonden mit einem Resequenzierung-„Tiling"-Array. In jedem der sieben gezeigten Tilings laufen 86 Säulen aus überlappenden Sonden in Einzelbasenschritten durch einen Bereich menschlicher mitochondrialer DNA¹⁴. Jede Säule enthält vier 15-mer-Sonden mit einer Substitution des in der Mitte liegenden A, C, G oder T (jeweils rechts von jedem Tiling angegeben). Jede Säule aus 4 Sonden enthält daher eine exakt komplementäre Sonde ebenso wie 3 Sonden mit Einzelbasen-Mismatch zu der mitrochondrialen DNA-Zielsequenz. Die sieben Wiederholungen dieses aus 344 Einheiten bestehenden Arrays (86×4) sind wie folgt angeordnet: das oberste Tiling ist die ungepaarte Kontrolle (d.h. nur 15-mer-Sonden); die sechs nachfolgenden Tilings enthalten konstante 12-mer-Sonden, die zu den Positionen 1-12, 15-26, 29-40, 43-54, 57-68 bzw. 71-82 (in der Figur markiert) komplementär sind. Die Bereiche, wo die 12-mer-Ankersequenz die 15-mer-Abfragesondensequenz überlappt, sind in weiß umrahmt.
7. Vergleich der Signalintensitäten, die von einem zur Resequenzierung von 2,5 kb menschlicher mitochondrialer DNA konstruierten gepaarten und ungepaarten Array erhalten wurden. Ein 2,5 kb großes, mit Biotin markiertes ssDNA-Amplifikat wurde an gepaarte und ungepaarte Arrays aus 20-mer-Sonden zur Resequenzierung hybridisiert. Die Intensitäten von Sondenzellen mit perfektem Match aus zwei repräsentativen Teilen des Arrays sind gegen die Position in der Zielsequenz aufgetragen. Die 20-mer-Ankersequenz im gepaarten Array ist von den Positionen 1427-1446 abgeleitet. Das Signal und die Diskriminierung sind im gepaarten Array gegenüber dem ungepaarten Array beträchtlich erhöht.
DEFINITIONEN
Bei einer Nukleinsäure handelt es sich um ein Desoxyribonukleotid- oder Ribonukleotidpolymer, das entweder in Einzelstrang- oder Doppelstrangform vorliegt, einschließlich bekannter Analoge natürlicher Nukleotide, wenn nicht anders angegeben.
Bei einem Oligonukleotid handelt es sich um eine Einzelstrang-Nukleinsäure mit einem Längenbereich von 2 bis etwa 500 Basen. Ein Oligonukleotid kann synthetisiert oder natürlich vorliegen.
Bei einer Sonde handelt es sich um ein Oligonukleotid, das zur Bindung an eine Ziel-Nukleinsäure mit komplementärer Sequenz über eine oder mehrere Arten von chemischen Bindungen, üblicherweise über komplementäre Basenpaarung, normalerweise über die Ausbildung von Wasserstoffbrücken, fähig ist. Eine Oligonukleotidsonde kann natürliche (d.h. A, G, C oder T) oder modifizierte Basen (z.B. 7-Deazaguanosin, Inosin) enthalten. Darüber hinaus können die Basen in einer Oligonukleotidsonde durch eine von einer Phosphodiesterbindung verschiedenen Kopplung miteinander verbunden sein, solange dadurch die Hybridisierung nicht gestört wird. Somit kann es sich bei Oligonukleotidsonden um Peptidnukleinsäuren handeln, bei denen die Basenbestandteile durch Peptidbindungen anstelle von Phosphodiesterkopplungen verbunden sind. Die Sonden sind typischerweise etwa 10-50 Basen lang und bestehen häufig aus 15-20 Basen. Die Länge von Sonden, die als Bestandteile von Pools für die Hybridisierung an weit entfernten Abschnitten einer Zielsequenz verwendet werden, nimmt häufig mit zunehmendem Abstand der Abschnitte voneinander zu, wodurch die Durchführung einer Hybridisierung unter höherer Stringenz gestattet ist, um so die Diskriminierung zwischen Sonden-Pools mit Match bzw. Mismatch zu erhöhen.
Spezifische Hybridisierung bezieht sich auf die Bindung, Duplexbildung oder Hybridisierung eines Moleküls an lediglich eine bestimmte Nukleotidsequenz unter stringenten Bedingungen, wenn diese Sequenz in einer komplexen Mischung (z.B. zelluläre Gesamt-DNA oder -RNA) vorhanden ist. Bei stringenten Bedingungen handelt es sich um Bedingungen, unter denen eine Sonde an ihre Ziel-Teilsequenz, jedoch an keine weiteren Sequenzen hybridisiert. Stringente Bedingungen sind sequenzabhängig und sind unterschiedlich in unterschiedlichen Umständen. Längere Sequenzen hybridisieren spezifisch bei höheren Temperaturen. Im allgemeinen werden stringente Bedingungen so gewählt, daß sie etwa 5°C unterhalb des thermischen Schmelzpunkts (Tm) für die spezifische Sequenz bei einer definierten Ionenstärke und einem definierten pH-Wert liegen. Bei Tm handelt es sich um die Temperatur (unter definierter Ionenstärke, definiertem pH-Wert und definierter Nukleinsäurekonzentration), bei der 50% der Sonden, die komplementär zur Zielsequenz sind, im Gleichgewichtszustand an die Zielsequenz hybridisieren. (Da die Zielsequenzen im allgemeinen im Überschuß vorliegen, sind bei Tm 50% der Sonden im Gleichgewichtszustand besetzt). Typischerweise umfassen stringente Bedingungen eine Salzkonzentration von mindestens etwa 0,01 bis 1,0 M Natriumionenkonzentration (oder anderer Salze) bei pH 7,0 bis 8,3, wobei die Temperatur mindestens etwa 30°C für kurze Sonden (z.B. 10 bis 50 Nukleotide) beträgt. Stringente Bedingungen lassen sich auch durch Zugabe destabilisierender Agentien, wie z.B. Formamid oder Tetraalkylammoniumsalzen, erzielen. So sind beispielsweise Bedingungen von 5× SSPE (750 mM NaCl, 50 mM Natriumphosphat, 5 mM EDTA, pH 7,4) und eine Temperatur von 25-30°C für allelspezifische Sondenhybridisierungen geeignet.
Eine Sonde mit perfektem Match weist eine Sequenz auf, die zu einer bestimmten Zielsequenz vollkommen komplementär ist. Eine solche Sonde ist typischerweise zu einem Teil (einer Teilsequenz) der Zielsequenz vollkommen komplementär. Der Ausdruck „Mismatch-Sonde" bezieht sich auf Sonden, deren Sequenz absichtlich so ausgewählt wird, daß sie nicht vollkommen komplementär zu einer bestimmten Zielsequenz ist. Obwohl die Mismatch-Positionen) überall in der Mismatch-Sonde lokalisiert sein kann oder können, sind terminale Mismatch-Positionen weniger erwünscht, da ein terminaler Mismatch weniger wahrscheinlich die Hybridisierung der Zielsequenz verhindern kann. Somit werden Sonden häufig so konstruiert, daß der Mismatch in oder nahe der Mitte der Sonde lokalisiert ist, so daß eine sehr große Wahrscheinlichkeit besteht, daß der Mismatch den Duplex mit der Zielsequenz unter den Testhybridisierungsbedingungen destabilisiert.
Bei einem polymorphen Marker oder Ort handelt es sich um den Locus, an dem eine Divergens auftritt. Bevorzugte Marker weisen mindestens zwei Allele auf, die jeweils mit einer Häufigkeit von mehr als 1% und besonders bevorzugt mehr als 10% oder 20% in einer ausgewählten Population vorkommen. Dabei kann der kleinste polymorphe Locus aus einem Basenpaar bestehen. Zu den polymorphen Markern gehören Restriktionsfragmentlängen-Polymorphismen, eine variable Anzahl von Tandem-Wiederholungssequenzen (Variable Number of Tandem Repeats, VNRTRs), hypervariable Bereiche, Minisatelliten, Dinukleotid-Wiederholungen, Trinukleotid-Wiederholungen, Tetranukleotid-Wiederholungen, einfache Sequenzwiederholungen sowie Insertionselemente wie z.B. Alu. Die zuerst identifizierte Allelform wird willkürlich als die Referenzform bezeichnet, wobei die weiteren Allelformen als alternative oder variante Allele bezeichnet werden. Die in einer ausgewählten Population am häufigsten vorkommende Allelform wird manchmal auch als die Wildtypform bezeichnet. Diploide Organismen können homozygot oder heterozygot für Allelformen sein. Ein Diallel-Polymorphismus weist zwei Formen auf. Ein Triallel-Polymorphismus weist drei Formen auf.
Ein Einzelnukleotid-Polymorphismus (Single Nucleotide Polymorphism, SNP) tritt an einem von einem einzelnen Nukleotid besetzten polymorphen Ort auf, bei dem es sich um den Ort der Abweichung zwischen Allelsequenzen handelt. Vor bzw. hinter diesem Ort liegen gewöhnlicherweise hochkonservierte Sequenzen des Allels (z.B. Sequenzen, die in weniger als 1/100 oder 1/1000 der Mitglieder der Populationen variieren).
Ein Einzelnukleotid-Polymorphismus entsteht üblicherweise durch die Substitution eines Nukleotids mit einem anderen am polymorphen Ort. Eine Transition ist der Austausch eines Purins gegen ein anderes Purin oder eines Pyrimidins gegen ein anderes Pyrimidin. Eine Transversion ist der Austausch eines Purins gegen ein Pyrimidin oder umgekehrt. Einzelnukleotid-Polymorphismen können auch durch eine Deletion oder eine Insertion eines Nukleotids bezogen auf ein Referenzallel entstehen.
Eine Pool-Sondenmischung ist eine Mischung aus zwei oder mehreren Sonden, die eine einzige getrennte Zelle eines Arrays besetzen. Obwohl die Identität jeder Sonde in der Mischung bekannt ist, sind die individuellen Sonden im Pool nicht getrennt adressierbar. Somit handelt es sich bei dem Hybridisierungssignal von einer Zelle, die eine Pool-Sondenmischung trägt, um das Aggregat der Signale der die Zelle besetzenden unterschiedlichen Sonden.
Wenn man sagt, eine Zelle sei von einer ersten, jedoch nicht einer zweiten Sonde besetzt, so kommt die zweite Sonde typischerweise überhaupt nicht in der Zelle vor, obwohl Spurenmengen der zweiten Sonde (z.B. weniger als 10% der Moleküle bezogen auf die erste Sonde) manchmal toleriert werden können.
Kopplungsungleichgewicht oder Allelassoziierung bedeutet die bevorzugte Assoziierung eines bestimmten Allels oder genetischen Markers mit einem spezifischen Allel oder genetischen Marker an einem in der Nähe befindlichen chromosomalen Ort mit einer höheren Häufigkeit, als zufallsmäßig für eine bestimmte Allelhäufigkeit in der Population zu erwarten ist. Weist beispielsweise der Locus X die Allele a und b auf, die gleich häufig auftreten, und weist der gekoppelte Locus Y die Allele c und d auf, die gleich häufig auftreten, so will man erwarten, daß die Kombination ac mit einer Frequenz von 0,25 auftritt. Tritt ac häufiger auf, dann befinden sich die Allele a und c in einem Kopplungsungleichgewicht. Ein Kopplungsungleichgewicht kann durch die natürliche Auswahl einer gewissen Allelkombination entstehen oder dadurch, daß ein Allel in eine Population vor so kurzer Zeit eingeführt wurde, daß es noch nicht im Gleichgewicht mit gekoppelten Allelen steht.
Ein Marker in einem Kopplungsungleichgewicht kann insbesondere beim Nachweis der Anfälligkeit für eine Krankheit (oder eines anderen Phänotyps) geeignet sein, trotz der Tatsache, daß der Marker nicht die Ursache für die Krankheit ist. So kann beispielsweise ein Marker (X), der selbst nicht ein verursachendes Element einer Krankheit ist, doch der im Kopplungsungleichgewicht mit einem Gen (einschließlich regulatorischer Sequenzen) (Y), bei dem es sich um ein verursachendes Element eines Phänotyps handelt, steht, als Nachweis verwendet werden, um die Anfälligkeit gegenüber der Krankheit unter solchen Umständen anzuzeigen, unter denen das Gen Y noch nicht identifiziert wurde oder nicht leicht nachweisbar ist.
AUSFÜHRLICHE BESCHREIBUNG
1. Allgemeines
Die Erfindung beruht teilweise auf dem Ergebnis, daß zwei unterschiedliche Sonden in einer vereinigten Mischung von Sonden gleichzeitig an unterschiedliche Abschnitte desselben Zielmoleküls in einer kooperativen Weise hybridisieren können. Folglich ist die Bindung eines Zielmoleküls an einen Pool von zwei gemischten Sonden größer als die Summe der Bindung des Zielmoleküls an dieselben, in individuellen Zellen in einem Array getrennt vorliegenden zwei Sonden. In der letzteren Anordnung kann jede der beiden Sonden an ihren jeweiligen komplementären Abschnitt in einer Zielsequenz binden, doch können die beiden Sonden nicht gleichzeitig an dasselbe Zielmolekül binden. Die beobachtete kooperative Bindung vereinigter Sonden läßt sich in mehreren Analyseverfahren einsetzen, die zwischen einem einzigen Zielmolekül, das zwei ausgewählte Abschnitte enthält, und zwei Zielmolekülen, die jeweils einen der ausgewählten Abschnitte enthalten, unterscheiden. Zu den Anwendungen gehören die Erhöhung der Spezifität der Hybridisierung beim Mutationsnachweis und in Genexpressionsüberwachungsanwendungen, die Bestimmung von SNP-Haplotypen, die Charakterisierung repetitiver Sequenzen, wie z.B. kurzer Tandem-Wiederholungssequenzen, sowie die Unterstützung der Contig-Konstruktion bei der Sequenzierung mittels Hybridisierung (Sequencing by Hybridization, SBH).
In einer einfachen Veranschaulichung solcher Verfahren wird ein Sonden-Array mit drei Zellen konstruiert. Eine Zelle enthält eine vereinigte Mischung aus ersten und zweiten Sonden, die jeweils komplementär zu ersten und zweiten ausgewählten Abschnitten in potentiellen Zielmolekülen sind. Eine zweite Zelle in dem Array enthält die erste, jedoch nicht die zweite Sonde, und eine dritte Zelle die zweite, jedoch nicht die erste Sonde.
Zunächst hybridisiert man das Array mit einer äquimolaren Kontrollmischung aus ersten und zweiten Zielmolekülen, die den ersten bzw. den zweiten Zielabschnitt (jedoch nicht beide) enthalten. Die Zielsequenzen sind typischerweise markiert. Die Bindung des Zielmoleküls an unterschiedliche Zellen im Array kann somit durch Scanning der Markierung bestimmt werden. Die Bindung wird für jede der drei Zellen getrennt bestimmt und ein Verhältnis für die Bindung an die erste Zelle (vereinigte Sonden) zur Summe der Bindung an die zweite und dritte Zelle berechnet. Unter idealisierten Umständen könnte man erwarten, daß das Bindungsverhältnis gleich Eins sein sollte, da eine kooperative Bindung vereinigter Sonden an getrennte Zielmoleküle nicht möglich ist. In der Praxis weist jedoch das Bindungsverhältnis aufgrund von Faktoren, wie z.B. Unterschiede bei der Sondenablagerung zwischen den Zellen und sterisches Gedränge der Sonden in den vereinigten Zellen, häufig von Eins ab. Somit läßt sich ein Normalisierungsfaktor berechnen, um das beobachtete Bindungsverhältnis auf einen Einheitswert umzurechnen.
Das Array wird danach mit einer unbekannten Zielprobe hybridisiert, bei der es sich entweder um ein einzelnes Zielmolekül, das sowohl den ersten als auch den zweiten Abschnitt enthält, oder um zwei getrennte Moleküle, von denen das erste nur den ersten Abschnitt und das zweite nur den zweiten Abschnitt enthält, handeln kann. Wiederum wird das Verhältnis der Bindung des Zielmoleküls an die erste Zelle relativ zur kombinierten Bindung an die zweite und dritte Zelle bestimmt. Gegebenenfalls wird der Normalisierungsfaktor angewendet. Ein (gegebenenfalls normalisiertes) Bindungsverhältnis von größer als der Einheitswert deutet darauf hin, daß die Probe ein Einzelmolekül, das sowohl den ersten als auch den zweiten ausgewählten Abschnitt enthält, beinhaltet. Typischerweise ergibt ein Einzelmolekül, das sowohl den ersten als auch den zweiten Abschnitt enthält, ein normalisiertes Verhältnis, das mindestens zweimal so hoch ist wie das einer Mischung aus getrennten Molekülen, die jeweils einen der Abschnitte enthalten.
Bei einigen Verfahren enthalten mehrere Zellen im Array unterschiedliche vereinigte Mischungen von Sonden. Solche Anordnungen sind besonders zur Analyse von Zielmolekülen geeignet, die mehrere Kombinationen von Abschnitten aufweisen können. Beispielsweise kann eine Ziel-Nukleinsäure mit zwei polymorphen Orten, die jeweils zwei polymorphe Formen (A/a und B/b) besitzen, vier Kombinationen polymorpher Formen, AB, aB, ab und Ab) aufweisen. Zur Analyse einer solchen Zielsequenz wird ein Array mit vier Zellen konstruiert, die jeweils einen unterschiedlichen Pool aus zwei gemischten Sonden enthalten. Die beiden Sonden in jedem Pool werden so konstruiert, daß sie zu einer der Kombinationen von polymorphen Formen (d.h. A'B', a'B', a'b' und A'b', wobei die Striche komplementäre Sequenzen andeuten) komplementär sind. Wird ein derartiges Array mit einer Zielprobe hybridisiert, die eine einzelne Ziel-Nukleinsäure enthält, so zeigt der Sonden-Pool mit beiden mit der Ziel-Nukleinsäure übereinstimmenden Sondenkomponenten die höchste Bindung, die beiden Sonden-Pools, in denen die eine, jedoch nicht die andere Sonde mit der Ziel-Nukleinsäure übereinstimmt, zeigen eine mittlere Bindung, und der Sonden-Pool, in dem keine Sonde mit dem Zielmolekül übereinstimmt, zeigt die niedrigste Bindung.
Wird ein solches Array mit einer Mischung aus zwei Zielmolekülen, die unterschiedliche Kombinationen polymorpher Formen an den beiden Orten enthalten, wie etwa in einer Probe aus einem diploiden Organismus, hybridisiert, so erhält man anderes Muster. In dieser Situation stimmen in zwei Sonden-Pools beide Sondenkomponenten mit demselben Zielmolekül überein, wobei sich das höchste Bindungssignal ergibt. In den beiden anderen Pools kann nur eine Sondenkomponente mit einem Zielabschnitt übereinstimmen oder beide Sondenkomponenten können mit Abschnitten auf anderen Molekülen der Zielsequenz übereinstimmen. In der letzteren Situation stimmen die beiden Sondenkomponenten in jedem Pool mit unterschiedlichen Molekülen der Zielsequenz überein, und kooperative Bindung ist nicht möglich. Somit ist die Bindung vereinigter Sonden, die nicht mit einem einzelnen Zielmolekül übereinstimmen, niedriger als die für die beiden Sonden-Pools, in denen beide Sonden mit demselben Zielmolekül übereinstimmen. Die beobachtete relative Bindung der vier Sonden dient somit dazu, einen Hinweis darauf zu liefern, welche der Kombination(en) von polymorphen Formen in einer Zielprobe vorhanden sind.
2. Zielsequenzen
Bei einer Zielsequenz handelt es sich entweder um eine bekannte Sequenz oder um eine Variante einer bekannten oder teilweise bekannten Referenzsequenz. Eine Zielsequenz codiert häufig ein Gen oder den Teil eines Gens. Die Zielsequenz enthält häufig einen oder mehrere bekannte polymorphe Orte. Die Funktion der Zielsequenz kann bekannt sein oder nicht. Zu den ausgewählten Zielsequenzen gehören menschliche Gene, die mit einer Erbkrankheit in Zusammenhang stehen. Zu solchen Genen gehören beispielsweise BRCA-1, BRCA-2, p53, N-, C- und K-ras, Cytochrome P450, CFTR, HLA der Klassen I und II sowie β-Globin.
Die Ziel-Nukleinsäure kann genomisch oder kann RNA oder cDNA sein. Genomische DNA-Proben werden üblicherweise vor dem Auftragen auf ein Array einer Amplifikation unterzogen, wobei den ausgewählten Bereich flankierende Primer verwendet werden. Genomische DNA läßt sich praktisch aus allen Gewebequellen gewinnen (außer aus reinen roten Blutzellen). Zu den geeigneten Gewebsproben gehören beispielsweise Vollblut, Samen, Speichel, Tränen, Urin, Faecesmaterial, Schweiß, Buccalgewebe, Haut und Haare. Die Amplifikation von genomischer DNA, die einen polymorphen Ort enthält, erzeugt eine einzige Spezies einer Ziel-Nukleinsäure, falls das Individuum, dem die Probe entnommen wurde, an dem polymorphen Ort homozygot ist, oder zwei Spezies von Zielmolekülen, falls das Individuum heterozygot ist.
RNA-Proben werden ebenfalls häufig einer Amplifikation unterzogen. In diesem Fall geht der Amplifikation typischerweise eine Reverse Transkription voraus. Eine Amplifikation der gesamten exprimierten mRNA läßt sich wie in den gemeinsam gehaltenen Patenten WO 96/14839 und WO 97/01603 beschrieben durchführen. Durch Amplifikation einer RNA-Probe aus einer diploiden Probe lassen sich zwei Zielmolekülspezies erzeugen, falls das Individuum, dem die Probe entnommen wurde, an einem polymorphen Ort, der innerhalb der exprimierten RNA vorkommt, heterozygot ist.
Das PCR-Amplifikationsverfahren ist in PCR Technology: Principles and Applications for DNA Amplification (Hrsg. H.A. Erlich, Freeman Press, NY, NY, 1992); PCR Protocols: A Guide to Methods and Applications (Hrsg. Innis et al., Academic Press, San Diego, CA, 1990); Mattila et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods and Applications 1, 17 (1991); PCR (Hrsg. McPherson et al., IRL Press, Oxford); und US-Patent 4,683,202 beschrieben (jeweils für alle Zwecke durch Bezugnahme aufgenommen). Nukleinsäuren in einer Zielprobe werden üblicherweise im Verlauf der Amplifikation markiert, indem man ein oder mehrere markierte Nukleotide im Amplifikationsgemisch einschließt. Markierungen können ebenso nach der Amplifikation, beispielsweise durch Endmarkierung, an die Amplifikationsprodukte gebunden werden. Je nach dem Enzym und den Substraten, die bei der Amplifikationsreaktion verwendet wurden, kann es sich bei dem Amplifikationsprodukt um RNA oder DNA handeln.
Zu weiteren geeigneten Amplifikationsverfahren gehören die Ligasekettenreaktion (Ligase Chain Reaktion, LCR) (siehe Wu und Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988), die Transkriptionsamplifikation (Kwoh et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989)), sowie die sich selbsterhaltende Sequenzreplikation (Guatelli et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990)) und die Sequenzamplifikation auf Nukleinsäurebasis (Nucleic Acid Based Sequence Amplification, NASBA). Die beiden letzteren Amplifikationsverfahren beinhalten isotherme Reaktionen, die auf isothermer Transkription beruhen und die sowohl Einzelstrang-RNA (ssRNA) und Doppelstrang-DNA (dsDNA) als Amplifikationsprodukte in einem Verhältnis von etwa 30:1 bzw. 100:1 produzieren.
Im Verlauf der Amplifikation oder nach der Amplifikation lassen sich verschiedene Markierungen in Ziel-Nukleinsäuren einbauen. Zu den geeigneten Markierungen gehören Fluoreszein oder Biotin, wobei letzteres durch Anfärben mit Phycoerythrin-Streptavidin nach der Hybridisierung nachgewiesen wird. Bei einigen Verfahren wird die Hybridisierung von Ziel-Nukleinsäuren mit Kontroll-Nukleinsäuren verglichen. Gegebenenfalls lassen sich solche Hybridisierungen gleichzeitig durchführen, wobei für die Ziel- und Kontrollproben unterschiedliche Markierungen verwendet werden. Falls gewünscht, können die Kontroll- und Zielproben vor der Hybridisierung verdünnt werden, um Fluoreszenzintensitäten abzugleichen.
3. Träger
Träger lassen sich aus verschiedenen Materialien herstellen, z.B. Glas, Siliciumdioxid, Kunststoff, Nylon oder Nitrocellulose. Die Träger sind vorzugsweise steif und besitzen eine ebene Oberfläche. Die Träger weisen typischerweise 1-10 000 000 getrennte räumlich adressierbare Bereiche, oder Zellen, auf. Träger mit 10-1 000 000 oder 100-100 000 oder 1000-100 000 Zellen sind üblich. Die Dichte der Zellen beträgt typischerweise mindestens 1000, 10 000, 100 000 oder 1 000 000 Zellen in einem Quadratzentimeter. Bei einigen Trägern sind alle Zellen von vereinigten Mischungen von Sonden besetzt. Bei anderen Trägern sind einige Zellen von vereinigten Mischungen von Sonden besetzt, wobei andere Zellen zumindest bis zum Reinheitsgrad, der durch Syntheseverfahren erreichbar ist, von einer einzigen Oligonukleotidart besetzt sind.
Die in der vorliegenden Anmeldung beschriebenen Strategien für die Sondenkonstruktion lassen sich mit anderen Strategien, wie z.B. den in WO 95/11995, EP 717,113 und WO 97/29212 beschriebenen, im gleichen Array kombinieren.
Typischerweise liegen die Sondenkomponenten eines Pools darin in einem äquimolaren Verhältnis vor. In einigen Arrays enthalten jedoch einige Pools mehr von einer Sonde als andere. So läßt sich beispielsweise ein Array konstruieren, bei dem ein Bereich einen äquimolaren Bereich aus ersten und zweiten Sonden aufweist, ein zweiter Bereich enthält die erste Sonde und zweite Sonde, wobei die erste Sonde im Überschuß vorhanden ist, und ein dritter Bereich enthält die erste und zweite Sonde, wobei die zweiten Sonden im Überschuß vorhanden sind. Im allgemeinen zeigt ein Zielmolekül, daß zu den ersten und zweiten Sonden komplementäre erste und zweite Abschnitte trägt, eine stärkere normalisierte Bindung an den ersten Bereich als das Aggregat der Bindung an den zweiten und den dritten Bereich. Einige Arrays enthalten ebenso Bereiche, die von Einzelsonden besetzt sind. In solchen Bereichen ist die Einzelsonde weitgehend rein (d.h. mindestens 90%, 95%, 99% oder 99,9% oder 100% rein auf molarer Basis), mit Ausnahme von Zwischenprodukten einer unvollständigen Synthese.
4. Synthese der Sonden-Arrays
Arrays von Sonden können Schritt für Schritt auf einem Träger synthetisiert oder in vorsynthetisierter Form gebunden werden. Ein bevorzugtes Syntheseverfahren ist VLSIPS^TM (siehe Fodor et al., 1991, Fodor et al., 1993, Nature 364, 555-556; McGall et al., USSN 08/445,332; US 5,143,854 ; EP 476,014 ), die in der Verwendung von Licht zur Steuerung der Synthese von Oligonukleotidsonden in miniaturisierten Arrays mit hoher Dichte besteht. Algorithmen zur Konstruktion von Masken zur Reduzierung der Anzahl von Synthesezyklen sind in Hubbel et al., US 5,571,639 und US 5,593,839 beschrieben. Arrays lassen sich auch in kombinatorischer Weise synthetisieren, indem Zellen eines Trägers mittels mechanisch beschränkter Strömungswege Monomere zugeführt werden. Siehe Winkler et al., EP 624,059 . Arrays lassen sich ebenso durch punktförmiges Auftragen von Monomerreagentien auf einen Träger unter Verwendung eines Tintenstrahldruckers synthetisieren. Siehe id.; Pease et al., EP 728,520 .
Der grundlegende VLSIPS^TM-Ansatz läßt sich leicht anpassen, um vereinigte Mischungen von Sonden zu synthetisieren. Die Sondenkomponenten eines Pools werden in Reihe synthetisiert. Die Synthese eines Sonden-Pools beginnt mit einem Substrat, das mit einer photolabilen Schutzgruppe bedeckt ist. Die Gruppe wird teilweise entfernt, indem das Substrat in eingeschränkter Weise Licht ausgesetzt wird. Die entschützten Stellen werden einem Capping mit einer Schutzgruppe unterzogen, die nicht lichtempfindlich ist, aber mit anderen Mitteln entfernt werden kann, wie z.B. einem chemischen Lösungsmittel. Die restlichen Stellen werden dann mehr Licht ausgesetzt, wobei die restlichen photolabilen Schutzgruppen entfernt werden. Die Synthese schreitet auf den exponierten Stellen Schritt für Schritt fort, bis erste Mitglieder des Sonden-Pools synthetisiert werden. Die nicht lichtempfindlichen Capping-Gruppen werden danach entfernt. Unter Verwendung dieser Stellen als Anker wird die Synthese dann Schritt für Schritt fortgesetzt, bis zweite Mitglieder des Sonden-Pools gebildet werden. Nach der Hybridisierung von Kontroll- und Zielproben an ein Array, das einen oder mehrere Sondensätze, wie oben beschrieben, enthält, und einem optionalen Waschschritt zur Entfernung von nichtgebundener und unspezifisch gebundener Sonde bestimmt man die Hybridisierungsintensität für die jeweiligen Proben für jede Sonde im Array. Für Fluoreszenzmarkierungen läßt sich die Hybridisierungsintensität beispielsweise mit einem konfokalen Scanning-Mikroskop im Photonenzählmodus bestimmen. Geeignete Scanning-Vorrichtungen sind z.B. in Trulson et al., US 5,578,832 ; Stern et al., US 5,631,734 beschrieben und von Affymetrix, Inc. unter dem Namen GeneChip^TM erhältlich. Einige Markierungsarten liefern ein Signal, das mit enzymatischen Verfahren amplifiziert werden kann (siehe By Making Use of Enzymatic Methods of Mismatch Discrimination¹³).
5. Verwendungsverfahren
a. Kopplungsanalyse
Das Gruppieren und Ordnen genomischer DNA-Marker wird zur Herstellung physikalischer und genetischer Karten sowie zur Festlegung der Beziehung zwischen Genotyp und Phänotyp verwendet. Marker in enger Nachbarschaft auf demselben DNA-Molekül neigen dazu, gemeinsam vererbt zu werden, da die Wahrscheinlichkeit eines Rekombinationsereignisses zwischen zwei Markern mit geringerwerdendem Abstand zueinander abnimmt. Die quantitative Messung dieses Phänomens sowie seine Anwendung bei der genetischen Analyse wurde von Sturtevant 1913 erstmals durchgeführt ¹. Seither wurden viele verschiedene genetische und molekulare Kationstechniken entwickelt und zum Aufbau genomischer Karten, die sowohl auf genetischen als auch physikalischen DNA-Markern beruhen, verwendet. Eine auf Rekombination beruhende Kartierung wurde um molekulare Techniken, wie z.B. der Strahlungshybridkartierung ², und Verfahren, die auf Einzelchromosom-Kopieanalyse ³, ⁴, ⁵ oder einem allelspezifischen Nachweis ⁶, ⁷ beruhen, ergänzt. Zu weiteren Verfahren zur Feststellung einer Kopplung zählen die direkte Sichtbarmachung von Markern, beispielsweise unter Verwendung der Elektronenmikroskopie und in-situ-Fluoreszenzhybridisierung (Fluorescence in situ Hybridization, FISH) ⁸, ⁹.
Bei den vorliegenden Verfahren wird die Kopplung unter Verwendung von Arrays, die von Sonden-Pools besetzte Zellen enthalten, bestimmt. Die Ziele für eine Kopplungsanalyse sind typischerweise bekannte Sequenzen, die mindestens zwei polymorphe Orte enthalten. Die Zielsequenzen können gegebenenfalls bereits auf eine Funktion hin charakterisiert worden sein. Die polymorphen Orte liegen typischerweise 10-100 000, 50-10 000 oder 100-5000 Basen auseinander. Wie oben angedeutet enthält ein Array zur Analyse einer derartigen Zielsequenz Mischungen von vereinigten Sonden, die unterschiedlichen Kombinationen polymorpher Formen am Ziel entsprechen. Enthält ein Zielmolekül zwei polymorphe Orte, so handelt es sich bei einer Sonde in einem Pool typischerweise um eine allelspezifische Sonde, die mit einem der Orte überlappt und zu einer der polymorphen Formen an diesem Ort komplementär ist. Bei der anderen Sonde im gleichen Pool handelt es sich typischerweise um eine allelspezifische Sonde, die mit dem anderen polymorphen Ort in der Zielsequenz überlappt und zu einer polymorphen Form an diesem Allel komplementär ist. Enthält eine Zielsequenz zwei polymorphe Orte und sind zwei polymorphe Formen an jedem Ort vorhanden, so gibt es vier mögliche Kombinationen polymorpher Formen und vier Pools oder Sonden werden benötigt.
Enthält eine Zielsequenz zwei polymorphe Orte und gibt es drei polymorphe Formen an jedem Ort, dann gibt es neun Kombinationen polymorpher Formen, und neun Pools von Sonden werden benötigt. Enthält eine Zielsequenz drei oder mehr polymorphe Orte, so kann man die Kopplung zwischen allen drei Orten gleichzeitig unter Verwendung vereinigter Mischungen von Sonden bestimmen, wobei jeder Pool drei Sonden enthält. Besitzen alle drei polymorphe Orte jeweils zwei polymorphe Formen, so gibt es 2 × 2 × 2 Kombinationen polymorpher Formen, und acht Pools von jeweils drei Sonden werden benötigt. Die Hybridisierungsmuster dieser komplexeren Arrays werden in ähnlicher Weise interpretiert wie oben für einzelne polymorphe Orte mit zwei Formen diskutiert. In dem allgemeinen Fall, wenn ein solches Array an ein homozygotes Zielmolekül hybridisiert wird, weist eine einzige vereinigte Sondenmischung eine Kombination von Sonden auf, die mit dem Zielmolekül übereinstimmen, und zeigt die stärkste Bindung an das Zielmolekül. Wird das Array mit zwei heterozygoten Zielmolekülen hybridisiert, so zeigen zwei vereinigte Sondenmischungen mit Sondenkomponenten, die mit Zielabschnitten im selben Molekül übereinstimmen, die stärkste Bindung. Andere vereinigte Sondenmischungen zeigen unterschiedliche Grade geringerer Bindung, je nachdem, wieviele Sondenkomponenten, falls überhaupt, mit einem Abschnitt eines der Zielmoleküle übereinstimmen.
Zusätzlich zu Sonden-Pools enthalten Arrays für die Kopplungsanalyse manchmal zusätzliche Zellen, die mit Einzelspezies von Sonden besetzt sind. Diese Sonden besitzen die gleiche Zusammensetzung wie die Sonden, die in den vereinigten Mischungen enthalten sind, und dienen als Kontrolle zur Beurteilung der kooperativen Bindung von Zielmolekülen an vereinigte Mischungen. Falls alle Sonden in einem Pool zu Abschnitten auf einem einzigen Zielmolekül komplementär sind, so sollten Zellen, die von individuellen Sonden aus dem Pool besetzt sind, eine spezifische Bindung an das Zielmolekül zeigen, doch sollte das Aggregat der spezifischen Bindung (gegebenenfalls normalisiert, um, neben weiteren Faktoren, Unterschieden in der Sondenablagerung gerecht zu werden) geringer sein, als die Bindung an die vereinigte Sondenposition. Sind im Gegensatz dazu alle Sonden in einem Pool zu einem Abschnitt eines Zielmoleküls komplementär, ist jedoch die unterschiedliche Sonde zu Abschnitten in unterschiedlichen Zielmolekülen komplementär, so ist die Bindung des Zielmoleküls an einen Pool von übereinstimmenden Sonden größer als das Aggregat der Bindung des Zielmoleküls an Zellen individueller Sonden (nach entsprechender Normalisierung). Die relative Bindung eines Zielmoleküls an einen Sonden-Pool gegenüber dem Aggregat der Bindung an die Sondenkomponenten eines Pools dient daher dazu, eine Bestätigung von Ziel-Zuordnungen zu liefern, die auf Vergleichen der relativen Bindung des Zielmoleküls an unterschiedliche Pools von Sonden beruhen.
Eine zusätzliche Bestätigung von Ziel-Zuordnungen läßt sich dadurch erhalten, daß man die Bindung intakter Zielmoleküle, die zwei oder mehr Abschnitte, die mit einem Pool von Sonden übereinstimmen, enthalten, mit Kontrollsubstraten, die nur einen der Abschnitte enthalten, vergleicht. Die Ziel- und Kontrollsubstrate sind gegebenenfalls unterschiedlich markiert, um die gleichzeitige Auftragung auf ein Array zu gestatten. Das Zielmolekül und die Kontrollen werden ebenso gegebenenfalls verdünnt, um die Intensitäten der Markierungen vor dem Auftrag auf das Array abzugleichen. Ein intaktes Zielmolekül zeigt eine stärkere Bindung an eine vereinigte Mischung von Sonden, die mit Abschnitten des Zielmoleküls übereinstimmen, als die Mischung von Kontrollsubstraten (nötigenfalls mit Normalisierung, um durch unterschiedliche Mengen von Zielmolekül verursachte Effekte zu eliminieren). Das intakte Zielmolekül und die Mischung von Kontrollsubstraten binden in ungefähr demselben Ausmaß an Arrays, die von individuellen Sonden aus der vereinigten Mischung besetzt sind. Das Muster der relativen Bindung des Zielmoleküls und der Kontrollen an Sonden-Pools und an individuelle Sondenkomponenten der Pools kann somit eine weitere Bestätigung dafür liefern, daß eine Kopplung in einem Zielmolekül korrekt zugeordnet wurde.
Die Prinzipien, die zur Analyse der Kopplung in einer einzigen Zielsequenz angewendet wurden, lassen sich auf die Konstruktion eines Arrays ausdehnen, mit dem die Kopplung in einer beliebigen Anzahl von Zielsequenzen, einschließlich gewünschtenfalls aller oder weitgehend aller Sequenzen im menschlichen Genom, analysiert werden kann. Ein solches Array enthält eine Gruppe aus mehreren Zellen, die von einem Sonden-Pool besetzt sind, gegebenenfalls mit zusätzlichen Zellen, die von Einzelsonden besetzt sind, für jede Zielsequenz. Jede Gruppe von Zellen wird dann unabhängig in der oben beschriebenen Weise analysiert.
b. Verwendung von Sonden-Pools zur Expressionsüberwachung
Allgemeine Verfahren zur Verwendung von Sonden-Arrays zur Überwachung der Expression von mRNA-Populationen sind in PCT/US96/143839 und WO 97/17317 beschrieben. Bei solchen Verfahren werden Gruppen von Sonden eingesetzt, die zu ausgewählten mRNA-Zielsequenzen komplementär sind. Eine mRNA-Population oder ein Amplifikationsprodukt davon wird auf ein solches Array aufgetragen, und ausgewählte Zielmoleküle werden identifiziert und gegebenenfalls anhand des Ausmaßes spezifischer Bindung an komplementäre Sonden quantifiziert. Gegebenenfalls kann die Bindung des Zielmoleküls an Sonden, von denen man weiß, daß sie nicht mit dem Zielmolekül übereinstimmen, als ein Maß für die unspezifische Hintergrundbindung verwendet und von der spezifischen Bindung des Zielmoleküls an komplementäre Sonden subtrahiert werden.
In den vorliegenden Verfahren werden Arrays eingesetzt, die mindestens einige Zellen, die von Sonden-Pool-Mischungen besetzt sind, aufweisen, zur Expressionsüberwachung eingesetzt. In zumindest einigen dieser Pools sind die zwei (oder mehr) Sondenkomponenten beide zu nichtüberlappenden Abschnitten derselben Zielsequenz komplementär. Der Abstand und die Basensequenz der Abschnitte läßt sich so wählen, daß die spezifische Bindung aufgrund von Basenzusammensetzungseffekten und kooperativen Bindungseffekten optimiert wird. Das Vorhandensein eines Zielmoleküls wird durch die spezifische Bindung des Zielmoleküls an Sonden-Pool-Mischungen, die zum Zielmolekül komplementäre Sondenkomponenten enthalten, nachgewiesen. Gegebenenfalls läßt sich eine solche Bindung mit der Bindung von vereinigten Mischungen von Sonden vergleichen, bei denen eine oder beide Sondenkomponenten einen Mismatch mit einem ausgewählten Zielmolekül enthält. Die Bindung der Sonden-Pools mit Mismatch dient als Maß für den Hintergrund und läßt sich von der Bindung des Pools mit übereinstimmenden Sonden subtrahieren. Ein signifikanter Unterschied zwischen der Bindung eines Pools aus vollkommen übereinstimmenden Sonden und der eines Pools von Mismatch-Sonden weist darauf hin, daß die mRNA, zu der die übereinstimmenden Sonden komplementär sind, vorhanden ist. Die Bindung des Pools von vollkommen übereinstimmenden Sonden ist typischerweise mindestens 1,2-, 1,5-, 2-, 5- oder 10- oder 20mal höher als die Bindung an die Sonden mit Mismatch. Die Verwendung eines Sonden-Pools in Expressionsüberwachungsverfahren kann das Signal/Hintergrund-Verhältnis erhöhen und daher zu einer höheren Empfindlichkeit und/oder größeren Genauigkeit bei quantitativen Messungen von mRNA-Niveaus führen. Solche Verfahren sind besonders wertvoll bei komplexen Mischungen einer Zielsequenz (z.B. Gesamt-mRNA-Populationen, genomische Gesamt-DNA) ¹⁴, ¹⁵.
c. Verwendung eines Sonden-Pools bei der Sequenzanalyse
Ziel-Nukleinsäuren unbekannter Sequenz lassen sich durch Hybridisierung an ein Array, das alle Sonden einer gegebenen Länge enthält, in einem Vorgang, der manchmal als Sequenzierung durch Hybridisierung bezeichnet wird, sequenzieren. Dabei wird die Teilmenge spezifisch hybridisierender Sonden in einem solchen Array identifiziert und die Sequenz des Zielmoleküls aus den Sequenzen dieser Sonden zusammengesetzt (siehe z.B. EP 562047 ). Eine potentielle Einschränkung solcher Verfahren besteht darin, daß Abschnitte der Zielsequenz, die der für Hybridisierungsassays typischerweise verwendeten Sondenlänge entsprechen, mit signifikanter Häufigkeit wiederholt in einer Zielsequenz auftreten. Ein solches wiederholtes Auftreten schränkt die Länge der Zielsequenz, die auf ein Array aufgetragen werden kann, ein und/oder kompliziert die Interpretation des Hybridisierungsmusters eines Arrays.
Mit den vorliegenden Verfahren wird eine Lösung für dieses Problem unter Verwendung von Sonden-Pool-Mischungen bereitgestellt. Bei den vorliegenden Verfahren wird ein Array von Sonden konstruiert, das eine Anzahl von Subarrays von Sonden-Pool-Mischungen umfaßt. Die Pools in jedem Subarray weisen eine gemeinsame Sonde und eine variable Sonde auf. Zusammen bilden die variablen Sonden in einem Subarray alle Sonden einer gegebenen Länge. Die gemeinsamen Sonden variieren zwischen den verschiedenen Subarrays. Die gemeinsamen Sonden werden so gewählt, daß sie zu bekannten Bereichen von zu sequenzierenden, die Zielsequenz flankierenden Bereichen komplementär sind. Sequenziert man beispielsweise ein Chromosom, so können die gemeinsamen Sonden so konstruiert sein, daß sie zu bekannten Markern, die in ziemlich regelmäßigen Abständen über das. Chromosom verteilt sind, komplementär sind.
Gegebenenfalls kann man die Zielsequenz vor Auftragen auf ein Array fragmentieren, obwohl bei jeder Fragmentierung die Kopplung von Markerbereichen an zu sequenzierende flankierende DNA intakt bleiben sollte. Nach der Hybridisierung der Zielsequenz an das Array wird die Bindung an die Sonden in den verschiedenen Subarrays bestimmt. Danach wird aus jedem Subarray ein Bereich der Zielsequenz aus den Oligonukleotiden, die eine spezifische Bindung in dem Subarray zeigen, zusammengestellt. Jeder aus einem Subarray gelesene Zielsequenzbereich wird so kartiert, daß er in der Nähe des Markers liegt, der komplementär zu der in den vereinigten Mischungen in diesem Subarray enthaltenen gemeinsamen Sonde komplementär ist. Dementsprechend wird durch die vorliegenden Verfahren eine gleichzeitige Sequenzierung und Kartierung zahlreicher Abschnitte einer Zielsequenz gestattet.
(e) Verwendung eines Sonden-Pools in einem Resequenzierungsarray
Wie im Abschnitthintergrund angemerkt, werden in WO 95/11995 Verfahren zur Resequenzierung beschrieben, bei denen ein Vergleich der Bindung von vier Probensätzen an ein Zielmolekül erfolgt. Ein Sondensatz enthält überlappende Sonden, die eine Referenzsequenz überspannen und zu der Referenzsequenz komplementär sind. Die anderen Sondensätze enthalten entsprechende Sonden für jede Sonde im ersten Satz, außer an der Abfrageposition, an der sich einander entsprechende Sonden aus den vier Sondensätzen unterscheiden. Einander entsprechende Sonden sind häufig physikalisch oder vorstellungsgemäß in Form einer Kolonne auf einem Träger angeordnet. Die Bindung eines Zielmoleküls an eine Kolonne aus vier einander entsprechenden Sonden wird verglichen und eine Base wird in der Zielsequenz als das Komplement der Base, die die Abfrageposition der Sonde, die die höchste spezifische Bindung zur Zielsequenz zeigt, besetzt, zugeordnet.
Derartige Verfahren lassen sich ebenso mit Sonden-Pool-Mischungen anstelle von Einzelsonden durchführen. Die Komponenten solcher Sondenmischungen lassen sich als erste und zweite Gruppen von Sonden betrachten, wobei jede Mischung eine Sonde aus der ersten Gruppe und eine Sonde aus der zweiten Gruppe aufweist. Die erste Gruppe von Sonden enthält die gleichen vier Sondensätze, wie in WO 95/11995 beschrieben. Die zweite Gruppe von Sonden enthält Sonden, die zur Referenzsequenz komplementär sind und kooperative Bindung mit einer Partnersonde aus der ersten Gruppe gestatten.
Jede von vier entsprechenden Sonden in der ersten Gruppe stimmt üblicherweise mit derselben Partnersonde aus der zweiten Gruppe überein. Die Partnersonde ist so konstruiert, daß sie zu einem Abschnitt der Ziel-DNA, der nicht mit dem Abschnitt, zu dem die vier entsprechenden Sonden komplementär sind, überlappt, sich jedoch in hinreichender Nähe dazu befindet, um kooperative Bindung zwischen zwei Sonden in Sondenmischungen zu gestatten, komplementär ist. Die von der Partnersonde und den vier einander entsprechenden Sonden gebundenen DNA-Abschnitte können gegebenenfalls unmittelbar benachbart sein (d.h. mit keinen dazwischenliegenden Basen).
Unterschiedliche Kolonnen aus vier einander entsprechenden Sonden aus der ersten Gruppe lassen sich mit denselben oder unterschiedlichen Partnersonden in Übereinstimmung bringen. So wird beispielsweise in einigen Arrays jede der Kolonnen aus vier entsprechenden Sonden mit derselben Partnersonde in Übereinstimmung gebracht. Bei anderen Verfahren werden Kolonnen aus einander entsprechenden Sonden mit unterschiedlichen Partnersonden in Übereinstimmung gebracht, so daß die Trennung von durch Partnersonden und den einander entsprechenden Sonden gebundenen Zielabschnitten konstant bleibt. Als Alternative können unterschiedliche Kolonnen aus vier einander entsprechenden Sonden aus der ersten Gruppe mit unterschiedlichen Partnersonden ohne eine konstante Trennung zwischen von den Sonden in einer vereinigten Mischung gebundenen Abschnitten in Übereinstimmung gebracht werden.
In allen der obigen Anordnungen wird die Bindung von Pools für vier Pools, die vier einander entsprechenden Sonden aus der ersten Gruppe enthalten, verglichen. Eine Base in der Zielsequenz wird als das Komplement der Base, die die Abfrageposition des Pools, der die stärkste Bindungszeit, besetzt, identifiziert. Der Vergleich von Sonden-Pools auf diese Weise kann ein höheres Verhältnis der Bindung von übereinstimmenden Pools zur Bindung von Pools mit Mismatch bieten, wodurch die Genauigkeit der Zuordnung von Basen in der Zielsequenz erhöht wird.
(f) Messung der Sequenzlänge
Die zunehmende normalisierte Bindung eines Zielmoleküls an Sonden eines Pools, die mit dem Zielmolekül übereinstimmen, relativ zur Gesamtbindung an Komponenten des Pools steht in Verbindung mit der Trennung von durch die Sonden gebundenen Zielabschnitten. Mit zunehmendem Abstand nimmt die kooperative Bindung ab, ebenso wie die zunehmende Bindung des Zielmoleküls an eine Pool-Sondenmischung. Diese Bindungseigenschaften können zur Beurteilung der Länge eines Abschnits unbekannter Länge, der von zwei bekannten Markern flankiert ist, verwendet werden. Bei dem Abschnitt unbekannter Länge kann es sich beispielsweise um einen Restriktionsfragmentlängen-Polymorphismus, einschließlich Di-, Tri- und Tetranukleotid-Wiederholungen, handeln.
Es wird ein Array konstruiert, der einen Sonden-Pool mit zwei Sondenkomponenten enthält, die zu Markern, die eine Sequenz, deren Länge analysiert werden soll, flankieren, komplementär sind. Das Array enthält ebenso Kontrollzellen, die jeweils eine der Pool-Sonden, jedoch nicht die andere enthalten. Das Array wird dann für eine Reihe von Kontrollsubstraten kalibiert, in denen die bekannten Marker durch unterschiedliche bekannte Längen von dazwischenliegender Sequenz voneinander getrennt sind. Für jedes Kontrollsubstrat wird ein Verhältnis zwischen der Bindung an die Pool-Sondenmischung und der Gesamtbindung an individuelle Sonden bestimmt. Dieses Verhältnis läßt sich dann in Abhängigkeit von der dazwischenliegenden Sequenzlänge graphisch auftragen. Mit zunehmender Länge der dazwischenliegenden Sequenz nimmt das Bindungsverhältnis auf den Wert Eins ab.
Das Array wird dann mit einem zu analysierenden Zielmolekül hybridisiert, das die beiden bekannten Marker, die voneinander durch einen dazwischenliegenden Abschnitt unbekannter Länge getrennt sind, enthält. Das Verhältnis der Bindung des Zielmoleküls an die Pool- und Kontrollsonden wird wie zuvor bestimmt. Die Länge des dazwischenliegenden Abschnitts läßt sich dann aus dem Graph oder mittels Interpolationsrechnung ablesen. Diese Analyseform ist insbesondere zur Beurteilung der Länge von Trinukleotidwiederholungen geeignet, die mit mehreren Erbkrankheiten, wie z.B. Morbus Huntington, in Zusammenhang stehen.
(g) Reihenfolge der Fragmente
Bei der Genomsequenzierung oder einer Restriktionskartierung ist manchmal bekannt, daß eine Zielsequenz mehrere spezifische Abschnittskomponenten umfaßt, wobei die Reihenfolge der Abschnitte jedoch nicht bekannt ist. So könnte beispielsweise bekannt sein, daß eine Zielsequenz die Abschnittskomponenten a, b und c aufweist, doch ist unbekannt, ob die Reihenfolge der Sequenzen abc, acb oder bca ist. Die Reihenfolge der Sequenzkomponenten läßt sich durch Hybridisierung an ein Array bestimmen, das Pools von Sonden enthält, wobei jeder Pool zwei Sondenkomponenten aufweist, die an unterschiedliche Abschnitte hybridisieren, wobei sich die unterschiedlichen Pools in der Kombination von Abschnitten, an die ihre Sondenkomponenten hybridisieren, unterscheiden.
Im allgemeinen zeigen Abschnitte einer Zielsequenz, die näher zusammen liegen, eine größere Kooperativität bei der Bindung an Pool-Sondenmischungen als Abschnitte, die weiter voneinander entfernt liegen. Somit zeigt bei einer Zielsequenz abc eine vereinigte Mischung von ab oder bc eine stärkere Bindung relativ zum Gesamtwert von a + b oder b + c als eine vereinigte Mischung von ac relativ zu a + c. Somit ist die relative Bindung des Zielmoleküls an die drei Pool-Sondenmischungen relativ zur Gesamtbindung an entsprechende Sondenkomponenten ein Hinweis darauf, welche Zielabschnitte am nächsten zueinander liegen, und somit auf die Reihenfolge der Abschnitte in der Zielsequenz.
Eine Anwendung von potentiellem Interesse ist die Sequenzrekonstruierung (Contig-Konstruktion) bei der Sequenzierung durch Hybridisierung (SBH). Eines der Haupthindernisse gegen die Verwendung kurzer DNA-Sonden für SBH ist die Anwesenheit von Wiederholungssequenzen. Bei der de-novo-SBH benutzt man ein Array des Satzes aller Sonden mit der Länge n (üblicherweise 6-10), um das Vorhandensein von Teilsequenzen mit der Länge n in dem ausgewählten Zielmolekül zu bestimmen. Diese Teilsequenzen werden miteinander verglichen und aneinander ausgerichtet, um die aneinander gereihte Zielsequenz zu rekonstruieren. Wiederholungsbereiche mit der Länge n oder länger komplizieren die Sequenzrekonstruktion, da es nicht mehr möglich ist, die Kopplung von Sequenzen auf der einen oder anderen Seite der Wiederholungssequenz eindeutig zu bestimmen. Es wurde vorgeschlagen, daß die Messung des Abstands zwischen Referenzpunkten in einer Sequenz die mögliche Fragmentlänge, die mit einem Array resequenziert werden kann, um mehr als das 4fache erhöhen könnte ¹⁶. Es ist nun möglich, den Abstand zwischen Referenzpunkten experimentell zu beurteilen, indem kombinatorisch eine große Anzahl alternativer Sondenpaarungen getestet wird. Liegen beispielsweise drei Contigs a, b und c in der möglichen Reihenfolge a-b-c oder a-c-b vor, so läßt sich die Reihenfolge im Prinzip dadurch festlegen, daß man das Zielmolekül an die paarweisen Sondenkombinationen a-b und a-c hybridisiert. Darüber hinaus kann es notwendig sein, Hybridisierungen des in unterschiedlichem Ausmaß z.B. mit Restriktionsenzymen fragmentierten Zielmoleküls zu vergleichen. Unter Anwendung des Prinzips von Sturtevant ¹ sollten nahe zusammenliegende Sequenzen eher miteinander gekoppelt bleiben.
BEISPIELE
MATERIAL UND METHODEN
Oligonukleotid-Arrays. DNA-Arrays wurden unter Verwendung von 5'-MeNPOC-geschützten Phosphoramiditen synthetisiert ¹⁰, ¹¹. Ein MeNPOC-geschütztes Hexaethylenglykolphosphoramidit wird an ein Glassubstrat gekoppelt, das mit Bis(hydroxyethyl)aminopropyltriethoxysilan silanisiert wurde. Das Substrat wird dann über eine lithographische Maske Licht von 365 nm ausgesetzt. Die MeNPOC-Schutzgruppe wird durch Licht abgetrennt, so daß nur die exponierten Stellen für die Kupplung verfügbar werden. Wiederholte Zyklen aus lichtgesteuerter Entschützung und Nukleosidbasenkupplung gestatten die wirkungsvolle Parallelsynthese einer beliebigen gewünschten Kombination aus großen Anzahlen unterschiedlicher Oligonukleotide.
Synthese von Arrays mit gepaarten Sonden. Gepaarte Arrays werden auf ähnliche Weise synthetisiert (1). Der Hauptunterschied besteht darin, daß vor Kupplung des ersten Nukleosids die Array-Oberfläche eine Halbwertszeit der MeNPOC-Schutzgruppe lang ausgesetzt wird, was zu einer ungefähr 1:1-Mischung von geschützten und entschützten Stellen führt. Die entschützten Stellen werden mit einem 5'-DMT-geschützten Nukleosid gekuppelt. Die DMT-Gruppe ist während der Photoentschützung und der Synthesezyklen stabil. Der verbliebene MeNPOC-geschützte Linker wird zu einem Sonden-Array-Muster, wie oben beschrieben, angeordnet (Array der Sonde #1). Nach Beendigung dieses Vorgangs werden diese Sonden mit einem Cap versehen (entweder mit 1:1-Essigsäureanhydrid, N-Methylimidazol in Lutidin, THF, oder durch Kupplung von N,N-Diethyl-N,N-diisopropylphosphoramidit), um eine weitere Elongation zu verhindern. Nach Synthese und Capping der ersten Sonden werden die DMT-geschützten Stellen entschützt (3%TCA/DCM, 30s) und danach ein MeNPOC-geschützter Linker an diese Stellen gekuppelt. Der zweite Satz von Sonden wird dann unter Verwendung von MeNPOC-Photochemie in einem Muster auf diese Stellen aufgebracht; als Ergebnis erhält man ein Array mit einer Mischung aus zwei verschiedenen DNA-Sonden an jedem Ort.
Markierte DNA-Zielmoleküle. DNA-Oligonukleotide, die eine 5'-terminale Fluoreszeinmarkierung tragen, wurden mit Standard-Phosphoramiditchemie auf festen Trägern synthetisiert. Die Oligonukleotide 10c-27c, 10g-27t, 10c-27t und 10g-27c basieren auf der Sequenz 5'-Fcc act cac gNg agc tct cca tgc att Ngg tat ttt cgt ctg gga ggt atg cac gcg ata gca, wobei F für Fluoreszein steht. Der Buchstabe N bezeichnet die Positionen 10 und 27. Die Base an diesen Positionen ist im Namen für jedes Oligonukleotid angegeben. Ebenso basieren die Oligonukleotide 10c und 10g auf der Sequenz 5'Fct cac gNg agc tct c sowie 27c und 27t auf 5'F tgc att Ngg tat ttt. Die Sequenzen 10c, 10g, 27c und 27t leiteten sich von den oben aufgeführten Doppelvarianten in Positionen 10 und 27 ab. Zusätzlich zu den Oligonukleotid-Zielmolekülen wurden menschliche mitochondrial DNAs mit einer Länge von 160 Basen bzw. 2,5 kb mittels asymmetrischer Einzelstrang-PCR hergestellt. Diese DNAs wurden aus zuvor in einem ABI-373A-DNA-Sequenzierautomaten sequenzierten Proben amplifiziert. Die Markierung wurde mittels Einbau von Biotin-16-dUTP während einer PCR durchgeführt. Zwei 2,5 kb große Amplifikate wurden hergestellt, die sich an drei Positionen unterschieden. Amplifikat 1 wies die Sequenz 93c-1438c-2131a auf. Amplifikat 2 wies die Sequenz 93t-1438t-2131g auf.
ERGEBNISSE
Kooperative Hybridisierung und Kopplungsnachweis. Um zu bestimmen, ob kooperative Hybridisierung zur Unterscheidung zwischen gekoppelten und nicht gekoppelten Paaren ansonsten identischer Sequenzen verwendet werden konnte, wurde ein einfaches Experiment entworfen, um auf eine Kopplung zwischen einem Paar von 9-mer-Sequenzen, die durch 8 Nukleotide voneinander getrennt waren, zu testen. Das Prinzip ist in 2 dargestellt.
Ein 4 × 4-Array wurde synthetisiert, wobei jede 400 μm × 400 μm-Stelle eine Mischung aus zwei verschiedenen 9-mer-Sondensequenzen, Sonde 1 (3'-gtgcN₁ctcg-5') und Sonde 2 (3'-gtaaN₂ccat-5'), enthielt. Um zu zeigen, daß ein eventueller kooperativer Effekt sequenzspezifisch war, wurde das Array so konstruiert, daß es jeweils vier Varianten von jeder Sonde enthielt, bei denen die Zentralbase der Sonde 1 und der Sonde 2 durch A, C, G oder T substituiert war. Das erhaltene Array enthielt 16 Stellen. Jede Stelle enthält eine unterschiedliche Kombination von N₁ und N₂ für die beiden Sonden. Auf diese Weise wurden alle 16 Mischungen der Sonde 1-N₁ und der Sonde 2-N₂ synthetisiert (3).
Zwei Sätze von Hybridisierungen wurden durchgeführt. Zunächst wurden physikalisch gekoppelte, zur Sonde 1 und Sonde 2 komplementäre Zielmoleküle an das Array hybridisiert. Sollten die Pool-Sonden in der Lage sein, in kooperativer Weise an zwei Pool-Sonden zu hybridisieren, wäre das Signal von einem Array, das zwei Pool-Sonden enthält, größer als die Summe der nicht kooperativen Hybridisierungssignale in den Bereichen, wo nur eine Sonde mit dem Zielmolekül vollkommen übereinstimmte. Zweitens wurden als Kontrolle unabhängige Zielmoleküle, die mit jeder der Sonden in einer Mischung übereinstimmten, an das Array hybridisiert. In diesem Fall wurde erwartet, daß das Hybridisierungssignal in den Bereichen, wo zwei Zielmoleküle vollkommen übereinstimmende Sonden aufwiesen, etwa die Summe der Hybridisierungssignale in den Bereichen, wo nur das eine oder das andere Zielmolekül eine vollkommene Übereinstimmung aufwies, erreichen (2).
Die Hybridisierungen wurden wie in Tabelle 1 beschrieben durchgeführt. Zur Untersuchung der zusätzlichen Stabilität der gepaarten Hybridisierung wurden unterschiedliche Mischungen des zur Sonde 1 und Sonde 2 komplementären DNA-Zielmoleküls verwendet (4a). Die Fluoreszenzintensität der gekoppelten Ziele war stets mehr als 40× so hoch wie die Intensität ihrer nicht gekoppelten Gegenstücke. Die Intensitäten der gekoppelten Ziele in den Bereichen, wo sie mit beiden gepaarten Sonden übereinstimmten, betrugen 2-3× die Summe der Intensitäten, wo sie nur mit Sonde 1 oder Sonde 2 übereinstimmten. Bei den nicht gekoppelten Zielen lagen die Intensitäten in den Bereichen, wo die Ziele mit beiden gepaarten Sonden übereinstimmten, um 15-35% niedriger als die Summe der Bereiche, wo sie mit Sonde 1 oder Sonde 2 übereinstimmten. Dieser 15-35%ige Signalverlust könnte an Überfüllungseffekten an der Oberfläche liegen, da in den Bereichen, wo die Zielmoleküle mit beiden Sonden übereinstimmen, fast doppelt so viel Zielmolekül vorhanden ist. Das Diskriminierungsverhältnis zwischen den korrekten Benennungen und den Einzelbasenaustauschen war für die gekoppelten Ziele ebenfalls deutlich besser. Diese Ergebnisse zeigen die kooperative Hybridisierung gekoppelter Zielsequenzen an gepaarte Sonden. In allen Fällen konnte die Kopplung oder Unabhängigkeit von N₁ und N₂ deutlich unterschieden werden, wobei in den physikalisch gekoppelten Zielsequenzen die variablen Basen bei N₁ und N₂ korrekt bestimmt wurden.
Zuordnung der Kopplung in einer heterozygaten Mischung. Um zu bestimmen, ob die Hybridisierung an Arrays mit gepaarten Sonden zur direkten Zuordnung einer Kopplung in komplexen Heterozygoten verwendet werden konnte, wurden zwei weitere Experimente durchgeführt. In beiden Fällen wurden äquimolare Mischungen aus zwei gekoppelten Zielen an einen Array mit gepaarten 9-mer-Sonden hybridisiert. Im ersten Experiment bestand die Mischung aus 10c-27t und 10g-27c. Im zweiten Experiment bestand die Mischung aus 10g-27t und 10c-27c. Zwar weisen die beiden Experimente Ziele auf, die in der Sequenzzusammensetzung identisch sind, doch ist die Paarung unterschiedlich. Die Ergebnisse sind in den beiden unteren Tafeln auf der linken Seite der 4b gezeigt. Bei beiden Mischungen war es einfach, die Kopplung zuzuordnen. In beiden Fällen unterscheiden sich die gekoppelten Sequenzen deutlich von den anderen möglichen Anordnungen (z.B. c-c, g-t vs. g-c, c-t). Obwohl die Sonden in den vier Array-Positionen c-c, c-t, g-c, g-t zu äquimolaren Mengen des Ziels in der Hybridisierungsmischung komplementär sind, so liegt ein signifikant stärkeres Signal vor, wo die beiden Sonden vollkommen zum selben Zielmolekül komplementär sind (1,4-7 × Intensität). Weiterhin zeigt die Kontroll-Hybridisierung, in der nichtgekoppelte Ziele dieselbe Sequenzzusammensetzung wie die gekoppelten Ziele aufweisen, ein geringeres Signal und keinen Hinweis auf Kooperativität. Diese Ergebnisse zeigen, daß Arrays mit gepaarten Sonden zur Zuordnung einer Kopplung in Mischungen mit zwei verschiedenen mehrfach polymorphen Allelen verwendet werden können.
Kooperative Hybridisierung über Entfernungen von mehr als 2 Kilobasen und Konstruktion von SNP-Haplotypen.
Zur Untersuchung der Stärke und Spezifität einer Kopplung über eine größere Entfernung wurden Arrays mit gepaarten Sonden synthetisiert, wobei die Sondensequenzen aus unterschiedlichen Bereichen eines 2,5 kb großen mitochondrialen DNA-Amplifikats gewählt wurden. Die Länge der Sonden wurde auf 30-mere erhöht, um die Durchführung der Hybridisierungen unter stringenteren Bedingungen zu gestatten. Eine hohe Stringenz wurde verwendet, um die Sekundärstruktur in den Zielen zu reduzieren und durch Destabilisierung individueller Hybridisierungen die kooperative Hybridisierung zu begünstigen.
Es wurden drei unterschiedlich konstruierte Arrays synthetisiert. Bei allen Konstruktionen wurde ein jeweils anderes Paar von Einzelnukleotid-Polymorphismen (SNPs) abgefragt. In jedem der drei gezeigten Experimente wurde eine 50:50-Mischung von zwei 2,5 kb großen Ziel-Amplifikaten auf einem gepaarten Array analysiert (5). Die beiden 2,5 kb großen Amplifikate stammen aus dem identischen Bereich menschlicher mitochondrialer DNA, sind jedoch polymorph und unterscheiden sich voneinander an den mit den Arrays analysierten spezifischen Orten. Im ersten Experiment wurden durch 693 Nukleotide voneinander getrennte SNPs an den Positionen 1438 und 2131 analysiert. Im zweiten Experiment wurden 1345 Nukleotide voneinander entfernte SNPs an den Positionen 93 und 1438 abgefragt. Im dritten Experiment wurden 2098 Nukleotide voneinander entfernte SNPs an den Positionen 93 und 2131 abgefragt. In jedem Experiment wiesen die Zellen mit den korrekten Sonden die höchste Intensität auf (5). Die Ergebnisse zeigen eine Einzelbasen-Mismatch-Diskriminierung und einen Kopplungsnachweis zwischen Loci, die durch Abstände von bis zu 2,1 kb voneinander getrennt sind, obwohl die Diskriminierung mit dem Array mit gepaarten 9-mer-Sonden besser war. Dies ist nicht überraschend, da die Diskriminierung auf Unterschieden von zwei von 50 Basen im Gegensatz zu 2 von 18 Basen in den 9-mer-Exerimenten beruht.
Anschließend wurden die Daten analysiert, indem jedes Sondenpaar mit seinen 6 Einzelbasen-Abänderungen (den 3 Einzelbasen-Änderungen in Sonde 2, wobei die Sonde 1 unverändert bleibt, und den 3 Einzelbasen-Änderungen in Sonde 1, wobei Sond 2 unverändert bleibt) verglichen wurde (5, rechte Spalte). In dieser Analyse ist die Unterscheidung zwischen den korrekten und den inkorrekten Kopplungszuordnungen sogar noch offensichtlicher. Ein Wert 1 im Diskriminierungsdiagramm bedeutet, daß die Intensität an dieser Position auf dem Array gleich der Durchschnittsintensität aller ihrer Einbasen-Abänderungen war, d.h.: der Diskriminierungswert für die Sondenpaarung a-a = (a-a)/((a-c + a-g + a-t + c-a + g-a + t-a)/6) . Alle inkorrekten Kopplungszuordnungen liegen nahe oder unterhalb von 1, wrd die korrekten Kopplungszuordnungen Werte von 1,8 oder höher produzieren. Wie beim Array mit gepaarten 9-mer-Sonden ließen sich die korrekten Kopplungszuordnungen (93c-1438c, 93t-1438t, 1438c-2131a, 1438t-2131g, 93c-2131a und 93t-2131g) leicht von der inkorrekten Phase (93c-1438t, usw.) unterscheiden. Schließlich können durch Kombination der Daten aus den paarweisen Experimenten die beiden Haplotypen 93c-1438c-2131a und 93t-1438t-2132g eindeutig rekonstruiert werden.
Sequenzunabhängigkeit des kooperativen Effekts. Die oben beschriebenen Experimente wurden mit einer geringen Anzahl spezifischer Sequenzpaare durchgeführt. Zwei weitere Arrays wurden konstruiert, um die kooperative Hybridisierung mit einer wesentlich größeren Anzahl und Vielfalt unterschiedlicher Sequenzen zu untersuchen. Das Ziel bestand darin, zu bestimmen, in welchem Ausmaß der beobachtete kooperative Effekt sequenzabhängig war, um zu beurteilen, ob er auf einen größeren Sondensatz extrapoliert werden konnte.
Im ersten experimentellen Aufbau wurden sechs unterschiedliche 12-mer-Sequenzen jeweils mit einem Resequenzierungsarray gepaart, der sechsundachtzig überlappende 15-mer-Sonden enthielt. Daher enthielt jeder dieser Resequenzierungsarrays eine konstante 12-mer-Sequenz, die als ein „Anker" für das Ziel wirken sollte, das durch die variablen 15-mer-Sonden im Array abgefragt wurde. Jedes 15-mer war durch 4 Einzelbasen-Substitutionen (Substitutionen mit A, C, G und T an der Mittelposition) repräsentiert, was eine Gesamtzahl von 2064 Kombinationen ergab (6 Anker × 86 Sonden × 4 Substitutionen). Von diesen stimmten 516 vollkommen mit beiden Sonden im Paar überein, wobei die restlichen Kombinationen ein Einzelbasen-Mismatch an der Mittelpositon inder 15-mer-Sonde enthielten.
Ein 160 nt großes mit Fluoreszein markiertes Amplifikat wurde an das Array hybridisiert und eine Abbildung des Hybridisierungsmusters erhalten (6). Das Array enthielt als Kontrolle ein ungepaartes Tiling. Jedes gepaarte Tiling ergab ein stärkeres Signal als das Kontroll-Tiling. Das Ausmaß dieser Verbesserung hinsichtlich Gesamtintensität und Diskriminierung steht in Verbindung mit der Hybridisierungsstärke des durch die konstante 12mer-Ankersequenz repräsentierten Bereichs. So weisen beispielsweise die Positionen 1-12 im Kontroll-Tiling eine sehr niedrige Inensität auf, und der Anker 1-12 hat einen geringen Effekt auf die Intensität und Spezifität der Hybridisierung in seinem gepaarten Tiling. Die Positionen 15-26 zeigen ein gutes Ergebnis in der Kontrolle und haben eine dramatische Wirkung als Ankersequenz. In den Bereichen, wo die Abfragesondensequenzen mit der Ankersequenz überlappen (in 6 umrahmt), wurde kein Signalanstieg erwartet, da die Zielmoleküle jeweils nicht mehr als an eine Sonde in diesen Zellen hybridisieren können.
Die Ergebnisse zeigten, daß eine Vielfalt unterschiedlicher Anker bei ähnlicher Wirkung mit den gleichen Resequenzierungs-Tiling gepaart werden kann; daß eine gegebene Ankersequenz kooperativ mit einer Vielfalt unterschiedlicher Sequenzen in verschiedener Entfernung vom Anker paaren kann; und daß die Signalverstärkung durch die Ankersonde in Verbindung mit der Hybridisierungsstärke der Ankersequenz steht.
Um diese Beobachtungen auszuweiten und um Sonden-Anker-Wechselwirkungen über größere Entfernungen zu untersuchen, wurde als nächstes eine einzelne 20-mer-Ankersonde mit einem 20-mer-Tiling-Array, mit dem 2544 Nukleotide des menschlichen mitochondrialen Genoms abgefragt wurden, gepaart. Zwei getrennte Arrays wurden synthetisiert. Das erste enthielt lediglich die 10 176 20-mere (2544 × 4 Substitutionen pro Position) als Kontrolle. Im zweiten Array bestand jede Zelle aus einer Mischung von jeweils einer der 10 176 Sonden und dem zu den Positionen 1427-1446 auf dem Amplifikat komplementären 20-mer.
Eine Analyse der Signalintensitäten gegen die Position in der 2544-Basen-Sequenz zeigt den charakteristischen Abfall in dem Bereich, wo der Anker mit der variablen Sonde überlappt, sowie eine erhöhte Signalintensität und Diskriminierung anderswo auf dem Array (durchschnittlich 15× Fluoreszenzintensität gegenüber der ungepaarten Kontrolle) (7). Bei Abständen von mehr als 1000 Basen zwischen dem Anker- und Sondenstellen auf dem Ziel ist noch ein starker kooperativer Bindungseffekt sichtbar. Unter den verwendeten Bedingungen ließen sich 97% der Sequenz (2459 von 2544 Basen) bestimmen, indem einfach die Sonde mit der größten Intensität in jedem Satz aus A-, C-, G- und T-Substitutionssonden identifiziert wurde. Im Gegensatz dazu konnten unter diesen stringenten Bedingungen auf dem ungepaarten Kontroll-Array nur 84% der Sequenz (2128 Basen) bestimmt werden.
BESCHREIBUNGEN DER TABELLE UND FIGUREN
Tabelle 1. Hybridisierungsexperimente

PPA =

Paired Probe Array [Array mit gepaarten Sonden)

Oligo-Ziele:

a, b, c und d sind Platzhalter für unterschiedliche Sequenzen. Die eigentlichen Sequenzen sind in 4 angegeben.

Puffer A =

6xSSPE, 0,005 Triton X-100

Puffer B =

2,4M Tetraethylammoniumbromid, 10mM Tris ph 7,8, 1mM EDTA, 0,05% Triton X-100

Puffer C =

2,4M Methyltriethylammoniumbromid, 10mM Tris pH 7,8, 1mM EDTA, 0,05 Triton X-100

Markierung:

F = Fluoreszein, P = Phycoerythrin-Streptavidin

Bibliographie

1. Sturtevant, J. Exp. Zool. 14, 43 (1913).
2. Cox et al., Science 250, 245-250 (1990).
3. Dear & Cook, Nucleic Acids Research 17, 6795-6807 (1989).
4. Dear & Cook, Nucleic Acids Research 21, 13-20 (1993).
5. Ruano & Kidd, Nucleic Acids Research 17, 8392
6. Jeffreys et al., Cell 60, 473-485.
7. Grace et al., Numan Mutation 6, 232-242 (1995).
8. Beer & Moudrianakis, Proc. Nat. Acad. Sci., USA 48:409-416 (1962).
9. Wiegant, J. et al., Hum. Mol. Gen. 1:8 587-591 (1992)
10. Fodor et al., Science 251, 767-773 (1991).
11. Pease et al., Proc Natl Acad Sci U S A 91, 5022-026 (1999).
12. Orosz & Wetmur, Biopolymers 16, 1183-1199 (1977).
13. Broude et al., Proceedings of the National Academy of Sciences, USA 91, 3072-3076 (1994).
14. Chee et al., American Association For The Advancement Of Science 274, 465-688 (1996).
15. Lockhart et al., Nature Biotechnology 14, 1675-1680 (1996).
16. Lysov, et al, The Journal of Sequencing and Mapping 6, 65-73 (1996).

Claims

Verfahren zur Bestimmung der Kopplung polymorpher Formen in einer Ziel-Nukleinsäure, Schritte umfassend, bei denen man: (a) eine diploide Ziel-Nukleinsäure, die erste und zweite polymorphe Orte aufweist, mit einem Array hybridisiert, der einen Träger mit mindestens drei getrennten Bereichen aufweist, wobei ein erster Bereich einen Pool von Polynukleotidsonden trägt, der eine erste Sonde umfasst, die komplementär zu einer polymorphen Form des ersten polymorphen Ortes und eine zweite Sonde umfaßt, die komplementär zu einer polymorphen Form des zweiten polymorphen Ortes ist, wobei ein zweiter Bereich die erste jedoch nicht die zweite Sonde und ein dritter Bereich die zweite jedoch nicht die erste Sonde trägt, wobei die zwei verschiedenen Sonden in der Mischung von Sonden gleichzeitig mit verschiedenen Abschnitten derselben Ziel-Nukleinsäure in einer kooperativen Weise hybridisieren können; und (b) das Verhältnis der gebundenen Ziel-Nukleinsäure an den ersten Bereich und an den zweiten und dritten Bereich in Kombination bestimmt, um einen Hinweis darauf zu erlangen, ob die polymorphe Form des ersten polymorphen Ortes und die polymorphe Form des zweiten polymorphen Ortes in demselben Molekül der diploiden Ziel-Nukleinsäure vorliegen.
Verfahren zur Bestimmung der Kopplung polymorpher Formen in einer Ziel-Nukleinsäure, Schritte umfassend, bei denen man: (a) eine diploide Ziel-Nukleinsäure, die erste und zweite polymorphe Orte aufweist, mit einem Array hybridisiert, welcher einen Träger mit einer Vielzahl getrennter Bereiche aufweist, wobei die getrennten Bereiche verschiedene Sonden-Pools tragen und ein Sonden-Pool eine Kombination aus ersten und zweiten Sonden umfasst, die jeweils komplementär zu polymorphen Formen der ersten und zweiten polymorphen Orte sind und so ausgestaltet sind, dass sie gleichzeitig an verschiedene Abschnitte derelben Ziel-Nukleinsäure in kooperativer Weise hybridisieren können, wobei die verschiedenen Pools unterschiedliche Kombinationen der Sonden umfassen, die komplementär zu verschiedenen Kombinationen der polymorphen Formen sind; und (b) die Bindung der Ziel-Nukleinsäure an die getrennten Bereiche bestimmt, um mindestens einen getrennten Bereich zu identifizieren, der mehr Ziel-Nukleinsäure als ein Durchschnitt an Ziel-Nukleinsäuren bindet, welcher von den getrennten Bereichen gebunden wird, wobei der mindestens eine Bereich einen Pool von Sonden trägt, die jeweils komplementär zu einer Kombination der polymorphen Formen sind, die in einem einzigen Molekül der diploiden Ziel-Nukleinsäure vorliegen.
Verfahren gemäß Anspruch 2, das ferner Schritte umfasst, bei denen man eine Kontrollmischung mit einer ersten Nukleinsäure, welche eine polymorphe Form an dem ersten polymorphen Ort aufweist, und mit einer zweiten Nukleinsäure, welche eine polymorphen Form an dem zweiten polymorphen Ort aufweist, hybridisiert, die Hybridisierung der Mischung an die getrennten Bereiche bestimmt; die Bindung der Kontroll-Nukleinsäuren an die getrennten Bereiche bestimmt; und die Bindung der Ziel-Nukleinsäure und der Kontrolle an die getrennten Bereiche vergleicht, um einen getrennten Bereich zu identifizieren, der stärker als die Kontrolle an die Ziel-Nukleinsäure bindet, wobei dieser getrennte Bereich einen Pool von Sonden trägt, die jeweils zu einer Kombination polymorpher Formen komplementär sind, die in einem einzigen Molekül der diploiden Ziel-Nukleinsäure vorliegen.
Verfahren zur Durchführung einer Sequenzanalyse einer Ziel-Nukleinsäure, Schritte umfassend, bei denen man: (a) die Ziel-Nukleinsäure mit einem Array hybridisiert, der ein Substrat mit einer Vielzahl getrennter Bereiche aufweist, welche verschiedene Pools von Sonden tragen, wobei jeder Pool eine gemeinsame erste und eine verschiedene zweite Sonde aufweist, die gemeinsame erste Sonde komplementär zu einem bekannter Marker in der Ziel-Nukleinsäure ist, und worin die zwei verschiedenen Sonden in der vereinigten Mischung der Sonden gleichzeitig an verschiedene Bereiche der Ziel-Nukleinsäure in kooperativer Weise hybridisieren können; (b) aufgrund der relativen Bindung der Ziel-Nukleinsäure an die vereinigten Sonden einen Abschnitt der Ziel-Nukleinsäure identifiziert; und (c) die Position des Abschnitts in der Ziel-Sequenz im Verhältnis zu dem bekannten Marker bestimmt.
Verfahren zur Durchführung einer Sequenzanalyse einer Ziel-Nukleinsäure, Schritte umfassend, bei denen man: (a) die Ziel-Nukleinsäure mit einem Array hybridisiert, der ein Substrat mit einer Vielzahl von getrennten Bereichen aufweist, wobei die getrennten Bereiche verschiedene Pools von Sonden tragen, wobei die Pools in erste und zweite Subarray-Pools unterteilt sind, von denen jedes Pool in dem ersten Subarray von Pools eine gemeinsame erste Sonde und eine verschiedenen zweite Sonde aufweist, jedes Pool in dem zweiten Subarray von Pools eine gemeinsame erste Sonde, die komplementär zu einer bekannten Markersequenz in der Ziel-Nukleinsäure ist, und eine verschiedene zweite Sonde aufweist, wobei die gemeinsame erste Sonde in dem ersten Subarray von Pools komplementär zu einem anderen bekannten Marker in dem zweiten Subarray von Pools ist, und worin die zwei verschiedenen Sonden gleichzeitig an verschiedene Abschnitte derselben Nukleinsäure in kooperativer Weise hybridisieren können; (b) aufgrund der Bindung der Ziel-Nukleinsäure an die Pools der ersten und zweiten Subarrays erste und zweite Abschnitte der Ziel-Nukleinsäure identifiziert; und (c) die Position der ersten und zweiten Abschnitte der Ziel-Nukleinsäure im Verhältnis zu der Position bekannter Marker kartiert.
Verfahren zur Überwachung der Expression einer mRNA-Population, Schritte umfassend, bei denen man: (a) eine Probe bereitstellt, die eine Population von mRNA-Molekülen oder von Nukleinsäuren, welche von diesen kopiert wurden, umfaßt; (b) die Population der mRNA oder der Nukleinsäuren, welche von diesen kopiert wurden, mit einem Array hybridisiert, der einen Träger mit einer Vielzahl getrennter Bereiche aufweist, wobei die getrennten Bereiche verschiedene Pools von Sonden tragen, ein Pool an Sonden umfasst erste und zweite Sonden, die jeweils komplementär zu nicht-überlappenden Abschnitten eines bekannten mRNA-Moleküls sind, die verschiedenen Pools umfassen erste und zweite Sonden, die komplementär zu nichtüberlappenden Abschnitten verschiedener bekannter mRNA-Moleküle sind; und (c) solche getrennten Bereiche bestimmt, welche spezifische Bindung an die Population zeigen, wodurch ein Hinweis darauf erlangt wird, welche mRNA-Moleküle in der Probe vorliegen.
Verfahren gemäß Anspruch 6, bei dem der Träger ferner eine zweite Vielzahl getrennter Bereiche umfasst, die getrennten Bereiche eine Vielzahl verschiedener Pools von Sonden tragen, wobei jedes Pool die gleichen ersten und zweiten Sonden mit Ausnahme eines Mismatches in einer einzelnen Base in der ersten oder zweiten Sonde oder in beiden wie ein entsprechender Pool der Mehrzahl der getrennten Bereiche aufweisen, und das Verfahren ferner Schritte umfasst, bei denen man die Bindung der entsprechenden Sonden-Pools der Mehrzahl und der zweiten Mehrzahl getrennter Bereiche vergleicht, wobei ein Unterschied in der Bindung zeigt, dass die bekannte mRNA, zu welcher die Sonden des Pools der Mehrzahl der getrennten Bereiche komplementär ist, in der Sonde vorliegt.
Verfahren zur Analyse einer Ziel-Nukleinsäure, Schritte umfassend, bei denen man eine Ziel-Nukleinsäure mit einem Array hybridisiert, der einen Träger mit mindestens zwei getrennten Bereichen umfasst, ein erster Bereich trägt einen Pool von Polynukleotidsonden, der erste und zweite Sonden umfassen, ein zweiter Bereich trägt die erste Sonde jedoch nicht die zweite Sonde und ein dritter Bereich trägt die zweite Sonde jedoch nicht die erste Sonde, wobei die zwei verschiedenen Sonden in einer vereinigten Mischung der Sonden gleichzeitig an verschiedene Abschnitte derselben Ziel-Nukleinsäuresequenz in kooperativer Weise hybridisieren können; die Bindung der Ziel-Nukleinsäuresequenz an den ersten getrennten Bereich mit dem Aggregat, das sich aus der Bindung der Ziel-Nukleinsäuresequenz an die zweiten und dritten Bereiche bildet, vergleicht, um zu bestimmen, ob die Ziel-Nukleinsäure zu den ersten und zweiten Sonden komplementäre Abschnitte umfasst.
Verwendung eines Arrays, der einen Träger mit mindestens drei getrennten Bereichen umfasst, von denen ein erster Bereich einen Pool von Polynukleotidsonden trägt, der erste und zweite Sonden umfasst, die jeweils komplementär zu ersten und zweiten Zielabschnitten sind und in der Lage sind, gleichzeitig mit derselben Ziel-Nukleinsäure in kooperativer Weise zu hybridisieren, ein zweiter Bereich die erste Sonde jedoch nicht die zweite Sonde trägt und ein dritter Bereich die zweite Sonde jedoch nicht die erste Sonde trägt, zur Unterscheidung zwischen einzelnen Ziel-Nukleinsäuren, die zwei ausgewählte Abschnitte enthalten, und zwei Ziel-Nukleinsäuren, die jeweils einen ausgewählten Abschnitt enthalten.