DE69830395T2

DE69830395T2 - Iterative resequenzierung

Info

Publication number: DE69830395T2
Application number: DE69830395T
Authority: DE
Inventors: Mark Chee
Original assignee: Affymetrix Inc
Current assignee: Affymetrix Inc
Priority date: 1997-03-20
Filing date: 1998-03-19
Publication date: 2006-01-26
Anticipated expiration: 2018-03-20
Also published as: DE69830395D1; EP0972078A4; ATE296898T1; HK1025603A1; US20020025520A1; EP0972078A1; EP0972078B1; WO1998041657A1; US7144699B2

Description

TECHNISCHES GEBIET
Die Erfindung betrifft das technische Gebiet der Molekulargenetik, der Genomanalyse sowie der vergleichenden Sequenzanalyse.
HINTERGRUND
Die übliche Vorgehensweise bei der Sequenzanalyse eines Genoms erfordert, dass eine primäre Sequenz durch herkömmliche, auf Gelen beruhende Verfahren bestimmt wird (üblicherweise unter Verwendung der DNA-Sequenziergeräte von Applied Biosystems). Bei dieser Art der Vorgehensweise erhöht sich der Arbeitsaufwand sowohl proportional zur Länge der Sequenz als auch proportional zur Anzahl der zu untersuchenden Organismen und wird bei langen DNA-Abschnitten oder einer großen Anzahl von Organismen unpraktikabel. Aus diesem Grund sind relativ wenige Individuen innerhalb einer Art sequenziert worden, um nach einer Polymorphismus-Variation zu suchen. Darüber hinaus sind nur wenige beispielhafte Arten, wie beispielsweise Menschen und E. Co1i, einer Sequenzierung im großen Maßstab unterworfen worden.
US 5,525,464 diskutiert ein Verfahren der de novo-Sequenzierung durch Hybridisierung, bei dem die Sequenz einer unbekannten Zielnukleinsäure aus Überlappungen zwischen hybridisierenden Oligonukleotiden aus einer großen Population von Oligonukleotiden, die mit der Zielsequenz in Kontakt gebracht werden, rekonstruiert wird.
Sobald eine prototypische Sequenz oder eine Referenzsequenz bestimmt worden ist, stellen Sondenarrays ein effizienteres Mittel zur Analyse von Varianten-Sequenzen dar. Die Analyse der Muster der Hybridisierung der Sonden mit einer Zielnu kleinsäure offenbart die Position (und wahlweise die Art) von Unterschieden zwischen der Zielsequenz und der Referenzsequenz. WO 95/11995 beschreibt beispielsweise Arrays, die vier Sondensätze umfassen. Der Vergleich der Intensitäten von vier entsprechenden Sonden aus den vier Sätzen an eine Zielsequenz offenbart die Identität eines entsprechenden Nukleotids in den Zielsequenzen, das einer Abfrageposition der Sonden gegenübergestellt wird. Das entsprechende Nukleotid ist das Komplementär des Nukleotids, welches die Abfrageposition der Sonde besetzt, die die höchste Intensität zeigt.
Das Vorliegen einer Variation zwischen einer Zielsequenz und einer Referenzsequenz kann ferner anhand von Unterschieden bezüglich der normalisierten Hybridisierungs-Intensitäten von Sonden ermittelt werden, die die Variation flankieren, wenn die Sonden mit der Zielsequenz bzw. mit der Referenzsequenz hybridisiert werden. Der relative Verlust der Hybridisierungs-Intensität manifestiert sich als ein "Footprint" von Sonden, die den Variationspunkt zwischen Zielsequenz und Referenzsequenz flankieren (siehe EP 717,113 ). Darüber hinaus können die Hybridisierungs-Intensitäten für zahlreiche Ziele verschiedenen Ursprungs in Gruppen oder Cluster eingeteilt werden, die anhand dieser Daten gebildet werden (und nicht a priori definiert werden), so dass Isolate in einem gegebenen Cluster dazu neigen, einander ähnlich zu sein, und Isolate in verschiedenen Clustern dazu neigen, unähnlich zu sein (siehe WO 97/29212).
Eine auf einem Array beruhende Resequenzierung wurde beispielsweise bei der Identifizierung einer großen Anzahl von humanen Polymorphismen in Mitochondrien-DNA und ESTs, bei der Identifizierung von Wirkstoff-induzierten Mutationen in HIV sowie bei der Analyse von Mutationen in p53, die mit humanem Krebs zusammenhängen, verwendet.
DEFINITIONEN
Eine Nukleinsäure ist ein Desoxyribonukleotid- oder Ribonukleotid-Polymer, entweder in einzelsträngiger oder doppelsträngiger Form, und schließt bekannte Analoga natürlicher Nukleotide ein, sofern es nicht anderweitig angegeben wird.
Ein Oligonukleotid ist eine einzelsträngige Nukleinsäure, die eine Länge von 2 bis etwa 500 Basen aufweist, und üblicherweise aus etwa 8 bis 40 Basen, und noch üblicher aus 10 bis 25 Basen besteht.
Eine Sonde. ist ein Oligonukleotid, das in der Lage ist, durch eine oder mehrere Arten von chemischen Bindungen, üblicherweise durch komplementäre Basenpaarung, üblicherweise durch Bildung einer Wasserstoffbindung, an eine Zielnukleinsäure mit komplementärer Sequenz zu binden. Eine Oligonukleotidsonde kann natürliche (d.h. A, G, C oder T) oder modifizierte Basen (z.B. 7-Deazaguanosin, Inosin) umfassen. Darüber hinaus können die Basen in einer Oligonukleotidsonde durch eine andere Verknüpfung als eine Phosphodiester-Bindung verbunden sein, solange diese nicht mit der Hybridisierung interferiert. Somit können Oligonukleotidsonden Peptid-Nukleinsäuren sein, in denen die einzelnen Basen durch Peptid-Bindungen zusammengehalten werden, und nicht durch Phosphodiester-Verknüpfungen. Siehe Nielsen et al., Science 254, 1497–1500 (1991).
Eine spezifische Hybridisierung betrifft die Bindung, Duplexierung oder Hybridisierung eines Moleküls unter stringenten Bedingungen an lediglich eine bestimmte Nukleinsäuresequenz, wenn diese Sequenz in einer komplexen Mischung vorliegt (z.B. gesamtzelluläre) DNA oder RNA. Stringente Bedingungen sind Bedingungen, unter denen eine Sonde an ihre Zielsequenz hybridisieren wird, jedoch nicht an andere Sequenzen. Stringente Bedingungen sind Sequenz-abhängig und unter unterschiedlichen Bedingungen unterschiedlich. Längere Sequenzen hybridisieren spezifisch bei höheren Temperaturen. In der Regel werden stringente Bedingungen so gewählt, dass sie etwa 5 °C niedriger als der thermale Schmelzpunkt (Tm) der spezifischen Sequenz bei einer definierten Ionenstärke und einem definierten pH sind. Der Tm ist die Temperatur (bei definierter Ionenstärke, pH und Nukleinsäurekonzentration), bei der im Äquilibrium 50 % der Sonden, die komplementär zu der Zielsequenz sind, mit der Zielsequenz hybridisieren. (Da die Zielsequenzen üblicherweise im Überschuss vorhanden sind, sind am Tm im Äquilibrium 50 % der Sonden besetzt). Üblicherweise umfassen stringente Bedingungen eine Salzkonzentration von mindestens etwa 0,01 bis 1,0 M Na-Ionenkonzentration (oder andere Salze) bei pH 7,0 bis 8,3, und die Temperatur beträgt mindestens etwa 30 °C für kurze Sonden (z.B. 10 bis 50 Nukleotide). Stringente Bedingungen können ferner durch Zugabe von destabilisierenden Mitteln, wie beispielsweise Formamid, erzielt werden. Bedingungen von 5X SSPE (750 mM NaCl, 50 mM Na-Phosphat, 5 mM EDTA, pH 7,4) und einer Temperatur von 25–30 °C sind beispielsweise für Allel-spezifische Sonden-Hybridisierungen geeignet.
Eine perfekt übereinstimmende Sonde weist einen Abschnitt auf, der perfekt komplementär zu einer bestimmten Zielsequenz ist. Komplementäre Basenpaarung bedeutet Sequenz-spezifische Basenpaarung, die beispielsweise Watson-Crick-Basenpaarung oder andere Formen der Basenpaarung, wie beispielsweise Hoogsteen-Basenpaarung, umfasst. Die Sonden weisen üblicherweise einen komplementären Abschnitt von 6–20 Nukleotiden auf, und vorzugsweise von 10–25 Nukleotiden. Leader-Sequenzen oder anhängende Sequenzen, die den komplementären Abschnitt flankieren, können ebenfalls vorhanden sein. Der Begriff "Fehlpaarungs-Sonde" (mismatch probe) bezieht sich auf Sonden, deren Sequenz bewusst so ausgewählt ist, dass sie nicht perfekt komplementär zu einer bestimmten Zielsequenz sind. Obwohl die Fehlpaarung(en) irgendwo in der Mismatch-Sonde lokalisiert sein kann (können), sind terminale Fehlpaarungen weniger erwünscht, da eine terminale Fehlpaarung mit geringerer Wahrscheinlichkeit eine Hybridisierung der Zielsequenz verhindern kann. Aus diesem Grund sind Sonden oftmals so konstruiert, dass die Fehlpaarung im Zentrum oder nahe des Zentrums der Sonde lokalisiert ist, sodass die Fehlpaarung mit hoher Wahrscheinlichkeit den Duplex mit der Zielsequenz unter den Hybridisierungsbedingungen des Tests destabilisiert.
Polymorphismen beziehen sich auf das Auftreten von zwei oder mehreren genetisch determinierten alternativen Sequenzen oder Allelen in einer Population. Ein Polymorphismus-Marker oder eine Polymorphismus-Stelle ist der Ort, an dem die Abweichung auftritt. Bevorzugte Marker weisen mindestens zwei Allele auf, von denen jedes mit einer Frequenz von größer als 1 %, und vorzugsweise größer als 10 % oder 20 % einer ausgewählten Population auftritt. Ein Polymorphismus-Ort kann bis zu einem Basenpaar klein sein.
Ein Array, das eine vereinigte (pooled) Sonde umfasst, bedeutet, dass eine Zelle in dem Array von einer vereinigten Mischung von Sonden besetzt ist. Beispielsweise könnte eine Zelle von den Sonden ACCCTCCA und ACCCCCCA besetzt sein, wobei in diesem Fall die unterstrichene Position als eine vereinigte Position beschrieben wird. Obwohl die Identität jeder Sonde in der Mischung bekannt ist, sind die einzelnen Sonden in der Vereinigung nicht separat ansprechbar. Daher ist das Hybridisierungssignal von einer Zelle die Ansammlung von dem Signal der verschiedenen Sonden, die die Zelle besetzen.
Der Begriff Artvariante bezieht sich auf eine Gensequenz, die evolutionär und funktionell zwischen den Arten verwandt ist. Im humanen Genom stellt beispielsweise das humane CD4-Gen das mit dem CD4-Gen der Maus verwandte Gen dar, da die Sequenzen und Strukturen dieser beiden Gene darauf verweisen, dass sie stark homolog sind, und beide Gene ein Protein kodieren, das durch MHC-Klasse II-beschränkte Antigenerkennung die T-Zellaktivierung signalisiert.
Die prozentuale Sequenzidentität wird zwischen optimal gegenübergestellten (aligned) Sequenzen ausgehend von computergestützten Implementierungen von Algorithmen, wie beispielsweise GAP, BESTFIT, FASTA und TFASTA im Wisconsin Genetics Software Package Release, 7,9, Genetics Computer Group, 575 Science Dr., Madison, WI, bestimmt.
ZUSAMMENFASSUNG DER BEANSPRUCHTEN ERFINDUNG
Die Erfindung stellt sich wiederholende Verfahren zur Analyse einer Zielsequenz bereit, die eine Variante einer Referenzsequenz darstellt. Die Verfahren umfassen ein Sondenarray, das einen Sondensatz umfasst, der zu der Referenzsequenz komplementäre Sonden umfasst. Eine Zielnukleinsäure wird mit dem Sondenarray hybridisiert. Die relativen Intensitäten der Hybridisierung der Sonden mit der Zielnukleinsäure werden anschließend bestimmt. Die relativen Hybridisierungsintensitäten werden verwendet, um eine Sequenz der Zielnukleinsäure zu schätzen. Ein weiteres Sondenarray wird anschließend bereitgestellt, das einen Sondensatz umfasst, welcher zu der geschätzten Sequenz der Zielnukleinsäure komplementäre Sonden umfasst. Die Zielnukleinsäure wird anschließend mit dem weiteren Sondenarray hybridisiert, und die relative Hybridisierung der Sonden mit der Zielsequenz wird bestimmt. Die Sequenz der Zielnukleinsäure wird anschließend anhand der relativen Hybridisierungsintensitäten der Sonden neu geschätzt. Die Zyklen von Hybridisierung und Schätzen der Sequenz der Zielnukleinsäure können (falls erwünscht) wiederholt werden, bis die neu geschätzte Sequenz der Zielnukleinsäure die tatsächliche Sequenz der Zielnukleinsäure ist.
Die Verfahren sind insbesondere bei der Analyse einer Zielnukleinsäure nützlich, die eine Artvariante einer bekannten Referenzsequenz darstellt. Beispielsweise kann die Referenzsequenz von einem Menschen stammen und die Zielsequenz von einem Primaten. Üblicherweise weist die Zielnukleinsäure 50 bis 99 Sequenzidentität mit der Referenzsequenz auf. Die Verfahren sind darüber hinaus insbesondere in Situationen nützlich, in denen sich eine Zielsequenz von einer Referenzsequenz durch mehr als eine Mutationen innerhalb einer Sondenlänge unterscheidet.
Die Verfahren können problemlos an eine Referenzsequenz mit einer Länge von mindestens 1 oder 10 kb, oder sogar an ein vollständiges oder im Wesentlichen vollständiges humanes Chromosom oder Genom angepasst werden. Ein Sondensatz zur Verwendung in diesen Verfahren umfasst üblicherweise überlappende Sonden, die perfekt komplementär zu der Referenzsequenz sind und diese überspannen, und das weitere Array umfasst Sonden, die perfekt komplementär zu der geschätzten Sequenz sind und diese überspannen.
In einigen Verfahren umfassen die Sondenarrays 4 Sondensätze. Ein erster Sondensatz umfasst eine Vielzahl von Sonden, wobei jede Sonde einen Abschnitt von mindestens 6 Nukleotiden umfasst, der exakt komplementär zu einer Teilsequenz der Referenzsequenz sind, und wobei der Abschnitt mindestens eine Abfrageposition umfasst, die komplementär zu einem entsprechenden Nukleotid in der Referenzsequenz ist. Der zweite, dritte und vierte Sondensatz umfasst jeweils eine entsprechende Sonde für jede Sonde in dem ersten Sondensatz, wobei die Sonden in dem zweiten, dritten und vierten Sondensatz identisch zu einer Sequenz sind, die die entsprechende Sonde aus dem ersten Sondensatz oder eine Teilsequenz von mindestens 6 Nukleotiden derselben umfasst, welche die mindestens eine Abfrageposition umfasst, mit der Ausnahme, dass die mindestens eine Abfragepo sition in jedem der vier entsprechenden Sonden aus den vier Sondensätzen durch ein unterschiedliches Nukleotid besetzt ist. In solchen Verfahren kann die Zielsequenz durch Vergleichen der relativen spezifischen Bindung der vier entsprechenden Sonden aus dem ersten, zweiten, dritten und vierten Sondensatz geschätzt werden. Ein Nukleotid in der Zielnukleinsäure wird anschließend als das Komplementär der Abfrageposition von der Sonde mit der größen spezifischen Bindung festgelegt. Andere Nukleotide in der Zielsequenz werden durch ähnliche Vergleiche festgelegt.
Die Erfindung stellt ferner Verfahren zur Analyse einer Zielnukleinsäure bereit, die die folgenden Schritte umfassen. Ein Sondenarray wird so gestaltet, dass dieses komplementär zu einer geschätzten Sequenz der Zielnukleinsäure ist. Das Sondenarray wird mit der Zielnukleinsäure hybridisiert. Die Zielnukleinsäure wird anhand des Musters der Hybridisierung des Arrays mit der Zielnukleinsäure neu geschätzt. Die Schritte werden mindestens einmal wiederholt.
AUSFÜHRLICHE BESCHREIBUNG
1. Allgemeines
Die Erfindung stellt verbesserte Verfahren zur Analyse von Varianten einer Referenzsequenz unter Verwendung von Sondenarrays bereit. Die Verfahren sind insbesondere bei Zielsequenzen nützlich, die eine wesentliche Abweichung von einer Referenzsequenz zeigen, wie es der Fall sein kann, wenn Zielsequenz und Referenzsequenz aus unterschiedlichen Arten stammen. Diese Verfahren umfassen die Gestaltung eines primären Sondenarrays auf Basis einer bekannten Referenzsequenz. Die Referenzsequenz dient gewissermaßen als erste Schätzung der Sequenz der Zielnukleinsäure. Das primäre Sondenarray wird mit einer Zielnukleinsäure hybridisiert, und die Sequenz des Ziels wird so gut wie möglich anhand des Musters der Hybridisierung mit dem primären Array geschätzt. Ein sekundäres Sondenarray wird anschließend auf Basis der geschätzten Sequenz der Zielnukleinsäure gestaltet. Die Zielnukleinsäure wird anschließend mit dem sekundären Sondenarray hybridisiert, und die Sequenz wird anhand des resultierenden Hybridisierungsmusters neu geschätzt. Weitere Zyklen von Array-Gestaltung und Schätzung der Zielsequenz können in sich wiederholender Weise durchgeführt werden, falls dies erwünscht ist, bis die geschätzte Sequenz in aufeinanderfolgenden Zyklen konstant ist.
2. Referenzsequenzen
Referenzsequenzen für die Identifizierung einer Polymorphismus-Stelle werden oftmals von Computerdatenbanken, wie beispielsweise Genbank, Stanford Genome Center, The Institute for Genome Research und Whitehead Institute, erhalten. Letztere Datenbanken sind unter http://www-genome.wi.mit.edu; http://shgc.stanford.edu und http://www.tigr.org verfügbar. Referenzsequenzen stammen üblicherweise von hinreichend charakterisierten Organismen, wie beispielsweise Mensch, Maus, C. elegans, Arabidopsis, Drosophila, Hefe, E. coli oder Bacillus subtilis. Eine Referenzsequenz kann hinsichtlich ihrer Länge von 5 Basen bis mindestens 1000000 Basen variieren. Referenzsequenzen liegen oftmals in der Größenordnung von 100–10000 Basen. Die Referenzsequenz kann von exprimierten oder nicht-exprimierten Bereichen des Genoms stammen. In einigen Verfahren, in denen RNA-Proben verwendet werden, werden manchmal stark exprimierte Referenzsequenzen bevorzugt, um die Notwendigkeit einer RNA-Amplifizierung zu vermeiden. Die Funktion einer Referenzsequenz kann bekannt oder unbekannt sein. Referenzsequenzen können darüber hinaus von Episomen, wie beispielsweise von Mitrochondrien-DNA stammen. Selbstverständlich können mehrere Referenzsequenzen unabhängig voneinander analysiert werden.
3. Präparation von Proben der Zielnukleinsäure
Ziele können allelische Varianten, Artvarianten, induzierte oder andere Varianten von Referenzsequenzen sein. Eine beträchtliche Diversität zwischen Referenzsequenz und Zielsequenz ist möglich. Zielsequenzen weisen üblicherweise zwischen 50–99 %, 80–98 %, 90–95 % Sequenzidentität auf. Eine humane Referenzsequenz kann beispielsweise als Ausgangspunkt für die Analyse von Primaten, wie beispielsweise Gorillas, Orang-Utans, anderen Säugetieren, Reptilien, Vögeln, Pflanzen, Pilzen oder Bakterien verwendet werden.
Bei den Nukleinsäure-Proben, die mit Arrays hybridisiert werden, kann es sich um genomische Nukleinsäure, RNA oder cDNA handeln. Nukleinsäure-Proben werden üblicherweise vor der Anwendung eines Arrays einer Amplifikation unterworfen. Ein einzelner genomischer DNA-Abschnitt von derselben genomischen Lokalsierung wie eine festgelegte Referenzsequenz kann unter Verwendung von Primern, die die Referenzsequenz flankieren, amplifiziert werden. Mehrere genomische Abschnitte, die mehreren Referenzsequenzen entsprechen, können durch Multiplex-Amplifikation unter Einschluss von Primerpaaren hergestellt werden, die jede Referenzsequenz in der Amplifikationsmischung flankieren. Alternativ dazu kann das gesamte Genom unter Verwendung von Zufallsprimern (üblicherweise Hexamere; siehe Barrett et al., Nucleic Acids Research 23, 3488–3492 (1995)) oder durch Fragmentieren und Wiederzusammensetzen (siehe z.B. Stemmer et al., Gene 164, 49–53 (1995)) amplifiziert werden. Nukleinsäuren können darüber hinaus durch Klonierung in Vektoren- und Vermehren der Vektoren in geeigneten Organismen amplifi ziert werden. YACs, BACs und HACs sind für die Klonierung großer Abschnitte genomischer DNA nützlich.
Genomische DNA kann von nahezu jeder Gewebequelle erhalten werden (andere als reine rote Blutkörper-Zellen). Geeignete Gewebeproben umfassen beispielsweise Gesamtblut, Samen, Saliva, Tränen, Urin, Fäkalmaterial, Schweiß, Wangenmaterial (buccal), Haut und Haar.
RNA-Proben werden ferner oftmals einer Amplifikation unterworfen. In diesem Fall wird der Amplifikation üblicherweise eine reverse Transkription vorgeschaltet. Die Amplifikation der gesamten exprimierten mRNA kann wie in WO 96/14839 und WO 97/01603 beschrieben durchgeführt werden. In einigen Verfahren, in denen die Arrays so gestaltet sind, dass sie stark exprimierte Sequenzen abdecken, ist die Amplifikation von RNA unnötig. Die Auswahl des Gewebes, von dem die Probe erhalten wird, beeinflusst die relativen und absoluten Mengen von verschiedenen RNA-Transkripten in der Probe. Cytochrom P450 wird beispielsweise in hohen Mengen in der Leber exprimiert.
4. Verfahren der Amplifikation
Das PCR-Verfahren der Amplifikation wird in PCR Technology: Principles and Applications for DNA Amplification (Hrsg. H.A. Erlich, Freeman Press, NY, NY, 1992); PCR Protocols: A Guide to Methods and Applications (Hrsg. Innis, et al., Academic Press, San Diego, CA 1990); Mattila et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods and Applications 1, 17 (1991); PCR (Hrsg. McPherson et al., IRL Press, Oxford) und US-Patent 4,683,202 beschrieben. Nukleinsäuren in einer Zielprobe werden üblicherweise im Verlauf der Amplifikation durch Einsetzen von einem oder mehreren markierten Nukleotiden in die Amplifikationsmischung markiert. Markierungen können darüber hinaus nach der Amplifikation an Amplifikationsprodukte angeheftet werden, z.B. durch End-Markierung. Bei dem Amplifikationsprodukt kann es sich abhängig von dem Enzym und den Substraten, die in der Amplifikationsreaktion verwendet werden, um RNA oder DNA handeln.
Andere geeignete Amplifikationsverfahren umfassen die Ligasekettenreaktion (LCR; siehe Wu and Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988), die Transkriptionsamplifikation (Kwoh et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989)) sowie die selbst-unterhaltende Sequenzreplikation (self-sustained sequence replication; Guatelli et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990)) und die auf Nukleinsäure beruhende Sequenzamplifikation (nucleic acid based sequence amplification; NASBA). Die beiden letzteren Amplifikationsverfahren umfassen isothermale Reaktionen, die auf einer isothermalen Transkription basieren, welche sowohl einzelsträngige RNA (ssRNA) als auch doppelsträngige DNA (dsDNA) als Amplifikationsprodukte in einem Verhältnis von etwa 30 zu 1 bzw. 100 zu 1 produzieren.
5. Sondenarrays
Ein Sondenarray umfasst mindestens einen ersten Satz von Sonden, die komplementär zu einer Referenzsequenz (oder Bereichen von Interesse in derselben) sind. Üblicherweise decken die Sonden die Referenzsequenz ab. Abdecken bedeutet, dass der Sondensatz überlappende Sonden enthält, die komplementär zu einem Bereich von Interesse in der Referenzsequenz sind und diesen überspannen. Beispielsweise kann ein Sondensatz eine Abfolge von Sonden umfassen, bei der jede sich von ihrem Vorgänger in dem Auslassen einer 5'-Base und dem Zugewinn einer zusätzlichen 3'-Base unterscheidet. Die Sonden in einem Sondensatz können dieselbe Länge aufweisen oder nicht. Die Anzahl der Sonden kann stark variieren von etwa 5, 10, 20, 50, 100, 1000 bis 10000 oder 100000. Üblicherweise umfassen die Arrays nicht jede mögliche Sondensequenz einer gegebenen Länge.
Oftmals weisen abdeckende Arrays vier Sondensätze auf, wie es in WO 95/11995 beschrieben wird. Der erste Sondensatz umfasst eine Vielzahl von Sonden, die wie oben beschrieben eine perfekte Komplementärität zu einer Referenzsequenz aufweisen. Jede Sonde im ersten Sondensatz hat eine Abfrageposition, die einem Nukleotid in der Referenzsequenz entspricht. Dies bedeutet, dass die Abfrageposition dem entsprechenden Nukleotid in der Referenzsequenz gegenübergestellt wird, wenn die Sonde und die Referenzsequenz so gegenübergestellt werden, dass die Komplementärität zwischen den beiden maximiert wird. Für jede Sonde des ersten Satzes gibt es drei entsprechende Sonden von drei zusätzlichen Sondensätzen. Somit gibt es vier Sonden, die jedem Nukleotid in der Referenzsequenz entsprechen. Die Sonden der drei zusätzlichen Sondensätzen sind identisch mit der entsprechenden Sonde des ersten Sondensatzes, außer an der Abfrageposition, welche in jeder der vier entsprechenden Sonden aus den vier Sondensätzen an der gleichen Position vorkommt, und welche in den vier Sondensätzen von einem unterschiedlichen Nukleotid besetzt ist.
Ein Substrat, das die vier Sondensätze umfasst, wird mit einer markierten Zielsequenz hybridisiert, die eine wesentliche Sequenzähnlichkeit mit der Referenzsequenz aufweist, sich jedoch z.B. aufgrund von Artvariationen unterscheiden kann. Die Menge an Markierung, die an die Sonden gebunden hat, wird gemessen. Die Analyse des Musters der Markierung offenbart die Art und Position der Unterschiede zwischen der Zielsequenz und der Referenzsequenz. Der Vergleich der Intensitäten von vier entsprechenden Sonden offenbart beispielsweise die Identität eines entsprechenden Nukleotids in der Zielsequenz, das der Abfrageposition der Sonden gegenübergestellt wird. Das entspre chende Nukleotid ist das Komplementär des Nukleotids, das die Abfrageposition der Sonde besetzt, welche die höchste Intensität zeigt. Der Vergleich kann anhand von aufeinanderfolgenden Spalten von vier entsprechenden Sonden erfolgen, um die Identität aufeinanderfolgender Nukleotide in der Zielsequenz zu bestimmen.
In vielen Fällen des Vergleichens der vier entsprechenden Sonden weist eine der vier Sonden eindeutig ein signifikant stärkeres Signal auf als die anderen drei, und die Identität der Base in der Zielsequenz, die der Abfrageposition der Sonden gegenübergestellt wird, kann mit wesentlicher Sicherheit benannt werden. In einigen Fällen jedoch können zwei oder mehr Sonden ähnliche jedoch nicht identische Signale aufweisen. In diesen Fällen kann man die Position einfach als mehrdeutig werten. Alternativ dazu kann man auch eine Base der Sonde benennen, die das stärkere Signal aufweist, muss jedoch die signifikante Möglichkeit eines Fehlers in Betracht ziehen. Sofern der Verhältnis der Signale von zwei Sonden geringer ist als 1,2 weist eine Basenbenennung im Allgemeinen eine signifikante Möglichkeit eines Fehlers auf. Mehrdeutige Positionen lassen sich am häufigsten auf mehrere nahe beieinanderliegende Variationspunkte zwischen Zielsequenz und Referenzsequenz (d.h. innerhalb der Sondenlänge) zurückführen. Mehrdeutigkeiten können darüber hinaus durch eine geringe Hybridisierungsintensität aufgrund von Basenzusammensetzungs-effekten entstehen.
Ein sekundäres Sondenarray wird nach dem gleichen Prinzips wie das erste Array konstruiert, mit der Ausnahme, dass der erste Sondensatz auf Basis der neu geschätzten Sequenzen abdeckend ist, und nicht auf Basis der ursprünglichen Referenzsequenz. Wie oben angemerkt umfasst die geschätzte Sequenz im Allgemeinen die beste Schätzung von Basen, die an mehrdeutigen Positionen vorhanden sind. Sofern eine gleiche Wahrscheinlichkeit besteht, dass zwei oder mehr Basen eine bestimmte Position in der geschätzten Sequenz besetzen, kann man willkürlich entscheiden, eine dieser Basen aufzunehmen, abwechselnde Abdekkungen entsprechend der verschiedenen möglichen Basen bereitzustellen oder mehrere vereinigte Basen an dieser Position aufzunehmen. Das sekundäre Array weist üblicherweise einen zweiten, dritten und vierten Sondensatz auf, die nach den gleichen Prinzipien wie das primäre Array gestaltet wurden.
Das sekundäre Array wird mit derselben Zielnukleinsäure hybridisiert wie das primäre Array. Die Basen in der Zielsequenz werden wie oben beschrieben unter Verwendung der gleichen Prinzipien durch Vergleichen der Sonden-Intensitäten benannt, um zu einer neu geschätzten Zielsequenz zu gelangen.
Das Verfahren kann durch weitere Wiederholungen wiederholt werden, sofern dies erwünscht ist. Eine weitere Wiederholung ist erstrebenswert, wenn die geschätzte Sequenz eine beträchtliche Anzahl von Positionen enthält, die mit einem geringen Grad an Sicherheit geschätzt worden sind (z.B. anhand eines Vergleichs von Sonden-Intensitäten, die sich durch einen Faktor von weniger als 1,2 voneinander unterscheiden). Nach ausreichenden Wiederholungen sollte die aus einem Zyklus geschätzte Sequenz mit der aus dem nachfolgenden Zyklus übereinstimmen. In einigen Fällen können mehrdeutige Positionen über zahlreiche Zyklen verbleiben. Diese Positionen können auf Effekte, wie beispielsweise Heterozygosität, zurückzuführen sein und sollten durch andere Mittel überprüft werden (z.B. durch herkömmliche Didesoxysequenzierung oder de novo-Sequenzierung durch Hybridisierung mit einem vollständigen Array mit Sonden einer gegebenen Länge).
Zahlreiche Variationen bezüglich Array-Gestaltung und Array-Analyse sind möglich, wie beispielsweise in WO 95/11995; EP 717,113 ; WO 97/29212 beschrieben wird. Wahlweise decken die Arrays beide Stränge einer Referenzsequenz ab. Beide Stränge werden separat unter Verwendung der gleichen, oben beschriebenen Prinzipien abgedeckt, und die Hybridisierungsmuster der zwei Abdeckungen werden getrennt analysiert. Üblicherweise verweisen die Hybridisierungsmuster der beiden Stränge auf gleiche Ergebnisse (d.h. Lokalisation und/oder Art der Variation zwischen Zielsequenz und Referenzsequenz). Gelegentlich kann eine offensichtliche Unstimmigkeit zwischen den Hybridisierungsmustern der beiden Stränge auftreten, beispielsweise aufgrund von Auswirkungen der Basenzusammensetzung auf die Hybridisierungsintensitäten. Die Kombination von Ergebnissen hinsichtlich der beiden Stränge erhöht die Wahrscheinlichkeit einer korrekten Basenbenennung und kann die Anzahl der zur Bestimmung der korrekten Basensequenz des Ziels erforderlichen Wiederholungen verringern.
Gemäß einer weiteren Variation werden Doppelarrays synthetisiert, um die Analyse der Hybridisierung zwischen Zielsequenz und Sonden unter Bedingungen hoher und geringer Stringenz zu analysieren. Obgleich die hohe Stringenz im Allgemeinen am nützlichsten ist, gibt es einige Bereiche der Zielsequenz, wo die absolute Hybridisierungsintensität aufgrund von Basenzusammensetzungseffekten gering ist, was dazu führt, dass Basenbenennungen unter Bedingungen geringer Stringenz mit einem höheren Grad an Sicherheit durchgeführt werden können. Eine statistische Kombination von Basenbenennungen bei Bedingungen hoher und geringer Stringenz kann die Gesamtwahrscheinlichkeit einer korrekten Basenbenennung erhöhen.
6. Synthese und Scanning von Sondenarrays
Auf Trägern immobilisierte Sondenarrays können durch verschiedene Verfahren synthetisiert werden. Ein bevorzgtes Verfahren ist VLSPIS^TM (siehe Fodor et al., US 5,143,854 ; EP 467,014 , Fo dor et al., 1993, Nature 364, 555–556; McGall et al., US 5,889,165 ), das die Verwendung von Licht zur Steuerung der Synthese von Oligonukleotid-Sonden in miniaturisierten Hochdichte-Arrays (manchmal als Chips bezeichnet) umfasst. Algorithmen zum Erstellen von Masken zur Verringerung der Anzahl von Synthesezyklen sind von Hubbel et al., US 5,571,639 und US 5,593,839 beschrieben. Arrays können auch in kombinatorischer Weise durch die Bereitstellung von Monomeren an Zellen eines Trägers mittels mechanisch begrenzter Flusswege synthetisiert werden. Siehe Winkler et al., EP 624,059 . Arrays können darüber hinaus durch Auftragen von Monomer-Reagenzien auf einen Träger unter Verwendung eines Tintenstrahldruckers synthetisiert werden. Siehe oben; Pease et al., EP 728,520 .
Nach Hybridisierung von Kontrollproben und Zielproben mit einem Array, das einen oder mehrere der oben beschriebenen Sondensätze umfasst, und einem optionalen Waschen, um ungebundene und nicht spezifisch gebundene Sonde zu entfernen, wird die Hybridisierungsintensität für die entsprechenden Proben für jede Sonde in dem Array bestimmt. Bei fluoreszenten Markierungen kann die Hybridisierungsintensität beispielsweise mittels eines konfokalen Scanning-Mikroskops im Photonen-Zählmodus bestimmt werden. Geeignete Scanning-Vorrichtungen werden beispielsweise von Trulson et al., US 5,578,832 ; Stern et al., US 5,631,734 beschrieben.
7. Resequenzierunq im großen Maßstab
Die oben beschriebenen Verfahren können für die vergleichende Analyse von gesamten Genomen oder wesentlichen Teilen derselben verwendet werden. Zur Veranschaulichung wird angemerkt, dass etwa 300 Chips mit 1 Mb/Chip erforderlich sind, um 10 eines Säugetiergenoms zu sequenzieren (d.h. alle Gene und einen wesentlichen Teil ihrer umgebenen Sequenz). Wenn 40 Chips auf einem herkömmlichen Wafer unter Verwendung einer einzelnen Maske synthetisiert werden, werden lediglich 8 Maskengestaltungen pro Wiederholung benötigt. Wenn 10 Wiederholungen erforderlich sind, werden lediglich 80 Maskengestaltungen benötigt, und es werden insgesamt 3000 Chips hergestellt.
Obwohl das gesamte Genom auf einem Chip in einem einzelnen Experiment hybridisiert werden kann, ist es oftmals nützlicher, Vereinigungen von klonierten Sequenzen, die jeweils ungefähr 1 Mb darstellen, zu hybridisieren. Dies kann auf folgende Weise durchgeführt werden. Zunächst wird ein minimal überlappender Satz von physikalischen Klonen erhalten. Beispielsweise werden Zufallsklone des bakteriellen artifiziellen Chromosom erzeugt und durch Hybridisierung oder durch konventionelle Verfahren geordnet. Sofern notwendig werden Bereiche bestimmt, die an verwandten Positionen im Genom kartieren. Beispielsweise werden Vereinigungen von Klonen mit einem Array kartierter Marker hybridisiert. Anschließend werden Vereinigungen von Klonen für die Hybridisierung erzeugt (z.B. 300 Vereinigungen; wenn die Resequenzierungskapazität 1 Mb/Chip beträgt und 300 Chip-Gestaltungen verwendet werden, um ein 10tel eines Säugetiergenoms zu analysieren).
8. Anwendungen
Einige der Vorteile der Resequenzierung von verwandten Genomen sind:

1) Korrigieren von Sequenzierungsfehlern. Diese werden oftmals durch vergleichende Analyse korrigiert. Wenn beispielsweise ein offener Leserahmen in einem Genom in einem zweiten nahe verwandten Genom aus dem Leserahmen geraten ist, so ist meist ein Sequenzierungsfehler die Ursache dieses Unterschieds. Alle nachgewiesenen Sequenzunterschiede können in dem Referenzgenom durch einfache Überprüfung der primären Daten des Sequenzierungsverlaufs oder mittels weiterer Analyse verifiziert werden.
2) Identifizierung von Promotorsequenzen und Genen. Funktionell wichtige Elemente neigen dazu, konserviert zu sein. In einigen Fällen werden funktionelle Elemente, die durch direkte Sequenzanalyse schwierig zu identifizieren sind (wie beispielsweise kleine Exons oder regulatorische Sequenzen), durch Identifizierung von relativ kurzen Sequenzen aufgeklärt, welche zwischen Genomen streng konserviert sind.
3) Die Analyse von Sequenzunterschieden zwischen unterschiedlichen Arten ermöglicht eine Korrelation zwischen Form und Funktion. Die Sequenz von Schimpanse und Mensch weicht beispielsweise zu insgesamt 1 % voneinander ab. Die vorliegenden Verfahren ermöglichen des Weiteren den Vergleich eines Bereichs von Primatensequenzen, um festzustellen, welche Sequenzen sich am schnellsten entwickelt haben und welche stark konserviert sind.

Aus dem oben Gesagten wird ersichtlich sein, dass die Erfindung ein allgemeines Konzept umfasst, welches in Kürze wie folgt dargestellt werden kann. Die Erfindung umfasst die Verwendung von sich wiederholenden Zyklen der Gestaltung eines Sondenarrays, sodass dieser komplementär zu einer geschätzten Sequenz einer Zielnukleinsäure ist, sowie die Verwendung der Muster der Hybridisierung des Arrays mit der Zielnukleinsäuresequenz zur Bestimmung einer genaueren, neu geschätzten Zielsequenz.
Obwohl die vorliegende Erfindung durch Veranschaulichung und Beispiel zum Zwecke der Klarheit und des Verständnisses verhältnismäßig ausführlich beschrieben worden ist, wird es ersichtlich sein, dass einige Änderungen sowie Modifikationen im Rahmen des Umfangs der beiliegenden Ansprüche vorgenommen werden können.

Claims

Verfahren zur Analyse einer Zielnukleinsäure, Schritte umfassend, bei denen man: (a) ein Sondenarray so gestaltet, dass dieses komplementärzu einer geschätzten Sequenz der Zielnukleinsäure ist, (b) das Sondenarray mit der Zielnukleinsäure hybridisiert; (c) eine neu geschätzte Zielsequenz anhand des Musters der Hybridisierung des Arrays mit der Zielnukleinsäuresequenz bestimmt; und (d) die Schritte (a)–(c) mindestens einmal wiederholt.
Verfahren gemäß Anspruch 1, wobei das Verfahren Schritte umfasst, bei denen man: (1) ein Sondenarray bereitstellt, das einen Sondensatz umfasst, der zu einer Referenzsequenz komplementäre Sonden umfasst, wobei die Zielnukleinsäure eine Variante der Referenzsequenz ist; (2) die Zielnukleinsäuresequenz mit dem Sondenarray hybridisiert; (3) die relative Hybridisierung der Sonden mit der Zielnukleinsäure bestimmt, (4) die Sequenz der Zielsequenz anhand der relativen Hybridisierung der Sonden schätzt; (5) ein weiteres Sondenarray bereitstellt, das einen Sondensatz umfasst, der zu der geschätzten Sequenz der Zielnukleinsäure komplementäre Sonden umfasst; (6) die Zielnukleinsäure mit dem weiteren Sondenarray hybridisiert; (7) die relative Hybridisierung der Sonden mit der Zielnukleinsäure bestimmt; (8) anhand der relativen Hybridisierung der Sonden die Sequenz der Zielsequenz neu schätzt.
Verfahren gemäß Anspruch 2, bei dem man ferner die Schritte (5)–(8) soweit erforderlich wiederholt, bis die neu geschätzte Sequenz der Zielnukleinsäure die tatsächliche Sequenz der Zielnukleinsäure ist.
Verfahren gemäß Anspruch 2, bei dem die Zielnukleinsäure eine Artvariante der Referenzsequenz ist.
Verfahren gemäß Anspruch 2, bei dem die Referenzsequenz von einem Menschen und die Zielsequenz von einem Primaten stammt.
Verfahren gemäß Anspruch 2, bei dem die Zielnukleinsäure 50–99 % Sequenzidentität mit der Referenzsequenz aufweist.
Verfahren gemäß Anspruch 2, bei dem die Zielnukleinsäure 80–95 % Sequenzidentität mit der Referenzsequenz aufweist.
Verfahren gemäß Anspruch 2, bei dem die Referenzsequenz mindestens 1000 Nukleotide lang ist, das Array einen Sondensatz umfasst, der überlappende Sonden umfasst, welche perfekt komplementär zu der Referenzsequenz sind und diese überspannen, und wobei das weitere Array Sonden umfasst, die perfekt komplementär zu der geschätzten Sequenz sind und diese überspannen.
Verfahren gemäß Anspruch 2, bei dem eine geschätzte Sequenz der Zielnukleinsäure eine mehrdeutige Position umfasst, und der Sondensatz, der eine perfekte Komplementarität zu der geschätzten Sequenz aufweist, eine Sonde umfasst, die ein vereinigtes Nukleotid aufweist, das der mehrdeutigen Position in der Zielsequenz gegenübergestellt wird.
Verfahren gemäß Anspruch 2, bei dem die Referenzsequenz mindestens 10 kb ist.
Verfahren gemäß Anspruch 2, bei dem die Referenzsequenz mindestens 1000 kb ist.
Verfahren gemäß Anspruch 2, bei dem die Referenzsequenz mindestens 90 % des humanen Genoms umfasst.
Verfahren gemäß Anspruch 2, bei dem das Sondenarray folgendes umfasst: (1) einen ersten Sondensatz, der eine Mehrzahl von Sonden umfasst, wobei jede Sonde einen Abschnitt von mindestens 6 Nukleotiden umfasst, der exakt komplementär zu einer Teilsequenz der Referenzsequenz ist, wobei der Abschnitt mindestens eine Abfrageposition umfasst, die komplementär zu einem entsprechenden Nukleotid in der Referenzsequenz ist; (2) einen zweiten, dritten und vierten Sondensatz, die jeweils eine entsprechende Sonde für jede Sonde in dem ersten Sondensatzes umfassen, wobei die Sonden in dem zweiten, dritten und vierten Sondensatz identisch zu einer Sequenz sind, welche die entsprechende Sonde aus dem ersten Sondensatz oder eine Teilsequenz von mindestens 6 Nukleotiden derselben umfasst, welche die mindestens eine Abfrageposition umfasst, mit der Ausnahme, dass die mindestens eine Abfrageposition in jeder der vier entsprechenden Sonden der vier Sondensätze durch ein verschiedenes Nukleotid besetzt ist.
Verfahren gemäß Anspruch 10, bei dem die Zielsequenz geschätzt wird, indem man: (1) die relative spezifische Bindung von vier entsprechenden Sonden aus dem ersten, zweiten, dritten und vierten Sondensatz vergleicht; (2) ein Nukleotid in der Zielsequenz als das Komplementär der Abfrageposition von der Sonde festlegt, die die größte spezifische Bindung aufweist; (3) die Schritte (1) und (2) wiederholt, bis jedes ausgewählte Nukleotid von Interesse in der Zielsequenz geschätzt wurde.
Verfahren gemäß Anspruch 2, bei dem die Zielsequenz sich von der Referenzsequenz in mindestens zwei Positionen innerhalb einer Sondenlänge unterscheidet.