-
TECHNISCHES
GEBIET
-
Die
Erfindung betrifft das technische Gebiet der Molekulargenetik, der
Genomanalyse sowie der vergleichenden Sequenzanalyse.
-
HINTERGRUND
-
Die übliche Vorgehensweise
bei der Sequenzanalyse eines Genoms erfordert, dass eine primäre Sequenz
durch herkömmliche,
auf Gelen beruhende Verfahren bestimmt wird (üblicherweise unter Verwendung
der DNA-Sequenziergeräte
von Applied Biosystems). Bei dieser Art der Vorgehensweise erhöht sich
der Arbeitsaufwand sowohl proportional zur Länge der Sequenz als auch proportional
zur Anzahl der zu untersuchenden Organismen und wird bei langen DNA-Abschnitten
oder einer großen
Anzahl von Organismen unpraktikabel. Aus diesem Grund sind relativ
wenige Individuen innerhalb einer Art sequenziert worden, um nach
einer Polymorphismus-Variation zu suchen. Darüber hinaus sind nur wenige
beispielhafte Arten, wie beispielsweise Menschen und E. Co1i, einer
Sequenzierung im großen
Maßstab
unterworfen worden.
-
US 5,525,464 diskutiert
ein Verfahren der de novo-Sequenzierung
durch Hybridisierung, bei dem die Sequenz einer unbekannten Zielnukleinsäure aus Überlappungen
zwischen hybridisierenden Oligonukleotiden aus einer großen Population
von Oligonukleotiden, die mit der Zielsequenz in Kontakt gebracht werden,
rekonstruiert wird.
-
Sobald
eine prototypische Sequenz oder eine Referenzsequenz bestimmt worden
ist, stellen Sondenarrays ein effizienteres Mittel zur Analyse von Varianten-Sequenzen
dar. Die Analyse der Muster der Hybridisierung der Sonden mit einer
Zielnu kleinsäure
offenbart die Position (und wahlweise die Art) von Unterschieden
zwischen der Zielsequenz und der Referenzsequenz. WO 95/11995 beschreibt
beispielsweise Arrays, die vier Sondensätze umfassen. Der Vergleich
der Intensitäten
von vier entsprechenden Sonden aus den vier Sätzen an eine Zielsequenz offenbart
die Identität
eines entsprechenden Nukleotids in den Zielsequenzen, das einer
Abfrageposition der Sonden gegenübergestellt
wird. Das entsprechende Nukleotid ist das Komplementär des Nukleotids,
welches die Abfrageposition der Sonde besetzt, die die höchste Intensität zeigt.
-
Das
Vorliegen einer Variation zwischen einer Zielsequenz und einer Referenzsequenz
kann ferner anhand von Unterschieden bezüglich der normalisierten Hybridisierungs-Intensitäten von
Sonden ermittelt werden, die die Variation flankieren, wenn die Sonden
mit der Zielsequenz bzw. mit der Referenzsequenz hybridisiert werden.
Der relative Verlust der Hybridisierungs-Intensität manifestiert sich als ein "Footprint" von Sonden, die
den Variationspunkt zwischen Zielsequenz und Referenzsequenz flankieren (siehe
EP 717,113 ). Darüber hinaus
können
die Hybridisierungs-Intensitäten
für zahlreiche
Ziele verschiedenen Ursprungs in Gruppen oder Cluster eingeteilt
werden, die anhand dieser Daten gebildet werden (und nicht a priori
definiert werden), so dass Isolate in einem gegebenen Cluster dazu
neigen, einander ähnlich
zu sein, und Isolate in verschiedenen Clustern dazu neigen, unähnlich zu
sein (siehe WO 97/29212).
-
Eine
auf einem Array beruhende Resequenzierung wurde beispielsweise bei
der Identifizierung einer großen
Anzahl von humanen Polymorphismen in Mitochondrien-DNA und ESTs,
bei der Identifizierung von Wirkstoff-induzierten Mutationen in
HIV sowie bei der Analyse von Mutationen in p53, die mit humanem
Krebs zusammenhängen,
verwendet.
-
DEFINITIONEN
-
Eine
Nukleinsäure
ist ein Desoxyribonukleotid- oder Ribonukleotid-Polymer, entweder
in einzelsträngiger
oder doppelsträngiger
Form, und schließt bekannte
Analoga natürlicher
Nukleotide ein, sofern es nicht anderweitig angegeben wird.
-
Ein
Oligonukleotid ist eine einzelsträngige Nukleinsäure, die
eine Länge
von 2 bis etwa 500 Basen aufweist, und üblicherweise aus etwa 8 bis
40 Basen, und noch üblicher
aus 10 bis 25 Basen besteht.
-
Eine
Sonde. ist ein Oligonukleotid, das in der Lage ist, durch eine oder
mehrere Arten von chemischen Bindungen, üblicherweise durch komplementäre Basenpaarung, üblicherweise
durch Bildung einer Wasserstoffbindung, an eine Zielnukleinsäure mit komplementärer Sequenz
zu binden. Eine Oligonukleotidsonde kann natürliche (d.h. A, G, C oder T)
oder modifizierte Basen (z.B. 7-Deazaguanosin, Inosin) umfassen.
Darüber
hinaus können
die Basen in einer Oligonukleotidsonde durch eine andere Verknüpfung als
eine Phosphodiester-Bindung verbunden sein, solange diese nicht
mit der Hybridisierung interferiert. Somit können Oligonukleotidsonden Peptid-Nukleinsäuren sein,
in denen die einzelnen Basen durch Peptid-Bindungen zusammengehalten
werden, und nicht durch Phosphodiester-Verknüpfungen. Siehe Nielsen et al.,
Science 254, 1497–1500
(1991).
-
Eine
spezifische Hybridisierung betrifft die Bindung, Duplexierung oder
Hybridisierung eines Moleküls
unter stringenten Bedingungen an lediglich eine bestimmte Nukleinsäuresequenz,
wenn diese Sequenz in einer komplexen Mischung vorliegt (z.B. gesamtzelluläre) DNA
oder RNA. Stringente Bedingungen sind Bedingungen, unter denen eine
Sonde an ihre Zielsequenz hybridisieren wird, jedoch nicht an andere
Sequenzen. Stringente Bedingungen sind Sequenz-abhängig und
unter unterschiedlichen Bedingungen unterschiedlich. Längere Sequenzen
hybridisieren spezifisch bei höheren
Temperaturen. In der Regel werden stringente Bedingungen so gewählt, dass
sie etwa 5 °C
niedriger als der thermale Schmelzpunkt (Tm) der spezifischen Sequenz
bei einer definierten Ionenstärke
und einem definierten pH sind. Der Tm ist die Temperatur (bei definierter
Ionenstärke,
pH und Nukleinsäurekonzentration),
bei der im Äquilibrium
50 % der Sonden, die komplementär zu
der Zielsequenz sind, mit der Zielsequenz hybridisieren. (Da die
Zielsequenzen üblicherweise
im Überschuss
vorhanden sind, sind am Tm im Äquilibrium
50 % der Sonden besetzt). Üblicherweise
umfassen stringente Bedingungen eine Salzkonzentration von mindestens
etwa 0,01 bis 1,0 M Na-Ionenkonzentration (oder andere Salze) bei
pH 7,0 bis 8,3, und die Temperatur beträgt mindestens etwa 30 °C für kurze
Sonden (z.B. 10 bis 50 Nukleotide). Stringente Bedingungen können ferner
durch Zugabe von destabilisierenden Mitteln, wie beispielsweise
Formamid, erzielt werden. Bedingungen von 5X SSPE (750 mM NaCl,
50 mM Na-Phosphat, 5 mM EDTA, pH 7,4) und einer Temperatur von 25–30 °C sind beispielsweise
für Allel-spezifische
Sonden-Hybridisierungen geeignet.
-
Eine
perfekt übereinstimmende
Sonde weist einen Abschnitt auf, der perfekt komplementär zu einer
bestimmten Zielsequenz ist. Komplementäre Basenpaarung bedeutet Sequenz-spezifische
Basenpaarung, die beispielsweise Watson-Crick-Basenpaarung oder
andere Formen der Basenpaarung, wie beispielsweise Hoogsteen-Basenpaarung, umfasst. Die
Sonden weisen üblicherweise
einen komplementären
Abschnitt von 6–20
Nukleotiden auf, und vorzugsweise von 10–25 Nukleotiden. Leader-Sequenzen
oder anhängende
Sequenzen, die den komplementären
Abschnitt flankieren, können
ebenfalls vorhanden sein. Der Begriff "Fehlpaarungs-Sonde" (mismatch probe) bezieht sich auf Sonden,
deren Sequenz bewusst so ausgewählt
ist, dass sie nicht perfekt komplementär zu einer bestimmten Zielsequenz sind.
Obwohl die Fehlpaarung(en) irgendwo in der Mismatch-Sonde lokalisiert
sein kann (können),
sind terminale Fehlpaarungen weniger erwünscht, da eine terminale Fehlpaarung
mit geringerer Wahrscheinlichkeit eine Hybridisierung der Zielsequenz
verhindern kann. Aus diesem Grund sind Sonden oftmals so konstruiert,
dass die Fehlpaarung im Zentrum oder nahe des Zentrums der Sonde
lokalisiert ist, sodass die Fehlpaarung mit hoher Wahrscheinlichkeit den
Duplex mit der Zielsequenz unter den Hybridisierungsbedingungen
des Tests destabilisiert.
-
Polymorphismen
beziehen sich auf das Auftreten von zwei oder mehreren genetisch
determinierten alternativen Sequenzen oder Allelen in einer Population.
Ein Polymorphismus-Marker oder eine Polymorphismus-Stelle ist der
Ort, an dem die Abweichung auftritt. Bevorzugte Marker weisen mindestens zwei
Allele auf, von denen jedes mit einer Frequenz von größer als
1 %, und vorzugsweise größer als
10 % oder 20 % einer ausgewählten
Population auftritt. Ein Polymorphismus-Ort kann bis zu einem Basenpaar
klein sein.
-
Ein
Array, das eine vereinigte (pooled) Sonde umfasst, bedeutet, dass
eine Zelle in dem Array von einer vereinigten Mischung von Sonden
besetzt ist. Beispielsweise könnte
eine Zelle von den Sonden ACCCTCCA und ACCCCCCA besetzt sein, wobei
in diesem Fall die unterstrichene Position als eine vereinigte Position
beschrieben wird. Obwohl die Identität jeder Sonde in der Mischung
bekannt ist, sind die einzelnen Sonden in der Vereinigung nicht
separat ansprechbar. Daher ist das Hybridisierungssignal von einer
Zelle die Ansammlung von dem Signal der verschiedenen Sonden, die
die Zelle besetzen.
-
Der
Begriff Artvariante bezieht sich auf eine Gensequenz, die evolutionär und funktionell
zwischen den Arten verwandt ist. Im humanen Genom stellt beispielsweise
das humane CD4-Gen das mit dem CD4-Gen der Maus verwandte Gen dar,
da die Sequenzen und Strukturen dieser beiden Gene darauf verweisen,
dass sie stark homolog sind, und beide Gene ein Protein kodieren,
das durch MHC-Klasse II-beschränkte
Antigenerkennung die T-Zellaktivierung signalisiert.
-
Die
prozentuale Sequenzidentität
wird zwischen optimal gegenübergestellten
(aligned) Sequenzen ausgehend von computergestützten Implementierungen von
Algorithmen, wie beispielsweise GAP, BESTFIT, FASTA und TFASTA im
Wisconsin Genetics Software Package Release, 7,9, Genetics Computer
Group, 575 Science Dr., Madison, WI, bestimmt.
-
ZUSAMMENFASSUNG
DER BEANSPRUCHTEN ERFINDUNG
-
Die
Erfindung stellt sich wiederholende Verfahren zur Analyse einer
Zielsequenz bereit, die eine Variante einer Referenzsequenz darstellt.
Die Verfahren umfassen ein Sondenarray, das einen Sondensatz umfasst,
der zu der Referenzsequenz komplementäre Sonden umfasst. Eine Zielnukleinsäure wird mit
dem Sondenarray hybridisiert. Die relativen Intensitäten der
Hybridisierung der Sonden mit der Zielnukleinsäure werden anschließend bestimmt.
Die relativen Hybridisierungsintensitäten werden verwendet, um eine
Sequenz der Zielnukleinsäure
zu schätzen. Ein
weiteres Sondenarray wird anschließend bereitgestellt, das einen
Sondensatz umfasst, welcher zu der geschätzten Sequenz der Zielnukleinsäure komplementäre Sonden
umfasst. Die Zielnukleinsäure wird
anschließend
mit dem weiteren Sondenarray hybridisiert, und die relative Hybridisierung
der Sonden mit der Zielsequenz wird bestimmt. Die Sequenz der Zielnukleinsäure wird
anschließend
anhand der relativen Hybridisierungsintensitäten der Sonden neu geschätzt. Die
Zyklen von Hybridisierung und Schätzen der Sequenz der Zielnukleinsäure können (falls
erwünscht)
wiederholt werden, bis die neu geschätzte Sequenz der Zielnukleinsäure die
tatsächliche
Sequenz der Zielnukleinsäure
ist.
-
Die
Verfahren sind insbesondere bei der Analyse einer Zielnukleinsäure nützlich,
die eine Artvariante einer bekannten Referenzsequenz darstellt. Beispielsweise
kann die Referenzsequenz von einem Menschen stammen und die Zielsequenz
von einem Primaten. Üblicherweise
weist die Zielnukleinsäure
50 bis 99 Sequenzidentität
mit der Referenzsequenz auf. Die Verfahren sind darüber hinaus
insbesondere in Situationen nützlich,
in denen sich eine Zielsequenz von einer Referenzsequenz durch mehr als
eine Mutationen innerhalb einer Sondenlänge unterscheidet.
-
Die
Verfahren können
problemlos an eine Referenzsequenz mit einer Länge von mindestens 1 oder 10
kb, oder sogar an ein vollständiges
oder im Wesentlichen vollständiges
humanes Chromosom oder Genom angepasst werden. Ein Sondensatz zur Verwendung
in diesen Verfahren umfasst üblicherweise überlappende
Sonden, die perfekt komplementär
zu der Referenzsequenz sind und diese überspannen, und das weitere
Array umfasst Sonden, die perfekt komplementär zu der geschätzten Sequenz sind
und diese überspannen.
-
In
einigen Verfahren umfassen die Sondenarrays 4 Sondensätze. Ein
erster Sondensatz umfasst eine Vielzahl von Sonden, wobei jede Sonde einen
Abschnitt von mindestens 6 Nukleotiden umfasst, der exakt komplementär zu einer
Teilsequenz der Referenzsequenz sind, und wobei der Abschnitt mindestens
eine Abfrageposition umfasst, die komplementär zu einem entsprechenden Nukleotid
in der Referenzsequenz ist. Der zweite, dritte und vierte Sondensatz
umfasst jeweils eine entsprechende Sonde für jede Sonde in dem ersten
Sondensatz, wobei die Sonden in dem zweiten, dritten und vierten Sondensatz
identisch zu einer Sequenz sind, die die entsprechende Sonde aus
dem ersten Sondensatz oder eine Teilsequenz von mindestens 6 Nukleotiden derselben
umfasst, welche die mindestens eine Abfrageposition umfasst, mit
der Ausnahme, dass die mindestens eine Abfragepo sition in jedem
der vier entsprechenden Sonden aus den vier Sondensätzen durch
ein unterschiedliches Nukleotid besetzt ist. In solchen Verfahren
kann die Zielsequenz durch Vergleichen der relativen spezifischen
Bindung der vier entsprechenden Sonden aus dem ersten, zweiten, dritten
und vierten Sondensatz geschätzt
werden. Ein Nukleotid in der Zielnukleinsäure wird anschließend als
das Komplementär
der Abfrageposition von der Sonde mit der größen spezifischen Bindung festgelegt.
Andere Nukleotide in der Zielsequenz werden durch ähnliche
Vergleiche festgelegt.
-
Die
Erfindung stellt ferner Verfahren zur Analyse einer Zielnukleinsäure bereit,
die die folgenden Schritte umfassen. Ein Sondenarray wird so gestaltet,
dass dieses komplementär
zu einer geschätzten Sequenz
der Zielnukleinsäure
ist. Das Sondenarray wird mit der Zielnukleinsäure hybridisiert. Die Zielnukleinsäure wird
anhand des Musters der Hybridisierung des Arrays mit der Zielnukleinsäure neu
geschätzt.
Die Schritte werden mindestens einmal wiederholt.
-
AUSFÜHRLICHE BESCHREIBUNG
-
1. Allgemeines
-
Die
Erfindung stellt verbesserte Verfahren zur Analyse von Varianten
einer Referenzsequenz unter Verwendung von Sondenarrays bereit.
Die Verfahren sind insbesondere bei Zielsequenzen nützlich, die
eine wesentliche Abweichung von einer Referenzsequenz zeigen, wie
es der Fall sein kann, wenn Zielsequenz und Referenzsequenz aus
unterschiedlichen Arten stammen. Diese Verfahren umfassen die Gestaltung
eines primären
Sondenarrays auf Basis einer bekannten Referenzsequenz. Die Referenzsequenz
dient gewissermaßen
als erste Schätzung
der Sequenz der Zielnukleinsäure.
Das primäre
Sondenarray wird mit einer Zielnukleinsäure hybridisiert, und die Sequenz
des Ziels wird so gut wie möglich anhand
des Musters der Hybridisierung mit dem primären Array geschätzt. Ein
sekundäres
Sondenarray wird anschließend
auf Basis der geschätzten
Sequenz der Zielnukleinsäure
gestaltet. Die Zielnukleinsäure
wird anschließend
mit dem sekundären
Sondenarray hybridisiert, und die Sequenz wird anhand des resultierenden
Hybridisierungsmusters neu geschätzt.
Weitere Zyklen von Array-Gestaltung und Schätzung der Zielsequenz können in
sich wiederholender Weise durchgeführt werden, falls dies erwünscht ist,
bis die geschätzte
Sequenz in aufeinanderfolgenden Zyklen konstant ist.
-
2. Referenzsequenzen
-
Referenzsequenzen
für die
Identifizierung einer Polymorphismus-Stelle werden oftmals von Computerdatenbanken,
wie beispielsweise Genbank, Stanford Genome Center, The Institute
for Genome Research und Whitehead Institute, erhalten. Letztere
Datenbanken sind unter http://www-genome.wi.mit.edu; http://shgc.stanford.edu
und http://www.tigr.org verfügbar.
Referenzsequenzen stammen üblicherweise
von hinreichend charakterisierten Organismen, wie beispielsweise
Mensch, Maus, C. elegans, Arabidopsis, Drosophila, Hefe, E. coli
oder Bacillus subtilis. Eine Referenzsequenz kann hinsichtlich ihrer
Länge von
5 Basen bis mindestens 1000000 Basen variieren. Referenzsequenzen
liegen oftmals in der Größenordnung
von 100–10000
Basen. Die Referenzsequenz kann von exprimierten oder nicht-exprimierten
Bereichen des Genoms stammen. In einigen Verfahren, in denen RNA-Proben
verwendet werden, werden manchmal stark exprimierte Referenzsequenzen
bevorzugt, um die Notwendigkeit einer RNA-Amplifizierung zu vermeiden.
Die Funktion einer Referenzsequenz kann bekannt oder unbekannt sein.
Referenzsequenzen können
darüber
hinaus von Episomen, wie beispielsweise von Mitrochondrien-DNA stammen.
Selbstverständlich können mehrere
Referenzsequenzen unabhängig
voneinander analysiert werden.
-
3. Präparation
von Proben der Zielnukleinsäure
-
Ziele
können
allelische Varianten, Artvarianten, induzierte oder andere Varianten
von Referenzsequenzen sein. Eine beträchtliche Diversität zwischen
Referenzsequenz und Zielsequenz ist möglich. Zielsequenzen weisen üblicherweise
zwischen 50–99
%, 80–98
%, 90–95
% Sequenzidentität
auf. Eine humane Referenzsequenz kann beispielsweise als Ausgangspunkt
für die
Analyse von Primaten, wie beispielsweise Gorillas, Orang-Utans, anderen Säugetieren,
Reptilien, Vögeln,
Pflanzen, Pilzen oder Bakterien verwendet werden.
-
Bei
den Nukleinsäure-Proben,
die mit Arrays hybridisiert werden, kann es sich um genomische Nukleinsäure, RNA
oder cDNA handeln. Nukleinsäure-Proben
werden üblicherweise
vor der Anwendung eines Arrays einer Amplifikation unterworfen.
Ein einzelner genomischer DNA-Abschnitt von derselben genomischen
Lokalsierung wie eine festgelegte Referenzsequenz kann unter Verwendung
von Primern, die die Referenzsequenz flankieren, amplifiziert werden.
Mehrere genomische Abschnitte, die mehreren Referenzsequenzen entsprechen,
können
durch Multiplex-Amplifikation
unter Einschluss von Primerpaaren hergestellt werden, die jede Referenzsequenz
in der Amplifikationsmischung flankieren. Alternativ dazu kann das
gesamte Genom unter Verwendung von Zufallsprimern (üblicherweise
Hexamere; siehe Barrett et al., Nucleic Acids Research 23, 3488–3492 (1995))
oder durch Fragmentieren und Wiederzusammensetzen (siehe z.B. Stemmer
et al., Gene 164, 49–53
(1995)) amplifiziert werden. Nukleinsäuren können darüber hinaus durch Klonierung
in Vektoren- und
Vermehren der Vektoren in geeigneten Organismen amplifi ziert werden.
YACs, BACs und HACs sind für
die Klonierung großer
Abschnitte genomischer DNA nützlich.
-
Genomische
DNA kann von nahezu jeder Gewebequelle erhalten werden (andere als
reine rote Blutkörper-Zellen).
Geeignete Gewebeproben umfassen beispielsweise Gesamtblut, Samen,
Saliva, Tränen,
Urin, Fäkalmaterial,
Schweiß,
Wangenmaterial (buccal), Haut und Haar.
-
RNA-Proben
werden ferner oftmals einer Amplifikation unterworfen. In diesem
Fall wird der Amplifikation üblicherweise
eine reverse Transkription vorgeschaltet. Die Amplifikation der
gesamten exprimierten mRNA kann wie in WO 96/14839 und WO 97/01603
beschrieben durchgeführt
werden. In einigen Verfahren, in denen die Arrays so gestaltet sind, dass
sie stark exprimierte Sequenzen abdecken, ist die Amplifikation
von RNA unnötig.
Die Auswahl des Gewebes, von dem die Probe erhalten wird, beeinflusst
die relativen und absoluten Mengen von verschiedenen RNA-Transkripten
in der Probe. Cytochrom P450 wird beispielsweise in hohen Mengen
in der Leber exprimiert.
-
4. Verfahren
der Amplifikation
-
Das
PCR-Verfahren der Amplifikation wird in PCR Technology: Principles
and Applications for DNA Amplification (Hrsg. H.A. Erlich, Freeman Press,
NY, NY, 1992); PCR Protocols: A Guide to Methods and Applications
(Hrsg. Innis, et al., Academic Press, San Diego, CA 1990); Mattila
et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods
and Applications 1, 17 (1991); PCR (Hrsg. McPherson et al., IRL
Press, Oxford) und US-Patent 4,683,202 beschrieben. Nukleinsäuren in
einer Zielprobe werden üblicherweise
im Verlauf der Amplifikation durch Einsetzen von einem oder mehreren
markierten Nukleotiden in die Amplifikationsmischung markiert. Markierungen
können darüber hinaus
nach der Amplifikation an Amplifikationsprodukte angeheftet werden,
z.B. durch End-Markierung. Bei dem Amplifikationsprodukt kann es
sich abhängig
von dem Enzym und den Substraten, die in der Amplifikationsreaktion
verwendet werden, um RNA oder DNA handeln.
-
Andere
geeignete Amplifikationsverfahren umfassen die Ligasekettenreaktion
(LCR; siehe Wu and Wallace, Genomics 4, 560 (1989), Landegren et al.,
Science 241, 1077 (1988), die Transkriptionsamplifikation (Kwoh
et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989)) sowie die selbst-unterhaltende
Sequenzreplikation (self-sustained sequence replication; Guatelli
et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990)) und die auf
Nukleinsäure
beruhende Sequenzamplifikation (nucleic acid based sequence amplification;
NASBA). Die beiden letzteren Amplifikationsverfahren umfassen isothermale
Reaktionen, die auf einer isothermalen Transkription basieren, welche
sowohl einzelsträngige
RNA (ssRNA) als auch doppelsträngige
DNA (dsDNA) als Amplifikationsprodukte in einem Verhältnis von
etwa 30 zu 1 bzw. 100 zu 1 produzieren.
-
5. Sondenarrays
-
Ein
Sondenarray umfasst mindestens einen ersten Satz von Sonden, die
komplementär
zu einer Referenzsequenz (oder Bereichen von Interesse in derselben)
sind. Üblicherweise
decken die Sonden die Referenzsequenz ab. Abdecken bedeutet, dass der
Sondensatz überlappende
Sonden enthält,
die komplementär
zu einem Bereich von Interesse in der Referenzsequenz sind und diesen überspannen.
Beispielsweise kann ein Sondensatz eine Abfolge von Sonden umfassen,
bei der jede sich von ihrem Vorgänger
in dem Auslassen einer 5'-Base
und dem Zugewinn einer zusätzlichen
3'-Base unterscheidet.
Die Sonden in einem Sondensatz können
dieselbe Länge
aufweisen oder nicht. Die Anzahl der Sonden kann stark variieren
von etwa 5, 10, 20, 50, 100, 1000 bis 10000 oder 100000. Üblicherweise
umfassen die Arrays nicht jede mögliche
Sondensequenz einer gegebenen Länge.
-
Oftmals
weisen abdeckende Arrays vier Sondensätze auf, wie es in WO 95/11995
beschrieben wird. Der erste Sondensatz umfasst eine Vielzahl von
Sonden, die wie oben beschrieben eine perfekte Komplementärität zu einer
Referenzsequenz aufweisen. Jede Sonde im ersten Sondensatz hat eine
Abfrageposition, die einem Nukleotid in der Referenzsequenz entspricht.
Dies bedeutet, dass die Abfrageposition dem entsprechenden Nukleotid
in der Referenzsequenz gegenübergestellt
wird, wenn die Sonde und die Referenzsequenz so gegenübergestellt werden,
dass die Komplementärität zwischen
den beiden maximiert wird. Für
jede Sonde des ersten Satzes gibt es drei entsprechende Sonden von
drei zusätzlichen
Sondensätzen.
Somit gibt es vier Sonden, die jedem Nukleotid in der Referenzsequenz entsprechen.
Die Sonden der drei zusätzlichen
Sondensätzen
sind identisch mit der entsprechenden Sonde des ersten Sondensatzes,
außer
an der Abfrageposition, welche in jeder der vier entsprechenden Sonden
aus den vier Sondensätzen
an der gleichen Position vorkommt, und welche in den vier Sondensätzen von
einem unterschiedlichen Nukleotid besetzt ist.
-
Ein
Substrat, das die vier Sondensätze
umfasst, wird mit einer markierten Zielsequenz hybridisiert, die
eine wesentliche Sequenzähnlichkeit
mit der Referenzsequenz aufweist, sich jedoch z.B. aufgrund von
Artvariationen unterscheiden kann. Die Menge an Markierung, die
an die Sonden gebunden hat, wird gemessen. Die Analyse des Musters
der Markierung offenbart die Art und Position der Unterschiede zwischen
der Zielsequenz und der Referenzsequenz. Der Vergleich der Intensitäten von
vier entsprechenden Sonden offenbart beispielsweise die Identität eines
entsprechenden Nukleotids in der Zielsequenz, das der Abfrageposition
der Sonden gegenübergestellt
wird. Das entspre chende Nukleotid ist das Komplementär des Nukleotids,
das die Abfrageposition der Sonde besetzt, welche die höchste Intensität zeigt.
Der Vergleich kann anhand von aufeinanderfolgenden Spalten von vier
entsprechenden Sonden erfolgen, um die Identität aufeinanderfolgender Nukleotide
in der Zielsequenz zu bestimmen.
-
In
vielen Fällen
des Vergleichens der vier entsprechenden Sonden weist eine der vier
Sonden eindeutig ein signifikant stärkeres Signal auf als die anderen
drei, und die Identität
der Base in der Zielsequenz, die der Abfrageposition der Sonden
gegenübergestellt
wird, kann mit wesentlicher Sicherheit benannt werden. In einigen
Fällen
jedoch können
zwei oder mehr Sonden ähnliche
jedoch nicht identische Signale aufweisen. In diesen Fällen kann
man die Position einfach als mehrdeutig werten. Alternativ dazu
kann man auch eine Base der Sonde benennen, die das stärkere Signal
aufweist, muss jedoch die signifikante Möglichkeit eines Fehlers in
Betracht ziehen. Sofern der Verhältnis
der Signale von zwei Sonden geringer ist als 1,2 weist eine Basenbenennung
im Allgemeinen eine signifikante Möglichkeit eines Fehlers auf.
Mehrdeutige Positionen lassen sich am häufigsten auf mehrere nahe beieinanderliegende
Variationspunkte zwischen Zielsequenz und Referenzsequenz (d.h.
innerhalb der Sondenlänge)
zurückführen. Mehrdeutigkeiten
können
darüber
hinaus durch eine geringe Hybridisierungsintensität aufgrund
von Basenzusammensetzungs-effekten entstehen.
-
Ein
sekundäres
Sondenarray wird nach dem gleichen Prinzips wie das erste Array
konstruiert, mit der Ausnahme, dass der erste Sondensatz auf Basis der
neu geschätzten
Sequenzen abdeckend ist, und nicht auf Basis der ursprünglichen
Referenzsequenz. Wie oben angemerkt umfasst die geschätzte Sequenz
im Allgemeinen die beste Schätzung
von Basen, die an mehrdeutigen Positionen vorhanden sind. Sofern
eine gleiche Wahrscheinlichkeit besteht, dass zwei oder mehr Basen
eine bestimmte Position in der geschätzten Sequenz besetzen, kann
man willkürlich entscheiden,
eine dieser Basen aufzunehmen, abwechselnde Abdekkungen entsprechend
der verschiedenen möglichen
Basen bereitzustellen oder mehrere vereinigte Basen an dieser Position
aufzunehmen. Das sekundäre
Array weist üblicherweise einen
zweiten, dritten und vierten Sondensatz auf, die nach den gleichen
Prinzipien wie das primäre
Array gestaltet wurden.
-
Das
sekundäre
Array wird mit derselben Zielnukleinsäure hybridisiert wie das primäre Array.
Die Basen in der Zielsequenz werden wie oben beschrieben unter Verwendung
der gleichen Prinzipien durch Vergleichen der Sonden-Intensitäten benannt,
um zu einer neu geschätzten
Zielsequenz zu gelangen.
-
Das
Verfahren kann durch weitere Wiederholungen wiederholt werden, sofern
dies erwünscht ist.
Eine weitere Wiederholung ist erstrebenswert, wenn die geschätzte Sequenz
eine beträchtliche
Anzahl von Positionen enthält,
die mit einem geringen Grad an Sicherheit geschätzt worden sind (z.B. anhand
eines Vergleichs von Sonden-Intensitäten, die sich durch einen Faktor
von weniger als 1,2 voneinander unterscheiden). Nach ausreichenden
Wiederholungen sollte die aus einem Zyklus geschätzte Sequenz mit der aus dem
nachfolgenden Zyklus übereinstimmen.
In einigen Fällen
können
mehrdeutige Positionen über
zahlreiche Zyklen verbleiben. Diese Positionen können auf Effekte, wie beispielsweise Heterozygosität, zurückzuführen sein
und sollten durch andere Mittel überprüft werden
(z.B. durch herkömmliche
Didesoxysequenzierung oder de novo-Sequenzierung durch Hybridisierung
mit einem vollständigen
Array mit Sonden einer gegebenen Länge).
-
Zahlreiche
Variationen bezüglich
Array-Gestaltung und Array-Analyse
sind möglich,
wie beispielsweise in WO 95/11995;
EP
717,113 ; WO 97/29212 beschrieben wird. Wahlweise decken
die Arrays beide Stränge
einer Referenzsequenz ab. Beide Stränge werden separat unter Verwendung
der gleichen, oben beschriebenen Prinzipien abgedeckt, und die Hybridisierungsmuster
der zwei Abdeckungen werden getrennt analysiert. Üblicherweise
verweisen die Hybridisierungsmuster der beiden Stränge auf
gleiche Ergebnisse (d.h. Lokalisation und/oder Art der Variation
zwischen Zielsequenz und Referenzsequenz). Gelegentlich kann eine
offensichtliche Unstimmigkeit zwischen den Hybridisierungsmustern der
beiden Stränge
auftreten, beispielsweise aufgrund von Auswirkungen der Basenzusammensetzung
auf die Hybridisierungsintensitäten.
Die Kombination von Ergebnissen hinsichtlich der beiden Stränge erhöht die Wahrscheinlichkeit
einer korrekten Basenbenennung und kann die Anzahl der zur Bestimmung
der korrekten Basensequenz des Ziels erforderlichen Wiederholungen
verringern.
-
Gemäß einer
weiteren Variation werden Doppelarrays synthetisiert, um die Analyse
der Hybridisierung zwischen Zielsequenz und Sonden unter Bedingungen
hoher und geringer Stringenz zu analysieren. Obgleich die hohe Stringenz
im Allgemeinen am nützlichsten
ist, gibt es einige Bereiche der Zielsequenz, wo die absolute Hybridisierungsintensität aufgrund
von Basenzusammensetzungseffekten gering ist, was dazu führt, dass
Basenbenennungen unter Bedingungen geringer Stringenz mit einem
höheren
Grad an Sicherheit durchgeführt
werden können. Eine
statistische Kombination von Basenbenennungen bei Bedingungen hoher
und geringer Stringenz kann die Gesamtwahrscheinlichkeit einer korrekten Basenbenennung
erhöhen.
-
6. Synthese
und Scanning von Sondenarrays
-
Auf
Trägern
immobilisierte Sondenarrays können
durch verschiedene Verfahren synthetisiert werden. Ein bevorzgtes
Verfahren ist VLSPIS
TM (siehe Fodor et al.,
US 5,143,854 ;
EP 467,014 , Fo dor et al., 1993, Nature
364, 555–556;
McGall et al.,
US 5,889,165 ),
das die Verwendung von Licht zur Steuerung der Synthese von Oligonukleotid-Sonden
in miniaturisierten Hochdichte-Arrays (manchmal als Chips bezeichnet)
umfasst. Algorithmen zum Erstellen von Masken zur Verringerung der
Anzahl von Synthesezyklen sind von Hubbel et al.,
US 5,571,639 und
US 5,593,839 beschrieben. Arrays können auch in
kombinatorischer Weise durch die Bereitstellung von Monomeren an
Zellen eines Trägers
mittels mechanisch begrenzter Flusswege synthetisiert werden. Siehe
Winkler et al.,
EP 624,059 .
Arrays können
darüber
hinaus durch Auftragen von Monomer-Reagenzien auf einen Träger unter
Verwendung eines Tintenstrahldruckers synthetisiert werden. Siehe
oben; Pease et al.,
EP 728,520 .
-
Nach
Hybridisierung von Kontrollproben und Zielproben mit einem Array,
das einen oder mehrere der oben beschriebenen Sondensätze umfasst,
und einem optionalen Waschen, um ungebundene und nicht spezifisch
gebundene Sonde zu entfernen, wird die Hybridisierungsintensität für die entsprechenden Proben
für jede
Sonde in dem Array bestimmt. Bei fluoreszenten Markierungen kann
die Hybridisierungsintensität
beispielsweise mittels eines konfokalen Scanning-Mikroskops im Photonen-Zählmodus bestimmt
werden. Geeignete Scanning-Vorrichtungen werden beispielsweise von
Trulson et al.,
US 5,578,832 ;
Stern et al.,
US 5,631,734 beschrieben.
-
7. Resequenzierunq
im großen
Maßstab
-
Die
oben beschriebenen Verfahren können für die vergleichende
Analyse von gesamten Genomen oder wesentlichen Teilen derselben
verwendet werden. Zur Veranschaulichung wird angemerkt, dass etwa
300 Chips mit 1 Mb/Chip erforderlich sind, um 10 eines Säugetiergenoms
zu sequenzieren (d.h. alle Gene und einen wesentlichen Teil ihrer
umgebenen Sequenz). Wenn 40 Chips auf einem herkömmlichen Wafer unter Verwendung
einer einzelnen Maske synthetisiert werden, werden lediglich 8 Maskengestaltungen
pro Wiederholung benötigt.
Wenn 10 Wiederholungen erforderlich sind, werden lediglich 80 Maskengestaltungen
benötigt,
und es werden insgesamt 3000 Chips hergestellt.
-
Obwohl
das gesamte Genom auf einem Chip in einem einzelnen Experiment hybridisiert
werden kann, ist es oftmals nützlicher,
Vereinigungen von klonierten Sequenzen, die jeweils ungefähr 1 Mb
darstellen, zu hybridisieren. Dies kann auf folgende Weise durchgeführt werden.
Zunächst
wird ein minimal überlappender
Satz von physikalischen Klonen erhalten. Beispielsweise werden Zufallsklone
des bakteriellen artifiziellen Chromosom erzeugt und durch Hybridisierung
oder durch konventionelle Verfahren geordnet. Sofern notwendig werden
Bereiche bestimmt, die an verwandten Positionen im Genom kartieren.
Beispielsweise werden Vereinigungen von Klonen mit einem Array kartierter
Marker hybridisiert. Anschließend
werden Vereinigungen von Klonen für die Hybridisierung erzeugt
(z.B. 300 Vereinigungen; wenn die Resequenzierungskapazität 1 Mb/Chip
beträgt
und 300 Chip-Gestaltungen verwendet werden, um ein 10tel eines Säugetiergenoms
zu analysieren).
-
8. Anwendungen
-
Einige
der Vorteile der Resequenzierung von verwandten Genomen sind:
- 1) Korrigieren von Sequenzierungsfehlern. Diese werden
oftmals durch vergleichende Analyse korrigiert. Wenn beispielsweise
ein offener Leserahmen in einem Genom in einem zweiten nahe verwandten
Genom aus dem Leserahmen geraten ist, so ist meist ein Sequenzierungsfehler
die Ursache dieses Unterschieds. Alle nachgewiesenen Sequenzunterschiede
können
in dem Referenzgenom durch einfache Überprüfung der primären Daten
des Sequenzierungsverlaufs oder mittels weiterer Analyse verifiziert
werden.
- 2) Identifizierung von Promotorsequenzen und Genen. Funktionell
wichtige Elemente neigen dazu, konserviert zu sein. In einigen Fällen werden funktionelle
Elemente, die durch direkte Sequenzanalyse schwierig zu identifizieren
sind (wie beispielsweise kleine Exons oder regulatorische Sequenzen),
durch Identifizierung von relativ kurzen Sequenzen aufgeklärt, welche
zwischen Genomen streng konserviert sind.
- 3) Die Analyse von Sequenzunterschieden zwischen unterschiedlichen
Arten ermöglicht
eine Korrelation zwischen Form und Funktion. Die Sequenz von Schimpanse
und Mensch weicht beispielsweise zu insgesamt 1 % voneinander ab. Die
vorliegenden Verfahren ermöglichen
des Weiteren den Vergleich eines Bereichs von Primatensequenzen,
um festzustellen, welche Sequenzen sich am schnellsten entwickelt
haben und welche stark konserviert sind.
-
Aus
dem oben Gesagten wird ersichtlich sein, dass die Erfindung ein
allgemeines Konzept umfasst, welches in Kürze wie folgt dargestellt werden
kann. Die Erfindung umfasst die Verwendung von sich wiederholenden
Zyklen der Gestaltung eines Sondenarrays, sodass dieser komplementär zu einer
geschätzten
Sequenz einer Zielnukleinsäure ist,
sowie die Verwendung der Muster der Hybridisierung des Arrays mit
der Zielnukleinsäuresequenz
zur Bestimmung einer genaueren, neu geschätzten Zielsequenz.
-
Obwohl
die vorliegende Erfindung durch Veranschaulichung und Beispiel zum
Zwecke der Klarheit und des Verständnisses verhältnismäßig ausführlich beschrieben
worden ist, wird es ersichtlich sein, dass einige Änderungen
sowie Modifikationen im Rahmen des Umfangs der beiliegenden Ansprüche vorgenommen
werden können.