DE19957320A1 - Dynamische Sequenzierung durch Hybridisierung - Google Patents
Dynamische Sequenzierung durch HybridisierungInfo
- Publication number
- DE19957320A1 DE19957320A1 DE19957320A DE19957320A DE19957320A1 DE 19957320 A1 DE19957320 A1 DE 19957320A1 DE 19957320 A DE19957320 A DE 19957320A DE 19957320 A DE19957320 A DE 19957320A DE 19957320 A1 DE19957320 A1 DE 19957320A1
- Authority
- DE
- Germany
- Prior art keywords
- probes
- sequence
- hybridization
- length
- poks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6834—Enzymatic or biochemical coupling of nucleic acids to a solid phase
- C12Q1/6837—Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsäuren unter Verwendung von Trägerchips, die aus Nukleotiden und/oder Nukleotideanaloga aufgebaute Polymersonden enthalten und eine spezifische Bindung mit in einer Probe vorhandenen Nukleinsäuren erlauben. Das Verfahren wird dynamisch in mehreren Zyklen durchgeführt, wobei die aus einem vorhergehenden Zyklus gewonnenen Sequenzinformationen zur Modifizierung trägergebundener Sonden im nachfolgenden Zyklus genutzt werden.
Description
Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsäuren
unter Verwendung von Trägerchips, die aus Nukleotiden oder/und
Nukleotideanaloga aufgebaute Polymersonden enthalten und eine
spezifische Bindung mit in einer Probe vorhandenen Nukleinsäuren erlauben.
Das Verfahren wird dynamisch in mehreren Zyklen durchgeführt, wobei die
aus einem vorhergehenden Zyklus gewonnenen Sequenzinformationen zur
Modifizierung trägergebundener Sonden im nachfolgenden Zyklus genutzt
werden.
Für die Grundlagenforschung, die Medizin, die Biotechnologie sowie weitere
wissenschaftliche Disziplinen ist die Erfassung biologisch relevanter
Information in definiertem Untersuchungsmaterial von herausragender
Bedeutung. Zumeist steht dabei die genetische Information im Mittelpunkt
des Interesses. Diese genetische Information besteht in einer enormen
Vielfalt unterschiedlicher Nukleinsäuresequenzen, der DNA. Die Nutzung
dieser Information im biologischen Organismus führt über die Herstellung
von Abschriften der DNA in RNA meist zur Synthese von Proteinen.
Um diese Wirkprinzipien der Natur besser verstehen zu können, ist eine
effiziente und sichere Entschlüsselung von DNA-Sequenzen notwendig. Die
Detektion von Nukleinsäuren und die Bestimmung der Abfolge der vier
Basen in der Kette der Nukleotide, die generell als Sequenzierung bezeichnet
wird, liefert wertvolle Daten für Forschung und angewandte Medizin. In der
Medizin konnte in stark zunehmendem Maße durch die in vitro-Diagnostik
(IVD) ein Instrumentarium zur Bestimmung wichtiger Patientenparameter
entwickelt und dem behandelnden Arzt zur Verfügung gestellt werden. Für
viele Erkrankungen wäre eine Diagnose zu einem ausreichend frühen
Zeitpunkt ohne dieses Instrumentarium nicht möglich. Hier hat sich die
genetische Analyse als wichtiges neues Verfahren etabliert.
In enger Verzahnung von Grundlagenforschung und klinischer Forschung
konnten die molekularen Ursachen und (pathologischen) Zusammenhänge
einiger Krankheitsbilder bis auf die Ebene der genetischen Information
zurückverfolgt und aufgeklärt werden. Diese wissenschaftliche
Vorgehensweise steht jedoch noch am Anfang ihrer Entwicklung und gerade
für ihre Umsetzung im Rahmen von Therapiestrategien bedarf es stark
intensivierter Anstrengungen. Insgesamt haben die Genomwissenschaften
und die damit im Zusammenhang stehende Nukleinsäureanalytik sowohl
zum Verständnis der molekularen Grundlagen des Lebens als auch zur
Aufklärung sehr komplexer Krankheitsbilder und pathologischer Vorgänge
wichtige Beiträge geleistet.
Genetische Information wird durch Analyse von Nukleinsäuren, meist in
Form von DNA, gewonnen. Es gibt drei wesentliche Techniken für die
Analyse von DNA. Die erste wird als Polymerase-Kettenreaktion (PCR)
bezeichnet. Diese und verwandte Methoden dienen der selektiven
enzymgestützen Vervielfältigung (Amplifikation) von DNA, indem kurze
flankierende DNA Stränge mit bekannter Sequenz genutzt werden, um die
enzymatische Synthese des dazwischen liegenden Bereiches zu starten.
Dabei muß die Sequenz dieses Bereiches nicht im Detail bekannt sein. Der
Mechanismus erlaubt damit anhand eines kleinen Ausschnittes an
Information (den flankierenden DNA Strängen) die selektive Vervielfältigung
eines bestimmten DNA Abschnittes, so daß dieser vervielfältigte DNA
Strang in großer Menge für weitere Arbeiten und Analysen zur Verfügung
steht.
Als zweite Basistechnik wird die Elektrophorese verwendet. Dabei handelt
es sich um eine Technik zur Trennung von DNA Molekülen anhand ihrer
Größe. Die Trennung erfolgt in einem elektrischen Feld, das die DNA
Moleküle zur Wanderung zwingt. Durch geeignete Medien, wie z. B.
vernetzte Gele, wird die Bewegung im elektrischen Feld abhängig von der
Molekülgröße erschwert, so daß kleine Moleküle und damit kürzere DNA
Fragmente schneller wandern als längere. Elektrophorese ist die wichtigste
etablierte Methode für die DNA Sequenzierung und darüber hinaus für viele
Verfahren zur Reinigung und Analyse von DNA. Das verbreitetste Verfahren
ist die Flachbett-Gelelektrophorese, die im Bereich der
Hochdurchsatzsequenzierung allerdings zunehmend von der Kapillar-
Gelelektrophorese verdrängt wird.
Bei der dritten Methode handelt es sich um die Analyse von Nukleinsäuren
durch sogenannte Hybridisierung. Hierbei wird eine DNA-Sonde mit
bekannter Sequenz verwendet, um eine komplementäre Nukleinsäure zu
identifizieren, meistens vor dem Hintergrund eines komplexen Gemisches
von sehr vielen DNA- oder RNA-Molekülen. Die passenden Stränge binden
sich stabil und sehr spezifisch aneinander.
Die drei Basistechniken kommen häufig in Kombination vor, indem z. B. das
Probenmaterial für ein Hybridisierungsexperiment vorher selektiv durch PCR
vervielfältigt wird.
Bei der Sequenzanalyse auf einem DNA-Trägerchip nutzt man ebenfalls das
Prinzip der Hybridisierung von zueinander passenden DNA-Strängen aus. Die
Entwicklung von DNA-Trägerchips oder DNA-Arrays bedeutet eine extreme
Parallelisierung und Miniaturisierung des Formats von Hybridisierungs
experimenten. DNA in einer Probe kann nur an den Stellen an die auf dem
Träger fixierte DNA binden, an denen die Sequenz der beiden DNA-Stränge
übereinstimmt. Mit Hilfe der fixierten DNA auf dem Träger kann selektiv die
komplementäre DNA in der Probe nachgewiesen werden. Dadurch werden
beispielsweise Mutationen im Probenmaterial durch das Muster erkannt, das
nach der Hybridisierung auf dem Träger entsteht.
Der wesentliche Engpass bei der Bearbeitung von sehr Komplexen
genetischen Informationen mit einem solchen Träger ist der Zugriff auf diese
Information durch die begrenzte Zahl von Meßplätzen auf dem Träger. Ein
solcher Meßplatz ist ein Reaktionsbereich, in dem bei der Herstellung des
Träger DNA-Moleküle als spezifische Reaktionspartner, sog. Sonden,
synthetisiert werden.
Für einen größeren Datendurchsatz gibt es prinzipiell zwei Möglichkeiten:
Die eine besteht darin, die Anzahl der Meßplätze auf einem Reaktionsträger
zu erhöhen. Die zweite beruht darauf, die Anzahl der unterschiedlichen
Sonden zu steigern, die das System pro Zeit (und pro eingesetztem Geld)
erzeugen und für Hybridisierung bereitstellen kann. Die zweite Möglichkeit
hat etwas mit der Anzahl an Varianten zu tun, die im System generiert und
für die Analyse zur Verfügung gestellt werden (Datendurchsatz).
Bei dem Begriff genetische Information muss unterschieden werden
zwischen unbekannten Sequenzen, die zum ersten mal dekodiert werden
(dies wird im allgemeinen unter dem Begriff Sequenzieren verstanden, auch
de novo Sequenzierung) und bekannten Sequenzen, die aus anderen
Gründen als dem erstmaligen Dekodieren identifiziert werden sollen. Solche
anderen Gründe sind beispielsweise die Untersuchung der Expression von
Genen oder die Verifizierung der Sequenz eines interessierenden DNA
Abschnittes bei einem Individuum. Dies kann z. B. geschehen, um die
individuelle Sequenz mit einem Standard zu vergleichen, wie bei der
Mutationsanalyse von Krebszellen und der Typisierung von HIV Viren.
Für die de novo Sequenzierung werden bislang fast ausschließlich
elektrophoretische Methoden verwendet. Am schnellsten ist die
Kapillarelektrophorese.
Träger spielen für die de novo Sequenzierung bislang kaum eine Rolle. Dies
liegt an prinzipiellen Limitationen: für den Informationsgewinn durch
Sequenzvergleich müssen Sonden auf dem Träger bereitgestellt werden. Bei
der Bearbeitung von unbekanntem Material braucht man sehr viele
unterschiedliche Sonden (Varianten). Kein bislang bekanntes Verfahren ist
in der Lage, die notwendigen Varianten-Zahlen für ein effektives
Sequenzieren durch Sequenzvergleich von sehr großen DNA Mengen zu
generieren. Solche sehr großen DNA Mengen liegen z. B. bei der
Sequenzbestimmung von ganzen Genomen vor.
Bislang sind im wesentlichen zwei Verfahren zur Herstellung von Trägern
bekannt. Beim ersten Herstellungsverfahren werden die fertigen Sonden
einzeln entweder in einem Synthesizer (chemisch) oder aus isolierter DNA
(enzymatisch) hergestellt und diese dann in Form winziger Tropfen auf die
Oberfläche des Chips aufgebracht, und zwar jede einzelne Sorte an Sonden
auf einen einzelnen Meßplatz. Das verbreitetste Verfahren hierzu leitet sich
aus der Tintenstrahldrucktechnik ab, daher werden diese Verfahren unter
dem Oberbegriff Spotting zusammengefaßt. Ebenfalls weit verbreitet sind
Verfahren mit Nadeln. Nur durch die Mikro-Positionierung von Druckkopf
oder Nadel kann später ein Signal auf dem Chip einer bestimmten Sonde
zugeordnet werden (Array mit Zeilen und Spalten). Entsprechend genau
müssen die Spotting-Geräte arbeiten.
Bei der zweiten Methode werden die DNA Sonden direkt auf dem Chip
hergestellt, und zwar durch ortsspezifische Chemie (in situ Synthese). Dazu
gibt es derzeit zwei Verfahren.
Das eine arbeitet mit den oben beschriebenen Spotting-Geräten, jedoch mit
dem Unterschied, daß die winzigen Tropfen entsprechende
Synthesechemikalien enthalten, so daß durch die Mikro-Positionierung dieser
Chemikalien die ortsaufgelöste Chemie betrieben werden kann. Die
Technologie erlaubt eine beliebige Programmierung der Sequenz der
entstehenden Sonden. Allerdings ist bisher der Durchsatz, das heißt die
Anzahl der Sonden pro Zeit, nicht wirklich hoch genug, um große Mengen
genetischer Information umzusetzen.
Sehr viel mehr Meßplätze pro Zeit lassen sich mit der zweiten Methode
herstellen: die parallele Synthese der Sonden mit einer lichtabhängigen
Chemie. Damit wurden bereits über 100 000 Meßplätze pro Chip in wenigen
Stunden synthetisiert.
Das Verfahren wird mit zwei technischen Lösungen für die Belichtung
betrieben. Die eine verwendet photolithographische Masken und erzeugt
durch die hoch entwickelte Optik sehr viele Meßplätze auf dem DNA-Träger.
Allerdings ist die Wahl der Sondensequenz sehr limitiert, da entsprechende
Masken hergestellt werden müssen. Für das erfindungsgemäße Verfahren
ist diese Herstellungsmethode daher wenig geeignet. Wesentlich
aussichtsreicher sind Verfahren mit frei programmierbaren
Sondensequenzen, die auf Basis entsprechend steuerbarer Lichtquellen
arbeiten. Solche Herstellungsverfahren für Sonden auf einem Träger sind
u. a. in den Patentanmeldungen DE 198 39 254.0, DE 198 39 256.7, DE
199 07 080.6, DE 199 24 327.1, DE 199 40 749.5, PCT/EP99/06316 und
PCT/EP99/06317 beschrieben.
Zusammenfassend läßt sich sagen, daß mit den bisher etablierten Techniken
zur Bearbeitung größerer Mengen genetischer Information mit ganz oder
teilweise unbekannter Zusammensetzung, nämlich Elektrophoreseverfahren
und Biochip-Trägern, eine Limitation des Durchsatzes gegeben ist.
Hochdurchsatzprojekte für die Neusequenzierung sind bisher auf Größen
sortierung mit Elektrophorese angewiesen (u. a. das Human Genom Projekt
HUGO). Hier sind zwar Verbesserungen durch Miniaturisierung und
Parallelisierung zu erwarten, aber keine Durchbrüche, da die Technik an sich
nicht verändert werden kann. Elektrophorese kann die meisten
Anwendungen von Biochips, wie z. B. Expressions-Muster oder Mutations-
Screening, nicht oder nur sehr viel langsamer leisten. Die bisher bekannten
Biochips sind ihrerseits für Neusequenzierung ungeeignet, der Schwerpunkt
liegt auf der hochparallelen Bearbeitung von Material auf Basis bekannter
Sequenzen (u. a. in Form von synthetischen Oligonukleotiden als Sonden).
Beide Formate haben einen limitierten Durchsatz an genetischer Information.
Um diesen Durchsatz zu erhöhen, müssen neue Ansätze entwickelt werden.
Das erfindungsgemäße Verfahren ist ein solcher Ansatz.
Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsäuren,
umfassend die Schritte:
- a) Durchführen eines ersten Hybridisierungszyklus umfassend
- a) Bereitstellen eines Trägers mit einer Oberfläche, die an einer Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungs sonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen,
- b) Inkontaktbringen einer Probe, die zu sequenzierende Nukleinsäuren enthält, mit dem Träger unter Bedingungen, bei denen eine Hybridisierung zwischen den zu sequenzierenden Nukleinsäuren und dazu komplementären Sonden auf dem Träger erfolgen kann, und
- c) Identifizieren der vorbestimmten Bereiche auf dem Träger, an denen eine Hybridisierung in Schritt (ii) erfolgt ist,
- b) Durchführen eines nachfolgenden Hybridisierungszyklus umfassend:
- a) Bereitstellen eines weiteren Trägers mit einer Oberfläche, die an eine Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungs sonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, wobei für den weiteren Träger Hybridisierungssonden mit einer Basenfolge ausgewählt werden, bei denen im vorhergehenden Zyklus eine Hybridisierung beobachtet worden ist, und wobei die ausgewählten Hybridisierungssonden um mindestens ein Nukleotid gegenüber einem vorhergehenden Zyklus verlängert werden,
- b) Wiederholen von Schritt (a) (i) mit dem weiteren Träger, und
- c) Wiederholen von Schritt (a) (iii) mit dem weiteren Träger, und
- c) gegebenenfalls Durchführen von weiteren nachfolgenden Hybridisierungszyklen jeweils mit Auswahl und Verlängerung der Hybridisierungssonden gemäß Schritt (b) (i), bis eine ausreichende Information über die zu sequenzierenden Nukleinsäuren vorliegt.
Das hier beschriebene Verfahren zur Sequenzierung von Nukleinsäuren
durch Hybridisierung erlaubt mit Hilfe eines iterativen, dynamischen Aufbaus
aller dafür notwendigen, spezifischen Sonden die Sequenzierung von
Probenmaterial (auch viel größer 10 kBp) mit unbekannter Sequenz. Die
Sequenzierung umfaßt sowohl eine Fragmentanalyse (einige Dutzend bis
100 Bp) als auch die Kartierung der Fragmente innerhalb der
Ausgangssequenz.
Unter Träger oder Reaktionsträger sollen in diesem Zusammenhang sowohl
offene als auch geschlossene Träger verstanden werden. Offene Träger
können planar (z. B. Labordeckglas), aber auch speziell geformt (z. B.
schalenförmig) sein. Bei allen offenen Trägern ist als Oberfläche eine Fläche
auf der Außenseite des Trägers zu verstehen. Geschlossene Träger haben
eine innenliegende Struktur, die beispielsweise Mikrokanäle, Reaktionsräume
oder/und Kapillaren umfaßt. Hier sind als Oberflächen des Trägers die
Oberflächen der zwei- oder dreidimensional ausgeprägten Mikrostruktur im
Inneren des Trägers zu verstehen. Natürlich ist auch die Kombination von
innenliegenden geschlossenen und außenliegenden offenen Oberflächen in
einem Träger denkbar. Als Materialien für Träger kommen beispielweise Glas
wie Pyrax, Ubk7, B270, Foturan, Silizium und Siliziumderivate, Kunststoffe
wie PVC, COC oder Teflon sowie Kalrez zum Einsatz.
Das in dem Verfahren benötigte Array muß nicht zwangsläufig auf einen
Träger begränzt sein, es ist durchaus möglich ein "virtuelles Array" auf
mehrere Träger zu verteilen. Bei Bedarf kann dadurch die Stellplatzanzahl
vergrößert werden.
In einem geschlossenen System, das sowohl die Probenvorbereitung, die
Fragmentierung und die Kartierung des Probenmaterials enthalten kann,
siehe z. B. DE 199 24 327.1, DE 199 40 749.5 und PCT/EP99/06317,
ergänzen und bedingen sich Datenerzeugung und Auswertung gegenseitig
und bilden in ihrer Gesamtheit eine lernende Einheit. So werden z. B. mit
Hilfe der ausgewerteten Daten eines Arrays neue Sondensequenzen
bestimmt, die dann auf einem neuen Array synthetisiert werden. Dies erfolgt
solange systematisch, bis die biologische Vielfalt, welche nur eine sehr
geringen Teil der theoretisch möglichen Variationen darstellt, schrittweise
ganzheitlich erfaßt ist.
Bei dem erfindungsgemäßen Verfahren werden Sonden auf bzw. in dem
Träger flexibel hergestellt, so daß ein Informationsfluß möglich wird. Jede
neue Synthese des Arrays in aufeinanderfolgenden Zyklen kann die
Ergebnisse eines vorangegangenen Experimentes berücksichtigen. Durch
geeignete Wahl der Hybridisierungssonden, die Oligonukleotide, aber auch
Nukleinsäureanaloga wie peptidische Nukleinsäuren sein können, in Bezug
auf ihre Länge, Sequenz und Verteilung auf dem Reaktionsträger und durch
eine Rückkopplung des Systems mit integrierter Signalauswertung wird ein
effizientes Prozessieren von genetischer Information möglich.
Weiterhin betrifft die Erfindung einen Träger für die Sequenzierung von
Nukleonsäuren mit einer Oberfläche, die an einer Vielzahl von
vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält,
wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine
unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen,
wobei die Hybridisierungssonden neben variablen Abschnitten einen oder
mehrere für zumindest einen Teil der Sonden festgewählte Abschnitte
aufweisen können.
Das Verfahren und der Träger können für die Sequenzbestimmung von
Genomen, Chromosomen, Transkriptomen sowie zur Identifizierung von
Polymorphismen in Nukleinsäuresequenzen, z. B. auf Ebene einzelner
Individuen eingesetzt werden.
Die Bindung der Nukleinsäuren an Hybridisierungssonden an den jeweiligen
Teilbereichen auf der Trägeroberfläche wird vorzugsweise über
Markierungsgruppen nachgewiesen. Die Markierungsgruppen können dabei
direkt oder indirekt an die zu sequenzierende Nukleinsäure gebunden
werden. Vorzugsweise werden Markierungsgruppen verwendet, die optisch
detektierbar sind, z. B. durch Fluoreszenz, Lichtbrechung, Lumineszenz oder
Absorption. Bevorzugte Beispiele für Markierungsgruppen sind
fluoreszierende Gruppen oder optisch nachweisbare Metallpartikel, z. B.
Goldpartikel.
Zu Beginn werden einige Verhältnisse erläutert, die im folgenden eine
wichtige Rolle spielen:
In jeder, aus m Nukleotiden bestehenden Sequenz können maximal m-n + 1 Teilsequenzen der Längen auftreten. Dies bedeutet, daß für jede Gesamtsequenzlänge m eine spezifische Sequenzlängen existiert, für die die Anzahl aller möglichen n-mere (4n) die Anzahl m-n + 1 der in der Gesamtsequenz möglichen Teilsequenzen der Längen überschreitet. Im menschlichen Genom z. B., das aus ca. 3,2 × 109 Nukleotiden besteht, können somit maximal ca. 3,2 × 109 Sequenzabschnitte einer beliebigen Länge n auftreten. Wählt man n = 16, so ist die Anzahl aller 16-mere mit 416 deutlich größer als die maximale Anzahl der im menschlichen Genom auftretenden 16-mere. Es können also auf keinen Fall alle 16-mere und somit auch niemals alle längeren (n + 1)-, (n + 2)-mere, usw. im menschlichen Genom vorkommen.
In jeder, aus m Nukleotiden bestehenden Sequenz können maximal m-n + 1 Teilsequenzen der Längen auftreten. Dies bedeutet, daß für jede Gesamtsequenzlänge m eine spezifische Sequenzlängen existiert, für die die Anzahl aller möglichen n-mere (4n) die Anzahl m-n + 1 der in der Gesamtsequenz möglichen Teilsequenzen der Längen überschreitet. Im menschlichen Genom z. B., das aus ca. 3,2 × 109 Nukleotiden besteht, können somit maximal ca. 3,2 × 109 Sequenzabschnitte einer beliebigen Länge n auftreten. Wählt man n = 16, so ist die Anzahl aller 16-mere mit 416 deutlich größer als die maximale Anzahl der im menschlichen Genom auftretenden 16-mere. Es können also auf keinen Fall alle 16-mere und somit auch niemals alle längeren (n + 1)-, (n + 2)-mere, usw. im menschlichen Genom vorkommen.
Tabelle 1 zeigt das Verhältnis zwischen der Sequenzabschnittslänge n, der
Sequenzlänge m und der in der Sequenz der Länge m enthaltenen
maximalen Anzahl von Teilsequenzen der Länge n. In jeder Sequenz, die
kürzer ist als der für m angegebene Wert, können nicht alle möglichen
Abschnitte der angegebenen Länge n vorkommen.
Betrachtet man nun alle in einer Sequenz der Länge m auftretenden n-mere,
die auf eine Teilsequenz der Länge p folgen, so ist die Anzahl dieser n-mere
im Vergleich zu der oben beschriebenen Anzahl von m-n + 1 Teilsequenzen
deutlich geringer.
Eine Sequenz, die alle 4P möglichen p-mere enthält, muß eine minimale
Länge von k = 4p + p1 Nukleotiden aufweisen. Setzt man voraus, daß alle p-
mere mit der gleichen Wahrscheinlichkeit vorkommen, so tritt in einer
hinreichend lang gewählten Sequenz jedes p-mer im Mittel alle k Nukleotide
einmal auf; in einer Sequenz der Länge m mit m << k also l =
m/k = m/4p+ p-1 mal. Folglich können in einer solchen Sequenz mit Länge
m auch maximal l n-mere beobachtet werden, die auf ein p-mer folgen.
Wählt man z. B. im menschlichen Genom (einzelsträngig) ein beliebig aber
fest gewähltes 3-mer und untersucht alle Sequenzabschnitte der Länge n,
die auf dieses 3-mer folgen, findet man, bei einer vorausgesetzten
Gleichverteilung aller p-mere, maximal 48 500 000 verschiedene n-mere.
Auch in diesem Fall gibt es eine charakteristische Grenze für die Vielfalt der
Teilsequenzen. Wählt man die betrachteten Teilsequenzen länger als die der
maximalen Vielfalt zugehörige Länge n, so gibt es mehr mögliche Varianten
als in der untersuchten Sequenz vorkommen können. Beim menschlichen
Genom (unter allen verallgemeinernden Voraussetzungen) ist dies eine
Abschnittlänge von n = 13; insgesamt gibt es 413 = 67 108 864 Sequenzen
der Länge 13. Im menschlichen Genom können aber, wie oben errechnet,
nur ca. 50 000 000 verschiedene Teilsequenzen nach einem frei gewählten
3-mer vorkommen. Für jede längere Teilsequenzlänge können auf keinen Fall
alle möglichen Varianten im Genom vorkommen.
Tabelle 2 zeigt an einigen Beispielen den Zusammenhang zwischen der
Sequenzlänge m, der Wahl von p und der Längen der Teilsequenz, die nach
dem p-mer betrachtet werden soll. In der dritten Spalte ist das unter
idealisierten Annahmen durchschnittliche Vorkommen des gewählten p-mers
in der Ausgangssequenz aufgetragen, daraus wird der Wert für n bestimmt,
für den noch die komplette Vielfalt der n-mere nach dem p-mer vorkommen
kann. Für jedes größer gewählte p oder für jede kürzer gewählte Sequenz
trifft dies nicht mehr zu.
Ein längeres p-mer schränkt die Vielfalt innerhalb der untersuchten Sequenz
deutlicher ein als ein kürzeres p-mer, da das längere p-mer im Verhältnis
seltener auftritt.
Das im folgenden beschriebene Verfahren macht sich diese Reduktion der
Vielfalt zu Nutze. So ist es zum Beispiel nach den obigen Betrachtungen
nicht notwendig, die komplette Menge aller 25-mere auf einem Array zu
synthetisieren, wenn man eine Aussage darüber treffen will, welche 25-
mere in einer Probensequenz vorkommen. Je nach Länge der untersuchten
Sequenz kann nur ein sehr geringer Anteil aller 25-mere in dieser Sequenz
vorkommen, siehe Tabelle 1.
Im Vergleich zu den bisher gängigen (statischen) Verfahren der Generierung
von Trägerchips, ist es erfindungsgemäß möglich, schnell von einem Array
zum nachfolgenden Array zu lernen und dadurch ein Vielfaches der
bisherigen Informationsmenge zu erhalten.
Können in kurzer Zeit verschiedene Arrays unter Verwendung der, nach
Auswertung des Vorgängerarrays, erhaltenen Informationen erzeugt
werden, so wird das System zu einem "lernenden" System. Mit dieser
Methode können die oben erwähnten 25-mere einer Sequenz bestimmt
werden, ohne sie in ihrer Vielfalt (425 = 1.125899907 × 1015) syn
thetisieren zu müssen.
Man kann beispielsweise mit einer variablen Sondenlänge s beginnen, mit
der die mögliche Vielfalt (4s) aller s-mere auf dem Array synthetisierbar ist.
Falls alle möglichen 4s Sequenzvariationen nicht auf einem einzigen Träger
erzeugt werden können, ist es möglich auch eine begrenzte Anzahl von
mehreren Trägern für einen Hybridisierungszyklus zu verwenden. Liegt die
Länge der Sonden unter dem in Tabelle 1 ermittelten Wert n, so ist es
möglich, daß alle auf dem Array erzeugten Sequenzen in der
Ausgangssequenz vorkommen, wahrscheinlich ist es aber nicht. Zudem
nimmt diese Wahrscheinlichkeit mit wachsender Länge der Sonden ab. Auf
jeden Fall können aber nicht mehr als die in Tabelle 1 errechneten
Teilsequenzen in der Sequenz vorkommen.
Im nächsten Schritt werden alle Sonden, die auf dem Vorgängerarray ein
Signal erzeugt haben, auf einem neuen Array synthetisiert und um jeweils
mindestens ein Nukleotid an allen möglichen Variationen verlängert, d. h. bei
einer Verlängerung um ein Nukleotid entstehen vier unterschiedlich
verlängerte Hybridisierungssonden. Spätestens ab der in Tabelle 1
dargestellten Teilsequenzlänge n wird sich die Anzahl der Signale nicht mehr
vergrößern, weil ihre Anzahl (unter idealisierten Annahmen) nicht größer
sein kann als die maximale Anzahl der unterschiedlichen Teilsequenzen in
der Ausgangssequenz. Unter "normalen" Voraussetzungen wird es Signale
geben, die nach idealisierten Voraussetzungen nicht hätten entstehen
dürfen. Diese Sonden können zunächst weiter aufgebaut werden, durch
verlängerte Sonden und die dadurch resultierenden spezifischeren
Bindungen können mögliche Fehler im Laufe der Iteration eliminiert werden.
In der Praxis wird zudem nie die komplette Vielfalt aller möglichen
Teilsequenzen in einer zu untersuchenden Sequenz auftreten, so daß
deutlich weniger Signale als die maximal mögliche Anzahl erzeugt werden.
Je nach Anzahl der Stellplätze und der Länge der zu untersuchenden
Sequenz ist es bevorzugt, die Sondenlänge des ersten Arrays so zu wählen,
daß nach der Hybridisierung von maximal 25% aller Stellplätze Signale
ausgehen. Durch dieses Vorgehen wird gewährleistet, daß die Anzahl der
Sonden im nächsten Schritt nicht zunimmt. Die Sonden auf dem neuen
Array können somit um eine Base länger als die Sonden auf dem
Vorgängerarray gewählt werden, ohne daß sich die Anzahl der Sonden
vergrößert.
Die Länge m der Sequenz (in diesem Fall ein Einzelstrang, für einen
Doppelstrang gilt ähnliches) muß für eine solche Wahl der Startsonden
kleiner sein als die erlaubte Anzahl der Signale, in Formeln: m ≦ 4s-1 + s-1,
wobei s die Sondenlänge ist. Auf einem Array mit Sondenlänge s = 6 kann
also eine Sequenz der maximalen Länge m = 45 + 5 = 1029 bearbeitet
werden, so daß nach der Hybridisierung auf jeden Fall von weniger, bzw.
von maximal 25% aller Sonden Signale ausgehen. Die folgende Tabelle 3
zeigt die bevorzugte Länge s der Startsonden in Abhängigkeit von der Länge
m der zu bestimmenden Sequenz.
Da in einer Sequenz der Länge m Teilsequenzen der Länge s durchaus
mehrfach auftreten können, reduziert sich die rechnerische Anzahl von m-
s + 1 Teilsequenzen der Länge s oftmals in der Praxis. In einem solchen Fall
ist eine kleinere Sondenlänge ausreichend. Da die Anzahl sich
wiederholender Sequenzen zu Beginn aber nicht bekannt ist, ist der oben
bestimmte Wert als oberer Grenzwert anzusehen. Die Anzahl der Signale
wird durch wiederholte Auftreten einer Teilsequenz reduziert, aber niemals
vergrößert.
Für das menschliche Genom mit 3,2 × 109 Nukleotiden pro Strang ist eine
Sondenlänge von 17 Basen ausreichend, um theoretisch sicher zu stellen,
daß an weniger als 25% aller Stellplätze auf dem Array eine Bindung
stattfindet. Für E.coli mit 4 639 221 Nukleotiden sind bereits Sonden der
Länge 13 ausreichend. Die Stellplatzanzahl aller folgenden Arrays wird die
Anzahl der Stellplätze auf diesen Arrays nicht überschreiten.
Wählt man die Länge der Sonden auf dem ersten Array nicht nach der oben
beschriebenen Methode, so pendelt sich die Anzahl der Signale auf jeden
Fall im Laufe des Verfahrens unter den maximalen Wert von m-n + 1 ein,
wobei n die im ersten Abschnitt beschriebene Länge ist, für die die Vielfalt
aller n-mere größer ist als die Anzahl der in der Ausgangssequenz möglichen
n-mere. Wählt man zu Beginn eine zu kurze Sondenlänge, so wird sich die
Anzahl der benötigten Stellplätze in den nächsten Schritten zunächst bis zu
maximal 4n-1 Stellplätzen erhöhen und dann stagnieren. Wählt man die
Sonden zu lang, so werden bei der Hybridisierung deutlich weniger als 25%
aller Stellplätze erfolgreich sein, so daß sich die Anzahl der benötigten
Stellplätze im nächsten Schritt automatisch reduziert.
Wie im ersten Abschnitt beschrieben, läßt sich die Vielfalt der Teilsequenzen
in einer Sequenz der Länge m noch weiter reduzieren, indem man nur
Sequenzabschnitte betrachtet, die auf eine vorher festgelegte Abfolge von
Nukleotiden folgt. Auch in diesem Fall läßt sich die Länge der Sonden auf
dem ersten Array wie oben bestimmen. Für ein Array, auf dem alle
Kombinationen der Länge s = n + p synthetisiert werden, die mit dem p-mer
beginnen oder enden, bedeutet dies, daß nur von maximal 25% (d. h. l/4n%)
4n-1 aller Stellplätze auf diesem Array Signale ausgehen dürfen. Somit kann
auf einem Array mit Sondenlänge s = n + p und einem beliebigen, aber für
alle oder einen Teil der Sonden festgewählten Abschnitt der Länge p eine
Sequenz der Länge m mit m ≦ 4n-1 × (4p + p-1) hybridisiert werden, ohne daß
die theoretisch mögliche Anzahl der Stellplätze, von denen Signale ausgehen
können, 25% aller Stellplätze überschreitet wobei n ist dabei der im ersten
Abschnitt berechnete Wert ist.
Das Verhältnis zwischen der maximalen Länge der Ausgangssequenz und
der Länge der Sonde, sowie der p-mere ist in Tabelle 4 für einige Beispiele
dargestellt. Für das menschliche Genom genügt bei einem festgewählten 3-
mer eine Sondenlänge von n + p = 17 Nukleotiden, um die erlaubte Anzahl
der Stellplätze, die ein Signal liefern, nicht zu überschreiten. Die Anzahl der
zu synthetisierenden Sonden ist in jedem Fall 4n, also die Menge aller
Möglichkeiten, den flexiblen Sondenteil aufzubauen.
Die oben, sowie die im ersten Abschnitt berechneten Werte gelten für eine
Gleichverteilung der betrachteten p-mere. In den meisten Sequenzen gilt
diese idealisierte Annahme nicht, es treten unter Umständen stark
unterschiedliche Verteilungen der einzelnen Nukleotide auf. Kennt man
daher z. B. bei DNA-/RNA-Sequenzen den A-T-, bzw. C-G-Gehalt der zu
untersuchenden Sequenz, so lassen sich Wahrscheinlichkeiten für die
einzelnen p-mere berechnen. Durch eine Gewichtung bei der Berechnung der
maximalen Sequenzlänge mit Hilfe der Wahrscheinlichkeit für das Auftreten
des gewählten p-mers werden sich in einigen Fällen die in den Tabellen 2
und 4 aufgeführten Werte verschieben.
Tabelle 4: Maximal mögliche Länge der Ausgangssequenz im Verhältnis zur
Sondenlänge und ihrer Zusammensetzung.
Somit bietet der dynamische Aufbau einer Folge von Arrays den Vorteil, daß
nach Auswertung der Informationen des bzw. der Vorgänger-Arrays ein
neues Array aufgebaut werden kann, das die benötigten Daten liefert. Es ist
möglich, Kenntnis über Teilsequenzen in der Ausgangssequenz von
spezifischer Länge, z. B. von 25 Basen und mehr, zu gewinnen, ohne alle
möglichen Kombinationen dieser Länge aufbauen zu müssen. Das Verfahren
pendelt sich automatisch auf eine maximale Signalanzahl und somit auf eine
maximale Stellplatzanzahl pro Array ein.
Im folgenden wird eine Anwendung beschrieben, die sich mit dem oben
beschriebenen dynamischen Arrayaufbau realisieren läßt.
An dieser Stelle wird zunächst das allgemeine Prinzip des DSBH
beschrieben, das im wesentlichen durch einen flexiblen Aufbau der Arrays
möglich wird; im nächsten Abschnitt folgen mögliche Umsetzungen dieses
Prinzips.
Wie oben beschrieben, kommen p-mere in einer zu bestimmenden Sequenz
mit unterschiedlichen Wahrscheinlichkeiten vor, die sich z. B. bei DNA-
Sequenzen durch Kenntnis des A-T- und G-C-Gehalts der Sequenz
bestimmen lassen. Der Grundgedanke des DSBH besteht nun darin, p-mere
auszuwählen, die in regelmäßigen Abständen in der Sequenz vorkommen,
sie lassen sich als "Inseln" auffassen, deren Sequenz bereits bekannt ist.
Von diesen festgewählten Orten bekannter Sequenz (Points of Known
Sequence, kurz POKS) ausgehend, wird nun die Probensequenz bestimmt.
Dazu werden zunächst drei Arten von Sonden auf den Arrays benötigt:
(1) Sonden mit festgewählten Sequenzen am 3'- Ende,
(2) Sonden mit festgewählten Sequenzen am 5'-Ende,
(3) Sonden mit festgewählten Sequenzen im Innern, z. B. im Zentrum der Sequenz.
(2) Sonden mit festgewählten Sequenzen am 5'-Ende,
(3) Sonden mit festgewählten Sequenzen im Innern, z. B. im Zentrum der Sequenz.
Die Sonden (1), (2) und (3) können gemeinsam oder/und nacheinander auf
dem gleichen Träger oder auf unterschiedlichen Trägern eingesetzt werden.
Für die beiden ersten Sondentypen werden alle Kombinationen einer
vorgegebenen Länge synthetisiert, wobei die Gegensequenz zum gewählten
POKS einmal am 3'-Ende der Sequenz und einmal am 5'-Ende der Sequenz
aufgebaut wird. Durch die Hybridisierung der Ausgangssequenz gegen die
Sonden dieses Arrays erhält man dann Informationen über alle
Nukleotidkombinationen der vorgegebenen Länge einmal in 3'-5'-Richtung
zum POKS hin und einmal in 3'-5'-Richtung vom POKS weg. Nach dem
oben beschriebenen Vorgehen zum dynamischen Aufbau der Arrays
werden alle Sonden der Stellplätze, die ein Signal erzeugt haben, auf einem
neuen Array synthetisiert und dabei jeweils um ein Nukleotid in allen vier
Variationen verlängert. Bei einer hinreichend großen Anzahl von Stellplätzen
auf dem Array können auch zwei oder mehr Iterationsschritte auf einem
Array abgearbeitet werden, d. h. es kann eine Verlängerung um zwei oder
mehr Nukleotide erfolgen.
Bei der Verlängerung der Sonden ist zu beachten, daß Sonden, bei denen
die zum POKS komplementäre Sequenz am 3'-Ende aufgebaut wird, in 5'-
Richtung verlängert werden, und Sonden mit der komplementären POKS-
Sequenz am 5'-Ende entsprechend in 3'-Richtung. Hat die Iteration eine
maximale Sondenlänge erreicht, so ist zu beiden Seiten jedes POKS die
Abfolge der Nukleotide auf der Länge der maximalen Sondenlänge bekannt.
Die Sondenlänge wird dabei entweder durch die Möglichkeiten des
verwendeten Systems beschränkt oder durch einen Kompromiß aus der
benötigten Zeit bis zum endgültigen Ergebnis und dessen Genauigkeit.
Mit Hilfe der dritten Sondenart wird der Zusammenhang zwischen den oben
bestimmten Sequenzen hergestellt. Es werden nun all die Sondensequenzen
bestimmt, die die POKS-Gegensequenz im Zentrum haben und davor, bzw.
dahinter Teile der durch die ersten beiden Sonden gewonnen Informationen.
Diese Sonden werden auf einem neuen Array aufgebaut; nach der
Hybridisierung und Auswertung der Signale sind alle Möglichkeiten bekannt,
zu denen die durch die ersten zwei Sondenarten bestimmten Sequenzen
zusammengesetzt werden dürfen.
Diese Information kann man genauso durch einen iterativen Arrayaufbau
erhalten, bei dem alle Kombinationen einer bestimmten Länge vor und nach
der POKS-Gegensequenz aufgebaut werden. Nach Auswertung der Signale
werden die relevanten Sonden wie oben beschrieben weiter verlängert, jetzt
in beide Richtungen, usw. Bei einer hinreichend großen Stellplatzanzahl
kann man diese lterationsschritte aber durch den sofortigen Aufbau der
benötigten Sonden zur maximalen Länge vermeiden.
Das Array mit der dritten Sondenart löst hochparallel eine kombinatorische
Aufgabe, die ohne einen flexiblen Arrayaufbau nur mit sehr großem
Rechenaufwand mit Hilfe von Computern lösbar ist. Die Verlagerung dieser
Aufgabe auf das Array bedeutet einen erheblichen Zeitgewinn gegenüber
einer Kombinatorik am Rechner und liefert zudem verläßlichere Daten.
Werden die POKS nun entsprechend gewählt, so kann mit der oben
beschriebenen Methode die Ausgangssequenz wieder zusammengesetzt
werden, indem die Überlappungen der durch die einzelnen POKS
bestimmten Teilsequenzen verglichen und kombiniert werden.
In den folgenden Punkten 5 und 6 sind nun zwei besonders bevorzugte
Ausführungsformen des erfindungsgemäßen Verfahrens im Detail erläutert.
Das Verfahren zur Sequenzierung mit statistisch, bzw. durch das Verfahren
gewählten POKS, sowie die zugehörige Probenvorbereitung werden für
einen Einzelstrang beschrieben. Mit dem gleichen Verfahren ist auch die
Sequenzierung doppelsträngiger Nukleinsäuren möglich.
Die hier beschriebene Sequenzierung geht von einzelsträngigen
Nukleinsäuren aus. Diese können im einfachsten Fall direkt in Form
einzelsträngiger RNA oder DNA aus Viren, Bakterien, Pflanzen, Tieren oder
dem Menschen isoliert werden. In der Mehrzahl der Fälle werden die
einzelsträngigen Nukleinsäuren aber ausgehend von dsDNA durch spezielle
in vitro Verfahren erzeugt. Hierzu zählen z. B. asymmetrische PCR (erzeugt
ssDNA), PCR mit derivatisierten Primern, die eine selektive Hydrolyse eines
einzelnen Stranges im PCR-Produkt ermöglichen, oder die Transkription
durch RNA-Polymerasen (erzeugt ssRNA). Als Matrize kann bei der
Transkription neben nicht klonierter einzelsträngiger DNA vor allem auch in
spezielle Vektoren (z. B. Plasmidvektoren mit einem Promotor;
Plasmidvektoren mit zwei unterschiedlich orientierten Promotoren für eine
bestimmte oder zwei unterschiedliche RNA-Polymerasen) klonierte dsDNA
eingesetzt werden. Die in die Plasmide klonierte Insert-DNA oder die bei der
PCR eingesetzte DNA-Matrize können zum einen aus Viren, Bakterien,
Pflanzen, Tieren oder dem Menschen isoliert werden, zum anderen aber
auch in vitro durch reverse Transkription, RNaseH-Behandlung und
anschließende Amplifikation (z. B. durch PCR) aus ssRNA erzeugt werden.
Als RNA-Matrizen können rRNAs, tRNAs, mRNAs und snRNAs sowie in
vitro erzeugte Transkripte (entstanden z. B. durch Transkription mit SP6-,
T3- oder T7-RNA-Polymerase) eingesetzt werden.
Die für die Sequenzierung vorgesehenen, einzelsträngigen Nukleinsäuren
werden sequenzspezifisch oder/und sequenzunspezifisch fragmentiert (z. B.
durch sequenz(un)spezifische Enzyme, Ultraschall oder Scherkräfte), wobei
eine im wesentlichen homogene Längenverteilung der Bruch
stücke/Hydrolyseprodukte angestrebt wird. Wird keine homogene Längen
verteilung der Fragmente erreicht, kann anschließend eine Längen
fraktionierung durch gelelektrophoretische und/oder chromatographische
Verfahren durchgeführt werden.
Die entstandenen Fragmente können mit Markierungsgruppen, z. B.
fluoreszierenden Agenzien oder radioaktiven Isotopen markiert werden. Die
Markierung erfolgt dabei bevorzugt an den Enden der Fragmente (terminale
Markierung). 3'-terminale Markierungen können unter Verwendung
geeigneter Synthone z. B. mit der terminalen Transferase oder der T4 RNA-
Ligase durchgeführt werden. Werden für die Fragmentierung in vitro
erzeugte RNA-Transkripte eingesetzt, kann die Markierung auch vor der
Fragmentierung durch bei der Transkription eingesetzte markierte Nukleotide
erfolgen (interne Markierung).
Die markierten, fragmentierten Nukleinsäuren können dann in einer
geeigneten Hybridisierungslösung gegen den mit einem Sondenarray
beschichteten Träger hybridisiert werden.
In der folgenden Variante des Verfahrens zur Sequenzierung mit POKS
dienen nach unterschiedlichen Kriterien ausgewählte p-mere als POKS; sie
können zu verschiedene Zeitpunkten des Verfahrens bestimmt werden.
Zum einen kann zu Beginn des Verfahrens eine festgelegte Anzahl POKS
bestimmt werden. Hier bietet es sich an, die Kombinationen (p-mere)
auszuwählen, die in der Ausgangssequenz mit der höchsten
Wahrscheinlichkeit vorkommen. Dies ist möglich, da die einzelnen
Nukleotide und somit auch die einzelnen p-mere wie im ersten Abschnitt
beschrieben mit unterschiedlichen Wahrscheinlichkeiten in der
Probensequenz vorkommen. Kennt man z. B. bei DNA-Sequenzen den G-C-
bzw. A-T-Gehalt dieser Sequenz, so können also diejenigen p-mere
bestimmt werden, die am wahrscheinlichsten, und somit am häufigsten in
der Sequenz auftreten. Es sind ebenso andere Methoden zu einer Wahl der
POKS zu Beginn des Verfahrens denkbar, z. B. aus Erfahrungswerten oder
durch eine willkürliche Bestimmung.
Zum anderen kann es sinnvoll sein, nur wenige, bzw. einen POKS zu Beginn
des Verfahrens festzulegen und alle folgenden POKS aus den bis dahin
gewonnen Sequenzinformationen zu bestimmen. Durch dieses Vorgehen
lernt das Verfahren aus den bisher generierten Daten und bestimmt, welche
Daten für den weiteren Verlauf des Verfahrens und das Zusammensetzen
der Informationen wichtig sind. Die ersten POKS müssen nicht notwendiger
Weise vom Anwender vorgegeben werden, sie können z. B. wie oben
erläutert vom System durch Bestimmung der Wahrscheinlichkeiten für die
potentiellen POKS, aus Erfahrungswerten oder willkürlich bestimmt werden.
Bei einer Wahl der POKS zu Beginn des Verfahrens muß zunächst die
Anzahl der POKS festgelegt werde. Diese kann z. B. aus Erfahrungswerten
bestimmt, oder statistisch berechnet werden, indem sie so groß gewählt
wird, daß der Abstand zwischen zwei POKS rein rechnerisch deutlich kleiner
ist als die vorgegebene maximale Sondenlänge auf den Arrays.
Werden die POKS erst im Laufe des Verfahrens bestimmt, so kann ihre
Anzahl entweder vorher festgelegt werden, s. o., so daß das Verfahren mit
dem Erreichen der maximalen POKS-Anzahl abbricht, oder es werden so
lange weitere POKS bestimmt, bis andere Abbruchkriterien erfüllt sind. Zum
Beispiel kann das Verfahren abgebrochen werden, wenn eine Sequenz von
einer vorgegebenen Länge zusammengesetzt wurde, die alle Ansprüche an
eine potentielle Lösung des Problems erfüllt. Ebenso kann das Verfahren z. B.
dann beendet werden, wenn sich sie bisher zusammengesetzten
Sequenzen an keinem der beiden Enden weiter verlängern lassen.
Das Verfahren beruht im wesentlichen auf dem oben beschriebenen
dynamischen Arrayaufbau, da dieser es erlaubt, Sequenzinformationen von
spezifischer Länge zu erhalten, ohne dazu alle Sonden in ihrer Vielfalt
erzeugen zu müssen. Außerdem wird die parallele "Rechenleistung" der
Arrays genutzt, die Zeit- und rechenaufwendige Vorgänge im Computer
überflüssig macht.
Für alle zu Beginn festgelegten POKS werden die drei oben beschriebenen
Sondentypen auf einem oder mehreren Arrays synthetisiert, d. h. einmal
werden alle Kombinationen einer vorgegebenen Länge mit der POKS-
Gegensequenz am 3'-Ende und einmal mit dieser Sequenz am 5'-Ende
erzeugt. Durch die Hybridisierung mit der Ausgangssequenz erhält man nach
der Signalauswertung Informationen in (ungefährer) Sondenlänge über die
Paarungen der Nukleotide rechts und links von diesen POKS. Mit Hilfe der
Signale können wie oben beschrieben iterativ neue Sonden erzeugt werden.
Dies wiederholt sich, bis eine maximale Sondenlänge erreicht ist. Zu diesem
Zeitpunkt kennt man in der Ausgangssequenz alle möglichen Kombinationen
auf maximaler Sondenlänge zu beiden Seiten jedes POKS.
Tabelle 5 zeigt die drei verschiedenen Sondentypen mit den POKS (PPP)
bzw. deren komplementärer Sequenz am 3'-Ende, am 5'-Ende und im
Inneren der Sonde.
Mit Hilfe des dritten Sondentyps wird nun der Zusammenhang zwischen
diesen Informationen geklärt. Jede Sonde enthält nun im Zentrum die
Gegensequenz zu den gewählten POKS, zu beiden Seiten dieser Sequenz
werden nun in verschiedenen Sonden alle möglichen Kombinationen einer
bestimmten Länge erzeugt. Durch das gleiche iterative Vorgehen wie bei
den beiden ersten Sondentypen gewinnt man Informationen über alle
Kombinationen der bisher erkannten Sequenzen, die in der
Ausgangssequenz auftreten. Wenn die sich aus der Anzahl aller möglichen
Kombinationen der erkannten Sequenzen ergebende Zahl der benötigten
Stellplätze für den dritten Sondentyp geringer ist als die Stellplatzanzahl auf
dem Array, können die Teile der erkannten Sonden des 1. und 2. Typs
direkt in die neuen Sonden übernommen werden. Eine Iteration ist in diesem
Fall nicht notwendig. Für die direkte Erzeugung aller möglichen
Zusammenhänge zwischen den erkannten Sequenzen werden deutlich
weniger Stellplätze benötigt.
Nach der Auswertung der Arrays mit Sonden des dritten Typs und einem
Zwischenschritt im Rechner sind alle Kombinationen der Länge
k = 2 × Maximale Sondenlänge - POKS-Länge
bekannt, die in der Ausgangssequenz auftreten können; sie haben alle einen
POKS in der Mitte der Sequenz.
Mit Hilfe der POKS lassen sich diese Teilsequenzen nun erweitern. Dazu
wird in jeder Teilsequenz zu einer oder beiden Seiten des mittleren POKS
eine neue Stelle gesucht, an der einer der verwendeten POKS auftritt. Wird
ein POKS gefunden, so vergleicht man die Sequenzinformation zu beiden
Seiten dieses POKS mit allen Teilsequenzen, die genau diesen POKS
enthalten. Dieses Vorgehen ermöglicht die Verknüpfung der einzelnen
Teilsequenzen, es entsteht ein Baum aller Varianten, in denen diese
Sequenzen kombinierbar sind.
Die folgende Tabelle 6 zeigt die Überschneidung zweier Teilsequenzen in
einer DNA Sequenz, die mit Hilfe eines POKS erkannt wurde.
In der oberen Sequenz von Tabelle 6 wurde ein weiterer POKS an Position
7 rechts nach dem POKS in der Mitte gefunden. Der Vergleich mit der
zweiten Sequenz, die den "erkannten" POKS in der Mitte der Sequenz hat,
hat ergeben, daß eine größtmögliche Überschneidung zwischen den beiden
Sequenzen besteht, und zwar von Position eins der zweiten Sequenz bis zu
Position 20 dieser Sequenz.
Wurden alle POKS bereits zu Beginn des Verfahrens bestimmt, so sind nun
alle möglichen Nachbarschaftsverhältnisse der Teilsequenzen bekannt. Die
Nukleotidkombinationen können zur Gesamtsequenz zusammengesetzt
werden, dazu wird der Baum aller Kombinationsmöglichkeiten durchlaufen
und sinnvoll erscheinende Teilsequenzen werden zu einer Gesamtsequenz
vereint. Falls repetitive Teilsequenzen auftreten, wird der Algorithmus nach
einigen Zyklen abgebrochen; ein mögliches Abbruchkriterium ist dabei zum
Beispiel die angenommene Länge der Ausgangssequenz.
Alle potentiellen Lösungssequenzen müssen zum Schluß noch auf ihre
Richtigkeit überprüft werden, damit der Fehler zwischen der bestimmten
Lösungssequenz und der Ausgangssequenz möglichst gering ist.
Wurden nicht alle POKS gleich zu Beginn des Verfahrens festgelegt, so ist
es nun möglich, neue POKS aus den bereits bekannten Sequenzteilen zu
bestimmen. Hierzu gibt es mehrere Varianten. Zum einen können alle
Teilsequenzen zu einer Seite der POKS in der Mitte jeder Sequenz auf die
am häufigsten auftretenden p-mere untersucht werden, wobei p die Länge
der zu wählend POKS ist, die entweder vorher festgelegt oder im Verfahren
optimiert werden kann. Durch diese Wahl der POKS kann im nächsten
Schritt für eine Mehrzahl, bzw. für alle bis jetzt bekannten Teilsequenzen
eine Sequenz bestimmt werden, durch die sich die bisher detektierten
Sequenzen verlängern lassen. Um sicher zu stellen, daß für jede Teilsequenz
eine Folgesequenz, bzw. eine Vorgängersequenz gefunden wird, werden
eventuell relativ viele POKS benötigt. Mit den neu bestimmten POKS werden
die gleichen Sonden erzeugt wie mit den zu Beginn gewählten POKS. Mit
den dadurch gewonnenen Informationen ergeben sich neue Möglichkeiten,
die bekannten Teilsequenzen zusammenzusetzen und zu verlängern. Sollten
die Abbruchkriterien des Verfahrens noch nicht erfüllt sein, so werden aus
den neu bestimmten Sequenzen wiederum POKS bestimmt und mit deren
Hilfe neue Informationen gewonnen.
Um die Anzahl der benötigten POKS zu verringern, ist es sinnvoll, die mit
den zu Beginn des Verfahrens gewählten POKS gewonnenen Informationen
zunächst zu längeren Sequenzen zusammenzusetzen. Diese längeren
Sequenzen werden, falls erforderlich, untereinander verglichen und kürzere
Sequenzen, die auch in längeren Sequenzen zu finden sind, gestrichen. Die
restlichen Sequenzen enden alle auf Teilsequenzen für die kein Nachfolger
bestimmt werden kann, bzw. beginnen alle mit Sequenzen, für die es keinen
Vorgänger gibt. In diesen "Endsequenzen" werden nun wie oben p-mere
bestimmt, die häufig vorkommen. Die p-mere dienen als neue POKS, für die
wieder die drei Sondentypen erzeugt werden und somit nach der
Signalauswertung alle möglichen Basenkombinationen um die POKS bekannt
sind.
Nur in der Anfangssequenz und der Endsequenz der zu untersuchenden
Sequenz können POKS gefunden werden, ohne daß sich diese Sequenzen
weiter verlängern lassen. Werden diese Teilsequenzen im Verfahren erkannt,
so werden sie gesondert behandelt und nicht in die Bestimmung neuer
POKS einbezogen.
Aufgrund der Wahl der neuen POKS überschneiden sich die neu bestimmten
Sequenzen nun zum Teil mit den bereits bekannten längeren Sequenzen,
diese werden nun, soweit möglich, in beide Richtungen verlängert. Zudem
werden alle Kombinationen erzeugt, die durch die neuen POKS entstehen
und noch nicht in den bisher bekannten Sequenzen enthalten sind. Aus den
neuen "Endsequenzen" werden wieder neue POKS erzeugt; dies geschieht
so lange, bis eines der Abbruchkriterien erfüllt wird.
Neben den oben aufgeführten Methoden zur Bestimmung der POKS sind
natürlich auch andere Vorgehensweisen denkbar, bei denen POKS nach den
einzelnen Teilschritten des Verfahrens bestimmt werden. Unter anderem
kann sich eine Kombination aus verschiedenen Methoden als sinnvoll
erweisen.
Durch die selbständige Wahl der neuen POKS entwickelt sich im System ein
Lernprozeß, bei dem sich die Auswertung der Daten und die
Zusammensetzung neuer Arrays zur Gewinnung neuer Daten gegenseitig
bedingen.
Bestimmt man die POKS zu Beginn des Verfahrens, so werden die erkannten
Teilsequenzen in allen möglichen Kombinationen zu langen Sequenzen
zusammengesetzt. Bei einer entsprechenden Auswahl der POKS überlappt
jede Teilsequenz mit einer anderen, so daß sich die Ursprungssequenz unter
den kombinierten Möglichkeiten befindet. Um herauszufinden, welche der
Sequenzen diejenige ist, die das Problem am besten löst, werden zunächst
alle Sequenzen untereinander auf Überlappungen überprüft. Treten solche
Überlappungen auf, und überschreitet eine aus den sich überlappenden
Teilsequenzen zusammengesetzte Sequenz nicht die geschätzte oder
bekannte Länge der Probensequenz, so werden die Sequenzen weiter
kombiniert. Kurze Sequenzen, die komplett in längeren Sequenzen enthalten
sind, werden gestrichen.
Neben der Sequenzlänge ist der Vergleich mit allen auf den Arrays
detektierten Teilsequenzen ein Anhaltspunkt, um die Sequenz zu
bestimmen, die mit der Probensequenz am besten übereinstimmt. In der
Lösungssequenz sind im Idealfall alle, zumindest aber ein großer Teil der auf
den Arrays mit den ersten beiden Sondentypen bestimmten Sequenzen
enthalten, auf keinen Fall dürfen vor oder nach einem POKS
Basenkombinationen auftreten, die nicht auf den Arrays erkannt wurden.
Ist zudem eine Quantifizierung der erhaltenen Signale möglich, kann also
zumindest annähernd bestimmt werden, wie oft eine detektierte Sequenz in
der Ursprungssequenz vorkommt, so ist dies ein weiteres Kriterium während
der Verifizierung; es darf keine Sequenz häufiger als erkannt vorkommen.
Außer den oben aufgeführten Kriterien ist es natürlich möglich, die gleiche
Sequenz zur Kontrolle mit anderen POKS zu untersuchen und die Ergebnisse
zu vergleichen, ein Prozeß, der bei einer hohen Stellplatzdichte auf den
Arrays durchaus parallel verlaufen kann.
Werden die POKS erst im Verlauf des Verfahrens bestimmt, so kann schon
in jedem Schritt überprüft werden, ob die einzelnen Sequenzen nur
Teilsequenzen enthalten, die auch in der Probensequenz vorkommen, oder
ob Sequenzen auftreten, die nicht auftreten dürfen und eine Sequenz damit
Lösungssequenz ausscheidet. Genauso kann (bei der oben angesprochenen
Quantifizierung der Signale) schon nach jedem Schritt sichergestellt werden,
daß eine Teilsequenz nur so oft eingebunden wird wie es zulässig ist.
Bei einer vorher festgelegten Anzahl von POKS kann das Verfahren
automatisch abgebrochen werden, wenn nach bzw. bei der Bestimmung
neuer POKS diese Anzahl überschritten wird, bzw. wenn bei vorgegebenen
POKS alle dadurch erhaltenen Informationen verarbeitet wurden.
Sind sowohl die POKS als auch deren Anzahl frei wählbar, so muß ein
anderes Abbruchkriterium gefunden werden. Zunächst ist die Bestimmung
von p-meren natürlich begrenzt durch deren Anzahl, da es genau 4Pp-mere
gibt. Je nach Wahl von p ist diese Anzahl relativ hoch und damit zu groß,
um als natürliches Abbruchkriterium zu dienen.
Ohne jedes Vorwissen über die Beschaffenheit der zu untersuchenden
Sequenz (z. B. ohne Kenntnis ihrer Länge) kann das Verfahren dann
abgebrochen werden, wenn für jede theoretisch verlängerbare, erkannte
Teilsequenz ein Nachfolger, bzw. ein Vorgänger gefunden wurde. Zu diesem
Zeitpunkt liegt die komplette Sequenzinformation der Ausgangssequenz vor,
so daß durch eine erneute Bestimmung von POKS keine neuen
Informationen gewonnen werden können.
Ist die Länge der zu untersuchenden Sequenz bekannt, so kann die
zyklische POKS-Bestimmung beendet werden, sobald eine Sequenz
gefunden wurde, deren Länge mit der ungefähren Ausgangslänge
übereinstimmt, und die (fast) alle auf den Arrays erkannten Teilsequenzen
enthält.
Zudem können für die zusammengesetzten Sequenzen während des
Verfahrens Wahrscheinlichkeiten für ihre "Richtigkeit", bzw. Werte zur
Fehlerabschätzung bestimmt werden, so daß das Verfahren abbrechen
kann, sobald ein vorher gesetzter Schwellenwert für den Fehler
unterschritten wird.
Treten in der Probensequenz Wiederholungen auf, so kann es in dem oben
beschriebenen Baum aller möglichen Sequenzkombinationen zu einem
Ringschluß kommen, der das Zusammensetzen der Sequenzen erschwert.
Dabei ist die Länge der sich wiederholenden Sequenzabschnitte von
wesentlicher Bedeutung. Wiederholungen, dis kürzer sind als die maximale
Sondenlänge (bei Verwendung aller 3 Sondentypen), bzw. kürzer als die
halbe maximale Sondenlänge bei ausschließlicher Verwendung des 3.
Sondentyps, stellen kein Problem beim Zusammensetzen dar. Treten
Wiederholungen auf, die länger sind als die oben beschriebenen, die aber
kürzer als die Gesamtlänge der Teilsequenzen minus Länge der POKS, so
können diese durch geschicktes Verschieben der POKS, d. h. durch die Wahl
eines neuen POKS, der sehr nahe am POKS im Zentrum der Sequenz liegt,
aufgelöst werden. Treten längere Wiederholungen auf, so wird nach ihrem
Auftreten der Algorithmus zum Zusammensetzen abgebrochen, dadurch
entstehen mehrere Teilsequenzen von unterschiedlicher Länge, die jeweils
um die Länge der Wiederholungen überlappen. Durch den Einsatz anderer
Verfahren, wie z. B. PCR, oder der Wahl neuer Sondentypen kann der
Zusammenhang zwischen diesen Teilsequenzen geklärt werden.
Ein möglicher weiterer Ansatz zur Lösung der durch Wiederholungen
bedingten Phänomene ist die Kenntnis über die ungefähre Länge der
Ausgangssequenz. Wird bei dem Versuch, die erkannten Teilsequenzen
zusammenzusetzen, diese Länge deutlich überschritten, so wurden
vermutlich Teilsequenzen zu häufig eingebaut. Eine solche Sequenz kann
nicht als Ergebnis des Verfahrens zugelassen werden.
Ist es darüber hinaus möglich, durch eine Quantifizierung der nach der
Hybridisierung erhaltenen Signale eine Größenordnung für die Häufigkeit des
Auftretens jeder Sonde in der Ausgangssequenz festzulegen, so wird die
Länge der Ausgangssequenz nicht unbedingt als Abbruchkriterium benötigt.
Auch für den Fall, daß in der Probensequenz repetitive Teile auftreten, d. h.
nicht unterbrochene Wiederholungen relativ kurzer Sequenzen, erleichtert
die mögliche Quantifizierung der Signale auf den Arrays das
Zusammensetzen der Sequenz.
Ist es möglich, die Sondenlängen in dem oben beschriebenen Verfahren
hinreichend groß zu wählen, so kann auf den Aufbau der ersten beiden
Sondentypten für jeden POKS verzichtet werden. Die Sonden können dann
so lang gewählt werden, daß die Wahrscheinlichkeit, für einen weiteren
POKS in ihrer Sequenz groß genug ist, um Überlappungen zu garantieren.
Wie oben beschrieben werden für den nun ausschließlich relevanten 3.
Sondentyp, der die Gegensequenz der gewählten POKS in der Mitte der
Sequenz enthält, alle Kombinationen einer vorgegebenen Länge erzeugt,
gegen diese wird hybridisiert und signalliefernde Sonden werden im
nächsten Schritt weiter aufgebaut. Dabei ist es möglich, jede Sonde gleich
in beide Richtungen vom POKS weg zu verlängern, oder abwechselnd in die
eine und dann in die andere, bis die maximal mögliche Länge erreicht wird.
Je nach Anzahl der Stellplätze können wieder mehrere Iterationsschritte auf
einem Array abgearbeitet werden.
Die Verwendung von langen Sonden macht unter Umständen den Aufbau
der ersten beiden Sondentypen überflüssig. Dies bedeutet eine Reduktion
der Stellplätze und somit der benötigten Arrays. Zum anderen können
eventuelle Fehler, die durch die rechnerische Verlängerung der Sonden des
dritten Typs mit Hilfe der Sonden des ersten und zweiten Typs entstehen,
ausgeschlossen werden.
Eine weitere Variante des Verfahrens ist die Integration der POKS bereits in
die Probenvorbereitung, indem mittels sequenzspezifischen Nukleasen das
Probenmaterial in entsprechende Fragmente geschnitten wird. Als POKS
dienen dann automatisch die Basen, die die Nuklease-Erkennungssequenzen
bilden.
Die Probenvorbereitung für diese Variante des Verfahrens geht zunächst von
dsDNA aus. Diese dsDNA kann zum einen als genomische, chromosomale
DNA, als extrachromosomales Element (z. B. als Plasmid) oder als
Bestandteil von Zellorganellen aus Viren, Bakterien, Tieren, Pflanzen oder
dem Menschen isoliert werden, zum anderen aber prinzipiell auch in vitro
durch reverse Transkription, RNaseH-Behandlung und anschließende
Amplifikation (z. B. durch PCR) aus ssRNA erzeugt werden. Als RNA-
Matrizen können neben rRNAs, tRNAs, mRNAs und snRNAs auch in vitro
erzeugte Transkripte (entstanden z. B. durch Transkription mit SP6-, T3-
oder T7-RNA-Polymerase) eingesetzt werden.
Die isolierte oder in vitro synthetisierte dsDNA wird dann mit einer
Restriktionsendonuklease oder mit einem Gemisch aus mehreren
Restriktionsendonukleasen hydrolysiert, wobei doppelsträngige
Subfragmente mit definierten Anfangs- und/oder Endsequenzen entstehen.
Anzahl und Länge der entstehenden Subfragmente können durch die
Auswahl geeigneter Enzyme (dies können auch durch Proteindesign
veränderte oder erzeugte Enzyme sein) gesteuert werden. Zur
Längenfraktionierung können der Hydrolyse gelelektrophoretische und/oder
chromatographische Trennprozesse folgen. Für die Erzeugung von RNA-
Subfragmenten können Ribozyme eingesetzt werden.
Die erzeugten Subfragmente werden vorzugsweise nach der Fraktionierung
markiert. Obwohl die Markierung prinzipiell auch vor der Denaturierung
möglich ist (z. B. durch das Auffüllen 3'-kohäsiver Enden mit einer DNA-
Polymerase), werden die Subfragmente bevorzugt nach der Denaturierung,
also auf der Ebene einzelsträngiger Subfragmente, markiert. Die Markierung
erfolgt vorzugsweise mittels fluoreszierender Agenzien (z. B. Fluorescein
oder Cy5), möglich sind aber auch andere Markierungsverfahren wie z. B.
der Einbau radioaktiver Isotope. Die Markierungsgruppen werden
hauptsächlich in Form markierter Nukleotid-Derivate an die Subfragmente
gekoppelt. Die Kopplung am 3'-Terminus kann z. B. durch die T4-RNA-Ligase
oder durch die terminale Transferase (unter Verwendung entsprechender
Nukleotid-Derivate) erfolgen.
Die markierten, einzelsträngigen Subfragmente können dann in einer
geeigneten Hybridisierungslösung gegen den mit einem Sondenarray
beschichteten Träger hybridisiert werden.
Die in geeigneter Weise aufbereitete Probe wird durch ein Schnittenzym in
möglichst kleine Subfragmente zerlegt. Die komplementäre Sequenz zur Nu
kleotidabfolge des Schnittenzyms bildet hierbei direkt die POKS Sequenz,
das bedeutet, die möglichen POKS werden durch die zur Verfügung stehen
den Enzyme vorgegeben. Das statistische Verhalten der Fragmentlänge und
-anzahl ist analog zu den frei gewählten POKS bedingt durch die Ausgangs
sequenz und die verwendete Schnittsequenz.
Die so enzymatisch zerkleinerte Probe wird nach der Länge der Subfrag
mente sortiert, d. h. fraktioniert. Markierte Subfragmente, welche nicht
länger als die maximale Sondenlänge sind, werden zur Analyse, gemäß be
schriebenen Verfahren, auf den Array gegeben. Die Sonden, welche beim
ersten Array einen Hybridisierungspartner unter den Subfragmenten in der
Probe gefunden haben, werden entsprechend zyklisch bis zur maximalen
Sondenlänge verlängert. Dadurch werden alle Subfragmente der Ausgangs
probe bezüglich ihrer Nukleotidabfolge bestimmt.
Die längeren Subfragmente werden einem weiteren Probenvorbereitungs
zyklus zugeführt. Dabei kann es sich wiederum um eine enzymatische
Fragmentierung, aber auch ein geeignetes Amplifikationsverfahren oder das
vorher beschriebene rein statistische POKS Verfahren und die zugehörige
Probenvorbereitung handeln.
Bei Bedarf können auch mehrere Enzym POKS gleichzeitig in der
Probenvorbereitung und in der anschließenden zyklischen Arrayanalyse
eingesetzt werden. Diese Subfragmente können durch die enzymatische
POKS Sequenz am Anfang bzw. Ende der Sonden einwandfrei zugeordnet
und parallel verfolgt werden.
Für den Aufbau der Sonden ergeben sich in dieser Variante des DSBH-
Verfahrens durch die Vorgabe der Enzymsequenzen zwei Möglichkeiten.
Zum einen kann die komplette Sequenz an den Enden der Sonden aufgebaut
werden, zum anderen kann es genügen, nur den Teil der Enzymsequenz
nach dem Schnittpunkt zu synthetisieren. Tabelle 7 stellt die beiden
Möglichkeiten am Beispiel einer DNA-Sequenz dar, in der die Sequenz des
Enzyms Alu I (AGCT) auftritt. Die Schnittstelle dieses Enzyms liegt
zwischen dem zweiten und dritten Nukleotid.
Nach der Hydrolyse und der Denaturierung in der Probenvorbereitung erhält
man in diesem Fall vier Fragmente. Zwei von ihnen beginnen, in 5'-3'-
Richtung gelesen, mit den Nukleotiden CT, die beiden anderen Enden auf
AG. Um die in beiden Richtungen auf die Enzymsequenz folgenden
Nukleotide erkennen zu können, müssen auf dem Array nun die drei oben
beschriebenen Sondentypen synthetisiert werden, siehe Tabelle 8.
Im linken Teil der Tabelle 8 wird die komplette Enzymsequenz als POKS
verwendet, der Aufbau erfolgt völlig analog zur Methode mit statistisch
gewählten POKS. Für den Aufbau der im rechten Teil dargestellten Sonden
wird die Enzymsequenz an ihrem Schnittpunkt in zwei Teile zerlegt. Um die
im obigen Sequenzbeispiel mit den Nukleotiden CT beginnenden Fragmente
detektieren zu können, werden Sonden mit dem den Nukleotiden GA am 3'-
Ende erzeugt, um die beiden anderen Fragmente bestimmen zu können,
werden alle Sonden einer vorgegbenen Länge erzeugt, die die Nukleotide TC
am 5'-Ende tragen. Das Hybridisierungsverhalten auf dem Array muß für
beide Sondentypen gleich sein. Im linken Fall fungieren die Nukleotide TC
als eine Art Linker.
Für die jeweils dritte Sondenarte muß die Probe anders vorbereitet werden.
Entweder wird die zu untersuchende Sequenz statistisch, z. B. mit
Ultraschall zerlegt, oder z. B. mit einem Enzym geschnitten, dessen Sequenz
keiner der zur Probenvorbereitung verwendeten Enzymsequenzen entspricht.
Das Zusammensetzen der einzelnen detektierten Fragmente zu einer
Gesamtsequenz erfolgt analog zur beschriebenen Variante mit statistisch
gewählten POKS.
Der wesentliche Vorteil der Erzeugung der POKS in der Probenvorbereitung
durch Schnittenzyme ist ein niedrigerer Bedarf an Probenmaterial. Durch die
enzymatische Zerlegung der Ausgangssequenz entstehen nur Subfragmente
mit der POKS Sequenz am Ende. Bei einer Ausgangssequenz mit
beispielsweise 3 000 Basen und einer mittleren Subfragmentlänge von 60
Basen entstehen ca. 500 Subfragmente. Beim Zerlegen der gleichen
Ausgangssequenz in alle möglichen Subfragmente für die frei wählbaren
POKS (aber mit der gleichen Nukleotidsequenz wie das Enzym sie aufweist)
entstehen entsprechend 3 000-60 + 1 = 2 941 Subfragmente von denen
nur 500 die POKS Sequenz am Ende aufweisen. Im Vergleich wird für die
Enzym POKS also nur 500 / 2 941 = 0,17 entsprechend 17% des
Probenmaterials benötigt.
Die wesentlichen Nachteile der enzymatischen POKS sind die notwendige
Entwicklung der geeigneten Schnittenzyme, die geringe Flexibilität und der
höherer Aufwand in der Probenvorbereitung. Die Entwicklung der
entsprechenden Enzyme zum Beispiel mittels Proteindesign ist
arbeitsaufwendig. Die Bereitstellung in der Probenvorbereitung erhöht den
logistischen Aufwand im System. Außerdem muß eine zyklische
Probenvorbereitung mit einer integrierten Längenfraktionierung etabliert
werden. Diese ist notwendig um die längeren Subfragmente abzutrennen
und weiter zu zerkleinern.
Beide Ansätze (frei wählbare und enzymatische POKS) lassen sich auch
kombinieren. So könnten statistisch sehr erfolgreiche POKS als Enzyme in
der Probenvorbereitung bereitgestellt werden. Sind diese Enzym POKS
verbraucht wird entsprechend mehr amplifiziert und die frei wählbaren POKS
eingesetzt.
- 1. 7.1.1 Freigewählte POKS mit allen 3 Sondentypen
In diesem Beispiel wird die Sequenzierung einer 3060 Nukleotide langen
einzelsträngigen Teilsequenz aus dem E.coli Genom mit Hilfe verschiedener
POKS von drei Nukleotiden Länge simuliert. Die während der Simulation
erzeugten Daten sind Idealdaten, die mögliche Fehler, wie z. B. möglichen
Abbruch während der Synthese oder Probleme bei der Signalauswertung
noch nicht berücksichtigen.
Mit Hilfe der durch die Simulation des Arrayaufbaus, der Hybridisierung und
der Signalauswertung erzeugten Daten läßt sich die Ausgangssequenz
wieder in ihrer Gesamtheit zusammensetzen.
Zu Beginn des Verfahrens wird der A-T-, G-C-Gehalt der Sequenz bestimmt.
Daraufhin wird der POKS mit der höchsten Wahrscheinlichkeit, in diesem
Fall GCG, als Start-POKS gewählt. Mit diesem POKS wird die Synthese der
Sonden auf dem ersten Array simuliert. Dazu werden alle drei Sondentypen
mit der Gegensequenz zum POKS an den oben näher beschriebenen
Positionen in den Sonden erzeugt. Der variable Anteil der Sonden hat in
diesem Beispiel eine Länge von 5 Nukleotiden, für jeden Sondentyp werden
also Stellplätze benötigt, also insgesamt 3072. Um eine eventuell deutlich
größere Anzahl von Stellplätzen auszunutzen, kann es sinnvoll sein, gleich
zu Beginn längere Sonden zu synthetisieren.
Nach der Hybridisierung gehen von jeweils 82 Stellplätzen, deren Sonden
die POKS-Gegensequenz an ihren Enden haben und von 81 Steilplätzen,
deren Sonden die POKS-Sequenz in der Mitte haben, Signale aus. Auf dem
nächsten Array werden also insgesamt 980 (82 × 4 + 81 × 4 + 81 × 4)
Stellplätze benötigt, um für jeden signalgebenden Stellplatz vier neue
Stellplätze mit jeweils um eine Base verlängerten Sonden aufbauen zu
können.
An dieser Stelle ist es möglich, gleich mehrere Iterationsschritte auf einem
Array abzuarbeiten, wenn die Anzahl der vorhandenen Stellplätze
hinreichend groß ist. Dazu kann jede relevante Sonde auf dem neuen Array
um zwei, drei oder mehr Nukleotide erweitert werden. Bei einer
Verlängerung um zwei Nukleotide werden pro Stellplatz dann 16 neue
Stellplätze benötigt, bei einer Verlängerung um drei Nukleotide entsprechend
64 Stellplätze, bei 4 Nukleotiden 256 Stellplätze, usw. In der Simulation, in
der die Stellplatzanzahl eine untergeordnete Rolle spielt, wird für jeden
Iterationsschritt ein neues Array erzeugt.
Die Sondenlänge von insgesamt 5 + 3 = 8 Nukleotiden ist in diesem Fall
bereits so spezifisch lang, daß sich die Anzahl der benötigten Stellplätze in
keinem der folgenden Iterationsschritte deutlich vergrößert, sie pendelt sich
nach ungefähr 3 Schritten auf 340 Stellplätze pro Sondentyp, also
insgesamt auf 1020 Stellplätze ein.
Insgesamt werden die Sonden bis zu einer Länge von 25 Nukleotiden
aufgebaut, so daß nach der Auswertung des letzten Arrays alle in der
Ausgangssequenz auftretenden 22-mere nach und vor dem ersten POKS
bekannt sind. Mit Hilfe des dritten Sondentyps werden alle möglichen
Zusammenhänge zwischen diesen Teilsequenzen bestimmt, diese
Sequenzen können rechnerisch mit den Sequenzen des ersten und zweiten
Sondentyps auf jeweils 47 Nukleotide verlängert werden.
Es ist mit dem dynamischen Arrayaufbau somit gelungen, alle 22-mere nach
und vor dem POKS zu bestimmen, ohne alle 22-mere (422 = 1,759218604
x 1013) erzeugen zu müssen.
Im nächsten Schritt wird in den jetzt bekannten zusammengesetzten
Teilsequenzen mit dem POKS in der Mitte die POKS-Sequenz rechts und
links dieses POKS gesucht. Wird die POKS-Sequenz ein zweites Mal in einer
Teilsequenz gefunden, so wird der entsprechende Abschnitt mit allen
Teilsequenzen verglichen, die den POKS in der Mitte haben. Da alle
Sequenzen um den POKS nun bekannt sind, muß es eine Sequenz geben,
mit der es eine Überschneidung gibt. Nach dem ersten POKS gelingt es
bereits, die erkannten Teilsequenzen zu längeren Sequenzen bis zu 248
Nukleotiden Länge zusammenzusetzen. Durch Auswertung der Enden dieser
Sequenzen werden zwei neue POKS (CTG, GAA) bestimmt, einer für jedes
Ende, mit denen nun wieder Arrays aufgebaut werden. Wie oben wird mit
einer variablen Länge von 5 Nukleotiden begonnen, die bis zu einer Länge
von 22 Nukleotiden gesteigert wird. Die Anzahl der benötigten Stellplätze
pendelt sich nach wenigen Zyklen auf 312 pro Sondentyp ein, so daß pro
Iterationsschritt insgesamt 936 × 2 Stellplätze benötigt werden.
Wie gehabt werden in den detektierten Sequenzen die POKS-Sequenzen
gesucht und diese Sequenzen gegebenenfalls verlängert. Nach den ersten
drei POKS können Sequenzteile bis zu einer Länge von 456 Nukleotiden
zusammengesetzt werden. Um die Sequenz in der vollen Länge erkennen
und zusammensetzen zu können werden noch vier weitere POKS (GCC,
CAG, TCA, ATC) benötigt, die aus den bisher ausgewerteten Daten und
einem weiteren Zyklus bestimmt werden. Die Anzahl der in den letzen
beiden Zyklen (Arrayaufbau, Hybridisierung, iterative Verlängerung der
Sonden bis zu 25 Nukleotiden) benötigten Stellplätze pro Iterationsschritt
liegt bei 200 bis 370 Stellplätzen pro Sondentyp. Nach dem letzen Zyklus
kann die Ausgangssequenz komplett zusammengesetzt werden.
Die Array-Größe und die Anzahl der nach jedem Schritt gewählten POKS ist
in diesem Beispiel nicht optimiert worden. Es ist möglich, daß eine größere
Anzahl von POKS zu Beginn des Verfahrens die Anzahl der benötigten
Stellplätze/Arrays reduzieren würde. Zudem erscheint es sinnvoll, auf
jedem Array mehrere Iterationsschritte auf einmal abzuarbeiten, um die
Anzahl der verfügbaren Stellplätzen auszunutzen. Geht man in diesem
Beispiel von einer Array-Größe von 400 000 Stellplätzen aus, und optimiert
das Verfahren, so können auf dem ersten Array Sonden mit einem variablen
Teil von 8 Nukleotiden aufgebaut, also mit einer Gesamtlänge von 11
Nukleotiden. Damit werden die vorhandenen Stellplätze allerdings erst zur
Hälfte ausgenutzt, was eine Wahl von zwei POKS zu Beginn sinnvoll
erscheinen läßt.
Auch bei einer Ausgangslänge von 11 Nukleotiden pro Sonden gehen nur
von ca. 85 Stellplätzen pro Sondentyp Signale aus, so daß auf dem
nächsten Array insgesamt 1020 Stellplätze aufgebaut werden müssen.
Somit können auf diesem Array 5 Iterationsschritte abgearbeitet werden,
dazu werden 261 124 Stellplätze benötigt. Mit zwei weiteren Arrays, auf
denen wiederum jeweils 1024 Sonden pro signalgebenden Stellplatz des
Vorgängerarrays aufgebaut werden können, lassen sich die relevanten
Sonden auf jeweils 25 Nukleotide verlängern. Für den ersten POKS werden
somit 4 Arrays benötigt; dabei sind die einzelnen Arrays noch nicht ideal
ausgelastet.
Um in den nächsten Schritten zwei POKS auf einmal untersuchen zu
können, muß die Anzahl der lterationsschritte pro Array auf vier reduziert
werden, so daß für jedes POKS-Paar insgesamt vier bis fünf Arrays benötigt
werden, insgesamt, inklusive der Arrays für den ersten POKS, also 16 bis
19 Arrays.
Bei Beispielen mit längeren Sequenzen ist zu beobachten, daß die Anzahl
der benötigten POKS nicht notwendigerweise mit der Länge der Sequenz
wächst, vielmehr gelingt es z. B. verschiedene Sequenzen von 20 000
Nukleotiden Länge mit 9 bis 11 POKS zusammenzusetzen. Das Verfahren
wird somit für längere Sequenzen immer rentabler.
Das erfindungsgemäße Verfahren ermöglicht die systematische
Sequenzanalyse von teilweise oder gänzlich unbekannten Nukleinsäuren in
einer Probe.
In einer Ausführungsform werden mithilfe des Verfahrens Genome ganz
oder teilweise sequenziert. Die Teile können durch Auswahl und Isolierung
einzelner Chromosomen, durch Klonieren genomischer DNA (z. B. in Bacterial
Artificial Chromosomes BAC oder Yeast Artificial Chromosomes YAC) oder
durch andere Verfahren generiert werden.
In einer anderen Ausführungsform werden cDNA-Populationen, die z. B. aus
einer klonierten Bibliothek oder direkt aus einer isolierten mRNA hergestellt
sein können, ganz oder zum Teil sequenziert. Im Ergebnis handelt es sich
dann um eine Transkriptom-Sequenzierung. Dies kann bei gleichzeitiger
Bearbeitung unterschiedlicher Proben aus unterschiedlichen Quellen, z. B.
Zellen in unterschiedlichem Zustand, so geschehen, daß in einer Variante
nur solche Sequenzen weiterverfolgt werden, die unterschiedlich sind, in
einer anderen nur solche, die gleich sind.
In einer Ausführungsform kann es von Interesse sein, daß sog.
Polymorphismen, z. B. Einzelnukleotid-Polymorphismen, identifiziert oder für
die Auswahl der POKS verwendet werden.
Weiterhin kann das erfindungsgemäße Sequenzierungsverfahren für
diagnostische Zwecke, beispielsweise für eine individualisierte oder
mehrstufige Diagnostik eingesetzt werden. Das Verfahren eignet sich auch
zur Entwicklung einer individualisierten, patientenabhängigen
Medikamentierung bzw. zur patientenabhängigen Entwicklung oder/und
Modifizierung von pharmazeutischen Substanzen. Das Verfahren kann in
Verbindung mit einem Netzwerk oder/und einer Datenbank zu einer
dezentralen patientennahen Analyse und Identifizierung von
Krankheitsbildern bzw. Krankheitserregern und deren Mutationen eingesetzt
werden. Außerdem ist das Verfahren zur molekularen Diagnostik sowie zur
vergleichenden Genomik geeignet, z. B. zum Einsatz in der Forschung, zur
Aufklärung der Funktionalität von einzelnen Genen oder Genomen von
Organismen. Das Verfahren kann weiterhin zur Mutationsanalyse, z. B. unter
anderem zur Untersuchung des Einflusses von beispielsweise
Umwelteinflüssen, Medikamenten, Strahlung oder/und Giften von
Organismen eingesetzt werden.
Claims (28)
1. Verfahren zur Sequenzierung von Nukleinsäuren umfassend die
Schritte:
- a) Durchführen eines ersten Hybridisierungszyklus umfassend
- a) Bereitstellen eines Trägers mit einer Oberfläche, die an einer Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen,
- b) Inkontaktbringen einer Probe, die zu sequenzierende Nukleinsäuren enthält, mit dem Träger unter Bedingungen, bei denen eine Hybridisierung zwischen den zu sequenzierenden Nukleinsäuren und dazu komplementären Sonden auf dem Träger erfolgen kann, und
- c) Identifizieren der vorbestimmten Bereiche auf dem Träger, an denen eine Hybridisierung in Schritt (ii) erfolgt ist,
- b) Durchführen eines nachfolgenden Hybridisierungszyklus
umfassend:
- a) Bereitstellen eines weiteren Trägers mit einer Oberfläche, die an eine Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, wobei für den weiteren Träger Hybridisierungssonden mit einer Basenfolge ausgewählt werden, bei denen in einem vorhergehenden Zyklus eine Hybridisierung beobachtet worden ist, und wobei die ausgewählten Hybridisierungssonden um mindestens ein Nukleotid gegenüber einem vorhergehenden Zyklus verlängert werden,
- b) Wiederholen von Schritt (a) (i) mit dem weiteren Träger, und
- c) Wiederholen von Schritt (a) (iii) mit dem weiteren Träger, und
- c) gegebenenfalls Durchführen von weiteren nachfolgenden Hybridisierungszyklen jeweils mit Auswahl und Verlängerung und Auswahl der Hybridisierungssonden gemäß Schritt (b) (i), bis eine ausreichende Information über die zu sequenzierenden Nukleinsäuren vorliegt.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die zu sequenzierenden Nukleinsäuren aus doppelsträngiger DNA,
einzelsträngiger DNA und RNA ausgewählt werden.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß die zu sequenzierenden Nukleinsäuren vor dem Inkontaktbringen
mit dem Träger fragmentiert werden.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet,
daß durch die Fragmentierung und gegebenenfalls eine nachfolgende
Längenfraktionierung Nukleinsäurefragmente mit einer
vorbestimmten, z. B. im wesentlichen homogenen Längenverteilung
erzeugt werden.
5. Verfahren nach Anspruch 3 oder 4,
dadurch gekennzeichnet,
daß die Fragmentierung sequenzunspezifisch erfolgt.
6. Verfahren nach Anspruch 3 oder 4,
dadurch gekennzeichnet,
daß die Fragmentierung sequenzspezifisch erfolgt.
7. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß die zu sequenzierenden Nukleinsäuren Markierungsgruppen,
insbesondere optisch detektierbare Markierungsgruppen wie
Fluoreszenz- oder Metallpartikelmarkierungen tragen.
8. Verfahren nach Anspruch 7;
dadurch gekennzeichnet,
daß direkte oder indirekte Markierungen verwendet werden.
9. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß im ersten Hybridisierungszyklus Sonden mit einer Länge s
ausgewählt werden und alle möglichen 4s Sequenzvariationen an den
vorbestimmten Bereichen des Trägers erzeugt werden.
10. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß im ersten Hybridisierungszyklus Sonden mit einer Länge s
ausgewählt werden, so daß nach lnkontaktbringen mit der Probe an
maximal 25% der vorbestimmten Bereiche eine Hybridisierung mit
den zu sequenzierenden Nukleinsäuren erfolgt.
11. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß im ersten Hybridisierungszyklus Sonden mit einer Länge s so
ausgewählt werden, daß sie mit der Länge m der zu bestimmenden
Sequenz in folgender Beziehung stehen:
m ≦ 4s-1 + s - 1
m ≦ 4s-1 + s - 1
12. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß in einem oder mehreren Hybridisierungszyklen Sonden verwendet
werden, die neben variablen Abschnitten der Längen einen oder
mehrere für zumindest einen Teil der Sonden festgewählte Abschnitte
der Länge p aufweisen.
13. Verfahren nach Anspruch 12,
dadurch gekennzeichnet,
daß im ersten Hybridisierungszyklus die Längen des variablen
Sondenanteils so gewählt wird, daß alle möglichen 4n
Sequenzvariationen an den vorbestimmten Bereichen des Trägers
erzeugt werden.
14. Verfahren nach Anspruch 12 oder 13,
dadurch gekennzeichnet,
daß die Länge p des festgewählten Abschnitts und die Längen der
variablen Abschnitte so ausgewählt werden, daß sie mit der Länge
m der zu bestimmenden Sequenz in folgender Beziehung stehen:
m ≦ 4n-1 (4p + p - 1)
m ≦ 4n-1 (4p + p - 1)
15. Verfahren nach einem der Ansprüche 12 bis 14,
dadurch gekennzeichnet,
daß die Länge der festgewählten Abschnitte p 2, 3, oder 4
Nukleotide beträgt.
16. Verfahren nach einem der Ansprüche 12 bis 15,
dadurch gekennzeichnet,
daß Sonden verwendet werden ausgewählt aus (1) Sonden mit den
festgewählten Abschnitten p am 3'-Ende, (2) Sonden mit
festgewählten Abschnitten p am 5'-Ende und (3) Sonden mit
festgewählten Abschnitten p im Inneren der Sequenz.
17. Verfahren nach Anspruch 16,
dadurch gekennzeichnet,
daß Sonden mit festgewählten Abschnitten p im Inneren der Sequenz
verwendet werden.
18. Verfahren nach Anspruch 16 oder 17,
dadurch gekennzeichnet,
daß die Sonden (1), (2) und (3) gemeinsam oder/und nacheinander
auf dem gleichen Träger oder auf unterschiedlichen Trägern
eingesetzt werden.
19. Verfahren nach einem der Ansprüche 12 bis 18,
dadurch gekennzeichnet,
daß die festgewählten Abschnitte p zu Beginn des Verfahrens
oder/und aufgrund der Resultate von vorhergehenden
Hybridisierungszyklen festgelegt werden.
20. Verfahren nach einem der Ansprüche 12 bis 19,
dadurch gekennzeichnet,
daß die festgewählten Abschnitte willkürlich, aufgrund statistischer
oder/und aufgrund biochemischer Überlegungen bestimmt werden.
21. Verfahren nach einem der Ansprüche 12 bis 20,
dadurch gekennzeichnet,
daß die festgewählten Abschnitte aufgrund der Basenfolge von
Enzym- oder/und Ribozym-Erkennungssequenzen, z. B. von Nukleasen
bestimmt werden.
22. Verfahren nach Anspruch 21,
dadurch gekennzeichnet,
daß die Enzyme Restriktionsendonukleasen sind.
23. Träger für die Sequenzierung von Nukleinsäuren mit einer Oberfläche,
die an einer Vielzahl von vorbestimmten Bereichen immobilisierte
Hybridisierungssonden enthält, wobei die Hybridisierungssonden in
einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer
vorbestimmten Länge aufweisen, wobei die Hybridisierungssonden
neben variablen Abschnitten der Längen einen oder mehrere für
zumindest einen Teil der Sonden festgewählte Abschnitte der Länge
p aufweisen können.
24. Träger nach Anspruch 23,
dadurch gekennzeichnet,
daß er ein mikrofluidischer Träger ist.
25. Verwendung des Trägers nach Anspruch 23 oder 24 in einem
Verfahren zur Sequenzierung von Nukleinsäuren.
26. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 22
oder des Trägers nach Anspruch 23 oder 24 zur Sequenzierung von
Genomen, Chromosomen, Plasmiden, BACs oder/und YACs.
27. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 22
oder des Trägers nach Anspruch 23 oder 24 zur
Transkriptomsequenzierung.
28. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 22
oder des Trägers nach Anspruch 23 oder 24 zur Identifizierung von
Polymorphismen.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19957320A DE19957320A1 (de) | 1999-11-29 | 1999-11-29 | Dynamische Sequenzierung durch Hybridisierung |
AU17059/01A AU1705901A (en) | 1999-11-29 | 2000-11-29 | Dynamic sequencing by hybridization |
EP00979642A EP1266027A2 (de) | 1999-11-29 | 2000-11-29 | Dynamische sequenzierung durch hybridisierung |
PCT/EP2000/011978 WO2001040510A2 (de) | 1999-11-29 | 2000-11-29 | Dynamische sequenzierung durch hybridisierung |
US10/130,288 US20030138790A1 (en) | 1999-11-29 | 2000-11-29 | Dynamic sequencing by hybridization |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19957320A DE19957320A1 (de) | 1999-11-29 | 1999-11-29 | Dynamische Sequenzierung durch Hybridisierung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19957320A1 true DE19957320A1 (de) | 2001-05-31 |
Family
ID=7930674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19957320A Withdrawn DE19957320A1 (de) | 1999-11-29 | 1999-11-29 | Dynamische Sequenzierung durch Hybridisierung |
Country Status (5)
Country | Link |
---|---|
US (1) | US20030138790A1 (de) |
EP (1) | EP1266027A2 (de) |
AU (1) | AU1705901A (de) |
DE (1) | DE19957320A1 (de) |
WO (1) | WO2001040510A2 (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1322710B2 (de) * | 2000-09-29 | 2015-02-18 | Life Technologies Corporation | Modifizierte carbocyaninfarbstoffe und deren konjugate |
US7560417B2 (en) * | 2005-01-13 | 2009-07-14 | Wisconsin Alumni Research Foundation | Method and apparatus for parallel synthesis of chain molecules such as DNA |
JP2009542691A (ja) * | 2006-07-06 | 2009-12-03 | ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク | 血管造影用の様々なサイズの多染性粒子 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5683881A (en) * | 1995-10-20 | 1997-11-04 | Biota Corp. | Method of identifying sequence in a nucleic acid target using interactive sequencing by hybridization |
US5763175A (en) * | 1995-11-17 | 1998-06-09 | Lynx Therapeutics, Inc. | Simultaneous sequencing of tagged polynucleotides |
US5858671A (en) * | 1996-11-01 | 1999-01-12 | The University Of Iowa Research Foundation | Iterative and regenerative DNA sequencing method |
WO1999039004A1 (en) * | 1998-02-02 | 1999-08-05 | Affymetrix, Inc. | Iterative resequencing |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5407799A (en) * | 1989-09-14 | 1995-04-18 | Associated Universities, Inc. | Method for high-volume sequencing of nucleic acids: random and directed priming with libraries of oligonucleotides |
ATE278807T1 (de) * | 1992-02-19 | 2004-10-15 | New York Health Res Inst | Neue anordnungen von oligonukleotiden und ihr nutzen zum sortieren, isolieren, sequenzierung und manipulieren von nukleinsäuren |
US5795714A (en) * | 1992-11-06 | 1998-08-18 | Trustees Of Boston University | Method for replicating an array of nucleic acid probes |
US5503980A (en) * | 1992-11-06 | 1996-04-02 | Trustees Of Boston University | Positional sequencing by hybridization |
CN1128884C (zh) * | 1993-09-27 | 2003-11-26 | 阿奇发展公司 | 有效进行核酸测序的方法和组合物 |
-
1999
- 1999-11-29 DE DE19957320A patent/DE19957320A1/de not_active Withdrawn
-
2000
- 2000-11-29 EP EP00979642A patent/EP1266027A2/de not_active Withdrawn
- 2000-11-29 US US10/130,288 patent/US20030138790A1/en not_active Abandoned
- 2000-11-29 AU AU17059/01A patent/AU1705901A/en not_active Abandoned
- 2000-11-29 WO PCT/EP2000/011978 patent/WO2001040510A2/de not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5683881A (en) * | 1995-10-20 | 1997-11-04 | Biota Corp. | Method of identifying sequence in a nucleic acid target using interactive sequencing by hybridization |
US5763175A (en) * | 1995-11-17 | 1998-06-09 | Lynx Therapeutics, Inc. | Simultaneous sequencing of tagged polynucleotides |
US5858671A (en) * | 1996-11-01 | 1999-01-12 | The University Of Iowa Research Foundation | Iterative and regenerative DNA sequencing method |
WO1999039004A1 (en) * | 1998-02-02 | 1999-08-05 | Affymetrix, Inc. | Iterative resequencing |
Also Published As
Publication number | Publication date |
---|---|
WO2001040510A3 (de) | 2001-12-06 |
EP1266027A2 (de) | 2002-12-18 |
AU1705901A (en) | 2001-06-12 |
WO2001040510A2 (de) | 2001-06-07 |
US20030138790A1 (en) | 2003-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2175021B1 (de) | Verfahren zur Herstellung von Polymeren | |
EP0583265B1 (de) | Verfahren zur herstellung von neuen biopolymeren | |
DE69421277T2 (de) | NUKLEINSäURE-SEQUENZANALYSE DURCH DIE METHODE DER PARALLELEN PRIMEREXTENSION | |
DE69225333T2 (de) | Verfahren für den Nachweis von Mikroorganismen unter verwendung von direkter undwillkürlicher DNA Amplifikation. | |
DE69230873T2 (de) | Selektive Restriktionsfragmentenamplifikation: generelles Verfahren für DNS-Fingerprinting | |
WO2003020968A2 (de) | Verfahren zur analyse von nukleinsäurekettensequenzen und der genexpression | |
DE102006039479A1 (de) | Programmierbare Oligonukleotidsynthese | |
EP0743367A2 (de) | Verfahren zur Genexpressionsanalyse | |
DE10353887A1 (de) | Hochparalleler DNA-Synthesizer auf Matrizenbasis | |
DE10149947A1 (de) | Mikrofluidisches Extraktionsverfahren | |
DE3901675A1 (de) | Reinigung polymorpher komponenten komplexer genome | |
DE19957320A1 (de) | Dynamische Sequenzierung durch Hybridisierung | |
EP1234056B1 (de) | Dynamische bestimmung von analyten durch arrays auf inneren oberflächen | |
EP1260592A1 (de) | Biochip | |
WO2003012135A2 (de) | Verfahren zur konfigurierung paralleler nukleinsäureanalyseverfahren zur sequenzmengenklassifikation | |
EP1055003A1 (de) | VERFAHREN ZUR CHARAKTERISIERUNG VON mRNA-MOLEKÜLEN | |
WO1994026928A2 (de) | Mittel zur komplexen diagnostik der genexpression und verfahren zur anwendung für die medizinische diagnostik und die genisolierung | |
EP1289646A2 (de) | Verfahren und vorrichtung zur synthese und analyse von trägergebundenen arrays von oligomeren, insbesondere von primerpaaren für die pcr, sowie träger mit oligomeren | |
DE19957116A1 (de) | Verfahren zur Herstellung synthetischer Nukleinsäuredoppelstränge | |
EP2706124B1 (de) | Zeitgleicher Nachweis verschiedener Micro-RNA-Biogenese-Formen | |
DE102008061774A1 (de) | Indexierung von Nukleinsäure-Populationen | |
DE102004049891A1 (de) | Verfahren zum Identifizieren von geeigneten Nukleinsäurenormalisierungssondensequenzen zur Verwendung bei Nukleinsäurearrays | |
DE69634605T2 (de) | Verfahren zur überlappenden Genomsequenzierung | |
WO2002004111A2 (de) | Polymer-chip | |
DE60034953T2 (de) | Genklonierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8139 | Disposal/non-payment of the annual fee |