DE69929365T2 - Systeme und verfahren zum sequenzieren durch hybridation - Google Patents

Systeme und verfahren zum sequenzieren durch hybridation Download PDF

Info

Publication number
DE69929365T2
DE69929365T2 DE69929365T DE69929365T DE69929365T2 DE 69929365 T2 DE69929365 T2 DE 69929365T2 DE 69929365 T DE69929365 T DE 69929365T DE 69929365 T DE69929365 T DE 69929365T DE 69929365 T2 DE69929365 T2 DE 69929365T2
Authority
DE
Germany
Prior art keywords
probes
sequence
probe
nucleotides
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69929365T
Other languages
English (en)
Other versions
DE69929365D1 (de
Inventor
P. Franco Province PREPARATA
Eli Province UPFAL
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brown University Research Foundation Inc
Original Assignee
Brown University Research Foundation Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brown University Research Foundation Inc filed Critical Brown University Research Foundation Inc
Publication of DE69929365D1 publication Critical patent/DE69929365D1/de
Application granted granted Critical
Publication of DE69929365T2 publication Critical patent/DE69929365T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)

Description

  • GEBIET
  • Gegenstand der Erfindung sind Verfahren zur Bestimmung der Reihenfolge eines Sets von Subsequenzen und insbesondere ein Verfahren zur Bestimmung der Sequenz einer Reihe von Nukleinsäuren durch Ordnen einer Sondenkollektion.
  • HINTERGRUND DER ERFINDUNG
  • Die Fähigkeit zur Bestimmung von Nukleinsäuresequenzen ist für das Verständnis der Funktion und Kontrolle von Genen kritisch und trifft auf viele der grundlegenden Verfahren der Molekularbiologie zu. Die Sequenzierung des humanen Genoms und anderer Modellorganismen wurde zuerst durch die Erfindungen von Sanger et. al. PNAS 74:5463–5467 (1977) und Maxam et. al. PNAS 74:60–564 (1977) ermöglicht, Das Verfahren von Sanger war von großen Fortschritten, einschließlich Automatisierung begleitet, es können aber unter optimalen Bedingungen noch immer nur 300 bis 500 Basen sequenziert werden.
  • Sequencing-by-Hybridization (SBH) stellt einen neuen und viel versprechenden Ansatz zur DNA-Sequenzierung dar, der das Potenzial für reduzierte Kosten und einen höheren Durchsatz im Vergleich zu den herkömlichen auf Gel basierenden Ansätzen bietet. Sttezoska, et. al. PNAS USA 88:10089–10093 (1991) sequenzierten erstmals akkurat 100 Basenpaare einer bekannten Sequenz unter Verwendung von Hybridisierungsverfahren, obwohl dieser Ansatz von mehreren Gruppen, einschließlich Bains und Smith, Journal of Theoretical Biology 135:303–307 (1988); Drmanac und Crkvenjakov, US-Patent Nr. 5202231; Fodor et. al., US-Patent Nr, 5424186; Lysov, et al., Dokl. Acad. Sci. USSR 303: 1508- (1988); Macevicz, US-Patent Nr. 5002867; und Southern, Europäisches Patent EP 0373203 B1 und IPN WO 93/22480, unabhängig vorgeschlagen wurde. In jüngerer Zeit berichten die Laboratorien von Crkvenjakov und Drmanac das Sequenzieren eines Fragments aus 340 Basenpaaren in einem blinden Experiment (Pevzner und Lipshutz, 19th Int. Conf. Mathematical Foundations of Computer Science, Springer-Verlag LNCS 841 143–158 (1994)).
  • Die klassischen Verfahren des Sequencing-by-Hybridization (SBH-Verfahren) bindet ein großes Set einsträngiger Fragmente oder Sonden an ein Substrat, wobei ein Sequenzier-Chip gebildet wird. Eine Lösung aus markierten einsträngigen Target-DNA-Fragmenten werden dem Chip ausgesetzt. Diese Fragmente hybridisieren mit komplementären Fragmenten auf dem Chip, und die hybridisierten Fragmente können unter Verwendung eines nuklearen Detektors oder eines Fluoreszenz-/Phosphoreszenz-Färbemittels in Abhängigkeit von der ausgewählten Markierung identifiziert werden. Jede Hybridisierung oder jeder Mangel davon bestimmt, ob es sich bei dem durch das Fragment dargestellten String um ein Substring des Targets handelt oder nicht. Die Target-DNA kann nun basierend auf den Einschränkungen, bei welchen Strings es sich und bei welchen es sich nicht um Substrings des Targets handelt, sequenziert werden. Die Surveys von Pevzner und Lipshutz, 19th Int. Conf. Mathematical Foundations of Computer Science, Springer-Verlag LNCS 841 143–158 (1994) und Chetverin und Kramer Bio/Technology 12:1093–1099 (1994) stellen einen ausgezeichneten Überblick über den aktuellen Stand der Technik im Bereich des Sequencing-by-Hybridization, in biologischer, technologischer und algorithmischer Hinsicht bereit.
  • Sequencing-by-Hybridization stellt ein nützliches Verfahren zur allgemeinen Sequenzierung und zur raschen Sequenzierung von Varianten von zuvor sequenzierten Molekülen dar. Die Hybridisierung kann überdies ein preisgünstiges Verfahren zur Bestätigung von sich unter Verwendung anderer Verfahren hergeleiteten Sequenzen dar.
  • Das am meisten verwendete Sequenzier-Chipdesign, der klassische Sequenzier-Chip C(k), enthält alle 4k einsträngigen Oligonukleotide der Länge k. In C(8) werden alle 48 = 65 536 Oktamere verwendet. Der klassische Chip C(8) ist für die Rekonstruktion von 200 Nukleotid-langen Sequenzen in nur 94 von 100 Fällen (Pevzner, et.al. J. Biomolecular Structure and Dynamics 9:399–410 (1991)), selbst in fehlerfreien Experimenten, ausreichend. Leider wächst die Länge von eindeutig rekonstruierbaren Sequenzen langsamer als die Fläche des Chips. Folglich limitiert ein derartig exponentielles Wachstum der Fläche inhärent die Länge der längsten rekonstruierbaren Sequenz durch die klassische SBH, und die von jedwedem einzelnen, fixierten Sequenzier-Array an Sequenzen von moderater Länge erforderliche Chip-Fläche wirkt den Einsparungen hinsichtlich des Umfangs und Parallelismus entgegen, die bei der Durchführung von Tausenden von Hybridisierungsexperimenten unter Verwendung von klassischen SBH-Verfahren impliziert sind.
  • Andere Varianten der SBH (einschließlich der „nested"-Strang-SBH (Rubinov und Gelfand J. Computational Biology (1995) und die positionelle SBH (Broude, Sano, Smith und Cantor, PNAS (1994)) wurden zur Erhöhung des Ausflösungsvermögens der klassischen SBH vorgeschlagen, diese Verfahren machen jedoch zum Sequenzieren von relativ wenigen Nukleotiden noch immer große Arrays erforderlich.
  • Der algorithmische Aspekt beim Sequencing-by-Hybridization wirft sich bei der Rekonstruktion der Testsequenz aus dem Datenbestand von der Hybridisierung auf. Der Outcome eines Experments mit einem klassischen Sequenzier-Chip C(k) ordnet jedem der 4k-Strings eine Wahrscheinlichkeit zu, dass es sich um ein Substring der Testsequenz handelt. In einem fehlerlosen Experiment stellen diese Wahrscheinlichkeiten alle 0 oder 1 dar, damit jedes k-Nukleotidfragment der Testsequenz eindeutig identifiziert wird.
  • Obwohl es effiziente Algorithmen gibt zum Auffinden des kürzesten Strings der mit den Ergebnissen eines klassischen Sequenzier-Chip-Experiments konsistent ist, haben sich diese Algorithmen bei der praktischen Ausführung nicht als nützlich erwiesen, weil vorausgegangene SBH-Verfahren zum Sequenzieren langer Fragmente keine ausreichenden Informationen erbringen. Ein diesem Verfahren inhärentes besonderes Hindernis besteht in der Unfähigkeit repetitive Sequenzen in DNA-Fragmenten akkurat zu positionieren. Dieses Verfahren kann überdies nicht die Länge kurzer Tandem-Wiederholungen bestimmen, die mit mehreren genetisch-bedingten humanen Erkrankungen assoziiert sind (Warren S T, Science 1996; 271:1374–1375). Seine Verwendung als ein primäres Sequenzierungsverfahren wurden durch diese Limitationen verhindert.
    • LOAKES D. et al.: „3-Nitropyrrole and 5-nitroindole as universal bases in primers for DNA sequencing and PCR" NUCLEIC ACIDS RESEARCH, GB, OXFORD UNIVERSITY PRESS, SURREY, Vol. 23, Nr. 13, 1995, Seiten 2361–2366–2366, XP002109690, ISSN: 0305–1048 und
    • NICHOLS R. et al.: „A UNIVERSAL NUCLEOSIDE FOR USE AT AMBIGOUS SITES IN DNA PRIMERS" NATURE, GB, MACMILLAN JOURNALS LTD. LONDON, Vol. 369, Nr. 6480, 9. Juni 1994, Seiten 492–493, XP000560346, ISSN: 0028–0836, offenbaren Oligonukleotidsonden und -primer, umfassend die universellen Nukleotide 3-Nitropyrrol und 5-Nitroindol. Ein iteratives Muster kann in mehreren Sequenzen gefunden werden.
    • PEVZNER P. A. et al.: „IMPROVED CHIPS FOR SEQUENCING BY HYBRIDIZATION" JOURNAL OF BIOMOLECULAR STRUCTURE & DYNAMICS, US, ADENINE PRESS, NEW YORK, NY, Vol. 9, Nr. 2, 1. Oktober 1991, Seiten 399–410, XP000602036, ISSN: 0739–1102, offenbaren ein Verfahren und verbesserte Chips zur SBH unter Verwendung von „gapped" Oligonukleotiden mit einem „Loch" in der Mitte. Diese Oligonukleotide bestehen faktisch aus einem Gemisch aller möglichen Sequenzen in Bezug auf dieses „Loch".
  • Außerdem war die Sequenzierung durch Hybridisierung bisher nicht in der Lage, Leistungen in der Nähe der theoretischen maximalen Effizienz zu erbringen. So verwendet das klassische Sondierschema zum Beispiel ein komplettes Set aller 4k k-Nukleotidsonden, worin k die Länge von jeder Sondensequenz darstellt. Das Set aus hybridisierten Sonden wird dann zur Konstruktion eines direkten Graphen, entweder eines Hamilton-Pfads oder seines äquivalenten Euler-Pfads gewählt. Die probabilistische Analyse und empirische Belege bestätigten, dass bei Verwendung dieses Verfahrens die k-Nukleotidsonden für die zuverlässige Rekonstruktion von Sequenzen einer Länge angemessen waren, die sich nur zur Quadratwurzel von 4k, anstelle zu 4k, wie die Informationstheorie voraussagt, proportional verhielt. Verbesserungen an diesem Algorithmus (z. B. Skiena, US-Patent Nr. 5683881, wurden berichtet, die maximale Effizienz ist jedoch schwer erreichbar gewesen.
  • Eine effizientere Strategie zur Sequenzierung von Genen durch Hybridisierung wäre ein wahrer Segen für die Biotechnologie-Industrie. So wird zum Beispiel der unermessliche potenzielle Nutzen genomischer Sequenzierungsprojekte durch die Geschwindigkeit des Sequenzierungsverfahrens selbst direkt zurückgehalten. Verfahren, die zur Steigerung der Geschwindigkeit und Effizienz der DNA-Sequenzierung beitragen, steigern proportional die Geschwindigkeit, mit der solche Projekte die Geheimnisse der Evolution und Molekularbiologie preisgeben werden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die hierin beschriebenen Systeme und Verfahren betreffen die Sequenzierung von Nukleotidsequenzen unter Verwendung von Sonden, umfassend ein Muster aus universellen und designierten Nukleotiden. Auf solche Sonden wird hierin als auf „gapped Sonden"' verwiesen, um die durch die universellen Nukleotide herbeigeführten Gaps in der Sequenz widerzuspiegeln. Ein universelles Nukleotid, wie der Begriff hierin verstanden werden sollte, beschreibt eine chemische Entität, die wenn sie in der Sonde anwesend ist, an einer Basenpaarungs-Beziehung mit jedwedem natürlichen Nukleotid teilnimmt. Beispielhafte universelle Nukleotide schließen 5-Nitroindol und 3-Nitropynol ein, obwohl dem Fachmann andere universelle Nukleotide bekannt sein werden, die für die hierin beschriebenen Systeme und Verfahren nützlich sind. Ein universelles Nukleotid wird hierin als U dargestellt, und ein designiertes Nukleotid, z. B. A, C, G oder T, wird als X dargestellt.
  • Obwohl das Muster jedwede Sequenz von designierten und universellen Nukleotiden umfassen kann, stellt das Muster in bestimmten Systemen ein iteratives Muster dar, d. h. ein Muster, das eine prädeterminierte Anzahl universeller Nukleotide mit einer prädeterminierten Anzahl designierter Nukleotide alterniert. Beispielhafte „gapped" Sonden können hinsichtlich der zwei Variablen s und r definiert werden, worin s die Anzahl an Nukleotiden in einer designierten Nukleotidsequenz der Sonde darstellt und r die Anzahl an Iterationen im Muster darstellt, jede Iteration der Länge s und umfassend ein String von (s – 1) universellen Nukleotiden, gefolgt von einem einzelnen designierten Nukleotid. So würde zum Beispiel eine (s,r)-Sonde, worin s für 2 und r für 3 steht, d. h. würde eine (2,3)-Sonde das Muster XXUXUXUX umfassen. Die benachbarte Sequenz von designierten Nukleotiden in einer wie hierin beschriebenen „gapped"-Sonde wird als die Wurzel bezeichnet. In der vorstehenden beispielhaften Sonde stellt die Wurzel XX dar. Die Länge der Wurzel einer wie hierin beschriebenen „gapped" Sonde ist durch die Variable s dargestellt Ein designiertes Nukleotid oder eine Sequenz designierter Nukleotide, in der Folge vom ersten String aus einem oder mehr universellen Nukleotid(en), in der Folge der Wurzel wird hierin als das erste Segment bezeichnet. In der vorstehenden beispielhaften Sonde wurde das erste Segment unterstrichen (X). Ein designiertes Nukleotid oder eine Sequenz designierter Nukleotide, in der Folge eines Strings aus einem oder mehr universellen Nukleotid(en), in der Folge des ersten Segments wird hierin als das zweite Segment bezeichnet. In der vorstehenden beispielhaften Sonde wurde das zweite Segment doppelt unterstrichen (X). Weitere Segmente sind in analoger Weise nummeriert. Das letzte designierte Nukleotid in der Sonde, in der Regel das letzte Nukleotid in der Sonde, wird hierin als das letzte Segment bezeichnet. Die hierin eingesetzten Begriffe sind zur eindeutigen Beschreibung der vorstehend angegebenen beispielhaften „gapped" Sonde XXUXUXUX bereitgestellt, worin der Wurzel ein erstes und letztes Segment folgt. Man sollte jedoch zur Kenntnis nehmen, dass in anderen Ausführungsformen, die die Sonde bildende benachbarte Sequenz ein alternierendes Muster aufweisen kann, worin zum Beispiel die Wurzel in der Mitte oder im Allgemeinen in der Mitte der Sequenz auftritt, oder als Alternative, wenn die Wurzel am Ende der Sequenz auftritt. Diese Ausführungsformen alternativer Sonden können bei der Sequenzierung auf ähnliche Weise eingesetzt werden, und die hierin offenbarten Verfahren zum Einsatz dieser Sonden zum Ordnen eines Spektrums hybridisierter Sonden kann mit jedweden Ausführungsformen dieser Sonden praktisch ausgeführt werden.
  • Die hierin beschriebenen Systeme und Verfahren betreffen weiter Sequenzier-Chips, die ein Set von „gapped" Sonden tragen. Ein Set von „gapped" Sonden, wie der Begriff hierin verwendet wird, verweist auf eine Kollektion von Sonden mit der gleichen generischen Sondensequenz, z. B. mindestens zehn Instanzen der generischen Sondensequenz. Eine generische Sondensequenz beschreibt ein Muster von designierten und universellen Nukleotiden, z. B. XXXXUUXUXX. Eine Instanz einer generischen Sondensequenz stellt eine Sequenz aus designierten und universellen Nukleotiden dar, die mit dem Muster der generischen Sondensequenz konformieren, so stellen z. B. TCTAUUGUCG und GTATUUCUAG Instanzen der generischen Sondensequenz XXXXUUXUXX dar. In bestimmten Ausführungsformen umfasst ein Set von „gapped" Sonden, die Sonden, die jede Instanz der designierten Nukleotide der generischen Sondensequenz darstellen, umfassen.
  • Die hierin beschriebenen Systeme und Verfahren betreffen auch ein Verfahren zur Sequenzierung von Nukleinsäuresequenzen unter Verwendung von „gapped" Sonden. Ein derartiges Verfahren kann die Bereitstellung eines Sets von „gapped" Sonden der Länge k einschließen, worin die designierten Nukleotide unter dem Set auf eine prädeterminierte Weise variieren und worin die generische Sondensequenz ein designiertes Nukleotid an der m-ten Position und der k-ten Position benötigt, wobei das Spektrum der Sonden im Set von Sonden bestimmt wird, die mit einer Testsequenz hybridisieren, wobei das Spektrum von Sonden analysiert und die Sequenz der Testsequenz bestimmt wird. Das Verfahren kann weiter die Bindung eines Primers an die Testsequenz einschließen. Das Analysieren des Sondenspektrums kann die Auswahl von Sonden aus dem Spektrum umfassen, dessen erste k – 1 designierten Nukleotide den letzten k – 1 designierten Nukleotiden des Sondiermusters entsprechen, die am Ende der wachsenden Sequenz positioniert sind, wobei diese Sonden mit der wachsenden Sequenz zur Bestimmung des nächsten Nukleotids in der wachsenden Sequenz übereinstimmen, und Wiederholung der Schritte zur Auswahl und zum Matching, bis das Matching nicht mehr möglich ist. Das Analysieren des Sondenspektrums kann weiter die Auswahl von Sonden aus dem Spektrum umfassen, dessen erste m – 1 Nukleotide den letzten m – 1 Nukleotiden der wachsenden Sequenz entsprechen, wobei diese Sonden mit der wachsenden Sequenz zur Bestimmung des nächsten Nukleotids übereinstimmen, und Wiederholung der Schritte zur Auswahl und zum Matching bis konklusives Matching nicht mehr möglich ist. Das Analysieren des Sondenspektrums kann weiter die Auswahl einer ersten Sonde umfassen, wobei die Sonden aus dem Spektrum ausgewählt werden, die eine Wurzel der Länge s aufweisen, deren erste s – 1 Nukleotide den letzten s – 1 Nukleotiden der ersten Sonde entsprechen, wobei diese Sonden mit der wachsenden Sequenz zur Bestimmung des nächsten Nukleotids übereinstimmen, und Wiederholung der Schritte zur Auswahl und zum Matching, bis konklusives Matching nicht mehr möglich ist.
  • Wenn ein Schritt zum Matching zwei oder mehr Möglichkeiten für das nächste Nukleotid einschließt, können optional zwei oder mehr wachsende Sequenzen etabliert werden, die jeweils jeder der Möglichkeiten für das nächste Nukleotid entsprechen. Diese alternativer Sequenzen können dann der vorstehenden Analyse unterworfen werden, wobei die inkonekten Sequenzen als nicht vom Spektrum gestützt rasch terminiert werden können.
  • Die hierin beschriebenen Systeme und Verfahren umfassen weiter ein Computer-Programm, das zum Analysieren eines Sondenspektrums fähig ist, umfassend eine natürliche Nukleotidsequenz und ein Muster aus universellen und natürlichen Nukleotiden zur Bestimmung der Sequenz der Testsequenz, z. B. durch das vorstehend beschriebene Verfahren und eine Diskette, CD oder eine andere Speichervorrichtung, die ein solches Programm enthält.
  • Die Erfindung ist durch die Ansprüche definiert.
  • KURZE ZUSAMMENFASSUNG DER FIGUREN
  • Die folgenden Figuren erläutern bestimmte veranschaulichende, erfindungsgemäße Ausführungsformen, in denen gleiche Bezugszahlen auf gleiche Elemente verweisen. Diese erläuterten Ausführungsformen sind als die Erfindung veranschaulichend und in keiner Weise als einschränkend zu verstehen.
  • 1 erläutert schematisch ein allgemeines Verfahren zur Sequenzierung unter Verwendung universeller Nukleotide.
  • 2 stellt unter Verwendung von wie hierin beschriebenen Proben erhaltene Probenspektren dar.
  • 3 erläutert ein Verfahren zur Sequenzierung einer Testsequenz unter Verwendung von Sonden, umfassend eine natürliche Nukleotidsequenz und ein Muster aus universellen und designierten Nukleotiden.
  • 4 veranschaulicht die Bewertung des Spektrums für verschiedene Verlängerungen.
  • 5 erläutert Testergebnisse durch Vergleich der Sequenzierung von DNA unter Verwendung verschiedener Sonden, wie hierin beschrieben, mit der Sequenzierung von DNA unter Verwendung üblicher Sonden.
  • 6 stellt die Längen von Sequenzen dar, die unter Verwendung von „gapped" Sonden als eine Funktion der generischen Sondensequenz und der Quelle der Testsequenz sequenziert werden können.
  • 7 erläutert ein wie hierin beschriebenes Computer-System.
  • 8 erläutert eine wie hierin beschriebene Diskette.
  • 9 erläutert (a) Hamilton- und (b) Euler-Pfade im Graphen, die mit einer bestimmten Target-Sequenz assoziiert sind. Beide Pfade stellen ambige Rekonstruktionen dar.
  • 10 erläutert Testergebnisse durch Vergleich der Sequenzierung von zufälligen Nukleotidsequenzen unter Verwendung verschiedener, wie hierin beschriebener, Sonden mit der Sequenzierung unter Verwendung üblicher Sonden.
  • AUSFÜHRLICHE BESCHREIBUNG DER VERANSCHAULICHTEN AUSFÜHRUNGSFORMEN
  • (i) Überblick
  • Die nachstehende Beschreibung betrifft mehrere mögliche erfindungsgemäße Ausführungsformen. Man sollte zur Kenntnis nehmen, dass sich eine Fachmann viele Variationen der hierin beschriebenen Systeme und Verfahren vorstellen kann, und es besteht die Absicht, dass solche Variationen und Verbesserungen in den erfindungsgemäßen Rahmen fallen. Demzufolge ist die Erfindung in keiner Weise durch die folgende Offenbarung bestimmter veranschaulichender Ausführungsformen eingeschränkt.
  • Im Allgemeinen betreffen die hierin beschriebenen Systeme und Verfahren ein Verfahren zur Sequenzierung von Nukleotidsequenzen unter Verwendung von Oligonukleotidsonden, auf die hierin als auf „gapped Sonden" verwiesen wird. Die „gapped" Sonden umfassen jeweils eine Sequenz von „designierten Nukleotiden" und „universellen Nukleotiden", die in der Sondensequenz mit einer prädefinierten Periodizität angeordnet sind. Ein „universelles Nukleotid", wie man unter dem Begriff hierin versteht, beschreibt eine chemische Entität, die wenn sie in der Sonde anwesend ist, an einer Basenpaarungs-Beziehung mit jedwedem natürlichen Nukleotid (z. B. Desoxyadenosin (A), Desoxythymidin (T), Desoxycytidin (C) und Desoxyguanosin (G)) beteiligt ist. Beispielhafte universelle Nukleotide schließen 5-Nitroindol (Loakes, D. und Brown, D.M. Nucleic Acids Research, 1994, 20:4039-4043) und 3-Nitropyrrol (US-Patent Nr. 5681947 an Bergstrom) ein, obwohl dem Fachmann andere universelle Nukleotide bekannt sein werden. Ein „designiertes Nukleotid", wie man unter dem Begriff hierin versteht, verweist auf ein natürlich vorkommendes Nukleotid, wie z. B. A, T, C oder G, oder ein Analogon davon, das Basenpaarungseigenschaften ähnlich den oder bevorzugt selektiver als ein natürlich vorkommendes Nukleotid aufweist. Folglich schließt die Sonde Regionen mit (einem) designierten Nukleotid(en) ein, die unter stringenten Hybridisierungsbedingungen selektiv Basenpaaren durch A-T- oder G-C-Paarung oder dergleichen paaren und Regionen von universellen Nukleotiden, die Degeneration hinsichtlich der Selektivtät bei der Basenpaarung oder im Wesentlichen keine aufweisen.
  • Die Verwendung von Sonden mit universellen Nukleotiden erlaubt jeder Sonde auf mehr als eine Weise zum Sequenzierungsvorgang beizutragen, wodurch die effiziente Sequenzierung einer Nukleotidsequenz unter Verwendung einer kleineren Anzahl an Sonden als dies unter Verwendung gänzlich aus natürlichen Nukleinsäuren bestehenden üblichen Sonden möglich ist, ermöglicht werden. Hierin wird insbesondere nachgewiesen, dass die Verwendung von Sonden mit definierten Gap-Mustern das Erreichen asymptotisch optimaler Effizienzen in Verfahren zum Sequencing-by-Hybridization erlaubt. Das erfindungsgemäße Verfahren macht keine Rekonstruktionen einer Sequenz durch Verfahren des Euler-Pfades oder anderer solcher komplexen theoretischen Lösungen mittels Graphen erforderlich. Dieses scheinbare Paradox wird, wie nachstehend beschrieben, durch die Beobachtung gelöst, dass diese vorgeschlagene Gap-Struktur für die Sonden das Identifizierungsproblem anhand des Euler-Pfades trivialisiert, wobei im Allgemeinen mit extrem hoher Wahrscheinlichkeit garantiert wird, dass der Euler-Pfad zu einem einfachen Pfad, z. B. in einem virtuellen Θ(k2)-Gramm eines de Bruijn-Graphen, reduziert wird. Dieses erfindungsgemäße Verfahren erlaubt das Erreichen der Informations-theoretischen oberen Grenze für SBH-Verfahren.
  • Die Intuition hinter dem erfindungsgemäßen Verfahren ist wie folgt. Die Unzulänglichkeit solcher wie vorstehend beschriebenen klassischen Verfahren ist auf die Tatsache zurückzuführen, dass da die Länge der Target-Sequenz wächst, die Größe des Spektrums entsprechend wächst, und der sich daraus ergebende de Bruijn-Graphen, der das Verfahren kennzeichnet, gegebenenfalls mehr als einen Euler-Pfad enthalten kann. Die Schwierigkeit liegt darin, dass obwohl jeder Knoten so viele eingehende wie abgehende Kanten aufweist, für einen Knoten mit mehr als einer eingehenden Kante (Verzweigungsknoten) keine allgemeine Methode vorhanden ist, um eine eingehende Kante mit einer einzigartigen abgehenden Kante zu assoziieren, wodurch Ambiguität hervorgerufen wird. Zur Vermeidung dieses Nachteils, bestand die Intuition in der Übernahme von „gapped" Sonden für die gleiche Anzahl von designierten Nukleotiden, die auf eine Weise eine „Brücke" um die Verzweigungsknoten herum bereitstellen können.
  • In einer veranschaulichenden Ausführungsform verwendet dieses Verfahren eine Sondenfamilie mit einem gut definierten periodischen Muster von Gaps, die wir als (s,r)-Sonden bezeichnen. Mittels Kennzeichnung durch Zf der f-fachen Wiederholung eines Strings Z, weisen solche Sonden die Form Xs(Us– 1X)r auf, worin X aus unter den 4 Standard-DNA-Basen (A, C, G und T) ausgewählt ist und U die universelle Base darstellt. So weist zum Beispiel eine (4,3)-Sonde die folgende Form auf: XXXXUUUXUUUXUUUX.
  • Aus technischer Sicht betrachtet man eine (s,r)-Sonde als habe sie s® + 1) Symbole, wobei r(s – 1) von ihnen universell sind, d. h. zum Matching von jedwedem Nukleotid fähig sind. Da in jeder (s,r)-Sonde s + r Positionen mit einem X Symbol vorhanden sind, weist das Set von (s,r)-Sonden exakt 4r+s Glieder auf. Beispiele von Spektren für zwei verschiedene Muster von „gapped" Sonden sind in 2 ersichtlich.
  • Der fundamentale Vorgang bei der Sequenzrekonstruktion stellt die Verlängerung, die Addition eines extra Nukleotid-Symbols an die aktuell rekonstruierte Sequenz a dar. Zur Ausführung einer Verlängerung sucht man im Spektrum nach allen Sonden, deren erste r(s + 1) – 1 Symbole mit den letzten r(s + 1) – 1 Symbolen von a übereinstimmen (es ist mindestens eine solche Sonde vorhanden). Wenn nur eine solche Sonde vorhanden ist, dann ist die Verlängerung eindeutig und man fügt das sich am weitesten rechts befindende Symbol der Sonde auf der rechten Seite von a an. Andernfalls wäre gegebenenfalls mehr als eine Verlängerung (eine ambige Verlängerung) vorhanden. Eine ambige Verlängerung tritt auf, wenn und nur wenn sie durch zusätzliche r Sonden bestätigt wird, die an Shifts von s, 2s, ..., rs Positionen in Bezug auf die erste Sonde zu platzieren sind. Die Sonden, welche die ambige Verlängerung unterstützen, können aus einem einzelnen Segment der Target-Sequenz entstehen; weit wahrscheinlicher ist jedoch das Ereignis, dass diese Sonden aus ® + 1) unabhängigen Positionen in der Target-Sequenz entstehen können. Es ist intuitiv eindeutig und wird durch eine nicht triviale probabilistische Analyse gestützt, dass für fixierte k die warscheinlichkeit einer ambigen Verlängerung in r exponentiell reduziert, wodurch den (s,r)-Sonden ermöglicht wird, das Informations-theoretische Potenzial der SBH, d. h. die zuverlässige Rekonstruktion der Sequenz einer Länge proportional zu 4k zu realisieren.
  • Unsere formale Analyse, wie sie nachstehend ausführlicher beschrieben ist, war von umfassenden Simulationen sowohl an artifiziellen Datenbeständen (d. h. Computer-generierten Target-Sequenzen, bestehend aus unabhängigen und identisch verteilten Nukleotiden) als auch an aus dem ENTREZ-Wiedergewinnungssystem (der Genome von Haemophilus influenzae, Escherichia coli und Methanobacterium thermoautrophicum) erhaltenen echten Daten begleitet Für jedwede gewählte Länge m werden die artifiziellen (als „zufällig" bezeichneten) Sequenzen von einem Zufallszahlgenerator produziert, während es sich bei den die natürlichen Sequenzen um disjunkte Substrings der veröffentlichten Genome handelt. Obwohl für ein gegebenes Paar (s, r), ausgeklügelterer Algorithmen die Rekonstruktion von Target-Sequenzen von einer weitgehend größeren Länge erreichen können, wurden für Vergleichszwecke extensive Experimente mit einem extrem einfachen Rekonstruktionsalgorithmus durchgeführt, der für Sequenzen einer gewählten Länge m, sehr konservativ das Versagen beim Nachweis der ersten ambigen Verlängerung erklärt. Typische Ergebnisse von den Simulationen sind in 5 und 6 für den Wert k = 9 ersichtlich, der für die aktuelle Technologie repäsentativ ist. Aufgetragen in 5 ist die Frequenz der erfolgreichen Rekonstruktion als eine Funktion von m für die möglichen Wahlen des Paars (s, r) (beachten, dass die (s, r)-Paare (9,0) und (1,8) das gleiche Sonden-Design kennzeichnen). In 6 sind die Ergebnisse für die Konfidenzniveaus von 0,9 und 0,95 ersichtlich: Eine angezeigte Eingabe stellt den größten Probenwert dar, für den eine Rekonstruktion mit einer Frequenz von nicht kleiner als das entsprechende Konfidenzniveau erreicht wurde. Zu beachten ist, dass aufgrund der eingeschränkten Zufälligkeit natürlicher Sequenzen, ihre Leistung der von artifiziellen Sequenzen bei maximaler Entropie unterlegen war. Das Verhältnis der Leistungen der besten (s, r)-Auswahl und des Standardverfahrens (k, 0) ist jedoch in allen Testfällen von der gleichen Größenordnung.
  • In einem Aspekt werden die erfindungsgemäßen „gapped" Oligonukleotide zur Bestimmung der Identität, z. B. der Sequenz einer Nukleinsäureprobe verwendet. Im Allgemeinen ist der Gegenstand der vorliegenden Erfindung die Bereitstellung eines Verfahrens zur Sequenzierung eines Segments einer Nukleinsäure, umfassend die folgenden Schritte:
    • a) Kombination: i) eines Substrats, umfassend eine Bibliothek von positionell unterscheidbaren „gapped" Sonden, die zur Hybridisierung mit definierten Oligonukleotidsequenzen fähig sind; und ii) einer Testnukleinsäure; unter Hybridisierungsbedingungen, worin „gapped" Sonden der Bibliothek matched Duplex-Strukturen von hoher Wiedergabetreue mit komplementären Subsequenzen der Testnukleinsäure bilden; und
    • b) Bestimmung, welche der „gapped" Sonden spezifisch mit Subsequenzen im Target-Polynukleotid hybridisieren.
  • Der Nachweis der Positionen, welche die Target-Sequenz binden, würde in der Regel durch eine Fluoreszenzmarkierung an der Testnukleinsäure erfolgen. Obwohl eine Fluoreszenzmarkierung wahrscheinlich am zweckmäßigsten ist, können andere Markierungsarten, z. B. radioaktive, Enzyme-linked, optisch nachweisbare oder spektroskopisch nachweisbare Markierungen verwendet werden. Andere Nachweisverfahren sind nachstehend beschrieben. Da die „gapped" Sonden positionell definiert sind, lässt sich der Ort des hybridisierten Duplex direkt auf hybridisierende Sequenzen übertragen. Folglich stellt die Analyse der Positionen eine Kollektion von in den Target-Sequenzen gefundenen Subsequenzen bereit.
  • Bestimmte Ausführungsformen des erfindungsgemäßen Verfahrens umfassen weiter das Assemblieren einer Nukleotidesequenz für die Testnukleinsäure basierend auf den „gapped" Sonden, welche spezifisch mit Subsequenzen im Target-Polynukleotid hybridisierten. So kann zum Beispiel solch ein Schritt das Zusammenstellen dieser „gapped" Sonden zur Bestimmung der Überlappungen dieser bekannten Sequenzen zur Bestimmung der Sequenz der Testnukleinsäure einschließen.
  • Ein hervorstechendes Merkmal des Verfahrens des erfindungsgemäßen Sequencing-by-Hybridization beruht auf der Fähigkeit, dass eine große Anzahl (z. B. bis fast zur Sättigung) der möglichen überlappenden Sequenz-Segmente in der Bibliothek mit den „gapped" Sonden synthetisiert werden kann, und Unterscheidung dieser Sonden, die mit Wiedergabetreue hybridisieren von denen, die „mismatched" Basen aufweisen, und um Ergebnisse eines hoch komplexen Hybridisierungsmusters zur Bestimmung der Überlappungsregionen zu analysieren.
  • Andere erfindungsgemäße Ausführungsformen stellen Verfahren zur Sequenzierung einer Nukleinsäure bereit, wobei das Verfahren die folgenden Schritte umfasst:
    • a) Bereitstellung einer Vielzahl von „gapped" Sonden;
    • b) positionelle Bindung jeder der Sonden an ein oder mehr Festphasen-Substrat(e), wodurch Substrate von positionell definierbaren „gapped" Sonden hergestellt werden;
    • c) Kombination der Substrate mit einer Testnukleinsäure, deren Sequenz bestimmt werden soll; und
    • d) Bestimmung, welche der „gapped" Sonden spezifisch mit Subsequenzen in der Testnukleinsäure hybridisieren.
  • Obwohl er am direktesten bei der Sequenzierung anwendbar ist, ist der vorliegende erfindungsgemäße Gegenstand auch beim Fingerprinting, Mapping und dergleichen anwendbar.
  • Gemäß einem erfindungsgemäßen Aspekt wird ein Verfahren zur Bildung einer Vielzahl von Oligonukleotidsequenzen durch sequenzielles Zufügen von Reagenzien, umfassend den Schritt des seriellen Schützens und Entschützens von Anteilen der Vielzahl von Polymersequenzen zur Addition von Nukleotiden unter Verwendung einer binären Synthesestrategie zur Bereitstellung einer vielseitigen Bibliothek von „gapped" Sonden bereitgestellt.
  • Gegenstand der vorliegenden Erfindung ist auch die Bereitstellung eines Mittels zum Automatisieren der Sequenzierungsmanupulationen. Die Automatisierung der Nachweis- und Analyseschritte minimiert die Notwendigkeit der humanen Intervention. Dies vereinfacht die Aufgaben und fördert die Reproduzierbarkeit.
  • Gegenstand der vorliegenden Erfindung ist auch die Bereitstellung einer Zusammensetzung, umfassend eine Vielzahl von positionell unterscheidbaren „gapped" Sonden, die an ein festes Substrat gebunden sind, wobei die Oligonukleotide bevorzugt von einer präselektierten Länge sind und kollektiv im Wesentlichen alle möglichen Sequenzen der gleichen generischen Sondensequenz darstellen. Im Allgemeinen sind die Oligonukleotide alle an ein einzelnes festes Substrat gebunden. In bevorzugten Ausführungsformen schließt ein individuelles Substrat, wie zum Beispiel ein Chip, eine Bibliothek aus mindestens 256 verschiedenen Oligonukleotidsequenzen und bevorzugter mindestens 1024, 4096, 16384 oder selbst 65536 oder mehr verschiedenen Oligonukleotidsequenzen ein. Wenn sie in „DNA-Chip"-Ausführungsformen bereitgestellt werden, werden die Oligonukleotide in Arrays in Regionen auf dem Substrat mit einer Dichte von mindestens 25 Regionen pro cm2 angeordnet.
  • (ii) Definitionen
  • Wie hierin verwendet versteht man unter dem Begriff „Nukleotid n" das n-te Nukleotid entlang einem bestimmten Nukleinsäure-Segment.
  • „Nukleotid" stellt einen in der Technik anerkannten Begriff dar und schließt Moleküle ein, bei denen es sich um die grundlegenden Struktureinheiten von Nukleinsäuren, wie z. B. RNA oder DNA handelt, und die sich aus einer Purin- oder Pyrimidin-Base, einem Ribose- oder einem Desoxyribose-Zucker und einer Phosphatgruppe zusammensetzen.
  • Unter einem „modifizierten Nukleotid", wie hierin verwendet, versteht man ein Nukleotid, das chemisch modifiziert wurde, z. B. ein methyliertes Nukleotid.
  • „Analoga", in Bezug auf Nukleotide, schließen synthetische Nukleotide mit modifizierten Basenkomponenten und/oder modifizierten Zuckerkomponenten ein, wie z. B. im Allgemeinen von Scheit, Nucleotide Analogs (John Wiley, New York, 1980) beschrieben wurde. Solche Analoga schließen synthetische Nukleotide ein, die zur Verbesserung der Bindungseigenschaften bestimmt sind, die die Degeneration reduzieren, die Spezifität erhöhen und dergleichen. In den hierin beschriebenen Verfahren, designiert n eine fixierte Position in einer einsträngigen Überhang-Sequenz, die sich von jedem doppelsträngigen Nukleinsäuresegment erstreckt. Nukleotid n wird bevorzugt durch Aufschluss eines bestimmten doppelsträngigen Nukleinsäuresegments mit einem Restriktionsenzym, z. B. einer Restriktionsendonuklease der Klasse IIS zur Bildung einer einsträngigen Überhang-Sequenz an 5' oder 3' entsprechend der Schnittstelle ausgewählt, und n stellt das erste und das letzte ungepaarte Nukleotid in der Überhang-Sequenz dar.
  • Wie hierin verwendet versteht man unter dem Begriff „Amplifikation" ein in vitro-Verfahren, das zur Bildung mehrfacher Kopien von einer Nukleinsäure, z. B., eines DNA-Duplex oder eines einsträngigen DNA-Moleküls, seinem Komplement oder beidem verwendet werden kann. Amplifikationsverfahren schließen deshalb sowohl Clonierungsverfahren als auch PCR-basierende Amplifikationsverfahren ein. Die Nukleinsäure-Amplifikation ist bevorzugt, wie z. B. die PCR-Amplifikation oder Strangverdrängungsamplifikation, linear oder exponentiell. Diese Verfahren sind dem Fachmann überall bekannt. Amplifikationsprodukte stellen Zusammensetzungen dar, die eine größere Anzahl an ordungsgemäß ligierten Molekülen als die Anzahl an originalen Nukleinsäuresegmente einschließt.
  • Der Begriff „Oligonukleotid", wie hierin verwendet, schließt lineare Oligomere von natürlichen Nukleotiden oder Analoga davon, ebenso wie universelle Nukleotide, einschließlich Desoxyribonukleoside, Ribonukleoside, anomere Formen davon, Peptid-Nukleinsäuren (PNA) und dergleichen ein, die zur spezifischen Bindung an ein Target-Polynukleotid mittels eines regelmäßigen Musters von Monomer-an-Monomer-Interaktionen, wie zum Beispiel der Basenpaarung des Watson-Crick-Typs, Basenstacking, Basenpaarung oder reverse Basenpaarung vom Hoogsteen-Typ oder dergleichen fähig sind. Monomere sind gewöhnlich durch Phosphodiesterbindungen oder Analoga davon zur Bildung von Oligonukleotiden im Größenbereich von einigen wenigen Monomereinheiten, wie z. B. 3–4 bis zu mehreren Zehnern von Monomereinheiten verknüpft. Wann immer ein Oligonukleotid durch eine Sequenz von Buchstaben, wie zum Beispiel „ATGCCTG", dargestellt ist, versteht man darunter, dass die Nukleotide in einer 5'- bis 3'-Ordnung von links nach rechts vorliegen und dass „A" Desoxyadenosin kennzeichnet, „C" Desoxycytidin kennzeichnet, „G" Desoxyguanosin kennzeichnet und „T" Thymidin oder Uracil (wie angemessen) kennzeichnet und „U" ein universelles Nukleotid kennzeichnet, sofern nicht anderweitig angegeben wird. Analoga von Phosphodiester-Verknüpfungen schließen Phosphorthioat, Phosphordithioat, Phosphoranilidat, Phosphoramidat und dergleichen ein. Gewöhnlich umfassen erfindungsgemäße Oligonukleotide die vier natürlichen Nukleotide und universellen Nukieotide; sie können jedoch auch nicht natürliche Nukleotid-Analoga für designierte Nukleotid-Positionen einschließen.
  • Unter „perfekt matched" in Bezug auf ein Duplex versteht man, dass die das Duplex aufbauenden Oligonukleotidstränge eine doppelsträngige Struktur mit einer anderen dergestalt bilden so dass jedes Nukleotid in jedem Strang der (Watson-Crick) Basenpaarung mit einem Nukleotid im anderen Strang unterworfen wird. Der Begriff umfasst auch das Paaren von Nukleotid-Analoga, wie zum Beispiel Desoxyinosin, Nukleosiden mit 2-Aminopurin-Basen und dergleichen, die eingesetzt werden können. In Bezug auf ein Triplex versteht man unter dem Begriff, dass das Triplex aus einem perfekt matched Duplex und einem dritten Strang besteht, worin jedes Nukleotid der Hoogsteen- oder reversen Hoogsteen-Basenpaar-Assoziation des perfekt matched Duplex unterworfen wird.
  • Umgekehrt versteht man unter einem „Mismatch" in einem Duplex zwischen einem Tag und einem Oligonukleotid, dass ein Paar oder Triplett von Nukleotiden im Duplex oder Triplex nicht der Watson-Crick- und/oder Hoogsteen- und/oder reversen Hoogsteen-Bindung unterworfen werden kann.
  • Wie hierin verwendet, schließt „Sequenz-Bestimmung" oder „Bestimmung einer Nukleotidsequenz" in Bezug auf Polynukleotide die Bestimmung der teilweisen wie auch der vollen Sequenzinformation des Polynukleotids ein. Das heißt, dass der Begriff Sequenzvergleiche, Fingerprinting und ähnliche Informationsumfänge über ein Target-Polynukleotid ebenso wie die ausdrückliche Identifkation und Ordnung von Nukleosiden, gewöhnlich eines jeden Nukleosids, in einem Target-Polynukleotid ein. Der Begriff schließt auch die Bestimmung der Identifikation, Ordnung und Orte von einem, zwei oder drei oder vier Nukleotidtypen in einem Target-Polynukleotid ein. In einigen Ausführungsformen kann die Sequenz-Bestimmung zum Beispiel durch die Identifikation der Ordnung und der Orte eines einzelnen Nukleotidtyps, wie z. B. von Cytosinen, im Target-Polynukleotid „CATCGC ..." bewirkt werden, sodass seine Sequenz als ein binärer Code, wie z. B. „100101 ..." für „C-(nicht C)-(nicht C)-C-(nicht C)-C ..." und dergleichen dargestellt werden.
  • Wie hierin verwendet, versteht man unter dem Begriff „Komplexität" in Bezug auf eine Population von Polynukleotiden die Anzahl verschiedener in der Population anwesender Molekül-Spezies.
  • Sonden, die anhand der hierin beschriebenen Systeme und Verfahren in Betracht gezogen werden, können jedwedes Muster von universellen (U) und designierten (X) Nukleotiden, wie z. B. UUXUXXUX, einschließen. In bestimmten Ausführungsformen ist das Muster iterativ, wie z. B. UUXXUUXXUUXX UXUXUXUX usw. Ein iteratives Muster vereinfacht die zur Rekonstruktion der Testsequenz verwendeten Algorithmen oder Berechnungen. Wenn die Länge der Wurzel einer Sonde mit der Länge einer Iteration des Musters identisch ist, kann es sich bei der Sonde um eine (s,r)-Sonde handeln, wie der Begriff hierin verwendet wird, worin s auf die Länge der Wurzel verweist, und r auf die Anzahl der Iterationen im Muster hindeutet, wobei jede Iteration universelle Nukleotide und ein einzelnes designiertes Nukleotid umfasst, dass sich distal von der Wurzel in ihrer einfachsten Version befindet. Folglich weist eine (s,r)-Sonde eine Gesamtlänge von s(r + 1) auf und umfasst s + r designierte Nukleotide. So würde eine (4,2)-Sonde zum Beispiel die generische Sondenstruktur XXXXUUUXUUUX aufweisen. Eine generische Sondenstruktur, wie der Begriff hierin verwendet wird, verweist auf die Sequenz von designierten und universellen Nukleotiden in einer Sonde.
  • (s,r)-Sonden stellen ein Subset von Sonden dar, auf die hierin als auf (s,r)P-Sonden verwiesen wird. Ein ganze Zahl P, wie hierin verwendet, stellt eine Variable dar, welche die Anzahl der Wiederholungen von jedem X oder U in einer Sequenz bestimmt. So würde zum Beispiel eine (4,2)2-Sonde die generische Sondenstruktur (XX)(XX)(XX)(XX)(UU)(UU)(UU)(XX)(UU)(UU)(UU)(XX) aufweisen, worin die runden Klammern lediglich zur Erklärung der Struktur der Sonde verwendet wurden. Mit den hierin beschriebenen Systemen und Verfahren können (s,r)P-Sonden verwendet werden, obwohl zu Zwecken der Klarheit die (s,r)-Sonden den Fokus des nachstehend vorgestellten Beispiels bilden.
  • Viele zusätzliche verschiedene Sondensequenzen können gegebenenfalls in den hierin beschriebenen Systemen und Verfahren nützlich sein. So können zum Beispiel Sonden ohne Wurzeln, z. B. UUXXXUUXXX, im Vergleich zu Sonden, die vollständig aus natürlichen Nukleotiden bestehen, verbesserte Ergebnisse bieten. Auf ähnliche Weise können Sonden am Anfang, Ende oder in der Mitte einer Sonde, z. B. XXXXUUXXUUXX oder XUUUXUUUXXXX, (XUUUX)(XXXX)(XUUUX) (XUUUX) eine Wurzel aufweisen. Sonden, die außerdem ein reverses iteratives Muster aufweisen, z. B. (XUUXX)(XXUUX)(XUUXX), können auch für die hierin beschriebenen Systeme und Verfahren nützlich sein. Sonden, die ein reverses iteratives Muster umfassen, können optional auch eine Wurzel, wie z. B. (XUXU)(UXUX)(XUXU)(XXX) einschließen, die an jedwedem Punkt in das iterative Muster insertiert werden kann.
  • Der Durchschnittsfachmann wird erkennen, dass die Sonden zum Ausschluss von Mustern von Nukleotiden mit einer sekundären Struktur ausgewählt werden, welche die Haarnadel-Bildung oder eine andere Selbstadhäsion der Sonden fördert, welche die Hybridisierung mit einer Testsequenz inhibieren würde. Außerdem stellt die Wahl einer geeigneten universellen Base eine wichtige Erwägung dar. Darüber hinausgehend können, wie nachstehend ausführlicher besprochen wird, geeignete Hybridisierungsbedingungen ausgewählt werden.
  • Die Sonden können durch Bereitstellung eines Sets von „gapped" Sonden der Länge k mit der gleichen generischen Sondenstruktur und Bestimmung des Spektrums der Sonden, die in eine Testsequenz hybridisieren, zum Sequenzieren einer Nukleinsäuresequenz verwendet werden. Ein Set von „gapped" Sonden beschreibt ein Array von „gapped" Sonden, worin die designierten Nukleotide an verschiedenen Positionen der Sonde im gesamten Set durchweg variieren. In bestimmten Ausführungsformen umfasst das Set alle Instanzen der designierten Nukleotide, die der generischen Sondenstruktur des Sets entsprechen. Ein derartiges Set wird hierin als ein komplettes Set bezeichnet. Die Sonden können einer Probe der Testsequenz auf eine Weise zugefügt werden, wodurch die Identität der Bindungssonden ohne weiteres bestimmt werden kann, so können die Sonden z. B. an einen festen Träger, wie zum Beispiel an einen Chip, gebunden werden.
  • 1 erläutert schematisch eine Ausführungsform des Sequenzierungsverfahrens. In 1 wird ein Chip 12 mit einem Sondenset 18 an der Oberfläche an Knoten 14 mit einer Probe der Testnukleinsäuresequenz 10 behandelt. Sequenz 10 bindet an diese Knoten 14 mit den Sonden 18, die zu einem Segment von Sequenz 10 komplementär sind. Das Set von aktivierten Knoten 14 entspricht einem Spektrum von Sonden 18, die dann zur Rekonstruktion von Sequenz 10 aligned (ausgerichtet) und angepasst werden können.
  • 2 erläutert eine Testsequenz und die abgeleiteten Spektren unter Verwendung von (3,1)-Sonden oder (2,2)-Sonden. Die Sequenz der Testsequenz kann dann durch Analysieren der Glieder des Spektrums rekonstruiert werden. 3 erläutert ein Schema zur Verwendung eines Spektrums von „gapped" Sonden zur Rekonstruktion der Testsequenz. In diesem beispielhaften Verfahren wird ein Subset von Sonden aus dem Spektrum ausgewählt, worin die ersten k-1-Nukleotide von jeder Sonde den letzten k-1-Sonden der wachsenden Sequenz entsprechen. Wenn das letzte Nukleotid von jeder Sonde in diesem Subset das gleiche ist, dann ist dieses Nukleotid das nächste Nukleotid in der Sequenz, und das Verfahren wird zur Bestimmung des nächsten Nukleotids wiederholt.
  • Wenn das Subset von Sonden mehr als eine Möglichkeit für die nächste Position in der wachsenden Sequenz bereitstellt, dann wird ein neues Subset von Sonden ausgewählt, worin das vorletzte Segment mit der nächsten Position in der wachsenden Sequenz aligned wird und die vorangehenden Nukleotide den terminalen Nukleotiden der wachsenden Sequenz entsprechen. Dieses Verfahren kann mit früheren Segmenten wiederholt werden, bis ein einzelnes Nukleotid zur Fortsetzung der wachsenden Sequenz bestimmt wird oder die Wurzel der Sonden erreicht ist. Die Sequenzierung ist abgeschlossen, wenn das Spektrum keine weitere Verlängerung der wachsenden Sequenz unterstützen kann.
  • 4 stellt ein konkretes Beispiel dieses Verfahrens vor. In diesem Beispiel endet die wachsende Sequenz mit der Nukleotidsequenz „TAGACCGATA" und das Spektrum von (2,2)-Sonden umfasst die Sequenzen „CGUTUA", „CGUTUG", „ATUGUT" und „ATUCUT". Es können von dem Spektrum nur „CGUTUA" und „CGUTUG" mit den letzten fünf Nukleotiden der wachsenden Sequenz aligned werden, was sowohl in A als auch G als Kandidaten für das nächste Nukleotid der wachsenden Sequenz resultiert. Ein Ereignis, worin mehr als eine Möglichkeit für das nächste Nukleotid besteht, wird hierin als Ambiguität bezeichnet. Wenn man einer Ambiguität begegnet, wird das Spektrum durch Aligning des vorletzten Segment mit dem ersten unbekannten Nukleotid der wachsenden Sequenz erneut bewertet, wobei die Sonden ausgewählt werden, deren erste drei Nukleotide sich mit den letzten drei Nukleotiden der wachsenden Sequenz in Alignment befinden. Diese erneute Bewertung wählt die Sonden „ATUGUT" und „ATUCUT" aus. Diese Sonden ermöglichen, dass entweder G oder C bei der Verlängerung der wachsenden Sequenz verwendet werden können, wobei wiederum Ambiguität bereitgestellt wird. Bei Erwägung der beiden Ambiguitäten zusammen wird jedoch klar, dass nur G vom Spektrum unterstützt wird, weil es sich bei G um das einzige, von beiden Subsets erlaubte Nukleotid handelt, und das Sequenzierungsverfahren kann weiter ablaufen.
  • 5 erläutert die Ergebnisse, die durch Sequenzierung einer Reibe genomischer Nukleotidsequenzen von verschiedenen Längen unter Verwendung verschiedener kompletter Sets von (s,r)-Sonden generiert wurden, worin s + r = 9 darstellt, d. h. Sonden, die gleiche Anzahlen designierter Nukleotide umfassen. Die Vertikalachse stellt den prozentualen Anteil von Sequenzen einer gegebenen Länge dar, der unter Verwendung einer bestimmten (s,r)-Sonde sequenziert werden kann. In diesem Test wird eine Sequenz für nicht sequenzierbar gehalten, wenn eine Ambiguität entsteht, für die beide Verlängerungen vollkommen von Sonden im Spektrum unterstützt werden. 6 stellt die Länge einer Sequenz dar, die mit einer Erfolgsrate von 90 % oder 95 % unter Verwendung einer bestimmten (s,r)-Probe in Abhängigkeit von der Herkunft der Nukleotidsequenz sequenziert werden kann. Diese Ergebnisse zeigen, dass für Sonden, worin s + r = 9 darstellt, zufällige Sequenzen am besten unter Verwendung von (3,6)-Sonden analysiert werden, während natürliche Sequenzen unter Verwendung von (4,5)-Sonden optimal sequenziert werden. In allen Fällen erweisen sich „gapped" Sonden den üblichen Sonden, d. h. (9,0)-Sonden, weit überlegen, und die besten Sonden können Sequenzen sequenzieren, die 25- bis 85-mal länger sind, als übliche Sonden für s + r = 9 in der Lage sind.
  • Bei der weiteren Analyse von 5 und 6 ist es wichtig, dass man zur Kenntnis nimmt, dass für alle (s,r)-Sondensets, worin s + r = 9 darstellt, die Anzahl der Sonden konstant ist, weil die Anzahl designierter Nukleotide für alle solche Sonden 9 ist und die Anzahl an Sonden in jedem Set folglich 49 darstellt. Die Längen von verschiedenen (s,r)-Sonden unterscheiden sich jedoch, weil verschiedene Werte für s und r die Insertion von verschiedenen Anzahlen universeller Nukleotide in die Sequenz vorschreiben. Folglich lässt die Sequenzierung unter Verwendung von „gapped" Sonden die Sequenzierung von wesentlich längeren Sequenzen unter Verwendung von Chips von gleicher Größe als mit üblichen Sonden möglich ist zu, weil sich die Anzahl von Sonden proportional zur Größe des zu ihrer Unterstützung erforderlichen Chips verhalten. Längere Sonden sind außerdem vorteilhaft zum Lösen iterativer Muster in der Testsequenz, weil solche Muster auch Spektren herbeiführen können, die nicht die Anzahl der Iterationen quantifizieren können, wenn die Sondenlänge nicht größer als die Länge einer Iteration ist.
  • Obwohl der in 5 und 6 eingesetzte Test eine Sequenz als nicht sequenzierbar erklärt, wenn eine nicht lösbare Ambiguität entsteht, kann eine solche Situation faktisch lösbar sein. Wenn zum Beispiel eine Ambiguität entsteht, worin entweder C oder T zulässig ist, können zwei wachsende Sequenzen etabliert werden, eine, die in C und die andere, die in T beginnt. Beide Sequenzen können dann wie vorstehend beschrieben analysiert werden. Wenn T das tatsächliche Nukleotid der Testsequenz darstellt, wird die wachsende Sequenz, die C inkorporierte, häufig versagen, da sie bei fortschreitender Sequenzierung vom Spektrum nicht unterstützt wird, und die Sequenzierung läuft nur mit der akkurat wachsenden Sequenz weiter ab. Obwohl rechnerisch anspruchsvoller, erlaubt eine derartige Strategie die akkurate Rekonstruktion von Sequenzen, die sogar noch länger als die in 5 und 6 ersichtlichen sind, wobei sie sich der theoretischen maximalen Effizienz annähern.
  • Das Sequenzierungsverfahren kann auf eine mehr analytische Weise beschrieben werden. So können zum Beispiel die (s,r)-Sonden dahingegehend beschrieben werden, dass sie s(r + 1) Nukleotide aufweisen, von denen r(s – 1) universelle Nukleotide und r + s designierte Nukleotide darstellen. Die generische Sondenstruktur einer (s,r)-Sonde weist die Form Xs(Us–1X)r, und ein komplettes Set von (s,r)-Sonden weist 4s+r Glieder auf.
  • Das nächste Nukleotid in einer Sequenz wird mittels Durchsuchen des Spektrums nach allen Sonden bestimmt, deren erste s(r + 1) – 1 Nukleotide mit den letzten s(r + 1) – 1 Nukleotiden der wachsenden Sequenz a übereinstimmen Wenn nur eine solche Sonde vorhanden ist, dann ist die Auswahl des nächsten Nukleotids eindeutig and die Sequenz a kann um das letzte Nukleotid dieser Sonde verlängert werden. Wenn die Auswahl ambig ist, weil mehr als eine Sonde übereinstimmt, wird das Spektrum von Sonden für die Sonden erneut bewertet, deren erste rs – 1 Nukieotide mit den letzten rs – 1 Nukleotiden der wachsenden Sequenz a übereinstimmen. Man wird erkennen, dass diese erneute Bewertung dem Aligning des vorletzten Segment mit dem nächsten unbekannten Nukleotid der wachsenden Sequenz entspricht. Dieses Verfahren kann r Male für die Sonden wiederholt werden, deren letzte s(r + 1 – n) – 1 Nukleotide mit den letzten s(r + 1 – n) – 1 Nukleotiden der wachsenden Sequenz a für alle n dergestalt übereinstimmen, dass 0 ≤ n ≤ r ist Der Fachmann wird erkennen, dass nicht mehr als vier Sonden mit der wachsenden Sequenz für n = 0 übereinstimmen können, weil die wachsende Sequenz alle Positionen der Sonde außer der letzten vorschreibt, bei der es sich um jedwedes von vier Nukleotiden handeln kann. Für jede ganze Zahl n stimmen ein Maximum von 4n+1 Sonden überein, weil jedes Segment über das Segment hinausgehend, das mit dem ersten unbekannten Nukletoid übereinstimmt, ein nicht von der wachsenden Sequenz bestimmtes Nukleotid enthält.
  • Das vorstehende Verfahren wird unterstützt, indem man mit einer bekannten Serie von Nukleotiden beginnt, auf die hierin als ein „Seed" verwiesen wird, die mindestens so lang wie eine Sonde sind. Zu diesem Zweck kann ein „Seed" an die Testsequenz als ein Primer gebunden werden. Als Alternative kann der Beginn der Sequenz unter Verwendung einer üblichen Methodik sequenziert werden. Als dritte Option kann eine erste Sonde zufällig aus dem Spektrum als Ausgangspunkt ausgewählt und die Sequenz kann in beiden Richtungen verlängert werden, wobei initial die Wurzeln der Sonden auf übliche Weise für die Rekonstruktion eines „Seeds" eingesetzt werden.
  • Ein beispielhafter Pseudocode zur Durchführung der vorstehenden Analyse unter Verwendung von (s,r)-Sonden ist in der nachstehenden Tabelle 1 ersichtlich. Der nachstehende Pseudocode ist repräsentativ für ein Computer-Programm, das unter einem Datenverarbeitungssystem, wie zum Beispiel einer Sun Workstation arbeitet, die unter dem Unix-Betriebssystem läuft. Das Programm kann das Datenverarbeitungssystem konfigurieren, sodass es als ein erfindungsgemäßes System arbeitet und spezifisch, um als ein System zum Ordnen eines Sets von Subsequenzen zu laufen.
  • TABELLE 1
    Figure 00160001
  • Figure 00170001
  • Für den Zweck des Pseudocodes stellt S das von der Testsequenz generierte Spektrum dar, eine Sonde wird durch q dargestellt, und δ stellt ein universelles Nukleotid dar. Die Testsequenz wird als b(1,i) dargestellt, worin bi, das i-te Nukleotid darstellt und b(i,j) für bi, bi+1, ...., bj steht. Das Verfahren beginnt mit einem „Seed", b(1,(r+1)s) das selbst unter Verwendung des Algorithmus seed(S) generiert werden kann.
  • Wendet man sich nun dem Pseudocode von Tabelle 1 zu, so sieht man, dass das Verfahren mit der Funktion sequence beginnt, die inkrementell den Probendatenbestand zur Bestimmung der Reihenfolge der Sequenz Base um Base abarbeitet. Zu diesem Zweck beginnt das Verfahren durch Initialisierung der Parameter l und u, worin l den Index der sich am weitesten rechts befindenden Base darstellt und u für einen Kontollparameter steht, der darstellt, ob das Verfahren fortgesetzt oder terminiert werden sollte. Das Verfahren läuft dann bis zu einer Solange-Schleife weiter, worin die Funktion extend aufgerufen wird. Die Verlängerungsfunktion wählt als Eingabevariable S und q, worin S das zu verarbeitende Spektrum darstellt und q die anzupassende Sonde darstellt.
  • Die Funktion extend, die auch durch den Pseudocode in Tabelle 1 dargestellt ist, arbeitet das Spektrum S zum Auffinden des Sets M von Sonden ab, die mit der Sonde q übereinstimmen. Zu diesem Zweck ruft extend die Funktion search auf, die die Glieder von Set M identifiziert. Wenn die Funktion search ermittelt, dass Matches gefunden wurden, wird das Verfahren fortgesetzt. Wenn nicht, testet die Bedingung if (|M| = 0) wahr, und extend gibt den Parameter „complete" an die Funktion sequence zurück, wobei sie zum Versagen der Testbedingung der Solange-Schleife und weiter zum Abbruch der Sequenzierung führt.
  • In dem Fall, in dem Matches zum Definieren eines Sets M gefunden wurden, wenn das Set M ein oder mehre Glied(er) einschließt, ersetzt das Verfahren jedes Glied des Sets M durch eine Sequenz, die durch q(1,r+1)s–1)a(r+1)s dargestellt ist; wodurch eine neue Sequenz geschaffen wird, nach der das Spektrum S durchsucht wird. Wenn das Set M mehr als ein Glied einschließt und die Anzahl an Segmenten r an die Sonde größer als j ist, dann führt das Verfahren ein Set W von den Sonden herbei, die der neuen Sequenz entsprechen und bestimmt, ob sich die Sets U und W schneiden. Wenn ein derartiger Schnittpunkt gefunden wird, wird die Base b als identifiziert angesehen, und die Funktion extend gibt die Base b und den Kontrollparameter „continue" zurück. Wenn als Alternative kein Schnittpunkt gefunden wird, läuft das Verfahren weiter, bis alle Segmente r gecheckt wurden. Wenn zwischen den Sets U und W kein Schnittpunkt gefunden wird, nachdem alle Segmente r abgearbeitet sind, gibt das Verfahren ein leeres Set zurück, und dem Kontollparameter w wird der Wert „ambiguous" zugeteilt. Die Solange-Schleife der Funktion sequence versagt dann und das Verfahren wird terminiert.
  • Leistungsfähigere Varianten des vorstehenden Pseudocodes, die als supersequence und superextend bezeichnet sind, sind in Tabelle 2 dargestellt, und der Pseudocode für das Sequenzierungsverfahren in der umgekehrten Richtung unter Verwendung von reversesequence, reverseextend und seed ist in Tabelle 3 dargestellt. Supersequence und superextend unterscheiden sich in funktioneller Hinsicht insofern, wenn wie vorstehend besprochen, eine Ambiguität erreicht ist, werden multiple Sequenzen verlängert. Reversesequence und reverseextend funktionieren ähnlich wie sequence und extend ähnlich, und seed stellt ein Verfahren zur Etablierung einer „Seed"-Sequenz, wie vorstehend besprochen dar.
  • TABELLE 2
    Figure 00190001
  • Figure 00200001
  • TABELLE 3
    Figure 00200002
  • Figure 00210001
  • Figure 00220001
  • Eine Ausführungsform der hierin beschriebenen Systeme und Verfahren stellt ein Computer-System dar, das zum Sequenzieren einer Nukleotidsequenz durch Analyse eines Spektrums ausgegeben gemäß den hierin beschriebenen Systemen und Verfahren konfiguriert ist, z. B. durch Ablaufen eines Computer-Programms in einer Computer-Sprache, z. B. Fortran, C, Java, usw. bezogen auf den Pseudocode von Tabelle 1. Eine Ausführungsfonn eines derartigen Computer-Systems 30 ist in 7 erläutert. In einer zusätzlichen Ausführungsform betreffen die hierin beschriebenen Systeme und Verfahren eine Diskette, CD oder ein anderes permanentes maschinell lesbares Speichermedium, das ein Computer-Programm codiert, das zur Rekonstruktion einer Nukleotidsequenz durch Analyse eines unter Verwendung von „gapped" Sonden generierten Spektrums, wie zum Beispiel ein auf den Pseudocode von Tabelle 1 bezogenes Programm, fähig ist. Eine beispielhafte Diskette 40 ist in 8 erläutert.
  • (iii) Beispielhafte Ausführungsformen
  • Im Prinzip beinhaltet die Herstellung eines Substrats mit einem positionell definierten Matrix-Muster alle möglichen „gapped" Sonden einer gegebenen Länge und Periodizität ein vom Konzept her einfaches Verfahren zum Synthetisieren von jedem und allen möglichen verschiedenen Oligonukleotid(en) und ihr Fixieren an eine definierbare Position. Die Oligonukleotid-Synthese wird derzeit mechanisiert und wurde anhand der aktuellen Technologie, siehe z. B. Pirrung et al. (1992), US-Patent 5143854; und von Applied Biosystems, Foster City, Calif., angebotenen Instrumenten ermöglicht.
  • Die erfindungsgemäßen „gapped" Sondenoligonukleotide können einsträngig sein und zur spezifischen Hybridisierung an einsträngige Tag-Komplemente durch Duplex-Bildung oder zur spezifischen Hybridisierung an doppelsträngige Tag-Komplemente durch Triplex-Bildung konzipiert sein. Die Sonden können auch doppelsträngig sein und zur spezifischen Hybridisierung an einsträngige Tag-Komplemente durch Triplex-Bildung konzipiert sein.
  • A. Herstellung der Substrat-Matrix
  • Die Herstellung der Kollektion spezifischer „gapped" Sonden zur Verwendung in den erfindungsgemäßen Verfahren können durch viele verschiedene Verfahren hergestellt und in einem Array von vielen verschiedenen Formaten angeordnet werden.
  • In bestimmten Ausführungsformen werden die „gapped" Sonden anhand eines Festphasen- oder eines anderen Synthesesystems synthetisiert. Siehe zum Beispiel die von Applied Biosystems, Foster City, Calif., erhältlichen Instrumente. Obwohl ein einzelnes Oligonukleotid relativ leicht hergestellt werden kann, wird eine größere Kollektion von ihnen in der Regel sehr viel Zeit und Investierung in Anspruch nehmen. So gibt es zum Beispiel für eine Bibliothek aus „gapped" Sonden mit zehn designierten Nukleotiden 410 = 1 048 576 mögliche Kombinationen. Die aktuelle Technologie ermöglicht die Herstellung von jeder und allen von ihnen in einer getrennten gereinigten Form, obwohl dies kostenaufwendig und mühsam ist.
  • Zusätzliche im Stand der Technik verfügbare Verfahren zur Generierung kombinatorischer Bibliotheken aus kleinen organischen Molekülen, wie zum Beispiel „gapped" Sonden, ohne ein räumliches Array auf einem festen Träger erforderlich zu machen, können in US-Patent Nr. 5665975 an Kedar; Blondelle et al. (1995) Trends Anal. Chem. 14:83; den Affymax US-Patenten 5359115 und 5362899: dem Ellman US-Patent 5288514: der PCT-Veröffentlichung WO 94/08051 von Still et al.; Chen et al. (1994) JACS 116:2661: Kerr et al. (1993) JACS 115:252; PCT-Veröffentlichungen WO92/10092, WO93/09668 und WO91/07087; und der PCT-Veröffentlichung WO93/20242 von Lerner et al., gefunden werden.
  • Sobald das gewünschte Repertoire der möglichen Oligomer-Sequenzen einer gegebenen Länge synthetisiert wurde, kann diese Kollektion von Reagenzien individuell positionell an ein Substrat gebunden werden, wodurch ein chargenweiser Hybridisierungsschritt ermöglicht wird. Die aktuelle Technologie würde auch die Möglichkeit der Bindung von jedem und allen dieser 10-mere an eine getrennte spezifische Position auf einer festen Matrix zulassen. Diese Bindung könnte in jeder von vielen verschiedenen Weisen automatisiert werden, insbesondere durch die Verwendung einer Verknüpfung des „caged" Biotintyps. Dadurch würde eine Matrix mit jeder der verschiedenen möglichen 10-mere hergestellt.
  • Ein chargenweises Verfahren ist aufgrund seiner Reproduzierbarkeit und Einfachheit jedoch viel bevorzugter. Es wurden mehrere verschiedene Technologien zur Herstellung von Oligonukleotid-Arrays für die SBH vorgeschlagen und können ohne weiteres zur Generierung von Arrays von erfindungsgemäßen „gapped" Sonden angepasst werden. Ein automatisiertes Verfahren zur Anlagerung verschiedener Reagenzien an positionell definierte Stellen auf einem Substrat ist zum Beispiel in Pirrung et al. (1992), US-Patent 5143854; Barrett et al. (1993) US-Patent 5252743; und Fodor et. al. (1991) Science 251:767–773, bereitgestellt.
  • Anstelle einer getrennten Synthese von jeder „gapped" Sonde werden diese Oligonukleotide zweckmäßigerweise durch sequenzielle synthetische Verfahren auf einem definierten Matrix-Muster parallel synthetisiert. Die Oligonukleotide werden zum Beispiel schrittweise auf einem Substrat an positionell getrennten und definierten Positionen synthetisiert. Die Verwendung von photosensitiven Blockingreagenzien lässt definierte Sequenzen von synthetischen Schritten über die Oberfläche eines Matrix-Musters zu. Durch Verwendung der binären Maskierungsstrategie kann die Oberfläche des Substrats zur Generierung eines gewünschten Musters von Regionen positioniert werden, wobei jedes ein daran immobilisiertes und synthetisiertes definiertes Sequenz-Oligonukleotid aufweist.
  • Zur Ausführung der Hybridisierungsanalyse von Nukleinsäure an multiplen Proben auf mikroformatierten Multiplex- oder Matrix-Vorrichtungen (z. B. DNA-Chips) werden neue Verfahren entwickelt (siehe M. Barinaga, 253 Science, S. 1489, 1991; W. Bains, 10 Bio/Technology, S. 757–758, 1992). Diese Verfahren binden gewöhnlich spezifische DNA-Sequenzen an sehr kleine spezifsche Bereiche eines festen Trägers, wie zum Beispiel Mikromulden eines DNA-Chips. Diese Hybridisierungsformate stellen Mikroskala-Versionen der üblichen „Dot Blot"- und „Sandwich"-Hybridisierungssysteme dar.
  • Ein anderes Mittel zur Generierung von Arrays der erfindungsgemäßen „gapped" Sonden würde für die Verwendung der in Pirrung et al. (1992), US-Patent Nr. 5143854, beschriebenen VLSIPS-Technologie bestehen. Diese Ausführungsform macht sich zur Anfertigung der Oligonukleotid-Arrays Photolithographie-Verfahren zunutze, die in der Halbleiter-Industrie typisch sind. Die Regionen für die Synthese können sehr klein sein, im Allgemeinen weniger als ca. 100 μm × 100 μm, noch allgemeiner weniger als ca. 50 μm × 50 μm. Die Photolithographie-Technologie lässt synthetische Regionen von weniger als ca. 10 μm × 10 μm, ca. 3 μm × 3 μm oder weniger zu.
  • Bei einer Größe von ca. 30 μm × 30 μm würden 1 Million Regionen ca. 11 cm2 oder einen einzelnen Wafer von ca. 4 cm × 4 cm einnehmen. Folglich sieht die vorliegende Technologie die Herstellung einer einzelnen Matrix dieser Größe mit allen eine Million plus möglichen Oligonukleotiden mit 10 designierten Nukleotid-Positionen vor. Die Größe der Region ist ausreichend klein, damit sie den Dichten von mindestens 5 Regionen/cm2, 20 Regionen/cm2, 50 Regionen/cm2, 100 Regionen/cm2 und größer, einschließlich 300 Regionen/cm2, 1000 Regionen/cm2, 3 000 Regionen/cm2, 10 000 Regionen/cm2, 30 000 Regionen/cm2, 100 000 Regionen/cm2, 300 000 Regionen/cm2 oder mehr, selbst über eine Million Regionen/cm2 entspricht.
  • Obwohl das Muster der Regionen, die spezifische Sequenzen enthalten, theoretisch nicht wichtig ist, werden aus praktischen Gründen bestimmte Muster beim Synthetisieren der Oligonukleotide bevorzugt. Die Anwendung binärer Maskierungsalgorithmen zum Generieren des Musters bekannter Oligonukleotidsonden wird im Stand der Technik beschrieben. Durch Verwendung binärer Masken wird ein hoch effizientes Mittel zur Herstellung des Substrats mit dem gewünschten Matrix-Muster von verschiedenen Sequenzen bereitgestellt. Obwohl die binäre Maskierungsstrategie die Synthese von Polymeren aller Längen zulässt, kann die Strategie zur Bereitstellung von lediglich Polymeren einer gegebenen Länge leicht modifiziert werden. Dies wird durch Auslassen von Schritten erreicht, wenn eine Untereinheit nicht angelagert ist.
  • Die Gesamtlänge der bei Sequenzierungsanwendungen verwendeten „gapped" Sonden wird anhand von Kriterien, die bis zu einem gewissen Grad von den vorstehend besprochenen praktischen Grenzen bestimmt sind, ausgewählt. So gibt es zum Beispiel 65 536 mögliche von acht designierten Nukleotidsequenzen, 262 144 mögliche Permeationen von neun designierten Nukleotidsequenzen, und wenn die „gapped" Sonde 10 designierte Nukleotid-Positionen aufweist, gibt es 1 048 576 mögliche Instanzen von Sequenzen. Mit größer werdender Anzahl nimmt auch die zur Sättigung der Möglichkeiten notwendige erforderliche Anzahl positionell definierter Nukleotide zu. In Bezug auf die Hybridisierungsbedingungen kann für die Länge des zur Verleihung von Stabilität an die Bedingungen notwendigen Matching kompensiert werden. Siehe z. B. Kanehisa, M. (1984) Nuc. Acids Res. 12:203 213.
  • In einer erläuternden Ausführungsform kann die VLSIPS-Technologie zur Generierung einer in Arrays angeordneten Bibliothek aus „gapped" Sonden verwendet werden. Die VLSTPS-Technologie lässt insbesondere die Produktion einer sehr hohen Dichte von Oliognukleotiden einer enormen Diversität zu, die in einem bekannten Matrix-Muster auf einem Substrat kartiert sind.
  • Durch Verwendung von Schutzgruppen, die positionell entfernt oder zugefügt werden können, können die Regionen zum Zufügen besonderer Reagenzien oder Verbindungen aktiviert oder inaktiviert werden. Eine derartige Methodik verwendet auf einem wachsenden Oligonukleotid in der Regel eine photosensitive Schutzgruppe. Aktivierungs- oder Inaktivierungsregionen auf dem Substrat können mittels elektrooptischer und optischer Verfahren, ähnlich den von vielen der bei Verfahren zur Anfertigung von Halbleiter-Wafers und -Chips verwendeten, kontrolliert werden.
  • Insbesondere die photoprotektive Gruppe an den Nukleotid-Molekülen kann aus einer großen Reihe verschiedenster positiver lichtreaktiver Gruppen, bevorzugt einschließlich nitroaromatischer Verbindungen, wie zum Beispiel o-Nitrobenzyl-Derivaten oder Benzylsulfonyl, ausgewählt werden. Siehe z. B. Gait (1984) Oligonucleotide Synthesis: A Practical Approach. IRL Press, Oxford. So können zum Beispiel 6-Nitroveratryloxycarbonyl (NVOC), 2-Nitrobenzyloxycarbonyl (NBOC) oder α,α-Dimethyldimethoxybenzyloxycarbonyl (DEZ) verwendet werden. Nützliche „photoremovable" Schutzgruppen werden auch z. B. in Patchornik (1970) J. Amer. Chem. Soc. 92:6333–6335; und Amit et al. (1974) J. Organic Chem. 39:192–196, beschrieben.
  • Durch Verwendung der Maskierungstechnologie und photosensitiver synthetischer Untereinheiten lässt das VLSIPS-Gerät die schrittweise Synthese von Oligonukleotiden gemäß einem positionell definierten Matrix-Muster zu. Jede Oligonukleotidsonde wird an bekannten und definierten positionellen Stellen auf dem Substrat synthetisiert.
  • Verwandte Verfahren werden in US-Patenten Nr. 5708153 an Dower, 5679773 an Holmes und 5744305 beschrieben.
  • Die „gapped" Sondenoligonukleotide können durch solche photolithographischen Verfahren in Arrays auf einem Silizium- oder einem anderen geeigneten derivatisierten Substrat angeordnet werden.
  • Die Parameter der Polynukleotidgrößen sowohl von den Sonden als auch den Target-Sequenzen werden durch die Applikationen und andere Umstände bestimmt. Die Länge der Oligonukleotidsonden kann teilweise von den Limitationen der Synthese-Technologie zur Bereitstellung der Anzahl der gewünschten Sonden abhängen. Das Sequenzierungsverfahren fordert auch, dass das System durch angemessene Auswahl von Hybridisierungs- und Waschbedingungen zwischen der Bindung von absoluter Wiedergabetreue und der Bindung von Mismatches enthaltenden komplementären Sequenzen zur Unterscheidung fähig ist. Folglich wird die Länge der „gapped" Sonde auf eine Länge ausgewählt, die der Sonde erlaubt, mit Spezifität an mögliche Target-Sequenzen unter Hybridisierungsbedingungen zu binden.
  • Hybridisierungsbedingungen
  • Die Hybridisierungsbedingungen zwischen „gapped" Sonden und der Testnukleinsäure sollten dergestalt ausgewählt werden, dass die spezifische Erkennungs-Interaktion, d. h. die Hybridisierung der beiden Moleküle sowohl ausreichend spezifisch als auch ausreichend stabil ist. Siehe z B. Hames und Higgins (1985) Nucleic Acid Hybridisation: A Practical Approach, IRL Press, Oxford. Parameter, die überall zur Bewirkung von Spezifität und Kinetik der Reaktion bekannt sind, schließen die Salz-Bedingungen, Ionenzusammettsetzung des Lösungsmittels, Hybridisierungstemperatur, Länge der Oligonukleotid-Matching-Sequenzen, den Guanin- und Cytosingehalt (GC-Gehalt), die Anwesenheit von Hybridisierungsakzeleratoren, den pH, die in den Matching-Sequenzen gefundenen spezifischen Basen, die Lösungsmittelbedingungen und das Zufügen organischer Lösungsmittel ein.
  • Insbesondere die zum Antrieb von Sequenzen mit einem hohen Mismatch zum Abschluss erforderlichen Salz-Bedingungen schließen in der Regel eine hohe Salzkonzentration ein. Bei dem typischerweise verwendeten Salz handelt es sich um Natriumchlorid (NaCl), andere ionische Salze, wie z. B. KCl, können jedoch verwendet werden. In Abhängigkeit von der erwünschten Stringenz der Hybridisierung liegt die Salzkonzentration häufig bei weniger als ca. 3 molar, häufiger weniger als 2,5 molar, gewöhnlich weniger als ca. 2 molar, und üblicher weniger als ca. 1,5 molar. Für auf ein Matching mit höherer Stringenz gerichtete Applikationen wären die Salzkonzentrationen in der Regel niedriger; Bedingungen mit einer gewöhnlichen hohen Stringenz machen sich Salzkonzentrationen von weniger als ca. 1 molar, häufiger weniger als 750 millimolar, gewöhnlich weniger als ca. 500 millimolar zunutze und können so niedrig wie ca. 250 oder 150 millimolar sein.
  • Die Kinetik der Hybridisierung und die Stringenz der Hybridisierung hängen sowohl von der Temperatur, bei der die Hybridisierng durchgeführt wird als auch der Temperatur, bei der die Waschschritte durchgeführt werden, ab. Temperaturen, bei denen Schritte zur Hybridisierung mit niedriger Stringenz erwünscht sind, würden in der Regel im niedrigeren Temperaturbereich, z. B. im Allgemeinen mindestens bei ca. 15 °C, allgemeiner mindestens ca. 20 °C, gewöhnlich mindestens ca. 25 °C und üblicher mindestens ca. 30 °C, liegen. Für die Applikationen, die eine mit hoher Stringenz oder mit Wiedergabetreue Hybridisierung und Sequenz-Matching erfordern, wären die Temperaturen, bei denen die Hybridisierng und Waschschritte durchgeführt werden, in der Regel hoch. So würden zum Beispiel häufig Temperaturen über ca. 35 °C, häufiger über ca. 40 °C, gewöhnlich bei mindestens 45 °C und gelegentlich sogar Temperaturen so hoch wie ca. 50 °C oder 60 °C oder höher benutzt. Die Hybridisierung von Oligonukleotiden kann selbstverständlich bei noch höheren Temperaturen gestört werden. Folglich können zum Stripping von Targets aus Substanzen, wie nachstehend besprochen wird, Temperaturen von so hoch wie 80 °C oder noch höher verwendet werden.
  • Die Basenzusammensetzung der an der Hybridisierung beteiligten spezifischen Oligonukleotide wirkt sich, wie in den vorstehenden Referenzen besprochen, auf die Schmelztemperatur und die Stabilität der Hybridisierung aus.
  • Für den Bias, dass GC-reiche Sequenzen jedoch schneller hybridisieren und Stabilität bei höheren Temperaturen beibehalten, kann jedoch durch den Einschluss verschiedener Puffer in die Hybridisierungsinkubation oder Waschschritte kompensiert werden. Probenpuffer, die dieses Ergebnis erzielen, schließen die Triethyl- und Trimethylammonium-Puffer ein. Siehe zum Beispiel Wood et al. (1987) Proc. Natl. Acad. Sci. USA, 82:1585–1588, und Khrapko, K. et al. (1984) FEBS Letters 256:118–122.
  • Die Temperatur- und Salzbedingungen zusammen mit anderen Puffer-Parametern sollten dergestalt ausgewählt werden, dass die Kinetik der Renaturierung im Wesentlichen unabhängig von der beteiligten spezifischen Target-Subsequenz oder Oligonukleotidsonde sein sollte. Um dies zu gewährleisten, werden die Hybridisierungsreaktionen im Allgemeinen in einer einzelnen Inkubation aller Substrat-Matrices, die der identischen gleichen Target-Sondenlösung unter den gleichen Bedingungen ausgesetzt werden, zusammen durchgeführt.
  • Die Hybridisierungsrate kann durch den Einschluss entsprechender Hybridisierungs-Akzeleratoren beeinflusst werden. Diese Hybridisierungs-Akzeleratoren schließen die Volumenausschlussmittel, gekennzeichnet durch Dextransulfat oder Polyethylenglykol (PEG) ein. Dextransulfat wird in der Regel bei einer Konzentration zwischen 1 Gew.-% und 40 Gew.-% eingeschlossen. Die tatsächlich ausgewählte Konzentration hängt von der Applikation ab, in der Regel ist jedoch eine schnellere Hybridisierung erwünscht, bei der die Konzentration für das zur Frage stehende System optimiert wird. Dextransulfat wird häufig bei einer Konzentration von zwischen 0,5 Gew.-% und 2 Gew.-% oder bei einer Konzentration zwischen ca. 0,5 % und 5 % eingeschlossen. Als Alternative können die Hybridisierung beschleunigende Proteine, wie z. B. das in E. coli gefundene recA-Protein oder andere homologe Proteine eingeschlossen werden.
  • Als Alterative können verschiedene Substrate individuell verschieden behandelt werden. Es können verschiedene Substrate hergestellt werden, wobei jedes Reagenzien aufweist, die an Target-Subsequenzen mit im Wesentlichen identischen Hybridisierungs-Stabilitäten und -Kinetiken bindet. So könnten gegebenenfalls alle Sonden mit hohem GC-Gehalt auf einem entsprechend behandelten einzelnen Substrat synthesiert werden. In dieser Ausführungsform könnten die Arylammoniumpuffer gegebenenfalls unnötig sein. Jedes Substrat wird dann auf eine Weise dergestalt behandelt, dass die Kollektion der Substrate im Wesentlichen eine einheitliche Bindung aufweist und die Hybridisierungsdaten von der Target-Bindung an die individuelle Substrat-Matrix mit den Daten von anderen Substraten zur Ableitung der notwendigen Bindungsinformationen der Subsequenz kombiniert werden. Die Hybridisierungsbedingungen werden, um ausreichend spezifisch zu sein, gewöhnlich dergestalt ausgewählt, dass die Wiedergabetreue des Basen-Matchings wahrscheinlich ordnungsgemäß diskriminiert wird. Selbstverständlich sollten zur Bestimmung der Stringenz und Kinetik der Hybridisierung Kontrollhybridisierungen eingeschlossen werden.
  • Nachweis
  • Eine Interaktion zwischen der Testnukleinsäure und den „gapped" Sonden kann anhand vieler verschiedener Verfahren nachgewiesen werden. Die Modulation der Bildung von Komplexen kann zum Beispiel unter Verwendung nachweisbar markierter Testnukleinsäuren oder Verwendung eines zum Beispiel auf der Oberflächen-Plasmon-Resonanz oder dergleichen basierenden Bionsensors quantifiziert werden.
  • In bestimmten Ausführungsformen des erfindungsgemäßen Verfahrens kann ein Schritt zum Markieren von Testnukleinsäuren eingeschlossen werden, zum Beispiel, um ihren Nachweis auf dem „gapped" Sonden-Array zu ermöglichen. Ein schnell und leicht nachweisbares Signal ist bevorzugt. Bestimmte Geräte zum Nachweis der Hybridisierung an Oligonukleotid-Arrays weisen eine Fluoreszenzmarkierung nach. Andere geeignete Markierungen schließen Schwermetallmarkierungen, Magnetsonden, chromogene Markierungen (z. B. Phosphoreszenz-Markierungen, Färbemittel und Fluorophore), Markierungen zum spektroskopischen Nachweis, Enzyme-gebundene Markierungen, radioaktive Markierungen und markierte Bindungsproteine ein. Noch andere beispielhafte Markierungen sind in US-Patent Nr. 4366241 beschrieben.
  • Die verwendeten Nachweisverfahren zur Bestimmung, wo die Hybridisierung stattgefunden hat, hängen in der Regel von der vorstehend ausgewählten Markierung ab. Folglich wird für eine Fluoreszenzmarkierung in der Regel eine Fluoreszenzdetektion verwendet. Das US-Patent 5143854 beschreibt ein Gerät und Mechanismen zum Scanning einer Substrat-Matrix unter Verwendung der Fluoreszenzdetektion, ein ähnliches Gerät ist jedoch für andere optisch nachweisbare Markierungen anpassbar.
  • Das Nachweisverfahren stellt eine positionelle Lokalisierung der Region bereit, wo die Hybridisierung stattgefunden hat. Die Position ist jedoch mit der spezifischen Sequenz der Sonde korreliert, da die Sonde spezifisch an eine definierte Position der Substrat-Matrix gebunden oder an ihr synthetisiert wurde. Nachdem alle die in der Target-Sequenz anwesenden Subsequenzen anzeigenden Daten erfasst wurden, wie z. B. das „Spektrum" der Testnukleinsäure, können diese Daten zur Rekonstruktion der gesamten Sequenz des Targets, wie vorstehend erläutert, durch Überlappen aligned werden.
  • Es ist auch möglich, auf die eigentliche Markierung zu verzichten, wenn irgendein Mittel zum Nachweis jedweder Interaktionspositionen zwischen dem Sequenz-spezifischen Reagenz und dem Target-Molekül zur Verfügung stehen. Dies kann die Form eines zusätzlichen Reagenzes annehmen, das entweder die Interaktionsstellen oder die Stellen des Interaktionsmangels, wie z. B. eine negative Markierung, anzeigen kann. Für die Nukleinsäure-Ausführungsformen können Stellen der Doppelstrang-Interaktion durch die Inkorporation von interkalierenden Färbemitteln oder anderen Reagenzien, wie zum Beispiel Antikörpern oder anderen die Helix-Bildung erkennenden Reagenzien, nachgewiesen werden, siehe zum Beispiel Sheldon, et al. (1986), US-Patent 4582789. Viele Verfahren verlassen sich überdies auf die Veränderung der elektronischen, optischen oder mechanischen Eigenschaften einer Sonde nach der Hybridisierung, wie in den US-Patenten Nr. 5670322 an Eggers et al., 5653939 an Hollis et al., 5690894 an Pinkel, et al. und 5759779 an Dehlinger, ohne die Notwendigkeit von Markierungen, Färbemitteln oder jedweden anderen extrinsischen Faktoren, gelehrt wird.
  • In einer anderen Ausführungsform können verschiedene Targets simultan sequenziert werden, wobei jedes Target eine andere Markierung aufweist. Sie könnte zum Beispiel eine grüne Fluoreszenz-Markierung aufweisen und ein zweites Target könnte eine rote Fluoreszenz-Markierung aufweisen. Der Scanning-Schritt unterscheidet Stellen, die die rote Markierung binden, von denen, die die grüne Fluoreszenz-Markierung binden. Jede Sequenz kann unabhängig von einer anderen analysiert werden.
  • Geeignete Chromogene schließen Moleküle und Verbindungen ein, die Licht in einem distinktiven Wellenlängenbereich absorbieren, sodass eine Farbe beobachtet werden kann oder die Licht aussenden, wenn sie mit Strahlung einer bestimmten Wellenlänge oder einem Wellenlängenbereich, wie z. B. Fluoreszern, bestrahlt werden. Biliproteine, wie z. B. Phycoerythrin, können auch als Markierungen dienen.
  • Es werden viele verschiedene geeignete Färbemittel angeboten, die primär zur Bereitstellung einer intensiven Farbe mit minimaler Absorption durch ihre Umgebungen gewählt werden. Erläuternde Färbemitteltypen schließen Chinolin-Färbemittel, Triarylmethan-Färbemittel, Acridin-Färbemittel, Alizarin-Färbemittel, Phthaleine, Insekten-Färbemittel Azo-Färbemittel, Anthraquinoid-Färbemittel, Cyanin-Färbemittel, Phenazathionium-Färbemittel und Phenazoxonium-Färbemittel ein.
  • Es können viele verschiedene Fluoreszer entweder allein oder zusammen mit Quencher-Molekülen eingesetzt werden. Fluoreszer von Interesse fallen in viele verschiedene Kategorien mit bestimmten primären Funktionalitäten. Diese primären Funktionalitäten schließen folgende ein: 1- und 2-Aminonaphthalen, p,p'-Diaminostilbene, Pyrene, quaternäre Phenanthridinsalze, 9-Aminoacridin, p,p'-Diaminobenzophenonimine, Anthracene, Oxacarbocyanin, Merocyanin, 3-Aminoequilenin, Perylen, Bisbenzoxazol, Bis-p-oxazolylbenzen, 1,2-Benzophenazin, Retinol, Bis-3-aminopyridiniumsalze, Hellebrigenin, Tetracyclin, Sterophenol, Benzimidazolylphenylamin, 2-Oxo-3-ehromen, Indol, Xanthen, 7-Hydroxycumarin, Phenoxazin, Salicylat, Strophanthidin, Porphyrine, Triarylmethane und Flavin. Individuelle Fluoreszenz-Verbindungen, die Funktionalitäten zur Verknüpfung aufweisen oder die zur Inkorporation solcher Funktionalitäten modifiziert werden können, schließen zum Beispiel folgende ein: Dansylchlorid; Fluoresceine, wie zum Beispiel 3,6-Dihydroxy-9-phenylxanthhydrol; Rhodaminisothiocyanat; N-Phenyl-1-amino-8-sulfonatonaphthalen; N-Phenyl-2-amino-6-sulfonatonaphthalen; 4-Acetamido-4-isothiocyanato-stilben-2,2'-disulfonsäure; Pyren-3-sulfonsäure; 2-Toluidinonaphthalen-6-sulfonat; N-Phenyl-N-methyl-2-aminonaphthalen-6-sulfonat; Ethidiumbromid; Stebrin; Auromin-0,2-(9'-anthroyl)pahnitat; Dansylphosphatidylethanolamin; N,N'-Dioctadecyloxacarbocyanin; N,N'-Dihexyloxacarbocyanin; Merocyanin, 4-(3'-Pyrenyl)butyrat; d-3-Aminodesoxyequilenin; 12-(9'-Anthroyl)stearat; 2-Methylanthracen; 9-Vinylanthracen; 2,2'(Vinylen-p-phenylen)bisbenzoxazol; p-Bis[2-(4-methyl-5-phenyl-oxazolyl)]benzen; 6-Dimethylamino-1,2-benzophenazin; Retinol; Bis(3'-aminopyridinium)-1,10-decandiyl-diiodid; Sulfonaphthylhydrazon von Hellibrienin; Chlortetracyclin; N-(7-Dimethylamino-4-methyl-2-oxo-3-chromenyl)maleimid; N-[p-(2-Benzimidazolyl)-phenyl]maleimid; N-(4-Fluoranthyl)maleimid; Bis(homovanillinsäure); Resazarin; 4-Chloro-7-nitro-2,1,3-benzooxadiazol; Merocyanin 540; Resorufin; Bengalrosa; und 2,4-Diphenyl-3(2H)-furanon.
  • Fluoreszer sind im Allgemeinen bevorzugt, weil man durch Bestrahlung eines Fluoreszers mit Licht eine Vielzahl von Emissionen erhalten kann. Folglich kann eine einzelne Markierung für eine Vielzahl messbarer Ereignisse eingesetzt werden.
  • Nachweisbare Signale können auch durch Chemilumineszenz- und Biolumineszenzquellen bereitgestellt werden. Chemilumineszenzquellen schließen eine Verbindung ein, die durch eine chemische Reaktion elektronisch angeregt werden und können dann Licht aussenden, das als nachweisbares Signal dient oder Energie an einen Fluoreszenzakzeptor abgibt. Es wurde gefunden, dass eine diverse Anzahl an Verbindungsklassen Chemilumineszenz unter einer Reihe verschiedener Bedingungen bereitstellt. Eine Verbindungsklasse stellt 2,3-Dihydro-1,-4-phthalazinedion dar. Die populärste Verbindung stellt Luminol dar, bei dem es sich um die 5-Aminoverbindung handelt. Andere Mitglieder der Klasse schließen das 5-Amino-6,7,8-trimethoxy- und das Dimethylamino[ca]benz-Analogon ein. Diese Verbindungen können zum Lumineszieren mit alkalischem Wasserstoffperoxid oder Calciumhypochlorit und Base hergestellt werden. Eine andere Verbindungsklasse stellen die 2,4,5-Triphenylimidazole dar, wobei Lophin den Trivialnamen für das Elternprodukt darstellt. Chemilumineszierende Analoga schließen para-Dimethylamino- und -methoxy-Substituenten ein. Chemilumineszenz kann auch mit Oxalaten, im Allgemeinen Oxalyl-aktiven Estern, z. B. p-Nitrophenyl und einem Peroxid, z. B. Wasserstoffperoxid unter basischen Bedingungen erhalten werden. Als Alternative können Luciferine zusammen mit Luciferase oder Lucigeninen zur Bereitstellung von Biolumineszenz verwendet werden.
  • Spinmarkierungen werden von Reporter-Molekülen mit einem ungepaarten Elektronenspin, der durch Elektronenspinresonanz-Spektroskopie (ESR-Spektroskopie) nachgewiesen werden kann, erhalten. Beispielhafte Spinmarkierungen schließen organische freie Radikale, Übergangsmetall-Komplexe, insbesondere Vanadium, Kupfer, Eisen und Mangan und dergleichen bereit. Beispielhafte Spinmarkierungen schließen Nitroxid-freie Radikale ein.
  • In einer anderen Ausführungsform kann die Hybridisierung der Testnukleinsäure an die „gapped" Sonden unter Verwendung der Oberflächen-Plasmon-Resonanz, wie sie zum Beispiel derzeit mit der „Sensor-Chip"-Technologie durchgeführt wird, nachgewiesen werden. Siehe zum Beispiel US-Patent 5485277; Shinohara et al. (1995) J Biochem (Tokyo) 117:1076–1082; Nice et al. (1993) J Chromatogr 646:159–168; und Jonsson et al. (1991) Biotechniques 11:620–627. Oberflächen-Plasmon-Biosensoren sind grundlegend empfindliche Refraktometer, die Veränderungen im optischen Zustand einer Oligonukleotid-Schicht, in diesem Fall einer Schicht von „gapped" Sonden, überwachen können. Dies wird zum Beispiel durch Generieren des „gapped" Sonden-Arrays oben auf einem dünnen Metallfilm, der auf die Basis eines TIR-Prismas aufgedampft ist, erreicht. Wenn TM-polarisiertes Licht zur Anregung der Oberflächen-Plasmone im richtigen Winkel in das Prisma einfällt, wird das TM-polarisierte Licht drastisch abgeschwächt. In Gegenwart eines Nukleinsäure-Duplex ändern sich die Dicke und die Oberflächen-Plasmon-Resonanz, wodurch die Winkelposition des reflektierten Lichts verändert wird.
  • Analyse
  • Mit dem automatisierten Nachweisgerät wird die Korrelation der spezifischen positionellen Markierung in das vorhandensein der Sequenzen, für die die Reagenzien eine Interaktionsspezifizität aufweisen auf dem Target, konvertiert. Folglich wird die positionelle Information direkt in eine Datenbank konvertiert, die anzeigt, welche Sequenz-Interaktionen aufgetreten sind.
  • Das Nachweisverfahren inkorporiert in der Regel auch ein gewisses Maß an Signalvearbeitung zur Bestimmung, ob das Signal an einer bestimmten Matrix-Position ein echt positives Signal darstellt oder ein störendes Signal darstellen könnte. So kann zum Beispiel ein Signal aus einer Region, die ein tatsächlich positives Signal aufweist, dazu neigen, überzugreifen und ein positives Signal in einer angrenzenden Region bereitzustellen, die eigentlich keines aufweisen sollte. Dies kann zum Beispiel auftreten, wenn das Scanning-System nicht mit ausreichend hoher Resolution in seiner Pixel-Dichte zur Trennung der beiden Regionen diskriminiert. Folglich kann das Signal über der räumlichen Region Pixel um Pixel zur Bestimmung der Orte und dem tatsächlichen Ausmaß des positiven Signals bewertet werden. Ein echtes positives Signal sollte theoretisch an jedem Pixelort ein einheitliches Signal zeigen. Folglich sollte die Verarbeitung durch Plotting der Pixel-Zahlen mit tatsächlicher Signalintensität eine deutlich einheitliche Signalintensität aufweisen. Regionen, in denen die Signalintensitäten eine ziemlich breite Dispersion aufweisen, können besonders suspekt sein, und das Scanning-System kann zum sorgfältigeren Scanning dieser Positionen programmiert werden.
  • In einer anderen Ausführungsform, wenn die Sequenz eines Targets an einer bestimmten Stelle bestimmt wird, würde die Überlappung für die Sequenz notwendigerweise eine bekannte Sequenz aufweisen. Folglich kann das System die Möglichkeiten für die nächste angrenzende Position vergleichen und diese im Vergleich miteinander ansehen. In der Regel sollte nur eine der möglichen angrenzenden Sequenzen ein positives Signal geben und das System könnte zum Vergleich jeder dieser Möglichkeiten programmiert werden und das auswählen, das ein stark positives Signal abgibt. Auf diese Weise kann das System auch simultan ein Mittel zum Messen der Zuverlässigkeit der Bestimmung durch Anzeigen bereitstellen, welches durchschnittliche Verhältnis von Signal zu Hintergrund tatsächlich vorliegt.
  • Von einer Auflistung der Sequenzen, die interagieren, kann eine Datenanalyse an einer Reihe von Sequenzen durchgeführt werden. Obwohl die Rekonstruktion der Sequenz manuell durchgeführt werden kann, wird in der Regel zur Durchführung der Überlappungsanalyse ein Computer-Programm oder dedizierte Hardware verwendet. Es kann ein Programm geschrieben werden und an jedwedem unter einer großen Anzahl verschiedener Computer-Hardware-Systeme laufen. Die vielen verschiedenen verwendbaren Betriebssysteme und Sprachen werden von einem Computer-Software-Techniker erkannt werden. Es können verschiedene unterschiedliche Sprachen, wie z. B. BASIC; C; PASCAL usw., verwendet werden.
  • Wiederverwendung des Substrats
  • Nachdem eine bestimmte Sequenz hybridisiert und das Hybridisierungsmuster analysiert wurde, können bestimmte Matrix-Substrate letztendlich wiederverwenbar sein und ohne weiteres zur Exposition gegenüber einer zweiten oder sich anschließenden Testnukleinsäure aufbereitet werden. Um dies durchführen zu können, werden die Hybriden-Duplexe unterbrochen und die Matrix auf eine Weise behandelt, die alle Spuren der Testnukleinsäure entfernt. So kann die Matrix zum Beispiel mit verschiedenen Detergenzien oder Lösungsmitteln behandelt werden, gegen die das Substrat, die „gapped" Sonden und Verknüpfungen an das Substrat inert sind. Diese Behandlung kann eine Behandlung bei erhöhter Temperatur, eine Behandlung mit organischen oder anorganischen Lösungsmitteln, Modifikationen des pH und anderen Mitteln zum Unterbrechen der spezifischen Interaktion, durchgeführt werden. Danach kann der rezyklierten Matrix eine zweites Target zugefügt und wie zuvor analysiert werden.
  • Speicherung und Konservierung
  • Wie vorstehend angezeigt, wird die Matrix in der Regel unter Bedingungen aufrechterhalten, unter denen die Matrix selbst und die Verknüpfungen und die spezifischen Reagenzien konserviert werden. Gegebenenfalls können zur Verhinderung des Abbaus verschiedene spezifische Konservierungsmittel zugefügt werden. Wenn die Reagenzien zum Beispiel säure- oder basenlabil sind, wird in der Regel ein Puffer mit neutralem pH zugefügt. Es ist auch erwünscht, die Zerstörung der Matrix durch Wachstum von Organismen zu vermeiden, die die daran gebundenen organischen Reagenzien zerstören könnten. Aus diesem Grund kann ein Konservierungsmittel, wie zum Beispiel Cyanid oder Azid zugefügt werden. Das chemische Konservierungsmittel sollte jedoch auch so ausgewählt werden, dass es die chemische Beschaffenheit der Verknüpfungen und andere Komponenten des Substrats konserviert. In der Regel kann auch ein Detergenz eingeschlossen werden.
  • Verfahren zur Vermeidung des Abbaus von Oligomeren
  • Ein Substrat, das insbesondere eine große Anzahl an Oligomeren umfasst, wird auf eine Weise behandelt, die zur Aufrechterhaltung der Qualität und Integrität von Oligonukleotiden bekannt ist. Diese schließen die Lagerung des Substrats in einer sorgfältig kontrollierten Umgebung unter Bedingungen wie niedriger Temperatur, Kationendepletion (EDTA und EGTA), sterilen Bedingungen und einer inerten Argon- oder Stickstoffatmosphäre ein.
  • Die vorstehend beschriebenen Verfahren können unter Bezugnahme auf die nachstehend bereitgestellten Beispiele verstanden werden, die zur Erläuterung der vorstehenden Besprechung und in keiner Weise als einschränkend beabsichtigt sind.
  • BEISPIEL 1
  • In diesem Beispiel ist ein Sondierschema ersichtlich, das im Wesentlichen das informationstheroretische Potenzial der Sequenzierung durch Hybridisierung erreicht. Dieses Verfahren basiert auf einer in [FPU99] berichteten kombinatorischen Analyse.
  • Die Unzulänglichkeit des klassischen Verfahrens ist auf die Tatsache zurückzuführen, dass mit wachsender Länge der Target-Sequenz die Größe des Spektrums entsprechend wächst, und der sich daraus ergebende das Verfahren kennzeichnende Graph „G" kann mehr als einen Euler-Pfad enthalten. Die Schwierigkeit besteht darin, dass obwohl jeder Knoten so viele eingehende wie abgehende Kanten aufweist, es für einen Knoten mit mehr als einer eingehenden Kante (Verzweigungsknoten) keine allgemeine Weise gibt, mit der eine eingehende Kante mit einer einzigartigen abgehenden Kante assoziiert werden kann, wodurch Ambiguität herbeigeführt wird. Zur Vermeidung dieses Nachteils kam man auf den Gedanken, für die gleiche Anzahl spezifizierter Nukleotide „gapped" Sonden zu übernehmen, die in einer Weise eine „Brücke" um die Verzweigungsknoten herum bereitstellen können.
  • Eine technische Schwierigkeit besteht in der Realisierung von Gaps, nämlich von Strings von universellen Basen. Ursprünglich wurde die Realisierung einer Sonde mit einer universellen Base durch ein Gemisch von Sonden, die in der gewählten Position alle vier Standardbasen aufweisen, vorgeschlagen. In letzter Zeit wurde eine viel interessantere Alternative vorgeschlagen, die echte universelle Basen (wie zum Beispiel 5-Nitroindol) [LB94] verwendet, die sich – wenn in kurzen Durchläufen verwendet – ohne Bindung korrekt stapeln. Der hierin beschriebene Ansatz basiert auf dem Einsatz universeller Basen.
  • Dieses Verfahren kann spezifisch eine Sondenklasse mit einem gut definierten periodischen Gap-Muster verwenden, die als (s,r)-Sonden bezeichnet werden können. Durch Kennzeichnung der Zf f-fachen Wiederholung eines String Z weisen solche Sonden die Form Xs(Us–1Xr auf, worin X im Bereich über den vier üblichen DNA-Basen (A, C, G und T) liegt und U die universelle Base darstellt. Eine (4,3)-Sonde weist zum Beispiel die folgende Form auf: XXXXUUUXUUUXUUUX.
  • Technisch besteht das Verfahren hier darin, eine (s,r)-Sonde als eine anzusehen, die s(r + 1) Symbole aufweist, wobei r(s – 1) von ihnen universell, d. h. zum Matching von jedwedem Nukleotid fähig ist. Da es s + r Positionen mit einem Symbol X in jeder (s,r)-Sonde gibt, weist das Set von (s,r)-Sonden genau 4r+s = 4k Glieder auf. Beispiele von Spektren für zwei verschiedene „gapped" Sondenmuster sind in 2 ersichtlich.
  • Der fundamentale Vorgang bei der Sequenzrekonstruktion besteht in der Verlängerung, d. h. dem Zufügen eines zusätzlichen Nukleotids (eines Symbols) an die derzeit rekonstruierte Sequenz a. Zum Ausführen einer Verlängerung suchen die Verfahren im Spektrum nach allen Sonden, deren erste r(s + 1) – 1 Symbole mit den letzten r(s + 1) – 1 Symbolen von a übereinstimmen (es gibt mindestens eine solche Sonde). Wenn es nur eine solche Sonde gibt, dann ist die Verlängerung eindeutig und man hängt das sich am weitesten rechts befindende Symbol der Sonde rechts von a an. Andernfalls könnte es mehr als eine Verlängerung (ambige Verlängerung) geben. Man versteht unter einer ambigen Verlängerung eine, die auftritt, wenn und nur wenn sie durch zusätzliche r Sonden bestätigt wird, die an Shifts von s, 2s, ..., rs Positionen in Bezug auf die erste Sonde zu platzieren sind. Die Sonden, die die ambige Verlängerung unterstützen, können aus einem einzigen Segment der Target-Sequenz entstehen; was jedoch für signifikant wahrscheinlicher gehalten wird, ist das Ereignis, dass diese Sonden (die hierin als „Fooling-Sonden" bezeichnet werden) aus (r + 1) unabhängigen Positionen in der Target-Sequenz entstehen können. Für das fixe k nimmt die Likelihood einer ambigen Verlängerung exponentiell in r ab, wodurch den (s, r)-Sonden ermöglicht wird, das informationstheoretische Potenzial der SBH, d. h. die zuverlässige Rekonstruktion der Sequenz der Länge proportional zu 4k zu realisieren.
  • Die vorstehende Analyse war von Simulationen sowohl an artifiziellen Daten (d. h. Computergenerierten Target-Sequenzen begleitet, bestehend aus unabhängigen und identisch verteilten Nukleotiden) als auch an realen Daten, die aus dem ENTREZ-Wiedergewinnungssystem (die Genome von Haemophilus influenzae, Escherichia coli und Methanobacterium thermoautrophicum) erhalten wurden Für jedwede gewählte Länge m, werden die artifiziellen Sequenzen (als „zufällig" bezeichnet) durch einen Zufallszahlgenerator produziert, während es sich bei den natürlichen Sequenzen um disjunkte Substrings der veröffentlichten Genome handelt. Obwohl für ein gegebenes Paar (s, r), ausgeklügelterer Algorithmen die Rekonstruktion von Target-Sequenzen von wesentlich größerer Länge (jedoch nur durch einen konstanten Faktor) erreicht werden können, wurden für Vergleichszwecke Experimente mit einem einfachen Rekonstruktionsalgorithmus durchgeführt, der für Sequenzen einer gewählten Länge m, konservativ Versagen beim Nachweis der ersten ambigen Verlängerung erklärt. Typische Ergebnisse von den Simulationen werden in 5 und in 6 für den Wert k = 9 berichtet, der für die derzeitige Technologie repräsentativ ist. In 5 ist die Frequenz der erfolgreichen Rekonstruktion als eine Funktion von m für die möglichen Wahlen des Paars (s, r) geplottet (zu beachten ist, dass die (s, r)-Paare (9,0) und (1,8) das gleiche Sonden-Design bezeichnen). In 6 sind die Ergebnisse für die Konfidenzniveaus von 0,9 und 0,95 ersichtlich: eine angezeigte Eingabe besteht aus dem Wert der größten Probe, für die eine Rekonstruktion mit einer Frequenz von nicht kleiner als das entsprechende Konfidenzniveau erreicht wurde. Zu beachten ist, dass aufgrund der beschränkten Zufälligkeit der natürlichen Sequenzen, ihre Leistung der von den artifiziellen Sequenzen bei maximaler Entropie unterlegen ist. Das Verhältnis der Leistungen von der besten (s, r) Auswahl und dem Standardverfahren (k,0) ist jedoch in allen Testfällen von der gleichen Größenordnung. Die vorstehend dargelegten Beispiele folgen aus den Prinzipien einschließlich den in [BS91] dargelegten, W. Bains und G.C. Smith, A novel method for DNA sequence determination. Jour. of Theoretical Biology (1988), 135:303–307; [DFS94] M.E. Dyer, A.M. Frieze und S. Suen, The probability of unique solutions of sequencing by hybridization. Journal of Computational Biology. 1 (1994) 105–110; [D+89] R Drmanac, I. Labat, I. Bruckner und R. Crkvenjakov, Sequencing of megabase plus DNA by hybridization. Genomics. (1989), 4:114–128; [FPU99] A.M. Frieze, F.P. Preparata, E. Upfal, Reconstruction of a sequence from its probes. Computational Biology, zur Veröffentlichung eingereicht (1999); [LB94] D. Loakes und D.M. Brown, 5-Nitroindole as a universal Base analogue. Nucleic Acids Research, (1994) 22, 20:4038–4043; [L+88] Yu.P. Lysov, V.L. Florentiev, A.A. Khorlin, K.R. Khrapko, V.V. Shih und A.D. Mirzabekov, Sequencing by hybridization via oligonucleotides. A novel method. Dokl. Acad. Sci. USSR, (1988) 303:1508–1511; [P89] P.A. Pevzner, 1-tuple DNA sequencing: computer analysis. Journ. Biomolecul. Struct. & Dynamics (1989) 7, 1, 63–73; [P+91] P.A. Pevzner, Yu.P. Lysov, K.R. Khrapko, A.V. Belyavsky, V.L. Florentiev und A.D. Mirzabekov, Improved chips for sequencing by hybridization. Journ. Biomolecul. Struct. & Dynamics (1991) 9, 2, 399-410; und [PL94] P.A. Pevzner und RJ. Lipshutz, Towards DNA-sequencing by hybridization. 19th Symp. on Mathem. Found of Comp. Sci., (1994), LNCS-841, 143–258.
  • BEISPIEL 2
  • In einem weiteren Beispiel wird gezeigt, dass die Verwendung von Sonden mit einem gut definierten periodischen Gap-Muster die Erlangung von asymptotisch optimalen Effizienzen (d. h. erwartete Sequenzlänge θ(4k)) ermöglicht. Ein Sonden-Design wird vorgelegt, dass für jedwedes k 4k Sonden zum Sequenzieren einer Target-Sequenz der Länge θ(4k) gebraucht. Der Ansatz beinhaltet nicht die Konstruktion eines Euler-Pfades. Dieses scheinbare Paradox (in Bezug auf Pevzners Charakterisierung) wird durch die Beobachtung gelöst, dass die vorgeschlagene Gap-Struktur das Identifizierungsproblem des Euler-Pfades trivialisiert, vorausgesetzt, mit hoher Wahrscheinlichkeit im gewählten statistischen Modell, dass der Euler-Pfad in einem virtuellen θ(k2)-Gramm des De Bruijn-Graphs zu einem einfachen Pfad reduziert wird. Zur Erlangung der informationstheoretischen oberen Grenze wird deshalb die Implementierung der „gapped" Sonden, d. h. die sichere Insertion von „universellen" („don't care") Basen in das Oligonukleotid eingesetzt. Das volle Potenzial der Sequenzierung durch Hybridisierung wird anhand des zuverlässigen Einsatzes universeller Basen vorausgesagt.
  • Die hier berichteten analytischen Ergebnisse sind asymptotisch. Zur Etablierung der Validität des Ansatzes für praktische Chip-Größen wurden für technologisch durchführbare Parameter umfangreiche Simulationen laufen lassen. Die in [HPU99] dokumentierten Simulationsergebnisse stimmen bemerkenswert mit der Analyse überein und weisen den Vorteil des erfindungsgemäßen Sondenschemas für jedwede Anzahl an Sonden und insbesondere für den heutigen praktischen Bereich von SBH-Chips mit Tausenden bis (möglicherweise) einigen Millionen Sonden dar.
  • Ein Sequencing-by-Hybridization (SBH) Chip besteht aus einer fixen Anzahl von Merkmalen. Jedes Merkmal kann eine Sonde aufnehmen. Eine Sonde stellt ein String von Symbolen (Nukleotiden) aus dem Alphabet A = {A, C, G, T, U} dar, worin A, C, G und T die üblichen DNA-Basen kennzeichnen und U das „don't care"-Symbol kennzeichnet, das unter Verwendung einer universellen Base [LB94] implementiert wird.
  • Zum Vergleich der relativen Fähigkeiten von verschiedenen Verfahren wird vorausgesetzt, dass es sich bei der Hybridisierung um ein fehlerfreies Verfahren mit weder fehlenden Sonden noch falschpositiven handelt.
  • Ein Sequenzierungsalgorithmus stellt einen Algorithmus dar, der – mit einem gegebenen Probenset und ein Sequenzspektrum – entscheidet, ob das Spektrum eine einzigartige DNA-Sequenz definiert, und – wenn dies zutrifft – diese Sequenz rekonstruiert.
  • Da die Anzahl der Sonden auf einem SBH-Chip aufgrund der Kosten und durch die Technologie begrenzt ist, besteht Interesse an einem Design mit einem kleinsten Sondenset, das zum Sequenzieren eines arbiträren Strings einer gegebenen Länge angemessen ist.
  • Die folgende einfache Beobachtung gibt eine informationstheoretische untere Grenze für die Größe eines solchen Sets:
    Theorem 1 Ω(m) stellt die Anzahl der für die eindeutige Rekonstruktion eines arbiträren Strings der Länge m erforderlichen Sonden dar.
  • Beweis: Das auf t Sonden basierende Spektrum stellt einen binären Vektor mit t Komponenten dar. Es gibt 2t solcher Vektoren, und jeder kann nicht mehr als eine mögliche Sequenz definieren. Folglich stellt 4m ≤ 2t, oder = Ω(m) dar.
  • Dieses Theorem impliziert auch, dass man im wichtigen Fallt = 4k m ≤ 4k–1/3 hat. In der Vergangenheit durchgeführte Forschung [P+91, DFS94, A+96] analysierte die Leistung von SBH-Chips im Kontext von zufälligen Strings der Länge m, die einheitlich zufällig aus dem Set Am erhalten wurden. Eine ähnliche untere Grenze ist in diesem Modell gültig:
    Theorem 2 Für jedwede fixierte Wahrscheinlichkeit P > 0 stellt Ω(m) die Anzahl der für die eindeutige Rekonstruktion mit der Wahrscheinlichkeit P eines zufälligen Strings der Länge m erforderlichen Sonden dar.
  • Beweis: Da der Algorithmus eindeutig die P4m Sequenzen rekonstruieren muss, muss die Anzahl der Sonden t P4m ≤ 2t oder t = Ω(m) zufriedenstellen.
  • Diese Arbeit konzentrierte sich auf ein spezielles Muster von Sonden, die als (s, r)-„gapped" Sonden bezeichnet und als GP(s, r) gekennzeichnet sind.
  • Definition 1 Für fixe Parameter s und r besteht das Set GP(s, r) der (s, r)-„gapped" Sonden aus allen Sonden der Form Xs (Us–1 – X)r; worin X über den 4 üblichen DNA-Basen (A, C, G und T) liegt und U die universelle Base darstellt.
  • Da es s + r Orte mit einem X-Symbol in jeder Sonde in GP(s, r) gibt, besteht das Sondenset GP(s, r) aus genau 4r+s individuellen Sonden.
  • Defintion 2 Man sagt, dass zwei Sequenzen (in einem gewählten relativen Alignment) übereinstimmen, wenn ihre Symbole in jedweder Position, in der sie beide spezifiziert sind, identisch sind.
  • Notationell sei a(i,m) = a1, ..., am das Target-String und für jedwedes 1 ≤ i ≤ j ≤ m sei a(i,j) = ai, ..., aj.
  • Mit gegebenem a(i,j) und i < h < j, stellen a(i,h) bzw. a(h,j) den (h – i + l)-Präfix bzw. (j – h + l)-Suffix von a(i,j) dar. Danach setzt man voraus, dass das Set von Sonden GP(s, r) zum Erhalt eines Spektrums des Strings a(i,m) verwendet wurde.
  • In diesem „grundlegenden Schema" zum Sequenzieren des Strings a wurden die Spektrum-Information verwendet. Vorausgesetzt wird, dass man das s(r + 1)-Präfix des Target-Strings erhält.
  • Durch b(1...) ist die putative durch den Sequenzierungsalgorithmus konstruierte Sequenz gekennzeichnet. Das Verfahren beginnt mit dem Präfix b(1,s(r+1)) = a(1,s(r+1)). Bei jeder Iteration versucht das Verfahren eine aktuelle putative Sequenz b(1,l–1) = b1, ..., bl–1, l – 1 ≥ s(r + 1) mit einem neuen Symbol bl zu verlängern.
  • Zur vollen Nutzung der GP(s,r) Sonden muss jedes Symbol gegebenenfalls durch bis zu (r + 1) Sonden in verschiedenem Alignments mit der aktuellen putativen Sequenz bestätigt werden.
  • Die Verlängerung wird wie folgt versucht. Man findet das Set M0 von allen Sonden im Spektrum dergestalt, dass das (s(r + 1) – 1)-Präfix von jeder der Sonden mit dem (s(r + 1) – 1)-Suffix bl–s(r+1)+1,l–1) der aktuellen putativen Sequenz mit der angegebenen Konvention zu „don't care"-Symbolen übereinstimmt. Wenn M0 leer ist, dann existiert keine Verlängerung und der Algorithmus terminiert. Wenn sonst |M0| = 1 darstellt, ist eine einzelne Verlängerung definiert und das entsprechende Symbol wird an die putative Sequenz angehängt. Problematisch ist der Fall |M0| > 1, da er eine ambige Verlängerung vorschlägt. Hier verwendet man die Leistungsfähigkeit der GP(s, r)-Sonden, da eine ambige Verlängerung nur nachgewiesen wird, wenn sie wie nachstehend besprochen durch r + 1 Spektrum-Sonden bestätigt wird. Wenn diese Sonden die ambige Verlängerung bestätigen, treten sie entweder der Target-Sequenz entlang verstreut auf (und werden kurz als „Fooling-Sonden" bezeichnet) oder sie rühren von einem einzelnen Substring (von angemessener Länge) her. Intuitiv beruht dieser Ansatz auf der Tatsache, dass (r + 1) konfirmatorische „Fooling"-Sonden unwahrscheinlich sind und dass ihr Entstehen aus einem einzelnen Substring sogar noch unwahrscheinlicher ist.
  • Wenn M0 keine Einermenge darstellt, sei B0 das Set der möglichen Verlängerungen. Die Verifikation wird wie folgt ausgeführt: Konstruktion des Sets M1 von allen Sonden im Spektrum dergestalt, dass ihr gemeinsames (sr – 1)-Präfix mit b(l–sr+1,al–1) übereinstimmt und ihr (s + 1)-Suffix im Sinne von Definition 2 und in angemessenen Shifts mit den Sonden in M0 übereinstimmt. Es sei B1 das Set von Symbolen, die in der sr-ten Position der Sonden in M0 erscheinen Wenn B0∩B1 eine Einermenge darstellt, dann erhält man eine einzigartige Verlängerung an dem String. Sonst durch Konstruktion des Sets M2 der Spektrum-Sonden, deren (s(r – 1) – 1)-Präfix mit b(l–s(r+1)+1,l–1) übereinstimmt und das (2s + 1)-Suffix mit den Sonden in M1 übereinstimmt, fortsetzen. Aus M2 konstruiert man das entsprechende Set B2 der Verlängerungen. Wiederum, wenn B0∩B1B2 eine Einermenge darstellt, wird das Verfahren ausgefülrt, sonst mittels Erwägung kürzerer Präfixe von Längen s(r – 2), s(r – 3), s (r – 4),..., s der Spektrum-Sonden fortsetzen. Wenn für einige i ≤ r |∩ i / j=t Bj| = 1 darstellt, dann hat man eine eindeutige Verlängerung. Sonst im grundlegenden Schema anhalten und die aktuelle Sequenz berichten (ein gründlicheres und besseres Durchführungsverfahren wird später in dieser Arbeit skizzenhaft erläutert).
  • Man sollte zur Kenntnis nehmen, dass der Erfolg des vorstehenden Algorithmus von der Tatsache herstammt, dass bis zu r zusätzliche Sonden angemessen mit der aktuellen Sequenz aligned sind, die zur Bestätigung der Nichteindeutigkeit von einer Einsymbol-Verlängerung verwendet wird. Man könnte gegebenenfalls versuchen, die „Leistungsfähigkeit" von jedwedem Sondenset unter Verwendung verschiedener Alignments mit dem aktuellen String zu erweitern. Der Vorteil des Sets GP(S, r) liegt darin, dass die Wahrscheinlichkeit einer ambigen Verlängerung in jeder der Alignments in Bezug auf eine zufällig generierte Sequenz fast unabhängig von den anderen Mustern ist. Diese Eigenschaft steht im Mittelpunkt der nachstehend vorgelegten Analyse.
  • In diesem Abschnitt wird eine Analyse von der Leistung des im vorigen Abschnitt beschriebenen Algorithmus vorgelegt, wenn er auf ein unter Verwendung von GP(s, r)-Sonden erhaltenes Spektrum angewendet wird. Es wird gezeigt, dass sich die Leistung dieses Schemas der informationstheoretischen unteren Grenze von Theorem 2 nähert. Zur Vereinfachung der Präsentation setzt man wiederum voraus, dass zusätzlich zum Spektrum der Algorithmus mit dem s(r + 1)-Präfix der Target-Sequenz bereitgestellt wird. Diese Voraussetzung kann ohne Veränderung der Leistung der Sequenzierungsschema entfernt werden.
  • Theorem 3 Für Konstanten γ > 1 und β = o (log m) dergestalt, dass r und s ganze Zahlen darstellen, sei: r = 1/γlog4 m + β s = log4 m + l + γ – r.
  • Es sei ε das Ereignis: Der Algorithmus ist nicht fähig, ein zufälliges String der Länge m unter Verwendung eines GP(s, r) Spektrums des Strings zu sequenzieren. Dann: Pr(ε) ≤ 4–γ(1+β).
  • Beweis:
  • Es seit = {t, t0, t1, ..., tr}, einen Vektor kennzeichnend von r + 2 Positionen im Target-String, und sei A(t) kennzeichnend das Ereignis: dann gibt es Substrings in der Target-Sequenz a(l,m), die die folgenden Beziehungen zufriedenstellen:
    Figure 00380001
  • Man sollte sich zuerst auf den Erfolg des Algorithmus beim Sequenzieren von allen außer den letzten rs-Symbolen der Target-Sequenz konzentrieren.
  • Anspruch I Der Algorithmus ist nicht dazu fähig, das m – sr-Präfix des Target-Strings zu sequenzieren, wenn und nur wenn ∃t und dergestalt ist, dass A(t) auftritt.
  • Beweis: Vorausgesetzt, dass der Algorithmus versucht, die aktuelle Sequenz a(1,l–1) mit dem nächsten Symbol al zu verlängern. Es sei t = l – s(r + 1). Wenn |B0| > 1 keine Einermenge darstellt, dann liegt im Spektrum eine Sonde vor, die mit a(t+1,l–1), außer mit ihrem sich am weitesten rechts befindenden Symbol b ≠ al übereinstimmt Bei Kennzeichnung des Substrings vom Target-String, das mit dieser Sonde bindet, durch
    Figure 00380002
    sind die Bedingungen B0, Co und D0 gültig.
  • Wenn ∩ r / j=0Bj keine Einermenge darstellt, dann enthält es sowohl al als auch b. Folglich gibt es für jedes j eine Sonde im Spektrum und ein entsprechendes Substring
    Figure 00380003
    in der Target-Sequenz dergestalt, dass wie in den Bedingungen Bj und Cj formuliert das s-Präfix dieses Substrings mit a(t+js+1,l+(j+1)s) übereinstimmt, und die Stellen tj + is des Substrings für 2 ≤ i ≤ r mit den entsprechenden Stellen (mit einem Shift der s-Positionen) des Substrings
    Figure 00380004
    übereinstimmt.
  • Es sei τ zur Kennzeichnung des Sets aller möglichen Vektoren t, d. h.:
    Figure 00380005
  • Für einen gegebenen Vektor t ∊ τ, sei C(t) zur Kennzeichnung des Sets der Komponenten von t, die sich innerhalb einer Distanz von 3rs von jedweder anderen Komponente t (in der folgenden Definition t ≡ t–1) befinden: C(t) {j:∃j' < j with |tj'–tj| < 3rs}.
  • Es sei τi zur Kennzeichnung des Sets von Vektoren mit |C(t)| = i, d. h.: Ti = {t ∊ T: |C(t)| = i}.
  • Als Nächstes begrenzt man die Wahrscheinlichkeit eines gegebenen Ereignisses A (t). Wenn t ∊ τ0, dann sind die r + 1 Sonden in der Definition von A(t) mit disjunkten Regionen des Strings assoziiert, und folglich sind die r + 1 Ereignisse unabhängig. Wenn t ∊ τi, dann sind alle der β-Ereignisse noch immer unabhängig, und alle, außer höchstens i von den C-Ereignissen sind unabhängig (ein B-Ereignis beinhaltet s + r – 1 Symbole (s + r für B0), ein C-Ereignis r – 1).
  • Folglich kann man
    Figure 00390001
    beweisen.
  • Wenn t ∊ τi, dann sind mindestens i von den Komponenten von t auf die 3rs-Nachbarschaft anderer r + 1 Komponenten eingeschränkt. Folglich
    Figure 00390002
  • Nun begrenzt man die Wahrscheinlichkeit eines Ereignisses (A(t)) für t ∊ τi, i ≥ 1:
    Figure 00390003
  • (Diese Grenze macht Gebrauch von der Bedingung β = o(log m).)
  • Es sei I(t) eine binäre Variable, dergestalt, dass I(t) = 1, wenn und nur wenn A(t) auftritt, und es sei Z = Σt∊T0I(t).
  • Dann Pr(∃t ∊ T0 :A(t)) ≤ E[Z].
  • Unter Verwendung von (1) erhält man
    Figure 00400001
  • Folglich ist die Wahrscheinlichkeit, dass der Algorithmus nicht zur Sequenzierung von allen außer den letzten rs Symbolen der Sequenz fähig ist, begrenzt aus Vorstehendem durch
    Figure 00400002
  • Wenn man letztendlich für alle m – rs < t < m nicht das Ereignis B0(t) ∩ C0(t) ∩ D0(t) hat, werden die letzten rs Symbole eindeutig bestimmt, d. h. durch:
    Figure 00400003
  • Bemerkung Das vorherige Theorem erklärt ein Kriterium für die Auswahl der Parameter r und s. Um die Kosten des Chips für einen gegebenen log4 m (annahmsweise eine ganze Zahl) zu reduzieren, wählt man einen kleinen Wert von γ > 1, in etwa γ = 2. Um die Wahrscheinlichkeit des Versagens zu reduzieren, wählt man einen so großen Wert von β wie mit seiner definierenden Einschränkung (o(log m)) kompatibel ist, so dass r = log4 m/2 + β und s = log4 m/2 + β darstellt.
  • Das beschriebene und vorstehend analysierte Verfahren, das (r + 1) „Fooling"-Sonden beinhaltet, die in regelmäßigen Intervallen von s Positionen verdrängt werden, werden kurz als „Forward "-Sequenzierung mit Shift s bezeichnet. Nun beobachtet man, dass das gleiche wie bei der „Forward"-Sequenzierung verwendete GS(s, r)-Spektrum auch für die reverse Sequenzierung verwendet werden kann. Die reverse Sequenzierung unter Verwendung eines Standardmusters Xs(Us–1X)r mit Shift 1 ist in der Tat trivial äquivalent zur „Forward"-Sequenzierung unter Verwendung des reversen Musters (XUs–1)rXs mit Shift 1. Es kann ohne weiteres gezeigt werden, dass letzteres äquivalent zur „Forward"-Sequenzierung unter Verwendung des Standardmusters Xr+1(UrX)s–1 mit Shift (r + 1), auf das Theorem 3 in vollem Umfang zutrifft, mit der einfachen Modifikation der auswechselbaren Parameter r und s – 1 ist. Schlussfolgerung:
  • Theorem 4 Für Konstante γ > 1 und β = o(log m) dergestalt, dass r und s positive ganze Zahlen darstellen, sei: s = 1 + 1/γ log4 m r = log4 m + 1 + γ – s.
  • Der Algorithmus ist nicht fähig, ein zufälliges String der Länge m unter Verwendung des GP(s,r)-Spektrums des Strings mit einer Wahrscheinlichkeit von höchstens t 4–γ(1+β) in umgekehrter Richtung zu sequenzieren.
  • Das vorstehend angegebene Sequenzierungsverfahren benötigt ein „Seed" der Länge s(r + 1) = O((log m)2) Symbole zum „Bootstrapping" des Verfahrens. Es werden zur Entfernung dieser Anforderung drei Lösungen angeboten, zwei biochemische und eine algorithmische. Die beiden biochemischen Verfahren sind zweckmäßiger.
  • Wenn das SBH-Verfahren zum Sequenzieren eines Strings der Länge m verwendet wird, stellt die einfachste Lösung die Synthese eines kurzen „Primers" (eines Strings der Länge O((log m)2)) und seine Anlagerung an den Anfang des Strings, wobei folglich das erforderliche Präfix des Target-Strings bereitgestellt wird, dar.
  • In den meisten Applikationen muss man jedoch ein String sequenzieren, das wesentlich länger ist als von den SBH-Chips, und selbst unter Verwendung des neuen Schemas, gehandhabt werden kann. Die übliche Lösung besteht darin, die Target-Sequenz mittels Restriktionsenzymen zur Herstellung einer Kollektion überlappender Substrings von Größen, die mittels des SBH-Verfahrens gehandhabt werden können, zu fragmentieren. Sobald jede der Substrings sequenziert ist, wird das gesamte String anhand von Standardverfahren [W95] rekonstruiert. Da die Substrings überlappen, ist es nicht notwendig, den Anfang und das Ende von jedem Substring zu sequenzieren.
  • Dennoch muss man den Algorithmus mit einer „Seed"-Sequenz der Länge O((log m)2) für jedes Substring der Länge m bereitstellen Dies könnte durch die folgenden drei Schritte erreicht werden: (1) Isolierung eines kurzen, O((log m)2), Stückes der Target-Sequenz und sein Sequenzieren unter Verwendung von O(log m)4 solider (keine Gaps) Sonden der Länge 2loglogm (Standardverfahren). (2) Verwendung von GP(s,r)-Sonden für die „Forward"-Sequenzierung des Anteils des Targets aus dem isolierten Stück, bis (fast) zum Ende der Sequenz. (3) Verwendung des gleichen Sets von GP(s,r)-Sonden für die reverse Sequenzierung des Anteils aus dem isolierten Stück zum Anfang der Sequenz.
  • Ein dritter Ansatz der Konstruktion eines „Seeds" wählt nach dem Zufallsprinzip eine Sonde π aus dem Spektrum aus. Eine derartige Sonde stellt kein String spezifizierter Symbole dar (sie weist alle die Gaps auf, die den „don't care's" des Sonden-Musters entsprechen), sodass sie „gefüllt" werden müssen, d. h. alle nicht spezifizierten Positionen müssen konsistent mit dem Spektrum gefüllt werden. Dies wird unter Verwendung des initialen s-Symbols des soliden Segments von π als Anhaltspunkt, nämlich das Akzeptieren von jedweder Sonde, deren (s – 1)-Präfix mit dem homologen Suffix des initialen Segments des „Seeds" usw. zusammenfällt, s – 1 Male, bis ein Set R(π) von Strings der Länge s(r + 1) + s – 1 = s(r + 2) – 1 als ein möglicher Kandidat erhalten wurde. Insbesondere, wenn m sehr groß und s sehr klein ist, kann die Größe R(π) vermutlich recht groß sein.
  • Sobald das Set R(π) erhalten wurde, beginne das „Forward"-Verlängerungsverfahren. Im allgemeinen Fall, wenn |R|(π) >1, wird jedes seiner Glieder nacheinander verlängert, und zwar ein Symbol nach dem anderen durch das früher beschriebene Verfahren. Im Prinzip stellt nur eine kleine Anzahl (möglicherweise nur eines) der Glieder von R(π) tatsächliche Substrings der Target-Sequenz (sind legitim) dar und alle anderen stellen störende „Pfade" dar. Die erwartete Länge der störenden Pfade ist sehr klein, sodass das Verlängerungsverfahren sie rasch eliminiert und sich auf die legitimen Glieder von R(π) (die nicht zu den störenden Pfaden gehören) konzentriert. Dieser Ansatz kann wiederum sowohl eine „Forward"- als auch reverse Rekonstruktion beinhalten.
  • In Abwesenheit ambiger Verlängerungen ist das grundlegende Schema bei der Rekonstruktion der Target-Sequenz ausreichend. Es wurde jedoch beobachtet, dass eine ambige Verlängerung einen störenden Pfad herbeiführt, für den das Spektrum sehr unwahrscheinlich die konfirmatorische Evidenz enthält. Dieser Fall wird durch einen viel fortschrittlicheren Algorithmus angesprochen, der aufhört, wenn man einer ambigen Verlängerung begegnet, sondern anstelle dessen sowohl den (unbekannten) legitimen Pfad als auch den/die störenden Pfad(e) verlängert, bis entweder alle außer dem legitimen Pfad nicht verlängert werden können, oder zwei sich verzweigende Pfade mit distinkter Herkunft beide bis zu einer Schwellenlänge h verlängert wurden Ein solche Taktik basiert auf der Erwartung, dass ein störender Pfad rasch terminiert, da gefunden wird, dass er nicht verlängerbar ist. Es wird offensichtlich erwartet, dass diese Taktik größere Target-Sequenzen korrekt abarbeitet. Es kann in der Tat gezeigt werden, dass durch Wahl eines entsprechenden Wertes h (und Tolerieren des sich ergebenden rechnerischen Overheads) der Länge der Target-Sequenz, die zuverlässig rekonstruiert werden kann, so dicht an der informationstheoretischen oberen Grenze (4k–1) wie gewünscht vorgenommen werden kann.
  • Sclussendlich, zur Substanzierung der früheren Behauptung, dass der Ansatz die Schwierigkeiten mit dem Euler-Pfad trivialisiert: die Wahrscheinlichkeit eines rekurrenten Zustands ist für die gewählte Länge m der Target-Sequenz vernachlässigbar klein, sodass der Euler-Pfad mit einer sehr hohen Wahrscheinlichkeit zu einem einfachen Pfad (wobei die Zustände die ((r + 1)s – 1)-Gramme der Sequenz darstellen, wo angemessen durch die Shift-Register-Beziehung verknüpft) degeneriert. Es kann gezeigt werden, dass die erwartete Anzahl von Paaren rekurrenter Zustände für praktische Werte des Parameters k, weniger als 1 beträgt.
  • Der Vergleich der Wahrscheinlichkeiten, dass eine ambige Verlängerung entweder auf (r + 1) „Fooling"-Sonden, die der Sequenz entlang verstreut sind oder auf ein einzelnes Substring von minimaler Länge, das sie alle enthält, zurückzuführen ist, da ihre relativen Werte den Eckstein des Ansatzes bilden, ist auch signifikant. Diese beiden Wahrscheinlichkeiten stellen
    Figure 00420001
    dar.
  • Der erste dieser Ausdrücke wurde zuvor berechnet (die Analyse von Set τ0 im Beweis von Theorem 3 einsehen), während der zweite auf der Tatsache beruht, dass die beiden Konfigurationen in ihren ersten (r + 1) s – 1 Symbolen übereinstimmen und sich in ihrem letzten unterscheiden. Diese beiden Wahrscheinlichkeiten sind für r = 0 (da in diesem Falls = k darstellt), d. h. für „ungapped" Sonden identisch. Dies erläutert auf die deutlichste Weise die einzigartige Rolle von Gaps (universelle Basen) beim Erreichen des vollen Potenzials der Sequenzierung durch Hybridisierung. Die vorstehend beschriebenen Pfade werden durch Prinzipien im Stand der Technik, einschließlich [A+96] beschrieben, R. Arratia, D. Martin, G. Reinert und M.S. Waterman, Poisson process approximation for sequence repeats, and sequencing by hybridization, Journal of Computational Biology (1996) 3, 425–463; [BS91] W. Bains und G.C. Smith, A novel method for DNA sequence determination. Jour. of Theoretical Biology (1988), 135, 303–307; [DFS94] M.E. Dyer, A.M. Frieze und S. Suen, The probability of unique solutions of sequencing by hybridization. Journal of Computational Biology, 1 (1994) 105–110; [D+89] R. Drmanac, I. Labat, I. Bruckner und R. Crkvenjakov, Sequencing of megabase plus DNA by hybridization. Genomics, (1989), 4, 114–128; [HPU99] B. Hudson, P.P. Preparata und E. Upfal, An experimental study of SBH with gapped probes. Technischer Bericht, Dept. of Comp. Sci., Brown University (in Vorbereitung), 1999; [LB94] D. Loakes und D.M. Brown, 5-Nitroindole as a universal base analogue. Nucleic Acids Research, (1994) 22, 20, 4039–4043; [L+88] Yu.P. Lysov, V.I, Florentiev, A.A. Khorlin, K.R. Khrapko, V.V. Shih, und A.D. Mirzabekov, Sequencing by hybridization via oligonucleotides. A novel method. Dokl Accad, Sci. USSR, (1988) 303, 1508–1511; [P89] P.A.Pevzner, 1-tuple DNA sequencing: computer analysis. Journ. Biomolecul. Struct. & Dynamics (1989) 7, 1, 63–73; [P+91] P.A. Pevzner, Yu.P. Lysov, K.R. Khrapko, A.V. Belyavsky, V.L Florentieve und A.D. Mirzabekov, Improved chips for sequencing by hybridization. Journ. Biomolecul. Struct. & Dynamics (1991) 9, 2, 399–410; [PL94] P.A. Pevzner und R.J. Lipshutz, Towards DNA-sequencing by hybridization. 19th Symp. on Mathem. Found of Comp. Sci., (1994), LNCS-841, 143–258; und [W95] M.S. Waterman, Introduction to Computational Biology. Chapman und Hall, 1995.
  • Zur experimentellen Validierung des vorstehenden Ansatzes wurde ein umfassendes Simulationsprogramm durchgeführt. Der aktuelle Plan besteht darin, die Kosteneffektivität (hinsichtlich der Laufzeit vs. der Länge der korrekt rekonstruierten Sequenz) mehrerer Algorithmen von zunehmender Komplexität zu beurteilen. Der erste codierte Algorithmus stellt das vorstehend beschriebene grundlegende Schema dar.
  • Die Simulation wurde wie folgt durchgeführt. Für einen fixen Wert von k (worin k die Anzahl der designierten Nukleotide in den Sonden darstellt, d. h. für einen Chip mit Kosten von 4k) wählt man alle möglichen Werte des Parameters r, d. h. r = 0, 1, ...., k – 2 (zu beachten ist, dass die Designs GP(k, 0) und GP(1, k – 1) übereinstimmen). Für jede solche Auswahl werden zunehmende Werte der Länge m übernommen. Für jeden Wert von m wird ein Zufallszahlgenerator zum Generieren einer ausreichend großen Probe der Target-Sequenzen a(l,m) verwendet. Für jede solche Sequenz produziert ein getrenntes Routineverfahren das Spektrum, das dann die Eingabe an den Rekonstruktionsalgorithmus bildet. Sobald die Rekonstruktion abgeschlossen ist, wird sie mit der ursprünglichen Sequenz verglichen, und es wird eine Statistik vom Versagen zusammengestellt.
  • Die Ergebnisse von einem Probenlauf sind in 1 für k = 9 und verschiedene Werte von r ersichtlich. Jeder geplottete Punkt entspricht einer Probe der Größe 250. Die Kurve am weitesten links entspricht den klassischen „ungapped" Sonden. Zu beachten ist, dass für ein Konfidenzniveau von 95 % der klassische Ansatz m ≈ 100 ergibt, wohingegen das beste Ergebnis dieses grundlegenden Verfahrens (für r = 5) m ≈ 8800 darstellt.
  • BEISPIEL 3
  • Ein Sequencing-by-Hybridization (SBH) Chip besteht aus einer fixen Anzahl von Merkmalen. Jedes Merkmal kann eine Sonde enthalten. Eine Sonde ist ein String aus Symbolen (Nukleotiden) aus dem Alphabet A = {A, C, G, T, U}, worin A, C, G und T die Standard-DNA-Basen kennzeichnen und U das „don't care" Symbol kennzeichnet, das unter Verwendung einer universellen Base [LB94] implementiert wird.
  • Wenn der SBH-Chip mit einer Lösung aus dem Target-DNA-String in Kontakt gebracht wird, bindet eine Sonde an das Target-String, wenn und nur wenn ein Substring des Targets vorhanden ist, das nach Watson-Crick komplementär zu der Sonde ist (worin üblicherweise jedwede der vier Basen A, C, G, T nach Watson-Crick komplementär zu einer universellen Base ist. Mit dieser Konvention wird eine Sonde eher als ein String als eine Subsequenz angesehen). Die biochemische Markierung lässt die Identifikation des Sondensets zu (was als das Spektrum des Strings bezeichnet wird), das an das Target-String bindet.
  • Ein Sequenzierungsalgorithmus stellt einen Algorithmus dar, der für ein gegebenes Set von Sonden und ein Spektrum entscheidet, ob das Spektrum eine einzigartige DNA-Sequenz definiert, und wenn dies zutrifft, diese Sequenz rekonstruiert.
  • Da die Anzahl der Merkmale auf einem SBH-Chip durch die Technologie limitiert ist, ist im Design eines kleinsten Sondensets das zum Sequenzieren angemessen ist, ein arbiträrer String einer gegebenen Länge von Interesse.
  • Die folgende einfache Beobachtung ergibt eine informationstheoretische untere Grenze für die Größe eines solchen Sets:
    Theorem 1 Ω(m) stellt die zur eindeutigen Rekonstruktion eines arbiträren Strings der Länge m erforderliche Anzahl von Sonden dar.
  • Beweis: Bei dem auf t Sonden basierenden Spektrum handelt es sich um einen binären Vektor mit t Komponenten. Es gibt 2t solcher Vektoren und jeder kann nicht mehr als eine mögliche Sequenz definieren. Folglich ist 4m ≤ 2t, oder t ≥ 2m.
  • Dieses Theorem impliziert auch, dass man in dem wichtigen Fall t = 4k, m ≤ 4k–1/2 hat. In der Vergangenheit durchgeführte Forschung [P+91, DFS94, A+96] analysierte die Leistung von SBH-Chips im Kontext von zufälligen Strings der Länge m, die nach dem Zufallsprinzip gleichmäßig aus dem Set Am entnommen wurden Eine ähnliche untere Grenze ist in diesem Modell gültig:
    Theorem 2 Für jedwede fixe Wahrscheinlichkeit P > 0 stellt Ω(m) die Anzahl von Sonden, die für eine eindeutige Rekonstruktion mit der Wahrscheinlichkeit P eines zufälligen Strings der Länge m erforderlich sind, dar.
  • Beweis: Da der Algorithmus eindeutig P4m Sequenzen rekonstruieren muss, muss die Anzahl der Sonden t P4m ≤ 2t oder t = Ω(m) zufriedenstellen.
  • Das hierin beschriebene spezielle Muster von Sonden wird als (s, r)-„gapped" Sonden bezeichnet und kennzeichnet GP(s, r).
  • Definition 1 Für fixe Parameter s und r besteht das Set GP(s, r) der (s,r)-„gapped" Sonden aus allen Sonden der Form Xs(Us–1X)r, worin X über den 4 Standard-DNA-Basen (A, C, G und T) liegt und U die universelle Base darstellt.
  • Da es s + r Stellen mit einem X Symbol in jeder Sonde in GP(r, s) gibt, besteht das Sondenset GP(s, r) aus genau 4r+s individuellen Sonden.
  • Notationell sei a(l,m) = al, ...., am das Target-String, und für jedwedes 1 ≤ i ≤ j ≤ m sei a(i,j)= al, ...., aj. Gegeben a(i,j) und = i < h ≤ j, stellen a(i,h) bzw. a(h,i) das (h – i + 1)-Präfix und das (j – h + 1)-Suffix von a(i,j) dar. Danach setzt man voraus, dass das Sondenset GP(s, r) zum Erhalt eines Spektrums des Strings a(l,m) verwendet wurde.
  • Ein Verfahren zum Sequenzieren des Strings a unter Verwendung der Spektrum-Information, die von den (s, r)-„gapped" Sonden erhalten wurde, kann voraussetzen, dass das s(r + 1)-Präfix des Target-Strings gegeben ist.
  • Das Verfahren produziert eine putative Sequenz b, welche die Rekonstruktion der Sequenz a darstellt Sie beginnt mit dem Präfix b(1,s(r+1) = a(1,s(r+i)). Bei jeder Iteration versucht das Verfahren, eine aktuelle putative Sequenz b(1,l–1) = b1, ..., bl–1, l–1 ≥ s(r + 1) mit einem neuen Symbol bl zu verlängern.
  • Um den vollen Nutzen aus den GP(s, r)-Sonden zu ziehen, sollte man jede Sonde in bis zu r verschiedenen möglichen Alignments mit der aktuellen Sequenz verwenden.
  • Die Verlängerung wird wie folgt in Angriff genommen. Man finde das Set M0 von allen Sonden im Spektrum dergestalt, dass das (s(r + 1) – 1)-Präfix von jeder der Sonden mit dem (s(r + 1) – 1)-Suffix b(l–s(r+i)+1,l–1) der putativen Sequenz mit der angegebenen Konvention zu „don't care"-Symbolen übereinstimmt. Wenn M0 leer ist, dann existiert keine Verlängerung und der Algorithmus terminiert. Sonst, wenn |M0| = 1 darstellt, wird eine einzelne Verlängerung definert und das entsprechende Symbol wird an die putative Sequenz angefügt. Der Fall |M0| > 1 ist problematisch, da er eine ambige Verlängerung vorschlägt. Hier ist die Leistungsfähigkeit der GP(s, r)-Sonden zu verwenden, da eine ambige Verlängerung nur nachgewiesen wird, wenn sie wie nachstehend besprochen durch r + 1 Spektrum-Sonden bestätigt wird. Wenn diese Sonden die ambige Verlängerung bestätigen, treten sie entweder der Target-Sequenz entlang verstreut auf (und werden kurz als „Fooling-Sonden" bezeichnet) oder sie stammen von einem einzelnen Substring (von angemessener Länge) her. Es hat den Anschein, dass (r + 1) konfirmatorische „Fooling"-Sonden sehr unwahrscheinlich sind, und dass es sogar noch unwahrscheinlicher ist, dass sie aus einem einzelnen Substring entstehen.
  • Wenn M0 keine Einermenge darstellt, sei B0 das Set der möglichen Verlängerungen. Die Verifikation wird wie folgt ausgeführt. Konstruktion des Sets M1 von allen Sonden im Spektrum dergestalt, dass ihr gemeinsames (sr – 1)-Präfix mit b(1–sr+1,l–1) übereinstimmt, und ihr (s + 1)-Suffix mit den Sonden in M0 übereinstimmt. Es sei B1 das Set von Symbolen, die in der sr-ten Position der Sonden in M0 auftreten. Wenn B0∩B1 eine Einermenge darstellt, dann hat man eine einzigartige Verlängerung an das String. Sonst mittels Konstruktion das Set M2 der Spektrum-Sonden fortsetzen, deren (s(r – 1) – 1)-Präfix mit b(1–sr+1,l–1) übereinstimmt und (2s + 1)-Suffix mit den Sonden in M1 übereinstimmt. Aus M2 konstruiert man das entsprechende Set B2 der Verlängerungen. Wiederum, wenn B0∩B1∩B2 eine Einermenge darstellt, sind die Verfahren abgeschlossen, sonst fährt man mittels Erwägung der kürzeren Präfixe von Längen s(r – 2), s(r – 3), s(r – 4), ..., s der Spektrum-Sonden fort. Wenn für einige i ≤ r |∩ i / j=1 Bj| = 1 darstellt, dann erhält man eine eindeutige Verlängerung. Sonst im grundlegenden Schema anhalten und die aktuelle Sequenz berichten. Andere Algorithmen können alle Zweige einer ambigen Verlängerung explorieren in der Erwartung, dass nach einer kleinen Anzahl von Verlängerungen nur eine Verzweigung vom Spektrum unterstützt wird.
  • Der Erfolg des vorstehenden Algorithmus stammt von der Tatsache her, dass bis zu r Sonden die entlang der aktuellen Sequenz, angemessen aligned sind, zur Bestätigung der Einzigartigkeit einer Einsymbol-Verlängerung verwendet werden. Man könnte versuchen, die „Leistungsfähigkeit" von jedwedem Sondenset unter Verwendung verschiedener Alignments mit dem aktuellen String zu erweitern. Der Vorteil des Sets GP(s, r) besteht darin, dass die Wahrscheinlichkeit einer ambigen Verlängerung in jedem der Alignments in Bezug auf eine zufällig generierte Sequenz fast unabhängig von den anderen Mustern ist. Diese Eigenschaft steht im Mittelpunkt der nachstehend vorgelegten Analyse.
  • Eine Analyse von der Leistung des im vorausgehenden Abschnitt beschriebenen Algorithmus, wenn er auf ein Spektrum angewendet wird, das unter Verwendung von GP(s, r)-Sonden erhalten wird, wird nachstehend vorgelegt. Die Leistung dieses Schemas nähert sich der informationstheoretischen unteren Grenze von Theorem 2. Zur Vereinfachung der Präsentation setzt man wieder voraus, dass zusammen mit dem Spektrum der Algorithmus mit dem s(r + 1)-Präfix der Target-Sequenz bereitgestellt wird. Diese Voraussetzung kann ohne Veränderung der Leistung des Sequenzierungsschemas entfernt werden.
  • Theorem 3 Für Konstanten γ > 1 und β = o(log m) dergestalt, dass r und s ganze Zahlen sind, sei: r = 1/γlog4m + β s = log4m + 1 + γ + r.
  • Es sei E das Ereignis: Der Algorithmus ist nicht fähig, ein zufälliges String der Länge m unter Verwendung eines GP(s, r)-Spektrums des Strings zu sequenzieren. Dann: Pr(ε) ≤ 4–γ(1+β)
  • Beweis:
  • Es seit = {t, t0 tj, ...., tr}, das einen Vektor von r + 2 Positionen im Target-String kennzeichnet, und es sei A(t), das das Ereignis kennzeichnet: es gibt Substrings in der Target-Sequenz a(l,m), die die folgenden Beziehungen zufriedenstellen:
    Figure 00460001
  • Man konzentriert sich zuerst auf den Erfolg des Algorithmus beim Sequenzieren aller außer den letzten rs Symbolen der Target-Sequenz.
  • Anspruch 1 Der Algorithmus ist nicht zur Sequenzierung des m – sr-Präfix des Target-Strings fähig, wenn und nur wenn ∃t dergestalt ist dass A(t) auftritt.
  • Beweis: Man setzt voraus, dass der Algorithmus versucht, die aktuelle Sequenz b(1,l–1) mit dem nächsten Symbol bl zu verlängern Es sei t = l – s(r + 1). Wenn |B0| > 1 keine Einermenge darstellt, dann ist eine Sonde im Spektrum vorhanden, die außer ihrem sich am weitesten rechts befindenden Symbol b ≠ al mit a(t+1,l–1) übereinstimmt. Wenn das Substring des Target-Strings, das mit dieser Sonde bindet gekennzeichnet ist durch
    Figure 00460002
    dann sind Bedingungen B0, Co und D0 gültig.
  • Wenn ∩ r / j=0, ist Bj keine Einermenge, dann enthält es sowohl al und b. Folglich gibt es für jedes j eine Sonde im Spektrum und ein entsprechendes Substring
    Figure 00470001
    in der Target-Sequenz dergestalt, dass der s-Präfix dieses Substrings mit a(t+js+1,t+(j+1)s) übereinstmmt und die Stellen tj + is des Substrings für 2 ≤ i ≤ r mit den entsprechenden Stellen (mit einem Shift von s Positionen) des Substrings
    Figure 00470002
    wie in Bedingungen Bj und Cj formuliert, übereinstimmen.
  • Es sei τ, das das Set aller möglichen Vektoren t kennzeichnet, d. h.:
    Figure 00470003
  • Für einen gegebenen Vektor t ∊, sei C(t), das das Set von Komponenten von t kennzeichnet, die sich innerhalb einer Distanz von 3rs von jedweder anderen Komponente von t (in der folgenden Definition ist t ≡ t–1) befinden: C(t) = {j : ∃j' ⇒ j mit |tj'–tj| < 3rs}.
  • Es sei τi, das das Set von Vektoren mit |C(t)| = i kennzeichnet, d. h.: Ti = {t ∊ T: |C(t)| = i}.
  • Als Nächstes beschränkt man die Wahrscheinlichkeit eines gegebenen Ereignisses A(t). Wenn t ∊ τo darstellt, dann sind die r + 1 Sonden in der Definition von A(t) mit disjunkten Regionen des Strings a(l,m) assoziiert, und folglich sind die r + 1 Ereignisse unabhängig. Wenn t ∊ τ darstellt, dann sind alle die B-Ereignisse noch unabhängig, und alle, außer höchstens i der C-Ereignisse sind unabhängig (ein B-Ereignis beinhaltet s + r – 1 Symbole (s + r für B0), ein C-Ereignis r – 1). Folglich ist bewiesen:
    Figure 00470004
  • Wenn t ∊ τi darstellt, dann sind mindestens i der Komponenten von t beschränkt auf die 3rs-1-Nachbarschaft von anderen r + 2 Komponenten. Folglich
    Figure 00470005
  • Beschränke nun die Wahrscheinlichkeit eines Ereignisses (A(t)) für t ∊ τi, i ≥ 1:
    Figure 00480001
  • (Diese Grenze macht Gebrauch von der Bedingung β = o(log m), um 4rr3s << m zu erhalten.)
  • Es sei I(t) eine binäre Variable dergestalt, dass I(t) = 1, wenn und nur wenn Ereignis A(t) auftritt; und es sei Z = Σt∊τ0I(t). Dann Pr(∃t ∊ T0 :A(t)) ≤ E[Z].
  • Unter Verwendung von (1) erhält man
    Figure 00480002
  • Folglich ist die Wahrscheinlichkeit, dass der Algorithmus nicht fähig ist, alle außer den letzten rs Symbolen der Sequenz zu sequenzieren, begrenzt von Oben durch
    Figure 00480003
  • Wenn er letztendlich für alle m – rs < t < m nicht das Ereignis B0(t) ∩ C0(t) ∩ D0(t) aufweist, werden die letzten rs Symbole eindeutig bestimmt. Aber
    Figure 00480004
  • Das vorstehend beschriebene und analysierte Verfahren, wobei (r + 1) „Fooling"-Sonden in regelmäßigen Intervallen von s Positionen verdrängt sind, wird kurz als „Forward"-Sequenzierung bezeichnet. Das GS(s, r)-Spektrum, das beim „Forward"-Sequenzieren verwendet wird, kann auch zum reversen Sequenzieren verwendet werden.
  • Sei a ein String über dem Alphabet {X, U}. Durch FSu(α) kennzeichnet man das Sequenzrekonstruktionsverfahren basierend auf Sonden vom Typ α, dessen konfirmatorische Sonden in regelmäßigen Intervallen von u Positionen vorwärts gedrängt werden. Als RSu(α) kennzeichnet man den analogen Begriff zum reversen Sequenzieren. Zwei Sequenzierungsverfahren sind äquivalent (≡), wenn ihre entsprechenden Ereignisse des Typs A(t), definiert im Beweis von Theorem 3, durch die gleichen Parameter gekennzeichnet sind und mit den gleichen Wahrscheinlichkeiten auftreten. Beginnend vom Standardmuster X1 (Us–1 X)r wird etabliert:
    • 1.RS1(Xs(Us–1X)r) ≡ FS1(XUs–1)rXs)
    • 2.FS1((XUs–1)rXs) ≡ FSr+1(Xr+1(UrX)s–1)
  • Statement 1 ist unmittelbar, da es einfach dem Austausch von rechts nach links Shifts mit links nach rechts Shifts entspricht. Statement 2 wird wie folgt etabliert. Darstellung eines Sondiermusters durch ein 0 – 1 Polynom in der Unbestimmten x, worin ein Begriff xj einem X-Symbol in der (j + 1)-ten Position (von links) entspricht. [Folglich entspricht (XUs–1)rXs dem Polynom
    Figure 00490001
    Nun wird das Muster einer „Shuffle"-Umordnung, gekennzeichnet σ oder durch seinen Positionen gegeben: σ(i) = i(r + 1) mod((r + 1)s – 1), σ((r + 1)s – 1) = (r + 1)s – 1),und Transformation von p(x) (mod x(r+1)s–1) zu
    Figure 00490002
  • Das entsprechende Sonden-Muster Xr+1(UrX)s–1 erscheint in Statement 2. Außerdem entspricht ein 1-Position-Rechtsshift des Musters (XUs–1)rXs einem (r + 1)-Position-Rechtsshift des Musters Xr(UrX)s–1. Da nur eine Umordnung von Positionen ausgeführt wurde, sind die beiden Verfahren äquivalent.
  • Es kann beobachtet werden, dass Xr+1(UrX)s–1 ein Standard-Sondiermuster darstellt, das in einem „Forward"-Sequenzverfahren verwendet wird. Folglich trifft Theorem 3 voll zu falls die einfache Modifikation des Austauschens der Parameter r und s – 1 erfullt ist, und es wird präsentiert, dass:
    Theorem 4 Für Konstante γ > 1 und β = o(log m) dergestalt, dass r und s positive ganze Zahlen darstellen, sei: s = 1 + 1/γlog4m + β r = log4m + 1 + γ – s.
  • Der Algorithmus ist mit einer Wahrscheinlichkeit von höchstens 4–γ(1+β) nicht fähig, ein zufälliger String der Länge m unter Verwendung des GP(s, r)-Spektrums des Strings, revers zu sequenzierein.
  • 5 Entfernung der Präfix-Anforderungen
  • Das vorstehend ausgeführte Sequenzierungsverfahren benötigt ein „Seed" der Länge s(r + 1) = O((log m)2) Symbole zum „Bootstrapping" des Verfahrens. Drei Lösungen schließen zwei biochemische und eine algorithmische zur Entfernung dieser Anforderung ein. Die beiden biochemischen Verfahren sind praktischer.
  • Wenn das SBH-Verfahren zum Sequenzieren eines Strings der Länge m verwendet wird, besteht die einfachste Lösung darin, einen kurzen „Primer" (ein String der Länge O((log m)2)) zu synthetisieren und es an den Beginn des Strings zu binden, wobei folglich das erforderliche Präfix des Target-Strings bereitgestellt wird.
  • Bei den meisten Applikationen muss man jedoch ein String Sequenzieren, das wesentlich länger ist, als von SBH-Chips, selbst unter diesem neuen Schema, gehandhabt werden kann. Die Standardlösung besteht darin, die Target-Sequenz mittels Restriktionsenzymen zur Herstellung einer Kollektion von überlappenden Substrings von Größen, die anhand des SBH-Verfahrens gehandhabt werden können, zu fragmentieren. Sobald jedes der Substrings sequenziert ist, rekonstruieren Standardverfahren [W95] das gesamte String. Da die Substrings überlappen, ist es nicht notwendig, den Anfang und das Ende von jedem Substring zu sequenzieren. Der Algorithmus mit einer „Seed"-Sequenz der Länge O((log m)2) für jedes Substring der Länge m muss jedoch bereitgestellt werden. Dies könnte gegebenenfalls durch die folgenden drei Schritte erreicht werden: (1) Isolieren eines kurzen, O((log m)2), Stückes der Target-Sequenz und ihr Sequenzieren unter Verwendung von O(4 log log m) soliden Sonden (keine Gaps) (übliches Verfahren). (2) Verwendung von GP(s, r)-Sonden für die „Forward"-Sequenzierung des Anteils des Targets aus dem isolierten Stück bis (fast) zum Ende der Sequenz. (3) Verwendung des gleichen Sets von GP(s, r)-Sonden für die reverse Sequenzierung des Anteils aus dem isolierten Stück bis zum Anfang der Sequenz.
  • Letztendlich kann ein rein kombinatorischer/algorithmischer Ansatz zur Entfernung der Präfix-Anforderung eingesetzt werden. Eine Sonde wird nach dem Zufallsprinzip oder im Wesentlichen nach dem Zusfallsprinzip aus dem Spektrum ausgewählt und ihre nicht spezifizierten Positionen (entsprechend den „don't care"-Gaps) werden konsistent mit dem Spektrum „gefüllt". Dieses Ergibt sich in einer Anzahl von Strings von Längen s(r + 1) + s – 1 = s(r + 2) – 1, von dem ein Subset den eigentlichen Substrings der Target-Sequenz entspricht. Es wird erwartet, dass nur diese legitimen Substrings durch „Forward"-Sequenzierung verlängerbar sind. Die reverse Sequenzierung der Ausdrücke, die erfolgreich in der Vorwärtsrichtung verlängert wurden, werden das Verfahren zum Abschluss bringen. Diese Verfahren folgen aus den Prinzipien im Stand der Technik, einschließlich der in [A+96] beschriebenen, R. Arratia, D. Martin, G. Reinert und M.S. Waterman, Poisson process approximation for sequence repeats, and sequencing by hybridization, Journal of Computational Biology (1996) 3, 425–463; [BS91] W. Bains und G.C. Smith, A novel method for DNA sequence determination. Jour. of Theoretical Biology (1988), 135, 303–307; [DFS94] M.E. Dyer, A.M. Frieze, und S. Suen, The probability of unique solutions of sequencing by hybridization. Journal of Computational Biology, 1 (1994) 105–110; [D+89] R. Drmanac, I. Labat, I. Bruckner und R. Crkvenjakov, Sequencing of megabase plus DNA by hybridization. Genomics, (1989), 4, 114–128; [LB94] D. Loakes und D.M. Brown, 5-Nitroindole as a universal Base analogue. Nucleic Acids Research, (1994), 22, 20, 4039–4043; [L+88] Yu.P. Lysov, V.L. Florentiev, A.A. Khorlin, K.R. Khrapko, V.V. Shih und A.D. Mirzabekov, Sequencing by hybridization via oligonucleotides. A novel method, Dokl Acad. Sci. USSR, (1988) 303, 1508–1511; [P89] P.A. Pevzner, 1-tuple DNA sequencing: computer analysis. Journ. Biomolecul. Struct. & Dynamics (1989) 7, 1, 63–73; [P+91] P.A. Pevzner, Yu.P. Lysov, K.R. Khrapko, A.V. Belyavsky, V.L. Florentiev und A.D. Mirzabekov, Improved chips for sequencing by hybridization. Journ. Biomolecul. Struct. & Dynamics (1991) 9, 2, 399–410; [PL94] P.A. Pevzner und R.J. Lipshutz, Towards DNA-sequencing by hybridization. 19th Symp. on Mathem. Found of Comp. Sci., (1994), LNCS-841, 143–258; und [W95] M.S. Waterman, Introduction to Computational Biology, Chapman und Hall, 1995.

Claims (10)

  1. Sequenzier-Chip, bestehend aus einem Substrat, und einem Set von darauf abgelagerten Oligonukleotid-Sonden, worin jede Sonde eine Instanz eines Musters von universellen und designierten Nukleotiden oder Nukleotid-Analoga umfasst, das einem Muster einer generischen Sondensequenz dergestalt entspricht, dass das Set eine Vielzahl von Instanzen umfasst, die dem generischen Sondensequenzmuster entsprechen.
  2. Chip nach Anspruch 1, worin das Muster von universellen und designierten Nukleotiden ein iteratives Muster darstellt, das eine prädeterminierte Anzahl universeller Nukleotide mit einer prädeterminierten Anzahl designierter Nukleotide alterniert.
  3. Chip nach Anspruch 1 mit einem universellen Nukleotid, das aus der Gruppe ausgewählt ist, bestehend aus 5-Nitroindol und 3-Nitropyrrol.
  4. Chip nach Anspruch 1, worin jede bestimmte Instanz mit einem bestimmten Ort auf dem Chip assoziiert ist.
  5. Chip nach Anspruch 1, worin jede Sonde weiter eine Sequenz aus mindestens zwei benachbarten designierten Nukleotiden oder Nukleotid-Analoga umfasst, die an ein Ende des Musters gebunden sind.
  6. Verfahren zur Sequenzierung einer Nukleinsäuresequenz, umfassend: i) Bereitstellen eines Sets von Oligonukleotid-Sonden, worin jede Sonde eine Instanz eines Musters von universellen und designierten Nukleotiden oder Nukleotid-Analoga umfasst, das einem Muster einer generischen Sondensequenz dergestalt entspricht, dass das Set eine Vielzahl von Instanzen umfasst, die dem generischen Sondensequenzmuster entsprechen, ii) Bestimmen eines Sondenspektrums, das für die an eine Testsequenz hybridisierenden Sonden im Sondenset repräsentativ ist, und iii) Ordnen des Sondenspektrums zur Bestimmung einer Sequenz von einem Anteil der Testsequenz.
  7. Verfahren zum Ordnen eines Sondenspektrums zur Bestimmung einer Sequenz von einem Anteil einer Testsequenz, umfassend: i) Bereitstellen eines Sondenspektrums, das an eine Testsequenz hybridisiert, worin jede Sonde im Spektrum eine Instanz eines Musters von universellen und designierten Nukleotiden oder Nukleotid-Analoga darstellt, das einem Muster einer generischen Sondensequenz entspricht, welches Muster ein designiertes Nukleotid an einer m-ten Position und einer n-ten Position erfordert, ii) Identifizieren eines ersten Subsets von Sonden aus dem Spektrum, dessen erste m – 1 Nukleotide den letzten m – 1 Nukleotiden einer wachsenden Sequenz entsprechen, iii) Anfügen des Nukleotids an der m-ten Position an die wachsende Sequenz, wenn ein einzelnes Nukleotid an der m-ten Position aller Sonden im ersten Subset auftritt.
  8. Verfahren nach Anspruch 7, weiter umfassend: iv) Designieren einer neuen wachsenden Sequenz für jedes der Nukleotide, die an der m-ten Position der Sonden im ersten Subset auftreten, wenn zwei oder mehr Nukleotide an der m-ten Position der Sonden im ersten Subset auftreten, und v) Wiederholen der Schritte des Identifzierens und Anfügens für jede neue wachsende Sequenz, bis der Schritt des Identifizierens null Sonden identifiziert.
  9. Verfahren nach Anspruch 7, weiter umfassend: iv) Auswählen eines zweiten Subsets von Sonden aus dem Spektrum, dessen erste n – 1 Nukleotide den letzten n – 1 Nukleotiden der wachsenden Sequenz entsprechen, wenn zwei oder mehr Nukleotide an der m-ten Position der Sonden im ersten Subset auftreten, und v) Anfügen eines Nukleotids an die wachsende Sequenz, das an der m-ten Position der Sonden im ersten Subset und an der n-ten Position der Sonden im zweiten Subset einmalig auftritt.
  10. Verfahren nach Anspruch 8, weiter umfassend: vi) Designieren einer neuen wachsenden Sequenz für jedes der Nukleotide, die an der m-ten Position der Sonden im ersten Subset und an der n-ten Position der Sonden im zweiten Subset auftreten, wenn zwei oder mehr Nukleotide an der m-ten Position der Sonden im ersten Subset und an der n-ten Position der Sonden im zweiten Subset auftreten, und vii) Wiederholen der Schritte ii) bis v) für jede neue wachsende Sequenz, bis der Schritt des Identifizierens null Sonden identifiziert.
DE69929365T 1998-10-13 1999-10-13 Systeme und verfahren zum sequenzieren durch hybridation Expired - Fee Related DE69929365T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10399898P 1998-10-13 1998-10-13
US103998P 1998-10-13
US12570499P 1999-03-23 1999-03-23
US125704P 1999-03-23
PCT/US1999/023944 WO2000022171A2 (en) 1998-10-13 1999-10-13 Systems and methods for sequencing by hybridization

Publications (2)

Publication Number Publication Date
DE69929365D1 DE69929365D1 (de) 2006-03-30
DE69929365T2 true DE69929365T2 (de) 2006-09-21

Family

ID=26801084

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69929365T Expired - Fee Related DE69929365T2 (de) 1998-10-13 1999-10-13 Systeme und verfahren zum sequenzieren durch hybridation

Country Status (5)

Country Link
EP (1) EP1121472B1 (de)
AT (1) ATE315106T1 (de)
AU (1) AU1204600A (de)
DE (1) DE69929365T2 (de)
WO (1) WO2000022171A2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7071324B2 (en) 1998-10-13 2006-07-04 Brown University Research Foundation Systems and methods for sequencing by hybridization
US6949340B2 (en) 2001-03-28 2005-09-27 Creative Mines Llc Optical phase modulator
US7138506B2 (en) 2001-05-09 2006-11-21 Genetic Id, Na, Inc. Universal microarray system
JP2005508196A (ja) 2001-11-07 2005-03-31 アプレラ コーポレイション 核酸分析の汎用ヌクレオチド
EP2201136B1 (de) 2007-10-01 2017-12-06 Nabsys 2.0 LLC Sequenzierung mittels nanoporen und hybridisierung von sonden zur bildung ternärer komplexe und ausrichtung mit variablem bereich
US8262879B2 (en) 2008-09-03 2012-09-11 Nabsys, Inc. Devices and methods for determining the length of biopolymers and distances between probes bound thereto
CN102186989B (zh) 2008-09-03 2021-06-29 纳伯塞斯2.0有限责任公司 用于流体通道中生物分子和其它分析物的电压感测的纵向移位纳米级电极的使用
US9650668B2 (en) 2008-09-03 2017-05-16 Nabsys 2.0 Llc Use of longitudinally displaced nanoscale electrodes for voltage sensing of biomolecules and other analytes in fluidic channels
US8715933B2 (en) 2010-09-27 2014-05-06 Nabsys, Inc. Assay methods using nicking endonucleases
JP5998148B2 (ja) 2010-11-16 2016-09-28 ナブシス 2.0 エルエルシー ハイブリダイズされたプローブの相対位置を検出することによる生体分子のシークエンシングのための方法
US11274341B2 (en) 2011-02-11 2022-03-15 NABsys, 2.0 LLC Assay methods using DNA binding proteins
US9914966B1 (en) 2012-12-20 2018-03-13 Nabsys 2.0 Llc Apparatus and methods for analysis of biomolecules using high frequency alternating current excitation
US10294516B2 (en) 2013-01-18 2019-05-21 Nabsys 2.0 Llc Enhanced probe binding
WO2021092244A1 (en) * 2019-11-06 2021-05-14 Adaptive Biotechnologies Corporation Synthetic strands for nucleic acid sequencing and related methods and systems
JP2023522696A (ja) * 2020-04-21 2023-05-31 エフ. ホフマン-ラ ロシュ アーゲー 単分子センサアレイを用いたハイスループット核酸配列決定

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6270961B1 (en) * 1987-04-01 2001-08-07 Hyseq, Inc. Methods and apparatus for DNA sequencing and DNA identification

Also Published As

Publication number Publication date
WO2000022171A3 (en) 2000-08-31
DE69929365D1 (de) 2006-03-30
WO2000022171A2 (en) 2000-04-20
ATE315106T1 (de) 2006-02-15
AU1204600A (en) 2000-05-01
EP1121472B1 (de) 2006-01-04
EP1121472A2 (de) 2001-08-08

Similar Documents

Publication Publication Date Title
US6689563B2 (en) System and methods for sequencing by hybridization
US7071324B2 (en) Systems and methods for sequencing by hybridization
DE69929365T2 (de) Systeme und verfahren zum sequenzieren durch hybridation
DE10120797B4 (de) Verfahren zur Analyse von Nukleinsäureketten
DE69433487T2 (de) Methoden und zusammensetzungen zur effizienten nukleinsaeuresequenzierung
DE69433180T2 (de) Felder von nukleinsaeuresonden auf biologischen chips
DE69314951T2 (de) Dns sequenzierungsverfahren
JP5180845B2 (ja) Dnaアレイ上でのハイスループットゲノム配列決定
US9499848B2 (en) Methods for high fidelity production of long nucleic acid molecules
DE69737450T2 (de) Sequenzierung durch ligation kodierter adapter
US7604937B2 (en) Encoding and decoding reactions for determining target polynucleotides
US7070927B2 (en) Methods and compositions for efficient nucleic acid sequencing
DE69918130T2 (de) Verwendung von vereinigten sonden zur genetischen analyse
DE60029961T2 (de) Verankerte strangverdrängungs-amplifizierung auf einem elektronisch adressierbaren mikrochip
US20130005612A1 (en) Methods for High Fidelity Production of Long Nucleic Acid Molecules with Error Control
CN102083998A (zh) 通过展开进行高通量核酸测序
DE69924140T2 (de) Bestimmung der länge von repetitiven nukleinsäure-sequenzen durch eine diskontinuierliche primerverlängerung
DE10239504A1 (de) Verfahren zur Analyse von Nukleinsäurekettensequenzen und der Genexpression
EP1356120A2 (de) Matrizen von polynukleotiden und ihr gebrauch in der genom-analyse
CN107849598B (zh) 簇中的表面引物的增强利用
EP3130682B1 (de) Verfahren zur erzeugung von polymer-arrays
WO2001056691A2 (de) Verfahren und vorrichtung zur synthese und analyse von trägergebundenen arrays von oligomeren, insbesondere von primerpaaren für die pcr, sowie träger mit oligomeren
Ibrahim et al. A DNA Sequence Design for Molecular Computation of Hamiltonian Path Problem with Output Visualization based on Real-Time PCR
Ibrahim et al. A DNA sequence design for molecular computation of HPP with output visualization based on real-time PCR
DE10030588A1 (de) Verfahren und Vorrichtung zur Synthese und Analyse von trägergebundenen Arrays von Oligomeren, insbesondere von Primerpaaren für die PCR, sowie Träger mit Oligomeren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee