DE69520290T2 - Automatisches sequenzierungs verfahren - Google Patents

Automatisches sequenzierungs verfahren

Info

Publication number
DE69520290T2
DE69520290T2 DE69520290T DE69520290T DE69520290T2 DE 69520290 T2 DE69520290 T2 DE 69520290T2 DE 69520290 T DE69520290 T DE 69520290T DE 69520290 T DE69520290 T DE 69520290T DE 69520290 T2 DE69520290 T2 DE 69520290T2
Authority
DE
Germany
Prior art keywords
base
sample
dna
sequence
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69520290T
Other languages
English (en)
Other versions
DE69520290D1 (de
Inventor
John Collinge
David Thornley
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imperial College of Science Technology and Medicine
Original Assignee
Imperial College of Science Technology and Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9426223.5A external-priority patent/GB9426223D0/en
Application filed by Imperial College of Science Technology and Medicine filed Critical Imperial College of Science Technology and Medicine
Publication of DE69520290D1 publication Critical patent/DE69520290D1/de
Application granted granted Critical
Publication of DE69520290T2 publication Critical patent/DE69520290T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T436/00Chemistry: analytical and immunological testing
    • Y10T436/14Heterocyclic carbon compound [i.e., O, S, N, Se, Te, as only ring hetero atom]
    • Y10T436/142222Hetero-O [e.g., ascorbic acid, etc.]
    • Y10T436/143333Saccharide [e.g., DNA, etc.]

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Coloring Foods And Improving Nutritive Qualities (AREA)
  • Noodles (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Saccharide Compounds (AREA)

Description

  • Die vorliegende Erfindung betrifft eine automatische DNA-Sequenzierung.
  • Das gegenwärtig gebräuchlichste DNA-Sequenzierungsverfahren ist auf Sanger u. a. zurückzuführen und wurde das erste Mal in "Sanger, F., Nicklen, S. and Coulson, A. R. (1977): DNA sequencing with chain-terminating inhibitors. Proc. Natl. Acad. Sci. USA 74; 5463-5467" erwähnt. Abwandlungen des Sangerschen Verfahrens haben die Genomanalyse revolutioniert, weil sie eine schnelle und begründet genaue Bestimmung der unbekannten DNA-Sequenzen ermöglicht haben.
  • Bei dem Sanger-Verfahren wird die zu sequenzierende unbekannte DNA (bekannt als "Matrix") in Lösung gebracht, und die DNA wird denaturiert oder durch Erwärmung in ihre separaten Stränge aufgespalten. Der Lösung wird eine kurze, künstlich hergestellte DNA-Sequenz, die als "Primer" bezeichnet wird, hinzugefügt, wobei der Primer einem kleinen Abschnitt der Matrix entspricht, welche bereits bekannt ist. Wenn die Lösung der denaturierten Matrix- und Primer-Moleküle gekühlt wird, haftet der Primer an seiner komplementären Matrix-Sequenz. Der Lösung werden auch geeignete Polymerase-Moleküle zugefügt, welche zusammen mit den Molekülen die Bausteine für die erforderliche Fortsetzungsreaktion bilden. Wenn die Fortsetzungsreaktion voranschreitet, wird der gebundene Primer über die Länge der Matrix erweitert und baut allmählich, Base um Base, eine längliche Sequenz auf, welche das Komplement zur Matrix darstellt.
  • Vier Arten von Baustein-Molekülen werden bei der Reaktion verwendet, wobei jede einer der Basen A, C, G und T entspricht. Speziell sind die Bausteine Desoxynucleotide, welche als dATP, dCTP, dGTP und dTTP bekannt sind. Jeder von diesen wird als dNTP bezeichnet. Wenn die Vervielfältigungsreaktion sich selbst überlassen wird, setzt sie sich fort, bis entweder die erforderlichen dNTPs verbraucht sind oder irgend ein äußeres Ereignis eintritt, welches die Reaktion zum Erliegen bringt. Bei der Sanger-Verfahren wird ein bestimmter Anteil der Bausteine durch die Bidesoxynucleotide, nämlich ddATP, ddCTP, ddGTP und ddTTP (generisch als ddNTP bezeichnet) ersetzt. Sollte die kontinuierliche Reaktion von einem Bidesoxynucleotid statt des Desoxynucleotids Gebrauch machen, verbindet sich das Molekül in der üblichen Weise, aber alle weiteren Reaktionen entlang dieses Stranges werden verhindert. Weil es nur eine relativ geringe Konzentration von Bidesoxynucleotiden in den Desoxynucleotiden gibt, bestimmt eine zufällige Menge, wann die Reaktion bei irgendeiner vorgegebenen Kette beendet wird.
  • Weil alle Vervielfältigungen an derselben Stelle (mit dem Primer) beginnen, und die Endposition im wesentlichen zufällig ist, erzeugt die Reaktion für jede mögliche Endposition eine große Anzahl von Fragmenten geklonter DNA.
  • Ein einziges Gefäß, welches mit einer Matrix, dem Primer, Polymerase, dNTP's und ddNTP's zusammen mit einigen laboreigenen Reagenzien gefüllt wird, veranlaßt einen Satz von Fragmenten, die jede Basenposition in der Sequenz darstellen. Die Verwendung eines einzigen Reaktionsgefäßes erzeugt selbstverständlich ein Gemisch von allen Fragmenten. Die Verwendung von vier getrennten Reaktionsvolumina, welche mit der Ausnahme identisch sind, daß jedes nur einen Typ von begrenzenden ddNTP enthalten, sichert, daß Fragmente, welche nur in einer der Basen enden, in jedem Volumen gebildet werden. Die Produkte jeder Reaktion werden in eine separate Bahn in ein Polyacrylamidgel geladen und sind Gegenstand einer Elektrophorese, welche die Fragmente veranlaßt, sich entlang des Gels zu bewegen. Kürzere Fragmente bewegen sich schneller, so daß im Ergebnis eine Matrix von Fragmenten entsteht, welche entlang des Gels ausgebreitet ist, und in welcher jede folgende Gruppe von Fragmenten mit der nächsten Base in der Sequenz endet, wenn das Gel eingelesen wird. Um zu sichern, daß die Fragmente erkennbar sind, muß eine geeignete Markierung angeordnet werden. Ein Verfahren besteht darin, eine radioaktive Markierung an einer der dNTP's anzuordnen und zu sichern, daß jedes Fragment des Gels radioaktiv markiert ist. Ein fotografischer Film wird über dem Gel angeordnet, und die Markierung, welche durch die radioaktiven Zerfallsprodukte auf dem Film verbleiben, sind in dem entwickelten Negativ als dunkle Bänder sichtbar, die eingelesen werden, um die Sequenz erkennen zu können. Alternativ kann dem Primer oder statt dessen den Bidesoxynucleotiden eine fluoreszierende Farbe zugefügt werden.
  • Alle auf dem Sanger-Verfahren basierenden Verfahren führen zu Messungen, welche als vier separate Kurven dargestellt werden, von denen jede die Intensität der Ermittlung von einer der Basen im Gel repräsentiert.
  • Die gebräuchlichste gegenwärtig in Gebrauch befindliche automatische DNA- Sequenzierungsvorrichtung, welche durch ABI hergestellt wird, verwendet eine modifizierte Version des Sanger-Verfahrens. Um die Verwendung von vier getrennten Reaktionsvolumina zu vermeiden, werden die Bidesoxynucleotide mit einer von vier Typen von fluoreszierenden Farben markiert, so daß jede Farbe für eine der Basen kennzeichnend ist. Nachdem die Reaktion abgeschlossen ist, werden die Fragmente in eine einzige Bahn auf einem Gel geladen und durch Elektrophorese getrennt. Das Gel wird dann durch einen Laser viermal gescannt, wobei jede Scannung über ein geeignetes schmales Bandpassfilter erfolgt, welches nur eine der vier Farben sichtbar macht. Dies führt dementsprechend zu vier getrennten Tracern, welche in bekannter Weise in einer einzigen Grafik als eine Folge von Peaks aufgezeichnet werden, wobei jede der vier Basen durch eine unterschiedliche Farbe dargestellt wird. Für jeden ausgegebenen Tracer stellt das Vorhandensein eines Peaks an einer gegebenen relativen Position entweder das Vorhandensein dieser Base an dieser Position oder ein Rauschen dar.
  • Durch Auswertung der vier getrennten farbigen Tracer und Verwendung einer geeigneten Peakerfassungs-Software kann man zumindest im Prinzip die gesamte Sequenz der Basen innerhalb der Ausgangsmatrix ermitteln.
  • Obwohl die Verfahren, die zuvor beschrieben wurden, sich in der Praxis als außerordentlich erfolgreich erwiesen haben, wird angenommen, daß noch Verbesserungen möglich sind. Und obwohl sich die automatischen Sequenzierungsvorrichtungen z. B. bei der Sequenzierung der DNA als sehr erfolgreich erwiesen haben, wird jetzt damit begonnen, sie für eine viel exaktere Anwendung zur Erfassung heterozygotischer Mutationen in genomischer DNA anzuwenden, um genetische Erkrankungen von Patienten ermitteln zu können. Die Mutationen, nach welchen gesucht wird, befinden sich nur auf einer der beiden Kopien des untersuchten Gens des Patienten und somit ist das zu Erfassende ein Punkt der Sequenz, an welchem an der jeweiligen Stelle auf dem Gel zwei Peaks von vergleichbarer Größe anzeigen, daß an dieser Stelle in der DNA das Individuum zwei unterschiedliche Kopien besitzt, eine vom normalen Gen und eine vom mutierten Gen. Der Grad der Abweichung von Peak zu Peak, welcher bei der typischen Farbterminator-Sequenzierung (bei der farbmarkierte Bidesoxynucleotide verwendet werden) erkennbar ist, macht dieses Verfahren für diese erforderliche Anwendung begrenzt tauglich. Die Primer-Farb-Sequenzierung (bei welcher dem Primer eine fluoreszierende Farbe zugesetzt wird) ist zweckmäßiger aber arbeitsaufwendiger, weil vier unterschiedliche Reaktionsgefäße verwendet werden müssen. Bei jedem Ereignis verbleibt noch ein offener Betrag einer Veränderbarkeit von Peak zu Peak, welcher die Interpretation der Ergebnisse schwierig gestaltet.
  • Das traditionelle Herangehen bestand in der Vergangenheit darin, zu versuchen, die Veränderbarkeit von Peak zu Peak durch "Verbesserung" der Chemie der Reaktion zu vermindern. Dieses Herangehen zeigte jedoch nur einen begrenzten Erfolg. Es ist bekannt, daß die Veränderung von Peak zu Peak nicht ganz zufällig ist. Wenn z. B. dasselbe DNA-Fragment von einer Anzahl von Patienten sequenziert wird, ist in jedem Fall dasselbe Veränderungsmuster erkennbar. Vor kurzem haben Lipshutz u. a. eine experimentelle Methodologie vorgeschlagen, durch welche, so behaupten diese, die Sequenzierungsgenauigkeit verbessert werden kann; siehe Genomics 19, 417-424 (1994). Diese beschreibt die Merkmale des Oberbegriffs des Patentanspruches 1.
  • Lipshutz schlägt das Aufbauen einer Datenbase mit einer großen Anzahl von Messungen vor, wobei jede Messung eine bestimmte Basensequenz in einer DNA- Kette zusammen mit einer Information über die zu erwartenden Peakhöhen, welche durch diese bestimmte Basensequenz erzeugt werden, umfaßt. Die Datenbase wird praktisch experimentell durch Sequenzierung großer Mengen von DNA unter Anwendung bekannter automatischer Sequenzierungsverfahren ermittelt, gefolgt durch eine weitere Überprüfung durch einen menschlichen Operator, dessen Zweck darin besteht, irgendwelche Sequenzierungsfehler zu korrigieren. Die bestimmte Sequenz wird dann in alle möglichen 5-Tuples aufgespalten, wobei jedes 5-Tuple und seine jeweils gemessenen Peakhöhen eine Messung der Datenbase repräsentieren. Die Information in der Datenbase wurde dann analysiert, um zu bestimmen, wie die Peakhöhe in irgendeiner gegebenen Position der 5-Tuple ist, die als Funktion der Peakhöhe in den anderen vier Positionen variiert wird. Unter Verwendung dieser Information wurden vier getrennte Klassifikationsstämme erzeugt, die jeweils jenen 5-Tuples entsprechen, in welchen die maximale Peakhöhe in Position fünf T, A, C und G war. Jeder Klassifikationsstamm umfaßte eine Sequenz von binären Tests, welche entweder richtig oder falsch waren; die meisten dieser Tests waren von Tracerhöhen und/oder von deren Verhältnissen abhängig. Um die Richtigkeit einer gegebenen Base zu prüfen, welche durch die bekannte Sequenzierungssoftware bestimmt war, wurde der geeignete Stamm entsprechend der Höhe des Tracers in der fünften Position ausgewählt und quer verglichen. Das Ergebnis bestand in der Messung der Aussagezuverlässigkeit der ursprünglichen Bestimmung der jeweiligen Base in dieser Position.
  • Obwohl das Lipshutz-Verfahren für sich in Anspruch nahm, die Genauigkeit der Basenbestimmungen in der Sequenz zu erhöhen, sind noch wesentliche Probleme verblieben. Erstens ist die Erhöhung der Genauigkeit nicht besonders groß, und sie wird von den Anmeldern der vorstehenden Erfindung mit Bestimmtheit für nicht ausreichend gehalten, um das Verfahren zur Routineermittlung von heterozygen Mutationen in der genomen DNA anzuwenden. Zweitens stützt sich das Verfahren vollständig auf die große experimentelle Datenbase, welche insgesamt neu geschaffen werden muß, wenn z. B. der Forscher die verwendete Chemie leicht verändern möchte oder Sequenzen untersuchen möchte, für welche die geeigneten experimentellen 5-Tuple-Daten nicht erreicht werden konnten. Drittens erfordert der Aufbau der Datenbase und die Berechnung der HIassifikationsstämme sowohl einen großen Anteil von experimenteller Arbeit als auch einen großen Anteil von Computerleistung. Der naheliegende Weg, eine Erhöhung der Genauigkeit des Verfahrens zu erreichen - um eine noch größere Datenbase von 6-Tuples zu schaffen - ist wahrscheinlich sowohl experimentell als auch rechnerisch undurchführbar, insbesondere weil eine solche Datenbase nur noch für eine chemische Reaktion verwendbar ist. Schließlich ist das Verfahren rechnerisch uneffizient, weil es alle Möglichkeiten für jede Position in Betracht zieht, unabhängig davon, ob diese Möglichkeiten aus den bereits erhaltenen Informationen als unwahrscheinlich oder unmöglich bekannt sind.
  • Wir wenden uns nun in einer kurzen Diskussion den Gründen für die Variabilität von Peak zu Peak zu (von denen keiner, was zu beachten ist, in den Vorschlägen von Lipshutz in Erwägung gezogen wurde). Die Tatsache, daß die Variabilität von Peak zu Peak nicht zufällig ist und tatsächlich unabhängig von der verwendeten Chemie gleichzubleiben scheint, wurde von Larder u. a. in ihrem Artikel "Quantitative detection of HIV-1 drug resistance mutations by automatecd DNA sequencing: Nature October 14 1993, pages 671-673" erwähnt. Zwei hauptsächliche Mechanismen, von welchen angenommen wird, daß sie für die Variabilität von Peak zu Peak verantwortlich sind, sind der Replikationseffekt und der Fluoreszenzeffekt.
  • Der Fluoreszenzeffekt tritt auf, weil die gemessene Fluoreszenz des Farbstoffes von der Sequenz der Basen abhängt, welche sich neben dem Punkt in dem DNA- Molekül befinden, mit welchem er verbunden ist. Wenn der Farbstoff sich mit der DNA verbindet, ist er teilweise vom Dämpfungseffekt des Lösungsmittels getrennt, und er wirkt mit dem DNA-Molekül selbst zusammen. Das Maß der Trennung und die genaue Art des Zusammenwirkens hängen demzufolge von der Natur der DNA und somit von der lokalen Basensequenz ab. Somit wird die Fluoreszenz des Farbstoffmoleküls in typischer Weise durch die Basensequenz bestimmt, welche zum Terminator führt.
  • Der Replikationseffekt ist ein statistischer Effekt. Einfach ausgedrückt, stoppt der zufällige Charakter der Replikation den Prozeß, was bedeutete, daß die Wahrscheinlichkeit, daß die Sequenz an irgendeiner bestimmten Position gestoppt wird, davon abhängt, wie weit unten sich die Position der Sequenz befindet. Es gibt z. B. mehr kürzere Sequenzen als längere Sequenzen, was bedeutet, daß die Peaks, die sich nahe dem Primer befinden, wahrscheinlich größer sind als die Peaks, welche vom Primer weiter entfernt sind. Dieser Effekt wurde durch Lee u. a. in "Nucleic Acids Research, Vol. 20. No. 10 2471-2483" in einem Artikel mit dem Titel "DNA sequencing with dye-labelled terminators and T7 DNA polymerase: effects of dyes and dNTPs on incorporation of dyeterminators and probability analysis of termination fragments" analytisch ausgewertet.
  • Man erwartet normalerweise, eine größere Variabilität von Peak zu Peak zu erkennen, wenn eine Farbstoff-Terminator-Chemie verwendet wird als wenn eine Farbstoff-Primer-Chemie verwendet wird, weil in letzterem Fall selbstverständlich keine zusätzliche Variabilität infolge des Fluoreszenzeffektes auftritt.
  • Es ist eine Aufgabe der Erfindung, die Schwierigkeiten des Standes der Technik zumindest zu vermindern.
  • Es ist eine weitere Aufgabe der Erfindung, ein verbesssertes Verfahren zur automatischen Sequenzierung zu schaffen, bei welchem die Sequenzierungsfehler vermindert werden.
  • Es ist eine weitere Aufgabe (zumindest in einer beschränkten Form der Erfindung) ein Verfahren zu schaffen, welches eine automatische DNA- Sequenzierung von heterozygoten Mutationen in genomischen DNA erreichen kann. Eine damit verbundene Aufgabe (wiederum in einigen beschränkten Versionen der Erfindung) besteht in der Schaffung eines Verfahrens, welches in der Lage ist, Gemische von DNA-Fragmenten zu trennen, z. B. zwei getrennte DNA-Sequenzen von einer Blutprobe aus einem Gemisch des Blutes von zwei getrennten Individuen zu ermitteln.
  • Erfindungsgemäß wird ein Verfahren zur automatischen Sequenzierung eines DNA-Stranges geschaffen, das im kennzeichnenden Teil des Patentanspruches 1 dargelegt ist.
  • Der spezielle Algorithmus, welcher verwendet wird, um dieses Verfahren auszuführen, sollte innerhalb des Sichtbereiches eines Durchschnittsfachmannes auf diesem Gebiet liegen. Typischerweise muß ein Stamm von Möglichkeiten betrachtet werden, und man kann den Stamm entweder zuerst wachsen lassen und dann untersuchen oder noch effizienter, kann man ihn gleichzeitig wachsen lassen und untersuchen. Es kann entweder eine parallele oder eine sequentielle Ausführung ins Auge gefaßt und entweder ein rekursiver oder ein nichtrekursiver Code verwendet werden.
  • Die vorausgesagten Messungen können auf der Basis von mindestens einigen der zuvor bestimmten Basen in der wachsenden Sequenz berechnet werden. Die Anmelder der vorliegenden Erfindung haben herausgefunden, daß man durch das Treffen von Voraussagen als Funktion von zuvor bestimmten Basen besser als durch die Funktion von aktuellen Messungen selbst (Höhe der Tracer in der bevorzugten Ausführungsform) eine größere Genauigkeit und Stabilität mit geringerer Erwartung von individuellen Fehlern, die sich selbst über die Sequenz fortsetzen, gewinnen kann. Der Effekt ist so stark, daß es tatsächlich bevorzugt wird, keinen der ganz gleich wie auch immer gemessenen Werte zur Voraussage des Wertes für die nächste Position zu verwenden.
  • Die vorhergesagte Messung für die nächste Position kann vier separate Werte umfassen, einen für jede der möglichen Basen C, G, A und T. Ebenso kann die Messung an jeder Position vier separate Werte umfassen, einen für jede mögliche Base in dieser Position. In der bevorzugten Ausführungsform nehmen die Messungen die Form von vier separaten Tracern in einer Graphik an, einen für jede der Basen. Vier individuelle Werte für jede Position werden dann durch Messung der Höhe von jedem Tracer in dieser Position bestimmt.
  • Um den Algorithmus zu beschleunigen und zu sichern, daß keine Zeit für die Betrachtung nicht möglicher Basen für eine bestimmte Position vergeudet wird, kann das Verfahren automatisch eine Base als Kandidaten für die neue Position zurückweisen, wenn deren aktueller Wert für diese Position geringer ist als ein erwarteter minimaler Wert. Der erwartete minimale Wert wird als Funktion des vorausgesagten Wertes für diese Base in dieser Position berechnet; z. B. kann der minimale Wert gleich dem vorausgesagten Wert sein, oder es kann statt dessen ein festes Verhältnis, z. B. die Hälfte von diesem sein.
  • In der einfachsten Form des Verfahrens kann die wachsende Sequenz Base um Base geschaffen werden, wobei die neue hinzuzufügende Base die nächste in der Sequenz der letzten zuvor hinzugefügten Base ist. Das Verfahren hängt jedoch nicht davon ab, daß jede mögliche Base decodierbar ist, und wenn z. B. eine oder zwei der Basen nicht lesbar ist/sind, kann der Algorithmus einfach so gestaltet sein, daß er diese überspringt und auf der entfernteren Seite fortsetzt. Dies ist möglich, weil die Basen auf der entfernteren Seite von den Basen, welche bereits bekannt sind, noch vorausgesagt werden können (wenngleich mit geringerer Genauigkeit).
  • Die wachsende Sequenz wächst normalerweise von der Ausgangssequenz in einer Richtung, aber es kann auch dafür gesorgt werden, daß sie in beiden Richtungen wächst. Außerdem kann eine Mehrzahl von beginnenden Ausgangssequenzen vorhanden sein, so daß es eine Mehrzahl von wachsenden Sequenzen gibt. Diese wachsen einfach gleichzeitig in einer Richtung oder in beiden Richtungen, bis sie sich miteinander verbinden. Der Algorithmus kann in diesem Fall eine graphische Struktur aufweisen, welche Stämme umfaßt, die von mehrfachen Keimbildungspunkten ab- und aufwärts wachsen, um sich an einer Mehrzahl von Knoten zu treffen. Der Algorithmus kann eine "vorausschauende" Fähigkeit besitzen, die ihn in die Lage versetzt, eine Vielzahl von unterschiedlichen Hypothesen für künftige Basen in Erwägung zu ziehen, bevor er endgültig über die spezielle Base, welche momentan betrachtet wird, entscheidet. Zu diesem Zweck kann das Verfahren bei einem vorgegebenen Schritt das Voraussagen der nächsten möglichen Base, dann das Vorausschauen zum nächsten Schritt, das Voraussagen der möglichen folgenden Base für diesen Schritt und die Bestimmung der neuen Base für den gegebenen Schritt zumindest teilweise in Abhängigkeit von einer bevorzugten vorausgesagten Base für den nächsten Schritt umfassen. Alternativ oder zusätzlich kann das Verfahren bei einem vorgegebenen Schritt die Vorhersage von einer Mehrzahl von Schritten, die hypothetische Vorhersage einer Mehrzahl von möglichen Basensequenzen und die Bestimmung der neuen Base für den vorgegebenen Schritt zumindest teilweise in Abhängigkeit von einer bevorzugten vorausgesagten Basensequenz umfassen.
  • Bei jedem Schritt hängt die nächste zu wählende Base in typischer Weise von mindestens einigen zuvor bestimmten Basen in der Sequenz und (in Abhängigkeit von der Chemie) möglicherweise ebenso von mehreren folgenden Positionen in der Sequenz ab. Die zu wählende Base ist die, welche insgesamt am besten zu den Messungen für die Sequenz paßt. Aus diesem Grund kann bei jedem Schritt eine Fehlermessung, welche auf der vorausgesagten Messung und der aktuellen Messung in der neuen Position basiert, vorgenommen werden, wobei eine akkumulierte Fehlermessung für mindestens einen Teil der wachsenden Sequenz gehalten wird, und die neue Base wird ensprechend der speziellen Base bestimmt, welche die akkumulierte Fehlermessung minimiert.
  • Im Prinzip können die Informationen über alle die zuvor bestimmten Basen verwendet werden, um die "beste" aktuelle Base zusammen mit einer (wenn die Vorausschau verwendet wird), zwei oder sogar mehreren vorausgesagten, in der Sequenz noch kommenden Basen zu finden. Selbstverständlich erfordert die jedesmalige zum Beginn der Sequenz zurückschauende Kontrolle und die große Zahl von vorausschauenden Vorhersagen eine große Menge an Rechenzeit. In der Praxis kann das Maß der Vorausschau wahrscheinlich begrenzt und die Zahl der im voraus bestimmten Basen, welche zur Berechnung der aktuellen vorausgesagten Messung beitragen, wahrscheinlich ebenfalls eingeschränkt werden. Dementsprechend wird in den praktischsten Ausführungsformen die akkumulierte Fehlermessung nur für einen Teil der wachsenden Sequenz gehalten, vielleicht für den Teil, welcher eine feste Anzahl von Basen vor der aktuellen zu bestimmenden Base umfaßt.
  • Die zu wählende Base kann die Base sein, welche die bis dahin akkumulierte Fehlermessung der gesamten Sequenz oder, wenn eine Vorausschau verwendet wird, die bis dahin akkumulierte Fehlermessung der bestimmten Sequenz und der bevorzugt vorhergesagten vorausschauenden Sequenz minimiert.
  • In Abhängigkeit von der Chemie, welche bei den Messungen verwendet wird, kann die vorausgesagte Messung für die neue Position entweder unter Anwendung eines mathematischen Modells oder einer Tabelle berechnet werden, welche die physikalischen Effekte, die erwartet werden, simulieren. Insbesondere kann der Algorithmus ein Modell oder eine Tabelle benutzen, um den Replikationseffekt zu simulieren. Wenn eine Chemie des Terminators verwendet wird, z. B. mit farbstoffmarkierten Terminatoren, kann das Verfahren ein mathematisches Modell oder eine Tabelle enthalten, um den Fluoreszenzeffekt zu simulieren.
  • Gelegentlich kann die Chemie nicht genau bekannt sein, aber es kann möglich sein, die Steilheit und die Höhe der Tracer oder andere Messungen vorherzusagen. In diesem Fall kann ein zum Profil passender Algorithmus verwendet werden, in welchem die bevorzugte vorhergesagte Basensequenz als die Sequenz bestimmt werden kann, welche am besten zu einem vorhergesagten Meßprofil entsprechend den jeweiligen Positionen der vorhergesagten Basensequenz paßt.
  • Ein wichtiges Nebenmerkmal der vorliegenden Erfindung betrifft die Ermittlung der DNA-Heterozygosität. Das verwendete Verfahren ist genau das gleiche wie das, welches zur fortlaufenden DNA-Sequenzierung verwendet wird, mit der Ausnahme, daß bei jedem Schritt Stränge von beiden Allelen gleichzeitig betrachtet werden. Dementsprechend schreitet der Algorithmus unter Verwendung der Basen, welche bereits bestimmt wurden (von beiden Allelen) fort, um eine Voraussage der zu erwartenden Messung zu treffen, welche in dieser Position für jede Allele ermittelbar ist. Die Voraussagen werden mit den aktuellen Messungen verglichen, und die Basen werden dann an der aktuellen Position für beide Allelen gleichzeitig zugewiesen. Normalerweise werden beide Basen an jeder vorgegebenen Position die gleichen sein, aber gelegentlich treten infolge einer Mutation Differenzen ein.
  • Die Erfindung bezieht sich auch auf ein Verfahren zur Sequenzierung eines Gemisches von separaten DNA-Strängen, welche sich wiederum gleichzeitig mit jedem der Stränge unter Anwendung des zuvor beschriebenen Verfahrens befaßt.
  • Die Erfindung bezieht sich ferner auf ein Verfahren zur Bestimmung der Eigenschaften eines Fötus eines schwangeren weiblichen Wesens, welches die Entnahme einer Probe von einem weiblichen Wesen, wobei die Probe Fötuszellen enthält, sowie die automatische Sequenzierung eines DNA-Stranges von Fötuszellen unter Anwendung eines Verfahrens, wie es zuvor beschrieben wurde, umfaßt.
  • Die Erfindung betrifft ferner ein Verfahren zur Ermittlung von Fremd-DNA in einer Körperprobe, welches die Sequenzierung der DNA-Stränge in der Probe unter Anwendung eines Verfahrens, wie es zuvor beschrieben wurde, und die Ermittlung, ob eine Fremd-DNA vorhanden ist, durch Vergleich der sequenzierten DNA-Stränge von der Probe mit sequenzierten DNA-Strängen, die von einer weiteren Körperprobe abgeleitet wurden, von denen bekannt ist, daß sie keine Fremd-DNA enthalten, umfaßt.
  • Die Erfindung betrifft weiterhin ein Verfahren zur Ermittlung der relativen Anteile einer ersten Körperprobe und einer zweiten Körperprobe in einer gemischten Probe, wobei das Verfahren die Sequenzierung der DNA-Stränge in der gemischten Probe unter Anwendung eines Verfahrens, wie es zuvor beschrieben wurde, die Ermittlung der relativen Anteile der DNA aus der ersten Probe und der zweiten Probe und die Ermittlung der relativen Anteile der Körperproben aus den relativen Anteilen der DNA umfaßt.
  • Es ist selbstverständlich, daß das Verfahren nicht auf irgendeine bestimmte Chemie beschränkt ist. Es kann sowohl angewendet werden, wenn der Primer markiert ist als auch wenn die Terminatoren markiert sind. Die genaue Markierung ist eine Versuchsfrage: die Möglichkeiten umfassen eine fluoreszierende Markierung, eine radioaktive Markierung und eine chemo-luminiszente Markierung. Obwohl die bekannten automatischen Sequenzierungsvorrichtungen DNA-Fragmente verwenden können, welche in ihrer Größe auf einem Polyacrylamid-Gel fraktioniert sind, welches dann durch einen Laser gescannt wird, ist dies für die vorliegende Erfindung nicht wesentlich, und alles, was erforderlich ist, umfaßt einige automatisierte Mechanismen zur Vornahme von Messungen an einem DNA-Strang, wobei die Messungen für die einzelnen Basen entlang des Stranges repräsentantiv sind. Das bevorzugte Verfahren ist das Sanger-Verfahren.
  • Es gibt eine Anzahl von speziellen Vorteilen, die von der vorliegenden Erfindung entweder in breitester Form oder in einer ihrer eingeschränkteren Formen geboten werden. Das Verfahren sieht vor:
  • 1. Eine beträchtliche Erhöhung der Genauigkeit bei routinemäßigen Genom- Sequenzierungen.
  • 2. Öffnung dieser schnellen und wirkungsvollen DNA-Analysierungs- Technologie für die Sichtbarmachung menschlicher Mutationen. Diese kann die Technologie auf eine Stufe heben, in welcher sie zum ausgewählten Verfahren in der klinischen DNA-Analyse wird.
  • 3. Erhöhung der Empfindlichkeit zur Ermittlung von DNA-Kontaminationen in Proben, welche aus Geweben entnommen sind. Dies kann wichtige forensische Anwendungen beinhalten, bei welchen Proben von einem Individuum mit solchen eines anderen vermischt sind, weil das beschriebene Verfahren in der Lage ist, völlig separate DNA-Stränge individuell zu erkennen und zu sequenzieren.
  • 4. Verminderung der Kosten von Sequenzierungsanwendungen, weil die zeitraubendere Farb-Primer-Chemie nicht länger erforderlich ist. Alle Sequenzierungen, welche das beschriebene Verfahren anwenden, haben eine größere Genauigkeit, wodurch wiederholte Sequenzierungen, um potentielle Fehler auszuschalten, reduziert werden können.
  • Wie zuvor beschrieben, gestattet die vorliegende Erfindung nicht nur die Ermittlung von heterozygonen Mutationen, sondern sie ermöglicht auch DNA- Sequenzierungen um zu bestimmen, ob ein Gemisch von zwei oder mehreren separaten DNA-Sequenzen vorliegt. Der Erfindung ermöglicht die Ermittlung einer DNA-Variation in einem Teil, welcher viel geringer als 50% der gesamten DNA-Probe ist. Dies führt zu einer Reihe von speziellen Vorteilen, wie sie im weiteren beschrieben werden sollen.
  • Die vorliegende Erfindung ist in der Lage, chromosomale Anomalien zu ermitteln, von denen die wichtigste die Trisomie 21 (das Downsyndrom) ist. Obwohl eine Diagnose des Downsyndroms in effizienter Weise durch Anwendung der vorliegenden Erfindung bei Fötuszellen, die durch bekannte invasive Untersuchungsverfahren gewonnen werden (z. B. durch Amniocentese oder durch Entnahme von Chorion-Villus-Proben) erfolgen kann, ist es bevorzugt, die Diagnose statt dessen an Fötuszellen vorzunehmen, die im Blutkreislauf oder im Gebärmutterschleim der Mutter enthalten sind.
  • Von der sechsten Woche der Schwangerschaft an sind eine beträchtliche Anzahl von Fötuszellen im Blutkreislauf der Mutter vorhanden. Diese können aus einer venösen Blutprobe der Mutter unter Anwendung magnetischer Perlen, die mit einem fötalen zellspezifischen Antikörper beschichtet sind, um eine 5-10%ige Haftung aus der Gesamt -DNA an den Rippen zu erreichen, konzentriert werden. Es wird angenommen, daß die vorliegende Erfindung im Prinzip empfindlich genug ist, um Mutationen in der fötalen DNA und/oder zur normalen Sequenz unterschiedliche Nachbildungszahlen (im Fall von cromosomalen Anomalien) zu ermitteln. Dies würde es ermöglichen, mit dem erfindungsgemäßen Verfahren vorhandene Verfahren zur postnatalen DNA-Uberprüfung, welche invasive chirurgische Verfahren erfordern (z. B. durch Amniocentese oder durch Entnahme von Chorion-Villus-Proben) und welche geringe aber definitiv vorhandene pathologische und mortale Risiken für Mutter und Kind beinhalten, abzulösen. Das erfindungsgemäße Verfahren kann in seiner bevorzugten Ausführungsform mittels einer einfachen Venensektion, welche praktisch kein Risiko beinhaltet, vorgenommen werden, und es ist beträchlich billiger als die bekannten Verfahren. Eine alternative potentielle Quelle fötaler DNA sind die fötalen Zellen, welche vom Gebärmutterschleim der Mutter stammen (von der 8. bis zur 10. Woche). Dies ist ebenfalls nicht invasiv, billig und umfaßt nur ein geringes Risiko.
  • Das erfindungsgemäße Verfahren kann auch in Situationen angewendet, in welchen es wichtig ist, den Schweregrad einer verbleibenden Erkrankung zu bestimmen, z. B. bei chronischer Knochenmarksleukämie, bei welcher die Zahl der zirkulierenden Tumorzellen durch Vergleich von tumorspezifischen Sequenzen und Sequenzen eines Normalpatienten analysiert werden kann.
  • Außerdem ist die Quantifizierung der Belastung mit Pathogenen (z. B. mit einem Virus oder einem Bakterium) als Proportion einer zellularen Gesamt-DNA möglich. Eine Anwendung von besonderem Interesse ist die Quantifizierung des Human Immunodeficiency Virus (HIV) vor und während der Therapie, um sowohl die prognostischen Indikatoren bestimmen als auch die Effektivität der Behandlung quantifizieren zu können.
  • Die Erfindung kann in einer Anzahl von Möglichkeiten und in verschiedenen speziellen Ausführungsformen in die Praxis umgesetzt werden, was nunmehr beispielhaft unter Bezugnahme auf die anliegenden Zeichnungen beschrieben werden soll; die Zeichnungen zeigen:
  • Fig. 1 ist ein Ablaufdiagramm, welches einen sequentiellen rekursiven Algorithmus beinhaltet, der die vorliegende Erfindung verkörpert; und
  • Fig. 2 zeigt beispielhaft einen Stamm und gibt an, wie ein solcher Stamm untersucht werden kann.
  • Die vorliegende Erfindung macht von einem iterativen induktiven Algorithmus Gebrauch, welcher versucht, die Sequenz Base für Base aufzubauen und an jedem Punkt von Informationen über die Basen Gebrauch macht, welche zuvor ermittelt wurden. Die Sequenzierung beginnt immer mit einer bekannten kurzen Sequenz (welche einem künstlich geschaffenen Primermolekül entspricht), wodurch eine feste Base für die folgende Induktion geschaffen wird. Wenn die Sequenz Base für Base aufgebaut wird, werden Informationen über zuvor ermittelte und relativ sichere Basen verwendet, um Informationen darüber, wie die nächste Base der Sequenz voraussichtlich sein wird, zu ermitteln.
  • Alle hier beschriebenen Algorithmen können im Prinzip für alle DNA-Sequenzierungen verwendet werden. In dem speziellen Fall der Ermittlung von heterozygonen Mutationen aus genomischen DNA, welche durch die polymerase Kettenreaktion verstärkt werden, muß man die beiden unterschiedlichen Allelen gleichzeitig sequenzieren. Die Basen von jeder Allele sind die gleichen, mit der Ausnahme, wenn eine Mutation oder ein Polymorphismus vorhanden sind. In diesem Fall erkennt man auf dem Tracer zwei Peaks in zwei getrennten Kanälen. Ein solcher Effekt kann mit den bekannten Algorithmen nicht exakt bearbeitet werden.
  • Wenn die im weiteren beschriebenen Algorithmen für den Ablauf der Sequenzierung verwendet werden, wird in jeder Stufe versucht zu bestimmen, ob die nächste Base in der Sequenz eine A, C, G oder T-Base ist. Im Falle der Ermittlung von heterozygonen Mutationen, befassen sie sich andererseits mit beiden Allelen gleichzeitig, und sie versuchen zu bestimmen, ob die jeweiligen Basen in den ersten und zweiten Allelen z. B. AA, CC, GG oder TT sind. Sie untersuchen auch, ob eine Mutation vorhanden ist und ob z. B. die ersten und zweiten Allelen jeweils Basen AC, AG, AT oder tatsächlich irgendeine andere Kombination aufweisen.
  • Es ist verständlich, daß im Fall eines Heterozygot, in welchem sich eine Häufung von Mutationen ergibt, Komplikationen auftreten können. Wenn eine einzige Mutation innerhalb eines Codon (in einer Gruppe von drei Basen) auftritt, ergibt sich keine Zweideutigkeit; wenn z. B. der Algorithmus bestimmt, daß die Basen auf den beiden Allelen in der ersten Position AA, die Basen in der zweiten Position GG und die Basen in der dritten Position AC sind, wissen wir, daß eine Mutation in der dritten Position vorhanden sein muß, wobei der Codon in der ersten Allele AGC und der Codon in der zweiten Allele AGA ist.
  • Es können jedoch Zweideutigkeiten auftreten, wenn zwei oder mehrere Mutationen unmittelbar nebeneinander bestehen. Eine solche Zweideutigkeit entsteht z. B., wenn der Algorithmus bestimmt, daß die Basen in der ersten Position AA, die Basen in der zweiten Position GT und die Basen in der dritten Position CA sind. Hier gibt es zwei Möglichkeiten: Entweder können die einzelnen Allelen AGC und ATA oder ATC und AGA sein.
  • Die im weiteren beschriebenen Verfahren können mit diesen Zweideutigkeiten fertig werden, weil die Sequenz auf jeder der individuellen Allelen aufgebaut ist, und Fehlerausdrücke · akkumuliert werden, wodurch eine Aussagewahrscheinlichkeit für die Gesamtsequenz gegeben wird. Diese kann mit anderen möglichen Sequenzen verglichen werden, um über das richtige Ergebnis einschließlich der Lage der Elemente der Mutationen zwischen den Allelen zu entscheiden.
  • Jeder geeignete induktive Algorithmus kann verwendet werden, welcher mindestens zwei Erfordernisse erfüllt: Der Algorithmus besitzt ein Verfahren zur systematischen Durchsuchung aller Möglichkeiten, welche er selbst bietet und er besitzt Mittel zur Erlangung einer Aussagewahrscheinlichkeit, z. B. für die Richtigkeit einer Base oder von Basen in einer bestimmten Position als Funktion von einigen oder allen Basen, welche zuvor sequenziert wurden.
  • Ein Verfahren zum Durchsuchen der möglichen Sequenzen besteht darin, einen Stamm aufzubauen, in welchem jeder Knoten eine Darstellung der Base (oder im Falle eines Heterozygot von Basen) ist, welche in einer vorgegebenen Position in der Sequenz vorhanden ist (sind). Die Wurzel des Stammes ist die erste Base (bzw. sind die Basen) in der Sequenz. Ein Ableger eines Knotens ist ein mögliches folgendes Element der Sequenz. Wenn ein bestimmter Knoten mehr als einen Ableger besitzt, weist dies auf die Tatsache hin, daß die Basen in der nächsten folgenden Position aus einem Satz von verschiedenen Möglichkeiten ausgewählt werden können. Ein Pfad durch den Stamm von der Wurzel bis zu einem Blatt stellt eine mögliche gesamte Sequenz dar. Der Algorithmus bestimmt den korrekten Pfad durch den Stamm unter Anwendung des zuvor beschriebenen Interferenzmechanismus an jedem Punkt, welcher eine Interferenz zur nächsten Base (bzw. der nächsten Basen) in der Sequenz als Funktion einer Aussagewahrscheinlichkeit, welche selbst auf einigen oder allen der zuvor bestimmten Knoten basiert.
  • Um die Aussagewahrscheinlichkeit zu bestimmen, kann man Funktionen aufstellen, welche den Replikationseffekt modellieren und simulieren, z. B. kann man das Modell anwenden, welches in dem Artikel von Lee beschrieben ist, zusammen mit dem Fluoreszenzeffekt (welcher nur anwendbar ist, wenn eine Farb-Terminator-Chemie verwendet wird). Alternativ kann einer oder es können beide dieser Effekte empirisch modelliert werden, z. B. durch eine einfache Tabelle, welche durch vorangehende Versuche bestimmt wird. Dies ist tatsächlich relativ einfach durchführbar, weil nur eine relativ geringe Anzahl von Kombinationen zu betrachten ist.
  • Eine besondere Schwierigkeit besteht darin, daß, obgleich der Fluoreszenzeffekt nur von der Sequenz vor der ermittelten Base abhängt, der Replikationseffekt von der Sequenz vor und nach der ermittelten Base auf der Matrix abhängt. Dies verursacht eine leichte Komplikation, weil der Algorithmus idealerweise in der Lage sein sollte, mindestens eine Position in der Sequenz vorauszuschauen und zu untersuchen, welchen Effekt die Base in der nächsten Position haben kann, bevor definitiv über die richtige Interpretation der gegenwärtigen Position entschieden wird.
  • In der Praxis kontrolliert der bevorzugte Algorithmus jede Möglichkeit für die erforderlichen Basenpositionen in der Sequenz nach dem Meßpunkt, um die herauszufinden, welche mit den Messungen am weitesten übereinstimmt. Die Ergebnisse einer solchen Untersuchung des Zwischenraumes der lokalen Sequenzen kann verwendet werden, um die Aussagewahrscheinlichkeit einer einzigen Basenposition ohne Bezug zu anderen Messungen zuzuschreiben. Im allgemeinen Fall können wir jedoch ein Signal erwarten, um Angaben zu erhalten, welche näher mit den Voraussagen übereinstimmen als die Peaks der Sequenz. Die Tatsache, daß die Base in jeder Position einen Effekt auf die Aussagen ausgibt, kann eine Anzahl von Positionen auf jeder Seite genutzt werden, um dieses Problem zu vermeiden.
  • In jeder Position in der Sequenz, in welcher genügend von der umgebenden Sequenz bekannt ist, um die Replikations- und Fluoreszenzeffekte zu bestimmen (oder aufzusuchen), können wir die Wahrscheinlichkeit eines Peaks beurteilen, welches diese Position in der Sequenz repräsentiert durch Berechnung der Messung, welche wir in dieser Position erwarten, und durch Vergleich mit der wirklichen Ablesung beurteilen. Wir können eine Fehlerfunktion definieren, welche wir verwenden, um eine Aussagewahrscheinlichkeit einer bestimmten Voraussage der Sequenz an irgendeinem vorgegebenen Punkt zuzuschreiben.
  • Fig. 1 zeigt schematisch einen bevorzugten rekursiven Algorithmus zum Aufbau eines in Fig. 2 dargestellten Untersuchungsstammes. Der Algorithmus enthält eine "Vorausschau" oder einen "Blindpfad", welche es ermöglicht, versuchsweise Möglichkeiten für die Basen zu erproben, die innerhalb der Sequenz noch erreicht werden sollen, wodurch es möglich ist, ein genaueres Modell des zu verwendenden Replikationseffektes zu erhalten. Wir haben praktisch herausgefunden, daß eine Vorausschau einer Position normalerweise völlig ausreichend ist, daß aber auch eine Vorausschau von zwei und mehr Positionen gut möglich ist. Der Algorithmus baut den Stamm nacheinander auf und führt, falls erforderlich, die notwendigen vorausschauenden Annahmen durch. An jedem Punkt des Stammes von ursprünglichen Teilsequenzen können wir die Ermittlungen über eine Anzahl von Schritten im Stamm zurück, entsprechend der Anzahl von Basen zur rechten Seite des Ausdehnungspunktes, welche durch unsere Modellierung des Replikationseffektes erforderlich ist, nachprüfen. Wenn der Replikationseffekt z. B. von zwei Basen abhängt, die auf jeder Seite der Base hinzugefügt werden, hat die Vorausschau zwei Größen.
  • Bei Betrachtung eines einzigen Pfades im Stamm gehen wir entlang der Sequenz vor und konstruieren während des Vorangehens die zu erwartenden Messungen und vergleichen diese mit den tatsächlichen Messungen. Der Vergleich für eine einzige Position ist einfach der ermittelte Fehler. Die einzelnen Fehler werden dann addiert, um einen einzigen Fehler oder eine Aussagewahrscheinlichkeit für die Sequenz insgesamt auszugeben. Derselbe Versuch wird bei anderen möglichen Sequenzen ausgeführt, und dann wird die Sequenz ausgewählt, welche den kleinsten Gesamtfehler aufweist.
  • Um die Suche effizienter zu gestalten, können Pfade, deren Messungen kleiner sind als jene, welche vorausgesagt wurden, ausgeschieden werden, weil das Rauschen ein Peak verursacht, das weit größer ist. In einer praktischen Ausführungsform wird man wahrscheinlich Meß- und andere systematische Fehler durch Überspringen von Pfaden nur berücksichtigen, wenn die tatsächliche Messung einen Bruchteil (kleiner als 1) der erwarteten Messung darstellt. Nun wenden wir uns einer detaillierteren Beschreibung eines bevorzugten Algorithmus zu, welcher schematisch in Fig. 1 dargestellt ist. Das dargestellte Ablaufdiagramm, zeigt eine Sequenz von Schritten, welche in einer vorgegebenen Position in der Sequenz ausgeführt werden, wenn versucht wird, die beiden Allelenbasen in dieser Position tatsächlich zu bestimmen (für den Zweck dieser Darstellung nehmen wir Heterozygosität an).
  • Das System beginnt mit dem Schritt 2, und im Schritt 4 wird zumindest fiktiv ein Satz von möglichen Basenpaaren, welche angewendet werden können, konstruiert. Tn diesem Zusammenhang sind die Basenpaare sequenzierte Basen in der vorgegebenen Position auf jeder Allele. Es gibt dementsprechend sechzehn mögliche Basenpaare, nämlich: AA, CA, GA, TA, AG, CC, GC, TC, AG, CG GG, TG, AT, CT, GT, TT. Jedes dieser Paare ist eindeutig, weil die Base auf der linken Seite auf einer vorgegebenen Allele erscheint, und die Base auf der rechten Seite erscheint auf der anderen. Somit unterscheidet sich GA von AG. Wir nehmen Bezug auf ein bestimmtes Paar von Basen, welches als "Hypothese" zu betrachten ist.
  • Es ist klar, daß der Schritt 4 niemals explizit ausgeführt wird; er stellt lediglich die mögliche Festsetzung der Basenpaar-Hypothese dar, welche zu überprüfen ist.
  • Im Schritt 6 bestimmt der Algorithmus, ob es noch eine Voraussage gibt, welche noch zu überprüfen ist. Wenn es nicht so ist, endet der Algorithmus sofort; wenn es so ist, geht er zum Schritt 8 weiter, in welchem eine Voraussage, welche noch nicht erfolgte, gewählt wird. Die Basenpaar-Voraussage wird dann in dem Schritt 10 in das globale Register kopiert. Jede Zelle hat in der Rekursion Zugang zum globalen Register der Sequenz, welche bisher vorausgesagt ist. Jede Zelle ist für die Aufzeichnung ihrer Voraussagen für ihre eigenen Ableger-Zellen verantwortlich. Dementsprechend muß bei dieser Ausführung, bevor eine Zelle einen Ableger hervorbringt, sie ihre lokale Voraussage in das globale Register kopieren.
  • Im Schritt 12 bestimmt der Algorithmus, ob das Replikationsfenster voll abgedeckt ist. Das "Replikationsfenster" ist der Teil der Sequenz auf jeder Seite der laufenden Position, in welchen nicht vernachlässigbare Replikationseffekte vermutet werden. Wegen des Replikationseffektes ist es notwendig, im voraus die Position festzulegen, für welche Meßergebnisse vorherzusagen sind. Deshalb muß am Beginn der Sequenz der Algorithmus zunächst einen "blinden" oder "vorausschauenden" Stamm bis zu einer Tiefe annehmen, welche ausreicht, um die rechte Seite des Replikationsfensters abzudecken. Wenn das Fenster nicht abgedeckt ist, kehrt der Algorithmus zum Schritt 26 zurück. Dies bewirkt den Aufruf einer weiteren Kopie des gesamten Ablaufes, um die nächsttiefere Stufe des vorausgesagten Stammes zu konstruieren. Diese nächsttiefere Stufe wird in diesem Punkt von dem augenblicklichen Knoten dieser Zelle im Stamm abzweigen.
  • Sobald das Replikationsfenster vollständig abgedeckt ist, bewegt sich der Algorithmus zum Schritt 14 weiter, in welchem die Fluoreszenzmessung für das abgedeckte untergeordnete Fenster vorhergesagt wird. Dies bringt eine Berechnung der Anzahl von DNA-Fragmenten, der erforderlichen Länge, der Intensität der Fluoreszenz pro Fragment und somit der erwarteten Fluoreszenzmessung mit sich.
  • Im Schritt 16 wird dann die Aussagewahrscheinlichkeit für die untergeordnete Basenposition bestimmt. Hier besitzt der Algorithmus eine Voraussage für die Messung sowie die Messung selbst und vergleicht die beiden dementsprechend. Es gibt eine Anzahl von Arten, die Aussagewahrscheinlichkeit auszuwerten, aber in dieser Ausführung wird, wenn die tatsächliche Messung geringer ist als die Voraussage, vermutet, daß die Aussagewahrscheinlichkeit 0 ist. Es wird praktisch angenommen, daß jedes Rauschen größer ist, und daß den Messungen, welche höher sind als die Voraussage eine geringere Wahrscheinlichkeit im Verhältnis zum Quadrat der Entfernung zuzuschreiben ist.
  • Im Schritt 18 wird ein Test durchgeführt, um festzustellen, ob der Prozeß hier abgekürzt werden kann. Wenn die Aussagewahrscheinlichkeit Null ist, besteht keine Notwendigkeit zur Fortsetzung, so daß der Algorithmus diese Zelle einfach verläßt.
  • Wenn der Ablauf hier nicht abgekürzt werden kann, geht die Steuerung zum Schritt 20 über, in welchem ein Test durchgeführt wird, ob dieser bestimmte Zweig beendet wurde. Es gibt eine gewisse Tiefe, zu welcher wir zurückkehren müssen, welche durch den Wert der Sequenz bestimmt wird, der in einer einzigen Operation zu berechnen ist. Viele Faktoren können diese Wahl beeinflussen. Es ist klar, daß ein einschränkender Faktor wahrscheinlich die Zahl der Basenpositionen ist, für welche Messungen vorliegen. Die Tiefe, zu welcher wir zurückkehren, ist größer als die Zahl der Basenpositionen, welche durch die Breite der rechten Seite des Replikationsfensters decodiert werden müssen. Wenn der Zweig noch nicht vollendet ist, wird eine weitere Rekursion erforderlich.
  • Sobald der Zweig vollendet ist, wird in Schritt 22 ein weiterer Test vorgenommen, um zu bestimmen, ob der aktuelle Zweig am besten zur Sequenz paßt. An diesem Punkt ist der aktuelle Zweig vollendet, und alle für ihn erfolgten Aussagewahrscheinlichkeitsmessungen sind akkumuliert. Diese akkumulierte Aussagewahrscheinlichkeit wird nunmehr mit der verglichen, welche bisher zu dem besten Zweig gehörte. Wenn diese neue eine höhere Aussagewahrscheinlichkeit als die bisher beste besitzt, erfolgt im Schritt 24 ein Updating der Aufzeichnungen der besten Sequenz, und das Verfahren für diese Zelle wird abgeschlossen. Das Updating der Aufzeichnung der besten Sequenz umfaßt das Kopieren des aktuellen Zweiges und der Größe der Aussagewahrscheinlichkeit in das globale Register, und das Überschreiben der Informationen über den vorhergehenden besten Zweig.
  • Es ist klar, daß das in Fig. 1 dargestellte Programm mit Parametern aufgerufen wird, welche die in der Sequenz bisher erreichte Position und eine Messung der Zahl der verbliebenen Matrizen, welche noch auf den aktuellen Zweig kopiert sind, angeben. Die Rekursionsbox zeigt einen Aufruf an das Programm mit den geeigneten Parametern selbst an.
  • Ein Beispiel wie das Programm nach Fig. 1 in der Praxis arbeitet, ist in Fig. 2 erkennbar. Diese zeigt die Funktionen, welche bei dem Versuch ausgeführt werden, die aufgelisteten Sequenzen zu decodieren, nämlich eine erste Allele CAAAAA und eine zweite Allele CACACA. Der Primer wird mit CA angenommen, und er ist selbstverständlich für jede Allele derselbe.
  • Wir beginnen an der Oberseite des Stammes mit dem Knoten 0, wobei die erste Position als CC und die zweite als AA vorgegeben ist (hier repräsentiert der erste Buchstabe jedes Paares die erste Allele und der zweite die entsprechende Position in der zweiten Allele).
  • Am Knoten 1 wird die Voraussage AA getroffen. Weil das Replikationsfenster nicht abgedeckt ist, kehrt das Verfahren zum Knoten 2 zurück. Es wird eine Voraussage AA für diese nächste Position getroffen. Hier stellt sich heraus, daß die Messung kleiner ist als die Voraussage, so daß der Zweig übersprungen wird, und eine weitere Voraussage von AC wird am Knoten 3 getroffen. Die Messung ist wiederum kleiner als die Voraussage, so daß eine weitere Voraussage von CA am Knoten 4 getroffen wird. Hier wird dasselbe Ergebnis erzielt, und auch am Knoten 5, wo die Voraussage CC getroffen wird.
  • Weil keine weiteren ungeprüften vom Knoten 1 abhängigen Voraussagen vorhanden sind, wird eine zweite Voraussage von AC als mögliche Alternative zu AA am Knoten 1 getroffen. Das Replikationsfenster wird wiederum nicht abgedeckt, so daß eine Rekursion zum Knoten 7 erfolgt, an welchem die Base AA für die nächste Position in der Sequenz vorausgesagt wird. Dies erscheint möglich, so daß alle Ableger des Knotens 7 geprüft werden, wobei auf einer Stufe weiter unten mit der Voraussage AA am Knoten 8 begonnen wird.
  • Dies erscheint wiederum möglich, und die Knoten 9 bis 12 auf noch einer weiter unten befindlichen Stufe werden geprüft. In jedem Fall ist die Messung geringer als die Voraussage, und sie werden alle zurückgewiesen.
  • Das Verfahren wird dann am Knoten 12 fortgesetzt, wo AC als mögliche Alternative zu AA am Knoten 8 geprüft wird.
  • Es folgt der Rest des Stammes in gleicher Weise, bis alle Möglichkeiten in Betracht gezogen wurden. Die ausgewählte Sequenz ist dann diejenige mit den geringsten kumulativen Fehler.
  • Es ist selbstverständlich nur erforderlich, auf dem Stamm so tief wie notwendig zurückzugehen, um mit der erforderlichen Genauigkeit über die korrekte Lösung zu entscheiden. Ein alternatives Verfahren, welches das Zurückgehen auf dem gesamten Stamm vermeidet, besteht darin, die Sequenzierung als eine Sammlung von sich überlappenden kürzeren Sequenzen auszuführen.
  • Bei der praktischen Durchführung kann es aus Zeitgründen notwendig sein, den Betrag des Zurückgehens zu begrenzen. Es wird z. B. angenommen, daß unter normalen Umständen eine "Vorausschau" von einer Position wahrscheinlich damit gleichzusetzen ist, eine begründete Modellierung des Replikationseffektes vorzusehen. Obwohl es auch genauer ist, so zu verfahren, ist es auch nicht jedes Mal unbedingt erforderlich, zum obersten Punkt des wachsenden Stammes zurückzugehen. Die Wirkung irgendeiner gegebenen Base auf eine folgende Base in der Sequenz nimmt sehr schnell ab, wenn sich der Abstand zwischen den Basen vergrößert. Es ist deshalb in der Praxis wahrscheinlich wenig sinnvoll, im einzelnen jeden getrennten Betrag zu einer vorgeschlagenen Gesamtsequenz zu addieren, einschließlich solcher Beträge von Basen, welche von der aktuellen Position weit entfernt sind. Ein Weg zur Lösung dieses Problems besteht darin, Basen, welche weit von der aktuellen Position entfernt sind, als tatsächlich fest zu betrachten. Es kann dann ein Stamm unter Verwendung des nächsten Punktes dieser festen Sequenz als dessen Wurzel erneut aufgebaut werden.
  • Es ist klar, daß es eine große Zahl von unterschiedlichen Algorithmen gibt, welche verwendet werden können, um denselben voraussagenden Effekt zu erzielen. Das einzige Erfordernis besteht darin, daß es möglich sein muß, die nächste Base oder die nächsten Basen in der Sequenz unter Verwendung von Informationen, die von den zuvor bestimmten Basen in Zusammenhang mit akutellen Messungen an dieser Position gewonnen wurden, zu bestimmen. Wenn der Algorithmus eine "Vorausschau"-Möglichkeit besitzt, können die Informationen für die in der Sequenz nachfolgende Basen sowie die vorausgehenden Basen verwendet werden. Weiterhin muß die "nächste" zu bestimmende Base nicht notwendigerweise an die letzte bestimmte Base angrenzen: Unter Verwendung des bereits beschriebenen Verfahrens ist es z. B. gut möglich, die Positionen von zwei oder drei Basen, deren Identität unklar ist (z. B. durch einen Farbfleck auf dem Gel) zu überspringen und in der bekannten Weise fortzufahren. Ebenso kann es mit einer geeigneten Stammstruktur möglich sein, entlang der Sequenz nach Belieben vorwärts und rückwärts Voraussagen zu treffen.
  • Außerdem können sofort verschiedene unterschiedliche Primer eingeführt werden, um die Sequenz an verschiedenen Positionen einzuleiten. Das beschriebene Verfahren kann dann entlang der Sequenz sowohl vorwärts als auch rückwärts, wie es zweckdienlich ist, Voraussagen treffen, bis die Sequenzen, die mit den Primern übereinstimmen, zu einer Gesamtsequenz verbunden sind. Dies kann in der Praxis durch Wachsen einer graphischen Struktur geschehen, ähnlich dem in Fig. 2 dargestellten Stamm, allerdings durch Wachsen von Mehrfach-Nukleationspunkten aus, sowohl nach oben als auch nach unten, um sich in vielen Knoten zu treffen.
  • Das System kann weiterhin so gestaltet sein, daß es von bestimmten bekannten äußeren Informationen Gebrauch macht. Zum Beispiel können, wenn die Mengen der Reagenzien so bekannt sind, daß die exakte Größe und Form der Tracer bekannt ist, Punktvoraussagen getroffen werden. Ein dafür möglicher Algorithmus stellt sich wie folgt dar:
  • Gib die Primersequenz vor
  • B: Für die nächste unbekannte Basenposition in der Sequenz: Bestimme jedes mögliche Basenpaar (M, F) in den zwei Allelen
  • für jedes (M, F)
  • wenn wir die rechte Seite des Replikationseffektes nicht abgedeckt haben gehe zu B zurück:
  • oder
  • Sage die zu erwartenden Tracerinformationen an diesem Punkt voraus Vergleiche die Voraussagen mit den aktuellen Messungen Zeichne den Grad der Übereinstimmung mit den Voraussagen auf wenn wir sicher sein können, daß dieser aktuelle Zweig unausführbar ist, springe zum nächsten (M, F)
  • endif
  • wenn das Ende der zu beurteilenden Sequenz nicht erreicht ist, kehre zu B zurück:
  • oder vergleiche diesen Zweig mit dem bis dahin besten und halte den besseren der beiden.
  • endif
  • Gib den besten Zweig als Ergebnis aus.
  • Alternativ können die Mengen der Reagenzien nicht bekannt sein, so daß die Steilheit und die Größe der Tracer nicht bekannt sind. Wenn jedoch die Verhältnisse der Reagenzien bekannt sind, sollten die allgemeine Form und der Charakter der Peakveränderung gespeichert werden, und die Berechnung des Replikationseffektes und des Fluoreszenzeffektes kann durch eine Parameterdarstellung erfolgen.
  • Alternativ kann man, wenn das System so beschrieben ist, daß es möglich ist, die Form des Tracers vorherzusagen, diese besser im Profil als durch einzelne Messungen anpassen, indem man versucht, die Sequenz der Vorhersage unterzuordnen. Ein geeigneter Algorithmus, mit welchem wir ein Profil von Messungen entlang eines ganzen Zweiges betrachten können, ist der folgende: Gib die Primersequenz vor
  • B: Für die nächste unbekannte Basenposition in der Sequenz:
  • Bestimme jedes mögliche Basenpaar (M, F) in den zwei Allelen:
  • wenn wir die rechte Seite des Replikationseffektes nicht abgedeckt haben gehe zu B zurück:
  • oder
  • für jedes (M, F), Sage die zu erwartenden Tracerinformationen an diesem Punkt voraus
  • ZEICHNE DIESE INFORMATIONEN AUF
  • Wenn nicht das Ende der zu beurteilenden Sequenz erreicht ist, gehe zu B zurück:
  • oder
  • FORME DIE ZWEIGVORHERSAGEN UM, DAMIT SIE AM BESTEN
  • PASSEN
  • vergleiche diesen Zweig mit dem bisher am besten passenden und halte den besseren der beiden.
  • Gib den besten Zweig als Ergebnis aus.
  • Beachte, daß wir in diesem Fall keine Sofortentscheidungen über das Ausscheiden eines bestimmten Zweiges treffen können, bis der Zweig vollkommen wahrscheinlich ist, um einen veränderten Datensatz bestätigen zu können.
  • Auf dem Primer kann eine zusätzliche Primermarkierung verwendet werden, um zusätzliche Informationen für die Normalisierung des Replikationseffektes zu gewinnen. Wenn dies erfolgt, muß nur der Fluoreszenzeffekt abgedeckt werden, und somit ist eine "Vorausschau"-Fähigkeit unnötig. Die zwei Hauptprobleme bestehen in der Vermeidung der Verstärkung der Störsignale und dem Verlust der Kontinuität der Abhängigkeit während der gesamten Sequenz.
  • Um ein Signal zu normalisieren, teilen wir dessen Größe durch ein konstantes Maß der Anzahl von Fragmenten, welche Peaks verursachen, und dieses Maß erhält man durch die Größe des Peaks der Primermarkierung. Die Primerpeaks sind für Rauschen oder DNA-Hintergrundsignale gering, und deshalb werden die Terminator-Peaks stark vergrößert, wenn sie als bedeutsam erachtet werden.
  • Der Hauptvorteil besteht darin, daß die Verarbeitung viel lokaler erfolgen kann, weil die Anzahl von Fragmenten nicht von den vorhergehenden Basen abgeleitet werden muß. Dies erhöht die Verfügbarkeit von effektiven parallelen Algorithmen.
  • Um die Geschwindigkeit und Effektivität des Verfahrens zu erhöhen, ist es möglich, mehr Gebrauch von der parallelen als von der sequentiellen Verarbeitung zu machen. Um den Vorteil einer Anzahl von Prozessoren zu nutzen ist es notwendig, die Sequenz in Sektionen aufzuteilen. Die Aufteilung kann entweder durch die Sequenzposition oder durch den Typ der Base erfolgen.
  • Bei der Nutzung eines parallelen Systems, in welchem die Normalisierung angewendet wird, kann eine einzelne Base aus streng lokal festgesetzten Tracerdaten bestimmt werden.
  • Es ist klar, daß wir alle unbekannten Basen vorgeben müssen, aber diese können durch andere Prozessoren abgelöst werden, sobald sie selbst abgeleitet wurden. Ebenso wie die Entscheidung, daß eine vorgegebene Basenposition korrekt ist, können wir auch eine Anzahl von Vorgaben ausschließen. Zum Beispiel statt der Feststellung, daß eine gegebene Position zweifelsfrei CA ist, können wir feststellen, daß sie zweifelsfrei kein G auf einer der Allelen enthält. Im allgemeinen wird die Aussagewahrscheinlichkeit in bestimmten Ergebnissen zwischen den Prozessoren weitergeleitet, aber wir sollten uns dafür entscheiden, die Dinge zu vereinfachen, indem wir die Richtigkeit annehmen, wenn die lokale Wahrscheinlichkeit genügend hoch ist, die durch die Analyse einer vorausgehenden Zuverlässigkeitsinformation eingeschätzt wurde.
  • Ohne äußere Information müssen wir die Suche nach der korrekten Vorsequenz als Graph von Möglichkeiten annähern. Wenn die Informationen von den Prozessoren kommen, welche vorhergehenden Basenpositionen, die für das untergeordnete Fenster erforderlich sind, als wahrscheinlich beschrieben werden, lassen wir die Teile des Stammes weg oder wichten sie geringer, welche mit diesen Informationen nicht übereinstimmen.
  • Der Algorithmus in jedem Knoten kann entweder rekursiv sein oder ausdrücklich auf einer Datenstruktur des Stammes basieren. Die Tatsache, daß Teile des Stammes an irgendeinem Punkt weggelassen werden können, bedeutet, daß es ratsam ist, Schritte zu unternehmen, um unnötige Datenverarbeitung möglichst zu vermeiden. Das rekursive Verfahren wird meist intuitiv für die erste Tiefenuntersuchung angewendet. Selbstverständlich kann alles, was mit der Stammstruktur zu tun hat, benutzt werden, um als Rekursion zu dienen. Es ist das einfachste, die Funktionen auf der Grundlage einer etablierten Stammstruktur zu betrachten.
  • Zum Beispiel kann ein Algorithmus nach diesen Leitlinien entworfen werden:
  • (1) Baue zunächst die Stammstruktur aus Annahmen der Vorsequenz auf, welche in jeder Tiefe quer miteinander verbunden sind: (Option: Baue nur jene Teile des Stammes auf, deren Modelldaten sofort entschieden werden können).
  • (2) Berechne in jeder Tiefe des Stammes die Wahrscheinlichkeitsmessungen, welche bis dahin mit dem Zweig verbunden sind. Währenddessen werden Nachrichten von anderen Prozessoren eintreffen, welche Teile des Stammes ausschließen, wodurch das Verfahren abgekürzt wird.
  • Wenn weniger Prozessoren verfügbar sind, als es Basenpositionen gibt, wählen wir ein System der anfänglichen Zuordnung, von welchem wir annehmen, daß es eine optimale Abkürzung des Verfahrens ermöglicht.
  • Mit der Anwendung von solchen computergestützten Algorithmen wie diesem, wird die Variabilität von Peak zu Peak, welche von den Herstellern traditionell als ein zu überwindendes Problem betrachtet wurde, zum Vorteil. Die Variabilität enthält wichtige Informationen, welche in der vorliegenden Erfindung genutzt werden. Aus den Messungen, können wir die Gesamtsequenz der DNA auf beiden Allelen ableiten, und dabei gleichzeitig, sofern vorhanden, die Heterozygosität ermitteln. Wir sind ebenfalls in der Lage, Gemische von vollkommen separaten Sequenzen der DNA zu analysieren. Schließlich erhalten wir den Grad der Genauigkeit unserer Ergebnisse.

Claims (45)

1. Verfahren zur automatischen Sequenzierung eines DNA-Stranges, umfassend:
(a) Eine für jede Position im Strang erfolgende experimentelle Durchführung einer Messung, die für eine Base in dieser Position repräsentativ ist, und
(b) beginnen mit einer Ausgangssequenz, welche einen Teil des Stranges umfaßt, in welchem die Basen als bekannt vorausgesetzt werden, ein wiederholtes Aufbauen von Basen auf eine wachsende Sequenz; und bei jedem Schritt, das Bestimmen einer neuen Base, um sie einer neuen Position in der wachsenden Sequenz in Abhängigkeit sowohl von der Messung in der neuen Position als auch von mindestens einigen der zuvor bestimmten Basen in der wachsenden Sequenz hinzuzufügen;
gekennzeichnet durch die in jedem Schritt erfolgende Voraussage der Messung in der neuen Position, den Vergleich der vorausgesagten Messung mit der tatsächlichen Messung in der neuen Position, und der Bestimmung der neuen Base als Ergebnis des Vergleiches.
2. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 1, bei welchem die vorausgesagte Messung für die neue Position unter Verwendung von mindestens einigen der zuvor bestimmten Basen in der wachsenden Sequenz errechnet wird.
3. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 1 oder Anspruch 2, bei welchem die vorausgesagte Messung für die neue Position ohne Bezugnahme auf die Messungen für irgendeine Position im Strang berechnet wird.
4. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, bei welchem die vorausgesagte Messung für die neue Position vier getrennte Werte, einen für jede mögliche Base, umfaßt.
5. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, bei welchem die Messung in jeder Position vier getrennte Werte, einen für jede mögliche Base in dieser Position, umfaßt.
6. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 5, wenn dieser auf Anspruch 4 rückbezogen ist, bei welchem eine Base als Anwärter für die neue Position zurückgewiesen wird, wenn ihr tatsächlicher Wert für diese Position geringer ist als der erwartete Minimalwert, wobei der erwartete Minimalwert als Funktion des vorausgesagten Wertes für diese Base in dieser Position berechnet wird.
7. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, bei welchem die wachsende Sequenz Base für Base erzeugt wird, wobei die neue hinzuzufügende Base die nächste in der Sequenz zu der zuletzt hinzugefügten Base ist.
8. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der Ansprüche 1 bis 6, bei welchem die zur wachsenden Sequenz neu hinzuzufügende Base nicht notwendigerweise die nächste in der Sequenz zu der zuletzt hinzugefügten Base ist.
9. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, bei welchem die wachsende Sequenz von der Ausgangssequenz entlang des Stranges in beiden Richtungen wächst.
10. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, welches das gleichzeitige Wachsen einer Mehrzahl von wachsenden Sequenzen von einer anfänglichen Mehrzahl von Ausgangssequenzen umfaßt.
11. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, welches in einem vorgegebenen Schritt die Vorhersage der nächsten möglichen Base, danach die Vorausschau des nächsten Schrittes, die Vorhersage der möglichen nächsten Base für diesen Schritt und die Bestimmung der neuen Base für den vorgegebenen Schritt zumindest teilweise in Abhängigkeit von einer bevorzugten vorhergesagten Base für den nächsten Schritt umfaßt.
12. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der Ansprüche 1 bis 10, welches in einem vorgegebenen Schritt die Vorausschau einer Mehrzahl von Schritten, die Vorhersage einer Mehrzahl von möglichen Basensequenzen und die Bestimmung der neuen Base für den vorgegebenen Schritt zumindest teilweise in Abhängigkeit von einer bevorzugten vorhergesagten Basensequenz umfaßt.
13. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der Ansprüche 3 bis 12, wenn diese auf Anspruch 2 rückbezogen sind, bei welchem in jedem Schritt eine Fehlermessung konstruiert wird, die auf der vorausgesagten Messung und der tatsächlichen Messung in der neuen Position basiert, wobei die kumulative Fehlermessung für zumindest einen Teil der wachsenden Sequenz aufrechterhalten und die neue Base entsprechend der speziellen Base bestimmt wird, welche die kumulative Fehlermessung minimiert.
14. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 14, wenn dieser auf Anspruch 11 oder 12 rückbezogen ist, bei welchem die bevorzugte vorhergesagte Base oder die bevorzugte vorhergesagte Basensequenz jeweils entsprechend der speziellen Base oder Sequenz bestimmt wird, welche die kumulative Fehlermessung minimiert.
15. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der Ansprüche 1 bis 11, welches in einem vorgegebenen Schritt die Vorausschau einer Mehrzahl von Schritten, die Vorhersage einer Mehrzahl von möglichen Basensequenzen und die Bestimmung der neuen Base für den vorgegebenen Schritt zumindest teilweise in Abhängigkeit von einer bevorzugten vorhergesagten Basensequenz umfaßt, wobei die bevorzugte vorhergesagte Basensequenz als die Sequenz bestimmt wird, welche am besten zu einem vorhergesagten Meßprofil entsprechend den jeweiligen Positionen der vorhergesagten Basensequenz paßt.
16. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der vorhergehenden Ansprüche, bei welchem die Messungen unter Anwendung von im wesentlichen der Sanger-Techni durchgeführt werden.
17. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach irgendeinem der Ansprüche 1 bis 1 S. bei welchem die Messungen unter Anwendung einer modifizierten Sanger-Technik durchgeführt werden, bei welchem jeder der Reaktionsterminatoren entsprechend seinen jeweiligen Basen einzeln markiert ist, und in welchem alle innerhalb eines einzigen Reaktionsvolumens gemischt sind.
18. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 17, bei welchem der Reaktionsprimer ebenfalls markiert ist, wobei die Informationen von den Primer-Markierungen verwendet werden, um die Terminator- Markierungsmessungen zu normalisieren.
19. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach einem der Ansprüche 16 bis 18, bei welchem die vorausgesagte Messung für die neue Position unter Verwendung eines mathematischen Modells oder einer Look-up-Tabelle berechnet wird, welche den Replikationseffekt simuliert.
20. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 17, bei welchem die Reaktionsterminatoren farbmarkiert sind.
21. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 20, bei welchem die vorhergesagte Messung für die neue Position unter Verwendung eines mathematischen Modells oder einer Look-up-Tabelle berechnet wird, welche den Fluoreszenzeffekt simuliert.
22. Verfahren zur automatischen Sequenzierung eines DNA-Stranges nach Anspruch 16, bei welchem der Primer farbmarkiert ist.
23. Verfahren zur Bestimmung der Merkmale eines Fötus eines schwangeren weiblichen Wesens, welches die Entnahme einer Probe vom weiblichen Wesen, wobei die Probe Fötuszellen enthält, sowie die automatische Sequenzierung eines DNA-Stranges, der von den Fötuszellen stammt, unter Anwendung eines Verfahrens, wie es in einem oder mehreren der vorhergehenden Ansprüche beschrieben ist, umfaßt.
24. Verfahren nach Anspruch 23, bei welchem die Probe eine Blutprobe ist.
25. Verfahren nach Anspruch 24, bei welchem die Probe eine Probe von venösem Blut des schwangeren weiblichen Wesens ist.
26. Verfahren nach Anspruch 25, bei welchem die Probe eine Schleimprobe ist.
27. Verfahren nach Anspruch 26, bei welchem die Probe eine Gebärmutterhals- Schleimprobe ist.
28. Verfahren nach irgendeinem der Ansprüche 23 bis 27, welches den Schritt der Konzentration der Fötus-DNA in der Probe vor der Sequenzierung umfaßt.
29. Verfahren nach Anspruch 28, welches den Schritt der Konzentration der Fötuszellen in der Probe umfaßt.
30. Verfahren nach Anspruch 29, bei welchem die Fötuszellen durch deren Bindung unter Verwendung eines zelispezifischen Antikörpers konzentriert werden.
31. Verfahren nach irgendeinem der Ansprüche 23 bis 30, bei welchem die Bestimmung der Merkmale die Ermittlung der chromosomalen Anomalitäten umfaßt.
32. Verfahren nach irgendeinem der Ansprüche 23 bis 30, bei welchem die Bestimmung der Merkmale die Ermittlung der DNA-Mutationen umfaßt.
33. Verfahren zur Ermittlung eines Pathogens in einem menschlichen oder Tier-Patienten, welches die Entnahme einer Probe vom Patienten, wobei die Probe das Pathogen enthält, sowie die automatische Sequenzierung eines DNA-Stranges, der vom Pathogen abgeleitet ist, unter Anwendung eines Verfahrens, nach irgendeinem der Ansprüche 1 bis 22 umfaßt.
34. Verfahren nach Anspruch 33, welches den Schritt zur Bestimmung der vorhandenen Menge des Pathogens durch Messung der Belastung der DNA des Pathogens in der Probe umfaßt.
35. Verfahren nach Anspruch 33 oder Anspruch 34, bei welchem die Probe eine Blutprobe ist.
36. Verfahren nach Ansprüch 33 oder Anspruch 34, bei welchem die Probe eine Schleimprobe ist.
37. Verfahren nach Anspruch 33 oder Anspruch 34, bei welchem die Probe eine Urinprobe ist.
38. Verfahren nach Anspruch 33 oder Anspruch 34, bei welchem die Probe eine Spermaprobe ist.
39. Verfahren nach irgendeinem der Ansprüche 33 bis 38, welches einen Schritt zur Konzentration der DNA des Pathogens in der Probe vor der Sequenzierung umfaßt.
40. Verfahren nach Anspruch 34, bei welchem die Belastung der DNA des Pathogens als Verhältnis zur Gesamt-DNA der Probe bestimmt wird.
41. Verfahren zur Ermittlung von Fremd-DNA in einer Körperprobe, welches die Sequenzierung der DNA-Stränge in der Probe unter Anwendung eines Verfahrens nach irgendeinem der Ansprüche 1 bis 22, und die Ermittlung, ob Fremd-DNA vorhanden ist, durch Vergleich der sequenzierten DNA-Stränge von der Probe mit sequenzierten DNA-Strängen, die von einer weiteren Körperprobe abgeleitet wurden, von denen bekannt ist, daß sie keine Fremd-DNA enthalten, umfaßt.
42. Verfahren zur Ermittlung heterozygoter Sequenzen, welches die Sequenzierung eines Paares von DNA-Strängen unter Anwendung eines Verfahrens nach irgendeinem der vorhergehenden Ansprüche, und bei jedem Schritt die gleichzeitige Ermittlung der Basenpaare, welche zu den entsprechenden neuen Positionen in den wachsenden Sequenzen hinzuzufügen sind, umfaßt.
43. Verfahren zur automatischen Sequenzierung eines Gemisches von separaten DNA- Strängen eines ersten Typs und eines zweiten Typs, welches die Sequenzierung der separaten Stränge unter Anwendung eines Verfahrens nach irgendeinemder vorhergehenden Ansprüche, und bei jedem Schritt die Bestimmung der Basenzuordnungen, die den entsprechenden neuen Positionen in den wachsenden Sequenzen hinzuzufügen sind, umfaßt.
44. Verfahren nach Anspruch 43, welches die Bestimmung der relativen Anteile der DNA des ersten Typs und des zweiten Typs umfaßt.
45. Verfahren zur Ermittlung der relativen Anteile einer ersten Körperprobe und einer zweiten Körperprobe in einer gemischten Probe, wobei das Verfahren die Sequenzierung der DNA-Stränge in der gemischten Probe unter Anwendung eines Verfahrens nach irgendeinem der Anspruche 1 bis 22, die Ermittlung der relativen Anteile der DNA aus der ersten Probe und der zweiten Probe und die Ermittlung der relativen Anteile der Körperproben aus den relativen Anteilen der DNA umfaßt.
DE69520290T 1994-12-23 1995-12-22 Automatisches sequenzierungs verfahren Expired - Lifetime DE69520290T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB9426223.5A GB9426223D0 (en) 1994-12-23 1994-12-23 Automated dna sequencing
GBGB9503526.7A GB9503526D0 (en) 1994-12-23 1995-02-22 Automated dna sequencing
PCT/GB1995/003026 WO1996020286A1 (en) 1994-12-23 1995-12-22 Automated dna sequencing

Publications (2)

Publication Number Publication Date
DE69520290D1 DE69520290D1 (de) 2001-04-12
DE69520290T2 true DE69520290T2 (de) 2001-10-31

Family

ID=26306263

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69520290T Expired - Lifetime DE69520290T2 (de) 1994-12-23 1995-12-22 Automatisches sequenzierungs verfahren

Country Status (8)

Country Link
US (1) US6090550A (de)
EP (1) EP0799320B1 (de)
JP (1) JPH10513043A (de)
AT (1) ATE199571T1 (de)
AU (1) AU4309996A (de)
CA (1) CA2207952A1 (de)
DE (1) DE69520290T2 (de)
WO (1) WO1996020286A1 (de)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7193128B2 (en) * 1997-06-03 2007-03-20 Chromatin, Inc. Methods for generating or increasing revenues from crops
CA2419126A1 (en) * 2000-08-14 2002-02-21 Incyte Genomics, Inc. Basecalling system and protocol
EP1343914A2 (de) * 2000-12-11 2003-09-17 HK Pharmaceuticals, Inc. Multiplex-proteinexpression und aktivitätsbestimmung
US6691042B2 (en) 2001-07-02 2004-02-10 Rosetta Inpharmatics Llc Methods for generating differential profiles by combining data obtained in separate measurements
EP1636730A2 (de) * 2003-06-18 2006-03-22 Applera Corporation Verfahren und systeme zur analyse biologischer sequenzdaten
US20100216151A1 (en) * 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
WO2012177792A2 (en) 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
LT2805280T (lt) 2012-01-20 2022-12-27 Sequenom, Inc. Diagnostikos būdai, kurie atsižvelgia į eksperimentines sąlygas
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
LT2981921T (lt) 2013-04-03 2023-02-27 Sequenom, Inc. Neinvazinio genetinių variacijų vertinimo būdai ir procesai
IL309903A (en) 2013-05-24 2024-03-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
KR102299305B1 (ko) 2013-06-21 2021-09-06 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
BR112016007401B1 (pt) 2013-10-04 2023-04-11 Sequenom, Inc. Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra
CA2925111C (en) 2013-10-07 2024-01-16 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
EP3760739A1 (de) 2014-07-30 2021-01-06 Sequenom, Inc. Verfahren und prozesse zur nichtinvasiven beurteilung genetischer variationen
EP3491560A1 (de) 2016-07-27 2019-06-05 Sequenom, Inc. Genkopienzahlvariationklassifizierungen
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
CN118412041B (zh) * 2024-07-03 2024-09-13 齐鲁工业大学(山东省科学院) 一种dna测序数据匹配增强方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4941092A (en) * 1985-05-23 1990-07-10 Fuji Photo Film Co., Ltd. Signal processing method for determining base sequence of nucleic acid
JPS6242057A (ja) * 1985-08-19 1987-02-24 Fuji Photo Film Co Ltd 核酸の塩基配列決定のための信号処理方法
JPS6285861A (ja) * 1985-10-11 1987-04-20 Fuji Photo Film Co Ltd 核酸の塩基配列決定のための信号処理方法
US4885696A (en) * 1986-03-26 1989-12-05 Fuji Photo Film Co., Ltd. Signal processing method for determining base sequence of nucleic acid
EP0542883B1 (de) * 1990-08-07 1995-05-17 E.I. Du Pont De Nemours And Company Verfahren zur bestimmung von dns-sequenzen
FR2667325B1 (fr) * 1990-09-28 1992-12-18 Bertin & Cie Procede de sequencage rapide de sequences biologiques lineaires et ordonnees.
AU1999092A (en) * 1991-05-24 1992-12-30 Walter Gilbert Method and apparatus for rapid nucleic acid sequencing

Also Published As

Publication number Publication date
WO1996020286A1 (en) 1996-07-04
DE69520290D1 (de) 2001-04-12
US6090550A (en) 2000-07-18
ATE199571T1 (de) 2001-03-15
AU4309996A (en) 1996-07-19
EP0799320B1 (de) 2001-03-07
EP0799320A1 (de) 1997-10-08
JPH10513043A (ja) 1998-12-15
CA2207952A1 (en) 1996-07-04

Similar Documents

Publication Publication Date Title
DE69520290T2 (de) Automatisches sequenzierungs verfahren
DE68909514T2 (de) Verfahren zur gleichzeitigen Bestimmung von DNS-Sequenzvariationen von zahlreichen Stellen und ein Satz dafür.
DE69617274T2 (de) Verfahren und vorrichtung für diagnostischen dns-test
DE69905310T2 (de) Reflexalgorithmus zur frühen und kostengünstigen Diagnose von myokardischen Infarkten geeignet für automatisierte diagnostische Plattformen
DE69931262T2 (de) Spektrale eichung von verschiedenen fluoreszierenden farbstoffen zur verwendung in einer vorrichtung zur trennung von fluoreszierenden polynucleotiden
DE69733958T2 (de) Verfahren zur positionierung von klonen mittels molekularen kaemmens
US6950755B2 (en) Genotype pattern recognition and classification
EP0438512B2 (de) Verfahren zur analyse von längenpolymorphismen in dna-bereichen
DE19515552A1 (de) Simultane Sequenzierung von Nukleinsäuren
DE112014002045B4 (de) Nucleinsäure-Analysator und Nucleinsäure-Analysenverfahren unter Verwendung des Analysators
DE69938296T2 (de) Methode zur verwendung einer qualitätsmasszahl zur feststellung der qualität von biochemischen auftrennungen
US5002868A (en) DNA sequencing process using stable isotopes
DE10159262A1 (de) Identifizieren pharmazeutischer Targets
DE69330604T2 (de) Verfahren und system zur molekularbiologischen diagnose
WO2017202713A1 (de) Verfahren und system zur dokumentation eines diagnostischen tests
DE102005045560A1 (de) Verfahren zur quantitativen Bestimmung der Kopienzahl einer vorbestimmten Sequenz in einer Zelle
DE1124991T1 (de) Phytomics: ein auf genomics basierender ansatz für pflanliche wirkstoffzummensetzungen
DE4331018C2 (de) Verfahren zur Bewertung von Blutproben
DE60117180T2 (de) Verfahren zur messung des aktivierungszustands von signalwegen in zellen
DE102008019132A1 (de) Verfahren zur quantitativen Bestimmung der Kopienzahl einer vorbestimmten Sequenz in einer Probe
DE69906865T2 (de) Automatisches Diagnosesystem zur Durchführung von Immunoassays und klinisch-chemischen Assays nach einem Reflexalgorithmus
DE112012005966T5 (de) Verfahren, System und Kit zur Analyse von Genen
DE112020000650T5 (de) Genotypanalysevorrichtung und -verfahren
DE19955024C2 (de) Diagnose-Kit
DE10059776A1 (de) Trisomie 21-Diagnostik-Kit

Legal Events

Date Code Title Description
8328 Change in the person/name/address of the agent

Representative=s name: GROSSE, BOCKHORNI, SCHUMACHER, 81476 MUENCHEN

8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: GROSSE, SCHUMACHER, KNAUER, VON HIRSCHHAUSEN, 8033