DE102012024203A1

DE102012024203A1 - Verfahren zur Ermittlung der Sequenz von Biopolymeren

Info

Publication number: DE102012024203A1
Application number: DE102012024203A
Authority: DE
Inventors: Volker Deckert; Matthias Zeisberger
Original assignee: Institut fur Photonische Technologien EV
Current assignee: Leibniz Institut fuer Photonische Technologien eV
Priority date: 2011-12-05
Filing date: 2012-12-04
Publication date: 2013-06-06

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung der Sequenz von Biopolymeren unter Verwendung der TERS-Methode. Die Aufgabe, ein kostengünstiges und exaktes Sequenzierungsverfahren anzugeben, wird dadurch gelöst, dass das Biopolymer in Schrittweiten mit der Sonde abgetastet wird, die kleiner oder maximal gleich dem der Abstände der Monomere innerhalb des Biopolymers sind, in jedem Messpunkt die Ramanspektren und zugehörigen Signale als auch alle theoretisch in jedem Messpunkt möglichen Signale ermittelt und am gleichen Ort jeweils verglichen werden, davon die am besten übereinstimmenden Kombinationen für die weitere Auswertung in einer Tabelle abgespeichert und sortiert werden, wobei der Vorgang sooft wiederholt wird, bis das gesamte Biopolymer erfasst und bewertet wurde, wobei die Sequenz mit der kleinsten Abweichung der zu bestimmenden Sequenz entspricht.

Description

Die Erfindung betrifft ein Verfahren zur Ermittlung der Sequenz von Biopolymeren, insbesondere soll es dazu dienen, an einem einzelnen Molekül eines Biopolymers (z. B. DNA-Einzelstrang, Protein) durch Abscannen mit einer optischen Nahfeld-Sonde die Anordnung der Bausteine, wie Nukleotidbasen und Aminosäuren, mit technisch im Labormaßstab etablierten Mitteln zu bestimmen. Insbesondere soll das Verfahren ermöglichen, die Sequenz von Biopolymeren zu ermitteln, die nicht einer Vervielfältigung zugänglich sind, welche zu teuer oder nur in begrenztem Maß zur Verfügung stehen.
Nach dem bekannten Stand der Technik existiert schon eine Reihe von Verfahren zur Ermittlung der Sequenz, insbesondere von DNA. So gibt bspw. R. Treffer, V. Deckert, Recent advances in single-molecule sequencing, Current Opinion in Biotechnology, 2010, 21: 4–11 und die darin zitierte Literatur einen Überblick über aktuelle Entwicklungen auf dem Gebiet der DNA-Sequenzierung. In E. Bailo, V. Deckert, Tip-Enhanced Raman Spectroscopy of Single RNA Strands: Towards a Novel Direct-Sequencing Method, Angew. Chem. Int. Ed. 2008, 47, 1–5 und R. Treffer, X. Lin, E. Bailo, T. Deckert-Gaudig, V. Deckert, Distinction of nucleobases – a tip-enhanced Raman approach, Beilstein J. Nanotechnol. 2011, 2, 628–63 sind weitere zum Stand der Technik gehörige Vorarbeiten beschrieben.
Für DNA existieren etablierte Sequenzierungsverfahren. Diese benutzen die Möglichkeit, DNA-Moleküle zu vervielfältigen. Nach Vervielfältigung der Ausgangsprobe werden die DNA-Moleküle gezielt in kleinere Fragmente gespalten, die dann durch Gel-Elektrophorese identifiziert werden können.
Da diese Methode jedoch aufwändig und kostenintensiv ist, wird an alternativen Verfahren gearbeitet. Insbesondere sind Verfahren zur Einzelmolekül-Sequenzierung von Interesse. Diese Verfahren können in 3 Gruppen unterteilt werden in:
1. Fluoreszenzbasierte Methoden
Bei denen werden DNA-Moleküle schrittweise abgebaut und die Fragmente durch Fluoreszenz nachgewiesen. Dazu werden ggf. noch Markermoleküle angekoppelt.
2. Verfahren ohne Fluoreszenz (bzw. ohne optische Detektion)
Hier sind Verfahren zu nennen, bei denen sich das DNA-Molekül gegenüber einer Nanostruktur (Nano-Pore, Nano-Kante, Rastertunnel-Sonde usw.) bewegt und durch die Messung der Wechselwirkung (wie elektrische Spannung, Tunnelstrom usw.) auf die lokal (an der Spitze oder Kante) vorhandene Nukleotid-Base geschlossen wird.
3. Raman-Basierte Methoden (SERS, TERS)
Hier existieren ebenfalls Methoden, die Marker-Moleküle einsetzen, welche über ihr Raman-Spektrum detektiert werden können. Das Raman-Signal kann durch die Wirkung von Metallnanostrukturen, an die die Moleküle angebunden werden, verstärkt werden (SERS = surface enhanced Raman spectroscopy).
Eine marker-freie Methode ermöglicht die spitzenverstärkte Ramanspektroskopie (tip-enhanced Raman spectroscopy = TERS). Bei dieser Methode wird das DNA-Molekül (Einzelstrang) zunächst auf ein ebenes Substrat gebracht. Eine sehr feine Metallspitze (z. B. Ag oder Au), die sich nanometergenau über dem Molekül positionieren lässt, fährt nun am DNA-Strang entlang. Bei geeigneter Beleuchtung der Spitze mit einem Laser lassen sich Oberflächenplasmonen anregen, die zu einer Konzentration des elektromagnetischen Feldes in einem Bereich von wenigen Nanometern Durchmesser unter der Spitze führen. Dieses sehr stark lokalisierte Feld ermöglicht eine entsprechend stark lokalisierte Raman-Spektroskopie. Da die vier DNA-Basen über ihre Raman-Spektren eindeutig zu identifizieren sind, kann man mit dieser Methode sicher ermitteln, welche Basen (nicht jedoch deren Sequenz) in dem entsprechenden Bereich unter der Metallspitze vorhanden sind. Das zurzeit erreichbare Auflösungsvermögen liegt in der Größenordnung von 10 nm. Da die Nukleotidbasen einen Abstand von ca. 0.7 nm haben und das gemessene Spektrum damit immer von mehreren Basen stammt, ist die direkte Messung der genauen Basensequenz mit diesem Verfahren nicht möglich.
Darüber hinaus haften den vorstehend beschriebenen weiteren bekannten Verfahren folgende Nachteile an:
Die Möglichkeit der Vervielfältigung ist prinzipiell ausschließlich nur für reine DNA gegeben. Modifizierte ”DNA”-Moleküle, die andere oder modifizierte Basen enthalten, lassen sich nicht mit den üblichen Methoden vervielfältigen. Das gleiche gilt für Proteine. Damit ist eine Sequenzierung mit den ursprünglichen Verfahren nur möglich, wenn genügend große Mengen der Substanz zur Verfügung stehen. Auch die oben erwähnten fluoreszenzbasierten Methoden zur Einzelmolekülsequenzierung benutzen chemische Reaktionen, die für DNA spezifisch sind, also nicht auf andere Biopolymere übertragbar sind. Bei den nicht-fluoreszenz-basierten Methoden gibt es das Problem, dass sich die Messsignale (z. B. Tunnelstrom) für die vier Basen nur wenig unterscheiden.
Die Lösung dieser Probleme ist Gegenstand vorliegender Erfindung.
Vorliegender Erfindung liegt somit die Aufgabe zugrunde, ein möglichst kostengünstiges Verfahren zur Ermittlung der Sequenz von Biopolymeren anzugeben, bei dem nur eine Biopolymerkette vorzuliegen braucht und gleichwohl die exakte Sequenz der einzelnen Monomere ermittelbar ist.
Die Aufgabe wird durch die Merkmale des Anspruchs 1 gelöst. Vorteilhafte Ausgestaltungen sind Gegenstand der nachgeordneten Ansprüche.
Die Erfindung soll nachstehend anhand eines speziellen Ausführungsbeispiels näher erläutert werden. Es zeigen:
1 im oberen Teil eine typische Anordnung zur Durchführung einer TERS-Messung und im unteren Teil eine typische Profilfunktion einer solchen Messsonde;
2 beispielhaft ermittelte Ramanspektren am Beispiel einer DNA an drei verschiedenen Messpositionen der TERS-Sonde;
3 ein Beispiel für eine vereinfachte Profilfunktion als Grundlage für nachfolgende Tabellen:
Tab. 1 (in der speziellen Beschreibung) simulierte Signale an zehn benachbarten Sondenpositionen und
Tab. 2 bis 4 beispielhafte Tabellen (Listen) über verschiedene Stufen des nach der Erfindung ablaufenden Verfahrens.
Aus Gründen der Übersichtlichkeit soll in nachstehendem Ausführungsbeispiel die Sequenzierung am Beispiel von DNA beschrieben werden, da hier „nur” die vier Basen (A, T, C, G) existieren, worauf die Erfindung jedoch nicht beschränkt ist. In identischer Weise, jedoch nur mit erhöhtem Rechenaufwand, ist die Sequenz auch anderer Biopolymere nach vorliegender Erfindung exakt ermittelbar, wenn bspw. ein Protein zwanzig natürlich vorkommende Aminosäuren enthält.
Das erfindungsgemäße Verfahren wird im Beispiel anhand einer DNA-Sequenzierung mittels spitzenverstärkter Raman-Spektroskopie (TERS) näher beschrieben. Wie eingangs bereits erwähnt, wird bei der TERS-Methode eine Oberfläche mit einer feinen (Radius in der Größenordnung von 10 nm) Silber- oder Gold-Spitze abgetastet. Bei Bestrahlung mit Licht lassen sich in der Spitze Plasmonenresonanzen anregen, die zu einer lokalen Verstärkung des elektromagnetischen Feldes führen. Das ermöglicht, eine lokale Raman-Spektroskopie mit einer Ortsauflösung in der Größenordnung des Spitzenradius durchzuführen. Bei der beispielhaften Anwendung auf DNA lassen sich die Peaks der Raman-Spektren (vgl. 2) eindeutig einer der möglichen Nukleotidbasen Adenin (A), Thymin (T), Guanin (G) oder Cytosin (C) zuordnen.
2 zeigt dabei: Gemessene Raman-Spektren an drei verschiedenen Positionen der DNA. Die hier dargestellten beispielhaften Spektren unterscheiden sich jeweils in der Sondenposition um 0,3 nm. Als Signal wird jeweils die Höhe eines für die jeweilige Base charakteristischen Peaks benutzt, z. B. die Ringatmungsmode (Adenin 742, Thymin 809, Guanin 674 und Cytosin 790 cm^–1).
Zur quantitativen Analyse eines gemessenen Spektrums wird für jede Base ein charakteristischer Peak (z. B. Ringatmungsmode wie in 2) ausgewählt, dieser im gemessenen Spektrum gesucht und dessen Höhe gemessen. Diese Peakhöhe wird im Folgenden als Signal bezeichnet. Aus einem gemessenen Spektrum erhält man im Beispiel somit vier Signale für die hier möglichen vier Basen (A, T, C, G). Ist eine dieser Basen nicht im von der Spitze erfassten Bereich (siehe: im oberen Teil der 1 gestrichelt umrahmter Bereich, hier umfassend GTACTG), in dem die Basen liegen, die bei der Messung an der Sondenposition x_n erfasst werden, vorhanden, ist das entsprechende Signal Null.
Für die Sequenzierung wird der Molekül-Einzelstrang auf die Oberfläche eines geeigneten ebenen Substrates gebracht und mit der Sonde in kleinen Schritten abgetastet. Die typischen Abstände der Monomere (z. B. die der Nukleotide bei DNA ca. 0.7 nm) sind jedoch deutlich kleiner, als die erreichbaren Ortsauflösungen (einige nm) der TERS-Sonden, wie eingangs erwähnt. Daher liegen für jede Sondenposition mehrere Monomere vor, die alle zum Signal beitragen. Die Stärke der Ramanstreuung hängt von der lokalen elektrischen Feldstärke unter der Sonde ab und kann durch eine Profilfunktion (vgl. beispielhaft den unteren Teil von 1) beschrieben werden, die in der Mitte unter der Sonde ein Maximum aufweist und mit zunehmendem Abstand kleiner wird. Ab einem gewissen Abstand, der in der Größenordnung von einigen nm liegt, ist das Signal kleiner als das Rauschen. Damit lässt sich eine effektiv nutzbare Breite b des Profils vorgebbar festlegen. Diese ergibt sich aus der Profilfunktion P (vgl. 1) und dem Signal-Rauschverhältnis V des Messsystems aus der Gleichung P(b/2) = 1/V. Die im Beispiel betrachteten Basen, die weiter als ±b/2 von der Position der Spitze entfernt sind, tragen dann nicht mehr messbar zum Signal bei, was zur Vereinfachung der Auswertung beiträgt.
Mit dem im Folgenden am Beispiel von DNA beschriebenen erfindungsgemäßen Verfahren wird aus dem Signalgemisch auf die Anordnung der Basen zurückgeschlossen. Die Abtastung des DNA-Stranges erfolgt mit einer Schrittweite, die dem Basenabstand entspricht oder kleiner festlegbar ist, wobei die laterale Sondenposition (Profilmaximum) jeweils mit der Position einer Base (Mittelpunkt des Moleküls) möglichst gut übereinstimmen sollte. An jedem Messpunkt x wird das Raman-Spektrum aufgenommen und daraus die vier Basensignale A_exp(x), T_exp(x), G_exp(x) und C_exp(x) ermittelt. Der Index „exp” soll hier für tatsächlich experimentell ermittelte Messwerte stehen. Diese Signale sind die Summe der Beiträge aller Basen, jeweils gewichtet mit der Profilfunktion. Das Adenin-Signal an der Sondenposition x ist
Dabei sind x_k die Positionen der einzelnen Basen. Die Koeffizienten a_k sind 1, wenn die Base bei x_k Adenin (A) ist, und anderenfalls 0. Analog gilt für die anderen Basen:
Die Faktoren w_a, w_t, w_g und w_c stehen für die unterschiedliche Stärke der Raman-Signale der vier Basen und können durch eine Kalibrierungsmessung an einem DNA-Strang mit bekannter Sequenz bestimmt werden. Die Profilfunktion lässt sich prinzipiell durch Simulation des elektromagnetischen Feldes berechnen. Da dies jedoch sehr genaue Daten der Spitzengeometrie voraussetzt, die in der Regel nicht vorhanden sind, sollte die Profilfunktion ebenfalls durch eine Kalibrierungsmessung bestimmt werden. Dazu kann z. B. ein synthetischer DNA-Strang verwendet werden, der bis auf eine Stelle nur aus gleichen Basen besteht, z. B. ...AAATAAA.... Wird dieser Strang mit der Sonde abgefahren, ergibt sich aus dem Thymin-Signal die Profilfunktion.
Die obigen Gleichungen für die Signale vereinfachen sich, wenn man als Maßeinheit für die x-Achse den Monomerabstand (hier den Basenabstand von ca. 0.7 nm) verwendet und die Summation auf die oben erwähnte effektive Breite des Profils beschränkt. Damit ergibt sich für das Adenin-Signal (analog natürlich auch für die anderen im Beispiel vorkommenden Basen):
Dabei sind die ganzen Zahlen n bzw. k die Positionen der Sonde bzw. der Basen. Berücksichtigt werden im Beispiel jeweils die Base, die sich direkt unter der Sondenmitte befindet, sowie jeweils noch h Basen rechts und links davon. Die effektive Breite ist damit 2h + 1 (in Einheiten des Basenabstandes).
Zum Signal am ersten Messpunkt (n = 1) tragen alle Basen bei, die innerhalb des Sondenprofiles liegen, d. h. es gibt 4^2h+1 mögliche Sequenzen (2h + 1 Positionen mit jeweils vier Möglichkeiten). Für jede dieser möglichen Sequenzen (Index m = 1...4^2h+1) werden im Rahmen vorliegender Erfindung die entsprechenden Signale berechnet und mit den gemessenen Signalen an den jeweiligen Ortspositionen der Sonde verglichen. Zur Bewertung dieser Sequenzen wird im Rahmen der Erfindung die Abweichung von den Messwerten berechnet, wobei sowohl Mess- als auch berechnete Werte vorteilhaft normiert werden. Für das Adenin-Signal ergibt sich damit nachstehender Ausdruck für die Abweichung:
Für die anderen drei Basen im Beispiel gelten analoge Formeln. Die hier verwendete Normierung stellt sicher, dass nur die Verhältnisse der Signale, nicht jedoch die Absolutwerte ausgewertet werden. Damit wird das Verfahren unabhängig von Änderungen verschiedener äußerer Parameter (z. B. Intensität des anregenden Lichtes, vertikaler Abstand der Sonde). Aus den Abweichungen der einzelnen Basensignale lässt sich die folgende Gesamtabweichung gewinnen: Δ_m(n) = ((Δ A / m(n))² + (Δ T / m(n))² + (Δ G / m(n))² + (Δ C / m(n))²)^1/2
Alle für die Sondenposition n = 1 möglichen Sequenzen sowie die dazu berechneten Abweichungen werden nun in einer Tabelle [in der Informationstechnik auch als „Liste” bezeichnet, worunter hier eine Datenstruktur aus mehreren (bzw. sehr vielen) gleichartigen Datensätzen (im vorliegenden Beispiel also: Sequenz und Abweichung) verstanden wird] gespeichert. Solche Listen stehen in den gängigen Programmiersprachen (z. B. C++) zur Verfügung und bieten effiziente Methoden zum Hinzufügen und Entfernen, sowie zum Sortieren von Elementen. Solche Methoden sind an sich bekannt und erfordern hier deshalb keine weitere Erläuterung. Diese so erhaltene erste Tabelle wird anschließend nach ansteigenden Abweichungen sortiert. Danach befinden sich die Sequenzen mit den kleinsten Fehlern (sprich: Abweichungen zwischen dem gemessenen und theoretisch möglichen Wert an einem fixen Messort) am Anfang der Tabelle. Sequenzen deren Abweichung einen bestimmten vorgebbaren Wert überschreitet, werden vorteilhaft aus der Liste entfernt. Dieser willkürlich festzulegende Wert muss jedoch mindestens so groß festgelegt sein, dass alle wahrscheinlichen Sequenzen in der Liste verbleiben, also mindestens die mit dem kleinsten Abweichungswert. Ein zu großer Wert führt nicht zu Fehlern in der Auswertung, sondern erhöht lediglich den Rechenaufwand in den folgenden erfindungsgemäßen Schritten. Dieser erste Schritt liefert im Allgemeinen noch keine eindeutige Lösung, d. h. es können mehrere Sequenzen mit der gleichen Abweichung an den oberen Positionen der erzeugten Tabelle vorliegen.
Nun werden im nächsten Schritt die Signale an der benachbarten Sondenposition n = 2 durch Verschiebung der Sonde um einen Abstand, der hier gleich dem Abstand der Monomere des Biopolymers, (im Beispiel also dem benachbarter Nukleotidbasen) ist, ermittelt und abgespeichert. Die im ersten Schritt gewonnene Tabelle wird erweitert, indem an allen dort als möglich ermittelten Sequenzen eine neue Base angehängt wird. Da es dafür im Beispiel jeweils vier Möglichkeiten gibt, erhält man eine erweiterte Tabelle mit der vierfachen Länge. Zu diesen Sequenzen werden nun wieder die Abweichungen zwischen gemessenem und theoretisch möglichem Signal berechnet, die Tabelle neu sortiert und vorteilhaft Sequenzen mit zu großen Abweichungen aus der Tabelle, zwecks Minimierung des Rechenaufwands, wie oben angedeutet, entfernt. Diese Verfahrensschritte werden nun für alle Sondenpositionen (n) sooft wiederholt, bis die Sonde den gesamten Molekülstrang erfasst hat. Am Ende erhält man eine Tabelle, deren erstes Element (d. h. das mit der kleinsten Abweichung) die gesuchte Basensequenz darstellt.
Durch die erfindungsgemäßen Verfahrensschritte und Algorithmen gelingt es in überraschender Weise, eine exakte Sequenz eines Biopolymers zu bestimmen, obwohl die eingesetzte Sonde an sich nicht zur Sequenzierung geeignet ist, da sie, technisch bedingt, stets nur eine Vielzahl von Monomeren zu erfassen gestattet und damit lediglich eine Aussage über die Anwesenheit oder Nichtanwesenheit spezieller Monomere ermöglicht.
In den vorstehend beschriebenen Verfahrensschritten wurde angenommen, dass die Sondenpositionen mit den Basenpositionen übereinstimmen, d. h., dass das Maximum der Profilfunktion (vgl. 1) exakt mit der mittigen Position eines darunter liegenden Monomers übereinstimmt, was sich in der Praxis allerdings nur zufällig ergibt oder schwer realisieren lässt. Es wird in der Praxis also meist eine unbekannte Verschiebung von Bruchteilen eines Basenabstandes auftreten. Das kann durch Einführung eines entsprechenden Parameters (kleine Verschiebung s in der Profilfunktion P(n – k + s)) im vorliegenden Verfahren problemlos, ohne grundsätzlich an den beschriebenen Verfahrensschritten etwas zu ändern, berücksichtigt werden. Das Verfahren wird dann lediglich mehrfach mit Variation dieses Verschiebungsparameters s durchgeführt und dabei die Abweichung der so erhaltenen theoretischen Signale von den Messsignalen, wie beschrieben, minimiert.
Weiterhin wurde bislang vorausgesetzt; dass die Abtastung nicht am Anfang des im Beispiel betrachteten DNA-Stranges beginnt, sondern im ersten Schritt bereits die maximale Anzahl von Basen (2h + 1) innerhalb der Profilbreite der Profilfunktion vorliegt. Falls dies nicht der Fall ist, d. h. die Abtastung am Anfang des Stranges beginnt, sind zusätzlich zu den 4^2h+1 oben erwähnten Sequenzen noch entsprechende weitere Möglichkeiten mit unbesetzten Basenplätzen zu berücksichtigen, ohne das dies am beschriebenen Verfahrensablauf ansonsten etwas ändert.
Zur weiteren plastischen Erläuterung vorliegender Erfindung soll ein Beispiel dienen, in welchem aus Gründen der Übersichtlichkeit, weitere vereinfachende Annahmen gemacht wurden.
Dieses Beispiel soll auf der Basis simulierter „Messwerte” das vorliegende Verfahren zur Ermittlung der zu bestimmenden Sequenz einer Beispiel-DNA veranschaulichen. Um die Übersichtlichkeit zu wahren, wird hier als Profilfunktion P(x) eine relativ schmale (h = 2) Dreicksfunktion (vgl. 3) verwendet. Ausgangspunkt soll die folgende beispielhafte DNA-Sequenz sein, die es im Rahmen vorliegender Erfindung zu bestimmen gilt:

Aus dieser Sequenz und dem Dreiecksprofil werden im Beispiel unter Verwendung der Wichtungsfaktoren w_a = w_t = w_g = w_c = 1 die Signale an den Sondenpositionen (n = 3...48) berechnet und, um Messfehler (Rauschen) zu simulieren, noch mit Zufallszahlen (normalverteilt mit dem Mittelwert 1 und einer Streuung σ = 0.01) multipliziert (d. h. σ stellt einen relativen Fehler dar). Tabelle 1 zeigt die so berechneten Werte für die Sondenpositionen 3–12. Für n < 3 wurden in diesem Beispiel keine Signale berechnet, da in diesem Falle nicht die maximale Zahl von Basen innerhalb der hier vorgegebenen Profilbreite (vgl. 3) vorliegt. 3 zeigt dabei ein Dreiecksprofil mit dem Parameter h = 2: Es tragen fünf Basen zum Signal bei: die Base in der Mitte der Profilfunktion, sowie noch jeweils 2 Basen (daher h = 2) rechts und links der Mitte. Für alle weiter von der Mitte liegenden Basen ist die Profilfunktion Null. Entsprechend der hier vorgegebenen Profilfunktion werden also jeweils fünf Basen gleichzeitig bei der „experimentellen Messung” erfasst und deren Anteil in den Ramanspektren bewertet, wie in nachfolgender Tabelle dargestellt, wobei B_n für die Reihenfolge der einzelnen Basen an den Messpositionen 3 bis 12 steht und die Werte in den Spalten unterhalb der jeweiligen Basen deren Anteil in relativer Signalhöhe im Gesamtmesssignal angibt:

n	B_n	A[%]	T[%]	G[%]	C[%]
3	C	22.4	11.2	33.4	33.0
4	G	11.1	0.0	55.8	33.1
5	G	0.0	0.0	66.8	33.2
6	C	0.0	11.1	55.2	33.7
7	G	0.0	22.2	44.6	33.1
8	T	11.1	33.2	22.1	33.5
9	C	22.5	22.1	22.4	33.1
10	A	34.1	22.0	21.9	22.0
11	G	33.4	22.2	33.2	11.2
12	T	44.4	33.2	22.4	0.0

Tabelle 1: Simulierte („experimentelle”) Signale an den Sondenpositionen 3–12

Ausgehend davon, zeigt Tabelle 2 im ersten Rekonstruktionsschritt (n = 3), dass man von den fünf erfassten Basen acht Sequenzen (nämlich die ersten acht Zeilen in der Tabelle 2) mit dem gleichen minimalen Fehler erhält, wobei das <Δ> für den Mittelwert über alle Messpositionen bis zur aktuellen Position auch in den nachfolgenden Tabellen angibt. Eine dieser theoretisch möglichen Sequenzen ist die wahre Sequenz. Sie kann auf der Basis der berechneten Abweichungen jedoch noch nicht identifiziert werden. Für den nächsten Schritt (n = 4, vgl. Tab. 3) wurde die Sonde um einen Basenabstand verschoben, somit eine weitere Base in die Auswertung einbezogen und analog, wie oben beschrieben, wieder der Vergleich mit den theoretisch möglichen Kombinationen angestellt. Durch die vorgenommene bewertende Sortierung steht im Beispiel bereits die mit der Anfangssequenz übereinstimmende Sequenz in der ersten Zeile in der Tabelle 3. Das Verfahren wird solange fortgeführt, bis der in diesem Beispiel verwendete DNA-Ausgangsstrang vollständig erfasst und in allen weiteren Abtastpositionen bewertet wurde. Im letzten Rekonstruktionsschritt, bei n = 48 zeigt das erste Element der Liste, dargestellt in Tabelle 4, die hier nur den Anfang der sortierten Tabelle wiedergibt, in der ersten Zeile die zu ermittelnde DNA-Sequenz.
Aufgrund der hier verwendeten Profilbreite (h = 2) sind damit alle 50 Basen erfasst und die ursprüngliche Sequenz und die Bewertung liefert eine (über alle n) gemittelte Abweichung von <Δ> = 0.0033, womit die hier rekonstruierte DNA-Sequenz mit der zu bestimmenden original DNA-Sequenz übereinstimmt:
Zur Erhöhung der Messgenauigkeit, liegt es im Rahmen der Erfindung, das Signal auch auf der Basis mehrerer Raman-Linien als gewichtetes Mittel zu bestimmen, ohne dass sich dadurch am Verfahrensablauf Grundsätzliches ändert.
Das Verfahren, das hier aus Gründen der Übersichtlichkeit am Beispiel einer DNA-Sequenzierung näher erläutert wurde, kann analog auch für andere Biopolymere, wie z. B. Proteine verwendet werden, wenn das Molekül flach auf ein ebenes Substrat gebracht werden kann. Im Falle eines Proteins existieren dann zwanzig verschiedene Monomere (Aminosäuren), was im Vergleich zu DNA lediglich einen höheren Rechenaufwand, aber keine prinzipielle Änderung am vorgeschlagenen Verfahren ergibt.
Die wesentlichsten Vorteile des erfindungsgemäßen Verfahrens gegenüber dem eingangs zitierten Stand der Technik bestehen darin, dass

– die Sequenzierung an einem einzelnen Molekül durchgeführt werden kann;
– die Sequenz auch noch gesichert bestimmt werden kann, wenn eine Sonde zum Einsatz gelangt, die, technisch bedingt, nicht einzelne Monomere aufzulösen gestattet;
– durch die Verwendung von Raman-Spektren die verschiedenen Monomere sehr sicher unterschieden werden können;
– da die Methode nur ein einzelnes Molekül benötigt, neue Substanzen für die Sequenzierung erschlossen werden können, insbesondere solche, die nur in sehr geringen Mengen verfügbar (z. B. Membranproteine) sind und sich im Gegensatz zu DNA nicht vervielfältigen lassen.
– keine spezifischen chemischen Reaktionen erforderlich sind, was die Anwendung des Verfahrens auf neue Arten von Biopolymeren erleichtert.

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

R. Treffer, V. Deckert, Recent advances in single-molecule sequencing, Current Opinion in Biotechnology, 2010, 21: 4–11 [0002]
E. Bailo, V. Deckert, Tip-Enhanced Raman Spectroscopy of Single RNA Strands: Towards a Novel Direct-Sequencing Method, Angew. Chem. Int. Ed. 2008, 47, 1–5 [0002]
R. Treffer, X. Lin, E. Bailo, T. Deckert-Gaudig, V. Deckert, Distinction of nucleobases – a tip-enhanced Raman approach, Beilstein J. Nanotechnol. 2011, 2, 628–63 [0002]

Claims

Verfahren zur Ermittlung der Sequenz von Biopolymeren unter Verwendung an sich bekannter optischer Ramanspektroskopie-Methoden, bei denen eine Sonde, bestehend aus einer feinen Metallspitze, nanometergenau über dem Biopolymerstrang platziert und entlang des Strangs verschoben und zur Erzeugung von Ramanstrahlung angeregt wird, dadurch gekennzeichnet, dass ein einzelnes Biopolymermolekül auf einem ebenen Substrat abgelegt wird, wobei das Verschieben der Sonde entlang des Biopolymers in Schrittweiten vorgenommen wird, die kleiner oder maximal gleich dem der Abstände der Monomere innerhalb des Biopolymers sind, wobei a) an jedem einzelnen Messpunkt die jeweiligen Ramanspektren aufgezeichnet, die den im Messbereich enthaltenen Monomeren entsprechenden Signale ermittelt und zur Ortsposition des Messpunkts zugehörig abgespeichert werden, b) sämtliche Ramanspektren und die den Messpunkten zugehörigen Signale der im jeweiligen Messbereich befindlichen Monomere an allen weiteren Nachbarmesspunkten, die um jeweils maximal in der Größenordnung des Monomerabstandes angesteuert werden, aufgezeichnet und abgespeichert werden, was solange wiederholt wird, bis das gesamte Biopolymer mit seinen ortsabhängigen Spektren und Signalen erfasst und abgespeichert worden ist, c) in einem gesonderten Schritt, in Abhängigkeit von der ermittelten Profilfunktion der Sonde und aller möglichen Bestandteile des Biopolymers, alle möglichen Monomerkombinationen zu theoretisch in diesem Teilstück zu erwartenden Spektren berechnet und die entsprechenden Signale gebildet werden und mit dem jeweils gemessen Signalen am gleichen Ort verglichen werden, davon die am besten übereinstimmenden Kombinationen für die weitere Auswertung in einer Tabelle abgespeichert werden, d) welche dann nach dem Grad der Übereinstimmung zwischen gemessenem und berechnetem Signal nach absteigender Übereinstimmung sortiert wird und e) in einem weiteren Schritt die nächste Monomerposition einbezogen wird, indem aus jeder der vorherig ermittelten wahrscheinlichsten Möglichkeiten entsprechend der Anzahl der Monomere n weitere neue Kombinationen gebildet und diese wiederum mit den theoretischen Ausgangssignalen verglichen und in der gleichen Tabelle unter Bildung weiterer Zeilen und Spalten abgelegt werden und wiederum eine Sortierung nach absteigender Übereinstimmung vorgenommen wird und f) die Schritte nach c) bis e) solange wiederholt werden, bis alle nach b) ermittelten Signale des gesamten Polymerstrangs erfasst und tabellarisch bewertet wurden, wobei dann an der Tabellenspitze eine Sequenz mit geringster Abweichung <Δ> verbleibt, welche der zu bestimmenden Sequenz des Biopolymers entspricht.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle, dass am Ende dieser Prozedur nach den Schritten c) bis f) noch mehrere gleich gewichtete mögliche Sequenzen mit vergleichbarer Abweichung an der Tabellenspitze verbleiben, anschließend die gleiche Auswerteprozedur nach c) bis f) mit einer oder mehreren variabel vorgebbaren kleinen Verschiebung(en) der Profilfunktion und den danach theoretisch neu berechneten Ramanspektren und Vergleich der Signale mit den experimentell ermittelten Signalen solange wiederholt wird, bis eine eindeutige Sequenz mit deutlich geringster gemittelter Abweichung <Δ> als die der nachfolgenden Sequenzen an der Tabellenspitze verbleibt, welche dann der zu bestimmenden Sequenz des Biopolymers eindeutig entspricht.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zur Bildung der jeweiligen Signale an jedem Messpunkt die Summe der Beiträge der Peakhöhen aller Monomere im Ramanspektrum, jeweils gewichtet mit der Profilfunktion, verwendet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass entsprechend der ermittelten Profilfunktion eine Zuordnung der Signalhöhen zu den einzelnen Wellenzahlen der betreffenden Monomere vorgenommen wird und nur die messtechnisch ermittelten Ramanspektren aufgezeichnet als auch nur die theoretisch mit der gleichen Profilfunktion berechneten möglichen Ramanspektren der weiteren Auswertung zugeführt werden, bei denen das Signal/Rauschverhältnis größer 1 ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass sowohl für die Messsignale als auch die theoretischen Signale normierte Größen verwendet werden und in die weitere Auswertung einfließen, bei denen jeweils das Einzelsignal für ein Monomer durch die Summe aller Signale an der gleichen Messposition geteilt wird.