DE102013200309B3

DE102013200309B3 - Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung

Info

Publication number: DE102013200309B3
Application number: DE201310200309
Authority: DE
Inventors: Tilo Buschmann
Original assignee: Technische Universitaet Dresden
Current assignee: Technische Universitaet Dresden
Priority date: 2013-01-11
Filing date: 2013-01-11
Publication date: 2014-01-02
Anticipated expiration: 2033-01-12

Abstract

Die vorliegende Erfindung betrifft das Gebiet des Next Generation Sequencing (NGS), einer modernen Technologie zur Bestimmung der Abfolge der Nukleinbasen einer in einem Experiment gewonnenen DNA- oder RNA-Sequenz. Mit vorliegender Erfindung wird ein Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie ein Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von verwendeten Barcodes nach der Sequenzierung beschrieben. Dazu erfolgt eine Abwandlung der klassischen Levenshtein-Metrik durch eine neue Definition des Abstandes. Erfindungsgemäß tragen Substitution, Insertion und Deletion zur Abstandserhöhung bei, nicht aber das Verkürzen oder eine Elongation am Ende des Barcodes. Die klassische Levenshtein-Distanz wird in einer Art und Weise angepasst, die den möglichen oder tatsächlichen DNA-Kontext, das heißt jede auf den Barcode folgende mögliche oder tatsächliche Sequenz, in die Berechnungen einbezieht. Hauptvorteil der Erfindung ist die Möglichkeit, Insertionen und Deletionen mit größerer Sicherheit zu korrigieren, als dies mit der klassischen Levenshtein-Metrik erreicht wird.

Description

Mit vorliegender Erfindung wird ein Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie ein Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von verwendeten Barcodes nach der Sequenzierung beschrieben.
Next Generation Sequencing (NGS) ist eine moderne Technologie zur Bestimmung der Abfolge der Nukleinbasen einer in einem Experiment gewonnenen DNA- oder RNA-Sequenz. Die Vorteile von NGS (Schnelligkeit, relative Kostengünstigkeit im Vergleich zu vorherigen Lösungen, Genauigkeit) sorgen für eine stetig wachsende Verbreitung an allen wissenschaftlichen Instituten, die sich mit der Analyse der Erbinformationen und deren Umsetzung beschäftigen. Mehrere Weltkonzerne bieten Lösungen für NGS an, darunter Roche und Illumina.
Die weite Verbreitung von NGS hat zwei grundlegende Probleme hervorgerufen, die bisher nicht zufriedenstellend gelöst wurden: 1. Die Kosten pro Sequenzierung sind weiterhin unbefriedigend hoch, weshalb der Bedarf besteht, mehrere Proben in einem Durchlauf zu sequenzieren. 2. Bestimmte experimentelle Anordnungen erfordern die Markierung einer Probe und nachträgliche Identifikation. 3. Sollte nur eine geringere Materialmenge sequenziert werden (und kein komplettes Genom), wäre der Durchlauf mit nur einer Probe zeitlich und ökonomisch ineffizient.
Diese Probleme lassen sich lösen, indem man die zu sequenzierende DNA oder RNA mit einer Identifikationssequenz versieht, dem sogenannten Barcode. Dieser Barcode wird vor dem Sequenzieren der Probe eingefügt und nach dem Sequenzieren zur Identifikation wieder der Probe zugeordnet.
Das Grundproblem dieser Barcodes ist ihre Unzuverlässigkeit: Während ihrer Herstellung, ihres Einbringens in die Probe, ihrer Vermehrung und ihres Auslesens treten Störungen auf: Einzelne Nukleinbasen können ausgetauscht (Substitution, im Folgenden auch „sub”), eingefügt (Insertion, im Folgenden auch „ins”) oder gelöscht werden (Deletion, im Folgenden auch „del”).
Die verwendeten Barcodes werden dabei hauptsächlich über ihren „Abstand” zueinander definiert.
Eine der frühesten verwendeten Methoden zur Erkennung und Korrektur einer festgelegten Anzahl an Fehlern sind Hamming-Codes [1]. Hamming-Codes beruhen auf ein binäres System und ermöglichen die Korrektion von Substitutionen, nicht jedoch von Insertionen und Deletionen. Bei Hamming-Codes werden die Codewörter so gewählt, dass die Anzahl unterschiedlicher Stellen (definiert als der Hamming-Abstand) zwischen zwei beliebigen Codewörtern immer mindestens 3 beträgt: Eine einzige Substitution würde dazu führen, dass der Hamming-Abstand zum originalen Codewort 1, zu allen anderen Codewörtern 2 beträgt. Damit lässt sich ein solches „mutiertes” Codewort immer noch dem ursprünglich verwendeten Codewort zuordnen. Verallgemeinert lassen sich Hamming-Codes auch so erstellen, dass eine beliebige Anzahl Fehler korrigiert werden können, indem der Abstand hoch genug gewählt wird (nämlich als „Abstand = 2·Fehler + 1”).
Hamady et al. [2] passten Hamming-Codes erstmals auf den DNA Kontext an, indem sie jede Base durch zwei fortlaufende binäre Ziffern darstellten und Barcodes als Hamming-Codewörter aufbauten. Trotzt anfänglicher Popularität erwies sich diese Barcode-Methode jedoch bald als fehlerhaft: Bei einer vorgeschlagenen Konfiguration führten ein Drittel aller Einzelfehler auf DNA-Ebene zu 2-Bit Fehlern im Code. Diese 2-Bit Fehler konnten definitionsgemäß nicht behoben werden. (Fehler sind dann korrigierbar, wenn der „Abstand” zwischen zwei Barcodes mindestens 3 beträgt. Die Korrektur von größeren Fehlern erfolgt dementsprechend mit größeren Abständen.)
1965 führte Vladimir Levenshtein die nach ihm benannte Levenshtein-Distanz ein [3]. Sie beschreibt die minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um eine Zeichenkette in eine zweite umzuwandeln. Diese klassische Levenshtein-Distanz findet heute Anwendung in Algorithmen zur Rechtschreibprüfung oder zur Duplikaterkennung. Des Weiteren wurde sie vorgeschlagen zur Identifizierung von Barcodes bei der DNA- und RNA-Sequenzierung.
Problem: Der Abstand in der unveränderten Levenshtein-Metrik funktioniert nur, wenn die exakte Länge des übertragenen Codewortes (d. h. in diesem Anwendungsfall die Länge des Barcodes) bekannt ist. Dieser kann jedoch durch Fehler beliebig verkürzt oder verlängert worden sein.
Da es keine klare Trennung zwischen DNA-Barcode und darauffolgender DNA-Sequenz gibt, kann die Verlängerung oder Verkürzung des Barcodes nicht erkannt werden, was dazu führt, dass Fehler bezüglich Insertion und Deletion nicht eindeutig korrigiert werden können.
Aufgabe der Erfindung ist es daher eine Methode anzugeben, in der das oben genannte Problem gelöst wird.
Erfindungsgemäß wird ein Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes zur Anwendung in der Sequenzierung von Nukleinsäureproben beschrieben. Dieses Verfahren enthält die folgenden Schritte:

i.) Erzeugen von potentiellen Barcodes,
ii.) Berechnung des Abstandes zwischen den potentiellen Barcodes,
iii.) Aufnehmen der Barcodes in das (finale) Set unter Berücksichtigung der Abstandsvoraussetzungen.

Bevorzugt wird in Schritt i) ein Rohset erstellt, welches zunächst mindestens einen Barcode enthält. Das Erzeugen der Barcodes in Schritt i. läuft bevorzugt rein stochastisch ab, indem Barcodes mit einer vorgegebenen Länge zufällig aus den Nukleinbasen zusammengestellt werden.
Nukleinsäuren im Rahmen der Erfindung sind bevorzugt ausgewählt aus DNA und RNA.
Die Nukleinbasen sind bevorzugt die DNA-Basen Adenin (A), Guanin (G), Cytosin (C) und Thymin (T) oder auch die RNA-Basen A, G, C und Uracil (U).
Die Erfindung beruht auf einer Abwandlung der klassischen Levenshtein-Metrik durch eine neue Definition des Abstandes.
Abstand meint dabei die Anzahl an Insertionen, Deletionen oder Substitutionen die ein Barcode erfahren kann um einen anderen Barcode zu ergeben. Ein Barcode „ACGT” würde beispielsweise durch Substitution an zweiter Stelle zum Barcode „ATGT”; der Abstand zwischen diesen beiden Barcodes beträgt also 1. Üblicherweise werden nur Barcodes verwendet, die mindestens einen Abstand von 3 zueinander haben. Eine einzige Mutation würde dazu führen, dass der Abstand zum original Barcode 1, der zu allen anderen Barcodes 2 ist. Damit wäre eine solche Sequenz immer noch eindeutig dem ursprünglich verwendeten Barcode zuordenbar.
Hauptvorteil der Erfindung ist dabei die Möglichkeit, Insertionen und Deletionen mit größerer Sicherheit zu korrigieren, als dies mit der klassischen Levenshtein-Metrik erreicht wird.
Zunächst wird in Schritt i. bevorzugt ein Rohset aus allen möglichen Basenabfolgen erstellt (Für ein Rohset aus 8-stelligen Barcodes: 4⁸ = 65536 mögliche Rasenabfolgen). DNA Basen werden dazu bevorzugt als Nummern 0, 1, 2 und 3 in einem quaternären Alphabet dargestellt.
Bevorzugt umfasst das Verfahren einen zusätzlichen Schritt der Filterung nach biologischen und technischen Anforderungen. Hier werden insbesondere Barcodes aussortiert, die für die Sequenzierung oder PCR, problematisch sind.
Die Filterung erfolgt bevorzugt während Schritt i., d. h. jeder potentielle Barcode wird direkt nach seiner Erzeugung gefiltert und wenn er die biologischen und technischen Anforderungen nicht erfüllt sofort aussortiert. Alternativ erfolgt die Filterung nach Schritt i oder aber auch an jeder beliebigen anderen Stelle des Verfahrens.
Die Eigenschaften, die in der Filterung zum Ausschluss eines Barcodes führen sind dabei bevorzugt:

• GC-Gehalt von weniger als 40% oder mehr als 60%;
• perfekte Selbstkomplementierung, sowie
• mehr als 2 aufeinanderfolgende Wiederholungen derselben Base.

Andere Sequenzierungstechnologien können dabei andere Aussortierkriterien notwendig machen. Beispielsweise kann auch eine partielle Selbstkomplementierung oder eine wiederholte Abfolge von „ATAT” ein Ausschlusskriterium sein.
Bevorzugt erfolgt parallel ein Filtern der Barcodes nach unerwünschten Eigenschaften (siehe oben).
Das Erstellen des Sets und die Durchführung der Schritte i. bis iii. erfolgt bevorzugt ausgehend von mindestens einem potentiellen Barcode einer kleinen zufälligen Anzahl [bevorzugt mindestens 3–4, bei kurzen Barcodes (mit einer Länge von maximal 6 Basen) mindestens 1–2] von Barcodes in aufbauender Weise. Demnach wird für jeden neu erzeugten Barcode (ggf. nach Filterung) direkt der Abstand zu den bereits im Set vorhanden Barcodes berechnet. Der Barcode wird nur dann in das Set übernommen, wenn er die Abstandsvoraussetzungen erfüllt. So wird das Set aufbauend erstellt. Das erhaltene Set ist hier das finale Set.
Prinzipiell kann dies aber auch, wenn es die Rechnerleistung ermöglicht, ausgehend vom gesamten Rohset in abbauender Weise erfolgen. Dazu wird in Schritt i. zunächst ein Rohset erstellt, das eine größere Menge an Barcodes enthält. Die Abstandsberechnung erfolgt hier (ggf. nach Filterung) zwischen den Barcodes im bereits erstellten Rohset. In das finale Set werden Barcodes übernommen, welche die Abstandsvoraussetzungen (Schritt ii.) erfüllen.
Die Bezeichnung Code meint im Folgenden die Gesamtheit aller verwendeten Barcodes des finalen Sets. Die Bezeichnung Codewort bezieht sich im Folgenden auf einen einzelnen Barcode.
In Schritt ii. des erfindungsgemäßen Verfahrens wird für jeden potentiellen Barcode ein Abstand zu den anderen Barcodes des Sets bestimmt. Abstand meint dabei die Anzahl an Insertionen, Deletionen oder Substitutionen die ein Barcode erfahren kann um einen anderen Barcode zu ergeben. Ein Barcode „ACGT” würde beispielsweise durch Substitution an zweiter Stelle zum Barcode „ATGT”; der Abstand zwischen diesen beiden Barcodes beträgt also 1.
Insertionen, Deletionen und Substitutionen sind hierbei Punktmutationen, also Mutationen, die nur eine einzelne Base betreffen. Charakteristisch für Insertionen und Deletionen ist dabei eine Verschiebung des Leserasters. Barcodes werden hierbei verlängert (Insertion) oder verkürzt (Deletion).
Erfindungsgemäß tragen Substitution, Insertion und Deletion zur Abstandserhöhung bei, nicht aber das Verkürzen oder eine Elongation am Ende des Barcodes.
Erfindungsgemäß wird die klassische Levenshtein-Distanz in einer Art und Weise angepasst, die den möglichen oder tatsächlichen DNA-Kontext, das heißt jede auf den Barcode folgende mögliche oder tatsächliche Sequenz, in die Berechnungen einbezieht. Bevorzugt beträgt die Länge der auf den Barcode folgenden möglichen Probesequenz, die betrachtet wird, mindestens 5 Basen, weiter bevorzugt mindestsens 10 Basen.
Die erfindungsgemäße Sequence-Levenshtein-Distanz zwischen zwei beliebigen Wörtern A und B ist die minimale Anzahl an Mutationen (in/del/sub) die erfolgen muss, um A' zu erhalten, wobei A' im Anschluss genau einmal eine der beiden folgenden Operationen erfährt:

• A' wird am Ende verkürzt um B zu erhalten, oder
• A' wird am Ende verlängert um B zu erhalten.

Verkürzen und Verlängern (Elongation) tragen dabei nicht zum Abstand zwischen A und B bei.
Wenn A also durch Verlängern oder Verkürzen zu B führt, so ist der Abstand zwischen A und B gleich 0. Es folgt definitionsgemäß A = B.
„CAGG” und „CGTC” hätten beispielsweise eine klassische Levenshtein-Distanz von 3, könnten also Teil desselben Codes sein. Die Sequence-Levenshtein-Distanz beträgt allerdings 2 (Deletion der 2. Base „A” führt zu „CGG”; Substitution der 3. Base „G” mit „T” führt zu „CGT”. Im ungünstigsten Fall würde die folgende DNA-Sequenz mit „C” beginnen. Eine einfache Elongation würde also zu „CGTC” führen, trägt jedoch nicht zum Abstand bei.). „CAGG” und „CGTC” könnten also nicht Teil desselben Sequence-Levenshtein-Codes sein, da ihr Abstand nur 2 beträgt.
Erfindungsgemäß wird in Schritt iii. des Verfahrens ausgehend von dem Rohset ein finales Set (in der Erfindungsbeschreibung auch nur Set genannt) zusammengestellt. Dies kann entweder ausgehend von einer kleinen zufälligen Anzahl von Barcodes in aufbauender Weise oder aber auch ausgehend vom gesamten Rohset in abbauender Weise erfolgen.
Das finale Set soll schließlich zur Markierung von Nukleinsäureproben für eine gleichzeitige Sequenzierung derselben verwendet werden. Die verwendeten Barcodes werden so zusammengestellt, dass sie sich auch nach einer vorher festgelegten maximalen Anzahl Mutationen immer noch eindeutig unterscheiden. Damit kann auch der mutierte Barcode eindeutig dem ursprünglich eingesetzten Barcode und damit auch die Sequenz der Probe zugeordnet werden.
Zur Erstellung eines Codes, der die Abstandsvoraussetzung erfüllt, in aufbauender Weise, wird mit einem kleinen Set von 2 bis 4 zufällig gewählten Barcodes begonnen, die einen Abstand zueinander von mindestens 2k + 1 haben. k ist ausgewählt aus ganzen Zahlen und bevorzugt mindestens 1. k meint dabei die vor Erstellung des Codes festgelegte Anzahl an Mutationen, die der Code in der Lage sein soll auszugleichen. Alle übrigen Barcodes werden nun in lexikographischer Ordnung betrachtet und dem Ausgangsset zugefügt, sofern sie ebenfalls einen Abstand von mindestens 2k + 1 zu jedem anderen bereits im Set befindlichen Barcode haben.
Zur Erstellung eines Codes, der die Abstandsvoraussetzung erfüllt, in abbauender Weise, wird aus dem Rohset ein beliebiger Barcode ausgewählt und nacheinander mit jedem anderen im Rohset enthaltenen Barcode verglichen. Jeder Barcode, der nicht mindestens einen Abstand von 2k + 1 zu jedem anderen noch im Set verbleibenden Barcode aufweist, wird aus dem Set entfernt.
Verschiedene finale Sets werden auf diese Weise getestet, um das finale Set, welches letztendlich den größten Code ergibt, zu ermitteln.
Ebenfalls Gegenstand der Erfindung ist ein Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von Barcodes im Anschluss an eine gleichzeitige Sequenzierung von mehreren zu bestimmenden Nukleinsäureproben.
Nukleinsäureproben meint DNA- oder RNA-Proben mit vorläufig noch unbekannter Sequenz. Bei der Sequenzierung werden mehrere solcher DNA- oder RNA-Proben gleichzeitig im selben Reaktionsansatz sequenziert. Um eine eindeutige Zuordnung der aus der Sequenzierung erhaltenen Nukleinsäuresequenzen zu den jeweiligen Proben zu gewährleisten, wird jede Nukleinsäureprobe vor der Sequenzierung mit einem individuellen Barcode versehen.
Dabei werden bevorzugt Barcode-Sets verwendet, wie sie im oben beschriebenen erfindungsgemäßen Verfahren erlangt werden. Der jeweilige Barcode wird an den Primer vor die jeweilige Nukleinsäureprobe angehangen.
Nukleinsäuresequenzen meint die aus der Sequenzierung erhaltenen Sequenzen.
Im Anschluss an die Sequenzierung werden die eingesetzten Barcodes mit den durch die Sequenzierung erhaltenen Barcodes inklusive einer Anzahl von Basen der auf den Barcode folgenden Nukleinsäuresequenz, verglichen. Die Länge der Sequenz, die zum Vergleich mit den eingesetzten Barcodes herangezogen wird, beträgt dabei mindestens [Länge des Barcodes] + [Anzahl der Mutationen die korrigiert werden können (k)]. Dabei werden die oben beschriebenen Kriterien zur Ermittlung des Abstandes, basierend auf der veränderten Levenshtein-Metrik, angewandt. Insertionen, Deletionen und Substitutionen im Bereich des Barcodes tragen hierbei immer zu einer Abstandserhöhung bei, wohingegen Elongationen und Verkürzungen an den eingesetzten Barcode um die betrachtete Anzahl von Basen der auf den Barcode folgenden Nukleinsäuresequenz nicht zu einer Abstandserhöhung beitragen.
Jeweils der durch die Sequenzierung erhaltene Barcode, der den kleinsten Abstand zu einem eingesetzten Barcode aufweist, wird diesem zugeordnet. Somit wird die ihm anhängende Nukleinsäuresequenz auch der Nukleinsäureprobe, die dem eingesetzten Barcode anhing, zugeordnet.
Hauptvorteil des erfindungsgemäßen Verfahrens ist dabei die Möglichkeit, Insertionen und Deletionen mit größerer Sicherheit zu korrigieren, als dies mit der klassischen Levenshtein-Metrik erreicht wird, und somit eine sichere Zuordnung von Nukleinsäuresequenzen im Anschluss an eine Sequenzierung zu den verwendeten Probesequenzen zu gewährleisten.
Gegenstand der Erfindung ist auch ein Computerprogrammprodukt zur Durchführung eines der beiden oben beschriebenen erfindungsgemäßen Verfahren.
Die Erfindung wird nachfolgend durch Figuren, ein Vergleichsbeispiel und ein Ausführungsbeispiel erläutert. Dabei zeigen:
1 zeigt, dass klassische Levenshtein Codes im DNA-Kontext scheitern, da die Barcode-Grenze nicht bekannt ist. Hier wurde eine Base aus dem verwendeten Barcode „CAGG” deletiert. Durch Nachrücken der folgenden Sequenz ist der resultierende Barcode „CGGC” nun näher am falschen Barcode „CGTC” (rechts) als am Original Barcode „CAGG” (links).
2 zeigt die Operationen in der erfindungsgemäßen Sequence-Levenshtein-Metrik.
3a veranschaulicht den Abstand zwischen zwei Barcodes c_C und c_D nach der erfindungsgemäßen Sequence-Levenshtein-Metrik, die Teil eines Sets von Barcodes, welches die Abstandsvoraussetzung erfüllt, sein könnten.
3b zeigt die nicht eindeutige Zuordnung einer Sequenz zum verwendeten Barcode aufgrund der Anwendung der klassischen Levenshtein-Metrik, trotzt der Verwendung zweier Barcodes aus einem Set, generiert durch die Sequence-Levenshtein-Metrik.
3c zeigt die erfolgreiche Zuordnung einer Sequenz zum verwendeten Barcode aufgrund der Anwendung der erfindungsgemäßen Sequence-Levenshtein-Metrik, unter Verwendung zweier Barcodes aus einem Set, generiert durch die Sequence-Levenshtein-Metrik.
1. Vergleichsbeispiel: Klassische Levenshtein-Codes scheitern im DNA-Kontext:
Zur Korrigierbarkeit eines Fehlers in der klassischen Levenshtein-Metrik müssen zwei Barcodes eines Sets einen Abstand von mindestens 3 aufweisen, da ein durch eine Mutation veränderter Barcode dann immer noch dem ursprünglich verwendeten Barcode zuordenbar wäre.
Die Barcodes c_A = „CAGG” und c_B = „CGTC” weisen diesen Abstand von 3 auf (Deletion von „A” an zweiter Stelle führt zu „CGG”; Substitution von „G” an dritter Stelle zu „T” führt zu „CGT”; Insertion von „C” an vierter Stelle führt zu „CGTC”) und könnten somit Teil ein und desselben Codes sein.
veranschaulicht ein Beispiel, bei dem „CAGG” als Barcode vor einer Sequenz „CA...” verwendet wird. Angenommen es käme zu einer Deletion von „A” an zweiter Stelle. Die resultierende Sequenz wäre „CGGCA... ”, wobei das erste „C” der Sequenz in den Bereich des Barcodes fallen würde. Da nicht bekannt ist, welche Mutation erfolgt ist, ist auch die Barcode-Sequenz-Grenze unklar und bei der Dekodierung würden folglich die ersten 4 Basen betrachtet werden, welche nun „CGGC” lauten. Diese resultierende Barcode-Sequenz hat einen Abstand von 2 zum ursprünglich verwendeten Barcode „CAGG”. Der Abstand zu einem anderen Barcode „CGTC”, der sich nach der Levenshtein-Metrik ebenfalls im verwendeten Code befinden kann, beträgt allerdings 1. Die Sequenz würde somit fälschlicherweise dem Barcode c_B zugeordnet werden und die Dekodierung wäre nicht erfolgreich verlaufen.
2. Ausführungsbeispiel: Operationen in der erfindungsgemäßen Sequence-Levenshtein-Metrik:
In der Sequence-Levenshtein-Metrik werden Verlängerungen (Elongation, im Folgenden auch „elong”) und Kürzen von Basen am Ende der Barcode-Sequenz nicht als Operation gewertet. Sie tragen somit auch nicht zum Abstand zwischen zwei Barcodes bei.
2 und Tabelle 1 veranschaulichen die Distanz verschiedener Kandidaten-Barcodes zu einer resultierenden Sequenz. Tabelle 1: Beispiel für Dekodierung mittels Sequence-Levenshtein-Metrik.
Die Beispielsequenz ”TCCATGCATA” (SEQ ID Nr. 1) wird für vier verschiedene Kandidaten-Barcodes ”TTCC”, ”ACAC”, ”CGAA” und ”TAGG” dekodiert. Der Original Barcode „TTCC” hat die geringste Sequence-Levenshtein-Distanz zur Sequenz und die Barcode-Grenze wird korrekterweise bei 3 erkannt.
3. Vergleich des Abstands zwischen zwei Barcodes c_A und c_B in der klassischen und in der erfindungsgemäßen Sequence-Levenshtein-Metrik
Wie bereits in Beispiel 1 erläutert, weisen die Barcodes c_A = „CAGG” und c_B = „CGTC” nach der klassischen Levenshtein-Metrik einen Abstand von 3 zueinander auf und könnten demzufolge Teil desselben Barcode-Sets (zur Korrektur von einem Fehler) sein.
Die erfindungsgemäße Sequence-Levenshtein-Distanz berechnet sich wie folgt: Deletion der 2. Base „A” führt zu „CGG”; Substitution der 3. Base „G” mit „T” führt zu „CGT”. Im ungünstigsten Fall würde die folgende DNA-Sequenz mit „C” beginnen. Eine einfache Elongation würde also zu „CGTC” führen, trägt jedoch nicht zum Abstand bei. „CAGG” und „CGTC” könnten also nicht Teil desselben Sequence-Levenshtein-Codes sein, da ihr Abstand nur 2 beträgt. Das erfindungsgemäße Verfahren der Sequence-Levenshtein-Metrik wird also bereits in der Erstellung der Barcode-Sets angewandt.
4. Veranschaulichung der Vorteilhaftigkeit der Verwendung der erfindungsgemäßen Sequence-Levenshtein-Metrik nicht nur zur Erstellung der Barcode-Sets sondern auch zur Zuordnung der Barcodes im Anschluss an die Sequenzierung
Wird ein Barcode-Set nach dem erfindungsgemäßen Verfahren generiert, so ist es von Vorteil auch nach der Sequenzierung die erfindungsgemäße Sequence-Levenshtein-Metrik anzuwenden, da trotzt vorteilhaftem Barcode-Set durch die Verwendung der klassischen Levenshtein-Metrik noch Fehler auftreten können.
3 veranschaulicht ein entsprechendes Beispiel.
Nach erfindungsgemäßer Sequence-Levenshtein-Metrik haben die beiden Barcodes c_C = „CCTGTAA” und c_D = „CTTCACA” einen Abstand von 3 (Deletion von „C” an zweiter Stelle, Deletion von „G” an dritter Stelle, Substitution von A mit C an vierter Stelle, Elongation mit „CA”) und können Teil des selben Barcode-Sets sein. (3a)
Es sei angenommen beide Barcodes sind Teil desselben Barcode-Sets. Es sei weiter angenommen, c_C wird vor eine Nukleinsäureprobe eingefügt, die mit den Basen „CA” beginnt, und es erfolgt eine Deletion von „G” an dritter Stelle des Barcodes. Die nach der Sequenzierung erhaltene Sequenz im ursprünglichen Barcode-Bereich lautet „CCTTAAC”.
Wendet man nun zur Zuordnung der Barcodes nach der Sequenzierung die klassische Levenshtein-Metrik an, so ist der Abstand zum ursprünglich verwendeten Barcode c_C 3, jedoch zum falschen ebenfalls im Set vorhandenen Barcode c_D 2. Eine falsche Zuordnung findet damit statt. (3b)
Wendet man zur Zuordnung der Barcodes nach der Sequenzierung die Sequence-Levenshtein-Metrik an, so ist der Abstand zum ursprünglich verwendeten Barcode c_C geringer als der zum falschen ebenfalls im Set vorhandenen Barcode c_D, da eine Elongation um die dem Barcode angehängte Nukleinsäuresequenz nicht zu einer Abstandserhöhung beiträgt. Die Sequenz wird dem korrekten Barcode zugeordnet. (3c)
Das Beispiel veranschaulicht, dass sich auch bei Verwendung eines Barcode-Sets, welches durch die erfindungsgemäße Sequence-Levenshtein-Metrik generiert wurde, eine Anwendung der Sequence-Levenshtein-Metrik zur Zuordnung der Barcodes im Anschluss an die Sequenzierung empfiehlt.
In der Patentbeschreibung wird folgende Nichtpatentliteratur zitiert:

[1] L. V. Bystrykh. Generalized DNA barcode design based on hamming codes. PLoS ONE, 7(5): e36852, May 2012.
[2] M. Hamady, J. J. Walker, J. K. Harris, N. J. Gold, and R. Knight. Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex. Nat Meth, 5(3): 235–237, Mar. 2008.
[3] V. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady, 10(8): 707–710, 1966.

Es folgt ein Sequenzprotokoll nach WIPO St. 25. Dieses kann von der amtlichen Veröffentlichungsplattform des DPMA heruntergeladen werden.

Claims

Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes zur Anwendung in der Sequenzierung von Nukleinsäureproben, wobei i.) potentielle Barcodes erzeugt werden, und ii.) für den potentiellen Barcode ein Abstand zu den anderen Barcodes des Sets bestimmt wird, wobei der Abstand durch die Anzahl möglicher Substitutionen, Insertionen und Deletionen, nicht jedoch durch Elongationen oder Verkürzungen definiert wird, wobei bei Insertionen und Deletionen nicht nur die Barcode-Sequenz, sondern jede auf die Barcode-Sequenz folgende mögliche Probesequenz in die Abstandsberechnung einbezogen wird, und iii.) nur Barcodes die einen Abstand von mindestens 2k + 1 zu jedem anderen Barcode des Sets aufweisen in das Set aufgenommen werden, wobei k die vorher festgelegte Anzahl an zulässigen Mutationen angibt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die in die Berechnungen einbezogene, auf die Barcode-Sequenz folgende, mögliche Probesequenz eine Länge von mindestens k Nukleotiden aufweist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zusätzlich eine Filterung der Barcodes erfolgt, wobei biologisch und technisch problematische Barcodes aussortiert werden.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Filterung während Schritt i. oder nach Schritt i. erfolgt.
Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass biologisch und technisch problematische Barcodes ausgewählt sind aus mindestens einem der folgenden: Barcodes mit einem GC-Gehalt von weniger als 40% oder mehr als 60%, Barcodes mit Selbstkomplementierung, Barcodes mit mehr als 2 aufeinanderfolgenden Wiederholungen derselben Base.
Verwendung eines Sets von Nukleinsäure-Barcodes, erhalten mit einem Verfahren nach einem der Ansprüche 1 bis 5, in der gleichzeitigen Sequenzierung von mehreren zu bestimmenden Nukleinsäureproben.
Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von Barcodes im Anschluss an eine gleichzeitige Sequenzierung von mehreren zu bestimmenden Nukleinsäureproben, wobei jede Probe an einem ihrer Enden mit einem unterschiedlichen Barcode versehen ist und die Sequenzen im Anschluss an die Sequenzierung durch den Vergleich der eingesetzten Barcodes mit den durch die Sequenzierung erhaltenen Barcodes den Proben zugeordnet werden, wobei zur Zuordnung der Abstand zwischen den eingesetzten Barcodes und dem durch die Sequenzierung erhaltenen Barcodes bestimmt wird, wobei der Abstand durch die Anzahl möglicher Substitutionen, Insertionen und Deletionen, nicht jedoch durch Elongationen oder Verkürzungen definiert wird, wobei bei Insertionen und Deletionen nicht nur die Barcode-Sequenz, sondern jede auf die Barcode-Sequenz folgende mögliche Probesequenz in die Abstandsberechnung einbezogen wird, wobei jeweils der durch die Sequenzierung erhaltene Barcode, der den kleinsten Abstand zu einem eingesetzten Barcode aufweist diesem zugeordnet wird.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die in die Berechnungen einbezogene, auf die Barcode-Sequenz folgende, Probesequenz eine Länge von mindestens k Nukleotiden aufweist.
Verfahren nach einem der Ansprüche 1 bis 5, 7 oder 8, oder Verwendung nach Anspruch 6, dadurch gekennzeichnet, dass Nukleinsäuren ausgewählt sind aus DNA und RNA.
Computerprogrammprodukt welches ein Verfahren nach mindestens einem der Ansprüche 1 bis 5 oder 7 bis 9 durchführt.