DE102013200309B3 - Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung - Google Patents

Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung Download PDF

Info

Publication number
DE102013200309B3
DE102013200309B3 DE201310200309 DE102013200309A DE102013200309B3 DE 102013200309 B3 DE102013200309 B3 DE 102013200309B3 DE 201310200309 DE201310200309 DE 201310200309 DE 102013200309 A DE102013200309 A DE 102013200309A DE 102013200309 B3 DE102013200309 B3 DE 102013200309B3
Authority
DE
Germany
Prior art keywords
barcodes
barcode
distance
nucleic acid
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE201310200309
Other languages
English (en)
Inventor
Tilo Buschmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Dresden
Original Assignee
Technische Universitaet Dresden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Dresden filed Critical Technische Universitaet Dresden
Priority to DE201310200309 priority Critical patent/DE102013200309B3/de
Application granted granted Critical
Publication of DE102013200309B3 publication Critical patent/DE102013200309B3/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Data Mining & Analysis (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Die vorliegende Erfindung betrifft das Gebiet des Next Generation Sequencing (NGS), einer modernen Technologie zur Bestimmung der Abfolge der Nukleinbasen einer in einem Experiment gewonnenen DNA- oder RNA-Sequenz. Mit vorliegender Erfindung wird ein Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie ein Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von verwendeten Barcodes nach der Sequenzierung beschrieben. Dazu erfolgt eine Abwandlung der klassischen Levenshtein-Metrik durch eine neue Definition des Abstandes. Erfindungsgemäß tragen Substitution, Insertion und Deletion zur Abstandserhöhung bei, nicht aber das Verkürzen oder eine Elongation am Ende des Barcodes. Die klassische Levenshtein-Distanz wird in einer Art und Weise angepasst, die den möglichen oder tatsächlichen DNA-Kontext, das heißt jede auf den Barcode folgende mögliche oder tatsächliche Sequenz, in die Berechnungen einbezieht. Hauptvorteil der Erfindung ist die Möglichkeit, Insertionen und Deletionen mit größerer Sicherheit zu korrigieren, als dies mit der klassischen Levenshtein-Metrik erreicht wird.

Description

  • Mit vorliegender Erfindung wird ein Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie ein Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von verwendeten Barcodes nach der Sequenzierung beschrieben.
  • Next Generation Sequencing (NGS) ist eine moderne Technologie zur Bestimmung der Abfolge der Nukleinbasen einer in einem Experiment gewonnenen DNA- oder RNA-Sequenz. Die Vorteile von NGS (Schnelligkeit, relative Kostengünstigkeit im Vergleich zu vorherigen Lösungen, Genauigkeit) sorgen für eine stetig wachsende Verbreitung an allen wissenschaftlichen Instituten, die sich mit der Analyse der Erbinformationen und deren Umsetzung beschäftigen. Mehrere Weltkonzerne bieten Lösungen für NGS an, darunter Roche und Illumina.
  • Die weite Verbreitung von NGS hat zwei grundlegende Probleme hervorgerufen, die bisher nicht zufriedenstellend gelöst wurden: 1. Die Kosten pro Sequenzierung sind weiterhin unbefriedigend hoch, weshalb der Bedarf besteht, mehrere Proben in einem Durchlauf zu sequenzieren. 2. Bestimmte experimentelle Anordnungen erfordern die Markierung einer Probe und nachträgliche Identifikation. 3. Sollte nur eine geringere Materialmenge sequenziert werden (und kein komplettes Genom), wäre der Durchlauf mit nur einer Probe zeitlich und ökonomisch ineffizient.
  • Diese Probleme lassen sich lösen, indem man die zu sequenzierende DNA oder RNA mit einer Identifikationssequenz versieht, dem sogenannten Barcode. Dieser Barcode wird vor dem Sequenzieren der Probe eingefügt und nach dem Sequenzieren zur Identifikation wieder der Probe zugeordnet.
  • Das Grundproblem dieser Barcodes ist ihre Unzuverlässigkeit: Während ihrer Herstellung, ihres Einbringens in die Probe, ihrer Vermehrung und ihres Auslesens treten Störungen auf: Einzelne Nukleinbasen können ausgetauscht (Substitution, im Folgenden auch „sub”), eingefügt (Insertion, im Folgenden auch „ins”) oder gelöscht werden (Deletion, im Folgenden auch „del”).
  • Die verwendeten Barcodes werden dabei hauptsächlich über ihren „Abstand” zueinander definiert.
  • Eine der frühesten verwendeten Methoden zur Erkennung und Korrektur einer festgelegten Anzahl an Fehlern sind Hamming-Codes [1]. Hamming-Codes beruhen auf ein binäres System und ermöglichen die Korrektion von Substitutionen, nicht jedoch von Insertionen und Deletionen. Bei Hamming-Codes werden die Codewörter so gewählt, dass die Anzahl unterschiedlicher Stellen (definiert als der Hamming-Abstand) zwischen zwei beliebigen Codewörtern immer mindestens 3 beträgt: Eine einzige Substitution würde dazu führen, dass der Hamming-Abstand zum originalen Codewort 1, zu allen anderen Codewörtern 2 beträgt. Damit lässt sich ein solches „mutiertes” Codewort immer noch dem ursprünglich verwendeten Codewort zuordnen. Verallgemeinert lassen sich Hamming-Codes auch so erstellen, dass eine beliebige Anzahl Fehler korrigiert werden können, indem der Abstand hoch genug gewählt wird (nämlich als „Abstand = 2·Fehler + 1”).
  • Hamady et al. [2] passten Hamming-Codes erstmals auf den DNA Kontext an, indem sie jede Base durch zwei fortlaufende binäre Ziffern darstellten und Barcodes als Hamming-Codewörter aufbauten. Trotzt anfänglicher Popularität erwies sich diese Barcode-Methode jedoch bald als fehlerhaft: Bei einer vorgeschlagenen Konfiguration führten ein Drittel aller Einzelfehler auf DNA-Ebene zu 2-Bit Fehlern im Code. Diese 2-Bit Fehler konnten definitionsgemäß nicht behoben werden. (Fehler sind dann korrigierbar, wenn der „Abstand” zwischen zwei Barcodes mindestens 3 beträgt. Die Korrektur von größeren Fehlern erfolgt dementsprechend mit größeren Abständen.)
  • 1965 führte Vladimir Levenshtein die nach ihm benannte Levenshtein-Distanz ein [3]. Sie beschreibt die minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um eine Zeichenkette in eine zweite umzuwandeln. Diese klassische Levenshtein-Distanz findet heute Anwendung in Algorithmen zur Rechtschreibprüfung oder zur Duplikaterkennung. Des Weiteren wurde sie vorgeschlagen zur Identifizierung von Barcodes bei der DNA- und RNA-Sequenzierung.
  • Problem: Der Abstand in der unveränderten Levenshtein-Metrik funktioniert nur, wenn die exakte Länge des übertragenen Codewortes (d. h. in diesem Anwendungsfall die Länge des Barcodes) bekannt ist. Dieser kann jedoch durch Fehler beliebig verkürzt oder verlängert worden sein.
  • Da es keine klare Trennung zwischen DNA-Barcode und darauffolgender DNA-Sequenz gibt, kann die Verlängerung oder Verkürzung des Barcodes nicht erkannt werden, was dazu führt, dass Fehler bezüglich Insertion und Deletion nicht eindeutig korrigiert werden können.
  • Aufgabe der Erfindung ist es daher eine Methode anzugeben, in der das oben genannte Problem gelöst wird.
  • Erfindungsgemäß wird ein Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes zur Anwendung in der Sequenzierung von Nukleinsäureproben beschrieben. Dieses Verfahren enthält die folgenden Schritte:
    • i.) Erzeugen von potentiellen Barcodes,
    • ii.) Berechnung des Abstandes zwischen den potentiellen Barcodes,
    • iii.) Aufnehmen der Barcodes in das (finale) Set unter Berücksichtigung der Abstandsvoraussetzungen.
  • Bevorzugt wird in Schritt i) ein Rohset erstellt, welches zunächst mindestens einen Barcode enthält. Das Erzeugen der Barcodes in Schritt i. läuft bevorzugt rein stochastisch ab, indem Barcodes mit einer vorgegebenen Länge zufällig aus den Nukleinbasen zusammengestellt werden.
  • Nukleinsäuren im Rahmen der Erfindung sind bevorzugt ausgewählt aus DNA und RNA.
  • Die Nukleinbasen sind bevorzugt die DNA-Basen Adenin (A), Guanin (G), Cytosin (C) und Thymin (T) oder auch die RNA-Basen A, G, C und Uracil (U).
  • Die Erfindung beruht auf einer Abwandlung der klassischen Levenshtein-Metrik durch eine neue Definition des Abstandes.
  • Abstand meint dabei die Anzahl an Insertionen, Deletionen oder Substitutionen die ein Barcode erfahren kann um einen anderen Barcode zu ergeben. Ein Barcode „ACGT” würde beispielsweise durch Substitution an zweiter Stelle zum Barcode „ATGT”; der Abstand zwischen diesen beiden Barcodes beträgt also 1. Üblicherweise werden nur Barcodes verwendet, die mindestens einen Abstand von 3 zueinander haben. Eine einzige Mutation würde dazu führen, dass der Abstand zum original Barcode 1, der zu allen anderen Barcodes 2 ist. Damit wäre eine solche Sequenz immer noch eindeutig dem ursprünglich verwendeten Barcode zuordenbar.
  • Hauptvorteil der Erfindung ist dabei die Möglichkeit, Insertionen und Deletionen mit größerer Sicherheit zu korrigieren, als dies mit der klassischen Levenshtein-Metrik erreicht wird.
  • Zunächst wird in Schritt i. bevorzugt ein Rohset aus allen möglichen Basenabfolgen erstellt (Für ein Rohset aus 8-stelligen Barcodes: 48 = 65536 mögliche Rasenabfolgen). DNA Basen werden dazu bevorzugt als Nummern 0, 1, 2 und 3 in einem quaternären Alphabet dargestellt.
  • Bevorzugt umfasst das Verfahren einen zusätzlichen Schritt der Filterung nach biologischen und technischen Anforderungen. Hier werden insbesondere Barcodes aussortiert, die für die Sequenzierung oder PCR, problematisch sind.
  • Die Filterung erfolgt bevorzugt während Schritt i., d. h. jeder potentielle Barcode wird direkt nach seiner Erzeugung gefiltert und wenn er die biologischen und technischen Anforderungen nicht erfüllt sofort aussortiert. Alternativ erfolgt die Filterung nach Schritt i oder aber auch an jeder beliebigen anderen Stelle des Verfahrens.
  • Die Eigenschaften, die in der Filterung zum Ausschluss eines Barcodes führen sind dabei bevorzugt:
    • • GC-Gehalt von weniger als 40% oder mehr als 60%;
    • • perfekte Selbstkomplementierung, sowie
    • • mehr als 2 aufeinanderfolgende Wiederholungen derselben Base.
  • Andere Sequenzierungstechnologien können dabei andere Aussortierkriterien notwendig machen. Beispielsweise kann auch eine partielle Selbstkomplementierung oder eine wiederholte Abfolge von „ATAT” ein Ausschlusskriterium sein.
  • Bevorzugt erfolgt parallel ein Filtern der Barcodes nach unerwünschten Eigenschaften (siehe oben).
  • Das Erstellen des Sets und die Durchführung der Schritte i. bis iii. erfolgt bevorzugt ausgehend von mindestens einem potentiellen Barcode einer kleinen zufälligen Anzahl [bevorzugt mindestens 3–4, bei kurzen Barcodes (mit einer Länge von maximal 6 Basen) mindestens 1–2] von Barcodes in aufbauender Weise. Demnach wird für jeden neu erzeugten Barcode (ggf. nach Filterung) direkt der Abstand zu den bereits im Set vorhanden Barcodes berechnet. Der Barcode wird nur dann in das Set übernommen, wenn er die Abstandsvoraussetzungen erfüllt. So wird das Set aufbauend erstellt. Das erhaltene Set ist hier das finale Set.
  • Prinzipiell kann dies aber auch, wenn es die Rechnerleistung ermöglicht, ausgehend vom gesamten Rohset in abbauender Weise erfolgen. Dazu wird in Schritt i. zunächst ein Rohset erstellt, das eine größere Menge an Barcodes enthält. Die Abstandsberechnung erfolgt hier (ggf. nach Filterung) zwischen den Barcodes im bereits erstellten Rohset. In das finale Set werden Barcodes übernommen, welche die Abstandsvoraussetzungen (Schritt ii.) erfüllen.
  • Die Bezeichnung Code meint im Folgenden die Gesamtheit aller verwendeten Barcodes des finalen Sets. Die Bezeichnung Codewort bezieht sich im Folgenden auf einen einzelnen Barcode.
  • In Schritt ii. des erfindungsgemäßen Verfahrens wird für jeden potentiellen Barcode ein Abstand zu den anderen Barcodes des Sets bestimmt. Abstand meint dabei die Anzahl an Insertionen, Deletionen oder Substitutionen die ein Barcode erfahren kann um einen anderen Barcode zu ergeben. Ein Barcode „ACGT” würde beispielsweise durch Substitution an zweiter Stelle zum Barcode „ATGT”; der Abstand zwischen diesen beiden Barcodes beträgt also 1.
  • Insertionen, Deletionen und Substitutionen sind hierbei Punktmutationen, also Mutationen, die nur eine einzelne Base betreffen. Charakteristisch für Insertionen und Deletionen ist dabei eine Verschiebung des Leserasters. Barcodes werden hierbei verlängert (Insertion) oder verkürzt (Deletion).
  • Erfindungsgemäß tragen Substitution, Insertion und Deletion zur Abstandserhöhung bei, nicht aber das Verkürzen oder eine Elongation am Ende des Barcodes.
  • Erfindungsgemäß wird die klassische Levenshtein-Distanz in einer Art und Weise angepasst, die den möglichen oder tatsächlichen DNA-Kontext, das heißt jede auf den Barcode folgende mögliche oder tatsächliche Sequenz, in die Berechnungen einbezieht. Bevorzugt beträgt die Länge der auf den Barcode folgenden möglichen Probesequenz, die betrachtet wird, mindestens 5 Basen, weiter bevorzugt mindestsens 10 Basen.
  • Die erfindungsgemäße Sequence-Levenshtein-Distanz zwischen zwei beliebigen Wörtern A und B ist die minimale Anzahl an Mutationen (in/del/sub) die erfolgen muss, um A' zu erhalten, wobei A' im Anschluss genau einmal eine der beiden folgenden Operationen erfährt:
    • • A' wird am Ende verkürzt um B zu erhalten, oder
    • • A' wird am Ende verlängert um B zu erhalten.
  • Verkürzen und Verlängern (Elongation) tragen dabei nicht zum Abstand zwischen A und B bei.
  • Wenn A also durch Verlängern oder Verkürzen zu B führt, so ist der Abstand zwischen A und B gleich 0. Es folgt definitionsgemäß A = B.
  • „CAGG” und „CGTC” hätten beispielsweise eine klassische Levenshtein-Distanz von 3, könnten also Teil desselben Codes sein. Die Sequence-Levenshtein-Distanz beträgt allerdings 2 (Deletion der 2. Base „A” führt zu „CGG”; Substitution der 3. Base „G” mit „T” führt zu „CGT”. Im ungünstigsten Fall würde die folgende DNA-Sequenz mit „C” beginnen. Eine einfache Elongation würde also zu „CGTC” führen, trägt jedoch nicht zum Abstand bei.). „CAGG” und „CGTC” könnten also nicht Teil desselben Sequence-Levenshtein-Codes sein, da ihr Abstand nur 2 beträgt.
  • Erfindungsgemäß wird in Schritt iii. des Verfahrens ausgehend von dem Rohset ein finales Set (in der Erfindungsbeschreibung auch nur Set genannt) zusammengestellt. Dies kann entweder ausgehend von einer kleinen zufälligen Anzahl von Barcodes in aufbauender Weise oder aber auch ausgehend vom gesamten Rohset in abbauender Weise erfolgen.
  • Das finale Set soll schließlich zur Markierung von Nukleinsäureproben für eine gleichzeitige Sequenzierung derselben verwendet werden. Die verwendeten Barcodes werden so zusammengestellt, dass sie sich auch nach einer vorher festgelegten maximalen Anzahl Mutationen immer noch eindeutig unterscheiden. Damit kann auch der mutierte Barcode eindeutig dem ursprünglich eingesetzten Barcode und damit auch die Sequenz der Probe zugeordnet werden.
  • Zur Erstellung eines Codes, der die Abstandsvoraussetzung erfüllt, in aufbauender Weise, wird mit einem kleinen Set von 2 bis 4 zufällig gewählten Barcodes begonnen, die einen Abstand zueinander von mindestens 2k + 1 haben. k ist ausgewählt aus ganzen Zahlen und bevorzugt mindestens 1. k meint dabei die vor Erstellung des Codes festgelegte Anzahl an Mutationen, die der Code in der Lage sein soll auszugleichen. Alle übrigen Barcodes werden nun in lexikographischer Ordnung betrachtet und dem Ausgangsset zugefügt, sofern sie ebenfalls einen Abstand von mindestens 2k + 1 zu jedem anderen bereits im Set befindlichen Barcode haben.
  • Zur Erstellung eines Codes, der die Abstandsvoraussetzung erfüllt, in abbauender Weise, wird aus dem Rohset ein beliebiger Barcode ausgewählt und nacheinander mit jedem anderen im Rohset enthaltenen Barcode verglichen. Jeder Barcode, der nicht mindestens einen Abstand von 2k + 1 zu jedem anderen noch im Set verbleibenden Barcode aufweist, wird aus dem Set entfernt.
  • Verschiedene finale Sets werden auf diese Weise getestet, um das finale Set, welches letztendlich den größten Code ergibt, zu ermitteln.
  • Ebenfalls Gegenstand der Erfindung ist ein Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von Barcodes im Anschluss an eine gleichzeitige Sequenzierung von mehreren zu bestimmenden Nukleinsäureproben.
  • Nukleinsäureproben meint DNA- oder RNA-Proben mit vorläufig noch unbekannter Sequenz. Bei der Sequenzierung werden mehrere solcher DNA- oder RNA-Proben gleichzeitig im selben Reaktionsansatz sequenziert. Um eine eindeutige Zuordnung der aus der Sequenzierung erhaltenen Nukleinsäuresequenzen zu den jeweiligen Proben zu gewährleisten, wird jede Nukleinsäureprobe vor der Sequenzierung mit einem individuellen Barcode versehen.
  • Dabei werden bevorzugt Barcode-Sets verwendet, wie sie im oben beschriebenen erfindungsgemäßen Verfahren erlangt werden. Der jeweilige Barcode wird an den Primer vor die jeweilige Nukleinsäureprobe angehangen.
  • Nukleinsäuresequenzen meint die aus der Sequenzierung erhaltenen Sequenzen.
  • Im Anschluss an die Sequenzierung werden die eingesetzten Barcodes mit den durch die Sequenzierung erhaltenen Barcodes inklusive einer Anzahl von Basen der auf den Barcode folgenden Nukleinsäuresequenz, verglichen. Die Länge der Sequenz, die zum Vergleich mit den eingesetzten Barcodes herangezogen wird, beträgt dabei mindestens [Länge des Barcodes] + [Anzahl der Mutationen die korrigiert werden können (k)]. Dabei werden die oben beschriebenen Kriterien zur Ermittlung des Abstandes, basierend auf der veränderten Levenshtein-Metrik, angewandt. Insertionen, Deletionen und Substitutionen im Bereich des Barcodes tragen hierbei immer zu einer Abstandserhöhung bei, wohingegen Elongationen und Verkürzungen an den eingesetzten Barcode um die betrachtete Anzahl von Basen der auf den Barcode folgenden Nukleinsäuresequenz nicht zu einer Abstandserhöhung beitragen.
  • Jeweils der durch die Sequenzierung erhaltene Barcode, der den kleinsten Abstand zu einem eingesetzten Barcode aufweist, wird diesem zugeordnet. Somit wird die ihm anhängende Nukleinsäuresequenz auch der Nukleinsäureprobe, die dem eingesetzten Barcode anhing, zugeordnet.
  • Hauptvorteil des erfindungsgemäßen Verfahrens ist dabei die Möglichkeit, Insertionen und Deletionen mit größerer Sicherheit zu korrigieren, als dies mit der klassischen Levenshtein-Metrik erreicht wird, und somit eine sichere Zuordnung von Nukleinsäuresequenzen im Anschluss an eine Sequenzierung zu den verwendeten Probesequenzen zu gewährleisten.
  • Gegenstand der Erfindung ist auch ein Computerprogrammprodukt zur Durchführung eines der beiden oben beschriebenen erfindungsgemäßen Verfahren.
  • Die Erfindung wird nachfolgend durch Figuren, ein Vergleichsbeispiel und ein Ausführungsbeispiel erläutert. Dabei zeigen:
  • 1 zeigt, dass klassische Levenshtein Codes im DNA-Kontext scheitern, da die Barcode-Grenze nicht bekannt ist. Hier wurde eine Base aus dem verwendeten Barcode „CAGG” deletiert. Durch Nachrücken der folgenden Sequenz ist der resultierende Barcode „CGGC” nun näher am falschen Barcode „CGTC” (rechts) als am Original Barcode „CAGG” (links).
  • 2 zeigt die Operationen in der erfindungsgemäßen Sequence-Levenshtein-Metrik.
  • 3a veranschaulicht den Abstand zwischen zwei Barcodes cC und cD nach der erfindungsgemäßen Sequence-Levenshtein-Metrik, die Teil eines Sets von Barcodes, welches die Abstandsvoraussetzung erfüllt, sein könnten.
  • 3b zeigt die nicht eindeutige Zuordnung einer Sequenz zum verwendeten Barcode aufgrund der Anwendung der klassischen Levenshtein-Metrik, trotzt der Verwendung zweier Barcodes aus einem Set, generiert durch die Sequence-Levenshtein-Metrik.
  • 3c zeigt die erfolgreiche Zuordnung einer Sequenz zum verwendeten Barcode aufgrund der Anwendung der erfindungsgemäßen Sequence-Levenshtein-Metrik, unter Verwendung zweier Barcodes aus einem Set, generiert durch die Sequence-Levenshtein-Metrik.
  • 1. Vergleichsbeispiel: Klassische Levenshtein-Codes scheitern im DNA-Kontext:
  • Zur Korrigierbarkeit eines Fehlers in der klassischen Levenshtein-Metrik müssen zwei Barcodes eines Sets einen Abstand von mindestens 3 aufweisen, da ein durch eine Mutation veränderter Barcode dann immer noch dem ursprünglich verwendeten Barcode zuordenbar wäre.
  • Die Barcodes cA = „CAGG” und cB = „CGTC” weisen diesen Abstand von 3 auf (Deletion von „A” an zweiter Stelle führt zu „CGG”; Substitution von „G” an dritter Stelle zu „T” führt zu „CGT”; Insertion von „C” an vierter Stelle führt zu „CGTC”) und könnten somit Teil ein und desselben Codes sein.
  • veranschaulicht ein Beispiel, bei dem „CAGG” als Barcode vor einer Sequenz „CA...” verwendet wird. Angenommen es käme zu einer Deletion von „A” an zweiter Stelle. Die resultierende Sequenz wäre „CGGCA... ”, wobei das erste „C” der Sequenz in den Bereich des Barcodes fallen würde. Da nicht bekannt ist, welche Mutation erfolgt ist, ist auch die Barcode-Sequenz-Grenze unklar und bei der Dekodierung würden folglich die ersten 4 Basen betrachtet werden, welche nun „CGGC” lauten. Diese resultierende Barcode-Sequenz hat einen Abstand von 2 zum ursprünglich verwendeten Barcode „CAGG”. Der Abstand zu einem anderen Barcode „CGTC”, der sich nach der Levenshtein-Metrik ebenfalls im verwendeten Code befinden kann, beträgt allerdings 1. Die Sequenz würde somit fälschlicherweise dem Barcode cB zugeordnet werden und die Dekodierung wäre nicht erfolgreich verlaufen.
  • 2. Ausführungsbeispiel: Operationen in der erfindungsgemäßen Sequence-Levenshtein-Metrik:
  • In der Sequence-Levenshtein-Metrik werden Verlängerungen (Elongation, im Folgenden auch „elong”) und Kürzen von Basen am Ende der Barcode-Sequenz nicht als Operation gewertet. Sie tragen somit auch nicht zum Abstand zwischen zwei Barcodes bei.
  • 2 und Tabelle 1 veranschaulichen die Distanz verschiedener Kandidaten-Barcodes zu einer resultierenden Sequenz. Tabelle 1: Beispiel für Dekodierung mittels Sequence-Levenshtein-Metrik.
    Figure DE102013200309B3_0002
  • Die Beispielsequenz ”TCCATGCATA” (SEQ ID Nr. 1) wird für vier verschiedene Kandidaten-Barcodes ”TTCC”, ”ACAC”, ”CGAA” und ”TAGG” dekodiert. Der Original Barcode „TTCC” hat die geringste Sequence-Levenshtein-Distanz zur Sequenz und die Barcode-Grenze wird korrekterweise bei 3 erkannt.
  • 3. Vergleich des Abstands zwischen zwei Barcodes cA und cB in der klassischen und in der erfindungsgemäßen Sequence-Levenshtein-Metrik
  • Wie bereits in Beispiel 1 erläutert, weisen die Barcodes cA = „CAGG” und cB = „CGTC” nach der klassischen Levenshtein-Metrik einen Abstand von 3 zueinander auf und könnten demzufolge Teil desselben Barcode-Sets (zur Korrektur von einem Fehler) sein.
  • Die erfindungsgemäße Sequence-Levenshtein-Distanz berechnet sich wie folgt: Deletion der 2. Base „A” führt zu „CGG”; Substitution der 3. Base „G” mit „T” führt zu „CGT”. Im ungünstigsten Fall würde die folgende DNA-Sequenz mit „C” beginnen. Eine einfache Elongation würde also zu „CGTC” führen, trägt jedoch nicht zum Abstand bei. „CAGG” und „CGTC” könnten also nicht Teil desselben Sequence-Levenshtein-Codes sein, da ihr Abstand nur 2 beträgt. Das erfindungsgemäße Verfahren der Sequence-Levenshtein-Metrik wird also bereits in der Erstellung der Barcode-Sets angewandt.
  • 4. Veranschaulichung der Vorteilhaftigkeit der Verwendung der erfindungsgemäßen Sequence-Levenshtein-Metrik nicht nur zur Erstellung der Barcode-Sets sondern auch zur Zuordnung der Barcodes im Anschluss an die Sequenzierung
  • Wird ein Barcode-Set nach dem erfindungsgemäßen Verfahren generiert, so ist es von Vorteil auch nach der Sequenzierung die erfindungsgemäße Sequence-Levenshtein-Metrik anzuwenden, da trotzt vorteilhaftem Barcode-Set durch die Verwendung der klassischen Levenshtein-Metrik noch Fehler auftreten können.
  • 3 veranschaulicht ein entsprechendes Beispiel.
  • Nach erfindungsgemäßer Sequence-Levenshtein-Metrik haben die beiden Barcodes cC = „CCTGTAA” und cD = „CTTCACA” einen Abstand von 3 (Deletion von „C” an zweiter Stelle, Deletion von „G” an dritter Stelle, Substitution von A mit C an vierter Stelle, Elongation mit „CA”) und können Teil des selben Barcode-Sets sein. (3a)
  • Es sei angenommen beide Barcodes sind Teil desselben Barcode-Sets. Es sei weiter angenommen, cC wird vor eine Nukleinsäureprobe eingefügt, die mit den Basen „CA” beginnt, und es erfolgt eine Deletion von „G” an dritter Stelle des Barcodes. Die nach der Sequenzierung erhaltene Sequenz im ursprünglichen Barcode-Bereich lautet „CCTTAAC”.
  • Wendet man nun zur Zuordnung der Barcodes nach der Sequenzierung die klassische Levenshtein-Metrik an, so ist der Abstand zum ursprünglich verwendeten Barcode cC 3, jedoch zum falschen ebenfalls im Set vorhandenen Barcode cD 2. Eine falsche Zuordnung findet damit statt. (3b)
  • Wendet man zur Zuordnung der Barcodes nach der Sequenzierung die Sequence-Levenshtein-Metrik an, so ist der Abstand zum ursprünglich verwendeten Barcode cC geringer als der zum falschen ebenfalls im Set vorhandenen Barcode cD, da eine Elongation um die dem Barcode angehängte Nukleinsäuresequenz nicht zu einer Abstandserhöhung beiträgt. Die Sequenz wird dem korrekten Barcode zugeordnet. (3c)
  • Das Beispiel veranschaulicht, dass sich auch bei Verwendung eines Barcode-Sets, welches durch die erfindungsgemäße Sequence-Levenshtein-Metrik generiert wurde, eine Anwendung der Sequence-Levenshtein-Metrik zur Zuordnung der Barcodes im Anschluss an die Sequenzierung empfiehlt.
  • In der Patentbeschreibung wird folgende Nichtpatentliteratur zitiert:
    • [1] L. V. Bystrykh. Generalized DNA barcode design based on hamming codes. PLoS ONE, 7(5): e36852, May 2012.
    • [2] M. Hamady, J. J. Walker, J. K. Harris, N. J. Gold, and R. Knight. Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex. Nat Meth, 5(3): 235–237, Mar. 2008.
    • [3] V. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady, 10(8): 707–710, 1966.
    SEQUENCE LISTING
    Figure DE102013200309B3_0003
  • Es folgt ein Sequenzprotokoll nach WIPO St. 25. Dieses kann von der amtlichen Veröffentlichungsplattform des DPMA heruntergeladen werden.

Claims (10)

  1. Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes zur Anwendung in der Sequenzierung von Nukleinsäureproben, wobei i.) potentielle Barcodes erzeugt werden, und ii.) für den potentiellen Barcode ein Abstand zu den anderen Barcodes des Sets bestimmt wird, wobei der Abstand durch die Anzahl möglicher Substitutionen, Insertionen und Deletionen, nicht jedoch durch Elongationen oder Verkürzungen definiert wird, wobei bei Insertionen und Deletionen nicht nur die Barcode-Sequenz, sondern jede auf die Barcode-Sequenz folgende mögliche Probesequenz in die Abstandsberechnung einbezogen wird, und iii.) nur Barcodes die einen Abstand von mindestens 2k + 1 zu jedem anderen Barcode des Sets aufweisen in das Set aufgenommen werden, wobei k die vorher festgelegte Anzahl an zulässigen Mutationen angibt.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die in die Berechnungen einbezogene, auf die Barcode-Sequenz folgende, mögliche Probesequenz eine Länge von mindestens k Nukleotiden aufweist.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zusätzlich eine Filterung der Barcodes erfolgt, wobei biologisch und technisch problematische Barcodes aussortiert werden.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Filterung während Schritt i. oder nach Schritt i. erfolgt.
  5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass biologisch und technisch problematische Barcodes ausgewählt sind aus mindestens einem der folgenden: Barcodes mit einem GC-Gehalt von weniger als 40% oder mehr als 60%, Barcodes mit Selbstkomplementierung, Barcodes mit mehr als 2 aufeinanderfolgenden Wiederholungen derselben Base.
  6. Verwendung eines Sets von Nukleinsäure-Barcodes, erhalten mit einem Verfahren nach einem der Ansprüche 1 bis 5, in der gleichzeitigen Sequenzierung von mehreren zu bestimmenden Nukleinsäureproben.
  7. Verfahren zur Zuordnung von Nukleinsäuresequenzen anhand von Barcodes im Anschluss an eine gleichzeitige Sequenzierung von mehreren zu bestimmenden Nukleinsäureproben, wobei jede Probe an einem ihrer Enden mit einem unterschiedlichen Barcode versehen ist und die Sequenzen im Anschluss an die Sequenzierung durch den Vergleich der eingesetzten Barcodes mit den durch die Sequenzierung erhaltenen Barcodes den Proben zugeordnet werden, wobei zur Zuordnung der Abstand zwischen den eingesetzten Barcodes und dem durch die Sequenzierung erhaltenen Barcodes bestimmt wird, wobei der Abstand durch die Anzahl möglicher Substitutionen, Insertionen und Deletionen, nicht jedoch durch Elongationen oder Verkürzungen definiert wird, wobei bei Insertionen und Deletionen nicht nur die Barcode-Sequenz, sondern jede auf die Barcode-Sequenz folgende mögliche Probesequenz in die Abstandsberechnung einbezogen wird, wobei jeweils der durch die Sequenzierung erhaltene Barcode, der den kleinsten Abstand zu einem eingesetzten Barcode aufweist diesem zugeordnet wird.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die in die Berechnungen einbezogene, auf die Barcode-Sequenz folgende, Probesequenz eine Länge von mindestens k Nukleotiden aufweist.
  9. Verfahren nach einem der Ansprüche 1 bis 5, 7 oder 8, oder Verwendung nach Anspruch 6, dadurch gekennzeichnet, dass Nukleinsäuren ausgewählt sind aus DNA und RNA.
  10. Computerprogrammprodukt welches ein Verfahren nach mindestens einem der Ansprüche 1 bis 5 oder 7 bis 9 durchführt.
DE201310200309 2013-01-11 2013-01-11 Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung Expired - Fee Related DE102013200309B3 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE201310200309 DE102013200309B3 (de) 2013-01-11 2013-01-11 Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE201310200309 DE102013200309B3 (de) 2013-01-11 2013-01-11 Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung

Publications (1)

Publication Number Publication Date
DE102013200309B3 true DE102013200309B3 (de) 2014-01-02

Family

ID=49754388

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201310200309 Expired - Fee Related DE102013200309B3 (de) 2013-01-11 2013-01-11 Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung

Country Status (1)

Country Link
DE (1) DE102013200309B3 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170233727A1 (en) * 2014-05-23 2017-08-17 Centrillion Technology Holdings Corporation Methods for generating and decoding barcodes
EP4220645A3 (de) * 2015-05-14 2023-11-08 Life Technologies Corporation Barcodesequenzen sowie zugehörige systeme und verfahren

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155833A2 (en) * 2010-06-09 2011-12-15 Keygene N.V. Combinatorial sequence barcodes for high throughput screening

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155833A2 (en) * 2010-06-09 2011-12-15 Keygene N.V. Combinatorial sequence barcodes for high throughput screening

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Datenbank PubMed, Zusammenfassung zu: COISSAC, E.: OligoTag: a program for designing sets of tags for next-generation sequencing of multiplexed samples. Methods Mol. Biol. (2012) 888, 13-31 [PMID: 22665273] *
FAIRCLOTH, B.C. [u.a.]: Not All Sequence Tags Are Created Equal: Designing and Validating Sequence Identification Tags Robust to Indels. PLoS One. (2012) 7 (8) e42543 (elektronisch veröffentlicht 10.08.2012) *
PINTO, A.J. [u.a.]: PCR Biases Distort Bacterial and Archaeal Community Structure in Pyrosequencing Datasets. PLoS One. (2012) 7 (8) e43093 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170233727A1 (en) * 2014-05-23 2017-08-17 Centrillion Technology Holdings Corporation Methods for generating and decoding barcodes
EP4220645A3 (de) * 2015-05-14 2023-11-08 Life Technologies Corporation Barcodesequenzen sowie zugehörige systeme und verfahren

Similar Documents

Publication Publication Date Title
DE60126491T2 (de) Verfahren zur sequenzanalyse
Soto Gomez et al. A customized nuclear target enrichment approach for developing a phylogenomic baseline for Dioscorea yams (Dioscoreaceae)
DE2060643B2 (de) Schaltungsanordnung zur Korrektur von Einzelfehlern
Sierro et al. Whole genome profiling physical map and ancestral annotation of tobacco H icks B roadleaf
DE102013200309B3 (de) Verfahren zur Zusammenstellung eines Sets von Nukleinsäure-Barcodes sowie Verfahren zur Zuordnung von Nukleinsäuresequenzen nach der Sequenzierung
EP3589753A1 (de) Verfahren zur detektion von bekannten nukleotid-modifikationen in einer rna
DE102013222136B9 (de) Schaltung und Verfahren für die Mehr-Bit-Korrektur
EP1960537A1 (de) Verfahren zur bestimmung des genotyps aus einer biologischen probe enthaltend nukleinsäuren unterschiedlicher individuen
Gramelsberger Big Data Revolution or Data Hubris? On the Data Positivism of Molecular Biology
DE112013002565T5 (de) Minimierung von Informationsgehaltsdaten durch Anwendung einer Hierarchie von Referenzgenomen
DE102019113970B4 (de) Erkennung von adressfehlern
CN108710781B (zh) 一种遗传突变的排序方法及装置
DE102009058298B4 (de) Genexpressionsanalyse
DE112016007194T5 (de) Verfahren zum Erzeugen eines Zeichenkettenwörterbuchs, Verfahren zum Suchen eines Zeichenkettenwörterbuchs und ein System zum Verarbeiten eines Zeichenkettenwörterbuchs
DE102008010011A1 (de) Verfahren zur Inbetriebnahme einer Numerischen Steuerung
US7110885B2 (en) Efficient methods and apparatus for high-throughput processing of gene sequence data
EP2977912A1 (de) Automatisierte Diagnostik
DE102012101347B4 (de) Verfahren zur Herstellung einer Nukleinsäure- Bibliothek mit mindestens zwei benachbarten variablen Codon- Tripletts
DE102009053585A1 (de) System zur automatischen Erstellung von Aufgabenlisten
Tanasa et al. Extracting sequential patterns for gene regulatory expressions profiles
DE102021100199A1 (de) Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem
DE10351065A1 (de) Sondenberechnung
WO2017108491A1 (de) Diagnostische mirna signaturen in ms und cis patienten
DE19941606A1 (de) Verfahren zum Ermitteln von Nuklein- und/oder Aminosäuresequenzen
Keijser Computational and comparative analyses of inhibitory interneuron diversity

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: C40B0030020000

Ipc: C12Q0001680000

R018 Grant decision by examination section/examining division
R020 Patent grant now final
R020 Patent grant now final

Effective date: 20141003

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee