DE102017002092B4 - Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA - Google Patents

Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA Download PDF

Info

Publication number
DE102017002092B4
DE102017002092B4 DE102017002092.2A DE102017002092A DE102017002092B4 DE 102017002092 B4 DE102017002092 B4 DE 102017002092B4 DE 102017002092 A DE102017002092 A DE 102017002092A DE 102017002092 B4 DE102017002092 B4 DE 102017002092B4
Authority
DE
Germany
Prior art keywords
phase
signature
nucleotide
rna
signatures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102017002092.2A
Other languages
English (en)
Other versions
DE102017002092A1 (de
Inventor
Mark Helm
Lyudmil Tserovski
Stephan Werner
Ralf Hauenschild
Andreas Hildebrandt
Jennifer Leclaire
Thomas Kemmer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johannes Gutenberg Universitaet Mainz
Original Assignee
Johannes Gutenberg Universitaet Mainz
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johannes Gutenberg Universitaet Mainz filed Critical Johannes Gutenberg Universitaet Mainz
Priority to DE102017002092.2A priority Critical patent/DE102017002092B4/de
Priority to US16/483,896 priority patent/US20190390269A1/en
Priority to EP18710996.2A priority patent/EP3589753A1/de
Priority to PCT/DE2018/000044 priority patent/WO2018161981A1/de
Publication of DE102017002092A1 publication Critical patent/DE102017002092A1/de
Application granted granted Critical
Publication of DE102017002092B4 publication Critical patent/DE102017002092B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/107RNA dependent DNA polymerase,(i.e. reverse transcriptase)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/117Modifications characterised by incorporating modified base
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07049RNA-directed DNA polymerase (2.7.7.49), i.e. telomerase or reverse-transcriptase

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Verfahren zur Ermittlung von Anzahl und Position (Lokus) einer ausgewählten (vorbestimmten), bekannten Nukleotid-Modifikation in einer RNA oder mehreren RNAs (inkl. Transkriptom), der (den) Template-RNA(s), umfassend die folgenden Schritte in der genannten Reihenfolge:(1) Reverse Transkription der Template-RNA(s) unter Einsatz des Enzyms Reverse Transkriptase und Erstellen einer cDNA-Bibliothek enthaltend die Reverse Transkriptions-Produkte (= cDNAs) der eingesetzten Reversen Transkriptase mit dieser/diesen Template-RNA(s),(2) Amplifizierung der cDNAs und Sequenzierung der amplifizierten cDNAs mittels einer Hochdurchsatz-Sequenzierungsmethode (Next-Generation-Sequencing (NGS)-Methode), wobei die gewonnenen Sequenz-Daten in digitaler Form, den Reads, ausgegeben werden,(3) Adapter-Trimming (= Entfernung der Adaptersequenzen) und Mapping (=Zuordnung) der sequenzierten cDNAs/Reads zum Referenzgenom oder Referenztranskriptom mittels computergestützter Alignment-Verfahren,(4) computergestützte Auswertung (Analyse) des Mappingergebnisses hinsichtlich des Reverse-Transkriptions-Ereignismusters, der RT-Signatur, unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ als RT-Signatur-Merkmal(e), und Diagnostizierung der RT-Signatur an jeder Nukleotid-Position der Template-RNA(s),(5) Einspeisung der digitalisierten Daten der RT-Signaturen in ein computer-basiertes, automatisches, auf überwachtem maschinellem Lernen („Machine-Learning“) beruhendes Klassifizierungssystem,wobei in einer ersten Phase (I) des Verfahrens, der Kalibrierungsphase, die Schritte (1) bis (5) mit einer oder mehreren verschiedenen, bekannten und hinsichtlich Nukleotidsequenz und gegebenenfalls vorhandener Nukleotid-Modifikation(en) identifizierten und annotierten RNAs als Template-RNAs ausgeführt werden,und in Schritt (5) ermittelte RT-Signaturen von Nukleotid-Positionen mit der bekannten Nukleotid-Modifikation und ermittelte RT-Signaturen von Nukleotid-Positionen des gleichen Nukleosids ohne Nukleotid-Modifikation in das Klassifizierungssystem eingespeist werden,und das Klassifizierungssystem während Trainings- und Selbsttestungsläufen implizit das (charakteristische) Profil der RT-Signatur (d.h. die charakteristische quantitative Ausprägung der RT-Signatur-Merkmale) an der die Nukleotid-Modifikation aufweisenden Nukleotid-Position erstellt und optimiert („erlernt“), und (infolgedessen) als Klassifizierungsergebnis diejenigen Positionen auf der/den (jeder) Template-RNA(s) ermittelt und angibt, die eine RT-Signatur aufweisen, die mit diesem (charakteristischen) Profil annähernd oder vollständig übereinstimmt, und die somit auf das Vorliegen der betreffenden Nukleotid-Modifikation an diesen Positionen hinweist,und wobei in einer zweiten Phase (II) des Verfahrens, der Anwendungs- bzw. Untersuchungsphase, die Schritte (1) bis (5) mit einer oder mehreren zu untersuchenden unbekannten Test-RNA(s) als Template-RNA(s) durchgeführt werden,- und die Schritte (1) bis (4) unter den gleichen Bedingungen wie in Phase (I) erfolgen,- und in Schritt (5) ermittelte RT-Signaturen von Nukleotid-Positionen der Test-Template-RNA(s) in das Klassifizierungssystem eingespeist werden,- und das Klassifizierungssystem auf der Basis des in Phase (I) Schritt (5) implizit erlernten (charakteristischen) Profils die eingegebenen RT-Signaturen dahingehend klassifiziert, inwieweit sie diesem Profil ähnlich sind oder damit übereinstimmen, und wobei Klassifizierungsergebnisse mit der Aussage „ähnlich“ oder „annähernd übereinstimmend“ oder „übereinstimmend“ auf das Vorliegen der betreffenden Nukleotid-Modifikation in der/den Test-Template-RNA(s) an der Nukleotid-Position mit dieser RT-Signatur hinweisen,dadurch gekennzeichnet,dass in Schritt (1) von Phase (I) und Phase (II) des Verfahrens die Reverse Transkription der Template-RNAs in zwei oder mehr Reaktionsansätzen und - durchläufen mit voneinander verschiedenen Reversen Transkriptasen unter den gleichen Reaktionsbedingungen und/oder mit (der) gleichen Reversen Transkriptase(n) unter voneinander abweichenden Reaktionsbedingungen je Ansatz durchgeführt wird, wobei mit/von jedem Ansatz eine cDNA-Bibliothek erhalten wird,dass in Schritt (4) von Phase (I) und Phase (II) des Verfahrens die Auswertung der Mapping-Ergebnisse hinsichtlich der RT-Signatur unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ und/oder des zusätzlichen Ereignisses ‚Read-Through mit Sequenzlücke(n)‘ als RT-Signatur-Merkmal(e) erfolgt,und dass in Schritt (5) von Phase (I) und Phase (II) des Verfahrens Daten von RT-Signaturen aus den in Schritt (1) mit den verschiedenen Reversen Transkriptasen unter gleichen Reaktionsbedingungen und/oder mit der/den gleichen Reversen Transkriptase(n) unter voneinander abweichenden Reaktionsbedingungen erhaltenen cDNA-Bibliotheken in das Klassifizierungssystem eingespeist werden.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Detektion, d.h. Ermittlung von Anzahl und Position (Lokus) einer ausgewählten bekannten Nukleotid-Modifikation in einer RNA oder mehreren RNAs (inkl. Transkriptom).
  • Die im Kontext dieser Erfindungsbeschreibung verwendeten Abkürzungen sind wie folgt definiert:
    • RT = Reverse Transkription
    • RTase = Reverse Transkriptase
    • RT-Signatur = Reverse-Transkriptions-Signatur
    • RNA = Ribonukleinsäure (Ribonucleic Acid)
    • mRNA = Messanger RNA (Boten-RNA)
    • tRNA = Transfer-RNA
    • rRNA = Ribosomale RNA
    • NGS = Next-Generation-Sequencing = Hochdurchsatz-Sequenzierung
    • m1A = N1-Methyladenosin (m1A)
    • m1G = N1-Methylguanosin (m1G)
    • m2,2G = N2,N2-Dimethylguanosin (m2 2G)
    • PCR = Polymerase Chain reaction (Polymerase-Ketten-Reaktion)
    • dNTP = Desoxynukleotidtriphosphat
  • Das Transkriptom, - das heißt die Gesamtheit der RNA-Transkripte (also der durch die RNA Polymerase abgelesenen bzw. transkribierten Gene) eines Genoms von einer Zelle oder von einem Zelltyp oder von einem Organismus, insbesondere mRNAs, tRNAs und rRNAs, aber auch andere nicht codierende RNAs -, spielt eine entscheidende Rolle in verschiedenen Aspekten der Genexpression, Zellentwicklung und Zellfunktion. Fehler im Transkriptom, beispielsweise aufgrund modifizierter Nukleotide in einer mRNA oder tRNA oder rRNA, können zu Erkrankungen führen. Die Identifizierung und Charakterisierung verschiedener Arten von RNA-Basenmodifikationen in verschiedenen RNA-Typen haben in den letzten Jahren stark an Bedeutung gewonnen. Das Interesse an aktueller Forschung wächst, und dieses Feld gewinnt weiter an Bedeutung.
  • Die im Stand der Technik bekannten Verfahren zur Detektion modifizierter (veränderter) Nukleotide in RNAs basieren auf deren reverser Transkription (= Übersetzung/Abschrift) in cDNA mittels Reverser Transkriptasen (kurz: RTasen) und die anschließende Sequenzanalyse dieser cDNAs, d.h. Sequenzierung und Mapping (= Zuordnung) zu einem bekannten Referenzgenom bzw. Referenztranskriptom.
  • Hierbei werden die bei einer Reversen Transkription (kurz: RT) mit einer bestimmten RTase erhaltenen cDNAs einer als Template (Synonyme: Matrize, Vorlage) gewählten RNA zunächst amplifiziert und danach sequenziert.
  • Die dabei erhaltenen Sequenzierdaten der cDNAs, die sogenannten „Reads“, werden mit der genomischen Referenzsequenz verglichen, und im Zuge des sogenannten „Mappings“ werden die sequenzierten cDNAs/Reads dem Referenzgenom oder Referenztranskriptom zugeordnet.
  • Ein besonderes und spezifisches Transkriptionsverhalten der Reversen Transkriptase (RTase) bei der Abschrift von RNA in cDNA an den Stellen einer Nukleotid-Modifikation dient als Ansatzpunkt für die Detektion von modifizierten Nukleotiden.
  • Dieses besondere und spezifische Reverse Transkriptionsverhalten äußert sich darin, dass an der Stelle der Nukleotid-Modifikation mehrere Verhaltensvarianten und infolgedessen verschiedene besondere (d.h. von der korrekten Reversen Transkription abweichende) Reverse Transkriptions-Ereignisse vorkommen bzw. vorkommen können.
  • Zu diesen gehören nach dem Stand der Technik insbesondere (1.) die Blockade (Abbruch) der Reversen Transkription mit dem Ergebnis eines korrekten aber unvollständigen sogenannten Abbruch-Produkts und (2.) der Einbau eines falschen (natürlicherweise nicht korrespondierenden) dNTPs an der Positionen des modifizierten RNA-Nukleotids in die cDNA mit dem Ergebnis eines vollständigen aber unkorrekten Übersetzungsprodukts, eines sogenannten ‚Read-Through-Produkts mit Mismatch‘ (=Fehlpaarungen)' oder ‚Mismatch-Read-Through-Produkts‘.
  • Art und Anzahl der verschiedenen RT-Ereignisse bilden ein charakteristisches Ereignismuster, die sogenannte Reverse-Transkriptions-Signatur (im folgenden kurz: RT-Signatur) an jeder einzelnen Nukleotid-Position.
  • Im Stand der Technik wird die RT-Signatur für die Nukleotid-Positionen einer untersuchten RNA (der Template-RNA) prinzipiell anhand der charakteristischen Merkmale Abbruch-Ereignisse und Mismatch-Read-Through-Ereignisse (d.h. Read-Through-Ereignisse mit missinkorporierten bzw. fehlgepaarten cDNA-Bausteinen) charakterisiert.
  • Für die Detektion einer bestimmten (mutmaßlich) vorhandenen Nukleotid-Modifikation in einer Template-RNA, z.B. der N1-Methylierung von Adenosin zu N1-Methyladenosin (m1A), werden die nach Reverser Transkription, Amplifizierung, Sequenzierung und Mapping erhaltenen Mappingergebnisse für diese Template-RNA dahingehend untersucht und ausgewertet, ob und falls ja an welcher Nukleotid-Position welche RT-Ereignisse in welcher Häufigkeit auftreten und wie folglich die RT-Signaturen für die einzelnen Nukleotid-Positionen aussehen.
  • Aus der erhaltenen RT-Signatur für die betreffende Template-RNA kann auf vorhandene Nukleotid-Modifikationen geschlossenen werden. Falls für eine bestimmte Nukleotid-Modifikation eine besondere charakteristische RT-Signatur ermittelt werden konnte, wie im Stand der Technik für m1A geschehen, kann durch Vergleich mit dieser bekannten und Modifikations-spezifischen RT-Signatur auf das Vorliegen der betreffenden Nukleotid-Modifikation in der Template-RNA geschlossen werden.
  • Bei der Template-RNA kann es sich um eine bestimmte RNA-Spezies handeln, ebensogut aber auch um eine Gruppe verschiedener RNA-Spezies.
  • Amplifizierung und Sequenzierung der cDNAs erfolgen im Stand der Technik üblicherweise mit Sequenzierungsmethoden, die auf Hochdurchsatzmethoden in Form von massivem parallelem Sequenzieren, dem sogenannten „Next-Generation Sequencing“ (NGS) basieren, und bei denen die gewonnenen Sequenz-Daten in digitaler Form ausgegeben werden.
  • Eine bekannte Next-Generation-Sequenzierungs (NGS)-Methode ist die sogenannte „Sequenzierung mit Brückenamplifikation“. Hierbei wird an beiden Enden der zu sequenzierenden (doppelsträngigen) DNA je eine unterschiedliche Adapter-DNA-Sequenz eingeführt. Anschließend wird die DNA denaturiert, nach Verdünnung (einzelsträngig) auf eine Trägerplatte hybridisiert und per Brückenamplifikation vervielfältigt. Dadurch entstehen auf der Trägerplatte einzelne Bereiche (Cluster) mit vervielfältigter DNA, die innerhalb eines Clusters die gleiche Sequenz aufweisen. In einer Sequencing-by-Synthesisverwandten PCR-Reaktion (d.h. einer PCR-Reaktion, bei der während der Synthese sequenziert wird) werden modifizierte, nämlich mit einem reversiblen 3'-Blocker und einer fluoreszierenden Markierung gekoppelte Nukleotide (jedes der vier Nukleotide mit einer andersfarbigen Fluoreszenzmarkierung gekoppelt) eingesetzt, die die Polymerase dazu zwingen, nur ein Nukleotid pro Zyklus einzubauen. Das jeweils eingebaute Nukleotid pro Zyklus in einem Cluster wird detektiert.
  • Das Mapping erfolgt vorzugsweise mittels im Stand der Technik geläufiger computergestützter Alignment-Verfahren, und auch die Auswertung (Analyse) der Mappingergebnisse hinsichtlich des Reverse-Transkriptions-Ereignismusters (der RT-Signatur) erfolgt üblicherweise computergestützt.
  • Die im Stand der Technik für m1A beschriebene charakteristische RT-Signatur wurde unter Einsatz von im Stand der Technik bekannten und geläufigen computergestützten, automatischen und auf überwachtem maschinellem Lernen beruhenden Klassifizierungsverfahren ermittelt.
  • Hauenschild et al. (Nucleid Acid Research, 2015) beschreiben für die Nukleotidmodifikation m1A in tRNA und rRNA als Template-RNAs die gleichzeitige Analyse der RT-Signatur-Merkmale Abbruch und Mismatch-Read-Through unter Anwendung der NGS-Sequenzierungsmethode RNA-Seq.
  • Durch Anwendung dieser NGS-Methode auf eine Vielzahl von nativen und synthetischen RNA-Präparaten als Template-RNAs und durch die bioinformatische Weiterverarbeitung der generierten Daten einschließlich Klassifizierung mit auf computergestützten und auf maschinellem Lernen beruhenden Klassifizierungsverfahren fanden die Autoren für m1A-Modifikationen (d.h. an m1A-Modifikationsstellen bzw. an Nukleotid-Positionen mit m1A-Modifikation) ein charakteristisches Reverse-Transkriptions-Ereignismuster, d.h. eine für diese Nukleotid-Modifikationsstelle charakteristische RT-Signatur, die Transkriptions-Abbruchprodukte und Transkriptions-Read-Through-Produkte als signifikante Merkmalskomponenten aufweist.
  • Die ermittelte RT-Signatur für m1A (d.h. an m1A-Stellen) wurde für die Überprüfung und Bestätigung von Verdachtsobjekten verwendet. Mutmaßliche Positionen von m1A in den Sequenzen von mehreren humanen RNAs konnten bestätigt werden, und in tRNA von Trypanosoma brucei wurden durch Signaturabgleich und Sequenzhomologie bisher unbekannte m1A Positionen ermittelt.
  • Damit haben Hauenschild et al. (2015) gezeigt, dass die RT-Signatur einer Reversen Transkriptase (RTase) an einer m1A-Stelle aus Abbruch- und Mismatch (= Fehlpaarungs)-Raten besteht, die zur Identifizierung, Charakterisierung und Lokalisierung von m1A-Stellen in tRNA und rRNA, verwendet werden können.
  • Andere Publikationen zeigten bereits Ansätze zur Erkennung von Modifikationsstellen auf transkriptomweiter Ebene. Dominissini et al. (2016) beschreiben für die Erkennung der Modifikation m1A die Strategien der antikörperbasierten, methylierten RNA-Immunopräzipitations-Sequenzierung (MeRIP-Seq). N1-Methyladenosin-haltige RNA-Fragmente wurden unter Verwendung von anti-mlA-Antikörpern angereichert, und durch Kopplung mit einer chemischen Methode wurde versucht, die m1A-Modifikationen zu lokalisieren. Dieses Verfahren erlaubt nur in Ausnahmefällen und mit eingeschränkter Zuverlässigkeit eine Identifizierung bzw. Vorhersage von m1A-Stellen/Positionen in einer Single-Nucleotid-Resolution (Einzel-Nukleotid-Auflösung). Linder et al. (2015) beschreiben eine Kartierung der Modifikation N-6-Methyladenosin (m6A) in menschlicher und Maus-mRNA mit der miCLIP-Methode (miCLIP = Methylation individual-nucleotide-resolution crosslinking and immunoprecipitation) unter Einsatz von Ultraviolettlichtinduzierter Antikörper-RNA-Vernetzung und R everser Transkription. Hierbei werden jedoch erhebliche Mengen an falsch-negativen und falsch- positiven Ergebnissen erhalten, und infolgedessen ist die Prognoseleistung für tatsächliche Modifikationsstellen eng begrenzt.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, diese Nachteile des Stands der Technik zu beheben oder wenigstens zu mindern, insbesondere die bekannte Methodik zur Ermittlung von Positionen modifizierter Nukleotide in RNAs hinsichtlich Detektionsgenauigkeit und Vorhersagequalität zu erhöhen und sie weiter zu entwickeln für Anwendungen zur Analyse anderer RNA-Modifikationen als der m1A-Modifikation, im Hinblick auf das Ziel einer Transkriptom-weiten Kartierung von RNA-Modifikationen.
  • Eine Lösung dieser Aufgabe besteht in der Bereitstellung eines Verfahrens zur Ermittlung von Anzahl und Position (Lokus) einer ausgewählten (vorbestimmten), bekannten Nukleotid-Modifikation in einer RNA oder mehreren RNAs (inkl. Transkriptom), der (den) sogenannten Template-RNA(s), umfassend die folgenden Schritte in der genannten Reihenfolge:
    1. (1) Reverse Transkription der Template-RNA(s) unter Einsatz des Enzyms Reverse Transkriptase („RTase“) und Erstellen einer cDNA-Bibliothek enthaltend die Reverse Transkriptions-Produkte (= cDNAs) der eingesetzten Reversen Transkriptase mit dieser/diesen Template-RNA(s),
    2. (2) Amplifizierung der cDNAs und Sequenzierung der amplifizierten cDNAs mittels einer Hochdurchsatz-Sequenzierungsmethode (Next-Generation-Sequencing (NGS)-Methode), wobei die gewonnenen Sequenz-Daten in digitaler Form, den Reads, ausgegeben werden,
    3. (3) Adapter-Trimming (= Entfernung der Adaptersequenzen) und Mapping (=Zuordnung) der sequenzierten cDNAs/Reads zum Referenzgenom oder Referenztranskriptom mittels computergestützter Alignment-Verfahren,
    4. (4) computergestützte Auswertung (Analyse) des Mappingergebnisses hinsichtlich des Reverse-Transkriptions-Ereignismusters, der RT-Signatur, unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ als RT-Signatur-Merkmal(e), und Diagnostizierung der RT-Signatur an jeder Nukleotid-Position der Template-RNA(s),
    5. (5) Einspeisung der (digitalisierten) Daten(sätze) der RT-Ereignismuster/RT-Signaturen in ein computerbasiertes, automatisches, auf überwachtem maschinellem Lernen („Machine-Learning“) beruhendes Klassifizierungssystem,
    wobei in einer ersten Phase (I) des Verfahrens, der Kalibrierungsphase, die Schritte (1) bis (5) mit einer oder mehreren verschiedenen, bekannten und hinsichtlich Nukleotidsequenz und gegebenenfalls vorhandener Nukleotid-Modifikation(en) identifizierten und annotierten RNAs als Template-RNAs ausgeführt werden, und in Schritt (5) ermittelte RT-Signaturen von Nukleotid-Positionen mit der bekannten Nukleotid-Modifikation und ermittelte RT-Signaturen von Nukleotid-Positionen des gleichen Nukleosids ohne Nukleotid-Modifikation in das Klassifizierungssystem eingespeist werden, und das Klassifizierungssystem während Trainings- und Selbsttestungs-(Klassifizierungs)läufen implizit das (charakteristische) Profil der RT-Signatur (d.h. die charakteristische quantitative Ausprägung der RT-Signatur-Merkmale) an der die Nukleotid-Modifikation aufweisenden Nukleotid-Position erstellt und optimiert („erlernt“), und (infolgedessen) als Klassifizierungsergebnis diejenigen Positionen auf der/den (jeder) Template-RNA(s) ermittelt und angibt, die eine RT-Signatur aufweisen, die mit diesem (charakteristische) Profil annähernd oder vollständig übereinstimmt, d.h. die ihm ähnlich ist oder mit ihm übereinstimmt, und die somit auf das Vorliegen der betreffenden Nukleotid-Modifikation an diesen Positionen hinweist,
    und wobei in einer zweiten Phase (II) des Verfahrens, der Anwendungs- bzw. Untersuchungsphase, die Schritte (1) bis (5) mit einer oder mehreren zu untersuchenden unbekannten Test-RNA(s) als Template-RNA(s) durchgeführt werden, und die Schritte (1) bis (4) unter den gleichen Bedingungen wie in Phase (I) erfolgen, und in Schritt (5) ermittelte RT-Signaturen von (vorzugsweise allen oder nahezu allen) Nukleotid-Positionen der Test-Template-RNA(s) in das Klassifizierungssystem eingespeist werden, und das Klassifizierungssystem auf der Basis des in Phase (I) Schritt (5) implizit erlernten (charakteristischen) Profils die (und vorzugsweise jede der) eingegebenen RT-Signaturen dahingehend (d.h. hinsichtlich des Kriteriums) klassifiziert, inwieweit (d.h. in welchem Maß bzw. Grad) sie diesem Profil ähnlich sind bzw. damit übereinstimmen, und wobei Klassifizierungsergebnisse mit der Aussage „ähnlich“ oder „annähernd übereinstimmend“ oder „übereinstimmend“ (d.h. Klassifizierungsergebnisse, die der Aussage „ähnlich“ oder „annähernd übereinstimmend“ oder „übereinstimmend“ entsprechen) auf das Vorliegen der betreffenden Nukleotid-Modifikation in der/den Test-Template-RNA(s) an der Nukleotid-Position mit dieser RT-Signatur hinweisen.
  • Dieses Verfahren ist erfindungsgemäß dadurch gekennzeichnet,
    • - dass in Schritt (1) von Phase (I) und Phase (II) des Verfahrens die Reverse Transkription der Template-RNAs in zwei oder mehr Reaktionsansätzen und -durchläufen mit voneinander verschiedenen RTasen unter den gleichen Reaktionsbedingungen und/oder mit (der) gleichen RTase(n) unter voneinander abweichenden Reaktionsbedingungen je Ansatz durchgeführt wird, wobei mit/von jedem Ansatz eine cDNA-Bibliothek erhalten wird,
    • - und dass in Schritt (4) von Phase (I) und Phase (II) des Verfahrens für die Auswertung der Mapping-Ergebnisse hinsichtlich der RT-Signatur das/die Ereignis(se) ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ und/oder das zusätzliche Ereignis ‚Read-Through mit Sequenzlücke(n) (Sprung/Sprüngen)‘ ermittelt und als RT-Signatur-Merkmal(e) gewertet wird/werden,
    • - und dass in Schritt (5) von Phase (I) und Phase (II) des Verfahrens Daten(sätze) von (allen oder nahezu allen oder zumindest an Nukleotid-Positionen mit dem Basentyp der betreffenden Nukleotid-Modifikation ermittelten) RT-Signaturen aus den in Schritt (1) erhaltenen cDNA-Bibliotheken, die mit den verschiedenen RTasen unter gleichen Reaktionsbedingungen und/oder mit der/den gleichen RTase(n) unter voneinander abweichenden Reaktionsbedingungen erhalten wurden, in das Klassifizierungssystem eingespeist werden.
  • Mit anderen Worten:
  • Das erfindungsgemäße Verfahren zur Ermittlung von Anzahl und Position (Lokus) einer ausgewählten (vorbestimmten), bekannten Nukleotid-Modifikation in einer oder mehreren zu untersuchenden RNAs (inkl. Transkriptom), der/den Template-RNA(s), besteht aus zwei Phasen (I) und (II):
  • In Phase I, der Kalibrierungsphase, werden die folgenden Schritte in der genannten Reihenfolge durchgeführt:
    1. (1) Reverse Transkription von einer oder mehreren verschiedenen bekannten und hinsichtlich ihrer Nukleotidsequenz und gegebenenfalls der vorhandenen ausgewählten Nukleotid-Modifikationen identifizierten und annotierten RNA(s) als Template-RNA(s) (bevorzugt sind synthetische RNAs oder aus natürlichen Quellen isolierte RNAs gemäß Datenbank-Informationen z.B. aus MODOMICS gemäß Machnicka et al., 2013), in zwei oder mehr parallelen Reaktionsansätzen und - durchläufen mit voneinander verschiedenen RTasen (einschließlich bzw. solcher, die speziell zu diesem Zweck durch Mutationen verändert wurden) unter den gleichen Reaktionsbedingungen und/oder mit (der) gleichen RTase(n) unter voneinander abweichenden Reaktionsbedingungen je Ansatz, und Erstellen von cDNA-Bibliotheken, jeweils einer pro Reaktionsdurchlauf, wobei eine jeweils erstellte cDNA-Bibliothek die Reverse Transkriptions-Produkte (cDNAs) der in dem betreffenden Reaktionsdurchlauf eingesetzten RTase von der oder den darin verwendeten Template-RNA(s) enthält.
    2. (2) Für jede (in Schritt 1 gewonnene) cDNA-Bibliothek wird eine Amplifizierung der cDNAs und Sequenzierung der amplifizierten cDNAs mit einer Hochdurchsatz-Sequenzierungsmethode durchgeführt, wobei die gewonnenen Sequenz-Daten, d.h. die Sequenzinformationen der einzelnen cDNAs (Synonym: Reads), in digitaler Form ausgegeben werden. Bevorzugt ist hier eine „Sequenzierung mit Brückenamplifikation“ z.B. das Illumina-Sequenzierungs-Verfahren.
    3. (3) Adapter-Trimming (= Entfernung der Adaptersequenzen) und Mapping (= Zuordnung) der sequenzierten cDNAs bzw. Reads zum Referenzgenom oder Referenztranskriptom mittels computergestützter Alignment-Verfahren. Bevorzugt ist hier der Einsatz eines computerbasierten Verfahrens für Sequenz-Alignment und Sequenz-Analyse, z.B. die Bowtie 2-Software.
    4. (4) Computergestützte Auswertung (Analyse) des/der Mappingergebnisse(s) hinsichtlich des Reverse-Transkriptions-Ereignismusters, der sogenannten RT-Signatur, unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ und/oder ‚Read-Through mit Sequenzlücke(n) (Synonyme: Sprung/Sprünge; Jump(s))‘ als prägende(s) Merkmal(e), und Diagnostizierung der RT-Signatur (d.h. des Transkriptions-Ereignismusters) an vorzugsweise jeder Nukleotid-Position der Template-RNA(s).
    5. (5) Einspeisung der (digitalisierten) Daten (Datensätze) der RT-Signaturen - aller oder nahezu aller oder zumindest derjenigen RT-Signaturen, die an den Nukleotid-Positionen mit dem Basentyp der betreffenden Nukleotid-Position ermittelt werden - in ein computerbasiertes, automatisches, auf maschinellem und überwachtem Lernen beruhendes Klassifizierungssystem (Synonyme: Klassifizierungsverfahren, Klassifizierer), z.B. in einen Random Forest-Klassifizierer, und Trainieren dieses (lernenden) Klassifizierungssystems auf das besondere (charakteristische, typische) Profil der in Schritt (4) erhaltenen RT-Signaturen (d.h. auf die charakteristische quantitative Ausprägung der RT-Signatur-Merkmale) für die bzw. an der/den Nukleotid-Position(en) mit der betreffenden Nukleotid-Modifikation (d.h. die die betreffende Nukleotid-Modifikation aufweisen), derart, dass es als Klassifizierungsergebnis diejenigen Positionen auf der/den (jeder) Template-RNA(s) ermittelt und angibt, die eine RT-Signatur aufweisen, die mit diesem Profil annähernd oder vollständig übereinstimmen, d.h. die ihm ähnlich sind oder mit ihm übereinstimmen, und die somit auf das Vorliegen der betreffenden Nukleotid-Modifikation an diesen Positionen hinweisen.
  • In Phase II, der Analyse- bzw. Untersuchungsphase mit wenigstens einer Test-RNA, werden die folgenden Schritte in der genannten Reihenfolge durchgeführt:
    1. (1) Reverse Transkription der zu untersuchenden Test-RNA(s) als Template-RNA(s) unter den gleichen Bedingungen wie in Phase I Schritt (1), d.h. mit der oder den in Phase I Schritt (1) eingesetzten RTase(n) und Reaktionsbedingungen und Erstellen von cDNA-Bibliotheken (eine pro Ansatz), die die Reverse Transkriptions-Produkte der jeweils eingesetzten RTase(n) für diese Test-Template-RNA(s) enthalten.
    2. (2) Amplifizierung der in Schritt (1) gewonnenen cDNAs und Sequenzierung der amplifizierten cDNAs mittels der in Phase I Schritt (2) angewendeten Methode, wobei die gewonnenen Sequenz-Daten (Reads) in digitaler Form ausgegeben werden.
    3. (3) Zuordnung (= Mapping) der sequenzierten cDNAs/Reads zum Referenzgenom oder Referenztranskriptom mittels der in Phase I Schritt (3) angewendeten computergestützten Alignment-Verfahren.
    4. (4) computergestützte Auswertung (Analyse) des Mappingergebnisses analog Phase I Schritt (4) hinsichtlich der RT-Signaturen (d.h. der Reverse-Transkriptions-Ereignismuster) unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ (und hierbei Absolut-Rate und/oder Einzelraten der verschiedenen Mismatch-Zusammensetzungen (Fehlpaarungen)) und/oder "Read-Through mit Sequenzlücke(n) bzw. Sprung/Sprüngen bzw. Jump(s)' (und hierbei Absolut-Rate=Gesamtsprungrate und/oder Einzelraten der verschiedenen Lücken- bzw. Sprungvarianten) als prägende(s) Merkmal(e).
    5. (5) Einspeisung der (digitalisierten) Daten bzw. Datensätze der ermittelten RT-Signaturen in das computerbasierte, auf überwachtem maschinellem Lernen beruhende und auf das besondere Profil für die betreffende Nukleotid-Modifikation trainierte Klassifizierungssystem aus Phase I Schritt (5) derart, dass für jede eingegebene RT-Signatur eine Klassifizierung erfolgt, und zwar dahingehend, inwieweit sie diesem Profil ähnlich ist bzw. damit übereinstimmt. (Das heißt, jede eingegebene RT-Signatur wird klassifiziert bezüglich des Kriteriums, wie sehr bzw. in welchem Maß oder Grad sie diesem Profil ähnelt bzw. damit übereinstimmt.) Klassifizierungsergebnisse, die der Aussage „ähnlich“ oder „annähernd übereinstimmend“ oder „übereinstimmend“ entsprechen, weisen auf das Vorliegen der betreffenden Nukleotid-Modifikation in der/den Test-Template-RNA(s) an der Nukleotid-Position mit dieser RT-Signatur hin.
  • Das Kern-Ergebnis der Klassifizierung besteht in der Angabe der ermittelten Positionen auf der/den Test-Template-RNA(s), die eine RT-Signatur aufweisen, die mit diesem (besonderen) Profil annähernd oder vollständig übereinstimmt, d.h. die ihm ähnlich ist oder mit ihm übereinstimmt, und die somit auf das Vorliegen der betreffenden Nukleotid-Modifikation an diesen Positionen hinweist.
  • Vorzugsweise wird zu jeder dieser ermittelten und angezeigten Positionen ein numerischer Punktewert (Score) auf einer eindimensionalen numerischen Bewertungsskala als Maß für die Qualität der Übereinstimmung mit angegeben.
  • Das erfindungsgemäße Verfahren basiert auf den überraschenden Erkenntnissen:
    1. (i) Die RT-Signatur an einer Nukleotid-Modifikationsstelle hängt nicht nur von der Art der Nukleotid-Modifikation ab, sondern auch vom RTase-Typ (der RTase-Spezies). Aufgrund ihres ganz bestimmten typischen und charakteristischen Verhaltens an der Stelle einer Nukleotid-Modifikation wird an dieser Nukleotid-Position eine RTasetypenspezifische RT-Signatur erhalten.
    2. (ii) Durch Kombination von mindestens zwei RTasen unterschiedlichen Typs bei der Reversen Transkription werden überraschend starke Verbesserungen der Vorhersageleistung mittels Klassifizierer erhalten. Zwei oder mehr (parallele) Reaktionsansätze und -durchläufe mit voneinander verschiedenen RTasen unter den gleichen Reaktionsbedingungen und/oder mit (der) gleichen RTase(n) unter voneinander abweichenden Reaktionsbedingungen je Ansatz führen zu einer wesentlich verbesserten Genauigkeit der Vorhersage (Klassifizierung), ob an einer bestimmten Nukleotid-Position die betreffende (gesuchte) Nukleotid-Modifikation vorliegt oder nicht. Vergleichversuche mit einerseits (a) zwei parallelen RT-Ansätzen unter Einsatz zweier verschiedener RTasen und andererseits (b) Ansätzen unter Einsatz jeweils nur einer einzigen RTase-Spezies haben gezeigt, dass die Genauigkeit der Vorhersage (Klassifizierung) im Fall (a) wesentlich größer war als im Fall (b), was darauf hinweist, dass im Fall (a) ein synergistischer Effekt vorliegt.
    3. (iii) Die RT-Signatur wird nicht nur durch die besonderen Merkmale (besonderen RT-Ereignisse) Abbruch und Mismatch-Read-Through (aufgeschlüsselt hinsichtlich Gesamtrate und Einzelraten der verschiedenen Fehlpaarungen) charakterisiert, sondern zudem durch das Merkmal „Read-Through-Ereignisse mit Sequenzlücke(n) (Synonyme: Sprung/Sprünge; Jump(s))“ kurz „Jump-Read-Through“, d.h. durch Ereignisse, bei denen die RTase die Stelle der Nukleotid-Modifikation überspringt. Dieses Merkmal „Jump-Read-Through“ kann (ebenfalls) noch weiter aufgeschlüsselt werden, nämlich in Gesamtsprungrate, Rate der direkten Einzelsprünge, Rate der verzögerten Einzelsprünge und Rate der Doppelsprünge.
  • Im Rahmen der Untersuchungen, die der vorliegenden Erfindung zugrunde liegen, wurde überraschenderweise festgestellt, dass das Reverse-Transkriptionsereignis von RTasen an einer Nukleotid-Modifikationsstelle nicht nur in Transkriptionsabbruch oder Read-Through mit Mismatch/Fehlpaarung bestehen kann, sondern auch in Sprüngen der betreffenden RTase über die Position des modifizierten Nukleotids hinweg, wodurch sich charakteristische Lücken in der Sequenzablesung ergeben. Solche Sprünge wurden vor allem bei RTasen mit einer hohen Abdeckung/Erfassungsrate („coverage“) d.h. mit einem starken Read-Through-Vermögen festgestellt. Es können Einzel- und Doppelsprünge unterschieden werden, und bei den Einzelsprüngen kann es sich um direkte oder um verzögerten Einzelsprünge handeln, das heißt die (übersprungene) Lücke liegt entweder direkt an der m1A-Stelle oder an der Stelle ihres 5' angrenzenden Nachbarn, bekannt als - 1-Position. Doppelsprünge führen zu und erscheinen als Lücken an den beiden Positionen m1A- und - 1.
  • In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens werden in Schritt (4) von Phase (I) und Phase (II) des Verfahrens für die Auswertung der Mapping-Ergebnisse hinsichtlich der RT-Signatur alle drei Ereignisse ‚Abbruch‘ und ‚Read-Through mit Mismatch‘ und ‚Read-Through mit Sequenzlücke(n) (Jump(s), Sprung/Sprüngen)‘ qualitativ und quantitativ ermittelt und als prägende Merkmale gewertet. Dadurch kann die Prägnanz und Einzigartigkeit jeder RT-Signatur verstärkt werden.
  • In einer ebenfalls bevorzugten Ausführungsform werden in Phase (I) Schritt (1) des Verfahrens die analogen Reaktionsansätze und - durchläufe mit wenigstens zwei Reversen Transkriptasen („RTasen“) durchgeführt, deren RT-Signaturen an der bzw. für die betreffende Nukleotid-Modifikationsstelle hinsichtlich der Gewichtung (Synonyme: Bedeutsamkeit; Wichtigkeit) ihrer RT-Signatur-Merkmale ein unterschiedliches Muster aufweisen. Vorzugsweise unterschieden sich die Muster in der Gewichtung wenigstens eines der Merkmale derart, dass dieses Merkmal in der RT-Signatur der einen RTase stark ausgeprägt ist und in der RT-Signatur der anderen RTase schwach oder jedenfalls deutlich schwächer ausgeprägt ist.
  • Besonders bevorzugte unterschiedliche Muster sind solche, die in wenigstens zwei RT-Signatur-Merkmalen (M1 und M2, z.B. der Arrest-Rate und der Mismach-Rate) ein wechselseitig gegenläufiges Muster aufweisen. Das heißt, von den betreffenden Merkmalen, z.B. M1 und M2, ist bei der einen RTase (A) Merkmal M1 stark ausgeprägt und Merkmal M2 nur schwach, während bei der anderen RTase (B) die Verhältnis umgekehrt vorliegen, nämlich M1 nur schwach und M2 stark ausgeprägt ist.
  • Bei den in Schritt (1) von Kalibrierungsphase (Phase I) und Anwendungs- bzw. Untersuchungsphase (Phase II) eingesetzten RTasen kann es sich erfindungsgemäß auch gut um solche handeln, die zu diesem Zweck durch Mutationen generiert wurden.
  • Als voneinander abweichende Reaktionsbedingungen in Schritt (1) von Phase I und Phase II kann es sich erfindungsgemäß insbesondere um (a) unterschiedliche Konzentrationen an dNTPs, und/oder (b) unterschiedliche divalente Kationen, insbesondere Mg2+ und Mn2+, und/oder (c) unterschiedliche Konzentrationen an divalenten Kationen und/oder (d) unterschiedliche pH-Werte und/oder (e) unterschiedliche Temperaturen und/oder (f) unterschiedliche Konzentrationen an Polyethylenglykol (PEG) handeln.
  • Das erfindungsgemäße Verfahren hat sich in der Praxis bei der Analyse der RNA-Modifikation m1A bereits gut bewährt. Zur Detektion von anderen RNA-Modifikationen, insbesondere solchen, für die die Sequenzierdaten-Analyse ein typisches Profil der RT-Signatur liefert, wie z.B. Guanosinderivate N1-Methylguanosin (m1G) und N2,N2-Dimethylguanosin (m2,2G), ist es ebenfalls geeignet und vorgesehen. Eine Ausführungform des erfindungsgemäßen Verfahrens besteht deshalb insbesondere darin, dass die Nukleotid-Modifikation eine Nukleosid-Methylierung ist, insbesondere eine N1-Methylierung von Adenosin oder Guanosin.
  • Als Hochdurchsatz-Sequenzierungsmethode (NGS-Verfahren) in Schritt (2) von Phase I und Phase II des erfindungsgemäßen Verfahrens hat sich in der Praxis eine Sequenzierung mit Brückenamplifikation, insbesondere ein Illumina-Sequenzierungs-Verfahren, als gut geeignet erwiesen.
  • Für das Mapping, d.h. die Zuordnung der sequenzierten cDNAs/Reads zum Referenzgenom oder Referenztranskriptom mittels computergestützter Alignment-Verfahren in Schritt (3) von Phase I und Phase II des erfindungsgemäßen Verfahrens hat sich in der Praxis ein computerbasiertes Verfahren für Sequenz-Alignment und Sequenz-Analyse, wie z.B. die Bowtie 2-Software, als gut geeignet erwiesen.
  • Als computerbasiertes, automatisches, auf überwachtem maschinellem Lernen („Machine-Learning“) beruhendes Klassifizierungssystem in Schritt (5) von Phase I und Phase II des erfindungsgemäßen Verfahrens hat sich in der Praxis ein Random Forest-Klassifizierer als gut geeignet erwiesen.
  • In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens werden die in Schritt (2) gewonnenen Sequenz-Daten für die Durchführung der Schritte (3) bis (5) in eine Bioinformatik-Pipeline eingespeist, die die Kombination der Schritte (3) bis (5) steuert. Eine solche Bioinformatik-Pipeline, d.h. das Softwareprogramm, das die Arbeitsschritte (3) bis (5) in der vorgeschriebenen Reihenfolge kombiniert bzw. aneinander koppelt, kann erfindungsgemäß mit der Programmiersprache Python (Version v2.7.6) erstellt werden.
  • Bei den in der Kalibrierungsphase (Phase I) Schritt (1) verwendeten bekannten RNAs handelt es sich erfindungsgemäß vorzugsweise um synthetische RNAs bekannter Sequenz einschließlich bekannter Positionen der betreffenden (ausgewählten) Nukleotid-Modifikation oder um auf der Basis von Datenbank-Informationen isolierte natürliche RNAs, deren Sequenz einschließlich der Positionen der betreffenden (ausgewählten) Nukleotid-Modifikation gemäß der betreffenden Datenbankeinträge gut aufgeklärt ist.
  • In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens wird in Schritt (5) von Phase II und fakultativ auch von Phase I zu jedem Klassifizierungsergebnis ein numerischer Punktewert (Score) auf einer eindimensionalen numerischen Bewertungsskala als Maß für die Qualität der Übereinstimmung angegeben.
  • Gegenstand der vorliegenden Erfindung ist auch ein Kit zur Durchführung des erfindungsgemäßen Verfahrens, der wenigstens zwei RTasen umfasst, deren RT-Signaturen an der betreffenden Nukleotid-Modifikationsstelle bezüglich der Gewichtung der RT-Signatur-Merkmale (Abbruch-Rate, Gesamt-Mismatch-Rate, Einzelmismatch-Raten der betreffenden falsch gepaarten Nukleotide, Gesamtsprungrate, Rate der direkten Einzelsprünge, Rate der verzögerten Einzelsprünge, Doppelsprung-Rate) wenigstens in einem der RT-Signatur-Merkmale ein unterschiedliches, vorzugsweise gegenläufiges Muster aufweisen. Gegenläufiges Muster in wenigstens einem RT-Signatur-Merkmal heißt hier, dass z.B. das Merkmal M1 bei RTase A stark ausgeprägt ist und bei RTase B nur schwach. Alternativ oder Zusätzlich umfasst der Kit wenigstens zwei verschieden vorgemischte Reaktionsansätze (Synonyme: Reaktionsmischungen; Puffermischungen), die sich vorzugsweise in der Konzentration an dNTPs und/oder an divalenten Kationen und/oder an Polyethylenglykol (PEG) und/oder in der Art der enthaltenen divalenten Kationen (insbesondere Mg2+ und Mn2+) und/oder im pH-Wert, unterscheiden. Für die Durchführung des erfindungsgemäßen Verfahrens mit einem solchen Kit wird(werden) zusätzlich nur noch die Template-RNA(s) benötigt.
  • Das erfindungsgemäße Verfahren ist ein leistungsfähiges Werkzeug für den Nachweis von modifizierten Nukleotiden in RNA anhand der RT-Signatur an der Modifikationsstelle, d.h. anhand der Analyse des Modifikations-spezifischen Verhaltens der RTase während der Reversen Transkription der RNA zu cDNA. Es ermöglicht eine genaue Lokalisierung von RNA-Modifikationen in einer Einzel-Nukleotid-Auflösung und damit beispielsweise eine gegenüber den herkömmlichen Verfahren wesentlich genauere Identifikation und Vorhersage von m1A-Standorten, und es kann prinzipiell ebenso gut zur Analyse anderer Modifikationen, wie z.B. m1G oder m2,2G eingesetzt werden.
  • Die Durchführung der Reversen Transkription der Template-RNA(s) in Schritt (1) von Phase (I) und Phase (II) des Verfahrens in zwei oder mehr parallelen (analogen) Reaktionsansätzen und Reaktionsdurchläufen mit voneinander verschiedenen RTasen und/oder mit bzw. unter voneinander abweichenden Reaktionsbedingungen je Ansatz, und der Vergleich der so erhaltenen und in der Regel nicht ganz identischen RT-Signaturen für die gleiche Nukleotid-Modifikationsstelle ermöglich es, die charakteristischen Merkmale der RT-Signatur für die betreffende Nukleotid-Modifikationsstelle genauer aufzuklären und weiter zu spezifizieren. Je prägnanter und spezifischer die charakteristischen Merkmale für die RT-Signatur an einer bestimmten Nukleotid-Modifikationsstelle angegeben werden können, desto zutreffender kann für die RT-Signatur der Reversen Transkription einer Test-Template-RNA (z.B. aus einer Patienten-Probe) festgestellt werden, ob sie eine Ausführungsform dieser bekannten RT-Signatur darstellt oder nicht, d.h. ob die fragliche Nukleotid-Modifikation in der(den) Test-Template-RNA(s) vorhanden ist oder nicht.
  • Das erfindungsgemäße Verfahren ist eine universelle Methode zur Transkriptom-weiten Detektion von RNA Modifikationen unter Einbeziehung ganz bestimmter Eigenschaften der Reversen Transkription bzw. der RTase, die eine Detektion von einzelnen, modifizierten Nukleotiden innerhalb der Sequenz allein anhand ihrer charakteristischen RT-Signatur ermöglicht. Auf eine durch Immunopräzipitation erwirkte Anreicherung von Sequenzbereichen, die die Nukleotid-Modifikation (mutmaßlich) enthalten, kann dabei vollständig verzichtet werden.
  • Das erfindungsgemäße Verfahren kann im Bereich der klinischen Diagnostik von analytischen Dienstleistern oder medizinisch-diagnostischen Laboren angewendet und genutzt werden, um die personalisierte Medizin im Hinblick auf patientenspezifische Diagnostik weiterzuentwickeln. Gerade im Hinblick auf das stark wachsende Interesse an den Auswirkungen und Funktionen von RNA Modifikationen kann man in diesem Betätigungsfeld in den kommenden Jahren viele neue Erkenntnisse erwarten, was die präzise Ermittlung von modifizierten Sequenzpositionen bzw. Nukleotid-Positionen umso wichtiger macht.
  • Aufgrund seiner Leistung, die genaue Position der Modifikationen zu lokalisieren und falsche Ergebnisse zu minimieren, ermöglicht das erfindungsgemäße Verfahren ernsthafte Aussagen über ihre Wirkung und ihre Funktion zu machen und eine routinemäßige Anwendung in ökonomischer Weise. Analytische Dienstleister oder klinische Diagnostiklaboratorien können von Patienten gewonnene RNA-Proben analysieren und einen Bericht mit klassifizierten Modifikationskandidaten erstellen, womit zusätzliche Informationen für die diagnostische Aufarbeitung des Patienten geliefert werden.
  • Die Erfindung wird im folgenden anhand von Ausführungsbeispielen und den darin genannten Figuren und Tabellen näher erläutert.
  • Es zeigen:
    • 1: Das erfindungsgemäße Prinzip der Erzeugung (Generierung) und Analyse (Auswertung) von RNA-Sequenzierungs-Daten für den Nachweis von m1A-Resten
    • 2:
      1. A) Die RT-Signatur einer m1A-Stelle, gewonnen mit einem herkömmlichen Verfahren unter Einsatz einer einzigen RTase („single RT-Signatur“), hier der RTase 5 (SuperScript® III), d.h. mit Nutzung der RT-Signatur eines RT-Ansatzes unter Einsatz allein der RTase 5 (SuperScript® III.) gemäß Tabelle 1.
      2. B) Die RT-Signatur einer m1A-Stelle, gewonnen mit dem erfindungsgemäßen Verfahren, bei dem die Informationen der RT-Signatur aus zwei unterschiedlichen RT-Ansätzen, die sich in der eingesetzten RTase unterscheiden, kombiniert sind. Die iengesetzten RTasen waren (i) RTase 12 (SuperScript® IV) und (ii) RTase 4 (GoScript ™) gemäß Tabelle 1 .
    • 3: m1A-Signaturen von 13 RTasen an 26 m1A-Stellen in der cytosolischen tRNA von Hefe. Fehlerbalken zeigen Standardabweichungen von Abbruch- und Fehleinbauraten über 3 Sequenzierungsdurchläufe, d.h. technische Triplikate. Die Größe der Kreisdiagramme repräsentiert die Gesamt-Sprungrate, d.h. die Summe von 3 Typen von Nukleotidauslassungsraten aufgrund von m1A-Stellen. Einzelsprung direkt = 1 Nukleotid wurde bei m1A selbst ausgelassen und übersprungen. Einzelsprung verzögert = 1 Nukleotid wurde an der 5' benachbarten Position von m1A ausgelassen und übersprungen. Doppelsprung = 2 Nukleotide wurden ausgelassen und übersprungen, an der m1A-Stelle und an der -1-Position. Die Prozentsätze der Abbruchrate beziehen sich auf die Reads, die die 3' benachbarte Position von m1A (+1) umfassen. Die Prozentsätze der Mismatchrate und Sprungrate beziehen sich auf die Reads, die die m1A Position umfassen.
    • 4: Random Forest Durchführung und Gewichtung der RT-Signatur-Merkmale für 13 verschiedene RTasen. Die Leistungsfähigkeit der Klassifizierung („classification power“) ist dargestellt als Area Under Curve (AUC) der „Receiver Operating Characteristic (ROC)“. Für jede der 13 RTasen wurden die Daten der drei parallel ermittelten RT-Signaturen gemittelt, der schwarze vertikale Strich zeigt jeweils die Standardabweichung der AUC. Gesamtsprung = Gesamtsprung-Rate. G, T, C = Mismatch (Fehlpaarungs-) Komponenten, die sich bis auf 100 % addieren. Gewichtung = durchschnittlicher Verlust der Klassifizierungsgenauigkeit, wenn die Werte der jeweiligen Merkmale zwischen den Trainingsinstanzen (m1A-Instanzen und nicht-m1A-Instanzen) permutiert, d.h. ausgetauscht werden.
    • 5: Random Forest Durchführung zur Ermittlung der Vorhersageleistung unter Einsatz der paarweise permutierend miteinander kombinierten RT-Signaturen von 13 verschiedenen RTasen (gemäß Tabelle 1), d.h. unter Einsatz von 13×12=156 verschiedenen heterogenen RTase-Paaren sowie der 13 einzelnen RTasen (in der Diagonalen). Die AUC (Area Under Curve)-Werte (hell bedeutet höhere Vorhersageleistung, dunkel bedeutet entsprechend niedrigere Vorhersageleistung) einer Receiver Operating Charakteristik (ROC) für die aus drei technischen Replikaten (d.h. aus einem technischen Triplikaten) ermittelten RT-Signaturen wurden gemittelt in einer 100 mal wiederholten 3-fachen Kreuzvalidierung einer binären Klassifizierungsauswahl mit 26 positiven (m1A) und 26 zufällig ausgewählten negativen (nicht m1A) Fällen. Anzahl der Random Forest-Modelle: 3 × 13 × 12 × 100 × 3   ( kombiniert ) + 3 × 13 × 100 × 3   ( nicht kombiniert ) = 152.100
      Figure DE102017002092B4_0001
    • 6: Boxplot (Box-Whisker-Plot, Kastengrafik) für die m1A-Vorhersageleistungen der Random Forest-Klassifizierung, die mit den Informationen bzw. Daten der RT-Signatur-Merkmale von einer RT-Signatur (von einer der 13 verschiedenen RTasen), von zwei RT-Signaturen (von einem der 156 RTase-Paare) und von drei RT-Signaturen (von einem der 1716 RTase-Tripletts) trainiert wurden. Die AUC (Area Under Curve)-Werte der Receiver Operating Charakteristik (ROC) aus 100 Wiederholungen einer 3-fachen Kreuzvalidierung, die auf jede der drei Sequenzierungsläufe angewendet wurde, wurden gemittelt. Die Kästchen (Boxen) zeigen den Bereich, in dem die mittleren 50% jeder Datenpopulation liegen. Die Whiskers (Antennen) markieren die Perzentilwerte 5% und 95%, d.h. die Werte, die die Grenze zu den unteren 5% bzw. den oberen 5% der Daten bilden.
    • 7: Ein Beispiel für eine Profile-Datei. Mismatch-Typ 1, -Typ 2 und -Typ 3 steht synonym für die drei konkreten Fehlpaarungen mit den drei Basen, die natürlicherweise neben der Referenzbase (und ihrer Modifikation) im Genom auftreten; d.h. im Falle einer Modifikation von A, sind die Mismatch-Typen G, T und C.
  • Beispiel 1: Gewinnung der Template-RNAs für die Kalibrierungsphase (Phase I)
  • Bei den in der Kalibrierungsphase verwendeten bekannten und hinsichtlich ihrer Nukleotidsequenz und gegebenenfalls der vorhandenen ausgewählten Nukleotid-Modifikationen identifizierten RNA(s) handelte es sich entweder um synthetische RNAs (im Handel erhältlich z.B. bei IBA, Göttingen, Deutschland) oder um aus natürlichen Quellen gewonnene RNAs, beispielsweise Hefe RNAs, deren Sequenzinformationen aus Datenbanken wie z.B. MODOMICS bekannt sind.
  • Gewinnung von RNAs aus Hefe (Saccharomvces cerevisiae)
  • Hefe-rRNA und Hefe-tRNA wurden mit bekannten und geläufigen Methoden gewonnen, z.B. wie in Tserovski et al. (2016) beschrieben.
  • Pro Probe/Ansatz für eine Reverse-Transkription(-sreaktion) wurden 0,5 µg RNA eingesetzt.
  • Beispiel 2: Protokoll für die Herstellung der cDNA-Bibliothek(en)
  • Das Protokoll entspricht prinzipiell dem in Tserovski et al. (2016) beschriebenen Protokoll.
  • Fragmentierung der Template-RNA im Fall von rRNA als Template
  • Gesamte oder ribosomale RNA wurde in einem Volumen von 10 µl, enthaltend 10 mM ZnCl2 und 100 mM Tris-HCl, pH 7,4, bei 90 °C für 5 Min fragmentiert. Die Reaktion wurde gestoppt durch Zugabe von Ethylendiamintetraessigsäure (EDTA) bis zu einer Endkonzentration von 50 mM. Danach wurden die RNA-Fragmente mittels 10% denaturierender Polyacrylamidgel-Elektrophorese (PAGE) nach Größe getrennt. Banden der Größe 50-150 nt wurden aus dem Gel herausgeschnitten, in 0,3 M Ammoniumazetat (NH4Ac) eluiert und mit Ethanol präzipitiert.
  • Dephosphorylierung
  • Die Template-RNA(s) (etwa 0,5 µg pro Probe/Ansatz) wurde(n) an beiden Endpunkten dephosphoryliert. Das Dephosphorylierungsgemisch (insgesamt 10 µl) bestand aus 100 mM Tris-HCl, pH 7,4, 20 mM MgCl2, 0,1 mg/ml BSA, 100 mM 2-Mercaptoethanol und 0,5 U FastAP Alkaline Phosphatase (Thermo Scientific, #EF0651) bei 37°C für 30 Min.
  • Vor der Zugabe des Enzyms wurde die RNA bei 90 °C für 30 Sek. denaturiert und dann auf Eis gekühlt (im folgenden wird diese Behandlung als „Hitzedenaturierung“ bezeichnet).
  • Nach 30 Min. Dephosphorylierung wurde die RNA erneut für 30 Sek. hitzedenaturiert und anschließend der beschriebene Dephosphorylierungsschritt ein zweites Mal durchgeführt. - Gesamtvolumen: 10,5 µl
  • -Adapter-Ligation
  • Als nächstes wurde ein Adapter mit dem 3'-Ende der dephosphorylierten RNA verbunden (ligiert). Die Ligation (Anbindung) des preadenylierten 3'-RNA Adapters (dessen 5'-Ende diurch einen C6-Körper blockiert war) an das 3'-Ende der RNA erfolgte wie in Tserovski et al. (2016) beschrieben mittels einer oder mehreren Ligasen (hier der T4 RNA Ligase 2 truncated, New England Biolabs, #M0242L, und der T4 RNA Ligase, Thermo Scientific, #EL0021) und ohne Zwischenschaltung eines Aufreinigungsschritts im Reaktionsgemisch der Dephosphorylierungsreaktion mit 5 µM adenyliertem 3'-RNA Adapter, 15 % DMSO, 1 U T4 RNA Ligase 2 truncated und 0,5 U T4 RNA Ligase. Die Ligationsreaktion erfolgte bei 4 °C über Nacht. Anschließend wurden die Enzyme bei 75 °C über 15 Min. inaktiviert. - Gesamtvolumen: 20,0 µl.
  • Entfernung von überschüssigem Adapter
  • Vor dem Schritt der Reversen Transkription wurde der Überschuss an RNA-Adapter mit Hilfe der Enzyme Deadenylasen und Exonukleasen (hier 5'-Deadenylase, New England Biolabs, #M0331S und Lambda Exonuclease, Thermo Scientific, #EN0561) entfernt. Zu diesem Zweck wurde dem Ligationsgemisch aus (C) eine Menge von 20U an 5'-Deadenylase (z.B. von New England Biolabs, Frankfurt, Deutschland) zugesetzt und anschließend bei 30 °C für 30 Min inkubiert. Nach einer Hitzedenaturierung (90 °C für 30 Sek., 2 Min. abkühlen auf Eis) wurde der Deadenylierungsschritt unter Zugabe der gleichen Menge an Enzym wie im ersten Durchgang wiederholt.
    - Gesamtvolumen nun: 22.0 µl.
  • Als nächstes erfolgte der Verdau/Abbau des einzelsträngigen RNA-Adapters (jetzt vollständig monophosphoryliert) durch Zugabe von 10 U Lambda-Exonuklease (Thermo Scientific, Dreieich, Deutschland) zur Reaktionsmischung und Inkubation bei 37 °C für 30 Min. Nach Hitzedenaturierung des Enzyms (90 °C für 30 Sek., 2 Min. abkühlen auf Eis) wurde diese Verdau-Reaktion unter Zugabe der gleichen Menge an Enzym wie im ersten Durchgang wiederholt. Anschließend wurde das Enzym bei 80 °C über 15 Min. hitzeinaktiviert.
    - Gesamtvolumen nun: 24,0 µl.
  • Aus der erhaltenen Mischung wurde die RNA ausgefällt, hier unter Zusgabe von zunächst 1 µl Glykogen (Thermo Scientific, Dreieich, Deutschland, #R0561) und Ammoniumazetat NH4Ac (Endkonzentration: 0,5 M) bis zu einem Gesamtvolumen von 50,0 µl und nachfolgender Zugabe von 150 µl Ethanol pro Probe.
  • Reverse Transkription
  • Die Zusammensetzung des Reverse-Transkriptions-Gemisch war wie in Tserovski et al. (2016) beschrieben. Das in (D) gewonnene Pellet wurde zunächst wieder gelöst, und zwar im jeweiligen RTase-spezifischen Reaktionsgemisch (gemäß Herstellerprotokoll), bestehend aus dem Reaktionspuffer (Soll-Endkonzentration 1x) und RT Primer (Soll-Endkonzentration 5 µM), z.B. für die RTase SuperScript® III = RTase 5 aus Tabelle 1 bestehend aus 1 µl RT Primer von IBA, Göttingen, Deutschland, in einer Endkonzentration von 5µM, in4 µl First Strand (FS) Puffer (z.B. von Life Technologies, Darmstadt, Deutschland) ergänzt mit Wasser auf 16 µl.
    Darauf folgte eine Hitzedenaturierung bei 80 °C für 10 Min. mit anschließender Abkühlung auf Eis.
    Danach wurden 0,5 mM dNTP-Mix (= Mischung enthaltend alle vier Deoxyribonukleotid-Triphosphate dATP, dGTP, dCTP und dTTP) und je nach RTase-Typ zudem DTT, BSA und/oder MgCl2 zugegeben (z.B. im Fall von RTase SuperScript® III = RTase 5 gemäß Tabelle 1: BSA, Dithiothreitol) und schließlich 200 U der gewählten RTase hinzugefügt (z.B. 10 U/µl, SuperScript® III, Life Technologies = RTase 5 aus Tabelle 1).
    Die Transkriptionsreaktionen wurden bei 45 °C für die Dauer von 1 Stunde durchgeführt, mit Ausnahme des Falls der Anwendung der RTase Volcano® = RTase 13 gemäß Tabelle 1, wo die Reaktionstemperatur 60 °C betrug.
    - Gesamtvolumen: 20,0 µl
  • Entfernung von überschüssigen Primern und dNTPs
  • Zum Zweck des Primer-Verdaus/Abbaus wurden der Reverse-Transkriptionsmischung aus (E) 10 U Exonuklease (hier: Lambda Exonuclease, Thermo Scientific, #EN0561) zugegeben und alles bei 37 °C für 30 Min inkubiert. Die Reaktion wurde durch Zugabe einer gleichen Menge an Enzym einmal wiederholt. Eine Hitzedenaturierung zwischen erstem und zweitem Durchlauf unterblieb, um die Denaturierung von RNA:DNA-Hybriden zu vermeiden.
    - Gesamtvolumen: 22,0 µl.
  • Im Anschluß an den zweiten Exonukleasereaktionsdurchlauf wurden der Mischung 40 U der einzelsträngigen spezifischen Exonuklease I (Thermo Scientific, #EN0582) zugegeben und bei 37 °C für 30 Min inkubiert. Wiederum wurde die Reaktion ohne zwischengeschaltete Hitzedenaturierung durch Zugabe einer gleichen Menge an Enzym wiederholt.
  • Schließlich wurden alle Enzyme bei 80 °C für 15 Min. hitzeinaktiviert.
    - Gesamtvolumen: 26,0 µl
  • Danach wurden die dNTP-Reste dephosphoryliert. Dazu wurden der Mischung 2 U der wärmeempfindlichen alkalischen Phosphatase FastAP Thermo Scientific, #EF0651) zugesetzt und bei 37 °C für 30 Min. inkubiert. Es folgte eine Hitzedenaturierung (90 °C für 30 Sek., 2 Min. Abkühlen auf Eis) und eine Wiederholung des Dephosphorylierungsschritts. Am Ende dieser wiederholten Dephosphorylierungsreaktion wurde das Enzym bei 75 °C für 5 Min. inaktiviert. - Gesamtvolumen: 30,0 µl Anschließend erfolgte die Degradierung der RNA durch Zusatz von NaOH (Endkonzentration: 0,15 M), Erhitzen auf 55 °C für 25 Min. und nachfolgendem Abkühlen auf Eis für 2 Min.. Die Reaktion wurde durch Neutralisieren mit einer gleichen Menge an Essigsäure (Endkonzentration: 0,15 M) gestoppt.
  • Für die nun anstehende Gewinnung der cDNAs (cDNA-Moleküle) mittels Ethanolfällung wurde dem Reaktionsgemisch 1 µl Glykogen (Thermo Scientific, #R0561) und NH4Ac (Endkonzentration: 0,5 M) zugegeben. - Gesamtvolumen: 100,0 µl Anschließend wurden die cDNAs mit 250 µl Ethanol ausgefällt.
  • -tailing and Ligation der cDNA
  • Für die anstehende „3'-tailing“-Reaktion mit der Terminalen Desoxyribonukleotidyl-Transferase TdT (Thermo Scientific, #10533-065) wurde das in (F) erhaltene cDNA-Pellet in dem Reaktionsgemisch aus 1x TdT Puffer, 1,25 mM rCTP und 1 U/µl TdT aufgenommen und resuspendiert.
  • Die Mischung wurde bei 37°C für 30 Min. inkubiert. Danach folgt eine Wärmehandlung bei 70°C für 10 Min., um das Enzym zu inaktivieren. - Gesamtvolumen: 10,0 µl.
  • Mit der erhaltenen Mischung wurde anschließend die Ligationsreaktion durchgeführt, hier z.B. mit Hilfe der T4 DNA Ligase (Thermo Scientific, #EL0013). Für die Ligation des doppelsträngigen DNA-Adapters wurden der Mischung 1,5 U/µl T4 DNA Ligase und 10 µM ATP in 50 mM Tris-HCl bei pH 7,4 und 20 mM MgCl2 zugegeben (Endkonzentration des DNA-Adapters: 1,25 µM), und dieser Ligationsansatz wurde über Nacht bei 4 °C inkubiert. Danach folgt eine Wärmehandlung bei 75 °C für 15 Min., um das Enzym zu inaktivieren. - Gesamtvolumen: 40,0 µl
  • Die Gewinnung der cDNA-Ligationsprodukte aus der gewonnen Mischung erfolgte mittels Ethanolfällung unter Zugabe von zunächst 1 µl Glykogen (Thermo Scientific, #R0561) und NH4Ac (Endkonzentration: 0,5 M) zu dieser Mischung (- Gesamtvolumen: 50,0 µl) und abschließender Zugabe von 150 µl Ethanol.
  • Zwecks Entfernung von überschüssigem DNA-Adapter wurde eine Polyacrylamidgel-Elektrophorese (PAGE) durchgeführt. Hierfür wurden das zuletzt erhaltene Pellet mit den Ligationsprodukten in 10µl H2O aufgenommen und resuspendiert. Diese resuspendierte Ligationsprodukte-Mischung wurde auf ein denaturierendes 10 % Polyacrylamid-Gel aufgetragen. Nach erfolgter Elektrophorese wurden aus dem Gel die Areale des Größenbereichs zwischen 40 nt und 150 nt ausgeschnitten und über Nacht mit 300 µl 0,5 M NH4Ac eluiert.
  • Die Gewinnung der cDNA-Ligationsprodukte aus dem gewonnenen Eluat erfolgte mittels Ethanolfällung unter Zugabe von zunächst 1 µl Glykogen (Thermo Scientific, #R0561) (- Gesamtvolumen: 301,0 µl) und abschließender Zugabe von 750 µl Ethanol.
  • PCR-Amplifikation und Strichkodierung (Barcoding)
  • Die aus (G) erhaltenen cDNAs wurden mittels der Polymerase - Kettenreaktion (PCR) unter Verwendung einer Taq-Polymerase, hier z.B. der Taq-Polymerase von Rapidozym (#Gen-003-1000), und entsprechend barcodierten P5- und P7-Primern, hier z.B jeweils mit 8 nt Barcodes, amplifiziert. Dafür wurde das in (G) zuletzt erhaltene Pellet mit den Ligationsprodukten der Größe 40 nt bis 150 nt in 20 µl PCR-Reaktionsgemisch aufgenommen und resuspendiert. Das PCR-Reaktionsgemisch bestand pro 20 µl aus 1x Taq-Polymerase-Puffer, 3 mM MgCl2, 5 µM P5 Primer, 5 µM P7 Primer, 0,5 mM dNTP Mix und 0,25 U/µl Taq-Polymerase.
  • Die gewonnene Resuspension mit den darin enthaltenen Adapter-ligierten cDNAs, den P5- und P7-Primern, der Taq-Polymerase und den dNTPs wurde 12 PCR-Zyklen unterworfen. Die PCR startete mit einem Denaturierungsschritt (von DNA-Doppelsträngen in Einzelstränge) bei 95 °C für 5 Min.. Anschließend wurden 12 Zyklen bestehend aus Denaturierung bei 95 °C für 1 Min., Annealing (Hybridisierung) bei 65 °C für 1 Min. und Elongation bei 72 °C für 1 Min. durchgeführt. Beendet wurde die PCR mit einem abschließenden Elongationschritt bei 72 °C für 5 Min.
    - Gesamtvolumen: 20,0 µl.
  • Die Gewinnung der PCR-Produkte, d.h. der amplifizierten cDNAs, erfolgte mittels Ethanolfällung unter Zugabe von zunächst 1 µl Glykogen (Thermo Scientific, #R0561) und NH4Ac (Endkonzentration: 0,5 M) zu dieser Mischung (- Gesamtvolumen: 50,0 µl) und abschließender Zugabe von 150 µl Ethanol.
  • Die PCR-Produkte (amplifizierten cDNAs) wurden mittels 10 % denaturierender Polyacrylamidgel-Elektrophores (PAGE) nach Größe getrennt.
  • Hierfür wurde das zuletzt erhaltene Pellet mit den amplifizierten cDNAs in 10 µl H2O aufgenommen und resuspendiert. Diese Resuspension wurde auf ein denaturierendes 10 % Polyacrylamid-Gel aufgetragen. Nach erfolgter Elektrophorese wurden aus dem Gel die Areale des Größenbereichs zwischen 150 nt, (der Größe der Adapter Dimere) und 300 nt (der maximalen Größe von PCR-Amplifikationsprodukten) ausgeschnitten und über Nacht mit 300 µl 0,5 M NH4Ac eluiert.
  • Die Gewinnung der amplifizierten cDNAs aus dem Eluat erfolgte mittels Ethanolfällung unter Zugabe von zunächst 1 µl Glykogen (Thermo Scientific, #R0561) (- Gesamtvolumen: 301,0 µl) und abschließender Zugabe von 750 µl Ethanol.
  • Das gewonnene Pellet, das die amplifizierten cDNAs einer Größe von 150-300 nt enthält, wurde in 10 µl H2O aufgenommen und resuspendiert. Die in dieser Suspension enthaltenen cDNAs waren bereit für eine Sequenzierung, insbesondere auch für eine Hochdurchsatz-Sequenzierung mit NGS-Methoden, z.B. „Sequenzierung mit Brückenamplifikation“.
  • Beispiel 3: Hochdurchsatz-Sequenzierung(-Screening)
  • Qualitätskontrolle und Quantifizierung
  • Ein Aliquot der (jeder) gemäß Beispiel 2 gewonnenen cDNA-Proben wurde einer elektrophoretischen Auftrennung mit anschließender Qualitätskontrolle und Quantifizierung unterworfen. Dies erfolgte vorzugsweise maschinell, hier z.B. unter Einsatz des Agilent Bioanalyzer 2100, eines im Stand der Technik bekannten und gebräuchlichen Apparates zur Durchführung von hochempfindlichen elektrophoretischen Auftrennungen.
  • Dafür wurden die Aliquots verdünnt (5-500 pg/µl) und auf einen Agilent High Sensitivity DNA-Chip geladen. Der so beladene Chip wurde in den Analyzer eingebracht. Während der maschinellen Analyse wurden die Probenkomponenten (DNA-Moleküle) elektrophoretisch getrennt, detektiert und in gelartige Bilder (Banden) und/oder Elektropherogramme (Peaks) übersetzt. Die ermittelten Daten wurden in digitaler Form erstellt und in Echtzeit automatisch analysiert. War die Qualität des jeweils untersuchten Aliquots zufrieden stellend, wurde die dazugehörige Probe weiter verwendet.
  • Sequenzierung (mit NGS-Methoden)
  • Die gemäß vorstehendem Schritt (A) überprüften und für qualitativ zufrieden stellend befundenen Proben wurden sequenziert. Diese Sequenzierung erfolgte mit der NGS-Methode „Sequenzierung mit Brückenamplifikation“, z.B. unter Einsatz der bekannten und geläufigen Illumina-Sequenzierung, hier der MiSeq-Methode („MiSeq-Sequenzierung“) unter Verwendung des Sequenzierapparates MiSeq auf der MiSeq-Plattform.
  • Hierfür wurden die hinsichtlich Qualität und Quantität überprüften und für geeignet befundenen Proben der (gegebenenfalls mehreren parallel) gemäß Beispiel 2 erstellten cDNA-Bibliothek(en) vereinigt, mit 2 N NaOH denaturiert und verdünnt (10 pM), und auf die Trägerplatte, die sogenannten „Flow Cell“, aufgetragen.
  • Diese Trägerplatte/Flow-Cell mit den cDNA-Molekülen der Proben wurde in den Sequenzier-Apparat (Sequenzer) eingebracht, und anschließend wurde maschinell sequenziert (gemäß Herstellerangaben, siehe: MiSeq®-Systemhandbuch, Katalog-Nr. SY-411-9001DOC, Material-Nr. 20000262, Dokument-Nr. 15027617 v01 DEU, September 2015).
  • Die ermittelten Sequenzinformationen pro cDNA-Molekül, die „Reads“, wurden in digitaler Form erstellt und ausgegeben und waren bereit für die Einspeisung und Weiterverarbeitung in eine Bioinformatik-Pipeline.
  • Die gewonnenen Sequenzierungsdaten wurden auf Qualität und Adapter-Kontamination überprüft. Dafür wurden sie (hier und vorzugsweise) über eine (die) Bioinformatik- bzw. High-Throughput-Sequenzierungs-Pipeline mit dem im Stand der Technik bekannten Software-Programm FastQC untersucht.
  • Das FastQC-Programm erstellte einen Qualitäts-Kontroll (QC)-Bericht der erkannten Probleme, die entweder im Sequenzer oder im Ausgangsbibliotheksmaterial entstanden waren. FastQC konnte in einem von zwei Modi ausgeführt werden. Es konnte entweder als eigenständige interaktive Anwendung für die sofortige Analyse von kleinen Zahlen von FastQ-Dateien laufen, oder es konnte in einem nicht-interaktiven Modus ausgeführt werden, der für die systematische Verarbeitung einer großen Anzahlen von FastQ-Dateien geeignet ist. In diesem nicht-interaktiven Modus war es gut in eine größere Analyse-Pipeline integrierbar.
  • Hier im Beispiel erfolgte die Untersuchung mittels FastQC im Rahmen der MiSeq RTA Software. Im Verfahrensschritt des sogenannten Demultiplexings wurden zunächst die Barcode-Sequenzen aus dem Barcoding-PCR Schritt identifiziert (keine Fehlertoleranz - 0 Mismatch) und anschließend die Reads (Sequenzierdaten) in individuelle FastQ-Dateien (eine FastQ-Datei je Probe bzw. pro ursprüngliche cDNA-Bibliothek) auftrennt.
  • Diese FastQ Dateien wurden auf Qualität, Adapter Dimere und überrepräsentierte Sequenzen geprüft.
  • Beispiel 4: Trimming und Mapping der gewonnenen Reads (Sequenzierdaten)
  • Trimming
  • Die gemäß Beispiel 3 erhaltenen Reads wurden getrimmt, d.h. Adaptersequenzen, insbesondere die Sequenzen der Adapter P5 und P7 aus der PCR-Reaktion (vgl. Beispiel 3 (H)) und zudem zufällige 10 nt Sequenzen des 3'-RNA-Adapters am 3'-Ende der RNA (vgl. Beispiel 2 (C)) und variable Anzahl an 5'-G RNA-Nukleotiden aus dem CTP cDNA Tailing Schritt (vgl. Beispiel 3 (G)) wurden entfernt.
  • Das Trimming erfolgte (hier und vorzugsweise) computerbasiert mit einer im Stand der Technik gebräuchlichen Bioinformatik-Software für Adapter-Trimming, hier im Beispiel mit der Cutadapt v1.8.1 Software.
  • Mapping
  • Das Mapping, d.h. die Zuordnung zum Referenzgenom, wurde unter Verwendung der Software Bowtie 2 durchgeführt. Die Einstellungen dieses Bowtie2-Aligners waren: Alignment-Modus = end-to-end-Alignment („global“); seed length (= Länge des initialen Alignmentversuchs) = 6 nt - L 6; k = 1 (d.h. beim gleichzeitigen Mapping aller Referenzen wurde nur ein von Bowtie2 als gültig erklärtes Alignment für jeden Ablesevorgang berichtet) und Mismatch = - N1 (d.h. Tolerierung von einer Fehlpaarung in der „seed“, d.h. im Bereich des initialen Alignmentversuchs).
  • Beispiel 5: Diagnostizierung der RT-Signatur
  • Die RT-Signaturdiagnostizierung, d.h. die Identifizierung und quantitative Messung des Reverse-Transkriptions-Ereignismusters für die untersuchte(n) Template-RNA(s), erfolgte an jeder einzelnen Nukleotid-Position der betreffenden RNA mit Hilfe von im Stand der Technik bekannten und geläufigen Softwareprogrammen, z.B. der SAMtools Software (Version 1.2).
  • Hierfür wurden zunächst die SAM-Dateien aus dem Mapping-Schritt in BAM-Dateien konvertiert. Dann folgten die Schritte: (i) Sortierung und Indizierung der BAM-Dateien, (ii) Umwandlung der BAM-Dateien in das Pileup-Format und (iii) Umwandlung des Pileup-Formats in eine benutzerdefinierte Tab-separierte Text-Datei (sogenannte „Profile Datei“).
  • In den Dateien waren für jede einzelne Nukleotidposition (Referenzposition) der Template-RNA(s) alle relevanten RT-Signatur-Merkmale wie Coverage (Abdeckung, Überdeckung), Abbruch-Rate (arrest rate), Gesamt-Mismatch-Rate, Einzelmismatch-Raten (der betreffenden falsch gepaarten Nukleotide), Gesamtsprungrate, Rate der direkten Einzelsprünge (Single Jump Rate Direct), Rate der verzögerten Einzelsprünge (Single Jump Rate Delayed), Doppelsprung-Rate (Double Jump Rate) angegeben.
  • Die Merkmale wurden basierend auf dem Pileup-Format erfasst und im Profile-Format gemäß folgender Regeln berechnet:
  • Die Arrest-Rate ai einer Position i ist definiert als der relative Anteil an Reads (cDNAs), die an der Stelle i+1 starten, d.h. i+1 abdecken, nicht jedoch i, unter allen Reads, die i+1 abdecken und deren Anzahl als Coverage (Überdeckung) ci+1 bezeichnet wird. Wenn si+1 die Anzahl der an i+1 startenden Reads ist, dann ist die Arrest-Rate der Position i definiert als ai = si+1 / ci+1. Sei di die Anzahl von gemappten Reads, die i mit einer Base überdecken, welche sich von der Referenzbase an i unterscheidet. Dann ist die Mismatch-Rate definiert als mi = di/ci. Die Einzel-Mismatch-Raten für G, T und C an einer m1A-Stelle werden als Anteile an mi gezählt. Die genannten Anzahlen von Coverages, Abbrüchen, Starts, Mismatches und Sprüngen sind direkt aus dem Pileup-Format ermittelbar. Jede Zeile des Pileup-Formats spiegelt basengenau die Überdeckung einer Referenzposition wieder. Dabei stehen Punkte und Kommas für überdeckende Basen, die der Referenzbase gleichen. Basen, die sich von der Referenzbase (in der Template-RNA) unterscheiden, erscheinen im Pileup-Format in Form der gewohnten Buchstaben A, G, T oder C (sofern der jeweilige Read in „sense“-Richtung, d.h. so wie er ist aligniert wurde) bzw. a, g, t, oder c (falls der jeweilige Read in „anti-sense“-Richtung, d.h. als sein reverses Komplement aligniert wurde). Ein Sprung über die entsprechende Position wird als Sternchen dargestellt. Bei Sprüngen über mehrere Positionen steht an der ersten Position statt dem Sternchen ein Minuszeichen, gefolgt von einer Zahl, die die Anzahl der übersprungenen Positionen wiedergibt. Zur Berechnung der sogenannten kontext-sensitiven Abbruchrate CSA (CSA ist definiert als das Verhältnis von positionsspezifischem RT-Abbruch (Arrest) ai an einer Stelle i zu dem in der lokalen Umgebung, d.h in den Nachbarsequenzen beobachteten RT-Abbruch) werden im Pileup-Format die 5 Stellen vor und 5 Stellen nach der betreffenden Nukleotid-Position i (d.h. die Nachbarsequenzen fünf Basen upstream (+ 5 bp) und fünf Basen downstream (- 5 bp)) herangezogen und die Arrest-Rate an Position i durch den Median der Arrest-Raten aller elf in diesem Fenster liegenden Positionen dividiert. Die Fenstergröße kann je nach Kenntnis über die Beschaffenheit der vorliegenden RNA vergrößert oder verringert werden, um gegebenenfalls die Vorhersageleistung in der Kreuzvalidierung zu verbessern.
  • Die so erhaltenen Daten wurden aus dem Pileup-Format z.B. (wie hier und vorzugsweise) in das Profile-Format transformiert und dort abgespeichert und bei Bedarf angezeigt. In 7 ist ein Beispiel für eine solche Profile-Datei dargestellt.
  • Für eine Weiterverarbeitung der Daten z.B. in einem Klassifizierverfahren, das nur Nukleotidpositionen einer bestimmten Referenzbase (A, C, G oder T) klassifizieren soll, z.B. von Adenin (A) in entweder „modifiziert“ (m1A) oder „nicht-modifiziert“ (A), können Profile-Dateien mit reduziertem Datensatz erstellt werden, z.B. nur mit den Daten von Positionen, die der Referenzbase A der betrachteten Modifikation m1A entsprechen.
  • Beispiel 6: Computerbasierte und auf Machine-Learning (maschinellem Lernen) beruhende überwachte Vorhersage (supervised prediction) von m1A-Stellen
  • Die gemäß Beispiel 5 gewonnenen digitalen Daten des RT-Ereignismusters (der RT-Signatur), die vorzugsweise in Form von Profile-Dateien vorlagen, wurden in ein computerbasiertes, auf maschinellem Lernen beruhendes Klassifizierungsverfahren, z. B. (hier und vorzugsweise) in das im Stand der Technik bekannte und gebräuchliche, auf Entscheidungsbäumen basierende Random Forest-Klassifizierungssystem (R Version v3.3.1) eingespeist.
  • Für die Klassifizierung der RT-Signaturen wurden dem Klassifizierer mindestens die Attribute: Abbruch-Rate a, Gesamt-Mismatch-(Fehlpaarungs-)-Rate m, das m/a-Verhältnis, relative Fehlpaarungszusammensetzung (Fraktionsgehalt von G, T und C) und die kontext-sensitive Abbruchrate CSA eingegeben, und vorzugsweise zudem die Sprungrate.
  • Training und Testung (Überprüfung) des Klassifizierers (Phase I des Verfahrens)
  • Für das Training und Testen/Überprüfen des Klassifizierers auf die Detektion einer bestimmten charakteristischen RT-Signatur, hier z.B. auf die Detektion der RT-Signatur an m1A-Stellen, wurden dem Algorithmus zunächst gleiche Anzahlen (beispielsweise jeweils 45 wie in Hauenschild et al. (2015) beschrieben) an RT-Signaturen von bekannten m1A Stellen (aus bekannten Template-RNAs mit identifizierten m1A-Stellen) und an RT-Signaturen von bekanntermaßen nicht-modifizierten (bzw. nicht erkennbar modifizierten) A-Stellen (aus bekannten Template-RNAs ohne m1A-Stellen) zugeführt. Zu diesem Zweck wurden vorzugsweise gemäß Beispiel 5 erstellte Profile-Dateien mit reduziertem Datensatz verwendet, d.h Profile-Dateien, die nur die RT-Signaturdaten der für die betreffende Referenzbase (hier z.B. für A) angezeigten Positionen enthalten (hier im Beispiel m1A- oder nicht-mlA-Positionen). Bevorzugterweise wurden (wie in Hauenschild et al. 2015 beschrieben) m1A-ähnliche nicht-m1A-Stellen in das Training mit einbezogen, um den Klassifiziere auch auf die Erkennung bzw. Vorhersage von schwierigen Fällen in unbekannten Template-RNAs vorzubereiten.
  • Anhand der RT-Signaturen von den bekannten positiven m1A-Stellen erstellte („erlernte“) und adaptierte (korrigierte und optimierte) der Klassifizierer (hier beispielsweise und vorzugsweise der Random Forest-Klassifizierer, R Version v3.3.1) das besondere und typische (charakteristische) Profil für die m1A-Stelle (vgl. 2 A). Mit anderen Worten: Der Klassifizierer erlernte das typische m1A-RT-Signatur-Profil implizit während der Trainings- und (Selbst-)Testungs-/Überprüfungsläufe.
  • Als optionale Qualitätsüberprüfung wurde mit den eingegebenen Daten eine wiederholte, mehrfache (hier z.B. dreifache) Kreuzvalidierung durchgeführt. Auf diese Maßnahme kann aber auch verzichtet werden.
  • Das Klassifizierungsergebnis bestand in einer Auflistung aller geprüften Positionen („Instanzen“) auf der/den (jeder) Template-RNA(s) mit einer Bewertung pro Position („Instanz“) bezüglich der Entscheidung bzw. Frage, ob die jeweils vorliegende RT-Signatur mit dem erlernten typischen m1A-RT-Signatur-Profil (vgl. 2A) annähernd oder vollständig übereinstimmte, d.h. die ihm ähnlich war oder mit ihm übereinstimmte.
  • Die Bewertung erfolgte in der Angabe eines Zahlenwertes zwischen 0 und 1, wobei der Wert „0“ einem eindeutigen „nein“ und der Wert „1“ einem eindeutigen „ja“ entspricht. Zwischenwerte stehen für eine entsprechende Wahrscheinlichkeit für ein „ja“ bzw. ein „nein“ (z.B. steht der Wert 0,99 für ein relativ sehr sicheres „ja“ und der Wert 0,4 steht für ein schwaches „nein“). Je näher eine Bewertung beim Wert 1 liegt, d.h. je sicherer die „ja“-Bewertung ausfällt, desto stärker wiegt sie als Indiz für das Vorliegen der m1A-Nukeotid-Modifikation an der betreffenden Position der Template-RNA.
  • Die Berechnung der mittleren Vorhersageleistung (Sensitivität, Spezifität) erfolgte auf der Basis von Training und Testung/Überprüfung mit Hilfe der Kreuzvalidierungen.
  • Einsatz (Anwendung) des Klassifizierers zur Untersuchung einer unbekannten Template-RNA
  • Die zu untersuchende unbekannte(n) Template-RNA(s) (beispielsweise aus einer Patienten-Probe) wurde gemäß der Beispiele 2 und 3 aufbereitet. Die gewonnenen Sequenzinformationen in Form der Reads wurden gemäß Beispiel 4 getrimmt und einem Referenzgenom zugeordnet („gemapped“) und gemäß Beispiel 5 bezüglich der RT-Signaturen untersucht, d.h. die RT-Signatur-Merkmale Coverage (Abdeckung), Abbruch-Rate (arrest rate), Gesamt-Mismatch-Rate, Einzelmismatch-Raten (der betreffenden falsch gepaarten Nukleotide) Rate der direkten Einzelsprünge (Single Jump Rate Direct), Rate der verzögerten Einzelsprünge (Single Jump Rate Delayed), Doppelsprung-Rate (Double Jump Rate) wurden an jeder Nukleotidposition auf Vorhandensein geprüft und gegebenenfalls quantitativ gemessen.
  • Bevorzugterweise und zwecks Aufwandsminimierung wurden gemäß Beispiel 5 nur diejenigen Nukleotidpositionen im Profile-Format abgespeichert und in den Klassifizierer eingespeist, die die fragliche Referenzbase (das fragliche Nukleosid) aufweisen.
  • Im Anwendungsfall zur Untersuchung hinsichtlich eventuell vorhandener m1A-Stellen wurden folglich alle potentiellen Positionen mit der Referenzbase A (Adenin) im Profile-Format abgespeichert und in den Klassifizierer, hier den Random Forest, eingespeist.
  • Eine verkürzte Laufzeit der Vorhersageprozedur konnte dadurch erreicht werden, dass in der Profile-Datei offensichtlich signaturlose Zeilen (d.h. Nukleotid-Positionen, die von der RTase korrekt transkribiert worden waren und wo folglich keines der charakteristischen RT-Signatur-Merkmale vorliegt) mit Hilfe eines einfachen Filters (Verlangen von benutzergewählten Mindestwerten für Signaturmerkmale) kontrolliert entfernt wurden.
  • Als Ergebnis der Untersuchung lieferte der Klassifizierer (z.B. das Random Forest Modell) eine Einschätzung zwischen „ja“ und „nein“ für jede Nukleotid-Position im untersuchten Transkriptom und damit eine Aufstellung derjenigen Positionen auf der/den unbekannten Template-RNA(s), die eine RT-Signatur aufwiesen, die mit dem (vom Klassifizierer implizit gelernten) besonderen und typischen (charakteristischen) Profil für die betreffende Nukleotid-Modifikationsstelle, hier im Beispiel für die m1A-Stelle, annähernd oder vollständig übereinstimmten.
  • Als Maß für die Qualität der Bewertung wurde hier (beispielsweise und vorzugsweise) noch der sogenannte „Score“, ein numerischer Punktewert auf einer eindimensionalen Bewertungsskala, jeweils mit angegeben. Die Erstellung des Scores ist eine (mögliche) Komponente des Random Forest Klassifizierers.
  • Beispiel 7: Analyse und Vergleich der RT-Signaturen von 13 verschiedenen RTasen für die (bzw. an der) RNA-Nukleotidmodifikation m1A
  • Analog der in den Beispielen 2 bis 5 beschriebenen Verfahren wurden die in Tabelle 1 aufgelisteten 13 verschiedenen, im Stand der Technik bekannten und im Handel erhältlichen Reversen Transkriptasen (RTasen) parallel und analog hinsichtlich ihrer jeweiligen RT-Signatur an m1A-Stellen untersucht.
  • Die Erstellung der cDNA-Bibliotheken und die Hochdurchsatz-Sequenzierung (gemäß den Beispielen 2 und 3) und ebenso das Trimming und Mapping und die Diagnostizierung der RT-Signaturen (gemäß den Beispielen 4 und 5) wurde für alle 13 RTasen dreimal wiederholt (d.h. technische Triplikate je RTase wurden erstellt). Als Template-RNA diente für jeder der RTasen die gut analysierte (annotierte) Gesamt-tRNA von Saccharomyces cerevisiae (erhältlich z.B. bei Roche Diagnostics: Ref 10109525001 /lot 13407921), die ausreichend viele bekannte m1A-Stellen enthält. Als Referenzsequenzen diente ein Satz aus 43 tRNAs, zusammengestellt aus den Datenbanken MODOMICS (Machnicka et al., 2013) und Sprinzl (Jühling et al., 2009). Unter diesen 43 tRNAs befanden sich 26 tRNAs, die in ihrer Sequenz ein m1A tragen.
  • Die ermittelten RT-Signaturen der 13 verschiedenen RTasen zeigten große Variationen in ihren Abbruch- und Mismatchraten, d.h. die Abbruch- und Fehlpaarungsraten der einzelnen RTasen waren im Vergleich untereinander stark unterschiedlich (siehe 3). Zum Beispiel zeigten RTase 10 (MonsterScript™) und RTase 4 (GoScript™) hohe Abbruch- und niedrige Mismatch (Fehlpaarungs)-Raten während RTase 12 (SuperScript®IV) im Vergleich dazu ein umgekehrtes Verhalten zeigte.
  • Diese Unterschiede weisen daraufhin, dass das Detektionsvermögen der einzelnen RTasen bezogen auf ml A Positionen in der Sequenz der Template-RNA stark variiert.
  • Im Verlauf dieser Vergleichsuntersuchungen wurde zudem überraschenderweise ein bisher unbekanntes Phänomen festgestellt, dass bei den einzelnen RTasen unterschiedlich stark ausgeprägt war: In den Sequenzierdatensätzen einiger RTasen waren an m1A Stellen charakteristische Sequenzlücken zu erkennen, die auf Sprünge bei der Abschreibung der RNA in cDNA hinweisen. Mit anderen Worten: Die betreffenden RTasen zeigten in ihrer RT-Signatur neben Mismatch/Fehlpaarung und Abbruch außerdem als bisher unbekanntes Phänomen charakteristische Lücken in der Sequenzablesung, die sich aus Sprüngen der betreffenden RTase über die m1A-Position hinweg ergeben (siehe 1 und 2). Diese Sprünge traten auffallend häufig an m1A-Stellen auf und insbesondere an solchen mit einer hohen Abdeckung/Erfassungsrate („coverage“) aufgrund des starken Read-Through-Vermögens der jeweiligen RTase.
  • Es können Einzel- und Doppelsprünge unterschieden werden. Bei den Einzelsprüngen kann es sich um direkte oder um verzögerten Einzelsprünge handeln, das heißt die (übersprungene) Lücke liegt entweder direkt an der m1A-Stelle oder an der Stelle ihres 5' angrenzenden Nachbarn, bekannt als -1-Position. Doppelsprünge führen zu und erscheinen als Lücken an den beiden Positionen m1A- und -1.
  • Die Variabilität der Sprungfähigkeiten, die von einer Gesamtsprungrate von ca. 10 % für SuperScript® IV bis zu vernachlässigbaren Werten für RTasen mit höchsten Abbruchraten reicht, stellt eine weitere Ebene der individuellen Read-Through-Fähigkeit von RTasen dar. Generell sind die meisten der vorkommenden Sprünge Doppel-Sprünge über zwei Nukleotide. Einzel-Sprünge treten annähernd gleich häufig auf, mit einer leichten Präferenz für verzögerte Einzel-Sprünge.
  • Das Streudiagramm in 3 zeigt für die 13 untersuchten, verschiedenen RTasen die große Vielfalt der RT-Signaturen an m1A-Stellen unter Berücksichtigung dieses neu entdeckten dritten Kern-Merkmals „Jumps/Sprünge“. (Die dargestellten Werte für Abbruchrate, Mismatch-Rate und Gesamtsprung-Rate repräsentieren jeweils den Mittelwert aus den betreffenden drei Einzelwerten des jeweiligen technischen Triplikats; die Fehlerbalken zeigen die Standardabweichungen von Abbruch- und Fehleinbauraten dieser Triplikate.)
  • Die Nutzung der festgestellten großen Varianz in der RT-Signatur der 13 verschiedenen RTasen (siehe 3) - unter Berücksichtigung allein der charakteristischen Merkmale Abbruch-Rate und Mismatch-Rate oder aller drei als prägend erkannten Merkmale Abbruch-Rate, Mismatch-Rate und Gesamtsprung-Rate - bietet stark verbesserte und erweiterte Möglichkeiten für die Detektion von m1A-Stellen - oder auch von anderen Nukleotid-Modifikationsstellen mit typischer RT-Signatur - in einer beliebigen Test-Template-RNA.
  • Beispiel 8: Bewertung der Vorhersageleistung der RT-Signatur einer RTase und Gewichtung (Bedeutsamkeit) der RT-Signatur-Merkmale
  • Zur Bewertung der Vorhersageleistung der RT-Signatur einer individuellen RTase wurden gemäß Beispiel 6 (A) für die in Beispiel (7) gewonnenen RT-Signaturen der 13 RTasen an m1A-Stellen jeweils ermittelt, welches der charakteristischen Merkmale der RT-Signatur mit welcher Gewichtung die betreffende RTase-spezifische RT-Signatur prägt bzw. mitprägt.
  • Untersucht wurden (hier z.B. und vorzugsweise) die sechs RT-Signatur-Merkmale: Abbruchrate, Gesamtsprungrate und Mismatch-Rate und hinsichtlich der Mismatch-Ereignisse zudem die relativen Gehalte der Mismatch-Komponenten G, T und C.
  • Auch bei dieser Untersuchung wurden große Unterschiede zwischen einzelnen RTasen gefunden (vgl. 4). Bei einigen RTasen dominierten Abbruchrate und Mismatchraten ihre RT-Signatur, weshalb deren Vorhersagekraft vor allem auf Abbruchrate und Mismatchrate basiert, während bei anderen RTasen die Sprungrate die RT-Signatur entscheidend mitprägte und deshalb in die Bewertung der Vorhersageleistung der RT-Signatur miteinbezogen werden sollte.
  • Um zu ermitteln, wie die RTase-Typ-spezifischen Unterschiede in den RT-Signaturen die Diskriminierung (Unterscheidung/Abgrenzung) zwischen m1A und nicht-mlA Fällen beeinflussen, wurde ein überwachtes maschinelles Lernexperiment durchgeführt:
  • Für jede der in Tabelle 1 gelisteten 13 RTasen wurden die RT-Signaturen von 26 m1A-Fällen (gewonnen mit m1A-haltigen Hefe-tRNAs als Template-RNAs) mit einer gleichen Anzahl von nicht-m1A-Signaturen gepaart, die zuvor nach dem Zufallsprinzip aus dem umgebenden Sequenzpool gezogen wurden. Diese Paare wurden gemischt und in drei Gruppen gleicher Klassenhäufigkeit (sogenannte „folds“) aufgeteilt.
  • Jeder Signaturdatenpunkt enthielt die RT-Signatur-Merkmale Abbruchrate, relative Mismatch-Rate, relative Mismatch-Komponenten (G, T und C) und die Gesamtsprungrate. In einer Kreuz-Validierung wurde ein Random-Forest-Modell (wie in Liaw und Wiener, 2002, beschrieben) auf (an) zwei dieser Gruppen („folds“) trainiert (geschult) und auf (an) der dritten getestet. Shuffling (d.h. Durchmischung der Gruppenzusammensetzung) und Kreuz-Validierung wurden 100 mal wiederholt, um der statistischen Varianz Rechnung zu tragen.
  • Die Anwendung dieser Prozedur für die in Beispiel 7 gewonnenen RT-Signaturen jeder RTase lieferte die in 4 dargestellten Ergebnisse: Für jede der 13 RTasen (Nr. 1 bis Nr. 13) ist für jedes der sechs RT-Signatur-Merkmale die gemittelte Rangfolge ihrer Leistungsfähigkeit für eine m1A-Vorhersage und damit ihre „Leistungsfähigkeit der Klassifizierung“ („classification power“) als (in Form der) „Area Under Curve (AUC)“ der „Receiver Operating Characteristic (ROC)“ angegeben. Die Daten der RT-Signatur-Triplikate wurden gemittelt; die schwarzen vertikalen Striche zeigen Standardabweichungen über 3 Sequenzläufe). Für jede RTase wurden in jedem Klassifizierungslauf 100 Wiederholungen einer 3-fachen Kreuzvalidierung durchgeführt. Jedes binäre Klassifizierungs-Setup enthielt 26 positive (m1A) und 26 zufällig ausgewählte negative Fälle (non-m1A, d.h. ohne Nukleotidaustausch) aus dem tRNA-Sequenzraum und wurde unter Schichtung in zwei Trainings- und eine Test-Datengruppe aufgeteilt. Das führte zu 3x13x100x3 = 11,700 Random Forest Modellen.
  • Es ist deutlich erkennbar, dass RT-Signaturen einiger RTasen zu besseren Vorhersageleistungsergebnissen führten als die von anderen. Bei einigen RTasen unterschieden sich die Vorhersageleistungsergebnisse um mehrere Prozentpunkte. Die RTase 5 (SuperScript® III), die in den von Hauenschild et al. (2015) beschriebenen Untersuchungen verwendet wurde, rangiert in der Mitte dieser Klassifizierung.
  • Durch eine gezielte Auswahl der mutmaßlich am besten geeigneten RTase(n) für eine geplante Sequenzuntersuchung einer Test-Template-RNA bezüglich einer bestimmten Nukleotid-Modifikation können so der Arbeitsablauf verbessert und Restfehler entscheidend reduziert werden.
  • Ein Vergleich der Gewichtungswerte, die für die RT-Signatur-Merkmale von verschiedenen RTasen (an m1A-Stellen) mit dafür konstruierten maschinellen Lernmodellen erhalten wurden, weist auf ein individuelles Gewichtungsmuster der Merkmale in der RTSignatur einer jeden RTase hin, das zur Entscheidungsfindung beiträgt.
  • Die Bestimmung der Gewichtung (Synonyme: Bedeutsamkeit; Wichtigkeit) eines RT-Signatur-Merkmals (z.B. der Abbruchrate) erfolgte durch Permutation der (aller) Werte, die für dieses Merkmal mit allen 13 untersuchten RTasen gewonnenen wurden (d.h. Vertauschung von Werten, auch von Negativinstanzen, nämlich Nukleotid-Positionen mit potenziell schwacher Ausprägung dieses Merkmals, mit entsprechenden Werte von Positivinstanzen, nämlich von Nukleotid-Positionen mit zumeist stärkerer Ausprägung dieses Merkmals), und Messung der korrespondierenden Abnahme der Klassifizierungsgenauigkeit. Diese Abnahme der Klassifizierungsgenauigkeit ist tendenziell umso höher, je wichtiger (prägender) dieses Merkmal für die RT-Signatur ist. Zum Beispiel hat für die RT-Signatur von RTase 3 (ProtoScript® II) die Permutation der ausgeprägten Abbruchrate große Auswirkungen, während dieses Merkmal für RTase 12 (SuperScript® IV), wo es nur geringfügig ausgeprägt ist, nur von untergeordneter Bedeutung ist. Obwohl sie in den Mustern der Merkmals-Gewichtung unterschiedlich sind, liegen RTase 3 (ProtoScript® II) und RTase 12 (SuperScript® IV) auf den höchsten AUC-Rängen, d.h. ihre RT-Signaturen besitzen die stärkste Klassifizierungsfähigkeit und erlauben die besten maschinellen Lernleistungen.
  • Beispiel 9: Vergleich der m1A Erkennungsleistungen - Paarweise Kombination der RT-Signaturen von verschiedenen RTase-Typen (a) nach Einzelleistungen und (b) mit unterschiedlichen Mustern in der Gewichtung (Bedeutsamkeit; Wichtigkeit) ihrer RT-Signatur-Merkmale
  • Um zu prüfen, ob diese gemäß Beispiel 8 festgestellten Unterschiede in den RT-Signaturen verschiedener RTasen für eine verbesserte Detektion von Nukleotid-Modifikationsstellen in Template-RNAs genutzt werden können, wurde das in Beispiel 8 beschriebene überwachte maschinelle Lernexperiment, nämlich Random-Forest-Training und -Testung/Überprüfung (basierend auf 100 Wiederholungen einer 3-fachen Kreuzvalidierung) für RTase-Paare durchgeführt, d.h. unter Verwendung der RT-Signaturdaten (vgl. 3) von jeweils zwei RT-Signaturen zweier verschiedener RTasen. Für die insgesamt 13 verschiedenen RTasen (gemäß Tabelle 1) ergaben sich somit 13 ×12=156 heterogene RTase-Kombinationen, d.h. Paare aus zwei verschiedenen RTasen. Zum Vergleich wurde dieses Lernexperiment außerdem mit den ungepaarten RT-Signaturen der 13 einzelnen RTasen analog durchgeführt. Anstelle von sechs Lernmerkmalen gemäß Beispiel 8 (Abbruchrate, Gesamtsprungrate, Mismatch-Rate und relativer Gehalt der Mismatch-Komponenten G, T und C) wurden nun für jede Trainingseinheit zwölf Lernmerkmale (nämlich zweimal diese sechs) vorgegeben. Die Auswertung der 156 RT-Signaturdatenkombinationen zeigte eine messbare Verbesserung der (m1A-) Vorhersageleistung (AUC-Werte) für jede der Paar-Kombinationen aus zwei verschiedenen RTasen und eine besonders deutliche bei RTasen mit ausgeprägten Unterschieden in der Gewichtung ihrer RT-Signatur-Merkmale (siehe Heatmap in 5). Beispielsweise lieferte die Kombination von zwei leistungsstarken RTasen wie RTase 12 (SuperScript® IV) und RTase 3 (ProtoScript® II) höchste AUC-Werte und damit die besten Vorhersageleistung. Die einzelnen (ungepaarten) RTasen (vgl. 5: diagonale Felderreihe) lieferten demgegenüber deutlich niedrigerer AUC-Werte und damit schlechtere Vorhersageleistungen. Diese Ergebnisse zeigen deutlich, dass die kombinierte Verwendung von zwei RT-Signaturen, die von zwei verschiedenen RTasen stammen, wesentlich bessere bzw. genauere Vorhersage liefert, als die Verwendung von einfachen RT-Signaturen einer bestimmten RTase. Diese signifikante Verbesserung bzw. Leistungssteigerung deutet darauf hin, dass sie auf einem synergistischen Effekt der Kombination von RT-Signaturen verschiedener RTasen beruht.
  • Mit Hilfe der richtigen RTase-Kombination kann folglich eine deutlich optimierte Vorhersageleistung für die erhaltenen RT-Signaturen (der RTase-Paare) erreicht werden. Durch eine gezielte Auswahl von zwei (oder mehr) RTasen mit bekannten RT-Signaturen an der betreffenden Nukleotid-Modifikationsstelle, deren Kombination unter Berücksichtigung der Gewichtung ihrer RT-Signatur-Merkmale für ein geplantes Vorhaben mutmaßlich am besten geeignet ist, und den Einsatz dieser RTasen in parallelen Reversen Transkriptions-Reaktionen mit der gleichen Template-RNA werden zwei (oder entsprechend mehr) RT-Signaturen erhalten, deren kombinierte Anwendung im überwachten maschinellen Lernexperiment gemäß Beispiel 8 eine signifikant verbesserten Klassifizierungsleistung, d.h. Leistungsfähigkeit für eine m1A-Vorhersage bewirkt (zur Folge hat). Restfehler sind wesentlich reduziert.
  • Beispiel 10: Vergleich der m1A Erkennungsleistungen - Verwendung von RT-Signatur-Tripletts zwecks Leistungssteigerung
  • Die in Beispiel 9 beschriebenen Untersuchungen wurden analog mit RTase-Tripletts, d.h. mit Dreierkombinationen aus verschiedenen RTasen, durchgeführt.
  • Die erhaltenen Ergebnisse zeigten erwartungsgemäß, dass die Vorhersageleistung (Detektionsleistung) für eine m1A-Stelle verbessert werden kann, wenn die RT Signaturdaten von drei verschiedenen RTasen kombiniert werden. Zahlreiche RTase-Tripletts lieferten AUC-Werten von 1,000 und zeigten damit eine ideale Leistungsfähigkeit der Klassifizierung („classification power“) bzw. m1A-Vorhersageleistung. Ein detaillierter Vergleich zwischen RT-Signatur-Paaren und RT-Signatur-Tripletts zeigt allerdings, dass die RT-Signaturen einiger RTase-Paare bereits eine quasi-beste m1A-Vorhersageleistung bieten, d.h. ihre AUC-Werte liegen in einem Bereich, der mit dem der RT-Signatur-Tripletts überlappt.
  • In 6 ist ein Vergleich der mlA-Vorhersageleistungen in einer Random Forest-Klassifizierung für die drei alternativen Trainings- und Anwendungsmodi (-zustände) des Klassifizierungsverfahrens, nämlich Training (gemäß Beispiel 6 A) und Anwendung gemäß Beispiel 6 B) mit den Informationen bzw. Daten der RT-Signatur-Merkmale von (i) einer RT-Signatur (der 13 verschiedenen RTasen), (ii) zwei RT-Signaturen (von einem der 156 RTase-Paare) und (iii) drei RT-Signaturen (von einem der 1716 RTase-Tripletts) anhand eines Boxplots graphisch dargestellt.
  • Diese Ergebnisse, wonach die Vorhersage einer Nukleotid-Modifikationsstelle m1A mit größtmöglicher Trefferwahrscheinlichkeit (AUC gleich oder annähernd gleich 1,000) durch Verwendung von nur zwei verschiedenen RTasen bzw. deren RT-Signaturen ausreichend ist, weisen darauf hin, dass auch die Verwendung von zwei (oder mehr) verschiedenen RT-Signaturen aus parallelen RT-Reaktionen (Reaktionsdurchläufen) mit der gleichen RTase aber mit voneinander abweichenden Reaktionsbedingungen je Ansatz (z.B. unterschiedliche Konzentrationen an dNTPs, unterschiedliche divalente Kationen wie Mg2+ oder Mn2+, unterschiedliche Konzentrationen an divalenten Kationen, unterschiedliche pH-Wert, unterschiedliche Temperaturen, unterschiedliche Konzentrationen an Polyethylenglykol), eine nahezu optimale mlA-Vorhersageleistung (und damit eine Nahezu-Detektionsleistung) ermöglicht.
  • Beispiel 11: Detektion einer anderen Nukleotid-Modifikationen (als m1A) z.B. m1G oder m2,2G
  • Das Verfahren zur Detektion einer anderen Nukleotid-Modifikationen als m1A, z.B. von m1G oder m2,2G wird wie in den Beispielen 1 bis 9 oder 1 bis 10 durchgeführt, mit der Abwandlung, dass als Template-RNAs in Schritt 1 von Phase I, und damit als Trainings-RNA-Satz für den Klassifizierer solche RNA-Sequenzen eingesetzt werden, die bekannter- und nachgewiesenermaßen die gesuchte Nuleotid-Modifikation, also z.B. m1G oder m2,2G enthalten.
  • Beispiel 12: Kit zur Durchführung des erfindungsgemäßen Verfahrens
  • Der Kit umfasst (a) wenigstens zwei Reverse Transkriptasen RTase X und RTase Y, deren RT-Signaturen an der betreffenden Nukleotid-Modifikationsstelle bezüglich der Gewichtung der RT-Signatur-Merkmale (Abbruch-Rate, Gesamt-Mismatch-Rate, Einzelmismatch-Raten der betreffenden falsch gepaarten Nukleotide, Gesamtsprungrate, Rate der direkten Einzelsprünge, Rate der verzögerten Einzelsprünge, Doppelsprung-Rate) wenigstens in einem der RT-Signatur-Merkmale ein unterschiedliches Muster aufweisen, und/oder (b) wenigstens zwei verschiedene vorgemischte Reaktionsansätze (Synonyme: Reaktionsmischungen; Puffermischungen) A und B, die verschiedene (d.h. voneinander abweichende) Reaktionsbedingungen verkörpern, indem sie z.B. unterschiedliche Konzentrationen an dNTPs, und/oder unterschiedliche divalente Kationen, insbesondere Mg2+ und Mn2+, und/oder unterschiedliche Konzentrationen an divalenten Kationen und/oder unterschiedliche pH-Werte, und/oder unterschiedliche Konzentrationen an Polyethylenglykol (PEG) enthalten.
  • Zur Durchführung von Schritt (1) in Phase (I) und in Phase (II) des Verfahrens ist es nur noch erforderlich, die RTase(n) mit dem Reaktionsansatz oder den Reaktionsätzen und der/den betreffenden Template-RNA(s) zu mischen und zu inkubieren.
  • Beispiele für parallele Reaktionsansätze zur Durchführung des erfindungsgemäßen Verfahrens sind:
    1. (i) Ansatz a: Template RNA (s) + RTase X + Reaktionsgemisch A Ansatz b: Template RNA (s) + RTase Y + Reaktionsgemisch A
    2. (ii) Ansatz a: Template RNA (s) + RTase X + Reaktionsgemisch A Ansatz b: Template RNA (s) + RTase Y + Reaktionsgemisch A Ansatz c: Template RNA (s) + RTase X + Reaktionsgemisch B Ansatz d: Template RNA (s) + RTase Y + Reaktionsgemisch B
    3. (iii) Ansatz a: Template RNA (s) + RTase X + Reaktionsgemisch A Ansatz b: Template RNA (s) + RTase X + Reaktionsgemisch B Ansatz c: Template RNA (s) + RTase X + Reaktionsgemisch C
  • Zitierte Literatur:
    • Hauenschild, R., Tserovski, L., Schmid, K., Thüring, K., Winz, M.L., Sharma, S., Entian, K.D., Wacheul, L., Lafontaine, D. L. J., Anderson, J., Alfonzo, J., Hildebrandt, A., Jäschke, A., Motorin Y., Helm, M., „The reverse transcription signature of N-1-methyladenosine in RNA-Seq is sequence dependent“, Nucleic Acids Research, vol. 43, no. 20, pp. 9950-9964, 2015
    • Dominissini, D., Nachtergaele, S., Moshitch-Moshkovitz, S., Peer, E., Kol, N., Ben-Haim, M.S., Dai, Q., Di Segni, A. et al., „The dynamic N1-methyladenosine methylome in eukaryotic messenger RNA", Nature, vol. 530, no. 7591, pp. 441-446, 2016
    • Linder, B., Grozhik, A.V., Olarerin-George, A.O., Meydan, C., Mason, C.E., Jaffrey, S.R., „Single-nucleotide-resolution mapping of m6A and m6Am throughout the transcriptome", Nature Methods, vol. 12, no. 8, pp. 767-774, 2015
    • Liaw, A., Wiener, M. „Classification and regression „Classification and regression by randomForest", R News, vol. 2, pp. 18-22, 2002
    • Tserovski, L., Marchand V., Hauenschild R., Blanloeil-Oillo F., Helm M. and Motorin Y., „High-throughput sequencing for 1-methyladenosine (m1A) mapping in RNA", Methods, 107, 110-121, 2016
    • Machnicka,M.A., Milanowska,K., Osman Oglou,O., Purta,E., Kurkowska,M., Olchowik,A., Januszewski,W., Kalinowski,S., Dunin-Horkawicz,S., Rother,K.M. et al. (2013) MODOMICS: a database of RNA modification pathways-2013 update. Nucleic Acids Res., 41, D262-D267.
    • Jühling,F., Mörl,M., Hartmann,R.K., Sprinzl,M., Stadler,P.F. and Pütz,J. (2009) tRNAdb 2009: compilation of tRNA sequences and tRNA genes. Nucleic Acids Res., 37, D159-D162.
    Tabelle 1: Reverse Transkriptasen
    Reverse Transkriptase Anbieter
    1 M-MuLV New England Biolabs®
    2 AMV New England Biolabs®
    3 ProtoScript® II New England Biolabs®
    4 GoScript™ Promega
    5 SuperScript® III ThermoFisher®
    6 RevertAid® ThermoFisher®
    7 AccuScript® Agilent Technologies
    8 AffinityScript® Agilent Technologies
    9 M-MuLV Promega
    10 MonsterScript™ Epicentre®
    11 EpiScript™ Epicentre®
    12 SuperScript® IV ThermoFisher®
    13 Volcano® myPOLS Biotec GmbH

Claims (13)

  1. Verfahren zur Ermittlung von Anzahl und Position (Lokus) einer ausgewählten (vorbestimmten), bekannten Nukleotid-Modifikation in einer RNA oder mehreren RNAs (inkl. Transkriptom), der (den) Template-RNA(s), umfassend die folgenden Schritte in der genannten Reihenfolge: (1) Reverse Transkription der Template-RNA(s) unter Einsatz des Enzyms Reverse Transkriptase und Erstellen einer cDNA-Bibliothek enthaltend die Reverse Transkriptions-Produkte (= cDNAs) der eingesetzten Reversen Transkriptase mit dieser/diesen Template-RNA(s), (2) Amplifizierung der cDNAs und Sequenzierung der amplifizierten cDNAs mittels einer Hochdurchsatz-Sequenzierungsmethode (Next-Generation-Sequencing (NGS)-Methode), wobei die gewonnenen Sequenz-Daten in digitaler Form, den Reads, ausgegeben werden, (3) Adapter-Trimming (= Entfernung der Adaptersequenzen) und Mapping (=Zuordnung) der sequenzierten cDNAs/Reads zum Referenzgenom oder Referenztranskriptom mittels computergestützter Alignment-Verfahren, (4) computergestützte Auswertung (Analyse) des Mappingergebnisses hinsichtlich des Reverse-Transkriptions-Ereignismusters, der RT-Signatur, unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ als RT-Signatur-Merkmal(e), und Diagnostizierung der RT-Signatur an jeder Nukleotid-Position der Template-RNA(s), (5) Einspeisung der digitalisierten Daten der RT-Signaturen in ein computer-basiertes, automatisches, auf überwachtem maschinellem Lernen („Machine-Learning“) beruhendes Klassifizierungssystem, wobei in einer ersten Phase (I) des Verfahrens, der Kalibrierungsphase, die Schritte (1) bis (5) mit einer oder mehreren verschiedenen, bekannten und hinsichtlich Nukleotidsequenz und gegebenenfalls vorhandener Nukleotid-Modifikation(en) identifizierten und annotierten RNAs als Template-RNAs ausgeführt werden, und in Schritt (5) ermittelte RT-Signaturen von Nukleotid-Positionen mit der bekannten Nukleotid-Modifikation und ermittelte RT-Signaturen von Nukleotid-Positionen des gleichen Nukleosids ohne Nukleotid-Modifikation in das Klassifizierungssystem eingespeist werden, und das Klassifizierungssystem während Trainings- und Selbsttestungsläufen implizit das (charakteristische) Profil der RT-Signatur (d.h. die charakteristische quantitative Ausprägung der RT-Signatur-Merkmale) an der die Nukleotid-Modifikation aufweisenden Nukleotid-Position erstellt und optimiert („erlernt“), und (infolgedessen) als Klassifizierungsergebnis diejenigen Positionen auf der/den (jeder) Template-RNA(s) ermittelt und angibt, die eine RT-Signatur aufweisen, die mit diesem (charakteristischen) Profil annähernd oder vollständig übereinstimmt, und die somit auf das Vorliegen der betreffenden Nukleotid-Modifikation an diesen Positionen hinweist, und wobei in einer zweiten Phase (II) des Verfahrens, der Anwendungs- bzw. Untersuchungsphase, die Schritte (1) bis (5) mit einer oder mehreren zu untersuchenden unbekannten Test-RNA(s) als Template-RNA(s) durchgeführt werden, - und die Schritte (1) bis (4) unter den gleichen Bedingungen wie in Phase (I) erfolgen, - und in Schritt (5) ermittelte RT-Signaturen von Nukleotid-Positionen der Test-Template-RNA(s) in das Klassifizierungssystem eingespeist werden, - und das Klassifizierungssystem auf der Basis des in Phase (I) Schritt (5) implizit erlernten (charakteristischen) Profils die eingegebenen RT-Signaturen dahingehend klassifiziert, inwieweit sie diesem Profil ähnlich sind oder damit übereinstimmen, und wobei Klassifizierungsergebnisse mit der Aussage „ähnlich“ oder „annähernd übereinstimmend“ oder „übereinstimmend“ auf das Vorliegen der betreffenden Nukleotid-Modifikation in der/den Test-Template-RNA(s) an der Nukleotid-Position mit dieser RT-Signatur hinweisen, dadurch gekennzeichnet, dass in Schritt (1) von Phase (I) und Phase (II) des Verfahrens die Reverse Transkription der Template-RNAs in zwei oder mehr Reaktionsansätzen und - durchläufen mit voneinander verschiedenen Reversen Transkriptasen unter den gleichen Reaktionsbedingungen und/oder mit (der) gleichen Reversen Transkriptase(n) unter voneinander abweichenden Reaktionsbedingungen je Ansatz durchgeführt wird, wobei mit/von jedem Ansatz eine cDNA-Bibliothek erhalten wird, dass in Schritt (4) von Phase (I) und Phase (II) des Verfahrens die Auswertung der Mapping-Ergebnisse hinsichtlich der RT-Signatur unter Verwendung der Ereignisse ‚Abbruch‘ und/oder ‚Read-Through mit Mismatch‘ und/oder des zusätzlichen Ereignisses ‚Read-Through mit Sequenzlücke(n)‘ als RT-Signatur-Merkmal(e) erfolgt, und dass in Schritt (5) von Phase (I) und Phase (II) des Verfahrens Daten von RT-Signaturen aus den in Schritt (1) mit den verschiedenen Reversen Transkriptasen unter gleichen Reaktionsbedingungen und/oder mit der/den gleichen Reversen Transkriptase(n) unter voneinander abweichenden Reaktionsbedingungen erhaltenen cDNA-Bibliotheken in das Klassifizierungssystem eingespeist werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in Schritt (1) von Phase (I) und Phase (II) des Verfahrens die analogen Reaktionsansätze und -durchläufe mit wenigstens zwei Reversen Transkriptasen durchgeführt werden, deren RT-Signaturen an der bzw. für die betreffende Nukleotid-Modifikationsstelle hinsichtlich der Gewichtung ihrer RT-Signatur-Merkmale ein unterschiedliches Muster aufweisen.
  3. Verfahren nach einem der Ansprüche 1 bis 2, dadurch gekennzeichnet, dass die in Schritt (1) von Phase (I) und Phase (II) eingesetzten verschiedenen Reverse Transkriptasen solche Reverse Transkriptasen umfassen, die zu diesem Zweck durch Mutationen verändert wurden.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass als voneinander abweichende Reaktionsbedingung unterschiedliche Konzentrationen an dNTPs, und/oder unterschiedliche divalente Kationen, insbesondere Mg2+ und Mn2+, und/oder unterschiedliche Konzentrationen an divalenten Kationen und/oder unterschiedliche pH-Werte, und/oder unterschiedliche Temperaturen und/oder unterschiedliche Konzentrationen an Polyethylenglykol (PEG) eingesetzt werden.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Nukleotid-Modifikation eine Nukleosid-Methylierung, insbesondere eine N1-Methylierung von Adenosin oder Guanosin ist.
  6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass in Schritt (2) der Phasen (I) und (II) die Sequenzierung eine Sequenzierung mit Brückenamplifikation ist, insbesondere ein Illumina-Sequenzierungs-Verfahren.
  7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass in Schritt (3) der Phasen (I) und (II) das Alignment-Verfahren ein Verfahren für Sequenz-Alignment und Sequenz-Analyse ist, insbesondere ein Verfahren gemäß Bowtie 2-Software.
  8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass in Schritt (5) der Phase (I) und (II) das Klassifizierungssystem ein Random Forest-Klassifizierer ist.
  9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die in Schritt (2) der Phasen (I) und (II) gewonnenen Sequenz-Daten für die Durchführung der Schritte (3) bis (5) von Phase (I) und Phase (II) in eine Bioinformatik-Pipeline eingespeist werden, die die Kombination der Schritte (3) bis (5) steuert.
  10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass in Phase (I) Schritt (1) die bekannten RNAs synthetische RNAs oder isolierte natürliche RNAs gemäß Datenbank-Informationen sind.
  11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass zu jedem Klassifizierungsergebnis in Phase (II) Schritt (5) ein numerischer Punktewert (Score) auf einer eindimensionalen numerischen Bewertungsskala als Maß für die Qualität der Übereinstimmung angegeben wird.
  12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass in Schritt (4) von Phase (I) und Phase (II) des Verfahrens für die Auswertung der Mapping-Ergebnisse hinsichtlich der RT-Signatur die Ereignisse ‚Abbruch‘ und ‚Read-Through mit Mismatch‘ und ‚Read-Through mit Sequenzlücke(n) (Jump)‘ ermittelt und als RT-Signatur-Merkmale gewertet werden.
  13. Kit zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass er wenigstens zwei Reverse Transkriptasen („RTasen“) umfasst, deren RT-Signaturen an der betreffenden Nukleotid-Modifikationsstelle bezüglich der Gewichtung der RT-Signatur-Merkmale wenigstens in einem der RT-Signatur-Merkmale ein unterschiedliches Muster aufweisen, und/oder dass er wenigstens zwei verschiedene vorgemischte Reaktionsansätze umfasst, die vorzugsweise unterschiedliche Konzentrationen an dNTPs, und/oder unterschiedliche divalente Kationen, insbesondere Mg2+ und Mn2+, und/oder unterschiedliche Konzentrationen an divalenten Kationen und/oder unterschiedliche pH-Werte, und/oder unterschiedliche Konzentrationen an Polyethylenglykol (PEG) enthalten.
DE102017002092.2A 2017-03-04 2017-03-04 Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA Active DE102017002092B4 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102017002092.2A DE102017002092B4 (de) 2017-03-04 2017-03-04 Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA
US16/483,896 US20190390269A1 (en) 2017-03-04 2018-02-21 Method for detecting known nucleotide modifications in an rna
EP18710996.2A EP3589753A1 (de) 2017-03-04 2018-02-21 Verfahren zur detektion von bekannten nukleotid-modifikationen in einer rna
PCT/DE2018/000044 WO2018161981A1 (de) 2017-03-04 2018-02-21 Verfahren zur detektion von bekannten nukleotid-modifikationen in einer rna

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102017002092.2A DE102017002092B4 (de) 2017-03-04 2017-03-04 Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA

Publications (2)

Publication Number Publication Date
DE102017002092A1 DE102017002092A1 (de) 2018-09-06
DE102017002092B4 true DE102017002092B4 (de) 2018-11-08

Family

ID=61628084

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017002092.2A Active DE102017002092B4 (de) 2017-03-04 2017-03-04 Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA

Country Status (4)

Country Link
US (1) US20190390269A1 (de)
EP (1) EP3589753A1 (de)
DE (1) DE102017002092B4 (de)
WO (1) WO2018161981A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379464B (zh) * 2019-07-29 2023-05-12 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN111951889B (zh) * 2020-08-18 2023-12-22 安徽农业大学 一种rna序列中m5c位点的识别预测方法及系统
CN113257354B (zh) * 2021-05-12 2022-03-11 广州万德基因医学科技有限公司 基于高通量实验数据挖掘进行关键rna功能挖掘的方法
CN116926039A (zh) * 2023-09-19 2023-10-24 魔因生物科技(北京)有限公司 反转录酶HIV p66突变体及其应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013123481A1 (en) * 2012-02-16 2013-08-22 Cornell University Methods and kit for characterizing the modified base status of a transcriptome

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013123481A1 (en) * 2012-02-16 2013-08-22 Cornell University Methods and kit for characterizing the modified base status of a transcriptome

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAUENSCHILD, R. [u.a.]: CoverageAnalyzer (CAn): A Tool for Inspection of Modification Signatures in RNA Sequencing Profiles. Biomolecules (2016) 6 (4), 1-7 *
SUN, W.J. [u.a.]: RMBase: a resource for decoding the landscape of RNA modifications from high-throughput sequencing data. Nucleic Acids Res. (2016) 44 (D1) D259-65 *

Also Published As

Publication number Publication date
DE102017002092A1 (de) 2018-09-06
US20190390269A1 (en) 2019-12-26
WO2018161981A1 (de) 2018-09-13
EP3589753A1 (de) 2020-01-08

Similar Documents

Publication Publication Date Title
DE102017002092B4 (de) Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA
EP1034309B1 (de) Verfahren zur herstellung komplexer dna-methylierungs-fingerabdrücke
DE69824004T2 (de) Verfahren zur quantitativen bestimmung der genexpression mit hilfe der multiplexen competitiven reversen-transkriptase polymerase kettenreaktion
EP0438512B1 (de) Verfahren zur analyse von längenpolymorphismen in dna-bereichen
DE69821540T2 (de) Mit einem Adapter versehene kompetitive PCR
DE69233657T2 (de) Drei Mikrosatelliten-Repeat-Polymorphe DNA-Marker mit hoher Informationsdichte
WO2006089762A1 (de) Verfahren zur typisierung eines individuums mittels short tandem repeat (str)-loci der genomischen dna
DE112010004821T5 (de) Prozessierung amplifizierter DNA-Fragmente zur Sequenzierung
DE60030811T2 (de) Verfahren zur Ampifizierung von RNA
Holland et al. MPS analysis of the mtDNA hypervariable regions on the MiSeq with improved enrichment
EP3488012A1 (de) Dna-sonden für eine in-situ hybridisierung an chromosomen
DE60133321T2 (de) Methoden zur Detektion des mecA Gens beim methicillin-resistenten Staphylococcus Aureus
DE102017124998B3 (de) Verfahren und Vorrichtung zur Bestimmung der Blutgruppe einer Katze im AB-Blutgruppensystem
WO2007068305A1 (de) Verfahren zur bestimmung des genotyps aus einer biologischen probe enthaltend nukleinsäuren unterschiedlicher individuen
WO2009127408A1 (de) Verfahren zur quantitativen bestimmung der kopienzahl einer vorbestimmten sequenz in einer probe
DE60311263T2 (de) Verfahren zur bestimmung der kopienzahl einer nukleotidsequenz
Geiser et al. Molecular and analytical tools for characterizing Aspergillus and Penicillium species at the intra-and interspecific levels
DE60013410T2 (de) Verfahren zur analyse der genexpressions-frequenz
DE69834422T2 (de) Klonierungsverfahren durch multiple verdauung
DE102015206444B3 (de) Verfahren zum Erkennen von Mikroorganismen
DE60128379T2 (de) Transposon-vermittelte multiplexsequenzierung
DE60020080T2 (de) Verfahren zur bestimmung der basensequenz analytischer oligonukleotide zum nachweis von nukleinsäuren
DE19614852A1 (de) Verfahren zum quantitativen Nachweis einer Analytnukleinsäure
Calhoun Investigation in to the Genetic Basis of Capsaicin Production in Peppers Using Next Generation RNA Sequencing and Synthetic Biology Approaches
Calhoun INVESTIGATION INTO THE GENETIC BASIS OF CAPSAICIN PRODUCTION IN PEPPERS USING NEXT GENERATION RNA SEQUENCING AND SYNTHETIC BIOLOGY APPROACHES

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final