DE102021100199A1 - Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem - Google Patents

Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem Download PDF

Info

Publication number
DE102021100199A1
DE102021100199A1 DE102021100199.4A DE102021100199A DE102021100199A1 DE 102021100199 A1 DE102021100199 A1 DE 102021100199A1 DE 102021100199 A DE102021100199 A DE 102021100199A DE 102021100199 A1 DE102021100199 A1 DE 102021100199A1
Authority
DE
Germany
Prior art keywords
information
sequence
individual
matrix
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021100199.4A
Other languages
English (en)
Inventor
Jan Voges
Christian Rohlfing
Viktor Tunev
Yeremia Gunawan Adhisantoso
Jörn Ostermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rwth Aachen Univ Koerperschaft Des Oeffentlichen Rechts
Rwth Aachen University Koerperschaft Des Oeffentlichen Rechts
Leibniz Universitaet Hannover
Original Assignee
Rwth Aachen Univ Koerperschaft Des Oeffentlichen Rechts
Rwth Aachen University Koerperschaft Des Oeffentlichen Rechts
Leibniz Universitaet Hannover
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rwth Aachen Univ Koerperschaft Des Oeffentlichen Rechts, Rwth Aachen University Koerperschaft Des Oeffentlichen Rechts, Leibniz Universitaet Hannover filed Critical Rwth Aachen Univ Koerperschaft Des Oeffentlichen Rechts
Publication of DE102021100199A1 publication Critical patent/DE102021100199A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Komprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, mit folgenden Schritten:- Indizieren der Einzelinformationen der Abfolge, wobei der jeweiligen Einzelinformation ein Indikator für eine Position innerhalb der Abfolge zugefügt wird, sodass eine indizierte Abfolge vorliegt,- Komprimieren der jeweiligen Einzelinformation mittels einer Entropiekodierung für eine jeweilige Einzelinformation, sodass jeweils eine komprimierte Einzelinformation vorliegt, sodass die Information aus den jeweiligen komprimierten Einzelinformationen mit geringerem Speicherbedarf dargestellt ist.

Description

  • Die Erfindung betrifft ein Verfahren zum Komprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt. Weiterhin betrifft die Erfindung ein Verfahren zum Dekomprimieren einer komprimierten Information einer Erbinformation, eine elektronische Speichereinrichtung zum Speichern einer Information einer Erbinformation, wobei die Information einer Erbinformation in einer Abfolge aus mehreren Einzelinformationen vorliegt, sowie ein Datenverarbeitungssystem zum Verarbeiten einer Information einer Erbinformation.
  • Verfahren zum Komprimieren und auch Dekomprimieren einer Information einer Erbinformation sind an sich bekannt. Eine solche zu komprimierende Information einer Erbinformation kann beispielsweise eine Gensequenz oder eine Variantensequenz sein. Diese werden üblicherweise in speziellen Datenformaten, beispielsweise VCF („variant call format“), bereitgehalten. Ein reines Ablegen und/oder Speichern einer solchen Information verbraucht jedoch vergleichsweise viel Speicherplatz. Dazu sind im Folgenden unterschiedliche Komprimierungsverfahren bekannt.
  • Die US 8,972,201 B2 beschreibt ein Kompressionsverfahren für Gensequenzen, bei welchem ein Header, entsprechende Bezeichnungen sowie Sequenzdaten voneinander getrennt und neu miteinander kombiniert werden. Dadurch kann eine Speicherung mit geringerem Datenvolumen erfolgen.
  • In der WO 2013/138604 A1 wird ein Kompressionsverfahren beschrieben, bei welchem unterschiedliche Regionen einer DNA-Sequenz analysiert und verglichen werden, sodass bei geringen Abweichungen zwischen verglichenen Sequenzteilen ein Übereinanderschieben on Datensätzen zum Komprimieren der Datenmenge erfolgt.
  • Die US 7,657,383 B2 offenbart ein System und ein Verfahren zum platzsparenden Speichern einer Gen-Information. Dazu werden unterschiedliche Teile der Gen-Information miteinander verglichen, wobei dann Informationen über entsprechende Unterschiede gespeichert werden.
  • Die US 10,090,857 B2 beschriebt ebenfalls ein Verfahren sowie ein System zum Komprimieren von Gen-Daten. Es wird allgemein beschrieben, textbasierte Gen-Informationen in unterschiedliche Felder aufzuteilen, wobei diese dann mit Verschlüsselungsalgorithmen größtmöglicher Kompression in einen sogenannten Bitstream mit geringerem Datenvolumen umgewandelt werden.
  • Die US 8,937,564 B2 beschriebt ein System, ein Verfahren sowie einen entsprechenden computerlesbaren Baustein zum Komprimieren genetischer Informationen. Hierzu wird ein entsprechendes Schlüsselwort-Wörterbuch als Referenz zu einer entsprechenden DNA für einen Vergleich herangezogen und aus dem Vergleich eine entsprechend komprimierte Datenmenge erzeugt.
  • Die US 8,812,243 B2 beschreibt die Übertragung und Komprimierung von Gen-Daten. Hierbei werden ebenfalls aktuelle Gen-Informationen mit Referenz-Informationen verglichen und dieser Vergleich für eine datenkomprimierte Darstellung genutzt.
  • In der US 10,198,454 B2 wird ein Verfahren zum Komprimieren von Qualitätsinformationen für eine Gensequenz beschrieben, wobei insbesondere aus Redundanzen innerhalb der entsprechenden Sequenz die Möglichkeit der Komprimierung abgeleitet wird.
  • Die US 10,230,390 B2 beschreibt ein beschleunigtes Leseverfahren für eine Gen-Sequenzierung.
  • In der US 9,098,523 B2 wird ebenfalls ein Verfahren und ein System zum Komprimieren und Dekomprimieren einer genetischen Information offenbart.
  • Aufgabe der Erfindung ist es, den Stand der Technik zu verbessern.
  • Gelöst wird die Aufgabe durch ein Verfahren zum Komprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, mit folgenden Schritten:
    • - Indizieren der Einzelinformationen der Abfolge, wobei der jeweiligen Einzelinformation ein Indikator für eine Position innerhalb der Abfolge zugefügt wird, sodass eine indizierte Abfolge vorliegt,
    • - Komprimieren der jeweiligen Einzelinformation mittels einer Entropiekodierung für eine jeweilige Einzelinformation, sodass jeweils eine komprimierte Einzelinformation vorliegt,
    sodass die Information aus den jeweiligen komprimierten Einzelinformationen mit geringerem Speicherbedarf dargestellt ist.
  • Insbesondere mittels eines Komprimierens der jeweiligen Einzelinformation mittels einer Entropiekodierung kann in einer großen Anzahl von Informationen oder Einzelinformationen eine Erbinformation eine Rangfolge für eine unterschiedliche Häufigkeit eines Vorkommens von Zahlen- oder Buchstabenwerten gewählt werden, sodass mittels der Entropiekodierung ein möglichst geringes Datenvolumen zum Speichern der jeweiligen Einzelinformationen verbraucht wird. Das Indizieren der Einzelinformationen der Abfolge stellt dabei sicher, dass bei einem Dekomprimieren die entsprechende Information einer Erbinformation in der richtigen Reihenfolge wieder zusammengesetzt werden kann. Damit kann die zunächst komprimierte und dann dekomprimierte Information verlustfrei wiederhergestellt werden.
  • Folgende Begriffe seien an dieser Stelle erläutert:
  • Ein „Komprimieren“ einer Information beschreibt einen Vorgang in der digitalen Datenverarbeitung, bei welchem das Gesamtvolumen der Information reduziert wird. Dazu sind sogenannte verlustbehaftete und auch verlustfreie Komprimierungsverfahren bekannt. Ein verlustfreies Komprimieren beschreibt dabei ein Vorgehen, nach welchem auch nach dem Dekomprimieren, also der Wiederherstellung einer Information, alle Details der Informationen noch vorhanden und lesbar sind.
  • Eine „Information einer Erbinformation“ ist beispielsweise eine Gensequenz, eine Variantensequenz oder eine andere Information bezüglich einer Erbinformation eines Organismus. Ein solcher Organismus kann beispielsweise ein Mensch, ein Tier, eine Pflanze, ein Pilz oder ein Virus sein. Eine „genetische Variation“ beschreibt dabei Veränderungen der genetischen Information oder Erbinformation zwischen einzelnen Sequenzen. Eine solche Erbinformation liegt dabei beispielsweise als Datei oder Datenfolge in einem zweckdienlichen Format vor.
  • Eine „Abfolge“ ist dabei beispielsweise eine Abfolge von Einzelinformationen einer Gensequenz, beispielsweise einzelner Positionen in einer DNA-Doppelhelix. Auch kann eine solche Abfolge entsprechende Zuordnungen für unterschiedliche DNA-Doppelhelixe enthalten, beispielsweise für zwei oder mehrere homologe DNA-Doppelhelixe unterschiedlicher Lebewesen.
  • Ein „Indizieren“ beschreibt beispielsweise ein Durchnummerieren, ein Versehen mit Buchstaben oder einer anderen zweckdienlichen Kennung jeder Einzelinformation der Abfolge. Dieses Indizieren dient dazu, eine jeweilige Einzelinformation an einer richtigen Stelle oder Position der Abfolge einordnen zu können, auch falls die entsprechenden Einzelinformationen der Abfolge separat voneinander oder in anderer Reihenfolge oder Abfolge gespeichert oder komprimiert und/oder dekomprimiert werden, beispielsweise temporär. Ein solches Indizieren kann dabei beispielsweise auch spalten- und/oder zeilenweise erfolgen, wenn eine Information in Spalten und Zeilen vorliegt.
  • Ein „Indikator“ kann dabei jede geeignete Information, beispielsweise ein Zahlenwert, ein Code oder Bitcode oder ein Buchstabe sein. Beispielsweise sind entsprechende Positionen innerhalb der Abfolge mit „1, 2, 3, ...“ oder mit „a, b, c, ...“ indiziert, sodass eine entsprechende Zuordnung auch später ermöglicht ist. Es kann jedoch auch jede andere, zweckdienliche Form eines Indikators genutzt werden.
  • Eine „Entropiekodierung“ ist beispielsweise eine Methode, um eine verlustfreie Datenkompression zu ermöglichen. Dabei wird jedem einzelnen Zeichen eines Textes oder einer Zahlenfolge oder einer anderen Informationsabfolge eine unterschiedlich lange Folge von Bits zugeordnet. Es werden dabei so viele Bits benötigt, dass jede Variante der entsprechend vorliegenden Zeichen der Zahlenfolge entsprechend zugeordnet werden kann. Insbesondere wird dabei dem am häufigsten vorkommenden Zeichen eine entsprechend geringe und kurze Bitfolge zugeordnet, sodass die entsprechende Datenmenge zum Speichern der jeweiligen Bitfolgen auch durch ein häufiges Vorkommen des entsprechenden Zeichens nicht zu groß wird. Im Falle einer arithmetischen Kodierung kann hingegen eine Quellinformation oder Ausgangsinformation derart komprimiert werden, dass diese Quellinformation oder Ausgangsinformation nicht in einzelne Komponenten aufgeteilt wird, sondern in ihrer Gesamtheit oder für bestimmte Teilbereiche in eine Darstellung einer rationalen Zahl umgewandelt oder kodiert wird.
  • Eine Einzelinformation kann dabei eine Zeile einer textlich dargestellten Gensequenz, eine zusammengefasste Information unterschiedlicher Varianten einer Erbinformation oder dergleichen sein.
  • Eine „komprimierte Einzelinformation“ ist dabei beispielsweise ein im Ergebnis komprimierter Datensatz bezüglich einer jeweiligen Einzelinformation, welcher durch eine Entropiekodierung der entsprechenden Einzelinformation erzeugt wurde. Eine solche komprimierte Einzelinformation weist dabei ein geringeres Datenvolumen auf als die Einzelinformation selbst, insbesondere um Speicherplatz einzusparen oder einen geringeren Speicherbedarf zu generieren.
  • Ein „Speicherbedarf“ beschreibt dabei die Menge und/oder Größe an Speicher, insbesondere digitalem, elektronischem Speicher, welche notwendig ist, um eine entsprechende Einzelinformation oder auch die vollständige Information einer Erbinformation abzuspeichern. Ein solcher Speicherbedarf wird beispielsweise in Bits oder Bytes oder einem Vielfachen davon angegeben.
  • Um die Entropiekodierung besonders effizient und mit einem kompaktem Datenergebnis durchführen zu können, wird die Entropiekodierung mittels einer Huffman-Kodierung, einer arithmetischen Kodierung, eines Q-Coders, einer kontext-adaptiven binären arithmetischen Kodierung („context adaptive binary arithmetic coding“, CABAC), der Shannon-Fano-Kodierung und/oder der Golomb-Kodierung durchgeführt. Des Weiteren können für die Entropiekodierung komplexe mehrschrittige Verfahren wie JBIG, JBIG2, GIF, JPEG, JPEG 2000, PNG, HEIF, AVC, HEVC, AV1, gzip, bzip2, Zstandard, Brotli, xz, oder rANS verwendet werden.
  • In einer Ausführungsform wird die Information und/oder werden die jeweiligen Einzelinformationen in Zeilen, Reihen und/oder Spalten und/oder Reihen bereitgestellt, sodass diese insbesondere in einem textbasierten Format und/oder in Form einer Matrix vorliegen.
  • Eine solche Darstellung kann beispielsweise in einem bekannten Datenformat für Gensequenzen erfolgen. Weiterhin kann eines solche Information als Matrix vorliegen, wobei die Matrix spezifische Informationen einer Abfolge von Informationen eines Datenformates für Gensequenzen enthält. Dies können beispielsweise Zeilen- und Spalteninformationen jeweiliger Daten aus einer VCF-Datei oder auch daraus abgeleitete Größen oder Daten sein. Eine VCF-Datei umfasst einen sogenannten „header“ mit verarbeitungsrelevanten Informationen für die VCF-Datei sowie die eigentlichen Informationen der Gensequenz im Teil der „variant records“ aufweist. Solche „variant records“ enthalten dann die jeweiligen Informationen einer DNA oder eines Teils einer DNA, welche mittels einer Gen-Sequenzierung ermittelt wurden.
  • Um auch komplexe genetische Informationen oder detaillierte entsprechende Informationen zuverlässig komprimieren zu können, kann eine jeweilige Einzelinformation mehrere Teilinformationen, wobei die jeweilige Teilinformation insbesondere eine Allel-Information und/oder eine Phaseninformation zu einer Erbinformation ist, umfassen.
  • Eine „Teilinformation“ kann dabei jede innerhalb einer Einzelinformation vorliegende Information sein, welche dann in der Gesamtheit aus Teilinformationen die Einzelinformation bildet. Beispielsweise ist eine solche Teilinformation eine datentechnische Abbildung einer Base oder eines Basenpaares innerhalb einer DNA, eine Information bezüglich einer Abweichung einer Teilinformation von einer Referenzinformation, beispielsweise eines Referenz-Genoms oder eine andere, die Erbinformation beschreibende Eigenschaft.
  • In einer weiteren Ausführungsform ist die Einzelinformation und/oder die Teilinformation in einer Matrix dargestellt oder abgelegt.
  • Damit kann eine solche Einzelinformation zumindest zweidimensional oder auch mehrdimensional dargestellt oder abgelegt werden. Insbesondere werden dabei die Spalten und Zeilen einer solchen Matrix separat voneinander oder parallel zueinander verarbeitet und komprimiert.
  • In einer Ausführungsform kann dabei eine entsprechende Matrix auch vor dem Komprimieren aufgetrennt werden. Beispielsweise kann eine Genotyp-Matrix einer Erbinformation in eine Allel-Matrix und eine Phasenmatrix aufgetrennt werden, sodass dann die jeweilige Matrix getrennt voneinander komprimiert wird. Dabei kann eine Indizierung auch für jede Matrix separat und beispielsweise nach Zeilen und Spalten erfolgen, sodass die entsprechend zusammengehörigen Informationen auch wieder zueinander zugeordnet werden können.
  • Um ein Verarbeiten und Komprimieren von entsprechenden Einzelinformationen oder einer entsprechenden Teilinformation auf elektronischen Datenverarbeitungseinrichtungen zuverlässig durchführen zu können, kann eine Binarisierung der Einzelinformationen oder eine Binarisierung der jeweiligen Teilinformation durchgeführt werden, sodass eine binarisierte Einzelinformation oder eine binarisierte Teilinformation vorliegt. Weiterhin bietet eine solche, binarisierte Einzelinformation oder Teilinformation die Möglichkeit, entsprechende Daten per Entropiekodierung platzsparend auf einem entsprechenden Speichermedium abzulegen.
  • In einer weiteren Ausführungsform wird ein Sortieren der Teilinformation, insbesondere in Zeilen, Reihen und/oder Spalten, durchgeführt, sodass eine sortierte Teilinformation vorliegt. Hierbei kann sowohl zunächst ein Sortieren in Zeilen und dann ein Sortieren in Spalten als auch ein Vorgehen in umgekehrter Reihenfolge durchgeführt werden. Ein solches Sortieren kann dabei insbesondere so erfolgen, dass die dadurch erzeugte Sortierung zweckdienlich für ein nachfolgendes Komprimieren mittels einer Entropiekodierung ist, da die Entropiekodierung in die Lage versetzt wird, statistische Abhängigkeiten in den sortierten Daten auszunutzen, um so ein geringeres komprimiertes Datenvolumen zu erzeugen. Beispielsweise kann eine Menge an Zeilen, welche Ganzzahlen enthalten, so sortiert werden, dass die Hamming-Distanz zwischen aufeinanderfolgenden Zeilen minimiert wird. Beispielsweise kann eine Menge an Spalten, welche Ganzahlen enthalten, so sortiert werden, dass Lauflängen in Zeilenrichtung maximiert werden.
  • Damit können auch innerhalb einer Einzelinformation enthaltene untergeordnete Informationen entsprechend in einer nachvollziehbaren Reihenfolge einem Komprimieren unterzogen und/oder nach einem Dekomprimieren auch wieder zugeordnet werden.
  • In einem weiteren Aspekt wird die Aufgabe gelöst durch ein Verfahren zum Dekomprimieren einer komprimierten Information einer Erbinformation, welches die Schritte des oben dargelegten Verfahrens invers durchführt, sodass die Information einer Erbinformation dekomprimiert vorliegt.
  • Ein solches Dekomprimieren wird dabei so durchgeführt, dass eine jeweilige komprimierte Einzelinformation mittels einer Entropiedekodierung, welche zur gewählte Entropiekodierung korrespondiert, dekodiert und damit wieder zu einer jeweiligen Einzelinformation aufgelöst wird, sodass eine jeweilige Einzelinformation wieder vorliegt. Dabei wird nach dem Dekomprimieren mittels der Entropiedekodierung ein jeweiliger Indikator für eine Position innerhalb der Abfolge genutzt, um die ursprüngliche Information einer Erbinformation wieder in der richtigen Reihenfolge bereitzustellen.
  • In einer Ausführungsform stehen die Informationen und/oder die jeweilige Einzelinformation dann wieder in Zeilen, Reihen und/oder Spalten bereit, sodass diese insbesondere in einem textbasierten Format und/oder einer Matrix vorliegen.
  • Eine jeweilige Einzelinformation, welche nach dem Dekomprimieren wieder vorliegt, kann dabei dann auch wieder mehrere Teilinformationen umfassen, wobei die jeweilig Teilinformation insbesondere eine durch die Dekompression wieder hergestellte Allel-Information und/oder eine Phasen-Information zur Erbinformation ist. Eine solche Einzelinformation und/oder eine solche Teilinformation kann dann wieder in einer Matrix dargestellt oder abgelegt sein.
  • In einer Ausführungsform wird nach dem Dekomprimieren eine binarisiert vorliegende Information, Einzelinformation oder Teilinformation in ihre ursprüngliche, lesbare Form überführt.
  • Weiterhin kann ein Sortieren der Teilinformation und/oder ein Zuordnen einer während des Komprimierens sortierten Teilinformation, insbesondere in Zeilen, Reihen und/oder Spalten, durchgeführt werden, sodass eine entsprechende Teilinformation in ihrer vor dem Komprimieren vorliegenden Darstellung wieder vorliegt.
  • Ein „Dekomprimieren“ einer Information beschreibt einen Vorgang in der digitalen Datenverarbeitung, bei welchem eine durch ein Komprimieren reduzierte Information mit geringem Datenvolumen in die ursprüngliche, vor dem Komprimieren vorliegende Information umgewandelt wird. Ein verlustfreies Komprimieren und Dekomprimieren beschreibt dabei ein Vorgehen, nach welchem auch nach dem Dekomprimieren, also der Wiederherstellung der ursprünglichen Information, alle Details der Informationen wieder vorhanden und lesbar sind.
  • In einem weiteren Aspekt wird die Aufgabe gelöst durch eine elektronische Speichereinrichtung zum Speichern einer Information einer Erbinformation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, wobei eine gemäß einem Verfahren nach einer der oben genannten Ausführungsformen komprimierte Information abgelegt oder gespeichert ist.
  • Eine solche elektronische Speichereinrichtung kann eine gemäß einem Verfahren der oben genannten Ausführungsformen komprimierte Information sicher und zuverlässig speichern und diese dann mit möglichst geringem Datenvolumen bereitstellen.
  • Eine „Speichereinrichtung“, insbesondere eine „elektronische Speichereinrichtung“, kann dabei beispielsweise ein USB-Stick, eine Festplatte, ein Solid-State-Speicher oder eine andere Einrichtung sein, welche geeignet ist, Informationen und/oder Daten auf elektronischem Wege aufzunehmen, abzulegen und bei Bedarf wiederzugeben.
  • In einem weiteren Aspekt wird die Aufgabe gelöst durch ein Datenverarbeitungssystem zum Verarbeiten einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei das Datenverarbeitungssystem zum Durchführen eines Verfahrens gemäß einer der oben genannten Ausführungsformen eingerichtet ist.
  • Ein solches Datenverarbeitungssystem stellt eine einfache und zuverlässige Möglichkeit dar, Informationen zu einer Erbinformation so zu verarbeiten, dass ein Speichern und/oder auch Weiterverarbeiten der gespeicherten Informationen mit sehr geringer Datendichte und wenig Speicherbedarf ermöglicht ist.
  • In einer Ausführungsform weist das Datenverarbeitungssystem eine elektronische Speichereinrichtung wie oben beschrieben auf.
  • Ein „Datenverarbeitungssystem“ ist dabei beispielsweise ein Computer, ein Microchip oder auch ein Prozessor, wobei das jeweilige Datenverarbeitungssystem dazu geeignet ist, Daten, insbesondere elektronisch, aufzunehmen, mathematischen Operationen zu unterziehen und bei Bedarf oder auf Anforderung wieder abzugeben. Ein solches Datenverarbeitungssystem kann dabei Prozessoren, Leiterbahnen sowie auch entsprechende Speichereinrichtungen, wie beispielsweise einen RAM-Speicher, umfassen oder aufweisen.
  • Im Weiteren wird die Erfindung anhand von Ausführungsbeispielen näher erläutert. Es zeigen
    • 1a Eine DNA-Doppelhelix mit genetischen Informationen,
    • 1b eine Variante einer Gensequenz der DNA der 1a,
    • 2 eine Abfolge von Varianten zum Ableiten einer Genotyp-Matrix G für zwei Probanden S1 und S2,
    • 3 eine aus den Daten der 2 abgeleitete Genotyp-Matrix G der zwei Probanden,
    • 4 einen Variantensatz eines Probanden S1,
    • 5 eine Genotyp-Matrix G sowie eine daraus aufgespaltene Allel-Matrix A und PhasenMatrix P,
    • 6 ein Ablaufdiagramm eines Verfahrens zum Komprimieren einer genetischen Information, sowie
    • 7 ein Blockdiagramm eines Verfahrens zum Komprimieren einer genetischen Information.
  • Eine DNA-Doppelhelix 101 enthält eine Erbinformation eines Menschen. Die DNA 101 weist Stränge 104 auf, zwischen denen Basenpaare 106 angeordnet sind. Die Basenpaare 106 bilden zusammen mit ihrer jeweiligen Position 102 innerhalb der Stränge 104 eine Teilinformation der jeweiligen Erbinformation ab.
  • Die DNA 101 wurde sequenziert, sodass eine Variante 111 daraus abgeleitet wurde. Ein solcher Variantensatz entspricht der Schreibeweise innerhalb einer VCF-Datei und weist die Kennungen für ein Chromosom 113, eine Position 115 innerhalb des Chromosoms sowie die Basenart einer Referenz 117 und eine dazugehörige Abweichung 119 des jeweiligen in der Sequenzierung ermittelten Genmaterials. Weiterhin ist in der Variante 111 ein Format 121 sowie Genotypen 123 in einer Spalte mit einer Probenkennung 125 aufbereitet. Die Variante 111 ist dabei als Tabelle oder auch Matrix dargestellt und weist einen entsprechenden Datensatz 127 mit den zu den aufgezählten Spaltenkennungen gehörenden Werten auf. Der Datensatz 127 ist dabei beispielhaft dargestellt. Der in 1b dargestellte Datensatz entspricht dabei einem Chromosom „1“, welches an einer Position „1“ gegenüber einem Thymin „T“ im Referenzgenom ein Guanin „G“ aufweist. Weiterhin ist als Format 121 „GT“ angegeben, wobei diese Information das Datenformat eines weiteren, nachfolgenden Datensatzes innerhalb der Variante 111 angibt. In der Spalte für den Genotyp 123 ist dabei „0/1“ angegeben, wobei die Kennung „0“ abbildet, dass die erste Doppelhelix einer menschlichen Erbinformation ein „T“ aus dem Referenzgenom aufweist und die zweite Doppelhelix aus der menschlichen Erbinformation die Base „G“ aus der angegeben Abweichung 119. Der „/“ dient dabei der Phasenkennung 141 und bildet ab, dass eine Zuordnung zu mütterlichem oder väterlichem DNA-Strang nicht möglich ist. Demgegenüber würde ein „|“ eine solche mögliche Zuordnung darstellen.
  • Ein weiterer Variantensatz 211 weist sowohl eine Probenkennung 231 („S1“) sowie eine Probenkennung 232 („S2“) auf. Für beide Probenkennungen 231 und 232 sind die entsprechenden Zuordnungen für einen Datensatz 221, einen Datensatz 223 sowie einen Datensatz 225 vorgenommen.
  • Aus den entsprechenden Daten für die Probenkennung 231 und die Probenkennung 232 kann dann in der Darstellung einer Matrix die Genotyp-Matrix 301 abgeleitet werden. Dabei sind entsprechende Positionen innerhalb des Variantensatzes 211 dann die Positionen innerhalb der Genotyp-Matrix 301. Die Genotyp-Matrix 301 bildet damit die notwendigen Informationen zur jeweiligen Erbinformation identisch ab.
  • Ein weiterer Variantensatz 411 für eine Probenkennung 431 mit einem Datensatz 421 und einem Datensatz 423 weist als Phasenkennung 441 ein „|“ auf. Damit ist dargestellt, dass eine Zuordnung zu mütterlichem und väterlichem DNA-Strang ermöglicht ist (vergleiche 4).
  • Es soll nun ein Komprimieren einer entsprechenden Erbinformation, nämlich der Genotyp-Matrix „G“ beispielhaft dargestellt werden:
  • Innerhalb einer Genotyp-Matrix 501 sind, wie oben beschrieben, Informationen zur Erbinformation enthalten. Diese enthalten sowohl Informationen über ein jeweiliges Allel an entsprechenden Positionen innerhalb der Chromosomen sowie auch entsprechende Phasenkennungen 541 zu diesen entsprechenden Gen-Sequenzen. Es erfolgt dann ein Auftrennen der Genotyp-Matrix 501 in eine Allel-Matrix 503 sowie eine Phasenmatrix 505. Die entsprechenden Kennungen („0“, „1“ sowie „2“) in der Allel-Matrix 503 entsprechen dabei den jeweiligen Zahlenwerten innerhalb der Genotyp-Matrix 501 an den jeweiligen Positionen. Die Phasenmatrix 505 weist in binärer Form eine Kennung für die Zuordnung oder nicht mögliche Zuordnung zur mütterlichen und väterlichen Doppelhelix auf („0“ entspricht im vorliegenden Fall einer Zuordnung, „1“ entspricht im vorliegenden Fall keiner Zuordnung).
  • Ein entsprechendes Ablaufdiagramm 601 zeigt ein Komprimieren dieser Genotyp-Matrix 501 beispielhaft.
  • Die Genotyp-Matrix 501 wird mittels eines Aufteilens 603 in eine Allel-Matrix 503 und die Phasenmatrix 505 aufgetrennt. Danach kann bedarfsweise ein Binarisieren 605 erfolgen, wobei durch das Binarisieren entsprechende Bitebenen 631 sowie eine binäre Allel-Matrix 633 erzeugt wird. Die Information der Allel-Matrix 503 ist damit binarisiert dargestellt und in der elektronischen Datenverarbeitung einfacher weiterzuverarbeiten.
  • Die entsprechende Information wird dann einem Sortieren 607 unterzogen, ebenso wird die Phasenmatrix 505 einem solchen Sortieren unterzogen. Hierbei erfolgt ein Sortieren nach Spalten und nach Zeilen. Während des Sortierens 607 werden entsprechende Informationen innerhalb der Allel-Matrix 503 oder der erzeugten Bitebenen 631 und der binären Allel-Matrix 631 mit Indizes versehen, sodass eine spätere Zuordnung nach dem Komprimieren und Dekomprimieren wieder ermöglicht ist. Die sortierte Information wird dann einer Entropiekodierung 609 unterzogen, ebenso wie die Phasenmatrix 505. Es entsteht daraus ein Bit-Strom 610, welcher ein komprimiertes, binäres Abbild der ursprünglichen Genotyp-Matrix 501 darstellt.
  • Die Entropiekodierung 609 erfolgt dabei derart, dass die zu komprimierenden Informationen nach Häufigkeit sortiert werden und dann der häufigsten Information eine möglichst kleine Bitfolge zugeordnet wird. Die entsprechenden Informationen werden dann gemäß ihrem Vorkommen in Bitfolgen kodiert.
  • Ein entsprechendes Verfahren in abstrahierter Form sei noch einmal wie folgt beschrieben:
  • Es erfolgt für eine Information einer Erbinformation zunächst ein Indizieren 701 zum Erreichen einer Zuordnung der jeweilig zu komprimierenden Information, sodann erfolgt ein Komprimieren 703, um ein entsprechendes Datenvolumen zu verkleinern.
  • Ein zum Durchführen des Verfahrens eingerichtetes Datenverarbeitungssystem 801 mit einem entsprechenden Sequenzierungsgerät, nämlich einer Sequenzierungseinrichtung 803 wird wie folgt betrieben:
  • Die DNA 101 wird innerhalb der Sequenzierungseinrichtung 803 sequenziert und ein entsprechender Datenstrom 804 in einen Computer 805 eingelesen. Innerhalb des Computers 805 erfolgt dann ein Komprimieren gemäß der oben beschriebenen Vorgehensweise, sodass die komprimierte Information, nämlich die komprimierte Sequenz der DNA 101 auf einer Festplatte 807 gespeichert wird.
  • Bezugszeichenliste
  • 101
    DNA
    102
    Position
    104
    Strang
    106
    Basenpaar
    111
    Variante
    113
    Chromosom
    115
    Position
    117
    Referenz
    119
    Abweichung
    121
    Format
    123
    Genotyp
    125
    Probenkennung
    127
    Datensatz
    141
    Phasenkennung
    211
    Variantensatz
    221
    Datensatz
    223
    Datensatz
    225
    Datensatz
    231
    Probenkennung
    232
    Probenkennung
    301
    Genotyp-Matrix
    411
    Variantensatz
    421
    Datensatz
    423
    Datensatz
    431
    Probenkennung
    441
    Phasenkennung
    501
    Genotyp-Matrix
    503
    Allel-Matrix
    505
    Phasenmatrix
    541
    Phasenkennung
    601
    Ablaufdiagramm
    603
    Aufteilen
    605
    Binarisieren
    607
    Sortieren
    609
    Entropie-Kodieren
    610
    Bit-Strom
    631
    Bit-Ebene
    633
    Binäre Allel-Matrix
    701
    Indizieren
    703
    Komprimieren
    801
    Datenverarbeitungssystem
    803
    Sequenzierungseinrichtung
    804
    Datenstrom
    805
    Computer
    807
    Festplatte
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 8972201 B2 [0003]
    • WO 2013/138604 A1 [0004]
    • US 7657383 B2 [0005]
    • US 10090857 B2 [0006]
    • US 8937564 B2 [0007]
    • US 8812243 B2 [0008]
    • US 10198454 B2 [0009]
    • US 10230390 B2 [0010]
    • US 9098523 B2 [0011]

Claims (10)

  1. Verfahren zum Komprimieren einer Information (111, 211, 411) einer Erbinformation (101), insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen (221, 223, 225) vorliegt, mit folgenden Schritten: - Indizieren (701) der Einzelinformationen der Abfolge, wobei der jeweiligen Einzelinformation ein Indikator für eine Position innerhalb der Abfolge zugefügt wird, sodass eine indizierte Abfolge vorliegt, - Komprimieren (703) der jeweiligen Einzelinformation mittels einer Entropiekodierung für eine jeweilige Einzelinformation, sodass jeweils eine komprimierte Einzelinformation vorliegt, sodass die Information aus den jeweiligen komprimierten Einzelinformationen mit geringerem Speicherbedarf dargestellt ist.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Entropiekodierung mittels einer Huffmann-Kodierung, einer arithmetischen Kodierung, der Shannon-Fano-Kodierung, CABAC, JBIG, JBIG2 und/oder der Golomb-Kodierung durchgeführt wird.
  3. Verfahren gemäß Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Information und/oder die jeweilige Einzelinformation in Zeilen, Reihen oder Spalten bereitgestellt wird oder werden, sodass diese insbesondere in einem textbasierten Format und/oder einer Matrix (301) vorliegen.
  4. Verfahren gemäß einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine jeweilige Einzelinformation mehrere Teilinformationen umfasst, wobei die jeweilige Teilinformation insbesondere eine Allel-Information und/oder eine Phasen-Information zur Erbinformation ist oder umfasst, wobei die Einzelinformation und/oder die Teilinformation in einer Matrix dargestellt oder abgelegt ist oder sind.
  5. Verfahren gemäß einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine Binaärisierung der jeweiligen Einzelinformation oder eine Binarisierung der jeweiligen Teilinformation durchgeführt wird, sodass eine binarisierte Einzelinformation oder eine binarisierte Teilinformation vorliegt.
  6. Verfahren gemäß einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass ein Sortieren der Teilinformation, insbesondere in Zeilen, Reihen und/oder Spalten, durchgeführt wird, sodass eine sortierte Teilinformation vorliegt.
  7. Verfahren zum Dekomprimieren einer Information einer Erbinformation, gekennzeichnet, durch ein Durchführen der inversen Schritte eines oder mehrerer der Ansprüche 1 bis 6, sodass die Information einer Erbinformation dekomprimiert vorliegt.
  8. Elektronische Speichereinrichtung zum Speichern einer Information einer Erbinformation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, dadurch gekennzeichnet, dass eine gemäß einem Verfahren nach einem der Ansprüche 1 bis 6 komprimierte Information abgelegt oder gespeichert ist.
  9. Datenverarbeitungssystem zum Verarbeiten einer Information einer Erbinformation, insbesondere einer genetischen Variation, welches zum Durchführen eines Verfahrens gemäß der Ansprüche 1 bis 7 eingerichtet ist.
  10. Datenverarbeitungssystem gemäß Anspruch 9 mit einer elektronische Speichereinrichtung gemäß Anspruch 8.
DE102021100199.4A 2020-01-12 2021-01-08 Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem Pending DE102021100199A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202062959985P 2020-01-12 2020-01-12
US62/959,985 2020-01-12

Publications (1)

Publication Number Publication Date
DE102021100199A1 true DE102021100199A1 (de) 2021-07-15

Family

ID=76542974

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021100199.4A Pending DE102021100199A1 (de) 2020-01-12 2021-01-08 Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem

Country Status (1)

Country Link
DE (1) DE102021100199A1 (de)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657383B2 (en) 2004-05-28 2010-02-02 International Business Machines Corporation Method, system, and apparatus for compactly storing a subject genome
WO2013138604A1 (en) 2012-03-16 2013-09-19 The Broad Institute, Inc. Systems and methods for reducing representations of genome sequencing data
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
US8972201B2 (en) 2011-12-24 2015-03-03 Tata Consultancy Services Limited Compression of genomic data file
US9098523B2 (en) 2011-12-05 2015-08-04 Samsung Electronics Co., Ltd. Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (NGS)
US10090857B2 (en) 2010-04-26 2018-10-02 Samsung Electronics Co., Ltd. Method and apparatus for compressing genetic data
US10198454B2 (en) 2014-04-26 2019-02-05 Bonnie Berger Leighton Quality score compression for improving downstream genotyping accuracy
US10230390B2 (en) 2014-08-29 2019-03-12 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657383B2 (en) 2004-05-28 2010-02-02 International Business Machines Corporation Method, system, and apparatus for compactly storing a subject genome
US10090857B2 (en) 2010-04-26 2018-10-02 Samsung Electronics Co., Ltd. Method and apparatus for compressing genetic data
US9098523B2 (en) 2011-12-05 2015-08-04 Samsung Electronics Co., Ltd. Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (NGS)
US8972201B2 (en) 2011-12-24 2015-03-03 Tata Consultancy Services Limited Compression of genomic data file
WO2013138604A1 (en) 2012-03-16 2013-09-19 The Broad Institute, Inc. Systems and methods for reducing representations of genome sequencing data
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
US10198454B2 (en) 2014-04-26 2019-02-05 Bonnie Berger Leighton Quality score compression for improving downstream genotyping accuracy
US10230390B2 (en) 2014-08-29 2019-03-12 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing

Similar Documents

Publication Publication Date Title
DE3486224T2 (de) Verfahren zum Speichern und Wiederauffinden von digitalen Informationen.
DE69737892T2 (de) Lempel-Ziv Datenkompressionsverfahren unter Verwendung eines Wörterbuches mit häufig auftretenden Buchstabenkombinationen, Wörtern und/oder Sätzen
DE2264090C3 (de) Datenverdichtung
DE19742417B4 (de) Vorrichtung und Verfahren zur Durchführung von M-fachem Maschinenendzustands-Entropiekodieren bzw. Entropiekodieren mit einer Maschine mit finitem Zustand
DE60035171T2 (de) Verfahren und Schaltungen zum schnellen Auffinden des minimalen / maximalen Wertes in einer Menge von Zahlen
EP0230437B1 (de) Verfahren zum komprimieren und dekomprimieren mehrerer strukturverwandter datenfolgen sowie einrichtungen zur durchführung des verfahrens
DE3587335T2 (de) Host-Rechnerprogrammierbare Eingabe/Ausgabe-Datenstation.
DE60118973T2 (de) Verfahren zum abfragen einer struktur komprimierter daten
DE10196890B4 (de) Verfahren zum Ausführen einer Huffman-Decodierung
DE112012003503T5 (de) Skalierbares Deduplizierungssystem mit kleinen Blöcken
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
DE3485824T2 (de) Verfahren zur datenkompression.
DE69722085T2 (de) Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften
EP0260748A2 (de) Verfahren und Schaltungsanordung zur Bitratenreduktion
DE102016220801B4 (de) Erzeugen einer dynamischen Huffman-Tabelle
DE10196847B4 (de) Ein Verfahren zum Erzeugen von Huffman-Code-Längeninformationen
DE60302203T2 (de) Anordnung zur Komprimierung einer Datentabelle
DE1964570B2 (de) Verfahren zum wiederauffinden gespeicherter informationen
EP3563261A1 (de) Bitsequenzbasiertes datenklassifikationssystem
DE60213205T2 (de) Komprimierung und extraktion von schrifttypen
DE102021100199A1 (de) Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem
DE60001585T2 (de) Datenverarbeitungseinrichtung und -verfahren
DE3443272C2 (de) Verfahren zum Ausbreiten eines Fehlers in Daten und Fehlererkennungssystem
DE69309465T2 (de) Wort/Nummer- und Nummer/Wort-Abbildung
EP1186175B1 (de) Verfahren und vorrichtung zur komprimierung und dekomprimierung von daten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)