DE102021100199A1

DE102021100199A1 - Verfahren zum Komprimieren, Verfahren zum Dekomprimieren einer Information einer Erbinformation, elektronische Speichereinrichtung sowie Datenverarbeitungssystem

Info

Publication number: DE102021100199A1
Application number: DE102021100199.4A
Authority: DE
Inventors: Jan Voges; Christian Rohlfing; Viktor Tunev; Yeremia Gunawan Adhisantoso; Jörn Ostermann
Original assignee: Rwth Aachen Univ Koerperschaft Des Oeffentlichen Rechts; Rwth Aachen University Koerperschaft Des Oeffentlichen Rechts; Leibniz Universitaet Hannover
Current assignee: Rwth Aachen Univ Koerperschaft Des Oeffentlichen Rechts; Rwth Aachen University Koerperschaft Des Oeffentlichen Rechts; Leibniz Universitaet Hannover
Priority date: 2020-01-12
Filing date: 2021-01-08
Publication date: 2021-07-15

Abstract

Die Erfindung betrifft ein Verfahren zum Komprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, mit folgenden Schritten:- Indizieren der Einzelinformationen der Abfolge, wobei der jeweiligen Einzelinformation ein Indikator für eine Position innerhalb der Abfolge zugefügt wird, sodass eine indizierte Abfolge vorliegt,- Komprimieren der jeweiligen Einzelinformation mittels einer Entropiekodierung für eine jeweilige Einzelinformation, sodass jeweils eine komprimierte Einzelinformation vorliegt, sodass die Information aus den jeweiligen komprimierten Einzelinformationen mit geringerem Speicherbedarf dargestellt ist.

Description

Die Erfindung betrifft ein Verfahren zum Komprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt. Weiterhin betrifft die Erfindung ein Verfahren zum Dekomprimieren einer komprimierten Information einer Erbinformation, eine elektronische Speichereinrichtung zum Speichern einer Information einer Erbinformation, wobei die Information einer Erbinformation in einer Abfolge aus mehreren Einzelinformationen vorliegt, sowie ein Datenverarbeitungssystem zum Verarbeiten einer Information einer Erbinformation.
Verfahren zum Komprimieren und auch Dekomprimieren einer Information einer Erbinformation sind an sich bekannt. Eine solche zu komprimierende Information einer Erbinformation kann beispielsweise eine Gensequenz oder eine Variantensequenz sein. Diese werden üblicherweise in speziellen Datenformaten, beispielsweise VCF („variant call format“), bereitgehalten. Ein reines Ablegen und/oder Speichern einer solchen Information verbraucht jedoch vergleichsweise viel Speicherplatz. Dazu sind im Folgenden unterschiedliche Komprimierungsverfahren bekannt.
Die US 8,972,201 B2 beschreibt ein Kompressionsverfahren für Gensequenzen, bei welchem ein Header, entsprechende Bezeichnungen sowie Sequenzdaten voneinander getrennt und neu miteinander kombiniert werden. Dadurch kann eine Speicherung mit geringerem Datenvolumen erfolgen.
In der WO 2013/138604 A1 wird ein Kompressionsverfahren beschrieben, bei welchem unterschiedliche Regionen einer DNA-Sequenz analysiert und verglichen werden, sodass bei geringen Abweichungen zwischen verglichenen Sequenzteilen ein Übereinanderschieben on Datensätzen zum Komprimieren der Datenmenge erfolgt.
Die US 7,657,383 B2 offenbart ein System und ein Verfahren zum platzsparenden Speichern einer Gen-Information. Dazu werden unterschiedliche Teile der Gen-Information miteinander verglichen, wobei dann Informationen über entsprechende Unterschiede gespeichert werden.
Die US 10,090,857 B2 beschriebt ebenfalls ein Verfahren sowie ein System zum Komprimieren von Gen-Daten. Es wird allgemein beschrieben, textbasierte Gen-Informationen in unterschiedliche Felder aufzuteilen, wobei diese dann mit Verschlüsselungsalgorithmen größtmöglicher Kompression in einen sogenannten Bitstream mit geringerem Datenvolumen umgewandelt werden.
Die US 8,937,564 B2 beschriebt ein System, ein Verfahren sowie einen entsprechenden computerlesbaren Baustein zum Komprimieren genetischer Informationen. Hierzu wird ein entsprechendes Schlüsselwort-Wörterbuch als Referenz zu einer entsprechenden DNA für einen Vergleich herangezogen und aus dem Vergleich eine entsprechend komprimierte Datenmenge erzeugt.
Die US 8,812,243 B2 beschreibt die Übertragung und Komprimierung von Gen-Daten. Hierbei werden ebenfalls aktuelle Gen-Informationen mit Referenz-Informationen verglichen und dieser Vergleich für eine datenkomprimierte Darstellung genutzt.
In der US 10,198,454 B2 wird ein Verfahren zum Komprimieren von Qualitätsinformationen für eine Gensequenz beschrieben, wobei insbesondere aus Redundanzen innerhalb der entsprechenden Sequenz die Möglichkeit der Komprimierung abgeleitet wird.
Die US 10,230,390 B2 beschreibt ein beschleunigtes Leseverfahren für eine Gen-Sequenzierung.
In der US 9,098,523 B2 wird ebenfalls ein Verfahren und ein System zum Komprimieren und Dekomprimieren einer genetischen Information offenbart.
Aufgabe der Erfindung ist es, den Stand der Technik zu verbessern.
Gelöst wird die Aufgabe durch ein Verfahren zum Komprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, mit folgenden Schritten:

- Indizieren der Einzelinformationen der Abfolge, wobei der jeweiligen Einzelinformation ein Indikator für eine Position innerhalb der Abfolge zugefügt wird, sodass eine indizierte Abfolge vorliegt,
- Komprimieren der jeweiligen Einzelinformation mittels einer Entropiekodierung für eine jeweilige Einzelinformation, sodass jeweils eine komprimierte Einzelinformation vorliegt,

Insbesondere mittels eines Komprimierens der jeweiligen Einzelinformation mittels einer Entropiekodierung kann in einer großen Anzahl von Informationen oder Einzelinformationen eine Erbinformation eine Rangfolge für eine unterschiedliche Häufigkeit eines Vorkommens von Zahlen- oder Buchstabenwerten gewählt werden, sodass mittels der Entropiekodierung ein möglichst geringes Datenvolumen zum Speichern der jeweiligen Einzelinformationen verbraucht wird. Das Indizieren der Einzelinformationen der Abfolge stellt dabei sicher, dass bei einem Dekomprimieren die entsprechende Information einer Erbinformation in der richtigen Reihenfolge wieder zusammengesetzt werden kann. Damit kann die zunächst komprimierte und dann dekomprimierte Information verlustfrei wiederhergestellt werden.
Folgende Begriffe seien an dieser Stelle erläutert:
Ein „Komprimieren“ einer Information beschreibt einen Vorgang in der digitalen Datenverarbeitung, bei welchem das Gesamtvolumen der Information reduziert wird. Dazu sind sogenannte verlustbehaftete und auch verlustfreie Komprimierungsverfahren bekannt. Ein verlustfreies Komprimieren beschreibt dabei ein Vorgehen, nach welchem auch nach dem Dekomprimieren, also der Wiederherstellung einer Information, alle Details der Informationen noch vorhanden und lesbar sind.
Eine „Information einer Erbinformation“ ist beispielsweise eine Gensequenz, eine Variantensequenz oder eine andere Information bezüglich einer Erbinformation eines Organismus. Ein solcher Organismus kann beispielsweise ein Mensch, ein Tier, eine Pflanze, ein Pilz oder ein Virus sein. Eine „genetische Variation“ beschreibt dabei Veränderungen der genetischen Information oder Erbinformation zwischen einzelnen Sequenzen. Eine solche Erbinformation liegt dabei beispielsweise als Datei oder Datenfolge in einem zweckdienlichen Format vor.
Eine „Abfolge“ ist dabei beispielsweise eine Abfolge von Einzelinformationen einer Gensequenz, beispielsweise einzelner Positionen in einer DNA-Doppelhelix. Auch kann eine solche Abfolge entsprechende Zuordnungen für unterschiedliche DNA-Doppelhelixe enthalten, beispielsweise für zwei oder mehrere homologe DNA-Doppelhelixe unterschiedlicher Lebewesen.
Ein „Indizieren“ beschreibt beispielsweise ein Durchnummerieren, ein Versehen mit Buchstaben oder einer anderen zweckdienlichen Kennung jeder Einzelinformation der Abfolge. Dieses Indizieren dient dazu, eine jeweilige Einzelinformation an einer richtigen Stelle oder Position der Abfolge einordnen zu können, auch falls die entsprechenden Einzelinformationen der Abfolge separat voneinander oder in anderer Reihenfolge oder Abfolge gespeichert oder komprimiert und/oder dekomprimiert werden, beispielsweise temporär. Ein solches Indizieren kann dabei beispielsweise auch spalten- und/oder zeilenweise erfolgen, wenn eine Information in Spalten und Zeilen vorliegt.
Ein „Indikator“ kann dabei jede geeignete Information, beispielsweise ein Zahlenwert, ein Code oder Bitcode oder ein Buchstabe sein. Beispielsweise sind entsprechende Positionen innerhalb der Abfolge mit „1, 2, 3, ...“ oder mit „a, b, c, ...“ indiziert, sodass eine entsprechende Zuordnung auch später ermöglicht ist. Es kann jedoch auch jede andere, zweckdienliche Form eines Indikators genutzt werden.
Eine „Entropiekodierung“ ist beispielsweise eine Methode, um eine verlustfreie Datenkompression zu ermöglichen. Dabei wird jedem einzelnen Zeichen eines Textes oder einer Zahlenfolge oder einer anderen Informationsabfolge eine unterschiedlich lange Folge von Bits zugeordnet. Es werden dabei so viele Bits benötigt, dass jede Variante der entsprechend vorliegenden Zeichen der Zahlenfolge entsprechend zugeordnet werden kann. Insbesondere wird dabei dem am häufigsten vorkommenden Zeichen eine entsprechend geringe und kurze Bitfolge zugeordnet, sodass die entsprechende Datenmenge zum Speichern der jeweiligen Bitfolgen auch durch ein häufiges Vorkommen des entsprechenden Zeichens nicht zu groß wird. Im Falle einer arithmetischen Kodierung kann hingegen eine Quellinformation oder Ausgangsinformation derart komprimiert werden, dass diese Quellinformation oder Ausgangsinformation nicht in einzelne Komponenten aufgeteilt wird, sondern in ihrer Gesamtheit oder für bestimmte Teilbereiche in eine Darstellung einer rationalen Zahl umgewandelt oder kodiert wird.
Eine Einzelinformation kann dabei eine Zeile einer textlich dargestellten Gensequenz, eine zusammengefasste Information unterschiedlicher Varianten einer Erbinformation oder dergleichen sein.
Eine „komprimierte Einzelinformation“ ist dabei beispielsweise ein im Ergebnis komprimierter Datensatz bezüglich einer jeweiligen Einzelinformation, welcher durch eine Entropiekodierung der entsprechenden Einzelinformation erzeugt wurde. Eine solche komprimierte Einzelinformation weist dabei ein geringeres Datenvolumen auf als die Einzelinformation selbst, insbesondere um Speicherplatz einzusparen oder einen geringeren Speicherbedarf zu generieren.
Ein „Speicherbedarf“ beschreibt dabei die Menge und/oder Größe an Speicher, insbesondere digitalem, elektronischem Speicher, welche notwendig ist, um eine entsprechende Einzelinformation oder auch die vollständige Information einer Erbinformation abzuspeichern. Ein solcher Speicherbedarf wird beispielsweise in Bits oder Bytes oder einem Vielfachen davon angegeben.
Um die Entropiekodierung besonders effizient und mit einem kompaktem Datenergebnis durchführen zu können, wird die Entropiekodierung mittels einer Huffman-Kodierung, einer arithmetischen Kodierung, eines Q-Coders, einer kontext-adaptiven binären arithmetischen Kodierung („context adaptive binary arithmetic coding“, CABAC), der Shannon-Fano-Kodierung und/oder der Golomb-Kodierung durchgeführt. Des Weiteren können für die Entropiekodierung komplexe mehrschrittige Verfahren wie JBIG, JBIG2, GIF, JPEG, JPEG 2000, PNG, HEIF, AVC, HEVC, AV1, gzip, bzip2, Zstandard, Brotli, xz, oder rANS verwendet werden.
In einer Ausführungsform wird die Information und/oder werden die jeweiligen Einzelinformationen in Zeilen, Reihen und/oder Spalten und/oder Reihen bereitgestellt, sodass diese insbesondere in einem textbasierten Format und/oder in Form einer Matrix vorliegen.
Eine solche Darstellung kann beispielsweise in einem bekannten Datenformat für Gensequenzen erfolgen. Weiterhin kann eines solche Information als Matrix vorliegen, wobei die Matrix spezifische Informationen einer Abfolge von Informationen eines Datenformates für Gensequenzen enthält. Dies können beispielsweise Zeilen- und Spalteninformationen jeweiliger Daten aus einer VCF-Datei oder auch daraus abgeleitete Größen oder Daten sein. Eine VCF-Datei umfasst einen sogenannten „header“ mit verarbeitungsrelevanten Informationen für die VCF-Datei sowie die eigentlichen Informationen der Gensequenz im Teil der „variant records“ aufweist. Solche „variant records“ enthalten dann die jeweiligen Informationen einer DNA oder eines Teils einer DNA, welche mittels einer Gen-Sequenzierung ermittelt wurden.
Um auch komplexe genetische Informationen oder detaillierte entsprechende Informationen zuverlässig komprimieren zu können, kann eine jeweilige Einzelinformation mehrere Teilinformationen, wobei die jeweilige Teilinformation insbesondere eine Allel-Information und/oder eine Phaseninformation zu einer Erbinformation ist, umfassen.
Eine „Teilinformation“ kann dabei jede innerhalb einer Einzelinformation vorliegende Information sein, welche dann in der Gesamtheit aus Teilinformationen die Einzelinformation bildet. Beispielsweise ist eine solche Teilinformation eine datentechnische Abbildung einer Base oder eines Basenpaares innerhalb einer DNA, eine Information bezüglich einer Abweichung einer Teilinformation von einer Referenzinformation, beispielsweise eines Referenz-Genoms oder eine andere, die Erbinformation beschreibende Eigenschaft.
In einer weiteren Ausführungsform ist die Einzelinformation und/oder die Teilinformation in einer Matrix dargestellt oder abgelegt.
Damit kann eine solche Einzelinformation zumindest zweidimensional oder auch mehrdimensional dargestellt oder abgelegt werden. Insbesondere werden dabei die Spalten und Zeilen einer solchen Matrix separat voneinander oder parallel zueinander verarbeitet und komprimiert.
In einer Ausführungsform kann dabei eine entsprechende Matrix auch vor dem Komprimieren aufgetrennt werden. Beispielsweise kann eine Genotyp-Matrix einer Erbinformation in eine Allel-Matrix und eine Phasenmatrix aufgetrennt werden, sodass dann die jeweilige Matrix getrennt voneinander komprimiert wird. Dabei kann eine Indizierung auch für jede Matrix separat und beispielsweise nach Zeilen und Spalten erfolgen, sodass die entsprechend zusammengehörigen Informationen auch wieder zueinander zugeordnet werden können.
Um ein Verarbeiten und Komprimieren von entsprechenden Einzelinformationen oder einer entsprechenden Teilinformation auf elektronischen Datenverarbeitungseinrichtungen zuverlässig durchführen zu können, kann eine Binarisierung der Einzelinformationen oder eine Binarisierung der jeweiligen Teilinformation durchgeführt werden, sodass eine binarisierte Einzelinformation oder eine binarisierte Teilinformation vorliegt. Weiterhin bietet eine solche, binarisierte Einzelinformation oder Teilinformation die Möglichkeit, entsprechende Daten per Entropiekodierung platzsparend auf einem entsprechenden Speichermedium abzulegen.
In einer weiteren Ausführungsform wird ein Sortieren der Teilinformation, insbesondere in Zeilen, Reihen und/oder Spalten, durchgeführt, sodass eine sortierte Teilinformation vorliegt. Hierbei kann sowohl zunächst ein Sortieren in Zeilen und dann ein Sortieren in Spalten als auch ein Vorgehen in umgekehrter Reihenfolge durchgeführt werden. Ein solches Sortieren kann dabei insbesondere so erfolgen, dass die dadurch erzeugte Sortierung zweckdienlich für ein nachfolgendes Komprimieren mittels einer Entropiekodierung ist, da die Entropiekodierung in die Lage versetzt wird, statistische Abhängigkeiten in den sortierten Daten auszunutzen, um so ein geringeres komprimiertes Datenvolumen zu erzeugen. Beispielsweise kann eine Menge an Zeilen, welche Ganzzahlen enthalten, so sortiert werden, dass die Hamming-Distanz zwischen aufeinanderfolgenden Zeilen minimiert wird. Beispielsweise kann eine Menge an Spalten, welche Ganzahlen enthalten, so sortiert werden, dass Lauflängen in Zeilenrichtung maximiert werden.
Damit können auch innerhalb einer Einzelinformation enthaltene untergeordnete Informationen entsprechend in einer nachvollziehbaren Reihenfolge einem Komprimieren unterzogen und/oder nach einem Dekomprimieren auch wieder zugeordnet werden.
In einem weiteren Aspekt wird die Aufgabe gelöst durch ein Verfahren zum Dekomprimieren einer komprimierten Information einer Erbinformation, welches die Schritte des oben dargelegten Verfahrens invers durchführt, sodass die Information einer Erbinformation dekomprimiert vorliegt.
Ein solches Dekomprimieren wird dabei so durchgeführt, dass eine jeweilige komprimierte Einzelinformation mittels einer Entropiedekodierung, welche zur gewählte Entropiekodierung korrespondiert, dekodiert und damit wieder zu einer jeweiligen Einzelinformation aufgelöst wird, sodass eine jeweilige Einzelinformation wieder vorliegt. Dabei wird nach dem Dekomprimieren mittels der Entropiedekodierung ein jeweiliger Indikator für eine Position innerhalb der Abfolge genutzt, um die ursprüngliche Information einer Erbinformation wieder in der richtigen Reihenfolge bereitzustellen.
In einer Ausführungsform stehen die Informationen und/oder die jeweilige Einzelinformation dann wieder in Zeilen, Reihen und/oder Spalten bereit, sodass diese insbesondere in einem textbasierten Format und/oder einer Matrix vorliegen.
Eine jeweilige Einzelinformation, welche nach dem Dekomprimieren wieder vorliegt, kann dabei dann auch wieder mehrere Teilinformationen umfassen, wobei die jeweilig Teilinformation insbesondere eine durch die Dekompression wieder hergestellte Allel-Information und/oder eine Phasen-Information zur Erbinformation ist. Eine solche Einzelinformation und/oder eine solche Teilinformation kann dann wieder in einer Matrix dargestellt oder abgelegt sein.
In einer Ausführungsform wird nach dem Dekomprimieren eine binarisiert vorliegende Information, Einzelinformation oder Teilinformation in ihre ursprüngliche, lesbare Form überführt.
Weiterhin kann ein Sortieren der Teilinformation und/oder ein Zuordnen einer während des Komprimierens sortierten Teilinformation, insbesondere in Zeilen, Reihen und/oder Spalten, durchgeführt werden, sodass eine entsprechende Teilinformation in ihrer vor dem Komprimieren vorliegenden Darstellung wieder vorliegt.
Ein „Dekomprimieren“ einer Information beschreibt einen Vorgang in der digitalen Datenverarbeitung, bei welchem eine durch ein Komprimieren reduzierte Information mit geringem Datenvolumen in die ursprüngliche, vor dem Komprimieren vorliegende Information umgewandelt wird. Ein verlustfreies Komprimieren und Dekomprimieren beschreibt dabei ein Vorgehen, nach welchem auch nach dem Dekomprimieren, also der Wiederherstellung der ursprünglichen Information, alle Details der Informationen wieder vorhanden und lesbar sind.
In einem weiteren Aspekt wird die Aufgabe gelöst durch eine elektronische Speichereinrichtung zum Speichern einer Information einer Erbinformation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, wobei eine gemäß einem Verfahren nach einer der oben genannten Ausführungsformen komprimierte Information abgelegt oder gespeichert ist.
Eine solche elektronische Speichereinrichtung kann eine gemäß einem Verfahren der oben genannten Ausführungsformen komprimierte Information sicher und zuverlässig speichern und diese dann mit möglichst geringem Datenvolumen bereitstellen.
Eine „Speichereinrichtung“, insbesondere eine „elektronische Speichereinrichtung“, kann dabei beispielsweise ein USB-Stick, eine Festplatte, ein Solid-State-Speicher oder eine andere Einrichtung sein, welche geeignet ist, Informationen und/oder Daten auf elektronischem Wege aufzunehmen, abzulegen und bei Bedarf wiederzugeben.
In einem weiteren Aspekt wird die Aufgabe gelöst durch ein Datenverarbeitungssystem zum Verarbeiten einer Information einer Erbinformation, insbesondere einer genetischen Variation, wobei das Datenverarbeitungssystem zum Durchführen eines Verfahrens gemäß einer der oben genannten Ausführungsformen eingerichtet ist.
Ein solches Datenverarbeitungssystem stellt eine einfache und zuverlässige Möglichkeit dar, Informationen zu einer Erbinformation so zu verarbeiten, dass ein Speichern und/oder auch Weiterverarbeiten der gespeicherten Informationen mit sehr geringer Datendichte und wenig Speicherbedarf ermöglicht ist.
In einer Ausführungsform weist das Datenverarbeitungssystem eine elektronische Speichereinrichtung wie oben beschrieben auf.
Ein „Datenverarbeitungssystem“ ist dabei beispielsweise ein Computer, ein Microchip oder auch ein Prozessor, wobei das jeweilige Datenverarbeitungssystem dazu geeignet ist, Daten, insbesondere elektronisch, aufzunehmen, mathematischen Operationen zu unterziehen und bei Bedarf oder auf Anforderung wieder abzugeben. Ein solches Datenverarbeitungssystem kann dabei Prozessoren, Leiterbahnen sowie auch entsprechende Speichereinrichtungen, wie beispielsweise einen RAM-Speicher, umfassen oder aufweisen.
Im Weiteren wird die Erfindung anhand von Ausführungsbeispielen näher erläutert. Es zeigen

1a Eine DNA-Doppelhelix mit genetischen Informationen,
1b eine Variante einer Gensequenz der DNA der 1a,
2 eine Abfolge von Varianten zum Ableiten einer Genotyp-Matrix G für zwei Probanden S1 und S2,
3 eine aus den Daten der 2 abgeleitete Genotyp-Matrix G der zwei Probanden,
4 einen Variantensatz eines Probanden S1,
5 eine Genotyp-Matrix G sowie eine daraus aufgespaltene Allel-Matrix A und PhasenMatrix P,
6 ein Ablaufdiagramm eines Verfahrens zum Komprimieren einer genetischen Information, sowie
7 ein Blockdiagramm eines Verfahrens zum Komprimieren einer genetischen Information.

Eine DNA-Doppelhelix 101 enthält eine Erbinformation eines Menschen. Die DNA 101 weist Stränge 104 auf, zwischen denen Basenpaare 106 angeordnet sind. Die Basenpaare 106 bilden zusammen mit ihrer jeweiligen Position 102 innerhalb der Stränge 104 eine Teilinformation der jeweiligen Erbinformation ab.
Die DNA 101 wurde sequenziert, sodass eine Variante 111 daraus abgeleitet wurde. Ein solcher Variantensatz entspricht der Schreibeweise innerhalb einer VCF-Datei und weist die Kennungen für ein Chromosom 113, eine Position 115 innerhalb des Chromosoms sowie die Basenart einer Referenz 117 und eine dazugehörige Abweichung 119 des jeweiligen in der Sequenzierung ermittelten Genmaterials. Weiterhin ist in der Variante 111 ein Format 121 sowie Genotypen 123 in einer Spalte mit einer Probenkennung 125 aufbereitet. Die Variante 111 ist dabei als Tabelle oder auch Matrix dargestellt und weist einen entsprechenden Datensatz 127 mit den zu den aufgezählten Spaltenkennungen gehörenden Werten auf. Der Datensatz 127 ist dabei beispielhaft dargestellt. Der in 1b dargestellte Datensatz entspricht dabei einem Chromosom „1“, welches an einer Position „1“ gegenüber einem Thymin „T“ im Referenzgenom ein Guanin „G“ aufweist. Weiterhin ist als Format 121 „GT“ angegeben, wobei diese Information das Datenformat eines weiteren, nachfolgenden Datensatzes innerhalb der Variante 111 angibt. In der Spalte für den Genotyp 123 ist dabei „0/1“ angegeben, wobei die Kennung „0“ abbildet, dass die erste Doppelhelix einer menschlichen Erbinformation ein „T“ aus dem Referenzgenom aufweist und die zweite Doppelhelix aus der menschlichen Erbinformation die Base „G“ aus der angegeben Abweichung 119. Der „/“ dient dabei der Phasenkennung 141 und bildet ab, dass eine Zuordnung zu mütterlichem oder väterlichem DNA-Strang nicht möglich ist. Demgegenüber würde ein „|“ eine solche mögliche Zuordnung darstellen.
Ein weiterer Variantensatz 211 weist sowohl eine Probenkennung 231 („S1“) sowie eine Probenkennung 232 („S2“) auf. Für beide Probenkennungen 231 und 232 sind die entsprechenden Zuordnungen für einen Datensatz 221, einen Datensatz 223 sowie einen Datensatz 225 vorgenommen.
Aus den entsprechenden Daten für die Probenkennung 231 und die Probenkennung 232 kann dann in der Darstellung einer Matrix die Genotyp-Matrix 301 abgeleitet werden. Dabei sind entsprechende Positionen innerhalb des Variantensatzes 211 dann die Positionen innerhalb der Genotyp-Matrix 301. Die Genotyp-Matrix 301 bildet damit die notwendigen Informationen zur jeweiligen Erbinformation identisch ab.
Ein weiterer Variantensatz 411 für eine Probenkennung 431 mit einem Datensatz 421 und einem Datensatz 423 weist als Phasenkennung 441 ein „|“ auf. Damit ist dargestellt, dass eine Zuordnung zu mütterlichem und väterlichem DNA-Strang ermöglicht ist (vergleiche 4).
Es soll nun ein Komprimieren einer entsprechenden Erbinformation, nämlich der Genotyp-Matrix „G“ beispielhaft dargestellt werden:
Innerhalb einer Genotyp-Matrix 501 sind, wie oben beschrieben, Informationen zur Erbinformation enthalten. Diese enthalten sowohl Informationen über ein jeweiliges Allel an entsprechenden Positionen innerhalb der Chromosomen sowie auch entsprechende Phasenkennungen 541 zu diesen entsprechenden Gen-Sequenzen. Es erfolgt dann ein Auftrennen der Genotyp-Matrix 501 in eine Allel-Matrix 503 sowie eine Phasenmatrix 505. Die entsprechenden Kennungen („0“, „1“ sowie „2“) in der Allel-Matrix 503 entsprechen dabei den jeweiligen Zahlenwerten innerhalb der Genotyp-Matrix 501 an den jeweiligen Positionen. Die Phasenmatrix 505 weist in binärer Form eine Kennung für die Zuordnung oder nicht mögliche Zuordnung zur mütterlichen und väterlichen Doppelhelix auf („0“ entspricht im vorliegenden Fall einer Zuordnung, „1“ entspricht im vorliegenden Fall keiner Zuordnung).
Ein entsprechendes Ablaufdiagramm 601 zeigt ein Komprimieren dieser Genotyp-Matrix 501 beispielhaft.
Die Genotyp-Matrix 501 wird mittels eines Aufteilens 603 in eine Allel-Matrix 503 und die Phasenmatrix 505 aufgetrennt. Danach kann bedarfsweise ein Binarisieren 605 erfolgen, wobei durch das Binarisieren entsprechende Bitebenen 631 sowie eine binäre Allel-Matrix 633 erzeugt wird. Die Information der Allel-Matrix 503 ist damit binarisiert dargestellt und in der elektronischen Datenverarbeitung einfacher weiterzuverarbeiten.
Die entsprechende Information wird dann einem Sortieren 607 unterzogen, ebenso wird die Phasenmatrix 505 einem solchen Sortieren unterzogen. Hierbei erfolgt ein Sortieren nach Spalten und nach Zeilen. Während des Sortierens 607 werden entsprechende Informationen innerhalb der Allel-Matrix 503 oder der erzeugten Bitebenen 631 und der binären Allel-Matrix 631 mit Indizes versehen, sodass eine spätere Zuordnung nach dem Komprimieren und Dekomprimieren wieder ermöglicht ist. Die sortierte Information wird dann einer Entropiekodierung 609 unterzogen, ebenso wie die Phasenmatrix 505. Es entsteht daraus ein Bit-Strom 610, welcher ein komprimiertes, binäres Abbild der ursprünglichen Genotyp-Matrix 501 darstellt.
Die Entropiekodierung 609 erfolgt dabei derart, dass die zu komprimierenden Informationen nach Häufigkeit sortiert werden und dann der häufigsten Information eine möglichst kleine Bitfolge zugeordnet wird. Die entsprechenden Informationen werden dann gemäß ihrem Vorkommen in Bitfolgen kodiert.
Ein entsprechendes Verfahren in abstrahierter Form sei noch einmal wie folgt beschrieben:
Es erfolgt für eine Information einer Erbinformation zunächst ein Indizieren 701 zum Erreichen einer Zuordnung der jeweilig zu komprimierenden Information, sodann erfolgt ein Komprimieren 703, um ein entsprechendes Datenvolumen zu verkleinern.
Ein zum Durchführen des Verfahrens eingerichtetes Datenverarbeitungssystem 801 mit einem entsprechenden Sequenzierungsgerät, nämlich einer Sequenzierungseinrichtung 803 wird wie folgt betrieben:
Die DNA 101 wird innerhalb der Sequenzierungseinrichtung 803 sequenziert und ein entsprechender Datenstrom 804 in einen Computer 805 eingelesen. Innerhalb des Computers 805 erfolgt dann ein Komprimieren gemäß der oben beschriebenen Vorgehensweise, sodass die komprimierte Information, nämlich die komprimierte Sequenz der DNA 101 auf einer Festplatte 807 gespeichert wird.
Bezugszeichenliste

101: DNA
102: Position
104: Strang
106: Basenpaar
111: Variante
113: Chromosom
115: Position
117: Referenz
119: Abweichung
121: Format
123: Genotyp
125: Probenkennung
127: Datensatz
141: Phasenkennung
211: Variantensatz
221: Datensatz
223: Datensatz
225: Datensatz
231: Probenkennung
232: Probenkennung
301: Genotyp-Matrix
411: Variantensatz
421: Datensatz
423: Datensatz
431: Probenkennung
441: Phasenkennung
501: Genotyp-Matrix
503: Allel-Matrix
505: Phasenmatrix
541: Phasenkennung
601: Ablaufdiagramm
603: Aufteilen
605: Binarisieren
607: Sortieren
609: Entropie-Kodieren
610: Bit-Strom
631: Bit-Ebene
633: Binäre Allel-Matrix
701: Indizieren
703: Komprimieren
801: Datenverarbeitungssystem
803: Sequenzierungseinrichtung
804: Datenstrom
805: Computer
807: Festplatte

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 8972201 B2 [0003]
WO 2013/138604 A1 [0004]
US 7657383 B2 [0005]
US 10090857 B2 [0006]
US 8937564 B2 [0007]
US 8812243 B2 [0008]
US 10198454 B2 [0009]
US 10230390 B2 [0010]
US 9098523 B2 [0011]

Claims

Verfahren zum Komprimieren einer Information (111, 211, 411) einer Erbinformation (101), insbesondere einer genetischen Variation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen (221, 223, 225) vorliegt, mit folgenden Schritten: - Indizieren (701) der Einzelinformationen der Abfolge, wobei der jeweiligen Einzelinformation ein Indikator für eine Position innerhalb der Abfolge zugefügt wird, sodass eine indizierte Abfolge vorliegt, - Komprimieren (703) der jeweiligen Einzelinformation mittels einer Entropiekodierung für eine jeweilige Einzelinformation, sodass jeweils eine komprimierte Einzelinformation vorliegt, sodass die Information aus den jeweiligen komprimierten Einzelinformationen mit geringerem Speicherbedarf dargestellt ist.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Entropiekodierung mittels einer Huffmann-Kodierung, einer arithmetischen Kodierung, der Shannon-Fano-Kodierung, CABAC, JBIG, JBIG2 und/oder der Golomb-Kodierung durchgeführt wird.
Verfahren gemäß Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Information und/oder die jeweilige Einzelinformation in Zeilen, Reihen oder Spalten bereitgestellt wird oder werden, sodass diese insbesondere in einem textbasierten Format und/oder einer Matrix (301) vorliegen.
Verfahren gemäß einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine jeweilige Einzelinformation mehrere Teilinformationen umfasst, wobei die jeweilige Teilinformation insbesondere eine Allel-Information und/oder eine Phasen-Information zur Erbinformation ist oder umfasst, wobei die Einzelinformation und/oder die Teilinformation in einer Matrix dargestellt oder abgelegt ist oder sind.
Verfahren gemäß einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine Binaärisierung der jeweiligen Einzelinformation oder eine Binarisierung der jeweiligen Teilinformation durchgeführt wird, sodass eine binarisierte Einzelinformation oder eine binarisierte Teilinformation vorliegt.
Verfahren gemäß einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass ein Sortieren der Teilinformation, insbesondere in Zeilen, Reihen und/oder Spalten, durchgeführt wird, sodass eine sortierte Teilinformation vorliegt.
Verfahren zum Dekomprimieren einer Information einer Erbinformation, gekennzeichnet, durch ein Durchführen der inversen Schritte eines oder mehrerer der Ansprüche 1 bis 6, sodass die Information einer Erbinformation dekomprimiert vorliegt.
Elektronische Speichereinrichtung zum Speichern einer Information einer Erbinformation, wobei die Information in einer Abfolge aus mehreren Einzelinformationen vorliegt, dadurch gekennzeichnet, dass eine gemäß einem Verfahren nach einem der Ansprüche 1 bis 6 komprimierte Information abgelegt oder gespeichert ist.
Datenverarbeitungssystem zum Verarbeiten einer Information einer Erbinformation, insbesondere einer genetischen Variation, welches zum Durchführen eines Verfahrens gemäß der Ansprüche 1 bis 7 eingerichtet ist.
Datenverarbeitungssystem gemäß Anspruch 9 mit einer elektronische Speichereinrichtung gemäß Anspruch 8.