CN107851137A - 用于压缩基因组数据的方法 - Google Patents

用于压缩基因组数据的方法 Download PDF

Info

Publication number
CN107851137A
CN107851137A CN201680042184.5A CN201680042184A CN107851137A CN 107851137 A CN107851137 A CN 107851137A CN 201680042184 A CN201680042184 A CN 201680042184A CN 107851137 A CN107851137 A CN 107851137A
Authority
CN
China
Prior art keywords
read
quality score
difference
current
nucleotide sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680042184.5A
Other languages
English (en)
Inventor
M·曼德龙
J·福格斯
J·奥斯特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leibniz Universitaet Hannover
Original Assignee
Leibniz Universitaet Hannover
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leibniz Universitaet Hannover filed Critical Leibniz Universitaet Hannover
Publication of CN107851137A publication Critical patent/CN107851137A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种用于压缩基因组数据的方法,其中基因组数据被存储在包含由基因组测序方法构建的至少多个读段的至少一个数据文件中,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分,该方法包括步骤;‑通过使用当前读段的映射位置和CIGAR字符串来展开数据文件之一的当前读段的核苷酸序列,其中当前读段具有至少一个先前读段;‑计算所述当前读段的展开的核苷酸序列与至少一个先前读段的展开的核苷酸序列之间的差值,其中差值包含映射位置的差值和核苷酸序列的差值;‑将计算出的差值传递给熵编码器以压缩所述差值;‑通过所压缩的差值对当前读段编码,以及‑将当前读段作为先前读段之一并且将下一个读段作为新的当前读段重复上述步骤,直到不再有下一个读段可用为止。

Description

用于压缩基因组数据的方法
技术领域
本发明涉及一种用于压缩基因组数据的方法,其中基因组数据被存储在至少一个数据文件中,该至少一个数据文件包含由基因组测序方法构建的至少多个映射的和/或比对的读段,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分。
背景技术
由于新型高能量测序(HTS)和/或新一代测序(NGS)技术,对大量遗传信息的测序已经变得可以承受。由于这种大量的数据,与测序成本相比,IT成本可能成为一个主要障碍。需要基因组数据的高性能压缩以降低存储大小和传输成本。
在这样的数据文件中,除了其他数据外,还存储核苷酸序列、映射位置、比对信息(CIGAR字符串)和质量得分。例如在Li等人的“The Sequence Alignment/Map format andSAMtools”,生物信息学,25(16),2078-9,(2009)中描述了这种结构。作为预处理步骤,可以根据基因组测序方法产生的原始核苷酸序列和质量评分来计算映射位置和比对信息。
旨在用于存储这种映射和/或比对读段的一种文件格式是序列比对/映射格式(SAM)。映射的和/或比对的测序数据包含比原始核苷酸序列和质量评分更多的冗余,因为通常多个读段映射到供体基因组上的相同位置。
在本专利申请中,读段包括映射位置、比对信息(表示为“CIGAR字符串”)和实际测序的核苷酸序列,其中多个读段被存储在至少一个适当的文件中。
在本专利申请中,鉴于供体基因组或用于比对的参考基因组,映射位置涉及相应读段的实际测序的核苷酸序列的起点或开端。
在本专利申请中,CIGAR字符串(比对信息)对相应读段的实际测序的核苷酸序列与用于比对的供体基因组或参考基因组的核苷酸序列之间相似性和相异性进行编码。
在Ziv等人的“A universal algorithm for sequential data compression”《IEEE信息论汇刊》,23(3),337-343,(1977)中已获知压缩数据的通用方法。此外,Tembe等人:“G-SQZ:compact encoding of genomic sequence and quality data”,生物信息学,26(17),2192-4,(2010)和Deorowicz等人:“Compression of DNA sequence reads inFASTQ format”,生物信息学,27(6),860-2,(2011)已经表明将数据分成单独的序列读段流,质量得分流等等(并且独立地压缩它们)在通用的方法上产生显著收获。
发明内容
本发明的一个方面是提供一种用于压缩映射的和/或比对的基因组数据的更好的压缩方法。本发明的另一方面是提供一种对这种被压缩的基因组数据进行解压缩的解压缩方法。
该问题通过根据权利要求1所述的方法来解决。
根据权利要求1,提出了一种用于压缩基因组数据的方法。基因组数据被存储在适当的数据文件(或多份文件)中,例如在SAM文件中,并且包括通过基因组测序方法构建的至少多个读段。每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分。
此外,通过使用所述当前读段的映射位置和CIGAR字符串来展开所映射的测序数据文件的当前读段的核苷酸序列。通常,展开核苷酸序列由如通过CIGAR字符串描述的一系列插入、删除和修改操作组成。因此,展开序列就是将位置、CIGAR字符串和核苷酸序列缩合为联合代表性码字。所述当前读段具有至少一个先前读段,除了当前读段是第一读段之外。通常地,读段在数据文件中逐行绘制,一个读段由数据文件中的实线表示。
此外,计算所述当前读段的展开的核苷酸序列与至少一个所述先前读段的展开的核苷酸序列之间的差值。先前一个或多个读段的核苷酸序列可以在压缩之前或压缩过程中展开。
两个展开的核苷酸序列之间的差值包含映射位置的差值和核苷酸序列的差值。核苷酸序列之间的差值的计算是现有技术并且是公知的。
此外,所计算的差值被传递给熵编码器以压缩所述差值,其中当前读段由压缩的差值编码(例如替换)以用于例如作为比特流存储或传输。这样的熵编码器可能是一批熵编码器。此外,在将所计算的差值传递给熵编码器之前,将该差值传递给一个或多个预测模块,然后将输出传递给熵编码器。
在这些之后,重复这些步骤,其中将所述当前读段作为所述先前读段之一,并且将下一个读段,特别是在一个或多个数据文件的下一行中的连续的下一个读段作为新的当前读段,直到在文件中不再有可用的读段为止。
这种方法一般用于数据文件中的第二读段到最后一个读段。对于第一读段的特殊情况(因为其没有先前读段),存在参考读段(先前读段)的开始和选择的变化。
所提出的压缩方法使用可以实现为滑动窗口(具有关于当前读段的一个或多个先前读段)的任意大小的短时存储器以执行局部隐式组装。本发明方法不需要参考基因组来压缩基因组数据。本发明方法通过在短时存储器中(仅)使用当前可用的核苷酸序列来执行压缩。这个短时的存储器可以在任何时候重新初始化,使得能够对压缩数据的任何部分进行非顺序的(即,随机的)访问,而不需要对前面的压缩数据解码。
本发明的方法基于连续读段之间的相关性。由于SAM文件中的所有读段都与它们的映射位置对齐,因此映射到相同位置的所有读段(核苷酸序列)应该是相似的,除了基因突变(SNP)或测序错误,相应地映射错误之外。这些畸变用CIGAR字符串编码。所提出的方法利用映射位置、CIGAR字符串和序列读段本身的联合编码来按块位对序列读段进行编码,而块大小可以是固定的或可变的并且具有任意大小。块中的第一序列读段以及相应的映射位置和CIGAR字符串可以被编码而不用预测。但是,也可能是针对某些任意参考读段而编码。
优选地,所述计算的差值被传递给所述熵编码器以用于所述差值的无损压缩。
在优选实施例中,所述当前读段具有多个连续的先前读段,使得多于一个的先前读段被用于计算差值。因此,计算所述当前读段的展开的核苷酸序列和至少两个所述连续的先前读段的展开的核苷酸序列之间的差值,其中从计算的多个差值中选择一个差值。所选择的差值指示所述当前读段的展开的核苷酸序列与所述对应的先前读段的展开的核苷酸序列之间的最小差值或区别。未比对的序列读段可以直接被传递给熵编码器,或者保留并且稍后(例如在每个块的末尾处)被单独编码。匹配的读段(关于所选择的差值)可能是在解码器处发信号通知或估计。所选择的差值被传递给熵编码器以压缩所述差值。
当前的读段通过压缩的差值进行编码(例如,替换),所述压缩的差值包括先前读段的标识,所计算的对应的核苷酸序列之间的差值基于该先前读段的标识。因此,解码器可以基于所计算的差值和先前读段的标识来对当前读段的核苷酸序列进行解码。该标识可以是某个位置或文件内的某个行号。
在进一步的实施例中,如果存在固定数量的连续先前读段,则连续先前读段的数目是大于2的固定数目。在实践中,先前读段的数目可以是100。如果差值被压缩并且当前读段被编码,则当前读段作为最新的读段被添加到固定数目的先前读段中,并且从固定数目的先前读段中删除最早的读段。因此,可以实现通过数据文件的所有读段的逐行滑动窗口。
在另一个实施例中,连续的先前读段的数目是可变的。
在另一个实施例中,对于每个计算的差值,计算作为任意度量的距离,尤其是作为任意度量的距离的熵。在选择步骤中选择具有最小距离的距离,例如最小熵。
在另一实施例中,通过构建所述连续先前读段的展开的核苷酸序列中的每个展开的核苷酸的共有序列,基于连续先前读段的展开的核苷酸序列来计算共有展开的核苷酸序列。所述共有读段被用作先前读段,以用于计算所述当前读段和所述共有读段之间的差值以作为先前读段。
如果当前读段没有先前读段,则计算所述当前读段的展开的核苷酸序列与已映射测序数据的任意读段(选择或计算为共有读段)的展开的核苷酸序列之间的差值以作为先前读段。
在另一实施例中,如果当前读段没有先前读段,则将当前读段的映射位置、CIGAR字符串和实际核苷酸序列(直接)传递给熵编码器以压缩读段,并且通过所述压缩读段对所述当前读段进行编码(例如,替换)。
在另一实施例中,所述数据文件(例如,SAM文件)中的至少一个包含多个读段以及多个对应的质量得分。读段的每个核苷酸序列的质量得分值作为质量得分线包含在一个文件中,其中在一个文件中包含多个质量得分线。质量得分线的质量得分值评估对应读段的相应核苷酸的测序质量。
为了压缩质量得分,预测当前质量得分线内的当前位置处的针对实际质量得分值的预测质量得分值。对预测质量得分值的预测通过如下方式进行:由预测器或预测器模块基于当前质量得分线内的当前位置和同一当前位置处的先前质量得分线的一个或多个质量得分值来评估多个连续的先前质量得分值。
此外,计算当前位置处的所述预测质量得分值与实际质量得分值之间的差值,并且将其传递给熵编码器。此外,例如通过使用当前质量得分线中的下一个位置,对当前质量得分线中的每个实际质量得分值重复预测预测质量得分值的步骤和计算差值的步骤。如果预测了当前质量得分线的所有质量得分值,并且针对每个值计算了差值,则由包括所述当前质量得分线的差值的压缩的所述熵编码器(或多个熵编码器)的输出对当前质量得分线进行编码(例如,替换)。基于一个当前质量得分线的所有差值,由熵编码器计算质量得分线的压缩。
此外,用下一个质量得分线重复这些步骤,直到不再有质量得分线可用为止。
作为在解码处理期间构建预测存储器的替代方案,提出了将(在压缩期间生成的)预测表存储在例如文件头中以替代地或组合地加速压缩的可能性。然后可以分别对各个块的预测表进行编码。这通过为解码器提供完全训练的预测存储器或其部分(由编码器处的全部输入数据构建而成)来保持预测模型(例如马尔可夫模型)的压缩性能,从而实现对压缩数据的非连续(即随机)访问,然后可以从解码过程开始直接使用该解码器。
由于质量得分的大字母(典型地大约30个符号,理论上可能还有更多),模型的标记被限制在一些低阶N(通常N<3)。作为替代方案,FIR滤波器用于预测当前符号。
在另一实施例中,用于计算所述预测质量得分值的线性预测器被用来评估用预测器系数加权的先前质量得分值的线性系列。
计算预测器系数的一种可能的方法是最小化均方误差,其产生以下条件来计算滤波器系数。
因此,获得质量得分线的一组预测器系数。预测器系数集可以在多个质量得分线之间共享。
作为所述最小均方误差滤波的替代方案,可以使用任何其他已知方法(例如,用最小方差预测)来计算预测器系数。
在另一实施例中,所述当前质量得分线具有多个先前质量得分线,其中计算所述多个先前质量得分线中的每个先前质量得分线(或其一部分)的识别向量,并且一旦基于识别矢量距离从所述多个先前质量得分线中选择了特定质量得分线(例如,该质量得分线具有最小识别矢量距离)。所述选择的特定质量得分线在预测步骤中被用作先前质量得分线。
已经观察到,在一些数据集中,随后的质量得分线在质量得分线对之间的小Levensthein距离方面是相似的。为了响应这一点,使用所谓的行上下文,该结构保持来自至少一个文件的质量得分线的一些先前行。预测上下文被划分为包含当前行上的存储器(行内存储器)位置的一个部分和包含来自行上下文的特定行上的存储器(行间存储器)位置的一个部分。得出行上下文中的每个质量得分线(或其部分)的识别矢量。作为一个示例,这可以是三维矢量,其包含例如质量得分线的长度、平均值和方差。在对当前质量得分线进行编码的过程中,从行上下文中选择一个具有最小识别矢量距离的特定质量得分线,而任何已知的矢量距离测量可能例如结合三维或欧几里德(Euclidean)距离来应用。矢量分量可能是单独加权的。
此外,本发明的一个方面是对由上述方法之一压缩的基因组数据进行解压缩。通过应用所述当前读段的解压缩差值以重构所述当前读段的核苷酸序列、CIGAR字符串和映射位置,从至少一个先前读段重构每个当前读段。如果压缩(编码)算法是已知的,则解压缩(解码)算法也是已知的并且可以直接从压缩算法中导出。
据此,压缩的质量得分可以被解压缩。
附图说明
参考以下附图更详细地描述本发明:
图1-所提出的用于压缩算法的序列的可能的编码器结构;
图2-预测编码器的布局。
具体实施方式
图1显示了所提出的序列压缩算法的可能的编码器结构。当前读段i>1应该被压缩。读段i具有CIGARi字符串、posi和作为核苷酸序列的seqi。读段i的这三个数据参数被传递给扩展模块1。
扩展模块通过使用映射位置posi和CIGAR字符串CIGARi展开当前读段i的核苷酸序列seqi。扩展模块的结果是联合序列expi
expi代码字被传递到环形缓冲器2。环形缓冲器2是后进后出容器,尤其是大小可修改且可变的容器,因而记住N个先前扩展读段。将每个扩展读段expj,1≤j<i与当前展开的核苷酸序列expi进行比较,以使用差值模块3计算当前读段的展开的核苷酸序列expi与先前读段的展开的核苷酸序列expj之间的差值。计算的差值连同所比较的核苷酸序列之间的最小差值被用于压缩相应的读段。Di被传递给熵编码器4以将当前读段i压缩为最适合的先前读段的差值。
下面显示了伪代码中可能的算法实现。
下面给出了函数“expand”的简短工作原理。
压缩质量得分线的预测编码器的基本布局如图2所示。由预测器使用的存储器从当前位置之前的行中的质量得分线值qn和从相同位置处的其它质量得分行中的质量得分线值导出。因此,在多行之间共享先前计算的预测器系数可能是有益的。
其基本思想是将相同质量得分线中的先前质量得分值和先前质量得分线的质量得分值用于预测当前质量得分值。
行i是当前质量得分线。粗体/斜体是要预测的当前位置处的预测质量得分值。行是特定质量得分线,粗体是预测器的质量得分值中的一个。当前行i中的2个粗体是预测器用来预测预测质量分值的粗体/斜体的其它质量得分值。

Claims (16)

1.一种用于压缩基因组数据的方法,其中,所述基因组数据存储在至少一个数据文件中,所述至少一个数据文件包含通过基因组测序方法构建的至少多个读段,其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分,所述方法包括如下步骤:
-通过使用所述当前读段的映射位置和CIGAR字符串来展开所述数据文件之一的当前读段的核苷酸序列,其中所述当前读段具有至少一个先前读段,
-计算所述当前读段的展开的核苷酸序列与至少一个所述先前读段的展开的核苷酸序列之间的差值,其中所述差值包含映射位置的差值和核苷酸序列的差值,
-将所述计算出的差值传递给熵编码器以压缩所述差值,
-通过所压缩的差值对所述当前读段编码,以及
-将所述当前读段作为所述先前读段之一并且将下一个读段作为新的当前读段重复上述步骤,直到不再有下一个读段可用为止。
2.根据权利要求1所述的方法,其中,所述计算出的差值被传递给所述熵编码器以用于对所述差值的无损压缩。
3.根据权利要求1或2所述的方法,其中,所述当前读段具有多个连续的先前读段,所述方法包括如下步骤:
-计算所述当前读段的展开的核苷酸序列与至少两个所述先前读段的展开的核苷酸序列之间的差值,
-从所述计算出的差值中选择指示所述当前读段的展开的核苷酸序列和所述对应的先前读段的展开的核苷酸序列之间的最小差值的差值,以及
-将所述选择的差值传递给所述熵编码器以压缩所述选择的差值。
4.根据权利要求3所述的方法,其中,如果存在固定数目的连续的先前读段,则所述连续的先前读段的数目是大于1的固定数目,其中所述当前读段作为最新的读段被添加到所述固定数目的先前读段且最旧的读段从所述固定数目的先前读段中删除。
5.根据权利要求3所述的方法,其中,连续的先前读段的数目是可变的。
6.根据权利要求3至5中任一项所述的方法,其中,针对每个计算出的差值计算作为任意度量的距离,特别是作为任意度量的距离的熵,其中在选择差值的步骤中选择具有最小距离的差值。
7.根据上述权利要求中的任一项所述的方法,其中,通过构建所述连续的先前读段的展开的核苷酸序列中的每个展开的核苷酸的共有序列,基于连续的先前读段的展开的核苷酸序列计算共有展开的核苷酸序列,其中所述共有读段用作先前读段以用于计算所述差值。
8.根据权利要求1至8中任一项所述的方法,其中,对于没有先前读段的当前读段,计算所述当前读段的展开的核苷酸序列与已映射的测序数据的任意读段的展开的核苷酸序列之间的差值以作为先前读段。
9.根据权利要求1至8中任一项所述的方法,其中,对于没有先前读段的当前读段,将所述当前读段的映射位置、CIGAR字符串和实际核苷酸序列直接传递给熵编码器以压缩所述读段,并且用所述被压缩的读段代替所述当前读段。
10.根据前述权利要求中任一权利要求所述的方法,其特征在于,至少一个所述数据文件包含多个质量得分线,其中每个质量得分线包括多个质量得分值,所述质量得分值评估读段的核苷酸序列的相应核苷酸的测序质量,所述方法包括用于压缩所述质量得分的如下步骤:
-通过由预测器在相同的当前位置处评估所述当前质量得分线的多个连续的先前质量得分值和先前质量得分线的一个或多个质量得分值来预测当前质量得分线内的当前位置处的针对实际质量得分值的预测质量得分值,
-计算所述当前位置处的所述预测质量得分值与实际质量得分值之间的差值,并且将计算出的差值传递给熵编码器,
-对所述当前质量得分线的每个实际质量得分值重复上述预测步骤和计算步骤,
-用包括所述当前质量得分线的所有压缩差的所述熵编码器的输出替换所述当前质量得分线,
-对接下来的质量得分线重复上述所有步骤,直至不再有质量得分线可用为止。
11.根据权利要求8所述的方法,其中,所述预测器是线性预测器以用于通过评估用预测器系数加权的先前质量得分值的线性系列来计算所述预测质量得分值。
12.根据权利要求8或9所述的方法,其中,所述当前质量得分线具有多个先前质量得分线,其中计算所述多个先前质量得分线的每个先前质量得分线或其一部分的识别矢量,从所述多个先前质量得分线中选择一个具有最小识别矢量距离的特定质量得分线,其中在所述预测步骤中将所述选择的特定质量得分线用作先前质量得分线。
13.根据权利要求10所述的方法,其中,所述识别矢量可以是包含质量得分线的长度、质量得分线的算术平均值和/或质量得分线的方差的三维矢量。
14.一种用于解压缩被压缩的基因组数据的方法,其中,所述被压缩的基因组数据是通过根据前述权利要求之一的方法来压缩的,其中通过应用所述当前读段的解压缩差值来重构所述当前读段的核苷酸序列、CIGAR字符串和映射位置,由至少一个所述先前读段来重构每个当前读段。
15.一种计算机程序,如果所述计算机程序在计算机上运行时,其被布置为执行根据权利要求1至13中任一项所述的压缩方法和/或被布置为执行根据权利要求14所述的解压缩方法。
16.一种硬件装置,其被布置为执行根据权利要求1至13中任一项所述的压缩方法,和/或被布置为执行根据权利要求14所述的解压缩方法。
CN201680042184.5A 2015-06-16 2016-06-16 用于压缩基因组数据的方法 Pending CN107851137A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562180146P 2015-06-16 2015-06-16
US62/180,146 2015-06-16
PCT/EP2016/063875 WO2016202918A1 (en) 2015-06-16 2016-06-16 Method for compressing genomic data

Publications (1)

Publication Number Publication Date
CN107851137A true CN107851137A (zh) 2018-03-27

Family

ID=56194465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680042184.5A Pending CN107851137A (zh) 2015-06-16 2016-06-16 用于压缩基因组数据的方法

Country Status (4)

Country Link
US (1) US20180181706A1 (zh)
EP (1) EP3311318B1 (zh)
CN (1) CN107851137A (zh)
WO (1) WO2016202918A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674094A (zh) * 2019-08-26 2020-01-10 人和未来生物科技(长沙)有限公司 Sam及bam文件的无参考序列压缩及解压还原方法、系统和介质
WO2020248488A1 (zh) * 2019-06-11 2020-12-17 苏州泓迅生物科技股份有限公司 一种图像存储方法、读取方法、存储装置和读取装置
CN115987294A (zh) * 2023-03-17 2023-04-18 北京悦知未来科技有限公司 一种物联网的多维数据处理方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016202918A1 (en) 2015-06-16 2016-12-22 Gottfried Wilhelm Leibniz Universität Hannover Method for compressing genomic data
CN110168651A (zh) * 2016-10-11 2019-08-23 基因组系统公司 用于选择性访问存储的或传输的生物信息数据的方法和系统
CN110663022B (zh) * 2016-10-11 2024-03-15 耶诺姆希斯股份公司 使用基因组描述符紧凑表示生物信息学数据的方法和设备
WO2019012153A1 (en) * 2017-07-14 2019-01-17 Gottfried Wilhelm Leibniz Universität Hannover METHOD FOR ENCODING AND DECODING QUALITY VALUES OF A DATA STRUCTURE
CN111640467B (zh) * 2020-05-25 2023-03-24 西安电子科技大学 基于自适应编码顺序的dna测序质量分数无损压缩方法
WO2022125754A1 (en) * 2020-12-10 2022-06-16 The Regents Of The University Of California Computational method and system for compression of genetic information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204851A1 (en) * 2011-12-05 2013-08-08 Samsung Electronics Co., Ltd. Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (ngs)
CN103546162A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法
CN103582871A (zh) * 2011-05-03 2014-02-12 高通股份有限公司 用于内嵌在存储器层级内的经熵编码软件的存储和翻译的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2460111B1 (en) * 2009-12-23 2018-10-31 Industrial Technology Research Institute Method and apparatus for compressing nucleotide sequence data
WO2016202918A1 (en) 2015-06-16 2016-12-22 Gottfried Wilhelm Leibniz Universität Hannover Method for compressing genomic data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103582871A (zh) * 2011-05-03 2014-02-12 高通股份有限公司 用于内嵌在存储器层级内的经熵编码软件的存储和翻译的方法和设备
US20130204851A1 (en) * 2011-12-05 2013-08-08 Samsung Electronics Co., Ltd. Method and apparatus for compressing and decompressing genetic information obtained by using next generation sequencing (ngs)
CN103546162A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DANIEL C.JONES 等: "Compression of next-generation sequencing reads aided by highly efficient de novo assembly", 《NUCLEIC ACIDS RESEARCH》 *
FARAZ HACH 等: "DeeZ:reference-based compression by local assembly", 《NATURE METHODS》 *
FRANS M. J. WILLEMS 等: "The Context-Tree Weighting Method: Basic Properties", 《IEEE TRANSACTIONS ON INFORMATION THEORY》 *
JACOB ZIV 等: "A Universal Algorithm for Sequential Data Compression", 《IEEE TRANSACTIONS ON INFORMATION THEORY》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020248488A1 (zh) * 2019-06-11 2020-12-17 苏州泓迅生物科技股份有限公司 一种图像存储方法、读取方法、存储装置和读取装置
CN110674094A (zh) * 2019-08-26 2020-01-10 人和未来生物科技(长沙)有限公司 Sam及bam文件的无参考序列压缩及解压还原方法、系统和介质
CN110674094B (zh) * 2019-08-26 2022-03-15 人和未来生物科技(长沙)有限公司 Sam及bam文件的无参考序列压缩及解压还原方法、系统和介质
CN115987294A (zh) * 2023-03-17 2023-04-18 北京悦知未来科技有限公司 一种物联网的多维数据处理方法

Also Published As

Publication number Publication date
EP3311318B1 (en) 2023-09-27
WO2016202918A1 (en) 2016-12-22
US20180181706A1 (en) 2018-06-28
EP3311318A1 (en) 2018-04-25

Similar Documents

Publication Publication Date Title
CN107851137A (zh) 用于压缩基因组数据的方法
Benoit et al. Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph
US7864083B2 (en) Efficient data compression and decompression of numeric sequences
CN103995988A (zh) 一种高通量dna测序质量分数无损压缩系统及压缩方法
CN110021369A (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN103546160A (zh) 基于多参考序列的基因序列分级压缩方法
US8134483B2 (en) Data processing apparatus and method
WO2019076177A1 (zh) 基因测序数据压缩预处理、压缩、解压方法、系统及计算机可读介质
Cheng et al. Group SELFIES: a robust fragment-based molecular string representation
CN109450452A (zh) 一种针对基因数据的取样字典树索引的压缩方法和系统
US8515882B2 (en) Efficient storage of individuals for optimization simulation
CN113328755A (zh) 一种面向边缘计算的压缩数据传输方法
CN110021368B (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
JP2012134858A (ja) データ圧縮装置及びデータ圧縮方法及びデータ圧縮プログラム
Voges et al. Predictive coding of aligned next-generation sequencing data
Long et al. GeneComp, a new reference-based compressor for SAM files
Eric et al. An optimal seed based compression algorithm for DNA sequences
CN103326731B (zh) 一种基于分布式算术编码的隐马尔科夫相关信源编码方法
CN110915140B (zh) 用于编码和解码数据结构的质量值的方法
US20230053844A1 (en) Improved Quality Value Compression Framework in Aligned Sequencing Data Based on Novel Contexts
CN101173962A (zh) 针对示波器的波形压缩方法
JP4093200B2 (ja) データ圧縮方法及びプログラムならびにデータ復元方法及び装置
CN104025080B (zh) 对照控制程序、对照控制装置以及对照控制方法
CN110168650A (zh) 用于编码和解码数据结构的质量值的方法
CN109698704B (zh) 比对型基因测序数据解压方法、系统及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180327