CN113285720B

CN113285720B - 基因数据无损压缩方法、集成电路及无损压缩设备

Info

Publication number: CN113285720B
Application number: CN202110632382.XA
Authority: CN
Inventors: 谭光明; 刘万奇; 李叶文; 康宁; 孙凝晖
Original assignee: Western Research Institute Of China Science And Technology Computing Technology
Current assignee: Western Research Institute Of China Science And Technology Computing Technology
Priority date: 2021-05-28
Filing date: 2021-06-07
Publication date: 2023-07-07
Anticipated expiration: 2041-06-07
Also published as: CN113285720A

Abstract

本发明涉及数据压缩技术领域，具体涉及一种基因数据无损压缩方法、集成电路及无损压缩设备，所述集成电路及无损压缩设备均采用所述方法，所述方法包括以下步骤：S1、获取基因数据和对应基因数据的实际压缩需求；S2、将基因数据分割为若干数据字段；S3、根据各数据字段的数据特点以及实际压缩需求选择压缩算子，并组合为压缩算法；S4、将各数据字段根据对应的压缩算法进行压缩处理；S5、将各数据字段的压缩结果进行合并。本发明能实现基因数据无损压缩的同时，实现低压缩率和高压缩效率的基因数据压缩。

Description

基因数据无损压缩方法、集成电路及无损压缩设备

技术领域

本发明涉及数据压缩技术领域，具体涉及一种基因数据无损压缩方法、集成电路及无损压缩设备。

背景技术

基因测序技术作为探索生命奥秘的重要手段，已经成为了生物信息学研究的重要分支，在物种鉴别、基因检测、疾病诊断等方面有着广泛的应用，基因测序技术的飞速发展为精准医疗奠定了坚实的基础。

二代测序成本的不断下降，导致基因测序数据爆炸式增长，这种趋势在未来会更加明显。与此同时，相应的基因分析软件运行过程中也会产生海量的中间数据。面对如此海量的基因测序数据和中间数据，使用数据压缩技术来缓解上述数据对硬盘存储空间、网络带宽、以及计算带来的巨大压力，就成为了一个自然的选择。为了保存完整的基因数据信息，通常采用的是无损压缩。无损压缩是指能够在100％保存源文件的所有数据的前提下，将文件的容量空间压缩得更小，再将压缩后的文件还原后，可完全恢复源文件的所有数据而不引起任何失真。

当前基因分析流程中多采用现有的压缩软件(GZIP)进行数据压缩，其缺点之一就是在压缩率和压缩效率方面存在不足，压缩率是指文件压缩后的大小与压缩前的大小之比，例如：把100M的文件压缩后是90M，压缩率为90/100*100％＝90％，压缩率是越小，对硬盘存储空间、网络带宽、以及计算带来的压力也就越小。但是GZIP的压缩率越小时压缩效率越低，即压缩所需要的时间就越长，不好平衡对于压缩率和压缩效率的选择，局限性较大，难以满足日益增长的海量基因数据的压缩需求；其缺点之二是日益增长的海量基因数据在压缩时会加重CPU的负担，影响整个基因分析流程的性能。综上所述，亟需一种更加高性能、低压缩率、高压缩效率的基因数据压缩处理方式。

发明内容

本发明的目的之一在于提供一种基因数据无损压缩方法，能实现基因数据无损压缩的同时，实现低压缩率和高压缩效率的基因数据压缩。

为了达到上述目的，提供了一种基因数据无损压缩方法，包括以下步骤：

S1、将基因数据分割为若干数据字段；

S2、根据各数据字段的数据特点以及实际压缩需求选择压缩算子，并组合为压缩算法；

S3、将各数据字段根据对应的压缩算法进行压缩处理；

S4、将各数据字段的压缩结果进行合并。

原理及优点：

由于基因数据的测序文件少则几G，多则几十G到上百G，采用常规的压缩软件来压缩，这种方式对计算机CPU的负担大，占用的计算资源多，而且压缩方式单一，压缩率和压缩效率也不能很好的兼顾。而本方案将基因数据分割为若干数据字段，经过分割后每个数据字段的大小都得以变小，计算机处理起来更为容易，可以方便通过并行处理来提高压缩效率。再根据各数据字段的数据特点来选择一个或多个压缩算子而组合而成压缩算法，而压缩算法可以得到多种，使得压缩率和压缩效率得到很好的兼顾。再通过实际压缩需求来对多种压缩算法进行筛选，以最终筛选的压缩算法来对各数据字段进行压缩，从而达到最符合要求且兼顾压缩率和压缩效率的效果。

进一步，所述步骤S1中，将基因数据根据数据类型分割，取得对应数据类型的数据字段；所述数据类型包括名字信息、基因序列信息和基因序列信息中碱基对应的质量分数信息。

数据类型的划分，方便针对性地来选择压缩算子并组合为压缩算法，使得数据字段都能够选择合适的压缩算子进行压缩，从而确保压缩率、压缩效率都能得到很好的兼顾。

进一步，所述步骤S2中，所述压缩算子分类存储在算子池中，并列表记录各种类压缩算子的自身特点和适用场景，以及列表记录各压缩算法的自身特点和适用场景，所述自身特点和实际压缩需求均包括压缩率和压缩效率；所述压缩算子包括数据转换类、熵编码类以及一般编码类。

通过列表记录各种类压缩算子的自身特点和适用场景，以及列表记录各压缩算法的自身特点和适用场景，方便根据各数据字段的特点来对照筛选合适的压缩算子的种类，或者直接筛选出具体的压缩算子，从而节省压缩算子筛选时间，以此提高压缩的效率。

压缩算子是压缩算法的基本组成单元，三种类型压缩算子中的每个算子都有其自身的特点和适用的场景，从而使得多个压缩算子组成的压缩算法能够满足实际压缩需求，以适应多种情况。

进一步，所述步骤S2具体包括以下步骤：

S21、从压缩算子和压缩算法中，根据各数据字段的数据特点，和压缩算子或压缩算法的适用场景，选择出数据特点与适用场景相匹配的压缩算法集；

S22、根据实际压缩需求从压缩算法集中选择符合条件的最优压缩算法。

首先根据各数据字段的数据特点来选择一个或多个压缩算子而组合而成压缩算法，以兼顾压缩率和压缩效率，而压缩算法可以得到多种，可得到压缩算法集。再通过实际压缩需求来对压缩算法集中的压缩算法进行筛选，以最终筛选出的压缩算法为最优压缩算法，并以最优压缩算法来对各数据字段进行压缩，从而达到最符合要求且兼顾压缩率和压缩效率的效果。

进一步，所述步骤S4中，各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件的文件头中以存储顺序标明各个数据字段所选择的压缩算法中所包含的压缩算子的组合。

将各数据字段压缩结果以特定的格式存储在同一文件中，方便存储；而在文件头中标明各个数据字段所选择的压缩算法所包含的压缩算子组合，则方便在解压时，能够准确的找到对应的压缩算法进行解压还原数据，充分保证数据的可还原性。

进一步，所述步骤S1中，还包括以下步骤：

S101、将N个数据字段中的每个数据字段分割为M个数据块；

所述步骤S2中，还包括以下步骤：

S201、将压缩算法中的压缩算子并行设置，并设置为M条相同的压缩流水线；每个数据字段分别分配M条相同的压缩流水线；

S202、获取压缩流水线的第一并行度K_N，并根据第一并行度K_N获取第N个数据字段的第二并行度M*K_N。

由于基因数据的测序文件少则几G，多则几十G到上百G，即使将基因数据分割为多个数据字段，但多个数据字段的大小可能仍然很大。本方案通过分为N个数据字段，在字段层次进行了一级并行处理，并行度为N，一定程度提高了压缩效率。再将每个数据字段分割为M个数据块，并为数据字段中每个数据块分配一条相同的压缩流水线，在字段算法层次上进行了二级并行处理，并行度为M，相同时间内处理压缩的能力更强，进一步提高了压缩效率。由于压缩算法由压缩算子组成，在硬件算子层次上进行了三级并行处理，并行度为K_N，又进一步的提高了压缩效率。

进一步，还包括以下步骤：

S5、根据第一并行度K_N和第二并行度M*K_N分析基因数据的压缩性能；

所述步骤S5具体包括以下步骤：

S501、根据第一并行度K_N，获取Min(K_N)；

S502、根据每个数据字段的第二并行度M*K_N，获取基因数据的第三并行度M*N*Min(K_N)；

S503、根据第三并行度M*N*Min(K_N)分析基因数据的压缩性能。

由于数据字段有N个，因此K_N也为N个，其中有大有小，越大K_N越大表示压缩流水线中压缩算子的压缩效率更佳，因此通过第二并行度M*K_N就能了解到各数据字段压缩效率，从而了解各数据字段的压缩快慢，进而可以方便通过各数据字段的压缩快慢来了解基因数据的压缩性能。由于K_N也为N个，其中有大有小，其中K_N越小表示压缩流水线中压缩算子的压缩效率越差，需要花费的时间也就越长，从而影响整个基因数据的压缩效率。因此通过获取Min(K_N)得到第三并行度M*N*Min(K_N)，就能方便的分析基因数据的压缩性能。

进一步，步骤S2中，还包括以下步骤：

S203、根据每个数据字段的第二并行度M*K_N，分析每个数据字段完成压缩的完成时间，并记录完成的同步率；

S204、判断同步率是否符合设定值，若不符合，则调整压缩流水线中的压缩算子或压缩算法的组合，获取压缩流水线的第一并行度K_N’和每个数据字段的第二并行度M*K_N’；

S205、重复执行步骤S203和步骤S204，直至同步率符合设定值。

可通过第二并行度M*K_N了解压缩效率，从而分析每个数据字段完成压缩的完成时间，以及完成的先后顺序。其中K_N越小表示压缩流水线中压缩算子的压缩效率越差，需要花费的时间也就越长，从而影响整个基因数据的压缩效率。若每个K_N都相同，且值越大，说明N个字段数据的压缩都可以同步完成，同步率就高，反之若每个K_N都不相同，且值相差大，说明N个字段数据的压缩不会同步完成，完成有快有慢，完成快的需要等待完成慢的，然后才能合并，因此同步率就低，本方案通过调整第一并行度K_N’，使每个K_N都尽可能相同，且值越大，达到设定值即可，就能让N个字段数据的压缩同步完成，从而提高压缩效率。

本发明的目的之二在于提供一种基因数据无损压缩集成电路，包括：字段分离器、算子池、算子选择器、算子组合器和字段合并器；

字段分离器：用于将输入的基因数据分割为若干数据字段；

算子池：用于存储多种类型的压缩算子；

算子选择器：用于接收各数据字段和对应各个字段的实际压缩需求，并根据各数据字段的数据特点以及实际压缩需求从算子池选择压缩算子；

算子组合器：将选择的压缩算子组合为压缩算法；

字段合并器：将各数据字段根据对应组合好的压缩算法进行压缩处理，并将各数据字段的压缩结果进行合并。

原理及优点：

基因数据无损压缩集成电路采用模块化设计，在集成电路上设计出字段分离器、算子池、算子选择器、算子组合器和字段合并器，可以分别执行各自对应的功能，从而将基因数据压缩的计算由计算机CPU迁移到定制的集成电路硬件上，减轻了计算机CPU的负担，使计算机CPU可以花费更多的资源去运行基因分析流程中的其他程序块，尽可能减小基因数据压缩过程对于整个分析流程性能的影响不至阻塞。达到提高压缩效率的同时，将计算机的计算资源留给基因分析等工程，共同促进基因工程的处理效率。

本发明的目的之三在于提供一种基因数据无损压缩设备，包括基因数据无损压缩集成电路、存储器和处理器，所述处理器获取实际压缩需求，并将存储在存储器中的基因数据，均输入到基因数据无损压缩集成电路中，获取集成电路所得到的压缩合并文件，并存储到存储器中。

所设计的基因数据无损压缩设备采用存储内计算的结构，可以很好地减轻CPU和硬盘之间的I/O开销，使压缩过程可以在存储器完成，尽可能提升性能和能效。

附图说明

图1为本发明实施例基因数据无损压缩方法的流程框图；

图2为基因数据字段分割示意图；

图3为压缩算子池示意图；

图4为基因数据无损压缩集成电路整体结构框图；

图5为一个示例的层次化并行结构框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例

一种基因数据无损压缩方法，基本如附图1所示：包括以下步骤：

S0、获取基因数据和对应基因数据的实际压缩需求；实际压缩需求为用户权衡后基因数据的压缩率和压缩效率。所述数据类型包括名字信息、基因序列信息和基因序列信息中碱基对应的质量分数信息，以及其它信息。

基因数据中的测序文件通常采用FASTQ文件格式存储，每个基因数据测序文件少则几G，多则几十G到上百G。如图2所示的是基因数据FASTQ文件中的局部一段数据，第一和第三行是名字信息，第二行是基因序列信息，保存着GATC碱基的相对位置的基因序列信息，最后一行是基因序列信息中碱基对应的质量分数信息。

S1、将基因数据根据数据类型分割为若干数据字段；所述数据类型包括名字信息、基因序列信息和基因序列信息中碱基对应的质量分数信息，以及其它信息。在本实施例中，如图1所示，第一行和第三行信息基本相同，统一划归为字段1，基因序列信息划为字段2，质量分数信息划为字段3。

S2、根据各数据字段的数据特点以及实际压缩需求从算子池选择压缩算子，并组合为压缩算法；如图3所示，所述算子池中的压缩算子包括数据转换类(游程编码、MTF编码、LZ77、BWT等)、熵编码类(Huffman编码，算术编码等)以及一般编码类(Unary编码，Rice编码等)。所述压缩算子分类存储在算子池中，并列表记录各种类压缩算子的自身特点和适用场景，以及列表记录各压缩算法的自身特点和适用场景。所述自身特点和实际压缩需求均包括压缩率和压缩率，可以在各压缩算法、压缩算子具体使用后进行统计记录在表格中，以方便后续的直接选取调用；例如，可以根据实际压缩需求中的压缩率和压缩效率，直接在表格中进行对照查找即可。所述压缩算法均由算子池中的压缩算子组合而成，每种压缩算法至少包括一个压缩算子。

所述步骤S2具体包括以下步骤：

同一数据字段可以采用不同的压缩算法，但压缩率和压缩效率存在差异，故可以根据各字段的数据特点得到压缩算法集，其包括多种压缩算法和压缩算子。本实施例中，针对图2的基因数据，例如可选的最优压缩算法组合为：字段1用一般编码方式进行编码，注意到各read的名称信息大部分相同，可以将相同的部分用一个短符号代替，其余部分保持不变；字段2用BWT压缩算子加MTF压缩算子组合的方式；字段3用差分编码压缩算子加游程编码压缩算子组合的方式。

S3、将各数据字段根据对应组合好的压缩算法进行压缩处理；

S4、将各数据字段的压缩结果进行合并。各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，且记录各数据字段的压缩结果的存储顺序；并在文件的文件头中以存储顺序标明各个数据字段所选择的压缩算法中所包含的压缩算子的组合。经过上述过程，输入的基因数据在算法层面就被压缩完成并且输出了。

如图4所示，基因数据无损压缩集成电路，包括模块化硬件设置的：字段分离器、算子池、算子选择器、算子组合器和字段合并器；

字段分离器：用于将输入的基因数据分割为若干数据字段；

算子池：用于存储多种类型的压缩算子；所述算子池中的压缩算子均为可配置的硬件库的形式。

算子组合器：将选择的压缩算子组合为压缩算法；

字段合并器：将各数据字段根据对应组合好的压缩算法进行压缩处理，并将各数据字段的压缩结果进行合并。各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件头中标明各个数据字段所选择的压缩算法所包含的压缩算子组合。

基因数据无损压缩设备，包括基因数据无损压缩集成电路、存储器和处理器，所述处理器获取实际压缩需求，并将存储在存储器中的基因数据，均输入到基因数据无损压缩集成电路中，获取压缩合并文件，并存储到存储器中。

实施例二

实施例二与实施例一的区别在于，如图5所示，所述步骤S1中，还包括以下步骤：

S101、将N个数据字段中的每个数据字段分割为M个数据块；其中N为字段层次上的一级并行设计，M为字段算法层次上的二级并行设计。N的大小由基因数据的复杂和丰富程度决定，M的大小由硬件资源和压缩效果所限制。

所述步骤S2中，还包括以下步骤：

S201、将压缩算法中的压缩算子并行设置，并设置为M条相同的压缩流水线；每个数据字段分别分配M条相同的压缩流水线；压缩流水线包括若干压缩算法，所述压缩算法由若干压缩算子组合而成。

S202、获取压缩流水线中压缩算子的第一并行度K_N，并根据第一并行度K_N获取第N个数据字段的第二并行度M*K_N。压缩流水线中压缩算子的组合不同，第一并行度K_N也有所不同，第一并行度K_N是算子层次上的并行度。

S205、重复执行步骤S203和步骤S204，直至同步率符合设定值。

S5、根据第一并行度K_N和第二并行度M*K_N分析基因数据的压缩性能。

所述步骤S5具体包括以下步骤：

S501、根据第一并行度K_N，获取Min(K_N)；

S503、根据第三并行度M*N*Min(K_N)分析基因数据的压缩性能。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基因数据无损压缩方法，其特征在于，包括以下步骤：

S1、将基因数据分割为若干数据字段；所述步骤S1中，将基因数据根据数据类型分割，取得对应数据类型的数据字段；所述数据类型包括名字信息、基因序列信息和基因序列信息中碱基对应的质量分数信息；

S2、根据各数据字段的数据特点以及实际压缩需求选择压缩算子，并组合为压缩算法；所述步骤S2中，所述压缩算子分类存储在算子池中，并列表记录各种类压缩算子的自身特点和适用场景，以及列表记录各压缩算法的自身特点和适用场景，所述自身特点和实际压缩需求均包括压缩率和压缩效率；所述压缩算子的类型包括数据转换类、熵编码类以及其他无损一般编码类；所述步骤S2具体包括以下步骤：

S22、根据实际压缩需求从压缩算法集中选择符合条件的最优压缩算法；

S3、将各数据字段根据对应的压缩算法进行压缩处理；

S4、将各数据字段的压缩结果进行合并；所述步骤S4中，各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件的文件头中以存储顺序标明各个数据字段所选择的压缩算法中所包含的压缩算子的组合；

所述步骤S1中，还包括以下步骤：

S101、将N个数据字段中的每个数据字段分割为M个数据块；

所述步骤S2中，还包括以下步骤：

S202、获取压缩流水线的第一并行度K_N，并根据第一并行度K_N获取第N个数据字段的第二并行度M*K_N；

S205、重复执行步骤S203和步骤S204，直至同步率符合设定值；

所述步骤S5具体包括以下步骤：

S501、根据第一并行度K_N，获取Min(K_N)；

S503、根据第三并行度M*N*Min(K_N)分析基因数据的压缩性能。

2.基因数据无损压缩集成电路，其特征在于，运用了如权利要求1所述的基因数据无损压缩方法，其结构包括：字段分离器、算子池、算子选择器、算子组合器和字段合并器；

字段分离器：用于将输入的基因数据分割为若干数据字段；

算子池：用于存储多种类型的压缩算子；

算子组合器：将选择的压缩算子组合为压缩算法；

3.基因数据无损压缩设备，其特征在于，包括基因数据无损压缩集成电路、存储器和内存控制器，所述内存控制器获取实际压缩需求，并将存储在存储器中的基因数据，均输入到基因数据无损压缩集成电路中，获取根据权利要求2所述的集成电路所得到的压缩合并文件，并存储到存储器中。