CN117316301B

CN117316301B - 一种基因检测数据智能压缩处理方法

Info

Publication number: CN117316301B
Application number: CN202311558655.6A
Authority: CN
Inventors: 赵奇; 刘娇娇
Original assignee: Beihua University
Current assignee: Beihua University
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-03-05
Anticipated expiration: 2043-11-22
Also published as: CN117316301A

Abstract

本发明涉及基因检测数据处理技术领域，具体涉及一种基因检测数据智能压缩处理方法。方法包括：获取碱基质量分数序列；对碱基质量分数序列中的数据进行划分获得数据段以及数据段对应的子段；根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数；根据每个数据段对应的所有子段的离散系数的差异、每个子段内所有数据的差异，确定每个数据段对应的一致指数；根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数；基于一致指数和差异指数确定每个数据段对应的最优窗口长度，进而对碱基质量分数数据进行压缩。本发明提高了基因检测数据的压缩效率。

Description

一种基因检测数据智能压缩处理方法

技术领域

本发明涉及基因检测数据处理技术领域，具体涉及一种基因检测数据智能压缩处理方法。

背景技术

基因检测是指对个体基因组的某些部分或全部进行测序、分析和解读，以识别可能存在的基因突变、变异，了解人体的遗传风险、疾病易感性以及其他与基因相关的特征，为临床诊断和治疗提供依据。基因测序得到的FASTQ文件中的碱基序列承载了生物体的遗传信息，这些信息指导细胞如何合成蛋白质，控制了细胞的发育、功能和行为，同时每个碱基数据在FASTQ文件中都伴随着一个质量分数值，用于表示所得碱基数据的可靠程度，这些数据对于判断测序结果的可靠性以及后续的基因检测处理非常重要。每次基因检测都将产生海量的碱基数据和对应的质量分数数据，因此对其进行智能压缩处理是很有必要的。

基因检测数据与其他待压缩数据有所区别，基因检测数据蕴含着大量生物学信息，需对其进行无损压缩。常见的无损压缩算法，如LZ77数据压缩算法实现简单、适用性较强，但是算法窗口大小设置的不合理会对数据压缩效率造成较大影响，使得基因检测数据的压缩效率较低。

发明内容

为了解决现有方法在对基因检测数据进行压缩时算法窗口设置的不合理会使得基因检测数据的压缩效率较低的问题，本发明的目的在于提供一种基因检测数据智能压缩处理方法，所采用的技术方案具体如下：

本发明提供了一种基因检测数据智能压缩处理方法，该方法包括以下步骤：

获取待压缩基因的碱基质量分数序列；

对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段；基于每个数据段内数据的波动情况，分别对每个数据段进行划分获得每个数据段对应的子段；根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数；根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，确定每个数据段对应的一致指数；

根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数；基于所述一致指数和所述差异指数，确定每个数据段对应的窗口长度校正系数；基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度；

基于所述最优窗口长度，采用LZ77压缩算法对所有碱基质量分数数据进行压缩。

优选的，所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段，包括：

将所述碱基质量分数序列中所有数据按照前后顺序排序获取每个数据的序号，将所述序号作为横坐标，将对应的数据值作为纵坐标，获得各数据点；

采用DBSCAN聚类算法对所有数据点进行聚类，获得不少于两个聚类簇；将同一聚类簇内的数据点对应的数据作为同一数据段内的数据。

优选的，基于每个数据段内数据的波动情况，分别对每个数据段进行划分获得每个数据段对应的子段，包括：

对所有数据点进行曲线拟合获得目标曲线；

在所述目标曲线上，获取每个数据段内的极值点；将所述极值点作为划分点，对每个数据段内的数据进行划分，获得每个数据段对应的子段。

优选的，所述根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数，包括：

对于第i个数据段对应的第j个子段：

将第j个子段内所有种数据值出现的频次的平均值记为第一平均值；将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果，记为第j个子段内每种数据值对应的频次特征值；将第j个子段内所有种数据值对应的频次特征值的均值，确定为第j个子段的数据分布指标；

根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标，计算第j个子段的离散系数。

优选的，采用如下公式计算第i个数据段对应的第j个子段的离散系数：

其中，为第i个数据段对应的第j个子段的离散系数，/>为第i个数据段对应的第j个子段内的第/>个数据值，/>为第i个数据段对应的第j个子段内的第/>个数据值，/>为第i个数据段对应的第j个子段内的数据的数量，/>为第i个数据段对应的第j个子段的数据分布指标，/>为第i个数据段对应的第j个子段的最大数据值，/>为第i个数据段对应的第j个子段的最小数据值，e为自然常数。

优选的，所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，确定每个数据段对应的一致指数，包括：

对于第i个数据段：

对于第i个数据段对应的第j个子段：将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值，作为第j个子段的偏差指数；

根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵，计算第i个数据段对应的一致指数。

优选的，采用如下公式计算第i个数据段对应的一致指数：

其中，为第i个数据段对应的一致指数，/>为第i个数据段对应的子段的数量，为第i个数据段对应的第j个子段中所有数据的方差，/>为第i个数据段对应的第j个子段的偏差指数，/>为第i个数据段对应的所有子段的偏差指数的均值，/>为第i个数据段中所有数据的信息熵，e为自然常数，/>为预设第一调整参数，/>大于0。

优选的，根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数，包括：

对于第i个数据段：

将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值；将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果，记为第i个数据段内每种数据值对应的频次特征值；将第i个数据段内所有种数据值对应的频次特征值的均值，确定为第i个数据段的数据特征指标；

根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异，计算第i个数据段对应的差异指数。

优选的，采用如下公式计算第i个数据段对应的差异指数：

其中，为第i个数据段对应的差异指数，/>为第i个数据段中的最大数据值，为第i个数据段中的最小数据值，/>为第i个数据段的数据特征指标，/>为第i个数据段中第/>个极值点的横坐标，/>为第i个数据段中第/>个极值点的横坐标，/>为第i个数据段中极值点的个数，/>为第i个数据段中数据的总个数，/>为预设第二调整参数，/>大于0。

优选的，所述基于所述一致指数和所述差异指数，确定每个数据段对应的窗口长度校正系数；基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度，包括：

对于第i个数据段：

计算第i个数据段对应的差异指数与预设第三调整参数的和值，对第i个数据段对应的一致指数与所述和值的比值进行归一化处理，将归一化结果与0.5之和确定为第i个数据段对应的窗口长度校正系数；

将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值，作为第i个数据段对应的最优窗口长度。

本发明至少具有如下有益效果：

本发明首先对待压缩基因的碱基质量分数序列中的数据进行了划分，获得了每个数据段对应的多个子段，然后基于每个子段内每种数据值出现的频次以及数据的差异情况，确定了每个子段的离散系数，用于反映子段内碱基质量分数数据的离散程度；基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，分析了每个数据段内不同子段之间的数据关系以及差异，确定了每个数据段对应的一致指数，用于反映每个数据段内不同子段之间数据的一致程度，最后结合数据段内整体数据之间的关系，更准确地反映了数据段内碱基质量分数数据的相似性，以此共同确定窗口长度校正系数，对LZ77压缩算法的窗口长度进行自适应调整，当数据段内相同的碱基质量分数数据较多、重复的概率较大时，使LZ77压缩算法具有较大的窗口，避免相同数据较多、重复概率较大，窗口却较小，压缩速度较慢的问题，使其可以根据数据段内的碱基质量分数数据分布情况自适应调整窗口的长度，在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例所提供的一种基因检测数据智能压缩处理方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基因检测数据智能压缩处理方法进行详细说明如下。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基因检测数据智能压缩处理方法的具体方案。

一种基因检测数据智能压缩处理方法实施例：

本实施例所针对的具体场景为：本实施例是为了对待压缩基因的碱基质量分数序列进行压缩处理，考虑到现有的LZ77无损压缩算法对待压缩基因的碱基质量分数序列进行压缩时，窗口尺寸设置的不合理会对数据压缩效率造成较大影响，使得基因检测数据的压缩效率较低，因此本实施例首先将对采集到的待压缩基因的碱基质量分数序列进行划分，获得每个数据段对应的多个子段，然后根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数；根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，确定每个数据段对应的一致指数；进一步地，根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数；综合一致指数和差异指数确定每个数据段对应的最优窗口长度，进而采用LZ77压缩算法对所有碱基质量分数数据进行压缩，在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。

本实施例提出了一种基因检测数据智能压缩处理方法，如图1所示，本实施例的一种基因检测数据智能压缩处理方法包括以下步骤：

步骤S1，获取待压缩基因的碱基质量分数序列。

本实施例首先采集待压缩的基因检测数据，即FASTQ文件，该文件是由基因检测测序技术（如Sanger、Illumina等测序技术）得到的基因序列数据，该文件内共有四种基因相关数据，第一行由“@”开始，是该序列的描述信息，第二行是碱基序列，数量较多，第三行由“+”开始，也是序列的描述信息，第四行是碱基序列的质量分数，数据数量与第二行的碱基数量相等，而且具有一一对应的关系。基因检测测序技术为现有技术，此处不再过多赘述。FASTQ文件中该数据由ASCII码表示。本实施例的目的是对基因检测数据进行智能压缩处理，由于基因数据的特殊性，每个数据都蕴含着大量的生物学信息，对后续相关处理具有较大的影响作用，因此对FASTQ文件第四行基因检测数据进行采集，数据序列长度为N，获得待压缩基因的碱基质量分数对应的编码序列，由ASCII码表示，为了方便后续处理，将其转换成数字数据，可得数字类型的质量分数序列，将此时获得的质量分数序列记为待压缩基因的碱基质量分数序列。

至此，采用本实施例提供的方法获得了待压缩基因的碱基质量分数序列，待压缩基因的碱基质量分数序列是由碱基质量分数数据构成的。

步骤S2，对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段；基于每个数据段内数据的波动情况，分别对每个数据段进行划分获得每个数据段对应的子段；根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数；根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，确定每个数据段对应的一致指数。

本实施例将采用LZ77无损压缩算法对基因检测数据进行智能压缩处理。窗口左侧为历史缓存区，也即字典区，右侧为前向缓冲区，也即待编码区，通过寻找待编码区内与字典区相同的数据来实现数据压缩，但是算法窗口大小的选择对LZ77无损压缩算法的效率具有较大影响，如当某个窗口的局部区域上相同的数据较多，分布较为集中，应选择较大的窗口，以提高压缩的效率，而某个窗口的局部区域上重复的数据较少，分布较为离散，则应选择较小的窗口，以减少匹配的时间。本实施例将根据所得的待压缩基因的碱基质量分数序列确定算法窗口大小，进而对所有的碱基质量分数数据进行压缩。

基因检测仪器在读取目标基因的碱基种类时可能会产生一些随机的背景噪声或误差，这些噪声在短的碱基序列片段上表现的相对均匀，而且仪器在识别碱基时可能会受到碱基本身的特性和环境因素的影响，这些影响在相邻碱基上通常是类似的，这意味着相邻的碱基往往具有类似的测序条件和性能，因此它们的质量分数数据也会相对一致，重复率较高，数据较为平稳。对于数据值相对一致、重复率较高、较为平稳的数据，在采用LZ77无损压缩算法进行编码时，为了使算法效率提高，应当选择较大的窗口，使相同的数据更快编码。

将碱基质量分数序列中所有数据按照前后顺序排序获取碱基质量分数序列中每个数据的序号，将所述序号作为横坐标，将对应的数据值作为纵坐标，获得多个数据点。采用DBSCAN聚类算法对所有数据点进行聚类，获得多个聚类簇；将同一聚类簇内的数据点对应的数据作为同一数据段内的数据，也即对待压缩基因的碱基质量分数序列中的数据进行了划分，获得了多个数据段。本实施例中设置DBSCAN聚类算法聚类时的聚类半径为4，最小邻域点数为10，在具体应用中，实施者可根据具体情况进行设置，DBSCAN聚类算法为现有技术，此处不再过多赘述。

采用最小二乘非线性拟合方法对所有数据点进行曲线拟合获得一条曲线，将此时获得的曲线记为目标曲线；在所述目标曲线上，获取每个数据段内的极值点；将所述极值点作为划分点，对每个数据段内的数据进行划分，获得每个数据段对应的子段。最小二乘非线性拟合方法以及极值点的获取方法均为现有技术，此处不再过多赘述。

每个子段内的数据能够在一定程度上反映基因检测时碱基的质量分数值变化规律，如当基因检测仪器在识别碱基时受到碱基本身的特性和环境因素的影响较小时，此时所测得碱基数据可靠性较高，碱基质量分数数据较为稳定，数据之间差异性较小，分布较为密集，存在较多的重复数据。基于此，本实施例将根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数。

对于第i个数据段对应的第j个子段：

将第j个子段内所有种数据值出现的频次的平均值记为第一平均值；将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果，记为第j个子段内每种数据值对应的频次特征值；将第j个子段内所有种数据值对应的频次特征值的均值，确定为第j个子段的数据分布指标。根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标，计算第j个子段的离散系数。第i个数据段对应的第j个子段的数据分布指标和离散系数的具体计算公式分别为：

其中，为第i个数据段对应的第j个子段内数据值的种类数，/>为第i个数据段对应的第j个子段内第c种数据值出现的频次，/>为第i个数据段对应的第j个子段内所有种数据值出现的频次的平均值，/>为第i个数据段对应的第j个子段的离散系数，/>为第i个数据段对应的第j个子段内的第/>个数据值，/>为第i个数据段对应的第j个子段内的第个数据值，/>为第i个数据段对应的第j个子段内的数据的数量，/>为第i个数据段对应的第j个子段的数据分布指标，/>为第i个数据段对应的第j个子段的最大数据值，为第i个数据段对应的第j个子段的最小数据值，e为自然常数，| |为取绝对值符号。

表示第一平均值，/>表示第j个子段内第c种数据值出现的频次与所有数据的平均频次之间的差异，/>表示第j个子段内第c种数据值对应的频次特征值，也即对该差异进行负相关归一化处理；当第j个子段内每种数据值出现的频次与所有数据的平均频次之间的差异越小时，说明第j个子段内所有数据值出现的频次越接近平均水平，也即第i个数据段对应的第j个子段的数据分布指标越大。/>表示第i个数据段对应的第j个子段所有数据的极差，该极差越大，说明第j个子段内数据的范围越广，第j个子段内的数据分布越离散；/>用于反映第i个数据段对应的第j个子段内的第/>个数据值与第/>个数据值的差异，/>表示第j个子段内所有的每相邻两个数据值之间的平均差异。当第j个子段所有数据的极差越大、第j个子段内所有的每相邻两个数据值之间的平均差异越大、第j个子段的数据分布指标越小时，说明第j个子段内的数据越呈现离散分布，第j个子段内相同的数据越少，即第i个数据段对应的第j个子段的离散系数越大。需要说明的是：本实施例将相同的数据值作为同一种数据值。

采用上述方法，能够获得每个子段的离散系数，离散系数越大，说明对应子段内碱基质量分数数据之间差异越大，数值范围越大，同种数据较少，数据分布较为离散。该值反映一段内数据的分布情况。本实施例接下来将基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，确定每个数据段对应的一致指数。

具体地，对于第i个数据段：

对于第i个数据段对应的第j个子段：将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值，作为第j个子段的偏差指数；根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵，计算第i个数据段对应的一致指数。第i个数据段的偏差指数和一致指数的具体计算公式分别为：

其中，为第i个数据段对应的一致指数，/>为第i个数据段对应的子段的数量，为第i个数据段对应的第j个子段中所有数据的方差，/>为第i个数据段对应的第j个子段的偏差指数，/>为第i个数据段对应的所有子段的偏差指数的均值，/>为第i个数据段对应的第j个子段的离散系数，/>为除第j个子段外第/>个子段的离散系数，/>为第i个数据段中所有数据的信息熵，e为自然常数，/>为预设第一调整参数，/>大于0。本实施例中的预设第一调整参数为0.01，在具体应用中，实施者可根据具体情况进行设置。

表示第i个数据段对应的第j个子段与除第j个子段外第/>个子段的离散系数之间的差异，该差异越小，说明第j个子段与其他子段相比，数据分布偏差越小；第j个子段中所有数据的方差越小，说明第j个子段整体数据分布较为集中，第j个子段内整体数据较为密集；/>越小，说明第i个数据段内所有子段的离散系数与其他子段的离散系数相比整体差异越小；每个子段内数据之间的差异越小，则第i个数据段内每个子段数据越相似。当第i个数据段内相同的碱基质量分数数据越多、第i个数据段内数据的信息熵越小时，说明第i个数据段所含信息量越少，数据的变化较小，出现相同、一致的碱基质量分数数据的可能性越大，即第i个数据段对应的一致指数越大。信息熵的计算方法为现有技术，此处不再过多赘述。

采用本实施例提供的方法，能够获得每个数据段对应的一致指数。

步骤S3，根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数；基于所述一致指数和所述差异指数，确定每个数据段对应的窗口长度校正系数；基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度。

本实施例在步骤S2中获得了每个数据段对应的一致指数，一致指数用于反映数据段内以及数据段内的子段之间的数据关系，为了较为全面的反映每个数据段内数据的特征，还需要对每个数据段内的整体数据进行综合分析，因此本实施例将根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数。

具体地，对于第i个数据段：将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值；将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果，记为第i个数据段内每种数据值对应的频次特征值；将第i个数据段内所有种数据值对应的频次特征值的均值，确定为第i个数据段的数据特征指标；根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异，计算第i个数据段对应的差异指数。第i个数据段的数据特征指标和差异指数的具体计算公式分别为：

其中，为第i个数据段对应的差异指数，/>为第i个数据段中的最大数据值，为第i个数据段中的最小数据值，/>为第i个数据段的数据特征指标，/>为第i个数据段中第/>个极值点的横坐标，/>为第i个数据段中第/>个极值点的横坐标，/>为第i个数据段中极值点的个数，/>为第i个数据段中数据的总个数，/>为第i个数据段内第x种数据值出现的频次，/>为第i个数据段内所有种数据值出现的频次的平均值，/>为第i个数据段内数据值的种类数，/>为预设第二调整参数，/>大于0。

本实施例在差异指数的计算公式中引入预设第二调整参数是为了防止分母为0，本实施例中预设第二调整参数为1，在具体应用中，实施者可根据具体情况进行设置。表示第二平均值，/>表示第i个数据段内第x种数据值出现的频次与第i个数据段内所有种数据值出现的频次的平均值之间的差异，/>表示对该差异进行负相关归一化处理，归一化结果越小，说明第x种质量分数数据在第i个数据段内出现的次数与平均次数之间的差异越大，第i个数据段内出现相同数据的概率较小，即第i个数据段的数据特征指标越小。/>表示第i个数据段内所有数据的极差，该极差越大，表示第i个数据段内碱基质量分数数据范围越大，数据分布越离散，第i个数据段内碱基质量分数数据相同的可能性越低，重复的数据越少，第i个数据段内的碱基质量分数数据之间差异越大，也即第i个数据段对应的差异指数越大；相邻两个极值点的横坐标之间的差异越小，说明极值点越密集，碱基质量分数数据变化越频繁，而基因检测碱基质量分数数据局部通常是较为一致的，因此可能导致重复的数据越少，第i个数据段内的碱基质量分数数据之间差异越大，第i个数据段对应的差异指数越大。

采用上述方法，获得了每个数据段对应的一致指数和差异指数，从局部和整体两个方面反映数据段内碱基质量分数数据的分布情况，因此本实施例将结合一致指数和差异指数对LZ77压缩算法的窗口尺寸进行校正。基于每个数据段对应的一致指数和每个数据段对应的差异指数，确定每个数据段对应的窗口长度校正系数；基于窗口长度校正系数获得每个数据段对应的最优窗口长度。

具体地，对于第i个数据段：计算第i个数据段对应的差异指数与预设第三调整参数的和值，对第i个数据段对应的一致指数与所述和值的比值进行归一化处理，将归一化结果与0.5之和确定为第i个数据段对应的窗口长度校正系数。第i个数据段对应的最优窗口长度的具体计算公式为：

其中，为第i个数据段对应的窗口长度校正系数，Norm( )为归一化函数，/>为预设第三调整参数，本实施例中的预设第三调整参数为1，在具体应用中，实施者可根据具体情况进行设置。

第i个数据段对应的一致指数越大，说明第i个数据段内每个子段中的数据分布较为集中，且每个子段之间的数据差异较小，每个字段之间出现相同数据的可能性越高，此时窗口长度校正系数应当越大，越应当增大窗口尺寸。第i个数据段对应的差异指数越小，说明第i个数据段内相同数据的个数较多，同种数据的频率较高，数值范围较小，碱基质量分数数据越密集，窗口长度校正系数越大，越应当增大窗口尺寸，使得窗口中相同的数据可以尽快匹配，完成基因检测碱基质量分数的压缩。的值域为[0，1]，第i个数据段对应的窗口长度校正系数的值域为[0.5，1.5]。

采用本实施例提供的方法，能够获得每个数据段对应的窗口长度校正系数，接下来本实施例将基于每个数据段对应的窗口长度校正系数对每个数据段的窗口长度进行调整，获得每个数据段对应的最优窗口长度。

具体地，将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值，作为第i个数据段对应的最优窗口长度。本实施例中每个数据段的初始窗口长度均相同，均为24，在具体应用中，实施者可根据具体情况进行设置。当第i个数据段对应的窗口长度校正系数小于1时，需要将初始窗口尺寸调小；当第i个数据段对应的窗口长度校正系数等于1时，窗口尺寸不变，也即不需要对LZ77压缩算法窗口进行调整；当第i个数据段对应的窗口长度校正系数大于1时，需要将初始窗口尺寸调大。

至此，采用本实施例提供的方法，获得了每个数据段对应的最优窗口长度。

步骤S4，基于所述最优窗口长度，采用LZ77压缩算法对所有碱基质量分数数据进行压缩。

本实施例已经获得了每个数据段对应的最优窗口长度，接下来本实施例将基于每个数据段对应的最优窗口长度对每个数据段中的碱基质量分数数据进行压缩处理；本实施例采用LZ77压缩算法对碱基质量分数数据进行压缩，当窗口达到某个数据段时，自适应改变窗口长度，以提高碱基质量分数数据的压缩效率，同时对窗口长度按照2:1的比例分别分成算法的左侧字典区和右侧待编码区，进而利用LZ77压缩算法对所有碱基质量分数数据进行智能压缩。LZ77压缩算法为现有技术，此处不再过多赘述。

至此，采用本实施例提供的方法完成了对待压缩基因的碱基质量分数数据的压缩处理。

本实施例首先对待压缩基因的碱基质量分数序列中的数据进行了划分，获得了每个数据段对应的多个子段，然后基于每个子段内每种数据值出现的频次以及数据的差异情况，确定了每个子段的离散系数，用于反映子段内碱基质量分数数据的离散程度；基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，分析了每个数据段内不同子段之间的数据关系以及差异，确定了每个数据段对应的一致指数，用于反映每个数据段内不同子段之间数据的一致程度，最后结合数据段内整体数据之间的关系，更准确地反映了数据段内碱基质量分数数据的相似性，以此共同确定窗口长度校正系数，对LZ77压缩算法的窗口长度进行自适应调整，当数据段内相同的碱基质量分数数据较多、重复的概率较大时，使LZ77压缩算法具有较大的窗口，避免相同数据较多、重复概率较大，窗口却较小，压缩速度较慢的问题，使其可以根据数据段内的碱基质量分数数据分布情况自适应调整窗口的长度，在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。

需要说明的是：以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基因检测数据智能压缩处理方法，其特征在于，该方法包括以下步骤：

获取待压缩基因的碱基质量分数序列；

基于所述最优窗口长度，采用LZ77压缩算法对所有碱基质量分数数据进行压缩；

所述根据每个子段内每种数据值出现的频次以及数据的差异情况，得到每个子段的离散系数，包括：

对于第i个数据段对应的第j个子段：

根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标，计算第j个子段的离散系数；

采用如下公式计算第i个数据段对应的第j个子段的离散系数：

其中，为第i个数据段对应的第j个子段的离散系数，/>为第i个数据段对应的第j个子段内的第/>个数据值，/>为第i个数据段对应的第j个子段内的第/>个数据值，/>为第i个数据段对应的第j个子段内的数据的数量，/>为第i个数据段对应的第j个子段的数据分布指标，/>为第i个数据段对应的第j个子段的最大数据值，/>为第i个数据段对应的第j个子段的最小数据值，e为自然常数；

所述基于所述一致指数和所述差异指数，确定每个数据段对应的窗口长度校正系数；基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度，包括：

对于第i个数据段：

将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值，作为第i个数据段对应的最优窗口长度；

所述基于所述最优窗口长度，采用LZ77压缩算法对所有碱基质量分数数据进行压缩，包括：

采用LZ77压缩算法对碱基质量分数数据进行压缩，当窗口达到某个数据段时，将窗口长度设置为对应的最优窗口长度，对窗口长度按照2:1的比例分别分成算法的左侧字典区和右侧待编码区，利用LZ77压缩算法对所有碱基质量分数数据进行压缩。

2.根据权利要求1所述的一种基因检测数据智能压缩处理方法，其特征在于，所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段，包括：

3.根据权利要求2所述的一种基因检测数据智能压缩处理方法，其特征在于，基于每个数据段内数据的波动情况，分别对每个数据段进行划分获得每个数据段对应的子段，包括：

对所有数据点进行曲线拟合获得目标曲线；

4.根据权利要求1所述的一种基因检测数据智能压缩处理方法，其特征在于，所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异，确定每个数据段对应的一致指数，包括：

对于第i个数据段：

5.根据权利要求4所述的一种基因检测数据智能压缩处理方法，其特征在于，采用如下公式计算第i个数据段对应的一致指数：

其中，为第i个数据段对应的一致指数，/>为第i个数据段对应的子段的数量，/>为第i个数据段对应的第j个子段中所有数据的方差，/>为第i个数据段对应的第j个子段的偏差指数，/>为第i个数据段对应的所有子段的偏差指数的均值，/>为第i个数据段中所有数据的信息熵，e为自然常数，/>为预设第一调整参数，/>大于0。

6.根据权利要求3所述的一种基因检测数据智能压缩处理方法，其特征在于，根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离，确定每个数据段对应的差异指数，包括：

对于第i个数据段：

7.根据权利要求6所述的一种基因检测数据智能压缩处理方法，其特征在于，采用如下公式计算第i个数据段对应的差异指数：

其中，为第i个数据段对应的差异指数，/>为第i个数据段中的最大数据值，/>为第i个数据段中的最小数据值，/>为第i个数据段的数据特征指标，/>为第i个数据段中第/>个极值点的横坐标，/>为第i个数据段中第/>个极值点的横坐标，/>为第i个数据段中极值点的个数，/>为第i个数据段中数据的总个数，/>为预设第二调整参数，/>大于0。