CN117316301B - 一种基因检测数据智能压缩处理方法 - Google Patents
一种基因检测数据智能压缩处理方法 Download PDFInfo
- Publication number
- CN117316301B CN117316301B CN202311558655.6A CN202311558655A CN117316301B CN 117316301 B CN117316301 B CN 117316301B CN 202311558655 A CN202311558655 A CN 202311558655A CN 117316301 B CN117316301 B CN 117316301B
- Authority
- CN
- China
- Prior art keywords
- data
- segment
- sub
- data segment
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 65
- 238000007906 compression Methods 0.000 title claims abstract description 55
- 230000006835 compression Effects 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012937 correction Methods 0.000 claims description 29
- 238000010606 normalization Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000007475 c-index Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 5
- 238000013144 data compression Methods 0.000 description 4
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000022602 disease susceptibility Diseases 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及基因检测数据处理技术领域,具体涉及一种基因检测数据智能压缩处理方法。方法包括:获取碱基质量分数序列;对碱基质量分数序列中的数据进行划分获得数据段以及数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异、每个子段内所有数据的差异,确定每个数据段对应的一致指数;根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于一致指数和差异指数确定每个数据段对应的最优窗口长度,进而对碱基质量分数数据进行压缩。本发明提高了基因检测数据的压缩效率。
Description
技术领域
本发明涉及基因检测数据处理技术领域,具体涉及一种基因检测数据智能压缩处理方法。
背景技术
基因检测是指对个体基因组的某些部分或全部进行测序、分析和解读,以识别可能存在的基因突变、变异,了解人体的遗传风险、疾病易感性以及其他与基因相关的特征,为临床诊断和治疗提供依据。基因测序得到的FASTQ文件中的碱基序列承载了生物体的遗传信息,这些信息指导细胞如何合成蛋白质,控制了细胞的发育、功能和行为,同时每个碱基数据在FASTQ文件中都伴随着一个质量分数值,用于表示所得碱基数据的可靠程度,这些数据对于判断测序结果的可靠性以及后续的基因检测处理非常重要。每次基因检测都将产生海量的碱基数据和对应的质量分数数据,因此对其进行智能压缩处理是很有必要的。
基因检测数据与其他待压缩数据有所区别,基因检测数据蕴含着大量生物学信息,需对其进行无损压缩。常见的无损压缩算法,如LZ77数据压缩算法实现简单、适用性较强,但是算法窗口大小设置的不合理会对数据压缩效率造成较大影响,使得基因检测数据的压缩效率较低。
发明内容
为了解决现有方法在对基因检测数据进行压缩时算法窗口设置的不合理会使得基因检测数据的压缩效率较低的问题,本发明的目的在于提供一种基因检测数据智能压缩处理方法,所采用的技术方案具体如下:
本发明提供了一种基因检测数据智能压缩处理方法,该方法包括以下步骤:
获取待压缩基因的碱基质量分数序列;
对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段;基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数;
根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度;
基于所述最优窗口长度,采用LZ77压缩算法对所有碱基质量分数数据进行压缩。
优选的,所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段,包括:
将所述碱基质量分数序列中所有数据按照前后顺序排序获取每个数据的序号,将所述序号作为横坐标,将对应的数据值作为纵坐标,获得各数据点;
采用DBSCAN聚类算法对所有数据点进行聚类,获得不少于两个聚类簇;将同一聚类簇内的数据点对应的数据作为同一数据段内的数据。
优选的,基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段,包括:
对所有数据点进行曲线拟合获得目标曲线;
在所述目标曲线上,获取每个数据段内的极值点;将所述极值点作为划分点,对每个数据段内的数据进行划分,获得每个数据段对应的子段。
优选的,所述根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数,包括:
对于第i个数据段对应的第j个子段:
将第j个子段内所有种数据值出现的频次的平均值记为第一平均值;将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果,记为第j个子段内每种数据值对应的频次特征值;将第j个子段内所有种数据值对应的频次特征值的均值,确定为第j个子段的数据分布指标;
根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标,计算第j个子段的离散系数。
优选的,采用如下公式计算第i个数据段对应的第j个子段的离散系数:
其中,为第i个数据段对应的第j个子段的离散系数,/>为第i个数据段对应的第j个子段内的第/>个数据值,/>为第i个数据段对应的第j个子段内的第/>个数据值,/>为第i个数据段对应的第j个子段内的数据的数量,/>为第i个数据段对应的第j个子段的数据分布指标,/>为第i个数据段对应的第j个子段的最大数据值,/>为第i个数据段对应的第j个子段的最小数据值,e为自然常数。
优选的,所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数,包括:
对于第i个数据段:
对于第i个数据段对应的第j个子段:将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值,作为第j个子段的偏差指数;
根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵,计算第i个数据段对应的一致指数。
优选的,采用如下公式计算第i个数据段对应的一致指数:
其中,为第i个数据段对应的一致指数,/>为第i个数据段对应的子段的数量,为第i个数据段对应的第j个子段中所有数据的方差,/>为第i个数据段对应的第j个子段的偏差指数,/>为第i个数据段对应的所有子段的偏差指数的均值,/>为第i个数据段中所有数据的信息熵,e为自然常数,/>为预设第一调整参数,/>大于0。
优选的,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数,包括:
对于第i个数据段:
将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值;将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果,记为第i个数据段内每种数据值对应的频次特征值;将第i个数据段内所有种数据值对应的频次特征值的均值,确定为第i个数据段的数据特征指标;
根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异,计算第i个数据段对应的差异指数。
优选的,采用如下公式计算第i个数据段对应的差异指数:
其中,为第i个数据段对应的差异指数,/>为第i个数据段中的最大数据值,为第i个数据段中的最小数据值,/>为第i个数据段的数据特征指标,/>为第i个数据段中第/>个极值点的横坐标,/>为第i个数据段中第/>个极值点的横坐标,/>为第i个数据段中极值点的个数,/>为第i个数据段中数据的总个数,/>为预设第二调整参数,/>大于0。
优选的,所述基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度,包括:
对于第i个数据段:
计算第i个数据段对应的差异指数与预设第三调整参数的和值,对第i个数据段对应的一致指数与所述和值的比值进行归一化处理,将归一化结果与0.5之和确定为第i个数据段对应的窗口长度校正系数;
将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值,作为第i个数据段对应的最优窗口长度。
本发明至少具有如下有益效果:
本发明首先对待压缩基因的碱基质量分数序列中的数据进行了划分,获得了每个数据段对应的多个子段,然后基于每个子段内每种数据值出现的频次以及数据的差异情况,确定了每个子段的离散系数,用于反映子段内碱基质量分数数据的离散程度;基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,分析了每个数据段内不同子段之间的数据关系以及差异,确定了每个数据段对应的一致指数,用于反映每个数据段内不同子段之间数据的一致程度,最后结合数据段内整体数据之间的关系,更准确地反映了数据段内碱基质量分数数据的相似性,以此共同确定窗口长度校正系数,对LZ77压缩算法的窗口长度进行自适应调整,当数据段内相同的碱基质量分数数据较多、重复的概率较大时,使LZ77压缩算法具有较大的窗口,避免相同数据较多、重复概率较大,窗口却较小,压缩速度较慢的问题,使其可以根据数据段内的碱基质量分数数据分布情况自适应调整窗口的长度,在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例所提供的一种基因检测数据智能压缩处理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基因检测数据智能压缩处理方法进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基因检测数据智能压缩处理方法的具体方案。
一种基因检测数据智能压缩处理方法实施例:
本实施例所针对的具体场景为:本实施例是为了对待压缩基因的碱基质量分数序列进行压缩处理,考虑到现有的LZ77无损压缩算法对待压缩基因的碱基质量分数序列进行压缩时,窗口尺寸设置的不合理会对数据压缩效率造成较大影响,使得基因检测数据的压缩效率较低,因此本实施例首先将对采集到的待压缩基因的碱基质量分数序列进行划分,获得每个数据段对应的多个子段,然后根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数;进一步地,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;综合一致指数和差异指数确定每个数据段对应的最优窗口长度,进而采用LZ77压缩算法对所有碱基质量分数数据进行压缩,在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。
本实施例提出了一种基因检测数据智能压缩处理方法,如图1所示,本实施例的一种基因检测数据智能压缩处理方法包括以下步骤:
步骤S1,获取待压缩基因的碱基质量分数序列。
本实施例首先采集待压缩的基因检测数据,即FASTQ文件,该文件是由基因检测测序技术(如Sanger、Illumina等测序技术)得到的基因序列数据,该文件内共有四种基因相关数据,第一行由“@”开始,是该序列的描述信息,第二行是碱基序列,数量较多,第三行由“+”开始,也是序列的描述信息,第四行是碱基序列的质量分数,数据数量与第二行的碱基数量相等,而且具有一一对应的关系。基因检测测序技术为现有技术,此处不再过多赘述。FASTQ文件中该数据由ASCII码表示。本实施例的目的是对基因检测数据进行智能压缩处理,由于基因数据的特殊性,每个数据都蕴含着大量的生物学信息,对后续相关处理具有较大的影响作用,因此对FASTQ文件第四行基因检测数据进行采集,数据序列长度为N,获得待压缩基因的碱基质量分数对应的编码序列,由ASCII码表示,为了方便后续处理,将其转换成数字数据,可得数字类型的质量分数序列,将此时获得的质量分数序列记为待压缩基因的碱基质量分数序列。
至此,采用本实施例提供的方法获得了待压缩基因的碱基质量分数序列,待压缩基因的碱基质量分数序列是由碱基质量分数数据构成的。
步骤S2,对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段;基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数。
本实施例将采用LZ77无损压缩算法对基因检测数据进行智能压缩处理。窗口左侧为历史缓存区,也即字典区,右侧为前向缓冲区,也即待编码区,通过寻找待编码区内与字典区相同的数据来实现数据压缩,但是算法窗口大小的选择对LZ77无损压缩算法的效率具有较大影响,如当某个窗口的局部区域上相同的数据较多,分布较为集中,应选择较大的窗口,以提高压缩的效率,而某个窗口的局部区域上重复的数据较少,分布较为离散,则应选择较小的窗口,以减少匹配的时间。本实施例将根据所得的待压缩基因的碱基质量分数序列确定算法窗口大小,进而对所有的碱基质量分数数据进行压缩。
基因检测仪器在读取目标基因的碱基种类时可能会产生一些随机的背景噪声或误差,这些噪声在短的碱基序列片段上表现的相对均匀,而且仪器在识别碱基时可能会受到碱基本身的特性和环境因素的影响,这些影响在相邻碱基上通常是类似的,这意味着相邻的碱基往往具有类似的测序条件和性能,因此它们的质量分数数据也会相对一致,重复率较高,数据较为平稳。对于数据值相对一致、重复率较高、较为平稳的数据,在采用LZ77无损压缩算法进行编码时,为了使算法效率提高,应当选择较大的窗口,使相同的数据更快编码。
将碱基质量分数序列中所有数据按照前后顺序排序获取碱基质量分数序列中每个数据的序号,将所述序号作为横坐标,将对应的数据值作为纵坐标,获得多个数据点。采用DBSCAN聚类算法对所有数据点进行聚类,获得多个聚类簇;将同一聚类簇内的数据点对应的数据作为同一数据段内的数据,也即对待压缩基因的碱基质量分数序列中的数据进行了划分,获得了多个数据段。本实施例中设置DBSCAN聚类算法聚类时的聚类半径为4,最小邻域点数为10,在具体应用中,实施者可根据具体情况进行设置,DBSCAN聚类算法为现有技术,此处不再过多赘述。
采用最小二乘非线性拟合方法对所有数据点进行曲线拟合获得一条曲线,将此时获得的曲线记为目标曲线;在所述目标曲线上,获取每个数据段内的极值点;将所述极值点作为划分点,对每个数据段内的数据进行划分,获得每个数据段对应的子段。最小二乘非线性拟合方法以及极值点的获取方法均为现有技术,此处不再过多赘述。
每个子段内的数据能够在一定程度上反映基因检测时碱基的质量分数值变化规律,如当基因检测仪器在识别碱基时受到碱基本身的特性和环境因素的影响较小时,此时所测得碱基数据可靠性较高,碱基质量分数数据较为稳定,数据之间差异性较小,分布较为密集,存在较多的重复数据。基于此,本实施例将根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数。
对于第i个数据段对应的第j个子段:
将第j个子段内所有种数据值出现的频次的平均值记为第一平均值;将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果,记为第j个子段内每种数据值对应的频次特征值;将第j个子段内所有种数据值对应的频次特征值的均值,确定为第j个子段的数据分布指标。根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标,计算第j个子段的离散系数。第i个数据段对应的第j个子段的数据分布指标和离散系数的具体计算公式分别为:
其中,为第i个数据段对应的第j个子段内数据值的种类数,/>为第i个数据段对应的第j个子段内第c种数据值出现的频次,/>为第i个数据段对应的第j个子段内所有种数据值出现的频次的平均值,/>为第i个数据段对应的第j个子段的离散系数,/>为第i个数据段对应的第j个子段内的第/>个数据值,/>为第i个数据段对应的第j个子段内的第个数据值,/>为第i个数据段对应的第j个子段内的数据的数量,/>为第i个数据段对应的第j个子段的数据分布指标,/>为第i个数据段对应的第j个子段的最大数据值,为第i个数据段对应的第j个子段的最小数据值,e为自然常数,| |为取绝对值符号。
表示第一平均值,/>表示第j个子段内第c种数据值出现的频次与所有数据的平均频次之间的差异,/>表示第j个子段内第c种数据值对应的频次特征值,也即对该差异进行负相关归一化处理;当第j个子段内每种数据值出现的频次与所有数据的平均频次之间的差异越小时,说明第j个子段内所有数据值出现的频次越接近平均水平,也即第i个数据段对应的第j个子段的数据分布指标越大。/>表示第i个数据段对应的第j个子段所有数据的极差,该极差越大,说明第j个子段内数据的范围越广,第j个子段内的数据分布越离散;/>用于反映第i个数据段对应的第j个子段内的第/>个数据值与第/>个数据值的差异,/>表示第j个子段内所有的每相邻两个数据值之间的平均差异。当第j个子段所有数据的极差越大、第j个子段内所有的每相邻两个数据值之间的平均差异越大、第j个子段的数据分布指标越小时,说明第j个子段内的数据越呈现离散分布,第j个子段内相同的数据越少,即第i个数据段对应的第j个子段的离散系数越大。需要说明的是:本实施例将相同的数据值作为同一种数据值。
采用上述方法,能够获得每个子段的离散系数,离散系数越大,说明对应子段内碱基质量分数数据之间差异越大,数值范围越大,同种数据较少,数据分布较为离散。该值反映一段内数据的分布情况。本实施例接下来将基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数。
具体地,对于第i个数据段:
对于第i个数据段对应的第j个子段:将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值,作为第j个子段的偏差指数;根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵,计算第i个数据段对应的一致指数。第i个数据段的偏差指数和一致指数的具体计算公式分别为:
其中,为第i个数据段对应的一致指数,/>为第i个数据段对应的子段的数量,为第i个数据段对应的第j个子段中所有数据的方差,/>为第i个数据段对应的第j个子段的偏差指数,/>为第i个数据段对应的所有子段的偏差指数的均值,/>为第i个数据段对应的第j个子段的离散系数,/>为除第j个子段外第/>个子段的离散系数,/>为第i个数据段中所有数据的信息熵,e为自然常数,/>为预设第一调整参数,/>大于0。本实施例中的预设第一调整参数为0.01,在具体应用中,实施者可根据具体情况进行设置。
表示第i个数据段对应的第j个子段与除第j个子段外第/>个子段的离散系数之间的差异,该差异越小,说明第j个子段与其他子段相比,数据分布偏差越小;第j个子段中所有数据的方差越小,说明第j个子段整体数据分布较为集中,第j个子段内整体数据较为密集;/>越小,说明第i个数据段内所有子段的离散系数与其他子段的离散系数相比整体差异越小;每个子段内数据之间的差异越小,则第i个数据段内每个子段数据越相似。当第i个数据段内相同的碱基质量分数数据越多、第i个数据段内数据的信息熵越小时,说明第i个数据段所含信息量越少,数据的变化较小,出现相同、一致的碱基质量分数数据的可能性越大,即第i个数据段对应的一致指数越大。信息熵的计算方法为现有技术,此处不再过多赘述。
采用本实施例提供的方法,能够获得每个数据段对应的一致指数。
步骤S3,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度。
本实施例在步骤S2中获得了每个数据段对应的一致指数,一致指数用于反映数据段内以及数据段内的子段之间的数据关系,为了较为全面的反映每个数据段内数据的特征,还需要对每个数据段内的整体数据进行综合分析,因此本实施例将根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数。
具体地,对于第i个数据段:将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值;将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果,记为第i个数据段内每种数据值对应的频次特征值;将第i个数据段内所有种数据值对应的频次特征值的均值,确定为第i个数据段的数据特征指标;根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异,计算第i个数据段对应的差异指数。第i个数据段的数据特征指标和差异指数的具体计算公式分别为:
其中,为第i个数据段对应的差异指数,/>为第i个数据段中的最大数据值,为第i个数据段中的最小数据值,/>为第i个数据段的数据特征指标,/>为第i个数据段中第/>个极值点的横坐标,/>为第i个数据段中第/>个极值点的横坐标,/>为第i个数据段中极值点的个数,/>为第i个数据段中数据的总个数,/>为第i个数据段内第x种数据值出现的频次,/>为第i个数据段内所有种数据值出现的频次的平均值,/>为第i个数据段内数据值的种类数,/>为预设第二调整参数,/>大于0。
本实施例在差异指数的计算公式中引入预设第二调整参数是为了防止分母为0,本实施例中预设第二调整参数为1,在具体应用中,实施者可根据具体情况进行设置。表示第二平均值,/>表示第i个数据段内第x种数据值出现的频次与第i个数据段内所有种数据值出现的频次的平均值之间的差异,/>表示对该差异进行负相关归一化处理,归一化结果越小,说明第x种质量分数数据在第i个数据段内出现的次数与平均次数之间的差异越大,第i个数据段内出现相同数据的概率较小,即第i个数据段的数据特征指标越小。/>表示第i个数据段内所有数据的极差,该极差越大,表示第i个数据段内碱基质量分数数据范围越大,数据分布越离散,第i个数据段内碱基质量分数数据相同的可能性越低,重复的数据越少,第i个数据段内的碱基质量分数数据之间差异越大,也即第i个数据段对应的差异指数越大;相邻两个极值点的横坐标之间的差异越小,说明极值点越密集,碱基质量分数数据变化越频繁,而基因检测碱基质量分数数据局部通常是较为一致的,因此可能导致重复的数据越少,第i个数据段内的碱基质量分数数据之间差异越大,第i个数据段对应的差异指数越大。
采用上述方法,获得了每个数据段对应的一致指数和差异指数,从局部和整体两个方面反映数据段内碱基质量分数数据的分布情况,因此本实施例将结合一致指数和差异指数对LZ77压缩算法的窗口尺寸进行校正。基于每个数据段对应的一致指数和每个数据段对应的差异指数,确定每个数据段对应的窗口长度校正系数;基于窗口长度校正系数获得每个数据段对应的最优窗口长度。
具体地,对于第i个数据段:计算第i个数据段对应的差异指数与预设第三调整参数的和值,对第i个数据段对应的一致指数与所述和值的比值进行归一化处理,将归一化结果与0.5之和确定为第i个数据段对应的窗口长度校正系数。第i个数据段对应的最优窗口长度的具体计算公式为:
其中,为第i个数据段对应的窗口长度校正系数,Norm( )为归一化函数,/>为预设第三调整参数,本实施例中的预设第三调整参数为1,在具体应用中,实施者可根据具体情况进行设置。
第i个数据段对应的一致指数越大,说明第i个数据段内每个子段中的数据分布较为集中,且每个子段之间的数据差异较小,每个字段之间出现相同数据的可能性越高,此时窗口长度校正系数应当越大,越应当增大窗口尺寸。第i个数据段对应的差异指数越小,说明第i个数据段内相同数据的个数较多,同种数据的频率较高,数值范围较小,碱基质量分数数据越密集,窗口长度校正系数越大,越应当增大窗口尺寸,使得窗口中相同的数据可以尽快匹配,完成基因检测碱基质量分数的压缩。的值域为[0,1],第i个数据段对应的窗口长度校正系数的值域为[0.5,1.5]。
采用本实施例提供的方法,能够获得每个数据段对应的窗口长度校正系数,接下来本实施例将基于每个数据段对应的窗口长度校正系数对每个数据段的窗口长度进行调整,获得每个数据段对应的最优窗口长度。
具体地,将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值,作为第i个数据段对应的最优窗口长度。本实施例中每个数据段的初始窗口长度均相同,均为24,在具体应用中,实施者可根据具体情况进行设置。当第i个数据段对应的窗口长度校正系数小于1时,需要将初始窗口尺寸调小;当第i个数据段对应的窗口长度校正系数等于1时,窗口尺寸不变,也即不需要对LZ77压缩算法窗口进行调整;当第i个数据段对应的窗口长度校正系数大于1时,需要将初始窗口尺寸调大。
至此,采用本实施例提供的方法,获得了每个数据段对应的最优窗口长度。
步骤S4,基于所述最优窗口长度,采用LZ77压缩算法对所有碱基质量分数数据进行压缩。
本实施例已经获得了每个数据段对应的最优窗口长度,接下来本实施例将基于每个数据段对应的最优窗口长度对每个数据段中的碱基质量分数数据进行压缩处理;本实施例采用LZ77压缩算法对碱基质量分数数据进行压缩,当窗口达到某个数据段时,自适应改变窗口长度,以提高碱基质量分数数据的压缩效率,同时对窗口长度按照2:1的比例分别分成算法的左侧字典区和右侧待编码区,进而利用LZ77压缩算法对所有碱基质量分数数据进行智能压缩。LZ77压缩算法为现有技术,此处不再过多赘述。
至此,采用本实施例提供的方法完成了对待压缩基因的碱基质量分数数据的压缩处理。
本实施例首先对待压缩基因的碱基质量分数序列中的数据进行了划分,获得了每个数据段对应的多个子段,然后基于每个子段内每种数据值出现的频次以及数据的差异情况,确定了每个子段的离散系数,用于反映子段内碱基质量分数数据的离散程度;基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,分析了每个数据段内不同子段之间的数据关系以及差异,确定了每个数据段对应的一致指数,用于反映每个数据段内不同子段之间数据的一致程度,最后结合数据段内整体数据之间的关系,更准确地反映了数据段内碱基质量分数数据的相似性,以此共同确定窗口长度校正系数,对LZ77压缩算法的窗口长度进行自适应调整,当数据段内相同的碱基质量分数数据较多、重复的概率较大时,使LZ77压缩算法具有较大的窗口,避免相同数据较多、重复概率较大,窗口却较小,压缩速度较慢的问题,使其可以根据数据段内的碱基质量分数数据分布情况自适应调整窗口的长度,在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基因检测数据智能压缩处理方法,其特征在于,该方法包括以下步骤:
获取待压缩基因的碱基质量分数序列;
对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段;基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数;
根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度;
基于所述最优窗口长度,采用LZ77压缩算法对所有碱基质量分数数据进行压缩;
所述根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数,包括:
对于第i个数据段对应的第j个子段:
将第j个子段内所有种数据值出现的频次的平均值记为第一平均值;将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果,记为第j个子段内每种数据值对应的频次特征值;将第j个子段内所有种数据值对应的频次特征值的均值,确定为第j个子段的数据分布指标;
根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标,计算第j个子段的离散系数;
采用如下公式计算第i个数据段对应的第j个子段的离散系数:
其中,为第i个数据段对应的第j个子段的离散系数,/>为第i个数据段对应的第j个子段内的第/>个数据值,/>为第i个数据段对应的第j个子段内的第/>个数据值,/>为第i个数据段对应的第j个子段内的数据的数量,/>为第i个数据段对应的第j个子段的数据分布指标,/>为第i个数据段对应的第j个子段的最大数据值,/>为第i个数据段对应的第j个子段的最小数据值,e为自然常数;
所述基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度,包括:
对于第i个数据段:
计算第i个数据段对应的差异指数与预设第三调整参数的和值,对第i个数据段对应的一致指数与所述和值的比值进行归一化处理,将归一化结果与0.5之和确定为第i个数据段对应的窗口长度校正系数;
将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值,作为第i个数据段对应的最优窗口长度;
所述基于所述最优窗口长度,采用LZ77压缩算法对所有碱基质量分数数据进行压缩,包括:
采用LZ77压缩算法对碱基质量分数数据进行压缩,当窗口达到某个数据段时,将窗口长度设置为对应的最优窗口长度,对窗口长度按照2:1的比例分别分成算法的左侧字典区和右侧待编码区,利用LZ77压缩算法对所有碱基质量分数数据进行压缩。
2.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段,包括:
将所述碱基质量分数序列中所有数据按照前后顺序排序获取每个数据的序号,将所述序号作为横坐标,将对应的数据值作为纵坐标,获得各数据点;
采用DBSCAN聚类算法对所有数据点进行聚类,获得不少于两个聚类簇;将同一聚类簇内的数据点对应的数据作为同一数据段内的数据。
3.根据权利要求2所述的一种基因检测数据智能压缩处理方法,其特征在于,基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段,包括:
对所有数据点进行曲线拟合获得目标曲线;
在所述目标曲线上,获取每个数据段内的极值点;将所述极值点作为划分点,对每个数据段内的数据进行划分,获得每个数据段对应的子段。
4.根据权利要求1所述的一种基因检测数据智能压缩处理方法,其特征在于,所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数,包括:
对于第i个数据段:
对于第i个数据段对应的第j个子段:将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值,作为第j个子段的偏差指数;
根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵,计算第i个数据段对应的一致指数。
5.根据权利要求4所述的一种基因检测数据智能压缩处理方法,其特征在于,采用如下公式计算第i个数据段对应的一致指数:
其中,为第i个数据段对应的一致指数,/>为第i个数据段对应的子段的数量,/>为第i个数据段对应的第j个子段中所有数据的方差,/>为第i个数据段对应的第j个子段的偏差指数,/>为第i个数据段对应的所有子段的偏差指数的均值,/>为第i个数据段中所有数据的信息熵,e为自然常数,/>为预设第一调整参数,/>大于0。
6.根据权利要求3所述的一种基因检测数据智能压缩处理方法,其特征在于,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数,包括:
对于第i个数据段:
将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值;将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果,记为第i个数据段内每种数据值对应的频次特征值;将第i个数据段内所有种数据值对应的频次特征值的均值,确定为第i个数据段的数据特征指标;
根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异,计算第i个数据段对应的差异指数。
7.根据权利要求6所述的一种基因检测数据智能压缩处理方法,其特征在于,采用如下公式计算第i个数据段对应的差异指数:
其中,为第i个数据段对应的差异指数,/>为第i个数据段中的最大数据值,/>为第i个数据段中的最小数据值,/>为第i个数据段的数据特征指标,/>为第i个数据段中第/>个极值点的横坐标,/>为第i个数据段中第/>个极值点的横坐标,/>为第i个数据段中极值点的个数,/>为第i个数据段中数据的总个数,/>为预设第二调整参数,/>大于0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558655.6A CN117316301B (zh) | 2023-11-22 | 2023-11-22 | 一种基因检测数据智能压缩处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558655.6A CN117316301B (zh) | 2023-11-22 | 2023-11-22 | 一种基因检测数据智能压缩处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117316301A CN117316301A (zh) | 2023-12-29 |
CN117316301B true CN117316301B (zh) | 2024-03-05 |
Family
ID=89281303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311558655.6A Active CN117316301B (zh) | 2023-11-22 | 2023-11-22 | 一种基因检测数据智能压缩处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316301B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743870B (zh) * | 2024-02-20 | 2024-05-10 | 山东齐鸿工程建设有限公司 | 一种基于大数据的水利数据管理系统 |
CN118016225B (zh) * | 2024-04-09 | 2024-06-25 | 山东第一医科大学附属省立医院(山东省立医院) | 一种肾移植术后电子健康记录数据智能管理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120137235A (ko) * | 2011-06-10 | 2012-12-20 | 삼성전자주식회사 | 유전자 데이터를 압축하는 방법 및 장치 |
CN113035282A (zh) * | 2021-05-27 | 2021-06-25 | 江苏数字产权交易有限公司 | 基于标签数据生长基因的数据序列处理方法 |
CN115312129A (zh) * | 2022-08-24 | 2022-11-08 | 深圳华大医学检验实验室 | 高通量测序背景下的基因数据压缩方法、装置及相关设备 |
CN116108008A (zh) * | 2023-04-13 | 2023-05-12 | 山东明远生物科技有限公司 | 一种装饰材料甲醛检测数据处理方法 |
WO2023160123A1 (zh) * | 2022-02-24 | 2023-08-31 | 麒麟软件有限公司 | Lz系列压缩算法编解码速度优化方法 |
CN116828070A (zh) * | 2023-08-28 | 2023-09-29 | 无锡市锡容电力电器有限公司 | 一种智慧电网数据优化传输方法 |
WO2023184330A1 (zh) * | 2022-03-31 | 2023-10-05 | 京东方科技集团股份有限公司 | 基因组甲基化测序数据的处理方法、装置、设备和介质 |
CN116939047A (zh) * | 2023-09-18 | 2023-10-24 | 吉林省车桥汽车零部件有限公司 | 一种用于数控机床系统的数据智能通信方法 |
CN117097810A (zh) * | 2023-10-18 | 2023-11-21 | 深圳市互盟科技股份有限公司 | 基于云计算的数据中心传输优化方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10090857B2 (en) * | 2010-04-26 | 2018-10-02 | Samsung Electronics Co., Ltd. | Method and apparatus for compressing genetic data |
US9886561B2 (en) * | 2014-02-19 | 2018-02-06 | The Regents Of The University Of California | Efficient encoding and storage and retrieval of genomic data |
-
2023
- 2023-11-22 CN CN202311558655.6A patent/CN117316301B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120137235A (ko) * | 2011-06-10 | 2012-12-20 | 삼성전자주식회사 | 유전자 데이터를 압축하는 방법 및 장치 |
CN113035282A (zh) * | 2021-05-27 | 2021-06-25 | 江苏数字产权交易有限公司 | 基于标签数据生长基因的数据序列处理方法 |
WO2023160123A1 (zh) * | 2022-02-24 | 2023-08-31 | 麒麟软件有限公司 | Lz系列压缩算法编解码速度优化方法 |
WO2023184330A1 (zh) * | 2022-03-31 | 2023-10-05 | 京东方科技集团股份有限公司 | 基因组甲基化测序数据的处理方法、装置、设备和介质 |
CN115312129A (zh) * | 2022-08-24 | 2022-11-08 | 深圳华大医学检验实验室 | 高通量测序背景下的基因数据压缩方法、装置及相关设备 |
CN116108008A (zh) * | 2023-04-13 | 2023-05-12 | 山东明远生物科技有限公司 | 一种装饰材料甲醛检测数据处理方法 |
CN116828070A (zh) * | 2023-08-28 | 2023-09-29 | 无锡市锡容电力电器有限公司 | 一种智慧电网数据优化传输方法 |
CN116939047A (zh) * | 2023-09-18 | 2023-10-24 | 吉林省车桥汽车零部件有限公司 | 一种用于数控机床系统的数据智能通信方法 |
CN117097810A (zh) * | 2023-10-18 | 2023-11-21 | 深圳市互盟科技股份有限公司 | 基于云计算的数据中心传输优化方法 |
Non-Patent Citations (4)
Title |
---|
Compressing gene expression data using multiple latent space dimensionalities learns complementary biological representations;Gregory P. Way etc.;《Genome Biology》;全文 * |
人体内外源性植物miRNA若干关键问题研究;赵奇;《中国博士学位论文全文数据库基础科学辑》(第03期);全文 * |
基于变动窗口和移动序列的基因识别算法;周朝栋等;基因组学与应用生物学;第36卷(第6期);全文 * |
高通量基因组数据的无损压缩方法研究;王荣杰;《中国博士学位论文全文数据库基础科学辑》(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117316301A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117316301B (zh) | 一种基因检测数据智能压缩处理方法 | |
CN108346145B (zh) | 一种病理切片中非常规细胞的识别方法 | |
CN115311270B (zh) | 一种塑料制品表面缺陷检测方法 | |
CN115577275A (zh) | 一种基于lof和孤立森林的时序数据异常监测系统及方法 | |
CN115359807B (zh) | 一种用于城市噪声污染的噪声在线监测系统 | |
CN111461201A (zh) | 基于相空间重构的传感器数据分类方法 | |
CN117313222B (zh) | 基于bim技术的建筑施工数据处理方法 | |
CN112163637B (zh) | 基于非平衡数据的图像分类模型训练方法、装置 | |
CN115459782A (zh) | 基于时序分割和聚类的工业物联网高频数据压缩方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN113889192B (zh) | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 | |
CN116418882B (zh) | 基于hplc双模载波通信的存储器数据压缩方法 | |
CN113971735A (zh) | 一种深度图像聚类方法、系统、设备、介质及终端 | |
CN115774860A (zh) | 一种基于多源数据融合计算的领域引擎技术识别方法 | |
CN111696670A (zh) | 一种基于深度森林的产前胎儿监护智能判读方法 | |
CN117423338B (zh) | 一种数字人交互对话方法和系统 | |
CN111178427A (zh) | 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法 | |
CN117376430B (zh) | 基于dcs的工业数据快速传输方法及系统 | |
CN117473351B (zh) | 基于物联网的电源信息远程传输系统 | |
CN116738297B (zh) | 一种基于深度自编码的糖尿病分型方法和系统 | |
CN117972406A (zh) | 一种基于大数据的指数体系模型构建方法 | |
CN116631563B (zh) | 一种医药行业大数据存储及智能匹配方法 | |
CN116403701A (zh) | 一种非小细胞肺癌患者tmb水平的预测方法及装置 | |
CN116386720A (zh) | 基于深度学习和注意力机制的单细胞转录因子预测方法 | |
CN114565617A (zh) | 基于剪枝U-Net++的乳腺肿块图像分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |