CN115798605A - 纳米孔测序原始信号数据压缩方法、装置、设备及介质 - Google Patents
纳米孔测序原始信号数据压缩方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115798605A CN115798605A CN202211415179.8A CN202211415179A CN115798605A CN 115798605 A CN115798605 A CN 115798605A CN 202211415179 A CN202211415179 A CN 202211415179A CN 115798605 A CN115798605 A CN 115798605A
- Authority
- CN
- China
- Prior art keywords
- data
- sequencing
- path
- nanopore sequencing
- base sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种纳米孔测序原始信号数据压缩方法、装置、设备及介质,通过获取纳米孔测序文件,提取纳米孔测序文件中的数据集部分,提取第一数据集中的碱基序列数据,调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。与传统VBZ压缩方式相比,本技术方案在进行实施时,预先提取出碱基序列数据,由于该碱基序列数据与第二数据集中的测序原始信号数据相关性高,考虑到原始信号数据的大部分特性,在采用无损压缩的SSDC压缩器结合碱基序列数据对第二数据集进行压缩处理时,可以大大提高压缩性能,保证压缩质量。
Description
技术领域
本发明涉及基因测序技术领域,具体涉及纳米孔测序原始信号数据压缩方法、装置、设备及介质。
背景技术
在过去的几十年间,测序技术的不断进步使得基因组测序的成本不断降低、测序的通量和测序精度不断提高,这为人们在解构复杂的基因组结构和回答基因组变异导致的表型变化和疾病发生原理时提供了重要的技术支持。
目前已有的与纳米孔测序原始信号数据相关的压缩器有Picopore以及VBZ,Picopore压缩器的压缩方式存在的缺点是它对于下机Fast5文件中的原始信号数据的压缩仅仅是将Fast5文件数据集内置的Gzip压缩等级由默认的最低级设置到了最高级,并未对数据自身进行额外的操作。而VBZ压缩器的压缩方式存在的缺点是VBZ只是通过利用原始信号数据的部分特性实现压缩,并没有考虑到利用Fast5不同数据集之间的相关性来提升压缩性能,特别是原始信号数据和对应的碱基序列数据之间的相关性,即现有的压缩方式存在压缩效果不佳的问题。
因此,现有技术有待于改善。
发明内容
本发明的主要目的在于提出一种纳米孔测序原始信号数据压缩方法、系统、装置、设备及介质,以至少解决相关技术中压缩方式的压缩效果差的问题。
本发明的第一方面,提供了一种纳米孔测序原始信号数据压缩方法,包括:
获取纳米孔测序文件,提取所述纳米孔测序文件中的数据集部分;其中,所述数据集部分包括用于存储测序碱基数据的第一数据集和用于存储测序原始信号数据的第二数据集;
提取所述第一数据集中的碱基序列数据;
调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。
本发明的第二方面提供了一种自定义应用加固安全装置,包括:
获取模块,用于获取纳米孔测序文件,提取所述纳米孔测序文件中的数据集部分;其中,所述数据集部分包括用于存储测序碱基数据的第一数据集和用于存储测序原始信号数据的第二数据集;
提取模块,用于提取所述第一数据集中的碱基序列数据;
调用模块,用于调用预设的SSDC压缩器对所述碱基序列数据及所述第二数据集进行压缩处理,得到压缩数据。
本发明的第三方面,提供了一种电子设备,包括存储器、处理器及总线;
所述总线用于实现所述存储器、处理器之间的连接通信;
所述处理器用于执行存储在所述存储器上的计算机程序;
所述处理器执行所述计算机程序时,实现第一方面提供的纳米孔测序原始信号数据压缩方法中的步骤。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现第一方面提供的纳米孔测序原始信号数据压缩方法中的步骤。
本发明提供了一种纳米孔测序原始信号数据压缩方法、装置、设备及介质,通过获取纳米孔测序文件,提取纳米孔测序文件中的数据集部分,提取第一数据集中的碱基序列数据,调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。即本技术方案在进行实施时,预先提取出碱基序列数据,由于该碱基序列数据与第二数据集中的测序原始信号数据相关性高,在采用无损压缩的SSDC压缩器对第二数据集进行压缩的过程中,能够大大提高压缩性能,保证压缩质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中碱基的测序流程示意图;
图2为相关技术中测序结果数据的示意图;
图3为相关技术中原始信号数据的示意图;
图4为本申请实施例中提供的纳米孔测序原始信号数据压缩方法的流程示意图;
图5为本申请实施例中通过距离矩阵计算元素和最小的目标路径的示意图;
图6为本申请实施例中第一数据集中的碱基序列数据、第二数据集的压缩成最终压缩数据的流程示意图;
图7为本申请第三实施例提供的攻击防护验证装置的程序模块示意图;
图8为本申请第四实施例提供的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要注意的是,相关术语如“第一”、“第二”等可以用于描述各种组件,但是这些术语并不限制该组件。这些术语仅用于区分一个组件和另一组件。例如,不脱离本发明的范围,第一组件可以被称为第二组件,并且第二组件类似地也可以被称为第一组件。术语“和/或”是指相关项和描述项的任何一个或多个的组合。
相关技术中,纳米孔测序作为能够测定更长读长的序列(最长可达10000碱基对),且无需复杂的文库构建过程的第三代测序技术的代表,近年来受到学界广泛的关注。它的核心是由一个带有纳米孔的电阻膜组成,孔内共价结合有分子接头,将纳米孔蛋白固定在电阻膜上后,再利用动力蛋白牵引核酸穿过纳米孔。当核酸穿过纳米孔时使电荷发生变化,从而引起电阻膜上电流的变化。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG等单个碱基的带电性质不一样,因此不同碱基通过蛋白纳米孔时对电流产生的干扰不同。这些电流信号被实时采样以产生纳米孔测序仪下机的原始信号数据,然后再将这一特异性的电信号序列利用Bonito、Chiron等算法软件翻译为碱基序列,这一过程也被称为BaseCalling,即碱基识别,从而实现测序,如图1所示。
由于目前有关BaseCalling技术的研究仍在改进中,并有进一步提高精度的余地,因此除了保存测序得到的结果Fastq数据外,如图2所示,还需要保留纳米孔测序原始信号数据,如图3所示,对应纳米孔测序产生的原始下机Fast5文件中的数据集,以便对测序数据进行重复分析。而存储硬件以及传输数据的成本的下降速度远远无法与基因测序数据的增长速度相匹配,使得基因测序行业的数据存储和传输问题成为瓶颈,高效率的压缩算法是解决这一瓶颈的有效方式。并且由于原始电流信号的连续性和高采样率,对应的原始信号数据比存储碱基序列所需的空间还多一个数量级,因此需要针对原始信号数据设计更高效的压缩算法。
目前已有的与纳米孔测序原始信号数据相关的压缩器有Picopore以及VBZ,Picopore压缩器的压缩方式存在的缺点是它对于下机Fast5文件中的原始信号数据的压缩仅仅是将Fast5文件数据集内置的Gzip压缩等级由默认的最低级设置到了最高级,并未对数据自身进行额外的操作。而VBZ压缩器的压缩方式存在的缺点是VBZ只是通过利用原始信号数据的部分特性实现压缩,并没有考虑到利用Fast5不同数据集之间的相关性来提升压缩性能,特别是原始信号数据和对应的碱基序列数据之间的相关性。即现有的压缩方式存在压缩效果不佳的问题。
如此,为了解决相关技术存在的压缩效果不佳的技术问题,请参阅图4,本申请提出一种纳米孔测序原始信号数据压缩方法,其具体包括:
步骤S401,获取纳米孔测序文件,提取纳米孔测序文件中的数据集部分;
具体的,纳米孔测序文件FAST5表示能够测定更长读长的序列(最长可达10000碱基对)文件,按照预设提取规则对其进行提取操作,可以得到纳米孔测序文件中的数据集部分Datasets,在该数据集部分Datasets中一般包括第一数据集Fastq和第二数据集RawSignal,该第一数据集用于存储测序碱基数据,该第二数据集用于存储测序原始信号数据。
步骤S402,提取第一数据集中的碱基序列数据;
具体的,对第一数据集进行提取处理,得到第一数据集中的碱基序列数据BaseSequence;如此能够得到与测序原始信号数据有较高相关性的该碱基序列数据BaseSequence。
更具体的,测序原始信号数据、碱基序列数据Base Sequence之间的相关程度高是表明碱基序列数据是由测序原始信号数据得来的。主要是因为碱基序列数据是测序原始信号数据通过碱基识别技术(BaseCalling)得到的,则采用逆向思维来利用碱基序列数据生成一个模拟的测序原始信号数据,然后去与原本真实的数据作差,通过存储差值而减小数据量。比如:碱基序列数据设为x,原始信号数据设为y,有Ay=x,此处A便代表纳米孔碱基识别技术。而这里是Bx=y’,B代表纳米孔测序提供的官方统计数据k-mer孔模型,可近似替代A的逆过程,y’代表第一预期信号。
步骤S403,调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。
具体的,当得到碱基序列数据和第二数据集后,由于碱基序列数据与第二数据集中的测序原始信号数据有较高相关性(较高相关程度),基于相关性较高的多个数据进行压缩能够有更好的压缩质量、效果;则调用基于模拟信号差值的压缩器(Simulation SignalDifference Compressor,简称SSDC)结合碱基序列数据对第二数据集进行压缩处理,由于该SSDC压缩器是一种针对纳米孔测序原始信号数据的无损压缩工具,其能够利用原始信号数据和对应的碱基序列数据之间的相关性来提升压缩性能。即本技术方案在进行实施时,预先提取出碱基序列数据,由于该碱基序列数据与第二数据集中的测序原始信号数据相关性高,考虑到原始信号数据的大部分特性,再采用无损压缩的SSDC压缩器对第二数据集进行压缩处理,从而大大提高压缩性能,保证压缩质量。
在本实施例的一些实施方式中,调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据的步骤,具体包括:
步骤S201,调用预设的SSDC压缩器中的孔模型对碱基序列数据进行处理,生成第一预期信号;
具体的,可以通过纳米孔测序官方提供的k-mer孔模型对碱基序列数据进行处理,生成第一预期信号Xe。其中,纳米孔测序中的k-mer孔模型用于对穿过纳米孔的单链DNA中给定k-mer核苷酸的预期电流信号进行建模,其中对于R9.4 pore chemistry的纳米孔测序来说k等于6。这个问题可以表述如下:给定一个输入长度为L的碱基序列X=x1,x2,…,xL,其中xi是一个4态的核苷酸碱基,可以从DNA的{A,T,C,G}中取一个值。则相应生成相应的预期电流信号Y=y1,y2,…,yL-5,其中yi是从X(例如‘ACCCGT’)中位置i开始的6-mer的预期电流信号。如此,可以将Y的长度延长到与X相同的长度,方法是用Y的最后一个值(即yL)或所有6-mer的平均预期信号值填充Y的末端。
在本实施例的一些实施方式中,生成第一预期信号时,还可以通过用于纳米孔测序的模拟器工具,例如ReadSim、SiLiCO、NanoSim;它们是利用输入的碱基序列和一组参数来生成模拟数据,这里的参数指的是例如插入和删失率、替换率、读取长度、错误率和质量分数等。例如,ReadSim使用固定的配置文件;Silico使用用户提供的配置文件;NanoSim使用用户提供的经验数据来学习将在模拟阶段使用的配置文件。
步骤S202,对第一预期信号进行映射处理,得到第二预期信号;
具体的,由于电流测量的频率比DNA序列的通过速度高8-10倍,导致原始信号序列和第一预期信号序列是不等长的。因此通过映射得到与原始信号等长的第二预期信号Xs,映射的方式可以是端对端映射方式。如此,保证所得到的第二预期信号的长度等于测序原始信号数据的长度。
步骤S203,对第二预期信号和测序原始信号数据进行压缩处理,得到压缩数据。
具体的,当得到第二预期信号和测序原始信号数据后,由于第二预期信号的长度等于测序原始信号数据的长度,基于两种信号的长度相同,在对这两种信号进行压缩可以得到压缩质量更好的压缩数据。
在本实施例的一些实施方式中,对第一预期信号进行映射处理,得到第二预期信号的步骤,具体包括:确定测序原始信号数据中首端数据和尾端数据,根据首端数据和尾端数据对第一预期信号进行端对端映射处理,得到第二预期信号。
具体的,可以采用动态时间规整算法(Dynamic Time Warping,简称DTW)寻找第一预期信号到测序原始信号数据的最佳的端到端映射;例如,先确定测序原始信号数据中首端数据和尾端数据,根据首端数据和尾端数据对第一预期信号进行端对端映射处理,得到与原始信号等长的第二预期信号。
在本实施例的一些实施方式中,对第二预期信号和测序原始信号数据进行压缩处理,得到压缩数据的步骤,具体包括:
根据第二预期信号得到第一时间序列,根据测序原始信号数据得到第二时间序列,对第一时间序列和第二时间序列进行计算,得到规整路径及规整路径距离,根据规整路径及所述规整路径距离得到压缩数据。
具体的,由于所得到的第二预期信号是表示多个时间段及多个时间段对应的信号波长,则可以将第二预期信号进行序列定义,可以按照时间先后顺序得到对应的第一时间序列A;同样的,可以通过测序原始信号数据得到对应的第二时间序列B。其中,分布对应原问题中的第二预期信号和预期信号,长度分布为|A|和|B|。然后对第一时间序列A和第二时间序列B进行计算,得到规整路径W及规整路径距离D,根据规整路径及整路径距离得到压缩数据。
在本实施例的一些实施方式中,对第一时间序列和第二时间序列进行计算,得到规整路径及规整路径距离的步骤,具体包括:通过第一时间序列和第二时间序列建立距离矩阵,在距离矩阵中计算元素和最小的目标路径,将目标路径作为规整路径,将目标路径对应的元素和作为规整路径距离。
具体的,基于预设的规整路径的形式为W=w1,w2,…,wk,对应规整路径距离D=d1,d2,…,dk,其中Max(|A|,|B|)<=K<=|A|+|B|。wk的形式为(i,j),其中i表示的是第二时间序列B中的i坐标,j表示的是第一时间序列A中的j坐标。矩阵从左上角到右下角的路径长度有以下性质:(1)当前的路径长度=前一步的路径长度+当前元素的大小;(2)路径上的某个元素(i,j),它的前一个元素只可能为三者之一,即左边的相邻元素(i,j-1)、上面的相邻元素(i-1,j)和左上方的相邻元素(i-1,j-1)。则基于上述性质,以及距离矩阵由多个元素组成,目标路径的初始位置为距离矩阵的左上角,目标路径的末尾位置为距离矩阵的右下角,则通过距离矩阵最终可以得到的规整路径是距离最短的一个规整路径,这个过程可使用动态规划来进行求解,如图5所示样例,对于时间序列A={1,6,3,6,4,5}和B={2,4,2,5},最终得到规整路径W={(1,1),(2,2),(2,3),(3,3),(4,4),(4,5),(4,6)}和规整路径距离D={1,2,1,1,1,1,0}。
在本实施例的一些实施方式中,根据规整路径及规整路径距离得到压缩数据的步骤,具体包括:在规整路径中确定出现次数大于预设次数阈值的目标坐标,在规整路径中删除目标坐标,并在规整路径距离中删除与目标坐标对应的距离值,得到目标规整路径和目标规整路径距离。
具体的,因为最终目的是能通过预期信号序列和映射关系去还原得到原始信号序列,所以可以在不影响最终目的的情况下,在规整路径中删除目标坐标,并在规整路径距离中删除与目标坐标对应的距离值,也即先去除规整路径中存在的重复j坐标的w和对应的d值,即通过确定出现次数大于预设阈值的目标坐标,并删除目标坐标w和对应的d值,然后只保存去重后的规整路径中的i坐标,以此来减少存储空间。最后经过去重后得到目标规整路径W1={1,2,2,4,4,4}和目标规整路径距离D1={1,2,1,1,1,0}即为我们需要存储的数据。其中,目标规整路径和目标规整路径距离组成压缩数据。
其中,在得到目标规整路径和目标规整路径距离后,可以进一步的进行压缩:对于目标规整路径,可以通过预设的差分编码(Differential Encoding)方法结合区间编码(Range Encoding)方法进行进一步压缩,对于目标规整路径距离,先通过预设的线性预测编码(Linear Predictive Coding,简称LPC)方法去利用上下文关系得到值更小的线性预测误差,然后再结合区间编码进行进一步压缩,从而最终得到最终压缩数据CompressResults(可参阅图6)。
应当理解的是,动态时间规整算法会设置有时间复杂度,其可由DTW原本的O(N1*N2)变为O(N*logN),N=min(N1,N2),N1和N2分布对应两条序列的元素数量。该动态时间规整算法包括三个关键部分:连续小波变换表示、上下文相关约束DTW和多级细化。具体的如下:
(1)连续小波变换表示首先是对每个输入信号序列运行连续小波变换(Continuous Wavelet Transform,简称CWT)以获得信息的特征表示,随后是峰值和谷值的选取以产生长度减小的低分辨率信号。
(2)上下文相关约束DTW采用以较低分辨率计算的规整路径,来确定以较高分辨率计算的规整路径的搜索边界。
(3)多级细化将来自不同尺度的CWT的低分辨率和高分辨率信息结合起来,当级别越来越细时,逐步细化规整路径,直到最终的路径达到输入序列的原始分辨率。
相较于现有技术中VBZ压缩通过使用可变字节整数编码方式来压缩纳米孔原始信号数据,本发明的SSDC压缩利用了碱基序列和对应原始信号序列之间的相关性,通过生成预期信号并结合DTW算法建立端到端的映射,将存储原始信号的问题转化为存储映射结果的方式,使得压缩效果提升了5%左右。而相较于现有技术中的Picopore通过调整Gzip压缩等级方式来压缩纳米孔原始信号数据,本发明的压缩效果提升了33%左右。
图7示出本申请第二实施例所提供的一种数据压缩装置,包括:
获取模块701,用于获取纳米孔测序文件,提取纳米孔测序文件中的数据集部分;其中,数据集部分包括用于存储测序碱基数据的第一数据集和用于存储测序原始信号数据的第二数据集;
提取模块702,用于提取第一数据集中的碱基序列数据;
调用模块703,用于调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。
上述数据压缩装置在进行实施时,获取模块701用于获取纳米孔测序文件,提取纳米孔测序文件中的数据集部分,提取模块702用于提取第一数据集中的碱基序列数据,调用模块703用于调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。即本技术方案在进行实施时,预先提取出碱基序列数据,由于该碱基序列数据与第二数据集中的测序原始信号数据相关性高,考虑到原始信号数据的大部分特性,再采用无损压缩的SSDC压缩器结合该碱基序列数据对第二数据集进行压缩处理,从而大大提高压缩性能,保证压缩质量。
图8示出了本发明第四实施例所提供的电子设备,该电子设备可用于实现前述任一实施例中的纳米孔测序原始信号数据压缩方法。该电子设备包括:
存储器801、处理器802、总线803及存储在存储器801上并可在处理器802上运行的计算机程序,存储器801和处理器802通过总线803连接。处理器802执行该计算机程序时,实现前述实施例中的纳米孔测序原始信号数据压缩方法。其中,处理器的数量可以是一个或多个。
存储器801可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器801用于存储可执行程序代码,处理器802与存储器801耦合。
进一步的,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是存储器。
该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述实施例中的纳米孔测序原始信号数据压缩方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种纳米孔测序原始信号数据压缩方法,其特征在于,包括:
获取纳米孔测序文件,提取所述纳米孔测序文件中的数据集部分;其中,所述数据集部分包括用于存储测序碱基数据的第一数据集和用于存储测序原始信号数据的第二数据集;
提取所述第一数据集中的碱基序列数据;
调用预设的SSDC压缩器结合提取出的所述碱基序列数据对所述第二数据集进行压缩处理,得到压缩数据。
2.如权利要求1所述纳米孔测序原始信号数据压缩方法,其特征在于,所述调用预设的SSDC压缩器结合提取出的所述碱基序列数据对所述第二数据集进行压缩处理,得到压缩数据的步骤,具体包括:
调用预设的SSDC压缩器中的孔模型对所述碱基序列数据进行处理,生成第一预期信号;
对所述第一预期信号进行映射处理,得到第二预期信号;其中,所述第二预期信号的长度等于所述测序原始信号数据的长度;
对所述第二预期信号和所述测序原始信号数据进行压缩处理,得到压缩数据。
3.如权利要求2所述纳米孔测序原始信号数据压缩方法,其特征在于,所述对所述第一预期信号进行映射处理,得到第二预期信号的步骤,具体包括:
确定所述测序原始信号数据中首端数据和尾端数据;
根据所述首端数据和尾端数据对所述第一预期信号进行端对端映射处理,得到第二预期信号。
4.如权利要求3所述纳米孔测序原始信号数据压缩方法,其特征在于,所述对所述第二预期信号和所述测序原始信号数据进行压缩处理,得到压缩数据的步骤,具体包括:
根据所述第二预期信号得到第一时间序列,根据所述测序原始信号数据得到第二时间序列;
对所述第一时间序列和所述第二时间序列进行计算,得到规整路径及规整路径距离;
根据所述规整路径及所述规整路径距离得到压缩数据。
5.如权利要求4所述纳米孔测序原始信号数据压缩方法,其特征在于,对所述第一时间序列和所述第二时间序列进行计算,得到规整路径及规整路径距离的步骤,具体包括:
通过所述第一时间序列和所述第二时间序列建立距离矩阵;其中,所述距离矩阵由多个元素组成;
在所述距离矩阵中计算元素和最小的目标路径;其中,所述目标路径的初始位置为所述距离矩阵的左上角,所述目标路径的末尾位置为所述距离矩阵的右下角;
将所述目标路径作为所述规整路径,将所述目标路径对应的元素和作为规整路径距离。
6.如权利要求5所述纳米孔测序原始信号数据压缩方法,其特征在于,所述根据所述规整路径及所述规整路径距离得到压缩数据的步骤,具体包括:
在所述规整路径中确定出现次数大于预设次数阈值的目标坐标;
在所述规整路径中删除所述目标坐标,并在所述规整路径距离中删除与所述目标坐标对应的距离值,得到目标规整路径和目标规整路径距离;
其中,目标规整路径和目标规整路径距离组成压缩数据。
7.如权利要求2所述纳米孔测序原始信号数据压缩方法,其特征在于,所述调用预设的SSDC压缩器中的孔模型对所述碱基序列数据进行处理,生成第一预期信号的步骤,具体包括:
调用预设的SSDC压缩器中的k-mer孔模型对所述碱基序列数据进行处理,生成第一预期信号。
8.一种数据压缩装置,其特征在于,包括:
获取模块,用于获取纳米孔测序文件,提取所述纳米孔测序文件中的数据集部分;其中,所述数据集部分包括用于存储测序碱基数据的第一数据集和用于存储测序原始信号数据的第二数据集;
提取模块,用于提取所述第一数据集中的碱基序列数据;
调用模块,用于调用预设的SSDC压缩器对所述碱基序列数据及所述第二数据集进行压缩处理,得到压缩数据。
9.一种电子设备,其特征在于,包括存储器、处理器及总线;
所述总线用于实现所述存储器、处理器之间的连接通信;
所述处理器用于执行存储在所述存储器上的计算机程序;
所述处理器执行所述计算机程序时,实现权利要求1至7中任意一项所述纳米孔测序原始信号数据压缩方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7中任意一项所述纳米孔测序原始信号数据压缩方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211415179.8A CN115798605A (zh) | 2022-11-11 | 2022-11-11 | 纳米孔测序原始信号数据压缩方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211415179.8A CN115798605A (zh) | 2022-11-11 | 2022-11-11 | 纳米孔测序原始信号数据压缩方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115798605A true CN115798605A (zh) | 2023-03-14 |
Family
ID=85437108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211415179.8A Pending CN115798605A (zh) | 2022-11-11 | 2022-11-11 | 纳米孔测序原始信号数据压缩方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115798605A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117594130A (zh) * | 2024-01-19 | 2024-02-23 | 北京普译生物科技有限公司 | 纳米孔测序信号评价方法、装置、电子设备和存储介质 |
WO2024037670A3 (zh) * | 2023-12-20 | 2024-10-10 | 深圳华大生命科学研究院 | 测序数据的压缩电路、模块及方法 |
-
2022
- 2022-11-11 CN CN202211415179.8A patent/CN115798605A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024037670A3 (zh) * | 2023-12-20 | 2024-10-10 | 深圳华大生命科学研究院 | 测序数据的压缩电路、模块及方法 |
CN117594130A (zh) * | 2024-01-19 | 2024-02-23 | 北京普译生物科技有限公司 | 纳米孔测序信号评价方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9929746B2 (en) | Methods and systems for data analysis and compression | |
CA2839802C (en) | Methods and systems for data analysis | |
CN115798605A (zh) | 纳米孔测序原始信号数据压缩方法、装置、设备及介质 | |
US10600217B2 (en) | Methods for the graphical representation of genomic sequence data | |
US10810239B2 (en) | Sequence data analyzer, DNA analysis system and sequence data analysis method | |
JPWO2016157275A1 (ja) | 計算機及びグラフデータ生成方法 | |
Garrison | Graphical pangenomics | |
CN116779044A (zh) | 基于多标签特征选择的基因分类方法、系统及设备 | |
US11823774B2 (en) | Compression/decompression method and apparatus for genomic variant call data | |
Daykin et al. | Indeterminate string factorizations and degenerate text transformations | |
KR20220089211A (ko) | 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치 | |
Froese et al. | Fast exact dynamic time warping on run-length encoded time series | |
CN110915140A (zh) | 用于编码和解码数据结构的质量值的方法 | |
Ochoa-Alvarez | Genomic data compression and processing: theory, models, algorithms, and experiments | |
Długosz et al. | Improvements in DNA reads correction | |
He et al. | A Novel Compression Algorithm for High-Throughput DNA Sequence Based on Huffman Coding Method | |
CN115798591A (zh) | 一种基于希尔伯特分形的基因组序列压缩方法 | |
KR102066213B1 (ko) | 데이터 처리 장치 및 방법 | |
WO2021245926A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
Biji et al. | NGS read data compression using parallel computing algorithm | |
Pulova-Mihaylova et al. | A System for Compression of Sequencing Data | |
Suaste Morales | Lossy Compression of Quality Values in Next-Generation Sequencing Data | |
da Silva | Efficient Biosequence Compression Using Neuralnetworks | |
CN117116365A (zh) | 一种基因多倍体图谱构建与变异检测方法及系统 | |
De Herve et al. | A perceptual hash function to store and retrieve large scale DNA sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |