CN110021369B - 基因测序数据压缩解压方法、系统及计算机可读介质 - Google Patents

基因测序数据压缩解压方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN110021369B
CN110021369B CN201710999663.2A CN201710999663A CN110021369B CN 110021369 B CN110021369 B CN 110021369B CN 201710999663 A CN201710999663 A CN 201710999663A CN 110021369 B CN110021369 B CN 110021369B
Authority
CN
China
Prior art keywords
sequence
gene
compression
sequencing data
reference genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710999663.2A
Other languages
English (en)
Other versions
CN110021369A (zh
Inventor
李�根
宋卓
刘蓬侠
王振国
冯博伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genetalks Bio Tech Changsha Co ltd
Original Assignee
Genetalks Bio Tech Changsha Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genetalks Bio Tech Changsha Co ltd filed Critical Genetalks Bio Tech Changsha Co ltd
Priority to CN201710999663.2A priority Critical patent/CN110021369B/zh
Priority to US16/618,401 priority patent/US20200294629A1/en
Priority to PCT/CN2018/106188 priority patent/WO2019080670A1/zh
Publication of CN110021369A publication Critical patent/CN110021369A/zh
Application granted granted Critical
Publication of CN110021369B publication Critical patent/CN110021369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3068Precoding preceding compression, e.g. Burrows-Wheeler transformation
    • H03M7/3071Prediction
    • H03M7/3075Space

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基因测序数据压缩解压方法、系统及计算机可读介质,压缩方法通过将读序列R和参考基因组进行比对获取等长基因字符序列CS;将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出,解压方法为压缩方法的逆向处理。本发明能够将压缩率更进一步降低、在获得相对较好的压缩率时算法的压缩/解压时间相对较短、可兼容各种将读序列和参考基因组进行比对的算法,具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则压缩率就越低。

Description

基因测序数据压缩解压方法、系统及计算机可读介质
技术领域
本发明涉及基因测序和数据压缩技术,具体涉及一种基因测序数据压缩解压方法、系统及计算机可读介质。
背景技术
近年来,随着下一代测序技术(Next Generation Sequence, NGS)的持续进步,基因测序的速度更快,成本更低,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用,从而导致基因测序产生的原始数据量以每年3到5倍、甚至更快的速度爆炸式增长。而且,每个基因测序样本数据又很大,例如一个人的55x全基因组测序数据大约是400GB。因此,海量的基因测试数据的存储、管理、检索和传输面临技术和成本的挑战。数据压缩(data compression)就是缓解这个挑战的技术之一。数据压缩,是为了减少存储空间而把数据转换成比原始格式更紧凑形式的过程。原始的输入数据包含我们需要压缩或减小尺寸的符号序列。这些符号被压缩器编码,输出结果是编码过的数据。通常在之后的某个时间,编码后的数据会被输入到一个解压缩器,在这里数据被解码、重建,并以符号序列的形式输出原始数据。如果输出数据和输入数据始终完全相同,那么这个压缩方案被称为无损的(lossless),也称无损编码器。否则,它就是一个有损的(lossy)压缩方案。
目前,世界各国研究人员已经开发出多种用于基因测序数据的压缩方法。基于基因测序数据的用途,其压缩后必须随时可以重建、恢复成原始数据,因此,有实际意义的基因测序数据压缩方法都是无损压缩。如果按总的技术路线分类,可以将基因测序数据压缩方法分成三大类:通用(general purpose)压缩算法、有参考基因组(reference-based)的压缩算法和无参考基因组(reference-free)的压缩算法。
有参考基因组压缩算法,就是选取某个基因组数据作为参考基因组,利用基因测序数据自身的特点,以及目标样本数据和参考基因组数据之间的相似性,间接进行数据压缩。已有的有参考基因组压缩算法常用的相似性表示、编码和压缩方法主要还是霍夫曼编码、以LZ77和LZ78为代表的字典方法、算术编码等基础的压缩算法及其变种和优化。对于人类,这个参考基因组大概有3GB个A/C/G/T的字符。因此,任何人的测序获得基因测序数据的每一个读序列都能匹配到这个3GB字符串的某一个位置。基于上述特点,现有技术的有参考基因组(reference-based)的压缩算法中,如果某一个读序列比对到参考基因组中的某一个位置,则使用一个相对参考基因组的位置信息、一个cigar串来描述这一个读序列。因为大部分读序列并不是一字不差与参考序列匹配上的,因此,cigar串通常看起来是这个样子的:比如读序列为“.... ACCTTGG ...”其在参考基因组中匹配的参考序列为“....AACCTTGG...”,则对应的cigar串:M1D1M6, M表示匹配、D表示删除,意思就是从开头起,匹配了1个字符(A)、删除了一个字符(A)、后面继续匹配6个字符(CCTTGG)。因为“相对参考基因组的位置+一个cigar串”,可以在有参考序列的情况下,完全还原读序列的数据,且cigar串相对原来的随机字符更好压缩,因此通常的压缩器,就将读序列通过比对,处理成“相对参考基因组的位置+一个cigar串”,然后压缩。
衡量压缩算法性能或效率的2个最常用的技术指标是:压缩率(compressionratio)或压缩比;压缩/解压时间或压缩/解压速度。压缩率=(压缩后数据大小/压缩前数据大小)*100%,压缩比=(压缩前数据大小/压缩后数据大小),即压缩率和压缩比互为倒数。压缩率和压缩比只和压缩算法本身有关,多种算法间可以直接进行比较,压缩率越小或压缩比越大,表明算法性能或效率越好;压缩/解压时间,即从读取原始数据到解压完成所需的机器运行时间;压缩/解压速度,即平均每单位时间可以处理压缩的数据量。压缩/解压时间和压缩/解压速度,既和压缩算法本身有关,也和使用的机器环境(包括硬件和系统软件)有关,因此,多种算法必须基于相同的机器环境运行,压缩/解压时间或压缩/解压速度的比较才有意义,在此前提下,压缩/解压时间越短,压缩/解压速度越快,表明算法性能或效率越好。另外,还有一个参考技术指标是运行时的资源消耗,主要是机器存储的峰值。在压缩率和压缩/解压时间相当的情况下,对存储的要求越少,表明算法性能或效率越好。
根据研究人员对已有的基因测序数据压缩方法的比较研究结果,无论是通用压缩算法、无参考基因组的压缩算法,还是有参考基因组压缩算法,都存在的问题有:1、压缩率还有进一步下降的空间;2、在获得相对较好的压缩率时,算法的压缩/解压时间相对较长,时间成本成为新的问题。此外,与通用压缩算法和无参考基因组压缩算法相比,有参考基因组压缩算法通常能获得更好的压缩率。但是,对于有参考基因组的压缩算法,参考基因组的选择会导致算法性能的稳定性问题,即处理相同的目标样本数据,当选择不同的参考基因组时,压缩算法性能可能存在明显差异;而使用相同的参考基因组选择策略,当处理同种的、不同的基因测序样本数据时,压缩算法的性能同样可能存在明显差异。尤其是对于有参考基因组压缩算法而言,如何基于参考基因组提高对基因测序数据的压缩率以及压缩性能,已经成为一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种的基因测序数据压缩解压方法、系统及计算机可读介质,本发明具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对获取读序列R最近似的等长基因字符序列CS的准确度越高则重复字符串就越多,压缩的压缩率就越低。
为了解决上述技术问题,本发明采用的技术方案为:
一方面,本发明提供一种基因测序数据压缩方法,实施步骤包括:
A1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
A2)针对每一条读序列R,将读序列R和参考基因组进行比对获取其在参考基因组中的最近似位置p,得到与读序列R最近似的等长基因字符序列CS;将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出。
优选地,步骤A2)的详细步骤包括:
A2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R;
A2.2)将读序列R和参考基因组进行比对获取其在参考基因组中的最近似位置p,得到与读序列R最近似的等长基因字符序列CS;
A2.3)将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;
A2.4)将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出;
A2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤A2.1);否则结束并退出。
优选地,所述可逆函数具体采用XOR异或运算或者位减法。
优选地,步骤A2)中的压缩具体是指使用统计模型和熵编码进行压缩。
另一方面,本发明还提供一种基因测序数据解压方法,实施步骤包括:
B1)从待解压的基因测序数据datac中遍历获取待解压读序列Rc
B2)针对每一条待解压读序列Rc,将待解压读序列Rc解压重构为在参考基因组中的最近似位置p和长度为Lr位的可逆运算结果CS1;根据在参考基因组中的最近似位置p,在参考基因组中获取长度为Lr位的基因字符串CS2;将可逆运算结果CS1、基因字符串CS2通过可逆函数的反函数进行逆向运算,得到待解压读序列Rc对应的原始读序列R并输出,所述逆向运算将任意一对相同的字符编码的运算输出结果相同。
优选地,步骤B2)的详细步骤包括:
B2.1)从待解压的基因测序数据datac中遍历获取一条待解压读序列Rc
B2.2)将待解压读序列Rc解压重构为在参考基因组中的最近似位置p和长度为Lr位的可逆运算结果CS1;
B2.3)根据在参考基因组中的最近似位置p,在参考基因组中获取长度为Lr位的基因字符串CS2;
B2.4)将可逆运算结果CS1、基因字符串CS2通过可逆函数的反函数进行逆向运算,得到待解压读序列Rc对应的原始读序列R并输出,所述逆向运算将任意一对相同的字符编码的运算输出结果相同;
B2.5)判断待解压的基因测序数据datac的待解压读序列Rc是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤B2.1);否则结束并退出。
优选地,所述可逆函数具体采用XOR异或函数或位减法函数,XOR异或函数的反函数为XOR异或函数,位减法函数的反函数为位加法函数。
优选地,步骤B2)中的解压重构具体是指使用统计模型和熵编码的逆算法进行解压重构。
此外,本发明还提供一种基因测序数据解压系统,包括计算机系统,所述计算机系统被编程以执行本发明前述基因测序数据压缩方法或者本发明前述基因测序数据解压方法的步骤。
此外,本发明还提供一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序使计算机执行本发明前述基因测序数据压缩方法或者本发明前述基因测序数据解压方法的步骤。
本发明具有下述优点:
1、本发明的基因测序数据压缩方法是一种无损的、有参考基因组的基因测序数据压缩方法,通过将读序列R和参考基因组进行比对获取等长基因字符序列CS;将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出,能够有效提升基因序列数据的压缩倍率,具有压缩率低,压缩时间短,压缩性能稳定的优点。
2、区别于现有技术使用参考序列进行基因序列精准比对后再进行数据压缩,本发明方法对将读序列R和参考基因组进行比对获取等长基因字符序列CS时不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则可逆运算结果中的重复字符串就越多,从而压缩的压缩率就越低。
3、本发明方法将读序列R和参考基因组进行比对获取等长基因字符序列CS时可通用各种基因测序数据比对方法,得到与读序列R最近似的等长基因字符序列CS的效率越高、精确度越高,则对应会导致压缩效率越高、压缩率越低。
本发明基因测序数据解压方法为本发明基因测序数据压缩方法对应的逆向方法,其同样也具有本发明基因测序数据压缩方法的前述优点,故在此不再赘述。
附图说明
图1为本发明实施例压缩方法的基本原理示意图。
图2为本发明实施例解压方法的基本原理示意图。
具体实施方式
参见图1,本实施例基因测序数据压缩方法的实施步骤包括:
A1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
A2)针对每一条读序列R,将读序列R和参考基因组进行比对获取其在参考基因组中的最近似位置p,得到与读序列R最近似的等长基因字符序列CS;将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,可逆函数将任意一对相同的字符编码的运算输出结果相同;将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出。
本实施例基因测序数据压缩方法能够将压缩率更进一步降低、在获得相对较好的压缩率时算法的压缩/解压时间相对较短、可兼容各种将读序列和参考基因组进行比对的算法。
本实施例中,步骤A2)的详细步骤包括:
A2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R;
A2.2)将读序列R和参考基因组进行比对获取其在参考基因组中的最近似位置p,得到与读序列R最近似的等长基因字符序列CS;
A2.3)将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,可逆函数将任意一对相同的字符编码的运算输出结果相同;
A2.4)将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出;
A2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤A2.1);否则结束并退出。
本实施例中,可逆函数具体采用XOR异或运算或者位减法。
本实施例中,步骤A2)中的压缩具体是指使用统计模型和熵编码进行压缩。
参见图2,本实施例基因测序数据解压方法的实施步骤包括:
B1)从待解压的基因测序数据datac中遍历获取待解压读序列Rc
B2)针对每一条待解压读序列Rc,将待解压读序列Rc解压重构为在参考基因组中的最近似位置p和长度为Lr位的可逆运算结果CS1;根据在参考基因组中的最近似位置p,在参考基因组中获取长度为Lr位的基因字符串CS2;将可逆运算结果CS1、基因字符串CS2通过可逆函数的反函数进行逆向运算,得到待解压读序列Rc对应的原始读序列R并输出,逆向运算将任意一对相同的字符编码的运算输出结果相同。
本实施例中,步骤B2)的详细步骤包括:
B2.1)从待解压的基因测序数据datac中遍历获取一条待解压读序列Rc
B2.2)将待解压读序列Rc解压重构为在参考基因组中的最近似位置p和长度为Lr位的可逆运算结果CS1;
B2.3)根据在参考基因组中的最近似位置p,在参考基因组中获取长度为Lr位的基因字符串CS2;
B2.4)将可逆运算结果CS1、基因字符串CS2通过可逆函数的反函数进行逆向运算,得到待解压读序列Rc对应的原始读序列R并输出,逆向运算将任意一对相同的字符编码的运算输出结果相同;
B2.5)判断待解压的基因测序数据datac的待解压读序列Rc是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤B2.1);否则结束并退出。
可逆函数具体采用XOR异或函数或位减法函数,XOR异或函数的反函数为XOR异或函数,位减法函数的反函数为位加法函数。本实施例中,逆向运算具体是指XOR异或运算。本实施例中,A、C、G、T四种基因字母分别被编码为00、01、10和11四种字符编码,例如某一位基因字母为A,而预测字符c同样为A,则该位的XOR异或操作结果(可逆运算结果)为00,否则XOR异或操作结果根据输入字符不同而有所不同;在解压时,针对预测字符c的字符编码和XOR异或操作结果(可逆运算结果)再进行XOR异或操作(XOR异或函数的反函数进行逆向运算),即可复原得到原始的基因字母。将A、C、G、T四种基因字母分别被编码为00、01、10和11四种字符编码是一种优选的比较精简的编码方式,此外也可以根据需要采用其他的二进制编码方式,同样也可以实现基因字母、预测字符、可逆运算结果三者的可逆转换。毫无疑问,除了XOR异或运算以外,可逆运算也可以采用减法,此时则可逆运算的逆运算为加法,同样也可以实现基因字母、预测字符、可逆运算结果三者的可逆转换。
本实施例中,步骤B2)中的解压重构具体是指使用统计模型和熵编码的逆算法进行解压重构。
此外,本实施例还提供一种基因测序数据解压系统,包括计算机系统,该计算机系统被编程以执行本实施例基因测序数据压缩方法或者本实施例基因测序数据解压方法的步骤。
此外,本实施例还提供一种计算机可读介质,计算机可读介质上存储有计算机程序,该计算机程序使计算机执行本实施例基因测序数据压缩方法或者本实施例基因测序数据解压方法的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基因测序数据压缩方法,其特征在于实施步骤包括:
A1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
A2)针对每一条读序列R,将读序列R和参考基因组进行比对获取其在参考基因组中的最近似位置p,得到与读序列R最近似的等长基因字符序列CS;将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出。
2.根据权利要求1所述的基因测序数据压缩方法,其特征在于,步骤A2)的详细步骤包括:
A2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R;
A2.2)将读序列R和参考基因组进行比对获取其在参考基因组中的最近似位置p,得到与读序列R最近似的等长基因字符序列CS;
A2.3)将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;
A2.4)将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出;
A2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤A2.1);否则结束并退出。
3.根据权利要求1或2所述的基因测序数据压缩方法,其特征在于,所述可逆函数具体采用XOR异或运算或者位减法。
4.根据权利要求1所述的基因测序数据压缩方法,其特征在于,步骤A2)中的压缩具体是指使用统计模型和熵编码进行压缩。
5.一种基因测序数据解压方法,其特征在于实施步骤包括:
B1)从待解压的基因测序数据datac中遍历获取待解压读序列Rc
B2)针对每一条待解压读序列Rc,将待解压读序列Rc解压重构为在参考基因组中的最近似位置p和长度为Lr位的可逆运算结果CS1;根据在参考基因组中的最近似位置p,在参考基因组中获取长度为Lr位的基因字符串CS2;将可逆运算结果CS1、基因字符串CS2通过可逆函数的反函数进行逆向运算,得到待解压读序列Rc对应的原始读序列R并输出,所述逆向运算将任意一对相同的字符编码的运算输出结果相同。
6.根据权利要求5所述的基因测序数据解压方法,其特征在于,步骤B2)的详细步骤包括:
B2.1)从待解压的基因测序数据datac中遍历获取一条待解压读序列Rc
B2.2)将待解压读序列Rc解压重构为在参考基因组中的最近似位置p和长度为Lr位的可逆运算结果CS1;
B2.3)根据在参考基因组中的最近似位置p,在参考基因组中获取长度为Lr位的基因字符串CS2;
B2.4)将可逆运算结果CS1、基因字符串CS2通过可逆函数的反函数进行逆向运算,得到待解压读序列Rc对应的原始读序列R并输出,所述逆向运算将任意一对相同的字符编码的运算输出结果相同;
B2.5)判断待解压的基因测序数据datac的待解压读序列Rc是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤B2.1);否则结束并退出。
7.根据权利要求5或6所述的基因测序数据解压方法,其特征在于,所述可逆函数具体采用XOR异或函数或位减法函数,XOR异或函数的反函数为XOR异或函数,位减法函数的反函数为位加法函数。
8.根据权利要求5所述的基因测序数据解压方法,其特征在于,步骤B2)中的解压重构具体是指使用统计模型和熵编码的逆算法进行解压重构。
9.一种基因测序数据解压系统,包括计算机系统,其特征在于,所述计算机系统被编程以执行权利要求1~4中任意一项所述的基因测序数据压缩方法或者权利要求5~8中任意一项所述的基因测序数据解压方法的步骤。
10.一种计算机可读介质,所述计算机可读介质上存储有计算机程序,其特征在于,所述计算机程序使计算机执行权利要求1~4中任意一项所述的基因测序数据压缩方法或者权利要求5~8中任意一项所述的基因测序数据解压方法的步骤。
CN201710999663.2A 2017-10-24 2017-10-24 基因测序数据压缩解压方法、系统及计算机可读介质 Active CN110021369B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710999663.2A CN110021369B (zh) 2017-10-24 2017-10-24 基因测序数据压缩解压方法、系统及计算机可读介质
US16/618,401 US20200294629A1 (en) 2017-10-24 2018-09-18 Gene sequencing data compression method and decompression method, system and computer-readable medium
PCT/CN2018/106188 WO2019080670A1 (zh) 2017-10-24 2018-09-18 基因测序数据压缩解压方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710999663.2A CN110021369B (zh) 2017-10-24 2017-10-24 基因测序数据压缩解压方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN110021369A CN110021369A (zh) 2019-07-16
CN110021369B true CN110021369B (zh) 2020-03-17

Family

ID=66247749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710999663.2A Active CN110021369B (zh) 2017-10-24 2017-10-24 基因测序数据压缩解压方法、系统及计算机可读介质

Country Status (3)

Country Link
US (1) US20200294629A1 (zh)
CN (1) CN110021369B (zh)
WO (1) WO2019080670A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708074B (zh) * 2019-08-26 2022-12-02 人和未来生物科技(长沙)有限公司 Sam及bam文件cigar域的压缩及解压还原方法、系统和介质
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
WO2021134574A1 (zh) * 2019-12-31 2021-07-08 深圳华大智造科技有限公司 创建基因突变词典及利用基因突变词典压缩基因组数据的方法和装置
CN112489731B (zh) * 2020-11-30 2024-02-23 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN115270169B (zh) * 2022-05-18 2023-06-13 蔓之研(上海)生物科技有限公司 一种基因数据的解压方法及系统
CN117238504B (zh) * 2023-11-01 2024-04-09 江苏亿通高科技股份有限公司 一种智慧城市cim数据优化处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN107066837A (zh) * 2017-04-01 2017-08-18 上海交通大学 一种有参考dna序列压缩方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
CN106169020A (zh) * 2016-06-27 2016-11-30 臻和(北京)科技有限公司 一种数据处理方法和基于基因分型的肿瘤伴随诊断系统
CN106971090A (zh) * 2017-03-10 2017-07-21 首度生物科技(苏州)有限公司 一种基因测序数据压缩和传输方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN107066837A (zh) * 2017-04-01 2017-08-18 上海交通大学 一种有参考dna序列压缩方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"DNA数据压缩方法的研究";谭丽;《中国博士学位论文全文数据库信息科技辑》;20141115(第11期);第I136-12页 *

Also Published As

Publication number Publication date
US20200294629A1 (en) 2020-09-17
WO2019080670A1 (zh) 2019-05-02
CN110021369A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN103814396B (zh) 编解码比特流的方法和装置
WO2019153700A1 (zh) 编解码方法、装置及编解码设备
KR101049699B1 (ko) 데이터의 압축방법
CN116681036B (zh) 基于数字孪生的工业数据存储方法
WO2010044100A1 (en) Lossless compression
CN103067022A (zh) 一种整型数据无损压缩方法、解压缩方法及装置
CN106407285A (zh) 一种基于rle和lzw的优化比特文件压缩与解压缩方法
US11551785B2 (en) Gene sequencing data compression preprocessing, compression and decompression method, system, and computer-readable medium
CN109871362A (zh) 一种面向流式时序数据的数据压缩方法
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN110021368B (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
US20100321218A1 (en) Lossless content encoding
US6748520B1 (en) System and method for compressing and decompressing a binary code image
CN117177100B (zh) 一种智能ar偏振数据传输方法
JP5913748B2 (ja) セキュアで損失のないデータ圧縮
CN113312325B (zh) 轨迹数据传输方法、装置、设备及存储介质
CN109698703B (zh) 基因测序数据解压方法、系统及计算机可读介质
Al-Hashemi et al. A new lossless image compression technique based on Bose, Chandhuri and Hocquengham (BCH) codes
CN104682966B (zh) 列表数据的无损压缩方法
CN102932001B (zh) 运动捕获数据压缩、解压缩方法
CN116471337A (zh) 一种基于bwt和lzw的报文压缩与解压缩方法及设备
Shoba et al. A Study on Data Compression Using Huffman Coding Algorithms
CN109698704B (zh) 比对型基因测序数据解压方法、系统及计算机可读介质
CN110111851B (zh) 基因测序数据压缩方法、系统及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant