CN110021368B - 比对型基因测序数据压缩方法、系统及计算机可读介质 - Google Patents

比对型基因测序数据压缩方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN110021368B
CN110021368B CN201710982786.5A CN201710982786A CN110021368B CN 110021368 B CN110021368 B CN 110021368B CN 201710982786 A CN201710982786 A CN 201710982786A CN 110021368 B CN110021368 B CN 110021368B
Authority
CN
China
Prior art keywords
gene
sequence
predicted
compression
read sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710982786.5A
Other languages
English (en)
Other versions
CN110021368A (zh
Inventor
李�根
宋卓
刘蓬侠
王振国
冯博伦
马丑贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genetalks Bio Tech Changsha Co ltd
Original Assignee
Genetalks Bio Tech Changsha Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genetalks Bio Tech Changsha Co ltd filed Critical Genetalks Bio Tech Changsha Co ltd
Priority to CN201710982786.5A priority Critical patent/CN110021368B/zh
Publication of CN110021368A publication Critical patent/CN110021368A/zh
Application granted granted Critical
Publication of CN110021368B publication Critical patent/CN110021368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种比对型基因测序数据压缩方法、系统及计算机可读介质,压缩方法针对基因测序数据样本中的每一条读序列R,选择原始基因字符串CS0,按照顺序生成长度为k的短串K‑mer,依次将短串K‑mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到所有预测字符c构成的预测字符集PS;将读序列R的Lr‑k位、预测字符集PS编码后通过可逆函数进行可逆运算;将读序列R的正负链类型d、CS0以及可逆运算结果作为三条数据流压缩输出。本发明具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则压缩率就越低。

Description

比对型基因测序数据压缩方法、系统及计算机可读介质
技术领域
本发明涉及基因测序和数据压缩技术,具体涉及一种比对型基因测序数据压缩方法、系统及计算机可读介质。
背景技术
近年来,随着下一代测序技术(Next Generation Sequence, NGS)的持续进步,基因测序的速度更快,成本更低,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用,从而导致基因测序产生的原始数据量以每年3到5倍、甚至更快的速度爆炸式增长。而且,每个基因测序样本数据又很大,例如一个人的55x全基因组测序数据大约是400GB。因此,海量的基因测试数据的存储、管理、检索和传输面临技术和成本的挑战。
数据压缩(data compression)就是缓解这个挑战的技术之一。数据压缩,是为了减少存储空间而把数据转换成比原始格式更紧凑形式的过程。原始的输入数据包含我们需要压缩或减小尺寸的符号序列。这些符号被压缩器编码,输出结果是编码过的数据。通常在之后的某个时间,编码后的数据会被输入到一个解压缩器,在这里数据被解码、重建,并以符号序列的形式输出原始数据。如果输出数据和输入数据始终完全相同,那么这个压缩方案被称为无损的(lossless),也称无损编码器。否则,它就是一个有损的(lossy)压缩方案。
目前,世界各国研究人员已经开发出多种用于基因测序数据的压缩方法。基于基因测序数据的用途,其压缩后必须随时可以重建、恢复成原始数据,因此,有实际意义的基因测序数据压缩方法都是无损压缩。如果按总的技术路线分类,可以将基因测序数据压缩方法分成三大类:通用(general purpose)压缩算法、有参考基因组(reference-based)的压缩算法和无参考基因组(reference-free)的压缩算法。
通用压缩算法,就是不考虑基因测序数据的特点,采用通用的压缩方法进行数据压缩。
无参考基因组压缩算法,就是不使用参考基因组,只是利用基因测序数据自身的特点,采用某种压缩方法对目标样本数据直接进行数据压缩。已有的无参考基因组压缩算法常用的压缩方法有霍夫曼编码、以LZ77和LZ78为代表的字典方法、算术编码等基础的压缩算法及其变种和优化。
有参考基因组压缩算法,就是选取某个基因组数据作为参考基因组,利用基因测序数据自身的特点,以及目标样本数据和参考基因组数据之间的相似性,间接进行数据压缩。已有的有参考基因组压缩算法常用的相似性表示、编码和压缩方法主要还是霍夫曼编码、以LZ77和LZ78为代表的字典方法、算术编码等基础的压缩算法及其变种和优化。
衡量压缩算法性能或效率的2个最常用的技术指标是:压缩率(compressionratio)或压缩比;压缩/解压时间或压缩/解压速度。压缩率=(压缩后数据大小/压缩前数据大小)x 100%,压缩比=(压缩前数据大小/压缩后数据大小),即压缩率和压缩比互为倒数。压缩率和压缩比只和压缩算法本身有关,多种算法间可以直接进行比较,压缩率越小或压缩比越大,表明算法性能或效率越好;压缩/解压时间,即从读取原始数据到解压完成所需的机器运行时间;压缩/解压速度,即平均每单位时间可以处理压缩的数据量。压缩/解压时间和压缩/解压速度,既和压缩算法本身有关,也和使用的机器环境(包括硬件和系统软件)有关,因此,多种算法必须基于相同的机器环境运行,压缩/解压时间或压缩/解压速度的比较才有意义,在此前提下,压缩/解压时间越短,压缩/解压速度越快,表明算法性能或效率越好。另外,还有一个参考技术指标是运行时的资源消耗,主要是机器存储的峰值。在压缩率和压缩/解压时间相当的情况下,对存储的要求越少,表明算法性能或效率越好。
根据研究人员对已有的基因测序数据压缩方法的比较研究结果,无论是通用压缩算法、无参考基因组的压缩算法,还是有参考基因组压缩算法,都存在的问题有:1、压缩率还有进一步下降的空间;2、在获得相对较好的压缩率时,算法的压缩/解压时间相对较长,时间成本成为新的问题。此外,与通用压缩算法和无参考基因组压缩算法相比,有参考基因组压缩算法通常能获得更好的压缩率。但是,对于有参考基因组的压缩算法,参考基因组的选择会导致算法性能的稳定性问题,即处理相同的目标样本数据,当选择不同的参考基因组时,压缩算法性能可能存在明显差异;而使用相同的参考基因组选择策略,当处理同种的、不同的基因测序样本数据时,压缩算法的性能同样可能存在明显差异。尤其是对于有参考基因组压缩算法而言,如何基于参考基因组提高对基因测序数据的压缩率以及压缩性能,已经成为一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种比对型基因测序数据压缩方法、系统及计算机可读介质,本发明的基因测序数据压缩方法是一种无损的、有参考基因组的基因测序数据压缩方法,通过将短串K-mer和参考基因组进行比对生成预测字符集PS,将读序列R的后Lr-k位、预测字符集PS编码后进行可逆运算后以数据流的方式压缩输出,具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则可逆运算结果中的重复字符串就越多,从而压缩的压缩率就越低。
为了解决上述技术问题,本发明采用的技术方案为:
一方面,本发明提供一种比对型基因测序数据压缩方法,实施步骤包括:
1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
2)针对每一条读序列R,选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以长度为k的滑动窗口顺序生成定长的k位字符串作为短串K-mer,依次将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数对任意一对相同的字符编码的运算输出结果相同;将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出。
优选地,步骤2)的详细步骤包括:
2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R,针对读序列R选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以长度为k的滑动窗口顺序生成长度为k的定长子字符串作为短串K-mer得到读序列短串集合KR;
2.2)针对读序列短串集合KR中的每一个短串K-mer,根据短串K-mer确定读序列R的正负链类型d,且将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;
2.3)将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数对任意一对相同的字符编码的运算输出结果相同;
2.4)将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出;
2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤2.1);否则结束并退出。
优选地,步骤2.2)的详细步骤包括:
2.2.1)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的正链S1进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述正链S1为原始顺序的参考基因组数据本身,所述预测字符c为短串K-mer在对应的正链S1中最可能的下一个基因字符,将所有预测字符c组合得到正链预测字符序列PS1;
2.2.2)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的负链S2进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述负链S2为参考基因组数据dataref的逆序互补基因序列,所述逆序互补基因序列和参考基因组数据dataref之间碱基A和T互换、碱基C和G互换,所述预测字符c为短串K-mer在对应的负链S2中最可能的下一个基因字符,将所有预测字符c组合得到负链预测字符序列PS2;
2.2.3)计算正链预测字符序列PS1、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L1,计算负链预测字符序列PS2、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L2;
2.2.4)判断编辑距离L1小于L2是否成立,如果成立则判定读序列R的正负链类别d为正链,将正链预测字符序列PS1作为读序列R的预测字符集PS;否则,判定读序列R的正负链类别d为负链,将负链预测字符序列PS2作为读序列R的预测字符集PS。
优选地,步骤2)中的可逆函数具体是指XOR异或函数或者位减法函数。
优选地,步骤2)中的压缩具体是指使用统计模型和熵编码进行压缩。
一方面,本发明还提供一种比对型基因测序数据压缩系统,包括计算机系统,所述计算机系统被编程以执行本发明前述的比对型基因测序数据压缩方法的步骤。
此外,本发明还提供一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序使计算机系统执行本发明前述的比对型基因测序数据压缩方法的步骤。
本发明具有下述优点:
1、本发明的基因测序数据压缩方法是一种无损的、有参考基因组的基因测序数据压缩方法,通过将短串K-mer和参考基因组进行比对生成预测字符集PS,将读序列R的后Lr-k位、预测字符集PS编码后进行可逆运算后以数据流的方式压缩输出,能够有效提升基因序列数据的压缩倍率,具有压缩率低,压缩时间短,压缩性能稳定的优点。
2、区别于现有技术使用参考序列进行基因序列精准比对后再进行数据压缩,本发明方法对通过将短串K-mer和参考基因组进行比对生成预测字符集PS时不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则可逆运算结果中的重复字符串就越多,从而压缩的压缩率就越低。
3、本发明方法将短串K-mer和参考基因组进行比对生成预测字符集PS时可通用各种基因测序数据比对方法,将短串K-mer和参考基因组进行比对的效率越高、精确度越高,则对应会导致压缩效率越高、压缩率越低。
附图说明
图1为本发明实施例方法的基本原理示意图。
具体实施方式
参见图1,本实施例比对型基因测序数据压缩方法的实施步骤包括:
1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
2)针对每一条读序列R,选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以长度为k的滑动窗口顺序生成定长的k位字符串作为短串K-mer,依次将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数对任意一对相同的字符编码的运算输出结果相同;将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出。
需要说明的是,获取相邻位的预测字符c时,相邻位的定义和选择原始基因字符串CS0的方式相关,如果选择原始基因字符串CS0为读序列R的前k位,则相邻位是指下一位;如果选择原始基因字符串CS0为读序列R的后k位,则相邻位是指上一位;如果选择原始基因字符串CS0为读序列R的中间k位,则相邻位包括上一位和下一位。参见图1,本实施例中相邻位具体指下一位,选择原始基因字符串CS0时选择前k位原始基因字母,读序列R中不含k位原始基因字母的Lr-k位原始基因字母具体是指读序列R中的Lr-k位原始基因字母。
本实施例中,步骤2)的详细步骤包括:
2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R,针对读序列R选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以长度为k的滑动窗口顺序生成长度为k的定长子字符串作为短串K-mer得到读序列短串集合KR;
2.2)针对读序列短串集合KR中的每一个短串K-mer,根据短串K-mer确定读序列R的正负链类型d,且将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;
2.3)将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数对任意一对相同的字符编码的运算输出结果相同;
2.4)将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出;
2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤2.1);否则结束并退出。
本实施例中,步骤2.2)的详细步骤包括:
2.2.1)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的正链S1进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述正链S1为原始顺序的参考基因组数据本身,所述预测字符c为短串K-mer在对应的正链S1中最可能的下一个基因字符,将所有预测字符c组合得到正链预测字符序列PS1;
2.2.2)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的负链S2进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述负链S2为参考基因组数据 dataref的逆序互补基因序列,所述逆序互补基因序列和参考基因组数据dataref之间碱基A和T互换、碱基C和G互换,所述预测字符c为短串K-mer在对应的负链S2中最可能的下一个基因字符,将所有预测字符c组合得到负链预测字符序列PS2;
2.2.3)计算正链预测字符序列PS1、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L1,计算负链预测字符序列PS2、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L2;
2.2.4)判断编辑距离L1小于L2是否成立,如果成立则判定读序列R的正负链类别d为正链,将正链预测字符序列PS1作为读序列R的预测字符集PS;否则,判定读序列R的正负链类别d为负链,将负链预测字符序列PS2作为读序列R的预测字符集PS。
本实施例中,步骤2)中的可逆函数具体是指XOR异或函数。本实施例中,A、C、G、T四种基因字母分别被编码为00、01、10和11四种字符编码,例如某一位基因字母为A,而预测字符c同样为A,则该位的XOR异或操作结果(可逆运算结果)为00,否则XOR异或操作结果根据预测字符c不同而有所不同;在解压时,针对预测字符c的字符编码和XOR异或操作结果(可逆运算结果)再进行XOR异或操作(通过可逆函数的反函数进行逆向操作),即可复原得到原始的基因字母。将A、C、G、T四种基因字母分别被编码为00、01、10和11四种字符编码是一种优选的比较精简的编码方式,此外也可以根据需要采用其他的二进制编码方式,同样也可以实现基因字母、预测字符、可逆运算结果三者的可逆转换。毫无疑问,除了XOR异或函数以外,可逆函数也可以采用位减法函数,此时则可逆函数的反函数为位加法函数,同样也可以实现基因字母、预测字符、可逆运算结果三者的可逆转换。
本实施例中,步骤2)中的压缩具体是指使用统计模型和熵编码进行压缩。
本实施例还提供一种比对型基因测序数据压缩系统,包括计算机系统,计算机系统被编程以执行本实施例前述基因测序数据压缩方法的步骤,在此不再赘述。此外,本实施例还提供一种计算机可读介质,计算机可读介质上存储有计算机程序,计算机程序使计算机执行本实施例前述种比对型基因测序数据压缩方法的步骤,在此不再赘述。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种比对型基因测序数据压缩方法,其特征在于实施步骤包括:
1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
2)针对每一条读序列R,选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以长度为k的滑动窗口顺序生成定长的k位字符串作为短串K-mer,依次将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数对任意一对相同的字符编码的运算输出结果相同;将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出。
2.根据权利要求1所述的比对型基因测序数据压缩方法,其特征在于,步骤2)的详细步骤包括:
2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R,针对读序列R选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以长度为k的滑动窗口顺序生成长度为k的定长子字符串作为短串K-mer得到读序列短串集合KR;
2.2)针对读序列短串集合KR中的每一个短串K-mer,根据短串K-mer确定读序列R的正负链类型d,且将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;
2.3)将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数对任意一对相同的字符编码的运算输出结果相同;
2.4)将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出;
2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤2.1);否则结束并退出。
3.根据权利要求2所述的比对型基因测序数据压缩方法,其特征在于,步骤2.2)的详细步骤包括:
2.2.1)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的正链S1进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述正链S1为原始顺序的参考基因组数据本身,所述预测字符c为短串K-mer在对应的正链S1中最可能的下一个基因字符,将所有预测字符c组合得到正链预测字符序列PS1;
2.2.2)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的负链S2进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述负链S2为参考基因组数据 dataref的逆序互补基因序列,所述逆序互补基因序列和参考基因组数据dataref之间碱基A和T互换、碱基C和G互换,所述预测字符c为短串K-mer在对应的负链S2中最可能的下一个基因字符,将所有预测字符c组合得到负链预测字符序列PS2;
2.2.3)计算正链预测字符序列PS1、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L1,计算负链预测字符序列PS2、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L2;
2.2.4)判断编辑距离L1小于L2是否成立,如果成立则判定读序列R的正负链类别d为正链,将正链预测字符序列PS1作为读序列R的预测字符集PS;否则,判定读序列R的正负链类别d为负链,将负链预测字符序列PS2作为读序列R的预测字符集PS。
4.根据权利要求1所述的比对型基因测序数据压缩方法,其特征在于,步骤2)中的可逆函数具体是指XOR异或函数或者位减法函数。
5.根据权利要求1所述的比对型基因测序数据压缩方法,其特征在于,步骤2)中的压缩具体是指使用统计模型和熵编码进行压缩。
6.一种比对型基因测序数据压缩系统,包括计算机系统,其特征在于,所述计算机系统被编程以执行权利要求1~5中任意一项所述的比对型基因测序数据压缩方法的步骤。
7.一种计算机可读介质,所述计算机可读介质上存储有计算机程序,其特征在于,所述计算机程序使计算机系统执行权利要求1~5中任意一项所述的比对型基因测序数据压缩方法的步骤。
CN201710982786.5A 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质 Active CN110021368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710982786.5A CN110021368B (zh) 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710982786.5A CN110021368B (zh) 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN110021368A CN110021368A (zh) 2019-07-16
CN110021368B true CN110021368B (zh) 2020-07-17

Family

ID=67186691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710982786.5A Active CN110021368B (zh) 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN110021368B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731B (zh) * 2020-11-30 2024-02-23 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN113285720B (zh) * 2021-05-28 2023-07-07 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备
CN116723251B (zh) * 2023-08-09 2023-10-17 江苏太湖锅炉股份有限公司 基于传感器网络的智能锅炉自动监测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707A (zh) * 2011-01-07 2011-06-01 深圳大学 一种dna序列数据压缩系统
CN103093121A (zh) * 2012-12-28 2013-05-08 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN106096332A (zh) * 2016-06-28 2016-11-09 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631239B (zh) * 2014-10-30 2018-08-17 国际商业机器公司 用于管理基因序列的方法和装置
US10678505B2 (en) * 2015-10-08 2020-06-09 University Of Virginia Patent Foundation Subset encoding method: increasing pattern density for finite automata

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707A (zh) * 2011-01-07 2011-06-01 深圳大学 一种dna序列数据压缩系统
CN103093121A (zh) * 2012-12-28 2013-05-08 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN106096332A (zh) * 2016-06-28 2016-11-09 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高通量DNA测序数据压缩研究进展;朱泽轩等;《深圳大学学报(理工版)》;20130731;第30卷(第4期);第409-415页 *

Also Published As

Publication number Publication date
CN110021368A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN100553152C (zh) 基于cabac的编码方法和设备及解码方法和设备
KR101049699B1 (ko) 데이터의 압축방법
US20130031092A1 (en) Method and apparatus for compressing genetic data
US20110181448A1 (en) Lossless compression
US7728740B2 (en) Data compression for communication between two or more components in a system
KR101969848B1 (ko) 유전자 데이터를 압축하는 방법 및 장치
JP2014525183A (ja) 2dマトリクスにエンコーディングパラメータを保存する画像圧縮のための方法および装置
CN110021368B (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
US11551785B2 (en) Gene sequencing data compression preprocessing, compression and decompression method, system, and computer-readable medium
US7786903B2 (en) Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US20100321218A1 (en) Lossless content encoding
JP5570409B2 (ja) データ圧縮装置及びデータ圧縮方法及びデータ圧縮プログラム
CN109698703B (zh) 基因测序数据解压方法、系统及计算机可读介质
Goel A compression algorithm for DNA that uses ASCII values
CN110111851B (zh) 基因测序数据压缩方法、系统及计算机可读介质
JP4000266B2 (ja) データ符号化装置、データ符号化方法、及びそのプログラム
CN109698702B (zh) 基因测序数据压缩预处理方法、系统及计算机可读介质
CN109698704B (zh) 比对型基因测序数据解压方法、系统及计算机可读介质
JP4093193B2 (ja) データ圧縮方法及びプログラムならびにデータ復元方法及び装置
CN111640467B (zh) 基于自适应编码顺序的dna测序质量分数无损压缩方法
US8462023B2 (en) Encoding method and encoding apparatus for B-transform, and encoded data for same
JP2005286371A (ja) データ圧縮方法及びプログラムならびにデータ復元方法及び装置
CN117828683B (zh) 一种版式文件数字签名方法及系统
CN115514967B (zh) 基于二进制块双向编码的图像压缩方法及图像解压方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant