CN110021368A - 比对型基因测序数据压缩方法、系统及计算机可读介质 - Google Patents

比对型基因测序数据压缩方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN110021368A
CN110021368A CN201710982786.5A CN201710982786A CN110021368A CN 110021368 A CN110021368 A CN 110021368A CN 201710982786 A CN201710982786 A CN 201710982786A CN 110021368 A CN110021368 A CN 110021368A
Authority
CN
China
Prior art keywords
sequence
character
gene
string
minus strand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710982786.5A
Other languages
English (en)
Other versions
CN110021368B (zh
Inventor
李�根
宋卓
刘蓬侠
王振国
冯博伦
马丑贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Human And Future Biotechnology (changsha) Co Ltd
Original Assignee
Human And Future Biotechnology (changsha) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Human And Future Biotechnology (changsha) Co Ltd filed Critical Human And Future Biotechnology (changsha) Co Ltd
Priority to CN201710982786.5A priority Critical patent/CN110021368B/zh
Publication of CN110021368A publication Critical patent/CN110021368A/zh
Application granted granted Critical
Publication of CN110021368B publication Critical patent/CN110021368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种比对型基因测序数据压缩方法、系统及计算机可读介质,压缩方法针对基因测序数据样本中的每一条读序列R,选择原始基因字符串CS0,按照顺序生成长度为k的短串K‑mer,依次将短串K‑mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到所有预测字符c构成的预测字符集PS;将读序列R的Lr‑k位、预测字符集PS编码后通过可逆函数进行可逆运算;将读序列R的正负链类型d、CS0以及可逆运算结果作为三条数据流压缩输出。本发明具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则压缩率就越低。

Description

比对型基因测序数据压缩方法、系统及计算机可读介质
技术领域
本发明涉及基因测序和数据压缩技术,具体涉及一种比对型基因测序数据压缩方法、系统及计算机可读介质。
背景技术
近年来,随着下一代测序技术(Next Generation Sequence, NGS)的持续进步,基因测序的速度更快,成本更低,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用,从而导致基因测序产生的原始数据量以每年3到5倍、甚至更快的速度爆炸式增长。而且,每个基因测序样本数据又很大,例如一个人的55x全基因组测序数据大约是400GB。因此,海量的基因测试数据的存储、管理、检索和传输面临技术和成本的挑战。
数据压缩(data compression)就是缓解这个挑战的技术之一。数据压缩,是为了减少存储空间而把数据转换成比原始格式更紧凑形式的过程。原始的输入数据包含我们需要压缩或减小尺寸的符号序列。这些符号被压缩器编码,输出结果是编码过的数据。通常在之后的某个时间,编码后的数据会被输入到一个解压缩器,在这里数据被解码、重建,并以符号序列的形式输出原始数据。如果输出数据和输入数据始终完全相同,那么这个压缩方案被称为无损的(lossless),也称无损编码器。否则,它就是一个有损的(lossy)压缩方案。
目前,世界各国研究人员已经开发出多种用于基因测序数据的压缩方法。基于基因测序数据的用途,其压缩后必须随时可以重建、恢复成原始数据,因此,有实际意义的基因测序数据压缩方法都是无损压缩。如果按总的技术路线分类,可以将基因测序数据压缩方法分成三大类:通用(general purpose)压缩算法、有参考基因组(reference-based)的压缩算法和无参考基因组(reference-free)的压缩算法。
通用压缩算法,就是不考虑基因测序数据的特点,采用通用的压缩方法进行数据压缩。
无参考基因组压缩算法,就是不使用参考基因组,只是利用基因测序数据自身的特点,采用某种压缩方法对目标样本数据直接进行数据压缩。已有的无参考基因组压缩算法常用的压缩方法有霍夫曼编码、以LZ77和LZ78为代表的字典方法、算术编码等基础的压缩算法及其变种和优化。
有参考基因组压缩算法,就是选取某个基因组数据作为参考基因组,利用基因测序数据自身的特点,以及目标样本数据和参考基因组数据之间的相似性,间接进行数据压缩。已有的有参考基因组压缩算法常用的相似性表示、编码和压缩方法主要还是霍夫曼编码、以LZ77和LZ78为代表的字典方法、算术编码等基础的压缩算法及其变种和优化。
衡量压缩算法性能或效率的2个最常用的技术指标是:压缩率(compressionratio)或压缩比;压缩/解压时间或压缩/解压速度。压缩率=(压缩后数据大小/压缩前数据大小)x 100%,压缩比=(压缩前数据大小/压缩后数据大小),即压缩率和压缩比互为倒数。压缩率和压缩比只和压缩算法本身有关,多种算法间可以直接进行比较,压缩率越小或压缩比越大,表明算法性能或效率越好;压缩/解压时间,即从读取原始数据到解压完成所需的机器运行时间;压缩/解压速度,即平均每单位时间可以处理压缩的数据量。压缩/解压时间和压缩/解压速度,既和压缩算法本身有关,也和使用的机器环境(包括硬件和系统软件)有关,因此,多种算法必须基于相同的机器环境运行,压缩/解压时间或压缩/解压速度的比较才有意义,在此前提下,压缩/解压时间越短,压缩/解压速度越快,表明算法性能或效率越好。另外,还有一个参考技术指标是运行时的资源消耗,主要是机器存储的峰值。在压缩率和压缩/解压时间相当的情况下,对存储的要求越少,表明算法性能或效率越好。
根据研究人员对已有的基因测序数据压缩方法的比较研究结果,无论是通用压缩算法、无参考基因组的压缩算法,还是有参考基因组压缩算法,都存在的问题有:1、压缩率还有进一步下降的空间;2、在获得相对较好的压缩率时,算法的压缩/解压时间相对较长,时间成本成为新的问题。此外,与通用压缩算法和无参考基因组压缩算法相比,有参考基因组压缩算法通常能获得更好的压缩率。但是,对于有参考基因组的压缩算法,参考基因组的选择会导致算法性能的稳定性问题,即处理相同的目标样本数据,当选择不同的参考基因组时,压缩算法性能可能存在明显差异;而使用相同的参考基因组选择策略,当处理同种的、不同的基因测序样本数据时,压缩算法的性能同样可能存在明显差异。尤其是对于有参考基因组压缩算法而言,如何基于参考基因组提高对基因测序数据的压缩率以及压缩性能,已经成为一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种比对型基因测序数据压缩方法、系统及计算机可读介质,本发明的基因测序数据压缩方法是一种无损的、有参考基因组的基因测序数据压缩方法,通过将短串K-mer和参考基因组进行比对生成预测字符集PS,将读序列R的后Lr-k位、预测字符集PS编码后进行可逆运算后以数据流的方式压缩输出,具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则可逆运算结果中的重复字符串就越多,从而压缩的压缩率就越低。
为了解决上述技术问题,本发明采用的技术方案为:
一方面,本发明提供一种比对型基因测序数据压缩方法,实施步骤包括:
1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
2)针对每一条读序列R,选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以k位长度作为滑动窗口顺序生成定长的k位字符串作为短串K-mer,依次将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出。
优选地,步骤2)的详细步骤包括:
2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R,针对读序列R选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以k位长度作为滑动窗口顺序生成长度为k的定长子字符串作为短串K-mer得到读序列短串集合KR;
2.2)针对读序列短串集合KR中的每一个短串K-mer,根据短串K-mer确定读序列R的正负链类型d,且将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;
2.3)将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;
2.4)将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出;
2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤2.1);否则结束并退出。
优选地,步骤2.2)的详细步骤包括:
2.2.1)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的正链S1进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述正链S1为原始顺序的参考基因组数据本身,所述预测字符c为短串K-mer在对应的正链S1中最可能的下一个基因字符,将所有预测字符c组合得到正链预测字符序列PS1;
2.2.2)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的负链S2进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述负链S2为参考基因组数据 dataref的逆序互补基因序列,所述逆序互补基因序列和参考基因组数据dataref之间碱基A和T互换、碱基C和G互换,所述预测字符c为短串K-mer在对应的负链S2中最可能的下一个基因字符,将所有预测字符c组合得到的负链预测字符序列PS2;
2.2.3)计算正链预测字符序列PS1、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L1,计算负链预测字符序列PS2、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L2;
2.2.4)判断编辑距离为L1小于L2是否成立,如果成立则判定读序列R的正负链类别d为正链、将正链预测字符序列PS1作为读序列R的预测字符集PS;否则,判定读序列R的正负链类别d为负链、将负链预测字符序列PS2作为读序列R的预测字符集PS。
优选地,步骤2)中的可逆函数具体是指XOR异或函数或者位减法函数。
优选地,步骤2)中的压缩具体是指使用统计模型和熵编码进行压缩。
一方面,本发明还提供一种比对型基因测序数据压缩系统,包括计算机系统,所述计算机系统被编程以执行本发明前述的比对型基因测序数据压缩方法的步骤。
此外,本发明还提供一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序使计算机系统执行本发明前述的比对型基因测序数据压缩方法的步骤。
本发明具有下述优点:
1、本发明的基因测序数据压缩方法是一种无损的、有参考基因组的基因测序数据压缩方法,通过将短串K-mer和参考基因组进行比对生成预测字符集PS,将读序列R的后Lr-k位、预测字符集PS编码后进行可逆运算后以数据流的方式压缩输出,能够有效提升基因序列数据的压缩倍率,具有压缩率低,压缩时间短,压缩性能稳定的优点。
2、区别于现有技术使用参考序列进行基因序列精准比对后再进行数据压缩,本发明方法对通过将短串K-mer和参考基因组进行比对生成预测字符集PS时不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则可逆运算结果中的重复字符串就越多,从而压缩的压缩率就越低。
3、本发明方法将短串K-mer和参考基因组进行比对生成预测字符集PS时可通用各种基因测序数据比对方法,将短串K-mer和参考基因组进行比对的效率越高、精确度越高,则对应会导致压缩效率越高、压缩率越低。
附图说明
图1为本发明实施例方法的基本原理示意图。
具体实施方式
参见图1,本实施例比对型基因测序数据压缩方法的实施步骤包括:
1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
2)针对每一条读序列R,选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以k位长度作为滑动窗口顺序生成定长的k位字符串作为短串K-mer,依次将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出。
需要说明的是,获取相邻位的预测字符c时,相邻位的定义和选择原始基因字符串CS0的方式相关,如果选择原始基因字符串CS0为读序列R的前k位,则相邻位是指下一位;如果选择原始基因字符串CS0为读序列R的后k位,则相邻位是指上一位;如果选择原始基因字符串CS0为读序列R的中间k位,则相邻位包括上一位和下一位。参见图1,本实施例中相邻位具体指下一位,选择原始基因字符串CS0时选择前k位原始基因字母,读序列R中不含k位原始基因字母的Lr-k位原始基因字母具体是指读序列R中的Lr-k位原始基因字母。
本实施例中,步骤2)的详细步骤包括:
2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R,针对读序列R选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以k位长度作为滑动窗口顺序生成长度为k的定长子字符串作为短串K-mer得到读序列短串集合KR;
2.2)针对读序列短串集合KR中的每一个短串K-mer,根据短串K-mer确定读序列R的正负链类型d,且将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;
2.3)将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;
2.4)将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出;
2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤2.1);否则结束并退出。
本实施例中,步骤2.2)的详细步骤包括:
2.2.1)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的正链S1进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述正链S1为原始顺序的参考基因组数据本身,所述预测字符c为短串K-mer在对应的正链S1中最可能的下一个基因字符,将所有预测字符c组合得到正链预测字符序列PS1;
2.2.2)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的负链S2进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述负链S2为参考基因组数据 dataref的逆序互补基因序列,所述逆序互补基因序列和参考基因组数据dataref之间碱基A和T互换、碱基C和G互换,所述预测字符c为短串K-mer在对应的负链S2中最可能的下一个基因字符,将所有预测字符c组合得到的负链预测字符序列PS2;
2.2.3)计算正链预测字符序列PS1、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L1,计算负链预测字符序列PS2、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L2;
2.2.4)判断编辑距离为L1小于L2是否成立,如果成立则判定读序列R的正负链类别d为正链、将正链预测字符序列PS1作为读序列R的预测字符集PS;否则,判定读序列R的正负链类别d为负链、将负链预测字符序列PS2作为读序列R的预测字符集PS。
本实施例中,步骤2)中的可逆函数具体是指XOR异或函数。本实施例中,A、C、G、T四种基因字母分别被编码为00、01、10和11四种字符编码,例如某一位基因字母为A,而预测字符c同样为A,则该位的XOR异或操作结果(可逆运算结果)为00,否则XOR异或操作结果根据预测字符c不同而有所不同;在解压时,针对预测字符c的字符编码和XOR异或操作结果(可逆运算结果)再进行XOR异或操作(通过可逆函数的反函数进行逆向操作),即可复原得到原始的基因字母。将A、C、G、T四种基因字母分别被编码为00、01、10和11四种字符编码是一种优选的比较精简的编码方式,此外也可以根据需要采用其他的二进制编码方式,同样也可以实现基因字母、预测字符、可逆运算结果三者的可逆转换。毫无疑问,除了XOR异或函数以外,可逆函数也可以采用位减法函数,此时则可逆函数的反函数为位加法函数,同样也可以实现基因字母、预测字符、可逆运算结果三者的可逆转换。
本实施例中,步骤2)中的压缩具体是指使用统计模型和熵编码进行压缩。
本实施例还提供一种比对型基因测序数据压缩系统,包括计算机系统,计算机系统被编程以执行本实施例前述基因测序数据压缩方法的步骤,在此不再赘述。此外,本实施例还提供一种计算机可读介质,计算机可读介质上存储有计算机程序,计算机程序使计算机执行本实施例前述种比对型基因测序数据压缩方法的步骤,在此不再赘述。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种比对型基因测序数据压缩方法,其特征在于实施步骤包括:
1)从基因测序数据样本data中遍历获取读长为Lr的读序列R;
2)针对每一条读序列R,选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以k位长度作为滑动窗口顺序生成定长的k位字符串作为短串K-mer,依次将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出。
2.根据权利要求1所述的比对型基因测序数据压缩方法,其特征在于,步骤2)的详细步骤包括:
2.1)从基因测序数据样本data中遍历获取一条读长为Lr的读序列R,针对读序列R选择k位原始基因字母作为原始基因字符串CS0,从原始基因字符串CS0开始以k位长度作为滑动窗口顺序生成长度为k的定长子字符串作为短串K-mer得到读序列短串集合KR;
2.2)针对读序列短串集合KR中的每一个短串K-mer,根据短串K-mer确定读序列R的正负链类型d,且将短串K-mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到由所有预测字符c构成的预测字符集PS;
2.3)将读序列R中不含k位原始基因字母的Lr-k位原始基因字母、预测字符集PS编码后通过可逆函数进行可逆运算,所述可逆函数将任意一对相同的字符编码的运算输出结果相同;
2.4)将读序列R的正负链类型d、原始基因字符串CS0以及可逆运算结果作为三条数据流压缩输出;
2.5)判断基因测序数据样本data中的读序列R是否遍历完毕,如果尚未遍历完毕,则跳转执行步骤2.1);否则结束并退出。
3.根据权利要求2所述的比对型基因测序数据压缩方法,其特征在于,步骤2.2)的详细步骤包括:
2.2.1)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的正链S1进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述正链S1为原始顺序的参考基因组数据本身,所述预测字符c为短串K-mer在对应的正链S1中最可能的下一个基因字符,将所有预测字符c组合得到正链预测字符序列PS1;
2.2.2)针对读序列短串集合KR顺序提取短串K-mer,通过和参考基因组的负链S2进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,所述负链S2为参考基因组数据 dataref的逆序互补基因序列,所述逆序互补基因序列和参考基因组数据dataref之间碱基A和T互换、碱基C和G互换,所述预测字符c为短串K-mer在对应的负链S2中最可能的下一个基因字符,将所有预测字符c组合得到的负链预测字符序列PS2;
2.2.3)计算正链预测字符序列PS1、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L1,计算负链预测字符序列PS2、读序列R中不含k位原始基因字母的Lr-k位原始基因字母两者之间的编辑距离L2;
2.2.4)判断编辑距离为L1小于L2是否成立,如果成立则判定读序列R的正负链类别d为正链、将正链预测字符序列PS1作为读序列R的预测字符集PS;否则,判定读序列R的正负链类别d为负链、将负链预测字符序列PS2作为读序列R的预测字符集PS。
4.根据权利要求1所述的比对型基因测序数据压缩方法,其特征在于,步骤2)中的可逆函数具体是指XOR异或函数或者位减法函数。
5.根据权利要求1所述的比对型基因测序数据压缩方法,其特征在于,步骤2)中的压缩具体是指使用统计模型和熵编码进行压缩。
6.一种比对型基因测序数据压缩系统,包括计算机系统,其特征在于,所述计算机系统被编程以执行权利要求1~5中任意一项所述的比对型基因测序数据压缩方法的步骤。
7.一种计算机可读介质,所述计算机可读介质上存储有计算机程序,其特征在于,所述计算机程序使计算机系统执行权利要求1~5中任意一项所述的比对型基因测序数据压缩方法的步骤。
CN201710982786.5A 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质 Active CN110021368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710982786.5A CN110021368B (zh) 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710982786.5A CN110021368B (zh) 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN110021368A true CN110021368A (zh) 2019-07-16
CN110021368B CN110021368B (zh) 2020-07-17

Family

ID=67186691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710982786.5A Active CN110021368B (zh) 2017-10-20 2017-10-20 比对型基因测序数据压缩方法、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN110021368B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731A (zh) * 2020-11-30 2021-03-12 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN113285720A (zh) * 2021-05-28 2021-08-20 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备
CN116723251A (zh) * 2023-08-09 2023-09-08 江苏太湖锅炉股份有限公司 基于传感器网络的智能锅炉自动监测系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707A (zh) * 2011-01-07 2011-06-01 深圳大学 一种dna序列数据压缩系统
CN103093121A (zh) * 2012-12-28 2013-05-08 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
US20160132636A1 (en) * 2014-10-30 2016-05-12 International Business Machines Corporation Managing gene sequences
CN106096332A (zh) * 2016-06-28 2016-11-09 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统
US20170103333A1 (en) * 2015-10-08 2017-04-13 University Of Virginia Patent Foundation Subset encoding method: increasing pattern density for finite automata

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707A (zh) * 2011-01-07 2011-06-01 深圳大学 一种dna序列数据压缩系统
CN103093121A (zh) * 2012-12-28 2013-05-08 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
US20160132636A1 (en) * 2014-10-30 2016-05-12 International Business Machines Corporation Managing gene sequences
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
US20170103333A1 (en) * 2015-10-08 2017-04-13 University Of Virginia Patent Foundation Subset encoding method: increasing pattern density for finite automata
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN106096332A (zh) * 2016-06-28 2016-11-09 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱泽轩等: "高通量DNA测序数据压缩研究进展", 《深圳大学学报(理工版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731A (zh) * 2020-11-30 2021-03-12 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112489731B (zh) * 2020-11-30 2024-02-23 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN113285720A (zh) * 2021-05-28 2021-08-20 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备
CN113285720B (zh) * 2021-05-28 2023-07-07 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备
CN116723251A (zh) * 2023-08-09 2023-09-08 江苏太湖锅炉股份有限公司 基于传感器网络的智能锅炉自动监测系统
CN116723251B (zh) * 2023-08-09 2023-10-17 江苏太湖锅炉股份有限公司 基于传感器网络的智能锅炉自动监测系统

Also Published As

Publication number Publication date
CN110021368B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
Goyal et al. Deepzip: Lossless data compression using recurrent neural networks
CN103995988B (zh) 一种高通量dna测序质量分数无损压缩系统及压缩方法
CN100553152C (zh) 基于cabac的编码方法和设备及解码方法和设备
CN103814396B (zh) 编解码比特流的方法和装置
KR101049699B1 (ko) 데이터의 압축방법
CN102683149B (zh) 质量分析数据处理方法和质量分析数据处理系统
WO2019076177A1 (zh) 基因测序数据压缩预处理、压缩、解压方法、系统及计算机可读介质
CN103236847A (zh) 基于多层哈希结构与游程编码的数据无损压缩方法
CN110021368A (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
Chern et al. Reference based genome compression
CN109871362A (zh) 一种面向流式时序数据的数据压缩方法
CN107066837A (zh) 一种有参考dna序列压缩方法和系统
WO2016202918A1 (en) Method for compressing genomic data
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN115204754A (zh) 一种基于大数据的热力供需信息管理平台
CN117177100B (zh) 一种智能ar偏振数据传输方法
CN116827351B (zh) 一种石墨烯发热墙面温度智能监测系统
CN109698703B (zh) 基因测序数据解压方法、系统及计算机可读介质
CN110310709B (zh) 一种基于参考序列的基因压缩方法
CN110111851A (zh) 基因测序数据压缩方法、系统及计算机可读介质
CN109698704B (zh) 比对型基因测序数据解压方法、系统及计算机可读介质
CN109698702A (zh) 基因测序数据压缩预处理方法、系统及计算机可读介质
US20230053844A1 (en) Improved Quality Value Compression Framework in Aligned Sequencing Data Based on Novel Contexts
Pinho et al. Finite-context models for DNA coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant