CN108287985A - 一种gpu加速的dna序列压缩方法及系统 - Google Patents
一种gpu加速的dna序列压缩方法及系统 Download PDFInfo
- Publication number
- CN108287985A CN108287985A CN201810068072.8A CN201810068072A CN108287985A CN 108287985 A CN108287985 A CN 108287985A CN 201810068072 A CN201810068072 A CN 201810068072A CN 108287985 A CN108287985 A CN 108287985A
- Authority
- CN
- China
- Prior art keywords
- metadata
- dna
- graphics processor
- dna sequence
- gpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于基因技术领域,提供了一种GPU加速的DNA序列压缩方法,包括:中央处理器采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;所述图形处理器采用Burrows–Wheeler变换算法、Move‑to‑front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。本发明实施例将中央处理器CPU和图形处理器GPU结合异步运行,实现了在图形处理器GPU在进行DNA序列的压缩,同时利用图形处理器GPU中的计算单元可以加快DNA序列的压缩速度。
Description
技术领域
本发明属于基因技术领域,尤其涉及一种使用图形处理器GPU加速的基于参考基因组的DNA序列压缩方法及系统。
背景技术
当前,相关工作人员针对DNA序列压缩工具进行了一定的研究,也得到了一定的结果。现有的常用的基于参考基因组的压缩工具:LW-FQZip2、Quip(-r)、DeeZ和CRAM。其中:
LW-FQZip2,是一个基于参考基因组的DNA序列压缩工具,对参考基因组建立稀疏索引,将碱基序列定位至对应的稀疏索引位置上,在参考基因组上匹配,同时考虑插入、删除与错配。使用线程把整体占据时间长的程序分成若干个任务放到后台去处理,实现应用于压缩存储的轻量级DNA序列匹配的并行化,有效提高压缩FASTQ格式的DNA数据的效率,并使得程序的运行速度大大加快,匹配速度也相应加快,减少在时间上的消耗,并增强了该方法的可用性。使用游程编码、PPM预测模型和算术编码将匹配后的结果、元数据和质量分数进行压缩。
Quip(-r)、DeeZ和CRAM这三个压缩工具都是基于BWA工具的匹配结果(SAM/BAM)为输入进行压缩。BWA工具,同时考虑插入、删除与错配,并采用了Burrows–Wheeler变换(BWT,Burrows–Wheeler_transform)算法,对参考基因组进行了一次有规律的重新排序,目的是为了方便后续进行查找。BWA输出为SAM文件,利用SAMTOOLS工具将SAM文件转为BAM文件。
Quip(-r)是一个无损的、基于参考基因组的压缩工具。压缩算法是基于统计的算术编码分别压缩元数据、DNA碱基序列和质量分数。DeeZ是通过局部装配基于参考基因组的压缩工具,有着不错的压缩比并且提供随机存取功能,DeeZ使用了独特的压缩方法:使用了增量编码和2阶算术编码。CRAM无损的基于参考基因的压缩工具,CRAM将DNA序列比对到参考基因上,然后将这个DNA序列与参考基因组不同的地方进行编码,使用了霍夫曼编码、Golomb编码和二进制编码。
虽然现有技术提供多种基于参考基因组的压缩方法,但是都是针对中央处理器CPU进行开发,图形处理器GPU平台上无法实现对DNA序列的压缩。
发明内容
本发明所要解决的技术问题在于提供一种GPU加速的DNA序列压缩方法及系统,旨在解决现有技术在图形处理器GPU平台上无法实现对DNA序列的压缩的问题。
本发明是这样实现的,一种GPU加速的DNA序列压缩方法,包括:
中央处理器采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;
所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
进一步地,所述中央处理器采用模板链算法对元数据进行简化包括:
所述中央处理器选取若干条元数据,根据预置的分隔符将每一条元数据切分成若干模块;
将每一条元数据中的相对应的模块逐一比较,若每一条元数据中相对应的模块相同,则将其状态设置为1,若数字递增,则将其状态设置为2,若不同,则将其状态设置为3,得到状态链;
遍历每一条元数据,结合所述状态链,找出差异的部分,将第一条元数据作为模板链;
将所述模板链、所述状态链和所述差异的部分进行保存,得到简化后的元数据。
进一步地,所述分隔符包括逗号、句号、冒号、等号、空格和连接号。
进一步地,所述图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配包括:
所述图形处理器查找所述参考基因组中前缀的位置,取k-mer的哈希值构建哈希索引表,所述哈希索引表中包含每一条k-mer的哈希值、出现频率和出现位置;
将所述哈希索引表保存至内存中,根据所述哈希索引表将N×N个DNA碱基序列异步地传输到一个N×N的匹配矩阵中,在所述匹配矩阵的每个位置保存一个DNA碱基序列,所述匹配矩阵中的每个位置表示所述图形处理器的一个计算单元;
找到所述DNA碱基序列上的两个前缀并计算其k-mer值,在所述哈希索引表上找到与所述两个前缀最接近的位置,并逐一比较,得到匹配结果。
进一步地,所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列包括:
所述图形处理器将所述匹配结果、所述简化后的元数据和所述质量分数分别进行编码,得到编码数据;
将所述编码数据分割为N×N份,将分割得到的N×N份数据异步地传输到一个N×N的计算矩阵中,所述计算矩阵的每个位置保存一份数据,所述计算矩阵的每个位置表述所述图形处理器的一个计算单元;
所述计算矩阵中的每个位置对各自保存的数据分别进行Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器的编码,得到压缩后的DNA序列。
本发明实施例还提供了一种GPU加速的DNA序列压缩系统,包括:
中央处理器,用于采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
图形处理器,用于利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;所述图形处理器还用于采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
进一步地,所述中央处理器具体用于:
选取若干条元数据,根据预置的分隔符将每一条元数据切分成若干模块;
将每一条元数据中的相对应的模块逐一比较,若每一条元数据中相对应的模块相同,则将其状态设置为1,若数字递增,则将其状态设置为2,若不同,则将其状态设置为3,得到状态链;
遍历每一条元数据,结合所述状态链,找出差异的部分,将第一条元数据作为模板链;
将所述模板链、所述状态链和所述差异的部分进行保存,得到简化后的元数据。
进一步地,所述分隔符包括逗号、句号、冒号、等号、空格和连接号。
进一步地,所述图形处理器具体用于:
查找所述参考基因组中前缀的位置,取k-mer的哈希值构建哈希索引表,所述哈希索引表中包含每一条k-mer的哈希值、出现频率和出现位置;
将所述哈希索引表保存至内存中,根据所述哈希索引表将N×N个DNA碱基序列异步地传输到一个N×N的匹配矩阵中,在所述匹配矩阵的每个位置保存一个DNA碱基序列,所述匹配矩阵中的每个位置表示所述图形处理器的一个计算单元;
找到所述DNA碱基序列上的两个前缀并计算其k-mer值,在所述哈希索引表上找到与所述两个前缀最接近的位置,并逐一比较,得到匹配结果。
进一步地,所述图形处理器还用于:
将所述匹配结果、所述简化后的元数据和所述质量分数分别进行编码,得到编码数据;
将所述编码数据分割为N×N份,将分割得到的N×N份数据异步地传输到一个N×N的计算矩阵中,所述计算矩阵的每个位置保存一份数据,所述计算矩阵的每个位置表述所述图形处理器的一个计算单元;
所述计算矩阵中的每个位置对各自保存的数据分别进行Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器的编码,得到压缩后的DNA序列。
本发明与现有技术相比,有益效果在于:本发明实施例通过中央处理器对元数据采用模板链算法进行简化,将简化后的元数据发送给图形处理器,图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果后,图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。本发明实施例将中央处理器CPU和图形处理器GPU结合异步运行,DNA碱基序列的匹配在图形处理器GPU中运行,于此同时简化元数据的工作就在中央处理器CPU中进行,最后将匹配结果、简化后的元数据和质量分数一同在图形处理器GPU中压缩,本发明实施例实现了在图形处理器GPU在进行DNA序列的压缩,同时利用图形处理器GPU中的计算单元可以加快DNA序列的压缩速度。
附图说明
图1是本发明实施例提供的一种GPU加速的DNA序列压缩方法的流程图;
图2是本发明实施例提供的状态链的构建示意图;
图3是本发明实施例提供的元数据的简化示意图;
图4是本发明实施例提供的哈希索引算法的示意图;
图5是本发明实施例提供的图形处理器GPU中Burrows–Wheeler变换、Move-to-front变换和区间编码器的示意图;
图6是本发明实施例提供的一种GPU加速的DNA序列压缩系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及到的是对DNA碱基序列在参考基因组上的匹配并剔除冗余,剔除DNA元数据冗余部分。在GPU上实现了基于参考基因组的DNA碱基序列的匹配、对简化后的元数据编码、匹配结果编码和质量分数编码。在合理的压缩率的情况下,使用GPU加速DNA序列的压缩速度。
自20世纪末以来,生物测序技术不断的发展,随之产生的各类生物数据,迅速形成了庞大的生物信息数据库。如何有效的分析、管理这些海量的数据,是生物学家和计算机专家们必须着力解决的棘手问题。数据压缩技术是解决这一问题的有效方法。DNA序列数据是一类极其重要的生物数据,具有不同于其他待压缩数据的特征,采用现有的各种通用数据压缩算法,通常不能有效的压缩。因此,研究专门针对DNA序列数据的压缩算法有着重要意义。DNA序列数据的压缩是一项艰巨的任务,很多学者一直致力于这方面的研究,并提出了一些经典算法。这些算法的共同特点是基于近似匹配压缩的思想,搜索并压缩DNA序列中大量存在的因少数字符的替换、插入或删除而形成的近似匹配片段。越来越庞大的数据量对CPU的运行速度有着巨大的挑战。近年来,不少学者开始将GPU应用于通用计算,取得了很好的效果。利用GPU做通用计算的主要目的是为了运算的加速,其主要优势有并行性、高密集的运算、只读高速缓存等方面外部存储器带宽为CPU的五倍左右,采用基于GPU计算的框架,所需要的成本和功耗都要低于CPU。推广GPU的并行与计算机处理系统是可行的,而且是势在必行的。由于科技在发展,人类在进步,GPU正是考虑到了现代的计算机中,尤其是家用电脑,三维图形的处理也变得越来越重要,需要一个专门的图形的核心处理器来减轻CPU的负担,它就是负着这个任务,即分担部分CPU的工作,尤其是在三维可视化处理、三维渲染中,GPU更是起着不可替代的作用。到目前为止,GPU有了数年的历史,显然,一代比一代强,性能更强了,可编程结构更完善了,范围也更广泛了。
DNA序列压缩工具为了两大类:基于参考基因组的压缩工具(Reference-based)和文本压缩工具(Reference-free)。由于同源物种基因组之间具有高度相似性,当参考基因组与目标基因组之间的相似度很高时,基于参考基因组的压缩策略可以达到极佳的压缩效果。为了达到最佳的压缩效果,通常选用同源物种作为参考基因组。
传统的DNA序列压缩方法大部分是针对基于参考基因组的高通量DNA测序数据的压缩方法。基于参考基因组处理的数据主要为FASTQ格式或SAM和BAM格式;以FASTQ格式为主要处理数据,FASTQ格式是一种存储生物序列的文本格式,也是DNA序列常用的存储格式之一。在FASTQ格式中,每一个DNA测序记录由四行数据组成,第一行从“@”字符开始,然后连接着序列的标识符,第三行从“+”字符开始,连接着相同的序列标识符,第一行和第三行被称为元数据,元数据中有大量相同的地方,因此可以通过记录差异从而剔除元数据的冗余。基于参考基因组和该生物自身具有的生物学特征,对FASTQ格式中第二行的DNA碱基序列数据进行快速匹配,剔除冗余数据,利用得到的匹配结果对DNA序列的生物意义进行分析以及可以应用到进一步的压缩工作,从而增加压缩比率,减少存储空间,利用GPU在处理能力和存储器的带宽上相对于CPU的明显优势,将匹配方法和压缩方法移植到GPU计算单元上,从而减少DNA序列压缩时间。第四行记录着该生物的每个核苷酸碱基其相应的质量分数。
基于上述原因,本发明实施例提供了一种GPU加速的DNA序列压缩方法,包括:
S101,中央处理器采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
S102,图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;
S103,所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器Range encoder对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
本发明实施例提供的DNA序列压缩系统如图6所示,包括中央处理器CPU(CentralProcessing Unit)和图形处理器GPU(Graphics Processing Unit),本发明实施例主要使用GPU加速基于参考基因组的DNA压缩序列压缩方法,对FASTQ格式中的碱基序列在GPU中基于参考基因组的并行匹配,于此同时在CPU中使用模板链算法简化元数据,将得出的匹配结果、简化后的元数据和质量分数放到GPU中使用Burrows–Wheeler变换算法、Move-to-front变换(MTFT,Move-to-front transform)算法和区间编码器Range encode进行编码。
在步骤S101中,中央处理器CPU采用模板链算法对元数据进行简化,模板链算法是将元数据中的冗余去除并记录其差异部分,保存一条模板链和状态链以供解压。
状态链的构建示意图如图2所示,简化元数据的示意图如图3所示,在本发明实施例中,中央处理器CPU执行模板链算法的步骤包括:
a、首先选取N条元数据,根据分隔符将每一条元数据分别分成M个模块,分隔符包括:逗号(,),句号(.),冒号(:),等号(=),空格()和连接号(-)。
b、构造状态链:
N条元数据中相对应的模块逐一比较,相同则将其状态设置为1,数字递增则将其状态设置为2,不同则将其状态设置为3。
c、遍历每一条元数据,结合状态链,找出差异的部分(即状态链的值为3)。将第一条元数据作为模板链以便于解压时的恢复。
d、将模板链、状态链以及差异部分保存,完成元数据的简化。
中央处理器CPU在构建状态链时,需要将N条元数据中相对应的模块注意比较,例如:
第1条元数据:@SRR402891.1.1 498:7:1:1:2042length=36;
第10条元数据:@SRR402891.10.1 498:7:1:1:380length=36;
第19480276条元数据:@SRR402891.19480276.1 498:7:120:1787:1264length=36;
所以该元数据的状态链为(N=3的情况下):1211133311,其中:
表1
第1条 | 第10条 | 第19480276条 | 状态 |
@SRR402891 | @SRR402891 | @SRR402891 | 1 |
1 | 10 | 19480276 | 2 |
1 | 1 | 1 | 1 |
498 | 498 | 498 | 1 |
7 | 7 | 7 | 1 |
1 | 1 | 120 | 3 |
1 | 1 | 1787 | 3 |
2042 | 380 | 1264 | 3 |
length | length | length | 1 |
36 | 36 | 36 | 1 |
在步骤S102中,图形处理器GPU使用稀疏索引算法将DNA碱基序列与参考基因组进行快速匹配,从而剔除冗余数据,利用得到的匹配结果对DNA序列的生物意义进行分析以及可以应用到进一步的压缩工作,从而增加压缩比率,减少存储空间,GPU中能使用大量的计算单元,比起传统的CPU实现的单线程或者多线程的算法,速度提升明显。GPU中实现的稀疏索引算法的示意图如图4所示,步骤包括:
A、找到参考基因组中前缀的位置,前缀的位置默认值为“CG”,然后取k-mer的哈希值构建成为哈希索引表H,哈希索引表H中记录每一条k-mer的哈希值、出现频率和出现位置,默认值k=8,包括前缀的k个碱基。
B、将哈希索引表H传输到GPU的内存中:
将N*N个DNA碱基序列reads异步的传输到GPU的一个N*N的矩阵中(矩阵每个位置表示一个计算单元),矩阵每个位置保存一个DNA碱基序列reads。
C、在GPU的匹配矩阵中,每一条reads都做一次匹配:
先找到reads上的两个前缀“CG”并计算其k-mer的值,然后在根据哈希索引表H上找到与这两个最接近的位置,最后再逐一比较。比较过程中会出现插入、删除、错配情况,会记录在匹配信息中;在参考基因组的匹配到的位置记录在匹配位置中;如果找不到前缀“CG”则视为不匹配并记录到不匹配信息中。
D、将所有匹配后的信息作为匹配结果从GPU的内存异步的传递回CPU内存中。
在步骤S103中,图形处理器GPU将简化后的元数据、匹配后的信息和质量分数进行编码,首先使用Burrows–Wheeler变换算法编码,将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻。然后使用Move-to-front变换算法编码,主要使用的是数据的“空间局部性”,也就是最近出现过的字符很可能在接下来的文本附近再次出现。最后再使用基于统计模型的区间编码器Range encoder。图形处理器GPU实现的编码示意图如图5所示:
图形处理器GPU对步骤S102得到的匹配结果、步骤S101得到的简化后的元数据和质量分数进行编码的步骤包括:
a)、将简化后的元数据、匹配结果和质量分数分别进行编码,得到编码数据。
b)、将需要编码的数据分割为N*N份,将N*N份数据异步的传输到GPU的一个N*N的计算矩阵中,该计算矩阵的每个位置表示一个计算单元,计算矩阵每个位置保存一份数据。
c)、计算矩阵中的每个位置分别经过Burrows–Wheeler变换、Move-to-front变换和区间编码器Range encoder的编码,得到压缩后的DNA序列。
d)、将编码后的结果从GPU内存异步的传递回CPU内存中。最后将所有编码的结果打包。
在本发明实施例中,Burrows–Wheeler变换算法主要压缩步骤包括:
首先,Burrows–Wheeler变换算法先对需要转换的文本块,进行循环右移,每次循环一位。可以知道长度为n的文本块,循环n次后重复,这样就得到看n个长度为n的字符串。如表2中的“Rotate Right”列,其中‘#’作为标识符,不在文本块的字符集中,这样保证n个循环移位后的字符串均布相同。并且定义'#'小于字符集中的任意字符。对循环移位后的n个字符串按照字典序排序。如表2中的“Sorted(M)”列。记录下“Sorted(M)”列中每个字符串的最后一个字符,组成了“L”列,其中"F"列是“Sorted(M)”列中每个字符串的前缀。
表2
No. | Rotate Right | Sorted(M) | F | L |
1 | banana# | #banana | # | a |
2 | #banana | a#banan | a | n |
3 | a#banan | ana#ban | a | n |
4 | na#bana | anana#b | a | B |
5 | ana#ban | banana# | b | # |
6 | nana#ba | na#bana | n | a |
7 | anana#b | nana#ba | n | a |
这样,原来的字符串“banana#”就转换为了“annb#aa”。在某些情况下,使用L列进行压缩会有更好的效果。“L”列就是编码的结果。
在本发明实施例中,Move-to-front变换算法的主要步骤包括:
首先,Burrows–Wheeler变换算法维护一个文本字符集大小的栈,“recently usedsymbols”(最近访问过的字符),其中每个不同的字符在其中占一个位置,位置从0开始编号。扫描需要编码的文本数据,对于每个扫描到的字符,使用该字符在“recently usedsymbols”中的index替换,并将该字符提到“recently used symbols”的栈顶位置(index为0的位置)。下述表3中示出了Move-to-front变换算法的编码过程。
表3
在本发明实施例中,区间编码器Range encoder算法的主要步骤包括:
对于给定的一个范围足够大的整数区间以及符号的概率估计,最初的区间很容易切分成与所表示的符号概率成比例的子区间。将当前区间切分成与下一个待编码符号的概率对应的子区间,通过这种方法就可以对消息中的每个符号进行编码。表4示出了区间编码器Range encoder区间映射,表5示出了区间编码器Range encoder的编码过程。以abcdd进行编码为例,其中:
表4
表5
编码数据 | 输入数据 | 映射区间 |
abcdd | a | [0,19999] |
abcdd | b | [4000,7999] |
abcdd | c | [5600,6399] |
abcdd | d | [6080,6399] |
abcdd | d | [6272,6399] |
abcdd | [6272,6399]取6300可省略为63 |
与现有技术相比,本发明实施例提供的DNA序列压缩方法带来的有益效果包括:
稀疏索引算法应用在GPU上很好的解决了DNA碱基序列匹配的速度问题,于此同时在CPU上使用模板链算法去除元数据中的冗余并记录其差异部分,最后通过GPU上实现Burrows–Wheeler变换、Move-to-front变换和区间编码器Range encoder进行编码。在GPU上实现DNA碱基序列的匹配和数据的编码可以充分的减少在时间上的占用,特别是当需要处理的数据越大时,在时间上所体现的优势将更加明显。经过一些数据的测试,如来自IonTorrent Proton测序平台的测序数据SRR4242238(数据大小28824MB)、和来自IlluminaHiseq3000测序平台的测序数据SRR5569417(数据大小43293MB),对比CPU并行化压缩工具的LW-FQZip2的压缩结果,本发明实施例提供的DNA序列压缩方法和系统的压缩比分别为13.58%和4.85%,都要比LW-FQZip2的13.71%和5.15%要好,在时间上所体现出来的优势将更加明显。本发明实施例提供的DNA序列压缩方法和系统压缩时间为379秒和640秒,而LW-FQZip2需要2284秒和3135秒。可以看出GPU的加速十分明显。在实际测试中,通过测试来自benchmark上的6组数据发现,本发明实施例提供的DNA序列压缩方法和系统的平均压缩比和平均压缩速度都比LW-FQZip2要好。
本发明实施例提供的DNA序列压缩方法和系统中GPU中计算单元的个数、元数据的简化程度可以实现参数可调化,可自行调整想要的参数,以调整个别参数来获得所需的比对结果或达到最佳的比对效果。
本发明实施例提供的DNA序列压缩方法和系统使用GPU高度并行化和强大的计算能力提高压缩速度,实现对DNA碱基序列的匹配的并行化和数据编码的并行化;使用模板链简化元数据达到去除冗余的效果。在测试了10组数据后,平均压缩比和LW-FQZip2差不多,平均的压缩速度是它的4.6倍,平均解压时间是它的1.5倍。由此可以看出通过GPU加速后,压缩和解压速度有着明显的提升,而压缩和解压的内存消耗大致为3GB,这是可以接受的内存消耗。
在本发明实施例中,可以采用其他的并行算法,其实质是分解成若干个尽量相互独立的子问题,然后使用多台计算机同时求解它,从而最终求得原问题的解。其中基于CUDA的匹配工具BarraCUDA(基于Burrows–Wheeler变换,BMA的GPU版本)也可达到用GPU加速匹配速度。当数据量庞大到需要惊人的计算量时,可以采用分布式计算,把数据分成多部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。
在本发明实施例中,将DNA序列进行分解为元数据、DNA碱基序列和质量分数。对元数据使用模板链算法,从而减少元数据的冗余。在图形处理器GPU中实现对DNA碱基序列基于参考基因组的快速匹配,在每一个GPU的计算单元分别使用稀疏索引算法对DNA碱基序列匹配。在图形处理器GPU中实现对简化后的元数据、匹配后的信息和质量分数分别的在GPU中进行Burrows–Wheeler变换、Move-to-front变换和区间编码器Range encoder的编码。在具体实施过程中,参数设置进行可调化处理,可以自行调整参数来达到最佳的比对结果。
在本发明实施例中,匹配方法是基于稀疏哈希索引算法,编码方法是基于Burrows–Wheeler变换、Move-to-front变换和区间编码器Range encoder的编码,而并行方法是在CUDA语言中实现的基于GPU加速的多线程同步处理程序的算法。
本发明实施例可以应用在以下领域:
DNA测序数据FASTQ格式基于参考基因组FASTA格式的匹配,除去DNA碱基序列和元数据的冗余数据,得到的匹配结果对数据的生物意义进行分析,后续的编码进而将匹配结果、简化后的元数据和质量分数进行压缩。
本发明实施例还提供了一种终端,包括存储器、处理器及存储在存储器上且在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时,实现如图1所示的使用GPU加速的基于参考基因组的DNA序列压缩方法的各个步骤。
本发明实施例中还提供一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如图1所示的使用GPU加速的基于参考基因组的DNA序列压缩方法的各个步骤。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种GPU加速的DNA序列压缩方法,其特征在于,包括:
中央处理器采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;
所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
2.如权利要求1所述的DNA序列压缩方法,其特征在于,所述中央处理器采用模板链算法对元数据进行简化包括:
所述中央处理器选取若干条元数据,根据预置的分隔符将每一条元数据切分成若干模块;
将每一条元数据中的相对应的模块逐一比较,若每一条元数据中相对应的模块相同,则将其状态设置为1,若数字递增,则将其状态设置为2,若不同,则将其状态设置为3,得到状态链;
遍历每一条元数据,结合所述状态链,找出差异的部分,将第一条元数据作为模板链;
将所述模板链、所述状态链和所述差异的部分进行保存,得到简化后的元数据。
3.如权利要求2所述的DNA序列压缩方法,其特征在于,所述分隔符包括逗号、句号、冒号、等号、空格和连接号。
4.如权利要求1所述的DNA序列压缩方法,其特征在于,所述图形处理器利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配包括:
所述图形处理器查找所述参考基因组中前缀的位置,取k-mer的哈希值构建哈希索引表,所述哈希索引表中包含每一条k-mer的哈希值、出现频率和出现位置;
将所述哈希索引表保存至内存中,根据所述哈希索引表将N×N个DNA碱基序列异步地传输到一个N×N的匹配矩阵中,在所述匹配矩阵的每个位置保存一个DNA碱基序列,所述匹配矩阵中的每个位置表示所述图形处理器的一个计算单元;
找到所述DNA碱基序列上的两个前缀并计算其k-mer值,在所述哈希索引表上找到与所述两个前缀最接近的位置,并将每一字符进行比较,得到匹配结果。
5.如权利要求1所述的DNA序列压缩方法,其特征在于,所述图形处理器采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列包括:
所述图形处理器将所述匹配结果、所述简化后的元数据和所述质量分数分别进行编码,得到编码数据;
将所述编码数据分割为N×N份,将分割得到的N×N份数据异步地传输到一个N×N的计算矩阵中,所述计算矩阵的每个位置保存一份数据,所述计算矩阵的每个位置表述所述图形处理器的一个计算单元;
所述计算矩阵中的每个位置对各自保存的数据分别进行Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器的编码,得到压缩后的DNA序列。
6.一种GPU加速的DNA序列压缩系统,其特征在于,包括:
中央处理器,用于采用模板链算法对元数据进行简化,将简化后的元数据发送给图形处理器;
图形处理器,用于利用稀疏索引算法将DNA碱基序列与参考基因组进行匹配,得到匹配结果;所述图形处理器还用于采用Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器对所述匹配结果、所述简化后的元数据和质量分数进行压缩,得到压缩后的DNA序列。
7.如权利要求6所述的DNA序列压缩系统,其特征在于,所述中央处理器具体用于:
选取若干条元数据,根据预置的分隔符将每一条元数据切分成若干模块;
将每一条元数据中的相对应的模块逐一比较,若每一条元数据中相对应的模块相同,则将其状态设置为1,若数字递增,则将其状态设置为2,若不同,则将其状态设置为3,得到状态链;
遍历每一条元数据,结合所述状态链,找出差异的部分,将第一条元数据作为模板链;
将所述模板链、所述状态链和所述差异的部分进行保存,得到简化后的元数据。
8.如权利要求7所述的DNA序列压缩系统,其特征在于,所述分隔符包括逗号、句号、冒号、等号、空格和连接号。
9.如权利要求6所述的DNA序列压缩系统,其特征在于,所述图形处理器具体用于:
查找所述参考基因组中前缀的位置,取k-mer的哈希值构建哈希索引表,所述哈希索引表中包含每一条k-mer的哈希值、出现频率和出现位置;
将所述哈希索引表保存至内存中,根据所述哈希索引表将N×N个DNA碱基序列异步地传输到一个N×N的匹配矩阵中,在所述匹配矩阵的每个位置保存一个DNA碱基序列,所述匹配矩阵中的每个位置表示所述图形处理器的一个计算单元;
找到所述DNA碱基序列上的两个前缀并计算其k-mer值,在所述哈希索引表上找到与所述两个前缀最接近的位置,并逐一比较,得到匹配结果。
10.如权利要求9所述的DNA序列压缩系统,其特征在于,所述图形处理器还用于:
将所述匹配结果、所述简化后的元数据和所述质量分数分别进行编码,得到编码数据;
将所述编码数据分割为N×N份,将分割得到的N×N份数据异步地传输到一个N×N的计算矩阵中,所述计算矩阵的每个位置保存一份数据,所述计算矩阵的每个位置表述所述图形处理器的一个计算单元;
所述计算矩阵中的每个位置对各自保存的数据分别进行Burrows–Wheeler变换算法、Move-to-front变换算法和区间编码器的编码,得到压缩后的DNA序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810068072.8A CN108287985A (zh) | 2018-01-24 | 2018-01-24 | 一种gpu加速的dna序列压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810068072.8A CN108287985A (zh) | 2018-01-24 | 2018-01-24 | 一种gpu加速的dna序列压缩方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108287985A true CN108287985A (zh) | 2018-07-17 |
Family
ID=62835554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810068072.8A Pending CN108287985A (zh) | 2018-01-24 | 2018-01-24 | 一种gpu加速的dna序列压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108287985A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979537A (zh) * | 2019-03-15 | 2019-07-05 | 南京邮电大学 | 一种面向多条序列的基因序列数据压缩方法 |
CN111145834A (zh) * | 2019-11-29 | 2020-05-12 | 中科曙光(南京)计算技术有限公司 | 多线程基因数据压缩方法、装置 |
CN111653318A (zh) * | 2019-05-24 | 2020-09-11 | 北京哲源科技有限责任公司 | 一种用于基因比对的加速方法、装置、存储介质与服务器 |
CN111898747A (zh) * | 2019-05-05 | 2020-11-06 | 杭州海康威视数字技术股份有限公司 | 一种特征比对方法及电子设备 |
CN118677573A (zh) * | 2024-08-21 | 2024-09-20 | 湖北中科能能源技术有限公司 | 一种发电站远程监测管理方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106687966A (zh) * | 2014-08-05 | 2017-05-17 | 伊卢米纳剑桥有限公司 | 用于数据分析和压缩的方法和系统 |
-
2018
- 2018-01-24 CN CN201810068072.8A patent/CN108287985A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106687966A (zh) * | 2014-08-05 | 2017-05-17 | 伊卢米纳剑桥有限公司 | 用于数据分析和压缩的方法和系统 |
Non-Patent Citations (1)
Title |
---|
李林森: ""基于稀疏索引算法的碱基序列比对"", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979537A (zh) * | 2019-03-15 | 2019-07-05 | 南京邮电大学 | 一种面向多条序列的基因序列数据压缩方法 |
CN109979537B (zh) * | 2019-03-15 | 2020-12-18 | 南京邮电大学 | 一种面向多条序列的基因序列数据压缩方法 |
CN111898747A (zh) * | 2019-05-05 | 2020-11-06 | 杭州海康威视数字技术股份有限公司 | 一种特征比对方法及电子设备 |
CN111898747B (zh) * | 2019-05-05 | 2023-06-30 | 杭州海康威视数字技术股份有限公司 | 一种特征比对方法及电子设备 |
CN111653318A (zh) * | 2019-05-24 | 2020-09-11 | 北京哲源科技有限责任公司 | 一种用于基因比对的加速方法、装置、存储介质与服务器 |
CN111653318B (zh) * | 2019-05-24 | 2023-09-15 | 北京哲源科技有限责任公司 | 一种用于基因比对的加速方法、装置、存储介质与服务器 |
CN111145834A (zh) * | 2019-11-29 | 2020-05-12 | 中科曙光(南京)计算技术有限公司 | 多线程基因数据压缩方法、装置 |
CN111145834B (zh) * | 2019-11-29 | 2023-10-27 | 中科曙光(南京)计算技术有限公司 | 多线程基因数据压缩方法、装置 |
CN118677573A (zh) * | 2024-08-21 | 2024-09-20 | 湖北中科能能源技术有限公司 | 一种发电站远程监测管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287985A (zh) | 一种gpu加速的dna序列压缩方法及系统 | |
Deorowicz et al. | Robust relative compression of genomes with random access | |
Chen et al. | Inverted Index Compression for Scalable Image Matching. | |
Almodaresi et al. | An efficient, scalable, and exact representation of high-dimensional color information enabled using de Bruijn graph search | |
EP2608096B1 (en) | Compression of genomic data file | |
CN103995988B (zh) | 一种高通量dna测序质量分数无损压缩系统及压缩方法 | |
JP2011530119A (ja) | 列ベースのデータ符号化構造の効率的な大規模処理 | |
WO2019076177A1 (zh) | 基因测序数据压缩预处理、压缩、解压方法、系统及计算机可读介质 | |
CN110021369B (zh) | 基因测序数据压缩解压方法、系统及计算机可读介质 | |
KR20110007865A (ko) | 데이터의 압축방법 | |
CN107066837A (zh) | 一种有参考dna序列压缩方法和系统 | |
CN106709006B (zh) | 一种对查询友好的关联数据压缩方法 | |
Kowalski et al. | PgRC: pseudogenome-based read compressor | |
CN104133883B (zh) | 电话号码归属地数据压缩方法 | |
Danciu et al. | Topology-based sparsification of graph annotations | |
CN109698703B (zh) | 基因测序数据解压方法、系统及计算机可读介质 | |
WO2019144312A1 (zh) | 一种gpu加速的dna序列压缩方法及系统 | |
CN110111851B (zh) | 基因测序数据压缩方法、系统及计算机可读介质 | |
US20220199202A1 (en) | Method and apparatus for compressing fastq data through character frequency-based sequence reordering | |
CN102932001B (zh) | 运动捕获数据压缩、解压缩方法 | |
CN110111852A (zh) | 一种海量dna测序数据无损快速压缩平台 | |
Grabowski et al. | Engineering relative compression of genomes | |
CN106202154B (zh) | 一种基于重复数据删除架构的倒排索引表示方法及系统 | |
CN111370070B (zh) | 一种针对大数据基因测序文件的压缩处理方法 | |
Guerrini et al. | Lossy compressor preserving variant calling through extended BWT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180717 |