CN106778079B - 一种基于MapReduce的DNA序列k-mer频次统计方法 - Google Patents

一种基于MapReduce的DNA序列k-mer频次统计方法 Download PDF

Info

Publication number
CN106778079B
CN106778079B CN201611033051.XA CN201611033051A CN106778079B CN 106778079 B CN106778079 B CN 106778079B CN 201611033051 A CN201611033051 A CN 201611033051A CN 106778079 B CN106778079 B CN 106778079B
Authority
CN
China
Prior art keywords
value
key
dna
mer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611033051.XA
Other languages
English (en)
Other versions
CN106778079A (zh
Inventor
谭军
孟光伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201611033051.XA priority Critical patent/CN106778079B/zh
Publication of CN106778079A publication Critical patent/CN106778079A/zh
Application granted granted Critical
Publication of CN106778079B publication Critical patent/CN106778079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于MapReduce的DNA序列k‑mer频次统计方法。该方法在运行MapReduce计算模型的分布式集群环境中对要处理的序列文件进行预处理,去除错误序列;将处理后的序列文件进行哈希处理后作为Map函数的输入,Map函数使用定义的算法计算出k变化范围内的所有k‑mer频次并作为Combine函数的输入;Combine函数对得到的中间结果进行本地合并并将结果作为Reduce函数的输入;Reduce对各Combine节点传送来的key相同的键值对进行合并输出最终结果。本方法能够有效的处理大规模序列数据集,降低处理设备性能要求;同时解决现有方法中I/O开销占总处理时间过大问题,显著提升处理速度。

Description

一种基于MapReduce的DNA序列k-mer频次统计方法
技术领域
本发明涉及生物信息学领域、大数据处理领域,特别是涉及一种基于MapReduce的DNA序列k-mer频次统计方法。
背景技术
近年来,随着第三代生物测序技术的发展,科研机构和企业所测得各物种生物基因序列呈爆炸式增长。面对海量的生物DNA/RNA序列数据,对这些测得的数据进行快速有效的处理与分析,则对目前的计算机处理能力提出来严峻的挑战。
DNA/RNA序列是生物遗传信息的存储和控制中心,统计DNA/RNA序列中k长子序列的出现频数是一个基础而重要的生物学问题,称之为k-mer频数计数问题。K-mer频数在基因序列组装,重复序列标识,快速序列比对,错误序列检测中有着重要的应用。
在单体分形,模体发现和多序列比对等需要探究序列中块属性的问题上,常常需要将多条序列在对齐条件下统计不同偏移处k变化一段范围内的k-mer频数。传统的统计方法是针对不同的K值,依次统计所有序列中的不同k-mer频数。为解决传统方法中重复计算量大,空间效率底下等问题,张鑫鑫等提出了一种基于逆向遍历的BTKC算法,算法巧妙的利用了上一次k值下k-mer的统计结果,来进行下一个k值的k-mer频数计数,避免重新遍历所有的序列。相比于传统算法,BTKC算法在k值变化很大范围条件下,可以显著的降低算法的时间复杂度,提高处理效率。由于BTKC算法需要统计所有n条序列并将结果加载到内存,为此内存消耗大。且由于需要频繁的将中间结果写入的磁盘,导致算法的I/O开销占总处理时间比例过大。由于上述原因,BTKC算法只能处理少量的DNA序列数据,在处理大量DNA序列数据时,对计算机的性能条件要求过高,且处理效率很不理想。
Hadoop是目前主流的大数据处理平台,其利用分布式计算和存储的原理,能够高效的存储和处理海量数据。MapReduce是Hadoop平台中数据处理模块的核心计算模型和方法,是一种高效的并行程序编程模型与方法,主要用于大规模数据集的处理。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种快速有效的处理海量的DNA序列数据,并且减小计算过程中I/0开销比例过大的问题,降低对计算机性能的要求的基于MapReduce的DNA序列k-mer频次统计方法。
本发明的技术方案如下:
一种基于MapReduce的DNA序列k-mer频次统计方法,其包括以下步骤:
1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤:
2)将预处理后的序列文件进行哈希处理后作为Map函数的输入
3)将Map阶段处理后的结果作为Combine函数输入,Combine函数对中间结果进行合并,并将合并结果作为Reduce函数的输入;
4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理,即将主键key相同的键值对分到同一个Reduce节点,将合并中间结果在传递到Reduce节点后,运行Reduce函数对所有的键值对进行归约(处理,得到最终结果并输出,即为所处理DNA序列文件中的所有k-mer的频数。
进一步的,所述步骤1)的预处理步骤还包括:输入要处理的DNA序列文件和k-mer计算参数,运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块,均分到各个节点上。
进一步的,所述步骤1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤具体包括:
接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数,起始值设为k1,终值设为k2,有k1≤k≤k2
节点对分配到本节点上的若干序列文件进行读取,建立序列文件对应的本地文件,按行依次读取序列文件中的序列数据,若读取的行序列数据第1列为字符集合{A,G,C,T}中的某一字符且除第一列外其它列中含有字符集合{A,G,C,T}以外的任意字符,则将此行视为错误序列数据;若读取的行序列数据中第1列字符为字符集合{A,G,C,T}以外的任意字符或数字,则视为非DNA编码序列;错误序列和非DNA编码序列均丢弃,不做任何处理,若所读取的行序列数据所有的列均为字符集合{A,G,C,T}中任意字符,则视为正确序列,将该行数据写入到序列文件对应的副本中,读写完毕后,将原序列文件删除。
进一步的,所述步骤2)将预处理后的序列文件进行哈希处理后进行Map阶段处理步骤包括:
A1、将步骤1)处理后的序列文件中每一行数据进行哈希处理,表示为键值对<key,value>的形式,其中key为文本文件中每行的字符偏移量,值为此行的序列内容;
A2、初始化空链表R,开始计算当k值在k2-k1之间时递减时的k-mer频数;
A3、得到k在所有取值范围下的对应的k-mer及其对应频数,结果以<key,value>形式表示。
进一步的,所述步骤A2初始化空链表R,开始计算当k值在k2-k1之间时递减时的k-mer频数具体包括步骤:
2.1当k=k2时,初始化哈希表Hk,对所有键值对<key,value>中的value遍历,value以字符串形式进行处理;对于value所表示的某条DNA序列s,从其偏移位置l开始遍历整个字符串,其中0<l<m-k2,m为序列的长度,取s中偏移位置l处开始长为k的字符串s′,查找哈希表Hk,若s′在Hk中存在,则将s′对应的value值加1,否则将s′添加到Hk中,其中s′表示键值对<key,value>的key,其value值为1,之后,将l向后移动一位,重复上述操作;对所有的序列依次进行遍历后,将得到的哈希表Hk加入到链表R的头部;
2.2当k!=k2时,初始化哈希表Hk,取R中头结点获取已知的Hk+1,,对Hk+1中每条记录进行遍历;对于Hk+1中某条<key,value>记录h′,设K为h′的key中长为k的前缀子串,V为h′中value值,如果K不在Hk中,则将K以键值对形式<K,1>添加到Hk中,key为K所表示的字符串,value为1;若K在Hk中,则将K所对应的value值加1;对Hk+1中所有记录进行遍历后,将得到的哈希表Hk加入到链表R的头部。
进一步的,所述步骤3)将匹配后的结果进行合并具体如下:
1).将步骤2)得到的<key,value>形式的表示的中间结果读入,合并key相同的键值对以<key,List[values]>的形式表示;
2).运行Combine函数对<key,List[values]>形式表示的键值对集合进行处理;
2.1).输入k-mer Skey,Skey出现次数构成的集合Siter,初始化Stotal=0。对于集合Siter中的每个value值,有Stotal=Stotal+Svalue
2.2).将Skey及其对应频数Stotal以<Skey,Stotal>形式写入到结果集合Ooc
进一步的,所述步骤4)步骤具体如下:
1).将步骤3)得到的<key,value>形式的表示的结果读入。
2).key相同的键值对以<key,List[values]>的形式送到对应的Reduce节点进行处理;
2.1).输入k-mer Skey,Skey出现次数构成的集合Siter,初始化Stotal=0。对于集合Siter中的每个value值Svalue,有Stotal=Stotal+Svalue
2.2).将Skey及其对应频数Stotal以<Skey,Stotal>形式写入到结果集合Ooc
3).输出各Reduce节点得到的结果集合Ooc,即为最终结果。
本发明的优点及有益效果如下:
1.本发明采用分布式并行处理框架,能够有效的处理大规模序列数据集,同时对处理设备性能要求降低。
2.方法对序列文件进行预处理,去除错误序列,减少要处理的数据量。同时设计出Combine函数,对Map阶段得出的中间结果进行合并,解决现有方法中I/O开销占总处理时间过大问题,同时显著提升处理速度。
3.本发明创新点一是对序列文件进行预处理,其创新在于可以显著减少要进行处理的计算量;二是对现有的k-mer频次统计方法进行并行化处理,缩短处理时间,同时在MapReduce模型中增加了Combine函数,对Map阶段结果进行本地合并(本地合并是指在Map节点合并中间结果,减少中间结果需要上传到Reduce节点进行网络传输消耗的时延和带宽),其创新在于可以减少I/O开销和网络传输开销,提高处理速度。
附图说明
图1是本发明提供优选实施例方法主要流程示意图;
图2为运行MapReduce模型具体执行流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
如图1所示的是本发明的方法主要流程示意图,其步骤主要包括:
步骤一:预处理阶段。接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数,起始值设为k1,终值设为k2,有k1≤k≤k2。首先,运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块,均分到各个节点上。然后,各节点对分配到本节点上的序列文件进行处理,去除错误序列和非DNA编码序列。具体实施方法为:
节点根据分配到本节点上的若干序列文件,建立序列文件对应的本地文件。按行依次读取序列文件中的序列数据。若读取的行序列数据第1列为字符集合{A,G,C,T}中的某一字符且除第一列外其它列中含有字符集合{A,G,C,T}以外的任意字符,则将此行视为错误序列数据;若读取的行序列数据中第1列字符为字符集合{A,G,C,T}以外的任意字符或数字,则视为非DNA编码序列。错误序列和非DNA编码序列均丢弃,不做任何处理。若所读取的行序列数据所有的列均为字符集合{A,G,C,T}中任意字符,则视为正确序列,将该行数据写入到序列文件对应的本地文件中。读写完毕后,将原序列文件删除。
步骤二:Map阶段。各节点将预处理得到的本地序列文件进行哈希处理后作为Map函数的输入;Map函数运行自定义的算法进行处理,结果以键值对的形式表示并作为Combine函数的输入。具体实施方法为:
1.将步骤一处理后的序列文件中每一行数据进行哈希处理,表示为键值对<key,value>的形式,其中key为文本文件中每行的字符偏移量,值为此行的序列内容。
2.初始化空链表R,开始计算当k值在k2-k1之间时递减时的k-mer频数。
2.1当k=k2时,初始化哈希表Hk,对所有键值对<key,value>中的value遍历,value以字符串形式进行处理。
2.1.1对于value所表示的某条DNA序列s,从其偏移位置l(0<l<m-k2)开始遍历整个字符串,其中m为序列的长度。取s中偏移位置l处开始长为k的字符串s′,查找哈希表Hk,若s′在Hk中存在,则将s′对应的value值加1,否则将s′添加到Hk中,其中s′表示键值对<key,value>的key,其value值为1。之后,将l向后移动一位,重复上述操作。
2.1.2对所有序列依次进行遍历,将得到的哈希表Hk加入到链表R的头部。
2.2当k!=k2时,初始化哈希表Hk,取R中头结点获取已知的Hk+1,,对Hk+1中每条记录进行遍历。
2.2.1对于Hk+1中某条<key,value>记录h′,设K为h′的key中长为k的前缀子串,V为h′中value值。如果K不在Hk中,则将K以键值对形式<K,1>添加到Hk中,key为K所表示的字符串,value为1;若K在Hk中,则将K所对应的value值加1。
2.2.2对Hk+1中所有记录进行遍历后,将得到的哈希表Hk加入到链表R的头部。
3.得到k在所有取值范围下的对应的k-mer及其对应频数,结果以<key,value>形式表示。
步骤三:Combine阶段。方法设计了Combine函数,将Map函数得到的结果进行合并,并将结果以键值对的形式作为Reduce函数的输入。具体实施方法为:
1.将步骤二得到的<key,value>形式的表示的中间结果读入,合并key相同的键值对以<key,List[values]>的形式表示。
2.运行Combine函数对<key,List[values]>形式表示的键值对集合进行处理。
2.1输入k-mer Skey,Skey出现次数构成的集合Siter,初始化Stotal=0。对于集合Siter中的每个value值Svalue,有Stotal=Stotal+Svalue
2.2将Skey及其对应频数Stotal以<Skey,Stotal>形式写入到结果集合Ooc
步骤四:Reduce阶段。系统使用默认的Partitioner类来进行“分区”处理,自动的将所有主键相同的键值对传输给同一个Reduce节点处理。方法设计了Reduce函数,各个Reduce节点运行Reduce函数对键值对进行处理,得到最终结果并输出,即为所处理DNA序列文件中的所有k-mer的频数。
具体实施方法为:
1.将步骤四得到的<key,value>形式的表示的结果读入。
2.key相同的键值对以<key,List[values]>的形式送到同一个的Reduce节点并运行Reduce函数进行处理。
2.1输入k-mer Skey,Skey出现次数构成的集合Siter,初始化Stotal=0。对于集合Siter中的每个value值Svalue,有Stotal=Stotal+Svalue
2.2将Skey及其对应频数Stotal以<Skey,Stotal>形式写入到结果集合Ooc
3.输出各Reduce节点得到的结果集合Ooc,即为最终结果。
以上对本发明所提供的一种基于MapReduce的DNA序列k-mer频次统计方法,进行了详细的介绍。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,包括以下步骤:
1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤:
2)将预处理后的序列文件进行哈希处理后作为Map函数输入;
3)将Map阶段的结果作为Combine函数输入,Combine函数对中间结果进行合并,本地合并即Map处理的节点上得到中间结果,继续在这个节点上进行Combine阶段处理,Combine表示进行中间结果合并,并将合并中间结果作为Reduce函数的输入;
4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理,即将主键key相同的键值对分到同一个Reduce节点,将合并中间结果传递到Reduce节点后,运行Reduce函数对所有的键值对进行归约处理,得到最终结果并输出,即为所处理DNA序列文件中的所有k-mer的频数。
2.根据权利要求1所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤1)的预处理步骤还包括:输入要处理的DNA序列文件和k-mer计算参数,运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块,均分到各个节点上。
3.根据权利要求2所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤1)输入待处理的DNA序列文件和k-mer计算参数,并进行包括去除错误序列和非DNA编码序列在内的预处理步骤具体包括:
接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数,起始值设为k1,终值设为k2,有k1≤k≤k2
节点对分配到本节点上的若干序列文件进行读取,建立序列文件对应的本地文件,按行依次读取序列文件中的序列数据,若读取的行序列数据第1列为字符集合{A,G,C,T}中的某一字符且除第一列外其它列中含有字符集合{A,G,C,T}以外的任意字符,则将此行视为错误序列数据;若读取的行序列数据中第1列字符为字符集合{A,G,C,T}以外的任意字符或数字,则视为非DNA编码序列;错误序列和非DNA编码序列均丢弃,不做任何处理,若所读取的行序列数据所有的列均为字符集合{A,G,C,T}中任意字符,则视为正确序列,将该行数据写入到序列文件对应的副本中,读写完毕后,将原序列文件删除。
4.根据权利要求3所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤2)将预处理后的序列文件进行哈希处理后进行Map处理的步骤包括:
A1、将步骤1)处理后的序列文件中每一行数据进行哈希处理,表示为键值对<key1,value1>的形式,其中key1为文本文件中每行的字符偏移量,value1为此行的序列内容;
A2、初始化空链表R,开始计算当k值在k2-k1之间时递减时的k-mer频数;
A3、得到k在所有取值范围下的对应的k-mer及其对应频数,结果以<key2,value2>形式表示。
5.根据权利要求4所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤A2初始化空链表R,开始计算当k值在k2-k1之间时递减时的k-mer频数具体包括步骤:
2.1当k=k2时,初始化哈希表Hk,对所有键值对<key1,value1>中的value1遍历,value1以字符串形式进行处理;对于value1所表示的某条DNA序列s,从其偏移位置l开始遍历整个字符串,其中0<l<m-k2,m为序列的长度,取s中偏移位置l处开始长为k的字符串s′,查找哈希表Hk,若s′在Hk中存在,则将s′对应的值加1,否则将s′添加到Hk中,其值为1,之后,将l向后移动一位,重复上述操作;对所有的序列依次进行遍历后,将得到的哈希表Hk加入到链表R的头部;
2.2当k!=k2时,初始化哈希表Hk,取R中头结点获取已知的Hk+1,对Hk+1中每条记录进行遍历;对于Hk+1中某条<key1,value1>记录h′,设K为h′的key中长为k的前缀子串,V为h′中value值,如果K不在Hk中,则将K以键值对形式<K,1>添加到Hk中,若K在Hk中,则将K所对应的V值加1;对Hk+1中所有记录进行遍历后,将得到的哈希表Hk加入到链表R的头部。
6.根据权利要求4所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤3)Combine函数对中间结果进行合并,本地合并即Map处理的节点上得到中间结果,具体如下:
1).将步骤2)得到的<key2,value2>形式的表示的中间结果读入,合并key2相同的键值对以<k1,List[v1]>的形式表示;
2).运行Combine函数对<k1,List[v1]>形式表示的键值对集合进行处理;
2.1).输入k-mer Skey,Skey出现次数构成的集合Siter,初始化Stotal=0,对于集合Siter中的每个value2值,有Stotal=Stotal+Svalue;Svalue表示集合Siter中的value2值;
2.2).将Skey及其对应频数Stotal以<Skey,Stotal>形式写入到结果集合Ooc1。
7.根据权利要求6所述的基于MapReduce的DNA序列k-mer频次统计方法,其特征在于,所述步骤4)步骤具体如下:
1).将步骤3)的本地合并中间结果Ooc1读入;
2).key相同的键值对以<k2,List[v2]>的形式送到对应的Reduce节点进行处理;
2.1).输入k-mer Skey′,Skey′出现次数构成的集合Siter′,初始化Stotal′=0,对于集合Siter′中的每个value值Svalue′,有Stotal′=Stotal′+Svalue′
2.2).将Skey′及其对应频数Stotal′以<Skey′,Stotal′>形式写入到结果集合Ooc2;
3).输出各Reduce节点得到的结果集合Ooc2,即为最终结果。
CN201611033051.XA 2016-11-22 2016-11-22 一种基于MapReduce的DNA序列k-mer频次统计方法 Active CN106778079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611033051.XA CN106778079B (zh) 2016-11-22 2016-11-22 一种基于MapReduce的DNA序列k-mer频次统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611033051.XA CN106778079B (zh) 2016-11-22 2016-11-22 一种基于MapReduce的DNA序列k-mer频次统计方法

Publications (2)

Publication Number Publication Date
CN106778079A CN106778079A (zh) 2017-05-31
CN106778079B true CN106778079B (zh) 2019-07-19

Family

ID=58971725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611033051.XA Active CN106778079B (zh) 2016-11-22 2016-11-22 一种基于MapReduce的DNA序列k-mer频次统计方法

Country Status (1)

Country Link
CN (1) CN106778079B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329824A (zh) * 2017-06-07 2017-11-07 广东科学技术职业学院 一种基于.NET平台的Map‑Reduce分布式计算的模型方法
CN110309143B (zh) * 2018-03-21 2021-10-22 华为技术有限公司 数据相似度确定方法、装置及处理设备
CN108595913B (zh) * 2018-05-11 2021-07-06 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法
CN109658985B (zh) * 2018-12-25 2020-07-17 人和未来生物科技(长沙)有限公司 一种基因参考序列的去冗余优化方法及系统
CN110070911A (zh) * 2019-04-12 2019-07-30 内蒙古农业大学 一种基于Hadoop的基因序列并行比对方法
CN110299187B (zh) * 2019-07-04 2022-03-22 南京邮电大学 一种基于Hadoop的并行化基因数据压缩方法
CN111028897B (zh) * 2019-12-13 2023-06-20 内蒙古农业大学 一种基于Hadoop的基因组索引构建的分布式并行计算方法
CN115599507A (zh) * 2021-07-07 2023-01-13 清华大学(Cn) 数据处理方法、执行工作站、电子设备和存储介质
CN114822699B (zh) * 2022-04-07 2023-04-07 天津大学四川创新研究院 一种基于聚类算法的高性能k-mer频次计数方法及系统
CN117373538B (zh) * 2023-12-08 2024-03-19 山东大学 一种基于多线程计算的生物序列比对方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
CN103388025A (zh) * 2013-07-10 2013-11-13 华中农业大学 基于克隆dna混合池的全基因组测序方法
CN103793438A (zh) * 2012-11-05 2014-05-14 山东省计算中心 一种基于MapReduce的并行聚类方法
CN104200133A (zh) * 2014-09-19 2014-12-10 中南大学 一种基于读数和距离分布的基因组De novo序列拼接方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140129152A1 (en) * 2012-08-29 2014-05-08 Michael Beer Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features
US20160103953A1 (en) * 2014-10-10 2016-04-14 International Business Machines Corporation Biological sequence tandem repeat characterization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793438A (zh) * 2012-11-05 2014-05-14 山东省计算中心 一种基于MapReduce的并行聚类方法
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
CN103388025A (zh) * 2013-07-10 2013-11-13 华中农业大学 基于克隆dna混合池的全基因组测序方法
CN104200133A (zh) * 2014-09-19 2014-12-10 中南大学 一种基于读数和距离分布的基因组De novo序列拼接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
生物序列数据K-mer频次统计问题的算法;张鑫鑫 等;《计算机系统应用》;20140430;第23卷(第4期);第121-124、158页

Also Published As

Publication number Publication date
CN106778079A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106778079B (zh) 一种基于MapReduce的DNA序列k-mer频次统计方法
US20200251185A1 (en) Method and Apparatus for Performing Similarity Searching
Drew et al. Polymorphic malware detection using sequence classification methods
US20200411138A1 (en) Compressing, storing and searching sequence data
Drew et al. Polymorphic malware detection using sequence classification methods and ensembles: BioSTAR 2016 Recommended Submission-EURASIP Journal on Information Security
CN108985008B (zh) 一种快速比对基因数据的方法和比对系统
CN110299187A (zh) 一种基于Hadoop的并行化基因数据压缩方法
CN110069502A (zh) 基于Spark架构的数据均衡分区方法及计算机存储介质
CN103995827B (zh) MapReduce计算框架中的高性能排序方法
CN101714187B (zh) 一种规模化蛋白质鉴定中的索引加速方法及相应的系统
CN106469097A (zh) 一种基于人工智能的召回纠错候选的方法和装置
CN104020983A (zh) 一种基于OpenCL的KNN-GPU加速方法
Zheng et al. Creating and using minimizer sketches in computational genomics
Soto et al. JACC-FPGA: A hardware accelerator for Jaccard similarity estimation using FPGAs in the cloud
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
US20170169159A1 (en) Repetition identification
CN105264522A (zh) 后缀数组的构造方法及装置
CN113495901B (zh) 一种面向可变长数据块的快速检索方法
WO2018136371A1 (en) Compressed encoding for bit sequence
EP3539038B1 (en) Reduced memory nucleotide sequence comparison
CN105224697A (zh) 带过滤条件的排序方法和用于执行所述方法的装置
CN106777262B (zh) 高通量测序数据质量过滤方法和过滤装置
Anderson et al. An FPGA-based hardware accelerator supporting sensitive sequence homology filtering with profile hidden Markov models
Rafailidis et al. Indexing media storms on flink
CN110134678A (zh) 一种生物数据的索引方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant