CN106778079B

CN106778079B - 一种基于MapReduce的DNA序列k-mer频次统计方法

Info

Publication number: CN106778079B
Application number: CN201611033051.XA
Authority: CN
Inventors: 谭军; 孟光伟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-11-22
Filing date: 2016-11-22
Publication date: 2019-07-19
Anticipated expiration: 2036-11-22
Also published as: CN106778079A

Abstract

本发明请求保护一种基于MapReduce的DNA序列k‑mer频次统计方法。该方法在运行MapReduce计算模型的分布式集群环境中对要处理的序列文件进行预处理，去除错误序列；将处理后的序列文件进行哈希处理后作为Map函数的输入，Map函数使用定义的算法计算出k变化范围内的所有k‑mer频次并作为Combine函数的输入；Combine函数对得到的中间结果进行本地合并并将结果作为Reduce函数的输入；Reduce对各Combine节点传送来的key相同的键值对进行合并输出最终结果。本方法能够有效的处理大规模序列数据集，降低处理设备性能要求；同时解决现有方法中I/O开销占总处理时间过大问题，显著提升处理速度。

Description

一种基于MapReduce的DNA序列k-mer频次统计方法

技术领域

本发明涉及生物信息学领域、大数据处理领域，特别是涉及一种基于MapReduce的DNA序列k-mer频次统计方法。

背景技术

近年来，随着第三代生物测序技术的发展，科研机构和企业所测得各物种生物基因序列呈爆炸式增长。面对海量的生物DNA/RNA序列数据，对这些测得的数据进行快速有效的处理与分析，则对目前的计算机处理能力提出来严峻的挑战。

DNA/RNA序列是生物遗传信息的存储和控制中心，统计DNA/RNA序列中k长子序列的出现频数是一个基础而重要的生物学问题，称之为k-mer频数计数问题。K-mer频数在基因序列组装，重复序列标识，快速序列比对，错误序列检测中有着重要的应用。

在单体分形，模体发现和多序列比对等需要探究序列中块属性的问题上，常常需要将多条序列在对齐条件下统计不同偏移处k变化一段范围内的k-mer频数。传统的统计方法是针对不同的K值，依次统计所有序列中的不同k-mer频数。为解决传统方法中重复计算量大，空间效率底下等问题，张鑫鑫等提出了一种基于逆向遍历的BTKC算法，算法巧妙的利用了上一次k值下k-mer的统计结果，来进行下一个k值的k-mer频数计数，避免重新遍历所有的序列。相比于传统算法，BTKC算法在k值变化很大范围条件下，可以显著的降低算法的时间复杂度，提高处理效率。由于BTKC算法需要统计所有n条序列并将结果加载到内存，为此内存消耗大。且由于需要频繁的将中间结果写入的磁盘，导致算法的I/O开销占总处理时间比例过大。由于上述原因，BTKC算法只能处理少量的DNA序列数据，在处理大量DNA序列数据时，对计算机的性能条件要求过高，且处理效率很不理想。

Hadoop是目前主流的大数据处理平台，其利用分布式计算和存储的原理，能够高效的存储和处理海量数据。MapReduce是Hadoop平台中数据处理模块的核心计算模型和方法，是一种高效的并行程序编程模型与方法，主要用于大规模数据集的处理。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种快速有效的处理海量的DNA序列数据，并且减小计算过程中I/0开销比例过大的问题，降低对计算机性能的要求的基于MapReduce的DNA序列k-mer频次统计方法。

本发明的技术方案如下：

一种基于MapReduce的DNA序列k-mer频次统计方法，其包括以下步骤：

1)输入待处理的DNA序列文件和k-mer计算参数，并进行包括去除错误序列和非DNA编码序列在内的预处理步骤：

2)将预处理后的序列文件进行哈希处理后作为Map函数的输入

3)将Map阶段处理后的结果作为Combine函数输入，Combine函数对中间结果进行合并，并将合并结果作为Reduce函数的输入；

4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理，即将主键key相同的键值对分到同一个Reduce节点，将合并中间结果在传递到Reduce节点后，运行Reduce函数对所有的键值对进行归约(处理，得到最终结果并输出，即为所处理DNA序列文件中的所有k-mer的频数。

进一步的，所述步骤1)的预处理步骤还包括：输入要处理的DNA序列文件和k-mer计算参数，运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块，均分到各个节点上。

进一步的，所述步骤1)输入待处理的DNA序列文件和k-mer计算参数，并进行包括去除错误序列和非DNA编码序列在内的预处理步骤具体包括：

接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数，起始值设为k₁，终值设为k₂，有k₁≤k≤k₂；

节点对分配到本节点上的若干序列文件进行读取，建立序列文件对应的本地文件，按行依次读取序列文件中的序列数据，若读取的行序列数据第1列为字符集合{A，G，C，T}中的某一字符且除第一列外其它列中含有字符集合{A，G，C，T}以外的任意字符，则将此行视为错误序列数据；若读取的行序列数据中第1列字符为字符集合{A，G，C，T}以外的任意字符或数字，则视为非DNA编码序列；错误序列和非DNA编码序列均丢弃，不做任何处理，若所读取的行序列数据所有的列均为字符集合{A，G，C，T}中任意字符，则视为正确序列，将该行数据写入到序列文件对应的副本中，读写完毕后，将原序列文件删除。

进一步的，所述步骤2)将预处理后的序列文件进行哈希处理后进行Map阶段处理步骤包括：

A1、将步骤1)处理后的序列文件中每一行数据进行哈希处理，表示为键值对<key,value>的形式，其中key为文本文件中每行的字符偏移量，值为此行的序列内容；

A2、初始化空链表R，开始计算当k值在k₂-k₁之间时递减时的k-mer频数；

A3、得到k在所有取值范围下的对应的k-mer及其对应频数，结果以<key,value>形式表示。

进一步的，所述步骤A2初始化空链表R，开始计算当k值在k₂-k₁之间时递减时的k-mer频数具体包括步骤：

2.1当k＝k₂时，初始化哈希表H_k，对所有键值对<key,value>中的value遍历，value以字符串形式进行处理；对于value所表示的某条DNA序列s，从其偏移位置l开始遍历整个字符串，其中0＜l＜m-k₂，m为序列的长度，取s中偏移位置l处开始长为k的字符串s′，查找哈希表H_k，若s′在H_k中存在，则将s′对应的value值加1，否则将s′添加到H_k中，其中s′表示键值对<key,value>的key，其value值为1，之后，将l向后移动一位，重复上述操作；对所有的序列依次进行遍历后，将得到的哈希表H_k加入到链表R的头部；

2.2当k！＝k₂时，初始化哈希表H_k，取R中头结点获取已知的H_k+1，，对H_k+1中每条记录进行遍历；对于H_k+1中某条<key,value>记录h′，设K为h′的key中长为k的前缀子串，V为h′中value值，如果K不在H_k中，则将K以键值对形式<K,1>添加到H_k中，key为K所表示的字符串，value为1；若K在H_k中，则将K所对应的value值加1；对H_k+1中所有记录进行遍历后，将得到的哈希表H_k加入到链表R的头部。

进一步的，所述步骤3)将匹配后的结果进行合并具体如下：

1).将步骤2)得到的<key,value>形式的表示的中间结果读入，合并key相同的键值对以<key,List[values]>的形式表示；

2).运行Combine函数对<key,List[values]>形式表示的键值对集合进行处理；

2.1).输入k-mer S_key，S_key出现次数构成的集合S_iter，初始化S_total＝0。对于集合S_iter中的每个value值，有S_total＝S_total+S_value；

2.2).将S_key及其对应频数S_total以<S_key,S_total>形式写入到结果集合O_oc。

进一步的，所述步骤4)步骤具体如下：

1).将步骤3)得到的<key,value>形式的表示的结果读入。

2).key相同的键值对以<key,List[values]>的形式送到对应的Reduce节点进行处理；

2.1).输入k-mer S_key，S_key出现次数构成的集合S_iter，初始化S_total＝0。对于集合S_iter中的每个value值S_value，有S_total＝S_total+S_value；

2.2).将S_key及其对应频数S_total以<S_key,S_total>形式写入到结果集合O_oc；

3).输出各Reduce节点得到的结果集合O_oc，即为最终结果。

本发明的优点及有益效果如下：

1.本发明采用分布式并行处理框架，能够有效的处理大规模序列数据集，同时对处理设备性能要求降低。

2.方法对序列文件进行预处理，去除错误序列，减少要处理的数据量。同时设计出Combine函数，对Map阶段得出的中间结果进行合并，解决现有方法中I/O开销占总处理时间过大问题，同时显著提升处理速度。

3.本发明创新点一是对序列文件进行预处理，其创新在于可以显著减少要进行处理的计算量；二是对现有的k-mer频次统计方法进行并行化处理，缩短处理时间，同时在MapReduce模型中增加了Combine函数，对Map阶段结果进行本地合并(本地合并是指在Map节点合并中间结果，减少中间结果需要上传到Reduce节点进行网络传输消耗的时延和带宽)，其创新在于可以减少I/O开销和网络传输开销，提高处理速度。

附图说明

图1是本发明提供优选实施例方法主要流程示意图；

图2为运行MapReduce模型具体执行流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

如图1所示的是本发明的方法主要流程示意图，其步骤主要包括：

步骤一：预处理阶段。接收用户输入的需要处理的DNA序列文件和k-mer中k的变化范围参数，起始值设为k₁，终值设为k₂，有k₁≤k≤k₂。首先，运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块，均分到各个节点上。然后，各节点对分配到本节点上的序列文件进行处理，去除错误序列和非DNA编码序列。具体实施方法为：

节点根据分配到本节点上的若干序列文件，建立序列文件对应的本地文件。按行依次读取序列文件中的序列数据。若读取的行序列数据第1列为字符集合{A，G，C，T}中的某一字符且除第一列外其它列中含有字符集合{A，G，C，T}以外的任意字符，则将此行视为错误序列数据；若读取的行序列数据中第1列字符为字符集合{A，G，C，T}以外的任意字符或数字，则视为非DNA编码序列。错误序列和非DNA编码序列均丢弃，不做任何处理。若所读取的行序列数据所有的列均为字符集合{A，G，C，T}中任意字符，则视为正确序列，将该行数据写入到序列文件对应的本地文件中。读写完毕后，将原序列文件删除。

步骤二：Map阶段。各节点将预处理得到的本地序列文件进行哈希处理后作为Map函数的输入；Map函数运行自定义的算法进行处理，结果以键值对的形式表示并作为Combine函数的输入。具体实施方法为：

1.将步骤一处理后的序列文件中每一行数据进行哈希处理，表示为键值对<key,value>的形式，其中key为文本文件中每行的字符偏移量，值为此行的序列内容。

2.初始化空链表R，开始计算当k值在k₂-k₁之间时递减时的k-mer频数。

2.1当k＝k₂时，初始化哈希表H_k，对所有键值对<key,value>中的value遍历，value以字符串形式进行处理。

2.1.1对于value所表示的某条DNA序列s，从其偏移位置l(0＜l＜m-k₂)开始遍历整个字符串，其中m为序列的长度。取s中偏移位置l处开始长为k的字符串s′，查找哈希表H_k，若s′在H_k中存在，则将s′对应的value值加1，否则将s′添加到H_k中，其中s′表示键值对<key,value>的key，其value值为1。之后，将l向后移动一位，重复上述操作。

2.1.2对所有序列依次进行遍历，将得到的哈希表H_k加入到链表R的头部。

2.2当k！＝k₂时，初始化哈希表H_k，取R中头结点获取已知的H_k+1，，对H_k+1中每条记录进行遍历。

2.2.1对于H_k+1中某条<key,value>记录h′，设K为h′的key中长为k的前缀子串，V为h′中value值。如果K不在H_k中，则将K以键值对形式<K,1>添加到H_k中，key为K所表示的字符串，value为1；若K在H_k中，则将K所对应的value值加1。

2.2.2对H_k+1中所有记录进行遍历后，将得到的哈希表H_k加入到链表R的头部。

3.得到k在所有取值范围下的对应的k-mer及其对应频数，结果以<key,value>形式表示。

步骤三：Combine阶段。方法设计了Combine函数，将Map函数得到的结果进行合并，并将结果以键值对的形式作为Reduce函数的输入。具体实施方法为：

1.将步骤二得到的<key,value>形式的表示的中间结果读入，合并key相同的键值对以<key,List[values]>的形式表示。

2.运行Combine函数对<key,List[values]>形式表示的键值对集合进行处理。

2.1输入k-mer S_key，S_key出现次数构成的集合S_iter，初始化S_total＝0。对于集合S_iter中的每个value值S_value，有S_total＝S_total+S_value。

2.2将S_key及其对应频数S_total以<S_key,S_total>形式写入到结果集合O_oc。

步骤四：Reduce阶段。系统使用默认的Partitioner类来进行“分区”处理，自动的将所有主键相同的键值对传输给同一个Reduce节点处理。方法设计了Reduce函数，各个Reduce节点运行Reduce函数对键值对进行处理，得到最终结果并输出，即为所处理DNA序列文件中的所有k-mer的频数。

具体实施方法为：

1.将步骤四得到的<key,value>形式的表示的结果读入。

2.key相同的键值对以<key,List[values]>的形式送到同一个的Reduce节点并运行Reduce函数进行处理。

3.输出各Reduce节点得到的结果集合O_oc，即为最终结果。

以上对本发明所提供的一种基于MapReduce的DNA序列k-mer频次统计方法，进行了详细的介绍。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，包括以下步骤：

2)将预处理后的序列文件进行哈希处理后作为Map函数输入；

3)将Map阶段的结果作为Combine函数输入，Combine函数对中间结果进行合并，本地合并即Map处理的节点上得到中间结果，继续在这个节点上进行Combine阶段处理，Combine表示进行中间结果合并，并将合并中间结果作为Reduce函数的输入；

4)运行MapReduce的集群环境先进行Shuffle混洗和Sort排序阶段的处理，即将主键key相同的键值对分到同一个Reduce节点，将合并中间结果传递到Reduce节点后，运行Reduce函数对所有的键值对进行归约处理，得到最终结果并输出，即为所处理DNA序列文件中的所有k-mer的频数。

2.根据权利要求1所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤1)的预处理步骤还包括：输入要处理的DNA序列文件和k-mer计算参数，运行MapReduce并行计算模型的集群环境自动将输入的DNA序列文件切割成一定大小的数据块，均分到各个节点上。

3.根据权利要求2所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤1)输入待处理的DNA序列文件和k-mer计算参数，并进行包括去除错误序列和非DNA编码序列在内的预处理步骤具体包括：

4.根据权利要求3所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤2)将预处理后的序列文件进行哈希处理后进行Map处理的步骤包括：

A1、将步骤1)处理后的序列文件中每一行数据进行哈希处理，表示为键值对<key1,value1>的形式，其中key1为文本文件中每行的字符偏移量，value1为此行的序列内容；

A3、得到k在所有取值范围下的对应的k-mer及其对应频数，结果以<key2,value2>形式表示。

5.根据权利要求4所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤A2初始化空链表R，开始计算当k值在k₂-k₁之间时递减时的k-mer频数具体包括步骤：

2.1当k＝k₂时，初始化哈希表H_k，对所有键值对<key1,value1>中的value1遍历，value1以字符串形式进行处理；对于value1所表示的某条DNA序列s，从其偏移位置l开始遍历整个字符串，其中0＜l＜m-k₂，m为序列的长度，取s中偏移位置l处开始长为k的字符串s′，查找哈希表H_k，若s′在H_k中存在，则将s′对应的值加1，否则将s′添加到H_k中，其值为1，之后，将l向后移动一位，重复上述操作；对所有的序列依次进行遍历后，将得到的哈希表H_k加入到链表R的头部；

2.2当k！＝k₂时，初始化哈希表H_k，取R中头结点获取已知的H_k+1，对H_k+1中每条记录进行遍历；对于H_k+1中某条<key1,value1>记录h′，设K为h′的key中长为k的前缀子串，V为h′中value值，如果K不在H_k中，则将K以键值对形式<K,1>添加到H_k中，若K在H_k中，则将K所对应的V值加1；对H_k+1中所有记录进行遍历后，将得到的哈希表H_k加入到链表R的头部。

6.根据权利要求4所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤3)Combine函数对中间结果进行合并，本地合并即Map处理的节点上得到中间结果，具体如下：

1).将步骤2)得到的<key2,value2>形式的表示的中间结果读入，合并key2相同的键值对以<k1,List[v1]>的形式表示；

2).运行Combine函数对<k1,List[v1]>形式表示的键值对集合进行处理；

2.1).输入k-mer S_key，S_key出现次数构成的集合S_iter，初始化S_total＝0，对于集合S_iter中的每个value2值，有S_total＝S_total+S_value；S_value表示集合S_iter中的value2值；

2.2).将S_key及其对应频数S_total以<S_key,S_total>形式写入到结果集合O_oc1。

7.根据权利要求6所述的基于MapReduce的DNA序列k-mer频次统计方法，其特征在于，所述步骤4)步骤具体如下：

1).将步骤3)的本地合并中间结果O_oc1读入；

2).key相同的键值对以<k2,List[v2]>的形式送到对应的Reduce节点进行处理；

2.1).输入k-mer S_key′，S_key′出现次数构成的集合S_iter′，初始化S_total′＝0，对于集合S_iter′中的每个value值S_value′，有S_total′＝S_total′+S_value′；

2.2).将S_key′及其对应频数S_total′以<S_key′,S_total′>形式写入到结果集合O_oc2；

3).输出各Reduce节点得到的结果集合O_oc2，即为最终结果。