CN111599409B

CN111599409B - 基于MapReduce并行的circRNA识别方法

Info

Publication number: CN111599409B
Application number: CN202010429009.XA
Authority: CN
Inventors: 邹权; 牛梦婷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2022-05-20
Anticipated expiration: 2040-05-20
Also published as: CN111599409A

Abstract

本发明公开了一种基于MapReduce并行的circRNA识别方法，首先采用多种特征提取算法提取各序列数据的核酸组成特征、自组织相关性特征、伪核酸组成特征和结构特征，接着使用前期融合的方式将特征文件拼接到一起，形成一个完整的特征集，然后使用MRMD特征选择算法对特征集进行有效特征的选取，得到更有效的特征子集，最后通过MapReduce与极限学习机算法的结合，搭建cirRNAPL分类器，实现对circRNA的识别。本发明通过引进MapReduce并行算法提高了识别的效率，节省用户大量的时间和精力。

Description

基于MapReduce并行的circRNA识别方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于MapReduce并行的circRNA识别方法的设计。

背景技术

环状RNA(circRNA)是一种新型的RNA，它不同于人类传统的线性RNA，circRNA是一种非编码RNA分子，没有5端帽，也没有3端尾，而是形成了一个环状结构。1969年Diener在研究马铃薯纺锤体块茎病时首次发现了circRNA。电子显微镜显示了这种闭环RNA的形成，也被称为类病毒。随后出现的高通量测序技术(high-sequencing techniques，RNA-seq)改善了不同物种环状RNA的测序，目前已鉴定出许多环状RNA。迄今为止，已经成功地从果蝇、蠕虫到小鼠和人类身上识别出超过10000种不同的环状RNA。环状RNA在疾病的发生发展中起着重要的作用，为药物开发提供了新的思路。准确识别环状RNA对于深入了解其功能非常重要。目前基于机器学习的蛋白质识别和位点检测的研究很多，如RF和人工神经网络。相比之下，很少有研究关注环状RNA的识别。因此，有必要研究如何利用RNA序列的特征实现对circRNA更准确的识别。

发明内容

本发明的目的是提出一种基于MapReduce并行的circRNA识别方法，利用RNA的结构特征和核苷酸的组成来表达circRNA序列的特征，实现对circRNA更准确的识别。

本发明的技术方案为：基于MapReduce并行的circRNA识别方法，包括以下步骤：

S1、下载circRNA序列数据文件，获取待处理的原始circRNA特征数据集。

S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征，得到多个特征文件。

S3、采用前期融合的方式对所有特征文件进行拼接，得到一个完整的特征集。

S4、采用MRMD算法对特征集进行特征选择，得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。

S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c，使极限学习机算法的分类性能达到最优。

S6、采用优化后的极限学习机算法，结合MapReduce并行计算对特征子集中的circRNA进行分类训练，得到训练好的分类模型。

S7、采用训练好的分类模型构建cirRNAPL分类器，并将特征子集输入cirRNAPL分类器得到分类结果，完成对circRNA的识别。

进一步地，步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据集，正例数据集为待分类的circRNA序列文件，反例数据集为非circRNA序列文件。

进一步地，步骤S1中在获取待处理的原始circRNA特征数据集之前，需要对下载的circRNA序列数据文件进行格式判断和内容判断；格式判断的具体方法为：当读入的circRNA序列数据文件的行以字符串“>”为开头时，则取加一行的数据为序列文本数据；内容判断的具体方法为：读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成，若有这四个字母之外的字母出现，则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。

进一步地，步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法；核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法；自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法；伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法；结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。

进一步地，步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征，其具体方法为：

A1、在MapReduce中设计Map函数和Reduce函数。

A2、通过Map函数按行读取原始circRNA特征数据集并进行划分，再转换为特定格式的文件<key,value1>，形式为<行号，样本>。

A3、遍历所有样本，对每个样本依次进行特征提取，输出数据<key,value2>，形式为<行号，特征集>。

A4、通过Reduce函数接收Map函数的输出数据<key,value2>，并对接收的数据进行处理，整合相同的key值对并输出到同一个文件中，即形成每个样本对应的特征文件。

进一步地，步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个circRNA实例类别与特征之间的皮尔逊系数，MD_i表示第i个circRNA实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个circRNA实例的特征向量，C_i表示第i个circRNA实例的类别向量，M表示circRNA实例的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个circRNA实例特征之间的Euclidean距离，COS_i表示第i个circRNA实例特征之间的Cosine距离，TC_i表示第i个circRNA实例特征之间的Tanimoto系数。

进一步地，步骤S5包括以下分步骤：

S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50，每个粒子都由一组核函数参数g和惩罚系数c组成。

S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度，并将其作为粒子群算法的适应度值。

S53、更新总体粒子的速度和位置。

S54、判断粒子群算法是否达到最大适应度值或最大迭代次数，若是则进入步骤S55，否则返回步骤S52。

S55、获取最大适应度值对应的最佳核函数参数g和惩罚系数c，并将其代入极限学习机算法，得到分类性能最优的极限学习机算法。

进一步地，步骤S52中分类精度的计算公式为：

其中ACC表示使用极限学习机算法对circRNA进行分类得到的分类精度，TP表示预测正确的circRNA数量，FP表示预测正确的非circRNA数量，TN表示预测错误的circRNA数量，FN表示预测错误的非circRNA数量。

进一步地，步骤S53中更新总体粒子的速度和位置的公式为：

其中p_i(t)和v_i(t)分别表示第i个粒子第t次迭代的位置和速度，ω为权重，c₁和c₂为加速度因子，R₁和R₂为0到1之间的随机数，P_best,i为第i个粒子的最优解，G_best为针对粒子群体的最佳解决方案。

进一步地，步骤S6包括以下分步骤：

S61、在MapReduce中设计Map函数和Reduce函数。

S62、将特征子集中的特征数据划分为10份。

S63、通过Map函数按行读取特征子集，并转换为特定格式的文件<key,value2>，形式为<行号，特征集>。

S64、遍历每份特征数据，将其中一份作为测试集，剩余9份作为训练集，采用优化后的极限学习机算法对其中的circRNA进行分类训练，输出数据<key,value3>，形式为<行号，分类结果>。

S65、通过Reduce函数接收Map函数的输出数据<key,value3>，并对分类效果进行评价。

S66、重复步骤S64-S65，直到每份特征数据都作为测试集进行过分类训练，得到训练好的分类模型。

本发明的有益效果是：

(1)本发明提出了一种全新的circRNA识别方法，利用RNA的结构特征和核苷酸的组成来表达circRNA序列的特征，能够实现对circRNA的准确识别，为相应药物开发提供了理论基础。

(2)本发明在进行特征提取和优化极限学习机算法分类时，引进了MapReduce的并行计算，有效提高了处理效率。

(3)本发明通过粒子群算法优化极限学习机算法，并基于优化后的极限学习机算法训练分类模型，进而构建cirRNAPL分类器，优化了circRNA的识别效果

附图说明

图1所示为本发明实施例提供的基于MapReduce并行的circRNA识别方法流程图。

图2所示为本发明实施例提供的特征提取维数分布示意图。

图3所示为本发明实施例提供的极限学习机参数优化效果示意图。

图4所示为本发明实施例提供的不同分类方法识别效果示意图。

图5所示为本发明实施例提供的与传统blast方法对比示意图。

图6所示为本发明实施例提供的与现有识别算法的识别效果对比示意图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于MapReduce并行的circRNA识别方法，如图1所示，包括以下步骤S1～S7：

其中，获取的原始circRNA特征数据集包括正例数据集和反例数据集，正例数据集为待分类的circRNA序列文件，反例数据集为非circRNA序列文件。

本发明实施例中，circRNA序列数据文件总共有3个，分别为circRNA vs PCG(正例circRNA序列数量为14084，反例非circRNA序列数量为9533)、circRNA vs lncRNA(正例circRNA序列数量为14084，反例非circRNA序列数量为19722)和Stem cell vs not(正例circRNA序列数量为2082，反例非circRNA序列数量为2082)。

本发明实施例中，在获取待处理的原始circRNA特征数据集之前，需要对下载的circRNA序列数据文件进行格式判断和内容判断。其中格式判断的具体方法为：当读入的circRNA序列数据文件的行以字符串“>”为开头时，则取加一行的数据为序列文本数据。内容判断的具体方法为：读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成，若有这四个字母之外的字母出现，则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。

本发明实施例中，特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法。

其中，核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法；自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法；伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法；结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。

本发明实施例中，在k-mer提取算法中，相邻核酸的发生频率k取k＝2和k＝3时分别得到一个特征文件，因此采用上述14中特征提取算法共得到15个特征文件，15个特征文件的维数分布如图2所示。

本发明实施例中，采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征，以提高其计算效率，其具体方法为：

A1、在MapReduce中设计Map函数和Reduce函数。

本领域中特征融合常用的方式有前期融合和后期融合，本发明实施例中采用前期融合的方式对15个特征文件进行拼接。

在MRMD算法中，特征与实例类别之间的相关性用皮尔逊系数表征，皮尔逊系数越大说明特征与实例类别之间的相关性越强，关系越紧密；特征之间的冗余性用欧式距离表征，欧式距离又与Euclidean距离ED，Cosine距离COS和Tanimoto系数TC相关，欧式距离越大说明特征之间的冗余性越低。

基于上述理论，采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个circRNA实例类别与特征之间的皮尔逊系数，MD_i表示第i个circRNA实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

为F_i中所有元素的平均值，

极限学习机算法的内核功能对算法的性能有重要影响，核函数中的核参数g和惩罚系数c对极限学习机算法的性能有重要影响。其中g影响核函数的范围，而c影响模型的稳定性。本发明实施例使用粒子群算法来优化参数g和c，将粒子群算法的搜索空间对应于极限学习机算法的参数，粒子的位置代表参数值g和c，极限学习机算法的分类精度用作粒子群算法的适应度值。

步骤S5包括以下分步骤S51～S55：

其中，分类精度的计算公式为：

S53、更新总体粒子的速度和位置，更新公式为：

步骤S6包括以下分步骤S61～S66：

S61、在MapReduce中设计Map函数和Reduce函数。

S62、将特征子集中的特征数据划分为10份。

本发明实施例中，对分类效果进行评价的指标包括SE、SP、ACC和MCC，其计算公式如下：

其中TP表示预测正确的circRNA数量，FP表示预测正确的非circRNA数量，TN表示预测错误的circRNA数量，FN表示预测错误的非circRNA数量。

下面以一组具体实验例对本发明的识别效果作进一步描述。

首先比较未优化的极限学习机算法(Extreme Learning Machine，ELM)、采用粒子群算法(Particle Swarm Optimization，简称PSO)优化的极限学习机算法(GA-ELM)以及最终构建的cirRNAPL分类器的识别效果，如图3所示。由图3可知，在分类效果方面，GA-ELM和cirRNAPL分类器相比ELM取得了更好的效果。在三个数据集上，cirRNAPL分类器获得了0.815、0.822和0.782的分类准确率ACC值。实验表明，本发明有效地提高了ELM网络的预测精度和推广能力，因此我们采用优化的ELM作为分类算法来识别circRNA。

接着再将本发明的识别效果与普遍常用的机器学习算法进行比较，如图4所示。由图4可知，通过将本发明ACC、SE、SP、MCC的结果与CNN、RF、SVM、J48、ZeroR算法进行比较，本发明构建的cirRNAPL分类器取得了较好的效果。在三个数据集上，cirRNAPL实现了0.815、0.822、0.782的识别精度，并验证了PSO-ELM对circRNA识别的有效性。

然后再将本发明与传统常用的blast序列工具比对的识别效果进行比较，如图5所示。由图5可知，blast的识别准确率为0.439、0.605、0.611，而cirRNAPL分类器的分类准确率分别为0.815、0.802、0.782。考虑到blast只比较序列中比较重要或不重要的某些关键字，因此准确性稍微低一些是很正常的。因此毫无疑问，基于序列数据的cirRNAPL分类方法将在研究中具有越来越广泛的有效性和可用性。

最后将本发明与现有的优秀识别算法的研究成果进行比较，在比较时，保证了使用的数据集一致的基础上，使用一致的评价指标(即SE、SP、ACC和MCC)，图6为不同算法的效果比较。首先比较了cirRNAPL和WebCircRNA的结果，从图6可知cirRNAPL在Stem cell vsnot和circRNA vs PCG数据集上取得了比WebCircRNA更好的性能。其次分别比较了cirRNAPL与PredcircRNA、H-ELM和circDeep的结果。由图6可知，cirRNAPL在ACC、SE和MCC三项指标上优于PredcircRNA和H-ELM。通过比较可知，cirRNAPL在circRNA的识别上具有一定的有效性，并且可以为circRNA的研究提供一种新的思路。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于MapReduce并行的circRNA识别方法，其特征在于，包括以下步骤：

S1、下载circRNA序列数据文件，获取待处理的原始circRNA特征数据集；

S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征，得到多个特征文件；

S3、采用前期融合的方式对所有特征文件进行拼接，得到一个完整的特征集；

S4、采用MRMD算法对特征集进行特征选择，得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集；

S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c，使极限学习机算法的分类性能达到最优；

S6、采用优化后的极限学习机算法，结合MapReduce并行计算对特征子集中的circRNA进行分类训练，得到训练好的分类模型；

S7、采用训练好的分类模型构建cirRNAPL分类器，并将特征子集输入cirRNAPL分类器得到分类结果，完成对circRNA的识别；

所述步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征，其具体方法为：

A1、在MapReduce中设计Map函数和Reduce函数；

A2、通过Map函数按行读取原始circRNA特征数据集并进行划分，再转换为特定格式的文件<key,value1>，形式为<行号，样本>；

A3、遍历所有样本，对每个样本依次进行特征提取，输出数据<key,value2>，形式为<行号，特征集>；

A4、通过Reduce函数接收Map函数的输出数据<key,value2>，并对接收的数据进行处理，整合相同的key值对并输出到同一个文件中，即形成每个样本对应的特征文件；

所述步骤S6包括以下分步骤：

S61、在MapReduce中设计Map函数和Reduce函数；

S62、将特征子集中的特征数据划分为10份；

S63、通过Map函数按行读取特征子集，并转换为特定格式的文件<key,value2>，形式为<行号，特征集>；

S64、遍历每份特征数据，将其中一份作为测试集，剩余9份作为训练集，采用优化后的极限学习机算法对其中的circRNA进行分类训练，输出数据<key,value3>，形式为<行号，分类结果>；

S65、通过Reduce函数接收Map函数的输出数据<key,value3>，并对分类效果进行评价；

2.根据权利要求1所述的circRNA识别方法，其特征在于，所述步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据集，所述正例数据集为待分类的circRNA序列文件，所述反例数据集为非circRNA序列文件。

3.根据权利要求1所述的circRNA识别方法，其特征在于，所述步骤S1中在获取待处理的原始circRNA特征数据集之前，需要对下载的circRNA序列数据文件进行格式判断和内容判断；

所述格式判断的具体方法为：当读入的circRNA序列数据文件的行以字符串“>”为开头时，则取加一行的数据为序列文本数据；

所述内容判断的具体方法为：读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成，若有这四个字母之外的字母出现，则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。

4.根据权利要求1所述的circRNA识别方法，其特征在于，所述步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法；

所述核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法；

所述自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法；

所述伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法；

所述结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。

5.根据权利要求1所述的circRNA识别方法，其特征在于，所述步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个circRNA实例类别与特征之间的皮尔逊系数，MD_i表示第i个circRNA实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

为F_i中所有元素的平均值，

6.根据权利要求1所述的circRNA识别方法，其特征在于，所述步骤S5包括以下分步骤：

S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50，每个粒子都由一组核函数参数g和惩罚系数c组成；

S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度，并将其作为粒子群算法的适应度值；

S53、更新总体粒子的速度和位置；

S54、判断粒子群算法是否达到最大适应度值或最大迭代次数，若是则进入步骤S55，否则返回步骤S52；

7.根据权利要求6所述的circRNA识别方法，其特征在于，所述步骤S52中分类精度的计算公式为：

8.根据权利要求6所述的circRNA识别方法，其特征在于，所述步骤S53中更新总体粒子的速度和位置的公式为：