CN111599409B - 基于MapReduce并行的circRNA识别方法 - Google Patents

基于MapReduce并行的circRNA识别方法 Download PDF

Info

Publication number
CN111599409B
CN111599409B CN202010429009.XA CN202010429009A CN111599409B CN 111599409 B CN111599409 B CN 111599409B CN 202010429009 A CN202010429009 A CN 202010429009A CN 111599409 B CN111599409 B CN 111599409B
Authority
CN
China
Prior art keywords
circrna
feature
algorithm
extraction algorithm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010429009.XA
Other languages
English (en)
Other versions
CN111599409A (zh
Inventor
邹权
牛梦婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010429009.XA priority Critical patent/CN111599409B/zh
Publication of CN111599409A publication Critical patent/CN111599409A/zh
Application granted granted Critical
Publication of CN111599409B publication Critical patent/CN111599409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于MapReduce并行的circRNA识别方法,首先采用多种特征提取算法提取各序列数据的核酸组成特征、自组织相关性特征、伪核酸组成特征和结构特征,接着使用前期融合的方式将特征文件拼接到一起,形成一个完整的特征集,然后使用MRMD特征选择算法对特征集进行有效特征的选取,得到更有效的特征子集,最后通过MapReduce与极限学习机算法的结合,搭建cirRNAPL分类器,实现对circRNA的识别。本发明通过引进MapReduce并行算法提高了识别的效率,节省用户大量的时间和精力。

Description

基于MapReduce并行的circRNA识别方法
技术领域
本发明属于计算机技术领域,具体涉及一种基于MapReduce并行的circRNA识别方法的设计。
背景技术
环状RNA(circRNA)是一种新型的RNA,它不同于人类传统的线性RNA,circRNA是一种非编码RNA分子,没有5端帽,也没有3端尾,而是形成了一个环状结构。1969年Diener在研究马铃薯纺锤体块茎病时首次发现了circRNA。电子显微镜显示了这种闭环RNA的形成,也被称为类病毒。随后出现的高通量测序技术(high-sequencing techniques,RNA-seq)改善了不同物种环状RNA的测序,目前已鉴定出许多环状RNA。迄今为止,已经成功地从果蝇、蠕虫到小鼠和人类身上识别出超过10000种不同的环状RNA。环状RNA在疾病的发生发展中起着重要的作用,为药物开发提供了新的思路。准确识别环状RNA对于深入了解其功能非常重要。目前基于机器学习的蛋白质识别和位点检测的研究很多,如RF和人工神经网络。相比之下,很少有研究关注环状RNA的识别。因此,有必要研究如何利用RNA序列的特征实现对circRNA更准确的识别。
发明内容
本发明的目的是提出一种基于MapReduce并行的circRNA识别方法,利用RNA的结构特征和核苷酸的组成来表达circRNA序列的特征,实现对circRNA更准确的识别。
本发明的技术方案为:基于MapReduce并行的circRNA识别方法,包括以下步骤:
S1、下载circRNA序列数据文件,获取待处理的原始circRNA特征数据集。
S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征,得到多个特征文件。
S3、采用前期融合的方式对所有特征文件进行拼接,得到一个完整的特征集。
S4、采用MRMD算法对特征集进行特征选择,得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。
S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c,使极限学习机算法的分类性能达到最优。
S6、采用优化后的极限学习机算法,结合MapReduce并行计算对特征子集中的circRNA进行分类训练,得到训练好的分类模型。
S7、采用训练好的分类模型构建cirRNAPL分类器,并将特征子集输入cirRNAPL分类器得到分类结果,完成对circRNA的识别。
进一步地,步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据集,正例数据集为待分类的circRNA序列文件,反例数据集为非circRNA序列文件。
进一步地,步骤S1中在获取待处理的原始circRNA特征数据集之前,需要对下载的circRNA序列数据文件进行格式判断和内容判断;格式判断的具体方法为:当读入的circRNA序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;内容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。
进一步地,步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法;核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法;自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法;伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法;结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。
进一步地,步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征,其具体方法为:
A1、在MapReduce中设计Map函数和Reduce函数。
A2、通过Map函数按行读取原始circRNA特征数据集并进行划分,再转换为特定格式的文件<key,value1>,形式为<行号,样本>。
A3、遍历所有样本,对每个样本依次进行特征提取,输出数据<key,value2>,形式为<行号,特征集>。
A4、通过Reduce函数接收Map函数的输出数据<key,value2>,并对接收的数据进行处理,整合相同的key值对并输出到同一个文件中,即形成每个样本对应的特征文件。
进一步地,步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0002499817340000031
maxMDi值的计算公式如下:
Figure BDA0002499817340000032
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0002499817340000033
为Fi中所有元素的平均值,
Figure BDA0002499817340000034
为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
进一步地,步骤S5包括以下分步骤:
S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50,每个粒子都由一组核函数参数g和惩罚系数c组成。
S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度,并将其作为粒子群算法的适应度值。
S53、更新总体粒子的速度和位置。
S54、判断粒子群算法是否达到最大适应度值或最大迭代次数,若是则进入步骤S55,否则返回步骤S52。
S55、获取最大适应度值对应的最佳核函数参数g和惩罚系数c,并将其代入极限学习机算法,得到分类性能最优的极限学习机算法。
进一步地,步骤S52中分类精度的计算公式为:
Figure BDA0002499817340000041
其中ACC表示使用极限学习机算法对circRNA进行分类得到的分类精度,TP表示预测正确的circRNA数量,FP表示预测正确的非circRNA数量,TN表示预测错误的circRNA数量,FN表示预测错误的非circRNA数量。
进一步地,步骤S53中更新总体粒子的速度和位置的公式为:
Figure BDA0002499817340000042
其中pi(t)和vi(t)分别表示第i个粒子第t次迭代的位置和速度,ω为权重,c1和c2为加速度因子,R1和R2为0到1之间的随机数,Pbest,i为第i个粒子的最优解,Gbest为针对粒子群体的最佳解决方案。
进一步地,步骤S6包括以下分步骤:
S61、在MapReduce中设计Map函数和Reduce函数。
S62、将特征子集中的特征数据划分为10份。
S63、通过Map函数按行读取特征子集,并转换为特定格式的文件<key,value2>,形式为<行号,特征集>。
S64、遍历每份特征数据,将其中一份作为测试集,剩余9份作为训练集,采用优化后的极限学习机算法对其中的circRNA进行分类训练,输出数据<key,value3>,形式为<行号,分类结果>。
S65、通过Reduce函数接收Map函数的输出数据<key,value3>,并对分类效果进行评价。
S66、重复步骤S64-S65,直到每份特征数据都作为测试集进行过分类训练,得到训练好的分类模型。
本发明的有益效果是:
(1)本发明提出了一种全新的circRNA识别方法,利用RNA的结构特征和核苷酸的组成来表达circRNA序列的特征,能够实现对circRNA的准确识别,为相应药物开发提供了理论基础。
(2)本发明在进行特征提取和优化极限学习机算法分类时,引进了MapReduce的并行计算,有效提高了处理效率。
(3)本发明通过粒子群算法优化极限学习机算法,并基于优化后的极限学习机算法训练分类模型,进而构建cirRNAPL分类器,优化了circRNA的识别效果
附图说明
图1所示为本发明实施例提供的基于MapReduce并行的circRNA识别方法流程图。
图2所示为本发明实施例提供的特征提取维数分布示意图。
图3所示为本发明实施例提供的极限学习机参数优化效果示意图。
图4所示为本发明实施例提供的不同分类方法识别效果示意图。
图5所示为本发明实施例提供的与传统blast方法对比示意图。
图6所示为本发明实施例提供的与现有识别算法的识别效果对比示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于MapReduce并行的circRNA识别方法,如图1所示,包括以下步骤S1~S7:
S1、下载circRNA序列数据文件,获取待处理的原始circRNA特征数据集。
其中,获取的原始circRNA特征数据集包括正例数据集和反例数据集,正例数据集为待分类的circRNA序列文件,反例数据集为非circRNA序列文件。
本发明实施例中,circRNA序列数据文件总共有3个,分别为circRNA vs PCG(正例circRNA序列数量为14084,反例非circRNA序列数量为9533)、circRNA vs lncRNA(正例circRNA序列数量为14084,反例非circRNA序列数量为19722)和Stem cell vs not(正例circRNA序列数量为2082,反例非circRNA序列数量为2082)。
本发明实施例中,在获取待处理的原始circRNA特征数据集之前,需要对下载的circRNA序列数据文件进行格式判断和内容判断。其中格式判断的具体方法为:当读入的circRNA序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据。内容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。
S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征,得到多个特征文件。
本发明实施例中,特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法。
其中,核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法;自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法;伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法;结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。
本发明实施例中,在k-mer提取算法中,相邻核酸的发生频率k取k=2和k=3时分别得到一个特征文件,因此采用上述14中特征提取算法共得到15个特征文件,15个特征文件的维数分布如图2所示。
本发明实施例中,采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征,以提高其计算效率,其具体方法为:
A1、在MapReduce中设计Map函数和Reduce函数。
A2、通过Map函数按行读取原始circRNA特征数据集并进行划分,再转换为特定格式的文件<key,value1>,形式为<行号,样本>。
A3、遍历所有样本,对每个样本依次进行特征提取,输出数据<key,value2>,形式为<行号,特征集>。
A4、通过Reduce函数接收Map函数的输出数据<key,value2>,并对接收的数据进行处理,整合相同的key值对并输出到同一个文件中,即形成每个样本对应的特征文件。
S3、采用前期融合的方式对所有特征文件进行拼接,得到一个完整的特征集。
本领域中特征融合常用的方式有前期融合和后期融合,本发明实施例中采用前期融合的方式对15个特征文件进行拼接。
S4、采用MRMD算法对特征集进行特征选择,得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。
在MRMD算法中,特征与实例类别之间的相关性用皮尔逊系数表征,皮尔逊系数越大说明特征与实例类别之间的相关性越强,关系越紧密;特征之间的冗余性用欧式距离表征,欧式距离又与Euclidean距离ED,Cosine距离COS和Tanimoto系数TC相关,欧式距离越大说明特征之间的冗余性越低。
基于上述理论,采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure BDA0002499817340000071
maxMDi值的计算公式如下:
Figure BDA0002499817340000072
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure BDA0002499817340000073
为Fi中所有元素的平均值,
Figure BDA0002499817340000074
为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c,使极限学习机算法的分类性能达到最优。
极限学习机算法的内核功能对算法的性能有重要影响,核函数中的核参数g和惩罚系数c对极限学习机算法的性能有重要影响。其中g影响核函数的范围,而c影响模型的稳定性。本发明实施例使用粒子群算法来优化参数g和c,将粒子群算法的搜索空间对应于极限学习机算法的参数,粒子的位置代表参数值g和c,极限学习机算法的分类精度用作粒子群算法的适应度值。
步骤S5包括以下分步骤S51~S55:
S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50,每个粒子都由一组核函数参数g和惩罚系数c组成。
S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度,并将其作为粒子群算法的适应度值。
其中,分类精度的计算公式为:
Figure BDA0002499817340000081
其中ACC表示使用极限学习机算法对circRNA进行分类得到的分类精度,TP表示预测正确的circRNA数量,FP表示预测正确的非circRNA数量,TN表示预测错误的circRNA数量,FN表示预测错误的非circRNA数量。
S53、更新总体粒子的速度和位置,更新公式为:
Figure BDA0002499817340000082
其中pi(t)和vi(t)分别表示第i个粒子第t次迭代的位置和速度,ω为权重,c1和c2为加速度因子,R1和R2为0到1之间的随机数,Pbest,i为第i个粒子的最优解,Gbest为针对粒子群体的最佳解决方案。
S54、判断粒子群算法是否达到最大适应度值或最大迭代次数,若是则进入步骤S55,否则返回步骤S52。
S55、获取最大适应度值对应的最佳核函数参数g和惩罚系数c,并将其代入极限学习机算法,得到分类性能最优的极限学习机算法。
S6、采用优化后的极限学习机算法,结合MapReduce并行计算对特征子集中的circRNA进行分类训练,得到训练好的分类模型。
步骤S6包括以下分步骤S61~S66:
S61、在MapReduce中设计Map函数和Reduce函数。
S62、将特征子集中的特征数据划分为10份。
S63、通过Map函数按行读取特征子集,并转换为特定格式的文件<key,value2>,形式为<行号,特征集>。
S64、遍历每份特征数据,将其中一份作为测试集,剩余9份作为训练集,采用优化后的极限学习机算法对其中的circRNA进行分类训练,输出数据<key,value3>,形式为<行号,分类结果>。
S65、通过Reduce函数接收Map函数的输出数据<key,value3>,并对分类效果进行评价。
本发明实施例中,对分类效果进行评价的指标包括SE、SP、ACC和MCC,其计算公式如下:
Figure BDA0002499817340000091
Figure BDA0002499817340000092
Figure BDA0002499817340000093
Figure BDA0002499817340000094
其中TP表示预测正确的circRNA数量,FP表示预测正确的非circRNA数量,TN表示预测错误的circRNA数量,FN表示预测错误的非circRNA数量。
S66、重复步骤S64-S65,直到每份特征数据都作为测试集进行过分类训练,得到训练好的分类模型。
S7、采用训练好的分类模型构建cirRNAPL分类器,并将特征子集输入cirRNAPL分类器得到分类结果,完成对circRNA的识别。
下面以一组具体实验例对本发明的识别效果作进一步描述。
首先比较未优化的极限学习机算法(Extreme Learning Machine,ELM)、采用粒子群算法(Particle Swarm Optimization,简称PSO)优化的极限学习机算法(GA-ELM)以及最终构建的cirRNAPL分类器的识别效果,如图3所示。由图3可知,在分类效果方面,GA-ELM和cirRNAPL分类器相比ELM取得了更好的效果。在三个数据集上,cirRNAPL分类器获得了0.815、0.822和0.782的分类准确率ACC值。实验表明,本发明有效地提高了ELM网络的预测精度和推广能力,因此我们采用优化的ELM作为分类算法来识别circRNA。
接着再将本发明的识别效果与普遍常用的机器学习算法进行比较,如图4所示。由图4可知,通过将本发明ACC、SE、SP、MCC的结果与CNN、RF、SVM、J48、ZeroR算法进行比较,本发明构建的cirRNAPL分类器取得了较好的效果。在三个数据集上,cirRNAPL实现了0.815、0.822、0.782的识别精度,并验证了PSO-ELM对circRNA识别的有效性。
然后再将本发明与传统常用的blast序列工具比对的识别效果进行比较,如图5所示。由图5可知,blast的识别准确率为0.439、0.605、0.611,而cirRNAPL分类器的分类准确率分别为0.815、0.802、0.782。考虑到blast只比较序列中比较重要或不重要的某些关键字,因此准确性稍微低一些是很正常的。因此毫无疑问,基于序列数据的cirRNAPL分类方法将在研究中具有越来越广泛的有效性和可用性。
最后将本发明与现有的优秀识别算法的研究成果进行比较,在比较时,保证了使用的数据集一致的基础上,使用一致的评价指标(即SE、SP、ACC和MCC),图6为不同算法的效果比较。首先比较了cirRNAPL和WebCircRNA的结果,从图6可知cirRNAPL在Stem cell vsnot和circRNA vs PCG数据集上取得了比WebCircRNA更好的性能。其次分别比较了cirRNAPL与PredcircRNA、H-ELM和circDeep的结果。由图6可知,cirRNAPL在ACC、SE和MCC三项指标上优于PredcircRNA和H-ELM。通过比较可知,cirRNAPL在circRNA的识别上具有一定的有效性,并且可以为circRNA的研究提供一种新的思路。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种基于MapReduce并行的circRNA识别方法,其特征在于,包括以下步骤:
S1、下载circRNA序列数据文件,获取待处理的原始circRNA特征数据集;
S2、采用多种特征提取算法提取原始circRNA特征数据集的数据特征,得到多个特征文件;
S3、采用前期融合的方式对所有特征文件进行拼接,得到一个完整的特征集;
S4、采用MRMD算法对特征集进行特征选择,得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集;
S5、采用粒子群算法优化极限学习机算法的核函数参数g和惩罚系数c,使极限学习机算法的分类性能达到最优;
S6、采用优化后的极限学习机算法,结合MapReduce并行计算对特征子集中的circRNA进行分类训练,得到训练好的分类模型;
S7、采用训练好的分类模型构建cirRNAPL分类器,并将特征子集输入cirRNAPL分类器得到分类结果,完成对circRNA的识别;
所述步骤S2中采用MapReduce并行计算的方式同时执行多种特征提取算法提取原始circRNA特征数据集的数据特征,其具体方法为:
A1、在MapReduce中设计Map函数和Reduce函数;
A2、通过Map函数按行读取原始circRNA特征数据集并进行划分,再转换为特定格式的文件<key,value1>,形式为<行号,样本>;
A3、遍历所有样本,对每个样本依次进行特征提取,输出数据<key,value2>,形式为<行号,特征集>;
A4、通过Reduce函数接收Map函数的输出数据<key,value2>,并对接收的数据进行处理,整合相同的key值对并输出到同一个文件中,即形成每个样本对应的特征文件;
所述步骤S6包括以下分步骤:
S61、在MapReduce中设计Map函数和Reduce函数;
S62、将特征子集中的特征数据划分为10份;
S63、通过Map函数按行读取特征子集,并转换为特定格式的文件<key,value2>,形式为<行号,特征集>;
S64、遍历每份特征数据,将其中一份作为测试集,剩余9份作为训练集,采用优化后的极限学习机算法对其中的circRNA进行分类训练,输出数据<key,value3>,形式为<行号,分类结果>;
S65、通过Reduce函数接收Map函数的输出数据<key,value3>,并对分类效果进行评价;
S66、重复步骤S64-S65,直到每份特征数据都作为测试集进行过分类训练,得到训练好的分类模型。
2.根据权利要求1所述的circRNA识别方法,其特征在于,所述步骤S1中获取的原始circRNA特征数据集包括正例数据集和反例数据集,所述正例数据集为待分类的circRNA序列文件,所述反例数据集为非circRNA序列文件。
3.根据权利要求1所述的circRNA识别方法,其特征在于,所述步骤S1中在获取待处理的原始circRNA特征数据集之前,需要对下载的circRNA序列数据文件进行格式判断和内容判断;
所述格式判断的具体方法为:当读入的circRNA序列数据文件的行以字符串“>”为开头时,则取加一行的数据为序列文本数据;
所述内容判断的具体方法为:读取的序列文本数据的内容是否由“A”、“U”、“C”或“G”四个字母组成,若有这四个字母之外的字母出现,则提示输入的文本有包括“A”、“U”、“C”和“G”之外的字母。
4.根据权利要求1所述的circRNA识别方法,其特征在于,所述步骤S2中的特征提取算法包括核酸组成特征提取算法、自组织相关性特征提取算法、伪核酸组成特征提取算法以及结构特征提取算法;
所述核酸组成特征提取算法包括k-mer提取算法、Mismatch提取算法和Subsequence提取算法;
所述自组织相关性特征提取算法包括基于双核苷酸的自相关DAC提取算法、基于双核苷酸的交叉协方差DCC提取算法、基于双核苷酸的自相关DACC提取算法、Moran自相关MAC提取算法、Geary自相关GAC提取算法和归一化Moreau-Broto自相关NMBAC提取算法;
所述伪核酸组成特征提取算法包括一般平行相关伪二核苷酸组合PC提取算法和一般序列相关伪二核苷酸组成SC提取算法;
所述结构特征提取算法包括局部结构序列三重元特征Triplet提取算法、PseSSC提取算法和PseDPC提取算法。
5.根据权利要求1所述的circRNA识别方法,其特征在于,所述步骤S4中采用MRMD算法对特征集进行特征选择的依据为max(MRi+MDi),其中MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例特征之间的欧式距离,其中maxMRi值的计算公式如下:
Figure FDA0003509062510000031
maxMDi值的计算公式如下:
Figure FDA0003509062510000032
其中PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例的特征向量,Ci表示第i个circRNA实例的类别向量,M表示circRNA实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量,
Figure FDA0003509062510000033
为Fi中所有元素的平均值,
Figure FDA0003509062510000034
为Ci中所有元素的平均值,EDi表示第i个circRNA实例特征之间的Euclidean距离,COSi表示第i个circRNA实例特征之间的Cosine距离,TCi表示第i个circRNA实例特征之间的Tanimoto系数。
6.根据权利要求1所述的circRNA识别方法,其特征在于,所述步骤S5包括以下分步骤:
S51、初始化设置粒子群算法的最大迭代次数和粒子群整体大小分别为50和50,每个粒子都由一组核函数参数g和惩罚系数c组成;
S52、计算使用极限学习机算法对circRNA进行分类得到的分类精度,并将其作为粒子群算法的适应度值;
S53、更新总体粒子的速度和位置;
S54、判断粒子群算法是否达到最大适应度值或最大迭代次数,若是则进入步骤S55,否则返回步骤S52;
S55、获取最大适应度值对应的最佳核函数参数g和惩罚系数c,并将其代入极限学习机算法,得到分类性能最优的极限学习机算法。
7.根据权利要求6所述的circRNA识别方法,其特征在于,所述步骤S52中分类精度的计算公式为:
Figure FDA0003509062510000041
其中ACC表示使用极限学习机算法对circRNA进行分类得到的分类精度,TP表示预测正确的circRNA数量,FP表示预测正确的非circRNA数量,TN表示预测错误的circRNA数量,FN表示预测错误的非circRNA数量。
8.根据权利要求6所述的circRNA识别方法,其特征在于,所述步骤S53中更新总体粒子的速度和位置的公式为:
Figure FDA0003509062510000042
其中pi(t)和vi(t)分别表示第i个粒子第t次迭代的位置和速度,ω为权重,c1和c2为加速度因子,R1和R2为0到1之间的随机数,Pbest,i为第i个粒子的最优解,Gbest为针对粒子群体的最佳解决方案。
CN202010429009.XA 2020-05-20 2020-05-20 基于MapReduce并行的circRNA识别方法 Active CN111599409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010429009.XA CN111599409B (zh) 2020-05-20 2020-05-20 基于MapReduce并行的circRNA识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010429009.XA CN111599409B (zh) 2020-05-20 2020-05-20 基于MapReduce并行的circRNA识别方法

Publications (2)

Publication Number Publication Date
CN111599409A CN111599409A (zh) 2020-08-28
CN111599409B true CN111599409B (zh) 2022-05-20

Family

ID=72192189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010429009.XA Active CN111599409B (zh) 2020-05-20 2020-05-20 基于MapReduce并行的circRNA识别方法

Country Status (1)

Country Link
CN (1) CN111599409B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113764043B (zh) * 2021-09-10 2022-05-20 东北林业大学 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备
CN113838524B (zh) * 2021-09-27 2024-04-26 电子科技大学长三角研究院(衢州) S-亚硝基化位点预测方法、模型训练方法及存储介质
CN113823356B (zh) * 2021-09-27 2024-05-28 电子科技大学长三角研究院(衢州) 一种甲基化位点识别方法及装置
CN116070157B (zh) * 2023-01-13 2024-04-16 东北林业大学 基于级联森林和双流结构的circRNA识别方法
CN116343915B (zh) * 2023-03-15 2023-11-24 电子科技大学长三角研究院(衢州) 生物序列集成分类器的构建方法及生物序列预测分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503483A (zh) * 2016-09-23 2017-03-15 西南大学 基于模块化因子图的骨髓瘤信号通路机制确认方法
WO2017051364A2 (en) * 2015-09-24 2017-03-30 Defendi Italy S.R.L. A gas burner with multiple rings of flames for cooking hobs
CN109312400A (zh) * 2016-03-25 2019-02-05 凯锐思公司 合成核酸掺入物
US10528875B1 (en) * 2015-04-06 2020-01-07 EMC IP Holding Company LLC Methods and apparatus implementing data model for disease monitoring, characterization and investigation
CN111027619A (zh) * 2019-12-09 2020-04-17 华中科技大学 一种基于忆阻器阵列的K-means分类器及其分类方法
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111243666A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于Nextflow的环状核糖核酸自动化分析方法及系统
CN113823356A (zh) * 2021-09-27 2021-12-21 电子科技大学长三角研究院(衢州) 一种甲基化位点识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572807B2 (en) * 2013-04-26 2020-02-25 Disney Enterprises, Inc. Method and device for three-weight message-passing optimization scheme using splines

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528875B1 (en) * 2015-04-06 2020-01-07 EMC IP Holding Company LLC Methods and apparatus implementing data model for disease monitoring, characterization and investigation
WO2017051364A2 (en) * 2015-09-24 2017-03-30 Defendi Italy S.R.L. A gas burner with multiple rings of flames for cooking hobs
CN109312400A (zh) * 2016-03-25 2019-02-05 凯锐思公司 合成核酸掺入物
CN106503483A (zh) * 2016-09-23 2017-03-15 西南大学 基于模块化因子图的骨髓瘤信号通路机制确认方法
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
CN111027619A (zh) * 2019-12-09 2020-04-17 华中科技大学 一种基于忆阻器阵列的K-means分类器及其分类方法
CN111243666A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于Nextflow的环状核糖核酸自动化分析方法及系统
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN113823356A (zh) * 2021-09-27 2021-12-21 电子科技大学长三角研究院(衢州) 一种甲基化位点识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CirRNAPL: A web server for the identification of circRNA based on extreme learning machine;Mengting Niu 等;《Computational and Structural Biotechnology Journal》;20200402;834-842 *
基于Map Reduce的多序列星比对方法在肿瘤研究中的应用;李大鹏 等;《癌症进展》;20160630;第14卷(第06期);510-513 *

Also Published As

Publication number Publication date
CN111599409A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111599409B (zh) 基于MapReduce并行的circRNA识别方法
Fan et al. lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning
CN111564179B (zh) 一种基于三元组神经网络的物种生物学分类方法及系统
Yuan et al. Evoq: Mixed precision quantization of dnns via sensitivity guided evolutionary search
Wang et al. An improved k NN text classification method
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN114863175A (zh) 一种无监督多源部分域适应图像分类方法
Song et al. Importance weighted expectation-maximization for protein sequence design
CN114328923A (zh) 一种基于多任务双边分支网络的引文意图分类方法
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
Mahony et al. Self-organizing maps of position weight matrices for motif discovery in biological sequences
Yamaguchi et al. EvoOpt: an MSA-guided, fully unsupervised sequence optimization pipeline for protein design
CN113178233B (zh) 大规模单细胞转录组数据高效聚类方法
CN113162914B (zh) 一种基于Taylor神经网络的入侵检测方法及系统
Liu et al. Protein sub-nuclear location by fusing AAC and PSSM features based on sequence information
CN116431831B (zh) 基于标签对比学习的有监督关系抽取方法
CN117649552A (zh) 一种基于对比学习和主动学习的图像增量学习方法
Czejdo : Classifying and Generating Repetitive Elements in the Genome Using Deep Learning
He et al. DeepAPArice: a deep learning model for poly (A) site intelligent prediction in rice using convolutional neural network
Rastogi et al. Sublinear partition estimation
Walker Developing variational Bayesian inference for applications to gene expression data
Xiao et al. Metagenomic Sequence Classification based on One-Dimensional Convolutional Neural Network
Yong-qing et al. A feature selection method based on improved TFIDF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant