CN111462820A - 基于特征筛选和集成算法的非编码rna预测方法 - Google Patents

基于特征筛选和集成算法的非编码rna预测方法 Download PDF

Info

Publication number
CN111462820A
CN111462820A CN202010240971.9A CN202010240971A CN111462820A CN 111462820 A CN111462820 A CN 111462820A CN 202010240971 A CN202010240971 A CN 202010240971A CN 111462820 A CN111462820 A CN 111462820A
Authority
CN
China
Prior art keywords
data set
prediction
sample data
coding rna
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010240971.9A
Other languages
English (en)
Inventor
孙婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010240971.9A priority Critical patent/CN111462820A/zh
Publication of CN111462820A publication Critical patent/CN111462820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明公开了一种基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:a、在RNA数据库中获取非编码RNA序列组成正样本数据集,并选取与非编码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;b、利用特征筛选和集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。本发明可以对非编码RNA进行预测,预测结果较为准确,预测效率大大提高。

Description

基于特征筛选和集成算法的非编码RNA预测方法
技术领域
本发明涉及RNA预测技术领域,特别涉及一种基于特征筛选和集成算法的 非编码RNA预测方法。
背景技术
一直以来生物研究者使用生物实验的方法识别非编码RNA,生物实验的方法 主要是通过各种先进实验技术来大规模识别非编码RNA基因。虽然生物实验方 法可以准确识别非编码RNA,但是对那些表达水平极低、在不同时期才表达或者 在特定环境下才表达的非编码RNA,生物实验的方法不再适用,除此之外,依靠 生化实验方法识别非编码RNA既耗时而且价格昂贵,因此,目前生物实验的方 法对非编码RNA识别受到不同程度的限制,所以我们有必要利用生物信息学方 法从基因组序列中识别非编码RNA。
非编码RNA在染色体复制、RNA加工与修饰、肿瘤抑制、细胞调亡和基因调 控网络方面扮演着重要角色。非编码RNA分子参与的调控网络可以影响人类发 育、进化、遗传变异和多种疾病的等关键生理进程。对非编码RNA深入研究可 能揭示一个全新的由RNA介导的遗传信息表达调控网络,从而以不同的视角阐 明和解释人类基因组的结构和功能,也将为人类疾病和治疗提供新的技术和思 路。随着新一代高通芯片和测序技术的发展,不同物种的基因组已经陆续测序 完成,利用生物信息学方法从基因组序列中预测非编码RNA基因非常重要,已 成为RNA基因组学的研究热点。
近几年人工智能的飞速发展,机器学习和深度学习应用领域的不断扩大, 将人工智能与生物学相结合的想法及研究成为新的探索点,也是目前研究和应 用的热门领域。实际上,深度学习的优势在于它可以将数据映射到高维空间中, 深度学习自主地发现生物基因序列中我们用肉眼无法发现的内在特征,虽然深 度学习有很高识别生物基因序列的能力,但是深度学习通过卷积层自主提取生 物特征是无法预知的,导致了生物学研究者无法对生物特征的功能进一步了解。 而机器学习可以提取所需的生物特征,并对生物特征进一步研究,通过研究结 果从不同的视角解析生物特征的结构和功能。想要更深一步研究非编码RNA的 功能和结构,非编码RNA的识别是最关键的一步。通过生物实验的方法识别非 编码RNA虽然准确可靠,但是对那些表达水平极低、在不同时期才表达或者在 特定环境下才表达的非编码RNA,生物实验的方法不再适用。除此之外,实验的 方法既耗时而且价格昂贵。因此,如何利用机器学习对非编码RNA进行准确预 测成为申请人所要研究与解决的技术问题。
发明内容
本发明的目的在于,提供一种基于特征筛选和集成算法的非编码RNA预测 方法。本发明可以对非编码RNA进行预测,预测结果较为准确,预测效率大大 提高。
本发明的技术方案:基于特征筛选和集成算法的非编码RNA预测方法,包 括以下步骤:
a、在RNA数据库中获取非编码RNA序列组成正样本数据集,并选取与非编 码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本 数据集组成的数据集,并将数据集分割成训练集和预测集;
b、利用特征筛选和集成算法构建机器学习模型,将训练集输入至机器学习 模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
上述的基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取lncRNA序列组成正样本数据集,并选取与lncRNA 序列相同数量的mRNA序列组成负样本数据集,得到正样本数据集和负样本数据 集组成的数据集,并将数据集分割成训练集和预测集;
其中,在选取正负样本集的过程中,从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的lncRNA序列,从负样本数据集中去除长 度小于200nt和大于20000nt的mRNA序列,再用随机森林测试方法确定正负样 本集的个数;
b、利用ORF以及K-mer作为非编码RNA的特征筛选,结合Voting集成算 法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训 练后的机器学习模型进行非编码RNA预测。
前述的基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取circRNA序列组成正样本数据集,并选取与circRNA 序列相同数量的mRNA序列组成负样本数据集,得到正样本数据集和负样本数据 集组成的数据集,并将数据集分割成训练集和预测集;
其中,在选取正负样本集的过程中,从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的序列,从负样本数据集中去除长度小于 200nt和大于20000nt的mRNA序列,再用随机森林测试方法确定正负样本集的 个数;
b、利用ORF以及K-mer作为非编码RNA的特征筛选,结合Voting集成算 法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训 练后的机器学习模型进行非编码RNA预测。
前述的基于特征筛选和集成算法的非编码RNA预测方法,所述每条序列中 最长的ORF片段作为ORF的首要特征,记为ORF_LONGEST;
将ORF_LONGEST与该序列的总长度的比值作为ORF的覆盖率ORF_Coverage:
Figure BDA0002432558700000031
其中Transcript_length表示整个序列的长度,得到ORF的第二特征;
将该序列存在的ORF的个数作为ORF的最后一个特征,记为ORF_Count。
前述的基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取真实的pre-miRNA序列组成正样本数据集,并选取 与真实的pre-miRNA序列相同数量的虚假的pre-miRNA序列组成负样本数据集, 得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和 预测集;
b、利用碱基组合频率以及K-mer作为非编码RNA的特征筛选,结合lightGBM 集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练, 通过训练后的机器学习模型进行非编码RNA预测。
前述的基于特征筛选和集成算法的非编码RNA预测方法,所述的碱基组合 频率包括四种表示方式:(G-C)%、(A-U)%、(G+C)%和(A+U)%,
具体碱基组合频率为:
Figure BDA0002432558700000032
Figure BDA0002432558700000033
(G+C)%=G%+C%
(A+U)%=A%+U%。
与现有技术相比,本发明利用特征筛选和集成算法构建机器学习模型,首先 从RNA数据库中获取非编码RNA序列以及相对应数量的RNA序列构成数据集, 然后将数据集划分成训练机后对机器学习模型进行训练,最后通过机器学习的 方法对非编码RNA预测;本发明采用的特征筛选可以选取最优的特征组合,去 除冗余和不相关的特征,从而提升机器学习模型对非编码RNA的预测的准确率, 使得预测结果较为准确,预测效率大大提高。此外,本发明进一步的提出了三 种非编码RNA的预测方法,包括lncRNA、circRNA以及pre-miRNA,然后优选对 应的特征与集成算法,从而对三种非编码RNA的有着很好的预测效果。本发明 还进一步地对ORF(开放阅读框)择优选取了三个主要特征,从而大大提高对lncRNA、circRNA这两种非编码RNA的预测效率。
附图说明
图1是决策树模型对lncRNA预测准确率及对应特征百分比;
图2是LDA模型对lncRNA预测准确率及对应特征百分比;
图3是随机森林模型对lncRNA预测准确率及对应特征百分比;
图4是bagging_tree模型对lncRNA预测准确率及对应特征百分比;
图5是bagging_LDA模型对lncRNA预测准确率及对应特征百分比;
图6是bagging_RFT模型对lncRNA预测准确率及对应特征百分比;
图7是Adaboost模型对lncRNA预测准确率及对应特征百分比;
图8是Voting模型对lncRNA预测准确率及对应特征百分比;
图9是八种模型通过特征筛选对lncRNA的预测准确率;
图10是八种模型经过三种特征处理对lncRNA的预测准确率;
图11是决策树模型对circRNA预测准确率及对应特征百分比;
图12是LDA模型对circRNA预测准确率及对应特征百分比;
图13是随机森林模型对circRNA预测准确率及对应特征百分比;
图14是bagging_tree模型对circRNA预测准确率及对应特征百分比;
图15是bagging_LDA模型对circRNA预测准确率及对应特征百分比;
图16是bagging_RFT模型对circRNA预测准确率及对应特征百分比;
图17是Adaboost模型对circRNA预测准确率及对应特征百分比;
图18是Voting模型对circRNA预测准确率及对应特征百分比;
图19是八种模型通过特征筛选对circRNA的预测准确率;
图20是八种模型经过三种特征处理对circRNA的预测准确率;
图21是决策树模型对pre-miRNA预测准确率及对应特征百分比;
图22是LDA模型对pre-miRNA预测准确率以及对应特征百分比;
图23是随机森林模型对pre-miRNA预测准确率及对应特征百分比;
图24是bagging_tree模型对pre-miRNA预测准确率及对应特征百分比;
图25是bagging_LDA模型对pre-miRNA预测准确率及对应特征百分比;
图26是bagging_RFT模型对pre-miRNA预测准确率及对应特征百分比;
图27是Adaboost模型对pre-miRNA预测准确率及对应特征百分比;
图28是Voting模型对pre-miRNA预测准确率及对应特征百分比;
图29是八种模型通过特征筛选对pre-miRNA的预测准确率;
图30是八种模型经过三种特征处理对pre-miRNA的预测准确率。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限 制的依据。
实施例1:基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取lncRNA(长非编码RNA(long noncoding RNA,lncRNA) 是指一类广泛存在于真核生物中,转录本长度大于200nt不具有编码蛋白的能 力的RNA分子)序列组成正样本数据集,并选取与lncRNA序列相同数量的mRNA 序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并 将数据集分割成训练集和预测集;
其中,在选取正负样本集的过程中,从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的lncRNA序列,从负样本数据集中去除长 度小于200nt和大于20000nt的mRNA序列,再用随机森林测试方法确定正负样 本集的个数,从而确定选取了7500条lncRNA序列和7500条mRNA序列,
b、利用ORF(开放阅读框,是以三位连续的碱基作为开始密码子的起始端, 在以每三位碱开始读,一直到以三位碱基作为终止密码子的结束端)以及K-mer (表示生物分子中任意区域的核酸序列的K元组)作为非编码RNA的特征筛选,
对于ORF的特征筛选,在每条序列中最长的ORF片段作为ORF的首要特征, 记为ORF_LONGEST;
将ORF_LONGEST与该序列的总长度的比值作为ORF的覆盖率ORF_Coverage:
Figure BDA0002432558700000051
其中Transcript_length表示整个序列的长度,得到ORF的第二特征;
将该序列存在的ORF的个数作为ORF的最后一个特征,记为ORF_Count。
对于K-mer的特征筛选,本实施例中选择了1至5-mer的字符串作为描述 非编码RNA序列的重要特征,字符串包括A,U,C,G四种碱基字符,其中,1-mer 是4维特征,2-mer是16维特征,3-mer是64维特征,4-mer是256维特征, 5-mer是1024维特征,所以1至5-mer的字符串一共有1364维特征。这里K-mer 中的k表示含有碱基的个数,比如K取5时,表示5个连续碱基组成的字符串, 一共有1024种相互独立表示方式,任意取一种连续碱基段可以表示为SSSSS,S 可以取四种碱基(A,U,C,G)中的任意一个碱基。具体表示方式以2-mer表 示方式为例,可以看表1。
Figure BDA0002432558700000061
表1
结合Voting(一种集成学习算法,也被称为投票分类器。Voting是将多种 模型的结果通过投票的方式进行聚合,本实施例中采用Soft Voting的投票思 想,是将所有模型预测样本为某一类别的概率的平均值作为标准,概率最高的 对应的类型为最终的预测结果)集成算法构建机器学习模型,将训练集输入至 机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预 测。
实施例2:基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取circRNA(circular RNA,环状RNA)是一类通过 共价键形成闭合环状结构的非编码RNA分子)序列组成正样本数据集,并选取 与circRNA序列相同数量的mRNA序列组成负样本数据集,得到正样本数据集和 负样本数据集组成的数据集,并将数据集分割成训练集和预测集;
其中,在选取正负样本集的过程中,从正样本数据集中去除长度超过 20099nt的lncRNA序列和具有特异性的序列,从负样本数据集中去除长度小于 200nt和大于20000nt的mRNA序列,再用随机森林测试方法确定正负样本集的 个数,从而确定选取了2750条lncRNA序列和2750条mRNA序列,
b、利用ORF以及K-mer作为非编码RNA的特征筛选,结合Voting集成算 法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训 练后的机器学习模型进行非编码RNA预测。
实施例3:基于特征筛选和集成算法的非编码RNA预测方法,包括以下步骤:
a、在RNA数据库中获取8000条真实的pre-miRNA(miRNA是一类具有内源 性的长度约为20~25nt,由茎环结构的前体pre-miRNA通过核酸酶Dicer加工 得到的非编码单链小RNA子)序列组成正样本数据集,并选取与真实的pre-miRNA 序列相同数量的虚假的pre-miRNA序列组成负样本数据集,得到正样本数据集 和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;
b、利用碱基组合频率(碱基组合频率包括四种表示方式:(G-C)%、(A-U)%、 (G+C)%和(A+U)%,
具体碱基组合频率为:
Figure BDA0002432558700000071
Figure BDA0002432558700000072
(G+C)%=G%+C%
(A+U)%=A%+U%)
以及K-mer作为非编码RNA的特征筛选,结合lightGBM(Light Gradient BoostingMachine,lightGBM是个快速的、分布式的、高性能的基于决策树算 法的梯度提升框架)集成算法构建机器学习模型,将训练集输入至机器学习模 型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
申请人分别采用AUC值、准确率(Accuracy)、精确率(precision)、召 回率(recall)以及精确率和召回率之间的权重比例系数f1-score,利用这五 种指标来评估实施例1、实施例2和实施例3对非编码RNA的分类效果。在非编 码RNA预测中,正例分别为lncRNA、真实的pre-miRNA和circRNA,负例分别为 mRNA和虚假的pre-miRNA。真正例(TP)是指模型将正类别样本正确地预测为 正类别。假负例(FN)指模型将正类别样本错误地预测为负类别。假正例(FP) 指模型将负类别样本错误地预测为正类别。真负例(TN)指模型将负类别样本 正确地预测为负类别。具体计算公式为:
Figure BDA0002432558700000073
Figure BDA0002432558700000074
Figure BDA0002432558700000075
f1为当β=1时的值,
Figure BDA0002432558700000076
此时准确率和召回率一样重要,
Figure BDA0002432558700000081
在机器学习中,ROC曲线分析和AUC值是衡量二分类模型优劣的一种评价指 标,表示正例排在负例前面的概率。在坐标上ROC曲线越往左上角靠近,表示 AUC的值越大,则表示分类器效果越好。在二分类器识别正样本与负样本时候, 最直观看ROC曲线的界限值判断分类器对样本识别能力。混淆矩阵(Confusion Matrix)是分别统计分类模型归错类和归对类的观测值个数,然后把结果放在 一个表里展示出来,如表2:
Figure BDA0002432558700000082
表2
真阳性率(True Positive Rate,TPR)的含义表示正样本被正确预测为正 样本的比例,也被称为召回率(Recall):
Figure BDA0002432558700000083
假阳性率(False Positive Rate,FPR)的含义表示负样本被错误预测为正样本的比例,也被称为灵敏性 (Sensitivity,SE):
Figure BDA0002432558700000084
因此在对二分类预测时候,TPR的值越大 越好和FPR的值越小越好。
实验中主要使用三种集成算法对三种非编码RNA进行预测,三种非编码RNA 分别为lncRNA、pre-miRNA和circRNA。为了考察Voting集成算法和lightGBM 集成算法结合特征筛选对三种非编码RNA预测的有效性,这里主要选择了两种 对比的实验策略。第一,主模型与三种机器学习算法进行对比,分别为决策树、 LDA和随机森林。第二,主模型与三种bagging集成算法对比,分别为 bagging_tree、bagging_LDA和bagging_RFT。分别选用机器学习中AUC值、准 确率、精确率、f1-score和召回率五种评价指标做评估比较。
最后,为了进一步验证Voting集成算法和lightGBM集成算法结合序列特 征对三种非编码RNA预测的优越性,再分别加入Adaboost、XGboost和lightGBM 三种boosting集成算法进行准确率均值的比较。
AUC均值和准确率均值都是经过Stratified五折交叉验证输出结果,且将 数据分割成8:2的训练集和测试集。而精确率、f1-score和召回率是单次训练 和测试输出的结果,且将数据分割成9:1的训练集和测试集,从而分别对各个 模型进行单次非编码RNA的准确率预测。
在对三种非编码RNA预测中,为了考察特征筛选的有效性,分别使用三种对 比策略:第一,特征筛选的八种模型之间对比。第二,特征筛选与PCA降维做 对比。第三,特征筛选与原始特征做对比。其中,在八种模型对三种非编码RNA 的预测,PCA降维方法是以每100维度的特征进行搜索,确定八个模型最佳的预 测准确率。特征筛选方法是以2%维度的特征进行搜索,确定八个模型最佳的预 测准确率。
对实施例1的预测结果与另外7种模型的预测结果进行统计,得到由图1- 图8得到八种模型通过特征筛选的每百分比的特征组输出预测lncRNA的准确 率。图1中决策树模型的最佳预测准确率为88.27%和对应的特征的百分比为 19%。图2中LDA模型的最佳预测准确率为91.6%和对应的特征的百分比为47%。 图3中随机森林模型的最佳预测准确率为91.4%和对应的特征的百分比为19%。 图4中bagging_tree模型的最佳预测准确率为90.27%和对应的特征的百分比为 7%。图5中bagging_LDA模型的最佳预测准确率为91.8%和对应的特征的百分比 为63%。图6中bagging_RFT模型的最佳预测准确率为91.13%和对应的特征的 百分比为5%。图7中Adaboost模型的最佳预测准确率为91.47%和对应的特征 的百分比为15%。图8中Voting模型(实施例1)的最佳预测准确率为93.93%和对应的特征的百分比为45%。
在八种模型对lncRNA预测中,下表3和图9表示八种模型通过特征筛选对 lncRNA的预测准确率。从表3可知,经过特征筛选选取的最佳特征集的维度明 显降低,维度范围为5%~63%,有效降低模型的训练时间。从图9中可以看出 Voting模型的预测准确率为93.93%,均高于七种模型的预测准确率,且相差比 较明显,相差的范围为2.13%~5.66%。实验数据表明了通过特征筛选的Voting 模型对lncRNA的预测效果最好,并且可以通过图9直观看出Voting模型对 lncRNA的预测准确率最高。
Figure BDA0002432558700000091
Figure BDA0002432558700000101
表3
表4表示八种通过三种特征处理对lncRNA的预测准确率。表5表示在八种 模型对lncRNA预测中,特征筛选与原始特征和PCA降维这两种的预测准确率对 比。从表4和表5的实验数据可知,在八种模型对lncRNA预测中,第一,对于 同种模型的对比,特征筛选比PCA降维的预测准确率高出1.8%~5.6%,。第二, 对于同种模型的对比,特征筛选比原始特征的预测准确率高出0.73%~1.4%。第 三,特征筛选的Voting模型与原始特征的Voting模型对比,通过特征筛选的 Voting主模型对lncRNA的预测准确率提高了0.73%。以上对比数据表明了,第 一,对lncRNA的预测中,特征筛选方法要比PCA降维方法更加有效。第二,通过特征筛选可以提高八种模型对lncRNA的预测准确率。第三,通过特征筛选有 效提高Voting主模型对lncRNA的预测准确率。
Figure BDA0002432558700000102
表4
Figure BDA0002432558700000103
表5
图10表示八种模型经过三种特征处理对lncRNA的预测准确率。从图10可 知,在八种模型对lncRNA预测中,特征筛选的预测准确率均高于PCA降维的预 测准确率和原始特征的预测准确率。从图10的所标的实验数据和柱状体高低可 以直观看出,特征筛选有效提高八种模型对lncRNA的预测准确率,并且发现PCA 降维的八种模型对lncRNA预测效果较差。
对实施例2的预测结果与另外7种模型的预测结果进行统计,得到由图 11-18的八幅图表示八种模型通过特征筛选的每百分比的特征组输出预测 circRNA的准确率值。图11中决策树模型的最佳预测准确率为91.45%和对应的 特征的百分比为7%。图12中国LDA模型的最佳预测准确率为89.64%和对应的 特征的百分比为55%。图13可知,随机森林模型的最佳预测准确率为93.64%和 对应的特征的百分比为21%。图14中bagging_tree模型的最佳预测准确率为 92.55%和对应的特征的百分比为5%。图15中bagging_LDA模型的最佳预测准确 率为90.36%和对应的特征的百分比为61%。图16中bagging_RFT模型的最佳预测准确率为93.09%和对应的特征的百分比为1%。图17中adaboost模型的最佳 预测准确率为94%和对应的特征的百分比为65%。图18中Voting模型(实施例 2)预测最高准确率为94.55%和与其对应的特征的百分比为5%。
在八种模型对circRNA预测中,下表6和图19表示八种模型通过特征筛选 对circRNA的预测准确率。从表6可知,通过特征筛选得到最佳特征集的维度 明显降低,维度范围为1%~65%,有效降低模型的训练时间。模型Voting的预 测准确率为94.55%,均高于七种模型的预测准确率,且相差比较明显,相差的 范围为0.55%~4.91%。实验数据表明了通过特征筛选的Voting模型对circRNA 的预测效果最好,并且可以通过图19直观看出Voting模型对circRNA的预测 准确率最高。
Figure BDA0002432558700000111
表6
表7表示八种模型经过三种特征处理对circRNA的预测准确率。表8表示 在八种模型对circRNA预测中,特征筛选与原始特征和PCA降维的预测准确率 对比。从表7和表8的实验数据可知,在八种模型对circRNA预测中,第一, 特征筛选比PCA降维的预测准确率高出0.18%~4%。第二,特征筛选比原始特征 的预测准确率高出0.19%~2.01%。第三,与原始特征的Voting主模型对比,经 过特征筛选的Voting主模型对circRNA的预测准确率提升了0.74%。以上对比 表明了,第一,特征筛选要比PCA降维更加有效。第二,经过特征筛选可以提 高八种模型对circRNA的预测准确率。第三,经过特征筛选可以提高Voting主 模型对长circRNA的预测准确率,说明了特征筛选有效提高Voting主模型对 circRNA的预测准确率。
Figure BDA0002432558700000121
表7
Figure BDA0002432558700000122
表8
图20表示八种模型经过三种特征处理对circRNA的预测准确率。从图20 可知,在八个模型对circRNA预测中,特征筛选的预测准确率均高于PCA降维 的预测准确率和原始特征的预测准确率。从图20的所标的实验数据和柱状体高 低可以直观看出,特征筛选有效提高八种模型对circRNA的预测准确率,并且 发现PCA降维的八种模型对circRNA预测效果较差。
对实施例3的预测结果与另外7种模型的预测结果进行统计,得到由图 21-28的八幅图表示八种模型通过特征筛选的每百分比的特征组输出预测 pre-miRNA的准确率。图21中决策树模型的最佳预测准确率为79.06%和对应的 特征的百分比为23%。图22中LDA模型的最佳预测准确率为84.69%和与其对应 的特征的百分比为99%。图23中随机森林模型的最佳预测准确率为87.75%和对 应的特征的百分比为89%。图24中bagging_tree模型的最佳预测准确率为 81.94%和对应的特征的百分比为91%。图25中bagging_LDA模型的最佳预测准 确率为84.38%和对应的特征的百分比为99%。图26中bagging_RFT模型的最佳预测准确率为86.94%和对应的特征的百分比为85%。图27中Adaboost模型预 的最佳预测准确率为88.31%和对应的特征的百分比为75%。图28中lightGBM 模型(实施例3)的最佳预测准确率为93.38%和对应的特征的百分比为71%。
在八种模型对pre-miRNA预测中,表9和图29表示八种模型通过特征筛选 对pre-miRNA的预测准确率。从表9可知,通过特征筛选得到最佳特征集,八 种模型的最佳特征集的维度范围为23%~91%,有效降低小部分模型的训练时间, 两种模型的最佳特征集的维度为99%,可以除去冗余特征和不相关特征。
lightGBM模型的预测准确率为93.38%,均高于七种模型的预测准确率,且相差明显,相差的范围为5.07%~14.32%。实验数据表明了通过特征筛选的lightGBM 模型对pre-miRNA的预测效果最好,并且可以通过图29直观看出lightGBM模 型对pre-miRNA的预测准确率最高。
Figure BDA0002432558700000131
表9
表10表示八种模型通过三种特征处理对pre-miRNA的预测准确率。表11 表示在八种模型对pre-miRNA预测中,特征筛选与原始特征和PCA降维这两种 的预测准确率对比。从表10和表11的实验数据可知,在八种模型对pre-miRNA 预测中,第一,对同种模型的对比,特征筛选比PCA降维的预测准确率高了 2.31%~6.12%。第二,对同种模型的对比,特征筛选比原始特征的预测准确率 高了0.01%~1.5%。第三,特征筛选的lightGBM模型与原始特征的lightGBM模 型对比,通过特征筛选的lightGBM模型对pre-miRNA的预测准确率提高了 0.57%。以上对比数据表明了,第一,对pre-miRNA的预测中,特征筛选方法要 比PCA降维方法更加有效。第二,通过特征筛选可以提高八种模型对pre-miRNA 的预测准确率。第三,通过特征筛选有效提高lightGBM模型对pre-miRNA的预 测准确率。
Figure BDA0002432558700000141
表10
Figure BDA0002432558700000142
表11
图30表示八种模型通过三种特征处理对pre-miRNA的预测准确率。从图30 可知,在八个模型对pre-miRNA预测中,特征筛选的预测准确率均高于PCA降 维的预测准确率和原始特征这两种的预测准确率。从图30的所标的实验数据和 柱状体高低可以直观看出,特征筛选有效提高八种模型对pre-miRNA的预测准 确率,并且发现PCA降维的八种模型对pre-miRNA预测效果较差。
综上所述,本发明利用特征筛选和集成算法构建机器学习模型,首先从RNA 数据库中获取非编码RNA序列以及相对应数量的RNA序列构成数据集,然后将 数据集划分成训练机后对机器学习模型进行训练,最后通过机器学习的方法对 非编码RNA预测;本发明采用的特征筛选可以选取最优的特征组合,去除冗余 和不相关的特征,从而提升机器学习模型对非编码RNA的预测的准确率,使得 预测结果较为准确,预测效率大大提高。

Claims (6)

1.基于特征筛选和集成算法的非编码RNA预测方法,其特征在于:包括以下步骤:
a、在RNA数据库中获取非编码RNA序列组成正样本数据集,并选取与非编码RNA序列相同数量的RNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;
b、利用特征筛选和集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
2.根据权利要求1所述的基于特征筛选和集成算法的非编码RNA预测方法,其特征在于:包括以下步骤:
a、在RNA数据库中获取lncRNA序列组成正样本数据集,并选取与lncRNA序列相同数量的mRNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;
其中,在选取正负样本集的过程中,从正样本数据集中去除长度超过20099nt的lncRNA序列和具有特异性的lncRNA序列,从负样本数据集中去除长度小于200nt和大于20000nt的mRNA序列,再用随机森林测试方法确定正负样本集的个数;
b、利用ORF以及K-mer作为非编码RNA的特征筛选,结合Voting集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
3.根据权利要求1所述的基于特征筛选和集成算法的非编码RNA预测方法,其特征在于:包括以下步骤:
a、在RNA数据库中获取circRNA序列组成正样本数据集,并选取与circRNA序列相同数量的mRNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;
其中,在选取正负样本集的过程中,从正样本数据集中去除长度超过20099nt的lncRNA序列和具有特异性的序列,从负样本数据集中去除长度小于200nt和大于20000nt的mRNA序列,再用随机森林测试方法确定正负样本集的个数;
b、利用ORF以及K-mer作为非编码RNA的特征筛选,结合Voting集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
4.根据权利要求2或3所述的基于特征筛选和集成算法的非编码RNA预测方法,其特征在于:所述每条序列中最长的ORF片段作为ORF的首要特征,记为ORF_LONGEST;
将ORF_LONGEST与该序列的总长度的比值作为ORF的覆盖率ORF_Coverage:
Figure FDA0002432558690000021
其中Transcript_length表示整个序列的长度,得到ORF的第二特征;
将该序列存在的ORF的个数作为ORF的最后一个特征,记为ORF_Count。
5.根据权利要求1所述的基于特征筛选和集成算法的非编码RNA预测方法,其特征在于:包括以下步骤:
a、在RNA数据库中获取真实的pre-miRNA序列组成正样本数据集,并选取与真实的pre-miRNA序列相同数量的虚假的pre-miRNA序列组成负样本数据集,得到正样本数据集和负样本数据集组成的数据集,并将数据集分割成训练集和预测集;
b、利用碱基组合频率以及K-mer作为非编码RNA的特征筛选,结合lightGBM集成算法构建机器学习模型,将训练集输入至机器学习模型中使其进行训练,通过训练后的机器学习模型进行非编码RNA预测。
6.根据权利要求5所述的基于特征筛选和集成算法的非编码RNA预测方法,其特征在于:所述的碱基组合频率包括四种表示方式:(G-C)%、(A-U)%、(G+C)%和(A+U)%,
具体碱基组合频率为:
Figure FDA0002432558690000031
Figure FDA0002432558690000032
(G+C)%=G%+C%
(A+U)%=A%+U%。
CN202010240971.9A 2020-03-31 2020-03-31 基于特征筛选和集成算法的非编码rna预测方法 Pending CN111462820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010240971.9A CN111462820A (zh) 2020-03-31 2020-03-31 基于特征筛选和集成算法的非编码rna预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010240971.9A CN111462820A (zh) 2020-03-31 2020-03-31 基于特征筛选和集成算法的非编码rna预测方法

Publications (1)

Publication Number Publication Date
CN111462820A true CN111462820A (zh) 2020-07-28

Family

ID=71679363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010240971.9A Pending CN111462820A (zh) 2020-03-31 2020-03-31 基于特征筛选和集成算法的非编码rna预测方法

Country Status (1)

Country Link
CN (1) CN111462820A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201308A (zh) * 2020-10-12 2021-01-08 哈尔滨工业大学(深圳) LncRNA预测方法、装置、计算设备及计算机可读存储介质
CN112669905A (zh) * 2020-12-31 2021-04-16 中南民族大学 基于数据增强的rna序列编码潜力预测方法及系统
CN113808671A (zh) * 2021-08-30 2021-12-17 西安理工大学 基于深度学习区别编码和非编码核糖核酸的方法
CN113921084A (zh) * 2021-12-13 2022-01-11 山东大学齐鲁医院 疾病相关非编码rna调控轴多维靶向预测方法及系统
CN116798513A (zh) * 2023-02-21 2023-09-22 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577924A (zh) * 2017-10-13 2018-01-12 上海交通大学 一种基于深度学习的长链非编码rna亚细胞位置预测算法
CN108319818A (zh) * 2018-02-07 2018-07-24 中国科学院生物物理研究所 一种预测影响长非编码rna生物学功能的snp位点的方法
CN109599149A (zh) * 2018-10-25 2019-04-09 华中科技大学 一种rna编码潜能的预测方法
WO2019071121A1 (en) * 2017-10-05 2019-04-11 Iquity, Inc. EXPRESSION SIGNATURES OF LONG NON-CODING RNA GENES IN DISEASE MONITORING AND TREATMENT

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071121A1 (en) * 2017-10-05 2019-04-11 Iquity, Inc. EXPRESSION SIGNATURES OF LONG NON-CODING RNA GENES IN DISEASE MONITORING AND TREATMENT
CN107577924A (zh) * 2017-10-13 2018-01-12 上海交通大学 一种基于深度学习的长链非编码rna亚细胞位置预测算法
CN108319818A (zh) * 2018-02-07 2018-07-24 中国科学院生物物理研究所 一种预测影响长非编码rna生物学功能的snp位点的方法
CN109599149A (zh) * 2018-10-25 2019-04-09 华中科技大学 一种rna编码潜能的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨阳;: "长非编码RNA鉴定方法研究" *
王羽: "基于序列-结构信息的长非编码RNA预测方法" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201308A (zh) * 2020-10-12 2021-01-08 哈尔滨工业大学(深圳) LncRNA预测方法、装置、计算设备及计算机可读存储介质
CN112669905A (zh) * 2020-12-31 2021-04-16 中南民族大学 基于数据增强的rna序列编码潜力预测方法及系统
CN112669905B (zh) * 2020-12-31 2024-03-01 中南民族大学 基于数据增强的rna序列编码潜力预测方法及系统
CN113808671A (zh) * 2021-08-30 2021-12-17 西安理工大学 基于深度学习区别编码和非编码核糖核酸的方法
CN113808671B (zh) * 2021-08-30 2024-02-06 西安理工大学 基于深度学习区别编码和非编码核糖核酸的方法
CN113921084A (zh) * 2021-12-13 2022-01-11 山东大学齐鲁医院 疾病相关非编码rna调控轴多维靶向预测方法及系统
CN113921084B (zh) * 2021-12-13 2022-03-08 山东大学齐鲁医院 疾病相关非编码rna调控轴多维靶向预测方法及系统
CN116798513A (zh) * 2023-02-21 2023-09-22 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统
CN116798513B (zh) * 2023-02-21 2023-12-15 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统

Similar Documents

Publication Publication Date Title
CN111462820A (zh) 基于特征筛选和集成算法的非编码rna预测方法
Zhang et al. Weakly-supervised convolutional neural network architecture for predicting protein-DNA binding
Fan et al. lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning
CN108595913A (zh) 鉴别mRNA和lncRNA的有监督学习方法
Stegmayer et al. High class-imbalance in pre-miRNA prediction: a novel approach based on deepSOM
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN112863599B (zh) 一种病毒测序序列的自动化分析方法及系统
CN108537005B (zh) 一种基于BPSO-KNN模型的关键lncRNA预测方法
Suo et al. Application of clustering analysis in brain gene data based on deep learning
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
WO2012041861A2 (en) Computer-implemented method for analyzing multivariate data
Guo et al. PLncWX: a machine-learning algorithm for plant lncRNA identification based on WOA-XGBoost
Thomas et al. Feature versus raw sequence: Deep learning comparative study on predicting pre-mirna
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
CN111414935A (zh) 基于卡方检测算法和改进的果蝇优化算法的有效混合特征选择方法
Zhong et al. Pre-miRNA classification via combinatorial feature mining and boosting
Periwal et al. A novel binary k-mer approach for classification of coding and non-coding RNAs across diverse species
Yang et al. An embedded two-layer feature selection approach for microarray data analysis
Leone et al. De novo sequence-based method for ncRPI prediction using structural information
Banka et al. Hamming distance based binary pso for feature selection and classification from high dimensional gene expression data.
Aigli et al. Predicting human miRNA target genes using a novel evolutionary methodology
CN117457080A (zh) circRNA-miRNA关联预测方法、装置及介质
Czejdo : Classifying and Generating Repetitive Elements in the Genome Using Deep Learning
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
Liu et al. Prediction of piRNA-mRNA interactions based on an interactive inference network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination