CN109390037A - 基于SVM-AdaBoost的成熟miRNA全位点识别方法 - Google Patents

基于SVM-AdaBoost的成熟miRNA全位点识别方法 Download PDF

Info

Publication number
CN109390037A
CN109390037A CN201811166574.0A CN201811166574A CN109390037A CN 109390037 A CN109390037 A CN 109390037A CN 201811166574 A CN201811166574 A CN 201811166574A CN 109390037 A CN109390037 A CN 109390037A
Authority
CN
China
Prior art keywords
sequence
mature mirna
mirna
svm
adaboost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811166574.0A
Other languages
English (en)
Inventor
王颖
汝吉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiqihar University
Original Assignee
Qiqihar University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiqihar University filed Critical Qiqihar University
Priority to CN201811166574.0A priority Critical patent/CN109390037A/zh
Publication of CN109390037A publication Critical patent/CN109390037A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

基于SVM‑AdaBoost的成熟miRNA全位点识别方法,属于生物信息学领域。现有的单一分类器识别成熟miRNA问题中存在的精度不高和类不平衡问题。一种基于SVM‑AdaBoost的成熟miRNA全位点识别方法,选取miRBase数据库中pre‑miRNA序列,并在选取的序列上建立训练数据集和测试集;提取基于结构化序列的成熟miRNA剪切位点生物特征;通过信息增益特征选择算法获得新的特征集;构建基于概率的可调参数SVM分类器模型;构建基于AdaBoost算法的集成分类器模型;训练miRNA剪切全位点分类器。本发明提高了识别精度,并降低了平均核苷酸偏移数;且通过同一测试集,对多个成熟miRNA识别方法对比分析,本发明提出的方法分类性能更高。

Description

基于SVM-AdaBoost的成熟miRNA全位点识别方法
技术领域
本发明涉及生物信息学领域,具体涉及一种miRNA全位点识别方法。
背景技术
MiRNA是一类长度大约为20-24nt的高度保守的内源性小分子RNA,在转录后水平上调控基因表达。miRNA通过与mRNA靶向结合,抑制蛋白质的合成,实现对基因的表 达控制。据估计,miRNA调控了人类60%的转录过程。MiRNA通过序列特异性的RNA 基因沉默作用调节参与了多种生物过程。现有研究已发现miRNA参与了细胞增值发育, 组织分化,细胞循环和细胞凋亡等。比如miRNA与植物胚芽和叶的发育、人和鼠的细胞 发育、神经细胞的生长发育和神经干细胞向神经细胞的转化等密切相关;miRNA与一些 疾病有密切关系,如精神分裂症、帕金森综合征和其他神经异常症状、白血病、糖尿病、 艾滋病、心肌肥大和老年痴呆等常见疾病,更重要的是随着进一步研究发现,超过50% 的人类miRNA被定位于与癌症相关的基因片断区域,其中包括乳腺癌、肺癌、直肠癌、 皮肤癌、鼻咽癌、卵巢癌以及神经细胞癌等,最近研究也说明miRNA在药物作用后体内 分子水平起到重要调节作用。综上所述,miRNA在人类疾病的诊断、治疗、预后以及评 估疗效方面扮演着重要角色。
传统的cDNA克隆测序方法严重依赖于引物设计,下一代测序(NGS)费用高, miRNA样本的降解也是个问题。重要的是,miRNA的表达是时间和空间特异的,miRNA 的表达受组织和环境条件影响显著,所以实验方法难以发现这类miRNA。所以,在生物 信息学的领域,采用计算的方法来识别miRNA也就应运而生。在计算方法对miRNA进 行预测,筛选高可信的miRNA候选基因,再通过实验方法进行验证,减少了实验方法在 时间和费用上的浪费。通过严格过滤,高可信的miRNA也可作为下一步miRNA相关研 究,比如靶基因预测,生物通路挖掘等研究。
目前,MiR2Disease数据库已收录了346个人类miRNA和132种人类疾病以及它们之间涉及的2,884条miRNA与疾病之间的关联信息。miRCancer在超过26,000篇论 文中提取了236个miRNA和79个癌症及它们之间878个相互之间关联关系。HMDD也 记录了成千上万的miRNA与疾病的关联关系。越来越多的研究表明miRNA还有很多功 能尚未被发现,miRNA在生物学,疾病学和药物学等诸多领域起着重要的调节作用,具 有重要的研究意义,挖掘miRNA的功能是生物信息学一个研究重点。MiRNA的识别及 其功能预测的研究能够揭示一系列生命过程的分子机制,有助于疾病的诊断和治疗。
发明内容
本发明的目的是为了解决现有的单一分类器识别成熟miRNA问题中存在的精度不高 和类不平衡问题,而提出一种基于SVM-AdaBoost的成熟miRNA全位点识别方法。
一种基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通过以下步 骤实现:
步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;
步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:
步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;
步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;
步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;
步骤二四、预测构建的序列的二级结构及自由能;
步骤二五、在构建的序列上提取特征集;
步骤三、通过信息增益特征选择算法获得新的特征集;
步骤四、构建基于概率的可调参数SVM分类器模型;
步骤五、构建基于AdaBoost算法的集成分类器模型;
步骤六、训练miRNA剪切全位点分类器。
本发明的有益效果为:
1.本发明通过分析单一分类器识别成熟miRNA问题中存在的精度不高和类不平衡问 题,提出基于概率的可调参数AdaBoost-SVM算法,在成熟miRNA识别问题中,提高了 识别精度,并降低了平均核苷酸偏移数;
2.针对成熟miRNA全部位点识别,本发明提出基于AdaBoost-OPPKSVM算法的成熟miRNA全位点识别方法,通过同一测试集,对多个成熟miRNA识别方法对比分析,本 发明提出的方法分类性能更高。
3.其中本发明与MiRPara、MatureByes、MiRdup和MatPred相比,第一候选miRNA 预测准确率上,无偏差预测准确率比现有方法预测率高出29%;在偏移核苷酸5nt偏差范 围内,正确识别准确率达到100%,高于现有其他预测方法。在平均位置偏移上,偏移量 减少一半。本发明采用了AdaBoost-SVM算法比只采用SVM算法的MatPred方法在第一 候选miRNA预测准确率上、5nt偏差识别准确率和平均位置偏移上都有进一步提高。
附图说明
图1为本发明提出的基于SVM-AdaBoost的成熟miRNA全位点识别方法的流程图。
图2为本发明方法与成熟miRNA识别方法MiRPara的第一个候选者位置偏移识别精度 对比图;
图3为本发明方法与成熟miRNA识别方法MatureByes的第一个候选者位置偏移识别 精度对比图;
图4为本发明方法与成熟miRNA识别方法MiRdup的第一个候选者位置偏移识别精度 对比图;
图5为本发明方法与成熟miRNA识别方法MatPred的第一个候选者位置偏移识别精度 对比图。
具体实施方式
具体实施方式一:
本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通 过以下步骤实现:
步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;
步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:
步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;
步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;
步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;
步骤二四、预测构建的序列的二级结构及自由能;
步骤二五、在构建的序列上提取特征集;
步骤三、通过信息增益特征选择算法获得新的特征集;
步骤四、构建基于概率的可调参数SVM分类器模型;
步骤五、构建基于AdaBoost算法的集成分类器模型;
步骤六、训练miRNA剪切全位点分类器。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序列上 建立训练数据集和测试集的过程为,
选取miRBase数据库中pre-miRNA序列,去除冗余序列和多分枝序列后,在剩余序列中分别建立针对3’端的训练集和测试集以及5’端的训练集和测试集;其中,pre-miRNA的含义为前体miRNA;
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤一所述的选取miRBase数据库中pre-miRNA序列,为人pre-miRNA 序列。
具体实施方式四:
与具体实施方式二或三不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序 列上建立训练数据集和测试集的过程为,选取miRBase V20数据库中人1872条 pre-miRNA序列,去除冗余序列和多分枝序列后剩余1791条pre-miRNA序列,其中,5’ 端序列中含有成熟miRNA的有461条,3’端序列中含有成熟miRNA的有458条,而3’ 端和5’端序列中都含有成熟miRNA的有872条;分别针对3’端和5’端随机选取100个序 列构建测试集1,选取miRBaseV20比miRBase V19新增的100条序列作为构建测试集2 的序列。
具体实施方式五:
与具体实施方式四不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二一所述的基于生物特征分析,定义成熟miRNA剪切位点生物特征的 过程为,基于生物特征分析,根据存在的直接与位置缺省相关的自由能变化和内环,定义 针对这些位置缺省的基于结构化序列成熟miRNA剪切位点生物特征,包括:
5个热力学特征:-9nt到Dicer位点的自由能,表示为MFE1;-5nt到Dicer位点的自由能,表示为MFE2;-3nt到Dicer位点的自由能,表示为MFE3;Drosha位点到Dicer 位点的自由能,表示为MFE4;Drosha位点到Dicer下游3nt位点的自由能,表示为MFE5; 其中,nt表示核苷酸,是RNA的基本单位;-表示以成熟miRNA第一个核苷酸作为坐标 刻度0,左侧核苷酸位置为-,右侧核苷酸位置为+;Drosha和Dicer分别表示Drosha酶和 Dicer酶,二者均为核糖核酸内切酶,属于RNase III家族中特异识别双链RNA的一员, 即双链RNA特异性核酸内切酶,它们在miRNA生物合成过程中介导的前体miRNA及成 熟体miRNA产生。
位置特异性特征:从Drosha的起始位点左侧9nt到Dicer右侧3nt双链的每一位置核 苷酸与结构组成的特征,将配对的双链核苷酸定义为M,将不配对的双链核苷酸定义为N, 具体特征为:AM、CM、GM、UM、AN、CN、GN、UN、-N;其中,A表示腺嘌呤adenine, C表示胞嘧啶cytosine,G表示鸟嘌呤ganciclovir,U表示尿嘧啶uracil;
核苷酸配对特征:从Drosha起始位点到Dicer位点的每一位置核苷酸对,具体特征为:AA、AC、AG、AU、CA、CC、CG、CU、GA、GC、GG、GU、UA、 UC、UG、UU、A-、C-、G-、U-、-A、–C、–G、–U;
位置缺省数量:+3nt到+8nt序列中-位置缺省的数量;+9nt到+12nt序列中-位置缺省 的数量;-2nt-2nt序列中-位置缺省的数量;
长度特征:miRNA起始位点到终环距离;
核苷酸特征:miRNA第一个核苷酸类别;miRNA序列单核苷酸频率;miRNA第一 个核苷酸配对。
具体实施方式六:
与具体实施方式五不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二二所述的定义成熟miRNA双链,以及成熟miRNA双链对应的位点 的过程为,定义从5’端成熟miRNA起始位点开始的22nt核苷酸的窗口为成熟miRNA双 链,对应的4个位点分别定义为:P5_5、P5_3、P3_5和P3_3;其中,所述的22nt核苷酸 中不包括具有缺省位置信息-的核苷酸。
具体实施方式七:
与具体实施方式一、二、五或六不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二三所述的在定义的成熟miRNA双链上构建序列,用于 提取特征的过程为,将P5_5左侧9nt核苷酸序列合并成熟miRNA序列定义为-9扩展序 列,同理,将P5_5左侧5nt、3nt和右侧3nt核苷酸序列合并成熟miRNA序列分别定义 为-5扩展序列、-3扩展序列和+3扩展序列,将P5_5左侧4nt和右侧4nt合并成熟miRNA 序列分别定义为-4扩展序列和+4扩展序列。
具体实施方式八:
与具体实施方式七不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二四所述的预测构建的序列的二级结构及自由能的过程为,为上一步构建的不同长度的序列加上相同自定义的终环序列,之所以如此定义,原因在于排除终环对序列自由能特征的影响,同时为了取得精确的结构特征,将序列延长,因为截取序列预测的结构在初始端与原序列会产生差异;在预测不同长度序列的自由能特征时,因为pre-miRNA序列不包含缺省信息“-”,所以为了还原序列自由能特征,然后将成熟miRNA 双链序列中缺省信息去掉,进行自由能特征的预测。
具体实施方式九:
与具体实施方式一、二、五、六或八不同的是,本实施方式的基于SVM-AdaBoost 的成熟miRNA全位点识别方法,步骤二五所述的在构建的序列基础上提取特征集的过程 为,在生物特征提取过程中,因为成熟miRNA双链这一部分的缺省信息“-”的数量是变 量,所以我们将这一部分序列特征定义为25nt长,如果成熟miRNA双链序列长度小于 25nt,则生物特征定义为0;如果成熟miRNA双链序列长度超过25nt,则截取长度为25nt 成熟miRNA双链序列上的生物特征。
具体实施方式十:
与具体实施方式九不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤三所述的通过信息增益特征选择算法获得新的特征集的过程为,分别利用信息增益(IG)、卡方统计量(CHI)和Relief三种特征选择算法进行特征选择的性能 测试,挑选出最优特征选择算法:
(1)信息增益算法(IG)进行特征选择的性能测试过程为,通过计算特征是否采用引起的信息熵的差来选取特征,定义任意类别Ci,特征t的信息增益定义为:
其中,表示特征t不存在,特征t的信息增益定义为:
IG(t)=∑iIG(t,Ci)
(2)卡方统计量(CHI)进行特征选择的性能测试过程为,通过计算表征变量间的相关性来选取特征,CHI的统计值越大,则表示该特征越重要。对于任意类别Ci的特征t的CHI值为:
(3)Relief算法
Relief算法通过计算样本之间的距离,按照权重选择近邻。设X={X1,X2,...,Xn}是样 本集,Xi=[Xi1,Xi2,...XiN]T为第i个样本的N个特征,样本在各特征上的权值定义为:
其中,H(x)和M(x)为与X同类和非同类最近邻点,m为随机选取的样本,diff 定义为:
最终方法的选择基于弱分类器评价指标的性能确定。
具体实施方式十一:
与具体实施方式一、二、五、六、八或十不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤三所述的通过信息增益特征选择算法获得新的特征 集的过程为:
首先,设定特征选择条件为:计算特征是否采用引起信息熵的差;然后,定义对于任 意类别Ci,特征t的信息增益为:首先,设定特征选择条件为:计算特征是否采用引起的信息熵的差;然后,定义对于任意类别Ci的特征t的信息增益为:
其中,P表示概率,表示特征t不存在,特征t的信息增益定义为:
IG(t)=∑iIG(t,Ci)。
具体实施方式十二:
与具体实施方式十一不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤四所述的构建基于概率的可调参数SVM分类器模型的过程为,
步骤四一、定义训练样本T,T={(x1,ys),(x2,ys),......,(xp,ys)},其中,xi为样本的特 征值,ys∈{1,-1},样本个数为P,P个样本中包括a个正样本Pa和b个反样本Pb;设 每个样本共有M个特征,类函数定义如下:
其中,xp为某一样本的一个特征向量,x为预测点,αi是一个可训练的系数, ,0≤αi≤C,C是惩罚参数;<x,xp>是x和xp的内积;
步骤四二、选用径向-基函数(RBF)作为核函数,计算内积<x,xi>,它解决原始 空间的数据映射到高维空间线性不可分问题,定义如下:
其中,δ是常规控制参数,决定特征的权重;
步骤四三、传统的SVM(Support Vector Machine)的输出为二值输出,每一样本为真成熟miRNA类别问题或假成熟miRNA类别问题中的一类,Wahba和Platt[125]是最早 对SVM概率输出做出研究,分别将真成熟miRNA类别问题和假成熟miRNA类别问题定 义对于为1和-1,对于假成熟miRNA类别问题,即-1类问题中任意样本χ的后验概率为
Pi=P(y=i|χ),其中i=1,-1 (2-8)
则样本属于两个类别的概率和为1,因此,式(2-8)的约束条件为:
rij≈P(y=i|y=i或j,λ) (2-10)
式中,rij为两类问题中概率估计,根据式(2-9)和式(2-10)提出如下求解方法:
式(2-11)推算为:
其中:
矩阵Q为半正定矩阵,因此式(2-11)为具有线性约束的凸二次规划问题;如果P 是该二次规划问题最优解,当且仅当满足以下条件:
则式(2-11)的解可以通过线性方程组求解;
步骤四四、采用上述方法,在训练过程中,对规划因子C和高斯宽度g两个参数进行寻优;其中,对于规划因子,如果C→∞,则表明分类规则满足全部约束条件,这样会 降低泛化能力,提高训练复杂度,所以,C取值范围尽量小以满足分类器泛化性能;对于 参数g,采用grid.py软件的寻优算法进行调节,具体寻优训练流程如下:
基于概率的可调参数SVM分类器算法(OPPSVM)伪代码如下:
算法:基于概率的可调参数SVM分类器算法(OPPSVM)
输入:训练集,训练子集
输出:训练集样本类别
处理流程:
训练子集以提取特征集;之后进行归一化SVM格式;之后进行参数寻优:规划因子C和高斯宽度g寻优;之后训练基于概率模式的SVM分类器;之后采用训练的分类器, 对训练集每一条pre-miRNA内短序列进行分类,得到属于不同类别的概率;之后将 pre-miRNA内短序列根据概率排序,将为真的概率的最大者定义为1类别,将其他序列 定义为-1类别。
具体实施方式十三:
与具体实施方式一、二、五、六、八、十或十二不同的是,本实施方式的基于 SVM-AdaBoost的成熟miRNA全位点识别方法,步骤五所述的构建基于AdaBoost算法的 集成分类器模型的过程为,
步骤五一,设训练集样本S={(xi,yi)|i=1,2...n},其中xi∈X为成熟miRNA样本,yi∈Y={+1,-1}为样本类别;
步骤五二,设定训练集S在第t轮训练中样本xi权值为Dt(i),其中,第一轮样本权值初始化为:
D1=(P11,P12...P1i...,P1N),P11=P12=…=P1N=1/N (3-1)
步骤五三,选定弱分类器。我们利用基于概率的参数可调SVM作为弱分类器,在训练过程中,通过参数调整,选定最优分类面,对每一条pre-miRNA给定每一个样本为真 成熟miRNA概率,选取概率最大候选者类别为+1,其他候选者类别为-1,即分类器 Gt=(X):X→{-1,1};
步骤五四,设定训练轮数T;
步骤五五,定义训练集S的权值分布:
Dt={Pt1,Pt2,...,PtN} (3-2)
其中,Dt是由每个样本权重组成向量集,从训练集S中,根据样本权重构建训练子集 St
步骤五六,计算训练子集错分率,假定Gt(X):X→Y,样本错分率:
步骤五七,计算样本及分类器权重,分类器权重为:
样本集权重更新为:
Dt+1={Pt+1,1,Pt+1,2,...,Pt+1,i…,Pt+1,N} (3-5)
式(3-5)中,
式(3-6)中,zt定义为下一轮训练集权重,是一个一般化常量,定义为:
步骤五八,根据各弱分类器Gt(X)及其权重集成分类器,定义为:
实施例1:
将miRNA全位点的识别分为5’和3’成熟miRNA的起始和终止位点,即P5_5、P5_3、P3_5和P3_3四个位点分类器构建。如上所述5’端成熟miRNA起始位点P5_5的识别, 分类器构建大体可以分为:训练数据集构建、提取特征集、特征集选择、类不平衡问题处 理和分类器训练几个环节,而对P5_3、P3_5和P3_3三个位点分类器构建的主要区别在 于训练数据集的构建,P3_5采用5’端数据集,而P5_3和P3_3采用3’数据集,对于不同 位点分类器在构建训练集正反例数据时以该位点为核心。
对于P5_3位点识别分类器训练集构建,定义5’端成熟miRNA的终止位点为P5_3,该位点向前的第22nt核苷酸定义为P5_5,则P5_5和P5_3之间的序列相对于3’端向左偏 移2nt序列对应的两个位点为P3_3和P3_5,则P5_5和P5_3之间的序列为正例数据,而 该序列偏移1nt距离的序列作为反例数据。同理构建P3_5和P3_3两个位点识别分类器训 练集。
通过对已报道的pre-miRNA特征,分析pre-miRNA序列各组成部分的结构特征,进而选择成熟miRNA区别于其他部分的特征。基于上述分析,共选择了115个特征如表1 所示:
表1成熟miRNA识别特征
考察了三种特征选择算法:信息增益算法、卡方统计和Relief方法。首先采用全部特 征集训练了分类器,得到第一个候选者位置偏移预测准确率;然后,分别采用这三种算法 对特征集进行筛选。信息增益方法根据信息增益对特征进行排序,并给出信息增益值,卡 方统计方法给出度量特征和类别之间的相关性度量值,relief方法则根据样本权重值对特 征进行排序,并给出代表与所属类别相关的权重值;接下来,在这些算法基础上,根据算 法结果中阈值,采用删除贡献率为“0”或者数值较低的特征的方法选取一定数量的特征值,然后,在所选特征基础上分析分类器性能,最终确定特征选择算法和特征集。全部特 征集下的分类器第一个候选者位置偏移预测准确率如下:
表2全部特征集下第一个候选者位置偏移预测准确率
几种特征选择算法所选特征子集构建的分类器分类性能如下:
表3基于卡方方法第一个候选者位置偏移预测准确率
表4基于relief第一个候选者位置偏移预测准确率
从表3和表4可以看出,采用全部特征集下的分类器性能相比,卡方方法和relief算 法选择的特征子集下的分类器性能,以测试集1为例,第一个候选者成熟miRNA起始位置无偏移预测准确率分别为24%,12%和13%,采用全部特征集情况下比卡方计算和relief 算法分别高出12%和11%;而偏移5nt范围内总预测准确率分别为79%,71%和66%。因 为这两种算法在所选两种特征子集上性能较差,所以在选用特征子集个数上不再继续进行 筛选。
从表5可以看出,信息增益方法取得了较高的预测性能,当特征子集选择110个特征 时,取得了最高预测精度。与采用全部特征集方法相比,两个测试集第一个候选者位置偏 移预测准确率分别为30%和59%,提高了6%和11%;而在偏移5nt范围内总预测准确率上也分别提高了11%和5%,并在测试集2中实现100%预测精度。
表5基于信息增益算法第一个候选者位置偏移预测准确率
以训练集1为例,选择了几个可以应用的成熟miRNA识别方法:MiRPara、MatureBayes和MiRdup与MatPred进行比较,如图2,本发明与MiRPara、MatureByes、MiRdup和MatPred相比,第一候选miRNA预测准确率上,无偏差预测准确率分别为4%、 9%和26%、30%和33%,本发明提出的方法分别高出另外三种方法29%、24%、7%和3%; 在偏移核苷酸5nt偏差范围内,正确识别准确率分别为37%、84%、81%、90%和100%, 本专利高于其他三种方法。另外,在平均位置偏移上分别为5.43nt、4.65nt、2.67nt、2.45nt 和2.05nt。从结果可以看出,采用了AdaBoost-SVM算法比只采用SVM算法的MatPred 方法在第一候选miRNA预测准确率上、5nt偏差识别准确率和平均位置偏移上都有进一 步提高。综上所述,本专利在各项指标上显著优于其他方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术 人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发 明所附的权利要求的保护范围。

Claims (10)

1.一种基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通过以下步骤实现:
步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;
步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:
步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;
步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;
步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;
步骤二四、预测构建的序列的二级结构及自由能;
步骤二五、在构建的序列上提取特征集;
步骤三、通过信息增益特征选择算法获得新的特征集;
步骤四、构建基于概率的可调参数SVM分类器模型;
步骤五、构建基于AdaBoost算法的集成分类器模型;
步骤六、训练miRNA剪切全位点分类器。
2.根据权利要求1所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集的过程为,选取miRBase数据库中pre-miRNA序列,去除冗余序列和多分枝序列后,在剩余序列中分别建立针对3’端的训练集和测试集以及5’端的训练集和测试集;其中,pre-miRNA的含义为前体miRNA。
3.根据权利要求1或2所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二一所述的基于生物特征分析,定义成熟miRNA剪切位点生物特征的过程为,基于生物特征分析,根据与位置缺省相关的自由能变化和内环,定义针对这些位置缺省的基于结构化序列成熟miRNA剪切位点生物特征,包括:
5个热力学特征:-9nt到Dicer位点的自由能,表示为MFE1;-5nt到Dicer位点的自由能,表示为MFE2;-3nt到Dicer位点的自由能,表示为MFE3;Drosha位点到Dicer位点的自由能,表示为MFE4;Drosha位点到Dicer下游3nt位点的自由能,表示为MFE5;其中,nt表示核苷酸,是RNA的基本单位;-表示以成熟miRNA第一个核苷酸作为坐标刻度0,刻度0左侧核苷酸位置为-,刻度0右侧核苷酸位置为+;Drosha和Dicer分别表示Drosha酶和Dicer酶;
位置特异性特征:从Drosha的起始位点左侧9nt到Dicer右侧3nt双链的每一位置核苷酸与结构组成的特征,将配对的双链核苷酸定义为M,将不配对的双链核苷酸定义为N,具体特征为:AM、CM、GM、UM、AN、CN、GN、UN、-N;其中,A表示腺嘌呤adenine,C表示胞嘧啶cytosine,G表示鸟嘌呤ganciclovir,U表示尿嘧啶uracil;-表示位置缺省;
核苷酸配对特征:从Drosha起始位点到Dicer位点的每一位置核苷酸对,具体特征为:AA、AC、AG、AU、CA、CC、CG、CU、GA、GC、GG、GU、UA、UC、UG、UU、A-、C-、G-、U-、-A、–C、–G、–U;
位置缺省数量:+3nt到+8nt序列中-位置缺省的数量;+9nt到+12nt序列中-位置缺省的数量;-2nt-2nt序列中-位置缺省的数量;
长度特征:miRNA起始位点到终环距离;
核苷酸特征:miRNA第一个核苷酸类别;miRNA序列单核苷酸频率;miRNA第一个核苷酸配对。
4.根据权利要求3所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二二所述的定义成熟miRNA双链,以及成熟miRNA双链对应的位点的过程为,定义从5’端成熟miRNA起始位点开始的22nt核苷酸的窗口为成熟miRNA双链,对应的4个位点分别定义为:P5_5、P5_3、P3_5和P3_3;其中,所述的22nt核苷酸中不包括具有缺省位置信息的核苷酸。
5.根据权利要求1、2或4所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二三所述的在定义的成熟miRNA双链上构建序列,用于提取特征的过程为,将P5_5左侧9nt核苷酸序列合并成熟miRNA序列定义为-9扩展序列,同理,将P5_5左侧5nt、3nt和右侧3nt核苷酸序列合并成熟miRNA序列分别定义为-5扩展序列、-3扩展序列和+3扩展序列,将P5_5左侧4nt和右侧4nt合并成熟miRNA序列分别定义为-4扩展序列和+4扩展序列。
6.根据权利要求5所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二四所述的预测构建的序列的二级结构及自由能的过程为,为上一步构建的不同长度的序列加上相同自定义的终环序列,将序列延长,然后将成熟miRNA双链序列中位置缺省去掉,进行自由能特征的预测。
7.根据权利要求1、2、4或6所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二五所述的在构建的序列基础上提取特征集的过程为,在生物特征提取过程中,如果成熟miRNA双链序列长度小于25nt,则生物特征定义为0;如果成熟miRNA双链序列长度超过25nt,则截取长度为25nt成熟miRNA双链序列上的生物特征。
8.根据权利要求7所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤三所述的通过信息增益特征选择算法获得新的特征集的过程为:
首先,设定特征选择条件为:计算特征是否采用引起信息熵的差;然后,定义对于任意类别Ci的特征t的信息增益为:
其中,P表示概率,表示特征t不存在,特征t的信息增益定义为:
IG(t)=∑iIG(t,Ci)。
9.根据权利要求1、2、4、6或8所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤四所述的构建基于概率的可调参数SVM分类器模型的过程为:
步骤四一、定义训练样本T,T={(x1,ys),(x2,ys),......,(xp,ys)},其中,xi为样本的特征值,ys∈{1,-1},样本个数为P,P个样本中包括a个正样本Pa和b个反样本Pb;设每个样本共有M个特征,类函数定义如下:
其中,xp为某一样本的一个特征向量,x为预测点,αi是一个可训练的系数,,0≤αi≤C,C是惩罚参数;<x,xp>是x和xp的内积;
步骤四二、选用径向-基函数作为核函数,计算内积<x,xi>,定义如下:
其中,δ是常规控制参数,决定特征的权重;
步骤四三、SVM的输出为二值输出,每一样本为真成熟miRNA类别问题或假成熟miRNA类别问题中的一类,分别将真成熟miRNA类别问题和假成熟miRNA类别问题定义对于为1和-1,对于假成熟miRNA类别问题,即-1类问题中任意样本χ的后验概率为:
Pi=P(y=i|χ),其中i=1,-1 (2-8)
则样本属于两个类别的概率和为1,因此,式(2-8)的约束条件为:
rij≈P(y=i|y=i或j,λ) (2-10)
式中,rij为两类问题中概率估计,根据式(2-9)和式(2-10)提出如下求解方法:
式(2-11)推算为:
其中:
矩阵Q为半正定矩阵,因此式(2-11)为具有线性约束的凸二次规划问题;如果P是该二次规划问题最优解,当且仅当满足以下条件:
则式(2-11)的解可以通过线性方程组求解。
10.根据权利要求9所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤五所述的构建基于AdaBoost算法的集成分类器模型的过程为,
步骤五一,设训练集样本S={(xi,yi)|i=1,2...n},其中xi∈X为成熟miRNA样本,yi∈Y={+1,-1)为样本类别;
步骤五二,初始化样本权值:
设定训练集S在第t轮训练中样本xi权值为Dt(i),其中,第一轮样本权值初始化为:
D1=(P11,P12...P1i...,P1N),P11=P12=…=P1N=1/N (3-1)
步骤五三,选定弱分类器:
利用基于概率的参数可调SVM作为弱分类器,在训练过程中,通过参数调整,选定最优分类面,对每一条pre-miRNA给定每一个样本为真成熟miRNA概率,选取概率最大候选者类别为+1,其他候选者类别为-1,即分类器Gt=(X):X→{-1,1};
步骤五四,设定训练轮数T;
步骤五五,定义训练集S的权值分布:
Dt={Pt1,Pt2,...,PtN} (3-2)
其中,Dt是由每个样本权重组成向量集;从训练集S中,根据样本权重构建训练子集St
步骤五六,计算训练子集错分率,假定Gt(X):X→Y,样本错分率:
步骤五七,计算样本及分类器权重,分类器权重为:
样本集权重更新为:
Dt+1={Pt+1,1,Pt+1,2,...,Pt+1,i…,Pt+1,N} (3-5)
式(3-5)中,
式(3-6)中,zt定义为下一轮训练集权重,是一个一般化常量,定义为:
步骤五八,根据各弱分类器Gt(X)及其权重集成分类器,定义为:
CN201811166574.0A 2018-10-08 2018-10-08 基于SVM-AdaBoost的成熟miRNA全位点识别方法 Withdrawn CN109390037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811166574.0A CN109390037A (zh) 2018-10-08 2018-10-08 基于SVM-AdaBoost的成熟miRNA全位点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811166574.0A CN109390037A (zh) 2018-10-08 2018-10-08 基于SVM-AdaBoost的成熟miRNA全位点识别方法

Publications (1)

Publication Number Publication Date
CN109390037A true CN109390037A (zh) 2019-02-26

Family

ID=65426613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811166574.0A Withdrawn CN109390037A (zh) 2018-10-08 2018-10-08 基于SVM-AdaBoost的成熟miRNA全位点识别方法

Country Status (1)

Country Link
CN (1) CN109390037A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364223A (zh) * 2019-06-24 2019-10-22 杭州电子科技大学 一种基于多示例学习的ires序列搜寻方法
CN110619926A (zh) * 2019-08-07 2019-12-27 复旦大学附属肿瘤医院 一种识别全部rna剪切位点的分析方法及分析系统
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN113837293A (zh) * 2021-09-27 2021-12-24 电子科技大学长三角研究院(衢州) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN116070157A (zh) * 2023-01-13 2023-05-05 东北林业大学 基于级联森林和双流结构的circRNA识别方法
CN116798513A (zh) * 2023-02-21 2023-09-22 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250718A (zh) * 2016-07-29 2016-12-21 於铉 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250718A (zh) * 2016-07-29 2016-12-21 於铉 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王颖: "成熟microRNA识别及其功能预测方法研究", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364223A (zh) * 2019-06-24 2019-10-22 杭州电子科技大学 一种基于多示例学习的ires序列搜寻方法
CN110364223B (zh) * 2019-06-24 2021-04-06 杭州电子科技大学 一种基于多示例学习的ires序列搜寻方法
CN110619926A (zh) * 2019-08-07 2019-12-27 复旦大学附属肿瘤医院 一种识别全部rna剪切位点的分析方法及分析系统
CN110619926B (zh) * 2019-08-07 2023-03-31 复旦大学附属肿瘤医院 一种识别全部rna剪切位点的分析方法及分析系统
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111161793B (zh) * 2020-01-09 2023-02-03 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN113837293A (zh) * 2021-09-27 2021-12-24 电子科技大学长三角研究院(衢州) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN116070157A (zh) * 2023-01-13 2023-05-05 东北林业大学 基于级联森林和双流结构的circRNA识别方法
CN116798513A (zh) * 2023-02-21 2023-09-22 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统
CN116798513B (zh) * 2023-02-21 2023-12-15 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统

Similar Documents

Publication Publication Date Title
CN109390037A (zh) 基于SVM-AdaBoost的成熟miRNA全位点识别方法
Li et al. A novel approach for potential human LncRNA-disease association prediction based on local random walk
CN106874704B (zh) 一种基于线性模型的基因共调控网络中关键调控子识别方法
Kleftogiannis et al. YamiPred: A novel evolutionary method for predicting pre-miRNAs and selecting relevant features
CN112837753A (zh) 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN114639441B (zh) 一种基于带权多粒度扫描的转录因子结合位点预测方法
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
Huang et al. Comparing sequence and expression for predicting microRNA targets using GenMiR3
CN114822694A (zh) 基于CatBoost算法的长非编码RNA识别方法
Wei et al. Computational analysis of miRNA target identification
CN110021361B (zh) 一种基于卷积神经网的miRNA靶基因预测方法
CN111477271B (zh) 基于有监督自组织映射神经网络的microRNA预测方法
CN111414935A (zh) 基于卡方检测算法和改进的果蝇优化算法的有效混合特征选择方法
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
KR101840028B1 (ko) miRNA 및 mRNA 발현 데이터를 통합 분석하는 방법 및 장치
Li et al. New support vector machine-based method for microRNA target prediction
CN113921085B (zh) 非编码rna基因协同调控作用的预测方法
Kandoth et al. A framework for automated enrichment of functionally significant inverted repeats in whole genomes
CN118380055B (zh) 一种多来源单细胞转录组数据细胞轨迹分析方法、介质和设备
Mukhopadhyay et al. Analysis of microarray data using multiobjective variable string length genetic fuzzy clustering
Kléma et al. Knowledge-based subtractive integration of mRNA and miRNA expression profiles to differentiate myelodysplastic syndrome
Madhav A SYSTEMATIC COMPARISON OF T-SNE AND SCUBA ON A HIGH-DIMENSIONAL SCRNA-SEQ DATA
Nath et al. A Comprehensive Study of Target Prediction Algorithms for Animal MicroRNAs (miRNAs)
CN116721702A (zh) 基于网络传播的个性化癌症驱动基因识别方法
Repky Combining SNP and EEG data in a genome-wide association study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190226

WW01 Invention patent application withdrawn after publication