CN101710362B - 一种基于支持向量机的microRNA靶位点预测的方法 - Google Patents

一种基于支持向量机的microRNA靶位点预测的方法 Download PDF

Info

Publication number
CN101710362B
CN101710362B CN2009101552910A CN200910155291A CN101710362B CN 101710362 B CN101710362 B CN 101710362B CN 2009101552910 A CN2009101552910 A CN 2009101552910A CN 200910155291 A CN200910155291 A CN 200910155291A CN 101710362 B CN101710362 B CN 101710362B
Authority
CN
China
Prior art keywords
feature
mirna
attribute evaluation
target site
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101552910A
Other languages
English (en)
Other versions
CN101710362A (zh
Inventor
陈铭
何志嵩
王匡宇
白琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2009101552910A priority Critical patent/CN101710362B/zh
Publication of CN101710362A publication Critical patent/CN101710362A/zh
Application granted granted Critical
Publication of CN101710362B publication Critical patent/CN101710362B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于支持向量机的microRNA靶位点预测的方法。步骤包括:1)训练数据集的建立,包括278个正样本和194个负样本;2)特征集的构建,每个训练数据集的样本都被一个特征向量所表示,特征向量涵括miRNA-靶位点调控对的各方面信息,分为六部分共128个特征;3)简化特征集选取,使用Weka3中的一系列特征选取算法,筛选出64个特征;4)结果评价,对基于特征集、简化特征集和miTarget特征集的分类器的分类能力进行比较;5)miRNA靶基因的功能注释。本发明的意义在于构建了一个引入近年被发现与miRNA靶位点结合相关的特征,开发出一套新的miRNA靶位点预测方法,并运用特征选取的手段对该预测器进行优化,最后比较检验的结果表明,所选用的新特征对miRNA靶位点预测确有帮助。

Description

一种基于支持向量机的microRNA靶位点预测的方法
技术领域
本发明涉及一种基于支持向量机的microRNA靶位点预测的方法。
背景技术
microRNA(miRNA)是一种长度约为22nt的单链非编码RNA。由于MicroRNA在基因表达的转录后调控中起着非常重要的作用,从miRNA被发现以来,一直受到广泛的关注。研究表明,miRNA对生物体的生长发育有着非常重要的影响。现在普遍认为,miRNA通过与其靶基因的mRNA互补结合,降低mRNA的稳定性或抑制mRNA的翻译,从而实现其负调控功能。
由于miRNA在生物体的许多生命过程中起着举足轻重的作用,miRNA功能研究越来越得到重视。至今为止,已经有超过8000种miRNA被发现、并记录于miRNA数据库miRBase[1-3]中,且这一数量还在继续增加。通过miRNA芯片、荧光蛋白标记、靶位点突变、锁核苷酸(LNA)沉默miRNA等实验手段[4-8],相当数量的miRNA与靶基因的关系也得到了验证,部分数据也被收录于数据库miRecords[9]中。然而,仅仅通过实验我们依然很难快速得到miRNA与靶基因的关系;特别是在我们对可能发生的调控关系没有丝毫认识的情况下,要想用大海捞针的方式发现miRNA的调控功能几乎不可能。因此,在计算机得到广泛应用的今天,开发出有效的生物信息学手段的可能的miRNA-靶基因调控关系进行预测,成为了进行miRNA相关研究的重要环节。
由于植物miRNA与靶位点的配对比较完全,其预测难度相对较小;迄今也已有多个基于序列相似性的miRNA靶位点预测软件得到广泛使用[10]。而对于动物miRNA,由于其与靶位点的非完全匹配中存在着大量的错配、空位等,因此植物miRNA靶位点预测算法并不适用于动物;尽管如此,mRNA靶位点及miRNA序列的强保守性、以及miRNA种子区域与靶位点的较完全匹配情况,使多个针对动物miRNA靶基因预测的算法得以出现。
自从2003年第一个针对大范围miRNA靶位点预测的方法被提出以来,已经有不少的miRNA靶位点预测软件被开发出来[11]。这些软件所使用的预测手段各有不同,但一般考虑的因素不外乎miRNA与靶位点的互补配对关系、所形成的异源双链结构的热力学稳定性、miRNA与靶位点在不同物种中的保守性等。这些方法大概可以分为基于核苷酸互补情况的方法、基于热力学分析的方法、基于模式发现的方法、基于支持向量机的方法等[11]。
最早出现、而今运用最广泛的方法是基于核苷酸序列比对的方法。这一类方法的第一步基本上都是在靶基因mRNA的3’UTR区上搜索与miRNA的种子区或整个miRNA序列比较互补的区域,并以之作为miRNA的可能靶位点。随后,这些潜在靶位点还会经过热力学分析、序列在物种间保守性分析等步骤的多层过滤。一般而言,基于核苷酸互补情况的预测方法最终会给每一个潜在miRNA靶位点打出一个分数,而这一分数即可表示出在该次预测中,此潜在靶位点为真实的miRNA靶位点的可能性。miRanda[12]、TargetScan[13-14]、PicTar[15]等都是这一类方法的代表。
在大部分已有的miRNA靶位点预测方法中,保守性分析扮演了非常重要的角色,在过往的大量靶位点预测方法中,有许多特征和机理并没有被考虑到。近年来,随着对动物miRNA研究的不断深入后发现,除了与miRNA直接作用的靶位点区域外,靶位点的侧翼序列、靶位点在3’UTR上的位置等特征也与miRNA与靶位点的结合密切相关[20-21],而这些都是过往的预测方法所没有考虑的。
参考文献
[1]Griffiths-Jones S,Saini HK,van Dongen S,Enright AJ.miRBase:tools for microRNA genomics.Nucle AcidRes,2008,36(Database issue):D154-D158.
[2]Griffiths-Jones S,Grocock RJ,van Dongen S,Bateman A,Enright AJ.miRBase:microRNA sequences,targets and gene nomenclature.Nucle Acid Res,2006,34:D140-D144.
[3]Griffiths-Jones S.The microRNA Registry.Nucle Acid Res,2004,32(Database issue):D109-D111
[4]Ma L,Teruya-Feldstein J,Weinberg RA.Tumour invasion and metastasis initiated by microRNA-10b inbreast cancer.Nature,2007,449:682-8.
[5]Musiyenko A,Bitko V,Barik S.Ectopic expression of miR-126*,an intronic product of the vascularendothelial EGF-like 7 gene,regulates prostein translation and invasiveness of prostate cancer LNCaP cells.J Mol Med,2008,86:313-22.
[6]Lee DY,Deng Z,Wang CH,Yang BB.MicroRNA-378 promotes cell survival,tumor growth,andangiogenesis by targeting SuFu and Fus-1 expression.Proc Natl Acad Sci USA Sci,2007,104:20350-20355.
[7]Friggi-Grelin F,Lavenant-Staccini L,Therond P.Control of antagonistic components of the hedgehogsignaling pathway by microRNAs in Drosophila.Genetics.2008,179:429-39.
[8]Li Y,Wang F,Lee JA,Gao FB.MicroRNA-9a ensures the precise specification of sensory organ precursors inDrosophila.Genes Dev.2006,20:2793-805.
[9]Xiao F,Zuo Z,Cai G,Kang S,Gao X,Li T.miRecords:an integrated resource for microRNA-targetinteractions.Nucle Acid Res,2009,37(Database issue):D105-10.
[10]Yoon S,De MicheliG.Computational identification of microRNAs and their targets.Birth Defects Res CEmbryo Today,2006,78(2):118-28.
[11]Mazière P,Enright AJ.Prediction of microRNA targets.Drug Discov Today,2007,12(11-12):452-8.
[12]Enright AJ,John B,Gaul U,Tuschl T,Sander C,Marks DS.MicroRNA targets in Drosophila.Genome Biol,2003.5:R1.
[13]Lewis BP,Burge CB,Bartel DP.Conserved seed pairing,often flanked by adenosines,indicates thatthousands of human genes are microRNA targets.Cell,2005,120:15-20.
[14]Lewis BP,Shih IH,Jones-Rhoades MW,Bartel DP,Burge CB.Prediction of mammalian microRNA targets.Cell,2003,11:787-798.
[15]Krek A,Grün D,Poy MN,Wolf R,Rosenberg L,Epstein EJ,MacMenamin P,da Piedade I,Gunsalus KC,Stoffel M,Rajewsky N.Combinatorial microRNA target predictions.Nat Genet,2005,3:495-500.
[16]Kiriakidou M,Nelson PT,Kouranov A,Fitziev P,Bouyioukos C,Mourelatos Z,Hatzigeorgiou A.Acombined computational-experimental approach predicts human microRNA targets.Genes Dev,2004,18:1165-1178.
[17]Rehmsmeier M,Steffen P,Hochsmann M,Giegerich R.Fast and effective prediction of microRNA/targetduplexes.RNA,2004,10:1507-1517.
[18]Miranda KC,Huynh T,Tay Y,Ang YS,Tam WL,Thomson AM,Lim B,Rigoutsos I.A pattern-basedmethod for the identification of MicroRNA binding sites and their corresponding heteroduplexes.Cell,2006,126(6):1203-17.
[19]Kim SK,Nam JW,Rhee JK,Lee WJ,Zhang BT.miTarget:microRNA target gene prediction using a supportvector machine.BMC Bioinformatics,2006,7:411.
[20]Grimson A,Farh KK,Johnston WK,Garrett-Engele P,Lim LP,Bartel DP.MicroRNA targeting specificityin mammals:determinants beyond seed pairing.Mol Cell,2007,27(1):91-105.
[21]Didiano D,Hobert O.Molecular architecture of a miRNA-regulated 3′UTR.RNA,2008,14(7):1297-317.
[22]Boser BE,Guyon IM,Vapnik V.A training algorithm for optimal margin classifiers.Proceedings of the fifthannual workshop on Computational learning theory,Pittsburgh,Pennsylvania,United States,1992.
[23]Vladimir N.Statistical Learning Theory.Wiley,1998.
[24]Chang CC,Lin CJ.LIBSVM:a library for support vector machines,2001.
[25]Doench JG,Sharp PA.Specificity of microRNA target selection in translational repression.Genes Dev,2004,18:504-511.
[26]Brennecke J,Stark A,Russell RB,Cohen SM.Principles of microRNA-target recognition.PLoS Biol.,2005,3:e85.
[27]Yang Y,Wang YP,Li KB.MiRTif:a support vector machine-based microRNA target interaction filter.BMC Bioinformatics,2008,9Suppl 12:S4.
[28]HofackerI L.How microRNAs choose their targets.Nat.Genet.,2007,39(10):1191-2.
[29]Hofacker IL,Fontana W,Stadler PF,Bonhoeffer S,Tacker M,Schuster P.Fast Folding and Comparison ofRNA Secondary Structures.Monatshefte f.Chemie,1994,125:167-188.
[30]Bernhart SH,Flamm C,Stadler PF,Hofacker IL.Partition Function and Base Pairing Probabilities of RNAHeterodimers Algorithms.Mol.Biol.,2006.1:3.
[31]Witten IH,Frank E.Data Mining:Practical machine learning tools and techniques,2nd Edition,MorganKaufmann,San Francisco,2005.
[32]Salzberg SL.C4.5:Programs for Machine Learning.Machine Learning,2005,16:235-240.
[33]Bartel DP.MicroRNAs:target recognition and regulatory functions.Cell,2009,136(2):215-33.
发明内容
本发明的目的是克服现有技术的不足,提供一种基于支持向量机的microRNA靶位点预测的方法。
基于支持向量机的microRNA靶位点预测的方法包括如下步骤:
1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;
2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集。
3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;
4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。
所述的简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为:每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。
本发明通过引入近年被发现与miRNA靶位点结合相关的特征来构建miRNA靶位点预测器,其中所选取的后三种特征(共六个特征)是根据已有的生物学研究,首次被运用于使用机器学习方法预测miRNA靶位点这一领域。在此基础上,运用特征选取的手段对该预测器进行优化开发出一套新的miRNA靶位点预测器。检验和比较的结果表明,所选用的新特征对miRNA靶位点预测确有帮助,其中10倍交叉检验中取得了85.81%的预测精度。
附图说明
图1是6类输入特征示意图;
图2是使用特征集进行十倍交叉检验以对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图;
图3是以人的数据集作为训练集、果蝇的数据集作为测试集,对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图;
图4是以果蝇的数据集作为训练集、人的数据集作为测试集,对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图。
具体实施方式
基于支持向量机的microRNA靶位点预测的方法包括如下步骤:
1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;
2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集。
3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;
4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价;
所述的简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为:每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。
实施例
基于支持向量机的microRNA靶位点预测的方法,包括如下步骤:
1.训练数据集的建立
由于训练集数据对于机器学习方法而言非常重要,因此选取出恰当的正负样本集是本研究的重点和难点之一。使用了miRecords数据库,miRecordsversion 1[9]共有1979条数据,其中果蝇的有121条记录,人的有1311条记录;仅仅取了这两种动物的数据作为数据集。除去重复的记录以及信息不全(主要为未给出结合位点位置)的记录后,共获得278个miRNA-靶位点相互作用对,其中果蝇的数据有83个,人的数据有195个,这些样本作为正样本使用。
对于分类器的特异性而言,负样本经常比正样本更为重要。以往对于信噪比的实验研究表明,随机生成的负样本经常会与miRNAs发生相互作用[19],为了取得足够的负样本,查阅了miRecords中人与果蝇的文献,其中大部分使用定点突变等实验方法进行靶位点敲除以验证靶位点的真实性;此外,还有部分文献提及了一些在微阵列实验中被证明不具有调控关系的miRNA-mRNA对。对于这些样本,mRNA的3′UTR中与miRNA的种子区域比较匹配的区域将被视为负样本。最终取得了194个负样本,其中果蝇的样本有30个,人的样本有164个。
由于大部分与miRNA发生直接相互作用的靶位点长度均小于30nt,选定了以与miRNA直接作用的序列的3’端最后一个核苷酸开始向5′端延伸的30nt的固定长度的核苷酸序列作为靶位点;除了这30nt序列外,还分别往5′端和3′端延伸100nt作为侧翼序列。
这样,最终获得了一个含有472个样本的数据集;其中278个为正样本,即miRNA能结合到相应的位点上起调控作用;另外的194个为负样本,即miRNA不能通过结合到相应的位点上以调控基因表达;每一个样本包含了一个miRNA以及会与其发生潜在相互作用的长为230nt的mRNA 3′UTR区域核苷酸片段。
2.特征集的构建
每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的各方面信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分(见图1)。其中,前三种特征即为miTarget[19]所使用的特征,后三种特征则是根据已有的生物学研究、首次被运用于使用机器学习方法预测miRNA靶位点这一领域。所有样本的特征向量构成了特征集。
2.1基于结构特征
结构特征描述的是miRNA与靶位点各个部分的匹配情况。如图1所示,一共分为三大部分:miRNA与靶位点的互补配对、miRNA与5′端侧翼序列的互补配对、miRNA与3′端侧翼序列的互补配对情况;而对于miRNA与靶位点的互补配对,又分为三个部分:5’端区域(种子区域部分)、3’端区域,以及全部区域。对于每一个部分,统计了其匹配个数、错配个数、G:C匹配个数、A:U匹配个数、G:U匹配个数及其他错配数占核苷酸总数的比例作为其结构特征,因此共有6*5=30个特征。
2.2基于热力学特征
与结构特征类似,热力学特征同样描述了miRNA与靶位点各部分的匹配情况;不同的是,热力学特征所描述的是RNA异源双链复合体的热力学稳定性。热力学特征同样考察了miRNA与靶位点的互补配对、miRNA与5′端侧翼序列的互补配对、miRNA与3′端侧翼序列的互补配对三大部分;对于miRNA与靶位点的互补配对,也分为三个部分:5’端区域(种子区域部分)、3’端区域以及全部区域。对于每一个部分,以其mRNA:miRNA二级结构的预测自由能作为热力学特征,因此共有5个特征。
2.3基于位置特征
基于位置特征是由miTarget首先使用的特征类型。Doench等人[25]和Brennecke等人[26]的研究发现特定位点上的点突变可以抑制miRNA的功能,即使具有相同的热力学性质,特定位点上不同的碱基互补情况也会对miRNA与靶位点的结合产生影响。由于不同的miRNA具有不同的长度,为了特征数量的统一,这里仅考虑miRNA前20位的碱基互补情况[19]。每一个位置的匹配情况都将用一个三维的0,1向量表示,分别表示该位置为G:C匹配、A:U匹配或G:U匹配;若为其他错配,则三个值均为0。因此共有3*20=60个特征。
以上三类特征都需要建立在miRNA:mRNA异源双链复合体的结构已知的情况下。为了得到miRNA与相关位点的结合情况,在研究中运用了ViennaRNA Package中的RNAduplex对miRNA与对应位点进行二级结构预测;上面三类特征都将建立在这一预测结果基础之上。
2.4基于核苷酸组成特征
上面的三类特征在miTarget[19]中已经得到了运用。除此以外,还加入了另外的三类特征。核苷酸组成特征在大量核酸相关的研究中都已经得到广泛应用[27];而近年的多个研究结果也表明,结合位点及其侧翼序列的某些碱基含量具有一定的特征,如AU含量较高等[20,21];因此,加入核苷酸组成特征是有必要的。与结构特征和热力学特征一样,这里一共考虑了五个区域的核苷酸组成情况,即A、U、C、G在各个区域分别的含量。因此共有4*5=20个特征。
2.5基于二级结构特征
一般认为,miRNA要结合到靶位点,就必须使结合后所形成的二级结构变得更为稳定、结合自由能更低[28];根据这一原则,已经有数种miRNA靶位点预测算法得到开发,如前所述[16,17]。这一特征又可以分为两部分:其一为miRNA结合以前、靶位点及其两端侧翼序列所形成的二级结构的结构特征,即匹配个数、错配个数、G:C匹配个数、A:U匹配个数、G:U匹配个数及其他错配数占核苷酸总数的比例,共6个特征;其二为miRNA结合前后靶位点及其两端侧翼序列所形成的二级结构的结合自由能、以及结合前后自由能的变化,共3个特征。因此,此类特征共有9个。然后使用Vienna RNA Package中的RNAcofold[29,30]对miRNA结合前后的靶位点二级结构进行预测,并根据预测结果取得所需要的特征参数。
2.6基于模式特征
Miranda等人在2006年提出了一种基于模式(pattern)的miRNA靶位点预测方法rna22[18]。这种方法首先在大量miRNA序列中寻找其共有模式,尔后使用这些模式的反向互补模式再潜在靶基因序列中进行搜索,并将模式出现频率高的地方视为潜在靶位点,在通过热力学分析、碱基互补配对分析等对潜在靶位点进行进一步筛选,这一方法取得了不错的预测结果,说明模式搜索可以切实提高miRNA靶位点的预测精度,借鉴这一思路引入了基于模式特征。
Teiresias算法被用作发现大量miRNA中的不定长基序(motif,即模式pattern)。这些基序要求其长度至少包含L=4个核苷酸,其位点至少有30%是特异的(即W=12),且在所有miRNA中至少出现K=2次[18]。使用了实现该算法的网页服务(http://cbcsrv.watson.ibm.com/Tspd.html)进行模式的提取。
3.简化特征集选取
简化特征选取是在原来的特征集中选取一个子集,其中包含了最适合用于决策的属性特征,在有监督机器学习方法中,提高预测精度、减少运算时间、以及加深对问题本身的解释。
使用了Weka3[31]中的特征选取算法,基于特征集分别进行了特征选取;这些特征选取算法包括:卡方属性评价(Chi-Square Attribute Evaluation)、过滤属性评价(Filtered Attribute Evaluation)、增加比率属性评价(Gain RatioAttribute Evaluation)、信息增益属性评价(Information Gain AttributeEvaluation)、OneR属性评价(OneR Attribute Evaluation)、RelieF属性评价(RelieF Attribute Evaluation)、支持向量机属性评价(SVM AttributeEvaluation)、对称原理不对称属性评价Symmetrical Uncertainty(SU)AttributeEvaluation。每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集(见表1)。
表1.被选入简化特征集的64个特征。
Figure G2009101552910D00121
4.结果评价
为了评价分类器的分类能力,使用了三种比较方式。第一种是受试者作业特征(ROC)分析[19],其结果曲线中的每个点表示了不同测试阈值下真阳性与假阳性的比值,可以展示所有可能的敏感性与特异性的平衡情况;通过比较ROC曲线下面积(AUC)即可实现不同分类器性能的比较:AUC越大,说明分类性能越高。第二种评价方式是综合成功率,即正确的分类数与样本总数的比值。第三种是二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率.
针对基于不同特征集构建的分类器,实现具体测试过程则设计了三种测试方法。第一种测试是对特征集进行十倍交叉检验,其结果可以通过ROC分析以及综合成功率进行比较。第二种测试是使用人的数据集作为训练集,以果蝇的数据集作为测试集进行测试;由于每一个测试集的样本都有一个固定的预测结果,因此除ROC分析和综合成功率以外,还可以使用二维混淆矩阵及真阳性率等比率进行结果的比较。第三种测试是使用果蝇的数据集作为训练集,对人的数据集进行测试;这种测试与第二种测试类似,只是将建立模型所使用的训练集和测试模型所使用的测试集调换,评价及结果的比较方法与第二种测试相同。
4.1特征集进行十倍交叉检验
使用特征集的十倍交叉检验对基于特征集的分类器的检验结果进行ROC分析(见图2),可以得到其AUC为0.9277(曲线2);相比之下,基于miTarget特征集的分类器的ROC分析所得到的AUC为0.9161(曲线3),略低于特征集的结果。可以看到基于特征集的分类器在高特异性区域的敏感性要略高于基于miTarget特征集的分类器,说明新特征对提高分类特异性应有一定作用。基于特征集的分类器在十倍交叉检验中获得了85.59%的综合成功率,而基于miTarget特征集的分类器则获得84.32%的综合成功率。这表明引入的新特征对于miRNA靶位点的预测确实有一定的正面作用。
4.2以人的数据集作为训练集,果蝇的数据集作为测试集
使用人的数据集作为训练集进行建模,再使用独立的果蝇数据集进行测试,是第二种检验分类器表现的方法。与基于特征集分类器的检验类似,本检验同样采用了ROC分析对分类器的表现进行评价(见图3)。对基于特征集的分类器(曲线2),其AUC为0.6386;相比之下,基于miTarget特征集的分类器的ROC分析(曲线3)所得AUC为0.6610,较前者的结果为佳。在这一组结果中,基于miTarget特征集的分类器在高特异性区域的敏感度更佳,而这与1.1中的结果并不一致;此外,可以发现两者AUC都远较1.1中的结果为差;这说明人的样本与果蝇的样本的各项特征有着相当大的物种差异。
基于特征集的分类器与基于miTarget特征集的分类器在对测试集的预测中同样取得了69.02%的综合成功率。为了进一步区分两者的预测情况,根据其结果分别作出了其二维混淆矩阵(表2)并计算得到了其真阳性率、假阳性率、真阴性率、假阴性率(表3)。
表2.以果蝇的数据集作为测试集,基于特征集(左表)和基于miTarget特征集(右表)的分类器的二维混淆矩阵。
表3.以果蝇的数据集作为测试集,基于特征集和基于miTarget特征集的分类器的真阳性率、假阳性率、真阴性率、假阴性率。
  真阳性率   假阳性率   真阴性率   假阴性率
  基于特征集   0.8072   0.6333   0.3667   0.1928
  基于miTarget特征集   0.8193   0.6667   0.3333   0.1807
由表看出,两种分类器之间的差别并不明显。由于基因组的庞大规模,控制miRNA靶位点预测的假阳性尤为重要。可以看出基于特征集的结果假阳性率略低,但还是超过60%。这是因为人的样本与果蝇的样本的各项特征有着相当大的物种差异,导致仅仅使用人的数据进行建模不能充分代表果蝇样本的情况。
4.3以果蝇的数据集作为训练集,人的数据集作为测试集
使用果蝇的数据集作为训练集进行建模,再使用独立的人的数据集进行测试,是第三种检验分类器表现的方法。对基于特征集的分类器,ROC分析(曲线2)所得AUC为0.6489;相比之下,基于miTarget特征集的分类器的ROC分析(曲线3)所得AUC为0.6904,与第二种检验方式一样较前者的结果为佳(如图4)。综合成功率方面,基于特征集的分类器为55.43%,基于miTarget特征集的分类器则为56.82%。通过其二维混淆矩阵(见表4)计算得到真阳性率、假阳性率、真阴性率、假阴性率(见表5),可以进一步比较两种特征集对预测结果的影响。
表4.以人数据集作为测试集,基于特征集(左表)和基于miTarget特征集(右表)的分类器的二维混淆矩阵。
Figure G2009101552910D00141
表5.以人数据集作为测试集,基于特征集和基于miTarget特征集的分类器的真阳性率、假阳性率、真阴性率、假阴性率。
  真阳性率   假阳性率   真阴性率   假阴性率
  基于特征集   1   0.9756   0.0244   0
  基于miTarget特征集   0.9436   0.8780   0.1220   0.0564
由此可以发现基于miTarget特征集的分类器在跨物种预测中的表现相对稳定;这表明特征集相对于miTarget特征集的新增部分中至少有一部分特征的数值在不同样本中可能有较大的差异。
4.4基于简化特征集的分类器的测试结果
对于含有64个特征的基于简化特征集的分类器,本研究使用了与基于前两种特征集相同的方法进行了检验测试。首先使用了特征集的十倍交叉检验,得到了85.80%的综合成功率,较基于特征集的分类器以及基于miTarget特征集的分类器的综合成功率都为高;对其进行ROC分析取曲线(见图2曲线1)的AUC为0.9257,仅略低于基于特征集分类器表现、但依然高于基于miTarget特征集分类器的表现。这说明仅此一半特征已经包含了全部特征中的几乎全部信息,证明特征选取的结果是有效的。
若使用人的数据集作为训练集进行建模、再使用独立的果蝇数据集进行测试,基于简化特征集的分类器可以获得74.34%的在综合成功率,优于基于另外两种特征集的分类器的结果。而其ROC曲线分析(见图3曲线1)的AUC为0.7410,同样优于另外两种分类器;在高特异性区域,其敏感度的优势非常明显。其二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率见表6、表7。其特异度与基于miTarget特征集分类器持平而略低于基于特征集分类器,但敏感度较两者为高,这些都表明了特征选取的有效性。
表6.以果蝇的数据集作为测试集,基于简化特征集分类器的二维混淆矩阵。
Figure G2009101552910D00151
表7.以果蝇的数据集作为测试集,基于简化特征集分类器的真阳性率、假阳性率、真阴性率、假阴性率。
  真阳性率   假阳性率   真阴性率   假阴性率
  基于简化特征集   0.8915   0.6667   0.3333   0.1084
使用果蝇数据集作为训练集进行建模、再使用独立的人的样本进行测试,基于简化特征集的分类器取得了59.33%的综合成功率,同样较另外两种分类器要高。其ROC曲线(见图4)的AUC为0.7302,较基于特征集以及miTarget特征集的分类器性能有明显提升。其二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率(见表8、表9)也表明较基于另外两种特征集的分类器而言都有所改进。数值上还是低于20%,说明作为训练集的果蝇数据集的缺陷,是造成预测精度、特别是特异性低下的主要原因。
表8.以人数据集作为测试集,基于简化特征集分类器的二维混淆矩阵。
Figure G2009101552910D00152
表9.以人数据集作为测试集,基于简化特征集分类器的真阳性率、假阳性率、真阴性率、假阴性率。
  真阳性率   假阳性率   真阴性率   假阴性率
  基于简化特征集   0.9692   0.8536   0.1463   0.0308
基于简化特征集分类器的性能在各种测试中均要优于基于特征集分类器以及基于miTarget特征集分类器;这说明了特征选取是有效的。同时,与另外两种分类器一样,以某一物种的样本作为训练集对另一物种的样本进行测试所得到的结果,远较使用完全数据集进行交叉检验的结果要差;这也说明不同物种之间,其miRNA与靶位点相互作用的特征数值可能会有较大差异。
4.5与其他miRNA靶位点预测方法的比较
迄今为止,已有多种miRNA靶位点预测的软件被开发出来,其中具有重要影响力的如TargetScan[13,14]等。为了进一步评价本研究所得到的分类器的表现,在除去部分由靶位点定点突变产生的样本、部分跨物种样本以及在TargetScan中无记录的样本后,分别使用了TargetScanHuman和TargetScanFly对剩余的所有样本(共计402个样本,其中负样本130个,正样本272个)进行了测试。结果表明(见表10),使用TargetScan预测的综合成功率为64.93%,低于本研究所实现的分类器在十倍交叉检验中所达到的基于特征集(85.59%)、基于miTarget特征集(84.32%)和基于简化特征集(85.80%)。
表10.使用TargetScan对特征集进行检验的二维混淆矩阵。
Figure G2009101552910D00161
计算得到TargetScan预测的真阳性率为0.5478,假阳性率为0.1385;在同等假阳性率的情况下,由ROC曲线可得知,所实现的分类器在特征集的十倍交叉检验中可以达到超过0.75的敏感度(真阳性率),优于TargetScan的预测结果。
附:中英文对照表
  英文名称   中文名称
 Complementarity   互补配对
 Confusion Matrix   混淆矩阵
 Cross validation   交叉检验
 False negative rate   假阴性率
 False positive rate   假阳性率
 Feature selection   特征选取
 Flanking sequence   侧翼序列
 Free energy   自由能
  Hyperplane   超平面
  Motif   基序
  Non-coding RNA   非编码RNA
  Overall accurate rate   综合成功率
  Pattern   模式
  Position-based feature   基于位置特征
  Posttranscription regulation   转录后调控
  Secondary structure   二级结构
  Sensitivity   敏感度
  Structural feature   结构特征
  Specificity   特异性
  Support vector machine   支持向量机
  Target   靶位点/靶标
  Ten-fold cross validation   十倍交叉检验
  Test set   测试集
  Thermodynamic feature   热力学特征
  Training set   训练集
  True negative rate   真阴性率
  True positive rate   真阳性率

Claims (2)

1.一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,包括如下步骤:
1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;
2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集;
3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;
4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。
2.如权利要求1所述的一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,所述的简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为:每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。
CN2009101552910A 2009-12-10 2009-12-10 一种基于支持向量机的microRNA靶位点预测的方法 Expired - Fee Related CN101710362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101552910A CN101710362B (zh) 2009-12-10 2009-12-10 一种基于支持向量机的microRNA靶位点预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101552910A CN101710362B (zh) 2009-12-10 2009-12-10 一种基于支持向量机的microRNA靶位点预测的方法

Publications (2)

Publication Number Publication Date
CN101710362A CN101710362A (zh) 2010-05-19
CN101710362B true CN101710362B (zh) 2011-07-20

Family

ID=42403149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101552910A Expired - Fee Related CN101710362B (zh) 2009-12-10 2009-12-10 一种基于支持向量机的microRNA靶位点预测的方法

Country Status (1)

Country Link
CN (1) CN101710362B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375840A (zh) * 2010-08-19 2012-03-14 浙江中医药大学附属第一医院 一种基于自然语言处理系统的microRNA靶基因的筛选方法
CN104091216A (zh) * 2014-07-29 2014-10-08 吉林大学 基于果蝇优化最小二乘支持向量机的交通信息预测方法
CA2963768C (en) * 2014-10-27 2023-03-07 Pioneer Hi-Bred International, Inc. Improved molecular breeding methods
CN106599615B (zh) * 2016-11-30 2019-04-05 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种预测miRNA靶基因的序列特征分析方法
CN108090327B (zh) * 2017-12-20 2022-03-29 吉林大学 包含三维自由能的外源性miRNA调控靶基因预测方法
CN110021361B (zh) * 2018-06-27 2023-04-07 中山大学 一种基于卷积神经网的miRNA靶基因预测方法
CN109256215B (zh) * 2018-09-04 2021-04-06 华东交通大学 一种基于自回避随机游走的疾病关联miRNA预测方法及系统
CN110070912B (zh) * 2019-04-15 2023-06-23 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN111951889B (zh) * 2020-08-18 2023-12-22 安徽农业大学 一种rna序列中m5c位点的识别预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1511957A (zh) * 2002-12-31 2004-07-14 中国人民解放军军事医学科学院放射医 一种基于芯片的反义寡核苷酸筛选方法及其用途
CN101020928A (zh) * 2007-03-21 2007-08-22 中国医学科学院阜外心血管病医院 生长分化因子15基因多态位点在预测高血压继发左心室肥厚中的用途
CN101076592A (zh) * 2004-10-12 2007-11-21 洛克菲勒大学 微小rna

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1511957A (zh) * 2002-12-31 2004-07-14 中国人民解放军军事医学科学院放射医 一种基于芯片的反义寡核苷酸筛选方法及其用途
CN101076592A (zh) * 2004-10-12 2007-11-21 洛克菲勒大学 微小rna
CN101020928A (zh) * 2007-03-21 2007-08-22 中国医学科学院阜外心血管病医院 生长分化因子15基因多态位点在预测高血压继发左心室肥厚中的用途

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sung-Kyu Kim,Jin-Wu Nam, Je-Keun Rhee et al.《miTarget: microRNA target gene prediction using a support vector machine》.《BMC Bioinformatics》.2006,全文. *

Also Published As

Publication number Publication date
CN101710362A (zh) 2010-05-19

Similar Documents

Publication Publication Date Title
CN101710362B (zh) 一种基于支持向量机的microRNA靶位点预测的方法
Xue et al. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine
Kim et al. miTarget: microRNA target gene prediction using a support vector machine
Mendes et al. Current tools for the identification of miRNA genes and their targets
Wang et al. Predicting human microRNA precursors based on an optimized feature subset generated by GA–SVM
Yu et al. Large-scale prediction of microRNA-disease associations by combinatorial prioritization algorithm
Russo et al. Interplay between long noncoding RNAs and MicroRNAs in cancer
Dai et al. Computational methods for the identification of microRNA targets
Kleftogiannis et al. YamiPred: A novel evolutionary method for predicting pre-miRNAs and selecting relevant features
Xuan et al. Genetic algorithm-based efficient feature selection for classification of pre-miRNAs
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
Yao et al. plantMirP: an efficient computational program for the prediction of plant pre-miRNA by incorporating knowledge-based energy features
Hardcastle et al. Towards annotating the plant epigenome: the Arabidopsis thaliana small RNA locus map
Rajendiran et al. Computational approaches and related tools to identify MicroRNAs in a species: A Bird’s Eye View
Sualp et al. Using network context as a filter for miRNA target prediction
Quillet et al. Prediction methods for microRNA targets in bilaterian animals: Toward a better understanding by biologists
Omer et al. microRNAs: role in leukemia and their computational perspective
Song et al. Predicting miRNA-mediated gene silencing mode based on miRNA-target duplex features
Kim et al. Evolving hypernetwork classifiers for microRNA expression profile analysis
Oulas et al. Finding cancer-associated miRNAs: methods and tools
Tran et al. Improved microRNA biomarkers for pathological stages in lung adenocarcinoma via clustering of dysregulated microRNA-target associations
Zou et al. Revealing weak differential gene expressions and their reproducible functions associated with breast cancer metastasis
Wang Computational prediction of microRNA targets
Tang et al. Systematic analysis revealed better performance of random forest algorithm coupled with complex network features in predicting microRNA precursors
Weidhaas Identifying MicroRNA Pathway Variants as Biomarkers of Patient Selection for Immune Therapy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110720

Termination date: 20131210