CN101710362A - 一种基于支持向量机的microRNA靶位点预测的方法 - Google Patents
一种基于支持向量机的microRNA靶位点预测的方法 Download PDFInfo
- Publication number
- CN101710362A CN101710362A CN200910155291A CN200910155291A CN101710362A CN 101710362 A CN101710362 A CN 101710362A CN 200910155291 A CN200910155291 A CN 200910155291A CN 200910155291 A CN200910155291 A CN 200910155291A CN 101710362 A CN101710362 A CN 101710362A
- Authority
- CN
- China
- Prior art keywords
- feature
- mirna
- attribute evaluation
- target site
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108700011259 MicroRNAs Proteins 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000002679 microRNA Substances 0.000 title claims abstract description 25
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000033228 biological regulation Effects 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims description 41
- 235000013399 edible fruits Nutrition 0.000 claims description 34
- 239000002773 nucleotide Substances 0.000 claims description 18
- 125000003729 nucleotide group Chemical group 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000013480 data collection Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 abstract description 13
- 108091070501 miRNA Proteins 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract 1
- 230000000295 complement effect Effects 0.000 description 14
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 108020004999 messenger RNA Proteins 0.000 description 9
- 241000894007 species Species 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 108091027305 Heteroduplex Proteins 0.000 description 3
- 108091030146 MiRBase Proteins 0.000 description 3
- 108091036066 Three prime untranslated region Proteins 0.000 description 3
- 239000002253 acid Substances 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000012932 thermodynamic analysis Methods 0.000 description 3
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- TWFZGCMQGLPBSX-UHFFFAOYSA-N carbendazim Chemical compound C1=CC=C2NC(NC(=O)OC)=NC2=C1 TWFZGCMQGLPBSX-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002703 mutagenesis Methods 0.000 description 2
- 231100000350 mutagenesis Toxicity 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 230000001124 posttranscriptional effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- 101150101112 7 gene Proteins 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- 101100118545 Holotrichia diomphalia EGF-like gene Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 108091028066 Mir-126 Proteins 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 108091092508 RNA22 Proteins 0.000 description 1
- 102100037253 Solute carrier family 45 member 3 Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 150000003838 adenosines Chemical class 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 102000034287 fluorescent proteins Human genes 0.000 description 1
- 108091006047 fluorescent proteins Proteins 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000009459 hedgehog signaling Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 108010079891 prostein Proteins 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于支持向量机的microRNA靶位点预测的方法。步骤包括:1)训练数据集的建立,包括278个正样本和194个负样本;2)特征集的构建,每个训练数据集的样本都被一个特征向量所表示,特征向量涵括miRNA-靶位点调控对的各方面信息,分为六部分共128个特征;3)简化特征集选取,使用Weka3中的一系列特征选取算法,筛选出64个特征;4)结果评价,对基于特征集、简化特征集和miTarget特征集的分类器的分类能力进行比较;5)miRNA靶基因的功能注释。本发明的意义在于构建了一个引入近年被发现与miRNA靶位点结合相关的特征,开发出一套新的miRNA靶位点预测方法,并运用特征选取的手段对该预测器进行优化,最后比较检验的结果表明,所选用的新特征对miRNA靶位点预测确有帮助。
Description
技术领域
本发明涉及一种基于支持向量机的microRNA靶位点预测的方法。
背景技术
microRNA(miRNA)是一种长度约为22nt的单链非编码RNA。由于MicroRNA在基因表达的转录后调控中起着非常重要的作用,从miRNA被发现以来,一直受到广泛的关注。研究表明,miRNA对生物体的生长发育有着非常重要的影响。现在普遍认为,miRNA通过与其靶基因的mRNA互补结合,降低mRNA的稳定性或抑制mRNA的翻译,从而实现其负调控功能。
由于miRNA在生物体的许多生命过程中起着举足轻重的作用,miRNA功能研究越来越得到重视。至今为止,已经有超过8000种miRNA被发现、并记录于miRNA数据库miRBase[1-3]中,且这一数量还在继续增加。通过miRNA芯片、荧光蛋白标记、靶位点突变、锁核苷酸(LNA)沉默miRNA等实验手段[4-8],相当数量的miRNA与靶基因的关系也得到了验证,部分数据也被收录于数据库miRecords[9]中。然而,仅仅通过实验我们依然很难快速得到miRNA与靶基因的关系;特别是在我们对可能发生的调控关系没有丝毫认识的情况下,要想用大海捞针的方式发现miRNA的调控功能几乎不可能。因此,在计算机得到广泛应用的今天,开发出有效的生物信息学手段的可能的miRNA-靶基因调控关系进行预测,成为了进行miRNA相关研究的重要环节。
由于植物miRNA与靶位点的配对比较完全,其预测难度相对较小;迄今也已有多个基于序列相似性的miRNA靶位点预测软件得到广泛使用[10]。而对于动物miRNA,由于其与靶位点的非完全匹配中存在着大量的错配、空位等,因此植物miRNA靶位点预测算法并不适用于动物;尽管如此,mRNA靶位点及miRNA序列的强保守性、以及miRNA种子区域与靶位点的较完全匹配情况,使多个针对动物miRNA靶基因预测的算法得以出现。
自从2003年第一个针对大范围miRNA靶位点预测的方法被提出以来,已经有不少的miRNA靶位点预测软件被开发出来[11]。这些软件所使用的预测手段各有不同,但一般考虑的因素不外乎miRNA与靶位点的互补配对关系、所形成的异源双链结构的热力学稳定性、miRNA与靶位点在不同物种中的保守性等。这些方法大概可以分为基于核苷酸互补情况的方法、基于热力学分析的方法、基于模式发现的方法、基于支持向量机的方法等[11]。
最早出现、而今运用最广泛的方法是基于核苷酸序列比对的方法。这一类方法的第一步基本上都是在靶基因mRNA的3’UTR区上搜索与miRNA的种子区或整个miRNA序列比较互补的区域,并以之作为miRNA的可能靶位点。随后,这些潜在靶位点还会经过热力学分析、序列在物种间保守性分析等步骤的多层过滤。一般而言,基于核苷酸互补情况的预测方法最终会给每一个潜在miRNA靶位点打出一个分数,而这一分数即可表示出在该次预测中,此潜在靶位点为真实的miRNA靶位点的可能性。miRanda[12]、TargetScan[13-14]、PicTar[15]等都是这一类方法的代表。
在大部分已有的miRNA靶位点预测方法中,保守性分析扮演了非常重要的角色,在过往的大量靶位点预测方法中,有许多特征和机理并没有被考虑到。近年来,随着对动物miRNA研究的不断深入后发现,除了与miRNA直接作用的靶位点区域外,靶位点的侧翼序列、靶位点在3’UTR上的位置等特征也与miRNA与靶位点的结合密切相关[20-21],而这些都是过往的预测方法所没有考虑的。
参考文献
[1]Griffiths-Jones S,Saini HK,van Dongen S,Enright AJ.miRBase:tools for microRNA genomics.Nucle AcidRes,2008,36(Database issue):D154-D158.
[2]Griffiths-Jones S,Grocock RJ,van Dongen S,Bateman A,Enright AJ.miRBase:microRNA sequences,targets and gene nomenclature.Nucle Acid Res,2006,34:D140-D144.
[3]Griffiths-Jones S.The microRNA Registry.Nucle Acid Res,2004,32(Database issue):D109-D111
[4]Ma L,Teruya-Feldstein J,Weinberg RA.Tumour invasion and metastasis initiated by microRNA-10b inbreast cancer.Nature,2007,449:682-8.
[5]Musiyenko A,Bitko V,Barik S.Ectopic expression of miR-126*,an intronic product of the vascularendothelial EGF-like 7gene,regulates prostein translation and invasiveness of prostate cancer LNCaP cells.J Mol Med,2008,86:313-22.
[6]Lee DY,Deng Z,Wang CH,Yang BB.MicroRNA-378promotes cell survival,tumor growth,andangiogenesis by targeting SuFu and Fus-1expression.Proc Natl Acad Sci USA Sci,2007,104:20350-20355.
[7]Friggi-Grelin F,Lavenant-Staccini L,Therond P.Control of antagonistic components of the hedgehogsignaling pathway by microRNAs in Drosophila.Genetics.2008,179:429-39.
[8]Li Y,Wang F,Lee JA,Gao FB.MicroRNA-9a ensures the precise specification of sensory organ precursors inDrosophila.Genes Dev.2006,20:2793-805.
[9]Xiao F,Zuo Z,Cai G,Kang S,Gao X,Li T.miRecords:an integrated resource for microRNA-targetinteractions.Nucle Acid Res,2009,37(Database issue):D105-10.
[10]Yoon S,De Micheli G.Computational identification of microRNAs and their targets.Birth Defects Res CEmbryo Today,2006,78(2):118-28.
[11]Mazière P,Enright AJ.Prediction of microRNA targets.Drug Discov Today,2007,12(11-12):452-8.
[12]Enright AJ,John B,Gaul U,Tuschl T,Sander C,Marks DS.MicroRNA targets in Drosophila.Genome Bio1,2003,5:R1.
[13]Lewis BP,Burge CB,Bartel DP.Conserved seed pairing,often flanked by adenosines,indicates thatthousands of human genes are microRNA targets.Cell,2005,120:15-20.
[14]Lewis BP,Shih IH,Jones-Rhoades MW,Bartel DP,Burge CB.Prediction of mammalian microRNA targets.Cell,2003,11:787-798.
[15]Krek A,Grün D,Poy MN,Wolf R,Rosenberg L,Epstein EJ,MacMenamin P,da Piedade I,Gunsalus KC,Stoffel M,Rajewsky N.Combinatorial microRNA target predictions.Nat Genet,2005,3:495-500.
[16]Kiriakidou M,Nelson PT,Kouranov A,Fitziev P,Bouyioukos C,Mourelatos Z,Hatzigeorgiou A.Acombined computational-experimental approach predicts human microRNA targets.Genes Dev,2004,18:1165-1178.
[17]Rehmsmeier M,Steffen P,Hochsmann M,Giegerich R.Fast and effective prediction of microRNA/targetduplexes.RNA,2004,10:1507-1517.
[18]Miranda KC,Huynh T,Tay Y,Ang YS,Tam WL,Thomson AM,Lim B,Rigoutsos I.A pattern-basedmethod for the identification of MicroRNA binding sites and their corresponding heteroduplexes.Cell,2006,126(6):1203-17.
[19]Kim SK,Nam JW,Rhee JK,Lee WJ,Zhang BT.miTarget:microRNA target gene prediction using a supportvector machine.BMC Bioinformatics,2006,7:411.
[20]Grimson A,Farh KK,Johnston WK,Garrett-Engele P,Lim LP,Bartel DP.MicroRNA targeting specificityin mammals:determinants beyond seed pairing.Mol Cell,2007,27(1):91-105.
[21]Didiano D,Hobert O.Molecular architecture of a miRNA-regulated 3′UTR.RNA,2008,14(7):1297-317.
[22]Boser BE,Guyon IM,Vapnik V.A training algorithm for optimal margin classifiers.Proceedings of the fifthannual workshop on Computational learning theory,Pittsburgh,Pennsylvania,United States,1992.
[23]Vladimir N.Statistical Learning Theory.Wiley,1998.
[24]Chang CC,Lin CJ.LIBSVM:a library for support vector machines,2001.
[25]Doench JG,Sharp PA.Specificity of microRNA target selection in translational repression.Genes Dev,2004,18:504-511.
[26]Brennecke J,Stark A,Russell RB,Cohen SM.Principles of microRNA-target recognition.PLoS Biol.,2005,3:e85.
[27]Yang Y,Wang YP,Li KB.MiRTif:a support vector machine-based microRNA target interaction filter.BMC Bioinformatics,2008,9Suppl 12:S4.
[28]HofackerI L.How microRNAs choose their targets.Nat.Genet.,2007,39(10):1191-2.
[29]Hofacker IL,Fontana W,Stadler PF,Bonhoeffer S,Tacker M,Schuster P.Fast Folding and Comparison ofRNA Secondary Structures.Monatsheffe f.Chemie,1994,125:167-188.
[30]Bernhart SH,Flamm C,Stadler PF,Hofacker IL.Partition Function and Base Pairing Probabilities of RNAHeterodimers Algorithms.Mol.Biol.,2006,1:3.
[31]Witten IH,Frank E.Data Mining:Practical machine learning tools and techniques,2nd Edition,MorganKaufmann,San Francisco,2005.
[32]Salzberg SL.C4.5:Programs for Machine Learning.Machine Learning,2005,16:235-240.
[33]Bartel DP.MicroRNAs:target recognition and regulatory functions.Cell,2009,136(2):215-33.
发明内容
本发明的目的是克服现有技术的不足,提供一种基于支持向量机的microRNA靶位点预测的方法。
基于支持向量机的microRNA靶位点预测的方法包括如下步骤:
1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;
2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集。
3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;
4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。
所述的简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为:每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。
本发明通过引入近年被发现与miRNA靶位点结合相关的特征来构建miRNA靶位点预测器,其中所选取的后三种特征(共六个特征)是根据已有的生物学研究,首次被运用于使用机器学习方法预测miRNA靶位点这一领域。在此基础上,运用特征选取的手段对该预测器进行优化开发出一套新的miRNA靶位点预测器。检验和比较的结果表明,所选用的新特征对miRNA靶位点预测确有帮助,其中10倍交叉检验中取得了85.81%的预测精度。
附图说明
图1是6类输入特征示意图;
图2是使用特征集进行十倍交叉检验以对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图;
图3是以人的数据集作为训练集、果蝇的数据集作为测试集,对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图;
图4是以果蝇的数据集作为训练集、人的数据集作为测试集,对基于简化特征集分类器(曲线1)、基于特征集(曲线2)及基于miTarget特征集分类器(曲线3)进行ROC分析所得到ROC曲线图。
具体实施方式
基于支持向量机的microRNA靶位点预测的方法包括如下步骤:
1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;
2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集。
3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;
4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价;
所述的简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为:每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。
实施例
基于支持向量机的microRNA靶位点预测的方法,包括如下步骤:
1.训练数据集的建立
由于训练集数据对于机器学习方法而言非常重要,因此选取出恰当的正负样本集是本研究的重点和难点之一。使用了miRecords数据库,miRecordsversion 1[9]共有1979条数据,其中果蝇的有121条记录,人的有1311条记录;仅仅取了这两种动物的数据作为数据集。除去重复的记录以及信息不全(主要为未给出结合位点位置)的记录后,共获得278个miRNA-靶位点相互作用对,其中果蝇的数据有83个,人的数据有195个,这些样本作为正样本使用。
对于分类器的特异性而言,负样本经常比正样本更为重要。以往对于信噪比的实验研究表明,随机生成的负样本经常会与miRNAs发生相互作用[19],为了取得足够的负样本,查阅了miRecords中人与果蝇的文献,其中大部分使用定点突变等实验方法进行靶位点敲除以验证靶位点的真实性;此外,还有部分文献提及了一些在微阵列实验中被证明不具有调控关系的miRNA-mRNA对。对于这些样本,mRNA的3′UTR中与miRNA的种子区域比较匹配的区域将被视为负样本。最终取得了194个负样本,其中果蝇的样本有30个,人的样本有164个。
由于大部分与miRNA发生直接相互作用的靶位点长度均小于30nt,选定了以与miRNA直接作用的序列的3’端最后一个核苷酸开始向5′端延伸的30nt的固定长度的核苷酸序列作为靶位点;除了这30nt序列外,还分别往5′端和3′端延伸100nt作为侧翼序列。
这样,最终获得了一个含有472个样本的数据集;其中278个为正样本,即miRNA能结合到相应的位点上起调控作用;另外的194个为负样本,即miRNA不能通过结合到相应的位点上以调控基因表达;每一个样本包含了一个miRNA以及会与其发生潜在相互作用的长为230nt的mRNA 3′UTR区域核苷酸片段。
2.特征集的构建
每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的各方面信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分(见图1)。其中,前三种特征即为miTarget[19]所使用的特征,后三种特征则是根据已有的生物学研究、首次被运用于使用机器学习方法预测miRNA靶位点这一领域。所有样本的特征向量构成了特征集。
2.1基于结构特征
结构特征描述的是miRNA与靶位点各个部分的匹配情况。如图1所示,一共分为三大部分:miRNA与靶位点的互补配对、miRNA与5′端侧翼序列的互补配对、miRNA与3′端侧翼序列的互补配对情况;而对于miRNA与靶位点的互补配对,又分为三个部分:5’端区域(种子区域部分)、3’端区域,以及全部区域。对于每一个部分,统计了其匹配个数、错配个数、G:C匹配个数、A:U匹配个数、G:U匹配个数及其他错配数占核苷酸总数的比例作为其结构特征,因此共有6*5=30个特征。
2.2基于热力学特征
与结构特征类似,热力学特征同样描述了miRNA与靶位点各部分的匹配情况;不同的是,热力学特征所描述的是RNA异源双链复合体的热力学稳定性。热力学特征同样考察了miRNA与靶位点的互补配对、miRNA与5′端侧翼序列的互补配对、miRNA与3′端侧翼序列的互补配对三大部分;对于miRNA与靶位点的互补配对,也分为三个部分:5’端区域(种子区域部分)、3’端区域以及全部区域。对于每一个部分,以其mRNA:miRNA二级结构的预测自由能作为热力学特征,因此共有5个特征。
2.3基于位置特征
基于位置特征是由miTarget首先使用的特征类型。Doench等人[25]和Brennecke等人[26]的研究发现特定位点上的点突变可以抑制miRNA的功能,即使具有相同的热力学性质,特定位点上不同的碱基互补情况也会对miRNA与靶位点的结合产生影响。由于不同的miRNA具有不同的长度,为了特征数量的统一,这里仅考虑miRNA前20位的碱基互补情况[19]。每一个位置的匹配情况都将用一个三维的0,1向量表示,分别表示该位置为G:C匹配、A:U匹配或G:U匹配;若为其他错配,则三个值均为0。因此共有3*20=60个特征。
以上三类特征都需要建立在miRNA:mRNA异源双链复合体的结构已知的情况下。为了得到miRNA与相关位点的结合情况,在研究中运用了ViennaRNA Package中的RNAduplex对miRNA与对应位点进行二级结构预测;上面三类特征都将建立在这一预测结果基础之上。
2.4基于核苷酸组成特征
上面的三类特征在miTarget[19]中已经得到了运用。除此以外,还加入了另外的三类特征。核苷酸组成特征在大量核酸相关的研究中都已经得到广泛应用[27];而近年的多个研究结果也表明,结合位点及其侧翼序列的某些碱基含量具有一定的特征,如AU含量较高等[20,21];因此,加入核苷酸组成特征是有必要的。与结构特征和热力学特征一样,这里一共考虑了五个区域的核苷酸组成情况,即A、U、C、G在各个区域分别的含量。因此共有4*5=20个特征。
2.5基于二级结构特征
一般认为,miRNA要结合到靶位点,就必须使结合后所形成的二级结构变得更为稳定、结合自由能更低[28];根据这一原则,已经有数种miRNA靶位点预测算法得到开发,如前所述[16,17]。这一特征又可以分为两部分:其一为miRNA结合以前、靶位点及其两端侧翼序列所形成的二级结构的结构特征,即匹配个数、错配个数、G:C匹配个数、A:U匹配个数、G:U匹配个数及其他错配数占核苷酸总数的比例,共6个特征;其二为miRNA结合前后靶位点及其两端侧翼序列所形成的二级结构的结合自由能、以及结合前后自由能的变化,共3个特征。因此,此类特征共有9个。然后使用Vienna RNA Package中的RNAcofold[29,30]对miRNA结合前后的靶位点二级结构进行预测,并根据预测结果取得所需要的特征参数。
2.6基于模式特征
Miranda等人在2006年提出了一种基于模式(pattern)的miRNA靶位点预测方法rna22[18]。这种方法首先在大量miRNA序列中寻找其共有模式,尔后使用这些模式的反向互补模式再潜在靶基因序列中进行搜索,并将模式出现频率高的地方视为潜在靶位点,在通过热力学分析、碱基互补配对分析等对潜在靶位点进行进一步筛选,这一方法取得了不错的预测结果,说明模式搜索可以切实提高miRNA靶位点的预测精度,借鉴这一思路引入了基于模式特征。
Teiresias算法被用作发现大量miRNA中的不定长基序(motif,即模式pattern)。这些基序要求其长度至少包含L=4个核苷酸,其位点至少有30%是特异的(即W=12),且在所有miRNA中至少出现K=2次[18]。使用了实现该算法的网页服务(http://cbcsrv.watson.ibm.com/Tspd.html)进行模式的提取。
3.简化特征集选取
简化特征选取是在原来的特征集中选取一个子集,其中包含了最适合用于决策的属性特征,在有监督机器学习方法中,提高预测精度、减少运算时间、以及加深对问题本身的解释。
使用了Weka3[31]中的特征选取算法,基于特征集分别进行了特征选取;这些特征选取算法包括:卡方属性评价(Chi-Square Attribute Evaluation)、过滤属性评价(Filtered Attribute Evaluation)、增加比率属性评价(Gain RatioAttribute Evaluation)、信息增益属性评价(Information Gain AttributeEvaluation)、OneR属性评价(OneR Attribute Evaluation)、RelieF属性评价(RelieF Attribute Evaluation)、支持向量机属性评价(SVM AttributeEvaluation)、对称原理不对称属性评价Symmetrical Uncertainty(SU)AttributeEvaluation。每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集(见表1)。
表1.被选入简化特征集的64个特征。
4.结果评价
为了评价分类器的分类能力,使用了三种比较方式。第一种是受试者作业特征(ROC)分析[19],其结果曲线中的每个点表示了不同测试阈值下真阳性与假阳性的比值,可以展示所有可能的敏感性与特异性的平衡情况;通过比较ROC曲线下面积(AUC)即可实现不同分类器性能的比较:AUC越大,说明分类性能越高。第二种评价方式是综合成功率,即正确的分类数与样本总数的比值。第三种是二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率.
针对基于不同特征集构建的分类器,实现具体测试过程则设计了三种测试方法。第一种测试是对特征集进行十倍交叉检验,其结果可以通过ROC分析以及综合成功率进行比较。第二种测试是使用人的数据集作为训练集,以果蝇的数据集作为测试集进行测试;由于每一个测试集的样本都有一个固定的预测结果,因此除ROC分析和综合成功率以外,还可以使用二维混淆矩阵及真阳性率等比率进行结果的比较。第三种测试是使用果蝇的数据集作为训练集,对人的数据集进行测试;这种测试与第二种测试类似,只是将建立模型所使用的训练集和测试模型所使用的测试集调换,评价及结果的比较方法与第二种测试相同。
4.1特征集进行十倍交叉检验
使用特征集的十倍交叉检验对基于特征集的分类器的检验结果进行ROC分析(见图2),可以得到其AUC为0.9277(曲线2);相比之下,基于miTarget特征集的分类器的ROC分析所得到的AUC为0.9161(曲线3),略低于特征集的结果。可以看到基于特征集的分类器在高特异性区域的敏感性要略高于基于miTarget特征集的分类器,说明新特征对提高分类特异性应有一定作用。基于特征集的分类器在十倍交叉检验中获得了85.59%的综合成功率,而基于miTarget特征集的分类器则获得84.32%的综合成功率。这表明引入的新特征对于miRNA靶位点的预测确实有一定的正面作用。
4.2以人的数据集作为训练集,果蝇的数据集作为测试集
使用人的数据集作为训练集进行建模,再使用独立的果蝇数据集进行测试,是第二种检验分类器表现的方法。与基于特征集分类器的检验类似,本检验同样采用了ROC分析对分类器的表现进行评价(见图3)。对基于特征集的分类器(曲线2),其AUC为0.6386;相比之下,基于miTarget特征集的分类器的ROC分析(曲线3)所得AUC为0.6610,较前者的结果为佳。在这一组结果中,基于miTarget特征集的分类器在高特异性区域的敏感度更佳,而这与1.1中的结果并不一致;此外,可以发现两者AUC都远较1.1中的结果为差;这说明人的样本与果蝇的样本的各项特征有着相当大的物种差异。
基于特征集的分类器与基于miTarget特征集的分类器在对测试集的预测中同样取得了69.02%的综合成功率。为了进一步区分两者的预测情况,根据其结果分别作出了其二维混淆矩阵(表2)并计算得到了其真阳性率、假阳性率、真阴性率、假阴性率(表3)。
表2.以果蝇的数据集作为测试集,基于特征集(左表)和基于miTarget特征集(右表)的分类器的二维混淆矩阵。
表3.以果蝇的数据集作为测试集,基于特征集和基于miTarget特征集的分类器的真阳性率、假阳性率、真阴性率、假阴性率。
真阳性率 | 假阳性率 | 真阴性率 | 假阴性率 | |
基于特征集 | 0.8072 | 0.6333 | 0.3667 | 0.1928 |
基于miTarget特征集 | 0.8193 | 0.6667 | 0.3333 | 0.1807 |
由表看出,两种分类器之间的差别并不明显。由于基因组的庞大规模,控制miRNA靶位点预测的假阳性尤为重要。可以看出基于特征集的结果假阳性率略低,但还是超过60%。这是因为人的样本与果蝇的样本的各项特征有着相当大的物种差异,导致仅仅使用人的数据进行建模不能充分代表果蝇样本的情况。
4.3以果蝇的数据集作为训练集,人的数据集作为测试集
使用果蝇的数据集作为训练集进行建模,再使用独立的人的数据集进行测试,是第三种检验分类器表现的方法。对基于特征集的分类器,ROC分析(曲线2)所得AUC为0.6489;相比之下,基于miTarget特征集的分类器的ROC分析(曲线3)所得AUC为0.6904,与第二种检验方式一样较前者的结果为佳(如图4)。综合成功率方面,基于特征集的分类器为55.43%,基于miTarget特征集的分类器则为56.82%。通过其二维混淆矩阵(见表4)计算得到真阳性率、假阳性率、真阴性率、假阴性率(见表5),可以进一步比较两种特征集对预测结果的影响。
表4.以人数据集作为测试集,基于特征集(左表)和基于miTarget特征集(右表)的分类器的二维混淆矩阵。
表5.以人数据集作为测试集,基于特征集和基于miTarget特征集的分类器的真阳性率、假阳性率、真阴性率、假阴性率。
真阳性率 | 假阳性率 | 真阴性率 | 假阴性率 | |
基于特征集 | 1 | 0.9756 | 0.0244 | 0 |
基于miTarget特征集 | 0.9436 | 0.8780 | 0.1220 | 0.0564 |
由此可以发现基于miTarget特征集的分类器在跨物种预测中的表现相对稳定;这表明特征集相对于miTarget特征集的新增部分中至少有一部分特征的数值在不同样本中可能有较大的差异。
4.4基于简化特征集的分类器的测试结果
对于含有64个特征的基于简化特征集的分类器,本研究使用了与基于前两种特征集相同的方法进行了检验测试。首先使用了特征集的十倍交叉检验,得到了85.80%的综合成功率,较基于特征集的分类器以及基于miTarget特征集的分类器的综合成功率都为高;对其进行ROC分析取曲线(见图2曲线1)的AUC为0.9257,仅略低于基于特征集分类器表现、但依然高于基于miTarget特征集分类器的表现。这说明仅此一半特征已经包含了全部特征中的几乎全部信息,证明特征选取的结果是有效的。
若使用人的数据集作为训练集进行建模、再使用独立的果蝇数据集进行测试,基于简化特征集的分类器可以获得74.34%的在综合成功率,优于基于另外两种特征集的分类器的结果。而其ROC曲线分析(见图3曲线1)的AUC为0.7410,同样优于另外两种分类器;在高特异性区域,其敏感度的优势非常明显。其二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率见表6、表7。其特异度与基于miTarget特征集分类器持平而略低于基于特征集分类器,但敏感度较两者为高,这些都表明了特征选取的有效性。
表6.以果蝇的数据集作为测试集,基于简化特征集分类器的二维混淆矩阵。
表7.以果蝇的数据集作为测试集,基于简化特征集分类器的真阳性率、假阳性率、真阴性率、假阴性率。
真阳性率 | 假阳性率 | 真阴性率 | 假阴性率 | |
基于简化特征集 | 0.8915 | 0.6667 | 0.3333 | 0.1084 |
使用果蝇数据集作为训练集进行建模、再使用独立的人的样本进行测试,基于简化特征集的分类器取得了59.33%的综合成功率,同样较另外两种分类器要高。其ROC曲线(见图4)的AUC为0.7302,较基于特征集以及miTarget特征集的分类器性能有明显提升。其二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率(见表8、表9)也表明较基于另外两种特征集的分类器而言都有所改进。数值上还是低于20%,说明作为训练集的果蝇数据集的缺陷,是造成预测精度、特别是特异性低下的主要原因。
表8.以人数据集作为测试集,基于简化特征集分类器的二维混淆矩阵。
表9.以人数据集作为测试集,基于简化特征集分类器的真阳性率、假阳性率、真阴性率、假阴性率。
真阳性率 | 假阳性率 | 真阴性率 | 假阴性率 | |
基于简化特征集 | 0.9692 | 0.8536 | 0.1463 | 0.0308 |
基于简化特征集分类器的性能在各种测试中均要优于基于特征集分类器以及基于miTarget特征集分类器;这说明了特征选取是有效的。同时,与另外两种分类器一样,以某一物种的样本作为训练集对另一物种的样本进行测试所得到的结果,远较使用完全数据集进行交叉检验的结果要差;这也说明不同物种之间,其miRNA与靶位点相互作用的特征数值可能会有较大差异。
4.5与其他miRNA靶位点预测方法的比较
迄今为止,已有多种miRNA靶位点预测的软件被开发出来,其中具有重要影响力的如TargetScan[13,14]等。为了进一步评价本研究所得到的分类器的表现,在除去部分由靶位点定点突变产生的样本、部分跨物种样本以及在TargetScan中无记录的样本后,分别使用了TargetScanHuman和TargetScanFly对剩余的所有样本(共计402个样本,其中负样本130个,正样本272个)进行了测试。结果表明(见表10),使用TargetScan预测的综合成功率为64.93%,低于本研究所实现的分类器在十倍交叉检验中所达到的基于特征集(85.59%)、基于miTarget特征集(84.32%)和基于简化特征集(85.80%)。
表10.使用TargetScan对特征集进行检验的二维混淆矩阵。
计算得到TargetScan预测的真阳性率为0.5478,假阳性率为0.1385;在同等假阳性率的情况下,由ROC曲线可得知,所实现的分类器在特征集的十倍交叉检验中可以达到超过0.75的敏感度(真阳性率),优于TargetScan的预测结果。
附:中英文对照表
英文名称 | 中文名称 |
Complementarity | 互补配对 |
Confusion Matrix | 混淆矩阵 |
Cross validation | 交叉检验 |
False negative rate | 假阴性率 |
False positive rate | 假阳性率 |
Feature selection | 特征选取 |
Flanking sequence | 侧翼序列 |
Free energy | 自由能 |
Hyperplane | 超平面 |
Motif | 基序 |
Non-coding RNA | 非编码RNA |
Overall accurate rate | 综合成功率 |
Pattern | 模式 |
Position-based feature | 基于位置特征 |
英文名称 | 中文名称 |
Posttranscription regulation | 转录后调控 |
Secondary structure | 二级结构 |
Sensitivity | 敏感度 |
Structural feature | 结构特征 |
Specificity | 特异性 |
Support vector machine | 支持向量机 |
Target | 靶位点/靶标 |
Ten-fold cross validation | 十倍交叉检验 |
Test set | 测试集 |
Thermodynamic feature | 热力学特征 |
Training set | 训练集 |
True negative rate | 真阴性率 |
True positive rate | 真阳性率 |
Claims (2)
1.一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,包括如下步骤:
1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;
2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集;
3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;
4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。
2.如权利要求1所述的一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,所述的简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法步骤为:每一个特征在这一系列算法中都会有排名,每一特征在所有算法中的排名将被累加,得到该特征的总排名,总排名的数值越低,说明该特征在各种特征选取算法中普遍处于前面的位置,为好的特征;反之亦然,按照总排名从小到大进行重新排名后,总计128个特征的前面一半、即64个特征将被选上作为特征选取后的简化特征集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101552910A CN101710362B (zh) | 2009-12-10 | 2009-12-10 | 一种基于支持向量机的microRNA靶位点预测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101552910A CN101710362B (zh) | 2009-12-10 | 2009-12-10 | 一种基于支持向量机的microRNA靶位点预测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101710362A true CN101710362A (zh) | 2010-05-19 |
CN101710362B CN101710362B (zh) | 2011-07-20 |
Family
ID=42403149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101552910A Expired - Fee Related CN101710362B (zh) | 2009-12-10 | 2009-12-10 | 一种基于支持向量机的microRNA靶位点预测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101710362B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375840A (zh) * | 2010-08-19 | 2012-03-14 | 浙江中医药大学附属第一医院 | 一种基于自然语言处理系统的microRNA靶基因的筛选方法 |
CN104091216A (zh) * | 2014-07-29 | 2014-10-08 | 吉林大学 | 基于果蝇优化最小二乘支持向量机的交通信息预测方法 |
CN106599615A (zh) * | 2016-11-30 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种预测miRNA靶基因的序列特征分析方法 |
CN107105624A (zh) * | 2014-10-27 | 2017-08-29 | 先锋国际良种公司 | 改进的分子育种方法 |
CN108090327A (zh) * | 2017-12-20 | 2018-05-29 | 吉林大学 | 包含三维自由能的外源性miRNA调控靶基因预测方法 |
CN109256215A (zh) * | 2018-09-04 | 2019-01-22 | 华东交通大学 | 一种基于自回避随机游走的疾病关联miRNA预测方法及系统 |
CN110021361A (zh) * | 2018-06-27 | 2019-07-16 | 中山大学 | 一种基于卷积神经网的miRNA靶基因预测方法 |
CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
CN111951889A (zh) * | 2020-08-18 | 2020-11-17 | 安徽农业大学 | 一种rna序列中m5c位点的识别预测方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1228453C (zh) * | 2002-12-31 | 2005-11-23 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种基于芯片的反义寡核苷酸筛选方法及其用途 |
WO2006044322A2 (en) * | 2004-10-12 | 2006-04-27 | The Rockefeller University | Micrornas |
CN100588717C (zh) * | 2007-03-21 | 2010-02-10 | 中国医学科学院阜外心血管病医院 | 生长分化因子15基因多态位点在预测高血压继发左心室肥厚中的用途 |
-
2009
- 2009-12-10 CN CN2009101552910A patent/CN101710362B/zh not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375840A (zh) * | 2010-08-19 | 2012-03-14 | 浙江中医药大学附属第一医院 | 一种基于自然语言处理系统的microRNA靶基因的筛选方法 |
CN104091216A (zh) * | 2014-07-29 | 2014-10-08 | 吉林大学 | 基于果蝇优化最小二乘支持向量机的交通信息预测方法 |
US11985930B2 (en) | 2014-10-27 | 2024-05-21 | Pioneer Hi-Bred International, Inc. | Molecular breeding methods |
CN107105624A (zh) * | 2014-10-27 | 2017-08-29 | 先锋国际良种公司 | 改进的分子育种方法 |
CN106599615B (zh) * | 2016-11-30 | 2019-04-05 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种预测miRNA靶基因的序列特征分析方法 |
CN106599615A (zh) * | 2016-11-30 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种预测miRNA靶基因的序列特征分析方法 |
CN108090327A (zh) * | 2017-12-20 | 2018-05-29 | 吉林大学 | 包含三维自由能的外源性miRNA调控靶基因预测方法 |
CN110021361A (zh) * | 2018-06-27 | 2019-07-16 | 中山大学 | 一种基于卷积神经网的miRNA靶基因预测方法 |
CN110021361B (zh) * | 2018-06-27 | 2023-04-07 | 中山大学 | 一种基于卷积神经网的miRNA靶基因预测方法 |
CN109256215A (zh) * | 2018-09-04 | 2019-01-22 | 华东交通大学 | 一种基于自回避随机游走的疾病关联miRNA预测方法及系统 |
CN109256215B (zh) * | 2018-09-04 | 2021-04-06 | 华东交通大学 | 一种基于自回避随机游走的疾病关联miRNA预测方法及系统 |
CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
CN111951889A (zh) * | 2020-08-18 | 2020-11-17 | 安徽农业大学 | 一种rna序列中m5c位点的识别预测方法及系统 |
CN111951889B (zh) * | 2020-08-18 | 2023-12-22 | 安徽农业大学 | 一种rna序列中m5c位点的识别预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101710362B (zh) | 2011-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101710362B (zh) | 一种基于支持向量机的microRNA靶位点预测的方法 | |
Xue et al. | Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine | |
Kim et al. | miTarget: microRNA target gene prediction using a support vector machine | |
Mendes et al. | Current tools for the identification of miRNA genes and their targets | |
Wang et al. | Predicting human microRNA precursors based on an optimized feature subset generated by GA–SVM | |
Mendoza et al. | RFMirTarget: predicting human microRNA target genes with a random forest classifier | |
Russo et al. | Interplay between long noncoding RNAs and MicroRNAs in cancer | |
Dai et al. | Computational methods for the identification of microRNA targets | |
Kleftogiannis et al. | YamiPred: A novel evolutionary method for predicting pre-miRNAs and selecting relevant features | |
Xuan et al. | Genetic algorithm-based efficient feature selection for classification of pre-miRNAs | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
Yao et al. | plantMirP: an efficient computational program for the prediction of plant pre-miRNA by incorporating knowledge-based energy features | |
Hardcastle et al. | Towards annotating the plant epigenome: the Arabidopsis thaliana small RNA locus map | |
Rajendiran et al. | Computational approaches and related tools to identify MicroRNAs in a species: A Bird’s Eye View | |
Sualp et al. | Using network context as a filter for miRNA target prediction | |
Song et al. | Predicting miRNA-mediated gene silencing mode based on miRNA-target duplex features | |
Omer et al. | microRNAs: role in leukemia and their computational perspective | |
Kim et al. | Evolving hypernetwork classifiers for microRNA expression profile analysis | |
Koh et al. | miRHunter: a tool for predicting microRNA precursors based on combined computational method | |
Oulas et al. | Finding cancer-associated miRNAs: methods and tools | |
German et al. | Microarray classification from several two-gene expression comparisons | |
Wang | Computational prediction of microRNA targets | |
US8214155B2 (en) | Methods for analysis of microRNA | |
Tang et al. | Systematic analysis revealed better performance of random forest algorithm coupled with complex network features in predicting microRNA precursors | |
Shakiba et al. | MicroRNA identification using linear dimensionality reduction with explicit feature mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110720 Termination date: 20131210 |