CN109390037A - 基于SVM-AdaBoost的成熟miRNA全位点识别方法 - Google Patents
基于SVM-AdaBoost的成熟miRNA全位点识别方法 Download PDFInfo
- Publication number
- CN109390037A CN109390037A CN201811166574.0A CN201811166574A CN109390037A CN 109390037 A CN109390037 A CN 109390037A CN 201811166574 A CN201811166574 A CN 201811166574A CN 109390037 A CN109390037 A CN 109390037A
- Authority
- CN
- China
- Prior art keywords
- sequence
- mature mirna
- mirna
- svm
- adaboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 108091070501 miRNA Proteins 0.000 title claims abstract description 161
- 239000002679 microRNA Substances 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 51
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 41
- 239000002773 nucleotide Substances 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 108091030146 MiRBase Proteins 0.000 claims abstract description 12
- 238000010008 shearing Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 25
- 101000907904 Homo sapiens Endoribonuclease Dicer Proteins 0.000 claims description 17
- 102100023387 Endoribonuclease Dicer Human genes 0.000 claims description 16
- 230000000977 initiatory effect Effects 0.000 claims description 5
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000002243 precursor Substances 0.000 claims description 3
- 229930024421 Adenine Natural products 0.000 claims description 2
- 108010057163 Ribonuclease III Proteins 0.000 claims description 2
- 102000003661 Ribonuclease III Human genes 0.000 claims description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 2
- 229960000643 adenine Drugs 0.000 claims description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical group N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 2
- 229940104302 cytosine Drugs 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- IRSCQMHQWWYFCW-UHFFFAOYSA-N ganciclovir Chemical compound O=C1NC(N)=NC2=C1N=CN2COC(CO)CO IRSCQMHQWWYFCW-UHFFFAOYSA-N 0.000 claims description 2
- 229960002963 ganciclovir Drugs 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 229910044991 metal oxide Inorganic materials 0.000 claims description 2
- 150000004706 metal oxides Chemical class 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 229940035893 uracil Drugs 0.000 claims description 2
- 101100144701 Mus musculus Drosha gene Proteins 0.000 claims 6
- 108091028043 Nucleic acid sequence Proteins 0.000 claims 2
- 108090000790 Enzymes Proteins 0.000 claims 1
- 102000004190 Enzymes Human genes 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 230000035800 maturation Effects 0.000 abstract 2
- 230000000052 comparative effect Effects 0.000 abstract 1
- 238000012706 support-vector machine Methods 0.000 description 13
- 238000011160 research Methods 0.000 description 9
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000010276 construction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011056 performance test Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 208000030507 AIDS Diseases 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010007572 Cardiac hypertrophy Diseases 0.000 description 1
- 208000006029 Cardiomegaly Diseases 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 108010093099 Endoribonucleases Proteins 0.000 description 1
- 102000002494 Endoribonucleases Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 208000001894 Nasopharyngeal Neoplasms Diseases 0.000 description 1
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 208000018737 Parkinson disease Diseases 0.000 description 1
- 241000139306 Platt Species 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 206010039966 Senile dementia Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- -1 i.e. Proteins 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
基于SVM‑AdaBoost的成熟miRNA全位点识别方法,属于生物信息学领域。现有的单一分类器识别成熟miRNA问题中存在的精度不高和类不平衡问题。一种基于SVM‑AdaBoost的成熟miRNA全位点识别方法,选取miRBase数据库中pre‑miRNA序列,并在选取的序列上建立训练数据集和测试集;提取基于结构化序列的成熟miRNA剪切位点生物特征;通过信息增益特征选择算法获得新的特征集;构建基于概率的可调参数SVM分类器模型;构建基于AdaBoost算法的集成分类器模型;训练miRNA剪切全位点分类器。本发明提高了识别精度,并降低了平均核苷酸偏移数;且通过同一测试集,对多个成熟miRNA识别方法对比分析,本发明提出的方法分类性能更高。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种miRNA全位点识别方法。
背景技术
MiRNA是一类长度大约为20-24nt的高度保守的内源性小分子RNA,在转录后水平上调控基因表达。miRNA通过与mRNA靶向结合,抑制蛋白质的合成,实现对基因的表 达控制。据估计,miRNA调控了人类60%的转录过程。MiRNA通过序列特异性的RNA 基因沉默作用调节参与了多种生物过程。现有研究已发现miRNA参与了细胞增值发育, 组织分化,细胞循环和细胞凋亡等。比如miRNA与植物胚芽和叶的发育、人和鼠的细胞 发育、神经细胞的生长发育和神经干细胞向神经细胞的转化等密切相关;miRNA与一些 疾病有密切关系,如精神分裂症、帕金森综合征和其他神经异常症状、白血病、糖尿病、 艾滋病、心肌肥大和老年痴呆等常见疾病,更重要的是随着进一步研究发现,超过50% 的人类miRNA被定位于与癌症相关的基因片断区域,其中包括乳腺癌、肺癌、直肠癌、 皮肤癌、鼻咽癌、卵巢癌以及神经细胞癌等,最近研究也说明miRNA在药物作用后体内 分子水平起到重要调节作用。综上所述,miRNA在人类疾病的诊断、治疗、预后以及评 估疗效方面扮演着重要角色。
传统的cDNA克隆测序方法严重依赖于引物设计,下一代测序(NGS)费用高, miRNA样本的降解也是个问题。重要的是,miRNA的表达是时间和空间特异的,miRNA 的表达受组织和环境条件影响显著,所以实验方法难以发现这类miRNA。所以,在生物 信息学的领域,采用计算的方法来识别miRNA也就应运而生。在计算方法对miRNA进 行预测,筛选高可信的miRNA候选基因,再通过实验方法进行验证,减少了实验方法在 时间和费用上的浪费。通过严格过滤,高可信的miRNA也可作为下一步miRNA相关研 究,比如靶基因预测,生物通路挖掘等研究。
目前,MiR2Disease数据库已收录了346个人类miRNA和132种人类疾病以及它们之间涉及的2,884条miRNA与疾病之间的关联信息。miRCancer在超过26,000篇论 文中提取了236个miRNA和79个癌症及它们之间878个相互之间关联关系。HMDD也 记录了成千上万的miRNA与疾病的关联关系。越来越多的研究表明miRNA还有很多功 能尚未被发现,miRNA在生物学,疾病学和药物学等诸多领域起着重要的调节作用,具 有重要的研究意义,挖掘miRNA的功能是生物信息学一个研究重点。MiRNA的识别及 其功能预测的研究能够揭示一系列生命过程的分子机制,有助于疾病的诊断和治疗。
发明内容
本发明的目的是为了解决现有的单一分类器识别成熟miRNA问题中存在的精度不高 和类不平衡问题,而提出一种基于SVM-AdaBoost的成熟miRNA全位点识别方法。
一种基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通过以下步 骤实现:
步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;
步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:
步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;
步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;
步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;
步骤二四、预测构建的序列的二级结构及自由能;
步骤二五、在构建的序列上提取特征集;
步骤三、通过信息增益特征选择算法获得新的特征集;
步骤四、构建基于概率的可调参数SVM分类器模型;
步骤五、构建基于AdaBoost算法的集成分类器模型;
步骤六、训练miRNA剪切全位点分类器。
本发明的有益效果为:
1.本发明通过分析单一分类器识别成熟miRNA问题中存在的精度不高和类不平衡问 题,提出基于概率的可调参数AdaBoost-SVM算法,在成熟miRNA识别问题中,提高了 识别精度,并降低了平均核苷酸偏移数;
2.针对成熟miRNA全部位点识别,本发明提出基于AdaBoost-OPPKSVM算法的成熟miRNA全位点识别方法,通过同一测试集,对多个成熟miRNA识别方法对比分析,本 发明提出的方法分类性能更高。
3.其中本发明与MiRPara、MatureByes、MiRdup和MatPred相比,第一候选miRNA 预测准确率上,无偏差预测准确率比现有方法预测率高出29%;在偏移核苷酸5nt偏差范 围内,正确识别准确率达到100%,高于现有其他预测方法。在平均位置偏移上,偏移量 减少一半。本发明采用了AdaBoost-SVM算法比只采用SVM算法的MatPred方法在第一 候选miRNA预测准确率上、5nt偏差识别准确率和平均位置偏移上都有进一步提高。
附图说明
图1为本发明提出的基于SVM-AdaBoost的成熟miRNA全位点识别方法的流程图。
图2为本发明方法与成熟miRNA识别方法MiRPara的第一个候选者位置偏移识别精度 对比图;
图3为本发明方法与成熟miRNA识别方法MatureByes的第一个候选者位置偏移识别 精度对比图;
图4为本发明方法与成熟miRNA识别方法MiRdup的第一个候选者位置偏移识别精度 对比图;
图5为本发明方法与成熟miRNA识别方法MatPred的第一个候选者位置偏移识别精度 对比图。
具体实施方式
具体实施方式一:
本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通 过以下步骤实现:
步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;
步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:
步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;
步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;
步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;
步骤二四、预测构建的序列的二级结构及自由能;
步骤二五、在构建的序列上提取特征集;
步骤三、通过信息增益特征选择算法获得新的特征集;
步骤四、构建基于概率的可调参数SVM分类器模型;
步骤五、构建基于AdaBoost算法的集成分类器模型;
步骤六、训练miRNA剪切全位点分类器。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序列上 建立训练数据集和测试集的过程为,
选取miRBase数据库中pre-miRNA序列,去除冗余序列和多分枝序列后,在剩余序列中分别建立针对3’端的训练集和测试集以及5’端的训练集和测试集;其中,pre-miRNA的含义为前体miRNA;
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤一所述的选取miRBase数据库中pre-miRNA序列,为人pre-miRNA 序列。
具体实施方式四:
与具体实施方式二或三不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序 列上建立训练数据集和测试集的过程为,选取miRBase V20数据库中人1872条 pre-miRNA序列,去除冗余序列和多分枝序列后剩余1791条pre-miRNA序列,其中,5’ 端序列中含有成熟miRNA的有461条,3’端序列中含有成熟miRNA的有458条,而3’ 端和5’端序列中都含有成熟miRNA的有872条;分别针对3’端和5’端随机选取100个序 列构建测试集1,选取miRBaseV20比miRBase V19新增的100条序列作为构建测试集2 的序列。
具体实施方式五:
与具体实施方式四不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二一所述的基于生物特征分析,定义成熟miRNA剪切位点生物特征的 过程为,基于生物特征分析,根据存在的直接与位置缺省相关的自由能变化和内环,定义 针对这些位置缺省的基于结构化序列成熟miRNA剪切位点生物特征,包括:
5个热力学特征:-9nt到Dicer位点的自由能,表示为MFE1;-5nt到Dicer位点的自由能,表示为MFE2;-3nt到Dicer位点的自由能,表示为MFE3;Drosha位点到Dicer 位点的自由能,表示为MFE4;Drosha位点到Dicer下游3nt位点的自由能,表示为MFE5; 其中,nt表示核苷酸,是RNA的基本单位;-表示以成熟miRNA第一个核苷酸作为坐标 刻度0,左侧核苷酸位置为-,右侧核苷酸位置为+;Drosha和Dicer分别表示Drosha酶和 Dicer酶,二者均为核糖核酸内切酶,属于RNase III家族中特异识别双链RNA的一员, 即双链RNA特异性核酸内切酶,它们在miRNA生物合成过程中介导的前体miRNA及成 熟体miRNA产生。
位置特异性特征:从Drosha的起始位点左侧9nt到Dicer右侧3nt双链的每一位置核 苷酸与结构组成的特征,将配对的双链核苷酸定义为M,将不配对的双链核苷酸定义为N, 具体特征为:AM、CM、GM、UM、AN、CN、GN、UN、-N;其中,A表示腺嘌呤adenine, C表示胞嘧啶cytosine,G表示鸟嘌呤ganciclovir,U表示尿嘧啶uracil;
核苷酸配对特征:从Drosha起始位点到Dicer位点的每一位置核苷酸对,具体特征为:AA、AC、AG、AU、CA、CC、CG、CU、GA、GC、GG、GU、UA、 UC、UG、UU、A-、C-、G-、U-、-A、–C、–G、–U;
位置缺省数量:+3nt到+8nt序列中-位置缺省的数量;+9nt到+12nt序列中-位置缺省 的数量;-2nt-2nt序列中-位置缺省的数量;
长度特征:miRNA起始位点到终环距离;
核苷酸特征:miRNA第一个核苷酸类别;miRNA序列单核苷酸频率;miRNA第一 个核苷酸配对。
具体实施方式六:
与具体实施方式五不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二二所述的定义成熟miRNA双链,以及成熟miRNA双链对应的位点 的过程为,定义从5’端成熟miRNA起始位点开始的22nt核苷酸的窗口为成熟miRNA双 链,对应的4个位点分别定义为:P5_5、P5_3、P3_5和P3_3;其中,所述的22nt核苷酸 中不包括具有缺省位置信息-的核苷酸。
具体实施方式七:
与具体实施方式一、二、五或六不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二三所述的在定义的成熟miRNA双链上构建序列,用于 提取特征的过程为,将P5_5左侧9nt核苷酸序列合并成熟miRNA序列定义为-9扩展序 列,同理,将P5_5左侧5nt、3nt和右侧3nt核苷酸序列合并成熟miRNA序列分别定义 为-5扩展序列、-3扩展序列和+3扩展序列,将P5_5左侧4nt和右侧4nt合并成熟miRNA 序列分别定义为-4扩展序列和+4扩展序列。
具体实施方式八:
与具体实施方式七不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤二四所述的预测构建的序列的二级结构及自由能的过程为,为上一步构建的不同长度的序列加上相同自定义的终环序列,之所以如此定义,原因在于排除终环对序列自由能特征的影响,同时为了取得精确的结构特征,将序列延长,因为截取序列预测的结构在初始端与原序列会产生差异;在预测不同长度序列的自由能特征时,因为pre-miRNA序列不包含缺省信息“-”,所以为了还原序列自由能特征,然后将成熟miRNA 双链序列中缺省信息去掉,进行自由能特征的预测。
具体实施方式九:
与具体实施方式一、二、五、六或八不同的是,本实施方式的基于SVM-AdaBoost 的成熟miRNA全位点识别方法,步骤二五所述的在构建的序列基础上提取特征集的过程 为,在生物特征提取过程中,因为成熟miRNA双链这一部分的缺省信息“-”的数量是变 量,所以我们将这一部分序列特征定义为25nt长,如果成熟miRNA双链序列长度小于 25nt,则生物特征定义为0;如果成熟miRNA双链序列长度超过25nt,则截取长度为25nt 成熟miRNA双链序列上的生物特征。
具体实施方式十:
与具体实施方式九不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤三所述的通过信息增益特征选择算法获得新的特征集的过程为,分别利用信息增益(IG)、卡方统计量(CHI)和Relief三种特征选择算法进行特征选择的性能 测试,挑选出最优特征选择算法:
(1)信息增益算法(IG)进行特征选择的性能测试过程为,通过计算特征是否采用引起的信息熵的差来选取特征,定义任意类别Ci,特征t的信息增益定义为:
其中,表示特征t不存在,特征t的信息增益定义为:
IG(t)=∑iIG(t,Ci)
(2)卡方统计量(CHI)进行特征选择的性能测试过程为,通过计算表征变量间的相关性来选取特征,CHI的统计值越大,则表示该特征越重要。对于任意类别Ci的特征t的CHI值为:
(3)Relief算法
Relief算法通过计算样本之间的距离,按照权重选择近邻。设X={X1,X2,...,Xn}是样 本集,Xi=[Xi1,Xi2,...XiN]T为第i个样本的N个特征,样本在各特征上的权值定义为:
其中,H(x)和M(x)为与X同类和非同类最近邻点,m为随机选取的样本,diff 定义为:
最终方法的选择基于弱分类器评价指标的性能确定。
具体实施方式十一:
与具体实施方式一、二、五、六、八或十不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤三所述的通过信息增益特征选择算法获得新的特征 集的过程为:
首先,设定特征选择条件为:计算特征是否采用引起信息熵的差;然后,定义对于任 意类别Ci,特征t的信息增益为:首先,设定特征选择条件为:计算特征是否采用引起的信息熵的差;然后,定义对于任意类别Ci的特征t的信息增益为:
其中,P表示概率,表示特征t不存在,特征t的信息增益定义为:
IG(t)=∑iIG(t,Ci)。
具体实施方式十二:
与具体实施方式十一不同的是,本实施方式的基于SVM-AdaBoost的成熟miRNA全位点识别方法,步骤四所述的构建基于概率的可调参数SVM分类器模型的过程为,
步骤四一、定义训练样本T,T={(x1,ys),(x2,ys),......,(xp,ys)},其中,xi为样本的特 征值,ys∈{1,-1},样本个数为P,P个样本中包括a个正样本Pa和b个反样本Pb;设 每个样本共有M个特征,类函数定义如下:
其中,xp为某一样本的一个特征向量,x为预测点,αi是一个可训练的系数, ,0≤αi≤C,C是惩罚参数;<x,xp>是x和xp的内积;
步骤四二、选用径向-基函数(RBF)作为核函数,计算内积<x,xi>,它解决原始 空间的数据映射到高维空间线性不可分问题,定义如下:
其中,δ是常规控制参数,决定特征的权重;
步骤四三、传统的SVM(Support Vector Machine)的输出为二值输出,每一样本为真成熟miRNA类别问题或假成熟miRNA类别问题中的一类,Wahba和Platt[125]是最早 对SVM概率输出做出研究,分别将真成熟miRNA类别问题和假成熟miRNA类别问题定 义对于为1和-1,对于假成熟miRNA类别问题,即-1类问题中任意样本χ的后验概率为
Pi=P(y=i|χ),其中i=1,-1 (2-8)
则样本属于两个类别的概率和为1,因此,式(2-8)的约束条件为:
rij≈P(y=i|y=i或j,λ) (2-10)
式中,rij为两类问题中概率估计,根据式(2-9)和式(2-10)提出如下求解方法:
式(2-11)推算为:
其中:
矩阵Q为半正定矩阵,因此式(2-11)为具有线性约束的凸二次规划问题;如果P 是该二次规划问题最优解,当且仅当满足以下条件:
则式(2-11)的解可以通过线性方程组求解;
步骤四四、采用上述方法,在训练过程中,对规划因子C和高斯宽度g两个参数进行寻优;其中,对于规划因子,如果C→∞,则表明分类规则满足全部约束条件,这样会 降低泛化能力,提高训练复杂度,所以,C取值范围尽量小以满足分类器泛化性能;对于 参数g,采用grid.py软件的寻优算法进行调节,具体寻优训练流程如下:
基于概率的可调参数SVM分类器算法(OPPSVM)伪代码如下:
算法:基于概率的可调参数SVM分类器算法(OPPSVM)
输入:训练集,训练子集
输出:训练集样本类别
处理流程:
训练子集以提取特征集;之后进行归一化SVM格式;之后进行参数寻优:规划因子C和高斯宽度g寻优;之后训练基于概率模式的SVM分类器;之后采用训练的分类器, 对训练集每一条pre-miRNA内短序列进行分类,得到属于不同类别的概率;之后将 pre-miRNA内短序列根据概率排序,将为真的概率的最大者定义为1类别,将其他序列 定义为-1类别。
具体实施方式十三:
与具体实施方式一、二、五、六、八、十或十二不同的是,本实施方式的基于 SVM-AdaBoost的成熟miRNA全位点识别方法,步骤五所述的构建基于AdaBoost算法的 集成分类器模型的过程为,
步骤五一,设训练集样本S={(xi,yi)|i=1,2...n},其中xi∈X为成熟miRNA样本,yi∈Y={+1,-1}为样本类别;
步骤五二,设定训练集S在第t轮训练中样本xi权值为Dt(i),其中,第一轮样本权值初始化为:
D1=(P11,P12...P1i...,P1N),P11=P12=…=P1N=1/N (3-1)
步骤五三,选定弱分类器。我们利用基于概率的参数可调SVM作为弱分类器,在训练过程中,通过参数调整,选定最优分类面,对每一条pre-miRNA给定每一个样本为真 成熟miRNA概率,选取概率最大候选者类别为+1,其他候选者类别为-1,即分类器 Gt=(X):X→{-1,1};
步骤五四,设定训练轮数T;
步骤五五,定义训练集S的权值分布:
Dt={Pt1,Pt2,...,PtN} (3-2)
其中,Dt是由每个样本权重组成向量集,从训练集S中,根据样本权重构建训练子集 St;
步骤五六,计算训练子集错分率,假定Gt(X):X→Y,样本错分率:
步骤五七,计算样本及分类器权重,分类器权重为:
样本集权重更新为:
Dt+1={Pt+1,1,Pt+1,2,...,Pt+1,i…,Pt+1,N} (3-5)
式(3-5)中,
式(3-6)中,zt定义为下一轮训练集权重,是一个一般化常量,定义为:
步骤五八,根据各弱分类器Gt(X)及其权重集成分类器,定义为:
实施例1:
将miRNA全位点的识别分为5’和3’成熟miRNA的起始和终止位点,即P5_5、P5_3、P3_5和P3_3四个位点分类器构建。如上所述5’端成熟miRNA起始位点P5_5的识别, 分类器构建大体可以分为:训练数据集构建、提取特征集、特征集选择、类不平衡问题处 理和分类器训练几个环节,而对P5_3、P3_5和P3_3三个位点分类器构建的主要区别在 于训练数据集的构建,P3_5采用5’端数据集,而P5_3和P3_3采用3’数据集,对于不同 位点分类器在构建训练集正反例数据时以该位点为核心。
对于P5_3位点识别分类器训练集构建,定义5’端成熟miRNA的终止位点为P5_3,该位点向前的第22nt核苷酸定义为P5_5,则P5_5和P5_3之间的序列相对于3’端向左偏 移2nt序列对应的两个位点为P3_3和P3_5,则P5_5和P5_3之间的序列为正例数据,而 该序列偏移1nt距离的序列作为反例数据。同理构建P3_5和P3_3两个位点识别分类器训 练集。
通过对已报道的pre-miRNA特征,分析pre-miRNA序列各组成部分的结构特征,进而选择成熟miRNA区别于其他部分的特征。基于上述分析,共选择了115个特征如表1 所示:
表1成熟miRNA识别特征
考察了三种特征选择算法:信息增益算法、卡方统计和Relief方法。首先采用全部特 征集训练了分类器,得到第一个候选者位置偏移预测准确率;然后,分别采用这三种算法 对特征集进行筛选。信息增益方法根据信息增益对特征进行排序,并给出信息增益值,卡 方统计方法给出度量特征和类别之间的相关性度量值,relief方法则根据样本权重值对特 征进行排序,并给出代表与所属类别相关的权重值;接下来,在这些算法基础上,根据算 法结果中阈值,采用删除贡献率为“0”或者数值较低的特征的方法选取一定数量的特征值,然后,在所选特征基础上分析分类器性能,最终确定特征选择算法和特征集。全部特 征集下的分类器第一个候选者位置偏移预测准确率如下:
表2全部特征集下第一个候选者位置偏移预测准确率
几种特征选择算法所选特征子集构建的分类器分类性能如下:
表3基于卡方方法第一个候选者位置偏移预测准确率
表4基于relief第一个候选者位置偏移预测准确率
从表3和表4可以看出,采用全部特征集下的分类器性能相比,卡方方法和relief算 法选择的特征子集下的分类器性能,以测试集1为例,第一个候选者成熟miRNA起始位置无偏移预测准确率分别为24%,12%和13%,采用全部特征集情况下比卡方计算和relief 算法分别高出12%和11%;而偏移5nt范围内总预测准确率分别为79%,71%和66%。因 为这两种算法在所选两种特征子集上性能较差,所以在选用特征子集个数上不再继续进行 筛选。
从表5可以看出,信息增益方法取得了较高的预测性能,当特征子集选择110个特征 时,取得了最高预测精度。与采用全部特征集方法相比,两个测试集第一个候选者位置偏 移预测准确率分别为30%和59%,提高了6%和11%;而在偏移5nt范围内总预测准确率上也分别提高了11%和5%,并在测试集2中实现100%预测精度。
表5基于信息增益算法第一个候选者位置偏移预测准确率
以训练集1为例,选择了几个可以应用的成熟miRNA识别方法:MiRPara、MatureBayes和MiRdup与MatPred进行比较,如图2,本发明与MiRPara、MatureByes、MiRdup和MatPred相比,第一候选miRNA预测准确率上,无偏差预测准确率分别为4%、 9%和26%、30%和33%,本发明提出的方法分别高出另外三种方法29%、24%、7%和3%; 在偏移核苷酸5nt偏差范围内,正确识别准确率分别为37%、84%、81%、90%和100%, 本专利高于其他三种方法。另外,在平均位置偏移上分别为5.43nt、4.65nt、2.67nt、2.45nt 和2.05nt。从结果可以看出,采用了AdaBoost-SVM算法比只采用SVM算法的MatPred 方法在第一候选miRNA预测准确率上、5nt偏差识别准确率和平均位置偏移上都有进一 步提高。综上所述,本专利在各项指标上显著优于其他方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术 人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发 明所附的权利要求的保护范围。
Claims (10)
1.一种基于SVM-AdaBoost的成熟miRNA全位点识别方法,所述的识别方法通过以下步骤实现:
步骤一、选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集;
步骤二、提取基于结构化序列的成熟miRNA剪切位点生物特征:
步骤二一、基于生物特征分析,定义成熟miRNA剪切位点生物特征;
步骤二二、定义成熟miRNA双链,以及成熟miRNA双链对应的位点;
步骤二三、在定义的成熟miRNA双链上构建序列,用于提取特征;
步骤二四、预测构建的序列的二级结构及自由能;
步骤二五、在构建的序列上提取特征集;
步骤三、通过信息增益特征选择算法获得新的特征集;
步骤四、构建基于概率的可调参数SVM分类器模型;
步骤五、构建基于AdaBoost算法的集成分类器模型;
步骤六、训练miRNA剪切全位点分类器。
2.根据权利要求1所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤一所述的选取miRBase数据库中pre-miRNA序列,并在选取的序列上建立训练数据集和测试集的过程为,选取miRBase数据库中pre-miRNA序列,去除冗余序列和多分枝序列后,在剩余序列中分别建立针对3’端的训练集和测试集以及5’端的训练集和测试集;其中,pre-miRNA的含义为前体miRNA。
3.根据权利要求1或2所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二一所述的基于生物特征分析,定义成熟miRNA剪切位点生物特征的过程为,基于生物特征分析,根据与位置缺省相关的自由能变化和内环,定义针对这些位置缺省的基于结构化序列成熟miRNA剪切位点生物特征,包括:
5个热力学特征:-9nt到Dicer位点的自由能,表示为MFE1;-5nt到Dicer位点的自由能,表示为MFE2;-3nt到Dicer位点的自由能,表示为MFE3;Drosha位点到Dicer位点的自由能,表示为MFE4;Drosha位点到Dicer下游3nt位点的自由能,表示为MFE5;其中,nt表示核苷酸,是RNA的基本单位;-表示以成熟miRNA第一个核苷酸作为坐标刻度0,刻度0左侧核苷酸位置为-,刻度0右侧核苷酸位置为+;Drosha和Dicer分别表示Drosha酶和Dicer酶;
位置特异性特征:从Drosha的起始位点左侧9nt到Dicer右侧3nt双链的每一位置核苷酸与结构组成的特征,将配对的双链核苷酸定义为M,将不配对的双链核苷酸定义为N,具体特征为:AM、CM、GM、UM、AN、CN、GN、UN、-N;其中,A表示腺嘌呤adenine,C表示胞嘧啶cytosine,G表示鸟嘌呤ganciclovir,U表示尿嘧啶uracil;-表示位置缺省;
核苷酸配对特征:从Drosha起始位点到Dicer位点的每一位置核苷酸对,具体特征为:AA、AC、AG、AU、CA、CC、CG、CU、GA、GC、GG、GU、UA、UC、UG、UU、A-、C-、G-、U-、-A、–C、–G、–U;
位置缺省数量:+3nt到+8nt序列中-位置缺省的数量;+9nt到+12nt序列中-位置缺省的数量;-2nt-2nt序列中-位置缺省的数量;
长度特征:miRNA起始位点到终环距离;
核苷酸特征:miRNA第一个核苷酸类别;miRNA序列单核苷酸频率;miRNA第一个核苷酸配对。
4.根据权利要求3所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二二所述的定义成熟miRNA双链,以及成熟miRNA双链对应的位点的过程为,定义从5’端成熟miRNA起始位点开始的22nt核苷酸的窗口为成熟miRNA双链,对应的4个位点分别定义为:P5_5、P5_3、P3_5和P3_3;其中,所述的22nt核苷酸中不包括具有缺省位置信息的核苷酸。
5.根据权利要求1、2或4所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二三所述的在定义的成熟miRNA双链上构建序列,用于提取特征的过程为,将P5_5左侧9nt核苷酸序列合并成熟miRNA序列定义为-9扩展序列,同理,将P5_5左侧5nt、3nt和右侧3nt核苷酸序列合并成熟miRNA序列分别定义为-5扩展序列、-3扩展序列和+3扩展序列,将P5_5左侧4nt和右侧4nt合并成熟miRNA序列分别定义为-4扩展序列和+4扩展序列。
6.根据权利要求5所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二四所述的预测构建的序列的二级结构及自由能的过程为,为上一步构建的不同长度的序列加上相同自定义的终环序列,将序列延长,然后将成熟miRNA双链序列中位置缺省去掉,进行自由能特征的预测。
7.根据权利要求1、2、4或6所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤二五所述的在构建的序列基础上提取特征集的过程为,在生物特征提取过程中,如果成熟miRNA双链序列长度小于25nt,则生物特征定义为0;如果成熟miRNA双链序列长度超过25nt,则截取长度为25nt成熟miRNA双链序列上的生物特征。
8.根据权利要求7所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤三所述的通过信息增益特征选择算法获得新的特征集的过程为:
首先,设定特征选择条件为:计算特征是否采用引起信息熵的差;然后,定义对于任意类别Ci的特征t的信息增益为:
其中,P表示概率,表示特征t不存在,特征t的信息增益定义为:
IG(t)=∑iIG(t,Ci)。
9.根据权利要求1、2、4、6或8所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤四所述的构建基于概率的可调参数SVM分类器模型的过程为:
步骤四一、定义训练样本T,T={(x1,ys),(x2,ys),......,(xp,ys)},其中,xi为样本的特征值,ys∈{1,-1},样本个数为P,P个样本中包括a个正样本Pa和b个反样本Pb;设每个样本共有M个特征,类函数定义如下:
其中,xp为某一样本的一个特征向量,x为预测点,αi是一个可训练的系数,,0≤αi≤C,C是惩罚参数;<x,xp>是x和xp的内积;
步骤四二、选用径向-基函数作为核函数,计算内积<x,xi>,定义如下:
其中,δ是常规控制参数,决定特征的权重;
步骤四三、SVM的输出为二值输出,每一样本为真成熟miRNA类别问题或假成熟miRNA类别问题中的一类,分别将真成熟miRNA类别问题和假成熟miRNA类别问题定义对于为1和-1,对于假成熟miRNA类别问题,即-1类问题中任意样本χ的后验概率为:
Pi=P(y=i|χ),其中i=1,-1 (2-8)
则样本属于两个类别的概率和为1,因此,式(2-8)的约束条件为:
rij≈P(y=i|y=i或j,λ) (2-10)
式中,rij为两类问题中概率估计,根据式(2-9)和式(2-10)提出如下求解方法:
式(2-11)推算为:
其中:
矩阵Q为半正定矩阵,因此式(2-11)为具有线性约束的凸二次规划问题;如果P是该二次规划问题最优解,当且仅当满足以下条件:
则式(2-11)的解可以通过线性方程组求解。
10.根据权利要求9所述基于SVM-AdaBoost的成熟miRNA全位点识别方法,其特征在于:步骤五所述的构建基于AdaBoost算法的集成分类器模型的过程为,
步骤五一,设训练集样本S={(xi,yi)|i=1,2...n},其中xi∈X为成熟miRNA样本,yi∈Y={+1,-1)为样本类别;
步骤五二,初始化样本权值:
设定训练集S在第t轮训练中样本xi权值为Dt(i),其中,第一轮样本权值初始化为:
D1=(P11,P12...P1i...,P1N),P11=P12=…=P1N=1/N (3-1)
步骤五三,选定弱分类器:
利用基于概率的参数可调SVM作为弱分类器,在训练过程中,通过参数调整,选定最优分类面,对每一条pre-miRNA给定每一个样本为真成熟miRNA概率,选取概率最大候选者类别为+1,其他候选者类别为-1,即分类器Gt=(X):X→{-1,1};
步骤五四,设定训练轮数T;
步骤五五,定义训练集S的权值分布:
Dt={Pt1,Pt2,...,PtN} (3-2)
其中,Dt是由每个样本权重组成向量集;从训练集S中,根据样本权重构建训练子集St;
步骤五六,计算训练子集错分率,假定Gt(X):X→Y,样本错分率:
步骤五七,计算样本及分类器权重,分类器权重为:
样本集权重更新为:
Dt+1={Pt+1,1,Pt+1,2,...,Pt+1,i…,Pt+1,N} (3-5)
式(3-5)中,
式(3-6)中,zt定义为下一轮训练集权重,是一个一般化常量,定义为:
步骤五八,根据各弱分类器Gt(X)及其权重集成分类器,定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811166574.0A CN109390037A (zh) | 2018-10-08 | 2018-10-08 | 基于SVM-AdaBoost的成熟miRNA全位点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811166574.0A CN109390037A (zh) | 2018-10-08 | 2018-10-08 | 基于SVM-AdaBoost的成熟miRNA全位点识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109390037A true CN109390037A (zh) | 2019-02-26 |
Family
ID=65426613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811166574.0A Withdrawn CN109390037A (zh) | 2018-10-08 | 2018-10-08 | 基于SVM-AdaBoost的成熟miRNA全位点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109390037A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110364223A (zh) * | 2019-06-24 | 2019-10-22 | 杭州电子科技大学 | 一种基于多示例学习的ires序列搜寻方法 |
CN110619926A (zh) * | 2019-08-07 | 2019-12-27 | 复旦大学附属肿瘤医院 | 一种识别全部rna剪切位点的分析方法及分析系统 |
CN111161793A (zh) * | 2020-01-09 | 2020-05-15 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN113837293A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 |
CN116070157A (zh) * | 2023-01-13 | 2023-05-05 | 东北林业大学 | 基于级联森林和双流结构的circRNA识别方法 |
CN116798513A (zh) * | 2023-02-21 | 2023-09-22 | 苏州赛赋新药技术服务有限责任公司 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250718A (zh) * | 2016-07-29 | 2016-12-21 | 於铉 | 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法 |
-
2018
- 2018-10-08 CN CN201811166574.0A patent/CN109390037A/zh not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250718A (zh) * | 2016-07-29 | 2016-12-21 | 於铉 | 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法 |
Non-Patent Citations (1)
Title |
---|
王颖: "成熟microRNA识别及其功能预测方法研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110364223A (zh) * | 2019-06-24 | 2019-10-22 | 杭州电子科技大学 | 一种基于多示例学习的ires序列搜寻方法 |
CN110364223B (zh) * | 2019-06-24 | 2021-04-06 | 杭州电子科技大学 | 一种基于多示例学习的ires序列搜寻方法 |
CN110619926A (zh) * | 2019-08-07 | 2019-12-27 | 复旦大学附属肿瘤医院 | 一种识别全部rna剪切位点的分析方法及分析系统 |
CN110619926B (zh) * | 2019-08-07 | 2023-03-31 | 复旦大学附属肿瘤医院 | 一种识别全部rna剪切位点的分析方法及分析系统 |
CN111161793A (zh) * | 2020-01-09 | 2020-05-15 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN111161793B (zh) * | 2020-01-09 | 2023-02-03 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN113837293A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 |
CN116070157A (zh) * | 2023-01-13 | 2023-05-05 | 东北林业大学 | 基于级联森林和双流结构的circRNA识别方法 |
CN116798513A (zh) * | 2023-02-21 | 2023-09-22 | 苏州赛赋新药技术服务有限责任公司 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
CN116798513B (zh) * | 2023-02-21 | 2023-12-15 | 苏州赛赋新药技术服务有限责任公司 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109390037A (zh) | 基于SVM-AdaBoost的成熟miRNA全位点识别方法 | |
Li et al. | A novel approach for potential human LncRNA-disease association prediction based on local random walk | |
CN106874704B (zh) | 一种基于线性模型的基因共调控网络中关键调控子识别方法 | |
Kleftogiannis et al. | YamiPred: A novel evolutionary method for predicting pre-miRNAs and selecting relevant features | |
CN112837753A (zh) | 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 | |
CN114639441B (zh) | 一种基于带权多粒度扫描的转录因子结合位点预测方法 | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
Huang et al. | Comparing sequence and expression for predicting microRNA targets using GenMiR3 | |
CN114822694A (zh) | 基于CatBoost算法的长非编码RNA识别方法 | |
Wei et al. | Computational analysis of miRNA target identification | |
CN110021361B (zh) | 一种基于卷积神经网的miRNA靶基因预测方法 | |
CN111477271B (zh) | 基于有监督自组织映射神经网络的microRNA预测方法 | |
CN111414935A (zh) | 基于卡方检测算法和改进的果蝇优化算法的有效混合特征选择方法 | |
CN116994645B (zh) | 基于交互式推理网络的piRNA与mRNA靶标对的预测方法 | |
KR101840028B1 (ko) | miRNA 및 mRNA 발현 데이터를 통합 분석하는 방법 및 장치 | |
Li et al. | New support vector machine-based method for microRNA target prediction | |
CN113921085B (zh) | 非编码rna基因协同调控作用的预测方法 | |
Kandoth et al. | A framework for automated enrichment of functionally significant inverted repeats in whole genomes | |
CN118380055B (zh) | 一种多来源单细胞转录组数据细胞轨迹分析方法、介质和设备 | |
Mukhopadhyay et al. | Analysis of microarray data using multiobjective variable string length genetic fuzzy clustering | |
Kléma et al. | Knowledge-based subtractive integration of mRNA and miRNA expression profiles to differentiate myelodysplastic syndrome | |
Madhav | A SYSTEMATIC COMPARISON OF T-SNE AND SCUBA ON A HIGH-DIMENSIONAL SCRNA-SEQ DATA | |
Nath et al. | A Comprehensive Study of Target Prediction Algorithms for Animal MicroRNAs (miRNAs) | |
CN116721702A (zh) | 基于网络传播的个性化癌症驱动基因识别方法 | |
Repky | Combining SNP and EEG data in a genome-wide association study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190226 |
|
WW01 | Invention patent application withdrawn after publication |