CN113344076A - 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 - Google Patents
一种基于集成学习的circRNA-miRNA相互作用关系预测方法 Download PDFInfo
- Publication number
- CN113344076A CN113344076A CN202110634358.XA CN202110634358A CN113344076A CN 113344076 A CN113344076 A CN 113344076A CN 202110634358 A CN202110634358 A CN 202110634358A CN 113344076 A CN113344076 A CN 113344076A
- Authority
- CN
- China
- Prior art keywords
- circrna
- mirna
- sequence
- features
- circmi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例公开了一种基于集成学习的circRNA与miRNA相互作用关系的预测方法,包括步骤:(1)构建数据集,从ENCORI数据库获取circRNA‑miRNA相互作用数据,circRNA‑RBP的相互作用数据,提出重复项后,分别作为正样本与负样本,(2)运用不同的工具分别提取四类序列衍生特征,(3)基于集成学习设计circMI方法,预测circRNA‑miRNA的相互作用关系,(4)运用两步法优化特征集,(5)利用上述的最佳特征子集训练circMI模型,并保存最佳的模型参数,(6)对于待测的circRNA序列,提取上述的特征子集对应的序列衍生特征,输入已训练的circMI模型中,判断所分析的circRNA是否与miRNA产生相互作用。本发明有效地克服通过生化实验进行circRNA功能检测费时费力并且检测精度不理想的缺陷。
Description
技术领域
本发明涉及一种机器学习方法,具体是一种基于集成学习的circRNA-miRNA相互作用关系预测方法。
背景技术
circRNA是一类具有生物功能的 RNA,在前体 mRNA 剪接过程中,外显子的5′端和3′端通过共价连接形成环结构。尽管大多数 circRNA 的功能仍不完全明确,已有研究表明,circRNA 具有miRNA 海绵且可能成为RBP海绵。circRNA 也参与转录调控和选择性剪接,甚至可能具有翻译功能。circRNA与疾病的发生发展有着密切的联系,可能成为疾病的生物标志物。但是,目前我们对circRNA在疾病的功能的了解仍然有限。
目前,circRNA 的功能验证方法主要分为三类,包括构建circRNA缺陷性突变体、circRNA 过表达载体和RNA干扰。circRNA的功能检测存在一定的技术难度。以抑制策略为例,通常使用功能缺失(或获得)来注释基因的功能。该技术靶向circRNA的特效性与准确性有待提高。利用计算机辅助预测circRNA与miRNA的互作关系对深入了解其功能有着重要的意义。高通量测序技术与生物信息学快速发展,为研究 circRNA 的相互作用网络提供了数据资源。基于此,研究者开发了若干数据库可用于分析circRNA与miRNA的互作关系,如ENCORI数据库。近年来,有研究者运用机器学习协助预测circRNA的调控关系。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于集成学习的circRNA-miRNA相互作用关系预测方法。可克服通过生化实验进行circRNA功能检测费时费力并且检测精度不理想的缺陷。
为了解决上述技术问题,本发明实施例提供了一种基于集成学习的circRNA-miRNA相互作用关系预测方法,其特征在于,包括以下步骤:
S1:构建包含正样本和负样本的数据集:从ENCORI数据库获取能与miRNA相互作用的circRNA数据,作为正样本;从所述ENCORI数据库获取无法与miRNA产生相互作用的circRNA数据,作为负样本,根据包括circRNA的染色体号、序列起始位置以及正负链标记的信息,将其映射到人类基因组上,获得circRNA序列信息;
S2:提取序列衍生特征:提取circRNA的四类序列衍生特征:序列基本特征、图特征、基因组上下文特征和调控信息特征;
S3:构建基于集成学习的circMI模型预测circRNA-miRNA的相互作用关系,将所提取的序列衍生特征分别输入分类器:LightGBM,SVM(support vector machine,支持向量机),GBDT(gradient boosting decision tree,梯度提升迭代决策树gradient boostingdecision tree, GBDT),RF(random forest,随机森林),SGD(stochastic gradientdescent,随机梯度下降stochastic gradient descent),XGBoost和GNB(Gaussian naiveBayes,高斯朴素贝叶斯Gaussian naive Bayes)进行训练,将上述7个分类器的结果进行投票,得到最终的分类结果;
S4:使用二步法对所述四类序列衍生特征进行优化;
S5:针对独立测试集,提取步骤S4最佳特征子集所对应的序列衍生特征,输入已训练的circMI模型进行预测,分析circRNA与miRNA是否会产生相互作用。
其中,所述步骤S4具体包括:
运用顺序向前搜索算法,按重要性排序逐个加入特征构建特征集,输入circMI模型进行训练,计算MCC值随引入特征个数变化的曲线,选取使得MCC值最大的特征集合作为最佳特征子集。
其中,所述四类序列衍生特征的特征维度分别为71,101,7和3。
实施本发明实施例,具有如下有益效果:本发明利用不同的工具提取circRNA序列衍生特征,输入7种机器学习模型分别进行预测,将得到的结果进行投票从而判断circRNA与miRNA是否产生相互作用,本发明结合机器学习辅助预测circRNA与miRNA的相互作用,避免了circRNA功能检测方法存在操作繁琐、费用高等缺点,circMI促进了计算机辅助circRNA功能解析研究进展。
附图说明
图1是本申请中circMI预测方法流程图。
图2是本申请中按重要性逐个加入特征训练circMI模型得到的MCC值的变化曲线。
图3是本申请中circMI在独立测试集上预测的结果。以 has_circ_0033725 为例,circMI模型预测该环状RNA与miRNA产生相互作用。依据ENCORI数据库检索结果可知,has_circ_0033725能够与16个miRNA产生相互作用,图中has-miR-XX表示不同的miRNA,其命名规则为:miRNA成熟体简写成miR,再根据其物种名称,及被发现的先后顺序加上阿拉伯数字,数字后小写英文字母代表高度同源的miRNA。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明实施例的一种基于集成学习的circRNA-miRNA相互作用关系预测方法,能准确地预估circRNA能否与miRNA产生相互作用。本发明公开的方法在使用circMI预测circRNA是否与miRNA产生相互作用之前,需要对circMI进行训练。因此,本发明分两部分,第一部分是训练模型,第二部分是测试circRNA是否与miRNA产生相互作用。主要流程参考图1,按重要性逐个加入特征训练circMI模型得到最优特征子集的结果如参考图2,在独立测试集上的测试结果实例如图3。具体实施步骤如下:
(1)构建包含正样本和负样本的数据集:从ENCORI数据库获取能够与miRNA产生相互作用的circRNA数据,作为正样本,并从该数据库获取无法与miRNA产生相互作用数据circRNA,作为负样本。剔除长度短于200bp的转录本,根据circRNA的染色体号、序列起始位置以及正负链标记等信息,将其映射到人类基因组上,获得circRNA序列信息。
(2)提取序列衍生特征,利用不同的工具,提取circRNA的四类序列衍生特征,包括序列基本特征、图特征、基因组上下文特征和调控信息特征,特征维度分别为71,101,7和3。其中,序列基本特征包括64种三核苷酸和其他序列组成特征,包括序列长度、GC含量、AG、GT、AGGT、GTAG的频率和重复序列特征。图特征通过利用GraphProt 1.0.1工具提取 RNA 序列 32768 维的图特征。为了去除冗余特征,运用随机森林将所提取的高维图特征按重要性排序,选取前101个特征作为circRNA序列的图特征。基因组上下文特征计算每个转录本保守分数。具体做法为:从加州大学洛杉矶分校数据库下载 Placent_phylop46文件提取。根据转录本每个碱基的phyloP保守分数计算保守分数的平均值和标准差。根据circRNA的序列信息,利用不同的工具,提取其ALU,SNP密度和A-to-I、反向剪接连接特征、miRNA结合位点个数等序列衍生特征。从UCSC下载带有注释的ALU重复位点,计算每个转录本的ALU重复数。使用Tandem Repeat Finder提取串联重复序列。开放阅读框长度由UCSC的txCdsPredict提取。SNP数据来源于国际千人基因组计划,并计算每个转录本的SNP密度。A-to-I 注释数据来源于从RADAR数据库。A-to-I 密度定义为 A-to-I 数量占整个转录本的序列长度的比例。运用IRESfinder工具提取RNA序列的IRES信息。调控信息主要来源于TRCirc数据库。
(3)构建基于集成学习的circMI模型预测circRNA-miRNA的相互作用关系,将所提取的序列衍生特征分别输入LightGBM,SVM,GBDT,RF,SGD,XGBoost和GNB模型进行训练与预测,通过调整参数,得到上述7个子模型的最优参数,并且得到所分析的circRNA与miRNA是否产生相互作用。采用投票的方法得到最终的分类结果。
(4)采用二步法优化特征子集,首先,运用最小冗余最大相关算法对所提出的四类序列衍生特征按重要性进行排序;其次,运用顺序向前搜索算法,按重要性排序逐个加入特征构建特征集,输入circMI模型进行训练,计算MCC值(Matthews correlationcoefficient,马修斯相关系数)随引入特征个数变化的曲线。选取重要性前21位的特征集合作为最佳特征子集。
(5)针对独立测试集中的每一个样本,利用步骤2所提及的工具提取步骤4最佳特征子集所对应的序列衍生特征,输入已训练的circMI模型进行预测,分析circRNA与miRNA是否会产生相互作用。通过计算敏感性、特异性、F1分数、ACC和MCC等评估指标,分析circMI在独立测试集的预测性能。以 has_circ_0033725为例,circMI预测该circRNA与miRNA互作。依据ENCORI数据库检索结果可知,has_circ_0033725与16个miRNA互作。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (3)
1.一种基于集成学习的circRNA-miRNA相互作用关系预测方法,其特征在于,包括以下步骤:
S1:构建包含正样本和负样本的数据集:从ENCORI数据库获取能与miRNA相互作用的circRNA数据,作为正样本;从所述ENCORI数据库获取无法与miRNA产生相互作用的circRNA数据,作为负样本,根据包括circRNA的染色体号、序列起始位置以及正负链标记的信息,将其映射到人类基因组上,获得circRNA序列信息;
S2:提取序列衍生特征:提取circRNA的四类序列衍生特征:序列基本特征、图特征、基因组上下文特征和调控信息特征;
S3:构建基于集成学习的circMI模型预测circRNA-miRNA的相互作用关系,将所提取的序列衍生特征分别输入分类器:LightGBM,SVM,GBDT,RF,SGD,XGBoost和GNB进行训练,将上述7个分类器的结果进行投票,得到最终的分类结果;
S4:使用二步法对所述四类序列衍生特征进行优化;
S5:针对独立测试集,提取步骤S4最佳特征子集所对应的序列衍生特征,输入已训练的circMI模型进行预测,分析circRNA与miRNA是否会产生相互作用。
2.根据权利要求1所述的基于集成学习的circRNA-miRNA相互作用关系预测方法,其特征在于,所述步骤S4具体包括:
运用顺序向前搜索算法,按重要性排序逐个加入特征构建特征集,输入circMI模型进行训练,计算MCC值随引入特征个数变化的曲线,选取使得MCC值最大的特征集合作为最佳特征子集。
3.根据权利要求1所述的基于集成学习的circRNA-miRNA相互作用关系预测方法,其特征在于,所述四类序列衍生特征的特征维度分别为71,101,7和3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634358.XA CN113344076B (zh) | 2021-06-08 | 2021-06-08 | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634358.XA CN113344076B (zh) | 2021-06-08 | 2021-06-08 | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113344076A true CN113344076A (zh) | 2021-09-03 |
CN113344076B CN113344076B (zh) | 2022-03-22 |
Family
ID=77474631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110634358.XA Active CN113344076B (zh) | 2021-06-08 | 2021-06-08 | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344076B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823356A (zh) * | 2021-09-27 | 2021-12-21 | 电子科技大学长三角研究院(衢州) | 一种甲基化位点识别方法及装置 |
CN116798513A (zh) * | 2023-02-21 | 2023-09-22 | 苏州赛赋新药技术服务有限责任公司 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
WO2023197718A1 (zh) * | 2022-09-28 | 2023-10-19 | 奥明(杭州)生物医药有限公司 | 一种预测环状rna ires的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100317116A1 (en) * | 2009-06-12 | 2010-12-16 | Pacific Biosciences Of California, Inc. | Single-molecule real-time analysis of protein synthesis |
US20150299702A1 (en) * | 2012-11-30 | 2015-10-22 | Aarhus Universitet | Circular rna for inhibition of microrna |
CN109448795A (zh) * | 2018-11-12 | 2019-03-08 | 山东农业大学 | 一种circRNA的识别方法及装置 |
CN110317814A (zh) * | 2019-07-19 | 2019-10-11 | 莫丁丁 | β-淀粉样蛋白环状核糖核酸、多肽及其应用 |
CN111243666A (zh) * | 2020-01-08 | 2020-06-05 | 华南理工大学 | 一种基于Nextflow的环状核糖核酸自动化分析方法及系统 |
CN111755070A (zh) * | 2019-03-29 | 2020-10-09 | 中山大学 | 一种基于级联判决系统的CircRNA功能预测方法 |
-
2021
- 2021-06-08 CN CN202110634358.XA patent/CN113344076B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100317116A1 (en) * | 2009-06-12 | 2010-12-16 | Pacific Biosciences Of California, Inc. | Single-molecule real-time analysis of protein synthesis |
US20150299702A1 (en) * | 2012-11-30 | 2015-10-22 | Aarhus Universitet | Circular rna for inhibition of microrna |
CN109448795A (zh) * | 2018-11-12 | 2019-03-08 | 山东农业大学 | 一种circRNA的识别方法及装置 |
CN111755070A (zh) * | 2019-03-29 | 2020-10-09 | 中山大学 | 一种基于级联判决系统的CircRNA功能预测方法 |
CN110317814A (zh) * | 2019-07-19 | 2019-10-11 | 莫丁丁 | β-淀粉样蛋白环状核糖核酸、多肽及其应用 |
CN111243666A (zh) * | 2020-01-08 | 2020-06-05 | 华南理工大学 | 一种基于Nextflow的环状核糖核酸自动化分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
ZENGQIANG FANG 等: "Prediction of miRNA-circRNA associations based on k-NN multi-label with random walk restart on a heterogeneous network", 《IEEE/IEE ELECTRONIC LIBRARY (IEL) 数据库》 * |
冯勤超 等: "基于微阵列数据分析的甲状腺癌circRNA-miRNA调控预测模型研究", 《南京医科大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823356A (zh) * | 2021-09-27 | 2021-12-21 | 电子科技大学长三角研究院(衢州) | 一种甲基化位点识别方法及装置 |
CN113823356B (zh) * | 2021-09-27 | 2024-05-28 | 电子科技大学长三角研究院(衢州) | 一种甲基化位点识别方法及装置 |
WO2023197718A1 (zh) * | 2022-09-28 | 2023-10-19 | 奥明(杭州)生物医药有限公司 | 一种预测环状rna ires的方法 |
CN116798513A (zh) * | 2023-02-21 | 2023-09-22 | 苏州赛赋新药技术服务有限责任公司 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
CN116798513B (zh) * | 2023-02-21 | 2023-12-15 | 苏州赛赋新药技术服务有限责任公司 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113344076B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344076B (zh) | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 | |
CN113344272B (zh) | 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法 | |
JP7319197B2 (ja) | 標的核酸のシークエンシングデータをアライメントする方法 | |
EP3378001B1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN109599149A (zh) | 一种rna编码潜能的预测方法 | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
Höllbacher et al. | Seq-ing answers: Current data integration approaches to uncover mechanisms of transcriptional regulation | |
US20210398605A1 (en) | System and method for promoter prediction in human genome | |
CN114694746A (zh) | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 | |
CN113823356B (zh) | 一种甲基化位点识别方法及装置 | |
Grinev et al. | ORFhunteR: An accurate approach to the automatic identification and annotation of open reading frames in human mRNA molecules | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
US20230073973A1 (en) | Deep learning based system and method for prediction of alternative polyadenylation site | |
CN115995262B (zh) | 基于随机森林及lasso回归解析玉米遗传机理的方法 | |
CN116153396A (zh) | 一种基于迁移学习的非编码变异预测方法 | |
Liu et al. | Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
JP2008065435A (ja) | トークン列中の境界検出方法、装置、プログラム、記録媒体 | |
Vavoulis et al. | Hierarchical probabilistic models for multiple gene/variant associations based on next-generation sequencing data | |
CN112041933A (zh) | 使用局部独特特征来解释rna测序数据的转录本表达水平的系统和方法 | |
CN118114125B (zh) | 基于增量学习的miRNA及其异构体家族信息识别方法 | |
CN113140255B (zh) | 一种预测植物lncRNA-miRNA相互作用的方法 | |
CN111009287B (zh) | SLiMs预测模型的生成方法、装置、设备和存储介质 | |
CN117831624B (zh) | 一种基于肿瘤分子诊断知识库的肿瘤突变分析方法 | |
CN114283879A (zh) | 高置信度分子调控网络的构建方法及计算机介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |