CN117457080A - circRNA-miRNA关联预测方法、装置及介质 - Google Patents

circRNA-miRNA关联预测方法、装置及介质 Download PDF

Info

Publication number
CN117457080A
CN117457080A CN202311550819.0A CN202311550819A CN117457080A CN 117457080 A CN117457080 A CN 117457080A CN 202311550819 A CN202311550819 A CN 202311550819A CN 117457080 A CN117457080 A CN 117457080A
Authority
CN
China
Prior art keywords
circrna
mirna
model
correlation
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311550819.0A
Other languages
English (en)
Inventor
郭陆祥
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Zaozhuang University
Original Assignee
China University of Mining and Technology CUMT
Zaozhuang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT, Zaozhuang University filed Critical China University of Mining and Technology CUMT
Priority to CN202311550819.0A priority Critical patent/CN117457080A/zh
Publication of CN117457080A publication Critical patent/CN117457080A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种circRNA‑miRNA关联预测方法、装置及介质,方法具体是一种使用卷积自动编码器模型的CircRNA‑MiRNA关联预测方法,即CAE‑CMIS。该模型最初将circRNA和miRNA的序列特征以及circRNA‑miRNA相互作用的特征相结合。随后,它使用分子缔合网络构建了所有circRNA‑miRNA对,并通过标记样品对网络参数进行微调。最后,通过使用深度神经网络分类器,得到了预测结果。该模型创新性地结合了通过优化保持邻域的似然目标、学习单词的连续特征表示以及保留二维信号的空间信息。

Description

circRNA-miRNA关联预测方法、装置及介质
技术领域
本发明属于CircRNA-MiRNA关联预测技术领域,更具体地,涉及一种circRNA-miRNA关联预测方法、装置及介质。
背景技术
经过数十年的不懈努力,科学家们已经证明了RNA(即核糖核酸)是许多生物体中不可或缺的一类重要的化学物质。环状核糖核酸(circRNA)是一类新型的长链非编码核糖核酸(ncRNA)。直到1976年Sanger等人发现类病毒是“单链共价闭合的CircRNA分子”时,人们才知道CircRNA。最近的研究表明,CircRNA是一种既具有闭合连续循环功能又没有3'或5'极性的RNA分子。而微小RNA(miRNA)则是由内源性基因编码的单链非编码RNA分子。研究表明,circRNA是由信使核糖核酸前体(premRNA)的反向剪接产生的,并含有多种miRNA(microRNA)反应元件,这些元件类似于miRNA的海绵一样发挥作用。这意味着circRNA在癌症和非癌症疾病中,尤其是在心血管疾病中,在调节基因表达和细胞功能方面发挥着重要作用。到目前为止,已有许多circRNA-miRNA关联应用于疾病管理和药物研究,骨病。
通过大量的研究工作发现,在动物、植物、微生物和病毒中,circRNA与miRNA之间关联在各种生物体中的发挥着作用。因此,出现了令人信服的证据来强调这种分子的重要性。例如,Chen等人已经证明,通过其对miR-30a-3p的海绵活性,circHIPK3 RNA促进鸡肌肉细胞的增殖和分化。赵等人发现circRNA-miRNA相互作用网络涉及数千个circRNA和92个miRNA,以探索植物circRNA的潜在功能,例如存在大豆中。Qu等人证实,通过整合靶向CREBBP的miRNA并增强IFN-β的产生,内含子circRNA已被鉴定为一种新型的流感病毒拮抗剂。因此,研究circRNA和miRNA之间的可能关联,有望使生物学家更好地理解和诊断疾病的复杂机制,并最终改善临床条件的治疗。
为了最大限度地减少湿实验室实验中的误差,已经进行了大量的计算机实验来研究CMAs(circRNA-miRNA Associations,CMAs)。例如,Lan等人介绍了一种计算方法,用于预测NECMA中circRNA和miRNA之间的关联。该方法基于使用各种来源创建异质网络,包括circRNA GIP内核相似网络、miRNA GIP内核相似网络和circRNA-miRNA关联网络。利用内积和邻域正则化逻辑矩阵分解实现了AUC为0.8264的准确预测。此外,Qian等开发了一种基于奇异值分解和GVAE(图变分自编码器)的CMIVGSD计算模型来预测CMAs。采用五折交叉验证对该框架进行评价,预测AUC为0.8804。此外,CMIVGSD模型预测的前10个CMAs中有6个在PubMed中得到验证。Guo等设计了WSCD计算框架,从circRNA、miRNA序列和cma网络等多个来源提取属性特征和行为特征,并通过Word2vec、SDNE、CNN和DNN对cma进行准确预测。通过五折交叉验证实验取得了很好的结果,模型的AUC达到了0.8898。此外,通过人工检索相关文献和数据库对模型预测的前30个CMA进行了验证,从而验证了预测的准确性和可靠性。相比之下,Wang等人提出的KGDCMI、SGCNCMI和JSNDCMI模型的预测AUC分别为0.8930、0.8942和0.9003,准确率更高。基于上述数据收集,它为使用计算机算法模型预测CMAs提供了强有力的钻研基础。
尽管现行的计算预测方法能够有效地探索circRNAs和miRNAs之间的关联,但仍然存在一些限制。例如,前人的模型预测值较低,需要改进;此外,以往的文献实验量不足,无法验证一个可靠的模型。
发明内容
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种circRNA-miRNA关联预测方法、装置及介质,通过引入一种先进的机器学习框架CAE-CMIS,该框架利用文本表示学习和神经网络进行准确的CMAs预测。。
根据本发明的第一方案,提供了一种circRNA-miRNA关联预测方法,所述方法包括:
构建数据集,所述数据集包括多个circRNA和多个miRNA;
构建关联预测模型,所述关联预测模型包括特征提取模块、低维嵌入向量生成模块以及分类器,所述特征提取模块用于基于所述数据集提取circRNA-miRNA序列嵌入的生物序列特征和验证相互作用对,所述低维嵌入向量生成模块用于低维嵌入向量生成,所述分类器用于输出circRNA-miRNA关联度,利用所述数据集对所述关联预测模型进行训练得到训练好的关联预测模型;
利用所述训练好的关联预测模型实现circRNA-miRNA关联预测。
进一步地,利用异构图构建的分子关联网络,并将所述分子关联网络输入到CNN和DNN的融合模型中形成所述低维嵌入向量生成模块,以实现低维嵌入向量生成。
进一步地,所述数据集表示为:
D=D+∪D- (1)
其中,集合D+和D-分别表示正样本和负样本;集合D表示数据集中元素的组合,DM以邻接矩阵存储数据,在邻接矩阵DM中,如果circRNAc(j)与miRNAm(i)之间存在连接,则对应的DM(i,j)标记为1;如果circRNAc(j)与miRNAm(i)之间不存在连接,则对应的DM(i,j)标记为0。
进一步地,所述特征提取模块,通过如下方法基于所述数据集提取ircRNA-miRNA序列嵌入的生物序列特征:
设置窗口大小为k的窗口,确定一个中心词,将所述窗口内的非中心词作为背景词,通过最大化北京慈在中心词附近出现的概率来进行训练:
对于长度为L、窗口大小为ω的随机行走路径,优化函数定定义为:
第k个特征映射的潜在表示是从单通道输入x导出,如公式(3)所示:
hk=σ(x*WK+bk) (3)
其中,b为整个映射接收到偏差,W为权重参数,σ作为激活函数,*为二维卷积。
进一步地,所述特征提取模块,通过如下方法基于所述数据集提取circRNA-miRNA序列嵌入的验证相互作用对:
以包含t个单词的句子中找到最大对数平均概率为最优方向,确定优化函数如公式(4)所示:
其中,P(wt|wt-k,...,wt+k)是学习最大化概率,wt表示目标单词,wt-k,...,wt+k表示出现在t-k,...,t+k次的单次。
进一步地,所述方法还包括:
利用特异性、精确率、灵敏度、马修斯相关系数和准确率来评估所述关联预测模型的预测性能。
根据本发明的第二技术方案,提供一种circRNA-miRNA关联预测装置,所述装置包括:
数据集构建模块,被配置为构建数据集,所述数据集包括多个circRNA和多个miRNA;
模型构建与训练模块,被配置为构建关联预测模型,所述关联预测模型包括特征提取模块、低维嵌入向量生成模块以及分类器,所述特征提取模块用于基于所述数据集提取circRNA-miRNA序列嵌入的生物序列特征和验证相互作用对,所述低维嵌入向量生成模块用于低维嵌入向量生成,所述分类器用于输出circRNA-miRNA关联度,利用所述数据集对所述关联预测模型进行训练得到训练好的关联预测模型;
关联预测模块,被配置为利用所述训练好的关联预测模型实现circRNA-miRNA关联预测。
进一步地,所述数据集构建模块被进一步配置为构建的数据集表示为:
D=D+∪D- (1)
其中,集合D+和D-分别表示正样本和负样本;集合D表示数据集中元素的组合,DM以邻接矩阵存储数据,在邻接矩阵DM中,如果circRNAc(j)与miRNAm(i)之间存在连接,则对应的DM(i,j)标记为1;如果circRNAc(j)与miRNAm(i)之间不存在连接,则对应的DM(i,j)标记为0。
进一步地,所述模型构建与训练模块被进一步配置为通过如下方法基于所述数据集提取ircRNA-miRNA序列嵌入的生物序列特征:
设置窗口大小为k的窗口,确定一个中心词,将所述窗口内的非中心词作为背景词,通过最大化北京慈在中心词附近出现的概率来进行训练:
对于长度为L、窗口大小为ω的随机行走路径,优化函数定定义为:
第k个特征映射的潜在表示是从单通道输入x导出,如公式(3)所示:
hk=σ(x*WK+bk) (3)
其中,b为整个映射接收到偏差,W为权重参数,σ作为激活函数,*为二维卷积。
根据本发明的第三技术方案,提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的方法。
本发明至少具有以下有益效果:
本发明提出了一种使用卷积自动编码器模型的CircRNA-MiRNA关联预测方法,即CAE-CMIS。该模型最初将circRNA和miRNA的序列特征以及circRNA-miRNA相互作用的特征相结合。随后,它使用分子缔合网络构建了所有circRNA-miRNA对,并通过标记样品对网络参数进行微调。最后,通过使用深度神经网络分类器,得到了预测结果。该模型创新性地结合了通过优化保持邻域的似然目标、学习单词的连续特征表示以及保留二维信号的空间信息。在5倍交叉验证过程中,与许多先前的计算方法相比,CAE-CMIS表现出出色的性能,其平均AUC值为0.9138,最小标准偏差为0.0024。此外,最近的文献已经证实,在病例研究中,前30对circRNA-miRNA中有25对的CAE-CMIS得分最高。这些实验的结果突出了我们模型的鲁棒性和广适性。
附图说明
图1示出了根据本发明实施例的一种circRNA-miRNA关联预测方法的整体流程图;
图2示出了根据本发明实施例的CAE-CMIS模型的工作流程,A.低维生物属性特征向量提取B.低维生物行为特征向量提取C.特征融合和模型训练与预测;
图3示出了根据本发明实施例的Skip-Gram模型的特征提取过程图;
图4示出了根据本发明实施例的CAE-CMIS实现的AUC和AUPR。A.AUC是通过将面板A下的面积相加来绘制ROC曲线。B.AUPR是指精确率和召回率曲线下的面积。;
图5示出了根据本发明实施例的CAE-CMIS-A和CAE-CMIS-B生成AUC值;
图6示出了根据本发明实施例的CAE-CMIS-A和CAE-CMIS-B生成AUPR值;
图7示出了根据本发明实施例的采用主成分分析法获得AUC和AUPR。A.使用五折CV对数据集进行主成分分析结果生成的ROC曲线。B.使用五折CV对数据集进行主成分分析结果生成的AUPR;
图8示出了根据本发明实施例的不同分类器模型获得的5倍CV结果值的可视化图;
图9示出了根据本发明实施例的一种circRNA-miRNA关联预测装置的结构图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
图1示出了根据本发明实施例的一种circRNA-miRNA关联预测方法的整体流程图,如图1所示,本发明实施例提供一种circRNA-miRNA关联预测方法,该方法包括步骤S100-S300,在本实施例当中,该方法可以基于如图1所示的框架进行实施。
该方法始于步骤S100,构建数据集,所述数据集包括多个circRNA和多个miRNA。
示例性地,为了确保对CAE-CMIS模型进行严格的评估,我们的研究涉及使用circRNA-miRNA预测域中常用的三个数据集,以对该模型的有效性进行全面和公正的评估。
第一个数据集涉及20,208对CMAs的详细信息,这些CMAs经过实验验证,涉及3569个circRNA和1152个miRNA。我们将这个整理的数据集称为CMI-20208。
第二个数据集称为CMI-9589,包含2115个circRNA和821个miRNA。我们利用的第三个数据集是CMI-9905,其中包括9905个实验验证的CMAs,代表了涉及2346个circRNA和962个miRNA的circRNA-miRNA相互作用的综合集合。因此,我们可以将构建的数据集描述如下表1所示,并给出如下公式:
D=D+∪D- (1)
其中,集合D+和D-分别表示正样本和负样本;集合D表示数据集中元素的组合,DM以邻接矩阵存储数据,在邻接矩阵DM中,如果circRNA c(j)与miRNAm(i)之间存在连接,则对应的DM(i,j)标记为1;如果circRNAc(j)与miRNAm(i)之间不存在连接,则对应的DM(i,j)标记为0。
表1 CAE-CMIS使用的CMAs数据集的详细信息
步骤S200,构建关联预测模型,所述关联预测模型包括特征提取模块、低维嵌入向量生成模块以及分类器,所述特征提取模块用于基于所述数据集提取circRNA-miRNA序列嵌入的生物序列特征和验证相互作用对,所述低维嵌入向量生成模块用于低维嵌入向量生成,所述分类器用于输出circRNA-miRNA关联度,利用所述数据集对所述关联预测模型进行训练得到训练好的关联预测模型。
本实施例中,关联预测模型可以实现为一种机器学习框架CAE-CMIS,图2示出了CAE-CMIS模型的结构图,如图2所示,通过引入一种先进的机器学习框架CAE-CMIS,该框架利用文本表示学习和神经网络进行准确的CMAs预测。为了更清晰地说明,该模型可以分解为三个主要部分。为了预测潜在的circRNA-miRNA关联,首先结合了基于卷积自编码器提取的circRNA-miRNA序列嵌入的生物序列特征和基于doc2vec的验证相互作用对。其次,利用异构图构建可靠的分子关联网络,并将其输入到CNN和DNN的融合模型中进行低维嵌入向量生成。最后,通过使用DNN分类器成功推断了潜在的CMAs表达的可行性。
需要说明的是,circRNA-miRNA序列嵌入的生物序列特征和基于doc2vec的验证相互作用对分别表示的是低维生物属性特征向量和低维生物行为特征向量。
在本实施例中,基于Skip-Gram和CAE来进行低维生物属性特征向量的提取。
Word2Vec是一种流行的词嵌入模型,最早由Google提出。
Google最初提出了著名的词汇嵌入算法——Word2Vec,它在网络上广泛使用,为自然语言处理等诸多领域提供了强有力的支持。它利用句子中存在的单词之间的关系,在机器学习中将单词向量从高维空间转换为低维空间。Word2Vec由两个模型组成,分别是Skip-Gram(我们在本文中使用了这个模型)和CBOW。Skip-Gram模型流如图3所示。通过设置窗口大小为k,模型选择一个中心词,将窗口内的其他词作为背景词。模型通过最大化背景词在中心词附近出现的概率来进行训练。Skip-Gram模型的训练重点是使背景词的出现概率最大化。更准确地说,对于长度为L、窗口大小为ω的随机行走路径,Skip-Gram的优化函数定义为:
与典型的AE相比,CAE的特征是所有输入位置的权重共享,确保保持空间局部性。因此,通过线性组合,利用隐藏层代码来完成重建。CAE架构与去噪自动编码器相似,但增加了共享权重的方面。第k个特征映射的潜在表示是从单通道输入x导出的。公式如下:
hk=σ(x*WK+bk) (3)
其中,b为整个映射接收到偏差,W为权重参数,σ作为激活函数,*为二维卷积。
示例性地,通过使用gensim python软件包中的Skip-Gram模型,能够训练circRNA和miRNA序列向量,得到64维目标向量。该载体随后使用CAE实现64*64目标载体。
在本实施例中,基于Doc2vec的特征提取方法具体如下:
Doc2vec算法作为文本嵌入方法,扩展了word2vec分析不同文档之间连接的能力。Doc2vec算法提供两种方法:PV-DM(Paragraph Vector-Distributed Memory)和PV-DBOW(Paragraph Vector-Distributed Bag of Words)。虽然PV-DM技术在预测单词序列之后的下一个单词和更新段落向量方面类似于word2Vec的CBOW方法,但PV-DBOW技术仅依赖于段落向量来预测上下文中出现的单词,类似于Skip-Gram方法。Doc2Vec的目标是在包含t个单词的句子中找到最大对数平均概率的最优方向,如公式4所示,与Word2Vec的工作原理类似。
其中,P(wt|wt-k,...,wt+k)是学习最大化概率,wt表示目标单词,wt-k,...,wt+k表示出现在t-k,...,t+k次的单次。
本实施例采用了一个利用PV-DM技术的向量来提取特征,正如最初提出Doc2vec的研究所建议的那样,Doc2vec的利用是通过使用'gensim'来完成的,这是一个实现Doc2vec模型的Python包。
在一些实施例中,基于主成分分析来进行低维特征提取,为了比较CNN模型的特征降维,我们提出了一个PCA(主成分分析)模型,这是一种历史悠久的用于分析多变量数据的统计技术,其起源可以追溯到19世纪,并且由柯西和皮尔逊等科学家做出了显著贡献。PCA是一种久经考验的降维方法。它包括创建基因表达的线性组合,称为主成分(PCs)。PCs是相互正交的,为基因表达的变异提供了一个全面的解释,并且可能具有更少的维度。在本研究中,我们通过使用“sklearn”包通过PCA提取低维特征提取。训练过程结束后,得到的结果表明,每个节点有64个维度。
最后在步骤S300中,利用所述训练好的关联预测模型实现circRNA-miRNA关联预测。
下面本发明实施例将结合具体的算例来评估本实施例所构建的CAE-CMIS模型的预测性能,以充分说明本发明的可行性和进步性。
评估标准:
在机器学习中广泛使用的不同评估指标被用来评估所提出的CAE-CMIS模型的预测效果,包括特异性(specificity,Spe.)、精确率(Precision,Pre.)、灵敏度(Sensitivity,Sen.)、马修斯相关系数(Matthews correlation coefficient,MCCt)和准确率(Accuracy,Acc.)。这些评价指标定义如下:
此处,本实施例采用了稳健的5倍交叉验证(CV)技术来减轻过拟合并评估本实施例所提出的CAE-CMIS模型的有效性。此外,评价标准用缩写TP(真阳性)、TN(真阴性)、FP(假阳性)和FN(假阴性)来表示。另外,本实施例利用CAE-CMIS计算了真阳性率(TP率)和假阳性率(FP率),生成了ROC曲线,并计算了ROC曲线下的平均面积(AUC)和精确召回率曲线下的面积(AUPR)来解释不平衡。
CAE-CMIS模型的预测性能
本实施例采用5折CV法和使用参数Acc.,Sen.,Spe.,Pre.,MCC,AUC和AUPR全面地了解CAE-CMIS模型的预测性能。表2显示了所有实验结果,平均预测值以粗体字体突出显示。5折CV实验的AUC值分别为0.9166、0.9147、0.9102、0.9131和0.9142。
因此,CAE-CMIS得到的平均AUC为0.9138,标准差为0.0024。在图4中,AUC可以通过将面板A中所示的ROC曲线下方的区域相加来确定。AUPR是指B图中precision和recall围成的PR曲线下的面积,分别延伸到图像左上角和右上角,曲线下面积显著。总之,上述统计数据表明,所提出的模型具有先进的性能,它可以通过准确预测潜在的CMAs,有效地为深入理解circRNA-miRNA关系提供有力的证据。
表2采用五折CV得到CAE-CMIS模型性能值
不同特征提取策略的比较:
本实施例将提出的集成属性和行为特征的模型与几个前沿模型进行了比较。为了公平起见,分别使用这两种类型的特征来构建表示向量和训练计算模型,同时保持模型的其他方面的一致性。本实施例提出三种方法可用:“CAE-CMIS-A”,“CAE-CMIS-B”,以及两者的合并,称为“CAE-CMIS”。三种参数的解释分别以属性为中心(skip-gram,CAE和CNN),以行为为中心(Doc2vec和DNN),以及上述方法的综合。在图5中可以看到所描述的结果。如图3所示的结果表明,结合这两种特征的“CAE-CMIS”模型的预测AUC为0.9138,优于其他模型。此外,图6通过比较CAE-CMIS与其他方法的预测AUPR性能,展示了CAE-CMIS的优势。综上所述,CAE-CMIS在特征提取效果上优于两种单侧特征提取策略。
与PCA模型的比较实验
为了衡量该模型的有效性,将生物属性特征和多源语义信息特征作为模型属性来优化性能,并与使用主成分分析方法生成的低维特征向量进行了比较。为了保证方法的公平性和一致性,将CAE-CMIS模型的CNN降维向量替换为实验过程中PCA生成的低维嵌入向量,同时保持模型的其他组成部分不变。本实施例采用PCA方法使用5倍CV技术来训练本实施例所提出的模型,得到表3所示的结果。从表3中可以看出,与PCA模型相比,CAE-CMIS表现出更好的性能,其预测值为Acc.,Sen.,Spe.,Pre.,MCC,AUC和AUPR,分别比PCA模型高出9.27%、5.05%、6.92%、18.5%、13.49%和0.0902。在对比图4和图7时,就AUPR和AUC曲线而言,CAE-CMIS的优势变得明显。这一结果表明,该模型所采用的“CAE-CMIS-A”和“CAE-CMIS-B”融合模型能够有效地构建矢量表征,有效地训练计算模型。因此,它显著增强了模型,并实现了其最大的预测性能潜力。
表3采用五折CV得到PCA模型性能值
与K-Mer模型的比较实验
通过比较K-Mer频率和概率生成的特征向量与使用CAE-CMIS作为模型属性,我们试图验证所提出模型的性能是否更优越。为了保证公平性,我们使用5倍CV中相同的数据集,在保持模型其余成分不变的情况下,将实验中使用的嵌入方法替换为由k-mer频率和概率衍生的特征向量。表4给出了用K-Mer频率和概率训练模型得到的比较结果的综合细分,并提供了详细的分析。
如表4所示,CAE-CMIS模型优于使用k-mer模型的替代模型。具体而言,CAE-CMIS模型具有较高的预测精度。Acc.,Spe.,Pre.,MCCt.,Sen.和AUC分别比K-Mer模型高22.19%、20.99%、21.27%、44.21%、23.39%和0.2442。研究结果表明,CAE-CMIS模型能够熟练地提取特征,从而提高模型性能,并获得最具竞争力的结果。
表4采用五折CV得到K-Mer模型性能值
不同分类器模型的比较实验:
本实施例通过比较各种分类器模型来评估对CAE-CMIS特征和性能的影响,旨在确定最合适的分类模型。具体来说,本实施例并未改变特征提取方法,而将DNN和CNN融合模型替换为五个不同的分类器,包括K最近邻(K-Nearest Neighbour,KNN)、逻辑回归(LogisticRegression,LR),、旋转森林(Rotation Forest,RF)、支持向量机(Support VectorMachine,SVM)算法、AdaBoost算法和梯度提升决策树(Gradient Boosting Decison Tree,GBDT)。表5展示了上述模型在相同数据集上进行的5倍CV实验的平均结果,图8也描述了该信息。由表5可知,SVM在Acc.,Spe.,Pre.,MCCt.,Sen.和AUC这些性能值中排名第二,然而,与最佳表现者相比,其结果低于CAE-CMIS。图8还证实了CACMA模型优于所有其他模型。综上所述,这些发现表明,与其他分类器模型相比,本实施例使用神经网络分类器的CAE-CMIS模型具有优异的性能。
表5不同分类器模型的获得的平均结果值
与其他先进方法的比较实验:
在最近的学术研究中,几位著名学者提出了各种预测CMAs的方法。为了建立CAE-CMIS的竞争力,本实施例对三组数据和九种最先进的模型进行了对比分析,并在CMAs预测中进行了相同的交叉验证。具体而言,本实施例利用CMI-9905、CMI-9589和CMI-20208数据集作为模型预测的基准。本实施例在公平的竞争环境中将CAE-CMIS与上述方法进行比较,以更公平地确定其预测性能。考虑到模型预测的性质,计算了以前模型生成的AUC和AUPR分数,并将它们汇编在表6中。本表包括本实施例所提出的模型,以及最近发表的几篇基于KGDCMI、SGCNCMI、JSNDCMI、BCMCMI、DeepCMI和KS-CMI的CMAs预测新兴领域的论文。从表中结果可以看出,CAE-CMIS的AUC和AUPR得分最高。这些分数明显优于次优的KS-CMI模型。从表7可以看出,在数据集CMI-9589和CMI-20208中,CAE-CMIS模型得到的AUC和AUPR值大于其他模型得到的AUC和AUPR值。因此,通过以上的比较可以推断,CAE-CMIS对未来的研究提供了最有说服力的理论指导。
表6基于CMI-9905数据集上各模型的AUC和AUPR的得分
表7在数据集CMI-9589和CMI-20208上各模型的AUC和AUPR的得分
案例研究:
为了探索CAE-CMIS在发现新型miRNA相关circRNA方面的功效,本实施例进行了案例研究,使用已建立的circRNA-miRNA对训练模型。随后,利用训练好的模型预测所有未识别的CMA。随后,根据未确定的交互对的较高分数对其进行排名,并通过交叉参考相关研究文献或进行相关实验来验证其预测准确性。在表8的预期结果中,选定的前30个circRNA相关miRNA对中有25个已得到验证,并提供了这些已确认的miRNA对的详细概述。因此,这些对miRNA研究有价值的环状rna候选物极有可能被选择进行进一步的实验研究,以减轻这种人为操作失误的影响。研究结果表明,CAE-CMIS在识别潜在的CMA时表现出卓越的预测能力。
表8由CAE-CMIS预测的前30个CMAs对
高通量技术实验的逐步应用表明,基因组数据的深度不仅有助于理解复杂的疾病发病机制,而且在有效的疾病预防、诊断和精准医疗中起着至关重要的作用。circRNA和miRNA之间的关系无疑在帮助理解人类病理过程、破译细胞行为和识别用于诊断和治疗的生物标志物方面起着至关重要的作用。在本实施例中提出了CAE-CMIS框架,这是一种创新的机器学习方法。本实施例的框架利用融合模型,结合了NLP算法和神经网络来准确预测cma。首先,创建了一种利用Word嵌入生成嵌入向量的机制,重点关注序列信息。然后,利用CAE和CNN构建了一个低维表示,同时仍然保留了强泛化的优点,消除了对无监督数据注释的需要。类似地,本实施例可以使用Doc2vec获得段落特征。此外,利用多种信息构建可靠的分子关联网络,并将其输入到由CNN和DNN组成的融合模型中进行得分预测。从彻底的5倍交叉验证实验中得出的多个评估指标一致地证明了CAE-CMIS的卓越预测性能。此外,我们的模型经历了六次不同的实验,每一次都令人信服地证明了它的优越性。
本发明实施例提供一种circRNA-miRNA关联预测装置,如图9所示,该装置900包括:
数据集构建模块901,被配置为构建数据集,所述数据集包括多个circRNA和多个miRNA;
模型构建与训练模块902,被配置为构建关联预测模型,所述关联预测模型包括特征提取模块、低维嵌入向量生成模块以及分类器,所述特征提取模块用于基于所述数据集提取circRNA-miRNA序列嵌入的生物序列特征和验证相互作用对,所述低维嵌入向量生成模块用于低维嵌入向量生成,所述分类器用于输出circRNA-miRNA关联度,利用所述数据集对所述关联预测模型进行训练得到训练好的关联预测模型;
关联预测模块903,被配置为利用所述训练好的关联预测模型实现circRNA-miRNA关联预测。
在一些实施例中,所述数据集构建模块被进一步配置为构建的数据集表示为:
D=D+∪D- (1)
其中,集合D+和D-分别表示正样本和负样本;集合D表示数据集中元素的组合,DM以邻接矩阵存储数据,在邻接矩阵DM中,如果circRNAc(j)与miRNA m(i)之间存在连接,则对应的DM(i,j)标记为1;如果circRNAc(j)与miRNA m(i)之间不存在连接,则对应的DM(i,j)标记为0。
在一些实施例中,所述模型构建与训练模块被进一步配置为通过如下方法基于所述数据集提取ircRNA-miRNA序列嵌入的生物序列特征:
设置窗口大小为k的窗口,确定一个中心词,将所述窗口内的非中心词作为背景词,通过最大化北京慈在中心词附近出现的概率来进行训练:
对于长度为L、窗口大小为ω的随机行走路径,优化函数定定义为:
第k个特征映射的潜在表示是从单通道输入x导出,如公式(3)所示:
hk=σ(x*WK+bk) (3)
其中,b为整个映射接收到偏差,W为权重参数,σ作为激活函数,*为二维卷积。
在一些实施例中,所述模型构建与训练模块被进一步配置为通过如下方法基于所述数据集提取circRNA-miRNA序列嵌入的验证相互作用对:
以包含t个单词的句子中找到最大对数平均概率为最优方向,确定优化函数如公式(4)所示:
其中,P(wt|wt-k,...,wt+k)是学习最大化概率,wt表示目标单词,wt-k,...,wt+k表示出现在t-k,...,t+k次的单次。
需要说明的是,本实施例所述的装置与在先阐述的方法属于同一技术思路,能够起到的同样的技术效果,此处不赘述。
本发明实施例提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上各个实施例所述的方法。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims (10)

1.一种circRNA-miRNA关联预测方法,其特征在于,所述方法包括:
构建数据集,所述数据集包括多个circRNA和多个miRNA;
构建关联预测模型,所述关联预测模型包括特征提取模块、低维嵌入向量生成模块以及分类器,所述特征提取模块用于基于所述数据集提取circRNA-miRNA序列嵌入的生物序列特征和验证相互作用对,所述低维嵌入向量生成模块用于低维嵌入向量生成,所述分类器用于输出circRNA-miRNA关联度,利用所述数据集对所述关联预测模型进行训练得到训练好的关联预测模型;
利用所述训练好的关联预测模型实现circRNA-miRNA关联预测。
2.根据权利要求1所述的方法,其特征在于,利用异构图构建的分子关联网络,并将所述分子关联网络输入到CNN和DNN的融合模型中形成所述低维嵌入向量生成模块,以实现低维嵌入向量生成。
3.根据权利要求1所述的方法,其特征在于,所述数据集表示为:
D=D+∪D- (1)
其中,集合D+和D-分别表示正样本和负样本;集合D表示数据集中元素的组合,DM以邻接矩阵存储数据,在邻接矩阵DM中,如果circRNAc(j)与miRNAm(i)之间存在连接,则对应的DM(i,j)标记为1;如果circRNAc(j)与miRNAm(i)之间不存在连接,则对应的DM(i,j)标记为0。
4.根据权利要求1所述的方法,其特征在于,所述特征提取模块,通过如下方法基于所述数据集提取ircRNA-miRNA序列嵌入的生物序列特征:
设置窗口大小为k的窗口,确定一个中心词,将所述窗口内的非中心词作为背景词,通过最大化北京慈在中心词附近出现的概率来进行训练:
对于长度为L、窗口大小为ω的随机行走路径,优化函数定定义为:
第k个特征映射的潜在表示是从单通道输入x导出,如公式(3)所示:
hk=σ(x*WK+bk) (3)
其中,b为整个映射接收到偏差,W为权重参数,σ作为激活函数,*为二维卷积。
5.根据权利要求1所述的方法,其特征在于,所述特征提取模块,通过如下方法基于所述数据集提取circRNA-miRNA序列嵌入的验证相互作用对:
以包含t个单词的句子中找到最大对数平均概率为最优方向,确定优化函数如公式(4)所示:
其中,P(wt|wt-k,...,wt+k)是学习最大化概率,wt表示目标单词,wt-k,...,wt+k表示出现在t-k,...,t+k次的单次。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用特异性、精确率、灵敏度、马修斯相关系数和准确率来评估所述关联预测模型的预测性能。
7.一种circRNA-miRNA关联预测装置,其特征在于,所述装置包括:
数据集构建模块,被配置为构建数据集,所述数据集包括多个circRNA和多个miRNA;
模型构建与训练模块,被配置为构建关联预测模型,所述关联预测模型包括特征提取模块、低维嵌入向量生成模块以及分类器,所述特征提取模块用于基于所述数据集提取circRNA-miRNA序列嵌入的生物序列特征和验证相互作用对,所述低维嵌入向量生成模块用于低维嵌入向量生成,所述分类器用于输出circRNA-miRNA关联度,利用所述数据集对所述关联预测模型进行训练得到训练好的关联预测模型;
关联预测模块,被配置为利用所述训练好的关联预测模型实现circRNA-miRNA关联预测。
8.根据权利要求7所述的装置,其特征在于,所述数据集构建模块被进一步配置为构建的数据集表示为:
D=D+vD- (1)
其中,集合D+和D-分别表示正样本和负样本;集合D表示数据集中元素的组合,DM以邻接矩阵存储数据,在邻接矩阵DM中,如果circRNAc(j)与miRNAm(i)之间存在连接,则对应的DM(i,j)标记为1;如果circRNAc(j)与miRNAm(i)之间不存在连接,则对应的DM(i,j)标记为0。
9.根据权利要求7所述的装置,其特征在于,所述模型构建与训练模块被进一步配置为通过如下方法基于所述数据集提取ircRNA-miRNA序列嵌入的生物序列特征:
设置窗口大小为k的窗口,确定一个中心词,将所述窗口内的非中心词作为背景词,通过最大化北京慈在中心词附近出现的概率来进行训练:
对于长度为L、窗口大小为ω的随机行走路径,优化函数定定义为:
第k个特征映射的潜在表示是从单通道输入x导出,如公式(3)所示:
hk=σ(x*WK+bk) (3)
其中,b为整个映射接收到偏差,W为权重参数,σ作为激活函数,*为二维卷积。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的方法。
CN202311550819.0A 2023-11-20 2023-11-20 circRNA-miRNA关联预测方法、装置及介质 Pending CN117457080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311550819.0A CN117457080A (zh) 2023-11-20 2023-11-20 circRNA-miRNA关联预测方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311550819.0A CN117457080A (zh) 2023-11-20 2023-11-20 circRNA-miRNA关联预测方法、装置及介质

Publications (1)

Publication Number Publication Date
CN117457080A true CN117457080A (zh) 2024-01-26

Family

ID=89583562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311550819.0A Pending CN117457080A (zh) 2023-11-20 2023-11-20 circRNA-miRNA关联预测方法、装置及介质

Country Status (1)

Country Link
CN (1) CN117457080A (zh)

Similar Documents

Publication Publication Date Title
Huang et al. Updated review of advances in microRNAs and complex diseases: taxonomy, trends and challenges of computational models
Min et al. Predicting enhancers with deep convolutional neural networks
Wang et al. LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization
Lei et al. A comprehensive survey on computational methods of non-coding RNA and disease association prediction
Lee et al. A comprehensive survey on genetic algorithms for DNA motif prediction
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Chen et al. Deep learning models for disease-associated circRNA prediction: a review
CN114944192B (zh) 一种基于图注意力的疾病相关环状rna识别方法
CN111462820A (zh) 基于特征筛选和集成算法的非编码rna预测方法
CN107679367A (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
Zhang et al. Benchmarking deep learning methods for predicting CRISPR/Cas9 sgRNA on-and off-target activities
Guo et al. Likelihood-based feature representation learning combined with neighborhood information for predicting circRNA–miRNA associations
Iraji et al. Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method
Eshun et al. Histological classification of non-small cell lung cancer with RNA-seq data using machine learning models
CN117457080A (zh) circRNA-miRNA关联预测方法、装置及介质
Singh et al. GeneAI 3.0: powerful, novel, generalized hybrid and ensemble deep learning frameworks for miRNA species classification of stationary patterns from nucleotides
Li et al. Improving domain-based protein interaction prediction using biologically-significant negative dataset
Zhang et al. miTDS: Uncovering miRNA-mRNA interactions with deep learning for functional target prediction
Lu et al. HCGCCDA: Prediction of circRNA-disease associations based on the combination of hypergraph convolution and graph convolution
Chen et al. mRNA-CLA: An interpretable deep learning approach for predicting mRNA subcellular localization
Sun et al. Synchronous Mutual Learning Network and Asynchronous Multi-Scale Embedding Network for miRNA-Disease Association Prediction
CN116092581A (zh) 一种基于自然语义增强的环状rna标志物预测方法
Gong et al. BDLR: lncRNA identification using ensemble learning
Ali et al. Evolutionary Hybrid Machine Learning Techniques for DNA Cancer Data Classification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination