CN117198407A - 基于编码器的梯度提升机miRNA-疾病关联预测方法 - Google Patents

基于编码器的梯度提升机miRNA-疾病关联预测方法 Download PDF

Info

Publication number
CN117198407A
CN117198407A CN202311235759.3A CN202311235759A CN117198407A CN 117198407 A CN117198407 A CN 117198407A CN 202311235759 A CN202311235759 A CN 202311235759A CN 117198407 A CN117198407 A CN 117198407A
Authority
CN
China
Prior art keywords
disease
mirna
similarity matrix
matrix
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311235759.3A
Other languages
English (en)
Inventor
金勇�
侯怀彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202311235759.3A priority Critical patent/CN117198407A/zh
Publication of CN117198407A publication Critical patent/CN117198407A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学关联预测技术领域,具体涉及基于编码器的梯度提升机miRNA‑疾病关联预测方法,该方法包括:利用多源生物学和医学信息获取miRNA‑疾病关联邻接矩阵,miRNA功能相似性矩阵,疾病语义相似性矩阵;整合得到的miRNA和疾病的整合相似性矩阵与miRNA‑疾病关联邻接矩阵进行拼接得到信息量更丰富的miRNA‑疾病关联特征向量;利用自动编码器提取综合miRNA特征向量和疾病特征向量的关键特征,利用轻量梯度提升机分类器实现miRNA与疾病的潜在关联预测。本发明实现的预测精度高,时间和经济成本低,目的是挖掘潜在miRNA和疾病关联,可以为研究复杂疾病的发病机理提供帮助。

Description

基于编码器的梯度提升机miRNA-疾病关联预测方法
技术领域
本发明涉及生物信息学关联预测技术领域,具体涉及基于编码器的梯度提升机miRNA-疾病关联预测方法。
背景技术
作为一种具有22个核苷酸的非编码单链RNA(核糖核酸)分子,miRNA在细胞增殖、代谢、免疫反应等几乎所有生物过程中起着关键作用。因此,miRNA的紊乱可能导致各种复杂的疾病,例如CL1-0(人肺腺癌细胞)中hsa-mir-449a的过度表达会加重受辐射细胞的损伤和凋亡,进而改变细胞周期的分布。此外,已证实hsa-mir-195和hsa-mir-497对乳腺恶性肿瘤具有关键抑制作用。因此,利用生物信息学发现miRNA与疾病之间的关联可能有助于疾病的预防、诊断和治疗。
迄今为止,已经进行了大量生物学实验来挖掘miRNA与疾病之间的关联,这些miRNA与疾病的关联已被用于建立公开可用的在线数据库,例如,dbDEMC、HMDD3.0和miR2Disease。传统的生物学实验方法虽然具有挖掘miRNA与疾病关联的能力,但仍存在成本高、耗时长等亟待解决的问题。
将高性能计算和人工智能引入miRNA-疾病关联预测领域可能是处理上述问题的合理方法。到目前为止,与miRNA-疾病关联预测相关的人工智能方法主要有图论方法、传统机器学习方法和深度学习方法三类。而miRNA表达谱、miRNA序列、蛋白质序列和人类表型本体等多种生物学数据都倾向于用这些方法处理。由于深度学习技术可以更好地学习数据的表征,近年来已经陆续应用于基因组学和药物发现等诸多领域。例如,提出了一种多视角多通道注意力图卷积网络(MMGCN)方法,其中对包含不同信息的相似性矩阵进行加权,以推断潜在的miRNA-疾病关联。与传统的机器学习和图论方法相比,使用深度学习方法可以提高miRNA-疾病关联预测的精度。但是,仍然存在针对不平衡数据集或小样本的高精度预测、复杂的超参数调整等问题需要研究。最近,在针对不平衡数据集的高精度预测方法方面取得了一些进展,提出了一种基于自动编码器的miRNA-疾病关联预测方法,并利用深度随机森林进行了集成学习,此外,提出了通过基于自编码器的可扩展树增强方法推断小分子-miRNA的关联,进一步提高了预测效率,但是,上述方法也可能面临过拟合和计算效率低的问题。
发明内容
本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决预测效果较差的技术问题,本发明提出了基于编码器的梯度提升机miRNA-疾病关联预测方法。
本发明提供了基于编码器的梯度提升机miRNA-疾病关联预测方法,该方法包括:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据;
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵;
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵;
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵;
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵;
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵;
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量;
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
可选地,获取HMDD数据库,从中得到经过生物实验验证的miRNA-疾病关联数据,从而得到miRNA-疾病关联邻接矩阵;根据MeSH数据库获取疾病语义相似性矩阵;根据基因本体数据库获取miRNA的功能相似性矩阵。
可选地,所述计算得到疾病语义相似性矩阵,包括:
计算祖先疾病t对疾病di的语义值贡献对应的公式为:
其中,△为设置为0.5的语义贡献因子,t′是其中一个祖先疾病,是其中一个祖先疾病t′对疾病di的语义值贡献,/>是祖先疾病t对疾病di的语义值贡献;疾病d对自身的语义贡献值设为1,结合祖先疾病在有向无环图DAG(d)中的贡献值,疾病di的语义值对应的公式为:
其中,T(di)是与疾病di相关的祖先疾病的集合,疾病di和dj的语义相似性对应的公式为:
另一种计算DAG中疾病t对疾病di语义值的贡献对应的公式为:
疾病di的语义相似性值对应的公式为:
疾病di和疾病dj之间的语义相似性值对应的公式为:
将两种疾病语义相似性值整合在一起,提出疾病语义相似性矩阵DS对应的公式为:
可选地,所述根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵,包括:
通过高斯相互作用谱核相似性揭示疾病di和疾病dj之间的关系,IP(di)表示疾病di和每个miRNA之间经过验证的关联,IP(dj)相似,nd是疾病的个数,γd是用于调整内核带宽的参数,疾病之间的高斯相互作用谱核相似性矩阵KD对应的公式为:
KD(di,dj)=exp(-γdPIP(di)-IP(dj)P2)
IP(mi)表示miRNAmi与每种疾病之间的已知关联,IP(mj)与其相似,nm是miRNA的个数,γm描述的是用于调整内核带宽的参数,miRNA之间的高斯相互作用谱核相似性矩阵KM对应的公式为:
KM(mi,mj)=exp(-γm PIP(mi)-IP(mj)P2)
可选地,所述根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵,包括:
通过将miRNA的高斯相互作用谱核相似性矩阵KM(mi,mj)和miRNA的功能相似性矩阵FS(mi,mj)整合在一起,以获得miRNA的整合相似性矩阵SM对应的公式为:
将疾病的高斯相互作用谱核相似性矩阵KD(di,dj)和疾病语义相似性矩阵DS(di,dj)整合在一起得到疾病的整合相似性矩阵SD对应的公式为:
可选地,得到的miRNA和疾病综合相似性矩阵分别为:
Sdisease=(D1A1,L,D1A495,L,D383A1,L,D383A495)T
其中,Mi(Mi1,Mi2,...,Mi495),Di(Di1,Di2,...,Di383),Ai,分别表示第i个miRNA与其它miRNA的整合相似性,第i个疾病和其它疾病的整合相似性,已验证的miRNA-疾病关联矩阵的第i行,已验证的miRNA-疾病关联矩阵的第j列转置。
可选地,所述将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量,包括:
分别利用自编码器对495×383行495+495列的SmiRNA矩阵和495×383行383+383列的Sdisease矩阵进行处理,提取它们的低维特征,同时降低原始特征向量中隐藏的冗余信息带来的噪声,得到两个低维高质量的miRNA-疾病关联特征向量。
可选地,所述将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测,包括:
将得到的两类低维高质量的miRNA-疾病关联特征向量输入到轻量梯度提升机分类器进行预测,从疾病和miRNA角度分别得到一个预测结果,把两个预测结果进行整合得到最终的miRNA-疾病关联预测值。
本发明具有如下有益效果:
本发明使用了多源数据融合的方法,数据的来源于生物和医学信息,信息量更加丰富;并且在构建miRNA和疾病原始相似性矩阵时把miRNA和疾病的整合相似性矩阵与miRNA-疾病关联邻接矩阵进行拼接,使构建的相似性矩阵信息量更丰富;本发明较于传统的生物实验方法,花费成本低,时间周期短;与其它的预测方法相比提高了计算效率减少模型的过拟合问题。因此本发明提出了一种基于自动编码器的轻量梯度提升机miRNA-疾病关联的预测方法,改进了预测模型的分类方法,能够很好的避免传统生物实验方法花费成本较高,以及时间周期较长的问题,提高了预测效果,具有重要的理论意义和应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的基于编码器的梯度提升机miRNA-疾病关联预测方法的流程图;
图2为本发明的又一流程图;
图3为本发明与其它预测方法在HMDDv2.0不平衡数据集上5折交叉验证ROC曲线对比示意图;
图4为本发明与使用其它不同分类器在HMDDv2.0不平衡数据集上5折交叉验证ROC曲线对比示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明提供了基于编码器的梯度提升机miRNA-疾病关联预测方法,该方法包括以下步骤:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据;
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵;
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵;
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵;
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵;
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵;
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量;
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
下面对上述各个步骤进行详细展开:
参考图1,示出了根据本发明的基于编码器的梯度提升机miRNA-疾病关联预测方法的一些实施例的流程。该基于编码器的梯度提升机miRNA-疾病关联预测方法,包括以下步骤:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据。
在一些实施例中,可以从多个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据。
其中,预设数量可以是预先设置的数量。例如,预设数量可以是3。miRNA-疾病关联数据又称miRNA-疾病关联矩阵。
获取验证的miRNA-疾病关联矩阵可以包括:从数据集中获取包括495种miRNA,383种疾病和5430种实验证实的miRNA-疾病关联,这里从HMDDv2.0收集。A∈Rnm×nd用495行383列表示与miRNA和疾病相关的邻接矩阵。其中,如果已知第i个miRNA与第j个疾病的相关性,则将A(mi,dj)设为1,否则设为0。
图1的具体步骤实现可以如图2所示。
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵。
在一些实施例中,可以根据步骤1获取的信息数据,计算得到疾病语义相似性矩阵。
作为示例,本步骤可以包括以下步骤:
第一步,采用疾病d的有向无环图DAG(d)=(d,Td,Ed)来描述疾病d与其它疾病的关系,其中Td为与疾病d相关的祖先疾病集,Ed为与疾病d相关边集。因此,可以将所有有向无环图(DAG)一起用于构建疾病语义相似性网络。此外,用于构建这些网络的疾病之间的关系可以从MeSH数据库获得,计算祖先疾病t对疾病di的语义值贡献对应的公式为:
其中,△为设置为0.5的语义贡献因子,t′是其中一个祖先疾病,是其中一个祖先疾病t′对疾病di的语义值贡献,/>是祖先疾病t对疾病di的语义值贡献。疾病d对自身的语义贡献值设为1,一种疾病的贡献值随着与其它相关疾病距离的增加而减小,结合其祖先疾病在有向无环图DAG(d)中的贡献值,疾病di的语义值对应的公式为:
其中,T(di)是与疾病di相关的祖先疾病的集合,传统上,疾病对共享的DAG越多意味着它们之间的相似性越大。因此,疾病di和dj的语义相似性对应的公式为:
第二步,在疾病语义相似性网络中,一种DAG较少的疾病往往比另一种DAG较多的疾病对疾病di语义值的贡献更大,因此,在这里引入了一个新的模型,用于计算DAG中疾病t对疾病di语义值的贡献,具体公式为:
第三步,与第一种计算疾病语义值的方法相比,疾病di的语义相似性值对应的公式为:
第四步,疾病di和疾病dj之间的语义相似性值对应的公式为:
第五步,单独使用一种疾病语义相似性计算方法可能难以揭示疾病之间的语义相似性,因此将两种疾病语义相似性值整合在一起,提出疾病语义相似性矩阵DS对应的公式为:
计算出所有疾病之间的语义相似性,从而得到一个疾病语义相似性矩阵。
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵。
在一些实施例中,可以根据步骤1获取的信息数据,计算得到miRNA功能相似性矩阵。
作为示例,根据MeSH数据库获取疾病语义相似性矩阵;根据基因本体数据库获取miRNA的功能相似性矩阵。
例如,通过假设具有相似表型的疾病可能与具有相似功能的miRNA相关,提出了计算miRNA功能相似性的方法,继该方法之后,现有提出了miRNA的功能相似性矩阵FS,其中FS(mi,mj)表征第i个miRNA和第j个miRNA之间的miRNA功能相似性得分。
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵。
在一些实施例中,可以根据获取的miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵。
作为示例,本步骤可以包括以下步骤:
第一步,获取HMDD数据库,从中得到经过传统生物实验验证的miRNA-疾病关联数据,从而得到miRNA-疾病关联邻接矩阵。
第二步,假设具有相似功能的miRNA的变化可能诱发一些相似的疾病,通过高斯相互作用谱核相似性揭示疾病di和疾病dj之间的关系,IP(di)表示疾病di和每个miRNA之间经过验证的关联,IP(dj)相似,nd是疾病的个数,γd是用于调整内核带宽的参数,疾病之间的高斯相互作用谱核相似性矩阵KD对应的公式为:
KD(di,dj)=exp(-γdPIP(di)-IP(dj)P2)
类似于计算疾病之间高斯相互作用谱核相似性,miRNA之间高斯相互作用谱核相似性定义如下,其中IP(mi)表示miRNAmi与每种疾病之间的已知关联,IP(mj)与其相似,nm是miRNA的个数,γm描述的是用于调整内核带宽的参数,miRNA之间的高斯相互作用谱核相似性矩阵KM对应的公式为:
KM(mi,mj)=exp(-γm PIP(mi)-IP(mj)P2)
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵。
在一些实施例中,可以根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA功能相似性矩阵分别与通过miRNA-疾病关联邻接矩阵计算得到的疾病和miRNA高斯相互作用谱核相似性矩阵进行整合。
作为示例,本步骤可以包括以下步骤:
第一步,通过将miRNA的高斯相互作用谱核相似性矩阵KM(mi,mj)和miRNA的功能相似性矩阵FS(mi,mj)整合在一起,以获得miRNA的整合相似性矩阵SM对应的公式为:
第二步,与miRNA类似,将疾病的高斯相互作用谱核相似性矩阵KD(di,dj)和疾病语义相似性矩阵DS(di,dj)整合在一起得到疾病的整合相似性矩阵SD对应的公式为:
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵。
在一些实施例中,可以根据步骤5获得的miRNA和疾病整合相似性矩阵分别与miRNA-疾病的关联邻接矩阵进行拼接,得到miRNA和疾病的综合相似性矩阵。
作为示例,得到的miRNA和疾病综合相似性矩阵分别为:
Sdisease=(D1A1,L,D1A495,L,D383A1,L,D383A495)T
其中,Mi(Mi1,Mi2,...,Mi495),Di(Di1,Di2,...,Di383),Ai,分别表示第i个miRNA与其它miRNA的整合相似性,第i个疾病和其它疾病的整合相似性,已验证的miRNA-疾病关联矩阵的第i行,已验证的miRNA-疾病关联矩阵的第j列转置。
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量。
在一些实施例中,可以使用自动编码器对高维的miRNA-疾病关联特征向量进行处理,降低特征向量维度减少冗余信息。
作为示例,可以分别利用自编码器对495×383行495+495列的SmiRNA矩阵和495×383行383+383列的Sdisease矩阵进行处理,提取它们的低维特征(又称,重要特征),同时降低原始特征向量中隐藏的冗余信息带来的噪声,得到两个低维高质量的miRNA-疾病关联特征向量。
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
在一些实施例中,可以根据步骤7获取的低维高质量的miRNA-疾病关联特征向量,把特征向量送入到轻量梯度提升机分类器进行miRNA-疾病关联预测。
作为示例,可以将得到的两类低维高质量的miRNA-疾病关联特征向量输入到轻量梯度提升机分类器进行预测,从疾病和miRNA角度分别得到一个预测结果,把两个预测结果进行整合得到最终的miRNA-疾病关联预测值。其中,轻量梯度提升机分类器训练的细节在表1包括的算法1中列出:
表1
在miRNA-疾病关联预测方法的最后步骤中,利用miRNA-疾病关联的两类低维高质量特征向量,迭代训练与miRNA和疾病关联预测相关的轻量梯度提升机分类器。其中,在轻量梯度提升机分类器算法中基于单边梯度采样减少了样本数量,专属特征捆绑减少了特征数量,降低了计算成本提高了效率。此外,轻量梯度提升机分类器在叶子节点分裂的方向上增加了深度限制,以确保高效率,同时防止过拟合。
根据提出的方法对miRNA和疾病的潜在关联进行预测,通过进行5折交叉验证实验来评估所提出的预测方法(LGBMDA)的性能,其中,描述假阳性率(FPR)与真阳性率(TPR)关系的ROC曲线用于评价关联预测方法的性能,ROC曲线下的面积为AUC,AUC值越接近1表示本方法的预测性能越好。不同预测方法在HMDDv2.0不平衡数据集上的ROC曲线如图3所示。由高到低依次为LGBMDA、ABMDA、GAEMDA、MLRDFM、SAEMDA,AUC分别为0.9699、0.9428、0.9333、0.9311、0.9164。此外,为了证明在所提出的LGBMDA预测方法中使用轻量梯度提升机分类器的合理性,在图4中,将其与朴素贝叶斯、多层感知机、逻辑回归(LR)和支持向量机等其它分类器进行了比较。很明显,这些分类器的AUC分别为0.9179、0.8661、0.9282、0.9141。因此,可以得出结论,在提出的LGBMDA预测方法中使用轻量梯度提升机分类器是合理的,本发明的预测方法取得了更好的效果。从实验结果来看,本发明与其它方法相比预测性能更高,可以有效的挖掘潜在的miRNA-疾病关联。
综上,本发明首先是利用多源生物学和医学信息获取miRNA-疾病关联邻接矩阵,miRNA功能相似性矩阵,疾病语义相似性矩阵;将miRNA和疾病的相似性矩阵与利用miRNA-疾病关联邻接矩阵计算出的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合;整合相似性矩阵与miRNA-疾病关联邻接矩阵进行拼接得到信息量更丰富的miRNA-疾病关联特征向量;其次利用自动编码器提取综合miRNA特征向量和疾病特征向量的关键特征,最后利用轻量梯度提升机分类器实现miRNA与疾病的潜在关联预测。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,包括以下步骤:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据;
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵;
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵;
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵;
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵;
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵;
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量;
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
2.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,获取HMDD数据库,从中得到经过生物实验验证的miRNA-疾病关联数据,从而得到miRNA-疾病关联邻接矩阵;根据MeSH数据库获取疾病语义相似性矩阵;根据基因本体数据库获取miRNA的功能相似性矩阵。
3.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述计算得到疾病语义相似性矩阵,包括:
计算祖先疾病t对疾病di的语义值贡献对应的公式为:
其中,△为设置为0.5的语义贡献因子,t′是其中一个祖先疾病,是其中一个祖先疾病t′对疾病di的语义值贡献,/>是祖先疾病t对疾病di的语义值贡献;疾病d对自身的语义贡献值设为1,结合祖先疾病在有向无环图DAG(d)中的贡献值,疾病di的语义值对应的公式为:
其中,T(di)是与疾病di相关的祖先疾病的集合,疾病di和dj的语义相似性对应的公式为:
另一种计算DAG中疾病t对疾病di语义值的贡献对应的公式为:
疾病di的语义相似性值对应的公式为:
疾病di和疾病dj之间的语义相似性值对应的公式为:
将两种疾病语义相似性值整合在一起,提出疾病语义相似性矩阵DS对应的公式为:
4.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵,包括:
通过高斯相互作用谱核相似性揭示疾病di和疾病dj之间的关系,IP(di)表示疾病di和每个miRNA之间经过验证的关联,IP(dj)相似,nd是疾病的个数,γd是用于调整内核带宽的参数,疾病之间的高斯相互作用谱核相似性矩阵KD对应的公式为:
KD(di,dj)=exp(-γdPIP(di)-IP(dj)P2)
IP(mi)表示miRNAmi与每种疾病之间的已知关联,IP(mj)与其相似,nm是miRNA的个数,γm描述的是用于调整内核带宽的参数,miRNA之间的高斯相互作用谱核相似性矩阵KM对应的公式为:
KM(mi,mj)=exp(-γmPIP(mi)-IP(mj)P2)
5.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵,包括:
通过将miRNA的高斯相互作用谱核相似性矩阵KM(mi,mj)和miRNA的功能相似性矩阵FS(mi,mj)整合在一起,以获得miRNA的整合相似性矩阵SM对应的公式为:
将疾病的高斯相互作用谱核相似性矩阵KD(di,dj)和疾病语义相似性矩阵DS(di,dj)整合在一起得到疾病的整合相似性矩阵SD对应的公式为:
6.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,得到的miRNA和疾病综合相似性矩阵分别为:
Sdisease=(D1A1,L,D1A495,L,D383A1,L,D383A495)T
其中,Mi(Mi1,Mi2,...,Mi495),Di(Di1,Di2,...,Di383),Ai,分别表示第i个miRNA与其它miRNA的整合相似性,第i个疾病和其它疾病的整合相似性,已验证的miRNA-疾病关联矩阵的第i行,已验证的miRNA-疾病关联矩阵的第j列转置。
7.根据权利要求6所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量,包括:
分别利用自编码器对495×383行495+495列的SmiRNA矩阵和495×383行383+383列的Sdisease矩阵进行处理,提取它们的低维特征,同时降低原始特征向量中隐藏的冗余信息带来的噪声,得到两个低维高质量的miRNA-疾病关联特征向量。
8.根据权利要求7所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测,包括:
将得到的两类低维高质量的miRNA-疾病关联特征向量输入到轻量梯度提升机分类器进行预测,从疾病和miRNA角度分别得到一个预测结果,把两个预测结果进行整合得到最终的miRNA-疾病关联预测值。
CN202311235759.3A 2023-09-22 2023-09-22 基于编码器的梯度提升机miRNA-疾病关联预测方法 Pending CN117198407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311235759.3A CN117198407A (zh) 2023-09-22 2023-09-22 基于编码器的梯度提升机miRNA-疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311235759.3A CN117198407A (zh) 2023-09-22 2023-09-22 基于编码器的梯度提升机miRNA-疾病关联预测方法

Publications (1)

Publication Number Publication Date
CN117198407A true CN117198407A (zh) 2023-12-08

Family

ID=88997858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311235759.3A Pending CN117198407A (zh) 2023-09-22 2023-09-22 基于编码器的梯度提升机miRNA-疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN117198407A (zh)

Similar Documents

Publication Publication Date Title
CN113724790B (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN112837753B (zh) 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
Zhang et al. CircRNA-disease associations prediction based on metapath2vec++ and matrix factorization
CN111681705A (zh) 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Qu et al. KATZMDA: prediction of miRNA-disease associations based on KATZ model
CN112270958B (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN111899882A (zh) 一种预测癌症的方法及系统
Jiang et al. A generative adversarial network model for disease gene prediction with RNA-seq data
CN116343927A (zh) 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法
Ai et al. MHDMF: prediction of miRNA–disease associations based on deep matrix factorization with multi-source graph convolutional network
Yu et al. Predicting multiple types of MicroRNA-disease associations based on tensor factorization and label propagation
Ai et al. A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases
Wang et al. Mshganmda: Meta-subgraphs heterogeneous graph attention network for mirna-disease association prediction
Gao et al. A new method based on matrix completion and non-negative matrix factorization for predicting disease-associated miRNAs
CN117198407A (zh) 基于编码器的梯度提升机miRNA-疾病关联预测方法
Ahmed et al. A comparative analysis of deep learning-based techniques for miRNA prediction associated with mRNA sequences
Liu et al. Representation Learning for Multi-omics Data with Heterogeneous Gene Regulatory Network
Zhou et al. A method based on dual-network information fusion to predict MiRNA-disease associations
Li et al. HoRDA: Learning higher-order structure information for predicting RNA–disease associations
Liu et al. Tensor product graph diffusion based on nonlinear fusion of multi-source information to predict circRNA-disease associations
CN113743589A (zh) 一种基于堆栈自编码器的miRNA生物标志物识别方法及系统
Li et al. Predicting mirna-disease association based on improved graph regression
Zheng et al. DLP: duplex link prediction via subspace segmentation for predicting drug-miRNA associations
CN117153325B (zh) 一种基于图对比学习的抗癌药物有效性评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination