CN117198407A - 基于编码器的梯度提升机miRNA-疾病关联预测方法 - Google Patents
基于编码器的梯度提升机miRNA-疾病关联预测方法 Download PDFInfo
- Publication number
- CN117198407A CN117198407A CN202311235759.3A CN202311235759A CN117198407A CN 117198407 A CN117198407 A CN 117198407A CN 202311235759 A CN202311235759 A CN 202311235759A CN 117198407 A CN117198407 A CN 117198407A
- Authority
- CN
- China
- Prior art keywords
- disease
- mirna
- similarity matrix
- matrix
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 314
- 201000010099 disease Diseases 0.000 title claims abstract description 313
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 152
- 108091070501 miRNA Proteins 0.000 claims abstract description 116
- 239000002679 microRNA Substances 0.000 claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 39
- 230000010354 integration Effects 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000002474 experimental method Methods 0.000 claims description 8
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 230000008506 pathogenesis Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 5
- 238000013103 analytical ultracentrifugation Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 1
- 108091068960 Homo sapiens miR-195 stem-loop Proteins 0.000 description 1
- 108091032929 Homo sapiens miR-449a stem-loop Proteins 0.000 description 1
- 108091092303 Homo sapiens miR-497 stem-loop Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000037919 acquired disease Diseases 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息学关联预测技术领域,具体涉及基于编码器的梯度提升机miRNA‑疾病关联预测方法,该方法包括:利用多源生物学和医学信息获取miRNA‑疾病关联邻接矩阵,miRNA功能相似性矩阵,疾病语义相似性矩阵;整合得到的miRNA和疾病的整合相似性矩阵与miRNA‑疾病关联邻接矩阵进行拼接得到信息量更丰富的miRNA‑疾病关联特征向量;利用自动编码器提取综合miRNA特征向量和疾病特征向量的关键特征,利用轻量梯度提升机分类器实现miRNA与疾病的潜在关联预测。本发明实现的预测精度高,时间和经济成本低,目的是挖掘潜在miRNA和疾病关联,可以为研究复杂疾病的发病机理提供帮助。
Description
技术领域
本发明涉及生物信息学关联预测技术领域,具体涉及基于编码器的梯度提升机miRNA-疾病关联预测方法。
背景技术
作为一种具有22个核苷酸的非编码单链RNA(核糖核酸)分子,miRNA在细胞增殖、代谢、免疫反应等几乎所有生物过程中起着关键作用。因此,miRNA的紊乱可能导致各种复杂的疾病,例如CL1-0(人肺腺癌细胞)中hsa-mir-449a的过度表达会加重受辐射细胞的损伤和凋亡,进而改变细胞周期的分布。此外,已证实hsa-mir-195和hsa-mir-497对乳腺恶性肿瘤具有关键抑制作用。因此,利用生物信息学发现miRNA与疾病之间的关联可能有助于疾病的预防、诊断和治疗。
迄今为止,已经进行了大量生物学实验来挖掘miRNA与疾病之间的关联,这些miRNA与疾病的关联已被用于建立公开可用的在线数据库,例如,dbDEMC、HMDD3.0和miR2Disease。传统的生物学实验方法虽然具有挖掘miRNA与疾病关联的能力,但仍存在成本高、耗时长等亟待解决的问题。
将高性能计算和人工智能引入miRNA-疾病关联预测领域可能是处理上述问题的合理方法。到目前为止,与miRNA-疾病关联预测相关的人工智能方法主要有图论方法、传统机器学习方法和深度学习方法三类。而miRNA表达谱、miRNA序列、蛋白质序列和人类表型本体等多种生物学数据都倾向于用这些方法处理。由于深度学习技术可以更好地学习数据的表征,近年来已经陆续应用于基因组学和药物发现等诸多领域。例如,提出了一种多视角多通道注意力图卷积网络(MMGCN)方法,其中对包含不同信息的相似性矩阵进行加权,以推断潜在的miRNA-疾病关联。与传统的机器学习和图论方法相比,使用深度学习方法可以提高miRNA-疾病关联预测的精度。但是,仍然存在针对不平衡数据集或小样本的高精度预测、复杂的超参数调整等问题需要研究。最近,在针对不平衡数据集的高精度预测方法方面取得了一些进展,提出了一种基于自动编码器的miRNA-疾病关联预测方法,并利用深度随机森林进行了集成学习,此外,提出了通过基于自编码器的可扩展树增强方法推断小分子-miRNA的关联,进一步提高了预测效率,但是,上述方法也可能面临过拟合和计算效率低的问题。
发明内容
本发明的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本发明的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决预测效果较差的技术问题,本发明提出了基于编码器的梯度提升机miRNA-疾病关联预测方法。
本发明提供了基于编码器的梯度提升机miRNA-疾病关联预测方法,该方法包括:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据;
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵;
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵;
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵;
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵;
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵;
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量;
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
可选地,获取HMDD数据库,从中得到经过生物实验验证的miRNA-疾病关联数据,从而得到miRNA-疾病关联邻接矩阵;根据MeSH数据库获取疾病语义相似性矩阵;根据基因本体数据库获取miRNA的功能相似性矩阵。
可选地,所述计算得到疾病语义相似性矩阵,包括:
计算祖先疾病t对疾病di的语义值贡献对应的公式为:
其中,△为设置为0.5的语义贡献因子,t′是其中一个祖先疾病,是其中一个祖先疾病t′对疾病di的语义值贡献,/>是祖先疾病t对疾病di的语义值贡献;疾病d对自身的语义贡献值设为1,结合祖先疾病在有向无环图DAG(d)中的贡献值,疾病di的语义值对应的公式为:
其中,T(di)是与疾病di相关的祖先疾病的集合,疾病di和dj的语义相似性对应的公式为:
另一种计算DAG中疾病t对疾病di语义值的贡献对应的公式为:
疾病di的语义相似性值对应的公式为:
疾病di和疾病dj之间的语义相似性值对应的公式为:
将两种疾病语义相似性值整合在一起,提出疾病语义相似性矩阵DS对应的公式为:
可选地,所述根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵,包括:
通过高斯相互作用谱核相似性揭示疾病di和疾病dj之间的关系,IP(di)表示疾病di和每个miRNA之间经过验证的关联,IP(dj)相似,nd是疾病的个数,γd是用于调整内核带宽的参数,疾病之间的高斯相互作用谱核相似性矩阵KD对应的公式为:
KD(di,dj)=exp(-γdPIP(di)-IP(dj)P2)
IP(mi)表示miRNAmi与每种疾病之间的已知关联,IP(mj)与其相似,nm是miRNA的个数,γm描述的是用于调整内核带宽的参数,miRNA之间的高斯相互作用谱核相似性矩阵KM对应的公式为:
KM(mi,mj)=exp(-γm PIP(mi)-IP(mj)P2)
可选地,所述根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵,包括:
通过将miRNA的高斯相互作用谱核相似性矩阵KM(mi,mj)和miRNA的功能相似性矩阵FS(mi,mj)整合在一起,以获得miRNA的整合相似性矩阵SM对应的公式为:
将疾病的高斯相互作用谱核相似性矩阵KD(di,dj)和疾病语义相似性矩阵DS(di,dj)整合在一起得到疾病的整合相似性矩阵SD对应的公式为:
可选地,得到的miRNA和疾病综合相似性矩阵分别为:
Sdisease=(D1A1,L,D1A495,L,D383A1,L,D383A495)T
其中,Mi(Mi1,Mi2,...,Mi495),Di(Di1,Di2,...,Di383),Ai,分别表示第i个miRNA与其它miRNA的整合相似性,第i个疾病和其它疾病的整合相似性,已验证的miRNA-疾病关联矩阵的第i行,已验证的miRNA-疾病关联矩阵的第j列转置。
可选地,所述将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量,包括:
分别利用自编码器对495×383行495+495列的SmiRNA矩阵和495×383行383+383列的Sdisease矩阵进行处理,提取它们的低维特征,同时降低原始特征向量中隐藏的冗余信息带来的噪声,得到两个低维高质量的miRNA-疾病关联特征向量。
可选地,所述将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测,包括:
将得到的两类低维高质量的miRNA-疾病关联特征向量输入到轻量梯度提升机分类器进行预测,从疾病和miRNA角度分别得到一个预测结果,把两个预测结果进行整合得到最终的miRNA-疾病关联预测值。
本发明具有如下有益效果:
本发明使用了多源数据融合的方法,数据的来源于生物和医学信息,信息量更加丰富;并且在构建miRNA和疾病原始相似性矩阵时把miRNA和疾病的整合相似性矩阵与miRNA-疾病关联邻接矩阵进行拼接,使构建的相似性矩阵信息量更丰富;本发明较于传统的生物实验方法,花费成本低,时间周期短;与其它的预测方法相比提高了计算效率减少模型的过拟合问题。因此本发明提出了一种基于自动编码器的轻量梯度提升机miRNA-疾病关联的预测方法,改进了预测模型的分类方法,能够很好的避免传统生物实验方法花费成本较高,以及时间周期较长的问题,提高了预测效果,具有重要的理论意义和应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的基于编码器的梯度提升机miRNA-疾病关联预测方法的流程图;
图2为本发明的又一流程图;
图3为本发明与其它预测方法在HMDDv2.0不平衡数据集上5折交叉验证ROC曲线对比示意图;
图4为本发明与使用其它不同分类器在HMDDv2.0不平衡数据集上5折交叉验证ROC曲线对比示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明提供了基于编码器的梯度提升机miRNA-疾病关联预测方法,该方法包括以下步骤:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据;
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵;
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵;
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵;
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵;
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵;
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量;
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
下面对上述各个步骤进行详细展开:
参考图1,示出了根据本发明的基于编码器的梯度提升机miRNA-疾病关联预测方法的一些实施例的流程。该基于编码器的梯度提升机miRNA-疾病关联预测方法,包括以下步骤:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据。
在一些实施例中,可以从多个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据。
其中,预设数量可以是预先设置的数量。例如,预设数量可以是3。miRNA-疾病关联数据又称miRNA-疾病关联矩阵。
获取验证的miRNA-疾病关联矩阵可以包括:从数据集中获取包括495种miRNA,383种疾病和5430种实验证实的miRNA-疾病关联,这里从HMDDv2.0收集。A∈Rnm×nd用495行383列表示与miRNA和疾病相关的邻接矩阵。其中,如果已知第i个miRNA与第j个疾病的相关性,则将A(mi,dj)设为1,否则设为0。
图1的具体步骤实现可以如图2所示。
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵。
在一些实施例中,可以根据步骤1获取的信息数据,计算得到疾病语义相似性矩阵。
作为示例,本步骤可以包括以下步骤:
第一步,采用疾病d的有向无环图DAG(d)=(d,Td,Ed)来描述疾病d与其它疾病的关系,其中Td为与疾病d相关的祖先疾病集,Ed为与疾病d相关边集。因此,可以将所有有向无环图(DAG)一起用于构建疾病语义相似性网络。此外,用于构建这些网络的疾病之间的关系可以从MeSH数据库获得,计算祖先疾病t对疾病di的语义值贡献对应的公式为:
其中,△为设置为0.5的语义贡献因子,t′是其中一个祖先疾病,是其中一个祖先疾病t′对疾病di的语义值贡献,/>是祖先疾病t对疾病di的语义值贡献。疾病d对自身的语义贡献值设为1,一种疾病的贡献值随着与其它相关疾病距离的增加而减小,结合其祖先疾病在有向无环图DAG(d)中的贡献值,疾病di的语义值对应的公式为:
其中,T(di)是与疾病di相关的祖先疾病的集合,传统上,疾病对共享的DAG越多意味着它们之间的相似性越大。因此,疾病di和dj的语义相似性对应的公式为:
第二步,在疾病语义相似性网络中,一种DAG较少的疾病往往比另一种DAG较多的疾病对疾病di语义值的贡献更大,因此,在这里引入了一个新的模型,用于计算DAG中疾病t对疾病di语义值的贡献,具体公式为:
第三步,与第一种计算疾病语义值的方法相比,疾病di的语义相似性值对应的公式为:
第四步,疾病di和疾病dj之间的语义相似性值对应的公式为:
第五步,单独使用一种疾病语义相似性计算方法可能难以揭示疾病之间的语义相似性,因此将两种疾病语义相似性值整合在一起,提出疾病语义相似性矩阵DS对应的公式为:
计算出所有疾病之间的语义相似性,从而得到一个疾病语义相似性矩阵。
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵。
在一些实施例中,可以根据步骤1获取的信息数据,计算得到miRNA功能相似性矩阵。
作为示例,根据MeSH数据库获取疾病语义相似性矩阵;根据基因本体数据库获取miRNA的功能相似性矩阵。
例如,通过假设具有相似表型的疾病可能与具有相似功能的miRNA相关,提出了计算miRNA功能相似性的方法,继该方法之后,现有提出了miRNA的功能相似性矩阵FS,其中FS(mi,mj)表征第i个miRNA和第j个miRNA之间的miRNA功能相似性得分。
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵。
在一些实施例中,可以根据获取的miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵。
作为示例,本步骤可以包括以下步骤:
第一步,获取HMDD数据库,从中得到经过传统生物实验验证的miRNA-疾病关联数据,从而得到miRNA-疾病关联邻接矩阵。
第二步,假设具有相似功能的miRNA的变化可能诱发一些相似的疾病,通过高斯相互作用谱核相似性揭示疾病di和疾病dj之间的关系,IP(di)表示疾病di和每个miRNA之间经过验证的关联,IP(dj)相似,nd是疾病的个数,γd是用于调整内核带宽的参数,疾病之间的高斯相互作用谱核相似性矩阵KD对应的公式为:
KD(di,dj)=exp(-γdPIP(di)-IP(dj)P2)
类似于计算疾病之间高斯相互作用谱核相似性,miRNA之间高斯相互作用谱核相似性定义如下,其中IP(mi)表示miRNAmi与每种疾病之间的已知关联,IP(mj)与其相似,nm是miRNA的个数,γm描述的是用于调整内核带宽的参数,miRNA之间的高斯相互作用谱核相似性矩阵KM对应的公式为:
KM(mi,mj)=exp(-γm PIP(mi)-IP(mj)P2)
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵。
在一些实施例中,可以根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA功能相似性矩阵分别与通过miRNA-疾病关联邻接矩阵计算得到的疾病和miRNA高斯相互作用谱核相似性矩阵进行整合。
作为示例,本步骤可以包括以下步骤:
第一步,通过将miRNA的高斯相互作用谱核相似性矩阵KM(mi,mj)和miRNA的功能相似性矩阵FS(mi,mj)整合在一起,以获得miRNA的整合相似性矩阵SM对应的公式为:
第二步,与miRNA类似,将疾病的高斯相互作用谱核相似性矩阵KD(di,dj)和疾病语义相似性矩阵DS(di,dj)整合在一起得到疾病的整合相似性矩阵SD对应的公式为:
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵。
在一些实施例中,可以根据步骤5获得的miRNA和疾病整合相似性矩阵分别与miRNA-疾病的关联邻接矩阵进行拼接,得到miRNA和疾病的综合相似性矩阵。
作为示例,得到的miRNA和疾病综合相似性矩阵分别为:
Sdisease=(D1A1,L,D1A495,L,D383A1,L,D383A495)T
其中,Mi(Mi1,Mi2,...,Mi495),Di(Di1,Di2,...,Di383),Ai,分别表示第i个miRNA与其它miRNA的整合相似性,第i个疾病和其它疾病的整合相似性,已验证的miRNA-疾病关联矩阵的第i行,已验证的miRNA-疾病关联矩阵的第j列转置。
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量。
在一些实施例中,可以使用自动编码器对高维的miRNA-疾病关联特征向量进行处理,降低特征向量维度减少冗余信息。
作为示例,可以分别利用自编码器对495×383行495+495列的SmiRNA矩阵和495×383行383+383列的Sdisease矩阵进行处理,提取它们的低维特征(又称,重要特征),同时降低原始特征向量中隐藏的冗余信息带来的噪声,得到两个低维高质量的miRNA-疾病关联特征向量。
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
在一些实施例中,可以根据步骤7获取的低维高质量的miRNA-疾病关联特征向量,把特征向量送入到轻量梯度提升机分类器进行miRNA-疾病关联预测。
作为示例,可以将得到的两类低维高质量的miRNA-疾病关联特征向量输入到轻量梯度提升机分类器进行预测,从疾病和miRNA角度分别得到一个预测结果,把两个预测结果进行整合得到最终的miRNA-疾病关联预测值。其中,轻量梯度提升机分类器训练的细节在表1包括的算法1中列出:
表1
在miRNA-疾病关联预测方法的最后步骤中,利用miRNA-疾病关联的两类低维高质量特征向量,迭代训练与miRNA和疾病关联预测相关的轻量梯度提升机分类器。其中,在轻量梯度提升机分类器算法中基于单边梯度采样减少了样本数量,专属特征捆绑减少了特征数量,降低了计算成本提高了效率。此外,轻量梯度提升机分类器在叶子节点分裂的方向上增加了深度限制,以确保高效率,同时防止过拟合。
根据提出的方法对miRNA和疾病的潜在关联进行预测,通过进行5折交叉验证实验来评估所提出的预测方法(LGBMDA)的性能,其中,描述假阳性率(FPR)与真阳性率(TPR)关系的ROC曲线用于评价关联预测方法的性能,ROC曲线下的面积为AUC,AUC值越接近1表示本方法的预测性能越好。不同预测方法在HMDDv2.0不平衡数据集上的ROC曲线如图3所示。由高到低依次为LGBMDA、ABMDA、GAEMDA、MLRDFM、SAEMDA,AUC分别为0.9699、0.9428、0.9333、0.9311、0.9164。此外,为了证明在所提出的LGBMDA预测方法中使用轻量梯度提升机分类器的合理性,在图4中,将其与朴素贝叶斯、多层感知机、逻辑回归(LR)和支持向量机等其它分类器进行了比较。很明显,这些分类器的AUC分别为0.9179、0.8661、0.9282、0.9141。因此,可以得出结论,在提出的LGBMDA预测方法中使用轻量梯度提升机分类器是合理的,本发明的预测方法取得了更好的效果。从实验结果来看,本发明与其它方法相比预测性能更高,可以有效的挖掘潜在的miRNA-疾病关联。
综上,本发明首先是利用多源生物学和医学信息获取miRNA-疾病关联邻接矩阵,miRNA功能相似性矩阵,疾病语义相似性矩阵;将miRNA和疾病的相似性矩阵与利用miRNA-疾病关联邻接矩阵计算出的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合;整合相似性矩阵与miRNA-疾病关联邻接矩阵进行拼接得到信息量更丰富的miRNA-疾病关联特征向量;其次利用自动编码器提取综合miRNA特征向量和疾病特征向量的关键特征,最后利用轻量梯度提升机分类器实现miRNA与疾病的潜在关联预测。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,包括以下步骤:
步骤1,从预设数量个外部生物和医学数据源获取miRNA-疾病关联数据,疾病的自相关数据和miRNA的自相关数据;
步骤2,根据步骤1获取的数据,计算得到疾病语义相似性矩阵;
步骤3,根据步骤1获取的数据,计算得到miRNA的功能相似性矩阵;
步骤4,根据步骤1获取的miRNA-疾病关联数据,得到miRNA-疾病关联邻接矩阵,并根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵;
步骤5,根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵;
步骤6,根据步骤5得到的miRNA和疾病的整合相似性矩阵分别与miRNA-疾病关联邻接矩阵进行拼接,得到miRNA和疾病综合相似性矩阵;
步骤7,将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量;
步骤8,将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测。
2.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,获取HMDD数据库,从中得到经过生物实验验证的miRNA-疾病关联数据,从而得到miRNA-疾病关联邻接矩阵;根据MeSH数据库获取疾病语义相似性矩阵;根据基因本体数据库获取miRNA的功能相似性矩阵。
3.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述计算得到疾病语义相似性矩阵,包括:
计算祖先疾病t对疾病di的语义值贡献对应的公式为:
其中,△为设置为0.5的语义贡献因子,t′是其中一个祖先疾病,是其中一个祖先疾病t′对疾病di的语义值贡献,/>是祖先疾病t对疾病di的语义值贡献;疾病d对自身的语义贡献值设为1,结合祖先疾病在有向无环图DAG(d)中的贡献值,疾病di的语义值对应的公式为:
其中,T(di)是与疾病di相关的祖先疾病的集合,疾病di和dj的语义相似性对应的公式为:
另一种计算DAG中疾病t对疾病di语义值的贡献对应的公式为:
疾病di的语义相似性值对应的公式为:
疾病di和疾病dj之间的语义相似性值对应的公式为:
将两种疾病语义相似性值整合在一起,提出疾病语义相似性矩阵DS对应的公式为:
4.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述根据miRNA-疾病关联邻接矩阵,分别计算得到miRNA和疾病的高斯相互作用谱核相似性矩阵,包括:
通过高斯相互作用谱核相似性揭示疾病di和疾病dj之间的关系,IP(di)表示疾病di和每个miRNA之间经过验证的关联,IP(dj)相似,nd是疾病的个数,γd是用于调整内核带宽的参数,疾病之间的高斯相互作用谱核相似性矩阵KD对应的公式为:
KD(di,dj)=exp(-γdPIP(di)-IP(dj)P2)
IP(mi)表示miRNAmi与每种疾病之间的已知关联,IP(mj)与其相似,nm是miRNA的个数,γm描述的是用于调整内核带宽的参数,miRNA之间的高斯相互作用谱核相似性矩阵KM对应的公式为:
KM(mi,mj)=exp(-γmPIP(mi)-IP(mj)P2)
5.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述根据步骤2获得的疾病语义相似性矩阵和步骤3获得的miRNA的功能相似性矩阵分别与步骤4计算得到的miRNA和疾病的高斯相互作用谱核相似性矩阵进行整合,得到miRNA和疾病的整合相似性矩阵,包括:
通过将miRNA的高斯相互作用谱核相似性矩阵KM(mi,mj)和miRNA的功能相似性矩阵FS(mi,mj)整合在一起,以获得miRNA的整合相似性矩阵SM对应的公式为:
将疾病的高斯相互作用谱核相似性矩阵KD(di,dj)和疾病语义相似性矩阵DS(di,dj)整合在一起得到疾病的整合相似性矩阵SD对应的公式为:
6.根据权利要求1所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,得到的miRNA和疾病综合相似性矩阵分别为:
Sdisease=(D1A1,L,D1A495,L,D383A1,L,D383A495)T
其中,Mi(Mi1,Mi2,...,Mi495),Di(Di1,Di2,...,Di383),Ai,分别表示第i个miRNA与其它miRNA的整合相似性,第i个疾病和其它疾病的整合相似性,已验证的miRNA-疾病关联矩阵的第i行,已验证的miRNA-疾病关联矩阵的第j列转置。
7.根据权利要求6所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述将步骤6获得的miRNA和疾病综合相似性矩阵的特征向量输入到自动编码器进行特征提取,提取到低维高质量的miRNA-疾病关联特征向量,包括:
分别利用自编码器对495×383行495+495列的SmiRNA矩阵和495×383行383+383列的Sdisease矩阵进行处理,提取它们的低维特征,同时降低原始特征向量中隐藏的冗余信息带来的噪声,得到两个低维高质量的miRNA-疾病关联特征向量。
8.根据权利要求7所述的一种基于编码器的梯度提升机miRNA-疾病关联预测方法,其特征在于,所述将步骤7得到的低维高质量的miRNA-疾病关联特征向量输入轻量梯度提升机分类器进行miRNA-疾病关联预测,包括:
将得到的两类低维高质量的miRNA-疾病关联特征向量输入到轻量梯度提升机分类器进行预测,从疾病和miRNA角度分别得到一个预测结果,把两个预测结果进行整合得到最终的miRNA-疾病关联预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311235759.3A CN117198407A (zh) | 2023-09-22 | 2023-09-22 | 基于编码器的梯度提升机miRNA-疾病关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311235759.3A CN117198407A (zh) | 2023-09-22 | 2023-09-22 | 基于编码器的梯度提升机miRNA-疾病关联预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117198407A true CN117198407A (zh) | 2023-12-08 |
Family
ID=88997858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311235759.3A Pending CN117198407A (zh) | 2023-09-22 | 2023-09-22 | 基于编码器的梯度提升机miRNA-疾病关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117198407A (zh) |
-
2023
- 2023-09-22 CN CN202311235759.3A patent/CN117198407A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
CN112837753B (zh) | 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 | |
Zhang et al. | CircRNA-disease associations prediction based on metapath2vec++ and matrix factorization | |
CN111681705A (zh) | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
Qu et al. | KATZMDA: prediction of miRNA-disease associations based on KATZ model | |
CN112270958B (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
CN111899882A (zh) | 一种预测癌症的方法及系统 | |
Jiang et al. | A generative adversarial network model for disease gene prediction with RNA-seq data | |
CN116343927A (zh) | 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法 | |
Ai et al. | MHDMF: prediction of miRNA–disease associations based on deep matrix factorization with multi-source graph convolutional network | |
Yu et al. | Predicting multiple types of MicroRNA-disease associations based on tensor factorization and label propagation | |
Ai et al. | A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases | |
Wang et al. | Mshganmda: Meta-subgraphs heterogeneous graph attention network for mirna-disease association prediction | |
Gao et al. | A new method based on matrix completion and non-negative matrix factorization for predicting disease-associated miRNAs | |
CN117198407A (zh) | 基于编码器的梯度提升机miRNA-疾病关联预测方法 | |
Ahmed et al. | A comparative analysis of deep learning-based techniques for miRNA prediction associated with mRNA sequences | |
Liu et al. | Representation Learning for Multi-omics Data with Heterogeneous Gene Regulatory Network | |
Zhou et al. | A method based on dual-network information fusion to predict MiRNA-disease associations | |
Li et al. | HoRDA: Learning higher-order structure information for predicting RNA–disease associations | |
Liu et al. | Tensor product graph diffusion based on nonlinear fusion of multi-source information to predict circRNA-disease associations | |
CN113743589A (zh) | 一种基于堆栈自编码器的miRNA生物标志物识别方法及系统 | |
Li et al. | Predicting mirna-disease association based on improved graph regression | |
Zheng et al. | DLP: duplex link prediction via subspace segmentation for predicting drug-miRNA associations | |
CN117153325B (zh) | 一种基于图对比学习的抗癌药物有效性评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |