CN116543832A - 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 - Google Patents
基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 Download PDFInfo
- Publication number
- CN116543832A CN116543832A CN202310389962.XA CN202310389962A CN116543832A CN 116543832 A CN116543832 A CN 116543832A CN 202310389962 A CN202310389962 A CN 202310389962A CN 116543832 A CN116543832 A CN 116543832A
- Authority
- CN
- China
- Prior art keywords
- mirna
- disease
- hypergraph
- similarity
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 260
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 260
- 239000002679 microRNA Substances 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000011159 matrix material Substances 0.000 claims abstract description 103
- 108091070501 miRNA Proteins 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013518 transcription Methods 0.000 claims abstract description 9
- 230000035897 transcription Effects 0.000 claims abstract description 9
- 230000033228 biological regulation Effects 0.000 claims abstract description 7
- YKSIHFDRGQQOCJ-LHHMOHDTSA-N mycothione Chemical compound O([C@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1NC(=O)[C@@H](NC(C)=O)CSSC[C@H](NC(=O)C)C(=O)N[C@H]1[C@H](O[C@H](CO)[C@@H](O)[C@@H]1O)O[C@@H]1[C@@H]([C@H](O)[C@@H](O)[C@H](O)[C@H]1O)O)[C@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](O)[C@H]1O YKSIHFDRGQQOCJ-LHHMOHDTSA-N 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000012216 screening Methods 0.000 abstract description 4
- 230000001502 supplementing effect Effects 0.000 abstract 1
- 108700011259 MicroRNAs Proteins 0.000 description 75
- 238000013459 approach Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000011524 similarity measure Methods 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 230000008685 targeting Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 108020005198 Long Noncoding RNA Proteins 0.000 description 2
- 238000000636 Northern blotting Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000004186 co-expression Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 208000017520 skin disease Diseases 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 108091033317 MiRTarBase Proteins 0.000 description 1
- 208000037273 Pathologic Processes Diseases 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 208000018677 Skin and Connective Tissue disease Diseases 0.000 description 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 208000030270 breast disease Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 108091028838 miR-2 stem-loop Proteins 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000009054 pathological process Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000014493 regulation of gene expression Effects 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biotechnology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于多尺度超图卷积的疾病‑miRNA关系预测方法及应用,在ncRNA‑miRNA‑mRNA转录调控网络上来进行miRNA相似性计算,利用Jaccard方法得到miRNA的相似矩阵,得到靶向关系信息比目前用于疾病相关miRNA预测的miRNA‑target关系网数据更全,更能表现miRNA在转录层面的特征。使用类似的方法,我们得到基于疾病标志有向无环图得到疾病相似矩阵,再训练集中的miRNA‑disease矩阵将稀疏矩阵进行一定程度的补充。在矩阵之上通过不同对相似度进行多个top筛选得到多个均匀超图,再将其拼接,得到最后的多尺度均匀超图,再在其上采用交叉熵损失进行端到端的训练。我们综合考虑了基于相似性的方法以及基于简单图的方法,创造性地提出了基于多尺度超图学习的模型,并最后得到了良好的实验结果。
Description
技术领域
本发明属于计算机与医学交叉领域的研究,涉及一种基于多尺度超图卷积的疾病-miRNA关系预测方法及应用。
背景技术
MicroRNA(miRNA)是一种小的非编码RNA分子,对基因表达调控起着至关重要的作用。它们通过结合靶点,促进其降解或抑制其翻译成蛋白质。研究表明,miRNA参与了广泛的生理和病理过程,包括各种疾病的产生与发展。而miRNA-disease的预测研究是一个新兴的生物信息研究领域,它旨在利用miRNA的表达水平或者其他信息来预测某种疾病的发生。同时,miRNA也经常被认为是癌症诊断和预后的一种重要指标,通过对特定miRNA的表达水平进行检测,可以提前检测出潜在的病变和疾病。通过对相应miRNA的组合分析,还可以进一步得到疾病的特定表型和病理类型,从而更准确地预测病情发展趋势,为个性化治疗提供参考依据,可以更快地提前采取治疗措施,减轻患者的病情,从而改善患者的生活质量。
传统的用于疾病-miRNA关系预测的实验方法主要包括逆转录聚合酶链反应(PCR)、Northern印迹、微整列分析等。一般来说,实验方法往往是低效的,需要大量的时间和金钱的投资。然而,由于这些实验方法的可靠性,目前已经建立了许多权威的生物信息学数据库来存储实验证实了的疾病相关miRNA,例如人类癌症中差异表达的miRNA数据库(dbDEMC),人类miRNA疾病数据库(HMDD)和人类疾病(miR2Disease)。
在过去的十年中,提出了许多基于传统机器学习或者深度学习的疾病关联miRNA预测的方法。基于功能相似的miRNA倾向于与表型相似的疾病相关的假设,对疾病相关的miRNA进行相关性排序,相似矩阵的作用在这些方法中尤为重要。例如,Jiang等人首先开发了一种计算方法,基于人类表型-miRNA网络来检查功能相关的miRNA和表型相似的疾病之间的关系。由于在miRNA-靶标关联中存在较高的假阳性和假阴性率,该方法的预测性能受到了限制。此外,Chen等人在2016年提出了miRNA-疾病对的内部得分和外部得分这一概念,基于miRNA-疾病网络计算其内部得分(WS),即miRNA和疾病之间的功能相似性,计算其外部得分(BS),即miRNA和疾病的邻居节点之间的功能相似性,根据WS和BS,计算每个miRNA-疾病对的综合得分(WBS)预测潜在的疾病相关miRNA。Che等人设计了一种基于隐特征提取的计算miRNA功能相似度,利用Levenshtein距离计算miRNA序列之间的距离,并提出了预测潜在关联的LFEMDA方法。此外,Zhang等人提出了一种基于快速线性邻域相似度的网络链接推断方法,简称FLNSNLI。该方法首先将已知的miRNA-疾病关联数据被构建为一个二分网络,miRNA(或疾病)被表示为关联向量;然后利用关联向量计算miRNA-miRNA相似度和疾病-疾病相似度,并结合线性邻域相似度公式,得到miRNA-疾病之间的潜在链接得分;最后根据链接得分对疾病相关miRNA进行排序和预测。根据集成的多个数据源,包括针对疾病基因信息、miRNA靶基因信息和基因相似性信息,Ma等人构建了新的miRNA和疾病相似性矩阵,并应用核相似度算法计算miRNA和疾病的核邻居相似度。最后,他们采用双向传播算法获得了预测得分。
为了进一步预测不同类型的miRNA疾病关联,而不只是简单对相似矩阵进行操作,Chen等人利用受限的Boltzmann机器作为分类器,并提出了RBMMDA方法。然后,Chen等人提出了基于滤波器的特征选择策略和随机森林分类器相结合的RFMDA方法,以增强预测性能。后来,在RFMDA的激励下,Yao等人进一步设计了IRFMDA方法,该模型利用了miRNA和疾病之间的功能相似性、拓扑相似性和协表达相似性,以及miRNA和疾病的已知关联信息,构建了一个多维特征空间。然后,该模型采用了一种基于密度峰值聚类的样本空间降维方法,以减少计算复杂度和提高预测精度。最后,该模型在降维后的样本空间上训练了一个随机森林回归模型进行评分。此外,Yan等人提出了DNRLMF-MDA方法,该方法利用逻辑矩阵分解和动态邻域正则化来计算miRNA疾病关联概率。彭等人提出了MDA-CNN方法,该方法采用三层网络和自动编码器来捕获显著的miRNA疾病特征组合,并采用卷积神经网络来获得最终预测分数。Zheng等人通过整合异质信息源开发了MLMDA,通过充分利用基于k-mer稀疏矩阵的miRNA序列信息来训练随机森林分类器。Zhou等人提出了一种新的miRNA疾病相关性预测方法,称为GBDT-LR,该方法首先通过对未知miRNA疾病关联采用k均值聚类来筛选阴性样本,然后应用梯度增强决策树来挖掘更多的差异特征,并采用logistic回归模型以获得最终预测分数。同时,通过将miRNA、疾病、lncRNA、药物和蛋白质之间的相互作用整合到异质网络中,Ji等人使用全局结构信息(GraRep)方法的学习图表示来获得miRNA和疾病的综合特征,并采用随机森林用于预测的分类器。受图神经网络对图结构数据所取得的巨大进展的影响,大量基于图神经网络的方法正应用于生物网络,以解决潜在的miRNA-疾病关联的预测。例如,Li等人提出了HGCNMDA方法来推断与疾病相关的miRNA采用node2vec算法和PPI网络上的图卷积网络来获取miRNA与疾病的交叉特征,并设计了一个潜在的边缘特征提取组件关联预测。为了获得更有价值的miRNA和疾病的特征,Li等人对miRNA相似度网络和疾病相似度网络进行了图卷积网络并提出了基于神经诱导矩阵补全生成miRNA-疾病关联的方法。通过将miRNA相似性和疾病相似性结合成一个完整的网络,Li等人提出了一种基于图卷积网络的算法,用于潜在的miRNA-疾病关联预测。
现有的疾病-miRNA关系预测的常用方法存在以下的缺陷和不足:
(1)基于实验验证的方法(包括Northern blotting、qPCR、RNAseq、miRNA芯片等)可以提供直接的实验数据验证疾病-miRNA关系,但是这些实验成本高,需要耗费大量时间和资源,且存在一定的技术限制;
(2)基于相似性的方法是通过计算疾病或miRNA之间的相似性来推断它们之间的关系。虽然这种方法在某些情况下能够提供有用的信息,但基于相似性的预测方法依赖于假设相似的疾病或miRNA之间存在相似的生物学特征或功能,这种假设并不总是成立,尤其是在涉及复杂的疾病或miRNA网络时;
(2)基于简单图的方法在疾病-miRNA关系预测已经取得了不小的成功,但它们对生物实体之间的复杂关系进行建模的能力依旧是有限的。图本质上模拟实体对之间的关系,但生物系统中实体之间的关系是复杂多样的,使用简单图无法反映复杂的关系。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于多尺度超图卷积的疾病-miRNA关系预测方法及应用。
技术方案
一种基于多尺度超图卷积的疾病-miRNA关系预测方法,其特征在于步骤如下:
步骤1、构建疾病-疾病相似度矩阵DM,以及miRNA-miRNA相似度矩阵IM:
步骤a1:计算miRNA之间的相似度MSSM(i,j)、疾病之间的相似度DSSM(i,j):
计算任意两个miRNA之间的MSSM相似度MSSM(i,j):
其中:J(i,j)代表miRNA i和miRNA j的Jaccard相似度,Mi、Mj分别代表miRNA i和miRNAj的靶标集合,即与该miRNA节点相连的节点集合;
计算任意两个疾病之间的DSSM相似度DSSM(i,j)
其中DSSM1(i,j)代表疾病i和疾病j的DSSM1相似度,DSSM2(i,j)代表疾病i和疾病j的DSSM2相似度;
步骤a2:利用miRNA-disease关联矩阵计算miRNA之间的高斯相似度MGSM(i,j)、疾病之间的高斯相似度DGSM(i,j)
计算任意两个miRNA之间的高斯相似度MGSM(i,j):
MGSM(i,j)=exp(-rm||IP(i)-IP(j)||2)
其中:
高斯相似度MGSM(i,j)中的IP(i)和IP(j)分别代表miRNA-疾病关联矩阵中第i行和第j行的列和,r′m设置为1;
计算任意两个疾病之间的高斯相似度DGSM(i,j):
DGSM(i,j)=exp(-rd||IP(i)-IP(j)||2)
其中:
高斯相似度DGSM(i,j)中的IP(i)和IP(j)分别代表miRNA-疾病关联矩阵中第i列和第j列的行和,r′d设置为1;
步骤a3:通过MSSM(i,j)和MGSM(i,j)得到miRNA-miRNA相似度矩阵IM:
对于矩阵IM中的每一个位置(i,j),如果miRNA i和miRNA j之间存在MSSM(i,j),那么该位置的值就等于MSSM(i,j),如果不存在,那么值就等于MGSM(i,j);
通过DSSM(i,j)和DGSM(i,j)得到疾病-疾病相似度矩阵DM:
对于矩阵DM中的每一个位置(i,j),如果疾病i和疾病j之间存在DSSM(i,j),那么该位置的值就等于DSSM(i,j),如果不存在,那么值就等于DGSM(i,j);
步骤2、根据相似度矩阵得到多尺度超图;
miRNA的k-均匀超图:将所有miRNA的集合看作miRNA k-均匀超图的点集Vm;对于每一个miRNA,将它最相似的前k个miRNA视为与他相连,看作一条超边,得到超边集因为每条超边都会被分配权重,有权重矩阵W,采用/>表示miRNA的k-均匀超图;从miRNA相似性矩阵IM出发,通过设置k=2~8,得到miRNA不同尺度的超图
其中:miRNA不同尺度的超图中Vm相同;一条超边上包含k+1个miRNA:该miRNA和与他最相似的k个miRNA;miRNA不同尺度的超图中W相同;
疾病的k-均匀超图:将所有疾病的集合看作疾病k-均匀超图的点集Vd;对于每一个疾病,将它最相似的前k个疾病视为与他相连,看作一条超边,得到超边集因为每条超边都会被分配权重,所以有权重矩阵W,用/>来表示疾病的k-均匀超图;从疾病相似性矩阵DM出发,通过设置k=2~8,得到疾病不同尺度的超图/>
其中:疾病不同尺度的超图中Vd相同;一条超边上包含三个疾病:该疾病和与他最相似的两个疾病;疾病不同尺度的超图中W相同;
步骤3、利用超图卷积对多尺度超图进行学习:
采用超图卷积神经网络HGNN对步骤2得到的不同尺度超图进行学习,得到不同尺度超图中的节点表示:
所述miRNA-miRNA的多尺度超图节点特征更新公式:
其中:k表示在miRNA的k-均匀超图上进行运算;表示m个miRNA来自超图卷积l+1层的特征,/>代表m个miRNA来自超图卷积l层的特征;σ(·)是非线性激活函数;Dv[k]代表miRNA的k-均匀超图的超边度矩阵的对角矩阵,De[k]代表miRNA的k-均匀超图的顶点度矩阵的对角矩阵;Hm[k]代表miRNA-miRNA的k-均匀超图对应的邻接矩阵;W代表权重矩阵;Θ代表滤波器,由于是并行运算,滤波器并不共享,/>表示在miRNA的k-均匀超图上第l个超图卷积层上的滤波器;
所述疾病-疾病的多尺度超图节点特征更新公式:
其中:k表示在疾病的k-均匀超图上进行运算;表示d个疾病来自超图卷积l+1层的特征,/>代表d个疾病来自超图卷积l层的特征;σ(·)是非线性激活函数;Dv[k]代表疾病的k-均匀超图的超边度矩阵的对角矩阵,De[k]代表疾病的k-均匀超图的顶点度矩阵的对角矩阵;Hd[k]代表疾病-疾病的k-均匀超图对应的邻接矩阵,W代表权重矩阵;以同等看待不同尺度的超图,因此不同尺度的超图中W不变;Θ代表滤波器,由于是并行运算,滤波器并不共享,/>表示在疾病的k-均匀超图上第l个超图卷积层上的滤波器;
步骤4、设计目标函数,将不同尺度超图上经过训练的节点表示进行拼接:
对于miRNA-miRNA的多尺度超图,采用公式:
其中代表m个miRNA的最终表示,/>代表m个miRNA在2-超图到8-超图上的表示,concat(·)代表concat操作;
对于疾病-疾病的多尺度超图,采用公式:
其中代表d个疾病的最终表示,/>代表d个疾病在2-超图到8-超图上的表示,concat(·)代表concat操作;
然后,采用交叉熵损失函数对模型进行训练和优化:
其中,yij代表miRNA-疾病对的真实标签,代表miRNA-疾病对的预测评分,y∪y-代表训练中使用到的正负样本集合,即整个训练集;通过神经网络的反向传播,对训练数据进行训练,使LOSS随着训练迭代次数的增加而不断减小,最终在训练数据上训练好了模型,得到基于多尺度超图学习的模型;
步骤5:将测试数据输入该训练好的模型,输出测试数据即为预测结果。
所述miRNA-疾病关联矩阵是一个m*n的矩阵,根据miRNA-疾病关系来构建:如果miRNAi和疾病j之间有关联,那么矩阵中(xi,yj)就等于1,否则就为0。
所述步骤1的数据来源于MESH数据库中和疾病有关的数据。
一种所述基于多尺度超图卷积的疾病-miRNA关系预测方法的应用,其特征在于:所述步骤1~步骤4基于多尺度超图学习的模型的创建过程用于某类疾病的miRNA-disease预测模型的创建。
一种利用所述应用建立的模型,其特征在于:模型为三个模块:相似度矩阵构建模块、超图卷积模块、预测模块;通过MSSM和MGSM得到miRNA-miRNA相似度矩阵IM,通过DSSM和DGSM得到疾病-疾病相似度矩阵DM;在超图卷积模块中,通过相似度矩阵IM和DM分别构建miRNA的k-均匀超图和疾病的k-均匀超图/>再将/>和/>分别输入超图卷积神经网络得到不同尺度超图上的节点表示,通过拼接不同尺度超图上的节点表示得到miRNA的最终向量表示和疾病的最终向量表示;经过预测模块将miRNA的最终向量表示和疾病的最终向量表示点乘,得到任何一对<miRNA-疾病>的预测结果,点乘结果越大,代表两者有关联的可能性越大。
所述MSSM和MGSM以及DSSM和DGSM的来源是:从lncRNA-miRNA-mRNA转录调控网络和MESH数据库中分别得到miRNA-miRNA相似度MSSM以及疾病-疾病相似度DSSM,再通过miRNA-疾病关联矩阵得到miRNA之间的高斯核相似性MGSM以及疾病之间的高斯核相似性DGSM。
所述疾病的miRNA-disease预测模型用于该类的miRNA-disease两者之间相关性的预测。
有益效果
本发明提出的一种基于多尺度超图卷积的疾病-miRNA关系预测方法及应用,首次采用了基于多尺度超图学习的模型在miRNA-disease预测问题上。因为之前基于相似性的方法大多采用功能数据或者疾病数据,对于miRNA-disease预测问题会造成数据泄露的问题,因此本方案在ncRNA-miRNA-mRNA转录调控网络上来进行miRNA相似性计算,利用Jaccard方法得到miRNA的相似矩阵。得到的靶向关系信息比目前用于疾病相关miRNA预测的miRNA-target关系网数据更全,更能表现miRNA在转录层面的特征。使用类似的方法,我们可以基于疾病标志有向无环图得到疾病相似矩阵,再利用训练集中的miRNA-disease矩阵将稀疏矩阵进行一定程度的补充。在矩阵之上通过不同对相似度进行多个top筛选得到多个均匀超图,再将其拼接,得到最后的多尺度均匀超图,再在其上采用交叉熵损失进行端到端的训练。我们综合考虑了基于相似性的方法以及基于简单图的方法,创造性地提出了基于多尺度超图学习的模型,并最后得到了良好的实验结果。
附图说明
图1:本发明方法的模型图
图2:对比试验结果图
图3:多尺度超图拼接实验
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明技术方案主要由两个部分组成,分别为:(1)相似性度量;(2)基于多尺度超图进行预测。下面对三个部分的技术方案进行一个详细的介绍:
(1)相似性度量
在相似性度量这一部分中,我们又将其细分为miRNA相似性度量、疾病相似性度量,相似性矩阵填充以及相似性矩阵融合四个步骤。
①首先,我们需要进行miRNA的相似性度量。通过测量miRNA功能相似性来进行疾病-miRNA关系预测是目前的研究热点,我们的方法中也涉及到miRNA相似网络的构建。目前miRNA相似性度量方法可分为三种,基于序列数据的,基于基因表达数据的,以及基于关系图数据的。
miRNA作为内源小分子RNA,可通过与mRNA相结合发挥调控作用,在序列上存在结合靶点,因此基于序列的方法可通过序列相似性来衡量miRNA的功能相似性。同时,miRNA发挥调控作用,会导致mRNA表达上调或降低,miRNA本身的表达也会发生变化,因此基于基因表达数据的方法可以据此来进行相关分析,如果miRNA共表达,在表达趋势上有很强的相关性,那么可能发挥类似的作用。基于图数据的方法,一般用的是miRNA-disease、miRNA-mRNA或者miRNA功能数据,通过这些关系数据来挖掘出图结构上miRNA节点间的共性。
我们通过构建lncRNA-miRNA-mRNA转录调控网络,可以轻易得出miRNA蕴含lncRNA、mRNA信息的靶向关系网。然后采用Jaccard相似度方法来对miRNA间的相似度进行衡量,将lncRNA-miRNA-mRNA看作是属于Mi的的靶标集合。Jaccard相似度常用来度量有限数目集合的相似度,曾在类似生物计算问题中被应用,具体公式为:
②然后,与求miRNA相似性类似,疾病相似性也可以通过挖掘图关系来获得。我们通过构建疾病-疾病有向无环图可以建立层次结构。其中根节点是基础或概述性疾病,比如肿瘤,在无向图中标志为C04,内部节点是按部位分类的肿瘤,在MeSH中标志为C04.588,同时另一个分支中,根节点是皮肤和结缔组织疾病,在MeSH中标志为C17,内部节点是皮肤病,在MeSH中标志为C17.800,同时还有内部节点乳腺疾病,在MeSH中标志为C17.800.090,为皮肤病的子节点,两个分支相交的叶节点则是乳腺癌,在MeSH中标志为C04.588.180、C17.800.090.500。由此可知,一个疾病在数据库中有可能有多个标志来进行表示,这样的节点往往是叶节点,因此,计算两个疾病的相似度需要进行相对复杂的考量多个子图。
本方案中采用术语“层次距离”来评价一个子图中两个疾病的相似度,层次距离越大相似度越大。我们结合已有的研究结果,认为在同一子图中,疾病的层次距离随着距离层次拉大而递增。疾病i与疾病j的层次距离可以表示成公式:
我们用α来控制层次距离的衰减速率,可以看到只有属于同一子图,也就是在DAG中具有同一根节点的两个疾病才具有层次距离。为了更好的衡量两个疾病的相似度,我们对一种疾病与所在子图的关系给出一个衡量标准,距离根节点层数越多,那么在DAG中对表达该疾病具体语义所需要途径的内部节点越多,可以结合D1表达成公式:
DS1(i)=∑j∈T(i)D1(i,j)
在此式中,T(i)是节点i的及其既往祖先节点组成的节点集合。
据之前研究结果启发,我们认为共享有更多相同祖先节点的两个疾病di与dj具有更相似的关系,因此可列出公式:
因为DSSM1是建立在D1基础上的,而D1建立在两个疾病i、j要属于同一子图,不然没有所谓的层次距离,由此计算的DSSM1是有一定不足的,因此我们依据现有研究结果采用了新的距离公式进行补充:
与DS1类似,需要对疾病与所在子图的关系给出一个衡量标准:
DS2(i)=∑j∈T(i)D2(i,j))
出现次数较多的疾病可能更常见,在DAG中同一层的语义贡献度应该更小,也就说共享有更多罕见祖先节点的两个疾病di与dj具有更相似的关系,DSSM1不足以完全描述这些关系,因此我们同时采用了另一种疾病相似度计算方法:
综合上述两种相似度计算方法考量两个疾病的相似度,公式为:
③因为miRNA、disease相似矩阵都非常稀疏,我们引入高斯核相似性,根据miRNA-disease矩阵,对其进行填充:鉴于目前已有的研究结果,我们认为如果两个miRNA相似,那么它们很有可能在同一种疾病中都发挥作用。因此我们可以依据现有的miRNA-disease关系来计算高斯核相似性。在最后,我们构建了一个向量IP(i)来表示miRNA与每种疾病之间的关联关系,并用rm来限制比率。两个miRNA i、j之间的高斯核相似性可按照如下公式计算:
MGSM(i,j)=exp(-rm‖IP(i)-IP(j)‖2)
我们用同样的方法来计算两个疾病i、j之间的高斯核相似性:
DGSM(i,j)=exp(-rd‖IP(i)-IP(j)‖2)
在我们中,IP(i)表示为关联矩阵第i行的列和,如或者第i列的行和,如/>参考之前的研究结果r′d和r′m均置为1。
④最后,我们按以下公式将两种相似性矩阵进行融合:
(2)基于多尺度超图进行预测
基于上面得到的miRNA、疾病相似矩阵,我们提出了一种基于多尺度超图学习的模型来对miRNA-disease进行预测,主要思路是通过多尺度的超图卷积来对其进行挖掘,最后通过矩阵补全进行预测,算法框架图如图1所示。下面通过超图卷积层、多尺度超图构建、目标函数设计三个部分来对技术方案做一个详细描述。
①首先,与固定一条边上只有两个顶点的简单图不同,超图中的超边可以连接两个乃至多个顶点,相比于简单图,超图对于异构网络有自己独特的优势。结合之前的研究结果,我们决定采用超图卷积超图来进行miRNA-disease预测任务,充分提取来自miRNA、disease相似矩阵的信息。miRNA、disease相似矩阵可以被看做是两个带权网络。超图被定义为G=(V,E,W),它包含一个点集V,一个超边集E。每个超边被分配的权重为W。超图G可以用|V|×|E|关联矩阵H表示,公式定义为:
对于任意一个顶点vi,它的度可以用公式表示为类似地,对于任意一个超边ei,它的度数可以用公式表示为δi=∑v∈Vh(v,ei)。由此可以分别计算出超边度矩阵和顶点度矩阵的对角矩阵De和Dv。
我们将超边组联合以生成超图邻接矩阵H。超图特征矩阵H和节点特征被送到HGNN层以获得节点的标签。我们用以下公式建立超边卷积层f(X,W,Θ)。
对于节点维度为c1初始特征x(1),我们使用滤波器Θ(1)来进行提取,得到维度为c2的节点高阶特征。接着通过节点聚合得到超边的特征,这一步通过乘以来自RE×N空间的矩阵HT即可。再通过聚合节点的相关超边特征,再乘以矩阵H,即可得到节点嵌入x(2)。
用公式来进行严谨的描述如下:
其中,X(l)表示来自超图卷积l层的特征,特征空间维度为RN×C,X(0)初始化为节点特征X,σ(·)是非线性激活函数。
②然后,为了挖掘不同尺度的特征,我们同时在多个不同超边数的均匀超图上并行训练,并将在其上得到的节点表示融合成节点的最终表示。对于多尺度均匀超图来说,可以看作是将多个不同尺度的均匀超图联立在一起,给予对应的输入,将它们的输出合并作为节点的最终表示,用来进行预测任务。每个均匀超图上的运算过程可以用公式表述为:
其中,k表示为在k-均匀超图上的,对于不同尺度的均匀超图来说,顶点以及超边的度对角矩阵都会发生变化,因此用De[k]和Dv[k]表示。由于是并行运算,滤波器并不共享,表示为Θ(l)[k]。在本方案中,所有超边给予同样的关注度,因此权重矩阵W不变。
如算法框架图所示,我们的超图是建立在miRNA、disease两个相似矩阵上的,对此,在建立k-均匀超图上时,实际上分别对每一个miRNA、disease取相似度前k的miRNA、disease,在邻接矩阵上对应地方置为1,其余地方补0。
由此可分别建立公式来表述,对于miRNA来说:
有Gm=(Vm,Em,W),对于上式来说,v∈Vm,e∈Em。
对于疾病来说:
有Gd=(Vd,Ed,W),对于上式来说,v∈Vd,e∈Ed。
③最后,我们需要设计目标函数来对模型进行训练。在该方案中,我们采用点乘来进行miRNA-disease预测,首先需要将多尺度超图上经过训练的节点表示进行拼接,对于miRNA来说为:
对于疾病来说为:
可以将预测结果写成如下形式,对于miRNA i和disease j的预测评分为:
本方案采用交叉熵损失函数来对我们提出的模型进行训练和优化,公式为:
其中,yij是样本标签,y和y-代表邻接矩阵对应地方是1还是0,即正负样本。
在完成算法模型的基础上还进行了对比试验、多尺度超图拼接实验来验证我们模型的可行性和优越性,具体的实施方式、相关参数以及实验结果详细介绍如下:
(1)数据来源以及相关实验设置
①数据来源:
我们选取MeSH数据库的50956条医学相关词条,筛选后得到包含4407个疾病的有向无环图;
我们选取来自HMDD数据库的经过实验验证的miRNA-disease对共35548条;
我们从lncRNASNP2数据库中提取经实验验证了的miRNA-lncRNA相互作用数据,从miRTarBase下载经实验验证了的miRNA-mRNA相互作用数据,融合筛选之后得到我们所需要的lncRNA-miRNA-mRNA转录调控网络。通过该网络,我们可以轻易得出miRNA蕴含lncRNA、mRNA的靶向关系网,这些靶向关系比目前用到的miRNA-tar get关系网数据更全,更能表现miRNA在转录层面的特征。
②相关技术方案的实施步骤与方式如下:
首先是相似性度量:我们采用Jaccard相似度来对miRNA间的相似度进行衡量,得到J(i,j);通过建立层次结构来计算疾病之间的相似度DSSM1,将其与DSSM2求平均之后,得到两个疾病最终的相似度DSSM(i,j);引入高斯核相似性,根据miRNA-di sease矩阵,对两个稀疏的相似矩阵进行填充;最后根据相关公式进行相似性矩阵融合。
然后是基于多尺度超图的预测框架搭建:我们采用超图卷积来进行miRNA-disease预测任务,充分提取来自miRNA、disease相似矩阵的信息;同时在多个不同超边数的均匀超图上并行训练,并将在其上得到的节点表示融合成节点的最终表示。
最后是预测器的训练:我们将多尺度超图上经过训练的节点表示进行拼接,用点乘结果作为预测评分,采用交叉熵损失函数来对模型进行训练和优化。
③相关实验设置:
该模型采用2层超图卷积,并进行6个尺度的均匀超图拼接,用5折交叉检验方法进行实验。miRNA与disease维度保持一致,固定为256维。在进行五折交叉检验时,采用基于训练集的高斯核相似性对miRNA和疾病相似矩阵进行补全,避免标签泄露。
(2)对比试验
如图2所示,对于miRNA-disease预测任务,不难看出我们提出的方法在所有指标上均性能最高,尤其相对于传统的图机器学习方法LINE、SDNE、GAE,均取得了较大提高,在AUROC预测指标上至少提高了25.79%(从0.694到0.9519),在AUPR预测指标上至少提高了43.29%(从0.5133到0.9462),在F1-score预测指标上提高了35.83%(从0.4789到0.8372)。相对于deepwalk、node2vec、struc2vec这类基于随机游走的图表示学习方法,则在AUROC预测指标上至少提高了24.99%(从0.702到0.9519),在AUPR预测指标上至少提高了42.22%(从0.524到0.9462),在F1-score预测指标上提高了30.51%(从0.5321到0.8372)。说明我们的方法相较于同样基于随机游走的图表示学习方法取得了显著进步。相对于Laplacian、GF、SVD、HOPE、GraRep这类基于矩阵分解的图表示学习方法,则在AUROC预测指标上至少提高了22.43%(从0.7276到0.9519),在AUPR预测指标上至少提高了38.93%(从0.5569到0.9462),在F1-score预测指标上提高了28.52%(从0.552到0.8372)。而对于2020最新提出来的专门针对miRNA-disease预测任务的NIMCGCN,我们在三个性能指标上也取得了突破,尤其是在关于正负样本不均衡的指标上。各方法具体指标见表1。
表1对比试验结果表
(3)多尺度超图拼接实验
该专利提出的算法是基于多尺度超图的,为了证明拼接的不同尺度超图对于
预测任务是有利的,我们从两个方面的实验来说明了多尺度超图拼接的有效性,首先是进行每个尺度超图的实验,其次是做多个不同尺度超图的拼接实验,证明我们提出的多尺度超图并行训练的思想是行之有效的。
如图3所示,对于miRNA-disease预测任务,单个超图卷积也是有效的,比起传统的图表示学习方法要好,但并不是所有尺度的均匀超图都能完全压过普通图,存在部分尺度的超图,比如已经退化成一般图的2-均匀超图,有模型性能指标甚至不如,并不能完全胜过,这也说明了将2-均匀超图作为多尺度超图一部分的合理性。在AUROC预测指标上多尺度模型变化区间在0.9147到0.9266之间,在AUPR预测指标上多尺度模型变化区间在0.9106到0.9241之间,在F1-score性能指标上变化区间在0.7474到0.7656之间。具体指标如下表2所示。
表2单一尺度超图实验结果
根据如图所示,对于miRNA-disease预测任务,多尺度超图并行训练最后将节点表示进行拼接来进行预测的方式,呈现出明显的优越性,模型性能相比于单尺度超图基本都有较大提升。
在AUROC预测指标上多尺度模型变化区间在0.9189到0.9519之间,在AUPR预测指标上多尺度模型变化区间在0.9183到0.9462之间,在F1-score性能指标上变化区间在0.7415到0.8372之间。具体指标如下表3所示。
表3多尺度超图拼接实验结果
/>
Claims (7)
1.一种基于多尺度超图卷积的疾病-miRNA关系预测方法,其特征在于步骤如下:
步骤1、构建疾病-疾病相似度矩阵DM,以及miRNA-miRNA相似度矩阵IM:步骤a1:计算miRNA之间的相似度MSSM(i,j)、疾病之间的相似度DSSM(i,j):计算任意两个miRNA之间的相似度MSSM(i,j):
其中:(i,j)代表miRNAi和miRNAj的Jaccard相似度,Mi、Mj分别代表miRNA i和miRNAj的靶标集合,即与该miRNA节点相连的节点集合;
计算任意两个疾病之间的相似度DSSM(i,j)
其中:DSSM1(i,j)代表疾病i和疾病j的DSSM1相似度,DSSM2(i,j)代表疾病i和疾病j的DSSM2相似度;
步骤a2:利用miRNA-disease关联矩阵计算miRNA之间的高斯相似度MGSM(i,j)、疾病之间的高斯相似度DGSM(i,j)
计算任意两个miRNA之间的高斯相似度MGSM(i,j):
MGSM(i,j)=exp(-rm||IP(i)-IP(j)||2)
其中:
高斯相似度MGSM(i,j)中的IP(i)和IP(j)分别代表miRNA-疾病关联矩阵中第i行和第j行的列和,r′m设置为1;
计算任意两个疾病之间的高斯相似度DGSM(i,j):
DGSM(i,j)=exp(-rd||IP(i)-IP(j)||2)
其中:
高斯相似度DGSM(i,j)中的IP(i)和IP(j)分别代表miRNA-疾病关联矩阵中第i列和第j列的行和,rd ′设置为1;
步骤a3:通过MSSM(i,j)和MGSM(i,j)得到miRNA-miRNA相似度矩阵IM:
对于矩阵IM中的每一个位置(i,j),如果miRNA i和miRNA j之间存在MSSM(i,j),那么该位置的值就等于MSSM(i,j),如果不存在,那么值就等于MGSM(i,j);
通过DSSM(i,j)和DGSM(i,j)得到疾病-疾病相似度矩阵DM:
对于矩阵DM中的每一个位置(i,j),如果疾病i和疾病j之间存在DSSM(i,j),那么该位置的值就等于DSSM(i,j),如果不存在,那么值就等于DGSM(i,j);
步骤2、根据相似度矩阵得到多尺度超图;
miRNA的k-均匀超图:将所有miRNA的集合看作miRNA k-均匀超图的点集Vm;对于每一个miRNA,将它最相似的前k个miRNA视为与他相连,看作一条超边,得到超边集因为每条超边都会被分配权重,有权重矩阵W,采用/>表示miRNA的k-均匀超图;从miRNA相似性矩阵IM出发,通过设置k=2~8,得到miRNA不同尺度的超图/>
其中:miRNA不同尺度的超图中Vm相同;一条超边上包含k+1个miRNA:该miRNA和与他最相似的k个miRNA;miRNA不同尺度的超图中W相同;
疾病的k-均匀超图:将所有疾病的集合看作疾病k-均匀超图的点集Vd;对于每一个疾病,将它最相似的前k个疾病视为与他相连,看作一条超边,得到超边集因为每条超边都会被分配权重,所以有权重矩阵W,用/>来表示疾病的k-均匀超图;从疾病相似性矩阵DM出发,通过设置k=2~8,得到疾病不同尺度的超图/>
其中:疾病不同尺度的超图中Vd相同;一条超边上包含三个疾病:该疾病和与他最相似的两个疾病;疾病不同尺度的超图中W相同;
步骤3、利用超图卷积对多尺度超图进行学习:
采用超图卷积神经网络HGNN对步骤2得到的不同尺度超图进行学习,得到不同尺度超图中的节点表示:
所述miRNA-miRNA的多尺度超图节点特征更新公式:
其中:k表示在miRNA的k-均匀超图上进行运算;表示m个miRNA来自超图卷积l+1层的特征,/>代表m个miRNA来自超图卷积l层的特征;σ(·)是非线性激活函数;Dv[k]代表miRNA的k-均匀超图的超边度矩阵的对角矩阵,De[k]代表miRNA的k-均匀超图的顶点度矩阵的对角矩阵;Hm[k]代表miRNA-miRNA的k-均匀超图对应的邻接矩阵;W代表权重矩阵;Θ代表滤波器,由于是并行运算,滤波器并不共享,/>表示在miRNA的k-均匀超图上第l个超图卷积层上的滤波器;
所述疾病-疾病的多尺度超图节点特征更新公式:
其中:k表示在疾病的k-均匀超图上进行运算;表示d个疾病来自超图卷积l+1层的特征,/>代表d个疾病来自超图卷积l层的特征;σ(·)是非线性激活函数;Dv[k]代表疾病的k-均匀超图的超边度矩阵的对角矩阵,De[k]代表疾病的k-均匀超图的顶点度矩阵的对角矩阵;Hd[k]代表疾病-疾病的k-均匀超图对应的邻接矩阵,W代表权重矩阵;以同等看待不同尺度的超图,因此不同尺度的超图中W不变;Θ代表滤波器,由于是并行运算,滤波器并不共享,/>表示在疾病的k-均匀超图上第l个超图卷积层上的滤波器;
步骤4、设计目标函数,将不同尺度超图上经过训练的节点表示进行拼接:
对于miRNA-miRNA的多尺度超图,采用公式:
其中代表m个miRNA的最终表示,/>代表m个miRNA在2-超图到8-超图上的表示,concat(·)代表concat操作;
对于疾病-疾病的多尺度超图,采用公式:
其中代表d个疾病的最终表示,/>代表d个疾病在2-超图到8-超图上的表示,concat(·)代表concat操作;
然后,采用交叉熵损失函数对模型进行训练和优化:
其中,yij代表miRNA-疾病对的真实标签,代表miRNA-疾病对的预测评分,y∪y-代表训练中使用到的正负样本集合,即整个训练集;通过神经网络的反向传播,对训练数据进行训练,使LOSS随着训练迭代次数的增加而不断减小,最终在训练数据上训练好了模型,得到基于多尺度超图学习的模型;
步骤5:将测试数据输入该训练好的模型,输出测试数据即为预测结果,点乘结果越大,代表两者有关联的可能性越大。
2.根据权利要求1所述基于多尺度超图卷积的疾病-miRNA关系预测方法,其特征在于:所述miRNA-疾病关联矩阵是一个m*n的矩阵,根据miRNA-疾病关系来构建:如果miRNA i和疾病j之间有关联,那么矩阵中(xi,yj)就等于1,否则就为0。
3.根据权利要求1所述基于多尺度超图卷积的疾病-miRNA关系预测方法,其特征在于:所述步骤1的数据来源于MESH数据库中和疾病有关的数据。
4.一种权利要求1或2或3所述基于多尺度超图卷积的疾病-miRNA关系预测方法的应用,其特征在于:所述步骤1~步骤4基于多尺度超图学习的模型的创建过程用于某类疾病的miRNA-disease预测模型的创建。
5.一种利用权利要求4所述应用建立的模型,其特征在于:模型为三个模块:相似度矩阵构建模块、超图卷积模块、预测模块;通过MSSM和MGSM得到miRNA-miRNA相似度矩阵IM,通过DSSM和DGSM得到疾病-疾病相似度矩阵DM;在超图卷积模块中,通过相似度矩阵IM和DM分别构建miRNA的k-均匀超图和疾病的k-均匀超图/>再将/>和/>分别输入超图卷积神经网络得到不同尺度超图上的节点表示,通过拼接不同尺度超图上的节点表示得到miRNA的最终向量表示和疾病的最终向量表示;经过预测模块将miRNA的最终向量表示和疾病的最终向量表示点乘,得到任何一对<miRNA-疾病>的预测结果,点乘结果越大,代表两者有关联的可能性越大。
6.根据权利要求5所述的模型,其特征在于:所述MSSM和MGSM以及DSSM和DGSM的来源是:从lncRNA-miRNA-mRNA转录调控网络和MESH数据库中分别得到miRNA-miRNA相似度MSSM以及疾病-疾病相似度DSSM,再通过miRNA-疾病关联矩阵得到miRNA之间的高斯核相似性MGSM以及疾病之间的高斯核相似性DGSM。
7.根据权利要求5所述模型的应用,其特征在于:所述疾病的miRNA-disease预测模型用于该类的miRNA-disease两者之间相关性的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389962.XA CN116543832A (zh) | 2023-04-12 | 2023-04-12 | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389962.XA CN116543832A (zh) | 2023-04-12 | 2023-04-12 | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543832A true CN116543832A (zh) | 2023-08-04 |
Family
ID=87446040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310389962.XA Pending CN116543832A (zh) | 2023-04-12 | 2023-04-12 | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543832A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844645A (zh) * | 2023-08-31 | 2023-10-03 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
-
2023
- 2023-04-12 CN CN202310389962.XA patent/CN116543832A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844645A (zh) * | 2023-08-31 | 2023-10-03 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
CN116844645B (zh) * | 2023-08-31 | 2023-11-17 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | Evolutionary large-scale multi-objective optimization: A survey | |
Karim et al. | Drug-drug interaction prediction based on knowledge graph embeddings and convolutional-LSTM network | |
Wen et al. | A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network | |
Elkholy et al. | Early prediction of chronic kidney disease using deep belief network | |
Mahapatra et al. | Deep neural network and extreme gradient boosting based Hybrid classifier for improved prediction of Protein-Protein interaction | |
Zheng et al. | CGMDA: an approach to predict and validate MicroRNA-disease associations by utilizing chaos game representation and LightGBM | |
CN113409892B (zh) | 基于图神经网络的miRNA-疾病关联关系预测方法 | |
CN113421658B (zh) | 基于近邻注意力网络的“药物-靶标”相互作用预测方法 | |
Meng et al. | Classifier ensemble selection based on affinity propagation clustering | |
Ding et al. | Network learning for biomarker discovery | |
Zhang et al. | A novel graph attention adversarial network for predicting disease-related associations | |
Huang et al. | Predicting drug-disease associations via multi-task learning based on collective matrix factorization | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
Molho et al. | Deep learning in single-cell analysis | |
Ai et al. | A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases | |
Das et al. | Graph based ensemble classification for crime report prediction | |
Babichev et al. | Applying the deep learning techniques to solve classification tasks using gene expression data | |
CN116705192A (zh) | 基于深度学习的药物虚拟筛选方法及装置 | |
Zhong et al. | DNRLCNN: a CNN framework for identifying MiRNA–disease associations using latent feature matrix extraction with positive samples | |
CN113223622A (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
Einipour et al. | EinImpute: a local and gene-based approach to imputation of dropout events in ScRNA-seq data | |
CN114141306A (zh) | 基于基因相互作用模式优化图表示的远处转移识别方法 | |
Cordero et al. | Detection of pre-microRNA with convolutional neural networks | |
Lu et al. | HCGCCDA: Prediction of circRNA-disease associations based on the combination of hypergraph convolution and graph convolution | |
Guo et al. | Combining high speed ELM with a CNN feature encoding to predict LncRNA-disease associations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |