CN114613437B - 一种基于异构图的miRNA与疾病关联预测方法及系统 - Google Patents

一种基于异构图的miRNA与疾病关联预测方法及系统 Download PDF

Info

Publication number
CN114613437B
CN114613437B CN202210219713.1A CN202210219713A CN114613437B CN 114613437 B CN114613437 B CN 114613437B CN 202210219713 A CN202210219713 A CN 202210219713A CN 114613437 B CN114613437 B CN 114613437B
Authority
CN
China
Prior art keywords
disease
mirna
representing
nodes
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210219713.1A
Other languages
English (en)
Other versions
CN114613437A (zh
Inventor
宋继辉
张云
刘勇国
朱嘉静
李巧勤
陆鑫
傅翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210219713.1A priority Critical patent/CN114613437B/zh
Priority to LU501881A priority patent/LU501881B1/de
Publication of CN114613437A publication Critical patent/CN114613437A/zh
Application granted granted Critical
Publication of CN114613437B publication Critical patent/CN114613437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Ecology (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于异构图的miRNA与疾病关联预测方法及系统,属于疾病关联预测技术领域,该方法将已知关联与miRNA相似度、疾病相似度结合构建异构图,首次在异构图上设计了层间具有可变权重的消息传递函数,设计了结合miRNA和疾病相似度的消息聚合函数,经过异构图神经网络的消息聚合,融合了异构图的高阶拓扑特征,得到miRNA和疾病的最终特征向量表示,最后通过归纳矩阵分解得到miRNA疾病关联预测矩阵,并基于miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联,提升预测结果的可信度。

Description

一种基于异构图的miRNA与疾病关联预测方法及系统
技术领域
本发明属于疾病关联预测技术领域,尤其涉及一种基于异构图的miRNA与疾病关联预测方法及系统。
背景技术
生物学研究发现人体内的非编码RNA(ncRNA)对人体各种生物过程起着十分重要的作用,miRNA是一组21-24nt的单链内源短链ncRNA,与各种疾病尤其是癌症的发生密切相关。然而确定miRNA与疾病的关联的生物实验昂贵而费时,因此使用计算模型预测miRNA和疾病的关联具有重要现实意义。
应用计算模型预测miRNA和疾病的关联时,通常首先通过miRNA的功能相关性和miRNA的其他信息计算miRNA的综合相似度矩阵,然后通过疾病的DAG图计算疾病的语义相关性并结合其他疾病相关信息计算语义相似度矩阵,最后结合已知的miRNA与疾病关联矩阵,使用机器学习方法,或结合蛋白质、基因、IncRNA等相关信息构建关联图,对未知的miRNA与疾病关联进行预测。
现有技术中基于相似度网络简单使用GCN进行特征提取,无法完整利用miRNA与疾病的已知相互作用,因此miRNA和疾病的特征提取效果较差,尤其是NIMCGCN对于未知关联的miRNA或疾病几乎无法预测。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于异构图的miRNA与疾病关联预测方法及系统,解决miRNA与疾病关联预测效果差,部分方法对未知关联无法预测的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于异构图的miRNA与疾病关联预测方法,包括以下步骤:
S1、获取miRNA与疾病数据,构建综合相似度矩阵;
S2、根据所述综合相似度矩阵构建异构图,并计算得到异构图上的一阶连通性信息;
S3、扩展异构图上的一阶连通信息,融合异构图的高阶拓扑特征得到miRNA特征矩阵和疾病特征矩阵;
S4、根据miRNA特征矩阵和疾病特征矩阵,利用归纳矩阵分解得到miRNA疾病关联预测模型;
S5、对所述miRNA疾病关联预测模型进行训练,并利用训练后得到的miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联。
本发明的有益效果是:本发明提出了一种基于异构图神经网络的miRNA疾病关联预测方法,将已知关联与miRNA相似度、疾病相似度结合构建异构图,首次在异构图上设计了层间具有可变权重的消息传递函数,设计了结合miRNA和疾病相似度的消息聚合函数,经过异构图神经网络的消息聚合,融合了异构图的高阶拓扑特征,得到miRNA和疾病的最终特征向量表示,最后通过归纳矩阵分解得到miRNA疾病关联预测矩阵,并基于miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联,提升预测结果的可信度。
进一步地,所述步骤S1中综合相似度矩阵包括miRNA相似度矩阵和疾病相似度矩阵;
所述miRNA相似度矩阵的表达式如下:
Figure BDA0003536445550000021
所述疾病相似度矩阵的表达式如下:
Figure BDA0003536445550000031
Figure BDA0003536445550000032
Figure BDA0003536445550000033
Figure BDA0003536445550000034
其中,mi表示miRNAi,mj表示miRNAj,SM(mi,mj)表示miRNA相似度矩阵,FM(mi,mj)表示miRNA功能相似度矩阵,GM(mi,mj)表示miRNA的高斯谱核相似性矩阵,du表示疾病u,dv表示疾病v,SD(du,dv)表示疾病相似度矩阵,SS(du,dv)表示语义相似度矩阵,GD(du,dv)表示疾病的高斯谱核相似性矩阵,SS2(du,dv)表示第二语义相似度矩阵,SS1(du,dv)表示第一语义相似度矩阵,t表示疾病u和疾病v的DAG中公有的疾病节点,T(du)表示疾病u的DAG中的疾病节点集合,T(dv)表示疾病v的DAG中的疾病节点集合,
Figure BDA0003536445550000035
表示t在疾病u的DAG中的第一类语义值,
Figure BDA0003536445550000036
表示t在疾病v的DAG中的第一类语义值,
Figure BDA0003536445550000037
表示t在疾病u的DAG中的第二类语义值,
Figure BDA0003536445550000038
表示t在疾病v的DAG中的第二类语义值,DV1(du)表示疾病u的第一类语义值,DV1(dv)表示疾病v的第一类语义值,DV2(du)表示疾病u的第二类语义值,DV2(dv)表示疾病v的第二类语义值。
上述进一步方案的有益效果是:本发明基于已知miRNA与疾病关联构建综合的miRNA相似度和疾病相似度矩阵,可以提高最终预测的质量。
再进一步地,所述步骤S2包括以下步骤:
S201、将所述综合相似度矩阵进行归一化处理;
S202、以miRNA和疾病为节点,以miRNA和疾病间的关联、miRNA间的相似性以及疾病间的相似性作为边,构建异构图,其中,miRNA和疾病节点的边权为0或1,由已知miRNA和疾病关联矩阵决定,miRNA节点间的边权为归一化后的miRNA相似度,疾病节点的边权为归一化后的疾病相似度;
S203、对异构图确定一个原始特征矩阵;
S204、基于所述原始特征矩阵,在异构图上设置层间具有可变权重的消息传递函数;
S205、基于所述消息传递函数,聚合得到结合miRNA和疾病相似度的消息聚合函数,完成一阶连通性信息的计算。
再进一步地,所述步骤S204中消息传递函数包括miRNA和疾病节点间的消息传递函数、miRNA节点间的消息传递函数以及疾病节点间的消息传递函数;
所述miRNA和疾病节点间的消息传递函数的表达式如下:
Figure BDA0003536445550000041
Figure BDA0003536445550000042
所述miRNA节点间的消息传递函数的表达式如下:
Figure BDA0003536445550000043
Figure BDA0003536445550000044
所述疾病节点间的消息传递函数的表达式如下:
Figure BDA0003536445550000045
Figure BDA0003536445550000046
其中,
Figure BDA0003536445550000047
表示miRNAi和疾病u间的消息传递函数,piu表示miRNAi与疾病u间的传递权重,⊙表示按元素相乘,vmi表示miRNAi的初始特征,vdu表示疾病u的初始特征,
Figure BDA0003536445550000048
表示miRNAi的一阶邻接节点中疾病节点的集合,
Figure BDA0003536445550000049
表示疾病u的一阶邻接节点中miRNA节点的集合,
Figure BDA00035364455500000410
表示miRNA节点间的消息传递函数,qij表示miRNA间的传递权重,vmi和vmj分别表示miRNAi和miRNAj的初始特征,(*,*)表示向量拼接操作,用于结合两个节点的特征,
Figure BDA0003536445550000051
表示miRNAi的一阶邻接节点中miRNA节点和本身节点的集合,
Figure BDA0003536445550000052
表示miRNAj的一阶邻接节点中miRNA节点和本身节点的集合,
Figure BDA0003536445550000053
表示疾病节点间的消息传递函数,vdv表示疾病v的初始特征,ruv表示疾病节点之间的传递权重,W1,W2,W3均表示可训练的权重矩阵,
Figure BDA0003536445550000054
Figure BDA0003536445550000055
Figure BDA0003536445550000056
表示d×(nm+nd)的二维实数空间,nm表示miRNA总数,nd表示疾病总数,d表示节点特征的维数,
Figure BDA0003536445550000057
表示疾病u的一阶邻接点中疾病节点和本身节点的集合,
Figure BDA0003536445550000058
表示疾病v的一阶邻接点中疾病节点和本身节点的集合。
上述进一步方案的有益效果是:本发明通过不同的节点类型使用不同的结合函数能以提高节点信息量。
再进一步地,所述步骤S205中miRNA和疾病相似度的消息聚合函数的表达式如下:
Figure BDA0003536445550000059
Figure BDA00035364455500000510
其中,mp表示疾病u的一阶邻接节点中的任意一个miRNA节点,dq表示疾病u的一阶邻接节点中的任意一个疾病节点,ds表示miRNAi的一阶邻接节点中的任意一个疾病节点,mt表示miRNAi的一阶邻接节点中的任意一个miRNA节点,
Figure BDA00035364455500000511
Figure BDA00035364455500000512
表示融合了异构图的一阶连通性节点特征,SD(u,q)表示疾病u与疾病q的综合相似度,SM(i,t)表示miRNAi与miRNAt的综合相似度。
上述进一步方案的有益效果是:本发明通过消息聚合函数将传递的消息聚合获得最终的节点表示。
再进一步地,所述步骤S3包括以下步骤:
S301、扩展异构图上的一阶连通信息,定义第l阶的传递权重;
S302、根据所述传递权重,定义异构图中高阶的消息传递函数和消息聚合函数;
S303、根据所述异构图中高阶的消息传递函数和消息聚合函数,基于DGC聚合不同阶的特征,得到miRNAi的最终多阶特征
Figure BDA0003536445550000061
和疾病u的最终多阶特征
Figure BDA0003536445550000062
Figure BDA0003536445550000063
Figure BDA0003536445550000064
其中,L表示特征阶数,
Figure BDA0003536445550000065
表示疾病u的L-1阶的特征向量,
Figure BDA0003536445550000066
表示miRNAi的L-1阶的特征向量;
S304、将每个miRNAi的最终多阶特征
Figure BDA0003536445550000067
按列排序得到miRNA的特征矩阵Xm,将每个疾病u的最终多阶特征
Figure BDA0003536445550000068
按列排序得到疾病的特征矩阵Xd
上述进一步方案的有益效果是:本发明通过聚合多层特征可以增强模型的泛化能力,并有效防止过拟合。
再进一步地,所述步骤S302中异构图中不同层的消息传递函数的表达式如下:
Figure BDA0003536445550000069
所述消息聚合函数的表达式如下:
Figure BDA00035364455500000610
Figure BDA0003536445550000071
其中,
Figure BDA0003536445550000072
表示异构图的l阶连通性的疾病u的节点特征,
Figure BDA0003536445550000073
表示异构图的l阶连通性的miRNAi的节点特征,
Figure BDA0003536445550000074
表示miRNAi和疾病u间的l阶的消息传递函数,
Figure BDA0003536445550000075
分别表示l阶连通的传递权重,W1 (l)
Figure BDA0003536445550000076
表示l阶的可训练权重矩阵,
Figure BDA0003536445550000077
表示miRNAi的l-1阶的特征向量,
Figure BDA0003536445550000078
表示疾病u的l-1阶的特征向量,
Figure BDA0003536445550000079
表示miRNA和miRNA节点间的l阶的消息传递函数,
Figure BDA00035364455500000710
表示miRNAj的l-1阶的特征向量,
Figure BDA00035364455500000711
表示疾病u和疾病v间的l阶的消息传递函数,
Figure BDA00035364455500000712
表示疾病v的l-1阶的特征向量。
上述进一步方案的有益效果是:本发明在多层使用了不同的参数增大了参数空间,提高了模型的预测能力。
再进一步地,所述步骤S4中miRNA疾病关联预测矩阵的表达式如下:
Figure BDA00035364455500000713
Figure BDA00035364455500000714
Figure BDA00035364455500000715
其中,P表示miRNA疾病关联预测矩阵,Xm表示miRNA的特征矩阵,Xd表示疾病的特征矩阵,
Figure BDA00035364455500000716
表示Od的转置,
Figure BDA00035364455500000717
Figure BDA00035364455500000718
Figure BDA00035364455500000719
分别表示作用于miRNA的多层感知机MLP中第1层的可训练权重矩阵和偏置项,
Figure BDA00035364455500000720
Figure BDA00035364455500000721
分别表示作用于miRNA的多层感知机MLP中第2层的可训练权重矩阵和偏置项。
Figure BDA00035364455500000722
Figure BDA00035364455500000723
分别表示作用于疾病的多层感知机MLP中第1层的可训练权重矩阵和偏置项,
Figure BDA00035364455500000724
Figure BDA00035364455500000725
分别表示作用于疾病的多层感知机MLP中第2层的可训练权重矩阵和偏置项。
上述进一步方案的有益效果是:本发明使用多层感知机MLP代替了投影矩阵,能模拟更加复杂的函数,模型对数据具有更强的拟合能力。
本发明提供了一种基于异构图的miRNA与疾病关联预测系统,包括:
综合相似度矩阵构建模块,用于获取miRNA与疾病数据,构建综合相似度矩阵;
异构图构建模块,用于根据所述综合相似度矩阵构建异构图,并计算得到异构图上的一阶连通性信息;
特征计算模块,用于扩展异构图上的一阶连通信息,融合异构图的高阶拓扑特征得到miRNA特征矩阵和疾病特征矩阵;
miRNA疾病关联预测矩阵计算模块,用于根据miRNA特征矩阵和疾病特征矩阵,利用归纳矩阵分解得到miRNA疾病关联预测模型;
预测模块,用于对所述miRNA疾病关联预测模型进行训练,并利用训练后得到的miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联。
本发明的有益效果是:本发明利用已知miRNA疾病关联网络的拓扑信息,同时很好地结合了miRNA的相似性与疾病相似性网络,对miRNA与疾病的关联进行预测,且可以对未知关联的miRNA或疾病进行预测,本发明首先通过在异构图上获取高阶连通性,很好地利用了miRNA相似性和疾病相似性信息,通过异构图结构可以预测未知关联的miRNA或疾病,通过使用基于神经网络的归纳矩阵分解方法,有效地结合miRNA与疾病特征,提升预测结果的可信度;另外整个模型是端到端的模型,有效提高训练效率。
附图说明
图1为本发明的方法流程图。
图2为本实施例中异构图的结构图。
图3为本发明的系统结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
如图1所示,本发明提供了一种基于异构图的miRNA与疾病关联预测方法,其实现方法如下:
S1、获取miRNA与疾病数据,构建综合相似度矩阵;
本实施例中,从HMDD2.0中获取已知miRNA和疾病关联数据5430条,确定已知miRNA和疾病关联矩阵A,
Figure BDA0003536445550000091
若第i号miRNA与第j号疾病相关,则A(i,j)=1,否则A(i,j)=0,nm是miRNA的总数,nd是疾病的总数,本方案中nm=383,nd=495。从MISIM中收集miRNA功能相似度数据并表示为FM。
本实施例中,根据从miRBase中获得的疾病Mesh术语,对每个疾病构建有向无环图(DAG),将疾病D构建的DAG图表示为DAG(D)=(D,T(D),E(D)),其中T(D)表示DAG中包括D在内的所有节点,E(D)表示DAG中的所有边。则疾病D每一层疾病的第一语义值如下式构建:
Figure BDA0003536445550000092
其中,d表示疾病D的DAG内的疾病节点,Δ是不同层次的衰减系数,本申请为0.5,确定了每一层的语义相似度后,疾病D的第一语义值如下式构建:
Figure BDA0003536445550000093
则疾病di和疾病dj间的第一语义相似度如下式:
Figure BDA0003536445550000101
其中,t表示疾病du的DAG与疾病dv的DAG公有的疾病节点集合中的任意一个疾病节点,同时考虑在更少DAG出现的疾病具有更高的代表性,因此应当具有更高的权重,令包含d的DAG个数为Nd,所有DAG的总数为Nall,定义了疾病的第二语义值如下:
Figure BDA0003536445550000102
Figure BDA0003536445550000103
疾病di和疾病dj间的第二语义相似度如下:
Figure BDA0003536445550000104
然后计算miRNA和疾病的高斯谱核相似性矩阵GM和GD,最后计算综合miRNA相似度矩阵SM如下:
Figure BDA0003536445550000105
疾病相似度矩阵的表达式如下:
Figure BDA0003536445550000106
Figure BDA0003536445550000107
其中,mi表示miRNAi,mj表示miRNAj,SM(mi,mj)表示miRNA相似度矩阵,FM(mi,mj)表示miRNA功能相似度矩阵,GM(mi,mj)表示miRNA的高斯谱核相似性矩阵,du表示疾病u,dv表示疾病v,SD(du,dv)表示疾病相似度矩阵,SS(du,dv)表示语义相似度矩阵,GD(du,dv)表示疾病的高斯谱核相似性矩阵,SS2(du,dv)表示第二语义相似度矩阵,SS1(du,dv)表示第一语义相似度矩阵,t表示疾病u和疾病v的DAG中公有的疾病节点,T(du)表示疾病u的DAG中的疾病节点集合,T(dv)表示疾病v的DAG中的疾病节点集合,
Figure BDA0003536445550000111
表示t在疾病u的DAG中的第一类语义值,
Figure BDA0003536445550000112
表示t在疾病v的DAG中的第一类语义值,
Figure BDA0003536445550000113
表示t在疾病u的DAG中的第二类语义值,
Figure BDA0003536445550000114
表示t在疾病v的DAG中的第二类语义值,DV1(du)表示疾病u的第一类语义值,DV1(dv)表示疾病v的第一类语义值,DV2(du)表示疾病u的第二类语义值,DV2(dv)表示疾病v的第二类语义值。
S2、根据所述综合相似度矩阵构建异构图,并计算得到异构图上的一阶连通性信息,其实现方法如下:
S201、将所述综合相似度矩阵进行归一化处理;
S202、以miRNA和疾病为节点,以miRNA和疾病间的关联、miRNA间的相似性以及疾病间的相似性作为边,构建异构图,其中,miRNA和疾病节点的边权为0或1,由已知miRNA和疾病关联矩阵决定,miRNA节点间的边权为归一化后的miRNA相似度,疾病节点的边权为归一化后的疾病相似度;
S203、对异构图确定一个原始特征矩阵;
S204、基于所述原始特征矩阵,在异构图上设置层间具有可变权重的消息传递函数;
S205、基于所述消息传递函数,聚合得到结合miRNA和疾病相似度的消息聚合函数,完成一阶连通性信息的计算。
本实施例中,基于miRNA和疾病节点构建异构图,先将SM和SD矩阵行归一化,此后统一将归一化后的SM和SD矩阵表示为SM和SD。以miRNA和疾病作为节点,以miRNA与疾病间的关联、miRNA间的相似性、疾病间的相似性作为边,构建异构图G<V,E>,miRNA节点与疾病节点间的边权为0或1,由已知关联矩阵A决定,miRNA节点间的边权为归一化后的miRNA相似度,疾病节点间的边权为归一化后的疾病相似度。
本实施例中,计算异构图上的一阶连通性信息,首先对异构图G,确定一个原始特征矩阵X=[vm1,vm2,...,vmnm,vd1,vd2,...,vdnd],vmi表示第i号miRNA的初始特征,
Figure BDA0003536445550000121
miRNA初始特征的前nm项为miRNA未归一化的相似度,后nd项为与疾病的关联信息;
Figure BDA0003536445550000122
表示第u号疾病的初始特征,其前nd项为疾病未归一化的相似度,后nm项为与miRNA的关联信息。如图2所示,HGNN表示在异构图上使用GNN,其中GNN包括消息传递和消息聚合两个步骤。图2中,m1、m2、m3…表示第1、2、3…号miRNA节点,d1、d2、d3…表示第1、2、3…号疾病节点,这些节点后面的括号中的数字表示位于第几层。图中节点间的连线,有数字的表示有权连接,边权为对应节点间的相似度,无数字的表示无权连接,表示已知的节点间是否存在关联,存在即连接不存在即无连接。
1、节点间的消息传递
miRNA与疾病节点间的消息传递函数定义如下:
Figure BDA0003536445550000123
Figure BDA0003536445550000124
miRNA节点间的消息传递函数定义如下:
Figure BDA0003536445550000125
Figure BDA0003536445550000126
疾病节点间的消息传递函数定义如下:
Figure BDA0003536445550000127
Figure BDA0003536445550000128
其中,
Figure BDA0003536445550000131
表示miRNAi和疾病u间的消息传递函数,piu表示miRNAi与疾病u间的传递权重,⊙表示按元素相乘,vmi表示miRNAi的初始特征,vdu表示疾病u的初始特征,
Figure BDA0003536445550000132
表示miRNAi的一阶邻接节点中疾病节点的集合,
Figure BDA0003536445550000133
表示疾病u的一阶邻接节点中miRNA节点的集合,
Figure BDA0003536445550000134
表示miRNA节点间的消息传递函数,qij表示miRNA间的传递权重,vmi和vmj分别表示miRNAi和miRNAj的初始特征,(*,*)表示向量拼接操作,用于结合两个节点的特征,
Figure BDA0003536445550000135
表示miRNAi的一阶邻接节点中miRNA节点和本身节点的集合,
Figure BDA0003536445550000136
表示miRNAj的一阶邻接节点中miRNA节点和本身节点的集合,
Figure BDA0003536445550000137
表示疾病节点间的消息传递函数,vdv表示疾病v的初始特征,ruv表示疾病节点之间的传递权重,W1,W2,W3均表示可训练的权重矩阵,
Figure BDA0003536445550000138
Figure BDA0003536445550000139
Figure BDA00035364455500001310
表示d×(nm+nd)的二维实数空间,nm表示miRNA总数,nd表示疾病总数,
Figure BDA00035364455500001311
表示疾病u的一阶邻接点中疾病节点和本身节点的集合,
Figure BDA00035364455500001312
表示疾病v的一阶邻接点中疾病节点和本身节点的集合。
本实施例中,消息聚合如下。
本实施例中,经过消息传递后,所有节点获得周围一阶邻居的消息表示,然后通过消息聚合函数聚合到本节点。由于异构图中疾病与miRNA关联的边权重均为1,因此定义miRNA与du相连的边的权重为
Figure BDA00035364455500001313
定义疾病与mi相连的边的权重为
Figure BDA00035364455500001314
则疾病节点和miRNA节点的消息聚合函数分别表示如下:
Figure BDA00035364455500001315
Figure BDA00035364455500001316
其中,
Figure BDA0003536445550000141
Figure BDA0003536445550000142
表示融合了异构图一阶连通性的节点特征。
S3、扩展异构图上的一阶连通信息,融合异构图的高阶拓扑特征得到miRNA特征矩阵和疾病特征矩阵,其实现方法如下:
S301、扩展异构图上的一阶连通信息,定义第l阶的传递权重;
S302、根据所述传递权重,定义异构图中高阶的消息传递函数和消息聚合函数;
S303、根据所述异构图中高阶的消息传递函数和消息聚合函数,基于DGC聚合不同阶的特征,得到miRNAi的最终多阶特征
Figure BDA0003536445550000143
和疾病u的最终多阶特征
Figure BDA0003536445550000144
Figure BDA0003536445550000145
Figure BDA0003536445550000146
其中,L表示特征阶数,
Figure BDA0003536445550000147
表示疾病u的L-1阶的特征向量,
Figure BDA0003536445550000148
表示miRNAi的L-1阶的特征向量;
S304、将每个miRNAi的最终多阶特征
Figure BDA0003536445550000149
按列排序得到miRNA的特征矩阵Xm,将每个疾病u的最终多阶特征
Figure BDA00035364455500001410
按列排序得到疾病的特征矩阵Xd
本实施例中,融合异构图上的高阶连通性信息如下。
由于异构图不同层邻居节点可能不同,所以本发明权重设置为可变权重,按照第三步各类节点间传递权重定义方法,定义异构图第l层的传递权重
Figure BDA00035364455500001411
Figure BDA00035364455500001412
如下:
Figure BDA00035364455500001413
Figure BDA00035364455500001414
Figure BDA00035364455500001415
其中,
Figure BDA00035364455500001416
是i号miRNA的l阶邻接节点中疾病节点的集合,
Figure BDA00035364455500001417
是u号疾病的l阶邻接节点中miRNA节点的集合,
Figure BDA0003536445550000151
是i号miRNA的l阶邻接节点中miRNA节点的集合,
Figure BDA0003536445550000152
是j号miRNA的l阶邻接节点中miRNA节点的集合,
Figure BDA0003536445550000153
是u号疾病的l阶邻接节点中疾病节点的集合,
Figure BDA0003536445550000154
是v号疾病的l阶邻接节点中疾病节点的集合。
定义异构图不同层的消息传递函数和消息聚合函数如下:
Figure BDA0003536445550000155
Figure BDA0003536445550000156
Figure BDA0003536445550000157
其中,
Figure BDA0003536445550000158
表示异构图的l阶连通性的疾病u的节点特征,
Figure BDA0003536445550000159
表示异构图的l阶连通性的miRNAi的节点特征,
Figure BDA00035364455500001510
表示miRNAi和疾病u间的l阶的消息传递函数,
Figure BDA00035364455500001511
分别表示l阶连通的传递权重,W1 (l)
Figure BDA00035364455500001512
表示l阶的可训练权重矩阵,
Figure BDA00035364455500001513
表示miRNAi的l-1阶的特征向量,
Figure BDA00035364455500001514
表示疾病u的l-1阶的特征向量,
Figure BDA00035364455500001515
表示miRNA和miRNA节点间的l阶的消息传递函数,
Figure BDA00035364455500001516
表示miRNAj的l-1阶的特征向量,
Figure BDA00035364455500001517
表示疾病u和疾病v间的l阶的消息传递函数,
Figure BDA00035364455500001518
表示疾病v的l-1阶的特征向量。
本实施例中,通过堆叠多层模型,可以获得节点的高阶连通性表示,如图2所示,由于本发明基于异构图,因此存在额外的miRNA到miRNA的关联路径和疾病到疾病的关联路径,因此本发明定义层数L=5,最终第i号miRNA得到多连通性特征
Figure BDA00035364455500001519
第u号疾病得到多连通性特征
Figure BDA00035364455500001520
基于扩散图卷积(diffusion graph convolution,DGC)聚合异构图的多层特征,得到第i个miRNA的最终特征表示
Figure BDA00035364455500001521
第u个疾病的最终特征表示
Figure BDA0003536445550000161
将每个miRNA的最终特征mfinal按列排序得到miRNA的特征矩阵Xm,同理可以得到疾病的特征矩阵Xd
S4、根据miRNA特征矩阵和疾病特征矩阵,利用归纳矩阵分解得到miRNA疾病关联预测模型;
本实施例中,基于归纳矩阵分解,最终的miRNA疾病关联预测矩阵P表示为:
P≈φm(Xmd(Xd)T
其中,P表示miRNA疾病关联预测矩阵,φm和φd分别表示对miRNA和疾病特征进行处理的具有多层完全连接层的多层感知机MLP,Xm表示miRNA的特征矩阵,Xd表示疾病的特征矩阵,T表示转置,为了减少网络复杂度,本方案使用2层多层感知机MLP,2个多层感知机MLP均包含nm+nd个输入神经元,512维的2个隐藏层,输出层神经元个数为k=128,φm和φd的输出特征矩阵分别表示为Om和Od
Figure BDA0003536445550000162
Figure BDA0003536445550000163
其中,
Figure BDA0003536445550000164
Figure BDA0003536445550000165
Figure BDA0003536445550000166
分别表示作用于miRNA的MLP中第l层的可训练权重矩阵和偏置项,
Figure BDA0003536445550000167
Figure BDA0003536445550000168
分别表示作用于疾病的MLP中第l层的可训练权重矩阵和偏置项,上式中l=1、2,ReLU表示ReLU激活函数,Sigmoid为激活函数。
最终通过内积组合得到miRNA与疾病关联的预测矩阵:
Figure BDA0003536445550000169
其中,
Figure BDA00035364455500001610
表示Od的转置。
S5、对所述miRNA疾病关联预测模型进行训练,并利用训练后得到的miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联。
本实施例中,模型训练。模型的损失函数由正样本损失、负样本损失和正则损失组成,定义如下:
Figure BDA0003536445550000171
PΩ是正关联映射矩阵,当已知第i号miRNA与第u号疾病有关联时,PΩ(i,u)=1,否则PΩ(i,u)=0。
Figure BDA0003536445550000172
是负关联映射矩阵,
Figure BDA0003536445550000173
公式第一项表示正样本损失,第二项表示负样本损失,第三项表示GNN的参数正则损失,φ表示GNN中的所有可训练参数,第四项表示MLP的参数正则损失,其中ψm和ψd分别表示两个MLP的可训练参数,a表示正负样本损失比例超参数,衡量了正负样本损失所占的比例,β是GNN的正则化参数,γ是MLP的正则化参数。
本实施例中,使用留一法交叉验证,根据损失函数使用Adam算法梯度下降进行模型训练。
本实施例中,预测未知关联。根据模型最终结果P,预测未知的miRNA与疾病关联。
本发明通过以上设计,首先通过在异构图上获取高阶连通性,很好地利用了miRNA相似性和疾病相似性信息,通过异构图结构可以预测未知关联的miRNA或疾病,通过使用基于神经网络的归纳矩阵分解方法,有效地结合miRNA与疾病特征,提升预测结果的可信度;另外整个模型是端到端的模型,有效提高训练效率。
实施例2
如图3所示,本发明提供了一种基于异构图的miRNA与疾病关联预测系统,包括:
综合相似度矩阵构建模块,用于获取miRNA与疾病数据,构建综合相似度矩阵;
异构图构建模块,用于根据所述综合相似度矩阵构建异构图,并计算得到异构图上的一阶连通性信息;
特征计算模块,用于扩展异构图上的一阶连通信息,融合异构图的高阶拓扑特征得到miRNA特征矩阵和疾病特征矩阵;
miRNA疾病关联预测矩阵计算模块,用于根据miRNA特征矩阵和疾病特征矩阵,利用归纳矩阵分解得到miRNA疾病关联预测模型;
预测模块,用于对所述miRNA疾病关联预测模型进行训练,并利用训练后得到的miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联。
如图3所示实施例提供的基于异构图的miRNA与疾病关联预测系统可以执行上述方法实施例所示的技术方案,其实现原理与有益效果类似,此处不再赘述。

Claims (6)

1.一种基于异构图的miRNA与疾病关联预测方法,其特征在于,包括以下步骤:
S1、获取miRNA与疾病数据,构建综合相似度矩阵;
S2、根据所述综合相似度矩阵构建异构图,并计算得到异构图上的一阶连通性信息;
所述步骤S2包括以下步骤:
S201、将所述综合相似度矩阵进行归一化处理;
S202、以miRNA和疾病为节点,以miRNA和疾病间的关联、miRNA间的相似性以及疾病间的相似性作为边,构建异构图,其中,miRNA和疾病节点的边权为0或1,由已知miRNA和疾病关联矩阵决定,miRNA节点间的边权为归一化后的miRNA相似度,疾病节点的边权为归一化后的疾病相似度;
S203、对异构图确定一个原始特征矩阵;
S204、基于所述原始特征矩阵,在异构图上设置层间具有可变权重的消息传递函数;
所述步骤S204中消息传递函数包括miRNA和疾病节点间的消息传递函数、miRNA节点间的消息传递函数以及疾病节点间的消息传递函数;
所述miRNA和疾病节点间的消息传递函数的表达式如下:
Figure FDA0004161898170000011
Figure FDA0004161898170000012
所述miRNA节点间的消息传递函数的表达式如下:
Figure FDA0004161898170000013
Figure FDA0004161898170000014
所述疾病节点间的消息传递函数的表达式如下:
Figure FDA0004161898170000021
Figure FDA0004161898170000022
其中,
Figure FDA0004161898170000023
表示miRNA i和疾病u间的消息传递函数,piu表示miRNA i与疾病u间的传递权重,⊙表示按元素相乘,vmi表示miRNA i的初始特征,vdu表示疾病u的初始特征,
Figure FDA0004161898170000024
表示miRNA i的一阶邻接节点中疾病节点的集合,
Figure FDA0004161898170000025
表示疾病u的一阶邻接节点中miRNA节点的集合,
Figure FDA0004161898170000026
表示miRNA节点间的消息传递函数,qij表示miRNA间的传递权重,vmi和vmj分别表示miRNA i和miRNA j的初始特征,(*,*)表示向量拼接操作,用于结合两个节点的特征,
Figure FDA0004161898170000027
表示miRNA i的一阶邻接节点中miRNA节点和本身节点的集合,
Figure FDA0004161898170000028
表示miRNA j的一阶邻接节点中miRNA节点和本身节点的集合,
Figure FDA0004161898170000029
表示疾病节点间的消息传递函数,vdv表示疾病v的初始特征,ruv表示疾病节点之间的传递权重,W1,W2,W3均表示可训练的权重矩阵,
Figure FDA00041618981700000210
Figure FDA00041618981700000211
Figure FDA00041618981700000212
表示d×(nm+nd)的二维实数空间,nm表示miRNA总数,nd表示疾病总数,d表示节点特征的维数,
Figure FDA00041618981700000213
表示疾病u的一阶邻接点中疾病节点和本身节点的集合,
Figure FDA00041618981700000214
表示疾病v的一阶邻接点中疾病节点和本身节点的集合;
S205、基于所述消息传递函数,聚合得到结合miRNA和疾病相似度的消息聚合函数,完成一阶连通性信息的计算;
所述步骤S205中miRNA和疾病相似度的消息聚合函数的表达式如下:
Figure FDA00041618981700000215
Figure FDA00041618981700000216
其中,mp表示疾病u的一阶邻接节点中的任意一个miRNA节点,dq表示疾病u的一阶邻接节点中的任意一个疾病节点,ds表示miRNA i的一阶邻接节点中的任意一个疾病节点,mt表示miRNA i的一阶邻接节点中的任意一个miRNA节点,
Figure FDA0004161898170000031
Figure FDA0004161898170000032
表示融合了异构图的一阶连通性节点特征,SD(u,q)表示疾病u与疾病q的综合相似度,SM(i,t)表示miRNA i与miRNAt的综合相似度;
S3、扩展异构图上的一阶连通信息,融合异构图的高阶拓扑特征得到miRNA特征矩阵和疾病特征矩阵;
S4、根据miRNA特征矩阵和疾病特征矩阵,利用归纳矩阵分解得到miRNA疾病关联预测模型;
S5、对所述miRNA疾病关联预测模型进行训练,并利用训练后得到的miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联。
2.根据权利要求1所述的基于异构图的miRNA与疾病关联预测方法,其特征在于,所述步骤S1中综合相似度矩阵包括miRNA相似度矩阵和疾病相似度矩阵;
所述miRNA相似度矩阵的表达式如下:
Figure FDA0004161898170000033
所述疾病相似度矩阵的表达式如下:
Figure FDA0004161898170000034
Figure FDA0004161898170000035
Figure FDA0004161898170000036
Figure FDA0004161898170000041
其中,mi表示miRNA i,mj表示miRNA j,SM(mi,mj)表示miRNA相似度矩阵,FM(mi,mj)表示miRNA功能相似度矩阵,GM(mi,mj)表示miRNA的高斯谱核相似性矩阵,du表示疾病u,dv表示疾病v,SD(du,dv)表示疾病相似度矩阵,SS(du,dv)表示语义相似度矩阵,GD(du,dv)表示疾病的高斯谱核相似性矩阵,SS2(du,dv)表示第二语义相似度矩阵,SS1(du,dv)表示第一语义相似度矩阵,t表示疾病u和疾病v的DAG中公有的疾病节点,T(du)表示疾病u的DAG中的疾病节点集合,T(dv)表示疾病v的DAG中的疾病节点集合,
Figure FDA0004161898170000042
表示t在疾病u的DAG中的第一类语义值,
Figure FDA0004161898170000043
表示t在疾病v的DAG中的第一类语义值,
Figure FDA0004161898170000044
表示t在疾病u的DAG中的第二类语义值,
Figure FDA0004161898170000045
表示t在疾病v的DAG中的第二类语义值,DV1(du)表示疾病u的第一类语义值,DV1(dv)表示疾病v的第一类语义值,DV2(du)表示疾病u的第二类语义值,DV2(dv)表示疾病v的第二类语义值。
3.根据权利要求1所述的基于异构图的miRNA与疾病关联预测方法,其特征在于,所述步骤S3包括以下步骤:
S301、扩展异构图上的一阶连通信息,定义第l阶的传递权重;
S302、根据所述传递权重,定义异构图中高阶的消息传递函数和消息聚合函数;
S303、根据所述异构图中高阶的消息传递函数和消息聚合函数,基于DGC聚合不同阶的特征,得到miRNA i的最终多阶特征
Figure FDA0004161898170000046
和疾病u的最终多阶特征
Figure FDA0004161898170000047
Figure FDA0004161898170000048
Figure FDA0004161898170000049
其中,L表示特征阶数,
Figure FDA0004161898170000051
表示疾病u的L-1阶的特征向量,
Figure FDA0004161898170000052
表示miRNA i的L-1阶的特征向量;
S304、将每个miRNA i的最终多阶特征
Figure FDA0004161898170000053
按列排序得到miRNA的特征矩阵Xm,将每个疾病u的最终多阶特征
Figure FDA0004161898170000054
按列排序得到疾病的特征矩阵Xd
4.根据权利要求3所述的基于异构图的miRNA与疾病关联预测方法,其特征在于,所述步骤S302中异构图中不同阶的消息传递函数的表达式如下:
Figure FDA0004161898170000055
所述消息聚合函数的表达式如下:
Figure FDA0004161898170000056
Figure FDA0004161898170000057
其中,
Figure FDA0004161898170000058
表示异构图的l阶连通性的疾病u的节点特征,
Figure FDA0004161898170000059
表示异构图的l阶连通性的miRNA i的节点特征,
Figure FDA00041618981700000510
表示miRNA i和疾病u间的l阶的消息传递函数,
Figure FDA00041618981700000511
分别表示l阶连通的传递权重,W1 (l)、W2 (l)、W3 (l)表示l阶的可训练权重矩阵,
Figure FDA00041618981700000512
表示miRNA i的l-1阶的特征向量,
Figure FDA00041618981700000513
表示疾病u的l-1阶的特征向量,
Figure FDA00041618981700000514
表示miRNA和miRNA节点间的l阶的消息传递函数,
Figure FDA00041618981700000515
表示miRNA j的l-1阶的特征向量,
Figure FDA00041618981700000516
表示疾病u和疾病v间的l阶的消息传递函数,
Figure FDA00041618981700000517
表示疾病v的l-1阶的特征向量。
5.根据权利要求4所述的基于异构图的miRNA与疾病关联预测方法,其特征在于,所述步骤S4中miRNA疾病关联预测矩阵的表达式如下:
Figure FDA00041618981700000518
Figure FDA0004161898170000061
Figure FDA0004161898170000062
其中,P表示miRNA疾病关联预测矩阵,Xm表示miRNA的特征矩阵,Xd表示疾病的特征矩阵,
Figure FDA0004161898170000063
表示Od的转置,
Figure FDA0004161898170000064
Figure FDA0004161898170000065
Figure FDA0004161898170000066
分别表示作用于miRNA的多层感知机MLP中第1层的可训练权重矩阵和偏置项,
Figure FDA0004161898170000067
Figure FDA0004161898170000068
分别表示作用于miRNA的多层感知机MLP中第2层的可训练权重矩阵和偏置项,
Figure FDA0004161898170000069
Figure FDA00041618981700000610
分别表示作用于疾病的多层感知机MLP中第1层的可训练权重矩阵和偏置项,
Figure FDA00041618981700000611
Figure FDA00041618981700000612
分别表示作用于疾病的多层感知机MLP中第2层的可训练权重矩阵和偏置项。
6.一种基于异构图的miRNA与疾病关联预测系统,其特征在于,包括:
综合相似度矩阵构建模块,用于获取miRNA与疾病数据,构建综合相似度矩阵;
异构图构建模块,用于根据所述综合相似度矩阵构建异构图,并计算得到异构图上的一阶连通性信息,其具体为:
将所述综合相似度矩阵进行归一化处理;
以miRNA和疾病为节点,以miRNA和疾病间的关联、miRNA间的相似性以及疾病间的相似性作为边,构建异构图,其中,miRNA和疾病节点的边权为0或1,由已知miRNA和疾病关联矩阵决定,miRNA节点间的边权为归一化后的miRNA相似度,疾病节点的边权为归一化后的疾病相似度;
对异构图确定一个原始特征矩阵;
基于所述原始特征矩阵,在异构图上设置层间具有可变权重的消息传递函数;
所述消息传递函数包括miRNA和疾病节点间的消息传递函数、miRNA节点间的消息传递函数以及疾病节点间的消息传递函数;
所述miRNA和疾病节点间的消息传递函数的表达式如下:
Figure FDA0004161898170000071
Figure FDA0004161898170000072
所述miRNA节点间的消息传递函数的表达式如下:
Figure FDA0004161898170000073
Figure FDA0004161898170000074
所述疾病节点间的消息传递函数的表达式如下:
Figure FDA0004161898170000075
Figure FDA0004161898170000076
其中,
Figure FDA0004161898170000077
表示miRNA i和疾病u间的消息传递函数,piu表示miRNA i与疾病u间的传递权重,⊙表示按元素相乘,vmi表示miRNA i的初始特征,vdu表示疾病u的初始特征,
Figure FDA0004161898170000078
表示miRNA i的一阶邻接节点中疾病节点的集合,
Figure FDA0004161898170000079
表示疾病u的一阶邻接节点中miRNA节点的集合,
Figure FDA00041618981700000710
表示miRNA节点间的消息传递函数,qij表示miRNA间的传递权重,vmi和vmj分别表示miRNA i和miRNA j的初始特征,(*,*)表示向量拼接操作,用于结合两个节点的特征,
Figure FDA00041618981700000711
表示miRNA i的一阶邻接节点中miRNA节点和本身节点的集合,
Figure FDA00041618981700000712
表示miRNA j的一阶邻接节点中miRNA节点和本身节点的集合,
Figure FDA00041618981700000713
表示疾病节点间的消息传递函数,vdv表示疾病v的初始特征,ruv表示疾病节点之间的传递权重,W1,W2,W3均表示可训练的权重矩阵,
Figure FDA00041618981700000714
Figure FDA00041618981700000715
Figure FDA00041618981700000716
表示d×(nm+nd)的二维实数空间,nm表示miRNA总数,nd表示疾病总数,d表示节点特征的维数,
Figure FDA00041618981700000717
表示疾病u的一阶邻接点中疾病节点和本身节点的集合,
Figure FDA00041618981700000718
表示疾病v的一阶邻接点中疾病节点和本身节点的集合;
基于所述消息传递函数,聚合得到结合miRNA和疾病相似度的消息聚合函数,完成一阶连通性信息的计算;
所述miRNA和疾病相似度的消息聚合函数的表达式如下:
Figure FDA0004161898170000081
Figure FDA0004161898170000082
其中,mp表示疾病u的一阶邻接节点中的任意一个miRNA节点,dq表示疾病u的一阶邻接节点中的任意一个疾病节点,ds表示miRNA i的一阶邻接节点中的任意一个疾病节点,mt表示miRNA i的一阶邻接节点中的任意一个miRNA节点,
Figure FDA0004161898170000083
Figure FDA0004161898170000084
表示融合了异构图的一阶连通性节点特征,SD(u,q)表示疾病u与疾病q的综合相似度,SM(i,t)表示miRNA i与miRNAt的综合相似度;特征计算模块,用于扩展异构图上的一阶连通信息,融合异构图的高阶拓扑特征得到miRNA特征矩阵和疾病特征矩阵;
miRNA疾病关联预测矩阵计算模块,用于根据miRNA特征矩阵和疾病特征矩阵,利用归纳矩阵分解得到miRNA疾病关联预测模型;
预测模块,用于对所述miRNA疾病关联预测模型进行训练,并利用训练后得到的miRNA疾病关联预测矩阵预测未知的miRNA与疾病的关联。
CN202210219713.1A 2022-03-08 2022-03-08 一种基于异构图的miRNA与疾病关联预测方法及系统 Active CN114613437B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210219713.1A CN114613437B (zh) 2022-03-08 2022-03-08 一种基于异构图的miRNA与疾病关联预测方法及系统
LU501881A LU501881B1 (de) 2022-03-08 2022-04-20 Eine methode und ein system zur vorhersage von mirna-krankheitsassoziationen auf der grundlage von heterogenen graphen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210219713.1A CN114613437B (zh) 2022-03-08 2022-03-08 一种基于异构图的miRNA与疾病关联预测方法及系统

Publications (2)

Publication Number Publication Date
CN114613437A CN114613437A (zh) 2022-06-10
CN114613437B true CN114613437B (zh) 2023-05-26

Family

ID=81861156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210219713.1A Active CN114613437B (zh) 2022-03-08 2022-03-08 一种基于异构图的miRNA与疾病关联预测方法及系统

Country Status (2)

Country Link
CN (1) CN114613437B (zh)
LU (1) LU501881B1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114944192B (zh) * 2022-06-22 2023-06-30 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法
CN117012375B (zh) * 2023-10-07 2024-03-26 之江实验室 一种基于患者拓扑特征相似性的临床决策支持方法和系统
CN117393143B (zh) * 2023-10-11 2024-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于图表示学习的环状rna-疾病关联预测方法
CN118506884A (zh) * 2024-07-19 2024-08-16 山东大学 miRNA-疾病关联关系预测方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232789A1 (zh) * 2020-05-21 2021-11-25 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN114049930A (zh) * 2021-11-12 2022-02-15 东南大学 一种基于异质网络表示学习的中药药方重定位方法
CN114077836A (zh) * 2021-11-19 2022-02-22 中国电信集团系统集成有限责任公司 一种基于异构神经网络的文本分类方法及装置
CN114093425A (zh) * 2021-11-29 2022-02-25 湖南大学 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN114121181A (zh) * 2021-11-12 2022-03-01 东南大学 一种基于注意力机制的异构图神经网络中药靶标预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232789A1 (zh) * 2020-05-21 2021-11-25 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
CN114049930A (zh) * 2021-11-12 2022-02-15 东南大学 一种基于异质网络表示学习的中药药方重定位方法
CN114121181A (zh) * 2021-11-12 2022-03-01 东南大学 一种基于注意力机制的异构图神经网络中药靶标预测方法
CN114077836A (zh) * 2021-11-19 2022-02-22 中国电信集团系统集成有限责任公司 一种基于异构神经网络的文本分类方法及装置
CN114093425A (zh) * 2021-11-29 2022-02-25 湖南大学 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A heterogeneous label propagation approach to explore the potential associations between miRNA and disease;Xing Chen 等;《Journal of Translational Medicine》;1-14 *
Inferring potential small molecule–miRNA association based on triple layer heterogeneous network;Jia Qu 等;《Journal of Cheminformatics》;1-14 *
基于异构网中高阶相似关系的miRNA-疾病关联预测方法研究;张赛;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》(第08期);E059-24 *
基于数据融合的复杂疾病关联网络预测算法研究;瞿佳;《中国博士学位论文全文数据库 基础科学辑》(第1期);A006-284 *

Also Published As

Publication number Publication date
CN114613437A (zh) 2022-06-10
LU501881B1 (de) 2022-11-17

Similar Documents

Publication Publication Date Title
CN114613437B (zh) 一种基于异构图的miRNA与疾病关联预测方法及系统
US11010658B2 (en) System and method for learning the structure of deep convolutional neural networks
Wang et al. Natural-parameter networks: A class of probabilistic neural networks
CN107506590A (zh) 一种基于改进深度信念网络的心血管疾病预测模型
CN115798598B (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
CN113409892B (zh) 基于图神经网络的miRNA-疾病关联关系预测方法
Zhang et al. A rough set-based multiple criteria linear programming approach for the medical diagnosis and prognosis
CN112085615A (zh) 图神经网络的训练方法及装置
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
CN112541575A (zh) 图神经网络的训练方法及装置
Zhang et al. Predicting disease-related RNA associations based on graph convolutional attention network
CN108737491B (zh) 信息推送方法和装置以及存储介质、电子装置
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
Li et al. Multi-view graph neural network with cascaded attention for lncRNA-miRNA interaction prediction
Zhu et al. Deep-gknock: nonlinear group-feature selection with deep neural networks
Wang et al. Optimizing deep belief echo state network with a sensitivity analysis input scaling auto-encoder algorithm
Ai et al. A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases
CN113228059A (zh) 面向跨网络的表示学习算法
CN111309923A (zh) 对象向量确定、模型训练方法、装置、设备和存储介质
Ivanov et al. Reduction mappings between probabilistic Boolean networks
Oh et al. Self-organizing polynomial neural networks based on polynomial and fuzzy polynomial neurons: analysis and design
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
CN109784406A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN114141306A (zh) 基于基因相互作用模式优化图表示的远处转移识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant