CN113223622A - 基于元路径的miRNA-疾病关联预测方法 - Google Patents

基于元路径的miRNA-疾病关联预测方法 Download PDF

Info

Publication number
CN113223622A
CN113223622A CN202110524970.1A CN202110524970A CN113223622A CN 113223622 A CN113223622 A CN 113223622A CN 202110524970 A CN202110524970 A CN 202110524970A CN 113223622 A CN113223622 A CN 113223622A
Authority
CN
China
Prior art keywords
meta
path
disease
mirna
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110524970.1A
Other languages
English (en)
Other versions
CN113223622B (zh
Inventor
鱼亮
郑宇佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110524970.1A priority Critical patent/CN113223622B/zh
Publication of CN113223622A publication Critical patent/CN113223622A/zh
Application granted granted Critical
Publication of CN113223622B publication Critical patent/CN113223622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出了一种基于元路径的miRNA‑疾病关联预测方法,解决现有技术中存在的预测精度较低和预测范围较窄的技术问题,实现步骤为:(1)获取正样本集和负样本集;(2)构建miRNA‑疾病‑基因关联网络;(3)获取元路径集合;(4)获取每种元路径的元路径实例集合;(5)构建基于元路径的图神经网络模型;(6)对基于元路径的图神经网络进行迭代训练;(7)获取miRNA和疾病的预测结果。本发明提高了miRNA‑疾病关联的预测精度和广度,可为miRNA和疾病的生物实验提供最可能相关的miRNA‑疾病关联对。

Description

基于元路径的miRNA-疾病关联预测方法
技术领域
本发明属于生物信息技术领域,涉及一种miRNA-疾病关联预测方法,具体涉及一种基于元路径的miRNA-疾病关联预测方法。
背景技术
miRNA是一类由内源基因编码的非编码单链RNA分子,其长度约为22个核苷酸,主要通过序列特异性碱基配对与靶mRNA结合,并参与转录后基因表达调控。miRNA可以影响各种生物过程,包括细胞增殖、发育、分化、细胞凋亡、代谢、衰老、信号转导、病毒感染等。随着科学技术的发展,研究人员建立了许多用于存储miRNA信息的数据库,为使用计算方法来预测miRNA与疾病的关联提供了数据支持。计算模型能够在短时间内获得最可能相关的miRNA-疾病对,为生物学实验提供指导。
例如,2017年You等人在《Plos Computational Biology》中发表的名称为“PBMDA:A novel and effective path-based computational model for miRNA-diseaseassociation prediction”的论文,公开了一种基于路径的miRNA-疾病关联预测方法,该方法提出miRNA与疾病之间的路径越多,它们之间关联的可能性就越大,且它们之间所有路径的累积贡献都可以整合为最终分数的假设,使用特定的深度优先搜索算法遍历图中的所有长度不超过3的无环路径,通过miRNA与疾病之间路径的个数和长度来评估两者之间的关联概率。
又如,申请公布号为CN 109935332 A,名称为“一种基于双随机游走模型的miRNA-疾病关联预测方法”的专利申请,公开了一种基于双随机游走模型的miRNA-疾病关联预测方法,该方法首先构建关于miRNA-疾病关联的邻接矩阵,然后使用邻接矩阵构建miRNA和疾病的高斯相互作用属性核相似性矩阵、miRNA功能相似性矩阵以及疾病语义相似性矩阵,接下来使用相似网络融合算法整合疾病和miRNA的相似性,最后依据双随机游走模型来预测miRNA-疾病关联关系。
然而,上述算法仅通过路径的长度、个数和节点间的相似性来评估miRNA与疾病的关联概率,无法捕获到路径中节点的特征信息,限制了预测精度的提升,且不适用于预测新疾病,即没有已知关联miRNA的疾病,与miRNA的关联,导致预测范围受限。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于元路径的miRNA-疾病关联预测方法,旨在解决现有技术中存在的预测精度较低和预测范围较窄的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取正样本集Ω和负样本集Ω-
(1a)从数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNAr={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,…,AS},每种疾病dn至少与一种miRNA关联,且每种miRNA rm至少与一种疾病关联,其中,N≥300,dn表示第n种疾病,M≥400,rm表示第m种miRNA,S≥5000,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,…,A′s,…,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-
(2)构建miRNA-疾病-基因关联网络G:
(2a)从数据库中获取与M种miRNA r={r1,r2,…,rm,…,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,…,Bo,…,BO},其中,O≥5000,Bo表示第o条miRNA-miRNA关联数据;
(2b)从数据库中获取与N种疾病d={d1,d2,…,dn,…,dN}关联的K种基因g={g1,g2,…,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K≥400,gk表示第k种基因,H≥1000,Yh表示第h条疾病-基因关联数据,1≤k≤K;
(2c)以M种miRNA r={r1,r2,...,rm,...,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,...,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,...,rm,...,rM,d1,d2,...,dn,...,dN,g1,g2,...,gk,...,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集;
(3)获取元路径集合P:
在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,...,Pi,...,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为
Figure BDA0003065461890000031
Figure BDA00030654618900000315
表示元路径Pi的第leni个节点的节点类型,
Figure BDA0003065461890000032
Figure BDA00030654618900000316
表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型,
Figure BDA0003065461890000033
LENi表示元路径Pi的路径长度,LENi≥2;
(4)获取每种元路径Pi的元路径实例集合
Figure BDA0003065461890000034
Figure BDA0003065461890000035
类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的
Figure BDA0003065461890000036
类型的节点v2,再寻找与v2相连的
Figure BDA0003065461890000037
类型的节点v3,依此类推,最后寻找与
Figure BDA0003065461890000038
类型的节点
Figure BDA0003065461890000039
相连的
Figure BDA00030654618900000310
类型的节点
Figure BDA00030654618900000311
得到元路径Pi的Qi条元路径实例集合
Figure BDA00030654618900000312
其中,
Figure BDA00030654618900000313
表示元路径Pi的第qi条元路径实例,
Figure BDA00030654618900000314
(5)构建基于元路径的图神经网络模型C:
(5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC
(5b)定义基于元路径的图神经网络模型C的损失函数L:
Figure BDA0003065461890000041
其中,
Figure BDA0003065461890000042
表示miRNArm的特征向量,
Figure BDA0003065461890000043
表示疾病dn的特征向量,∑表示求和符号,σ表示激活函数,T表示转置;
(6)对基于元路径的图神经网络C进行迭代训练:
(6a)对每种miRNArm、每种疾病dn和每种基因gk分别进行one-hot编码,得到miRNArm的基特征
Figure BDA0003065461890000044
dn的基特征
Figure BDA0003065461890000045
和gk的基特征
Figure BDA0003065461890000046
(6b)初始化迭代次数为j,最大迭代次数为J,J≥100,第j次迭代模型C的权值参数为
Figure BDA0003065461890000047
并令j=0,
Figure BDA0003065461890000048
(6c)将每种miRNArm的基特征
Figure BDA0003065461890000049
作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征
Figure BDA00030654618900000410
作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征
Figure BDA00030654618900000411
作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量
Figure BDA00030654618900000412
dn的隐藏特征向量
Figure BDA00030654618900000413
和gk的隐藏特征向量
Figure BDA00030654618900000414
(6d)将miRNArm的隐藏特征向量
Figure BDA00030654618900000415
dn的隐藏特征向量
Figure BDA00030654618900000416
和gk的隐藏特征向量
Figure BDA00030654618900000417
以及每种元路径Pi的元路径实例集合
Figure BDA00030654618900000418
作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合
Figure BDA00030654618900000419
Figure BDA00030654618900000420
中起始节点相同的元路径实例在向量集合
Figure BDA00030654618900000421
中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合
Figure BDA00030654618900000422
和每种疾病dn的特征向量集合
Figure BDA00030654618900000423
(6e)基于多种元路径的特征学习模块中的第一全连接层对
Figure BDA00030654618900000424
中的向量进行加权求和,得到miRNArm的特征向量
Figure BDA00030654618900000425
节点特征输出模块中第一全连接层对
Figure BDA00030654618900000426
进行线性变换,得到miRNArm的输出特征向量
Figure BDA00030654618900000427
同时基于多种元路径的特征学习模块中的第二全连接层对
Figure BDA0003065461890000051
中的向量进行加权求和,得到dn的特征向量
Figure BDA0003065461890000052
节点特征输出模块中第二全连接层对
Figure BDA0003065461890000053
进行线性变换,得到dn的输出特征向量
Figure BDA0003065461890000054
(6f)采用损失函数L,并通过
Figure BDA0003065461890000055
Figure BDA0003065461890000056
计算模型C的损失值Lj,然后采用反向传播方法,并通过Lj计算C的参数梯度,最后采用梯度下降算法通过C的参数梯度对C的权值参数
Figure BDA0003065461890000057
进行更新;
(6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
(7)获取miRNA和疾病的预测结果:
采用激活函数σ,并通过训练好的miRNA-疾病关联预测模型C′输出的miRNArm的特征向量
Figure BDA0003065461890000058
和dn的特征向量
Figure BDA0003065461890000059
计算miRNArm与疾病dn的关联概率
Figure BDA00030654618900000510
Figure BDA00030654618900000511
本发明与现有技术相比,具有以下优点:
1.本发明所构建的基于元路径的miRNA-疾病关联预测模型包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块,在对该模型进行迭代训练以及获取miRNA和疾病特征向量的过程中,基于一种元路径的特征学习模块通过融合元路径实例上所有节点的特征信息来更新起始节点的特征向量,不仅可以提取miRNA和疾病节点本身的特征信息,还能有效捕获元路径上中间节点携带的信息,基于多种元路径的特征学习模块通过融合节点在多种元路径上获取的特征信息,有助于更好地提取网络中的结构特征,与现有技术相比,提高了miRNA-疾病关联的预测精度。
2.本发明所构建的miRNA-疾病关联预测模型通过在关联网络中引入疾病和基因的关联关系,不仅丰富了关联网络包含的生物信息,还增加了关联网络中的节点种类,使得可选的元路径种类增多,有助于预测新疾病与miRNA的关联,与现有技术相比,扩大了miRNA-疾病关联预测的预测范围。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是,本发明不属于专利法第25条规定的不授予专利权的客体,同时也符合专利法第二条第二款的规定:
参照图1,本实例包括如下步骤:
步骤1,获取正样本集Ω和负样本集Ω-
步骤1a)从HMDD v2.0数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNA r={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,...,AS},每种疾病dn至少与一种miRNA关联,且每种miRNArm至少与一种疾病关联,其中,N=383,dn表示第n种疾病,M=495,rm表示第m种miRNA,S=5430,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
步骤1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,...,A′s,...,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-
步骤2,构建miRNA-疾病-基因关联网络G:
步骤2a)从MISIM数据库中获取与M种miRNAr={r1,r2,...,rm,...,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,...,Bo,...,BO},其中,O=10049,Bo表示第o条miRNA-miRNA关联数据;
所述的从MISIM数据库中获取的miRNA-miRNA关联数据,去掉相似性小于等于0.5的miRNA-miRNA关联,仅保留相似性大于0.5的miRNA-miRNA关联数据;
步骤2b)从DisGeNET数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的K种基因g={g1,g2,...,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K=3790,gk表示第k种基因,H=5937,Yh表示第h条疾病-基因关联数据,1≤k≤K;
所述的从DisGeNET数据库中获取的疾病-基因关联数据,仅保留疾病-基因相关性得分大于0.1且疾病-基因关联证据指数大于0.5的疾病-基因关联数据;
步骤2c)以M种miRNA r={r1,r2,...,rm,...,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,...,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,...,rm,...,rM,d1,d2,...,dn,...,dN,g1,g2,...,gk,...,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集。
步骤3,获取元路径集合P:
步骤3a)在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,…,Pi,...,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为
Figure BDA0003065461890000071
Figure BDA00030654618900000712
表示元路径Pi的第leni个节点的节点类型,
Figure BDA0003065461890000072
Figure BDA00030654618900000713
表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型,
Figure BDA0003065461890000073
LENi表示元路径Pi的路径长度,LENi≥2;
所述的元路径Pi的形式可缩写为
Figure BDA0003065461890000074
元路径Pi实质上描述的是节点类型
Figure BDA0003065461890000075
和节点类型
Figure BDA0003065461890000076
之间的一个组合关系
Figure BDA0003065461890000077
Figure BDA00030654618900000714
表示的是关系之间的组合操作,如果两个节点类型
Figure BDA0003065461890000078
Figure BDA0003065461890000079
之间存在某条路径
Figure BDA00030654618900000710
服从于元路径Pi,那么该路径p′上的所有节点所属的类型必须存在于集合nt中,且路径中的每一个连边的类型与元路径nt中对应的
Figure BDA00030654618900000711
相同,路径p′表示元路径Pi的一条元路径实例;
所述的在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,需满足元路径对称,且仅以miRNAr或疾病d为起始节点。
步骤4,获取每种元路径Pi的元路径实例集合
Figure BDA0003065461890000081
步骤4a)以
Figure BDA0003065461890000082
类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的
Figure BDA0003065461890000083
类型的节点v2,再寻找与v2相连的
Figure BDA0003065461890000084
类型的节点v3,依此类推,最后寻找与
Figure BDA0003065461890000085
类型的节点
Figure BDA0003065461890000086
相连的
Figure BDA0003065461890000087
类型的节点
Figure BDA0003065461890000088
得到元路径Pi的Qi条元路径实例集合
Figure BDA0003065461890000089
其中,
Figure BDA00030654618900000810
表示元路径Pi的第qi条元路径实例,
Figure BDA00030654618900000811
所述的元路径Pi的元路径实例
Figure BDA00030654618900000812
表示miRNA-疾病-基因关联网络G中遵循元路径Pi定义模式的节点序列;
所述的获取每种元路径Pi的元路径实例集合
Figure BDA00030654618900000813
时,若有多条元路径实例的起始节点和终止节点相同,则仅保留其中的任意一条元路径实例。
步骤5,构建基于元路径的图神经网络模型C:
步骤5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC
所述的节点特征降维模块中的第一全连接层的输入输出维度分别为495和32,第二全连接层的输入输出维度分别为383和32,第三全连接层的输入输出维度分别为3790和32;基于一种元路径的特征学习模块中,元路径Pi的元路径实例集合中起始节点相同的元路径实例对应的向量作为一个多头注意力层的输入,输出一个256维的向量,多头注意力层的数量等于每种元路径Pi的元路径实例中起始节点种数的总和;基于多种元路径的特征学习模块中的第一全连接层的输入输出维度分别为256和32,第二全连接层的输入输出维度分别为256和32;节点特征输出模块中的第一全连接层的输入输出维度分别为256和64,第二全连接层的输入输出维度分别为256和64;
本发明所构建的基于元路径的miRNA-疾病关联预测模型包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块,在对该模型进行迭代训练以及获取miRNA和疾病特征向量的过程中,基于一种元路径的特征学习模块通过融合元路径实例上所有节点的特征信息来更新起始节点的特征向量,不仅可以提取miRNA和疾病节点本身的特征信息,还能有效捕获元路径上中间节点携带的信息,基于多种元路径的特征学习模块通过融合节点在多种元路径上获取的特征信息,有助于更好地提取网络中的结构特征;
步骤5b)定义基于元路径的图神经网络模型C的损失函数L:
Figure BDA0003065461890000091
其中,
Figure BDA0003065461890000092
表示miRNArm的特征向量,
Figure BDA0003065461890000093
表示疾病dn的特征向量,∑表示求和符号,σ表示激活函数,T表示转置;
所述的σ表示Sigmoid激活函数。
步骤6,对基于元路径的图神经网络C进行迭代训练:
步骤6a)对每种miRNArm、每种疾病dn和每种基因gk分别进行one-hot编码,得到miRNArm的基特征
Figure BDA0003065461890000094
dn的基特征
Figure BDA0003065461890000095
和gk的基特征
Figure BDA0003065461890000096
所述的进行one-hot编码即为分别构建三个单位矩阵E495、E383和E3790,其中,E495的第m行表示第m个miRNArm的基特征
Figure BDA0003065461890000097
E383的第n行表示第n个疾病dn的基特征
Figure BDA0003065461890000098
E3790的第k行表示第k个基因gk的基特征
Figure BDA0003065461890000099
步骤6b)初始化迭代次数为j,最大迭代次数为J,J≥100,第j次迭代模型C的权值参数为
Figure BDA00030654618900000910
并令j=0,
Figure BDA00030654618900000911
步骤6c)将每种miRNArm的基特征
Figure BDA00030654618900000912
作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征
Figure BDA00030654618900000913
作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征
Figure BDA00030654618900000914
作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量
Figure BDA00030654618900000915
dn的隐藏特征向量
Figure BDA00030654618900000916
和gk的隐藏特征向量
Figure BDA00030654618900000917
所述的第一全连接层将基特征
Figure BDA0003065461890000101
第二全连接层将基特征
Figure BDA0003065461890000102
第三全连接层将基特征
Figure BDA0003065461890000103
分别映射到z维向量空间中,得到miRNArm的隐藏特征向量
Figure BDA0003065461890000104
疾病dn的隐藏特征向量
Figure BDA0003065461890000105
和基因gk的隐藏特征向量
Figure BDA0003065461890000106
Figure BDA0003065461890000107
Figure BDA0003065461890000108
Figure BDA0003065461890000109
其中,
Figure BDA00030654618900001026
表示第一全连接层的参数权重矩阵,
Figure BDA00030654618900001010
表示第二全连接层的参数权重矩阵,
Figure BDA00030654618900001011
表示第三全连接层的参数权重矩阵,当min({M,N,K})≤500时z=32,当min({M,N,K})>500时z=64;
步骤6d)将miRNArm的隐藏特征向量
Figure BDA00030654618900001012
dn的隐藏特征向量
Figure BDA00030654618900001013
和gk的隐藏特征向量
Figure BDA00030654618900001014
以及每种元路径Pi的元路径实例集合
Figure BDA00030654618900001015
作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合
Figure BDA00030654618900001016
Figure BDA00030654618900001017
中起始节点相同的元路径实例在向量集合
Figure BDA00030654618900001018
中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合
Figure BDA00030654618900001019
和每种疾病dn的特征向量集合
Figure BDA00030654618900001020
所述的池化层对每种元路径Pi的元路径实例集合
Figure BDA00030654618900001021
中的每条元路径实例
Figure BDA00030654618900001022
中所有节点的隐藏特征向量进行最大池化,得到Pi的向量集合
Figure BDA00030654618900001023
Figure BDA00030654618900001024
Figure BDA00030654618900001025
其中,
Figure BDA0003065461890000111
表示
Figure BDA0003065461890000112
的起始节点v1通过
Figure BDA0003065461890000113
获得的向量信息,
Figure BDA0003065461890000114
表示
Figure BDA0003065461890000115
在第μ维的数值,节点t表示元路径实例
Figure BDA0003065461890000116
上的任意一种节点,h′t,μ表示节点t的隐藏特征向量h′t在第μ维的数值,μ=1,2,...,z,
Figure BDA0003065461890000117
表示每条元路径实例
Figure BDA0003065461890000118
中所有节点的集合;
所述的多头注意力层对
Figure BDA0003065461890000119
中起始节点相同的元路径实例在向量集合
Figure BDA00030654618900001110
中对应的向量进行加权求和,得到每种miRNArm的特征向量集合
Figure BDA00030654618900001111
和每种疾病dn的特征向量集合
Figure BDA00030654618900001112
Figure BDA00030654618900001113
Figure BDA00030654618900001114
Figure BDA00030654618900001115
其中,
Figure BDA00030654618900001116
表示
Figure BDA00030654618900001117
的起始节点v1的隐藏特征,
Figure BDA00030654618900001118
表示
Figure BDA00030654618900001119
在向量集合
Figure BDA00030654618900001120
中对应的向量
Figure BDA00030654618900001121
||表示向量的拼接,
Figure BDA00030654618900001122
表示
Figure BDA00030654618900001123
第f次随机初始化的值,LeakyReLU表示激活函数,
Figure BDA00030654618900001124
表示元路径实例
Figure BDA00030654618900001125
对起始节点v1的第f个重要性,exp表示以e为底的指数函数,
Figure BDA00030654618900001126
表示
Figure BDA00030654618900001127
中以v1为起始节点的元路径实例的终止节点
Figure BDA00030654618900001128
的集合,
Figure BDA00030654618900001129
表示
Figure BDA00030654618900001130
中以v1为起始节点、u为终止节点的元路径实例
Figure BDA00030654618900001131
对起始节点v1的第f个重要性,
Figure BDA00030654618900001132
表示
Figure BDA00030654618900001133
对起始节点v1的第f个归一化重要性,
Figure BDA00030654618900001134
表示元路径实例
Figure BDA00030654618900001135
对起始节点v1的第f个归一化重要性,
Figure BDA00030654618900001136
表示元路径实例
Figure BDA00030654618900001137
在向量集合
Figure BDA00030654618900001138
中对应的向量,F=8,当v1表示rm时,
Figure BDA00030654618900001139
表示rm的特征向量集合
Figure BDA00030654618900001140
中的一个元素,当v1表示dn时,
Figure BDA00030654618900001141
表示dn的特征向量集合
Figure BDA00030654618900001142
中的一个元素;
所述的一个多头注意力层可以得到
Figure BDA00030654618900001143
Figure BDA00030654618900001144
中的一个元素,每种miRNArm的特征向量集合
Figure BDA00030654618900001145
中元素的个数等于元路径实例集合中包含以miRNArm为起始节点的元路径实例的元路径的种数,每种疾病dn的特征向量集合
Figure BDA0003065461890000121
中元素的个数等于元路径实例集合中包含以疾病dn为起始节点的元路径实例的元路径的种数;
步骤6e)基于多种元路径的特征学习模块中的第一全连接层对
Figure BDA0003065461890000122
中的向量进行加权求和,得到miRNArm的特征向量
Figure BDA0003065461890000123
节点特征输出模块中第一全连接层对
Figure BDA0003065461890000124
进行线性变换,得到miRNArm的输出特征向量
Figure BDA0003065461890000125
同时基于多种元路径的特征学习模块中的第二全连接层对
Figure BDA0003065461890000126
中的向量进行加权求和,得到dn的特征向量
Figure BDA0003065461890000127
节点特征输出模块中第二全连接层对
Figure BDA0003065461890000128
进行线性变换,得到dn的输出特征向量
Figure BDA0003065461890000129
所述的基于多种元路径的特征学习模块中的第一全连接层对
Figure BDA00030654618900001210
中的向量进行加权求和、基于多种元路径的特征学习模块中的第二全连接层对
Figure BDA00030654618900001211
中的向量进行加权求和,得到miRNArm的特征向量
Figure BDA00030654618900001212
dn的特征向量
Figure BDA00030654618900001213
Figure BDA00030654618900001214
Figure BDA00030654618900001215
Figure BDA00030654618900001216
Figure BDA00030654618900001217
Figure BDA00030654618900001218
Figure BDA00030654618900001219
Figure BDA00030654618900001220
Figure BDA00030654618900001221
其中,W′r和br表示基于多种元路径的特征学习模块中的第一全连接层的可学习参数,
Figure BDA00030654618900001222
表示miRNA rm基于元路径Pir获得的特征向量,xir表示元路径Pir的初始特征向量,ar表示miRNAr的参数化注意力向量,eir表示元路径Pir的权重,βir表示元路径Pir的归一化权重,Ψr={Pir}Pir∈P∩Pir的起始节点类型为r},W′d和bd表示基于多种元路径的特征学习模块中的第二全连接层的可学习参数,
Figure BDA0003065461890000131
表示疾病dn基于元路径Pid获得的特征向量,xid表示元路径Pid的初始特征向量,ad表示疾病d的参数化注意力向量,eid表示元路径Pid的权重,βid表示元路径Pid的归一化权重,Ψd={Pid}Pid∈P∩Pid的起始节点类型为d};
所述的节点特征输出模块中的第一全连接层将特征向量
Figure BDA0003065461890000132
第二全连接层将特征向量
Figure BDA0003065461890000133
分别映射到z′维向量空间中,并采用激活函数σ,通过
Figure BDA0003065461890000134
映射后的向量
Figure BDA0003065461890000135
计算miRNArm的输出特征向量
Figure BDA0003065461890000136
通过
Figure BDA0003065461890000137
映射后的向量
Figure BDA0003065461890000138
计算疾病dn的输出特征向量
Figure BDA0003065461890000139
Figure BDA00030654618900001310
Figure BDA00030654618900001311
其中,
Figure BDA00030654618900001312
表示miRNAr的参数权重矩阵,
Figure BDA00030654618900001313
表示疾病d的参数权重矩阵,当z=32时z′=64,当z=64时z′=128;
步骤6f)采用损失函数L,并通过
Figure BDA00030654618900001314
Figure BDA00030654618900001315
计算模型C的损失值Lj,然后采用反向传播方法,并通过Lj计算C的参数梯度,最后采用梯度下降算法通过C的参数梯度对C的权值参数
Figure BDA00030654618900001316
进行更新;Lj的计算公式以及
Figure BDA00030654618900001317
的更新公式为:
Figure BDA00030654618900001318
Figure BDA00030654618900001319
其中,
Figure BDA00030654618900001320
表示C更新后的权值参数,
Figure BDA00030654618900001321
表示C更新前的权值参数,αC表示C的学习步长,
Figure BDA00030654618900001322
表示C的权值参数梯度;
步骤6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
步骤7,获取miRNA和疾病的预测结果:
步骤7a)采用激活函数σ,并通过训练好的miRNA-疾病关联预测模型C′输出的miRNArm的特征向量
Figure BDA0003065461890000141
和dn的特征向量
Figure BDA0003065461890000142
计算miRNArm与疾病dn的关联概率
Figure BDA0003065461890000143
Figure BDA0003065461890000144
以下通过仿真实验对本发明的技术效果作进一步说明:
1.仿真条件和内容:
仿真实验在Intel(R)Core(TM)i5-7300HQ CPU、主频2.50GHz,内存8G,Pycharm平台上的Python3.6.5结合PyTorch1.2.0进行。
仿真1,对本发明的预测精度进行仿真,并结合对比文件中所给出的预测精度进行对比,其结果如表1所示,表1中的现有技术1为You等人2017年在《Plos ComputationalBiology》上发表的论文“PBMDA:A novel and effective path-based computationalmodel for miRNA-disease association prediction”提出的一种基于路径的miRNA-疾病关联预测方法,现有技术2为申请公布号为CN 109935332 A,名称为“一种基于双随机游走模型的miRNA-疾病关联预测方法”的专利申请提出的一种基于双随机游走模型的miRNA-疾病关联预测方法;
仿真2,对本发明的预测范围进行仿真,删除训练数据中乳腺肿瘤与miRNA的关联关系数据,将乳腺肿瘤作为一种新疾病,使用dbDEMC2.0、HMDD v3.2和miR2Disease三个数据库中提供的miRNA-疾病关联关系验证模型对乳腺肿瘤的预测结果。
2.仿真结果分析:
表征miRNA-疾病关联预测精度采用的评价指标为AUC。AUC(Area under curve)是ROC曲线(receiver operating characteristic curve)下的面积,ROC曲线的横坐标是假正类率FPR(False Positive Rate),纵坐标是真正类率TPR(True Positive Rate),FPR=FP/(TN+FP),TPR=TP/(TP+FN),其中,FP表示实际是负例但模型错误预测为正例的样本数,TN表示实际是负例且模型正确预测为负例的样本数,TP表示实际是正例且模型正确预测为正例的样本数,FN表示实际是正例但模型错误预测为负例的样本数。
本发明与两种现有技术的AUC值的对比结果如表1所示。
表1
方法 AUC
现有技术1 0.9172
现有技术2 0.9209
本发明 0.9214
结合表1可以看出,本发明的AUC值高于现有技术,证明本发明方法有效的提高了miRNA-疾病关联预测的精度。
本发明预测出的与新疾病乳腺肿瘤相关的前50个miRNA的验证结果如表2所示。
表2
Figure BDA0003065461890000151
Figure BDA0003065461890000161
结合表2可以看出,本发明预测的与乳腺肿瘤相关的排名前50个miRNA在三个数据库中全部得到验证,这表明预测结果较为可靠,通过预测结果说明了本发明的预测范围广度以及预测精度。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (5)

1.一种基于元路径的miRNA-疾病关联预测方法,其特征在于,包括如下步骤:
(1)获取正样本集Ω和负样本集Ω-
(1a)从数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNAr={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,...,AS},每种疾病dn至少与一种miRNA关联,且每种miRNA rm至少与一种疾病关联,其中,N≥300,dn表示第n种疾病,M≥400,rm表示第m种miRNA,S≥5000,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,...,A′s,...,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-
(2)构建miRNA-疾病-基因关联网络G:
(2a)从数据库中获取与M种miRNAr={r1,r2,...,rm,...,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,...,Bo,...,BO},其中,O≥5000,Bo表示第o条miRNA-miRNA关联数据;
(2b)从数据库中获取与N种疾病d={d1,d2,…,dn,...,dN}关联的K种基因g={g1,g2,...,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K≥400,gk表示第k种基因,H≥1000,Yh表示第h条疾病-基因关联数据,1≤k≤K;
(2c)以M种miRNAr={r1,r2,…,rm,…,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,…,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,…,rm,…,rM,d1,d2,…,dn,…,dN,g1,g2,…,gk,…,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集;
(3)获取元路径集合P:
在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,...,Pi,…,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为
Figure FDA0003065461880000021
Figure FDA0003065461880000022
表示元路径Pi的第leni个节点的节点类型,
Figure FDA0003065461880000023
Figure FDA0003065461880000024
表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型,
Figure FDA0003065461880000025
Figure FDA0003065461880000026
LENi表示元路径Pi的路径长度,LENi≥2;
(4)获取每种元路径Pi的元路径实例集合
Figure FDA0003065461880000027
Figure FDA0003065461880000028
类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的
Figure FDA0003065461880000029
类型的节点v2,再寻找与v2相连的
Figure FDA00030654618800000210
类型的节点v3,依此类推,最后寻找与
Figure FDA00030654618800000211
类型的节点
Figure FDA00030654618800000212
相连的
Figure FDA00030654618800000213
类型的节点
Figure FDA00030654618800000214
得到元路径Pi的Qi条元路径实例集合
Figure FDA00030654618800000215
其中,
Figure FDA00030654618800000216
表示元路径Pi的第qi条元路径实例,
Figure FDA00030654618800000217
(5)构建基于元路径的图神经网络模型C:
(5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC
(5b)定义基于元路径的图神经网络模型C的损失函数L:
Figure FDA00030654618800000218
其中,
Figure FDA0003065461880000031
表示miRNArm的特征向量,
Figure FDA0003065461880000032
表示疾病dn的特征向量,∑表示求和符号,σ表示激活函数,T表示转置;
(6)对基于元路径的图神经网络C进行迭代训练:
(6a)对每种miRNArm、每种疾病dn和每种基因gk分别进行one-hot编码,得到miRNArm的基特征
Figure FDA0003065461880000033
dn的基特征
Figure FDA0003065461880000034
和gk的基特征
Figure FDA0003065461880000035
(6b)初始化迭代次数为j,最大迭代次数为J,J≥100,第j次迭代模型C的权值参数为
Figure FDA0003065461880000036
并令j=0,
Figure FDA0003065461880000037
(6c)将每种miRNArm的基特征
Figure FDA0003065461880000038
作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征
Figure FDA0003065461880000039
作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征
Figure FDA00030654618800000310
作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量
Figure FDA00030654618800000311
dn的隐藏特征向量
Figure FDA00030654618800000312
和gk的隐藏特征向量
Figure FDA00030654618800000313
(6d)将miRNArm的隐藏特征向量
Figure FDA00030654618800000314
dn的隐藏特征向量
Figure FDA00030654618800000315
和gk的隐藏特征向量
Figure FDA00030654618800000316
以及每种元路径Pi的元路径实例集合
Figure FDA00030654618800000317
作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合
Figure FDA00030654618800000318
Figure FDA00030654618800000319
中起始节点相同的元路径实例在向量集合
Figure FDA00030654618800000320
中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合
Figure FDA00030654618800000321
和每种疾病dn的特征向量集合
Figure FDA00030654618800000322
(6e)基于多种元路径的特征学习模块中的第一全连接层对
Figure FDA00030654618800000323
中的向量进行加权求和,得到miRNArm的特征向量
Figure FDA00030654618800000324
节点特征输出模块中第一全连接层对
Figure FDA00030654618800000325
进行线性变换,得到miRNArm的输出特征向量
Figure FDA00030654618800000326
同时基于多种元路径的特征学习模块中的第二全连接层对
Figure FDA00030654618800000327
中的向量进行加权求和,得到dn的特征向量
Figure FDA00030654618800000328
节点特征输出模块中第二全连接层对
Figure FDA00030654618800000329
进行线性变换,得到dn的输出特征向量
Figure FDA00030654618800000330
(6f)采用损失函数L,并通过
Figure FDA0003065461880000041
Figure FDA0003065461880000042
计算模型C的损失值Lj,然后采用反向传播方法,并通过Lj计算C的参数梯度,最后采用梯度下降算法通过C的参数梯度对C的权值参数
Figure FDA0003065461880000043
进行更新;
(6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
(7)获取miRNA和疾病的预测结果:
采用激活函数σ,并通过训练好的miRNA-疾病关联预测模型C′输出的miRNArm的特征向量
Figure FDA0003065461880000044
和dn的特征向量
Figure FDA0003065461880000045
计算miRNArm与疾病dn的关联概率
Figure FDA0003065461880000046
Figure FDA0003065461880000047
2.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法,其特征在于,步骤(6c)中所述的将每种miRNArm的基特征
Figure FDA0003065461880000048
作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征
Figure FDA0003065461880000049
作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,以及将每种基因gk的基特征
Figure FDA00030654618800000410
作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,实现步骤为:
第一全连接层将基特征
Figure FDA00030654618800000411
第二全连接层将基特征
Figure FDA00030654618800000412
第三全连接层将基特征
Figure FDA00030654618800000413
分别映射到z维向量空间中,得到miRNArm的隐藏特征向量
Figure FDA00030654618800000414
疾病dn的隐藏特征向量
Figure FDA00030654618800000415
和基因gk的隐藏特征向量
Figure FDA00030654618800000416
Figure FDA00030654618800000417
Figure FDA00030654618800000418
Figure FDA00030654618800000419
其中,
Figure FDA00030654618800000420
表示第一全连接层的参数权重矩阵,
Figure FDA00030654618800000421
表示第二全连接层的参数权重矩阵,
Figure FDA00030654618800000422
表示第三全连接层的参数权重矩阵,当min({M,N,K})≤500时z=32,当min({M,N,K})>500时z=64。
3.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法,其特征在于,步骤(6d)中所述的每种元路径Pi的向量集合
Figure FDA0003065461880000051
每种miRNArm的特征向量集合
Figure FDA0003065461880000052
和每种疾病dn的特征向量集合
Figure FDA0003065461880000053
其获取方式为:
(6d1)池化层对每种元路径Pi的元路径实例集合
Figure FDA0003065461880000054
中的每条元路径实例
Figure FDA0003065461880000055
中所有节点的隐藏特征向量进行最大池化,得到Pi的向量集合
Figure FDA0003065461880000056
Figure FDA0003065461880000057
Figure FDA0003065461880000058
其中,
Figure FDA0003065461880000059
表示
Figure FDA00030654618800000510
的起始节点v1通过
Figure FDA00030654618800000511
获得的向量信息,
Figure FDA00030654618800000512
表示
Figure FDA00030654618800000513
在第μ维的数值,节点t表示元路径实例
Figure FDA00030654618800000514
上的任意一种节点,h′t,μ表示节点t的隐藏特征向量h′t在第μ维的数值,μ=1,2,...,z,
Figure FDA00030654618800000515
表示每条元路径实例
Figure FDA00030654618800000516
中所有节点的集合;
(6d2)多头注意力层对
Figure FDA00030654618800000517
中起始节点相同的元路径实例在向量集合
Figure FDA00030654618800000518
中对应的向量进行加权求和,得到每种miRNArm的特征向量集合
Figure FDA00030654618800000519
和每种疾病dn的特征向量集合
Figure FDA00030654618800000520
Figure FDA00030654618800000521
Figure FDA00030654618800000522
Figure FDA00030654618800000523
其中,
Figure FDA00030654618800000524
表示
Figure FDA00030654618800000525
的起始节点v1的隐藏特征,
Figure FDA00030654618800000526
表示
Figure FDA00030654618800000527
在向量集合
Figure FDA0003065461880000061
中对应的向量
Figure FDA0003065461880000062
||表示向量的拼接,
Figure FDA0003065461880000063
表示
Figure FDA0003065461880000064
第f次随机初始化的值,LeakyReLU表示激活函数,
Figure FDA0003065461880000065
表示元路径实例
Figure FDA0003065461880000066
对起始节点v1的第f个重要性,exp表示以e为底的指数函数,
Figure FDA0003065461880000067
表示
Figure FDA0003065461880000068
中以v1为起始节点的元路径实例的终止节点
Figure FDA0003065461880000069
的集合,
Figure FDA00030654618800000610
表示
Figure FDA00030654618800000611
中以v1为起始节点、u为终止节点的元路径实例
Figure FDA00030654618800000612
对起始节点v1的第f个重要性,
Figure FDA00030654618800000613
表示
Figure FDA00030654618800000614
对起始节点v1的第f个归一化重要性,
Figure FDA00030654618800000615
表示元路径实例
Figure FDA00030654618800000616
对起始节点v1的第f个归一化重要性,
Figure FDA00030654618800000617
表示元路径实例
Figure FDA00030654618800000618
在向量集合
Figure FDA00030654618800000619
中对应的向量,F=8,当v1表示rm时,
Figure FDA00030654618800000620
表示rm的特征向量集合
Figure FDA00030654618800000621
中的一个元素,当v1表示dn时,
Figure FDA00030654618800000622
表示dn的特征向量集合
Figure FDA00030654618800000623
中的一个元素。
4.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法,其特征在于,步骤(6e)中所述的miRNArm的输出特征向量
Figure FDA00030654618800000624
疾病dn的输出特征向量
Figure FDA00030654618800000625
其获取的实现步骤为:
(6e1)基于多种元路径的特征学习模块中的第一全连接层对
Figure FDA00030654618800000626
中的向量进行加权求和、基于多种元路径的特征学习模块中的第二全连接层对
Figure FDA00030654618800000627
中的向量进行加权求和,得到miRNArm的特征向量
Figure FDA00030654618800000628
dn的特征向量
Figure FDA00030654618800000629
Figure FDA00030654618800000630
Figure FDA00030654618800000631
Figure FDA00030654618800000632
Figure FDA00030654618800000633
Figure FDA00030654618800000634
Figure FDA00030654618800000635
Figure FDA0003065461880000071
Figure FDA0003065461880000072
其中,Wr′和br表示基于多种元路径的特征学习模块中的第一全连接层的可学习参数,
Figure FDA0003065461880000073
表示miRNA rm基于元路径Pir获得的特征向量,xir表示元路径Pir的初始特征向量,ar表示miRNAr的参数化注意力向量,eir表示元路径Pir的权重,βir表示元路径Pir的归一化权重,Ψr={Pir|Pir∈P∩Pir的起始节点类型为r},W′d和bd表示基于多种元路径的特征学习模块中的第二全连接层的可学习参数,
Figure FDA0003065461880000074
表示疾病dn基于元路径Pid获得的特征向量,xid表示元路径Pid的初始特征向量,ad表示疾病d的参数化注意力向量,eid表示元路径Pid的权重,βid表示元路径Pid的归一化权重,Ψd={Pid|Pid∈P∩Pid的起始节点类型为d};
(6e2)节点特征输出模块中的第一全连接层将特征向量
Figure FDA0003065461880000075
第二全连接层将特征向量
Figure FDA0003065461880000076
分别映射到z′维向量空间中,并采用激活函数σ,通过
Figure FDA0003065461880000077
映射后的向量
Figure FDA0003065461880000078
计算miRNArm的输出特征向量
Figure FDA0003065461880000079
通过
Figure FDA00030654618800000710
映射后的向量
Figure FDA00030654618800000711
计算疾病dn的输出特征向量
Figure FDA00030654618800000712
Figure FDA00030654618800000713
Figure FDA00030654618800000714
其中,
Figure FDA00030654618800000715
表示miRNAr的参数权重矩阵,
Figure FDA00030654618800000716
表示疾病d的参数权重矩阵,当z=32时z′=64,当z=64时z′=128。
5.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法,其特征在于,步骤(6f)中所述的计算模型C的损失值Lj,以及对C的权值参数
Figure FDA00030654618800000717
进行更新,计算公式分别为:
Figure FDA00030654618800000718
Figure FDA00030654618800000719
其中,
Figure FDA0003065461880000081
表示C更新后的权值参数,
Figure FDA0003065461880000082
表示C更新前的权值参数,αC表示C的学习步长,
Figure FDA0003065461880000083
表示C的权值参数梯度。
CN202110524970.1A 2021-05-14 2021-05-14 基于元路径的miRNA-疾病关联预测方法 Active CN113223622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110524970.1A CN113223622B (zh) 2021-05-14 2021-05-14 基于元路径的miRNA-疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110524970.1A CN113223622B (zh) 2021-05-14 2021-05-14 基于元路径的miRNA-疾病关联预测方法

Publications (2)

Publication Number Publication Date
CN113223622A true CN113223622A (zh) 2021-08-06
CN113223622B CN113223622B (zh) 2023-07-28

Family

ID=77095594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110524970.1A Active CN113223622B (zh) 2021-05-14 2021-05-14 基于元路径的miRNA-疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN113223622B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246698A (zh) * 2022-09-07 2023-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于神经网络的信息提取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201441622A (zh) * 2013-04-25 2014-11-01 Chia-Hung Liu 肝癌病患預後存活預測方法
WO2017196872A1 (en) * 2016-05-09 2017-11-16 Wayne State University Orthogonal approach to integrate independent omic data
CN110782945A (zh) * 2019-10-22 2020-02-11 长沙学院 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法
WO2020170052A1 (en) * 2019-02-21 2020-08-27 King Abdullah University Of Science And Technology Disease-gene prioritization method and system
CN112784913A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201441622A (zh) * 2013-04-25 2014-11-01 Chia-Hung Liu 肝癌病患預後存活預測方法
WO2017196872A1 (en) * 2016-05-09 2017-11-16 Wayne State University Orthogonal approach to integrate independent omic data
WO2020170052A1 (en) * 2019-02-21 2020-08-27 King Abdullah University Of Science And Technology Disease-gene prioritization method and system
CN110782945A (zh) * 2019-10-22 2020-02-11 长沙学院 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法
CN112784913A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郁?;顾捷;赵娜;骆永军;阚世林;: "基于双层耦合网的表型-基因关联分析与预测", 电子科技大学学报, no. 03 *
高鹏;陈智华;: "一种基于拓扑信息的预测疾病相关的MicroRNAs方法", 电子学报, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246698A (zh) * 2022-09-07 2023-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于神经网络的信息提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113223622B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113409892B (zh) 基于图神经网络的miRNA-疾病关联关系预测方法
CN114496092B (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN109829162A (zh) 一种文本分词方法及装置
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN113724790B (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN112951328A (zh) 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统
CN114496105A (zh) 一种基于多语义网络的单步逆合成方法及系统
CN113871021A (zh) 一种基于图注意力机制的circRNA与疾病关联关系预测方法
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN115995293A (zh) 一种环状rna和疾病关联预测方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Ai et al. A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases
CN113223622A (zh) 基于元路径的miRNA-疾病关联预测方法
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
Thomas et al. Feature versus raw sequence: Deep learning comparative study on predicting pre-mirna
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN113223655A (zh) 基于变分自编码器的药物-疾病关联预测方法
CN109918659A (zh) 一种基于不保留最优个体遗传算法优化词向量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant