CN113223622A - 基于元路径的miRNA-疾病关联预测方法 - Google Patents
基于元路径的miRNA-疾病关联预测方法 Download PDFInfo
- Publication number
- CN113223622A CN113223622A CN202110524970.1A CN202110524970A CN113223622A CN 113223622 A CN113223622 A CN 113223622A CN 202110524970 A CN202110524970 A CN 202110524970A CN 113223622 A CN113223622 A CN 113223622A
- Authority
- CN
- China
- Prior art keywords
- meta
- path
- disease
- mirna
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出了一种基于元路径的miRNA‑疾病关联预测方法,解决现有技术中存在的预测精度较低和预测范围较窄的技术问题,实现步骤为:(1)获取正样本集和负样本集;(2)构建miRNA‑疾病‑基因关联网络;(3)获取元路径集合;(4)获取每种元路径的元路径实例集合;(5)构建基于元路径的图神经网络模型;(6)对基于元路径的图神经网络进行迭代训练;(7)获取miRNA和疾病的预测结果。本发明提高了miRNA‑疾病关联的预测精度和广度,可为miRNA和疾病的生物实验提供最可能相关的miRNA‑疾病关联对。
Description
技术领域
本发明属于生物信息技术领域,涉及一种miRNA-疾病关联预测方法,具体涉及一种基于元路径的miRNA-疾病关联预测方法。
背景技术
miRNA是一类由内源基因编码的非编码单链RNA分子,其长度约为22个核苷酸,主要通过序列特异性碱基配对与靶mRNA结合,并参与转录后基因表达调控。miRNA可以影响各种生物过程,包括细胞增殖、发育、分化、细胞凋亡、代谢、衰老、信号转导、病毒感染等。随着科学技术的发展,研究人员建立了许多用于存储miRNA信息的数据库,为使用计算方法来预测miRNA与疾病的关联提供了数据支持。计算模型能够在短时间内获得最可能相关的miRNA-疾病对,为生物学实验提供指导。
例如,2017年You等人在《Plos Computational Biology》中发表的名称为“PBMDA:A novel and effective path-based computational model for miRNA-diseaseassociation prediction”的论文,公开了一种基于路径的miRNA-疾病关联预测方法,该方法提出miRNA与疾病之间的路径越多,它们之间关联的可能性就越大,且它们之间所有路径的累积贡献都可以整合为最终分数的假设,使用特定的深度优先搜索算法遍历图中的所有长度不超过3的无环路径,通过miRNA与疾病之间路径的个数和长度来评估两者之间的关联概率。
又如,申请公布号为CN 109935332 A,名称为“一种基于双随机游走模型的miRNA-疾病关联预测方法”的专利申请,公开了一种基于双随机游走模型的miRNA-疾病关联预测方法,该方法首先构建关于miRNA-疾病关联的邻接矩阵,然后使用邻接矩阵构建miRNA和疾病的高斯相互作用属性核相似性矩阵、miRNA功能相似性矩阵以及疾病语义相似性矩阵,接下来使用相似网络融合算法整合疾病和miRNA的相似性,最后依据双随机游走模型来预测miRNA-疾病关联关系。
然而,上述算法仅通过路径的长度、个数和节点间的相似性来评估miRNA与疾病的关联概率,无法捕获到路径中节点的特征信息,限制了预测精度的提升,且不适用于预测新疾病,即没有已知关联miRNA的疾病,与miRNA的关联,导致预测范围受限。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于元路径的miRNA-疾病关联预测方法,旨在解决现有技术中存在的预测精度较低和预测范围较窄的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取正样本集Ω和负样本集Ω-:
(1a)从数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNAr={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,…,AS},每种疾病dn至少与一种miRNA关联,且每种miRNA rm至少与一种疾病关联,其中,N≥300,dn表示第n种疾病,M≥400,rm表示第m种miRNA,S≥5000,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,…,A′s,…,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-;
(2)构建miRNA-疾病-基因关联网络G:
(2a)从数据库中获取与M种miRNA r={r1,r2,…,rm,…,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,…,Bo,…,BO},其中,O≥5000,Bo表示第o条miRNA-miRNA关联数据;
(2b)从数据库中获取与N种疾病d={d1,d2,…,dn,…,dN}关联的K种基因g={g1,g2,…,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K≥400,gk表示第k种基因,H≥1000,Yh表示第h条疾病-基因关联数据,1≤k≤K;
(2c)以M种miRNA r={r1,r2,...,rm,...,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,...,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,...,rm,...,rM,d1,d2,...,dn,...,dN,g1,g2,...,gk,...,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集;
(3)获取元路径集合P:
在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,...,Pi,...,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为 表示元路径Pi的第leni个节点的节点类型, 表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型,LENi表示元路径Pi的路径长度,LENi≥2;
以类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的类型的节点v2,再寻找与v2相连的类型的节点v3,依此类推,最后寻找与类型的节点相连的类型的节点得到元路径Pi的Qi条元路径实例集合其中,表示元路径Pi的第qi条元路径实例,
(5)构建基于元路径的图神经网络模型C:
(5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC;
(5b)定义基于元路径的图神经网络模型C的损失函数L:
(6)对基于元路径的图神经网络C进行迭代训练:
(6c)将每种miRNArm的基特征作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量
(6d)将miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量以及每种元路径Pi的元路径实例集合作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合将中起始节点相同的元路径实例在向量集合中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合和每种疾病dn的特征向量集合
(6e)基于多种元路径的特征学习模块中的第一全连接层对中的向量进行加权求和,得到miRNArm的特征向量节点特征输出模块中第一全连接层对进行线性变换,得到miRNArm的输出特征向量同时基于多种元路径的特征学习模块中的第二全连接层对中的向量进行加权求和,得到dn的特征向量节点特征输出模块中第二全连接层对进行线性变换,得到dn的输出特征向量
(6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
(7)获取miRNA和疾病的预测结果:
本发明与现有技术相比,具有以下优点:
1.本发明所构建的基于元路径的miRNA-疾病关联预测模型包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块,在对该模型进行迭代训练以及获取miRNA和疾病特征向量的过程中,基于一种元路径的特征学习模块通过融合元路径实例上所有节点的特征信息来更新起始节点的特征向量,不仅可以提取miRNA和疾病节点本身的特征信息,还能有效捕获元路径上中间节点携带的信息,基于多种元路径的特征学习模块通过融合节点在多种元路径上获取的特征信息,有助于更好地提取网络中的结构特征,与现有技术相比,提高了miRNA-疾病关联的预测精度。
2.本发明所构建的miRNA-疾病关联预测模型通过在关联网络中引入疾病和基因的关联关系,不仅丰富了关联网络包含的生物信息,还增加了关联网络中的节点种类,使得可选的元路径种类增多,有助于预测新疾病与miRNA的关联,与现有技术相比,扩大了miRNA-疾病关联预测的预测范围。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是,本发明不属于专利法第25条规定的不授予专利权的客体,同时也符合专利法第二条第二款的规定:
参照图1,本实例包括如下步骤:
步骤1,获取正样本集Ω和负样本集Ω-:
步骤1a)从HMDD v2.0数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNA r={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,...,AS},每种疾病dn至少与一种miRNA关联,且每种miRNArm至少与一种疾病关联,其中,N=383,dn表示第n种疾病,M=495,rm表示第m种miRNA,S=5430,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
步骤1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,...,A′s,...,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-。
步骤2,构建miRNA-疾病-基因关联网络G:
步骤2a)从MISIM数据库中获取与M种miRNAr={r1,r2,...,rm,...,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,...,Bo,...,BO},其中,O=10049,Bo表示第o条miRNA-miRNA关联数据;
所述的从MISIM数据库中获取的miRNA-miRNA关联数据,去掉相似性小于等于0.5的miRNA-miRNA关联,仅保留相似性大于0.5的miRNA-miRNA关联数据;
步骤2b)从DisGeNET数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的K种基因g={g1,g2,...,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K=3790,gk表示第k种基因,H=5937,Yh表示第h条疾病-基因关联数据,1≤k≤K;
所述的从DisGeNET数据库中获取的疾病-基因关联数据,仅保留疾病-基因相关性得分大于0.1且疾病-基因关联证据指数大于0.5的疾病-基因关联数据;
步骤2c)以M种miRNA r={r1,r2,...,rm,...,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,...,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,...,rm,...,rM,d1,d2,...,dn,...,dN,g1,g2,...,gk,...,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集。
步骤3,获取元路径集合P:
步骤3a)在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,…,Pi,...,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为 表示元路径Pi的第leni个节点的节点类型, 表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型,LENi表示元路径Pi的路径长度,LENi≥2;
所述的元路径Pi的形式可缩写为元路径Pi实质上描述的是节点类型和节点类型之间的一个组合关系 表示的是关系之间的组合操作,如果两个节点类型和之间存在某条路径服从于元路径Pi,那么该路径p′上的所有节点所属的类型必须存在于集合nt中,且路径中的每一个连边的类型与元路径nt中对应的相同,路径p′表示元路径Pi的一条元路径实例;
所述的在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,需满足元路径对称,且仅以miRNAr或疾病d为起始节点。
步骤4a)以类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的类型的节点v2,再寻找与v2相连的类型的节点v3,依此类推,最后寻找与类型的节点相连的类型的节点得到元路径Pi的Qi条元路径实例集合其中,表示元路径Pi的第qi条元路径实例,
步骤5,构建基于元路径的图神经网络模型C:
步骤5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC;
所述的节点特征降维模块中的第一全连接层的输入输出维度分别为495和32,第二全连接层的输入输出维度分别为383和32,第三全连接层的输入输出维度分别为3790和32;基于一种元路径的特征学习模块中,元路径Pi的元路径实例集合中起始节点相同的元路径实例对应的向量作为一个多头注意力层的输入,输出一个256维的向量,多头注意力层的数量等于每种元路径Pi的元路径实例中起始节点种数的总和;基于多种元路径的特征学习模块中的第一全连接层的输入输出维度分别为256和32,第二全连接层的输入输出维度分别为256和32;节点特征输出模块中的第一全连接层的输入输出维度分别为256和64,第二全连接层的输入输出维度分别为256和64;
本发明所构建的基于元路径的miRNA-疾病关联预测模型包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块,在对该模型进行迭代训练以及获取miRNA和疾病特征向量的过程中,基于一种元路径的特征学习模块通过融合元路径实例上所有节点的特征信息来更新起始节点的特征向量,不仅可以提取miRNA和疾病节点本身的特征信息,还能有效捕获元路径上中间节点携带的信息,基于多种元路径的特征学习模块通过融合节点在多种元路径上获取的特征信息,有助于更好地提取网络中的结构特征;
步骤5b)定义基于元路径的图神经网络模型C的损失函数L:
所述的σ表示Sigmoid激活函数。
步骤6,对基于元路径的图神经网络C进行迭代训练:
所述的进行one-hot编码即为分别构建三个单位矩阵E495、E383和E3790,其中,E495的第m行表示第m个miRNArm的基特征E383的第n行表示第n个疾病dn的基特征E3790的第k行表示第k个基因gk的基特征
步骤6c)将每种miRNArm的基特征作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量
步骤6d)将miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量以及每种元路径Pi的元路径实例集合作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合将中起始节点相同的元路径实例在向量集合中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合和每种疾病dn的特征向量集合
其中,表示的起始节点v1通过获得的向量信息,表示在第μ维的数值,节点t表示元路径实例上的任意一种节点,h′t,μ表示节点t的隐藏特征向量h′t在第μ维的数值,μ=1,2,...,z,表示每条元路径实例中所有节点的集合;
其中,表示的起始节点v1的隐藏特征,表示在向量集合中对应的向量||表示向量的拼接,表示第f次随机初始化的值,LeakyReLU表示激活函数,表示元路径实例对起始节点v1的第f个重要性,exp表示以e为底的指数函数,表示中以v1为起始节点的元路径实例的终止节点的集合,表示中以v1为起始节点、u为终止节点的元路径实例对起始节点v1的第f个重要性,表示对起始节点v1的第f个归一化重要性,表示元路径实例对起始节点v1的第f个归一化重要性,表示元路径实例在向量集合中对应的向量,F=8,当v1表示rm时,表示rm的特征向量集合中的一个元素,当v1表示dn时,表示dn的特征向量集合中的一个元素;
所述的一个多头注意力层可以得到或中的一个元素,每种miRNArm的特征向量集合中元素的个数等于元路径实例集合中包含以miRNArm为起始节点的元路径实例的元路径的种数,每种疾病dn的特征向量集合中元素的个数等于元路径实例集合中包含以疾病dn为起始节点的元路径实例的元路径的种数;
步骤6e)基于多种元路径的特征学习模块中的第一全连接层对中的向量进行加权求和,得到miRNArm的特征向量节点特征输出模块中第一全连接层对进行线性变换,得到miRNArm的输出特征向量同时基于多种元路径的特征学习模块中的第二全连接层对中的向量进行加权求和,得到dn的特征向量节点特征输出模块中第二全连接层对进行线性变换,得到dn的输出特征向量
其中,W′r和br表示基于多种元路径的特征学习模块中的第一全连接层的可学习参数,表示miRNA rm基于元路径Pir获得的特征向量,xir表示元路径Pir的初始特征向量,ar表示miRNAr的参数化注意力向量,eir表示元路径Pir的权重,βir表示元路径Pir的归一化权重,Ψr={Pir}Pir∈P∩Pir的起始节点类型为r},W′d和bd表示基于多种元路径的特征学习模块中的第二全连接层的可学习参数,表示疾病dn基于元路径Pid获得的特征向量,xid表示元路径Pid的初始特征向量,ad表示疾病d的参数化注意力向量,eid表示元路径Pid的权重,βid表示元路径Pid的归一化权重,Ψd={Pid}Pid∈P∩Pid的起始节点类型为d};
所述的节点特征输出模块中的第一全连接层将特征向量第二全连接层将特征向量分别映射到z′维向量空间中,并采用激活函数σ,通过映射后的向量计算miRNArm的输出特征向量通过映射后的向量计算疾病dn的输出特征向量
步骤6f)采用损失函数L,并通过和计算模型C的损失值Lj,然后采用反向传播方法,并通过Lj计算C的参数梯度,最后采用梯度下降算法通过C的参数梯度对C的权值参数进行更新;Lj的计算公式以及的更新公式为:
步骤6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
步骤7,获取miRNA和疾病的预测结果:
以下通过仿真实验对本发明的技术效果作进一步说明:
1.仿真条件和内容:
仿真实验在Intel(R)Core(TM)i5-7300HQ CPU、主频2.50GHz,内存8G,Pycharm平台上的Python3.6.5结合PyTorch1.2.0进行。
仿真1,对本发明的预测精度进行仿真,并结合对比文件中所给出的预测精度进行对比,其结果如表1所示,表1中的现有技术1为You等人2017年在《Plos ComputationalBiology》上发表的论文“PBMDA:A novel and effective path-based computationalmodel for miRNA-disease association prediction”提出的一种基于路径的miRNA-疾病关联预测方法,现有技术2为申请公布号为CN 109935332 A,名称为“一种基于双随机游走模型的miRNA-疾病关联预测方法”的专利申请提出的一种基于双随机游走模型的miRNA-疾病关联预测方法;
仿真2,对本发明的预测范围进行仿真,删除训练数据中乳腺肿瘤与miRNA的关联关系数据,将乳腺肿瘤作为一种新疾病,使用dbDEMC2.0、HMDD v3.2和miR2Disease三个数据库中提供的miRNA-疾病关联关系验证模型对乳腺肿瘤的预测结果。
2.仿真结果分析:
表征miRNA-疾病关联预测精度采用的评价指标为AUC。AUC(Area under curve)是ROC曲线(receiver operating characteristic curve)下的面积,ROC曲线的横坐标是假正类率FPR(False Positive Rate),纵坐标是真正类率TPR(True Positive Rate),FPR=FP/(TN+FP),TPR=TP/(TP+FN),其中,FP表示实际是负例但模型错误预测为正例的样本数,TN表示实际是负例且模型正确预测为负例的样本数,TP表示实际是正例且模型正确预测为正例的样本数,FN表示实际是正例但模型错误预测为负例的样本数。
本发明与两种现有技术的AUC值的对比结果如表1所示。
表1
方法 | AUC |
现有技术1 | 0.9172 |
现有技术2 | 0.9209 |
本发明 | 0.9214 |
结合表1可以看出,本发明的AUC值高于现有技术,证明本发明方法有效的提高了miRNA-疾病关联预测的精度。
本发明预测出的与新疾病乳腺肿瘤相关的前50个miRNA的验证结果如表2所示。
表2
结合表2可以看出,本发明预测的与乳腺肿瘤相关的排名前50个miRNA在三个数据库中全部得到验证,这表明预测结果较为可靠,通过预测结果说明了本发明的预测范围广度以及预测精度。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (5)
1.一种基于元路径的miRNA-疾病关联预测方法,其特征在于,包括如下步骤:
(1)获取正样本集Ω和负样本集Ω-:
(1a)从数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNAr={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,...,AS},每种疾病dn至少与一种miRNA关联,且每种miRNA rm至少与一种疾病关联,其中,N≥300,dn表示第n种疾病,M≥400,rm表示第m种miRNA,S≥5000,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,...,A′s,...,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-;
(2)构建miRNA-疾病-基因关联网络G:
(2a)从数据库中获取与M种miRNAr={r1,r2,...,rm,...,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,...,Bo,...,BO},其中,O≥5000,Bo表示第o条miRNA-miRNA关联数据;
(2b)从数据库中获取与N种疾病d={d1,d2,…,dn,...,dN}关联的K种基因g={g1,g2,...,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K≥400,gk表示第k种基因,H≥1000,Yh表示第h条疾病-基因关联数据,1≤k≤K;
(2c)以M种miRNAr={r1,r2,…,rm,…,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,…,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,…,rm,…,rM,d1,d2,…,dn,…,dN,g1,g2,…,gk,…,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集;
(3)获取元路径集合P:
在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,...,Pi,…,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为 表示元路径Pi的第leni个节点的节点类型, 表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型, LENi表示元路径Pi的路径长度,LENi≥2;
以类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的类型的节点v2,再寻找与v2相连的类型的节点v3,依此类推,最后寻找与类型的节点相连的类型的节点得到元路径Pi的Qi条元路径实例集合其中,表示元路径Pi的第qi条元路径实例,
(5)构建基于元路径的图神经网络模型C:
(5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC;
(5b)定义基于元路径的图神经网络模型C的损失函数L:
(6)对基于元路径的图神经网络C进行迭代训练:
(6c)将每种miRNArm的基特征作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量
(6d)将miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量以及每种元路径Pi的元路径实例集合作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合将中起始节点相同的元路径实例在向量集合中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合和每种疾病dn的特征向量集合
(6e)基于多种元路径的特征学习模块中的第一全连接层对中的向量进行加权求和,得到miRNArm的特征向量节点特征输出模块中第一全连接层对进行线性变换,得到miRNArm的输出特征向量同时基于多种元路径的特征学习模块中的第二全连接层对中的向量进行加权求和,得到dn的特征向量节点特征输出模块中第二全连接层对进行线性变换,得到dn的输出特征向量
(6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
(7)获取miRNA和疾病的预测结果:
2.根据权利要求1所述的基于元路径的miRNA-疾病关联预测方法,其特征在于,步骤(6c)中所述的将每种miRNArm的基特征作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,以及将每种基因gk的基特征作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,实现步骤为:
其中,表示的起始节点v1通过获得的向量信息,表示在第μ维的数值,节点t表示元路径实例上的任意一种节点,h′t,μ表示节点t的隐藏特征向量h′t在第μ维的数值,μ=1,2,...,z,表示每条元路径实例中所有节点的集合;
其中,Wr′和br表示基于多种元路径的特征学习模块中的第一全连接层的可学习参数,表示miRNA rm基于元路径Pir获得的特征向量,xir表示元路径Pir的初始特征向量,ar表示miRNAr的参数化注意力向量,eir表示元路径Pir的权重,βir表示元路径Pir的归一化权重,Ψr={Pir|Pir∈P∩Pir的起始节点类型为r},W′d和bd表示基于多种元路径的特征学习模块中的第二全连接层的可学习参数,表示疾病dn基于元路径Pid获得的特征向量,xid表示元路径Pid的初始特征向量,ad表示疾病d的参数化注意力向量,eid表示元路径Pid的权重,βid表示元路径Pid的归一化权重,Ψd={Pid|Pid∈P∩Pid的起始节点类型为d};
(6e2)节点特征输出模块中的第一全连接层将特征向量第二全连接层将特征向量分别映射到z′维向量空间中,并采用激活函数σ,通过映射后的向量计算miRNArm的输出特征向量通过映射后的向量计算疾病dn的输出特征向量
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524970.1A CN113223622B (zh) | 2021-05-14 | 2021-05-14 | 基于元路径的miRNA-疾病关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524970.1A CN113223622B (zh) | 2021-05-14 | 2021-05-14 | 基于元路径的miRNA-疾病关联预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223622A true CN113223622A (zh) | 2021-08-06 |
CN113223622B CN113223622B (zh) | 2023-07-28 |
Family
ID=77095594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110524970.1A Active CN113223622B (zh) | 2021-05-14 | 2021-05-14 | 基于元路径的miRNA-疾病关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223622B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246698A (zh) * | 2022-09-07 | 2023-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于神经网络的信息提取方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201441622A (zh) * | 2013-04-25 | 2014-11-01 | Chia-Hung Liu | 肝癌病患預後存活預測方法 |
WO2017196872A1 (en) * | 2016-05-09 | 2017-11-16 | Wayne State University | Orthogonal approach to integrate independent omic data |
CN110782945A (zh) * | 2019-10-22 | 2020-02-11 | 长沙学院 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
WO2020170052A1 (en) * | 2019-02-21 | 2020-08-27 | King Abdullah University Of Science And Technology | Disease-gene prioritization method and system |
CN112784913A (zh) * | 2021-01-29 | 2021-05-11 | 湖南大学 | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 |
-
2021
- 2021-05-14 CN CN202110524970.1A patent/CN113223622B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201441622A (zh) * | 2013-04-25 | 2014-11-01 | Chia-Hung Liu | 肝癌病患預後存活預測方法 |
WO2017196872A1 (en) * | 2016-05-09 | 2017-11-16 | Wayne State University | Orthogonal approach to integrate independent omic data |
WO2020170052A1 (en) * | 2019-02-21 | 2020-08-27 | King Abdullah University Of Science And Technology | Disease-gene prioritization method and system |
CN110782945A (zh) * | 2019-10-22 | 2020-02-11 | 长沙学院 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
CN112784913A (zh) * | 2021-01-29 | 2021-05-11 | 湖南大学 | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
郁?;顾捷;赵娜;骆永军;阚世林;: "基于双层耦合网的表型-基因关联分析与预测", 电子科技大学学报, no. 03 * |
高鹏;陈智华;: "一种基于拓扑信息的预测疾病相关的MicroRNAs方法", 电子学报, no. 02 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246698A (zh) * | 2022-09-07 | 2023-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于神经网络的信息提取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113223622B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN113409892B (zh) | 基于图神经网络的miRNA-疾病关联关系预测方法 | |
CN114496092B (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN109829162A (zh) | 一种文本分词方法及装置 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN110993113B (zh) | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN112951328A (zh) | 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统 | |
CN114496105A (zh) | 一种基于多语义网络的单步逆合成方法及系统 | |
CN113871021A (zh) | 一种基于图注意力机制的circRNA与疾病关联关系预测方法 | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN115995293A (zh) | 一种环状rna和疾病关联预测方法 | |
CN110491443B (zh) | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 | |
Ai et al. | A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases | |
CN113223622A (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
Thomas et al. | Feature versus raw sequence: Deep learning comparative study on predicting pre-mirna | |
JP6993250B2 (ja) | コンテンツ特徴量抽出装置、方法、及びプログラム | |
CN113223655A (zh) | 基于变分自编码器的药物-疾病关联预测方法 | |
CN109918659A (zh) | 一种基于不保留最优个体遗传算法优化词向量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |