CN113871021A - 一种基于图注意力机制的circRNA与疾病关联关系预测方法 - Google Patents

一种基于图注意力机制的circRNA与疾病关联关系预测方法 Download PDF

Info

Publication number
CN113871021A
CN113871021A CN202111154802.4A CN202111154802A CN113871021A CN 113871021 A CN113871021 A CN 113871021A CN 202111154802 A CN202111154802 A CN 202111154802A CN 113871021 A CN113871021 A CN 113871021A
Authority
CN
China
Prior art keywords
disease
circrna
similarity
node
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111154802.4A
Other languages
English (en)
Inventor
嵇存美
孙航
王玉田
倪建成
郑春厚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN202111154802.4A priority Critical patent/CN113871021A/zh
Publication of CN113871021A publication Critical patent/CN113871021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Bioethics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于图注意力机制的circRNA与疾病关联关系预测方法,针对大量未知的circRNA‑疾病关联关系,利用疾病本体数据和已知circRNA‑疾病关联信息,构建基于图注意力机制的预测模型提取circRNA和疾病的准确的低维向量表示,并设计一种基于多层神经网络的模型预测未知的circRNA‑疾病关联关系。本发明通过计算方法可以高效、可靠地预测与疾病相关的circRNA,节省生物验证的人力财力成本。

Description

一种基于图注意力机制的circRNA与疾病关联关系预测方法
技术领域
本发明属于生物信息领域,涉及一种基于图注意力机制的circRNA与疾病关联关系预测方法。
背景技术
环状核糖核酸(Circular RNAs,以下简称为circRNA)是一种新的内源性非编码RNA,缺乏5’帽和3’聚腺苷化尾。自从20世纪70年代首次被发现以来,它们一直被认为是剪接错误。在过去的十年中,随着高通量测序技术的发展,在哺乳动物细胞中发现了大量的circRNA。研究人员发现,circRNA在人体组织中广泛表达,具有稳定的结构和组织特异性。目前,circRNA表达的机制仍然不清楚。研究表明,许多circRNA通过充当微小核糖核酸(miRNA)或核糖核酸结合蛋白的海绵、调节蛋白功能来实现其生物学功能。
许多circRNA参与了人类疾病,特别是癌症。例如,circHIPK3在结直肠癌(CRC) 组织中被发现显著上调,这是通过海绵化miR-7来抑制miR-7的活性。 Hsa_circ_0000190在胃癌组织和胃癌患者血浆中表达下调,可作为胃癌诊断的一种新型生物标志物。CircANRIL通过与pescadillo homolog 1(PES1)结合而与动脉粥样硬化疾病相关,进而损害pre-rRAN的加工和核糖体的生物发生,从而诱导细胞凋亡并抑制增殖。此外,研究人员还建立了相关数据库,如circRNADisease、 CircR2Disease、Circ2Disease和circAtlas。
实验验证方法识别疾病相关circRNA既昂贵又耗时。近年来,研究人员逐渐引入计算方法推断circRNA与疾病的潜在关联。Lei等人首先提出了一种路径加权方法来预测与疾病相关的circRNA。他们计算了疾病语义相似度、疾病功能相似度和高斯相互作用普相似。然后,构建了一个异构网络,并采用深度优先搜索 (DFS)遍历网络中的节点,计算预测得分。Yan等人开发了基于Kronecker积核正则化最小二乘的DWNN-RLS方法预测circRNA与疾病相关性,Xiao等人开发了一种具有双流形规则的加权低秩近似优化方法来推断潜在的circRNA-疾病关联。深度学习算法也被引入该领域。Deepthi等人提出了一种集成方法AE-RF,通过深度自编码器提取特征,利用随机森林进行预测。Li等人使用DeepWalk提取circRNA-疾病网络中的节点特征,并使用网络一致性投影算法预测。Wang等人使用FastGCN设计了GCNCDA来提取circRNA和疾病特征,使用Forest PA 分类器进行预测。
上述计算方法取得了不错的预测性能,但还存在一些问题和缺陷,还有进一步提升的空间。上述文献在提取circRNA和疾病特征时,通常直接使用相似性矩阵作为特征,或者使用相似性矩阵低维表示作为特征,导致circRNA和疾病特征的表示不准确。此外,特征的表示直接决定了模型的预测性能。
发明内容
为了解决现有技术的问题,本发明提供了一种基于图注意力机制的circRNA 与疾病关联关系预测方法,解决现有技术中circRNA和疾病特征的表示不准确进而影响模型的预测性能的问题。
本发明的技术方案如下:
一种基于图注意力机制的circRNA与疾病关联关系预测方法,包括步骤如下:
1)构建已知circRNA-疾病关联网络
从已知的circRNA-疾病关系,定义邻接矩阵
Figure BDA0003288178470000021
其中Nc和Nd分别代表circRNA和疾病的数量,Y(ci,dj)代表第i个circRNA和第j个疾病的关联关系,1 表示存在已知关联,0表示未知;
2)计算疾病语义相似性
根据Disease Ontology(DO)数据库中的疾病本体之间定义的关系,每个疾病构建一个有向无环图,根据代表两个疾病的有向无环图之间的重合度,计算疾病之间的相似性,得到疾病语义相似性;
3)计算circRNA和疾病高斯核相似性,circRNA功能相似性
根据已知circRNA-疾病邻接矩阵Y,分别计算出circRNA和疾病高斯核相似性;根据疾病语义相似性核circRNA-疾病邻接矩阵Y,计算circRNA功能相似性;
4)构建融合的circRNA和疾病相似性
针对circRNA功能相似性矩阵和疾病语义相似性矩阵稀疏性问题,结合疾病语义相似性矩阵、circRNA功能相似性矩阵,以及相应的高斯核相似性矩阵;若疾病语义相似性矩阵中元素非0,则保持不变,否则替换为疾病高斯核相似性矩阵中对应位置的值;类似地,若circRNA功能相似性中元素非0,则保持不变,否则替换为circRNA高斯核相似性矩阵中对应的值;分别获得融合circRNA和疾病相似性矩阵SC和SD;
5)基于图注意力机制的circRNA和疾病特征提取
针对circRNA和疾病特征缺失的问题,首先定义两个投影参数矩阵MC和MD,使得SC和SD映射到同一空间,矩阵中的一行表示每个circRNA和疾病的初始特征;然后,基于图注意力机制,在已知circRNA-疾病网络Y中进行进一步提取 circRNA和疾病的特征表示;
6)构建多层神经网络的模型进行circRNA-疾病关系的预测
根据已知circRNA-疾病关系,随机选取同样数量的未知关联作为负样本,构建多层神经网络的模型,计算所有circRNA和某疾病的关联概率,分值越大,则表示潜在的未知关联关系可能性越大。
与现有技术相比,本发明的有益效果是:
本发明融合circRNA和疾病相似性矩阵,以及已知circRNA-疾病关联关系,基于图注意力机制提取circRNA和疾病的低维表示,基于多层神经网络的模型准确预测未知circRNA-疾病之间的关联关系。本发明能够基于已知circRNA-疾病的关联,推断潜在的、未知的circRNA-疾病关联关系。本发明通过计算方法可以高效、可靠地预测与疾病相关的circRNA,本发明预测结果可以为进一步生物实验验证提供了可靠的依据,节省实验时间和人力财力花销。
附图说明
图1是本发明实施的流程图;(a)为circRNA和疾病相似性融合,(b)为基于图注意力机制的特征提取,(c)为基于多层神经网络的circRNA-疾病关联预测;
图2是本发明在五折交叉验证下AUC和PR指标示意图;(a)为基于五折交叉验证的AUC性能,(b)为基于五折交叉验证的AUPR性能;
图3是本发明在不同结构选择下获得AUC指标示意图;
图4是本发明在不同参数选择下获得AUC指标示意图。(a)为不同特征维度下对性能的影响,(b)为不同图注意力机制头数下对性能的影响,(c)为正则化因子的不同取值对性能的影响;
具体实施方式
下面通过结合本发明实施例及附图,说明本发明提出的基于图注意力机制的circRNA与疾病关联关系预测方法的实施过程。
1:构建已知circRNA-疾病关联,计算相似性。
从CircR2Disease数据库下载已知circRNA-疾病关联,表示为
Figure BDA0003288178470000041
其中Nc和Nd分别表示circRNA和疾病的数量。
从Disease Ontology(DO)数据库下载疾病本体数据,每个疾病构建一个有向无环图,疾病d表示为DAGd=(Td,Ed),Td表示图中所有节点的集合,Ed表示图中所有边的集合。两种疾病之间的有向无环图共享节点越多,他们功能上越相似。本发明首先计算Td中每个节点di对某个疾病d的贡献值:
Dd(di)=1 if d=di
Dd(di)=max{ΔDd(d′i)|d′i∈children of di}if d≠di
其中,Δ表示衰减因子。其次,定义疾病d的语义值如下:
Figure BDA0003288178470000051
然后,计算两个疾病di和疾病dj之间的语义相似度:
Figure BDA0003288178470000052
其中,
Figure BDA0003288178470000053
Figure BDA0003288178470000054
分别表示疾病di和疾病dj对应的各自有向无环图中的节点,d′表示两个有向无环图中相同的节点。所有疾病两两之间的语义相似性可以表示为
Figure BDA0003288178470000055
Nd表示疾病的数量。
与两个circRNA相关的疾病越相似,它们的功能就越相似。本发明用FS(ci,cj) 表示ci和cj之间的功能相似性,Di和Dj表示根据已知circRNA与疾病的关联得出的疾病组。然后,定义circRNA ci和cj之间的功能相似性如下:
Figure BDA0003288178470000056
其中,
Figure BDA0003288178470000057
表示疾病d和组D之间的相似性,|Di|和|Dj|表示Di和Dj中疾病的数量。
根据已知circRNA-疾病邻接矩阵Y,分别计算circRNA和疾病高斯核相似性:
GC(ci,cj)=exp(-γc||Y-Y||2)
GD(di,dj)=exp(-γd||Y·i-Y·j||2)
其中,GC和GD分别表示circRNA和疾病高斯核相似性矩阵。Y和Y表示邻接矩阵Y中的第i行及第j行,Y·i和Y·j表示Y中的第i列及j列,γc和γd表示控制参数,定义如下:
Figure BDA0003288178470000061
Figure BDA0003288178470000062
其中,Nc和Nd分别代表circRNA和疾病的数量。两个circRNA相关的疾病越多,它们的功能越相似,circRNA功能相似性定义为:
Figure BDA0003288178470000063
其中,Di和Dj分别表示与第i个和第j个circRNA关联的疾病组,
Figure BDA0003288178470000064
表示疾病d和组D之间的相似性,|Di|和|Dj|表示Di和Dj中疾病的数量。
2:进一步融合疾病和circRNA的相似性,如图1(a)所示。
由于疾病语义相似性矩阵SS和circRNA功能相似性矩阵FS的稀疏性,本发明融合高斯核相似性,构建疾病和circRNA相似性矩阵,分别记为SC和SD。
Figure BDA0003288178470000065
Figure BDA0003288178470000066
其中,SC和SD为融合后的circRNA和疾病相似性矩阵。由于SC和SD的维度不一致,为了获得circRNA和疾病特征表示,引入参数矩阵
Figure BDA0003288178470000067
Figure BDA0003288178470000071
使得融合相似性矩阵SC和SD投影到同一空间,F是节点维度。公式如下:
X=concat(SC×MC,SD×MD)
其中,
Figure BDA0003288178470000072
表示得到特征矩阵。
3:提出基于图注意力机制的circRNA与疾病特征提取方法,如图1(b)所示。
根据已知circRNA-疾病关联矩阵Y构建异构注意力图模型,进一步进行特征提取。对于节点vi,第l层多头注意力机制提取的节点vi的特征记为
Figure BDA0003288178470000073
公式如下:
Figure BDA0003288178470000074
其中,K表示注意力机制的头数,σ是非线性激活函数,
Figure BDA0003288178470000075
表示该节点邻居节点, W(l,k)是第l层第k头参数矩阵,
Figure BDA0003288178470000076
表示该节点邻居的向量表示,
Figure BDA0003288178470000077
是邻居节点j对该节点的贡献系数,定义为:
Figure BDA0003288178470000078
其中,softmax表示归一化所有邻居节点对该节点的贡献系数,每个邻居节点j 对该节点i的贡献,计算公式如下:
Figure BDA0003288178470000079
其中,a为单层神经网络,W(l)为参数矩阵,
Figure BDA00032881784700000710
Figure BDA00032881784700000711
是第l层输入的节点i和节点j的特征。经过迭代计算,模型中使用L层图注意力机制,则计算后得到每个 circRNA和疾病的低维稠密表示,可以记为
Figure BDA0003288178470000081
4:提出基于多层神经网络的circRNA与疾病关联关系预测方法,如图1(c) 所示。
首先构造样本,本发明随机选取同样数量的未知关联作为负样本,全部已知circRNA-疾病关联作为正样本,设计多层神经网络预测模型,计算所有circRNA 和某疾病的关联概率,第k层的输出表示为:
h(k+1)=σ1(W(k)×h(k)+b(k))
其中,σ1是非线性激活函数LeakyReLU,W(k)和b(k)为第k层的参数, h(0)=concat(c,d)表示预测模型的输入,concat表示两个向量的拼接,c和d表示某个circRNA和某个疾病的向量表示。则K层神经网络模型最终的预测分数计算公式如下:
f(c,d)=h(K+1)=σ2(W(K)×h(K)+b(K))
其中,σ2表示激活函数sigmoid(·),某circRNA和特定疾病之间的关联得分 f(c,d)∈(0,1),作为判断潜在的未知关联关系大小的依据。
最终,预测模型的损失函数定义为:
Figure BDA0003288178470000082
其中,其中N为训练样本总数。λ表示正则化的控制因子,Θ是模型的参数。
5:模型结构和参数对预测性能的影响,如图3和图4所示。
本发明定量评估了不同结构和参数对预测性能的影响,使用基于 CircR2Disease数据集的5折交叉验证进行性能评价。首先,本发明选择是否使用相似性集成、图注意力机制和多层神经网络的分类器,将模型的变种定义为:
变种1(不使用相似性特征):使用随机初始化的SD和SC作为疾病和circRNA 的特征。
变种2(不使用图注意力机制):从模型中去除图注意力机制,使用集成的相似性作为特征,并使用一个两层神经网络作为预测器。
变种3(不使用多层神经网络分类器):使用点积计算得分,而不是用多层神经网络作为预测器。
结果如图3所示。本发明使用随机初始化特征获得的AUC和AUPR值最低,表明将集成相似性作为初始节点特征可以大大提高预测性能。本发明不带图注意力机制和不带多层神经网络的性能下降约10%。因此,本发明提出的方法结合了这些组件的优点,以获得最佳性能。
同时,本发明评估几个重要的超参数对预测性能的影响,如图4所示。首先,选择了不同的特征维度大小{8,16,32,64,128,256},测试其对性能的影响。如图4(a) 所示,当维度设置为8时,本发明的AUC和AUPR最低,在32时性能最好。当维度超过32时,性能略有下降。结果表明,过小的维度可能导致疾病和circRNA 的表达能力降低,而过大的维度可能导致高噪声。其次,本发明对图注意力机制的不同头数进行了实验。由图4(b)可知,本发明在4个图注意力机制头时的AUC 最好,在1个图注意力机制头时的AUPR最好。考虑到大多数方法使用AUC作为性能比较的标准,我们最终选择4作为图注意力机制的默认头数。此外,还计算正则化因子λ的影响。如图4(c)所示,本发明在λ=1e-2处获得最佳AUC和 AUPR。
6:验证本发明的预测性能,如图2,表1和表2所示。
表1.基于CircR2Disease数据库的五折交叉验证结果.
Figure BDA0003288178470000091
Figure BDA0003288178470000101
表2.基于CircR2Disease数据库五折交叉验证下AUC值比较.
Figure BDA0003288178470000102
本发明使用5折交叉验证评估预测性能。首先,所有样本被随机分成5份,每份轮流作为测试集,其他4份作为训练集。结果如图2所示,在CircR2Disease 数据集上,平均AUC和AUPR分别为0.9740,0.9673。如表1所示,本发明的平均准确率为0.9315,精度为0.9714,召回率为0.9615,F1值为0.9336。
此外,基于5折交叉验证的评价指标,进行了50次实验,选择本发明的最佳性能和平均性能,与其他9种方法进行比较。结果见表2所示,可以看出,本发明优于其他9种方法。值得注意的是,后两种方法都是基于图神经网络的。本发明的AUC值大大优于这些方法,这表明本发明可以有效、准确地预测潜在的疾病相关circRNA。
7:典型疾病案例分析,如表3和表4所示。
以乳腺癌和肝细胞癌为例,进一步验证本发明的预测性能。案例分析在CircR2Disease数据集上训练,然后在circRNADisease和circAtlas v2.0数据集上验证预测的circRNA。第一个案例研究是乳腺癌,这是女性最常见的癌症之一。特别地,实验使用CircR2Disease中所有已知关联作为正样本。同时,从未知的关联中随机抽取相同数量的负样本。基于这些训练样本训练模型,然后计算了乳腺癌与每个circRNA之间的得分。最后,我们选择排名前20的相关circRNA进行分析。如表3所示,前20个预测中有18个得到了验证。其他2个预测circRNA 已在最近发表的文献中得到验证。
第二个疾病案例是关于肝细胞癌。它是最常见的一种肝癌,在长期肝病患者中发病率较高。我们利用本发明计算其与circRNA的相关得分,然后按降序排序。前20个与肝细胞癌相关的circRNA列在表4中。可以看到,前20个候选circRNA 中有10个在验证数据集中得到了验证,其他8个候选circRNA在最近的文献中也得到了验证。
表3.与乳腺癌相关的前20个circRNA.
Figure BDA0003288178470000111
Figure BDA0003288178470000121
I,II表示circRNADisease,circAtlas v2.0数据库.
表4.与肝细胞癌相关的前20个circRNA.
Figure BDA0003288178470000131
I,II表示circRNADisease,circAtlas v2.0数据库。

Claims (6)

1.一种基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,包括步骤如下:
1)构建已知circRNA-疾病关联网络
从已知的circRNA-疾病关系,定义邻接矩阵
Figure FDA0003288178460000011
其中Nc和Nd分别代表circRNA和疾病的数量,Y(ci,dj)代表第i个circRNA和第j个疾病的关联关系,1表示存在已知关联,0表示未知;
2)计算疾病语义相似性
根据Disease Ontology(DO)数据库中的疾病本体之间定义的关系,每个疾病构建一个有向无环图,根据代表两个疾病的有向无环图之间的重合度,计算疾病之间的相似性,得到疾病语义相似性;
3)计算circRNA和疾病高斯核相似性,circRNA功能相似性
根据已知circRNA-疾病邻接矩阵Y,分别计算出circRNA和疾病高斯核相似性;根据疾病语义相似性核circRNA-疾病邻接矩阵Y,计算circRNA功能相似性;
4)构建融合的circRNA和疾病相似性
针对circRNA功能相似性矩阵和疾病语义相似性矩阵稀疏性问题,结合疾病语义相似性矩阵、circRNA功能相似性矩阵,以及相应的高斯核相似性矩阵;若疾病语义相似性矩阵中元素非0,则保持不变,否则替换为疾病高斯核相似性矩阵中对应位置的值;类似地,若circRNA功能相似性中元素非0,则保持不变,否则替换为circRNA高斯核相似性矩阵中对应的值;分别获得融合circRNA和疾病相似性矩阵SC和SD;
5)基于图注意力机制的circRNA和疾病特征提取
针对circRNA和疾病特征缺失的问题,首先定义两个投影参数矩阵MC和MD,使得SC和SD映射到同一空间,矩阵中的一行表示每个circRNA和疾病的初始特征;然后,基于图注意力机制,在已知circRNA-疾病网络Y中进行进一步提取circRNA和疾病的特征表示;
6)构建多层神经网络的模型进行circRNA-疾病关系的预测
根据已知circRNA-疾病关系,随机选取同样数量的未知关联作为负样本,构建多层神经网络的模型,计算所有circRNA和某疾病的关联概率,分值越大,则表示潜在的未知关联关系可能性越大。
2.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,步骤2)进一步细化为:根据疾病之间的有向无环图计算疾病语义相似性矩阵SS;首先,对于每个疾病d构建唯一的有向无环图,它的所有节点记为Td,计算图中每个节点di对该节点d的贡献值Dd(di),公式如下:
Dd(di)=1if d=di
Dd(di)=max{ΔDd(d′i)|d′i∈children of di}if d≠di
其中,Δ表示衰减因子;其次,定义疾病的语义值如下:
Figure FDA0003288178460000012
然后,计算两个疾病di和疾病dj之间的语义SS(di,dj),公式如下:
Figure FDA0003288178460000021
其中,
Figure FDA0003288178460000022
Figure FDA00032881784600000214
分别表示疾病di和疾病dj对应的各自有向无环图中的节点,d′表示两个有向无环图中相同的节点。
3.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,步骤3)进一步细化为:首先,根据已知circRNA-疾病邻接矩阵Y,分别计算circRNA和疾病高斯核相似性:
GC(ci,cj)=exp(-γc||Y-Y||2)
GD(di,dj)=exp(-γd||Y·i-Y·j||2)
其中,GC和GD分别表示circRNA和疾病高斯核相似性矩阵;Y和Y表示邻接矩阵Y中的第i行及第j行,Y·i和Y·j表示Y中的第i列及j列,γc和γd表示控制参数,定义如下:
Figure FDA0003288178460000024
Figure FDA0003288178460000025
其中,Nc和Nd分别表示circRNA和疾病的数量;两个circRNA相关的疾病越多,它们的功能越相似,circRNA功能相似性定义为:
Figure FDA0003288178460000026
其中,Di和Dj分别表示与第i个和第j个circRNA关联的疾病组,
Figure FDA0003288178460000027
表示疾病d和组D之间的相似性,|Di|和|Dj|表示Di和Dj中疾病的数量。
4.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,步骤4)进一步细化为:整合疾病语义相似性矩阵和疾病高斯核相似性矩阵,记为SC;整合circRNA功能相似性矩阵及其高斯核相似性矩阵,记为SD;公式如下:
Figure FDA0003288178460000028
Figure FDA0003288178460000029
其中,SC和SD为融合后的circRNA和疾病相似性矩阵。
5.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征在于,步骤5)进一步细化为:首先,构造circRNA-疾病图G=(V,E),节点表示为
Figure FDA00032881784600000210
Figure FDA00032881784600000211
E代表图中circRNA和疾病节点之间已知关联的集合;图中所有节点的初始特征记X,计算如下:
X=concat(SC×MC,SD×MD)
其中,
Figure FDA00032881784600000212
Figure FDA00032881784600000213
表示参数矩阵,使得融合相似性矩阵SC和SD投影到同一空间,F是节点的维度;concat(.,.)表示拼接;其次,引入图注意力机制,在circRNA-疾病图G中进一步进行特征提取;对于节点vi,第1层多头注意力机制提取的节点vi的特征记为
Figure FDA0003288178460000031
公式如下:
Figure FDA0003288178460000032
其中,K表示注意力机制的头数,σ是非线性激活函数,
Figure FDA0003288178460000033
表示该节点邻居节点,W(l,k)是第1层第k头参数矩阵,
Figure FDA0003288178460000034
表示该节点邻居的向量表示,
Figure FDA0003288178460000035
是第k头中邻居节点j对该节点的贡献系数,l层中节点j对节点i的贡献定义为:
Figure FDA0003288178460000036
其中,softmax表示归一化所有邻居节点对该节点的贡献系数,
Figure FDA0003288178460000037
表示节点i的所有邻居节点,每个邻居节点j对该节点i的贡献,计算公式如下:
Figure FDA0003288178460000038
其中,a为单层神经网络,W(l)为参数矩阵,
Figure FDA0003288178460000039
Figure FDA00032881784600000310
是第l层输入的节点i和节点j的特征;经过迭代计算,第L层图注意力机制计算后,得到circRNA和疾病的低维稠密表示,记为
Figure FDA00032881784600000311
6.如权利要求1所述的基于图注意力机制的circRNA与疾病关联关系预测方法,其特征是,步骤6)进一步细化为:首先,随机选取同样数量的未知关联作为负样本,全部已知circRNA-疾病关联作为正样本,构建多层神经网络的模型,计算circRNA和疾病的关联概率,第k层的输出为:
h(k+1)=σ1(W(k)×h(k)+b(k))
其中,σ1是非线性激活函数LeakyReLU,W(k)和b(k)为第k层的参数,h(0)=concat(c,d)表示预测模型的输入,concat表示两个向量的拼接,c和d表示某个circRNA和某个疾病的向量表示;则K层神经网络模型最终的预测分数计算公式如下:
f(c,d)=h(K+1)=σ2(W(K)×h(K)+b(K))
其中,σ2表示激活函数sigmoid(·),W(K)和b(K)为第K层的参数,某circRNA和特定疾病之间的关联得分f(c,d)∈(0,1),作为判断潜在的未知关联关系大小的依据。
CN202111154802.4A 2021-09-29 2021-09-29 一种基于图注意力机制的circRNA与疾病关联关系预测方法 Pending CN113871021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111154802.4A CN113871021A (zh) 2021-09-29 2021-09-29 一种基于图注意力机制的circRNA与疾病关联关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111154802.4A CN113871021A (zh) 2021-09-29 2021-09-29 一种基于图注意力机制的circRNA与疾病关联关系预测方法

Publications (1)

Publication Number Publication Date
CN113871021A true CN113871021A (zh) 2021-12-31

Family

ID=79000762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111154802.4A Pending CN113871021A (zh) 2021-09-29 2021-09-29 一种基于图注意力机制的circRNA与疾病关联关系预测方法

Country Status (1)

Country Link
CN (1) CN113871021A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582508A (zh) * 2022-03-04 2022-06-03 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114694841A (zh) * 2022-03-30 2022-07-01 电子科技大学 一种基于患者电子健康记录的不良事件风险预测方法
CN114818700A (zh) * 2022-05-10 2022-07-29 东南大学 一种基于成对连通图和图神经网络的本体概念匹配方法
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582508A (zh) * 2022-03-04 2022-06-03 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114582508B (zh) * 2022-03-04 2024-03-15 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114694841A (zh) * 2022-03-30 2022-07-01 电子科技大学 一种基于患者电子健康记录的不良事件风险预测方法
CN114694841B (zh) * 2022-03-30 2023-04-07 电子科技大学 一种基于患者电子健康记录的不良事件风险预测方法
CN114818700A (zh) * 2022-05-10 2022-07-29 东南大学 一种基于成对连通图和图神经网络的本体概念匹配方法
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法

Similar Documents

Publication Publication Date Title
CN110728224B (zh) 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN113871021A (zh) 一种基于图注意力机制的circRNA与疾病关联关系预测方法
Li et al. Grouped gene selection of cancer via adaptive sparse group lasso based on conditional mutual information
CN109036577B (zh) 糖尿病并发症分析方法及装置
CN112183837A (zh) 一种基于自编码模型的miRNA与疾病关联关系预测方法
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及系统
CN114496092B (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
Zhang et al. Predicting disease-related RNA associations based on graph convolutional attention network
CN114596467A (zh) 基于证据深度学习的多模态影像分类方法
CN115019891A (zh) 一种基于半监督图神经网络的个体驱动基因预测方法
CN115640529A (zh) 一种新型的环状rna-疾病关联预测方法
Zhang et al. MCA-NET: multi-feature coding and attention convolutional neural network for predicting lncRNA-disease association
Singh et al. A stack autoencoders based deep neural network approach for cervical cell classification in pap-smear images
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
CN116543215A (zh) 一种基于深度哈希互学习的脑网络分类方法
TW202121223A (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
CN115689981A (zh) 基于信息融合的肺部图像检测方法、装置及存储介质
CN114529911A (zh) 基于改进yolo9000算法的验证码识别方法及系统
CN112885405A (zh) 疾病关联miRNA的预测方法和系统
Zhou et al. Predicting circRNA-miRNA interactions utilizing transformer-based RNA sequential learning and high-order proximity preserved embedding
Ma et al. A New Approach Based on Feature Selection of Light Gradient Boosting Machine and Transformer to Predict circRNA-disease Associations
CN114694748B (zh) 一种基于预后信息与强化学习的蛋白质组学分子分型方法
Sridhar et al. Interrelating N-gram based protein sequences using LSTMs with parallel capsule routing
US20240194299A1 (en) Systems and methods for predicting compounds associated with transcriptional signatures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination