CN114944192A

CN114944192A - 一种基于图注意力的疾病相关环状rna识别方法

Info

Publication number: CN114944192A
Application number: CN202210714604.7A
Authority: CN
Inventors: 彭理; 杨城
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-08-26
Anticipated expiration: 2042-06-22
Also published as: CN114944192B

Abstract

本发明公开了一种基于图注意力的疾病相关环状RNA识别方法，包括以下步骤：构建circRNA‑circRNA关系子图、疾病与疾病关系子图；构建circRNA与疾病的异构图；利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达，在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征；利用广义矩阵分解交互节点的高阶特征以表达异构图上节点之间的复杂关系；最后利用多层感知机网络学习节点之间的特征交互以达到预测circRNA节点与疾病节点之间潜在关系的目的。本发明具有可靠性高、准确性强等优点，有着广泛的市场前景。

Description

一种基于图注意力的疾病相关环状RNA识别方法

技术领域

本发明涉及生物信息工程领域，特别涉及一种基于图注意力的疾病相关环状RNA识别方法。

背景技术

在内源性非编码RNA研究邻域中，一个新的被研究的明星是circRNA，因其具有单链的环状封闭结构引起了许多研究者的兴趣。circRNA早在40年前就在植物样病毒中被发现。由于环状RNA分子的丰度较低，且生物学功能未知，因此它们通常被认为是RNA异常剪接的副产物。随着高通量测序技术和生物信息研究的深入发现环状RNA除了作为miRNA(一种常见的非编码RNA)海绵和影响RNA的剪接和转录，还可以通过独立翻译蛋白质来调节生命活动。

新出现的研究发现，circRNA可以促进许多主要疾病的发生，如癌症、眼部疾病和神经退行性疾病。因此，探索circRNA与疾病之间的潜在关联，有助于生物学家深入研究人类疾病的复杂致病机制，进一步促进疾病预防、疾病诊断和疾病治疗药物的研发。然而，通过传统的生物实验来发现circRNA-疾病的潜在关联是费时、费力和消耗大量金钱的。基于已经被生物实验验证的circRNA与疾病关联信息，可以采用计算预测的方法探寻circRNA与疾病的相互作用关系，这将有助于研究人员发现circRNA与疾病潜在关联的效率。

现存的方法大都基于传统机器学习和网络信息传播的方法去预测潜在的circRNA与疾病的关联，但是这些方法都有一个明显的缺点，当出现一个新的circRNA或者疾病时，需要重新计算预测方法中的相似性矩阵再进行后续步骤，这就造成“冷启动”问题，无疑将降低预测的效率。

发明内容

为了解决上述技术问题，本发明提供一种算法简单、可靠性高、准确性强的基于图注意力的疾病相关环状RNA识别方法。

本发明解决上述技术问题的技术方案是：一种基于图注意力的疾病相关环状RNA识别方法，包括以下步骤：

步骤一：采用整合的cirRNA相似性矩阵构建circRNA-circRNA关系子图，采用整合的疾病相似性矩阵构建疾病与疾病关系子图；

步骤二：利用构建的circRNA-circRNA关系子图、疾病与疾病关系子图以及已知的circRNA-疾病关系图构建circRNA与疾病的异构图；

步骤三：利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达，在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征；

步骤四：利用广义矩阵分解交互节点的高阶特征以表达异构图上节点之间的复杂关系；最后利用多层感知机网络学习节点之间的特征交互以达到预测circRNA节点与疾病节点之间潜在关系的目的。

上述基于图注意力的疾病相关环状RNA识别方法，所述步骤一具体包括如下步骤，

1-1)由circRNA高斯核相似性、circRNA序列相似性和circRNA功能相似性整合得到circRNA相似性矩阵，基于cirRNA相似性矩阵构建circRNA-circRNA关系子图；

1-2)由疾病高斯核相似性和疾病语义相似性整合得到疾病相似性矩阵，基于疾病相似性矩阵构建疾病与疾病关系子图。

上述基于图注意力的疾病相关环状RNA识别方法，所述步骤1-1)具体过程为：

1-1-1)将circRNA的序列信息视为字符串，用Levenshtein距离算法计算两个字符串之间相互转换的编辑距离，编辑距离越短，两个字符串越相似，其计算遵循以下公式：

dist表示编辑的距离，seqlen(·)表示circRNA的序列信息长度，c_i表示第i个circRNA，SC表示circRNA与circRNA之间的序列相似性矩阵，SC(c_i,c_j)表示c_i与c_j之间的序列相似性；

1-1-2)基于circRNA与相同疾病关联越多就越相似的原则，计算circRNA-circRNA之间的功能相似性，计算的公式如下：

G_i与G_j分别表示与c_i和c_j相关的疾病集合，||表示构成集合的circRNA或者疾病的个数，SD(d,G_n)表示疾病d与G_n集合内疾病的相似性分数，FS表示circRNA与circRNA之间的功能相似性矩阵，FS(c_i,c_j)表示c_i与c_j之间的功能相似性；

1-1-3)考虑circRNA与疾病的已知相互作用关系，计算表示circRNA与circRNA之间线性关系的高斯核相似性，具体计算公式如下：

KC(c_i,c_j)＝exp(-γ_c||A_i.-A_j.||²) (3)

其中，KC表示circRNA与circRNA之间的高斯核相似性矩阵，KC(c_i,c_j)表示c_i与c_j之间的高斯核相似性，A_i.与A_j.分别表示circRNA与疾病关联矩阵A的第i行和第j行，γ_c表示计算circRNA高斯核相似性的宽度控制参数，用公式表示为：

N_c表示circRNA的个数；

1-1-4)整合circRNA的相似性矩阵构建circRNA-circRA关系子图，用如下公式整合相似矩阵：

RCS表示整合的circRNA的相似性矩阵，RCS(c_i,c_j)表示c_i与c_j之间的相似性，假设circRNA与circRNA之间的相似性大于0.5，则认为两者之间具有强关联关系；构建circRNA子图的邻接矩阵MC，具体表示为：

上述基于图注意力的疾病相关环状RNA识别方法，所述步骤1-2)具体过程为：

1-2-1)基于疾病本体数据库DiseaseOntology中的DOID信息计算疾病与疾病之间的语义相似性，计算的公式为：

其中SD表示疾病与疾病之间的语义相似性矩阵，SD(d_m,d_n)表示疾病d_m与d_n之间的语义相似性，

表示疾病d_m的祖先，且包括d_m自身；d′表示d_m和d_n都存在关系的疾病，DV(d_m)表示疾病d_m的在祖先中的语义值，表示为：

其中d为疾病，D_d(d′)表示疾病d′对疾病d的贡献值；公式(7)中

表示疾病d′对疾病d_m的贡献值，其具体计算为：

1-2-2)考虑到circRNA与疾病的已知相互作用关系，计算表示疾病与疾病之间线性关系的高斯核相似性，具体计算公式如下：

KD(d_m,d_n)＝exp(-γ_c||A_.m-A_.n||²) (10)

其中，KD表示疾病与疾病之间的高斯核相似性矩阵，KD(d_m,d_n)表示疾病d_m与d_n之间的高斯核相似性，A_.m与A_.n分别表示circRNA与疾病关联矩阵A的第m列和第n列，γ_d表示计算疾病高斯核相似性的宽度控制参数，用公式表示为：

N_d表示疾病的个数；

1-2-3)整合疾病的相似性矩阵，构建疾病关系子图，整合疾病相似性矩阵RDS的具体公式如下：

构建疾病子图的邻接矩阵，同样假设疾病与疾病之间的相似性大于0.5，则认为两者之间具有强关联关系，疾病子图的邻接矩阵具体表示为：

上述基于图注意力的疾病相关环状RNA识别方法，所述步骤二的具体过程为：

利用已知的circRNA-疾病关系图、circRNA-circRNA关系子图和疾病与疾病关系子图构建circRNA与疾病的异构图；按照如下方法先构建异构图的邻接矩阵，再利用python中的DGL库构建异构图g；

构建异构图邻接矩阵H的公式为：

异构图g中点的特征矩阵X为:

其中，A表示已知circRNA与疾病构成的关联矩阵，A矩阵的行代表circRNA，列代表疾病，如果第c_p个circRNA和第d_q个疾病存在关联，p＝1,2,…,N_c；q＝1,2,…,N_d，则A中位于第c_p行第d_q列的值

否则

和

为需要学习的特征投影矩阵，

表示实数范围内取值，N_c×k表示W_c的大小，N_d×k表示W_d的大小，k为投影之后特征的维度。

上述基于图注意力的疾病相关环状RNA识别方法，所述步骤三的具体过程为：

利用多头动态图注意力机制获取异构图上节点特征的不同聚合表示，动态注意力机制的核心思想是聚合节点不同邻居的特征时，给邻居分配不同的权重；

异构图g中以circRNA c_p作为节点，以疾病d_q作为c_p的邻居节点，首先定义一个分数函数来计算异构图g上从节点c_p到邻居节点d_q的注意力权重分数

其中||表示向量的拼接，

和

分别表示异构图g中点的特征矩阵X中的第c_p行和第d_q行，a表示单层前馈神经网络，a^T表示的a转置，LeakyRELU()表示神经网络中的激活函数；使用softmax函数对邻居的注意权重分数进行归一化，得到关注邻居节点的注意力值

n_c表示图上节点c_p的邻居集合，则节点c_p的邻居节点特征聚合表示为：

其中，σ()表示神经网络中的激活函数RElU()；另外，使用单一的注意机制来聚合节点的邻域特征并不足以完全表示节点之间的关系，因此，将多个注意力头输出的特征表示进行聚合，得到节点c更丰富的特征表示，表述如下：

K是注意力头的个数，

表示第K注意头所聚合的节点特征表示，

表示节点c_p提取了多头注意力聚合邻居特征的高阶特征表示，f(·)表示一个特征提取的函数，计算

的f(·)共分为三个步骤；

第一步，通过多头注意力机制获得的节点c_p特征的不同聚合表示被垂直地堆叠起来：

表示节点c_p的特征堆叠矩阵；

第二步，利用具有不同大小卷积核的单层卷积网络从特征堆叠矩阵

中提取具有丰富信息的高阶特征，第l个卷积核的特征提取公式如下：

■表示卷积操作，

表示第l个卷积核参数矩阵，

表示偏置项,

表示节点c_p的不同特征聚合表达堆叠矩阵

经过第l个卷积核所提取出来的特征向量，ψ()表示神经网络中的激活函数RELU()；

第三步，将由不同卷积核得到的特征向量拼接在一起，形成具有丰富信息的高阶特征表示，用公式表示如下：

表示节点c_p提取了多头注意力聚合邻居特征的高阶特征表示，为公式(19)的输出表示；

因此，异构图中点的特征矩阵X进一步用X′表示：

由公式(23)可知，

表示X′的第(N_c+N_d)行，X′[1:N_c]和X′[N_c+1:N_c+N_d]分别表示异构图中circRNA和疾病的高阶特征信息。

上述基于图注意力的疾病相关环状RNA识别方法，所述步骤四中，用广义矩阵分解来表示circRNA与疾病之间复杂的高阶非线性特征交互；广义矩阵分解的定义如下:

其中，⊙表示哈达玛乘积，

和

分别表示X′中的第c_p行和第d_q行，P_pairwise(c_p,d_q)表示circRNA c_p与疾病d_q的高阶特征交互；

利用多层感知器网络学习节点之间的特征交互被表示为:

公式(25)中的W,W²…W^L和ε¹,ε²,…ε^L均为需要训练的参数矩阵，

表示circRNA c_p与疾病d_q的关联预测得分，模型是通过用L₂正则化来最小化二元交叉熵损失来训练的，通过下面的损失函数公式来计算:

其中，A已知的circRNA与疾病的关联矩阵，

表示A中位于第c_p行第d_q列的值，

表示预测的circRNA与疾病的关联矩阵，

表示

中位于第c_p行第d_q列的值，||Θ||²表示L₂正则化，L₂正则化的参数矩阵为Θ，S⁺为训练用的正样本，用来表示已知的circRNA与疾病的关联；S^-为训练用的负样本，用来表示未知的circRNA与疾病的关联。

本发明的有益效果在于：本发明利用图注意力网络中的多头动态注意力机制高效聚合异构图上邻居特征形成特征的不同聚合表示，再利用具有大小不同的单层卷积网络提取出高阶特征，最后通过多层感知机网络预测潜在circRNA与疾病的关联。本发明具有可靠性高、准确性强等优点，在生物数据库、生物数据分析、生物数据挖掘、疾病治疗药物的靶向研发的应用及普及上有着广泛的市场前景。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1所示，一种基于图注意力的疾病相关环状RNA识别方法，包括以下步骤：

步骤一：采用整合的cirRNA相似性矩阵构建circRNA-circRNA关系子图，采用整合的疾病相似性矩阵构建疾病与疾病关系子图。

步骤一具体包括如下步骤，

1-1)由circRNA高斯核相似性、circRNA序列相似性和circRNA功能相似性整合得到circRNA相似性矩阵，基于cirRNA相似性矩阵构建circRNA-circRNA关系子图。

1-1)具体过程为：

KC(c_i,c_j)＝exp(-γ_c||A_i.-A_j.||²) (3)

N_c表示circRNA的个数；

1-2)具体步骤为：

表示疾病d′对疾病d_m的贡献值，其具体计算为：

KD(d_m,d_n)＝exp(-γ_c||A_.m-A_.n||²) (10)

N_d表示疾病的个数；

步骤二：利用构建的circRNA-circRNA关系子图、疾病与疾病关系子图以及已知的circRNA-疾病关系图构建circRNA与疾病的异构图。

步骤二中，利用已知的circRNA-疾病关系图、circRNA-circRNA关系子图和疾病与疾病关系子图构建circRNA与疾病的异构图；按照如下方法先构建异构图的邻接矩阵，再利用python中的DGL库构建异构图g；

构建异构图邻接矩阵H的公式为：

异构图g中点的特征矩阵X为:

否则

和

为需要学习的特征投影矩阵，

步骤三：利用多头动态注意力机制学习异构图上每个节点特征的不同聚合表达，在此基础上利用具有不同大小卷积核的单层卷积网络从节点特征的不同聚合表达中提取具有信息的高阶特征。

步骤三的具体过程为：

其中||表示向量的拼接，

和

K是注意力头的个数，

表示第K注意头所聚合的节点特征表示，

的f(·)共分为三个步骤；

表示节点c_p的特征堆叠矩阵；

■表示卷积操作，

表示第l个卷积核参数矩阵，

表示偏置项,

表示节点c_p的不同特征聚合表达堆叠矩阵

因此，异构图中点的特征矩阵X进一步用X′表示：

由公式(23)可知，

步骤四中，用广义矩阵分解来表示circRNA与疾病之间复杂的高阶非线性特征交互；广义矩阵分解的定义如下:

其中，⊙表示哈达玛乘积，

和

利用多层感知器网络学习节点之间的特征交互被表示为:

表示circRNA_p与疾病d_q的关联预测得分，模型是通过用L₂正则化来最小化二元交叉熵损失来训练的，通过下面的损失函数公式来计算:

其中，A已知的circRNA与疾病的关联矩阵，

表示A中位于第c_p行第d_q列的值，

表示预测的circRNA与疾病的关联矩阵，

表示

实例

相关预测circRNA与疾病关联的方法介绍

[1]Lu C,Zeng M,Zhang F,et al.Deep matrix factorization improvesprediction of human circRNA-disease associations[J].IEEE Journal ofBiomedical and Health Informatics,2020,25(3):891-899。

文献[1]公开了一种深度矩阵分解的预测方法。它主要考虑已知circRNA与疾病关联的显式和隐式的反馈，然后利用投影层自动学习circRNA与疾病的表示来达到预测潜在circRNA与疾病关联的目的。

[2]Zhang W,Yu C,Wang X,et al.Predicting CircRNA-disease associationsthrough linear neighborhood label propagation method[J].Ieee Access,2019,7:83474-83483。

文献[2]公开了一种线性邻域标签传播方法来预测circRNA与疾病的关联。首先，它使用基于已知circRNA与疾病的关联来计算circRNA-circRNA相似性和疾病-疾病相似性。接下来，分别基于circRNA-circRNA相似性的图和基于疾病-疾病相似性的图实现标签传播，以预测circRNA-疾病关联。

[3]Ge E,Yang Y,Gang M,et al.Predicting human disease-associatedcircRNAs based on locality-constrained linear coding[J].Genomics,2020,112(2):1335-1342。

文献[3]公开了一种基于局部约束线性编码和标签传播的预测方法。它首先在已知的关联矩阵上使用局部约束线性编码获得重构的circRNA-circRNA相似性矩阵和疾病-疾病相似性矩阵，然后利用标签传播方法在重构的相似性矩阵和原有的相似性矩阵上进行标签传播获得最终的circRNA与疾病的预测关联得分。

本发明方法与相关预测方法指标在性能上的比较:

评价指标：准确率(Acc.)，精度(Pre.)，召回率(Rec.)，F1分数(F1-score)：

其中，从正样本和负样本中正确识别的样本数分别用TP和TN表示。从正样本和负样本中错误识别的样本数量分别用FP和FN表示。比较的结果如表1所示：

表1

结论：跟其他预测circRNA与疾病关联的方法相比，本发明所提出的预测方法在性能指标上都比其他方法要好，具有可靠性高，性能优越的特点。

本发明方法在预测与疾病存在潜在关联的circRNA上的结果，如表2、表3。

检验预测的证据为生物医学文献免费检索系统(PubMed)中发布的证实某些环状RNA与疾病存在医学关系的文章ID(PMID)。

表2预测与肝细胞癌有潜在关联的circRNA(预测得分排名前15)

表3预测与非小细胞肺癌有潜在关联的circRNA(预测得分排名前15)

结论：表2和表3中，通过预测与两种疾病存在潜在关联的circRNA结果说明，本发明在实际使用过程中能达到可靠的效果。虽然有些预测的结果还没被证实，但是，这些未被证实的预测结果可以进一步帮助生物信息人员提供候选的检测目标，这将会极大地提高科研效率，有助于尽快找到疾病的病发位置，从而及时的对症下药。