CN114582508B

CN114582508B - 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法

Info

Publication number: CN114582508B
Application number: CN202210215060.XA
Authority: CN
Inventors: 郑春厚; 左宗兰; 曹瑞芬; 夏俊峰; 苏延森
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2024-03-15
Anticipated expiration: 2042-03-04
Also published as: CN114582508A

Abstract

本发明公开了一种基于GCN和集成学习预测潜在关联的环状RNA‑疾病对的方法，包括：整合实验证实相关联的环状RNA‑疾病对，根据涉及到的环状RNA和疾病从相应数据库中获取序列信息和语义信息；利用图卷积神经网络并基于关联信息，环状RNA的相似性以及疾病间的相似性信息提取环状RNA的特征以及疾病的特征；构建正负样本平衡的数据集，并用其训练4基本分类器，并利用集成学习中的平均法结合策略对此些分类器集成并对所有未验证的环状RNA‑疾病对做出预测。本发明可以有效的基于已知的环状RNA‑疾病对信息预测潜在关联的环状RNA疾病对，提高预测模型的性能，为生物实验提供最有可能关联的环状RNA‑疾病对，从而促进相关生物实验的发展。

Description

基于GCN和集成学习预测潜在关联的环状RNA-疾病对的方法

技术领域

本发明涉及生物信息计算领域，特别是利用计算模型预测潜在环状RNA-疾病对关联性的领域。

背景技术

环状RNA是一类闭环结构的RNA分子，随着高通量测序技术的发展，人们通过实验发现了大量的环状RNA，因此环状RNA犹如RNA界的一颗“新星”，受到越来越多的人关注。

环状RNA的结构特点使环状RNA具有稳定性以及在人的外泌体中富集的特点，此外其还具有进化保守性，半衰期长，组织特异性等特点。

已有的研究表明环状RNA与疾病的发生发展关联密切，而环状RNA的特点使得它成为疾病诊断过程中一种理想的标志物。

虽然目前的研究已经证实了部分环状RNA-疾病关联对，但是由于环状RNA和疾病种类均很庞大，以至于还有很多未被人们发现、但是对人们的健康至关重要的环状RNA-疾病关联对。

目前通过生物实验去寻找并证实这些关联对是耗费人力物力的，因此有必要通过构建有效的计算模型预测潜在关联的环状RNA-疾病对，从而促进相关生物实验的研究，帮助更多的患者和家庭。

目前预测环状RNA-疾病关联对的方法大致可以分为两类。一类是基于半监督的方法，直接通过实验证实的环状RNA-疾病关联对和其余的环状RNA-疾病对以及相应的环状RNA间的相似性信息和疾病的相似性信息对所有环状RNA-疾病对做出关联性预测。

另一类是基于监督模型的方法，首先构建一个正负样本平衡的数据集，因为目前没有实验证实无关的环状RNA-疾病对，所以大多通过随机抽取的方式从未验证的环状RNA-疾病对中抽取一定数量的环状RNA-疾病对作为负样本。其次，利用此数据集训练模型，并用训练好的模型对未验证的环状RNA-疾病对做出关联性预测。

同时，对于已有的研究还存在以下一些不足：首先，部分模型不能对于新节点进行预测，如一种疾病没有一种实验证实与之相关联的环状RNA；其次，通过随机抽取的方式获取负样本的方法，具有一定的随机性，可能对模型效果产生一定的偏差；最后，目前越来越多的人将深度学习的方法应用于此领域的研究，但是有关于环状RNA-疾病对的数据却一直停留在最初研究的数据集上。

发明内容

本发明的目的在于一种计算模型预测潜在关联的环状RNA-疾病对，为相关生物实验提供最有可能的环状RNA-疾病对，从而促进人们对疾病相关机制的理解。

为此，本发明提供了一种基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，包括：S1、整合实验证实相关联的环状RNA-疾病对，形成环状RNA数据集和疾病数据集，构建关联矩阵A；S2、从相应数据库中提取环状RNA的序列信息和疾病的语义信息，根据关联矩阵、环状RNA的序列信息和疾病的语义信息计算环状RNA的相似性矩阵SC和疾病的相似性矩阵SD，进而得到输入数据N，其中，S3、将输入数据N送入图卷积神经网络中重构图，在通过图卷积神经网络重构图的过程中，从编码后的嵌入层中提取设定维度的环状RNA的特征以及疾病的特征；S4、对于每一个环状RNA-疾病对，即每一个样本，基于提取的设定维度的环状RNA的特征以及疾病的特征，通过二者串联得到该样本的特征向量，同时构建正负样本平衡的数据集，用来分别训练多种基本分类器，并将训练后的这些分类器利用集成学习中的平均法进行集成；S5、对于未验证的环状RNA-疾病对，将待验证的环状RNA和疾病添加至步骤S1中的环状RNA数据集和疾病数据集中，重复执行S1和S4，进而更新关联矩阵、输入数据N和特征向量，最后由多个分类器对每个样本预测相关联的概率值的均值作为每个样本的最终关联性得分。

本发明的有益效果是：

(1)整合了更多的环状RNA-疾病对相关数据用于模型的训练，为利用深度学习算法提供充分数据。

(2)基于环状RNA-疾病对信息，环状RNA的相似性信息以及疾病间的相似性信息，使用卷积神经网络从中提取环状RNA间的特征以及疾病间的特征。

(3)使用集成学习的方法进一步提高预测潜在关联环状RNA-疾病对模型的性能，为同类型的关联性预测如lncRNA-疾病，miRNA-疾病以及药物重定位等相关联性预测提供一定的指导意义。

(4)本模型对于新节点可以做出预测，且通过100次五折交叉验证消除随机抽取负样本对性能产生较大影响的可能性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法的流程图；

图2是本发明基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法的原理框图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。

为了克服目前技术的缺点，本发明提出一种基于图卷积神经网络和集成学习预测环状RNA-疾病对的方法，首先整合已有的环状RNA-疾病关联对信息并构建相应的特征，为接下来的深度学习方法的使用构建充分的数据。其次，利用深度学习中图卷积神经网络算法提取特征，最终训练基本分类器，并利用集成的方法对这些分类器进行集成，最终用其预测所有的环状RNA-疾病对的关联性。

请参阅图1，本发明的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，包括以下步骤：

S1、整合实验证实相关联的环状RNA-疾病对，形成环状RNA数据集和疾病数据集，构建关联矩阵A；

S2、从相应数据库中提取环状RNA的序列信息和疾病的语义信息，根据关联矩阵、环状RNA的序列信息和疾病的语义信息计算环状RNA的相似性矩阵SC和疾病的相似性矩阵SD，进而得到输入数据N，其中，

S3、将输入数据N送入图卷积神经网络中重构图，在通过图卷积神经网络重构图的过程中，从编码后的嵌入层中提取设定维度的环状RNA的特征以及疾病的特征；

S4、对于每一个环状RNA-疾病对，即每一个样本，基于提取的设定维度的环状RNA的特征以及疾病的特征，通过二者串联得到该样本的特征向量，同时构建正负样本平衡的数据集，用来分别训练多种基本分类器，并将训练后的这些分类器利用集成学习中的平均法进行集成；

S5、对于未验证的环状RNA-疾病对，将待验证的环状RNA和疾病添加至步骤S1中的环状RNA数据集和疾病数据集中，重复执行S2和S4，进而更新关联矩阵、输入数据N和特征向量，最后由多个分类器对每个样本预测相关联的概率值的均值作为每个样本的最终关联性得分。

在步骤S1中，优选地，从数据库CircR2Disease,Circ2Disease以及circRNADisease中获取环状RNA-疾病关联对数据，并从数据库CircBase中获取环状RNA的序列信息，从数据库Disease Ontology中获取相关疾病的语义信息。

根据整合后的关联信息构建关联矩阵A，n和m分别表示环状RNA和疾病的个数。则关联性矩阵A由n行m列构成，分别表示n种环状RNA和m种疾病，矩阵中的每一个值分别对应一个环状RNA-疾病对的关联性，实验证实相关联的环状RNA-疾病对对应于矩阵A中的值为1，其余为0。即如果实验已经证实第i种环状RNA与第j种疾病相关联，则矩阵A中的第i行第j列的值为1。

在步骤S2中，分别使用以下方法得到环状RNA间的相似性以及疾病间的相似性：

S201：根据关联矩阵分别计算相应的环状RNA间的高斯相似性以及疾病间的高斯相似性。

S202：根据关联对中涉及的环状RNA从数据库CircBase中提取序列信息，并利用Levenshtein距离算法计算任意两个环状RNA间的序列相似性。

S203：根据关联对中涉及的疾病从数据库Disease Ontology中获取疾病的DOID信息，并计算疾病间的语义相似性。

S204：分别对环状RNA的序列相似性和高斯相似性，疾病的语义相似性和高斯相似性进行融合，并得到融合后的环状RNA的相似性以及疾病的相似性。

在步骤S201中，关联矩阵、环状RNA间的高斯相似性、疾病间的高斯相似性，并分别命名为A，KC，KD,其具体计算公式如下所示。

KC(c_i,c_j)＝exp(-β_c||IP(c_i)-IP(c_j)||²)；

KD(d_i,d_j)＝exp(-β_d||IP(d_i)-IP(d_j)||²)；

其中，IP(ci)表示关联矩阵A中第i行数据，即环状RNA ci与所有疾病间的关联关系，IP(cj)同理。IP(di)表示关联矩阵A中第i列数据，即疾病di与所有环状RNA间的关联关系，IP(dj)同理。而βc和βd分别表示内核带宽，计算公式如下所示。

其中，n和m分别表示环状RNA和疾病的个数。β′_c和β′_d分别表示初始带宽，其值均设置为1。

在步骤S202中，任意两个环状RNA间的序列相似性，并将其命名为CC，具有计算公式如下所示。

其中，c_i和cj分别表示两种环状RNA，len(ci)表示环状ci的序列长度，dis(ci,cj)表示环状RNA ci转换成环状RNA cj序列所需要的编辑距离，其主要基于Levenshtein距离算法计算。

在步骤S203中，根据关联对中涉及的疾病从数据库Disease Ontology中获取疾病的DOID信息，并计算疾病间的语义相似性，并将其命名为DD。

对于得到的疾病的DOID信息，通过R包“DOSE”(参见余光创等人在《生物信息学期刊》(Bioinformatics 2015,31(4):608-609)上发表的论文《用于疾病本体语义和富集分析的R包》(DOSE:an R/Bioconductor package for disease ontology semantic andenrichment analysis))，利用其中的函数“DoSim”和“Wang”的方法计算疾病间的相似性，具体公式如下：

其中，T_di表示第i种疾病所有的祖先节点，S_di(t)表示T_di中疾病对第i种疾病的贡献值，具体公式如下：

其中，w_e为语义贡献因子，值为1。

在步骤S204中，分别对环状RNA的序列相似性和高斯相似性，疾病的语义相似性和高斯相似性进行融合，并得到融合后的环状RNA的相似性以及疾病的相似性，并将其命名为SC,SD，具体计算公式如下所示。

SC＝a*CC+(1-a)*KC；

SD＝b*DD+(1-b)*KD；

其中，a，b分别相似性融合参数，此处均设置为0.8。

根据处理好的环状RNA间的相似性，疾病间的相似性以及环状RNA-疾病关联对信息便可构建相应的图，并利用图卷积网络从中提取环状RNA的特征以及疾病的特征。

所提取的新的特征的维度是基于整个模型的性能，在众多实验后选取维度值并将其设置为32。

步骤S3包括以下步骤：

S301：根据已知的环状RNA-疾病对，环状RNA间的相似性以及疾病间的相似性构建图。

S302:利用图卷积神经网络重构图，并从其中的嵌入层获取环状RNA的特征以及疾病的特征。

在步骤S301中，根据已知的环状RNA-疾病对，环状RNA间的相似性以及疾病间的相似性构建图，构建方式如下所示。

其中，A^T为关联矩阵A的倒置，将N作为输入数据送入图卷积神经网络中，其主要由编码器和解码器组成，其中编码器主要通过如下公式实现。

在步骤S302中，在通过图卷积神经网络重构图的过程中，选择二元交叉熵损失函数作为损失函数其公式如下所示，并最终从编码后的嵌入层中提取环状RNA的特征以及疾病的特征。

在得到环状RNA的特征以及疾病的特征后，便可根据构建的正负样本平衡的数据集以及相应的样本特征训练分类器，并集成这些分类器对所有未验证的样本预测关联性得分。

具体地，步骤S4包括以下步骤：

S401：通过随机抽取负样本的方式从未验证的环状RNA-疾病对中抽取与正样本数量一致的样本作为负样本，从而构建正负样本平衡的数据集，并用其训练四个基本分类器。

S402：通过集成学习中的平均法对此这些训练好的分类器集成，并对所有未验证的样本预测关联性得分。

在步骤S401中，首先通过随机抽取的方式从所有未验证的样本中获取正样本数量一致的负样本，从而构建一个正负样本平衡的数据集。利用此数据集，分别训练随机森林(Random Forest,简称RF)分类器，梯度提升决策树(Gradient Boosting Decision Tree，简称GBDT)分类器，极限树(Extra Trees,简称ET)分类器以及XGBoost分类器。

在步骤S402中，通过集成学习中的平均法对此写些训练好的分类器集成，具体集成方式如下所示。

其中w₁,w₂,w₃,w₄分别为每个分类器的权重，此处均为0.25，而对应四种分类器。

此外，通过五折交叉验证(FFCV)评估模型的性能，为了消除随机抽取的负样本对模型性能的影响，所以对FFCV重复执行了100次，每一次均是随机抽取负样本，其100下AUC的均值为0.897，标准差为0.007。其中一次FFCV下在各评估指标下的结果如下表所示。

表1 FFCV下模型在各评估指标下的值

其中，ACC表示准确率，Specificity表示特异性，Precision表示查准率，Recall表示查全率，AUC表示FFCV下ROC曲线下的面积，F1为查准率和查全率的调和平均数。

在步骤S5中，对于一种疾病D，利用本模型预测最有可能与此疾病相关联的环状RNA。如果疾病D不在整合的数据集中，首先在数据库Disease Ontology中查询相应的DOID信息，并计算出此疾病与数据集中涉及的其余的所有疾病的语义相似性。并加入到疾病间的相似性矩阵中，并更新关联矩阵A。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，其特征在于，包括：

S5、对于未验证的环状RNA-疾病对，将待验证的环状RNA和疾病添加至步骤S1中的环状RNA数据集和疾病数据集中，重复执行S1和S4，进而更新关联矩阵、输入数据N和特征向量，最后由多个分类器对每个样本预测相关联的概率值的均值作为每个样本的最终关联性得分。

2.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，其特征在于，所述环状RNA数据集中有n种环状RNA，所述疾病数据集中有m种疾病，关联性矩阵A由n行m列构成，分别表示n种环状RNA和m种疾病，矩阵中的每一个值分别对应一个环状RNA-疾病对的关联性，相关联的环状RNA-疾病对对应于矩阵A中的值为1，不关联时值为0。

3.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，其特征在于，步骤S2包括以下步骤：

S101：根据关联矩阵分别计算相应的环状RNA间的高斯相似性以及疾病间的高斯相似性；

S102：根据关联对中涉及的环状RNA从相应数据库中提取序列信息，并利用距离算法计算任意两个环状RNA间的序列相似性；

S103：根据关联对中涉及的疾病从相应数据库中获取疾病的语义信息，并计算疾病间的语义相似性；

S104：分别对环状RNA的序列相似性和高斯相似性，疾病的语义相似性和高斯相似性进行融合，得到环状RNA的相似性矩阵以及疾病的相似性矩阵。

4.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，其特征在于，所使用的环状RNA-疾病关联对取自三个数据库，即CircR2Disease数据库、Circ2Disease数据库、circRNADisease数据库，保留所有人类的关联对并对其整合去冗余。

5.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，其特征在于，在正负样本平衡的数据集中，通过随机抽取负样本的方式从未验证的环状RNA-疾病对中抽取与正样本数量一致的样本作为负样本。

6.根据权利要求1所述的基于图卷积神经网络和集成学习预测潜在关联的环状RNA-疾病对的方法，其特征在于，所训练的多个分类器为四种分类器，即：RF分类器，GBDT分类器，ET分类器、以及XGBoost分类器。