CN117012382A

CN117012382A - 基于深度特征融合的疾病相关circRNA预测系统

Info

Publication number: CN117012382A
Application number: CN202310581700.3A
Authority: CN
Inventors: 滕志霞; 刘剑; 赵玉茗
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-11-07

Abstract

基于深度特征融合的疾病相关circRNA预测系统，本发明涉及疾病相关circRNA预测系统。本发明的目的是为了解决现有基于机器学习的方法只是将circRNA和disease的特征分别处理后进行简单的拼接，只关注网络中相邻结点的特征和本身的特征，没有将disease的特征信息与circRNA的特征信息进行整合，导致disease的特征与circRNA特征中的有效信息没有得到充分利用，对disease与circRNA的关联性预测准确率低的问题。系统包括：circRNA‑disease之间的关联关系获取模块、矩阵获取模块、circRNA整合相似性矩阵获取模块、disease整合相似性矩阵获取模块、局部特征提取模块、circRNA的全局特征提取模块、disease的全局特征提取模块、disease特征获取模块、circRNA特征获取模块、disease与circRNA的关联预测模块、待测模块。本发明用于生物信息领域。

Description

基于深度特征融合的疾病相关circRNA预测系统

技术领域

本发明涉及疾病相关circRNA预测系统。本方法用于生物信息领域。

背景技术

环状RNA(circRNA)是一种具有特殊环状结构的非编码RNA分子。与传统的线性RNA相比，circRNA缺少5’的帽子和3’末端ployA尾巴，通过反向剪接环化后不容易被RNA外切酶降解，具有更好的表达稳定性和组织特异性。许多研究表明circRNA与肺癌，结直肠癌，神经胶质瘤等人类复杂疾病的产生和发展密切相关。因此，识别疾病相关circRNA对于解析疾病的形成机制，发现诊断标记物以及制定诊疗方案具有十分重要的意义。近些年，随着计算机技术和人工智能的发展，研究人员为了节约探查circRNA和疾病间关联关系的成本，尝试引入深度学习方法来使得识别circRNA和疾病间关联关系更为高效。

现有的计算方法大致可以分为四类：网络路径的方法、矩阵分解方法、机器学习方法和深度学习方法。

网络路径方法通过计算circRNA-disease异质网络中circRNA与disease之间的路径长度估计circRNA-disease相互作用的可能性。一般地，circRNA与disease之间的路径长度越短，则表示circRNA与disease的关系越密切。例如，KATZHCDA首先用KATZ方法度量circRNA-diseaes异质网络中所有circRNA-disease之间的关联得分，然后根据关联得分筛选疾病相关的circRNA。类似地，Hüseyin等人利用带重启的随机游走方法(RWR)挖掘异质网络中潜在的circRNA-disease关联关系。PWCDA首先利用节点相似性构建了加权的circRNA-disease异构网络，并分别对circRNA与disease之间的各条路径进行加权评价，然后综合它们之间的所有路径评分来推测circRNA与疾病的关联得分。

矩阵分解方法利用矩阵表示circRNA与疾病之间的关联关系，其中矩阵元素值为1表示对应的circRNA与疾病密切相关，矩阵元素值为0表示对应的circRNA与疾病无关。相应地，矩阵分解方法将circRNA-疾病关联关系预测问题抽象为矩阵元素补全问题，首先对初始的circRNA-疾病关联矩阵进行分解变换挖掘潜在的circRNA-疾病关联关系，构造出新的circRNA-疾病关联矩阵。例如，SIMCCDA将circRNA和disease的相似性矩阵和已知的关联矩阵进行加速感应矩阵补全(Speedup Inductive Matrix Completion)，得到预测的circRNA和disease的关联矩阵。DMCCDA利用双矩阵补全的方法预测circRNA-disease关联关系，取得了不错的预测性能。DWNN-RLS使用DWNN方法对circRNA相似性，disease相似性，circRNA-disease关联进行计算得到初始的circRNA-disease关联分数，然后用正则化最小二乘算法的克罗内克积核(Regularized Least Squares of Kronecker product kernel)计算circRNA与disease最终的关联评分，分数越高代表关联性越强。

机器学习方法将circRNA-disease关联关系预测看作分类问题，提取circRNA和disease的特征并据此训练分类模型。RWRKNN将circRNA相似性矩阵和disease相似性矩阵进行阈值处理得到circRNA关联矩阵和disease关联矩阵。然后将circRNA和disease关联矩阵使用RWR处理，得到circRNA和disease权重矩阵。circRNA权重矩阵与相似性矩阵相乘得到circRNA特征，同理可得disease特征，将circRNA特征和disease特征拼接形成新特征后，使用k-nearest neighbor进行预测。

iCDA-CGR使用Chaos Game Representation方法抽取circRNA的序列特征，融合circRNA以基因为基础的特征，circRNA高斯特征得到最终的circRNA特征，将disease语义特征，disease高斯特征融合得到disease特征，将它们拼接后得到新特征，输入到SVM中进行circRNA-disease关联对的预测。GCNCDA模型，先对circRNA和disease相似性进行拼接，输入Fast GCN处理得到新特征后，再使用Forest PA分类器进行circRNA-disease关联预测。

深度学习方法使用神经网络将低级特征进行处理获得高级的表示特征，并且使用神经网络进行分类。CRPGCN用RWR处理相似性矩阵，再用PCA处理RWR的输出矩阵，得到最终矩阵后输入GCN进行circRNA-disease关联预测的方法。GATCDA使用GAT对disease和circRNA特征矩阵学习进行circRNA-disease关联对预测的方法。

虽然以上方法都取得了优秀的性能，但是基于路径的方法与基于矩阵分解的方法不能发现circRNA与disease的非线性关系，基于机器学习的方法只是将circRNA和disease的特征分别处理后进行简单的拼接，基于深度学习的方法只能关注网络中相邻结点的特征和本身的特征。上述方法没有将disease的特征网络中的信息与circRNA特征网络中的信息进行整合，使特征中的有效信息得到充分利用，所以没有取得最好的结果。

发明内容

本发明的目的是为了解决现有基于机器学习的方法只是将circRNA和disease的特征分别处理后进行简单的拼接，只关注网络中相邻结点的特征和本身的特征，没有将disease的特征信息与circRNA的特征信息进行整合，导致disease的特征与circRNA特征中的有效信息没有得到充分利用，对disease与circRNA的关联性预测准确率低的问题，而提出基于深度特征融合的疾病相关circRNA预测系统。

基于深度特征融合的疾病相关circRNA预测系统包括：

circRNA-disease之间的关联关系获取模块、矩阵获取模块、circRNA整合相似性矩阵获取模块、disease整合相似性矩阵获取模块、局部特征提取模块、circRNA的全局特征提取模块、disease的全局特征提取模块、disease特征获取模块、circRNA特征获取模块、disease与circRNA的关联预测模块、待测模块；

所述circRNA为环状RNA；disease为疾病；

circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据，对关联数据进行预处理，得到circRNA-disease之间的关联关系，再获取疾病之间的关联关系；

矩阵获取模块用于由circRNA-disease之间的关联关系和疾病之间的关联关系计算circRNA的多种相似性矩阵，disease的多种相似性矩阵，circRNA协同矩阵，disease协同矩阵；

circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合，获得circRNA整合相似性矩阵；

disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合，获得disease整合相似性矩阵；

局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理，提取circRNA和disease的局部特征，获得circRNA和disease的局部特征矩阵；

所述CNN为卷积神经网络；

circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN，经过两层GCN特征提取得到circRNA的全局特征，获得circRNA的全局特征矩阵；

disease的全局特征提取模块用于将disease整合相似性矩阵与disease协同矩阵输入GCN，经过两层GCN对特征的提取得到disease的全局特征，获得disease的全局特征矩阵；

所述GCN为图神经网络；

disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合，获得最终的disease特征矩阵；

circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合，获得最终的circRNA特征矩阵；

disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测，直至收敛，获得训练好的disease与circRNA的关联预测模块；

待测模块用于将待测disease与circRNA输入训练好的disease与circRNA的关联预测模块进行关联评分预测。

本发明的有益效果为：

本发明开发了一种新的模型GCRF。首先进行circRNA和disease的特征提取，GCRF使用GCN和CNN对circRNA和disease的特征矩阵进行特征提取，将circRNA的协同矩阵与相似性矩阵输入GCN提取circRNA的全局特征，将disease的协同矩阵与相似性矩阵输入GCN提取disease的全局特征；将circRNA和disease的相似性矩阵送入CNN提取二者的局部特征。为了优化disease和circRNA信息融合不充分的问题，GCRF采用矩阵点乘将circRNA的全局特征与disease的局部特征获得融合circRNA特征的disease特征矩阵；同理，可获得融合disease特征的circRNA矩阵。随后，将这两类矩阵的集合分别输入两个随机森林发掘关联中的非线性关系进行预测。

(1)本发明将深度学习和机器学习相结合，解决了传统基于路径的方法和基于矩阵分解不能发掘关联非线性关系的问题，解决了单一深度学习方法只关注网络中本身结点和关联结点的问题，该方法可以有效发掘circRNA-disease的关联。有利于了解人类疾病的分子机制，且有利于对疾病进行诊断和治疗。

(2)本发明使用GCN和CNN组合对circRNA和disease的相似性进行了高效的特征提取，将局部特征和全局特征进行深度融合，提高了circRNA-disease预测的准确率。

(3)本发明的模型泛化性能较好，在三个数据集上比其他先进模型表现出更好的预测效果，能够有效预测circRNA与disease之间的潜在关联作用，为预测新的circRNA-disease关联提供了有效支持。

附图说明

图1为利用随机森林，基于GCN和CNN所提取到的circRNA和disease全局特征和局部特征进行circRNA和disease关联关系预测的流程图；

图2a为不同方法在circR2disease数据集上做五倍交叉验证的ROC曲线图；

图2b为不同方法在circR2disease数据集上做五倍交叉验证的PR曲线图；

图3a为不同方法在circRNAdisease数据集上做五倍交叉验证的ROC曲线图；

图3b为不同方法在circRNAdisease数据集上做五倍交叉验证的PR曲线图；

图4a为不同方法在circ2disease数据集上做五倍交叉验证的ROC曲线图；

图4b为不同方法在circ2disease数据集上做五倍交叉验证的PR曲线图。

具体实施方式

具体实施方式一：本实施方式基于深度特征融合的疾病相关circRNA预测系统包括：

所述circRNA为环状RNA；disease为疾病；

所述CNN为卷积神经网络；

所述GCN为图神经网络；

disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测，直至收敛，获得训练好的disease与circRNA的关联预测模块；有标签的进行训练；并对模型进行性能评估。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据，对关联数据进行预处理，得到circRNA-disease之间的关联关系，再获取疾病之间的关联关系；具体过程为：

从数据库下载circRNA-disease关联数据，对circRNA-disease关联数据中的非人类数据(例如circR2disease数据库中老鼠的circRNA-disease关联对)和重复数据进行删除，获得预处理后的circRNA-disease关联矩阵；

将预处理后的circRNA-disease关联数据中含有的disease在特定数据库中检索，获取预处理后的circRNA-disease关联数据中含有的disease之间的关联(预处理后的circRNA-disease关联数据中有很多disease，检索disease之间的关联)。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述矩阵获取模块用于由circRNA-disease之间的关联关系计算circRNA的多种相似性矩阵，disease的多种相似性矩阵，circRNA协同矩阵，disease协同矩阵；具体过程为：

使用circRNA-disease之间的关联关系和疾病之间的关联关系计算disease语义相似性，disease高斯相似性，disease协同矩阵，circRNA功能相似性，circRNA高斯相似性，circRNA协同矩阵；

A、disease语义相似性计算公式如下：

其中，d_m为disease m，d_n为disease n，DS(d_m,d_n)为disease m和disease n的语义相似性；

是包含disease m的有向无环图中，disease m所有的祖先结点与disease m本身所组成的集合；/>是包含disease n的有向无环图中，disease n所有的祖先结点与disease n本身所组成的集合；h是disease h；x是/>或/>中的疾病；

是disease h对disease n的语义贡献值，/>是disease h对disease m的语义贡献值，/>可以通过如下公式计算：

其中，θ为语义贡献因子，设置为0.5；*为乘号，为disease h’对disease m的语义贡献值，h’为disease h’，children of h为disease h的子女；

当h为disease m本身时，语义贡献值为1；

当h为disease m的祖先结点时，计算不同路径disease h对disease m的语义贡献值，路径边数越多，语义贡献值越低；

B、disease高斯相似性计算公式如下：

其中，DG(d_m,d_n)为disease m和disease n的高斯相似性；Α(d_m)为circRNA-disease关联矩阵的第m列，Α(d_n)为circRNA-disease关联矩阵的第n列，N_d为circRNA-disease关联矩阵的列数，i表示关联矩阵第i列，Α(d_i)为circRNA-disease关联矩阵的第i列；

circRNA-disease关联矩阵，比如

(这里的名字是关联对，关联矩阵由关联对得到)

CircRNAs	Diseases
		circRNA_0084927/hsa_circ_0084927	Acne
circRNA_0001073/hsa_circ_0001073	Acne
		circRNA_0005941/hsa_circ_0005941	Acne
circRNA_0086376/hsa_circ_0086376	Acne
		circRNA_0018168/hsa_circ_0018168	Acne
hsa_circ_0005836	Active pulmonary tuberculosis
		hsa_circ_0009128	Active pulmonary tuberculosis
hsa_circ_0023956	Active pulmonary tuberculosis
		hsa_circ_0078768	Active pulmonary tuberculosis
hsa_circ_0088452	Active pulmonary tuberculosis
		circDLGAP4	Acute ischemic stroke
hsa_circ_0075001/circNPM1	Acute myeloid leukemia
		hsa_circ_0004277	Acute myeloid leukemia
hsa_circ_0035381	Acute myeloid leukemia
		hsa_circ_0004136	Acute myeloid leukemia
circRNA_102913/hsa_circ_0058058	Acute myeloid leukemia
		hsa_circ_0017446	Acute myeloid leukemia
CDR1as/ciRS-7/hsa_circ_0001946	Alzheimer’s disease
		hsa_circ_0003575	Atherosclerosis
circANRIL	Atherosclerosis
		circANRIL	Atherosclerotic vascular disease
hsa_circ_0075829	Basal cell carcinoma
		hsa_circ_0008732	Basal cell carcinoma

从数据库获得这样有关联的circRNA-disease对

(这下面的1，0矩阵是关联矩阵)

第一行是一个circRNA和其他所有disease的关系，有关联是1，没记载关联就是0)；

C、circRNA功能相似性计算流程如下：

首先计算DSS(d_q,D_n)，DSS(d_q,D_n)表示diseaseq与D_n中每个疾病的语义相似性的最大值，通过如下公式得到；

其中，DS(d_q,d_u)表示disease q和disease u的语义相似性，d_q为disease q，d_u为disease u，D_n表示与circRNA n相关的disease集合；

然后使用disease语义相似性和circRNA-disease关联矩阵进行circRNA功能相似性的计算，circRNA功能相似性计算公式如下：

其中，CF(c_m,c_n)表示circRNA m与circRNA n的功能相似性，c_m表示circRNA m，c_n表示circRNA n，DSS(d_p,D_m)表示disease p与D_m中每个疾病的语义相似性的最大值，D_m表示与circRNA m相关的disease集合；

D、circRNA高斯相似性计算公式如下：

其中，CG(c_m,c_n)表示circRNA m与circRNA n的高斯相似性；Α(c_n)表示circRNA-disease关联矩阵的第n行，Α(c_m)为circRNA-disease关联矩阵的第m行，N_c为circRNA-disease关联矩阵的行数，i表示circRNA-disease关联矩阵第i行，Α(c_i)为circRNA-disease关联矩阵的第i行；

E、circRNA协同矩阵和Disease协同矩阵具体为：

circRNA协同矩阵第m行第n列上的值为在所有disease中，某一个disease与circRNA m有关时，也与circRNA n有关的概率；

Disease协同矩阵第m行第n列上的值为在所有circRNA中，某一circRNA与diseasem有关时，也与diseasen有关的概率；

(解释：如表1：

表1

	A	B	C
				1	1	1	0
2	1	1	1
				3	0	1	1
4	0	1	0
				5	0	0	1

假设表1为circRNA1,2,3,4,5和disease A,B,C的关联关系；

用disease协同矩阵第1行第2列做解释，就是某一个circRNA和diseaseA有关时，也与diseaseB有关的概率，那就是百分之百，因为diseaseA与circRNA1,2有关，当diseaseA与circRNA1有关时，diseaseB也与circRNA1有关，当diseaseA与circRNA2有关时，diseaseB也与circRNA2有关；(diseasem与某个circRNA有关时，diseasen也与这个circRNA有关的概率)(用disease协同矩阵第1行第2列做解释，就是某一个circRNA和diseaseA有关时，也与diseaseB有关的概率，用关联矩阵得到这个概率，diseaseA与circRNA1有关，判断diseaseB与circRNA1是否有关，确定有关联。diseaseA与circRNA2有关，判断diseaseB是否与circRNA2有关，这里也有关联，那么在训练集中，diseaseA与某个circRNA有关时，diseaseB百分百与circRNA有关，所以把1作为diseaseA与某个circRNA有关时，diseasen也与这个circRNA有关的概率)

用disease协同矩阵第2行第3列做解释，就是当一个circRNA和diseaseB有关时，也与diseaseC有关的概率，那就是百分之50，因为当diseaseB与circRNA1有关时，diseaseC与circRNA1没有关联，diseaseC与circRNA2有关，diseaseC与circRNA3有关，diseaseC与circRNA4无关，这就是四分之二，百分之五十的概率；

可以理解为disease是标签，circRNA是图片，算的是训练集中一个图片中一个标签出现时另一个标签也会出现的概率；)。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合，获得circRNA整合相似性矩阵；具体过程为：

将circRNA功能相似性和circRNA高斯相似性进行整合，获得circRNA整合相似性矩阵，表达式如下：

其中，Csim(c_m,c_n)为circRNAm与circRNAn整合的相似性的值。

当circRNAm与circRNAn的功能相似性不为0时，它们整合后的相似性的值为功能相似性的值，否则，整合后的相似性的值为高斯相似性的值。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合，获得disease整合相似性矩阵；具体过程为：

将disease语义相似性和disease高斯相似性进行整合，获得disease整合相似性矩阵表达式如下：

其中，Dsim(d_m,d_n)为diseasem与diseasen整合的相似性的值。

当diseasem与diseasen的语义相似性不为0时，它们整合后的相似性的值为语义相似性的值，否则，整合后的相似性的值为高斯相似性的值。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理，提取circRNA和disease的局部特征，获得circRNA和disease的局部特征矩阵；

所述CNN为卷积神经网络；

具体过程为：

CNN的卷积层使用一个卷积核对disease和circRNA的特征进行过滤,以提取circRNA和disease的特征，然后经过池化层得到circRNA与disease的局部特征。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN，经过两层GCN特征提取得到circRNA的全局特征，获得circRNA的全局特征矩阵(第一层GCN输出作为第二层GCN输入，第二层GCN输出特征为circRNA的全局特征)；具体过程为：

GCN通过聚合邻居的特征向量，基于全局图结构，有效地提取circRNA与disease的全局特征。具体来说，以提取circRNA的全局特征为例，将circRNA整合相似性矩阵和circRNA协同矩阵输入到GCN，提取circRNA的全局特征，经过两层GCN进行特征提取后获得circRNA的全局特征；

每一层GCN的输出由如下公式表示：

H_new＝GCN(W,H)

其中，W为circRNA的协同矩阵，H为circRNA相似性矩阵，Relu为激活函数，H_new为经过GCN处理得到的新的circRNA特征矩阵，为中间变量，/>I为单位矩阵，L是一个度矩阵，/> 为/>的第i行第j列，Q为一个可训练的矩阵。

经过GCN的处理可以将每一个circRNA特征及协同矩阵显示的有概率同时与某个disease有关的circRNA的特征进行聚合，提取circRNA的全局特征，经过两层GCN进行特征提取后获得circRNA的全局特征。同理获得disease的全局特征。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合，获得最终的disease特征矩阵；具体过程为：

将disease局部特征矩阵和circRNA全局特征矩阵进行点乘获得最终的disease特征矩阵。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合，获得最终的circRNA特征表示；具体过程为：

将circRNA局部特征矩阵和disease全局特征矩阵进行点乘获得最终的circRNA特征矩阵。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是，所述disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测，直至收敛，获得训练好的disease与circRNA的关联预测模块；具体过程为：

最终的circRNA特征矩阵和disease整合相似性矩阵(disease整合相似性矩阵为对disease的多种相似性矩阵进行整合获得的；)进行拼接获得circRNA-disease对的特征矩阵1；

所述最终的circRNA特征矩阵和disease整合相似性矩阵进行拼接获得circRNA-disease对的特征矩阵1；具体过程为：

最终的circRNA特征矩阵为行，disease整合相似性矩阵为/>行；

将circRNA特征矩阵的第一行数据分别与disease整合相似性矩阵的行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵1的第一行至第/>行；

将circRNA特征矩阵的第二行数据分别与disease整合相似性矩阵的行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵1的第/>行至第/>行；

直至将circRNA特征矩阵的第行数据分别与disease整合相似性矩阵的/>行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵1的第/>行至第/>行；

最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得行数据；

最终的disease特征矩阵和circRNA整合的相似性矩阵(circRNA整合的相似性矩阵为对circRNA的多种相似性矩阵进行整合获得的)进行拼接获得circRNA-disease对的特征矩阵2；

所述最终的disease特征矩阵和circRNA整合的相似性矩阵进行拼接获得circRNA-disease对的特征矩阵2；具体过程为：

最终的circRNA特征矩阵为行，disease整合相似性矩阵为/>行；

将circRNA整合的相似性矩阵的第一行数据分别与disease特征矩阵的行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵2的第一行至第/>行；

将circRNA整合的相似性矩阵的第二行数据分别与disease特征矩阵的行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵2的第/>行至第/>行；

直至将circRNA整合的相似性矩阵的第行数据分别与disease特征矩阵的/>行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵2的第/>行至第/>行；

得到的行数据是为了得到每一行代表的关联对特征；

用circRNA-disease对的特征矩阵1训练随机森林模型1(是现有的模型，2两个随机森林模型的参数是完全一样的)，获得训练好的随机森林模型1；

用circRNA-disease对的特征矩阵2训练随机森林模型2，获得训练好的随机森林模型2；

将circRNA-disease对的特征矩阵1输入训练好的随机森林模型1输出的关联评分1；

将circRNA-disease对的特征矩阵2输入训练好的随机森林模型2输出的关联评分2；

将随机森林模型1输出的关联评分1和随机森林模型2输出的关联评分2相加除以2，得到circRNA-disease对的关联评分。

解释一下拼接，假设下面是包含circRNA1,2,3的特征矩阵：第一行代表circRNA1的特征，第二行代表circRNA2的特征，第三行代表circRNA3的特征；

circRNA1	0	1	2	4	1
						circRNA2	1	2	3	1	1
circRNA3	3	3	1	1	1

下面是包含disease1，2，3的特征矩阵：第一行代表disease1的特征，第二行代表disease2的特征，第三行代表disease3的特征

disease1	5	5	5	5	5
						disease2	6	6	6	6	6
disease3	7	7	7	7	7

拼接是获得关联对的特征，比如circRNA1的特征和disease1的特征拼接，就获得circRNA1-disease1关联对的特征，像下面这样：

0

1

2

4

1

5

直接拼在后面，也可以获得circRNA1-disease2关联对的特征：

0

1

2

4

1

6

一个一个拼，也就是circRNA特征矩阵的第一行分别和disease特征矩阵的第1，2，3行拼起来，然后circRNA特征第二行分别和disease特征矩阵的第1，2，3行拼起来，这样获得所有circRNA-disease关联对的特征。

其它步骤及参数与具体实施方式一至九之一相同。

实施例1：

circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据，对关联数据进行预处理，得到circRNA-disease之间的关联关系，再获取疾病之间的关联关系；具体过程为：

在本实施例中，实验所需的数据包括2部分：

S11：获得circRNA-disease的原始关联矩阵数据。从circR2disease(http://bioinfo.snnu.edu.cn/),circ2disease(http://bioinformatics.zju.edu.cn/Circ2Disease/tutorial.html),circRNAdisease(http://cgga.org.cn:9091/circRNADisease/)下载circRNA与disease之间的关联关系，将下载下来的关系进行删除非人类数据和重复数据的处理，3个数据集分别形成3个circRNA与disease之间的关联矩阵。

S12：在Disease Ontology数据库(https://disease-ontology.org/)中检索数据库包含的disease之间的关联关系，具体来说，所有disease都会在包含自己的有向无环图中，通过有向无环图了解这个disease和其他disease的关联关系。

矩阵获取模块用于由circRNA-disease之间的关联关系计算circRNA的多种相似性矩阵，disease的多种相似性矩阵，circRNA协同矩阵，disease协同矩阵；

所述CNN为卷积神经网络；

所述GCN为图神经网络；

disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测。并对模型进行性能评估。

本发明使用五倍交叉验证利用多种评价指标对本发明提出的circRNA-disease相互作用预测模型进行性能评估。在性能评估中使用的评价指标包括：recall(REC),precision(PRE),specificity(SPE),sensitivity(SEN),matthewscorrelationcoefficient(MCC)，accuracy(ACC),F1-measure(F1)。这些指标的具体计算公式如下：

/>

以上公式中，TP是有关联的circRNA-disease对被预测为有关联的数量，TN为无关联的circRNA-disease对被预测为无关联的数量，FP是无关联的circRNA-disease对被预测为有关联的数量，FN是有关联的circRNA-disease对被预测为无关联的数量。此外，我们还使用AURP和AUC两个指标评价本发明性能。

下面以一组具体实验例对本发明的识别效果作进一步描述。

为了充分验证本发明的预测性能，本实例对肺癌，结直肠癌，神经胶细胞瘤三种疾病相关的circRNA进行了预测，在circR2disease中将所有已知关联以及随机挑选的与已知关联相同数量的负样本组成训练集，使用其他负样本作为测试集，使用本发明对测试集进行预测，三种疾病预测的前十五种相关联的circRNA结果如表2，3，4所示，预测的结果使用PubMed查证是否有相关论文证明circRNA与疾病有关联，结果表明，本发明具有较好的预测能力，可以发现疾病潜在的关联的circRNA。

为了验证本发明的性能优越性，使用本发明、KATZHCDA，GATCDA，RWRKNN，DMCCDA，GMNN2CD六种方法在CircR2Disease,CircRNADisease和Circ2Disease三个数据集上进行五倍交叉验证，分析它们的预测结果后得到性能分别如表5，表6，表7，AUC和AUPR性能分别如图2a、2b，3a、3b，4a、4b所示。结果表明，本发明在所有评测指标上的表现均优于同类方法，具有较好的预测性能。

表2肺癌关联的circRNA预测结果

/>

表3结直肠癌关联的circRNA预测结果

表4神经胶细胞瘤关联的circRNA预测结果

表5不同方法在circR2disease上进行五倍交叉验证的性能

表6不同方法在circRNAdisease上进行五倍交叉验证的性能

表7不同方法在circ2disease上进行五倍交叉验证的性能

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述系统包括：

所述circRNA为环状RNA；disease为疾病；

所述CNN为卷积神经网络；

所述GCN为图神经网络；

2.根据权利要求1所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述circRNA-disease之间的关联关系获取模块用于收集circRNA-disease关联数据，对关联数据进行预处理，得到circRNA-disease之间的关联关系，再获取疾病之间的关联关系；具体过程为：

从数据库下载circRNA-disease关联数据，对circRNA-disease关联数据中的非人类数据和重复数据进行删除，获得预处理后的circRNA-disease关联矩阵；

将预处理后的circRNA-disease关联数据中含有的disease在数据库中检索，获取预处理后的circRNA-disease关联数据中含有的disease之间的关联。

3.根据权利要求2所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述矩阵获取模块用于由circRNA-disease之间的关联关系计算circRNA的多种相似性矩阵，disease的多种相似性矩阵，circRNA协同矩阵，disease协同矩阵；具体过程为：

A、disease语义相似性计算公式如下：

其中，d_m为diseasem，d_n为diseasen，DS(d_m,d_n)为diseasem和diseasen的语义相似性；是包含diseasem的有向无环图中，diseasem所有的祖先结点与diseasem本身所组成的集合；/>是包含disease n的有向无环图中，disease n所有的祖先结点与disease n本身所组成的集合；h是disease h；x是/>或/>中的疾病；

其中，θ为语义贡献因子，设置为0.5；*为乘号，为disease h′对diseasem的语义贡献值，h′为disease h′，children of h为diseaseh的子女；

B、disease高斯相似性计算公式如下：：

C、circRNA功能相似性计算流程如下：

首先计算DSS(d_q,D_n)，DSS(d_q,D_n)表示disease q与D_n中每个疾病的语义相似性的最大值，通过如下公式得到；

D、circRNA高斯相似性计算公式如下：

E、circRNA协同矩阵和Disease协同矩阵具体为：

circRNA协同矩阵第m行第n列上的值为在所有disease中，某一个disease与circRNA m有关时，也与circRNAn有关的概率；

Disease协同矩阵第m行第n列上的值为在所有circRNA中，某一circRNA与disease m有关时，也与disease n有关的概率。

4.根据权利要求3所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述circRNA整合相似性矩阵获取模块用于对circRNA的多种相似性矩阵进行整合，获得circRNA整合相似性矩阵；具体过程为：

其中，Csim(c_m,c_n)为circRNA m与circRNA n整合的相似性的值。

5.根据权利要求4所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述disease整合相似性矩阵获取模块用于对disease的多种相似性矩阵进行整合，获得disease整合相似性矩阵；具体过程为：

其中，Dsim(d_m,d_n)为diseasem与diseasen整合的相似性的值。

6.根据权利要求5所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述局部特征提取模块用于使用CNN对circRNA和disease的整合相似性矩阵进行处理，提取circRNA和disease的局部特征，获得circRNA和disease的局部特征矩阵；

所述CNN为卷积神经网络；

具体过程为：

7.根据权利要求6所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述circRNA的全局特征提取模块用于将circRNA整合相似性矩阵与circRNA协同矩阵输入GCN，经过两层GCN特征提取得到circRNA的全局特征，获得circRNA的全局特征矩阵；具体过程为：

每一层GCN的输出由如下公式表示：

H_new＝GCN(W,H)

其中，W为circRNA的协同矩阵，H为circRNA相似性矩阵，Relu为激活函数，H_new为经过GCN处理得到的新的circRNA特征矩阵，为中间变量，/>I为单位矩阵，L是一个度矩阵，/>为/>的第i行第j列，Q为一个可训练的矩阵。

8.根据权利要求7所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述disease特征获取模块用于将disease局部特征和circRNA全局特征进行融合，获得最终的disease特征矩阵；具体过程为：

9.根据权利要求8所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述circRNA特征获取模块用于将circRNA局部特征和disease全局特征进行融合，获得最终的circRNA特征表示；具体过程为：

10.根据权利要求9所述的基于深度特征融合的疾病相关circRNA预测系统，其特征在于：所述disease与circRNA的关联预测模块用于将获得的最终的disease特征矩阵和最终的circRNA特征矩阵输入随机森林进行disease与circRNA的关联预测，直至收敛，获得训练好的disease与circRNA的关联预测模块；具体过程为：

最终的circRNA特征矩阵和disease整合相似性矩阵进行拼接获得circRNA-disease对的特征矩阵1；

最终的disease特征矩阵和circRNA整合的相似性矩阵进行拼接获得circRNA-disease对的特征矩阵2；

最终的circRNA特征矩阵为行，disease整合相似性矩阵为/>行；

直至将circRNA特征矩阵的第行数据分别与disease整合相似性矩阵的/>行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵1的第/>行至第行；最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得/>行数据；

最终的circRNA特征矩阵为行，disease整合相似性矩阵为/>行；

直至将circRNA整合的相似性矩阵的第行数据分别与disease特征矩阵的/>行数据进行拼接，获得/>行数据，作为获得circRNA-disease对的特征矩阵2的第/>行至第行；最终的circRNA特征矩阵与disease整合相似性矩阵进行拼接共获得/>行数据；

用circRNA-disease对的特征矩阵1训练随机森林模型1，获得训练好的随机森林模型1；