CN113241117A

CN113241117A - 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法

Info

Publication number: CN113241117A
Application number: CN202110556914.6A
Authority: CN
Inventors: 刘博�; 王志晗; 张冀东
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-10

Abstract

本发明公开了一种基于残差图卷积神经网络RNA‑蛋白质结合位点判别方法，首先将原始数据映射为图结构数据借此挖掘碱基之间可能存在的隐性关联，然后运用残差图卷积神经网络对映射处理后的节点信号进行特征提取生成对应的特征向量，最后以此特征向量作为下游分类任务的输入。残差连接的思想可以缓解深层神经网络训练中存在的网络退化和梯度消失问题，使模型较之传统的深层网络更易优化且判别精度更高。创造性地使用了图卷积神经网络结合残差神经网络思想对RNA‑蛋白质结合位点进行判别分析，提出ResGCN_RNA深度学习模型，为挖掘RNA上蛋白质结合位点各类碱基之间的潜在关系。

Description

一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法

技术领域

本发明属于深度学习领域，主要用于RNA上蛋白质结合位点序列化数据的分类判别，相较于传统技术，提出新的深度学习方法(残差图卷积神经网络模型ResGCN_RNA，以下简称模型)建模并挖掘数据之间潜在联系的同时，保证了判别的准确性。

背景技术

RNA结合蛋白(以下简称RBPs)在细胞过程中参与度极高，如：RNA编辑、mRNA定位等，是基因表达、分析相关领域的研究热点。其中，找到RNA上RBPs的结合位点有重要的生物学意义。人工分析RBPs结合位点需要耗费大量人力、物力，随着计算机技术的发展，尤其是深度学习技术在生物信息领域的应用扩展，高精度模型自动判别成为RBPs结合位点领域的研究核心。传统的深度学习方法对于RBPs结合位点的分析与判别存在计算开销大，时间复杂度高，针对不同RBPs结合位点研究的普适性较差等问题，因此急需一个精度高、速度快且泛化能力较好的判别分析框架。

本模型提出之前，对于RBPs结合位点判别的常用方法是基于传统卷积神经网络，这种特征提取方法将独热编码操作后的RNA序列数据近似地看作灰度图(不同的碱基对应不同的独热编码，从形态上将序列信息近似看作灰度图上的一条曲线)，通过堆叠多个卷积层，捕捉“图像”高维特征信息，再将此类信息输入由全连接神经网络构成的分类网络中，实现分类判别。此种方法分类精度较高，但更倾向于捕捉序列整体的形态特征而忽略局部细节，即忽略近邻的K个碱基之间可能存在的局部关联。

图结构作为一种高级的数据类型，可以很好地建模生活中各种信息，如：社交网络、通信网络、交通流量网络等。近年来，图结构数据建模方法也被广泛应用于生物信息科学领域，如：脑神经网络建模、蛋白质分子建模等。传统的深度学习特征提取方法难以直接作用于图结构数据，在谱图理论的有力支撑下，图卷积神经网络技术诞生并逐渐成为研究热点。图卷积神经网络最早由基于图傅里叶变换的频域方法定义得出，而后又发展出基于邻居节点聚合的空域方法，在图结构数据节点分类、链路预测、族群检测等领域，较之传统方法有显著提升。基于上述研究，将图结构引入RBPs序列信息的建模并以图卷积神经网络作为特征提取方法，成为本模型的核心思想。

本模型最重要的创新点是提出了一种新的RNA序列潜在信息建模方法，即本模型中的数据映射模块(下文将详细阐述)。数据映射模块将序列化信息合理拆分为图结构数据节点上的信号，节点与其K个近邻节点之间的潜在关联作为边(因碱基关系不明，边的生成方式为随机生成，且为无向边)，如此构建的图结构数据将保留原始RNA碱基序列特征信息并有能力挖掘数据层面可能存在的碱基关联。

本模型另一个创新点是提出了结合一维卷积层和残差连接的图卷积神经网络改进特征提取层。传统的图上卷积是以某一节点为中心，通过边作为信息传递的“通路”，聚合其相连接的K个节点上的信号生成图结构数据特征向量，迭代多次在理论上可聚合图结构数据上全部信息。但图卷积神经网络存在过平滑问题(图卷积层数加深，模型效果弱化)，在本模型中，仅选用了两层图卷积层作为基础特征提取模块。下游分类判别模块为全连接神经网络，直接将两层图卷积结果输出至分类判别模块，模型过于复杂，将导致训练困难、过拟合等情况，故在图卷积模块后引入一维卷积层和最大池化层用以减少可训练参数。堆叠对个上述特征提取层，即可构建本模型深度学习模型中的特征提取模块。针对深度学习模型在训练中存在的模型退化问题，引入残差连接的思想构建残差神经网络，可以使得网络更深、更易优化，提取到更加丰富的高维特征信息。深度残差网络的代表ResNet已被广泛应用于图像分类、视频分析等领域。

本模型综合以上思想，对RBPs结合位点进行判别，调研中发现，此类方法并无先例，具有创新性和原创性。

模型内容

受前人工作启发，本模型将RBPs结合位点建模成图结构数据，再以结合残差连接思想的图卷积神经网络提取数据高维特征，并将此类特征输入到基于全连接神经网络的分类网络作判别分析，并将判别结果与实际标签对比，设置交叉熵损失函数指导模型训练。训练完成后，保存模型参数，调用此模型可实现RBPs结合位点判别任务高效、精准判别。

针对RBPs结合位点判别任务提出ResGCN_RNA深度学习模型(模型结构图见说明书附图1)，首先需要从开源网站上下载RNA-蛋白质结合位点碱基序列数据集，并将之作为原始数据进行数据预处理。模型预处理模块(见说明书附图2)主要负责将数据切分为等长的序列(根据前人生物实验研究，此处长度定为501个碱基，长度不足501的序列用补全碱基N进行补全操作)，并进行独热编码操作，将其转化为更易于计算操作的定长向量化数据。预处理后的数据输入到模型中，作为模型参数训练的原始数据。

模型的输入层接受预处理后数据，并将之输入到数据映射模块(见说明书附图3)。本模型旨在利用图建模结合图卷积神经网络的方法挖掘原始序列化数据之间存在的潜在联系，需要经由合理的变换使之成为图结构数据，故提出数据映射模块。数据映射模块将定长向量化数据上的每一个碱基转化为图结构上的节点，原始数据信息作为图节点上的信号，以此将输入数据转化为节点数为501的N个图结构数据组(N受预处理前原始数据集大小影响)。

将原始数据经过预处理和数据映射模块后，特征提取前的数据准备工作完毕，模型调用特征提取模块(见说明书附图4)对数据中存在的信息进行挖掘。特征提取模块为双分支结构，分别为：卷积操作分支和残差连接分支。特征提取模块接收数据映射模块的输出后，首先对其进行一次图卷积操作完成一轮特征提取。图卷积操作选择了参数化图卷积神经网络代表之一，即：切比雪夫网络。传统的图卷积操作定义在频域上，通过对图的拉普拉斯矩阵的特征分解得出图傅里叶变换如下式所示：

L＝UΛU^T

其中，L为图的拉普拉斯矩阵，U为拉普拉斯矩阵的特征向量，x和

分别是图节点上信号和对应的图傅里叶变换结果。因傅里叶变换可逆，可知逆图傅里叶变换如下式所示：

由上述式子可给出图卷积操作定义如下：

x₁*x₂＝IGFT(GFT(x₁)⊙GFT(x₂))

其中IGFT和GFT分别代表逆图傅里叶变换和图傅里叶变换，⊙为矩阵的哈达玛积。进一步改写上式，可得：

由此，可以得出参数化图卷积操作定义式如下：

y＝g_θ*x＝g_θ(L)x＝g_θ(UΛU^T)x＝Ug_θ(Λ)U^Tx

其中，g_θ为图卷积操作的卷积核。不难看出，如上定义的参数化图卷积操作需要大量的计算开销，主要是因为拉普拉斯矩阵特征分解的计算复杂度较高，图规模越大，计算开销越大。

由此，本模型选择了基于切比雪夫多项式的切比雪夫网络作为优化手段，大大降低了计算的复杂度。切比雪夫多项式如下所示：

T_k(x)＝2xT_k-1(x)-T_k-2(x)

应用此多项式简化计算，需特别定义T₀＝1和T₁＝x，由于切比雪夫多项式可迭代计算，可大大降低计算开销，图卷积核可改写为：

由此，图卷积操作可定义为：

针对RNA-蛋白质结合位点的数据特征，上式x为经数据预处理模块和特征映射模块处理后的数据集合，g_θ为可训练图卷积核，y计算所得的高维数据特征向量作为下游分类任务的输入。

由此为基础构建切比雪夫图卷积层，本模型特征提取模块的卷积操作分支由两个切比雪夫图卷积层，一个一维卷积层，一个最大池化层和平展层构成。其中，一维卷积层和最大池化层用于在保持精度的基础上降低模型中可训练参数量，提高训练效率，平展层用于平展特征向量，为特征融合做准备。

针对深度学习模型中可能存在的模型退化问题，引入残差连接机制使得模型更易优化。残差连接分支包括批归一化层和平展层。批归一化层用于处理数据特征分布可以使得模型训练更快，平展层作用同卷积操作分支。

为融合两分支特征，本模型设计了连接层用以连接双分支输出特征，由此得到完整的特征提取层，堆叠多个特征提取层并添加LeakyReLU作为激活函数构成本模型的特征提取模块。

本模型的分类判别模块由全连接神经网络构成。分类判别模块接收特征提取模块的输出作为分类判别的原始依据，选择softmax作为分类激活函数，交叉熵损失函数作为模型训练的代价函数，为降低训练中过拟合现象出现的可能性，引入Dropout机制和“早停法”触发机制。模型训练实际轮数为训练次数到达既定阈值或训练中触发早停条件时的实际轮数。

最终目标是实现对待测RNA序列的快速精准判别，故通过划分训练集和测试集，验证模型准确性作为本模型模型的判断标准。

附图说明

图1模型结构图。

图2预处理模块。

图3数据映射模块。

图4特征提取层。

具体实施方式

以下结合附图和实施例对本模型进行详细说明。

一种基于残差图卷积神经网络的RNA-蛋白质结合位点判别方法，该方法包括如下步骤：

步骤1、获取公开RNA-蛋白质结合位点序列化数据集并进行切割、补全、独热编码与训练集、测试集划分：

RNA-蛋白质结合位点数据集分为正类与负类，正类表示经过实验验证为RNA上蛋白质结合位点的RNA碱基序列，负类则不是RNA上蛋白质的结合位点。将数据用于模型训练之前，需要进行数据预处理，根据生物学研究中RNA-蛋白质结合位点碱基序列切分方法，将不等长的RNA碱基序列，定长地切割为若干条长度为501个碱基的待操作数据，对长度不足的序列用补足碱基N在该条序列后补充，并将待操作数据通过独热编码的方式编码成向量化数据。切割后的RNA碱基有五类，分别为：A、G、C、U、N，分别对应编码向量：[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]和[0,0,0,0]。其中，补足碱基N的编码向量为[0,0,0,0]，已被证明不会对后续任务产生影响。对编码后的数据按4：1的比例进行训练集、测试集划分。

步骤2、将训练数据输入模型，通过数据映射模块转化为对应的图结构数据作为下游任务的输入：

为挖掘RNA-蛋白质结合位点不同种类碱基之间的潜在联系，与传统的卷积神经网络方法不同，本模型利用数据映射模块将步骤1中编码向量映射为图结构数据，即将每个碱基看作图上节点，碱基编码信息看作图上节点的信号值构造图数据，作为下游特征提取任务的输入。数据映射模块可以合理地利用图的思想建模原始数据，保留原始数据信息的同时，有利于挖掘潜在的节点间联系，有助于模型精度提升。

1的数据位置和0的数据位置节点之间的边表示随机生成的关联，即待挖掘潜在联系，为调用基于图卷积神经网络的特征提取模块作数据准备。

步骤3、调用特征提取模块对映射后数据进行特征提取，生成易于计算的特征向量：

特征提取模块主要由卷积分支和残差连接分支构成(详见模型内容)。卷积分支为两层切比雪夫图卷积层结合一维卷积层和最大一维池化层构成，残差连接则是在第一层图卷积层之后，跳跃连接的思想连接最大一维池化层的输出以实现特征融合。由此构建一个特征提取层，堆叠多个特征提取层，构建本模型的深度特征提取模块。特征提取模块负责发掘数据中的高维度特征信息作为知识，存储知识的方式为记录各分支最终可训练参数的参数值。

步骤4、调用分类模块接收步骤3输出的特征向量，结合数据标签、交叉熵损失函数和反向传播算法对模型进行训练，优化模型各分支参数，每轮训练完成输入测试数据集进行测试。

步骤5、设置“早停法”触发机制和引入Dropout防止模型过拟合，重复步骤2-4，直至触发早停条件或训练轮数到达所设阈值，并保存模型：

在模型训练过程中，为尽量避免过拟合现象，设置“早停法”触发条件。

设置monitor参数和patience参数分别为val_loss和2，是指当val_loss连续两轮训练上升时，模型训练过程终止。

而Dropout层用在最终输出之前，随机使得部分全连接神经网络的神经元“失活”，在当前训练轮次中不参加参数的更新迭代，有助于防止模型发生过拟合。

步骤6、调用步骤5中生成的模型并用测试集进行测试，当预测的AUC值符合预期值时，保存模型，此模型在后续使用中只需输入待测数据即可实现高效、精准判别。

Claims

1.一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法，其特征在于：

执行步骤如下：

步骤1、获取公开RNA-蛋白质结合位点数据集，并进行切割、补全、独热编码与训练集、测试集划分操作，针对RNA-蛋白质结合位点数据特征，构建残差图卷积神经网络模型(ResGCN_RNA模型，以下简称模型)用以序列化数据的分类判别；

步骤2、RNA有结构属性，但序列化的数据无法表征其结构特征，故设计数据映射模块挖掘步骤1处理后的数据潜在结构特征；将训练数据输入模型，通过数据映射模块转化为对应的图结构数据作为下游任务的输入；

步骤3、调用特征提取模块对步骤2映射处理后的数据进行特征提取，生成易于计算的特征向量；

步骤4、调用分类模块接收步骤3输出的特征向量，结合数据标签、交叉熵损失函数和反向传播算法对模型进行训练，优化模型各分支参数，每轮训练完成输入测试数据集进行测试；

步骤5、设置“早停法”触发机制防止模型过拟合，重复步骤2-4，直至触发早停条件或训练轮数到达所设阈值，并保存模型；

步骤6、调用步骤5中保存的模型，输入待测数据以实现RNA上蛋白质结合位点的判别。

2.根据权利要求1所述的一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法，步骤1的实现过程如下：

RNA-蛋白质结合位点数据集分为正类与负类，正类表示经过实验验证为RNA上蛋白质结合位点的RNA碱基序列，负类则不是RNA上蛋白质的结合位点；将RNA-蛋白质结合位点数据集的序列化数据用于模型训练之前，需要进行数据预处理，根据生物学研究中RNA-蛋白质结合位点碱基序列切分方法，将不等长的RNA碱基序列，定长地切割为若干条长度为501个碱基的待操作数据，对长度不足的序列用补足碱基N在该条序列后补充，并将待操作数据通过独热编码的方式编码成向量化数据；切割后的RNA碱基有五类，分别为：A、G、C、U、N，分别对应编码向量：[1,0,0，0]、[0，1,0，0]、[0，0,1，0]、[0，0，0，1]和[0，0，0，0]；其中，补足碱基N的编码向量为[0，0,0，0]，已被证明不会对后续任务产生影响；对编码后的数据按4：1的比例进行训练集、测试集划分。

3.根据权利要求1所述的一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法，步骤2的实现过程如下：

为挖掘RNA-蛋白质结合位点不同种类碱基之间的潜在联系，与传统的卷积神经网络方法不同，利用数据映射模块将步骤1中编码向量映射为图结构数据，即将每个碱基看作图上节点构造图数据作为下游特征提取任务的输入。

4.根据权利要求1所述的一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法，步骤3的实现过程如下：

步骤2的输出作为步骤3的输入，并在步骤3中调用特征提取模块获取图结构数据高维特征信息，生成对应的特征向量作为下游分类任务的输入；一个特征提取层由卷积模块和连接层构成，其中卷积模块由两层图卷积层，一层一维卷积神经网络，一层一维最大池化层以及一层平展层构成；传统的图卷积操作可以定义为

其中x₁和x₂是两组节点信号，U是图傅里叶变换的基，即图的拉普拉斯矩阵特征分解产生的特征向量，如L＝UΛU^T所示，L为图的拉普拉斯矩阵，定义为图的度矩阵与图的邻接矩阵的差；对上述图卷积操作参数化，可以将图卷积定义式改写为y＝g_θ*x＝g_θ(L)x＝g_θ(UΛU^T)x＝Ug_θ(Λ)U^Tx；但此种参数化方式因需要对图的拉普拉斯矩阵进行特征分解，仍具有很高的计算开销和时间复杂度，故图卷积层采用参数化图卷积神经网络中比较有代表性的切比雪夫网络ChebNet；利用切比雪夫展开式T_k(x)＝2xT_k-1(x)-T_k-2(x)，对图卷积操作进行参数化，使得图卷积操作可迭代计算，大大节省了计算开销，参数化图卷积操作改写为

堆叠多个基于切比雪夫多项式的图卷积层，构成切比雪夫网络；本模型中将这一分支称为卷积分支；

残差连接体现在第一层图卷积层之后，将输出作分支处理，其中一个分支是卷积模块，另一个分支是残差连接模块；残差连接模块将一次图卷积操作后的特征向量输出至批归一化层，经过平展层后与卷积模块的特征输出在连接层进行特征融合；残差连接使得网络更易优化，引入一维卷积和最大池化机制，降低网络中可训练参数量，提高训练效率和计算开销；本模型中将这一分支称为残差连接分支；

卷积分支和残差连接分支构成特征提取模块；特征提取模块的最终输出为RNA-蛋白质结合位点的高维特征信息，其中包含序列数据特征和潜在结构特征，这一信息作为分类任务的输入。

5.根据权利要求1所述的一种基于残差图卷积神经网络的RNA-蛋白质结合位点判别方法，步骤4的实现过程如下：

分类模块主要负责根据输入特征，对RNA上碱基序列是否为蛋白质结合位点进行判别并输出判别结果；

分类模块接收步骤3输出的特征向量进行分类判别；分类模块由三个全连接神经网络和一个Dropout层组成，选择交叉熵损失函数结合数据标签利用反向传播算法对模型进行参数优化，每次训练完成后输入步骤1中划分的测试集进行模型精度测试。

6.根据权利要求1所述的一种基于残差图卷积神经网络的RNA-蛋白质结合位点判别方法，步骤5的实现过程如下：

RNA-蛋白质数据集体量较大，若训练轮数过少则有可能存在特征提取不足的问题，若轮数过多则可能存在过拟合现象；对模型设置合理训练轮数的同时设置“早停法”触发机制，当模型训练过程中触发早停机制或模型训练轮数已达最大轮数阈值时，停止模型训练，模型精度达到预期标准时保存当前模型。

7.根据权利要求1所述的一种基于残差图卷积神经网络的RNA-蛋白质结合位点判别方法，步骤6的实现过程如下：

调用步骤5中保存的模型，输入新的待测数据实现分类判别。