CN110310698A

CN110310698A - 基于蛋白质长度和dcnn的分类建模方法及系统

Info

Publication number: CN110310698A
Application number: CN201910603794.3A
Authority: CN
Inventors: 刘毅慧; 朱树平
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-08

Abstract

本发明公开了一种基于蛋白质长度和DCNN的分类建模方法及系统，属于蛋白质预测分析领域；要解决的技术问题为如何结合深度学习对蛋白质二级结构进行预测分析，提高准确率。方法包括：取多个大数据集作为训练集，提取数据集中PSI‑Blast产生的PSSM特征，并通过滑动窗口对PSSM特征进行格式转换；基于蛋白质的长度对训练集中的蛋白质进行分组，得到多个模型组；对于每个模型组，基于深度卷积网络构建与模型组对应的预测模型，并通过模型组对预测模型进行训练，得到训练后预测模型。系统包含输入模块、格式转换模块、分组模块和模型训练模块。

Description

基于蛋白质长度和DCNN的分类建模方法及系统

技术领域

本发明涉及蛋白质预测分析领域，具体地说是一种基于蛋白质长度和DCNN的分类建模方法及系统。

背景技术

研究蛋白质的相关性能对于生物信息学来说意义十分重大，一般来说能够得到蛋白质的新发现也便得到了人类生命体的新发现。其中蛋白质的二级结构有助于发现三维立体结构并且能够提供蛋白质的功能注解，所以对于蛋白质二级结构的研究是一个值得深入的课题，蛋白质二级结构预测经过66年的发展，现在预测准确率已经超过80％。

对于信息技术相关专业而言，主要是对于预测的准确率进行探究和改进，也即要做的就是：能够通过现有的技术，设计预测机制，当给定任何一条新的蛋白质后都能较准确的预测出它的二级结构。

最初通过氨基酸序列去预测，准确率仅有60％，除了基于氨基酸本身特征之外，很多其他特征也被引入二级结构的预测中，如：基于非担保残余能量构建自相关方程、功能域、复杂性度量因子、位置特异性差分矩阵(Position Specific Scoring Matrix，PSSM)等。越来越多的新技术被引入到预测的过程中，如：支持向量机(Support Vector Machine，SVM)、深度学习、神经网络、隐马尔可夫模型、贝叶斯算法、K最近邻,模糊聚类等等，当然也有很多研究者采用多种算法相结合的方式，并且取得了较好的预测效果。

多项研究表明，致使蛋白质二级结构预测发展多年来一直停滞不前的主要原因是由于有些氨基酸残基在三级结构中距离很近，而在氨基酸序列中距离很远，因此很难去捕获这些残基之间的相互作用。

基于上述问题，如何结合深度学习对蛋白质二级结构进行预测分析，提高准确率，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种基于蛋白质长度和DCNN的分类建模方法及系统，来解决如何结合深度学习对蛋白质二级结构进行预测分析，提高准确率的问题。

第一方面，本发明提供一种基于蛋白质长度和DCNN(英文简称为LIM-DCNN)的分类建模方法，用于构建对蛋白质二级结构进行预测分析的预测模型，所述方法包括如下步骤：

获取多个大数据集作为训练集，每个数据集中包括多条蛋白质，提取数据集中PSI-Blast产生的PSSM特征，并通过滑动窗口对PSSM特征进行格式转换；

基于蛋白质的长度对训练集中的蛋白质进行分组，得到多个模型组；

对于每个模型组，基于深度卷积网络构建与模型组对应的预测模型，并通过模型组对预测模型进行训练，得到训练后预测模型。

在本实施方式中，获取多个数据集作为训练集，选取蛋白质的PSSM特征，并通过滑动窗口对PSSM特征进行格式转换；根据蛋白质的长度对蛋白质进行分组；根据深度卷积神经网络针对每组构建预测模型，得到每组对应的训练后预测模型。根据蛋白质长度构建了多种模态的预测模型，测试集根据蛋白质长度选择对应的预测模型，完成对于蛋白质二级结构的预测。

作为优选，通过取值为H的滑动窗口对PSSM特征进行格式转换后，训练集中每个氨基酸的特征为20*H的矩阵，每个蛋白质的特征为20*H*L的矩阵，L为蛋白质的长度。

作为优选，选取的数据集为蛋白质二级结构预测的经典数据集。

本实施方式中，选择经典数据集组成训练集，即训练集的选取基于大数据进行，确保了训练集内蛋白质的广度，以提高预测模型的精度。

作为优选，基于蛋白质的长度对训练集中的蛋白质进行分组，得到m个模型组，对应的计算公式为：

其中，P1(j)表示第j个数据集的特征，A_n,j表示第j个数据集中第n个蛋白质的特征，A_(a,j)表示蛋白质长度a分段对应的特征，A_(b,j)表示蛋白质b长度分段对应的特征，以此类推，A_(m,j)表示蛋白质长度分段m对应的特征。

作为优选，基于深度卷积网络构建与模型组对应的预测模型，所述预测模型包括卷积层、隐含层和全连接层，卷积层和隐含层均至少两层，隐含层中配置有Relu激活函数，全连接层中配置有softmax函数。

作为优选，通过模型组对预测模型进行训练，包括如下步骤：

卷积计算：通过卷积层对氨基酸的特征进行卷积计算，得到卷积后氨基酸特征，卷积后氨基酸特征为h*w的矩阵，

其中，卷积层中卷积核大小为K＝k*k的，补零参数为p，h为卷积后氨基酸长度，w为卷积后氨基酸宽度，

激活：卷积后氨基酸特征进入隐含层，通过Relu激活函数激活，得到激活后氨基酸特征；

重复执行上述卷积计算和激活步骤至少一次；

进入全连接层，通过softmax函数输出，得到分类结果。

作为优选，通过卷积层对氨基酸的特征进行卷积计算时，

在正向传播过程中，氨基酸特征中特征点X_e,f在第t层卷积层经过卷积计算后对应输出的特征点Y_e,f，输出的特征点Y_e,f的计算公式为：

其中，e表示特征点X_(e,f)的行下标，f表示特征点X_(e,f)的列下标，u表示卷积核的行下标，v表示卷积核的列下标，b表示偏置，表示激活函数，表示第t层的卷积核，s代表卷积核的长和宽大小(以卷积核长宽相同为例)；

在反向传播过程中，通过损失函数对卷积核求偏导数，并通过损失函数对偏置求偏导数，并基于上述损失函数对卷积核的偏导数以及损失函数对偏置的偏导数，得到氨基酸特征中特征点X_(e,f)在第t-1层卷积层进行卷积计算的误差；

损失函数对卷积核的偏导数的计算公式为：

损失函数对偏置的偏导数的计算公式为：

误差计算公式为：

其中，表示未激活的经过第t层卷积计算后的特征输出，表示第t层的误差，ψ表示损失函数，表示第t层的卷积的输入。

第二方面，本发明提供一种基于蛋白质长度和DCNN的分类建模系统，包括：

输入模块，所述输入模块用于获取多个数据集作为训练集，每个数据集中包括多条蛋白质；

格式转换模块，所述格式转换模块用于提取数据集中PSI-Blast产生的PSSM特征，并通过滑动窗口对PSSM特征进行格式转换；

分组模块，所述分组模块基于蛋白质的长度对训练集中的蛋白质进行分组，得到多个模型组；

模型训练模块，所述模型训练模块用于对于每个模型组，基于深度卷积网络构建与模型组对应的预测模型，并通过模型组对预测模型进行训练，得到训练后预测模型。

作为优选，预测模型包括卷积层、隐含层和全连接层，卷积层和隐含层均至少两层，隐含层中配置有Relu激活函数，全连接层中配置有Softmax函数。

作为优选，模型训练模块用于通过如下步骤基于深度卷积网络构建与模型组对应的预测模型：

重复执行上述卷积计算和激活步骤至少一次；

进入全连接层，通过softmax函数输出，得到分类结果；

通过卷积层对氨基酸的特征进行卷积计算时，

在正向传播过程中，氨基酸特征中特征点X_(e,f)在第t层卷积层经过卷积计算后对应输出的特征点输出的特征点的计算公式为：

损失函数对卷积核的偏导数的计算公式为：

损失函数对偏置的偏导数的计算公式为：

误差计算公式为：

其中，表示未激活的经过第t层卷积计算后的特征输出，表示第t层的误差，ψ表示损失函数，表示第t层的卷积的输入，代表求导数。

本发明的基于蛋白质长度和DCNN的分类建模方法及系统具有以下优点：

1、构建预测模型时，训练集的选取是基于大数据为集基础的，相对于现有的其他训练集获取方式，训练数据多，从而提高了构建的训练模型的精度；

2、基于蛋白质的长度对蛋白质分组，并结合神经卷积神经网络针对每组构建预测模型，进一步提高了训练模型的精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

附图1为实施例1基于蛋白质长度和DCNN的分类建模方法中预测模型的训练流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施以及实施例中的技术特征可以相互结合。

需要理解的是，在本发明实施例中的“多个”，是指两个或两个以上。

本发明实施提供基于蛋白质长度和DCNN的分类建模方法及系统，用于解决如何结合深度学习对蛋白质二级结构进行预测分析，提高准确率的技术问题。

实施例1：

本发明的基于蛋白质长度和DCNN的分类建模方法，包括如下步骤：

第一步：获取多个数据集作为训练集，每个数据集中包括多条蛋白质，提取数据集中PSI-Blast产生的PSSM特征，并通过设置不同的滑动窗口对PSSM特征进行格式转换；

第二步：基于蛋白质的长度对训练集中的蛋白质进行分组，得到多个模型组；

第三步：对于每个模型组，基于深度卷积网络构建与模型组对应的预测模型，并通过模型组对预测模型进行训练，得到训练后预测模型。

其中，第一步中选取的数据集为蛋白质二级结构预测的经典数据集，本实施例中将Astrall和CullPDB数据合成蛋白质条数为15666的数据集AstraCull，作为训练集，剩余的数据均作为测试数据。包括68条Casp9数据，51条Casp10数据，36条Casp11数据，9条Casp12数据，504条CB513和1329条25PDB数据。具体如表1所示。

表1：蛋白质训练和测试数据集表

提取上述数据集中PSI-Blast产生的20位PSSM特征，通过值为13的滑动窗口对PSSM特征进行格式转换后，训练集中每个氨基酸的特征为20*13的矩阵，每个蛋白质的特征为20*13*L的矩阵，L为蛋白质的长度。

在第二步中根据蛋白质的长度将训练集中所有蛋白质划分为多个模型组，对应的计算公式为：

其中，P1(j)表示第j个数据集的特征，A_n,j表示第j个数据集中第n个蛋白质的特征，A_(a,j)表示蛋白质长度a分段对应的特征，A_(b,j)表示蛋白质b长度分段对应的特征，以此类推，A_(m,j)表示蛋白质m长度分段对应的特征。

如附图1所示，本实施例中根据蛋白质的长度将训练集中所有蛋白质划分为四个模型组，分别为：

其中，A_(a,j)表示蛋白质长度a分段对应的特征，A_(b,j)表示蛋白质b长度分段对应的特征，A_(c,j)表示蛋白质长度c分段对应的特征，A_(d,j)表示蛋白质长度d分段对应的特征。

本实施例中四个模型组分别称为Big1、Big2、Big3和Big4，Big1中蛋白质长度在0～150、共有5165条蛋白质，Big2中蛋白质长度在150～250、共有4271条蛋白质,Big3中蛋白质长度在250～350、共有2981条蛋白质，Big3中蛋白质长度在350以上、共有3249条蛋白质。四个模型组如表2所示。

表2：实验建模数据分组表

在步骤三中，对于上述四个模型组，基于深度卷积网络构建与模型组对应的预测模型，四个模型分别为M、M2、M3和M4。上述四个预测模型均包括卷积层、隐含层和全连接层，隐含层中配置有Relu激活函数，全连接层中配置有softmax函数。本实施例中，卷积层和激活层均各两层。

将每个模型组分别输入对应的预测模型，对预测模型进行训练，得到训练后的预测模型。

其中对于每个预测模型的训练，包括如下步骤：

(1)卷积计算：通过卷积层对氨基酸的特征进行卷积计算，得到卷积后氨基酸特征，卷积后氨基酸特征为h*w的矩阵，

其中，滑动窗口设置为13，卷积层中卷积核大小为K＝k*k的，补零参数为p，h为卷积后氨基酸长度，w为卷积后氨基酸宽度，

(2)激活：卷积后氨基酸特征进入隐含层，通过Relu激活函数激活，得到激活后氨基酸特征；

(3)重复执行上述卷积计算和激活步骤一次；

(4)进入全连接层，通过softmax函数输出，得到分类结果。

在步骤(1)以及步骤(3)中，通过卷积层对氨基酸的特征进行卷积计算时，包括如下情况：

情况一、在正向传播过程中，氨基酸特征中特征点X_e,f在第t层卷积层经过卷积计算后对应输出的特征点Y_e,f，输出的特征点Y_e,f的计算公式为：

情况二、在反向传播过程中，通过损失函数对卷积核求偏导数，并通过损失函数对偏置求偏导数，并基于上述损失函数对卷积核的偏导数以及损失函数对偏置的偏导数，得到氨基酸特征中特征点X_(e,f)在第t-1层卷积层进行卷积计算的误差；

损失函数对卷积核的偏导数的计算公式为：

损失函数对偏置的偏导数的计算公式为：

误差计算公式为：

本发明构建的预测模型用于对蛋白质二级结构进行预测分析。

根据测试集中蛋白质的长度选择合适的训练后预测模型，通过对应的训练后预测模型对测试集进行预测分析，以预测蛋白质的二级结构。本发明构建的预测模型为蛋白质三维结构提供了功能注解，对研究人体内蛋白复合物以及医学疾病的防治有很大的帮助。

实施例2：

本发明的基于蛋白质长度和DCNN的分类建模系统，包括输入模块、格式转换模块、分组模块和模型训练模块。

其中输入模块用于获取多个数据集作为训练集，每个数据集中包括多条蛋白质。选取的数据集为蛋白质二级结构预测的经典数据集，本实施例中将Astrall和CullPDB数据合成蛋白质条数为15666的数据集AstraCull。

格式转换模块用于提取数据集中PSI-Blast产生的PSSM特征，并通过滑动窗口对PSSM特征进行格式转换。在格式转换模块中，提取上述数据集中PSI-Blast产生的20位PSSM特征，通过值为13的滑动窗口对PSSM特征进行格式转换后，训练集中每个氨基酸的特征为20*13的矩阵，每个蛋白质的特征为20*13*L的矩阵，L为蛋白质的长度。

分组模块基于蛋白质的长度对训练集中的蛋白质进行分组，得到m个模型组，对应的计算公式为：

本实施例中根据蛋白质的长度将训练集中所有蛋白质划分为四个模型组，分别为：

本实施例中四个模型组数据分别称为Big1、Big2、Big3和Big4，Big1中蛋白质长度在0～150、共有5165条蛋白质，Big2中蛋白质长度在150～250、共有4271条蛋白质,Big3中蛋白质长度在250～350、共有2981条蛋白质，Big3中蛋白质长度在350以上、共有3249条蛋白质。

模型训练模块用于对于每个模型组，基于深度卷积网络构建与模型组对应的预测模型，并通过模型组对预测模型进行训练，得到训练后预测模型。

模型训练模块用于通过如下步骤基于深度卷积网络构建与模型组对应的预测模型：

其中，将滑动窗口设置为13，卷积层中卷积核大小为K＝k*k的，补零参数为p，h为卷积后氨基酸长度，w为卷积后氨基酸宽度，那么

(3)重复执行上述卷积计算和激活步骤一次；

(4)进入全连接层，通过softmax函数输出，得到分类结果。

上述步骤中通过卷积层对氨基酸的特征进行卷积计算时，遵循如下情况：

损失函数对卷积核的偏导数的计算公式为：

损失函数对偏置的偏导数的计算公式为：

误差计算公式为：

本实施例的基于蛋白质长度和LIM-CNN的分类建模系统可执行实施例1公开的基于长度和深度卷积神经网络的构件预测模型的方法。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.基于蛋白质长度和DCNN的分类建模方法，其特征在于用于构建对蛋白质二级结构进行预测分析的预测模型，所述方法包括如下步骤：

获取多个数据集作为训练集，每个数据集中包括多条蛋白质，提取数据集中PSI-Blast产生的PSSM特征，并通过滑动窗口对PSSM特征进行格式转换；

2.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法，其特征在于通过取值为H的滑动窗口对PSSM特征进行格式转换后，训练集中每个氨基酸的特征为20*H的矩阵，每个蛋白质的特征为20*H*L的矩阵，L为蛋白质的长度。

3.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法，其特征在于选取的数据集为蛋白质二级结构预测的经典数据集。

4.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法，其特征在于基于蛋白质的长度对训练集中的蛋白质进行分组，得到m个模型组，对应的计算公式为：

5.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法，其特征在于基于深度卷积网络构建与模型组对应的预测模型，所述预测模型包括卷积层、隐含层和全连接层，卷积层和隐含层均至少两层，隐含层中配置有Relu激活函数，全连接层中配置有softmax函数。

6.根据权利要求5所述的基于蛋白质长度和DCNN的分类建模方法，其特征在于通过模型组对预测模型进行训练，包括如下步骤：

卷积计算：通过卷积层对氨基酸的特征进行卷积计算，得到卷积后氨基酸特征为h*w的矩阵。

其中，卷积层中卷积核大小为K＝k*k的，补零参数为p，h为卷积后特征氨基酸长度，w为卷积后氨基酸特征宽度，激活：卷积后氨基酸特征进入隐含层，通过Relu激活函数激活，得到激活后氨基酸特征；

重复执行上述卷积计算和激活步骤至少一次；

最后进入全连接层，通过softmax函数输出，得到分类结果。

7.根据权利要求6所述的基于蛋白质长度和DCNN的分类建模方法，其特征在于通过卷积层对氨基酸的特征进行卷积计算时，

在正向传播过程中，氨基酸特征点X_(e,f)在第t层卷积层经过卷积计算后对应输出的特征点输出的特征点的计算公式为：

其中，e表示特征点X_(e,f)的行下标，f表示特征点X_(e,f)的列下标，u表示卷积核的行下标，v表示卷积核的列下标，b表示偏置，表示激活函数，表示第t层的卷积核；

在反向传播过程中，通过损失函数对卷积核求偏导数和损失函数对偏置求偏导数，并基于以上两者，得到氨基酸特征点X_(e,f)在第t-1层卷积层进行卷积计算的误差

损失函数对卷积核的偏导数的计算公式为：

损失函数对偏置的偏导数的计算公式为：

误差计算公式为：

8.基于蛋白质长度和DCNN的分类建模系统，其特征在于包括：

9.根据权利要求8所述的基于蛋白质长度和DCNN的分类建模系统，其特征在于预测模型包括卷积层、隐含层和全连接层，卷积层和隐含层均至少两层，隐含层中配置有Relu激活函数，全连接层中配置有Softmax函数。

10.根据权利要求9所述的基于蛋白质长度和DCNN的分类建模系统，其特征在于模型训练模块用于通过如下步骤基于深度卷积网络构建与模型组对应的预测模型：

其中，卷积层中卷积核大小为K＝k*k的，补零参数为p，h为卷积后氨基酸长度，w为卷积后氨基酸宽度，H为滑动窗口的大小，那么

重复执行上述卷积计算和激活步骤至少一次；

进入全连接层，通过softmax函数输出，得到分类结果；

通过卷积层对氨基酸的特征进行卷积计算时，

在反向传播过程中，通过损失函数对卷积核求偏导数和损失函数对偏置求偏导数，并基于上述两者，得到氨基酸特征点X_(e,f)在第t-1层卷积层进行卷积计算的误差；

损失函数对卷积核的偏导数的计算公式为：

损失函数对偏置的偏导数的计算公式为：

误差计算公式为：