CN104951668A

CN104951668A - 基于级联神经网络结构的蛋白质关联图的预测方法

Info

Publication number: CN104951668A
Application number: CN201510160212.0A
Authority: CN
Inventors: 谢江; 丁旺; 王旻超; 马进; 谢昊; 戴东波; 张惠然; 郭毅可; 张武
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2015-04-07
Filing date: 2015-04-07
Publication date: 2015-09-30

Abstract

本发明涉及一种基于级联神经网络结构的蛋白质关联图的预测方法。该方法步骤如下，如附图1：A．建立6个神经网络子网及1个级联神经网络；B．读取蛋白质数据集，并依据蛋白质长度对数据集进行分类；C．采用反向传播算法对神经网络子网进行训练学习；D．对级联神经网络进行训练学习；E．进行第一层神经网络子网的预测；F．完成第二层级联神经网络的预测，得到最终的蛋白质关联图。该方法采用多神经网络并形成级联结构进行预测，1.因此克服了单神经网络方法无法针对不同长度蛋白质优化处理的缺陷，提高了预测精度和稳定性；2.具有内在并行特质，各子网及级联网络可并行处理，提高计算效率。

Description

基于级联神经网络结构的蛋白质关联图的预测方法

技术领域

本发明涉及一种蛋白质关联图的预测方法,特别是一种基于级联神经网络结构的蛋白质关联图的预测方法。

背景技术

蛋白质关联图的研究是蛋白质空间结构研究的重要前提和基础。从蛋白质的氨基酸序列确定蛋白质关联图无论是从计算还是实验的角度都是一项难题。主要原因在于，蛋白质关联图具有非局部特性，即位于蛋白质序列头部的氨基酸完全可能会和位于尾部的氨基酸产生连接，这种非局部特性使得蛋白质关联图的预测需要复杂和大量的计算。如果通过实验方法（目前主要是X射线晶体及核磁共振两种方法）确定蛋白质关联图将十分耗时，同时也不经济。在目前已发现的约两千多万的蛋白质中，通过实验的方法确定蛋白质关联图结构的只有仅仅约十万左右，并且，诸如膜蛋白等特殊蛋白质很难通过上述实验的方法确定蛋白质关联图。两者之间数量上巨大的差距意味着急需通过信息科学，采用计算的方法进行蛋白质关联图的计算预测。只有这样才能缩小这个鸿沟，加快后续以蛋白质关联图为基础的研究工作。

从蛋白质的氨基酸序列数据中成功的预测蛋白质关联图属于子图同构求解问题，是NP难问题。通常采用的解决方法是将问题简化，例如，在计算蛋白质中两个氨基酸之间是否连接时，假定两者之间至少需要有一定的间距N，即该两氨基酸之间还有至少N个氨基酸。使得实际的计算量大大降低。但是，对于不同长度的蛋白质如果采用统一的间距，使得对于长度较小的蛋白质间距N会过大而遗漏过多连接信息，对于长度较大的蛋白质间距N又会过小导致计算量的增加。另外，对于长度为L的蛋白质的关联图中连接数与L线性增长，而非连接数则与L²线性增长。使得对于不同长度区间的蛋白质的关联图中连接数的分布有很大区别，即长度越长的蛋白质，其关联图中连接分布越稀疏。同时，对于不同长度的蛋白质其结构特性也会有不同程度的差异，从而决定了蛋白质关联图的差异。

现有基于单神经网络的预测算法：对不同长度的蛋白质均采用同一个神经网络进行计算预测。尽管这样可以降低网络结构设计和训练学习的复杂度，但同时对蛋白质关联图的预测会造成如下缺陷：

1、因蛋白质的多样性，基于单个神经网络的方法只有一个神经网络，显然单神经网络结构的单一性使其无法对不同长度的蛋白质进行优化处理，导致预测精度不高，并随待测蛋白质长度的变化而出现较大波动。

2、由于基于单个神经网络的方法无论是在训练学习环节还是在计算预测环节都在一个且无法自然分解的神经网络上进行计算处理，并行化计算必然会因紧耦合而产生大量通讯量，导致基于单神经网络的方法在面对目前巨量的蛋白质数据时，无法实现高效的并行化计算。

发明内容

本发明的目的在于为了解决上述问题而提供一种基于级联神经网络结构的蛋白质关联图的预测方法。该方法能根据不同长度的蛋白质先采用对应的神经网络子网组进行计算预测，再通过最终的级联神经网络得到更精确的蛋白质关联图。

为达到上述目的，本发明的构思是：首先读取数据集并进行分类处理，同时初始化6个神经网络子网及1个级联神经网络，其次对数据集进行编码并进行神经网络子网的训练学习，然后再进行级联网络的训练学习，最后将待预测蛋白质编码后输入级联网络的子网输入层，经过子网层的第一级计算和级联网络的最终计算得到待测蛋白质的关联图。

根据上述发明构思，本发明采用下述技术方案:

一种基于级联神经网络结构的蛋白质关联图的预测方法，采用6个神经网络子网以及由该6个神经网络子网形成的1个级联网络的结构，其特征在于该方法具体步骤如下：

A．建立标准的6个神经网络子网及1个级联网络，所述的每个神经网络子网由输入层、中间隐含层及输出层组成；

B．读取蛋白质数据集，并依据蛋白质长度进行分类，将蛋白质长度在51-70之间的蛋白质数据划为数据子集1，长度在71-90之间的蛋白质数据划为数据子集2, 长度在91-130之间的蛋白质数据划为数据子集3，长度在131-190之间的蛋白质数据划为数据子集4, 长度在191-290之间的蛋白质数据划为数据子集5, 长度在291-450之间的蛋白质数据划为数据子集6；从每个数据子集随机选取50个蛋白质数据作为训练集，剩余作为测试集，最终得到6个训练集和6个测试集；

C．采用反向传播算法，使用6个训练集对相应的6个神经网络子网进行训练学习，得到训练后的6个神经网络子网；

D．分别使用6个训练集及步骤C所得训练后的6个神经网络子网对级联神经网络进行训练学习，得到最终可用于蛋白质关联图预测的级联神经网络；

E．将步骤B所得6个测试集中的待预测蛋白质进行编码，依次将编码后的每个蛋白质数据对应输入到步骤C所得的训练后的神经网络子网组进行级联网络结构中第一层预测，得到该蛋白质初步的关联图；重复本步骤,直到完成测试集中所有蛋白质的第一层预测；

F．将步骤E所得的蛋白质初步的关联图输入至级联神经网络，得到蛋白质最终的关联图。

上述步骤C中采用反向传播算法对神经网络子网的训练学习具体步骤为：

C-1．从6个神经网络子网中选择尚未进行训练学习的神经网络子网；

C-2．选取待训练学习神经网络子网所对应的训练数据集；

C-3．输入编码后的训练样本对至神经网络子网输入层；

C-4．计算神经网络子网各层输出；

C-5．计算神经网络子网输出总误差；

C-6．检查神经网络子网总误差是否达到精度要求，如果满足则进入步骤C-8，否则进入步骤C-7；

C-7．根据反馈误差调整神经网络子网各层权值，返回步骤C-4；

C-8．检查是否完成所有6个子网的训练学习，如果全部完成则结束，否则返回步骤C-1。

上述步骤E中所述的对蛋白质进行编码的具体方法为：

E-1．采用每对氨基酸使用一个唯一向量表示，一共有20×(20+1)/2，即210种氨基酸对，对每对氨基酸采用210位进行编码；分别使用1位及3位进行权重及二级结构编码，这样每对氨基酸编码提高到了218位（210+(1+3)×2）；

E-2. 针对每对氨基酸对(i, j)，同时对(i-2, j-2)、(i-1, j-1)、(i+1, j+1)、(i+2, j+2)采用上述同样的编码方式，这样每对氨基酸编码提高到了1090（218×5）；

E-3. 针对每对氨基酸对(i, j)，同时对(k-2, k+2)、(k-1, k+1)、(k, k)进行上述同样的编码方式，其中k=i/2+j/2，这样每对氨基酸编码提高到了1744（1090+218×3）；

E-4. 考虑待编码氨基酸对选择的最小间隔、待编码氨基酸对实际间隔长度以及待测蛋白质长度进行编码，分别采用1位，这样最终每对氨基酸编码为1747（1744+3）位，即含有1747位元素的一位向量。

上述步骤D中级联神经网络的训练学习具体步骤为：

D-1．根据训练集中蛋白质的长度，选择对应的神经网络子网组，子网组由所在子网X及子网X-1和X+1组成。例如，假设所有6个子网根据所覆盖蛋白质长度升序依次编号为1、2、3、4、5及6，如果该蛋白质长度落在编号为3的子网所涵盖的蛋白质长度范围内，那么该蛋白质所属的子网组为子网2、3及4。

D-2．将训练蛋白质编码后输入子网组中，子网组中每个神经网络独立并行进行计算输出；

D-3．汇总子网组中各子网的输出，同3个平衡因子一起输入至级联网络输入层，完成级联网络的训练学习。

本方法避免了基于单神经网络方法无法根据蛋白质长度选择更适合的神经网络进行计算预测的缺陷，对于不同长度的蛋白质能取得更好且更稳定的预测精度。同时具有更好的并行性能，而且神经网络级联结构具有更好的可扩展性。本发明的一种基于级联神经网络结构的蛋白质关联图的预测方法与已有基于单神经网络的方法相比较，具有如下显而易见的突出实质性特点和显著优点：

1．本方法克服了基于单神经网络方法无法针对不同长度蛋白质优化处理的缺点。由于本方法对不同长度的蛋白质进行了分类处理，对每一长度类别采用其对应的经过优化的神经网络子网进行预测，使得该方法的预测精度和稳定性均优于同类方法。图7给出预测精度高低的比较情况，图5和图6给出了预测精度稳定性的比较情况。

2．本方法因各神经网络子网之间相互独立，相互之间没有通讯，从而具有更好的并行特质，使得本方法克服了基于单神经网络方法并行化后通讯量大而导致并行效率低下的缺点，各神经网络可以并行训练和预测，能充分利用计算资源，提高计算效率。

附图说明

图1是本发明的基于级联神经网络结构的蛋白质关联图预测流程图。

图2是图1步骤C所述的训练所有神经网络子网的具体流程图。

图3是图1步骤D所述的训练级联神经网络的具体流程图。

图4是本发明的神经网络子网（左侧）及级联结构（右侧）图。本发明中所有神经网络子网采用同样的结构，即由输入层（1747个节点）、隐含层（5个节点）及输出层（1个节点）组成的三层网络。级联网络同样采用三层结构，输入层使用9个节点（其中6个对应6个神经网络子网的输出，3个对应平衡因子），隐含层使用3个节点，输出层采用1个节点。

图5是本发明的所有测试蛋白质经过对应神经网络子网预测的精度结果分布图，即为基于单神经网络的预测结果。图中，横坐标为蛋白质长度，纵坐标为预测的精度值。图中每个点表示对应蛋白质根据其长度被所属神经网络子网所预测的精度情况。平均的精度仅为34.01%。可以发现，随着蛋白质长度的增长，预测的精度在下降。

图6是本发明的所有测试蛋白质通过级联神经网络的预测结果分布图, 即基于级联神经网络的预测结果。图中，横坐标为蛋白质长度，纵坐标为预测的精度。每个点表示对应蛋白质通过级联神经网络预测的精度情况。平均的精度达到57.86%。同时可以发现，随着蛋白质长度的增长，预测的精度保持稳定。即本方法克服了基于单神经网络方法预测精度随待测蛋白质长度的变化而出现较大波动的不足。

图7是本方法（表中标记为CNNcon）与其他同类方法之间的比较结果。表中，Acc为精度（%）,定义为公式（1）。Cov为覆盖率（%）,定义如下公式（2），Err_acc为精度的标准差，Err_cov为覆盖率的标准差。

（1）

（2）

公式（1）和（2）中，为蛋白质关联图中预测正确的连接数，为预测的连接总数，为真阳性数，为假阳性数，为实际的连接总数，为假阴性数。

具体实施方式

以下结合附图对本发明的实施例作进一步详细说明。

本实施例中，本发明的基于级联神经网络结构的蛋白质关联图的预测方法在拥有双核CPU 2.13GHz，6GB内存计算机上进行。

本发明的一种基于级联神经网络结构的蛋白质关联图的预测方法，如图1所示，包括以下步骤：

A．读取蛋白质数据集，并初始化6个神经网络子网及1个级联网络。本方法采用3层的标准神经网络，即输入层、中间隐含层及输出层；

B．确定蛋白质数据集中是否所有蛋白质长度都在51至450区间范围内，如果所有蛋白质长度都在51至450区间内的，则转步骤D，否则转步骤C；

C．剔除蛋白质数据集中长度不在51至450区间的蛋白质数据，得到只包含长度在51至450区间的标准蛋白质数据集；

D．对标准蛋白质数据集依据蛋白质长度进行分类，将蛋白质长度在51-70之间的蛋白质数据划为数据子集1，长度在71-90之间的蛋白质数据划为数据子集2, 长度在91-130之间的蛋白质数据划为数据子集3，长度在131-190之间的蛋白质数据划为数据子集4, 长度在191-290之间的蛋白质数据划为数据子集5, 长度在291-450之间的蛋白质数据划为数据子集6。从每个数据子集随机选取50个蛋白质数据作为训练集，剩余作为测试集，最终得到6个训练集和6个测试集；

E．使用6个训练集对相应的6个神经网络子网采用标准的反向传播算法进行训练学习，得到训练后的神经网络子网；请参见图2。具体步骤如下：

E1．选择尚未进行训练学习的神经网络子网；

E2．选取待训练学习神经网络所对应的训练数据集；

E3．对选择的训练数据集进行编码；

对蛋白质氨基酸序列信息进行编码处理。本发明采用含有1747位元素的一维向量表示来对蛋白质氨基酸序列编码信息，具体规则如下：

（1）因蛋白质基本氨基酸共有20种，本发明采用每对氨基酸使用一个唯一向量表示。因一共有210（20×(20+1)/2）种氨基酸对，所以第一步本方法对每对氨基酸采用210位进行编码；

（2）采用蛋白质氨基酸多序列比对信息代替单序列信息，本方法中选择最多100条对齐序列，这样提高了编码信息的准确性。同时将每对氨基酸所对应的权重及二级结构进行编码，本方法分别使用1位及3位进行权重及二级结构编码，这样每对氨基酸编码提高到了218位（210+(1+3)×2）；

（3）为了考虑位于邻近氨基酸对待编码氨基酸对的影响，针对每对氨基酸对(i, j)，同时对(i-2, j-2)、(i-1, j-1)、(i+1, j+1)、(i+2, j+2)采用上述同样的编码方式，这样每对氨基酸编码提高到了1090（218×5）；

（4）为了考虑位于中间氨基酸对待编码氨基酸对的影响，针对每对氨基酸对(i, j)，同时对(k-2, k+2)、(k-1, k+1)、(k, k)进行上述同样的编码方式，其中k=i/2+j/2，这样每对氨基酸编码提高到了1744（1090+218×3）；

（5）最后，考虑待编码氨基酸对选择的最小间隔、待编码氨基酸对实际间隔长度以及待测蛋白质长度进行编码，分别采用1位，这样最终每对氨基酸编码为1747（1744+3）位，即含有1747位元素的一位向量。

E4．输入编码后的训练样本对至网络输入层；

E5．计算网络各层输出；

E6．计算神经网络输出总误差；

E7．检查网络总误差是否达到精度要求，如果满足则进入步骤E9，否则进入步骤E8；

E8．根据反馈误差调整各层权值，返回步骤E5；

E9．检查是否完成所有6个子网的训练学习，如果全部完成则结束，否则返回步骤E1。

F．使用6个训练集及训练后的神经网络子网对级联神经网络进行训练学习，得到最终可用于蛋白质关联图预测的级联神经网络，请参见图3。

F1．根据训练集中蛋白质的长度，选择对应的神经网络子网组，子网组由所在子网X及子网X-1和X+1组成。例如，假设所有6个子网根据所覆盖蛋白质长度升序依次编号为1、2、3、4、5及6，如果该蛋白质长度落在编号为3的子网所涵盖的蛋白质长度范围内，那么该蛋白质所属的子网组为子网2、3及4。

F2．将训练蛋白质编码后输入子网组中，子网组中每个神经网络独立并行进行计算输出；

F3．汇总子网组中各子网的输出，同3个平衡因子一起输入至级联网络输入层，完成级联网络的训练学习。

G．编码待预测蛋白质，并输入对应已完成学习训练的神经网络子网组（子网组的形成如步骤F1中所述）进行级联网络结构中第一层预测，得到该蛋白质初步的关联图。重复这个过程直到测试集中的所有蛋白质都得到了初步的关联图；

H．将第一层神经网络子网组输出的蛋白质初步关联图输入至级联神经网络，完成最终的计算，得到蛋白质最终的关联图。

本实施例中采用CASP10（2012）竞赛中的64个蛋白质组成本方法的测试集,测试集中所有蛋白质的PDBID列表如下：

4FR9A,4F54A,4FMZB,4F67A,4FS7A,4FO5A,2LUZA,2LULA,4ESNA,2LTEA,4EXRA,2LR8A,4FLEA,2LTLA,4FD0A,4F0JA,4F98A,4FDYA,2LV2A,4E6FA,4EPZA,4H08A,4FM3A,4FXTE,4EZIA,4GL6B,4FMTA,4EZGA,4FVSA,4GT6A,4GZVE,4HESA,4HG2B,4H41B,4H17A,4GBSA,2LVCA,2LY9A,4H0AB,4IC1D,4FK1A,4FLAA,4FLBA,4FMRB,2LTMA,2LU7A,2LZ1A,4GQAA,4G2AA,3TD7A,4GHBB,4HYZA,2YMVA,4FMWA,4GPVB,4G5AA,4GL3A,2LVAA,4GB5A,4GOQA,2LV9A,4H1XA,4G6QA,4GAKA。

先编码上述测试集中的所有蛋白质，依次将测试集中编码后的每个蛋白质数据输入本方法中的级联网络的第一层神经网络子网组中,完成第一层预测，得到该蛋白质的初步关联图。重复本步骤,直到完成测试集中所有蛋白质的第一层预测。然后，再将第一层神经网络子网组输出的蛋白质初步关联图输入至级联神经网络，完成级联神经网络网络的计算，得到蛋白质最终的关联图。

图7给出了该方法（图中以CNNcon表示）与其他方法的比较结果。该方法取得了55.48%的预测精度，在所有比较的方法中排列第一。

综上所述，通过图7的预测精度高低的比较及图5、图6预测精度稳定性的比较，本方法具有更高的预测精度和更好的稳定性。

本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员依据本发明的方法和思想得出的其它实施方式，同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于级联神经网络结构的蛋白质关联图的预测方法，采用6个神经网络子网以及由该6个神经网络子网形成的1个级联网络的结构，其特征在于该方法具体步骤如下：

2.根据权利要求1所述的基于级联神经网络结构的蛋白质关联图预测方法，其特征在于所述步骤C中采用反向传播算法对神经网络子网的训练学习具体步骤为：

C-2．选取待训练学习神经网络子网所对应的训练数据集；

C-3．输入编码后的训练样本对至神经网络子网输入层；

C-4．计算神经网络子网各层输出；

C-5．计算神经网络子网输出总误差；

3.根据权利要求1所述的基于级联神经网络结构的蛋白质关联图预测方法，其特征在于所述步骤E中所述的对蛋白质进行编码的具体方法为：

4.根据权利要求1所述的基于级联神经网络结构的蛋白质关联图预测方法，其特征在于上述步骤D中级联神经网络的训练学习具体步骤为：

D-1．根据训练集中蛋白质的长度，选择对应的神经网络子网组，子网组由所在子网X及子网X-1和X+1组成，

例如，假设所有6个子网根据所覆盖蛋白质长度升序依次编号为1、2、3、4、5及6，如果该蛋白质长度落在编号为3的子网所涵盖的蛋白质长度范围内，那么该蛋白质所属的子网组为子网2、3及4；