CN105930686B

CN105930686B - 一种基于深度神经网络的蛋白质二级结构预测方法

Info

Publication number: CN105930686B
Application number: CN201610519695.3A
Authority: CN
Inventors: 毛华; 陈媛媛; 罗川; 汪洋旭; 陈盈科
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2016-07-05
Filing date: 2016-07-05
Publication date: 2019-05-07
Anticipated expiration: 2036-07-05
Also published as: CN105930686A

Abstract

本发明公开了一种基于深度学习及神经网络方法的蛋白质二级结构预测方法，本发明涉及神经网络及蛋白质二级结构预测技术领域。该方法以蛋白质特征序列为输入，通过设计的深度回复式神经网络模型，预测序列各个位点氨基酸残基的空间二级结构。本发明实现了基于输入特征的二级结构自动预测，具有很好的泛化能力，能够根据不同输入特征训练特定模型并实现高准确度的二级结构预测。

Description

一种基于深度神经网络的蛋白质二级结构预测方法

技术领域

本发明涉及特征学习、神经网络、深度学习、蛋白质结构预测和序列学习等领域，具体涉及一种基于深度神经网络的蛋白质二级结构预测方法。

背景技术

蛋白质结构预测问题是计算生物学的重要研究问题之一，其能够发现蛋白质序列结构和其功能间的复杂关系，其中二级结构预测问题又是各种更高级结构预测问题的基础。通过准确的蛋白质二级结构预测，研究者能够快速获取蛋白质序列中氨基酸残基的二级结构构象信息，如α-螺旋、β-折叠以及不规则卷曲等，这为基于序列的蛋白质结构及功能分析提供了有效的数据参考并被广泛采用。

通过实验测定蛋白质结构费时费力，随着人类基因组及全基因组计划的顺利实施，海量待分析蛋白质序列数据对蛋白质二级结构预测方法提出了挑战。蛋白质二级结构预测方法研究开展较早，主要包括支撑矢量机(SVM，Support Vector Machines)方法、贝叶斯分类法、最近邻法和神经网络方法等。

SVM法的基本原理是：对于分析的蛋白质输入序列，构建基于SVM的分类器对不同残基位点的输入特征进行结构分类，进而实现结构预测；贝叶斯分类法通过蛋白质序列输入特征构造贝叶斯网络进行二级结构预测，能够在一定程度上考虑蛋白质序列残基间的相互作用关系；传统神经网络方法通过多层神经网络对输入蛋白质序列进行分类预测，其收敛速度及网络参数选择十分困难。

传统的蛋白质二级结构预测方法已经难以适应大数据环境下结构预测任务对计算效率及准确性的要求。

发明内容

针对上述技术问题，本发明提供一种高效的蛋白质二级结构预测方法，能更准确的预测蛋白质序列中氨基酸残基的二级结构；其旨在解决现有技术不能充分利用序列间残基信息，不能符合大数据环境系结构预测任务对计算效率及准确性的要求，选择收敛速度及网络参数困难且可靠性差等技术问题。

本发明采用如下技术方案：基于深度神经网络的蛋白质二级结构预测方法，包括如下步骤：

步骤1、获取蛋白质序列组合特征作为自编码器网络的输入，提取出表征蛋白质序列组合特征的有效特征编码,再训练自编码器网络；

步骤2、使用预训练的自编码器网络初始化深度回复式神经网络前端输入层，采用反向传导算法，通过有监督学习方式训练深度回复式神经网络,所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出，训练二级结构预测模型。训练完成后能够预测蛋白质各个残基位点的二级结构，获得蛋白质二级结构预测模型；

步骤3、利用已训练的蛋白质二级结构预测模型，输入待分析蛋白质序列组合特征，预测待分析蛋白质各个残基位点的二级结构。

上述方法中，所述的步骤1，使用有效特征编码预训练自编码器网络，包括如下步骤：

21)、以蛋白质序列组合特征作为自编码器网络的输入层输入，采用逐层训练方式训练多层自编码器深度神经网络；

22)、定义自编码器网络收敛条件是自编码器网络整体重构误差小于收敛阈值或其达到最大训练迭代次数，当自编码器网络收敛后，固定自编码器网络权值并截取编码器网络的部分网络进行特征表达，获得有效特征编码。

上述方法中，所述的步骤2包括如下步骤：

31)、初始化深度回复式神经网络参数；

32)、根据有效特征编码和反向传导算法，通过有监督学习方式，循环训练深度回复式神经网络,其网络输入为蛋白质序列组合特征、目标输出为残基位点的真实二级结构且输出为网络预测对应蛋白质各个残基位点的二级结构，并在循环训练后不断更新深度回复式神经网络参数；

33)、定义深度回复式神经网络收敛条件是深度回复式神经网络整体重构误差小于收敛阈值或其达到最大训练迭代次数，当深度回复式神经网络收敛后，选取最优的深度回复式神经网络参数，从而获得蛋白质二级结构预测模型。

上述方法中，所述的步骤3，具体包括如下步骤：

41)、将待分析蛋白质序列组合特征作为网络输入，利用步骤33)，由蛋白质二级结构预测模型进行前向计算，获得输出结果；

42)、根据输出结果，预测蛋白质序列各残基位点二级结构。

与现有技术相比，本发明具有以下有益效果：

利用深度学习技术强大学习能力提高了蛋白质二级结构预测的效率和准确率；采取双向深度回复式神经网络结构，充分利用序列间残基相互左右关系，提高预测可靠性；采用端到端模型训练方式以及mu lt itask模型，增强系统鲁棒性；

蛋白质序列组合特征隐含大量结构和功能信息，对其准确的建模、分析及预测需要强大的算法和计算能力。深度学习技术在大数据分析处理方面取得了巨大成功，具有强大的学习能力和运算效率，适合处理蛋白质二级结构预测任务；

蛋白质序列残基间存在大量隐式作用影响其二级结构，传统的二级结构预测方法对序列信息的处理能力有限，预测时无法较好的利用序列残基间信息，致使预测结果不尽人意。双向深度回复式神经网络技术具有很强的序列学习及处理能力，能够较好的利用序列间相互依赖关系提高模型预测可靠性；

采用最新的端到端模型以及回复式结构处理二级结构预测问题，构建完整的机器学习系统，一方面便于预测模型方法的实际应用，另一方面减少人工干预带来的参数选择困难等问题。同时，多任务学习模式有助于提高系统鲁棒性。

附图说明

图1为自编码网络示意图；

图2为二级结构预测深度网络结构图；

图3为双向回复式GRU网络示意图；

图4为GRU神经元结构图；

图5为网络学习算法图；

图6为本方法预测流程图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

实施例1

基于深度神经网络的蛋白质二级结构预测方法，包括如下步骤：

步骤1、模型训练阶段，其包括：

获取蛋白质序列组合特征，位置特异性得分矩阵(PSSM，position-specificscoring matrics)，物化等特征作为输入，训练自编码器网络以提取有效特征；

以独立训练集蛋白质序列组合特征作为输入，对应二级结构序列作为目标，通过有监督学习方式训练深度回复式神经网络以预测各个残基位点的二级结构。

步骤2、预测阶段，其包括：

输入蛋白质序列组合特征，预测各个残基位点二级结构。

上述技术方案中，步骤1中特征提取自编码器预训练过程，包括以下步骤：

11)、首先随机选取训练集中蛋白质序列若干氨基酸残基位点组合特征构成自编码器训练集A，其包含M个氨基酸残基位点，特征维度为N。

12)、单一的自编码器为一个三层对称神经网络，其输入和输入层维度相同。训练时，其输入和目标输出相同，采用平方误差性能函数训练至网络收敛。采用基于反向传导算法(BP，Back propagation Algorithm)的逐层训练算法训练多个自编码器并栈式连接组成自编码网络，该网络为一个多层深度神经网络，如图 1所示。

预训练自编码器网络用于输入蛋白质序列组合特征的初步特征提取，网络参数用于其后深度回复式网络中对应层的参数初始化过程。

上述技术方案中，步骤1中训练深度回复式神经网络，包括如下步骤：

13)、定义网络结构，如图2所示。网络中稀疏自动编码(SAE，Sparse AutoEncoder)部分参数由12)中预训练网络初始化权值用于初步特征提取。网络整体包含多层双向回复式GRU层、全连接层以及输出层。

其中，双向的门限循环单元(GRU，Gated Recurrent Unit)层结构如图3 所示；GRU神经元结构如图4所示。其计算方式如下：

其中i,j为对应GRU神经元编号，σ(x)为sigmoid函数，x_t为t时刻网络输入， W为网络连接权值矩阵，h_t为t时刻GRU神经元隐层激活值，z_t为t时刻GRU 神经元更新门状态，r_t为t时刻神经元遗忘门状态，z_t为方程耦合系数。

网络采用多输出层设计以提高预测准确性和加快收敛速度。输出层分别采用平方误差以及Softmax作为性能函数，其计算公式如下：

其中x,y分别为输入样本和对应类别标签，L_{1}(x,\Theta)为欧式距离误差函数， L_{2}(x,\Theta)为Softmax误差函数。

14)、网络模型训练。网络通过有监督学习算法训练，输入为训练集蛋白质序列组合特征数据，目标输出为对应残基位点的二级结构。学习算法如图5所示。其中参数取值可参照：

α＝0.001,β1＝0.9,β2＝0.999,ε＝1e–8；

其中α为网络学习率，β1，β2分别为计算一阶梯度及二阶梯度的冲量系数，ε为极小量以避免分母为零。网络收敛或达到最大训练次数后，保存模型用于预测。网络收敛或达到最大训练次数后，保存模型用于预测。

上述技术方案中，步骤2进行蛋白质二级结构预测，包括如下步骤：

21)、输入蛋白质序列组合特征，预测各个残基位点二级结构。

实施例2

参见图6，一种基于深度神经网络的蛋白质二级结构预测方法，首先，输入蛋白质序列组合特征组合序列，其包含蛋白质序列各个残基位点的组合特征 (PSSM、物化特征等)。输入数据需进行预处理，其包括标准化，特征维度对齐等。最终输入为蛋白质序列组合特征矩阵。

模型训练阶段即训练二级结构预测模型。其具体过程如下：

1)预训练自编码特征提取网络。采用基于BP算法的逐层训练算法训练多个自编码器并栈式连接组成自编码网络，该网络为一个多层深度神经网络，如图1 所示。预训练自编码器网络用于输入蛋白质序列组合特征的初步特征提取，网络参数用于其后深度回复式网络中对应层的参数初始化过程。

2)训练深度回复式预测网络。如图2所示。网络中SAE部分参数由中预训练网络初始化权值用于初步特征提取。网络整体包含多层双向回复式GRU层、全连接层以及输出层。

其中，双向GRU层结构如图3所示；GRU神经元结构如图4所示。其计算方式如下：

网络模型训练：网络通过有监督学习算法训练，输入为训练集蛋白质序列组合特征数据，目标输出为对应残基位点的二级结构。学习算法如图5所示。其中参数设置参考如下：

α＝0.001,β1＝0.9,β2＝0.999,ε＝1e–8；

其中α为网络学习率，β1，β2分别为计算一阶梯度及二阶梯度的冲量系数，ε为极小量以避免分母为零。网络收敛或达到最大训练次数后，保存模型用于预测。

预测阶段利用优化后模型进行二级结构预测。其包括：输入蛋白质序列组合特征，预测各个残基位点二级结构。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的蛋白质二级结构预测方法，其特征包括如下步骤：

步骤1、获取蛋白质序列组合特征作为自编码器网络的输入，并提取出表征蛋白质序列组合特征的有效特征编码，再预训练自编码器网络；

步骤2、使用预训练的自编码器网络初始化深度回复式神经网络前端输入层，采用反向传导算法，通过有监督学习方式训练深度回复式神经网络，所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出，训练二级结构预测模型，训练完成后能够预测蛋白质各个残基位点的二级结构，获得蛋白质二级结构预测模型；

步骤3、利用已训练的蛋白质二级结构预测模型，输入待分析蛋白质序列组合特征，预测待分析蛋白质各个残基位点的二级结构；

所述步骤2中的深度回复式神经网络为端到端学习结构，包含多层双向回复式GRU层、全连接层以及输出层，采用多任务学习算法进行序列学习。

2.根据权利要求1所述的一种基于深度神经网络的蛋白质二级结构预测方法，其特征在于，所述的步骤1，使用有效特征编码预训练自编码器网络，包括如下步骤：

21)、以蛋白质序列组合特征作为自编码器网络的输入层输入，根据深度回复式神经网络前端输入层结构，采用逐层训练方式训练对应的多层自编码器深度神经网络；

22)、自编码器网络收敛条件为：自编码器网络整体重构误差小于收敛阈值或其达到最大训练迭代次数，当自编码器网络收敛后，固定自编码器网络权值用于初始化深度回复式神经网络前端输入层以获得有效特征编码。

3.根据权利要求1所述的一种基于深度神经网络的蛋白质二级结构预测方法，其特征在于，所述的步骤2包括如下步骤：

31)、采用预训练自编码器网络初始化深度回复式神经网络参数；

32)、通过有监督学习方式，采用反向传导算法循环训练深度回复式神经网络，其网络输入为蛋白质序列组合特征、目标输出为残基位点的真实二级结构且输出为网络预测对应蛋白质各个残基位点的二级结构，并在循环训练后不断更新深度回复式神经网络参数；

4.根据权利要求3所述的一种基于深度神经网络的蛋白质二级结构预测方法，其特征在于，所述的步骤3，具体包括如下步骤：

41)、将待分析蛋白质序列的组合特征作为网络输入，由蛋白质二级结构预测模型进行前向计算，获得输出结果；

42)、根据输出结果，预测待分析蛋白质各个残基位点的二级结构。