CN105930686B - 一种基于深度神经网络的蛋白质二级结构预测方法 - Google Patents

一种基于深度神经网络的蛋白质二级结构预测方法 Download PDF

Info

Publication number
CN105930686B
CN105930686B CN201610519695.3A CN201610519695A CN105930686B CN 105930686 B CN105930686 B CN 105930686B CN 201610519695 A CN201610519695 A CN 201610519695A CN 105930686 B CN105930686 B CN 105930686B
Authority
CN
China
Prior art keywords
neural network
protein
training
network
secondary structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610519695.3A
Other languages
English (en)
Other versions
CN105930686A (zh
Inventor
毛华
陈媛媛
罗川
汪洋旭
陈盈科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201610519695.3A priority Critical patent/CN105930686B/zh
Publication of CN105930686A publication Critical patent/CN105930686A/zh
Application granted granted Critical
Publication of CN105930686B publication Critical patent/CN105930686B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习及神经网络方法的蛋白质二级结构预测方法,本发明涉及神经网络及蛋白质二级结构预测技术领域。该方法以蛋白质特征序列为输入,通过设计的深度回复式神经网络模型,预测序列各个位点氨基酸残基的空间二级结构。本发明实现了基于输入特征的二级结构自动预测,具有很好的泛化能力,能够根据不同输入特征训练特定模型并实现高准确度的二级结构预测。

Description

一种基于深度神经网络的蛋白质二级结构预测方法
技术领域
本发明涉及特征学习、神经网络、深度学习、蛋白质结构预测和序列学习等领域,具体涉及一种基于深度神经网络的蛋白质二级结构预测方法。
背景技术
蛋白质结构预测问题是计算生物学的重要研究问题之一,其能够发现蛋白质序列结构和其功能间的复杂关系,其中二级结构预测问题又是各种更高级结构预测问题的基础。通过准确的蛋白质二级结构预测,研究者能够快速获取蛋白质序列中氨基酸残基的二级结构构象信息,如α-螺旋、β-折叠以及不规则卷曲等,这为基于序列的蛋白质结构及功能分析提供了有效的数据参考并被广泛采用。
通过实验测定蛋白质结构费时费力,随着人类基因组及全基因组计划的顺利实施,海量待分析蛋白质序列数据对蛋白质二级结构预测方法提出了挑战。蛋白质二级结构预测方法研究开展较早,主要包括支撑矢量机(SVM,Support Vector Machines)方法、贝叶斯分类法、最近邻法和神经网络方法等。
SVM法的基本原理是:对于分析的蛋白质输入序列,构建基于SVM的分类器对不同残基位点的输入特征进行结构分类,进而实现结构预测;贝叶斯分类法通过蛋白质序列输入特征构造贝叶斯网络进行二级结构预测,能够在一定程度上考虑蛋白质序列残基间的相互作用关系;传统神经网络方法通过多层神经网络对输入蛋白质序列进行分类预测,其收敛速度及网络参数选择十分困难。
传统的蛋白质二级结构预测方法已经难以适应大数据环境下结构预测任务对计算效率及准确性的要求。
发明内容
针对上述技术问题,本发明提供一种高效的蛋白质二级结构预测方法,能更准确的预测蛋白质序列中氨基酸残基的二级结构;其旨在解决现有技术不能充分利用序列间残基信息,不能符合大数据环境系结构预测任务对计算效率及准确性的要求,选择收敛速度及网络参数困难且可靠性差等技术问题。
本发明采用如下技术方案:基于深度神经网络的蛋白质二级结构预测方法,包括如下步骤:
步骤1、获取蛋白质序列组合特征作为自编码器网络的输入,提取出表征蛋白质序列组合特征的有效特征编码,再训练自编码器网络;
步骤2、使用预训练的自编码器网络初始化深度回复式神经网络前端输入层,采用反向传导算法,通过有监督学习方式训练深度回复式神经网络,所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出,训练二级结构预测模型。训练完成后能够预测蛋白质各个残基位点的二级结构,获得蛋白质二级结构预测模型;
步骤3、利用已训练的蛋白质二级结构预测模型,输入待分析蛋白质序列组合特征,预测待分析蛋白质各个残基位点的二级结构。
上述方法中,所述的步骤1,使用有效特征编码预训练自编码器网络,包括如下步骤:
21)、以蛋白质序列组合特征作为自编码器网络的输入层输入,采用逐层训练方式训练多层自编码器深度神经网络;
22)、定义自编码器网络收敛条件是自编码器网络整体重构误差小于收敛阈值或其达到最大训练迭代次数,当自编码器网络收敛后,固定自编码器网络权值并截取编码器网络的部分网络进行特征表达,获得有效特征编码。
上述方法中,所述的步骤2包括如下步骤:
31)、初始化深度回复式神经网络参数;
32)、根据有效特征编码和反向传导算法,通过有监督学习方式,循环训练深度回复式神经网络,其网络输入为蛋白质序列组合特征、目标输出为残基位点的真实二级结构且输出为网络预测对应蛋白质各个残基位点的二级结构,并在循环训练后不断更新深度回复式神经网络参数;
33)、定义深度回复式神经网络收敛条件是深度回复式神经网络整体重构误差小于收敛阈值或其达到最大训练迭代次数,当深度回复式神经网络收敛后,选取最优的深度回复式神经网络参数,从而获得蛋白质二级结构预测模型。
上述方法中,所述的步骤3,具体包括如下步骤:
41)、将待分析蛋白质序列组合特征作为网络输入,利用步骤33),由蛋白质二级结构预测模型进行前向计算,获得输出结果;
42)、根据输出结果,预测蛋白质序列各残基位点二级结构。
与现有技术相比,本发明具有以下有益效果:
利用深度学习技术强大学习能力提高了蛋白质二级结构预测的效率和准确率;采取双向深度回复式神经网络结构,充分利用序列间残基相互左右关系,提高预测可靠性;采用端到端模型训练方式以及mu lt itask模型,增强系统鲁棒性;
蛋白质序列组合特征隐含大量结构和功能信息,对其准确的建模、分析及预测需要强大的算法和计算能力。深度学习技术在大数据分析处理方面取得了巨大成功,具有强大的学习能力和运算效率,适合处理蛋白质二级结构预测任务;
蛋白质序列残基间存在大量隐式作用影响其二级结构,传统的二级结构预测方法对序列信息的处理能力有限,预测时无法较好的利用序列残基间信息,致使预测结果不尽人意。双向深度回复式神经网络技术具有很强的序列学习及处理能力,能够较好的利用序列间相互依赖关系提高模型预测可靠性;
采用最新的端到端模型以及回复式结构处理二级结构预测问题,构建完整的机器学习系统,一方面便于预测模型方法的实际应用,另一方面减少人工干预带来的参数选择困难等问题。同时,多任务学习模式有助于提高系统鲁棒性。
附图说明
图1为自编码网络示意图;
图2为二级结构预测深度网络结构图;
图3为双向回复式GRU网络示意图;
图4为GRU神经元结构图;
图5为网络学习算法图;
图6为本方法预测流程图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
实施例1
基于深度神经网络的蛋白质二级结构预测方法,包括如下步骤:
步骤1、模型训练阶段,其包括:
获取蛋白质序列组合特征,位置特异性得分矩阵(PSSM,position-specificscoring matrics),物化等特征作为输入,训练自编码器网络以提取有效特征;
以独立训练集蛋白质序列组合特征作为输入,对应二级结构序列作为目标,通过有监督学习方式训练深度回复式神经网络以预测各个残基位点的二级结构。
步骤2、预测阶段,其包括:
输入蛋白质序列组合特征,预测各个残基位点二级结构。
上述技术方案中,步骤1中特征提取自编码器预训练过程,包括以下步骤:
11)、首先随机选取训练集中蛋白质序列若干氨基酸残基位点组合特征构成自编码器训练集A,其包含M个氨基酸残基位点,特征维度为N。
12)、单一的自编码器为一个三层对称神经网络,其输入和输入层维度相同。训练时,其输入和目标输出相同,采用平方误差性能函数训练至网络收敛。采用基于反向传导算法(BP,Back propagation Algorithm)的逐层训练算法训练多个自编码器并栈式连接组成自编码网络,该网络为一个多层深度神经网络,如图 1所示。
预训练自编码器网络用于输入蛋白质序列组合特征的初步特征提取,网络参数用于其后深度回复式网络中对应层的参数初始化过程。
上述技术方案中,步骤1中训练深度回复式神经网络,包括如下步骤:
13)、定义网络结构,如图2所示。网络中稀疏自动编码(SAE,Sparse AutoEncoder)部分参数由12)中预训练网络初始化权值用于初步特征提取。网络整体包含多层双向回复式GRU层、全连接层以及输出层。
其中,双向的门限循环单元(GRU,Gated Recurrent Unit)层结构如图3 所示;GRU神经元结构如图4所示。其计算方式如下:
其中i,j为对应GRU神经元编号,σ(x)为sigmoid函数,x_t为t时刻网络输入, W为网络连接权值矩阵,h_t为t时刻GRU神经元隐层激活值,z_t为t时刻GRU 神经元更新门状态,r_t为t时刻神经元遗忘门状态,z_t为方程耦合系数。
网络采用多输出层设计以提高预测准确性和加快收敛速度。输出层分别采用平方误差以及Softmax作为性能函数,其计算公式如下:
其中x,y分别为输入样本和对应类别标签,L_{1}(x,\Theta)为欧式距离误差函数, L_{2}(x,\Theta)为Softmax误差函数。
14)、网络模型训练。网络通过有监督学习算法训练,输入为训练集蛋白质序列组合特征数据,目标输出为对应残基位点的二级结构。学习算法如图5所示。其中参数取值可参照:
α=0.001,β1=0.9,β2=0.999,ε=1e–8;
其中α为网络学习率,β1,β2分别为计算一阶梯度及二阶梯度的冲量系数,ε为极小量以避免分母为零。网络收敛或达到最大训练次数后,保存模型用于预测。网络收敛或达到最大训练次数后,保存模型用于预测。
上述技术方案中,步骤2进行蛋白质二级结构预测,包括如下步骤:
21)、输入蛋白质序列组合特征,预测各个残基位点二级结构。
实施例2
参见图6,一种基于深度神经网络的蛋白质二级结构预测方法,首先,输入蛋白质序列组合特征组合序列,其包含蛋白质序列各个残基位点的组合特征 (PSSM、物化特征等)。输入数据需进行预处理,其包括标准化,特征维度对齐等。最终输入为蛋白质序列组合特征矩阵。
模型训练阶段即训练二级结构预测模型。其具体过程如下:
1)预训练自编码特征提取网络。采用基于BP算法的逐层训练算法训练多个自编码器并栈式连接组成自编码网络,该网络为一个多层深度神经网络,如图1 所示。预训练自编码器网络用于输入蛋白质序列组合特征的初步特征提取,网络参数用于其后深度回复式网络中对应层的参数初始化过程。
2)训练深度回复式预测网络。如图2所示。网络中SAE部分参数由中预训练网络初始化权值用于初步特征提取。网络整体包含多层双向回复式GRU层、全连接层以及输出层。
其中,双向GRU层结构如图3所示;GRU神经元结构如图4所示。其计算方式如下:
网络采用多输出层设计以提高预测准确性和加快收敛速度。输出层分别采用平方误差以及Softmax作为性能函数,其计算公式如下:
网络模型训练:网络通过有监督学习算法训练,输入为训练集蛋白质序列组合特征数据,目标输出为对应残基位点的二级结构。学习算法如图5所示。其中参数设置参考如下:
α=0.001,β1=0.9,β2=0.999,ε=1e–8;
其中α为网络学习率,β1,β2分别为计算一阶梯度及二阶梯度的冲量系数,ε为极小量以避免分母为零。网络收敛或达到最大训练次数后,保存模型用于预测。
预测阶段利用优化后模型进行二级结构预测。其包括:输入蛋白质序列组合特征,预测各个残基位点二级结构。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于深度神经网络的蛋白质二级结构预测方法,其特征包括如下步骤:
步骤1、获取蛋白质序列组合特征作为自编码器网络的输入,并提取出表征蛋白质序列组合特征的有效特征编码,再预训练自编码器网络;
步骤2、使用预训练的自编码器网络初始化深度回复式神经网络前端输入层,采用反向传导算法,通过有监督学习方式训练深度回复式神经网络,所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出,训练二级结构预测模型,训练完成后能够预测蛋白质各个残基位点的二级结构,获得蛋白质二级结构预测模型;
步骤3、利用已训练的蛋白质二级结构预测模型,输入待分析蛋白质序列组合特征,预测待分析蛋白质各个残基位点的二级结构;
所述步骤2中的深度回复式神经网络为端到端学习结构,包含多层双向回复式GRU层、全连接层以及输出层,采用多任务学习算法进行序列学习。
2.根据权利要求1所述的一种基于深度神经网络的蛋白质二级结构预测方法,其特征在于,所述的步骤1,使用有效特征编码预训练自编码器网络,包括如下步骤:
21)、以蛋白质序列组合特征作为自编码器网络的输入层输入,根据深度回复式神经网络前端输入层结构,采用逐层训练方式训练对应的多层自编码器深度神经网络;
22)、自编码器网络收敛条件为:自编码器网络整体重构误差小于收敛阈值或其达到最大训练迭代次数,当自编码器网络收敛后,固定自编码器网络权值用于初始化深度回复式神经网络前端输入层以获得有效特征编码。
3.根据权利要求1所述的一种基于深度神经网络的蛋白质二级结构预测方法,其特征在于,所述的步骤2包括如下步骤:
31)、采用预训练自编码器网络初始化深度回复式神经网络参数;
32)、通过有监督学习方式,采用反向传导算法循环训练深度回复式神经网络,其网络输入为蛋白质序列组合特征、目标输出为残基位点的真实二级结构且输出为网络预测对应蛋白质各个残基位点的二级结构,并在循环训练后不断更新深度回复式神经网络参数;
33)、定义深度回复式神经网络收敛条件是深度回复式神经网络整体重构误差小于收敛阈值或其达到最大训练迭代次数,当深度回复式神经网络收敛后,选取最优的深度回复式神经网络参数,从而获得蛋白质二级结构预测模型。
4.根据权利要求3所述的一种基于深度神经网络的蛋白质二级结构预测方法,其特征在于,所述的步骤3,具体包括如下步骤:
41)、将待分析蛋白质序列的组合特征作为网络输入,由蛋白质二级结构预测模型进行前向计算,获得输出结果;
42)、根据输出结果,预测待分析蛋白质各个残基位点的二级结构。
CN201610519695.3A 2016-07-05 2016-07-05 一种基于深度神经网络的蛋白质二级结构预测方法 Expired - Fee Related CN105930686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610519695.3A CN105930686B (zh) 2016-07-05 2016-07-05 一种基于深度神经网络的蛋白质二级结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610519695.3A CN105930686B (zh) 2016-07-05 2016-07-05 一种基于深度神经网络的蛋白质二级结构预测方法

Publications (2)

Publication Number Publication Date
CN105930686A CN105930686A (zh) 2016-09-07
CN105930686B true CN105930686B (zh) 2019-05-07

Family

ID=56830291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610519695.3A Expired - Fee Related CN105930686B (zh) 2016-07-05 2016-07-05 一种基于深度神经网络的蛋白质二级结构预测方法

Country Status (1)

Country Link
CN (1) CN105930686B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951736B (zh) * 2017-03-14 2019-02-26 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN109214401B (zh) * 2017-06-30 2020-10-16 清华大学 基于层次化自动编码器的sar图像分类方法及装置
CN107622182B (zh) * 2017-08-04 2020-10-09 中南大学 蛋白质局部结构特征的预测方法及系统
CN107742061B (zh) * 2017-09-19 2021-06-01 中山大学 一种蛋白质相互作用预测方法、系统和装置
CN108171010B (zh) * 2017-12-01 2021-09-14 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN110057757B (zh) * 2018-01-18 2022-04-26 深圳市理邦精密仪器股份有限公司 血红蛋白及其衍生物的识别、识别网络构建方法及装置
CN108549794B (zh) * 2018-03-29 2021-05-25 中国林业科学研究院资源昆虫研究所 一种蛋白质二级结构预测方法
CN109817275B (zh) * 2018-12-26 2020-12-01 东软集团股份有限公司 蛋白质功能预测模型生成、蛋白质功能预测方法及装置
CN109817276B (zh) * 2019-01-29 2023-05-23 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN110276113A (zh) * 2019-06-11 2019-09-24 嘉兴深拓科技有限公司 一种网络结构预测方法
CN110796252A (zh) * 2019-10-30 2020-02-14 上海天壤智能科技有限公司 基于双头或多头神经网络的预测方法及系统
CN111243658B (zh) * 2020-01-07 2022-07-22 西南大学 一种基于深度学习的生物分子网络构建与优化方法
CN114121149A (zh) * 2021-12-01 2022-03-01 天津理工大学 一种基于双向gru和注意力机制的rna二级结构预测算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408911B (zh) * 2008-07-15 2010-06-09 北京科技大学 一类蛋白质二级结构智能预测模型构造技术
CN104951668A (zh) * 2015-04-07 2015-09-30 上海大学 基于级联神经网络结构的蛋白质关联图的预测方法

Also Published As

Publication number Publication date
CN105930686A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN105930686B (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
Liu et al. Progressive neural architecture search
Kim et al. Neural architecture search for spiking neural networks
CN108664687A (zh) 一种基于深度学习的工控系统时空数据预测方法
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN103258214B (zh) 基于图像块主动学习的遥感图像分类方法
Dong et al. Automatic design of CNNs via differentiable neural architecture search for PolSAR image classification
CN108734210A (zh) 一种基于跨模态多尺度特征融合的对象检测方法
Sun et al. Fast object detection based on binary deep convolution neural networks
CN112131967A (zh) 基于多分类器对抗迁移学习的遥感场景分类方法
CN105095862A (zh) 一种基于深度卷积条件随机场的人体动作识别方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
Huang et al. A data-driven method for hybrid data assimilation with multilayer perceptron
Han et al. Boundary‐aware vehicle tracking upon UAV
Lin et al. Semantic segmentation of 3D indoor LiDAR point clouds through feature pyramid architecture search
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN112200262B (zh) 支持多任务和跨任务的小样本分类训练方法及装置
Ren et al. Spiking PointNet: Spiking Neural Networks for Point Clouds
Wang et al. Weakly supervised object detection based on active learning
Li et al. ABCP: Automatic block-wise and channel-wise network pruning via joint search
Goupilleau et al. Active learning for object detection in high-resolution satellite images
Cai et al. EST-NAS: An evolutionary strategy with gradient descent for neural architecture search
Ding et al. Land-use classification with remote sensing image based on stacked autoencoder
Huang et al. A multiclass boosting approach for integrating weak classifiers in parking space detection
CN115953902A (zh) 一种基于多视图时空图卷积网络的交通流预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190507

Termination date: 20210705

CF01 Termination of patent right due to non-payment of annual fee