CN108549794B - 一种蛋白质二级结构预测方法 - Google Patents

一种蛋白质二级结构预测方法 Download PDF

Info

Publication number
CN108549794B
CN108549794B CN201810271436.2A CN201810271436A CN108549794B CN 108549794 B CN108549794 B CN 108549794B CN 201810271436 A CN201810271436 A CN 201810271436A CN 108549794 B CN108549794 B CN 108549794B
Authority
CN
China
Prior art keywords
amino acid
protein
secondary structure
protein sequence
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810271436.2A
Other languages
English (en)
Other versions
CN108549794A (zh
Inventor
王兵益
李维华
郭延哺
杨光映
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of Resource Insects of Chinese Academy of Forestry
Original Assignee
Research Institute of Resource Insects of Chinese Academy of Forestry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of Resource Insects of Chinese Academy of Forestry filed Critical Research Institute of Resource Insects of Chinese Academy of Forestry
Priority to CN201810271436.2A priority Critical patent/CN108549794B/zh
Publication of CN108549794A publication Critical patent/CN108549794A/zh
Application granted granted Critical
Publication of CN108549794B publication Critical patent/CN108549794B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种蛋白质二级结构预测方法。该方法首先用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征,其次用多卷积核的卷积神经网络提取蛋白质序列内部残基之间的近程相互作用和位置特征,然后用长短期记忆神经网络提取蛋白质序列内部残基之间的远程相互作用特征,最后基于提取的蛋白质深层结构特征进行蛋白质二级结构预测。

Description

一种蛋白质二级结构预测方法
技术领域
本发明属于生物信息学领域,涉及一种蛋白质二级结构的预测方法,更为具体地讲,涉及一种基于长短时记忆神经网络的蛋白质二级结构的预测方法。
背景技术
蛋白质是氨基酸脱水后的氨基酸残基顺序连接而成的长链,长链自发构成特征的蛋白质空间结构:一级结构、二级结构、三级结构和四级结构。蛋白质二级结构分为8类或3类,研究者早期主要关注蛋白质3类二级结构预测。相对于3类蛋白质二级结构预测,8类蛋白质二级结构预测可以提供更加全面的蛋白质结构类型信息,有效地促进人们对蛋白质结构与功能关系的了解。蛋白质二级结构预测方法通常采用基于统计分析和基于机器学习的预测方法。传统的结构预测方法虽然在二级结构预测中取得了丰硕的成绩,但蛋白质特征提取很大程度依赖人工设计。针对蛋白质序列特征表示的难题,循环神经网络(recurrentneural networks, RNNs)和卷积神经网络(convolutional neural networks, CNNs)被用于蛋白质二级结构预测并成功地改善了蛋白质结构预测精度。然而,目前基于神经网络模型的蛋白质二级结构预测并没有充分利用蛋白质序列的特征信息,因此8类蛋白质二级结构预测还有很大的改进空间。
本发明利用长短期记忆(Long Short-term Memory, LSTM)神经网络优点,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。
发明内容
针对现有技术中存在的不足,本发明在现有技术的基础上提出一种基于LSTM的蛋白质二级结构预测方法,利用LSTM捕捉长距离依赖关系的优势,结合卷积神经网络,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。具体来说,本发明具体技术方案包括:
S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:
Figure 261482DEST_PATH_IMAGE001
,其中
Figure 21627DEST_PATH_IMAGE002
表示氨基酸序列
Figure 413294DEST_PATH_IMAGE003
的第
Figure 300610DEST_PATH_IMAGE004
个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;
S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列
Figure 907172DEST_PATH_IMAGE005
,其中
Figure 87486DEST_PATH_IMAGE006
,且
Figure 479633DEST_PATH_IMAGE007
Figure 154328DEST_PATH_IMAGE008
Figure 864664DEST_PATH_IMAGE009
表示卷积窗口函数;
Figure 232191DEST_PATH_IMAGE010
,
Figure 162232DEST_PATH_IMAGE011
,
Figure 375039DEST_PATH_IMAGE012
分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核
Figure 205461DEST_PATH_IMAGE010
的数目;
Figure 478310DEST_PATH_IMAGE013
分别表示长度为
Figure 895647DEST_PATH_IMAGE010
的卷积核的权重项、偏置项;
S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,
Figure 912145DEST_PATH_IMAGE014
,其中
Figure 597073DEST_PATH_IMAGE015
Figure 306403DEST_PATH_IMAGE016
分别表示长短时记忆层基于前
Figure 945457DEST_PATH_IMAGE017
、后
Figure 765646DEST_PATH_IMAGE018
个氨基酸残基,在第
Figure 305080DEST_PATH_IMAGE019
个位置提取到的特征表示。
S4:长短时记忆模型提取的蛋白质序列特征表示为:
Figure 873727DEST_PATH_IMAGE020
将提取得到的完整的蛋白质序列特征传入softmax层,按照
Figure 311662DEST_PATH_IMAGE021
预测蛋白质序列每个氨基酸类别的概率。
Figure 669962DEST_PATH_IMAGE022
Figure 329482DEST_PATH_IMAGE023
分别为softmax层的权重项、偏置项,
Figure 380615DEST_PATH_IMAGE024
表示第
Figure 994261DEST_PATH_IMAGE025
个氨基酸残基的二级结构类别的预测概率。
附图说明
图1 8类蛋白质二级结构预测模型。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的8类蛋白质二级结构预测模型。如图1所示,该方法可以包括以下步骤:
步骤101:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:
Figure 218569DEST_PATH_IMAGE026
,其中
Figure 217749DEST_PATH_IMAGE027
表示氨基酸序列
Figure 626733DEST_PATH_IMAGE028
的第
Figure 727676DEST_PATH_IMAGE025
个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息。
步骤102:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列
Figure 817991DEST_PATH_IMAGE029
,其中
Figure 999574DEST_PATH_IMAGE031
,且
Figure 877663DEST_PATH_IMAGE032
Figure 715169DEST_PATH_IMAGE033
Figure 468230DEST_PATH_IMAGE034
表示卷积窗口函数;
Figure 769898DEST_PATH_IMAGE035
,
Figure 744852DEST_PATH_IMAGE036
,
Figure 131971DEST_PATH_IMAGE037
分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核
Figure 439456DEST_PATH_IMAGE038
的数目;
Figure 517002DEST_PATH_IMAGE039
Figure 251740DEST_PATH_IMAGE040
分别表示长度为
Figure 548991DEST_PATH_IMAGE041
的卷积核的权重项、偏置项。
本实施例中,可以通过3种卷积核卷积操作得到3种特征映射(feature map)分别是
Figure 660167DEST_PATH_IMAGE042
;然后将提取到的蛋白质序列内部氨基酸之间的局部近距离作用特征按
Figure 857799DEST_PATH_IMAGE043
连接得到蛋白质序列氨基酸的局部作用特征L。
步骤103:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,
Figure 451853DEST_PATH_IMAGE044
,其中
Figure 485668DEST_PATH_IMAGE045
Figure 384223DEST_PATH_IMAGE046
分别表示长短时记忆层基于前
Figure 249411DEST_PATH_IMAGE047
、后
Figure 325951DEST_PATH_IMAGE048
个氨基酸残基,在第
Figure 597795DEST_PATH_IMAGE019
个位置提取到的特征表示。
步骤104:长短时记忆模型提取的蛋白质序列特征表示为:
Figure 785194DEST_PATH_IMAGE049
将提取得到的完整的蛋白质序列特征传入softmax层,按照
Figure 957418DEST_PATH_IMAGE050
预测蛋白质序列每个氨基酸类别的概率。
Figure 204860DEST_PATH_IMAGE051
Figure 275584DEST_PATH_IMAGE052
分别为softmax层的权重项、偏置项,
Figure 17406DEST_PATH_IMAGE053
表示第
Figure 794869DEST_PATH_IMAGE054
个氨基酸残基的二级结构类别的预测概率。
本实施例中,可以使用随机梯度下降算法来对模型进行训练,使用最小化交叉熵函数
Figure 462480DEST_PATH_IMAGE055
作为训练的损失函数。其中,
Figure 692604DEST_PATH_IMAGE056
Figure 362751DEST_PATH_IMAGE057
范数的正则化项,
Figure 994721DEST_PATH_IMAGE058
为模型所有的参数,
Figure 646282DEST_PATH_IMAGE059
表示二级结构类别,
Figure 380014DEST_PATH_IMAGE060
表示二级结构类别数8,
Figure 712906DEST_PATH_IMAGE061
为训练集样本数。
模型参数调节方法为
Figure 448650DEST_PATH_IMAGE062
其中
Figure DEST_PATH_IMAGE063
是学习率。此外,模型训练可以采用Dropout和正则化策略来避免过拟合程度,同时也采用Early stopping策略,根据验证集的性能决定模型训练的终止时刻,避免训练过程中发生过拟合。

Claims (1)

1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列五个步骤:
S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:
Figure 871075DEST_PATH_IMAGE002
,其中
Figure 954306DEST_PATH_IMAGE004
表示氨基酸序列P的第i个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;
S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列
Figure 904945DEST_PATH_IMAGE006
,其中
Figure 787450DEST_PATH_IMAGE008
,且
Figure 202251DEST_PATH_IMAGE010
Figure 144799DEST_PATH_IMAGE012
F表示卷积窗口函数;
Figure DEST_PATH_IMAGE013
,m,q分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核
Figure 582734DEST_PATH_IMAGE013
的数目;
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE017
分别表示长度为
Figure 816400DEST_PATH_IMAGE013
的卷积核的权重项、偏置项;
S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,
Figure DEST_PATH_IMAGE019
,其中
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE023
分别表示长短时记忆层基于前t-1、后n-t个氨基酸残基,在第t个位置提取到的特征表示;
S4:长短时记忆模型提取的蛋白质序列特征表示为:
Figure DEST_PATH_IMAGE025
将提取得到的完整的蛋白质序列特征传入softmax层,按照
Figure DEST_PATH_IMAGE027
预测蛋白质序列每个氨基酸类别的概率;
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
分别为softmax层的权重项、偏置项,
Figure 742766DEST_PATH_IMAGE032
表示第i个氨基酸残基的二级结构类别的预测概率;
S5:用随机梯度下降算法来对模型进行训练,使用最小化交叉熵函数
Figure 856216DEST_PATH_IMAGE034
作为训练的损失函数,其中,
Figure 781447DEST_PATH_IMAGE036
L2范数的正则化项,θ为模型所有的参数,
Figure 818804DEST_PATH_IMAGE038
表示二级结构类别,c表示二级结构类别数8,N为训练集样本数,模型参数调节方法为
Figure 880301DEST_PATH_IMAGE040
其中α是学习率。
CN201810271436.2A 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法 Expired - Fee Related CN108549794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271436.2A CN108549794B (zh) 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271436.2A CN108549794B (zh) 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法

Publications (2)

Publication Number Publication Date
CN108549794A CN108549794A (zh) 2018-09-18
CN108549794B true CN108549794B (zh) 2021-05-25

Family

ID=63517444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271436.2A Expired - Fee Related CN108549794B (zh) 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法

Country Status (1)

Country Link
CN (1) CN108549794B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3132181A1 (en) * 2019-05-03 2020-11-12 Simon FRIEDENSOHN Identification of convergent antibody specificity sequence patterns
CN111063389B (zh) * 2019-12-04 2021-10-29 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法
CN112185466B (zh) * 2020-09-24 2023-05-23 中国科学院计算技术研究所 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
CN112289370B (zh) * 2020-12-28 2021-03-23 武汉金开瑞生物工程有限公司 一种蛋白质结构预测方法及装置
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN114613427B (zh) * 2022-03-15 2023-01-31 水木未来(北京)科技有限公司 蛋白质三维结构预测方法及装置、电子设备和存储介质
CN115240775B (zh) * 2022-07-18 2023-10-03 东北林业大学 基于stacking集成学习策略的Cas蛋白预测方法
CN115312119B (zh) * 2022-10-09 2023-04-07 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740646A (zh) * 2016-01-13 2016-07-06 湖南工业大学 一种基于bp神经网络的蛋白质二级结构预测方法
CN105930686A (zh) * 2016-07-05 2016-09-07 四川大学 一种基于深度神经网络的蛋白质二级结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740646A (zh) * 2016-01-13 2016-07-06 湖南工业大学 一种基于bp神经网络的蛋白质二级结构预测方法
CN105930686A (zh) * 2016-07-05 2016-09-07 四川大学 一种基于深度神经网络的蛋白质二级结构预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks;Zhen Li等;《Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence》;20160715;第2560-2567页 *

Also Published As

Publication number Publication date
CN108549794A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN108549794B (zh) 一种蛋白质二级结构预测方法
CN109829057B (zh) 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN110363290B (zh) 一种基于混合神经网络模型的图像识别方法、装置及设备
CN112116030A (zh) 一种基于向量标准化和知识蒸馏的图像分类方法
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
CN113221911B (zh) 一种基于双重注意力机制的车辆重识别方法及系统
CN112183742B (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN111144214B (zh) 基于多层堆栈式自动编码器的高光谱图像解混方法
CN114898151A (zh) 一种基于深度学习与支持向量机融合的图像分类方法
CN114898121B (zh) 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN110991257A (zh) 基于特征融合与svm的极化sar溢油检测方法
CN116110022B (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN112884147A (zh) 神经网络训练方法、图像处理方法、装置及电子设备
CN113111814A (zh) 基于正则化约束的半监督行人重识别方法及装置
CN117152606A (zh) 一种基于置信度动态学习的遥感图像跨域小样本分类方法
CN110633689B (zh) 基于半监督注意力网络的人脸识别模型
CN112966748B (zh) 基于边缘感知双分支fcn的极化sar图像分类方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525