CN108549794A - 一种蛋白质二级结构预测方法 - Google Patents

一种蛋白质二级结构预测方法 Download PDF

Info

Publication number
CN108549794A
CN108549794A CN201810271436.2A CN201810271436A CN108549794A CN 108549794 A CN108549794 A CN 108549794A CN 201810271436 A CN201810271436 A CN 201810271436A CN 108549794 A CN108549794 A CN 108549794A
Authority
CN
China
Prior art keywords
amino acid
protein
protein sequence
sequence
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810271436.2A
Other languages
English (en)
Other versions
CN108549794B (zh
Inventor
王兵益
李维华
郭延哺
杨光映
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of Resource Insects of Chinese Academy of Forestry
Original Assignee
Research Institute of Resource Insects of Chinese Academy of Forestry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of Resource Insects of Chinese Academy of Forestry filed Critical Research Institute of Resource Insects of Chinese Academy of Forestry
Priority to CN201810271436.2A priority Critical patent/CN108549794B/zh
Publication of CN108549794A publication Critical patent/CN108549794A/zh
Application granted granted Critical
Publication of CN108549794B publication Critical patent/CN108549794B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种蛋白质二级结构预测方法。该方法首先用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征,其次用多卷积核的卷积神经网络提取蛋白质序列内部残基之间的近程相互作用和位置特征,然后用长短期记忆神经网络提取蛋白质序列内部残基之间的远程相互作用特征,最后基于提取的蛋白质深层结构特征进行蛋白质二级结构预测。

Description

一种蛋白质二级结构预测方法
技术领域
本发明属于生物信息学领域,涉及一种蛋白质二级结构的预测方法,更为具体地讲,涉及一种基于长短时记忆神经网络的蛋白质二级结构的预测方法。
背景技术
蛋白质是氨基酸脱水后的氨基酸残基顺序连接而成的长链,长链自发构成特征的蛋白质空间结构:一级结构、二级结构、三级结构和四级结构。蛋白质二级结构分为8类或3类,研究者早期主要关注蛋白质3类二级结构预测。相对于3类蛋白质二级结构预测,8类蛋白质二级结构预测可以提供更加全面的蛋白质结构类型信息,有效地促进人们对蛋白质结构与功能关系的了解。蛋白质二级结构预测方法通常采用基于统计分析和基于机器学习的预测方法。传统的结构预测方法虽然在二级结构预测中取得了丰硕的成绩,但蛋白质特征提取很大程度依赖人工设计。针对蛋白质序列特征表示的难题,循环神经网络(recurrentneural networks, RNNs)和卷积神经网络(convolutional neural networks, CNNs)被用于蛋白质二级结构预测并成功地改善了蛋白质结构预测精度。然而,目前基于神经网络模型的蛋白质二级结构预测并没有充分利用蛋白质序列的特征信息,因此8类蛋白质二级结构预测还有很大的改进空间。
本发明利用长短期记忆(Long Short-term Memory, LSTM)神经网络优点,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。
发明内容
针对现有技术中存在的不足,本发明在现有技术的基础上提出一种基于LSTM的蛋白质二级结构预测方法,利用LSTM捕捉长距离依赖关系的优势,结合卷积神经网络,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。具体来说,本发明具体技术方案包括:
S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;
S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;分别表示长度为的卷积核的权重项、偏置项;
S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示。
S4:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率。分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。
附图说明
图1 8类蛋白质二级结构预测模型。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的8类蛋白质二级结构预测模型。如图1所示,该方法可以包括以下步骤:
步骤101:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息。
步骤102:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;分别表示长度为的卷积核的权重项、偏置项。
本实施例中,可以通过3种卷积核卷积操作得到3种特征映射(feature map)分别是;然后将提取到的蛋白质序列内部氨基酸之间的局部近距离作用特征按连接得到蛋白质序列氨基酸的局部作用特征L。
步骤103:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示。
步骤104:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率。分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。
本实施例中,可以使用随机梯度下降算法来对模型进行训练,使用最小化交叉熵函数
作为训练的损失函数。其中,范数的正则化项,为模型所有的参数,表示二级结构类别,表示二级结构类别数8,为训练集样本数。
模型参数调节方法为
其中是学习率。此外,模型训练可以采用Dropout和正则化策略来避免过拟合程度,同时也采用Early stopping策略,根据验证集的性能决定模型训练的终止时刻,避免训练过程中发生过拟合。

Claims (1)

1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:
S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;
S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;分别表示长度为的卷积核的权重项、偏置项;
S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示;
S4:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率;分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。
CN201810271436.2A 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法 Expired - Fee Related CN108549794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271436.2A CN108549794B (zh) 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271436.2A CN108549794B (zh) 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法

Publications (2)

Publication Number Publication Date
CN108549794A true CN108549794A (zh) 2018-09-18
CN108549794B CN108549794B (zh) 2021-05-25

Family

ID=63517444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271436.2A Expired - Fee Related CN108549794B (zh) 2018-03-29 2018-03-29 一种蛋白质二级结构预测方法

Country Status (1)

Country Link
CN (1) CN108549794B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063389A (zh) * 2019-12-04 2020-04-24 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法
CN112185466A (zh) * 2020-09-24 2021-01-05 中国科学院计算技术研究所 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
CN112289370A (zh) * 2020-12-28 2021-01-29 武汉金开瑞生物工程有限公司 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN114026645A (zh) * 2019-05-03 2022-02-08 Eth苏黎世公司 会聚抗体特异性序列模式的鉴定
CN114613427A (zh) * 2022-03-15 2022-06-10 水木未来(北京)科技有限公司 蛋白质三维结构预测方法及装置、电子设备和存储介质
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN115240775A (zh) * 2022-07-18 2022-10-25 东北林业大学 基于stacking集成学习策略的Cas蛋白预测方法
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740646A (zh) * 2016-01-13 2016-07-06 湖南工业大学 一种基于bp神经网络的蛋白质二级结构预测方法
CN105930686A (zh) * 2016-07-05 2016-09-07 四川大学 一种基于深度神经网络的蛋白质二级结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740646A (zh) * 2016-01-13 2016-07-06 湖南工业大学 一种基于bp神经网络的蛋白质二级结构预测方法
CN105930686A (zh) * 2016-07-05 2016-09-07 四川大学 一种基于深度神经网络的蛋白质二级结构预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHEN LI等: "Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks", 《PROCEEDINGS OF THE TWENTY-FIFTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114026645A (zh) * 2019-05-03 2022-02-08 Eth苏黎世公司 会聚抗体特异性序列模式的鉴定
CN111063389A (zh) * 2019-12-04 2020-04-24 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法
CN112185466A (zh) * 2020-09-24 2021-01-05 中国科学院计算技术研究所 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
CN112185466B (zh) * 2020-09-24 2023-05-23 中国科学院计算技术研究所 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
CN112289370A (zh) * 2020-12-28 2021-01-29 武汉金开瑞生物工程有限公司 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置
CN112289370B (zh) * 2020-12-28 2021-03-23 武汉金开瑞生物工程有限公司 一种蛋白质结构预测方法及装置
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN114613427B (zh) * 2022-03-15 2023-01-31 水木未来(北京)科技有限公司 蛋白质三维结构预测方法及装置、电子设备和存储介质
CN114613427A (zh) * 2022-03-15 2022-06-10 水木未来(北京)科技有限公司 蛋白质三维结构预测方法及装置、电子设备和存储介质
CN115240775A (zh) * 2022-07-18 2022-10-25 东北林业大学 基于stacking集成学习策略的Cas蛋白预测方法
CN115240775B (zh) * 2022-07-18 2023-10-03 东北林业大学 基于stacking集成学习策略的Cas蛋白预测方法
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
US11908140B1 (en) 2022-10-09 2024-02-20 Zhejiang Lab Method and system for identifying protein domain based on protein three-dimensional structure image

Also Published As

Publication number Publication date
CN108549794B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108549794B (zh) 一种蛋白质二级结构预测方法
CN111553193B (zh) 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN109829057B (zh) 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN107092870B (zh) 一种高分辨率影像语义信息提取方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN112183742B (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN112883839B (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
Tscherepanow TopoART: A topology learning hierarchical ART network
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN112101467A (zh) 一种基于深度学习的高光谱图像分类方法
US20230076290A1 (en) Rounding mechanisms for post-training quantization
CN117611932B (zh) 基于双重伪标签细化和样本重加权的图像分类方法及系统
CN106503661A (zh) 基于烟花深度信念网络的人脸性别识别方法
CN109829414A (zh) 一种基于标签不确定性和人体组件模型的行人再识别方法
CN112364791A (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN112884147A (zh) 神经网络训练方法、图像处理方法、装置及电子设备
CN110852369A (zh) 联合3d/2d卷积网络和自适应光谱解混的高光谱图像分类方法
CN111027630A (zh) 一种基于卷积神经网络的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525