CN108549794A - 一种蛋白质二级结构预测方法 - Google Patents
一种蛋白质二级结构预测方法 Download PDFInfo
- Publication number
- CN108549794A CN108549794A CN201810271436.2A CN201810271436A CN108549794A CN 108549794 A CN108549794 A CN 108549794A CN 201810271436 A CN201810271436 A CN 201810271436A CN 108549794 A CN108549794 A CN 108549794A
- Authority
- CN
- China
- Prior art keywords
- amino acid
- protein
- protein sequence
- sequence
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000000455 protein structure prediction Methods 0.000 title abstract description 3
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 58
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 58
- 150000001413 amino acids Chemical class 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 9
- 230000015654 memory Effects 0.000 claims description 10
- 125000000539 amino acid group Chemical group 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 239000002253 acid Substances 0.000 claims description 4
- -1 Amino Chemical group 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 abstract 2
- 230000007787 long-term memory Effects 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 3
- 102100036789 Protein TBATA Human genes 0.000 description 1
- 101710118245 Protein TBATA Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种蛋白质二级结构预测方法。该方法首先用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征,其次用多卷积核的卷积神经网络提取蛋白质序列内部残基之间的近程相互作用和位置特征,然后用长短期记忆神经网络提取蛋白质序列内部残基之间的远程相互作用特征,最后基于提取的蛋白质深层结构特征进行蛋白质二级结构预测。
Description
技术领域
本发明属于生物信息学领域,涉及一种蛋白质二级结构的预测方法,更为具体地讲,涉及一种基于长短时记忆神经网络的蛋白质二级结构的预测方法。
背景技术
蛋白质是氨基酸脱水后的氨基酸残基顺序连接而成的长链,长链自发构成特征的蛋白质空间结构:一级结构、二级结构、三级结构和四级结构。蛋白质二级结构分为8类或3类,研究者早期主要关注蛋白质3类二级结构预测。相对于3类蛋白质二级结构预测,8类蛋白质二级结构预测可以提供更加全面的蛋白质结构类型信息,有效地促进人们对蛋白质结构与功能关系的了解。蛋白质二级结构预测方法通常采用基于统计分析和基于机器学习的预测方法。传统的结构预测方法虽然在二级结构预测中取得了丰硕的成绩,但蛋白质特征提取很大程度依赖人工设计。针对蛋白质序列特征表示的难题,循环神经网络(recurrentneural networks, RNNs)和卷积神经网络(convolutional neural networks, CNNs)被用于蛋白质二级结构预测并成功地改善了蛋白质结构预测精度。然而,目前基于神经网络模型的蛋白质二级结构预测并没有充分利用蛋白质序列的特征信息,因此8类蛋白质二级结构预测还有很大的改进空间。
本发明利用长短期记忆(Long Short-term Memory, LSTM)神经网络优点,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。
发明内容
针对现有技术中存在的不足,本发明在现有技术的基础上提出一种基于LSTM的蛋白质二级结构预测方法,利用LSTM捕捉长距离依赖关系的优势,结合卷积神经网络,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。具体来说,本发明具体技术方案包括:
S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;
S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;分别表示长度为的卷积核的权重项、偏置项;
S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中,分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示。
S4:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率。和分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。
附图说明
图1 8类蛋白质二级结构预测模型。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的8类蛋白质二级结构预测模型。如图1所示,该方法可以包括以下步骤:
步骤101:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息。
步骤102:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;、分别表示长度为的卷积核的权重项、偏置项。
本实施例中,可以通过3种卷积核卷积操作得到3种特征映射(feature map)分别是;然后将提取到的蛋白质序列内部氨基酸之间的局部近距离作用特征按连接得到蛋白质序列氨基酸的局部作用特征L。
步骤103:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中,分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示。
步骤104:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率。和分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。
本实施例中,可以使用随机梯度下降算法来对模型进行训练,使用最小化交叉熵函数
作为训练的损失函数。其中,是范数的正则化项,为模型所有的参数,表示二级结构类别,表示二级结构类别数8,为训练集样本数。
模型参数调节方法为
其中是学习率。此外,模型训练可以采用Dropout和正则化策略来避免过拟合程度,同时也采用Early stopping策略,根据验证集的性能决定模型训练的终止时刻,避免训练过程中发生过拟合。
Claims (1)
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:
S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;
S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;、分别表示长度为的卷积核的权重项、偏置项;
S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中,分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示;
S4:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率;和分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810271436.2A CN108549794B (zh) | 2018-03-29 | 2018-03-29 | 一种蛋白质二级结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810271436.2A CN108549794B (zh) | 2018-03-29 | 2018-03-29 | 一种蛋白质二级结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549794A true CN108549794A (zh) | 2018-09-18 |
CN108549794B CN108549794B (zh) | 2021-05-25 |
Family
ID=63517444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810271436.2A Expired - Fee Related CN108549794B (zh) | 2018-03-29 | 2018-03-29 | 一种蛋白质二级结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108549794B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063389A (zh) * | 2019-12-04 | 2020-04-24 | 浙江工业大学 | 一种基于深度卷积神经网络的配体绑定残基预测方法 |
CN112185466A (zh) * | 2020-09-24 | 2021-01-05 | 中国科学院计算技术研究所 | 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 |
CN112289370A (zh) * | 2020-12-28 | 2021-01-29 | 武汉金开瑞生物工程有限公司 | 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置 |
CN114026645A (zh) * | 2019-05-03 | 2022-02-08 | Eth苏黎世公司 | 会聚抗体特异性序列模式的鉴定 |
CN114613427A (zh) * | 2022-03-15 | 2022-06-10 | 水木未来(北京)科技有限公司 | 蛋白质三维结构预测方法及装置、电子设备和存储介质 |
CN114743591A (zh) * | 2022-03-14 | 2022-07-12 | 中国科学院深圳理工大学(筹) | 一种mhc可结合肽链的识别方法、装置及终端设备 |
CN115240775A (zh) * | 2022-07-18 | 2022-10-25 | 东北林业大学 | 基于stacking集成学习策略的Cas蛋白预测方法 |
CN115312119A (zh) * | 2022-10-09 | 2022-11-08 | 之江实验室 | 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740646A (zh) * | 2016-01-13 | 2016-07-06 | 湖南工业大学 | 一种基于bp神经网络的蛋白质二级结构预测方法 |
CN105930686A (zh) * | 2016-07-05 | 2016-09-07 | 四川大学 | 一种基于深度神经网络的蛋白质二级结构预测方法 |
-
2018
- 2018-03-29 CN CN201810271436.2A patent/CN108549794B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740646A (zh) * | 2016-01-13 | 2016-07-06 | 湖南工业大学 | 一种基于bp神经网络的蛋白质二级结构预测方法 |
CN105930686A (zh) * | 2016-07-05 | 2016-09-07 | 四川大学 | 一种基于深度神经网络的蛋白质二级结构预测方法 |
Non-Patent Citations (1)
Title |
---|
ZHEN LI等: "Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks", 《PROCEEDINGS OF THE TWENTY-FIFTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114026645A (zh) * | 2019-05-03 | 2022-02-08 | Eth苏黎世公司 | 会聚抗体特异性序列模式的鉴定 |
CN111063389A (zh) * | 2019-12-04 | 2020-04-24 | 浙江工业大学 | 一种基于深度卷积神经网络的配体绑定残基预测方法 |
CN112185466A (zh) * | 2020-09-24 | 2021-01-05 | 中国科学院计算技术研究所 | 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 |
CN112185466B (zh) * | 2020-09-24 | 2023-05-23 | 中国科学院计算技术研究所 | 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 |
CN112289370A (zh) * | 2020-12-28 | 2021-01-29 | 武汉金开瑞生物工程有限公司 | 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置 |
CN112289370B (zh) * | 2020-12-28 | 2021-03-23 | 武汉金开瑞生物工程有限公司 | 一种蛋白质结构预测方法及装置 |
CN114743591A (zh) * | 2022-03-14 | 2022-07-12 | 中国科学院深圳理工大学(筹) | 一种mhc可结合肽链的识别方法、装置及终端设备 |
CN114613427B (zh) * | 2022-03-15 | 2023-01-31 | 水木未来(北京)科技有限公司 | 蛋白质三维结构预测方法及装置、电子设备和存储介质 |
CN114613427A (zh) * | 2022-03-15 | 2022-06-10 | 水木未来(北京)科技有限公司 | 蛋白质三维结构预测方法及装置、电子设备和存储介质 |
CN115240775A (zh) * | 2022-07-18 | 2022-10-25 | 东北林业大学 | 基于stacking集成学习策略的Cas蛋白预测方法 |
CN115240775B (zh) * | 2022-07-18 | 2023-10-03 | 东北林业大学 | 基于stacking集成学习策略的Cas蛋白预测方法 |
CN115312119A (zh) * | 2022-10-09 | 2022-11-08 | 之江实验室 | 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统 |
US11908140B1 (en) | 2022-10-09 | 2024-02-20 | Zhejiang Lab | Method and system for identifying protein domain based on protein three-dimensional structure image |
Also Published As
Publication number | Publication date |
---|---|
CN108549794B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549794B (zh) | 一种蛋白质二级结构预测方法 | |
CN111553193B (zh) | 一种基于轻量级深层神经网络的视觉slam闭环检测方法 | |
CN109829057B (zh) | 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 | |
CN107092870B (zh) | 一种高分辨率影像语义信息提取方法 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN110322445B (zh) | 基于最大化预测和标签间相关性损失函数的语义分割方法 | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN112183742B (zh) | 基于渐进式量化和Hessian信息的神经网络混合量化方法 | |
CN112883839B (zh) | 基于自适应样本集构造与深度学习的遥感影像解译方法 | |
CN110619059B (zh) | 一种基于迁移学习的建筑物标定方法 | |
CN110287777B (zh) | 一种自然场景下的金丝猴躯体分割算法 | |
Tscherepanow | TopoART: A topology learning hierarchical ART network | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN112101467A (zh) | 一种基于深度学习的高光谱图像分类方法 | |
US20230076290A1 (en) | Rounding mechanisms for post-training quantization | |
CN117611932B (zh) | 基于双重伪标签细化和样本重加权的图像分类方法及系统 | |
CN106503661A (zh) | 基于烟花深度信念网络的人脸性别识别方法 | |
CN109829414A (zh) | 一种基于标签不确定性和人体组件模型的行人再识别方法 | |
CN112364791A (zh) | 一种基于生成对抗网络的行人重识别方法和系统 | |
CN112884147A (zh) | 神经网络训练方法、图像处理方法、装置及电子设备 | |
CN110852369A (zh) | 联合3d/2d卷积网络和自适应光谱解混的高光谱图像分类方法 | |
CN111027630A (zh) | 一种基于卷积神经网络的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210525 |