CN112365921B - 一种基于长短时记忆网络的蛋白质二级结构预测方法 - Google Patents

一种基于长短时记忆网络的蛋白质二级结构预测方法 Download PDF

Info

Publication number
CN112365921B
CN112365921B CN202011285274.1A CN202011285274A CN112365921B CN 112365921 B CN112365921 B CN 112365921B CN 202011285274 A CN202011285274 A CN 202011285274A CN 112365921 B CN112365921 B CN 112365921B
Authority
CN
China
Prior art keywords
secondary structure
protein
residue
label
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011285274.1A
Other languages
English (en)
Other versions
CN112365921A (zh
Inventor
胡俊
曾文武
贾宁欣
董世建
殷文杰
董明
张贵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhaoji Biotechnology Co ltd
Shenzhen Xinrui Gene Technology Co ltd
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011285274.1A priority Critical patent/CN112365921B/zh
Publication of CN112365921A publication Critical patent/CN112365921A/zh
Application granted granted Critical
Publication of CN112365921B publication Critical patent/CN112365921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于长短时记忆网络的蛋白质二级结构预测方法,首先,根据输入残基数为L的待进行二级结构预测的蛋白质序列信息,分别使用HHblits和PSI‑BLAST程序获取特征矩阵PSFM和PSSM;然后,将以上两个矩阵组合为一个特征矩阵F并将其转化为特征张量;其次,我们将蛋白质序列处理成残基样本;再次,搭建长短期记忆网络和条件随机场模型,利用已知二级结构的蛋白质序列构建数据集并训练所搭建的网络,最后,将待进行二级结构预测的蛋白质序列的残基样本输入到训练的模型中,得到序列的二级结构。本发明提供一种计算代价低、划分精度高的一种基于长短时记忆网络的蛋白质二级结构预测方法。

Description

一种基于长短时记忆网络的蛋白质二级结构预测方法
技术领域
本发明涉及生物信息学、模式识别与计算机应用领域,具体而言涉及一种基于长短时记忆网络的蛋白质二级结构预测方法。
背景技术
蛋白质是生命活动的主要承担者,蛋白质具有多种多样的功能,而蛋白质的功能由其结构决定。由于基因工程的影响带来的大量序列信息,使得从氨基酸序列预测蛋白质结构的方法兴起。蛋白质二级结构的预测有助于对蛋白质三级结构以及结构域的研究。因此,精确地进行蛋白质二级结构预测,有助于蛋白质功能的研究及药物靶蛋白的设计,具有十分重要的意义。
目前,已有很多用于预测蛋白质二级结构的方法被提出:如:PSIPRED(Jones DT.Protein secondary structure prediction based on position-specific scoringmatrices[J].Journal of molecular biology,1999,292(2):195-202.即:Jones D T等.基于位置特异性评分矩阵的二级结构预测[J].分子生物学杂志,1999,292(2):195-202)、RAPTORX(Wang S,Peng J,Ma J,et al.Protein secondary structure prediction usingdeep convolutional neural fields[J].2015.即:Wang,S等.基于深度卷积神经网络的蛋白质二级结构预测[J].2015)、SPIDER(Heffernan R,Yang Y,Paliwal K,et al.Capturingnon-local interactions by long short-term memory bidirectional recurrentneural networks for improving prediction of protein secondary structure,backbone angles,contact numbers and solvent accessibility[J].Bioinformatics,2017,33(18):2842-2849.即:Heffernan R等.通过长短时记忆递归神经网络捕获非局部相互作用改善蛋白质二级结构、主链角、接触数和溶剂可及性的预测[J].生物信息学,2017,33(18):2842-2849)、PSRSM(Ma Y,Liu Y,Cheng J.Protein secondary structureprediction based on data partition and semi-random subspace method[J].Scientific reports,2018,8(1):1-10.即:Ma Y等.基于数据划分和半随机子空间方法的蛋白质二级结构预测[J].科学报,2018,8(1):1-10)。尽管已有的方法可以用于预测蛋白质二级结构,但是在计算代价、预测准确度方面,距离实际应用的要求还有很大差距,迫切地需要改进。
发明内容
为了克服现有蛋白质二级结构预测方法在计算代价、预测精确度方面的不足,本发明提出一种计算代价低、划分精确性高的基于长短时记忆网络的蛋白质二级结构预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于长短时记忆网络的蛋白质二级结构预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入一个残基数为L的待进行二级结构预测的蛋白质序列信息,记作P;
2)对任意给定的一条残基个数为Lx蛋白质序列信息,记作Sx,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)工具搜索蛋白质序列数据库Uniclust90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)获取一个大小为M×L的多序列联配信息,记作
Figure GDA0003512422830000021
其中
Figure GDA0003512422830000022
表示MSA中的第i条序列联配信息,N为MSA中多序列联配信息总数目,每条序列联配信息均含有Lx个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;
3)对步骤2)得到Sx的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作PSFM,
Figure GDA0003512422830000023
其中
Figure GDA0003512422830000024
Figure GDA0003512422830000025
表示
Figure GDA0003512422830000026
中的第l个元素,当
Figure GDA0003512422830000027
与Rr为相同元素类型时,
Figure GDA0003512422830000028
否则
Figure GDA0003512422830000029
其中x为PSFM中对应位置上的元素;
4)对Sx使用PSI-BLAST工具获取一个大小为Lx×20的位置特异性打分矩阵,记作PSSM;
5)将步骤3)至4)中获取的特征矩阵PSFM、PSSM组合为一个Lx×41的特征矩阵,记作F;
6)蛋白质序列Sx中任意残基对应的样本表示为(Fi,labeli),i=1,2,...,Lx,Fi和labeli分别表示第i个残基的特征向量和二级结构标签信息,标签为蛋白质残基二级结构的三种状态,用0表示状态为helix(螺旋)的残基,用1表示状态为strand(折叠)的残基,用2表示状态为coil(卷曲)的残基;
7)取11个残基样本作为输入特征,以11为步长在(Fi,labeli)中滑动,每次滑动得到一个大小为11×41特征矩阵和一个长度为11的标签向量,记作O和Lab;
8)从PDB库中收集已知二级结构标签的蛋白质序列,记作D={Si,Yi},i=1,2,...,Q,Si表示第i条蛋白质序列,Yi表示Si的标签信息,Q是蛋白质序列的总数;
9)根据步骤2)至6),生成所有Si的特征矩阵,记作feai,i=1,2,...,Q,与对应标签Yi组成样本集合Ω={feai,Yi},根据步骤7)生成网络输入特征矩阵,记作
Figure GDA0003512422830000031
Li/11表示蛋白质长度对11取整;
10)构建四层LSTM网络,前三层为双向层,第四层为单向层,前一层的输出作为后一层的输入,网络的输出记作X,X=(x1,x2,xi,…,x11),xi为第i个残基的标签概率分布;
11)构建大小为3×3待训练的状态转移矩阵,记作W,Wi,j表示标签i转移到标签j的得分,i,j=0,1,2;
12)构建条件随机场模型,记作CRF,模型表示为:
Figure GDA0003512422830000032
其中,p(y|x)表示在输入条件为x的情况下,模型预测的标签序列为y的概率;
Figure GDA0003512422830000033
xi为步骤10)中输出矩阵X的第i个向量,yi表示第i个残基的二级结构标签,W为步骤11)中的状态转移矩阵;
13)将步骤10)-12)搭建的LSTM网络和条件随机场模型进行组合,记作LSTM-CRF,将I中的残基样本输入模型中,用极大似然法进行网络的训练,该模型的对数似然函数为
Figure GDA0003512422830000034
使用负对数似然函数作为损失函数:loss=-logp(y|x),使用随机梯度下降的方法进行优化;
14)将蛋白质P经过步骤2)-7)生成对应残基的特征向量,并输入到步骤13)训练的模型中,使用维特比算法进行预测,找出得分最高的路径,即为P序列残基二级结构的预测结果。
本发明的技术构思为:首先,根据输入残基数为L的待进行二级结构预测的蛋白质序列信息,分别使用HHblits和PSI-BLAST程序获取特征矩阵PSFM和PSSM;然后,将以上两个矩阵组合为一个特征矩阵F;其次,我们将蛋白质序列处理成残基样本;再次,搭建长短时记忆网络和条件随机场模型,利用已知二级结构的蛋白质序列构建数据集并训练所搭建的网络,最后,将待进行二级结构预测的蛋白质序列的残基样本输入到训练的模型中,得到序列的二级结构。本发明提供一种计算代价低、预测精度高的一种基于长短时记忆网络的蛋白质二级结构预测方法。
本发明的有益效果表现在:一方面,从蛋白质序列中出发,提取残基的进化信息,为进一步提升蛋白质二级结构预测的精确度做好了准备;另一方面,长短时记忆网络和条件随机场模型相结合,进一步提高了蛋白质二级结构预测的效率与精确性。
附图说明
图1为一种基于长短时记忆网络的蛋白质二级结构预测方法的示意图。
图2为使用一种基于长短时记忆网络的蛋白质二级结构预测方法对蛋白质1a0aB进行二级结构预测的结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于长短时记忆网络的蛋白质二级结构预测方法,包括以下步骤:
1)输入一个残基数为L的待进行二级结构预测的蛋白质序列信息,记作P;
2)对任意给定的一条残基个数为Lx蛋白质序列信息,记作Sx,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)工具搜索蛋白质序列数据库Uniclust90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)获取一个大小为M×L的多序列联配信息,记作
Figure GDA0003512422830000041
其中
Figure GDA0003512422830000042
表示MSA中的第i条序列联配信息,N为MSA中多序列联配信息总数目,每条序列联配信息均含有Lx个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸(“丙氨酸”,“精氨酸”,“天冬酰胺”,“天冬氨酸”,“半胱氨酸”,“谷氨酰胺”,“谷氨酸”,“甘氨酸”,“组氨酸”,“异亮氨酸”,“亮氨酸”,“赖氨酸”,“甲硫氨酸”,“苯丙氨酸”,“脯氨酸”,“丝氨酸”,“苏氨酸”,“色氨酸”,“酪氨酸”,“缬氨酸”)和补位空格元素组成的;
3)对步骤2)得到Sx的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作PSFM,
Figure GDA0003512422830000051
其中
Figure GDA0003512422830000052
Figure GDA0003512422830000053
表示
Figure GDA0003512422830000054
中的第l个元素,当
Figure GDA0003512422830000055
与Rr为相同元素类型时,
Figure GDA0003512422830000056
否则
Figure GDA0003512422830000057
其中x为PSFM中对应位置上的元素;
4)对Sx使用PSI-BLAST工具获取一个大小为Lx×20的位置特异性打分矩阵,记作PSSM;
5)将步骤3)至4)中获取的特征矩阵PSFM、PSSM组合为一个Lx×41的特征矩阵,记作F;
6)蛋白质序列Sx中任意残基对应的样本表示为(Fi,labeli),i=1,2,...,Lx,Fi和labeli分别表示第i个残基的特征向量和二级结构标签信息,标签为蛋白质残基二级结构的三种状态,用0表示状态为helix(螺旋)的残基,用1表示状态为strand(折叠)的残基,用2表示状态为coil(卷曲)的残基;
7)取11个残基样本作为输入特征,以11为步长在(Fi,labeli)中滑动,每次滑动得到一个大小为11×41特征矩阵和一个长度为11的标签向量,记作O和Lab;
8)从PDB库中收集已知二级结构标签的蛋白质序列,记作D={Si,Yi},i=1,2,...,Q,Si表示第i条蛋白质序列,Yi表示Si的标签信息,Q是蛋白质序列的总数;
9)根据步骤2)至6),生成所有Si的特征矩阵,记作feai,i=1,2,...,Q,与对应标签Yi组成样本集合Ω={feai,Yi},根据步骤7)生成网络输入特征矩阵,记作
Figure GDA0003512422830000058
Li/11表示蛋白质长度对11取整;
10)构建四层LSTM网络,前三层为双向层,第四层为单向层,前一层的输出作为后一层的输入,网络的输出记作X,X=(x1,x2,xi,…,x11),xi为第i个残基的标签概率分布;
11)构建大小为3×3待训练的状态转移矩阵,记作W,Wi,j表示标签i转移到标签j的得分,i,j=0,1,2;
12)构建条件随机场模型,记作CRF,模型表示为:
Figure GDA0003512422830000061
其中,p(y|x)表示在输入条件为x的情况下,模型预测的标签序列为y的概率;
Figure GDA0003512422830000062
xi为步骤10)中输出矩阵X的第i个向量,yi表示第i个残基的二级结构标签,W为步骤11)中的状态转移矩阵;
13)将步骤10)-12)搭建的LSTM网络和条件随机场模型进行组合,记作LSTM-CRF,将I中的残基样本输入模型中,用极大似然法进行网络的训练,该模型的对数似然函数为
Figure GDA0003512422830000063
使用负对数似然函数作为损失函数:loss=-logp(y|x),使用随机梯度下降的方法进行优化;
14)将蛋白质P经过步骤2)-7)生成对应残基的特征向量,并输入到步骤13)训练的模型中,使用维特比算法进行预测,找出得分最高的路径,即为P序列残基二级结构的预测结果。
本实施例以蛋白质1a0aB的二级结构预测为实施例,一种基于长短时记忆网络的蛋白质二级结构预测方法,包括以下步骤:
1)输入一个残基数为63的待进行二级结构预测的蛋白质序列1a0aB,记作P;
2)对任意给定的一条残基个数为Lx蛋白质序列信息,记作Sx,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)工具搜索蛋白质序列数据库Uniclust90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/)获取一个大小为M×L的多序列联配信息,记作
Figure GDA0003512422830000064
其中
Figure GDA0003512422830000065
表示MSA中的第i条序列联配信息,N为MSA中多序列联配信息总数目,每条序列联配信息均含有Lx个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸(“丙氨酸”,“精氨酸”,“天冬酰胺”,“天冬氨酸”,“半胱氨酸”,“谷氨酰胺”,“谷氨酸”,“甘氨酸”,“组氨酸”,“异亮氨酸”,“亮氨酸”,“赖氨酸”,“甲硫氨酸”,“苯丙氨酸”,“脯氨酸”,“丝氨酸”,“苏氨酸”,“色氨酸”,“酪氨酸”,“缬氨酸”)和补位空格元素组成的;
3)对步骤2)得到Sx的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作PSFM,
Figure GDA0003512422830000071
其中
Figure GDA0003512422830000072
Figure GDA0003512422830000073
表示
Figure GDA0003512422830000074
中的第l个元素,当
Figure GDA0003512422830000075
与Rr为相同元素类型时,
Figure GDA0003512422830000076
否则
Figure GDA0003512422830000077
其中x为PSFM中对应位置上的元素;
4)对Sx使用PSI-BLAST工具获取一个大小为63×20的位置特异性打分矩阵,记作PSSM;
5)将步骤3)至4)中获取的特征矩阵PSFM、PSSM组合为一个63×41的特征矩阵,记作F;
6)蛋白质序列Sx中任意残基对应的样本表示为(Fi,labeli),i=1,2,...,63,Fi和labeli分别表示第i个残基的特征向量和二级结构标签信息,标签为蛋白质残基二级结构的三种状态,用0表示状态为helix(螺旋)的残基,用1表示状态为strand(折叠)的残基,用2表示状态为coil(卷曲)的残基;
7)取11个残基样本作为输入特征,以11为步长在(Fi,labeli)中滑动,每次滑动得到一个大小为11×41特征矩阵和一个长度为11的标签向量,记作O和Lab;
8)从PDB库中收集已知二级结构标签的蛋白质序列,记作D={Si,Yi},i=1,2,...,Q,Si表示第i条蛋白质序列,Yi表示Si的标签信息,Q是蛋白质序列的总数;
9)根据步骤2)至6),生成所有Si的特征矩阵,记作feai,i=1,2,...,Q,与对应标签Yi组成样本集合Ω={feai,Yi},根据步骤7)生成网络输入特征矩阵,记作
Figure GDA0003512422830000078
Li/11表示蛋白质长度对11取整;
10)构建四层LSTM网络,前三层为双向层,第四层为单向层,前一层的输出作为后一层的输入,网络的输出记作X,X=(x1,x2,xi,…,x11),xi为第i个残基的标签概率分布;
11)构建大小为3×3待训练的状态转移矩阵,记作W,Wi,j表示标签i转移到标签j的得分,i,j=0,1,2;
12)构建条件随机场模型,记作CRF,模型表示为:
Figure GDA0003512422830000081
其中,p(y|x)表示在输入条件为x的情况下,模型预测的标签序列为y的概率;
Figure GDA0003512422830000082
xi为步骤10)中输出矩阵X的第i个向量,yi表示第i个残基的二级结构标签,W为步骤11)中的状态转移矩阵,m表示每个训练样本的残基总数;
13)将步骤10)-12)搭建的LSTM网络和条件随机场模型进行组合,记作LSTM-CRF,将I中的残基样本输入模型中,用极大似然法进行网络的训练,该模型的对数似然函数为
Figure GDA0003512422830000083
使用负对数似然函数作为损失函数:loss=-logp(y|x),使用随机梯度下降的方法进行优化;
14)将蛋白质P经过步骤2)-7)生成对应残基的特征向量,并输入到步骤13)训练好的模型中,使用维特比算法进行预测,找出得分最高的路径,即为P序列残基二级结构的预测结果。
以蛋白质1a0aB的二级结构预测为实施例,运用以上方法划分得到蛋白质1a0aB的二级结构如图2所示。
以上说明是本发明以蛋白质1a0aB的二级结构预测为实例所得出的划分结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

Claims (1)

1.一种基于长短时记忆网络的蛋白质二级结构预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入一个残基数为L的待进行二级结构预测的蛋白质序列信息,记作S;
2)对任意给定的一条残基个数为Lx蛋白质序列信息,记作Sx,使用HHblits工具搜索蛋白质序列数据库Uniclust90获取一个大小为M×L的多序列联配信息,记作
Figure FDA0003512422820000011
其中
Figure FDA0003512422820000012
表示MSA中的第i条序列联配信息,N为MSA中多序列联配信息总数目,每条序列联配信息均含有Lx个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;
3)对步骤2)得到Sx的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作PSFM,
Figure FDA0003512422820000013
其中
Figure FDA0003512422820000014
Figure FDA0003512422820000015
表示
Figure FDA0003512422820000016
中的第l个元素,当
Figure FDA0003512422820000017
与Rr为相同元素类型时,
Figure FDA0003512422820000018
否则
Figure FDA0003512422820000019
其中x为PSFM中对应位置上的元素;
4)对Sx使用PSI-BLAST工具获取一个大小为Lx×20的位置特异性打分矩阵,记作PSSM;
5)将步骤3)至4)中获取的特征矩阵PSFM、PSSM组合为一个Lx×41的特征矩阵,记作F;
6)蛋白质序列Sx中任意残基对应的样本表示为(Fi,labeli),i=1,2,...,Lx,Fi和labeli分别表示第i个残基的特征向量和二级结构标签信息,标签为蛋白质残基二级结构的三种状态,用0表示状态为helix(螺旋)的残基,用1表示状态为strand(折叠)的残基,用2表示状态为coil(卷曲)的残基;
7)取11个残基样本作为输入特征,以11为步长在(Fi,labeli)中滑动,每次滑动得到一个大小为11×41特征矩阵和一个长度为11的标签向量,记作O和Lab;
8)从PDB库中收集已知二级结构标签的蛋白质序列,记作D={Si,Yi},i=1,2,...,Q,Si表示第i条蛋白质序列,Yi表示Si的标签信息,Q是蛋白质序列的总数;
9)根据步骤2)至6),生成所有Si的特征矩阵,记作feai,i=1,2,...,Q,与对应标签Yi组成样本集合Ω={feai,Yi},根据步骤7)生成网络输入特征矩阵,记作
Figure FDA0003512422820000021
Li/11表示蛋白质长度对11取整;
10)构建四层LSTM网络,前三层为双向层,第四层为单向层,前一层的输出作为后一层的输入,网络的输出记作X,X=(x1,x2,xi,…,x11),xi为第i个残基的标签概率分布;
11)构建大小为3×3待训练的状态转移矩阵,记作W,Wi,j表示标签i转移到标签j的得分,i,j=0,1,2;
12)构建条件随机场模型,记作CRF,模型表示为:
Figure FDA0003512422820000022
其中,p(y|x)表示在输入条件为x的情况下,模型预测的标签序列为y的概率;
Figure FDA0003512422820000023
xi为步骤10)中输出矩阵X的第i个向量,yi表示第i个残基的二级结构标签,W为步骤11)中的状态转移矩阵;
13)将步骤10)-12)搭建的LSTM网络和条件随机场模型进行组合,记作LSTM-CRF,将I中的残基样本输入模型中,用极大似然法进行网络的训练,该模型的对数似然函数为
Figure FDA0003512422820000024
使用负对数似然函数作为损失函数:loss=-logp(y|x),使用随机梯度下降的方法进行优化;
14)将蛋白质S经过步骤2)-7)生成对应残基的特征向量,并输入到步骤13)训练的模型中,使用维特比算法进行预测,找出得分最高的路径,即为S序列残基二级结构的预测结果。
CN202011285274.1A 2020-11-17 2020-11-17 一种基于长短时记忆网络的蛋白质二级结构预测方法 Active CN112365921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285274.1A CN112365921B (zh) 2020-11-17 2020-11-17 一种基于长短时记忆网络的蛋白质二级结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285274.1A CN112365921B (zh) 2020-11-17 2020-11-17 一种基于长短时记忆网络的蛋白质二级结构预测方法

Publications (2)

Publication Number Publication Date
CN112365921A CN112365921A (zh) 2021-02-12
CN112365921B true CN112365921B (zh) 2022-07-15

Family

ID=74515099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285274.1A Active CN112365921B (zh) 2020-11-17 2020-11-17 一种基于长短时记忆网络的蛋白质二级结构预测方法

Country Status (1)

Country Link
CN (1) CN112365921B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851192B (zh) * 2021-09-15 2023-06-30 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN113724780B (zh) * 2021-09-16 2023-10-13 上海交通大学 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951736A (zh) * 2017-03-14 2017-07-14 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098030A1 (en) * 2014-05-11 2017-04-06 Ofek - Eshkolot Research And Development Ltd System and method for generating detection of hidden relatedness between proteins via a protein connectivity network
CN110163243B (zh) * 2019-04-04 2021-04-06 浙江工业大学 基于接触图与模糊c均值聚类的蛋白质结构域划分方法
CN111063389B (zh) * 2019-12-04 2021-10-29 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951736A (zh) * 2017-03-14 2017-07-14 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network and Improved Data Sets";Xie, Z;《International Journal of Molecular Sciences》;20200111;全文 *
"基于卷积神经网络的蛋白质折叠类型最小特征提取";潘越;《南京大学学报(自然科学)》;20200930;全文 *
基于CNN与LSTM模型的蛋白质二级结构预测;王剑等;《生物信息学》;20180424(第02期);全文 *

Also Published As

Publication number Publication date
CN112365921A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112365921B (zh) 一种基于长短时记忆网络的蛋白质二级结构预测方法
Senior et al. Protein structure prediction using multiple deep neural networks in the 13th Critical Assessment of Protein Structure Prediction (CASP13)
US11573239B2 (en) Methods and systems for de novo peptide sequencing using deep learning
JP2022501696A (ja) 品質スコアの勾配を使用した反復的なタンパク質構造予測
CN109785901B (zh) 一种蛋白质功能预测方法及装置
Wang et al. DeepAc4C: a convolutional neural network model with hybrid features composed of physicochemical patterns and distributed representation information for identification of N4-acetylcytidine in mRNA
CN112085247A (zh) 一种基于深度学习的蛋白质残基接触预测方法
Eguchi et al. Multi-scale structural analysis of proteins by deep semantic segmentation
CN113361752B (zh) 一种基于多视角学习的蛋白质溶剂可及性预测方法
CN112085245B (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN109977286A (zh) 基于内容的信息检索方法
CN109346125A (zh) 一种快速精确的蛋白质绑定口袋结构对齐方法
Zhang et al. Two-stage distance feature-based optimization algorithm for de novo protein structure prediction
Antonelli et al. SUPERSMART: ecology and evolution in the era of big data
Nguyen et al. Deep networks and continuous distributed representation of protein sequences for protein quality assessment
CN112216345B (zh) 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法
Wang et al. Identification of Type VI effector proteins using a novel ensemble classifier
Zrimec et al. Gene expression is encoded in all parts of a co-evolving interacting gene regulatory structure
Liu et al. An overview of biological data generation using generative adversarial networks
CN114927165B (zh) 泛素化位点的识别方法、装置、系统和存储介质
Liu et al. Protein contact map prediction using multiple sequence alignment dropout and consistency learning for sequences with fewer homologs
Chen et al. MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training
Zhu et al. TripletGO: Integrating Transcript Expression Profiles with Protein Homology Inferences for High-Accuracy Gene Function Annotations
Guo et al. Prediction of Circular RNA-RBP Binding Sites Based on Multi-source Features and Cascade Forest
Subhashini et al. PREDICTING SUBCELLULAR LOCALIZATION OF PROTEINS WITH MULTIPLE SITES USING THRESHOLD ML-KNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231218

Address after: 518054, D1101, Building 4, Software Industry Base, No. 19, 17, and 18 Haitian 1st Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Xinrui Gene Technology Co.,Ltd.

Address before: 510075 No. n2248, floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Effective date of registration: 20231218

Address after: 510075 No. n2248, floor 3, Xingguang Yingjing, No. 117, Shuiyin Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU ZHAOJI BIOTECHNOLOGY CO.,LTD.

Address before: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18

Patentee before: JIANG University OF TECHNOLOGY