CN114596913A - 基于深度中心点模型的蛋白质折叠识别方法及系统 - Google Patents

基于深度中心点模型的蛋白质折叠识别方法及系统 Download PDF

Info

Publication number
CN114596913A
CN114596913A CN202210180117.7A CN202210180117A CN114596913A CN 114596913 A CN114596913 A CN 114596913A CN 202210180117 A CN202210180117 A CN 202210180117A CN 114596913 A CN114596913 A CN 114596913A
Authority
CN
China
Prior art keywords
protein
folding
vector
deep
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210180117.7A
Other languages
English (en)
Other versions
CN114596913B (zh
Inventor
杨伟
张蕾
郭悰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Huaqi Zhongxin Technology Development Co ltd
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202210180117.7A priority Critical patent/CN114596913B/zh
Publication of CN114596913A publication Critical patent/CN114596913A/zh
Application granted granted Critical
Publication of CN114596913B publication Critical patent/CN114596913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算生物学技术领域,公开一种基于深度中心点模型的蛋白质折叠识别方法及系统,该方法的目标是学习一个将每个蛋白质链映射为单位向量的深度嵌入网络,使得在嵌入空间中折叠类型相同的蛋白质链距离较近,折叠类型不同的蛋白质链距离较远。为此,本发明首先采用预训练的蛋白质语言模型将蛋白质的氨基酸序列表示成嵌入特征矩阵,然后通过同时最小化每个蛋白质链与其目标中心点的距离和最大化每个蛋白质链与其他非目标中心点的距离来学习深度嵌入网络,最后基于学习的深度嵌入网络进行蛋白质折叠类别的预测。总之,本发明通过采用深度嵌入学习技术能够精确地预测蛋白质的折叠类别。

Description

基于深度中心点模型的蛋白质折叠识别方法及系统
技术领域
本发明属于计算生物学技术领域,尤其涉及一种基于深度中心点模型的蛋白质折叠识别方法及系统。
背景技术
蛋白质是生命活动的主要承担者,其具有催化、信号传导、运输和分子识别等多种功能。特别地,蛋白质的功能是由其三维结构确定的。为了测定蛋白质的三维结构,常用的实验方法有冷冻电镜、X射线晶体衍射和核磁共振等。然而,这些实验方法不仅花费较多而且非常耗时,所以采用计算方法基于给定蛋白质的氨基酸序列预测其三级结构对理解蛋白质的功能是极其必要的。由于具有相同折叠类型的蛋白质通常具有相似的结构和功能,因此精确预测的蛋白质折叠可以显著提高基于模板的三维结构建模精度。
为了确定给定蛋白质的折叠类型,当前的主流方法有两类:基于分类的折叠识别和基于检索的折叠识别。前者把蛋白质折叠识别看作多类分类问题,代表的算法有:TAXFOLD、FP-Pred、和ProFold[Villegas-Morcillo,A.,et al.,Protein FoldRecognition from Sequences using Convolutional and Recurrent NeuralNetworks.IEEE/ACM Trans Comput Biol Bioinform,2020.]。这类方法通常包括两个阶段:特征抽取和分类器训练。然而其缺点是不能应用到训练集以外的折叠类别。目前已知的折叠类型有1000多个,并且随着越来越多的蛋白质结构数据被发布,会有更多的新折叠类型被发现。基于检索的折叠识别通过将查询蛋白质与已知结构的模板蛋白质集合进行比较,把最相似的蛋白质的折叠类型指派给查询蛋白。早期的方法主要通过序列到序列的比对和谱特征到谱特征的比对进行相似性检索。近来提出的方法主要采用深度学习技术将蛋白质映射到嵌入空间中,然后在嵌入空间中使用欧氏距离或余弦相似性距离进行相似性检索[Villegas-Morcillo,A.,V.Sanchez,and A.M.Gomez,FoldHSphere:deephyperspherical embeddings for protein fold recognition.BMC Bioinformatics,2021.22(1)]。特别地,基于检索的折叠识别方法能够自然地扩展到未见的折叠类别识别。
存在的基于检索的折叠识别方法主要采用通过多序列比对导出的谱特征进行折叠识别。特别地,谱特征的质量不仅显著依赖于蛋白质序列数据库中同源序列的数量,而且不能充分利用大规模蛋白质序列数据库的信息。
发明内容
本发明针对现有的通过多序列比对导出的谱特征进行折叠识别的方法中,谱特征的质量不仅显著依赖于蛋白质序列数据库中同源序列的数量,而且不能充分利用大规模蛋白质序列数据库的信息的问题,提出一种基于深度中心点模型的蛋白质折叠识别方法及系统。
为了实现上述目的,本发明采用以下技术方案:
本发明一方面提出一种基于深度中心点模型的蛋白质折叠识别方法,包括:
步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤2:采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤3:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
步骤4:确定训练深度嵌入网络的目标函数;
步骤5:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
步骤6:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,所述步骤1包括:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
进一步地,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
进一步地,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
进一步地,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
进一步地,软池化操作层的输出矩阵Y按如下公式进行计算:
Figure BDA0003520221370000031
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
进一步地,所述步骤4包括:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
Figure BDA0003520221370000032
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
进一步地,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
进一步地,所述步骤6包括:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
本发明另一方面提出一种基于深度中心点模型的蛋白质折叠识别系统,包括:
数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
目标函数得出模块,用于确定训练深度嵌入网络的目标函数;
网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,所述数据集确定模块具体用于:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
进一步地,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
进一步地,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
进一步地,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
进一步地,软池化操作层的输出矩阵Y按如下公式进行计算:
Figure BDA0003520221370000041
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
进一步地,所述目标函数得出模块具体用于:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
Figure BDA0003520221370000051
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
进一步地,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
进一步地,所述折叠类别识别模块具体用于:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
与现有技术相比,本发明具有的有益效果:
本发明基于嵌入特征学习蛋白质的深度嵌入表示。通过引入软池化层,本发明设计的深度嵌入网络能够在最大保持残基级特征信息的情况下将任意长度的蛋白质链映射为固定长度的单位向量。因此,本发明提出的折叠识别方法和系统能够精确地进行蛋白质折叠类别预测。
附图说明
图1为本发明实施例一种基于深度中心点模型的蛋白质折叠识别方法的基本流程图;
图2为本发明实施例设计的深度嵌入网络结构示意图;
图3为本发明实施例蛋白质折叠类别预测的流程图;
图4为本发明实施例一种基于深度中心点模型的蛋白质折叠识别系统架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于深度中心点模型的蛋白质折叠识别方法,包括:
步骤S101:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤S102:采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤S103:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
步骤S104:确定训练深度嵌入网络的目标函数;
步骤S105:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
步骤S106:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,步骤S101中,本发明采用广泛使用的LINDAHL数据集作为蛋白质折叠测试集。LINDAHL数据集是由Lindahl和Elofsson于2000年构造的,其包含976条蛋白质链,并且任意两条蛋白质链之间的序列一致性低于40%。此外,本发明基于数据库SCOPe 2.06(https://scop.berkeley.edu/statistics/ver=2.06)构造蛋白质折叠训练集和验证集。特别地,为了保证构造的数据集独立于LINDAHL数据集,本发明采用了三个软件包CD-HIT-2D、MMseqs2和BLAST对SCOPe 2.06进行过滤,以便删除SCOPe 2.06中与LINDAHL数据集中蛋白质链相似的蛋白质链。最后的数据集包含16133个蛋白质链,共有1154个折叠类别。特别地,我们选择15000个蛋白质链作为训练集,剩余的1133个蛋白质链作为验证集。
进一步地,步骤S102中,为了预测给定蛋白质链的折叠类型,需要把每个蛋白质链中的氨基酸残基表示成数值向量。当前主流的折叠识别方法主要使用PSSM谱矩阵来表示蛋白质链。然而生成PSSM谱矩阵需要对大规模蛋白质序列数据库UniRef90或UniRef50执行耗时的多序列比对操作,并且PSSM谱特征的质量在很大程度上依赖于序列数据库中存在的与给定查询蛋白质同源的蛋白质序列数量。为此,本发明采用预训练的蛋白质语言模型生成的嵌入矩阵来表示每个蛋白质链。特别地,当前具有代表性的蛋白质语言模型有ESM-1b、ProtBert、ProtBert-BFD、ProtT5-XXL-BFD和ProtT5-XL-U50等。这些模型都是基于Transformer网络架构对大规模蛋白质序列数据库进行自监督学习获得的。通过自监督学习,蛋白质语言模型的输出表示已经包含了氨基酸残基的生物属性信息。考虑到ProtT5-XL-U50对下游任务能提供较好的支持,本发明采用其作为生成嵌入矩阵的蛋白质语言模型。对于一个长度为L的蛋白质链,ProtT5-XL-U50输出的嵌入特征矩阵大小为L×1024。
进一步地,步骤S103中,本发明的目标是学习一个将蛋白质链映射到嵌入空间的非线性映射,使得在嵌入空间中折叠类别相同的蛋白质链的距离较近,而折叠类别不同的蛋白质链的距离较远。为此,本发明设计了一个深度嵌入网络执行非线性映射。图2给出了深度嵌入网络的架构,其由两个卷积块、一个软池化操作层(Soft pooling)、两个全链接层(FC)、一个Dropout层和一个归一化层(Normalize)组成。特别地,每个卷积块包含一个一维卷积层(Conv1D)、一个批处理归一化层(BN)和一个Hardswish激活函数。卷积层的卷积核大小为7,输出通道数为1024。第一个全连接层后面跟着执行了一个非线性激活函数ReLU。在两个全连接层之间引入Dropout的目的是为了避免嵌入网络过拟合训练数据。
嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。注意,不同蛋白质链的长度通常是不同的。在构造mini-batch时,需要对较短蛋白质链的嵌入特征矩阵进行零填充,为此本发明引入二元矩阵M来指示填充位置。特别地,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,M中元素Mij=0表示第j个残基不存在并且该位置在嵌入矩阵中对应的向量是填充的全零向量。注意,二元矩阵M只用于嵌入网络的软池化操作层。本发明在嵌入网络中引入软池化操作层的目的是在将每个蛋白质链表示成一个向量的情况下保留输入特征映射更多的信息。假定第二个卷积块输出的特征张量为A,则软池化操作层的输出矩阵Y按如下公式进行计算:
Figure BDA0003520221370000081
从公式中可以看出,输出矩阵Y主要由张量A中较大的响应值决定,并且张量A中填充位置对应的响应值对矩阵Y的计算没有任何影响。
此外,嵌入网络的最后一层是归一化层,其目的是将每个蛋白质链的嵌入向量转换为d维的单位向量,这样所有蛋白质链都被映射到一个单位超球上。假定第i个蛋白质链在全连接层FC2的输出矩阵中对应的向量为a,则归一化层将其转换为
Figure BDA0003520221370000082
其中ε是为了避免出现除以0而设置的较小正数。在本发明中,ε被设置为0.00001。
进一步地,步骤S104中,为了构造指导网络参数学习的目标函数,本发明在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量。令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量。学习的目标是使得每个蛋白质链与其目标中心点向量保持较近的距离,而与其他非目标中心点向量保持一定的间隔。为此,给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,本发明将目标函数定义为如下的形式:
Figure BDA0003520221370000083
其中dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
需要注意的是所有中心点向量在训练开始之前都被随机初始化为单位向量,并在网络的训练过程中与网络参数同时进行更新。
进一步地,步骤S105中,为了基于训练集学习深度嵌入网络参数,本发明采用学习率为0.001的Adam优化器最小化步骤S104中的目标函数。此外,mini-batch的大小为32,权值衰减参数weight_decay为0.0005,嵌入空间的维度d为512,dropout的比率为0.2,间隔参数m设置为0.1。当目标函数的值在连续5个epoch中不再下降时就停止训练。
进一步地,步骤S106中,为了对给定蛋白质链进行预测,本发明首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量。特别地,我们将这些嵌入向量及其对应的折叠类型构造的集合称为查询模板集。然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行类型指派。图3给出了基于训练好的深度嵌入网络进行蛋白质折叠类别识别的示意图。
在上述实施例的基础上,如图4所示,本发明还提出一种基于深度中心点模型的蛋白质折叠识别系统,包括:
数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
目标函数得出模块,用于确定训练深度嵌入网络的目标函数;
网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,所述数据集确定模块具体用于:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
进一步地,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
进一步地,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
进一步地,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
进一步地,软池化操作层的输出矩阵Y按如下公式进行计算:
Figure BDA0003520221370000101
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
进一步地,所述目标函数得出模块具体用于:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
Figure BDA0003520221370000102
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
进一步地,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
进一步地,所述折叠类别识别模块具体用于:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
综上,本发明基于嵌入特征学习蛋白质的深度嵌入表示。通过引入软池化层,本发明设计的深度嵌入网络能够在最大保持残基级特征信息的情况下将任意长度的蛋白质链映射为固定长度的单位向量。因此,本发明提出的折叠识别方法和系统能够精确地进行蛋白质折叠类别预测。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于深度中心点模型的蛋白质折叠识别方法,其特征在于,包括:
步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤2:采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤3:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
步骤4:确定训练深度嵌入网络的目标函数;
步骤5:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
步骤6:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
2.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤1包括:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
3.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
4.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
5.根据权利要求4所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
6.根据权利要求5所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,软池化操作层的输出矩阵Y按如下公式进行计算:
Figure FDA0003520221360000021
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
7.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤4包括:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
Figure FDA0003520221360000022
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
8.根据权利要求7所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
9.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤6包括:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
10.一种基于深度中心点模型的蛋白质折叠识别系统,其特征在于,包括:
数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
目标函数得出模块,用于确定训练深度嵌入网络的目标函数;
网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
CN202210180117.7A 2022-02-25 2022-02-25 基于深度中心点模型的蛋白质折叠识别方法及系统 Active CN114596913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210180117.7A CN114596913B (zh) 2022-02-25 2022-02-25 基于深度中心点模型的蛋白质折叠识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210180117.7A CN114596913B (zh) 2022-02-25 2022-02-25 基于深度中心点模型的蛋白质折叠识别方法及系统

Publications (2)

Publication Number Publication Date
CN114596913A true CN114596913A (zh) 2022-06-07
CN114596913B CN114596913B (zh) 2023-03-31

Family

ID=81806413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210180117.7A Active CN114596913B (zh) 2022-02-25 2022-02-25 基于深度中心点模型的蛋白质折叠识别方法及系统

Country Status (1)

Country Link
CN (1) CN114596913B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352049A (zh) * 2023-10-31 2024-01-05 河南大学 一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180248A (zh) * 2017-06-12 2017-09-19 桂林电子科技大学 基于联合损失增强网络的高光谱图像分类方法
CN110659601A (zh) * 2019-09-19 2020-01-07 西安电子科技大学 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN112116950A (zh) * 2020-09-10 2020-12-22 南京理工大学 基于深度度量学习的蛋白质折叠识别方法
KR102299220B1 (ko) * 2020-12-07 2021-09-07 주식회사 온코크로스 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
CN113611354A (zh) * 2021-07-05 2021-11-05 河南大学 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN113849653A (zh) * 2021-10-14 2021-12-28 鼎富智能科技有限公司 一种文本分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180248A (zh) * 2017-06-12 2017-09-19 桂林电子科技大学 基于联合损失增强网络的高光谱图像分类方法
CN110659601A (zh) * 2019-09-19 2020-01-07 西安电子科技大学 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN112116950A (zh) * 2020-09-10 2020-12-22 南京理工大学 基于深度度量学习的蛋白质折叠识别方法
KR102299220B1 (ko) * 2020-12-07 2021-09-07 주식회사 온코크로스 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
CN113611354A (zh) * 2021-07-05 2021-11-05 河南大学 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN113849653A (zh) * 2021-10-14 2021-12-28 鼎富智能科技有限公司 一种文本分类方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
[VILLEGAS‑MORCILLO ,A .,V .SANCHEZ ,AND A .M .GOMEZ: "FoldHSphere:deep hyperspherical embeddings for protein fold recognition" *
VILLEGAS‑MORCILLO ,A .,ET AL .,: "Protein Fold Recognition from Sequences using Convolutional and Recurrent Neural Networks" *
唐胜贵;胡运红;王宝丽;: "基于深度学习的验证码识别技术研究" *
张蕾;李征;郑逢斌;杨伟;: "基于深度学习的八类蛋白质二级结构预测算法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117352049A (zh) * 2023-10-31 2024-01-05 河南大学 一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法

Also Published As

Publication number Publication date
CN114596913B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN111127385B (zh) 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
KR102092263B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110929029A (zh) 一种基于图卷积神经网络的文本分类方法及系统
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN108648747A (zh) 语种识别系统
CN109063113A (zh) 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
JP2018185771A (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN117688974B (zh) 基于知识图谱的生成式大模型建模方法、系统及设备
CN116805533A (zh) 一种基于数据收集与模拟的脑出血手术风险预测系统
CN114596913B (zh) 基于深度中心点模型的蛋白质折叠识别方法及系统
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN115713970A (zh) 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN111782818A (zh) 生物医疗知识图谱的构建装置、方法、系统及存储器
CN113516209B (zh) 一种用于少样本意图识别的对比任务适应学习方法
CN112949599B (zh) 基于大数据的候选内容推送方法
JP7226783B2 (ja) 情報処理システム、情報処理方法及びプログラム
CN114782791A (zh) 基于transformer模型和类别关联的场景图生成方法
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240725

Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Patentee after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Country or region after: China

Address before: Shunhe District in Henan province 475001 City Minglun Street No. 85

Patentee before: Henan University

Country or region before: China

TR01 Transfer of patent right