CN114596913A - 基于深度中心点模型的蛋白质折叠识别方法及系统 - Google Patents
基于深度中心点模型的蛋白质折叠识别方法及系统 Download PDFInfo
- Publication number
- CN114596913A CN114596913A CN202210180117.7A CN202210180117A CN114596913A CN 114596913 A CN114596913 A CN 114596913A CN 202210180117 A CN202210180117 A CN 202210180117A CN 114596913 A CN114596913 A CN 114596913A
- Authority
- CN
- China
- Prior art keywords
- protein
- folding
- vector
- deep
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000012846 protein folding Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 30
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 165
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 165
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 98
- 238000012549 training Methods 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 12
- 238000005096 rolling process Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 125000003275 alpha amino acid group Chemical group 0.000 abstract description 2
- 230000003595 spectral effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002887 multiple sequence alignment Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算生物学技术领域,公开一种基于深度中心点模型的蛋白质折叠识别方法及系统,该方法的目标是学习一个将每个蛋白质链映射为单位向量的深度嵌入网络,使得在嵌入空间中折叠类型相同的蛋白质链距离较近,折叠类型不同的蛋白质链距离较远。为此,本发明首先采用预训练的蛋白质语言模型将蛋白质的氨基酸序列表示成嵌入特征矩阵,然后通过同时最小化每个蛋白质链与其目标中心点的距离和最大化每个蛋白质链与其他非目标中心点的距离来学习深度嵌入网络,最后基于学习的深度嵌入网络进行蛋白质折叠类别的预测。总之,本发明通过采用深度嵌入学习技术能够精确地预测蛋白质的折叠类别。
Description
技术领域
本发明属于计算生物学技术领域,尤其涉及一种基于深度中心点模型的蛋白质折叠识别方法及系统。
背景技术
蛋白质是生命活动的主要承担者,其具有催化、信号传导、运输和分子识别等多种功能。特别地,蛋白质的功能是由其三维结构确定的。为了测定蛋白质的三维结构,常用的实验方法有冷冻电镜、X射线晶体衍射和核磁共振等。然而,这些实验方法不仅花费较多而且非常耗时,所以采用计算方法基于给定蛋白质的氨基酸序列预测其三级结构对理解蛋白质的功能是极其必要的。由于具有相同折叠类型的蛋白质通常具有相似的结构和功能,因此精确预测的蛋白质折叠可以显著提高基于模板的三维结构建模精度。
为了确定给定蛋白质的折叠类型,当前的主流方法有两类:基于分类的折叠识别和基于检索的折叠识别。前者把蛋白质折叠识别看作多类分类问题,代表的算法有:TAXFOLD、FP-Pred、和ProFold[Villegas-Morcillo,A.,et al.,Protein FoldRecognition from Sequences using Convolutional and Recurrent NeuralNetworks.IEEE/ACM Trans Comput Biol Bioinform,2020.]。这类方法通常包括两个阶段:特征抽取和分类器训练。然而其缺点是不能应用到训练集以外的折叠类别。目前已知的折叠类型有1000多个,并且随着越来越多的蛋白质结构数据被发布,会有更多的新折叠类型被发现。基于检索的折叠识别通过将查询蛋白质与已知结构的模板蛋白质集合进行比较,把最相似的蛋白质的折叠类型指派给查询蛋白。早期的方法主要通过序列到序列的比对和谱特征到谱特征的比对进行相似性检索。近来提出的方法主要采用深度学习技术将蛋白质映射到嵌入空间中,然后在嵌入空间中使用欧氏距离或余弦相似性距离进行相似性检索[Villegas-Morcillo,A.,V.Sanchez,and A.M.Gomez,FoldHSphere:deephyperspherical embeddings for protein fold recognition.BMC Bioinformatics,2021.22(1)]。特别地,基于检索的折叠识别方法能够自然地扩展到未见的折叠类别识别。
存在的基于检索的折叠识别方法主要采用通过多序列比对导出的谱特征进行折叠识别。特别地,谱特征的质量不仅显著依赖于蛋白质序列数据库中同源序列的数量,而且不能充分利用大规模蛋白质序列数据库的信息。
发明内容
本发明针对现有的通过多序列比对导出的谱特征进行折叠识别的方法中,谱特征的质量不仅显著依赖于蛋白质序列数据库中同源序列的数量,而且不能充分利用大规模蛋白质序列数据库的信息的问题,提出一种基于深度中心点模型的蛋白质折叠识别方法及系统。
为了实现上述目的,本发明采用以下技术方案:
本发明一方面提出一种基于深度中心点模型的蛋白质折叠识别方法,包括:
步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤2:采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤3:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
步骤4:确定训练深度嵌入网络的目标函数;
步骤5:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
步骤6:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,所述步骤1包括:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
进一步地,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
进一步地,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
进一步地,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
进一步地,软池化操作层的输出矩阵Y按如下公式进行计算:
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
进一步地,所述步骤4包括:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
进一步地,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
进一步地,所述步骤6包括:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
本发明另一方面提出一种基于深度中心点模型的蛋白质折叠识别系统,包括:
数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
目标函数得出模块,用于确定训练深度嵌入网络的目标函数;
网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,所述数据集确定模块具体用于:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
进一步地,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
进一步地,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
进一步地,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
进一步地,软池化操作层的输出矩阵Y按如下公式进行计算:
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
进一步地,所述目标函数得出模块具体用于:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
进一步地,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
进一步地,所述折叠类别识别模块具体用于:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
与现有技术相比,本发明具有的有益效果:
本发明基于嵌入特征学习蛋白质的深度嵌入表示。通过引入软池化层,本发明设计的深度嵌入网络能够在最大保持残基级特征信息的情况下将任意长度的蛋白质链映射为固定长度的单位向量。因此,本发明提出的折叠识别方法和系统能够精确地进行蛋白质折叠类别预测。
附图说明
图1为本发明实施例一种基于深度中心点模型的蛋白质折叠识别方法的基本流程图;
图2为本发明实施例设计的深度嵌入网络结构示意图;
图3为本发明实施例蛋白质折叠类别预测的流程图;
图4为本发明实施例一种基于深度中心点模型的蛋白质折叠识别系统架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于深度中心点模型的蛋白质折叠识别方法,包括:
步骤S101:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤S102:采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤S103:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
步骤S104:确定训练深度嵌入网络的目标函数;
步骤S105:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
步骤S106:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,步骤S101中,本发明采用广泛使用的LINDAHL数据集作为蛋白质折叠测试集。LINDAHL数据集是由Lindahl和Elofsson于2000年构造的,其包含976条蛋白质链,并且任意两条蛋白质链之间的序列一致性低于40%。此外,本发明基于数据库SCOPe 2.06(https://scop.berkeley.edu/statistics/ver=2.06)构造蛋白质折叠训练集和验证集。特别地,为了保证构造的数据集独立于LINDAHL数据集,本发明采用了三个软件包CD-HIT-2D、MMseqs2和BLAST对SCOPe 2.06进行过滤,以便删除SCOPe 2.06中与LINDAHL数据集中蛋白质链相似的蛋白质链。最后的数据集包含16133个蛋白质链,共有1154个折叠类别。特别地,我们选择15000个蛋白质链作为训练集,剩余的1133个蛋白质链作为验证集。
进一步地,步骤S102中,为了预测给定蛋白质链的折叠类型,需要把每个蛋白质链中的氨基酸残基表示成数值向量。当前主流的折叠识别方法主要使用PSSM谱矩阵来表示蛋白质链。然而生成PSSM谱矩阵需要对大规模蛋白质序列数据库UniRef90或UniRef50执行耗时的多序列比对操作,并且PSSM谱特征的质量在很大程度上依赖于序列数据库中存在的与给定查询蛋白质同源的蛋白质序列数量。为此,本发明采用预训练的蛋白质语言模型生成的嵌入矩阵来表示每个蛋白质链。特别地,当前具有代表性的蛋白质语言模型有ESM-1b、ProtBert、ProtBert-BFD、ProtT5-XXL-BFD和ProtT5-XL-U50等。这些模型都是基于Transformer网络架构对大规模蛋白质序列数据库进行自监督学习获得的。通过自监督学习,蛋白质语言模型的输出表示已经包含了氨基酸残基的生物属性信息。考虑到ProtT5-XL-U50对下游任务能提供较好的支持,本发明采用其作为生成嵌入矩阵的蛋白质语言模型。对于一个长度为L的蛋白质链,ProtT5-XL-U50输出的嵌入特征矩阵大小为L×1024。
进一步地,步骤S103中,本发明的目标是学习一个将蛋白质链映射到嵌入空间的非线性映射,使得在嵌入空间中折叠类别相同的蛋白质链的距离较近,而折叠类别不同的蛋白质链的距离较远。为此,本发明设计了一个深度嵌入网络执行非线性映射。图2给出了深度嵌入网络的架构,其由两个卷积块、一个软池化操作层(Soft pooling)、两个全链接层(FC)、一个Dropout层和一个归一化层(Normalize)组成。特别地,每个卷积块包含一个一维卷积层(Conv1D)、一个批处理归一化层(BN)和一个Hardswish激活函数。卷积层的卷积核大小为7,输出通道数为1024。第一个全连接层后面跟着执行了一个非线性激活函数ReLU。在两个全连接层之间引入Dropout的目的是为了避免嵌入网络过拟合训练数据。
嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。注意,不同蛋白质链的长度通常是不同的。在构造mini-batch时,需要对较短蛋白质链的嵌入特征矩阵进行零填充,为此本发明引入二元矩阵M来指示填充位置。特别地,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,M中元素Mij=0表示第j个残基不存在并且该位置在嵌入矩阵中对应的向量是填充的全零向量。注意,二元矩阵M只用于嵌入网络的软池化操作层。本发明在嵌入网络中引入软池化操作层的目的是在将每个蛋白质链表示成一个向量的情况下保留输入特征映射更多的信息。假定第二个卷积块输出的特征张量为A,则软池化操作层的输出矩阵Y按如下公式进行计算:
从公式中可以看出,输出矩阵Y主要由张量A中较大的响应值决定,并且张量A中填充位置对应的响应值对矩阵Y的计算没有任何影响。
此外,嵌入网络的最后一层是归一化层,其目的是将每个蛋白质链的嵌入向量转换为d维的单位向量,这样所有蛋白质链都被映射到一个单位超球上。假定第i个蛋白质链在全连接层FC2的输出矩阵中对应的向量为a,则归一化层将其转换为其中ε是为了避免出现除以0而设置的较小正数。在本发明中,ε被设置为0.00001。
进一步地,步骤S104中,为了构造指导网络参数学习的目标函数,本发明在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量。令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量。学习的目标是使得每个蛋白质链与其目标中心点向量保持较近的距离,而与其他非目标中心点向量保持一定的间隔。为此,给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,本发明将目标函数定义为如下的形式:
其中dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
需要注意的是所有中心点向量在训练开始之前都被随机初始化为单位向量,并在网络的训练过程中与网络参数同时进行更新。
进一步地,步骤S105中,为了基于训练集学习深度嵌入网络参数,本发明采用学习率为0.001的Adam优化器最小化步骤S104中的目标函数。此外,mini-batch的大小为32,权值衰减参数weight_decay为0.0005,嵌入空间的维度d为512,dropout的比率为0.2,间隔参数m设置为0.1。当目标函数的值在连续5个epoch中不再下降时就停止训练。
进一步地,步骤S106中,为了对给定蛋白质链进行预测,本发明首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量。特别地,我们将这些嵌入向量及其对应的折叠类型构造的集合称为查询模板集。然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行类型指派。图3给出了基于训练好的深度嵌入网络进行蛋白质折叠类别识别的示意图。
在上述实施例的基础上,如图4所示,本发明还提出一种基于深度中心点模型的蛋白质折叠识别系统,包括:
数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
目标函数得出模块,用于确定训练深度嵌入网络的目标函数;
网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
进一步地,所述数据集确定模块具体用于:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
进一步地,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
进一步地,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
进一步地,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
进一步地,软池化操作层的输出矩阵Y按如下公式进行计算:
其中L表示mini-batch中最长蛋白质链的长度,N表示mini-batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。
进一步地,所述目标函数得出模块具体用于:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
进一步地,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
进一步地,所述折叠类别识别模块具体用于:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
综上,本发明基于嵌入特征学习蛋白质的深度嵌入表示。通过引入软池化层,本发明设计的深度嵌入网络能够在最大保持残基级特征信息的情况下将任意长度的蛋白质链映射为固定长度的单位向量。因此,本发明提出的折叠识别方法和系统能够精确地进行蛋白质折叠类别预测。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于深度中心点模型的蛋白质折叠识别方法,其特征在于,包括:
步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤2:采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤3:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
步骤4:确定训练深度嵌入网络的目标函数;
步骤5:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
步骤6:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
2.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤1包括:
采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。
3.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。
4.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini-batch中蛋白质链的个数,L表示mini-batch中最长蛋白质链的长度。
5.根据权利要求4所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,在构造mini-batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的,Mij=0表示mini-batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。
7.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤4包括:
在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类别的中心点向量为c(k)∈Rd,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;
给定一个mini-batch,令向量t表示mini-batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:
其中N表示mini-batch中蛋白质链的个数,dij=1-<Yi,:,c(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。
8.根据权利要求7所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。
9.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤6包括:
首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。
10.一种基于深度中心点模型的蛋白质折叠识别系统,其特征在于,包括:
数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;
目标函数得出模块,用于确定训练深度嵌入网络的目标函数;
网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;
折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210180117.7A CN114596913B (zh) | 2022-02-25 | 2022-02-25 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210180117.7A CN114596913B (zh) | 2022-02-25 | 2022-02-25 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114596913A true CN114596913A (zh) | 2022-06-07 |
CN114596913B CN114596913B (zh) | 2023-03-31 |
Family
ID=81806413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210180117.7A Active CN114596913B (zh) | 2022-02-25 | 2022-02-25 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114596913B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117352049A (zh) * | 2023-10-31 | 2024-01-05 | 河南大学 | 一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180248A (zh) * | 2017-06-12 | 2017-09-19 | 桂林电子科技大学 | 基于联合损失增强网络的高光谱图像分类方法 |
CN110659601A (zh) * | 2019-09-19 | 2020-01-07 | 西安电子科技大学 | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 |
CN112116950A (zh) * | 2020-09-10 | 2020-12-22 | 南京理工大学 | 基于深度度量学习的蛋白质折叠识别方法 |
KR102299220B1 (ko) * | 2020-12-07 | 2021-09-07 | 주식회사 온코크로스 | 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램 |
CN113611354A (zh) * | 2021-07-05 | 2021-11-05 | 河南大学 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
-
2022
- 2022-02-25 CN CN202210180117.7A patent/CN114596913B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180248A (zh) * | 2017-06-12 | 2017-09-19 | 桂林电子科技大学 | 基于联合损失增强网络的高光谱图像分类方法 |
CN110659601A (zh) * | 2019-09-19 | 2020-01-07 | 西安电子科技大学 | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 |
CN112116950A (zh) * | 2020-09-10 | 2020-12-22 | 南京理工大学 | 基于深度度量学习的蛋白质折叠识别方法 |
KR102299220B1 (ko) * | 2020-12-07 | 2021-09-07 | 주식회사 온코크로스 | 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램 |
CN113611354A (zh) * | 2021-07-05 | 2021-11-05 | 河南大学 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
[VILLEGAS‑MORCILLO ,A .,V .SANCHEZ ,AND A .M .GOMEZ: "FoldHSphere:deep hyperspherical embeddings for protein fold recognition" * |
VILLEGAS‑MORCILLO ,A .,ET AL .,: "Protein Fold Recognition from Sequences using Convolutional and Recurrent Neural Networks" * |
唐胜贵;胡运红;王宝丽;: "基于深度学习的验证码识别技术研究" * |
张蕾;李征;郑逢斌;杨伟;: "基于深度学习的八类蛋白质二级结构预测算法" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117352049A (zh) * | 2023-10-31 | 2024-01-05 | 河南大学 | 一种基于自监督学习和Kronecker积分解的参数高效蛋白质语言模型设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114596913B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111127385B (zh) | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110070909B (zh) | 一种基于深度学习的融合多特征的蛋白质功能预测方法 | |
KR102092263B1 (ko) | 일정한 처리 시간 내에 k개의 극값을 찾는 방법 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN110929029A (zh) | 一种基于图卷积神经网络的文本分类方法及系统 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN108648747A (zh) | 语种识别系统 | |
CN109063113A (zh) | 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法 | |
JP2018185771A (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
CN117688974B (zh) | 基于知识图谱的生成式大模型建模方法、系统及设备 | |
CN116805533A (zh) | 一种基于数据收集与模拟的脑出血手术风险预测系统 | |
CN114596913B (zh) | 基于深度中心点模型的蛋白质折叠识别方法及系统 | |
CN116612307A (zh) | 一种基于迁移学习的茄科病害等级识别方法 | |
CN110299194B (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
CN115713970A (zh) | 基于Transformer-Encoder和多尺度卷积神经网络的转录因子识别方法 | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN111782818A (zh) | 生物医疗知识图谱的构建装置、方法、系统及存储器 | |
CN113516209B (zh) | 一种用于少样本意图识别的对比任务适应学习方法 | |
CN112949599B (zh) | 基于大数据的候选内容推送方法 | |
JP7226783B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
CN114782791A (zh) | 基于transformer模型和类别关联的场景图生成方法 | |
CN116932487B (zh) | 一种基于数据段落划分的量化式数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240725 Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province Patentee after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd. Country or region after: China Address before: Shunhe District in Henan province 475001 City Minglun Street No. 85 Patentee before: Henan University Country or region before: China |
|
TR01 | Transfer of patent right |