CN115798595B - 蛋白质序列的水解位点预测方法及装置、设备、存储介质 - Google Patents

蛋白质序列的水解位点预测方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN115798595B
CN115798595B CN202310046005.7A CN202310046005A CN115798595B CN 115798595 B CN115798595 B CN 115798595B CN 202310046005 A CN202310046005 A CN 202310046005A CN 115798595 B CN115798595 B CN 115798595B
Authority
CN
China
Prior art keywords
matrix
protein sequence
probability
site
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310046005.7A
Other languages
English (en)
Other versions
CN115798595A (zh
Inventor
万季
汪健
沈一鸣
潘有东
赵钊
王弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Neocura Biotechnology Corp
Original Assignee
Beijing Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Xinhe Ruien Biomedical Technology Co ltd
Shenzhen Neocura Biotechnology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinhe Ruien Biomedical Technology Co ltd, Shenzhen Xinhe Ruien Biomedical Technology Co ltd, Shenzhen Neocura Biotechnology Corp filed Critical Beijing Xinhe Ruien Biomedical Technology Co ltd
Priority to CN202310046005.7A priority Critical patent/CN115798595B/zh
Publication of CN115798595A publication Critical patent/CN115798595A/zh
Application granted granted Critical
Publication of CN115798595B publication Critical patent/CN115798595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于生物信息学领域,公开了一种蛋白质序列的水解位点预测方法及装置、设备、存储介质,通过计算蛋白质序列的特征矩阵和VHSE描述向量,该VHSE描述向量用于表示蛋白质序列的亲疏水特性、几何特性和电荷特性等物理化学性质,然后根据特征矩阵和VHSE描述向量计算蛋白质序列各个位点的先验裂解概率,根据蛋白质序列的位置特异性矩阵计算蛋白质序列各个位点的第一概率和第二概率,再利用贝叶斯公式计算各个位点的预测裂解概率,将预测裂解概率达到指定概率阈值的位点确定为水解位点,从而可以融合考虑蛋白质的物理化学性质和位置特异性矩阵,来预测蛋白质各个位点可能裂解的概率,以此确定水解位点,可以提高预测准确率。

Description

蛋白质序列的水解位点预测方法及装置、设备、存储介质
技术领域
本发明属于生物信息学技术领域,具体涉及一种蛋白质序列的水解位点预测方法及装置、设备、存储介质。
背景技术
蛋白质被认为是人体内所有物质中最活跃和最多样化的分子,它们能够催化各类生物化学反应,在各项生命活动中扮演者重要的作用,这意味着其在缓解并治疗疾病等方面具有十分重要意义。蛋白质在治疗领域具有众多的优势,首先,蛋白质通常具有高度复杂的功能,而这些功能是简单的化学物质无法模仿的。第二,由于蛋白质的作用具有高度的特异性,因此蛋白质治疗剂干扰正常生物过程和引起不良反应的可能性通常较小。第三,由于人体自然产生许多被用作治疗的蛋白质,这些药剂通常具有良好的耐受性,不太可能引起免疫反应。正是由于上述优点,人们对于蛋白质在医疗领域的探索一直以来是一个热点,尤其在近几年以来,随着计算机算力的提升,人们已经越发的关注如何针对特定疾病人为设计蛋白质序列并用于治疗领域。
由于各种蛋白酶介导的蛋白分解是细胞内和细胞外普遍存在的,在设计蛋白质序列时不可避免的需要考虑到蛋白质水解的过程。研究表明,蛋白质的裂解往往能激活、灭活或修饰底物,从而控制多样化的生物过程,包括清除异常蛋白质、应激反应、细胞周期控制、细胞分化、代谢适应和宿主的免疫反应。不适当的蛋白水解活动会导致破坏性后果,并导致许多人类疾病。为此,从安全和免疫原性的角度考虑,如何设计出一条以最大概率在预期位点裂解的蛋白质序列显得尤为重要。
当前预测蛋白质裂解概率是通过获得蛋白质序列的位置特异性矩阵,并随后利用该矩阵中含有的位置信息和蛋白质中各个氨基酸之间的关系,结合支持向量机(SupportVector Machine,SVM)和随机森林等机器学习算法进行预测的。但是在实践中发现,这些方法仍然存在预测准确率较低的缺陷。
发明内容
本发明的目的在于提供一种蛋白质序列的水解位点预测方法及装置、设备、存储介质,可以提高预测准确率。
本发明第一方面公开一种蛋白质序列的水解位点预测方法,包括:
计算所述蛋白质序列的特征矩阵和VHSE描述向量;所述VHSE描述向量用于表示所述蛋白质序列的亲疏水特性、几何特性和电荷特性;
根据所述特征矩阵和所述VHSE描述向量,计算获得所述蛋白质序列各个位点的先验裂解概率;
获取所述蛋白质序列的目标位置特异性矩阵;
根据所述目标位置特异性矩阵,计算所述蛋白质序列各个位点的第一概率和第二概率;
根据所述第一概率、所述第二概率和所述先验裂解概率,利用贝叶斯公式计算获得所述蛋白质序列各个位点的预测裂解概率;
将所述预测裂解概率达到指定概率阈值的位点确定为水解位点。
本发明第二方面公开一种蛋白质序列的水解位点预测装置,包括:
第一计算单元,用于计算所述蛋白质序列的特征矩阵和VHSE描述向量;所述VHSE描述向量用于表示所述蛋白质序列的亲疏水特性、几何特性和电荷特性;
第二计算单元,用于根据所述特征矩阵和所述VHSE描述向量,计算获得所述蛋白质序列各个位点的先验裂解概率;
获取单元,用于获取所述蛋白质序列的目标位置特异性矩阵;
第三计算单元,用于根据所述目标位置特异性矩阵,计算所述蛋白质序列各个位点的第一概率和第二概率;
第四计算单元,用于根据所述第一概率、所述第二概率和所述先验裂解概率,利用贝叶斯公式计算获得所述蛋白质序列各个位点的预测裂解概率;
确定单元,用于将所述预测裂解概率达到指定概率阈值的位点确定为水解位点。
本发明第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的蛋白质序列的水解位点预测方法。
本发明第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的蛋白质序列的水解位点预测方法。
本发明的有益效果在于,所提供的蛋白质序列的水解位点预测方法及装置、设备、存储介质,通过计算蛋白质序列的特征矩阵和VHSE描述向量,该VHSE描述向量用于表示蛋白质序列的亲疏水特性、几何特性和电荷特性等物理化学性质,然后根据特征矩阵和VHSE描述向量,计算获得蛋白质序列各个位点的先验裂解概率,以及根据蛋白质序列的位置特异性矩阵,计算蛋白质序列各个位点的第一概率和第二概率,利用贝叶斯公式计算各个位点的预测裂解概率,最后将预测裂解概率达到指定概率阈值的位点确定为水解位点,从而可以融合考虑蛋白质的物理化学性质和位置特异性矩阵,来预测蛋白质各个位点可能裂解的概率,以确定裂解概率较大的水解位点,进而可以提高预测准确率。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是本发明公开的一种蛋白质序列的水解位点预测方法的流程图;
图2是本发明公开的另一种蛋白质序列的水解位点预测方法的流程图;
图3是本发明公开的一种蛋白质序列的水解位点预测装置的结构示意图;
图4是本发明公开的一种电子设备的结构示意图。
附图标记说明:
301、第一计算单元;302、第二计算单元;303、获取单元;304、第三计算单元;305、第四计算单元;306、确定单元;401、存储器;402、处理器。
具体实施方式
除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
除非特别说明或另有定义,本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。
毫无疑义,与本发明的目的相违背,或者明显矛盾的技术内容或技术特征,应被排除在外。为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
如图1所示,本发明实施例公开一种蛋白质序列的水解位点预测方法,该方法的执行主体可为如计算机电脑、笔记本电脑、平板电脑等电子设备,或内嵌于电子设备中的蛋白质序列的水解位点预测装置,本发明对此不作限定。该方法包括以下步骤101~108:
101、计算蛋白质序列的特征矩阵和VHSE描述向量。其中,VHSE描述向量用于表示蛋白质序列的亲疏水特性、几何特性和电荷特性。
VHSE描述向量(VHSE scales)是根据通过18个疏水特性、17个立体特性和15个电子特性进行主成分分析所得到的一个向量。VHSE描述向量包括至少八个VHSE描述子,分别是VHSE1、VHSE2、VHSE3、VHSE4、VHSE5、VHSE6、VHSE7、VHSE8;各个VHSE描述子的值都能够在一定程度上反应蛋白质序列的物理化学性质。其中,VHSE1和VHSE2代表待测蛋白序列的亲疏水特性,VHSE3和VHSE4代表待测蛋白序列的几何特性,VHSE5~VHSE8代表待测蛋白序列的电荷特性。
具体的,首先利用vhseScales软件,将蛋白质序列作为输入,计算出的相应肽序列中所有氨基酸的VHSE scales的平均值。每个VHSE scale代表一个氨基酸的属性获得VHSEscales。具体输入和输出如下所示:
输入:vhseScales(seq = "QWGRRCCGWGPGRRYCVRWC")
输出:-0.1150 0.0630 -0.0055 0.7955 0.4355 0.2485 0.1740 -0.0960
输出的八个值分别对应:
VHSE1 VHSE2 VHSE3 VHSE4 VHSE5 VHSE6 VHSE7 VHSE8 。
另外,步骤101中,计算蛋白质序列的特征矩阵的实施方式具体包括:
对蛋白质序列进行embedding操作,该操作的目的是为了将蛋白质序列的多序列比对(Multiple Sequence Alignment,MSA)数据转换为一个特定的特征矩阵(即embedding矩阵),该MSA数据包括蛋白质序列及其同源蛋白质序列序列,该embedding矩阵与蛋白质序列对应,且该embedding矩阵可以被神经网络所读取,并用于神经网络中的各种计算。
具体地,利用Structure2vec算法将蛋白质序列作为输入,蛋白质序列的特征矩阵作为输出,该embedding矩阵的维度为,其中为MSA数据中同源蛋白质序列序列的个数,为蛋白质序列的序列长度。
102、根据特征矩阵和VHSE描述向量,计算获得蛋白质序列各个位点的先验裂解概率。
鉴于蛋白酶体裂解的肽的平均长度在7到9个氨基酸之间,根据研究表明先验裂解概率的合理值可能在0.15到0.20之间。为了更加准确计算先验裂解概率,具体可以将特征矩阵和VHSE描述向量输入预设神经网络模型进行先验裂解概率计算。该预设神经网络模型为本发明引入的第一卷积神经网络( Convolutional Neural Network ,CNN)模型,用以计算蛋白质序列各个位点的先验裂解概率。该预设神经网络模型使用局部滑动窗口的方法,固定窗口大小为3。在本发明实施例中,该预设神经网络模型包括卷积层、注意层、第一全连接层、第二全连接层和输出层。基于此,步骤102具体可以包括以下步骤1021~1024:
1021、将特征矩阵输入卷积层以对特征矩阵进行卷积计算,获得第一矩阵。
具体的包括有三个卷积层,用于从embedding矩阵中捕捉特征。在第一卷积层中,使用的卷积核(即卷积滤波器)大小为1×200,目的是从embedding矩阵中提取简单的特征。第二卷积层使用三个平行的卷积块,每个卷积块都有不同的卷积核,核大小分别为3×150,6×150和9×150;第二卷积层的三个卷积核以平行方式转换来自第一卷积层的特征。第三卷积层也使用了三个具有不同卷积核的卷积块,核大小分别为5×200,10×200和15×200;以进一步多样化和改善提取的特征,从而获得第一矩阵。其中第一卷积层的输入为embedding矩阵,第二、三卷积层的输入分别为上一个卷积层的输出矩阵。
1022、将第一矩阵和VHSE描述向量输入注意层,以使注意层根据VHSE描述向量学习得到权重参数和偏置参数,并根据权重参数和偏置参数对第一矩阵进行更新获得第二矩阵。
三个卷积层后紧接着注意层。注意层旨在从卷积层输出的大量特征,以物理化学指标(VHSE scales)作为依据,在三层卷积层输出的第一矩阵基础上进一步提取特征信息,获得第二矩阵。该注意层的输入为第三卷积层的输出矩阵和VHSE scales,注意层会利用自注意力机制,为卷积层的输出矩阵的每一列分配一个权重和偏置,权重和偏置是基于VHSEscales学习得到的,卷积层输出的第一矩阵中每一列将乘上其对应的权重并加上对应的偏置,以此获得更新后的第二矩阵。
这样做的目的是使得模型既考虑了蛋白质序列的特征信息,又考虑了蛋白质序列背后所蕴含的物理化学性质,以此可以更加科学准确的预测先验裂解概率
1023、将第二矩阵输入第一全连接层以对第二矩阵进行特征提取,获得第三矩阵。
1024、将第三矩阵输入第二全连接层,以使第二全连接层根据第三矩阵的特征空间映射得到标签信息,并根据标签信息获得蛋白质序列各个位点的先验裂解概率。
注意力层之后是两个全连接层。第一全连接层的输入是注意层输出的第二矩阵,该层将重新组合注意层中获得的第二矩阵的特征信息,以产生覆盖第二矩阵的整个背景的特征矩阵,即第三矩阵。第二全连接层将作为分类器,接收前一个全连接层输出的第三矩阵,利用非线性变换将第三矩阵产生的特征空间映射到相应的标签上,根据标签获得每个位点可能的裂解概率并经输出层输出。由此,便获得了先验裂解概率。
103、获取蛋白质序列的多序列比对数据。
基于局部比对算法的搜索工具(Basic Local Alignment Search Tool,blast)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具,以蛋白质序列作为blast的输入,可以获得蛋白质序列的多序列比对数据(即MSA数据)。该MSA数据可以视作是由字符组成的矩阵。
104、根据多序列比对数据计算得到第一位置特异性矩阵。
在本发明实施例中,定义一个“bagging MSA”,该“bagging MSA”用于训练获得第二卷积神经网络模型,在对该第二卷积神经网络模型的每次训练迭代中,重复从MSA数据中随机抽取一小部分同源蛋白质序列,作为“bagging MSA”。具体地,引入一个固定的超参数R来确定每次训练迭代中随机选择的同源蛋白质序列在MSA中的比例,该超参数R在训练过程中是一个固定值,可根据相关经验确定。例如,当指定R=[10%,20%]时,对于每个批次中随机选择一个大于10%和小于20%的比例,根据这个比例随机抽出MSA数据中的部分同源蛋白质序列。通过这种方式,能够得到许多“bagging MSA”。然后,利用每次训练迭代抽取的“bagging MSA”计算出“弱PSSM”。 该“弱PSSM”是指通过统计学方法计算得到的位置特异性矩阵(Position-Specific Scoring Matrix,PSSM)。具体地,“弱PSSM”中每一行代表不同的氨基酸,每一列代表蛋白质序列中每个氨基酸的位置。“弱PSSM”中每一个元素是根据“bagging MSA ”计算出该位置上对应氨基酸出现的频率,将该频率除以0.05后再计算该值的对数求得的。
进一步的,根据“bagging MSA”计算出来的多个“弱PSSM”和步骤101中获取的蛋白质序列的特征矩阵(即embedding矩阵)作为该第二卷积神经网络模型的输入,同时可按照“弱PSSM”的计算规则,利用完整的MSA数据计算得到原始PSSM,将原始PSSM作为该第二卷积神经网络模型训练的标签,以便于计算模型损失函数,以此更新模型参数进而获取准确模型输出结果。
105、将第一位置特异性矩阵作为目标位置特异性矩阵。
最后可以将步骤104中第二卷积神经网络模型训练迭代完成时最后一次计算出的“弱PSSM”作为第一位置特异性矩阵,将该第一位置特异性矩阵作为目标位置特异性矩阵。
106、根据目标位置特异性矩阵,计算蛋白质序列各个位点的第一概率和第二概率。
在设计串联疫苗(包括多个表位排序组合的蛋白质序列)时,需要确保疫苗进入患者体内后能够以最大概率在预期位点断裂(疫苗在该预期位点位置断裂不会影响其各个表位的免疫原性),为此如何计算蛋白质序列各个位点裂解的概率成了该问题的关键。在此应用场景下,本发明设计了基于PSSM的裂解位置模型,该模型可以用于计算蛋白质序列各个位置/位点在患者体内的断裂概率。具体地,该模型以获取的目标位置特异性矩阵(即目标PSSM)为基础,将相邻位置的氨基酸考虑在内,并假设它们的影响是独立的。由此,根据利用贝叶斯公式建立的裂解位置模型如下公式(1)和(2)所示:
(1)
(2)
式中,表示裂解位点为的先验概率;为第一概率,表示与裂解位点距离为的氨基酸为的概率;均为预设距离阈值,例如可预设为为第二概率,表示在裂解位点为的条件下,附近的氨基酸为的概率;表示氨基酸位于距离裂解位点的目标PSSM的内容;表示氨基酸与裂解位点之间间隔的氨基酸为的条件下,蛋白质序列在位点裂解的概率。
根据上述模型可知,要想计算出预测裂解概率,需要知道的值。
其中,第一概率可根据目标PSSM,通过以下公式(3)计算得到:
  (3)
另外,由以上公式(1)和(2),可推得以下公式(4):
(4)
因此在计算第一概率后,可根据目标位置特异性矩阵和第一概率,通过以上公式(4)计算蛋白质序列各个位点的第二概率
107、根据第一概率、第二概率和先验裂解概率,利用贝叶斯公式计算获得蛋白质序列各个位点的预测裂解概率。
最后,分别将计算得到的第一概率、第二概率和先验裂解概率代入公式(1)计算获得蛋白质序列各个位点的预测裂解概率
108、将预测裂解概率达到指定概率阈值的位点确定为水解位点。
其中,指定概率阈值可以是由开发人员预先设定的一概率值,其具体数值可由开发人员预先设定。或者在一些可能的实施例中,也可以将预测裂解概率较大的指定数量个位点确定为水解位点。
可见实施步骤101~108,通过计算蛋白质序列的特征矩阵和VHSE描述向量,该VHSE描述向量用于表示蛋白质序列的亲疏水特性、几何特性和电荷特性等物理化学性质,然后根据特征矩阵和VHSE描述向量,计算获得蛋白质序列各个位点的先验裂解概率,以及根据蛋白质序列的位置特异性矩阵,计算蛋白质序列各个位点的第一概率和第二概率,利用贝叶斯公式计算各个位点的预测裂解概率,最后将预测裂解概率达到指定概率阈值的位点确定为水解位点,从而可以融合考虑蛋白质的物理化学性质和位置特异性矩阵,来预测蛋白质各个位点可能裂解的概率,以确定裂解概率较大的水解位点,进而可以提高预测准确率。
如图2所示,本发明实施例公开另一种蛋白质序列的水解位点预测方法,包括以下步骤201~210:
201~204。步骤201~204的内容请参考上述步骤101~104的详细阐述,本发明在此不作赘述。
205、对特征矩阵进行特征提取,获得蛋白质序列的局部特征信息。
在本发明实施例中,可以采用上述步骤104中预先训练获得的第二卷积神经网络模型,用来局部语境特征编码,从而提取获得蛋白质序列表位局部特征信息。由此,步骤205中将embedding矩阵输入训练完成的第二卷积神经网络模型,可以获取蛋白质序列的局部特征信息。具体地,通过应用一维卷积从输入的embedding矩阵中提取相邻氨基酸残基的局部隐藏模式和特征,获得局部特征信息。该第二卷积神经网络模型包含三个一维卷积层以及整顿线性单元(rectified linear unit,ReLU)激活函数,每个一维卷积层的卷积核大小为。该第二卷积神经网络模型输出的从蛋白质序列中提取出来的局部特征信息由一个局部特征矩阵表示,局部特征矩阵的维度为,其中为MSA数据中同源蛋白质序列序列的个数,为蛋白质序列的序列长度。
206、根据特征矩阵和第一位置特异性矩阵进行特征编码,获得相互作用特征信息。
虽然步骤205中的第二卷积神经网络模型能够捕捉到空间或时间结构的局部关系。但是,简单地将窗口大小和网络深度增加到无限大来捕捉足够的长距离序列信息是不现实的。由于氨基酸残基的长距离相互依赖关系在氨基酸序列信息中十分关键,为此,本发明实施例设计了长距离相互依赖的特征编码模块,以捕获氨基酸残基的长距离相互依赖关系,从而获得蛋白质序列中氨基酸的相互作用信息。
具体地,该特征编码模块包含了两个堆叠的双长短期记忆( Long Short TermMemory,LSTM)神经网络,以第一位置特异性矩阵和特征矩阵(即embedding矩阵)作为该特征编码模块的输入数据,输入数据按其原始顺序和反向顺序被送入特征编码模块,两个输出被串联起来,形成最终的特征表示,以此获得氨基酸的相互作用特征信息。
207、根据局部特征信息和相互作用特征信息,获得第二位置特异性矩阵,将第二位置特异性矩阵作为目标位置特异性矩阵。
最后,将以上获得的局部特征信息和相互作用特征信息通过一个全连接网络获得增强的PSSM,作为第二位置特异性矩阵,该矩阵维度为,其中为MSA数据中同源蛋白质序列序列的个数,为蛋白质序列的序列长度。
208~210。步骤208~210的内容请参考上述步骤106~108的详细阐述,本发明在此不作赘述。
可见实施步骤201~210,相比利用统计学的方法所获得的第一位置特异性矩阵,通过利用局部上下文特征编码模块应用一维卷积提取相邻氨基酸残基的局部隐藏模式和特征,再通过两个堆叠的双LSTM神经网络,可以充分从序列中提取出增强的PSSM特征,从而提高准确性和可靠性。本发明实施例将深度学习技术和贝叶斯概率模型紧密结合,以蛋白质序列作为输入,预测该蛋白质序列每个位点可能裂解的概率,从而筛选出裂解概率较大的一批水解位点用于指导疫苗设计。
如图3所示,本发明实施例公开一种蛋白质序列的水解位点预测装置,包括第一计算单元301、第二计算单元302、获取单元303、第三计算单元304、第四计算单元305和确定单元306,其中,
第一计算单元301,用于计算蛋白质序列的特征矩阵和VHSE描述向量;VHSE描述向量用于表示蛋白质序列的亲疏水特性、几何特性和电荷特性;
第二计算单元302,用于根据特征矩阵和VHSE描述向量,计算获得蛋白质序列各个位点的先验裂解概率;
获取单元303,用于获取蛋白质序列的目标位置特异性矩阵;
第三计算单元304,用于根据目标位置特异性矩阵,计算蛋白质序列各个位点的第一概率和第二概率;
第四计算单元305,用于根据第一概率、第二概率和先验裂解概率,利用贝叶斯公式计算获得蛋白质序列各个位点的预测裂解概率;
确定单元306,用于将预测裂解概率达到指定概率阈值的位点确定为水解位点。
作为一种可选的实施方式,上述第二计算单元302可以包括以下未图示的子单元:
卷积子单元,用于对特征矩阵进行卷积计算,获得第一矩阵;
注意子单元,用于根据VHSE描述向量学习得到权重参数和偏置参数,并根据权重参数和偏置参数,对第一矩阵进行更新获得第二矩阵;
第一提取子单元,用于对第二矩阵进行特征提取,获得第三矩阵;
分类子单元,用于根据第三矩阵的特征空间映射得到标签信息,并根据标签信息获得蛋白质序列各个位点的先验裂解概率。
可选的,上述获取单元303包括以下未图示的子单元:
比对子单元,用于获取蛋白质序列的多序列比对数据;
第一计算子单元,用于根据多序列比对数据,计算得到第一位置特异性矩阵;
确定子单元,用于将第一位置特异性矩阵作为目标位置特异性矩阵。
在其它一些可能的实施例中,上述获取单元303还可以包括以下未图示的子单元:
第二提取子单元,用于在第一计算子单元根据多序列比对数据计算得到第一位置特异性矩阵之后,对特征矩阵进行特征提取,获得蛋白质序列的局部特征信息;
编码子单元,用于在第一计算子单元根据多序列比对数据计算得到第一位置特异性矩阵之后,根据特征矩阵和第一位置特异性矩阵进行特征编码,获得相互作用特征信息;
第二计算子单元,用于根据局部特征信息和相互作用特征信息,获得第二位置特异性矩阵;
相应的,上述确定子单元,具体用于将第二位置特异性矩阵作为目标位置特异性矩阵。
如图4所示,本发明实施例公开一种电子设备,包括存储有可执行程序代码的存储器401以及与存储器401耦合的处理器402;
其中,处理器402调用存储器401中存储的可执行程序代码,执行上述各实施例中描述的蛋白质序列的水解位点预测方法。
本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的蛋白质序列的水解位点预测方法。
以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。
以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。

Claims (10)

1.蛋白质序列的水解位点预测方法,其特征在于,包括:
计算所述蛋白质序列的特征矩阵和VHSE描述向量;所述VHSE描述向量用于表示所述蛋白质序列的亲疏水特性、几何特性和电荷特性;
根据所述特征矩阵和所述VHSE描述向量,计算获得所述蛋白质序列各个位点的先验裂解概率;
获取所述蛋白质序列的目标位置特异性矩阵;
根据所述目标位置特异性矩阵,计算所述蛋白质序列各个位点的第一概率和第二概率;其中,第一概率表示与裂解位点距离为的氨基酸为的概率,第二概率表示在裂解位点为的条件下,附近的氨基酸为的概率;均为预设距离阈值,裂解位点k为任一位点;
根据所述第一概率、所述第二概率和所述先验裂解概率,利用贝叶斯公式计算获得所述蛋白质序列各个位点的预测裂解概率;
将所述预测裂解概率达到指定概率阈值的位点确定为水解位点。
2.如权利要求1所述的蛋白质序列的水解位点预测方法,其特征在于,根据所述特征矩阵和所述VHSE描述向量,计算获得所述蛋白质序列各个位点的先验裂解概率,包括:
对所述特征矩阵进行卷积计算,获得第一矩阵;
根据所述VHSE描述向量学习得到权重参数和偏置参数;
根据所述权重参数和所述偏置参数,对第一矩阵进行更新获得第二矩阵;
对所述第二矩阵进行特征提取,获得第三矩阵;
根据所述第三矩阵的特征空间映射得到标签信息,并根据所述标签信息获得所述蛋白质序列各个位点的先验裂解概率。
3.如权利要求1所述的蛋白质序列的水解位点预测方法,其特征在于,获取所述蛋白质序列的目标位置特异性矩阵,包括:
获取所述蛋白质序列的多序列比对数据;
根据所述多序列比对数据,计算得到第一位置特异性矩阵;
将所述第一位置特异性矩阵作为目标位置特异性矩阵。
4.如权利要求1所述的蛋白质序列的水解位点预测方法,其特征在于,获取所述蛋白质序列的目标位置特异性矩阵,包括:
获取所述蛋白质序列的多序列比对数据;
根据所述多序列比对数据,计算得到第一位置特异性矩阵;
对所述特征矩阵进行特征提取,获得所述蛋白质序列的局部特征信息;
根据所述特征矩阵和所述第一位置特异性矩阵进行特征编码,获得相互作用特征信息;
根据所述局部特征信息和所述相互作用特征信息,获得第二位置特异性矩阵;
将所述第二位置特异性矩阵作为目标位置特异性矩阵。
5.蛋白质序列的水解位点预测装置,其特征在于,包括:
第一计算单元,用于计算所述蛋白质序列的特征矩阵和VHSE描述向量;所述VHSE描述向量用于表示所述蛋白质序列的亲疏水特性、几何特性和电荷特性;
第二计算单元,用于根据所述特征矩阵和所述VHSE描述向量,计算获得所述蛋白质序列各个位点的先验裂解概率;
获取单元,用于获取所述蛋白质序列的目标位置特异性矩阵;
第三计算单元,用于根据所述目标位置特异性矩阵,计算所述蛋白质序列各个位点的第一概率和第二概率;其中,第一概率表示与裂解位点距离为的氨基酸为的概率,第二概率表示在裂解位点为的条件下,附近的氨基酸为的概率;均为预设距离阈值,裂解位点k为任一位点;
第四计算单元,用于根据所述第一概率、所述第二概率和所述先验裂解概率,利用贝叶斯公式计算获得所述蛋白质序列各个位点的预测裂解概率;
确定单元,用于将所述预测裂解概率达到指定概率阈值的位点确定为水解位点。
6.如权利要求5所述的蛋白质序列的水解位点预测装置,其特征在于,所述第二计算单元包括:
卷积子单元,用于对所述特征矩阵进行卷积计算,获得第一矩阵;
注意子单元,用于根据所述VHSE描述向量学习得到权重参数和偏置参数,并根据所述权重参数和所述偏置参数,对第一矩阵进行更新获得第二矩阵;
第一提取子单元,用于对所述第二矩阵进行特征提取,获得第三矩阵;
分类子单元,用于根据所述第三矩阵的特征空间映射得到标签信息,并根据所述标签信息获得所述蛋白质序列各个位点的先验裂解概率。
7.如权利要求5所述的蛋白质序列的水解位点预测装置,其特征在于,所述获取单元包括:
比对子单元,用于获取所述蛋白质序列的多序列比对数据;
第一计算子单元,用于根据所述多序列比对数据,计算得到第一位置特异性矩阵;
确定子单元,用于将所述第一位置特异性矩阵作为目标位置特异性矩阵。
8.如权利要求5所述的蛋白质序列的水解位点预测装置,其特征在于,所述获取单元包括:
比对子单元,用于获取所述蛋白质序列的多序列比对数据;
第一计算子单元,用于根据所述多序列比对数据,计算得到第一位置特异性矩阵;
第二提取子单元,用于在所述第一计算子单元根据所述多序列比对数据计算得到第一位置特异性矩阵之后,对所述特征矩阵进行特征提取,获得所述蛋白质序列的局部特征信息;
编码子单元,用于在所述第一计算子单元根据所述多序列比对数据计算得到第一位置特异性矩阵之后,根据所述特征矩阵和所述第一位置特异性矩阵进行特征编码,获得相互作用特征信息;
第二计算子单元,用于根据所述局部特征信息和所述相互作用特征信息,获得第二位置特异性矩阵;
确定子单元,用于将所述第二位置特异性矩阵作为目标位置特异性矩阵。
9.电子设备,其特征在于,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至4任一项所述的蛋白质序列的水解位点预测方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至4任一项所述的蛋白质序列的水解位点预测方法。
CN202310046005.7A 2023-01-30 2023-01-30 蛋白质序列的水解位点预测方法及装置、设备、存储介质 Active CN115798595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310046005.7A CN115798595B (zh) 2023-01-30 2023-01-30 蛋白质序列的水解位点预测方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310046005.7A CN115798595B (zh) 2023-01-30 2023-01-30 蛋白质序列的水解位点预测方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN115798595A CN115798595A (zh) 2023-03-14
CN115798595B true CN115798595B (zh) 2023-05-09

Family

ID=85429239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310046005.7A Active CN115798595B (zh) 2023-01-30 2023-01-30 蛋白质序列的水解位点预测方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN115798595B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3008204B1 (en) * 2013-06-10 2024-03-13 Iogenetics, LLC. Mathematical processes for determination of peptidase cleavage
ES2970582T3 (es) * 2018-10-05 2024-05-29 Nec Oncoimmunity As Procedimiento y sistema para la predicción de la afinidad de unión y procedimiento de generación de un péptido de unión a proteínas candidato
EP3739589A1 (en) * 2019-05-17 2020-11-18 NEC OncoImmunity AS Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide
CN113096722A (zh) * 2021-03-17 2021-07-09 浙江工业大学 基于内积自注意力神经网络的蛋白质磷酸化位点预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
计算肽学;任彦荣;田菲菲;周鹏;;化学进展(第09期);第1674-1680页 *

Also Published As

Publication number Publication date
CN115798595A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
Yang et al. An in silico deep learning approach to multi-epitope vaccine design: a SARS-CoV-2 case study
Wei et al. Enhanced protein fold prediction method through a novel feature extraction technique
Nanni et al. Identifying bacterial virulent proteins by fusing a set of classifiers based on variants of Chou's pseudo amino acid composition and on evolutionary information
Garg et al. VirulentPred: a SVM based prediction method for virulent proteins in bacterial pathogens
Tian et al. Predicting protein–protein interactions by fusing various Chou's pseudo components and using wavelet denoising approach
Feng An overview on predicting the subcellular location of a protein
Wang Application of support vector machines in bioinformatics
Chen et al. Using increment of diversity to predict mitochondrial proteins of malaria parasite: integrating pseudo-amino acid composition and structural alphabet
Uddin et al. EvoStruct-Sub: An accurate Gram-positive protein subcellular localization predictor using evolutionary and structural features
Wang et al. FunEffector-Pred: identification of fungi effector by activate learning and genetic algorithm sampling of imbalanced data
Dao et al. BDselect: a package for k-mer selection based on the binomial distribution
Yin et al. IAV-CNN: a 2D convolutional neural network model to predict antigenic variants of influenza A virus
Xiao et al. Using pseudo amino acid composition to predict protein attributes via cellular automata and other approaches
Olson et al. Prediction of protein loop conformations using multiscale modeling methods with physical energy scoring functions
Shen et al. Methodology development for predicting subcellular localization and other attributes of proteins
Saraswathi et al. Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction
CN115798595B (zh) 蛋白质序列的水解位点预测方法及装置、设备、存储介质
Akbar et al. iAFPs-Mv-BiTCN: Predicting antifungal peptides using self-attention transformer embedding and transform evolutionary based multi-view features with bidirectional temporal convolutional networks
Kadam et al. Prediction of protein function based on machine learning methods: an overview
Lu et al. Predicting disulfide connectivity patterns
Xiong et al. RBRIdent: An algorithm for improved identification of RNA‐binding residues in proteins from primary sequences
US20230298692A1 (en) Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens
Taju et al. Using deep learning with position specific scoring matrices to identify efflux proteins in membrane and transport proteins
El-Manzalawy et al. Predicting protective bacterial antigens using random forest classifiers
CN116130005B (zh) 多表位疫苗的串联设计方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant