CN113593631B - 一种预测蛋白质-多肽结合位点的方法及系统 - Google Patents

一种预测蛋白质-多肽结合位点的方法及系统 Download PDF

Info

Publication number
CN113593631B
CN113593631B CN202110906672.9A CN202110906672A CN113593631B CN 113593631 B CN113593631 B CN 113593631B CN 202110906672 A CN202110906672 A CN 202110906672A CN 113593631 B CN113593631 B CN 113593631B
Authority
CN
China
Prior art keywords
bert
protein
sequence
neural network
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110906672.9A
Other languages
English (en)
Other versions
CN113593631A (zh
Inventor
魏乐义
王汝恒
崔立真
苏苒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110906672.9A priority Critical patent/CN113593631B/zh
Publication of CN113593631A publication Critical patent/CN113593631A/zh
Application granted granted Critical
Publication of CN113593631B publication Critical patent/CN113593631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Abstract

本发明公开了一种预测蛋白质‑多肽结合位点的方法及系统,包括:获取待预测的蛋白质‑多肽序列数据,将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;其中,所述基于预训练模型BERT和对比学习的神经网络模型首先将原始蛋白质‑多肽序列中的每个氨基酸转换为嵌入矩阵,所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵;进行BERT编码时,通过构建对比损失进行约束,生成具有区分性的结合与非结合位点表示特征。本发明使用预训练模型BERT作为对原始蛋白质序列的编码器,可以自动提取特征,从而避免由预测工具所带来的问题。

Description

一种预测蛋白质-多肽结合位点的方法及系统
技术领域
本发明涉及生物信息技术领域,特别涉及一种预测蛋白质-多肽结合位点的方法及系统。
背景技术
蛋白质-多肽相互作用是重要的蛋白质相互作用之一,在许多基本细胞过程中起着至关重要的作用,例如DNA修复、复制、基因表达和代谢。研究还发现,蛋白质相互作用涉及一些异常的细胞行为,这些行为会诱发多种疾病,其中约40%的相互作用是由相对较小的多肽介导的。因此,识别参与蛋白质-多肽相互作用的结合位点对于理解蛋白质功能和药物发现都是必要的。
目前已经有许多实验方法可以通过确定蛋白质的复杂结构来帮助找到蛋白质-多肽相互作用的结合位点,并且结构生物学的进步也带来了许多复杂的蛋白质结构数据。但是,一方面此类实验的进行通常既昂贵又耗时;另一方面多肽具有尺寸小、亲和力弱和灵活性强等特点,所以通过生物学实验的方法找到蛋白质-多肽结合位点仍然具有挑战性。因此,需要有一些可靠的计算方法来研究蛋白质-多肽结合问题。
目前,预测蛋白质-多肽结合位点的计算方法一般可分为基于结构和基于序列的两类。基于结构的方法包括PepSite、Peptimap、SPRINT-Str和PepNN-Struct等。基于序列的方法包括SPRINT-Seq、PepBind、Visual和PepNN-Seq等。虽然已经有上述很多高效的计算方法可以解决蛋白质-多肽结合位点的预测问题,但在实际的预测过程中可能没有完全考虑以下几个方面:
首先,在缺乏相关的肽结合蛋白结构时,基于蛋白质结构的结合位点预测方法则无法进行预测。实际上,大多数蛋白质都具有准确的序列信息,但不具备确定的结构数据。因此,仅依赖蛋白质序列的预测方法就更通用,适用于大多数蛋白质。
其次,基于蛋白质序列的位置特异性得分矩阵(PSSM)等其他工具预测的特征已被证明有利于模型对结合位点进行预测,因此目前大多数方法都依赖这些手工特征来预测结合位点。但实际上,使用这些工具也带来了很多问题,如软件工具包安装错误、处理时间长,尤其是无法直接根据原始序列数据批量预测结合位点。
第三,目前许多基于机器学习的生物信息学模型在分类任务上都取得了不错的效果,但在面对不平衡的数据时,它们的性能往往很差。然而,蛋白质-多肽数据集通常具有更多的非结合位点和较少的结合位点。因此,为了避免数据分布严重偏差造成的影响,目前通常采用欠采样的方法构建平衡的数据集,或者简单地赋予少数样本更高的权重,使模型更加关注它们。但是对数据集进行欠采样并不能充分利用多数样本;并且由于权重可能与数据集密切相关,因此也不能将随机赋予少数类较高的权重视为处理此类问题的通用方法。
发明内容
有鉴于此,本发明提供了一种预测蛋白质-多肽结合位点的方法及系统,基于预训练模型BERT和对比学习,且引入了自我设计的对比损失,可以更好地挖掘不同类别数据间的关联,解决了蛋白质位点预测这一不平衡问题,可以有效的预测蛋白质-多肽结合位点。
为了实现上述目的,在一些实施方式中,本发明采用如下技术方案:
一种预测蛋白质-多肽结合位点的方法,包括:
获取待预测的蛋白质-多肽序列数据,将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;
其中,所述基于预训练模型BERT和对比学习的神经网络模型首先将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵,所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵;进行BERT编码时,通过构建对比损失进行约束,生成具有区分性的结合与非结合位点表示特征。
在另一些实施方式中,本发明采用如下技术方案:
一种预测蛋白质-多肽结合位点的系统,包括:
数据获取模块,用于获取待预测的蛋白质-多肽序列数据;
结合位点预测模块,用于将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;
其中,所述基于预训练模型BERT和对比学习的神经网络模型包括:
序列embedding模块,用于将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵;
基于BERT的编码器模块,用于使得所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵;
对比学习模块,用于在进行BERT编码时,通过构建对比损失进行约束;
输出模块,用于生成具有区分性的结合与非结合位点表示特征。
在另一些实施方式中,本发明采用如下技术方案:
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的预测蛋白质-多肽结合位点的方法。
在另一些实施方式中,本发明采用如下技术方案:
一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行上述的预测蛋白质-多肽结合位点的方法。
本发明有益效果:
1.本发明提出了一种仅基于蛋白质序列的预测方法,该方法在许多评价指标方面优于最新的基于蛋白质结构的预测方法。
2.本发明使用预训练模型BERT作为对原始蛋白质序列的编码器,与传统基于手工特征的方法相比,本发明方法可以自动提取特征,而不是基于已有经验。因此,可以很好地避免由预测工具所带来的问题。
3.本发明针对该不平衡分类问题提出了一种新颖的基于对比学习的方式。它可以自适应地学习结合位点和非结合位点的高质量的特征表示,与传统欠采样方法相比,本发明方法可以充分利用大多数样本。
附图说明
图1为本发明实施例中基于预训练模型BERT和对比学习的深度神经网络结构示意图;
图2为本发明实施例中与现有方法的对比的MCC结果图;
图3(a)-(b)为本发明实施例中与现有方法的对比的ROC曲线图;
图4为本发明实施例中消融对比学习模块的结果图;
图5为本发明实施例中案例可视化结果图;
图6(a)-(b)为本发明实施例中特异性实验结果图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步的说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在一个或多个实施方式中,公开了一种预测蛋白质-多肽结合位点的方法(PepBCL),具体包括以下过程:
获取待预测的蛋白质-多肽序列数据,将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;
其中,所述基于预训练模型BERT和对比学习的神经网络模型首先将原始蛋白质序列编码为一个数字值向量;具体方法为:原始蛋白质序列中的每个氨基酸字母首先被大写,并根据定义的词汇词典翻译成数字序列,其中序列中的每个氨基酸都看作是句子中的一个词,并映射到一个数字值。
所述编码的数字值向量被在大量蛋白质序列上预先训练的嵌入层嵌入,以生成初始嵌入矩阵。将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵后,通过多头注意力机制学习蛋白质序列的多角度上下文表示,加入前馈网络以通过激活函数提取更好的上下文表示;然后应用残差连接技术和层归一化,得到BERT编码输出。
进行BERT编码的具体过程为:
通过多头注意力机制学习蛋白质序列的多角度上下文表示,加入前馈网络以通过激活函数提取更好的上下文表示;然后应用残差连接技术和层归一化,得到BERT编码输出。所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵。
在已经提出的很多对比框架中,使用更多的负样本可以极大地提高模型的性能。鉴于此,进行BERT编码时,通过构建对比损失进行约束,收集设定数量的表示矩阵,以获得足够的位点级数据进行对比学习;构建对比损失作为针对批量数据的损失函数,使相同类别样本具有相似表示而不同类的样本具有不同的表示。最终生成具有区分性的结合与非结合位点表示特征。
具体地,结合图1,本实施例中,基于预训练模型BERT和对比学习的神经网络模型具体包括:序列embedding模块、基于BERT的编码器模块、对比学习模块和输出模块。
在序列embedding模块中,原始蛋白质序列中的每个氨基酸都被转换为一个预先训练好的嵌入向量。因此,输入的整条蛋白质序列就被转换为了一个嵌入矩阵。在基于BERT的编码器模块中,输入序列的嵌入矩阵首先由深度预训练模型BERT编码,生成具有互注意力信息的高维特征表示。随后,经过FNN(全连接神经网络)层,可以得到更好的蛋白质序列中每个氨基酸的低维表示。在已经提出的很多对比框架中,使用更多的负样本可以极大地提高模型的性能。鉴于此,本实施例提出了一个新的对比学习模块,该模块可以计算设定数量的数据的正样本-正样本对、负样本-负样本对和正样本-负样本对之间的对比损失,来约束编码器模块生成更加具有区分性的结合与非结合位点表示特征。最后,输出模块可以生成位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合。
本实施例中,构建序列embedding模块的具体方法包括:
原始蛋白质序列中的每个氨基酸字母首先被大写,并根据定义的词汇词典翻译成数字序列,其中序列中的每个氨基酸都可以看作是句子中的一个词,并映射到一个数字值。例如,S(丝氨酸)对应数字11,L(亮氨酸)对应数字6。需要注意的是,稀有氨基酸将统一替换为字典中对应的数字26。考虑到不是大数据集,特别是由于过度填充导致的性能下降问题,我们没有将蛋白质序列填充到相同的长度。这样,原始蛋白质序列就被编码为一个数字值向量。然后,编码向量被在大量蛋白质序列上预先训练的嵌入层嵌入,以生成与一般嵌入层相比较好的初始嵌入。
本实施例中,构建基于BERT的编码器模块的具体方法包括:
BERT模型的基本单元是由多头注意力机制、前馈网络和残差连接技术组成的编码器块。多头注意力机制由许多独立的自注意力模块组成,用于学习蛋白质序列的多角度上下文表示。自注意力机制描述如下:
Figure BDA0003201929290000071
Figure BDA0003201929290000072
其中
Figure BDA0003201929290000073
是序列embedding模块的输出,并分别通过线性层
Figure BDA0003201929290000081
转化为查询矩阵
Figure BDA0003201929290000082
键矩阵
Figure BDA0003201929290000083
和值矩阵
Figure BDA0003201929290000084
L是输入蛋白质序列的长度,dm是初试嵌入维度,dk是矩阵Q、K和V的维度。
多头注意力机制基于上述的自注意力机制,可表述为如下:
Figure BDA0003201929290000085
其中
Figure BDA0003201929290000086
分别是第i个head的查询矩阵、键矩阵和值矩阵对应的线性变换层,h表示head的数目。
Figure BDA0003201929290000087
是一个线性转换层,可以将多头注意力的输出维度映射到嵌入模块的初始嵌入维度。之后,应用残差连接技术和层归一化(LN),XMultiHead是多头注意力模块的最终输出。
加入前馈网络(FFN)以通过激活函数提取更好的表示,其数学描述如下:
Figure BDA0003201929290000088
其中XMultiHead是多头注意力机制的输出,
Figure BDA0003201929290000089
Figure BDA00032019292900000810
是两个线性层并且在所有位置共享。dm是初始嵌入维度,df是前向网络隐藏层的维度。gelu(Gaussian Error Linear Units)是一个非线性激活函数,前馈网络的输出也运用了残差连接技术并经过层归一化。
由于BERT模型有许多编码器块,因此BERT的最终编码过程可以表示为如下:
X(i)=FFN(MultiHead(X(i-1))),i=1,...,n(5)
其中,X(i)是第i个编码器块的输出,n表示编码器块的总数。X(0)是初始输入嵌入矩阵,这里为了方便起见,我们认为多头注意力和FFN都包括残差连接技术和LN。
BERT模型编码后,我们将得到最后一个编码器块的输出X(n),维数仍然很高。因此,为了避免维度的冗余,如下使用FNN(全连接神经网络)来更好地提取输入序列中氨基酸的表示,同时降低维度。
XEncode=elu(X(n)W(3))W(4) (6)
其中
Figure BDA0003201929290000091
Figure BDA0003201929290000092
是FNN的线性层,elu(ExponentialLinear Units)是一种流行的非线性激活函数。d1,d2分别是FNN第一层和第二层的隐藏层维度。通过这种方式,得到了输入序列中每个氨基酸较好的低维表示。
本实施例中,构建对比学习模块的具体方法如下:
本实施例提出了一种基于有监督数据的新颖的对比学习模块,使得相同类别输入的表示映射到表示空间中相近的点,而不同的类别输入则映射到远处。具体来说,考虑到没有将蛋白质序列填充到相同的长度,本实施例将首先从编码器模块收集设定数量的表示矩阵。通过这种方式,可以获得足够的位点级数据进行对比学习。随后,为了使相同类别样本具有相似表示而不同类的样本具有不同的表示,本实施例构建了对比损失作为我们的模型针对批量数据的损失函数。对于其中的一对位点表示,损失定义如下:
Figure BDA0003201929290000093
其中,一对位点表示z1,z2的相似性可以通过D(z1,z2)来度量。如果这对位点属于不同的类,则y等于1,这意味着一个位点是结合的,而另一个不是;如果这对位点属于同一类,则y等于0。Dmax是D(z1,z2)的最大值,这里等于2。值得注意的是,通过给不同类别位点对一个更高的权重3,使模型间接地更多关注少数类。
本实施例中,构建输出模块的具体方法包括:
由前面的模块从原始蛋白质序列x中生成的位点表示向量z被送入多层感知机(MLP),将特征向量转换为位点级别的类别输出yp,即,
Figure BDA0003201929290000101
其中,Sequence-Embed表示序列embedding模块,BERT-baseced-Encode表示基于BERT的编码器模块。xEncode是由许多位点特征向量组成的编码序列级表示,xEncode,i是序列中的第i个位点表示,而n是序列中位点的数量。
这里使用交叉熵损失函数来训练输出模块以提高预测性能,即,
Figure BDA0003201929290000102
其中,k=0或1表示非结合位点或结合位点,并且pk是将位点视为类别k的概率。N是位点的数量,yi是位点i的标签,L2表示设定数量的数据的交叉熵损失。
为了避免L2损失的反向传播干扰表示学习模块和由于深度模型BERT引起的梯度消失问题,表示学习部分的优化和预测部分被分离开来。具体来说,在训练输出模块时冻结基于BERT的编码器模块中的参数。模型的损失函数可描述为如下:
Figure BDA0003201929290000111
本实施例中,为了更好地评估本实施例提出的方法的整体性能,选择使用不平衡分类任务中常用的四个指标,包括召回率(Recall)、特异性(Specificity)、准确率(Precision)和马修斯相关系数(MCC)。它们的计算公式如下:
Figure BDA0003201929290000112
其中TP(真阳性)和TN(真阴性)表示正确预测的结合残基和非结合残基的数量,FP(假阳性)和FN(假阴性)表示错误预测的结合残基和非结合残基的数量。Recall是指模型正确预测的结合残基的比例,Specificity是指模型正确预测的非结合残基的比例。Precision表示预测为结合的残基的预测准确性。MCC是一个综合性度量指标,同时考虑了结合残基和非结合残基的预测表现,广泛用于不平衡数据集。此外,还计算了AUC,即ROC(接收者操作特征)曲线下的面积,以衡量神经网络模型的整体性能。
下面通过实验验证本实施例方法的性能
为了评估本实施例方法PepBCL的性能,首先构建了两个在以前的方法中广泛使用的数据集,并运用构建的基于预训练模型BERT和对比学习的神经网络模型进行实验。
具体的数据集如下:
(1)基准数据集
选择在SPRINT-Seq方法中提出的包含有1,279个肽结合蛋白的数据集作为我们的基准数据集,其中包含16,749(290,943)个多肽结合(非结合)残基。具体来说,该数据集通过以下两个步骤进行处理而得到:
①从BioLiP数据库中获取并收集蛋白质-多肽数据;
②通过BLAST包中的“blastclust”聚类并筛选去除序列同一性>30%的蛋白质。
(2)对比实验数据集:
准备Dataset 1和Dataset 2;从基于蛋白质结构的方法SPRINT-Str中收集了测试集(用TS125表示),基准数据集中划分完测试集后剩下的作为训练集(用TR1154表示),这样就把TR1154和TS125作为Dataset 1的训练集和测试集。为了进一步评估本实施例提出的方法PepBCL与最新的方法(PepBind、PepNN-Seq、PepNN-Struct)的性能,我们还获取了与PepBind方法相同的训练集(由TR640表示)和测试集(由TS639表示)作为Dataset 2的训练集和测试集。
(3)特异性实验数据集
从文章“A comprehensive comparative review of sequence-basedpredictors of DNA-and RNA-binding residues”中随机挑选了30个DNA结合蛋白质(命名为DNA30)和30个RNA结合蛋白质(命名为RNA30);
从文章“StackCBPred:A stacking based prediction of protein-carbohydrate binding sites from sequence”中随机挑选了30个carbohydrate结合蛋白质(命名为CBH30)。把所得到的这三个数据集(DNA30、RNA30和CBH30)作为我们特异性实验的数据集。
在上述获取的数据集的基础上,我们将本实施例方法PepBCL与包括传统机器学习方法和多个最新方法在内的现有方法进行了比较。评价指标为体现模型综合性能的AUC和MCC,如图2和图3中所示,得到了最后的测试集预测评价结果。图2为PepBCL和其他现有方法在测试集TS125上的MCC折线图,图3(a)为PepBCL和其他现有方法在测试集TS125上的ROC曲线图;图3(b)为PepBCL和最新的方法PepBind在测试集TS639上的ROC曲线图。为了验证本实施例提出的对比学习模块能够帮助模型提取到更加高质量的特征,我们进行了消融实验,即首先构建一个与本实施例中相同的基于预训练模型BERT和对比学习的神经网络模型,再构建一个缺少对比学习模块的消融网络,并在对比实验数据集Dataset 1和Dataset 2上对两个网络进行实验。
对于完整网络我们通过最小化对比损失函数
Figure BDA0003201929290000131
与交叉熵损失函数
Figure BDA0003201929290000132
之和来优化网络参数;对于消融网络,我们仅通过最小化交叉熵损失函数
Figure BDA0003201929290000133
来优化网络参数。最终我们将两个网络在测试集上得到的高维度特征通过t-SNE工具降维并可视化,不同类型的样本分别用不同颜色标注,两种颜色越分明说明模型得到的特征越好、质量越高。
图4为完整的与缺少对比模块的PepBCL模型的特征空间分布的t-SNE可视化图。其中,(A)和(B)表示PepBCL在Dataset1上使用和不使用对比模块的t-SNE可视化结果;(C)和(D)表示PepBCL在Dataset 2上使用和不使用对比模块的t-SNE可视化结果。图4所示结果表明,本实施例提出的对比学习框架学习了高质量的表示并提高了预测性能。
为了进一步直观的观察本实施例神经网络模型的优势,首先在测试集中随机挑选了两个蛋白质,他们的PDB id为4l3oA和1fchA。然后采用本实施例的神经网络模型与对比方法PepBind,分别对这两个蛋白质做了对比实验,并将所预测的结果通过可视化工具进行了可视化,如图5所示,两种不同颜色表示结合与非结合残基,与生物学实验得到的真实结合残基预测情况越相似则预测效果越好。
图5展示了在随机挑选的两个蛋白质(pdbID:4l3oA和1fchA)上PepBCL和现有方法预测结果的可视化图。(A)-(C)分别代表在蛋白质4l3oA上生物学实验得到的真实结合残基、PepBCL的预测结合残基和PepBind的预测结合残基;(D)-(F)分别代表在蛋白质1fchA上生物学实验得到的真实结合残基、PepBCL的预测结合残基和PepBind的预测结合残基。
为了验证本实施例神经网络模型对蛋白质-多肽结合位点的识别具有特异性,运用本实施例神经网络模型在数据集Dataset 1和数据集DNA30、RNA30和CBH30四个数据集上进行了对比实验,并采用评价指标进行评价。
图6(a)-(b)为将本实施例的方法PepBCL对与不同配体(多肽、DNA、RNA、碳水化合物)结合的蛋白质的结合位点预测性能。图6(a)表示本实施例的方法PepBCL在不同配体结合蛋白数据集上的召回率(recall)、查准率(Precision)和MCC。图6(b)表示本实施例的方法在四种不同的配体结合蛋白数据集上的ROC曲线图。
图6(a)-(b)所示结果表明,本实施例的模型PepBCL对蛋白质-多肽结合位点的识别具有特异性。
本实施例首次将对比学习应用到预测蛋白质-多肽结合位点的问题上,并结合预训练模型BERT来作为蛋白质序列的编码器,在多个测试集上取得了不错的结果。同时,巧妙的设计了多个对比实验,有效的验证了方法的综合性能。
实施例二
在一个或多个实施方式中,公开了一种预测蛋白质-多肽结合位点的系统,包括:
数据获取模块,用于获取待预测的蛋白质-多肽序列数据;
结合位点预测模块,用于将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;
其中,所述基于预训练模型BERT和对比学习的神经网络模型包括:
序列embedding模块,用于将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵;
基于BERT的编码器模块,用于使得所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵;
对比学习模块,用于在进行BERT编码时,通过构建对比损失进行约束;
输出模块,用于生成具有区分性的结合与非结合位点表示特征。
上述各模块的具体实现方式采用实施例一中公开的方法实现,不再赘述。
实施例三
在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的预测蛋白质-多肽结合位点的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的预测蛋白质-多肽结合位点的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种预测蛋白质-多肽结合位点的方法,其特征在于,包括:
获取待预测的蛋白质-多肽序列数据,将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;
其中,所述基于预训练模型BERT和对比学习的神经网络模型首先将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵,所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵;进行BERT编码时,通过构建对比损失进行约束,生成具有区分性的结合与非结合位点表示特征;
所述进行BERT编码,具体过程为:
通过多头注意力机制学习蛋白质序列的多角度上下文表示,加入前馈网络以通过激活函数提取更好的上下文表示;然后应用残差连接技术和层归一化,得到BERT编码输出;
所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵。
2.如权利要求1所述的一种预测蛋白质-多肽结合位点的方法,其特征在于,所述将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵,具体包括:
将原始蛋白质序列编码为一个数字值向量;所述编码向量被在大量蛋白质序列上预先训练的嵌入层嵌入,以生成初始嵌入矩阵。
3.如权利要求2所述的一种预测蛋白质-多肽结合位点的方法,其特征在于,将原始蛋白质序列编码为一个数字值向量,具体为:原始蛋白质序列中的每个氨基酸字母首先被大写,并根据定义的词汇词典翻译成数字序列,其中序列中的每个氨基酸都看作是句子中的一个词,并映射到一个数字值。
4.如权利要求1所述的一种预测蛋白质-多肽结合位点的方法,其特征在于,所述进行BERT编码时,通过构建对比损失进行约束,具体包括:
收集设定数量的表示矩阵,以获得足够的位点级数据进行对比学习;
构建对比损失作为针对批量数据的损失函数,使相同类别样本具有相似表示而不同类的样本具有不同的表示。
5.如权利要求1所述的一种预测蛋白质-多肽结合位点的方法,其特征在于,从原始蛋白质序列x中生成的位点表示向量被送入多层感知机,将特征向量转换为位点级别的类别输出;并使用交叉熵损失函数来对上述过程进行训练。
6.如权利要求1所述的一种预测蛋白质-多肽结合位点的方法,其特征在于,选取召回率、特异性、准确率和马修斯相关系数作为所述基于预训练模型BERT和对比学习的神经网络模型的评价指标,对神经网络模型进行评价。
7.一种预测蛋白质-多肽结合位点的系统,其特征在于,包括:
数据获取模块,用于获取待预测的蛋白质-多肽序列数据;
结合位点预测模块,用于将所述数据输入到训练好的基于预训练模型BERT和对比学习的神经网络模型,输出位点级别的多肽结合概率,并确定输入序列中的各个位点是否结合;
其中,所述基于预训练模型BERT和对比学习的神经网络模型包括:
序列embedding模块,用于将原始蛋白质-多肽序列中的每个氨基酸转换为嵌入矩阵;
基于BERT的编码器模块,用于使得所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵;
对比学习模块,用于在进行BERT编码时,通过构建对比损失进行约束;
输出模块,用于生成具有区分性的结合与非结合位点表示特征;
所述进行BERT编码,具体过程为:
通过多头注意力机制学习蛋白质序列的多角度上下文表示,加入前馈网络以通过激活函数提取更好的上下文表示;然后应用残差连接技术和层归一化,得到BERT编码输出;
所述嵌入矩阵经过BERT编码和全连接神经网络层,得到每个氨基酸的低维表示矩阵。
8.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-6任一项所述的预测蛋白质-多肽结合位点的方法。
9.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行权利要求1-6任一项所述的预测蛋白质-多肽结合位点的方法。
CN202110906672.9A 2021-08-09 2021-08-09 一种预测蛋白质-多肽结合位点的方法及系统 Active CN113593631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110906672.9A CN113593631B (zh) 2021-08-09 2021-08-09 一种预测蛋白质-多肽结合位点的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110906672.9A CN113593631B (zh) 2021-08-09 2021-08-09 一种预测蛋白质-多肽结合位点的方法及系统

Publications (2)

Publication Number Publication Date
CN113593631A CN113593631A (zh) 2021-11-02
CN113593631B true CN113593631B (zh) 2022-11-29

Family

ID=78256205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110906672.9A Active CN113593631B (zh) 2021-08-09 2021-08-09 一种预测蛋白质-多肽结合位点的方法及系统

Country Status (1)

Country Link
CN (1) CN113593631B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550824B (zh) * 2022-01-29 2022-11-22 河南大学 基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统
CN114678061A (zh) * 2022-02-09 2022-06-28 浙江大学杭州国际科创中心 基于预训练语言模型的蛋白质构象感知表示学习方法
CN115116559B (zh) * 2022-06-21 2023-04-18 北京百度网讯科技有限公司 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
WO2024018467A1 (en) * 2022-07-19 2024-01-25 Clonal Ltd System and method for tcr sequence identification and/or classification
CN115458039B (zh) * 2022-08-08 2023-10-10 北京分子之心科技有限公司 基于机器学习的单序列蛋白结构预测的方法和系统
CN115331728B (zh) * 2022-08-12 2023-06-30 杭州力文所生物科技有限公司 一种稳定折叠的富含二硫键的多肽设计方法及其电子设备
CN115497555B (zh) * 2022-08-16 2024-01-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质
CN115512763B (zh) * 2022-09-06 2023-10-24 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
CN115512762B (zh) * 2022-10-26 2023-06-20 北京百度网讯科技有限公司 多肽序列的生成方法、装置、电子设备及存储介质
CN115410660B (zh) * 2022-11-02 2023-01-24 中国海洋大学 合成成药性多肽的方法、装置、存储介质和计算机设备
CN115630646B (zh) * 2022-12-20 2023-05-16 粤港澳大湾区数字经济研究院(福田) 一种抗体序列预训练模型的训练方法及相关设备
CN115966249B (zh) * 2023-02-15 2023-05-26 北京科技大学 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置
CN116153435B (zh) * 2023-04-21 2023-08-11 山东大学齐鲁医院 基于上色与三维结构的多肽预测方法及系统
CN116884473B (zh) * 2023-05-22 2024-04-26 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种蛋白质功能预测模型生成方法及装置
CN117037897A (zh) * 2023-07-18 2023-11-10 哈尔滨工业大学 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法
CN116758983A (zh) * 2023-08-23 2023-09-15 山东大学 一种赖氨酸磷酸甘油化位点识别方法及系统
CN116935952B (zh) * 2023-09-18 2023-12-01 浙江大学杭州国际科创中心 基于图神经网络训练蛋白质预测模型的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112382338A (zh) * 2020-11-16 2021-02-19 南京理工大学 基于自注意力残差网络的dna-蛋白质结合位点预测方法
CN112765358A (zh) * 2021-02-23 2021-05-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3841585A4 (en) * 2018-08-20 2022-08-03 NantOmics, LLC METHODS AND SYSTEMS FOR IMPROVED PREDICTION OF THE MAJOR HISTOCOMPATIBILITY COMPLEX (MHC) PEPTIDE BINDING OF NEOEPITOPES USING A RECURRENT NEURAL NETWORK ENCODER AND ATTENTION WEIGHTING
US20210166779A1 (en) * 2019-12-02 2021-06-03 Deepmind Technologies Limited Protein Structure Prediction from Amino Acid Sequences Using Self-Attention Neural Networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112382338A (zh) * 2020-11-16 2021-02-19 南京理工大学 基于自注意力残差网络的dna-蛋白质结合位点预测方法
CN112765358A (zh) * 2021-02-23 2021-05-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Also Published As

Publication number Publication date
CN113593631A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113593631B (zh) 一种预测蛋白质-多肽结合位点的方法及系统
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Hu et al. An improved deep learning method for predicting DNA-binding proteins based on contextual features in amino acid sequences
CN110070914B (zh) 一种基因序列识别方法、系统和计算机可读存储介质
CN113744799B (zh) 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法
CN116486900B (zh) 基于深度模态数据融合的药物靶标亲和度预测方法
Jiang et al. Explainable deep hypergraph learning modeling the peptide secondary structure prediction
CN114420211A (zh) 一种基于注意力机制的rna-蛋白质结合位点预测方法
Zhang et al. Gene prediction in metagenomic fragments with deep learning
CN113257357B (zh) 蛋白质残基接触图预测方法
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
CN109215733B (zh) 一种基于残基接触信息辅助评价的蛋白质结构预测方法
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN116386724A (zh) 蛋白质相互作用的预测方法、装置、电子设备及存储介质
CN112365924B (zh) 双向三核苷酸位置特异性偏好和点联合互信息dna/rna序列编码方法
Zhang et al. Improving protein secondary structure prediction by using the residue conformational classes
CN113764031A (zh) 一种跨组织/物种rna中n6甲基腺苷位点的预测方法
CN113851192B (zh) 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN112185466B (zh) 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
Du et al. Predicting TF proteins by incorporating evolution information through PSSM
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
Sinha et al. HybridSeqNet: A Multimodal Approach Incorporating Convolutional and Long Short-Term Memory Networks for Comprehensive Structural Protein Classification
Huang et al. Capsule network for protein ubiquitination site prediction
CN115472229A (zh) 一种嗜热蛋白预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant