CN112614538A

CN112614538A - 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置

Info

Publication number: CN112614538A
Application number: CN202011498422.8A
Authority: CN
Inventors: 刘向荣; 张悦; 曾湘祥; 林剑远; 赵连敏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-06

Abstract

本发明公开了一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置，所述方法包括以下步骤：步骤S1：采用预训练策略，对来自蛋白质数据库的无标签蛋白质序列进行分词、遮盖处理，进行掩盖语言模型和句子连续性预测两个任务的预训练，捕捉词语级别和句子级别的表示，帮助模型学习蛋白质序列通用的结构化特征；步骤S2：针对抗菌肽预识别和预测任务，更改预训练模型的输出层，使用带标签的抗菌肽数据集对模型进行微调，生成抗菌肽预测模型；步骤S3：根据抗菌肽预识别和预测任务，采用抗菌肽预测模型进行识别，输出预测结果。本发明将预训练应用到抗菌肽识别和预测领域，基于已知的数据量小、分布不均衡的抗菌肽序列，建立高效的抗菌肽预测模型。

Description

一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置

技术领域

本发明涉及抗菌肽组分的计算机识别技术领域，尤其涉及一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置。

背景技术

由于抗生素的滥用，致病菌抗药性问题日趋严重，已经成为影响人类健康的巨大威胁。寻找抗生素的新原料是保护人类健康的有效途径。作为生物机体天然免疫系统的重要组成部分，抗菌肽(AMP)是一类在自然界生物中广泛存在的小分子多肽，通过破坏细胞膜、干扰DNA的复制和转录过程等方式杀灭靶菌，对细菌、病毒、真菌、寄生虫、肿瘤细胞具有一定的抑杀作用。由于具有抗菌活性高，作用效果稳定，靶菌株不易产生抗药性，无药物残留等许多优点，抗菌肽被视为抗生素的最佳替代品。

由于识别抗菌肽的实验方法成本高、难度大，因此越来越多的研究集中在用计算方法解决这个问题。

科研工作者陆续建立了多个抗菌肽数据库，收录了各种来源各种类型的抗菌肽数据，如APD、CAMP、AVPdb等，极大地方便了抗菌肽的研究。使用者可以通过查询，从数据库中获得抗菌肽的氨基酸序列、理化性质、功能注释等信息，还可以使用其提供的检索、序列比对、预测分析等工具对数据进行处理。

目前，抗菌肽的计算机辅助识别方法可分为基于经验分析的方法和基于机器学习的方法。

基于经验分析的方法以确定类型的抗菌肽为模板，利用已知的经验规则对肽链特征与抗菌活性间之间的关系进行统计分析，建立模型，本质上是识别待测序列是否具有训练集的某些特定特征。该方法在预测抗菌肽序列上十分有效，缺点是比较依赖训练集现有的语义模式，难以迁移到其他类别的抗菌肽上。

研究人员已经提出了许多基于机器学习来鉴定和预测抗菌肽的方法。例如，FjellC D等人构建了一个用于AMP聚类和分析的隐马尔可夫模型(HMM)；Lata S等人使用支持向量机(SVM)来预测和分类AMP；Xiao X等人开发了基于模糊K最近邻(FKNN)的AMP分类器；Chang K Y等人首次将随机森林应用到抗病毒肽(AVPs)的预测中。这些研究表明，氨基酸序列本身包含了其是否具有抗菌活性的关键信息。

大多数现有的计算方法可以通过序列本身识别抗菌肽，但由于已知的抗菌肽的数据量比较少，识别准确率仍有提高空间，且存在构建的模型不能在各数据集中通用的问题。因此，如何提高识别和预测精度，如何构建在不同数据集上可快速迁移的通用模型是需要探索的问题。

近年来，Devlin J等人提出的BERT(Bidirectional Encoder Representationfrom Transformers)模型，在自然语言处理的许多任务中均表现出了优秀的性能。其搭建了以自注意力机制为核心的Transformer网络结构。此外使用预训练方法，通过大量的训练，先使得模型能够预测一个句子中被掩盖(Masked)的单词，使得模型能够捕获语言上的词义、语义等特征，再针对下游的自然语言处理任务对模型进行微调。Seonwoo等人基于BERT创建了一种新型预训练方案Protein-sequence representations Learned UsingStructural information(简称为PLUS)。该方案使用来自Pfam的14670860条序列进行包括掩盖的语言建模masked language modeling(MLM)和相同家族预测same familyprediction(SFP)的预训练任务。经过PLUS预训练递归神经网络得到的模型PLUS-RNN在三种蛋白质(对)级的分类，两种蛋白质水平的回归，两个氨基酸水平的分类，共六个任务上取得了目前最优的结果，证明了BERT在生物序列处理上的适用性。但PLUS仍需要千万级的训练数据作为支撑，因此BERT在生物序列处理上的应用仍存在较大的改进空间。

上述这些检测和鉴定抗微生物肽的方法，大大提高了抗菌肽识别和预测的准确率和速度，但仍然存在一定的提高空间，例如存在由小语料库训练的词向量包含的信息不足等问题，且存在构建的模型不能在各数据集中通用的问题。

发明内容

有鉴于现有技术的上述缺陷(不足)，本发明的目的是提供一种基于自然语言处理的抗菌肽预测方法，以进一步提高抗菌肽识别和预测的准确率和速度，及解决构建的模型不能在各数据集中通用的问题。

为实现上述目的，本发明提供了以下技术方案：

一种基于蛋白质预训练表征学习的抗菌肽预测方法，包括以下步骤：

步骤S1：采用预训练策略，对来自蛋白质数据库的无标签蛋白质序列进行分词、遮盖处理，进行掩盖语言模型和句子连续性预测两个任务的预训练，捕捉词语级别和句子级别的表示，帮助模型学习蛋白质序列通用的结构化特征；

步骤S2：针对抗菌肽识别和预测任务，更改预训练模型的输出层，使用带标签的抗菌肽数据集对模型进行微调，生成抗菌肽预测模型；

步骤S3：根据抗菌肽识别和预测任务，采用抗菌肽预测模型进行识别，输出预测结果。

进一步的，所述步骤S1中的蛋白质序列的分词处理是指将蛋白质序列文本按固定氨基酸数量进行等长分组，允许最后一个分组例外；每条蛋白质序列二分断开形成语句对和上下文关系。

进一步的，所述预训练策略中采用的预训练模型为BERT预训练模型，所述BERT预训练模型为深度双向语言表征模型，采用双向Transformer作为编码器，所述预训练的过程具体包括：

从蛋白质数据库获取大量无标记的蛋白质序列，形成预训练数据集；

将预训练数据集引入BERT预训练模型进行预训练；使用掩盖语言模型和句子连续性预测两个任务进行联合训练，所述预训练包括两个预训练任务：采用掩盖语言模型训练模型预测蛋白质序列的蒙面氨基酸，采用句子连续性预测判断蛋白质序列文本的语句对是否上下文连续。

进一步的，所述预训练任务中，采用掩盖语言模型训练预测蛋白质序列的蒙面氨基酸，具体包括：以掩盖语言模型作为源任务，随机掩盖数据中15％的单词，通过使似然函数p＝p(x_masked|x_unmasked)最大化来预测这些被掩盖的单词；执行掩盖策略，80％的情况下用[MASK]掩码来替换被掩盖的单词，10％的情况下用一个随机的词来替换，10％的情况下是保持被选择的词不变。

进一步的，所述预训练任务中，采用句子连续性预测判断蛋白质序列文本的语句对是否上下文连续，具体包括：随机将数据划分为两部分，50％的数据中的两个语句对是上下文连续的，另50％的数据中的两个语句对是上下文不连续的，通过识别这些语句对是否连续来训练BERT模型。

进一步的，所述步骤S2中，使用带标签的抗菌肽数据集对模型进行微调，生成特定的抗菌肽预测模型，具体包括：

选取抗菌肽数据集为训练集，所述抗菌肽数据集包含已标记的抗菌肽序列和非抗菌肽序列；

对抗菌肽数据集进行平衡处理：对抗菌肽数据集的负样本进行随机向下采样，使训练集中的负样本的数量和正样本的数量可以比拟；所述正样本是指抗菌肽序列，所述负样本是指非抗菌肽序列。

进一步的，所述带标签的抗菌肽数据集的数量为多个，以训练通用的抗菌肽预测模型。

本发明还提出了一种计算装置，包括一个或多个处理器、存储器，所述存储器存储有一段计算机程序，所述计算机程序被处理器执行时实现如上所述的基于蛋白质预训练表征学习的抗菌肽预测方法。

本发明将预训练应用到抗菌肽识别和预测领域，基于已知的数据量小、分布不均衡的抗菌肽序列，建立高效的抗菌肽预测模型，从而从海量的蛋白质序列中进行抗菌肽预测和识别。

附图说明

图1是本发明采用的蛋白质序列文本的三种分词方式；

图2是本发明的抗菌肽预测框图；

图3是采用预训练模型和非预训练模型的结果对比。

具体实施方式

实施例1

本发明的基于蛋白质预训练表征学习的抗菌肽预测方法，应用了自然语言处理的深度学习中的预训练+微调的方法，包括以下步骤：首先在大量无标记的语料上训练一个语言模型，然后使用特定的数据量较小的数据集，如文本分类数据集、命名实体识别数据集等来对模型进行微调，这个过程通常只需要很短的时间。因此在预训练好一个模型之后，这个模型能够很快地迁移到任意的自然语言处理任务，这有助于模型节省训练时间和计算资源。目前经过实验测定的抗菌肽数量远远小于已知的存在的且序列测定出来的蛋白质数量。在利用大量蛋白质数据得到的预训练模型上使用抗菌肽序列进行微调，有助于挖掘氨基酸序列更丰富，更准确的信息，提高模型的预测性能。

在本实施例中，从UniProt数据库(一个大型的蛋白质数据库)获得了用于模型预训练的数据，然后在四个抗菌肽数据集上针对不同的分词方式对模型进行了微调和测试，利用全部的抗菌肽数据集训练出了一个通用的抗菌肽识别模型。以下针对抗菌肽预测方法中的技术点进行说明。

1.训练集

1.1预训练数据集

在NLP(自然语言处理)中，为了训练模型以捕获与下游任务相关的序列的事实，常常使用一些大型语料库。例如，Howard J等在Wikitext-103上预先训练了语言模型，该模型由28,595篇预处理的Wikipedia文章和1.03亿个单词组成。为了使得模型在通过预训练之后能够捕捉到蛋白质序列的长期依赖、层次关系，本实施例从UniProt数据库上下载了五十多万条数据作为预训练数据。UniProt是目前信息最丰富，资源最丰富的蛋白质数据库，这为模型的预训练提供了足够的数据。

1.2微调数据集

由于抗菌肽鉴定中没有基准数据集，我们收集了由Veltri D等人，Youmans M等人，Xiao X等人，Lin Y等人创建的4组不同的抗菌肽及非抗菌肽数据集，在下文中采用对应的人名对数据集进行标识。我们分别用以上的数据集微调我们的预训练模型，并将我们的模型与原模型预测效果进行比对。

四组数据集中的正样本都是直接从专门的收录抗菌肽的数据库：抗菌肽数据库(APD)、肽的抗菌活性和结构数据库(DBAASP)中通过对功能类型、抑菌对象、肽链长度等特征进行筛选得到的。由于没有专门的非抗菌肽数据库，在本实施例中，负样本的获取是通过在UniProt数据库中设置一些条件，如不具有抗菌性的功能注释、是分泌蛋白等，过滤掉部分具有抗菌功能的肽序列得到的。由于不同的研究人员在选择样本时设置的过滤条件不同，对初始样本进行的预处理，如用CD-HIT对样本进行去冗余时设置的阈值也不同，最终得到的四组数据集中的样本在分布上具有很大的差异性。我们分别在四组不同的数据集上进行微调和测试，旨在减少算法和训练集的偏向性，保证算法的普适性。

由于目前经过实验测定的抗菌肽数量远远小于自然界已知的经过序列测定的蛋白质，构造的数据集中，一般都存在负样本的数量大于正样本的数量的情况。非平衡的训练集将导致模型存在预测偏差，因此，我们对训练集的负样本进行随机向下采样来平衡训练集。

表1四个数据集的数据量的统计

2.肽的表示

蛋白质都是由天然氨基酸按不同比例组合而成的，我们在字母表中使用20个不同的字母来代表20种天然氨基酸。在本文中，肽链表示为x＝[x₁,x₂,…,x_n]^T，其中x_i是肽链中的第i个氨基酸，n是肽链中的氨基酸数。在用于微调的小型抗菌肽和非抗菌肽数据集中，每个肽序列都包含标记y，当该肽为抗菌肽时为1，为非抗菌肽时为0。

蛋白质序列不同于英文文本和中文文本。英文文本以空格来区分序列中的每一个词，中文文本可以通过分词算法来对文本进行分词，蛋白质序列则显示为采用字母表中使用20个不同的字母组成的无间隔文本。在本实施例中，k个氨基酸作为一组，被用作“单词”，称为k-mer。将一条蛋白质序列从头到尾进行分割，当序列尾部少于k个氨基酸时，剩余的少于k个的氨基酸组成“单词”。在本实施例中，分别给出了选择k＝1、2、3的示例，如图1所示。

3.方法

在自然语言处理中，直接训练模型完成目标任务有三个缺点：首先，模型的权重是随机初始化的，因此需要大量时间来训练模型。其次，模型不能转移到其他目标任务。第三，目标任务数据集的数据需要手动标记。这些缺点导致训练模型来完成目标任务效率低下。

如图2所示，本发明的模型采用预训练策略，对来自UniProt的无标签蛋白质序列进行分词、遮盖等处理，进行掩盖语言模型Masked Language Model(MLM)和句子连续性预测Next Sentence Prediction(NSP)两个任务的预训练，捕捉词语级别和句子级别的表示，帮助模型学习蛋白质序列通用的结构化特征。再针对特定的下游任务，即抗菌肽识别和预测，更改预训练模型的输出层，使用带标签的四组具有差异性的数据集对模型进行微调，生成四组特定的抗菌肽预测模型。在下文中，我们将介绍BERT模型架构以及训练过程的详细信息。

3.1算法

BERT预训练(Pre-training)一个深度双向语言表征模型，接着针对特定的任务，只需要改变输出层就可以实现对预训练模型进行微调(Fine-tune)而无需进行大幅度的架构修改。它采用双向Transformer作为编码器，使用掩盖语言模型(Masked LanguageModel)和句子连续性预测(Next Sentence Prediction)两个任务进行联合训练，使得模型能够捕获许多与下游任务相关的序列事实，例如长期依赖性，层次关系。

在预训练中，有两个任务，一个是源任务T_s，另一个是目标任务T_t。通常源任务是语言模型。对于序列X＝[x₁,x₂,…,x_n]，语言模型使可能性p_i＝p(x_i|x₁,x₂,…,x_i-1)最大化，即序列中的第i个标记仅取决于其前面的标记。为了让语言模型捕获有关序列的上下文信息，它通常使似然函数p_i＝p(x_i|x₁,x₂,…,x_i-1)+p(x_i|x_i+1,x_i+2,…,x_n)最大化。BERT模型的掩盖语言模型作为源任务，随机掩盖数据中15％的单词，通过使似然函数p＝p(x_masked|x_unmasked)最大化来预测这些masked token(指被掩盖的单词)。同时为了减轻预训练和微调之间的不匹配，80％的情况下用[MASK]掩码来替换被掩盖的单词，10％的情况下用一个随机的词来替换，10％的情况下是保持被选择的词不变。在“Next Sentence Prediction”任务中，随机将数据划分为两部分，50％的数据中的两个语句对是上下文连续的，另50％的数据中的两个语句对是上下文不连续的。通过识别这些语句对是否连续来训练BERT模型。通过预训练提高模型在源任务上的性能，其在目标任务上的性能也将得到改善。

Transformer是一种基于encoder-decoder的模型，用全Attention结构代替了LSTM，可以进行并行计算，具有较好捕获长距离特征的能力。encoder由N个相同的层堆叠在一起，每层由一个多头自注意力结构(Multi-Head Self-Attention Mechanism)和一个全连接前馈网络(fully connected feed-forward network)组成。两者外面都添加了残差连接(Residual Connection)，即每个子层最后的输出为LayerNorm(x+Sublayer(x))。Residual Connection可以防止网络的层数过深时，反向传播出现的梯度消失问题。decoder层数相同，不过每层多添加了一个Masked Multi-head attention layer，最后经过Linear和softmax输出概率。

Transformer的核心Multi-Head Attention是在Scaled Dot-Product Attention基础上进行的改进，通过h个不同的线性变换对Query，Key，Value进行投影，将不同的Attention结果拼接起来以获取不同子空间的信息表示，如公式(1)(2)(3)所示。其中d_k是key的维度，

W^o是参数矩阵。使用多头注意力的好处是，能够获取查询和键值对在不用子空间的表示，如果采用单注意力，则输出结果是这些子空间的表示的均值。

MultiHead(Q,K,V)＝Concat(head₁,…,head_h) (1)

为了使Transformer利用到序列中元素的相对位置信息，在将序列输入到encoder和decoder之前，需要进行Position Encoding操作。序列不同位置的编码结果为嵌入向量加上如下公式(4)(5)所示的位置向量，相当于加入了位置信息。d_model表示向量的维度，pos表示在序列的位置，2i和2i+1表示向量的分量位置。

3.2模型训练

在本实施例中，使用了一个12层的Transformer，隐藏层包含768个单元节点和12个注意头。这个Transformer是在一块TITAN Xp上训练的，每个批次大小为32，训练的次数为1000万次。大量的训练，使得模型能够充分学习到序列的长期依赖和层次关系，提升下游任务，即抗菌肽预测的准确率。然后修改模型输出层的结构，使模型能够完成下游任务。在1.2介绍的数据集上对模型进行了微调，并与在同样的数据集上经过训练和独立测试的模型进行性能比较。在进行比较时使用相同的数据集，可以排除掉因数据集的不同带来的模型的性能的影响。

4结果

4.1模型性能评估方法

我们使用四个通用的量化指标：灵敏度(Sn)，特异性(Sp)，准确性(Acc)和Mathew相关系数(MCC)来评估我们的模型，其定义为公式(6)至(9)。其中TP是被正确预测的抗菌肽的数量，FN是被预测为非抗菌肽的抗菌肽的数量，TN是被正确预测的非抗菌肽的数量，FP是被预测为抗菌肽的非抗菌肽数量。

Sn和Sp分别体现了模型对抗菌肽和非抗菌肽的识别能力，Acc体现了模型的整体预测效果，三者的取值范围均为[0,1]，值越大表示模型的预测越准确。MCC通常是被视为一种平衡的指标，即使样本不均衡也可以使用。其值在-1和+1之间，反映了测试集中样本的真实标签和预测结果之间的相关性，值越高说明相关性越大。当该值接近1时，模型的分类性能极佳；接近-1时，模型的预测结果与实际结果相反；接近0时，模型的预测结果与随机预测相似。通过考虑这四个评估指标，可以更好地评估分类模型的性能。

4.2试验结果

4.2.1与其他模型的比较

我们将模型与四个最新的抗菌肽预测器(包括AMPScan，Bi-LSTM，iAMP-2L，MAMPs-Pred)的性能进行比较。由于在每个数据集上，每个模型都使用相同的训练集和测试集，原始模型的评价结果从描述各模型的文献中复制。表2报告了按照不同分词方式训练出来的模型在每个数据集上的性能指标。第一列是用于模型训练和评估的数据集的来源，第二列是要评估的模型的名称，第三到第六列分别是Sn，Sp，Ac和MCC。每个数据集的最优模型加粗标注。我们可以看到，综合来说，我们的模型在各个数据集上都表现得更好。

表2不同模型在不同抗菌肽预测器上的表现

注：每个数据集中最好的表现都用粗体给出。

从表2可以看出，与原始模型相比，本实施例的模型在各项量化指标上总体优于对比模型。通过对大量未标记的数据进行预训练，BERT模型能够完全捕获蛋白质序列的通用特征，从而在特定的数据集的识别上获得更多的优势。

4.2.2产生通用模型

我们汇总四个数据集的全部序列，利用CD-HIT移除具有70％成对序列相似性的序列，经过对负样本的随机下采样，得到一个由8978条样本组成的综合数据集，基于此训练得到一个新的综合预测模型。对我们的模型进行5折交叉验证，交叉验证的结果显示在表3中，每个模型评价指标上的最优结果用粗体标出。在Sn和MCC上，k＝1的模型较优。在Sp和Acc上，k＝2的模型较优。

表3交叉对照表

注：每个指标中最好的表现都用粗体给出。

我们设计一个实验来验证它的迁移能力。我们选择Lata S等人为抗菌肽识别模型AntiBP2创建的数据集。他们从APD数据库检索到总共999种独特的抗菌肽，从MitPred随机选择999个长度>100个氨基酸的细胞内蛋白质(因为抗菌肽主要在细胞外分泌)作为非抗菌肽数据构成基础数据集。我们分别(1)用上述数据集对预训练模型进行微调得到模型A(2)将本节提到的所有数据训练得到的综合预测模型作为预训练模型，在此基础上用上述数据集的训练集进行小步骤微调得到模型B。由于Lata等人采用5折交叉验证的技术对AntiBP2模型进行性能评估，为了更严谨地进行比较，我们也保持一致。

以k＝1时以两种方式训练得到的模型为例，如表4所示，经过预训练的模型都能使测试结果得到一定水平的提升。相比之下，在综合预测模型上对特定的数据集进行学习后得到的模型性能更好。我们认为，除了特定于每个数据集的特征外，不同数据集的抗菌肽和非抗菌肽之间还存在一些共同的特征。用所有数据微调得到的综合模型捕获到了抗菌肽的更多通用特征，具有良好的迁移能力，更适合用作其他抗菌肽识别和预测任务的预训练模型，来同时捕获特定于待测数据集的特征和抗菌肽序列间的共同特征。

表4在k＝1时，对三种模型进行五折交叉验证

注：每个指标上最好的表现都用粗体给出。

4.2.3预训练分析

在本实施例中，预训练机制如何影响我们的抗菌肽识别模型的预测性能。针对不同的分词方式，在本实施例中，重新训练3个模型，训练时省略用Uniprot数据集预训练的步骤，而直接使用Veltri D等人的数据集来对模型进行微调。图3显示了此数据集上的六个模型在四种评价指标Sn、Sp、Acc、MCC上的实验结果。将预训练模型和非预训练模型进行比较，从中可以看出，在各种分词情况下预训练都能带来评价指标的全面提升，这证实了预训练可以通过挖掘蛋白质序列共有的特征，更好地学习氨基酸之间的关系，从而在下游任务中提高模型识别抗菌肽的能力。同时随着K值的增加，预训练后模型性能的改善效果愈发明显。例如K分别为1、2、3时，经过预训练，模型的Acc分别增加3.40％，5.00％和12.50％。我们考虑这是由于，随着K的增大，字典的规模愈发庞大，模型需要学习更复杂的信息，进行更大规模的训练以达到良好的预测效果。通过将多个氨基酸划分为同一词，词本身包含了更多的关于每个氨基酸与它的上下文之间的联系的信息需要学习。通过对大量蛋白质样本进行预训练，可以有效挖掘蛋白质序列中氨基酸分子之间的联系，同时减轻了模型后续的学习压力。因此，预训练对K值大的模型的影响更明显。

图3为预训练模型和非预训练模型的结果对比。(a)用不同的分词方法显示预先训练模型和非预训练模型的Sn、Sp、ACC值。(b)用不同的分词方法显示预先训练模型和非预训练模型的MCC值。

4.2.4平衡训练与非平衡对模型性能的影响

根据经验，建立在非平衡数据集上的机器学习模型会难以准确预测稀有点和少数点，导致模型的整体性能受到限制。因此，我们在实验中采取对训练集的负样本进行随机向下采样的策略来平衡训练集。为了查看我们的模型在非平衡的训练集上的表现是否有所不同，我们选取未进行平衡处理时原始训练集正负样本差距较大的数据集(由Lin Y等人创建)和数据集(由Xiao X等人创建)，重新在预训练模型上进行训练。

表5统计平衡数据集和非平衡数据集的数据量

表6显示了不同分词方式下模型的评估结果，非平衡模型是使用原始的非平衡训练集训练得到的，平衡模型是使用经过平衡后的新的训练集训练得到的。表6的第1列给出数据来源，第2列列出了不同版本的模型，第3-6列给出模型在通用量化指标Sn(％)，Sp(％)，Acc(％)上的性能。我们注意到，总体而言，不论是否对数据集进行平衡操作，我们的方法均显示出优秀的性能。与平衡集的结果相比，在非平衡集上训练得到的模型的整体识别性能会降低，具体体现在Acc和MCC两个指标的下降。由于负样本数据量大约是正样本数据量的两至三倍，非平衡模型在学习时对负样本有了更明显的偏向性，而对正样本有所疏忽。可以看到模型对抗菌肽和非抗菌肽的识别准确率有了更明显的差距，Sn有比较大幅度的下降，而Sp下降幅度较小甚至有所上升。

表6平衡训练集和非平衡训练集性能对比

注：每个指标上最好的表现都用粗体给出。

本发明基于BERT预训练模型构建了一个新的模型，成功将预训练的策略应用到了抗菌肽预测和识别领域。该模型在UniProt提供的蛋白质序列上进行预训练，然后分别在四个具有差异性的抗菌肽数据集上进行微调和评估。实验结果表明新模型在多个通用量化指标上优于最新的识别结果。同时，在本实施例中，对肽链的不同分词方式分别进行了实验，并对预训练的作用效果进行了评估，实验结果表明，预训练机制对抗菌肽预测模型的性能有很大贡献。它进一步证实本实施例的抗菌肽预测模型能够捕获蛋白质序列的共同特征和特定于抗菌肽数据集的特征，能够有效识别某一蛋白质序列是否为抗菌肽。

实施例2

基于与前述实施例1中的一种基于蛋白质预训练表征学习的抗菌肽预测方法同样的发明构思，本发明还提供一种计算装置，包括一个或多个处理器、存储器，所述存储器上存储有计算机程序，该程序被处理器执行时实现前文所述的一种基于蛋白质预训练表征学习的抗菌肽预测方法的任一方法的步骤。

在本实施例的计算装置可以是通用计算机、专用计算机、服务器或云计算，这些都是本领域所公知的。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于，

所述步骤S1中的蛋白质序列的分词处理是指将蛋白质序列文本按固定氨基酸数量进行等长分组，允许最后一个分组例外，每条蛋白质序列二分断开形成语句对和上下文关系。

3.如权利要求1所述的基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于，所述预训练策略中采用的预训练模型为BERT预训练模型，所述BERT预训练模型为深度双向语言表征模型，采用双向Transformer作为编码器，所述预训练的过程具体包括：

4.如权利要求3所述的基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于，所述预训练任务中，采用掩盖语言模型训练预测蛋白质序列的蒙面氨基酸，具体包括：

以掩盖语言模型作为源任务，随机掩盖数据中15％的单词，通过使似然函数p＝p(x_masked|x_unmasked)最大化来预测这些被掩盖的单词；执行掩盖策略，80％的情况下用[MASK]掩码来替换被掩盖的单词，10％的情况下用一个随机的词来替换，10％的情况下是保持被选择的词不变。

5.如权利要求3所述的基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于：所述预训练任务中，采用句子连续性预测判断蛋白质序列文本的语句对是否上下文连续，具体包括：随机将数据划分为两部分，50％的数据中的两个语句对是上下文连续的，另50％的数据中的两个语句对是上下文不连续的，通过识别这些语句对是否连续来训练BERT模型。

6.如权利要求1所述的基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于，

所述步骤S2中，使用带标签的抗菌肽数据集对模型进行微调，生成特定的抗菌肽预测模型，具体包括：

7.如权利要求6所述的基于蛋白质预训练表征学习的抗菌肽预测方法，其特征在于，所述带标签的抗菌肽数据集的数量为多个。

8.一种计算装置，包括一个或多个处理器、存储器，其特征在于：所述存储器存储有一段计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于蛋白质预训练表征学习的抗菌肽预测方法。