CN113593632B

CN113593632B - 一种多肽抗癌功能识别方法、系统、介质及设备

Info

Publication number: CN113593632B
Application number: CN202110906681.8A
Authority: CN
Inventors: 魏乐义; 何文嘉; 崔立真; 苏苒
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-09-05
Anticipated expiration: 2041-08-09
Also published as: CN113593632A

Abstract

本发明属于生物信息技术领域，提供了一种多肽抗癌功能识别方法、系统、介质及设备。其中，该识别方法包括获取多肽序列；将多肽序列输入至训练完成的多肽药物抗癌功能预测器中，得到多肽是否具有抗癌功能；其中，多肽药物抗癌功能预测器包括嵌入层、编码层和任务特定层，所述嵌入层用于将接收的多肽序列的每个残基转换为低维密集向量且以矩阵的形式输出；所述编码层用于从嵌入层输出的矩阵中捕获每个残差嵌入向量在不同位置的上下文，并学习抗癌肽的鉴别特征，输出特征矩阵；所述任务特定层用于根据特征矩阵来判断多肽序列属于抗癌肽的概率。

Description

一种多肽抗癌功能识别方法、系统、介质及设备

技术领域

本发明属于生物信息技术领域，尤其涉及一种多肽抗癌功能识别方法、系统、介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

抗癌肽(Anticancer peptides，ACPs)是一种由10-50个氨基酸组成的具有抗肿瘤活性的生物活性肽，由于其能够避免副作用，可用于生产新的抗癌药物。与传统抗癌药物相比，ACPs最突出的优点是特异性高。它们可以通过在癌细胞表面特异表达一些阴离子成分(如磷酰丝氨酸)来靶向癌细胞，保护正常组织细胞免受损伤，使其成为癌症治疗的替代选择。此外，ACPs的抗癌机制也是多种多样的。ACPs除了能像传统药物一样直接抑制肿瘤生长外，还能动员免疫系统抑制肿瘤生长，与肿瘤细胞中的DNA结合，干扰肿瘤细胞的DNA复制，作用于细胞中的“溶酶体”等，使其比普通治疗更有效、更安全。抗癌肽根据其杀死癌细胞的方式可分为三大类。1)分子靶向肽，可以抑制癌细胞的增殖或激活癌细胞的凋亡机制。2)结合肽，靶向癌细胞促进药物与癌细胞靶点的结合。3)细胞刺激肽，通过免疫调节活性和激素受体，通过刺激可杀死癌细胞的其他细胞间接实现其目标。因此，ACPs在癌症治疗中具有广阔的应用前景，其研发对于开发有效、安全的癌症药物具有重要意义。

虽然临床试验中有一些ACPs，但ACPs的应用和发展面临着重要的挑战，区分ACPs和非ACPs是其中之一。近年来，随着机器学习技术的迅速发展，一些相关技术逐渐被应用到ACP预测中，产生了多种可计算的预测因子。基于机器学习的预测器已被开发用于识别ACPs并获得令人满意的性能。然而，发明人发现，现有方法存在基于经验的特征工程问题，不仅在一定程度上限制了模型的表示能力，而且对不同的数据缺乏自适应性，限制了预测性能的进一步提高，影响了预测模型的鲁棒性，从而将降低了多肽抗癌功能识别的准确性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种多肽抗癌功能识别方法及系统，其能够提高多肽抗癌功能识别的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种多肽抗癌功能识别方法，其包括：

获取多肽序列；

将多肽序列输入至训练完成的多肽药物抗癌功能预测器中，得到多肽是否具有抗癌功能；

其中，多肽药物抗癌功能预测器包括嵌入层、编码层和任务特定层，所述嵌入层用于将接收的多肽序列的每个残基转换为低维密集向量且以矩阵的形式输出；所述编码层用于从嵌入层输出的矩阵中捕获每个残差嵌入向量在不同位置的上下文，并学习抗癌肽的鉴别特征，输出特征矩阵；所述任务特定层用于根据特征矩阵来判断多肽序列属于抗癌肽的概率。

本发明的第二个方面提供一种多肽抗癌功能识别系统，其包括：

多肽序列获取模块，其用于获取多肽序列；

抗癌功能识别模块，其用于将多肽序列输入至训练完成的多肽药物抗癌功能预测器中，得到多肽是否具有抗癌功能；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的多肽抗癌功能识别方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的多肽抗癌功能识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明的多肽药物抗癌功能预测器，利用嵌入层将接收的多肽序列的每个残基转换为低维密集向量且以矩阵的形式输出，利用编码层从嵌入层输出的矩阵中捕获每个残差嵌入向量在不同位置的上下文，并学习抗癌肽的鉴别特征，输出特征矩阵，利用任务特定层根据特征矩阵来判断多肽序列属于抗癌肽的概率，不受模型的表示能力限制，能自适应不同多肽序列，提高了多肽抗癌功能识别的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为ACP-Mixed数据集构建流程；

图2为ACPred-LAF模型框架；

图3为embedding的示意图；

图4(a)为基础嵌入方式；

图4(b)为多语义嵌入方式；

图4(c)为多尺度嵌入方式；

图4(d)为多语义多尺度嵌入方式；

图5为多语义嵌入伪代码；

图6为多尺度嵌入伪代码；

图7为多语义多尺度嵌入伪代码；

图8为现有数据集上各个模型交叉验证的结果对比；

图9为现有数据集上各个模型独立测试的结果对比；

图10为ACP-Mixed-80数据集上不同嵌入方式的ACPred-LAF的性能比较；

图11为ACP-Mixed-80数据集上可学习自适应特征与传统手工特征的性能对比；

图12为ACP-Mixed-80数据集上传统手工特征在传统机器学习模型下的性能；

图13为ACP-Mixed-80数据集上ACPred-LAF与传统手工特征结合的性能；

图14(a)为在Epoch[1]数据上嵌入特征的PCA可视化；

图14(b)为在Epoch[10]数据上嵌入特征的PCA可视化；

图14(c)为在Epoch[20]数据上嵌入特征的PCA可视化；

图14(d)为在Epoch[30]数据上嵌入特征的PCA可视化；

图14(e)为在Epoch[40]数据上嵌入特征的PCA可视化；

图15(a)为在Epoch[1]数据上嵌入特征的t-SNE可视化；

图15(b)为在Epoch[10]数据上嵌入特征的t-SNE可视化；

图15(c)为在Epoch[20]数据上嵌入特征的t-SNE可视化；

图15(d)为在Epoch[30]数据上嵌入特征的t-SNE可视化；

图15(e)为在Epoch[40]数据上嵌入特征的t-SNE可视化；

图16(a)为在Epoch[1]数据上嵌入特征的网络倒数第二层可视化；

图16(b)为在Epoch[4]数据上嵌入特征的网络倒数第二层可视化；

图16(c)为在Epoch[6]数据上嵌入特征的网络倒数第二层可视化；

图16(d)为在Epoch[8]数据上嵌入特征的网络倒数第二层可视化；

图16(e)为在Epoch[10]数据上嵌入特征的网络倒数第二层可视化；

图16(f)为在Epoch[20]数据上嵌入特征的网络倒数第二层可视化；

图16(g)为在Epoch[40]数据上嵌入特征的网络倒数第二层可视化；

图16(h)为在Epoch[30]数据上嵌入特征的网络倒数第二层可视化；

图16(i)为在Epoch[50]数据上嵌入特征的网络倒数第二层可视化；

图17为ACPred-LAF在随机序列翻转情况下的性能；

图18为ACPred-LAF在序列随机替换残基情况下的性能；

图19为ACPred-LAF在具有不同相似度阈值的数据集下的性能；

图20为在ACP-Mixed-80测试集上测试推理运行时间比较结果。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种多肽抗癌功能识别方法，其具体包括如下步骤：

步骤S101：获取多肽序列；

步骤S102：将多肽序列输入至训练完成的多肽药物抗癌功能预测器中，得到多肽是否具有抗癌功能。

参照图2，本实施例的多肽药物抗癌功能预测器包括嵌入层、编码层和任务特定层，所述嵌入层用于将接收的多肽序列的每个残基转换为低维密集向量且以矩阵的形式输出；所述编码层用于从嵌入层输出的矩阵中捕获每个残差嵌入向量在不同位置的上下文，并学习抗癌肽的鉴别特征，输出特征矩阵；所述任务特定层用于根据特征矩阵来判断多肽序列属于抗癌肽的概率。

在具体实施中，嵌入的主要思想是将20个残基字母分别映射到一个特定的随机初始化向量上进行学习，每个初始化向量在模型训练过程中根据任务进行自适应调整。在图3中显示了嵌入的原理。查找表的每一行表示特定剩余的嵌入向量。例如，残基“A”响应第一行，而残基“C”根据每个残基的索引与第二行相关。通过嵌入层，序列中的每一个残差都转化为一个向量，整个序列由一个矩阵唯一地表示。

在所述嵌入层中，采用多语义尺度嵌入将多肽序列的每个残基转换为低维密集向量。

多语义嵌入：

针对生物序列中的多义现象，我们设计了一种利用生物序列中残基的多义信息的多语义嵌入方法。多语义嵌入如图4(b)所示。如图4(a)所示基础嵌入的缺点是每个剩余只由一个向量表示，这限制了嵌入向量表示不同意义的能力。因此，我们对每个残基随机初始化几个不同的嵌入向量，并在嵌入层通过软注意机制进行组合，以增强嵌入的表示能力。我们假设同一个残基的不同嵌入应该代表残基的不同意义。提出了一种多语义损失方法来避免不同嵌入的收敛，如下所述：

其中，L_MS(E)是多语义嵌入的损失函数，与输入无关。E表示所有查找表。e_uv是残基u的第v个嵌入向量，n是不同残基或标记的数目，m是每个残基的不同嵌入数目。Z_norm表示规范化常数。多语义嵌入的伪代码见图5。

多尺度嵌入：

根据序列中模体的模糊分离来获取局部信息。多尺度嵌入以k-mer(k＝1,2,3…)残基为基本表意单位，减少了残基字母的歧义。使用1-mer、2-mer和3-mer上下文的尺度来嵌入序列，并通过soft-attention机制来整合它们。如图4(c)所示，残基“M”的1-mer到3-mer上下文为“M”(1-mer)、“AM”(2-mer)、“MN”(2-mer)、“PAM”(3-mer)、“AMN”(3-mer)、“MNH”(3-mer)。上下文的每个唯一k-mer分量将被分配一个唯一的对应embedding向量。由于有近7000个独特的3-mer，运行3-mer需要更长的时间。多尺度嵌入的伪代码见图6。

多语义嵌入多尺度嵌入：

此外，如图4(d)所示，嵌入层通过集成多语义和多尺度嵌入，采用多语义尺度嵌入，而不是基本的单语义和单尺度嵌入。除了上述的残基嵌入之外，还添加了可学习的位置嵌入，以保持输入序列的位置信息。值得注意的是，所提出的嵌入方法在训练前根据标准高斯分布随机初始化，在训练阶段通过反向传播过程进行迭代更新。当训练收敛时，得到最终的查找表。值得注意的是，k-mer和嵌入维数dm的选择对精度有重要影响。在一定范围内，k和dm，性能越好，但计算资源呈几何增长。在预测性能和计算资源之间进行了权衡，选择了32维和3维上下文作为多尺度嵌入。多语义嵌入多尺度嵌入的伪代码见图7。

采用多语义多尺度的嵌入方法，充分利用ACP序列中特定残基的上下文信息和不同语义信息。之后，无论残差出现在序列的哪个位置，同一类残差都唯一地对应于同一个向量。

在具体实施中，编码层的基本模块是Transfbrmer的Encoder。所述编码包含多个编码块，每个编码块包括一个多头部注意机制、一个前馈网络和两个跳跃连接。多头注意力机制是由多个自我注意机制组成的学习序列的上下文表示。自我注意的数学描述如下：

其中是嵌入层的输出矩阵。/>分别是查询矩阵、键矩阵和值矩阵，由X通过与/>的线性变换得到.d_m是嵌入维度，d_k是查询、键和值向量的维，L是输入序列的长度。d_m和d_k都是超参数。

同样，多头注意力的数学描述如下：

Head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h (6)

MultiHead-Attention(Q，K，V)＝Concact(head₁，...，head_h)W^o (7)

其中是第i个头的查询、键、值矩阵。h是头的数目，而是一个线性变换矩阵，用于将多头注意力的输出映射到与编码器输入相同维度的空间。

在具体实施中，所述特征矩阵的每一列都是特定残差的上下文向量。所述任务特定层由完全连通的神经网络和非线性激活函数组成，由神经网络构建出鉴别器。

对每个序列的第一个位置插入一个标记“[CLS]”，将“[CLS]”的输出向量作为整个序列的特征向量，输入到鉴别器中，计算序列属于抗癌肽的概率。

数学描述如下：

X_i＝ReLu(X_l-1W_d)，l＝1，...，m (8)

其中p_ij表示预测第i序列属于第j类的概率，c表示类的数目X_l-1是第i层的输出，X₀是编码器层的输出。m是一个超参数，决定了神经网络的层数。

在训练多肽药物抗癌功能预测器的具体过程为：

数据集构造以及数据预处理：

为了比较多肽药物抗癌功能预测器与现有模型的性能，在6个现有的基准数据集中对我们的模型进行了评估，分别是AntiCP2.0 Main dataset、AntiCP2.0 Alternatedataset、LEE和in dependent dataset、ACP-500和ACP-164dataset、ACP-740dataset和ACP-240dataset。上述数据集的详细信息可以从这几篇论文中获取：“AntiCP 2.0:anupdated model for predicting anticancer peptides”，“cACP-2LFS:Classificationof Anticancer Peptides Using Sequential Discriminative Model of KSAAP andTwo-Level Feature Selection Approach”，“ACPred-FL:a sequence-based predictorusing effective feature representation to improve the prediction of anti-cancer peptides”和“ACPred-Fuse:fusing multi-view information improves theprediction of anticancer peptides”。

新数据集构造：

为了进行标签验证，将CancerPPDB(Atul，et al.，2015)和HC(Hajisharifi Chen)数据集(Manavalan，et al.，2017)中的ACP作为基本事实，因为CancerPPDB是一个权威的ACP数据库，HC数据集属于之前发表的文献，并且包含了几乎第一批要验证的ACP。根据数据分析，不同数据集之间存在注释冲突，尤其是ACP-240和ACP-740数据集。噪音标签会影响模型的性能。因此，我们放弃这两个数据集。对于LEE数据集和独立数据集中的错误注释序列，我们对它们的标签进行了修正。在进一步的调查中，发现剩余的数据集可以分为两组。第1组包括4个数据集：ACP2.0_Main_Train、ACP2.0_Main_Test、ACP2.0_Alternate_Train、ACP2.0_Alternate_Test，第2组包括另外4个数据集：ACPred-Fuse_Train、ACPred-Fuse_Test、ACP_FL_Train、ACP_FL_Test。第1组共有318个序列被标注为ACP，第2组则被标注为非ACP。去除这318个序列后，将其余10个数据集中的剩余样本进行混合，构建新的、平衡的ACP基准数据集ACP-Mixed。

ACP-Mixed的详细构建流程如下，如图1所示：将CancerPPDB数据集与HC数据集进行去重合并，得到一个包含558个ACPs的地面真实数据集。原始数据集也是通过相同的操作构造的。随后，通过标签验证、标签校正、删除重复、阳性和阴性样本分离，获得1054个ACPs和4895个非ACPs。通过剔除318个模糊样本，最终得到736个唯一的ACPs，并从剩余的4577个样本中随机选取736个唯一的非ACPs。将训练集和独立测试集分开，随机抽取80％的ACPs和非ACPs构建训练集，剩余20％的样本构成独立测试集。最后，ACP混合(又称ACP-Mixed-100)训练集由558个ACP和558个非ACP组成，而ACP混合独立测试集由148个ACP和148个非ACP组成。我们强调测试集和训练集的交集是空的，因为需要使用独立的测试集来验证模型的泛化性能。由于数据集中的序列相似度对分类器的性能评价有一定的影响，我们采用CD-HIT工具对不同相似度阈值的数据集中的序列相似度进行了降低。在40％到100％的范围内，我们每10％设置一个阈值，去除高于这些阈值的序列，得到7个不同阈值的数据集。此外，在额外的比较实验2中，还研究了不同序列相似度对预测性能的影响。

数据集划分：

对于上述的数据集，都各自包含了对应的训练集和测试集，在独立测试方式中，默认使用训练集来训练模型，使用测试集来检验模型的泛化性能。在K折交叉验证方式中，在训练集中将数据集平均划分为K份，每一次使用K-1份进行训练，使用剩余的那一份进行测试。

对于模型评估，我们选择了五种广泛使用的二元分类指标进行绩效评估，包括准确性(ACC)、敏感性(SE)、特异性(SP)、马修相关系数(MCC)和ROC曲线下面积(AUC)。这些指标的公式如下：

其中TP为真阳性(预测为ACP实际上也是ACP的数目)；FP为假阳性(预测为ACP实际上是non-ACP的数量)；TN为真阴性(预测为non-ACP实际上也是non-ACP的数目)；FN为假阴性(预测为non-ACP实际上是ACP的数量)。ACC是所有样本的一般精度，代表整体性能。SE表示正样本的预测成功率，SP表示负样本的预测成功率。MCC本质上是观察到的和预测的二元分类之间的相关系数。它返回一个介于-1和+1之间的值。系数是+1，这意味着完美的预测，而-1则意味着预测和观察之间完全不一致。说明系数为0时的预测并不比随机预测好，AUC定义为ROC曲线下被坐标轴包围的面积。AUC越接近1.0，模型的真实性就越高。当AUC等于0.5时，为最低真实性，无应用价值。在数学公式中，rank_i表示第i个正样本的排名位置，n_pos和n_neg分别是正样本数和负样本数。

首先，比较了ACPred-LAF与现有方法在相应数据集中的交叉验证和独立性，从整体上证明了该方法的优越性。实验结果表明，在所有现有数据集中，该模型在大多数指标上都优于现有模型。其次，进一步将ACPred-LAF与现有的嵌入方法在新构造的数据集中进行了比较，以验证所提出的嵌入方法的优异性能。结果表明，LAF-MSMC是一种能够利用多感知和多尺度信息的最佳嵌入方法。多感知和多尺度嵌入具有互补信息，可以提高性能。第三，通过比较LAF和HF两种方法，详细说明了LAF相对于HF的优势，一种是修正模型，只改变输入特征，另一种是比较ACPred-LAF和HF+传统机器学习方法。此外，我们尝试将LAF和HF结合起来，以取得更大的改善，结果验证了特征融合方法的可行性。综上所述，我们能够总结出LAF的优越性，能够较好地应用于抗癌肽的预测，并对今后的研究有所启示。

ACPred-LAF与现有基准数据集上现有模型的比较：

为了进行公平的比较，我们在以前的基准数据集上评估和比较了我们提出的方法和现有的方法。值得注意的是，不同的现有方法是在不同的数据集上训练和评估的。因此，分别在不同的数据集上进行交叉验证和独立检验，以比较公正地评价不同模型的泛化能力。我们比较了每个基准数据集的最新模型，以显示ACP-LAF的优越性。

交叉验证。不同数据集的交叉验证性能比较如图8所示。由于ACPred-Fuse、ACPred-FL和cACP-2LFS等方法只提供了10折交叉验证性能，而ACP-DL、ACP-MHCNN和anticp2.0等方法进行了5倍的交叉验证实验，我们比较了它们在相同设置下的性能。我们可以观察到，除SP指标外，ACPred-LAF的其他指标尤其是ACC和MCC在所有数据集中都高于现有模型。这表明，深度学习方法确实比传统的机器学习方法更具拟合能力。

独立测试。在不同的独立数据集中，本实施例提出的识别方法和以前的方法的性能比较结果如图9所示。为便于说明，先前最先进的方法被表示为“Pre-SOTA”。对于ACP2.0Main数据集，最佳模型为LAF-MSC，其ACC、SE、SP、MCC分别比SOTA前高3.64％、4.52％、2.75％、7.24％。对于ACP2.0 Alternate数据集，最佳模型为LAF-Basic，ACC、SE、SP、MCC分别比SOTA前高1.29％、1.03％、1.55％、2.60％。对于LEE+Independent数据集，LAF-MSC在总体上表现最好。LAF-MSC的ACC、SE、SP、MCC分别比SOTA前高2.52％、3.34％、2.44％、6.41％。结果表明，在上述三个数据集上，该方法在所有指标上都优于已有的模型。此外，不同的嵌入方法在不同的数据集上表现出不同的性能。多语义嵌入的ACPred-LAF在ACP2.0主数据集上表现最好，基本嵌入的ACPred-LAF在ACP2.0 Alternate数据集上表现最好，多尺度嵌入的ACPred-LAF在LEE+Independent数据集上表现最好。对于剩下的两个数据集，ACPred-LAF在SE上的性能并不令人满意，尽管ACPred-LAF在其他指标上优于Pre-SOTA。ACPred-LAF模型存在缺陷的一个潜在原因是正样本数不足以了解ACPs的潜伏期，导致模型在一定程度上过拟合。对大量数据的依赖是深度学习技术的局限性之一，随着ACP数据的增加，这种局限性有望得到缓解。从性能比较可以看出，对于ACC、SP、MCC、AUC这四个指标，可学习和自适应特征都优于基于传统手工统计特征的模型，这些模型均使用手工特征或其组合进行模型训练。

ACP-Mixed-80数据集上ACPred-LAF与现有方法的比较：

为了进一步验证ACPred-LAF的功能，有必要在我们新构建的数据集ACP-Mixed上比较不同模型的性能。我们使用ACP-Mixed-80数据集进行比较，因为之前的研究将相似性阈值设定为80％。图10给出了我们的四个模型(基本、多语义、多尺度和多语义尺度嵌入)和现有方法的评估结果，包括AntiCP、ACPred-FL、PEPred-Suite和ACPred-Fuse。值得注意的是，我们只选择和比较了上述现有的模型，虽然有其他以前的方法，因为它们是在文献中表现最好的方法。我们通过提供的源代码实现了这些方法，并在ACP-Mixed-80训练集中训练后在ACP-Mixed-80测试集中测试了它们的性能。

从图10可以看出我们四种不同嵌入方法的优越性。在ACP-Mixed-80数据集上，ACPred-LAF的性能总体上优于所有现有方法，表明可学习和自适应特征比基于手工特征的模型更强大。具体来说，LAF-MSMC在ACC、MCC和AUC方面表现最好，而LAF-MSE具有最好的SE和LAF-MSC具有最好的SP。多语义嵌入和多尺度相结合的性能优于单一方法，表明两种方法可以相互促进。结果表明，多语义嵌入是最佳的嵌入策略。此外，LAF-MSE和LAF-MSMC都使用多语义嵌入，但前者使用1-mer上下文，而后者使用3-mer上下文。因此，我们可以推断3-mer上下文比1-mer上下文更好，因为它利用了本地信息。

ACPred-LAF与传统手工特征的比较：

为了更好地比较可学习和自适应特征(LAF)与传统手工特征(HF)之间的差异，通常的做法是比较它们的性能。但是，手工制作的功能太多，无法逐一进行比较。因此，八个具有代表性的统计特征，包括原子和键组成(ATC)、准序列顺序(QSO)、伪氨基酸组成(PseAAC)、N-gram组成(N-gram)、联合三元组描述符(CTD)、基于AAIndex1的物理化学性质(AAIndex1)、基于AAIndex1的Geary's C(Geary's C)，选取基于AAIndex1(NormalizedMoreau-Broto)的归一化Moreau-Broto自相关进行比较分析。上述所有功能都是通过ProtLearn包实现的。

用手工制作的特征来训练ACPred-LAF模型，而不是学习和自适应的特征。将上述五个统计特征作为模型的输入，并与ACPred-LAF进行了性能比较。结果如图11示。对于ACC、SP、MCC、AUC，LAF-MSMC的相应度量比相应的最佳手工特征分别至少高出5.74％、13.11％、12.48％和4.33％。结果表明，LAF优于单一的手工特征。

用手工制作的特征训练传统的机器学习模型(MLs)。针对所选的8个手工特征，分别训练了决策树(DT)、支持向量机(SVM)、极端梯度增强(XGBoost)等3种具有代表性的传统机器学习方法。如图12示，ACPred-LAF仍然优于所有基于统计特征的传统机器学习方法。尽管传统的手工特征的机器学习模型在SE、SP等指标上表现良好，但它们的ACC、MCC、AUC相对较弱。总的来说，LAF比HF更稳定。

将可学习和自适应特征与手工特诊融合：

将手工特征(HF)和可学习和自适应功能(LAF)结合起来测试是否会有性能是一个自然的想法改进。图13结果表明，经过LAF和HF训练后，性能有显著改善。有趣的是，大多数特性对ACPred-LAF都有积极的影响，只有Geary的C特性对ACPred-LAF有害。另一个值得注意的重要点是，特性的长度似乎对性能改进有一定的影响。长度较短的五个特征(归一化Moreau-Broto、ATC、AAIndex1、QSO、PseAAC)的性能改进大于长度较长的三个特征(Geary'sC、CTD、N-gram)。特征长度太长似乎不利于识别特征的学习。值得注意的是，在这个实验中，我们只简单地连接了LAF和HF。它启发我们尝试其他更有效的特征融合方法来进一步提高性能。我们还认为，将传统的手工特征与可学习的嵌入式特征相结合，可以为性能的提高提供一种新的途径。

特征表示与可视化：

为了直观地证明模型的有效性，提高模型的可解释性，通过PCA(主成分分析)和t-SNE以便于可视化，分别如图14(a)-图15(e)所示。PCA是一种常见的线性降维方法，而t-SNE是一种常见的非线性降维方法。它们都显示出ACP样本的相似特性。图14(a)和图15(a)“Epoch[1]”的子图表明，训练集中的ACP和非ACP的嵌入在训练之前是混合的，因为它们是随机初始化的。在测试集中也出现了同样的情况，说明模型在训练前没有区分能力。随着训练次数的增加，ACP点逐渐与非ACP点区分开来。我们可以观察到，在训练集和独立测试集中，几乎所有的ACPs嵌入向量都属于同一个簇，而非ACPs在训练后的分布是相似的，说明该模型确实学习到了ACPs和非ACPs的一些共同的和可区分的特征。ACP在测试集中的分布与训练样本的分布相似，说明ACPred-LAF对新样本具有良好的泛化能力，而不仅仅是对训练样本的记忆。另外，负类簇中ACPs点较多，而正簇中非ACPs点较少，这在一定程度上解释了SP的性能优于SE的原因。我们推测那些被预测为阴性样本的ACPs具有我们的方法无法捕捉的特征。因此，这些难以区分的样品的物理化学性质有待进一步研究。

基于网络设计的特征表示与可视化：

通过PCA和t-SNE等降维方法进行可视化，很难避免某些特征信息的丢失，无法反映特征的真实分布。为了更好地说明ACPred-LAF学习到的特征的真实分布，我们在任务特定层将倒数第二个神经网络的输出维数设置为2，并在平面上绘制二维输出特征向量。如图16(a)-图16(i)的学习特征是这样的径向分布，两个类通过角度分开。似乎ACPred-LAF试图将ACPs和非ACPs的特征映射成两个不同的聚类，以尽可能地区分它们，而正样本和负样本的聚类则向相反的方向延伸。一种潜在的可能性是，模型期望正负样本之间的距离尽可能远。与PCA和t-SNE可视化相似，阴性样本聚类中仍存在大量ACP，阳性样本聚类中非ACP较少。虽然随着迭代次数的增加，负簇范围内的许多ACP逐渐转移到正簇，但许多不可区分的ACP经过训练后仍然停留在正负簇的交界处。

ACPred-LAF的泛化与鲁棒性分析：

一般化由于ACPred-LAF模型比传统的机器学习模型复杂得多，而且参数的个数比数据量大得多，因此有人可能会对模型的鲁棒性和泛化性提出质疑。然而，在ACPred-LAF独立测试集上的性能优于现有方法，验证了该方法的泛化能力。此外，通过对学习特征的可视化显示，该模型所学习的特征在训练集上的分布非常接近由从未见过样本组成的测试集的分布，从侧面也可以看出该模型具有良好的泛化能力。此外，在训练过程中采用L2正则化方法，避免过拟合。此外，根据最近的研究，存在“双下降”现象，这表明传统统计学习中“模型越大，泛化能力越差”的传统观点在深度学习中并不成立。“双下降”现象存在的原因至今没有得到明确的研究，这也启发了我们今后进一步探索可解释性的工作。这项工作的目的是从经验上证明机器本身学习到的适应性特征并不比人类设计的差。未来的趋势可能是传统特征和自适应特征的结合，希望这项工作能为以后的研究奠定基础。

健壮性。为了验证ACPred-LAF算法的鲁棒性，我们在ACP-Mixed-80数据集上设计了数据噪声实验，其中一个是按照一定的概率将原始序列转换为反向序列，另一个是按照一定的概率将序列中每个位置的残基替换为随机残基。第一个操作表示为“随机反转”，第二个操作表示为“随机替换”。注意到，对于一个残留物，在“随机替换”中替换后它仍为自身的概率为1/20。替换概率是针对每个残基的，因此每个序列中替换残基的数目是不确定的。结果如图17和图18所示，“随机反转”对性能几乎没有影响，这证明了ACPred LAF捕捉全局信息的能力以及模型预测独立于正负序列的事实。对于“随机替换”，当替换概率小于60％时，模型的性能不会受到很大影响，表明模型具有良好的鲁棒性。我们还建议其他类似的生物序列预测任务使用这两种方案来验证模型的鲁棒性。除了数据干扰实验之外，我们利用所有的ACP混合数据集来验证ACPred-LAF对相似序列的敏感性。在图19可以观察到去除具有一定阈值的相似序列后，模型的性能受到影响。但是，当阈值高于70％时，对模型的影响并不大。只有当阈值低于70％时，模型的性能才会突然下降。结果表明，该模型在一定条件下具有良好的鲁棒性。当阈值为40％时，性能突然提高的原因是大部分数据被低阈值去除，其余的数据由于序列相似度低而具有很强的可分辨性。

ACPred-LAF的效率分析：

在GeForce gtx1060和RTX TITAN两个GPU设备上，在相同的编码层、50个训练周期条件下，对四种嵌入方法进行了测试。在ACP-Mixed-80训练集上测试训练模式，在ACP-Mixed-80测试集上测试推理模式。运行时间比较结果见图20，在训练练模式上，LAF-Basic和LAF-MSE的运行时间比LAF-MSC和LAF-MSMC短。后两种方法虽然训练时间较长，但都不到10分钟，是可以接受的。此外，训练后的推理时间均小于1.0秒，表明训练好的模型后不必担心耗时。LAF-MSE和LAF-MSMC之间的区别在于所使用的k-mer上下文的数量。如果条件允许，可以使用LAF-MSMC而不是LAF-MSE来获得更好的性能，但从性价比的角度来看，LAF-Basic和LAF-MSE也是不错的选择。

实施例二

本实施例提供了一种多肽抗癌功能识别系统，其具体包括如下模块：

多肽序列获取模块，其用于获取多肽序列；

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的多肽抗癌功能识别系统中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的多肽抗癌功能识别系统中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多肽抗癌功能识别方法，其特征在于，包括：

获取多肽序列；

其中，多肽药物抗癌功能预测器包括嵌入层、编码层和任务特定层，所述嵌入层用于将接收的多肽序列的每个残基转换为低维密集向量且以矩阵的形式输出；所述编码层用于从嵌入层输出的矩阵中捕获每个残差嵌入向量在不同位置的上下文，并学习抗癌肽的鉴别特征，输出特征矩阵；所述任务特定层用于根据特征矩阵来判断多肽序列属于抗癌肽的概率；

所述嵌入层通过集成多语义和多尺度嵌入，采用多语义多尺度的嵌入方法，充分利用ACP序列中特定残基的上下文信息和不同语义信息，使得无论残差出现在序列的哪个位置，同一类残差都唯一地对应于同一个向量；

除残基嵌入之外，还添加可学习的位置嵌入，以保持输入序列的位置信息；在训练前根据标准高斯分布随机初始化，在训练阶段通过反向传播过程进行迭代更新；当训练收敛时，得到最终的查找表；k-mer和dm分别选择了32维和3维上下文作为多尺度嵌入；

所述编码层的基本模块是Transformer的Encoder；所述编码层包含多个编码块，每个编码块包括一个多头部注意机制、一个前馈网络和两个跳跃连接；多头注意力机制是由多个自我注意机制组成的学习序列的上下文表示；所述自我注意的数学描述如下：

其中是嵌入层的输出矩阵；Q,K,/>分别是查询矩阵、键矩阵和值矩阵，由X通过与W^Q,W^K,/>的线性变换得到；d_m是嵌入维度，d_k是查询、键和值向量的维，L是输入序列的长度；d_m和d_k都是超参数；

所述多头注意力的数学描述如下：

Head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

MultiHead-Attention(Q，K，V)＝Concact(head₁，...，head_h)W^O

其中是第i个头的查询、键、值矩阵；h是头的数目，是一个线性变换矩阵，用于将多头注意力的输出映射到与编码器输入相同维度的空间；

所述任务特定层由完全连通的神经网络和非线性激活函数组成，由神经网络构建出鉴别器，对每个序列的第一个位置插入一个标记“[CLS]”，将“[CLS]”的输出向量作为整个序列的特征向量，输入到鉴别器中，计算序列属于抗癌肽的概率，数学描述如下：

X_i＝ReLU(X_l-1W_d)，l＝1，...，m

其中p_ij表示预测第i序列属于第j类的概率，c表示类的数目X_l-1是第i层的输出，X₀是编码器层的输出，m是一个超参数，决定了神经网络的层数。

2.如权利要求1所述的多肽抗癌功能识别方法，其特征在于，在所述嵌入层中，还添加了可学习的位置嵌入，以保持多肽序列的位置信息。

3.如权利要求1所述的多肽抗癌功能识别方法，其特征在于，所述编码包含多个编码块，每个编码块包括一个多头部注意机制、一个前馈网络和两个跳跃连接。

4.如权利要求1所述的多肽抗癌功能识别方法，其特征在于，所述特征矩阵的每一列都是特定残差的上下文向量。

5.一种多肽抗癌功能识别系统，其特征在于，包括：

多肽序列获取模块，其用于获取多肽序列；

所述多头注意力的数学描述如下：

Head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

MultiHead-Attention(Q，K，V)＝Concact(head₁，...，head_h)W^O

X_i＝ReLu(X_l-1W_d)，l＝1，...，m

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的多肽抗癌功能识别方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的多肽抗癌功能识别方法中的步骤。