CN117542419A

CN117542419A - 一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法

Info

Publication number: CN117542419A
Application number: CN202311305640.9A
Authority: CN
Inventors: 邢文璇; 张�杰; 李晨; 霍雨佳
Original assignee: Inner Mongolia Hongye Technology Co ltd; Inner Mongolia Agricultural University
Current assignee: Inner Mongolia Hongye Technology Co ltd; Inner Mongolia Agricultural University
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-02-09

Abstract

本发明属于生物医学和药物开发技术领域，具体涉及一种使用RoBERTa词嵌入技术和图注意力机制组合模型来对抗菌肽进行识别的方法。本发明通过从国际上已知的一些抗菌肽数据库中采集正样本和从蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本，并建立样本集；然后进行数据预处理和构建异构图操作，为组合模型输入做准备；接着利用RoBERTa模型来进行词嵌入，为引入更丰富的语义信息；再建立由RoBERTa模型和图注意力机制组成的组合模型并进行评估、参数调优处理；最后利用调优过的模型对肽序列预测其是抗菌肽还是非抗菌肽。本发明不仅将自然语言处理领域的RoBERTa模型用以对肽序列进行词嵌入操作，还将其与图注意力机制结合构建组合模型用以学习更易辨别的抗菌肽特征，从而达到更准确的抗菌肽性能预测目标，有望帮助生物医学领域的研究人员更快地找到潜在的抗菌肽候选药物，加速新药开发过程和解决抗生素耐药性等问题。

Description

一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法

技术领域

本发明属于生物医学和药物开发技术领域，具体涉及一种使用RoBERTa词嵌入技术和图注意力机制组合模型来对抗菌肽进行识别的方法。

背景技术

传统的抗菌肽识别技术主要依赖于生物实验方法，如体外细菌抑制实验、生物活性测试和质谱分析，这些方法通常涉及昂贵、耗时和复杂的实验室操作。这种依赖性限制了抗菌肽研究的规模和速度，并且使得在大规模样本或高通量筛选中变得不切实际。而目前关于抗菌肽识别方法主要依赖于基于规则的方法、传统机器学习技术和深度学习模型，前两种技术通常依赖于手工制定的规则或特征，无法充分捕捉抗菌肽的复杂特性。此外，它们对于大规模的氨基酸序列数据集处理效率低下。而第三种技术可以从大规模的氨基酸序列数据中自动提取特征和模式，无需手工定义的规则。关于抗菌肽识别的现有深度学习模型有卷积神经网络、长短时记忆网络、图卷积神经网络等，这些模型在某些情况下能够提供更高的抗菌肽识别准确性，但每一种都有一些局限性。比如卷积神经网络在处理氨基酸序列数据时能够有效捕获局部特征，但它们可能忽略了序列中的长程依赖关系；长短时记忆网络能够处理氨基酸序列中的时间依赖性，但它们在序列长度较长时可能存在梯度消失问题；图卷积神经网络适用于处理具有图结构的数据，但在抗菌肽的情况下，图的构建可能会受到不完整或不准确的相似性信息的影响。因此，关于抗菌肽识别方法，还存在改进的空间。

发明内容

为解决上述问题，本发明提供了一种高效、准确且适应性强的抗菌肽识别方法，该方法基于RoBERTa预训练模型来对肽序列中的氨基酸组合进行词嵌入操作，并使用一个由RoBERTa模型和图注意力机制组成的组合模型以更准确地辨别抗菌肽与非抗菌肽。本发明提出的新型识别方法不仅可应用于生物技术领域中肽序列抗菌活性的鉴别，还可以为其他生物学领域的序列数据的预测识别研究提供有力的参考。具体包括以下步骤：

一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，按照如下步骤进行：

步骤1、肽序列数据采集

从国际上诸如AntiCP、APD3、ADAM、MLACP、ParaPep、AVPdb、CancerPPD、AntiFP和DRAMP等的知名抗菌肽数据库中采集抗菌肽序列作为正样本，从国际上诸如UniProt的知名蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本，然后对负样本进行过滤去除非天然氨基酸操作和对正负样本进行去除同源性序列操作，最后得到正负样本集。

步骤2、数据预处理

将正负样本集的每个肽序列视为文本分类中的一个文档，其中每个肽序列中的氨基酸组合视为单词，来对文档进行分词处理。

步骤3、构建异构图

数据预处理后，构建一个由节点和边组成的异构图，其中前面提到的单词和文档被视为节点，单词和单词、单词与文档通过边连接形成异构图。单词之间边的权重通过点互信息(PMI)来计算，单词与文档之间边的权重通过词频-逆向文件频率算法(TF-IDF)来计算，这些权重构成了邻接矩阵。

步骤4、利用RoBERTa模型进行词嵌入

将所有单词节点都初始化为0，所有文档节点都被用RoBERTa词嵌入技术来初始化。初始化完成后，得到所需的节点特征矩阵X。

步骤5、构建图注意力机制组合模型

节点特征矩阵X输入到由RoBERTa模型和图注意力机制组成的组合模型中来对肽序列进行协调训练和测试。RoBERTa模块和图注意力机制模块的计算过程，以及组合模型的构建过程如下式：

其中A表示邻接矩阵，g表示计算注意力分数的函数，m是RoBERTa模块和图注意力机制模块之间的一个协调因子，它的值的范围在0到1之间。

步骤6、图注意力机制组合模型评估与参数调优

基于评估指标来调整图注意力机制组合模型的参数，以使其在评估指标方面表现最佳。

步骤7、抗菌肽预测

使用优化后的模型来对肽序列进行分类或预测，以确定其是否具有抗菌活性。

优选的，步骤2中，氨基酸组合包括但不仅限于二肽、三肽、四肽。

优选的，步骤5中，m的最终值的确定包括但不仅限于使用交叉验证技术来评估不同m值下模型的性能和使用自动调优算法，如贝叶斯优化或遗传算法，来找到最佳的m值。

优选的，步骤5中，RoBERTa模型的具体处理过程如下：

步骤5.1，利用Transformer内部的编码器层对由RoBERTa词嵌入技术生成的文档特征表示进行处理。

步骤5.2，选择[CLS]标记相关联的输出特征表示。

步骤5.3，馈送到具有softmax激活函数的完全连接层，以获取识别结果。

优选的，步骤6中，评估指标包括但不仅限于准确率、马修相关系数、特异度、灵敏度、精确度、ROC曲线下的面积。

本发明的有益效果为：

(1)结合RoBERTa的强大文本表示能力和和图注意力机制的关系建模能力，本发明可以提高抗菌肽的识别准确性。其中RoBERTa模型和图注意力机制协同工作，从肽序列中提取更丰富的特征信息，有助于更好地捕捉抗菌肽的关键特性。

(2)针对大规模氨基酸序列数据集，本发明提出的识别方法具有较高的处理效率，能够快速而准确地识别抗菌肽，从而有助于加速研究和应用的进程。

(3)通过使用深度学习模型的图注意力机制，本发明提出的识别方法可以在不同类型的抗菌肽序列和变化情况下具有较强的适应性。

(4)本发明的独特之处是不仅将自然语言处理领域的RoBERTa模型用以对肽序列进行词嵌入操作，还将其与图注意力机制结合构建组合模型用以学习更易辨别的抗菌肽特征，从而达到更准确的抗菌肽性能预测目标，有望帮助生物医学领域的研究人员更快地找到潜在的抗菌肽候选药物，加速新药开发过程和解决抗生素耐药性等问题。

附图说明

图1为本发明实施例的抗菌肽识别流程示意图。

具体实施方式

以下结合附图和实施例对本发明提出的技术方案作进一步说明。

如图1所示，一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，主要可以分为肽序列数据采集、构建异构图、利用RoBERTa模型进行词嵌入、构建图注意力机制组合模型、模型评估和模型预测六部分。

具体地，可以细分为以下步骤：

步骤1，肽序列数据采集

从国际上诸如AntiCP、APD3、ADAM、MLACP、ParaPep、AVPdb、CancerPPD、AntiFP和DRAMP等的知名抗菌肽数据库中采集抗菌肽序列作为正样本，从国际上诸如UniProt的知名蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本，然后从负样本中过滤去除那些非天然氨基酸B、J、O、U、X和Z，再将CD-HIT和CD-HIT-2D程序的阈值设置为50％来对正负样本进行去除同源性序列操作，最后得到正负样本集。模型基于样本集采用10折交叉验证方法进行评估。

步骤2、数据预处理

将正负样本集的每个肽序列视为文本分类中的一个文档，其中每个肽序列中的氨基酸组合视为单词，来对文档进行分词处理。此外，通过计算词频来过滤低频词，并将高频词写入文件以生成预处理语料库。

步骤3、构建异构图

构建一个由节点和边组成的异构图，为接下来的组合模型的输入做准备，其中前面提到的单词和文档被视为节点，单词和单词、单词与文档通过边连接形成异构图。单词之间边的权重通过点互信息(PMI)来计算，单词与文档之间边的权重通过词频-逆向文件频率算法(TF-IDF)来计算，这些权重构成了邻接矩阵，如公式(1)所示：

具体的PMI算法和TF-IDF算法的计算过程如公式(2)和(3)所示：

其中#W(i)是语料库中包含i的滑动窗口的数量，#W(i,j)是包含i和j的窗口，#W是语料库中滑动窗口的总数。n_i,j是单词在文档d_j中出现的次数，|D|是语料库文档的总数，{j:t_i∈d_j}表示包含单词t_i的文档数量。

步骤4、利用RoBERTa模型进行词嵌入

将所有单词节点都初始化为0，所有文档节点都被用RoBERTa词嵌入技术来初始化。具体的嵌入过程为：首先RoBERTa模型利用其预训练的tokenizer将文档分割成一系列标记，然后每个标记被通过嵌入层来映射到高维嵌入向量空间，最后将包含[CLS]标记的输出嵌入特征作为RoBERTa嵌入后的文档节点的输入表示。初始化完成后，得到所需的节点特征矩阵X，如公式(4)所示：

其中，n_doc表示文档节点数和n_word表示单词节点数，d表示RoBERTa嵌入的维度。

步骤5、构建图注意力机制组合模型

节点特征矩阵X输入到由RoBERTa模型和图注意力机制组成的组合模型中来对肽序列进行协调训练和测试。图注意力机制模块的具体计算过程如公式(5)所示：

其中e_ij是每对节点的计算注意力分数，a是可学习的注意力权重，W是可学习的权重矩阵，h_i和h_j是节点v_i和v_j的特征表示，α_ij是节点v_i分配给v_j的注意力权重，N_i是节点v_i的邻居节点集合。

RoBERTa模块具体处理过程如下：首先利用Transformer内部的编码器层对由RoBERTa词嵌入技术生成的文档特征表示进行处理；其次选择[CLS]标记相关联的输出特征表示；最后馈送到具有softmax激活函数的完全连接层，以获取识别结果。

最关键的过程是通过结合RoBERTa和图注意力机制模型来共同训练AMP来获得最终的分类目标。如何协同训练RoBERTa和图注意力机制模型由公式(6)决定:

其中A表示邻接矩阵，g表示上面指代的计算注意力分数的函数，m是RoBERTa模块和图注意力机制模块之间的一个协调因子，它的值的范围在0到1之间，可以通过使用交叉验证技术来评估不同m值下模型的性能来确定m的值或者使用自动调优算法，如贝叶斯优化或遗传算法，来找到最佳的m值。

步骤6、图注意力机制组合模型评估与参数调优

基于评估指标来对图注意力机制组合模型进行评估与参数调优，评估指标包括准确率、马修相关系数、特异度、灵敏度、精确度、ROC曲线下的面积和F-分数，下面的公式(7)是评估指标的计算方法。

其中TP和TN分别指示由模型正确识别的抗菌肽和非抗菌肽的数量，FP和FN表示模型不能正确识别的抗菌肽和非抗菌肽的数量，ROC是指接收器工作特性曲线。

步骤7、抗菌肽预测

Claims

1.一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，其特征在于，包括以下步骤：

步骤1、肽序列数据采集

步骤2、数据预处理

步骤3、构建异构图

数据预处理后，构建一个由节点和边组成的异构图，其中前面提到的单词和文档被视为节点，单词和单词、单词与文档通过边连接形成异构图。单词之间边的权重通过点互信息(PMI)来计算，单词与文档之间边的权重通过词频-逆向文件频率算法来计算，这些权重构成了邻接矩阵。

步骤4、利用RoBERTa模型进行词嵌入

步骤5、构建图注意力机制组合模型

步骤6、图注意力机制组合模型评估与参数调优

步骤7、抗菌肽预测

2.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，其特征在于，所述步骤2中的氨基酸组合包括但不仅限于二肽、三肽、四肽。

3.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，其特征在于，所述步骤5中的m的最终值的确定包括但不仅限于使用交叉验证技术来评估不同m值下模型的性能和使用自动调优算法，如贝叶斯优化或遗传算法，来找到最佳的m值。

4.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，其特征在于，所述步骤5中的RoBERTa模型的具体处理过程如下：

步骤5.2，选择[CLS]标记相关联的输出特征表示。

5.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法，其特征在于，所述步骤6中的评估指标包括但不仅限于准确率、马修相关系数、特异度、灵敏度、精确度、ROC曲线下的面积。