CN113539354B

CN113539354B - 一种高效预测革兰氏阴性菌ⅲ型和ⅳ型效应蛋白的方法

Info

Publication number: CN113539354B
Application number: CN202110811508.XA
Authority: CN
Inventors: 李重; 周天和; 李捷
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2023-10-27
Anticipated expiration: 2041-07-19
Also published as: CN113539354A

Abstract

本发明公开了一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，所述方法为深度神经网络框架(CHR)法，该方法包括(1)搭建集成深度神经网络框架；(2)数据集的选取；(3)使用二维特征和三维特征作为网络的输入特征；(4)使用搭建的集成深度神经网络框架在数据集上学习预测模；(5)模型参数设；(6)将待测蛋白质序列输入模型得到该蛋白质预测结果。该方法不仅对今后的相关研究具有一定的参考作用，而且对了解革兰氏阴性菌的相关生物学功能具有重要的意义。

Description

一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法

技术领域

本发明涉及革兰氏阴性菌效应蛋白的预测方法，尤其涉及一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法

背景技术

随着组学技术的快速发展，微生物学的研究也进入了一个新的发展阶段。通过微生物组学，可以观察到不同自然环境下的微生物及其构成，并且十分清楚地认识到这些微生物在人体健康、环境修复、农业生产、海洋生态等很多方面所发挥的作用。微生物的宏观功能往往是多种不同的微生物所组成的复杂群体共同作用的结果，所以为了更加清楚地了解微生物的宏观功能，必须同时从微观上来研究微生物的生理活动。微生物中革兰氏阴性菌的种类繁多，对很多生命体的影响较大，因此革兰氏阴性菌的微观机制研究至关重要。

虽然已有很多实验对革兰氏阴性菌Ⅲ型(T3SEs)和革兰氏阴性菌Ⅳ型(T4SEs)进行了生物学研究，但对它们的生物学功能依然模糊不清，所以对它们的研究仍是一个长久的课题。深入研究T3SEs和T4SEs的前提是能够快速准确地预测出它们，虽然已有很多方法被用于预测T3SEs和T4SEs，但是这些方法有的耗费时间且成本较高，有的对效应蛋白的预测精度较低，有的只能应用于一种效应蛋白的预测，因此，如何开发出一种轻量级的通用工具，使其能够高效预测这两种效应蛋白，仍然是一项重要的生物学挑战。

随着深度学习技术的发展，很多成熟的深度学习方法被成功应用于计算机视觉、文字识别、语音识别、自然语言处理等相关领域，并取得了不错的实验效果。在生物信息学领域，如生物医学图像分析、蛋白质结合位点预测等方面，深度学习方法也都取得了不错的成果。利用深度学习方法预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白，不仅对今后的相关研究具有一定的参考作用，而且对了解革兰氏阴性菌的相关生物学功能具有重要的意义。

发明内容

为克服现有技术中存在的缺陷，本发明采用集成深度神经网络框架(CHR)预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白，对于输入的任何蛋白质序列，该方法能够高效准确地预测出该蛋白为革兰氏阴性菌Ⅲ型效应蛋白还是革兰氏阴性菌Ⅳ型效应蛋白。

为实现以上目的，本发明所采用的技术方案如下：

一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，所述方法为深度神经网络框架(CHR)法，具体包括以下步骤：

(1)搭建集成深度神经网络框架：由CBAM和HS-ResNet两种网络集成得到深度神经网络框架；

(2)数据集的选取：训练集和独立测试集；

(3)使用二维特征和三维特征作为网络的输入特征；

(4)使用步骤(1)搭建的集成深度神经网络框架在数据集上学习预测模型；

(5)模型参数设置；

(6)将待测蛋白质序列输入模型，得到该蛋白质序列的预测结果。

进一步地，所述数据集包括T3数据集和T4数据集。

作为优选，所述T3数据集均是截取的N端100个残基，T4数据集均是截取的N端50个残基和C端100个残基。

进一步地，所述二维特征包括独热编码(one-hot)、改性位置特异性计分混合矩阵(PsePSSM和PSSM-composition混合矩阵)和改性位置特异性频率的混合矩阵(PsePSFM和PSFM-composition混合矩阵)。

进一步地，所述三维特征为精度矩阵。

进一步地，所述独热编码(one-hot)、位置特异性计分矩阵(PSSM)和位置特异性频率矩阵(PSFM)是通过HHblits程序在uniprot_sprot database搜索同源序列，然后构建出多序列比对(MSA)，最后计算得出。

进一步地，所述精度矩阵可以直接协同进化信息。

进一步地，所述CHR是由一系列改进的残差模块组成的，其中每个残差模块主要由1×1的卷积核、CBAM、Hierarchical-Split Block以及全连接层组成。

本发明中CHR法的特征由one-hot编码、PsePSSM和PSSM-composition的混合矩阵、PsePSFM和PSFM-composition的混合矩阵以及精度矩阵组成。HHsuite采用UniRef30数据库，通过HHsuite生成多序列比对(MSA)。本发明将T3SEs和T4SEs序列输入到HHsuite程序中，再由HHsuite程序去蛋白质序列库中去搜索同源序列，进而构建MSA，接着从MSA中计算得出one-hot编码、位置特异性得分矩阵(PSSM)、位置特异性频率矩阵(PSFM)和精度矩阵。

本发明的模型在通道和空间上采用注意力提取机制，再加上后续HS-ResNet中的HSB对通道维度有多次的split与concat操作，使特征信息尽可能地融入到通道以及空间维度中实现最大化提取特征中的信息。输入特征经过有三种二维特征，分别是one-hot、PsePSSM和PSSM-composition的混合矩阵、PsePSFM和PSFM-composition的混合矩阵，将上述三种L×20的特征图以列为基准进行拼接，可以得到L×60的特征图，接着对其进行复制并水平拼接，得到一个L×120的特征图，然后在垂直方向上再进行L倍扩展，得到一个L×L×120的特征图，最后与L×L×441的精度矩阵在通道维度上进行拼接，得到最终一个L×L×561的三维矩阵的输入特征图。

搭建深度神经网络框架：CHR法的网络架构主要是由CBAM和HS-ResNet构成。CBAM是一种注意力机制模块，它可以沿着特征图的空间和通道两个维度依次推断出注意力权重，然后与原特征图相乘来对特征进行自适应调整。HS-ResNet则是一种以残差网络为基础的网络框架，具有残差网络的恒等映射和残差映射的特点，HS-ResNet中的核心模块是HSB(Hierarchical-Split Block)，HSB包含两个关键操作split和concat，其中split用于将特征分离成两组特征，一组特征用于恒等映射，另一组用于提取更加精细化的特征，而concat操作则是将不同的特征进行融合以增强不同组特征之间的信息交互。本发明集合了CBAM和HS-ResNet两种模块的特点，有利于更好地发挥网络的优势，提升革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白预测效率。

CHR法采用5倍交叉验证来提高泛化能力，损失函数依然选用交叉熵损失函数，采用L2正则化来减小参数空间，该方法通过使用随机梯度下降算法来最小化目标函数，有效的优化了算法。

本方法的输入特征是L×L×561的特征图，经处理传输到基于CBAM和HS-ResNet的集成框架中，设计合理的迭代次数以及相应的激活函数和损失函数，最终训练得到预测模型，分别针对T3SEs和T4SEs开发出了两种模型CHRT3和CHRT4。

本发明的有益效果：

(1)对PSSM和PSFM进行了有效地改进。

(2)本发明采用了CBAM与HS-ResNet组合网络模型，CBAM的添加丰富了输入特征空间和通道维度的注意力权重比，紧接着的HSB会在一定程度上增加通道信息的融合度，大大提升革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白预测效率和准确性。

(3)CHR法采用5倍交叉验证来提高泛化能力，损失函数依然选用交叉熵损失函数，采用L2正则化来减小参数空间，该方法通过使用随机梯度下降算法来最小化目标函数，有效的优化了算法。

附图说明

图1所示为本发明的深度神经网络框架示意图。

图2所示为HS-ResNet示意图。

图3所示为CBAM示意图。

图4所示为通道注意力模块示意图。

图5所示为空间注意力模块示意图。

图6(A)所示为CHR方法在T3SEs独立测试集1上的ACC表现。

图6(B)所示为CHR方法在T3SEs独立测试集2上的ACC表现。

图7所示基于CHR方法的C端和N端不同残基数量下的ACC表现。

图8所示基于CHR方法的不同特征组合在三种独立测试集上的ACC表现。

图9所示基于CHR方法的不同特征组合在三种独立测试集上的AUC表现。

图10(A)所示CHR方法在T3SEs的平衡训练集上的ROC曲线图。

图10(B)所示CHR方法在T3SEs的非平衡训练集上的ROC曲线图。

图10(C)所示CHR方法在T4SEs的平衡训练集上的ROC曲线图。

图10(D)所示CHR方法在T4SEs的非平衡训练集上的ROC曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，具体步骤：

(1)特征处理：通过HHsuite(version 3.0.1)生成多序列比对(MSA)，HHsuite搜索的数据库为UniRef30(version 2020_03)。将T3SEs和T4SEs序列输入到HHsuite程序中，再由HHsuite程序去蛋白质序列库中去搜索同源序列，进而构建MSA，接着从MSA中计算得出one-hot编码、位置特异性得分矩阵(PSSM)、位置特异性频率矩阵(PSFM)和精度矩阵。

模型在通道和空间上采用注意力提取机制，再加上后续HS-ResNet中的HSB对通道维度有多次的split与concat操作，将特征信息尽可能地融入到通道以及空间维度中实现最大化提取特征中的信息。输入特征经过改进后有三种二维特征，分别是one-hot、PsePSSM和PSSM-composition的混合矩阵、PsePSFM和PSFM-composition的混合矩阵。将这三种L×20的特征图以列为基准进行拼接，可以得到L×60的特征图，接着对其进行复制并水平拼接，得到一个L×120的特征图，然后在垂直方向上再进行L倍扩展，得到一个L×L×120的特征图，最后与L×L×441的精度矩阵在通道维度上进行拼接，得到最终的输入特征图，一个L×L×561的三维矩阵。

(2)CHR方法网络结构搭建

基于CBAM和HS-ResNet的Ⅲ、Ⅳ型效应蛋白的预测方法结构图如图1所示。首先从MSA中计算得到one-hot、PSSM、PSFM和精度矩阵四种特征，然后对PSSM和PSFM两种传统的矩阵进行了改进，以PsePSSM和PSSM-composition的混合矩阵来替代PSSM，以PsePSFM和PSFM-composition的混合矩阵来替代PSFM，接着再将这两种改进特征与one-hot和精度矩阵融合，得到最终的输入特征。

整个神经网络框架是由多个残差模块构成的，其中每个残差模块主要由1×1的卷积核、CBAM、Hierarchical-Split Block以及全连接层组成，其中图中的Conv和表示1×1的标准卷积、批归一化和ReLU三者的结合，在ReLU激活函数之前添加一个批归一化，能够将输入向量归一化为均值为0且标准差为1的形式，有助于加快训练速度。将CBAM添加在HSB之前，能够将更加精细的特征信息送入到HSB中，以最大限度的发挥HSB对多维度特征的学习能力。HSB的示意图如图2所示，输入到HSB中的特征被分为5组，第一组特征直接送入到最后的输出当中，除第一组和最后一组的其余各组特征被分为两组，一组子特征拼接到最后，另一组子特征拼接到邻近组作为该组新的特征输入，如此往复，最后一组特征则与其上一组分离出来的子特征进行拼接并入到最后的输出当中去，最后会再用1×1的卷积对拼接完的特征图进行融合。原始输入特征图在经过多组这样的残差模块进行特征学习后得到新的特征图，然后通过平均池化对新的特征图进行降维，最后经过全连接层和softmax函数操作得到效应蛋白的预测结果。

(3)参数设置

该方法通过使用随机梯度下降算法来最小化目标函数，有效的优化算法。此外，网络中的学习率设置为0.01，迭代次数设置为30个周期，本发明使用dropout函数来丢弃神经元，初始值设置为0.4。

(4)将待测蛋白质序列输入模型，得到该蛋白质序列的预测结果

残基截取的有效性验证：以正负样本比例为1:1的平衡数据集为训练集，改变T3SEs的N端不同残基数量，基于CHR方法进行对比实验，CHR方法在T3SEs两个独立测试集上的ACC如图6所示。以T4SEs的平衡数据集为训练集，改变T4SEs的C端和N端不同残基数量，基于CHR方法进行对比实验，CHR方法在T4SEs独立测试集上的ACC如图7所示。从图中可以看出，CHR方法分别使用N端区域的50个残基和C端区域的100个残基能够获得最佳的实验结果，由此将T4SEs的前50个残基和后100个残基足以作为两种模型的输入序列。

在CHR(CBAM和HS-ResNet)方法中，特征输入采用的是one-hot编码、PsePSSM和PSSM-composition的混合矩阵、PsePSFM和PSFM-composition的混合矩阵以及精度矩阵四种特征的融合特征，其实验结果ACC和AUC分别如图8和图9所示，改进后的PSSM和改进后的PSFM都比传统的PSSM和PSFM具有优势，ACC和AUC性能更优，改进后的特征都具有更好的实验效果。

在基于CBAM和HS-ResNet的预测方法中，特征输入采用的是one-hot编码、PsePSSM和PSSM-composition的混合矩阵、PsePSFM和PSFM-composition的混合矩阵以及精度矩阵四种特征矩阵的融合特征，保持特征输入不变，仅改变网络结构，在三种独立测试集上的实验结果如表1所示。其中CHR_A是将CBAM添加在第一层卷积和HSB之间，CHR_B是将CBAM添加在HSB和最后一层卷积之间，CHR_A是效果最好的；在CBAM中添加注意力权重比之后，接着再使用HSB对特征图的通道先拆分后组合，能够更好的提取特征信息。从实验结果中也可以看到，使用SE_Block和HS-ResNet的组合，也能取得不错的结果，但是离CHR方法还是有一点差距，侧面反映了在本发明实验中，CBAM相比于SE_Block，是一个更好的选择。

表1改变CHR网络结构后在三种独立测试集上的ACC表现

本发明提出的CHR方法与以前用于预测T3SEs的其它方法进行比较，其它方法包括EffectiveT3、BPBAac、BEAN2和DeepT3等方法，实验结果如表2所示(CHRT3-1表示以平衡数据集作为训练集，CHRT3-2表示以非平衡数据集作为训练集，其它方法类似)。本发明提出的两种方法在绝大部分的指标上都优于现有的方法，以平衡数据集作为训练集的模型取得了不错的实验结果，在独立测试集1上，CHRT3-1的ACC、AUC、F1-score、MCC、PRE上分别为0.967、0.977、0.946、0.925、0.897，从实验的结果可以看出，CHRT3模型的预测效果还是要略好于ACNNT3的。虽然在PRE这一指标上BPBAac比较高，但是PRE仅表示的是预测为阳性的样本中正确样本的比例，所以相比于PRE，认为其它综合性指标更具代表性。从表中也可以看出，在CHRT3、ACNNT3和DeepT3三种深度学习方法中，以平衡数据集为训练集的模型，其预测效果要好于以非平衡数据集为训练集的模型，可见在T3SEs的预测上，训练集选用平衡数据集，会产生更好的实验结果。

表2不同方法在T3SEs的独立测试集1上的表现

在T3SEs的独立测试集2上，CHR方法依旧取得了不错的效果，如表3所示。以平衡数据集作为训练集的模型CHRT3-1，其实验结果的ACC、AUC、F1-score、MCC、PRE分别为0.899，0.842，0.943，0.613，0.912，充分说明了CHR方法是具有优势的。

表3不同方法在T3SEs的独立测试集2上的表现

为了证明CHR方法不仅在T3SEs上是切实可行的，而且在T4SEs的预测上也能取得较好的效果。本发明将CHR方法与现有的预测T4SEs的方法相比较，这些方法分别为T4Effpred、T4SEpred_bpbAac、T4SEpred_psAac、Bastion4、DeepT4，不同方法的实验结果如表4所示，可以看到，CHRT4在平衡数据集上的训练模型能够取得不错的效果，其实验结果的ACC、AUC、F1-score、MCC、PRE分别为0.961，0.963，0.892，0.873，0.829。

表4不同方法在T4SEs的独立测试集上的表现

综上，本发明提出了一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，该方法结合了ResNet的恒等映射以及残差映射的特性、CBAM的空间和通道的双重注意力机制、分层拆分模块的多尺度特征提取特性，不仅能够防止传统深度学习中的梯度消失问题，而且在处理多特征融合的输入数据时，对T3SEs和T4SEs预测准确有，其综合实验结果是目前最优。

以上阐述是本发明给出的一个实施的预测效果，本发明不仅适合上述实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施都属于本发明保护的范围。

Claims

1.一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，所述方法为深度神经网络框架(CHR)法，具体包括以下步骤：

(2)数据集的选取：训练集和独立测试集；

(3)使用二维特征和三维特征作为网络的输入特征；

其特征在于，所述二维特征包括独热编码(one-hot)、PsePSSM和PSSM-composition混合矩阵构成改性位置特异性计分混合矩阵和PsePSFM和PSFM-composition混合矩阵构成改性位置特异性频率的混合矩阵；

其特征在于，所述三维特征为精度矩阵；

(5)模型参数设置；

2.根据权利要求1所述一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，其特征在于所述数据集包括T3数据集和T4数据集。

3.根据权利要求2所述一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，所述T3数据集均是截取的N端100个残基，T4数据集均是截取的N端50个残基和C端100个残基。

4.根据权利要求3所述一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，所述独热编码(one-hot)、位置特异性计分矩阵(PSSM)和位置特异性频率矩阵(PSFM)是通过HHblits程序在uniprot_sprot database搜索同源序列，然后构建出多序列比对(MSA)，最后计算得出。

5.根据权利要求4所述一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，所述精度矩阵可以直接协同进化信息。

6.根据权利要求1所述一种高效预测革兰氏阴性菌Ⅲ型和Ⅳ型效应蛋白的方法，其特征在于，所述深度神经网络框架(CHR)是由一系列改进的残差模块组成的，其中每个残差模块主要由1×1的卷积核、CBAM、Hierarchical-Split Block以及全连接层组成。