CN110060738B

CN110060738B - 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统

Info

Publication number: CN110060738B
Application number: CN201910264168.6A
Authority: CN
Inventors: 陈薇; 宰晓东; 徐俊杰; 殷瑛; 张军; 李汭桦
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2021-10-22
Anticipated expiration: 2039-04-03
Also published as: CN110060738A

Abstract

本发明公开了一种基于机器学习技术预测细菌保护性抗原蛋白的方法，所述方法包括：(1)数据收集：收集已知细菌保护性抗原和非保护性抗原分别作为学习模型的阳性集和阴性集，并分析抗原序列的特征因素；(2)模型建立：采用投票算法将支持向量机算法、神经网络算法、贝叶斯分类算法和决策树算法集成，建立保护性抗原预测的机器学习模型；(3)保护性抗原预测：对细菌待预测蛋白序列进行特征值分析并利用建立好的模型预测其是否为保护性抗原，排除与人、鼠同源性蛋白，输出预测到的细菌保护性抗原。本发明可对细菌全基因组编码的蛋白进行保护性抗原预测，提高了预测准确度，能够缩短细菌疫苗研发的进程，适用于广泛应用。

Description

基于机器学习技术预测细菌保护性抗原蛋白的方法及系统

技术领域

本发明公开了一种基于机器学习技术的细菌保护性抗原预测方法，属于细菌疫苗抗原筛选领域。

背景技术

随着组学以及生物信息学的发展，通过计算机分析进行抗原预测进而筛选符合保护性抗原性质的蛋白作为疫苗候选抗原的反向疫苗学(Reverse Vaccinology)技术逐渐成为研制新型疫苗的重要方法(Heinson A I,International Health,2015,7(2):85.)。该方法已经越来越广泛地应用到各种传染性病原体的疫苗研制中，显示出较好的应用价值。反向疫苗学方法中，保护性抗原的预测与筛选是关键(Delany I,2013,3(5):a012476.)。随着人工智能(Artificial Intelligence,AI)的迅速发展，机器学习(Machine Learning，ML)逐渐应用在了越来越多研究领域。通过算法，机器具备了从已有大量数据中提取特征，不断学习，发现隐含规律的能力，并对世界中发生的事做出判断和预测(Jordan M I,Science,2015,349(6245):255-260.)。在保护性抗原预测领域，机器学习方法已经得到了初步应用。Darren等人建立的VaxiJen方法，获取氨基酸疏水性、分子质量和极性作为抗原特征性质，采用了偏最小二乘法(DA-PLS)算法建立模型，对保护性抗原进行了预测(Flower D R,BmcBioinformatics,2007,8(1):4.)。Bowman和Heinson等人也在此基础上，利用多个常规蛋白理化性质分析软件获取抗原特征性质，并分别采用了支持向量机(Support VectorMachine，SVM)、偏最小二乘判别分析(DA-PLS)和线性回归算法建立模型，取得一定的预测结果(Bowman B N,Vaccine,2011,29(45):8156-8164.；Heinson A,InternationalJournal of Molecular Sciences,2017,18(2):312.)。

然而，目前国内外现有细菌保护性抗原预测方法表现出的预测性能还受到较多局限，导致预测准确度不高，候选抗原范围过广，后续需要进行实验验证大量保护性抗原，给研究者的实际应用带来困难(Dalsass M,Front.Immunol,2019,10:113.)。导致这些困难的主要原因在于，现有的保护性抗原预测方法所应用的抗原特征主要是蛋白的各项理化基础性质，而没有将直接影响保护性抗原的各个关键因素作为特征值，导致数据中包含大量无关的特征属性，会降低机器学习预测模型的准确度，对预测新的保护性抗原造成干扰(OngE,Frontiers in Immunology,2017,8:1382.)。此外，现有保护性抗原预测方法中，均采用单一机器学习算法，具有算法自身的局限性，从而导致机器学习模型预测准确度偏低，尚不能较好达到准确预测细菌保护性抗原的目的(Bowman B N,Vaccine,2011,29(45):8156-8164.；Heinson A,,International Journal of Molecular Sciences,2017,18(2):312.)。因此，建立一种以多个与保护性抗原密切相关因素为特征值并采用集成算法的基于机器学习的细菌保护性抗原预测方法成为当前该领域需要解决的重要问题。

发明内容

本发明的目的在于克服现有细菌保护性抗原预测技术的缺陷，提供一种以多个与保护性抗原密切相关因素为特征值并采用集成算法的基于机器学习技术预测细菌保护性抗原蛋白的方法，旨在为细菌全基因组水平保护性抗原预测提供快速准确的分析手段，并能显著提高预测准确度，为细菌疫苗设计提供潜在的靶标，方便研究者进行后续验证评价，有助于缩短细菌疫苗研发的进程，适用于广泛应用。

基于上述目的，本发明首先提供了一种基于机器学习技术预测细菌保护性抗原蛋白的方法，所述方法包括以下步骤：

(1)数据收集：收集已知细菌保护性抗原和非保护性抗原分别作为机器学习模型的阳性数据集和阴性数据集，并基于与保护性抗原密切相关的多个关键因素(包括亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率)进行蛋白序列特征分析，构建保护性抗原/非保护性抗原特征注释数据集，用于后续机器学习模型的构建；

(2)建立模型：针对抗原蛋白注释后特征数据集，将数据集分为训练集和测试集两部分，用四种不同的单一机器学习算法，对数据集分别进行训练后建立模型，所述机器学习算法包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法，再采用投票算法对所述机器学习算法建立的模型集成以建立保护性抗原集成分类模型；

(3)保护性抗原预测：输入待预测细菌全基因组蛋白序列后，计算机程序分析获得相应的特征因素值，并利用建立好的机器学习集成分类模型进行保护性抗原的准确预测，判断该蛋白是否为保护性抗原蛋白，并排除人、鼠蛋白同源性，将预测到的细菌保护性抗原列表输出保存。

在一个优选的实施方案中，在步骤(1)中所述序列特征分析时，使用CELLO软件分析获选抗原的亚细胞定位特征；使用BLAST软件分析获选获选抗原的保护性功能域特征；使用VaxiJen软件分析获选抗原的氨基酸抗原性特征；使用MED软件分析获选抗原的表位密度特征；使用Mp3软件分析获选抗原的毒力基因概率特征；使用Vaxign软件分析获选抗原的黏附概率特征。

在另一个优选的实施方案中，步骤(2)中所述训练集占总集合的70％，用于建立预测模型，测试集占总集合的30％，用于对所建立模型进行评价和验证，并将数据集中数据进行正态化处理。

在另一个优选的实施方案中，步骤(2)中所述投票算法评估的指标包括：精确率、召回率、F1值和样本数目。

在另一个优选的实施方案中，在步骤(3)中所述计算机程序分析获得相应的特征因素值时，使用CELLO软件对细菌全基因组蛋白进行蛋白亚细胞定位预测，获得待预测蛋白亚细胞定位概率；使用BLAST软件，将细菌全基因组蛋白与保护性功能域数据集进行检索比对，获得待预测蛋白保护性功能域相似性；使用VaxiJen软件对细菌全基因组蛋白进行氨基酸性质分析，获得待预测蛋白抗原性数值；使用MED软件对细菌全基因组蛋白进行表位密度分析，获得待预测蛋白表位密度；使用Mp3软件对细菌全基因组蛋白进行毒力分析，获得待预测蛋白毒力基因概率；使用Vaxign软件对细菌全基因组蛋白进行粘附素分析，获得待预测蛋白黏附概率。

其次，本发明还提供了一种基于机器学习技术预测细菌保护性抗原蛋白的系统，所述系统包括以下模块：

(1)数据收集模块：收集已知细菌保护性抗原和非保护性抗原分别作为机器学习模型的阳性数据集和阴性数据集，并基于与保护性抗原密切相关的多个关键因素(包括亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率)进行蛋白序列特征分析，构建保护性抗原/非保护性抗原特征注释数据集，用于后续机器学习模型的构建；

(2)模型建立模块：针对抗原蛋白注释后特征数据集，将数据集分为训练集和测试集两部分，用四种不同的单独机器学习算法，对数据集分别进行训练后建立模型，所述机器学习算法包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法，再采用投票算法对所述机器学习算法建立的模型集成以建立保护性抗原集成分类模型；

(3)保护性抗原预测模块：输入待预测细菌全基因组蛋白序列后，计算机程序分析获得相应的特征因素值，并利用建立好的集成机器学习模型进行保护性抗原的准确预测，判断该蛋白是否为保护性抗原蛋白，并排除人、鼠蛋白同源性，将预测到的细菌保护性抗原列表输出保存。

在一个优选的实施方案中，在数据收集模块中所述序列特征分析时，使用CELLO软件分析获选抗原的亚细胞定位特征；使用BLAST软件分析获选抗原获得待预测蛋白保护性功能域相似性；使用VaxiJen软件分析获选抗原的氨基酸性质分析，获得获选抗原的抗原性特征；使用MED软件分析获选抗原的表位密度特征；使用Mp3软件分析获选抗原的毒力基因概率特征；使用Vaxign软件分析获选抗原的黏附概率特征。

在另一个优选的实施方案中，模型建立模块中所述训练集占总集合的70％，用于建立预测模型，测试集占总集合的30％，用于对所建立模型进行评价和验证，并将数据集中数据进行正态化处理。

在另一个优选的实施方案中，模型建立模块中所述投票算法评估的指标包括：精确率、召回率、F1值和样本数目。

在另一个优选的实施方案中，保护性抗原预测模块中所述计算机程序分析获得相应的特征因素值时，使用CELLO软件对细菌全基因组蛋白进行蛋白亚细胞定位预测，获得待预测蛋白亚细胞定位概率；使用BLAST软件，将细菌全基因组蛋白与保护性功能域数据集进行检索比对，获得待预测蛋白保护性功能域相似性；使用VaxiJen软件对细菌全基因组蛋白进行氨基酸性质分析，获得待预测蛋白抗原性数值；使用MED软件对细菌全基因组蛋白进行表位密度分析，获得待预测蛋白表位密度；使用Mp3软件对细菌全基因组蛋白进行毒力分析，获得待预测蛋白毒力基因概率；使用Vaxign软件对细菌全基因组蛋白进行粘附素分析，获得待预测蛋白黏附概率。

本发明是生物信息学方法和机器学习在细菌保护性抗原预测领域的一个应用，其核心思想是提出一种基于多个与保护性抗原密切相关特征因素的蛋白特征分析方法，并结合机器学习集成算法设计了高度准确的预测模型和算法。

本方法收集已知细菌保护性抗原和非保护性抗原分别作为机器学习模型的阳性集和阴性集，并基于与保护性抗原密切相关的多个关键因素(包括亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率)进行蛋白序列特征分析；并采用投票算法将多个代表性机器学习模型进行集成(包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法)来构建保护性抗原集成分类模型，该模型可以对任意未知的细菌蛋白进行预测，判断其是否为保护性抗原蛋白；输入待预测细菌全基因组蛋白序列后，分析获得相应的特征值，并利用建立好的机器学习集成分类模型进行保护性抗原的预测，判断蛋白是否为保护性抗原蛋白，并排除人、鼠蛋白同源性，将预测到的细菌保护性抗原列表输出保存，具有较高的预测准确度。

本发明可以广泛应用于预测筛选细菌保护性抗原蛋白的相关研究。细菌保护性抗原的发现是细菌疫苗研究中的核心步骤。利用本发明及其提供的程序，可以快速预测细菌基因组内的新的保护性抗原，显著提高了预测准确度，为细菌疫苗设计提供了潜在的靶标，方便研究者进行后续验证评价，有助于缩短细菌疫苗研发的进程，适用于广泛应用。

附图说明

图1.机器学习技术预测细菌保护性抗原蛋白的方法流程示意图。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1基于机器学习技术预测细菌保护性抗原蛋白方法模型的建立

如图1所示，本发明提供了一种基于机器学习技术预测细菌保护性抗原蛋白的方法，旨在解决目前在新的细菌基因组内预测发现保护性抗原蛋白较为困难，预测准确度不高的问题，包括以下步骤P1-P3

P1：数据收集：

收集已知细菌保护性抗原和非保护性抗原分别作为机器学习模型的阳性集和阴性集，并基于与保护性抗原密切相关的多个关键因素(包括亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率)进行蛋白序列特征分析；具体包括：

从公开的细菌保护性抗原数据库包括Antigen Database(http://crdd.osdd.net/raghava/antigendb/index.htm)、Protegen Database(http://www.violinet.org/protegen/index.php)中采集经实验验证的保护性抗原信息，并收集公共数据库Pubmed(https://www.ncbi.nlm.nih.gov/pubmed/)中文献新报道的细菌保护性抗原信息，获得保护性抗原阳性数据集，其中包括300个已知保护性抗原蛋白。由于非保护性抗原文献报道较少，已报道研究中阴性抗原数据集一般数据量较小。本方法采用在细菌蛋白库随机抽取的方法构建保护性抗原阴性集，即从Uniprot数据库(https://www.uniprot.org/)下载所有致病菌蛋白序列，排除所有与已知保护性抗原同源蛋白后，从中随机抽取部分蛋白认定为非保护性抗原，获得保护性抗原阴性数据集，其中包括300个非保护性抗原蛋白。

由于现有的机器学习模型预测方法所应用的抗原特征数据主要是蛋白的各项理化基础性质，而没有将直接影响保护性抗原的各个关键因素作为特征值，导致数据中包含大量无关的特征属性，会降低机器学习模型的准确度，对预测新保护性抗原造成干扰。因此，需要真正将预测模型聚焦于与保护性抗原密切相关的各关键特征因素上。通过研究分析，本方法选定了6个与保护性抗原密切相关的特征因素，包括蛋白亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率，用作预测模型的特征因素。随后对已知抗原库和非抗原库中蛋白序列进行这6个特征因素的特征性质注释。每个抗原蛋白都标注有6个特征因素相应的特征数据结果，从而构建保护性抗原/非保护性抗原特征注释数据集，用于后续机器学习模型的构建。表1提供了可以在所公开方法的实施例中使用的特征和描述。

表1：在本文所描述的实施例中使用的特征因素的列表。

P2：模型建立

采用投票算法将四种单一机器学习算法集成以建立保护性抗原集成分类模型，包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法；具体包括：针对抗原蛋白注释后特征数据集，将数据集分为训练集和测试集两部分，其中训练集占总集合的70％，用于建立预测模型，测试集占总集合的30％，用于对所建立模型进行评价和验证。在模型建立过程为了克服原始数据分布不均匀的问题，本方法将数据集中数据进行正态化处理。

用四种不同的单独机器学习算法，包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法对上步中所得训练集进行训练后建立分类模型。

进一步，所述四种单一机器学习算法：

支持向量机

支持向量机可以将输入样本映射到一个高维希尔伯特空间，通过寻找能够使得两类边界上的点间隔最大的最优分类超平面，从而构造决策函数。由于它的分类间隔面仅依赖于部分的支持向量，复杂程度根据向量决定，所以应用SVM方法建立的模型具有较好的泛化和推广能力，可以对保护性抗原预测模型给出较好的学习结果。

对于给定一组抗原蛋白样本，每个蛋白样本具有特征值向量x，并标记所属类别y(保护性抗原/非保护性抗原)，使用支持向量机算法进行训练，并建立一个模型，对新的待预测蛋白实例进行分类(保护性抗原/非保护性抗原)，使其成为非概率二元线性分类。

所述支持向量机方法模型为：

k(x_i，x_j)表示核函数，

k(x_i，x_j)＝φ(x_i)^Tφ(x_j)

约束条件为:

0≤α≤C

其中C表示惩罚函数。

神经网络算法

神经网络算法是通过模拟生物神经网络进行信息处理的一种数学模型，以网络结点模拟神经细胞、以网络连接权模拟大脑的激励电平，通过简单数学方法完成复杂的智能分析。应用神经网络算法建立的模型能有效的处理非线性、模糊性和不确定性关系，可以对保护性抗原预测模型给出较好的学习结果。本方法采用神经网络模型中的反向传播(BackPropagation，BP)算法，它是一种按误差逆传播算法训练的多层前馈网络。其网络结构由三层组成:输入层，隐含层与输出层。

网络的训练过程是首先将蛋白样本特征向量x输入，经过层层计算后获得输出蛋白样本分类(保护性抗原/非保护性抗原)y。随后使用损失函数(loss function)来计算loss值，并通过迭代使用BP算法更新所有权重和阈值直至损失函数的值收敛到目标值。

损失函数为：

每个隐含层和输出层神经元输出与输入的函数关系为:

其中W_ij表示神经元i与神经元j之间连接的权重，o_j代表神经元j的输出，sigmod是一个特殊的函数称为神经元的激励函数(activation function)，用于将任意实数映射到(0，1)区间。

决策树算法

决策树算法是一种通过构造决策树来对数据进行规则分类的算法。决策树的构造分首先是由训练样本集生成决策树，随后是对生成的决策树进行检验、校正。应用决策树方法建立的模型，分类速度快，能在相对短的时间内能够对大型数据源做出可行且效果良好的结果，可以对保护性抗原预测模型给出较好的学习结果。本方法采用决策树算法中的CART算法(Classification And Regression Tree，分类与回归树)，该算法中树的构建基于基尼指数GINI。GINI指数类似于熵的概念，代表样本类别划分的纯净度。

对于K个分类，定义样本点属于第k类的概率为pk，则概率分布的GINI指数定义为

对于本方法中涉及的保护性抗原二类分类问题，若抗原蛋白属于第1个类(保护性抗原)的概率是p，则概率分布的GINI指数为

Gini(p)＝2p(1-p)

对于给定的抗原蛋白样本集合D，其GINI指数为

其中，C_k是D中属于第k类的样本子集，K是类的个数。输入蛋白样本训练数据集D以及停止计算的条件后，根据训练数据集，从根节点开始，递归地对每个结点进行操作，构建二叉决策树并输出。直至结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值，或者没有更多特征时，算法停止计算。

朴素贝叶斯算法

朴素贝叶斯算法是一种基于贝叶斯定理的统计分类算法，其通过某对象的先验概率，利用贝叶斯公式计算出其在所有类别上的后验概率。由于该算法从数据的先验概率出发，根据训练参数进行预测，简单高效。应用朴素贝叶斯方法建立的模型具有较好的推广能力，可以对保护性抗原预测模型给出较好的学习结果。

贝叶斯模型其基本假设是每个特征之间是独立的，

P(Y|X)＝P(X|Y)P(Y)/P(X)

对于抗原蛋白样本集合:

其中m表示有m个抗原蛋白样本，n表示有n个特征。yi,i＝1,2,..,m表示样本类别，取值为{C₁，C₂，...，C_K}。

朴素贝叶斯分类器可表示为：

对于给定的抗原蛋白训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后根据该模型对给定的输入蛋白样本特征向量x，利用贝叶斯定理求出后验概率最大的输出蛋白样本分类y(保护性抗原/非保护性抗原)。

为了改善各个算法分类模型的准确性，通过网格搜索参数，即在所有候选的参数选择中，通过循环遍历尝试每一种可能性，表现最好的参数就是最终模型的参数。采用K交叉检验模型(K-fold cross validation，K＝5)进行模型预测能力的评估，将数据随机、平均分为K份，其中(K-1)份用来建立模型，在剩下的一份数据中进行验证。

四种单独机器学习算法评估准确度如下：

支持向量机SVM:0.92833(+/-0.07314)

神经网络MLP:0.98500(+/-0.01333)

决策树CART:0.94167(+/-0.08010)

贝叶斯NB:0.94000(+/-0.09936)

从结果中可以看出，四种单独机器学习分类模型的准确度均达到0.92。

集成算法

由于单一算法往往具有一定的偏性，从而导致模型预测准确度偏低，尚不能较好达到准确预测细菌保护性抗原的目的。为了解决单一算法预测性能的局限，本方法采用了集成算法来提升模型的预测性能。各个单一分类算法各有优劣，采用集成算法可以做到取长补短。本方法采用投票算法(Voting)通过创建四个算法模型，随后利用投票将这些算法集成起来，选择单一算法输出最多(两种或以上)的分类标签作为集成算法输出，从而建立机器学习集成分类模型。

经采用投票算法集成后，集成模型准确度如下：

集成算法Ensemble：0.98667(+/-0.01453)

通过投票算法集成后，准确度进一步提高达到0.987，具有良好的预测效果。进一步通过测试数据集对集成模型进行评估，其分类评估报告如表2所示：

表2：本方法所用集成模型分类评估报告。

其中，TP表示“真阳性”，TN表示“真阴性”，FN表示“假阴性”，FP表示“假阳性”。

本方法对已知保护性抗原与非保护性抗原测试数据集的预测准确率超过91％，各项评价指标均表现良好。验证了基于多个与保护性抗原密切相关因素为特征值并采用集成算法的基于机器学习技术预测细菌保护性抗原蛋白方法的可行性。

P3：保护性抗原预测

输入待预测细菌全基因组蛋白序列后，计算机程序分析获得相应的特征因素值，并利用建立好的集成机器学习模型进行保护性抗原的准确预测，判断该蛋白是否为保护性抗原蛋白，并排除人、鼠蛋白同源性，将预测到的细菌保护性抗原列表输出保存。

具体包括：

步骤一、从Uniprot蛋白数据库(https://www.uniprot.org/)中下载待预测细菌的全部注释蛋白序列，并将蛋白序列采用FASTA格式输入计算机程序；

步骤二、计算机程序对待预测蛋白进行6个与保护性抗原密切相关特征因素的计算分析，包括：通过使用CELLO软件(http://cello.life.nctu.edu.tw/)对细菌全基因组蛋白进行蛋白亚细胞定位预测，获得待预测蛋白亚细胞定位概率；通过使用BLAST软件(https://blast.ncbi.nlm.nih.gov/Blast.cgi)，将细菌全基因组蛋白与保护性功能域数据集进行检索比对，获得待预测蛋白保护性功能域相似性；通过使用VaxiJen软件(http://www.ddgpharmfac.net/vaxijen/VaxiJen)，对细菌全基因组蛋白进行氨基酸性质分析，获得待预测蛋白抗原性数值；通过使用MED软件(http://med.mmci.uni-saarland.de/)，对细菌全基因组蛋白进行表位密度分析，获得待预测蛋白表位密度；通过使用Mp3软件(http://metagenomics.iiserb.ac.in/mp3)，对细菌全基因组蛋白进行毒力分析，获得待预测蛋白毒力基因概率；通过使用Vaxign软件(http://www.violinet.org/vaxign/index.php)，对细菌全基因组蛋白进行粘附素分析，获得待预测蛋白黏附概率。最终获得待预测蛋白的特征注释数据，用于后续机器学习模型分类预测。

步骤三、计算机程序调用上述训练好的机器学习集成分类模型，以细菌全基因组蛋白的6个因素抗原特征注释数据为输入，根据机器学习模型预测结果判断蛋白是否为一个保护性抗原，排除与人、鼠同源性蛋白，并将预测到的细菌保护性抗原列表输出保存；

实施例2利用基于机器学习技术预测细菌保护性抗原蛋白的方法针对布鲁氏菌进行保护性抗原预测

作为例子，使用实施例1中建立的机器学习模型(具体为基于机器学习技术预测细菌保护性抗原蛋白的分类模型)，来预测布鲁氏菌(以国内人用布鲁氏菌疫苗104M株为例)保护性抗原蛋白。

具体包括：

从Uniprot蛋白数据库中下载待预测细菌布鲁氏菌104M株的全部注释蛋白序列(https://www.uniprot.org/proteomes/UP000064067，共3072条)。以布鲁氏菌3072个注释蛋白中任意两个蛋白为例，如Invasion protein(ALF29011)和Organic solventtolerance protein(ALF29289)，序列信息分别如下：

>embl-cds:ALF29011Invasion protein OS＝Brucella abortus 104MGN＝NL70_01765SV＝1UP＝UP000064067:Chromosome+1

MKNYRAIGLAFTFTALSSLSAFAASLPGGASTLQETYQDWTVSCQSQKDTTACVMRQEQSSAQTGQRVLTAELRNVAGGKVDGVLLMPFGLDLAKGASLKIDDTAGPNLTFSTCLPQGCLAPVSFDAKQVAALKSGTNINVTTTALSPSQPVAFKISLKGFGAALDRIQALTK

>embl-cds:ALF29289Organic solvent tolerance protein OS＝Brucellaabortus 104M GN＝NL70_03370SV＝1UP＝UP000064067:Chromosome+1

MVLPHTLSRLARGTALACVLALPFVSVAILSSPAQAQDALSANYQSDPNARMLLQADELVYDRDVNTVTAQGKVRIEYDGNRLVADKVTYNQQTRRMTATGNVEIVERDGNRIYSDHIDVTDSFRDGFVNGLRVETTDNTRFVAESAERSNGEITTFNNGAYTACEPCAKNPDKPVLWQIKARKIIWNSATKTVRFERGRFELFGMPLAYLPAFEMADPTVKRKSGFLFPGFAYKDDLGFGIKNSYFWALAPNYDLTLSTTAYTKQGFLTEAEWRHRLENGEYDFRIAGIHQLKPEEFGVATIDREKTNRGMVASKGNFDINSRWHFGWDVLAQTDHNFSRTYEIQGYNAQTQVSKIYLTGINNRNYFDLNFYRFNVQESYLAGDPNEMYSKQPWVFPSLDYSYTMPEPVYGSELNFTANLQALYRKNADYTNPFISVDENGSWVTKPNPYPRNPGFSGTNLRFTSEAEWKRTFITPSGLVITPLLALRGDAIRVDTNFDPANAGFTDAVVRSEALRAMVTAGLELRWPILFSTTSSTHILEPVAQIFVRNNERYAGQLPNEDAQSFVFDASNLFSRDKFSGYDRVEGGTRANLGLRYSGNFKDSDWALYALGGQSFQLGGLNSYAASDFVNVGADSGLEDARSDYVAMIGTSNSTGLVLAARGRFGKDDFAVQRGEFEAQQSWEKLTVSGQYAYIAPQPAYGYSDLRQEVTGSATARINTNWRVFGSGTYDLVSDTLVRASSGLAYDDECFTYSMAYIQTRNPGDEKASHSVGFTISLRTLGDFGNGSQTF

将待预测蛋白序列分别输入计算机程序，计算机程序对该蛋白进行6个与保护性抗原密切相关特征因素的计算分析，包括：通过使用CELLO软件(http://cello.life.nctu.edu.tw/)对待预测蛋白进行蛋白亚细胞定位预测，获得待预测蛋白亚细胞定位概率；通过使用BLAST软件(https://blast.ncbi.nlm.nih.gov/Blast.cgi)，将待预测蛋白与保护性功能域数据集进行检索比对，获得待预测蛋白保护性功能域相似性；通过使用VaxiJen软件(http://www.ddgpharmfac.net/vaxijen/VaxiJen)，对待预测蛋白进行氨基酸性质分析，获得待预测蛋白抗原性数值；通过使用MED软件(http://med.mmci.uni-saarland.de/)，对ALF29011蛋白进行表位密度分析，获得待预测蛋白表位密度；通过使用Mp3软件(http://metagenomics.iiserb.ac.in/mp3)，对待预测蛋白进行毒力分析，获得待预测蛋白毒力基因概率；通过使用Vaxign软件(http://www.violinet.org/vaxign/index.php)，对待预测蛋白进行粘附素分析，获得待预测蛋白黏附概率。最终获得待预测蛋白的特征注释数据，用于后续机器学习模型分类预测。所获得的待预测蛋白特征注释数据示例如表3：

表3：待预测蛋白特征注释数据示例。

计算机程序调用机器学习集成分类模型，以待预测蛋白的6个因素抗原特征注释数据为输入，根据机器学习模型预测结果判断蛋白是否为一个保护性抗原，排除与人、鼠同源性蛋白，并将预测到的细菌保护性抗原列表输出保存。具体包括：

将待预测蛋白Invasion protein(ALF29011)和Organic solvent toleranceprotein(ALF29289)特征注释数据经正态化处理后分别输入已经建立的四种单一机器学习算法模型。

支持向量机模型将该蛋白样本根据特征值映射到已建立的高维希尔伯特空间，并根据决策函数判断其位于分类超平面的位置，输出该蛋白是否预测为保护性抗原。支持向量机模型显示Invasion protein(ALF29011)输出为1，Organic solvent toleranceprotein(ALF29289)输出为0。

神经网络模型将该蛋白样本根据特征值输入已建立的神经网络的输入层，经隐含层处理后，输出层输出该蛋白是否预测为保护性抗原。神经网络模型显示Invasionprotein(ALF29011)输出为1，Organic solvent tolerance protein(ALF29289)输出为0。

决策树模型将该蛋白样本根据特征值代入已构建好的CART二叉决策树，根据所属分类节点，输出该蛋白是否预测为保护性抗原。决策树模型显示Invasion protein(ALF29011)输出为1，Organic solvent tolerance protein(ALF29289)输出为0。

朴素贝叶斯模型将该蛋白样本特征值输入后，利用贝叶斯定理求出后验概率最大的输出蛋白样本分类，即输出该蛋白是否预测为保护性抗原。朴素贝叶斯模型显示Invasion protein(ALF29011)输出为1，Organic solvent tolerance protein(ALF29289)输出为1。

本方法中所选择的四种单一机器学习算法中，SVM算法建立的模型具有较好的泛化和推广能力；神经网络算法建立的模型能有效的处理非线性、模糊性和不确定性关系。决策树方法建立的模型分类速度快，能在相对短的时间内能够对大型数据源做出可行且效果良好的结果；朴素贝叶斯方法建立的模型从数据的先验概率出发，具有较好的推广能力。这四种单一机器学习算法均可以对保护性抗原预测模型给出较好的学习结果。

但是四种单一机器学习模型输出结果具有差异，说明单一算法应用在保护性抗原预测上仍具有一定的偏性，从而导致模型预测准确度偏低，尚不能达到准确预测细菌保护性抗原的目的。为了解决单一算法预测性能的局限，本方法采用了集成算法来提升模型的预测性能。各个单一分类器模型各有优劣，采用集成模型可以做到取长补短。本方法采用集成模型采用投票(Voting)算法，将四种单一算法进行集成，选择单一算法输出最多(两种或以上)的分类标签作为集成算法输出。

最终预测结果显示，Invasion protein(ALF29011)在四种单一算法中，支持向量机、神经网络、决策树和朴素贝叶斯算法都预测为保护性抗原，且经Voting投票集成算法模型预测为阳性保护性抗原，并排除人、鼠蛋白同源性，最终做为保护性抗原输出。而Organicsolvent tolerance protein(ALF29289)在四种单一算法中，支持向量机、神经网络和决策树三种算法预测为阴性保护性抗原，且经Voting投票集成算法模型预测为阴性保护性抗原，最终不做为保护性抗原输出。待预测蛋白单一算法模型和集成算法模型预测结果如表4：

表4：待预测蛋白单一算法模型和集成算法模型预测结果示例。

对布鲁氏菌全基因组3072个注释蛋白进行以上操作，集成分类模型共预测到阳性保护性抗原41个，并排除与人、鼠同源性蛋白13个，将剩余的28个布鲁氏菌保护性抗原蛋列表输出保存。表5分别列出输出的布鲁氏菌保护性抗原蛋白编号、名称、大小以及是否为已知保护性抗原。

表5：实施例中通过机器学习集成分类模型输出的布鲁氏菌保护性抗原列表。

本方法共输出保护性抗原28个，仅占布鲁氏菌全基因组3072个注释蛋白的约1％，表明所建立的基于机器学习的细菌保护性抗原预测方法具有较低的假阳性率。在这28个蛋白中，有13个蛋白是已经被实验验证过的已知保护性抗原，包括Invasion protein(ALF29011)、Omp31(ALF30038)、Omp25(ALF29302)、Omp19(ALF30699)等(Carvalho T F,Haddad J P A,

T A,et al.Meta-Analysis and Advancement of BrucellosisVaccinology.Plos One,2016,11(11):e0166582)，表明所建立的基于机器学习的细菌保护性抗原预测方法具有较好的敏感性。

细菌保护性抗原的发现是细菌疫苗研究中的核心步骤。利用本发明及其提供的程序，可以快速预测新的细菌基因组内的保护性抗原，显著提高了预测准确度，为细菌疫苗设计提供了潜在的靶标，方便研究者进行后续验证评价，有助于缩短细菌疫苗研发的进程，适用于广泛应用。

本领域普通技术人员可以理解实现上述实施例方法重点，全部或部分步骤是可以通过程序来控制相关的硬件完成，所述的程序可以储存于一计算机可读存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，但该实例仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、同等替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习技术预测细菌保护性抗原蛋白的方法，所述方法包括以下步骤：

（1）数据收集：从公开的细菌保护性抗原数据库包括Antigen Database、ProtegenDatabase中采集经实验验证的保护性抗原信息，并收集公共数据库Pubmed中文献新报道的细菌保护性抗原信息，获得保护性抗原阳性数据集，从Uniprot数据库下载所有致病菌蛋白序列，排除所有与已知保护性抗原同源蛋白后，从中随机抽取部分蛋白认定为非保护性抗原，获得保护性抗原阴性数据集，并基于与保护性抗原密切相关的特征因素,对数据集中抗原的蛋白序列特征进行分析，构建保护性抗原和非保护性抗原特征注释数据集，用于后续机器学习模型的构建，所述特征因素包括：亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率；在所述序列特征分析时，使用CELLO软件分析获选抗原的亚细胞定位特征；使用BLAST软件分析获选抗原的保护性功能域特征；使用VaxiJen软件分析获选抗原的氨基酸抗原性特征；使用MED软件分析获选抗原的表位密度特征；使用Mp3软件分析获选抗原的毒力基因概率特征；使用Vaxign软件分析获选抗原的黏附概率特征；

（2）建立模型：针对抗原特征注释数据集，将数据集分为训练集和测试集两部分，所述训练集占总集合的70%，用于建立预测模型，测试集占总集合的30%，用于对所建立模型进行评价和验证，并将数据集中数据进行正态化处理，使用机器学习算法，对数据集进行训练后建立模型，再采用投票算法对所述机器学习算法建立的模型集成以建立保护性抗原预测的机器学习模型，所述机器学习算法包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法，投票算法评估的指标包括：精确率、召回率、F1值和样本数目；

（3）保护性抗原预测：输入待预测细菌全基因组蛋白序列后，使用计算机程序分析获得相应的特征因素值，并利用建立好的机器学习模型进行保护性抗原的预测，判断该蛋白是否为保护性抗原蛋白，并排除人、鼠蛋白同源性，输出预测到的细菌保护性抗原，所述计算机程序分析获得相应的特征因素值时，使用CELLO软件对细菌全基因组蛋白进行蛋白亚细胞定位预测，获得待预测蛋白亚细胞定位概率；使用BLAST软件，将细菌全基因组蛋白与保护性功能域数据集进行检索比对，获得待预测蛋白保护性功能域相似性；使用VaxiJen软件对细菌全基因组蛋白进行氨基酸性质分析，获得待预测蛋白抗原性数值；使用MED软件对细菌全基因组蛋白进行表位密度分析，获得待预测蛋白表位密度；使用Mp3软件对细菌全基因组蛋白进行毒力分析，获得待预测蛋白毒力基因概率；使用Vaxign软件对细菌全基因组蛋白进行粘附素分析，获得待预测蛋白黏附概率。

2.一种基于机器学习技术预测细菌保护性抗原蛋白的系统，所述系统包括以下模块：

（1）数据收集模块：从公开的细菌保护性抗原数据库包括Antigen Database、ProtegenDatabase中采集经实验验证的保护性抗原信息，并收集公共数据库Pubmed中文献新报道的细菌保护性抗原信息，获得保护性抗原阳性数据集，从Uniprot数据库下载所有致病菌蛋白序列，排除所有与已知保护性抗原同源蛋白后，从中随机抽取部分蛋白认定为非保护性抗原，获得保护性抗原阴性数据集，基于与保护性抗原密切相关的特征因素,对数据集中抗原的蛋白序列特征进行分析，构建保护性抗原和非保护性抗原特征注释数据集，用于后续机器学习模型的构建，所述特征因素值包括：亚细胞定位、功能域相似性、抗原性、表位密度、毒力基因概率、粘附概率；在所述序列特征分析时，使用CELLO软件分析获选抗原的亚细胞定位特征；使用BLAST软件分析获选抗原的保护性功能域特征；使用VaxiJen软件分析获选抗原的氨基酸抗原性特征；使用MED软件分析获选抗原的表位密度特征；使用Mp3软件分析获选抗原的毒力基因概率特征；使用Vaxign软件分析获选抗原的黏附概率特征；

（2）模型建立模块：针对抗原特征注释数据集，将数据集分为训练集和测试集两部分，模型建立模块中所述训练集占总集合的70%，用于建立预测模型，测试集占总集合的30%，用于对所建立模型进行评价和验证，并将数据集中数据进行正态化处理，使用机器学习算法，对数据集进行训练后建立模型，再采用投票算法对所述机器学习算法建立的模型集成以建立保护性抗原预测的机器学习模型，所述机器学习算法包括支持向量机算法SVM、神经网络算法、贝叶斯分类算法和决策树算法，所述投票算法评估的指标包括：精确率、召回率、F1值和样本数目；

（3）保护性抗原预测模块：输入待预测细菌全基因组蛋白序列后，使用计算机程序分析获得相应的特征因素值，并利用建立好的机器学习模型进行保护性抗原的预测，判断该蛋白是否为保护性抗原蛋白，并排除人、鼠蛋白同源性，输出预测到的细菌保护性抗原。