CN100428254C

CN100428254C - 交叉反应抗原计算机辅助筛选的方法

Info

Publication number: CN100428254C
Application number: CNB2006100291360A
Authority: CN
Inventors: 陈军; 杨杰; 刘蕙
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2006-07-20
Filing date: 2006-07-20
Publication date: 2008-10-22
Anticipated expiration: 2026-07-20
Also published as: CN1889086A

Abstract

本发明涉及一种计算机应用技术领域的交叉反应抗原计算机辅助筛选的方法。本发明建立病原微生物和人特异组织细胞的蛋白质数据集，然后通过局部序列比对算法，得到给定长度的相似子序列对；建立B细胞线性表位和非线性表位的数据集，特征提取，用于支持向量机(SVM)的学习训练，将训练好的SVM预测相似子序列的B细胞线性表位的可能性，根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。本发明是传统免疫学实验方法筛选交叉抗原的重要补充，通过向实验免疫学家提供候选交叉反应抗原，大大减少了他们的实验工作量，为传统免疫学实验方法失败时提供了又一解决思路。

Description

交叉反应抗原计算机辅助筛选的方法

技术领域

本发明涉及一种计算机应用技术领域的方法，具体是一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。

背景技术

免疫交叉反应指的是由一种抗原诱导产生的抗体能和另一种不同抗原产生抗原抗体反应，这两种抗原被称为交叉反应抗原。人体很多疾病都是由于病原微生物和人体特异组织细胞存在交叉反应抗原所引起。例如，某些株的链球菌引起感染(风湿热)后，可出现针对心肌及心内膜的抗体，从而造成心肌和心内膜的损害。发现病原微生物存在的交叉反应抗原对于阐明病原微生物的致病机理从而制定防治措施具有重要意义。另一方面，有些交叉免疫反应还可以为人们所利用。例如，溶组织脲原体和人精子存在着交叉反应抗原，这是导致不孕的重要原因，但这也为免疫避孕提供了可能的途径，通过找到交叉反应抗原，确定抗原反应决定簇，然后设计疫苗用于免疫避孕。因此，能够寻找到交叉反应抗原具有很高的应用价值。但是，现今寻找交叉反应抗原的方法大多通过免疫动物、蛋白质提纯以及免疫亲和层析等实验步骤，实验过程复杂无比，而且蛋白质提纯是一个技术难点，有时候由于量少而无法提纯，从而导致实验无法继续而失败。由于发生交叉反应的分子基础是交叉反应抗原存在着相同或相似的B细胞表位，如今很多病原微生物的大部分蛋白质已经测序，这样可以通过计算机对病原微生物和人特异性组织细胞的蛋白质组进行比对，找到相似的子序列，然后对这些子序列进行筛选，实验鉴定，从而确定交叉反应抗原及其线性B细胞表位。总之，计算机辅助交叉抗原的筛选是切实可行的。

经文献检索未发现有计算机辅助交叉抗原筛选方面的文献。在B细胞线性表位的预测方面有相关的文献，但预测方法大多基于单个氨基酸量表或者是几个氨基酸量表的简单结合，预测效率很低。Martin J.Blythe等人在《Protein Science》Vol.14，2005，246-248(蛋白质科学，14卷，246-268页，2005年)上，对AAindex484个量表以及其组合对现有的B细胞表位预测方法进行评价，结果发现这些方法比传统方法并没有明显提高。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。使其不仅是对免疫实验的重要补充，还能够有效地筛选出候选交叉反应抗原，大大减轻了免疫学实验的工作量。

本发明是通过以下技术方案实现的：

本发明建立病原微生物和人特异组织细胞的蛋白质数据集，然后通过局部序列比对算法，得到给定长度的相似子序列对；建立B细胞线性表位和非线性表位的数据集，特征提取，用于支持向量机(SVM)的学习训练，将训练好的SVM检测相似子序列的B细胞线性表位的可能性，根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。

本发明具体包括以下步骤：

(1)建立蛋白质原始数据集。

设置搜索条件，在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。

(2)局部序列比对搜索相似子序列。

这里要求用户给定子序列的长度，允许的错配数，然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对，搜索出相似子序列对，作为候选集。

(3)建立B细胞线性表位数据集。

正样本数据可由Bcipep数据库得到；通过Bcipep中表位数据的注释，在Swiss-Prot中搜索相应的抗原蛋白，然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。

(4)建立SVM分类学习器。

选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表，对表位数据集中的序列计算相应量表的平均值及其方差，这样对于每个序列形成了一个28维的特征向量；将序列集按照交叉验证的方法随机分成训练集和测试集，选取最优化参数和核函数得到SVM分类器。

(5)用SVM分类器进行排列，然后筛选。

用训练好的SVM分类器检测相似子序列的B细胞为线性表位的可能性，然后按照可能性大小进行排列，筛选可能性大的若干子序列作为结果。

本发明通过计算机分析病原微生物和人特异性组织细胞蛋白质组，筛选可能存在的交叉反应抗原，并提供给实验免疫学家从而进一步用免疫学实验证实。这不仅是对免疫实验的重要补充，而且是在免疫学实验失败的情况下的优先选择。实验证明，本方法能够有效地筛选出候选交叉反应抗原，大大减轻了免疫学实验的工作量。

附图说明

图1为本发明方法框图

具体实施方式

如图1所示，由计算机辅助筛选病原微生物与人特异性组织细胞交叉反应抗原，需要五个步骤：

1.建立病原微生物与人特异性组织细胞蛋白质数据集

Swiss-Prot蛋白质数据库可以从北京大学的服务器上下载，地址：ftp://cn.expasy.org/。搜索某种病原微生物的所有蛋白质的条件为：OG＝病原微生物英文名；搜索人特异性组织细胞所有蛋白质为：OG＝homo sapiens；TissueSpecificity＝组织细胞英文名。搜索后转换为FASTA格式。以上都可以通过perl编程实现。对于人特异性组织细胞蛋白质，搜索后还需进行人工筛选，确保数据集的正确；

2.建立B细胞线性表位的数据集

B细胞线性表位分为正负样本数据集。正样本可以由Bcipep数据库得到，网址：http://www.imtech.res.in/raghava/bcipep。得到正样本后，通过查询每个表位所在抗原蛋白的准入号(AC)，从Swiss-Prot数据库中搜索到相应蛋白质，转换成FASTA格式，标记其上的表位氨基酸序列，然后在蛋白质的未标记部分中选择特定长度的氨基酸序列作为负样本。为了避免正负样本数据集由长度差异带来的影响，所以正负样本数据集序列的长度分布要一致；

3.局部序列比对搜索相似子序列

在搜索前，需要用户给定两个参数的值：子序列的长度L和允许的错配数M。设病原微生物的蛋白质集为P₁，人特异性组织细胞的蛋白质集为P₂，病原微生物蛋白质序列x₁∈P₁，人特异性组织细胞的蛋白质序列x₂∈P₂。然后，将x₁和x₂的长度为L的子序列进行两两比较。设子序列

s_{1} = a_{1} a_{2} . . . a_{L} &Subset; x_{1},

s_{2} = {a^{'}}_{1} {a^{'}}_{2} . . . {a^{'}}_{L} &Subset; x_{2} .

计算a_i≠a′_i(i＝1..L)的错配数l，若l≤L，则将s₁，s₂及其所属蛋白质的AC记录下，形成候选集合；

4.用表位数据集训练SVM

原始表位数据集的格式为氨基酸序列，为了进行SVM的学习训练，需要转化成一定长度的向量形式。这里选取AAIndex中和B细胞表位性质最为相关的14个氨基酸量表，它们分别为：A098，A335，C137，H215，H364，P063，P214，P219，P280，P353，Z019，Z021，Z022，Z031。AAIndex的地址为：http://www.genome.jp/aaindex/。由于不同氨基酸量表取值范围不同，首先要归一划到[-1，1]。对于每个表位(或非表位)，每个氨基酸量表计算两个统计量：平均值和方差。设表位为x＝a₁a₂...a_l，氨基酸量表为S，则平均值为

\overset{&OverBar;}{X} = \frac{1}{l} Σ_{i = 1}^{l} S_{a_{i}},

方差为

σ_{X}^{2} = \frac{1}{l - 1} Σ_{i = 1}^{l} {(S_{a_{i}} - \overset{&OverBar;}{X})}^{2} .

这样就形成了28维的向量集合用于SVM的训练。SVM学习训练可通过mySVM软件实现。

mySVM的地址为：http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/。为了选取合适的SVM参数，采用交叉验证的方法来进行估计，选取分类错误最小的参数，这里的参数主要是核函数的形式以及惩罚因子C。交叉验证采用五倍法，即将表位数据集随机分成数量相等的五份，每一份作为测试集，其余作为训练集，进行五次训练和测试，分类错误率是五次测试错误率的平均值。核函数的选择为：内积核函数，多项式核函数以及径向核函数。C的选择为0.01，0.1，1，10，100，1000；

5.用SVM分类器进行排列，然后筛选。

训练好的SVM形成了判别函数

f (x) = Σ_{i = 1}^{n} λ_{i} K (x_{i}, x),

其中λ_i由上一步训练得到。将第三步形成的候选集中的每一个子序列，按照第四步的方法，转换成向量形式，计算f(x)的大小。然后按照f(x)的大小对候选集中的表位由大到小进行排列，f(x)越大，离分类边界越远，则成为表位的可能性越大。将排序好的候选集中位于前N位的子序列进行免疫学实验分析，一旦经实验证实，则这个子序列就为产生交叉反应的子序列，其所在的蛋白质就为交叉反应抗原。

Claims

1、一种交叉反应抗原计算机辅助筛选的方法，其特征在于，具体包括以下步骤：

①建立病原微生物和人特异组织细胞的蛋白质数据集，

②然后通过局部序列比对算法，得到给定长度的相似子序列对，

③建立B细胞线性表位和非线性表位的数据集，

④特征提取，用于支持向量机SVM的学习训练，将训练好的SVM检测相似子序列的B细胞为线性表位的可能性，

⑤根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。

2、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法，其特征是，在步骤①中，设置搜索条件，在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。

3、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法，其特征是，在步骤②中，要求用户给定子序列的长度，允许的错配数，然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对，搜索出相似子序列对，作为候选集。

4、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法，其特征是，在步骤③中，正样本数据可由Bcipep数据库得到；通过Bcipep中表位数据的注释，在Swiss-Prot中搜索相应的抗原蛋白，然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。

5、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法，其特征是，在步骤④中，选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表，对表位数据集中的序列计算相应量表的平均值及其方差，这样对于每个序列形成了一个28维的特征向量；将序列集按照交叉验证的方法随机分成训练集和测试集，选取最优化参数和核函数得到SVM分类器。