CN1889086A - 交叉反应抗原计算机辅助筛选的方法 - Google Patents

交叉反应抗原计算机辅助筛选的方法 Download PDF

Info

Publication number
CN1889086A
CN1889086A CNA2006100291360A CN200610029136A CN1889086A CN 1889086 A CN1889086 A CN 1889086A CN A2006100291360 A CNA2006100291360 A CN A2006100291360A CN 200610029136 A CN200610029136 A CN 200610029136A CN 1889086 A CN1889086 A CN 1889086A
Authority
CN
China
Prior art keywords
computer
antigen
cell
subsequence
cross reaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100291360A
Other languages
English (en)
Other versions
CN100428254C (zh
Inventor
陈军
杨杰
刘蕙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNB2006100291360A priority Critical patent/CN100428254C/zh
Publication of CN1889086A publication Critical patent/CN1889086A/zh
Application granted granted Critical
Publication of CN100428254C publication Critical patent/CN100428254C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种计算机应用技术领域的交叉反应抗原计算机辅助筛选的方法。本发明建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对;建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机(SVM)的学习训练,将训练好的SVM预测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。本发明是传统免疫学实验方法筛选交叉抗原的重要补充,通过向实验免疫学家提供候选交叉反应抗原,大大减少了他们的实验工作量,为传统免疫学实验方法失败时提供了又一解决思路。

Description

交叉反应抗原计算机辅助筛选的方法
技术领域
本发明涉及一种计算机应用技术领域的方法,具体是一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。
背景技术
免疫交叉反应指的是由一种抗原诱导产生的抗体能和另一种不同抗原产生抗原抗体反应,这两种抗原被称为交叉反应抗原。人体很多疾病都是由于病原微生物和人体特异组织细胞存在交叉反应抗原所引起。例如,某些株的链球菌引起感染(风湿热)后,可出现针对心肌及心内膜的抗体,从而造成心肌和心内膜的损害。发现病原微生物存在的交叉反应抗原对于阐明病原微生物的致病机理从而制定防治措施具有重要意义。另一方面,有些交叉免疫反应还可以为人们所利用。例如,溶组织脲原体和人精子存在着交叉反应抗原,这是导致不孕的重要原因,但这也为免疫避孕提供了可能的途径,通过找到交叉反应抗原,确定抗原反应决定簇,然后设计疫苗用于免疫避孕。因此,能够寻找到交叉反应抗原具有很高的应用价值。但是,现今寻找交叉反应抗原的方法大多通过免疫动物、蛋白质提纯以及免疫亲和层析等实验步骤,实验过程复杂无比,而且蛋白质提纯是一个技术难点,有时候由于量少而无法提纯,从而导致实验无法继续而失败。由于发生交叉反应的分子基础是交叉反应抗原存在着相同或相似的B细胞表位,如今很多病原微生物的大部分蛋白质已经测序,这样可以通过计算机对病原微生物和人特异性组织细胞的蛋白质组进行比对,找到相似的子序列,然后对这些子序列进行筛选,实验鉴定,从而确定交叉反应抗原及其线性B细胞表位。总之,计算机辅助交叉抗原的筛选是切实可行的。
经文献检索未发现有计算机辅助交叉抗原筛选方面的文献。在B细胞线性表位的预测方面有相关的文献,但预测方法大多基于单个氨基酸量表或者是几个氨基酸量表的简单结合,预测效率很低。Martin J.Blythe等人在《Protein Science》Vo1.14,2005,246-248(蛋白质科学,14卷,246-268页,2005年)上,对AAindex484个量表以及其组合对现有的B细胞表位预测方法进行评价,结果发现这些方法比传统方法并没有明显提高。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。使其不仅是对免疫实验的重要补充,还能够有效地筛选出候选交叉反应抗原,大大减轻了免疫学实验的工作量。
本发明是通过以下技术方案实现的:
本发明建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对;建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机(SVM)的学习训练,将训练好的SVM检测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。
本发明具体包括以下步骤:
(1)建立蛋白质原始数据集。
设置搜索条件,在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。
(2)局部序列比对搜索相似子序列。
这里要求用户给定子序列的长度,允许的错配数,然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对,搜索出相似子序列对,作为候选集。
(3)建立B细胞线性表位数据集。
正样本数据可由Bcipep数据库得到;通过Bcipep中表位数据的注释,在Swiss-Prot中搜索相应的抗原蛋白,然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。
(4)建立SVM分类学习器。
选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表,对表位数据集中的序列计算相应量表的平均值及其方差,这样对于每个序列形成了一个28维的特征向量;将序列集按照交叉验证的方法随机分成训练集和测试集,选取最优化参数和核函数得到SVM分类器。
(5)用SVM分类器进行排列,然后筛选。
用训练好的SVM分类器检测相似子序列的B细胞为线性表位的可能性,然后按照可能性大小进行排列,筛选可能性大的若干子序列作为结果。
本发明通过计算机分析病原微生物和人特异性组织细胞蛋白质组,筛选可能存在的交叉反应抗原,并提供给实验免疫学家从而进一步用免疫学实验证实。这不仅是对免疫实验的重要补充,而且是在免疫学实验失败的情况下的优先选择。实验证明,本方法能够有效地筛选出候选交叉反应抗原,大大减轻了免疫学实验的工作量。
附图说明
图1为本发明方法框图
具体实施方式
如图1所示,由计算机辅助筛选病原微生物与人特异性组织细胞交叉反应抗原,需要五个步骤:
1.建立病原微生物与人特异性组织细胞蛋白质数据集
Swiss-Prot蛋白质数据库可以从北京大学的服务器上下载,地址:ftp://cn.expasy.org/。搜索某种病原微生物的所有蛋白质的条件为:OG=病原微生物英文名;搜索人特异性组织细胞所有蛋白质为:OG=homo sapiens;TissueSpecificity=组织细胞英文名。搜索后转换为FASTA格式。以上都可以通过perl编程实现。对于人特异性组织细胞蛋白质,搜索后还需进行人工筛选,确保数据集的正确;
2.建立B细胞线性表位的数据集
B细胞线性表位分为正负样本数据集。正样本可以由Bcipep数据库得到,网址:http://www.imtech.res.in/raghava/bcipep。得到正样本后,通过查询每个表位所在抗原蛋白的准入号(AC),从Swiss-Prot数据库中搜索到相应蛋白质,转换成FASTA格式,标记其上的表位氨基酸序列,然后在蛋白质的未标记部分中选择特定长度的氨基酸序列作为负样本。为了避免正负样本数据集由长度差异带来的影响,所以正负样本数据集序列的长度分布要一致;
3.局部序列比对搜索相似子序列
在搜索前,需要用户给定两个参数的值:子序列的长度L和允许的错配数M。设病原微生物的蛋白质集为P1,人特异性组织细胞的蛋白质集为P2,病原微生物蛋白质序列x1∈P1,人特异性组织细胞的蛋白质序列x2∈P2。然后,将x1和x2的长度为L的子序列进行两两比较。设子序列s1=a1a2...aLx1,s2=a′1a′2...a′Lx2。计算ai≠a′i(i=1..L)的错配数l,若l≤L,则将s1,s2及其所属蛋白质的AC记录下,形成候选集合;
4.用表位数据集训练SVM
原始表位数据集的格式为氨基酸序列,为了进行SVM的学习训练,需要转化成一定长度的向量形式。这里选取AAIndex中和B细胞表位性质最为相关的14个氨基酸量表,它们分别为:A098,A335,C137,H215,H364,P063,P214,P219,P280,P353,Z019,Z021,Z022,Z031。AAIndex的地址为:http://www.genome.jp/aaindex/。由于不同氨基酸量表取值范围不同,首先要归一划到[-1,1]。对于每个表位(或非表位),每个氨基酸量表计算两个统计量:平均值和方差。设表位为x=a1a2...al,氨基酸量表为S,则平均值为 X ‾ = 1 l Σ i = 1 l S a i , 方差为 σ X 2 = 1 l - 1 Σ i = 1 l ( S a i - X ‾ ) 2 . 这样就形成了28维的向量集合用于SVM的训练。SVM学习训练可通过mySVM软件实现。
mySVM的地址为:http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/。为了选取合适的SVM参数,采用交叉验证的方法来进行估计,选取分类错误最小的参数,这里的参数主要是核函数的形式以及惩罚因子C。交叉验证采用五倍法,即将表位数据集随机分成数量相等的五份,每一份作为测试集,其余作为训练集,进行五次训练和测试,分类错误率是五次测试错误率的平均值。核函数的选择为:内积核函数,多项式核函数以及径向核函数。C的选择为0.01,0.1,1,10,100,1000;
5.用SVM分类器进行排列,然后筛选。训练好的SVM形成了判别函数 f ( x ) = Σ i = 1 n λ i K ( x i , x ) , 其中λi由上一步训练得到。将第三步形成的候选集中的每一个子序列,按照第四步的方法,转换成向量形式,计算f(x)的大小。然后按照f(x)的大小对候选集中的表位由大到小进行排列,f(x)越大,离分类边界越远,则成为表位的可能性越大。将排序好的候选集中位于前N位的子序列进行免疫学实验分析,一旦经实验证实,则这个子序列就为产生交叉反应的子序列,其所在的蛋白质就为交叉反应抗原。

Claims (7)

1、一种交叉反应抗原计算机辅助筛选的方法,其特征在于,建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对,建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机SVM的学习训练,将训练好的SVM检测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。
2、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,具体包括以下步骤:
(1)建立蛋白质原始数据集;
(2)局部序列比对搜索相似子序列;
(3)建立B细胞线性表位数据集;
(4)建立SVM分类学习器;
(5)用SVM分类器进行排列,然后筛选。
3、根据权利要求2所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤(1)中,设置搜索条件,在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。
4、根据权利要求2所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤(2)中,要求用户给定子序列的长度,允许的错配数,然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对,搜索出相似子序列对,作为候选集。
5、根据权利要求2所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤(3)中,正样本数据可由Bcipep数据库得到;通过Bcipep中表位数据的注释,在Swiss-Prot中搜索相应的抗原蛋白,然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。
6、根据权利要求2所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤(4)中,选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表,对表位数据集中的序列计算相应量表的平均值及其方差,这样对于每个序列形成了一个28维的特征向量;将序列集按照交叉验证的方法随机分成训练集和测试集,选取最优化参数和核函数得到SVM分类器。
7、根据权利要求2所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤(5)中,用训练好的SVM分类器检测相似子序列的B细胞为线性表位的可能性,然后按照可能性大小进行排列,筛选可能性大的若干子序列作为结果。
CNB2006100291360A 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法 Expired - Fee Related CN100428254C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100291360A CN100428254C (zh) 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100291360A CN100428254C (zh) 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法

Publications (2)

Publication Number Publication Date
CN1889086A true CN1889086A (zh) 2007-01-03
CN100428254C CN100428254C (zh) 2008-10-22

Family

ID=37578363

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100291360A Expired - Fee Related CN100428254C (zh) 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法

Country Status (1)

Country Link
CN (1) CN100428254C (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049679A (zh) * 2012-12-28 2013-04-17 上海交通大学 蛋白质潜在致敏性的预测方法
CN105787927A (zh) * 2016-02-06 2016-07-20 上海市第人民医院 视网膜眼底图像的渗出液检测方法
CN108351916A (zh) * 2015-07-14 2018-07-31 个人基因组诊断公司 新生抗原分析
CN108982858A (zh) * 2018-07-05 2018-12-11 陕西师范大学 一种基于单克隆抗体检测人proGRP的双夹心ELISA试剂盒

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6872518B2 (en) * 1997-09-22 2005-03-29 University Of Rochester Methods for selecting polynucleotides encoding T cell epitopes
CN1482563A (zh) * 2000-08-11 2004-03-17 周果宏 器官移植供、受者hla快速配型方法
WO2003011902A1 (en) * 2001-07-27 2003-02-13 Kenton S.R.L. Identification of specific tumour antigens by selection of cdna libraries with sera
EP1564554A1 (en) * 2004-02-12 2005-08-17 Pepscan Systems B.V. Method for the detection of early B cell populations in vaccine development
CN100339391C (zh) * 2004-09-06 2007-09-26 中国医学科学院药物研究所 具有广泛交叉免疫反应性的冠状病毒(SARS-CoV)B-细胞抗原决定簇

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049679A (zh) * 2012-12-28 2013-04-17 上海交通大学 蛋白质潜在致敏性的预测方法
CN103049679B (zh) * 2012-12-28 2017-07-11 上海交通大学 蛋白质潜在致敏性的预测方法
CN108351916A (zh) * 2015-07-14 2018-07-31 个人基因组诊断公司 新生抗原分析
CN105787927A (zh) * 2016-02-06 2016-07-20 上海市第人民医院 视网膜眼底图像的渗出液检测方法
CN105787927B (zh) * 2016-02-06 2018-06-01 上海市第一人民医院 一种眼底彩色照相图像中渗出自动化识别方法
CN108982858A (zh) * 2018-07-05 2018-12-11 陕西师范大学 一种基于单克隆抗体检测人proGRP的双夹心ELISA试剂盒

Also Published As

Publication number Publication date
CN100428254C (zh) 2008-10-22

Similar Documents

Publication Publication Date Title
Zdobnov et al. InterProScan–an integration platform for the signature-recognition methods in InterPro
Baú et al. Distill: a suite of web servers for the prediction of one-, two-and three-dimensional structural features of proteins
Fong et al. Predicting specificity in bZIP coiled-coil protein interactions
Shen et al. Identification of helix capping and β-turn motifs from NMR chemical shifts
Uzilov et al. Detection of non-coding RNAs on the basis of predicted secondary structure formation free energy change
Wu et al. TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-binding analyses
Si et al. Computational prediction of RNA-binding proteins and binding sites
Luu et al. Predicting TCR-epitope binding specificity using deep metric learning and multimodal learning
CN109147866A (zh) 基于采样与集成学习的蛋白质-dna绑定残基预测方法
Guo et al. Bagging msa learning: Enhancing low-quality pssm with deep learning for accurate protein structure property prediction
Song et al. Pretraining model for biological sequence data
Zhang et al. Predicting linear B-cell epitopes by using sequence-derived structural and physicochemical features
Baek et al. Protein oligomer modeling guided by predicted interchain contacts in CASP14
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
CN100428254C (zh) 交叉反应抗原计算机辅助筛选的方法
WO2020123302A1 (en) Predicting affinity using structural and physical modeling
Zhang et al. Predicting binding affinities of emerging variants of SARS-CoV-2 using spike protein sequencing data: observations, caveats and recommendations
Yadav et al. TCR-ESM: employing protein language embeddings to predict TCR-peptide-MHC binding
Ahmed et al. An Efficient Deep Learning Approach for DNA-Binding Proteins Classification from Primary Sequences
Pham et al. Prediction and analysis of β-turns in proteins by support vector machine
Kazm et al. Transformer Encoder with Protein Language Model for Protein Secondary Structure Prediction
Menke et al. Wrap-and-pack: a new paradigm for beta structural motif recognition with application to recognizing beta trefoils
Arango-Argoty et al. Feature extraction by statistical contact potentials and wavelet transform for predicting subcellular localizations in gram negative bacterial proteins
Jiang et al. Extracting glycan motifs using a biochemicallyweighted kernel
Jiang et al. Bioactive peptide recognition based on NLP pre-train algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081022

Termination date: 20110720