CN100428254C - 交叉反应抗原计算机辅助筛选的方法 - Google Patents
交叉反应抗原计算机辅助筛选的方法 Download PDFInfo
- Publication number
- CN100428254C CN100428254C CNB2006100291360A CN200610029136A CN100428254C CN 100428254 C CN100428254 C CN 100428254C CN B2006100291360 A CNB2006100291360 A CN B2006100291360A CN 200610029136 A CN200610029136 A CN 200610029136A CN 100428254 C CN100428254 C CN 100428254C
- Authority
- CN
- China
- Prior art keywords
- computer
- cross
- cell
- subsequence
- antigen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000000427 antigen Substances 0.000 title claims abstract description 28
- 108091007433 antigens Proteins 0.000 title claims abstract description 27
- 102000036639 antigens Human genes 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012216 screening Methods 0.000 title claims description 13
- 210000003719 b-lymphocyte Anatomy 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 11
- 102000004169 proteins and genes Human genes 0.000 claims description 24
- 108090000623 proteins and genes Proteins 0.000 claims description 24
- 244000000010 microbial pathogen Species 0.000 claims description 20
- 210000004027 cell Anatomy 0.000 claims description 18
- 238000012706 support-vector machine Methods 0.000 claims description 15
- 150000001413 amino acids Chemical class 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000002865 local sequence alignment Methods 0.000 claims description 4
- QCVGEOXPDFCNHA-UHFFFAOYSA-N 5,5-dimethyl-2,4-dioxo-1,3-oxazolidine-3-carboxamide Chemical compound CC1(C)OC(=O)N(C(N)=O)C1=O QCVGEOXPDFCNHA-UHFFFAOYSA-N 0.000 claims 1
- 102000002322 Egg Proteins Human genes 0.000 claims 1
- 108010000912 Egg Proteins Proteins 0.000 claims 1
- 238000013480 data collection Methods 0.000 claims 1
- 235000014103 egg white Nutrition 0.000 claims 1
- 210000000969 egg white Anatomy 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 18
- 238000002474 experimental method Methods 0.000 abstract description 11
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 210000003701 histiocyte Anatomy 0.000 abstract 1
- 244000005700 microbiome Species 0.000 abstract 1
- 230000001900 immune effect Effects 0.000 description 7
- 125000003275 alpha amino acid group Chemical group 0.000 description 3
- 230000000890 antigenic effect Effects 0.000 description 3
- 230000037029 cross reaction Effects 0.000 description 3
- 108010026552 Proteome Proteins 0.000 description 2
- 210000001174 endocardium Anatomy 0.000 description 2
- 210000004165 myocardium Anatomy 0.000 description 2
- 238000001742 protein purification Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000194017 Streptococcus Species 0.000 description 1
- 241000202898 Ureaplasma Species 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000009260 cross reactivity Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008105 immune reaction Effects 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 238000002649 immunization Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 208000000509 infertility Diseases 0.000 description 1
- 230000036512 infertility Effects 0.000 description 1
- 231100000535 infertility Toxicity 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 201000003068 rheumatic fever Diseases 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Landscapes
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种计算机应用技术领域的交叉反应抗原计算机辅助筛选的方法。本发明建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对;建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机(SVM)的学习训练,将训练好的SVM预测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。本发明是传统免疫学实验方法筛选交叉抗原的重要补充,通过向实验免疫学家提供候选交叉反应抗原,大大减少了他们的实验工作量,为传统免疫学实验方法失败时提供了又一解决思路。
Description
技术领域
本发明涉及一种计算机应用技术领域的方法,具体是一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。
背景技术
免疫交叉反应指的是由一种抗原诱导产生的抗体能和另一种不同抗原产生抗原抗体反应,这两种抗原被称为交叉反应抗原。人体很多疾病都是由于病原微生物和人体特异组织细胞存在交叉反应抗原所引起。例如,某些株的链球菌引起感染(风湿热)后,可出现针对心肌及心内膜的抗体,从而造成心肌和心内膜的损害。发现病原微生物存在的交叉反应抗原对于阐明病原微生物的致病机理从而制定防治措施具有重要意义。另一方面,有些交叉免疫反应还可以为人们所利用。例如,溶组织脲原体和人精子存在着交叉反应抗原,这是导致不孕的重要原因,但这也为免疫避孕提供了可能的途径,通过找到交叉反应抗原,确定抗原反应决定簇,然后设计疫苗用于免疫避孕。因此,能够寻找到交叉反应抗原具有很高的应用价值。但是,现今寻找交叉反应抗原的方法大多通过免疫动物、蛋白质提纯以及免疫亲和层析等实验步骤,实验过程复杂无比,而且蛋白质提纯是一个技术难点,有时候由于量少而无法提纯,从而导致实验无法继续而失败。由于发生交叉反应的分子基础是交叉反应抗原存在着相同或相似的B细胞表位,如今很多病原微生物的大部分蛋白质已经测序,这样可以通过计算机对病原微生物和人特异性组织细胞的蛋白质组进行比对,找到相似的子序列,然后对这些子序列进行筛选,实验鉴定,从而确定交叉反应抗原及其线性B细胞表位。总之,计算机辅助交叉抗原的筛选是切实可行的。
经文献检索未发现有计算机辅助交叉抗原筛选方面的文献。在B细胞线性表位的预测方面有相关的文献,但预测方法大多基于单个氨基酸量表或者是几个氨基酸量表的简单结合,预测效率很低。Martin J.Blythe等人在《Protein Science》Vol.14,2005,246-248(蛋白质科学,14卷,246-268页,2005年)上,对AAindex484个量表以及其组合对现有的B细胞表位预测方法进行评价,结果发现这些方法比传统方法并没有明显提高。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。使其不仅是对免疫实验的重要补充,还能够有效地筛选出候选交叉反应抗原,大大减轻了免疫学实验的工作量。
本发明是通过以下技术方案实现的:
本发明建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对;建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机(SVM)的学习训练,将训练好的SVM检测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。
本发明具体包括以下步骤:
(1)建立蛋白质原始数据集。
设置搜索条件,在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。
(2)局部序列比对搜索相似子序列。
这里要求用户给定子序列的长度,允许的错配数,然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对,搜索出相似子序列对,作为候选集。
(3)建立B细胞线性表位数据集。
正样本数据可由Bcipep数据库得到;通过Bcipep中表位数据的注释,在Swiss-Prot中搜索相应的抗原蛋白,然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。
(4)建立SVM分类学习器。
选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表,对表位数据集中的序列计算相应量表的平均值及其方差,这样对于每个序列形成了一个28维的特征向量;将序列集按照交叉验证的方法随机分成训练集和测试集,选取最优化参数和核函数得到SVM分类器。
(5)用SVM分类器进行排列,然后筛选。
用训练好的SVM分类器检测相似子序列的B细胞为线性表位的可能性,然后按照可能性大小进行排列,筛选可能性大的若干子序列作为结果。
本发明通过计算机分析病原微生物和人特异性组织细胞蛋白质组,筛选可能存在的交叉反应抗原,并提供给实验免疫学家从而进一步用免疫学实验证实。这不仅是对免疫实验的重要补充,而且是在免疫学实验失败的情况下的优先选择。实验证明,本方法能够有效地筛选出候选交叉反应抗原,大大减轻了免疫学实验的工作量。
附图说明
图1为本发明方法框图
具体实施方式
如图1所示,由计算机辅助筛选病原微生物与人特异性组织细胞交叉反应抗原,需要五个步骤:
1.建立病原微生物与人特异性组织细胞蛋白质数据集
Swiss-Prot蛋白质数据库可以从北京大学的服务器上下载,地址:ftp://cn.expasy.org/。搜索某种病原微生物的所有蛋白质的条件为:OG=病原微生物英文名;搜索人特异性组织细胞所有蛋白质为:OG=homo sapiens;TissueSpecificity=组织细胞英文名。搜索后转换为FASTA格式。以上都可以通过perl编程实现。对于人特异性组织细胞蛋白质,搜索后还需进行人工筛选,确保数据集的正确;
2.建立B细胞线性表位的数据集
B细胞线性表位分为正负样本数据集。正样本可以由Bcipep数据库得到,网址:http://www.imtech.res.in/raghava/bcipep。得到正样本后,通过查询每个表位所在抗原蛋白的准入号(AC),从Swiss-Prot数据库中搜索到相应蛋白质,转换成FASTA格式,标记其上的表位氨基酸序列,然后在蛋白质的未标记部分中选择特定长度的氨基酸序列作为负样本。为了避免正负样本数据集由长度差异带来的影响,所以正负样本数据集序列的长度分布要一致;
3.局部序列比对搜索相似子序列
在搜索前,需要用户给定两个参数的值:子序列的长度L和允许的错配数M。设病原微生物的蛋白质集为P1,人特异性组织细胞的蛋白质集为P2,病原微生物蛋白质序列x1∈P1,人特异性组织细胞的蛋白质序列x2∈P2。然后,将x1和x2的长度为L的子序列进行两两比较。设子序列 计算ai≠a′i(i=1..L)的错配数l,若l≤L,则将s1,s2及其所属蛋白质的AC记录下,形成候选集合;
4.用表位数据集训练SVM
原始表位数据集的格式为氨基酸序列,为了进行SVM的学习训练,需要转化成一定长度的向量形式。这里选取AAIndex中和B细胞表位性质最为相关的14个氨基酸量表,它们分别为:A098,A335,C137,H215,H364,P063,P214,P219,P280,P353,Z019,Z021,Z022,Z031。AAIndex的地址为:http://www.genome.jp/aaindex/。由于不同氨基酸量表取值范围不同,首先要归一划到[-1,1]。对于每个表位(或非表位),每个氨基酸量表计算两个统计量:平均值和方差。设表位为x=a1a2...al,氨基酸量表为S,则平均值为 方差为 这样就形成了28维的向量集合用于SVM的训练。SVM学习训练可通过mySVM软件实现。
mySVM的地址为:http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/。为了选取合适的SVM参数,采用交叉验证的方法来进行估计,选取分类错误最小的参数,这里的参数主要是核函数的形式以及惩罚因子C。交叉验证采用五倍法,即将表位数据集随机分成数量相等的五份,每一份作为测试集,其余作为训练集,进行五次训练和测试,分类错误率是五次测试错误率的平均值。核函数的选择为:内积核函数,多项式核函数以及径向核函数。C的选择为0.01,0.1,1,10,100,1000;
5.用SVM分类器进行排列,然后筛选。
训练好的SVM形成了判别函数 其中λi由上一步训练得到。将第三步形成的候选集中的每一个子序列,按照第四步的方法,转换成向量形式,计算f(x)的大小。然后按照f(x)的大小对候选集中的表位由大到小进行排列,f(x)越大,离分类边界越远,则成为表位的可能性越大。将排序好的候选集中位于前N位的子序列进行免疫学实验分析,一旦经实验证实,则这个子序列就为产生交叉反应的子序列,其所在的蛋白质就为交叉反应抗原。
Claims (5)
1、一种交叉反应抗原计算机辅助筛选的方法,其特征在于,具体包括以下步骤:
①建立病原微生物和人特异组织细胞的蛋白质数据集,
②然后通过局部序列比对算法,得到给定长度的相似子序列对,
③建立B细胞线性表位和非线性表位的数据集,
④特征提取,用于支持向量机SVM的学习训练,将训练好的SVM检测相似子序列的B细胞为线性表位的可能性,
⑤根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。
2、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤①中,设置搜索条件,在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。
3、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤②中,要求用户给定子序列的长度,允许的错配数,然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对,搜索出相似子序列对,作为候选集。
4、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤③中,正样本数据可由Bcipep数据库得到;通过Bcipep中表位数据的注释,在Swiss-Prot中搜索相应的抗原蛋白,然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。
5、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤④中,选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表,对表位数据集中的序列计算相应量表的平均值及其方差,这样对于每个序列形成了一个28维的特征向量;将序列集按照交叉验证的方法随机分成训练集和测试集,选取最优化参数和核函数得到SVM分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100291360A CN100428254C (zh) | 2006-07-20 | 2006-07-20 | 交叉反应抗原计算机辅助筛选的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100291360A CN100428254C (zh) | 2006-07-20 | 2006-07-20 | 交叉反应抗原计算机辅助筛选的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1889086A CN1889086A (zh) | 2007-01-03 |
CN100428254C true CN100428254C (zh) | 2008-10-22 |
Family
ID=37578363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100291360A Expired - Fee Related CN100428254C (zh) | 2006-07-20 | 2006-07-20 | 交叉反应抗原计算机辅助筛选的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100428254C (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049679B (zh) * | 2012-12-28 | 2017-07-11 | 上海交通大学 | 蛋白质潜在致敏性的预测方法 |
JP2018524008A (ja) * | 2015-07-14 | 2018-08-30 | パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド | ネオアンチゲン分析 |
CN105787927B (zh) * | 2016-02-06 | 2018-06-01 | 上海市第一人民医院 | 一种眼底彩色照相图像中渗出自动化识别方法 |
CN108982858B (zh) * | 2018-07-05 | 2021-06-15 | 陕西师范大学 | 一种基于单克隆抗体检测人proGRP的双夹心ELISA试剂盒 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020018785A1 (en) * | 1997-09-22 | 2002-02-14 | University Of Rochester | Methods for producing polynucleotide libraries in vaccinia virus |
WO2003011903A2 (en) * | 2001-07-27 | 2003-02-13 | Kenton S.R.L. | Identification of specific tumor antigens by means of the selection of cdna libraries with sera |
CN1482563A (zh) * | 2000-08-11 | 2004-03-17 | 周果宏 | 器官移植供、受者hla快速配型方法 |
EP1564554A1 (en) * | 2004-02-12 | 2005-08-17 | Pepscan Systems B.V. | Method for the detection of early B cell populations in vaccine development |
CN1746183A (zh) * | 2004-09-06 | 2006-03-15 | 中国医学科学院药物研究所 | 具有广泛交叉免疫反应性的冠状病毒(SARS-CoV)B-细胞抗原决定簇 |
-
2006
- 2006-07-20 CN CNB2006100291360A patent/CN100428254C/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020018785A1 (en) * | 1997-09-22 | 2002-02-14 | University Of Rochester | Methods for producing polynucleotide libraries in vaccinia virus |
CN1482563A (zh) * | 2000-08-11 | 2004-03-17 | 周果宏 | 器官移植供、受者hla快速配型方法 |
WO2003011903A2 (en) * | 2001-07-27 | 2003-02-13 | Kenton S.R.L. | Identification of specific tumor antigens by means of the selection of cdna libraries with sera |
EP1564554A1 (en) * | 2004-02-12 | 2005-08-17 | Pepscan Systems B.V. | Method for the detection of early B cell populations in vaccine development |
CN1746183A (zh) * | 2004-09-06 | 2006-03-15 | 中国医学科学院药物研究所 | 具有广泛交叉免疫反应性的冠状病毒(SARS-CoV)B-细胞抗原决定簇 |
Also Published As
Publication number | Publication date |
---|---|
CN1889086A (zh) | 2007-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohabatkar et al. | Prediction of allergenic proteins by means of the concept of Chou's pseudo amino acid composition and a machine learning approach | |
Gao et al. | BEST: improved prediction of B-cell epitopes from antigen sequences | |
Yasser et al. | Predicting flexible length linear B-cell epitopes | |
Song et al. | nDNA-prot: identification of DNA-binding proteins based on unbalanced classification | |
Nanni et al. | An empirical study of different approaches for protein classification | |
Wee et al. | SVM-based prediction of linear B-cell epitopes using Bayes Feature Extraction | |
Shen et al. | Predicting linear B-cell epitopes using amino acid anchoring pair composition | |
US20230298692A1 (en) | Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens | |
CN106055920B (zh) | 一种基于阶段性多策略副本交换的蛋白质结构预测方法 | |
Wang et al. | Machine learning-based methods for prediction of linear B-cell epitopes | |
CN103617203B (zh) | 基于查询驱动的蛋白质-配体绑定位点预测方法 | |
Lyons et al. | Protein fold recognition by alignment of amino acid residues using kernelized dynamic time warping | |
Zhang et al. | Predicting linear B-cell epitopes by using sequence-derived structural and physicochemical features | |
CN100428254C (zh) | 交叉反应抗原计算机辅助筛选的方法 | |
Wang et al. | Self-attention based neural network for predicting RNA-protein binding sites | |
Zheng et al. | An ensemble method for prediction of conformational B-cell epitopes from antigen sequences | |
Niu et al. | Predicting DNA binding proteins using support vector machine with hybrid fractal features | |
Tan et al. | Retrieval-enhanced mutation mastery: Augmenting zero-shot prediction of protein language model | |
Li et al. | MVSF-AB: accurate antibody–antigen binding affinity prediction via multi-view sequence feature learning | |
CA3223504A1 (en) | Tcr-repertoire framework for multiple disease diagnosis | |
Zhang et al. | Predicting binding affinities of emerging variants of SARS-CoV-2 using spike protein sequencing data: observations, caveats and recommendations | |
Regad et al. | A Hidden Markov Model applied to the protein 3D structure analysis | |
Cheng et al. | Prediction of continuous B-cell epitopes using long short term memory networks | |
Liu et al. | Prediction of discontinuous B-cell epitopes using logistic regression and structural information | |
CN108763861A (zh) | 蛋白质间相互作用的预测方法、装置、终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20081022 Termination date: 20110720 |