CN100428254C - 交叉反应抗原计算机辅助筛选的方法 - Google Patents

交叉反应抗原计算机辅助筛选的方法 Download PDF

Info

Publication number
CN100428254C
CN100428254C CNB2006100291360A CN200610029136A CN100428254C CN 100428254 C CN100428254 C CN 100428254C CN B2006100291360 A CNB2006100291360 A CN B2006100291360A CN 200610029136 A CN200610029136 A CN 200610029136A CN 100428254 C CN100428254 C CN 100428254C
Authority
CN
China
Prior art keywords
antigen
computer
subsequence
cell
cross reaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100291360A
Other languages
English (en)
Other versions
CN1889086A (zh
Inventor
陈军
杨杰
刘蕙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNB2006100291360A priority Critical patent/CN100428254C/zh
Publication of CN1889086A publication Critical patent/CN1889086A/zh
Application granted granted Critical
Publication of CN100428254C publication Critical patent/CN100428254C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种计算机应用技术领域的交叉反应抗原计算机辅助筛选的方法。本发明建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对;建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机(SVM)的学习训练,将训练好的SVM预测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。本发明是传统免疫学实验方法筛选交叉抗原的重要补充,通过向实验免疫学家提供候选交叉反应抗原,大大减少了他们的实验工作量,为传统免疫学实验方法失败时提供了又一解决思路。

Description

交叉反应抗原计算机辅助筛选的方法
技术领域
本发明涉及一种计算机应用技术领域的方法,具体是一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。
背景技术
免疫交叉反应指的是由一种抗原诱导产生的抗体能和另一种不同抗原产生抗原抗体反应,这两种抗原被称为交叉反应抗原。人体很多疾病都是由于病原微生物和人体特异组织细胞存在交叉反应抗原所引起。例如,某些株的链球菌引起感染(风湿热)后,可出现针对心肌及心内膜的抗体,从而造成心肌和心内膜的损害。发现病原微生物存在的交叉反应抗原对于阐明病原微生物的致病机理从而制定防治措施具有重要意义。另一方面,有些交叉免疫反应还可以为人们所利用。例如,溶组织脲原体和人精子存在着交叉反应抗原,这是导致不孕的重要原因,但这也为免疫避孕提供了可能的途径,通过找到交叉反应抗原,确定抗原反应决定簇,然后设计疫苗用于免疫避孕。因此,能够寻找到交叉反应抗原具有很高的应用价值。但是,现今寻找交叉反应抗原的方法大多通过免疫动物、蛋白质提纯以及免疫亲和层析等实验步骤,实验过程复杂无比,而且蛋白质提纯是一个技术难点,有时候由于量少而无法提纯,从而导致实验无法继续而失败。由于发生交叉反应的分子基础是交叉反应抗原存在着相同或相似的B细胞表位,如今很多病原微生物的大部分蛋白质已经测序,这样可以通过计算机对病原微生物和人特异性组织细胞的蛋白质组进行比对,找到相似的子序列,然后对这些子序列进行筛选,实验鉴定,从而确定交叉反应抗原及其线性B细胞表位。总之,计算机辅助交叉抗原的筛选是切实可行的。
经文献检索未发现有计算机辅助交叉抗原筛选方面的文献。在B细胞线性表位的预测方面有相关的文献,但预测方法大多基于单个氨基酸量表或者是几个氨基酸量表的简单结合,预测效率很低。Martin J.Blythe等人在《Protein Science》Vol.14,2005,246-248(蛋白质科学,14卷,246-268页,2005年)上,对AAindex484个量表以及其组合对现有的B细胞表位预测方法进行评价,结果发现这些方法比传统方法并没有明显提高。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种病原微生物和人组织细胞交叉反应抗原计算机辅助筛选的方法。使其不仅是对免疫实验的重要补充,还能够有效地筛选出候选交叉反应抗原,大大减轻了免疫学实验的工作量。
本发明是通过以下技术方案实现的:
本发明建立病原微生物和人特异组织细胞的蛋白质数据集,然后通过局部序列比对算法,得到给定长度的相似子序列对;建立B细胞线性表位和非线性表位的数据集,特征提取,用于支持向量机(SVM)的学习训练,将训练好的SVM检测相似子序列的B细胞线性表位的可能性,根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。
本发明具体包括以下步骤:
(1)建立蛋白质原始数据集。
设置搜索条件,在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。
(2)局部序列比对搜索相似子序列。
这里要求用户给定子序列的长度,允许的错配数,然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对,搜索出相似子序列对,作为候选集。
(3)建立B细胞线性表位数据集。
正样本数据可由Bcipep数据库得到;通过Bcipep中表位数据的注释,在Swiss-Prot中搜索相应的抗原蛋白,然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。
(4)建立SVM分类学习器。
选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表,对表位数据集中的序列计算相应量表的平均值及其方差,这样对于每个序列形成了一个28维的特征向量;将序列集按照交叉验证的方法随机分成训练集和测试集,选取最优化参数和核函数得到SVM分类器。
(5)用SVM分类器进行排列,然后筛选。
用训练好的SVM分类器检测相似子序列的B细胞为线性表位的可能性,然后按照可能性大小进行排列,筛选可能性大的若干子序列作为结果。
本发明通过计算机分析病原微生物和人特异性组织细胞蛋白质组,筛选可能存在的交叉反应抗原,并提供给实验免疫学家从而进一步用免疫学实验证实。这不仅是对免疫实验的重要补充,而且是在免疫学实验失败的情况下的优先选择。实验证明,本方法能够有效地筛选出候选交叉反应抗原,大大减轻了免疫学实验的工作量。
附图说明
图1为本发明方法框图
具体实施方式
如图1所示,由计算机辅助筛选病原微生物与人特异性组织细胞交叉反应抗原,需要五个步骤:
1.建立病原微生物与人特异性组织细胞蛋白质数据集
Swiss-Prot蛋白质数据库可以从北京大学的服务器上下载,地址:ftp://cn.expasy.org/。搜索某种病原微生物的所有蛋白质的条件为:OG=病原微生物英文名;搜索人特异性组织细胞所有蛋白质为:OG=homo sapiens;TissueSpecificity=组织细胞英文名。搜索后转换为FASTA格式。以上都可以通过perl编程实现。对于人特异性组织细胞蛋白质,搜索后还需进行人工筛选,确保数据集的正确;
2.建立B细胞线性表位的数据集
B细胞线性表位分为正负样本数据集。正样本可以由Bcipep数据库得到,网址:http://www.imtech.res.in/raghava/bcipep。得到正样本后,通过查询每个表位所在抗原蛋白的准入号(AC),从Swiss-Prot数据库中搜索到相应蛋白质,转换成FASTA格式,标记其上的表位氨基酸序列,然后在蛋白质的未标记部分中选择特定长度的氨基酸序列作为负样本。为了避免正负样本数据集由长度差异带来的影响,所以正负样本数据集序列的长度分布要一致;
3.局部序列比对搜索相似子序列
在搜索前,需要用户给定两个参数的值:子序列的长度L和允许的错配数M。设病原微生物的蛋白质集为P1,人特异性组织细胞的蛋白质集为P2,病原微生物蛋白质序列x1∈P1,人特异性组织细胞的蛋白质序列x2∈P2。然后,将x1和x2的长度为L的子序列进行两两比较。设子序列 s 1 = a 1 a 2 . . . a L ⋐ x 1 , s 2 = a ′ 1 a ′ 2 . . . a ′ L ⋐ x 2 . 计算ai≠a′i(i=1..L)的错配数l,若l≤L,则将s1,s2及其所属蛋白质的AC记录下,形成候选集合;
4.用表位数据集训练SVM
原始表位数据集的格式为氨基酸序列,为了进行SVM的学习训练,需要转化成一定长度的向量形式。这里选取AAIndex中和B细胞表位性质最为相关的14个氨基酸量表,它们分别为:A098,A335,C137,H215,H364,P063,P214,P219,P280,P353,Z019,Z021,Z022,Z031。AAIndex的地址为:http://www.genome.jp/aaindex/。由于不同氨基酸量表取值范围不同,首先要归一划到[-1,1]。对于每个表位(或非表位),每个氨基酸量表计算两个统计量:平均值和方差。设表位为x=a1a2...al,氨基酸量表为S,则平均值为 X ‾ = 1 l Σ i = 1 l S a i , 方差为 σ X 2 = 1 l - 1 Σ i = 1 l ( S a i - X ‾ ) 2 . 这样就形成了28维的向量集合用于SVM的训练。SVM学习训练可通过mySVM软件实现。
mySVM的地址为:http://www-ai.cs.uni-dortmund.de/SOFTWARE/MYSVM/。为了选取合适的SVM参数,采用交叉验证的方法来进行估计,选取分类错误最小的参数,这里的参数主要是核函数的形式以及惩罚因子C。交叉验证采用五倍法,即将表位数据集随机分成数量相等的五份,每一份作为测试集,其余作为训练集,进行五次训练和测试,分类错误率是五次测试错误率的平均值。核函数的选择为:内积核函数,多项式核函数以及径向核函数。C的选择为0.01,0.1,1,10,100,1000;
5.用SVM分类器进行排列,然后筛选。
训练好的SVM形成了判别函数 f ( x ) = Σ i = 1 n λ i K ( x i , x ) , 其中λi由上一步训练得到。将第三步形成的候选集中的每一个子序列,按照第四步的方法,转换成向量形式,计算f(x)的大小。然后按照f(x)的大小对候选集中的表位由大到小进行排列,f(x)越大,离分类边界越远,则成为表位的可能性越大。将排序好的候选集中位于前N位的子序列进行免疫学实验分析,一旦经实验证实,则这个子序列就为产生交叉反应的子序列,其所在的蛋白质就为交叉反应抗原。

Claims (5)

1、一种交叉反应抗原计算机辅助筛选的方法,其特征在于,具体包括以下步骤:
①建立病原微生物和人特异组织细胞的蛋白质数据集,
②然后通过局部序列比对算法,得到给定长度的相似子序列对,
③建立B细胞线性表位和非线性表位的数据集,
④特征提取,用于支持向量机SVM的学习训练,将训练好的SVM检测相似子序列的B细胞为线性表位的可能性,
⑤根据B细胞线性表位的可能性大小筛选出可能性较大的相似子序列。
2、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤①中,设置搜索条件,在Swiss-Prot数据库中筛选出病原微生物和人特异组织细胞的相应蛋白质。
3、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤②中,要求用户给定子序列的长度,允许的错配数,然后对病原微生物和人特异组织细胞蛋白质序列进行两两比对,搜索出相似子序列对,作为候选集。
4、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤③中,正样本数据可由Bcipep数据库得到;通过Bcipep中表位数据的注释,在Swiss-Prot中搜索相应的抗原蛋白,然后随机选取抗原蛋白上不是表位的子序列作为负样本数据集。
5、根据权利要求1所述的交叉反应抗原计算机辅助筛选的方法,其特征是,在步骤④中,选择AAIndex数据库中和B细胞线性表位最为相关的14个氨基酸量表,对表位数据集中的序列计算相应量表的平均值及其方差,这样对于每个序列形成了一个28维的特征向量;将序列集按照交叉验证的方法随机分成训练集和测试集,选取最优化参数和核函数得到SVM分类器。
CNB2006100291360A 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法 Expired - Fee Related CN100428254C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100291360A CN100428254C (zh) 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100291360A CN100428254C (zh) 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法

Publications (2)

Publication Number Publication Date
CN1889086A CN1889086A (zh) 2007-01-03
CN100428254C true CN100428254C (zh) 2008-10-22

Family

ID=37578363

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100291360A Expired - Fee Related CN100428254C (zh) 2006-07-20 2006-07-20 交叉反应抗原计算机辅助筛选的方法

Country Status (1)

Country Link
CN (1) CN100428254C (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049679B (zh) * 2012-12-28 2017-07-11 上海交通大学 蛋白质潜在致敏性的预测方法
EP3323070B1 (en) * 2015-07-14 2024-05-08 Personal Genome Diagnostics Inc. Neoantigen analysis
CN105787927B (zh) * 2016-02-06 2018-06-01 上海市第一人民医院 一种眼底彩色照相图像中渗出自动化识别方法
CN108982858B (zh) * 2018-07-05 2021-06-15 陕西师范大学 一种基于单克隆抗体检测人proGRP的双夹心ELISA试剂盒

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020018785A1 (en) * 1997-09-22 2002-02-14 University Of Rochester Methods for producing polynucleotide libraries in vaccinia virus
WO2003011903A2 (en) * 2001-07-27 2003-02-13 Kenton S.R.L. Identification of specific tumor antigens by means of the selection of cdna libraries with sera
CN1482563A (zh) * 2000-08-11 2004-03-17 周果宏 器官移植供、受者hla快速配型方法
EP1564554A1 (en) * 2004-02-12 2005-08-17 Pepscan Systems B.V. Method for the detection of early B cell populations in vaccine development
CN1746183A (zh) * 2004-09-06 2006-03-15 中国医学科学院药物研究所 具有广泛交叉免疫反应性的冠状病毒(SARS-CoV)B-细胞抗原决定簇

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020018785A1 (en) * 1997-09-22 2002-02-14 University Of Rochester Methods for producing polynucleotide libraries in vaccinia virus
CN1482563A (zh) * 2000-08-11 2004-03-17 周果宏 器官移植供、受者hla快速配型方法
WO2003011903A2 (en) * 2001-07-27 2003-02-13 Kenton S.R.L. Identification of specific tumor antigens by means of the selection of cdna libraries with sera
EP1564554A1 (en) * 2004-02-12 2005-08-17 Pepscan Systems B.V. Method for the detection of early B cell populations in vaccine development
CN1746183A (zh) * 2004-09-06 2006-03-15 中国医学科学院药物研究所 具有广泛交叉免疫反应性的冠状病毒(SARS-CoV)B-细胞抗原决定簇

Also Published As

Publication number Publication date
CN1889086A (zh) 2007-01-03

Similar Documents

Publication Publication Date Title
Chen et al. A comprehensive review and comparison of different computational methods for protein remote homology detection
Uzilov et al. Detection of non-coding RNAs on the basis of predicted secondary structure formation free energy change
Holm et al. Mapping the protein universe
Wu et al. TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-binding analyses
Li et al. Protein contact map prediction based on ResNet and DenseNet
Baek et al. Accurate prediction of nucleic acid and protein-nucleic acid complexes using RoseTTAFoldNA
Hou et al. Remote homolog detection using local sequence–structure correlations
CN109147866A (zh) 基于采样与集成学习的蛋白质-dna绑定残基预测方法
Zhang et al. Predicting linear B-cell epitopes by using sequence-derived structural and physicochemical features
CN100428254C (zh) 交叉反应抗原计算机辅助筛选的方法
Lo et al. Conformational epitope matching and prediction based on protein surface spiral features
Huang et al. Extracting physicochemical features to predict protein secondary structure
Kuznetsov et al. FlexPred: a web-server for predicting residue positions involved in conformational switches in proteins
CN117497058A (zh) 基于图神经网络的抗体抗原中和作用预测方法及装置
Park et al. UPP2: Fast and Accurate Alignment Estimation of Datasets with Fragmentary Sequences
Cheng et al. Prediction of continuous B-cell epitopes using long short term memory networks
Zok et al. Building the library of RNA 3D nucleotide conformations using the clustering approach
Arango-Argoty et al. Feature extraction by statistical contact potentials and wavelet transform for predicting subcellular localizations in gram negative bacterial proteins
Ebrahimi et al. Analysis of Persian Bioinformatics Research with Topic Modeling
Li et al. DeepTM: A deep learning algorithm for prediction of melting temperature of thermophilic proteins directly from sequences
He et al. Protein ubiquitylation and sumoylation site prediction based on ensemble and transfer learning
Walsh et al. Ab initio and homology based prediction of protein domains by recursive neural networks
Li et al. PSRna: Prediction of small RNA secondary structures based on reverse complementary folding method
Kazm et al. Transformer Encoder with Protein Language Model for Protein Secondary Structure Prediction
Liu et al. Identification of linear epitope with Multiple Sequence Representation Learning Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081022

Termination date: 20110720