CN105524984A

CN105524984A - 预测新抗原表位的方法及设备

Info

Publication number: CN105524984A
Application number: CN201410526636.XA
Authority: CN
Inventors: 林鸿刚; 刘耿; 叶晓飞; 侯勇; 朱师达; 吴逵; 李光磊
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2016-04-27
Anticipated expiration: 2034-09-30
Also published as: CN105524984B

Abstract

本发明提供了预测新抗原表位的方法及设备，预测新抗原表位的方法包括：(1)构建候选表位库，其中，所述候选表位库由表达差异肽构成，所述表达差异肽是在具有所述预定状态的样本与不具有所述预定状态的样本之间存在差异的肽；(2)基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成；以及(3)将所述候选表位库的至少一个子集作为所述预测模型的输入变量，以便预测新抗原表位。利用该预测新抗原表位的方法，能够真正的从基因水平和蛋白水平确定抗原的突变信息，进而快速有效地获得能够与MHC结合的新抗原表位，且能够精准的预测抗原表位与NHC的结合能力，同时该方法简单方便，能够大大节约人力、物力。

Description

预测新抗原表位的方法及设备

技术领域

本发明涉及生物技术领域，具体地，涉及新抗原表位及预测其的方法和用途，更具体地，涉及预测新抗原表位的方法及设备、确定表达差异肽具有抗原表位性质的概率的方法及设备、抗原表位及其在制备药物中的用途。

背景技术

肿瘤具有以下十大特征：自给自足的生长信号；抗生长信号的不敏感；避免免疫摧毁；促进肿瘤的炎症；细胞能量异常；基因组不稳定和突变；潜力无限的复制能力；持续的血管生成；组织浸润和转移；抵抗细胞死亡。肿瘤是最常见的基因疾病，所有肿瘤的发生，都源自DNA序列的异常，因此尽管不同肿瘤有不同的诱因和症状，但都可以通过基因突变得到解释。近年来，基因组学技术的飞速发展为肿瘤研究开辟了新的途径，从基因水平阐明肿瘤发生的分子生物学机制，寻找与肿瘤发生相关的关键基因已经成为当今世界整个生物医学领域研究的热点。基因组测序方法能够快速有效的发现发生突变的DNA序列，因而在当今的肿瘤生物学研究领域得以广泛应用。

目前肿瘤患者的治疗常依赖于外科手术切除、放化疗、激素治疗等，但由于这些传统方法存在着副作用大、治疗不彻底等弊端，大多数肿瘤患者因不能得到及时有效的治疗。而生物治疗作为继传统疗法后的第四种治疗手段，其中多肽疫苗免疫疗法因制作工序简单、费用低廉、化学性质稳定、无致癌性等优点而成为肿瘤免疫治疗的新方法。肿瘤多肽疫苗具有以下优势：治疗特异性高、不损伤机体正常细胞、毒副作用低、患者治疗依从性好、生活质量高等优点。但是传统的疫苗开发思路都是在试验中不断纠错，直到试验出一种有效的免疫原。T淋巴细胞对抗原的识别是产生与调节有效免疫应答的关键，T细胞只识别MHC呈递上来的抗原，因此MHC与抗原多肽的结合就成为一系列免疫应答过程中最基础的一环。随着生物信息学的发展，多种计算机方法普遍应用于MHC结合多肽的预测领域中,可以高效的预测多肽表位，进而指导多肽疫苗的研发。生物信息学的预测具有一定的前期指导作用，但疫苗的治疗效果最终必须在活体身上得以实现。因此，在肿瘤多肽疫苗的研发阶段，肿瘤抗原的选择就十分关键。

然而，目前关于抗原选择的研究仍有待深入。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种真正从基因水平到蛋白水平确定抗原突变信息、能够精确抗原多肽与MHC结合能力的手段。

在本发明的一个方面，本发明提供一种预测新抗原表位的方法。根据本发明的实施例，所述抗原表位与预定状态相关，参照图1，所述预测新抗原表位的方法包括以下步骤：

S1：构建候选表位库，其中，所述候选表位库由表达差异肽构成，所述表达差异肽是在具有所述预定状态的样本与不具有所述预定状态的样本之间存在差异的肽。

根据本发明的实施例，所述预定状态为疾病。由此，预测获得的新抗原表位能够有效用于治疗所述疾病。

根据本发明的实施例，所述预定状态为肿瘤。由此，预测获得的新抗原表位能够有效用于治疗肿瘤。

根据本发明的实施例，所述样本为组织。由此，便于获得表达差异肽，进而便于构建候选表位库。

根据本发明的实施例，所述表达差异肽是通过核酸序列分析和质谱分析的至少之一而完成的。由此，获得所述表达差异肽的效率较高。

根据本发明的实施例，参照图2，所述核酸序列分析包括以下步骤：

S100：从肿瘤组织提取核酸，以便获得肿瘤核酸。

根据本发明的实施例，所述核酸包括基因组DNA和RNA的至少之一。由此，利于后续测序步骤的进行。

根据本发明的实施例，所述RNA包括mRNA。由此，利于后续测序步骤的进行。

S200：对所述肿瘤核酸进行测序，以便获得测序结果；

根据本发明的实施例，所述测序是利用高通量测序平台进行的。由此，操作方便、简单，且测序通量较高，测序结果质量较好。

S300：基于所述测序结果，确定突变基因信息；

根据本发明的实施例，基于所述测序结果，确定突变基因信息，是通过将所述测序结果与参照基因组序列进行比对而进行的。由此，能够快速有效的确定突变基因信息，且获得的突变基因信息可靠性较高。

S400：基于所述突变基因信息，确定所述表达差异肽。

利用核酸序列分析方法，能够真正从基因水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，参照图3，所述质谱分析包括以下步骤：

S500：对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；

S600：对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；

S700：基于所述肿瘤组织质谱结果，确定所述表达差异肽。

利用质谱分析，利用核酸序列分析方法，能够真正从蛋白水平确定突变基因信息，进而能够有效确定表达差异多肽。

S2：基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成。

根据本发明的实施例，所述已知抗原表位是从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择的。由此，有利于提高预测新抗原表位的效率。

根据本发明的实施例，所述抗原表位与MHC1或MHC2结合。

根据本发明的实施例，当所述抗原表位与MHC1结合时，所述抗原表位长度为8肽，并且可以利用PSSM算法，构建所述预测模型。

根据本发明的实施例，当所述抗原表位与MHC1结合时，基于历史数据库构建预测模型进一步包括：选择多个与MHC1结合并且长度为8肽的已知抗原表位；将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高预测新抗原表位的效率。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述抗原表位长度为9肽，并且可以利用支持向量机，构建所述预测模型。

根据本发明的实施例，当所述抗原表位与MHC2结合时，基于历史数据库构建预测模型进一步包括：选择多个与MHC2结合并且长度为9肽的已知抗原表位；按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；选择多个不与MHC2结合并且长度为9肽的对照短肽；按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高预测新抗原表位的效率。

S3：将所述候选表位库的至少一个子集作为所述预测模型的输入变量，以便预测新抗原表位。

根据本发明的实施例，当所述抗原表位与MHC1结合时，步骤S3进一步包括：将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；基于所述评分的结果，确定所述新抗原表位。根据本发明的实施例，基于所述评分的结果，确定所述新抗原表位包括：对所述子集中的所有所述表达差异肽进行评分排序；以及选择排名为前百分之一的表达差异肽为所述新抗原表位。由此，能够有效获得能够与MHC1结合的新抗原表位。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述步骤S3进一步包括：将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；基于所述评分的结果，确定所述新抗原表位，其中，在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码。根据本发明的实施例，基于所述评分的结果，确定所述新抗原表位包括：对所述子集中的所有所述表达差异肽进行评分排序；以及选择排名为前百分之一的表达差异肽为所述新抗原表位。由此，能够有效获得能够与MHC2结合的新抗原表位。

发明人发现，利用本发明的预测新抗原表位的方法，能够真正的从基因水平和蛋白水平确定抗原的突变信息，进而快速有效地获得能够与MHC结合的新抗原表位，且能够精准的预测抗原表位与NHC的结合能力，同时该方法简单方便，能够大大节约人力、物力。

在本发明的第二方面，本发明提供了一种确定表达差异肽具有抗原表位性质的概率的方法。根据本发明的实施例，所述表达差异肽是在具有预定状态的样本与不具有所述预定状态的样本之间存在差异的肽，其中，所述样本为组织。参照图4，该方法包括以下步骤：

S4：基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成。

根据本发明的实施例，所述预定状态为疾病。由此，所述抗原表位可以用于治疗所述疾病。

根据本发明的实施例，所述预定状态为肿瘤。由此，所述抗原表位可以用于治疗肿瘤。

根据本发明的实施例，所述表达差异肽是通过核酸序列分析和质谱分析的至少之一而完成的。

根据本发明的实施例，所述核酸序列分析包括：从肿瘤组织提取核酸，以便获得肿瘤核酸；对所述肿瘤核酸进行测序，以便获得测序结果；基于所述测序结果，确定突变基因信息；以及基于所述突变基因信息，确定所述表达差异肽。利用核酸序列分析方法，能够真正从基因水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，所述质谱分析包括：对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；基于所述肿瘤组织质谱结果，确定所述表达差异肽。利用质谱分析，利用核酸序列分析方法，能够真正从蛋白水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，所述已知抗原表位是从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择的。

根据本发明的实施例，所述抗原表位与MHC1或MHC2结合。

根据本发明的实施例，当所述抗原表位与MHC1结合时，基于历史数据库构建预测模型进一步包括：选择多个与MHC1结合并且长度为8肽的已知抗原表位；将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高效率。

根据本发明的实施例，当所述抗原表位与MHC2结合时，基于历史数据库构建预测模型进一步包括：选择多个与MHC2结合并且长度为9肽的已知抗原表位；按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；选择多个不与MHC2结合并且长度为9肽的对照短肽；按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高效率。

S5：将所述表达差异肽作为所述预测模型的输入变量，利用所述预测模型，确定所述表达差异肽构成抗原表位的概率。

根据本发明的实施例，当所述抗原表位与MHC1结合时，步骤S5进一步包括：将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；基于所述评分的结果，确定所述表达差异肽具有抗原表位性质的概率。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述步骤S5进一步包括：将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；基于所述评分的结果，确定所述表达差异肽具有抗原表位性质的概率，其中，在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码。

发明人发现，利用本发明的确定表达差异肽具有抗原表位性质的概率的方法，可以有效确定表达差异肽具有抗原表位性质的概率，进而能够有效用于预测新抗原表位。

在本发明的第三方面，本发明提供了一种抗原表位。根据本发明的实施例，该抗原表位是通过前面所述的方法获得的。该抗原表位能够有效用于预防或治疗疾病，特别适合用于预防或治疗肿瘤疾病。

在本发明的第四方面，本发明提供了一种预测抗原表位的设备1000。根据本发明的实施例，所述抗原表位与预定状态相关，参照图5，所述设备1000包括：

候选表位库构建装置100，所述候选表位库构建装置100适于基于表达差异肽构建候选表位库，其中，所述表达差异肽是在具有所述预定状态的样本与不具有所述预定状态的样本之间存在差异的肽。

根据本发明的实施例，进一步包括：第一核酸序列分析装置和第一质谱分析装置的至少之一，所述第一核酸序列分析装置适于基于核酸序列分析而获得所述表达差异肽，所述第一质谱分析装置适于基于质谱分析而获得所述表达差异肽。由此，获得所述表达差异肽的效率较高。

根据本发明的实施例，所述第一核酸序列分析装置包括：第一核酸提取组件，所述第一核酸提取组件适于从肿瘤组织提取肿瘤核酸；第一测序组件，所述第一测序组件适于对所述肿瘤核酸进行测序，以便获得第一测序结果；第一突变基因信息确定组件，所述第一突变基因信息确定组件适于基于所述第一测序结果，确定突变基因信息；以及第一表达差异肽确定组件，所述第一表达差异肽确定组件适于基于所述突变基因信息，确定所述表达差异肽。利用第一核酸序列分析装置，能够真正从基因水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，所述肿瘤核酸包括基因组DNA和RNA的至少之一。

根据本发明的实施例，所述RNA包括mRNA。

根据本发明的实施例，所述第一测序组件为高通量测序平台。由此，操作方便、简单，且测序通量较高，测序结果质量较好。

根据本发明的实施例，所述第一突变基因信息确定组件包括：第一比对模块，所述第一比对模块适于将所述第一测序结果与参照基因组序列进行比对而确定所述突变基因信息。由此，能够快速有效的确定突变基因信息，且获得的突变基因信息可靠性较高。

根据本发明的实施例，所述第一质谱分析装置包括：第一酶解处理组件，所述第一酶解处理组件适于对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；第一质谱鉴定组件，所述第一质谱鉴定组件适于对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；第二表达差异肽确定装置，所述第二表达差异肽确定装置适于基于所述肿瘤组织质谱结果，确定所述表达差异肽。利用第一质谱分析装置，能够真正从蛋白水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，进一步包括：第一已知抗原表位选择装置，所述第一已知抗原表位选择装置适于从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择所述已知抗原表位。

根据本发明的实施例，所述抗原表位与MHC1或MHC2结合。

第一预测模型构建装置200，所述第一预测模型构建装置200适于基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成。

根据本发明的实施例，当所述抗原表位与MHC1结合时，所述抗原表位长度为8肽，此时所述第一预测模型构建装置包括：第一预测模型构建组件，所述第一预测模型构建组件适于利用PSSM算法，构建所述预测模型。

根据本发明的实施例，所述第一预测模型构建组件进一步包括：第一已知抗原表位选择模块，所述第一已知抗原表位选择模块用于选择多个与MHC1结合并且长度为8肽的已知抗原表位；第一序列分析模块，所述第一序列分析模块适于将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；第一预测模型构建模块，所述第一预测模型构建模块适于利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高预测新抗原表位的效率。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述抗原表位长度为9肽，此时所述第一预测模型构建装置包括：第二预测模型构建组件，所述第二预测模型构建组件适于利用支持向量机，构建所述预测模型。

根据本发明的实施例，所述第二预测模型构建组件进一步包括：第二已知抗原表位选择模块，所述第二已知抗原表位选择模块用于选择多个与MHC2结合并且长度为9肽的已知抗原表位；第一转化模块，所述第一转化模块适于按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；第一对照短肽选择模块，所述第一对照短肽选择模块用于选择多个不与MHC2结合并且长度为9肽的对照短肽；第二转化模块，所述第二转化模块适于按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；第二预测模型构建模块，所述第二预测模型构建模块适于基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高预测新抗原表位的效率。

预测装置300，所述预测装置300适于将所述候选表位库的至少一个子集作为所述预测模型的输入变量，以便预测新抗原表位。

根据本发明的实施例，当所述抗原表位与MHC1结合时，所述预测装置进一步包括：第一评分组件，所述第一评分组件适于将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；第一新抗原表位确定组件，所述第一新抗原表位确定组件适于基于所述评分的结果，确定所述新抗原表位。由此，能够有效获得能够与MHC1结合的新抗原表位。

根据本发明的实施例，所述第一新抗原表位确定组件包括：第一排序模块，所述第一排序模块适于对所述子集中的所有所述表达差异肽进行评分排序；以及第一新抗原表位选择模块，所述第一新抗原表位选择模块用于选择排名为前百分之一的表达差异肽为所述新抗原表位。由此，能够有效获得能够与MHC1结合的新抗原表位。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述预测装置进一步包括：第二评分组件，所述第二评分组件适于将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；第二新抗原表位确定组件，所述第二新抗原表位确定组件适于基于所述评分的结果，确定所述新抗原表位，进一步包括：第三转化模块，所述第三转化模块适于在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码。由此，能够有效获得能够与MHC2结合的新抗原表位。

根据本发明的实施例，所述第二新抗原表位确定组件包括：第二排序模块，所述第二排序模块适于对所述子集中的所有所述表达差异肽进行评分排序；以及第二新抗原表位选择模块，所述第二新抗原表位选择模块用于选择排名为前百分之一的表达差异肽为所述新抗原表位。由此，能够有效获得能够与MHC2结合的新抗原表位。

发明人发现，利用本发明的预测抗原表位的设备，能够有效实施前面所述的本发明的预测抗原表位的方法，且操作简单、方便快捷，节省大量人力、物力，降低成本。

在本发明的第五方面，本发明提供了一种确定表达差异肽具有抗原表位性质的概率的设备。根据本发明的实施例，所述表达差异肽是在具有预定状态的样本与不具有所述预定状态的样本之间存在差异的肽，参照图6，所述设备2000包括：

第二预测模型构建装置400，所述第二预测模型构建装置400适于基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成。

根据本发明的实施例，所述样本为组织。由此，便于获得表达差异肽。

根据本发明的实施例，进一步包括：第二核酸序列分析装置和第二质谱分析装置的至少之一，所述第二核酸序列分析装置适于基于核酸序列分析而获得所述表达差异肽，所述第二质谱分析装置适于基于质谱分析而获得所述表达差异肽。由此，获得所述表达差异肽的效率较高。

根据本发明的实施例，所述第二核酸序列分析装置包括：第二核酸提取组件，所述第二核酸提取组件适于从肿瘤组织提取肿瘤核酸；第二测序组件，所述第二测序组件适于对所述肿瘤核酸进行测序，以便获得第二测序结果；第二突变基因信息确定组件，所述第二突变基因信息确定组件适于基于所述第二测序结果，确定突变基因信息；以及第三表达差异肽确定组件，所述第三表达差异肽确定组件适于基于所述突变基因信息，确定所述表达差异肽。利用第二核酸序列分析装置，能够真正从基因水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，所述RNA包括mRNA。

根据本发明的实施例，所述第二测序组件为高通量测序平台。由此，操作方便、简单，且测序通量较高，测序结果质量较好。

根据本发明的实施例，所述第二突变基因信息确定组件包括：第二比对模块，所述第二比对模块适于将所述第二测序结果与参照基因组序列进行比对而确定所述突变基因信息。由此，能够快速有效的确定突变基因信息，且获得的突变基因信息可靠性较高。

根据本发明的实施例，所述第二质谱分析装置包括：第二酶解处理组件，所述第二酶解处理组件适于对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；第二质谱鉴定组件，所述第二质谱鉴定组件适于对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；第四表达差异肽确定装置，所述第四表达差异肽确定装置适于基于所述肿瘤组织质谱结果，确定所述表达差异肽。利用第二质谱分析装置，能够真正从蛋白水平确定突变基因信息，进而能够有效确定表达差异多肽。

根据本发明的实施例，进一步包括：第二已知抗原表位选择装置，所述第二已知抗原表位选择装置适于从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择所述已知抗原表位。

根据本发明的实施例，所述抗原表位与MHC1或MHC2结合。

根据本发明的实施例，当所述抗原表位与MHC1结合时，所述抗原表位长度为8肽，此时所述第二预测模型构建装置包括：第三预测模型构建组件，所述第三预测模型构建组件适于利用PSSM算法，构建所述预测模型。

根据本发明的实施例，所述第三预测模型构建组件进一步包括：第三已知抗原表位选择模块，所述第三已知抗原表位选择模块用于选择多个与MHC1结合并且长度为8肽的已知抗原表位；第二序列分析模块，所述第二序列分析模块适于将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；第三预测模型构建模块，所述第三预测模型构建模块适于利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高效率。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述抗原表位长度为9肽，此时所述第一预测模型构建装置包括：第四预测模型构建组件，所述第四预测模型构建组件适于利用支持向量机，构建所述预测模型。

根据本发明的实施例，所述第四预测模型构建组件进一步包括：第四已知抗原表位选择模块，所述第四已知抗原表位选择模块用于选择多个与MHC2结合并且长度为9肽的已知抗原表位；第四转化模块，所述第四转化模块适于按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；第二对照短肽选择模块，所述第二对照短肽选择模块用于选择多个不与MHC2结合并且长度为9肽的对照短肽；第五转化模块，所述第五转化模块适于按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；第四预测模型构建模块，所述第四预测模型构建模块适于基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型。由此，能够快速有效地构建预测模型，有利于提高效率。

分析装置500，将所述表达差异肽作为所述预测模型的输入变量，利用所述预测模型，确定所述表达差异肽构成抗原表位的概率。

根据本发明的实施例，当所述抗原表位与MHC1结合时，所述分析装置进一步包括：第三评分组件，所述第三评分组件适于将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；第一概率确定组件，所述第一概率确定组件适于基于所述评分的结果，确定所述表达差异肽具有抗原表位性质的概率。

根据本发明的实施例，当所述抗原表位与MHC2结合时，所述分析装置进一步包括：第四评分组件，所述第四评分组件适于将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；第二概率确定组件，所述第二概率确定组件适于基于所述评分的结果，确定表达差异肽具有抗原表位性质的概率，进一步包括：第六转化模块，所述第六转化模块适于在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码。

发明人发现，利用本发明的确定表达差异肽具有抗原表位性质的概率的设备，能够有效实施前面所述的本发明的确定表达差异肽具有抗原表位性质的概率的方法，且操作简单、方便，容易控制，能够有效用于预测新抗原表位。

在本发明的第六方面，本发明提供了前面所述的抗原表位在制备药物中的用途，所述药物用于治疗或者预防所述预定状态。

根据本发明的实施例，所述预定状态为疾病。由此，预防或治疗效果较好。

根据本发明的实施例，所述预定状态为肿瘤。由此，预防或治疗效果显著。

附图说明

图1显示了根据本发明的实施例，预测新抗原表位的方法的流程示意图；

图2显示了根据本发明的实施例，核酸序列分析的流程示意图；

图3显示了根据本发明的实施例，质谱分析的流程示意图；

图4显示了根据本发明的实施例，确定表达差异肽具有抗原表位性质的概率的方法的流程示意图；

图5显示了根据本发明的实施例，预测新抗原表位的设备的结构示意图；以及

图6显示了根据本发明的实施例，确定表达差异肽具有抗原表位性质的概率的设备的结构示意图。

图7显示了根据本发明的实施例，小鼠外显子测序流程图示意图。

图8显示了根据本发明的实施例，MHC多肽结合能力预测流程图示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1：

应用IlluminaHiSeq2000对C57小鼠肝癌移植瘤和外周血进行外显子组测序。肿瘤组测序数据为6.12GB，外周血测序数据为6.79GB。第一步，用短序列比对软件BWA将肿瘤组测序数据和外周血测序数据分别比对到小鼠参考基因组序列mm9上。第二步：用单核苷酸多态性(SNP)检测软件SOAPsnp对肿瘤测序数据比对结果和外周血测序数据比对结果检测SNP，然后利用外周血样本作为control，筛选出该肿瘤数据的体细胞单核苷酸非同义突变位点列表。第三步，根据单核苷酸非同义突变位点列表，提取出长度为10的特性性突变肽段，特异性是指该肽段不存在在数据库(Ensemblrelease60小鼠蛋白序列库)中。经过以上三步的处理，我们得到13934条特异性突变肽段。第四步，MHCI多肽结合能力预测。我们利用同源预测的方法对13934条特异性突变肽段进行MHC多肽结合能力预测，得到了84条结合能力高的特异性突变肽段。我们进一步挑选了选取H-2Kb和H-2Db均结合为高分的的多肽片段总共9条作为下一步实验验证的数据。其中有3条目前其基因序列不完整，因此只对剩下的6条多肽片段进行验证。

常规疫苗自制备与疗效评价。经过实时荧光定量PCR验证后，合成纯度达到98％的候选多肽，6-8周大小的Balb/C小鼠在免疫前和经多肽(混合弗氏不完全佐剂和完全佐剂)3-4次免疫后分离尾静脉血清，应用ELISA法测定血清中的抗体滴度。当滴度满足条件后(滴度在1:10000到1:50000之间)处死前3天加强免疫一次，应用达科为公司的小鼠淋巴细胞分离液密度梯度离心分离脾脏淋巴细胞，培养过夜后进行细胞增殖(MTT)，肿瘤细胞杀伤(LDH实验)，ELISPOT等免疫原性分析。6-8周的C57小鼠皮下接种肿瘤细胞第3天后开始给予第一次多肽疫苗治疗(200ug/只)，第10天开始第二次治疗。治疗期间每周2次测量小鼠体重和肿瘤体积变化，密切观察动物健康状况。

实施例1

肿瘤模型建立和外显子组测序

选取生长良好的Hepa1-6细胞，胰酶消化后用PBS清洗3遍，计数后，按照1x10⁸个细胞/毫升的浓度，在6-8周的成年C57小鼠的背腹部接种50微升细胞溶液，对照组给予等量的无血清培养基注射，每组5只小鼠。每天查看小鼠肿瘤的形成情况，直到可以手指摸到肿瘤结节，并且体积达到100mm3。每组随机选取3只小鼠，脱颈椎处死小鼠，快速收取肿瘤组织，清除血污后，和外周血一起提取DNA，进行文库构建，使用Illumina公司的第二代测序仪Hiseq2000进行外显子组测序，获取测序图谱(流程如图7)。

2.多肽预测

应用IlluminaHiSeq2000对肝癌移植瘤和外周血进行外显子组测序后，使用以下几步来预测多肽序列。第一步，用短序列比对软件BWA将肿瘤组测序数据和外周血测序数据分别比对到小鼠参考基因组序列mm9上。第二步：用单核苷酸多态性(SNP)检测软件SOAPsnp对肿瘤测序数据比对结果和外周血测序数据比对结果检测SNP，然后利用外周血样本作为control，筛选出该肿瘤数据的体细胞单核苷酸非同义突变位点列表。第三步，根据单核苷酸非同义突变位点列表，提取出长度为10的特异性突变肽段，特异性是指该肽段不存在于数据库(Ensemblrelease60小鼠蛋白序列库)中。第四步，MHC多肽结合能力预测(流程如图8)。利用同源预测的方法对特异性突变肽段进行MHC多肽结合能力预测，得到结合能力高的特异性突变肽段，进一步挑选了选取H-2Kb和H-2Db均结合为高分的的多肽片段进行合成。

合成多肽疫苗治疗效果评价

(1)体外实验(确定多肽能够有效激发免疫反应)

1)小鼠免疫：将Balb/C小鼠随机分为2组，每组动物至少3只，第一次以完全弗氏佐剂和多肽蛋白等体积混合均匀(疫苗组)免疫，对照组以蛋白稀释缓冲液(比如PBS等)与等体积的完全弗氏佐剂混合均匀，分别在颈侧皮下注射15-40μg/0.2ml多肽蛋白(疫苗组)和0.2ml缓冲液(对照组)。过14和28天后再次免疫，剂量和部位同第一次免疫，只是以不完全弗氏佐剂代替完全弗氏佐剂。

2)ELISA检测：第三次免疫10天后取少量血进行ELISA,检测所免疫动物的对应多肽抗原产生的抗体滴度，一般要求滴度能达到1:10,000-50,000。

3)淋巴细胞分离：脱颈椎处死小鼠，70％酒精中浸泡3分钟。在无菌操作台上剪开腹部，取出脾脏，用玻璃注射器芯在200目不锈钢网上(或BD公司的直径为70微米的筛网)轻轻研磨分离单个脾脏细胞，PBS冲洗不锈钢网，制成单细胞悬液备用.取预先放置到室温的淋巴细胞分离液3ml，加入15ml离心管中，将6～10ml单细胞悬液沿着管内壁轻轻加到分离液上，在水平离心机中2000rpm，离心20min，吸取中间的白色界面层的淋巴细胞，PBS洗涤2次，计数，重悬于含10％血清的培养液中备用.

4)淋巴细胞增殖检测：用MTT法同时检测疫苗组和对照组的小鼠脾细胞的增殖。实验分为4组，分别加入培养液(空白对照)、GST(或其他无关蛋白对照组，终浓度为100μg/ml)、蛋白多肽(实验组，终浓度为100μg/ml)和ConA(阳性对照组，终浓度为10μg/ml)。每组设3个复孔，每孔加入40万脾淋巴细胞，总体积为150μl。在37℃，5％CO2条件下培养3天后，加入1mg/mlMTT溶液50μl，37℃孵育4-6小时后，用酶标仪测定波长为570nm时的吸光值(OD)。计算公式：刺激指数(SI)＝实验组OD值/对照组OD值

5)ELISPOT：PBS溶解蛋白多肽终浓度为30μg/ml，加100μl/孔于PVDF膜铺底的圆底96孔培养板过夜；第二天吸去包被液后，加5％FCS的PRMI1640培养基100μl封闭1小时，37度；准备脾细胞悬液(用氯化铵去除红细胞，制备成单个脾淋巴细胞悬液)；从1×10⁶每孔的初始浓度开始，按1:3的稀释度开始逐孔稀释成不同浓度梯度，并做3个复孔，37度静置培养5小时：PBS洗3～5次，生物素化的抗鼠IgG二抗孵育30min；PBS洗3～5次，链亲和素标记的碱性磷酸酶孵育30min；PBS洗3～5次，用底物BCIP/NBT显色，显微镜下观察显色反应，显色后及时终止反应；计数每孔中的斑点数目，计算每百万10E6个脾细胞中抗体分泌细胞数量。

6)特异性杀伤实验：用LDH法测定小鼠脾淋巴细胞对靶细胞的杀伤作用。在96孔培养板中每孔加入1×10⁴个靶细胞，然后分别加入不同数量的效应细胞，使效靶比为25:1和12.5:1。同时设效应细胞自发释放孔，靶细胞自发释放孔和靶细胞最大释放孔(1％Triton)对照。37℃孵育4小时，然后按LDH测定说明书操作。离心收上清，取50ul上清转入另一个96孔培养板，加入50μlLDH底物混合液，室温，避光30分钟。每孔加入50μl终止液，于波长490nm处测得OD值。计算公式：杀伤率(％)＝(实验孔释放—效应细胞自发释放—靶细胞自发释放)/(靶细胞最大释放—靶细胞自发释放)。

(2)体内多肽疫苗的疗效验证：将28只6-8周龄的C57小鼠都接种肿瘤，具体方法如前所述。随机分为4组，每组7只。肿瘤接种后3天，进行第一次免疫治疗。免疫治疗的3组小鼠分别皮下注射接种50μg、100μg和200μg蛋白多肽，对照组小鼠只注射蛋白多肽稀释液。每三天观察并记录肿瘤的生长情况。第一次免疫治疗后的第14天，进行第二次免疫治疗，方法和剂量同第一次免疫治疗。每天记录每只小鼠的生长情况，重量及死亡数目。对当天死亡的或者处于濒死状态的小鼠称重后，快速收集小鼠的肿瘤及其心，肝，脾，肺，肾组织称重记录，然后每个肿瘤组织都分成3份(一份提取DNA和RNA做芯片分析和实时荧光定量PCR，一份做病理切片检测，一份留作提取蛋白做信号通路检测)，继续观察肿瘤生长情况，直到最后一只小鼠死亡为试验结束。

结果显示本发明的方法是有效的。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种预测新抗原表位的方法，其特征在于，所述抗原表位与预定状态相关，所述方法包括：

(1)构建候选表位库，其中，所述候选表位库由表达差异肽构成，所述表达差异肽是在具有所述预定状态的样本与不具有所述预定状态的样本之间存在差异的肽；

(2)基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成；以及

(3)将所述候选表位库的至少一个子集作为所述预测模型的输入变量，以便预测新抗原表位，

任选地，所述预定状态为疾病，

任选地，所述预定状态为肿瘤，

任选地，所述样本为组织，

任选地，所述表达差异肽是通过核酸序列分析和质谱分析的至少之一而完成的，

任选地，所述核酸序列分析包括：

从肿瘤组织提取核酸，以便获得肿瘤核酸；

对所述肿瘤核酸进行测序，以便获得测序结果；

基于所述测序结果，确定突变基因信息；以及

基于所述突变基因信息，确定所述表达差异肽，

任选地，所述核酸包括基因组DNA和RNA的至少之一，

任选地，所述RNA包括mRNA，

任选地，所述测序是利用高通量测序平台进行的，

任选地，基于所述测序结果，确定突变基因信息，是通过将所述测序结果与参照基因组序列进行比对而进行的，

任选地，所述质谱分析包括：

对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；

对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；

基于所述肿瘤组织质谱结果，确定所述表达差异肽，

任选地，所述已知抗原表位是从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择的。

2.根据权利要求1所述的方法，其特征在于，所述抗原表位与MHC1或MHC2结合，

任选地，所述抗原表位与MHC1结合，所述抗原表位长度为8肽，并且利用PSSM算法，构建所述预测模型，

任选地，基于历史数据库构建预测模型进一步包括：

选择多个与MHC1结合并且长度为8肽的已知抗原表位；

将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；

利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型，

任选地，步骤(3)进一步包括：

将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；

基于所述评分的结果，确定所述新抗原表位，

任选地，基于所述评分的结果，确定所述新抗原表位包括：

对所述子集中的所有所述表达差异肽进行评分排序；以及

选择排名为前百分之一的表达差异肽为所述新抗原表位，

任选地，所述抗原表位与MHC2结合，所述抗原表位长度为9肽，并且利用支持向量机，构建所述预测模型，

任选地，基于历史数据库构建预测模型进一步包括：

选择多个与MHC2结合并且长度为9肽的已知抗原表位；

按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；

选择多个不与MHC2结合并且长度为9肽的对照短肽；

按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；

基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型，

任选地，所述步骤(3)进一步包括：

基于所述评分的结果，确定所述新抗原表位，

其中，在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码，

任选地，基于所述评分的结果，确定所述新抗原表位包括：

对所述子集中的所有所述表达差异肽进行评分排序；以及

选择排名为前百分之一的表达差异肽为所述新抗原表位。

3.一种确定表达差异肽具有抗原表位性质的概率的方法，其特征在于，所述表达差异肽是在具有预定状态的样本与不具有所述预定状态的样本之间存在差异的肽，所述方法包括：

(1)基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成；以及

(2)将所述表达差异肽作为所述预测模型的输入变量，利用所述预测模型，确定所述表达差异肽构成抗原表位的概率，

任选地，所述预定状态为疾病，

任选地，所述预定状态为肿瘤，

任选地，所述样本为组织，

任选地，所述核酸序列分析包括：

从肿瘤组织提取核酸，以便获得肿瘤核酸；

对所述肿瘤核酸进行测序，以便获得测序结果；

基于所述测序结果，确定突变基因信息；以及

基于所述突变基因信息，确定所述表达差异肽，

任选地，所述核酸包括基因组DNA和RNA的至少之一，

任选地，所述RNA包括mRNA，

任选地，所述测序是利用高通量测序平台进行的，

任选地，所述质谱分析包括：

基于所述肿瘤组织质谱结果，确定所述表达差异肽，

任选地，所述已知抗原表位是从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择的，

任选地，所述抗原表位与MHC1或MHC2结合，

任选地，基于历史数据库构建预测模型进一步包括：

选择多个与MHC1结合并且长度为8肽的已知抗原表位；

任选地，步骤(2)进一步包括：

将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；

基于所述评分的结果，确定所述表达差异肽具有抗原表位性质的概率，

任选地，基于历史数据库构建预测模型进一步包括：

选择多个与MHC2结合并且长度为9肽的已知抗原表位；

选择多个不与MHC2结合并且长度为9肽的对照短肽；

任选地，所述步骤(2)进一步包括：

其中，在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码。

4.一种抗原表位，其是通过权利要求1-3任一项所述的方法获得的。

5.一种预测抗原表位的设备，其特征在于，所述抗原表位与预定状态相关，所述装置包括：

候选表位库构建装置，所述候选表位库构建装置适于基于表达差异肽构建候选表位库，其中，所述表达差异肽是在具有所述预定状态的样本与不具有所述预定状态的样本之间存在差异的肽；

第一预测模型构建装置，所述第一预测模型构建装置适于基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成；以及

预测装置，所述预测装置适于将所述候选表位库的至少一个子集作为所述预测模型的输入变量，以便预测新抗原表位，

任选地，所述预定状态为疾病，

任选地，所述预定状态为肿瘤，

任选地，所述样本为组织，

任选地，进一步包括：

第一核酸序列分析装置和第一质谱分析装置的至少之一，所述第一核酸序列分析装置适于基于核酸序列分析而获得所述表达差异肽，所述第一质谱分析装置适于基于质谱分析而获得所述表达差异肽，

任选地，所述第一核酸序列分析装置包括：

第一核酸提取组件，所述第一核酸提取组件适于从肿瘤组织提取肿瘤核酸；

第一测序组件，所述第一测序组件适于对所述肿瘤核酸进行测序，以便获得第一测序结果；

第一突变基因信息确定组件，所述第一突变基因信息确定组件适于基于所述第一测序结果，确定突变基因信息；以及

第一表达差异肽确定组件，所述第一表达差异肽确定组件适于基于所述突变基因信息，确定所述表达差异肽，

任选地，所述肿瘤核酸包括基因组DNA和RNA的至少之一，

任选地，所述RNA包括mRNA，

任选地，所述第一测序组件为高通量测序平台，

任选地，所述第一突变基因信息确定组件包括：

第一比对模块，所述第一比对模块适于将所述第一测序结果与参照基因组序列进行比对而确定所述突变基因信息，

任选地，所述第一质谱分析装置包括：

第一酶解处理组件，所述第一酶解处理组件适于对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；

第一质谱鉴定组件，所述第一质谱鉴定组件适于对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；

第二表达差异肽确定装置，所述第二表达差异肽确定装置适于基于所述肿瘤组织质谱结果，确定所述表达差异肽，

任选地，进一步包括：

第一已知抗原表位选择装置，所述第一已知抗原表位选择装置适于从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择所述已知抗原表位，

任选地，所述抗原表位与MHC1或MHC2结合，

任选地，所述第一预测模型构建装置包括：

第一预测模型构建组件，所述第一预测模型构建组件适于利用PSSM算法，构建所述预测模型，

其中，所述抗原表位与MHC1结合，所述抗原表位长度为8肽，

任选地，所述第一预测模型构建组件进一步包括：

第一已知抗原表位选择模块，所述第一已知抗原表位选择模块用于选择多个与MHC1结合并且长度为8肽的已知抗原表位；

第一序列分析模块，所述第一序列分析模块适于将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；

第一预测模型构建模块，所述第一预测模型构建模块适于利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型，

任选地，所述预测装置进一步包括：

第一评分组件，所述第一评分组件适于将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；

第一新抗原表位确定组件，所述第一新抗原表位确定组件适于基于所述评分的结果，确定所述新抗原表位，

任选地，所述第一新抗原表位确定组件包括：

第一排序模块，所述第一排序模块适于对所述子集中的所有所述表达差异肽进行评分排序；以及

第一新抗原表位选择模块，所述第一新抗原表位选择模块用于选择排名为前百分之一的表达差异肽为所述新抗原表位，

任选地，所述预测模型构建装置包括：

第二预测模型构建组件，所述第二预测模型构建组件适于利用支持向量机，构建所述预测模型，

其中，所述抗原表位与MHC2结合，所述抗原表位长度为9肽，

任选地，所述第二预测模型构建组件进一步包括：

第二已知抗原表位选择模块，所述第二已知抗原表位选择模块用于选择多个与MHC2结合并且长度为9肽的已知抗原表位；

第一转化模块，所述第一转化模块适于按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；

第一对照短肽选择模块，所述第一对照短肽选择模块用于选择多个不与MHC2结合并且长度为9肽的对照短肽；

第二转化模块，所述第二转化模块适于按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；

第二预测模型构建模块，所述第二预测模型构建模块适于基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型，

任选地，其特征在于所述预测装置进一步包括：

第二评分组件，所述第二评分组件适于将所述候选表位库的至少一个子集输入所述预测模型，以便基于所述子集中所述表达差异肽的每一个的序列，对所述表达差异肽的每一个进行评分；

第二新抗原表位确定组件，所述第二新抗原表位确定组件适于基于所述评分的结果，确定所述新抗原表位，

进一步包括：

第三转化模块，所述第三转化模块适于在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码，

任选地，所述第二新抗原表位确定组件包括：

第二排序模块，所述第二排序模块适于对所述子集中的所有所述表达差异肽进行评分排序；以及

第二新抗原表位选择模块，所述第二新抗原表位选择模块用于选择排名为前百分之一的表达差异肽为所述新抗原表位。

6.一种确定表达差异肽具有抗原表位性质的概率的设备，其特征在于，所述表达差异肽是在具有预定状态的样本与不具有所述预定状态的样本之间存在差异的肽，所述设备包括：

第二预测模型构建装置，所述第二预测模型构建装置适于基于历史数据库构建预测模型，所述历史数据库由与所述预定状态相关的已知抗原表位构成；以及

分析装置，将所述表达差异肽作为所述预测模型的输入变量，利用所述预测模型，确定所述表达差异肽构成抗原表位的概率，

任选地，所述预定状态为疾病，

任选地，所述预定状态为肿瘤，

任选地，所述样本为组织，

任选地，进一步包括：

第二核酸序列分析装置和第二质谱分析装置的至少之一，所述第二核酸序列分析装置适于基于核酸序列分析而获得所述表达差异肽，所述第二质谱分析装置适于基于质谱分析而获得所述表达差异肽，

任选地，所述第二核酸序列分析装置包括：

第二核酸提取组件，所述第二核酸提取组件适于从肿瘤组织提取肿瘤核酸；

第二测序组件，所述第二测序组件适于对所述肿瘤核酸进行测序，以便获得第二测序结果；

第二突变基因信息确定组件，所述第二突变基因信息确定组件适于基于所述第二测序结果，确定突变基因信息；以及

第三表达差异肽确定组件，所述第三表达差异肽确定组件适于基于所述突变基因信息，确定所述表达差异肽，

任选地，所述肿瘤核酸包括基因组DNA和RNA的至少之一，

任选地，所述RNA包括mRNA，

任选地，所述第二测序组件为高通量测序平台，

任选地，所述第二突变基因信息确定组件包括：

第二比对模块，所述第二比对模块适于将所述第二测序结果与参照基因组序列进行比对而确定所述突变基因信息，

任选地，所述第二质谱分析装置包括：

第二酶解处理组件，所述第二酶解处理组件适于对肿瘤组织进行酶解处理，以便获得含有肿瘤组织多肽的酶解产物；

第二质谱鉴定组件，所述第二质谱鉴定组件适于对所述酶解产物进行质谱鉴定，以便获得肿瘤组织质谱结果；

第四表达差异肽确定装置，所述第四表达差异肽确定装置适于基于所述肿瘤组织质谱结果，确定所述表达差异肽，

任选地，进一步包括：

第二已知抗原表位选择装置，所述第二已知抗原表位选择装置适于从免疫表位数据库ImmuneEpitopeDatabase(IEDB)和MHCPEP数据库的至少之一选择所述已知抗原表位，

任选地，所述抗原表位与MHC1或MHC2结合，

任选地，所述第二预测模型构建装置包括：

第三预测模型构建组件，所述第三预测模型构建组件适于利用PSSM算法，构建所述预测模型，

其中，所述抗原表位与MHC1结合，所述抗原表位长度为8肽，

任选地，所述第三预测模型构建组件进一步包括：

第三已知抗原表位选择模块，所述第三已知抗原表位选择模块用于选择多个与MHC1结合并且长度为8肽的已知抗原表位；

第二序列分析模块，所述第二序列分析模块适于将所述多个与MHC1结合并且长度为8肽的已知抗原表位进行序列分析，确定在每个位点，各氨基酸的出现概率；

第三预测模型构建模块，所述第三预测模型构建模块适于利用PSSM算法，基于所述各氨基酸的出现概率，构建所述预测模型，

任选地，所述分析装置进一步包括：

第三评分组件，所述第三评分组件适于将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；

第一概率确定组件，所述第一概率确定组件适于基于所述评分的结果，确定所述表达差异肽具有抗原表位性质的概率，

任选地，所述第一预测模型构建装置包括：

第四预测模型构建组件，所述第四预测模型构建组件适于利用支持向量机，构建所述预测模型，

其中，所述抗原表位与MHC2结合，所述抗原表位长度为9肽，

任选地，所述第四预测模型构建组件进一步包括：

第四已知抗原表位选择模块，所述第四已知抗原表位选择模块用于选择多个与MHC2结合并且长度为9肽的已知抗原表位；

第四转化模块，所述第四转化模块适于按照预定规则，将所述已知抗原表位的序列转化为二进制编码，以便获得阳性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；

第二对照短肽选择模块，所述第二对照短肽选择模块用于选择多个不与MHC2结合并且长度为9肽的对照短肽；

第五转化模块，所述第五转化模块适于按照所述预定规则，将所述对照短肽的序列转化为二进制编码，以便获得阴性起始数据库，其中，每个位点的氨基酸由长度为20位的二进制字串表示；

第四预测模型构建模块，所述第四预测模型构建模块适于基于所述阳性起始数据库和所述阴性起始数据库，利用支持向量机，构建所述预测模型，

任选地，所述分析装置进一步包括：

第四评分组件，所述第四评分组件适于将所述表达差异肽输入所述预测模型，以便基于所述表达差异肽的序列，对所述表达差异肽进行评分；

第二概率确定组件，所述第二概率确定组件适于基于所述评分的结果，确定表达差异肽具有抗原表位性质的概率，

进一步包括：

第六转化模块，所述第六转化模块适于在输入所述预测模型之前，按照所述预定规则，预先将所述表达差异肽的序列转化为二进制编码。

7.权利要求4所述的抗原表位在制备药物中的用途，所述药物用于治疗或者预防所述预定状态。

8.根据权利要求7所述的用途，其特征在于，所述预定状态为疾病。

9.根据权利要求7所述的用途，其特征在于，所述预定状态为肿瘤。