CN110675913B

CN110675913B - 一种基于hla分型与结构的肿瘤新抗原的筛选方法

Info

Publication number: CN110675913B
Application number: CN201910041526.7A
Authority: CN
Inventors: 张崇骞; 赵永浩; 马赛; 闫成海; 张晓霞; J·彭; D·张
Original assignee: Beierda Pharmacy Suzhou Co ltd
Current assignee: Beierda Pharmacy Suzhou Co ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2022-04-12
Anticipated expiration: 2039-01-16
Also published as: CN110675913A

Abstract

本发明提供了一种基于HLA分型与结构的肿瘤新抗原的筛选方法，包括：A、获取肿瘤组织细胞的突变基因所对应编码的多肽序列，并将其作为潜在抗原的多肽集合；B、获取HLA分型在黄种人群中的频率超过指定阈值的HLA分型集合；并将多肽集合与所述HLA分型集合进行亲和力预测，选出亲和力超过指定阈值的多肽序列；C、将HLA分型集合中的HLA进行三维结构建模；以及将多肽序列进行三维结构建模；D、将HLA作为受体，将多肽序列作为配体进行分子对接；E、将打分超过指定阈值时对应的多肽序列作为肿瘤新抗原的候选多肽序列。由上，通过本申请的筛选方法，方便后续进一步的据此进行针对性的实验，可以大大的减少实验的次数，实现省时、省力且节约经费。

Description

一种基于HLA分型与结构的肿瘤新抗原的筛选方法

技术领域

本发明涉及抗原筛选领域，尤其涉及一种基于HLA分型与结构的肿瘤新抗原的筛选方法。

背景技术

肿瘤疫苗(tumor vaccine)是近年研究的热点之一，其原理将肿瘤抗原以多种形式如：肿瘤细胞、肿瘤相关蛋白或多肽、表达肿瘤抗原的基因等，导入患者体内，克服肿瘤引起的免疫抑制状态，增强免疫原性，激活患者自身的免疫系统，诱导机体细胞免疫和体液免疫应答，从而达到控制或清除肿瘤的目的。2010年4月，美国食品药品监督管理局 (FDA)批准Provenge/sipuleucel-T用于治疗晚期前列腺癌，使其成为第一个自体主动免疫疗法药及第一个真正的治疗性癌症疫苗，为其他同类产品的研发铺平道路(1,2)。

2017年有2个技术团队已经在基于NGS的个性化肿瘤疫苗临床试验中取得可喜成果，美国团队的临床实验结果：接种疫苗的6名黑色素瘤患者中，4人肿瘤完全消失，且32个月内无复发，另外2人肿瘤仍然存在，在接受辅助治疗后肿瘤也完全消失；德国团队的临床试验结果：在13位接种疫苗的患者中，8人肿瘤完全消失且23月内无复发，其余 5名患者由于接种疫苗时肿瘤已经扩散，有2人出现肿瘤缩小，其中1 人接受辅助治疗后肿瘤完全消退1,2。此技术或治疗方法，利用个体化肿瘤新生抗原，调节或激活免疫系统杀伤肿瘤，从原理上结合其他肿瘤治疗方法有可能把肿瘤变成慢性病，如果大规模临床验证成功，未来市场潜力巨大(3,4)。

但是，目前对于肿瘤疫苗的研制都是通过实验的手段进行一一的筛选，该过程费时、费力、花费较大，且不易找到合适的肿瘤疫苗(肿瘤抗原)，因此，目前亟需一种对肿瘤新抗原的筛选的方法，通过对肿瘤新抗原的筛选获取合适的肿瘤疫苗，以方便后续进一步的据此进行针对性的实验，以大大的减少实验的次数，实现省时、省力且节约经费。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于HLA分型与结构的肿瘤新抗原的筛选方法，通过对肿瘤新抗原的筛选，以方便后续进一步的据此进行针对性的实验，可以大大的减少实验的次数，实现省时、省力且节约经费。

本申请提供的一种基于HLA分型与结构的肿瘤新抗原的筛选方法，包括步骤：

A、获取肿瘤组织细胞的突变基因所对应编码的各个多肽序列，并将其作为潜在抗原的多肽集合；

D、获取各个HLA分型在黄种人群中的频率并据此获取频率超过指定阈值的HLA分型集合；并将所述多肽集合中的多肽序列与所述HLA分型集合中的HLA分型分别进行亲和力预测，并筛选出亲和力超过指定阈值的多肽序列；

E、将所述HLA分型集合中的各个HLA分型分别进行三维结构建模；以及将所述亲和力超过指定阈值的多肽序列分别进行三维结构建模；

D、将HLA分型的三维结构模型为受体，将多肽序列的三维结构模型作为配体进行分子对接；

E、将所述分子对接的打分值中超过指定阈值时对应的多肽序列作为肿瘤新抗原的候选多肽序列。

由上，本申请提供的肿瘤新抗原的筛选方法，通过获取潜在抗原的多肽集合，以及根据HLA分型在黄种人群中的频率获取高频的 HLA分型集合，并将两者亲和力预测以及进行分子对接打分，以获取作为肿瘤新抗原的候选多肽序列。方便后续进一步的根据所述候选多肽序列进行针对性的实验，可以大大的减少实验的次数，实现省时、省力且节约经费。

优选地，所述步骤C，还包括：

将三维结构建模之后的HLA分型的三维结构模型进行能量优化。

由上，将所述三维结构建模之后的HLA分型的三维结构模型进行能量优化的从而使得其更有利于与多肽序列的三维结构进行对接。

优选地，所述HLA分型的三维结构模型进行能量优化的能量项至少包括但不限于以下其一：

联合侧链相互作用能、侧链间疏水/亲水作用的平均自由能、联合侧链与联合肽基相互作用能、联合肽基静电相互作用能、虚键二面角扭转能、虚键键角变性能、侧链旋转能。

由上，通过优化上述的能量项，能够使得本申请的HLA分型的三维结构模型更有利于与多肽序列的三维结构进行对接。

优选地，所述HLA分型的三维结构模型进行能量优化的函数表达式为：

其中，所述U表示总虚键能；i表示第i个α碳原子、侧链或者缩氨酸组；j表示第j个α碳原子、侧链或者缩氨酸组；

表示侧链间的疏水作用的平均自由能；sc_i表示第i个联合侧链；sc_j表示第j 个联合侧链；

表示侧链与缩氨酸组之间的作用势能；p_j表示第j个缩氨酸组；ω_el表示静电能量项的权值；

表示缩氨酸组pi 与pj的静电作用能；p_i表示第i个缩氨酸组；ω_tor表示虚键二面角扭转能的权值；

表示第i个二面角的扭转能；r_i表示第i个二面角；ω_loc表示弯曲能权值；U_b(θ_i)表示第i个虚键角的弯曲能；θ_i表示第i个虚键角；

表示第i个侧链与第j个侧链的旋转异构能；

表示第i个侧链角α；β_scj表示第j个侧链角β；ω_corr表示各能量项的相关性权重；U_corr表示各能量项的相关性。

优选地，所述步骤C，还包括：

将三维结构建模之后的多肽序列的三维结构模型进行模型优化；

其中，所述模型优化包括：加氢、去除水分子、电荷优化及能量优化。

由上，将所述三维结构建模之后的HLA分型的三维结构模型进行上述优化从而使得其更有利于与多肽序列的三维结构进行对接，多肽的能量优化使用经验函数，其能量项主要包含键长、键角、扭转及其他相关的能量项，在此不再赘述。

优选地，步骤E所述肿瘤新抗原还包括：所述肿瘤组织、所述肿瘤组织相关蛋白、所述肿瘤组织细胞的突变DNA序列或者突变RNA 序列。

优选地，所述步骤E之后，还包括：

I、通过分子动力学模拟所述候选多肽序列与HLA分型之间的相互作用和运动变化；并据此分析获取候选多肽序列与HLA分型的结合处的序列组成。

由上，分子动力学模拟是根据牛顿力学的基本原理模拟大分子与多肽的相互作用与运动变化，来探究实验手段解决不了的生命现象背后的规律。我们通过分子动力学模拟手段来探讨HLA分型与多肽之间的作用规律与运动变化，能直观地体现稳定状态下多肽与HLA之间的相互作用与亲和力，能精准地预测多肽是否能与HLA稳定地结合。

优选地，所述步骤I之后，还包括：

J、当判断所述结合处的序列组成的中存在突变氨基酸，且判断所述突变氨基酸与HLA分型结合紧密时；将所述候选多肽序列作为筛选的肿瘤新抗原的序列。

由上，说明之所以多肽与MHCI能够稳定地结合，正是由于该突变氨基酸的产生，因此可以将所述候选多肽序列作为筛选的肿瘤新抗原的序列。

优选地，所述步骤A，包括：

A、提取肿瘤组织细胞的DNA，并对其进行DNA测序；

B、将测序后的DNA序列与正常的该组织细胞的DNA序列进行比对，获取突变的DNA序列；

C、根据所述突变的DNA序列通过生物学软件获取其对应编码的多肽序列，将所述多肽序列作为。

由上，通过上述步骤可以获取肿瘤组织细胞的突变基因所对应编码的多肽序列。

优选地，所述步骤A，所述多肽序列为：含有8-30个氨基酸残基的多肽序列。

由上，含有8-30个氨基酸残基的长度的多肽序列的亲和力较好，过长的话影响多肽序列的亲和力，过短则影响该多肽的效力。

综上所述，本申请提供的肿瘤新抗原的筛选方法，通过获取潜在抗原的多肽集合，以及根据HLA分型在黄种人群中的频率获取高频的HLA分型集合，并将两者亲和力预测以及进行分子对接打分，以及通过分子动力学模拟手段来探讨HLA分型与多肽之间的作用规律与运动变化以获取作为肿瘤新抗原的候选多肽序列。方便后续进一步的根据所述候选多肽序列进行针对性的实验，可以大大的减少实验的次数，实现省时、省力且节约经费。

附图说明

图1是本申请实施例提供的一种基于HLA分型与结构的肿瘤新抗原的筛选方法的流程图；

图2是本申请实施例的64条多肽及模板多肽的分子叠合展示图；

图3为本申请实施例的HLA-A*0201受体对接口袋示意图；

图4为本申请实施例TOP10条对接打分示意图；

图5为本申请实施例的HLA-A*0201受体与多肽对接展示示意图；

图6为本申请实施例的多肽配体与受体“槽”的相互作用展示示意图。

图7为本申请实施例的新抗原肽的活性评估结果示意图。

具体实施方式

下面将结合本申请实施例中的附图对本申请进行说明。

实施例一

如图1所述，本实施例提供一种基于HLA分型与结构的肿瘤新抗原的筛选方法，包括步骤：

S101，获取患者的肿瘤组织细胞的突变基因所对应编码的多肽序列。具体的，包括：

A、通过SDS法提取肿瘤组织细胞的DNA，并对其进行DNA测序；

B、将测序后的DNA序列与正常的野生型的该组织细胞的DNA 序列进行比对，获取与正常的野生型的该组织细胞的DNA序列不同的突变的DNA序列。其中，正常的该组织细胞的DNA序列获取方式可以是通过现有的数据库中获取。其中，所述数据库可以是： COSMIC、NCBI、UCSC、Ensembl,TCGA等。

C、通过生物学软件获取所述突变的DNA序列对应编码的多肽序列。其中，所述生物学软件可是DNA-man，也可以是其他的可以将DNA序列翻译成氨基酸序列的软件。其中，所述多肽序列为：至少含有8-30个氨基酸残基的多肽序列。

又或者，对于某些肿瘤组织细胞，已存在其对应的突变基因的突变分布表，可以通过如下方法获取其突变基因所对应编码的多肽序列。具体地，以Mucin16(MUC16)为例：

获取突变基因：

Mucin16(MUC16)是一种跨膜蛋白，为MUC家族中一员。研究表明，MUC16在80％以上的卵巢癌和肺癌细胞中过表达。MUC16 的胞外部分可被切割释放到胞外基质或血清中，及临床上常用与卵巢癌的诊断及预后检测的肿瘤标志物CA125.另外也有很多证据表明MUC16突变和更高的TML相关，也与胃癌患者更好的预后相关。

通过cosmic下载MUC16基因突变分布表。

登陆cosmic数据库下载MUC16基因突变分布表，MUC16全部错意突变达6508个。

筛选MUC16基因高频突变。

将下载的MUC16基因突变分布表中的较多count的突变进行过滤，我们选择的突变类型是点突变型错义突变。如表三所示：

Position	CDS utation	AA Mutation	Count	Type
					3177	c.9530G>A	p.G3177E	13	Substitution-Missense
5119	c.15355C>T	p.P5119S	11	Substitution-Missense
					10956	c.32867T>C	p.L10956P	11	Substitution-Missense
12402	c.37205G>A	p.G12402E	22	Substitution-Missense
					12406	c.37216G>C	p.G12406R	22	Substitution-Missense
13407	c.40219G>A	p.D13407N	12	Substitution-Missense
					6513	c.19538C>T	p.S6513F	7	Substitution-Missense

表一、MUC16基因高频突变。

进一步地，获取基因突变导致的多肽序列：

我们根据点突变翻译后的氨基酸在蛋白中的位置，选择出突变所在位置的长30个aa的多肽野生型序列如下：seq1-seq7

Seq1:DGTLVTTIKM SSQAAQGNST WPAPAEETGS

Seq2:SDKILATSKD SKDTKEIFPS INTEETNVKA

Seq3:SRAVTSTTIP ILTFSLGEPE TTPSMATSHG

Seq4:TLNFTITNLQ YGEDMGHPGS RKFNTTERVL

Seq5:TLNFTITNLQ YGEDMGHPGS RKFNTTERVL

Seq6:VDAVCTHRPD PKSPGLDRER LYWKLSQLTH

Seq7:SPPSVEKTSS SSSLLSLPAI TSPSPVPTTL

我们根据多肽的野生型序列与相对应的点突变导致的氨基酸突变类型，将野生型多肽替换为突变型多肽：seq8-seq14.

所对应突变型序列如下：

Seq8:DGTLVTTIKM SSQAAQENST WPAPAEETGS

Seq9:SDKILATSKD SKDTKEIFSS INTEETNVKA

Seq10:SRAVTSTTIP ILTFSPGEPE TTPSMATSHG

Seq11:TLNFTITNLQ YEEDMGHPGS RKFNTTERVL

Seq12:TLNFTITNLQ YGEDMRHPGS RKFNTTERVL

Seq13:VDAVCTHRPD PKSPGLNRER LYWKLSQLTH

Seq14:SPPSVEKTSS SSFLLSLPAI TSPSPVPTTL

S102，获取各个HLA分型在黄种人群中的频率并据此获取频率超过指定阈值的HLA分型集合；并将所述多肽集合中的多肽序列与所述HLA分型集合中的HLA分型分别进行亲和力预测，并筛选出亲和力超过指定阈值的多肽序列；

具体地，所述频率超过指定阈值的HLA分型集合包括：

HLA-A分型，包含:HLA-A0101,HLA-A0201,HLA-A0202,HLA-A0 203,HLA-A0205,HLA-A0206,HLA-A0207,HLA-A0211,HLA-A0212,H LA-A0216,HLA-A0217,HLA-A0219,HLA-A0250,HLA-A0301,HLA-A1 101,HLA-A2301,HLA-A2402,HLA-A2403,HLA-A2501,HLA-A2601,H LA-A2602,HLA-A2603,HLA-A2902,HLA-A3001,HLA-A3002,HLA-A3 101,HLA-A3201,HLA-A3207,HLA-A3215,HLA-A3301,HLA-A6601,H LA-A6801,HLA-A6802,HLA-A6823,HLA-A6901,HLA-A8001等。

1HLA-B分型，包含：HLA-B0702,HLA-B0801,HLA-B0802,HLA-B 0803,HLA-B1402,HLA-B1501,HLA-B1502,HLA-B1503,HLA-B1509,H LA-B1517,HLA-B1801,HLA-B2705,HLA-B2720,HLA-B3501,HLA-B35 03,HLA-B3801,HLA-B3901,HLA-B4001,HLA-B4002,HLA-B4013,HLA -B4201,HLA-B4402,HLA-B4403,HLA-B4501,HLA-B4601,HLA-B4801, HLA-B5101,HLA-B5301,HLA-B5401,HLA-B5701,HLA-B5801,HLA-B 5802,HLA-B7301,HLA-B8301等。

HLA-C分型，包含：HLA-C0303,HLA-C0401,HLA-C0501,HLA-C0 602,HLA-C0701,HLA-C0702,HLA-C0802,HLA-C1203,HLA-C1402,HL A-C1502等。

其中，将所述多肽集合中的多肽序列与所述HLA分型集合中的HLA分型分别进行亲和力预测，预测模型包含人工神经网络、支持向量机以及偏最小二乘机器学习模型。以S01中的7条突变序列和上述的HLA分型中的HLA-A 0201为例说明如下：

登陆netMHC4.0在线多肽亲和力预测网址。将以上7条突变序列输入窗口，并选择HLA-A*0201及9肽。进行亲和力预测，nM一列代表多肽与HLA-A*0201的预测亲和力。多肽与HLA的亲和力保证了多肽HLA复合物能被T细胞表面受体TCR顺利地识别，从而激活 T细胞，引发相关的细胞免疫反应。因此预测多肽与HLA亲和力十分重要，该多肽与HLA的亲和程度对于对于该多肽是否可以成功作为肿瘤新抗原疫苗十分关键。

结果如下表(表二)所示：

			HLA-A0201
						Pos	Peptide	ID	nM	Rank	Core
0	IKMSSQAAQ	1	40592.4	85	IKMSSQAAQ
						1	KMSSQAAQE	1	27967.5	42	KMSSQAAQE
2	MSSQAAQEN	1	39002	80	MSSQAAQEN
						3	SSQAAQENS	1	39603.7	80	SSQAAQENS
4	SQAAQENST	1	22936.7	32	SQAAQENST
						5	QAAQENSTW	1	39264	80	QAAQENSTW
6	AAQENSTWP	1	37098.3	70	AAQENSTWP
						7	AQENSTWPA	1	1176.4	4.5	AQENSTWPA
8	QENSTWPAP	1	40270.8	85	QENSTWPAP
						9	ENSTWPAPA	1	33462.1	60	ENSTWPAPA
0	SKDTKEIFS	2	37393.7	75	SKDTKEIFS
						1	KDTKEIFSS	2	35916.1	65	KDTKEIFSS
2	DTKEIFSSI	2	265952	39	DTKEIFSSI
						3	TKEIFSSIN	2	38912.2	80	TKEIFSSIN
4	KEIFSSINT	2	29757.3	46	KEIFSSINT
						5	EIFSSINTE	2	30177.8	47	EIFSSINTE
6	IFSSINTEE	2	37762	75	IFSSINTEE
						7	FSSINTEET	2	19707.1	27	FSSINTEET
8	SSINTEETN	2	38554.3	80	SSINTEETN
						0	TIPILTFSP	3	17824.7	24	TIPILTFSP
1	IPILTFSPG	3	23951.7	34	IPILTFSPG
						2	PILTFSPGE	3	38284.9	75	PILTFSPGE
3	ILTFSPGEP	3	25868.7	37	ILTFSPGEP
						4	LTFSPGEPE	3	32710.4	55	LTFSPGEPE
5	TFSPGEPET	3	32405.3	55	TFSPGEPET
						6	FSPGEPETT	3	22488.5	31	FSPGEPETT
7	SPGEPETTP	3	419202	90	SPGEPETTP
						8	PGEPETTPS	3	43691.1	95	PGEPETTPS
0	NLQYGEDME	4	34679.6	65	NLQYGEDME
						1	LQYGEDMEH	4	29319.1	45	LQYGEDMEH
2	QYGEDMEHP	4	38291.9	75	QYGEDMEHP
						3	YGEDMEHPG	4	37369.8	75	YGEDMEHPG
4	GEDMEHPGS	4	418949	90	GEDMEHPGS
						5	EDMEHPGSR	4	43489.2	95	EDMEHPGSR
6	DMEHPGSRK	4	41366.5	90	DMEHPGSRK
						7	MEHPGSRKF	4	36369.4	70	MEHPGSRKF
8	EHPGSRKFN	4	460659	99	EHPGSRKFN
						0	NLQYGEDMR	5	31972.4	55	NLQYGEDMR
1	LQYGEDMRH	5	31059.3	49	LQYGEDMRH
						2	QYGEDMRHP	5	40555.9	85	QYGEDMRHP
3	YGEDMRHPG	5	39663.7	85	YGEDMRHPG
						4	GEDMRHPGS	5	42143.1	90	GEDMRHPGS
5	EDMRHPGSR	5	44768.2	99	EDMRHPGSR
						6	DMRHPGSRK	5	41057.5	90	DMRHPGSRK
7	MRHPGSRKF	5	36869	70	MRHPGSRKF
						8	RHPGSRKFN	5	45211.7	99	RHPGSRKFN
0	PDPKSPGLN	6	46400.1	99	PDPKSPGLN
						1	DPKSPGLNR	6	40854.1	90	DPKSPGLNR
2	PKSPGLNRE	6	42208.8	95	PKSPGLNRE
						3	KSPGLNRER	6	398875	85	KSPGLNRER
4	SPGLNRERL	6	343722	60	SPGLNRERL
						5	PGLNRERLY	6	42687.4	95	PGLNRERLY
6	GLNRERLYW	6	218432	30	GLNRERLYW
						7	LNRERLYWK	6	31858.8	55	LNRERLYWK
8	NRERLYWKL	6	31640.7	55	NRERLYWKL
						0	VEKTSSSSF	7	38957.3	80	VEKTSSSSF
1	EKTSSSSFL	7	39704.5	85	EKTSSSSFL
						2	KTSSSSFLL	7	234.7	1.8	KTSSSSFLL
3	TSSSSFLLS	7	25932.6	37	TSSSSFLLS
						4	SSSSFLLSL	7	1735.4	5.5	SSSSFLLSL
5	SSSFLLSLP	7	23043.9	32	SSSFLLSLP
						6	SSFLLSLPA	7	24342	65	SSFLLSLPA
7	SFLLSLPAI	7	3926.3	8.5	SFLLSLPAI
						8	FLLSLPAIT	7	47	0.6	FLLSLPAIT

表二亲和力预测结果

S103，将所述HLA分型集合中的各个HLA分型分别进行三维结构建模；以及将所述亲和力超过指定阈值的多肽序列分别进行三维结构建模。

HLA三维建模：将HLA-A*0201序列进行基于结构的建模，并依据其与核心九肽相互作用的关键残基进行受体配体对接口袋定义，并对受体进行能量优化等操作。其中，所述HLA分型的三维结构模型进行能量优化的能量项至少包括但不限于以下其一：联合侧链相互作用能、侧链间疏水/亲水作用的平均自由能、联合侧链与联合肽基相互作用能、联合肽基静电相互作用能、虚键二面角扭转能、虚键键角变性能、侧链旋转能。由上，通过优化上述的能量项，能够使得本申请的HLA分型的三维结构模型更有利于与多肽序列的三维结构进行对接。

其中，所述HLA分型的三维结构模型进行能量优化的函数表达式为：

其中，所述U表示总虚键能；i表示第i个(α碳原子、侧链或者缩氨酸组顺序标记)；j表示第j个α碳原子、侧链或者缩氨酸组；

表示侧链间的疏水作用的平均自由能，隐含侧链与溶剂间的相互作用；sc_i表示第i个联合侧链；sc_j表示第j个联合侧链；

表示缩氨酸组pi与pj的静电作用能；p_i表示第i个缩氨酸组；ω_tor表示虚键二面角扭转能的权值；

表示第 i个二面角的扭转能；r_i表示第i个二面角；ω_loc表示弯曲能权值；U_b(θ_i)表示第i个虚键角的弯曲能；θ_i表示第i个虚键角；

表示第i个侧链与第j个侧链的旋转异构能；

多肽三维建模：以与HLA-A*0201结合的核心九肽KVAELVWFL 为模板骨架，保持肽平面结构不变，进行残基突变。分别将表二中的 64条多肽的三维结构构建出来。并对多肽集合进行能量优化、添加力场等。如图2所示为64条多肽及模板多肽的分子叠合展示图。所述对多肽集合进行能量优化，包括：加氢、去除水分子、电荷优化及能有量优化。

S104，将HLA分型的三维结构模型作为受体，将多肽序列的三维结构模型作为配体进行分子对接。

以HLA-A*0201为受体，以64条多肽集合为配体集进行分子对接。对接结果如图6所示。TOP10条对接打分如图4所示，多肽序列与打分值如表三所示。我们对打分值最高多肽LLLSLPAIT与 HLA-A*0201进行相互作用分析。如图5、图6所示。

S105，将所述分子对接的打分值中超过指定阈值时对应的多肽序列作为肿瘤新抗原的候选多肽序列。

Peptide No	Sequence	Docking Score
			1	FLLSLPAIT	50
2	KTSSSSFLL	26
			3	AQENSTWPA	25
4	SSFLLSLPA	23
			5	SFLLSLPAI	16
6	SSINTEETN	14
			7	TIPILTFSP	14
8	IPILTFSPG	12
			9	PILTFSPGE	8
10	AAQENSTWP	3

表三：多肽对接打分列表：

如表三所示，选择打分超过20的多肽与作为候选多肽序列多肽并付诸合成。

为了更好地说明本申请的筛选方法的获得的多肽序列的亲和力效果，本申请还进行了如下的试验：

对表三中的多肽进行固相合成，初始合成量10mg，纯度≥95％。

工艺流程如下：

3.1合成顺序：从序列C端到N端，步骤如下：

3.1.1称取n当量树脂放入反应器，加入DCM(二氯甲烷)溶胀半小时，然后抽掉DCM，加入序列中第一个氨基酸2n当量，加2n当量的DIEA，适量的DMF，DCM(适量是指以可使树脂充分鼓动起来为宜)，DIEA(二异丙基乙胺)、DMF(二甲基甲酰胺)、DCM，氮气鼓泡反应60min。然后加入约5n当量甲醇，反应半小时，抽掉反应液，用DMF、MEOH洗净；

3.1.2往反应器中加入序列中第二个氨基酸(也为2n当量)，2n 当量HBTU(1－羟基,苯并,三氯唑四甲基六氟磷酸盐)及DIEA，N2 鼓泡反应半小时，洗掉液体，茚三酮检测，然后用吡啶和乙酸酐封端。最后洗净，加入适量的脱帽液去除Fmoc(9-芴甲氧羰基)保护基，洗净，茚三酮检测；

3.1.3依步骤b的方式依次加入序列中不同的氨基酸并进行各种修饰；

3.1.4将树脂用氮气吹干后从反应柱中取下，倒入烧瓶中，然后往烧瓶中加一定量(切割液和树脂大约以10ml/克的比例)的切割液(组成是95％TFA，2％乙二硫醇，2％三异丙基硅烷，1％水)，震荡，滤掉树脂；

3.1.5得到滤液，然后向滤液中加入大量乙醚，析出粗产物，然后离心，清洗即可得到序列的粗产物；

3.2.多肽纯化：开发新工艺用高效液相色谱将粗品提纯至要求纯度。

3.3多肽冻干：纯化好的液体放入冻干机中进行浓缩，冻干成白色粉末。

实施例4：新抗原肽活性评估：

4.1T2细胞培养：T2细胞购自ATCC，用20％FBS IMDM(Gibco) 完全培养基培养；

4.2预测的多肽序列采用固相合成，多肽纯度≥95％，用DMSO 溶解后冻于-80℃保存；

4.3在24孔板中加入以下原料：T2细胞，1X10^6cells/well；天然的人β2微球蛋白(Prospec)，终浓度为0.5μM；每条多肽设置终浓度梯度为：2.5μM、5μM、10μM、20μM、40μM、80μM，分别加入24孔板中，在37℃5％CO2培养箱中共孵育16h。实验设置空白组和对照组(不加多肽)；

4.4将细胞转移至1.5ml离心管中，用1ml 1XPBS清洗2次，弃上清；

4.5加入FITC Mouse Anti-Human HLA-A2(BD Biosciences, Oxford,U.K.)，4℃避光孵育1h；

4.6用1ml 1XPBS清洗2次，弃上清；

4.7用500μL 1XPBS使细胞重悬，并转移至流式分析管中；

4.8用流式分析仪检测(BD Biosciences)；

4.9使用Flow-Jo和GraphPad Prism对检测结果进行分析；

4.10检测结果以荧光指数(FI)值表示，FI＝MFI sample/MFI background。

实现结果显示与表三中的分子对接分数结果基本一致，如图7所示。

本申请筛选的多肽应用在新抗原的肿瘤疫苗以及TCR-T过继细胞转移的治疗方法中。使用方式为免疫原性组合物以及疫苗组合物。疫苗组合物组分可能含有包含聚-ICLC、1018ISS、铝盐、Amplivax、AS15、BCG、CP-870,893、CpG7909、CyaA、dSLIM、GM-CSF、IC30、IC31等。其中该药物组合物作为与其他的癌症疗法的联合疗法来进行组合治疗。特别是免疫检验点抑制剂、放射疗法、手术、靶向药及化疗。每种肿瘤特异性新表位以小于500nM结合HLA-A、HLA-B或 HLA-C的多肽序列。所述组合物种包含PH调节剂及药学上可接受的载体。所述组合物包括至少一种如下表四的任一个基因中所定义的新抗原肽；而完全个性化的肿瘤疫苗可不含有以下基因中所定义的新抗原肽。

表四

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

SEQUENCE LISTING

<110> 倍而达药业（苏州）有限公司

<120> 一种基于HLA分型与结构的肿瘤新抗原的筛选方法

<140> 201910041526.7

<141> 2019-01-16

<170> PatentIn version 3.5

<210> 1

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 1

Asp Gly Thr Leu Val Thr Thr Ile Lys Met Ser Ser Gln Ala Ala

1 5 10 15

Gln Gly Asn Ser Thr Trp Pro Ala Pro Ala Glu Glu Thr Gly Ser

20 25 30

<210> 2

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 2

Ser Asp Lys Ile Leu Ala Thr Ser Lys Asp Ser Lys Asp Thr Lys

1 5 10 15

Glu Ile Phe Pro Ser Ile Asn Thr Glu Glu Thr Asn Val Lys Ala

20 25 30

<210> 3

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 3

Ser Arg Ala Val Thr Ser Thr Thr Ile Pro Ile Leu Thr Phe Ser

1 5 10 15

Leu Gly Glu Pro Glu Thr Thr Pro Ser Met Ala Thr Ser His Gly

20 25 30

<210> 4

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 4

Thr Leu Asn Phe Thr Ile Thr Asn Leu Gln Tyr Gly Glu Asp Met

1 5 10 15

Gly His Pro Gly Ser Arg Lys Phe Asn Thr Thr Glu Arg Val Leu

20 25 30

<210> 5

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400>5

Thr Leu Asn Phe Thr Ile Thr Asn Leu Gln Tyr Gly Glu Asp Met

1 5 10 15

Gly His Pro Gly Ser Arg Lys Phe Asn Thr Thr Glu Arg Val Leu

20 25 30

<210> 6

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 6

Val Asp Ala Val Cys Thr His Arg Pro Asp Pro Lys Ser Pro Gly

1 5 10 15

Leu Asp Arg Glu Arg Leu Tyr Trp Lys Leu Ser Gln Leu Thr His

20 25 30

<210>7

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 7

Ser Pro Pro Ser Val Glu Lys Thr Ser Ser Ser Ser Ser Leu Leu

1 5 10 15

Ser Leu Pro Ala Ile Thr Ser Pro Ser Pro Val Pro Thr Thr Leu

20 25 30

<210> 8

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 8

Asp Gly Thr Leu Val Thr Thr Ile Lys Met Ser Ser Gln Ala Ala

1 5 10 15

Gln Glu Asn Ser Thr Trp Pro Ala Pro Ala Glu Glu Thr Gly Ser

20 25 30

<210> 9

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 9

Ser Asp Lys Ile Leu Ala Thr Ser Lys Asp Ser Lys Asp Thr Lys

1 5 10 15

Glu Ile Phe Ser Ser Ile Asn Thr Glu Glu Thr Asn Val Lys Ala

20 25 30

<210> 10

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 10

Ser Arg Ala Val Thr Ser Thr Thr Ile Pro Ile Leu Thr Phe Ser

1 5 10 15

Pro Gly Glu Pro Glu Thr Thr Pro Ser Met Ala Thr Ser His Gly

20 25 30

<210> 11

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 11

Thr Leu Asn Phe Thr Ile Thr Asn Leu Gln Tyr Glu Glu Asp Met

1 5 10 15

Gly His Pro Gly Ser Arg Lys Phe Asn Thr Thr Glu Arg Val Leu

20 25 30

<210> 12

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 12

Thr Leu Asn Phe Thr Ile Thr Asn Leu Gln Tyr Gly Glu Asp Met

1 5 10 15

Arg His Pro Gly Ser Arg Lys Phe Asn Thr Thr Glu Arg Val Leu

20 25 30

<210> 13

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 13

Val Asp Ala Val Cys Thr His Arg Pro Asp Pro Lys Ser Pro Gly

1 5 10 15

Leu Asn Arg Glu Arg Leu Tyr Trp Lys Leu Ser Gln Leu Thr His

20 25 30

<210> 14

<211> 30

<212> PRT

<213> 人（Homo sapiens）

<400> 14

Ser Pro Pro Ser Val Glu Lys Thr Ser Ser Ser Ser Phe Leu Leu

1 5 10 15

Ser Leu Pro Ala Ile Thr Ser Pro Ser Pro Val Pro Thr Thr Leu

20 25 30

Claims

1.一种基于HLA分型与结构的肿瘤新抗原的筛选方法，其特征在于，包括步骤：

B、获取各个HLA分型在黄种人群中的频率并据此获取频率超过指定阈值的HLA分型集合；并将所述多肽集合中的多肽序列与所述HLA分型集合中的HLA分型分别进行亲和力预测，并筛选出亲和力超过指定阈值的多肽序列；

C、将所述HLA分型集合中的各个HLA分型分别进行三维结构建模；以及将所述亲和力超过指定阈值的多肽序列分别进行三维结构建模；

D、将HLA分型的三维结构模型作为受体，将多肽序列的三维结构模型作为配体进行分子对接；

E、将所述分子对接的打分值中超过指定阈值时对应的多肽序列作为肿瘤新抗原的候选多肽序列；

I、通过分子动力学模拟所述候选多肽序列与HLA分型之间的相互作用和运动变化；并据此分析获取候选多肽序列与HLA分型的结合处的序列组成；

2.根据权利要求1所述的方法，其特征在于，所述步骤C，还包括：

3.根据权利要求2所述的方法，其特征在于，所述HLA分型的三维结构模型进行能量优化的能量项至少包括但不限于以下其一：

4.根据权利要求3所述的方法，其特征在于，所述HLA分型的三维结构模型进行能量优化的函数表达式为：

表示侧链间的疏水作用的平均自由能；sc_i表示第i个联合侧链；sc_j表示第j个联合侧链；

表示第i个侧链与第j个侧链的旋转异构能；

5.根据权利要求1所述的方法，其特征在于，所述步骤C，还包括：

其中，所述多肽序列的三维结构模型进行模型优化包括：加氢、去除水分子、电荷优化及能量优化。

6.根据权利要求1所述的方法，其特征在于，所述步骤A，包括：

A1、提取肿瘤组织细胞的DNA，并对其进行DNA测序；

A2、将测序后的DNA序列与正常的野生型的该组织细胞的DNA序列进行比对，获取突变的DNA序列；

A3、通过生物学软件获取所述突变的DNA序列对应编码的多肽序列。

7.根据权利要求1所述的方法，其特征在于，步骤A所述序列为：至少含有8-30个氨基酸残基的多肽序列或者可编码8-30个氨基酸残基的mRNA或者DNA序列。