CN113533741A

CN113533741A - 基于多肽结构性指标预测新抗原的方法

Info

Publication number: CN113533741A
Application number: CN202110696098.9A
Authority: CN
Inventors: 万季; 李东; 汪健; 赵钊; 潘有东; 王弈
Original assignee: Shenzhen Neocura Biotechnology Corp
Current assignee: Shenzhen Neocura Biotechnology Corp
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-10-22

Abstract

本发明公开了一种基于多肽结构性指标预测新抗原的方法，属于生物信息学技术领域。该方法包括以下步骤：S01，获取样品测序数据；S02，识别样品体细胞变异；S03，样品变异过滤；S04，翻译变异序列为蛋白质；S05，蛋白片段分割，并过滤人类正常蛋白质组中多肽；S06，预测蛋白片段结构；S07，计算相应多肽结构性指标；S08，筛选新抗原。发明基于多肽结构的指标，可以从微观层面对新抗原的性质进行刻画，从而对分子生物学特征筛选新抗原的方法是一个重要补充。

Description

基于多肽结构性指标预测新抗原的方法

技术领域

本发明属于肿瘤免疫治疗生物信息学技术领域，具体涉及一种基于多肽结构性指标预测新抗原的方法。

背景技术

恶性肿瘤是对人类危害最严重的疾病之一，针对恶性肿瘤的治疗方法在过去几十年中取得长足发展。现阶段常规的恶性肿瘤治疗方式包括手术、放疗、化疗以及靶向治疗，然而，上述治疗方式都有一定的局限性，并且容易受到毒副作用和肿瘤复发的影响。近年来，基于激活免疫系统从而抑制和杀伤肿瘤细胞的免疫治疗成为恶性肿瘤领域新的热点，其中基于新抗原的免疫治疗具有作用范围广和毒副作用小等特点。

新抗原疫苗肿瘤免疫治疗效果显著，可应用于多癌种且毒副作用较小，目前已经成为免疫治疗家族中重要的成员。该治疗方法的核心是免疫原性抗原多肽的选择，目前新抗原的预测包括分析肿瘤及正常组织的全外显子组测序和转录组测序数据，鉴定蛋白质编码区的DNA突变及人类白细胞抗原亚型，利用生物信息方法获得由突变DNA所翻译的突变多肽，并最终预测突变多肽是否能被人类白细胞抗原被提呈到细胞表面。

当前筛选潜在新抗原的依据主要是基于突变丰度，表达量和多肽与对应的HLA之间的亲和力等分子生物学特征。然而越来越多的实验结果表明存在独立于这些特征之外的因素也会影响多肽的免疫原性。对于与MHC蛋白结合的多肽而言，诸如电荷，疏水表面等特征的影响是由肽在结合槽内的构象以及各种氨基酸侧链的大小和位置决定的。因此，预测免疫原性多肽可以通过考虑多肽/MHC复合物结构特性的方法来加强。因此，为了提高对于新抗原的筛选效率和对多肽免疫原性预测的准确率，将多肽结构性指标纳入多肽免疫原性筛选方法的具有重要意义的。

发明内容

针对筛选肿瘤新抗原存在的上述问题，本发明充分考虑了多肽结构对于多肽免疫原性的影响，开发了一套基于多肽结构性指标筛选新抗原的生物信息学方法。

本发明在于公开一种基于多肽结构性指标预测新抗原的方法，包括以下步骤：

S01，获取样品测序数据；

S02，识别样品体细胞变异；

S03，样品变异过滤；

S04，翻译变异序列为蛋白质；

S05，蛋白片段分割，并过滤人类正常蛋白质组中多肽；

S06，预测蛋白片段结构；

S07，计算相应多肽结构性指标；

S08，筛选新抗原。

优选的，上述样本为新鲜肿瘤组织样品；作为替代，可以选择外周血液样本。

在本发明的一些实施方式中，，S01中，对肿瘤样品以及正常对照样品进行DNA测序，获取样品测序数据，样本测序数据中包括多个重叠或部分重叠的短读序列。

在本发明的一些优选的实施方式中，S01中，获取肿瘤样品不小于500X深度测序数据以及正常对照200X深度测序数据。

在本发明的一些优选的实施方式中，S01中，采用全外显子测序或者Panel捕获测序。

在本发明的一些优选的实施方式中，S02中，包括以下步骤：

S21，将肿瘤样品以及正常对照样品测序数据分别比对到参考基因组，定位短读序列在参考基因组上面的位置；

S22，对比对结果文件进行去除PCR重复处理；

S23，识别样品细胞变异；

优选地，还包括对样品测序数据进行过滤，去除低质量以及包含有接头或测序引物序列的reads，以及对比对结果进行碱基质量校正。

在本发明的一些实施方式中，S03中，包括以下步骤：

S31，过滤掉可信度较差的变异；

S32，根据注释结果过滤位于基因间区和内含子的变异以及同义变异；

优选地，所述可信度较差的变异包括变异支持reads数较少、同时出现在正常对照样品中的变异。

在本发明的一些实施方式中，S04中，在过滤后能产生蛋白质序列变化的变异结果中，根据基因组突变信息以及注释信息，构建突变转录本并根据翻译规则进行翻译，得到突变蛋白质序列。。

在本发明的一些实施方式中，S05中，将得到的蛋白序列分割成长度为9～12的Kmer，并过滤人类正常蛋白质组中多肽。

在本发明的一些实施方式中，S06中，利用软件pep-fold将分割后的蛋白质序列输入，根据相应算法，可以得到该多肽的三级结构图以及蛋白质三维结构数据文件。

在本发明的一些实施方式中，S07中，利用Gromacs软件得到结构性指标的结果文件，通过分析，筛选出具有免疫原性的多肽。

在本发明的一些实施方式中，S08中，包括以下步骤：

S81，利用RMSF对多肽进行初步筛选；

S82，再利用SASA进行进一步的筛选；

优选地，筛选SASA的差值在0.2到1nm²之间的多肽。

与现有技术相比，本发明的方案具有如下优势：

本发明基于多肽结构的指标，可以从微观层面对新抗原的性质进行刻画，从而对分子生物学特征筛选新抗原的方法是一个重要补充。

附图说明

图1本发明一种实施方式的基于多肽结构指标预测新抗原的方法的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。若非特别之处，实施例和对比例为组分、组分含量、制备步骤、制备参数相同地平行试验。

实施例1

如图1所示，一种基于多肽结构指标预测新抗原的方法：

S01，获取样品测序数据

具体地，对肿瘤样品以及正常对照样品进行DNA测序，获取样品测序数据，样本测序数据中包括多个重叠或部分重叠的短读序列，重叠程度的不同与测序的深度有关，应该获取肿瘤样品不小于500X深度测序数据以及正常对照200X深度测序数据。

优先地，本发明可以采用全外显子测序或者Panel捕获测序。

S02，识别样品体细胞变异

具体地，首选将肿瘤样品以及正常对照样品测序数据分别比对到参考基因组，定位短读序列在参考基因组上面的位置，具体的，可以采用BWA软件对样品过滤后的数据进行序列比对。

其次，对比对结果文件进行去除PCR重复处理，在制备文库的过程中，由于PCR扩增过程中会存在一些偏差，有的序列会被过量扩增，这些过量扩增的reads并不能作为变异检测的证据，因此要尽量去除这些由PCR扩增所形成的Duplicates。具体的，可以采用软件Picard对比对文件进行去除PCR Duplicates处理。

再次，识别样品细胞变异，体细胞变异是指除性细胞外的体细胞发生的基因突变，体细胞变异可以引起细胞的功能发生改变。具体地，可以采用软件Metcts进行样品体细胞变异识别。

优选地，可选步骤包括对样品测序数据进行过滤，去除低质量以及包含有接头或测序引物序列的reads；以及对比对结果进行碱基质量校正。

S03，样品变异过滤

具体地，首选过滤掉可信度较差的变异，比如变异支持reads数较少、同时出现在正常对照样品中的变异等；然后再根据注释结果过滤位于基因间区和内含子的变异以及同义变异，此类变异不会导致蛋白质序列发生变化。

S04，翻译变异序列为蛋白质

具体地，在过滤后能产生蛋白质序列变化的变异结果中，根据基因组突变信息以及注释信息，构建突变转录本并根据翻译规则进行翻译，得到突变蛋白质序列。

S05，蛋白片段分割，并过滤人类正常蛋白质组中多肽

具体地，首先将上一步得到的蛋白序列分割成长度较小的k-mer。k-mer是值一个字符串包含的所有可能的长度为k的子字符串集，对于一条输入蛋白序列而言，从第一个氨基酸残疾开始，采用步长为1的滑动窗依次提取固定长度k的序列，这些序列就是k-mer。更具体地，利用软件将S04得到的蛋白序列分割成9～12k-mer。

其次并过滤人类正常蛋白质组中多肽，具体地，UniProt是一个综合性的非冗余数据库，包含所有的公开的人类蛋白质序列，去除在UniProt蛋白质中的Kmer片段。

S06，预测蛋白片段结构

一般来讲，抗原先与APC上的MHC蛋白结合，再通过APC细胞将MHC-antigen呈递给T细胞表面的TCR，产生免疫反应。目前通过测序和生物信息学的方法来筛选具有免疫活性的多肽的方法，通常是通过多肽与MHC分子之间的亲和力来预测。目前越来越多的证据表明，多肽结构上的特征独立于多肽\MHC分子之间亲和力影响T细胞的识别。而蛋白质的空间折叠形式式其形式生物学活性和功能的基本单位，并且能够提供蛋白质有关功能和结合特性等方面的信息。通过算法可以准确预测多肽结构。具体地，利用软件pep-fold将分割后的蛋白质序列输入，根据相应算法，可以得到该多肽的三级结构图以及pdb文件(蛋白质三维结构数据文件)。

S07，计算相应多肽结构性指标

具体地，计算多肽相关的结构性指标，将得到的多肽的pdb文件导入Gromacs软件中，输入希望得到的相关结构性指标的命令，最终能够得到相对应得结构性指标的结果文件，通过分析，可以筛选出具有免疫原性的多肽。

S08，筛选新抗原

通常，肿瘤细胞所表达的突变蛋白不能够被正常细胞表达，这些突变蛋白在细胞内被蛋白酶加工成短肽，之后再与人类白细胞抗原结合，呈递至细胞表面上并作为外来抗原被T细胞识别。通过多肽的结构性指标可以筛选出具有免疫原性的多肽。

首先，利用RMSF对多肽进行初步筛选。根据研究结果表明，通常具有免疫活性的突变型多肽链其C端的RMSF值均小于

将通过上述方法得到的RMSF值进行排序，按照RMSF从小到大排列。一般而言，C端RMSF值越大，意味着多肽C端越不稳定，与MHC蛋白结合的效率也就越低。为此，RMSF可以初步筛选得出具有可能具有免疫原性的多肽。

其次，再利用SASA进行进一步的筛选。研究表明，通常具有免疫原性的多肽具有比非免疫原性肽更大的SASA值。同时，往往具有免疫原性的突变型多肽相比其对应的野生型多肽而言，SASA值有所增加。通常，SASA的差值大于0.2nm²，小于1nm²时，SASA的差值与多肽的免疫原性呈现正相关，即SASA差值越大，突变型多肽的免疫原性越强。为此，分别计算野生型和突变型多肽的SASA，用突变型多肽的SASA值减去对应的野生型多肽SASA值，再利用所得到的差值进行排序，选择差值在0.2到1nm²之间的多肽，差值越大说明对应的突变型多肽具有较强的免疫原性的可能性越大。

所用软件具体提供参数如下：

使用BWAMEM对测序数据进行比对，其示例命令为：

其中-R代表比对结果头文件，-t代表运行线程数，-M代表所用索引文件，reference.fa代表参考基因组fasta文件，in.1.fq与in.2.fq代表测序数据。

使用Picard MarkDuplicates去除比对数据中的PCR重复，其示例命令为：

|6.java-jar picard.jar MarkDuplicates I＝in.bam O＝out.bam M＝picard1.txt

其中I代表输入比对文件，O代表输出比对文件，M代表输出结果统计文件。使用GATK BaseRecalibrator进行碱基质量校正，其示例命令为：

其中-R代表参考基因组文件，-I代表输入BAM文件，-O代表输出统计结果文件，--known-sites代表已知突变文件。

使用Mutect2进行变异识别，其示例命令为：

其中-R代表参考基因组fasta文件，-I代表输入比对文件，-tumor/-normal代表比对文件中，肿瘤/正常样本的名称，-O代表输出的突变文件。

使用GATK FilterMutectCalls对变异结果进行初步过滤，其示例命令为：

其中-V代表输入的突变文件，-O代表输出的带有FILTER标签的突变文件。使用VEP对突变进行注释，其示例命令为：

|15.perl vep.pl-i in.vcf-o out.txt--assembly assembly--fork 10

其中-i代表输入突变文件，-o代表输出结果文件，--assembly代表参考基因组版本，--fork代表线程数

使用Gromacs软件获得拓扑文件，拓扑文件包含了所有力场参数(基于所选择的力场)，计算多肽结构性指标，其示例命令为：

|16.gmx pdb2gmx-f model1.pdb-water tip3p

其中-f指定需要进行处理的蛋白质结构文件，-water指定水模型，本发明使用TIP3P水模型。该步骤会生成结构文件gro，拓扑文件top，位置限制文件itp。使用editconf命令来创建周期性的模拟盒子，其示例命令为：

|17.gmx editconf-f conf.gro–bt dodecahedron–d 1.0–o box.gro

其中-f表示输入蛋白结构，-bt创建了一个菱形十二面体盒子,因为这种盒子是接近球形,计算效率最高，-d设定分子到盒子边缘的最小距离,以nm为单位,它决定了盒子的尺寸.理论上在绝大多数系统中,-d都不能小于0.9nm，-o：输出带模拟盒子信息的结构文件。

使用gmx solvate可以向给定尺寸/类型的周期性盒子中填充恰当数目的溶剂分子并进行能量最小化，其示例命令为：

其中-cp指定需要填充水分子的体系,带模拟蛋白盒子，-cs指定使用SPC水模型进行填充，spc216是GROMACS统一的三位点水分子结构，-p修改体系的拓扑文件,加入相应水分子的物理参数，-o指定填充水分子后的输出文件。

gmx grompp(gromacs预处理器)读取分子拓扑文件，检查文件的有效性，将拓扑从分子描述扩展为原子描述。-f表示输入MD参数文件，-p表示输入拓扑文件，-c表示输入结构文件，-r表示输入结构文件，-o指定tpr文件。

gmx genion命令会将一些水分子替换为离子，-s表示输入tpr文件，-o表示输入结构文件，-p表示输入拓扑文件，-pname表示阳离子名称，-np表示阳离子个数，-nname表示阴离子名称，-nn表示阴离子个数。

如果立即启动分子动力学，水中增加的氢和断裂的氢键网络将导致相当大的力和结构变形。为了消除这些力，有必要首先运行一个简短的能量最小化。Gromacs使用一个单独的预处理程序grompp将参数、拓扑和坐标收集到一个单独的运行输入文件(em.tpr)中，然后从该文件开始模拟。gmx mdrun是GROMACS中主要的计算化学引擎，可用于计算能量最小化，-deffnm为所有文件选项设置默认文件名。

为了避免不必要的蛋白质扭曲时，分子动力学模拟开始前首先执行平衡运行，所有的重蛋白质原子被约束到他们的起始位置(使用的文件posre.itp之前生成)，平衡蛋白质周围水分子，其示例命令为：

完成了两个阶段的平衡后,体系已经在需要的温度和压力下平衡好了,我们现在可以放开位置限制并运行成品MD收集数据了，其示例命令为：

|26.gmx grompp-f run.mdp-p topol.top-c pr.gro-r pr.gro-o run.tpr

|27.gmx mdrun-v-deffnm run

上述步骤所使用的mdp文件为注释文件，其中包含了在模拟过程中各个项目的注释内容。例如，指定积分算法，积分步长，电荷计算方式，指定体系温度，压强等信息。每一个mdp文件根据每一步骤的作用进行相应的调整。

相关资料表明，多肽的C端稳定性与多肽是否能引起免疫反应有关。RMSF是指原子位置的根均方涨落，可用于评价多肽C端稳定性。利用gmx rmsf计算多肽相关结构性指标C端的RMSF值其示例命令为：

其中-s表示输入tpr文件，-f表示轨道文件，-o表示输出xvgr/xmgr文件，-oq表示蛋白质数据库文件。

SASA是指溶剂可及性表面积，该指标是影响蛋白质折叠的重要因素，一般来讲，具有免疫原性的多肽的SASA要大于非免疫原性肽。利用gmx sasa可以计算多肽分子的SASA。-s表示输入结构文件tpr，-f表示输入轨迹或单一配置文件，-o表示将SASA定义为时间函数输入xvg文件，-odg表示估计溶剂自由能随时间的变化情况，-or计算每个残基的平均面积，-oa计算每个原子的平均面积。

以上对本发明优选的具体实施方式和实施例作了详细说明，但是本发明并不限于上述实施方式和实施例，在本领域技术人员所具备的知识范围内，还可以在不脱离本发明构思的前提下作出各种变化。

Claims

1.基于多肽结构性指标预测新抗原的方法，其特征在于，包括以下步骤：

S01，获取样品测序数据；

S02，识别样品体细胞变异；

S03，样品变异过滤；

S04，翻译变异序列为蛋白质；

S05，蛋白片段分割，并过滤人类正常蛋白质组中多肽；

S06，预测蛋白片段结构；

S07，计算相应多肽结构性指标；

S08，筛选新抗原。

2.根据权利要求1所述的方法，其特征在于，S01中，对肿瘤样品以及正常对照样品进行DNA测序，获取样品测序数据，样本测序数据中包括多个重叠或部分重叠的短读序列。

3.根据权利要求1或2所述的方法，其特征在于，S01中，获取肿瘤样品不小于500X深度测序数据以及正常对照200X深度测序数据；

和/或，S01中，采用全外显子测序或者Panel捕获测序。

4.根据权利要求1-3任一所述的方法，其特征在于，S02中，包括以下步骤：

S22，对比对结果文件进行去除PCR重复处理；

S23，识别样品细胞变异；

5.根据权利要求1-4任一所述的方法，其特征在于，S03中，包括以下步骤：

S31，过滤掉可信度较差的变异；

6.根据权利要求1-5任一所述的方法，其特征在于，S04中，在过滤后能产生蛋白质序列变化的变异结果中，根据基因组突变信息以及注释信息，构建突变转录本并根据翻译规则进行翻译，得到突变蛋白质序列。

7.根据权利要求1-6任一所述的方法，其特征在于，其特征在于，S05中，将得到的蛋白序列分割成长度为9～12的Kmer，并过滤人类正常蛋白质组中多肽。

8.根据权利要求1-7任一所述的方法，其特征在于，S06中，利用软件pep-fold将分割后的蛋白质序列输入，根据相应算法，可以得到该多肽的三级结构图以及蛋白质三维结构数据文件。

9.根据权利要求1-8任一所述的方法，其特征在于，S07中，利用Gromacs软件得到结构性指标的结果文件，通过分析，筛选出具有免疫原性的多肽。

10.根据权利要求1-9任一所述的方法，其特征在于，S08中，包括以下步骤：

S81，利用RMSF对多肽进行初步筛选；

S82，再利用SASA进行进一步的筛选；

优选地，筛选SASA的差值在0.2到1nm²之间的多肽。