CN114333998A

CN114333998A - 一种基于深度学习模型的肿瘤新抗原预测方法及新生抗原预测系统

Info

Publication number: CN114333998A
Application number: CN202011080399.0A
Authority: CN
Inventors: 李锐; 雷俊卿; 虞韩川枝; 秦汉楠; 苏小平; 李伟迎
Original assignee: Geyuan Zhishan Shanghai Bio Tech Co ltd
Current assignee: Geyuan Zhishan Shanghai Bio Tech Co ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-04-12

Abstract

本发明属于生物医药领域，公开了一种新生抗原预测方法，包括：采集待预测新生抗原的样本，提取样本的基因组DNA和RNA，进行全外显子测序和转录组测序，根据样本的全外显子测序数据进行HLA分型分析，根据转录组测序数据进行RNA表达水平检测；将全外显子测序数据与人类参考基因组进行比对、拼接，分析肿瘤‑正常成对样本的体细胞突变，获得突变肽链序列及其旁侧序列；将HLA分型、突变肽链序列及其旁侧序列、基因表达水平值输入深度学习模型，获得预测的新生抗原。本发明还提供了新生抗原预测系统、相应的装置和应用，本发明能够显著提高新生抗原预测的准确性。

Description

一种基于深度学习模型的肿瘤新抗原预测方法及新生抗原预测系统

技术领域

本发明属于生物医药领域，涉及一种肿瘤新抗原的预测方法，尤其涉及一种基于深度学习网络的肿瘤新抗原预测方法、预测系统、装置及其应用。

背景技术

当今，肿瘤免疫已经跻身最火热的赛道。然而，从临床疗效看，肿瘤免疫道阻且长。以PD-1/PD-L1为例，仅20％-30％的肿瘤患者能够从中受益；而CAR-T则只对血液肿瘤，尤其是B淋巴细胞瘤有效，并且副作用严重。大多数肿瘤患者尚无有效的治疗方案，肿瘤免疫治疗还需要探索更多可能性，个性化肿瘤疫苗便是其中之一。个性化肿瘤疫苗的研发是一项将基因精准检测和肿瘤免疫治疗相结合的整合型技术。与CAR-T疗法围绕现存的少量靶点寻找治疗方案不同，个性化肿瘤疫苗会从肿瘤突变基因中预测出新抗原，并将合成新抗原回输到患者血液中，激发自体免疫系统对肿瘤细胞的攻击，为解决临床中对无法进行手术根治、放化疗均无效且无靶向用药的患者提供了一种新的治疗方式。

个性化肿瘤疫苗的技术方案包括1)采集肿瘤患者的外周血，癌组织样本，2)外周血做全外显子测序，肿瘤组织一式两份，一份做全外显子测序，一份做转录组测序，3)根据测序结果，预测潜在的新生抗原多肽，4)新生抗原多肽合成，5)高效体外系统评测抗原多肽安全性，6)临床患者皮下注射使用。

预测新生抗原是个性化疫苗治疗方案中最为关键的一步，如果无法准确预测新生抗原，后续基于预测结果的治疗效果就会受到影响。肿瘤一般含有几百甚至几千个非同义突变，但是并不是所有突变都能产生新生抗原。我们需要从这些基因突变中筛选出真正的新生抗原，即能够在细胞内被加工剪切与HLA分子结合,并且被递呈到细胞表面诱导免疫反应的突变肽链。

现在被广泛采用的新生抗原预测的技术方案是将肽链与HLA亲和力、RNA表达等参数导入数学模型，给每个肽链进行打分，最终的模型用于预测肽链与HLA的亲和力。

上述利用数学模型给肽链打分的方式具有以下三个局限性：

(1)数据维度少:主要考虑的是肽链的亲和力，没有考虑新生抗原被剪切呈递的过程。IEDB的数据是基于肽链与HLA分子在体外的结合，没有考虑肽链是否真的呈递到人体细胞表面，也没有考虑肽链与HLA分子结合前的加工处理和运输环节。用这种方法预测的肽链只有小于5％是在细胞表面可以被发现的。

(2)准确率低:这种预测方式的准确率在30％-40％左右。

(3)优化空间小:这种方式只能通过调整参数比重或者增加参数来提高准确率，而且提高的空间非常有限。

因而，目前已经报道的肿瘤新生抗原预测方法准确率低，继而导致基于新生抗原的抗肿瘤疫苗的疗效不佳。

发明内容

本发明要解决的技术问题是提供一种新的获得新生抗原的方法，提高新生抗原预测准确率。

本发明要解决的另一个技术问题是提供新的新生抗原预测系统及其应用。

本发明提供了一种新生抗原预测方法，该方法包括以下步骤：

(1)采集待预测新生抗原的样本，所述的样本包括肿瘤样本和源自同一个体的正常样本；

(2)分别提取步骤(1)中获得的肿瘤样本和正常样本的DNA；

(3)对步骤(2)所述的正常样本的DNA进行全外显子测序，并且根据正常样本的外显子测序数据进行人类白细胞抗原(HLA)分型分析；

(4)对步骤(2)所述的肿瘤样本的DNA进行全外显子测序；

(5)将步骤(3)和步骤(4)获得的全外显子测序数据与人类参考基因组GRCh38 版本进行比对拼接，分析肿瘤-正常成对样本的体细胞突变，获得突变肽链序列及其旁侧序列；

(6)提取肿瘤样本的RNA，进行转录组测序，对测序数据进行read counts计数，再进行基因表达水平TPM(Transcripts Per Million)值转换；

(7)将步骤(3)获得的HLA分型、步骤(5)获得的突变肽链序列及其旁侧序列、步骤(6)获得的基因表达水平值输入深度学习模型，获得预测的新生抗原。

(8)通过神经网络训练的模型进行打分获得预测的新生抗原；所述的神经网络是通过反复训练的深度学习神经网络。

较好的，所述的训练包括：

对含有中国人群高频HLA亚型细胞系进行转录组测序获得RNA表达水平，使用蛋白免疫沉淀和质谱获取与该HLA亚型特异性结合的肽链序列及其旁侧序列；

对质谱获得的肽链做阳性标记，未在质谱结果中出现的肽链做阴性标记，作为训练数据、验证数据、测试数据；

先分别计算出肽链呈递到每种HLA分型的可能性，再总和获得呈递可能性，把肽链根据呈递可能性从高到低排列，选出分值靠前的若干条作为潜在抗肿瘤新生抗原。

所述的体细胞突变包括但不限于单核苷酸突变、插入/缺失突变、移码突变。

步骤(1)中的肿瘤样本和正常样本，可以源自癌组织和癌旁组织，经过组织破碎和裂解，获得肿瘤样本和源自同一个体的正常样本，例如肿瘤细胞和正常细胞。肿瘤样本和正常样本也可以从体液、分泌物等离体样本中获取，例如从血液中获得。

较好的，步骤(2)和步骤(4)中所述的DNA是基因组DNA。

较好的，步骤(3)中所述的HLA分型是指将正常样本的外显子测序数据与人类参考基因组的序列进行对比，获得HLA分型结果。

较好的，步骤(5)分析肿瘤样本和正常样本成对样本的体细胞突变，筛选非同义突变，产生突变肽链以及其旁侧序列。

本发明可以使用常规的软件分析样本数据。例如，使用Mutect2软件分析肿瘤样本和正常样本成对样本的体细胞突变。使用FastQ软件对测序数据进行质量控制处理。使用BWA软件将测序数据与人类参考基因组进行比对拼接。用xHLA软件对外周血样本外显子测序数据进行HLA分型分析。通过featureCounts软件对测序数据进行read counts 计数。

所述的参考基因组包括但不限于人类参考基因组GRCh38版本。

较好的，分析肿瘤样本和正常样本成对样本的体细胞突变之前，先对测序数据进行质量控制处理。

较好的，所述的肽链序列是样本进行蛋白免疫沉淀和质谱联用，获得与特定HLA分子结合的肽链序列。

较好的，所述的旁侧序列的获得方法为：在肽链序列中选取8-11个氨基酸长度的肽链，并将氨基酸长度小于11的肽链填充到11个，截取其左右各5个氨基酸作为旁侧序列。

较好的，在获得肽链序列过程中，从质谱肽链数据中排除RNA表达水平小于等于0的肽链。

在计算TPM时，可以使用以下公式将转录本测序读数(read count)转换为TPM：

RPK＝read_count/transcript_length*1000 (I)

TPM＝RPK/sum(all_RPK)*1000000 (II)

在构建神经网络时，可以使用训练数据对神经网络进一步完善，提高其准确度。

较好的，所述的训练数据的获得方法为：

对人源样本进行HLA分型分析，通过转录组测序获得RNA表达水平，通过蛋白免疫沉淀和质谱联用分析获得人源样本的肽链序列和旁侧序列；

将所述的HLA分型、突变肽链序列、旁侧序列和转录组测序获得的RNA表达水平，与从公共数据库中采集的质谱数据输入神经网络；

对质谱获得的肽链做阳性标记，把在蛋白质公共数据库里的参考蛋白组中未在质谱数据中出现的肽链做阴性标记，并将数据分为训练数据和验证数据。

所述的人源样本是离体的样本，包括人体的正常组织或者病变组织样本，例如毛发、赘生物碎片、血液、尿液、脂肪、皮肤、指甲、脏器、粘膜，等等。本发明的一个实施例中，使用了中国人群高频HLA亚型细胞系，该细胞在中国人细胞系基础上使用特定的、中国人群占比较高的HLA亚型代替原有HLA。

较好的，所述的深度学习模型构建方法为：利用上述训练数据构导入构建的神经网络，采用深度学习的算法训练模型。

较好的，所述的计算肽链递呈到每种HLA分型的可能性按照如下模型获得：

P(peptide i presented by HLA k)＝sigmoid{NN_k(peptide _i)+NN_flanking(flanking_i) +NN_RNA(log(TPM_i))} (III)

其中，peptide_i：独热编码的肽链i的氨基酸序列；

NN_k：具有线性最后一层激活的神经网络，模拟肽链序列对呈递概率的贡献；

flanking_i：独热编码的肽链i的旁侧序列的氨基酸序列；

NN_flanking：具有线性最后一层激活的神经网络，模拟旁侧序列对呈递概率的贡献；

TPM_i：肽链i来源mRNA的TPM表达值；

NN_RNA：具有线性最后一层激活的神经网络，模拟RNA表达值对呈递概率的贡献。

所述的综合肽链递呈到每种HLA分型的可能性按照如下模型获得：

aⁱ _k：等于1如果肽链i所在的样品中存在HLA k，反之则等于0。

较好的，具体的模型架构是先分别计算出肽链呈递到每种HLA分型的可能性，把肽链根据呈递可能性从高到低排列，选出分值靠前的若干条作为潜在抗肿瘤新生抗原，可以是5条、10条、15条、30条，等。例如，在本发明的一个优选实施例中，选择20条作为新生抗原。

较好的，所述的计算肽链呈递到每种HLA分型的可能性包括以下步骤：

根据RNA表达水平和旁侧序列构建共享神经网络；

根据肽链序列构建各个HLA神经网络；

比对共享神经网络和各个HLA神经网络，获得各个HLA呈递的可能性。

较好的，所述的神经网络是深度学习的神经网络或者卷积神经网络。例如，所述的神经网络是Keras神经网络。

较好的，所述的训练数据包括包括源自公开文献的数据和源自临床样本的数据。

另一方面，本发明提供了一种新生抗原预测装置，所述的装置包括全外显子测序数据的单元、转录组测序数据的单元、神经网络单元、新生抗原递呈可能性计算单元；训练并获得优化的新生抗原预测模块。

所述的全外显子测序数据的单元与神经网络单元连接，接收并存储离体生物样本的全外显子测序数据，将肽链序列、旁侧序列数据呈递给神经网络单元；

所述的转录组测序数据的单元与神经网络单元连接，接收并存储离体生物样本的转录组测序数据，呈递给神经网络单元；

神经网络单元与全外显子测序数据的单元、转录组测序数据的单元、新生抗原递呈可能性计算单元分别连接，将旁侧序列和转录组测序数据呈递给共享神经网络，根据与肽链序列结合的HLA构建HLA分型神经网络；

新生抗原递呈可能性计算单元与神经网络单元连接，比对共享神经网络和HLA分型神经网络的数据，分别计算出肽链递呈到每种HLA分型的可能性，再综合计算肽链总的呈递的可能。

其中，所述的计算肽链递呈到每种HLA分型的可能性按照如下模型获得：

P(peptide i presented by HLA k)＝sigmoid{NN_k(peptide_i)+NN_flanking(flanking_i) +NN_RNA(log(TPM_i))} (III)

其中，peptide_i：独热编码的肽链i的氨基酸序列；

flanking_i：独热编码的肽链i的旁侧序列的氨基酸序列；

TPM_i：肽链i来源mRNA的TPM表达值；

本发明还提供了一种新生抗原预测系统，包括样本收集装置、转录组测序数据分析模块、全外显子测序数据分析模块(包括体细胞非同义突变分析、突变肽链和旁侧序列获取、HLA分型分析单元)、新生抗原预测模块。

样本收集装置与转录组测序数据分析模块和全外显子测序数据分析模块连接，将样本细胞运输到转录组测序数据分析模块和/或全外显子测序数据分析模块中，分别检测并获得样本的转录组测序数据和/或全外显子测序数据；

体细胞非同义突变分析单元与全外显子测序数据分析模块连接，接收并比对肿瘤样本和源自同一个体的正常样本的全外显子测序数据，计算并存储体细胞非同义突变数据；

体细胞非同义突变分析与HLA分型分析单元连接，将正常样本的全外显子测序数据呈递给HLA分型分析单元，获得正常样本的HLA分型数据；

突变肽链获取单元与体细胞非同义突变分析单元连接，接收体细胞非同义突变分析呈递的体细胞非同义突变数据并筛选获得突变肽链序列；

旁侧序列获取单元与体细胞非同义突变分析单元连接，接收体细胞非同义突变分析单元呈递的体细胞非同义突变数据并筛选获得旁侧序列；

转录组测序数据分析模块包括RNA表达计算单元，将肿瘤样本的转录组测序数据呈递给RNA表达计算单元，获得RNA表达水平数据；

新生抗原预测模块与转录组测序数据分析模块、突变肽链序列获取单元、旁侧序列获取单元、HLA分型分析单元连接，接收RNA表达水平数据、肽链序列、旁侧序列、HLA 分型数据并计算获得新生抗原递呈的可能性。

较好的，所述的体细胞非同义突变分析单元包括单核苷酸突变子单元、插入突变子单元、缺失突变子单元和移码突变子单元，分别获取相对应的突变数据。

较好的，所述的新生抗原计算装置含有神经网络，包括共享神经网络和各型HLA神经网络；共享神经网络接收转录组测序数据分析模块呈递的RNA表达水平结果，以及旁侧序列模块呈递的旁侧序列结果，并将获得的RNA表达水平结果和旁侧序列结果根据HLA 分型、分别呈递给各型HLA呈递可能性计算模块。

突变肽链获取单元将存储的HLA信息根据HLA分类分别呈递给各类HLA神经网络；

各型HLA呈递可能性计算模块分别接收相应类别的HLA神经网络中的肽链序列和共享神经网络呈递的旁侧序列结果和RNA表达水平结果，计算获得递呈的可能性并呈递给递呈的可能性存储模块。

较好的，所述的突变肽链获取单元和旁侧序列模块与质谱装置连接，接受并存储质谱装置获得的肽链序列和旁侧序列结果。

较好的，所述的蛋白免疫沉淀装置和质谱装置由蛋白免疫沉淀和质谱联用装置代替。

较好的，所述的深度学习的神经网络由卷积神经网络代替。

较好的，所述的样本收集装置包括肿瘤样本收集装置或者正常样本收集装置。

较好的，所述的样本收集装置中盛放样本的容器为一次性用品。每次检测一个样品后更换一次性的盛放容器，以减少反复检测的交叉污染。

较好的，所述的HLA分型装置为流式细胞仪。

较好的，所述的系统还包括训练数据获取部分。训练数据获取部分包括公开数据采集部分和实验数据采集部分。数据采集部分包括但不限于体细胞非同义突变分析、突变肽链和旁侧序列获取、HLA分型分析单元、RNA水平计算单元。

实验数据采集部分包括中国人群高频HLA亚型细胞呈递组件、蛋白免疫沉淀装置、质谱装置、转录组测序数据分析模块、肽链序列筛选单元、旁侧序列限定单元、HLA分型分析单元、RNA表达水平计算单元。蛋白免疫沉淀装置和质谱装置对中国人群高频HLA亚型细胞进行检测，获得中国人群高频HLA亚型细胞的肽链序列信息和旁侧序列信息，并将中国人群高频HLA亚型细胞的肽链序列信息和旁侧序列信息呈递给神经网络。HLA分型分析单元收集中国人高频HLA亚型细胞和人HLA保守序列，比对两者从而获得中国HLA 分型结果。RNA表达水平计算单元接受转录组测序数据、计算并存储中国人高频HLA亚型细胞的RNA表达水平结果；公开数据采集部分存储源自公共资源的人类HLA信息，包括肽链序列获取单元、旁侧序列获取单元、HLA分型分析单元、RNA表达水平计算单元。

神经网络接收公开数据采集部分和实验数据采集部分呈递的肽链序列、旁侧序列、 HLA分型或者RNA表达水平数据。

本发明的系统可以用于肿瘤新生抗原的准确预测，提高癌症治疗性疫苗的有效性。

较好的，预测或者筛选新生抗原，能够从众多可以作为新生抗原的肽段中排出可能性低的肽链，提高准确性。

本发明的新生抗原预测方案有以下三大优势：

(1)多维度模型，训练数据大，数据来源多样化：

从新生抗原的加工、亲和、递呈这三个维度考虑，多维度更全面地预测筛选抗肿瘤新生抗原。AI算法用的训练数据大，且数据来源多样化，除了公开文献中的质谱数据，我们也对临床患者样本进行了HLA I类和HLA II类肽链的质谱数据的采集。不但能准确预测HLA I类和II类新抗原，更能针对中国人群做出准确预测。本发明还构建了56株中国人群占比较高的HLA亚型细胞系，利用蛋白免疫沉淀和质谱联用的方式，获得对应特定HLA分型的质谱数据，能够更准确地预测出特定HLA对应的新抗原。

(2)预测准确率高：

精度高，继而提高了新抗原疫苗的有效性，也降低了疫苗制备的成本。分别采用传统预测方式和本发明的预测系统方式，预测小鼠LLC肺癌细胞和小鼠CT26结直肠癌细胞的新生抗原。与传统预测方式相比，本发明的系统的阳性预测率提升了2倍左右(请提供具体实验步骤和对比结果)。

本发明的AI分析系统筛选的新抗原在癌症患者中有显著疗效。其中一例临床案例，为肺癌晚期，放化疗标准治疗均无效。通过取组织和外周血样本进行高通量测序获得测序数据后，导入本发明的新抗原AI分析系统，从555个非同义突变中筛选出了13个候补新抗原。从2019年2月开始接受治疗，7次多肽疫苗注射后，8月达到部分缓解(PR), 总生存期(OS)已超过14个月。从CD8指标和NK指标检测，可以表明该患者的自身免疫反应被激活。

(3)算法提升空间大、易优化：

算法提升空间大，且优化方式简单。与传统的新抗原预测系统相比，本发明的新抗原预测方案采用深度学习的算法，利用质谱所得的肽链序列、旁侧序列、RNA表达、氨基酸特性和HLA分型等变量训练模型，最终得出的模型用于预测新生抗原。本发明系统的优势在于，不需要手动调整参数的比重，深度学习将自动调整模型的参数，得出最优化的模型。而且，当加入的质谱数据量逐渐增加，预测的准确率也将逐步增加。本发明的方法和系统预测获得的新生抗原为相关研究和应用提供了准确的数据基础。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为训练数据获取途径示意图。

图2为深度学习神经网络架构图。

图3为新生抗原预测流程图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

本发明提供了一种新生抗原预测系统，包括样本收集装置、转录组测序数据分析模块、全外显子测序数据分析模块(包括体细胞非同义突变分析、突变肽链和旁侧序列获取、HLA分型分析单元)、新生抗原预测装置。

样本收集装置包括肿瘤细胞和正常细胞收集装置，将样本运输到转录组测序数据分析模块和/或全外显子测序数据分析模块中，肿瘤细胞分别进行样本的转录组测序和全外显子测序，正常细胞进行全外显子测序。全外显子测序数据分析模块接收并比对肿瘤细胞和正常细胞的全外显子测序数据，计算并将体细胞非同义突变数据呈递给体细胞非同义突变计算模块。体细胞非同义突变分析包括单核苷酸突变单元、插入突变单元、缺失突变单元和移码突变单元。全外显子测序数据分析模块与HLA分型分析单元连接，后者将正常细胞的全外显子测序数据与人类参考基因组序列相比较，获得正常样本的HLA分型数据。转录组测序装置与转录组测序数据分析模块连接，将肿瘤细胞的转录组测序数据呈递给转录组测序数据分析模块，获得RNA表达水平数据。

蛋白免疫沉淀和质谱联用，获得细胞样本中可以和某一个特定HLA分子结合的肽链序列，选取8-11个氨基酸长度的肽链，并将氨基酸长度小于11的肽链填充到11个，并截取其左右各5个氨基酸作为旁侧序列。肽链序列模块与体细胞非同义突变分析连接，接收体细胞非同义突变分析呈递的体细胞非同义突变数据并筛选获得肽链序列。旁侧序列模块与体细胞非同义突变分析连接，接收体细胞非同义突变分析呈递的体细胞非同义突变数据并筛选获得旁侧序列。新生抗原预测装置与RNA表达单元、肽链序列获取单元、旁侧序列获取单元、HLA分型分析单元连接，接收RNA表达水平数据、肽链序列、旁侧序列、HLA分型数据并计算获得新生抗原递呈的可能性。

该系统还包括训练数据获取部分，训练数据获取部分包括公开数据采集部分和实验数据采集部分。

数据采集部分包括但不限于突变肽链和旁侧序列获取单元、HLA分型分析单元、RNA 表达水平计算单元。

实验数据采集部分包括中国人群高频HLA亚型细胞呈递组件、蛋白免疫沉淀装置、质谱装置、转录组测序数据分析模块、中国人群高频HLA亚型细胞的肽链序列获取单元、旁侧序列获取单元、HLA分型分析单元、RNA表达水平计算单元。蛋白免疫沉淀装置和质谱装置对中国人群高频HLA亚型细胞进行检测，获得中国人群高频HLA亚型细胞的肽链序列信息和旁侧序列信息，并将中国人群高频HLA亚型细胞的肽链序列信息和旁侧序列信息呈递给神经网络。HLA分型模块收集中国人高频HLA亚型细胞和人HLA保守序列，比对两者从而获得中国HLA分型结果。RNA表达水平计算单元接受转录组测序数据、计算并存储中国人高频HLA亚型细胞的RNA表达水平结果；公开数据采集部分存储源自公共资源的人类 HLA信息，包括但不限于突变肽链和旁侧序列获取单元、HLA分型分析单元、RNA表达水平计算单元。神经网络接收公开数据采集部分和实验数据采集部分呈递的肽链序列、旁侧序列、HLA分型或者RNA表达水平数据。

新生抗原预测装置含有神经网络，包括共享神经网络和各型HLA神经网络；共享神经网络接收RNA表达水平计算单元呈递的RNA表达水平结果，以及旁侧序列获取单元呈递的旁侧序列结果，并将获得的RNA表达水平结果和旁侧序列结果根据HLA分型、分别呈递给各型HLA呈递可能性计算模块；肽链序列获取单元将存储的HLA信息根据HLA分类分别呈递给各类HLA神经网络；各型HLA呈递可能性计算单元分别接收相应类别的HLA 神经网络中的肽链序列和共享神经网络呈递的旁侧序列结果和RNA表达水平结果，计算获得递呈的可能性并呈递给递呈的可能性存储模块。肽链序列获取单元和旁侧序列获取单元与质谱装置连接，接受并存储质谱装置获得的肽链序列和旁侧序列结果。

使用时，启动系统，将肿瘤细胞和源自同一个体的正常细胞分别放入样品收集装置，系统按指令启动转录组测序数据分析模块和全外显子测序数据分析模块，获得肽链序列、旁侧序列、HLA分型和RNA水平结果并传输给神经网络，计算肽链递呈的可能性，从而预测效果较好的新生抗原。

实施例2

新生抗原预测系统神经网络的构建主要分为两步：

(1)训练数据获取

我们的训练数据获取途径如图1所示。我们构建了中国人群高频HLA亚型细胞系。首先设计针对HLA-A、HLA-B和HLA-C的特定引物，PCR分别扩增B-LCL细胞(

CRL-2369^TM)中的HLA-A、HLA-B和HLA-C的基因片段，然后将这些基因片段分别亚克隆到逆转录病毒载体中，最后用逆转录病毒感染LCL 721.221细胞系(人源HLA I类缺失细胞系)(

CRL-1855^TM)获得HLA亚型细胞系。采用蛋白免疫沉淀和质谱联用，获得可以和某一个特定HLA分子结合的肽链序列，选取8-11个氨基酸长度的肽链，并将氨基酸长度小于11的肽链填充到11个，并截取其左右各5个氨基酸作为旁侧序列。我们对质谱获得的肽链做阳性标记，把在蛋白质公共数据库(SwissProt)里的参考蛋白组中未在质谱数据中出现的肽链做阴性标记，并将数据以8：1：1的比列分为训练数据、验证数据和测试数据。HLA 亚型样本提取RNA，并进行转录组测序，获得RNA表达水平(TPM)，从质谱肽链数据中排除TPM小于等于0的肽链。我们也从公开文献中挖掘大量上述同类型的质谱数据。

(2)深度学习神经网络构建

深度学习神经网络架构如图2所示。我们利用上述训练数据构导入构建的Keras神经网络，采用深度学习的算法训练模型。具体的模型架构是先分别计算出肽链呈递到每种HLA 分型的可能性(计算公式为上文中的公式III和公式IV)，再总合这些可能性得出肽链总的呈递的可能。把肽链根据呈递可能性从高到低排列，选出前20条作为潜在抗肿瘤新生抗原。

实施例3

新生抗原预测的流程如图3所示。首先，采集患者肿瘤组织和外周血样本，提取DNA，进行全外显子测序，先用FastQ软件对测序数据进行QC(质量控制)处理，然后利用BWA软件将测序数据与参考基因组进行比对拼接，利用Mutect2软件分析肿瘤-血液成对样本的Somatic突变(体细胞突变)，包括SNV(single-nucleotide variant,单核苷酸突变)、InDel(insertion/deletion mutation，插入/缺失突变)、frameshift(移码突变)等，筛选非同义突变，产生突变肽链以及其旁侧序列。用xHLA软件对外周血样本外显子测序数据进行HLA分型分析。提取肿瘤组织RNA，进行转录组测序，获得基因表达水平值(TPM)。将这些信息输入上述深度学习模型进行新生抗原预测。

实施例4

在临床，我们的AI分析系统筛选的新抗原在癌症患者中有显著疗效。其中一例临床案例，为肺癌晚期，放化疗标准治疗均无效。通过取组织和外周血样本进行高通量测序获得测序数据后，导入我们的新抗原AI分析系统，从555个非同义突变中筛选出了13 个候补新抗原。从2019年2月开始接受治疗，7次多肽疫苗注射后，8月达到部分缓解 (PR),总生存期(OS)已超过14个月。

实施例5

本发明收集了文献报道的小鼠LLC肺癌细胞和小鼠CT26结直肠癌细胞的ELISPOT(酶联免疫斑点技术)验证有效的20条新生抗原多肽，用文献中的提供的突变和RNA表达数据，分别采用传统预测方式和本发明的预测系统方式，预测小鼠LLC肺癌细胞和小鼠CT26结直肠癌细胞的新生抗原。传统预测方法预测的前20条肽链中，分别有条9(条肺癌)和10条(结直肠癌)是文献验证有效的新生抗原，阳性预测率(公式V)分别为 45％(肺癌)和50％(结直肠癌)。用本发明的预测系统预测获得的排名前20的肽链中，分别有19条(肺癌)和17条(结直肠癌)是文献验证有效的新生抗原，阳性预测率分别为95％(肺癌)85％(结直肠癌)。与传统预测方式相比，本发明的系统的阳性预测率提升了2倍左右。

表1

Positive predictive value(PPV)＝Number of true positives/(Number oftrue positives+Number of false positives) (V)

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本申请公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种预测新生抗原的方法，其特征在于，该方法包括以下步骤：

采集待预测新生抗原的样本，所述的样本包括肿瘤样本和源自同一个体的正常样本；

分别提取所述的肿瘤样本和正常样本的DNA，进行全外显子测序，并且根据正常样本的DNA的全外显子测序数据进行HLA分型分析；

将所述的肿瘤样本和正常样本的全外显子测序数据与人类参考基因组进行比对拼接，分析肿瘤-正常成对样本的体细胞突变，获得突变肽链序列及其旁侧序列；

提取所述的肿瘤样本的RNA，进行转录组测序，将测序结果转换为TPM值，获得RNA表达水平数据；

将所获得的HLA分型、突变肽链序列及其旁侧序列、TPM值呈递给深度学习的神经网络训练的预测模型进行预测；

所述的深度学习的神经网络包括共享神经网络和各型HLA的神经网络；

对肽链序列根据其结合的HLA分型，构建各型HLA的神经网络，旁侧序列和TPM值呈递给共享神经网络；

比对共享神经网络和各型HLA的神经网络，分别计算出肽链递呈到每种HLA分型的可能性，再综合计算肽链总的呈递的可能，获得预测的新生抗原。

2.如权利要求1所述的方法，其特征在于，所述的训练数据中的肽链序列是对中国人群高频HLA亚型细胞系进行蛋白免疫沉淀和质谱联用，获得与特定HLA分子结合的肽链序列。

3.如权利要求1所述的方法，其特征在于，所述的旁侧序列的获得方法为：

在肽链序列中选取8-11个氨基酸长度的肽链，并将氨基酸长度小于11的肽链填充到11个，截取其左右各5个氨基酸作为旁侧序列。

4.如权利要求1所述的方法，其特征在于，所述的深度学习模型构建方法为：利用训练数据导入构建的神经网络，采用深度学习的算法训练模型。

5.如权利要求4所述的方法，其特征在于，所述的神经网络通过接收训练数据并不断优化，所述的训练数据的获得方法为：

对中国人群高频HLA亚型细胞系进行转录组测序、蛋白免疫沉淀和质谱联用分析；

将所述的HLA分型、突变肽链序列、旁侧序列和转录组测序获得的TPM值、从公共数据库中采集的质谱数据输入神经网络；

对质谱获得的肽链做阳性标记，把在蛋白质公共数据库里的参考蛋白组中未在质谱数据中出现的肽链做阴性标记，并将数据分为训练数据、验证数据和测试数据。

6.如权利要求1-5中任意一项所述的方法，其特征在于，所述的获得TPM值是对测序数据进行read counts计数，再转换TPM值；

所述的TPM值转换方法如下：

RPK＝read_count/transcript_length*1000 (I)；

TPM＝RPK/sum(all_RPK)*1000000 (II)。

7.一种新生抗原预测系统，其特征在于，所述的系统包括样本收集装置、转录组测序数据分析模块、全外显子测序数据分析模块、新生抗原预测装置；

样本收集装置与转录组测序数据分析模块和全外显子测序数据分析模块连接，将样本运输到转录组测序数据分析模块和/或全外显子测序数据分析模块中，分别检测并获得样本的转录组测序数据和/或全外显子测序数据；

全外显子测序数据分析模块包括HLA分型分析单元连接，将正常样本的全外显子测序数据呈递给HLA分型分析单元，获得正常样本的HLA分型数据；

突变肽链序列获取单元与体细胞非同义突变分析单元连接，接收体细胞非同义突变分析单元呈递的体细胞非同义突变数据并筛选获得突变肽链序列；

旁侧序列模块与体细胞非同义突变分析单元连接，接收体细胞非同义突变分析单元呈递的体细胞非同义突变数据并筛选获得旁侧序列；

转录组测序装置包括RNA表达计算单元，将肿瘤样本的转录组测序数据呈递给RNA表达计算单元，获得RNA表达水平数据；

所述的新生抗原预测装置与体细胞非同义突变分析单元、突变肽链和旁侧序列获取单元、HLA分型分析单元连接，接收RNA表达水平数据、肽链序列、旁侧序列、HLA分型数据并计算获得新生抗原递呈的可能性。

8.如权利要求7所述的新生抗原预测系统，其特征在于，所述的新生抗原预测模块含有神经网络，包括共享神经网络和各型HLA神经网络；

共享神经网络接收RNA表达水平计算模块呈递的RNA表达水平结果，以及旁侧序列模块呈递的旁侧序列结果，并将获得的RNA表达水平结果和旁侧序列结果根据HLA分型、分别呈递给各型HLA呈递可能性计算模块；

肽链序列模块将存储的HLA信息根据HLA分类分别呈递给各类HLA神经网络；

9.一种新生抗原预测系统的训练装置，其特征在于，所述的装置包括全外显子测序数据的单元、转录组测序数据的单元、神经网络单元、新生抗原递呈可能性计算单元；

10.权利要求7所述的新生抗原预测系统的应用，其特征在于，所述的系统用于肿瘤新生抗原的预测，提高新生抗原预测的准确性。