CN117690495A

CN117690495A - 一种肿瘤新抗原预测方法、系统、电子设备及存储介质

Info

Publication number: CN117690495A
Application number: CN202311727860.0A
Authority: CN
Inventors: 辛恺; 刘芹; 邵洁; 刘宝瑞
Original assignee: Nanjing Drum Tower Hospital
Current assignee: Nanjing Drum Tower Hospital
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-12

Abstract

本发明公开了一种肿瘤新抗原预测方法、系统、电子设备及存储介质，其方法包括以下步骤：获取肿瘤新抗原训练数据；将肿瘤新抗原训练数据经预处理后，获取全部肿瘤新抗原预测关键特征，得到可信数据，构成可信数据集；采用可信数据集，根据肿瘤新抗原预测关键特征，通过卷积神经网络和全连接神经网络建立深度学习模型，进行模型训练获得预测模型；使用得到的预测模型进行肿瘤新抗原的预测；肿瘤新抗原预测关键特征包括肽段字符串、HLA分型字符串、提呈分数、pMHC亲和力、pMHC结合稳定性五个关键特征。本发明构建的预测模型具有更好的预测效能，适用于个体化肿瘤新抗原的预测模型的构建。

Description

一种肿瘤新抗原预测方法、系统、电子设备及存储介质

技术领域

本发明涉及肿瘤新抗原领域，具体涉及一种肿瘤新抗原预测方法、系统、电子设备及存储介质。

背景技术

肿瘤疫苗是指通过将肿瘤组织中或者人体体液中提取的抗原注射入肿瘤患者体内，激活机体免疫系统，诱发肿瘤细胞的特异性免疫反应，以达到控制和治疗肿瘤的目的。早期的肿瘤治疗性疫苗，其开发策略侧重于针对肿瘤中异常表达或过度表达的自身抗原，称为肿瘤相关抗原(Tumor Associated Antigen,TAA)。这些抗原在产生临床有效的抗肿瘤免疫反应方面作用微弱，可能是由于TAA特异性T细胞受到中枢及外周免疫耐受的影响。

基因突变在恶性肿瘤中很常见，包括单核苷酸变异、移码插入和缺失、异常剪接和其他复杂的结构改变。这些遗传改变通常会导致具有新氨基酸序列的突变蛋白质，被免疫系统识别，从而激活抗肿瘤免疫反应，这些肿瘤细胞表达而正常组织不表达的突变蛋白或多肽，被称为肿瘤特异性抗原(Tumor Specific Antigen,TSA)或肿瘤新抗原(TumorNeoantigen)。

肿瘤新抗原在临床前模型和临床患者中均被证实具有诱导机体特异性免疫反应的能力，它是内源性抗肿瘤免疫反应和肿瘤免疫治疗的重要靶点。不仅如此，增加的肿瘤突变负荷(被认为是新抗原数量的替代物)与更多数量的肿瘤浸润淋巴细胞和生存率提高有关，也与对免疫检查点抑制的反应有关。临床前和临床研究均提示，新抗原是诱发机体有效肿瘤特异性免疫应答的靶标，也是未来肿瘤疫苗取得疗效突破的关键所在。

尽管部分肿瘤新抗原疫苗初步临床试验数据显示出其具有较强的免疫原性和靶向肿瘤细胞杀伤的证据，但相对更大比例的新抗原疫苗没有诱导出特异性T细胞反应，特别是CD8+T细胞的激活和扩增的能力。探究其内在原因，除了疫苗的种类(多肽、mRNA、DNA、病毒)、递送系统、佐剂、注射的频次、联合ICIs治疗的时机以外，最为关键的因素就是肿瘤新抗原的选择。TMB高的肿瘤可能具有相应的高“数量”的肿瘤新抗原，可选择更多的肿瘤新抗原用于制备疫苗，并对ICI有更好的反应。然而，高TMB的发生并不总是与ICI的反应一致。除了肿瘤内在的耐药机制，造成这种差异的其他原因可能直接与新抗原的“质量”有关，即新抗原产生TH1细胞和/或CTL反应的能力。如何准确筛选出高“质量”的新抗原，已经成为了个体化新抗原疫苗治疗的关键技术之一。2016年12月，在美国癌症研究所(CRI)和Parker研究所(PICI)的发起下，30多家癌症研究机构达成一致，共同成立了新抗原筛查联盟(theTumor Epitope SeLection Alliance，TESLA)，可见新抗原筛选在肿瘤疫苗及肿瘤免疫治疗领域分量之重。

新抗原通过各种机制从肿瘤细胞中产生，如基因组突变、异常转录变异体、翻译后修饰和病毒开放阅读框，新抗原可由抗原提呈细胞的主要组织相容性复合体(majorhistocompatibility complex，MHC)递呈。以MHC-I类分子为例，首先，新抗原被以DC细胞为主的抗原提呈细胞吞噬，由蛋白酶体介导的内源蛋白质分解，随后通过与抗原处理相关的转运蛋白(Transporters associated with antigen processing，TAP)运输到内质网(endoplasmic reticulum，ER)，在内质网中它们会被加载到MHC-I上，形成pMHC复合体，表达于细胞表面，被CD8+T细胞的TCR识别，在共刺激分子的协同作用下，激活CD8+T细胞，从而产生特异性抗肿瘤免疫反应。以上步骤中的关键点，就是抗原肽与MHC分子强力稳定结合，形成pMHC复合体并展示于抗原提呈细胞或肿瘤细胞表面。

目前，通过二代测序技术和相关生物信息学工具可以准确获得病人的体细胞突变信息和HLA分型，然而，体细胞突变太多，且并非所有体细胞突变表达的肽段均会产生免疫原性反应，因此，需要计算机预测算法来辅助筛选。新抗原能否被免疫系统识别，即新抗原的免疫原性，其取决于一连串复杂的事件，包括变异表达、肽的加工、转运、与HLA分子的结合及递呈等因素。

传统的预测模型多针对上述新抗原生物学特征的某个方面，举例：(1)NetChop，通过计算机人工神经网络预测蛋白酶体对抗原肽的剪切效率；(2)NetMHC，通过计算机人工神经网络预测肽-MHC I类分子的结合力；(3)NetMHCpan，同时整合了亲和力以及质谱洗脱配体数据进行训练，通过计算机人工神经网络预测肽-MHC I类分子的亲和力和特定pMHC在细胞表面呈现概率，是目前最广泛应用的新抗原预测模型之一；(4)NetCTL，通过计算机人工神经网络预测蛋白酶体对抗原肽的剪切效率(整合了NetChop)、通过位置权重矩阵预测TAP对抗原肽的转运效率，通过计算机人工神经网络预测肽-MHC I类分子的结合力(整合了NetMHC)，最后给出综合评分；(5)MixMHCpred，整合了质谱洗脱配体数据，通过位置权重矩阵进行训练，预测特定pMHC在细胞表面呈现概率；(6)MHCflurry，同时整合了亲和力以及质谱洗脱配体数据进行训练，通过计算机人工神经网络预测肽-MHC I类分子的结合力和特定pMHC在细胞表面呈现概率；(7)NetMHCstabpan，通过计算机人工神经网络预测肽-MHC I类分子结合的稳定性。(8)TSNAD、PVAC-seq等集成预测工具，本质上是整合前期基因突变的生信分析步骤与后期新抗原预测步骤，其预测模块仍然是通过计算机人工神经网络预测肽-MHC I类分子的亲和力。由于传统的预测模型，其输入的特征仅仅针对上述新抗原生物学特征的某个方面，而算法也仅仅采用位置权重矩阵或全连接神经网络，因此，其预测效能有限。以其中最具代表性的传统模型是NetMHCpan BA为例，有研究报道，该模型预测出的新抗原可被提呈到细胞表面的不足5％，而其中能被MHC结合并识别，最终能诱导出机体免疫反应的新抗原还不到1％。

近年来，部分新抗原预测新模型DeepHLApan、IEDB immunogenicity、DeepImmuno-CNN、Seq2Neo-CNN被开发出来，虽然这些模型通常纳入新抗原诱发机体免疫反应的多个关键步骤为数据特征，也采了用高级别的计算机人工神经网络算法，如卷积神经网络、深度学习，但是这些模型训练时选择的新抗原的生物学特征不尽相同，也没有在多种标准测试数据集上对这些新模型进行效能对比，因此无法证明这些新模型和其构建方案的优劣。

综上所述，临床目前迫切需要一种预测效能更好的计算机新抗原预测新模型及其通用构建方案，为后续个体化新抗原疫苗设计服务。

发明内容

本发明的目的是提供一种肿瘤新抗原预测方法、系统、电子设备及存储介质，利用多维度的肿瘤突变抗原特征对其进行综合评分，根据该评分进行排序，从而筛选出肿瘤新抗原，本发明构建出的模型解决了现有新抗原预测模型筛选效能较差的缺点。

为实现上述目的，本发明提供的技术方案是：

一种肿瘤新抗原预测方法，其特征在于，包括以下步骤：

步骤(1)：获取肿瘤新抗原训练数据；

步骤(2)：将肿瘤新抗原训练数据经预处理后，获取全部肿瘤新抗原预测关键特征，得到可信数据，构成可信数据集；

步骤(3)：采用可信数据集，根据肿瘤新抗原预测关键特征，通过卷积神经网络和全连接神经网络建立深度学习模型，进行模型训练获得预测模型；

步骤(4)：使用得到的预测模型进行肿瘤新抗原的预测；

其中，步骤(2)所述的肿瘤新抗原预测关键特征包括肽段字符串、HLA分型字符串、提呈分数、pMHC亲和力、pMHC结合稳定性五个关键特征。

为优化上述技术方案，采取的具体措施/限定还包括：

步骤(1)中，所述的获取肿瘤新抗原训练数据是在公开数据库中输入限定条件，经筛选得到不同表位的T细胞体外实验结果数据。

步骤(2)中，所述的将肿瘤新抗原训练数据经预处理，具体为以下步骤：去除获得的取肿瘤新抗原训练数据中HLA表型不明确的数据，然后剔除重复数据并精筛。

所述的剔除重复数据并精筛包括：

若得到一项或多项实验结论均一致的多条数据行，则保留其中一条数据行，去除其余重复数据；

若得到一项或多项实验结论不一致的多条数据行，则计算抗原定性栏中阴性和阳性的相对比例，不一致率低于1:3则标注为可信数据，并按照抗原定性栏中比例高的结论保留一条数据行；所述的不一致率是指，同一条抗原肽及同样的HLA分型，其体外实验结论相反的比例，实验结论包括阳性和阴性。

步骤(2)中，所述的获取全部肿瘤新抗原预测关键特征，具体为：根据可信数据集中的肽段字符串及对应的HLA分型字符串，计算出该肽段字符串的提呈分数、pMHC亲和力和pMHC结合稳定性。

步骤(3)中，所述的采用可信数据集，根据肿瘤新抗原预测关键特征，通过卷积神经网络和全连接神经网络建立深度学习模型，进行模型训练获得预测模型，具体为：

采用TensorFlow构建模型，读取可信数据集中的数据并存储于数据框，定义一个用于将公开数据库的筛选框中的文本标签转换为二进制目标值的函数；从可信数据集中的数据提取抗原肽及其表位特征，使肽段字符串与HLA分型字符串合并，并使用分词器对其进行标记化，格式化成一定长度的序列文本数据；

通过嵌入层将序列文本数据映射到多维向量空间，通过卷积层和池化层从序列文本数据中提取特征，而后通过压平层将卷积层的输出展平，然后通过全连接层学习特征；另构建一个包含多个神经元的全连接层，以处理数值型数据部分，包括：提呈分数、pMHC亲和力和pMHC结合稳定性；

而后，将序列文本数据和数值型数据的输出对应连接在一起，通过深度模型的输出层，输出一个具有多个神经元的向量；最后通过sigmoid激活函数将其缩减为一个神经元，用于进行二分类预测。

在卷积层和全连接层中，采用Leaky Rectified Linear Unit和Sigmoid激活函数进行激活，引入非线性；在输出层中使用二元交叉熵损失函数作为成本函数，通过Adam优化算法建立优化器，对输出进行优化，采用自适应学习率作为优化器的输入，采用小批量梯度下降算法，设置批次的大小和最大迭代次数，当验证集的损失函数不再上升时，获得最终的预测模型。

本发明还保护一种肿瘤新抗原预测系统，包括：

数据获取模块，用于获取肿瘤新抗原训练数据；

预处理模块，用于将肿瘤新抗原训练数据经预处理后，获取全部肿瘤新抗原预测关键特征，得到可信数据，构成可信数据集；

模型训练模块，用于采用可信数据集，根据肿瘤新抗原预测关键特征，通过卷积神经网络和全连接神经网络建立深度学习模型，进行模型训练获得预测模型。

预测模块，用于使用得到的预测模型进行肿瘤新抗原的预测。

本发明还保护一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如上所述的肿瘤新抗原预测方法。

本发明还保护一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行如上所述的肿瘤新抗原预测方法。

与现有技术相比，本发明的有益效果是：

本发明纳入新抗原重要的生物学特征，构建一种肿瘤新抗原预测新模型：从公开数据库中获得训练数据，剔除重复数据，根据实验方法获取其中的可信数据集，选择肽段字符串、HLA分型字符串、提呈分数、pMHC亲和力、pMHC结合稳定性作为五个关键特征，采用卷积神经网络和全连接神经网络建立深度学习模型，最后进行模型训练，直至验证集预测性能达到最佳后停止训练，获得最终模型，其输出为突变肽的免疫原性综合评分。

为证实其预测优效性，本发明从公开文献中获得测试数据，将该方案获得的最终预测模型与其他现有文献报道的预测模型进行对比；从临床患者中获得本地测试数据，将该方案获得的最终预测模型与其他现有文献报道的预测模型进行对比。本发明通过与多个基准数据集上比较，证实了该方案构建的预测模型具有更好的预测效能，适用于个体化肿瘤新抗原的预测模型的构建。

附图说明

图1：本发明的肿瘤新抗原预测方法的结构示意图。

图2：本发明的肿瘤新抗原预测模型构建方法详细流程图。

图3：预测效能对比结果图。

具体实施方式

以下通过实施例的形式对本发明的上述内容再作进一步的详细说明，但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明上述内容所实现的技术均属于本发明的范围。

在本发明的描述中，还需要说明的是：

本发明中的HLA是指人类白细胞抗原；pMHC是指抗原肽-MHC分子复合物；

定性指的是：对应抗原肽的体外免疫原性实验结论，结论为阳性则该条数据行标注为阳性(Positive)，反之为阴性(Negative)。

不一致率指的是，同一条抗原肽及同样的HLA分型，体外实验结论相反的比例。如pep1-HLA*A24:02，4次体外实验，其中阳性结果有1次，阴性结果有3次，则不一致率为1:3；阳性结果有1次，阴性结果有4次，则不一致率为1:4。不一致率低于1:3则认为是可信数据。

肽-MHC中的肽是指肽段字符串，MHC是指HLA分型字符串。

以下结合具体实施例对本发明做进一步的详细说明：

实施例1肿瘤新抗原训练数据的获取和预处理：

(1)访问公开数据库网站https://www.iedb.org/；

(2)搜索IEDB中所有的抗原表位及T细胞体外实验结论数据集：

(3)进行第一轮筛选，在以下搜索框中输入限定条件：

Epitope Structure:Linear Sequence

Include Positive Assays

Include Negative Assays

No B cell assays

No MHC assays

MHC Restriction Type:Class I

Host:Homo sapiens(human)

经过以上筛选后，获得共34871个表位的89952个T细胞体外实验结果。

(4)进行第二轮筛选，在以下搜索框中进一步限定条件：

Epitope Structure:Linear Sequence选项里，设定Peptide Minimum Length:8；Peptide Maximum Length:11；

T Cell Assays选项里，依次点击Biological activity-Cytokine Release-IFNg，选择ELISA、ELISPOT、ICS；依次点击Biological activity-Cytotoxicity，选择51chromium；依次点击binding-qualitative bind，选择multimer/tetramer；

Disease选项里：选择Cancer。

经过以上筛选后，获得共4703个表位的6933个T细胞体外实验结果。

(5)进行第三轮筛选：

首先，去除列-MHC中，HLA表型不明确的数据行(如仅标注HLA class I)；然后，选择列-Epitope和列-MHC相同的，且列-Assay Method/Technique中无ELISPOT且无multimer/tetramer的表位重复数据行，进行如下精筛：

(a)在列-Assay Method/Technique中，若ELISA、ICS、51chromium其中的一项或多项实验结论均一致(列Assay-Qualitative Measure均为Positive或Negative)，则保留其中一条数据行，去除其余重复数据；

(b)在列-Assay Method/Technique中，若ELISA、ICS、51chromium其中的一项或多项实验结论不一致，则计算列-Assay-Qualitative Measure里Positive和Negative的相对比例，不一致率低于1:3则标注为可信数据，按照列-Assay-Qualitative Measure中比例高的结论保留一条数据行。

(6)进行第四轮筛选：选择列-Epitope和列-MHC相同的，且列-Assay Method/Technique中存在ELISPOT或multimer/tetramer的表位重复数据行，去除剩余的ELISA、ICS、51chromium数据行，并进行如下精筛：

(a)在列-Assay Method/Technique中，若ELISPOT或multimer/tetramer其中的一项或多项实验结论均一致(列Assay-Qualitative Measure均为Positive或Negative)，则保留其中一条数据行，去除其余重复数据；

(b)在列-Assay Method/Technique中，若ELISPOT或multimer/tetramer其中的一项或多项实验结论不一致，则计算列-Assay-Qualitative Measure里Positive和Negative的相对比例，不一致率低于1:3则标注为可信数据，按照列-Assay-Qualitative Measure中比例高的结论保留一条数据行。

经过以上筛选后，获得共4273条数据行。

(7)根据上述数据集中的列-Epitope和列-MHC中的数据，计算出以下参数：

(a)结合亲和力Binding Affinity：进入网站

https://services.healthtech.dtu.dk/services/NetMHCpan-4.1/，输入肽序列和HLA分型，在additional configuration中点击：include BA predictions，点击submit按钮，获得Aff(nM)数值；

(b)结合稳定性Binding Stability：进入网站

https://services.healthtech.dtu.dk/services/NetMHCstabpan-1.0/，输入肽序列和HLA分型，点击submit，获得Thalf(h)数值；

(c)提呈分数Probability of Presentation：在Github中下载MixMHCpred(version 2.2)软件，本地解压至Download文件夹，用记事本打开解压目录下test/test.fa文件，输入肽序列，保存文件；在mac终端中进入路径MixMHCpred-master，输入以下命令./MixMHCpred-itest/test.fa-o test/out.txt-a HLA(exp.A1101,B3901,B4001,C0304,C0702),在out.txt文件夹中获得MixMHCpred Score数值；

(8)最终获得的共4273条表位数据行，对应加入上述参数列，并保留列-Assay-Qualitative Measure，作为标签，删除其余列，生成Train.csv文件，作为可信数据集。

实施例2预测集的获取和预处理：

通过大量文献搜索，从两篇文献的附件中找到独立数据集，分别包括599个经过体外T细胞功能验证证实的免疫原性/非免疫原性肽肿瘤患者数据合集(Tesla数据集)，246个经过体外T细胞功能验证证实的免疫原性/非免疫原性肽肿瘤患者数据合集(Rosenberg数据集)，采用步骤1第(7)步中相同的步骤，获得对应的参数值，经过整理，构建出2个独立的第三方数据测试集，作为后续模型预测效能评估，分别命名为tesla.csv及rosen.csv。

实施例3获取肿瘤新抗原预测模型

采用TensorFlow构建模型，首先从CSV文件(可信数据集)中读取训练集的训练数据，并将其存储在Pandas数据框，定义一个函数target_fn，用于将'Assay'列的文本标签转换为二进制目标值(0或1)；从训练数据中提取特征和目标，并将'Epitope'和'MHC'列的文本合并为大写形式；使用Tokenizer分词器对文本数据进行标记化，并进行Padding，确保所有序列的长度为25；通过嵌入层将文本数据映射到32维的向量空间，通过两个卷积层和池化层从文本数据中提取特征，而后通过Flatten层将卷积层的输出展平，然后通过几个全连接层学习特征；另外，构建一个包含128个神经元的全连接层，以处理数值型数据(MixMHCpred Score、Aff(nM)、Thalf(h))的部分；而后，将文本数据和数值数据的输出连接在一起，通过深度模型的输出层，输出一个具有128个神经元的向量；最后通过一个sigmoid激活函数将其缩减为1个神经元，用于进行二分类预测。

其中，将可信数据集中的样本数据按照预设的比例随机分成训练集和验证集，训练集用于对模型实施训练，验证集用于对训练集拟合的模型进行评估、调整和优化。

其中，采用TensorFlow框架构建模型，具体如下：

(1)导入必要的库：导入TensorFlow库、Pandas库和NumPy库。

(2)读取训练数据：从文件路径中读取CSV文件，存储为Pandas数据框。

(3)定义目标函数：定义一个函数，用于将'Assay'列中的文本标签转换为二进制目标值(0或1)。

(4)处理文本数据：从训练数据中提取特征和标签，准备好特征和标签，以及将文本数据转换为模型可以处理的形式。

(5)再次导入必要的库：导入了TensorFlow中与文本处理和深度学习模型相关的一些模块和类。

(6)处理文本数据的Tokenization和Padding：创建一个Tokenizer对象，使用训练文本数据来适应Tokenizer，这将构建字符到整数索引的映射，并构建词汇表；创建一个字典，将字符映射到整数索引，这个字典的目的是为了处理Tokenizer无法覆盖的字符；将刚刚创建的字符字典更新到Tokenizer的词汇表中，确保未知字符'UNK'有一个唯一的整数索引；使用Tokenizer将文本数据转换为整数序列，每个字符都被映射到相应的整数索引；使用pad_sequences函数将序列进行Padding，确保所有序列的长度为25；这对于深度学习模型的输入数据长度要求是必要的；Padding将在序列的前面添加零，使其达到指定的长度；最后输出了处理后的第一个序列，以供检查。

(7)定义文本数据的Embedding层：将输入的整数序列映射到一个32维的密集向量空间，以便后续的卷积和全连接层能够更好地学习序列中的特征。

(8)定义文本数据的卷积层和池化层：这里定义了两个卷积层和池化层，用于从文本数据中提取特征，包括：

a.第一个卷积层：这是一个包含16个卷积核，每个卷积核的大小为3的一维卷积层。激活函数为ReLU，它将负值置为零，保留正值；

b.批量归一化层：用于加速深度网络的训练。它标准化每个输入特征，并将其缩放和平移，以保持稳定性和避免梯度消失；

c.最大池化层，用于降低特征图的空间维度。在这里，使用了大小为3的池化窗口，它将每3个相邻的值中最大的值保留下来；

d.第二个卷积层：类似于第一个卷积层，但这次使用了32个卷积核，以便提取更高级别的特征；

e.再次批量归一化；

f.再次应用一维最大池化；最终，定义这一系列卷积层和池化层的组合有助于模型学习输入数据中的空间和时间相关性，提取重要的特征；卷积层通过在输入数据上滑动卷积核并应用激活函数，可以学习局部特征；池化层则通过减小特征图的大小，保留最显著的特征，减小计算复杂度，同时提高模型的感受野。

(9)定义文本数据的Flatten和全连接层：定义了Flatten层将卷积层的输出展平，然后定义了几个全连接层学习特征，包括：

a.Flatten层：将输入展平为一维张量；在卷积和池化层之后，常常需要将数据展平以便连接到全连接层；

b.第一个全连接层：包含256个神经元，激活函数为ReLU；全连接层用于学习高级别的特征表示；

c.Dropout操作：在训练期间，以20％的概率随机丢弃输入单元，有助于防止过拟合；在测试时，Dropout不会执行，因此模型在测试时使用所有的神经元；

d.第二个全连接层：包含128个神经元，激活函数为ReLU；

e.再次Dropout操作；

f.第三个全连接层：最后一个全连接层，包含64个神经元，激活函数为ReLU；

g.最后一次Dropout操作；

h.将模型定义为函数：将定义好的输入层和经过全连接层、Dropout操作的输出层组合成一个Keras模型；这一系列操作构建了一个包含多个全连接层和Dropout操作的深度模型；全连接层用于学习更高级别的抽象特征表示，而Dropout操作有助于防止过拟合，提高模型的泛化能力；整个模型的输出是一个64维的特征向量。

(10)另一个输入的处理，包括：

a.定义第二个输入层：输入的数据是一个长度为3的一维向量；

b.全连接层：定义了一个全连接层，包含128个神经元，激活函数为ReLU；这一层用于学习数值特征的抽象表示；

c.应用Dropout操作，以防止过拟合；

将第二个输入的处理过程定义为一个Keras模型；这个模型接受一个长度为3的输入向量，通过一个全连接层和Dropout操作，输出一个128维的特征向量。

全连接层的连接及最终的输出，包括：

a.使用concatenate函数将两个模型的输出连接在一起；分别是文本数据模型和数值特征模型的输出；

b.全连接层1：定义一个包含128个神经元的全连接层，激活函数为ReLU；这一层用于学习两个模型输出的融合表示；

c.全连接层2：定义一个包含一个神经元的全连接层，激活函数为Sigmoid；这是输出层，用于二分类问题，输出一个介于0和1之间的概率值；这一步最终定义了一个包含两个输入(文本数据和数值特征)和一个输出的模型；complex_model成为整个联合模型，它接收文本数据和数值特征作为输入，输出一个二分类的概率值；这一步的结果是，文本数据模型和数值特征模型的信息被整合在一起，形成一个联合的深度学习模型；在训练过程中，模型将同时学习文本信息和数值特征之间的关系，以便更好地进行预测。

编译和训练模型：包括设置优化器、损失函数、指标以及进行模型的训练，包括：

a.使用了Adam优化器，二元交叉熵作为损失函数，准确率作为评估指标；

b.定义早停回调：在训练过程中监控验证集损失，如果性能不再改善并持续一定的训练轮次，则提前停止训练；

c.训练模型：输入是文本数据和数值特征，输出是目标标签；每个小批次的样本数为64。指定训练的轮次为50；设置回调函数，这里使用了提前停止回调；将20％的训练数据用于验证；设置训练过程的详细程度，这里设置为根据数据量自动选择；这一步完成后，模型将根据训练数据进行学习，通过反向传播算法不断调整权重，最终得到一个在验证数据上表现良好的模型；提前停止回调可以避免过拟合，确保在性能不再改善时及时终止训练。该模型构建方法详细流程图如图2所示。

实施例4NUCC预测模型在第三方数据集上排序优效性验证

分别选取了两个独立的第三方抗原肽数据集：TESLA数据集和Rosenberg数据集，以证实本发明构建的NUCC模型较部分新预测模型(DeepHLApan、IEDB immunogenicity、DeepImmuno-CNN、Seq2Neo-CNN)和部分传统预测模型(NetMHCpan BA、NetMHCstablepan、MixMHCpred)的排序优效性，具体如下：

TESLA数据集：肿瘤新生抗原筛查联盟(Tumor Epitope SeLection Alliance，TESLA)在研究中纳入了6个受试者样本(3个转移性黑色素瘤患者和3个非小细胞肺癌患者)，向联盟中每个团队提供肿瘤的外显子组测序(WES)，RNA-seq测序和临床HLA分型数据，各个团队利用该数据分别预测新生抗原表位，并对新生抗原表位与相关MHC I类分子的结合及引发免疫反应能力排序，最后对其中排名较高的608个多肽通过基于pMHC多聚体的检测方法检测免疫原性，结果显示只有37个(6％)具有免疫原性。从文献中获取了这608条多肽的信息，经过筛选去除重复数据，留存了599条多肽信息，将其命名为TESLA数据集。该数据集中一共含有6例患者，599条突变肽，37条(6％)为新抗原肽。将TESLA数据集按照导入NUCC预测模型。而后，按模型生成的预测分数进行排序，获得排名前20、排名前50条肽中新抗原肽的数量，分别定义为TOP20和TOP50。搜集现阶段其他文献中已发表的同类预测新模型(DeepHLApan、IEDB immunogenicity、DeepImmuno-CNN、Seq2Neo-CNN)，同样采用TESLA数据集，计算出每一个模型的TOP20和TOP50，与其进行排序效能对比，NUCC预测的TOP20和TOP50均高于其他预测模型(图3中a)。

Rosenberg数据集：由Rosenberg团队文献的附加材料中提供，该数据集中一共含有5例患者，246条突变肽，11条(4％)为新抗原肽，将其命名为Rosenberg数据集；将Rosenberg数据集导入NUCC预测模型，而后，按模型生成的预测分数进行排序，获得排名前5、排名前10、排名前20条肽中新抗原肽的数量，分别定义为TOP5、TOP10、TOP20。采用目前传统预测模型代表NetMHCpan、NetMHCstablepan、MixMHCpred，分别计算出TOP5、TOP10、TOP20，与其进行排序效能对比，NUCC预测的TOP5不低于其他传统预测模型，TOP10、TOP20均高于其他传统模型(图3中b)。

后续在临床使用时，首先，收集患者的肿瘤组织和外周血，对其进行高通量测序和HLA分型，再根据以上数据得获得患者的体细胞突变，获得包含突变氨基酸在内的8-11aa的突变短肽，然后将对应的突变短肽合集，根据实施例1中的步骤(7)计算出对应参数特征，保存为标准的csv格式，导入上述NUCC模型，对突变肽合集中的每一条短肽进行免疫原性评分，根据评分由高到低筛选出可能的新抗原，而后进行进一步的实验验证，从而达到更加准确地临床个体化肿瘤新抗原预测和筛选的目的，为后续个体化新抗原疫苗的设计服务。

在另一实施例中，本发明提出了一种肿瘤新抗原预测系统，包括：

数据获取模块，用于获取肿瘤新抗原训练数据；

模型训练模块，用于根据肿瘤新抗原预测关键特征，采用卷积神经网络和全连接神经网络建立深度学习模型，通过模型训练，获得预测模型。

在另一实施例中，本发明提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如上所述的肿瘤新抗原预测方法。

在另一实施例中，本发明提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行如上所述的肿瘤新抗原预测方法。

在本申请所公开的实施例中，计算机存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。计算机存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本领域普通技术人员可以意识到，结合本申请所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，依据本发明的技术实质，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种肿瘤新抗原预测方法，其特征在于，包括以下步骤：

步骤(1)：获取肿瘤新抗原训练数据；

步骤(4)：使用得到的预测模型进行肿瘤新抗原的预测；

2.根据权利要求1所述的肿瘤新抗原预测方法，其特征在于：步骤(1)中，所述的获取肿瘤新抗原训练数据是在公开数据库中输入限定条件，经筛选得到不同表位的T细胞体外实验结果数据。

3.根据权利要求1所述的肿瘤新抗原预测方法，其特征在于：步骤(2)中，所述的将肿瘤新抗原训练数据经预处理，具体为以下步骤：去除获得的取肿瘤新抗原训练数据中HLA表型不明确的数据，然后剔除重复数据并精筛。

4.根据权利要求3所述的肿瘤新抗原预测方法，其特征在于：所述的剔除重复数据并精筛包括：

5.根据权利要求1所述的肿瘤新抗原预测方法，其特征在于：步骤(2)中，所述的获取全部肿瘤新抗原预测关键特征，具体为：根据可信数据集中的肽段字符串及对应的HLA分型字符串，计算出该肽段字符串的提呈分数、pMHC亲和力和pMHC结合稳定性。

6.根据权利要求1所述的肿瘤新抗原预测方法，其特征在于：步骤(3)中，所述的采用可信数据集，根据肿瘤新抗原预测关键特征，通过卷积神经网络和全连接神经网络建立深度学习模型，进行模型训练获得预测模型，具体为：

7.根据权利要求6所述的肿瘤新抗原预测方法，其特征在于：在卷积层和全连接层中，采用Leaky Rectified Linear Unit和Sigmoid激活函数进行激活，引入非线性；在输出层中使用二元交叉熵损失函数作为成本函数，通过Adam优化算法建立优化器，对输出进行优化，采用自适应学习率作为优化器的输入，采用小批量梯度下降算法，设置批次的大小和最大迭代次数，当验证集的损失函数不再上升时，获得最终的预测模型。

8.一种肿瘤新抗原预测系统，其特征在于，包括：

数据获取模块，用于获取肿瘤新抗原训练数据；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如权利要求1-7任一项所述的肿瘤新抗原预测方法。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行如权利要求1-7任一项所述的肿瘤新抗原预测方法。