CN115896242A

CN115896242A - 一种基于外周血免疫特征的癌症智能筛查模型及方法

Info

Publication number: CN115896242A
Application number: CN202211490553.0A
Authority: CN
Inventors: 蒋庆华
Original assignee: Mianyi Hebei Xiong'an Biotechnology Co ltd
Current assignee: Mianyi Hebei Xiong'an Biotechnology Co ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-04

Abstract

本发明公开了一种基于外周血免疫特征的癌症智能筛查模型及方法，其筛查模型构建方法包括步骤：对TCR测序数据进行质控、比对等步骤获取受试者T细胞受体库；利用癌症患者TCR测序数据进行癌症相关TCR鉴定；结合TCR克隆丰度挖掘癌症相关的motif丰度特征，研发全新的TCR特征数字化方法；基于癌症相关TCR与非癌症TCR，结合所研发的TCR特征数字化方法与深度学习技术，构建并训练肿瘤筛查模型。本发明克服了传统癌症早筛所使用技术与装置特异性差、灵敏度低、侵入性强等问题，可用于利用外周血TCR测序数据的精准癌症早筛。

Description

一种基于外周血免疫特征的癌症智能筛查模型及方法

技术领域

本发明涉及生物技术领域，具体涉及一种基于外周血免疫特征的癌症智能筛查模型及方法。

背景技术

恶性肿瘤已成为严重威胁人类生命健康的主要公共卫生问题之一。大多数癌症患者在病程的中晚期才得到临床确诊时，此时，肿瘤通常已经发生远端转移并扩散到身体其他组织或器官。这对癌症的有效治疗带来了巨大挑战，从而导致癌症患者的预后差、生存率低下。肿瘤早期筛查是发现癌症和癌前病变的重要途径，其目的是在可以有效治疗的阶段诊断癌症，为早期医疗干预提供信息，从而延长患者生存期、降低患者死亡率。因此，肿瘤早期筛查对于肿瘤的治疗具有重要意义。

传统的癌症筛查方法包括：器官特异性内窥镜检查、普通医学影像学检测和肿瘤标志物检测等，用于有限类型癌症的临床诊断。这些方法具有诸多局限性，例如侵入性、低敏感性和采样困难等。此外，正电子发射计算机断层显像(PET-CT)作为目前最先进的医学影像学技术，可以同时显示病灶的代谢活性与解剖位置，具有准确、高灵敏度的优点，但其费用昂贵，难以推广至大规模人群。近年，基于血液检测的癌症早期筛查方法得到了极大发展，这类方法主要通过捕获血液中的肿瘤相关的生物标记物检测癌症，这些标记物主要包括循环肿瘤细胞(CTC)、细胞游离DNA(cfDNA)、miRNA和肿瘤蛋白生物标志物等。相较于传统癌症筛查方法，基于血液检测的癌症筛查方法能够更早的检测出癌症，且具备无创性的特点，弥补了传统方法的一些缺陷，具有广阔的应用前景。其中，基于CTC或cfDNA的方法得到了较为显著的发展。CTC的识别主要依赖少数上皮生物标记物或变形性差异，但外周血中的CTC浓度极低，且CTC的富集困难，导致基于CTC的方法难以满足高灵敏度和特异性的要求。此外，研究表明，血浆cfDNA的大多数突变不是肿瘤衍生的，而是来源于白细胞，这导致基于cfDNA的方法的特异性不足。且基于CTC或cfDNA的方法均需肿瘤生长到一定规模并游离至外周循环系统中才能被检测到，亦具备一定的滞后性。用于大规模人群的多癌种癌症早期筛查方式需具备高特异性、高灵敏度、非侵入性等特性，上述的方法都难以实现早期癌症筛查，因此，亟需开发基于新标志物的用于癌症早期筛查的技术方法。

癌症的发生与发展经历了基因变异等病因累积—>免疫感知—>免疫不支—>器质性病变等阶段，人体免疫系统能够在第一时间感知并监测体内出现的癌症细胞，并做出癌种特异的抗肿瘤免疫反应，如图1所示。相较于循环肿瘤细胞与细胞游离DNA，人体免疫信号的改变更早反映肿瘤的发生发展状态。现有的癌症早期筛查策略都试图通过直接捕获癌症细胞相关信号变化进行癌症早筛，本发明另辟蹊径，放弃正面捕获癌症细胞相关信号的传统研究思路，创造性地从捕获人体免疫系统实时抗肿瘤应答信号入手，进行癌症早筛。事实上，肿瘤的产生会激活宿主的抗肿瘤反应，在这一过程中肿瘤反应性T淋巴细胞发生系统性的克隆扩增。而T细胞通过其表面的异二聚抗原受体，即T细胞受体(TCR)，识别肿瘤抗原，因此，剖析TCR库的变化可以作为一种新的方式以筛查早期癌症，且能比现有方法更早的实现癌症早期预警。免疫学最新研究进展表明，识别相同类型抗原的TCR共享某些序列和结构特征，而免疫组库深度测序可以全面分析T淋巴细胞群体的抗原受体谱。据此，可开发人工智能模型学习与癌症临床表型相关的TCR序列模式，进而识别外周血TCR库中的癌症相关TCR以用于癌症的早期筛查。

发明内容

本发明的目的是针对上述现有肿瘤早期筛查技术存在的缺陷，提供一种新的基于外周血免疫特征的癌症智能筛查模型及方法，综合生物技术与信息技术，开发基于新标志物的兼备特异性和灵敏度的肿瘤早期筛查模型及方法。

为了实现上述目标，本发明采用的技术方案是：一种基于外周血免疫特征的癌症智能筛查模型的构建方法，包括如下步骤：

一、构建受试者外周血T细胞受体库：获取受试者的外周血单核细胞TCR测序(TCR-seq)数据，进行质控分析，构建受试者外周血T细胞受体库；

二、鉴定癌症相关TCR：基于构建的受试者外周血T细胞受体库，利用其中的癌症样本TCR测序数据得到抗原特异性TCR集合，利用其中的非癌症样本TCR测序数据得到常见非癌症抗原特异性TCR集合，再通过比对得到癌症相关TCR；三、TCR特征数字化：利用癌症相关TCR，根据词频分析原理，结合TCR克隆频率构建TCR丰度统计信息库；利用生物物理化学属性与TCR丰度统计信息库对TCR的氨基酸序列进行数字化；

四、肿瘤筛查模型的训练：利用癌症相关TCR与非癌症TCR训练二分类模型识别TCR库中的癌症相关TCR，利用不同癌症相关TCR训练多分类模型预测TCR库中TCR与不同癌症相关的概率；根据模型输出概率，利用TCR的克隆丰度加权计算TCR库的综合癌症评分，获得所述基于外周血免疫特征的癌症智能筛查模型。

上述构建受试者外周血T细胞受体库，包括如下步骤：

1.1)首先使用EDTA处理的Vacutai ner管收集受试者的新鲜外周血；分离外周血单个核细胞(PBMC),并在-80℃冷冻等待下一步处理；

1.2)随后提取RNA并测定RNA浓度，利用提取的RNA通过5’cDNA快速扩增技术(RACE)制备无偏的TCR cDNA文库；

1.3)随后使用引物对TCR cDNA进行两轮PCR扩增，将第二轮PCR产物加载到2％聚丙烯酰胺凝胶上进行电泳，并使用OMEGA回收和纯化大约500bp的目标产物，作为TCR测序文库；

1.4)使用高通量测序平台对文库进行测序；对测序原始数据查找参考基因组，将核苷酸序列翻译成氨基酸序列，进行比对以找到精确的V、D、J基因，同时过滤掉缺失和低频克隆型的序列，以纠正测序错误。

上述鉴定癌症相关TCR，包括如下步骤：

2.1)候选caTCR集合构建：基于多种癌症样本的TCR测序数据，根据克隆频率，去除癌症样本的TCR库中无抗原特异性的

序列，得到候选caTCR集合；

2.2)非癌症抗原特异性TCR过滤：基于非癌症样本TCR测序数据构建常见非癌症抗原特异性TCR参考库，并依据此参考库，去除上述剩余TCR序列中非癌症抗原特异性TCR，最终得到癌症相关TCR序列作为阳性基准数据。

上述TCR特征数字化，包括如下步骤：

3.1)TCR丰度统计信息库构建：使用滑动窗口算法(S l i d i ng wi ndow)以步长为1将每个CDR3序列切割成固定长度片段，即k-mer氨基酸多联体；随后，根据词频分析原理，结合TCR克隆频率对k-mers进行综合分析，并为每种癌症类型构建了两个k-mer统计信息库；第一类统计信息库的构建如下：对于癌症C和氨基酸多联体A_k，A_k与C相关的丰度得分S_k可通过公式(1)计算：

其中

是癌症C的TCR库中包含A_k的第i条TCR的克隆丰度；在得到不同癌症的所有氨基酸多联体的丰度分数后，去除在所有癌症和健康组中均获得高分数的噪音k-mers；随后，在每种癌症在丰度统计库中根据丰度得分分别对k-mers排序；最终，A_k关于癌症C的统计特征值通过公式(2)计算：

其中

表示统计特征值，

表示癌症C丰度统计库中A_k的排名；第二类统计信息库则根据每种癌症TCR库中k-mers的计数构建；具体而言，对于癌症C和氨基酸多联体A'_k，A'_k关于C的丰度得分S'_k通过公式(3)计算：

其中

代表癌症C的TCR库中A'_k的数量，N_total代表癌症C的TCR库中氨基酸多联体的总数；随后，按照与第一类统计信息库相同的策略进行筛选和排序，并计算最终的特征值；

3.2)氨基酸序列特征编码：共采用两种方式编码CDR3序列：a)采用AAi ndex数据库包含的566种氨基酸生物物理化学属性编码，删除其中NA值后使用主成分分析算法降维至18维；b)利用构建的TCR丰度统计信息库编码生成CDR3序列的统计特征；如前所述，通过长度为k(分别为k＝3、4和5)的滑动窗口以步长为1将每条CDR3序列切割成一个k-mer列表，对于列表中的每个k-mer，在TCR丰度统计信息库中搜索，获得维度为12的统计特征向量。

上述肿瘤筛查模型的训练与验证，其核心技术为癌症相关TCR预测模型构建，包括如下步骤：

4.1)基准数据集构建：将步骤三得到的癌症相关TCR序列作为二分类任务的阳性基准数据以及多分类任务的基准数据集；二分类任务的阴性基准数据使用非癌症TCR测序数据生成；最终得到的数据集按8：2的比例随机划分为训练集与测试集；为了调节模型超参数，训练集进一步按照9：1的比例随机划分为训练子集与验证子集；

4.2)癌症相关TCR深度学习预测模型的构建与优化：为预测外周血TCR库中的caTCR构建了二分类深度学习模型，进一步的为预测caTCR与不同癌症相关的概率构建了多分类深度学习模型；除了输出层外，这两个模型的架构是相同的，接受上述的氨基酸序列生物物理化学属性特征和TCR丰度统计特征两个输入；根据两个输入的特点，分别设计合适的深度学习子模块，将子模块输出的潜特征拼接后，输入至最后的全连接层以输出预测值；使用基准数据集，按照模型训练的标准流程，对模型进行调参优化；

4.3)样本TCR库癌症相关评分策略：样本库包含许多具有不同克隆丰度的TCR，需综合评估TCR库以测量样本与癌症关联的概率，具体的，利用利用TCR库中克隆丰度最高的50个TCR的克隆丰度对癌症相关TCR深度学习预测模型的输出概率加权，得到综合癌症评分向量，作为评估受试者癌症状态的度量指标；

4.4)模型性能评估：利用全新癌症与非癌症对照样本的TCR测序数据用于独立测试，使用灵敏度(Sn)、特异性(Sp)、准确度(ACC)和马修斯相关系数(MCC)评估二分类预测器的性能，如公式(4)所示：

其中TP,TN,FP和FN依次表示真阳性、真阴性、假阳性和假阴性，此外，受试者工作特征曲线(ROC)的曲线下面积(area under the curve,AUC)同样被用于评估模型的性能；使用准确度(ACC)、精确率(Prec i s i on)、召回率(reca l l)和F1_score评估多分类的性能，如公式(5)所示：

TP_i,FP_i和FN_i分别表示第i类的真阳性、假阳性和假阴性；precision_i和recall_i分别表示第i类的精确度与召回率；对所有的类别指标使用宏平均和加权平均以评估整体的性能，precision_macro、recall_macro和F_1macro分别表示整体宏平均精确率、宏平均召回率和宏平均F1_score。

一种基于外周血免疫特征的癌症智能筛查模型，通过上述构建方法构建得到。

本发明的有益效果：本发明在液体活检方法的基础上通过TCR测序以及克隆丰度对caTCR进行统计分析，挖掘氨基酸多联体与癌症相关的丰度特征，构建多个癌症特异性丰度特征库，获得全新的TCR特征数字化方法。通过深度学习技术并基于TCR数据开发了两个癌症相关TCR预测模型，根据模型输出结合克隆丰度设计癌症评分策略，能够用于基于外周血TCR测序的精准癌症早筛，克服了传统癌症早筛所使用技术与装置特异性差、灵敏度低、侵入性强等问题。本发明的有益效果具体包括如下：

一、本发明根据具有相似性的TCR能识别同一肿瘤抗原这一基本假设，通过克隆丰度对caTCR进行统计分析，构建了癌症特异性氨基酸多联体丰度特征库，实现了免疫特征数字化，为基于外周血TCR测序数据的肿瘤早筛模型的训练提供了高质量的数字化免疫特征。

二、本发明通过生物物理化学属性和氨基酸多联体丰度特征对CDR3序列编码，通过卷积神经网络、长短期记忆神经网络和全连接网络提取高维潜特征，构建癌症相关TCR深度学习预测模型，实现精准识别受试者外周血TCR库中的癌症相关TCR，根据模型输出概率，利用TCR的克隆丰度加权计算TCR库的综合癌症评分，从而为判断受试者是否患癌及患何种癌症提供重要的参考依据，实现了基于外周血免疫组学特征的肿瘤无创筛查模型的构建。

四、本发明构建了基于全新血液标志物的非侵入性肿瘤早期筛查模型，借力计算方法的高效便捷性，助力于大规模人群的癌症早筛，在方案设置上实现了自主创新，具有很好的启示示范作用，是生物大数据临床应用及转化的典型案例。

附图说明

图1是本发明基于外周血免疫特征的肿瘤筛查方法的理论依据示意图；

图2是本发明基于外周血免疫特征的肿瘤筛查模型的构建方法流程图；

图3是本发明的肿瘤人工智能筛查模型iCanTCR构建流程图；

图4是本发明的肿瘤人工智能筛查模型iCanTCR的深度学习架构图；

图5是本发明的肿瘤人工智能筛查模型iCanTCR预测性能结果图。

具体实施方式

下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

参见图2-图5，本发明公开了一种基于外周血免疫特征的癌症智能筛查模型及筛查模型构建方法，筛查模型通过其筛查模型的构建方法得到，本发明筛查模型的构建方法包括如下步骤：

S1:受试者外周血T细胞受体库构建。获取受试者的外周血单核细胞TCR测序(TCR-seq)数据，进行质控分析，构建外周血T细胞受体库；

S1.1、首先使用EDTA处理的Vacuta i ner管收集受试者新鲜外周血。通过密度梯度离心分离外周血单个核细胞(PBMC),并使用TRI zo l试剂溶解PBMC并在-80℃冷冻等待下一步处理。

S1.2、随后使用OMEGA试剂盒提取RNA并通过NanoDrop 2000分光光度计测定RNA浓度。利用提取的RNA通过5’cDNA快速扩增技术(RACE)制备无偏的TCR cDNA文库。

S1.3、随后使用嵌套通用引物和TCR恒定区特异性引物对TCR cDNA进行两轮PCR扩增。然后将第二轮PCR产物加载到2％聚丙烯酰胺凝胶上进行电泳，并使用OMEGA回收和纯化大约500bp的目标产物，作为TCR测序文库。

S1.4、使用高通量测序平台对I l l umi n文库进行测序。结果以FASTQ格式存储。BLAT软件用于从I MGT/GeneDB数据库中查找参考基因组中每个read的TCR链Vβ、Dβ、Jβ基因。核苷酸序列被翻译成氨基酸序列，进行比对以找到精确的V、D、J基因，同时过滤掉没有V、D、J、C基因和reads数量小于2的低频克隆型的序列，以纠正测序错误。

S2:癌症相关TCR鉴定。如图3a所示，基于构建的受试者外周血T细胞受体库，利用其中的癌症样本TCR测序数据得到抗原特异性TCR集合，利用其中的非癌症样本TCR测序数据得到常见非癌症抗原特异性TCR集合，再通过比对得到癌症相关TCR(caTCR)；

S2.1候选caTCR集合构建。对于多种类型癌症样本的TCR测序数据，首先根据克隆频率，依次去除每一个癌症样本的TCR库中无抗原特异性的

序列，得到癌症样本的抗原特异性TCR集合，作为候选caTCR集合，记为P_T；

S2.2非癌症抗原特异性TCR过滤。利用非癌症样本TCR测序数据构建常见非癌症抗原特异性TCR参考库，并依据此参考库，去除上述剩余TCR序列中非癌症抗原特异性TCR。具体的，从每个非癌症样本中挑选出克隆分数最高的500个序列，构建一个TCR序列集合，然后选择该集合中丰度最高的40000个TCR序列作为常见非癌症抗原特异性TCR参考库，记为R_N；若P_T中的序列出现在R_N中，则将该序列从P_T中删除。得到最终的癌症相关TCR序列，作为阳性基准数据并用于后续的TCR特征数字化与模型训练；

S3:TCR特征数字化。用癌症相关TCR，根据词频分析原理，结合TCR克隆频率构建TCR丰度统计信息库；利用生物物理化学属性与TCR丰度统计信息库对TCR的氨基酸序列进行数字化；

S3.1、TCR丰度统计信息库构建。使用滑动窗口以步长为1将每个CDR3序列切割成固定长度片段，即k-mer氨基酸多联体。固定长度k与滑动窗口的宽度相同，根据TCR与抗原肽接触条带的平均长度，将其分别设置为3个不同值，即4±1。随后，根据词频分析原理，结合TCR克隆频率对k-mers进行综合分析，并为每种癌症类型构建了两个k-mer统计信息库；

S3.1.1、第一类统计信息库的构建如下：首先，对于癌症C和氨基酸多联体A_k，A_k与C相关的丰度得分S_k可通过公式(1)计算：

其中

是癌症C的TCR库中包含A_k的第i条TCR的克隆丰度。在得到不同癌症的所有氨基酸多联体的丰度分数后，去除在所有癌症和健康组中均获得高分数的噪音k-mers。随后，在每种癌症在丰度统计库中根据丰度得分分别对k-mers排序。最终，A_k关于癌症C的统计特征值可通过公式(2)计算：

其中

表示统计特征值，

表示癌症C丰度统计库中A_k的排名；

S3.1.2、第二类统计信息库则根据每种癌症TCR库中k-mers的计数构建。具体而言，对于癌症C和氨基酸多联体A'_k，A'_k关于C的丰度得分S'_k可通过公式(3)计算：

其中

代表癌症C的TCR库中A'_k的数量，N_total代表癌症C的TCR库中氨基酸多联体的总数。随后，按照与第一类统计信息库相同的策略进行筛选和排序，并计算最终的特征值；

S3.2、氨基酸序列特征编码。对于每一条TCR，取用其β链的CDR3氨基酸序列。所取用CDR3序列的原始输入长度为{L|L＝(11，12，…，19)}，不在此区间内的序列均舍去，然后去除每一条CDR3序列的前四个和最后一个残基。共采用两种方式编码CDR3序列；

S3.2.1、采用AAi ndex数据库(https://www.genome.jp/aa i ndex/)包含的566种氨基酸生物物理化学属性编码；具体而言，首先删除含有NA值的13种属性，然后对剩余553个指数进行Z-score标准化，以消除不同属性之间量纲差异的影响，再利用主成分分析算法进行降维，对每一种氨基酸得到20维的主成分，并选择权重最大的前18个主成分(可解释原始数据99％以上的方差)以表征每种氨基酸。由于序列的长度不统一，在较短序列的末尾填充通配字符“X”至最大长度19，该通配字符采用维度为18的零向量表征。所有长度的CDR3序列均被编码为19×18的数值矩阵。

S3.2.2、利用步骤S3.1构建的TCR丰度统计信息库编码生成CDR3序列的统计特征。如前所述，通过长度为k(分别为k＝3、4和5)的滑动窗口以步长为1将每条CDR3氨基酸序列切割成一个k-mer列表，对于列表中的每个k-mer，在TCR丰度统计信息库中搜索，获得维度为12的统计特征向量，同样的，在较短序列的末尾填充通配字符“X”至最大长度。最终，每条CDR3的被编码为固定长度的向量(k＝3向量长度为144，k＝4为132，k＝5为120)；

S4:肿瘤筛查模型的训练与验证。采用深度学习算法构建肿瘤人工智能筛查模型iCanTCR；利用癌症相关TCR与非癌症TCR训练二分类模型识别TCR库中的癌症相关TCR，利用不同癌症相关TCR训练多分类模型预测TCR库中TCR与不同癌症相关的概率；根据模型输出概率，利用TCR的克隆丰度加权计算TCR库的综合癌症评分；对模型的性能使用独立测试数据进行验证；

S4.1、基准数据集构建。如图3a所示，步骤S2得到的癌症相关TCR序列作为二分类任务的阳性基准数据以及多分类任务的基准数据集。二分类任务的阴性基准数据则使用非癌症TCR数据生成，同样的，首先根据克隆频率，依次去除每一个非癌样本的TCR库中无抗原特异性的

序列，然后对剩余的序列采用CD-H I T工具以0.75的序列相似性为阈值聚类，去除序列冗余后得到最终的阴性基准数据。最终得到的数据集按照一定比例随机划分为训练集、验证集与测试集；

S4.2、癌症相关TCR深度学习预测模型的构建与优化。为预测外周血TCR库中的caTCR构建了二分类深度学习模型，进一步的为预测caTCR与不同癌症相关的概率构建了多分类深度学习模型；除了输出层外，这两个模型的架构是相同，接受上述的氨基酸序列生物物理化学属性特征和TCR丰度统计特征两个输入，具体设计如图3b与图4所示。

S4.2.1、对生物物理化学属性特征，构建并列的三个卷积神经网络(CNN)模块和一个长短期记忆神经网络模块(LSTM)，以提取不同的潜特征；三个CNN模块采用不同的卷积核尺寸，分别为3、4和5，以对应前述接触条带的平均长度。对TCR丰度统计特征，采用经典全连接网络(FCN)提取其潜特征。将上述所有模块输出的潜特征拼接后，输入至最后的全连接层以输出预测值。

S4.2.2、为了避免模型的全连接网络产生过拟合，对每一个隐藏层应用dropout策略，drop概率设置为0.3；对除输出层外所有的神经网络层采用整流线性单元(ReLU)激活函数，以提高计算效率并保持梯度，输出层则采用softmax函数；采用带动量的自适应梯度随机优化方法Adam算法自适应调节每一轮迭代的学习率，以加速模型收敛；采用交叉熵损失函数计算每次迭代时的拟合误差，以进行反向传播；

S4.3、样本TCR库癌症相关评分策略。如图3c所示，样本库包含许多具有不同克隆丰度的TCR，因此需综合评估TCR库以测量样本与癌症关联的概率；

S4.3.1、对于二分类任务，首先利用TCR库中克隆丰度最高的50个TCR的克隆丰度对上述二分类器的输出概率加权，然后应用标准化函数将加权值缩放到区域(0，1)，得到癌症评分作为TCR库的度量指标；

S4.3.2、对于多分类任务，首先使用TCR库中克隆丰度最高的50个TCR对上述多分类模型的输出向量进行加权，然后应用softmax函数对每个加权向量的和向量进行归一化，以获得最终的概率向量，该概率向量表示样本的TCR库与不同癌症相关的概率；

S4.4、模型性能评估；利用全新癌症与非癌症对照样本的TCR测序数据用于独立测试，使用多种度量指标评估性能，模型性能如图5所示；

S4.4.1、使用准确度(ACC)、灵敏度(Sn)、特异性(Sp)和马修斯相关系数(MCC)评估二分类预测器的性能，如公式(4)所示：

TP,TN,FP和FN分别表示真阳性、真阴性、假阳性和假阴性，此外，受试者工作特征曲线(ROC)的曲线下面积(area under the curve,AUC)作为一个重要的指标，同样被用于评估模型的性能；

S4.4.2、使用准确度(ACC)、精确度(Prec i s i on)、召回率(reca l l)和F1_score评估多分类的性能，如公式(5)所示：

TP_i,FP_i和FN_i分别表示第i类的真阳性、假阳性和假阴性；precision_i和recall_i分别表示第_i类的精确度与召回率；对所有的类别指标使用宏平均和加权平均以评估整体的性能，precision_macro、recall_macro和F_1macro分别表示整体宏平均精确率、宏平均召回率和宏平均F1_score。

综上所述，本发明在液体活检方法的基础上通过TCR测序以及克隆丰度对caTCR进行统计分析，挖掘氨基酸多联体与癌症相关的丰度特征，构建了多个癌症特异性丰度特征库，从而获得了全新的TCR特征数字化方法。通过深度学习技术并基于TCR数据开发了两个癌症相关TCR预测模型，根据模型输出结合克隆丰度设计癌症评分策略，能够用于基于外周血TCR测序的精准癌症早筛，克服了传统癌症早筛所使用技术与装置特异性差、灵敏度低、侵入性强等问题。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于外周血免疫特征的癌症智能筛查模型的构建方法，其特征在于，包括如下步骤：

一、构建受试者外周血T细胞受体库：获取受试者的外周血单核细胞TCR测序数据，进行质控分析，构建受试者外周血T细胞受体库；

2.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法，其特征在于，所述构建受试者外周血T细胞受体库，包括如下步骤：

1.1)首先使用EDTA处理的Vacutainer管收集受试者的新鲜外周血；分离外周血单个核细胞,并在-80℃冷冻等待下一步处理；

1.2)随后提取RNA并测定RNA浓度，利用提取的RNA通过5’cDNA快速扩增技术制备无偏的TCR cDNA文库；

3.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法，其特征在于，所述鉴定癌症相关TCR，包括如下步骤：

2.1)候选caTCR集合构建：利用多种癌症样本的TCR测序数据，根据克隆频率，去除癌症样本的TCR库中无抗原特异性的

序列，得到候选caTCR集合；

2.2)非癌症抗原特异性TCR过滤：利用非癌症样本的TCR测序数据构建常见非癌症抗原特异性TCR参考库，并依据此参考库，去除上述剩余TCR序列中非癌症抗原特异性TCR，最终得到癌症相关TCR序列作为阳性基准数据。

4.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法，其特征在于，所述TCR特征数字化，包括如下步骤：

3.1)TCR丰度统计信息库构建：使用滑动窗口算法以步长为1将每个CDR3序列切割成固定长度片段，即k-mer氨基酸多联体；随后，根据词频分析原理，结合TCR克隆频率对k-mers进行综合分析，并为每种癌症类型构建了两个k-mer统计信息库；第一类统计信息库的构建如下：对于癌症C和氨基酸多联体A_k，A_k与C相关的丰度得分S_k可通过公式(1)计算：

其中

其中

表示统计特征值，

其中

3.2)氨基酸序列特征编码：共采用两种方式编码CDR3序列：a)采用AAindex数据库包含的566种氨基酸生物物理化学属性编码，删除其中NA值后使用主成分分析算法降维至18维；b)利用构建的TCR丰度统计信息库编码生成CDR3序列的统计特征；如前所述，通过长度为k的滑动窗口以步长为1将每条CDR3序列切割成一个k-mer列表，其中k分别为k＝3、4和5，对于列表中的每个k-mer，在TCR丰度统计信息库中搜索，获得维度为12的统计特征向量。

5.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法，其特征在于，所述肿瘤筛查模型的训练与验证，其核心技术为癌症相关TCR预测模型构建，包括如下步骤：

4.1)基准数据集构建：将步骤三得到的癌症相关TCR序列作为二分类任务的阳性基准数据以及多分类任务的基准数据集；二分类任务的阴性基准数据则使用非癌症TCR测序数据生成；最终得到的数据集按8：2的比例随机划分为训练集与测试集；为了调节模型超参数，训练集进一步按照9：1的比例随机划分为训练子集与验证子集；

4.3)样本TCR库癌症相关评分策略：样本库包含许多具有不同克隆丰度的TCR，需综合评估TCR库以测量样本与癌症关联的概率，具体的，利用TCR库中克隆丰度最高的50个TCR的克隆丰度对癌症相关TCR深度学习预测模型的输出概率加权，得到综合癌症评分向量，作为评估受试者癌症状态的度量指标；

4.4)模型性能评估：利用全新癌症与非癌症对照样本的TCR测序数据用于独立测试，使用灵敏度Sn、特异性Sp、准确度ACC和马修斯相关系数MCC评估二分类预测器的性能，如公式(4)所示：

其中TP,TN,FP和FN依次表示真阳性、真阴性、假阳性和假阴性，此外，受试者工作特征曲线ROC的曲线下面积AUC同样被用于评估模型的性能；使用准确度ACC、精确率Precision、召回率recal l和F1_score评估多分类的性能,如公式(5)所示：

6.一种基于外周血免疫特征的癌症智能筛查模型，其特征在于，通过如权利要求1至5中任一项所述的构建方法构建得到。