CN117953967A

CN117953967A - 一种评估肿瘤纯度的方法、校正tmb的方法及设备

Info

Publication number: CN117953967A
Application number: CN202410174915.8A
Authority: CN
Inventors: 应建明; 张繁霜; 李文斌; 李卫华; 王顺; 郭蕾; 凌少平; 郝伶童; 李心正; 刘敏; 崔新
Original assignee: Genowis Beijing Gene Technology Co ltd; Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Genowis Beijing Gene Technology Co ltd; Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2023-12-22
Filing date: 2024-02-07
Publication date: 2024-04-30

Abstract

本发明公开了一种评估肿瘤纯度的方法、校正TMB的方法及设备，涉及生物信息学技术领域。其包括如下步骤：将肿瘤样本以及与其配对的正常组织样本的测序文件作为输入，进行体细胞突变分析和等位基因频率特异性拷贝数变异检测。本发明提出的肿瘤纯度评估方法对于低纯度，尤其是高异质性的肿瘤样本具有明显的效果，能够准确地评估肿瘤的纯度。由此计算获得的TMB结果非常接近根据实际肿瘤纯度校正后TMB的结果。因此，本发明有助于提高TMB检测的准确性和可靠性，同时增加了TMB检测的可用性和适用性，避免因为肿瘤纯度的差异而导致TMB值的偏差。

Description

一种评估肿瘤纯度的方法、校正TMB的方法及设备

相关申请的交叉引用

本公开要求于2023年12月22日提交中国专利局的申请号为2023117824243、名称为“一种评估肿瘤纯度的方法、校正TMB的方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本发明涉及生物信息学技术领域，具体而言，涉及一种评估肿瘤纯度的方法、校正TMB的方法及设备。

背景技术

肿瘤突变负荷(tumor mutational burden,TMB)一般指特定基因组区域内每兆碱基对(Mb)体细胞非同义突变的个数。肿瘤细胞在不断分裂和增殖的过程中，会经历许多基因突变，其中一些基因突变导致肿瘤表面呈现出不同于正常细胞的宿主抗原，从而触发靶向肿瘤的免疫反应。TMB越高，表明肿瘤细胞表面的新抗原越多，肿瘤免疫原性也越高，从而更容易被机体免疫系统识别和清除，患者也更有可能从免疫治疗中收益。因此，TMB可以预测肿瘤对免疫检查点抑制剂(immune checkpoint inhibitors,ICIs)治疗的效果。

在实际检测流程中，存在多种因素影响TMB的最终结果及其解释，包括但不限于样本类型、样本治疗和数量基因组覆盖率、测序平台、生物信息分析流程以及阈值设定等。此外，TMB值在不同癌种中存在显著差异，也为该标志物在临床中规范应用带来困难。一些癌种如黑色素瘤、肺癌、结直肠癌等具有较高的TMB值，而一些癌种如胰腺癌、前列腺癌等具有较低的TMB值。不同癌种的TMB阈值可能不同，需要根据大规模的临床试验数据进行确定。

TMB的计算方法基于二代测序数据中检测到的非同义体细胞突变数量而确定，因此准确检测体细胞突变的方法对于获得可靠的TMB数值至关重要。

肿瘤纯度是指肿瘤样本中肿瘤细胞的比例，准确的肿瘤纯度估计不仅可以提高肿瘤基因组学分析的准确性和可靠性，还可以提高肿瘤免疫治疗评估的有效性和敏感性，避免因为非肿瘤细胞的混杂而导致免疫相关标志物(如PD-L1、TMB等)的表达水平或预测能力的降低或失效。目前临床上比较常见的方式为利用组织切片或细胞涂片的显微镜观察，根据人工或自动化的图像分析，计算肿瘤细胞和非肿瘤细胞的比例。这种方法简单直观，但是受到样本质量、操作技术、切片厚度等因素的影响，通常只能给出大致的范围估计，而且估计值还会受观察者的主观影响。

当肿瘤的纯度较低时，患者的样本中可能只含有少量的肿瘤DNA。因此在相同的测序深度下，携带突变的测序片段更少，突变的频率更低，潜在的突变更有可能被生信分析流程作为假阳过滤，进一步导致检测出的突变数减少，最终导致TMB被低估。影响肿瘤纯度的因素包括采样位置和组织切片大小的不同、采样的时间点、肿瘤细胞的异质性。因此在TMB检测过程中，即便是同一个患者测得的样本，其肿瘤纯度也有可能不同，最终导致TMB结果存在较大的差异，无法给与患者准确可靠的用药指导。

鉴于此，特提出本发明。

发明内容

本发明的目的在于提供一种评估肿瘤纯度的方法、校正TMB的方法及设备，从而减少肿瘤纯度和肿瘤异质性对TMB计算的影响，使得在低肿瘤纯度样本下也能够获得与高肿瘤纯度样本较为接近的TMB值。

本发明是这样实现的：

术语解释：

CNV：Copy number variations，基因拷贝数变异。

ASCNV：Allele-specific copy number alterations，等位基因特异性拷贝数变异。

BAF：B allele frequency，次等位基因频率，是指在给定群体中，第二常见的基因型(次等位基因)出现的基因频率就称为次等位基因频率。

CCF为主克隆所在的Cluster的细胞比例(CP)与等位基因频率(VAF)平均比值。CP(cellular prevalence)：用来表示细胞中携带目标突变的比例。

BAM文件：是用于存储基因组序列比对和测序数据的二进制格式文件,可用于基因组序列的注释、变异检测、差异表达等分析。

VAF：等位基因频率。

测序深度：测序得到的碱基总量(bp)与基因组大小(Genome)的比值。例如，测序深度为10×，表示测序得到的碱基总量(bp)与基因组大小(Genome)的比值为10。

倍性：指肿瘤细胞所含染色体组数的变化情况，常见的倍性有二倍体、三倍体、四倍体等。在肿瘤分析中，如果肿瘤样本的倍性发生变化，则会对CNV(基因拷贝数变异)分析产生极大影响。

纯度：指肿瘤样本中包含肿瘤细胞的百分比。

本文中，突变(mutation)是指生物体基因组、病毒基因组或染色体外DNA基因组核苷酸序列的改变。“突变”、“变异”可互换使用。

第一方面，本发明提供了一种评估肿瘤纯度的方法，其包括如下步骤：

将肿瘤样本以及与其配对的正常组织样本的测序文件作为输入，进行体细胞突变分析和等位基因频率特异性拷贝数变异(ASCNV)检测：

体细胞突变分析选自点突变(single nucleotide variant,SNV)和插入删除(insertion deletion,INDEL)中的至少一种；

ASCNV检测包括：

分别计算肿瘤样本和正常组织样本的SNP位点的测序深度、等位基因频率(BAF)和SNP位点所在区域的GC含量；

对测序深度进行GC含量偏差校正；然后对经过GC含量偏差校正后的测序深度的信号进行数据降噪处理；再将数据降噪处理后的测序深度信号转换为肿瘤肿瘤样本和配对样本深度的比值并取对数，即为LogR；

根据SNP位点测序深度信号LogR和等位基因频率BAF对基因区间进行分割，根据分割后的片段获得肿瘤纯度、肿瘤倍性的多个可行解，也就是说存在不同的肿瘤纯度和肿瘤倍性的组合能够解释观测到的数据，从可行解中选择一个作为肿瘤纯度和肿瘤倍性的估计值；

优选地，获得每个分割后的片段的ASCNV；根据体细胞突变计算得到的肿瘤纯度与ASCNV计算得到的肿瘤纯度结果最为接近的一组结果，作为肿瘤纯度和肿瘤倍性的估计值。

经过GC含量偏差校正后的测序深度的信号进行数据降噪处理选自如下至少一种的降噪方式：平滑降噪、指数滑动平均、Savitzky-Golay滤波器和离散傅里叶变化。

根据体细胞突变计算得到的肿瘤纯度与ASCNV计算得到的肿瘤纯度结果最为接近的一组结果，作为肿瘤纯度和肿瘤倍性的估计值。

本发明利用体细胞突变分析和ASCNV对肿瘤纯度进行较为准确的估计；后续可以根据肿瘤纯度进行自适应阈值调整用于TMB值的计算。本发明提出的肿瘤纯度评估方法对于低纯度，尤其是高异质性的肿瘤样本具有明显的效果，能够准确地评估肿瘤的纯度。由此计算获得的TMB结果非常接近根据实际肿瘤纯度校正后TMB的结果。因此，本发明有助于提高TMB检测的准确性和可靠性，同时增加了TMB检测的可用性和适用性，避免因为肿瘤纯度的差异而导致TMB值的偏差。此外，本发明有利于优化TMB检测的临床应用和指导意义，使得更多的患者能够根据TMB值选择合适的免疫治疗方案。

相比于现有的肿瘤单样本，本发明采用肿瘤和配对样本，评估准确率更高。

上述体细胞突变的分析可以使用GATK Mutet2的配对样本分析模式，或者使用Strelka软件进行SNV/INDEL的检测。检测结果按照需要可进行进一步过滤，必要时可以使用(Integrated Genome Viewer,IGV)对突变结果进行人工校验。

上述ASCNV检测中，还包括SNP位点的获得，根据所使用的检测试剂盒的覆盖范围选择胚系杂合SNP位点。所述胚系SNP位点可以是试剂盒覆盖区域内的经由数据库(例如dbSNP)收录的SNP位点。也可以是使用胚系突变检测软件，例如GATK Haplotype Caller或者DeepVariant等在肿瘤样本和配对正常样本中检测得到。

需要说明的是，在体细胞突变分析时，需要输入正常组织样本的测序数据。

上述取对数的值(LogR)是肿瘤样本与配对样本深度的比值。取对数有以下优势：

(1)数据稳定性：对深度的比值取对数可以缩小数据的范围和方差，降低噪声和异常值的影响，提高信号与噪声的比例。

(2)方便比较：取对数后的数据更容易比较和解释。例如，LogR为0表示肿瘤样本和正常样本的深度相等，而LogR为正数表示肿瘤样本的深度大于正常样本，LogR为负数表示肿瘤样本的深度小于正常样本。这种方式更容易理解和用于比较不同样本之间的差异。

在本发明应用较佳的实施方式中，根据分割后的片段获得肿瘤纯度、肿瘤倍性的多个可行解，使用体细胞突变分析结果以及每个分割后的片段的ASCNV结果进行肿瘤的亚克隆结构分析(亚克隆结构分析的作用主要是利用其他数据类型(SNV)从另一个角度估计肿瘤纯度。结合两种数据类型能获得更准确的估计。如果没有亚克隆结构分析，那就从多个可行解中选择一个作为最终的估计)，以使得所有突变的肿瘤根据CP值进行聚类，其中，将平均等位基因频率(VAF)最大的Cluster所对应的细胞比例(CP)值作为根据体细胞突变所估计的肿瘤纯度；将根据体细胞突变所估计的肿瘤纯度值与根据ASCNV优化得到的多个局部极值进行比较，选择最为接近的一组结果作为最终的肿瘤纯度和肿瘤倍性的估计值；

根据体细胞突变所估计的肿瘤纯度值的计算公式如下：

CP＝CCF*ρ，CCF(cancer cell fraction)为肿瘤细胞中，携带目标突变的比例平均比值；ρ为肿瘤纯度；CP(cellular prevalence)为细胞中携带目标突变的比例；

在一种可选的实施方式中，使用分析软件预测肿瘤样本的亚克隆结构；在一种可选的实施方式中，分析软件为Pyclone或CopyKAT。

在本发明应用较佳的实施方式中，对于每个区间内的LogR期望值和BAF的期望值，可以由该区间的等位基因拷贝数、肿瘤纯度和肿瘤倍性计算得到：

经过代换，可推导出n_A，i和n_B，i的估计值计算公式(即每个分割后的片段的ASCNV的计算公式)。

在本发明应用较佳的实施方式中，根据分割后的片段获得肿瘤纯度、肿瘤倍性的多个可行解，获得每个分割后的片段的ASCNV的计算公式如下：

其中ρ表示肿瘤纯度，Ψ_t表示肿瘤倍性，n_A，i和n_B，i分别表示第i个SNP位点中拷贝数较大的allele(A)的等位基因拷贝数与拷贝数较小的allele(B)的等位基因拷贝数；ri表示第I个分割区间中的第i个SNP位点去噪后的LogR值；b_i表示第I个分割区间中的第i个SNP位点的BAF；

在一种可选的实施方式中，肿瘤纯度和肿瘤倍性的求解通过最小化下式得到：

在一种可选的实施方式中，LogR值通过如下公式计算：

其中/>表示肿瘤样本在基因组坐标为i的测序深度，/>表示配对正常样本在基因组坐标为i的深度。

在本发明应用较佳的实施方式中，根据SNP位点测序深度信号LogR和等位基因频率BAF对基因区间进行分割的方法如下：

最小化如下所示的公式进行将基因分割成Q个区间：

I_j表示第I个分割区间，r_i表示第I个分割区间中的第i个SNP位点去噪后的LogR值；表示第I个分割区间中所有SNP位点的LogR均值；b_i表示第I个分割区间中的第i个SNP位点的BAF；ave({b_s})表示第I个分割区间中所有SNP位点BAF的均值；λQ为惩罚项，以使得优化时更倾向于分割为更少的片段；w和(1-w)分别表示在优化过程中对LogR值和BAF值的权重；

在一种可选的实施方式中，数据降噪处理选自平滑降噪、指数滑动平均、Savitzky-Golay滤波器和离散傅里叶变化中的至少一种；数据平滑可以有效地去除数据中的噪音数据对原始数据进行预处理。尤其是数据中存在异常值或比较突兀的尖峰存在时，需要对数据进行平滑处理。

在一种可选的实施方式中，对经过GC偏差校正的深度信号，使用滑动平均算法根据SNP位点上下游50bp内窗口大小的测序深度的信号进行数据平滑处理。

在本发明应用较佳的实施方式中，将肿瘤样本以及与其配对的正常组织样本的测序文件输入进行体细胞突变分析和ASCNV分析前还包括：将肿瘤样本以及与其配对的正常组织样本的高通量测序下机数据进行预处理，然后进行数据质控，再与参考基因组进行比对。

因为基因组范围内不同GC含量的区域，测序覆盖度通常不同。因此根据上一步骤计算的SNP位点所在区域的GC含量，使用局部加权回归(Locally Weighted ScatterplotSmoothing LOWESS)对测序深度进行GC偏差校正。

GC偏差是指在测序过程中，GC含量在50％左右的区域更容易被测到，产生的reads更多，这些区域的覆盖度更高，在高GC或者低GC区域，不容易被测到，产生较少的reads，这些区域的覆盖度更少。这种现象会影响对基因组结构变异(如CNV)的检测和分析，由于覆盖度的变化可能不是由CNV引起的，而是由GC偏差造成的。因此，为了减少GC偏差对CNV检测的影响，需要进行GC校正。

在一种可选的实施方式中，预处理包括如下步骤中的至少一种：去除接头、过滤低质量的测序片段、切除5’端测序质量较低的碱基和3’端测序质量较低的碱基。

在一种可选的实施方式中，与参考基因组进行比对包括：使用比对软件将预处理后的测序数据比对到人类基因组上，生成BAM文件，并进行去重。

在一种可选的实施方式中，为了保证下游分析的准确，测序数据应当满足一定的要求。数据质控包括获得如下至少一种指标：DNA提取量、上机数据量、GC含量、BAM文件的DUP率、BAM去重后的平均深度、测序片段的比对率、肿瘤组织的交叉污染比例以及肿瘤样本和配对正常样本的胚系突变的一致率。

第二方面，本发明还提供了一种基于肿瘤纯度校正TMB的方法，其包括如下步骤：

根据上述的评估肿瘤纯度的方法获得的肿瘤纯度ρ，通过如下公式校正TMB：

TMB_adf为校正TMB值，N为所有经过SNV检测，并经过过滤和注释的非同义突变数目；Length表示捕获区域的长度(单位为MB)；f_i表示点突变和插入缺失的频率，0.05为过滤突变的突变频率阈值；LOD表示所使用的检测流程能达到的突变检测下限。

根据上述评估的肿瘤纯度进行自适应阈值调整用于TMB值的计算。本发明有助于提高TMB检测的准确性和可靠性，同时增加TMB检测的可用性和适用性，避免因为肿瘤纯度的差异而导致TMB值的偏差。此外，本发明有利于优化TMB检测的临床应用和指导意义，使得更多的患者能够根据TMB值选择合适的免疫治疗方案。本发明提出的肿瘤纯度估计方法以及依据肿瘤纯度校正TMB的方法，对于低纯度，尤其是高异质性的肿瘤样本具有明显的效果。

第三方面，本发明还提供了一种评估肿瘤纯度的装置，其包括：

输入模块、体细胞突变分析模块、等位基因频率特异性拷贝数变异(ASCNV)检测模块和肿瘤纯度评估模块；

输入模块用于：肿瘤样本以及与其配对的正常组织样本的测序文件输入；

体细胞突变分析模块用于：对输入的测序文件进行点突变(single nucleotidevariant,SNV)、短插入删除片段(insertion deletion,INDEL)、移码和片段缺失中的至少一种突变的分析；

等位基因频率特异性拷贝数变异(ASCNV)检测模块用于：分别计算肿瘤样本和正常组织样本的SNP位点的测序深度、等位基因频率(BAF)和SNP位点所在区域的GC含量；对测序深度进行GC含量偏差校正；然后对经过GC含量偏差校正后的测序深度的信号进行数据降噪处理；再将数据降噪处理后的测序深度信号转换为肿瘤肿瘤样本和配对样本深度的比值并取对数，即为LogR；根据SNP位点测序深度信号LogR和等位基因频率BAF对基因区间进行分割，根据分割后的片段获得肿瘤纯度、肿瘤倍性的局部极值，获得每个分割后的片段的ASCNV；

肿瘤纯度评估模块用于：根据体细胞突变计算得到的肿瘤纯度与ASCNV计算得到的肿瘤纯度结果最为接近的一组结果，作为肿瘤纯度和肿瘤倍性的估计值。

第四方面，本发明还提供了一种基于肿瘤纯度校正TMB的装置，其具有校正TMB模块，校正TMB模块用于：通过如下公式校正TMB：

TMB_adi为校正TMB值，N为所有经过SNV检测，并经过过滤和注释的非同义突变数目；Length表示捕获区域的长度(单位为MB)；f_i表示点突变和插入缺失的频率，0.05为过滤突变的突变频率阈值；LOD表示所使用的检测流程能达到的突变检测下限；ρ肿瘤纯度；

在一种可选的实施方式中，校正TMB模块与上述的装置中的肿瘤纯度评估模块通讯连接。

第五方面，本发明还提供了一种电子设备，包括存储器和处理器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时实现上述的评估肿瘤纯度的方法中的步骤或实现上述的基于肿瘤纯度校正TMB的方法中的步骤。

具体地，该电子设备可以包括存储器、处理器、总线和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据，以执行本申请中描述的一个或多个功能。

存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

第六方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的评估肿瘤纯度的方法中的步骤或实现上述的基于肿瘤纯度校正TMB的方法中的步骤。

第七方面，本发明还提供了一种基于肿瘤纯度校正TMB的系统，其包括上述的基于肿瘤纯度校正TMB的装置。

本发明具有以下有益效果：

本发明利用体细胞突变分析和ASCNV对肿瘤纯度进行较为准确的估计；进而可以根据肿瘤纯度进行自适应阈值调整用于TMB值的计算。本发明提出的肿瘤纯度评估方法对于低纯度，尤其是高异质性的肿瘤样本具有明显的效果，能够准确地评估肿瘤的纯度。由此计算获得的TMB结果非常接近根据实际肿瘤纯度校正后TMB的结果。因此，本发明有助于提高TMB检测的准确性和可靠性，同时增加了TMB检测的可用性和适用性，避免因为肿瘤纯度的差异而导致TMB值的偏差。

此外，本发明有利于优化TMB检测的临床应用和指导意义，使得更多的患者能够根据TMB值选择合适的免疫治疗方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为TMB计算流程概览图；

图2为ASCNV的检测流程图；

图3为肿瘤纯度估计流程图；

图4为肿瘤纯度估计值与模拟肿瘤纯度数值的关系比较图；

图5为不同肿瘤纯度下TMB的衰减曲线和各样品的VAF分布图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

本实施例提供了评估肿瘤纯度的方法和基于肿瘤纯度校正TMB的方法，TMB计算流程参照图1所示。

方法具体如下：

步骤S01：接受二代测序下机数据的FASTQ格式文件，并对FASTQ文件进行预处理。二代测序下机数据应当来自于肿瘤组织样本以及配对的正常组织的样本。其使用的检测试剂盒应为符合发表于中国癌症防治杂志的《肿瘤突变负荷检测及临床应用专家公式2020版》中建议的全基因外显子测序(WES)或者靶向捕获测序大Panel(比如300个基因以上的Panel检测产品)。同时为了保证能够顺利检测等位基因特异性拷贝数变异(allelespecific copy number variation,ASCNV)，检测区域应当覆盖不少于10000个SNP位点。FASTQ文件的预处理可以使用fastp、FASTQC或者Trimmomatic等常用软件。本实施例选择fastp进行文件预处理。FASTQ文件的预处理步骤包括：去除接头、过滤低质量(长度小于20bp，或者碱基中‘N’占比超过50％)的测序片段、切除5’端或者3’端测序质量较低的碱基。

步骤S02：将经过预处理的测序片段使用比对软件比对到人类基因组上，生成BAM文件，并对BAM文件进行去重处理。比对软件为BWA-MEM，去重软件为Picard。

步骤S03：测序数据质控。为了保证下游分析的准确，测序数据应当满足一定的要求。需要从检测过程中湿实验记录以及BAM文件中获取以下指标：DNA提取量、上机数据量、GC含量、BAM文件的DUP率、BAM去重后的平均深度、测序片段的比对率、以及肿瘤组织的交叉污染比例和肿瘤样本和配对正常样本的胚系突变的一致率(防止错误的样本配对)。

步骤S04：体细胞突变分析与过滤。所述体细胞突变主要指点突变(singlenucleotide variant,SNV)和短插入删除片段(insertion deletion,INDEL)。体细胞突变的分析可以使用GATK Mutet2的配对样本分析模式，或者使用Strelka软件进行SNV/INDEL的检测。检测结果按照需要可进行进一步过滤，必要时可以使用(Integrated GenomeViewer,IGV)对突变结果进行人工校验。本实施例使用GATK Mutet2的配对样本分析模式。按照GATK官网提供的最佳实践流程对突变进行过滤。

步骤S05：使用去重后的肿瘤样本BAM文件和配对正常样本的BAM文件作为输入，进行等位基因频率特异的拷贝数检测，具体步骤参照图2。

步骤S05-1：根据所使用的检测试剂盒的覆盖范围选择胚系杂合SNP位点。胚系SNP位点可以是试剂盒覆盖区域内的经由数据库(例如dbSNP)收录的SNP位点。也可以是使用胚系突变检测软件，例如GATK Haplotype Caller或者DeepVariant等在肿瘤样本和配对正常样本中检测得到。本实施例选择使用dbSNP数据库提供的部分位于全外显子内的SNP位点进行ASCNV的分析。

步骤S05-2：分别计算肿瘤样本和配对正常样本根据步骤S05-1中选择的SNP位点的测序深度和等位基因频率(B-allele frequency,BAF)和SNP位点所在区域的GC含量，窗口大小设置为上下游50bp。

步骤S05-3：因为基因组范围内不同GC含量的区域，测序覆盖度通常不同。因此根据上一步骤计算的SNP位点所在区域的GC含量，使用局部加权回归(Locally WeightedScatterplot Smoothing LOWESS)对测序深度进行GC偏差校正。

步骤S05-4：对经过GC偏差校正的深度信号，使用滑动平均算法根据SNP位点上下游50bp内窗口大小的深度进行数据平滑处理。

步骤S05-5：为了检测肿瘤细胞中的拷贝数变异，同时消除由于比对偏差造成的测序深度的差异，将深度信号r_i按照如下公式转换为肿瘤样本和配对样本深度的比值并取对数(LogR)。其中表示肿瘤样本在基因组坐标为i的深度，/>表示配对正常样本在基因组坐标为i的深度。

步骤S05-6：根据去噪平滑后的SNP位点测序深度信号LogR和等位基因频率BAF将基因组分割成Q个区间。具体的，最优的分割结果为最小化下述公式的分割。Ij表示第I个分割区间，r_i表示第I个分割区间中的第i个SNP位点去噪后的LogR值；表示第I个分割区间中所有SNP位点的LogR均值；bi表示第I个分割区间中的第i个SNP位点的BAF；ave({bs})表示第I个分割区间中所有SNP位点BAF的均值；λQ为惩罚项，促使优化时更倾向于分割为更少的片段。w和(1-w)分别表示在优化过程中对LogR值和BAF值的权重根据具体情况选择合适的值，默认值可以设为0.5。

步骤S6：经过步骤S5，获得了所有SNP位点的LogR和BAF,以及使用上述两种信号将基因组区间分割为Q个区间的结果。本步骤将使用这些结果进一步计算肿瘤纯度与肿瘤倍性，以及每个区间的等位基因特异拷贝数结果，流程图参照图3所示。

步骤S06-1：获得所有SNP位点的LogR和BAF,以及使用上述两种信号将基因组区间分割为Q个区间的结果。

步骤S06-2：对于每个区间内的LogR期望值和BAF的期望值，可以由该区间的等位基因拷贝数、肿瘤纯度和肿瘤倍性计算得到：

其中ρ表示肿瘤纯度，Ψ_t表示肿瘤倍性，n_A，i和n_B，i分别表示第i个SNP位点中拷贝数较大的allele(A)的等位基因拷贝数与拷贝数较小的allele(B)的等位基因拷贝数。r_i表示第I个分割区间中的第i个SNP位点去噪后的LogR值。b_i表示第I个分割区间中的第i个SNP位点的BAF。

经过代换，可推导出n_A，i和n_B，i的估计值如下：

又因为拷贝数应为非负整数，因此，肿瘤纯度和肿瘤倍性的求解可通过最小化下式得到：

其中w₁为对应SNP位点的权重，对于BAF偏离0.5的位点应给予更高的权重。因为肿瘤纯度的取值范围为(0，1]，而肿瘤倍性的取值范围为非负整数。因此可以通过网格搜索肿瘤纯度(步长0.01)和肿瘤倍性的可能取值组合并从中选取可以最小化上式的组合。

步骤S6-3(可选)：在步骤S6-2中进行优化时，一般情况下会得到多个局部极小值(多组肿瘤纯度和倍性的组合)，这是由于存在多各肿瘤纯度和肿瘤倍性的组合可以得到相近的LogR和BAF值，比如更高的肿瘤倍性和更低的肿瘤纯度。当出现这样的情况时，可通过SNV的结果进行正交验证。使用SNV，以及ASCNV检测结果，可使用Pyclone等软件预测肿瘤样本的亚克隆结构，将所有的SNV聚成数个Cluster，其中细胞比例(cellular prevalence，CP)最大的Cluster可以视作该样本的主克隆Cluster。根据下述公式得到肿瘤纯度(假设主克隆所在的Cluster的CCF为1)。因此可以使用上一步中优化过程中获得的多个局部极值对应的肿瘤纯度和肿瘤倍性计算样本的亚克隆结构，并选择根据SNV计算得到的肿瘤纯度与ASCNV计算得到的肿瘤纯度结果最为接近的一组结果，作为最终的肿瘤纯度和肿瘤倍性的估计值。

CP＝CCF*ρ，CCF为肿瘤细胞中，携带目标突变的比例平均比值；ρ为肿瘤纯度；CP为细胞中携带目标突变的比例。

步骤S7：基于肿瘤纯度校正TMB的方法如下：

计算TMB，通常情况下，TMB由捕获区域的所有非同义体细胞突变计算得到，如下公式：

其中N为所有经过SNV检测，并经过过滤和注释的非同义突变数目。Length表示捕获区域的长度(单位为MB)。f_i表示突变的频率，0.05为过滤突变的突变频率阈值，这个阈值是计算TMB常用的阈值。本发明中，凭借计算肿瘤纯度校正TMB的方法为，在不影响TM分类阈值的前提下，且在检测试剂盒和生信流程允许的前提下，根据肿瘤纯度自适应下调突变过滤的频率阈值。LOD表示所使用的检测流程能达到的突变检测下限，这里假设LOD低于5％，默认为1％。具体如下公式所示：

实施例2

本实施例对高肿瘤纯度的肿瘤样本与配对样本进行不同比例的混合，以模拟不同肿瘤纯度的样本，使用本发明中的肿瘤纯度估计方法进行肿瘤纯度估计，并以模拟数据对结果进行评估。

1.测试样本准备：

本实施例中使用菁良基因提供的TMB标准品进行模拟实验。每一例样本由100％肿瘤纯度的肿瘤样本和配对的正常组织样本组成。实施例1中100％参考品采用IDT xGenExome Research Panel v1.0建库，在Illumina Hiseq X Ten高通量测序平台进行测序，得到100％肿瘤纯度参考品的测序数据，有效测序深度大于500X，数据量不少于80G。本实例中，通过不同比例的混合100％纯度肿瘤样本和正常组织样本来获得不同纯度梯度的模拟样本。

具体方式如下，将不同比例的100％浓度样品的BAM文件和正常组织样品的BAM文件混合成一个BAM文件进行后续分析。

例如，为了模拟90％肿瘤纯度的样品，从100％浓度样品的BAM文件中，随机抽样90％的reads，同时从正常组织样品BAM文件中，抽取10％的reads，将两次抽取的reads混合一个BAM文件，作为90％肿瘤纯度的样品。其余肿瘤纯度的样品也依照相同的方式进行生成。本实施例中共使用5对原始样品：A,B,C,D,E；每例样品的模拟生成5％、10％、20％、30％、40％、50％、60％、70％、80％、90％的纯度梯度，加上原始的100％纯度样品，共11个不同肿瘤纯度梯度的结果，最终生成共55对配对BAM文件。

2.肿瘤纯度估计：

2.1SNV/INDEL检测：

SNV/INDEL的检测使用GATK Mutect2软件进行分析，按照GATK官网提供的最佳实践流程对突变进行过滤。

2.2ASCNV检测的数据预处理与区间分割：

本实施例中使用dbSNP数据库提供的部分位于全外显子内的SNP位点进行ASCNV的分析。按照说明书中的步骤S05及其子步骤进行ASCN分析。获得基于SNP位点平滑去噪后的深度比LogR和BAF，以及基于上述两种数据信号对染色体进行分割的结果。

2.3肿瘤纯度估计：

使用实施例1步骤S06-2中的公式，通过网格搜索获取最优肿瘤纯度和肿瘤倍性的数个局部极值，以及染色体分割区间的ASCNV结果。使用步骤2.1SNV结果和ASCNV结果作为输入，使用Pyclone对样本进行肿瘤的亚克隆结构分析。分析结果中，所有突变的根据CP值进行了聚类，则平均CP/VAF最大的那个Cluster所对应的CP的均值可以视作根据SNV所估计的肿瘤纯度值。将其与根据ASCNV优化得到的数个局部极值进行比较，选择最为接近的一组结果作为最终的肿瘤纯度和肿瘤倍性的估计值。

2.4比较模拟数据的肿瘤纯度与估计值

对步骤1中由5对原始样本，模拟得到的11个肿瘤纯度共55对数据进行上述的肿瘤纯度估计。

表1和图4结果显示，在5例样品中，在10％及以上梯度的模拟样本都能得到较为准确的估计值。而当实际的肿瘤纯度低于10％时，要准确地估计肿瘤纯度较为困难。这是因为当肿瘤纯度特别低的时候，BAF的偏移量或者LogR的偏移量都比较微弱，难以与噪声分离。

表1.5例样品的11个纯度梯度的肿瘤纯度估计值

实施例3

本实施例提供了根据肿瘤纯度校正TMB的方法。

本实施例中使用实施例2中生成的模拟数据，继续进行TMB分析。本实施例将不同纯度梯度下TMB的未校准结果和校准后结果与100％纯度参考品TMB值进行比较。

将实施例1中生成模拟数据的SNV结果使用ANNOVAR软件进行注释，用于计算TMB的SNV过滤方法为：cds区域内、去除同义突变、去除dbSNP和Exac数据库中MAF≥0.01的SNP。

其中未校正的TMB值使用5％频率阈值进行过滤；而校正的TMB值根据肿瘤纯度自适应调整为对应纯度的过滤阈值：5％*ρ。其中ρ为肿瘤纯度的估计值。

结果参照图5和表2所示，共5例样品，每幅子图代表一个样品的结果。横轴表示同一样品不同肿瘤纯度梯度，左侧的纵轴表示不同肿瘤纯度下TMB值，右侧的纵轴(散点图)则表示不同纯度梯度的纯度估计值。每幅子图中，共有4条曲(直)线表示TMB值随纯度下降的变化。其中answer-TMB所代表的水平线为参考品100％浓度提供的标准TMB值。曲线IdealTMB表示按照实际肿瘤纯度自适应调整VAF过滤阈值后计算的TMB曲线。曲线Purity awareTMB表示采用软件估计的纯度，并根据肿瘤纯度的估计值进行自适应调整VAF过滤阈值后的TMB曲线。图中还给出了每例样品的VAF分布的柱形图，VAF的分布呈现较为明显的数个Cluster。Unify VAF则表示不考虑样品的肿瘤纯度，按照统一5％ VAF过滤阈值进行过滤的TMB曲线。

比较Ideal TMB的曲线与Unify VAF的曲线可以发现，在不考虑样品的纯度时，TMB值随纯度下降衰减相对更为严重。不同的样品衰减程度不同，A、B和D样品的VAF相对更高一些，因此衰减只有在肿瘤纯度低于20％的时候下降很严重。

而C、E样品的VAF普遍较低，这可能由于样品本身的肿瘤异质性比较严重；因此这两个样品的衰减更为严重；尤其是E样品，在肿瘤纯度80％起就表现出了明显的衰减。比较Ideal TMB和Purity aware TMB的曲线可以发现，本发明提供的肿瘤纯度估计方法，可以较为准确的估计肿瘤纯度，因此计算得到的TMB结果非常接近根据实际肿瘤纯度校正后TMB的结果。

因此，本发明提出的肿瘤纯度估计方法以及依据肿瘤纯度校正TMB的方法，对于低纯度，尤其是高异质性的肿瘤样本具有明显的效果。

表2：不同肿瘤纯度下TMB的校正值

/>

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种评估肿瘤纯度的方法，其特征在于，其包括如下步骤：

所述体细胞突变分析选自点突变(single nucleotide variant,SNV)和插入缺失(insertion deletion,INDEL)中的至少一种；

所述ASCNV检测包括：

分别计算所述肿瘤样本和所述正常组织样本的SNP位点的测序深度、等位基因频率(BAF)和SNP位点所在区域的GC含量；

对所述测序深度进行GC含量偏差校正；然后对经过GC含量偏差校正后的测序深度的信号进行数据降噪处理；再将所述数据降噪处理后的测序深度信号转换为肿瘤肿瘤样本和配对样本深度的比值并取对数，即为LogR；

根据SNP位点测序深度信号LogR和等位基因频率BAF对基因区间进行分割，根据分割后的片段获得肿瘤纯度、肿瘤倍性的多个可行解，从所述可行解中选择一个作为肿瘤纯度和肿瘤倍性的估计值；

优选地，获得每个分割后的片段的ASCNV；根据体细胞突变计算得到的肿瘤纯度与ASCNV计算得到的肿瘤纯度结果最为接近的一组结果，作为肿瘤纯度和肿瘤倍性的估计值；

优选地，经过GC含量偏差校正后的测序深度的信号进行数据降噪处理选自如下至少一种的降噪方式：平滑降噪、指数滑动平均、Savitzky-Golay滤波器和离散傅里叶变化。

2.根据权利要求1所述的评估肿瘤纯度的方法，其特征在于，根据分割后的片段获得肿瘤纯度、肿瘤倍性的多个可行解，使用体细胞突变分析结果以及每个分割后的片段的ASCNV结果进行肿瘤的亚克隆结构分析，以使得所有突变的肿瘤根据CP值进行聚类，其中，将平均等位基因频率(VAF)最大的Cluster所对应的细胞比例(CP)值作为根据体细胞突变所估计的肿瘤纯度；将所述根据体细胞突变所估计的肿瘤纯度值与根据ASCNV优化得到的所述多个局部极值进行比较，选择最为接近的一组结果作为最终的肿瘤纯度和肿瘤倍性的估计值；

根据体细胞突变所估计的肿瘤纯度值的计算公式如下：

CP＝CCF*ρ，CCF为肿瘤细胞中，携带目标突变的比例平均比值；ρ为肿瘤纯度；CP为细胞中携带目标突变的比例；

优选地，使用分析软件预测肿瘤样本的亚克隆结构；优选地，所述分析软件为Pyclone或CopyKAT。

3.根据权利要求2所述的评估肿瘤纯度的方法，其特征在于，根据分割后的片段获得肿瘤纯度、肿瘤倍性的多个可行解，获得每个分割后的片段的ASCNV的计算公式如下：

优选地，所述肿瘤纯度和肿瘤倍性的求解通过最小化下式得到：

优选地，所述LogR值通过如下公式计算：

4.根据权利要求1所述的评估肿瘤纯度的方法，其特征在于，根据SNP位点测序深度信号LogR和等位基因频率BAF对基因区间进行分割的方法如下：

最小化如下所示的公式进行将基因分割成Q个区间：

I_j表示第I个分割区间，r_i表示第I个分割区间中的第i个SNP位点去噪后的LogR值；表示第I个分割区间中所有SNP位点的LogR均值；bi表示第I个分割区间中的第i个SNP位点的BAF；ave({bs})表示第I个分割区间中所有SNP位点BAF的均值；λQ为惩罚项，以使得优化时更倾向于分割为更少的片段；w和(1-w)分别表示在优化过程中对LogR值和BAF值的权重；

优选地，所述数据降噪处理选自平滑降噪、指数滑动平均、Savitzky-Golay滤波器和离散傅里叶变化中的至少一种；

优选地，对经过GC偏差校正的深度信号，使用滑动平均算法根据SNP位点上下游50bp内窗口大小的测序深度的信号进行数据平滑处理；

优选地，使用局部加权回归(Locally Weighted Scatterplot Smoothing LOWESS)对测序深度进行GC偏差校正。

5.根据权利要求1所述的评估肿瘤纯度的方法，其特征在于，将肿瘤样本以及与其配对的正常组织样本的测序文件输入进行体细胞突变分析和ASCNV分析前还包括：将肿瘤样本以及与其配对的正常组织样本的高通量测序下机数据进行预处理，然后进行数据质控，再与参考基因组进行比对；

优选地，所述预处理包括如下步骤中的至少一种：去除接头、过滤低质量的测序片段、切除5’端测序质量较低的碱基和3’端测序质量较低的碱基；

优选地，所述与参考基因组进行比对包括：使用比对软件将预处理后的测序数据比对到人类基因组上，生成BAM文件，并进行去重；

优选地，所述数据质控包括获得如下至少一种指标：DNA提取量、上机数据量、GC含量、BAM文件的DUP率、BAM去重后的平均深度、测序片段的比对率、肿瘤组织的交叉污染比例以及肿瘤样本和配对正常样本的胚系突变的一致率。

6.一种基于肿瘤纯度校正TMB的方法，其特征在于，其包括如下步骤：

根据权利要求1-5任一项所述的评估肿瘤纯度的方法获得的肿瘤纯度ρ，通过如下公式校正TMB：

TMB_adj为校正TMB值，N为所有经过SNV检测，并经过过滤和注释的非同义突变数目；Length表示捕获区域的长度(单位为MB)；f_i表示点突变和插入缺失的频率，0.05为过滤突变的突变频率阈值；LOD表示所使用的检测流程能达到的突变检测下限。

7.一种评估肿瘤纯度的装置，其特征在于，其包括：

所述输入模块用于：肿瘤样本以及与其配对的正常组织样本的测序文件输入；

所述体细胞突变分析模块用于：对输入的所述测序文件进行点突变(singlenucleotide variant,SNV)、短插入删除片段(insertion deletion,INDEL)、移码和片段缺失中的至少一种突变的分析；

所述等位基因频率特异性拷贝数变异(ASCNV)检测模块用于：分别计算所述肿瘤样本和所述正常组织样本的SNP位点的测序深度、等位基因频率(BAF)和SNP位点所在区域的GC含量；对所述测序深度进行GC含量偏差校正；然后对经过GC含量偏差校正后的测序深度的信号进行数据降噪处理；再将所述数据降噪处理后的测序深度信号转换为肿瘤肿瘤样本和配对样本深度的比值并取对数，即为LogR；根据SNP位点测序深度信号LogR和等位基因频率BAF对基因区间进行分割，根据分割后的片段获得肿瘤纯度、肿瘤倍性的局部极值，获得每个分割后的片段的ASCNV；

所述肿瘤纯度评估模块用于：根据体细胞突变计算得到的肿瘤纯度与ASCNV计算得到的肿瘤纯度结果最为接近的一组结果，作为肿瘤纯度和肿瘤倍性的估计值。

8.一种基于肿瘤纯度校正TMB的装置，其特征在于，其具有校正TMB模块，所述校正TMB模块用于：通过如下公式校正TMB：

TMB_adj为校正TMB值，N为所有经过SNV检测，并经过过滤和注释的非同义突变数目；Length表示捕获区域的长度(单位为MB)；f_i表示点突变和插入缺失的频率，0.05为过滤突变的突变频率阈值；LOD表示所使用的检测流程能达到的突变检测下限；ρ肿瘤纯度；

优选地，所述校正TMB模块与权利要求7所述的装置中的肿瘤纯度评估模块通讯连接。

9.一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一项所述的评估肿瘤纯度的方法中的步骤或实现权利要求6所述的基于肿瘤纯度校正TMB的方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的评估肿瘤纯度的方法中的步骤或实现权利要求6所述的基于肿瘤纯度校正TMB的方法中的步骤。

11.一种基于肿瘤纯度校正TMB的系统，其特征在于，其包括权利要求8所述的基于肿瘤纯度校正TMB的装置。