CN109033749A

CN109033749A - 一种肿瘤突变负荷检测方法、装置和存储介质

Info

Publication number: CN109033749A
Application number: CN201810713270.5A
Authority: CN
Inventors: 李淼; 王佳茜; 陈龙昀; 杨洁; 高志博
Original assignee: Shenzhen Yulce Biological Technology Co Ltd
Current assignee: Yuze Medical Devices Jiangsu Co., Ltd.
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-18
Anticipated expiration: 2038-06-29
Also published as: CN109033749B

Abstract

本申请公开了一种肿瘤突变负荷检测方法、装置和存储介质。本申请的肿瘤突变负荷检测方法包括下机数据处理步骤、数据过滤及质控步骤、序列比对及质控步骤、体细胞变异检测及过滤步骤、变异结果注释步骤、肿瘤纯度预测步骤、样本成对质控步骤和肿瘤突变负荷预测步骤。本申请的检测方法，不仅能够区分体细胞突变，而且充分考虑了突变的克隆性和亚克隆性情况下，过滤去除假阳性变异，使得最终获得的TMB值能够更准确的反映肿瘤细胞中总的基因突变程度。本申请的肿瘤突变负荷检测方法对免疫治疗用药具有显著的临床指导意义，并且，本申请的肿瘤突变负荷检测方法特别对中国人群突变频率进行注释，为后续提供适用于中国人群的用药指导奠定了基础。

Description

一种肿瘤突变负荷检测方法、装置和存储介质

技术领域

本申请涉及肿瘤突变负荷检测领域，特别是涉及一种肿瘤突变负荷检测方法、装置和存储介质。

背景技术

肿瘤是由基因组变异引起的疾病。免疫检查点抑制剂开辟了肿瘤治疗的新时代，但由于缺乏合适的临床分子标志物，PD-1/PD-L1药物的受益人群无法被高效的筛选，只有20％-30％。肿瘤突变负荷(缩写TMB)是反映肿瘤细胞中总的基因突变程度的一个指标，通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。不同类型的肿瘤、同一种肿瘤中不同人群的TMB水平会不一样，并且在平均TMB水平比较高的肿瘤中，也并不是所有患者的TMB水平都比较高，不同肿瘤类别中存在高TMB水平的人群比例也都不一样；已有研究表明高TMB的水平能大概率预测肺癌、膀胱癌、黑色素瘤等肿瘤对免疫检查点抑制剂药物响应概率。鉴于TMB作为标志物在临床试验已取得一些良好的效果，已有国内外已有一些大型的公司或药企单独或合作进行TMB生物标志物的开发，研究将TMB纳入免疫检查点抑制剂药物临床试验的检测范围。

作为分子标志物，临床上有高效准确检测TMB的需求，目前市场上尚无此类成熟产品。研究方面通常采用全外显子组测序的方法分析检测TMB；但是，基于外显子组测序的TMB检测方法具有成本高、周期长的缺陷，不适合临床应用。并且，传统的肿瘤基因组检测方法通常采用肿瘤单样本检测，研究发现这种方法无法有效区分体细胞突变与生殖细胞突变；该缺陷对于常规靶向检测影响不大，但对于肿瘤突变负荷检测存在较大影响。因此，亟待开发相应的TMB准确检测方法。

发明内容

本申请的目的是提供一种新的肿瘤突变负荷检测方法、装置和存储介质。

为了实现上述目的，本申请采用了以下技术方案：

本申请的第一方面公开了一种肿瘤突变负荷检测方法，包括下机数据处理步骤、数据过滤及质控步骤、序列比对及质控步骤、体细胞变异检测及过滤步骤、变异结果注释步骤、肿瘤纯度预测步骤、样本成对质控步骤和肿瘤突变负荷预测步骤；

肿瘤突变负荷预测步骤：包括计算达到高深度测序标准的外显子区域总大小，计为s，统计该区域内非同义突变且为克隆突变的数量，计为c，根据以下公式

TMB＝c/s

计算每百万碱基的平均突变数量，即TMB值。

其中，达到高深度测序标准的外显子区域是指肿瘤组织测序深度>500×，对照样本测序深度>300×的高深度测序的外显子区域。

需要说明的是，本申请的肿瘤突变负荷检测方法中，下机数据处理步骤、数据过滤及质控步骤、序列比对及质控步骤，这三个步骤为现有公开的测序数据标准处理步骤；变异结果注释步骤和样本成对质控步骤也是本领域的常规技术手段；而体细胞变异检测及过滤步骤，在申请号201711107001.6的专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”中有详细说明；肿瘤纯度预测步骤在申请号201810273763.1的专利申请“基于二代测序的插入缺失突变检测方法、装置和存储介质”中有详细说明；在此不累述。但是，考虑到肿瘤突变负荷检测方法的准确性，本申请优选的方案中，对下机数据处理步骤、数据过滤及质控步骤、序列比对及质控步骤、体细胞变异检测及过滤步骤、变异结果注释步骤、肿瘤纯度预测步骤、样本成对质控步骤分别进行了详细的描述，详见以下技术方案。

还需要说明的是，本申请的肿瘤突变负荷检测方法，充分考虑了突变的克隆性和亚克隆性，并对体细胞突变进行区分，过滤去除假阳性变异，使得最终获得的TMB值能够更真实、准确的反映肿瘤细胞中总的基因突变程度。

优选的，本申请的肿瘤突变负荷检测方法中，下机数据处理步骤：包括对测序仪进行了参数优化，将肿瘤组织和对照样本的测序数据文本转化为通用文件格式，分别获得肿瘤组织和对照样本的数据，并对获得的数据进行质控程序质控，质控合格进入下一步骤；其中，测序仪参数优化主要包括合并4条lane的数据统一进行处理，允许index错配数为1；质控程序质控的标准为，总测序数据量>39G，各样本数据量与理论值差距<20％，Q30>80％，未拆分数据<5％；

数据过滤及质控步骤：包括去除测序接头序列、低质量序列和N碱基组成的序列，并对过滤数据的Clean_Base、Q20、Q30、GC含量、GC-AT_Seperation、N含量、平均读长长度、读长分布标准差、Average_base_quality和Clean_base_ratio进行筛选，选择符合设定阈值的数据进行后续分析；其中，各参数的设定阈值可以根据试验需求而定；

序列比对及质控步骤：包括将数据过滤及质控步骤获得的数据比对到参考基因组上，比对结果直接进行去重合排序处理，不需生成临时文件；并对比对上的数据进行Mapping_rate、Mapping_quality、Insert_size、Duplication_rate、Capture_rate、Depth_in_target、Target_coverage、Target_500×、Target_100×和Target_10×筛选，选择符合设定阈值的数据进行后续分析；其中，各参数的设定阈值可以根据试验需求而定；

体细胞变异检测及过滤步骤：包括对肿瘤组织和对照样本的数据同时进行变异检测，发现体细胞突变，得到原始变异结果，过滤去除原始变异结果中的假阳性变异，获得真实突变数据；本申请只保留体细胞突变；

变异结果注释步骤：包括对突变的基因名称、转录本编号及位置信息和HGVS突变编号进行注释，并对中国人群突变频率进行注释，对突变进行有害性预测和保守性预测注释，对突变相关疾病信息进行注释；

肿瘤纯度预测步骤：包括对肿瘤组织突变的纯度进行检测，判断肿瘤组织突变为克隆突变或亚克隆突变，获得克隆突变的数量；如果肿瘤纯度<20％，表明检测样本中大多数为正常组织，判定检测样本不合格，检测结果无意义；

样本成对质控步骤：包括根据设计的SNP质控位点，获得来自于同一个体的肿瘤组织和对照样本成对数据；如果肿瘤组织和对照样本的SNP质控位点不同，则两者来自不同的个体，表示检出样本出错，检测结果无意义。

本申请中，Clean_Base表示去接头后的碱基数、Q20表示碱基质量大于20的百分比、Q30表示碱基质量大于30的百分比、GC含量、GC-AT_Seperation表示GC-AT分离比、N含量即N_Rate、平均读长长度即Average_read_length、读长分布标准差即Read_length_stddev、Average_base_quality表示平均碱基质量，Clean_base_ratio表示可用数据比例，Mapping_rate表示比对率、Mapping_quality表示平均比对质量、Insert_size表示插入片段长度、Duplication_rate表示重复片段比例、Capture_rate表示捕获效率、Depth_in_target表示目标区域测序深度、Target_coverage表示目标区域覆盖率、Target_500×表示大于500×测序深度区域所占比例、Target_100×表示大于100×测序深度区域所占比例膜，Target_10×表示大于100×测序深度区域所占比例。

优选的，本申请的肿瘤突变负荷检测方法还包括肿瘤突变负荷用药指导步骤，该肿瘤突变负荷用药指导步骤包括，将肿瘤突变负荷预测步骤获得的TMB值与解读知识库获得的TMB阈值划分进行比较，根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息。

需要说明的是，本申请的一种实现方式中，肿瘤突变负荷检测的目的就是为了对用药进行指导，因此，优选的方案中，肿瘤突变负荷检测方法还包括肿瘤突变负荷用药指导步骤。其中，TMB阈值划分是根据肿瘤数据库统计分析的，不同用药及不同用药效果情况下的TMB范围，或者说，免疫检验点抑制剂在不同的TMB范围的适用情况；根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息，就是根据实际检测的TMB值给出相应的在该TMB值下的用药指导信息。

优选的，肿瘤用药指导信息包括，FDA及CFDA批准的免疫检验点抑制剂适用情况，或者NCCN及ASCO达成共识的免疫检验点抑制剂适用情况，或者文献及临床试验发现的免疫检验点抑制剂适用情况。

需要说明的是，本申请的优选方案中，为了确保所给出的用药指导信息的准确性和权威性，所有的免疫检验点抑制剂适用情况信息，都是根据FDA及CFDA批准，或者NCCN及ASCO达成共识，又或者文献及临床试验发现的免疫检验点抑制剂适用情况。

优选的，解读知识库包括中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据和中国胃癌患者基因组数据。

需要说明的是，本申请的优选方案中，解读知识库包括了中国人群的多种癌症基因组数据，其目的是为了获得特别针对中国人群的TMB阈值划分。这是因为，研究显示，国外已发表的肿瘤突变负荷相关文献通常使用欧美人群数据研究，这与中国肿瘤患者人群突变特征不完全相符，不能直接用于指导。可以理解，如果将解读知识库换成其它国家或地区的癌症基因组数据库，同样也可以得到针对这些国家或地区的肿瘤患者人群突变特征，从而得到相应的适用于这些国家或地区的用药指导信息；当然，相应的，具体的TMB阈值划分也可能会相应的变化，在此不做具体限定。

优选的，TMB阈值划分具体为，TMB小于2.5个每百万碱基时，评价为TMB-Low；TMB大于或等于2.5个每百万碱基，并且TMB小于10个每百万碱基时，评价为TMB-Medium；TMB大于或等于10个每百万碱基时，评价为TMB-High；根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息包括，TMB值为TMB-Low时，免疫检验点抑制剂效果不佳，输出建议不采用免疫治疗，建议采用靶向治疗或其它疗法的用药指导信息；TMB值为TMB-High时，免疫检验点抑制剂效果较好，输出建议采用免疫治疗的用药指导信息。

需要说明的是，TMB阈值划分是本申请的一种实现方式中，根据中国人群的多种癌症基因组数据分析得到每个样本的TMB数值，并按照4分位进行计算，得出的。而不同TMB阈值划分下的指导信息，也是临床研究结果得出的。

本申请的第二方面公开了一种肿瘤突变负荷检测的装置，包括，

下机数据处理模块：用于对测序仪进行了参数优化，将肿瘤组织和对照样本的测序数据文本转化为通用文件格式，分别获得肿瘤组织和对照样本的数据，并对获得的数据进行质控程序质控，质控无异常进入下一步骤；

数据过滤及质控模块：用于去除测序接头序列、低质量序列和N碱基组成的序列，并对过滤数据的Clean_Base、Q20、Q30、GC含量、GC-AT_Seperation、N含量、平均读长长度、读长分布标准差、Average_base_quality和Clean_base_ratio进行筛选，选择符合设定阈值的数据进行后续分析；

序列比对及质控模块：用于将数据过滤及质控步骤获得的数据比对到参考基因组上，比对结果直接进行去重合排序处理，不需生成临时文件；并对比对上的数据进行Mapping_rate、Mapping_quality、Insert_size、Duplication_rate、Capture_rate、Depth_in_target、Target_coverage、Target_500×、Target_100×和Target_10×筛选，选择符合设定阈值的数据进行后续分析；

体细胞变异检测及过滤模块：用于对肿瘤组织和对照样本的数据同时进行变异检测，发现体细胞突变，得到原始变异结果，过滤去除原始变异结果中的假阳性变异，获得真实突变数据；

变异结果注释模块：用于对突变的基因名称、转录本编号及位置信息和HGVS突变编号进行注释，并对中国人群突变频率进行注释，对突变进行有害性预测和保守性预测注释，对突变相关疾病信息进行注释；

肿瘤纯度预测模块：用于对肿瘤组织突变的纯度进行检测，判断肿瘤组织突变为克隆突变或亚克隆突变，获得克隆突变的数量；

样本成对质控模块：用于根据设计的SNP质控位点，获得来自于同一个体的肿瘤组织和对照样本成对数据；

肿瘤突变负荷预测模块：用于计算达到高深度测序标准的外显子区域总大小，计为s，统计该区域内非同义突变且为克隆突变的数量，计为c，根据以下公式

TMB＝c/s

计算每百万碱基的平均突变数量，即TMB值。

优选的，本申请的装置还包括肿瘤突变负荷用药指导模块，用于将肿瘤突变负荷预测步骤获得的TMB值与解读知识库获得的TMB阈值划分进行比较，根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息。

本申请的装置中，解读知识库包括中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据和中国胃癌患者基因组数据；肿瘤用药指导信息包括，FDA及CFDA批准的免疫检验点抑制剂适用情况，或者NCCN及ASCO达成共识的免疫检验点抑制剂适用情况，或者文献及临床试验发现的免疫检验点抑制剂适用情况；TMB阈值划分具体为，TMB小于2.5个每百万碱基时，评价为TMB-Low；TMB大于或等于2.5个每百万碱基，并且TMB小于10个每百万碱基时，评价为TMB-Medium；TMB大于或等于10个每百万碱基时，评价为TMB-High；根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息包括，TMB值为TMB-Low时，免疫检验点抑制剂效果不佳，输出建议不采用免疫治疗，建议采用靶向治疗或其它疗法的用药指导信息；TMB值为TMB-High时，免疫检验点抑制剂效果较好，输出建议采用免疫治疗的用药指导信息。

本申请的第三方面公开了一种肿瘤突变负荷检测的装置，包括：存储器，用于存储程序；处理器，用于通过执行所述存储器存储的程序以实现本申请的肿瘤突变负荷检测方法。

本申请的第四方面公开了一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本申请的肿瘤突变负荷检测方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请的肿瘤突变负荷检测方法，不仅能够区分体细胞突变，而且充分考虑了突变的克隆性和亚克隆性情况下，过滤去除假阳性变异，使得最终获得的TMB值能够更准确的反映肿瘤细胞中总的基因突变程度。本申请TMB检测方法对免疫治疗用药具有显著的临床指导意义，并且，本申请的肿瘤突变负荷检测方法特别对中国人群突变频率进行注释，为后续提供适用于中国人群的用药指导奠定了基础。

附图说明

图1是本申请实施例中肿瘤突变负荷检测方法的流程框图；

图2是本申请实施例中用于肿瘤突变负荷检测的装置的结构框图；

图3是本申请实施例中肺癌样本模拟的基因芯片捕获测序检测TMB与全外显子检测TMB的对比分析结果；

图4是本申请实施例中膀胱癌样本模拟的基因芯片捕获测序检测TMB与全外显子检测TMB的对比分析结果；

图5是本申请实施例中头颈鳞癌样本模拟的基因芯片捕获测序检测TMB与全外显子检测TMB的对比分析结果；

图6是本申请实施例中非小细胞肺癌样品采用基于基因芯片捕获测序检测TMB及TMB检测方法对免疫治疗的用药指导分析；

图7是本申请实施例中非小细胞肺癌患者接受免疫治疗后的生存曲线；

图8是本申请实施例中采用基于基因芯片捕获测序对44例进行免疫治疗临床试验的病人进行TMB检测及TMB信息分析对免疫治疗的用药指导分析。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

现有的TMB检测分析方法，通常采用肿瘤单样本检测，本申请经过研究发现，这种方法无法有效区分体细胞突变与生殖细胞突变；这对于肿瘤突变负荷检测存在较大影响。因此，本申请特别提供了一种肿瘤突变负荷检测方法，如图1所示，包括以下步骤：

下机数据处理步骤101：包括对测序仪进行了参数优化，将肿瘤组织和对照样本的测序数据文本转化为通用文件格式，分别获得肿瘤组织和对照样本的数据，并对获得的数据进行质控程序质控，质控无异常进入下一步骤。

本申请的一种实现方式中，通用文件格式为fastq文件格式，即首先将测序仪产生的专用格式数据转化为通用的fastq文件格式；并且，一般来说，一张张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。本申请的一种实现方式中使用bcl2fastq软件对下机数据进行处理，并针对常用的NextSeq 500测序仪进行了参数上的优化，达到提高数据利用率、简化后续处理的目的。其中，测序仪参数优化主要包括合并4条lane的数据统一进行处理，允许index错配数为1；质控程序质控的标准为，总测序数据量>39G，各样本数据量与理论值差距<20％，Q30>80％，未拆分数据<5％。

数据过滤及质控步骤102：包括去除测序接头序列、低质量序列和N碱基组成的序列，并对过滤数据的Clean_Base、Q20、Q30、GC含量、GC-AT_Seperation、N含量、平均读长长度、读长分布标准差、Average_base_quality和Clean_base_ratio进行筛选，选择符合设定阈值的数据进行后续分析。

本申请的一种实现方式中，使用cutadapt软件进行去除测序接头序列、低质量序列和N碱基组成序列的操作，并且，选择符合以下设定阈值的数据进行后续分析：Clean_Base>2500Mb、Q20>95％、Q30>80％、GC含量>45％and<50％、GC-AT_Seperation<0.500％、N含量<0.100％、平均读长长度>120bp and<＝151bp、读长分布标准差<20.000、Average_base_quality>32.000、Clean_base_ratio>80％。

序列比对及质控步骤103：包括将数据过滤及质控步骤获得的数据比对到参考基因组上，比对结果直接进行去重合排序处理，不需生成临时文件；并对比对上的数据进行Mapping_rate、Mapping_quality、Insert_size、Duplication_rate、Capture_rate、Depth_in_target、Target_coverage、Target_500×、Target_100×和Target_10×筛选，选择符合设定阈值的数据进行后续分析。

本申请的一种实现方式中，序列比对采用bwamem算法进行，使用的参考基因组为GRCh37.73。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。选择符合以下设定阈值的数据进行后续分析：Mapping_rate>99％、Mapping_quality>35、Insert_size<180bp and>120bp、Duplication_rate<30％、Capture_rate>50％、Depth_in_target>500X、Target_coverage>98％、Target_500×>70％、Target_100×>90％、Target_10×>90％。

体细胞变异检测及过滤步骤104：包括对肿瘤组织和对照样本的数据同时进行变异检测，发现体细胞突变，得到原始变异结果，过滤去除原始变异结果中的假阳性变异，获得真实突变数据；本申请只保留体细胞突变。

本申请的一种实现方式中，变异检测使用samtools及varscan软件进行，过滤去除假阳性变异参考专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”，申请号201711107001.6。具体的，过滤去除假阳性变异包括过滤去除未达到设定要求的点突变位点，或过滤去除未达到设定阈值的插入缺失(InDel)突变位点。

过滤去除未达到设定要求的点突变位点包括：

1)由附近上游的缺失导致的假阳性点突变；

2)由比对造成的与附近SNP位点互斥的假阳性突变；

3)由PCR扩增造成的假阳性突变；

4)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果；其中，突变支持数的设定阈值是3，位点覆盖深度的设定阈值是20；

5)待测样本中突变等位基因频率低于设定阈值的结果；以及，对照样本中对应的突变等位基因频率高于设定阈值的结果；其中，待测样本中突变等位基因频率的设定阈值根据泊松分布模型针对每个位点算出不同的阈值，对照样本中对应的突变等位基因频率的设定阈值是2％；

6)其他低质量或高质量碱基占比超过设定阈值的待检测位点，其中，低质量或高质量碱基包括非参考碱基和非突变碱基；设定阈值是40％；

7)重复区域的突变位点；

8)周围有插入缺失富集的突变位点；

9)周围比对不匹配超过设定阈值的突变位点；设定阈值是5，包括Fisher单边检验中支持突变的不匹配读段的比例显著高于支持参考碱基的不匹配读段的比例，检验P值小于0.05；

10)支持突变的碱基富集在读段末端或一条链方向；

11)使用秩和检验，支持突变的碱基质量值或比对质量值不显著高于设定阈值的结果；支持突变的碱基质量值和比对质量值的设定阈值是20，检验P值大于0.05；

12)使用Fisher单边检验，支持突变的软剪切读段的比例显著高于支持参考碱基的软剪切读段的比例；即检验P值小于0.05；

13)使用Fisher单边检验，待测样本的突变等位基因频率不显著高于对照样本的突变等位基因频率的结果，即检验P值大于0.05。

过滤去除未达到设定阈值的插入缺失突变位点包括：

1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变；

2)由PCR扩增造成的假阳性突变；

3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果；例如，突变支持数低于3，位点覆盖深度低于20；

4)待测样本中突变等位基因频率低于设定阈值的结果；以及任选地，对照样本中对应的突变等位基因频率高于设定阈值的结果；例如，待测样本中VAF低于3％；对照样本中对应的VAF高于2％的InDel突变位点；

5)其他低质量或高质量碱基占比超过设定阈值的待检测位点，其中，所述低质量或高质量碱基包括非参考碱基和插入缺失突变；例如，低质量或高质量碱基占比高于40％的InDel突变位点；

6)在假阳性位点数据库中的突变位点；

7)周围有其他插入缺失富集的突变位点；

8)周围比对质量差，错配碱基数高于设定阈值的突变位点；使用Fisher单边检验，支持突变的错配读段比例显著高于支持参考碱基的错配读段比例；例如，mismatch大于5的InDel突变位点；使用Fisher单边检验，支持突变的mismatch reads比例显著高于支持参考碱基的mismatch reads比例，如Fisher检验P值小于0.05，的InDel突变位点；

9)支持突变的插入缺失富集在读段末端或某个链方向；

10)使用秩和检验，支持突变的比对质量值不显著高于设定阈值的结果；例如，质量值20，秩和检验P值大于0.05，的InDel突变位点；

11)使用Fisher单边检验，支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例；例如，Fisher检验P值小于0.05，的InDel突变位点；

12)使用Fisher单边检验，待测样本的等位基因突变频率不显著高于对照样本的等位基因突变频率；例如，待测样本的VAF不显著高于对照样本的VAF，如Fisher检验P值大于0.05，的InDel突变位点。

变异结果注释步骤105：包括对突变的基因名称、转录本编号及位置信息和HGVS突变编号进行注释，并对中国人群突变频率进行注释，对突变进行有害性预测和保守性预测注释，对突变相关疾病信息进行注释。

本申请的一种实现方式中，首先使用SnpEff注释软件对突变结果进行注释，得到基因名称、转录本编号及位置信息、HGVS突变编号等基本信息；随后使用ExAC数据库对中国人群突变频率进行注释，使用DBNSFP数据库对突变进行有害性预测和保守性预测，使用clinvar数据库对突变相关疾病信息进行注释。根据这些信息可对突变性质进行判断，用于后续分析。

肿瘤纯度预测步骤106：包括对肿瘤组织突变的纯度进行检测，判断突变为克隆突变或亚克隆突变，获得克隆突变的数量。如果肿瘤纯度<20％，表明检测样本中大多数为正常组织，判定检测样本不合格，检测结果无意义。

本申请的一种实现方式中，肿瘤克隆变异检测方法包括以下步骤，

(1)肿瘤突变频率鉴定步骤，包括对成对的肿瘤和正常样本的测序结果的比对文件进行突变检测，获取突变的测序片段支持数、正常的测序片段支持数和总的测序片段支持数；并计算肿瘤突变频率，即突变的测序片段支持数除以总的测序片段支持数，获得肿瘤突变频率。其中，变异检测软件包括但不仅限于常规使用的MuTect、VarScan等变异检测软件。突变检测包括点突变、短片段的插入缺失和/或杂合性缺失，选取测序质量高的片段作为最终的统计结果。

因为二代测序的片段都是成对的，一对片段之间的插入片段区域如果较小，则两条片段都会覆盖到突变位置，这样的两条片段实际上为一条片段，因此需要矫正。因此，突变频率鉴定步骤中还包括矫正的步骤，矫正的步骤包括，若两条成对序列在重叠区域里碱基类型一致，则只保留区域里质量值较高的一条序列；若碱基类型不一致，并且其中一条序列质量高，另一条质量低，则保留质量高的序列，否则两条都舍弃。

(2)肿瘤样本纯度鉴定步骤，包括获取肿瘤和正常样本中的每个SNP位点两种碱基的测序片段支持数，将碱基频率小于或大于设定阈值的SNP位点定义为纯合位点，将剔除纯合位点的SNP的信息，转化为纯度检测软件的输入数据集，得到肿瘤样本纯度鉴定结果和拷贝数信息。

临床上估计肿瘤组织纯度的方法是取一点肿瘤组织放在显微镜下观察组织中明显是肿瘤细胞的比例。但是，由于测序样品与显微镜观察样品不是同一批样品，所以临床观察的纯度往往对信息分析的参考意义不大。

信息学上对纯度进行预测主要决定于两个因素，一个是碱基频率，另一个是拷贝数。有很大一部分癌症的基因组非常不稳定，会发生大量的拷贝数变异，甚至发生基因组加倍的现象，并且有很多研究找到了拷贝数变异与表达的关系，证实与癌症相关，所以估计纯度时的拷贝数因素不能忽略。

假设突变碱基的拷贝数为q，样品纯度是p，正常基因组的拷贝数为2，则碱基频率f具体采用公式(2)计算，

f＝p*q/(p*(q+1)+2*(1-p)) (2)

公式(2)中，f为碱基频率，q为突变碱基的拷贝数，p为肿瘤样本的纯度。

具体的，利用SNP array上的软件ASCAT，对成对样本进行纯度检测。ASCAT是应用在SNP array上的软件，能从SNP位点信息出发，预测拷贝数变异和纯度。由于二代测序技术的纯度预测工具还不成熟，很少有软件能够很好的预测肿瘤纯度。多项数据支持SNP array与二代测序技术找出来的拷贝数变异结果一致率较高，因此参考ASCAT的预测方法，将二代测的信号转成SNP array的信号。

具体选择突变位点tumor和正常位点normal中Germline突变位点，将碱基频率小于30％或大于70％的SNP位点定义为纯合位点，将踢掉纯合位点后的SNP作为数据集，处理成SNP array的类似形式。SNP array中，用LogR来表示位点总的信号强度，用BAF(即BAllele Frequency)表示B碱基的频率，假设SNP位点有A、B两种碱基组成，则它们的关系表示如下面的公式(2-1)、公式(2-2)两个公式：

其中，i表示SNP位点，n_A,i表示i位点的A碱基的深度，n_B,i表i位点的B碱基的深度，D表示突变肿瘤的平均深度，BAF表示B碱基的频率。将上面两个转化的信号作为ASCAT的输入，进行纯度和拷贝数的检测。

(3)肿瘤拷贝数鉴定步骤，包括对经过纯度矫正的拷贝数信息及相应区域进行过滤筛选，并将小片段合并成大片段，对突变区域的拷贝数进行注释，获得肿瘤拷贝数鉴定结果。

具体采用ASCAT的结果对拷贝数进行片段化，并且给出区域片段化的绝对拷贝数，这些拷贝数信息已经经过纯度的矫正。对这些区域进行过滤筛选，对小片段进行合并成大片段，对突变区域的拷贝数进行注释。根据突变的样本纯度和拷贝数结果校正“(1)肿瘤突变频率鉴定步骤”获得的肿瘤突变频率。

(4)肿瘤突变频率校正步骤，包括根据肿瘤样本纯度鉴定步骤和肿瘤拷贝数鉴定步骤的结果，利用beta分布模型计算突变细胞在所测肿瘤组织中的比例，获得校正后的肿瘤突变频率。

根据肿瘤纯度以及拷贝数，就可以精确的量化突变在所测肿瘤组织中的比例(cancer cell fraction，缩写CCF)，判断突变发生是属于克隆性clonal还是亚克隆subclonal。具体采用的是beta分布模型。

计算突变细胞在所测肿瘤组织中的比例，具体采用公式(4-1)，

CCF的值从0～1，pdf(CCF,m)表示突变肿瘤细胞比例的密度分布函数，β_pdf表示beta密度分布函数，CCF表示突变细胞在所测肿瘤组织中的比例，α为纯度，q(m)表示肿瘤的拷贝数，alt(m)是突变的测序片段支持数，ref(m)是正常的测序片段支持数。于是可以得到概率最高的CCF值。

考虑杂合型缺失(LOH)的情况下，CCF的计算可以用公式(4-2)。

取概率高的CCF作为结果。

(5)肿瘤克隆变异类型鉴定步骤，包括根据校正后的肿瘤突变频率判断突变类型的克隆属性，获得肿瘤克隆变异结果。

具体的，认为CCF>0.8的概率如果大于0.5就认为是clonal，反之，是subclonal；更为严谨的判断中，认为CCF＝1的概率大于0.5，判断是clonal，反之，是subclonal。

样本成对质控步骤107：包括根据设计的SNP质控位点，获得来自于同一个体的肿瘤组织和对照样本成对数据。如果肿瘤组织和对照样本的SNP质控位点不同，则两者来自不同的个体，表示检出样本出错，检测结果无意义。

本申请的一种实现方式中，为确保检测的肿瘤与对照样本来自同一个人，在捕获芯片上设计了28个多态性位点，即SNP质控位点，这些位点具有人群多态性，在不同人中表现为不同基因型，可用于成对质控。

肿瘤突变负荷预测步骤108：包括计算达到高深度测序标准的外显子区域总大小，计为s，统计该区域内非同义突变且为克隆突变的数量，计为c，根据以下公式

TMB＝c/s

计算每百万碱基的平均突变数量，即TMB值。

本申请的肿瘤突变负荷检测方法，其最终目的在于要解决通过TMB对用药进行指导的问题，因此，优选的方案中，肿瘤突变负荷检测方法还包括肿瘤突变负荷用药指导步骤109：包括将肿瘤突变负荷预测步骤获得的TMB值与解读知识库获得的TMB阈值划分进行比较，根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息。

可以理解，如果解读知识库的TMB阈值划分以及相应的用药指导信息都是预先构建好的，则可以不用肿瘤突变负荷用药指导步骤109，使用者直接根据所检测的TMB值，人工获得相应的肿瘤用药指导信息即可。但是，考虑到自动化检测和自动输出肿瘤用药指导信息的需求，优选的方案中还是设计了肿瘤突变负荷用药指导步骤109。

本申请的一种实现方式中，解读知识库包含以下信息：FDA及CFDA批准的免疫检验点抑制剂适用情况；NCCN及ASCO达成共识的免疫检验点抑制剂适用情况；文献及临床试验发现的免疫检验点抑制剂适用情况。知识库根据这些原始信息总结出不同TMB水平对应的用药指导建议，并自动化输出报告供医生及患者参考。

考虑到国外已发表的肿瘤突变负荷相关文献通常使用欧美人群数据研究，与中国肿瘤患者人群突变特征不完全相符，不能直接用于指导。本申请的一种实现方式中，建立了中国肿瘤基因组突变数据库，具体包含的数据如下：中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据、中国胃癌患者基因组数据。对这些数据使用本申请的TMB检测方法进行分析，得到每个样本的TMB数值；对这些数据按照4分位进行计算，得出TMB阈值划分：

TMB<2.5个/Mb时，评价为TMB-Low

TMB>＝2.5个/Mb且TMB<10个/Mb时，评价为TMB-Medium

TMB>＝10个/Mb时，评价为TMB-High

根据临床研究结果，当TMB为Low时，免疫检验点抑制剂效果不佳，此时建议采用靶向治疗或其他疗法；当TMB为High时，免疫检验点抑制剂效果较好，此时建议采用免疫治疗。

其中，中国非小细胞肺癌患者基因组数据参考K.Wu et al.,“Frequentalterations in cytoskeleton remodelling genes in primary and metastatic lungadenocarcinomas.,”Nat.Commun.,vol.6,p.10131,Dec.2015.

中国肾细胞癌患者基因组数据参考G.Guo et al.,“Frequent mutations ofgenes encoding ubiquitin-mediated proteolysis pathway components in clearcell renal cell carcinoma,”Nat.Genet.,vol.44,no.1,pp.17–19,Jan.2012.

中国结直肠癌患者基因组数据参考J.Yu et al.,“Novel recurrently mutatedgenes and aprognostic mutation signature in colorectal cancer.,”Gut,vol.64,no.4,pp.636–45,Apr.2015.

中国食管癌患者基因组数据参考Y.Song et al.,“Identification of genomicalterations in oesophageal squamous cell cancer,”Nature,vol.509,no.7498,pp.91–95,May 2014.

中国膀胱癌患者基因组数据参考G.Guo et al.,“Whole-genome and whole-exome sequencing of bladder cancer identifies frequent alterations in genesinvolved in sister chromatid cohesion and segregation,”Nat.Genet.,vol.45,no.12,pp.1459–1463,Dec.2013.

中国肝癌患者基因组数据参考G.Guo et al.,“Frequent mutations of genesencoding ubiquitin-mediated proteolysis pathway components in clear cellrenal cell carcinoma,”Nat.Genet.,vol.44,no.1,pp.17–19,Jan.2012.

中国胃癌患者基因组数据参考K.Chen et al.,“Mutational landscape ofgastric adenocarcinoma in Chinese:implications for prognosis and therapy.,”Proc.Natl.Acad.Sci.U.S.A.,vol.112,no.4,pp.1107–12,Jan.2015.。

以上步骤中，下机数据处理步骤、数据过滤及质控步骤、序列比对及质控步骤，这三个步骤为现有公开的测序数据标准处理步骤；变异结果注释步骤和样本成对质控步骤也是本领域的常规技术手段；而体细胞变异检测及过滤步骤，在申请号201711107001.6的专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”中有详细说明；肿瘤纯度预测步骤在申请号201810273763.1的专利申请“基于二代测序的插入缺失突变检测方法、装置和存储介质”中有详细说明；肿瘤突变负荷预测步骤是本申请特别研究提出的，也是本申请肿瘤突变负荷检测方法的关键步骤之一。

本领域技术人员可以理解，上述实施方式方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，如图2所示，本申请一实施例中，用于肿瘤突变负荷检测的装置包括，下机数据处理模块201、数据过滤及质控模块202、序列比对及质控模块203、体细胞变异检测及过滤模块204、变异结果注释模块205、肿瘤纯度预测模块206、样本成对质控模块207和肿瘤突变负荷预测模块208。

下机数据处理模块201：用于对测序仪进行了参数优化，将肿瘤组织和对照样本的测序数据文本转化为通用文件格式，分别获得肿瘤组织和对照样本的数据，并对获得的数据进行质控程序质控，质控无异常进入下一步骤；

数据过滤及质控模块202：用于去除测序接头序列、低质量序列和N碱基组成的序列，并对过滤数据的Clean_Base、Q20、Q30、GC含量、GC-AT_Seperation、N含量、平均读长长度、读长分布标准差、Average_base_quality和Clean_base_ratio进行筛选，选择符合设定阈值的数据进行后续分析；

序列比对及质控模块203：用于将数据过滤及质控步骤获得的数据比对到参考基因组上，比对结果直接进行去重合排序处理，不需生成临时文件；并对比对上的数据进行Mapping_rate、Mapping_quality、Insert_size、Duplication_rate、Capture_rate、Depth_in_target、Target_coverage、Target_500×、Target_100×和Target_10×筛选，选择符合设定阈值的数据进行后续分析；

体细胞变异检测及过滤模块204：用于对肿瘤组织和对照样本的数据同时进行变异检测，发现体细胞突变，得到原始变异结果，过滤去除原始变异结果中的假阳性变异，获得真实突变数据；

变异结果注释模块205：用于对突变的基因名称、转录本编号及位置信息和HGVS突变编号进行注释，并对中国人群突变频率进行注释，对突变进行有害性预测和保守性预测注释，对突变相关疾病信息进行注释；

肿瘤纯度预测模块206：用于对肿瘤组织突变的纯度进行检测，判断肿瘤组织突变为克隆突变或亚克隆突变，获得克隆突变的数量；

样本成对质控模块207：用于根据设计的SNP质控位点，获得来自于同一个体的肿瘤组织和对照样本成对数据；

肿瘤突变负荷预测模块208：用于计算达到高深度测序标准的外显子区域总大小，计为s，统计该区域内非同义突变且为克隆突变的数量，计为c，根据以下公式

TMB＝c/s

计算每百万碱基的平均突变数量，即TMB值。

本申请的一实施例中，为了能够直接输出用药指导信息，用于肿瘤突变负荷检测的装置还包括肿瘤突变负荷用药指导模块209，用于将肿瘤突变负荷预测步骤获得的TMB值与解读知识库获得的TMB阈值划分进行比较，根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息。

其中，解读知识库包括中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据和中国胃癌患者基因组数据；肿瘤用药指导信息包括，FDA及CFDA批准的免疫检验点抑制剂适用情况，或者NCCN及ASCO达成共识的免疫检验点抑制剂适用情况，或者文献及临床试验发现的免疫检验点抑制剂适用情况；TMB阈值划分具体为，TMB小于2.5个每百万碱基时，评价为TMB-Low；TMB大于或等于2.5个每百万碱基，并且TMB小于10个每百万碱基时，评价为TMB-Medium；TMB大于或等于10个每百万碱基时，评价为TMB-High；根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息包括，TMB值为TMB-Low时，免疫检验点抑制剂效果不佳，输出建议不采用免疫治疗，建议采用靶向治疗或其它疗法的用药指导信息；TMB值为TMB-High时，免疫检验点抑制剂效果较好，输出建议采用免疫治疗的用药指导信息。

本申请另一实施例还提供一种用于肿瘤突变负荷检测的装置，包括存储器，用于存储程序；处理器，用于通过执行存储器存储的程序以实现本申请的肿瘤突变负荷检测方法，包括下机数据处理步骤101、数据过滤及质控步骤102、序列比对及质控步骤103、体细胞变异检测及过滤步骤104、变异结果注释步骤105、肿瘤纯度预测步骤106、样本成对质控步骤107和肿瘤突变负荷预测步骤108，或者还包括肿瘤突变负荷用药指导步骤109。

本申请另一种实施例还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本申请的肿瘤突变负荷检测方法，包括下机数据处理步骤101、数据过滤及质控步骤102、序列比对及质控步骤103、体细胞变异检测及过滤步骤104、变异结果注释步骤105、肿瘤纯度预测步骤106、样本成对质控步骤107和肿瘤突变负荷预测步骤108，或者还包括肿瘤突变负荷用药指导步骤109。

此外，现有的肿瘤突变负荷检测方法，都是基于全外显子测序进行的。全外显子测序数据量大、成本高、周期长，这是临床应用难以有效推广的重要因素。为此，本申请创造性的提出，从肿瘤基因组数据库中筛选出具有代表性的811个芯片捕获区域，如表1所示，通过对这些区域进行捕获测序，能够替代全外显子测序，用于分析肿瘤突变负荷，这大大减小了测序数据量，减小了成本，缩短了检测周期，为TMB检测的临床应用奠定了坚实的基础。

表1

具体地，811个基因芯片的检测从两个维度上都有一定的优势：一个是从周期角度考虑，目前市场上WES检测方法的测序仪是illumina平台的x10测序仪或者NovaSeq测序仪，测序时间最快也要40h，测序完成后还要有至少4h的时间处理数据拆分，而本申请的基因芯片一般使用illumina平台的NextSeq 550AR/500来测序，测序时间非常快，最长29小时即可完成测序工作，前期数据拆分只需要0.5h，所以在时间方面优势非常明显。另外一个是从成本角度考虑，在WES的测序深度是200×情况下，测序量要达到至少24G，而本申请的基因芯片检测一般的测序深度也同样是200X的条件下测序量是1.5G，测序量是WES测序量的1/16，大大节省了实验成本。

另外，为了确保基因芯片能够更能真实有效的反映人全基因组上肿瘤突变负荷的变化趋势，还在基因芯片上设计了检测拷贝数变异的SNP位点的探针，这些探针是针对检测拷贝数变异的SNP位点设计的，这些SNP位点选自Cancer Gene Census基因列表的基因中的SNP位点，且SNP位点不在表1所示基因的捕获区域内；SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。本申请的一种实现方式中，具体选择了5099个检测拷贝数变异的SNP位点用于探针设计。

为了确保检测的肿瘤与对照样本来自同一个人，本申请的基因芯片还进一步的设计了检测SNP质控位点的探针，这些SNP质控位点为根据Cell Lines Project数据库设计的，中国人群中突变频率在0.4-0.6区间的位点，并且，根据PCR验证成功率排序，成功率由高到低的选取SNP位点，作为SNP质控位点。本申请的一种实现方式中，具体选择了28个SNP位点作为SNP质控位点，即rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

为了保障基因芯片的捕获区域能够真实准确的反映人全基因组上肿瘤突变负荷的变化趋势，本申请特别提供了基因芯片的制备方法，包括芯片捕获区域设计，具体包括以下步骤：

外显子突变概率统计步骤包括：

1)统计COSMIC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pa；

其中，COSMIC数据库参考文献S.A.Forbes et al.,“COSMIC:Exploring theworld’s knowledge of somatic mutations in human cancer,”Nucleic Acids Res.,vol.43,no.D1,pp.D805–D811,Oct.2015。

2)统计ICGC数据库中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pb；

ICGC数据库的网址为：https://icgc.org/。

3)分别统计中国人群食管癌基因组数据、中国人群肺癌基因组数据和中国人群胃癌基因组数据中，每个基因的每个外显子上的突变碱基数，外显子上的突变碱基数除以相应的外显子的总长度，即得到该外显子出现突变碱基的概率，标记为pc；

其中，中国人群食管癌基因组数据参考文献Y.Song et al.，“Identification ofgenomic alterations in oesophageal squamous cell cancer，”Nature，vol.509，no.7498，pp.91-95，May 2014.。中国人群肺癌基因组数据参考文献K.Wu et al.，“Frequent alterations in cytoskeleton remodelling genes in primary andmetastatic lung adenocarcinomas.，”Nat.Commun.，vol.6，p.10131，Dec.2015.。中国人群胃癌基因组数据参考文献K.Chen et al.，“Mutational landscape of gastricadenocarcinoma in Chinese：implications for prognosis and therapy.，”Proc.Natl.Acad.Sci.U.S.A.，vol.112，no.4，pp.1107-12，Jan.2015.。

外显子打分和初筛步骤：包括按照公式pa×0.3+pb×0.2+pc×0.5对每个外显子进行打分，pa表示COSMIC数据库中统计的外显子出现突变碱基的概率，pb表示ICGC数据库中统计的外显子出现突变碱基的概率，pb表示中国人群食管癌基因组数据、中国人群肺癌基因组数据或中国人群胃癌基因组数据中统计的外显子出现突变碱基的概率；此打分的分值代表外显子对肿瘤突变负荷变化的贡献程度，去除贡献程度为0的外显子，其余外显子作为候选外显子；

外显子加权分值计算步骤：包括根据Cancer Gene Census基因列表进行加权分值计算，具体包括，所有候选外显子中，属于Cancer Gene Census基因列表的外显子权重为1，不属于Cancer Gene Census基因列表的外显子权重为0.5，所有候选外显子的分值各自乘以其权重，即获得各外显子的加权分值；

外显子筛选步骤：包括使用DEAP软件包的遗传算法对所有候选外显子进行筛选，筛选公式为：

其中s为候选外显子区域大小、x为外显子加权分值，r为所选区域肿瘤突变负荷结果与外显子的pearson相关系数；使用遗传算法对每组外显子组合进行评估，取其中得分最高的作为最终捕获区域。

本申请的一种实现方式中外显子筛选步骤是直接设定DEAP软件包的各参数，直接由软件输出结果的，具体的，筛选参数为：初始种群数量50、Lambda值400、突变概率0.5、交换概率0.4、迭代500代；用筛选公式计算出最终捕获区域。

考虑到肿瘤组织纯度会影响TMB检测的准确性问题，基因芯片制备方法还包括检测拷贝数变异SNP位点设计步骤，根据设计的拷贝数变异检测用SNP位点制备探针；其中，拷贝数变异检测用SNP位点选自Cancer Gene Census基因列表的基因中的SNP位点，且所述SNP位点不在表1所示基因的捕获区域内，SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。在一个具体实施例中，选择了5099个拷贝数变异检测用SNP位点用于探针设计。

需要说明的是，本申请的基因芯片制备方法，其关键在于芯片捕获区域的设计，至于获得捕获区域后的后续工艺，例如捕获探针序列设计、芯片制备等可以参考现有的基因芯片制备方案，或由现有的芯片设计厂家设计定制。本申请的一个实施例中，基因芯片由美国的安捷伦科技有限公司设计定制。

另外，考虑到质控问题，本申请的基因芯片上还设计了28个SNP质控位点，这些SNP质控位点是根据Cell Lines Project数据库设计质控位点，并选择中国人群中突变频率在0.4-0.6区间的SNP位点，根据PCR验证成功率排序，选择成功率最高的28个SNP位点。

本申请的一种实现方式中具体选择了位点rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290，作为SNP质控位点。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例1

传统肿瘤突变负荷检测通常采用全外显子测序，具有成本高、周期长的缺点。为解决此问题，本例设计了一种靶向捕获芯片，只捕获特定基因序列并进行测序，有效降低了测序数据量，达到节省成本、缩短周期的目的。

该靶向捕获芯片的设计过程是：

1)根据COSMIC数据库收集的突变信息，统计每个基因的每个外显子上有多少个碱基发生突变，突变总数除以外显子总长度，得到每个外显子上出现突变碱基的概率。

2)根据ICGC数据库(https://icgc.org/)收集的样本数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

3)根据中国人群食管癌、肺癌及胃癌基因组数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

4)根据上述数据对每个外显子赋予分值，计算方法为：pa×0.3+pb×0.2+pc×0.5，其中pa、pb、pc分别为步骤1)、2)、3)计算的概率。此分值可代表外显子对肿瘤突变负荷变化的贡献程度。去除贡献程度为0的外显子后，其余外显子作为候选外显子进入下一步计算。

5)根据Cancer Gene Census基因列表总结的肿瘤相关重要基因对外显子分配权重，属于该基因列表的外显子权重为1，不属于该基因列表的外显子权重为0.5。外显子的分值乘以权重得到加权分值。

6)使用遗传算法对外显子进行筛选：遗传算法使用DEAP软件包，筛选公式为：

其中s为候选外显子的区域大小、x为外显子加权分值，r为所选区域肿瘤突变负荷结果与外显子的pearson相关系数；使用遗传算法对每组外显子组合进行评估，取其中得分最高的作为最终捕获区域。并且，本例的DEAP软件包的筛选参数为：初始种群数量50、Lambda值400、突变概率0.5、交换概率0.4、迭代500代；用筛选公式计算出最终捕获区域，即获得表1所示的811个捕获区域，用于基因芯片的探针设计。

7)对于Cancer Gene Census基因列表上所列基因中的SNP位点，若不在表1所示基因的捕获区域内，则挑选这部分SNP位点用于拷贝数变异检测；SNP位点的选择条件为中国人群中突变频率在0.3-0.7区间的SNP位点，并且，平均每百万碱基选择6个SNP位点。本实施例中，拷贝数变异检测用SNP位点为5099个。

8)添加SNP质控位点。该质控位点的选择方法为：根据Cell Lines Project数据库设计的质控位点，选择中国人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择最高的28个SNP位点如下：rs1327118、rs1402695、rs1414904、rs1131498、rs1079820、rs1805087、rs1032807、rs1801262、rs1515002、rs1392265、rs11096957、rs1426003、rs1363333、rs3734440、rs156318、rs1843026、rs1368136、rs1105176、rs156697、rs12828016、rs1395936、rs1541836、rs1805034、rs1030687、rs171953、rs753381、rs1293153、rs1541290。

使用TCGA数据库(https：//cancergenome.nih.gov/)收集的230例肺癌样本进行测试。数据库中收录了样本的外显子范围内体细胞变异结果。根据芯片捕获区域筛选区域内突变，模拟采用本例的基因芯片捕获测序结果。比较两者的突变总数，如图3所示。图3中，横坐标为每个样本使用外显子测序检测到的突变总数，纵坐标为模拟基因芯片捕获检测到的突变总数，结果显示，Pearson相关系数R²＝0.957，说明二者存在较强的相关性。

另外，本例还使用TCGA数据库收集的131例膀胱癌和279例头颈鳞癌样本分别进行类似的测试，结果如图4和图5所示。图4是膀胱癌的对比分析结果，横坐标为每个样本使用外显子测序检测到的突变总数，纵坐标为模拟基因芯片捕获检测到的突变总数，结果显示，Pearson相关系数R²＝0.954，说明二者存在较强的相关性。图5为头颈鳞癌的对比分析结果，横坐标为每个样本使用外显子测序检测到的突变总数，纵坐标为模拟基因芯片捕获检测到的突变总数，结果显示，Pearson相关系数R²＝0.93，说明二者存在较强的相关性。

以上结果显示，采用本例的基因芯片进行捕获测序，能够替代传统的全外显子测序，能够真实反映肿瘤突变负荷。

实施例2

传统肿瘤基因组检测方法通常采用肿瘤单样本检测，研究中发现这种方法无法有效区分体细胞突变与生殖细胞突变。该缺陷对于常规靶向检测影响不大，但对于肿瘤突变负荷检测存在较大影响。为解决此问题，本例采用了配对检测的方式，同时检测肿瘤组织及对照样本，配合后续的分析方法得到体细胞突变。其中，对照样本为癌旁组织或外周血。

本例在实验方法上引入了测序序列纠错技术：目前主流二代测序方法使用150bpPaired End方法测序，产生2条150bp的reads。由于建库方式的特点，插入片段长度大约为180bp左右，这样产生的是2条有较长片段重合的PE reads，也即插入片段被测通。传统分析方法无法很好利用测通的reads，通常会采用缩短读长或增大插入片段长度的方法提高数据利用率。本例则利用2条重复测序的reads纠正测序错误导致的突变碱基，即仅当重合的2条reads在同一位置均出现突变时才认为突变真实存在。此方法有效利用了重复测序的数据，达到提高突变检测准确率的效果。本例的测序序列纠错技术参考专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”，申请号201711107001.6。

在实施例1的基因芯片基础上，为了保障TMB检测的准确性，本例进一步对测序结果的信息分析方法进行了设计，即提供了一种新的肿瘤突变负荷检测方法。本例的TMB检测方法包括下机数据处理步骤、数据过滤及质控步骤、序列比对及结果质控步骤、体细胞突变检测及结果过滤步骤、变异结果注释步骤、肿瘤纯度预测步骤、样本成对质控步骤、TMB预测步骤、TMB用药指导步骤。上述步骤通过自动化调度系统在生物信息分析集群上运行，稳定高效输出分析结果。

各步骤详细介绍如下：

a)下机数据处理：测序仪产生的通常为专用格式数据，需首先转化为通用的fastq文件格式。此外1张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。本例使用bcl2fastq软件对下机数据进行处理，并针对常用的NextSeq 500测序仪进行了参数上的优化，达到提高数据利用率、简化后续处理的目的。数据处理完毕后经过质控程序质控，判断数据产出及质量是否出现异常，无异常则进入下一步骤。

2)数据过滤及质控：测序仪产出的数据除包含有效数据外，还包括测序接头序列、低质量序列及N碱基组成的序列，这些序列会干扰后续分析，需要去除。本发明使用cutadapt软件进行上述操作。过滤后的数据使用质控软件进行质控，符合以下标准的数据为合格数据：

Clean_Base>2500Mb、Q20>95％、Q30>80％、GC>45％and<50％、GC-AT_Seperation<0.500％、N_Rate<0.100％、Average_read_length>120bp and<＝151bp、Read_length_stddev<20.000、Average_base_quality>32.000、Clean_base_ratio>80％。

c)序列比对及质控：序列比对采用bwa mem算法进行，使用的参考基因组为GRCh37.73。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。比对结果使用质控软件进行质控，符合以下标准的数据为合格数据：

Mapping_rate>99％、Mapping_quality>35、Insert_size<180bp and>120bp、Duplication_rate<30％、Capture_rate>50％、Depth_in_target>500X、Target_coverage>98％、Target_500X>70％、Target_100X>90％、Target_10X>90％。

d)体细胞变异检测及结果过滤：本方法对肿瘤组织和对照样本数据同时进行变异检测，发现体细胞突变。变异检测使用samtools及varscan软件进行，得到原始变异结果。变异检测原始结果中包含较多假阳性变异，需要进行过滤。本例的变异过滤算法，根据突变碱基的碱基质量值、比对质量值、reads上相对位置、突变频率、是否为热点突变等因素进行统计分析，最终确定真实突变。

其中，变异过滤算法详细参考专利申请“基于二代测序的点突变检测过滤方法、装置和存储介质”，申请号201711107001.6。具体的，过滤去除假阳性变异包括过滤去除未达到设定要求的点突变位点，或过滤去除未达到设定阈值的插入缺失突变位点。

过滤去除未达到设定要求的点突变位点包括：

1)由附近上游的缺失导致的假阳性点突变；

2)由比对造成的与附近SNP位点互斥的假阳性突变；

3)由PCR扩增造成的假阳性突变；

7)重复区域的突变位点；

8)周围有插入缺失富集的突变位点；

10)支持突变的碱基富集在读段末端或一条链方向；

过滤去除未达到设定阈值的插入缺失突变位点包括：

1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变；

2)由PCR扩增造成的假阳性突变；

6)在假阳性位点数据库中的突变位点；

7)周围有其他插入缺失富集的突变位点；

9)支持突变的插入缺失富集在读段末端或某个链方向；

e)变异结果注释：本方法首先使用SnpEff注释软件对突变结果进行注释，得到基因名称、转录本编号及位置信息、HGVS突变编号等基本信息；随后使用ExAC数据库对中国人群突变频率进行注释，使用DBNSFP数据库对突变进行有害性预测和保守性预测，使用clinvar数据库对突变相关疾病信息进行注释。根据这些信息对突变性质进行判断，用于后续分析。

f)肿瘤纯度预测：肿瘤体细胞突变分为克隆突变及亚克隆突变，二者对突变负荷贡献不一。本方法使用ASCAT软件预测肿瘤纯度，并据此计算克隆突变数量。

关于肿瘤纯度预测参考专利申请“基于二代测序的肿瘤克隆变异检测方法、装置和存储介质”，申请号201810271836.3。具体如下：

基于二代测序的肿瘤克隆变异检测方法，包括以下步骤，

f＝p*q/(p*(q+1)+2*(1-p)) (2)

本例具体的，利用SNP array上的软件ASCAT，对成对样本进行纯度检测。ASCAT是应用在SNP array上的软件，能从SNP位点信息出发，预测拷贝数变异和纯度。由于二代测序技术的纯度预测工具还不成熟，很少有软件能够很好的预测肿瘤纯度。多项数据支持SNParray与二代测序技术找出来的拷贝数变异结果一致率较高，因此参考ASCAT的预测方法，将二代测的信号转成SNP array的信号。

本例选择突变位点tumor和正常位点normal中Germline突变位点，将碱基频率小于30％或大于70％的SNP位点定义为纯合位点，将踢掉纯合位点后的SNP作为数据集，处理成SNP array的类似形式。SNP array中，用LogR来表示位点总的信号强度，用BAF(即BAllele Frequency)表示B碱基的频率，假设SNP位点有A、B两种碱基组成，则它们的关系表示如下面的公式(2-1)、公式(2-2)两个公式：

本例采用ASCAT的结果对拷贝数进行片段化，并且给出区域片段化的绝对拷贝数，这些拷贝数信息已经经过纯度的矫正。对这些区域进行过滤筛选，对小片段进行合并成大片段，对突变区域的拷贝数进行注释。根据突变的样本纯度和拷贝数结果校正“(1)肿瘤突变频率鉴定步骤”获得的肿瘤突变频率。

根据肿瘤纯度以及拷贝数，就可以精确的量化突变在所测肿瘤组织中的比例(cancer cell fraction，缩写CCF)，判断突变发生是属于克隆性clonal还是亚克隆subclonal。本例采用的是beta分布模型。

本例计算突变细胞在所测肿瘤组织中的比例，具体采用公式(4-1)，

本例还考虑了杂合型缺失(LOH)的情况，在LOH情况下，CCF的计算可以用公式(4-2)。

取概率高的CCF作为结果。

本例认为CCF>0.8的概率如果大于0.5就认为是clonal，反之，是subclonal；更为严谨的判断中，认为CCF＝1的概率大于0.5，判断是clonal，反之，是subclonal。

g)样本成对质控：为确保检测的肿瘤与对照样本来自同一个人，本方法在捕获芯片上设计了28个SNP质控位点，这些位点具有人群多态性，在不同人中表现为不同基因型，可用于成对质控。

h)TMB预测：确保突变结果检测无误后可进行TMB预测，得到每百万碱基的平均突变数量，TMB计算公式为：TMB＝c/s

其中，s为捕获区域内达到高深度测序标准的外显子区域总大小，c为捕获区域内非同义突变且为克隆突变的数量。

i)TMB用药指导：本方法收集了国内外已上市及正在进行临床试验的免疫检验点抑制剂相关药物，建立解读知识库。解读知识库包含以下信息：1.FDA及CFDA批准的免疫检验点抑制剂适用情况；2.NCCN及ASCO达成共识的免疫检验点抑制剂适用情况；3.文献及临床试验发现的免疫检验点抑制剂适用情况。知识库根据上述原始信息总结出不同TMB水平对应的用药指导建议，并自动化输出报告供医生及患者参考。

本例对上述信息分析方法的验证如下：使用文献N.A.Rizvi et al.,“Mutationallandscape determines sensitivity to PD-1 blockade in non-small cell lungcancer,”Science(80-.).,vol.348,no.6230,pp.124–128,Apr.2015.发表的34例非小细胞肺癌病例，采用实施例1的基因芯片的捕获区域，以及本例的信息分析方法，对原始数据进行分析，结果如图6所示。图6中，DCB代表免疫治疗有效，NDB代表免疫治疗无效，纵轴为各患者的TMB分布水平。图6的结果显示，免疫治疗有效及无效的患者TMB水平有明显差别p＝0.002。另外，本例还统计了患者接受免疫治疗后的生存曲线，如图7所示。图7中，横坐标为治疗后的时间，单位为“月”，纵坐标为患者无进展生存率。图7的结果显示，高TMB组与低TMB组的生存率有明显不同。

以上结果证明本例的分析方法得出的TMB结果可用于区分免疫治疗有效和无效患者，达到用药指导的目的。

基于以上研究和认识，本例进一步对中国人群的TMB进行了研究，并设计了肿瘤突变负荷解读数据库，具体如下：

国外已发表的肿瘤突变负荷相关文献通常使用欧美人群数据研究，与中国肿瘤患者人群突变特征不完全相符，不能直接用于指导。本例建立了中国肿瘤基因组突变数据库，具体包含的数据如下：

a)中国非小细胞肺癌患者基因组数据

b)中国肾细胞癌患者基因组数据

c)中国结直肠癌患者基因组数据

d)中国食管癌患者基因组数据

e)中国膀胱癌患者基因组数据

f)中国肝癌患者基因组数据

g)中国胃癌患者基因组数据

对以上数据使用本例的信息分析方法进行分析，得到每个样本的TMB数值。对上述数据按照4分位进行计算，得出TMB阈值划分：

TMB<2.5个/Mb时，评价为TMB-Low

TMB>＝2.5个/Mb且TMB<10个/Mb时，评价为TMB-Medium

TMB>＝10个/Mb时，评价为TMB-High

实施例3

临床应用，本例对44例进行免疫治疗临床试验的病人进行检测，结果如图8所示，图8中，DCB代表免疫治疗有效，NDB代表免疫治疗无效；采用实施例1的基因芯片检测和实施例2的分析后，建议用药者共18人，经治疗后有好转17人，无好转1人；不建议用药者共26人，经治疗后有好转3人，无好转23人。可见本申请的基因芯片和TMB检测建议用药的患者中94.4％的患者大多表现为治疗有效，而不建议用药的患者中88.5％的患者表现为治疗无效，Fisher检验两者存在显著差异(p<0.001)，说明本申请基因芯片及基于基因芯片的TMB检测方法对免疫治疗用药具有显著的临床指导意义

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种肿瘤突变负荷检测方法，其特征在于：包括下机数据处理步骤、数据过滤及质控步骤、序列比对及质控步骤、体细胞变异检测及过滤步骤、变异结果注释步骤、肿瘤纯度预测步骤、样本成对质控步骤和肿瘤突变负荷预测步骤；

所述肿瘤突变负荷预测步骤：包括计算达到高深度测序标准的外显子区域总大小，计为s，统计该区域内非同义突变且为克隆突变的数量，计为c，根据以下公式

TMB＝c/s

计算每百万碱基的平均突变数量，即TMB值。

2.根据权利要求1所述的肿瘤突变负荷检测方法，其特征在于：所述下机数据处理步骤：包括对测序仪进行了参数优化，将肿瘤组织和对照样本的测序数据文本转化为通用文件格式，分别获得肿瘤组织和对照样本的数据，并对获得的数据进行质控程序质控，质控合格进入下一步骤；

所述质控程序质控的标准为，总测序数据量>39G，各样本数据量与理论值差距<20％，Q30>80％，未拆分数据<5％；

所述数据过滤及质控步骤：包括去除测序接头序列、低质量序列和N碱基组成的序列，并对过滤数据Clean_Base、Q20、Q30、GC含量、GC-AT_Seperation、N含量、平均读长长度、读长分布标准差、Average_base_quality和Clean_base_ratio进行筛选，选择符合设定阈值的数据进行后续分析；

所述序列比对及质控步骤：包括将数据过滤及质控步骤获得的数据比对到参考基因组上，比对结果直接进行去重合排序处理，不需生成临时文件；并对比对上的数据进行Mapping_rate、Mapping_quality、Insert_size、Duplication_rate、Capture_rate、Depth_in_target、Target_coverage、Target_500×、Target_100×和Target_10×筛选，选择符合设定阈值的数据进行后续分析；

所述体细胞变异检测及过滤步骤：包括对肿瘤组织和对照样本的数据同时进行变异检测，发现体细胞突变，得到原始变异结果，过滤去除原始变异结果中的假阳性变异，获得真实突变数据；

所述变异结果注释步骤：包括对突变的基因名称、转录本编号及位置信息和HGVS突变编号进行注释，并对中国人群突变频率进行注释，对突变进行有害性预测和保守性预测注释，对突变相关疾病信息进行注释；

所述肿瘤纯度预测步骤：包括对肿瘤组织突变的纯度进行检测，判断突变为克隆突变或亚克隆突变，获得克隆突变的数量；

所述样本成对质控步骤：包括根据设计的SNP质控位点，获得来自于同一个体的肿瘤组织和对照样本成对数据。

3.根据权利要求1或2所述的肿瘤突变负荷检测方法，其特征在于：还包括肿瘤突变负荷用药指导步骤，所述肿瘤突变负荷用药指导步骤包括，将肿瘤突变负荷预测步骤获得的TMB值与解读知识库获得的TMB阈值划分进行比较，根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息。

4.根据权利要求3所述的肿瘤突变负荷检测方法，其特征在于：所述肿瘤用药指导信息包括，FDA及CFDA批准的免疫检验点抑制剂适用情况，或者NCCN及ASCO达成共识的免疫检验点抑制剂适用情况，或者文献及临床试验发现的免疫检验点抑制剂适用情况。

5.根据权利要求3所述的肿瘤突变负荷检测方法，其特征在于：所述解读知识库包括中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据和中国胃癌患者基因组数据。

6.根据权利要求5所述的肿瘤突变负荷检测方法，其特征在于：所述TMB阈值划分具体为，TMB小于2.5个每百万碱基时，评价为TMB-Low；TMB大于或等于2.5个每百万碱基，并且TMB小于10个每百万碱基时，评价为TMB-Medium；TMB大于或等于10个每百万碱基时，评价为TMB-High；

所述根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息包括，TMB值为TMB-Low时，免疫检验点抑制剂效果不佳，输出建议不采用免疫治疗，建议采用靶向治疗或其它疗法的用药指导信息；TMB值为TMB-High时，免疫检验点抑制剂效果较好，输出建议采用免疫治疗的用药指导信息。

7.一种肿瘤突变负荷检测的装置，其特征在于：所述装置包括，

肿瘤纯度预测模块：用于对肿瘤组织突变的纯度进行检测，判断突变为克隆突变或亚克隆突变，获得克隆突变的数量；

TMB＝c/s

计算每百万碱基的平均突变数量，即TMB值。

8.根据权利要求7所述的装置，其特征在于：所述装置还包括，肿瘤突变负荷用药指导模块，用于将肿瘤突变负荷预测步骤获得的TMB值与解读知识库获得的TMB阈值划分进行比较，根据TMB值所在的TMB阈值划分区间输出肿瘤用药指导信息。

9.根据权利要求8所述的装置，其特征在于：所述解读知识库包括中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据和中国胃癌患者基因组数据；

所述肿瘤用药指导信息包括，FDA及CFDA批准的免疫检验点抑制剂适用情况，或者NCCN及ASCO达成共识的免疫检验点抑制剂适用情况，或者文献及临床试验发现的免疫检验点抑制剂适用情况；

所述TMB阈值划分具体为，TMB小于2.5个每百万碱基时，评价为TMB-Low；TMB大于或等于2.5个每百万碱基，并且TMB小于10个每百万碱基时，评价为TMB-Medium；TMB大于或等于10个每百万碱基时，评价为TMB-High；

10.一种肿瘤突变负荷检测的装置，其特征在于，所述装置包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1至6中任一项所述的肿瘤突变负荷检测方法。

11.一种计算机可读存储介质，其特征在于：包括程序，所述程序能够被处理器执行以实现如权利要求1至6中任一项所述的肿瘤突变负荷检测方法。