CN109411015A

CN109411015A - 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质

Info

Publication number: CN109411015A
Application number: CN201811143168.2A
Authority: CN
Inventors: 李淼; 高志博; 张艳鹏; 陈超
Original assignee: Shenzhen Yulce Biological Technology Co Ltd
Current assignee: Shenzhen Yulce Biological Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-03-01
Anticipated expiration: 2038-09-28
Also published as: CN109411015B

Abstract

一种基于循环肿瘤DNA的肿瘤突变负荷检测装置及存储介质，该检测装置包括：数据获取单元，用于获取待测样本的循环肿瘤DNA的靶向捕获区域的测序数据；数据特征提取单元，用于从测序数据中提取测序数据特征；TMB预测单元，用于获取测序数据特征并输入TMB预测模型进行预测得到TMB预测结果；结果输出单元，用于输出TMB预测结果。本发明从循环肿瘤DNA的靶向捕获区域的测序数据中提取测序数据特征，然后输入TMB预测模型进行预测得到TMB预测结果，该方法计算得到的TMB预测结果与组织TMB结果一致，可准确反映样本中肿瘤突变负荷情况。

Description

基于循环肿瘤DNA的肿瘤突变负荷检测装置及存储介质

技术领域

本发明涉及肿瘤检测技术领域，具体涉及一种基于循环肿瘤DNA的肿瘤突变负荷检测装置及存储介质。

背景技术

肿瘤是由基因组变异引起的疾病。免疫检查点抑制剂开辟了肿瘤治疗的新时代，但由于缺乏合适的临床分子标志物，PD-1/PD-L1(程序性细胞死亡受体-1，programmeddeath-1，PD-1；程序性细胞死亡配体-1，programmed cell death ligand 1，PD-L1)药物的受益人群无法被高效的筛选，筛选率只有20％-30％。肿瘤突变负荷(TMB)是反映肿瘤细胞中总的基因突变程度的指标，通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。不同类型的肿瘤、同一种肿瘤中不同人群的TMB水平不一样，并且在平均TMB水平比较高的肿瘤中，也并不是所有患者的TMB水平都高，不同肿瘤类别中存在高TMB水平的人群比例不同，已有研究表明高TMB的水平能大概率预测肺癌、膀胱癌、黑色素瘤等肿瘤对免疫检查点抑制剂药物响应概率。鉴于TMB作为标志物在临床试验已取得一些良好的效果，国内外已有一些大型的公司或药企单独或合作进行TMB生物标志物的开发，研究将TMB纳入免疫检查点抑制剂药物临床试验的检测范围。

作为分子标志物，临床上有高效准确检测TMB的需求。目前TMB的检测通常需要使用肿瘤组织，具有取样困难、检测不及时的缺点。循环肿瘤DNA(ctDNA)检测使用患者外周血为样本，取样简单，目前已应用于靶向药物相关检测。然而，目前的检测方案不适合TMB检测，需要开发更适合的方法。

发明内容

本申请提供一种基于循环肿瘤DNA的肿瘤突变负荷检测装置及存储介质，使用循环肿瘤DNA检测肿瘤突变负荷，预测免疫检查点抑制剂疗效。

根据第一方面，一种实施例中提供一种基于循环肿瘤DNA的肿瘤突变负荷检测装置，包括：

数据获取单元，用于获取待测样本的循环肿瘤DNA的靶向捕获区域的测序数据；

数据特征提取单元，用于从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，其中上述突变是体细胞突变；

TMB预测单元，用于获取上述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中上述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征与已知样本的组织TMB结果进行训练得到的模型；

结果输出单元，用于输出上述TMB预测结果。

进一步地，上述数据特征提取单元还用于从上述测序数据中提取突变频率大于测序平均错误率的位点的测序数据特征，以及提取突变热点的测序数据特征；

相应地，上述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与上述已知样本的组织TMB结果进行训练得到的模型。

进一步地，上述训练包括：首先使用LDA算法对上述测序数据特征进行降维，随后使用SVM分类器进行训练得到上述TMB预测模型。

进一步地，上述检测装置还包括：

归一化单元，用于将上述测序数据特征进行归一化处理以提供给上述TMB预测单元进行TMB预测。

进一步地，上述数据获取单元还用于获取体细胞对照样本的靶向捕获区域的测序数据；相应地，上述数据特征提取单元还用于从上述体细胞对照样本的靶向捕获区域的测序数据中提取测序数据特征，上述测序数据特征包括对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个；并且上述体细胞对照样本的测序数据特征也被输入上述TMB预测模型中，用于过滤生殖细胞突变以消除假阳性结果；

优选地，上述体细胞对照样本是白细胞对照样本。

进一步地，上述检测装置还包括：

SNP质控位点检测单元，用于检测循环肿瘤DNA和体细胞对照样本的测序数据中的SNP质控位点，并根据检测结果的一致性确定上述循环肿瘤DNA和体细胞对照样本来源于同一个体。

进一步地，上述靶向捕获区域包括表1所示的基因的捕获区域，表1详见具体实施方式部分。

根据第一方面，一种实施例中还提供一种基于循环肿瘤DNA的肿瘤突变负荷检测装置，包括：

数据获取单元，用于获取待测样本的循环肿瘤DNA和白细胞对照样本的靶向捕获区域的测序数据；

数据特征提取单元，用于从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数和白细胞对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，其中上述突变是体细胞突变；以及提取突变频率大于测序平均错误率的位点的测序数据特征，和突变热点的测序数据特征；

归一化单元，用于将上述测序数据特征进行归一化处理以便进行TMB预测；

TMB预测单元，用于获取归一化的测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中上述TMB预测模型是根据已知样本的循环肿瘤DNA和白细胞对照样本的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与上述已知样本的组织TMB结果进行训练得到的模型；

结果输出单元，用于输出上述TMB预测结果。

根据第二方面，一种实施例中提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下基于循环肿瘤DNA的肿瘤突变负荷检测方法：

获取待测样本的循环肿瘤DNA的靶向捕获区域的测序数据；

从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，其中上述突变是体细胞突变；

获取上述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中上述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征与已知样本的组织TMB结果进行训练得到的模型；和

输出上述TMB预测结果。

根据第二方面，一种实施例中还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下基于循环肿瘤DNA的肿瘤突变负荷检测方法：

获取待测样本的循环肿瘤DNA和白细胞对照样本的靶向捕获区域的测序数据；

从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数和白细胞对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，其中上述突变是体细胞突变；以及提取突变频率大于测序平均错误率的位点的测序数据特征，和突变热点的测序数据特征；

将上述测序数据特征进行归一化处理以便进行TMB预测；

获取上述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中上述TMB预测模型是根据已知样本的循环肿瘤DNA和白细胞对照样本的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与上述已知样本的组织TMB结果进行训练得到的模型；和

输出上述TMB预测结果。

本发明的肿瘤突变负荷检测装置从循环肿瘤DNA的靶向捕获区域的测序数据中提取测序数据特征，然后输入TMB预测模型进行预测得到TMB预测结果，该方法计算得到的TMB预测结果与组织TMB结果一致，可准确反映样本中肿瘤突变负荷情况。

附图说明

图1为本发明实施例的基于循环肿瘤DNA的肿瘤突变负荷检测装置的结构框图；

图2为本发明实施例的模拟捕获芯片测试结果；

图3为本发明实施例中从提取DNA到产生测序结果的流程图；

图4为本发明实施例中已知样本的TMB预测结果与组织TMB结果的ROC曲线图；

图5为本发明实施例中TMB预测结果与全外显子测序分析TMB结果之间的相关性结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本发明提出了一种肿瘤突变负荷检测装置，该检测装置从循环肿瘤DNA的靶向捕获区域的测序数据中提取测序数据特征，输入TMB预测模型进行预测得到TMB预测结果，该方法计算得到的TMB预测结果与组织TMB结果一致，可准确反映样本中肿瘤突变负荷情况。

如图1所示，本发明一个实施例中，肿瘤突变负荷检测装置包括：数据获取单元101、数据特征提取单元102、TMB预测单元104和结果输出单元105，优选地，还包括归一化单元103。

本发明实施例中，数据获取单元101，用于获取待测样本的循环肿瘤DNA的靶向捕获区域的测序数据。

本发明实施例中，待测样本可以是任何来源的样本，包括来源于健康人和疑似肿瘤患者的血液样本或血浆样本。采用循环肿瘤DNA的靶向捕获区域而不是全部DNA进行测序，在满足检测准确性的前提下有效降低了测序数据量，减少成本。本发明一个实施例中，采用表1(下述)所示的基因的捕获区域进行测序获取测序数据，并进行后续分析，相比使用全外显子测序检测到的突变总数，具有良好的相关性，表明循环肿瘤DNA的靶向捕获区域能够非常好的代表全外显子的情况，能够真实反映肿瘤突变负荷。测序数据包含了靶向捕获区域的测序读长(reads)，数据量可能是几个G的大小，例如在一个实施例中，数据量4G。可以采用任何二代测序技术进行测序，例如在一个实施例中，采用Illumina测序技术，使用PE150测序方式进行测序。测序得到的下机测序数据需要经过一定预处理。例如，在一个实施例中，下机测序数据经过如下处理：(a)下机数据处理：测序仪产生的通常为专用格式数据，需首先转化为通用的fastq文件格式。此外，1张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。可以使用bcl2fastq软件对下机数据进行处理，针对常用的测序仪如NextSeq 500可以进行参数上的优化，达到提高数据利用率、简化后续处理的目的。数据处理完毕后经过质控程序质控，判断数据产出及质量是否出现异常，无异常则进入下一步骤。(b)数据过滤及质控：测序仪产出的数据除包含有效数据外，还包括测序接头序列、低质量序列及N碱基组成的序列，这些序列会干扰后续分析，需要去除。例如，可以使用cutadapt软件进行上述操作。过滤后的数据使用质控软件进行质控，符合规定标准的数据为合格数据。(c)序列比对及质控：序列比对可以采用bwa mem算法进行，使用的参考基因组可以是人GRCh37.73参考基因组。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。比对结果可以使用质控软件进行质控，符合规定标准的数据为合格数据。

数据特征提取单元102，用于从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，其中上述突变是体细胞突变。

在本发明的一个优选实施例中，测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的全部数据特征。

本发明实施例中，循环肿瘤DNA样本的平均测序深度，计算方法为捕获区域内每个位点测序深度之和除以捕获区域大小；循环肿瘤DNA样本的有效捕获区域大小，计算方法为捕获区域内测序深度大于50％平均测序深度的位点数量；循环肿瘤DNA样本的平均碱基质量值，计算方法为每个碱基的测序质量值之和除以总测序碱基数；循环肿瘤DNA样本的突变位点数量，计算方法为对每个位点判断是否有测序读长(reads)支持突变，统计有突变的位点数量；循环肿瘤DNA样本的突变位点平均测序深度，计算方法为捕获区域内每个突变位点测序深度之和除以突变位点数量；循环肿瘤DNA样本的突变位点平均碱基质量值，计算方法为只对突变位点统计平均碱基质量；循环肿瘤DNA样本的突变读长总数，计算方法为统计所有存在突变的测序读长(reads)总数。本发明实施例只计算芯片捕获区域上的体细胞突变。

在本发明的一个优选实施例中，还使用体细胞对照样本的靶向捕获区域的测序数据进行分析，以排除生殖细胞突变，消除假阳性结果。理论上，体细胞对照样本可以是与循环肿瘤DNA样本来源于同一个体的任何体细胞样本，但是，由于本发明的循环肿瘤DNA样本来源于待检个体的外周血，因此最方便可行的做法是从同一外周血中分离白细胞样本作为对照样本。这些白细胞样本也进行靶向捕获区域的测序，获得体细胞对照样本的靶向捕获区域的测序数据。相应地，数据特征提取单元还用于从上述体细胞对照样本的靶向捕获区域的测序数据中提取测序数据特征，上述测序数据特征包括对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，优选平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的全部数据特征。

本发明实施例中，对照样本的平均测序深度，计算方法为捕获区域内每个位点测序深度之和除以捕获区域大小；对照样本的突变位点数量，计算方法为对每个位点判断是否有测序读长(reads)支持突变，统计有突变的位点数量；对照样本的突变位点平均测序深度，计算方法为捕获区域内每个突变位点测序深度之和除以突变位点数量；对照样本的突变位点平均碱基质量值，计算方法为只对突变位点统计平均碱基质量；对照样本的突变读长总数，计算方法为统计所有存在突变的测序读长(reads)总数。

在本发明的一个优选实施例中，在包含体细胞对照样本的靶向捕获区域的测序数据的情况下，上述提取的体细胞对照样本的测序数据特征也被输入TMB预测模型(下述)中，用于过滤生殖细胞突变以消除假阳性结果。

需要说明的是，上述循环肿瘤DNA样本和对照样本的测序数据特征是整体上全部测序数据的数据特征，并没有特别选择肿瘤特异性强的测序数据进行特别分析。上述方法虽然也能实现本发明的基本目的，但是从检测结果准确性的要求出发，在本发明的一个优选实施例中，还包括：(a)数据特征提取单元还用于从测序数据中提取突变频率大于测序平均错误率的位点的测序数据特征，以及(b)提取突变热点的测序数据特征，其中突变热点是在肿瘤中容易发生突变的位点。上述测序平均错误率与测序仪相关，不同测序仪可能有不同的测序平均错误率，一般而言，测序仪的平均错误率为1％，突变频率大于1％的位点更有可能是真实突变，而小于1％的更有可能是背景噪声，因此特别分析这部分突变频率大于测序平均错误率(例如1％)的位点的测序数据特征，能够更有针对性和准确性的预测出TMB。类似的，对突变热点进行单独统计，提取其测序数据特征，由于这些突变热点是肿瘤中容易发生突变的位点，更能代表肿瘤导致的突变情况。需要说明的是，上述突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征也包括上述定义的那些测序数据特征，即循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，以及对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，优选平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数等全部特征。

上述测序数据特征都是以具体数值——即特征值的形式体现，理论上，上述测序数据特征可以直接输入下述TMB预测单元中进行TMB预测，然而，考虑到这些测序数据特征的单位不同，具体数值从小于1到数百都有，不利于算法分析。因此，从后续分析方便的角度考虑，本发明实施例的检测装置，还包括归一化单元103，用于将上述测序数据特征进行归一化处理以便进行TMB预测。在本发明一个实施例中，归一化是指将每种特征值分别映射到0-1区间，汇总后作为特征集合。

TMB预测单元104，用于获取测序数据特征(或者归一化的测序数据特征)并输入TMB预测模型进行预测得到TMB预测结果，其中TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征与已知样本的组织TMB结果进行训练得到的模型。

本发明实施例中，TMB预测模型是根据已知样本训练得到的，即使用机器学习算法进行自主学习而建立已知样本的组织TMB结果与相同的已知样本的循环肿瘤DNA的测序数据特征之间的关联关系。根据这种关联关系，对于输入的待测样本的循环肿瘤DNA的测序数据特征，就可以给出反映组织TMB结果的预测结果。

在本发明的一个优选实施例中，首先使用LDA算法(线性判别分析,LinearDiscriminant Analysis)对测序数据特征进行降维，随后使用SVM分类器(支持向量机，Support Vector Machine)进行训练得到TMB预测模型。其中，LDA算法和SVM分类器属于现有常用的算法，本发明创造性地将其引入本发明的TMB预测中，能够得到良好的预测结果。

在本发明的一个优选实施例中，还特别使用了突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征，因此，在上述TMB预测模型的“训练”过程中，还使用了已知样本的循环肿瘤DNA的突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征进行训练。即，在优选实施例中，TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征(或者归一化的测序数据特征)、突变频率大于测序平均错误率的位点的测序数据特征(或者归一化的测序数据特征)以及突变热点的测序数据特征(或者归一化的测序数据特征)与相同的已知样本的组织TMB结果进行训练得到的模型。

本发明实施例中，组织TMB结果是已知的，现有技术能够实现。

在本发明的一个优选实施例中，还使用了体细胞对照样本的靶向捕获区域的测序数据进行分析，因此，在上述TMB预测模型的“训练”过程中，已知样本的体细胞的靶向捕获区域的测序数据也被纳入到上述TMB预测模型的“训练”过程中，用于除去过滤生殖细胞突变以消除假阳性结果。

结果输出单元105，用于输出上述TMB预测结果。

如图1所示，在本发明的一个优选实施例中，检测装置还包括：

SNP质控位点检测单元106，用于检测循环肿瘤DNA和体细胞对照样本的测序数据中的SNP质控位点，并根据检测结果的一致性确定上述循环肿瘤DNA和体细胞对照样本来源于同一个体。在本发明一个实施例中，为确保检测的循环肿瘤DNA与对照样本来自同一个个体(如人)，在捕获芯片上设计了28个多态性位点，这些位点具有人群多态性，在不同人中表现为不同基因型，可用于成对质控。具体而言，如果在循环肿瘤DNA和体细胞对照样本(如白细胞)的测序数据中，上述28个多态性位点相同，则说明二者来自同一个个体，如果相差较大则说明可能来自不同个体。

在本发明的一个最佳实施例中，基于循环肿瘤DNA的肿瘤突变负荷检测装置，包括：数据获取单元，用于获取待测样本的循环肿瘤DNA和白细胞对照样本的靶向捕获区域的测序数据；数据特征提取单元，用于从测序数据中提取测序数据特征，测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数和白细胞对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，其中上述突变是体细胞突变；以及提取突变频率大于测序平均错误率的位点的测序数据特征，和突变热点的测序数据特征；归一化单元，用于将测序数据特征进行归一化处理以便进行TMB预测；TMB预测单元，用于获取归一化的测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中TMB预测模型是根据已知样本的循环肿瘤DNA和白细胞对照样本的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与已知样本的组织TMB结果进行训练得到的模型；结果输出单元，用于输出TMB预测结果。

本领域技术人员可以理解，上述实施方式中各种检测装置中各种单元的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明一个实施例提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下基于循环肿瘤DNA的肿瘤突变负荷检测方法：获取待测样本的循环肿瘤DNA的靶向捕获区域的测序数据；从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，其中上述突变是体细胞突变；获取上述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中上述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征与已知样本的组织TMB结果进行训练得到的模型；和输出上述TMB预测结果。

在本发明的一个最佳实施例中，还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下基于循环肿瘤DNA的肿瘤突变负荷检测方法：获取待测样本的循环肿瘤DNA和白细胞对照样本的靶向捕获区域的测序数据；从上述测序数据中提取测序数据特征，上述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数和白细胞对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，其中上述突变是体细胞突变；以及提取突变频率大于测序平均错误率的位点的测序数据特征，和突变热点的测序数据特征；将上述测序数据特征进行归一化处理以便进行TMB预测；获取上述归一化的测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中上述TMB预测模型是根据已知样本的循环肿瘤DNA和白细胞对照样本的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与上述已知样本的组织TMB结果进行训练得到的模型；和输出上述TMB预测结果。

以下通过一个实施例对本发明进行详细描述，需要说明的是，该实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例

本实施例的肿瘤突变负荷检测装置的开发与应用技术路线如下：

样本收集(外周血)→血浆分离→ctDNA及白细胞DNA提取→高通量基因捕获测序→测序数据预处理→测序数据比对→TMB计算→TMB结果解读→指导肿瘤免疫治疗。具体实施如下：

1、靶向捕获芯片及实验设计：

传统肿瘤突变负荷检测通常采用全外显子测序，具有成本高、周期长的缺点。为解决此问题，本发明设计了一种靶向捕获芯片，只捕获特定基因序列并进行测序，有效降低了测序数据量，达到节省成本、缩短周期的目的。

该靶向捕获芯片的设计过程是：

(1)根据COSMIC数据库收集的突变信息，统计每个基因的每个外显子上有多少个碱基发生突变，突变总数除以外显子总长度，得到每个外显子上出现突变碱基的概率。

(2)根据ICGC数据库(https://icgc.org/)收集的样本数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

(3)根据中国人群食管癌、肺癌、胃癌基因组数据，统计每个基因的每个外显子上有多少个样本发生突变，突变样本数除以总样本数，得到每个外显子上出现突变样本的概率。

(4)根据上述数据对每个外显子赋予分值，计算方法为：pa*0.3+pb*0.2+pc*0.5，其中pa、pb、pc分别为步骤(1)至(3)计算的概率。此分值可代表外显子对肿瘤突变负荷变化的贡献程度。去除贡献程度为0的外显子后，其余外显子作为候选区域进入下一步计算。

(5)使用遗传算法对外显子进行筛选。遗传算法使用DEAP软件包，参数设置如下：初始种群数量50，Lambda值400，突变概率0.5，交换概率0.4，迭代500代。评分公式为：区域大小权重-0.5，外显子分值1.0，所选区域TMB结果与外显子相关性权重1.0。据此计算出最终捕获区域，如表1所示的基因的捕获区域：

表1

(6)添加SNP质控位点。该质控位点的选择方法为：根据Cell Lines Project数据库设计的质控位点，选择其中中国人群中突变频率在0.4-0.6区间的位点，根据PCR验证成功率排序，选择最高的28个SNP位点如下表2所示：

表2

rs1327118	rs1801262	rs156318	rs1541836
				rs1402695	rs1515002	rs1843026	rs1805034
rs1414904	rs1392265	rs1368136	rs1030687
				rs1131498	rs11096957	rs1105176	rs171953
rs1079820	rs1426003	rs156697	rs753381
				rs1805087	rs1363333	rs12828016	rs1293153
rs1032807	rs3734440	rs1395936	rs1541290

对此设计的验证如下：

使用ICGC数据库(https://icgc.org/)收集的中国人群肺癌及肝癌样本进行测试。数据库中收录了样本的外显子范围内体细胞变异结果，根据捕获芯片的设计区域筛选区域内突变，模拟捕获芯片测试结果，如图2所示，图中横坐标为每个样本使用外显子(exon)测序检测到的突变总数，纵坐标为模拟芯片捕获检测到的突变总数，Pearson相关系数R²分别为0.96和0.99，说明二者存在较强的相关性。综上所述，可以证明该靶向捕获芯片设计能够真实反映肿瘤突变负荷。

2.TMB预测模型设计：

循环肿瘤DNA(ctDNA)所包含的突变情况与肿瘤组织存在一定差别，且受样本影响较大。为了使ctDNA能够反映肿瘤组织的突变负荷，设计了一种机器学习模型，用于对ctDNA数据进行预测。该模型的计算方法是：

(1)取一批已知组织TMB结果的样本，按照图3所示的流程提取ctDNA及白细胞对照样本DNA，经质控、建库、杂交捕获(采用表1所示的基因捕获区域)、测序，获取测序数据，并从测序数据中对测序数据特征进行统计，统计指标包含：ctDNA样本平均测序深度，ctDNA样本有效捕获区域大小，ctDNA样本平均碱基质量值，ctDNA样本突变位点数量，ctDNA样本突变位点平均测序深度，ctDNA样本突变位点平均碱基质量值，ctDNA样本突变reads总数，对照样本平均测序深度，对照样本突变位点数量，对照样本突变位点平均测序深度，对照样本突变位点平均碱基质量值，对照样本突变reads总数。统计结果只计算芯片捕获区域上的体细胞突变。

(2)考虑到测序仪的平均错误率为1％，突变频率大于1％的位点更有可能是真实突变，而小于1％的更有可能是背景噪声，因此对突变频率大于1％的位点进行单独统计，计算上述指标。

(3)以下表3中的位点为COSMIC数据库统计的在肿瘤中容易发生突变的位点，更能代表肿瘤导致的突变情况，因此对下表包含的突变热点进行单独统计，计算上述指标。

表3

(4)对上述步骤(1)至(3)中统计的测序数据特征(即特征值)分别进行归一化，将每种特征值分别映射到0-1区间，汇总后作为特征集合。

(5)计算上述归一化的特征值后，首先使用LDA算法(线性判别分析，LinearDiscriminant Analysis)进行降维，随后使用SVM分类器(支持向量机，Support VectorMachine)进行训练，得到TMB预测模型。

结果，对于一批已知组织TMB结果的样本，采用10折交叉验证方式(即将数据集分成10份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验)测试准确性，其ROC曲线(受试者工作特征曲线，receiver operating characteristic curve)如图4所示，综合准确性为82.6％，证明ctDNA的TMB预测结果与组织TMB结果基本一致。

3.未知样本的TMB预测

对于未知样本，按照图3所示的流程提取ctDNA及白细胞对照样本DNA，经质控、建库、杂交捕获(采用表1所示的基因捕获区域)、测序，获取测序数据，并从测序数据中对测序数据特征进行统计，对统计的测序数据特征(即特征值)分别进行归一化，然后将归一化的特征值输入上述TMB预测模型，计算预测结果。具体而言，本实施例的分析环节详细介绍如下：

(1)下机数据处理：测序仪产生的通常为专用格式数据，需首先转化为通用的fastq文件格式。此外，1张测序芯片上会混合多个样本，需要在分析之前将属于各个样本的数据拆分开来。本实施例使用bcl2fastq软件对下机数据进行处理，并针对常用的NextSeq500测序仪进行了参数上的优化，达到提高数据利用率、简化后续处理的目的。数据处理完毕后经过质控程序质控，判断数据产出及质量是否出现异常，无异常则进入下一步骤。

(2)数据过滤及质控：测序仪产出的数据除包含有效数据外，还包括测序接头序列、低质量序列及N碱基组成的序列，这些序列会干扰后续分析，需要去除。本实施例使用cutadapt软件进行上述操作。过滤后的数据使用质控软件进行质控，符合以下表4标准的数据为合格数据：

表4

检测指标	合格范围
		过滤后数据量(Clean_Base)	>2500Mb
质量值超过20的碱基占比(Q20)	>95％
		质量值超过30的碱基占比(Q30)	>80％
GC碱基所占百分比(GC)	>45％and<50％
		GC-AT碱基分离比(GC-AT_Seperation)	<0.500％
N碱基占比(N_Rate)	<0.100％
		平均读长(Average_read_length)	>120bp and<＝151bp
读长标准差(Read_length_stddev)	<20.000
		平均碱基质量值(Average_base_quality)	>32.000
过滤后数据量占比(Clean_base_ratio)	>80％

(3)序列比对及质控：序列比对采用bwa mem算法进行，使用的参考基因组为GRCh37.73。比对结果直接进行去重合排序处理，不需生成临时文件，达到节省时间及空间的目的。比对结果使用质控软件进行质控，符合以下表5标准的数据为合格数据：

表5

检测指标	合格范围
		比对率(Mapping_rate)	>99％
比对质量值(Mapping_quality)	>35
		插入片段长度(Insert_size)	<180bp and>120bp
重复率(Duplication_rate)	<30％
		捕获效率(Capture_rate)	>50％
目标区域测序深度(Depth_in_target)	>500X
		目标区域覆盖度(Target_coverage)	>98％
测序深度>500X的目标区域占比(Target_500X)	>70％
		测序深度>100X的目标区域占比(Target_100X)	>90％
测序深度>10X的目标区域占比(Target_10X)	>90％

(4)样本成对质控：为确保检测的肿瘤与对照样本来自同一个人，在捕获芯片上设计了28个多态性位点(上述表2)，这些位点具有人群多态性，在不同人中表现为不同基因型，可用于成对质控。

(5)TMB预测：质控通过后，按照上述“TMB预测模型设计”部分中步骤(1)至(4)对未知样本的测序数据特征进行统计并归一化处理，然后进行TMB预测。使用上述TMB预测模型进行计算，得到每M区域的平均突变数量。

本实施例，使用21例临床未知样本按照上述方法进行基于ctDNA的TMB预测，计算TMB数值，同时进行全外显子测序分析计算TMB数值(即组织TMB检测)，结果如图5所示。可见二者计算出的TMB结果具有较强相关性，证明基于ctDNA的TMB预测可替代组织TMB检测。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于循环肿瘤DNA的肿瘤突变负荷检测装置，其特征在于，所述检测装置包括：

数据特征提取单元，用于从所述测序数据中提取测序数据特征，所述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，其中所述突变是体细胞突变；

TMB预测单元，用于获取所述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中所述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征与已知样本的组织TMB结果进行训练得到的模型；

结果输出单元，用于输出所述TMB预测结果。

2.根据权利要求1所述的检测装置，其特征在于，所述数据特征提取单元还用于从所述测序数据中提取突变频率大于测序平均错误率的位点的测序数据特征，以及提取突变热点的测序数据特征；

相应地，所述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与所述已知样本的组织TMB结果进行训练得到的模型。

3.根据权利要求1或2所述的检测装置，其特征在于，所述训练包括：首先使用LDA算法对所述测序数据特征进行降维，随后使用SVM分类器进行训练得到所述TMB预测模型。

4.根据权利要求1或2所述的检测装置，其特征在于，所述检测装置还包括：

归一化单元，用于将所述测序数据特征进行归一化处理以提供给所述TMB预测单元进行TMB预测。

5.根据权利要求1或2所述的检测装置，其特征在于，所述数据获取单元还用于获取体细胞对照样本的靶向捕获区域的测序数据；相应地，所述数据特征提取单元还用于从所述体细胞对照样本的靶向捕获区域的测序数据中提取测序数据特征，所述测序数据特征包括对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个；并且所述体细胞对照样本的测序数据特征也被输入所述TMB预测模型中，用于过滤生殖细胞突变以消除假阳性结果；

优选地，所述体细胞对照样本是白细胞对照样本。

6.根据权利要求5所述的检测装置，其特征在于，所述检测装置还包括：

SNP质控位点检测单元，用于检测循环肿瘤DNA和体细胞对照样本的测序数据中的SNP质控位点，并根据检测结果的一致性确定所述循环肿瘤DNA和体细胞对照样本来源于同一个体。

7.根据权利要求1或2所述的检测装置，其特征在于，所述靶向捕获区域包括如下表1所示的基因的捕获区域：

表1

8.一种基于循环肿瘤DNA的肿瘤突变负荷检测装置，其特征在于，所述检测装置包括：

数据特征提取单元，用于从所述测序数据中提取测序数据特征，所述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数和白细胞对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，其中所述突变是体细胞突变；以及提取突变频率大于测序平均错误率的位点的测序数据特征，和突变热点的测序数据特征；

归一化单元，用于将所述测序数据特征进行归一化处理以便进行TMB预测；

TMB预测单元，用于获取归一化的测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中所述TMB预测模型是根据已知样本的循环肿瘤DNA和白细胞对照样本的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与所述已知样本的组织TMB结果进行训练得到的模型；

结果输出单元，用于输出所述TMB预测结果。

9.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如下基于循环肿瘤DNA的肿瘤突变负荷检测方法：

获取待测样本的循环肿瘤DNA的靶向捕获区域的测序数据；

从所述测序数据中提取测序数据特征，所述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数中的至少一个，其中所述突变是体细胞突变；

获取所述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中所述TMB预测模型是根据已知样本的循环肿瘤DNA的测序数据特征与已知样本的组织TMB结果进行训练得到的模型；和

输出所述TMB预测结果。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如下基于循环肿瘤DNA的肿瘤突变负荷检测方法：

从所述测序数据中提取测序数据特征，所述测序数据特征包括循环肿瘤DNA样本的平均测序深度、有效捕获区域大小、平均碱基质量值、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数和白细胞对照样本的平均测序深度、突变位点数量、突变位点平均测序深度、突变位点平均碱基质量值、突变读长总数，其中所述突变是体细胞突变；以及提取突变频率大于测序平均错误率的位点的测序数据特征，和突变热点的测序数据特征；

将所述测序数据特征进行归一化处理以便进行TMB预测；

获取所述测序数据特征并输入TMB预测模型进行预测得到TMB预测结果，其中所述TMB预测模型是根据已知样本的循环肿瘤DNA和白细胞对照样本的测序数据特征、突变频率大于测序平均错误率的位点的测序数据特征以及突变热点的测序数据特征与所述已知样本的组织TMB结果进行训练得到的模型；和

输出所述TMB预测结果。