CN112116956B

CN112116956B - 一种基于二代测序的肿瘤单样本tmb检测方法及装置

Info

Publication number: CN112116956B
Application number: CN202011050601.5A
Authority: CN
Inventors: 但旭; 李淼; 胡郧波
Original assignee: Shenzhen Yuce Biotechnology Co ltd
Current assignee: Shenzhen Yuce Biotechnology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-04-19
Anticipated expiration: 2040-09-29
Also published as: CN112116956A

Abstract

本发明公开了一种基于二代测序的肿瘤单样本TMB检测方法及装置，利用单肿瘤组织样本的二代测序数据，将测序数据与公共dbSNP数据库提供的位点信息和突变频率信息比对后，由统计模型估算不同区域胚系、体细胞突变频率以判断突变属性，最后计算TMB值，本方法达到了单样本数据准确检测TMB的目的。摒弃了以往需要在取病人癌组织的同时，摄取癌旁健康组织的需求，减轻了病人的身体负担、痛苦和风险，提高了检测效率，降低了检测成本，还可更精确地检测该生物标志物，指导病人的免疫用药。

Description

一种基于二代测序的肿瘤单样本TMB检测方法及装置

技术领域

本发明属于细胞生物学及生物信息学技术领域，涉及一种肿瘤突变负荷的检测方法及装置，具体地说涉及一种基于二代测序的肿瘤单样本TMB检测方法及装置。

背景技术

肿瘤是指机体在各种致瘤因子的作用下，局部组织细胞增生所形成的新生物，由于这种新生物多呈占位性块状突起，也称赘生物，目前肿瘤已成为世界第一大病，并且近些发病率有增无减。为解决肿瘤对人体健康的危害，近些年逐渐发展出一种肿瘤免疫治疗方法，其是一种通过重新启动并维持肿瘤-免疫循环、恢复机体正常的抗肿瘤免疫反应，从而控制与清除肿瘤的方法。该方法采用单克隆抗体类免疫检查点抑制剂、治疗性抗体、癌症疫苗、细胞治疗和小分子抑制剂等，近些年已在多种肿瘤如黑色素瘤、非小细胞肺癌、肾癌和前列腺癌等实体瘤的治疗中展现出了强大的抗肿瘤活性。

采用肿瘤抗程序性死亡蛋白1(programmed death 1,PD-1)抗体的疗法是目前研究最多、临床发展最快的一种免疫疗法，PD-1在免疫反应的效应阶段起作用，其表达于活化的T细胞、B细胞及髓系细胞。PD-1有两个配体，即程序性死亡分子配体-1(programmeddeath ligand 1,PD-L1)和程序性死亡分子配体-2(programmed death ligand 2,PD-L2)。PD-L1/L2在抗原提呈细胞都表达，PD-L1在多种组织也有表达。PD-1与PD-L1的结合介导T细胞活化的共抑制信号，抑制T细胞的杀伤功能，对人体免疫应答起到负调节作用。研究发现，PD-L1在肿瘤组织高表达，而且调节肿瘤浸润CD8+T细胞的功能。因此，以PD-1/PD-L1为靶点的免疫调节对抗肿瘤有重要的意义。并且目前市面已有相应药物，而想要有效利用肿瘤免疫疗法的一个重要依据就是肿瘤突变负荷(TMB)的检测，它是目前做过最多研究的重要的肿瘤免疫治疗标志物。

细胞的癌变通常是由体细胞中的基因突变长期积累的结果，但不是所有的体细胞突变都会导致细胞癌变。目前主流观点认为，只有在驱动基因上的特异突变才赋予细胞癌变的特性，这种突变叫做驱动突变(driver mutation)。而驱动突变又会引发其他的基因突变，这导致癌细胞中的基因突变数量往往高于正常的体细胞。肿瘤突变负荷(TMB)是反映肿瘤细胞中总的基因突变程度的一个指标，通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。多个大规模临床研究发现，免疫检查点抑制剂的疗效很大程度上取决于患者癌细胞中所携带的基因突变的数量。在接受免疫检查点抑制剂治疗的患者中，TMB高与TMB低的患者对免疫疗法的疗效差异十分明显。因此，TMB的精确测量可以预测免疫检查点抑制剂的疗效，使癌症患者有机会获得更加精准的治疗。

最初的TMB采用全外显子组测序方法，对照患者的正常组织和癌组织，找出癌细胞特有的体细胞突变。可是对癌组织和正常组织同时测序成本较高，因此科学家开始探索只对癌症单个样本测序来测量TMB的可行性。对肿瘤单样本方法的探索不仅可以降低检测成本，而且能够减轻病人的痛苦，因为这样病人就无需额外取多一部分健康的癌旁组织，可以减轻对病人的伤害。但是目前还尚无准确性好、效率高的单个样本TMB检测方法。

发明内容

为此，本发明正是要解决上述技术问题，从而提出一种基于二代测序的肿瘤单样本TMB检测方法及装置。

为解决上述技术问题，本发明的技术方案为：

本发明第一方面提供一种基于二代测序的肿瘤单样本TMB检测方法，其包括如下步骤：

对由肿瘤组织样本中提取的DNA进行二代测序分析，得到测序结果；

对所述测序结果进行数据过滤，并与参考基因组进行比对，得到比对结果；

根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果；

对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果；

对所述突变结果进行数据过滤，得到体细胞突变结果；

根据所述体细胞突变结果计算TMB值。

作为优选，所述根据比对结果确定DNA样本中单个苷酸和插入缺失变异结果包括：

根据杂合多肽位点的突变频率和深度信息，得到肿瘤样本纯度、拷贝数和倍体数；

利用所述纯度、拷贝数和倍体数，通过式I、式II预测样本DNA各区域的胚系及细胞突变频率，其中，式I为：

式II为：

其中，C是拷贝数；Ψ是倍体数；p是纯度；Mi是突变型等位DNA片段的拷贝数；σ_ri是CBS得到的片段Si中log值的标准差；σ_fi为片段Si中snp位点的频率。

作为优选，对所述测序结果进行数据过滤，并与参考基因组进行比对，得到比对结果包括：

利用正常组织样本突变结果构建参考基因组数据库；

将所述测序进行数据过滤，并与所述参考基因组数据库内的突变结果比对，统计出现次数大于或等于5次的突变结果，构建用于过滤假阳性突变的数据库。

作为优选，对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果包括：筛选出突变频率大于或等于5％的突变结果。

作为优选，对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果还包括：

去除在所述突变数据库中出现次数大于5次的突变结果；

去除被判定为生殖系的突变结果；

去除在HLA区域的突变结果。

作为优选，所述体细胞突变结果包括突变数和探针测序覆盖编码区域的大小，所述TMB值通过如下方式计算得到：TMB＝突变数/探针测序覆盖编码区域的大小。本发明第二方面提供一种基于二代测序的肿瘤单样本TMB检测装置，其包括：

包括：

测序分析模块，对由肿瘤组织样本中提取的DNA进行二代测序分析，得到测序结果；

过滤比对模块，对所述测序结果进行数据过滤，并与参考基因组进行比对，得到比对结果；

变异结果确定模块，用于根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果；

变异结果过滤模块，用于对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果；

突变结果过滤模块，用于对突变结果进行数据过滤，得到体细胞突变结果；

计算模块，用于根据所述判定信息结果计算TMB值。

本发明第三方面提供一种终端，包括：存储装置及一个或多个处理器，所述存储装置用于存储一个或多个程序，其中，当一个或多个所述程序被一个或多个处理器执行时，使得一个或多个所述处理器执行所述的方法。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，所述可执行指令被执行时执行所述的方法。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于二代测序的肿瘤单样本TMB检测方法，利用单肿瘤组织样本的二代测序数据，将测序数据与公共dbSNP数据库提供的位点信息和突变频率信息比对后，由统计模型估算不同区域胚系、体细胞突变频率以判断突变属性，最后计算TMB值，本方法达到了单样本数据准确检测TMB的目的。摒弃了以往需要在取病人癌组织的同时，摄取癌旁健康组织的需求，减轻了病人的身体负担、痛苦和风险，提高了检测效率，降低了检测成本，还可更精确地检测该生物标志物，指导病人的免疫用药。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明实施例1所述的基于二代测序的肿瘤单样本TMB检测方法的流程图；

图2是本发明实施例1所述的基于二代测序的肿瘤单样本TMB检测装置的示意图；

图3是本发明实施例2中单双样本TMB相关性图；

图4是本发明实施例3中单双样本TMB相关性图；

图5是本发明实施例4中单双样本TMB相关性图。

具体实施方式

实施例1

请参阅图1，本实施例提供一种基于二代测序的肿瘤单样本TMB检测方法，其包括如下步骤：

S10、对由肿瘤组织样本中提取的DNA进行二代测序分析，得到测序结果。

具体地，对由肿瘤组织中提取DNA进行二代测试分析或分析单核苷酸变异(SNV)、插入缺失(indel)突变相关的结果，分析结果具体包括：测序序列中的突变位置、突变频率、突变类型和突变所在链信息。

S20、对所述测序结果进行数据过滤，并与参考基因组进行比对，得到比对结果；。

具体地，首先利用正常样本突变结果构建一个突变数据库，本实施例中，通过收集147例以统一规范操作和统一试剂、条件下实施测序检测的患者正常样本的突变结果，作为参考基因组或对照数据。

分析获取在特定且统一的探针和实验条件下样本基因序列在捕获区域内测序得到的序列的偏向性分布作为后续分析模型的参考数据。统计出该突变数据库中出现次数大于或等于5次的突变结果，构建用于过滤人群假阳性突变和胚系突变的数据库。

将步骤S10得到的分析结果与突变数据库内的突变结果比对、第一次过滤，将出现在假阳性数据库和胚系突变数据库的突变信息去除，以去除多态位点、高发突变和假阳性结果。

S30、根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果。

具体地，根据样本比对结果的bam文件中的reads覆盖度信息和数千个异源性(heterogenous)单核苷酸多态性(SNP)频率信息，用循环二元分割算法(Circular BinarySegmentation，CBS)将reads覆盖的捕获区域分割为N个预期具有相似拷贝数(copynumber，CN)的区域集合，迭代至集合之前不再具有更大差异可能性，即将含有相同拷贝数(CN)的区域聚集在一起作为下一个计算单位。其中CBS算法的公式如下：

其中，Y_ij和Z_ij表示2片段i到j区域及1到i及j到m区域数据的平均值，S_ij表示对应片段数据的平均差。

根据杂合多肽位点的突变频率和深度信息，得到肿瘤样本纯度、拷贝数和倍体数；根据分割(Segmentation)信息和SNP频率信息，采用吉布斯采样(Gibbs Sampling)参数估计方法，根据拷贝数和SNP位点频率求解高维方程，得到序列纯度(Purity)和倍体数(Ploidy)，并将纯度和倍体数作为参数来进行预测，重复至得到最符合观测数据的纯度和倍体数值，结合预计CN值推断出各基因片段集合的体细胞(somatic)突变、胚系(germline)突变最小等位频率(Minor Allele Frequency，MAF)，具体的计算方式为如下公式I-II：

式(I)、(II)中，C是拷贝数；Ψ是倍体数；p是纯度；Mi是突变型等位DNA片段的拷贝数；σ_ri是CBS得到的片段Si中log值的标准差；σ_fi代表片段Si中snp位点的频率。

S40、对突变结果进行数据过滤，得到体细胞突变结果。

具体地，首先，利用构建的突变数据库对肿瘤组织突变结果进行第二次过滤，去除多态位点、高发突变和假阳性结果，筛选出突变结果中突变频率大于或等于5％的突变结果，过滤掉在所述突变数据库中出现次数大于5次的突变结果。

S50、对所述突变结果进行数据过滤，得到体细胞突变结果。

根据体细胞(somatic)突变、胚系(germline)突变判定依据，过滤掉胚系突变，去除在HLA区域的突变结果，从而得到突变数(Mutation Counts，MC)及突变类型、探针测序覆盖编码区域的大小作为判定信息结果。其中，MC是过滤后得到的体细胞突变的数目，

S60、根据所述判定信息结果计算TMB值。

所述TMB值计算方式如下：TMB＝突变数(MC)/探针测序覆盖编码区域的大小(CS)。

请参阅图2，本实施例还提供一种基于二代测序的肿瘤单样本TMB检测装置，其包括：

测序分析模块701，对由肿瘤组织样本中提取的DNA进行二代测序分析，得到测序结果；

过滤比对模块702，对所述测序结果进行数据过滤，并与参考基因组进行比对，得到比对结果；

变异结果确定模块703，用于根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果；

变异结果过滤模块704，用于对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果；

突变结果过滤模块705，用于对突变结果进行数据过滤，得到体细胞突变结果；

计算模块706，用于根据所述判定信息结果计算TMB值。

本实施例还提供一种终端，其包括：存储装置及一个或多个处理器，所述存储装置用于存储一个或多个程序，其中，当一个或多个所述程序被一个或多个处理器执行时，使得一个或多个所述处理器执行所述的方法。

进一步地，本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，所述可执行指令被执行时执行所述的方法。该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例2

本实施例中，采用103例临床肿瘤病人组织样本及血液对照样本，及实施例1中构建的突变数据库。

a、对肿瘤组织样本二代测序数据进行比对、第一次过滤，并采用VarScan2做变异检测，得到突变结果。

b、将比对得到的bam文件和突变结果中异源性SNP位点信息用于分析序列的拷贝数、纯度、倍体数及格区域germline,somatic的预期MAF。

c、将突变结果相对于突变数据库进行第二次过滤后，进行TMB计算，得到肿瘤组织单样本TMB结果。

将单样本TMB结果与双样本TMB结果比对，结果如图3所示。图3表明，本实施例所述的方法计算出的单样本TMB与双样本TMB高度相关、一致，可以用单样本TMB计算来替代双样本TMB。其中双样本TMB结果通过上述参考基因组(临床样本)做对照的双样本突变检测得到的体细胞突变数除以cs(编码区域大小得到。

实施例3

本实施例中，采用45例国家TMB标准组织样本及血液对照样本，及实施例1中构建的突变数据库。

将单样本TMB结果与双样本TMB结果比对，结果如图4所示。图4表明，本实施例所述的方法计算出的单样本TMB与双样本TMB高度相关、一致，可以用单样本TMB计算来替代双样本TMB。其中双样本TMB结果通过上述参考基因组(临床样本)做对照的双样本突变检测得到的体细胞突变数除以cs(编码区域大小得到。

实施例4

本实施例中，采用21例临床肿瘤病人组织样本及血液对照样本，及实施例1中构建的突变数据库。

将单样本TMB结果与双样本TMB结果比对，结果如图5所示。图5表明，本实施例所述的方法计算出的单样本TMB与双样本TMB高度相关、一致，可以用单样本TMB计算来替代双样本TMB。其中双样本TMB结果通过上述参考基因组(临床样本)做对照的双样本突变检测得到的体细胞突变数除以cs(编码区域大小得到。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于二代测序的肿瘤单样本TMB检测方法，其特征在于，包括如下步骤：

根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果；包括：

根据样本比对结果的bam文件中的reads覆盖度信息和数千个异源性（heterogenous）单核苷酸多态性（SNP）频率信息，用循环二元分割算法（Circular Binary Segmentation，CBS）将reads覆盖的捕获区域分割为N个预期具有相似拷贝数（copy number，CN）的区域集合，迭代至集合之前不再具有更大差异可能性，即将含有相同拷贝数（CN）的区域聚集在一起作为下一个计算单位；其中CBS算法的公式如下：

；

其中，Y_ij和Z_ij表示2片段i到j区域及1到i及j到m区域数据的平均值，S_ij表示对应片段数据的平均差；

根据杂合多肽位点的突变频率和深度信息，得到肿瘤样本纯度、拷贝数和倍体数；根据分割（Segmentation）信息和SNP频率信息，采用吉布斯采样（Gibbs Sampling）参数估计方法，根据拷贝数和SNP位点频率求解高维方程，得到序列纯度（Purity）和倍体数（Ploidy），并将纯度和倍体数作为参数来进行预测，重复至得到最符合观测数据的纯度和倍体数值，结合预计CN值推断出各基因片段集合的体细胞（somatic）突变、胚系（germline）突变最小等位频率（Minor Allele Frequency，MAF），具体的计算方式为如下公式I-II：式I为：

；

式II为：；

其中，C是拷贝数；Ψ是倍体数；p是纯度；Mi是突变型等位DNA片段的拷贝数；σ_ri是CBS得到的片段Si中log值的标准差；σ_fi为片段Si中snp位点的频率；

对所述突变结果进行数据过滤，得到体细胞突变结果；

根据所述体细胞突变结果计算TMB值。

2.根据权利要求1所述的基于二代测序的肿瘤单样本TMB检测方法，其特征在于，对所述测序结果进行数据过滤，并与参考基因组进行比对，得到比对结果包括：

利用正常组织样本突变结果构建参考基因组数据库；

3.根据权利要求2所述的基于二代测序的肿瘤单样本TMB检测方法，其特征在于，对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果包括：筛选出突变频率大于或等于5%的突变结果。

4.根据权利要求3所述的基于二代测序的肿瘤单样本TMB检测方法，其特征在于，对所述变异结果进行假阳性和胚系数据库过滤，得到过滤后的突变结果还包括：

去除在所述突变数据库中出现次数大于5次的突变结果；

去除被判定为生殖系的突变结果；

去除在HLA区域的突变结果。

5.根据权利要求4所述的基于二代测序的肿瘤单样本TMB检测方法，其特征在于，所述体细胞突变结果包括突变数和探针测序覆盖编码区域的大小，所述TMB值通过如下方式计算得到：TMB=突变数/探针测序覆盖编码区域的大小。

6.根据权利要求5所述的基于二代测序的肿瘤单样本TMB检测方法，其特征在于，所述分析得到的测序结果包括突变位置、突变频率、突变类型、突变所在链信息中的至少一种。

7.一种基于二代测序的肿瘤单样本TMB检测装置，其特征在于，包括：

变异结果确定模块，用于根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果；包括：

；

式II为：；

计算模块，用于根据所述体细胞突变结果计算TMB值。

8.一种终端，其特征在于，包括：存储装置及一个或多个处理器，所述存储装置用于存储一个或多个程序，其中，当一个或多个所述程序被一个或多个处理器执行时，使得一个或多个所述处理器执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行指令，所述可执行指令被执行时执行如权利要求1-6任一项所述的方法。