CN116769888A

CN116769888A - 从单样本中检测体细胞变异的方法和电子装置

Info

Publication number: CN116769888A
Application number: CN202310520615.6A
Authority: CN
Inventors: 姬晓勇; 高司航; 单光宇; 伍启熹; 赵汗青; 王建伟
Original assignee: Beijing Youxun Medical Devices Co ltd
Current assignee: Beijing Youxun Medical Devices Co ltd
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-09-19

Abstract

本发明提供了一种从单样本中检测体细胞变异的方法和电子装置。其中，上述方法包括：(1)分析检测样本的下机数据，获得过滤变异位点，计算过滤变异位点是胚系变异和体细胞变异的后验概率，记为胚系变异参数和体细胞变异参数；(2)利用每个过滤变异位点的背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量；(3)利用体细胞变异判别模型，依据每个过滤变异位点的突变特征向量判定每个过滤变异位点为体细胞变异或胚系变异。本发明能够解决现有技术中难以准确检测单样本中的体细胞变异的问题，适用于生物信息学领域。

Description

从单样本中检测体细胞变异的方法和电子装置

技术领域

本发明涉及生物信息学领域，具体而言，涉及一种从单样本中检测体细胞变异的方法和电子装置。

背景技术

在肿瘤的精准治疗领域，NGS测序技术应用得越来越广泛，目前各大公共数据库已经积累了多个癌种的测序数据。根据肿瘤患者的测序结果，医生可以进行患者是否适合药物的靶向治疗等判断。这个过程中，从患者检测出的变异结果中区分胚系变异和体细胞变异是关键的一步。

区分变异位点属于胚系变异还是体细胞变异，最常用的方法是同时对肿瘤组织和配对的正常样本进行测序，根据配对样本过滤胚系变异。但这样做会带来几个问题：临床中，配对组织经常无法获得；同时对配对组织进行测序会带来额外的成本；对既往数据进行回顾性研究时，往往缺少配对样本的数据。这就要求我们创造某种方法，可以基于单独的肿瘤组织进行变异位点分析，检测出其中的体细胞变异。

目前，胚系变异的过滤，主要基于数据库的过滤和Foundation Medicine公司发表的SGZ算法。然而，目前主要的公共数据库如1000Genome、ExAC、dbSNP都没有针对中国人群大队列进行数据收集，基于数据库难以过滤掉全部胚系变异。现在还存在基于变异位点的变异频率进行过滤的方法，即认为胚系变异的频率会接近0.5或者1，判断往往失真。Foundation Medicine公司发表的SGZ算法，需要通过建立概率模型，同时估算肿瘤纯度、肿瘤的倍性和肿瘤的局部拷贝数，无法适用于小panel数据。

发明内容

本发明的主要目的在于提供一种从单样本中检测体细胞变异的方法和电子装置，以解决现有技术中难以准确检测单样本、尤其是小panel数据中的体细胞变异的问题。

为了实现上述目的，根据本发明的第一个方面，提供了一种从单样本肿瘤组织检测体细胞变异的方法，该方法包括：

(1)分析检测样本的下机数据，获得过滤变异位点，计算过滤变异位点是胚系变异和体细胞的后验概率，记为胚系变异参数和体细胞变异参数；

(2)利用每个过滤变异位点的背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量；

(3)利用体细胞变异判别模型，依据每个过滤变异位点的突变特征向量判定每个过滤变异位点为体细胞变异或胚系变异。

进一步地，(1)包括：(1.1)获取检测样本的下机数据，将下机数据与参考基因组进行比对，获得BAM文件数据，检测样本为单样本肿瘤组织；(1.2)对BAM文件数据进行分析，获得初始变异位点、初始变异位点的深度和携带初始变异位点的读段数；(1.3)对初始变异位点进行过滤，获得过滤变异位点、过滤变异位点的深度和携带过滤变异位点的读段数；(1.4)计算胚系变异参数和体细胞变异参数。

进一步地，计算胚系变异参数和体细胞变异参数包括：

a.对参考样本和检测样本的基因划分区段，分别在参考样本和检测样本的每个基因中等同地划分获得多个窗口；计算获得参考样本中每个窗口的拷贝数基线，计算获得检测样本中每个窗口的读段数比例，利用每个窗口的拷贝数基线，对对应窗口的读段数比例进行校正，获得校正值；利用校正值计算获得检测样本中每个基因相对应的基因拷贝数；参考样本包括白细胞样本；

b.对于检测样本中每个基因，统计获得基因上携带的杂合胚系变异的实际突变概率；利用基因拷贝数，通过网格搜索法计算获得肿瘤纯度和次等位基因拷贝数；

c.根据肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算检测样本的胚系变异理论概率和体细胞变异理论概率；根据胚系变异理论概率、体细胞变异理论概率、过滤变异位点的深度和携带过滤变异位点的读段数，基于二项分布公式分别计算每个过滤变异位点是胚系变异或体细胞变异时的后验概率，将过滤变异位点是胚系变异或体细胞变异时的后验概率分别记为胚系变异参数和体细胞变异参数。

进一步地，检测样本的下机数据包括大集合数据或小集合数据，大集合数据为通过高通量测序平台杂交捕获的区域大于1Mb的测序数据，小集合数据为通过高通量测序平台杂交捕获的区域在100Kb-1Mb之间的测序数据。

进一步地，(1.3)中对初始变异位点进行的过滤包括：数据自身过滤和/或基于数据库过滤；优选地，数据自身过滤包括：过滤去除变异频率<0.2％的初始变异位点；过滤去除具有链偏好性的初始变异位点；过滤去除支持读段数<3的初始变异位点；优选地，链偏好性包括支持初始变异位点的正向读段或反向读段为0；优选地，基于数据库过滤包括：利用人群数据库1000Genome、ExAC和SNP数据库dbSNP对初始变异位点进行数据库过滤；优选地，过滤去除人群数据库1000Genome和ExAC中人群频率>0.01的初始变异位点，过滤去除SNP数据库dbSNP中注释为SAO＝1的初始变异位点。

进一步地，a中的基因拷贝数的计算包括：

a1.利用大于20例白细胞样本构建参考集，统计参考集中样本在每个窗口的读段数占样本测序的总读段数的比例，作为每个窗口的拷贝数基线，用RDreference表示；

a2.将检测样本的杂交捕获的区域划分为多个窗口，统计检测样本在每个窗口的读段数占下机数据的总读段数的比例，用RDtest表示；

a3.计算每个窗口经过拷贝数基线校正后的校正值RDcor，RDcor＝(RDtest-RDreference)/RDreference；a4.去掉一个基因中所有窗口的RDcor值中的最大值和最小值，计算剩余窗口的RDcor的平均值mean(RDcor)，基因拷贝数＝2×mean(RDcor)；

优选地，b包括：对于每个基因，统计基因上携带的杂合胚系变异的实际突变频率，以AF实际表示；计算基因携带胚系变异的理论突变频率，以AF理论表示，AF理论＝p×Vi/(p×cn+2×(1-p))，p是肿瘤纯度，cn是基因拷贝数，Vi是基因的次等位基因拷贝数；网格搜索法包括：将肿瘤纯度从0.01到0.99，每0.01一个步长，Vi的取值为从1到cn-1的整数，依次代入平方和计算公式∑(AF理论-AF实际)²中进行计算，当平方和计算公式的结果最小时，平方和计算公式中所取的肿瘤纯度为真实的肿瘤纯度，平方和计算公式中所取的次等位基因拷贝数为真实的次等位基因拷贝数；在平方和计算公式中计算每个基因的平方并计算平方和，不同基因的肿瘤纯度相同，不同基因的次等位基因拷贝数相同或不同；优选地，AF实际的统计方法包括：统计收录于人群数据库1000Genome、ExAC和SNP数据库dbSNP中人群频率0.01-0.99的多态性位点，若突变位点为杂合突变位点，则将检测样本的多态性位点的突变频率记为AF实际；优选人群频率为0.05-0.95；优选地，杂合突变位点的判断方法包括：若多态性位点的突变频率在20％-80％范围内，则认为多态性位点是杂合突变位点；若多态性位点的突变频率＜20％或＞80％，则认为多态性位点不是杂合突变位点；

优选地，c中的胚系变异理论概率以AFgermline表示，AFgermline＝(p×Vi+1-p)/(p×cn+2×(1-p))；体细胞变异理论概率以AFsomatic表示，AFsomatic＝p×Vi/(p×cn+2×(1-p))；其中，p为肿瘤纯度，Vi为基因的次等位基因拷贝数，cn为基因拷贝数；优选地，变异位点为胚系变异的后验概率以P(y|G；AFgermline)表示，P(y|G；AFgermline)＝Bin(f，n，AFgermline)，即为胚系变异参数；变异位点为体细胞变异的后验概率以P(y|G；AFsomatic)表示，P(y|G；AFsomatic)＝Bin(f，n，AFsomatic)，即为体细胞变异参数；其中，n为过滤变异位点的深度，f为携带过滤变异位点的读段数。

进一步地，背景噪音参数为基于参考样本中的突变位点，计算获得的突变位点是背景噪音的情况下的后验概率；优选地，(2)中的突变位点特征向量为{背景噪音参数，胚系变异参数，体细胞变异参数}；

优选地，(2)中的背景噪音参数的获得方法包括：对白细胞样本进行突变检测，得到白细胞的初始变异位点，去除初始变异位点中的胚系变异位点，利用剩下的变异位点的突变频率构建背景噪音库；统计过滤变异位点在背景噪音库中的背景噪音频率，若不存在则背景噪音频率则记为0；利用过滤变异位点的深度、携带过滤变异位点的读段数和背景噪音频率，通过二项式分布公式，计算过滤变异位点是背景噪音的情况下的后验概率，将后验概率记为过滤变异位点的背景噪音参数；

优选地，构建背景噪音库包括：采用大于100例的白细胞样本，将白细胞样本进行杂交捕获测序，获得二代测序数据，与参考基因组比对获得白细胞BAM文件；对白细胞BAM文件进行分析，获得白细胞初始突变位点，统计每个白细胞样本在杂交捕获区域所有位点上的突变频率，若白细胞样本在第一位点不存在突变，则第一位点的背景噪音频率记为0；若白细胞样本在第二位点的突变频率大于20％，则认为第二位点携带胚系变异，将第二位点的背景噪音频率记为0；对于所有位点中不属于第一位点或第二位点的其余位点，将白细胞样本在其余位点的真实突变频率记为背景噪音频率，对于其余位点中的每个单一位点，单一位点的真实突变频率为所有白细胞样本在单一位点的突变频率的中位数；杂交捕获区域所有位点的背景噪音频率构成背景噪音库；

优选地，背景噪音参数的计算包括：确定过滤变异位点在背景噪音库中记录的背景噪音频率，利用过滤变异位点的深度、携带过滤变异位点的读段数，计算当突变位点是假阳性时的后验概率，后验概率以P(y|G；AFnoise)表示，P(y|G；AFnoise)＝Bin(f，n，AFnoise)，其中，AFnoise为背景噪音库中白细胞在对应位点记录的背景噪音频率，n为过滤变异位点的深度，f为携带过滤变异位点的读段数，P(y|G；AFnoise)即为背景噪音参数。

进一步地，体细胞变异判别模型的构建包括：获取已知为背景噪音的位点、已知为胚系变异的位点和已知为体细胞变异的位点，构建已知突变位点特征向量，利用已知突变位点特征向量以及相应的突变位点类型进行决策树模型训练，得到体细胞变异判别模型；优选地，(3)中的体细胞变异判别模型的构建包括：采用大于100个已知为背景噪音的位点、大于100个已知为胚系变异的位点和大于100个已知为体细胞变异的位点，计算已知突变位点特征向量。

为了实现上述目的，根据本发明的第二个方面，提供了一种用于从单样本中检测体细胞变异的电子装置，该电子装置包括变异参数计算单元、特征向量构建单元和变异判别输出单元；变异参数计算单元，用于利用检测样本的下机数据获得过滤变异位点，并计算胚系变异参数和体细胞变异参数；特征向量构建单元，用于根据背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量；变异判别输出单元，用于将突变位点特征向量输入体细胞变异判别模型，判定每个过滤变异位点为体细胞变异或胚系变异。

进一步地，变异参数计算单元包括包括数据比对单元、变异位点分析单元、变异位点过滤单元、特征计算单元；其中，数据比对单元，用于获得检测样本的下机数据，将下机数据与参考基因组进行比对，获得BAM文件数据；变异位点分析单元，用于对BAM文件数据进行分析，获得初始变异位点、初始变异位点的深度和携带初始变异位点的读段数；变异位点过滤单元，用于对初始变异位点进行过滤，获得过滤变异位点、过滤变异位点的深度和携带过滤变异位点的读段数；特征计算单元，用于计算基因拷贝数、肿瘤纯度、次等位基因拷贝数、胚系变异理论概率、体细胞变异理论概率、胚系变异参数和体细胞变异参数。

进一步地，特征计算单元包括基因拷贝数计算单元、肿瘤纯度和次等位基因拷贝数计算单元和变异参数计算单元；基因拷贝数计算单元，用于根据参考样本和检测样本，计算获得检测样本中每个基因的基因拷贝数；肿瘤纯度和次等位基因拷贝数计算单元，用于统计获得每个基因上携带的杂合胚系变异的实际突变概率，并利用网格搜索法和基因拷贝数计算肿瘤纯度和次等位基因拷贝数；变异参数计算单元，用于根据肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算检测样本的胚系变异理论概率和体细胞变异理论概率，并根据胚系变异理论概率、体细胞变异理论概率、过滤变异位点的深度和携带过滤变异位点的读段数，计算获得胚系变异参数和体细胞变异参数；优选地，基因拷贝数计算单元包括窗口划分单元、拷贝数基线计算单元和基因拷贝数校正单元；窗口划分单元，用于对参考样本和检测样本的基因划分区段，分别在参考样本和检测样本的每个基因中等同地划分获得多个窗口；拷贝数基线计算单元，用于计算获得参考样本中每个窗口的拷贝数基线；基因拷贝数校正单元，用于计算获得检测样本中每个窗口的读段数比例，利用每个窗口的拷贝数基线，对对应窗口的读段数比例进行校正，获得校正值，利用校正值计算获得检测样本中每个基因相对应的基因拷贝数；

优选地，肿瘤纯度和次等位基因拷贝数计算单元包括实际突变概率统计单元和网格搜索单元；实际突变概率统计单元，用于统计检测样本中每个基因的杂合胚系变异的实际突变概率；网格搜索单元，用于利用网格搜索法，通过改变肿瘤纯度和次等位基因拷贝数计算∑(AF理论-AF实际)²的最小值，获得真实的肿瘤纯度和次等位基因拷贝数；

优选地，变异参数计算单元包括理论概率计算单元和二项分布计算单元；理论概论计算单元，用于根据肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算获得检测样本的胚系变异理论概率和体细胞变异理论概率；二项分布计算单元，用于获取胚系变异理论概率、体细胞变异理论概率、过滤变异位点的深度和携带过滤变异位点的读段数，利用二项分布公式计算获得胚系变异参数和体细胞变异参数。

进一步地，变异位点过滤单元包括数据自身过滤单元和/或数据库过滤单元；数据自身过滤单元，用于过滤去除变异频率<0.2％的初始变异位点，过滤去除具有链偏好性的初始变异位点，过滤去除支持读段数<3的初始变异位点；优选地，链偏好性包括支持初始变异位点的正向读段或反向读段为0；数据库过滤单元，用于利用人群数据库1000Genome、ExAC和SNP数据库dbSNP对初始变异位点进行数据库过滤；优选地，过滤去除人群数据库1000Genome和ExAC中人群频率>0.01的初始变异位点，过滤去除SNP数据库dbSNP中注释为SAO＝1的初始变异位点。

进一步地，特征向量构建单元包括背景噪音参数获得单元和向量输出单元；背景噪音参数获得单元，用于统计过滤变异位点在背景噪音库中的背景噪音频率，若不存在则背景噪音频率则记为0；利用过滤变异位点的深度、携带过滤变异位点的读段数和背景噪音频率，通过二项式分布公式，获得过滤变异位点的背景噪音参数；向量输出单元，用于获得背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量。

为了实现上述目的，根据本发明的第三个方面，提供了一种计算机可读储存介质，该储存介质包括存储的程序，其中，在程序运行时，控制储存介质所在设备执行上述方法。

为了实现上述目的，根据本发明的第四个方面，提供了一种处理器，该处理器用于运行程序，其中，程序运行上述方法。

应用本发明的技术方案，上述方法利用肿瘤组织的纯度、基因的拷贝数对变异频率进行校正，能够弥补数据库收录胚系位点不足、基于变异位点原始变异频率判断容易发生错判的缺陷，从提高单样本中检测体细胞变异的准确性。本方法同时不需要推算肿瘤组织的倍性，对panel的大小要求相对较低。并且不需要进行配对组织的测序，能够降低对样本的要求，同时节省成本。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明实施例的从单样本中检测体细胞变异的方法的流程图。

图2是根据本发明实施例的一种可选的从单样本中检测体细胞变异的电子装置的示意图。

图3是根据本发明实施例的一种可选的特征计算单元104的示意图。

图4是根据本发明实施例的一种可选的从单样本中检测体细胞变异的方法的硬件结构框图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

体细胞变异：体细胞突变又叫获得性突变，是指除性细胞外的体细胞发生的突变，不会造成后代的遗传改变，却可以引起当代某些细胞的遗传结构发生改变，是在生长发育过程中或者环境因素影响下的后天获得的突变，通常身上只有部分细胞带有。

胚系变异：胚系突变又叫生殖细胞突变，是来源于精子或卵子这些生殖细胞的突变，因此通常身上所有的细胞都带有的突变。

肿瘤纯度：肿瘤样本中癌细胞会混合一定未知比例的正常细胞，我们称肿瘤样本中癌细胞所占的比例为肿瘤纯度。

如背景技术所提到的，现有技术中对于胚系变异的过滤，主要基于数据库或变异位点的变异频率进行过滤。基于配对组织样本进行胚系变异过滤，会带来额外的测序成本，而且很多时候可能根本无法获得配对组织的数据。而且，目前主要的公共数据库如1000Genome、ExAC、dbSNP都没有针对中国人群大队列进行数据收集，对于中国人群的胚系变异记录的不够完整，基于数据库难以过滤掉全部胚系变异。而基于变异位点的变异频率进行过滤的方法，判断往往失真。基于Foundation Medicine公司发表的SGZ算法，需要推算肿瘤组织的纯度、倍性和局部拷贝数，需要杂交捕获的panel大于一定阈值，才能保证结果的准确性，不适用于小panel数据。

因而，在本申请中发明人尝试探究一种新的检测方法，在现有技术的基础上，针对肿瘤纯度、拷贝数变异进行变异频率校正，开发了一种新的体细胞变异检测的方法。因而提出了本申请的一系列保护方案。

在本申请第一种典型的实施方式中，提供了一种从单样本肿瘤组织检测体细胞变异的方法，该方法包括：

(1)分析检测样本的下机数据，获得过滤变异位点，计算过滤变异位点是胚系变异的后验概率，记为胚系变异参数，计算过滤变异位点是体细胞变异的后验概率，记为体细胞变异参数；

图1是根据本发明实施例的一种从单样本中检测体细胞变异的方法的流程图，如图1所示，该方法包括如下步骤。

首先分析检测样本的下机数据，获得过滤变异位点，计算过滤变异位点是胚系变异的后验概率，记为胚系变异参数，计算过滤变异位点是体细胞变异的后验概率，记为体细胞变异参数(S10)。

其次利用每个过滤变异位点的背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量(S20)。突变位点特征向量{背景噪音参数，胚系变异参数，体细胞变异参数}，其中背景噪音参数为基于参考样本(包括但不限于白细胞样本)中的每个位点，计算相应位点是背景噪音的情况下的后验概率，该后验概率即为该位点对应的背景噪音参数。背景噪音参数是基于背景噪音库和该过滤变异位点的信息进行计算后获得的参数。此种背景噪音库和背景噪音库中每个位点的背景噪音频率均为固定参数，无需在每次对体细胞变异进行检测时均重新计算。

最后利用体细胞变异判别模型，依据每个过滤变异位点的突变特征向量判定每个过滤变异位点为体细胞变异或胚系变异(S30)。上述体细胞变异判别模型是利用已知的变异位点进行训练获得的模型，无需在每次对体细胞变异进行检测时均重新构建。利用已知为背景噪音的位点、已知为胚系变异的位点和已知为体细胞变异的位点构建已知突变位点特征向量，利用该特征向量和确定的突变位点类型进行决策树模型训练，获得能够判断突变位点是否是体细胞变异的体细胞变异判别模型。

在一种优选的实施例中，(1)包括：

(1.1)获取检测样本的下机数据，将下机数据与参考基因组进行比对，获得BAM文件数据，检测样本为单样本肿瘤组织；

(1.2)对BAM文件数据进行分析，获得初始变异位点、初始变异位点的深度和携带初始变异位点的读段数；

(1.3)对初始变异位点进行过滤，获得过滤变异位点、过滤变异位点的深度和携带过滤变异位点的读段数；

(1.4)计算胚系变异参数和体细胞变异参数。

上述(1.1)中，获得检测样本的测序下机数据，将下机数据与参考基因组比对，获得BAM文件数据。在BAM数据中，通过与参考基因组的比对，下机数据能够被定位至其真实反映的测序位置，从而使后续的对于变异位点的分析能够准确定位至具体碱基。比对后能够将测序位点相互重叠的测序片段进行分析，从而通过多条测序片段的信息提高测序数据的准确性。本申请中所用的参考基因组为人类参考基因组，包括但不限于基因组HG19或基因组HG38。

上述(1.2)中，根据上述获得的BAM数据，对BAM数据进行分析，获得初始变异位点，以及初始变异位点的深度和携带初始变异位点的读段数。

上述(1.3)中，对初始变异位点进行过滤，获得过滤变异位点，相应地能够获得过滤变异位点的深度(n)和携带过滤变异位点的读段数(f)。过滤方法包括但不限于利用数据库进行过滤或针对数据本身进行过滤。利用数据库进行过滤，能够将现有技术中数值的胚系变异位点过滤除去，减少后续所需的计算量，提高本方法的计算速度和准确性。

上述(1.4)中，对胚系变异参数和体细胞变异参数进行计算，可利用现有技术中的方法进行计算。

在一种优选的实施例中，计算胚系变异参数和体细胞变异参数包括：

上述a包括：选取白细胞样本作为参考样本，进行杂交捕获测序，获得参考样本数据。将参考样本数据划分成不同的窗口(bin)区域，计算每个窗口的拷贝数基线RDreference；对检测样本也进行bin区域划分，计算检测样本中每个bin的读段数比例RDtest。利用RDreference对RDtest进行校正，获得校正值RDcor，RDcor＝(RDtest-RDreference)/RDreference，并利用校正值RDcor计算获得检测样本中每个基因的基因拷贝数cn。拷贝数的计算包括：去掉一个基因中所有bin经过基线校正后的RDcor值的最大值和最小值，计算剩下值的平均值mean(RDcor)，基因的拷贝数cn＝2*mean(RDcor)；

上述b包括：对肿瘤纯度进行拟合，包括：根据基因拷贝数和基因上携带的杂合胚系变异的实际突变概率，构建概率模型，通过网格搜索的方式获取肿瘤纯度和次等位基因拷贝数；胚系变异是指在人的胚胎发育期已经携带的变异，是身体内的细胞携带变异基因，杂合胚系变异是指两条同源染色体的相同位点，只有其中一条携带变异，另外一条不携带变异。

上述c包括：根据上述获得的肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算检测样本的胚系变异理论概率AFgermline和体细胞变异理论概率AFsomatic，AFgermline＝(p×Vi+1-p)/(p×cn+2×(1-p))，AFsomatic＝p×Vi/(p×cn+2×(1-p))，其中p是肿瘤纯度，cn是基因的拷贝数，Vi是基因的次等位基因拷贝数；再利用获得的胚系变异理论概率AFgermline、体细胞变异理论概率AFsomatic、过滤变异位点的深度n和携带过滤变异位点的读段数f，基于二项分布公式计算胚系变异参数P(y|G；AFgermline)和体细胞变异参数P(y|G；AFsomatic)，P(y|G；AFgermline)＝Bin(f，n，AFgermline)，P(y|G；AFsomatic)＝Bin(f，n，AFsomatic)。

二项分布的计算公式如下：

在胚系变异参数或体细胞变异参数的计算中，y表示频率，G表示当前情况是胚系变异或体细胞变异的场景，Bin()表示利用二项分布进行计算。结合上述二项分布的计算公式，当变异位点为胚系变异时，出现深度为n、携带变异的读段数为f的情况的概率是C_n ^f×AFgermline^f-(1-AFgermline)^n-f。

在一种优选的实施例中，检测样本的下机数据包括大集合数据或小集合数据，大集合数据为通过高通量测序平台杂交捕获的区域大于1Mb的测序数据，小集合数据为通过高通量测序平台杂交捕获的区域在100Kb-1Mb之间的测序数据。

现有技术中对于体细胞突变检测的算法，均依赖大数据量的样本实现对突变是否是体细胞突变进行判断，难以实现对于小panel数据，尤其是杂交捕获区域在100kb-1Mb之间的测序数据中体细胞突变的检测。

在一种优选的实施例中，(1.3)中对初始变异位点进行的过滤包括：数据自身过滤和/或基于数据库过滤；

优选地，数据自身过滤包括：过滤去除变异频率<0.2％的初始变异位点；过滤去除具有链偏好性的初始变异位点；过滤去除支持读段数<3的初始变异位点；优选地，链偏好性包括支持初始变异位点的正向读段或反向读段为0；优选地，基于数据库过滤包括：利用人群数据库1000Genome、ExAC和SNP数据库dbSNP对初始变异位点进行数据库过滤；优选地，过滤去除人群数据库1000Genome和ExAC中人群频率>0.01的初始变异位点，过滤去除SNP数据库dbSNP中注释为SAO＝1的初始变异位点。

上述注释“SAO＝1”表示已知的胚系变异。利用上述基于数据库过滤的方法，利用现有技术中已知的胚系变异的数据，将单样本下机数据中的胚系变异位点进行剔除，防止此种胚系变异被后续错误地计算为体细胞变异，能够提高后续判断的准确性。在此处进行剔除，也能够减少后续对这些已知位点的计算量，提高该方法的效率。

在一种优选的实施例中，a中的基因拷贝数的计算包括：

a3.计算每个窗口经过拷贝数基线校正后的校正值RDcor，RDcor＝(RDtest-RDreference)/RDreference；

a4.去掉一个基因中所有窗口的RDcor值中的最大值和最小值，计算剩余窗口的RDcor的平均值mean(RDcor)，基因拷贝数＝2×mean(RDcor)；

利用上述方法，通过参考集计算获得的拷贝数基线，对检测样本的拷贝数进行校正，减少由于序列本身的不同而产生的测序偏好性对分析结果产生影响，从而获得可信度更高的基因拷贝数。由于作为参考集的白细胞样本和检测样本均属于人源样本，因此2种样本中的基因信息差别较小，因此对于2个样本的每个基因中的多个bin的划分方式能够实现一致，从而实现通过参考集完成对于检测样本的校正。

优选地，b包括：对于每个基因，统计基因上携带的杂合胚系变异的实际突变频率，以AF实际表示；计算基因携带胚系变异的理论突变频率，以AF理论表示，AF理论＝p×Vi/(p×cn+2×(1-p))，p是肿瘤纯度，cn是基因拷贝数，Vi是基因的次等位基因拷贝数；

网格搜索法包括：将肿瘤纯度从0.01到0.99，每0.01一个步长，Vi的取值为从1到cn-1的整数，依次代入平方和计算公式∑(AF理论-AF实际)²中进行计算，当平方和计算公式的结果最小时，平方和计算公式中所取的肿瘤纯度为真实的肿瘤纯度，平方和计算公式中所取的次等位基因拷贝数为真实的次等位基因拷贝数；在平方和计算公式中计算每个基因的平方并计算平方和，不同基因的肿瘤纯度相同，不同基因的次等位基因拷贝数相同或不同；

优选地，AF实际的统计方法包括：统计收录于人群数据库1000Genome、ExAC和SNP数据库dbSNP中人群频率0.01-0.99的多态性位点，若突变位点为杂合突变位点，则将检测样本的多态性位点的突变频率记为AF实际；优选人群频率为0.05-0.95；

优选地，杂合突变位点的判断方法包括：若多态性位点的突变频率在20％-80％范围内，则认为多态性位点是杂合突变位点；若多态性位点的突变频率＜20％或＞80％，则认为多态性位点不是杂合突变位点。

上述AF实际的统计方法包括：通过所检测基因上，覆盖的在数据库(如1000Genome、ExAC和SNP)中记录人群频率在1％-99％(优选5％-95％)之间的多态位点，认为是该基因携带的已知的胚系变异位点。根据下机数据，分析计算得到这些位点实际的突变频率。上述AF实际即为针对每个胚系变异位点获得的概率。

胚系变异实际突变频率反映实际规律，利用上述获得而的肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算该基因携带胚系变异的理论突变概率。通过网格搜索法计算∑(AF理论-AF实际)²的结果最小时所对应的肿瘤纯度和次等位基因拷贝数，不同基因之间的肿瘤纯度相同，次等位基因拷贝数可以相同也可以不同。平方和结果越小，即表示与整体的客观规律越接近，因此平方和最小时对应的肿瘤纯度和次等位基因拷贝数即可认为是最准确的值。

优选地，c中的胚系变异理论概率以AFgermline表示，AFgermline＝(p×Vi+1-p)/(p×cn+2×(1-p))；体细胞变异理论概率以AFsomatic表示，AFsomatic＝p×Vi/(p×cn+2×(1-p))；其中，p为肿瘤纯度，Vi为基因的次等位基因拷贝数，cn为突变位点所在的基因的拷贝数；

优选地，变异位点为胚系变异的后验概率以P(y|G；AFgermline)表示，P(y|G；AFgermline)＝Bin(f，n，AFgermline)，即为胚系变异参数；变异位点为体细胞变异的后验概率以P(y|G；AFsomatic)表示，P(y|G；AFsomatic)＝Bin(f，n，AFsomatic)，即为体细胞变异参数；其中，n为过滤变异位点的深度，f为携带过滤变异位点的读段数。

利用上述获得肿瘤纯度和次等位基因拷贝数，以及基因拷贝数，分别计算基因的胚系变异理论概率和体细胞变异理论概率。进一步地再利用二项分布和此前获得的变异位点的测序深度、携带过滤变异位点的读段数，分别计算突变位点的体细胞变异参数和胚系变异参数。

在一种优选的实施例中，背景噪音参数为基于参考样本中的突变位点，计算获得的突变位点是背景噪音的情况下的后验概率；

优选地，(2)中的突变位点特征向量为{背景噪音参数，胚系变异参数，体细胞变异参数}；

上述第一位点和第二位点，并不指特定的某个位点，在本申请中，白细胞样本中不存在突变的位点均属于第一位点，白细胞样本中突变频道大于20％的位点均属于第二位点。

由于白细胞中不存在体细胞突变，去除白细胞中的胚系变异后，剩余的突变即属于背景噪音，因此利用白细胞样本构建背景噪音库，能够反映每个位点在高通量测序中存在的测序错误的概率。背景噪音库的构建包括：对大于100例白细胞样本进行杂交捕获测序，获得二代测序数据后，将每个白细胞样本的测序数据均与参考基因组进行比较，分别获得白细胞BAM文件，对白细胞BAM文件进行分析，获得白细胞初始突变位点，统计panel覆盖全部位点的背景噪音频率，若白细胞样本在白细胞初始突变位点不存在突变，则该位点背景噪音频率记为0；若白细胞样本在白细胞初始突变位点的突变频率大于20％，则认为白细胞初始突变位点携带胚系变异，该位点背景噪音频率记为0；其余位点以真实突变频率作为背景噪音频率，背景噪音库在某位点的背景噪音频率记为所有样本在该位点的突变频率的中位数，所有位点的背景噪音频率构成背景噪音库。将白细胞中所有位点的背景噪音频率进行汇总，获得含有位点及其相应的背景噪音频率信息的背景噪音库，能够反映每个位点中发生高通量测试错误等背景噪音的概率，能够针对每个位点的不同，更客观真实地对检测样本进行校正，防止背景噪音对体细胞突变的检测的影响。构建背景噪音库的白细胞样本panel与待检测样本的panel相同。

在一种优选的实施例中，体细胞变异判别模型的构建包括：获取已知为背景噪音的位点、已知为胚系变异的位点和已知为体细胞变异的位点，构建已知突变位点特征向量，利用已知突变位点特征向量以及相应的突变位点类型进行决策树模型训练，得到体细胞变异判别模型；

优选地，(3)中的体细胞变异判别模型的构建包括：采用大于100个已知为背景噪音的位点、大于100个已知为胚系变异的位点和大于100个已知为体细胞变异的位点，计算已知突变位点特征向量。

在本申请第二种典型的实施方式中，提供了一种用于从单样本中检测体细胞变异的电子装置，该电子装置包括变异参数计算单元10、特征向量构建单元20和变异判别输出单元30；变异参数计算单元10，用于利用检测样本的下机数据获得过滤变异位点，并计算胚系变异参数和体细胞变异参数；特征向量构建单元20，用于根据背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量；变异判别输出单元30，用于将突变位点特征向量输入体细胞变异判别模型，判定每个过滤变异位点为体细胞变异或胚系变异。

图2是根据本发明实施例的一种可选的从单样本中检测体细胞变异的电子装置的示意图，如图2所示，该装置包括变异参数计算单元10、特征向量构建单元20和变异判别输出单元30。

其中，变异参数计算单元10，用于分析检测样本的下机数据，获得过滤变异位点，计算过滤变异位点是胚系变异和体细胞变异的后验概率，分别记为胚系变异参数和体细胞变异参数。

特征向量构建单元20，用于获得胚系变异参数和体细胞变异参数，并获取或调用内置或外部存储的背景噪音参数，构建突变位点特征向量。

变异判别输出单元30，用于获得突变位点特征向量，将突变位点特征向量输入内置或外部存储的体细胞变异判别模型中，通过该判别模型判定每个过滤变异位点为体细胞变异或胚系变异。

在一种优选的实施例中，变异参数计算单元10包括包括数据比对单元101、变异位点分析单元102、变异位点过滤单元103和特征计算单元104；其中，数据比对单元101，用于获得检测样本的下机数据，将下机数据与参考基因组进行比对，获得BAM文件数据；变异位点分析单元102，用于对BAM文件数据进行分析，获得初始变异位点、初始变异位点的深度和携带初始变异位点的读段数；变异位点过滤单元103，用于对初始变异位点进行过滤，获得过滤变异位点、过滤变异位点的深度和携带过滤变异位点的读段数；特征计算单元104，用于计算基因拷贝数、肿瘤纯度、次等位基因拷贝数、胚系变异理论概率、体细胞变异理论概率、胚系变异参数和体细胞变异参数。

其中，数据比对单元101，用于获得单样本的下机数据和测序深度，将下机数据与参考基因组比对，输出BAM文件数据。该数据比对单元101中可内置或关联至现有技术中的参考基因组和比对算法。

变异位点分析单元102，用于获得BAM文件数据，并对BAM文件数据进行分析，获得初始变异位点，并利用现有技术中的算法，初始变异位点的深度和携带初始变异位点的读段数

变异位点过滤单元103，用于获得初始变异位点，并对初始变异位点进行过滤，获得过滤后的过滤变异位点，并从上述获得的初始变异位点的深度和携带初始变异位点的读段数中，筛选获得过滤变异位点的深度和携带过滤变异位点的读段数(reads)。该变异位点过滤单元103中可内置或关联至现有技术中的1000Genome、ExAC、SNP数据库dbSNP等数据库，并内置有过滤算法，从而实现基于数据库和/或基于数据本身的过滤。

特征计算单元104，用于获得上述单元中获得的BAM文件数据、过滤变异位点、过滤变异位点的深度和携带过滤变异位点的读段数，计算基因拷贝数、肿瘤纯度、次等位基因拷贝数、胚系变异理论概率、体细胞变异理论概率、胚系变异参数和体细胞变异参数。

在一种优选的实施例中，特征计算单元104包括基因拷贝数计算单元1041、肿瘤纯度和次等位基因拷贝数计算单元1042和变异参数计算单元1043；基因拷贝数计算单元1041，用于根据参考样本和检测样本，计算获得检测样本中每个基因的基因拷贝数；肿瘤纯度和次等位基因拷贝数计算单元1042，用于统计获得每个基因上携带的杂合胚系变异的实际突变概率，并利用网格搜索法和基因拷贝数计算肿瘤纯度和次等位基因拷贝数；变异参数计算单元1043，用于根据肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算检测样本的胚系变异理论概率和体细胞变异理论概率，并根据胚系变异理论概率、体细胞变异理论概率、过滤变异位点的深度和携带过滤变异位点的读段数，计算获得胚系变异参数和体细胞变异参数。

图3是根据本发明实施例的一种可选的特征计算单元104的示意图，如图3所示，该特征计算单元104包括基因拷贝数计算单元1041、肿瘤纯度和次等位基因拷贝数计算单元1042和变异参数计算单元1043。

其中，基因拷贝数计算单元1041，用于获取检测样本的BAM文件数据，并内置有参考样本的BAM文件数据，对检测样本和参考样本的BAM文件数据中的每个基因均等同地划分获得多个窗口(bin)；计算参考样本的每个bin中的读段数占参考样本测序的总读段数的比例，即为每个窗口中的拷贝数基线；计算检测样本的每个bin中的读段数占检测样本测序的总读段数的比例，即为每个窗口中的读段数比例；利用每个窗口中的拷贝数基线对于相应窗口中的读段数比例进行校正，获得每个窗口的校正值；再利用校正值计算检测样本中每个基因相对应的基因拷贝数。

肿瘤纯度和次等位基因拷贝数计算单元1042，用于获取基因拷贝数，并计算基因携带胚系变异的理论突变频率，并内置有基因上携带的杂合胚系变异的实际突变概率，利用网格搜索法计算肿瘤纯度和基因的次等位基因拷贝数；

变异参数计算单元1043，用于获取肿瘤纯度、基因拷贝数、次等位基因拷贝数、变异位点的测序深度和携带过滤变异位点的读段数，并计算体细胞变异理论概率和胚系变异理论概率，进而利用二项分布计算计算胚系变异参数和体细胞变异参数。

优选地，基因拷贝数计算单元1041包括窗口划分单元10411、拷贝数基线计算单元10412和基因拷贝数校正单元10413；其中，窗口划分单元10411，用于对参考样本和检测样本的基因划分区段，分别在参考样本和检测样本的每个基因中等同地划分获得多个窗口；拷贝数基线计算单元10412，用于计算获得参考样本中每个窗口的拷贝数基线；基因拷贝数校正单元10413，用于计算获得检测样本中每个窗口的读段数比例，利用每个窗口的拷贝数基线，对对应窗口的读段数比例进行校正，获得校正值，利用校正值计算获得检测样本中每个基因相对应的基因拷贝数。

优选地，肿瘤纯度和次等位基因拷贝数计算单元1042包括实际突变概率统计单元10421和网格搜索单元10422；其中，实际突变概率统计单元10421，用于统计检测样本中每个基因的杂合胚系变异的实际突变概率；网格搜索单元10422，用于利用网格搜索法，通过改变肿瘤纯度和次等位基因拷贝数计算∑(AF理论-AF实际)²的最小值，获得真实的肿瘤纯度和次等位基因拷贝数。

上述实际突变概率统计单元10421，可以内置有已知的数据库中不同基因的实际突变概率，也可在获得过滤变异位点后在已知数据中对实际突变概率进行匹配和获取。上述网格搜索单元10422内置现有技术中的网格搜索算法，通过改变肿瘤纯度和次等位基因拷贝数寻找并获得真实的改变肿瘤纯度和次等位基因拷贝数。内置的网格搜索算法包括但不限于将肿瘤纯度从0.01到0.99，每0.01一个步长，Vi的取值为从1到cn-1的整数，依次代入平方和计算公式∑(AF理论-AF实际)²中进行计算，当平方和计算公式的结果最小时，平方和计算公式中所取的肿瘤纯度为真实的肿瘤纯度，平方和计算公式中所取的次等位基因拷贝数为真实的次等位基因拷贝数；在平方和计算公式中计算每个基因的平方并计算平方和，不同基因的肿瘤纯度相同，不同基因的次等位基因拷贝数相同或不同。

优选地，变异参数计算单元1043包括理论概率计算单元10431和二项分布计算单元10432；理论概论计算单元10431，用于根据肿瘤纯度、基因拷贝数和次等位基因拷贝数，计算获得检测样本的胚系变异理论概率和体细胞变异理论概率；二项分布计算单元10432，用于获取胚系变异理论概率、体细胞变异理论概率、过滤变异位点的深度和携带过滤变异位点的读段数，利用二项分布公式计算获得胚系变异参数和体细胞变异参数。

在一种优选的实施例中，变异位点过滤单元103包括数据自身过滤单元1031和/或数据库过滤单元1032；数据自身过滤单元1031，用于过滤去除变异频率<0.2％的初始变异位点，过滤去除具有链偏好性的初始变异位点，过滤去除支持读段数<3的初始变异位点；优选地，链偏好性包括支持初始变异位点的正向读段或反向读段为0；数据库过滤单元1032，用于利用人群数据库1000Genome、ExAC和SNP数据库dbSNP对初始变异位点进行数据库过滤；优选地，过滤去除人群数据库1000Genome和ExAC中人群频率>0.01的初始变异位点，过滤去除SNP数据库dbSNP中注释为SAO＝1的初始变异位点。

在一种优选的实施例中，特征向量构建单元20包括背景噪音参数获得单元201和向量输出单元202；其中，背景噪音参数获得单元201，用于统计过滤变异位点在背景噪音库中的背景噪音频率，若不存在则背景噪音频率则记为0；利用过滤变异位点的深度、携带过滤变异位点的读段数和背景噪音频率，通过二项式分布公式，获得过滤变异位点的背景噪音参数；向量输出单元202，用于获得背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量。

在本申请第三种典型的实施方式中，提供了一种计算机可读储存介质，该储存介质包括存储的程序，其中，在程序运行时，控制储存介质所在设备执行上述方法。

在本申请第四种典型的实施方式中，提供了一种处理器，该处理器用于运行程序，其中，程序运行上述方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加检测装置等硬件设备的方式来实现。基于这样的理解，本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请所提供的方法可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例，图4是本发明实施例的一种从单样本中检测体细胞变异的方法的终端的硬件结构框图。如图4所示，终端可以包括一个或多个(图4中仅示出一个)处理器A2(处理器A2可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器A4，可选地，上述终端还可以包括用于通信功能的传输设备A6以及输入输出设备A8。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。

存储器A4可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的读段拼接、分簇、一致性处理等方法对应的计算机程序，处理器A2通过运行存储在存储器A4内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器A4可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器A4可进一步包括相对于处理器A2远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备A6用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备A6包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备A6可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

显然，本领域的技术人员应该明白，上述的本申请的部分模块或步骤可以在通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

在本申请中，对于上述方法中涉及到的参数，包括但不限于过滤变异位点的深度n、携带过滤变异位点的读段数f、拷贝数基线RDreference、读段数比例RDtest、校正值RDcor、平均值mean(RDcor)、基因的拷贝数cn、胚系变异理论概率AFgermline、体细胞变异理论概率AFsomatic、次等位基因拷贝数Vi、胚系变异参数P(y|G；AFgermline)和体细胞变异参数P(y|G；AFsomatic)，针对参数的字符表述均可灵活替换，具体描述方式并不会影响参数的实质内容。我们旨在尽可能地展示该技术的全部特征和应用，在各个方面做到准确描述。因此，即使我们使用了多种语言和形式进行表述，也无需改变参数自身所包含的信息量或内在特性。受保护权范围涵盖所有等价于这些描述方式中所提及的规定值、区间、比例等，并非限制于任何一种确定性表示法。最终目标是保障专利权人获得最大程度上的保护和应用授权，而不是仅仅限制于某一个确定地符号表示方法之内。

下面将结合具体的实施例来进一步详细解释本申请的有益效果。

实施例

上述从单样本中检测体细胞变异的方法：

1、获得待测样本的目的基因的序列信息。

2、将测序得到的序列与人类基因组HG19进行比对获得原始BAM文件，利用Picard和Samtools去除比对到的重复序列和比对到多个位置上的序列，得到最终的BAM文件。

3、对最终BAM文件进行分析(变异检出)，获得初始变异位点，分别用人群数据库1000Genome、ExAC和SNP数据库dbSNP对初始变异位点进行注释，然后进行以下过滤：

(1)过滤掉人群数据库1000Genome和ExAC中人群频率>0.01的位点；

(2)过滤掉SNP数据库dbSNP将变异位点注释为SAO＝1的变异。

4、背景噪音参数计算：

(1)基于白细胞样本进行突变检测，得到初始变异位点，去除其中的胚系变异位点，并将胚系变异位点所在位点的背景噪音频率记为0，不携带突变的位点的背景噪音记为0，其余为点的背景噪音记为突变频率，综合panel覆盖到的所有位点的背景噪音频率构建背景噪音库；

(2)统计待检测样本初始变异位点在背景噪音库的背景噪音频率(若不存在则频率记为0)，利用变异位点的深度、携带变异的读段数和背景噪音频率，通过二项式分布公式，计算待检测样本突变位点是背景噪音的情况下的后验概率，将此概率记为初始突变位点的背景噪音参数；

5、根据BAM文件数据计算panel覆盖的基因的拷贝数：

(1)利用大于20例白细胞样本构建参考集，统计参考集样本在每个bin的读段数占样本测序的总读段数的比例，做为每个bin的拷贝数基线，用RDreference表示；

(2)将待检测样本杂交捕获的区域划分为bin，统计检测样本在每个bin的读段数占样本测序的总读段数的比例，用RDtest表示，基于每个bin的基线数据计算每个bin经过基线校正后的值RDcor＝(RDtest-RDreference)/RDreference；计算基因的拷贝数：去掉一个基因中所有bin经过基线校正后的RDcor值的最大值和最小值，计算剩下值的平均值mean(RDcor)，基因的拷贝数cn＝2*mean(RDcor)；

6、肿瘤组织的纯度和次等位基因拷贝数的计算：

(1)统计每个基因携带的杂合胚系变异的实际突变频率，计算该基因携带胚系变异的理论突变频率AF理论＝p*Vi/(p*cn+2*(1-p))，其中p是肿瘤纯度，cn是基因的拷贝数，Vi是基因的次等位基因拷贝数；

(2)统计每个基因携带的杂合胚系变异的实际突变频率，计算该基因携带胚系变异的理论突变频率AF理论＝p*Vi/(p*cn+2*(1-p))，其中p是肿瘤纯度，cn是基因的拷贝数，Vi是基因的次等位基因拷贝数；

(3)基因上携带杂合胚系突变理论和实际突变频率的差值的平方和∑(AF理论-AF实际)²，Vi可能取值的范围从1到cn-1，将肿瘤纯度从0.01到0.99，每0.01一个步长，Vi可能的取值1到cn-1依次代入，当杂合胚系突变理论和实际突变频率的差值的平方和最小时，所取的肿瘤纯度和次等位基因拷贝数为所求的肿瘤纯度和次等位基因拷贝数；

7、计算变异位点分别假设是胚系变异和体细胞变异时的概率：

当变异位点是胚系变异时，变异位点的理论频率为：AFgermline＝(p×Vi+1-p)/(p×cn+2×(1-p))；

当变异位点是体细胞变异时，变异位点的理论频率为：AFsomatic＝p×Vi/(p×cn+2×(1-p))；

其中，所述AFgermline为所述胚系变异理论概率，所述AFsomatic为所述体细胞变异理论概率，所述p为所述肿瘤纯度，所述Vi为肿瘤的次等位基因拷贝数，所述cn为突变位点所在的基因的拷贝数

8、根据二项分布计算概率并判断变异位点的来源：

假设变异位点的深度为n，测得携带突变的reads数为f，则当变异位点是胚系变异时，测得当前情况的概率是P(y|G；AF_germline)＝Bin(f，n，AFgermline)；当变异位点是体细胞变异时，测得当前情况的概率是P(y|G；AF_somatic)＝Bin(f，n，AFsomatic)，分别记为胚系变异参数和体细胞变异参数。利用每个过滤变异位点的背景噪音参数、胚系变异参数和体细胞变异参数，构建突变位点特征向量{背景噪音参数，胚系变异参数，体细胞变异参数}。

9、胚系变异和体细胞变异的判断

将上述突变位点特征向量输入训练完成的体细胞变异判别模型中，获得突变位点的具体变异类型。

具体应用包括：收集20对肿瘤组织-白细胞样本进行建库测序，用测序数据分别进行肿瘤单样本体细胞变异检测，和肿瘤组织-白细胞配对样本体细胞变异检测，比较两套流程变异检测的结果，以此来判定基于单样本检测体细胞变异的性能。

具体应用：

(1)采用优迅肺单样本，panel大小约92kb，针对20对肿瘤组织-白细胞配对样本进行杂交捕获、上机测序，得到下机数据；

(2)将测序得到的序列与人类基因组HG19进行比对获得原始BAM文件，利用Picard和Samtools去除比对到的重复序列和比对到多个位置上的序列，得到最终的BAM文件；

(3)利用20个肿瘤组织单样本体细胞变异检测，分别采用只通过数据库进行过滤、利用Foundation Medicine公司发表的SGZ算法进行过滤、利用现有技术(CN202210605149.7)中公开的方法进行过滤和上述实施例中1-9的方法进行过滤，另外利用肿瘤组织-白细胞配对样本体细胞变异检测做为金标准，评估两种体细胞变异检测方法的准确性。

(4)总共检出变异位点84个，方法对比结果如表1。

表1

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本发明提出一个基于肿瘤组织单样本，进行体细胞变异检测的方法，能够弥补数据库收录胚系位点不足、基于变异位点原始变异频率判断容易发生错判的缺陷。该方法不需要进行配对组织的测序，能够降低对样本的要求，同时节省成本，达到同样体细胞变异检测的目的。并结合数据库变异和变异位点频率进行胚系变异的过滤，使体细胞变异检测更加准确。根据肿瘤组织的纯度和基因的拷贝数对变异频率进行校正，提高后续检测的准确性。有助于研究人员对既往研究数据进行回顾性研究。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种从单样本肿瘤组织检测体细胞变异的方法，其特征在于，所述方法包括：

(1)分析检测样本的下机数据，获得过滤变异位点，计算所述过滤变异位点是胚系变异和体细胞变异的后验概率，记为胚系变异参数和体细胞变异参数；

(2)利用每个所述过滤变异位点的背景噪音参数、所述胚系变异参数和所述体细胞变异参数，构建突变位点特征向量；

(3)利用体细胞变异判别模型，依据每个所述过滤变异位点的突变特征向量判定每个所述过滤变异位点为所述体细胞变异或所述胚系变异。

2.根据权利要求1所述的方法，其特征在于，所述(1)包括：

(1.1)获取所述检测样本的下机数据，将所述下机数据与参考基因组进行比对，获得BAM文件数据，所述检测样本为所述单样本肿瘤组织；

(1.2)对所述BAM文件数据进行分析，获得初始变异位点、所述初始变异位点的深度和携带所述初始变异位点的读段数；

(1.3)对所述初始变异位点进行过滤，获得所述过滤变异位点、所述过滤变异位点的深度和携带所述过滤变异位点的读段数；

(1.4)计算所述胚系变异参数和所述体细胞变异参数。

3.根据权利要求2所述的方法，其特征在于，计算所述胚系变异参数和所述体细胞变异参数包括：

a.对参考样本和所述检测样本的基因划分区段，分别在所述参考样本和所述检测样本的每个基因中等同地划分获得多个窗口；

计算获得所述参考样本中每个窗口的拷贝数基线，

计算获得所述检测样本中每个窗口的读段数比例，

利用每个窗口的所述拷贝数基线，对对应窗口的所述读段数比例进行校正，获得校正值；

利用所述校正值计算获得所述检测样本中每个基因相对应的基因拷贝数；

所述参考样本包括白细胞样本；

b.对于所述检测样本中每个基因，统计获得所述基因上携带的杂合胚系变异的实际突变概率；

利用所述基因拷贝数，通过网格搜索法计算获得肿瘤纯度和次等位基因拷贝数；

c.根据所述肿瘤纯度、所述基因拷贝数和所述次等位基因拷贝数，计算所述检测样本的胚系变异理论概率和体细胞变异理论概率；

根据所述胚系变异理论概率、所述体细胞变异理论概率、所述过滤变异位点的深度和携带所述过滤变异位点的读段数，基于二项分布公式分别计算每个所述过滤变异位点是胚系变异或体细胞变异时的后验概率，将所述过滤变异位点是胚系变异或体细胞变异时的后验概率分别记为胚系变异参数和体细胞变异参数。

4.根据权利要求1所述的方法，其特征在于，所述检测样本的下机数据包括大集合数据或小集合数据，所述大集合数据为通过高通量测序平台杂交捕获的区域大于1Mb的测序数据，所述小集合数据为通过所述高通量测序平台杂交捕获的区域在100Kb-1Mb之间的测序数据。

5.根据权利要求2所述的方法，其特征在于，所述(1.3)中对所述初始变异位点进行的过滤包括：数据自身过滤和/或基于数据库过滤；

优选地，所述数据自身过滤包括：

过滤去除变异频率<0.2％的所述初始变异位点；

过滤去除具有链偏好性的所述初始变异位点；

过滤去除支持读段数<3的所述初始变异位点；

优选地，所述链偏好性包括支持所述初始变异位点的正向读段或反向读段为0；

优选地，所述基于数据库过滤包括：利用人群数据库1000Genome、ExAC和SNP数据库dbSNP对所述初始变异位点进行数据库过滤；

优选地，过滤去除所述人群数据库1000Genome和所述ExAC中人群频率>0.01的所述初始变异位点，过滤去除所述SNP数据库dbSNP中注释为SAO＝1的所述初始变异位点。

6.根据权利要求3所述的方法，其特征在于，所述a中的所述基因拷贝数的计算包括：

a1.利用大于20例所述白细胞样本构建参考集，统计所述参考集中样本在每个窗口的读段数占样本测序的总读段数的比例，作为每个窗口的拷贝数基线，用RDreference表示；

a2.将所述检测样本的杂交捕获的区域划分为多个所述窗口，统计所述检测样本在每个所述窗口的读段数占所述下机数据的总读段数的比例，用RDtest表示；

a3.计算每个所述窗口经过所述拷贝数基线校正后的校正值RDcor，

RDcor＝(RDtest-RDreference)/RDreference；

a4.去掉一个基因中所有所述窗口的RDcor值中的最大值和最小值，计算剩余窗口的RDcor的平均值mean(RDcor)，所述基因拷贝数＝2×mean(RDcor)；

优选地，所述b包括：

对于每个基因，统计所述基因上携带的杂合胚系变异的实际突变频率，以AF实际表示；

计算所述基因携带胚系变异的理论突变频率，以AF理论表示，所述AF理论＝p×Vi/(p×cn+2×(1-p))，p是所述肿瘤纯度，cn是所述基因拷贝数，Vi是所述基因的次等位基因拷贝数；

所述网格搜索法包括：将所述肿瘤纯度从0.01到0.99，每0.01一个步长，Vi的取值为从1到cn-1的整数，依次代入平方和计算公式∑(AF理论-AF实际)²中进行计算，当所述平方和计算公式的结果最小时，所述平方和计算公式中所取的所述肿瘤纯度为真实的所述肿瘤纯度，所述平方和计算公式中所取的所述次等位基因拷贝数为真实的所述次等位基因拷贝数；在所述平方和计算公式中计算每个基因的平方并计算平方和，不同基因的所述肿瘤纯度相同，不同基因的所述次等位基因拷贝数相同或不同；

优选地，所述AF实际的统计方法包括：统计收录于人群数据库1000Genome、ExAC和SNP数据库dbSNP中人群频率0.01-0.99的多态性位点，若突变位点为杂合突变位点，则将所述检测样本的所述多态性位点的突变频率记为AF实际；优选所述人群频率为0.05-0.95；

优选地，所述杂合突变位点的判断方法包括：若所述多态性位点的所述突变频率在20％-80％范围内，则认为所述多态性位点是所述杂合突变位点；若所述多态性位点的所述突变频率＜20％或＞80％，则认为所述多态性位点不是所述杂合突变位点；

优选地，所述c中的所述胚系变异理论概率以AFgermline表示，AFgermline＝(p×Vi+1-p)/(p×cn+2×(1-p))；

所述体细胞变异理论概率以AFsomatic表示，AFsomatic＝p×Vi/(p×cn+2×(1-p))；

其中，所述p为所述肿瘤纯度，所述Vi为基因的次等位基因拷贝数，所述cn为所述基因拷贝数；

优选地，所述变异位点为胚系变异的后验概率以P(y|G；AFgermline)表示，P(y|G；

AFgermline)＝Bin(f，n，AFgermline)，即为所述胚系变异参数；

所述变异位点为体细胞变异的后验概率以P(y|G；AFsomatic)表示，P(y|G；

AFsomatic)＝Bin(f，n，AFsomatic)，即为所述体细胞变异参数；

其中，所述n为所述过滤变异位点的深度，所述f为携带所述过滤变异位点的读段数。

7.根据权利要求1所述的方法，其特征在于，所述背景噪音参数为基于参考样本中的突变位点，计算获得的所述突变位点是背景噪音的情况下的后验概率；

优选地，所述(2)中的突变位点特征向量为{背景噪音参数，胚系变异参数，体细胞变异参数}；

优选地，所述(2)中的背景噪音参数的获得方法包括：

对所述白细胞样本进行突变检测，得到白细胞的初始变异位点，去除所述初始变异位点中的胚系变异位点，利用剩下的变异位点的突变频率构建背景噪音库；统计所述过滤变异位点在所述背景噪音库中的背景噪音频率，若不存在则所述背景噪音频率则记为0；

利用所述过滤变异位点的深度、携带所述过滤变异位点的读段数和所述背景噪音频率，通过二项式分布公式，计算所述过滤变异位点是背景噪音的情况下的后验概率，将所述后验概率记为所述过滤变异位点的背景噪音参数；

优选地，构建所述背景噪音库包括：

采用大于100例的所述白细胞样本，将所述白细胞样本进行杂交捕获测序，获得二代测序数据，与所述参考基因组比对获得白细胞BAM文件；

对所述白细胞BAM文件进行分析，获得白细胞初始突变位点，统计每个所述白细胞样本在杂交捕获区域所有位点上的突变频率，

若所述白细胞样本在第一位点不存在突变，则所述第一位点的背景噪音频率记为0；

若所述白细胞样本在第二位点的突变频率大于20％，则认为所述第二位点携带胚系变异，将所述第二位点的背景噪音频率记为0；

对于所述所有位点中不属于所述第一位点或所述第二位点的其余位点，将所述白细胞样本在所述其余位点的真实突变频率记为背景噪音频率，对于所述其余位点中的每个单一位点，所述单一位点的真实突变频率为所有所述白细胞样本在所述单一位点的突变频率的中位数；

所述杂交捕获区域所有位点的背景噪音频率构成所述背景噪音库；

优选地，所述背景噪音参数的计算包括：

确定所述过滤变异位点在所述背景噪音库中记录的所述背景噪音频率，利用所述过滤变异位点的深度、携带所述过滤变异位点的读段数，计算当所述突变位点是假阳性时的后验概率，所述后验概率以P(y|G；AFnoise)表示，P(y|G；AFnoise)＝Bin(f，n，AFnoise)，其中，所述AFnoise为所述背景噪音库中所述白细胞在对应位点记录的所述背景噪音频率，所述n为所述过滤变异位点的深度，所述f为携带所述过滤变异位点的读段数，所述P(y|G；AFnoise)即为所述背景噪音参数。

8.根据权利要求1所述的方法，其特征在于，所述体细胞变异判别模型的构建包括：获取已知为背景噪音的位点、已知为胚系变异的位点和已知为体细胞变异的位点，构建已知突变位点特征向量，利用所述已知突变位点特征向量以及相应的突变位点类型进行决策树模型训练，得到所述体细胞变异判别模型；

优选地，所述(3)中的所述体细胞变异判别模型的构建包括：

采用大于100个所述已知为背景噪音的位点、大于100个所述已知为胚系变异的位点和大于100个所述已知为体细胞变异的位点，计算所述已知突变位点特征向量。

9.一种用于从单样本中检测体细胞变异的电子装置，其特征在于，

所述电子装置包括变异参数计算单元、特征向量构建单元和变异判别输出单元；

所述变异参数计算单元，用于利用检测样本的下机数据获得过滤变异位点，并计算胚系变异参数和体细胞变异参数；

所述特征向量构建单元，用于根据背景噪音参数、所述胚系变异参数和所述体细胞变异参数，构建突变位点特征向量；

所述变异判别输出单元，用于将所述突变位点特征向量输入体细胞变异判别模型，判定每个所述过滤变异位点为体细胞变异或胚系变异。

10.根据权利要求9所述的电子装置，其特征在于，所述变异参数计算单元包括包括数据比对单元、变异位点分析单元、变异位点过滤单元、特征计算单元；

其中，所述数据比对单元，用于获得所述检测样本的下机数据，将所述下机数据与参考基因组进行比对，获得BAM文件数据；

所述变异位点分析单元，用于对所述BAM文件数据进行分析，获得初始变异位点、所述初始变异位点的深度和携带所述初始变异位点的读段数；

所述变异位点过滤单元，用于对所述初始变异位点进行过滤，获得所述过滤变异位点、所述过滤变异位点的深度和携带所述过滤变异位点的读段数；

所述特征计算单元，用于计算基因拷贝数、肿瘤纯度、次等位基因拷贝数、胚系变异理论概率、体细胞变异理论概率、胚系变异参数和体细胞变异参数。

11.根据权利要求10所述的电子装置，其特征在于，所述特征计算单元包括基因拷贝数计算单元、肿瘤纯度和次等位基因拷贝数计算单元和变异参数计算单元；

所述基因拷贝数计算单元，用于根据参考样本和所述检测样本，计算获得所述检测样本中每个基因的基因拷贝数；

所述肿瘤纯度和次等位基因拷贝数计算单元，用于统计获得所述每个基因上携带的杂合胚系变异的实际突变概率，并利用网格搜索法和所述基因拷贝数计算所述肿瘤纯度和所述次等位基因拷贝数；

所述变异参数计算单元，用于根据所述肿瘤纯度、所述基因拷贝数和所述次等位基因拷贝数，计算所述检测样本的胚系变异理论概率和体细胞变异理论概率，并根据所述胚系变异理论概率、所述体细胞变异理论概率、所述过滤变异位点的深度和携带所述过滤变异位点的读段数，计算获得所述胚系变异参数和所述体细胞变异参数；

优选地，所述基因拷贝数计算单元包括窗口划分单元、拷贝数基线计算单元和基因拷贝数校正单元；

所述窗口划分单元，用于对参考样本和所述检测样本的基因划分区段，分别在所述参考样本和所述检测样本的每个基因中等同地划分获得多个窗口；

所述拷贝数基线计算单元，用于计算获得所述参考样本中每个窗口的拷贝数基线；

所述基因拷贝数校正单元，用于计算获得所述检测样本中每个窗口的读段数比例，利用每个窗口的所述拷贝数基线，对对应窗口的所述读段数比例进行校正，获得校正值，利用所述校正值计算获得所述检测样本中每个基因相对应的基因拷贝数；

优选地，所述肿瘤纯度和次等位基因拷贝数计算单元包括实际突变概率统计单元和网格搜索单元；

所述实际突变概率统计单元，用于统计所述检测样本中每个基因的杂合胚系变异的实际突变概率；

所述网格搜索单元，用于利用网格搜索法，通过改变肿瘤纯度和次等位基因拷贝数计算∑(AF理论-AF实际)²的最小值，获得真实的所述肿瘤纯度和所述次等位基因拷贝数；

优选地，所述变异参数计算单元包括理论概率计算单元和二项分布计算单元；

所述理论概论计算单元，用于根据所述肿瘤纯度、所述基因拷贝数和所述次等位基因拷贝数，计算获得所述检测样本的胚系变异理论概率和体细胞变异理论概率；

所述二项分布计算单元，用于获取所述胚系变异理论概率、所述体细胞变异理论概率、所述过滤变异位点的深度和携带所述过滤变异位点的读段数，利用二项分布公式计算获得所述胚系变异参数和所述体细胞变异参数。

12.根据权利要求10所述的电子装置，其特征在于，所述变异位点过滤单元包括数据自身过滤单元和/或数据库过滤单元；

所述数据自身过滤单元，用于过滤去除变异频率<0.2％的所述初始变异位点，过滤去除具有链偏好性的所述初始变异位点，过滤去除支持读段数<3的所述初始变异位点；

所述数据库过滤单元，用于利用人群数据库1000Genome、ExAC和SNP数据库dbSNP对所述初始变异位点进行数据库过滤；

13.根据权利要求9所述的电子装置，其特征在于，所述特征向量构建单元包括背景噪音参数获得单元和向量输出单元；

所述背景噪音参数获得单元，用于统计所述过滤变异位点在背景噪音库中的背景噪音频率，若不存在则所述背景噪音频率则记为0；利用所述过滤变异位点的深度、携带所述过滤变异位点的读段数和所述背景噪音频率，通过二项式分布公式，获得所述过滤变异位点的背景噪音参数；

所述向量输出单元，用于获得所述背景噪音参数、所述胚系变异参数和所述体细胞变异参数，构建所述突变位点特征向量。

14.一种计算机可读储存介质，其特征在于，所述储存介质包括存储的程序，其中，在所述程序运行时，控制所述储存介质所在设备执行权利要求1至8中任一项所述的方法。

15.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行权利要求1至8中任一项所述的方法。