CN116153394A

CN116153394A - 检测snv的装置和方法

Info

Publication number: CN116153394A
Application number: CN202111393055.XA
Authority: CN
Inventors: 任兴; 叶亦舟; 杨韩雁
Original assignee: Shanghai 3D Medicines Co Ltd
Current assignee: Shanghai 3D Medicines Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2023-05-23

Abstract

本公开内容涉及以高准确性检测样本中目标基因的SNV的方法、装置和系统。

Description

检测SNV的装置和方法

技术领域

本发明属于基因检测技术领域，尤其涉及以高准确性检测样本中目标基因的SNV的方法、系统和装置。

背景技术

基因变异是影响肿瘤发生和进展的关键因素。高通量测序(Next GenerationSequencing，NGS)是目前主流和最具前景的检测肿瘤细胞变异位置和类型的技术手段。变异的多种类型里，以单核苷酸变异(single nucleotide variation, SNV)最为常见。NGS的SNV分析流程分为以下几个步骤：

1) 去除下机数据中低质量序列和外源序列(例如测序接头和分子标签)，

2) 通过序列比对软件比对回参考基因组，并对来源于同一个DNA模板的序列去重，得到去重后的BAM文件，

3) 将BAM文件中携带变异位点的信号和背景噪音作比较，当变异位点信号显著高于背景噪音时，则判定为该位点突变为阳性。

上述步骤3)中，背景噪音的模型和估计值是否准确直接影响结果的准确性。NGS数据中包括各种实验因素产生的错误(统称为背景噪音)，影响数据分析的准确性，故判定肿瘤SNV需要对实验中背景噪音做出准确估计。目前通常的估计方法是通过采集一定数量的正常人样本(panel of normal, PON)，把PON中的信号当成背景噪音，建立背景噪音的统计模型。

现有技术已有的LoLoPicker方案使用正常人样本作为PON，通过K均值聚类(k-means)算法过滤掉可能存在的真实变异，再用二项式模型估计背景噪音。

在现有的技术框架下，PON方法存在如下几个主要缺点：1)PON的样本数通常很有限，无法对背景噪音做出准确的评估；2)PON的样本通常选择健康人群，而医院肿瘤科室临床样本通常来自于癌症患者或者高风险人群，其背景噪音在部分基因上存在差异；3)当PON选定后，背景噪音模型也随之固定，检测服务提供方无法对其及时更新。

本发明目的在于解决上述三个问题。对背景噪音的估计将不再采用健康人群的PON，而是用检测服务提供方积累的肿瘤患者的临床样本，从而获得更准确的噪音估计模型。

发明内容

本申请人发明人首创性地利用临床样本而非健康人样本建立背景噪音模型；并提出新型的截断统计模型，保证了用于模型拟合的阴性样本的真实性，进而得到更准确的背景噪音估计值；同时利用不断积累的临床样本逐步优化噪音估计。

在此基础上，本发明提供了一种以高准确性检测样本中目标基因的SNV的方法、系统和装置，保证只有高度确定的阴性样本被用于估算噪音，进而得到更准确的背景噪音估计值。

本发明的方法主要包括以下四个步骤：1)从BAM文件提取位点信息；2)确定阴性样本的阈值；3)对阴性样本建立统计模型并做参数估计；和4)对受检样本在该位点是否存在变异做出判定。

相比于现有技术，本发明至少有如下优点：

1)相比由正常人样本组成的PON，本发明使用的临床样本更能代表肿瘤样本的复杂性；

2)现有技术的聚类方法并不能完全去除真实变异，会混杂真实的低频变异。本发明建立的选择阈值的方法可以保证只有高度确定的阴性样本被用于估算噪音；

3)本发明所建立的截断贝塔二项式模型更有弹性，更适合跨样本的噪音估计；

4)根据本发明，检测提供方可以根据临床样本的积累及时更新背景噪音的评估模型。

在第一方面，本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的装置，所述装置包括：测序数据读入模块，用于实施步骤(A)对原始测序数据进行质控，比对到参考基因组并去重，生成存储测序片段(reads)信息的BAM文件；

VAF计算模块，用于实施步骤(B)从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x_i)和测序深度(n_i)，通过x_i/n_i计算变异频率VAF；

阈值确定模块，用于实施步骤(C)通过该位点的VAF分布的高斯平滑核函数计算阈值c，将不超过c的样本划分为阴性；

背景噪音估计模块，用于实施步骤(D)选取阴性样本的x_i和n_i，对截断贝塔-二项式分布做拟合，用最大似然值方法估计背景噪音参数θ；

SNV判定模块，用于实施步骤(E)确定变异reads数(x_i)的阈值，将超过阈值的样本判定为变异。

在一个实施方案中，仅当x_i/n_i ≤ c时，用于估计背景噪音的样本中不存在真实变异。

在一个实施方案中，在步骤(C)中，如下设定阈值c：记t _i = log(x _i / n _i)，对t _i的分布做高斯核平滑：

其中m为样本数，σ ²为高斯核函数方差，exp()为指数函数，K(t)为核平滑后的t _i的分布函数；

对K(t)分别寻找最大值和局部最小值：

选取VAF < t _l的样本，设定阈值c为这部分样本VAF的80%分位数。

在一个实施方案中，步骤(D)如下进行：对所有阴性样本(包括VAF ≤ c 和VAF >c)的x _i和n _i建立统计模型：

其中

为贝塔二项式(beta-binomial)的概率质量函数，/>

为模型的二维参数，/>

为贝塔(Beta)函数，/>

为伽玛(Gamma)函数，！为阶乘符：

另外记

为贝塔二项式的累积分布函数：

排除步骤(C)中x _i / n _i> c的临床样本后，变异数

的统计分布变成右截断的贝塔二项式分布：

用最大似然值方法估计背景噪音参数

：/>

为对数似然函数，当/>

时，

取最大值，/>

即为背景噪音的最大似然估计值，并且/>

决定背景噪音分布，

。

在一个实施方案中，步骤(E)如下进行：对于受检样本(x, n)，当p值小于设定的假阳性率阈值α时判定该样本为阳性

。

在一个实施方案中，所述样本为肿瘤样本，并且所述肿瘤选自实体瘤。

在一个实施方案中，其中所述泛癌肿实体瘤选自卵巢癌、乳腺癌、结直肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、子宫颈癌、膀胱癌、肾癌、黑素瘤和头颈癌等。

在一个实施方案中，所述目标基因为原始测序数据包含的任一基因。

在一个实施方案中，所述目标基因为BRAF基因，并且所述位点为V600E位点。

在第二方面，本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的方法，所述方法包括：

测序数据读入步骤(A)：对原始测序数据进行质控，比对到参考基因组并去重，生成存储测序片段(reads)信息的BAM文件；

VAF计算步骤(B)：从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x_i)和测序深度(n_i)，通过x_i/n_i计算变异频率VAF；

阈值确定步骤(C)：通过该位点的VAF分布的高斯平滑核函数计算阈值c，将不超过c的样本划分为阴性；

背景噪音估计步骤(D)：选取阴性样本的x_i和n_i，对截断贝塔-二项式分布做拟合，用最大似然值方法估计背景噪音参数θ；

SNV判定步骤(E)：确定变异reads数(x_i)的阈值，将超过阈值的样本判定为变异。

对K(t)分别寻找最大值和局部最小值：

其中

为贝塔二项式(beta-binomial)的概率质量函数，/>

为模型的二维参数，/>

为贝塔(Beta)函数，/>

为伽玛(Gamma)函数，！为阶乘符：

另外记

为贝塔二项式的累积分布函数：/>

排除步骤(C)中x _i / n _i> c的临床样本后，变异数

的统计分布变成右截断的贝塔二项式分布：

用最大似然值方法估计背景噪音参数

：/>

为对数似然函数，当/>

时，

取最大值，/>

即为背景噪音的最大似然估计值，并且/>

决定背景噪音分布，

。

。

在第三方面，本公开内容提供了一种用于实施根据第二方面所述的任一种方法的计算机系统，其包括：

输入设备，用于输入样本核酸序列的测序信息；

计算机存储器，用于存储计算机程序指令；

计算机处理器，用于执行所述计算机程序指令，其中所述计算机程序指令实施所述SNV检测，并将结果传输到输出设备；和

输出设备，用于显示所述结果。

在第四方面，本公开内容提供了一种计算机可读介质，其中

所述计算机可读介质存储有计算机程序，

其中所述计算机程序能被计算机处理器执行以实施根据第二方面所述的任一种方法。

下列描述和实施例详细阐述了本发明的实施方案。要理解的是，本发明不限于本文所述的具体实施方案并因此可改动。本领域技术人员将认识的是，存在本发明的许多变动和修改，所述变动和修改均包含在其范围之内。

附图说明

图1是根据本公开内容的一个实施方案的流程图，包括1)从BAM文件提取位点信息；2)确定阴性样本的阈值；3)对阴性样本建立统计模型并做参数估计；和4)对受检样本在该位点是否存在变异做出判定。

具体实施方式

本申请人发明人首创性地利用临床样本而非健康人样本建立背景噪音模型并提出新型的截断统计模型。而且，所述背景噪音模型和截断统计模型保证了用于模型拟合的阴性样本的真实性，进而得到更准确的背景噪音估计值，同时能够利用不断积累的临床样本逐步优化噪音估计。

如上所述，现有技术的方案使用正常人样本作为PON，并不能完全去除真实变异，因而无法对背景噪音做出准确的评估。本公开内容意想不到地克服了这些现有技术的缺点。

相应地，本公开内容提供了一种以高准确性检测样本中目标基因的SNV的方法、系统和装置，保证只有高度确定的阴性样本被用于估算噪音，进而得到更准确的背景噪音估计值。

相比于现有技术，本发明至少有如下优点：

在第一方面，本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的装置，所述装置包括：测序数据读入模块，用于实施步骤(A)对原始测序数据进行质控，比对到参考基因组并去重，生成存储测序片段(reads)信息(序列、位置、质量等信息)的BAM文件；

VAF计算模块，用于实施步骤(B)从去重后的BAM文件提取基因组序列上的碱基位点中携带变异的reads数(x_i) (即，该位置碱基与参考基因组不一致的reads)和测序深度(n_i)，通过x_i/n_i计算变异频率VAF；

对K(t)分别寻找最大值和局部最小值：

其中

为贝塔二项式(beta-binomial)的概率质量函数，/>

为模型的二维参数，/>

为贝塔(Beta)函数，/>

为伽玛(Gamma)函数，！为阶乘符：

另外记

为贝塔二项式的累积分布函数：

排除步骤(C)中x _i / n _i> c的临床样本后，变异数

的统计分布变成右截断的贝塔二项式分布：

用最大似然值方法估计背景噪音参数

：/>

为对数似然函数，当/>

时，

取最大值，/>

即为背景噪音的最大似然估计值，并且/>

决定背景噪音分布，/>

。

。

在一个实施方案中，所述肿瘤选自泛癌肿实体瘤，包括卵巢癌、乳腺癌、结直肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、子宫颈癌、膀胱癌、肾癌、黑素瘤和头颈癌等。

在一个更具体实施方案中，所述目标基因为BRAF基因，并且所述位点为V600E位点。

在第二方面，本公开内容提供了一种以高准确性检测样本i中目标基因的SNV的方法。参考图1，步骤1对应于

步骤2对应于

步骤3对应于

步骤4对应于

在一个更具体实施方案中，步骤1-4如下进行：

1)对于疑似变异位点，从样本i去重后的BAM文件中提取该位点含有变异的片段数x _i和测序深度n _i，变异频率(VAF)为x _i / n _i。

2)由于临床样本中存在大量真实变异的位点，包括低频变异，所以需要排除后才能准确计算背景噪音。寻找阈值c，仅当x _i / n _i≤ c时才认为样本不存在真实变异，否则有一定概率存在变异。记t _i = log(x _i / n _i)，对t _i的分布做高斯核平滑：

其中m为样本数，σ ²为高斯核函数方差，exp()为指数函数。

对K(t)分别寻找最大值和局部最小值：

3)对x _i和n _i建立统计模型：

其中

为贝塔二项式(beta-binomial)的概率质量函数，/>

为模型的二维参数，/>

为贝塔(Beta)函数，/>

为伽玛(Gamma)函数，！为阶乘符：

另外记

为贝塔二项式的累积分布函数：

排除2)中x _i / n _i> c的临床样本后，变异数

的统计分布变成右截断的beta-binomial分布：

用最大似然值方法估计背景噪音参数

。/>

为对数似然函数，当/>

时，

取最大值，/>

即为背景噪音的最大似然估计值。

4)对于受检样本(x, n), 当p值小于设定的假阳率阈值α时判定该样本为阳性

。

本文所用的术语仅以描述具体的实施方案为目的而不意图限制本发明。除非上下文另有明确指示，否则本文所用的单数形式“一”、“一个”和“所述”也意图包括复数形式。此外，开放式的表述“包括”和“包含”解释为还可以含有没有述及的结构组成部分或方法步骤，但需要注意的是，该开放式的表述也涵盖仅由所述的组分和方法步骤组成的情形(即涵盖了封闭式表述“由……组成”的情形)。

如全文所用，范围用作描述该范围内的每个数值和所有数值的简写形式。范围内的任何数值例如整数值、以十分之一递增的值(当范围的端值为小数点后一位时)或以百分之一递增的值(当范围的端值为小数点后二位时)都可选做该范围的终点。例如，范围0.1-10用作描述该范围内的所有数值，例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8……9.5、9.6、9.7、9.8、9.9和10 (以十分之一递增的值)，并且包括所有子范围，例如0.1-1.0、2.0-3.0、4.0-5.0、6.0-7.0、8.0-9.0等。

本说明书中提及的所有科学技术术语具有与本领域技术人员通常理解的含义相同的含义，在冲突的情况下以本说明书中的定义为准。为了使本发明的描述更易于理解，以下先对一些术语进行解释说明。

本文所述的术语“高通量测序”又可以称为下一代测序技术(Next GenerationSequencing, NGS)、大规模平行测序(Massively Parallel Sequencing(MPS))，是指采用“边合成边测序”的原理、对于几十万到几百万DNA分子同时进行平行的测序反应，然后通过生物信息学分析所得到的原始图像数据或电化学信号、最终得到待测样品的核酸序列或拷贝数等信息的测序技术，又称为高通量测序、深度测序、二代测序等。高通量测序的基本程序是将待测DNA随机打断成小片段，经末端修复、连接接头序列、PCR等步骤进行文库构建，最后使用Illumina，Ion Torrent等测序仪进行测序。

本文所述的术语“突变/变异”是指在生物或细胞的基因组中的遗传改变。例如，目的突变/变异可以是相对于生物生殖系的变化，例如癌细胞特异性变化。突变/变异可包括单核苷酸变异(SNV)、拷贝数变异(CNV)、单核苷酸多态性(SNP)、插入、缺失和重排(例如FUSION(融合))。

本文所述的术语“SNV (single nucleotide variant，单核苷酸变异)”是一种体细胞单核苷酸突变。

本文所述的术语“癌症”和“肿瘤”在本文中可交换使用以及可以指表现出自发的不受调控生长的细胞或组织，由此所述细胞或组织表现出以增加的细胞增殖(例如显著的细胞增殖)为特征的异常生长。用于本申请的检测、分析或处理的目的细胞可包括但不限于癌前细胞(例如良性细胞)、恶性细胞、转移前细胞、转移性细胞和非转移性细胞。事实上各组织的癌症均为本领域技术人员已知的，包括实体瘤，例如肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓瘤等，以及循环癌症，例如白血病。癌症的实例包括但不限于卵巢癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、子宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、癌瘤、黑素瘤、头颈癌和脑癌。

虽然上文已描述了本发明的各种实施方案，但是应理解的是，其仅以实例的方式提供，而并非限制。对公开的实施方案的许多改变可依照本文的公开内容来进行，而不会背离本发明的精神或范围。因此，本发明的广度和范围不应受到任何上述的实施方案所限制。

本文提及的所有文献都通过引用结合到本文中。本申请引用的所有出版物和专利文件都为所有目的而通过引用结合，引用程度如同单独地指出各个出版物或专利文件一样。

实施例

除非另外说明，否则本文实施例所用的材料均为送检的肿瘤样本，用于进行实验的各种具体实验方法均为本领域常规的实验方法或者按照制造商所建议的步骤和条件，并能由本领域技术人员根据需要常规地确定。

实施例1：泛癌肿实体瘤样本中BRAF基因的V600E位点的SNV检测

鼠类肉瘤滤过性毒菌致癌同源体(BRAF)基因编码的蛋白由783个氨基酸组成，V600E突变是位于第15号外显子上的单个胸腺嘧啶突变成腺嘌呤，导致编码蛋白第600位密码子的缬氨酸(V)被谷氨酸(E)取代。BRAF V600E突变对多种肿瘤的发生、发展及预后有重要影响。

利用本发明提供的方法检测BRAF V600E SNV。具体过程如下：

(1). 运行测序数据读入模块，对原始测序数据进行质控，参考基因组比对，去重，生成BAM文件。运行VAF计算模块，从BAM文件提取覆盖BRAF V600E位点的变异reads数(x_i)和总reads数(n_i)。从6580个泛癌肿实体瘤样本得到6580个数据点(x,n): (0,460)，(1,1105)，(0,537)，…。

(2). 运行阈值确定模块，通过x/n分布的高斯平滑核函数计算阴性阈值c。6580个样本中共有392个样本x > 0：(1,1105)，(67,240)，(220,661)，…。把这部分样本的(x,n)带入计算

。当/>

时，/>

取最大值，故/>

。当/>

时

取局部最小值，故/>

。选择非零且小于/>

的x/n：1/1105，1/129，1/223，…。80%的分位数为/>

，x/n ≤ c的样本即为选择建模的阴性样本。

(3). 运行背景噪音估计模块，选取阴性样本的x_i和n_i，对截断分布做拟合，估计背景噪音参数。共有6499个样本的x/n ≤ c。将这部分样本的(x,n)和

带入

，当/>

和/>

时/>

取最大值，故/>

。

(4). 运行SNV判定模块，用

计算每个样本的/>

值，并设定阈值α为/>

。对样本(1,1105), />

，该样本判定为阴性。对样本(1,1105),

，判定为阴性。对另一样本(6,869), />

，判定为阳性，该阳性样本经第三方实验平台验证为真实的突变样本。

本实施例的数据表明，相比由正常人样本组成的PON，本发明使用临床样本实现了更准确的噪音估计，并实现了低频变异的准确判读。另外，本实施例的数据也表明，该方法适用于泛癌肿实体瘤样本，而不局限于某种特定肿瘤，即各种实体瘤类型均可受益于本发明的方法和装置。

虽然上文已描述了本发明的各种实施方案，但是应理解的是，其仅以实例的方式提供，而并非限制。在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都将落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。