CN117316271A

CN117316271A - 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统

Info

Publication number: CN117316271A
Application number: CN202311234530.8A
Authority: CN
Inventors: 杨伟红; 马浩然; 孙黎; 李小青
Original assignee: Wuhan Kindstar Medical Testing Institute Co ltd
Current assignee: Wuhan Kindstar Medical Testing Institute Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-29

Abstract

本发明提供一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，包括：获取待测样本的全基因组DNA测序原始数据；对原始数据进行预处理，得到合格的reads；通过软件将合格的reads定位至基因组相应位置，并以存储为BAM格式的比对文件；根据比对文件计算相关参数，进行测序数据质控分析；通过软件将基因组划分成多个窗口，比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异，形成复制比率文件，根据复制比率文件生成拷贝数变异文件；对拷贝数变异文件进行注释。本发明首次利用CNV‑seq技术检测血液肿瘤的拷贝数变异，能检出血液肿瘤中的低比例嵌合缺失或重复，比传统细胞遗传学技术中的核型分析的分辨率更高、比FISH通量更高，比CMA成本更低。

Description

基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统

技术领域

本发明涉及二代测序技术测序技术领域，具体涉及基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统。

背景技术

拷贝数变异是遗传变异的主要来源，它属于染色体/基因组结构变异的一种，定义为：与参考基因组相比，存在1Kb以上的片段重复或缺失异常。然而，包括染色体数目异常、大片段缺失/重复的致病性基因组拷贝数变异(pathogenic copy number variations，pCNVs)是导致出生缺陷、自然流产及肿瘤发生等的重要原因。

目前检测拷贝数变异的技术包括细胞遗传学技术(染色体核型分析和FISH)，也包括分子检测技术(Array CGH、SNP-array和CNV-seq)。其中，基于下一代测序(nextgeneration sequencing，NGS)的基因组拷贝数变异测序(copy number variationsequencing，CNV-seq)是2016年以来发展起来的新技术，是基于与CMA的方法(Array CGH/SNP array)比对验证后发展起来的低深度全基因组测序技术，将测序结果与人类参考基因组碱基序列进行比对，通过生物信息分析发现受检样本存在的CNVs(拷贝数变异，Copynumber variation)。

CNV-seq在极低测序深度(0.1～1X)的基础下即可准确进行全基因组水平的染色体拷贝数异常检测，可检测长度低至100kb、嵌合比例低至10％的染色体拷贝数异常。CNV-seq对于拷贝数异常的检测的准确性比CMA更高，并且由于CNV-seq的检测成本显著低于CMA方法，因此CNV-seq在产前筛查和遗传病筛查领域具有重要的地位。然而，CNV-seq技术更多见于妇幼标本的孕前、产前和产后的拷贝数变异筛查，对于血液肿瘤获得性拷贝数变异Copy-number abnormalities(CNAs)的筛查应用甚少，而血液肿瘤如MDS、MPN、AML、ALL、CLL、MM的发生和发展都与染色体拷贝数变异相关。

因此，综上，有必要开发了基于CNV-Seq技术筛查血液肿瘤标标本拷贝数变异的方法及检测系统，以促进血液肿瘤检测的发展。

发明内容

基于上述表述，本发明提供了一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统，以提高血液肿瘤获得性拷贝数变异的筛查技术。

本发明的关键是选建立了合适的拷贝数变异分析流程，提供了可视化的图表和数据，同时建立了常染色体和性染色体阳性拷贝数变异的报出阈值标准；本发明首次利用CNV-seq技术检测血液肿瘤的拷贝数变异，包括缺失或重复，关键是能检出血液肿瘤中的低比例嵌合缺失或重复，比传统细胞遗传学技术中的核型分析的分辨率更高、比FISH的通量更高，比CMA的成本更低。

本发明解决上述技术问题的技术方案如下：

本发明提供一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，包括以下步骤：

S1、获取待测样本的全基因组DNA测序的原始数据；

S2、对所述原始数据进行预处理，得到合格的reads；

S3、通过软件将所述合格的reads定位至基因组相应位置，并以存储为BAM格式的比对文件；

S3、根据所述比对文件计算相关参数，进行测序数据质控分析；

S5、通过软件将基因组划分成多个窗口，比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异，形成复制比率文件，根据所述复制比率文件生成拷贝数变异文件；

S6、对所述拷贝数变异文件进行注释。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，在步骤S2中；

所述对所述原始数据进行预处理，具体包括：根据质量值对所述原始数据进行过滤；

滤除判读为N的碱基占比达到10％或以上的reads；

滤除质量值低于5的碱基占比达到50％的reads；

滤除整条序列碱基平均质量值低于10的reads；

截取或去除含有接头序列的reads。

进一步地，在步骤S3中；

所述相关参数包括：覆盖度、平均深度、重复序列比例、比对到目标区域的read比例、Q20合格率、Q30合格率和GC含量。

进一步地，在步骤S5中；

所述比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异，具体包括：

通过比较待测样本与阴性对照样本的每个窗口的标准化读取计数或者归一化读取深度的平均值或中位数值来分析拷贝数变异，以log2Ration的形式体现；

其中，Log2 Ration代表待测标本与参考标本的拷贝数比值的对数值。

进一步地，在步骤S5中；

所述根据所述复制比率文件生成拷贝数变异文件，具体包括：

将相同或相近log2Ration值的相邻窗口连接合并起来，形成复制分段文件，即生成拷贝数变异文件。

进一步地，在所述生成拷贝数变异文件之后，还包括：

收集SNP array检测拷贝数变异结果为阳性的血液肿瘤基因组DNA标本，做基因组拷贝数变异测序检测，得到基因组拷贝数变异测序检测的拷贝数变异文件；

通过与CMA技术的检测结果进行对比，确定CMA阳性变异所对应的基因组拷贝数变异测序检测的log2Raito值，逐步筛查出基因组拷贝数变异测序检测的阳性筛选阈值。

进一步地，在步骤S6中，

所述对所述拷贝数变异文件进行注释，具体包括：

使用软件对拷贝数变异所在基因组坐标范围、变异类型做注释，包括变异区间包含的蛋白编码基因、致病基因、变异在正常人群中的频率，变异在疾病数据库的收录情况以及ACMG评分情况。

第二方面、本发明还提供一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统，包括：

原始数据获取模块，用于获取待测样本的全基因组DNA测序的原始数据。

质控和过滤模块，用于对所述原始数据进行预处理，得到合格的reads。序列比对模块，用于通过软件将所述合格的reads定位至基因组相应位置，并以存储为BAM格式的比对文件。

测序数据质控模块，用于根据所述比对文件计算相关参数，进行测序数据质控分析；

拷贝数变异检测模块，用于通过软件将基因组划分成多个窗口，比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异，形成复制比率文件，根据所述复制比率文件生成拷贝数变异文件；

拷贝数变异注释模块，用于对所述拷贝数变异文件进行注释。

第三方面、本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的基于二代测序技术筛第三方面、本发明还提供查血液肿瘤标本拷贝数变异的方法及阳性变异判读方法。

第四方面、本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如第一方面中任一项所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。

与现有技术相比，本申请的技术方案具有以下有益技术效果：

本发明提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法建立了合适的拷贝数变异分析流程。本发明首次利用CNV-seq技术检测血液肿瘤的拷贝数变异，包括缺失或重复，关键是能检出血液肿瘤中的低比例嵌合缺失或重复，比传统细胞遗传学技术中的核型分析的分辨率更高、比FISH的通量更高，比CMA的成本更低。

附图说明

图1为本发明实施例提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的流程示意图；

图2为本发明实施例提供的阳性案例的拷贝数变异散点图之一；

图3为本发明实施例提供的阳性案例的拷贝数变异散点图之二；

图4为本发明实施例提供的阳性案例的拷贝数变异散点图之三；

图5为本发明实施例提供的阳性案例的拷贝数变异散点图之四；

图6为本发明实施例提供的阳性案例的拷贝数变异散点图之五；

图7为本发明实施例提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统示意图；

图8为本发明实施例提供的电子设备的示意图。

具体实施方式

为了便于理解本申请，下面结合实施例对本发明的实施方式作进一步详细描述，以下实施例用于说明本发明，但不能用来限制本发明的范围。

2019年3月中华医学遗传学杂志也发布了低深度全基因组测序技术在产前诊断的应用专家共识。总结了CNV-seq相比其他技术的优势：(1)检测范围广、高通量：覆盖全染色体非整倍体、大片段缺失/重复及全基因组CNVs；(2)操作简便：实验流程简便、数据分析自动化程度高、质控标准清晰；(3)兼容性好：一台高通量测序仪可以同时进行无创产前筛查(noninvasive prenatal screening,NIPS)和CNV-seq检测，有效节约实验室空间和设备；(3)低比例嵌合体的检测，在理想条件下可检测低至5％的染色体非整倍体嵌合。(5)低DNA样本量的检测：CNV-seq技术可精确检测低至10-50ng的DNA样本，更具有临床适用性。

下面结合图1至图6描述本发明的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。图1为本发明基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的流程示意图，如图1所示，该方法包括：

步骤S1：获取待测样本的全基因组DNA测序的原始数据。

具体地，可以采集预设个体的血液肿瘤骨髓或外周血标本，对采集的标本进行离心分离，在离心分离得到的白细胞中提取基因组DNA，以得到各预设个体的全基因组DNA测序的原始数据fastq文件。

需要说明的是，本发明提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法用于非疾病诊断治疗目的。

步骤S2、对原始数据进行预处理，得到合格的reads。

具体地，根据质量值对fastq文件数据进行过滤，滤除判读为N的碱基占比达到10％或以上的reads；滤除质量值低于5的碱基占比达到50％的reads；滤除整条序列碱基平均质量值低于10的reads；截取或去除含有接头序列的reads等。

步骤S3、通过软件将合格的reads定位至基因组相应位置，并以存储为BAM格式的比对文件。

具体地，将数据过滤后保留下来的合格reads通过软件定位至基因组相应位置。

步骤S4、根据比对文件计算相关参数，进行测序数据质控分析。

具体地，根据比对文件计算覆盖度、平均深度、重复序列比例、比对到目标区域的read比例、Q20合格率、Q30合格率、GC含量等。

步骤S5、通过软件将基因组划分成多个窗口，比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异，形成复制比率文件，根据复制比率文件生成拷贝数变异文件。

具体地，使用CNVkit软件(具体分析流程如下图1)，将基因组划分成多个窗口(bin)(30Kb/bin)，通过比较待检测样本与阴性对照样本的每个bin的标准化读取计数(normalized read count)或者归一化读取深度(normalized read depth)平均值或中位数值来分析拷贝数变异，以log2Ration的形式体现出来，形成复制比率Copy Ratios(.cnr)文件；将相同或相近log2Ration值的相邻bin连接合并起来，形成拷贝数变异Copysegments(.cns)文件，既生成拷贝数变异文件。

S6、对拷贝数变异文件进行注释。

具体地，使用AnnotSV软件对拷贝数变异所在基因组坐标范围、变异类型做注释，主要包括变异区间包含的蛋白编码基因、致病基因、变异在正常人群中的频率，变异在疾病数据库的收录情况，ACMG评分情况等。

进一步地，在上述实施例的基础中，本发明还提供了上述筛查出的拷贝数变异的阳性筛选阈值，只有满足阈值条件的才能算是阳性变异。

CNVkit软件分析出来的拷贝数变异，需要通过log2Ration的值来判断该变异是否为真阳性，对于胚系标本，这个比较好判断，但是对于阳性的血液肿瘤标本，会存在大量体细胞嵌合变异的情况，而且低频变异也非常常见，并不能按照胚系变异的方式来筛选，否则会漏掉大量阳性变异。

因为CMA技术检测拷贝数变异的金标准，因此，在一个具体示例中，通过收集200例SNP array检测拷贝数变异结果为阳性的血液肿瘤基因组DNA标本，做CNV-seq检测，按上述步骤进行分析，得到这200例的CNV-seq的Copy segments(.cns)文件，通过与CMA的结果进行对比，确定CMA阳性变异所对应的CNV-seq的log2Raito值，来逐步筛查出CNV-seq的阳性筛选阈值表1和表2所示的常染色体阳性拷贝数变异筛选阈值和性染色体阳性拷贝数变异筛选阈值。

表1常染色体的阳性拷贝数变异筛选阈值

表2性染色体的阳性拷贝数变异筛选阈值

需要说明的是：Log2 Ration代表待测标本与参考标本的拷贝数比值的对数值，该数值的绝对值越大，表明缺失或重复越明显；Probe代表了30Kb的bin的数目；750K markers代表CMA技术中的Cytoscan 750K芯片在所在拷贝数变异区间包含的探针数；SVlength代表阳性拷贝数变异必须满足的大小，Copy segments(.cns)文件中的segments只有同时满足图中的条件，才表示该拷贝数变异可信，可以进行后续的致病性解读。

本试验按照以上方法，对CMA已经检出的+8、11q+、12p-、13q-和+X的5例阳性拷贝数进行筛选鉴定，鉴定结果如下表3所示：：

表3性染色体的阳性拷贝数变异筛选阈值

对应的，如图2至6分别为上述5例阳性案例的拷贝数变异散点图。

下面对本发明提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统进行描述，下文描述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统与基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法可相互对应参照。如图7所示，该检测系统包括：

原始数据获取模块701，用于获取待测样本的全基因组DNA测序的原始数据；

质控和过滤模块702，用于对原始数据进行预处理，得到合格的reads；

序列比对模块703，用于通过软件将合格的reads定位至基因组相应位置，并以存储为BAM格式的比对文件；

测序数据质控模块704，用于根据比对文件计算相关参数，进行测序数据质控分析；

拷贝数变异检测模块705，用于通过软件将基因组划分成多个窗口，比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异，形成复制比率文件，根据复制比率文件生成拷贝数变异文件；

拷贝数变异注释模块706，用于对拷贝数变异文件进行注释。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，该方法可参照上述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的具体介绍，此处不再赘述。

上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，该方法可参照上述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的具体介绍，此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，包括以下步骤：

S1、获取待测样本的全基因组DNA测序的原始数据；

S2、对所述原始数据进行预处理，得到合格的reads；

S4、根据所述比对文件计算相关参数，进行测序数据质控分析；

S6、对所述拷贝数变异文件进行注释。

2.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，在步骤S2中；

滤除判读为N的碱基占比达到10％或以上的reads；

滤除质量值低于5的碱基占比达到50％的reads；

滤除整条序列碱基平均质量值低于10的reads；

截取或去除含有接头序列的reads。

3.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，在步骤S3中；

4.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，在步骤S5中；

5.根据权利要求3所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，在步骤S5中；

6.根据权利要求5所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，

在所述生成拷贝数变异文件之后，还包括：

7.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法，其特征在于，在步骤S6中，

所述对所述拷贝数变异文件进行注释，具体包括：

8.一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统，其特征在于，包括：

原始数据获取模块，用于获取待测样本的全基因组DNA测序的原始数据；

质控和过滤模块，用于对所述原始数据进行预处理，得到合格的reads；

序列比对模块，用于通过软件将所述合格的reads定位至基因组相应位置，并以存储为BAM格式的比对文件；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。