CN109658983B

CN109658983B - 一种识别和消除核酸变异检测中假阳性的方法和装置

Info

Publication number: CN109658983B
Application number: CN201811592826.6A
Authority: CN
Inventors: 周衍庆; 汪周阳; 方文; 张实唯
Original assignee: Shenzhen Haplox Biotechnology Co Ltd
Current assignee: Shenzhen Haplox Biotechnology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-11-19
Anticipated expiration: 2038-12-20
Also published as: CN109658983A

Abstract

本申请公开了一种识别和消除核酸变异检测中假阳性的方法和装置。本申请的方法包括，读取待测样品的变异检测软件结果文件；读取去除PCR重复后测序read的比对文件，获得每一个变异位点覆盖的read pair比对结果；判断变异位点是否位于DNA分子read pair overlap区域，对每个突变覆盖的read pair进行分析和统计；对每一个支持突变的分子和read进行统计，标注出可以用于突变过滤的特征；基于以上特征值对变异位点进行过滤。本申请的方法，根据核酸变异假阳性位点和真阳性位点的分布特征，对核酸变异检测结果进行过滤，不仅能够有效的去除假阳性位点，而且提高了核酸变异检测结果的准确性。

Description

一种识别和消除核酸变异检测中假阳性的方法和装置

技术领域

本申请涉及核酸变异检测领域，特别是涉及一种识别和消除核酸变异检测中假阳性的方法和装置。

背景技术

核酸变异或称基因突变，是指基因在结构上发生碱基对组成或排列顺序的改变，包括单核苷酸位点变异（缩写SNV）、插入缺失变异（缩写INDEL）、移码突变等。核酸变异是自然界普遍存在的现象，对人类基因组而言，核酸变异通常会引起生理性或病理性改变；因此，核酸变异检测及相关研究是人类基因组研究的重点。

目前，核酸变异检测主要是通过高通量测序，将测序结果与参考基因组进行比对，从而获得核酸变异信息。但是，受现有的测序文库建库技术和测序技术的影响，测序过程中会引入的大量的测序错误；同时，序列比对软件也可能产生比对错误；从而导致变异检测软件检测出大量的假阳性变异位点，不仅增加了后期人工筛选假阳性位点的工作量，而且可能导致最终检测报告里的假阳性位点过高，影响准确性。

发明内容

本申请的目的是提供一种新的识别和消除核酸变异检测中假阳性的方法和装置。

为了实现上述目的，本申请采用了以下技术方案：

本申请的一方面公开了一种识别和消除核酸变异检测中假阳性的方法，包括以下步骤，

变异信息读取步骤，包括读取变异检测软件生成的待测样品的结果文件，结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；

基因片段过滤步骤，包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤去除与参考基因组比对错配超过2个的read pair，过滤去除突变碱基质量值均小于25的read pair，过滤去除在突变位置碱基不一致的read pair；

变异位点判断步骤，包括判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数；

变异位点信息统计步骤，包括统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度；

变异位点过滤步骤，包括基于变异位点判断步骤和变异位点信息统计步骤的特征值对变异位点进行过滤，去除假阳性位点。

优选的，本申请的一种实现方式中，变异位点过滤步骤具体包括，筛选符合以下条件的阳性位点，

1）2个支持突变DNA分子位于read pair overlap，且单端支持与overlap支持的分子数比值小于5；

2）支持突变的read中，多比对read比例小于等于20%，且数目不超过4条；

3）支持突变的read中，末端突变read比例不超过50%；

4）UMI建库的测序数据，去重后，UMI标签数量大于等于2；

5）支持突变的read平均比对质量值大于等于30；

6）血浆游离DNA测序样本中，支持突变的分子插入片段长度均值小于200；

7）过滤去除在人类参考基因组重复区域的Indel，以及该Indel上下游10bp的SNV；在基因组重复区域附近容易出现错配和假阳性突变，因此本申请过滤去除在基因组重复区域的Indel及Indel附近的SNV；

8）支持突变的read数与支持突变的分子数之间比值小于3。

需要说明的是，在常规DNA测序过程中，采用pair end方法测序，突变位于DNA分子测序read pair overlap，表示该DNA分子两端测序结果都支持突变，视为高质量值突变支持证据，DNA分子测序结果单端（non-overlap）或者单端比对（single mapping）结果支持突变，则视为低质量值突变支持证据，真阳性突变阈值要求至少有两个DNA分子read pair支持突变，且单端支持与overlap支持的比值要小于5，用以排除末端错配导致的假阳性。基于read pair比对的起点和终点识别DNA分子拷贝，当拷贝数大于或者等于2时，识别为PCR重复，计算为一条支持突变的DNA分子；当拷贝数小于2时，识别为无PCR重复，计算为一条支持突变的DNA分子；因此，在变异位点信息统计步骤需要统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数等信息。

优选的，变异检测软件为输出文件格式为VCF的变异检测软件，优选为VarScan、Mutect、Lancet或GATK。

优选的，比对文件为BWA比对软件生成的去重后BAM文件。

本申请的另一面公开了一种识别和消除核酸变异检测中假阳性的装置，该装置包括变异信息读取模块、基因片段过滤模块、变异位点判断模块、变异位点信息统计模块和变异位点过滤模块；

变异信息读取模块，包括用于读取变异检测软件生成的待测样品的结果文件，该结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；

基因片段过滤模块，包括用于读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤去除与参考基因组比对错配超过2个的read pair，过滤去除突变碱基质量值均小于25的readpair，过滤去除在突变位置碱基不一致的read pair；

变异位点判断模块，包括用于判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数；

变异位点信息统计模块，包括用于统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度；

变异位点过滤模块，包括用于基于变异位点判断模块和变异位点信息统计模块的特征值对变异位点进行过滤，去除假阳性位点。

优选的，变异位点过滤模块，包括用于筛选符合以下条件的阳性位点，

3）支持突变的read中，末端突变read比例不超过50%；

4）UMI建库的测序数据，去重后，UMI标签数量大于等于2；

5）支持突变的read平均比对质量值大于等于30；

7）过滤去除在人类参考基因组重复区域的Indel，以及该Indel上下游10bp的SNV；

8）支持突变的read数与支持突变的分子数之间比值小于3。

需要说明的是，本申请识别和消除核酸变异检测假阳性的装置，实际上就是通过各个模块实现本申请识别和消除核酸变异检测中假阳性的方法的各个步骤，以实现自动化的识别和消除核酸变异检测假阳性位点。因此，本申请装置中的其它特征，例如变异检测软件、比对文件或比对软件等都可以参考本申请的识别和消除核酸变异检测中假阳性的方法，在此不累述。

可以理解，本申请的识别和消除核酸变异检测中假阳性的方法，其全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现本申请的方法。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现本申请的方法。当本申请的方法中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现本申请识别和消除核酸变异检测中假阳性方法的全部或部分功能。

因此，本申请的再一面还公开了一种识别和消除核酸变异检测中假阳性的装置，该装置包括存储器和处理器；存储器用于存储程序；处理器用于通过执行存储器存储的程序以实现本申请的识别和消除核酸变异检测中假阳性的方法。

本申请的再一面还公开了一种计算机可读存储介质，包括存储于其中的程序，该程序能够被处理器执行以实现本申请的识别和消除核酸变异检测中假阳性的方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请识别和消除核酸变异检测中假阳性的方法，根据核酸变异假阳性位点和真阳性位点的分布特征，对核酸变异检测结果进行过滤，不仅能够有效的去除假阳性位点，而且提高了核酸变异检测结果的准确性，为基于核酸变异检测的研究奠定了基础。

附图说明

图1是本申请实施例中识别和消除核酸变异检测假阳性的方法的流程框图；

图2是本申请实施例中识别和消除核酸变异检测假阳性的装置的结构框图。

具体实施方式

现有的核酸变异检测，由于文库构建技术、测试技术和比对软件等原因，会引入大量的假阳性位点。本申请创造性的根据假阳性位点和真阳性位点的分布特征，对核酸变异检测结果进行过滤，去除假阳性位点，提高核酸变异检测的准确性。

因此，本申请提出了一种识别和消除核酸变异检测中假阳性的方法，如图1所示，该方法包括变异信息读取步骤11、基因片段过滤步骤12、变异位点判断步骤13、变异位点信息统计步骤14和变异位点过滤步骤15：

变异信息读取步骤11，包括读取变异检测软件生成的待测样品的结果文件，该结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型。该步骤能读取VarScan、Mutect、Lancet、GATK等突变检测软件的输出结果文件，方便后续对每一个突变进行分析。本申请的一种实现方式中，具体是读取VarScan生成的结果文件。

基因片段过滤步骤12，包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤掉与参考基因组比对错配超过2个的read pair，过滤掉突变碱基质量值均小于25的read pair，过滤掉在突变位置碱基不一致的read pair。该步骤是对上一步，即变异信息读取步骤11，读入的突变分别进行操作，读取支持突变的read pair，过滤删除低质量的read pair。本申请的一种实现方式中，具体是读取BAM比对软件生成的BAM文件。

变异位点判断步骤13，包括判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数。该步骤是对每个突变覆盖的read pair进行分析，区分支持突变的read pair是overlap支持，非overlap支持还是single map，以此作为判断真阳性的分析依据。

变异位点信息统计步骤14，包括统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度。该步骤对每一个支持突变的分子和read进行统计，标注出可以用于突变过滤的特征，例如，是否PCR去重不彻底导致UMI重复、分子有多拷贝、read是否多比对、read是否末端错配、read比对质量值、突变DNA分子插入片段长度等，以此作为判断真阳性的分析依据。

和变异位点过滤步骤15，包括基于变异位点判断步骤和变异位点信息统计步骤的特征值对变异位点进行过滤，去除假阳性位点。本申请的一种实现方式中，基于变异位点判断步骤13和变异位点信息统计步骤14的统计信息，根据不同类型的数据样本，真阳性判断标准如下：1）2个支持突变DNA分子位于read pair overlap，且单端支持与overlap支持的分子数比值要小于5，用以排除末端错配导致的假阳性；2）支持突变的read中，多比对read比例小于等于20%且数目不超过4条；3）支持突变的read中，末端突变read比例不超过50%；4）如果是UMI建库，去重重复后，UMI标签数量应该大于等于2；5）支持突变的read平均比对质量值要大于等于30；6）如果是血浆游离DNA测序样本，支持突变的分子插入片段长度均值应该小于200；7）过滤掉在人类参考基因组重复区域的Indel，和Indel上下游10bp的SNV；8）支持突变的read数与支持突变的分子数之间比值要小于3。

基于本申请的识别和消除核酸变异检测假阳性的方法，本申请进一步提出了一种识别和消除核酸变异检测假阳性的装置，如图2所示，该装置包括变异信息读取模块21、基因片段过滤模块22、变异位点判断模块23、变异位点信息统计模块24和变异位点过滤模块25：变异信息读取模块21，包括用于读取变异检测软件生成的待测样品的结果文件，该结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；基因片段过滤模块22，包括用于读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤掉与参考基因组比对错配超过2个的read pair，过滤掉突变碱基质量值均小于25的read pair，过滤掉在突变位置碱基不一致的read pair；变异位点判断模块23，包括用于判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的singlemap read数；变异位点信息统计模块24，包括用于统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度；变异位点过滤模块25，包括用于基于变异位点判断模块23和变异位点信息统计模块24的特征值对变异位点进行过滤，去除假阳性位点，例如，过滤去除位于人类参考基因组的overlap区域的INDEL和发生在该INDEL位点上下游附近的SNV位点。

本申请中涉及的名词解释如下：

BAM文件：使用BWA比对软件将下机测序序列比对到人类参考基因上生成的文件，该文件含有序列在参考基因上的位置、比对质量等详细信息。

UMI：即分子标签，是原始样本基因组打断后，在每一个片段上加入的一段特有的标签序列，用于区分同一样本中成千上万的不同的片段，在后续的数据分析中可以通过这些标签序列来排除由于DNA聚合酶和扩增以及测序过程中所引入的错误，降低背景噪音。

分子拷贝数：经过UMI技术处理过的样本，后期会进行片段去重，每个DNA分子的重复出现次数即称为该片段的分子拷贝数。

SNV：单核苷酸位点变异；和参考基因组该位置的碱基不同，样本基因组上该位置的碱基可能被替换为其他类型的碱基。

INDEL或Indel：插入缺失变异；和参考基因组相比，样本基因组上该位置有一定数量的核苷酸插入或缺失。

VarScan：用于检测样本数据中基因变异检测软件，本申请的一种实现方式中主要用于过滤VarScan产生的SNV和INDEL假阳性位点，结果文件通常为VCF格式。

overlap区域：双端测序中两条成对片段的重复区区域。

VCF： Variant Call Format的缩写，是SNV、Indel突变检测结果输出的标准格式。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例识别和消除核酸变异检测假阳性的方法包括以下步骤：

a,变异信息读取步骤：读取突变检测软件生成的结果文件，主要信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型；

b,基因片段过滤步骤：读取待测样品的下机序列比对到人类参考基因上生成的比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤掉与参考基因组比对错配超过2个的read pair，过滤掉突变碱基质量值均小于25的read pair，过滤掉在突变位置碱基不一致的read pair；

c,变异位点判断步骤：判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的single map read数；

d,变异位点信息统计步骤：统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度；

e,变异位点过滤步骤：基于步骤c和步骤d两步的特征值对变异位点进行过滤。

本例具体包括筛选符合以下条件的阳性位点：

3）支持突变的read中，末端突变read比例不超过50%；

4）UMI建库的测序数据，去重后，UMI标签数量大于等于2；

5）支持突变的read平均比对质量值大于等于30；

8）支持突变的read数与支持突变的分子数之间比值小于3。

本例采用以上方法具体对购买自Horizon的cfDNA标准品HD778的VarScan变异检测结果进行了假阳性识别和消除。

首先，读取该样品的VarScan检测结果VCF文件。

然后，读取待测样品的下机序列比对到人类参考基因上生成的比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤掉与参考基因组比对错配超过2个的read pair，过滤掉突变碱基质量值均小于25的read pair，过滤掉在突变位置碱基不一致的read pair。

判断异位点是否位于每一个DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的single map read数。

统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度。

最后，保留满足如下标准的突变：1）有2个以上支持突变DNA分子位于read pairoverlap，且单端支持与overlap支持的分子数比值要小于5；2）支持突变的read，多比对read比例小于等于20%且数目不超过4条；3）支持突变的read中，末端突变read比例不超过50%；4）如果是UMI建库，去除PCR重复后，UMI标签数量应该大于等于2；5）支持突变的read平均比对质量值要大于等于30；6）如果是血浆游离DNA测序样本，支持突变的分子插入片段长度均值应该小于200；7）过滤掉在人类参考基因组重复区域的Indel，和该Indel上下游10bp的SNV；8）支持突变的read数与支持突变的分子数之间比值要小于3。

根据以上过滤条件，最终只保留了8个体细胞突变，如表1所示。

表1 变异检测的阳性位点筛选结果

染色体	基因	突变	标准品VAF	过滤后结果
					7p12	EGFR	L858R	1.0%	0.92%
7p12	EGFR	ΔE746 - A750	1.0%	1.03%
					7p12	EGFR	T790M	1.0%	1.15%
7p12	EGFR	V769 - D770insASV	1.0%	0.85%
					12p12.1	KRAS	G12D	1.3%	1.47%
1p13.2	NRAS	Q61K	1.3%	1.36%
					1p13.2	NRAS	A59T	1.3%	1.26%
3q26.3	PIK3CA	E545K	1.3%	1.50%

表1的结果显示，经过本例的识别和消除假阳性方法，最终保留的真阳性结果，与标准品中设置的突变完全一致；说明本例的方法能够有效的识别和消除核酸变异检测中的假阳性。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种识别和消除核酸变异检测中假阳性的方法，其特征在于：包括以下步骤，

变异信息读取步骤，包括读取变异检测软件生成的待测样品的结果文件，所述结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；

变异位点判断步骤，包括判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的single map read数；

变异位点过滤步骤，包括基于所述变异位点判断步骤和所述变异位点信息统计步骤的特征值对变异位点进行过滤，去除假阳性位点。

2.根据权利要求1所述的方法，其特征在于：所述变异位点过滤步骤，具体包括筛选符合以下条件的阳性位点，

3）支持突变的read中，末端突变read比例不超过50%；

4）UMI建库的测序数据，去重后，UMI标签数量大于等于2；

5）支持突变的read平均比对质量值大于等于30；

8）支持突变的read数与支持突变的分子数之间比值小于3。

3.根据权利要求1或2所述的方法，其特征在于：所述变异检测软件为输出文件格式为VCF的变异检测软件。

4.根据权利要求3所述的方法，其特征在于：所述变异检测软件为VarScan、Mutect、Lancet或GATK。

5.根据权利要求1或2所述的方法，其特征在于：所述比对文件为BWA比对软件生成的去重后BAM文件。

6.一种识别和消除核酸变异检测中假阳性的装置，其特征在于：包括变异信息读取模块、基因片段过滤模块、变异位点判断模块、变异位点信息统计模块和变异位点过滤模块；

所述变异信息读取模块，包括用于读取变异检测软件生成的待测样品的结果文件，所述结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型；

所述基因片段过滤模块，包括用于读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件，筛选获得每一个变异位点覆盖的read pair比对结果，然后过滤去除与参考基因组比对错配超过2个的read pair，过滤去除突变碱基质量值均小于25的readpair，过滤去除在突变位置碱基不一致的read pair；

所述变异位点判断模块，包括用于判断变异位点是否位于DNA分子read pair overlap区域，统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数；

所述变异位点信息统计模块，包括用于统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度；

所述变异位点过滤模块，包括用于基于所述变异位点判断模块和所述变异位点信息统计模块的特征值对变异位点进行过滤，去除假阳性位点。

7.根据权利要求6所述的装置，其特征在于：所述变异位点过滤模块，包括用于筛选符合以下条件的阳性位点，

3）支持突变的read中，末端突变read比例不超过50%；

4）UMI建库的测序数据，去重后，UMI标签数量大于等于2；

5）支持突变的read平均比对质量值大于等于30；

8）支持突变的read数与支持突变的分子数之间比值小于3。

8.根据权利要求6或7所述的装置，其特征在于：所述变异检测软件为输出文件格式为VCF的变异检测软件。

9.根据权利要求8所述的装置，其特征在于：所述变异检测软件为VarScan、Mutect、Lancet或GATK。

10.根据权利要求6或7所述的装置，其特征在于：所述比对文件为BWA比对软件生成的去重后BAM文件。

11.一种识别和消除核酸变异检测中假阳性的装置，其特征在于：包括存储器和处理器；

所述存储器用于存储程序；

所述处理器用于通过执行所述存储器存储的程序实现权利要求1-5任一项所述的方法。

12.一种计算机可读存储介质，其特征在于：包括存储于其中的程序，所述程序能够被处理器执行以实现权利要求1-5任一项所述的方法。