CN109658983B - 一种识别和消除核酸变异检测中假阳性的方法和装置 - Google Patents

一种识别和消除核酸变异检测中假阳性的方法和装置 Download PDF

Info

Publication number
CN109658983B
CN109658983B CN201811592826.6A CN201811592826A CN109658983B CN 109658983 B CN109658983 B CN 109658983B CN 201811592826 A CN201811592826 A CN 201811592826A CN 109658983 B CN109658983 B CN 109658983B
Authority
CN
China
Prior art keywords
read
variant sites
mutation
variation
overlap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811592826.6A
Other languages
English (en)
Other versions
CN109658983A (zh
Inventor
周衍庆
汪周阳
方文
张实唯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Haplox Biotechnology Co Ltd
Original Assignee
Shenzhen Haplox Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Haplox Biotechnology Co Ltd filed Critical Shenzhen Haplox Biotechnology Co Ltd
Priority to CN201811592826.6A priority Critical patent/CN109658983B/zh
Publication of CN109658983A publication Critical patent/CN109658983A/zh
Application granted granted Critical
Publication of CN109658983B publication Critical patent/CN109658983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种识别和消除核酸变异检测中假阳性的方法和装置。本申请的方法包括,读取待测样品的变异检测软件结果文件;读取去除PCR重复后测序read的比对文件,获得每一个变异位点覆盖的read pair比对结果;判断变异位点是否位于DNA分子read pair overlap区域,对每个突变覆盖的read pair进行分析和统计;对每一个支持突变的分子和read进行统计,标注出可以用于突变过滤的特征;基于以上特征值对变异位点进行过滤。本申请的方法,根据核酸变异假阳性位点和真阳性位点的分布特征,对核酸变异检测结果进行过滤,不仅能够有效的去除假阳性位点,而且提高了核酸变异检测结果的准确性。

Description

一种识别和消除核酸变异检测中假阳性的方法和装置
技术领域
本申请涉及核酸变异检测领域,特别是涉及一种识别和消除核酸变异检测中假阳性的方法和装置。
背景技术
核酸变异或称基因突变,是指基因在结构上发生碱基对组成或排列顺序的改变,包括单核苷酸位点变异(缩写SNV)、插入缺失变异(缩写INDEL)、移码突变等。核酸变异是自然界普遍存在的现象,对人类基因组而言,核酸变异通常会引起生理性或病理性改变;因此,核酸变异检测及相关研究是人类基因组研究的重点。
目前,核酸变异检测主要是通过高通量测序,将测序结果与参考基因组进行比对,从而获得核酸变异信息。但是,受现有的测序文库建库技术和测序技术的影响,测序过程中会引入的大量的测序错误;同时,序列比对软件也可能产生比对错误;从而导致变异检测软件检测出大量的假阳性变异位点,不仅增加了后期人工筛选假阳性位点的工作量,而且可能导致最终检测报告里的假阳性位点过高,影响准确性。
发明内容
本申请的目的是提供一种新的识别和消除核酸变异检测中假阳性的方法和装置。
为了实现上述目的,本申请采用了以下技术方案:
本申请的一方面公开了一种识别和消除核酸变异检测中假阳性的方法,包括以下步骤,
变异信息读取步骤,包括读取变异检测软件生成的待测样品的结果文件,结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型;
基因片段过滤步骤,包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤去除与参考基因组比对错配超过2个的read pair,过滤去除突变碱基质量值均小于25的read pair,过滤去除在突变位置碱基不一致的read pair;
变异位点判断步骤,包括判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数;
变异位点信息统计步骤,包括统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度;
变异位点过滤步骤,包括基于变异位点判断步骤和变异位点信息统计步骤的特征值对变异位点进行过滤,去除假阳性位点。
优选的,本申请的一种实现方式中,变异位点过滤步骤具体包括,筛选符合以下条件的阳性位点,
1)2个支持突变DNA分子位于read pair overlap,且单端支持与overlap支持的分子数比值小于5;
2)支持突变的read中,多比对read比例小于等于20%,且数目不超过4条;
3)支持突变的read中,末端突变read比例不超过50%;
4)UMI建库的测序数据,去重后,UMI标签数量大于等于2;
5)支持突变的read平均比对质量值大于等于30;
6)血浆游离DNA测序样本中,支持突变的分子插入片段长度均值小于200;
7)过滤去除在人类参考基因组重复区域的Indel,以及该Indel上下游10bp的SNV;在基因组重复区域附近容易出现错配和假阳性突变,因此本申请过滤去除在基因组重复区域的Indel及Indel附近的SNV;
8)支持突变的read数与支持突变的分子数之间比值小于3。
需要说明的是,在常规DNA测序过程中,采用pair end方法测序,突变位于DNA分子测序read pair overlap,表示该DNA分子两端测序结果都支持突变,视为高质量值突变支持证据,DNA分子测序结果单端(non-overlap)或者单端比对(single mapping)结果支持突变,则视为低质量值突变支持证据,真阳性突变阈值要求至少有两个DNA分子read pair支持突变,且单端支持与overlap支持的比值要小于5,用以排除末端错配导致的假阳性。基于read pair比对的起点和终点识别DNA分子拷贝,当拷贝数大于或者等于2时,识别为PCR重复,计算为一条支持突变的DNA分子;当拷贝数小于2时,识别为无PCR重复,计算为一条支持突变的DNA分子;因此,在变异位点信息统计步骤需要统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数等信息。
优选的,变异检测软件为输出文件格式为VCF的变异检测软件,优选为VarScan、Mutect、Lancet或GATK。
优选的,比对文件为BWA比对软件生成的去重后BAM文件。
本申请的另一面公开了一种识别和消除核酸变异检测中假阳性的装置,该装置包括变异信息读取模块、基因片段过滤模块、变异位点判断模块、变异位点信息统计模块和变异位点过滤模块;
变异信息读取模块,包括用于读取变异检测软件生成的待测样品的结果文件,该结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型;
基因片段过滤模块,包括用于读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤去除与参考基因组比对错配超过2个的read pair,过滤去除突变碱基质量值均小于25的readpair,过滤去除在突变位置碱基不一致的read pair;
变异位点判断模块,包括用于判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数;
变异位点信息统计模块,包括用于统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度;
变异位点过滤模块,包括用于基于变异位点判断模块和变异位点信息统计模块的特征值对变异位点进行过滤,去除假阳性位点。
优选的,变异位点过滤模块,包括用于筛选符合以下条件的阳性位点,
1)2个支持突变DNA分子位于read pair overlap,且单端支持与overlap支持的分子数比值小于5;
2)支持突变的read中,多比对read比例小于等于20%,且数目不超过4条;
3)支持突变的read中,末端突变read比例不超过50%;
4)UMI建库的测序数据,去重后,UMI标签数量大于等于2;
5)支持突变的read平均比对质量值大于等于30;
6)血浆游离DNA测序样本中,支持突变的分子插入片段长度均值小于200;
7)过滤去除在人类参考基因组重复区域的Indel,以及该Indel上下游10bp的SNV;
8)支持突变的read数与支持突变的分子数之间比值小于3。
需要说明的是,本申请识别和消除核酸变异检测假阳性的装置,实际上就是通过各个模块实现本申请识别和消除核酸变异检测中假阳性的方法的各个步骤,以实现自动化的识别和消除核酸变异检测假阳性位点。因此,本申请装置中的其它特征,例如变异检测软件、比对文件或比对软件等都可以参考本申请的识别和消除核酸变异检测中假阳性的方法,在此不累述。
可以理解,本申请的识别和消除核酸变异检测中假阳性的方法,其全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现本申请的方法。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现本申请的方法。当本申请的方法中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现本申请识别和消除核酸变异检测中假阳性方法的全部或部分功能。
因此,本申请的再一面还公开了一种识别和消除核酸变异检测中假阳性的装置,该装置包括存储器和处理器;存储器用于存储程序;处理器用于通过执行存储器存储的程序以实现本申请的识别和消除核酸变异检测中假阳性的方法。
本申请的再一面还公开了一种计算机可读存储介质,包括存储于其中的程序,该程序能够被处理器执行以实现本申请的识别和消除核酸变异检测中假阳性的方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请识别和消除核酸变异检测中假阳性的方法,根据核酸变异假阳性位点和真阳性位点的分布特征,对核酸变异检测结果进行过滤,不仅能够有效的去除假阳性位点,而且提高了核酸变异检测结果的准确性,为基于核酸变异检测的研究奠定了基础。
附图说明
图1是本申请实施例中识别和消除核酸变异检测假阳性的方法的流程框图;
图2是本申请实施例中识别和消除核酸变异检测假阳性的装置的结构框图。
具体实施方式
现有的核酸变异检测,由于文库构建技术、测试技术和比对软件等原因,会引入大量的假阳性位点。本申请创造性的根据假阳性位点和真阳性位点的分布特征,对核酸变异检测结果进行过滤,去除假阳性位点,提高核酸变异检测的准确性。
因此,本申请提出了一种识别和消除核酸变异检测中假阳性的方法,如图1所示,该方法包括变异信息读取步骤11、基因片段过滤步骤12、变异位点判断步骤13、变异位点信息统计步骤14和变异位点过滤步骤15:
变异信息读取步骤11,包括读取变异检测软件生成的待测样品的结果文件,该结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型。该步骤能读取VarScan、Mutect、Lancet、GATK等突变检测软件的输出结果文件,方便后续对每一个突变进行分析。本申请的一种实现方式中,具体是读取VarScan生成的结果文件。
基因片段过滤步骤12,包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤掉与参考基因组比对错配超过2个的read pair,过滤掉突变碱基质量值均小于25的read pair,过滤掉在突变位置碱基不一致的read pair。该步骤是对上一步,即变异信息读取步骤11,读入的突变分别进行操作,读取支持突变的read pair,过滤删除低质量的read pair。本申请的一种实现方式中,具体是读取BAM比对软件生成的BAM文件。
变异位点判断步骤13,包括判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数。该步骤是对每个突变覆盖的read pair进行分析,区分支持突变的read pair是overlap支持,非overlap支持还是single map,以此作为判断真阳性的分析依据。
变异位点信息统计步骤14,包括统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度。该步骤对每一个支持突变的分子和read进行统计,标注出可以用于突变过滤的特征,例如,是否PCR去重不彻底导致UMI重复、分子有多拷贝、read是否多比对、read是否末端错配、read比对质量值、突变DNA分子插入片段长度等,以此作为判断真阳性的分析依据。
和变异位点过滤步骤15,包括基于变异位点判断步骤和变异位点信息统计步骤的特征值对变异位点进行过滤,去除假阳性位点。本申请的一种实现方式中,基于变异位点判断步骤13和变异位点信息统计步骤14的统计信息,根据不同类型的数据样本,真阳性判断标准如下:1)2个支持突变DNA分子位于read pair overlap,且单端支持与overlap支持的分子数比值要小于5,用以排除末端错配导致的假阳性;2)支持突变的read中,多比对read比例小于等于20%且数目不超过4条;3)支持突变的read中,末端突变read比例不超过50%;4)如果是UMI建库,去重重复后,UMI标签数量应该大于等于2;5)支持突变的read平均比对质量值要大于等于30;6)如果是血浆游离DNA测序样本,支持突变的分子插入片段长度均值应该小于200;7)过滤掉在人类参考基因组重复区域的Indel,和Indel上下游10bp的SNV;8)支持突变的read数与支持突变的分子数之间比值要小于3。
基于本申请的识别和消除核酸变异检测假阳性的方法,本申请进一步提出了一种识别和消除核酸变异检测假阳性的装置,如图2所示,该装置包括变异信息读取模块21、基因片段过滤模块22、变异位点判断模块23、变异位点信息统计模块24和变异位点过滤模块25:变异信息读取模块21,包括用于读取变异检测软件生成的待测样品的结果文件,该结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型;基因片段过滤模块22,包括用于读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤掉与参考基因组比对错配超过2个的read pair,过滤掉突变碱基质量值均小于25的read pair,过滤掉在突变位置碱基不一致的read pair;变异位点判断模块23,包括用于判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的singlemap read数;变异位点信息统计模块24,包括用于统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度;变异位点过滤模块25,包括用于基于变异位点判断模块23和变异位点信息统计模块24的特征值对变异位点进行过滤,去除假阳性位点,例如,过滤去除位于人类参考基因组的overlap区域的INDEL和发生在该INDEL位点上下游附近的SNV位点。
本申请中涉及的名词解释如下:
BAM文件:使用BWA比对软件将下机测序序列比对到人类参考基因上生成的文件,该文件含有序列在参考基因上的位置、比对质量等详细信息。
UMI:即分子标签,是原始样本基因组打断后,在每一个片段上加入的一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于DNA聚合酶和扩增以及测序过程中所引入的错误,降低背景噪音。
分子拷贝数:经过UMI技术处理过的样本,后期会进行片段去重,每个DNA分子的重复出现次数即称为该片段的分子拷贝数。
SNV:单核苷酸位点变异;和参考基因组该位置的碱基不同,样本基因组上该位置的碱基可能被替换为其他类型的碱基。
INDEL或Indel:插入缺失变异;和参考基因组相比,样本基因组上该位置有一定数量的核苷酸插入或缺失。
VarScan:用于检测样本数据中基因变异检测软件,本申请的一种实现方式中主要用于过滤VarScan产生的SNV和INDEL假阳性位点,结果文件通常为VCF格式。
overlap区域:双端测序中两条成对片段的重复区区域。
VCF: Variant Call Format的缩写,是SNV、Indel突变检测结果输出的标准格式。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例识别和消除核酸变异检测假阳性的方法包括以下步骤:
a,变异信息读取步骤:读取突变检测软件生成的结果文件,主要信息包括变异位置、参考基因组上该位置的碱基类型、样本中该位置的变异碱基类型;
b,基因片段过滤步骤:读取待测样品的下机序列比对到人类参考基因上生成的比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤掉与参考基因组比对错配超过2个的read pair,过滤掉突变碱基质量值均小于25的read pair,过滤掉在突变位置碱基不一致的read pair;
c,变异位点判断步骤:判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的single map read数;
d,变异位点信息统计步骤:统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度;
e,变异位点过滤步骤:基于步骤c和步骤d两步的特征值对变异位点进行过滤。
本例具体包括筛选符合以下条件的阳性位点:
1)2个支持突变DNA分子位于read pair overlap,且单端支持与overlap支持的分子数比值小于5;
2)支持突变的read中,多比对read比例小于等于20%,且数目不超过4条;
3)支持突变的read中,末端突变read比例不超过50%;
4)UMI建库的测序数据,去重后,UMI标签数量大于等于2;
5)支持突变的read平均比对质量值大于等于30;
6)血浆游离DNA测序样本中,支持突变的分子插入片段长度均值小于200;
7)过滤去除在人类参考基因组重复区域的Indel,以及该Indel上下游10bp的SNV;
8)支持突变的read数与支持突变的分子数之间比值小于3。
本例采用以上方法具体对购买自Horizon的cfDNA标准品HD778的VarScan变异检测结果进行了假阳性识别和消除。
首先,读取该样品的VarScan检测结果VCF文件。
然后,读取待测样品的下机序列比对到人类参考基因上生成的比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤掉与参考基因组比对错配超过2个的read pair,过滤掉突变碱基质量值均小于25的read pair,过滤掉在突变位置碱基不一致的read pair。
判断异位点是否位于每一个DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的single map read数。
统计支持变异的拷贝数大于或等于2的分子数、小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度。
最后,保留满足如下标准的突变:1)有2个以上支持突变DNA分子位于read pairoverlap,且单端支持与overlap支持的分子数比值要小于5;2)支持突变的read,多比对read比例小于等于20%且数目不超过4条;3)支持突变的read中,末端突变read比例不超过50%;4)如果是UMI建库,去除PCR重复后,UMI标签数量应该大于等于2;5)支持突变的read平均比对质量值要大于等于30;6)如果是血浆游离DNA测序样本,支持突变的分子插入片段长度均值应该小于200;7)过滤掉在人类参考基因组重复区域的Indel,和该Indel上下游10bp的SNV;8)支持突变的read数与支持突变的分子数之间比值要小于3。
根据以上过滤条件,最终只保留了8个体细胞突变,如表1所示。
表1 变异检测的阳性位点筛选结果
染色体 基因 突变 标准品VAF 过滤后结果
7p12 EGFR L858R 1.0% 0.92%
7p12 EGFR ΔE746 - A750 1.0% 1.03%
7p12 EGFR T790M 1.0% 1.15%
7p12 EGFR V769 - D770insASV 1.0% 0.85%
12p12.1 KRAS G12D 1.3% 1.47%
1p13.2 NRAS Q61K 1.3% 1.36%
1p13.2 NRAS A59T 1.3% 1.26%
3q26.3 PIK3CA E545K 1.3% 1.50%
表1的结果显示,经过本例的识别和消除假阳性方法,最终保留的真阳性结果,与标准品中设置的突变完全一致;说明本例的方法能够有效的识别和消除核酸变异检测中的假阳性。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (12)

1.一种识别和消除核酸变异检测中假阳性的方法,其特征在于:包括以下步骤,
变异信息读取步骤,包括读取变异检测软件生成的待测样品的结果文件,所述结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型;
基因片段过滤步骤,包括读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤去除与参考基因组比对错配超过2个的read pair,过滤去除突变碱基质量值均小于25的read pair,过滤去除在突变位置碱基不一致的read pair;
变异位点判断步骤,包括判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的read pair数、位于非overlap区域的single map read数;
变异位点信息统计步骤,包括统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度;
变异位点过滤步骤,包括基于所述变异位点判断步骤和所述变异位点信息统计步骤的特征值对变异位点进行过滤,去除假阳性位点。
2.根据权利要求1所述的方法,其特征在于:所述变异位点过滤步骤,具体包括筛选符合以下条件的阳性位点,
1)2个支持突变DNA分子位于read pair overlap,且单端支持与overlap支持的分子数比值小于5;
2)支持突变的read中,多比对read比例小于等于20%,且数目不超过4条;
3)支持突变的read中,末端突变read比例不超过50%;
4)UMI建库的测序数据,去重后,UMI标签数量大于等于2;
5)支持突变的read平均比对质量值大于等于30;
6)血浆游离DNA测序样本中,支持突变的分子插入片段长度均值小于200;
7)过滤去除在人类参考基因组重复区域的Indel,以及该Indel上下游10bp的SNV;
8)支持突变的read数与支持突变的分子数之间比值小于3。
3.根据权利要求1或2所述的方法,其特征在于:所述变异检测软件为输出文件格式为VCF的变异检测软件。
4.根据权利要求3所述的方法,其特征在于:所述变异检测软件为VarScan、Mutect、Lancet或GATK。
5.根据权利要求1或2所述的方法,其特征在于:所述比对文件为BWA比对软件生成的去重后BAM文件。
6.一种识别和消除核酸变异检测中假阳性的装置,其特征在于:包括变异信息读取模块、基因片段过滤模块、变异位点判断模块、变异位点信息统计模块和变异位点过滤模块;
所述变异信息读取模块,包括用于读取变异检测软件生成的待测样品的结果文件,所述结果文件包括变异位置信息、参考基因组上该变异位置的碱基类型、待测样品中该变异位置的变异碱基类型;
所述基因片段过滤模块,包括用于读取待测样品的下机序列比对到人类参考基因上生成的去重后比对文件,筛选获得每一个变异位点覆盖的read pair比对结果,然后过滤去除与参考基因组比对错配超过2个的read pair,过滤去除突变碱基质量值均小于25的readpair,过滤去除在突变位置碱基不一致的read pair;
所述变异位点判断模块,包括用于判断变异位点是否位于DNA分子read pair overlap区域,统计变异位点位于DNA分子overlap区域的read pair数、位于非overlap区域的readpair数、位于非overlap区域的single map read数;
所述变异位点信息统计模块,包括用于统计支持变异的拷贝数大于或等于2的分子数、拷贝数小于2的分子数、多比对的read数、突变位于末端的read数、UMI去重后的个数、read平均比对质量值和DNA分子的平均插入片段长度;
所述变异位点过滤模块,包括用于基于所述变异位点判断模块和所述变异位点信息统计模块的特征值对变异位点进行过滤,去除假阳性位点。
7.根据权利要求6所述的装置,其特征在于:所述变异位点过滤模块,包括用于筛选符合以下条件的阳性位点,
1)2个支持突变DNA分子位于read pair overlap,且单端支持与overlap支持的分子数比值小于5;
2)支持突变的read中,多比对read比例小于等于20%,且数目不超过4条;
3)支持突变的read中,末端突变read比例不超过50%;
4)UMI建库的测序数据,去重后,UMI标签数量大于等于2;
5)支持突变的read平均比对质量值大于等于30;
6)血浆游离DNA测序样本中,支持突变的分子插入片段长度均值小于200;
7)过滤去除在人类参考基因组重复区域的Indel,以及该Indel上下游10bp的SNV;
8)支持突变的read数与支持突变的分子数之间比值小于3。
8.根据权利要求6或7所述的装置,其特征在于:所述变异检测软件为输出文件格式为VCF的变异检测软件。
9.根据权利要求8所述的装置,其特征在于:所述变异检测软件为VarScan、Mutect、Lancet或GATK。
10.根据权利要求6或7所述的装置,其特征在于:所述比对文件为BWA比对软件生成的去重后BAM文件。
11.一种识别和消除核酸变异检测中假阳性的装置,其特征在于:包括存储器和处理器;
所述存储器用于存储程序;
所述处理器用于通过执行所述存储器存储的程序实现权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于:包括存储于其中的程序,所述程序能够被处理器执行以实现权利要求1-5任一项所述的方法。
CN201811592826.6A 2018-12-20 2018-12-20 一种识别和消除核酸变异检测中假阳性的方法和装置 Active CN109658983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592826.6A CN109658983B (zh) 2018-12-20 2018-12-20 一种识别和消除核酸变异检测中假阳性的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592826.6A CN109658983B (zh) 2018-12-20 2018-12-20 一种识别和消除核酸变异检测中假阳性的方法和装置

Publications (2)

Publication Number Publication Date
CN109658983A CN109658983A (zh) 2019-04-19
CN109658983B true CN109658983B (zh) 2019-11-19

Family

ID=66116622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592826.6A Active CN109658983B (zh) 2018-12-20 2018-12-20 一种识别和消除核酸变异检测中假阳性的方法和装置

Country Status (1)

Country Link
CN (1) CN109658983B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084314B (zh) * 2019-05-06 2021-08-13 西安交通大学 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN111028885B (zh) * 2019-12-31 2023-05-30 西南民族大学 一种检测牦牛rna编辑位点的方法及装置
CN111696622B (zh) * 2020-05-26 2023-11-21 北京吉因加医学检验实验室有限公司 一种校正和评估变异检测软件检测结果的方法
CN111863135B (zh) * 2020-07-15 2022-06-07 西安交通大学 一种假阳性结构变异过滤方法、存储介质及计算设备
CN112086131B (zh) * 2020-08-18 2024-05-24 西安医学院 一种重测序数据库中假阳性变异位点的筛选方法
CN111933214B (zh) * 2020-09-27 2021-01-19 至本医疗科技(上海)有限公司 用于检测rna水平体细胞基因变异的方法、计算设备
CN112164423B (zh) * 2020-10-14 2021-03-23 深圳吉因加医学检验实验室 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN112735517A (zh) * 2020-12-30 2021-04-30 深圳市海普洛斯生物科技有限公司 一种检测染色体联合缺失的方法、装置和存储介质
CN113249453B (zh) * 2021-07-08 2021-09-24 苏州赛美科基因科技有限公司 一种检测拷贝数变化的方法
KR20230155107A (ko) * 2022-05-03 2023-11-10 (주)디엑솜 진양성 변이 및 위양성 변이를 구별하는 PiSeq 장치 및 알고리즘
CN114974416B (zh) * 2022-07-15 2023-04-07 深圳雅济科技有限公司 一种检测相邻多核苷酸变异的方法及装置
CN116895332B (zh) * 2023-09-11 2023-12-05 臻和(北京)生物科技有限公司 一种酶切法打断建库中人工片段产生的假阳性突变的过滤方法
CN116959579B (zh) * 2023-09-19 2023-12-22 北京求臻医学检验实验室有限公司 一种用于降低二代测序系统错误的系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106566871A (zh) * 2015-10-12 2017-04-19 上海基致生物医药科技有限公司 基于不对称as2-pcr的基因变异检测方法及引物
CN106611106A (zh) * 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
CN107480470A (zh) * 2016-06-08 2017-12-15 广州华大基因医学检验所有限公司 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN107750279A (zh) * 2015-03-16 2018-03-02 个人基因组诊断公司 核酸分析系统和方法
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法
CN107944223A (zh) * 2017-11-10 2018-04-20 深圳裕策生物科技有限公司 基于二代测序的点突变检测过滤方法、装置和存储介质
CN108280325A (zh) * 2017-12-08 2018-07-13 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
WO2018152542A1 (en) * 2017-02-17 2018-08-23 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617256B (zh) * 2013-11-29 2018-01-02 北京诺禾致源科技股份有限公司 待变异检测文件的处理方法及装置
US9944977B2 (en) * 2013-12-12 2018-04-17 Raindance Technologies, Inc. Distinguishing rare variations in a nucleic acid sequence from a sample
CN105760712B (zh) * 2016-03-01 2019-03-26 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN107974490B (zh) * 2017-12-08 2019-05-14 东莞博奥木华基因科技有限公司 基于半导体测序的pku致病基因突变检测方法及装置
CN108690871B (zh) * 2018-03-29 2022-05-20 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN108875302B (zh) * 2018-06-22 2022-02-22 广州漫瑞生物信息技术有限公司 一种检测细胞游离肿瘤基因拷贝数变异的系统和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107750279A (zh) * 2015-03-16 2018-03-02 个人基因组诊断公司 核酸分析系统和方法
CN106566871A (zh) * 2015-10-12 2017-04-19 上海基致生物医药科技有限公司 基于不对称as2-pcr的基因变异检测方法及引物
CN107480470A (zh) * 2016-06-08 2017-12-15 广州华大基因医学检验所有限公司 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN106611106A (zh) * 2016-12-06 2017-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
WO2018152542A1 (en) * 2017-02-17 2018-08-23 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
CN107944223A (zh) * 2017-11-10 2018-04-20 深圳裕策生物科技有限公司 基于二代测序的点突变检测过滤方法、装置和存储介质
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法
CN108280325A (zh) * 2017-12-08 2018-07-13 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AfterQC: automatic filtering, trimming,error removing and quality control for fastq data;Shifu Chen et al;《BMC Bioinformatics》;20170118;第18卷(第3期);第91-100页 *
The difficulty of avoiding false positive in genome scans for natural selection;Swapan Malliick et al;《Genome Research》;20090311;第922-933页 *
Ultra-deep mutant spectrum profiling: improving sequencing accuracy using overlapping read pairs;Haiyin Chen-Harris et al;《BMC Genomics》;20130212;第1-13页 *
VarScan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing;Daniel C.Koboldt et al;《Genome Research》;20120111;第568-576页 *
血液核酸检测中对假阳性结果的防治措施;赵宇;《医学前沿》;20161231;第6卷(第36期);第352-353页 *

Also Published As

Publication number Publication date
CN109658983A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109658983B (zh) 一种识别和消除核酸变异检测中假阳性的方法和装置
Gronau et al. Inference of natural selection from interspersed genomic elements based on polymorphism and divergence
CN107423578B (zh) 检测体细胞突变的装置
US9218450B2 (en) Accurate and fast mapping of reads to genome
AU2016355983B2 (en) Methods for detecting copy-number variations in next-generation sequencing
CN107992721B (zh) 用于检测目标区域基因融合的方法、装置和存储介质
JP6066924B2 (ja) Dna配列のデータ解析法
CN110021347B (zh) 一种基于miRBase数据库的动物有参的miRNA数据分析方法
CN104462869A (zh) 检测体细胞单核苷酸突变的方法和装置
CN111261229A (zh) 一种MeRIP-seq高通量测序数据的生物分析流程
Southam et al. The effect of genome-wide association scan quality control on imputation outcome for common variants
WO2023124779A1 (zh) 基于三代测序数据检测点突变的分析方法和装置
CN109859797B (zh) 一种基于miRBase数据库的无参的miRNA数据分析方法
CN107247873A (zh) 一种差异甲基化位点识别方法
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
CN106845152A (zh) 一种基因组胞嘧啶位点表观基因型分型方法
Michaeli et al. Automated cleaning and pre-processing of immunoglobulin gene sequences from high-throughput sequencing
Roux de Bézieux et al. CALDERA: finding all significant de Bruijn subgraphs for bacterial GWAS
CN109920480A (zh) 一种校正高通量测序数据的方法和装置
CN111681710B (zh) 基于基因表达特征的细胞分类方法、装置和电子设备
CN111128308A (zh) 一种神经精神疾病新发突变信息知识平台
CN113793642A (zh) 一种高通量测序变异风险分组筛选方法及系统
CN113496761A (zh) 确定核酸样本中cnv的方法、装置及应用
Shemirani et al. Selecting Clustering Algorithms for IBD Mapping
Bu et al. Early evolutionary history and genomic features of gene duplicates in the human genome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and device for identifying and eliminating false positive in nucleic acid mutation detection

Effective date of registration: 20210924

Granted publication date: 20191119

Pledgee: Shenzhen hi tech investment small loan Co.,Ltd.

Pledgor: HAPLOX BIOTECHNOLOGY (SHENZHEN) Co.,Ltd.

Registration number: Y2021980009821

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230105

Granted publication date: 20191119

Pledgee: Shenzhen hi tech investment small loan Co.,Ltd.

Pledgor: HAPLOX BIOTECHNOLOGY (SHENZHEN) Co.,Ltd.

Registration number: Y2021980009821

PC01 Cancellation of the registration of the contract for pledge of patent right