CN108690871A - 基于二代测序的插入缺失突变检测方法、装置和存储介质 - Google Patents

基于二代测序的插入缺失突变检测方法、装置和存储介质 Download PDF

Info

Publication number
CN108690871A
CN108690871A CN201810273763.1A CN201810273763A CN108690871A CN 108690871 A CN108690871 A CN 108690871A CN 201810273763 A CN201810273763 A CN 201810273763A CN 108690871 A CN108690871 A CN 108690871A
Authority
CN
China
Prior art keywords
site
deletion
mutation
base
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810273763.1A
Other languages
English (en)
Other versions
CN108690871B (zh
Inventor
陈龙昀
李淼
高志博
王佳茜
陈超
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yulce Biological Technology Co Ltd
Original Assignee
Shenzhen Yulce Biological Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yulce Biological Technology Co Ltd filed Critical Shenzhen Yulce Biological Technology Co Ltd
Priority to CN201810273763.1A priority Critical patent/CN108690871B/zh
Publication of CN108690871A publication Critical patent/CN108690871A/zh
Application granted granted Critical
Publication of CN108690871B publication Critical patent/CN108690871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种基于二代测序的插入缺失突变检测方法、装置和存储介质。本申请方法包括,利用待测样本比对到参考基因组的文件,提取突变等位基因频率大于或等于阈值的候选突变位点集合;过滤去除在短串联重复区域的位点;详细统计各突变位点及其周围的比对信息,包括:InDel位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;根据统计信息,过滤去除未达设定阈值的位点,得到突变结果。本申请方法,无需局部组装,预先对二代测序数据进行过滤,快速排除大部分由比对造成的假阳性结果,降低检测运行时间和计算资源,提高了检测效率;敏感性和特异性强,能快速精准检测InDel突变。

Description

基于二代测序的插入缺失突变检测方法、装置和存储介质
技术领域
本申请涉及基因突变检测领域,特别是涉及一种基于二代测序的插入缺失突变检测方法、装置和存储介质。
背景技术
癌症是全球最主要的非传染性疾病之一,也是死亡率很高的一种病种,在我国,每年有接近430万人被诊断为癌症,有超过280万人死于癌症。
抗肿瘤靶向药物是目前治疗癌症较为有效的手段,部分靶向药的靶点是针对关键基因的插入缺失突变,以下简称InDel突变,发挥作用的。一般临床上建议这些药物在用于肿瘤治疗前对相应的靶标基因进行检测,以确定是否适合使用靶向药或者使用哪种药物。
目前常见的检测基因InDel突变的方法有PCR法、一代测序和二代测序,其中一代测序即Sanger测序法。PCR法具有敏感性高的特点,且技术已经成熟,但每对引物只能检测一种突变,无法同时检测太多样品和位点,通量较低,不适用于临床上大量样本的多靶标筛选或检测。Sanger测序法的成本较低,但所需样品用量大,且对低频突变的检测敏感性低。二代测序具有通量高的特点,测序成本也在逐年下降,但目前检测InDel常用的方法工具,例如,Varscan检测特异性不高,Strelka对低频的检测敏感性偏低,而Mutect2因为使用了局部组装步骤导致运行时间过长,以上常用方法和工具都不能很好地满足肿瘤临床检测的需求。因此,亟需研发一种新的基于二代测序的能快速精准检测InDel突变的方法或装置,以满足肿瘤临床检测的使用需求。
发明内容
本申请的目的是提供一种新的基于二代测序的插入缺失突变检测方法、装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种基于二代测序的插入缺失突变检测方法,包括以下步骤,
候选位点提取步骤,包括利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的插入缺失突变位点,作为候选突变位点集合;
初级过滤步骤,包括过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;
详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤步骤,包括根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
本申请的第二方面公开了另一种基于二代测序的插入缺失突变检测方法,即存在对照样本的插入缺失突变检测方法,包括以下步骤,
候选位点提取步骤,包括利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的插入缺失突变位点,作为候选突变位点集合;其中,对照样本是与所述待测样本来源于同一检测对象的样本;
初级过滤步骤,包括过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;
对照样本信息提取步骤,包括统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;
详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤步骤,包括根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
需要说明的是,本申请的方法,充分利用二代测序的读长高达PE150的优势,在不进行局部组装的情况下,先进行预过滤,快速排除大部分由比对造成的假阳性结果,有效降低了检测的运行时间和计算资源;并且,使用低阈值的宽松模式得到候选InDel突变集合,不同于现有一些工具使用相同阈值针对所有位点的方法,本申请对热点突变和非热点突变位点使用不同的先验概率,在待检测位点上得到不同的VAF检测阈值,有效提升了InDel突变检测的敏感性;在过滤模块中,因为PE150的长度优势,存在大量被read1和read2共同覆盖的区域,利用该信息对碱基进行确认校正,同时不仅考虑了待检测位点的比对情况,而且充分考虑位点周围的比对质量环境,在改进的方案中,加上假阳性位点数据库的运用,有效提升了InDel突变检测的特异性。因此,本申请基于二代测序检测插入缺失突变的方法效率高、敏感性和特异性强,能快速精准的检测InDel突变,可以很好的满足肿瘤临床检测的使用需求。
优选的,候选位点提取步骤中,突变等位基因频率阈值为1%。
优选的,存在对照样本时,突变等位基因频率阈值为1%,检验阈值为0.1。
优选的,详细统计步骤之前,先过滤去除低质量的比对结果,低质量的比对结果包括如下至少一项:长度低于设定阈值的读段,例如低于50bp的reads;碱基质量值低于设定阈值的碱基,例如碱基质量值低于20的碱基;插入片段异常的读段,例如插入片段大于800bp的reads;存在多个插入或缺失的读段;低质量碱基占比超过设定阈值的读段,例如低质量碱基占比高于30%的reads;存在错配碱基数超过设定阈值的读段,例如mismatch高于10的reads;待检测位点周围存在点错配碱基数超过设定阈值的读段,例如待检测位点周围存在点mismatch大于2的reads;待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
优选的,存在对照样本时,对照样本信息提取步骤之前,先过滤去除低质量的比对结果,低质量的比对结果包括如下至少一项:长度低于设定阈值的读段,例如低于50bp的reads;碱基质量值低于设定阈值的碱基,例如碱基质量值低于20的碱基;插入片段异常的读段,例如插入片段大于800bp的reads;存在多个插入或缺失的读段;低质量碱基占比超过设定阈值的读段,例如低质量碱基占比高于30%的reads;存在错配碱基数超过设定阈值的读段,例如mismatch高于10的reads;待检测位点周围存在点错配碱基数超过设定阈值的读段,例如待检测位点周围存在点mismatch大于2的reads;待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
优选的,高级过滤步骤还包括,根据假阳性位点数据库,过滤去除出现在假阳性位点数据库中的假阳性位点。
优选的,高级过滤步骤中,根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,具体包括如下至少一项:
1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变;
2)由PCR扩增造成的假阳性突变;
3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;例如,突变支持数低于3,位点覆盖深度低于20;
4)待测样本中突变等位基因频率低于设定阈值的结果;例如,待测样本中VAF低于3%;
5)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,低质量或高质量碱基包括非参考碱基和插入缺失突变;例如,低质量或高质量碱基占比高于40%的InDel突变位点;
6)在假阳性位点数据库中的突变位点;
7)周围有其他插入缺失富集的突变位点;
8)周围比对质量差,错配碱基数高于设定阈值的突变位点;使用Fisher单边检验,支持突变的错配读段比例显著高于支持参考碱基的错配读段比例;例如,mismatch大于5的InDel突变位点;使用Fisher单边检验,支持突变的mismatch reads比例显著高于支持参考碱基的mismatch reads比例,如Fisher检验P值小于0.05,的InDel突变位点;
9)支持突变的插入缺失富集在读段末端或某个链方向;
10)使用秩和检验,支持突变的比对质量值不显著高于设定阈值的结果;例如,质量值20,秩和检验P值大于0.05,的InDel突变位点;
11)使用Fisher单边检验,支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例;例如,Fisher检验P值小于0.05,的InDel突变位点;
优选的,根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,具体包括如下至少一项:
1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变;
2)由PCR扩增造成的假阳性突变;
3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;例如,突变支持数低于3,位点覆盖深度低于20;
4)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;例如,待测样本中VAF低于3%;对照样本中对应的VAF高于2%的InDel突变位点;
5)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,所述低质量或高质量碱基包括非参考碱基和插入缺失突变;例如,低质量或高质量碱基占比高于40%的InDel突变位点;
6)在假阳性位点数据库中的突变位点;
7)周围有其他插入缺失富集的突变位点;
8)周围比对质量差,错配碱基数高于设定阈值的突变位点;使用Fisher单边检验,支持突变的错配读段比例显著高于支持参考碱基的错配读段比例;例如,mismatch大于5的InDel突变位点;使用Fisher单边检验,支持突变的mismatch reads比例显著高于支持参考碱基的mismatch reads比例,如Fisher检验P值小于0.05,的InDel突变位点;
9)支持突变的插入缺失富集在读段末端或某个链方向;
10)使用秩和检验,支持突变的比对质量值不显著高于设定阈值的结果;例如,质量值20,秩和检验P值大于0.05,的InDel突变位点;
11)使用Fisher单边检验,支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例;例如,Fisher检验P值小于0.05,的InDel突变位点;
12)使用Fisher单边检验,待测样本的等位基因突变频率不显著高于对照样本的等位基因突变频率;例如,待测样本的VAF不显著高于对照样本的VAF,如Fisher检验P值大于0.05,的InDel突变位点。
本申请的第三方面公开了一种基于二代测序的插入缺失突变检测过滤装置,包括:
候选位点提取模块,用于利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的候选突变位点集合;
初级过滤模块,用于统计并去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;
详细统计模块,用于详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤模块,用于根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
本申请的第四方面公开了另一种基于二代测序的插入缺失突变检测过滤装置,包括:
候选位点提取模块,用于利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率超过设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的候选突变位点集合;其中,对照样本是与待测样本来源于同一检测对象的样本;
初级过滤模块,用于统计并去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;
对照样本信息提取模块,用于统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;
详细统计模块,用于详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤模块,用于根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定要求的结果,得到插入缺失突变结果。
本申请的第五方面公开了一种基于二代测序的插入缺失突变检测过滤装置,包括:
存储器,用于存储程序;
处理器,用于执行存储器存储的程序以实现本申请的插入缺失突变检测方法。
本申请的第六方面公开了一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现本申请的插入缺失突变检测方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请的方法,预先不对二代测序的数据进行局部组装,而是先进行预过滤,快速排除大部分由比对造成的假阳性结果,有效降低了检测的运行时间和计算资源,提高了InDel突变检测的效率,缩短了检测时间;并且,本申请的方法敏感性和特异性强,能快速精准的检测InDel突变,能很好地满足肿瘤临床检测的需求。
附图说明
图1是本申请实施例中基于二代测序的插入缺失突变检测装置的总构造和运行框图;
图2是本申请实施例中基于二代测序的插入缺失突变检测方法的流程细节图;
图3是本申请实施例中另一种基于二代测序的插入缺失突变检测方法的流程细节图;
图4是本申请实施例中一种基于二代测序的插入缺失突变检测装置的结构框图;
图5是本申请实施例中另一种基于二代测序的插入缺失突变检测装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
如图1和图2所示,在没有对照样本的情况下,本申请的一种基于二代测序的插入缺失突变检测方法,包括以下步骤:
S201:候选位点提取步骤,包括利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的插入缺失突变位点,作为候选突变位点集合。
在本实施例中没有对照样本,则利用待测样本比对到参考基因组的文件,例如BAM文件,根据突变等位基因频率VAF,或者在一些实施例中使用贝叶斯模型,选取VAF超过设定阈值,例如VAF≥1%,的候选突变位点集合。参考基因组是对照样本和/或待测样本对应的物种的标准基因组,例如人类参考基因组等。
该步骤中的设定阈值采用的是低阈值的宽松模式,这种方式得到的候选突变位点集合,不同于现有工具使用相同阈值针对所有位点的方法,本方法根据待测样本在检测位点上的覆盖深度,同时对热点突变和非热点突变位点在每个待检测位点上得到独立的突变等位基因频率VAF检测阈值,有效提升插入缺失突变检测的敏感性。
S202:初级过滤步骤,过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点。
在没有对照样本的情况下,在S202的初级过滤步骤之后,可以直接进行S203的详细统计步骤。
S203:详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量。
在该步骤中,上述比对信息越全面,越能得到较好的检测结果。
在一些实施例中,S203的详细统计步骤之前,先过滤去除低质量的比对结果,低质量的比对结果包括如下至少一项:长度低于设定阈值的读段,例如低于50bp的reads;碱基质量值低于设定阈值的碱基,例如碱基质量值低于20的碱基;插入片段异常的读段,例如插入片段大于800bp的reads;存在多个插入或缺失的读段;低质量碱基占比超过设定阈值的读段,例如低质量碱基占比高于30%的reads;存在错配碱基数超过设定阈值的读段,例如mismatch高于10的reads;待检测位点周围存在点错配碱基数超过设定阈值的读段,例如待检测位点周围存在点mismatch大于2的reads;待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
S203的详细统计步骤之前,先过滤掉低质量的比对结果,能够快速排除大部分低覆盖的结果,从而有效降低检测的运行时间和计算资源。
S204:高级过滤步骤,包括根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
在一些实施例中,S204的高级过滤步骤,过滤去除未达到设定阈值的插入缺失突变位点,具体包括如下至少一项:1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变;2)由PCR扩增造成的假阳性突变;3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;例如,突变支持数低于3,位点覆盖深度低于20;4)待测样本中突变等位基因频率低于设定阈值的结果;例如,待测样本中VAF低于3%;5)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,低质量或高质量碱基包括非参考碱基和插入缺失突变;例如,低质量或高质量碱基占比高于40%的InDel突变位点;6)在假阳性位点数据库中的突变位点;7)周围有其他插入缺失富集的突变位点;8)周围比对质量差,错配碱基数高于设定阈值的突变位点;使用Fisher单边检验,支持突变的错配读段比例显著高于支持参考碱基的错配读段比例;例如,mismatch大于5的InDel突变位点;使用Fisher单边检验,支持突变的mismatch reads比例显著高于支持参考碱基的mismatch reads比例,如Fisher检验P值小于0.05,的InDel突变位点;9)支持突变的插入缺失富集在读段末端或某个链方向;10)使用秩和检验,支持突变的比对质量值不显著高于设定阈值的结果;例如,质量值20,秩和检验P值大于0.05,的InDel突变位点;11)使用Fisher单边检验,支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例;例如,Fisher检验P值小于0.05,的InDel突变位点。
在一些实施例中,高级过滤步骤还包括:根据假阳性位点数据库,过滤去除出现在假阳性位点数据库中的假阳性位点。其中,假阳性位点数据库可以是任何已知的数据库,现有技术中有很多,也可以是本申请方法的实施者组建的数据库,例如,一些实施例中,假阳性位点数据库是本申请方法根据560个正常样本的测序结果构建的假阳性位点。
如图1和图3所示,在有对照样本的情况下,本发明的另一种基于二代测序的插入缺失突变检测方法,包括以下步骤:
S301:候选位点提取步骤,包括利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的插入缺失突变位点,作为候选突变位点集合。
在本实施例中,有对照样本时,则利用待测样本比对到参考基因组的文件,以及对照样本比对到参考基因组的文件,例如BAM文件,根据突变等位基因频率VAF和Fisher单边检验的结果,选取VAF超过设定阈值,例如VAF≥1%,以及Fisher单边检验的P值小于设定阈值,例如P值<0.1,的候选突变位点集合。其中,对照样本是与待测样本来源于同一检测对象的样本,例如,在一些实施例中,对照样本是无突变的正常样本,待测样本是病变样本或其他非病变性的突变样本;在一些实施例中,对照样本和待测样本分别来源于同一检测对象,例如同一个人体,的不同组织。参考基因组是对照样本和/或待测样本对应的物种的标准基因组,例如人类参考基因组等。
该步骤中的设定阈值采用的是低阈值的宽松模式,这种方式得到的候选突变位点集合,不同于现有工具使用相同阈值针对所有位点的方法,本方法根据待测样本在检测位点上的覆盖深度,同时对热点突变和非热点突变位点在每个待检测位点上得到独立的突变等位基因频率VAF检测阈值,有效提升插入缺失突变检测的敏感性。
S302:初级过滤步骤,过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点。
S303:对照样本信息提取步骤,包括统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率。
在本实施例有对照样本的情况下,需要进行对照样本信息提取,对照样本是与待测样本来源于同一检测对象的样本。这样能够充分利用对照样本的信息,提升本发明方法的校测效果。需要说明的是,虽然在本实施例中,S303的对照样本信息提取步骤位于S304的详细统计步骤之前,但是在其它实施例中,对照样本信息提取步骤并不要求在详细统计步骤之前或之后进行,只要在进行高级过滤步骤之前完成即可。
S304:详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量。
在该步骤中,上述比对信息越全面,越能得到较好的检测结果。
在一些实施例中,S304的详细统计步骤之前,先过滤掉低质量的比对结果,这些低质量的比对结果包括如下至少一项:长度低于设定阈值的读段,例如低于50bp的reads;碱基质量值低于设定阈值的碱基,例如碱基质量值低于20的碱基;插入片段异常的读段,例如插入片段大于800bp的reads;存在多个插入或缺失的读段;低质量碱基占比超过设定阈值的读段,例如低质量碱基占比高于30%的reads;存在错配碱基数超过设定阈值的读段,例如mismatch高于10的reads;待检测位点周围存在点错配碱基数超过设定阈值的读段,例如待检测位点周围存在点mismatch大于2的reads;待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
S304的详细统计步骤之前,先过滤掉低质量的比对结果,能够快速排除大部分低覆盖的结果,从而有效降低检测的运行时间和计算资源。
S305:高级过滤步骤,包括根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
在一些实施例中,S305的高级过滤步骤,过滤去除未达到设定阈值的插入缺失突变位点,具体包括如下至少一项:1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变;2)由PCR扩增造成的假阳性突变;3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;例如,突变支持数低于3,位点覆盖深度低于20;4)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;例如,待测样本中VAF低于3%;对照样本中对应的VAF高于2%的InDel突变位点;5)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,所述低质量或高质量碱基包括非参考碱基和插入缺失突变;例如,低质量或高质量碱基占比高于40%的InDel突变位点;6)在假阳性位点数据库中的突变位点;7)周围有其他插入缺失富集的突变位点;8)周围比对质量差,错配碱基数高于设定阈值的突变位点;使用Fisher单边检验,支持突变的错配读段比例显著高于支持参考碱基的错配读段比例;例如,mismatch大于5的InDel突变位点;使用Fisher单边检验,支持突变的mismatch reads比例显著高于支持参考碱基的mismatch reads比例,如Fisher检验P值小于0.05,的InDel突变位点;9)支持突变的插入缺失富集在读段末端或某个链方向;10)使用秩和检验,支持突变的比对质量值不显著高于设定阈值的结果;例如,质量值20,秩和检验P值大于0.05,的InDel突变位点;11)使用Fisher单边检验,支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例;例如,Fisher检验P值小于0.05,的InDel突变位点;12)使用Fisher单边检验,待测样本的等位基因突变频率不显著高于对照样本的等位基因突变频率;例如,待测样本的VAF不显著高于对照样本的VAF,如Fisher检验P值大于0.05,的InDel突变位点。
在一些实施例中,高级过滤步骤还包括:根据假阳性位点数据库,过滤去除出现在假阳性位点数据库中的假阳性位点。其中,假阳性位点数据库可以是任何已知的数据库,现有技术中有很多,也可以是本申请方法的实施者组建的数据库,例如,一些实施例中,假阳性位点数据库是本申请方法根据560个正常样本的测序结果构建的假阳性位点。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,如图4所示,本申请一实施例中,基于二代测序的插入缺失突变检测过滤装置,包括:候选位点提取模块401、初级过滤模块402、详细统计模块403和高级过滤模块404。
其中,候选位点提取模块401,用于利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的候选突变位点集合;初级过滤模块402,用于统计并去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;详细统计模块403,用于详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;高级过滤模块404,用于根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
本申请的另一实施例中,基于二代测序的插入缺失突变检测过滤装置,包括:候选位点提取模块501、初级过滤模块502、对照样本信息提取模块503、详细统计模块504和高级过滤模块505。
其中,候选位点提取模块501,用于利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率超过设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的候选突变位点集合;其中,对照样本是与待测样本来源于同一检测对象的样本;初级过滤模块502,用于统计并去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;对照样本信息提取模块503,用于统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;详细统计模块504,用于详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;高级过滤模块505,用于根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定要求的结果,得到插入缺失突变结果。
本申请另一实施例还提供一种基于二代测序的插入缺失突变检测过滤装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如下方法:候选位点提取步骤,包括利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的插入缺失突变位点,作为候选突变位点集合;初级过滤步骤,包括过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;高级过滤步骤,包括根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
本申请另一实施例还提供另一种基于二代测序的插入缺失突变检测过滤装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如下方法:候选位点提取步骤,包括利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的插入缺失突变位点,作为候选突变位点集合;其中,对照样本是与所述待测样本来源于同一检测对象的样本;初级过滤步骤,包括过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;对照样本信息提取步骤,包括统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;高级过滤步骤,包括根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
本申请另一种实施例还提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下方法:候选位点提取步骤,包括利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的插入缺失突变位点,作为候选突变位点集合;初级过滤步骤,包括过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;高级过滤步骤,包括根据详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
本发明另一种实施例还提供另一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下方法:候选位点提取步骤,包括利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的插入缺失突变位点,作为候选突变位点集合;其中,对照样本是与所述待测样本来源于同一检测对象的样本;初级过滤步骤,包括过滤去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;对照样本信息提取步骤,包括统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;详细统计步骤,包括详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;高级过滤步骤,包括根据详细统计步骤的统计信息和对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例1
本例使用的样本是Horizon官网购买的标准品,其中待测样本有3例阳性标准品Q1、Q3和Q5,对应阳性位点的理论VAF分别为1%、3%和5%;另外还有一例阴性对照样本Q0。本实施例成对样本检测的具体步骤如下:
1.分别利用Q1、Q3、Q5跟对照样本Q0的BAM文件,提取获得3个待测样本的候选体细胞InDel突变集合。
2.通过初级过滤步骤分别得到3个待测样本未被过滤的InDel结果,再统计对照样本Q0中对应位置的突变支持数和VAF。
3.分别统计3个待测样本中通过初级过滤步骤后得到的位点处及其周围的比对详细信息。
4.通过高级过滤步骤,最终分别得到3个待测样本中未被过滤的InDel检出结果。
InDel突变检测结果显示,本例最终都检出了Q1、Q3和Q5三个待测样本中的阳性InDel突变,每个标准品有1个已知阳性位点。由于标准品没有给出阴性位点的集合,采用间接的方式来评估特异性程度:三个待测样本只是VAF不同,理论上都是来自同一个样品,所以低VAF样本能检测到的位点应该在高VAF中也存在,本例的评估结果如表1所示,表1中数字表示重叠overlap的个数,比例越高可以推测特异性越高。
表1本例检测方法InDel突变检测特异性程度评估
Tru-Q1
Tru-Q1 6 Tru-Q3
Tru-Q3 3(50.00%) 23 Tru-Q5
Tru-Q5 4(66.67%) 19(82.61%) 30
对比例1
分别使用目前常用的两种软件Mutect2和Strelka对实施例1中的三个待测样本进行体细胞InDel突变检测。Mutect2和Strelka的InDel突变检测分别参考其相应的使用说明书,在此不累述。
结果显示,最终Mutect2可以检测出三个待测样本中的阳性InDel突变;而Strelka均没检出。对Mutect2和Strelka检测的特异性评估如表2和表3所示。
表2 Mutect2的InDel突变检测特异性程度评估
Tru-Q1
Tru-Q1 11 Tru-Q3
Tru-Q3 2(18.18%) 20 Tru-Q5
Tru-Q5 3(27.27%) 14(70.00%) 43
表3 Strelka的InDel突变检测特异性程度评估
Tru-Q1
Tru-Q1 2 Tru-Q3
Tru-Q3 0(0.00%) 1 Tru-Q5
Tru-Q5 1(50.00%) 0(0.00%) 5
根据表1至表3的结果可以看出,与对比试验相比,本例试验1检测的敏感性和特异性整体具有明显的优势。
实施例2
本例中,待测样本是室间质评的其中一个InDel阳性样本,包含1个EGFR19号外显子deletion,VAF为45%~55%。本实施例单样本检测的具体步骤如下:
1.利用待测样本的BAM文件,提取得到候选InDel突变集合。
2.通过初级过滤步骤,对候选InDel突变集合进行初过滤。
3.统计待测样本中通过初级过滤步骤后得到的位点处及其周围的比对详细信息。
4.通过高级过滤步骤,最终得到待测样本中未被过滤的InDel检出结果。
检测结果显示,本例最终检出了EGFR p.Glu746_Ala750del,检出VAF为46.27%,与InDel阳性样本的室间质评结果相符;可见,本例的方法和装置能够快速精准的检测InDel突变。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。

Claims (10)

1.一种基于二代测序的插入缺失突变检测方法,其特征在于:包括以下步骤,
候选位点提取步骤,包括利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的插入缺失突变位点,作为候选突变位点集合;
初级过滤步骤,包括过滤去除所述候选突变位点集合中在短串联重复区域的插入缺失突变位点;
详细统计步骤,包括详细统计所述候选突变位点集合中各插入缺失突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤步骤,包括根据所述详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
2.一种基于二代测序的插入缺失突变检测方法,其特征在于:包括以下步骤,
候选位点提取步骤,包括利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的插入缺失突变位点,作为候选突变位点集合;其中,所述对照样本是与所述待测样本来源于同一检测对象的样本;
初级过滤步骤,包括过滤去除所述候选突变位点集合中在短串联重复区域的插入缺失突变位点;
对照样本信息提取步骤,包括统计所述候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;
详细统计步骤,包括详细统计所述候选突变位点集合中各插入缺失突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤步骤,包括根据所述详细统计步骤的统计信息和所述对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
3.根据权利要求1或2所述的插入缺失突变检测方法,其特征在于:所述候选位点提取步骤中,所述突变等位基因频率阈值为1%;或者,
优选的,所述突变等位基因频率阈值为1%,所述检验阈值为0.1。
4.根据权利要求1或2所述的插入缺失突变检测方法,其特征在于:所述详细统计步骤之前,先过滤去除低质量的比对结果,所述低质量的比对结果包括如下至少一项:长度低于设定阈值的读段,碱基质量值低于设定阈值的碱基,插入片段异常的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值的读段,存在错配碱基数超过设定阈值的读段,待检测位点周围存在点错配碱基数超过设定阈值的读段,待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段;
优选的,所述对照样本信息提取步骤之前,先过滤去除低质量的比对结果,所述低质量的比对结果包括如下至少一项:长度低于设定阈值的读段,碱基质量值低于设定阈值的碱基,插入片段异常的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值的读段,存在错配碱基数超过设定阈值的读段,待检测位点周围存在点错配碱基数超过设定阈值的读段,待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
5.根据权利要求1或2所述的插入缺失突变检测方法,其特征在于:所述高级过滤步骤还包括,根据假阳性位点数据库,过滤去除出现在所述假阳性位点数据库中的假阳性位点。
6.根据权利要求1或2所述的插入缺失突变检测方法,其特征在于:所述高级过滤步骤中,根据所述详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,具体包括如下至少一项:
1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变;
2)由PCR扩增造成的假阳性突变;
3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;
4)待测样本中突变等位基因频率低于设定阈值的结果;
5)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,所述低质量或高质量碱基包括非参考碱基和插入缺失突变;
6)在假阳性位点数据库中的突变位点;
7)周围有其他插入缺失富集的突变位点;
8)周围比对质量差,错配碱基数高于设定阈值的突变位点;使用Fisher单边检验,支持突变的错配读段比例显著高于支持参考碱基的错配读段比例;
9)支持突变的插入缺失富集在读段末端或某个链方向;
10)使用秩和检验,支持突变的比对质量值不显著高于设定阈值的结果;
11)使用Fisher单边检验,支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例;
或者,优选的,
根据所述详细统计步骤的统计信息和所述对照样本信息,过滤去除未达到设定阈值的插入缺失突变位点,具体包括如下至少一项:
1)由比对错误造成的跟下游SNP位点互斥的假阳性插入突变;
2)由PCR扩增造成的假阳性突变;
3)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;
4)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;
5)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,所述低质量或高质量碱基包括非参考碱基和插入缺失突变;
6)在假阳性位点数据库中的突变位点;
7)周围有其他插入缺失富集的突变位点;
8)周围比对质量差,错配碱基数高于设定阈值的突变位点;使用Fisher单边检验,支持突变的错配读段比例显著高于支持参考碱基的错配读段比例;
9)支持突变的插入缺失富集在读段末端或某个链方向;
10)使用秩和检验,支持突变的比对质量值不显著高于设定阈值的结果;
11)使用Fisher单边检验,支持突变的软剪切读段比例显著高于支持参考碱基的软剪切读段比例;
12)使用Fisher单边检验,待测样本的等位基因突变频率不显著高于对照样本的等位基因突变频率。
7.一种基于二代测序的插入缺失突变检测过滤装置,其特征在于:所述装置包括:
候选位点提取模块,用于利用待测样本的测序结果比对到参考基因组的文件,提取突变等位基因频率大于或等于设定的突变等位基因频率阈值的候选突变位点集合;
初级过滤模块,用于统计并去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;
详细统计模块,用于详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤模块,用于根据所述详细统计步骤的统计信息,过滤去除未达到设定阈值的插入缺失突变位点,得到插入缺失突变结果。
8.一种基于二代测序的插入缺失突变检测过滤装置,其特征在于:所述装置包括:
候选位点提取模块,用于利用待测样本和对照样本的测序结果比对到参考基因组的文件,提取突变等位基因频率超过设定的突变等位基因频率阈值、且Fisher单边检验的P值小于设定的检验阈值的候选突变位点集合;其中,所述对照样本是与所述待测样本来源于同一检测对象的样本;
初级过滤模块,用于统计并去除候选突变位点集合中在短串联重复区域的插入缺失突变位点;
对照样本信息提取模块,用于统计候选突变位点集合中对照样本的插入缺失突变位点的支持数和突变等位基因频率;
详细统计模块,用于详细统计候选突变位点集合中各插入缺失突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选插入缺失突变位点和参考碱基支持数、比对质量、覆盖深度、周围非参考碱基和其他插入缺失突变情况、周围读段质量;
高级过滤模块,用于根据所述详细统计步骤的统计信息和所述对照样本信息,过滤去除未达到设定要求的结果,得到插入缺失突变结果。
9.一种基于二代测序的插入缺失突变检测过滤装置,其特征在于:所述装置包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的程序以实现如权利要求1至6中任一项所述的插入缺失突变检测方法。
10.一种计算机可读存储介质,其特征在于:包括程序,所述程序能够被处理器执行以实现如权利要求1至6中任一项所述的插入缺失突变检测方法。
CN201810273763.1A 2018-03-29 2018-03-29 基于二代测序的插入缺失突变检测方法、装置和存储介质 Active CN108690871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810273763.1A CN108690871B (zh) 2018-03-29 2018-03-29 基于二代测序的插入缺失突变检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810273763.1A CN108690871B (zh) 2018-03-29 2018-03-29 基于二代测序的插入缺失突变检测方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN108690871A true CN108690871A (zh) 2018-10-23
CN108690871B CN108690871B (zh) 2022-05-20

Family

ID=63844418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810273763.1A Active CN108690871B (zh) 2018-03-29 2018-03-29 基于二代测序的插入缺失突变检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN108690871B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109504751A (zh) * 2018-11-28 2019-03-22 锦州医科大学 一种肿瘤复杂克隆结构的缺失变异识别及克隆计数方法
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109887548A (zh) * 2019-01-18 2019-06-14 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN109920480A (zh) * 2019-03-14 2019-06-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置
CN109949861A (zh) * 2019-03-29 2019-06-28 深圳裕策生物科技有限公司 肿瘤突变负荷检测方法、装置和存储介质
CN110060737A (zh) * 2019-04-30 2019-07-26 上海诚明融鑫科技有限公司 一种基于最大频率虚拟个体的str快速比对方法及系统
CN110299185A (zh) * 2019-05-08 2019-10-01 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
CN111304308A (zh) * 2020-03-02 2020-06-19 北京泛生子基因科技有限公司 一种审核高通量测序基因变异检测结果的方法
CN112397142A (zh) * 2020-10-13 2021-02-23 山东大学 面向多核处理器的基因变异检测方法及系统
CN113628683A (zh) * 2021-08-24 2021-11-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN115896256A (zh) * 2022-11-25 2023-04-04 臻悦生物科技江苏有限公司 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质
CN116564405A (zh) * 2023-04-19 2023-08-08 江苏先声医学诊断有限公司 一种基于平均无序度的基因组测序突变位点过滤方法
WO2023207396A1 (zh) * 2022-04-25 2023-11-02 天津华大基因科技有限公司 用于分析变异检测结果的模型的构建方法
CN117253546A (zh) * 2023-10-11 2023-12-19 北京博奥医学检验所有限公司 一种降低靶向二代测序背景噪音的方法、系统及可存储介质
CN117711487A (zh) * 2024-02-05 2024-03-15 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质
CN117253546B (zh) * 2023-10-11 2024-05-28 北京博奥医学检验所有限公司 一种降低靶向二代测序背景噪音的方法、系统及可存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106282356A (zh) * 2016-08-30 2017-01-04 天津诺禾医学检验所有限公司 一种基于扩增子二代测序点突变检测的方法及装置
CN106282320A (zh) * 2015-05-20 2017-01-04 广州华大基因医学检验所有限公司 检测体细胞突变的方法和装置
CN106355045A (zh) * 2016-08-30 2017-01-25 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序小片段插入缺失检测的方法及装置
CN106566877A (zh) * 2016-10-31 2017-04-19 天津诺禾致源生物信息科技有限公司 检测基因突变的方法和装置
CN107491666A (zh) * 2017-09-01 2017-12-19 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106282320A (zh) * 2015-05-20 2017-01-04 广州华大基因医学检验所有限公司 检测体细胞突变的方法和装置
CN106282356A (zh) * 2016-08-30 2017-01-04 天津诺禾医学检验所有限公司 一种基于扩增子二代测序点突变检测的方法及装置
CN106355045A (zh) * 2016-08-30 2017-01-25 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序小片段插入缺失检测的方法及装置
CN106566877A (zh) * 2016-10-31 2017-04-19 天津诺禾致源生物信息科技有限公司 检测基因突变的方法和装置
CN107491666A (zh) * 2017-09-01 2017-12-19 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109504751B (zh) * 2018-11-28 2022-03-11 锦州医科大学 一种肿瘤复杂克隆结构的缺失变异识别及克隆计数方法
CN109504751A (zh) * 2018-11-28 2019-03-22 锦州医科大学 一种肿瘤复杂克隆结构的缺失变异识别及克隆计数方法
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109887548A (zh) * 2019-01-18 2019-06-14 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN109887548B (zh) * 2019-01-18 2022-11-08 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN109920480A (zh) * 2019-03-14 2019-06-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置
CN109920480B (zh) * 2019-03-14 2020-02-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置
CN109949861A (zh) * 2019-03-29 2019-06-28 深圳裕策生物科技有限公司 肿瘤突变负荷检测方法、装置和存储介质
CN110060737A (zh) * 2019-04-30 2019-07-26 上海诚明融鑫科技有限公司 一种基于最大频率虚拟个体的str快速比对方法及系统
CN110060737B (zh) * 2019-04-30 2023-04-18 上海诚明融鑫科技有限公司 一种基于最大频率虚拟个体的str快速比对方法及系统
CN110299185A (zh) * 2019-05-08 2019-10-01 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
CN111304308A (zh) * 2020-03-02 2020-06-19 北京泛生子基因科技有限公司 一种审核高通量测序基因变异检测结果的方法
CN112397142A (zh) * 2020-10-13 2021-02-23 山东大学 面向多核处理器的基因变异检测方法及系统
CN112397142B (zh) * 2020-10-13 2023-02-03 山东大学 面向多核处理器的基因变异检测方法及系统
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN113628683A (zh) * 2021-08-24 2021-11-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
WO2023207396A1 (zh) * 2022-04-25 2023-11-02 天津华大基因科技有限公司 用于分析变异检测结果的模型的构建方法
CN115896256A (zh) * 2022-11-25 2023-04-04 臻悦生物科技江苏有限公司 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质
CN116564405A (zh) * 2023-04-19 2023-08-08 江苏先声医学诊断有限公司 一种基于平均无序度的基因组测序突变位点过滤方法
CN116564405B (zh) * 2023-04-19 2023-12-15 江苏先声医学诊断有限公司 一种基于平均无序度的基因组测序突变位点过滤方法
CN117253546A (zh) * 2023-10-11 2023-12-19 北京博奥医学检验所有限公司 一种降低靶向二代测序背景噪音的方法、系统及可存储介质
CN117253546B (zh) * 2023-10-11 2024-05-28 北京博奥医学检验所有限公司 一种降低靶向二代测序背景噪音的方法、系统及可存储介质
CN117711487A (zh) * 2024-02-05 2024-03-15 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质
CN117711487B (zh) * 2024-02-05 2024-05-17 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Also Published As

Publication number Publication date
CN108690871B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN108690871A (zh) 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN107944223A (zh) 基于二代测序的点突变检测过滤方法、装置和存储介质
CN110444255A (zh) 基于二代测序的生物信息质控方法、装置和存储介质
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
CN109906276A (zh) 用于检测早期癌症中体细胞突变特征的识别方法
CN107992721B (zh) 用于检测目标区域基因融合的方法、装置和存储介质
Garavito et al. Identification by the DArTseq method of the genetic origin of the Coffea canephora cultivated in Vietnam and Mexico
CN107491666A (zh) 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
JP2021520004A (ja) 残存病変の検出システム及び方法
US20200402613A1 (en) Improvements in variant detection
CN107577921A (zh) 一种肿瘤靶向基因测序数据解析方法
CN106021994B (zh) 一种肿瘤突变位点筛选及互斥基因挖掘的方法
CN109411015A (zh) 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
US20200321076A1 (en) Structural variant analysis
CN111304308A (zh) 一种审核高通量测序基因变异检测结果的方法
CN113851185B (zh) 一种用于非小细胞肺癌患者免疫治疗的预后评估方法
Zhang et al. Mapping multiple quantitative trait loci by Bayesian classification
CN107480470A (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN107480466A (zh) 基因组数据存储方法及电子设备
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN107480472B (zh) 一种基因融合的检测方法和装置
Ye et al. The diagnostic value of miRNA-141 in prostate cancer: A systematic review and PRISMA-compliant meta-analysis
Qi et al. Prediction model for malignant pulmonary nodules based on cfMeDIP‐seq and machine learning
CN112687341B (zh) 一种以断点为中心的染色体结构变异鉴定方法
Churcheward et al. MAGNETO: an automated workflow for genome-resolved metagenomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant