CN107944223A - 基于二代测序的点突变检测过滤方法、装置和存储介质 - Google Patents

基于二代测序的点突变检测过滤方法、装置和存储介质 Download PDF

Info

Publication number
CN107944223A
CN107944223A CN201711107001.6A CN201711107001A CN107944223A CN 107944223 A CN107944223 A CN 107944223A CN 201711107001 A CN201711107001 A CN 201711107001A CN 107944223 A CN107944223 A CN 107944223A
Authority
CN
China
Prior art keywords
mutation
given threshold
base
result
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711107001.6A
Other languages
English (en)
Other versions
CN107944223B (zh
Inventor
陈龙昀
李淼
高志博
王佳茜
陈超
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yulce Biological Technology Co Ltd
Original Assignee
Shenzhen Yulce Biological Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yulce Biological Technology Co Ltd filed Critical Shenzhen Yulce Biological Technology Co Ltd
Priority to CN201711107001.6A priority Critical patent/CN107944223B/zh
Publication of CN107944223A publication Critical patent/CN107944223A/zh
Application granted granted Critical
Publication of CN107944223B publication Critical patent/CN107944223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于二代测序的点突变检测过滤方法、装置和存储介质,所述方法包括:利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;详细统计候选点突变位点及其周围的比对信息,其包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。本发明能够在优化资源需求和检测速度的同时,提升点突变检测的敏感性和特异性。

Description

基于二代测序的点突变检测过滤方法、装置和存储介质
技术领域
本发明涉及突变检测技术领域,具体涉及一种基于二代测序的点突变检测过滤方法、装置和存储介质。
背景技术
目前常见的检测基因点突变的方法有PCR法、Sanger测序法(一代测序)和二代测序。PCR法具有敏感性高的特点,且技术已经成熟,但每对引物只能检测一种突变,无法同时检测太多样品和位点,通量较低。Sanger测序法的成本较低,但所需样品用量大,且对低频突变的检测敏感性低。二代测序具有通量高的特点,测序成本也在逐年下降,但目前检测点突变常用的方法工具检测特异性不高(如Varscan),对低频的检测敏感性也偏低(如Mutect),或者使用了局部组装步骤导致运行时间过长(如Mutect2),不能很好地满足点突变检测的需求。因此,需要有一种基于二代测序能快速精准检测点突变的方法。
发明内容
鉴于上述现有技术中存在的问题,本发明的目的在于提供一种基于二代测序检测点突变的方法、装置和存储介质,能够在优化资源需求和检测速度的同时,提升点突变检测的敏感性和特异性。
根据第一方面,一种实施例中提供一种基于二代测序的点突变检测过滤方法,包括:
候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;
初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量;
高级过滤步骤,其包括根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
根据第一方面,一种实施例中还提供一种基于二代测序的点突变检测过滤方法,包括:
候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,对照样本是与待测样本来源于同一检测对象的样本;
初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
对照样本信息提取步骤,其包括统计对照样本中候选点突变碱基的支持数和突变等位基因频率;
详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;
高级过滤步骤,其包括根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
进一步地,在无对照样本的情况下,上述候选位点提取步骤中,上述突变等位基因频率的设定阈值是1%;上述初级过滤步骤中,上述突变支持数的设定阈值是3;上述突变等位基因频率的设定阈值是1%。
进一步地,在有对照样本的情况下,上述候选位点提取步骤中,上述突变等位基因频率的设定阈值是1%;上述初级过滤步骤中,上述突变支持数的设定阈值是3;上述突变等位基因频率的设定阈值是1%;上述Fisher单边检验的P值的设定阈值是0.1。
进一步地,上述初级过滤步骤之前先过滤掉低质量的比对结果,上述低质量的比对结果包括如下至少一项:
长度低于设定阈值的读段,碱基质量值低于设定阈值的碱基,插入片段异常的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值的读段。
进一步地,详细统计步骤之前先过滤掉低质量的比对结果,上述低质量的比对结果包括如下至少一项:
长度低于设定阈值的读段,碱基质量值低于设定阈值的碱基,插入片段异常的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值的读段,存在不匹配超过设定阈值的读段,待检测位点周围同时存在点不匹配和插入缺失的读段,待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
进一步地,上述高级过滤步骤还包括:
根据假阳性位点数据库,过滤去除出现在上述假阳性位点数据库中的假阳性位点。
进一步地,在无对照样本的情况下,上述高级过滤步骤中根据所统计的信息,过滤去除未达到设定要求的结果,具体包括如下至少一项:
1)由附近上游的缺失(deletion)导致的假阳性点突变;
2)由比对造成的与附近SNP位点互斥的假阳性突变;
3)由PCR扩增造成的假阳性突变;
4)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;优选地,上述突变支持数的设定阈值是3,上述位点覆盖深度的设定阈值是20;
5)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;优选地,上述待测样本中突变等位基因频率的设定阈值是根据泊松分布模型针对每个位点算出不同的阈值,上述对照样本中对应的突变等位基因频率的设定阈值是2%;
6)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,上述低质量或高质量碱基包括非参考碱基和非突变碱基;优选地,上述设定阈值是40%;
7)重复(repeat)区域的突变位点;
8)周围有插入缺失(InDel)富集的突变位点;
9)周围比对不匹配(mismatch)超过设定阈值的突变位点;优选地,上述设定阈值是5;优选地,包括Fisher单边检验中支持突变的不匹配读段的比例显著高于支持参考碱基的不匹配读段的比例,检验P值小于0.05;
10)支持突变的碱基富集在读段末端或一条链方向;
11)使用秩和检验,支持突变的碱基质量值或比对质量值不显著高于设定阈值的结果;优选地,上述支持突变的碱基质量值和比对质量值的设定阈值是20,检验P值大于0.05;
12)使用Fisher单边检验,支持突变的软剪切读段(soft-clip reads)的比例显著高于支持参考碱基的软剪切读段的比例;优选地,检验P值小于0.05。
进一步地,在有对照样本的情况下,上述高级过滤步骤中根据所统计的信息,过滤去除未达到设定要求的结果,具体包括如下至少一项:
1)由附近上游的缺失(deletion)导致的假阳性点突变;
2)由比对造成的与附近SNP位点互斥的假阳性突变;
3)由PCR扩增造成的假阳性突变;
4)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;优选地,上述突变支持数的设定阈值是3,上述位点覆盖深度的设定阈值是20;
5)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;优选地,上述待测样本中突变等位基因频率的设定阈值根据泊松分布模型针对每个位点算出不同的阈值,上述对照样本中对应的突变等位基因频率的设定阈值是2%;
6)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,上述低质量或高质量碱基包括非参考碱基和非突变碱基;优选地,上述设定阈值是40%;
7)重复(repeat)区域的突变位点;
8)周围有插入缺失(InDel)富集的突变位点;
9)周围比对不匹配(mismatch)超过设定阈值的突变位点;优选地,上述设定阈值是5;优选地,包括Fisher单边检验中支持突变的不匹配读段的比例显著高于支持参考碱基的不匹配读段的比例,检验P值小于0.05;
10)支持突变的碱基富集在读段末端或一条链方向;
11)使用秩和检验,支持突变的碱基质量值或比对质量值不显著高于设定阈值的结果;优选地,上述支持突变的碱基质量值和比对质量值的设定阈值是20,检验P值大于0.05;
12)使用Fisher单边检验,支持突变的软剪切读段(soft-clip reads)的比例显著高于支持参考碱基的软剪切读段的比例;优选地,检验P值小于0.05;
13)使用Fisher单边检验,待测样本的突变等位基因频率不显著高于对照样本的突变等位基因频率的结果;优选地,检验P值大于0.05。
根据第二方面,一种实施例中提供一种基于二代测序的点突变检测过滤装置,包括:
候选位点提取模块,用于利用取待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;
初级过滤模块,用于初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
详细统计模块,用于详细统计候选点突变位点及其周围的比对信息,上述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量;
高级过滤模块,用于根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
根据第二方面,一种实施例中还提供一种基于二代测序的点突变检测过滤装置,包括:
候选位点提取模块,用于利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,对照样本是与待测样本来源于同一检测对象的样本;
初级过滤模块,用于初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
对照样本信息提取模块,用于统计对照样本中候选点突变碱基的支持数和突变等位基因频率;
详细统计模块,用于详细统计候选点突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;
高级过滤模块,用于根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
根据第三方面,一种实施例中提供一种基于二代测序的点突变检测过滤装置,包括:
存储器,用于存储程序;
处理器,用于通过执行上述存储器存储的程序以实现如第一方面的方法。
根据第四方面,一种实施例中提供一种计算机可读存储介质,包括程序,上述程序能够被处理器执行以实现如第一方面的方法。
本发明的方法,充分利用目前二代测序读长的优势,不需要进行局部组装,先进行预过滤,快速排除大部分低覆盖的结果,从而有效降低检测的运行时间和计算资源;使用低阈值的宽松模式得到候选点突变位点集合,不同于现有工具使用相同阈值针对所有位点的方法,本发明根据待测样本在检测位点上的覆盖深度,同时对热点突变和非热点突变位点在每个待检测位点上得到独立的突变等位基因频率(VAF)检测阈值,有效提升点突变检测的敏感性;由于二代测序读长的优势,存在大量被一对读段共同覆盖的区域,利用该信息对碱基进行确认校正,同时不仅考虑待检测位点的比对情况,而且充分考虑位点周围的比对质量环境,还可以加上假阳性位点数据库的运用,有效提升点突变检测的特异性。
附图说明
图1为本发明一种实施例中基于二代测序的点突变检测过滤方法的流程框架图;
图2为本发明一种实施例中基于二代测序的点突变检测过滤方法的流程细节图;
图3为本发明另一种实施例中基于二代测序的点突变检测过滤方法的流程细节图;
图4为本发明一种实施例中基于二代测序的点突变检测过滤装置的结构框图;
图5为本发明另一种实施例中基于二代测序的点突变检测过滤装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
如图1和图2所示,在无对照样本的情况下,本发明一个实施例的基于二代测序的点突变检测过滤方法,包括如下步骤:
S201:候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合。
在本实施例中没有对照样本,则利用待测样本比对到参考基因组的文件(例如BAM文件),根据突变等位基因频率(VAF)(以及,在一些实施例中使用贝叶斯模型),选取VAF超过设定阈值(例如VAF≥1%)的候选点突变位点集合。参考基因组是对照样本和/或待测样本对应的物种的标准基因组,例如人类参考基因组等。
该步骤中的设定阈值采用的是低阈值的宽松模式,这种方式得到的候选点突变位点集合,不同于现有工具使用相同阈值针对所有位点的方法,本方法根据待测样本在检测位点上的覆盖深度,同时对热点突变和非热点突变位点在每个待检测位点上得到独立的突变等位基因频率(VAF)检测阈值,有效提升点突变检测的敏感性。
S202:初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果。
该步骤中,所称的“支持数”是指与相应对象(例如突变碱基和/或参考碱基)相对应的测序读段(reads)的数目,即支持突变碱基的测序读段的数目称为“突变支持数”。在一些实施例中,突变支持数的设定阈值是3,也可以是其它数值,例如任何有生物学意义的经验值;突变等位基因频率的设定阈值是1%,也可以是其它数值,例如任何有生物学意义的经验值。因此,在一些实施例中,突变支持数低于3(或其他数值)的结果,和/或突变等位基因频率低于1%(或其他数值)的结果被过滤掉。
在一些实施例中,S202的初级过滤步骤之前先过滤掉低质量的比对结果,这些低质量的比对结果包括如下至少一项:长度低于设定阈值(例如低于50bp)的读段,碱基质量值低于设定阈值(例如低于10)的碱基,插入片段异常(例如大于800bp)的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值(例如高于30%)的读段。
S202的初级过滤步骤和/或之前先过滤掉低质量的比对结果,能够快速排除大部分低覆盖的结果,从而有效降低检测的运行时间和计算资源。
在没有对照样本的情况下,在S202的初级过滤步骤之后,可以直接进行S203的详细统计步骤。
S203:详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,这些比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量。
在该步骤中,上述比对信息越全面,越能得到较好的检测结果。
在一些实施例中,S203的详细统计步骤之前先过滤掉低质量的比对结果,这些低质量的比对结果包括如下至少一项:长度低于设定阈值(例如低于50bp)的读段,碱基质量值低于设定阈值(例如低于20)的碱基,插入片段异常(例如大于800bp)的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值(例如高于30%)的读段,存在不匹配(mismatch)超过设定阈值(例如高于10)的读段,待检测位点周围同时存在点不匹配(mismatch)和插入缺失(InDel)的读段,待检测位点同时被双端的一对读段(read1和read2)覆盖但在该位点上碱基不一致的成对读段。
S204:高级过滤步骤,其包括根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
在一些实施例中,S204的高级过滤步骤,过滤去除未达到设定要求的结果,具体包括如下至少一项:1)由附近上游的缺失(deletion)导致的假阳性点突变;2)由比对造成的与附近SNP位点互斥的假阳性突变;3)由PCR扩增造成的假阳性突变,这一点可以用支持突变的比对结果富集与否来判断;4)突变支持数低于设定阈值(例如3)和/或位点覆盖深度低于设定阈值(例如20)的结果;5)待测样本中突变等位基因频率低于设定阈值的结果,该设定阈值可以根据泊松分布模型针对每个位点采用不同的阈值;如果有对照样本,对照样本中对应的突变等位基因频率高于设定阈值(例如2%)的结果;6)其他低质量或高质量碱基(例如非参考碱基和非突变碱基)占比超过设定阈值(例如高于40%)的待检测位点;7)重复(repeat)区域的突变位点;8)周围有插入缺失(InDel)富集的突变位点;9)周围比对不匹配(mismatch)超过设定阈值(例如大于5)的突变位点;优选地,包括Fisher单边检验中支持突变的不匹配读段(mismatch reads)的比例显著高于支持参考碱基的不匹配读段的比例(例如P值小于0.05);10)支持突变的碱基富集在读段末端或一条链方向;11)使用秩和检验,支持突变的碱基质量值(例如20)或比对质量值不显著高于设定阈值(例如P值大于0.05)的结果;12)使用Fisher单边检验,支持突变的软剪切读段(soft-clip reads)的比例显著高于支持参考碱基的软剪切读段的比例(例如P值小于0.05)。
在一些实施例中,高级过滤步骤还包括:根据假阳性位点数据库,过滤去除出现在假阳性位点数据库中的假阳性位点。这样的假阳性位点数据库可以是任何已知的数据库,现有技术中有很多,也可以是本发明方法的实施者组建的数据库,其中包括突变位点和突变类型。
如图1和图3所示,在有对照样本的情况下,本发明一个实施例的基于二代测序的点突变检测过滤方法,包括如下步骤:
S301:候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合。
在本实施例中有对照样本,则利用待测样本比对到参考基因组的文件(例如BAM文件)以及对照样本比对到参考基因组的文件(例如BAM文件),根据突变等位基因频率(VAF)和Fisher单边检验的结果,选取VAF超过设定阈值(例如VAF≥1%)以及Fisher单边检验的P值小于设定阈值(例如P值<0.1)的候选点突变位点集合,其中,对照样本是与待测样本来源于同一检测对象的样本,例如,在一些实施例中,对照样本是正常样本(无突变),待测样本是病变样本或其他非病变性的突变样本;在一些实施例中,对照样本和待测样本分别来源于同一检测对象(例如同一个人体)的不同组织。参考基因组是对照样本和/或待测样本对应的物种的标准基因组,例如人类参考基因组等。
该步骤中的设定阈值采用的是低阈值的宽松模式,这种方式得到的候选点突变位点集合,不同于现有工具使用相同阈值针对所有位点的方法,本方法根据待测样本在检测位点上的覆盖深度,同时对热点突变和非热点突变位点在每个待检测位点上得到独立的突变等位基因频率(VAF)检测阈值,有效提升点突变检测的敏感性。
S302:初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果。
该步骤中,所称的“支持数”是指与相应对象(例如突变碱基和/或参考碱基)相对应的测序读段(reads)的数目,即支持突变碱基的测序读段的数目称为“突变支持数”。在一些实施例中,突变支持数的设定阈值是3,也可以是其它数值,例如任何有生物学意义的经验值;突变等位基因频率的设定阈值是1%,也可以是其它数值,例如任何有生物学意义的经验值。因此,在一些实施例中,突变支持数低于3(或其他数值)的结果,和/或突变等位基因频率低于1%(或其他数值)的结果被过滤掉。
在一些实施例中,S302的初级过滤步骤之前先过滤掉低质量的比对结果,这些低质量的比对结果包括如下至少一项:长度低于设定阈值(例如低于50bp)的读段,碱基质量值低于设定阈值(例如低于10)的碱基,插入片段异常(例如大于800bp)的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值(例如高于30%)的读段。
S302的初级过滤步骤和/或之前先过滤掉低质量的比对结果,能够快速排除大部分低覆盖的结果,从而有效降低检测的运行时间和计算资源。
S303:对照样本信息提取步骤,其包括统计对照样本中候选点突变碱基的支持数和突变等位基因频率。
在本实施例有对照样本的情况下,需要进行对照样本信息提取,对照样本是与待测样本来源于同一检测对象的样本。这样能够充分利用对照样本的信息,提升本发明方法的校测效果。需要说明的是,虽然在本实施例中,S303的对照样本信息提取步骤位于S304的详细统计步骤之前,但是在其它实施例中,对照样本信息提取步骤并不要求在详细统计步骤之前或之后进行,只要在进行高级过滤步骤之前完成即可。
S304:详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,这些比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量。
在该步骤中,上述比对信息越全面,越能得到较好的检测结果。
在一些实施例中,S304的详细统计步骤之前先过滤掉低质量的比对结果,这些低质量的比对结果包括如下至少一项:长度低于设定阈值(例如低于50bp)的读段,碱基质量值低于设定阈值(例如低于20)的碱基,插入片段异常(例如大于800bp)的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值(例如高于30%)的读段,存在不匹配(mismatch)超过设定阈值(例如高于10)的读段,待检测位点周围同时存在点不匹配(mismatch)和插入缺失(InDel)的读段,待检测位点同时被双端的一对读段(read1和read2)覆盖但在该位点上碱基不一致的成对读段。
S305:高级过滤步骤,其包括根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
在一些实施例中,S305的高级过滤步骤,过滤去除未达到设定要求的结果,具体包括如下至少一项:1)由附近上游的缺失(deletion)导致的假阳性点突变;2)由比对造成的与附近SNP位点互斥的假阳性突变;3)由PCR扩增造成的假阳性突变,这一点可以用支持突变的比对结果富集与否来判断;4)突变支持数低于设定阈值(例如3)和/或位点覆盖深度低于设定阈值(例如20)的结果;5)待测样本中突变等位基因频率低于设定阈值的结果,该设定阈值可以根据泊松分布模型针对每个位点采用不同的阈值;如果有对照样本,对照样本中对应的突变等位基因频率高于设定阈值(例如2%)的结果;6)其他低质量或高质量碱基(例如非参考碱基和非突变碱基)占比超过设定阈值(例如高于40%)的待检测位点;7)重复(repeat)区域的突变位点;8)周围有插入缺失(InDel)富集的突变位点;9)周围比对不匹配(mismatch)超过设定阈值(例如大于5)的突变位点;优选地,包括Fisher单边检验中支持突变的不匹配读段(mismatch reads)的比例显著高于支持参考碱基的不匹配读段的比例(例如P值小于0.05);10)支持突变的碱基富集在读段末端或一条链方向;11)使用秩和检验,支持突变的碱基质量值(例如20)或比对质量值不显著高于设定阈值(例如P值大于0.05)的结果;12)使用Fisher单边检验,支持突变的软剪切读段(soft-clip reads)的比例显著高于支持参考碱基的软剪切读段的比例(例如P值小于0.05);13)在本实施例有对照样本的情况下,还需要使用Fisher单边检验,待测样本的突变等位基因频率不显著高于对照样本的突变等位基因频率的结果(例如P值大于0.05)。
在一些实施例中,高级过滤步骤还包括:根据假阳性位点数据库,过滤去除出现在假阳性位点数据库中的假阳性位点。这样的假阳性位点数据库可以是任何已知的数据库,现有技术中有很多,也可以是本发明方法的实施者组建的数据库,其中包括突变位点和突变类型。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,如图4所示,本发明一种实施例中,基于二代测序的点突变检测过滤装置,包括:候选位点提取模块401,用于利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;初级过滤模块402,用于初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;详细统计模块403,用于详细统计候选点突变位点及其周围的比对信息,上述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量;高级过滤模块404,用于根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
本发明另一种实施例中,基于二代测序的点突变检测过滤装置,包括:候选位点提取模块501,用于利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,对照样本是与待测样本来源于同一检测对象的样本;初级过滤模块502,用于初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;对照样本信息提取模块503,用于统计对照样本中候选点突变碱基的支持数和突变等位基因频率;详细统计模块504,用于详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;高级过滤模块505,用于根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
本发明另一种实施例还提供一种基于二代测序的点突变检测过滤装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如下方法:候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量;高级过滤步骤,其包括根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
本发明另一种实施例还提供一种基于二代测序的点突变检测过滤装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如下方法:候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,对照样本是与待测样本来源于同一检测对象的样本;初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;对照样本信息提取步骤,其包括统计对照样本中候选点突变碱基的支持数和突变等位基因频率;详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;高级过滤步骤,其包括根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
本发明另一种实施例还提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下方法:候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失(InDel)情况、周围读段质量;高级过滤步骤,其包括根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
本发明另一种实施例还提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下方法:候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,对照样本是与待测样本来源于同一检测对象的样本;初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;对照样本信息提取步骤,其包括统计对照样本中候选点突变碱基的支持数和突变等位基因频率;详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,该比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;高级过滤步骤,其包括根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
本实施例中,使用的样本是由Horizon购买的标准品,其中待测样本有3例阳性标准品Q1、Q3和Q5,对应阳性位点的理论VAF分别为1%、3%和5%;另外还有一例阴性对照样本Q0。本实施例成对样本检测的具体步骤如下:
(1)分别利用阳性标准品Q1、Q3、Q5和对照样本Q0的BAM文件,得到3个待测样本的候选体细胞点突变位点集合。
(2)通过初级过滤步骤分别得到3个待测样本未被过滤的点突变结果,再统计对照样本中对应位置的突变支持数和VAF。
(3)分别统计3个待测样本中通过初级过滤步骤后得到的位点处及其周围的比对详细信息。
(4)通过高级过滤步骤,最终分别得到3个待测样本中未被过滤的点突变检出结果。
本实施例最终检出结果在Q1、Q3和Q5三个待测样本中的敏感性(每个标准品有9个已知阳性位点)分别为80%、100%和100%。由于标准品没有给出阴性位点的集合,采用间接的方式来评估特异性程度:三个待测样本只是VAF不同,理论上都是来自同一个样品,所以低VAF样本能检测到的位点应该在高VAF中也存在,本实施例的评估结果如表1所示,图中数字表示重叠(overlap)的个数,比例越高可以推测特异性越高。
表1
Tru_Q1
Tru_Q1 32 Tru_Q3
Tru_Q3 26(81.25%) 117 Tru_Q5
Tru_Q5 28(87.50%) 100(85.47%) 157
对比例1
分别使用目前常用3种软件Mutect、Mutect2和Strelka对实施例1中的样本进行体细胞点突变检测,得到的检测敏感性如表2,特异性程度评估如表3所示。
表2
表3
从以上的结果中可以看出,与对比例1相比,本发明实施例1检测的敏感性和特异性具有明显的优势。
实施例2
本实施例中,待测样本是质评过的点突变阳性样本,包含3个阳性点突变位点,VAF为1%~20%。本实施例单样本检测的具体步骤如下:
(1)利用待测样本的BAM文件,得到候选的点突变位点集合。
(2)通过初级过滤步骤得到待测样本未被过滤的点突变结果。
(3)统计待测样本中通过初级过滤步骤后得到的位点处及其周围的比对详细信息。
(4)通过高级过滤模块,最终得到待测样本中未被过滤的点突变检出结果。
本实施例最终检出结果对3个阳性位点的敏感性为100%。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种基于二代测序的点突变检测过滤方法,其特征在于,所述方法包括:
候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;
初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;
高级过滤步骤,其包括根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
2.一种基于二代测序的点突变检测过滤方法,其特征在于,所述方法包括:
候选位点提取步骤,其包括利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,所述对照样本是与所述待测样本来源于同一检测对象的样本;
初级过滤步骤,其包括初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
对照样本信息提取步骤,其包括统计对照样本中候选点突变碱基的支持数和突变等位基因频率;
详细统计步骤,其包括详细统计候选点突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;
高级过滤步骤,其包括根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
3.根据权利要求1或2所述的方法,其特征在于,所述候选位点提取步骤中,所述突变等位基因频率的设定阈值是1%;所述初级过滤步骤中,所述突变支持数的设定阈值是3;所述突变等位基因频率的设定阈值是1%;或
优选地,所述突变等位基因频率的设定阈值是1%;所述初级过滤步骤中,所述突变支持数的设定阈值是3;所述突变等位基因频率的设定阈值是1%;所述Fisher单边检验的P值的设定阈值是0.1。
4.根据权利要求1或2所述的方法,其特征在于,所述初级过滤步骤之前先过滤掉低质量的比对结果,所述低质量的比对结果包括如下至少一项:
长度低于设定阈值的读段,碱基质量值低于设定阈值的碱基,插入片段异常的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值的读段;
优选地,详细统计步骤之前先过滤掉低质量的比对结果,所述低质量的比对结果包括如下至少一项:
长度低于设定阈值的读段,碱基质量值低于设定阈值的碱基,插入片段异常的读段,存在多个插入或缺失的读段,低质量碱基占比超过设定阈值的读段,存在不匹配超过设定阈值的读段,待检测位点周围同时存在点不匹配和插入缺失的读段,待检测位点同时被双端的一对读段覆盖但在该位点上碱基不一致的成对读段。
5.根据权利要求1或2所述的方法,其特征在于,所述高级过滤步骤还包括:
根据假阳性位点数据库,过滤去除出现在所述假阳性位点数据库中的假阳性位点。
6.根据权利要求1或2所述的方法,其特征在于,所述高级过滤步骤中根据所统计的信息,过滤去除未达到设定要求的结果,具体包括如下至少一项:
1)由附近上游的缺失导致的假阳性点突变;
2)由比对造成的与附近SNP位点互斥的假阳性突变;
3)由PCR扩增造成的假阳性突变;
4)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;
5)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;
6)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,所述低质量或高质量碱基包括非参考碱基和非突变碱基;
7)重复区域的突变位点;
8)周围有插入缺失富集的突变位点;
9)周围比对不匹配超过设定阈值的突变位点;
10)支持突变的碱基富集在读段末端或一条链方向;
11)使用秩和检验,支持突变的碱基质量值或比对质量值不显著高于设定阈值的结果;
12)使用Fisher单边检验,支持突变的软剪切读段的比例显著高于支持参考碱基的软剪切读段的比例;或
优选地,所述根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,具体包括如下至少一项:
1)由附近上游的缺失导致的假阳性点突变;
2)由比对造成的与附近SNP位点互斥的假阳性突变;
3)由PCR扩增造成的假阳性突变;
4)突变支持数低于设定阈值和/或位点覆盖深度低于设定阈值的结果;
5)待测样本中突变等位基因频率低于设定阈值的结果;以及任选地,对照样本中对应的突变等位基因频率高于设定阈值的结果;
6)其他低质量或高质量碱基占比超过设定阈值的待检测位点,其中,所述低质量或高质量碱基包括非参考碱基和非突变碱基;
7)重复区域的突变位点;
8)周围有插入缺失富集的突变位点;
9)周围比对不匹配超过设定阈值的突变位点;
10)支持突变的碱基富集在读段末端或一条链方向;
11)使用秩和检验,支持突变的碱基质量值或比对质量值不显著高于设定阈值的结果;
12)使用Fisher单边检验,支持突变的软剪切读段的比例显著高于支持参考碱基的软剪切读段的比例;
13)使用Fisher单边检验,待测样本的突变等位基因频率不显著高于对照样本的突变等位基因频率的结果。
7.一种基于二代测序的点突变检测过滤装置,其特征在于,所述装置包括:
候选位点提取模块,用于利用待测样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值的候选点突变位点集合;
初级过滤模块,用于初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
详细统计模块,用于详细统计候选点突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;
高级过滤模块,用于根据所统计的信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
8.一种基于二代测序的点突变检测过滤装置,其特征在于,所述装置包括:
候选位点提取模块,用于利用待测样本比对到参考基因组的文件以及对照样本比对到参考基因组的文件,提取突变等位基因频率超过设定阈值且Fisher单边检验的P值小于设定阈值的候选点突变位点集合,其中,所述对照样本是与所述待测样本来源于同一检测对象的样本;
初级过滤模块,用于初步计算候选点突变位点的突变碱基和参考碱基的支持数,过滤掉突变支持数低于设定阈值和/或突变等位基因频率低于设定阈值的结果;
对照样本信息提取模块,用于统计对照样本中候选点突变碱基的支持数和突变等位基因频率;
详细统计模块,用于详细统计候选点突变位点及其周围的比对信息,所述比对信息包括如下至少一项:候选点突变位点的突变碱基和参考碱基的支持数、碱基和比对质量、覆盖深度、周围非参考碱基和插入缺失情况、周围读段质量;
高级过滤模块,用于根据所统计的比对信息和所提取的对照样本信息,过滤去除未达到设定要求的结果,得到点突变检出结果。
9.一种基于二代测序的点突变检测过滤装置,其特征在于,所述装置包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1至6中任一项所述的方法。
CN201711107001.6A 2017-11-10 2017-11-10 基于二代测序的点突变检测过滤方法、装置和存储介质 Active CN107944223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711107001.6A CN107944223B (zh) 2017-11-10 2017-11-10 基于二代测序的点突变检测过滤方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711107001.6A CN107944223B (zh) 2017-11-10 2017-11-10 基于二代测序的点突变检测过滤方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN107944223A true CN107944223A (zh) 2018-04-20
CN107944223B CN107944223B (zh) 2019-12-31

Family

ID=61934839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711107001.6A Active CN107944223B (zh) 2017-11-10 2017-11-10 基于二代测序的点突变检测过滤方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN107944223B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109566398A (zh) * 2018-12-21 2019-04-05 中国农业科学院农业基因组研究所 一种马铃薯杂交育种亲本的选择方法
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109920480A (zh) * 2019-03-14 2019-06-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置
CN110016498A (zh) * 2019-04-24 2019-07-16 北京诺赛基因组研究中心有限公司 Sanger法测序中确定单核苷酸多态性的方法
CN110299185A (zh) * 2019-05-08 2019-10-01 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
CN110970086A (zh) * 2018-09-30 2020-04-07 深圳华大生命科学研究院 从古dna数据中过滤现代dna污染的方法及其应用
CN112289376A (zh) * 2020-10-26 2021-01-29 深圳基因家科技有限公司 一种检测体细胞突变的方法及装置
CN113628683A (zh) * 2021-08-24 2021-11-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN115862733A (zh) * 2023-02-27 2023-03-28 广州嘉检医学检测有限公司 基于中深度全基因组二代测序检测杂合性缺失的方法
CN117238376A (zh) * 2023-09-27 2023-12-15 上海序祯达生物科技有限公司 基于二代测序技术的病毒载体序列分析系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090233809A1 (en) * 2008-03-04 2009-09-17 Affymetrix, Inc. Resequencing methods for identification of sequence variants
CN105378110A (zh) * 2013-04-17 2016-03-02 生命技术公司 与癌症相关的基因融合体和基因变异体
CN105518151A (zh) * 2013-03-15 2016-04-20 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
CN106086162A (zh) * 2015-11-09 2016-11-09 厦门艾德生物医药科技股份有限公司 一种用于检测肿瘤突变的双标签接头序列及检测方法
CN106367485A (zh) * 2016-08-29 2017-02-01 厦门艾德生物医药科技股份有限公司 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
CN106414768A (zh) * 2014-03-27 2017-02-15 生命技术公司 与癌症相关的基因融合体和基因变异体
CN107292129A (zh) * 2017-05-26 2017-10-24 中国科学院上海药物研究所 易感基因型检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090233809A1 (en) * 2008-03-04 2009-09-17 Affymetrix, Inc. Resequencing methods for identification of sequence variants
CN105518151A (zh) * 2013-03-15 2016-04-20 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
CN105378110A (zh) * 2013-04-17 2016-03-02 生命技术公司 与癌症相关的基因融合体和基因变异体
CN106414768A (zh) * 2014-03-27 2017-02-15 生命技术公司 与癌症相关的基因融合体和基因变异体
CN106086162A (zh) * 2015-11-09 2016-11-09 厦门艾德生物医药科技股份有限公司 一种用于检测肿瘤突变的双标签接头序列及检测方法
CN106367485A (zh) * 2016-08-29 2017-02-01 厦门艾德生物医药科技股份有限公司 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
CN107292129A (zh) * 2017-05-26 2017-10-24 中国科学院上海药物研究所 易感基因型检测方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970086B (zh) * 2018-09-30 2023-08-15 深圳华大三生园科技有限公司 从古dna数据中过滤现代dna污染的方法及其应用
CN110970086A (zh) * 2018-09-30 2020-04-07 深圳华大生命科学研究院 从古dna数据中过滤现代dna污染的方法及其应用
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109658983B (zh) * 2018-12-20 2019-11-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN109566398A (zh) * 2018-12-21 2019-04-05 中国农业科学院农业基因组研究所 一种马铃薯杂交育种亲本的选择方法
CN109920480A (zh) * 2019-03-14 2019-06-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置
CN110016498A (zh) * 2019-04-24 2019-07-16 北京诺赛基因组研究中心有限公司 Sanger法测序中确定单核苷酸多态性的方法
CN110016498B (zh) * 2019-04-24 2020-05-08 北京诺赛基因组研究中心有限公司 Sanger法测序中确定单核苷酸多态性的方法
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
CN110299185A (zh) * 2019-05-08 2019-10-01 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置
CN112289376A (zh) * 2020-10-26 2021-01-29 深圳基因家科技有限公司 一种检测体细胞突变的方法及装置
CN113628683A (zh) * 2021-08-24 2021-11-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN115862733A (zh) * 2023-02-27 2023-03-28 广州嘉检医学检测有限公司 基于中深度全基因组二代测序检测杂合性缺失的方法
CN117238376A (zh) * 2023-09-27 2023-12-15 上海序祯达生物科技有限公司 基于二代测序技术的病毒载体序列分析系统和方法
CN117238376B (zh) * 2023-09-27 2024-04-30 上海序祯达生物科技有限公司 基于二代测序技术的病毒载体序列分析系统和方法

Also Published As

Publication number Publication date
CN107944223B (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN107944223A (zh) 基于二代测序的点突变检测过滤方法、装置和存储介质
CN108690871A (zh) 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN107992721B (zh) 用于检测目标区域基因融合的方法、装置和存储介质
CN107491666B (zh) 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
CN109658983B (zh) 一种识别和消除核酸变异检测中假阳性的方法和装置
WO2023115662A1 (zh) 一种变体核酸的检测方法
Zou et al. An efficient resampling method for assessing genome-wide statistical significance in mapping quantitative trait loci
US20200194097A1 (en) METHOD FOR IDENTIFYING PLANT IncRNA AND GENE INTERACTION
Zhou et al. A new pipeline for removing paralogs in target enrichment data
CN111718982A (zh) 一种肿瘤组织单样本体细胞突变检测方法及装置
CN113658638B (zh) 一种基于ngs平台的同源重组缺陷的检测方法和质控体系
Kozak et al. Genome-wide admixture is common across the Heliconius radiation
JP6936961B2 (ja) 情報提供装置、端末、本人確認システム、情報提供方法及びプログラム
CN105404793A (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
Van Dyk et al. RUBIC identifies driver genes by detecting recurrent DNA copy number breaks
CN110093417A (zh) 一种检测肿瘤单细胞体细胞突变的方法
Barton et al. The impact of natural selection on short insertion and deletion variation in the great tit genome
Page et al. Methods for mapping and categorization of DNA sequence reads from allopolyploid organisms
CN111508559B (zh) 检测目标区域cnv的方法及装置
CN105420374B (zh) 一种诱导全能干细胞应用前期突变检测方法
CN111584002B (zh) 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质
CN105525027A (zh) Snp标记及其应用、检测方法
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN109830265B (zh) 检测msi的试剂盒、参考数据库、其构建方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant