CN110867207B - 验证ngs变异检测方法的评估方法及评估装置 - Google Patents
验证ngs变异检测方法的评估方法及评估装置 Download PDFInfo
- Publication number
- CN110867207B CN110867207B CN201911176908.7A CN201911176908A CN110867207B CN 110867207 B CN110867207 B CN 110867207B CN 201911176908 A CN201911176908 A CN 201911176908A CN 110867207 B CN110867207 B CN 110867207B
- Authority
- CN
- China
- Prior art keywords
- variation
- verification
- sample
- site
- mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种NGS变异检测方法的评估方法及评估装置。该评估方法包括:根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;根据变异频率和/或变异拷贝数的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本,形成验证位点信息文件;获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集;利用待测NGS变异检测方法对验证数据集进行变异检测,得到检测结果;利用验证位点信息文件对检测结果进行评估,得到评估结果。该方法能有效地、全方位地、快速地对NGS变异检测方法在灵敏度、准确性及特异性方面进行准确评估。
Description
技术领域
本发明涉及基因测序数据分析领域,具体而言,涉及一种NGS变异检测方法的评估方法及评估装置。
背景技术
二代测序技术(Next Generation Sequencing,NGS)因可以单一测定中准确地检测所有治疗相关癌种基因组改变,成功地应用于研究癌种基因组的研究,成为一种有吸引力的临床检测技术。
然而,在临床环境中采用这种技术作为支持癌症患者治疗选择的常规测试,面临着多重挑战。首先,样本类型的复杂性,如FFPE样本,cfDNA样本等;其次,标本的采集方法,如活检或穿刺;第三,标本中的肿瘤含量。这些挑战均会影响到NGS变异检测方法的检测结果。
因此,如何评估不同NGS变异检测方法是否准确,现有技术中尚无有效的解决方案。
发明内容
本发明的主要目的在于提供一种NGS变异检测方法的评估方法及评估装置,以解决现有技术中无法有效评估检测方法是否准确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种NGS变异检测方法的评估方法,该评估方法包括:根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;根据变异频率和/或变异拷贝数的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本,形成验证位点信息文件;获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集;利用待测NGS变异检测方法对验证数据集进行变异检测,得到检测结果;利用验证位点信息文件对检测结果进行评估,得到评估结果。
进一步地,根据变异频率的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本包括:根据各变异位点的变异频率,将多个已知样本划分到多个不同的变异频率范围;筛选各变异频率范围内满足如下验证条件的样本,形成验证位点信息文件:a.各变异频率范围至少包含1个目标位点;b.各变异频率范围内的变异位点涵盖所有样本类型及所有采样方式;c.每个变异频率范围选取5-10个变异位点。
进一步地,多个变异频率范围包括0.1%-0.5%、0.5%-1%、1%-5%、5%-20%、20-50%及50-100%。
进一步地,样本类型包括:FFPE样本,cfDNA样本、新鲜组织样本及血细胞样本中的任意一种;采样方式包括活检或穿刺。
进一步地,获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集包括:根据验证位点信息文件中对应的各变异位点所在的染色体位置,提取各变异位点在对应区域内的bam文件数据;选取健康人的白细胞数据作为基础bam文件数据,过滤基础bam文件数据中与多个目标位点对应的区域的bam文件数据,得到过滤bam文件数据;将过滤bam文件数据与各变异位点在对应区域内的bam文件数据进行整合,得到验证数据集。
为了实现上述目的,根据本发明的一个方面,提供了一种NGS变异检测装置的评估装置,该评估装置包括:样本获取模块、筛选模块、验证数据获取模块、变异检测模块和评估模块,样本获取模块,用于根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;筛选模块,用于根据变异频率和/或变异拷贝数的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本,形成验证位点信息文件;验证数据获取模块,用于获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集;变异检测模块,用于利用待测NGS变异检测装置对验证数据集进行变异检测,得到检测结果;评估模块,用于利用验证位点信息文件对检测结果进行评估,得到评估结果。
进一步地,筛选模块包括:变异频率范围划分单元,用于根据各变异位点的变异频率,将多个已知样本划分到多个不同的变异频率范围;验证位点筛选单元,用于筛选各变异频率范围内满足如下验证条件的样本,形成验证位点信息文件:a.各变异频率范围至少包含1个目标位点;b.各变异频率范围内的变异位点涵盖所有样本类型及所有采样方式;c.每个变异频率范围选取5-10个变异位点。
进一步地,多个变异频率范围包括0.1%-0.5%、0.5%-1%、1%-5%、5%-20%、20-50%及50-100%。
进一步地,样本类型包括:FFPE样本,cfDNA样本、新鲜组织样本及血细胞样本中的任意一种;采样方式包括活检或穿刺。
进一步地,验证数据获取模块包括:提取模块,用于根据验证位点信息文件中对应的各变异位点所在的染色体位置,提取各变异位点在对应区域内的bam文件数据;过滤模块,用于选取健康人的白细胞数据作为基础bam文件数据,过滤基础bam文件数据中与多个目标位点对应的区域的bam文件数据,得到过滤bam文件数据;整合模块,用于将过滤bam文件数据与各变异位点在对应区域内的bam文件数据进行整合,得到验证数据集。
根据本发明的另一方面,提供了一种存储介质,存储介质上存储有计算机可执行的程序,程序被设置为运行时,执行上述任一种NGS变异检测方法的评估方法。
根据本发明的另一方面,提供了一种电子装置,包括存储其和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一种NGS变异检测方法的评估方法。
应用本发明的技术方案,通过充分考虑了样本类型、采集方式和肿瘤含量对检测算法的影响,将各变异结果整合成一个验证数据集,从而利用该验证数据集及其对应的已知验证位点变异信息,对待测NGS变异检测方法进行评估,能有效地、全方位地、快速地对NGS变异检测方法在灵敏度、准确性及特异性方面进行评估。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的一种优选的实施例中的NGS变异检测方法的评估方法的流程图;以及
图2示出了根据本发明的一种优选的实施例中的NGS变异检测方法的评估装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
参考序列(Refseq):物种参考标准基因组序列。
胚系突变(germine mutation):生殖细胞突变,源于精子或卵子这些生殖细胞的突变。
Reads:基因组或转录组序列片段。
同义突变:不改变肽链产物的氨基酸序列的替换突变。
非同义突变:可导致多肽产物的氨基酸序列改变或功能性RNA碱基序列改变的基因突变。
移码突变:DNA片段中某一位点插入或丢失一个或几个(非3或3的倍数)碱基对时,造成插入或丢失位点以后的一系列编码顺序发生错位的一种突变。
非移码突变:DNA片段中某一位点插入或丢失一个或几个(3或3的倍数)碱基对时,但不造成插入或丢失位点以后的一系列编码顺序发生错位的一种突变。
PE测序:双端测序,一种测序方法。
read1/2:PE测序下机数据中,read1是第一轮测试得到的碱基序列,read2是第二轮测试得到的碱基序列。
bwa:一种比对方法软件,用于查找reads所在Refseq中的位置,最终可得到bam格式文件。
adapter序列:测序中DNA片段两侧的接头序列。
samtools:一种bam文件处理工具。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如背景技术所提到的,由于现有技术无法准确全面地评估NGS变异检测方法。发明人分析认为样本类型复杂、采样方式多以及肿瘤含量变化等原因,是导致目前的评估方法或面临数据集多无法有效处理,或无法全部覆盖的缺陷,为此,本申请通过充分考虑上述各种因素的影响,提出了本申请的改进方案。
实施例1
本申请提供了一种NGS变异检测方法的评估方法的实施例。
图1是根据本发明实施例的一种NGS变异检测方法的评估方法的流程图,如图1所示,该方法包括:
步骤S101,根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;
步骤S102,根据变异频率和/或变异拷贝数的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本,形成验证位点信息文件;
步骤S103,获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集;
步骤S104,利用待测NGS变异检测方法对验证数据集进行变异检测,得到检测结果;
步骤S105,利用验证位点信息文件对检测结果进行评估,得到评估结果。
上述评估方法,通过充分考虑了样本类型、采集方式和肿瘤含量对检测算法的影响,将各变异结果整合成一个验证数据集,从而利用该验证数据集及其对应的已知验证位点变异信息,对待测NGS变异检测方法进行评估,能有效地、全方位地、快速地对NGS变异检测方法在灵敏度、准确性及特异性方面进行评估。
根据研究目的的不同,所选择的感兴趣的目标位点也有所不同,比如,通过NGS检测某些样本对临床用药是否敏感,则可以选择对临床用药有意义的变异位点,比如EGFR.L858,EGFR.T790等突变位点。如果是对拷贝数变异相关位点或融合基因位点感兴趣,则可以选择常见的拷贝数变异相关位点或融合基因相关位点。此处感兴趣的目标位点可以是上述所示的任意一类或多类目标位点。
上述已知样本的变异相关信息,即根据感兴趣的目标位点选择包含这些目标位点的样本的NGS检测分析过的相关数据。具体地,包括样本的编号、采样方式、样本是FFPE样本还是新鲜组织样本等样本类型、变异检测的结果包括变异所在的染色体编号、在该染色体上的起始点位置、终止点位置、变异频率等信息。
根据变异频率选择满足特定要求的样本的变异位点形成验证位点,可用于对SNP、INDEL、融合突变等变异位点的变异结果进行评估,而根据变异拷贝数进行选择,则可以用于对CNV等变异位点的检测结果进行评估。本申请的上述方法全面覆盖了对不同样本类型、不同采样方式、不同变异频率、不同变异拷贝数变异已知样本,因此对NGS的检测方法能够更全面、更准确地进行评估。
在一种可选的实施例中,根据变异频率的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本包括:根据各变异位点的变异频率,将多个已知样本划分到多个不同的变异频率范围;筛选各变异频率范围内满足如下验证条件的样本,形成验证位点信息文件:a.各变异频率范围至少包含1个目标位点;b.各变异频率范围内的变异位点涵盖所有样本类型及所有采样方式;c.每个变异频率范围选取5-10个变异位点。
选择满足上述条件的样本的变异位点形成验证位点信息文件,其原则是:待验证检测方法需具备能够检测LOD(检测下限)以上的不同梯度变异,且能够准确识别不同染色体区域上的变异的能力,这一检测能力理论上应考虑避免样本类型和采集方式带来的影响,因此在形成验证位点信息文件是应按上述标准涵盖多种因素层面对待检测方法性能检测的验证。
在一种可选的实施例中,多个变异频率范围包括0.1%-0.5%、0.5%-1%、1%-5%、5%-20%、20-50%及50-100%。
在一种可选的实施例中,样本类型包括:FFPE样本,cfDNA样本、新鲜组织样本及血细胞样本中的任意一种;采样方式包括活检或穿刺。
在一种可选的实施例中,获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集包括:根据验证位点信息文件中对应的各变异位点所在的染色体位置,提取各变异位点在对应区域内的bam文件数据;选取健康人的白细胞数据作为基础bam文件数据,过滤基础bam文件数据中与多个目标位点对应的区域的bam文件数据,得到过滤bam文件数据;将过滤bam文件数据与各变异位点在对应区域内的bam文件数据进行整合,得到验证数据集。
上述优选的实施例中,通过把健康人白细胞的测序数据作为基础bam文件数据,并从该健康人的bam文件数据中去除与多个样本的各变异位点对应的区域的bam文件去除,并相应替换为各变异位点对应区域的bam文件,进而整合为一个验证数据集。这样形成的验证数据集,相比将所有样本的测序数据全部进行检测,一方面较少了健康人白细胞的bam文件数据中可能存在的建库或测序错误引入的位点对真正的变异位点统计的影响,另一方面也减少了这部分数据的处理量,提高了处理效率,进而使得评估方法更快速、高效和准确。
实施例2
1样本选取:
a)选取已分析过的FFPE,新鲜组织,cfDNA,白细胞样本;
b)选取具有临床用药意义的突变位点,如EGFR.L858,EGFR.T790等突变位点,在芯片范围内选取各外显子区域多态性位点,包括同义突变,非同义突变移码突变,非移码突变;
c)根据将选取好的突变位点,获取各样本的突变检测结果,各突变的染色体编号、起始点位置、终止点位置、突变频率及其对应的样本编号、样本类型和采样方式,形成位点突变信息文件。
2建立验证数据集:
2.1突变位点选择:根据突变频率范围(0.1%-0.5%,0.5%-1%,1%-5%,5%-20%,20-50%,50-100%),将各突变位点划分至不同突变频率范围,位点选取需满足以下条件:
1)各突变频率范围突变位点至少有1个临床意义用药位点;
2)各突变频率范围突变位点需包含所有样本类型,所有采样方式;
3)每个突变频率范围可选取5-10个位点。
将满足以上位点的条件的突变位点从位点突变信息文件中提取相对应信息,形成验证位点信息文件。
2.2测序数据提取:
根据选取的突变位点信息,根据染色体编号、染色体起始点位置及染色体终止点位置,提取各位点在对应区域内的bam文件数据。
2.3数据去除:
选取健康人的白细胞数据作为基础bam文件数据,根据突变位点选取模块得到的各位点染色体编号,起始点信息,终止点信息,合并至一个统一区域文件中;去除基础bam文件数据中该区域文件中各区域的数据,得到过滤bam文件数据。
2.4数据合并:
将过滤bam文件数据与各位点对应的bam文件数据进行合并,得到验证数据bam文件数据,即验证数据集。
3检测评估:
利用NGS变异检测算法对获取的验证数据bam文件进行突变位点检测,根据验证位点信息文件中的结果,计算该NGS变异检测算法的准确性,特异性和灵敏度。
对待测NGS变异检测方法的准确性,特异性和灵敏度的评估,具体的计算方式可以通过统计整体检测准确的位点数与总检测位点数的百分比来进行评估,如有需要,也可以进一步进行详细分析,比如可以按如下公式进行评估。
灵敏度计算公式:真阳性变异位点数(true positive variants)/总变异位点数(all variants in validation file)。其中,真阳性变异位点数(true positivevariants)是在验证位点信息文件的位点中经待测方法所检测到的位点个数;总变异位点数(true positive variants)是验证位点信息文件中的所有位点个数。
特异性计算公式:真阴性变异位点数(true negative variants)/阴性区域长度(negative region length)。其中,将bam文件覆盖范围的长度作为整个评价标准,覆盖总长度代表文件中包含的全部位点个数,negative region length是去掉验证位点信息文件中所有位点个数后剩余的位点个数,true negative variants是在阴性位点区域中待测软件检测为阴性的位点个数。
准确率计算公式:真阳性变异位点数(true positive variants)/检测到的总位点数(all variants detected by the method to be test)。其中,真阳性变异位点数(true positive variants)是在验证位点信息文件的位点中待测软件检测到的位点个数;all variants detected by the method to be test是待测方法检测到的全部位点个数。
除此之外,该方法会输出验证位点信息文件中所有位点的检测信息以及待验证的方法所额外检出的位点信息以供带验证方法的开发人员进一步进行方法优化。
实施例3
如下为采用本申请的评估方法对申请人内部研发的检测方法的性能进行评估时的数据:其中,灵敏度:65.38%;特异性:99.9%;准确率:85.71%。
详细结果文件见下表1:
从表1可见,若不考虑样本类型等因素,例如仅使用新鲜组织切肿瘤含量>=20%的样本进行检测,那么NGS检测方法的灵敏度为84.61%,和上述本申请的评估方法计算的灵敏度存在严重偏差,这一灵敏度实际上只反映了某种样本质量较好的情形下的灵敏度。再如,若仅使用FFPE的样本来评估,那么NGS检测方法的灵敏度将被低估。
从以上实施例可以看出,与现有方法相比,本申请从临床角度出发,充分评估了NGS检测方法在不同样本类型、不同样本采集方式,不同样本肿瘤含量方面的检测能力;其次,减少了验证数据集的个数,增加了验证位点个数,大大提升了评估验证的速度和准确性,同时降低了评估NGS变异检测方法的成本。
实施例4
本申请还提供了一种验证NGS变异检测的装置的实施例。
图2是根据本发明实施例的一种验证NGS变异检测的装置的示意图,如图2所示,该装置包括一种NGS变异检测装置的评估装置,该评估装置包括:样本获取模块10、筛选模块20、验证数据获取模块30,变异检测模块40及评估模块50,其中,样本获取模块10,用于根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;筛选模块20,用于根据变异频率和/或变异拷贝数的不同,从多个已知样本的变异相关信息中筛选出满足验证条件的样本,形成验证位点信息文件;验证数据获取模块30,用于获取与验证位点信息文件中对应的各样本的测序数据,形成验证数据集;变异检测模块40,用于利用待测NGS变异检测装置对验证数据集进行变异检测,得到检测结果;评估模块50,用于利用验证位点信息文件对检测结果进行评估,得到评估结果。
上述装置,通过通过充分考虑了样本类型、采集方式和肿瘤含量对检测算法的影响,将各变异结果整合成一个验证数据集,从而利用该验证数据集及其对应的已知验证位点变异信息,对待测NGS变异检测方法进行评估,能有效地、全方位地、快速地对NGS变异检测方法在灵敏度、准确性及特异性方面进行评估。
在一种可选的实施例中,筛选模块包括:变异频率范围划分单元和验证位点筛选单元;变异频率范围划分单元,用于根据各变异位点的变异频率,将多个已知样本划分到多个不同的变异频率范围;验证位点筛选单元,用于筛选各变异频率范围内满足如下验证条件的样本,形成验证位点信息文件:a.各变异频率范围至少包含1个目标位点;b.各变异频率范围内的变异位点涵盖所有样本类型及所有采样方式;c.每个变异频率范围选取5-10个变异位点。
在一种可选的实施例中,多个变异频率范围包括0.1%-0.5%、0.5%-1%、1%-5%、5%-20%、20-50%及50-100%。
在一种可选的实施例中,样本类型包括:FFPE样本,cfDNA样本、新鲜组织样本及血细胞样本中的任意一种;采样方式包括活检或穿刺。
在一种可选的实施例中,验证数据获取模块包括:提取模块、过滤模块及整合模块,其中提取模块,用于根据验证位点信息文件中对应的各变异位点所在的染色体位置,提取各变异位点在对应区域内的bam文件数据;过滤模块,用于选取健康人的白细胞数据作为基础bam文件数据,过滤基础bam文件数据中与多个目标位点对应的区域的bam文件数据,得到过滤bam文件数据;整合模块,用于将过滤bam文件数据与各变异位点在对应区域内的bam文件数据进行整合,得到验证数据集。
上述的装置可以包括处理器和存储器,上述单元均可以作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
上述本申请实施例的顺序不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。
其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种NGS变异检测方法的评估方法,其特征在于,所述评估方法包括:
根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个所述已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;
根据变异频率和/或变异拷贝数的不同,从多个所述已知样本的变异相关信息中筛选出满足验证条件的所述样本,形成验证位点信息文件;
获取与所述验证位点信息文件中对应的各所述样本的测序数据,形成验证数据集;
利用待测NGS变异检测方法对所述验证数据集进行变异检测,得到检测结果;
利用所述验证位点信息文件对所述检测结果进行评估,得到评估结果;
获取与所述验证位点信息文件中对应的各所述样本的测序数据,形成验证数据集包括:
根据所述验证位点信息文件中对应的各所述变异位点所在的染色体位置,提取各所述变异位点在对应区域内的bam文件数据;
选取健康人的白细胞数据作为基础bam文件数据,过滤所述基础bam文件数据中与多个所述目标位点对应的区域的bam文件数据,得到过滤bam文件数据;
将所述过滤bam文件数据与各所述变异位点在对应区域内的bam文件数据进行整合,得到所述验证数据集。
2.根据权利要求1所述的评估方法,其特征在于,根据变异频率的不同,从多个所述已知样本的变异相关信息中筛选出满足验证条件的所述样本包括:
根据各所述变异位点的变异频率,将多个所述已知样本划分到多个不同的变异频率范围;
筛选各所述变异频率范围内满足如下验证条件的所述样本,形成所述验证位点信息文件:
a. 各所述变异频率范围至少包含1个所述目标位点;
b. 各所述变异频率范围内的所述变异位点涵盖所有所述样本类型及所有所述采样方式;
c. 每个所述变异频率范围选取5-10个所述变异位点。
3.根据权利要求2所述的评估方法,其特征在于,多个所述变异频率范围包括0.1%-0.5%、 0.5%-1%、1%-5%、 5%-20%、20-50%及50-100%。
4.根据权利要求1至3中任一项所述的评估方法,其特征在于,所述样本类型包括:FFPE样本,cfDNA样本、新鲜组织样本及血细胞样本中的任意一种;所述采样方式包括活检或穿刺。
5.一种NGS变异检测装置的评估装置,其特征在于,所述评估装置包括:
样本获取模块,用于根据感兴趣的多个目标位点,获取多个已知样本的变异相关信息,每个所述已知样本的变异相关信息包括:样本类型、采样方式及各变异位点的检测结果;
筛选模块,用于根据变异频率和/或变异拷贝数的不同,从多个所述已知样本的变异相关信息中筛选出满足验证条件的所述样本,形成验证位点信息文件;
验证数据获取模块,用于获取与所述验证位点信息文件中对应的各所述样本的测序数据,形成验证数据集;
变异检测模块,用于利用待测NGS变异检测装置对所述验证数据集进行变异检测,得到检测结果;
评估模块,用于利用所述验证位点信息文件对所述检测结果进行评估,得到评估结果;
所述验证数据获取模块包括:
提取模块,用于根据所述验证位点信息文件中对应的各所述变异位点所在的染色体位置,提取各所述变异位点在对应区域内的bam文件数据;
过滤模块,用于选取健康人的白细胞数据作为基础bam文件数据,过滤所述基础bam文件数据中与多个所述目标位点对应的区域的bam文件数据,得到过滤bam文件数据;
整合模块,用于将所述过滤bam文件数据与各所述变异位点在对应区域内的bam文件数据进行整合,得到所述验证数据集。
6.根据权利要求5所述的评估装置,其特征在于,所述筛选模块包括:
变异频率范围划分单元,用于根据各所述变异位点的变异频率,将多个所述已知样本划分到多个不同的变异频率范围;
验证位点筛选单元,用于筛选各所述变异频率范围内满足如下验证条件的所述样本,形成所述验证位点信息文件:
a. 各所述变异频率范围至少包含1个所述目标位点;
b. 各所述变异频率范围内的所述变异位点涵盖所有所述样本类型及所有所述采样方式;
c. 每个所述变异频率范围选取5-10个所述变异位点。
7.根据权利要求6所述的评估装置,其特征在于,多个所述变异频率范围包括0.1%-0.5%、 0.5%-1%、1%-5%、5%-20%、20-50%及50-100%。
8.根据权利要求5至7中任一项所述的评估装置,其特征在于,所述样本类型包括:FFPE样本,cfDNA样本、新鲜组织样本及血细胞样本中的任意一种;所述采样方式包括活检或穿刺。
9.一种存储介质,所述存储介质上存储有计算机可执行的程序,其特征在于,所述程序被设置为运行时,执行权利要求1至4中任一项所述的NGS变异检测方法的评估方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4中任一项所述的NGS变异检测方法的评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911176908.7A CN110867207B (zh) | 2019-11-26 | 2019-11-26 | 验证ngs变异检测方法的评估方法及评估装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911176908.7A CN110867207B (zh) | 2019-11-26 | 2019-11-26 | 验证ngs变异检测方法的评估方法及评估装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110867207A CN110867207A (zh) | 2020-03-06 |
CN110867207B true CN110867207B (zh) | 2021-07-30 |
Family
ID=69656448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911176908.7A Active CN110867207B (zh) | 2019-11-26 | 2019-11-26 | 验证ngs变异检测方法的评估方法及评估装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867207B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574365A (zh) * | 2016-01-22 | 2016-05-11 | 北京圣谷同创科技发展有限公司 | 高通量测序突变检测结果的统计学验证方法 |
CN105779572A (zh) * | 2014-12-22 | 2016-07-20 | 深圳华大基因研究院 | 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 |
CN105861653A (zh) * | 2016-04-08 | 2016-08-17 | 北京医院 | 一种检测肿瘤相关基因突变的质控物及其制备方法 |
WO2017021471A1 (en) * | 2015-08-03 | 2017-02-09 | Universite Grenoble Alpes | Methods for amplifying and sequencing the genome of a hepatitis c virus |
CN107523617A (zh) * | 2017-07-25 | 2017-12-29 | 臻和(北京)科技有限公司 | 肠癌临床耐药基因检测的标准品及其应用 |
CN108753967A (zh) * | 2018-06-08 | 2018-11-06 | 复旦大学附属中山医院 | 一种用于肝癌检测的基因集及其panel检测设计方法 |
CN109207594A (zh) * | 2018-09-29 | 2019-01-15 | 广州燃石医学检验所有限公司 | 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法 |
CN109887548A (zh) * | 2019-01-18 | 2019-06-14 | 臻悦生物科技江苏有限公司 | 基于捕获测序的ctDNA占比的检测方法及检测装置 |
CN110010197A (zh) * | 2019-03-29 | 2019-07-12 | 深圳裕策生物科技有限公司 | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 |
CN110157703A (zh) * | 2019-05-21 | 2019-08-23 | 珠海圣美生物诊断技术有限公司 | 一种用于扩增变异型靶基因片段的非淬灭型寡核苷酸探针及其应用 |
CN110168648A (zh) * | 2016-11-16 | 2019-08-23 | 伊路米纳有限公司 | 序列变异识别的验证方法和系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372005A1 (en) * | 2014-12-22 | 2017-12-28 | Board Of Regents Of The University Of Texas System | Systems and methods for processing sequence data for variant detection and analysis |
CN105420392B (zh) * | 2015-12-31 | 2019-01-01 | 博奥生物集团有限公司 | 一组与新生儿肌张力低下表型相关的基因新突变及检测试剂盒 |
CN105653896B (zh) * | 2016-01-22 | 2019-02-12 | 北京圣谷同创科技发展有限公司 | 高通量测序突变检测结果验证方法 |
CN106021984A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种全外显子组测序数据分析系统 |
CN109767810B (zh) * | 2019-01-10 | 2021-04-27 | 上海思路迪生物医学科技有限公司 | 高通量测序数据分析方法及装置 |
CN109762880A (zh) * | 2019-01-15 | 2019-05-17 | 广州序科码生物技术有限责任公司 | 一种检测健康人易感基因的方法及其应用 |
CN110060733B (zh) * | 2019-04-28 | 2020-01-07 | 上海宝藤生物医药科技股份有限公司 | 基于单样本的二代测序肿瘤体细胞变异检测装置 |
-
2019
- 2019-11-26 CN CN201911176908.7A patent/CN110867207B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105779572A (zh) * | 2014-12-22 | 2016-07-20 | 深圳华大基因研究院 | 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 |
WO2017021471A1 (en) * | 2015-08-03 | 2017-02-09 | Universite Grenoble Alpes | Methods for amplifying and sequencing the genome of a hepatitis c virus |
CN105574365A (zh) * | 2016-01-22 | 2016-05-11 | 北京圣谷同创科技发展有限公司 | 高通量测序突变检测结果的统计学验证方法 |
CN105861653A (zh) * | 2016-04-08 | 2016-08-17 | 北京医院 | 一种检测肿瘤相关基因突变的质控物及其制备方法 |
CN110168648A (zh) * | 2016-11-16 | 2019-08-23 | 伊路米纳有限公司 | 序列变异识别的验证方法和系统 |
CN107523617A (zh) * | 2017-07-25 | 2017-12-29 | 臻和(北京)科技有限公司 | 肠癌临床耐药基因检测的标准品及其应用 |
CN108753967A (zh) * | 2018-06-08 | 2018-11-06 | 复旦大学附属中山医院 | 一种用于肝癌检测的基因集及其panel检测设计方法 |
CN109207594A (zh) * | 2018-09-29 | 2019-01-15 | 广州燃石医学检验所有限公司 | 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法 |
CN109887548A (zh) * | 2019-01-18 | 2019-06-14 | 臻悦生物科技江苏有限公司 | 基于捕获测序的ctDNA占比的检测方法及检测装置 |
CN110010197A (zh) * | 2019-03-29 | 2019-07-12 | 深圳裕策生物科技有限公司 | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 |
CN110157703A (zh) * | 2019-05-21 | 2019-08-23 | 珠海圣美生物诊断技术有限公司 | 一种用于扩增变异型靶基因片段的非淬灭型寡核苷酸探针及其应用 |
Non-Patent Citations (4)
Title |
---|
Evaluation of next-generation sequencing software in mapping and assembly;Suying Bao 等;《Journal of Human Genetics》;20110428;第406-414页 * |
Evaluation of Targeted Next-Generation Sequencing for Detection of Bovine Pathogens in Clinical Samples;Eman Anis 等;《Journal of Clinical Microbiology》;20180731;第56卷(第7期);第1-11页 * |
下一代测序在肿瘤个体化治疗中的应用;龙亚康 等;《中国肿瘤临床与康复》;20190430;第26卷(第4期);第385-391页 * |
循环肿瘤DNA测序的数据分析方法;陈实富;《中国博士学位论文全文数据库 信息科技辑》;20180215(第(2018)02期);I140-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN110867207A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20140323320A1 (en) | Method of detecting fused transcripts and system thereof | |
CN112951418B (zh) | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 | |
CN110444255B (zh) | 基于二代测序的生物信息质控方法、装置和存储介质 | |
EP2926288B1 (en) | Accurate and fast mapping of targeted sequencing reads | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN113257350B (zh) | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CN110211633B (zh) | Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置 | |
CN112111565A (zh) | 一种细胞游离dna测序数据的突变分析方法和装置 | |
CN113903401B (zh) | 基于ctDNA长度的分析方法和系统 | |
US20200294624A1 (en) | Systems and methods for enriching for cancer-derived fragments using fragment size | |
WO2023115662A1 (zh) | 一种变体核酸的检测方法 | |
CN106795568A (zh) | 测序读段的de novo组装的方法、系统和过程 | |
CN110060733A (zh) | 基于单样本的二代测序肿瘤体细胞变异检测装置 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN107480472B (zh) | 一种基因融合的检测方法和装置 | |
CN110689930B (zh) | 检测tmb的方法及装置 | |
CN115132274A (zh) | 循环无细胞dna转录因子结合位点的甲基化水平分析方法及装置 | |
CN105528532B (zh) | 一种rna编辑位点的特征分析方法 | |
CN110867207B (zh) | 验证ngs变异检测方法的评估方法及评估装置 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
CN110729025B (zh) | 基于二代测序的石蜡切片样本体细胞突变检测方法和装置 | |
KR20210040714A (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
KR20170000743A (ko) | 유전자의 전좌를 분석하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |