CN116312779A - 检测样本污染和识别样本错配的方法和装置 - Google Patents
检测样本污染和识别样本错配的方法和装置 Download PDFInfo
- Publication number
- CN116312779A CN116312779A CN202310223282.0A CN202310223282A CN116312779A CN 116312779 A CN116312779 A CN 116312779A CN 202310223282 A CN202310223282 A CN 202310223282A CN 116312779 A CN116312779 A CN 116312779A
- Authority
- CN
- China
- Prior art keywords
- sample
- mutation
- abundance
- paired
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000011109 contamination Methods 0.000 title claims description 35
- 230000035772 mutation Effects 0.000 claims abstract description 218
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 29
- 238000003908 quality control method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 206010028980 Neoplasm Diseases 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 210000004027 cell Anatomy 0.000 claims description 5
- 102000039446 nucleic acids Human genes 0.000 claims description 5
- 108020004707 nucleic acids Proteins 0.000 claims description 5
- 150000007523 nucleic acids Chemical class 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 210000000265 leukocyte Anatomy 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 241
- 210000001519 tissue Anatomy 0.000 description 14
- 238000001514 detection method Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000011835 investigation Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供了一种检测待测样本污染和/或识别样本错配的方法和装置,具体涉及一种检测待测样本污染的方法,该方法包括以下步骤:步骤一:筛选用于识别待测样本污染的突变位点;步骤二:根据待测样本和配对样本的突变位点,构建判定待测样本污染和/或错配的指标,上述判定指标包括相关性水平、纯合比例和样本纯合突变丰度的平均值中的任意一个或多个;步骤三:根据步骤二构建出的至少一项判定指标对待测样本污染进行识别判定。该方法可以实现低成本并快速准确地识别样本错配和污染。
Description
技术领域
本申请公开了一种检测高通量测序中待测样本污染和样本错配的方法和装置,本申请还提供了用于评估样本污染水平的系统、设备和计算机可读介质。
背景技术
在基于配对样本的高通量检测过程中,由于需要同时对待测样本和配对样本进行测序,在实验操作中容易出现样本错配或污染,样本错配和污染通常会造成错误的变异检测结果,因此样本错配和污染的识别是高通量检测中质控的必要步骤。在通常情况下,待测样本和配对样本应来自同一个体,但可能由于操作中样本在人工标识过程中出错造成样本错配,样本错配是指待测样本和配对样本来自不同个体。而样本污染通常来自样本制备过程,待测样本切片混入了来自其他个体的DNA。
现有技术通常无法直接判定待测样本和配对样本之间的错配或待测样本的污染,而样本污染和错配,在例如手工处理样本的过程中,往往是无法完全杜绝的。同时,如果采用严格标准将所有不符合质控标准的样本都归为污染,也会失去了识别出样本错配,从而较为简便快捷地重新完成样本配对和后续实验的可能性。因而,现有技术缺少一种能够简便地检测污染,且同时能够有效识别样本错配的方法。本申请提供了一种高通量测序中基于突变丰度的检测方法,用于低成本并快速准确地识别样本错配和污染。
发明内容
本申请涉及一种检测待测样本污染和识别样本错配的方法、装置、设备和存储介质。可以实现低成本并快速准确地识别待测样本的错配和污染。
一方面,本申请提供了一种检测待测样本污染的方法,其中,上述方法包括以下步骤:
步骤一:筛选用于识别待测样本污染的突变位点;
步骤二:根据待测样本和配对样本的突变位点,构建判定待测样本污染的指标,上述判定指标包括相关性水平、纯合比例和突变丰度的平均值中的任意一个或多个;
步骤三:根据步骤二构建出的至少一项判定指标对待测样本污染进行识别判定。
另一方面,本申请提供了一种识别样本错配的方法,其中,上述方法包括以下步骤:
步骤一:筛选用于识别样本错配的突变位点;
步骤二:根据待测样本和配对样本的突变位点,构建判定样本错配的指标,上述判定指标包括相关性水平、纯合比例、突变丰度的平均值和配对纯合变异指标中的任意一个或多个;
步骤三:根据步骤二构建出的至少一项判定指标对样本错配进行识别判定。
另一方面,本申请提供了一种识别样本错配的方法,其中,上述方法包括:
对待测样本执行如上述任意一项或多项的方法,检测待测样本是否存在污染;以及
若检测出待测样本存在污染,则对待测样本执行如上述任意一项或多项的方法,进一步识别待测样本和配对样本之间是否存在错配。
另一方面,本申请提供了一种检测待测样本污染和/或识别样本错配的装置,包括:
筛选模块,被配制成筛选用于检测待测样本污染和/或识别样本错配的突变位点;
构建模块,被配制成根据待测样本和配对样本的突变位点,构建判定待测污染和/或识别样本错配的指标,上述判定指标包括相关性水平、纯合比例和样本纯合突变丰度的平均值中的任意一个或多个;
判定模块,被配制成根据步骤二构建出的至少一项判定指标对待测样本污染和/或样本错配进行识别判定。
另一方面,本申请提供了一种检测待测样本污染和/或识别样本错配的设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现上述的方法。
另一方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,上述计算机程序被一个或多个处理器执行时实现上述的方法。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1示出了无错配无污染样本S1的突变丰度分布,其中x轴为突变在配对样本中的丰度,y轴为突变在待测样本中的丰度。
图2示出了污染待测样本S2的突变丰度分布,其中x轴为突变在配对样本中的丰度,y轴为突变在待测样本中的丰度。
图3示出了污染待测样本S3的突变丰度分布,其中x轴为突变在配对样本中的丰度,y轴为突变在待测样本中的丰度。
图4示出了错配待测样本S4的突变丰度分布,其中x轴为突变在配对样本中的丰度,y轴为突变在待测样本中的丰度。
具体实施方式
I.定义
在本申请中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。同时,为了更好地理解本申请,下面提供相关术语的定义和解释。
如本文所用,术语“样本污染”指待测样本在制备或其他处理过程中掺混了来自其他个体的样本的情况,例如,在待测序样本的制备过程中掺混了来自其他个体的核酸的情况。
如本文所用,术语“样本错配”指待测样本和配对样本来自不同个体的情况,但应当理解的是,在实际应用中,当待测样本与配对样本之间发生错配时,其体现出的参数结果类似极端的污染,因此,在本申请中,当待测样本被判定为较为严重的污染时(例如,根据本申请提供的指标表现较差时),有必要对待测样本是否为样本错配的情况进行进一步的识别。
如本文所用,术语“野生型”(wide type),是指基因或生物体在自然界中常见的或非突变型的形式。也就是指在野生群体中观察到的最高频率的表型,或具有这种表型的系统、生物或基因。
如本文所用,术语“突变”(mutation),是指基因的结构发生改变而导致细胞、病毒或微生物的基因型发生稳定的、可遗传的变化过程。
II.具体实施方案详述
另一方面,本申请提供了一种检测待测样本污染的方法,其中,上述方法包括以下步骤:
步骤一:筛选用于识别待测样本污染的突变位点;
步骤二:根据待测样本和配对样本的突变位点,构建判定待测样本污染的指标,上述判定指标包括相关性水平、纯合比例和样本纯合突变丰度的平均值中的任意一个或多个;
步骤三:根据步骤二构建出的至少一项判定指标对待测样本污染进行识别判定。
在一些实施方案中,上述相关性水平(homo.cor)为对待测样本与配对样本的突变丰度进行皮尔森相关性检验得到的皮尔森相关性系数;当上述相关性水平低于90%时,判定待测样本存在污染。
在一些实施方案中,上述纯合比例为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在配对样本中的突变丰度高于或等于第一预设阈值的突变位点个数的比值;其中,所述纯合比例(homo.ratio)的计算公式为:
其中,homo.ratio代表样本的纯合比例,N1代表在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数,N2代表在配对样本中的突变丰度高于或等于第一预设阈值的突变位点个数。其中,上述在配对样本中的突变丰度高于或等于第一预设阈值的突变位点可以包括在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点,也即,N1所表征的突变位点个数所对应的这部分突变位点,是N2所表征的突变位点个数所对应的突变位点的子集。
在一些优选的实施方案中,N2≥100。
在一些实施方案中,当homo.ratio低于90%时,判定待测样本存在污染,当homo.ratio高于或等于90%时,判定待测样本不存在污染。
在一些实施方案中,上述样本纯合突变丰度的平均值(homoAF)为在配对样本中突变丰度高于或等于第一预设阈值(例如,90%-98%,优选95%)的突变在待测样本中的突变丰度的平均值;当设定突变丰度的平均值低于0.975,判定待测样本存在污染。
在一些实施方案中,上述待测样本优选地来自受试者的肿瘤组织或其核酸。
在一些实施方案中,上述配对样本来自同一受试者的正常组织或正常细胞。
在一些优选的实施方案中,上述正常组织包括癌旁组织、白细胞等。
在一些实施方案中,上述步骤一中筛选得到的突变位点为在待测样本或配对样本至少其一中检测到的通过突变质量控制的突变所对应的位点。
在一些实施方案中,上述突变质量控制通过变异检测软件进行。
在一些优选的实施方案中,上述变异检测软件选自Vardict、Varscan、GATK(Genome Analysis Toolkit)或Mutect等。
在一些实施方案中,上述变异检测软件为Vardict。
在一些实施方案中,上述步骤一中筛选得到的突变位点为在待测样本或配对样本中任一突变丰度高于或等于野生型过滤阈值的突变所对应的位点;优选地,上述野生型过滤阈值为30%。
在一些实施方案中,上述步骤一中筛选得到的突变位点为在不同群体基因组中的人群频率的最大值高于或等于0.1%的突变所对应的位点。
在一些实施方案中,群体基因组中的人群频率查询自一个或多个群体基因组数据库。
在一些优选的实施方案中,上述群体基因组数据库选自1000Genomes Project、dbSNP、gnomAD(genome aggregation database)和ExAC(the Exome AggregationConsortium)等。
在一些实施方案中,第一预设阈值为90%-98%。
在一些优选的实施方案中,第一预设阈值为95%。
在一些实施方案中,第二预设阈值为65%-90%。
在一些优选的实施方案中,第二预设阈值为75%。
在一方面,本申请提供了一种识别样本错配的方法,其中,上述方法包括以下步骤:
步骤一:筛选用于识别样本错配的突变位点;
步骤二:根据待测样本和配对样本的突变位点,构建判定样本错配的指标,上述判定指标包括相关性水平、纯合比例、样本纯合突变丰度和配对纯合变异指标的平均值中的任意一个或多个;
步骤三:根据步骤二构建出的至少一项判定指标对样本错配进行识别判定。
在一些实施方案中,步骤二上述相关性水平为对待测样本与配对样本的突变丰度进行皮尔森相关性检验得到的皮尔森相关性系数;当上述相关性水平低于50%时,对上述样本是否错配进行判定。
在一些实施方案中,上述纯合比例为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在配对样本中的突变丰度高于或等于第一预设阈值的突变位点个数的比值;其中,所述纯合比例(homo.ratio)的计算公式为:
其中,homo.ratio代表样本的纯合比例,N1代表在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数,N2代表在配对样本中的突变丰度高于或等于第一预设阈值的突变位点个数。其中,上述在配对样本中的突变丰度高于或等于第一预设阈值的突变位点可以包括在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点,也即,N1所表征的突变位点个数所对应的这部分突变位点,是N2所表征的突变位点个数所对应的突变位点的子集。
在一些优选的实施方案中,N2≥100。
在一些实施方案中,当homo.ratio低于75%时,对上述样本是否错配进行判定。
在一些实施方案中,上述纯合突变丰度的平均值(homoAF)为在配对样本中突变丰度高于或等于95%的突变在待测样本中的突变丰度的平均值;当上述纯合突变丰度的平均值低于0.9,对上述样本是否错配进行判定。
在一些实施方案中,上述对样本是否错配进行判定,包括:根据上述配对纯合变异指标(pair index)对所述样本是否错配进行判定。在一些实施方案中,上述配对纯合变异指标(pair index)包含配对比例(pair.ratio)和纯合配对比例(homo.pair.ratio);其中,配对比例(pair.ratio)为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在待测样本中的突变丰度高于或等于第一预设阈值的突变位点个数的比值;纯合配对比例(homo.pair.ratio)为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在待测样本的突变丰度高于或等于第一预设阈值且在配对样本中的突变丰度高于或等于第二预设阈值的位点个数的比值。
在一些实施方案中,当pair.ratio低于85%且homo.pair.ratio高于或等于95%时,判定样本存在错配。
在一些实施方案中,上述配对比例(pair.ratio)的计算公式为:
其中,pair.ratio是配对纯合变异指标的一部分,N1代表在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数,N3代表在待测样本中的突变丰度高于第一预设阈值的突变位点个数;其中,N3≥100。
在一些实施方案中,上述纯合配对比例(homo.pair.ratio)的计算公式为:
其中,homo.pair.ratio是配对纯合变异指标的一部分,N1代表在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数,N4代表在待测样本中的突变丰度高于或等于第一预设阈值且在配对样本中突变丰度高于或等于第二预设阈值的的突变位点个数;其中,N4≥100。
在一些实施方案中,上述对样本是否错配进行判定,还包括:核对所述样本的录入信息和/或识别号;核对所述待测样本与对应的所述配对样本的配对信息;以及,审核检验记录或结果。其中,上述核对和审核可以人工进行或自动进行。
在一些实施方案中,上述待测样本优选地来自受试者的肿瘤组织或其核酸。
在一些实施方案中,上述配对样本来自同一受试者的正常组织或正常细胞。
在一些优选的实施方案中,上述正常组织包括癌旁组织、白细胞等。
在一些实施方案中,上述步骤一中筛选得到的突变位点为在待测样本或配对样本至少其一中检测到的通过突变质量控制的突变所对应的位点。
在一些实施方案中,上述突变质量控制通过变异检测软件进行。
在一些优选的实施方案中,上述变异检测软件选自Vardict、Varscan、GATK(Genome Analysis Toolkit)或Mutect等。
在一些实施方案中,上述变异检测软件为Vardict。
在一些实施方案中,上述步骤一中筛选得到的突变位点为在待测样本或配对样本中任一突变丰度高于或等于野生型过滤阈值的突变所对应的位点;优选地,上述野生型过滤阈值为30%。
在一些实施方案中,上述步骤一中筛选得到的突变位点为在不同群体基因组中的人群频率的最大值高于或等于0.1%的突变所对应的位点。
在一些实施方案中,群体基因组中的人群频率查询自一个或多个群体基因组数据库。
在一些优选的实施方案中,上述群体基因组数据库选自1000Genomes Project、dbSNP、gnomAD(genome aggregation database)和ExAC(the Exome AggregationConsortium)等。
在一些实施方案中,第一预设阈值为90%-98%。
在一些优选的实施方案中,第一预设阈值为95%。
在一些实施方案中,第二预设阈值为65%-90%。
在一些优选的实施方案中,第二预设阈值为75%。
另一方面,本申请提供了一种识别样本错配的方法,其中,上述方法包括:
对待测样本执行如前述任一方面的方法,检测待测样本是否存在污染;以及
若检测出待测样本存在污染,对待测样本执行如前述任一方面的方法,识别待测样本和配对样本之间是否存在错配。
另一方面,本申请提供了一种检测待测样本污染和/或识别样本错配的装置,包括:
筛选模块,被配制成筛选用于检测待测样本污染和/或识别样本错配的突变位点;
构建模块,被配制成根据待测样本和配对样本的突变位点,构建判定待测污染和/或识别样本错配的指标,上述判定指标包括相关性水平、纯合比例和样本纯合突变丰度的平均值中的任意一个或多个;
判定模块,被配制成根据步骤二构建出的至少一项判定指标对待测样本污染和/或样本错配进行识别判定。
另一方面,本申请提供了一种检测待测样本污染和/或识别样本错配的设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上述任一方面的方法。
另一方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,上述计算机程序被一个或多个处理器执行时实现如上述任一方面的方法。
为了达到清楚和简洁描述的目的,本文中作为相同的或分开的一些实施方案的一部分来描述特征,然而,将要理解的是,本申请的范围可包括具有所描述的所有或一些特征的组合的一些实施方案。
实施例
实施例1:生成用于判断样本错配和待测样本污染的指标
1.样本制备和测序
肿瘤组织样本和配对样本的DNA提取流程参照试剂盒(QIAamp DNA FFPE TissueKit,QIAGEN公司生产)自带的操作说明书进行,并将提取的DNA打断为平均200bp的DNA片段。进而,使用经典的超声打断双链连接法制备预文库。其流程包括末端修复,3’端加A,接头连接,接头连接产物纯化,预文库扩增,和扩增的预文库纯化。纯化后的预文库产量在500ng以上(通过Qubit HS分析试剂盒评估)。针对试剂盒靶基因区域选定特异性RNA捕获安捷伦探针,与预文库杂交捕获特异性片段,并洗脱掉非特异性片段,通过Post-PCR进行扩增,将扩增得到的产物进行纯化,并对纯化后的终文库的片段大小和产量进行评估。DNA片段长度的峰值为350bp左右,产量为10-300ng之间。最后,按照测序仪说明进行测序,测序采用因美纳公司测序仪。
获得测序结果后,对下机数据执行本申请的方法。
2.筛选用于鉴定样本错配和待测样本污染的突变位点,包括如下步骤:
(1)生成序列比对文件
对高通量测序的下机数据FASTQ文件进行质控后,用比对软件BWA-MEM(0.7.10)以人类参考基因组(hg19/b37)为参考基因组对FASTQ文件进行比对回贴并生成SAM文件。通过Samtools(0.1.19)软件将SAM文件转成BAM文件。随后使用本申请提出的检测方法进行检测。
(2)通过vardict软件针对目标区域所有位点进行变异检出。随后对软件输出的突变位点结果进行过滤,过滤掉输出标签“Filter_Label”为“Failed”的突变。
(3)计算所得突变位点的突变丰度:突变丰度为突变位点支持的变异的读长(reads)个数和位点覆盖总读长个数的比值。
(4)通过突变位点的染色体位置及野生型和变异型基因型作为突变唯一标记,统计在待测样本和配对样本至少其一中检出的突变。如图1-4所示,分别显示了样本S1、S2、S3和S4的突变丰度分布。其中x轴和y轴分别为所述突变在配对样本和待测样本中的丰度。选取待测样本和配对样本至少其一中突变丰度高于或等于30%的位点。
(5)进一步选取在不同群体基因组中的人群频率的最大值高于或等于0.1%的突变,即为用于样本错配和污染识别的突变位点。其中使用的群体基因组,来自1000GenomeProject,dbSNP数据库等群体基因组数据库中的一个或多个(例如,1000Genome Project和ExAC数据库)。
3.构建用于鉴定样本错配和待测样本污染的判别指标
(1)计算homo.cor,即待测样本和配对样本的突变丰度的皮尔森相关系数。如图1-4所示,样本S1、S2、S3和S4的homo.cor分别为0.971、0.841、0.485和0.307;
(2)计算homo.ratio,
其中,N1为突变中待测样本和配对样本突变丰度均大于等于95%的突变个数;N2为突变中配对样本突变丰度大于等于95%的突变个数;N2≥100。如图1-4所示,样本S1、S2、S3和S4的homo.ratio分别为0.994、0.78、0.645和0.597,N1分别为163、156、120和132,N2分别为164、200、186和221。
(3)计算homoAF,即在配对样本中突变丰度高于或等于95%的突变在待测样本中的突变丰度的平均值。如图1-4所示,样本S1、S2、S3和S4的homoAF分别为0.993、0.971、0.835和0.755。
(4)计算pair index包含的pair.ratio和homo.pair.ratio,
其中,pair.ratio是所述配对纯合变异指标的一部分,N1代表在待测样本与配对样本中的突变丰度均高于或等于95%的突变位点个数,N3代表在待测样本中的突变丰度高于或等于95%的突变位点个数;N3≥100。如图1~4所示,样本S1、S2、S3和S4的pair.ratio分别为0.994、1、0.93和0.695,N3分别为164、156、129和190;
其中,homo.pair.ratio是所述配对纯合变异指标的一部分,N1代表在待测样本与配对样本中的突变丰度均高于或等于95%的突变位点个数,N4代表在待测样本中的突变丰度高于或等于95%且在配对样本中突变丰度高于或等于75%的的突变位点个数;N4≥100。如图1~4所示,样本S1、S2、S3和S4的homo.pair.ratio分别为0.994、1、0.992和1,N4分别为164、156、121和132。
(5)对样本S1、S2、S3和S4的结果分析
样本S1的homo.cor=0.971(≥90%)、homo.ratio=0.994(≥90%)且homoAF=0.993(≥0.975),根据以上单个或多个指标,均可以判定样本S1无污染且正常配对。
样本S2的homo.cor=0.841(<90%)、homo.ratio=0.78(<90%)且homoAF=0.971(<0.975),根据以上单个或多个指标,均可以直接判定样本S2存在污染;在本实施例中,对于已经检出污染的样本S2,可以就其是否存在样本S2与其配对样本的错配来进行进一步排查,样本S2的pair.ratio=1且homo.pair.ratio=1,不满足错配情况下对pair index的要求,因此样本S2存在污染但不属于错配;但应当理解的是,错配类似一种极端的污染,因此从指标数值来看,当待测样本与配对样本发生错配时,上述指标(homo.cor、homo.ratio和/或homoAF)会出现明显差于普通污染的表现,当待测样本明显属于存在污染而不存在错配的阈值范围时(例如,50%≤homo.cor<90%、75%≤homo.ratio<90%和/或0.9≤homoAF<0.975),可以不对样本的pair index进行计算,而当待测样本的上述指标提示了较高的错配风险时(例如,homo.cor<50%、homo.ratio<75%和/或homoAF<0.9),则应当对待测样本是否存在错配进行进一步排查,排查方式包括:除上述对pair index进行的计算外,也可以包括基于人工或自动化的下述步骤:核对所述样本的录入信息和/或识别号;核对所述待测样本与对应的所述配对样本的配对信息;以及,审核检验记录或结果。
样本S3的homo.cor=0.485(<50%)、homo.ratio=0.645(<75%)且homoAF=0.835(<0.9),其以上单个或多个指标均满足判定污染的标准,但上述指标均落入了需要进一步排查错配可能性的阈值范围,也即,该阈值提示了样本S3存在较高的错配风险,因此需要计算样本S3的pair index,样本S3的pair.ratio=0.93(>0.85%)且homo.pair.ratio=0.992(>95%),不满足错配情况下对pair index的要求,因此样本S3存在污染但不属于错配;应当理解的是,当样本的污染程度较高时,本申请提供的homo.cor、homo.ratio和/或homoAF会提示不同于普通污染的高错配风险,此时有必要对样本是否确实属于错配进行进一步判定,判定方式除上述对pair index进行的计算外,也可以包括基于人工或自动化的下述步骤:核对所述样本的录入信息和/或识别号;核对所述待测样本与对应的所述配对样本的配对信息;以及,审核检验记录或结果。
样本S4的homo.cor=0.307(<50%)、homo.ratio=0.597(<75%)且homoAF=0.755(<0.9),其以上单个或多个指标均落入了需要进一步排查错配可能性的阈值范围,随后计算样本S4的pair index,样本S4的pair.ratio=0.695(<85%)且homo.pair.ratio=1(>95%),满足错配情况下对pair index的要求,因此样本S4属于错配。
实施例2:判别指标性能确认
1.在样本错配情形下的指标性能评估
将100对已配对真实样本对DNA(待测样本i和配对样本i’)打乱配对关系,从而形成100对错配样本对,即待测样本i的对照为配对样本j’,其中j≠i。对样本采取NGS测序,并按照实施例1中所述步骤分析,对生成的100对错配样本对计算纯合比例homo.ratio、相关性水平homo.cor和样本纯合突变丰度平均值homoAF,所得的100对错配样本对的三类参数的范围、平均值和方差如表1所示。可见,在模拟样本错配的情况下,纯合比例homo.ratio,相关性水平homo.cor,配对纯合变异指标(pair Index)都稳定在实施例1中所提出的判定样本错配或高度污染的阈值之内。
表1:错配组合污染评估参数汇总
2.在待测样本污染情形下的指标性能评估
对100个待测样本,通过模拟掺混其他来源样本的测序数据,生成40例包含污染比例分别为5%,10%,20%的肿瘤样本,这40例模拟污染后的待测样本的污染指数和三类参数的范围、平均值和方差如表2所示。
表2:污染模拟数据评估参数汇总
3.真实样本的DNA掺混实验以评估样本污染判别指标性能
选取两对真实样本的肿瘤组织和正常癌旁组织对照DNA,分别按照10%和20%的比例将组织DNA掺混至另一个样本的对照DNA中,得到的污染参数如表3所示。
表3:真实样本的DNA掺混模拟参数汇总
Claims (22)
1.一种检测待测样本污染的方法,其中,所述方法包括以下步骤:
步骤一:筛选用于识别待测样本污染的突变位点;
步骤二:根据待测样本和配对样本的突变位点,构建判定待测样本污染的指标,所述判定指标包括相关性水平、纯合比例和样本纯合突变丰度的平均值中的任意一个或多个;
步骤三:根据步骤二构建出的至少一项判定指标对待测样本污染进行识别判定。
2.根据权利要求1所述的方法,其中,所述相关性水平(homo.cor)为对待测样本与配对样本的突变丰度进行皮尔森相关性检验得到的皮尔森相关性系数;
当所述相关性水平低于90%时,判定待测样本存在污染。
3.根据权利要求1或2所述的方法,其中,所述纯合比例为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在配对样本中的突变丰度高于或等于第一预设阈值的突变位点个数的比值;
其中,所述纯合比例(homo.ratio)的计算公式为:
其中,homo.ratio代表样本的纯合比例,N1代表在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数,N2代表在配对样本中的突变丰度高于或等于第一预设阈值的突变位点个数;优选地,N2≥100;
当homo.ratio低于90%时,判定所述待测样本存在污染,当homo.ratio高于或等于90%时,判定所述待测样本不存在污染。
4.根据权利要求1-3中任一项所述的方法,其中,所述样本纯合突变丰度的平均值(homoAF)为在配对样本中突变丰度高于或等于第一预设阈值的突变在待测样本中的突变丰度的平均值;
当样本纯合突变丰度的平均值低于0.975,判定所述待测样本存在污染。
5.一种识别样本错配的方法,其中,所述方法包括以下步骤:
步骤一:筛选用于识别样本错配的突变位点;
步骤二:根据待测样本和配对样本的突变位点,构建判定样本错配的指标,所述判定指标包括相关性水平、纯合比例、样本纯合突变丰度的平均值和配对纯合变异指标中的任意一个或多个;
步骤三:根据步骤二构建出的至少一项判定指标对样本错配进行识别判定。
6.根据权利要求5所述的方法,其中,所述相关性水平(homo.cor)为对待测样本与配对样本的突变丰度进行皮尔森相关性检验得到的皮尔森相关性系数;
当所述相关性水平低于50%时,对所述样本是否错配进行判定。
8.根据权利要求5-7中任一项所述的方法,其中,所述样本纯合突变丰度的平均值(homoAF)为在配对样本中突变丰度高于或等于第一预设阈值的突变在待测样本中的突变丰度的平均值;
当所述样本纯合突变丰度的平均值低于0.9,对所述样本是否错配进行判定。
9.根据权利要求6-8中任一项所述的方法,其中,所述对所述样本是否错配进行判定,包括:
根据所述配对纯合变异指标对所述样本是否错配进行判定,其中,所述配对纯合变异指标(pair index)包含配对比例(pair.ratio)和纯合配对比例(homo.pair.ratio);
其中,所述配对比例(pair.ratio)为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在待测样本中的突变丰度高于或等于第一预设阈值的突变位点个数的比值;
其中,所述纯合配对比例(homo.pair.ratio)为在待测样本与配对样本中的突变丰度均高于或等于第一预设阈值的突变位点个数与在待测样本的突变丰度高于或等于第一预设阈值且在配对样本中的突变丰度高于或等于第二预设阈值的位点个数的比值;
当pair.ratio低于85%且homo.pair.ratio高于或等于95%时,判定样本存在错配。
12.一种识别样本错配的方法,其中,所述方法包括:
对所述待测样本执行如权利要求1-4中任意一项或多项所述的方法,检测所述待测样本是否存在污染;以及
若检测出所述待测样本存在污染,则对所述待测样本执行如权利要求9-11中任意一项或多项所述的方法,进一步识别所述待测样本和配对样本之间是否存在错配。
13.根据权利要求1-12中任一项所述的方法,其中,所述待测样本优选地来自受试者的肿瘤组织或其核酸;
所述配对样本来自同一受试者的正常组织或正常细胞;
优选地,所述正常组织包括癌旁组织、白细胞等。
14.根据权利要求1-13中任一项所述的方法,其中,所述步骤一中筛选得到的突变位点为在待测样本或配对样本至少其一中检测到的通过突变质量控制的突变所对应的位点;
其中,所述突变质量控制通过变异检测软件进行;
优选地,所述变异检测软件选自Vardict、Varscan、GATK(Genome Analysis Toolkit)或Mutect等;
更优选地,所述变异检测软件为Vardict。
15.根据权利要求1-14中任一项所述的方法,其中,所述步骤一中筛选得到的突变位点为在待测样本或配对样本中任一突变丰度高于或等于野生型过滤阈值的突变所对应的位点;优选地,所述野生型过滤阈值为30%。
16.根据权利要求1-15中任一项所述的方法,其中,所述步骤一中筛选得到的突变位点为在不同群体基因组中的人群频率的最大值高于或等于0.1%的突变所对应的位点。
17.根据权利要求16所述的方法,其中,群体基因组中的人群频率查询自一个或多个群体基因组数据库,优选地,所述群体基因组数据库选自1000Genomes Project、dbSNP、gnomAD(genome aggregation database)和ExAC(the Exome Aggregation Consortium)等。
18.根据权利要求3、4、7-11任一项所述的方法,其中,所述第一预设阈值为90%-98%,优选95%。
19.根据权利要求9或11所述的方法,其中,所述第二预设阈值为65%-90%,优选75%。
20.一种检测待测样本污染和/或识别样本错配的装置,包括:
筛选模块,被配制成筛选用于检测待测样本污染和/或识别样本错配的突变位点;
构建模块,被配制成根据待测样本和配对样本的突变位点,构建判定待测样本污染和/或识别样本错配的指标,所述判定指标包括相关性水平、纯合比例和样本纯合突变丰度的平均值中的任意一个或多个;
判定模块,被配制成根据步骤二构建出的至少一项判定指标对待测样本污染和/或样本错配进行识别判定。
21.一种检测样本污染和/或识别样本错配的设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-19中任一项所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-19中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310223282.0A CN116312779A (zh) | 2023-03-09 | 2023-03-09 | 检测样本污染和识别样本错配的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310223282.0A CN116312779A (zh) | 2023-03-09 | 2023-03-09 | 检测样本污染和识别样本错配的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312779A true CN116312779A (zh) | 2023-06-23 |
Family
ID=86819953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310223282.0A Pending CN116312779A (zh) | 2023-03-09 | 2023-03-09 | 检测样本污染和识别样本错配的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312779A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935966A (zh) * | 2023-09-13 | 2023-10-24 | 北京诺禾致源科技股份有限公司 | 高通量测序配对数据污染判定的方法及装置 |
-
2023
- 2023-03-09 CN CN202310223282.0A patent/CN116312779A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935966A (zh) * | 2023-09-13 | 2023-10-24 | 北京诺禾致源科技股份有限公司 | 高通量测序配对数据污染判定的方法及装置 |
CN116935966B (zh) * | 2023-09-13 | 2024-01-23 | 北京诺禾致源科技股份有限公司 | 高通量测序配对数据污染判定的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887548B (zh) | 基于捕获测序的ctDNA占比的检测方法及检测装置 | |
CN106462670B (zh) | 超深度测序中的罕见变体召集 | |
CN112397144B (zh) | 检测基因突变及表达量的方法及装置 | |
CN112397151B (zh) | 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置 | |
CN111052249B (zh) | 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 | |
WO2021232388A1 (zh) | 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN115394357B (zh) | 用于判断样本配对或污染的位点组合及其筛选方法和应用 | |
CN112746097A (zh) | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
CN110444253B (zh) | 一种适用于混池基因定位的方法及系统 | |
WO2024140368A1 (zh) | 一种样本交叉污染的检测方法和装置 | |
CN113564266B (zh) | Snp分型遗传标记组合、检测试剂盒及用途 | |
CN116179664A (zh) | 基于内参确定微生物的高通量检测方法和系统及试剂盒 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN113930492A (zh) | 对被污染样品进行亲子鉴定的生物信息处理方法 | |
CN108728515A (zh) | 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法 | |
CN115948521B (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
CN112102944A (zh) | 一种基于ngs的脑肿瘤分子诊断的分析方法 | |
CN104769133A (zh) | 通过链排除改进微阵列表现的方法 | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN108504734B (zh) | 一种恶性肿瘤组织特定个体归属的判断方法及其应用 | |
EP3988672B1 (en) | Use of off-target sequences for dna analysis | |
CN108304693B (zh) | 利用高通量测序数据分析基因融合的方法 | |
CN111926091A (zh) | 利用微卫星标记鉴定东北黑熊亲缘关系的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |