CN115132271A - 一种基于批次内校正的cnv检测方法 - Google Patents
一种基于批次内校正的cnv检测方法 Download PDFInfo
- Publication number
- CN115132271A CN115132271A CN202211059874.5A CN202211059874A CN115132271A CN 115132271 A CN115132271 A CN 115132271A CN 202211059874 A CN202211059874 A CN 202211059874A CN 115132271 A CN115132271 A CN 115132271A
- Authority
- CN
- China
- Prior art keywords
- sample
- cnv
- samples
- analysis
- capture area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
技术领域
本发明涉及生物信息学领域,涉及基因数据分析技术,具体为一种基于批次内校正的CNV检测方法。
背景技术
人类致病变异包括小的插入缺失或者替换变异(SNPINDEL),以及50bp以上的结构变异(SV),而人类正常基因一般是2个拷贝,当拷贝数目不等于2时则出现了拷贝数(CNV)变异的情况(男性X染色体正常是1个拷贝)。
CNV的长度可以从几十bp到Mb级别不等。传统的CNV检测方法包括MLPA(多重连接探针扩增技术,multiplex ligation-dependent probe amplification)、GapPCR(缺口PCR)。同时这些方法具有通量低、对区域有限制且检测区域多时费用不菲的缺点。随着技术的发展,科学家使用NGS技术开发出针对1kb以上长片段CNV检测方法,而小片段检测方法准确性不佳。临床实践需要更高分辨率的检测方法。例如对于DMD基因,基因内确实重复占总变异比例约为65-80%,单个外显子长度最小为32bp,这样的分辨率对传统的NGS CNV检测方法是一个挑战。
研究发现,批次内数据具有更好的一致性,其有助于校正测序过程中的噪音从而实现高分辨率的CNV检测,因此亟需设计一种基于批次内校正的CNV检测方法。
发明内容
本发明的目的在于公开一种基于批次内校正的CNV检测方法,其可以在不使用额外参照物的情况下,实现不同长度范围的CNV的检出。
实现发明目的技术方案如下:一种基于批次内校正的CNV检测方法,包括以下步骤:
S1、依据样本CNV检测的捕获区域,获取q个分析区域;
S2、选取n个样本,并对各样本测序获取测序数据;
S7、根据样本的Z-score,判断该样本的捕获区域的CNV的倍数。
进一步的,步骤S1中,样本q个分析区域的获取方法为:
S101、依据样本CNV检测的捕获区域,确定depth统计范围;
S102、将捕获区域划分为p个目标分析区域,选取其中q个作为分析区域,p≥q。
更进一步的,p≥q≥30。
进一步的,步骤S2中,n个样本的选取方法为:将n个样本中无亲缘关系样本的数量记为n1,且n≥n1≥4。
进一步的,步骤S4中,计算样本中第i个分析区域的前,将样本的测序数据与参考基因组比对,选取该样本中测序数据的比对质量大于等于k的reads(测序片段),对第i个分析区域的进行统计分析,即将第i个分析区域的比对质量小于k的reads不计入的统计计算。
更进一步的,k取值为大于等于20。
在一个可选的实施例中,步骤S7中,根据样本的Z-score,判断该样本的捕获区域的CNV的倍数的方法为:定义临界值为±m(cufoff),当样本的Z-score<﹣m时,则该样本的捕获区域的CNV的倍数小于2,判断该样本的捕获区域的拷贝数为1或0;
当样本的Z-score>﹢m时,则该样本的捕获区域的CNV的倍数大于2,判断该样本的捕获区域的拷贝数大于等于3;
当﹢m≥样本的Z-score≥﹣m时,则该样本的CNV的捕获区域的倍数为2。
更进一步的,m取值为3或2.58。
与现有技术相比,本发明的有益效果是:本发明设计的基于批次内校正的CNV检测方法,一是可以实现样本中不同片段,如几个bp长度片段的CNV的准确检出;二是批次内相互校正无需添加额外对照;三本发明中所述方法可以批量实现基因内小片段CNV的检出,无数目限制。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为具体实施方式中基于批次内校正的CNV检测方法的流程图;
图2为具体实施方式中基于批次内校正的样本的CNV的判断流程图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本具体实施方式提供了一种基于批次内校正的CNV检测方法,参阅图1和图2所示,CNV检测方法包括以下步骤:
S1、依据样本CNV检测的捕获区域,获取q个分析区域。
在一个可选实施例中,样本q个分析区域的获取方法为:
S101、依据样本CNV检测的捕获区域,确定depth统计范围;
S102、将捕获区域划分为p个目标分析区域,选取其中q个作为分析区域,p≥q。
为了提高样本CNV检测的准确度,本步骤中择优选择p≥q≥30。
S2、选取n个样本,并对各样本测序获取测序数据。
在一个可选实施例中,n个样本的选取方法为:将n个样本中无亲缘关系样本的数量记为n1,且n≥n1≥4。具体的,选择n个样本中的n1样本作为参照。作为参照的样本中无亲缘关系的样本数目记为n2,且n≥n1≥n2≥4。当参照样本为男性时,计算Rmedian且需将第j个样本中男性X染色体和Y染色体乘2进行计算。
本步骤中,需要对每一个样本的每一个分析区域的R进行校正。
在一个可选实施例中,计算样本中第i个分析区域的前,将样本的测序数据与参考基因组比对,选取该样本中测序数据的比对质量大于等于k的reads(测序片段),对第i个分析区域的进行统计分析,即将第i个分析区域的比对质量小于k的reads不计入的统计计算。
在本步骤中,择优选择k取值为大于等于20。
S7、根据样本的Z-score,判断该样本的CNV的倍数。
在一个可选的实施例中,样本的捕获区域的CNV的倍数的判断方法为:定义临界值为±m(cufoff),当样本的Z-score<﹣m时,则该样本的捕获区域的CNV的倍数小于2,判断该样本的捕获区域的拷贝数缺失;
当样本的Z-score>﹢m时,则该样本的捕获区域的CNV的倍数大于2,判断该样本的捕获区域的拷贝数重复;
当﹢m≥样本的Z-score≥﹣m时,则该样本的捕获区域的CNV的倍数为2,判断该样本的捕获区域的拷贝数正常。
在一个可选的实施例中,m取值为3或2.58。
本具体实施方式通过DMD基因(用于编码肌营养不良蛋白,英文名为Dystrophin)展示,DMD基因有编号为1-79共79个非连续的编码区域(exon区域),以DMD 8-29号exon区域、DMD_49号exon区域、DMD_51exon号区域作为捕获区域对本发明的基于批次内校正的CNV检测方法进行验证:
参见下表1所示为DMD基因中设置的3个捕获区域的参数数据:
表1:
参见下表2所示为对3个捕获区域的数据处理结果:
表2:
选取某一探针捕获方案捕获基因区域1079个区域,选择84个区域进行CNV分析,其中包括实施例中的DMD exon8-29区域,DMD exon49 和DMD exon51区域。测序获得3个批次数据,批次1包含Sample1样本,批次2包含Sample2样本,批次3包含Sample3样本。3个批次每个批次均包含24例样本,每个批次样本各自进行批次内分析。首先将测序获得reads比对到参考基因组上,选取比对质量大于等于20的reads进行后续统计。获得Sample1的为510;84个分析区域为1.25,为0.09;DMD exon8-29区域Z-score范围为-8~-5,其小于 -3,因此判断 DMD exon8-29为1拷贝。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
2.根据权利要求1所述的基于批次内校正的CNV检测方法,其特征在于,步骤S1中,样本q个分析区域的获取方法为:
S101、依据样本CNV检测的捕获区域,确定depth统计范围;
S102、将捕获区域划分为p个目标分析区域,选取其中q个作为分析区域,p≥q。
3.根据权利要求2所述的基于批次内校正的CNV检测方法,其特征在于,p≥q≥30。
4.根据权利要求1所述的基于批次内校正的CNV检测方法,其特征在于,步骤S2中,n个样本的选取方法为:将n个样本中无亲缘关系样本的数量记为n1,且n≥n1≥4。
6.根据权利要求5所述的基于批次内校正的CNV检测方法,其特征在于,k取值为大于等于20。
9.根据权利要求1或7或8中任一项所述的基于批次内校正的CNV检测方法,其特征在于,步骤S7中,根据样本的Z-score,判断该样本的捕获区域的CNV的倍数的方法为:
定义临界值为±m,当样本的捕获区域的Z-score<﹣m时,则该样本的CNV的倍数小于2,判断该样本的捕获区域的拷贝数为1拷贝或者0拷贝;
当样本的Z-score>﹢m时,则该样本的捕获区域的CNV的倍数大于2,判断该样本的捕获区域的拷贝数大于等于3;
当﹢m≥样本的Z-score≥﹣m时,则该样本的捕获区域的CNV的倍数为2。
10.根据权利要求9所述的基于批次内校正的CNV检测方法,其特征在于,m取值为3或2.58。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211059874.5A CN115132271B (zh) | 2022-09-01 | 2022-09-01 | 一种基于批次内校正的cnv检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211059874.5A CN115132271B (zh) | 2022-09-01 | 2022-09-01 | 一种基于批次内校正的cnv检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115132271A true CN115132271A (zh) | 2022-09-30 |
CN115132271B CN115132271B (zh) | 2023-07-04 |
Family
ID=83387707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211059874.5A Active CN115132271B (zh) | 2022-09-01 | 2022-09-01 | 一种基于批次内校正的cnv检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115132271B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013149385A1 (zh) * | 2012-04-05 | 2013-10-10 | 深圳华大基因健康科技有限公司 | 一种拷贝数变异检测方法和系统 |
WO2016090583A1 (zh) * | 2014-12-10 | 2016-06-16 | 深圳华大基因研究院 | 测序数据处理装置和方法 |
US20160224724A1 (en) * | 2013-05-24 | 2016-08-04 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
WO2017083310A1 (en) * | 2015-11-09 | 2017-05-18 | Inkaryo Corporation | A normalization method for sample assays |
CN107541561A (zh) * | 2017-04-18 | 2018-01-05 | 东莞博奥木华基因科技有限公司 | 提高母体外周血中胎儿游离dna浓度的试剂盒、装置及方法 |
US20180201990A1 (en) * | 2015-05-06 | 2018-07-19 | Nanjing Annoroad Gene Technology Co., Ltd. | Kit, apparatus, and method for detecting chromosome aneuploidy |
WO2018161245A1 (zh) * | 2017-03-07 | 2018-09-13 | 深圳华大基因研究院 | 一种染色体变异的检测方法及装置 |
US20180300450A1 (en) * | 2017-04-17 | 2018-10-18 | Counsyl, Inc. | Systems and methods for performing and optimizing performance of dna-based noninvasive prenatal screens |
US20190256924A1 (en) * | 2017-08-07 | 2019-08-22 | The Johns Hopkins University | Methods and materials for assessing and treating cancer |
CN111508559A (zh) * | 2020-04-21 | 2020-08-07 | 北京橡鑫生物科技有限公司 | 检测目标区域cnv的方法及装置 |
CN112669901A (zh) * | 2020-12-31 | 2021-04-16 | 北京优迅医学检验实验室有限公司 | 基于低深度高通量基因组测序的染色体拷贝数变异检测装置 |
CN113249453A (zh) * | 2021-07-08 | 2021-08-13 | 苏州赛美科基因科技有限公司 | 一种检测拷贝数变化的方法 |
CN113674803A (zh) * | 2021-08-30 | 2021-11-19 | 广州燃石医学检验所有限公司 | 一种拷贝数变异的检测方法及其应用 |
CN114267409A (zh) * | 2022-01-12 | 2022-04-01 | 深圳华大基因股份有限公司 | 无创产前基因检测测序数据的分析方法、装置及存储介质 |
CN114512187A (zh) * | 2022-02-22 | 2022-05-17 | 天津华大医学检验所有限公司 | 一种检测α-珠蛋白基因拷贝数变异的方法及装置 |
-
2022
- 2022-09-01 CN CN202211059874.5A patent/CN115132271B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013149385A1 (zh) * | 2012-04-05 | 2013-10-10 | 深圳华大基因健康科技有限公司 | 一种拷贝数变异检测方法和系统 |
US20160224724A1 (en) * | 2013-05-24 | 2016-08-04 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
WO2016090583A1 (zh) * | 2014-12-10 | 2016-06-16 | 深圳华大基因研究院 | 测序数据处理装置和方法 |
US20180201990A1 (en) * | 2015-05-06 | 2018-07-19 | Nanjing Annoroad Gene Technology Co., Ltd. | Kit, apparatus, and method for detecting chromosome aneuploidy |
WO2017083310A1 (en) * | 2015-11-09 | 2017-05-18 | Inkaryo Corporation | A normalization method for sample assays |
CN110268044A (zh) * | 2017-03-07 | 2019-09-20 | 深圳华大生命科学研究院 | 一种染色体变异的检测方法及装置 |
WO2018161245A1 (zh) * | 2017-03-07 | 2018-09-13 | 深圳华大基因研究院 | 一种染色体变异的检测方法及装置 |
US20180300450A1 (en) * | 2017-04-17 | 2018-10-18 | Counsyl, Inc. | Systems and methods for performing and optimizing performance of dna-based noninvasive prenatal screens |
CN107541561A (zh) * | 2017-04-18 | 2018-01-05 | 东莞博奥木华基因科技有限公司 | 提高母体外周血中胎儿游离dna浓度的试剂盒、装置及方法 |
US20190256924A1 (en) * | 2017-08-07 | 2019-08-22 | The Johns Hopkins University | Methods and materials for assessing and treating cancer |
CN111508559A (zh) * | 2020-04-21 | 2020-08-07 | 北京橡鑫生物科技有限公司 | 检测目标区域cnv的方法及装置 |
CN112669901A (zh) * | 2020-12-31 | 2021-04-16 | 北京优迅医学检验实验室有限公司 | 基于低深度高通量基因组测序的染色体拷贝数变异检测装置 |
CN113249453A (zh) * | 2021-07-08 | 2021-08-13 | 苏州赛美科基因科技有限公司 | 一种检测拷贝数变化的方法 |
CN113674803A (zh) * | 2021-08-30 | 2021-11-19 | 广州燃石医学检验所有限公司 | 一种拷贝数变异的检测方法及其应用 |
CN114267409A (zh) * | 2022-01-12 | 2022-04-01 | 深圳华大基因股份有限公司 | 无创产前基因检测测序数据的分析方法、装置及存储介质 |
CN114512187A (zh) * | 2022-02-22 | 2022-05-17 | 天津华大医学检验所有限公司 | 一种检测α-珠蛋白基因拷贝数变异的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115132271B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Comprehensively benchmarking applications for detecting copy number variation | |
Mc Cartney et al. | Chasing perfection: validation and polishing strategies for telomere-to-telomere genome assemblies | |
Li et al. | Relationship estimation from whole-genome sequence data | |
Kao et al. | BayesCall: A model-based base-calling algorithm for high-throughput short-read sequencing | |
Do et al. | Bayesian inference for gene expression and proteomics | |
CN106715711B (zh) | 确定探针序列的方法和基因组结构变异的检测方法 | |
Rüeger et al. | Evaluation and application of summary statistic imputation to discover new height-associated loci | |
US20130110407A1 (en) | Determining variants in genome of a heterogeneous sample | |
CN110010197B (zh) | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 | |
JP6762932B2 (ja) | シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス | |
US20190338349A1 (en) | Methods and systems for high fidelity sequencing | |
KR102425673B1 (ko) | 시퀀싱 데이터 리드 재정렬 방법 | |
CN114999573A (zh) | 一种基因组变异检测方法及检测系统 | |
Chen et al. | SomatiCA: identifying, characterizing and quantifying somatic copy number aberrations from cancer genome sequencing data | |
WO2010096696A2 (en) | Harnessing high throughput sequencing for multiplexed specimen analysis | |
CN116386718B (zh) | 检测拷贝数变异的方法、设备和介质 | |
Kremer et al. | Approaches for in silico finishing of microbial genome sequences | |
Berg et al. | XPRESSyourself: Enhancing, standardizing, and automating ribosome profiling computational analyses yields improved insight into data | |
CN114530199A (zh) | 基于双重测序数据检测低频突变的方法、装置及存储介质 | |
CN115132271A (zh) | 一种基于批次内校正的cnv检测方法 | |
Forde et al. | Review and further developments in statistical corrections for Winner’s Curse in genetic association studies | |
CN111210873B (zh) | 基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质 | |
Zhang et al. | Quality control metrics improve repeatability and reproducibility of single-nucleotide variants derived from whole-genome sequencing | |
CN115631790A (zh) | 单细胞转录组测序数据的体细胞突变提取方法及装置 | |
CN109390039B (zh) | 一种统计dna拷贝数信息的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |