CN116716397A - 检测dmd基因变异的方法及装置和探针、试剂盒 - Google Patents
检测dmd基因变异的方法及装置和探针、试剂盒 Download PDFInfo
- Publication number
- CN116716397A CN116716397A CN202310811844.3A CN202310811844A CN116716397A CN 116716397 A CN116716397 A CN 116716397A CN 202310811844 A CN202310811844 A CN 202310811844A CN 116716397 A CN116716397 A CN 116716397A
- Authority
- CN
- China
- Prior art keywords
- probe
- sample
- tested
- cnv
- variation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000523 sample Substances 0.000 title claims abstract description 307
- 101150015424 dmd gene Proteins 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 90
- 238000004458 analytical method Methods 0.000 claims abstract description 66
- 238000012163 sequencing technique Methods 0.000 claims description 107
- 238000009396 hybridization Methods 0.000 claims description 63
- 239000013068 control sample Substances 0.000 claims description 31
- 230000035772 mutation Effects 0.000 claims description 27
- 230000007614 genetic variation Effects 0.000 claims description 23
- 239000011324 bead Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 20
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 18
- 108020004518 RNA Probes Proteins 0.000 claims description 11
- 239000003391 RNA probe Substances 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 10
- 239000003298 DNA probe Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 108020003215 DNA Probes Proteins 0.000 claims 3
- 206010013801 Duchenne Muscular Dystrophy Diseases 0.000 abstract description 38
- 238000012217 deletion Methods 0.000 abstract description 31
- 230000037430 deletion Effects 0.000 abstract description 31
- 239000012634 fragment Substances 0.000 abstract description 9
- 230000035945 sensitivity Effects 0.000 abstract description 4
- 238000003793 prenatal diagnosis Methods 0.000 abstract description 3
- 238000012216 screening Methods 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 description 18
- 238000003752 polymerase chain reaction Methods 0.000 description 16
- 108700024394 Exon Proteins 0.000 description 14
- 239000000243 solution Substances 0.000 description 12
- 108020004414 DNA Proteins 0.000 description 11
- 108010090804 Streptavidin Proteins 0.000 description 11
- 239000000047 product Substances 0.000 description 8
- 239000003153 chemical reaction reagent Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 239000006228 supernatant Substances 0.000 description 7
- 230000003321 amplification Effects 0.000 description 6
- 238000003556 assay Methods 0.000 description 6
- 230000000903 blocking effect Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012165 high-throughput sequencing Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000004544 DNA amplification Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 108091092195 Intron Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007403 mPCR Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 239000002077 nanosphere Substances 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 238000007480 sanger sequencing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000011534 wash buffer Substances 0.000 description 3
- 208000032170 Congenital Abnormalities Diseases 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 108020004682 Single-Stranded DNA Proteins 0.000 description 2
- 230000007698 birth defect Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000029578 Muscle disease Diseases 0.000 description 1
- 101100384865 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cot-1 gene Proteins 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 210000001766 X chromosome Anatomy 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000005546 dideoxynucleotide Substances 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 239000011259 mixed solution Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 108010028584 nucleotidase Proteins 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供了一种检测DMD基因变异的方法及装置和探针、试剂盒,包括对待测样本同时进行SNV、indel和CNV检测分析;通过本申请的检测DMD基因变异的方法,可以确保目标区域捕获的均一性,极大的提高了SNV和indel检出的全面性,以及片段缺失和重复检出的灵敏度(单个外显子水平)。本申请的方法能够一体化高效检测DMD基因上发生的CNV、SNV和indel,可用于DMD患者检测、携带DMD基因变异的个体筛查和产前诊断等方向。
Description
技术领域
本申请涉及分子生物学及生物信息学技术领域,特别是涉及一种检测DMD基因变异的方法及装置和探针、试剂盒。
背景技术
这里的陈述仅提供与本申请有关的背景信息,而不必然构成现有技术。
假肥大型肌营养不良症(Duchenne muscular dystrophy,DMD)是由DMD基因突变所致的X连锁的隐性单基因遗传病,是一种比较常见的严重致死性遗传性肌肉疾病。DMD在新生男性婴儿中的发病率为1/3500,目前对于DMD的治疗尚无有效的手段,因此,对于DMD基因变异的高效且准确的检测尤为重要。
DMD基因位于X染色体上,长度为2.4Mb,包含79个外显子,是目前发现的人类最大的基因。DMD基因致病突变类型多,包括单核苷酸变异(SNV),小片段插入缺失(indel),大片段缺失和重复(CNV)。在大片段的缺失和重复中,其中大片段缺失(≥1个外显子)约占全部突变的55%~65%,最常见的缺失区域是位于DMD基因中央区域45~55号外显子,约占80%;另一个热点区域位于基因5’端2~20号外显子,约占20%。大片段重复(≥1个外显子)约占5%~10%,最常见的重复区域为2~9号外显子。基因中外显子和侧翼区域的突变约占20%,无明显的热点区域;剪切位点突变占1%;indel约占7%,除此之外,还有部分突变位于内含子区域。
目前,DMD基因突变的检测方法主要有以下几种:微阵列比较基因组杂交技术(a-CGH)、多重连接探针扩增技术(MLPA)、多重PCR(multiplex PCR)、双脱氧核苷酸末端终止法(Sanger sequencing)和第二代测序技术(Next-generation sequencing,NGS)等。aCGH无法检测点突变,且设备、芯片制备和分析等成本都较高等缺点,导致aCGH难以广泛用于DMD的诊断。MLPA也有其缺点:1、不能检测SNV;2、MLPA可检测外显子的缺失或重复,但可能漏检部分缺失或重复,尤其是用于检测缺失或重复片段较小的女性携带者时,漏检发生率更高,出现假阴性;3、当SNV发生在探针连接点上时,探针捕获目标区域失败,易被误判为整个外显子的缺失,出现假阳性。多重PCR分析技术,受限于引物的设计和扩增效率,适用于对缺失范围大且热点的区域进行快速的检测,能够发现98%的大片段缺失,具有成本低、实验周期短的优势,但很难检测出单个外显子级别的缺失重复。Sanger测序只能检测SNV和indel,且检测的核酸长度有限(<1kb),DNA用量大,尤其在检测诸如DMD这样庞大而有众多外显子的基因时,很难得到广泛的应用。NGS定量不够准确,检测CNV的效果较差;对DMD基因2个外显子以下的拷贝数变异容易漏检。
由于DMD基因的突变在基因上的分布范围广且类型繁多,目前很难被单一的临床检测技术一次性全部检出。如何实现一体化高效检测DMD基因上发生的CNV、SNV和indel,且覆盖突变种类更为全面的检测方法及产品,以期实现对DMD基因的缺失型和突变型的高效、准确和全面检测,目前暂未有记载。
发明内容
基于此,有必要提供一种检测DMD基因变异的方法,用于一体化高效检测DMD基因变异。
本申请的第一个方面,提供了一种检测DMD基因变异的方法,包括对待测样本进行SNV、indel和CNV检测分析;
其中,对待测样本进行SNV和indel检测分析时,包括如下步骤:获取待测样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的测序数据;将所述待测样本的测序数据与人类参考基因组进行比对;根据比对结果得到关于待测样本的SNV和indel变异结果。
对待测样本进行CNV检测分析时,包括如下步骤:分别获取待测样本的测序数据和对照样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的包含靶标区域和非靶标区域的测序数据;分别将所述待测样本的测序数据和所述对照样本的测序数据进行窗口划分,其中,靶标区域按照90bp~200bp的长度进行窗口划分,非靶标区域按照25kb~35kb的长度的进行窗口划分;将所述待测样本的测序数据和所述对照样本的测序数据进行比对,获得待测样本各窗口的log2ratio值;根据所述log2ratio值鉴别待测样本的CNV变异结果。
在其中一个实施例中,所述预设探针探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
在其中的一个实施例中,所述预设探针包括序列分别如SEQ ID No.1~SEQ IDNo.43所示的RNA探针或其对应的DNA探针。
在其中一个实施例中,对待测样本进行CNV检测分析时,比对的步骤包括:分别获取各窗口待测样本的reads数目R1与对照样本的reads数目R2,根据R1和R2分别计算各窗口待测样本的平均测序深度X和对照样本的平均测序深度Y,Log2(X/Y)即所述的log2ratio值。
在其中一个实施例中,对待测样本进行CNV检测分析时,还包含分别对待测样本的reads数和对照样本的reads数进行数据矫正的步骤;所述数据矫正的过程包括GC校正和标准化。
在其中一个实施例中,对待测样本进行CNV检测分析时,根据所述log2ratio值鉴别待测样本的CNV变异结果包括:根据待测样本各窗口的log2ratio值分析待测样本各窗口的CNV变异类型;合并待测样本中CNV变异类型相同且其间隔的长度小于1000bp的相邻窗口;根据合并的各窗口的CNV变异类型鉴别待测样本的CNV变异结果。
本申请的第二个方面,提供了一种检测DMD基因变异的装置,包括SNV与indel检测分析装置和CNV检测分析装置。
在其中一个实施例中,所述SNV与indel检测分析装置包括第一数据获取模块、第一比对模块和第一变异分析模块;所述第一数据获取模块用于获取待测样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的测序数据;所述第一比对模块用于将所述待测样本的测序数据与人类参考基因组进行比对;所述第一变异分析模块用于根据比对结果得到关于待测样本的SNV和indel变异结果。
在其中一个实施例中,所述CNV检测分析装置包括第二数据获取模块、窗口划分模块、第二比对模块和第二变异分析模块。
所述第二数据获取模块用于分别获取待测样本的测序数据和对照样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的包含靶标区域和非靶标区域的测序数据。
所述窗口划分模块用于分别将所述待测样本的测序数据和所述对照样本的测序数据进行窗口划分,其中,靶标区域按照90bp~200bp的长度进行窗口划分,非靶标区域按照25kb~35kb的窗口进行划分。
所述第二比对模块用于将所述待测样本的测序数据和所述对照样本的测序数据进行比对,获得待测样本各窗口的log2ratio值。
所述第二变异分析模块用于根据所述log2ratio值鉴别待测样本的CNV变异结果。
在其中一个实施例中,所述预设探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
在其中一个实施例中,所述预设探针包括序列分别如SEQ ID No.1~SEQ IDNo.43所示的RNA探针或其对应的DNA探针。
在其中一个实施例中,所述第二比对模块用于分别获取各窗口待测样本的reads数目R1与对照样本的reads数目R2,根据R1和R2分别计算各窗口待测样本的平均测序深度X和对照样本的平均测序深度Y,Log2(X/Y)即所述的log2ratio值。
在其中一个实施例中,所述第二变异分析模块还包括窗口合并模块和变异鉴别模块。
在其中一个实施例中,所述窗口合并模块用于根据待测样本各窗口的log2ratio值分析待测样本各窗口的CNV变异类型,并合并待测样本中CNV变异类型相同且其间隔的长度小于1000bp的相邻窗口。
在其中一个实施例中,所述变异鉴别模块用于根据合并的各窗口CNV变异类型鉴别待测样本的CNV变异结果。
本申请的第三个方面,提供了一种计算机设备,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现检测DMD基因变异的分析方法的步骤。
本申请的第四个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现检测DMD基因变异的方法的步骤。
本申请的第五个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现检测DMD基因变异的方法的步骤。
本申请的第六个方面,提供了一种用于检测DMD基因变异的探针,所述探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
在其中一个实施例中,所述探针片段的序列包括如SEQ ID No.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
本申请的第七个方面,提供了一种检测DMD基因变异的试剂盒,包括所述的探针;
所述试剂盒还包括磁珠、乙醇和杂交预混液中的一种或者多种。
与传统的技术相比,本申请还包括如下有益效果:
本申请提供了一种的检测DMD基因变异的方法,包括对待测样本同时进行SNV、indel和CNV检测分析。通过本申请的检测DMD基因变异的方法,可以确保目标区域捕获的均一性,极大的提高了SNV和indel检出的全面性,以及片段缺失和重复检出的灵敏度(单个外显子水平)。使用本申请的探针进行检测时,仅需要一次实验,就能够一体化高效检测DMD基因上发生的CNV、SNV和indel,具有检测全面、高效、灵敏度高、准确性好的优点,可用于携带者筛查和产前诊断等方向,阻止DMD患儿出生,降低其出生缺陷,有利于在临床实践中推广应用。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例的SNV和indel检测分析方法的流程示意图;
图2为本申请另一实施例的CNV检测分析方法的流程示意图;
图3为本申请一实施例的SNV和indel检测分析装置的结构示意图;
图4为本申请另一实施例的CNV检测分析装置的结构示意图;
图5为图4中的第二变异分析模块的一具体结构示意图;
图6为一实施例的检测DMD基因变异检测原理示意图;
图7为一实施例的DMD基因部分区域的探针覆盖示意图;
图8为样本S1的检测结果散点图(DMD基因的51号外显子缺失);
图9为样本S2的检测结果散点图(DMD基因的13-17号外显子缺失);
图10为样本S3的检测结果散点图(DMD基因的48-53号外显子缺失);
图11为样本S4的检测结果散点图(DMD基因的44号外显子重复);
图12为样本S5的检测结果散点图(DMD基因的46-47号外显子缺失);
图13为样本S6的检测结果散点图(DMD基因的51号外显子缺失);
图14为样本S7的检测结果散点图(DMD基因的5-7号外显子重复);
图15为样本S8的检测结果散点图(DMD基因的2号外显子重复);
图16为S1样本DMD基因MLPA检测结果(DMD基因的51号外显子缺失);
图17为S2样本DMD基因MLPA检测结果(DMD基因的13-17号外显子缺失);
图18为S3样本DMD基因MLPA检测结果(DMD基因的48-53号外显子缺失);
图19为S4样本DMD基因MLPA检测结果(DMD基因的51号外显子重复);
图20为S5样本DMD基因MLPA检测结果(DMD基因的46-47号外显子缺失);
图21为S6样本DMD基因MLPA检测结果(DMD基因的51号外显子缺失);
图22为S7样本DMD基因MLPA检测结果(DMD基因的5-7号外显子重复);
图23为S8样本DMD基因MLPA检测结果(DMD基因的2号外显子重复);
图24为S9样本DMD基因Sanger检测结果(NM_000109.4:c.2621T>C);
图25为S10样本DMD基因Sanger检测结果(NM_000109.4:c.1307+1C>A)。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
术语
除非另外说明或存在矛盾之处,本文中使用的术语或短语具有以下含义:
本申请中,涉及“和/或”、“或/和”、“及/或”的选择范围包括两个或两个以上相关所列项目中任一个项目,也包括相关所列项目的任意的和所有的组合,所述任意的和所有的组合包括任意的两个相关所列项目、任意的更多个相关所列项目、或者全部相关所列项目的组合。需要说明的是,当用至少两个选自“和/或”、“或/和”、“及/或”的连词组合连接至少三个项目时,应当理解,该技术方案毫无疑问地包括均用“逻辑与”连接的技术方案,还毫无疑问地包括均用“逻辑或”连接的技术方案。
本申请中,涉及“可选地”、“可选的”、“可选”,指可有可无,也即指选自“有”或“无”两种并列方案中的任一种。如果一个技术方案中出现多处“可选”,如无特别说明,且无矛盾之处或相互制约关系,则每项“可选”各自独立。
本申请中,涉及“优选”、“更好”、“更佳”、“为宜”仅为描述效果更好的实施方式或实施例,应当理解,并不构成对本申请保护范围的限制。
本申请中,涉及“第一方面”、“第二方面”、“第三方面”、“第四方面”等中,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,不能理解为指示或暗示相对重要性或数量,也不能理解为隐含指明所指示的技术特征的重要性或数量。而且“第一”、“第二”、“第三”、“第四”等仅起到非穷举式的列举描述目的,应当理解并不构成对数量的封闭式限定。
本文所述的“reads”即高通量测序平台(如各类二代测序平台)所产生的测序序列;所述的测序“深度”是指测序得到的总碱基数与待测基因组大小的比值,通常用单位“×”表示倍数;所述的“测序读长”是指测序过程一次测序的长度。
本文的“GC校正”中因为GC偏好可能会对特定的分析结果造成影响,放大变异影响真实信息,所以需要校正。简单的校正,就是统计每个GC含量(0,1,2,3,…,100%)下的特定bins的平均覆盖度,再计算所有bin的平均覆盖度,用来校正测序得到的覆盖度。
本文中“标准化”指将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
本申请中,以开放式描述的技术特征中,包括所列举特征组成的封闭式技术方案,也包括包含所列举特征的开放式技术方案。
目前,虽然已经有一些针对假肥大型肌营养不良症相关基因设计的探针,例如,一种检测DMD基因变异的检测探针组,包含546个核酸探针,所述探针通过两次杂交捕获后,检测待测样品中假肥大型肌营养不良症相关核酸分子的突变情况,但是该探针组只包括外显子和剪切位点区域的内含子部分,探针设计不够密集,检测的缺失重复的分辨率也不高;又如一种DMD基因捕获探针中制备了38954个亚探针,依次连接38954个亚探针,得到DMD基因捕获探针,但是仍存在当SNV发生在探针连接点上时,探针捕获目标区域失败,易被误判为整个外显子的缺失的缺点,且其探针还需要覆盖基因全长,成本较高。而且上述专利技术中针对假肥大型肌营养不良症设计的探针,均需要设计大量的探针才能实现假肥大型肌营养不良症相关基因的检测,因此过程较为繁琐、成本较高。本申请的技术方案,探针设计更密集,不仅包括所有外显子,剪切位点区域的内含子还包括深度内含子的热点突变,另外在内含子上的探针设计策略也是按照一定距离间隔排列,这对检测单外显子缺失很有利,无需覆盖基因全长的区域的前提下就能实现一体化高效检测DMD基因上发生的CNV、SNV和indel,即高效又经济。
本申请的第一个方面,提供了一种检测DMD基因变异的方法,包括对待测样本同时进行SNV、indel和CNV检测分析。
其中,对待测样本进行SNV和indel检测分析时,如图1所示,包括如下步骤:
S101:获取待测样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的测序数据;
S102:将所述待测样本的测序数据与人类参考基因组进行比对;
S103:根据比对结果得到关于待测样本的SNV和indel变异结果。
对待测样本进行CNV检测分析时,如图2所示,包括如下步骤:
S201:分别获取待测样本的测序数据和对照样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的包含靶标区域和非靶标区域的测序数据;
S202:分别将所述待测样本的测序数据和所述对照样本的测序数据进行窗口划分,其中,靶标区域按照90bp~200bp的长度进行窗口划分,非靶标区域按照25kb~35kb的长度的进行窗口划分;
S203:将所述待测样本的测序数据和所述对照样本的测序数据进行比对,获得待测样本各窗口的log2ratio值;S204根据所述log2ratio值鉴别待测样本的CNV变异结果。
在一个具体示例中,所述预设探针:覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
可选地,所述预设探针包括序列分别如SEQ ID No.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
在一个具体示例中,对待测样本进行CNV检测分析时,比对的步骤包括:
分别获取各窗口待测样本的reads数目R1与对照样本的reads数目R2,根据R1和R2分别计算各窗口待测样本的平均测序深度X和对照样本的平均测序深度Y,Log2(X/Y)即所述的log2ratio值。
可选地,对待测样本进行CNV检测分析时,还包含分别对待测样本的reads数和对照样本的reads数进行数据矫正的步骤;所述数据矫正的过程包括GC校正和标准化。
可选地,对待测样本进行CNV检测分析时,根据所述log2ratio值鉴别待测样本的CNV变异结果包括:根据待测样本各窗口的log2ratio值分析待测样本各窗口的CNV变异类型;合并待测样本中CNV变异类型相同且其间隔的长度小于1000bp的相邻窗口;根据合并的各窗口CNV变异类型鉴别待测样本的CNV变异结果。
可选地,所述的待测样本的类型选自血液和组织中的一种。
本申请的第二个方面,提供了一种检测DMD基因变异的装置,包括SNV与indel检测分析装置和CNV检测分析装置。
如图3所示,本申请提供的SNV与indel检测分析装置30包括第一数据获取模块31、第一比对模块32和第一变异分析模块33。
第一数据获取模块31用于获取待测样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的测序数据。
第一比对模块S32用于将所述待测样本的测序数据与人类参考基因组进行比对。
第一变异分析模块S33用于根据比对结果得到关于待测样本的SNV和indel变异结果。
如图4所示,本申请提供的CNV检测分析装置40包括第二数据获取模块41、窗口划分模块42、第二比对模块43和第二变异分析模块44。
第二数据获取模块41用于分别获取待测样本的测序数据和对照样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的包含靶标区域和非靶标区域的测序数据。
窗口划分模块42用于分别将所述待测样本的测序数据和所述对照样本的测序数据进行窗口划分,其中,靶标区域按照90bp~200bp的长度进行窗口划分,非靶标区域按照25kb~35kb的窗口进行划分。
第二比对模块43用于将所述待测样本的测序数据和所述对照样本的测序数据进行比对,获得待测样本各窗口的log2ratio值。
第二变异分析模块44用于根据所述log2ratio值鉴别待测样本的CNV变异结果。
可选地,所述预设探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
可选地,所述预设探针包括序列分别如SEQ ID No.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
可选地,第二比对模块43用于分别获取各窗口待测样本的reads数目R1与对照样本的reads数目R2,根据R1和R2分别计算各窗口待测样本的平均测序深度X和对照样本的平均测序深度Y,Log2(X/Y)即所述的log2ratio值。
如图5所示,具体地,在一个实施例中,第二变异分析模块44还包括窗口合并模块441和变异鉴别模块442。
窗口合并模块441用于根据待测样本各窗口的log2ratio值分析待测样本各窗口的CNV变异类型,并合并待测样本中基CNV变异类型相同且其间隔的长度小于1000bp的相邻窗口。
变异鉴别模块442用于根据合并的各窗口CNV变异类型鉴别待测样本的CNV变异结果。
本申请的第三个方面,提供了一种计算机设备,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例的检测DMD基因变异的分析方法的步骤。
该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。当该计算机设备为终端时,还包括与系统总线连接的显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现检测DMD基因变异的分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
据此,本申请的第六个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例检测DMD基因变异的方法的步骤。
本申请的第五个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施例检测DMD基因变异的方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(DynamicRandomAccess Memory,DRAM)等。
本申请的第六个方面,提供了一种用于检测DMD基因变异的探针,所述探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
可选地,所述探针包括序列分别如SEQ ID No.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
优选地,所述探针为RNA探针,所述探针序列分别如SEQ ID No.1~SEQ ID No.43所示。
可选地,所述探针摆放满足以下条件的一种或多种:覆盖至少3层探针;探针的摆放方式为交替排放。
本申请的第七个方面,提供了一种检测DMD基因变异的试剂盒,包括所述的探针。
可选地,所述试剂盒还包括磁珠、乙醇和杂交预混液中的一种或者多种。
可选地,所述杂交预混液包括:杂交缓冲液、封闭试剂和无核酸酶水。
以下结合具体实施例进行进一步说明,以下具体实施例中所涉及的原料,若无特殊说明,均可来源于市售,所使用的仪器,若无特殊说明,均可来源于市售,所涉及到的工艺,如无特殊说明,均为本领域技术人员常规选择。
实施例1
本实施例提供了一种检测DMD基因变异的方法,采用全外显子测序进行测序检测。全外显子组测序(WES)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。
1.探针序列的设计
用于检测假肥大型肌营养不良症相关致病基因的探针是针对DMD基因的外显子和内含子区域设计的探针。所述探针的探针类型为RNA探针,长度为100bp,覆盖的目标基因区域为chrX:31137039-33357605,参考GRCh37.p13版本,所探针的探针序列可与目标基因碱基互补配对。同时,对探针的探针密度也进行了精心优化设计,其中,对于GC含量为40%~60%的目标基因区域,所述探针的浓度为1;对于GC含量为30%~39%和61%~70%的目标基因区域,所述探针的浓度会上调至1的2~4倍,对于GC含量为15%~29%和71%~80%的目标基因区域,所述探针的浓度会上调至1的8~16倍。对于探针的摆放位置,覆盖至少3层探针,探针的摆放为交替排放。
所述探针序列如表1中SEQ ID NO:1~SEQ ID NO:43所示。
表1
/>
/>
2.基因组DNA提取和预文库的构建
采用QIAamp DNA Blood Mini Kit对外周血样本的全基因组DNA提取,并对提取完成的DNA进行质检。
采用KAPA Hyperplus kit进行基因组预文库构建:对上述质检完成的DNA进行片段化,末端修复加A尾,接头连接处理,纯化接头连接后的产物,对纯化后的产物进行PCR扩增,再对扩增后的产物进行纯化处理,获得基因组预文库。并对构建完的基因组预文库进行Qubit质检。
3.目标区域基因杂交捕获
(1)准备PCR管,做好标记,取750ng文库加入PCR管中,使用无核酸酶水补至30μL向每个PCR管中加入54μL体积的AMPure XP磁珠涡旋混匀,室温静置5分钟后,置于磁力架上,待液体澄清后,弃去上清,使用现配制的80%乙醇清洗AMPure XP磁珠两遍,弃去乙醇,最后室温晾干AMPure XP磁珠,加入28μL杂交预混液(预混液配制如表2)进行洗脱,最后加入2μL步骤1所述的探针,涡旋混匀,短暂离心后置于基因扩增仪上,80℃孵育5分钟后,50℃孵育16~24小时。封闭试剂A(Human Cot-1 DNATM)购自Thermofisher,封闭试剂B和C购自北京艾吉泰康生物技术有限公司。
表2杂交预混液配制
组分 | 体积(μL) |
杂交缓冲液 | 13 |
封闭试剂A | 5 |
封闭试剂B | 2 |
封闭试剂C | 5 |
无核酸酶水 | 3 |
总体积 | 28 |
(2)清洗链霉亲和素磁珠:使用Dynabeads链霉亲和素(Thermofisher)进行目标区域的富集,从4℃取出链霉亲和素磁珠,涡旋混匀,置于室温平衡30分钟。向PCR管中加入100μL链霉亲和素磁珠,置于磁力架上1分钟待溶液澄清,弃上清,加入180μL清洗缓冲液1,轻轻吸打数次混匀,重悬链霉亲和素磁珠,置于磁力架上1分钟待溶液澄清,弃上清,共清洗链霉亲和素磁珠三次。加入180μL清洗缓冲液1轻轻吸打重悬链霉亲和素磁珠待用。
(3)保持杂交产物在基因扩增仪上,将重悬后的180μL链霉亲和素磁珠加入到杂交产物中,用移液器轻轻吸打混匀。
(4)将PCR管从基因扩增仪上取出,置于旋转混匀仪上,室温结合30分钟。
(5)30分钟后取下PCR管,瞬时离心,将PCR管置于磁力架上待溶液澄清,弃清液。
(6)向PCR管内加入150μL的清洗缓冲液2,轻轻吸打混匀,置于旋转混匀仪上清洗15分钟。
(7)15分钟后,短暂离心,将PCR管放于磁力架上待溶液澄清,弃上清。
(8)加入150μL 50℃预热的清洗缓冲液3,轻轻吸打数次混匀置于金属浴上,50℃孵育10分钟。
(9)取出PCR管,短暂离心,将PCR管放于磁力架上待溶液澄清,弃上清。
(10)重复步骤(8)~(9)两次,共清洗链霉亲和素磁珠三次。
(11)向PCR管内加入150μL 80%乙醇溶液,室温静置30秒后彻底移除乙醇溶液,室温晾干。
(12)向PCR管中加入48μL无核酸酶水,取下PCR管,用移液器轻轻吸打重悬混匀链霉亲和素磁珠待用。(此时目标样本在链霉亲和素磁珠上,不要丢弃磁珠)。
(13)捕获后PCR扩增:按照表3试剂顺序,在冰盒上配置反应体系,配置完成后,吸打混匀后,短暂离心后置于基因扩增仪上,按照表4程序进行反应。
表3捕获后PCR扩增体系
注:捕获后扩增酶混合液为VAHTS Hifi Amplification Mix(南京诺唯赞生物科技有限公司);捕获后引物混合液购自上海生工生物合成
表4捕获后PCR扩增程序
(14)扩增产物纯化:向每个样本管中加入55μL AMPure XP磁珠涡旋混匀,室温静置5分钟后,置于磁力架上,待液体澄清后,弃去上清,使用现配制的80%乙醇清洗AMPureXP磁珠两遍,弃去乙醇,最后室温晾干AMPure XP磁珠,加入30μL无核酸酶水洗脱产物。
(15)文库浓度测定,取1μL文库使用Qubit荧光计进行浓度测定。
4.高通量测序和数据分析
高通量测序使用MGI平台测序仪,按照测序仪标准操作规程进行,根据测序平台的不同,可以对文库进行相应的处理。如华大平台要求上机的文库为纳米球(DNB),制备好的靶基因文库需要变性成单链DNA,再通过连接反应将单链DNA连接成单链环状DNA,制备成纳米球文库后再在华大平台上机测序,获得测序数据。每个样本的数据量应不低于10Gb,平均测序深度不低于100x。
所述测序数据采用下面的数据分析流程进行数据分析。
(1)对于SNV和indel的检测分析:
a.使用BWA软件,MEM算法,将待测样本的测序原始数据(Fastq)比对到人类参考基因组上,输出SAM/BAM格式文件。
b.使用GATK进行变异识别,输出VCF(Variant Call Format)文件,VCF文件的可视化,获得SNV和indel的检测结果。
(2)对于CNV检测分析:
a.将待测样本的测序原始数据转化为bed文件,对bed文件进行预处理:对探针杂交捕获区域分割,添加非靶标区域窗口;靶标区域按照200bp窗口进行划分,非靶标区域按照30kb的窗口进行划分,非靶标区域可以辅助CNV分析,特别是300kb以下的CNV。
分别计算上述bed文件每个窗口的reads数和平均测序深度,参考GATK CNV检测原理,采用GC校正,tanget_normalization数据进行标准化。
平均测序深度的计算公式为:每个窗口比对上的碱基数(每条read的碱基长度累加和)/对应窗口的长度。
b.构建对照样本数据集:男性样本和女性样本分别构建对照样本数据集,对照样本数量最好在40个样本以上,所述对照样本为CNV阴性且无疾病表型、DMD区域无缺失和重复的样本。
对照样本测序深度GC校正后,进行PCA降维;默认选择与测试样本在前三个主成分中欧氏距离最小的样本作为对照,进行标准化(相当于为测试样本选择一批测序深度足够和相似文库特异偏好性的样本作为对照)。
c.计算log2ratio。根据上述各窗口的待测样本的平均测序深度X和对照样本的平均测序深度Y,Log2(X/Y)即所述的log2ratio值。
d.合并窗口和鉴别CNV类型:采用DNAcopy R package CBS进行区间合并,先将待测样本的平均测序深度相近(显著性检验P>0.05)的窗口进行合并,再统计每个合并后的窗口区域的log2ratio值,若log2ratio值大于0.3则该区域的CNV变异类型定义为重复,log2ratio值小于-0.3则定义为缺失,log2ratio值在-0.3~0.3之间为正常。若识别出的相邻窗口的CNV区域变异类型一致且间隔的长度小于1000bp,则相邻区域再次进行合并,直至获得待测样本的CNV的检测结果。
检测结果
募集了10例DMD待检样本的外周血样本,使用本实施例1的方法进行致病变异的检测。实验操作流程详见上述实施例1中的实验操作过程。
10例DMD待检样本的检测数据质控如表5所示。其中8例样本的检测结果如图8~图15所示,另外2例样本的检测结果如表6所示:
表5测序数据质控指标
表6 S9和S10的检测结果
上述结果说明:使用本实施例的探针构建10例DMD待检样本(S1~S10)的全外显子组文库,在MGI平台进行高通量测序。测序完成后对测序数据进行分析,数据质控满足分析需求,其中S1~S8 8例样本检测结果如图8~图15所示,为外显子水平的缺失或重复,其中S1,S6,S8的变异为单个外显子的缺失或重复。S9和S10这2例样本检测结果为SNV,如表6所示。上述变异类型本申请方法均能成功检出。
为了验证本申请实施例1中技术的检测准确性和特异性,采用MLPA方法验证上述具有外显子缺失或重复的8例样本,验证结果如图16~图23所示,使用Sanger测序验证了上述具有SNV的2例样本,验证结果如图24和图25所示。验证结果与本申请检测结果一致,说明本申请的方法检测准确性好和特异性高。
本申请的所述探针的检测方法同时结合优化的生信分析流程,对捕获区域内的变异进行分析,不仅可同步实现对DMD相关基因的各种致病突变的高效检测,同时对于其他单基因遗传病的高效且全面的检测也具有重大的意义,大大提高了临床医生的诊断效率。
因此,使用本申请的探针进行DMD基因变异检测时,仅需一次实验,就能够一体化高效检测DMD基因上发生的CNV、SNV和indel,对于探针密度较大的区域内发生的CNV,分辨率可提升至单个外显子水平,具有检测全面、高效、灵敏度高、准确性好的优点,节约了检测成本,可用于携带者筛查和产前诊断等方向,阻止DMD患儿出生,降低其出生缺陷,有利于在临床实践中推广应用。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (18)
1.一种检测DMD基因变异的方法,其特征在于,包括对待测样本同时进行SNV、indel和CNV检测分析;
其中,对待测样本进行SNV和indel检测分析时,包括如下步骤:
获取待测样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的测序数据;
将所述待测样本的测序数据与人类参考基因组进行比对;
根据比对结果得到关于待测样本的SNV和indel变异结果;
对待测样本进行CNV检测分析时,包括如下步骤:
分别获取待测样本的测序数据和对照样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的包含靶标区域和非靶标区域的测序数据;
分别将所述待测样本的测序数据和所述对照样本的测序数据进行窗口划分,其中,靶标区域按照90bp~200bp的长度进行窗口划分,非靶标区域按照25kb~35kb的长度的进行窗口划分;
将所述待测样本的测序数据和所述对照样本的测序数据进行比对,获得待测样本各窗口的log2ratio值;
根据所述log2ratio值鉴别待测样本的CNV变异结果。
2.根据权利要求1所述的方法,其特征在于,所述预设探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
3.根据权利要求2所述的方法,其特征在于,所述预设探针包括序列分别如SEQ IDNo.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
4.根据权利要求1所述的方法,其特征在于,对待测样本进行CNV检测分析时,比对的步骤包括:
分别获取各窗口待测样本的reads数目R1与对照样本的reads数目R2,根据R1和R2分别计算各窗口待测样本的平均测序深度X和对照样本的平均测序深度Y,log2(X/Y)即所述的log2ratio值。
5.根据权利要求4所述的方法,其特征在于,对待测样本进行CNV检测分析时,
还包含分别对待测样本的reads数和对照样本的reads数进行数据矫正的步骤;
所述数据矫正的过程包括GC校正和标准化。
6.根据权利要求1~5任一项所述的方法,其特征在于,对待测样本进行CNV检测分析时,根据所述log2ratio值鉴别待测样本的CNV变异结果包括:
根据待测样本各窗口的log2ratio值分析待测样本各窗口的CNV变异类型;
合并待测样本中CNV变异类型相同且其间隔的长度小于1000bp的相邻窗口;
根据合并的各窗口的CNV变异类型鉴别待测样本的CNV变异结果。
7.一种检测DMD基因变异的装置,其特征在于,包括SNV与indel检测分析装置和CNV检测分析装置;
其中,所述SNV与indel检测分析装置包括第一数据获取模块、第一比对模块和第一变异分析模块;
所述第一数据获取模块用于获取待测样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的测序数据;
所述第一比对模块用于将所述待测样本的测序数据与人类参考基因组进行比对;
所述第一变异分析模块用于根据比对结果得到关于待测样本的SNV和indel变异结果;
所述CNV检测分析装置包括第二数据获取模块、窗口划分模块、第二比对模块和第二变异分析模块;
所述第二数据获取模块用于分别获取待测样本的测序数据和对照样本的测序数据,所述测序数据为使用预设探针杂交捕获后得到的包含靶标区域和非靶标区域的测序数据;
所述窗口划分模块用于分别将所述待测样本的测序数据和所述对照样本的测序数据进行窗口划分,其中,靶标区域按照90bp~200bp的长度进行窗口划分,非靶标区域按照25kb~35kb的窗口进行划分;
所述第二比对模块用于将所述待测样本的测序数据和所述对照样本的测序数据进行比对,获得待测样本各窗口的log2ratio值;
所述第二变异分析模块用于根据所述log2ratio值鉴别待测样本的CNV变异结果。
8.根据权利要求7所述的装置,其特征在于,所述预设探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
9.根据权利要求8所述的装置,其特征在于,所述预设探针包括序列分别如SEQ IDNo.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
10.根据权利要求9所述的装置,其特征在于,所述第二比对模块用于分别获取各窗口待测样本的reads数目R1与对照样本的reads数目R2,根据R1和R2分别计算各窗口待测样本的平均测序深度X和对照样本的平均测序深度Y,Log2(X/Y)即所述的log2ratio值。
11.根据权利要求10所述的装置,其特征在于,所述第二比对模块包括数据矫正模块;
所述数据矫正模块用于对待测样本的reads数和对照样本的reads数进行数据矫正;
所述数据矫正的过程包括GC校正和标准化。
12.根据权利要求7~11任一项所述的装置,其特征在于,所述第二变异分析模块包括窗口合并模块和变异鉴别模块;
所述窗口合并模块用于根据待测样本各窗口的log2ratio值分析待测样本各窗口的CNV变异类型,并合并待测样本中CNV变异类型相同且其间隔的长度小于1000bp的相邻窗口;
所述变异鉴别模块用于根据合并的各窗口CNV变异类型鉴别待测样本的CNV变异结果。
13.一种计算机设备,其特征在于,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~6任一项所述的检测DMD基因变异的分析方法的步骤。
14.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1~6任一项所述的检测DMD基因变异的分析方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~6任一项所述的检测DMD基因变异的分析方法的步骤。
16.一种用于检测DMD基因变异的探针,其特征在于,所述探针覆盖的区域为chrX:31137039-33357605,参考GRCh37.p13版本;探针的长度为90bp~120bp;探针的GC含量为45%~55%;探针密度根据探针杂交捕获区域的GC含量确定:对于GC含量为40%~60%的探针杂交捕获区域,所述探针密度为0.5~1.5;对于GC含量为30%~39%和61%~70%的探针杂交捕获区域,所述探针密度为1~6;对于GC含量为15%~29%和71%~80%的探针杂交捕获区域,所述探针密度为4~24。
17.根据权利要求16所述的探针,其特征在于,所述探针包括序列分别如SEQ IDNo.1~SEQ ID No.43所示的RNA探针或其对应的DNA探针。
18.一种检测DMD基因变异的试剂盒,其特征在于,包括权利要求16或17所述的探针;
所述试剂盒还包括磁珠、乙醇和杂交预混液中的一种或者多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310811844.3A CN116716397A (zh) | 2023-07-04 | 2023-07-04 | 检测dmd基因变异的方法及装置和探针、试剂盒 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310811844.3A CN116716397A (zh) | 2023-07-04 | 2023-07-04 | 检测dmd基因变异的方法及装置和探针、试剂盒 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116716397A true CN116716397A (zh) | 2023-09-08 |
Family
ID=87869734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310811844.3A Pending CN116716397A (zh) | 2023-07-04 | 2023-07-04 | 检测dmd基因变异的方法及装置和探针、试剂盒 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116716397A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117683894A (zh) * | 2024-02-04 | 2024-03-12 | 北京雅康博生物科技有限公司 | 一种检测泌尿系统肿瘤基因的方法、基因组合、捕获探针组合和试剂盒 |
CN117802204A (zh) * | 2024-01-03 | 2024-04-02 | 国药(武汉)精准医疗科技有限公司 | 一种突变位点富集式叠瓦探针、试剂盒、设计方法及应用 |
-
2023
- 2023-07-04 CN CN202310811844.3A patent/CN116716397A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117802204A (zh) * | 2024-01-03 | 2024-04-02 | 国药(武汉)精准医疗科技有限公司 | 一种突变位点富集式叠瓦探针、试剂盒、设计方法及应用 |
CN117683894A (zh) * | 2024-02-04 | 2024-03-12 | 北京雅康博生物科技有限公司 | 一种检测泌尿系统肿瘤基因的方法、基因组合、捕获探针组合和试剂盒 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020202153B2 (en) | Single-molecule sequencing of plasma DNA | |
CN106834502B (zh) | 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法 | |
TWI236502B (en) | Prediction of inflammatory disease | |
CN116716397A (zh) | 检测dmd基因变异的方法及装置和探针、试剂盒 | |
CN104531883B (zh) | Pkd1基因突变的检测试剂盒及检测方法 | |
US20230040907A1 (en) | Diagnostic assay for urine monitoring of bladder cancer | |
JP6073461B2 (ja) | 標的大規模並列配列決定法を使用した対立遺伝子比分析による胎児トリソミーの非侵襲的出生前診断 | |
EP3564391B1 (en) | Method, device and kit for detecting fetal genetic mutation | |
CN106715711A (zh) | 确定探针序列的方法和基因组结构变异的检测方法 | |
CN110029158B (zh) | 一种马凡综合征检测panel及其应用 | |
CN108753954B (zh) | 痴呆相关基因的捕获探针组、试剂盒、文库构建方法和用途 | |
CN102618549A (zh) | Ncstn突变型基因、其鉴定方法和工具 | |
Jang et al. | Comparative evaluation for the globin gene depletion methods for mRNA sequencing using the whole blood-derived total RNAs | |
Aracena et al. | Epigenetic variation impacts individual differences in the transcriptional response to influenza infection | |
CN112342303A (zh) | 一种基于ngs的人类y染色体str和snp遗传标记联合检测体系及检测方法 | |
CN116814767A (zh) | 用于检测α地中海贫血和β地中海贫血相关致病基因的探针组、试剂盒、方法及应用 | |
CN109097465B (zh) | Clip3基因的snp位点的应用 | |
CN106868128B (zh) | 一组辅助诊断乳腺癌的生物标记物及其应用 | |
Morin et al. | Genetic and epigenetic links to asthma | |
CN105802974B (zh) | Bcs1l基因突变体及其应用 | |
CN109097464B (zh) | Cfap43基因的snp位点的应用 | |
CN110205322B (zh) | 一种乳腺癌致病基因sec63的突变snp位点及其应用 | |
CN115161393A (zh) | 一种ikzf1基因外显子2-3多倍体检测试剂盒 | |
CN117721202A (zh) | 肺癌mrd检测用捕获探针池和试剂盒 | |
CN116640857A (zh) | 一种包含x染色体中55个微单倍型基因座的分型体系及其扩增引物和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |