CN117594122B - 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置 - Google Patents
一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置 Download PDFInfo
- Publication number
- CN117594122B CN117594122B CN202410077548.XA CN202410077548A CN117594122B CN 117594122 B CN117594122 B CN 117594122B CN 202410077548 A CN202410077548 A CN 202410077548A CN 117594122 B CN117594122 B CN 117594122B
- Authority
- CN
- China
- Prior art keywords
- sample
- analysis
- snp
- cnv
- roh
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 89
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 89
- 208000026487 Triploidy Diseases 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000000539 dimer Substances 0.000 title claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 145
- 238000001514 detection method Methods 0.000 claims abstract description 78
- 238000012937 correction Methods 0.000 claims abstract description 69
- 238000012163 sequencing technique Methods 0.000 claims abstract description 33
- 208000031655 Uniparental Disomy Diseases 0.000 claims abstract description 31
- 238000012164 methylation sequencing Methods 0.000 claims abstract description 16
- 210000000349 chromosome Anatomy 0.000 claims description 84
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 20
- 101001024425 Mus musculus Ig gamma-2A chain C region secreted form Proteins 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 15
- 108091029430 CpG site Proteins 0.000 claims description 12
- 210000004027 cell Anatomy 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 210000001519 tissue Anatomy 0.000 claims description 5
- 210000004381 amniotic fluid Anatomy 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 210000001161 mammalian embryo Anatomy 0.000 claims description 4
- 230000036438 mutation frequency Effects 0.000 claims description 4
- 239000000178 monomer Substances 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 abstract description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 230000035772 mutation Effects 0.000 description 6
- 208000020584 Polyploidy Diseases 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012268 genome sequencing Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 230000035935 pregnancy Effects 0.000 description 3
- 238000012070 whole genome sequencing analysis Methods 0.000 description 3
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 208000037280 Trisomy Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001605 fetal effect Effects 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 210000005260 human cell Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 208000017774 17q21.31 microdeletion syndrome Diseases 0.000 description 1
- 208000037047 1q21.1 microduplication syndrome Diseases 0.000 description 1
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 208000034743 Koolen-de Vries syndrome due to 17q21.31 microdeletion syndrome Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010000210 abortion Diseases 0.000 description 1
- 231100000176 abortion Toxicity 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 208000007921 chromosome 1q21.1 duplication syndrome Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000013020 embryo development Effects 0.000 description 1
- 230000011365 genetic imprinting Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Ecology (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置,所述方法包括:(1)将样本进行全基因组甲基化测序,获取样本在基因组上CpG的甲基化信息和覆盖深度信息;从WGBS测序数据中获取未校正的SNP基因型信息,并构建校正模型对SNP基因型信息进行校正,获取校正后的SNP基因型信息;(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。本发明基于WGBS的数据,实现一体化检测出甲基化、CNV、单亲二体、三倍体和ROH区域,检测过程简单、成本低,对于遗传检测技术领域具有重要意义。
Description
技术领域
本发明属于遗传检测技术领域,具体涉及一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置。
背景技术
甲基化水平异常、拷贝数变异(CNV)、单亲二体(UPD)、三倍体和存在连续性纯合片段(runs of homozygosity,ROH)是导致许多常见遗传疾病、妊娠失败、癌症和其他复杂疾病的大型基因组畸变,同时识别这些畸变对于了解疾病至关重要。
拷贝数目变异也称拷贝数目多态,是一种大小介于1 kb至3 Mb的DNA片段的变异,在人类基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性的总数,极大地丰富了基因组遗传变异的多样性。研究表明,孕妇群体中胎儿携带致病性拷贝数变异的比例可达1.6%~1.7%,远高于21、18、13-三体综合征0.2%的发生率。因此,对致病性CNVs的检测应作为产前诊断的重要内容之一。
正常人类细胞中包含两组染色体,一组来自父亲,一组来自母亲,三倍体是胎儿细胞中多了一组额外的染色体组,单亲二体是当一对的两条染色体都来自父亲或母亲一方时即为单亲二体,三倍体和单亲二体均是严重的染色体异常,是妊娠早期流产的重要原因之一。ROH是一种基因组区域中一定范围内连续呈现的杂合性丢失的现象,染色体存在ROH时提示可能存在UPD,UPD出现在特定的染色体上时,会由于遗传印记效应引起相关疾病。此外,ROH区域内发生孟德尔隐性遗传病的风险明显增加。
胚胎发育过程中的甲基化水平异常与妊娠失败具有一定的相关性,目前全基因组亚硫酸氢盐测序(WGBS)为甲基化检测的常规方法。该方法是在传统全基因组测序(WGS)的基础上使用亚硫酸氢盐将未甲基化的C转化为T,从而实现对基因组的甲基化水平进行检测。而WGS可以对拷贝数变异(CNV)、单亲二体(UPD)、三倍体和存在连续性纯合片段(runsof homozygosity,ROH)进行一体化地高效检测,但是无法对甲基化水平进行检测。
综上所述,现有技术中无有效方法进行低成本、高效地一体化检测,因此,开发一种对甲基化水平检测的同时对CNV、单亲二体、三倍体和ROH进行一体化有效检测的方法,对于遗传检查领域具有重要意义。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置。本发明基于全基因组重亚硫酸盐甲基化测序的WGBS的数据,在检测甲基化水平的同时也能够对CNV、单亲二体、三倍体和ROH进行同步检测,实现一体化检测出甲基化、CNV、单亲二体、三倍体和ROH区域,检测过程简单、成本低,对于遗传检测技术领域具有重要意义。
为达到此发明目的,本发明采用以下技术方案:
第一方面,本发明提供一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,所述方法包括:
(1)将样本进行全基因组甲基化测序,获取样本在基因组上CpG的甲基化信息和覆盖深度信息;从WGBS测序数据中获取未校正的SNP(单核苷酸多态性)基因型信息,并构建校正模型对SNP基因型信息进行校正,获取校正后的SNP基因型信息;
(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。
本发明创造性地设计遗传检测分析流程,提出了一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法,流程图如图1所示,所述方法能够基于全基因组重亚硫酸盐甲基化测序数据,一体化检测出甲基化水平、CNV、单亲二体、三倍体和ROH区域,简化了检测流程,提高了检测效率且降低了检测成本。
本发明中,以获取的WGBS测序数据进行甲基化水平分析,以校正后的SNP基因型信息进行CNV、单亲二体、三倍体和ROH区域分析。所述校正后的SNP基因型信息的获取如图2所示。
优选地,步骤(1)中,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率(BAF)。
优选地,步骤(1)中,所述获取样本在基因组上覆盖深度信息包括:将基因组分成每1 kb~100 kb一个的窗口,统计每个窗口的覆盖深度信息。
本发明中,所述覆盖深度信息包括样本基因组中窗口的覆盖深度,所述窗口的长度为1 kb~100 kb,包括但不限于2 kb、3 kb、4 kb、5 kb、6 kb、7 kb、8 kb、9 kb、10 kb、20kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、91 kb、92 kb、93 kb、94 kb、95 kb、96kb、97 kb、98 kb或99 kb等。
优选地,步骤(1)中,所述校正模型包括常规校正模型和特殊校正模型。
优选地,所述常规校正模型的构建方法包括:通过隐马尔可夫模型(HiddenMarkov Model,HMM),对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练,从而获得常规校正模型。
优选地,所述特殊校正模型的构建方法包括:对位于筛选后的人群常见SNP数据库的SNP基因型信息进行以SNP数据库为参考的特殊校正模型训练,从而获取特殊校正模型。
优选地,所述对未校正的SNP基因型信息进行校正的步骤包括:对待测样本的读段比对后生成的bam文件进行校正:针对bam文件中不位于筛选后的人群常见SNP数据库的读段,运用构建好的常规校正模型进行校正,从而消除因重亚硫酸盐而错误引入的SNP;针对位于筛选后的人群常见SNP数据库中的读段,运用构建好的特殊校正模型进行校正,从而校正受到重亚硫酸盐影响的SNP的突变频率。
优选地,所述SNP矫正模型的包括以下步骤:
(1’)获取人群常见SNP数据库信息,并剔除其中无法矫正的SNP突变位点,包括C突变为T的位置、T突变为C的位置、G突变为A的位置、A突变为G的位置。
(2’)对读段比对后生成的bam文件进行矫正,针对bam文件中‘XG’信息为‘CT’的读段(表明该读段的甲基化转化类型是C转化为T)进行T->C矫正,针对bam文件中‘XG’信息为‘GA’的读段(表明该读段的甲基化转化类型是G转化为A)进行G->A矫正。针对位于筛选后的人群常见SNP数据库信息中位置的读段进行特殊模型矫正,具体方法是,针对bam文件中‘XG’信息为‘CT’的且SNP数据库信息中ref或alt为C的读段的相关位置进行T->C矫正,针对bam文件中‘XG’信息为‘GA’的且SNP数据库信息中ref或alt为G的读段的相关位置进行A->G矫正。
(3’)使用矫正后的bam文件进行SNP检测,获取矫正后的SNP基因型信息。
优选地,步骤(2)中,所述甲基化水平分析包括:
统计样本中单个CpG位点上覆盖到的测序结果为C的读段数量和测序结果为T的读段的数量,并按式(1)计算样本的甲基化水平mC_level;
式(1);
其中,Ci为单个CpG位点上覆盖到的测序结果为C的读段数量,Ti为单个CpG位点上覆盖到的测序结果为T的读段数量。
优选地,所述甲基化水平异常的判断标准为:正常胚胎样本的甲基化水平阈值范围17%-37%,正常细胞系、羊水或流产组织样本的甲基化水平阈值范围为50%-70%。
优选地,步骤(2)中,所述单亲二体及三倍体分析包括:
统计样本染色体的B等位基因频率偏移量和杂合SNP比例,并按式(2)计算染色体的Z值,其中,R1chr为样本染色体的R值,为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,σchr为单亲二体及三倍体分析参考数据库中染色体R值的标准差;
式(2)。
优选地,步骤(2)中,所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤:
(I)选取样本的SNP基因型信息;
(II)统计样本染色体的杂合SNP的B等位基因频率与二倍体杂合SNP的B等位基因频率理论值的距离,取平均值作为该条染色体的B等位基因频率偏移量offsetchr;
(III)统计杂合SNP比例fracchr;
(IV)整合染色体的B等位基因频率偏移量和杂合SNP比例,按式(5)计算R值;
式(5)。
优选地,本发明基于校正后的SNP基因型信息,所述单亲二体及三倍体分析参考数据库按性别分为男性、女性两类,所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤:
(I’)样本选择:选取多个二倍体样本的SNP基因型信息;
(II’)BAF偏移量统计:理论上,若样本只存在一套遗传物质,则其所有SNP均为纯合状态,BAF为0或1;若样本存在两套遗传物质,则SNP存在杂合、纯合两种状态,杂合SNP的BAF为0.5,纯合SNP的BAF为0或1;若样本存在三套遗传物质,则SNP存在杂合、纯合两种状态,杂合SNP的BAF为0.33或0.66,纯合SNP的BAF为0或1;
每个样本分别统计其每条染色体的杂合SNP的BAF与二倍体杂合SNP的BAF理论值(0.5)的距离,取平均值作为该条染色体的BAF偏移量offsetchr,如式(6)所示;
式(6);
(III’)杂合SNP比例统计:理论上,若样本只存在一套遗传物质,则其所有SNP均为纯合状态,杂合SNP比例为0;若样本存在二套遗传物质,在不考虑自然界遗传因素的情况下,其杂合SNP比例为1/3;若样本存在三套遗传物质,在不考虑自然界遗传因素的情况下,其杂合SNP比例为1/2;每个样本分别统计其每条染色体上杂合SNP占该条染色体总SNP的比例fracchr,如式(7)所示,其中Nhet为杂合SNP的数目,Nhom为纯合SNP的数目;
式(7);
(IV’)参数整合:整合每条染色体的BAF偏移量和杂合SNP比例,按式(4)计算R值。
优选地,步骤(2)中,所述单亲二体及三倍体分析包括以下步骤:
(i)统计样本染色体的B等位基因频率偏移量和杂合SNP比例,并进行参数整合;
(ii)并按式(2)计算样本染色体的Z值,Z≥3,则该条染色体为三体;Z≤-3,则该条染色体为单体;计算样本所有染色体的Z值的中位数Zgenome,Zgenome≥3,则该样本为三倍体;Zgenome≤-3,则该样本为单亲二体。
优选地,所述单亲二体及三倍体分析包括以下步骤:
(i’)按照上述构建单亲二体及三倍体分析参考数据库的方法统计样本每条染色体的BAF偏移量与杂合SNP比例,并进行参数整合;
(ii’)Z-Score标准化:结合样本与相应性别单亲二体及三倍体分析参考数据库中所有样本,对每条染色体的R值分别进行Z-Score标准化,按式(2)计算出每条染色体的Z值,衡量该条染色体是否异常;
(iii’)异常报告:Z≥3,则该条染色体为三体;Z≤-3,则该条染色体为单体;计算样本所有染色体的Z值的中位数Zgenome,Zgenome≥3,则该样本为三倍体;Zgenome≤-3,则该样本为单亲二体。
优选地,步骤(2)中,所述CNV分析包括:
计算样本与CNV分析参考数据库比对结果Log2RR的平均值,并利用所述平均值/>按式(3)计算拷贝数CN;
式(3)。
优选地,步骤(2)中,所述CNV分析参考数据库的构建方法包括以下步骤:
(A)选取样本的覆盖深度信息;
(B)采用定基比率法对窗口进行标准化;
(C)过滤掉覆盖深度一直为0或SD大于SD阈值的窗口;
(D)采用LOESS算法,对样本进行GC校正;
(E)将样本按照对应窗口合并,取平均值;
(F)按照步长3~5、滑动1~3的策略将窗口合并。
优选地,本发明基于测序数据的覆盖深度信息,所述CNV分析参考数据库按性别分为男性、女性两类,所述CNV分析参考数据库的构建方法包括以下步骤:
(A’)样本选择:选取多个二倍体样本的覆盖深度信息;
(B’)标准化:为了消除测序数据量的差别,以每个样本的窗口覆盖深度的中位数为基数,采用定基比率法对每个窗口进行标准化;
(C’)确定过滤阈值:计算每个窗口在多个样本中的SD,确定整体窗口的SD阈值;
(D’)窗口过滤:整合所有样本,过滤掉覆盖深度一直为0或在多个样本中SD大于SD阈值的窗口;
(E’)GC校正:整个基因组中,不同区域GC含量不同,而不同的GC含量可能会影响实验过程中片段的扩增效率,为了消除GC含量带来的误差,采用LOESS(局部加权回归)算法,对每个样本分别进行GC校正;
(F’)样本合并:将所有样本按照对应窗口合并,取平均值;
(G’)窗口合并:选择合适的分析策略,按照步长3~5、滑动1~3的策略(例如步长4、滑动1等)将小窗口合并为大窗口,大窗口值等于其包含的小窗口之和。
优选地,步骤(2)中,所述CNV分析包括以下步骤:
(a)采用定基比率法对窗口进行标准化;
(b)过滤掉覆盖深度为0或SD大于SD阈值的窗口;
(c)采用LOESS算法,对样本进行GC校正;
(d)按照步长3~5、滑动1~3的策略(例如步长4、滑动1等)将窗口合并;
(e)按式(8)计算样本与CNV分析参考数据库比对结果Log2RR;
式(8);
其中,R1为CNV分析参考数据库窗口值,R2为样本窗口值;
(f)查找染色体的CNV断点;
(g)针对所述CNV断点,采用游程检验算法合并染色体的片段;
(h)计算样本与CNV分析参考数据库比对结果Log2RR的平均值,并利用所述平均值/>按式(3)计算拷贝数CN。
优选地,步骤(2)中,所述CNV分析包括以下步骤:
(a’)标准化:为了消除测序数据量的差别,以每个样本的窗口覆盖深度的中位数为基数,采用定基比率法对每个窗口进行标准化;
(b’)窗口过滤:过滤掉CNV分析参考数据库中过滤的窗口(覆盖深度一直为0的窗口或SD大于SD阈值的窗口);
(c’)GC校正:采用LOESS(局部加权回归)算法,对每个样本分别进行GC校正;
(d’)窗口合并:选择合适的分析策略,按照步长3~5、滑动1~3的策略(例如步长4、滑动1等)将小窗口合并为大窗口,大窗口值等于其包含的小窗口之和;
(e’)与CNV分析参考数据库比对:设相应性别的CNV分析参考数据库中某个窗口的值为R1,处理样本该窗口的值为R2,按式(8)计算与CNV分析参考数据库的比对结果Log2RR;
(f’)断点识别:采用环状二元分割算法(circular binary segmentation,CBS)或隐马尔可夫模型(Hidden Markov Model,HMM)等算法查找每条染色体的CNV断点,将染色体划分为多个片段;
(g’)小片段合并:针对CBS或HMM等算法查找的CNV断点,对相同染色体的相邻片段采用游程检验算法进行合并,若检验的p-value>1e-5,说明相邻区域无显著差异,则将两个区域进行合并,再与下一个片段进行检验,依次类推,最终每个区域的Log2RR值为该区域包含的大窗口的Log2RR值的平均值;
(h’)拷贝数计算:正常人类细胞为二倍体,则每条染色体有两个拷贝,按式(3)计算样本区域的拷贝数CN;
(i’)异常区域报告:报告该样本中CN大于重复阈值线的区域与CN小于缺失阈值线的区域。
优选地,步骤(2)中,所述ROH分析包括:
按式(4)计算样本与ROH分析参考数据库的比对结果Log10FF,进行断点识别和片段合并;
式(4);
其中,F1为ROH分析参考数据库窗口值,F2为样本窗口值。
优选地,步骤(2)中,所述ROH分析参考数据库的构建方法包括以下步骤:
(①)选取样本的SNP基因型信息;
(②)将基因组划分为大小为400~800 kb的等分窗口(例如可以是410 kb、420 kb、450 kb、460 kb、500 kb、600 kb、650 kb、700 kb、750 kb、780 kb或790 kb),统计窗口的杂合SNP比例;
(③)采用定基比率法对窗口进行标准化;
(④)将样本按照对应窗口合并,取平均值。
优选地,本发明基于校正的SNP基因型信息,所述ROH分析参考数据库按性别分为男性、女性两类,所述ROH分析参考数据库的构建方法包括以下步骤:
(①’)样本选择:选取多个二倍体样本的SNP基因型信息;
(②’)杂合SNP比例统计:将基因组划分为600 kb窗口,按式(7)统计每个窗口的杂合SNP比例;
(③’)窗口标准化:以每个样本的窗口覆盖深度的中位数为基数,采用定基比率法对每个窗口进行标准化;
(④’)样本合并:将所有样本按照对应窗口合并,取平均值。
优选地,步骤(2)中,所述ROH分析包括以下步骤:
(1’)按照ROH分析参考数据库的构建方法统计窗口的杂合SNP比例;
(2’)按式(4)计算样本与ROH分析参考数据库的比对结果Log10FF;
(3’)查找染色体的CNV断点;
(4’)针对所述CNV断点,采用游程检验算法合并染色体的片段,报告样本中Log10FF小于阈值线的区域。
优选地,步骤(2)中,所述ROH分析包括以下步骤:
(1’’)按照ROH分析参考数据库的构建方法统计每个窗口的杂合SNP比例;
(2’’)与ROH分析参考数据库比对:设相应性别的ROH分析参考数据库中某个窗口的值为F1,样本该窗口的值为F2,按式(4)计算与ROH分析参考数据库的比对结果Log10FF;
(3’’)断点识别:采用环状二元分割算法(circular binary segmentation,CBS)或隐马尔可夫模型(Hidden Markov Model,HMM)等算法查找每条染色体的CNV断点,将染色体划分为多个片段;
(4’’)小片段合并:针对CBS或HMM等算法查找的CNV断点,对相同染色体的相邻片段采用游程检验算法进行合并,若检验的p-value>1e-5,说明相邻区域无显著差异,则将两个区域进行合并,再与下一个片段进行检验,依次类推,最终每个区域的Log10FF值为该区域包含的大窗口的Log10FF值的平均值;
(5’’)异常区域报告:报告该样本中Log10FF小于阈值线的区域。
本发明可对任意核酸样本进行分析检测,可应用于人体核酸样本分析检测,也可用于非疾病诊断和/或治疗为目的的体外基因组相关科学研究,如三倍体发生机制的研究、女性年龄与流产组织拷贝数变异的相关性研究等。
第二方面,本发明提供一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置,所述装置包括:
(1)信息采集模块:将样本进行全基因组甲基化测序,获取样本在基因组上CpG的甲基化信息和覆盖深度信息;从WGBS测序数据中获取未校正的SNP基因型信息,并构建校正模型对SNP基因型信息进行校正;
(2)构建参考数据库和分析模块:构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。
优选地,所述信息采集模块中,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率。
优选地,所述信息采集模块中,所述获取样本在基因组上覆盖深度信息包括:将基因组分成每1 kb~100 kb一个的窗口,统计每个窗口的覆盖深度信息。
优选地,所述信息采集模块中,所述校正模型包括常规校正模型和特殊校正模型。
优选地,所述常规校正模型的构建方法包括:通过隐马尔可夫模型,对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练,从而获得常规校正模型。
优选地,所述特殊校正模型的构建方法包括:对位于筛选后的人群常见SNP数据库的SNP基因型信息进行以SNP数据库为参考的特殊校正模型训练,从而获取特殊校正模型。
优选地,所述对未校正的SNP基因型信息进行校正的步骤包括:对待测样本的读段比对后生成的bam文件进行校正:针对bam文件中不位于筛选后的人群常见SNP数据库的读段,运用构建好的常规校正模型进行校正,从而消除因重亚硫酸盐而错误引入的SNP;针对位于筛选后的人群常见SNP数据库中的读段,运用构建好的特殊校正模型进行校正,从而校正受到重亚硫酸盐影响的SNP的突变频率。
优选地,所述构建参考数据库和分析模块中,所述甲基化水平分析包括:
统计样本中单个CpG位点上覆盖到的测序结果为C的读段数量和测序结果为T的读段的数量,并按式(1)计算样本的甲基化水平mC_level;
式(1);
其中,Ci为单个CpG位点上覆盖到的测序结果为C的读段数量,Ti为单个CpG位点上覆盖到的测序结果为T的读段数量。
优选地,所述甲基化水平异常的判断标准为:正常胚胎样本的甲基化水平阈值范围17%-37%,正常细胞系、羊水或流产组织样本的甲基化水平阈值范围为50%-70%。
优选地,所述构建参考数据库和分析模块中,所述单亲二体及三倍体分析包括:
统计样本染色体的B等位基因频率偏移量和杂合SNP比例,并按式(2)计算染色体的Z值,其中,R1chr为样本染色体的R值,为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,σchr为单亲二体及三倍体分析参考数据库中染色体R值的标准差;
式(2)。
优选地,所述构建参考数据库和分析模块中,所述CNV分析包括:
计算样本与CNV分析参考数据库比对结果Log2RR的平均值,并利用所述平均值/>按式(3)计算拷贝数CN;
式(3)。
优选地,所述构建参考数据库和分析模块中,所述ROH分析包括:
按式(4)计算样本与ROH分析参考数据库的比对结果Log10FF,进行断点识别和片段合并;
式(4);
其中,F1为ROH分析参考数据库窗口值,F2为样本窗口值。
第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序执行第一方面所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行第一方面所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。
本发明所述一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH检测装置、计算机设备和计算机可读存储介质,通过利用全基因组比对结果对染色体进行检测分析,获取基因组的甲基化水平的同时,利用校正SNP算法消除重亚硫酸盐甲基化测序对于SNP检测的影响,从而达到同时检测CNV、单亲二体、三倍体和ROH的目的,不再使用额外实验手段。可以提高染色体的检测效率、降低检测成本,基于机器学习模型和相应分析算法,可以提高检测的覆盖率和准确性。
本发明所述的数值范围不仅包括上述列举的点值,还包括没有列举出的上述数值范围之间的任意的点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
相对于现有技术,本发明具有以下有益效果:
(1)本发明的一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法,能够基于全基因组重亚硫酸盐甲基化测序数据,在检测基因组的甲基化水平的同时,利用校正SNP算法消除重亚硫酸盐甲基化测序对于SNP检测的影响,从而达到同时检测CNV、单亲二体、三倍体和ROH区域的目的,简化了检测流程,提高了检测效率且降低了检测成本。
(2)本发明所述一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH检测装置、计算机设备和计算机可读存储介质,通过利用全基因组比对结果对染色体进行检测分析,不使用额外实验手段。可以提高染色体的检测效率、降低检测成本,基于机器学习模型和相应分析算法,可以提高检测的覆盖率和准确性。
附图说明
图1为本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法的分析流程图。
图2为SNP校正逻辑图。
图3为小CNV样本检测结果图。
图4为单亲二体样本检测结果图。
图5为三倍体样本检测结果图。
图6为区域性ROH样本检测结果图。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对小CNV样本(细胞系样本)进行检测,包括以下步骤:
1、构建全基因组重亚硫酸盐甲基化测序文库;
2、上机测序,获得处理样本1的全基因组重亚硫酸盐甲基化测序数据;
3、获得分析参数:样本基因组上CpG的甲基化信息、覆盖深度信息及矫正后的SNP基因型信息;
4、基于CpG的甲基化信息统计样本整体甲基化水平;
5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
6、基于矫正后的SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
7、基于矫正后的SNP基因型信息按照ROH分析流程检测5 M以上ROH。
甲基化水平检测结果为78.4%,不处于50%-70%阈值之间,甲基化水平异常。
如图3所示,CNV检测结果为:
dup(1)(p36.33).seq[GRCh37/hg19](450001-630000)×3
dup(1)(q21.1).seq[GRCh37/hg19](145290001-145390000)×3
dup(15)(q11.2).seq[GRCh37/hg19](25400001-25500000)×3
del(17)(p11.2).seq[GRCh37/hg19](18930001-19150000)×1。
如图3(CNV检测/Copy Number)所示,在1号染色体、15号染色体、17号染色体检出了大于100 kb的CNV;如图3(倍性检测/Z-score)所示,所有染色体的Z-score中位数为1.5505,在(-3,3)之间,则其单亲二体/三倍体检测结果为:二倍体;如图3(ROH检测/LogRR)所示,所有染色体的LogRR值均在0附近,表明处理样本1的F值与ROH分析参考数据库中F值相差较小,未检测出ROH区域。
实施例2
本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对单亲二体样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本2的全基因组重亚硫酸盐甲基化测序数据;
3、获得分析参数:样本基因组上CpG的甲基化信息、覆盖深度信息及校正后的SNP基因型信息;
4、基于CpG的甲基化信息统计样本整体甲基化水平;
5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
6、基于校正后的SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
7、基于校正后的SNP基因型信息按照ROH分析流程检测5 M以上ROH。
甲基化水平检测结果为59.7%,处于50%-70%阈值之间,甲基化水平正常。
检测结果如图4所示,CNV检测结果:未检测到100 kb以上CNV;倍性检测结果:单亲二体。从图4可以看出,处理样本2所有染色体Z-score<-3,表明其为单倍体样本;ROH检测结果:整个基因组均为ROH状态。从图4可以看出,处理样本2所有染色体LogRR<-1,表明其为ROH区域,出现这种情况的原因是该样本为单亲二体,整个基因组只有一套遗传物质,所以都表现为纯合状态,与倍性检测结果一致。
实施例3
本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对三倍体样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本3的全基因组重亚硫酸盐甲基化测序数据;
3、获得分析参数:样本基因组上CpG的甲基化信息、覆盖深度信息及校正后的SNP基因型信息;
4、基于CpG的甲基化信息统计样本整体甲基化水平;
5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
6、基于校正后的SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
7、基于校正后的SNP基因型信息按照ROH分析流程检测5 M以上ROH。
甲基化水平检测结果为62.6%,处于50%-70%阈值之间,甲基化水平正常。
检测结果如图5所示,CNV检测结果:+(mosaic) (X);-(mosaic) (Y);倍性检测结果:三倍体;处理样本3所有染色体Z-score>3,其中位数为5.368,表明该样本为三倍体;ROH检测结果:所有染色体的LogRR值均在0附近,未检测出ROH区域。
综合三个检测结果,可以得到该样本核型为69,XXY,即其他染色体都存在3条,chrX存在2条,chrY存在一条。所以在与正常样本的CNV分析参考数据库对比的时候,出现了CNV检测结果中chrX嵌合重复,chrY嵌合缺失的情况。CNV检测结果与倍性检测结果是一致的,相互验证的。
实施例4
本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对区域性ROH样本(细胞系样本)进行检测,包括以下步骤:
1、构建基因组测序文库;
2、上机测序,获得处理样本4的全基因组重亚硫酸盐甲基化测序数据;
3、获得分析参数:样本基因组上CpG的甲基化信息、覆盖深度信息及矫正后的SNP基因型信息;
4、基于CpG的甲基化信息统计样本整体甲基化水平;
5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV;
6、基于校正后的SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体;
7、基于校正后的SNP基因型信息按照ROH分析流程检测5 M以上ROH。
甲基化水平检测结果为53.9%,处于50%-70%阈值之间,甲基化水平正常。
检测结果如图6所示,CNV检测结果:
del(5)(q13.2).seq[GRCh37/hg19](69210001-70660000)×1
dup(8)(q11.23).seq[GRCh37/hg19](53350001-53530000)×3
dup(11)(p11.12-q11).seq[GRCh37/hg19](50580001-54900000)×3
del(17)(q21.31).seq[GRCh37/hg19](44360001-44790000)×1
倍性检测结果:二倍体,处理样本4所有染色体的中位数为-0.717,在(-3,3)区间内,表明该样本为二倍体。
ROH检测结果:
AOH(22)(q12.3-q13.32).seq[GRCh37/hg19](36000001-48600000)[12.60M],从图6可以看出,处理样本4的22号染色体上存在一个区域LogRR<-1,表明其为ROH区域。
综合三个检测结果,我们可以得出该样本22号染色体存在较大的ROH区域,则会导致Z-score下降,结果与样本对应的信息一致,可以相互验证。
综上所述,本发明的一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法,能够基于全基因组重亚硫酸盐甲基化测序数据,一体化检测出甲基化水平、CNV、单亲二体、三倍体和ROH区域,简化了检测流程,提高了检测效率且降低了检测成本。
申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。
Claims (8)
1.一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,所述方法包括:
(1)将样本进行全基因组甲基化测序,获取样本在基因组上CpG的甲基化信息和覆盖深度信息;从WGBS测序数据中获取未校正的SNP基因型信息,并构建校正模型对SNP基因型信息进行校正,获取校正后的SNP基因型信息;
(2)构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析;
步骤(1)中,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率;
步骤(1)中,所述获取样本在基因组上覆盖深度信息包括:将基因组分成每1 kb~100kb一个的窗口,统计每个窗口的覆盖深度信息;
步骤(1)中,所述校正模型包括常规校正模型和特殊校正模型;
所述常规校正模型的构建方法包括:通过隐马尔可夫模型,对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练,从而获得常规校正模型;
所述特殊校正模型的构建方法包括:对位于筛选后的人群常见SNP数据库的SNP基因型信息进行以SNP数据库为参考的特殊校正模型训练,从而获取特殊校正模型;
所述对未校正的SNP基因型信息进行校正的步骤包括:对待测样本的读段比对后生成的bam文件进行校正:针对bam文件中不位于筛选后的人群常见SNP数据库的读段,运用构建好的常规校正模型进行校正,从而消除因重亚硫酸盐而错误引入的SNP;针对位于筛选后的人群常见SNP数据库中的读段,运用构建好的特殊校正模型进行校正,从而校正受到重亚硫酸盐影响的SNP的突变频率;
步骤(2)中,所述甲基化水平分析包括:
统计样本中单个CpG位点上覆盖到的测序结果为C的读段数量和测序结果为T的读段的数量,并按式(1)计算样本的甲基化水平mC_level;
式(1);
其中,C i 为单个CpG位点上覆盖到的测序结果为C的读段数量,T i 为单个CpG位点上覆盖到的测序结果为T的读段数量;
所述甲基化水平异常的判断标准为:正常胚胎样本的甲基化水平阈值范围17%-37%,正常细胞系、羊水或流产组织样本的甲基化水平阈值范围为50%-70%。
2.根据权利要求1所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述单亲二体及三倍体分析包括:
统计样本染色体的B等位基因频率偏移量和杂合SNP比例,并按式(2)计算染色体的Z值,其中,R1 chr 为样本染色体的R值,为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,σ chr 为单亲二体及三倍体分析参考数据库中染色体R值的标准差;
式(2);
步骤(2)中,所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤:
(I)选取样本的SNP基因型信息;
(II)统计样本染色体的杂合SNP的B等位基因频率与二倍体杂合SNP的B等位基因频率理论值的距离,取平均值作为样本染色体的B等位基因频率偏移量offset chr ;
(III)统计杂合SNP比例frac chr ;
(IV)整合染色体的B等位基因频率偏移量和杂合SNP比例,按式(5)计算R值;
式(5);
步骤(2)中,所述单亲二体及三倍体分析包括以下步骤:
(i)统计样本染色体的B等位基因频率偏移量和杂合SNP比例,并进行参数整合;
(ii)并按式(2)计算样本染色体的Z值,Z≥3,则样本染色体为三体;Z≤-3,则样本染色体为单体;计算样本所有染色体的Z值的中位数Zgenome,Zgenome≥3,则该样本为三倍体;Zgenome≤-3,则该样本为单亲二体。
3.根据权利要求2所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述CNV分析包括:
计算样本与CNV分析参考数据库比对结果Log 2 RR的平均值,并利用所述平均值按式(3)计算拷贝数CN;
式(3);
步骤(2)中,所述CNV分析参考数据库的构建方法包括以下步骤:
(A)选取样本的覆盖深度信息;
(B)采用定基比率法对窗口进行标准化;
(C)过滤掉覆盖深度一直为0或SD大于SD阈值的窗口;
(D)采用LOESS算法,对样本进行GC校正;
(E)将样本按照对应窗口合并,取平均值;
(F)按照步长3~5、滑动1~3的策略将窗口合并;
步骤(2)中,所述CNV分析包括以下步骤:
(a)采用定基比率法对窗口进行标准化;
(b)过滤掉覆盖深度为0或SD大于SD阈值的窗口;
(c)采用LOESS算法,对样本进行GC校正;
(d)按照步长3~5、滑动1~3的策略将窗口合并;
(e)按式(8)计算样本与CNV分析参考数据库比对结果Log 2 RR;
式(8);
其中,R1为CNV分析参考数据库窗口值,R2为样本窗口值;
(f)查找染色体的CNV断点;
(g)针对所述CNV断点,采用游程检验算法合并染色体的片段;
(h)计算样本与CNV分析参考数据库比对结果Log 2 RR的平均值,并利用所述平均值/>按式(3)计算拷贝数CN。
4.根据权利要求3所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法,其特征在于,步骤(2)中,所述ROH分析包括:
按式(4)计算样本与ROH分析参考数据库的比对结果Log 10 FF,进行断点识别和片段合并;
式(4);
其中,F1为ROH分析参考数据库窗口值,F2为样本窗口值;
步骤(2)中,所述ROH分析参考数据库的构建方法包括以下步骤:
(①)选取样本的SNP基因型信息;
(②)将基因组划分为大小为400~800 kb的等分窗口,统计窗口的杂合SNP比例;
(③)采用定基比率法对窗口进行标准化;
(④)将样本按照对应窗口合并,取平均值;
步骤(2)中,所述ROH分析包括以下步骤:
(1’)按照ROH分析参考数据库的构建方法统计窗口的杂合SNP比例;
(2’)按式(4)计算样本与ROH分析参考数据库的比对结果Log 10 FF;
(3’)查找染色体的CNV断点;
(4’)针对所述CNV断点,采用游程检验算法合并染色体的片段,报告样本中Log 10 FF小于阈值线的区域。
5.一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置,其特征在于,所述装置包括:
(1)信息采集模块:将样本进行全基因组甲基化测序,获取样本在基因组上CpG的甲基化信息和覆盖深度信息;从WGBS测序数据中获取未校正的SNP基因型信息,并构建校正模型对SNP基因型信息进行校正,获取校正后的SNP基因型信息;
(2)构建参考数据库和分析模块:构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库;进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析;
所述信息采集模块中,所述SNP基因型信息包括SNP位点的基因型和B等位基因频率;
所述信息采集模块中,所述获取样本在基因组上覆盖深度信息包括:将基因组分成每1kb~100 kb一个的窗口,统计每个窗口的覆盖深度信息;
所述信息采集模块中,所述校正模型包括常规校正模型和特殊校正模型;
所述常规校正模型的构建方法包括:通过隐马尔可夫模型,对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练,从而获得常规校正模型;
所述特殊校正模型的构建方法包括:对位于筛选后的人群常见SNP数据库的SNP基因型信息进行以SNP数据库为参考的特殊校正模型训练,从而获取特殊校正模型;
所述对未校正的SNP基因型信息进行校正的步骤包括:对待测样本的读段比对后生成的bam文件进行校正:针对bam文件中不位于筛选后的人群常见SNP数据库的读段,运用构建好的常规校正模型进行校正,从而消除因重亚硫酸盐而错误引入的SNP;针对位于筛选后的人群常见SNP数据库中的读段,运用构建好的特殊校正模型进行校正,从而校正受到重亚硫酸盐影响的SNP的突变频率;
所述构建参考数据库和分析模块中,所述甲基化水平分析包括:
统计样本中单个CpG位点上覆盖到的测序结果为C的读段数量和测序结果为T的读段的数量,并按式(1)计算样本的甲基化水平mC_level;
式(1);
其中,C i 为单个CpG位点上覆盖到的测序结果为C的读段数量,T i 为单个CpG位点上覆盖到的测序结果为T的读段数量;
所述甲基化水平异常的判断标准为:正常胚胎样本的甲基化水平阈值范围17%-37%,正常细胞系、羊水或流产组织样本的甲基化水平阈值范围为50%-70%。
6.根据权利要求5所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置,其特征在于,所述构建参考数据库和分析模块中,所述单亲二体及三倍体分析包括:
统计样本染色体的B等位基因频率偏移量和杂合SNP比例,并按式(2)计算染色体的Z值,其中,R1 chr 为样本染色体的R值,为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值,σ chr 为单亲二体及三倍体分析参考数据库中染色体R值的标准差;
式(2);
所述构建参考数据库和分析模块中,所述CNV分析包括:
计算样本与CNV分析参考数据库比对结果Log 2 RR的平均值,并利用所述平均值按式(3)计算拷贝数CN;
式(3);
所述构建参考数据库和分析模块中,所述ROH分析包括:
按式(4)计算样本与ROH分析参考数据库的比对结果Log 10 FF,进行断点识别和片段合并;
式(4);
其中,F1为ROH分析参考数据库窗口值,F2为样本窗口值。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-4中任一项所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-4中任一项所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410077548.XA CN117594122B (zh) | 2024-01-19 | 2024-01-19 | 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410077548.XA CN117594122B (zh) | 2024-01-19 | 2024-01-19 | 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117594122A CN117594122A (zh) | 2024-02-23 |
CN117594122B true CN117594122B (zh) | 2024-04-09 |
Family
ID=89918824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410077548.XA Active CN117594122B (zh) | 2024-01-19 | 2024-01-19 | 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117594122B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049914A (zh) * | 2022-01-14 | 2022-02-15 | 苏州贝康医疗器械有限公司 | 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 |
CN114974415A (zh) * | 2022-07-13 | 2022-08-30 | 北京优迅医疗器械有限公司 | 一种检测染色体拷贝数异常的方法和装置 |
CN116825193A (zh) * | 2023-07-17 | 2023-09-29 | 深圳雅济科技有限公司 | 一种校正线粒体基因组测序突变的方法、装置和存储介质 |
-
2024
- 2024-01-19 CN CN202410077548.XA patent/CN117594122B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049914A (zh) * | 2022-01-14 | 2022-02-15 | 苏州贝康医疗器械有限公司 | 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 |
CN114974415A (zh) * | 2022-07-13 | 2022-08-30 | 北京优迅医疗器械有限公司 | 一种检测染色体拷贝数异常的方法和装置 |
CN116825193A (zh) * | 2023-07-17 | 2023-09-29 | 深圳雅济科技有限公司 | 一种校正线粒体基因组测序突变的方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117594122A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021200915B2 (en) | Genetic analysis method | |
EP3256605B1 (en) | Detecting mutations for cancer screening and fetal analysis | |
CN110176273B (zh) | 遗传变异的非侵入性评估的方法和过程 | |
JP2023022220A (ja) | 遺伝子の変動の非侵襲的評価のための方法および処理 | |
CN114049914B (zh) | 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 | |
CN113366122B (zh) | 游离dna末端特征 | |
AU2017218149B2 (en) | Methods and systems for detection of abnormal karyotypes | |
AU2014314151B2 (en) | Haplotyping and copy number typing using polymorphic variant allelic frequencies | |
CN113113081B (zh) | 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统 | |
CN110016497B (zh) | 一种检测肿瘤单细胞基因组拷贝数变异的方法 | |
EP3973080A1 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
CN113593644B (zh) | 基于家系的低深度测序检测染色体单亲二体的方法 | |
CN115798580B (zh) | 基于基因型填补和低深度测序的一体化基因组分析方法 | |
CN114420208B (zh) | 一种用于鉴定核酸样本中cnv的方法和装置 | |
EP4086356A1 (en) | Methods for determining chromosome aneuploidy and constructing classification model, and device | |
CN117524301B (zh) | 一种拷贝数变异的检测方法、装置以及计算机可读介质 | |
CN108875307B (zh) | 一种基于孕妇外周血中胎儿游离dna的亲子鉴定方法 | |
CN117594122B (zh) | 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置 | |
CN116052766A (zh) | 一种染色体纯合区域的检测方法、系统及电子设备 | |
CN113284557B (zh) | 基于reads深度进行目的基因外显子水平重排检测的方法及装置 | |
CN114703263B (zh) | 一种群组染色体拷贝数变异检测方法及装置 | |
CN113284558B (zh) | 一种区分rna测序数据中基因表达差异与长拷贝数变异的方法 | |
US20230162814A1 (en) | Method for the analysis of genetic material | |
CN110428873B (zh) | 一种染色体倍数异常检测方法及检测系统 | |
Xia et al. | A novel framework for analyzing somatic copy number aberrations and tumor subclones for paired heterogeneous tumor samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |