CN113593644A - 基于家系的低深度测序检测染色体单亲二体的方法 - Google Patents
基于家系的低深度测序检测染色体单亲二体的方法 Download PDFInfo
- Publication number
- CN113593644A CN113593644A CN202110726077.7A CN202110726077A CN113593644A CN 113593644 A CN113593644 A CN 113593644A CN 202110726077 A CN202110726077 A CN 202110726077A CN 113593644 A CN113593644 A CN 113593644A
- Authority
- CN
- China
- Prior art keywords
- chromosome
- upd
- family
- fetus
- parent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 110
- 208000031655 Uniparental Disomy Diseases 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 37
- 210000003754 fetus Anatomy 0.000 claims abstract description 62
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000002759 chromosomal effect Effects 0.000 claims description 8
- 108700028369 Alleles Proteins 0.000 claims description 7
- IOSROLCFSUFOFE-UHFFFAOYSA-L 2-nitro-1h-imidazole;platinum(2+);dichloride Chemical compound [Cl-].[Cl-].[Pt+2].[O-][N+](=O)C1=NC=CN1.[O-][N+](=O)C1=NC=CN1 IOSROLCFSUFOFE-UHFFFAOYSA-L 0.000 claims description 4
- 238000012165 high-throughput sequencing Methods 0.000 claims description 4
- 206010068051 Chimerism Diseases 0.000 claims description 3
- 238000011109 contamination Methods 0.000 claims description 3
- 230000001605 fetal effect Effects 0.000 abstract description 11
- 230000008859 change Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 14
- 230000005856 abnormality Effects 0.000 description 12
- 108090000623 proteins and genes Proteins 0.000 description 11
- 238000003793 prenatal diagnosis Methods 0.000 description 8
- 239000000523 sample Substances 0.000 description 8
- 230000011987 methylation Effects 0.000 description 7
- 238000007069 methylation reaction Methods 0.000 description 7
- 238000012070 whole genome sequencing analysis Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000002864 sequence alignment Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010208 microarray analysis Methods 0.000 description 3
- 208000020584 Polyploidy Diseases 0.000 description 2
- 208000026487 Triploidy Diseases 0.000 description 2
- 208000037280 Trisomy Diseases 0.000 description 2
- 210000004381 amniotic fluid Anatomy 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 210000001161 mammalian embryo Anatomy 0.000 description 2
- 230000021121 meiosis Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005945 translocation Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000038 chest Anatomy 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 210000002308 embryonic cell Anatomy 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 230000006543 gametophyte development Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 101150044508 key gene Proteins 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 230000011278 mitosis Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 238000009609 prenatal screening Methods 0.000 description 1
- 230000009979 protective mechanism Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明通过利用胎儿与父母的样本之间各染色体均大量存在cdSNPs的特点,公开了一种基于家系的低深度测序检测染色体单亲二体的方法,包括如下步骤:S1、序列比对,家系CNV‑seq的三个原始数据文件通过比对后得到三个有比对信息的文件;S2、序列过滤;S3、选择人群高频杂合的SNP位点数据集;S4、获取cdSNP位点列表;S5、统计母子、父子的样本间总体CR值和各染色体的CR值;S6、根据CR值进行胎儿的染色体UPD分析,得出结论。本发明无需改变CNV‑seq检测流程和检测成本,仅需利用家系的CNV‑seq原始数据文件进行分析比较,即可鉴定胎儿的染色体是否存在UPD,具有检测成本低,检测准确度高的优点。
Description
技术领域
本发明涉及产前诊断分子遗传学检测技术领域,特别涉及一种基于家系的低深度测序检测染色体单亲二体的方法。
背景技术
经典的人类发育生物学的减数分裂理论认为受精卵形成过程中,两性通过减数分裂的精子和卵子,各自的染色体都从23对减数成为23条染色体,再经过受精进行重新组合后,受精卵和后续生长的胚胎细胞,恢复为23对染色体。因此,正常情况下胎儿的染色体应该一半来自父亲,另一半来自母亲。如果这一过程发生异常,就可能导致某些遗传疾病的发生。
单亲二体(uniparental disomy,UPD)指一对同源染色体或染色体的部分区段起源于双亲中的一方。按其来源可分为单亲同二体(isodisomy,isoUPD)和单亲异二体(heterodisomy,hetUPD)。UPD是配子形成过程中出错或者合子后的胚胎早期有丝分裂错误而导致的结果。常见的情况是减数分裂中的错误,使得卵子或精子的两条相同染色体,没有分开,因此受精卵及胚胎的细胞中存在三条同源染色体。这类染色体非整倍体异常的胚胎通常会孕早期自发流产,但有时可通过某些保护性机制,把额外的第三条染色体丢掉,最终使胎儿细胞能恢复正确数量的二倍体染色体,但由于“三体自救”丢掉的那条染色体是个随机的过程,因此胎儿细胞保留下的这对染色体,就可能不一定是来源于双亲而可能是都来源于父亲,或者都来源于母亲,即形成所谓的UPD。此外受精卵的某个染色体只有一条,则会通过“单体自救”机制产生单亲同二体。
研究表明,在活产婴儿中染色体发生UPD现象约为1:3500。一些染色体的UPD不会对个体产生不良影响,然而某些特定的染色体如6,7,11,14,15和20号染色体,UPD可通过基因组印迹障碍导致疾病的发生。当UPD出现在基因印记区域时,子代可能会遗传两个均有表达活性的等位基因,也可能遗传两个表达沉默的等位基因,从而导致基因剂量表达异常。产前筛查或诊断中如果发现涉及以上染色体的嵌合、无创筛查三体高风险或相关超声异常(如父源性14号染色体UPD的特殊钟形胸廓)或涉及14、15号染色体的罗伯逊易位、平衡易位等,应考虑进行UPD的检测。
UPD的检测方法主要包括STR分型技术、SNP基因芯片技术、甲基化PCR与甲基化MLPA 技术。其中最为经典的实为STR分析,STR标记物在整个基因组中非常丰富,许多具有非常高的杂合度,它反映群体中等位基因频率的差异,使用特定的STR可以诊断目标染色体的UPD,但通常不用于一线筛查,实验的STR位点仅覆盖13,18,21和性染色体,对常见的UPD致病的染色体缺乏有效的检测能力。具有SNP探针的基因芯片(CMA)平台可以通过 SNP杂合性缺失识别潜在的UPD,全外显子组或全基因组测序通过对算法的调整可以对ROH 有识别能力,但是使用SNP准确分型技术识别UPD通常依赖于纯合区域(ROH)的存在,ROH 区域太小可能导致漏检,此外筛查出来的ROH所在的染色体需要进行家系的基因芯片检测的验证,因此存在成本高、耗时长的不足,更致命的是这些技术对单亲异二体(hetUPD) 这类不存在ROH区域的UPD病例缺乏筛查的能力。甲基化PCR和MLPA技术分析染色体较大区域(通常是几兆碱基)内的差异甲基化区或印记中心甲基化状态,对于UPD导致的印记基因疾病,直接针对关键基因的甲基化状态进行分析,对于病因确诊有重要意义,但受制于实验室的检测条件,一般不应用于一线的筛查和初步诊断,通常用于对SNP芯片发现存在ROH的染色体进行验证。
随着临床高通量测序在临床的应用越来越广泛,技术越来越成熟,2019年我国推出了《低深度全基因组测序技术在产前诊断中的应用专家共识》,使得CNV-seq技术正式开始作为一线筛查诊断技术应用于产前诊断。受于当时技术条件限制,共识里专家们普遍不认为测序深度远低于4X的CNV-seq技术适合检测多倍体和AOH异常,建议临床考虑结合STR、基因芯片等方法来解决多倍体或UPD检测的问题。
临床应用CNV-seq的测序深度一般为0.05X到0.5X,在这种低覆盖深度的全基因组测序数据文件中,可检测到的SNP位点的reads覆盖深度绝大部分是1X,此时检测系统无法对每个位点的基因型做出准确的判断,进而没有研究认为在此深度下可以比较好解决AOH或者UPD的检测问题。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于家系的低深度测序检测染色体单亲二体的方法,无需改变CNV-seq检测流程和检测成本,仅需利用家系的 CNV-seq原始数据文件进行分析比较,即可鉴定胎儿的染色体是否存在UPD,具有检测成本低,检测准确度高的优点。
为解决上述技术问题,本发明的技术方案是:一种基于家系的低深度测序检测染色体单亲二体的方法,包括如下步骤:
S1、序列比对,家系CNV-seq的三个原始数据文件通过比对后得到三个有比对信息的文件;
S2、序列过滤;
S3、选择人群高频杂合的SNP位点数据集;
S4、获取cdSNP位点列表;
S5、统计母子、父子的样本间总体CR值和各染色体的CR值;
S6、根据CR值进行胎儿的染色体UPD分析,得出结论。
作为本发明的进一步阐述,
优选地,所述步骤S1中序列比对,是利用高通量测序数据进行NIPT,CNV-seq等低深度测序检测项目的基础,包括选择BWA比对软件(bwa-0.7.17)将测序获得半导体测序仪获得原始序列数据(FASTQ文件)与人类基因组参考序列(比如GRCh37/hg19版本)进行序列比对,获得比对后的sam文件的过程。
优选地,所述步骤S2中序列过滤包括对比对后的sam文件进行过滤,去除无比对(ummaped)、低比对质量(MAPQ<40)和多重复比对等对可能产生错误碱基识别的序列,获得有效测序数的sam文件的过程。
优选地,所述步骤S3中选择人群高频杂合的SNP位点数据集,包括下载数据库ftp://ftp.ncbi.nih.gov/snp中人的SNP数据文件(版本151),选择SNP的基因型只有两类并且最小等位基因频率(Minor Allele Frequency,MAF)不低于0.3的位点,作为人群高频杂合的SNP位点数据集的过程。
优选地,所述步骤S4中获取cdSNP位点列表,包括分析每个比对过滤后的sam文件,找到比对结果中命中人群高频杂合的SNP位点数据集的碱基,然后对每两个文件取得均存在一条序列覆盖的位点碱基信息(co-detected SNPs,cdSNPs)的过程。
优选地,:所述步骤S5统计样本间的CR值,包括计算位点碱基信息(co-detectedSNPs, cdSNPs)一致性值(concordance rate,CR)的过程。
优选地,所述步骤S6样本同一性分析,根据CR值,得出如下分类判定:
1)父本、母本与胎儿比对的cdSNPs的CR值应满足应亲子关系的范围,即CR>0.659且CR<0.737,否则亲子关系不能得到确认,不能进行UPD分析;
2)当各个染色体的CR>0.659且CR<0.737时,判定胎儿不存在UPD;
3)当某个染色体的胎儿与一方亲本CR>0.75并且与另一个亲本小于0.636时,判定胎儿该染色体为UPD,当CR>0.75的为母本时,该UPD为matUPD,相反为父本时该UPD为patUPD;
4)CR值不属于以上的情况为样本可能存在嵌合或污染。
优选地,是通过利用胎儿与父母的样本之间各染色体均大量存在cdSNPs的特点得出的。
本发明的有益效果是:
1、本发明仅需检测机构在对胎儿进行常规CNV-seq的同时对其父母进行CNV-seq检测,利用三者的测序文件即可额外对胎儿的染色体是否存在UPD进行分析。
2、本发明仅需比对家系CNV-seq测序数据中各个染色体覆盖的深度为1的SNP位点的碱基一致性,可无需改变CNV-seq检测流程和检测成本的条件下完成胎儿各个染色体是否存在UPD的分析与判断,对利用CNV-seq进行产前诊断疑似异常胎儿的遗传学原因提供更有力的支持。
附图说明
图1为本发明的技术路线与分析流程图;
图2为无创DNA检测结果图;
图3为基因芯片检测结构图;
图4为染色体微陈列分析(CMA)检测报告图;
图5为编号EO900080FT的家系CNV-seq结果图;
图6为编号EO900093BT的家系CNV-seq结果图;
图7为编号EO900094BT的家系CNV-seq结果图;
图8为染色体微陈列分析(CMA)检测报告图;
图9为基因芯片检测结构图;
图10为编号EO002181DT的家系CNV-seq结果图;
图11为编号E0000165BT的家系CNV-seq结果图;
图12为编号E0000166BT的家系CNV-seq结果图;
图13为染色体微陈列分析(CMA)检测报告图;
图14为基因芯片检测结构图;
图15为家系CMA分析结果图;
图16为编号EO001478DT的家系CNV-seq结果图;
图17为编号EO001620BT的家系CNV-seq结果图;
图18为编号EO001737DT的家系CNV-seq结果图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细说明。
本发明公开一种基于家系的低深度测序检测染色体单亲二体的方法,包括如下步骤:
S1、序列比对,家系CNV-seq的三个原始数据文件通过比对后得到三个有比对信息的文件;
S2、序列过滤;
S3、选择人群高频杂合的SNP位点数据集;
S4、获取cdSNP位点列表;
S5、统计母子、父子的样本间总体CR值和各染色体的CR值;
S6、根据CR值进行胎儿的染色体UPD分析,得出结论。
进一步地,所述步骤S1中序列比对,是利用高通量测序数据进行NIPT,CNV-seq等低深度测序检测项目的基础,包括选择BWA比对软件(bwa-0.7.17)将测序获得半导体测序仪获得原始序列数据(FASTQ文件)与人类基因组参考序列(比如GRCh37/hg19版本)进行序列比对,获得比对后的sam文件的过程。
进一步地,所述步骤S2中序列过滤包括对比对后的sam文件进行过滤,去除无比对(ummaped)、低比对质量(MAPQ<40)和多重复比对等对可能产生错误碱基识别的序列,获得有效测序数的sam文件的过程。
进一步地,所述步骤S3中选择人群高频杂合的SNP位点数据集,包括下载数据库ftp://ftp.ncbi.nih.gov/snp中人的SNP数据文件(版本151),选择SNP的基因型只有两类并且最小等位基因频率(Minor Allele Frequency,MAF)不低于0.3的位点,作为人群高频杂合的SNP位点数据集的过程。
进一步地,所述步骤S4中获取cdSNP位点列表,包括分析每个比对过滤后的sam文件,找到比对结果中命中人群高频杂合的SNP位点数据集的碱基,然后对每两个文件取得均存在一条序列覆盖的位点碱基信息(co-detected SNPs,cdSNPs)的过程。
进一步地,所述步骤S5统计母子、父子的样本间总体CR值和各染色体的的CR值,包括计算位点碱基信息(co-detected SNPs,cdSNPs)一致性值(concordance rate,CR) 的过程。
进一步地,所述步骤S6母子、父子的样本间总体CR值和各染色体的的CR值分析,根据已知的50例无关样本计算的染色体CR值参考范围、30例同一样本两次检测的染色体CR值参考范围和20例亲子关系的染色体CR值参考范围,10例UPD的家系数据的染色体CR 值,可以分析当前家系CNV-seq的染色体CR值处于何种分类中。
样本关系类型 | CR值 | CR的标准差 | CR-3*SD | CR+3*SD |
UPD的缺失亲本 | 0.603 | 0.011 | 0.57 | 0.636 |
UPD的遗传亲本 | 0.786 | 0.012 | 0.75 | 0.822 |
无UPD的亲子关系 | 0.698 | 0.013 | 0.659 | 0.737 |
根据上表两个样本的CR值,得出如下分类判定:
1)父本、母本与胎儿比对的cdSNPs的CR值应满足应亲子关系的范围,即CR>0.659且CR<0.737,否则亲子关系不能得到确认,不能进行UPD分析;
2)当各个染色体的CR>0.659且CR<0.737时,判定胎儿不存在UPD;
3)当某个染色体的胎儿与一方亲本CR>0.75并且与另一个亲本小于0.636时,判定胎儿该染色体为UPD,当CR>0.75的为母本时,该UPD为matUPD,相反为父本时该UPD为patUPD;
4)CR值不属于以上的情况为样本可能存在嵌合或污染。
进一步地,是通过利用胎儿与父母的样本之间各染色体均大量存在cdSNPs的特点得出的。
本发明的理论基础为:根据鸟枪法测序的序列在基因组随机分布的概率模型与实践均表明,在CNV-seq的低深度深度测序下,即使覆盖深度低至0.05X,同一个染色体在两个样本之间仍有许多均存在一条序列覆盖的SNP位点(co-detected SNPs,cdSNPs),如下表所示。
这些SNP位点的信号在本发明之前被认为无法应用于有效识别染色体AOH区域与UPD 的信息而被忽略了其意义,本发明认为选择人群高频杂合的SNP位点进行家系的各个染色体cdSNPs一致性分析可以准确的进行染色体UPD判断。
具有亲子关系的两个样本,低深度测序的cdSNP位点的碱基一致性在每个染色体的期望值是稳定的,当存在UPD时,这个值会发生显著性的改变,其中一个亲本的一致性值趋于没有关系的两个样本的cdSNP位点的碱基一致性期望值,另一个亲本则趋于同一个样本的两次测序的一致性值,当检测体系的某个染色体在这三种情况下是显著差别的时候,就可以通过该值准确识别出单亲二体的改变。在极低测序深度下,每个SNP位点的基因型不可知,但是通过理论推导可知,同样在测序深度等于1的时候,胎儿某个染色体发生UPD 的时候观察到的cdSNPs一致性值与未发生UPD事件的一致性值是显著不同的。
假设通过孩子(胎儿)与父母的低深度全基因组测序的原始数据获得一个cdSNP,其基因型分别为A和B,人群频率为p,q,如果该位点所处的染色体是UPD的情况,则孩子该染色体的位点仅遗传自其中一位亲本,于是可通过以下理论计算获得未遗传的那位亲本的结果中碱基一致性的概率为1-2pq,而遗传的那个亲本碱基一致的概率为1-pq。如果SNP 位点的人群杂合频率为0.5,那么其中一方的样本碱基一致性期望值为0.5,而在另一个亲本中,这个碱基一致性期望值为0.75;未发生UPD的情况下,两者的期望值在0.5至0.75 之间的一个稳定值。
胎儿发生UPD的染色体与缺失亲本的cdSNPs一致性期望值如以下的计算所示:
1)UPD的情况为同源单亲二体,此时胎儿的该染色体为全部AOH区域,即基因型为AA 或BB,没有AB的情况,与缺失亲本的组合如下表所示。
胎儿基因型 | 遗传的亲本基因型 | 深度为1X的cdSNP一致性期望值 |
AA | AA | E=p<sup>3</sup> |
AA | AB | E=0.5*2pq*p=p<sup>2</sup>q |
BB | BB | E=q<sup>3</sup> |
BB | AB | E=0.5*2pq*q=pq<sup>2</sup> |
AA | BB | 0 |
BB | AA | 0 |
则此时人群基因型频率为p,q的SNP位点,CR值可以由上述基因型的概率加和计算得到:
CR=p3+q3+p2q+pq2=p2(p+q)+q2(p+q)=p2+q2=1-2pq
2)UPD的情况为异源单亲二体,此时胎儿的该染色体基因型与亲本基因型是随机组合的情况。
对人群基因型频率为p,q的SNP位点,(p+q)=1,一致性期望值(concordancerate, CR)可以由上述基因型的一致性概率值求和计算得到:
CR=p4+q4+2p2q2+2p3q+2pq3=p3(p+q)+q3(p+q)+p2q(p+q)+p2q(p+q)=p3(p+q)+q3(p+q)+p2q(p+q)+p2q(p+q)=p2(p+q)2+q2(p+q)2=p2+q2=1-2pq
因此我们可以看到,两种情况的UPD状态,缺失亲本与胎儿的CR期望值是一致的,均为1-2pq。
1)我们再分析胎儿发生UPD的染色体与遗传的亲本的情况,其cdSNPs一致性期望值的如下计算所示:UPD的情况为同源单亲二体,此时胎儿的该染色体为全部AOH区域,即基因型为AA或BB,没有AB的情况。
胎儿基因型 | 遗传的亲本基因型 | 深度为1X的cdSNP一致性期望值 |
AA | AA | E=p<sup>2</sup> |
AA | AB | E=0.5*2pq*p=p<sup>2</sup>q |
BB | BB | E=q<sup>2</sup> |
BB | AB | E=0.5*2pq*q=pq<sup>2</sup> |
AA | BB | 0 |
BB | AA | 0 |
则此时人群基因型频率为p,q的SNP位点,CR值可以由上述基因型的概率加和计算得到:
CR=p2+q2+p2q+pq2=p2+q2+pq(p+q)=p2+q2+pq=1-pq
2)如果UPD的情况为异源单亲二体,此时胎儿的该染色体的基因型与亲本的一致,即胎儿的基因型与父母一方的完全一致。
胎儿基因型 | 遗传的亲本基因型 | 深度为1X的cdSNP一致性期望值 |
AA | AA | E=p<sup>2</sup> |
BB | BB | E=q<sup>2</sup> |
AB | AB | E=0.5*2pq=pq |
则此时人群基因型频率为p,q的SNP位点,CR值可以由上述基因型的概率加和计算得到:CR=p2+q2+pq=1-pq
这说明上述两种情况的UPD,胎儿与遗传的亲本比对获得的CR值的期望并无差异。
以上证明了遗传的亲本与缺失的亲本分别和胎儿计算的cdSNP一致性期望值是存在差异的,两者CR相差pq,这个差值在cdSNP位点数达到一定量时,显著并且稳定的存在,因此可以用于分析UPD。
最后我们计算胎儿的染色体如果没有发生UPD,则该染色体与亲本的cdSNP一致性期望值。
此时,胎儿基因型的某一等位基因来自亲本,其组合如下表所示:
胎儿基因型 | 亲本基因型 | 深度为1X的cdSNP一致性期望值 |
AA | AA | E=p<sup>3</sup> |
BB | BB | E=q<sup>3</sup> |
AB | AB | E=pq*2pq*0.5=p<sup>2</sup>q<sup>2</sup> |
AA | AB | E=p*2pq*0.5=p<sup>2</sup>q |
BB | AB | E=q*2pq*0.5=pq<sup>2</sup> |
AB | AA | E=q*p<sup>2</sup>*0.5=0.5*p<sup>2</sup>q |
AB | BB | E=p*q<sup>2</sup>*0.5=0.5*pq<sup>2</sup> |
则此时人群基因型频率为p,q的SNP位点,CR值可以由上述基因型的概率加和计算得到:
CR=p3+q3+p2q2+p2q+pq2+0.5*p2q+0.5*pq2=p2(p+q)+q2(p+q)+0.5*pq(p+q) +p2q2=p2+q2+0.5*pq+p2q2=1-pq-(0.5-pq)pq
由于p+q=1,则pq的最大值为0.5*0.5=0.25,因此未发生UPD的CR值在发生UPD时两个亲本计算的CR(即1-pq)值之间。以CRNU表示未发生UPD的CR值,CRUI表示发生 UPD的遗传亲本的CR值,CRUL表示发生UPD的缺失亲本的CR值,则
当p=0.5时,CRNU=1-0.25-0.0625=0.6875,CRUI=1-0.25=0.75,CRUL=1-0.5=0.5,三者存在显著的差异。
当p=0.3时,CRNU=1-0.21-0.0609=0.7291,CRUI=1-0.21=0.79,CRUL=1-0.42=0.58,三者同样存在显著的差异。
故本发明选择MAF不小于0.3的SNP位点作为分析数据集,在测序深度不低于0.1X的CNV-seq家系数据获得的cdSNPs数量,计算CR值并与构建的模型进行对比,可获得某染色体是否UPD结论。
以下为本发明应用的具体实施例。
实施例1:无创发现16号染色体Z值异常,羊水穿刺核型正常,芯片提示16号染色体短臂存在ROH,经STR,父母芯片验证胎儿为matUPD16。
无创结果如图2所示:提示16号染色体三体高风险;
基因芯片的结果如图3所示:
胎儿16号染色体存在ROH,如图4所示,经验证为16matUPD;
家系CNV-seq结果如下:
如图5所示,胎儿:编号EO900080FT,46,XX,未见明显拷贝数异常
如图6所示,母亲:编号EO900093BT,46,XX,未见明显拷贝数异常
如图7所示,父亲:编号EO900094BT,46,XY,未见明显拷贝数异常
对以上家系CNV-seq的原始数据进行cdSNP一致性分析:
1.1序列比对,家系CNV-seq的三个原始数据文件通过BWA比对后得到三个有比对信息的文件;
1.2序列过滤;
1.3选择人群高频杂合的SNP位点数据集;
1.4获取cdSNP位点列表;
1.5统计母子、父子的样本间总体CR值和各染色体的CR值;
1.6根据CR值进行胎儿的染色体UPD分析,得出结论。
根据分类判定的结果如下:
结论:
对家系CNV-seq的CR值分析,胎儿与母亲的16号染色体的CR值为0.784,大于0.75,同时胎儿与父亲CR值为0.592,小于0.636,提示16号染色体存在母源UPD,与家系基因芯片结果和家系STR结果一致。
实施例2:无创T15,羊水穿刺核型正常,芯片提示15号染色体存在ROH,经家系STR验证为patUPD15。
如图8和图9所示,为胎儿的CMA报告;
家系CNV-seq结果如下:
如图10所示,胎儿:编号EO002181DT,46,XX,未见明显拷贝数异常
如图11所示,母亲:编号E0000165BT,46,XX,未见明显拷贝数异常
如图12所示,父亲:编号E0000166BT,46,XY,未见明显拷贝数异常
对以上家系CNV-seq的原始数据进行cdSNP一致性分析:
2.1序列比对,家系CNV-seq的三个原始数据文件通过BWA比对后得到三个有比对信息的文件;
2.2序列过滤;
2.3选择人群高频杂合的SNP位点数据集;
2.4获取cdSNP位点列表;
2.5统计母子、父子的样本间总体CR值和各染色体的CR值;
2.6根据CR值进行胎儿的染色体UPD分析,得出结论。
根据分类判定的结果如下:
结论:
对家系CNV-seq的CR值分析,胎儿与母亲的15号染色体的CR值为0.594,小于0.636,同时胎儿与父亲CR值为0.782,大于0.75,故提示15号染色体存在父源UPD,与家系STR 的结果一致。
实施例3:无创正常,羊水穿刺核型正常,芯片提示6号染色体存在ROH,经STR,父母芯片验证为6号的ROH并不是UPD,ROH可能由于亲缘性导致。
如图13和图14所示,为胎儿的CMA报告;
胎儿6号染色体的杂合信号图,提示6q24.3q25.3存在10.6Mb的纯合区域(ROH)。
如图15所示,6号染色体的家系CMA分析结果图,提示ROH现象不是UPD导致的。
家系CNV-seq结果如下:
如图16所示,胎儿:编号EO001478DT,46,XY,dup(4):168.3Mb-169.4Mb,与CMA 报告的拷贝数异常一致。
如图17所示,母亲:编号EO001620BT,46,XX,未见明显拷贝数异常
如图18所示,父亲:编号EO001737DT,46,XY,dup(4):168.3Mb-169.4Mb,胎儿的该位置同样存在重复,提示胎儿4号的重复为遗传的。
对以上家系CNV-seq的原始数据进行cdSNP一致性分析:
3.1序列比对,家系CNV-seq的三个原始数据文件通过BWA比对后得到三个有比对信息的文件;
3.2序列过滤;
3.3选择人群高频杂合的SNP位点数据集;
3.4获取cdSNP位点列表;
3.5统计母子、父子的样本间总体CR值和各染色体的CR值;
3.6根据CR值进行胎儿的染色体UPD分析,得出结论。
根据CR值分类判定的结果如下:
结论:
对家系CNV-seq的CR值分析提示6号染色体无明显UPD信号,与家系CMA的分析结果一致。
目前诊断领域中,CNV-seq是广泛应用的低深度全基因组测序技术的检测项目,目前普遍认为该技术不能有效识别UPD和三倍体,主要应用于拷贝数变异的检测,产前诊断样本的UPD和三倍体一般要求采用STR、甲基化PCR和SNP芯片等方法进行分析。由于父母的CNV携带情况对胎儿CNV阳性样本可以提供更快更全面的评估风险信息,因此家系的CNV 检测已被产前诊断领域的专家推荐应用于越来越多临床场景,在此情况下,本发明在不改变现有的CNV-seq实验方案、测序量的前提下,利用胎儿与父母的样本之间各染色体均大量存在cdSNPs的特点,对其检测UPD的功能进行了拓展,开发出一整套基于低深度测序的鉴定胎儿染色体UPD的方法。
综上,本发明实现发明目的,具有成果优势和技术优势。使用本发明能在常规的CNV-seq检测之外识别胎儿的每个染色体是否存在UPD,解决了目前常规应用CNV-seq产品无法检测UPD的不足。利用家系(父母与胎儿)的DNA样本的基于新一代测序技术的低深度全基因组测序检测获得的原始序列数据,主要是CNV-seq的测序获得的bam、fastq文件,即可以进行比对分析,通过计算每条染色体在家系的三个样本中存在一重测序覆盖度 (1X)以上的人群多态性位点(SNP)的一致性值,即可识别胎儿的各个染色体中是否存在只来自一个亲本的情况。产前诊断的CNV-seq检测项目应用于超声存在结构异常或NIPT 检测到6,7,11,14,15和20号染色体存在三体信号的病例时,准确检测出6,7,11,14,15 和20号染色体的UPD具有重要的临床意义,因此本发明具有重要的临床应用价值。
以上所述,仅是本发明较佳实施方式,凡是依据本发明的技术方案对以上的实施方式所作的任何细微修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (8)
1.一种基于家系的低深度测序检测染色体单亲二体的方法,其特征在于,包括如下步骤:
S1、序列比对,家系CNV-seq的三个原始数据文件通过比对后得到三个有比对信息的文件;
S2、序列过滤;
S3、选择人群高频杂合的SNP位点数据集;
S4、获取cdSNP位点列表;
S5、统计母子、父子的样本间总体CR值和各染色体的CR值;
S6、根据CR值进行胎儿的染色体UPD分析,得出结论。
2.根据权利要求1所述的基于家系的低深度测序检测染色体单亲二体的方法,其特征在于:所述步骤S1中序列比对,是利用高通量测序数据进行NIPT,CNV-seq等低深度测序检测项目的基础,包括选择BWA比对软件(bwa-0.7.17)将高通量测序获得原始序列数据(FASTQ文件)与人类基因组参考序列(比如GRCh37/hg19版本)进行序列比对,获得比对后的sam文件的过程。
3.根据权利要求1所述的基于家系的低深度测序检测染色体单亲二体的方法,其特征在于:所述步骤S2中序列过滤包括对比对后的sam文件进行过滤,去除无比对(ummaped)、低比对质量(MAPQ<40)和多重复比对等对可能产生错误碱基识别的序列,获得有效测序数的sam文件的过程。
4. 根据权利要求1所述的基于家系的低深度测序检测染色体单亲二体的方法,其特征在于:所述步骤S3中选择人群高频杂合的SNP位点数据集,包括下载数据库ftp://ftp.ncbi.nih.gov/snp中人的SNP数据文件(版本151),选择SNP的基因型只有两类并且最小等位基因频率(Minor Allele Frequency,MAF)不低于0.3的位点,作为人群高频杂合的SNP位点数据集的过程。
5. 根据权利要求1所述的基于家系的低深度测序检测染色体单亲二体的方法,其特征在于:所述步骤S4中获取cdSNP位点列表,包括分析每个比对过滤后的sam文件,找到比对结果中命中人群高频杂合的SNP位点数据集的碱基,然后对每两个文件取得均存在一条序列覆盖的SNP位点碱基信息(co-detected SNPs,cdSNPs)的过程。
6. 根据权利要求1所述的基于家系的低深度测序检测染色体单亲二体的方法,其特征在于:所述步骤S5统计母子、父子的样本间总体CR值和各染色体的CR值,包括计算位点碱基信息(co-detected SNPs,cdSNPs)一致性值(concordance rate,CR)的过程。
7.根据权利要求1所述的基于家系的低深度测序检测染色体单亲二体的方法,其特征在于:所述步骤S6母子、父子的样本间总体CR值和各染色体的CR值,得出如下分类判定:
1)父本、母本与胎儿比对的cdSNPs的CR值应满足应亲子关系的范围,即CR>0.659且CR<0.737,否则亲子关系不能得到确认,不能进行UPD分析;
2)当各个染色体的CR>0.659且CR<0.737时,判定胎儿不存在UPD;
3)当某个染色体的胎儿与一方亲本CR>0.75并且与另一个亲本小于0.636时,判定胎儿该染色体为UPD,当CR>0.75的为母本时,该UPD为matUPD,相反为父本时该UPD为patUPD;
4)CR值不属于以上的情况为样本可能存在嵌合或污染。
8.根据权利要求1至7任意一项所述的基于家系的低深度测序检测染色体单亲二体的方法的制备方法,其特征在于:是通过利用胎儿与父母的样本之间各染色体均大量存在cdSNPs的特点得出的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726077.7A CN113593644B (zh) | 2021-06-29 | 2021-06-29 | 基于家系的低深度测序检测染色体单亲二体的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726077.7A CN113593644B (zh) | 2021-06-29 | 2021-06-29 | 基于家系的低深度测序检测染色体单亲二体的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593644A true CN113593644A (zh) | 2021-11-02 |
CN113593644B CN113593644B (zh) | 2024-03-26 |
Family
ID=78244967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110726077.7A Active CN113593644B (zh) | 2021-06-29 | 2021-06-29 | 基于家系的低深度测序检测染色体单亲二体的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593644B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049914A (zh) * | 2022-01-14 | 2022-02-15 | 苏州贝康医疗器械有限公司 | 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 |
CN114530200A (zh) * | 2022-03-18 | 2022-05-24 | 北京阅微基因技术股份有限公司 | 基于计算snp熵值的混合样本鉴定方法 |
CN114566217A (zh) * | 2022-03-15 | 2022-05-31 | 天津金域医学检验实验室有限公司 | 一种计算染色体结构变异及单亲二倍体信息的方法 |
CN117025753A (zh) * | 2023-08-15 | 2023-11-10 | 广州女娲生命科技有限公司 | 检测染色体变异的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070026443A1 (en) * | 2004-01-30 | 2007-02-01 | Michael Bonin | Diagnosis of uniparental disomy with the aid of single nucleotide polymorphisms |
CN106715711A (zh) * | 2014-07-04 | 2017-05-24 | 深圳华大基因股份有限公司 | 确定探针序列的方法和基因组结构变异的检测方法 |
CN111863125A (zh) * | 2020-08-04 | 2020-10-30 | 广州金域医学检验中心有限公司 | 基于NGS-trio的单亲二倍体检测方法及应用 |
CN112375829A (zh) * | 2020-11-25 | 2021-02-19 | 苏州赛美科基因科技有限公司 | 使用家系wes数据识别upd的方法、装置及电子设备 |
US20210098079A1 (en) * | 2019-08-30 | 2021-04-01 | The Chinese University Of Hong Kong | Methods for detecting absence of heterozygosity by low-pass genome sequencing |
-
2021
- 2021-06-29 CN CN202110726077.7A patent/CN113593644B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070026443A1 (en) * | 2004-01-30 | 2007-02-01 | Michael Bonin | Diagnosis of uniparental disomy with the aid of single nucleotide polymorphisms |
CN106715711A (zh) * | 2014-07-04 | 2017-05-24 | 深圳华大基因股份有限公司 | 确定探针序列的方法和基因组结构变异的检测方法 |
US20210098079A1 (en) * | 2019-08-30 | 2021-04-01 | The Chinese University Of Hong Kong | Methods for detecting absence of heterozygosity by low-pass genome sequencing |
CN111863125A (zh) * | 2020-08-04 | 2020-10-30 | 广州金域医学检验中心有限公司 | 基于NGS-trio的单亲二倍体检测方法及应用 |
CN112375829A (zh) * | 2020-11-25 | 2021-02-19 | 苏州赛美科基因科技有限公司 | 使用家系wes数据识别upd的方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
DANIEL A. KING等: "A novel method for detecting uniparental disomy from trio genotypes identifies a significant excess in children with developmental disorders", 《GENOME RESEARCH》, vol. 24, no. 4, pages 674 - 680 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049914A (zh) * | 2022-01-14 | 2022-02-15 | 苏州贝康医疗器械有限公司 | 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 |
CN114566217A (zh) * | 2022-03-15 | 2022-05-31 | 天津金域医学检验实验室有限公司 | 一种计算染色体结构变异及单亲二倍体信息的方法 |
CN114530200A (zh) * | 2022-03-18 | 2022-05-24 | 北京阅微基因技术股份有限公司 | 基于计算snp熵值的混合样本鉴定方法 |
CN117025753A (zh) * | 2023-08-15 | 2023-11-10 | 广州女娲生命科技有限公司 | 检测染色体变异的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113593644B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113593644B (zh) | 基于家系的低深度测序检测染色体单亲二体的方法 | |
KR20170016393A (ko) | 태아 아-염색체 홀배수체 및 복사수 변이 탐지 | |
WO2024027569A1 (zh) | 一种不依赖于先证者的单体型构建方法 | |
JP2014502845A5 (zh) | ||
CN113113081B (zh) | 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统 | |
CN114049914B (zh) | 一体化检测cnv、单亲二体、三倍体和roh的方法及装置 | |
CN115798580B (zh) | 基于基因型填补和低深度测序的一体化基因组分析方法 | |
CN112126677B (zh) | 耳聋单倍型基因突变无创检测方法 | |
JP6929778B2 (ja) | 着床前遺伝子スクリーニングにおける一塩基多型を用いた品質管理方法 | |
CN113450871B (zh) | 基于低深度测序的鉴定样本同一性的方法 | |
CN105648045A (zh) | 确定胎儿目标区域单体型的方法和装置 | |
WO2015042980A1 (zh) | 确定染色体预定区域中snp信息的方法、系统和计算机可读介质 | |
CN115273972B (zh) | 一种包括筛选位点方法步骤的判定无创产前亲权关系的方法 | |
CN114921536A (zh) | 一种检测单亲二倍体和杂合性缺失的方法、装置、存储介质和设备 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN105121660B (zh) | 确定多胎妊娠的胎儿基因组 | |
JP7333838B2 (ja) | 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法 | |
CN116052766A (zh) | 一种染色体纯合区域的检测方法、系统及电子设备 | |
CN110459312A (zh) | 类风湿性关节炎易感位点及其应用 | |
CN114566213A (zh) | 家系高通量测序数据的单亲二倍体分析方法及其系统 | |
JP2014530629A (ja) | 染色体の微細欠失及び微細重複を検出する方法 | |
CN117925820B (zh) | 一种用于胚胎植入前变异检测的方法 | |
US20230162814A1 (en) | Method for the analysis of genetic material | |
CN118629503A (zh) | 染色体分析方法和装置 | |
CN115287369A (zh) | 基于单细胞测序的非单精子判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |