CN116665774A - 一种家系全基因组单体型连锁分析方法、装置、存储介质和设备 - Google Patents
一种家系全基因组单体型连锁分析方法、装置、存储介质和设备 Download PDFInfo
- Publication number
- CN116665774A CN116665774A CN202310448681.7A CN202310448681A CN116665774A CN 116665774 A CN116665774 A CN 116665774A CN 202310448681 A CN202310448681 A CN 202310448681A CN 116665774 A CN116665774 A CN 116665774A
- Authority
- CN
- China
- Prior art keywords
- pgt
- family
- snp
- detection
- haplotype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 72
- 239000000178 monomer Substances 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 76
- 238000012163 sequencing technique Methods 0.000 claims abstract description 64
- 230000002068 genetic effect Effects 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000013074 reference sample Substances 0.000 claims abstract description 29
- 238000012937 correction Methods 0.000 claims abstract description 23
- 102000054766 genetic haplotypes Human genes 0.000 claims description 117
- 239000000523 sample Substances 0.000 claims description 42
- 201000010099 disease Diseases 0.000 claims description 17
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 13
- 238000003745 diagnosis Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007671 third-generation sequencing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 210000002257 embryonic structure Anatomy 0.000 abstract description 17
- 210000001161 mammalian embryo Anatomy 0.000 description 88
- 210000000349 chromosome Anatomy 0.000 description 33
- 101000690100 Homo sapiens U1 small nuclear ribonucleoprotein 70 kDa Proteins 0.000 description 25
- 102100024121 U1 small nuclear ribonucleoprotein 70 kDa Human genes 0.000 description 25
- 108020004414 DNA Proteins 0.000 description 24
- 238000012070 whole genome sequencing analysis Methods 0.000 description 17
- 230000005945 translocation Effects 0.000 description 14
- 101100029173 Phaeosphaeria nodorum (strain SN15 / ATCC MYA-4574 / FGSC 10173) SNP2 gene Proteins 0.000 description 13
- 101100094821 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SMX2 gene Proteins 0.000 description 13
- 208000036878 aneuploidy Diseases 0.000 description 13
- 231100001075 aneuploidy Toxicity 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000000338 in vitro Methods 0.000 description 9
- 238000007481 next generation sequencing Methods 0.000 description 9
- 108700028369 Alleles Proteins 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 208000031404 Chromosome Aberrations Diseases 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 6
- 210000000625 blastula Anatomy 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000032692 embryo implantation Effects 0.000 description 6
- 230000035935 pregnancy Effects 0.000 description 6
- 208000026350 Inborn Genetic disease Diseases 0.000 description 5
- 239000011324 bead Substances 0.000 description 5
- 208000016361 genetic disease Diseases 0.000 description 5
- 238000002513 implantation Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 206010000234 Abortion spontaneous Diseases 0.000 description 4
- 210000002718 aborted fetus Anatomy 0.000 description 4
- 206010000210 abortion Diseases 0.000 description 4
- 231100000176 abortion Toxicity 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000004720 fertilization Effects 0.000 description 4
- 238000012252 genetic analysis Methods 0.000 description 4
- 238000002493 microarray Methods 0.000 description 4
- 150000007523 nucleic acids Chemical group 0.000 description 4
- 210000005259 peripheral blood Anatomy 0.000 description 4
- 239000011886 peripheral blood Substances 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 208000000995 spontaneous abortion Diseases 0.000 description 4
- 210000002993 trophoblast Anatomy 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003759 clinical diagnosis Methods 0.000 description 3
- 238000009223 counseling Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 210000002308 embryonic cell Anatomy 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 230000031864 metaphase Effects 0.000 description 3
- 239000011259 mixed solution Substances 0.000 description 3
- 201000006938 muscular dystrophy Diseases 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000006228 supernatant Substances 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 208000011359 Chromosome disease Diseases 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 2
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 208000008899 Habitual abortion Diseases 0.000 description 2
- 208000021642 Muscular disease Diseases 0.000 description 2
- 206010042573 Superovulation Diseases 0.000 description 2
- 210000001766 X chromosome Anatomy 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000010100 anticoagulation Effects 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 210000001726 chromosome structure Anatomy 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 230000002559 cytogenic effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000001976 enzyme digestion Methods 0.000 description 2
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 2
- 238000002509 fluorescent in situ hybridization Methods 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 206010067477 Cytogenetic abnormality Diseases 0.000 description 1
- 239000003298 DNA probe Substances 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 108010000912 Egg Proteins Proteins 0.000 description 1
- 102000002322 Egg Proteins Human genes 0.000 description 1
- 108010036162 GATC-specific type II deoxyribonucleases Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 101100236128 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) LSM2 gene Proteins 0.000 description 1
- 206010050208 Teratospermia Diseases 0.000 description 1
- 208000002312 Teratozoospermia Diseases 0.000 description 1
- 208000002903 Thalassemia Diseases 0.000 description 1
- 208000027642 X-Linked Genetic disease Diseases 0.000 description 1
- 208000019291 X-linked disease Diseases 0.000 description 1
- 231100000071 abnormal chromosome number Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007698 birth defect Effects 0.000 description 1
- 210000002230 centromere Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000037029 cross reaction Effects 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 230000005861 gene abnormality Effects 0.000 description 1
- 238000010448 genetic screening Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000013412 genome amplification Methods 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 210000002758 humerus Anatomy 0.000 description 1
- 238000003365 immunocytochemistry Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- IFYDWYVPVAMGRO-UHFFFAOYSA-N n-[3-(dimethylamino)propyl]tetradecanamide Chemical compound CCCCCCCCCCCCCC(=O)NCCCN(C)C IFYDWYVPVAMGRO-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000004681 ovum Anatomy 0.000 description 1
- 208000030761 polycystic kidney disease Diseases 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种家系全基因组单体型连锁分析方法、装置、存储介质和设备。本发明通过将家系中男方、女方、子代(包括胚胎)中任意一个或两个样本的已知SNP信息(>30万)作为参比样本SNPs坐标建立基因型信息数据集,再结合家系遗传关系,基于孟德尔遗传定律和单体型矫正策略,达到在不影响分型准确性的情况下极大降低家系其他样本的检测数据量,显著降低测序成本,缩短检测时间,从而建立了一种高效低成本的家系全基因组单体型连锁分析方法,且该方法能同时满足对PGT‑A、PGT‑M、PGT‑SR的一体化检测。
Description
技术领域
本发明属于分子生物学领域,涉及一种家系全基因组单体型连锁分析方法、装置、存储介质和设备。
背景技术
染色体异常是造成人类胚胎低着床率、妊娠失败和出生缺陷的重要原因。自然妊娠的早期流产率约为15%-20%,体外受精-胚胎移植(In vitro fertilization andembryo transfer,IVF-ET)的早期流产率约为25%,其中胚胎染色体异常约占40-50%,新生儿染色体异常的发生率为0.5%-1%。对于患有染色体异常、单基因疾病、不明原因反复自然流产和植入失败的患者或其家属,在接受遗传咨询后,可能会建议他们接受来自多个PGT平台的胚胎检测,以避免复发性流产和后代罹患遗传病。
目前临床上对PGT-A/M/SR的检测分别是由不同的技术平台进行,导致临床检测成本高、操作繁琐、耗时长,临床大规模推广受限。PGT-A是针对母代高龄、复发性流产、反复种植失败、不良孕产史及父代严重畸精子症等患者,在胚胎植入前对胚胎进行染色体非整倍体的筛查。PGT-SR是针对父母双方或之一存在染色体结构异常,如倒位、平衡易位和罗氏易位等,卵子受精时染色体会进行重组,在胚胎植入前对胚胎进行染色体结构异常的检测。PGT-M是针对患有或携带已知单基因遗传病的父母,如地中海贫血、遗传性耳聋和多囊肾等,在胚胎植入前对胚胎进行单基因遗传病的检测。
近年发展起来的分子细胞遗传学技术是细胞遗传学、分子生物学、分子免疫学相结合的产物,在染色体病临床诊断和研究中得到广泛的应用。
染色体核型分析是将特定的细胞培养后,进行特殊制片染色和显带,在光学显微镜下观察分裂中期的染色体数目和结构,是确诊染色体病的基本方法。但该方法受到实验过程和培养时间较长,且仅能分析中期染色体等的限制。
荧光原位杂交(FISH)技术利用已知核酸序列作为探针,以荧光素直接标记或以非放射性物质标记后与靶DNA进行杂交,再通过免疫细胞化学过程连接上荧光素标记物,最后在荧光显微镜下观察杂交信号从而对标本中待测核酸进行定性、定位和定量分析。但该技术受特异性探针的制约,每次只能检测出1个或几个已知的染色体异常;某些亚家族DNA序列相互之间非常接近,在数对染色体中心着丝点序列之间可发生交叉反应;且技术复杂、操作繁琐、试剂昂贵,不适合临床大规模地开展。
微阵列-比较基因组杂交(Array-CGH)是将基因芯片和CGH相结合的技术,利用微阵列取代传统CGH的中期分裂相,使荧光标记的测试探针和参照DNA探针竞争性地与微阵列上的短片段靶序列杂交。缺点在于只能检测已知的染色体异常,且在检测过程中需要加入对照样本,通过与对照样本的信号对比进行结果的分析,极大的受限于杂交信号的影响。
SNP-array技术为了保证准确的检测结果,需要高质量和覆盖广的芯片探针。因此,SNP-array的诊断能力受限于芯片上己经固定的探针的来源、质量、数量和分布密度。高质量,覆盖广的芯片的费用高,配套的检测分析设备、耗材昂贵,均增加了患者经济负担,限制了其在临床的常规应用。
高深度全基因组测序可以检测出染色体数目异常及染色体片段异常及更小的微缺失和微重复,但是产生的测序数据量大(90Gb),导致测序成本高,实验周期长,数据利用率低,造成资源浪费。
Nanopore三代测序对全基因组测序的成本极高,且无法直接用于胚胎检测。
CN111961707A公开了一种核酸文库构建方法及其在植入前胚胎染色体结构异常分析中的应用(RetSeq技术)。相比高深度全基因组测序,RetSeq测序成本极大降低,但测序数据量仍偏高(80M)。
综上所述,目前染色体异常诊断领域亟需一种成本低廉,检测速度快的临床诊断方法,达到通用PGT-A/M/SR一体化检测目的,解决临床多种疾病的检测需求。
发明内容
针对现有技术的不足和实际需求,本发明提供一种家系全基因组单体型连锁分析方法、装置、存储介质和设备,利用已知SNP信息为参考,结合家系关系,进一步降低测序数据量,可实现在同一次实验检测里,同时完成非整体、单基因疾病和染色体结构重排的一体化检测。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种以非疾病诊断为目的的家系全基因组单体型连锁分析方法,所述方法包括以下步骤:
(1)取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本,获取所述基因组DNA样本的SNP信息;
(2)以获取SNP信息后的基因组DNA样本作为参比样本,以人类标准参考基因组hg19或hg38为坐标,对参比样本的SNP位点建立坐标和基因型信息数据集合;
(3)对家系的其他个体样本进行测序,根据参比样本的SNP坐标和基因型信息数据集合,基于孟德尔遗传定律,分析家系其他样本相同坐标的SNP的基因型;
(4)根据家系样本在相同坐标下所有SNP位点的基因型信息,结合家系亲缘关系,构建该家系全基因组单体型连锁分析图谱;
(5)在家系全基因组单体型连锁分析图谱中,根据子代间的共遗传单体型信息应保持一致、非共遗传单体型信息应保持不一致的原则,进行单体型矫正,去除干扰区段。
本发明中,开发联合SNP定位的家系全基因组单体型连锁分析技术,在符合孟德尔遗传定律的家系中,只需一次获取父代、母代或子代(胚胎)任意一种或两种样本的基因组DNA的一定数量的SNP位点信息,而不需要重复获取整个家系成员的所有SNP信息,利用已知SNP信息为参考,结合家系关系,进一步降低测序数据量,同时,设计采用单体型矫正策略,去除干扰杂点(区段)影响,提高分型准确性,解决PGT-A、PGT-M、PGT-SR的一体化检测需求,无需分别针对各类疾病构建对应检测流程。
优选地,步骤(1)所述获取所述基因组DNA样本的SNP信息的方法包括:从已有NGS数据中获取、从已有SNP array数据中获取、进行WGS测序、进行SNP array检测、进行RetSeq检测(参见CN111961707A)或进行三代测序检测中任意一种。
优选地,步骤(1)所述SNP的个数为>30万,优选50万~80万,进一步优选60万~70万。
优选地,步骤(3)中所述测序的方法包括WGS测序或进行RetSeq检测(参见CN111961707A)。测序数据量可低于常规WGS或RetSeq检测;进一步,相比于常规WGS或RetSeq检测,测序数据量最多可以降低60%以上。
优选地,所述建立坐标为参考人类标准参考基因组hg19或hg38。
本发明中,步骤(3)所述基于孟德尔遗传定律的具体分析思路为:先对QC值过低的SNP位点进行过滤,对不符合遗传关系的SNP位点进行过滤;然后基于遗传关系,父母一方为AA、父母另一方为AA,则子代必为AA(概率100%);父母一方为BB、父母另一方为BB,则子代必为BB(概率100%);父母一方为AA、父母另一方为BB,则子代必为AB(概率100%);父母一方为AB、父母另一方为AB,则子代必为AA或AB或BB(概率分别为25%,50%,25%);父母一方为AA、父母另一方为AB,则子代必为AA或AB(概率分别为50%,50%);父母一方为AB、父母另一方为BB,则子代必为AB或BB(概率分别为50%,50%);从而在遗传关系下根据参比样本已知SNP基因型信息,获知其他样本每个坐标位点下SNP可能存在的基因型及各种基因型的发生概率;根据家系其他样本测序数据情况,在只可能存在的1~3种基因型及各自发生概率下,获得每个SNP的准确基因型信息。
如家系中的父亲和母亲样本作为参比样本先进行检测,获知了固定坐标的SNP信息45万个,固定坐标位点按在人类参考基因组上的位置,规定依次为SNP1、SNP2、SNP3、……SNP450000。
假如根据第1个固定坐标位点SNP1父亲基因型信息为GC,母亲为GG,则可知子代胚胎的SNP1位点的基因型只能为GG或GC(概率分别为50%,50%);当低深度测序显示某胚胎在SNP1位点处有C碱基时,则可知该胚胎SNP1坐标位点的基因型为GC,当显示某另一胚胎SNP1位点处同时有G和C碱基时,则可知该胚胎SNP1坐标位点的基因型为GC,当显示某另一胚胎SNP1位点处只有G碱基时,则可知该胚胎SNP1坐标位点的基因型可能为GG或GC(具体为哪种在单体型矫正时可结合该胚胎上下游紧密连锁的坐标位点所在单体型进行区分)。
假如第2个固定坐标位点SNP2父亲基因型信息为AA,母亲为CC,则可知子代胚胎的SNP2位点的基因型只能为AC(概率100%),这时不管胚胎低深度测序提示信息为什么,均知定为AC。
然后依次对第3个到第450000个固定坐标位点SNP3~SNP450000的父亲和母亲基因型信息进行分析,获得子代可能出现的基因型及概率,结合各胚胎低深度测序情况做出判读,对于暂时无法准确判读的胚胎基因型,可在单体型矫正时进一步确认。
本发明中,所述单体型矫正具体可包括:从家系所有子代(胚胎)中任意选择某一个作为参考;当选定参考后,其他子代均能与之进行单体型比较。如以某个子代(胚胎)作为参考,则其他子代(胚胎)或者仅与参考共享母源单体型;或者子代仅与参考共享父源单体型;或者子代与参考共享相同的父源和母源这两个单体型;或者子代与参考没有共享的单体型,通过参考子代构建父代两条链的单体型与母代两条链的单体型。另基于连锁定律,在Kb水平发生同源重组的概率远小于1%,故在单体型图谱上出现的杂点(区段)可以根据上述单体型共遗传关系进行有效的矫正和去除。
本发明一具体实施例中,为了后续分析方便区分不同的单体型,可将子代遗传自父代的等位基因颜色标记为蓝色,父代的另一条链的等位基因颜色标记为红色,将子代遗传自母代的等位基因颜色标记为橙色,母代另一条链的等位基因颜色标记为绿色,通过孟德尔遗传定律,确定胚胎等位基因与参考等位基因来源是否一致,如果来源一致,则该等位基因颜色标记为蓝色(父代有效位点)、橙色(母代有效位点),否则标记为红色(父代有效位点)、绿色(母代有效位点),有效SNP位点见表1。
表1
第二方面,第一方面所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法在构建PGT-A、PGT-M和PGT-SR检测装置中的应用。
第三方面,本发明提供一种PGT-A、PGT-M和PGT-SR检测装置,所述检测装置包括获取SNP单元、构建参比样本单元、PGT-A分析单元、构建全基因组单体型连锁分析图谱单元及PGT-M和PGT-SR分析单元。
所述获取SNP单元用于执行包括:
取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本,获取所述基因组DNA样本的SNP信息。
所述构建参比样本单元用于执行包括:
以获取SNP信息后的基因组DNA样本作为参比样本,对参比样本的SNP位点建立坐标和基因型信息数据集合。
所述PGT-A分析单元用于执行包括:
对家系的其他个体样本中与参比样本相同坐标的SNP位点进行测序,根据参比样本的SNP坐标和基因型信息数据集合,基于孟德尔遗传定律,分析家系其他样本相同坐标的SNP的基因型,使用环状二元分割算法进行拷贝数变异分析。
本发明中拷贝数变异分析包括对测序数据进行比对分析,划分10Kb窗口统计Reads数,之后进行GC校正和窗口合并,获取合并窗口均一化后的Reads总数,然后,将样本均一化后的序列数与参考数据库进行比对,计算每个窗口的LogRR值,LogRR值反映了样本与参考数据库窗口片段的差异性,即每个窗口片段的CNV情况,最后,利用相邻窗口之间LogRR值的均值差构建t统计量分析,进而精确获得变异区段的分段点,确定CNV具体变异信息。
所述构建全基因组单体型连锁分析图谱单元用于执行包括:
根据家系样本在相同坐标下所有SNP位点的基因型信息,结合家系亲缘关系,构建该家系全基因组单体型连锁分析图谱。
所述PGT-M和PGT-SR分析单元用于执行包括:
在家系全基因组单体型连锁分析图谱中,根据子代间的共遗传单体型信息应保持一致、非共遗传单体型信息应保持不一致的原则,进行单体型区段矫正,去除干扰区段,进行PGT-M和PGT-SR分析。
优选地,获取SNP单元中所述获取所述基因组DNA样本的SNP信息的方法包括:从已有NGS数据中获取、从已有SNP array数据中获取、进行WGS测序、进行RetSeq检测、进行SNParray检测或进行三代测序检测中任意一种。
优选地,获取SNP单元中所述SNP的个数为>30万,优选50万~80万,进一步优选60万~70万。
优选地,PGT-A检测单元中所述测序的方法包括WGS测序、RetSeq检测、SNP array检测或三代测序。
第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序执行第一方面所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现第三方面所述的PGT-A、PGT-M和PGT-SR检测装置的功能。
第五方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序执行第一方面所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现第三方面所述的PGT-A、PGT-M和PGT-SR检测装置的功能。
与现有技术相比,本发明具有以下有益效果:
(1)本发明开发一种联合SNP定位的家系全基因组单体型连锁分析技术,在符合孟德尔遗传定律的家系中,只需获取父代、母代或子代(胚胎)任意一种或两种样本的基因组DNA的一定数量(>30万)的SNP位点信息,而不需要获取整个家系成员的所有SNP信息;基于家系中已知SNP信息的样本作为参比样本,构建参比样本的全基因组SNP位点坐标和基因型信息数据集合,然后对家系中其他样本进行检测和连锁分析时,仅分析该数据集合中固定坐标位点的基因型信息,达到低覆盖度(0.3×–1.4×)低成本测序即可获取足量SNP数据,同时结合家系遗传关系保证了SNP位点检测的准确性;
(2)本发明使用了单体型矫正策略,所有子代单体型信息均遗传自父母,子代间的共遗传单体型信息应保持一致,非共遗传单体型信息应保持不一致,从而可以进行单体型区段矫正,去除干扰杂点(区段)影响,提高分型准确性;
(3)本发明方法相较于常规高深度WGS或者RetSeq检测,测序数据量可降低60%以上,同时低深度测序可将整个检测时间缩短,达到降低测序成本、提高检测速率的目的;
(4)本发明可以通用解决PGT-A、PGT-M、PGT-SR的一体化检测需求,无需分别针对各类疾病构建对应检测流程。
附图说明
图1为PGT-A/SR/M一体化检测流程图;
图2为XY家系子代胚胎染色体非整倍体检测结果图;
图3A为XY家系单体型结果图(4号染色体);
图3B为XY家系单体型结果图(10号染色体);
图4为XY家系4q35及10q26区域遗传分析结果图;
图5为ZY家系的子代胚胎细胞低深度测序的全基因组单体型分型图谱;
图6为ZY家系的单体型结果图;
图7为ZY家系的CNV结果图;
图8为WZW家系子代胚胎染色体非整倍体检测结果图;
图9为WZW家系单体型结果图;
图10为WZW家系X染色体遗传分析结果图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道购买获得的常规产品。
本发明通过对家系中父母或参考样本进行检测,采用能获知该样本>30万SNP信息(>30万SNP,优选50万~80万,进一步优选60万~70万)的任一方式进行(如已有NGS数据、已有SNP array数据、进行WGS测序、进行SNP array检测、进行RetSeq检测、进行三代测序检测等)。进行全基因组SNP定位及数据集合,构建亲本全基因组单体型,并对其他待检测的胚胎细胞的全基因组DNA部分代表性区域进行低深度测序,避免了每次进行胚胎细胞检测时对父母基因型的重复检测过程,进一步降低了测序成本,缩短了检测时间。通过分析胚胎是否存在染色体非整倍体、染色体结构异常及携带单基因遗传病突变,辅助临床医生选择染色体正常的胚胎进行植入。本发明进一步构建可以应用于PGT-A/M/SR的检测装置,流程示意图如图1所示,是一种低成本通用的一体化检测解决方案,也可应用于生命科学其他领域。
NGS:Next-Generation Sequencing下一代测序技术。
RAD-Seq:restriction site-associated DNA sequencing简化基因组测序
IVF-ET:in vitro fertilization-embryo transfer体外受精-胚胎移植。
SNP:single nucleotide polymorphism单核苷酸多态性。
PGT-A:Preimplantation Genetic Testing for aneuploidy胚胎植入前非整倍体遗传学筛查。
PGT-M:Preimplantation Genetic Testing for Monogenic胚胎植入前单基因遗传学检测。
PGT-SR:Preimplantation Genetic Testing for Structural Rearrangements胚胎植入前染色体结构变异遗传学检测。
实施例1
本实施例提供染色体非整倍体检测及单基因遗传病筛查装置。
遗传咨询诊断中,发现咨询者XY,年龄35岁,高龄产妇自发性流产,且男方QB患有X染色体连锁遗传病,为面肩肱肌营养不良症(FSHD)1型患者,男方母亲GLX也为面肩肱肌营养不良症(FSHD)1型患者,要求医院助孕及选择遗传学正常胚胎移植。面肩肱型肌营养不良是一种遗传性肌肉疾病,受其影响最严重的是脸、肩、上臂等部位的肌肉。(部分患者存在自身基因突变)面肩肱型患者优点在于病情进展缓慢,不会危及生命。研究发现该病的基因异常位于4号染色体近末端的4q35位点。
夫妻双方及男方父母亲均取外周血样本5mL于EDTA抗凝采血管中保存,采用天根血液/细胞/组织基因组DNA提取试剂盒进行抽提。经过药物刺激卵巢超排卵,体外受精(IVF),从体外培养五天的囊胚中选取若干个囊胚滋养层细胞,编号为XY-1,XY-2,XY-8,XY-14。通过对胚胎部分细胞的DNA进行检测,分析胚胎染色体是否存在非整倍体数量异常,对4q35区域D4Z4重复区,10q26区域D4Z4重复区分别进行连锁分析,检测胚胎是否携带助FSHD致病突变,辅助临床医生判断胚胎是否植入。
质检合格的子代胚胎XY-1的单细胞扩增产物在750K单核苷酸多态性(SNP)微阵列芯片上进行反应,然后在Affymetrix基因芯片(GCS3000)扫描仪上扫描。家系中其他成员,包括男方父亲、男方母亲、男方、女方及其他子代胚胎样本进行低深度基因组测序分析(0.5×-0.9×),子代胚胎样本采用QIAGEN REPLI-g Single Cell Kit进行全基因组扩增,随后进行RetSeq-NGS建库:
①.DNA酶切:取DNA样本200ng,加入NspI和MboI内切酶,用移液器吹打混匀(不要涡旋),短暂离心,离心后立即置于PCR仪中:37℃20分钟,65℃20分钟,4℃保持;
②.DNA片段末端加接头:根据测序平台选择不同序列的接头,将接头混合液加入到酶切后的DNA中,涡旋混匀,短暂离心。离心后立即置于PCR仪中:60℃10分钟,4℃保持;
③.接头连接:将连接酶混合液加入到混合了接头的DNA中,涡旋混匀,短暂离心,离心后立即置于PCR仪中:22℃25分钟,65℃10分钟,4℃保持;
④.片段选择:补水到100μL然后加入AMPure XP磁珠60μL,混匀后室温放置5分钟,放置到磁力架上,然后磁力架上放置3~5分钟至液体澄清,转移上清至新的离心管中,加入18μLAMPure XP磁珠,混匀后室温放置5分钟,放置到磁力架上,等液体清亮,去上清,用200μL的80%酒精清洗,室温干燥后用22μL Low TE洗脱DNA;
⑤.文库扩增:在片段筛选后的DNA样本中,加入PCR反应混合液,再加入2μL特异性引物X,涡旋混匀,短暂离心,然后将PCR管放入PCR仪中:98℃45秒;(98℃15秒,55℃30秒,72℃30秒)*6个循环;72℃1分钟;4℃保存;
⑥.文库纯化:反应结束后离心,加入AMPure XP磁珠50μL,混匀后室温静置5分钟,然后磁力架上放置4分钟至液体澄清,弃上清,用200μL的80%酒精清洗,重复一次,室温干燥磁珠,加入25μL Low TE重悬磁珠,洗脱DNA。
构建好的文库使用PE100-NGS上机测序,测序数据量10M raw reads(0.5×-0.9×)。
获取SNP单元
首先使用基因芯片对子代胚胎XY-1样本检测,获取该样本的30万个SNP位点信息。
构建参比样本单元
然后以获得的SNP位点信息的作为参比样本,对参比样本的已知SNPs位点建立坐标和基因型信息数据集合(坐标为人类标准参考基因组hg19)。
PGT-A分析单元
然后对该家系中其他样本进行RetSeq检测,测序数据量10M raw reads(0.5×-0.9×)。对测序数据中QC值过低的SNP位点进行过滤,对不符合遗传关系的SNP位点进行过滤;然后根据参比样本SNPs坐标和基因型信息数据集合,基于孟德尔遗传定律,对家系其他样本相同坐标位点的SNP进行生信分析,获得准确基因型。
使用环状二元分割(circularbinary segmentation,CBS)算法,对测序结果进行分析,得到匹配到每条染色体上的有效序列数量,计算有效序列数量与参考数据库中相应染色体序列数量的比值,若该比值过高,则该染色体可判断为三体或重复;若该比值过低,则该染色体可判断为单体或缺失,实现对染色体非整倍体异常的检测,XY家系子代胚胎染色体非整倍体检测结果如图2所示。
构建全基因组单体型连锁分析图谱单元
根据家系样本在相同坐标下所有SNP位点的基因型信息,结合家系亲缘关系,构建好该家系全基因组单体型连锁分析图谱。进行子代胚胎全基因组单体型连锁分析,观察4q35区域D4Z4重复区,10q26区域D4Z4重复区,判断胚胎是否携带FSHD致病突变。XY家系测序数据指标情况如表2所示。
表2
例如根据第1个固定坐标位点SNP1男方基因型信息为GC,女方为GG,则可知子代胚胎的SNP1位点的基因型只能为GG或GC(概率分别为50%、50%);低深度测序显示胚胎XY-2在SNP1位点处有C碱基时,则可知该胚胎SNP1坐标位点的基因型为GC,另一胚胎XY-8在SNP1位点处同时有G和C碱基时,则可知该胚胎SNP1坐标位点的基因型为GC,当胚胎XY-14在SNP1位点处只有G碱基时,则可知该胚胎SNP1坐标位点的基因型可能为GG或GC(在单体型矫正时可结合该胚胎上下游紧密连锁的坐标位点所在单体型进行区分)。然后依次对第2个到第300000个固定坐标位点SNP2~SNP300000的男方和女方基因型信息进行分析,获得子代可能出现的基因型及概率,结合各胚胎低深度测序情况做出判读,对于暂时无法准确判读的胚胎基因型,可在单体型矫正时进一步确认。
单体型矫正及PGT-SR分析
在家系全基因组单体型连锁分析图谱中,所有子代单体型信息均遗传自父母,子代间的共遗传单体型信息应保持一致,非共遗传单体型信息应保持不一致,从而可以进行单体型区段矫正,去除干扰杂点(区段)影响。在该家系中我们以子代(胚胎)XY-1作为参考,则其他子代(胚胎)或者仅与参考共享母源单体型;或者子代仅与参考共享父源单体型;或者子代与参考共享相同的父源和母源这两个单体型;或者子代与参考没有共享的单体型。总之,所有子代间的单体型来源同一父本或母本单体型的,则为共遗传单体型,单体型信息应完全一致;所有子代间的单体型来源不同父本或母本单体型的,为非共遗传单体型,单体型信息应不一致。XY家系单体型结果如图3A和图3B所示。XY家系4q35及10q26区域遗传分析结果如图4所示,XY家系胚胎检测结果如表3所示。
表3
根据以上结果分析,XY-14胚胎样本染色体非整倍体检测正常,且在4q35区域D4Z4重复区,10q26区域D4Z4重复区未发现异常变异的遗传,该胚胎可进行植入。
实施例2
本实施例提供平衡易位家系检测装置。
遗传咨询诊断中,发现咨询者ZY,年龄28岁,自发性流产,未行基因检测,要求医院助孕。进行PGT-SR检测项目,夫妻双方均取外周血样本5mL于EDTA抗凝采血管中保存。经过药物刺激卵巢超排卵,体外受精(IVF),从体外培养五天的囊胚中选取若干个囊胚滋养层细胞进行胚胎植入前染色体平衡易位分析。
获取SNP单元
男女方样本编号为ZY-mother,ZY-father,子代胚胎样本编号为ZY-1,ZY-4,ZY-5,首先将男方、女方的外周血提取的DNA使用微阵列芯片(Illumina iScan)进行检测,获取该样本约40万个SNP位点信息。
构建参比样本单元
然后以获取到的SNP位点信息作为参比样本建立坐标和基因型信息数据集合(坐标为人类标准参考基因组hg19)。对子代胚胎细胞进行低深度全基因组测序分析,普通WGS检测,PE100-NGS检测,测序数据量50M raw reads(1.5×-3×)。ZY家系的子代胚胎细胞低深度测序的全基因组单体型分型图谱如图5所示。
构建全基因组单体型连锁分析图谱单元
对测序数据中QC值过低的SNP位点进行过滤,对不符合遗传关系的SNP位点进行过滤;然后基于遗传关系随后根据参比样本SNPs坐标和基因型信息数据集合,基于孟德尔遗传定律,对家系其他样本相同坐标位点的SNP进行生信分析,获得准确基因型。根据家系样本在相同坐标下所有SNP位点的基因型信息,结合家系亲缘关系,构建好该家系全基因组单体型连锁分析图谱。ZY家系测序数据指标情况如表4所示。
表4
样本编号 | 信息 | 数据量 | 测序深度 | LogRR_MAPD | LogRR_SD | 有效位点数 |
ZY-1 | 胚胎 | 50.0M | 3× | 0.06 | 0.138 | chr5:52;chr7:15 |
ZY-4 | 胚胎 | 51.8M | 3× | 0.056 | 0.1 | chr5:53;chr7:17 |
ZY-5 | 胚胎 | 50.5M | 3× | 0.07 | 0.128 | chr5:51;chr7:13 |
例如根据第1个固定坐标位点SNP1男方基因型信息为AG,女方为GG,则可知子代胚胎的SNP1位点的基因型只能为AG或GG(概率分别为50%,50%);低深度测序显示胚胎ZY-1在SNP1位点处有A碱基时,则可知该胚胎SNP1坐标位点的基因型为AG,另一胚胎ZY-4在SNP1位点处同时有A和G碱基时,则可知该胚胎SNP1坐标位点的基因型为AG,当胚胎ZY-5在SNP1位点处只有G碱基时,则可知该胚胎SNP1坐标位点的基因型为GG。然后依次对第2个到第400000个固定坐标位点SNP2~SNP400000的男方和女方基因型信息进行分析,获得子代可能出现的基因型及概率,结合各胚胎低深度测序情况做出判读,对于暂时无法准确判读的胚胎基因型,可在单体型矫正时进一步确认。
单体型矫正
在家系全基因组单体型连锁分析图谱中,所有子代单体型信息均遗传自父母,子代间的共遗传单体型信息应保持一致,非共遗传单体型信息应保持不一致,从而可以进行单体型区段矫正,去除干扰杂点(区段)影响。在该家系中我们以子代(胚胎)XY-4作为参考,则其他子代(胚胎)或者仅与参考共享母源单体型;或者子代仅与参考共享父源单体型;或者子代与参考共享相同的父源和母源这两个单体型;或者子代与参考没有共享的单体型。若所有子代间的单体型来源同一父本或母本单体型的,则为共遗传单体型,单体型信息应完全一致;若所有子代间的单体型来源不同父本或母本单体型的,则为非共遗传单体型,单体型信息应不一致。ZY家系的单体型结果如图6所示。
通过本技术进行分析,所有子代胚胎样本均显示了>99%的SNP定位准确性。
ZY家系的CNV结果如图7所示,分析结果:家系ZY中男方正常,女方为易位携带型,胚胎ZY-4在易位区域存在拷贝数异常为易位携带型,胚胎ZY-1在易位区域存在拷贝数异常为易位携带型。在5号染色体易位判读观察区域,胚胎ZY-4的橙色单体型为易位携带型,胚胎ZY-5的单体型为绿色说明该胚胎为正常型;在7号染色体易位判读观察区域,胚胎ZY-4的橙色单体型为易位携带型,胚胎ZY-5的单体型为绿色说明该胚胎为正常型。
实施例3
本实施例提供PGT-A/SR/M联合检测装置。
临床诊断中,发现咨询者WZW,年龄31岁,自发性流产,要求医院助孕及选择遗传学正常胚胎移植。女方WZW及男方ZYL均取外周血样本5mL,流产胎儿WZW-0取组织取约20mg,采用康为世纪核酸提取纯化试剂盒进行DNA抽提。女方经过体外受精(IVF)后选取若干个囊胚滋养层细胞进行检测,编号为WZW-2,WZW-8,WZW-9,分析胚胎染色体是否存在非整倍体数量异常、染色体结构异常(如染色体易位、倒位、微缺失和微重复等)、携带单基因遗传病,辅助临床医生判断胚胎是否植入。
获取SNP
将女方和流产胎儿的DNA使用全基因组测序WGS进行检测,对全基因组中基因覆盖率至少达到30×,获取每个样本30万SNP位点信息。然后以女方和流产胎儿作为参比样本,对参比样本的已知SNPs位点建立坐标和基因型信息数据集合(坐标为人类标准参考基因组hg19)。子代胚胎样本采用QIAGEN REPLI-g Single Cell Kit进行全基因组扩增,对男方DNA及子代胚胎进行普通WGS检测,PE100,测序数据量20M raw reads(0.5×-0.9×)。
构建参比样本
得到测序下机文件后,对QC值过低的SNP位点进行过滤,将测序数据与人类基因组数据库进行匹配,建立参比样本SNP信息数据集合,以识别遗传变异。
使用环状二元分割(circularbinary segmentation,CBS)算法进行拷贝数变异分析。对测序数据进行比对分析,划分10kb窗口统计Reads数,之后进行GC校正和窗口合并,获取合并窗口均一化后的Reads总数。然后,将样本均一化后的序列数与参考数据库进行比对,计算每个窗口的LogRR值。LogRR值反映了样本与参考数据库窗口片段的差异性,即每个窗口片段的CNV情况。最后,利用相邻窗口之间LogRR值的均值差构建t统计量分析,进而精确获得变异区段的分段点,确定CNV具体变异信息。WZW家系子代胚胎染色体非整倍体检测结果如图8所示,WZW家系测序数据指标情况如表5所示。
表5
构建家系全基因组单体型连锁分析图谱
例如根据第1个固定坐标位点SNP1女方的基因型信息为AA,男方为GG,则可知子代胚胎的SNP1位点的基因型只能为AG;第2个固定坐标位点SNP2女方的基因型信息为AG,男方为CC。则可知子代胚胎的SNP2位点的基因型只能为AC或GC(概率分别为50%、50%);当低深度测序显示胚胎WZW-2在SNP2位点处有A碱基时,则可知该胚胎SNP2坐标位点的基因型为AC,当显示胚胎WZW-8在SNP2位点处同时有G和C碱基时,则可知该胚胎SNP2坐标位点的基因型为GC,当显示胚胎WZW-9在SNP2位点处只有C碱基时,则可知该胚胎SNP2坐标位点的基因型可能为AC或GC(单体型矫正时可结合该胚胎上下游紧密连锁的坐标位点所在单体型进行区分)。
然后依次对第3个到第300000个固定坐标位点SNP3~SNP300000的男方和女方基因型信息进行分析,获得子代可能出现的基因型及概率,结合各胚胎低深度测序情况做出判读,对于暂时无法准确判读的胚胎基因型,可在单体型矫正时进一步确认。
单体型矫正
在家系全基因组单体型连锁分析图谱中,所有子代单体型信息均遗传自父母,子代间的共遗传单体型信息应保持一致,非共遗传单体型信息应保持不一致,从而可以进行单体型区段矫正,去除干扰杂点(区段)影响。在该家系中我们以子代(流产胎儿)WZW-0作为参考,则其他子代(胚胎)或者仅与参考共享母源单体型;或者子代仅与参考共享父源单体型;或者子代与参考共享相同的父源和母源这两个单体型;或者子代与参考没有共享的单体型。所有子代间的单体型来源同一父本或母本单体型的,则为共遗传单体型,单体型信息应完全一致;所有子代间的单体型来源不同父本或母本单体型的,为非共遗传单体型,单体型信息应不一致。
WZW家系单体型结果如图9所示,WZW家系X染色体遗传分析结果如图10所示,WZW家系胚胎检测结果如靶标6所示。
表6
胚胎 | 分型 |
WZW-2 | 携带 |
WZW-8 | 正常 |
WZW-9 | 正常 |
根据以上结果分析,女方及流产胎儿均在Xq28区域发生0.47M缺失,是导致流产的主要原因。胚胎WZW-8和WZW-9在X染色体Xq28区域未发生缺失,均可进行植入。
综上所述,本发明通过联合SNP定位技术,利用已知SNP信息为参考,结合家系关系,进一步降低测序数据量,无论采用RetSeq还是高深度WGS测序,测序数据量均可降低60%以上,可实现在同一次实验检测里,同时完成非整体、单基因疾病和染色体结构重排的一体化检测。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
Claims (10)
1.一种以非疾病诊断为目的的家系全基因组单体型连锁分析方法,其特征在于,所述方法包括以下步骤:
(1)取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本,获取所述基因组DNA样本的SNP信息;
(2)以获取SNP信息后的基因组DNA样本作为参比样本,以人类标准参考基因组hg19或hg38为坐标,对参比样本的SNP位点建立坐标和基因型信息数据集合;
(3)对家系的其他个体样本进行测序,根据参比样本的SNP坐标和基因型信息数据集合,基于孟德尔遗传定律,分析家系其他样本相同坐标的SNP的基因型;
(4)根据家系样本在相同坐标下所有SNP位点的基因型信息,结合家系亲缘关系,构建该家系全基因组单体型连锁分析图谱;
(5)在家系全基因组单体型连锁分析图谱中,根据子代间的共遗传单体型信息应保持一致、非共遗传单体型信息应保持不一致的原则,进行单体型矫正,去除干扰区段。
2.根据权利要求1所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法,其特征在于,步骤(1)所述获取所述基因组DNA样本的SNP信息的方法包括:从已有NGS数据中获取、从已有SNParray数据中获取、进行WGS测序、进行RetSeq检测、进行SNParray检测或进行三代测序检测中任意一种。
3.根据权利要求1或2所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法,其特征在于,步骤(1)所述SNP的个数为>30万,优选50万~80万,进一步优选60万~70万。
4.根据权利要求1-3任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法,其特征在于,步骤(3)中所述测序的方法包括WGS测序或RetSeq检测。
5.权利要求1-4任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法在构建PGT-A、PGT-M和PGT-SR检测装置中的应用。
6.一种PGT-A、PGT-M和PGT-SR检测装置,其特征在于,所述检测装置包括获取SNP单元、构建参比样本单元、PGT-A分析单元、构建全基因组单体型连锁分析图谱单元及PGT-M和PGT-SR分析单元;
所述获取SNP单元用于执行包括:
取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本,获取所述基因组DNA样本的SNP信息;
所述构建参比样本单元用于执行包括:
以获取SNP信息后的基因组DNA样本作为参比样本,对参比样本的SNP位点建立坐标和基因型信息数据集合;
所述PGT-A分析单元用于执行包括:
对家系的其他个体样本中与参比样本相同坐标的SNP位点进行测序,根据参比样本的SNP坐标和基因型信息数据集合,基于孟德尔遗传定律,分析家系其他样本相同坐标的SNP的基因型,使用环状二元分割算法进行拷贝数变异分析;
所述构建全基因组单体型连锁分析图谱单元用于执行包括:
根据家系样本在相同坐标下所有SNP位点的基因型信息,结合家系亲缘关系,构建该家系全基因组单体型连锁分析图谱;
所述PGT-M和PGT-SR分析单元用于执行包括:
在家系全基因组单体型连锁分析图谱中,根据子代间的共遗传单体型信息应保持一致、非共遗传单体型信息应保持不一致的原则,进行单体型区段矫正,去除干扰区段,进行PGT-M和PGT-SR分析。
7.根据权利要求6所述的PGT-A、PGT-M和PGT-SR检测装置,其特征在于,获取SNP单元中所述获取所述基因组DNA样本的SNP信息的方法包括:从已有NGS数据中获取、从已有SNParray数据中获取、进行WGS测序、进行RetSeq检测、进行SNParray检测或进行三代测序检测中任意一种;
优选地,获取SNP单元中所述SNP的个数为>30万,优选50万~80万,进一步优选60万~70万。
8.根据权利要求6或7所述的PGT-A、PGT-M和PGT-SR检测装置,其特征在于,PGT-A检测单元中所述测序的方法包括WGS测序、RetSeq检测、SNParray检测或三代测序。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-4任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现权利要求6-8任一项所述的PGT-A、PGT-M和PGT-SR检测装置的功能。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序执行权利要求1-4任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现权利要求6-8任一项所述的PGT-A、PGT-M和PGT-SR检测装置的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310448681.7A CN116665774A (zh) | 2023-04-24 | 2023-04-24 | 一种家系全基因组单体型连锁分析方法、装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310448681.7A CN116665774A (zh) | 2023-04-24 | 2023-04-24 | 一种家系全基因组单体型连锁分析方法、装置、存储介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665774A true CN116665774A (zh) | 2023-08-29 |
Family
ID=87710224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310448681.7A Pending CN116665774A (zh) | 2023-04-24 | 2023-04-24 | 一种家系全基因组单体型连锁分析方法、装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665774A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118380053A (zh) * | 2024-06-24 | 2024-07-23 | 首都医科大学附属北京天坛医院 | 一种筛选髓母细胞瘤新遗传易感基因的方法 |
-
2023
- 2023-04-24 CN CN202310448681.7A patent/CN116665774A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118380053A (zh) * | 2024-06-24 | 2024-07-23 | 首都医科大学附属北京天坛医院 | 一种筛选髓母细胞瘤新遗传易感基因的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024027569A1 (zh) | 一种不依赖于先证者的单体型构建方法 | |
CN110628891B (zh) | 一种对胚胎进行基因异常筛查的方法 | |
CN105648045A (zh) | 确定胎儿目标区域单体型的方法和装置 | |
CN113436680B (zh) | 一种同时鉴别胚胎染色体结构异常和致病基因携带状态的方法 | |
CN105969879B (zh) | 一种高通量检测AhFAD2A基因突变位点分型的引物组及检测方法 | |
CN106939334B (zh) | 一种孕妇血浆中胎儿dna含量的检测方法 | |
CN116665774A (zh) | 一种家系全基因组单体型连锁分析方法、装置、存储介质和设备 | |
AU2021359279B2 (en) | Nucleic acid library construction method and application thereof in analysis of abnormal chromosome structure in preimplantation embryo | |
CN114107488A (zh) | 一种检测mthfr基因多态性的引物组及试剂盒 | |
CN117248030A (zh) | 一种基于单细胞全基因组扩增的pkd1变异分子检测方法和应用 | |
CN115938481A (zh) | 一种基于靶向捕获和序列随机测序的通用型胚胎遗传变异检测技术方法和系统 | |
CN116083592A (zh) | 一种与绵羊生长性状相关的分子标记及其应用 | |
CN114592056A (zh) | 22q11微缺失和/或微重复检测引物组、引物探针组合物、试剂盒及其应用 | |
CN111172248B (zh) | 一种基于片段分析技术验证拷贝数变异的通用试剂盒 | |
CN111118150B (zh) | 用于检测il28b基因的方法、试剂盒、引物对及探针 | |
CN115323048A (zh) | 一种检测人类胚胎α-地中海贫血基因突变的引物组合以及方法 | |
CN110904211A (zh) | 一种用于检测甲基丙二酸血症相关mut基因突变位点的试剂盒 | |
CN109112211A (zh) | 一种人类胚胎Chediak-Higashi综合征LYST基因突变检测的引物组合及方法 | |
CN112725440B (zh) | 用于检测g6pd基因的方法、试剂盒、引物对及探针 | |
CN114507728B (zh) | 一种捕获引物及其应用 | |
CN114196749B (zh) | 核酸产品和用于α-地中海贫血单体型分析的试剂盒 | |
Nallamilli et al. | Molecular Diagnosis of Duchenne Muscular Dystrophy Using Single NGS‐Based Assay | |
CN112725432B (zh) | 一种检测Citrin缺乏症基因的引物、探针及其试剂盒 | |
CN116218976A (zh) | 一种检测人类胚胎染色体罗氏易位的引物组合以及方法 | |
Girardi | Development and Validation of Innovative Technologies for Highly Accurate and Cost-Effective Preimplantation Genetic Testing: Technical and Clinical Perspectives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |