CN115948528A - 一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用 - Google Patents
一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用 Download PDFInfo
- Publication number
- CN115948528A CN115948528A CN202210818701.0A CN202210818701A CN115948528A CN 115948528 A CN115948528 A CN 115948528A CN 202210818701 A CN202210818701 A CN 202210818701A CN 115948528 A CN115948528 A CN 115948528A
- Authority
- CN
- China
- Prior art keywords
- snp
- chromosome
- probe
- cnv
- typing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 208000026928 Turner syndrome Diseases 0.000 title claims abstract description 67
- 239000000523 sample Substances 0.000 claims abstract description 343
- 210000001766 X chromosome Anatomy 0.000 claims abstract description 194
- 238000004458 analytical method Methods 0.000 claims abstract description 97
- 238000001514 detection method Methods 0.000 claims abstract description 84
- 238000012163 sequencing technique Methods 0.000 claims abstract description 53
- 238000009396 hybridization Methods 0.000 claims abstract description 17
- 239000000203 mixture Substances 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 31
- 210000002593 Y chromosome Anatomy 0.000 claims description 29
- 108700028369 Alleles Proteins 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 102000003960 Ligases Human genes 0.000 claims description 23
- 108090000364 Ligases Proteins 0.000 claims description 23
- 238000002156 mixing Methods 0.000 claims description 15
- 238000012408 PCR amplification Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 14
- 239000012224 working solution Substances 0.000 claims description 14
- 102000004190 Enzymes Human genes 0.000 claims description 13
- 108090000790 Enzymes Proteins 0.000 claims description 13
- 230000003321 amplification Effects 0.000 claims description 13
- 239000000872 buffer Substances 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 13
- 239000000243 solution Substances 0.000 claims description 12
- 239000007853 buffer solution Substances 0.000 claims description 11
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000004925 denaturation Methods 0.000 claims description 7
- 230000036425 denaturation Effects 0.000 claims description 7
- 239000007788 liquid Substances 0.000 claims description 7
- 238000003908 quality control method Methods 0.000 claims description 7
- 238000011144 upstream manufacturing Methods 0.000 claims description 7
- 238000010438 heat treatment Methods 0.000 claims description 6
- 239000013074 reference sample Substances 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 238000001816 cooling Methods 0.000 claims description 4
- 239000011535 reaction buffer Substances 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 3
- 230000008775 paternal effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 claims 2
- 238000002360 preparation method Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 238000007481 next generation sequencing Methods 0.000 description 77
- 108020004414 DNA Proteins 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 22
- 210000000349 chromosome Anatomy 0.000 description 15
- 238000012217 deletion Methods 0.000 description 15
- 230000037430 deletion Effects 0.000 description 15
- 239000012634 fragment Substances 0.000 description 13
- 238000007480 sanger sequencing Methods 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 12
- 238000013461 design Methods 0.000 description 12
- 238000012795 verification Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000010322 bone marrow transplantation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 239000013610 patient sample Substances 0.000 description 4
- 230000035935 pregnancy Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 201000000736 Amenorrhea Diseases 0.000 description 3
- 206010001928 Amenorrhoea Diseases 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 3
- 231100000540 amenorrhea Toxicity 0.000 description 3
- 210000001185 bone marrow Anatomy 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 210000005259 peripheral blood Anatomy 0.000 description 3
- 239000011886 peripheral blood Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000002269 spontaneous effect Effects 0.000 description 3
- 208000026485 trisomy X Diseases 0.000 description 3
- 208000036626 Mental retardation Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000007664 blowing Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 208000019741 Abnormal external genitalia Diseases 0.000 description 1
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 102100023086 Anosmin-1 Human genes 0.000 description 1
- 102100023943 Arylsulfatase L Human genes 0.000 description 1
- 241000212384 Bifora Species 0.000 description 1
- 206010006237 Breast dysplasia Diseases 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 206010068051 Chimerism Diseases 0.000 description 1
- 238000001353 Chip-sequencing Methods 0.000 description 1
- 208000031639 Chromosome Deletion Diseases 0.000 description 1
- 208000011359 Chromosome disease Diseases 0.000 description 1
- 208000028698 Cognitive impairment Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000032928 Dyslipidaemia Diseases 0.000 description 1
- 102100022404 E3 ubiquitin-protein ligase Midline-1 Human genes 0.000 description 1
- 208000000571 Fibrocystic breast disease Diseases 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 108010051696 Growth Hormone Proteins 0.000 description 1
- 101001050039 Homo sapiens Anosmin-1 Proteins 0.000 description 1
- 101000975827 Homo sapiens Arylsulfatase L Proteins 0.000 description 1
- 101000680670 Homo sapiens E3 ubiquitin-protein ligase Midline-1 Proteins 0.000 description 1
- 101100477520 Homo sapiens SHOX gene Proteins 0.000 description 1
- 101000679575 Homo sapiens Trafficking protein particle complex subunit 2 Proteins 0.000 description 1
- 208000017170 Lipid metabolism disease Diseases 0.000 description 1
- 206010025282 Lymphoedema Diseases 0.000 description 1
- 208000037093 Menstruation Disturbances Diseases 0.000 description 1
- 206010027339 Menstruation irregular Diseases 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 206010033165 Ovarian failure Diseases 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-N Phosphoric acid Chemical group OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 description 1
- 208000002500 Primary Ovarian Insufficiency Diseases 0.000 description 1
- 102000048489 Short Stature Homeobox Human genes 0.000 description 1
- 108700025071 Short Stature Homeobox Proteins 0.000 description 1
- 208000020221 Short stature Diseases 0.000 description 1
- 102100038803 Somatotropin Human genes 0.000 description 1
- 102100022613 Trafficking protein particle complex subunit 2 Human genes 0.000 description 1
- 108700029631 X-Linked Genes Proteins 0.000 description 1
- 241000522649 Zornia Species 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 208000024971 chromosomal disease Diseases 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 230000007008 genitalia development Effects 0.000 description 1
- 230000002710 gonadal effect Effects 0.000 description 1
- 239000000122 growth hormone Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000004090 human X chromosome Anatomy 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000000509 infertility Diseases 0.000 description 1
- 230000036512 infertility Effects 0.000 description 1
- 231100000535 infertility Toxicity 0.000 description 1
- 208000021267 infertility disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000001596 intra-abdominal fat Anatomy 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 208000002502 lymphedema Diseases 0.000 description 1
- 230000036244 malformation Effects 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 230000005906 menstruation Effects 0.000 description 1
- 208000015994 miscarriage Diseases 0.000 description 1
- 239000011259 mixed solution Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 208000015124 ovarian disease Diseases 0.000 description 1
- 201000004535 ovarian dysfunction Diseases 0.000 description 1
- 231100000543 ovarian dysfunction Toxicity 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 206010036601 premature menopause Diseases 0.000 description 1
- 208000017942 premature ovarian failure 1 Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 208000016685 primary ovarian failure Diseases 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- -1 respectively Proteins 0.000 description 1
- 230000012488 skeletal system development Effects 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000002254 stillbirth Diseases 0.000 description 1
- 231100000537 stillbirth Toxicity 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000010330 visuo-spatial memory Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/30—Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于MLPA‑NGS方法检测特纳综合征的试剂盒及其使用方法和应用,所述试剂盒包括用于检测探针所结合的DNA位置的拷贝数情况的CNV探针、用于给出探针在DNA上杂交位置的SNP基因型的SNP探针和用于扩增连接后的探针的带有index序列的通用引物;每对探针均设置用于区分的特征性序列,以对测序结果进行各探针的reads数分析,从而分析SNP分型、样本的测序质量、核心家系亲子关系、X染色体父母来源、X染色体相对拷贝数以及X染色体嵌合体的父母来源。上述试剂盒的MLPA‑NGS方法,检测信息量大,对X染色体拷贝数可达到SNP芯片的效果,对于X染色体父母来源的分析可达到STR的效果,灵敏度高,操作简便,便于大规模推广。
Description
技术领域
本发明涉及生物基因技术领域,尤其涉及一种基于MLPA-NGS方法检测特纳综合征的试剂盒及其使用方法和应用。
背景技术
特纳综合征(Turner Syndrome,TS)是一种由于1条或部分X染色体的缺失导致基因剂量不足的染色体病,女性患病率约为1/2500。TS染色体核型由单体型、嵌合型、X染色体结构异常、含Y染色体核型构成。患者多数的临床表型为身材矮小、骨骼发育的异常、肾脏心脏的畸形,智力认知障碍、子宫或卵巢的发育异常、外生殖器发育异于常人、原发性闭经等症状。由于患者染色体核型组成的差别,其临床表现各有不同。在临床上,TS嵌合体的患者多因生长发育缓慢、女性患者闭经、月经不规律或成年后因不孕就诊时发现患有该病。一般而言,X染色体的缺失情况决定了表型,末端X染色体缺失通常与卵巢功能异常相关,近端Xq(如Xq13)缺失通常导致乳房发育不良、原发性闭经和性腺衰竭。Xq26-q28区域和Xq13.3-q21.1这两个区域都被认为包含卵巢决定簇基因,与卵巢功能早衰相关。
患有TS的群体中,有大约45%的患者的染色体核型为45,X,嵌合体约占20%-30%。X染色体来源于父亲(Xp)或母亲(Xm),其临床表型及预后不同。目前国外已有很多研究证实X连锁基因有关的特征在Xm、Xp两类不同单体的TS患者身上有所区别。Van的研究指出对于TS患者Xm会促进选择性内脏脂肪聚集及血脂障碍;Chu发现Xm受试者心血管疾病的患病率相对来说较Xp组有所升高;Bishop发现TS患者Xp受试者有更明显受损的视觉空间记忆。X染色体来源不同,治疗效果也不同。例如,Hamelin在研究中发现生长激素治疗而引起的身高增长幅度在TS单体Xm患者中更大。前期研究也发现X染色体来源不同临床表现轻重不同,因此改进了X-STR技术,联合核型分析用于检测TS患者染色体核型的类型及来源,不但提高了诊断疾病率,明确了病因,而且为指导疾病的预防、治疗及预后提供了科学依据,具有一定的前瞻意义。
TS嵌合体是根据第二个细胞系是否含有全部或部分X染色体进行分类的,45,X/46,XiXq、45,X/46,XX、45,X/47,XXX、45,X/46,X,del(Xp)是比较常见的嵌合体类型。不同细胞系的组织特异性表达,含有46,XX、47,XXX、46,XY细胞系的嵌合体患者临床异常表型可能有所改善。TS患者中单纯的45,X更可能出现先天性淋巴水肿,嵌合体型的45,X/46,XX以及45,X/47,XXX出现自发性月经及怀孕较为常见,45,X/46,XX的患者身高比其他TS患者略高一些。多数TS患者拥有正常的智力,然而小环状X染色体的患者智力发育迟缓的风险增加;由于小环状染色体失活,这些患者可能具有严重的典型S表型,环状染色体增加了精神发育迟缓及非典型表型的风险。大多数TS妇女由于原发性卵巢功能衰竭而不孕,然而,约5%经历了自发性妊娠,且自发性怀孕的大多数病例为嵌合体。许多研究表明,TS患者的妊娠发生流产,死胎和畸形婴儿的风险增加。
在国内,TS绝大部分都是通过染色体核型分析辅助诊断的,其误诊率及漏诊率较高。在国际上,除了通过核型分析辅助诊断外,也使用包括诸如芯片技术、MLPA技术、微卫星分析技术、FISH技术等辅助诊断。这些诊断方案在一定程度上提高了诊断率,但也存在各种类型的缺陷,仅对核型分析起一定的补充作用。因此,尝试性地开发一些新的检测方法,准确地给出X染色体的相关信息,可作为协助医生进行临床诊断的辅助工具。
发明内容
为了克服现有技术中存在的至少一个问题,本发明开发了MLPA-NGS方法,该技术基于MLPA(Multiples ligation-dependent probe amplification)技术的原理进行建库、再使用二代测序技术(NGS,Next-generation sequencing technology)进行测序,可实现基因上CNV与SNV的准确分析,是一种高通量的MLPA方法。使用上述MLPA-NGS方法分析人的X染色体,获得一种在X染色体上范围广、成本低、操作简单、周期短的检测方案;基于上述MLPA-NGS方法,开发了特纳综合征检测试剂盒及其分析方法,可在分子水平准确地检测特纳综合征,给出X染色体及X染色体各区段的剂量、给出X染色体及X染色体各区段的父母来源,精确地了解患者X染色体的重复(如存在)与缺失范围、嵌合体的比例、父母来源,获取患者X染色体的精确特征,为病人的特纳综合征(TS)亚型分析和治疗提供准确的检验数据。
为实现上述目的,本发明采用如下技术方案:
本发明的第一个方面是提供一种基于MLPA-NGS方法检测特纳综合征的试剂盒,其包括SNP探针组合物、CNV探针组合物及引物组合物;其中,所述SNP探针组合物包括分别设计于常染色体、X染色体、Y染色体的SNP探针对,所述CNV探针组合物包括分别设计于常染色体、X染色体、Y染色体的CNV探针对;所述引物组合物包括用于扩增连接后的探针的带有index序列的通用引物,各所述探针对分别包括左侧探针和右侧探针,所述左侧探针的5’端和所述右侧探针的3’端分别包含一段通用序列,其作为所述通用引物扩增时的结合序列。上述index序列用于区分不同的样本。
进一步地,在上述试剂盒中,所述SNP探针组合物包括142个探针对,其分别设计于常染色体的66个SNP位点、X染色体的51个SNP位点、Y染色体的25个SNP位点,其中,每一所述SNP位点包含两种基因型:野生型和突变型;所述CNV探针组合物包括84个探针对,其分别设计于常染色体的44对探针、X染色体的30对探针、Y染色体的10对探针。上述CNV探针组合物用于检测探针所在位置的CNV情况,上述SNP探针组合物在检测后可给出SNP的分型。
进一步地,各所述探针对中,右侧探针的5’端添加磷酸基团,以用于探针的连接。
进一步地,每条常染色体(基于GRCh38/hg38)上选择3个SNP位点,共66个位点,分别位于首尾和中间区域,因此同处一条染色体上的任意两个被选用的SNP,其距离大于1000K,在用于亲子鉴定时无需进行连锁分析;X染色体和Y染色体选择的SNP均以接近等距的方式分布。
进一步地,每条常染色体上设计两对CNV探针,共44对,分别位于染色体的两端附近;X染色体和Y染色体上选择的探针以接近等距的方式分布。
进一步地,在上述试剂盒中,所述SNP探针组合物中,用于结合模板DNA的各所述SNP探针对的序列如SEQ ID NO.1~SEQ ID NO.284所示;所述CNV探针组合物中,用于结合模板DNA的各所述CNV探针对的序列如SEQ ID NO.285~SEQ ID NO.452所示;所述通用引物的序列如SEQ ID NO.453~SEQ ID NO.454所示,左侧探针的5’端的通用序列如SEQ IDNO.455所示,右侧探针的3’端的通用序列如SEQ ID NO.456所示。具体地,参与反应的探针整体序列为:左侧探针:5’-通用序列-结合模板DNA序列-3’,右侧探针:5’-结合模板DNA序列-通用序列-3’。
具体地,设计于常染色体的66个SNP位点的探针对序列如SEQ ID NO.1~SEQ IDNO.132所示,设计于X染色体的51个SNP位点的探针对序列如SEQ ID NO.133~SEQ IDNO.234所示,设计于Y染色体的25个SNP位点的探针对序列如SEQ ID NO.235~SEQ IDNO.284所示;设计于常染色体的44个CNV探针对序列如SEQ ID NO.285~SEQ ID NO.372所示,设计于X染色体的30个CNV探针对序列如SEQ ID NO.373~SEQ ID NO.432所示,设计于Y染色体的10个CNV探针对序列如如SEQ ID NO.433~SEQ ID NO.452所示。
可理解的是,上述SNP探针及CNV探针的选择及设计中,基于同样的MLPA-NGS方法,如果更换SNP位点或更换CNV位点设计新的探针,在其不对特纳综合征的分析产生根本影响的情况,均不应视为对本发明所记载的探针的本质改变。
进一步地,在上述试剂盒中,所述SNP探针组合物和所述CNV探针组合物混合获得探针工作液,所述探针工作液中每条探针浓度为0.2-20fmol/μL。具体地,所有的SNP探针和CNV探针取适量混合,配制为每条探针浓度为0.2-20fmol/μL的混合液,依测试结果优化浓度,确定最优的探针工作液。具体地,所述探针工作液的最优浓度为2fmol/μL。
进一步地,在上述试剂盒中,所述引物组合物中,每一通用引物的配制浓度为2~200pMol。具体地,优选10~50pMol,更优选20pMol的浓度,每一引物各自配制而不加混合,只在扩增不同样本的探针连接产物时,上下游引物进行不同的组合,以获得带有不同index、可区分样本的产物。
进一步地,所述试剂盒还包括MLPA缓冲液、连接酶、连接酶缓冲液、PCR缓冲液、dNTP、PCR酶中的至少一种。
进一步地,所述试剂盒中各组分的用量包括:50-250ng DNA样品5μL,MLPA缓冲液1.5μL,探针工作液1.5μL;连接酶缓冲液6μL,连接酶1μL;PCR缓冲液5μL,dNTP4μL,PCR酶0.25μL,上下游通用引物各1μL。
可理解的是,在上述试剂盒中,对所用试剂及其浓度、用量等可进行适当的改变,其均不视为对上述试剂盒的本质改变。
进一步地,在上述试剂盒中,每一CNV探针对和每一SNP探针对均各自具有2~4段用于特纳综合征检测的特征性序列,具体地为3段特征性序列;各所述探针对分别包括左侧探针和右侧探针,所述特征性序列分别为从左侧探针与模板DNA结合区域的左侧、左侧探针与右侧探针连接位置、右侧探针与模板DNA结合区域的右侧各截取的具有预定长度的碱基序列;其中,所述特征性序列的序列长度为6~12个碱基,具体地序列长度为8~10个碱基,所述特征性序列相互之间至少间隔一个碱基(例如间隔2~35个,具体为间隔3个、4个、5个……30个碱基等)。
具体地,使用上述试剂盒对特纳综合征患者及父母进行检测和NGS测序后,为了分析各个CNV、各个SNP的等位基因型在fastQ文件中的reads数,需先设计相应探针的如上所述的特征性序列。在一具体实施方案中,每一CNV探针对的特征性序列的序列长度为8个碱基;每一SNP探针对的特征性序列的序列长度为10个碱基,每一SNP探针对可检测该SNP的两个等位基因,每个等位基因均包含3个特征性序列,两个等位基因的两小组探针特征性序列,仅在中间的特异序列有一个碱基的差异,该碱基分别对应野生型和突变型。上述构成了全部检测位点的特征性序列,如将包含简并碱基的一个SNP的探针视为两组探针,则任意一组特征性序列,与相应的探针是一一对应的。
可理解的是,在进行特征性序列设计时,可对序列的数量、长度、位置等进行适当调整,在保证对扩增产物分析的前提下,其应不视为对本发明所记载的特征性序列的本质改变。
基于上述探针序列、引物序列等源自Illumina二代测序的接头序列,扩增本身也是Illumina上机前的建库过程。可理解的是,也可进行调整采用其他合适的高通量测序平台;例如Roche/454测序平台、ABI SOLiD测序平台、Ion Torrent测序平台、CG测序平台等。
上述试剂盒涉及的序列信息如下表所示:
表1–探针、引物及特征性序列信息表
本发明的第二个方面是提供一种如本发明的第一个方面中任一所述的试剂盒的使用方法,其包括步骤:DNA样品变性;SNP探针组合物和CNV探针组合物与DNA样品进行探针杂交;采用连接酶和连接酶缓冲液进行杂交探针的连接;将探针连接产物与引物组合物进行PCR扩增;将PCR扩增产物测序,获得测序结果。
进一步地,上述试剂盒的使用方法具体包括步骤:
步骤S1、DNA变性和探针杂交:将DNA样品进行变性操作;将MLPA缓冲液与探针工作液充分混合,进行杂交反应,反应程序为:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时,获得杂交产物;
步骤S2、配制含有连接酶缓冲液的连接酶主液,将连接酶加入所述连接酶主液并混匀,54℃加热1分钟,于54℃恒温下加入所述杂交产物中混匀,继续孵育25分钟,于98℃加热5分钟,并冷却至20℃暂停,实现杂交探针的连接,获得连接产物;
步骤S3、将所述连接产物与PCR反应液进行PCR扩增反应,所述PCR反应液包括PCR反应缓冲液、dNTP、带有index的上下游通用引物、Taq酶,反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育,获得PCR扩增产物;
步骤S4、从每个PCR扩增产物中各取适量样本,混合均匀,送NGS测序仪上测序,获得测序结果(具体为fastQ文件)。
在一具体实施方案中,上述试剂盒的使用方法可为:(1)第一天进行DNA变性和探针杂交,其方法是:将5微升DNA样品(50-250ng)加到PCR管中,98℃变性5分钟,冷却至25℃取出;将MLPA缓冲液(来自MRC-Holland公司)1.5μL与探针工作液1.5μL混合,加入样品管,充分混合;(2)继续热循环程序:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时;(3)第二天,配制连接酶-65主液:每个反应各含25μL dH2O+3μL连接酶缓冲液B+3μL连接酶缓冲液A,然后加入1μL连接酶-65酶,移液器轻轻吹打混合均匀;缓冲液A、B及连接酶-65均来自MRC-Holland公司;将混合物置PCR仪(54℃)加热1分钟,然后于54℃恒温下加入正在孵育的PCR管,混匀,继续孵育25分钟;(4)将上述反应于98℃加热5分钟,并冷却至20℃暂停,取出PCR管;(5)在进行PCR扩增时,所用PCR酶为来自Takara的HS Taq酶;50μLPCR反应液中包括以下成分:5μL反应缓冲液,4μL dNTP,带有index的上下游通用引物(20pMol)各1μL,连接产物10μL,酶0.25μL,加水补充到50μL;反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育;(6)从每个PCR扩增产物中各取适量样本,混合均匀,冷冻保存,送Illumina公司生产的NGS测序仪上测序,获得测序的fastQ文件。
可理解的是,在上述使用方法中,对所用试剂、温度、孵育时间、测序仪器等可进行适当的调整,在不影响检测分析的前提下,应均不视为对上述试剂盒使用方法的本质改变。
进一步地,在上述使用方法中,每一探针对均具有用于特纳综合征检测的特征性序列,相关特征性序列的设计及其序列信息详见前述的本发明的第一个方面。
进一步地,在上述使用方法中,还包括根据所述测序结果进行结果分析的步骤,进行以下分析中的至少一种:分析探针reads数、确定SNP分型、判断样本的测序质量、判断核心家系亲子关系、判断X染色体及X染色体各区段父母来源、确定X染色体及X染色体各区段相对拷贝数、确定X染色体嵌合体的父母来源、确定Y染色体的存在与否。
进一步地,在上述使用方法中,当用于分析探针reads数时,其包括步骤:以每对探针的三段特征性序列的组合为待查找的文本,以fastQ文件中的每个reads为查找对象,以python中正则表达式的findall为查找函数,统计含有每个待查文本的reads的数量;其中,对于每个SNP,如果两种等位基因的reads数的和小于20,视为质量不合格,不予分析;通过质控的SNP,每个样本以野生型reads除以该样本SNP的总reads,得到该样本SNP的分型值,所述分型值的取值范围是[0,1]。
进一步地,在上述使用方法中,当用于确定SNP分型时,其包括步骤:使用所述试剂盒测试健康对照的群体样本,对于每个SNP分型值,绘制群体样本的各SNP各分型的分型值分布散点图,计算用以区分各SNP的各分型的分界点;基于所述分界点,对待测样本的相应SNP进行分型。
进一步地,在上述使用方法中,当用于判断样本的测序质量时,其包括步骤:当确定SNP分型后,多个正常样本的同一SNP的野生型或纯合突变型,其群体分型值可以用分型值的平均值加减标准差表示,所述群体分型值作为SNP的测量特征,用于判断该样本的检测质量;其中,所述平均值越大,说明测序质量越差。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的特纳综合征检测试剂盒或其检测方法的SNP分型。基于MLPA-NGS原理设计的其它的试剂盒或自建方法,为解决SNP的分型问题,如遵循了同样的方法建立SNP分析的判断框架及样本测序质量的判断,其不视为对上述分析方法的本质改变。
进一步地,在上述使用方法中,当用于判断核心家系亲子关系时,其包括步骤:在获得核心家系的常染色体SNP的分型结果之后,基于查到的每个SNP的各等位基因型的人群频率,遵循累积父系指数的分析规则,确认或否认核心家系的亲子关系;其中,每个所述核心家系包括父亲、母亲、孩子,在检测后被鉴定的SNP位点都符合家系分离规律且累积父系指数大于等于10000时,则确认核心家系的亲子关系。上述核心家系亲子关系的确认,是判断先证者X染色体的父母来源的先决条件。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的特纳综合征检测试剂盒的核心家系亲子关系确认。凡基于MLPA-NGS原理设计的其它的试剂盒或自建方法,为利用SNP的分型解决确认或否认核心家系的亲子关系的问题,其不视为对上述分析方法的本质改变。
进一步地,在上述使用方法中,当用于判断X染色体及X染色体各区段父母来源时,其包括步骤:当确认核心家系的亲子关系后,对于孩子的某个X-SNP,如果父母分别为半合型和纯合型且互不相同(如父母分别为AA,TT),在不考虑SNP突变的情况下,可判断孩子的两种等位基因型只能分别来自父亲和母亲,且父亲和母亲在该SNP位置只能分别提供自有的等位基因型;以及,在检测孩子该X-SNP的分型值后,根据分型值与剂量值的对应关系,计算出孩子两个等位基因的相对剂量,可判断来自父方和来自母方的X染色体的比例(具体为其大致比例)。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的特纳综合征检测试剂盒。凡基于MLPA-NGS原理设计的其它的试剂盒或自建方法,为判断X染色体及X染色体各区段父母来源,凡使用本发明上述方法的,其不视为对上述分析方法的本质改变。
可理解的是,本发明并不局限于基于MLPA-NGS原理设计的试剂盒或自建方法分析X染色体及X染色体各区段父母来源,为判断其它染色体的父母来源,凡使用本发明上述方法的,其不视为对上述分析方法的本质改变。
进一步地,在上述使用方法中,当用于确定X染色体及X染色体各区段相对拷贝数时,其包括步骤:对于每个样本,取常染色体CNV的reads求和,包括X-CNV在内的各个CNV的reads与之相比,得各个CNV的reads的占比值;以先证者的母亲或父亲或其他健康正常人为参照样品,将先证者的各个CNV占比值与参照样本的相应CNV占比值相比,如比较对象为女则乘以2,如比较对象为男则乘以1,所得值即为该位点的相对拷贝数。其中,如果母亲的探针中含有SNP导致先证者CNV检测明显有误,则可以以先证者的父亲为参照样品,此时求X-CNV不需乘以2。一般而言,相对拷贝数在预测的拷贝数偏差范围在30%以内的,可认为是合格的。
进一步地,在上述使用方法中,当用于确定X染色体嵌合体的父母来源时,其包括步骤:在确定X染色体及X染色体各区段父母来源和X染色体及X染色体各区段相对拷贝数后,对二者进行联合分析以确定X染色体嵌合体的父母来源。
进一步地,在上述使用方法中,当用于确定Y染色体的存在与否时,Y染色体上的SNP位点及Y-CNV检测,可确认先证者的性别,可通过SNP协助进行先证者的父子、祖孙、叔侄、兄弟之间的亲缘鉴定;Y-CNV检测则可用于判断先证者是否存在Y染色体的微缺失。
本发明的第三个方面是提供一种如本发明第一个方面中任一所述的试剂盒的应用,其具体为:采用所述试剂盒测试待检测者基因组DNA样本,进行MLPA-NGS检测。
进一步地,在上述应用中,通过MLPA-NGS检测获得下述结果中的至少一种:探针reads数、SNP分型、样本的测序质量、核心家系亲子关系、X染色体及X染色体各区段父母来源、X染色体及X染色体各区段相对拷贝数、X染色体嵌合体的父母来源、Y染色体的存在与否。
进一步对,在上述应用中,DNA样本的制备包括:采集外周血,使用血液DNA提取试剂盒制备DNA样本。可理解的是,也可采用其他形式的样本。
可理解的是,上述结果的分析可为非诊断目的,用于获得相关分析的中间结果。
为了验证MLPA-NGS在SNP检测方面的准确性,本发明使用Sanger测序和InfiniumOmni ZhongHua-8的SNP芯片进行验证;验证结果表明,与其他结果相比,SNP分析一致率为99.99%。MLPA-NGS在CNV检测方面的准确性,是通过大部分TS病人的核型分析结果进行验证的,也可以通过Infinium Omni ZhongHua-8芯片也可进行CNV的验证。MLPA-NGS对X染色体父母来源检测的准确性,是通过使用X-STR的方法验证的;验证方法证明基于MLPA-NGS开发的特纳综合征检测试剂盒在CNV检测和X染色体父母来源检测方面是准确的。
与现有技术相比,本发明采用上述技术方案具有以下有益效果:
本发明提供了一种用于检测特纳综合征的基于MLPA-NGS原理的试剂盒及其分析方法。上述试剂盒是由探针工作液、MLPA缓冲液、耐高温连接液、通用引物、PCR反应液等组成,其操作过程与MLPA技术类似。对于测序后获得的fastQ文件,可进行自动分析。分析内容包括:SNP分型、家系的亲子鉴定、X染色体中的拷贝数和父母来源及来源比例、Y染色体的存在与否等方面。上述试剂盒通过二代测序的方法检测,检测信息量大,对X染色体拷贝数可达到SNP芯片的效果,对于X染色体父母来源的分析可达到STR的效果,灵敏度高,试剂成本低,操作简便,对操作人员技能要求低,便于大规模推广。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明仅用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明一实施例中MLPA-NGS方法的流程示意图;其中,A:所设计的左右探针及与目标DNA的结合位置;B:模板解链后,探针与模板杂交;C:在连接酶的作用下探针连接;D:使用二代测序的接头序列为引物对连接产物扩增;E:扩增出两端相同而中间不同的产物;F:进行NGS测序;G:进行数据分析和统计;
图2是本发明一实施例中MLPA-NGS方法用于SNP检测的探针特点的示意图;
图3是本发明一实施例中一典型的SNP分型值分布散点图;
图4是本发明一实施例中rs4608的Sanger测序结果示意图;其中,采用的五个样品依次是p2866,p2801,p2864,p2845,p2806;
图5是本发明一实施例中rs1054480的Sanger测序结果示意图;其中,采用的五个样品依次是p2801,p2864,p2851,p2845,p2806;
图6是本发明一实施例中以HF01样本为例采用样本常染色体SNP分析常染色体的父母来源的结果示意图;
图7是本发明一实施例中以HF53样本为例采用某父供骨髓移植样本常染色体SNP分析常染色体的父母来源的结果示意图;
图8是本发明一实施例中以HF01的孩子样本为例采用某女性样本X-SNP分析X染色体的父母来源的结果示意图;
图9是本发明一实施例中以HF02的孩子样本为例采用某男性样本X-SNP分析X染色体的父母来源的结果示意图;
图10是本发明一实施例中以T8样本为例采用TS患者样本X-SNP分析X染色体的父母来源的结果示意图;
图11是本发明一实施例中以T8样本为例采用TS患者样本X-STR分析X染色体的父母来源的结果示意图;
图12是本发明一实施例中以T1样本为例采用TS患者样本X-SNP分析X染色体的父母来源的结果示意图;
图13是本发明一实施例中以T1样本为例采用TS患者样本X-STR分析X染色体的父母来源的结果示意图;
图14是本发明一实施例中一女一男两健康人X染色体的CNV分析的结果示意图;
图15是本发明一实施例中以T8样本为例TS患者X染色体的CNV分析的结果示意图;
图16是本发明一实施例中以T11样本为例TS患者X染色体的SNP芯片分析的结果示意图;
图17是本发明一实施例中以T11样本为例TS患者基于MLPA-NGS的常染色体SNP分析的结果示意图;
图18是本发明一实施例中以T11样本为例TS患者基于MLPA-NGS的X染色体SNP分析的结果示意图;
图19是本发明一实施例中以T11样本为例TS患者基于MLPA-NGS的X染色体CNV分析的结果示意图;
图20是本发明一实施例中以B1026样本为例TS患者X染色体的SNP芯片分析的结果示意图;
图21是本发明一实施例中以B1026样本为例TS患者基于MLPA-NGS的常染色体SNP分析的结果示意图;
图22是本发明一实施例中以B1026样本为例TS患者基于MLPA-NGS的X染色体SNP分析的结果示意图;
图23是本发明一实施例中以B1026样本为例TS患者基于MLPA-NGS的X染色体CNV分析的结果示意图;
图24是本发明一实施例中以H53样本为例TS患者X染色体的SNP芯片分析的结果示意图;
图25是本发明一实施例中以H53样本为例TS患者基于MLPA-NGS的常染色体SNP分析的结果示意图;
图26是本发明一实施例中以H53样本为例TS患者基于MLPA-NGS的X染色体SNP分析的结果示意图;其中,图6~图10、图12、图17~图18、图21~图22、图25~图26中,横坐标为SNP编号,SNP编号上标记实心五角星的,是指该位点符合遗传规律,空心五角星为不符合遗传规律,※号表示SNP未测出;柱状图的高度仅表示该等位基因型的比例,不表示剂量;
图27是本发明一实施例中以H53样本为例TS患者基于MLPA-NGS的X染色体CNV分析的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。下列实施例中未注明具体条件的实验方法,通常按照国家标准测定。下述实施例中未注明出处的实验材料,均为市售原料。下述实施例中的各步骤中采用的设备均为常规设备。若没有相应的国家标准,则按照通用的国际标准、常规条件、或按照制造厂商所建议的条件进行。除非另外说明,否则所有的份数为重量份,所有的百分比为质量百分比。除非另有定义或说明,本发明中所使用的所有专业与科学用语与本领域技术熟练人员所熟悉的意义相同。此外任何与所记载内容相似或均等的方法及材料皆可应用于本发明方法中。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
下述实施例中,从设计思路、试剂盒制备方法、样本收集、测试方法和分析方法等进行示例性论述。所用的样本包括50多个健康核心家系样本(每个核心家系包括父亲、母亲、孩子三人)和15例TS病患核心家系样本。下述实施例将给出部分样本的统计结果,具体为取3例患者作为实例进行较详细的阐述。上述3例样本的结果阐述仅用于说明本发明,而不应视为限制本发明的范围,下述实施例中所用试剂均为可以通过市售购买获得的常规产品。
下述实施例中,基于MLPA-NGS进行TS检测的原理简述如下:
(1)基于MLPA-NGS原理设计检测探针;
MLPA-NGS技术,是一种将MLPA技术与NGS技术融合在一起的技术,兼有MLPA技术对CNV及可预期SNV检测的高精度和NGS技术对目的片段检测的高通量,是一种高通量的MLPA技术。经典的MLPA技术的扩增产物因长度不同以毛细管电泳进行区分。而MLPA-NGS技术在MLPA探针连接后环节通过PCR为连接片段引入NGS的通用接头序列,融合产物直接进行高通量测序,从而将MLPA的长度检测变为MLPA-NGS对序列本身的检测,打破了MLPA扩增片段长度有限多样性对检测数目的限制,大大提高了检测通量。MLPA一次可检测最多60个左右的位点,而MLPA-NGS据测试可一次检测2000多个位点。为了进行TS的检测,所设计的检测探针分为两种类型,一种是CNV探针,用于检测每对探针所结合的DNA位置的拷贝数情况,一种是SNP探针,用于检测探针在DNA上杂交位置的连接位点的SNP的基因型。两种探针所分布的区域,位于各条常染色体、X染色体及Y染色体上,尤以X染色体上分布最为密集。所选择的被检测的SNP,一般为仅包含两种基因型(将这两种基因型称为野生型和突变型)的单碱基置换型SNP,通过在探针上设计分别针对两种基因型的简并碱基检测SNP的两种信号。
(2)使用MLPA-NGS原理设计的试剂盒判断SNP基因型;
所测得的每个SNP的两种基因型的信号,原始数据以reads数表示,进而通过计算一种基因型(野生型)的reads占两种基因型的占比,得出分型值(该数值的取值区间,显然是在[0,1]之内),而又以分型值的大小,判断基因型为野生型、杂合型还是纯合突变型。在使用分型值判断基因型之前,需设定基因型的分界值。其方法是将一系列正常样本的某个SNP的分型值以散点图的方式呈现,多数情况下可见这些位点散布在三个区域,分别为近0区域,近1区域和中间区域。在三个区域之间,留出两块或大或小的空白区域,分别取两个空白区域的两个中点,作为三个分布区域的分界线。如此可将新的待测的分型值划分到三个区域中的一个。根据待测SNP分型值落入近0区域,近1区域或中间区域,判断该SNP归属纯合突变型、野生型还是杂合型。该方法判断基因型的准确性,通过两种实验手段予以验证,一种是一代测序法,即随机取一些SNP位点、随机取一些样品进行一代测序,比较一代测序与MLPA-NGS结果的一致性;一种是使用SNP芯片技术,取一些样本进行SNP芯片检测,比较两种技术所共同涵盖SNP的一致性。而用于进行拷贝数变异检测的CNV探针,其对所在区域CNV检测的准确性,则是以核型分析实验和X-STR实验为对照的。SNP探针和CNV探针,共同汇合成为TS检测的探针工作液的主体部分。
(3)使用MLPA-NGS原理设计的试剂盒判断核心家系的亲子关系;
需将先证者及父母样本同时检测。在此之前,应确保所测父母为先证者的生物学父母。先证者及父母构成核心家系,以核心家系的常染色体SNP为分析对象,判断其是否符合遗传学规律,可进行亲子鉴定。具体而言,亲子关系需通过SNP的累积亲权指数(CPI)的计算进行判定。对于待测的核心家系,在检测后被鉴定的SNP位点都符合家系分离规律且CPI大于等于10000的,则核心家系的亲子关系可被确认。以大量确知关系的核心家系为检测对象,以MLPA-NGS为检测方法,则检测对象的被确证可反过来提示该方法对SNP检测的可靠性。
(4)使用MLPA-NGS原理设计的试剂盒判断先证者X染色体的父母来源;
亲子关系获得证实之后,可进一步判断先证者X染色体的父母来源。通常情况下,父亲有一条X染色体,每个X-SNP都为半合型,母亲有两条X染色体,每个X-SNP为野生型、杂合型或纯合突变型。孩子有一条、两条或者一条多的X染色体,毕竟只能来自父母。对于某个X-SNP,如果母亲不是杂合型且与父亲不同(如父为AA,母为GG),则孩子SNP的父母来源可清晰判断:如与父亲相同则来自父亲,与母亲相同则来自母亲,既有父亲信号又有母亲信号,则来自父母。孩子来自父母双方的信号的比例即为X染色体来源父母的比例。通常来自父母一方的信号显著小于另一方时,提示存在X染色体的嵌合体。X染色体多个连续的CNV检测,结合多个连续的X-SNP的父母来源的比值,可确认该段连续X-SNP所在X染色体区域的父母双方的来源和比例。
(5)使用MLPA-NGS原理设计的试剂盒分析检测结果的质量;
常染色体上SNP数据还可以用于分析检测结果的质量。分析发现,质量较好的样本,野生型的分型值更趋近于1,纯合突变型的分型值更趋近于0;而质量较差的样本,或者未严格按照实验流程测试的样本,野生型的分型值会离1远一些,纯合突变型的分型值离0远一些。多个正常样本的同一SNP的野生型或纯合突变型,其群体分型值可以用分型值的平均值加减标准差表示。群体分型值可视为该SNP的测量特征。一个新样本的每个SNP的分型值,与对应SNP对应等位基因的分型值的差的绝对值,比上标准差,命名为“分型偏差”,可视为该SNP符合SNP的测量特征的程度。某样本所有SNP,但凡不是杂合型,分型偏差的平均值,可用于判断该样本的检测质量。显然,该平均值越大,检测质量越差,结果越不可靠。
上述为基于MLPA-NGS方法进行TS的X染色体拷贝数及父母来源检测的大致原理。
实施例1-试剂盒的设计及使用
本实施例设计一种基于MLPA-NGS方法检测特纳综合征的试剂盒,并说明该试剂盒的操作方法,上述设计具体包括:
(1)位点的选择与探针设计;
遵循MLPA-NGS技术的原理设计SNP探针和CNV探针,MLPA-NGS技术的流程如图1(该图为先前研究附图,以便于读者理解,不起具体限定作用)所示。在设计SNP探针时,在每条常染色体(基于GRCh38/hg38)上选择3个SNP位点,共66个位点,分别位于首尾和中间区域,因此同处一条染色体上的任意两个被选用的SNP,其距离大于1000K,在用于亲子鉴定时无需进行连锁分析。X染色体上选择了51个SNP,Y染色体上选择了25个SNP。X、Y上SNP以接近等距的方式分布。SNP为单碱基置换型,一般仅包含两种等位基因型,次等位基因频率(MAF)一般大于0.2,但X、Y染色体上SNP的MAF未做严格限定。每个SNP的频率来自NCBI的千人基因组数据库。每个SNP的检测探针是由与模板结合的无缝相邻的两条探针组成,其中左侧探针的3’末端又包含了简并碱基,分别对应SNP的两种等位基因型,右侧探针5’端碱基带有磷酸化基团以备探针的连接,左右探针构成检测一个SNP的一组探针。取SNP野生型位点及两边共20bp的片段,在人基因组中比对,片段不唯一则不予选用;取SNP突变型位点及两边共20bp的片段,在人基因组中比对,片段若存在则不予选用。在有些左侧探针的3’末端第三个碱基引入错配,以提高连接时结合的特异性。引入错配的序列,同样取20bp的片段在基因组中比对,片段若存在不予选用。上述SNP探针序列如SEQ ID NO.1~SEQ ID NO.284所示。使用SNP探针用以检测SNP时,其模式如图2所示,例如:对于野生型和突变型等位基因分别为A和G的某SNP,探针上设计的简并碱基分别与模板上对应的T和C杂交时,可成功连接;如模板上不匹配,则不能成功连接或连接的比例较低,以此原理检测SNP。
每个位点的CNV探针,是由与模板结合的无缝相邻的两条探针组成,称为一对探针。在每条常染色体上设计两对CNV探针,共44对,分别位于染色体的两端附近。X染色体上设计了30对探针,Y染色体上设计了10对探针。X、Y上探针以接近等距的方式分布。探针的设计遵循了MRC公司的探针设计指南,取探针连接位点两边共20bp的片段,作为比对对象于人基因组中进行搜索,以验证其唯一性,不具有唯一性的探针不予使用。尽量排除探针结合区域存在SNP位点特别是MAF较高的情形,以减少SNP的干扰。右侧探针的5’末端添加了磷酸基团,以备探针的连接。上述CNV探针序列如SEQ ID NO.285~SEQ ID NO.452所示。
SNP探针及CNV探针中,左侧探针的5’端和右侧探针的3’端分别添加一段序列,作为通用引物扩增时的结合序列,其对应的序列如SEQ ID NO.455~SEQ ID NO.456所示。SNP探针和CNV探针合成和加磷酸基团后,每条探针适量混合,配制为每条探针浓度为0.2-20fmol/uL的混合液,依测试结果优化浓度(最优浓度为2fmol/uL),作为探针工作液。结合序列、引物等源自Illumina二代测序的接头序列,扩增本身也是Illumina上机前的建库过程。
(2)设计探针的分析序列(特征性序列)
相邻探针完成连接、扩增和测序后,获得测序结果。测序结果以fastQ文件的方式存在,文件包含了每个被测片段的序列及相关信息,这些序列即为reads。为了分析所设计探针扩增后的reads数,使用探针的特征性序列(即:特异序列)在fastQ文件中搜索。fastQ文件中,凡是包含了这些特异序列的reads,即归类为该探针并计数。每对CNV探针的特异序列包含三段,分别为从左侧探针与模板结合区域的左侧、左侧探针与右侧探针连接位置、右侧探针与模板结合区域的右侧各截取一段长度为8个碱基的序列,作为该对探针的特异序列。三段序列相互之间至少间隔一个碱基。每组SNP探针可检测该SNP的两个等位基因,每个等位基因包含3个特异序列,其位置与CNV探针相同但长度为10个碱基。两个等位基因的两小组特异序列,仅在中间的特异序列有一个碱基的差异,该碱基分别对应野生型和突变型。由此构成了全部检测位点的特异序列。如将包含简并碱基的一个SNP的探针视为两组探针,则任意一组特异序列,与相应的探针是一一对应的。相关的特征性序列信息详见“表1–探针、引物及特征性序列信息表”。
为了将fastQ文件的reads归属到所设计的各对探针,常规的分析方法为将reads与模板比对,然后计算比对成功的reads的深度。本实施例设计的分析方法与上述常规方法不同。常规方法是将测序reads比对到参考序列上,然后提取差异位点和差异位点频次数据,所得的结果与本实施例设计的方法相同。但上述常规方法需生物信息学专业人士使用特定的软件、在服务器上进行分析,时间长、操作复杂。本实施例设计的方法是将每对探针选三段序列在fastQ文件中查找并统计出现次数,该方法可得到与上述常规方法相同的结果,而操作和操作条件更为简单,也无需专业的生信人员和昂贵的服务器。本实施例设计的方法可自动排除低质量测序,因为低质量测序通常会导致随机的测序错误,具有随机错误的序列可被屏蔽在特异序列查找范围之外。查找方法利用了正则表达式。
(3)DNA样本的准备;
本实施例的研究得到了伦理委员会的批准。本实施例使用了53个健康核心家系(父亲、母亲、孩子)的DNA,2个来自血液科的孩子发生过骨髓移植的核心家系,15个诊断为Turner综合征的核心家系,所有家系成员均获得知情同意。各个家系之间无血缘关系。每个成员采集外周血2mL,使用血液DNA提取试剂盒(TIANGEN)制备DNA。DNA浓度由Nanodrop(Thermo Fisher Scientific)测定。
(4)MLPA-NGS实验流程;
第一天进行DNA变性和探针杂交,其方法是:将5微升DNA样品(50-250ng)加到PCR管中,98℃变性5分钟,冷却至25℃取出。将MLPA缓冲液(来自MRC-Holland公司)1.5μL与探针工作液1.5μL混合,加入样品管,充分混合。继续热循环程序:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时。第二天,配制连接酶-65主液:每个反应各含25μLdH2O+3μL连接酶缓冲液B+3μL连接酶缓冲液A,然后加入1μL连接酶-65酶,移液器轻轻吹打混合均匀。缓冲液A、B及连接酶-65均来自MRC-Holland公司。将混合物置PCR仪(54℃)加热1分钟,然后于54℃恒温下加入正在孵育的PCR管,混匀,继续孵育25分钟。将上述反应于98℃加热5分钟,并冷却至20℃暂停。取出PCR管。
在进行PCR扩增时,所用PCR酶为来自Takara的HS Taq酶(货号:R007Q)。50uL PCR反应液中包括以下成分:5uL反应缓冲液,4uL dNTP,上下游引物(20pMol)各1uL,连接产物10uL,酶0.25uL,加水补充到50uL。上游引物的序列和下游引物的序列分别如SEQ IDNO.453和SEQ ID NO.454所示,两条引物中的poly(N)为index序列,以区分样本。反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育。从每个PCR扩增产物中各取适量样本,混合均匀,冷冻保存,送南京诺禾致源生物科技有限公司进行测序,使用Qubit 2.0对文库浓度进行初步定量,使用Agilent 2100检测文库DNA片段的完整性及插入片段大小,使用Illumina高通量测序仪(如HiSeq2500/HiSeq4000/HiSeqX/MiSeq)进行双端150bp测序,获得测序的fastQ文件。
实施例2–试剂盒测序结果的分析
本实施例对实施例1中获得的fastQ文件进行相应的结果分析,其具体包括:
(1)Reads的统计方法及分型值计算
从高通量测序仪上获得fastQ文件,使用python编写程序进行分析。以实施例1中的“(1)位点的选择与探针设计和(2)设计探针的分析序列”部分设计的每个位点的3个分析序列的组合为待查找的文本,以fastQ文件中的每个reads为查找对象,以python中正则表达式的findall为查找方法,统计含有每个待查文本的reads的数量。对于每个SNP而言,如果两种等位基因的reads数的和小于20,视为质量不合格,不予分析。
通过质控的SNP,每个样本以野生型reads除以该样本此SNP的总reads,得该SNP的分型值,显然该值的取值范围是[0,1]。
(2)制作SNP分型的判断框架进行SNP的分型、SNP分型的质量控制
(A)SNP的分型;
为了根据分型值准确判断每个SNP的分型,本实施例利用选自健康核心家系的73个健康人的分型值制作了每个SNP的分型值的分布散点图,以探索SNP的分布规律。
在多数情况下,每个SNP的分型值散点可分为三组:近1散点,近0散点,中间散点。中间散点一般集中分布,与近0散点和近1散点有着清晰的隔离区间。将分型值区间[0,1]拉长1000倍,置于坐标系中,形成包含1000个单位的、X坐标区间为[0,1000]、Y坐标为0的基线。每个分型值乘以1000后在该基线上对应的位点,前后各取10个单位,将基线上对应单位的Y坐标分别减1。该SNP的每个分型值如此处理后,一般将在基线上形成三个凹槽,分别对应纯合突变型、杂合型和野生型。而在纯合突变型与杂合型、杂合型与野生型之间,会保留或长或短的Y值为0的平整基线,令该平整基线的中点为区分纯合突变型与杂合型、杂合型与野生型的分界值,而平整区域的长度代表该位点作为分界点的可靠程度。对于Y染色体上的SNP位点,则只有野生型与突变型两种形态,不存在杂合型。每个SNP的分型值经分界点区分为三组或两组散点,分别对应三种或两种基因型。基线上的分界点除以1000,即为分型值的分界点,所得两组或三组散点的分型值分别以均数±标准差(x±s)表示。
分型值与剂量值之间,存在大致的对应关系。分型值散点图给出的,是野生型剂量分别为0、0.5、1时分型值与剂量值的关系。在此三点之外,则根据上述对应关系进行大致的判断。当分型值位于接近0或接近1的区间时,使用剂量为0和1时分别对应的分型值进行校正;当分型值位于中间区域时,使用剂量值为0.5时对应的分型值进行校正。而分型值位于不同区间的分割值,对大部分SNP,设定为0.1和0.9。
为了建立SNP的分型框架,使用73个样本作为分析对象。按照上述方法,对每个SNP的分型值做散点图,再在散点图的基础上计算两个空白区域(边界)的中点和长度、小值(近0的分型值)的平均值,小值标准差、大值平均值,大值标准差等。其中,一典型的SNP分型值散点图如图3所示,横坐标为分型值区间[0,1]拉长1000倍,纵坐标为样本数,散点为野生型、杂合型、纯合突变型的分布,纵坐标的0点线上两点为纯合突变型和杂合型分界点、杂合型与野生型的分界点,该SNP(rs12040811)的野生型和突变型碱基分别为C和T。
下表包含每个SNP的边界中点、小值平均、小值标准差、大值平均,大值标准差等。因篇幅所限,且杂合型的平均值和方法未使用,故该表未包含。图3中rs12040811的数据,已整合到下表之中。
(B)SNP分型的质量控制;
为了辨析样本的测序质量,定义了平均分型偏差的概念。上述样本中某个个体的某SNP,其分型值依分界点区分出基因型,如非杂合型,则与样本中该SNP对应基因型的分型值的均值相减,所得值的绝对值比对应的标准差(设定:当标准差小于0.003时,以0.003为标准差),即定义为该个体该SNP的分型偏差。对该个体全部测得的SNP的全部可计算的分型偏差取平均,为平均分型偏差值。为每个样品做该样品全部SNP的分型值散点图,发现平均分型偏差值越大,该样本的SNP分型值分布越弥散,其分型的可靠性越低。因此,对健康样本中平均分型偏差值过大的样本进行了剔除处理,对其余样本重新计算均数和标准差,之后再以新的均数和标准差计算每个样本的平均分型偏差值。
(3)根据家系的SNP计算累积亲权指数;
对于受试者样本的每个SNP的分型值,根据上述分型值分界点,对受试者进行SNP分型。当一个核心家系的孩子、父、母进行了同样的MLPA-NGS检测和SNP分型后,分析三者符合等位基因分离规律的情况,可鉴定其亲子关系。似然率(Likelihood ratio,LR)用于表示亲子鉴定结果的可信度。LR根据两个假设(H0:受试者是给定谱系中孩子的生父;H1:受试者无关)计算为似然值(L)的比率。总体LR则是通过常染色体上SNP panel计算累积父系指数(CPI)进行确定的。
在进行CPI计算时,由于每个染色体上SNP的距离较远,远大于1000K,因此无需对相邻SNP做连锁分析。
(4)使用X-SNP分析X染色体的父母来源;
通过常染色体SNP判断孩子父母为生物学父母后,可进一步通过X-SNP判断X染色体的父母来源及来源的比例。
对于孩子某SNP的两个等位基因(alleles),在判断父母来源方面有三种情况。第一种情况是不能判断,如子父母分别为(AT,AT,AT),孩子的其中一个allele可来自父母的任意一方,因此不能判断。第二种情况是勉强可以判定,如子父母分别为(AT,AT,TT),由于孩子的A只能来自父亲,故虽然父亲也有T,仍可判断孩子的T来自母亲。第三种情况是可强烈判断父母来源的,如子父母分别为(AT,AA,TT),在不考虑SNP突变的情况下,可判断,孩子的A和T只能分别来自父亲和母亲,且父亲和母亲在该SNP位置只能分别提供A和T。在Turner综合征中,由于X染色体的状态存在多种情况,如一条或来自父亲或来自母亲,两条分别来自父母或皆来自母亲,或存在低比例嵌合体的情况,因此,为准确地判断X染色体的父母来源,选择了第三种情况做判断依据。第三种情况的主要特征是,某个SNP在父母基因上分别为半合型和纯合型且alleles不同。在这种情况下,检测孩子该SNP的分型值后,根据分型值与剂量值的对应关系,计算出孩子两个alleles的相对剂量,可判断来自父方和来自母方的X染色体的大致比例。
(5)CNV分析方法;
待测样本的CNV计算方法,参考了MRC-Holland公司的CNV计算原理。具体地说,对于每个样本,取常染色体CNV的reads求和,包括X-CNV在内的各个CNV的reads与之相比,得各个CNV的reads的占比值。以先证者的母亲为参照样品,将先证者的各个CNV占比值与参照样本的相应CNV占比值相比并乘以2,所得值即为该位点的相对拷贝数。如果母亲的探针中含有SNP导致先证者CNV检测明显有误,则可以以先证者的父亲为参照样品,此时求X-CNV不需乘以2。一般而言,相对拷贝数在预测的拷贝数偏差范围在30%以内的,被认为是准确的。
(6)对照试验;
为了验证MLPA-NGS在SNP检测方面的准确性,使用了两种对照试验。一种是随机选取10个SNP位点,每个位点选择5个样本,5个样本在MLPA-NGS检测中包含了三种基因型,以这些样本的DNA为模板,设计SNP的扩增引物扩增后进行Sanger测序,比较Sanger测序结果与MLPA-NGS分析结果的一致性。第二种对照试验,是使用Illumina公司的名为InfiniumOmni ZhongHua-8的SNP芯片(服务公司:上海和卓医学检验实验室有限公司)进行全基因组范围的染色体拷贝数异常现象检测。上述检测使用了三个样本,分别为T11-先证者,B1026-先证者,H53-孩子。该检测严格按照质控标准进行,包括DNA的提取、酶切、连接、PCR、纯化、片段化、标记、杂交、洗脱、扫描和分析几个步骤。该方法在SNP检测上,包含了117万多个SNP位点,一致率在99%以上,并可进行CNV分析。
MLPA-NGS在CNV检测方面的准确性,是通过大部分TS病人的核型分析结果进行验证的。核型分析由上海迪安医学检验所完成,每个病人检测的细胞数为30、50、100不等。Infinium Omni ZhongHua-8芯片也可进行CNV的验证,其检测精度要高于核型分析技术。
MLPA-NGS对X染色体父母来源检测的准确性,通过使用X-STR的方法验证。该方法详见马红杜的硕士论文“9个X-STR基因座荧光复合扩增体系的建立及其遗传多态性”。
实施例3–试剂盒的分析方法的验证及应用例
本实施例采用某些样本对实施例2中的分析方法进行验证,并提供了相关的具体应用例,其具体包括:
(1)SNP Reads的统计;
应用实施例2中的分析方法查询程序运行完成后,每对探针的各条特异序列在fastQ文件中出现的次数、每对探针的三条特异序列在fastQ文件一起出现于一条reads中的次数,汇总于excel文件之中。
例如,患者T4家庭的某次测试的某几个SNP的reads数据如下。右三列从左到右依次是孩子、父亲、母亲的reads。
rs_number | Alleles | 1000Genomes_EAS | C_reads | AF_reads | M_reads |
rs12751100 | [G] | G=0.3502 | 0 | 10 | 12 |
[A] | 11 | 20 | 25 | ||
rs12040811 | [C] | C=0.6597 | 125 | 243 | 240 |
[T] | 229 | 473 | 521 | ||
rs9350 | [C] | C=0.5317 | 15 | 20 | 51 |
[T] | 106 | 254 | 295 | ||
rs3740304 | [T] | T=0.7619 | 300 | 726 | 1009 |
[C] | 0 | 4 | 3 | ||
rs3758490 | [G] | G=0.3085 | 126 | 256 | 4 |
[T] | 322 | 784 | 2149 |
(2)SNP分型、验证及相关分析;
根据每个SNP三种基因型的分型值的分界点,基于每个SNP计算的分型值,可将每个SNP分型。代入分型结果和等位基因的人群频率,可计算每个SNP的PI值。如某SNP测得的reads总和过低,则视为质量不合格,不予计算。
(A)SNP的分型值、分型结果和PI值;
下表为患者T4家庭的某次测试的某几个SNP的分型值、分型结果和PI值。数据如下:第3-5列,6-8列从左到右依次是孩子、父亲、母亲。该表与T4家庭前一张表存对应关系。将同一核心家系的所有SNP的PI值相乘,即为CPI。
下表为患者B1100的某次测试的某几个SNP的分型值、分型结果和PI值。该结果的PI一列,有多个结果为“Err”,提示孩子与父母有多个SNP的分型不符合遗传规律,判断所测父亲非孩子的生物学父亲。该结果与STR检测结果一致。对此类患者,后续X染色体父母来源的分析,是不准确的。使用的来自血液科的两个病例,孩子进行过骨髓移植,在进行PI计算时也出现大量“Err”。
(B)对SNP分型偏差值的计算可用于实验的质量控制;
下表右侧三列为T4家系几个SNP的分型偏差值。每个样品所有常染色体SNP的分型偏差值的平均值,为平均分型偏差值,代表该样本测序的数据质量。
(C)亲子鉴定SNP排除数、平均分型偏差值的分析;
对所测的53的健康家系、2个发生过骨髓移植的家系、15个TS患者家系进行了亲子鉴定SNP排除数、平均分型偏差值的分析,其结果如下:
在这些家系中,HF53和HF55家系为孩子进行了骨髓移植的家系,亲子鉴定SNP排除数分别为6和17个,与预期相符。B1100家系,亲子鉴定SNP排除数分别为11个,判断父亲非亲生父亲。B1100的结果与STR检测结果一致。此外,还有3个健康家系各有1个SNP排除数,本实施例对三个位点进行了测序验证,结果显示,HF42家系的rs2976399,其左相邻存在另一SNP,影响了rs2976399的准确性。另外两个家系,经Sanger测序,应属于二代测序判断问题。因此,在使用该方法进行亲子鉴定时,如果仅仅有一个或极少数SNP位点不符合遗传规律,不能完全排除测序误差的问题。另外该方法还有改进的空间。
(D)验证试验:Sanger测序法和SNP芯片检测;
除了个别位点存在问题外,本实施例对其它位点进行了验证试验。验证采用了两种方法,一种是Sanger测序法,一种是SNP芯片检测。
Sanger测序法是随机选择一些SNP位点,有选择地选择一些样本(以便含有三种基因型),其对应关系及结果如下表和图4~图5所示。见图4,rs4608位点在5个样品上的Sanger测序结果,与MLPA-NGS方法一致;见图5,rs1054480位点在5个样品上的Sanger测序结果,与MLPA-NGS方法一致。上述结果表明,Sanger测序结果与MLPA-NGS结果完全一致。
SNP | 样本 | 样本 | 样本 | 样本 | 样本 |
rs2976399 | p2837 | P4002 | P4004 | P4005 | P4252 |
rs1652727 | p2801 | p2806 | p2845 | p2851 | p2864 |
rs2281974 | p2801 | p2806 | p2845 | p2851 | p2864 |
rs8451 | p2801 | p2845 | p2851 | p2864 | p2863 |
rs2289759 | p2801 | p2806 | p2845 | p2851 | p2864 |
rs4608 | p2801 | p2806 | p2845 | p2864 | p2866 |
rs11353 | p2801 | p2806 | p2845 | p2851 | p2864 |
rs1054480 | p2801 | p2806 | p2845 | p2851 | p2864 |
rs2229137 | p2801 | p2806 | p2845 | p2851 | p2865 |
rs2270672 | p2806 | p2845 | p2851 | p2864 | p2863 |
SNP | 结果 | 结果 | 结果 | 结果 | 结果 |
rs2976399 | GA | AA | GG | AA | GA |
rs1652727 | CT | CC | TT | CT | TT |
rs2281974 | GA | GG | AA | GA | GA |
rs8451 | GG | GG | GG | GA | AA |
rs2289759 | GG | AG | GG | AG | AA |
rs4608 | TT | CT | CT | CT | CC |
rs11353 | TC | TC | TT | CC | TC |
rs1054480 | CC | CC | TT | CT | CT |
rs2229137 | AA | CC | CC | AA | AC |
rs2270672 | CC | CC | TT | TT | CT |
在使用Infinium Omni ZhongHua-8这款SNP芯片对T11先证者、B1026先证者、H53孩子这三个样品进行检测,经过比对,仅rs5744944的T11先证者样本的测序结果与测序不同。该结果前面已有提及。其余位点,在两种技术皆有结果者,是完全一致的。
(3)基于SNP的染色体父母来源分析及验证;
如上所述,基于核心家系的SNP判断染色体的父母来源,有三种情况。
(A)对常染色体SNP判断染色体的父母来源,本实施例利用的是第二和第三种情况。
以HF01为例,凡是不能区分父母来源的SNP,用蓝色柱状图显示。能区分父母来源的SNP,计算父母来源的剂量,分别用橙色和灰色表示。在转化为黑白图之后,可依图例的颜色进行判断。每个符合遗传规律的SNP,用实心五角星号表示,不符合则用空心五角星号表示,如该SNP未测出,则用※号表示。图6中能分辨父母来源的SNP,来自父母的剂量各半,符合预期。
以HF53为例,该样本的孩子进行过骨髓移植,骨髓供体为其父。图7中,可见SNP上有大量空心五角星,提示不符合遗传的分离规律。然而不符合分离规律的SNP,又一律为橙色,即为父源,提示该方法即使对骨髓移植的判断上也有一定的应用价值。因此,以家系SNP判断父母来源,在常染色体上是有效的。
(B)使用该方法判断X染色体的父母来源,使用了三种情况的第三种情况(某SNP父母非杂合且不同)。HF01和HF02的孩子分别为女性和男性(见图8,图9)。可见HF01凡是可区分父母来源的SNP位点,双方剂量接近,在9个SNP位点得以证明,受检者的X染色体来自父母,父母各半,与女性有两条X染色体且分别来自父母的常识一致。HF02样本凡是可区分父母来源的SNP位点,在3个SNP位点得以证明,受检者的X染色体来自母亲,与男性X染色体来自母亲的常识一致。所测53个健康核心家系皆符合性别特征。
(C)使用同样方法分析TS患者的X染色体的父母来源;
以T8样品为例(见图10),在13个SNP位点得以证明,受检者的X染色体来自父母,来自父亲的部分高于来自母亲的部分。可见来自父方的X染色体远大于来自母亲的X染色体。经计算,来自父亲的X染色体的比例是70.2%。上述结果与X-STR检测结果是一致的。图11为T8先证者及父母的名为GATA172D05的STR检测结果,可见先证者的两个STR位点分别来自父亲和母亲,父母所带的STR长度各不相同,先证者来自母亲的STR的剂量明显低于父母,这表明先证者的X染色体来自父母,其中来自母亲的X染色体信号较弱。T8先证者核型分析的结果为:45,X[12]/46,XX[38],二者是一致的。
以T1样品为例(见图12),使用同样方法分析TS患者的X染色体的父母来源,从图12可见,在10个SNP位点得以证明,受检者的X染色体来自父母,来自父亲的部分远远高于来自母亲的部分,来自父方的X染色体远大于来自母亲的X染色体。经计算,来自父亲的X染色体的比例是89.7%。上述结果与X-STR检测结果是一致的,图13为T1先证者及父母的名为DXS10146的STR检测结果(先证者箭头所指的STR峰,来自母亲),可见先证者的X染色体来自父亲,但有微弱的来自母亲的X染色体信号,这种微弱的信号,有时会视为污染或非特异的影响。而在本实施例的分析方法中,母亲信号在多个SNP位点中重复出现,而在健康家系中无此信号,可见其存在是真实的。而在核型分析中,T1先证者为45,X,可见来自母亲的X染色体被完全忽略了。
因此,基于MLPA-NGS方法的SNP Panel检测,可判断X染色体的父母来源、比例,该结果与X-STR结果及染色体核型分析结果一致。
(4)CNV分析及验证;
CNV探针可用于检测探针所在位置的CNV。健康家系中一名女性和一名男性的X染色体的拷贝数,分别为2拷贝和1拷贝(见图14,女性健康者的X染色体拷贝数为2,男性健康者X染色体拷贝数为1)。其中CNV48,CNV53探针由于不知名的原因,这两个位点的稳定性略差。
CNV探针也可测到X染色体发生大片段CNV的样本。如T8样本,X染色体拷贝数检测见图15,说明该患者的X染色体拷贝数明显大于1,而小于2,因此应该是嵌合体。其平均拷贝数约为1.32,这与该样本的核型分析结果“45,X[12]/46,XX[38]”也是基本吻合的。
本实施例取三例TS阳性样本(T11,B1026,H53)进行SNP芯片检测,检测结果与MLPA-NGS结果一致,证明MLPA-NGS技术在CNV检测方面是准确的。这三例样本的结果见下述“(5)X染色体父母来源及CNV的联合分析”。
(5)X染色体父母来源及CNV的联合分析;
本实施例以三例样本为例,进行X染色体父母来源及CNV的联合分析。这三例样本都进行过核型分析和SNP芯片检测,通过相互比较确认MLPA-NGS方法的准确性。
1)实例1:
实例1为T11家系样本。T11先证者核型为:“45,X[17]/46,XX[83]”,意指:分析100个细胞,17个细胞核型为45,X,少一条性染色体;83个细胞核型为46,XX,因此为45,X/46,XX嵌合体核型。
对T11先证者样本进行名为Infinium Omni ZhongHua-8的SNP芯片分析结果为:“arr[hg19]Xp22.33q28(60,425-155,236,747)x1~2”,报告的结果解释:X染色体发生嵌合缺失,拷贝数为1~2,为45,XO/46,XX嵌合,缺失比例约占40%。SNP芯片检测的X染色体结果见图16,其显示X染色体上杂合型SNP位点的两种等位基因的剂量是不相等的,这种不相等贯穿整体X染色体,提示存在整倍性的嵌合体。
本实施例对T11家系进行了MLPA-NGS的检测,T11家系的常染色体SNP分析图谱见图17,显示常染色体等量来自父母,与常识相符。图17显示,T11在rs5744944位置存在遗传不符(已有提及),经过SNP芯片检测和Sanger测序检测,证明T11先证者在该位置存在检测错误。排除该错误后,可证实被检测的父母为T11先证者的生身父母。来自父母的常染色体的比例,经SNP的剂量计算分别48.2%和51.8%,与常染色体等量来自父母的常识相符。
T11家系的X染色体SNP分析图谱见图18,显示X染色体来自父母,且来自父亲的部分多于来自母亲的部分;X染色体父母来源的比例分别为64.2%和35.8%。
假设每个细胞都含有来自父亲的X染色体,一部分细胞含有来自母亲的染色体,则缺失来自母亲X染色体的细胞的比例,应为(64.2%-35.8%)/64.2%=44.2%,该数值与芯片检测结果的缺失比例约占40%的结论一致。而核型分析的缺失一条X染色体的比例为17%,与MLPA-NGS的结果相差较大。由于核心分析一般仅分析100个细胞,一般而言其定量的误差较大。
T11家系先证者的X染色体CNV分析图谱见图19,显示T11样本的X染色体的拷贝数在1.5左右,在各个探针上基本均一,X染色体的拷贝数的平均值是1.52。
如先证者为46,XX的核型,则X染色体的相对拷贝数应为2。按目前1.52计算,缺失比例为2-1.52=48%,与前者44.2%的结果吻合。因此T11家系的MLPA-NGS的检测结果,定性地看是与核型分析和SNP芯片检测一致的,定量上更接近SNP芯片检测结果。
2)实例2:
实例2为B1026家系样本。B1026先证者核型为:“46,X,del(X)(q22)(18)/45,X(12)”,核型描述为:外周血经培养后进行染色体核型分析,共计数30个细胞。18个细胞核型为46,X,del(X)(q22);12个细胞核型为45,X,丢失一条性染色体。
对B1026先证者样本进行名为Infinium Omni ZhongHua-8的SNP芯片分析结果为:“arr[hg19]Xp22.33(60,425-976,171)x1~2;Xp22.33q13.1(979,904-69,415,867)x1~2;Xq13.1q21.31(69,424,308-91,754,954)x1~2;Xq21.31q28(91,765,739-155,236,747)x1”,报告对核型的解释:X染色体Xp22.33区带嵌合缺失一个拷贝,长度约为916kbp,缺失比例约占35%。X染色体Xp22.33q13.1区带嵌合缺失一个拷贝,长度约为68.44Mbp,缺失比例约占70%。X染色体Xq13.1q21.31区带嵌合缺失一个拷贝,长度约为22.33Mbp,缺失比例约占35%。X染色体Xq21.31q28区带缺失一个拷贝,长度约为63.47Mbp。
SNP芯片检测的X染色体结果见图20,显示从SNP芯片看,X染色体长臂下面主要区域只有一个染色体拷贝,而短臂区域的X染色体是不均匀的。
本实施例对B1026家系进行了MLPA-NGS的检测,B1026家系的常染色体SNP分析图谱见图21,显示常染色体等量来自父母,与常识相符。图21显示,B1026所测的全部常染色体SNP皆是遗传相符的,证实被检测的父母为B1026先证者的生身父母。自父母的常染色体的比例,经SNP的剂量计算分别51.3%和48.7%,与常染色体等量来自父母的常识一致。
B1026家系的X染色体SNP分析图谱见图22,显示在患者左侧有5个SNP位点,可区分出X染色体为父母来源,父少母多,右侧有四个SNP位点,显示X染色体仅来自母亲。X染色体父母来源的比例分别为16.1%和83.9%。
B1026家系先证者的X染色体CNV分析图谱见图23,从CNV结果看,CNV61及之前的位点,拷贝数要高于1,之后的位点,拷贝数基本等于1;X染色体的拷贝数的平均值是1.19。
从SNP芯片的检测结果看,上述样本为一个X染色体复杂核型的患者。其主要特征是,细胞分为两种,一种的核型为45,X,另一种的核型为46,X,del(X)(q22),二者组合成嵌合体。MLPA-NGS的结果与核型分析及SNP芯片的结果是吻合的。
3)实例3:
实例3为H53家系样本。H53先证者核型为:“46,X,del(11.2)”,该核型表示其中一条X染色体短臂部分缺失。
对H53先证者样本进行名为Infinium Omni ZhongHua-8的SNP芯片分析结果为:“arr[hg19]Xp22.33p11.21(60,425-57,169,551)x1”,报告的结果解释:X染色体Xp22.33p11.21区带缺失一个拷贝,长度约为57.11Mbp,涉及ARSL、STS、ANOS1、MID1、TRAPPC2、SHOX等666个基因。
SNP芯片检测的X染色体结果见图24,说明短臂部分绝大部分缺失,使SNP在该缺乏缺失杂合性。
本实施例对H53家系进行了MLPA-NGS的检测,H53家系的常染色体SNP分析图谱见图25,显示常染色体等量来自父母,与常识相符。图25显示,H53所测的全部常染色体SNP皆是遗传相符的,证实被检测的父母为H53先证者的生身父母。来自父母的常染色体的比例,经SNP的剂量计算分别为51.0%和48.9%,与常染色体等量来自父母的常识一致。
H53家系的X染色体SNP分析图谱见图26,说明在患者左侧有4个可区分父母来源的SNP位点显示,这段X染色体仅来自母亲;右侧有6个可区分父母来源的SNP位点,显示X染色体基本等量来自父母;X染色体父母来源的比例分别为30.1%和69.9%。
H53家系先证者的X染色体CNV分析图谱见图27,从CNV结果看,CNV56及之前的位点,拷贝数为1,之后的位点,拷贝数基本等于2;X染色体的拷贝数的平均值是1.56。因此,上述样本的MLPA-NGS检测,也是与核型分析和SNP检测一致的。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围。
Claims (10)
1.一种基于MLPA-NGS方法检测特纳综合征的试剂盒,其特征在于,所述试剂盒包括SNP探针组合物、CNV探针组合物及引物组合物;其中,所述SNP探针组合物包括分别设计于常染色体、X染色体、Y染色体的SNP探针对,所述CNV探针组合物包括分别设计于常染色体、X染色体、Y染色体的CNV探针对;所述引物组合物包括用于扩增连接后的探针的带有index序列的通用引物,各所述探针对分别包括左侧探针和右侧探针,所述左侧探针的5’端和所述右侧探针的3’端分别包含一段通用序列,其作为所述通用引物扩增时的结合序列。
2.根据权利要求1所述的试剂盒,其特征在于,所述SNP探针组合物包括142个探针对,其分别设计于常染色体的66个SNP位点、X染色体的51个SNP位点、Y染色体的25个SNP位点,其中,每一所述SNP位点包含两种基因型:野生型和突变型;所述CNV探针组合物包括84个探针对,其分别为设计于常染色体的44对探针、X染色体的30对探针、Y染色体的10对探针。
3.根据权利要求1所述的试剂盒,其特征在于,所述SNP探针组合物中,用于结合模板DNA的各所述SNP探针对的序列如SEQ ID NO.1~SEQ ID NO.284所示;所述CNV探针组合物中,用于结合模板DNA的各所述CNV探针对的序列如SEQ ID NO.285~SEQ ID NO.452所示;所述通用引物的序列如SEQ ID NO.453~SEQ ID NO.454所示,左侧探针的5’端的通用序列如SEQ ID NO.455所示,右侧探针的3’端的通用序列如SEQ ID NO.456所示。
4.根据权利要求1所述的试剂盒,其特征在于,所述SNP探针组合物和所述CNV探针组合物混合获得探针工作液,所述探针工作液中每条探针浓度为0.2~20fmol/μL;和/或,所述引物组合物中,每一通用引物的配制浓度为2~200pMol;和/或,所述试剂盒还包括MLPA缓冲液、连接酶、连接酶缓冲液、PCR缓冲液、dNTP、PCR酶中的至少一种。
5.一种如权利要求1~4中的任一项所述的试剂盒的使用方法,其特征在于,包括步骤:DNA样品变性;SNP探针组合物和CNV探针组合物与DNA样品进行探针杂交;采用连接酶和连接酶缓冲液与杂交探针进行连接反应;将探针连接产物与引物组合物进行PCR扩增;将PCR扩增产物测序,获得测序结果。
6.根据权利要求5所述的使用方法,其特征在于,具体包括步骤:
步骤S1、DNA变性和探针杂交:将DNA样品进行变性操作;将MLPA缓冲液与探针工作液充分混合,进行杂交反应,反应程序为:95℃2min,65℃至55℃,每降一度孵育1小时,然后在54℃保持3-10小时,获得杂交产物;
步骤S2、配制含有连接酶缓冲液的连接酶主液,将连接酶加入所述连接酶主液并混匀,54℃加热1分钟,于54℃恒温下加入所述杂交产物中混匀,继续孵育25分钟,于98℃加热5分钟,并冷却至20℃暂停,实现杂交探针的连接,获得连接产物;
步骤S3、将所述连接产物与PCR反应液进行PCR扩增反应,所述PCR反应液包括PCR反应缓冲液、dNTP、带有index的上下游通用引物、Taq酶,反应条件为:95℃30s,60℃30s,72℃60s,35个循环;72℃孵育20min,最后15℃孵育,获得PCR扩增产物;
步骤S4、从每个所述PCR扩增产物中各取适量样本,混合均匀,送NGS测序仪上测序,获得测序结果。
7.根据权利要求5所述的使用方法,其特征在于,每一CNV探针对和每一SNP探针对均各自具有2~4段用于特纳综合征检测的特征性序列;各所述探针对分别包括左侧探针和右侧探针,所述特征性序列分别为从左侧探针与模板DNA结合区域的左侧、左侧探针与右侧探针连接位置、右侧探针与模板DNA结合区域的右侧各截取的具有预定长度的碱基序列;其中,所述特征性序列的序列长度为6~12个碱基,所述特征性序列相互之间至少间隔一个碱基。
8.根据权利要求5所述的使用方法,其特征在于,还包括根据所述测序结果进行结果分析的步骤,进行以下分析中的至少一种:分析探针reads数、确定SNP分型、判断样本的测序质量、判断核心家系亲子关系、判断X染色体及X染色体各区段父母来源、确定X染色体及X染色体各区段相对拷贝数、确定X染色体嵌合体的父母来源、确定Y染色体的存在与否。
9.根据权利要求8所述的使用方法,其特征在于,当用于分析探针reads数时,其包括步骤:以每对探针的2~4段特征性序列的组合为待查找文本,统计含有每个待查文本的reads的数量;其中,对于每个SNP,如果两种等位基因的reads数的和小于20,视为质量不合格,不予分析;通过质控的SNP,每个样本以野生型reads除以该样本SNP的总reads,得到该样本SNP的分型值,所述分型值的取值范围是[0,1];
和/或,当用于确定SNP分型时,其包括步骤:使用所述试剂盒测试健康对照的群体样本,对于每个SNP分型值,绘制群体样本的各SNP各分型的分型值分布散点图,计算用以区分各SNP的各分型的分界点;基于所述分界点,对待测样本的相应SNP进行分型;
和/或,当用于判断样本的测序质量时,其包括步骤:当确定SNP分型后,多个正常样本的同一SNP的野生型或纯合突变型,其群体分型值可以用分型值的平均值加减标准差表示,所述群体分型值作为SNP的测量特征,用于判断该样本的检测质量;其中,所述平均值越大,说明测序质量越差;
和/或,当用于判断核心家系亲子关系时,其包括步骤:在获得核心家系的常染色体SNP的分型结果之后,基于查到的每个SNP的各等位基因型的人群频率,遵循累积父系指数的分析规则,确认或否认核心家系的亲子关系;其中,每个所述核心家系包括父亲、母亲、孩子,在检测后被鉴定的SNP位点都符合家系分离规律且累积父系指数大于等于10000时,则确认核心家系的亲子关系;
和/或,当用于判断X染色体及X染色体各区段父母来源时,其包括步骤:当确认核心家系的亲子关系后,对于孩子的某个X-SNP,如果父母分别为半合型和纯合型且互不相同,在不考虑SNP突变的情况下,可判断孩子的两种等位基因型只能分别来自父亲和母亲,且父亲和母亲在该SNP位置只能分别提供自有的等位基因型;以及,在检测孩子该X-SNP的分型值后,根据分型值与剂量值的对应关系,计算出孩子两个等位基因的相对剂量,可判断来自父方和来自母方的X染色体的比例;
和/或,当用于确定X染色体及X染色体各区段相对拷贝数时,其包括步骤:对于每个样本,取常染色体CNV的reads求和,包括X-CNV在内的各个CNV的reads与之相比,得各个CNV的reads的占比值;以先证者的母亲或父亲或其他健康正常人为参照样品,将先证者的各个CNV占比值与参照样本的相应CNV占比值相比,如比较对象为女则乘以2,如比较对象为男则乘以1,所得值即为该位点的相对拷贝数;以及,
和/或,当用于确定X染色体嵌合体的父母来源时,其包括步骤:在确定X染色体及X染色体各区段父母来源和X染色体及X染色体各区段相对拷贝数后,对二者进行联合分析以确定X染色体嵌合体的父母来源;
和/或,当用于确定Y染色体的存在与否时,Y染色体上的SNP位点及Y-CNV检测,可确认先证者的性别,并可通过SNP协助进行先证者的父子、祖孙、叔侄、兄弟之间的亲缘鉴定;Y-CNV检测则可用于判断先证者是否存在Y染色体的微缺失。
10.一种如权利要求1~4中的任一项所述的试剂盒的应用,其特征在于,采用所述试剂盒测试待检测者基因组DNA样本,进行MLPA-NGS检测,获得下述结果中的至少一种:探针reads数、SNP分型、样本的测序质量、核心家系亲子关系、X染色体及X染色体各区段父母来源、X染色体及X染色体各区段相对拷贝数、X染色体嵌合体的父母来源、Y染色体的存在与否。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210818701.0A CN115948528A (zh) | 2022-07-12 | 2022-07-12 | 一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210818701.0A CN115948528A (zh) | 2022-07-12 | 2022-07-12 | 一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115948528A true CN115948528A (zh) | 2023-04-11 |
Family
ID=87281300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210818701.0A Pending CN115948528A (zh) | 2022-07-12 | 2022-07-12 | 一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115948528A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994651A (zh) * | 2023-07-12 | 2023-11-03 | 深圳安吉康尔医学检验实验室 | 一种关于染色体拷贝数缺失的来源确定方法及装置 |
-
2022
- 2022-07-12 CN CN202210818701.0A patent/CN115948528A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994651A (zh) * | 2023-07-12 | 2023-11-03 | 深圳安吉康尔医学检验实验室 | 一种关于染色体拷贝数缺失的来源确定方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105543339B (zh) | 一种同时完成基因位点、染色体及连锁分析的方法 | |
CN107526944A (zh) | 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质 | |
US20140051585A1 (en) | Methods and compositions for reducing genetic library contamination | |
CN110628891B (zh) | 一种对胚胎进行基因异常筛查的方法 | |
CN110878345A (zh) | 通过分子计数提高等位基因调用的置信度 | |
US20220049297A1 (en) | Method and kit for determining genome instability based on next generation sequencing (ngs) | |
CN106434859A (zh) | 先天性肾上腺皮质增生症基因筛查试剂盒、筛查方法及其应用 | |
Suárez-Vega et al. | Combining GWAS and RNA-Seq approaches for detection of the causal mutation for hereditary junctional epidermolysis bullosa in sheep | |
CN107236037B (zh) | 一种突变的msh6蛋白及其编码基因、应用 | |
CN112410410A (zh) | 一种基于mlpa-ngs技术的dmd和sma的拷贝数变异检测试剂盒及其用途 | |
CN115948528A (zh) | 一种基于mlpa-ngs方法检测特纳综合征的试剂盒及其使用方法和应用 | |
CN113388672A (zh) | 检测pkd1变异单精子的引物组合物、产品及方法 | |
CN116479103B (zh) | 一种检测脊髓性肌萎缩症相关基因的试剂盒 | |
Bujakowska et al. | Efficient in silico identification of a common insertion in the MAK gene which causes retinitis pigmentosa | |
US10053737B2 (en) | Methods and compositions for treating cancer by identifying one or more ERK mutations | |
CN113046448B (zh) | 一种与绵羊产羔数相关的snp遗传标记及其应用 | |
KR101890810B1 (ko) | 피코액적 디지탈 pcr을 이용한 상염색체 열성질환의 비침습적 산전 진단 방법 및 그를 위한 키트 | |
CN115323048A (zh) | 一种检测人类胚胎α-地中海贫血基因突变的引物组合以及方法 | |
CN115786455A (zh) | 一种基于mlpa-ngs方法用于司法鉴定的snp位点检测组合物及其应用 | |
CN118326032B (zh) | 一种检测系统性红斑狼疮关联基因多态性的引物和探针组合及试剂盒 | |
CN111379032A (zh) | 一种用于构建同时实现基因组拷贝数变异检测和基因突变检测的测序文库的方法和试剂盒 | |
US20230348982A1 (en) | Methods of identifying markers of graft rejection | |
WO2023039509A1 (en) | Method of measuring microsatellite length variations | |
CN115786486A (zh) | 一种基于mlpa-ngs方法用于检测线粒体dna变异的试剂盒及其应用 | |
US20040126800A1 (en) | Regulatory single nucleotide polymorphisms and methods therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |