CN116888274A - 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 - Google Patents
一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 Download PDFInfo
- Publication number
- CN116888274A CN116888274A CN202180080432.6A CN202180080432A CN116888274A CN 116888274 A CN116888274 A CN 116888274A CN 202180080432 A CN202180080432 A CN 202180080432A CN 116888274 A CN116888274 A CN 116888274A
- Authority
- CN
- China
- Prior art keywords
- target
- site
- count
- allele
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001605 fetal effect Effects 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 167
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 61
- 230000007614 genetic variation Effects 0.000 title claims abstract description 16
- 108700028369 Alleles Proteins 0.000 claims abstract description 824
- 210000000349 chromosome Anatomy 0.000 claims abstract description 513
- 238000012360 testing method Methods 0.000 claims abstract description 158
- 238000009826 distribution Methods 0.000 claims abstract description 109
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 239000000523 sample Substances 0.000 claims description 485
- 239000012634 fragment Substances 0.000 claims description 44
- 230000035772 mutation Effects 0.000 claims description 37
- 150000007523 nucleic acids Chemical class 0.000 claims description 29
- 238000010998 test method Methods 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 22
- 238000001162 G-test Methods 0.000 claims description 16
- 238000012417 linear regression Methods 0.000 claims description 16
- 108020004707 nucleic acids Proteins 0.000 claims description 15
- 102000039446 nucleic acids Human genes 0.000 claims description 15
- 239000012472 biological sample Substances 0.000 claims description 12
- 230000004807 localization Effects 0.000 claims description 11
- 238000000729 Fisher's exact test Methods 0.000 claims description 10
- 238000000546 chi-square test Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008774 maternal effect Effects 0.000 abstract description 109
- 108090000623 proteins and genes Proteins 0.000 abstract description 12
- 230000002068 genetic effect Effects 0.000 abstract description 8
- 102000004169 proteins and genes Human genes 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 2
- 108020004414 DNA Proteins 0.000 description 697
- 210000003754 fetus Anatomy 0.000 description 120
- 208000037280 Trisomy Diseases 0.000 description 92
- 230000002759 chromosomal effect Effects 0.000 description 86
- 108091028043 Nucleic acid sequence Proteins 0.000 description 75
- 230000005856 abnormality Effects 0.000 description 46
- 238000001514 detection method Methods 0.000 description 44
- 239000000178 monomer Substances 0.000 description 44
- 230000003321 amplification Effects 0.000 description 27
- 238000003199 nucleic acid amplification method Methods 0.000 description 27
- 208000036878 aneuploidy Diseases 0.000 description 24
- 231100001075 aneuploidy Toxicity 0.000 description 24
- 208000026350 Inborn Genetic disease Diseases 0.000 description 18
- 208000016361 genetic disease Diseases 0.000 description 18
- 238000012217 deletion Methods 0.000 description 17
- 230000037430 deletion Effects 0.000 description 15
- 238000012165 high-throughput sequencing Methods 0.000 description 15
- 239000000203 mixture Substances 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 13
- 238000007403 mPCR Methods 0.000 description 12
- 235000013601 eggs Nutrition 0.000 description 11
- 238000009007 Diagnostic Kit Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 10
- 208000011580 syndromic disease Diseases 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 208000011908 tetrasomy Diseases 0.000 description 8
- RNAMYOYQYRYFQY-UHFFFAOYSA-N 2-(4,4-difluoropiperidin-1-yl)-6-methoxy-n-(1-propan-2-ylpiperidin-4-yl)-7-(3-pyrrolidin-1-ylpropoxy)quinazolin-4-amine Chemical compound N1=C(N2CCC(F)(F)CC2)N=C2C=C(OCCCN3CCCC3)C(OC)=CC2=C1NC1CCN(C(C)C)CC1 RNAMYOYQYRYFQY-UHFFFAOYSA-N 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 239000003153 chemical reaction reagent Substances 0.000 description 6
- 238000003205 genotyping method Methods 0.000 description 6
- 230000001717 pathogenic effect Effects 0.000 description 6
- 238000003556 assay Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 208000031404 Chromosome Aberrations Diseases 0.000 description 4
- 238000002513 implantation Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000002773 nucleotide Substances 0.000 description 4
- 125000003729 nucleotide group Chemical group 0.000 description 4
- 238000000528 statistical test Methods 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 201000006938 muscular dystrophy Diseases 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 208000033881 15q13.3 microdeletion syndrome Diseases 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 2
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 2
- 208000003449 Classical Lissencephalies and Subcortical Band Heterotopias Diseases 0.000 description 2
- 201000010374 Down Syndrome Diseases 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241000282324 Felis Species 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 206010050638 Langer-Giedion syndrome Diseases 0.000 description 2
- 201000004246 Miller-Dieker lissencephaly syndrome Diseases 0.000 description 2
- 208000035022 Miller-Dieker syndrome Diseases 0.000 description 2
- 208000036830 Normal foetus Diseases 0.000 description 2
- 201000001388 Smith-Magenis syndrome Diseases 0.000 description 2
- 208000035378 Trichorhinophalangeal syndrome type 2 Diseases 0.000 description 2
- 206010044688 Trisomy 21 Diseases 0.000 description 2
- 208000006254 Wolf-Hirschhorn Syndrome Diseases 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 201000003794 chromosome 15q13.3 microdeletion syndrome Diseases 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 239000000539 dimer Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000344 soap Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 201000006532 trichorhinophalangeal syndrome type II Diseases 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- IOSROLCFSUFOFE-UHFFFAOYSA-L 2-nitro-1h-imidazole;platinum(2+);dichloride Chemical compound [Cl-].[Cl-].[Pt+2].[O-][N+](=O)C1=NC=CN1.[O-][N+](=O)C1=NC=CN1 IOSROLCFSUFOFE-UHFFFAOYSA-L 0.000 description 1
- 208000010543 22q11.2 deletion syndrome Diseases 0.000 description 1
- 244000061520 Angelica archangelica Species 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000000398 DiGeorge Syndrome Diseases 0.000 description 1
- 206010013801 Duchenne Muscular Dystrophy Diseases 0.000 description 1
- 108010044495 Fetal Hemoglobin Proteins 0.000 description 1
- 235000001287 Guettarda speciosa Nutrition 0.000 description 1
- 208000034702 Multiple pregnancies Diseases 0.000 description 1
- 208000034790 Twin pregnancy Diseases 0.000 description 1
- 206010049644 Williams syndrome Diseases 0.000 description 1
- 201000001305 Williams-Beuren syndrome Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007698 birth defect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 231100000005 chromosome aberration Toxicity 0.000 description 1
- 230000002559 cytogenic effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002082 fibula Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000013412 genome amplification Methods 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 208000030454 monosomy Diseases 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Physiology (AREA)
- Ecology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
Abstract
提供了一种无创检测胎儿遗传变异的方法。首先通过对参照基因组上的多态性位点进行靶向测序以及随后对每个多态性位点进行等位基因拷贝计数,估算孕妇血浆样本中胎儿遗传物质的百分比。然后对目标基因组上的多态性位点或待检测靶点进行等位基因拷贝计数,并配合拟合优度检验或等位基因计数相对分布图,来检测样本中的待测靶点是否在染色体水平、亚染色体水平或单个遗传位点水平有变异。该方法适用于同时对孕妇血浆样本中的染色体整倍性变异、亚染色体水平的微缺失微重复变异和短序列水平的变异进行检测,具有良好的开发和应用前景。
Description
本发明涉及遗传变异检测领域,特别是染色体水平的非整倍性变异、亚染色体水平的微缺失/微重复变异或短序列水平的插入缺失和单核苷酸位点变异。
1997年,在孕妇血浆中发现存在来源于胎儿的游离DNA(Lo,Corbetta et al.1997,Lancet 350:485-487)。基于这一发现和大规模平行测序,多个研究组开发出了基于对孕妇血浆DNA(cfDNA)进行测序分析的方法来检测染色体非整倍性变异、亚染色体水平的微缺失/微重复变异或单基因水平的短序列插入缺失和单核苷酸位点变异(Advani,Barrett et al.2017,Prenat Diagn 37:1067-1075;Breveglieri,D'Aversa et al.2019,Mol Diagn Ther 23:291-299;Andari,Bussamra et al.2020,Ceska Gynekol 85:41-48;Guseh 2020,Hum Genet 139:1141-1148)。
目前,利用二代测序进行染色体非整倍性异常的检测由于有很高的灵敏性和特异性而在全世界多个国家得到认可并被产业化(Chiu,Chan et al.2008,Proc Natl Acad Sci U S A 105:20458-20463;Fan,Blumenfeld et al.2008,Proc Natl Acad Sci U S A 105:16266-16271;Liao,Chan et al.2012,PLoS One 7:e38154;Zimmermann,Hill et al.2012,Prenat Diagn 32:1233-1241)。然而对于亚染色体水平的微缺失/微重复变异,其无创检测方法的灵敏性和特异性还不是很高,尤其是对于小片段的微缺失/微重复变异(Advani,Barrett et al.2017,Prenat Diagn 37:1067-1075;Hu,Wang et al.2019,Human Genomics 13:14;Srebniak,Knapen et al.2020,Mol Genet Genomic Med 8:e1062)。虽然多种基于二代测序的单基因遗传病的无创检测方法已经被开发出来(Lun,Tsui et al.2008,Proc Natl Acad Sci U S A 105:19920-19925;Lo,Chan et al.2010,Sci Transl Med 2:61ra91;Lv,Wei et al.2015,Clinical Chemistry 61:172-181;Vermeulen,Geeven et al.2017,Am J Hum Genet 101:326-339;Allen,Young et al.2018,Noninvasive Prenatal Testing(NIPT)157-177;Yin,Du et al.2018,J Hum Genet 63:1129-1137;Cutts,Vavoulis et al.2019,Blood 134:1190-1193;Zhang,Li et al.2019,Nat Med 25:439-447),但是这些方法并没有在临床实践中得到广泛的应用,主要是由于这些方法采用了不同于检测染色体或亚染色体水平变异的方法,因此不能同时用来检测染色体和亚染色体水平变异。同时这些方法对每一个单基因遗传病的检测成本都很高,导致用这些方法对低患病率的单基因遗传病进行筛查的性价比不高。
因此,一种通用的能利用孕妇血浆DNA同时对胎儿染色体水平、亚染色体水平和单基因短序列水平的变异进行检测的方法将极大有利于对胎儿遗传变异的无创检测。
发明内容
本发明的目的在于提供一种同时检测染色体非整倍性遗传病、亚染色体水平的微缺失/微重复遗传病和由于短序列的变异导致的单基因遗传病的方法。
为实现上述目的,本发明设计了一种基于高通量测序技术进行遗传变异筛查的方法,包括获取测试样品并提取DNA、选择性扩增靶位点、对靶位点进行高通量测序、对测序数据进行分析来得出检测结果。
本发明提供了一种遗传变异检测方法,其包括以下步骤:
(1)接收待测生物样品并制备核酸;
(2)富集或扩增靶DNA位点,其中至少有一个靶DNA位点在样本中有多于一个的等位基因;
(3)测序所扩增的靶DNA位点;
(4)对每一个靶DNA位点,统计其各个等位基因的计数;
(5)利用靶DNA位点等位基因计数的拟合优度检验和/或等位基因计数相对分布图确定样本中待检测目标的核型或基因型或野生突变型。
本发明通过对特定靶DNA位点的扩增与测序技术,提供了对混合样本中染色体水平的非整倍性检测、亚染色体水平的微缺失/微重复检测、短序列片段水平变异的检测,其中至少有一个所述特定靶DNA位点在样本中有多于一个的等位基因。
本发明所述靶DNA位点指的是特定的DNA序列,该DNA序列中的碱基有可能在不同的个体中有变化,并且该DNA序列可通过PCR、多重PCR等技术扩增或通过核酸杂交等技术富集。在本发明中,术语“靶DNA序列”和“靶DNA位点”可互换使用,并且术语“位点”当提及靶标时并不限定靶标的长度,即靶标的长度可为单个核苷酸至整条染色体的长度。
在另一个方面,本发明通过对特定DNA位点(靶位点)的扩增与测序技术,提供了对单一基因组样本中染色体水平的非整倍性检测、亚染色体水平的微缺失/微重复检测,其中至少有一个所述特定靶DNA位点在样本中有多于一个的等位基因。
本发明中所述生物样品包括来自所述妊娠女性生物样品的胎儿和母亲核酸(诸如母亲血浆中游离的DNA)或来自于单一基因组样品(诸如来源于植入前诊断的胚胎核酸)。
本发明中所述富集或扩增靶DNA位点,可通过本领域已知的任何方法进行富集或扩增靶DNA位点,包括但不限于使用PCR、多重PCR、全基因组扩增(WGA)、多取代扩增(MDA)、滚环扩增(RCA)、环形扩增(RCR)、杂交捕获等方法来富集或扩增靶DNA位点。在富集或扩增 的靶DNA位点中,一部分来源于被假定为正常整倍体的一条或多条染色体的区域,一部分来源于待测定的怀疑有染色体水平、亚染色体水平或短序列水平变异的一条或多条染色体的区域。被假定为正常整倍体的染色体或区域或位点在本文被另外指定为“参照染色体或参照区域或参照序列或参照位点”,被假定为待检测遗传变异状态的染色体或区域或位点在本文被另外指定为“目标染色体或目标区域或目标序列或目标位点”。在本发明中,由不少于一条或一个参照染色体或参照区域或参照序列或参照位点组成的集合被称为参照组。在本发明中,由不少于一条或一个目标染色体或目标区域或目标序列或目标位点组成的集合被称为目标组。
本发明中所述对每一个靶DNA位点,统计其各个等位基因的计数,是指对每一个扩增序列,首先将其映射到染色体或基因组位置,最后统计每一个染色体或基因组区域中映射的序列数。如果某一染色体或基因组区域有不同的等位基因,则同时统计该区域每一个等位基因所映射的序列数。有各种计算机方法可用于将各序列读数映射至染色体或基因组位置/区域。可用于映射序列的计算机算法的非限制性示例包括但不限于特异性序列的查找、BLAST、BLITZ、FASTA、BOWTIE、BOWTIE 2、BWA、NOVOALIGN、GEM、ZOOM、ELAN、MAQ、MATCH、SOAP、STAR、SEGEMEHL、MOSAIK或SEQMAP或其变体或其组合。
在本发明中,为了便于理解,一个亚染色体水平的微缺失片段被认为是一条染色体,而一个亚染色体水平的微重复片段被认为是两条染色体。因此对于单基因组样本,亚染色体水平有杂合微缺失的染色体标记为单体,有纯合微缺失的染色体标记为缺体,有杂合微重复的染色体标记为三体,而有纯合微重复的染色体标记为四体。相应的,在混合样本中,比如在孕妇血浆样本中,母亲和胎儿均正常的染色体被标记为双体-双体,母亲正常胎儿一条染色体含有微缺失的染色体被标记为双体-单体,而母亲正常胎儿一条染色体含有微重复的染色体被标记为双体-三体。本发明中对涉及到染色体水平或亚染色体水平的变异的染色体和/或染色体片段均按照类似的原则进行标记。
在本发明中,亚染色体水平的微缺失/微重复是指在染色体上缺失或增加的片段不是很长、经过传统细胞遗传学分析难以发现的染色体畸变。染色体微缺失微重复综合征是除染色体非整倍体之外的另一大类新生儿出生缺陷。在本发明中,某些部分也用染色体片段的拷贝数变异来指代染色体微缺失/微重复变异。
在本发明中,用核型来指代染色体或亚染色体水平的变异,用基因型来指代在短序列水平的变异。比如对于孕妇血浆样本,如果母亲的21号染色体是正常双体而胎儿该染色体是三体,则本发明将标记该样本中的21号染色体核型为双体-三体核型。比如对于孕妇血浆样本,如果母亲的一条22号染色体含有22q11微缺失而另一条22号染色体不含有22q11微缺 失,并且胎儿的一条22号染色体含有22q11微缺失而另一条22号染色体不含有22q11微缺失,则本发明将标记该样本中的22q11染色体片段的核型为单体-单体核型。比如对于孕妇血浆样本,如果母亲的一条22号染色体含有22q11微重复而另一条22号染色体不含有22q11微重复,并且胎儿的一条22号染色体含有22q11微重复而另一条22号染色体不含有22q11微重复,则本发明将标记该样本中的22q11染色体片段的核型为三体-三体核型。比如对于孕妇血浆样本,如果母亲的血红蛋白β亚基第6位氨基酸的等位基因分别为A和S,而胎儿血红蛋白β亚基第6位氨基酸的等位基因分别为S和C,本发明将标记该样本中的血红蛋白β亚基第6位氨基酸的基因型为AS|SC型,其中竖线前的部分代表母亲的基因型而竖线后的部分代表胎儿的基因型。在本发明中,用野生型来指代在正常无患病表型的群体中靶位点观察到的最高频率的基因型。在另一方面,野生型指的是靶位点不含致病性或可能致病性变异的基因型。在本发明中,用突变型来指代靶位点不同于野生型的基因型。
在本发明中,部分待检测样本利用参照组各个靶位点的等位基因计数估计样本中最小组分DNA的浓度。其中,待检测样本中最小组分DNA的浓度可以用任何目前已经报道的方法进行估计。优选的,利用参照组各个靶位点等位基因计数的相对比例法估算待检测样本中最小组分DNA的浓度;优选的,利用参照组各个靶位点等位基因计数迭代拟合基因型法估算样本中最少组分DNA的浓度;优选的,利用FC和TC的平均数和/或中位数计算样本中最少组分DNA的浓度。
在本发明中,利用等位基因计数相对比例法计算样本中最少组分DNA的浓度。比如对于孕妇血浆DNA样本,最少组分DNA是胎儿DNA,而最大组分DNA是母亲DNA。在正常孕妇血浆DNA样本中,胎儿遗传了母亲的一条染色体,因此每一个靶位点的基因型只能是下述5种可能的基因型中的一种,即AA|AA、AA|AB、AB|AA、AB|AB或AB|AC,其中A、B和C表示靶位点的各个等位基因。在这五种基因型中,如果靶位点是AA|AA或AB|AB基因型,则胎儿DNA浓度不影响其各个等位基因的相对计数,而如果靶位点是AA|AB、AB|AA或AB|AC基因型,则其各个等位基因计数受胎儿DNA浓度的影响。因此,基因型AA|AB、AB|AA和AB|AC可以用来估算每一个靶DNA位点中来源于胎儿DNA的计数(FC)。
本发明提供了利用参照组各个靶位点等位基因计数的相对比例计算样本中最少组分DNA的浓度的方法,所述方法包括:
(a1)设定样本的噪声阈值α;
(a2)对每一个靶DNA位点,首先利用其各个等位基因计数估算其基因型,然后根据其估算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC);
(a3)利用各个靶位点的最少组分DNA的计数(FC)和总计数(TC),估算最少组分DNA的浓度。
进一步地,上述步骤(a1)中设定样本的噪声阈值α,是设定用于区分真实等位基因的计数信号与非真实的等位基因计数信号的阈值;优选的,设定的噪声阈值α为任何不大于0.05的值;优选的,设定的噪声阈值α为0.05、0.04、0.03、0.02、0.01、0.0075、0.005、0.0025或0.001。
进一步地,上述步骤(a2)中对每一个靶DNA位点,首先利用其各个等位基因计数估算其基因型,然后根据其估算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC),包括如下步骤:
(a2-i)对靶DNA位点的各个等位基因计数进行从大到小排序,其中最大的三个等位基因计数依次标记为R1、R2和R3;
(a2-ii)利用靶DNA位点的各个等位基因计数,估算该靶DNA位点的基因型;
(a2-iii)根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最少组分DNA的计数(FC)和总计数(TC)。
进一步地,上述步骤(a2-ii)中利用靶DNA位点的各个等位基因计数,其中最大的三个等位基因计数依次标记为R1、R2和R3,估算该靶DNA位点的基因型,包括如下步骤:
(a2-ii-1)利用靶DNA位点的各个等位基因计数,判断靶DNA位点中检测到的高于噪声阈值的等位基因数量;如果判断结果是1,则执行下述步骤(a2-ii-2);如果判断结果是2,则执行下述步骤(a2-ii-3);如果判断结果为大于2,则执行下述步骤(a2-ii-4);
(a2-ii-2)估算该靶DNA位点的基因型为AA|AA,然后执行下述步骤(a2-ii-5);
(a2-ii-3)根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);
(a2-ii-4)根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);
(a2-ii-5)输出估算的该靶位点的基因型。
进一步地,上述步骤(a2-ii-1)中利用靶DNA位点的各个等位基因计数,判断靶DNA位点中检测到的高于噪声阈值的等位基因数量,依次包括如下步骤:
(a2-ii-1-1)计算靶DNA位点每一个等位基因的相对计数;
(a2-ii-1-2)判断每一个等位基因的相对计数是否高于设定的噪声阈值,然后统计高于设定的噪声阈值的等位基因数量。
其中,一个等位基因的相对计数是该等位基因的计数和该靶位点所有等位基因计数的 商。优选的,设定的噪声阈值α为任何不大于0.05的值;优选的,预定的噪声阈值为0.05、0.04、0.02、0.01、0.0075、0.005、0.0025或0.001。
进一步地,上述步骤(a2-ii-3)中根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,其中最大的两个等位基因计数分别标记为R1和R2,包括如下步骤:
(a2-ii-3-1)判断R1/(R1+R2)的值是否小于0.5+α,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AB,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则执行下述步骤(a2-ii-3-2);
(a2-ii-3-2)判断R1/(R1+R2)的值是否小于0.75,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AA,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则估算该靶DNA位点的基因型为AA|AB,然后执行下述步骤(a2-ii-3-3);
(a2-ii-3-3)输出估算的该靶位点的基因型。
进一步地,上述步骤(a2-ii-4)中根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,其中最大的两个等位基因计数分别标记为R1和R2,包括如下步骤:
(a2-ii-4-1)判断R2/R1是否大于等于0.5和/或R1/(R1+R2)是否大于等于1/2并且小于等于2/3和/或R2/(R1+R2)是否大于等于1/3并且小于等于1/2的值,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AC,然后执行下述步骤(a2-ii-4-3);如果判断结果为否,则执行下述步骤(a2-ii-4-2);
(a2-ii-4-2)标记该位点的等位基因计数为异常,然后或者估算该靶位点的基因型为NA,并执行下述步骤(a2-ii-4-3);或者设定该靶DNA位点中检测到的高于噪声阈值的等位基因数量为2,然后按照步骤(a2-ii-3)所述估算该靶位点的基因型,并执行下述步骤(a2-ii-4-3);(a2-ii-4-3)输出估算的该靶位点的基因型。
其中,基因型NA代表不能估计靶位点的基因型。
进一步地,上述步骤(a2-iii)中根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的三个等位基因计数依次标记为R1、R2和R3,包括如下步骤:
(a2-iii-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA, 估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-6)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-7)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
其中,估算来源于最少组分DNA的计数(FC)为NA代表不能估计来源于最少组分DNA的计数(FC)。
进一步地,上述步骤(a3)中利用参照组各个靶位点的最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度,其中利用线性回归或稳健线性回归计算样本中最少组分DNA的浓度,和/或利用FC和TC的平均数或中位数计算样本中最少组分DNA的浓度。
进一步地,上述步骤(a3)中利用参照组各个靶位点的最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度,其中通过拟合回归模型估计最少组分DNA的浓度。
进一步地,上述步骤中通过拟合回归模型估计最少组分DNA的浓度,其中所述回归模型选自:线性回归模型、稳健线性回归模型、简单回归模型,普通最小二乘回归模型、多重回归模型、一般多重回归模型、多项式回归模型、一般线性模型、广义线性模型、离散选择回归模型、逻辑回归模型、多项式分对数模型、混合分对数模型、概率单位模型、多项式概率单位模型、有序分对数模型、有序概率单位模型、泊松模型、多元响应回归模型、多级模型、固定效应模型、随机效应模型、混合模型、非线性回归模型、非参数模型、半参数模型、鲁棒模型、分位模型、等渗模型、主成分模型、最小角模型、局部模型、分段模型和变量误差模型。
进一步地,上述步骤中通过拟合回归模型估计最少组分DNA的浓度,其中在拟合的模型中,参照组各个靶位点的总计数(TC)是自变量,各个靶位点的最少组分DNA的计数(FC)是因变量。
进一步地,上述步骤中通过拟合回归模型估计最少组分DNA的浓度,其中最少组分DNA的浓度估算为模型参数总计数(TC)的回归系数。
优选的,拟合的回归模型是线性回归模型;优选的,拟合的回归模型是稳健线性回归模型;优选的,拟合的回归模型是一般线性模型。
本发明提供了利用参照组各个靶位点等位基因计数迭代拟合基因型法计算样本中最少组分DNA的浓度的方法,所述方法包括:
(b1)设定样本的噪声阈值α、初始浓度估计值f
0和迭代误差精度值ε;
(b2)对每一个靶DNA位点,利用其各个等位基因计数和样本中最少组分DNA的浓度值f
0估算其基因型;
(b3)对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC);
(b4)利用最少组分DNA的计数(FC)和总计数(TC),估算最少组分DNA的浓度f;
(b5)判断f-f
0的绝对值是否小于ε,如果判断结果为否,则设定f
0=f,然后执行步骤(b2);如果判断结果为是,则样本中最少组分DNA浓度估算为f。
进一步地,上述步骤(b1)中设定样本的噪声阈值α,是设定用于区分真实等位基因的计数信号与非真实的等位基因计数信号的阈值;优选的,设定的噪声阈值α为任何不大于0.05的值;优选的,设定的噪声阈值α为0.05、0.04、0.03、0.02、0.01、0.0075、0.005、0.0025或0.001。
进一步地,上述步骤(b1)中设定初始浓度估计值f
0,是设定f
0为任何一个可能的最少组分DNA浓度的值;优选的,设定的初始浓度估计值f
0小于0.5;优选的,设定的初始浓度估计值f
0值小于0.5并且大于设定的噪声阈值α;优选的,设定的初始浓度估计值f
0为任何一个不仅小于0.5而且大于设定的噪声阈值α的值;优选的,设定的初始浓度估计值f
0为0.50、0.45、0.40、0.35、030、0.25、0.20、0.15、0.10、0.05、0.04、0.03、0.02、0.01或0.005。
进一步地,上述步骤(b1)中设定迭代误差精度值ε,是设定ε为一个很小的迭代计算的截止阈值;优选的,设定的ε值小于0.01;优选的,设定的ε值为任何一个小于0.01的值;优选的,设定的ε值小于0.001;优选的,设定的ε值小于0.0001;优选的,设定的ε值为0.01、0.001、0.0001或0.00001。
进一步地,上述步骤(b2)中对每一个靶DNA位点利用其各个等位基因计数和样本中最少组分DNA的浓度值f
0估算其基因型,包括如下步骤:
(b2-i)根据样本来源,列出靶DNA位点所有可能的基因型;
(b2-ii)对靶DNA位点的每一个可能基因型,利用样本中最少组分DNA的浓度值f
0和靶DNA位点各个等位基因的总计数(TC),计算其各个等位基因的理论计数;
(b2-iii)对靶DNA位点的每一个可能基因型,利用靶DNA位点的各个等位基因计数及其各个等位基因理论计数进行拟合优度检验;
(b2-iv)分析靶DNA位点对所有可能的基因型的拟合优度检验结果,选择对靶DNA位点各个等位基因计数有最优拟合的基因型作为估算的靶DNA位点的基因型。
本发明中,拟合优度检验是指一种或几种能用来检验观测数与理论数之间一致性的统计检验方法;优选的,拟合优度检验是卡方检验;优选的,拟合优度检验是G检验;优选的,拟合优度检验是费希尔精确检验;优选的,拟合优度检验是二项分布检验;优选的,拟合优度检验是卡方检验和/或G检验和/或费希尔精确检验和/或二项分布检验和/或其变体和/或其组合;优选的,拟合优度检验是利用G检验的计算值G值和/或AIC值和/或经校正的G值和/或经校正的AIC值和/或G值或AIC值的变体和/或其组合来进行拟合优度检验。
进一步地,上述步骤(b3)中对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的四个等位基因计数依次标记为R1、R2、R3和R4,包括如下步骤:
(b3-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-6)如果靶位点估计的基因型是AA|BB,则估算来源于最少组分DNA的计数(FC)为R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-7)如果靶位点估计的基因型是AA|BC,则估算来源于最少组分DNA的计数(FC)为R2+R3或R2的2倍或R3的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤 (b3-11);
(b3-8)如果靶位点估计的基因型是AB|CC,则判断是否当前估计值f
0大于和或等于1/3,如果判断结果为是,则估算来源于最少组分DNA的计数(FC)为R1,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);如果判断结果为否,则估算来源于最少组分DNA的计数(FC)为R3,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-9)如果靶位点估计的基因型是AB|CD,则估算来源于最少组分DNA的计数(FC)为R3+R4或R3的2倍或R4的2倍,估算总计数(TC)为R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-10)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-11)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
进一步地,上述步骤(b4)中利用最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度f,是采用步骤(a3)所述的方法估算最少组分DNA的浓度f。
在本发明中,利用参照组各个靶位点等位基因计数迭代拟合基因型法计算样本中最少组分DNA的浓度。该方法不仅可以用来估算具有生物学关系的混合样本中最小组分DNA的浓度,而且可以用来估算不具有生物学关系的混合样本中最小组分DNA的浓度。进一步地,该方法不仅适用于计算孕妇是亲生遗传学母亲的血浆DNA样本中胎儿DNA的浓度,而且适用于计算孕妇是经法律许可接受赠卵的孕妇血浆DNA中胎儿DNA浓度。进一步地,该方法可以用于估计两个独立的混合DNA样本中最小组分DNA的浓度。进一步地,上述所述的方法可以用于估计多于两个样本的混合物中其中几个组分的浓度。例如,对于多胎妊娠,可以对每一个胎儿设定一个需要迭代的胎儿DNA浓度值;比如对于双胎妊娠,可以设定需要迭代的胎儿DNA浓度值分别为f1和f2;对于三胎妊娠,可以设定需要迭代的胎儿DNA浓度值分别为f1、f2和f3,等等。为了估计多个样本组分浓度,可以首先给每一个样本的浓度设定一个初始值,然后利用每一个靶DNA位点各个等位基因计数和该位点所有可能的基因型估算该靶位点在每一个样本组分的估计计数,然后利用拟合优度检验迭代计算各个样本组分的浓度,直到计算的各个样本组分浓度的变化小于设定的精度值为止。
本发明中样本待检测目标包括单一靶DNA位点、包含一个或多个靶DNA位点的整条染色体和包含一个或多个靶DNA位点的亚染色体片段。
本发明提供了利用靶DNA位点等位基因计数的拟合优度检验确定样本中待检测目标的核型或基因型或野生突变型的方法,所述方法包括:
(c1)将每一个靶DNA位点根据其在染色体上的定位分为参照位点或目标位点,其中各参照位点组成参照组,和各目标位点组成目标组;
(c2)利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度;
(c3)利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的核型或基因型或野生突变型。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的基因型,所述方法包括:
(c3-a1)对于目标组每一个靶DNA位点,列出其所有可能的基因型;
(c3-a2)对于目标组每一个靶DNA位点,对于其每一个可能的基因型,根据样本中最少组分DNA浓度和该位点各个等位基因的总计数,计算其各个等位基因的理论计数;
(c3-a3)对于目标组每一个靶DNA位点,对于其每一个可能的基因型,利用靶DNA位点各个等位基因计数和其理论计数进行拟合优度检验;
(c3-a4)对于目标组每一个靶DNA位点,根据对其所有可能基因型的拟合优度检验结果,选择最优拟合的基因型为该靶DNA位点的基因型。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的核型,所述方法包括:
(c3-b1)分析待测样本,列出待检测目标染色体或亚染色体片段的所有可能的核型;
(c3-b2)对于每一个可能的核型,列出目标组各个靶DNA位点所有可能的基因型;
(c3-b3)对目标组每一个靶DNA位点,首先利用其各个等位基因计数对其所有可能的基因型进行拟合优度检验,然后对每一个可能的核型选择一个对该核型有最优拟合的基因型;
(c3-b4)综合分析所有靶DNA位点对每一个核型的拟合优度检验结果,选择对所有靶DNA位点综合拟合最好的核型作为待检测目标染色体或亚染色体片段的核型。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的野生突变型,所述方法包括:
(c3-c1a)对于目标组每一个靶DNA位点,列出其所有可能的野生突变基因型;
(c3-c2a)对于目标组每一个靶DNA位点,对于其每一个可能的野生突变基因型,根据样本中最少组分DNA浓度和该位点各个等位基因的总计数,计算其各个等位基因的理论计数;
(c3-c3a)对于目标组每一个靶DNA位点,对于其每一个可能的野生突变基因型,利用靶DNA位点各个等位基因计数和其理论计数进行拟合优度检验;
(c3-c4a)综合分析目标组所有靶DNA位点,选择对所有靶位点有最优拟合的野生突变基因型为待测目标的野生突变基因型。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的野生突变型,所述方法包括:
(c3-c1b)对于目标组每一个靶DNA位点,根据其各个等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法估计其基因型;
(c3-c2b)根据目标组每一个靶DNA位点的基因型和其各个等位基因的序列,确定样本各个组分中待测目标各个等位基因的野生突变型。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的基因型或野生突变型,其中目标组可以为一个靶位点,也可以为一个靶位点的多个独立重复。优选的,靶位点独立重复通过利用相同的引物和独立的PCR和/或多重PCR扩增反应得到;优选的,靶位点独立重复通过利用不同的引物和独立的PCR和/或多重PCR扩增反应得到。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的基因型或野生突变型,其中所述拟合优度检验方法是采用一种或几种能用来检验观测数与理论数之间一致性的统计检验方法;优选的,拟合优度检验是卡方检验;优选的,拟合优度检验是G检验;优选的,拟合优度检验是费希尔精确检验;优选的,拟合优度检验是二项分布检验;优选的,拟合优度检验是卡方检验和/或G检验和/或费希尔精确检验和/或二项分布检验和/或其变体和/或其组合;优选的,拟合优度检验是利用G检验的计算值G值和/或AIC值和/或经校正的G值和/或经校正的AIC值和/或G值或AIC值的变体和/或其组合来进行拟合优度检验。
进一步地,上述步骤(c3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的基因型或野生突变型,其中所述拟合优度检验方法是采用步骤(b2-i)-步骤(b2-iv)所述的方法进行拟合优度检验。
在本发明中,染色体水平的核型是指混合样本中某号染色体在各个混合成分中的整倍性或非整倍性状态。比如在孕妇血浆样本中,母亲正常胎儿为单体的染色体核型为双体-单体, 母亲正常胎儿为三体的染色体核型为双体-三体,而母亲和胎儿均正常的染色体核型为双体-双体。
在本发明中,每个亚染色体水平的片段被认为是一条染色体,因此在孕妇血浆样本中,母亲和胎儿均纯合微缺失的亚染色体核型为缺体-缺体、母亲纯合微缺失胎儿杂合微缺失的亚染色体核型为缺体-单体、母亲杂合微缺失胎儿正常的亚染色体核型为单体-双体、母亲和胎儿均杂合微缺失的亚染色体核型为单体-单体、母亲杂合微缺失胎儿纯合微缺失的亚染色体核型为单体-缺体、母亲正常胎儿杂合微缺失的亚染色体核型为双体-单体、母亲和胎儿均正常的亚染色体核型为双体-双体、母亲和胎儿均纯合微重复的亚染色体核型为四体-四体、母亲纯合微重复胎儿杂合微重复的亚染色体核型为四体-三体、母亲杂合微重复胎儿正常的亚染色体核型为三体-双体、母亲和胎儿均杂合微重复的亚染色体核型为三体-三体、母亲杂合微重复胎儿纯合微重复的亚染色体核型为三体-四体、母亲正常胎儿杂合微重复的亚染色体核型为双体-三体。
在本发明中,基因型是指混合样本中某个靶DNA位点在各个混合成分中的各个基因型的组合,其中每条染色体上该位点可能检测到0或1个等位基因。比如在孕妇血浆样本中,核型为双体-单体的位点有4种可能的基因型(未包括母亲和/或胎儿是嵌合体的基因型),分别是
和
而双体-三体的可能基因型(未包括母亲和/或胎儿是嵌合体的基因型和/或胎儿由于新发突变等而未遗传来自于母亲的不少于一个的等位基因的基因型)为AA|AAA、AA|AAB、AB|AAA、AB|AAB、AB|AAC、AB|ABC、AA|ABB、AA|ABC、AB|ACC和AB|ACD,其中A、B、C和D代表靶DNA位点不同的等位基因,而
代表缺失。总的来说,混合样本某个位点的基因型是该位点在各个样本中各条染色体上的各个等位基因所有可能的组合。相似地,对于亚染色体水平的变异,每条染色体上该位点可能检测0(微缺失)、1(正常)或2(微重复)个等位基因,因此混合样本亚染色体核型对应的所有可能的基因型是混合样本中每一个位点在各条染色体上所有等位基因的所有可能的组合。比如在孕妇血浆样本中,亚染色体核型为三体-三体的位点有22种可能的基因型(未包括母亲和/或胎儿是嵌合体的基因型和/或胎儿由于新发突变等而未遗传来自于母亲的不少于一个的等位基因的基因型),分别是AAA|AAA、AAA|AAB、AAA|ABB、AAA|ABC、AAB|AAA、AAB|AAB、AAB|AAC、AAB|ABB、AAB|ABC、AAB|ACC、AAB|ACD、AAB|BBB、AAB|BBC、AAB|BCC、AAB|BCD、ABC|AAA、ABC|AAB、ABC|AAD、ABC|ABC、ABC|ABD、ABC|ADD和ABC|ADE,其中A、B、C、D和E代表靶DNA位点不同的等位基因。
本发明提供了利用各个靶位点等位基因计数的相对分布图确定样本中待检测目标的 核型或基因型或野生突变型的方法,所述方法包括:
(d1)将每一个靶DNA位点根据其在染色体上的定位分为参照位点或目标位点,其中各参照位点组成参照组,和各目标位点组成目标组;
(d2)利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度;
(d3)利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的核型或基因型或野生突变型。
进一步地,上述步骤(d3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的基因型,所述方法包括:
(d3-a1)对于目标组每一个靶DNA位点,列出其所有可能的基因型;
(d3-a2)对于目标组靶DNA位点每一个可能的基因型,首先根据样本中最少组分DNA的浓度计算其各个等位基因的相对计数理论值,然后选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;
(d3-a3)对于目标组每一个靶DNA位点,首先计算其各个等位基因的相对计数,然后选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;
(d3-a4)根据目标组各个靶DNA位点在等位基因相对计数图中的理论位置分布以及实际位置分布推断待测目标的基因型。
进一步地,上述步骤(d3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的核型,所述方法包括:
(d3-b1)分析待测样本,列出待检测目标染色体或亚染色体片段的所有可能的核型;
(d3-b2)对于每一个可能的核型,列出目标组各个靶DNA位点所有可能的基因型;
(d3-b3)对于目标组靶DNA位点每一个可能的基因型,首先根据样本中最少组分DNA的浓度计算其各个等位基因的相对计数理论值,然后选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;
(d3-b4)对于目标组每一个靶DNA位点,首先计算其各个等位基因的相对计数,然后选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;
(d3-b5)根据在等位基因相对计数图中目标组各个靶DNA位点在各个核型的理论位置分布以 及其实际位置分布推断待测目标的核型。
进一步地,上述步骤(d3)中所述利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的野生突变型,所述方法包括:
(d3-c1)对于目标组每一个靶DNA位点,列出其野生型序列和所有可能的野生突变基因型;
(d3-c2)对于每一个可能的野生突变基因型,计算其野生型等位基因和其它非野生型各个等位基因的相对计数理论值,并选取至少一个非野生型等位基因相对计数理论值对野生型等位基因相对计数理论值作图来标记其野生突变基因型的理论位置;
(d3-c3)对于目标组每一个靶DNA位点,计算其野生型等位基因和其它非野生型各个等位基因的相对计数值,并选取至少一个非野生型等位基因相对计数对野生型等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;
(d3-c4)根据目标组所有靶DNA位点在等位基因相对计数图中的理论位置分布以及实际位置分布推断其野生突变型。
本发明提供了利用靶DNA位点等位基因计数的拟合优度检验和/或等位基因计数相对分布图确定样本中待检测目标的核型或基因型或野生突变型的方法,其特征在于在步骤(c2)或步骤(d2)中利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度,是采用步骤(a1)-步骤(a3)和/或步骤(b1)-步骤(b5)所述的方法计算样本中最少组分DNA的浓度。
本发明提供了利用等位基因计数相对分布图确定单一基因组样本中待检测目标的核型的方法,所述方法包括:
(e1)计算各个靶DNA位点的各个等位基因相对计数;
(e2)对每一个靶DNA位点,将其第二大的等位基因相对计数对其最大的等位基因相对计数作分布图A或将其最大的等位基因相对计数对该靶DNA位点在染色体或亚染色体上的相对位置作分布图B;
(e3)利用各个靶DNA位点的等位基因计数相对分布图A和/或分布图B,估计单一基因组样本中待检测目标的核型。
本发明不仅能检测混合基因组中的各个组分的遗传改变,比如通过对孕妇血浆DNA样本中的多态性位点各个等位基因计数,检测母亲和/或胎儿单一位点的遗传改变或染色体水平和亚染色体水平的变异,而且能够应用于单基因组样本的核型或基因型检测,比如应用于胚胎的遗传病的植入前诊断。该方法能同时在核苷酸水平和染色体或亚染色体水平检测样本的 遗传改变,对胎儿遗传病的筛查有良好的开发和应用前景。
本发明涉及利用母亲和胎儿遗传物质的混合物检测待测目标是否有遗传学异常。因此,在一方面,本发明提供了用于确定生物样品中胎儿非整倍性存在或不存在的方法,所述生物样品包括来自所述母亲的生物样品的以游离漂浮的DNA形式存在的胎儿和母亲核酸,在PCR或多重PCR反应中扩增靶DNA位点(即,扩增模板DNA,使得扩增的DNA再现原始模板DNA的比),然后根据所扩增的待测目标每一个靶DNA位点各个等位基因的相对计数分布来确定所述胎儿非整倍性的存在或不存在。
在另一方面,本发明提供了用于确定生物样品中胎儿染色体片段的拷贝数变异存在或不存在的方法,所述生物样品包括来自所述母亲的生物样品的以游离漂浮的DNA形式存在的胎儿和母亲核酸,在PCR或多重PCR反应中扩增靶DNA位点(即,扩增模板DNA,使得扩增的DNA再现原始模板DNA的比),然后根据所扩增的待测目标每一个靶DNA位点各个等位基因的相对计数分布来确定所述胎儿染色体片段的拷贝数变异的存在或不存在。
在另一方面,本发明提供了用于确定生物样品中胎儿单基因遗传病致病基因位点的变异的存在或不存在的方法,所述生物样品包括来自所述母亲的生物样品的以游离漂浮的DNA形式存在的胎儿和母亲核酸,在PCR或多重PCR反应中扩增靶DNA位点(即,扩增模板DNA,使得扩增的DNA再现原始模板DNA的比),然后根据所扩增的待测目标靶DNA位点(单基因遗传病致病基因位点)各个等位基因的相对计数分布来确定所述胎儿单基因遗传病致病基因位点的变异的存在或不存在。
在另一方面,本发明提供了用于实施本发明方法的诊断试剂盒,其中包括至少一组引物以扩增靶DNA位点。所述至少一组引物扩增至少一个参照组靶DNA位点和/或至少一个目标组靶DNA位点。其中目标组靶DNA位点选自有染色体非整倍性异常的可能的染色体和/或有拷贝数变异可能的染色体片段和/或有可能是单基因遗传病的致病变异的位点。其中目标组靶DNA位点的核酸序列在待检测人群中一般具有多态性和/或目标组靶DNA位点是可能的单基因遗传病的致病性变异位点。其中参照组靶DNA位点选自通常没有染色体非整倍性异常的染色体和/或通常没有拷贝数变异的染色体片段。其中参照组靶DNA位点的核酸序列在待检测人群中一般具有多态性。
在另一方面,本发明提供了用于实施本发明的方法的诊断试剂盒。此诊断试剂盒包括包括用于执行步骤(2)和/或步骤(3)的引物。任选可被包括在诊断试剂盒中的其它试剂是使用说明、进行PCR和/或多重PCR反应的聚合酶和缓冲液和对扩增的片段进行高通量测序文库构建所需要的试剂。
在另一方面,本发明提供了用于实施本发明的方法的一种系统。该系统用于实施从生物测试样品预测待检测目标的核型或基因型或野生突变型的方法中的一个或多个步骤,例如步骤(4)至(5)中的一个或多个。在另一方面,本发明提供了用于实施本发明的方法的装置和/或计算机程序产品和/或系统和/或模块,该装置和/或计算机程序产品和/或系统和/或模块包括用于执行上述步骤(1)-步骤(5)、上述步骤(a1)-步骤(a3)、上述步骤(b1)-步骤(b5)、上述步骤(c1)-步骤(c3)、上述步骤(d1)-步骤(d3)和/或上述步骤(e1)-步骤(e3)中的任何步骤。
在一些实施方案中,本发明的方法在体外或离体进行。在一些实施方案中,本发明的样品为体外或离体样本。
在一方面,本发明涉及用于执行本发明方法的装置。例如,在一些实施方案中,本发明涉及一种检测样本遗传变异的装置,其特征在于包括:
(1)配置用于接收待测生物样品并制备核酸的模块;
(2)配置用于富集或扩增靶DNA位点的模块,其中至少有一个靶DNA位点在样本中有多于一个的等位基因;
(3)配置用于测序所扩增的靶DNA位点的模块;
(4)统计模块,其配置用于对每一个靶DNA位点,统计其各个等位基因的计数;
(5)确定模块,其配置用于利用靶DNA位点等位基因计数的拟合优度检验和/或等位基因计数相对分布图确定样本中待检测目标的核型或基因型或野生突变型。
在一些实施方案中,统计模块经配置用于对每一个靶DNA位点,统计其各个等位基因的计数,所述统计依次包括如下步骤:(4-1)对每一个扩增序列,将其映射到染色体或基因组位置;(4-2)统计每一个染色体或基因组区域中映射的序列数;其中如果某一染色体或基因组区域有不同的等位基因,则同时统计该区域每一个等位基因所映射的序列数。在一些实施方案中,利用任何计算机方法将各序列读数映射至染色体或基因组位置/区域。在一些实施方案中,步骤(4-1)中用于映射序列的计算机算法包括但不限于特异性序列的查找、BLAST、BLITZ、FASTA、BOWTIE、BOWTIE 2、BWA、NOVOALIGN、GEM、ZOOM、ELAN、MAQ、MATCH、SOAP、STAR、SEGEMEHL、MOSAIK或SEQMAP或其变体或其组合。在一些实施方式中,从各个靶DNA位点对应的染色体或基因组序列提取特异性序列(唯一映射序列),然后利用特异性序列将读数映射到染色体或基因组位置/区域。在一些实施方式中,序列读数可与染色体或基因组位置/区域的序列比对。在一些实施方式中,序列读数可与染色体或基因组的序列比对。在一些实施方式中,序列读数可从本领域已知核酸数据库获得和/或与其中的序列比对,所述数据库包括例如GenBank,dbEST,dbSTS,EMBL(欧洲分子生物实验室)和DDBJ(日本DNA数据库)。BLAST或相似工具可用于针对序列数据库搜索相同序列。然后,例如,搜索命中可用于将相同的序列分选入合适的染色体或基因组位置/区域。在一些实施方式中,读数可唯一或非唯一映射至参照基因组中的部份。若读数与基因组中的单一序列比对,则其称为“唯一映射”。若读数与 基因组中的两个或多个序列比对,则其称为“非唯一映射”。在一些实施方式中,非唯一映射的读数从进一步分析(例如定量)中去除。
在一些实施方案中,确定模块经配置用于利用靶DNA位点等位基因计数的拟合优度检验确定样本中待检测目标的核型或基因型或野生突变型,所述确定依次包括如下步骤:
(c1)将每一个靶DNA位点根据其在染色体上的定位分为参照位点或目标位点;
(c2)利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度;
(c3)利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的核型或基因型或野生突变型。
在一些实施方案中,确定模块经配置用于利用靶DNA位点等位基因计数的相对分布图确定样本中待检测目标的核型或基因型或野生突变型,所述确定依次包括如下步骤:
(d1)将每一个靶DNA位点根据其在染色体上的定位分为参照位点或目标位点;
(d2)利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度;
(d3)利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的核型或基因型或野生突变型。
在一些实施方案中,利用一种或几种拟合优度检验统计检验方法来检验观测数与理论数之间的一致性。在一些实施方案中,拟合优度检验是卡方检验。在一些实施方案中,拟合优度检验是G检验。在一些实施方案中,拟合优度检验是费希尔精确检验。在一些实施方案中,拟合优度检验是二项分布检验。在一些实施方案中,拟合优度检验是卡方检验、G检验、费希尔精确检验、二项分布检验、其变体或其组合。在一些实施方案中,拟合优度检验是利用G检验的计算值G值、AIC值、经校正的G值、经校正的AIC值、G值或AIC值的变体、或其组合来进行拟合优度检验。
在一些实施方案中,确定模块经配置用于利用靶DNA位点等位基因计数相对分布图确定样本中待检测目标的核型,其中待检测样本是单一基因组样本,所述确定依次包括如下步骤:
(e1)计算目标组各个靶DNA位点的各个等位基因相对计数;
(e2)对目标组每一个靶DNA位点,将其第二大的等位基因相对计数对最大的等位基因相对计数作分布图A或将其最大的等位基因相对计数对该靶DNA位点在染色体或亚染色体上的相对位置作分布图B;
(e3)利用目标组各个靶DNA位点的等位基因计数相对分布图A和/或分布图B,估计单一基因组样本中待检测目标的核型。
在一些实施方案中,在步骤(c2)或步骤(d2)中采取等位基因计数相对比例法计算样本中最少组分DNA的浓度,所述计算依次包括如下步骤:
(a1)设定样本的噪声阈值α;
(a2)对每一个靶DNA位点,首先利用该靶位点各个等位基因计数估算其基因型,然后根据估 算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC);
(a3)利用参照组各个靶位点的最少组分DNA的计数(FC)和总计数(TC),估算最少组分DNA的浓度。
在一些实施方案中,在步骤(c2)或步骤(d2)中采取等位基因计数迭代拟合基因型法计算样本中最少组分DNA的浓度,所述计算依次包括如下步骤:
(b1)设定样本的噪声阈值α、初始浓度估计值f
0和迭代误差精度值ε;
(b2)对每一个靶DNA位点利用其各个等位基因计数和样本中最少组分DNA的浓度值f
0估算其基因型;
(b3)对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC);
(b4)利用最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度f;
(b5)判断f-f
0的绝对值是否小于ε,如果判断结果为否,则设定f
0=f,然后执行步骤(b2);如果判断结果为是,则样本中最少组分DNA浓度估算为f。
在一些实施方案中,在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的基因型,所述估计依次包括如下步骤:
(c3-a1)对于目标组每一个靶DNA位点,列出其所有可能的基因型;
(c3-a2)对于目标组每一个靶DNA位点,对于其每一个可能的基因型,根据样本中最少组分DNA浓度和该位点各个等位基因的总计数,计算其各个等位基因的理论计数;
(c3-a3)对于目标组每一个靶DNA位点,对于其每一个可能的基因型,利用靶DNA位点各个等位基因计数和其理论计数进行拟合优度检验;
(c3-a4)对于目标组每一个靶DNA位点,根据对其所有可能基因型的拟合优度检验结果,选择最优拟合的基因型为该靶DNA位点的基因型。
在一些实施方案中,在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的核型,所述估计依次包括如下步骤:
(c3-b1)分析待测样本,列出待检测目标染色体或亚染色体片段的所有可能的核型;
(c3-b2)对于每一个可能的核型,列出目标组各个靶DNA位点所有可能的基因型;
(c3-b3)对目标组每一个靶DNA位点,首先利用其各个等位基因计数对其所有可能的基因型进行拟合优度检验,然后对每一个可能的核型选择一个对该核型有最优拟合的基因型;
(c3-b4)综合分析所有靶DNA位点对每一个核型的拟合优度检验结果,选择对所有靶DNA位点综合拟合最好的核型作为待检测目标染色体或亚染色体片段的核型。
在一些实施方案中,在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的野生突变型,所 述估计依次包括如下步骤:
(c3-c1a)对于目标组每一个靶DNA位点,列出其所有可能的野生突变基因型;
(c3-c2a)对于目标组每一个靶DNA位点,对于其每一个可能的野生突变基因型,根据样本中最少组分DNA浓度和该位点各个等位基因的总计数,计算其各个等位基因的理论计数;
(c3-c3a)对于目标组每一个靶DNA位点,对于其每一个可能的野生突变基因型,利用靶DNA位点各个等位基因计数和其理论计数进行拟合优度检验;
(c3-c4a)综合分析目标组所有靶DNA位点,选择对所有靶位点有最优拟合的野生突变基因型为待测目标的野生突变基因型。
在一些实施方案中,在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的野生突变型,所述估计依次包括如下步骤:
(c3-c1b)对于目标组每一个靶DNA位点,根据其各个等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法估计其基因型;
(c3-c2b)根据目标组每一个靶DNA位点的基因型和其各个等位基因的序列,确定样本各个组分中待测目标各个等位基因的野生突变型。
在一些实施方案中,利用一种或几种能用来检验观测数与理论数之间一致性的统计检验方法来进行拟合优度检验。在一些实施方案中,拟合优度检验是卡方检验。在一些实施方案中,拟合优度检验是G检验。在一些实施方案中,拟合优度检验是费希尔精确检验。在一些实施方案中,拟合优度检验是二项分布检验。在一些实施方案中,拟合优度检验是卡方检验和/或G检验和/或费希尔精确检验和/或二项分布检验。在一些实施方案中,拟合优度检验是利用G检验的计算值G值和/或AIC值和/或经校正的G值和/或经校正的AIC值和/或由G值或AIC值的衍生的值来进行拟合优度检验。
在一些实施方案中,在步骤(d3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的基因型,所述估计依次包括如下步骤:
(d3-a1)对于目标组每一个靶DNA位点,列出其所有可能的基因型;
(d3-a2)对于目标组靶DNA位点每一个可能的基因型,首先根据样本中最少组分DNA的浓度计算其各个等位基因的相对计数理论值,然后选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;
(d3-a3)对于目标组每一个靶DNA位点,首先计算其各个等位基因的相对计数,然后选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;
(d3-a4)根据目标组各个靶DNA位点在等位基因相对计数图中的理论位置分布以及实际位置 分布推断待测目标的基因型。
在一些实施方案中,在步骤(d3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的核型,所述估计依次包括如下步骤:
(d3-b1)分析待测样本,列出待检测目标染色体或亚染色体片段的所有可能的核型;
(d3-b2)对于每一个可能的核型,列出目标组各个靶DNA位点所有可能的基因型;
(d3-b3)对于目标组靶DNA位点每一个可能的基因型,首先根据样本中最少组分DNA的浓度计算其各个等位基因的相对计数理论值,然后选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;
(d3-b4)对于目标组每一个靶DNA位点,首先计算其各个等位基因的相对计数,然后选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;
(d3-b5)根据在等位基因相对计数图中目标组各个靶DNA位点在各个核型的理论位置分布以及其实际位置分布推断待测目标的核型。
在一些实施方案中,在步骤(d3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的野生突变型,所述估计依次包括如下步骤:
(d3-c1)对于目标组每一个靶DNA位点,列出其野生型序列和所有可能的野生突变基因型;
(d3-c2)对于每一个可能的野生突变基因型,计算其野生型等位基因和其它非野生型各个等位基因的相对计数理论值,并选取至少一个非野生型等位基因相对计数理论值对野生型等位基因相对计数理论值作图来标记其野生突变基因型的理论位置;
(d3-c3)对于目标组每一个靶DNA位点,计算其野生型等位基因和其它非野生型各个等位基因的相对计数值,并选取至少一个非野生型等位基因相对计数对野生型等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;
(d3-c4)根据目标组所有靶DNA位点在等位基因相对计数图中的理论位置分布以及实际位置分布推断其野生突变型。
在一些实施方案中,在步骤(a2)中进行的对每一个靶DNA位点,首先利用该靶位点各个等位基因计数估算其基因型,然后根据估算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC),所述估算依次包括如下步骤:
(a2-i)对靶DNA位点的各个等位基因计数进行从大到小排序,其中最大的三个等位基因计数依次标记为R1、R2和R3;
(a2-ii)利用靶DNA位点的各个等位基因计数,估算该靶DNA位点的基因型;
(a2-iii)根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最 少组分DNA的计数(FC)和总计数(TC)。
在一些实施方案中,在步骤(a2-ii)中进行的利用靶DNA位点的各个等位基因计数,估算该靶DNA位点的基因型,所述估算依次包括如下步骤:
(a2-ii-1)利用靶DNA位点的各个等位基因计数,判断靶DNA位点中检测到的高于噪声阈值的等位基因数量;如果判断结果是1,则执行下述步骤(a2-ii-2);如果判断结果是2,则执行下述步骤(a2-ii-3);如果判断结果为大于2,则执行下述步骤(a2-ii-4);
(a2-ii-2)估算该靶DNA位点的基因型为AA|AA,然后执行下述步骤(a2-ii-5);
(a2-ii-3)根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);
(a2-ii-4)根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);
(a2-ii-5)输出估算的该靶位点的基因型。
在一些实施方案中,在步骤(a2-ii-3)中进行的根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,所述估算依次包括如下步骤:
(a2-ii-3-1)判断R1/(R1+R2)的值是否小于0.5+α,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AB,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则执行下述步骤(a2-ii-3-2);
(a2-ii-3-2)判断R1/(R1+R2)的值是否小于0.75,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AA,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则估算该靶DNA位点的基因型为AA|AB,然后执行下述步骤(a2-ii-3-3);
(a2-ii-3-3)输出估算的该靶位点的基因型。
在一些实施方案中,在步骤(a2-ii-4)中进行的根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,所述估算依次包括如下步骤:
(a2-ii-4-1)判断R2/R1是否大于等于0.5和/或R1/(R1+R2)是否大于等于1/2并且小于等于2/3和/或R2/(R1+R2)是否大于等于1/3并且小于等于1/2的值,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AC,然后执行下述步骤(a2-ii-4-3);如果判断结果为否,则执行下述步骤(a2-ii-4-2);
(a2-ii-4-2)标记该位点的等位基因计数为异常,然后或者估算该靶位点的基因型为NA,并执行下述步骤(a2-ii-4-3);或者设定该靶DNA位点中检测到的高于噪声阈值的等位基因数量为2,然后按照步骤(a2-ii-3)所述估算该靶位点的基因型,并执行下述步骤(a2-ii-4-3);
(a2-ii-4-3)输出估算的该靶位点的基因型。
在一些实施方案中,在步骤(a2-iii)中进行的根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的三个等位基因计数依次标记为R1、R2和R3,所述估算依次包括如下步骤:
(a2-iii-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-6)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-7)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
在一些实施方案中,在步骤(b2)中进行的对每一个靶DNA位点利用其各个等位基因计数和样本中最少组分DNA的浓度值f
0估算其基因型,所述估算依次包括如下步骤:
(b2-i)根据样本来源,列出靶DNA位点所有可能的基因型;
(b2-ii)对靶DNA位点的每一个可能基因型,利用样本中最少组分DNA的浓度值f
0和靶DNA位点各个等位基因的总计数(TC),计算其各个等位基因的理论计数;
(b2-iii)对靶DNA位点的每一个可能基因型,利用靶DNA位点的各个等位基因计数及其各个等位基因理论计数进行拟合优度检验;
(b2-iv)分析靶DNA位点对所有可能的基因型的拟合优度检验结果,选择对靶DNA位点各个等位基因计数有最优拟合的基因型作为估算的靶DNA位点的基因型。
在一些实施方案中,在步骤(b3)中进行的对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的四个等位基因计数依次标记为R1、R2、R3和R4,,所述估算依次包括如下步骤:
(b3-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-6)如果靶位点估计的基因型是AA|BB,则估算来源于最少组分DNA的计数(FC)为R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-7)如果靶位点估计的基因型是AA|BC,则估算来源于最少组分DNA的计数(FC)为R2+R3或R2的2倍或R3的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-8)如果靶位点估计的基因型是AB|CC,则判断当前估计值f
0是否大于等于1/3,如果判断结果为是,则估算来源于最少组分DNA的计数(FC)为R1,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);如果判断结果为否,则估算来源于最少组分DNA的计数(FC)为R3,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-9)如果靶位点估计的基因型是AB|CD,则估算来源于最少组分DNA的计数(FC)为R3+R4或R3的2倍或R4的2倍,估算总计数(TC)为R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-10)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-11)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
在一些实施方案中,本发明涉及一种用于计算样本中最少组分DNA的浓度的装置,所述装置包括:
(a1)用于设定样本的噪声阈值α的模块;
(a2)用于对每一个靶DNA位点,首先利用该靶位点各个等位基因计数估算其基因型,然后根据估算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC)的模块;
(a3)计算模块,其利用参照组各个靶位点的最少组分DNA的计数(FC)和总计数(TC),估算最 少组分DNA的浓度。
在一些实施方案中,本发明所述在在步骤(a2)中进行的对每一个靶DNA位点,首先利用该靶位点各个等位基因计数估算其基因型,然后根据估算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC),包括如下步骤:
(a2-i)对靶DNA位点的各个等位基因计数进行从大到小排序,其中最大的三个等位基因计数依次标记为R1、R2和R3;
(a2-ii)利用靶DNA位点的各个等位基因计数,估算该靶DNA位点的基因型;
(a2-iii)根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最少组分DNA的计数(FC)和总计数(TC)。
在一些实施方案中,利用靶DNA位点的各个等位基因计数,其中最大的三个等位基因计数依次标记为R1、R2和R3,估算该靶DNA位点的基因型,包括如下步骤:
(a2-ii-1)利用靶DNA位点的各个等位基因计数,判断靶DNA位点中检测到的高于噪声阈值的等位基因数量;如果判断结果是1,则执行下述步骤(a2-ii-2);如果判断结果是2,则执行下述步骤(a2-ii-3);如果判断结果为大于2,则执行下述步骤(a2-ii-4);
(a2-ii-2)估算该靶DNA位点的基因型为AA|AA,然后执行下述步骤(a2-ii-5);
(a2-ii-3)根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);
(a2-ii-4)根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);
(a2-ii-5)输出估算的该靶位点的基因型。
在一些实施方案中,根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,其中最大的两个等位基因计数分别标记为R1和R2,包括如下步骤:
(a2-ii-3-1)判断R1/(R1+R2)的值是否小于0.5+α,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AB,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则执行下述步骤(a2-ii-3-2);
(a2-ii-3-2)判断R1/(R1+R2)的值是否小于0.75,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AA,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则估算该靶DNA位点的基因型为AA|AB,然后执行下述步骤(a2-ii-3-3);
(a2-ii-3-3)输出估算的该靶位点的基因型。
在一些实施方案中,根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,其中最大的两个等位基因计数分别标记为R1和R2,包括如下步骤:
(a2-ii-4-1)判断R2/R1是否大于等于0.5和/或R1/(R1+R2)是否大于等于1/2并且小于等于2/3和/或R2/(R1+R2)是否大于等于1/3并且小于等于1/2的值,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AC,然后执行下述步骤(a2-ii-4-3);如果判断结果为否,则执行下述步骤(a2-ii-4-2);
(a2-ii-4-2)标记该位点的等位基因计数为异常,然后或者估算该靶位点的基因型为NA,并执行下述步骤(a2-ii-4-3);或者设定该靶DNA位点中检测到的高于噪声阈值的等位基因数量为2,然后按照步骤(a2-ii-3)所述估算该靶位点的基因型,并执行下述步骤(a2-ii-4-3);
(a2-ii-4-3)输出估算的该靶位点的基因型。
在一些实施方案中,根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的三个等位基因计数依次标记为R1、R2和R3,包括如下步骤:
(a2-iii-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-6)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);
(a2-iii-7)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
在一些实施方案中,所述步骤(a3)的计算模块根据FC和TC计数,利用线性回归或稳 健线性回归计算样本中最少组分DNA的浓度,或者利用FC和TC的平均数或中位数计算样本中最少组分DNA的浓度。
在一些实施方案中,本发明涉及一种计算样本中最少组分DNA的浓度的装置,所述装置:
(b1)设定模块,其设定样本的噪声阈值α、初始浓度估计值f
0和迭代误差精度值ε;
(b2)用于对每一个靶DNA位点利用其各个等位基因计数和样本中最少组分DNA的浓度值f
0估算其基因型的模块;
(b3)估算模块,其对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC);
(b4)用于利用最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度f的模块;
(b5)判断模块,其判断f-f
0的绝对值是否小于ε,如果判断结果为否,则设定f
0=f,然后执行步骤(b2);如果判断结果为是,则样本中最少组分DNA浓度估算为f。
在一些实施方案中,对每一个靶DNA位点利用其等位基因计数和样本中最少组分DNA的浓度值f
0估算其基因型包括如下步骤:
(b2-i)根据样本来源,列出靶DNA位点所有可能的基因型;
(b2-ii)对靶DNA位点的每一个可能基因型,利用样本中最少组分DNA的浓度值f
0和靶DNA位点各个等位基因的总计数(TC),计算其各个等位基因的理论计数;
(b2-iii)对靶DNA位点的每一个可能基因型,利用靶DNA位点的各个等位基因计数及其各个等位基因理论计数进行拟合优度检验;
(b2-iv)分析靶DNA位点对所有可能的基因型的拟合优度检验结果,选择对靶DNA位点各个等位基因计数有最优拟合的基因型作为估算的靶DNA位点的基因型。
在一些实施方案中,对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的四个等位基因计数依次标记为R1、R2、R3和R4,包括如下步骤:
(b3-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-6)如果靶位点估计的基因型是AA|BB,则估算来源于最少组分DNA的计数(FC)为R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-7)如果靶位点估计的基因型是AA|BC,则估算来源于最少组分DNA的计数(FC)为R2+R3或R2的2倍或R3的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-8)如果靶位点估计的基因型是AB|CC,则判断是否当前估计值f
0大于和或等于1/3,如果判断结果为是,则估算来源于最少组分DNA的计数(FC)为R1,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);如果判断结果为否,则估算来源于最少组分DNA的计数(FC)为R3,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-9)如果靶位点估计的基因型是AB|CD,则估算来源于最少组分DNA的计数(FC)为R3+R4或R3的2倍或R4的2倍,估算总计数(TC)为R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-10)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);
(b3-11)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
在一些实施方案中,所述样本为母体血浆样本,以及所述最少组分DNA为胎儿DNA。在一些实施方案中,所述样本为来源于植入前诊断的胚胎核酸。
在一些实施方案中,本发明提供了用于实施本发明的方法的诊断试剂盒。此诊断试剂盒包括至少一组引物以扩增参照组靶DNA位点和/或目标组靶DNA位点。其中目标组靶DNA位点选自有染色体非整倍性异常的可能的染色体和/或有拷贝数变异可能的染色体片段和/或有可能是单基因遗传病的致病变异的位点。其中目标组靶DNA位点的核酸序列在待检测人群中一般具有多态性和/或有可能是单基因遗传病的致病变异的位点。其中参照组靶DNA位点选自通常没有染色体非整倍性异常的染色体和/或通常没有拷贝数变异的染色体片段。其中参照组靶DNA位点的核酸序列在待检测人群中一般具有多态性。在一些实施方式中,参照组靶DNA位点选自样本中认为不存在染色体非整倍性异常或染色体片段拷贝数变异的染色体区域。在 一些实施方式中,参照染色体或参照染色体区域选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X和Y,并且有时,参照染色体或参照染色体区域选自常染色体(即,非X和Y)。在一些实施方式中,目标靶DNA位点选自样本中认为可能存在染色体非整倍性异常或染色体片段拷贝数变异的染色体区域。在一些实施方式中,目标靶DNA位点选自样本中认为存在和/或可能存在单基因遗传病致病变异位点的核酸区域。在一些实施方式中,目标染色体区域选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X和Y。优选的,目标组靶DNA位点选自13号染色体和/或18号染色体和/或21号染色体和/或X染色体和/或Y染色体。优选的,试剂盒包括用于扩增源自13号、18号、21号、X和/或Y染色体的靶核酸的引物。优选的,目标组靶DNA位点选自1p36缺失综合征、猫叫综合征、腓骨肌萎缩症、Digeorge综合征、杜氏肌营养不良、Williams-Beuren综合症、Wolf-Hirschhorn综合症、15q13.3微缺失综合征、Miller-Dieker综合征、Smith-Magenis综合征、天使人综合征、Langer-Giedion综合征的染色体区域。优选的,试剂盒包括用于扩增源自1p36缺失综合征、猫叫综合征、腓骨肌萎缩症、Digeorge综合征、杜氏肌营养不良、Williams-Beuren综合症、Wolf-Hirschhorn综合症、15q13.3微缺失综合征、Miller-Dieker综合征、Smith-Magenis综合征、天使人综合征、Langer-Giedion综合征染色体区域的靶核酸的引物。应当理解,包含靶位点区域的参照染色体或其部分是整倍体染色体。整倍体是指正常数目的染色体。任选可被包括在诊断试剂盒中的其它试剂是使用说明、进行PCR和/或多重PCR反应的聚合酶和缓冲液和对扩增的片段进行高通量测序文库构建所需要的试剂。
在一些实施方案中,本发明提供了用于实施本发明的方法的诊断试剂盒。此诊断试剂盒包括用于执行步骤(2)和/或步骤(3)的引物。任选可被包括在诊断试剂盒中的其它试剂是使用说明、进行PCR和/或多重PCR反应的聚合酶和缓冲液和对扩增的片段进行高通量测序文库构建所需要的试剂。
在一些实施方案中,本发明提供了用于实施本发明的方法的一种系统,其用于实施从生物测试样品预测待检测目标的核型或基因型或野生突变型的方法中的一个或多个步骤,例如步骤(4)至步骤(5)中的一个或多个。在一些实施方案中,本发明提供了用于实施本发明的方法的装置和/或计算机程序产品和/或系统和/或模块,该装置和/或计算机程序产品和/或系统和/或模块用于执行上述步骤(1)-步骤(5)、上述步骤(a1)-步骤(a3)、上述步骤(b1)-步骤(b5)、上述步骤(c1)-步骤(c3)、上述步骤(d1)-步骤(d3)和/或上述步骤(e1)-步骤(e3)中的任何步骤。
在一方面,本发明涉及以下实施方案:
1.一种检测样本遗传变异的方法,其特征在于依次包括如下步骤:
(1)接收待测生物样品并制备核酸;
(2)富集或扩增靶DNA序列,其中至少有一个靶DNA序列在样本中有多于一个的等位基因;
(3)测序所扩增的靶DNA;
(4)对每一个靶DNA序列,统计其各个等位基因的计数;
(5)利用等位基因计数的拟合优度检验和/或等位基因计数相对分布图确定样本中待检测目标位点的核型或基因型或野生突变型。
2.如实施方案1所述的方法,其特征在于在步骤(5)中利用等位基因计数的拟合优度检验确定样本中待检测目标位点的核型或基因型或野生突变型,所述确定依次包括如下步骤:
(A1)将靶DNA序列根据其在染色体上的定位分为参照组序列和目标组序列;
(A2)利用参照组各个靶DNA序列的等位基因计数,采取等位基因计数相对比例法或等位基因计数迭代拟合基因型法计算样本中最少组分DNA的浓度;
(A3)利用目标组各个靶DNA序列的等位基因计数的拟合优度检验,估计样本中待检测目标位点的核型或基因型或野生突变型。
3.如实施方案1所述的方法,其特征在于在步骤(5)中利用等位基因计数相对分布图确定样本中待检测目标位点的核型或基因型或野生突变型,所述确定依次包括如下步骤:
(B1)将靶DNA序列根据其在染色体上的定位分为参照组序列和目标组序列;
(B2)利用参照组各个靶DNA序列的等位基因计数,采取等位基因计数相对比例法或等位基因计数迭代拟合基因型法计算样本中最少组分DNA的浓度;
(B3)利用目标组各个靶DNA序列的等位基因计数相对分布图,估计样本中待检测目标位点的核型或基因型或野生突变型。
4.如实施方案1所述的方法,其特征在于在步骤(5)中利用等位基因计数相对分布图确定样本中待检测目标位点的核型或基因型或野生突变型,其中待检测样本是单一基因组样本,所述确定依次包括如下步骤:
(C1)计算目标组每一个靶DNA序列的各个等位基因相对计数;
(C2)对每一个靶DNA序列,将第二大的等位基因相对计数对最大的等位基因相对计数作分布图A或将最大的等位基因相对计数对该靶DNA序列在染色体或亚染色体上的相对位置作分布图B;
(C3)利用目标组各个靶DNA序列的等位基因计数相对分布图A和或分布图B,估计单一基因组样本中待检测目标区域的核型。
5.如实施方案2或3所述的方法,其特征在于在步骤(A2)或步骤(B2)中采取等位基因计数相对比例法计算样本中最少组分DNA的浓度,所述计算依次包括如下步骤:
(a1)设定样本的噪声背景值α;
(a2)对每一个靶DNA序列估算来源于最少组分DNA的计数(FC)和总计数(TC);
(a3)利用最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度。
6.如实施方案2或3所述的方法,其特征在于在步骤(A2)或步骤(B2)中采取等位基因计数迭代拟合基因型法计算样本中最少组分DNA的浓度,所述计算依次包括如下步骤:
(b1)设定样本的噪声背景值α、初始浓度估计值f
0和迭代误差精度值ε;
(b2)对每一个靶DNA序列利用其等位基因计数和f
0估算其基因型;
(b3)对每一个靶DNA序列,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC);
(b4)利用最少组分DNA的计数(FC)和总计数(TC)估算最少组分DNA的浓度f;
(b5)判断f-f
0的绝对值是否小于ε,如果判断结果为否,则设定f
0=f,然后执行步骤(b2);如果判断结果为是,则样本中最少组分DNA浓度估算为f。
7.如实施方案2所述的方法,其特征在于在步骤(A3)中利用目标组各个靶DNA序列的等位基因计数的拟合优度检验,估计样本中待检测目标位点的基因型,所述估计依次包括如下步骤:
(A3.a1)分析目标靶DNA序列位点,列出其所有可能的基因型;
(A3.a2)对每一个可能的基因型,根据估算的最少组分DNA浓度和靶DNA序列的总计数,计算其各个等位基因的理论计数,然后对靶DNA序列各个等位基因计数和其理论计数进行拟合优度检验;
(A3.a3)根据对靶DNA序列所有可能基因型的拟合优度检验结果,选择最优拟合的基因型为该靶DNA序列位点的基因型。
8.如实施方案2所述的方法,其特征在于在步骤(A3)中利用目标组各个靶DNA序列的等位基因计数的拟合优度检验,估计样本中待检测目标位点的核型,所述估计依次包括如下步骤:
(A3.b1)分析待测样本,列出样本在目标染色体或亚染色体片段上的所有可能的核型;
(A3.b2)对于每一个可能的核型,列出样本中该核型的染色体或亚染色体上目标组的靶DNA序列所有可能的基因型;
(A3.b3)对每一个目标组靶DNA序列,首先利用其各个等位基因计数对所有可能的基因型进行拟合优度检验,然后对每个核型选择一个对该核型有最优拟合的基因型;
(A3.b4)综合分析所有靶DNA序列对所有核型的拟合优度检验结果,选择对所有靶DNA序列综合拟合最好的核型作为待检测目标染色体或亚染色体片段的核型。
9.如实施方案2所述的方法,其特征在于在步骤(A3)中利用目标组各个靶DNA序列的等位基因计数的拟合优度检验,估计样本中待检测目标位点的野生突变型,所述估计依次包括如下步骤:
(A3.c1)利用靶DNA各个等位基因计数和拟合优度检验估计靶DNA序列的基因型;
(A3.c2)根据靶DNA序列的基因型和其各个等位基因的野生突变序列,确定样本各个组分中该靶DNA序列各个等位基因的野生突变型。
10.如实施方案3所述的方法,其特征在于在步骤(B3)中利用目标组各个靶DNA序列的等位 基因计数相对分布图,估计样本中待检测目标位点的基因型,所述估计依次包括如下步骤:
(B3.a1)分析待测样本,列出目标靶序列位点所有可能的基因型;
(B3.a2)计算每一个可能基因型中各个等位基因的相对计数理论值,并对每一个基因型选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记所有可能基因型的理论位置;
(B3.a3)计算靶DNA序列的各个等位基因的相对计数,并选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA序列等位基因相对计数的实际位置;(B3.a4)根据靶DNA序列在等位基因相对计数图形中的理论位置分布以及实际位置分布推断其基因型。
11.如实施方案3所述的方法,其特征在于在步骤(B3)中利用目标组各个靶DNA序列的等位基因计数相对分布图,估计样本中待检测目标位点的核型,所述估计依次包括如下步骤:
(B3.b1)分析待测样本,列出样本在目标染色体或亚染色体片段上的所有可能的核型;
(B3.b2)对于每一个可能的核型,列出样本中该核型的染色体或亚染色体上目标组的靶DNA序列所有可能的基因型,然后对于每一个基因型选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;
(B3.b3)对每一个目标组靶DNA序列,计算其各个等位基因的相对计数并选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该位点的实际位置;
(B3.b4)根据所有靶DNA序列在等位基因相对计数图形中的理论位置分布以及实际位置分布来推断待检测目标染色体或亚染色体片段的核型。
12.如实施方案3所述的方法,其特征在于在步骤(B3)中利用目标组各个靶DNA序列的等位基因计数相对分布图,估计样本中待检测目标位点的野生突变型,所述估计依次包括如下步骤:
(B3.c1)分析待测样本,列出目标靶序列位点的野生型序列和其所有可能的基因型;
(B3.c2)计算每一个可能基因型中野生型等位基因和其它非野生型各个等位基因的相对计数理论值,并对每一个基因型选取至少一个非野生型等位基因相对计数理论值对野生型等位基因相对计数理论值作图来标记所有可能基因型的理论位置;
(B3.c3)计算靶DNA序列的野生型等位基因和其它非野生型各个等位基因的相对计数,并选取至少一个非野生型等位基因相对计数对野生型等位基因相对计数作图来标记该靶DNA序列等位基因相对计数的实际位置;
(B3.c4)根据靶DNA序列在等位基因相对计数图形中的理论位置分布以及实际位置分布推断其野生突变型。
13.如实施方案5所述的方法,其特征在于在步骤(a2)中进行的所述估算依次包括如下步骤:
(i)对靶DNA序列的各个等位基因计数进行从大到小排序,其中最大的三个等位基因计数依次标记为R1、R2和R3;
(ii)判断靶DNA序列中检测到的高于噪声阈值的等位基因数量;如果判断结果是1,则估算该靶DNA序列基因型为AA|AA,然后执行下述步骤(vi);如果判断结果是2,则执行下述步骤(iii);如果判断结果为大于2,则执行下述步骤(v);
(iii)判断R1/(R1+R2)的值是否小于0.5+α,如果判断结果为是,则估算该靶DNA序列的基因型为AB|AB,然后执行下述步骤(vi);如果判断结果为否,则执行下述步骤(iv);
(iv)判断R1/(R1+R2)的值是否小于0.75,如果判断结果为是,则估算该靶DNA序列的基因型为AB|AA,然后执行下述步骤(vi);如果判断结果为否,则估算该靶DNA序列的基因型为AA|AB,然后执行下述步骤(vi);
(v)判断R2/R1的值是否小于0.5,如果判断结果为否,则估算该靶DNA序列的基因型为AB|AC,然后执行下述步骤(vi);如果判断结果为是,则标记该靶DNA序列为异常值,然后或者估算该靶DNA序列的基因型为NA,然后执行下述步骤(vi),或者执行上述步骤(iii);
(vi)根据估算的靶DNA序列基因型,估算来源于最少组分DNA的计数(FC)和总计数(TC)。
14.如实施方案6所述的方法,其特征在于在步骤(b2)中进行的所述估算依次包括如下步骤:
(i)根据样本来源,列出靶DNA序列的所有可能基因型;
(ii)对靶DNA序列的所有可能基因型,利用f
0和靶DNA序列各个等位基因的总计数(TC),计算其每一个等位基因的理论计数;
(iii)利用靶DNA序列的各个等位基因计数及其各个等位基因理论计数进行拟合优度检验;
(iv)分析靶DNA序列对所有可能的基因型的拟合优度检验结果,选择对靶DNA序列各个等位基因计数有最优拟合的基因型作为估算的靶DNA序列的基因型。
图1是利用孕妇血浆cfDNA样本中的多个多态性位点各个等位基因计数估计胎儿DNA浓度的流程示意图。
图2是利用两个组分混合样本中的多个多态性位点各个等位基因计数估计其中最少组分DNA浓度的流程示意图。
图3是利用孕妇血浆cfDNA样本中的多态性位点测序估计胎儿DNA浓度。首先利用每一个多态性位点的各个等位基因计数估算其胎儿DNA计数(FC)和母亲与胎儿DNA总计数(TC),然后对所有的多态性位点的FC和TC计数进行过原点的rlm稳健回归拟合,而胎儿DNA浓度则估算为该拟合直线的斜率(模型系数)。
图4是利用混合组分DNA样本中的多态性位点测序估计最少组分DNA浓度。利用每一个多态性位点的各个等位基因计数估算其最少组分DNA计数(FC)和该位点所有组分DNA总计 数(TC)。图4a中利用每一个多态性位点的FC和TC值进行过原点的rlm稳健回归,而最少组分DNA浓度则估算为该直线的斜率(模型系数)。图4b是对多个不同的样本或不同的生物学重复进行rlm稳健回归估计最少组分DNA样本浓度的结果。四个混合的样本在文库制备或测序水平进行了多个重复,期望的最少组分DNA浓度分别为0.01、0.02、0.10或0.20(x轴),而估计的每个样本最少组分DNA浓度为y轴。图中虚线表示直线y=x的位置。
图5是利用多态性位点各个等位基因计数检测胎儿染色体的单体变异。图5a是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中双体-双体核型染色体是否是胎儿单体异常。图5b是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中双体-单体核型染色体是否是胎儿单体异常。其中y轴AIC值是经校正的AIC值,由该位点的G检验的AIC值除以胎儿浓度再除以该位点各个等位基因的总计数得到。
图6是利用多态性位点各个等位基因计数检测胎儿染色体的三体变异。图6a是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中双体-双体核型染色体是否是胎儿三体异常。图6b是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中双体-三体核型染色体是否是胎儿三体异常。
图7是利用多态性位点各个等位基因计数估计待检测胎儿亚染色体水平的微缺失变异。图7a是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中单体-双体核型染色体是否是胎儿染色体的微缺失异常。图7b是图7a的局部放大。图7c是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中单体-单体核型染色体是否是胎儿染色体微缺失异常。图7d是图7c的局部放大。
图8是利用多态性位点各个等位基因计数估计待检测胎儿亚染色体水平的微重复变异。图8a是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中三体-双体核型染色体是否是胎儿染色体的微重复异常。图8b是图8a的局部放大。图8c是利用综合拟合优度检验结果来检测模拟的孕妇血浆cfDNA样本中三体-三体核型染色体是否是胎儿染色体的微重复异常。图8d是图8c的局部放大。
图9是利用多态性位点各个等位基因计数检测胎儿在短序列水平的野生突变型。图9a是利用拟合优度检验结果来检测模拟的母亲杂合突变而胎儿正常的短序列其位点的基因型。图9b是图9a的局部放大。结果表明,该遗传位点的估计基因型为AB|AA,即母亲为杂合而胎儿为纯合基因型。进一步分析等位基因序列,发现等位基因A为野生型而等位基因B为突变型,因此确定该位点的野生突变型为母亲为杂合突变胎儿为正常(Aa|AA)。图9c是利用拟合优度检验结果来检测模拟的母亲和胎儿均是杂合突变的短序列其位点的基因型。图9d是图 9c的局部放大。结果表明,该遗传位点的估计基因型为AB|AC,即母亲和胎儿均为杂合基因型。进一步分析等位基因序列,发现等位基因A为野生型而等位基因B和C为突变型,因此确定该位点的野生突变型为母亲和胎儿均为杂合突变(Aa|Ab),并且胎儿或者产生了新发突变或者遗传了父源性的等位基因突变。
图10所示是利用等位基因计数相对分布图估计目标位点的基因型。图10a为正常双体-双体核型染色体上的多态性位点其各个等位基因相对计数的理论分布。图10b是正常双体-双体核型染色体上的多态性位点其第二大的等位基因相对计数相对于最大的等位基因相对计数的分布。
图11所示是孕妇血浆cfDNA样本中母亲核型正常的染色体上各个多态性位点各个等位基因相对计数的理论分布。图11a为双体-双体核型或双体-单体核型染色体上各个多态性位点的所有可能基因型及其各个等位基因的相对计数理论值。图11b是双体-双体核型和双体-单体核型染色体上的各个多态性位点其第二大的等位基因相对计数相对于最大的等位基因相对计数的理论分布。图11c为双体-双体核型或双体-三体核型染色体上各个多态性位点的所有可能基因型及其各个等位基因的相对计数理论值。图11d是双体-双体核型和双体-三体核型染色体上的各个多态性位点其第二大或第四大的等位基因相对计数相对于最大的等位基因相对计数的理论分布。
图12所示是孕妇血浆cfDNA样本中目标组亚染色体水平上各个多态性位点各个等位基因相对计数的理论分布。图12a为母亲或胎儿有或没有微缺失核型染色体上各个多态性位点的所有可能基因型及其各个等位基因的相对计数理论值。图12b是母亲或胎儿有或没有微缺失核型染色体上的各个多态性位点其第二大的等位基因相对计数相对于最大的等位基因相对计数的理论分布。图12c为母亲有或没有微重复而胎儿正常的亚染色体上各个多态性位点的所有可能基因型及其各个等位基因的相对计数理论值。图12d是母亲有或没有微重复而胎儿正常核型亚染色体上的各个多态性位点其第二大或第三大的等位基因相对计数相对于最大的等位基因相对计数的理论分布。
图13所示是孕妇血浆cfDNA样本中正常的双体-双体核型染色体上的待测位点所有可能的基因型及其各个等位基因相对计数的理论分布。图13a是正常的双体-双体核型染色体上的待测位点所有可能的基因型及其各个等位基因相对计数的理论值。图13b是正常的双体-双体核型染色体上的待测位点每一个可能的基因型其最大的非野生型等位基因相对计数相对于野生型等位基因相对计数的理论分布图。
图14是利用多态性位点各个等位基因计数相对分布图检测胎儿染色体的单体变异。 图14a是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中正常双体-双体染色体的核型。图14b是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中双体-单体染色体的核型。
图15是利用多态性位点各个等位基因计数相对分布图检测胎儿染色体的三体变异。图15a是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中正常双体-双体染色体的核型。图15b是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中双体-三体染色体的核型。
图16是利用多态性位点各个等位基因计数相对分布图检测胎儿亚染色体水平的微缺失变异。图16a是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中单体-双体亚染色体的微缺失核型。图16b是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中单体-单体亚染色体的微缺失核型。
图17是利用多态性位点各个等位基因计数相对分布图检测胎儿亚染色体水平的微重复变异。图17a是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中三体-双体亚染色体的微重复核型。图17b是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中三体-三体亚染色体的微重复核型。
图18是利用多态性位点各个等位基因计数相对分布图检测胎儿在短序列水平的野生突变型。图18a是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中ab|Aa基因型位点的野生突变型。图18b是利用等位基因计数相对分布图估计模拟的孕妇血浆cfDNA样本中Aa|ab基因型位点的野生突变型。
图19所示是利用多态性位点各个等位基因相对计数检测单基因组样本中目标组染色体或亚染色体片段的核型。对目标组每个多态性位点,将其第二大的等位基因相对计数对其最大的等位基因相对计数作图(相对计数图)或者将其最大的等位基因相对计数对该位点在模拟的染色体上的相对位置作图(相对计数位置图)。根据各个多态性位点在相对计数图或相对计数位置图上的分布特征可以估计待测目标的核型。
下面结合具体实施例,进一步阐述本发明。应当理解,这些实施例仅用于说明本发明而不用于限制本发明要求保护的范围。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的修改或替换,均属于本发明的范围。
实施例1、分析计算孕妇血浆DNA样本中各个多态性位点的各个等位基因计数
在本实施例中,测序结果文件(Barrett,Xiong et al.2017,PLoS One 12:e0186771)来自于NIH的SRA数据库(BioProject ID:PRJNA387652)。
1.样本收集:在本实施例中,Barrett等从每一名孕妇收集外周血10-20毫升,然后使用QiaAmp Circulating Nucleic Acid kit(Qiagen)试剂盒根据厂商的方案提取血浆DNA(cfDNA)。在本实施例中,我们分析了157个用上述方法收集的血浆cfDNA样本。
2.多态性位点扩增与测序:Barrett等选择了44个在人群中有高最小等位基因频率(MAF>0.25)的多态性位点,然后设计45对扩增引物,其中包括44对序列特异性的多态性位点扩增引物以及一对ZFX/ZFY位点扩增引物。最后对每一个样本用45对引物和多重PCR方法进行扩增。扩增产物用TruSeq Nano DNA Sample Preparation kits(Illumina)试剂盒按照厂家说明书进行制备测序文库。然后按厂家说明书利用MiSeq测序仪进行测序。
3.准备数据分析索引:
(3.1)准备多态性位点的参考序列:利用Barrett等报道的45个扩增位点的正向引物、反向引物以及多态性位点在染色体的具体定位从人基因组序列数据库中提取每一个扩增产物的参考序列。
(3.2)准备多态性位点的定位索引:对于每一个扩增产物参考序列,手动分成三个区域,5’区、变异区和3’区,其中变异区是扩增产物参考序列中受该多态性位点的任何一个等位基因影响的核酸序列区域,而5’区是5’到3’方向从参考序列开始到变异区开始的核酸序列,3’区是5’到3’方向从变异区终止到参考序列终止的核酸序列。然后,对于每一个多态性位点,分别从5’区和3’区各选择不少于一组的独特序列作为该多态性位点的定位索引,其中独特序列是指该序列在所有多态性位点的扩增产物参考序列中是唯一的,而利用该序列能将扩增产物唯一定位到特定的多态性位点。
(3.3)准备多态性位点的等位基因计数索引:对于每一个多态性位点,首先从NCBI的dbSNP数据库下载其所有等位基因序列,然后对于每一个等位基因序列,选择一个独特的核酸序列作为该多态性位点的等位基因计数索引,其中独特的核酸序列是指在该多态性位点的所有可能的扩增产物参考序列中该独特的核酸序列是唯一的,并且对于该位点的同一个等位基因,该独特的核酸序列相同,而对于该位点的不同等位基因,该独特的核酸序列各不相同。
4.测序数据分析:对于每一个测序序列,首先过滤低质量序列,然后在经过过滤的测序序列中从头到尾寻找每一个多态性位点的定位索引。如果找到不少于一个的多态性位点的定位索引,则将该序列定位到特定的多态性位点,否则则丢弃该序列。最后对于每一个定位到特定的多态性位点的序列,从头到尾寻找该多态性位点的等位基因计数索引。如果找到不 少于一个的等位基因计数索引,则选择其中的一个等位基因计数索引并将该序列标记为该多态性位点的该等位基因,否则则丢弃该序列。
5.统计每一个多态性位点的各个等位基因计数:对每一个样本,统计每一个多态性位点的每一个等位基因的测序序列数,即为每一个多态性位点的各个等位基因的计数。
实施例2、分析计算两个独立基因组混合样本中各个多态性位点的各个等位基因计数
在本实施例中,测序结果文件(Kim,Kim et al.2019,Nat Commun 10:1047)来自于NIH的SRA数据库(BioProject ID:PRJNA517742)。
1.样本收集:在本实施例中,Kim等从两个独立的血液样本提取基因组DNA,其中一个作为主要成分,另一个作为次要成分。两个样本的基因组DNA按一定比例混合,分别得到次要成分占比分别为0.01、0.02、0.10和0.20的混合样本。
2.多态性位点扩增与测序:Kim等选择了645个在两个基因组样本中有多态性的位点,设计扩增引物。对每一个混合样本用扩增引物和多重PCR方法进行扩增。扩增产物分别按照厂家说明书所述方法制备测序文库,然后分别利用Ion Torrent或Illumina测序仪进行测序。在本实施例中,我们分析了测序结果中的Illumina测序数据集(ILA数据集)。
3.准备数据分析索引:我们利用Kim等报道的645个扩增位点在染色体的具体定位等信息从人基因组序列数据库中提取每一个扩增产物的参考序列,然后采用实施例1的步骤3中步骤(3.2)和步骤(3.3)中所述方法,制备每一个多态性位点的定位索引和其每一个等位基因的计数索引。
4.测序数据分析:对于每一个测序序列,首先过滤低质量序列,然后在经过过滤的测序序列中从头到尾寻找每一个多态性位点的定位索引。如果找到不少于一个的多态性位点的定位索引,则将该序列定位到特定的多态性位点,否则则丢弃该序列。最后对于每一个定位到特定的多态性位点的序列,从头到尾寻找该多态性位点的等位基因计数索引。如果找到不少于一个的等位基因计数索引,则选择其中的一个等位基因计数索引并将该序列标记为该多态性位点的该等位基因,否则则丢弃该序列。
5.统计每一个多态性位点的各个等位基因计数:对每一个样本,统计每一个多态性位点的每一个等位基因的测序序列数,即为每一个多态性位点的各个等位基因的计数。
实施例3、计算机模拟混合样本中各个多态性位点并对其各个等位基因进行计数
在本实施例中,我们按照以下步骤产生模拟的多态性位点的各个等位基因序列。
1.模拟多态性位点:首先随机产生一段70bp长的独特序列,并分成三个区域,5’区(长度为30bp)、变异区(长度为10bp)和3’区(长度为30bp)。然后对变异区10bp的序列 随机产生突变(包括插入、缺失、点突变、多个位点变异等核酸序列改变),得到包含5’区、变异区和3’区的长度大于等于60bp的至少六个不同的核酸序列,并标记为该多态性位点的不同的等位基因。最后,按照实施例1中步骤(3.2)所述选择12bp长度的至少一个独特序列作为该多态性位点的定位索引;按照实施例1中步骤(3.3)所述选择包含变异区的12bp长度的至少一个独特序列作为该多态性位点的等位基因计数索引。
2.模拟样本中特定的染色体或染色体片段:对于每一号染色体,按照上述步骤1模拟至少100个多态性位点,并且每一个位点根据模拟的基因型决定模拟的等位基因个数以及各个等位基因计数。
比如模拟核型为双体-双体的孕妇血浆cfDNA某号染色体上的多态性位点,其基因型可能为AA|AA、AA|AB、AB|AA、AB|AB和AB|AC。假设样本中胎儿DNA的浓度为10%,而模拟的基因组拷贝数为200个,则胎儿的基因组为20个拷贝而母体的基因组为180个拷贝。首先选择一个多态性位点,列出其各个等位基因序列并分别标记为A、B、C、D、E、F等等。然后对于基因型AA|AA,模拟200个拷贝的等位基因A;对于基因型AA|AB,模拟180个拷贝的母亲等位基因A和10个拷贝的胎儿等位基因A以及10个拷贝的胎儿等位基因B,即模拟190个拷贝的等位基因A和10个拷贝的等位基因B;对于基因型AB|AA,模拟110个拷贝的等位基因A和90个拷贝的等位基因B;对于基因型AB|AB,模拟100个拷贝的等位基因A和100个拷贝的等位基因B;对于基因型AB|AC,模拟100个拷贝的等位基因A、90个拷贝的等位基因B和10个拷贝的等位基因C。
比如模拟核型为双体-单体的孕妇血浆cfDNA某号染色体上的多态性位点或者模拟某号染色体片段核型为双体-单体的孕妇血浆cfDNA上的多态性位点,其基因型可能为
或
假设样本中胎儿DNA的浓度为10%,而模拟的正常基因组拷贝数为200个,则胎儿的基因组为20个拷贝而母亲的基因组为180个拷贝。首先选择一个多态性位点,列出其各个等位基因序列并分别标记为A、B、C、D、E、F等等。然后对于基因型
模拟190个拷贝的等位基因A;对于基因型
模拟100个拷贝的等位基因A和90个拷贝的等位基因B;对于基因型
模拟180个拷贝的等位基因A和10个拷贝的等位基因B;对于基因型
模拟90个拷贝的等位基因A、90个拷贝的等位基因B和10个拷贝的等位基因C。
其它不同核型染色体或染色体片段上的多态性位点的等位基因数量及其各个等位基因的基因组拷贝数可以按类似的方法模拟得到。
3.模拟特定的样本:每一个样本根据实验目的模拟不同的几号染色体,而每一号染 色体或染色体片段按上述步骤2模拟至少100个多态性位点,而每个位点根据基因型的不同模拟相应的不同等位基因的基因组拷贝数,其中每一个多态性位点的所有等位基因拷贝数对应于在正常双体-双体核型下的200个基因组拷贝。
4.模拟高通量测序结果:以每一个样本模拟的不同多态性位点的基因组拷贝序列为输入文件,利用ART模拟软件(Huang,Li et al.2012,Bioinformatics 28:593-594)模拟高通量测序结果。
5.测序数据分析:对于每一个测序序列,首先过滤低质量序列,然后在经过过滤的测序序列中从头到尾寻找每一个多态性位点的定位索引。如果找到不少于一个的多态性位点的定位索引,则将该序列定位到特定的多态性位点,否则则丢弃该序列。最后对于每一个定位到特定的多态性位点的序列,从头到尾寻找该多态性位点的等位基因计数索引。如果找到不少于一个的等位基因计数索引,则选择其中的一个等位基因计数索引并将该序列标记为该多态性位点的该等位基因,否则则丢弃该序列。
6.统计每一个多态性位点的各个等位基因计数:对每一个样本,统计每一个多态性位点的每一个等位基因的测序序列数,即为每一个多态性位点的各个等位基因的计数。
实施例4、估算一个多态性位点中检测到的高于噪声阈值的等位基因数量
选定一个多态性位点,其各个等位基因的计数按从大到小排列,分别标记为R1、R2、R3、…、Rn或R
1、R
2、R
3、…、R
n,而其各个等位基因的总计数为各个等位基因计数的和,标记为TC
假设样本的噪声阈值为α,对于某一个多态性位点如果其某一个等位基因的计数小于TC×α,则将该等位基因计数标记为噪声,而该多态性位点没有标记为噪声的等位基因数量为该位点的高于噪声阈值的等位基因数量。比如,多态性位点4个等位基因计数分别为27、3552、5809和11,则TC=27+3552+5809+11=9399,R1=5809,R2=3552,R3=27和R4=11。假如设定噪声阈值α=0.01,则截止阈值(Th)=TC×α=93.99。由于R1和R2均大于93.99而R3和R4均小于93.99,故该位点的高于噪声阈值的等位基因为R1和R2,而该位点的高于噪声阈值的等位基因数量为2。
优选的,将一个多态性位点各个等位基因的计数按从大到小排列并标记为R1、R2、…、Rn后,按照以下步骤估算该多态性位点中检测到的高于噪声阈值的等位基因数量:
(1)设定测序的噪声阈值为α;
(2)计算
(3)如果C
i-1≥α并且C
i<α,则估计该多态性位点有i-1个等位基因。
比如,对于一个多态性位点,如果i=3,C
2=R2/(R1+R2)≥α并且C
3=R3/(R1+R2+R3)<α,那么估计该位点有i-1=2个检测到的高于噪声阈值的等位基因。比如,多态性位点4个等位基因计数分别为27、3552、5809和11,则TC=27+3552+5809+11=9399,R1=5809,R2=3552,R3=27和R4=11。假如设定噪声阈值α=0.01,则截止阈值α=0.01。由于C
1=R1/R1=1.0,C
2=R2/(R1+R2)=0.38,C
3=R3/(R1+R2+R3)=0.003和C
4=R4/(R1+R2+R3+R4)=0.001。由于C
2大于等于0.01而C
3小于0.01,故该位点的高于噪声阈值的等位基因为R1和R2,而该位点的高于噪声阈值的等位基因数量为2。
实施例5、估算一个多态性位点中各个等位基因总计数(TC)
一个多态性位点中各个等位基因的总计数(TC)可以按照下列任何一种方法计算:
(1)一个多态性位点,将其各个等位基因的计数求和,得到该多态性位点中各个等位基因的总计数;
(2)一个多态性位点,首先按照实施例4所述的方法计算其检测到的高于噪声阈值的等位基因数量,则该多态性位点中各个等位基因的总计数为各个高于噪声阈值的等位基因计数的和;
(3)根据样本特性,考虑该样本中该多态性位点最多可能有几个等位基因(设为k),则该多态性位点中各个等位基因的总计数为其最大的k个等位基因计数的和,即
实施例6、利用等位基因计数估算血浆cfDNA样本中一个多态性位点的可能基因型
对于是胎儿亲生母亲的孕妇(亲生孕妇),其血浆cfDNA中母亲和胎儿均为正常双体核型的染色体上每一个多态性位点的基因型只能是5种基因型之一(不考虑母亲和/或胎儿是嵌合基因型和/或胎儿由于各种原因没有遗传母亲的基因型的情况)。对于每一个多态性位点,首先按照实施例4所述的方法计算其检测到的高于噪声阈值的等位基因数量,然后可以根据以下步骤估算该多态性位点的可能基因型:
(1)设定测序的噪声阈值为α;
(2)判断高于噪声阈值的等位基因数量,如果判断结果是1,则执行下述步骤(3);如果判断结果为2,则执行下述步骤(4);如果判断结果为大于2,则执行下述步骤(8);
(3)估算该多态性位点的基因型为AA|AA,然后执行下述步骤(11);
(4)判断R1/(R1+R2)的值,如果判断结果为小于0.5+α,则执行下述步骤(5);如果判断结果为大于等于0.5+α并且小于0.75,则执行下述步骤(6);如果判断结果为大于等于0.75,则执行下述步骤(7);
(5)估算该多态性位点的基因型为AB|AB,然后执行下述步骤(11);
(6)估算该多态性位点的基因型为AB|AA,然后执行下述步骤(11);
(7)估算该多态性位点的基因型为AA|AB,然后执行下述步骤(11);
(8)判断R2/R1的值,如果判断结果为小于0.5,则执行下述步骤(9);如果判断结果为大于等于0.5,则执行下述步骤(10);
(9)标记该多态性位点为异常值,然后或者估算该多态性位点的基因型为NA,并执行下述步骤(11);或者执行上述步骤(4);
(10)估算该多态性位点的基因型为AB|AC,然后执行下述步骤(11);
(11)输出估算的该多态性位点的基因型。
实施例7、估算亲生孕妇血浆cfDNA样本中多态性位点来源于胎儿DNA的计数(FC)
选定一个多态性位点,首先按照实施例5所述的方法估计来源于孕妇和胎儿DNA的总计数(TC),然后按照实施例6所述的方法估算该多态性位点的可能基因型,并根据以下步骤估算该多态性位点来源于胎儿DNA的计数(FC):
(1)如果该多态性位点的基因型为AA|AA,则FC估算为NA;
(2)如果该多态性位点的基因型为AA|AB,则FC估算为2.0×R2;
(3)如果该多态性位点的基因型为AB|AA,则FC估算为R1-R2;
(4)如果该多态性位点的基因型为AB|AB,则FC估算为NA;
(5)如果该多态性位点的基因型为AB|AC,则FC估算为R1-R2+R3或2.0×R3;
(6)如果该多态性位点的基因型不是上述任何一种基因型,则FC估算为NA。
实施例8、估算混合样本中最少组分DNA的浓度(f)
选定多个多态性位点,然后根据以下步骤估算样本中最少组分DNA的浓度:
(1)按照实施例5所述的方法估计每一个多态性位点来源于所有样本DNA的总计数(TC);
(2)按照实施例6和实施例7所述的方法估算每一个多态性位点来源于最少组分DNA的计数(FC);
(3)根据对各个多态性位点的FC和TC计数,利用线性回归或稳健线性回归计算样本中最少组分DNA的浓度,或者利用FC和TC的平均数或中位数计算样本中最少组分DNA的浓度。
图1是按实施例8所述估计亲生孕妇血浆cfDNA样本中胎儿DNA的浓度流程图。
实施例9、根据两个样本的混合物中最少组分的样本浓度f估计多态性位点中各个等
位基因的期望计数
对于亲生孕妇血浆cfDNA样本,这里两个样本分别指的是母体cfDNA和胎儿cfDNA, 其中最少组分是胎儿cfDNA组分而最大组分是母体cfDNA组分;对于两个独立基因组样本混合物,最少组分是指占比较少的样本的DNA组分而最大组分是占比较大的DNA组分;对于经法律许可接受赠卵的孕妇血浆cfDNA样本,最少组分是胎儿cfDNA组分而最大组分是母体cfDNA组分。
选定一个多态性位点,首先按照实施例5所述的方法估计该多态性位点来源于两个样本DNA的总计数(TC)。如果最少组分的浓度为f,则另一个最大组分样本的浓度为1-f。对于任意一个多态性位点的基因型,根据以下步骤估算该多态性位点各个等位基因的理论期望计数:
(1)对于来源于最大组分样本中的每一个染色体位置的等位基因,标记其相对值为1-f;
(2)对于来源于最少组分样本中的每一个染色体位置的等位基因,标记其相对值为f;
(3)计算该多态性位点中每一个等位基因的相对总值和所有等位基因的相对总值;
(4)对每一个等位基因,计算其等位基因的相对总值相对于所有等位基因相对总值的比例,然后将该比例乘以TC得到该等位基因的理论期望计数。
比如对于亲生孕妇血浆DNA样本,假设胎儿DNA浓度为f,对于任意一个多态性位点,其各个等位基因的总计数标记为TC。则对于基因型AA|AA的多态性位点,其来源于最大组分样本(母亲DNA)中的染色体位置有两个,分别为A和A(竖线前标记),而其来源于最少组分样本(胎儿DNA)中的染色体位置有两个,分别为A和A(竖线后标记)。则等位基因A的相对总值为(1-f)+(1-f)+f+f=2,而所有等位基因的相对总值为(1-f)+(1-f)+f+f=2;比例为2/2=1,因此等位基因A的理论期望值为TC*1=TC。对于基因型AB|AC,所有等位基因的相对总值为(1-f)+(1-f)+f+f=2;等位基因A的相对总值为(1-f)+f=1,比例为1/2,则其理论期望值为1/2×TC=TC/2;等位基因B的相对总值为1-f,比例为(1-f)/2,则其理论期望值为(1-f)/2×TC;等位基因C的相对总值为f,比例为f/2,则其理论期望值为f/2×TC。对于核型为双体-三体染色体上的多态性位点基因型AB|AAB,所有等位基因的相对总值为(1-f)+(1-f)+f+f+f=2+f;等位基因A的相对总值为(1-f)+f+f=1+f,比例为(1+f)/(2+f),则其理论期望值为(1+f)/(2+f)×TC;等位基因B的相对总值为1-f+f=1,比例为1/(2+f),则其理论期望值为1/(2+f)×TC。其他基因型的理论期望计数可以用类似的方法得到。
比如对于经法律许可接受赠卵的孕妇血浆DNA样本,假设胎儿DNA浓度为f,对于任意一个多态性位点,其各个等位基因的总计数标记为TC。对于基因型AB|AC,所有等位基因的相对总值为(1-f)+(1-f)+f+f=2;等位基因A的相对总值为(1-f)+f=1,比例为1/2,则其理论期望值为1/2×TC=TC/2;等位基因B的相对总值为1-f,比例为(1-f)/2,则其理论期望 值为(1-f)/2×TC;等位基因C的相对总值为f,比例为f/2,则其理论期望值为f/2×TC。对于基因型AA|BC,所有等位基因的相对总值为(1-f)+(1-f)+f+f=2;等位基因A的相对总值为(1-f)+(1-f)=2-2f,比例为(2-2f)/2=1-f,则其理论期望值为(1-f)×TC;等位基因B的相对总值为f,比例为f/2,则其理论期望值为f/2×TC;等位基因C的相对总值为f,比例为f/2,则其理论期望值为f/2×TC。其他基因型的理论期望计数可以用类似的方法得到。
实施例10、对多态性位点的等位基因计数进行拟合优度检验
选定一个多态性位点,根据以下步骤对该位点可能的基因型进行拟合优度检验:
(1)计算该多态性位点各个等位基因的计数,并按从大到小顺序标记为观察计数O
1、O
2、…、O
m;
(2)按照实施例9所述的方法计算其各个等位基因的期望计数,并按从大到小顺序分别标记为E
1、E
2、…、E
n;
(3)利用各个等位基因的观察计数和期望计数,进行拟合优度检验。
上述步骤(3)中的拟合优度检验,可以但不限于用Fisher精确检验、二项分布检验、卡方检验或G检验来进行拟合优度检验。
例如,对某一个基因型来说,如果各个等位基因观察计数值分别为O
1、O
2和O
3,而期望的计数值分别为E
1、E
2和E
3,则G检验的拟合优度可以计算为:
或者
其中,df是自由度。
优选地,如果观察的等位基因计数个数小于期望的等位基因计数个数,则缺失的观察的等位基因计数设定为一个很小的数值,比如0.1;如果期望的等位基因计数个数小于观察到的等位基因个数,则缺失位置的期望值设定为一个很小的数值或背景噪音值,比如5或者TC×α。
比如,如果观察到某多态性位点的两个等位基因计数值分别为4105和577,胎儿DNA浓度f=0.25,而噪声阈值设定为α=0.01,则O
1=4105,O
2=577,TC=4105+577=4682。为了判断该多态性位点的各个等位基因计数对哪个基因型有最好的拟合,将观察到的各个等位基因计数对该多态性位点所有可能基因型各个等位基因的理论计数进行拟合优度检验。该多态性位点对基因型AA|AA、AA|AB和AB|AC的拟合优度检验结果示例如下:
基因型AA|AA:自由度df=1,期望的等位基因计数分别为E
1=TC×(1-α)=4682×(1-0.01)=4635.18,E
2=TC×α=46.82;则G=1901.045,AIC=G-2×df=1899.045。或者自由度df=0,期望的等位基因计数分别为E
1=TC=4682,E
2=0(舍去);则G=0.0,AIC=G-2×df=0.0。
基因型AA|AB:自由度df=1,期望的等位基因计数分别为E
1=TC×(2-f)/2=4682×(2-0.25)/2=4096.75,E
2=TC×f/2=4682×0.25/2=585.25;则G=0.1334,AIC=G-2×df=-1.8666。
基因型AB|AC:自由度df=2,由于期望有三个等位基因而只有两个等位基因的观察计数,则O
3设定为一个很小的值,比如设定O
3=0.1,而期望的等位基因计数分别为E
1=TC×1/2=4682×1/2=2341,E
2=TC×(1-f)/2=4682×(1-0.25)/2=1755.75,E
3=TC×f/2=4682×0.25/2=585.25则G=3325.046,AIC=G-2×df=3321.046。
另外,也可以全部用相同的等位基因计数个数来进行拟合优度检验。由于该多态性位点最多可能有三个等位基因,因此观察到的等位基因计数和期望的等位基因计数均保留最大的三个值,其中观察到的等位基因计数可以用小值补位,而期望的等位基因计数可以用阈值补位。比如对上述两个观察的等位基因值拟合基因型AA|AB,则设定O
3=0.1,E
3=TC×α=46.82,df=2,因此E
1=TC×(1-α)×(2-f)/2=4055.783,E
2=TC×(1-α)×f/2=579.398;G=94.24,AIC=G-2×df=90.24。
实施例11、利用样本的混合物中最少组分的样本浓度f和一个多态性位点的等位基
因计数估算该多态性位点的可能基因型
对于一个多态性位点,根据以下步骤估算该多态性位点的基因型:
(1)按照实施例10所述的方法用观测到的各个等位基因计数对每一种可能的基因型各个等位基因的理论计数分别进行拟合优度检验;
(2)选择对观测到的各个等位基因计数有最优拟合优度检验的基因型标记为该多态性位点的基因型。
实施例12、利用两个独立样本的混合物中最少组分的样本浓度f和一个多态性位点
的各个等位基因计数及其基因型估算该多态性位点中来源于最少组分样本的计数(FC)
在两个独立样本的混合物中,最少组分样本的浓度为f,则最大组分样本的浓度为1-f,各个等位基因计数按由大到小排列分别标记为R1、R2、R3和R4,然后根据以下步骤估算该多态性位点来源于最少组分的计数(FC):
(1)如果该多态性位点的基因型为AA|AA,则FC估算为NA;
(2)如果该多态性位点的基因型为AA|AB,则FC估算为2.0×R2;
(3)如果该多态性位点的基因型为AB|AA,则FC估算为R1-R2;
(4)如果该多态性位点的基因型为AB|AB,则FC估算为NA;
(5)如果该多态性位点的基因型为AB|AC,则FC估算为R1-R2+R3或2.0×R3;
(6)如果该多态性位点的基因型为AA|BB,则FC估算为R2;
(7)如果该多态性位点的基因型为AA|BC,则FC估算为R2+R3或2.0×R2或2.0×R3;
(8)如果该多态性位点的基因型为AB|CC,则判断是否f>1/3,如果判断结果为是,则FC估算为R1;如果判断结果为否,则FC估算为R3;
(9)如果该多态性位点的基因型为AB|CD,则FC估算为R3+R4或2.0×R3或2.0×R4;
(10)如果该多态性位点的基因型不是上述任何一种基因型,则FC估算为NA。
实施例13、利用多态性位点的等位基因计数估算两个样本的混合物中最少组分的样
本浓度
选定多个多态性位点,然后根据以下步骤估算两个独立样本的混合物中最少组分的样本浓度:
(1)设定背景噪声值α,浓度精度值ε和初始浓度值f
0;
(2)按照实施例11所述的方法估计每一个多态性位点的基因型;
(3)按照实施例7或实施例12所述的方法估计混合物中每一个多态性位点来源于最少组分样本DNA的总计数(FC);
(4)按照实施例5所述的方法估算每一个多态性位点的来源于两个样本的总计数(TC);
(5)根据对各个多态性位点的FC和TC计数,按照实施例8所述的方法估算混合样本中最少组分DNA的浓度;
(6)判断|f-f
0|是否小于ε,如果判断结果为是,则混合物中最少组分的浓度为f;如果判断结果为否,则设定f
0=f,然后执行步骤(2)。
对于经法律许可接受赠卵的孕妇血浆DNA样本,最少组分为胎儿DNA,最大组分为母亲DNA。由于胎儿没有遗传经法律许可接受赠卵的孕妇染色体上的遗传物质,经法律许可接受赠卵的孕妇血浆DNA中每一个多态性位点均可能是九种基因型中的一种(不考虑母亲和/或胎儿有染色体非整倍性或染色体片段拷贝数变异和/或母亲和/或胎儿是嵌合基因型和/或胎儿由于各种原因有其它非二倍体核型对应的基因型的情况),其中胎儿DNA的浓度可以按上述步骤通过迭代来估计。
对于亲生孕妇血浆DNA样本,最少组分为胎儿DNA,最大组分为母亲DNA。由于胎儿遗传了亲生母亲染色体上的遗传物质,亲生孕妇血浆DNA中每一个多态性位点均可能是五种基因型中的一种(不考虑母亲和/或胎儿有染色体非整倍性或染色体片段拷贝数变异和/或母 亲和/或胎儿是嵌合基因型和/或胎儿由于各种原因没有遗传母亲的基因型的情况),其中胎儿DNA的浓度可以按上述步骤通过迭代来估计。
图2是按实施例13所述估计经法律许可接受赠卵的孕妇血浆DNA样本中胎儿DNA浓度的流程图。
实施例14、利用模拟的对孕妇血浆DNA样本多态性位点的测序估计胎儿DNA浓度
下面以模拟的孕妇血浆cfDNA中的5个假想的多态性位点的各个等位基因计数为例,简要说明利用等位基因计数相对比例法估算该样本中胎儿DNA浓度的方法及步骤。
(1)模拟参照基因组上多个多态性位点的测序结果
选定参照基因组上的多态性位点,分别标记为Id001-Id005。假设按照实施例3所述模拟的5个多态性位点的各个等位基因计数结果如表1。在假想的孕妇血浆cfDNA中,参照基因组被认为是在母体和胎儿均为正常双体核型的染色体区域,因此每一个多态性位点理论上最多包含3个等位基因。这里每一个位点显示了最多五个等位基因的计数(其中一些等位基因计数代表样本处理、测序等过程中的系统噪声)。应当理解,每一个多态性位点可能检测到包含多个等位基因,对每一个等位基因均应该进行计数统计。
表1:假想的五个多态性位点的各个等位基因计数
(2)按照实施例6和实施例7所述的方法估计每一个多态性位点计数中来源于胎儿DNA的计数
由于在孕妇血浆cfDNA中每一个多态性位点理论上最多只能有三个等位基因,因此对每一个多态性位点的等位基因计数按由大到小的顺序排序并分别标记其中最大的三个数为R1、R2和R3。结果见表2。
表2:假想的经排序的五个多态性位点的各个等位基因计数。
位点编号 | R1 | R2 | R3 |
Id001 | 14127 | 35 | 0 |
Id002 | 4105 | 577 | 13 |
Id003 | 3148 | 3101 | 54 |
Id004 | 5809 | 3552 | 27 |
Id005 | 4007 | 3028 | 1011 |
设定测序的噪音阈值为α=0.01。计算每一个多态性位点中理论上来源于胎儿DNA的扩增计数(FC)和来源于母亲和胎儿DNA的总计数(TC)。
对于位点Id001,R2/(R1+R2)=35/(14127+35)=0.002<0.01,等位基因数量估计为一个,基因型估计为AA|AA,FC=NA,TC=R1=14127。
对于位点Id002,R2/(R1+R2)=577/(4105+577)=0.123≥0.01,R3/(R1+R2+R3)=13/(4105+577+13)=0.003<0.01,等位基因数量估计为两个。因为R1/(R1+R2)=0.877≥0.75,则基因型估计为AA|AB,FC=2×R2=1154,TC=R1+R2=4682。
对于位点Id003,R2/(R1+R2)=0.496≥0.01,R3/(R1+R2+R3)=0.009<0.01,等位基因数量估计为两个,因为R1/(R1+R2)=0.504<0.5+α,基因型估计为AB|AB,FC=NA,TC=R1+R2=6249。
对于位点Id004,R2/(R1+R2)=0.379≥0.01,R3/(R1+R2+R3)=0.003<0.01,等位基因数量估计为两个,因为0.5+α≤R1/(R1+R2)=0.621<0.75,基因型估计为AB|AA,FC=R1-R2=2257,TC=R1+R2=9361。
对于位点Id005,R2/(R1+R2)=0.430≥0.01,R3/(R1+R2+R3)=0.126≥0.01,等位基因数量估计为两个,因为R2/R1=0.756≥0.5,基因型估计为AB|AC,FC=R1-R2+R3=1990,TC=R1+R2+R3=8046。
(3)估计胎儿DNA的浓度
利用R软件和线性回归或稳健线性回归计算样本中胎儿DNA的浓度,或者利用FC和TC的平均数或中位数计算样本中胎儿DNA的浓度。结果见表3。
(a)输入FC和TC的值
FC=c(NA,1154,NA,2257,1990)
TC=c(14127,4682,6249,9361,8046)
(b)利用线性回归计算胎儿DNA的浓度
lmfit=lm(FC~TC+0)
f=lmfit$coefficients["TC"]
(c)利用稳健回归计算胎儿DNA的浓度
library(MASS)
rlmfit=rlm(FC~TC+0,maxit=1000)
f=rlmfit$coefficients["TC"]
(d)利用FC和TC的平均数或中位数计算样本中胎儿DNA的浓度
(d1)f=median(FC/TC,na.rm=T)
(d2)f=median(FC[c(2,4,5)])/median(TC[c(2,4,5)])
(d3)f=mean(FC/TC,na.rm=T)
(d4)f=mean(FC[c(2,4,5)])/mean(TC[c(2,4,5)])
(e)胎儿DNA浓度计算结果见表3。
表3:用不同的方法估算样本中胎儿DNA的浓度。
估算方法 | 估计的胎儿DNA浓度 |
线性回归(b) | 0.2441 |
稳健回归(c) | 0.2441 |
比值的中位数(d1) | 0.2465 |
比值的平均值(d3) | 0.2450 |
中位数的比值(d2) | 0.2473 |
平均数的比值(d4) | 0.2445 |
实施例15、利用模拟的对经法律许可接受赠卵的孕妇血浆cfDNA样本多态性位点的
测序估计胎儿DNA浓度
下面以模拟的经法律许可接受赠卵的孕妇血浆cfDNA中的9个假想的多态性位点的各个等位基因计数为例,简要说明利用等位基因计数迭代拟合基因型法估算该样本中胎儿DNA浓度的方法及步骤。
(1)模拟经法律许可接受赠卵的孕妇血浆cfDNA样本参照基因组上多个多态性位点各个等位基因计数的测序结果
选定参照基因组上的多态性位点,分别标记为Id001-Id009。假设按照实施例3所述模拟的9个多态性位点的各个等位基因计数结果如表4。在假想的经法律许可接受赠卵的孕妇血浆cfDNA中,参照基因组被认为是在母体和胎儿均为正常双体核型的染色体区域,因此每一个多态性位点理论上最多包含4个等位基因。这里每一个位点显示了最多五个等位基因的计数。应当理解,每一个多态性位点可能检测到包含多个等位基因,对每一个等位基因均应该进行计数统计。
表4:假想的九个多态性位点的等位基因计数。
(2)按实施例13所述的方法迭代估计胎儿DNA的浓度
由于在经法律许可接受赠卵的孕妇血浆中每一个多态性位点理论上最多只能有四个等位基因,因此对每一个多态性位点的等位基因计数按由大到小的顺序排序并分别标记其中最大的四个数为R1、R2、R3和R4;然后设定测序的噪音阈值为α=0.01,迭代精度值ε=0.001,胎儿浓度初始估计值f
0=0.10;最后按下述步骤计算胎儿DNA的浓度。
步骤(a)对每一个多态性位点,根据各个等位基因计数和f
0,按照实施例11和实施例12所述的方法估计该位点的基因型,以及理论上来源于胎儿DNA的扩增计数(FC)和来源于母亲和胎儿DNA的总计数(TC)。
例如,对于位点编号Id0006,R1到R4分别为3322、936、36和28,则O
1=3322、O
2=936、O
3=36和O
4=28。由于R2/(R1+R2)≥0.01并且R3/(R1+R2+R3)<0.01,故该位点有两个检测到的高于噪声阈值的等位基因数量。
对该位点的所有可能基因型进行拟合优度检验如下:
AA|AA:TC=R1+R2=4258,E
1=(1-α)×TC=4215.42,E
2=α×TC=42.58,
AA|AB:TC=R1+R2=4258,E
1=(1-f
0/2)×TC=4045.10,E
2=f
0/2×TC=212.90,
AB|AA:TC=R1+R2=4258,E
1=(1+f
0)/2×TC=2341.90,E
2=(1-f
0)/2×TC=1916.10,
AB|AB:TC=R1+R2=4258,E
1=1/2×TC=2129.00,E
2=1/2×TC=2129.00,
AB|AC:TC=R1+R2+R3=4294,E
1=1/2×TC=2147.00,E
2=(1-f
0)/2×TC=1932.30,E
3=f
0/2×TC=214.70,
AA|BB:TC=R1+R2=4258,E
1=(1-f
0)×TC=3832.20,E
2=f
0×TC=425.80,
AA|BC:TC=R1+R2+R3=4294,E
1=(1-f
0)×TC=3864.60,E
2=f
0/2×TC=214.70, E
3=f
0/2×TC=214.70,
AB|CC:TC=R1+R2+R3=4294,E
1=(1-f
0)/2×TC=1932.30,E
2=(1-f
0)/2×TC=1932.30,E
3=f
0×TC=429.40,
AB|CD:TC=R1+R2+R3+R4=4322,E
1=(1-f
0)/2×TC=1944.90,E
2=(1-f
0)/2×TC=1944.90,E
3=f
0/2×TC=216.10,E
4=f
0/2×TC=216.10,G
AB|CD=1944.34。
由于G
AA|BB<G
AB|AA<G
AB|AC<G
AB|AB<G
AA|AB<G
AA|BC<G
AB|CD<G
AB|CC<G
AA|AA,因此位点Id006的基因型估计为AA|BB。然后根据实施例12所述的方法估算FC=R2=936,TC=R1+R2=4258。
按照相同的规则,对上述9个位点分别估计FC和TC值。
步骤(b)利用各个多态性位点的FC和TC值,按照实施例8所述的方法估算胎儿DNA浓度f。
步骤(c)判断f-f
0的绝对值是否小于ε,如果判断结果为是,则输出胎儿DNA浓度为f,计算结束;如果判断结果为否,则设定f
0=f,然后执行上述步骤(a)。
对上面示例迭代执行的结果见下表5。
表5:胎儿DNA浓度的迭代参数估计值。
迭代序数 | 初始f 0 | 重新计算f | |f-f 0| |
1 | 0.1 | 0.2385 | 0.1385 |
2 | 0.2385 | 0.2436 | 0.0051 |
3 | 0.2436 | 0.2436 | 0 |
因此该示例中胎儿DNA的浓度估计为f=0.2436。
实施例16、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数估
算该位点的基因型
按照实施例3所述模拟孕妇血浆cfDNA样本中一组参照组多态性位点和2个目标组多态性位点。假设利用一组参照基因组多态性位点按照实施例14所述的方法估计胎儿DNA的浓度f=0.20,而目标组两个多态性位点各个等位基因计数分别为A:16994,1896,23;B:9146,7355,1892,58。如果母亲和胎儿的位点A和位点B所在的染色体均为正常的双体且没有影响到位点A和位点B的大片段插入或缺失变异,则位点A和位点B均只能是以下五种基因型的一种,即AA|AA、AA|AB、AB|AA、AB|AB和AB|AC。下面以位点A和位点B的上述等位基因计数结果为例按照实施例11所述的方法来分别估计它们最可能的基因型。
对位点A和位点B所有可能的基因型利用G检验进行拟合优度检验,结果见下表6。
表6:利用拟合优度检验估算靶位点的基因型。
从表6结果可以看出,位点A对基因型AA|AB有最优的拟合优度检验结果而位点B对基因型AB|AC有最优的拟合优度检验结果,因此估计位点A的基因型为AA|AB,而位点B的基因型为AB|AC。
实施例17、利用样本混合物中最少组分的样本浓度f和目标区域内一组多态性位点
的等位基因计数估算待测目标的核型
利用目标区域内多个多态性位点和综合拟合优度检验估计待测目标染色体或亚染色体片段的核型,其主要步骤如下:
(1)分析待测样本,列出样本在目标区域内所有可能的核型;
(2)对于每一个可能的核型,列出目标区域内各个多态性位点所有可能的对应于该核型的基因型;
(3)对每一个目标区域内的多态性位点,按照实施例11所述的方法对每个核型选择一个有最优拟合的基因型;
(4)综合分析目标区域内的所有多态性位点对所有核型的拟合优度检验结果,将多态性位点综合拟合最好的核型作为待检测目标(染色体或亚染色体片段)的核型。
实施例18、利用孕妇血浆DNA样本中胎儿DNA浓度f和待分析的染色体或亚染色体
水平区域内一组多态性位点的等位基因计数估算待分析区域内染色体水平的非整倍性变异或
亚染色体水平的缺失重复变异
按照实施例3所述模拟2个孕妇血浆cfDNA样本,其中每个样本模拟一组参照组多态 性位点和一组来源于特定染色体或亚染色体片段的目标区域内的多态性位点。假设利用一组参考基因组多态性位点按照实施例14所述的方法估计两个样本中胎儿DNA的浓度均为f=0.20,样本1和样本2中目标区域的一组多态性位点的各个等位基因计数如下表7。
表7:假想的两个样本中待测目标染色体上一组多态性位点的等位基因计数。
假设样本1和样本2中目标区域的一组多态性位点来源于21号染色体,而我们的目标是检测样本1和样本2中胎儿是否是21三体,即这两个样本中21号染色体的核型是双体-双体(母体和胎儿的21号染色体均是正常双体)还是双体-三体(正常21号染色体双体的孕妇怀有一个21号染色体三体的胎儿)。对于双体-双体型,所有多态性位点均只能是下列5种基因型中的一种,即AA|AA、AA|AB、AB|AA、AB|AB或AB|AC。对于双体-三体型,所有多态性位点均只能是下列10种基因型中的一种,即AA|AAA、AA|AAB、AA|ABB、AA|ABC、AB|AAA、AB|AAB、AB|AAC、AB|ABC、AB|ACC或AB|ACD。对样本1和样本2中21号染色体目标区域的各一组多态性位点按照实施例17所述的方法分别按照双体-双体和双体-三体的核型利用G检验进行拟合优度检验,结果见下表8。
表8:目标区域各个多态性位点各个等位基因计数的分核型拟合优度检验结果。
对于样本1,大部分多态性位点的各个等位基因计数对双体-双体中的基因型比对双体-三体中的基因型有更好的拟合,因此样本1的核型估计为双体-双体,即母亲和胎儿均为正常双体。
对于样本2,所有的多态性位点的各个等位基因计数对三体-双体中的基因型比对双体-双体中的基因型有更好的拟合,因此样本2的核型估计为双体-三体,即母亲为正常双体,胎儿为异常的21三体。
当综合考虑多个多态性位点拟合结果的时候,既可以考虑对大多数样本具有最优拟合的核型,也可以用G值、AIC值、经修饰的G值和/或经修饰的AIC值进行判断。
比如,对样本1拟合双体-双体核型,则:
综合G值为ΣG
i=0.0+0.039+0.025+2.138+0.054=2.256
综合AIC值为ΣAIC
i=0.0+(-1.961)+(-1.975)+0.138+(-3.946)=-7.744
综合AIC/总计数值为Σ(AIC
i/TC
i)=0.0/9565+(-1.961/6472)+(-1.975/11183)+0.138/15494+(-3.946/18915)=-0.00068
综合AIC/总计数/f值为Σ(AIC
i/TC
i/f)=0.0/9565/0.2+(-1.961/6472/0.2)+(-1.975/11183/0.2)+0.138/15494/0.2+(-3.946/18915/0.2)=-0.0034。
对样本1拟合双体-三体核型,则:
综合G值为ΣG
i=319.73
综合AIC值为ΣAIC
i=309.73
综合AIC/总计数为Σ(AIC
i/TC
i)=0.02017
综合AIC/总计数/f为Σ(AIC
i/TC
i/f)=0.10087。
对于样本1,综合G值、综合AIC值、综合AIC/总计数值、综合AIC/总计数/f值对双体-双体基因型的拟合均小于相应的对双体-三体基因型的拟合,因此也可以用这些值或由其衍生的值来判断多个多态性位点各个等位基因对不同核型的拟合优劣。
当检测亚染色体水平的微缺失微重复变异时,应该考虑到母亲有可能携带纯合或杂合的亚染色体水平微缺失或微重复,因此对于受影响的每一个多态性位点所有可能的基因型都需要考虑到并利用拟合优度检验进行检测。比如,检测亚染色体水平的微缺失突变,需要检测母亲是纯合微缺失、杂合微缺失或正常而胎儿是纯合微缺失、杂合微缺失或正常的情况下所有的母亲和胎儿的可能的基因型组合。相应的,如果检测亚染色体水平的微重复突变,需要检测母亲是纯合微重复、杂合微重复或正常而胎儿是纯合微重复、杂合微重复或正常的情况下所有的母亲和胎儿的可能的基因型组合。
实施例19、利用孕妇血浆DNA样本中一组多态性位点的高通量测序结果估计样本中
胎儿DNA浓度
按照实施例1所述的方法对孕妇血浆cfDNA插入缺失标记的扩增子测序数据集中(Barrett,Xiong et al.2017,PLoS One 12:e0186771)的每一个样本,统计每一个插入缺失标记(多态性位点)中各个等位基因的计数,然后按照实施例8所述的方法对于每一个样本的每一个多态性位点,估算其来源于胎儿DNA的计数(FC)和来源于孕妇和胎儿DNA的总计数(TC),并利用每一个样本中每一个多态性位点的FC和TC,估算每一个样本中胎儿DNA的浓度。
图3是对该数据集中一个孕妇血浆cfDNA样本的分析结果。样本中每一个插入缺失多态性位点来源于胎儿DNA的计数(FC)和来源于孕妇和胎儿DNA的总计数(TC)表现为图中的一个点。利用样本中每一个多态性位点的FC和TC值和R软件包MASS库中的rlm函数进行稳健回归拟合(拟合模型:FC~TC+0)并估算胎儿DNA的浓度。rlm稳健回归拟合的结果为图中的直线,而胎儿DNA浓度则估算为该直线的斜率(TC的模型系数)。
实施例20、利用混合DNA样本中一组多态性位点的高通量测序结果估计样本中最少
组分的DNA浓度
按照实施例2所述的方法对混合样本扩增子测序数据集中(Kim,Kim et al.2019,Nat Commun 10:1047)的每一个样本,统计每一个多态性位点中各个等位基因的计数,然后按照实施例8所述的方法对于每一个样本的每一个多态性位点,估算来源于最少组分DNA的计数(FC)和来源于所有DNA的总计数(TC),并利用每一个样本中每一个多态性位点的FC和TC,估算每一个样本中最少组分DNA的浓度。
图4a是对该数据集中一个混合DNA样本进行分析的结果。样本中每一个多态性位点 来源于最少组分DNA的计数(FC)和来源于所有DNA的总计数(TC)表现为图中的一个点。利用每一个多态性位点的FC和TC值进行rlm稳健回归(模型:FC~TC+0)并估算样本中最少组分DNA的浓度。rlm稳健回归结果为图中拟合的直线,而最少组分DNA浓度则估算为该直线的斜率(TC的模型系数)。图4b是对该数据集所有混合DNA样本的分析结果。四个混合的样本在文库制备或测序水平进行了多个重复,期望的最少组分DNA浓度分别为0.01、0.02、0.10或0.20(x轴),而估计的每个样本最少组分DNA浓度为y轴。图中虚线表示直线y=x的位置。
实施例21、计算机模拟孕妇血浆DNA样本中染色体水平、亚染色体水平和短序列水
平上的变异
为了检测染色体水平、亚染色体水平或短序列水平的遗传变异,我们在染色体水平模拟了核型为双体-单体和双体-三体的变异,在亚染色体水平模拟了缺体-缺体、缺体-单体、单体-缺体、单体-单体、单体-双体、双体-单体、双体-双体、双体-三体、三体-双体、三体-三体、三体-四体、四体-三体和四体-四体的变异,在短序列水平模拟了任何一个多态性位点在正常双体-双体核型下的所有可能的基因型。对各个样本中不同多态性位点的具体模拟过程简述如下:
1.模拟含染色体单体的孕妇血浆DNA样本。
为了检测染色体水平的染色体单体非整倍性变异,我们模拟了含染色体单体的孕妇血浆DNA样本,其中每一个样本中母亲和胎儿均模拟了三对染色体,分别编号为1号(Chr01)、2号(Chr02)和3号(Chr03)。每一个样本中,1号、2号和3号染色体上均按实施例3所述的方法模拟100个多态性位点。每个样本从以下浓度中(0.02、0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45)随机选择一个浓度作为模拟的胎儿DNA浓度。
模拟的1号染色体在样本中为参照染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的2号染色体在样本中为双体-双体染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的3号染色体在样本中为双体-单体染色体,其中每一个多态性位点的基因型模拟为双体-单体基因型之一。由于缺乏一条胎儿染色体,故每个多态性位点各个等位基因的总计数为200-100f。
以每一个样本模拟的等位基因序列为输入文件,利用ART模拟软件(Huang,Li et al. 2012,Bioinformatics 28:593-594)模拟高通量测序结果,其中ART模拟软件的fold参数设定为50或100。
2.模拟含染色体三体的孕妇血浆DNA样本。
为了检测染色体水平的染色体三体非整倍性变异,我们模拟了含染色体三体的孕妇血浆DNA样本,其中每一个样本中母亲和胎儿均模拟了三对染色体,分别编号为1号(Chr01)、2号(Chr02)和3号(Chr03)。每一个样本中,1号、2号和3号染色体上均按实施例3所述的方法模拟100个多态性位点。每个样本从以下浓度中(0.02、0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45)随机选择一个浓度作为模拟的胎儿DNA浓度。
模拟的1号染色体在样本中为参照染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的2号染色体在样本中为双体-双体染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的3号染色体在样本中为双体-三体染色体,其中每一个多态性位点的基因型模拟为双体-三体基因型之一。由于多了一条胎儿染色体,故每个多态性位点各个等位基因的总计数为200+100f。
以每一个样本模拟的等位基因序列为输入文件,利用ART模拟软件模拟高通量测序结果,其中ART模拟软件的fold参数设定为50或100。
3.模拟含亚染色体微缺失的孕妇血浆DNA样本。
为了检测亚染色体水平的微缺失变异,我们模拟了含染色体微缺失的孕妇血浆DNA样本,其中每一个样本中母亲和胎儿均模拟了7对染色体,分别编号为1号(Chr01)、2号(Chr02)、3号(Chr03)、4号(Chr04)、5号(Chr05)、6号(Chr06)和7号(Chr07)。每一个样本中,1号-7号染色体上均按实施例3所述的方法模拟100个多态性位点。每个样本从以下浓度中(0.02、0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45)随机选择一个浓度作为模拟的胎儿DNA浓度。在这里,每一个微缺失区域被当成是一整条染色体,而多态性位点由该微缺失区域选取,其中在单一基因组中一条正常一条含微缺失的染色体标记为单体,而两条均含微缺失的染色体标记为缺体。
模拟的1号染色体在样本中为参照染色体,其中每一个多态性位点的基因型模拟为正 常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的2号染色体在样本中为双体-双体染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的3号染色体在样本中为双体-单体染色体,其中每一个多态性位点的基因型模拟为双体-单体基因型之一。由于一条胎儿染色体含有微缺失,故每个多态性位点各个等位基因的总计数为200-100f。
模拟的4号染色体在样本中为单体-双体染色体,其中每一个多态性位点的基因型模拟为单体-双体基因型之一。由于一条母体染色体含有微缺失,故每个多态性位点各个等位基因的总计数为100+100f。
模拟的5号染色体在样本中为单体-单体染色体,其中每一个多态性位点的基因型模拟为单体-单体基因型之一。由于一条母体染色体和一条胎儿染色体均含有微缺失,故每个多态性位点各个等位基因的总计数为100。
模拟的6号染色体在样本中为单体-缺体染色体,其中每一个多态性位点的基因型模拟为单体-缺体基因型之一。由于一条母体染色体和两条胎儿染色体均含有微缺失,故每个多态性位点各个等位基因的总计数为100-100f。
模拟的7号染色体在样本中为缺体-缺体染色体,其中每一个多态性位点的基因型模拟为缺体-缺体基因型之一。由于两条母体染色体和两条胎儿染色体均含有微缺失,故每个多态性位点各个等位基因的总计数为0,即不模拟产生特异性扩增序列或模拟产生一些随机但是不能定位到任何染色体上的序列。
以每一个样本模拟的等位基因序列为输入文件,利用ART模拟软件模拟高通量测序结果,其中ART模拟软件的fold参数设定为50或100。
4.模拟含亚染色体微重复的孕妇血浆DNA样本。
为了检测亚染色体水平的微重复变异,我们模拟了含亚染色体微重复的孕妇血浆DNA样本,其中每一个样本中母亲和胎儿均模拟了7对染色体,分别编号为1号(Chr01)、2号(Chr02)、3号(Chr03)、4号(Chr04)、5号(Chr05)、6号(Chr06)和7号(Chr07)。每一个样本中,1号-7号染色体上均按实施例3所述的方法模拟100个多态性位点。每个样本从以下浓度中(0.02、0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45)随机选择一个浓 度作为模拟的胎儿DNA浓度。在这里,每一个微重复区域被当成是两条染色体,而多态性位点由该微重复区域选取,因此在单一基因组中一条正常一条含微重复的染色体标记为三体,而两条均含微重复的染色体标记为四体。
模拟的1号染色体在样本中为参照染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的2号染色体在样本中为双体-双体染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的3号染色体在样本中为双体-三体染色体,其中每一个多态性位点的基因型模拟为双体-三体基因型之一。由于一条胎儿染色体含有微重复,故每个多态性位点各个等位基因的总计数为200+100f。
模拟的4号染色体在样本中为三体-双体染色体,其中每一个多态性位点的基因型模拟为三体-双体基因型之一。由于一条母体染色体含有微重复,故每个多态性位点各个等位基因的总计数为300-100f。
模拟的5号染色体在样本中为三体-三体染色体,其中每一个多态性位点的基因型模拟为三体-三体基因型之一。由于一条母体染色体和一条胎儿染色体均含有微重复,故每个多态性位点各个等位基因的总计数为300。
模拟的6号染色体在样本中为三体-四体染色体,其中每一个多态性位点的基因型模拟为三体-四体基因型之一。由于一条母体染色体和两条胎儿染色体均含有微重复,故每个多态性位点各个等位基因的总计数为300+100f。
模拟的7号染色体在样本中为四体-四体染色体,其中每一个多态性位点的基因型模拟为四体-四体基因型之一。由于两条母体染色体和两条胎儿染色体均含有微重复,故每个多态性位点各个等位基因的总计数为400。
以每一个样本模拟的等位基因序列为输入文件,利用ART模拟软件模拟高通量测序结果,其中ART模拟软件的fold参数设定为50或100。
5.模拟含短序列水平变异的孕妇血浆DNA样本。
为了检测短序列水平的变异,我们模拟了含短序列水平变异位点的孕妇血浆DNA样本,其中每一个样本中母亲和胎儿均模拟了2对染色体,分别编号为1号(Chr01)和2号(Chr02)。 每一个样本中,1号和2号染色体上均按实施例3所述的方法模拟100个多态性位点。每个样本从以下浓度中(0.02、0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45)随机选择一个浓度作为模拟的胎儿DNA浓度。
模拟的1号染色体在样本中为参照染色体,其中每一个多态性位点的基因型模拟为正常双体-双体基因型之一,而每个多态性位点各个等位基因的总计数为200。
模拟的2号染色体在样本中为双体-双体染色体,每个位点模拟的各个等位基因的总计数为200。对于任意一个模拟的位点,选择其中一个等位基因标记为野生型(正常型,用大写字母A代表),其余等位基因标记为突变型(分别用小写字母a、b、c或d代表),则每一个模拟的位点只能是以下14种基因型之一,分别为AA|AA、AA|Aa、Aa|AA、Aa|Aa、Aa|Ab、Aa|aa、Aa|ab、aa|Aa、aa|aa、aa|ab、ab|Aa、ab|aa、ab|ab或ab|ac。随机模拟2号染色体上100个待检测位点,而每一个位点从14种基因型中随机选择一个,然后根据设定的胎儿DNA浓度以及实施例3所述的方法按比例模拟其各个等位基因的序列。
以每一个样本模拟的等位基因序列为输入文件,利用ART模拟软件模拟高通量测序结果,其中ART模拟软件的fold参数设定为50或100。
6.模拟单一基因组样本。
为了检测单一基因组在染色体水平或亚染色体水平的变异,我们模拟了非孕妇的基因组DNA样本(比如植入前的胚胎基因组DNA样本),其中每一个样本中均模拟了五号染色体,分别编号为1号(Chr01)至5号(Chr05)。每一个样本中,1号至5号染色体上均按实施例3所述的方法模拟100个多态性位点。在这里,正常的染色体被标记为双体,每一个微缺失区域被当成是一整条染色体,而每一个微重复区域被当成是两条染色体,并且多态性位点由该微缺失/微重复区域选取。其中在单一基因组中一条正常一条含微缺失的染色体标记为单体,而两条均含微缺失的染色体标记为缺体,一条正常一条含微重复的染色体标记为三体,而两条均含微重复的染色体标记为四体。
模拟的1号染色体在样本中为正常双体染色体,其中每一个多态性位点的基因型模拟为正常双体基因型(AA或AB)之一,而每个多态性位点各个等位基因的总计数为200。
模拟的2号染色体在样本中为缺体或纯合微缺失染色体,其中每一个多态性位点的基因型模拟为正常缺体或纯合微缺失基因型
而每个多态性位点各个等位基因的总计数为0,因此不模拟产生特异性扩增序列或模拟产生一些随机但是不能定位到任何染色体上的序列。
模拟的3号染色体在样本中为单体或杂合微缺失染色体,其中每一个多态性位点的基因型模拟为单体或杂合微缺失基因型
而每个多态性位点各个等位基因的总计数为100。
模拟的4号染色体在样本中为三体或杂合微重复染色体,其中每一个多态性位点的基因型模拟为三体或杂合微重复基因型(AAA、AAB或ABC)之一,而每个多态性位点各个等位基因的总计数为300。
模拟的5号染色体在样本中为四体或纯合微重复染色体,其中每一个多态性位点的基因型模拟为四体或纯合微重复基因型(AAAA、AAAB、AABB、AABC或ABCD)之一,而每个多态性位点各个等位基因的总计数为400。
以每一个样本模拟的等位基因序列为输入文件,利用ART模拟软件模拟高通量测序结果,其中ART模拟软件的fold参数设定为50或100。
实施例22、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数检
测胎儿染色体单体异常
按照实施例21所述的方法模拟含染色体单体的孕妇血浆DNA样本,其中1号、2号和3号染色体分别为参照染色体、正常双体-双体核型的染色体和异常双体-单体核型的染色体。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号或3号染色体上各个多态性位点的等位基因计数按照实施例17所述的方法分别估算2号或3号染色体的核型。为了检测胎儿2号或3号染色体是否有染色体单体异常,我们需要考虑2号或3号染色体上的各个多态性位点的各个等位基因计数是对核型为双体-双体的基因型还是对核型为双体-单体的基因型有更好的综合拟合优度检验结果。
图5所示是利用拟合优度检验检测模拟样本中胎儿染色体的单体异常。图5a是利用综合拟合优度检验结果来检测模拟的样本中正常双体-双体核型染色体的胎儿单体异常。其中y轴AIC值是经校正的AIC值,由该位点的G检验的AIC值除以胎儿浓度再除以该位点等位基因的总计数得到。图5b是利用综合拟合优度检验结果来检测模拟的样本中双体-单体核型染色体的胎儿单体异常。对于正常染色体(2号双体-双体核型染色体),几乎所有的多态性位点对双体-双体核型的基因型有很好的拟合,但是对双体-单体核型的基因型拟合不好。对于异常染色体(3号双体-单体核型染色体),几乎所有的多态性位点对双体-单体核型的基因型有很好的拟合,但是对双体-双体核型的基因型拟合不好。因此,检测结果为胎儿2号染色体 未发现染色体单体异常而胎儿3号染色体发现染色体单体异常。
实施例23、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数检
测胎儿染色体三体异常
按照实施例21所述的方法模拟含染色体三体的孕妇血浆DNA样本,其中1号、2号和3号染色体分别为参照染色体、正常双体-双体核型的染色体和异常双体-三体核型的染色体。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号或3号染色体上各个多态性位点的等位基因计数按照实施例17所述的方法分别估算2号或3号染色体的核型。为了检测胎儿2号或3号染色体是否有染色体三体异常,我们需要考虑2号或3号染色体上的各个多态性位点的各个等位基因计数是对核型为双体-双体的基因型还是对核型为双体-三体的基因型有更好的综合拟合优度检验结果。
图6所示是利用拟合优度检验检测模拟样本中胎儿染色体的三体异常。图6a是利用综合拟合优度检验结果来检测模拟的样本中正常双体-双体核型染色体的胎儿三体异常。其中y轴AIC值是经校正的AIC值,由该位点的G检验的AIC值除以胎儿浓度再除以该位点等位基因的总计数得到。图6b是利用综合拟合优度检验结果来检测模拟的样本中双体-三体核型染色体的胎儿三体异常。对于正常染色体(2号双体-双体核型染色体),几乎所有的多态性位点对双体-双体核型的基因型有很好的拟合,但是对双体-三体核型的基因型拟合不好。对于异常染色体(3号双体-三体核型染色体),几乎所有的多态性位点对双体-三体核型的基因型有很好的拟合,但是对双体-双体核型的基因型拟合不好。因此,检测结果为胎儿2号染色体未发现染色体三体异常而胎儿3号染色体发现染色体三体异常。
实施例24、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数检
测胎儿染色体微缺失异常
按照实施例21所述的方法模拟含染色体微缺失的孕妇血浆DNA样本,其中1号至7号染色体分别为参照染色体、母亲和胎儿均正常的染色体(正常双体-双体核型的染色体)、母亲正常胎儿一条染色体含微缺失的染色体(双体-单体核型的染色体)、母亲一条染色体含微缺失胎儿正常的染色体(单体-双体核型的染色体)、母亲和胎儿均一条染色体含微缺失的染色体(单体-单体核型的染色体)、母亲一条染色体含微缺失而胎儿两条染色体均含微缺失的染色体(单体-缺体核型的染色体)和母亲和胎儿各两条染色体均含微缺失的染色体(缺体-缺体核型 的染色体)。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号至7号染色体上各个多态性位点的等位基因计数按照实施例17所述的方法分别估算2号至7号各染色体的核型。为了检测胎儿某号染色体是否有染色体微缺失异常,我们需要对每一个可能的母亲胎儿微缺失核型分别利用该染色体上的各个多态性位点的各个等位基因计数进行综合拟合优度检验,然后根据对所有多态性位点各个等位基因计数有最优综合拟合的核型判断胎儿染色体是否有微缺失异常。
图7所示是利用拟合优度检验检测模拟样本中胎儿染色体的微缺失异常。图7a是利用综合拟合优度检验结果来检测模拟的样本中单体-双体核型染色体(母亲为杂合微缺失胎儿为正常)的胎儿染色体微缺失异常。其中y轴AIC值是经校正的AIC值,由该位点的G检验的AIC值除以胎儿浓度再除以该位点等位基因的总计数得到。图7b是图7a的局部放大。图7c是利用综合拟合优度检验结果来检测模拟的样本中单体-单体核型染色体(母亲和胎儿均为杂合微缺失)的胎儿染色体微缺失异常。图7d是图7c的局部放大。对于胎儿正常的单体-双体核型的染色体,几乎所有的多态性位点对单体-双体核型的基因型有很好的拟合,但是对其它可能核型的基因型拟合不好。对于胎儿含微缺失的单体-单体核型的染色体,几乎所有的多态性位点对单体-单体核型的基因型有很好的拟合,但是对其它可能核型的基因型拟合不好。因此,图7a和图7b的检测结果为胎儿该号染色体未发现微缺失异常而图7c和图7d的检测结果为胎儿该号染色体发现微缺失异常。
实施例25、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数检
测胎儿染色体微重复异常
按照实施例21所述的方法模拟含染色体微重复的孕妇血浆DNA样本,其中1号至7号染色体分别为参照染色体、母亲和胎儿均正常的染色体(正常双体-双体核型的染色体)、母亲正常胎儿一条染色体含微重复的染色体(双体-三体核型的染色体)、母亲一条染色体含微重复胎儿正常的染色体(三体-双体核型的染色体)、母亲和胎儿均一条染色体含微重复的染色体(三体-三体核型的染色体)、母亲一条染色体含微重复而胎儿两条染色体均含微重复的染色体(三体-四体核型的染色体)和母亲和胎儿各两条染色体均含微重复的染色体(四体-四体核型的染色体)。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号至7号染色体上各个多态性位点的等位基因计数按照实施例17所述的方法分别估算2号至7号各染色体的核型。为了检测胎儿某号染色体是否有染色体微重复异常,我们需要对每一个可能的母亲胎儿微重复核型分别利用该染色体上的各个多态性位点的各个等位基因计数进行综合拟合优度检验,然后根据对所有多态性位点各个等位基因计数有最优综合拟合的核型判断胎儿染色体是否有微重复异常。
图8所示是利用拟合优度检验检测模拟样本中胎儿染色体的微重复异常。图8a是利用综合拟合优度检验结果来检测模拟的样本中三体-双体核型染色体(母亲为杂合微重复胎儿为正常)的胎儿染色体微重复异常。其中y轴AIC值是经校正的AIC值,由该位点的G检验的AIC值除以胎儿浓度再除以该位点等位基因的总计数得到。图8b是图8a的局部放大。图8c是利用综合拟合优度检验结果来检测模拟的样本中三体-三体核型染色体(母亲和胎儿均为杂合微重复)的胎儿染色体微重复异常。图8d是图8c的局部放大。对于胎儿正常的三体-双体核型的染色体,几乎所有的多态性位点对三体-双体核型的基因型有很好的拟合,但是对其它可能核型的基因型拟合不好。对于胎儿含微重复的三体-三体核型的染色体,几乎所有的多态性位点对三体-三体核型的基因型有很好的拟合,但是对其它可能核型的基因型拟合不好。因此,图8a和图8b的检测结果为胎儿该号染色体未发现微重复异常而图8c和图8d的检测结果为胎儿该号染色体发现微重复异常。
实施例26、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数检
测待分析位点的野生突变型
按照实施例21所述的方法模拟含特定短序列位点变异的孕妇血浆DNA样本,其中1号至2号染色体分别为参照染色体和含特定短序列位点变异的染色体。具体的,1号染色体中各个多态性位点选自不同的染色体区域,而2号染色体的多个多态性位点选自同一个特定的位点但是属于利用相同和/或不同的引物进行的独立扩增结果,也就是说,2号染色体上模拟的多态性位点代表了一个特定位点的不同独立重复。
为了检测特定位点的野生突变型,我们采用了两种方案:(1)直接对所有可能的野生突变基因型进行拟合优度检验并综合分析拟合优度检验结果;(2)首先估计待检测位点的不区分野生突变等位基因的情况下的基因型,然后再确定估计的基因型中各个等位基因的野生突变型,从而决定母亲和/或胎儿的各个等位基因的野生突变型。
(1)对所有可能的野生突变基因型进行拟合优度检验。(a)利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f。(b)列出2号染色体上该特定位点所有可能的野生突变基因型,即AA|AA、AA|Aa、Aa|AA、Aa|Aa、Aa|Ab、Aa|aa、Aa|ab、aa|Aa、aa|aa、aa|ab、ab|Aa、ab|aa、ab|ab和ab|ac,其中A代表野生型等位基因而a、b和c代表各个突变型等位基因。(c)对每一个野生突变基因型,根据上述步骤(a)中估算的样本中胎儿DNA的浓度f估计其各个等位基因的理论计数。(d)对每一个野生突变基因型,根据其各个等位基因的核酸序列确定其实际计数。(e)对每一个位点的独立重复,对每一个野生突变基因型进行拟合优度检验。(f)综合分析拟合优度检验的结果,选择对所有重复位点有综合最优拟合的野生突变型作为该特定位点的估计基因型。(g)根据估计的野生突变基因型确定母亲和/或胎儿的各个等位基因的野生突变型。
(2)先估计不区分野生突变等位基因的情况下的基因型,然后根据各个等位基因的野生突变核酸序列确定母亲和/或胎儿的各个等位基因的野生突变型。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号染色体上各个待检测特定短序列位点的等位基因计数按照实施例11所述的方法分别估算2号染色体上的各个特定短序列位点的基因型。为了检测胎儿是否有短序列水平的遗传学变异,比如导致某些单基因遗传病的点突变、短的插入缺失突变等,每一个待检测重复位点首先按照实施例11所述的方法估计在不考虑各个等位基因序列是否属于野生型序列的情况下的基因型,然后再根据各个等位基因的序列是否是正常野生型序列来确定该位点在母亲和胎儿是否有变异。
图9所示是利用拟合优度检验检测模拟样本中胎儿短序列位点的野生突变型。图9a是利用拟合优度检验结果来检测模拟的母亲杂合突变而胎儿正常的短序列位点的基因型(不同的点代表待测定目标靶位点的不同独立重复)。其中y轴AIC值是经校正的AIC值,由该位点的G检验的AIC值除以胎儿浓度再除以该位点等位基因的总计数得到。图9b是图9a的局部放大。结果表明,母亲为杂合而胎儿为纯合基因型(AB|AA)。进一步分析发现等位基因A为野生型而等位基因B为突变型,因此确定该位点母亲为杂合突变而胎儿为正常。图9c是利用拟合优度检验结果来检测模拟的母亲和胎儿均是杂合突变的短序列位点的基因型。图9d是图9c的局部放大。结果表明,母亲和胎儿均为杂合基因型(AB|AC)。进一步分析发现等位基因A为野生型而等位基因B和C均为突变型,因此确定该位点母亲和胎儿均为杂合突变,并且胎 儿或者产生了新发突变或者遗传了父源性的等位基因突变。
实施例27、利用样本混合物中最少组分的样本浓度f和待分析位点的等位基因计数
相对分布图估算该位点的基因型
对于一个待检测位点,根据以下步骤估算该位点的基因型:
(1)分析待测样本,列出目标靶位点所有可能的基因型;
(2)计算每一个可能基因型中各个等位基因的相对计数理论值,并对每一个基因型选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记所有可能基因型的理论位置;
(3)计算靶DNA位点的各个等位基因的相对计数,并选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点等位基因相对计数的实际位置;
(4)根据靶DNA位点在等位基因相对计数图形中的理论位置分布以及实际位置分布推断其基因型。
图10所示是孕妇血浆DNA样本中来源于正常核型染色体上的多态性位点在等位基因相对分布图上的理论分布。图10a为正常双体-双体核型染色体上的多态性位点所有可能的基因型及其各个等位基因相对计数的理论值。图10b是正常双体-双体核型染色体上的各个多态性位点其第二大的等位基因相对计数(RR2)相对于最大的等位基因相对计数(RR1)的分布。结果表明,每一个多态性位点在等位基因计数相对分布图上由于基因型不同而分布在不同的位置,根据其特定的分布位置可以推断出其基因型。
实施例28、利用样本混合物中最少组分的样本浓度f和目标区域内一组多态性位点
的等位基因计数相对分布图估算待测目标的核型
我们利用目标区域内各个多态性位点的等位基因计数相对分布图来检测待测目标在染色体水平的非整倍性或亚染色体水平的缺失重复变异,其主要步骤为:
(1)分析待测样本,列出样本在目标染色体或亚染色体片段上的所有可能的核型;
(2)对于每一个可能的核型,列出样本中该核型的染色体或亚染色体上目标组的靶DNA位点所有可能的基因型,然后对于每一个基因型选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;
(3)对每一个目标组靶DNA位点,计算其各个等位基因的相对计数并选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该位点的实际位置;
(4)根据所有靶DNA位点在等位基因相对计数图形中的理论位置分布以及实际位置分布来推断待检测目标染色体或亚染色体片段的核型。
图11所示是孕妇血浆DNA样本中母亲正常而胎儿非整倍性变异的染色体上各个多态性位点在等位基因相对分布图上的理论分布。图11a为双体-双体核型和双体-单体核型染色体上的多态性位点所有可能的基因型及其各个等位基因相对计数的理论值。图11b是双体-双体核型和双体-单体核型染色体上的各个多态性位点其第二大的等位基因相对计数(RR2)相对于最大的等位基因相对计数(RR1)的理论分布。图11c为双体-双体核型和双体-三体核型染色体上各个多态性位点所有可能的基因型及其各个等位基因相对计数的理论值。图11d是双体-双体核型和双体-三体核型染色体上的各个多态性位点其第二大或第四大的等位基因相对计数(RR2或RR4)相对于最大的等位基因相对计数(RR1)的理论分布。
图12所示是孕妇血浆DNA样本中母亲或胎儿微缺失或微重复变异的亚染色体上各个多态性位点在等位基因相对分布图上的理论分布。图12a为母亲或胎儿有微缺失核型染色体上的多态性位点所有可能的基因型及其各个等位基因相对计数的理论值。图12b是母亲或胎儿有微缺失核型染色体上的各个多态性位点其第二大的等位基因相对计数(RR2)相对于最大的等位基因相对计数(RR1)的理论分布。图12c为母亲有微重复胎儿正常的亚染色体上各个多态性位点所有可能的基因型及其各个等位基因相对计数的理论值。图12d是母亲有微重复胎儿正常的亚染色体上各个多态性位点其第二或第三大的等位基因相对计数(RR2或RR3)相对于最大的等位基因相对计数(RR1)的理论分布。
实施例29、利用样本混合物中最少组分的样本浓度f和待分析位点的野生型以及其
各个非野生型等位基因的相对计数估算该位点的野生突变型
我们利用待分析位点的野生型等位基因计数以及其各个非野生型等位基因计数来检测该位点的野生突变型,其主要步骤为:
(1)分析待测样本,列出目标靶位点的野生型序列和目标靶位点所有可能的基因型;
(2)计算每一个可能基因型中野生型等位基因和其它非野生型各个等位基因的相对计数理论值,并对每一个基因型选取至少一个非野生型等位基因相对计数理论值对野生型等位基因相对计数理论值作图来标记所有可能基因型的理论位置;
(3)计算样本中目标靶DNA位点的野生型等位基因和其它非野生型各个等位基因的相对计数,并选取至少一个非野生型等位基因相对计数对野生型等位基因相对计数作图来标记该靶DNA 位点基因型的实际位置;
(4)根据靶DNA位点在等位基因相对计数图形中的理论位置分布以及实际位置分布推断其野生突变型。
图13所示是孕妇血浆DNA样本中正常的双体-双体染色体上的待测位点所有可能基因型的各个等位基因计数相对分布图。图13a为正常的双体-双体染色体上的待测位点所有可能的基因型及其各个等位基因相对计数的理论值。图13b为正常的双体-双体染色体上的待测位点其最大的非野生型等位基因相对计数(RR2)相对于野生型的等位基因相对计数(RR1)的理论分布图。其中,A代表野生型等位基因,a、b或c代表非野生型(突变型)等位基因。
实施例30、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数相
对分布图检测胎儿染色体单体异常
按照实施例21所述的方法模拟含染色体单体的孕妇血浆DNA样本,其中1号、2号和3号染色体分别为参照染色体、正常双体-双体核型的染色体和异常双体-单体核型的染色体。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号或3号染色体上各个多态性位点的等位基因计数按照实施例28所述的方法分别估算2号或3号染色体的核型。为了检测胎儿2号或3号染色体是否有染色体单体异常,我们需要检测2号或3号染色体是正常的双体-双体核型(母亲和胎儿均是双体)还是异常的双体-单体核型(母亲是正常的双体而胎儿是异常的单体)。因此,我们首先在等位基因计数相对分布图上分别标出所有双体-双体和双体-单体基因型的理论位置,然后根据待分析染色体上各个多态性位点在等位基因计数相对分布图上的分布来确定该染色体的核型。
图14是利用多态性位点各个等位基因计数相对分布图检测胎儿染色体的单体变异。图14a是对模拟的正常双体-双体染色体上所有多态性位点的等位基因相对计数进行作图。图14b是对模拟的双体-单体染色体上所有多态性位点的等位基因相对计数进行作图。结果表明,图14a中几乎所有的多态性位点相对计数均分布在对应的双体-双体的基因型簇周围,而在相应的双体-单体基因型簇周围几乎没有分布。而图14b中,几乎所有的多态性位点相对计数均分布在对应的双体-单体的基因型簇周围,而在相应的双体-双体基因型簇周围几乎没有分布。因此,图14a的待分析染色体核型为双体-双体型,即胎儿该染色体正常;而图14b的待分析染色体核型为双体-单体型,即胎儿该染色体为异常的单体。
实施例31、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数相
对分布图检测胎儿染色体三体异常
按照实施例21所述的方法模拟含染色体三体的孕妇血浆DNA样本,其中1号、2号和3号染色体分别为参照染色体、正常双体-双体核型的染色体和异常双体-三体核型的染色体。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号或3号染色体上各个多态性位点的等位基因计数按照实施例28所述的方法分别估算2号或3号染色体的核型。为了检测胎儿2号或3号染色体是否有染色体三体异常,我们需要检测2号或3号染色体是正常的双体-双体核型(母亲和胎儿均是双体)还是异常的双体-三体核型(母亲是正常的双体而胎儿是异常的三体)。因此,我们首先在等位基因计数相对分布图上分别标出所有双体-双体和双体-三体基因型的理论位置,然后根据待分析染色体上各个多态性位点在等位基因计数相对分布图上的分布来确定该染色体的核型。
图15是利用多态性位点各个等位基因计数相对分布图检测胎儿染色体的三体变异。图15a是对模拟的正常双体-双体染色体上所有多态性位点的等位基因相对计数进行作图。图15b是对模拟的双体-三体染色体上所有多态性位点的等位基因相对计数进行作图。结果表明,图15a中几乎所有的多态性位点相对计数均分布在对应的双体-双体的基因型簇周围,而在相应的双体-三体基因型簇周围几乎没有分布。而图15b中,几乎所有的多态性位点相对计数均分布在对应的双体-三体的基因型簇周围,而在相应的双体-单体基因型簇周围几乎没有分布。因此,图15a的待分析染色体核型为双体-双体型,即胎儿该染色体正常;而图15b的待分析染色体核型为双体-三体型,即胎儿该染色体为异常的三体。
实施例32、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数相
对分布图检测胎儿染色体微缺失异常
按照实施例21所述的方法模拟含染色体微缺失的孕妇血浆DNA样本,其中1号至7号染色体分别为参照染色体、母亲和胎儿均正常的染色体(正常双体-双体核型的染色体)、母亲正常胎儿一条染色体含微缺失的染色体(双体-单体核型的染色体)、母亲一条染色体含微缺失胎儿正常的染色体(单体-双体核型的染色体)、母亲和胎儿均一条染色体含微缺失的染色体(单体-单体核型的染色体)、母亲一条染色体含微缺失而胎儿两条染色体均含微缺失的染色体(单体-缺体核型的染色体)和母亲和胎儿各两条染色体均含微缺失的染色体(缺体-缺体核型 的染色体)。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号至7号染色体上各个多态性位点的等位基因计数按照实施例28所述的方法分别估算2号至7号各染色体的核型。为了检测胎儿某号染色体是否有染色体微缺失异常,我们需要检测该染色体是否是正常的双体-双体核型(母亲和胎儿均是双体)还是异常的含微缺失的核型之一(母亲和/或胎儿该染色体上有微缺失)。因此,我们首先在等位基因计数相对分布图上分别标出母亲和胎儿染色体可能含有微缺失的情况下所有可能基因型的位置,然后根据待分析染色体上各个多态性位点在等位基因计数相对分布图上的分布来确定该染色体的核型。
图16是利用多态性位点各个等位基因计数相对分布图检测胎儿染色体的微缺失变异。图16a是对模拟的单体-双体染色体上所有多态性位点的等位基因相对计数进行作图。图16b是对模拟的单体-单体染色体上所有多态性位点的等位基因相对计数进行作图。结果表明,图16a中几乎所有的多态性位点相对计数均分布在对应的单体-双体的基因型簇周围,而在其它核型的基因型簇周围几乎没有分布。而图16b中,几乎所有的多态性位点相对计数均分布在对应的单体-单体的基因型簇周围,而在其它核型的基因型簇周围几乎没有分布。因此,图16a的待分析染色体核型为单体-双体型,即胎儿该染色体正常不含微缺失;而图16b的待分析染色体核型为单体-单体型,即胎儿的该染色体其中一条含微缺失变异。
实施例33、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数相
对分布图检测胎儿染色体微重复异常
按照实施例21所述的方法模拟含染色体微重复的孕妇血浆DNA样本,其中1号至7号染色体分别为参照染色体、母亲和胎儿均正常的染色体(正常双体-双体核型的染色体)、母亲正常胎儿一条染色体含微重复的染色体(双体-三体核型的染色体)、母亲一条染色体含微重复胎儿正常的染色体(三体-双体核型的染色体)、母亲和胎儿均一条染色体含微重复的染色体(三体-三体核型的染色体)、母亲一条染色体含微重复而胎儿两条染色体均含微重复的染色体(三体-四体核型的染色体)和母亲和胎儿各两条染色体均含微重复的染色体(四体-四体核型的染色体)。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f 和2号至7号染色体上各个多态性位点的等位基因计数按照实施例28所述的方法分别估算2号至7号各染色体的核型。为了检测胎儿某号染色体是否有染色体微重复异常,我们需要检测该染色体是否是正常的双体-双体核型(母亲和胎儿均是双体)还是异常的含微重复的核型之一(母亲和/或胎儿该染色体上有微重复)。因此,我们首先在等位基因计数相对分布图上分别标出母亲和胎儿染色体可能含有微重复的情况下所有可能基因型的位置,然后根据待分析染色体上各个多态性位点在等位基因计数相对分布图上的分布来确定该染色体的核型。由于母亲和胎儿染色体可能含有微重复的所有基因型总数达几十上百种,而将这些基因型全部在等位基因计数相对分布图上标记出来非常不利于对各个多态性位点等位基因相对计数的分类分析,因此在这里我们只标出胎儿是正常不含有微重复的基因型的分布。如果待测染色体上各个多态性位点等位基因相对计数并没有观察到在胎儿正常基因型相对的位置聚集成簇但却在其它位置观察到聚集成簇,则意味着样本中该染色体含有胎儿微重复变异或其它类型的变异。
图17是利用多态性位点各个等位基因计数相对分布图检测胎儿染色体的微重复变异。图17a是对模拟的三体-双体染色体上所有多态性位点的等位基因相对计数进行作图。图17b是对模拟的三体-三体染色体上所有多态性位点的等位基因相对计数进行作图。结果表明,图17a中几乎所有的多态性位点相对计数均分布在对应的胎儿正常的基因型簇周围。而图17b中,所有的多态性位点相对计数明显分成几簇但是并没有聚集在胎儿正常的基因型簇周围。因此,图17a的待分析染色体中,胎儿该染色体正常不含微重复;而图17b的待分析染色体中,或者胎儿的该染色体至少其中一条含微重复变异,或者该染色体有其它类型的变异。
实施例34、利用孕妇血浆DNA样本中胎儿DNA浓度和待分析位点的等位基因计数相
对分布图检测待分析位点的野生突变型
按照实施例21所述的方法模拟含特定短序列位点变异的孕妇血浆DNA样本,其中1号至2号染色体分别为参照染色体和含特定短序列位点变异的染色体。具体的,1号染色体中各个多态性位点选自不同的染色体区域,而2号染色体的多个多态性位点选自同一个特定的位点但是属于利用相同和/或不同的引物进行的独立扩增结果,也就是说,2号染色体上模拟的多态性位点代表了一个特定位点的不同独立重复。
分析模拟样本的测序数据,首先利用1号参照染色体上的各个多态性位点的等位基因计数按照实施例8所述的方法估算样本中胎儿DNA的浓度f;然后根据样本中胎儿DNA浓度f和2号染色体上各个待检测特定短序列位点的等位基因计数按照实施例29所述的方法分别估 算2号染色体上的各个特定短序列位点的野生突变型。为了检测胎儿是否有短的遗传学变异,比如导致某些单基因遗传病的点突变、短的插入缺失突变等,每一个位点需要考虑胎儿和母亲所有可能的基因型(野生型等位基因标记为大写字母A,变异型按等位基因计数从大到小标记为小写字母a-c),包括母亲和胎儿四个基因拷贝均为非野生型变异(aa|aa、aa|ab、ab|aa、ab|ab或ab|ac)、母亲两个基因拷贝为非野生型变异而胎儿为野生突变杂合型变异(aa|Aa或ab|Aa)、母亲为野生突变杂合型变异而胎儿正常(Aa|AA)、母亲和胎儿均为野生突变杂合型变异(Aa|Aa或Aa|Ab)、母亲为野生突变杂合型变异而胎儿为非野生型变异(Aa|aa或Aa|ab)、母亲正常胎儿野生突变杂合型变异(AA|Aa)和母亲和胎儿均为正常野生型(AA|AA)。其中对每个模拟的待测定位点进行了20倍的测序水平的生物学重复。
图18是利用多态性位点各个等位基因计数相对分布图检测胎儿在短序列水平的变异。图18a是对模拟的ab|Aa基因型中多态性位点的等位基因相对计数进行作图。根据测序水平生物学重复的多态性位点在相对计数分布图上的簇状分布估计该多态性位点的基因型为ab|Aa型,即母亲是双突变型杂合变异而胎儿为野生突变型杂合变异。图18b是对模拟的Aa|ab基因型中多态性位点的等位基因相对计数进行作图。根据测序水平生物学重复的多态性位点在相对计数分布图上的簇状分布估计该多态性位点的基因型为Aa|ab型,即母亲是野生突变型杂合变异而胎儿为双突变型杂合变异。
实施例35、利用待分析位点的等位基因计数及相对分布图检测单一基因组样本的遗
传变异
我们利用目标区域各个多态性位点的等位基因计数相对分布图来检测单一基因组样本的待测目标在染色体水平的非整倍性或亚染色体水平的缺失重复变异,其主要步骤为:
(1)计算目标组每一个靶DNA位点的各个等位基因相对计数;
(2)对每一个靶DNA位点,将其第二大的等位基因相对计数对其最大的等位基因相对计数作分布图A或将其最大的等位基因相对计数对该靶DNA位点在染色体或亚染色体上的相对位置作分布图B;
(3)利用目标组各个靶DNA位点的等位基因计数相对分布图A和/或分布图B,估计单一基因组样本中待检测目标的核型。
按照实施例21所述的方法模拟单一基因组样本,其中1号至5号染色体分别为双体、缺体(或纯合微缺失)、单体(或杂合微缺失)、三体(或杂合微重复)、四体(或纯合微重复)。
为了检测单一基因组样本是否有染色体水平或亚染色体水平的变异,需要考虑以下五种情况:(1)两条染色体均缺失(缺体)或两条染色体中均有相同区域的微缺失(纯合微缺失);(2)一条染色体正常而另一条染色体缺失(单体)或另一条染色体中有微缺失(杂合微缺失);(3)两条染色体均正常;(4)三条染色体(三体)或一条染色体正常而另一条染色体中有微重复(杂合微重复);(5)四条染色体(四体)或两条染色体中均有相同区域的微重复(纯合微重复)。
图19所示是利用多态性位点各个等位基因相对计数检测单基因组样本中目标染色体或亚染色体的核型。对目标区域(染色体或亚染色体区域)上每个多态性位点,将其第二大的等位基因相对计数对其最大的等位基因相对计数作图(相对计数图A)或将其最大的等位基因相对计数对该位点在模拟的染色体上的相对位置作图(相对计数位置图B)。结果表明,不同核型染色体的基因型在相对计数图A或相对计数位置图B上有不同的特征性分布,根据这些特征性分布可以检测目标染色体或亚染色体的核型(变异类型)。
此外,除非本文另外指示或另外与上下文明显矛盾,否则本文所述的所有方法均能够以任何合适的顺序进行。本文某些实施例提供的任何和/或所有实例和/或示例性语言的使用仅旨在更好地说明本发明,而不对另外要求保护的本发明范围进行限制。说明书中的语言不应当被解释为指示任何未要求保护的要素为实践本发明所必需的。
本文披露的本发明的替代要素或实施例的组不应解释为限制。每个组成员可以单独或以与组中其他成员或本文发现的其他要素的任何组合被提及或要求保护。出于方便和/或专利性的原因,组中的一个或多个成员可以包括在组中或从组中删除。
尽管参照一个或多个具体实施方式充分详细描述了本技术,但是本领域普通技术人员应认识到可对本申请中具体公开的实施方式进行改变,而这些改良和改进在本技术的范围和精神内。因此,除了在所附权利要求的范围中之外,本发明主题不受限制。此外,在解释说明书和权利要求书时,所有术语应当以与上下文一致的尽可能广泛的方式解释。
Claims (29)
- 一种计算样本中最少组分DNA的浓度的方法,其特征在于所述方法包括如下步骤:(a1)设定样本的噪声阈值α;(a2)对每一个靶DNA位点,首先利用其各个等位基因计数估算其基因型,然后根据其估算的基因型估算来源于最少组分DNA的计数(FC)和总计数(TC);和(a3)利用各个靶DNA位点的最少组分DNA的计数(FC)和总计数(TC),估算最少组分DNA的浓度。
- 如权利要求1所述的方法,其特征在于步骤(a2)包括如下步骤:(a2-i)对靶DNA位点的各个等位基因计数进行从大到小排序,其中最大的三个等位基因计数依次标记为R1、R2和R3;(a2-ii)利用靶DNA位点的各个等位基因计数,估算该靶DNA位点的基因型;和(a2-iii)根据估算的靶DNA位点的基因型和靶DNA位点的各个等位基因计数,估算来源于最少组分DNA的计数(FC)和总计数(TC)。
- 如权利要求2所述的方法,其特征在于步骤(a2-ii)包括如下步骤:(a2-ii-1)利用靶DNA位点的各个等位基因计数,判断靶DNA位点中检测到的高于噪声阈值的等位基因数量;如果判断结果是1,则执行下述步骤(a2-ii-2);如果判断结果是2,则执行下述步骤(a2-ii-3);如果判断结果为大于2,则执行下述步骤(a2-ii-4);(a2-ii-2)估算该靶DNA位点的基因型为AA|AA,然后执行下述步骤(a2-ii-5);(a2-ii-3)根据检测到的高于噪声阈值的等位基因数量为2和靶DNA位点的最大的两个等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);(a2-ii-4)根据检测到的高于噪声阈值的等位基因数量大于2和靶DNA位点的最大的至少两个的等位基因计数,估计靶DNA位点的基因型,然后执行下述步骤(a2-ii-5);和(a2-ii-5)输出估算的该靶位点的基因型。
- 如权利要求3所述的方法,其特征在于步骤(a2-ii-3)包括如下步骤:(a2-ii-3-1)判断R1/(R1+R2)的值是否小于0.5+α,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AB,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则执行下述步骤(a2-ii-3-2);(a2-ii-3-2)判断R1/(R1+R2)的值是否小于0.75,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AA,然后执行下述步骤(a2-ii-3-3);如果判断结果为否,则估算该靶DNA位点的基因型为AA|AB,然后执行下述步骤(a2-ii-3-3);和(a2-ii-3-3)输出估算的该靶位点的基因型。
- 如权利要求3所述的方法,其特征在于步骤(a2-ii-4)包括如下步骤:(a2-ii-4-1)判断R2/R1是否大于等于0.5和/或R1/(R1+R2)是否大于等于1/2并且小于等于2/3和/或R2/(R1+R2)是否大于等于1/3并且小于等于1/2的值,如果判断结果为是,则估算该靶DNA位点的基因型为AB|AC,然后执行下述步骤(a2-ii-4-3);如果判断结果为否,则执行下述步骤(a2-ii-4-2);(a2-ii-4-2)标记该位点的等位基因计数为异常,然后或者估算该靶位点的基因型为NA,并执行下述步骤(a2-ii-4-3);或者设定该靶DNA位点中检测到的高于噪声阈值的等位基因数量为2,然后按照步骤(a2-ii-3)所述估算该靶位点的基因型,并执行下述步骤(a2-ii-4-3);和(a2-ii-4-3)输出估算的该靶位点的基因型。
- 如权利要求2所述的方法,其特征在于步骤(a2-iii)包括如下步骤:(a2-iii-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);(a2-iii-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);(a2-iii-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);(a2-iii-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);(a2-iii-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3,然后执行下述步骤(a2-iii-7);(a2-iii-6)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3,然后执行下述步骤(a2-iii-7);和(a2-iii-7)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
- 一种计算样本中最少组分DNA的浓度的方法,其特征在于所述方法包括如下步骤:(b1)设定样本的噪声阈值α、初始浓度估计值f 0和迭代误差精度值ε;(b2)对每一个靶DNA位点,利用其各个等位基因计数和样本中最少组分DNA的浓度值f 0估算其基因型;(b3)对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC);(b4)利用各个靶位点的最少组分DNA的计数(FC)和总计数(TC),估算最少组分DNA的浓度f;和(b5)判断f-f 0的绝对值是否小于ε,如果判断结果为否,则设定f 0=f,然后执行步骤(b2);如果判断结果为是,则样本中最少组分DNA浓度估算为f。
- 如权利要求7所述的方法,其特征在于步骤(b2)包括如下步骤:(b2-i)根据样本来源,列出靶DNA位点所有可能的基因型;(b2-ii)对靶DNA位点的每一个可能基因型,利用样本中最少组分DNA的浓度值f 0和靶DNA位点各个等位基因的总计数(TC),计算其各个等位基因的理论计数;(b2-iii)对靶DNA位点的每一个可能基因型,利用靶DNA位点的各个等位基因计数及其各个等位基因理论计数进行拟合优度检验;和(b2-iv)分析靶DNA位点对所有可能的基因型的拟合优度检验结果,选择对靶DNA位点各个等位基因计数有最优拟合的基因型作为估算的靶DNA位点的基因型。
- 如权利要求7所述的方法,其特征在于步骤(b3)中对每一个靶DNA位点,根据其估算的基因型来估算来源于最少组分DNA的计数(FC)和总计数(TC),其中最大的四个等位基因计数从大到小依次标记为R1、R2、R3和R4,包括如下步骤:(b3-1)如果靶位点估计的基因型是AA|AA,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-2)如果靶位点估计的基因型是AB|AB,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-3)如果靶位点估计的基因型是AB|AA,则估算来源于最少组分DNA的计数(FC)为R1-R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-4)如果靶位点估计的基因型是AA|AB,则估算来源于最少组分DNA的计数(FC)为R2的2倍,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-5)如果靶位点估计的基因型是AB|AC,则估算来源于最少组分DNA的计数(FC)为R1-R2+R3或R3的2倍或(R1-R2)的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-6)如果靶位点估计的基因型是AA|BB,则估算来源于最少组分DNA的计数(FC)为R2,估算总计数(TC)为R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-7)如果靶位点估计的基因型是AA|BC,则估算来源于最少组分DNA的计数(FC)为R2+R3或R2的2倍或R3的2倍,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-8)如果靶位点估计的基因型是AB|CC,则判断当前估计值f 0是否大于等于1/3,如果判断结果为是,则估算来源于最少组分DNA的计数(FC)为R1,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);如果判断结果为否,则估算来源于最少组分DNA的计数(FC)为R3,估算总计数(TC)为R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-9)如果靶位点估计的基因型是AB|CD,则估算来源于最少组分DNA的计数(FC)为R3+R4或R3的2倍或R4的2倍,估算总计数(TC)为R1+R2+R3+R4,然后执行下述步骤(b3-11);(b3-10)如果靶位点估计的基因型不是上述所述基因型中的一种,则估算来源于最少组分DNA的计数(FC)为NA,估算总计数(TC)为R1或R1+R2或R1+R2+R3或R1+R2+R3+R4,然后执行下述步骤(b3-11);和(b3-11)输出估算的来源于最少组分DNA的计数(FC)和总计数(TC)。
- 如权利要求1或权利要求7所述的方法,其特征在于步骤(a3)或步骤(b4)中,通过拟合回归模型估计最少组分DNA的浓度。
- 如权利要求1或权利要求7所述的方法,其特征在于在步骤(a3)或步骤(b4)中,根据FC和TC计数,利用线性回归和/或稳健线性回归和/或FC和TC的平均数和/或FC和TC的中位数计算样本中最少组分DNA的浓度。
- 如权利要求1-11中任一项所述的方法,其中所述样本为孕妇血浆样本,以及所述最少组分DNA为胎儿DNA。
- 一种检测样本遗传变异的方法,其特征在于依次包括如下步骤:(1)接收待测生物样品并制备核酸;(2)富集或扩增靶DNA位点,其中至少有一个靶DNA位点在样本中有多于一个的等位基因;(3)测序所扩增的靶DNA位点;(4)对每一个靶DNA位点,统计其各个等位基因的计数;和(5)利用靶DNA位点等位基因计数的拟合优度检验和/或等位基因计数相对分布图确定样本中待检测目标的核型或基因型或野生突变型。
- 如权利要求13所述的方法,其特征在于在步骤(5)中利用靶DNA位点等位基因计数的拟合优度检验,确定样本中待检测目标的核型或基因型或野生突变型,所述确定依次包括如下步骤:(c1)将每一个靶DNA位点根据其在染色体上的定位分为参照位点或目标位点,其中各参照位点组成参照组,和各目标位点组成目标组;(c2)利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度;和(c3)利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的核型或基因型或野生突变型。
- 如权利要求13所述的方法,其特征在于在步骤(5)中利用靶DNA位点等位基因计数相对分布图,确定样本中待检测目标的核型或基因型或野生突变型,所述确定依次包括如下步骤:(d1)将每一个靶DNA位点根据其在染色体上的定位分为参照位点或目标位点,其中各参照位点组成参照组,和各目标位点组成目标组;(d2)利用参照组各个靶DNA位点的等位基因计数,计算样本中最少组分DNA的浓度;(d3)利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的核型或基因型或野生突变型。
- 如权利要求13所述的方法,其特征在于在步骤(5)中利用靶DNA位点等位基因计数相对分布图,确定样本中待检测目标的核型,其中待检测样本是单一基因组样本,所述确定依次包括如下步骤:(e1)计算各个靶DNA位点的各个等位基因相对计数;(e2)对每一个靶DNA位点,将其第二大的等位基因相对计数对其最大的等位基因相对计数作分布图A或将其最大的等位基因相对计数对该靶DNA位点在染色体或亚染色体上的相对位置作分布图B;(e3)利用各个靶DNA位点的等位基因计数相对分布图A和/或分布图B,估计单一基因组样本中待检测目标的核型。
- 如权利要求14或权利要求15所述的方法所述的方法,其特征在于在步骤(c2)或步骤(d2)中采用如权利要求1-12中任一项所述的方法计算样本中最少组分DNA的浓度。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的基因型,所述估计依次包括如下步骤:(c3-a1)对于目标组每一个靶DNA位点,列出其所有可能的基因型;(c3-a2)对于目标组每一个靶DNA位点,对于其每一个可能的基因型,根据样本中最少组分DNA浓度和该位点各个等位基因的总计数,计算其各个等位基因的理论计数;(c3-a3)对于目标组每一个靶DNA位点,对于其每一个可能的基因型,利用靶DNA位点各个等位基因计数和其理论计数进行拟合优度检验;和(c3-a4)对于目标组每一个靶DNA位点,根据对其所有可能基因型的拟合优度检验结果,选择最优拟合的基因型为该靶DNA位点的基因型。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的核型,所述估计依次包括如下步骤:(c3-b1)分析待测样本,列出待检测目标染色体或亚染色体片段的所有可能的核型;(c3-b2)对于每一个可能的核型,列出目标组各个靶DNA位点所有可能的基因型;(c3-b3)对目标组每一个靶DNA位点,首先利用其各个等位基因计数对其所有可能的基因型进行拟合优度检验,然后对每一个可能的核型选择一个对该核型有最优拟合的基因型;和(c3-b4)综合分析所有靶DNA位点对每一个核型的拟合优度检验结果,选择对所有靶DNA位点综合拟合最好的核型作为待检测目标染色体或亚染色体片段的核型。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的野生突变型,所述估计依次包括如下步骤:(c3-c1a)对于目标组每一个靶DNA位点,列出其所有可能的野生突变基因型;(c3-c2a)对于目标组每一个靶DNA位点,对于其每一个可能的野生突变基因型,根据样本中最少组分DNA浓度和该位点各个等位基因的总计数,计算其各个等位基因的理论计数;(c3-c3a)对于目标组每一个靶DNA位点,对于其每一个可能的野生突变基因型,利用靶DNA位点各个等位基因计数和其理论计数进行拟合优度检验;和(c3-c4a)综合分析目标组所有靶DNA位点,选择对所有靶位点有最优拟合的野生突变基因型为待测目标的野生突变基因型。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法,估计样本中待检测目标的野生突变型,所述估计依次包括如下步骤:(c3-c1b)对于目标组每一个靶DNA位点,根据其各个等位基因计数和样本中最少组分DNA的浓度,采取拟合优度检验方法估计其基因型;和(c3-c2b)根据目标组每一个靶DNA位点的基因型和其各个等位基因的序列,确定样本各个组分中待测目标各个等位基因的野生突变型。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中所述拟合优度检验方法是采用卡方检验、G检验、费希尔精确检验、二项分布检验、其变体或其组合进行的。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中所述拟合优度检验方法是采用G检验的计算值G值、AIC值、经校正的G值、经校正的AIC值、G值或AIC值的变体、或其组合来进行拟合优度检验。
- 如权利要求14所述的方法,其特征在于在步骤(c3)中所述拟合优度检验方法是采用如权利要求8所述的方法进行拟合优度检验。
- 如权利要求15所述的方法,其特征在于在步骤(d3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的基因型,所述估计依次包括如下步骤:(d3-a1)对于目标组每一个靶DNA位点,列出其所有可能的基因型;(d3-a2)对于目标组靶DNA位点每一个可能的基因型,首先根据样本中最少组分DNA的浓度 计算其各个等位基因的相对计数理论值,然后选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;(d3-a3)对于目标组每一个靶DNA位点,首先计算其各个等位基因的相对计数,然后选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;和(d3-a4)根据目标组各个靶DNA位点在等位基因相对计数图中的理论位置分布以及实际位置分布,推断待测目标的基因型。
- 如权利要求15所述的方法,其特征在于在步骤(d3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的核型,所述估计依次包括如下步骤:(d3-b1)分析待测样本,列出待检测目标染色体或亚染色体片段的所有可能的核型;(d3-b2)对于每一个可能的核型,列出目标组各个靶DNA位点所有可能的基因型;(d3-b3)对于目标组靶DNA位点每一个可能的基因型,首先根据样本中最少组分DNA的浓度计算其各个等位基因的相对计数理论值,然后选取至少一个非最大的等位基因相对计数理论值对最大的等位基因相对计数理论值作图来标记该基因型的理论位置;(d3-b4)对于目标组每一个靶DNA位点,首先计算其各个等位基因的相对计数,然后选取至少一个非最大的等位基因相对计数对最大的等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;和(d3-b5)根据在等位基因相对计数图中目标组各个靶DNA位点在各个核型的理论位置分布以及其实际位置分布,推断待测目标的核型。
- 如权利要求15所述的方法,其特征在于在步骤(d3)中利用目标组各个靶DNA位点的等位基因计数和样本中最少组分DNA的浓度,采取等位基因计数相对分布图方法,估计样本中待检测目标的野生突变型,所述估计依次包括如下步骤:(d3-c1)对于目标组每一个靶DNA位点,列出其野生型序列和所有可能的野生突变基因型;(d3-c2)对于每一个可能的野生突变基因型,计算其野生型等位基因和其它非野生型各个等位基因的相对计数理论值,并选取至少一个非野生型等位基因相对计数理论值对野生型等位基因相对计数理论值作图来标记其野生突变基因型的理论位置;(d3-c3)对于目标组每一个靶DNA位点,计算其野生型等位基因和其它非野生型各个等位基因的相对计数值,并选取至少一个非野生型等位基因相对计数对野生型等位基因相对计数作图来标记该靶DNA位点在等位基因相对计数图上的实际位置;(d3-c4)根据目标组所有靶DNA位点在等位基因相对计数图中的理论位置分布以及实际位置分布,推断其野生突变型。
- 一种用于检测样本遗传变异的系统,其包括用于执行权利要求1至权利要求27中任一项所述的方法中的任何步骤的装置和/或计算机程序产品和/或模块。
- 一种用于检测样本遗传变异的试剂盒,所述试剂盒包括用于执行权利要求1至权利要求27中任一项所述的方法中的任何步骤的引物。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020115146410 | 2020-12-21 | ||
CN202011514641.0A CN114645080A (zh) | 2020-12-21 | 2020-12-21 | 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 |
PCT/CN2021/125359 WO2022134807A1 (zh) | 2020-12-21 | 2021-10-21 | 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116888274A true CN116888274A (zh) | 2023-10-13 |
Family
ID=81990364
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011514641.0A Pending CN114645080A (zh) | 2020-12-21 | 2020-12-21 | 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 |
CN202180080432.6A Pending CN116888274A (zh) | 2020-12-21 | 2021-10-21 | 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011514641.0A Pending CN114645080A (zh) | 2020-12-21 | 2020-12-21 | 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240047008A1 (zh) |
EP (1) | EP4265732A1 (zh) |
CN (2) | CN114645080A (zh) |
WO (1) | WO2022134807A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12081639B1 (en) * | 2023-05-17 | 2024-09-03 | Pathogenomix, Inc. | Systems and methods for pre-processing string data for network transmission |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
HUE061020T2 (hu) * | 2007-07-23 | 2023-05-28 | Univ Hong Kong Chinese | Nukleinsav-szekvencia kiegyensúlyozatlanságának meghatározására |
EP2834376B1 (en) * | 2012-04-06 | 2017-03-15 | The Chinese University Of Hong Kong | Noninvasive prenatal diagnosis of fetal trisomy by allelic ratio analysis using targeted massively parallel sequencing |
WO2017051996A1 (ko) * | 2015-09-24 | 2017-03-30 | 에스케이텔레콤 주식회사 | 비침습적 태아 염색체 이수성 판별 방법 |
CN108138226B (zh) * | 2015-10-18 | 2022-02-11 | 阿费梅特里克斯公司 | 单核苷酸多态性和插入缺失的多等位基因基因分型 |
UY38479A (es) * | 2018-11-19 | 2020-06-30 | Sist Genomicos S L | Método y producto informático de análisis de adn fetal por secuenciación masiva |
CN109971846A (zh) * | 2018-11-29 | 2019-07-05 | 时代基因检测中心有限公司 | 使用双等位基因snp靶向下一代测序的非侵入性产前测定非整倍体的方法 |
CN111951890B (zh) * | 2020-08-13 | 2022-03-22 | 北京博昊云天科技有限公司 | 染色体和单基因病同步产前筛查的设备、试剂盒和分析系统 |
-
2020
- 2020-12-21 CN CN202011514641.0A patent/CN114645080A/zh active Pending
-
2021
- 2021-10-21 EP EP21908808.5A patent/EP4265732A1/en active Pending
- 2021-10-21 CN CN202180080432.6A patent/CN116888274A/zh active Pending
- 2021-10-21 WO PCT/CN2021/125359 patent/WO2022134807A1/zh active Application Filing
- 2021-10-21 US US18/268,459 patent/US20240047008A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4265732A1 (en) | 2023-10-25 |
WO2022134807A1 (zh) | 2022-06-30 |
US20240047008A1 (en) | 2024-02-08 |
CN114645080A (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7168247B2 (ja) | 癌スクリーニング及び胎児分析のための変異検出 | |
Sun et al. | SLAF-seq: an efficient method of large-scale de novo SNP discovery and genotyping using high-throughput sequencing | |
CN105441432B (zh) | 组合物及其在序列测定和变异检测中的用途 | |
CN105243295B (zh) | 与癌症相关的遗传或分子畸变的检测 | |
CN110176273B (zh) | 遗传变异的非侵入性评估的方法和过程 | |
EP3899018B1 (en) | Cell-free dna end characteristics | |
TWI732771B (zh) | Dna混合物中組織之單倍型甲基化模式分析 | |
Lepoittevin et al. | In vitro vs in silico detected SNPs for the development of a genotyping array: what can we learn from a non-model species? | |
WO2021232388A1 (zh) | 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用 | |
AU2012311262A1 (en) | Molecular testing of multiple pregnancies | |
CN105555970B (zh) | 同时进行单体型分析和染色体非整倍性检测的方法和系统 | |
CN109207606B (zh) | 用于亲权鉴定的ssr位点的筛选方法和应用 | |
Stram | Design, analysis, and interpretation of genome-wide association scans | |
CN113113081A (zh) | 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统 | |
CN104995314A (zh) | 用于基因型鉴定结核分枝杆菌的引物、snp标记及方法 | |
CN116888274A (zh) | 一种利用多态性位点和靶位点测序检测胎儿遗传变异的方法 | |
EP2971126B1 (en) | Determining fetal genomes for multiple fetus pregnancies | |
EP3224382A1 (en) | Fetal haplotype identification | |
JP7446343B2 (ja) | ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法 | |
Gu et al. | Analysis of allele specific expression-a survey | |
CN111926091A (zh) | 利用微卫星标记鉴定东北黑熊亲缘关系的方法 | |
CN114790493B (zh) | 一种单纯疱疹病毒的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN114836572B (zh) | 一种副肠孤病毒的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN115029478B (zh) | 一种人巨细胞病毒的mnp标记位点、引物组合物、试剂盒及其应用 | |
Zhu et al. | Tools and techniques of using NGS platforms in forensic population genetic studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |