CN112020565B - 用于确保基于测序的测定的有效性的质量控制模板 - Google Patents
用于确保基于测序的测定的有效性的质量控制模板 Download PDFInfo
- Publication number
- CN112020565B CN112020565B CN201880090911.4A CN201880090911A CN112020565B CN 112020565 B CN112020565 B CN 112020565B CN 201880090911 A CN201880090911 A CN 201880090911A CN 112020565 B CN112020565 B CN 112020565B
- Authority
- CN
- China
- Prior art keywords
- qct
- molecules
- sequence
- sequencing
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 251
- 238000003908 quality control method Methods 0.000 title claims abstract description 17
- 238000003556 assay Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 115
- 238000011109 contamination Methods 0.000 claims abstract description 92
- 238000002360 preparation method Methods 0.000 claims abstract description 60
- 238000003745 diagnosis Methods 0.000 claims description 31
- 239000000203 mixture Substances 0.000 claims description 28
- 238000012165 high-throughput sequencing Methods 0.000 claims description 27
- 208000026350 Inborn Genetic disease Diseases 0.000 claims description 26
- 238000012864 cross contamination Methods 0.000 claims description 26
- 208000016361 genetic disease Diseases 0.000 claims description 26
- 230000035772 mutation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 18
- 150000007523 nucleic acids Chemical class 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 13
- 108020004707 nucleic acids Proteins 0.000 claims description 13
- 102000039446 nucleic acids Human genes 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 12
- 208000031404 Chromosome Aberrations Diseases 0.000 claims description 11
- 208000024556 Mendelian disease Diseases 0.000 claims description 11
- 230000003321 amplification Effects 0.000 claims description 11
- 238000011528 liquid biopsy Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000000349 chromosome Anatomy 0.000 claims description 9
- 238000011002 quantification Methods 0.000 claims description 8
- 230000002759 chromosomal effect Effects 0.000 claims description 6
- 230000001605 fetal effect Effects 0.000 claims description 6
- 230000008774 maternal effect Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 239000002773 nucleotide Substances 0.000 claims 5
- 125000003729 nucleotide group Chemical group 0.000 claims 5
- 239000000523 sample Substances 0.000 description 123
- 230000000875 corresponding effect Effects 0.000 description 40
- 108020004414 DNA Proteins 0.000 description 33
- 238000003793 prenatal diagnosis Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 108700028369 Alleles Proteins 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 238000007481 next generation sequencing Methods 0.000 description 10
- 238000000746 purification Methods 0.000 description 10
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 9
- 210000003754 fetus Anatomy 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 108091093088 Amplicon Proteins 0.000 description 6
- 208000035475 disorder Diseases 0.000 description 6
- 238000009598 prenatal testing Methods 0.000 description 6
- 208000011580 syndromic disease Diseases 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 201000010374 Down Syndrome Diseases 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 208000000859 Sickle cell trait Diseases 0.000 description 4
- 208000036878 aneuploidy Diseases 0.000 description 4
- 231100001075 aneuploidy Toxicity 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 102100021519 Hemoglobin subunit beta Human genes 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 239000012472 biological sample Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 208000007056 sickle cell anemia Diseases 0.000 description 3
- 208000010543 22q11.2 deletion syndrome Diseases 0.000 description 2
- 208000010693 Charcot-Marie-Tooth Disease Diseases 0.000 description 2
- AHCYMLUZIRLXAA-SHYZEUOFSA-N Deoxyuridine 5'-triphosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C=C1 AHCYMLUZIRLXAA-SHYZEUOFSA-N 0.000 description 2
- 208000000398 DiGeorge Syndrome Diseases 0.000 description 2
- 201000006360 Edwards syndrome Diseases 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 208000007159 Trisomy 18 Syndrome Diseases 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000010205 computational analysis Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010448 genetic screening Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 206010053884 trisomy 18 Diseases 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 201000003883 Cystic fibrosis Diseases 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 206010013801 Duchenne Muscular Dystrophy Diseases 0.000 description 1
- 108010007577 Exodeoxyribonuclease I Proteins 0.000 description 1
- 102100029075 Exonuclease 1 Human genes 0.000 description 1
- 208000021584 Expressive language disease Diseases 0.000 description 1
- 208000031220 Hemophilia Diseases 0.000 description 1
- 208000009292 Hemophilia A Diseases 0.000 description 1
- 208000023105 Huntington disease Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 201000009928 Patau syndrome Diseases 0.000 description 1
- 208000032128 Phonological disease Diseases 0.000 description 1
- 208000028017 Psychotic disease Diseases 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 208000028790 Speech Sound disease Diseases 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 208000002903 Thalassemia Diseases 0.000 description 1
- 206010044686 Trisomy 13 Diseases 0.000 description 1
- 208000006284 Trisomy 13 Syndrome Diseases 0.000 description 1
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 description 1
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 description 1
- 102100037111 Uracil-DNA glycosylase Human genes 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 206010003246 arthritis Diseases 0.000 description 1
- 208000030137 articulation disease Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012620 biological material Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical group O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012224 gene deletion Methods 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002077 nanosphere Substances 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000002515 oligonucleotide synthesis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 238000005464 sample preparation method Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 201000002859 sleep apnea Diseases 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6851—Quantitative amplification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/166—Oligonucleotides used as internal standards, controls or normalisation probes
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B70/00—Tags or labels specially adapted for combinatorial chemistry or libraries, e.g. fluorescent tags or bar codes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Biochemistry (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
Abstract
方法和/或系统的实施方案可以包括生成质量控制模板(QCT)分子的集合;基于该QCT分子的集合,诸如基于该QCT分子的集合的变异区域,确定QCT序列读段簇的集合;以及基于该QCT序列读段簇的集合,确定测序相关参数诸如与测序文库制备和测序中的至少一种相关的污染参数和/或分子计数参数。
Description
相关申请的交叉引用
本申请要求于2018年1月5日提交的美国临时申请系列号62/614,236的权益,该美国临时申请通过引用以其整体并入本文。
技术领域
本公开内容大体上涉及遗传测序领域。
背景
高通量测序(例如,下一代测序(NGS))越来越多地用于诊断测定,全基因组和外显子组测序两者,以及更专门的应用,诸如无创性产前测试(NIPT)、液体活组织检查和检测多态性的类似测定。在高通量测序(例如,NGS)中,交叉污染是临床应用中的一个重要问题,因为在同一测序运行中可能处理多于一个样品(例如,多达384个样品等)。特别地,在突变或多态性罕见以至于它们的等位基因频率仅呈现为总数的百分之几的测定中,来自其他样品的交叉污染可能导致假阳性。对于NIPT和液体活组织检查来说尤其如此,其中,小于百分之几的定量差异是阳性结果和阴性结果之间的区别。
用于高通量测序的标准文库制备实践可能需要扩增初始的输入DNA样品。这些扩增步骤可能加剧交叉污染的作用,因为在实验室中对突变等位基因的任何扩增都可能污染后续的样品和实验,这通常称为PCR遗留(carry-over)污染。为了防止这一问题,一些标准诊断测定,诸如qPCR,使用dUTP/UNG防止遗留系统,其中在PCR中dUTP被替换成dTTP,并且含尿嘧啶的扩增子在测定后经过酶,尿嘧啶DNA糖基化酶处理而被降解。然而,对于基于高通量测序的测定(例如,基于NGS的测定等)没有类似的解决方案,尽管因为高通量测序(例如,NGS)的灵敏度增加和基于高通量测序的测定测量微小定量变化而对此有甚至更迫切的需求。
虽然由于相关的化学,在高通量测序中完全消除交叉污染是困难的,但能够追踪交叉污染同样也将是有价值的。在实例中,可以将不同且可鉴定的序列添加到每个样品中,以追踪样品对其他孔的污染。然而,当用于追踪基于多重高通量测序的测定(例如,基于NGS的测定等)的交叉污染时,在每个用户、每个实验和每个样品具有不同的序列文库的情况下,这样的实例可能是费力的(cumbersome),并且可能需要保持大量不同的文库(例如,384个不同的文库;不同的文库的数目对应于在同一测序运行中被处理的样品的数目;等等)。此外,这样的实例不能追踪来自先前实验的PCR遗留,因为相同的文库将被用于不同的实验。此外,由于维护大量不同的文库(例如,384个不同的文库等)的困难,标识符序列本身可能被交叉污染。因此,存在对新的且有用的方法和/或系统的实施方案,诸如追踪交叉污染同时克服这些缺点的新的且有用的方法和/或系统的实施方案的需求。
附图简述
图1A-1D包括方法的实施方案的变化形式的流程图表示;
图2包括方法的实施方案的变化形式的流程图表示;
图3包括方法的实施方案的变化形式的流程图表示;
图4A-4D包括来自方法的实施方案的变化形式的验证部分的结果的图形表示,特别地涉及交叉污染和索引错误分配;
图5A-5B包括来自验证使用QCT分子用于分子计数的实验的结果的具体实例;
图6包括与技术人员管理和/或实验室管理相关的质量方面相关的结果的具体实例;
图7A-7C包括来自方法的实施方案的变化形式的验证部分的结果的图形表示,特别地涉及QCT分子的定量;
图8A-8B包括来自方法的实施方案的变化形式的验证部分的结果的图形表示,特别地涉及生物靶的定量;
图9包括使用QCT分子来测量可测定的基因组当量的具体实例;
图10包括确定污染参数的具体实例;
图11包括将QCT分子与多于一个样品一起使用来确定样品处理误差的具体实例;
图12包括在不同阶段使用QCT分子的具体实例;
图13A-13B包括与索引跳跃(index hopping)相关的表征的具体实例;
图14包括用于促进(facilitate)测量与使用独特的双重索引引物相关的真实污染水平的具体实例;
图15A-15D包括与促进诊断单基因紊乱相关的具体实例;
图16A-16B包括与促进诊断染色体异常相关的具体实例。
实施方案的描述
对实施方案的以下描述并非意图局限于这些实施方案,而是使本领域任何技术人员能够制造和使用。
1.概述。
如图1A-1D和图2-3中示出的,方法100的实施方案(例如,用于与测序文库制备和测序中的至少一种相关的表征等)可以包括生成质量控制模板(QCT)分子的集合(例如,每个QCT分子包含靶相关区域、变异区域等)S110;基于QCT分子的集合(例如,基于QCT分子的集合的变异区域等)确定(例如,通过计算等)QCT序列读段簇的集合(例如,对应于QCT分子的集合等)S120;和/或基于QCT序列读段簇的集合,确定与测序文库制备和测序中的至少一种相关的测序相关参数(例如,污染参数、分子计数参数等)S130。
另外地或可选地,方法100的实施方案可以包括制备一种或更多种序列文库S112;用所述一种或更多种序列文库进行测序S114;促进(例如,协助、确定、提供等)对一种或更多种状况(例如,遗传紊乱等)的一种或更多种诊断S140(例如,基于一个或更多个测序相关参数等);促进(例如,协助、确定、提供、施用等)针对一种或更多种状况的治疗,诸如基于测序相关参数、诊断和/或其他合适的组成部分S150;和/或任何其他合适的过程。
在具体实例中,方法100(例如,用于促进从母体样品对与妊娠女性相关的遗传紊乱的产前诊断等)可以包括:将与遗传紊乱相关的QCT分子的集合添加到母体样品中,该QCT分子的集合包括:与内源性靶分子的靶序列区域具有序列相似性的靶相关区域(例如,与遗传紊乱相关等)和与内源性靶分子的序列区域具有序列相异性的变异区域(例如,包含嵌入式分子标识符(EMI)区域等,该嵌入式分子标识符区域包含可变的“N”碱基的集合,其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一个);基于对该QCT分子的集合和包含靶序列区域的核酸分子(例如,核酸、核酸片段等)的共扩增生成共扩增的混合物;对共扩增的混合物进行测序;基于变异区域的数目,计算确定QCT分子的集合的独特数目,所述变异区域是不同的且从来自测序的QCT分子序列读段被检测到,其中QCT分子序列读段对应于QCT分子的集合;基于将QCT分子序列读段的数目除以QCT分子的独特数目来计算平均QCT测序深度;基于将内源性靶分子的总读段计数除以平均QCT测序深度来确定内源性靶分子的绝对计数;基于将内源性参考分子的总读段计数除以平均QCT测序深度来确定内源性参考分子的绝对计数;以及基于内源性靶序列的绝对计数与内源性参考序列的绝对计数之间的比较,促进对遗传紊乱的产前诊断。
在具体实例中,方法100(例如,用于表征,诸如鉴定与测序文库制备和测序中的至少一种相关的污染等)可以包括生成QCT分子的集合,每个QCT分子包含变异区域(例如,包含一个或更多个EMI区域等)和/或靶相关区域(例如,与生物靶的靶序列区域具有序列相似性等);基于QCT分子的集合的变异区域计算确定QCT序列读段簇的集合,诸如其中QCT序列读段簇的集合包含源自测序的对应于QCT混合物的QCT分子序列读段,所述QCT混合物基于QCT分子的集合和包含生物靶的样品(例如,包含对应于生物靶的内源性靶分子的样品等)生成,诸如其中测序文库制备包括对QCT分子的集合和包含生物靶的核酸分子(例如,基于靶相关区域与生物靶的靶序列区域的序列相似性等)共扩增;以及基于QCT序列读段簇的集合,确定与测序文库制备和测序中的至少一种相关的测序相关参数(例如,确定描述与测序文库制备和高通量测序中的至少一种相关的污染的污染参数等)。
在具体实例中,如图2中示出的,方法100(例如,用于确保基于QCT分子的基于测序的测定的有效性等)可以包括:生成QCT分子的QCT文库或QCT文库的混合物(例如,包含与感兴趣的基因具有高度相似性的靶相关区域的QCT DNA,以便能够使用如图2中的黑色箭头描绘的PCR引物进行共扩增;包含与感兴趣的基因相比具有序列差异的变异区域的QCT DNA,诸如其中变异区域可以包含EMI区域,所述EMI区域包含可以随机采用“A”、“C”、“T”或“G”碱基的“N”碱基,诸如其中可以用“NNNN”生成最多4^4种独特的EMI序列,诸如其中两种QCT分子具有相同EMI的概率可以使用用于计算散列冲突概率(hash collision probability)的生日问题的解决方案来发现,诸如其中QCT与HBB序列差异的子部分可以在图2中示出;包含QCT标识符(QCT ID)区域的QCT DNA,用于区分测序读段中的QCT文库序列和感兴趣的基因序列等);基于QCT分子和一个或更多个包含生物靶的样品(例如,如图2中示出的HBB等),诸如通过将QCT文库中掺入到人类DNA中,来制备测序文库;将计算方法应用于对QCT分子序列读段分簇(例如,基于EMI序列相似性等;其中EMI簇的数目对应于掺入到样品中的QCT分子的绝对数目),并且将簇分配至不同的样品标识符(例如,对应于不同的样品;对应于测序中使用的不同的样品室等);以及使用这样的数据来评估质量控制度量,诸如交叉污染、索引错误分配、用户误差(例如,在执行测定时)、测定参数不符(non-compliance)(例如,输入DNA的量太少、样品中可及的基因组当量等),和/或来对测定可及的输入生物靶的量进行定量。
方法100和/或系统200的实施方案可以起到的功能是,准确量化生物靶的丰度,准确追踪和/或量化污染的程度(例如,跨不同样品、不同实验的交叉污染;与使用独特的双索引引物相关的真实污染水平等),鉴定在执行基于测序的测定时的用户误差,监测测序索引错误分配,确定测定参数不符,鉴定和/或促进去除污染性引物和/或索引跳跃引物,和/或改进与测序文库制备和/或测序相关的任何合适的方面,诸如用于改进诊断和/或治疗。
在实例中,本文公开了可以将单一试剂(例如,包含QCT分子的集合等)添加到样品集合中,以通过将单一试剂添加到所有样品来追踪交叉污染以及其他用户误差。在实例中,在伴随着基于用于散列冲突的生日问题的解决方案的定制的数学和计算分析流水线时,QCT分子的添加可以同时追踪跨不同用户、不同实验和不同样品的交叉污染。在实例中,可以将单个QCT文库添加到所有样品(例如,与高通量测序相关的样品等)中,诸如用于改进用户友好性和方便性。在具体实例中,可以在样品制备的不同阶段添加不同的QCT文库(例如,对应于不同的QCT标识符区域,诸如QCT ID等),以追踪任何用户误差或输入样品的损失。在实例中,可以应用自动指纹分配(automatic fingerprint-on-dispense)方法,其中每种样品可以通过QCT分子鉴定(例如,基于QCT分子的变异区域、QCT分子的QCT标识符区域等)。在实例中,可以测量由PCR遗留引起的污染,这样的污染可能是临床环境和/或其他环境中的问题。在具体实例中,QCT分子可以用于向每个PCR管分配分子指纹,并且PCR遗留可以通过维护与在特定实验室位置或房间进行的每个PCR管相关的所有变异区域(例如,EMI区域的EMI序列等)的数据库来检测和量化。然后,后续测定中的遗留PCR可以通过计算检索历史数据库中的变异区域指纹(例如,EMI指纹相似性等)来鉴定。
实施方案可以另外地或可选地用于针对高通量测序(例如,NGS等)的重要问题,即“索引转换”或索引错误分配的质量保证。在实例中,即使不存在任何交叉污染,当在同一流动池上多重化时,来自一个样品的测序读段或信号(例如,最多5-10%等)可能被错误分配至另一个样品。在实例中,可以进行方便的指纹分配方法,以准确量化每个样品中的错误分配程度。在具体实例中,如图4A-4D中示出的,可以以>90%的灵敏度检测邻近孔中的交叉污染和索引误分配的累积效应。在具体实例中,如图4A中示出的,可以使用i7索引和i5索引的所有96种组合来制备Illumina Truseq HT文库,其中每个孔对应于一个HBB扩增子测序实验,在每个孔中添加400个、200个、100个或0个QCT分子;每个孔中示出的是被鉴定为交叉污染的QCT读段的分数,其中在实验中,交叉污染和索引错误分配的范围在<1%至最多13%之间;由于D710-D712列中为0个QCT分子,因此这些孔中的分数指示方法100的实施方案的变化形式能够检测交叉污染的灵敏度;并且其中图4B说明了在D702/D504中发现的污染读段的数目和来源,通过X(左侧)指示;以及来源于D702/D504的污染读段的数目和目的地,通过O(右侧)指示;并且其中图4C说明了与图4B类似的分析,但针对的是孔D707/D504;以及其中图4D说明了孔D710/D504和孔D711/D504的污染的来源,并且其中未发现来源于这些孔的污染读段,与未向这些孔中添加QCT分子一致。
实施方案可以另外地或可选地实现对生物靶的准确分子计数(例如,基于使用QCT分子的集合的变异区域的集合等),诸如当读段深度足够时(例如,每个不同的QCT分子的读段深度大于20,等),这能够协助在使用添加复杂序列的方法中获得准确的靶定量。当读段深度足够高时,实施方案可以量化所测定的可及的生物靶。在涉及通过扩增子测序来检测在无创产前测试中使用的突变的实例中,当将<400个QCT分子添加到每个样品中时,诸如其中96个这样的样品被多重化于MiSeq运行(例如,如图7C中示出的),对复杂序列获得了这样高的读段深度。但是,可以将任何合适数目的QCT分子添加到一个或更多个样品中,以促进分子计数和/或其他合适的功能。在具体实例中,如图5A-5B中示出的,序列读段数目和分子数目(例如,基于与QCT分子相关的序列读段和处理确定的;等等)可以是相关的,并且其中分子数目和读段数目之间的比率可以相差2-3倍,表明与使用QCT分子来确定特定样品中的分子数目相关的改进(例如,与使用读段数目本身相比在可靠性方面的改进等)。
在实例中(例如,对一个或更多个生物靶的绝对分子计数进行量化的实例等),方法100和/或系统200可以用于a)确定用于在确定测定的诊断结果的算法中使用的参数,b)追踪输入DNA在实验或测定的不同阶段的损失,c)当靶分子的数目太低时返回无判定结果(no-call result)(例如,确定测定何时不可靠等),d)设计用于检测特定基因座或跨基因座的拷贝数变异的测定,和/或e)基于诊断测定的结果协助治疗决策和临床决策。
实施方案可以另外地或可选地评价和/或改进与技术人员管理和/或实验室管理(例如,临床实验室管理等)相关的若干质量方面。如图6中示出的,在具体实例中,方法100和/或系统200可以用于鉴定由不同的技术人员或实验室处理的有问题的样品,其中样品A01至A06与样品B31至B35在两个不同的实验室中用不同的PCR前/PCR后分离实践来运行;在处理前,将来自相同试剂盒的大致对应于~200个分子的相同体积的QCT分子添加到每个样品中;“序列数目(num_seqs)”指示针对每个样品鉴定的不同的EMI簇的数目;“污染分数(contam_frac)”指示在每个样品中鉴定出的污染读段的总分数;“冲突分数(collision_frac)”鉴定在两个不同的样品中发现的两个有效EMI簇的程度;“污染_冲突_分数(contam_collision_frac)”组合了前面两个度量;“鉴定分数(ident_frac)”是映射至有效EMI的读段数目除以该特定样品的读段总数;“每个QCT分子的读段(reads_per_qctmol)”指EMI的平均读段深度;对这些衍生度量使用过滤阈值,以鉴定通过或未通过质量控制(QC)的样品;其中对于实验室A,6个样品中只有1个样品通过了QC度量,而在实验室B中,5个样品中5个样品通过了QC度量;并且其中这些结果可以用于改变如何进行样品处理和PCR前/PCR后分离(例如,其中在实验室A中,在改进了样品处理的下一次运行中,样品通过了相同的QC度量等)。如图7A-7C中示出的,在具体实例中,通过包括从同一集合(pool)分配的多种QCT物质,可以经由QCT分子的绝对计数的相关性来测量移液的随机误差(例如,如图7C中示出的),和/或系统性的移液和/或定量误差可以另外地或可选地是可追踪的(例如,如图7A中示出的,诸如基于中间图与左图和右图的比较)。在具体实例中,如图7A-7C中示出的,可以确定所掺入的QCT分子的绝对定量。在具体实例中,如图7A中示出的,QCT1文库、QCT2文库和QCT3文库(例如,对应于QCT分子的不同集合等)可以被制备、汇集并且以每个QCT文库100个、200个或400个分子添加到PCR反应中;每个QCT文库的EMI可以通过聚集具有最多2个碱基变化的EMI序列读段进行聚类;误差棒可以代表24次重复的平均值+/-标准偏差;并且图线可以代表线性回归拟合,阴影对应于平均值的95%置信区间。在具体实例中,如图7B中示出的,为了确定QCT计数对读段深度的稳健性,可以通过随机选择总读段的1/2来对测序读段进行下采样;可以针对整个数据集绘制从下采样的测序读段重新获得的EMI簇的数目;点的颜色可以代表每个EMI簇的下采样读段深度,其中黑线具有的斜率=1,截距=0;当每个QCT分子的读段深度大于20时,QCT分析是稳健的,这有助于分子计数的可靠性;并且当QCT簇的数目为400时,下采样读段深度为每个分子小于20。在具体实例中,如图7C中示出的,QCT文库的QCT分子计数可能是不相关的(例如,如预期的等);其中,在100个QCT分子输入水平上,对于来自图7A的每个PCR重复,可以显示QCT3簇的数目对QCT1簇的数目的散点图。
实施方案可以另外地或可选地在不同的测序文库制备阶段(例如,样品制备阶段)和/或测序阶段配置QCT文库以追踪样品损失。在具体实例中,如果QCT分子的第一集合(例如,QCT1分子;包含第一共有QCT标识符区域的第一QCT分子等)在样品收集的点被分配,并且等量的QCT分子的第二集合(例如,QCT2分子;包含第二共有QCT标识符区域的第二QCT分子等)在样品纯化后被分配,则纯化产率可以经由比较QCT分子的第一集合与QCT分子的第二集合的分子计数(例如,QCT1分子计数相比于QCT2分子计数等)来评估。
实施方案可以另外地或可选地确定测定可及的生物材料的部分,诸如通过基于使用QCT分子来量化生物靶,这可以改进测量可用的总基因组材料和计算预期的生物靶浓度,因为并非所有的靶都是测定可及的。在具体实例中,这可能由于DNA剪切成短的尺寸分布引起,如对于循环游离DNA而言,其在用于确定胎儿的遗传状况的无创产前测试(NIPT)的应用中以及在测定循环肿瘤DNA的液体活组织检查应用中被测定。在具体实例中,在这些应用中,取决于感兴趣的靶,少于25%的DNA可能是可及的,其中,如图8A-8B中示出的,输入DNA基因组当量的确定可以使用QCT分子来确定,诸如其中人类基因组DNA可以被Alu或Hpy限制性酶消化,Alu或Hpy分别在感兴趣的基因的外部和内部切割;然后可以将QCT分子添加到9ng-36ng的经消化的DNA(对应于2,500-10,000个基因组当量)中,通过PCR扩增,并且在MiSeq上测序;在应用方法100的实施方案的部分时,可以通过与QCT分子相关的分析来测量每个PCR反应中人类DNA的基因组当量(G.E.);PCR反应可以一式两份地进行,其中图8A说明了线性拟合线且阴影为平均值的95%CI,并且其中输入DNA的测量值在重复样品和全部稀释系列中是一致的,但比Qubit测量值系统性地高一个常数因子;并且其中,如图8B中示出的,人类基因组DNA可以被剪切成峰值在100-150bp的尺寸分布;然后可以将QCT分子掺入2.3ng-36ng的经剪切的DNA中,并且可以测量经剪切的DNA的基因组当量,扩增子尺寸为~150bp,并且其中图8B说明了指示由于随机剪切而可以扩增的分子的分数的线的斜率。在具体实例中,如图9中示出的,QCT分子可以用于测量可测定的基因组当量,对于每个测定,并且甚至对于具有不同足迹的同一测定,所述可测定的基因组当量可以是不同的;其中从经剪切的DNA扩增围绕相同突变的区域以形成150-bp PCR产物与72-bp PCR产物(左侧与右侧),并且使用QCT分子来测量在这两种情况中扩增的分子的数目;其中,对应于5000个输入基因组当量的18纳克(ng)基因组DNA被剪切至~170bp的平均长度(例如,循环游离DNA的平均长度)并且被包括在所有情况中(对于150-bp,n=8,而对于72-bp,n=4);并且与理论模型一致,可以扩增的分子的数目显著少于输入DNA,并且在相同输入DNA量的不同足迹之间可以具有高达2x的差异;并且其中图9可以指示为何输入DNA的其他测量值(诸如浓度)可能不足以进行需要分子信息的精确分子诊断,诸如其中分子计数减少~2x会其使泊松噪声增加~40%,这可能是95%(2σ)和99%(3σ)准确度之间的差异。
方法100和/或系统200的实施方案可以关于一种或更多种状况使用(例如,关于表征、诊断、治疗和/或执行与一种或更多种状况相关的过程等),其中所述状况可以包括以下一种或更多种和/或以其他方式与以下一种或更多种相关:无创产前测试(NIPT)(例如,涉及染色体异常的存在的遗传筛查,所述染色体异常包括非整倍性,诸如21三体或唐氏综合征、18三体或爱德华兹综合征、13三体或Patau综合征、性染色体非整倍性诸如特纳综合征、其他合适的非整倍性;包括迪格奥尔格综合征(DiGeorge syndrome)的染色体异常;涉及单基因紊乱的遗传筛查等);其他产前测试;非整倍性分析和/或产前背景之外的其他合适的分析;遗传紊乱(例如,包括镰状细胞病的单基因紊乱;染色体异常;与基因扩增相关的紊乱;基因缺失;部分染色体异常;22q11.2缺失综合征或迪格奥尔格综合征;夏科-马里-图思综合征(Charcot-Marie-Tooth syndrome)、囊性纤维化、亨廷顿病;杜氏肌营养不良症;血友病、地中海贫血等),与染色体异常相关的其他应用(例如,染色体DNA添加、染色体DNA缺失、染色体DNA异常等),癌症(例如,通过与任何合适的癌基因、癌症生物标志物和/或其他癌症相关靶相关的分析;通过与液体活组织检查相关的分析)和/或任何其他合适的状况。在实例中,方法100可以包括确定靶分子计数(例如,对应于样品中的靶分子的数目;基于QCT分子的使用等)用于促进与无创产前测试和液体活组织检查中的至少一种相关的诊断。状况另外地或可选地包括:精神状况和行为状况(例如,心理紊乱;抑郁症;精神病等);交流相关状况(例如,表达性语言障碍;口吃;语音障碍(phonological disorder);孤独症;语音状况(voice condition);听力状况;眼部状况等);睡眠相关状况(例如,失眠症、睡眠呼吸暂停等);心血管相关状况(例如,冠状动脉疾病;高血压等);新陈代谢相关状况(例如,糖尿病等),类风湿性相关状况(例如,关节炎等);体重相关状况(例如,肥胖症等);疼痛相关状况;内分泌相关状况;慢性病和/或任何其他合适类型的状况。
与方法100和/或系统200的一种或更多种实施方案相关的测序(例如,涉及S112)优选地包括高通量测序,所述高通量测序可以包括以下中的任一种或更多种和/或与以下中的任一种或更多种相关:NGS、NGS相关技术、大规模平行特征测序(massively parallelsignature sequencing)、Polony测序、454焦磷酸测序、Illumina测序、SOLiD测序、IonTorrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序、纳米孔DNA测序、任何代数的测序技术(例如,第二代测序技术、第三代测序技术、第四代测序技术等)、扩增子相关测序(例如,靶向扩增子测序)、宏基因组相关测序、合成测序、隧穿电流测序、杂交测序、质谱测序、基于显微术的技术和/或涉及高通量测序的任何合适的技术。另外地或可选地,测序可以包括任何合适的测序技术(例如,桑格测序、毛细管测序等)。
通过和/或使用本文描述的系统200、组成部分和/或实体的实施方案的一种或更多种实例,本文描述的方法100和/或过程的实施方案的一种或更多种实例和/或部分可以在任何合适的时间并且以任何合适的频率与触发事件以时间关系上异步地(例如,顺序地)、同时地进行(例如,并行地;以多重化、自动化的方式同时处理生物样品;同时计算处理序列读段以提高系统处理能力等)和/或以任何其他合适的顺序进行。
另外地或可选地,本文描述的数据(例如,簇、测序相关参数、标识符、读段深度、序列读段、序列区域确定、QCT分子设计、引物设计等)可以与任何合适的时间指示物(例如,秒、分钟、小时、天、周、时间段、时间点、时间戳等)相关,所述合适的时间指示物包括以下中的一种或更多种:指示数据何时被收集、确定、传输、接收和/或以其他方式处理的时间指示物;为数据描述的内容提供背景的时间指示物,诸如指示测序文库制备和/或测序的阶段的顺序的时间指示物;时间指示物的变化(例如,数据随时间的变化;数据的变化;数据模式;数据趋势;数据外推和/或其他预测等)和/或与时间相关的任何其他合适的指示物。
另外地或可选地,本文描述的参数、度量、输入、输出和/或其他合适的数据可以与值的类型相关,所述值的类型包括以下中的任一种或更多种:评分、二进制值、分类、置信水平、标识符(例如,样品标识符、QCT分子标识符等)、沿光谱的值和/或任何其他合适的值的类型。对于与方法100和/或系统200的实施方案相关的任何合适的组成部分,本文描述的任何合适类型的数据可以用作输入、生成为输出和/或以任何合适的方式操作。
系统200的实施方案可以另外地或可选地包括样品处理网络,所述样品处理网络被配置为生成分子(例如,QCT分子、QCT文库等)、处理生物样品和/或执行其他合适的过程;测序系统,所述测序系统被配置为对经处理的遗传物质进行测序,所述遗传物质来自基于生物样品和QCT分子生成的混合物;计算系统(例如,远程计算系统、本地计算系统等),所述计算系统被配置为分析序列读段、确定QCT序列读段簇、确定测序相关参数、促进诊断、促进治疗和/或执行其他合适的过程(例如,计算过程);和/或任何其他合适的组成部分。系统200的组成部分可以以任何方式被物理地和/或逻辑地集成(例如,这些组成部分的任何合适的功能分布,诸如涉及方法100的实施方案的部分等)。但是,方法100和系统200可以以任何合适的方式配置。
2.1生成QCT分子。
方法100的实施方案可以包括生成QCT分子的集合S110,S110可以起作用以生成待在测序文库制备和测序(例如,高通量测序等)中的至少一种的一个或更多个阶段(例如,步骤、阶段、时期、时间段等)中使用(例如,添加、处理、测序等)的分子,诸如用于促进下游计算处理(例如,用于促进序列相关的参数确定的QCT序列读段簇确定等)。
QCT分子优选地包含靶相关区域(例如,每个QCT分子包含一种或更多种靶相关区域等)。如图2中示出的,靶相关区域优选地包含与一种或更多种靶分子(例如,内源性靶分子;对应于一种或更多种生物靶等)的一种或更多种靶序列区域的序列相似性(例如,全序列相似性;满足阈值条件的序列相似性;特定数目碱基的序列相似性等),但是可以另外地或可选地包含与一种或更多种靶分子的任何合适的组成部分的任何合适的相关性。靶相关区域优选地使得能够对对应的QCT分子(例如,包含靶相关区域,等)和包含靶序列区域的核酸分子(例如,核酸、核酸片段等)进行共扩增,这可以促进分子计数(例如,确定分子计数参数;通过考虑扩增偏倚等)的准确度提高,但可以另外地或可选地使得与方法100的测序文库制备、测序和/或实施方案的部分相关的任何合适的过程能够实现。在实例中,测序文库制备(例如,执行测序文库制备S112)可以包括基于靶相关区域和生物靶的靶序列区域的序列相似性,对QCT分子的集合和包含生物靶的核酸分子进行共扩增,并且其中确定测序相关参数可以包括基于QCT序列读段簇的集合,确定描述与测序相关的生物靶的分子的数目的靶分子计数。
在变化形式中,QCT分子可以省略靶相关区域。例如,QCT分子可以在没有靶相关性(例如,与生物靶的靶序列区域没有预定的相似性)和/或不与样品的组分(例如,包含靶序列区域的核酸分子等)对应共扩增的情况下与包含生物靶的样品的组分一起使用。在实例中,QCT分子可以被预处理以便适于测序,诸如其中预处理的QCT分子可以被添加到为适于测序而被处理的样品中,以便被共测序而不需要共扩增(例如,用于提高用户友好性)。省略靶相关区域的QCT分子优选地可用于促进污染参数确定,但可以另外地或可选地用于促进任何合适的测序相关参数确定。在具体实例中,QCT分子的集合可被调整为适于后续测序(例如,高通量测序,诸如NGS等),其中生成QCT分子的集合可以包括扩增QCT分子的集合的QCT分子的第一子集(例如,每一个OCT分子包含第一共有QCT标识符区域等);以及扩增QCT分子的集合的QCT分子的第二子集(例如,每一个QCT分子包含第二共有QCT标识符区域等),其中QCT分子测序读段源自对应于以下的测序:基于QCT分子的第一子集和包含生物靶的样品(例如,包含对应于生物靶的第一靶分子等)生成的QCT混合物,以及基于QCT分子的第二子集和包含生物靶的另外的样品(例如,包含对应于生物靶的第二靶分子等)生成的另外的QCT混合物,其中所述样品和所述另外的样品分别对应于样品室的第一样品室和第二样品室。但是,靶相关区域和/或省略靶相关区域的QCT分子可以以任何合适的方式配置。
QCT分子优选地包含一个或更多个变异区域(例如,一个或更多个变异区域/QCT分子;相邻的变异区域;隔开的变异区域等)。如图2中示出的,变异区域优选地包含与靶分子的一个或更多个序列区域(例如,不同于靶序列区域等)的序列相异性(例如,全序列相异性;特定数目的碱基的相异性;部分序列相异性等)。变异区域可以另外地或可选地包含一个或更多个EMI区域。在变化形式中,EMI区域可以包含可变的“N”碱基的集合(例如,一个或更多个可变的“N”碱基等),其中每个“N”碱基选自(例如,随机选择、根据预定的统计分布和/或概率选择等)“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一种。在变化形式中,EMI区域可以包含合成的区域(例如,在微阵列上;使用基于硅的合成等),所述合成的区域包含一个或更多个特定的碱基(例如,设计和合成的碱基等),诸如被设计成促进QCT序列读段簇确定的合成的区域(例如,通过使EMI区域之间的成对汉明距离最大化等)。在变化形式中,QCT分子可以另外地或可选地包含多于一个EMI区域(例如,变异区域包含多于一个EMI区域、相邻的EMI区域、隔开的EMI区域、包含可变的“N”碱基的EMI区域、包含合成的区域的EMI区域等)。例如,QCT分子的集合的每个变异区域可以包含嵌入式分子标识符区域,所述嵌入式分子标识符区域包含可变的“N”碱基的集合,其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一种,其中QCT分子的集合的每个QCT分子还包含另外的EMI区域,所述另外的EMI区域包含可变的“N”碱基的另外的集合,其中所述另外的EMI区域与EMI区域被QCT分子的一个序列区域隔开,诸如其中所述可变的“N”碱基的集合与可变的“N”碱基的所述另外的集合可以各自包含确定(例如,预定)数目的“N”碱基(例如,大于三个“N”碱基、大于任何合适数目的“N”碱基、确切数目的“N”碱基等),并且其中确定测序相关参数(例如,污染参数)可以基于QCT序列读段簇,所述QCT序列读段簇基于QCT分子的集合的EMI区域和另外的EMI区域(例如,基于对应于EMI区域和另外的EMI区域的对的不同的EMI序列读段等)获得。在变化形式中,变异区域可以另外地或可选地包含合成的区域。
在变化形式中,如图2中示出的,QCT分子可以包含鉴定该QCT分子(和/或其他合适的QCT分子)的QCT标识符区域,诸如鉴定属于QCT分子的集合的QCT分子(例如,其中不同的QCT标识符区域对于QCT分子的不同集合是独特的,等等)的共有的QCT标识符区域(例如,与靶分子的一个或更多个序列区域具有相异性的共有序列区域等)。在实例中,QCT分子的第一集合的每个QCT分子的变异区域可以包含第一EMI区域,所述第一EMI区域与第二EMI区域至少被第一QCT标识符区域隔开,其中QCT分子的第二集合的每个另外的QCT分子可以包含第一另外的EMI区域,所述第一另外的EMI区域与第二另外的EMI区域至少被第二QCT标识符区域隔开。在实例中,第一EMI区域、第二EMI区域、第一另外的EMI区域和第二另外的EMI区域可以包含可变的“N”碱基的集合,并且其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一种,并且其中计算确定QCT序列读段簇的集合可以包括基于第一QCT标识符区域和第二QCT标识符区域以及基于第一EMI区域、第二EMI区域、第一另外的EMI区域和第二另外的EMI区域来确定QCT序列读段簇的集合。在实例中,对于QCT分子的第一集合的每个QCT分子,所对应的QCT分子序列的特征在于除了第一QCT标识符区域、第一EMI区域和第二EMI区域之外,与生物靶的第一序列模板的全序列相似性;并且其中,对于QCT分子的第二集合的每个另外的QCT分子,所对应的另外的QCT分子序列的特征在于除了第二QCT标识符区域、第一另外的EMI区域和第二另外的EMI区域之外,与第二序列模板的全序列相似性。在具体实例中,除了被不同的、先前确定的QCT标识符区域(例如,独特的标识符序列等)中断的两个隔开的5N序列区段之外,QCT分子序列可以与靶分子序列(例如,靶分子序列的一个或更多个区域等)相同。在具体实例中,可以使用QCT标识符区域(例如,如图2中示出的独特的QCT ID序列,等等),以使得能够使用多于一个QCT文库,所述QCT文库可以在一个阶段添加用于内部对照,或在不同阶段添加用于追踪输入生物靶的损失或其他用户误差。另外地或可选地,可以以任何合适的方式配置QCT标识符区域。但是,QCT分子可以包含任何合适类型的区域的任何合适组合(例如,其中不同的QCT分子包含相同或不同的类型和/或数目的区域;与靶分子的序列区域具有任何合适的序列相似性和/或相异性等)。
在变化形式中,方法100可以另外地或可选地包括生成一个或更多个QCT文库(例如,每个QCT文库包含QCT分子等),诸如其中QCT文库可以包含QCT分子的多于一个集合,诸如其中QCT分子的每个集合可由不同的QCT标识符区域鉴定。在实例中,生成QCT文库可以包括扩增QCT分子的不同集合(例如,用于为测序进行制备,诸如其中QCT分子被扩增,然后添加到样品的一种或更多种组分中以生成QCT混合物等)。在实例中,生成QCT文库可以包括确定待包含在QCT文库中的QCT分子的数目。在具体实例中,生日问题的解决方案可以用于确定在给定特定的QCT分子多样性的情况下,应当包含在每个样品中的独特的QCT分子的最大数目,诸如其中,对于4^10种序列,其可以通过QCT分子中的10个可变的N碱基生成,可以使用多达1200种QCT分子,单次有效EMI冲突的概率为~0.5(exp(-1200*1199/2/4^10)~0.5),并且其中在200种QCT分子的情况下,单次有效冲突的概率为~2%。在具体实例中,生成QCT文库可以包括生成适于为样品的集合中的每个样品配置(例如,在测序文库制备和高通量测序中的至少一种的单个阶段等)少于0.00001纳克(和/或其它合适的量)的可扩增的QCT分子的QCT文库。但是,确定待包含在QCT文库中的QCT分子的数目和生成QCT文库可以以任何合适的方式进行。
在实例中,QCT文库可以通过合成含有可变的“N”序列的单链寡核苷酸序列的互补链来生成。在具体实例中,双链QCT文库可以通过将QCT超聚物(ultramer)与互补引物序列一起重悬和退火,使用克列诺片段(exo-)延伸序列,并且用外切核酸酶I处理来生成。可以纯化终产物以去除未使用的单链DNA分子,并且QCT文库可以使用荧光测定诸如Qubit HS测定来量化,由此可以通过使用双链QCT分子的预期分子量来计算待添加到每个样品中的QCT分子的数目。
但是,生成QCT分子S110可以以任何合适的方式进行。
2.2确定QCT序列读段簇的集合。
方法100的实施方案可以包括确定一种或更多种QCT序列读段簇S120,S120可以发挥对QCT分子序列读段进行聚类(例如,在测序文库制备和测序之后等)的功能,以用于促进测序相关参数确定。
QCT序列读段簇优选地包含QCT分子序列读段(例如,源自对应于一种或更多种QCT混合物的测序等,所述QCT混合物基于QCT分子的一种或更多种集合和包含生物靶的一个或更多个样品生成),但是可以另外地或可选地包含任何合适的读段和/或与测序相关的组成部分。
可对QCT分子序列读段进行计算聚类,诸如用于确定已经分配到每个样品中的QCT分子的一种或更多种集合的身份。可以使用多种计算聚类方法,包括但不限于主成分分析、K均值、分层聚类和/或任何基于序列同一性的聚类方法。另外地或可选地,聚类、与聚类相关的计算分析(例如,预处理、过滤等),和/或方法100的实施方案的任何其他合适的部分可以应用包括以下任一种或更多种的人工智能方法(例如,机器学习方法等):监督学习(例如,使用逻辑回归,使用反向传播(back propagation)神经网络,使用随机森林、决策树等)、无监督学习(例如,使用先验算法(Apriori algorithm)、使用K-均值聚类)、半监督学习、深度学习算法(例如,神经网络、局限型玻尔兹曼机(restricted Boltzmann machine)、深度置信网络方法、卷积神经网络方法、循环神经网络方法、堆栈自动编码器方法(stackedauto-encoder method)等)、强化学习(例如,使用Q学习算法、使用时间差异学习)、回归算法(例如,普通最小二乘法、逻辑回归、逐步回归、多元自适应回归样条(multivariateadaptive regression splines)、本地散点平滑估计(locally Estimated ScatterplotSmoothing)等)、基于实例的方法(例如,k最近邻域、学习向量量化、自组织映射等)、正则化方法(例如,岭回归、最小绝对值收缩和选择算子(least absolute shrinkage andselection operator)、弹性网络等)、决策树学习方法(例如,分类和回归树、迭代二叉树3、C4.5、卡方自动交互检测、决策树桩(decision stump)、随机森林、多元自适应回归样条、梯度提升机(gradient boosting machines)等)、贝叶斯方法(例如,朴素贝叶斯(naiveBayes)、平均单依赖估计(averaged one-dependence estimators)、贝叶斯置信网络(Bayesian belief network)等)、核方法(例如,支持向量机、径向基函数、线性判别分析等)、聚类方法(例如,k-均值聚类、期望最大化等),关联规则学习算法(associated rulelearning algorithm)(例如,先验算法、Eclat算法等)、人工神经网络模型(例如,感知机方法(Perceptron method)、反向传播方法、Hopfield网络方法、自组织映射方法、学习向量量化方法等)、降维方法(例如,主成分分析、偏最小二乘回归、Sammon映射、多维标度(multidimensional scaling)、投影寻踪等)、集成方法(例如,提升(boosting)、靴襻式聚集(bootstrapped aggregation)、AdaBoost、堆栈泛化(stacked generalization)、梯度提升机方法、随机森林方法等)和/或任何合适的人工智能方法。
确定QCT序列读段簇优选地基于QCT分子的一个或更多个区域(例如,变异区域、QCT标识符区域等)(例如,基于对应于QCT分子的区域的序列读段等),但是可以另外地或可选地基于任何合适的数据。在具体实例中,在QCT分子(例如,靶相关的质量控制模板等)与样品的组分组合,并且使用与靶序列区域和QCT分子序列(例如,QCT分子的靶相关区域等)两者互补的引物扩增生物靶(例如,包含靶序列区域的核酸分子等)后,分子可以被加索引以便多重化、测序,并且测序读段可以基于它们的多重化索引来分开。在具体实例中,加索引的读段可以然后通过QCT标识符区域(例如,QCT ID序列等)被聚类成不同的QCT组或者可以基于与预期QCT序列(除了变异区域诸如EMI区域等之外)的精确序列匹配来鉴定。在实例中,确定(例如,计算确定等)QCT序列读段簇的集合可以包括基于满足第一条件(例如,少于相异性碱基阈值数目等)的变异区域序列相似性(例如,第一QCT分子的第一变异区域与第二QCT分子的第二变异区域之间的相似性)将QCT序列读段簇的集合的第一QCT分子序列读段和第二QCT分子序列读段聚类成QCT序列读段簇,并且对于QCT序列读段簇的集合的每个QCT序列读段簇,确定QCT序列读段簇向鉴定样品的集合的样品标识符的集合中的样品标识符(例如,向样品、向与测序文库制备和/或测序相关的样品室等)的分配,诸如其中确定测序相关参数(例如,污染参数等)可以基于QCT序列读段簇的集合和QCT序列读段簇向样品标识符的集合中的样品标识符的分配。在具体实例中,将第一QCT序列读段和第二QCT序列读段聚类可以包括基于少于三个点取代(point substitution)的变异区域序列相似性,并且基于与满足第二条件(例如,每个QCT序列读段簇大于20读段深度、大于30读段深度、大于任何合适的读段深度等)的与QCT序列读段簇相关的读段深度,将第一QCT序列读段和第二QCT序列读段聚类成QCT序列读段簇。在具体实例中,如果在同一孔中以更高的读段深度观察到具有2个或更少的点取代的另一种QCT分子序列读段,则可以汇集QCT分子序列读段(例如,包含EMI区域序列的序列读段)。在具体实例中,每个EMI被分配至特定的样品和对应的孔以及索引或索引对。
在变化形式中,确定QCT序列读段簇可以包括确定和/或弃去(例如,过滤掉等)无效的QCT序列读段簇(例如,无效的EMI簇等)。在实例中,如图10中示出的,无效的QCT序列读段簇可以包括读段深度低于和/或处于阈值(例如,20个或更少的读段、30个或更少的读段、任何合适的读段深度的阈值等)和/或满足任何合适的条件(例如,匹配预定的读段深度条件的读段数目等)的QCT序列读段簇,诸如其中对于分子计数,无效的QCT序列读段簇可以被弃去。在具体实例中,有效的QCT序列读段簇(例如,在弃去无效的QCT序列读段簇之后剩余的QCT序列读段簇等)可以用于确定每个样品的质量控制模板数目与测序读段计数的比率(例如,其中该比率可以用作量化靶分子数目的校正因子等)。在具体实例中,如图10中示出的,在平均EMI读段深度>30时,有效QCT序列读段簇对无效的QCT序列读段簇(例如,EMI簇等)可以通过测序深度的显著降低来清楚地鉴定,并且在较低的平均读段深度,可以使用自适应方法(例如,自适应读段深度阈值确定等)来鉴定有效和EMI对无效的EMI。在具体实例中,确定QCT序列读段簇的集合可以包括基于对应于QCT序列读段簇(例如,有效QCT序列读段簇等)的经过滤的子集的读段深度(例如,满足读段深度阈值条件和/或其他合适的条件等)确定QCT序列读段簇的经过滤的子集,诸如其中确定测序相关参数(例如,靶分子计数,诸如原始样品中存在的靶分子的数目等)可以包括基于QCT序列读段簇的经过滤的子集确定QCT分子计数(例如,其中QCT序列读段簇的经过滤的子集中的QCT序列读段簇的数目可以对应于QCT分子计数等);基于QCT分子计数和QCT分子序列读段确定校正因子比率(例如,将QCT分子计数除以QCT分子序列读段等);以及基于校正因子比率和源自测序的靶分子序列读段确定靶分子计数(例如,将靶分子序列读段的数目乘以校正因子比率等),靶分子序列读段与生物靶相关(例如,包含靶分子的靶序列区域等)。在具体实例中,方法100可以包括基于QCT分子序列读段的读段深度分布特征适应性地确定读段深度阈值,并且其中确定QCT序列读段簇的经过滤的子集可以包括基于读段深度满足适应性地确定的读段深度阈值来确定经过滤的子集。在具体实例中,对于QCT序列读段簇的经过滤的子集的对应QCT序列读段簇,所述读段深度的每个读段深度可以对应于多于二十个读段(和/或其他合适的读段数目等)。在实例中,由于测序和PCR错误,无效的QCT序列读段簇可能由于除污染以外的方面而无效。另外地或可选地,确定有效或无效的QCT序列读段簇可以以任何合适的方式进行。但是,确定QCT序列读段簇S120可以以任何合适的方式进行。
2.3确定测序相关参数。
方法100的实施方案可以包括确定一种或更多种测序相关参数S130。
测序相关参数可以包括以下中的任一种或更多种:污染参数(例如,描述与测序文库制备和/或测序相关的污染,诸如跨不同用户、样品、实验的污染等);分子计数参数(例如,描述最初存在于特定样品和/或混合物中的分子诸如靶分子和/或QCT分子的数目等);样品追踪参数(例如,与样品损失相关的参数等);样品处理误差参数(例如,描述噪声、误差性样品处理操作诸如移液误差、系统误差等);定量误差参数(例如,描述定量误差等);分析误差参数(例如,描述计算分析误差等)和/或与测序文库制备、测序、关联分析和/或其他合适的方面相关的任何合适的参数。在实例中,如图11中示出的,跨多于一个样品确定的QCT分子的数目可以用于确定描述噪声和/或误差性样品处理的样品处理误差;其中可以在PCR之前将大致对应于~200个独特的QCT分子的相同体积的QCT分子添加到每个样品中,并且有效的QCT序列读段簇(例如,EMI簇等)可以从PCR和测序后的测序数据确定;其中~200个QCT分子的预期变异系数(CV)为sqrt(200)/200~7%,这与图11中示出的跨12个样品观察到的数据一致;其中,如果任何样品低于特定阈值(例如,3σ,200-3*sqrt(200)~150或不太严格的阈值~200/2~100),则结果可以用于鉴定该特定样品的样品处理误差;并且其中QCT分子的数目也可以增加以确定一个过程中对应于低于7%CV的另外的样品处理误差参数。在实例中,确定测序相关参数可以包括鉴定未分配至QCT序列读段簇的集合中的QCT序列读段簇的QCT序列读段;以及从未分配的QCT序列读段的数目和QCT序列读段的总数来确定测序误差率和聚合酶误差率中的至少一种(例如,端至端测序(end-to-end sequencing)误差率和聚合酶误差率等)。在具体实例中,具有针对靶序列或参考序列的变异区域(例如,靶变异区域、参考变异区域等)但在序列上与QCT读段簇序列不相同的任何序列是由于测序误差或聚合酶误差引起的。在具体实例中,这些序列的读段计数除以总QCT读段计数是组合的测序和聚合酶误差频率。前者,即测序误差,可以由线性过程产生,而聚合酶误差可以由指数性过程产生(例如,除非采用线性PCR),其中PCR早期循环中的误差的影响可以被指数性放大。因此,在具体实例中,通过分析未分配至QCT读段簇的序列的读段计数的分布,可以计算测序误差与聚合酶误差的贡献。但是,确定测序误差率和/或聚合酶误差率可以以任何合适的方式进行。
在变化形式中,确定测序相关参数可以基于用QCT分子的多于一个集合(例如,被不同的共有QCT标识符区域鉴定的QCT分子的不同集合;在与测序文库制备和/或测序相关的不同阶段配置的QCT分子的不同集合等)进行处理,诸如基于对应于QCT分子的不同集合的QCT序列读段簇的不同子集。在实例中,方法100可以包括生成QCT分子的集合,每种QCT分子包含在QCT分子的集合中共有且适于鉴定QCT分子的第一QCT标识符区域;生成另外的QCT分子的集合,每种另外的QCT分子包含在另外的QCT分子的集合中共有且适于鉴定另外的QCT分子的第二QCT标识符区域;基于第一QCT标识符区域和第二QCT标识符区域来确定QCT序列读段簇的集合;以及基于QCT序列读段簇的集合来确定测序相关参数。在具体实例中,QCT分子的集合可以适于在测序文库制备和测序中的至少一种的第一阶段进行配置,其中另外的QCT分子的集合适于在测序文库制备和测序中的至少一种的第二阶段进行配置,其中计算确定QCT序列读段簇的集合包括:确定QCT序列读段簇的集合的第一子集(例如,基于所对应的第一QCT分子的第一QCT标识符区域和第一变异区域等),其中第一子集对应于第一QCT标识符区域并且与第一阶段相关;以及确定QCT序列读段簇的集合的第二子集(例如,基于所对应的第二QCT分子的第二QCT标识符区域和第二变异区域等),其中第二子集对应于第二QCT标识符区域并且与第二阶段相关;并且其中确定测序相关参数包括基于QCT序列读段簇的集合的第一子集和第二子集,确定与样品损失相关的样品追踪参数。
在实例中,确定测序相关参数可以包括基于QCT序列读段簇的集合确定分别对应于QCT分子的集合和另外的QCT分子的集合的第一绝对计数和第二绝对计数,以及基于第一绝对计数和第二绝对计数来确定移液误差参数和定量误差参数中的至少一种。
在具体实例中,如图12中示出的,在不同的阶段使用QCT分子可以允许比较不同的样品制备方法;诸如其中DNA纯化方法可以通过在DNA纯化之前将200个QCT1分子(和/或任何合适数目的QCT分子)添加到每个血浆样品中来评价;其中通过纯化方法#1或纯化方法#2从血浆纯化DNA,并对所得的DNA样品进行PCR扩增和测序;其中在DNA纯化后但在PCR扩增前添加200个QCT2分子(和/或任何合适数目的QCT分子);其中对应于QCT2分子的有效的QCT序列读段簇的数目在两个样品之间是相似的(在~25%以内),表明对这两个样品的纯化后处理没有差异;并且其中对于纯化方法#1,QCT1的有效的QCT序列读段簇低~3x,表明纯化方法#1导致了显著的样品损失(例如,cfDNA损失)。
但是,确定测序相关参数S130可以以任何合适的方式进行。
2.3.A确定污染参数。
确定测序相关参数S130可以另外地或可选地包括确定一种或更多种污染参数S132。污染参数可以包括一种或更多种交叉污染参数(例如,描述与测序文库制备和测序中的至少一种相关的跨样品和/或样品室的交叉污染;跨不同用户的交叉污染等),遗留污染参数(例如,描述测序文库制备和测序中的至少一种的多于一个实例的遗留污染等)、索引跳跃污染参数(例如,描述与索引跳跃引物相关的索引跳跃污染等)。污染参数可以描述索引错误分配(例如,与高通量测序相关的索引错误分配等)的程度,诸如其中污染参数可以描述交叉污染(和/或其他合适的污染)和索引错误分配两者(例如,交叉污染和索引错误分配的累积效应),和/或与测序文库制备和/或测序相关的任何其他合适的特征。
在实例中,确定污染参数可以包括基于将污染序列(例如,被发现与特定样品相关;在对应于所述样品的样品室中被发现等)的读段深度相加并且除以读段总数(或与有效的QCT序列读段簇相关的QCT分子序列读段的总数)来确定特定样品的总污染百分比或分数。在具体实例中,如图10中示出的,可以确定污染参数,其中如果发现用于样品A的测序的无效的EMI簇的序列为另一样品(样品B)的有效的EMI簇,则表明样品A中的这种读段是由于来自样品B的污染引起的;其中,通过查明所有这样的污染序列的读段深度并将其相加,并且除以读段总数(或映射至有效的EMI簇的读段总数),可以确定特定样品的总污染百分比或分数;并且其中总污染百分比或分数可以用于分析临床测定可报告的分析灵敏度和特异性的最大水平,和/或作为报告失败测定和/或无判定结果而不是假阳性的阈值;诸如其中,如果特定的测定需要检测0.1%的等位基因分数,则该样品处于、高于或接近0.1%的总污染分数可以用于鉴定无判定结果;并且其中,可选地,来自污染样品的等位基因分数的知识可以用于调整该阈值(即,对于特定样品的特定等位基因的测量值,来自具有10%的相同等位基因的另一样品的1%污染与来自具有1%的该等位基因的样品的10%污染具有相同的影响)。
在具体实例中,如图4A-4D中示出的,污染可以通过鉴定每个样品室(例如,孔等)中QCT分子序列读段(例如,EMI序列读段等)的来源和目的地来测量。在具体实例中,如果在多于一个样品室(例如,多于一个孔等)中观察到相同的QCT分子序列读段(例如,相同的EMI序列读段),则该QCT分子序列读段可以被标记为来源于所述多于一个样品室中具有最大读段深度的样品室,并且可以被认为是多于一个样品室中的其它样品室(例如,其它孔等)中的污染物。在具体实例中,确定污染参数可以包括鉴定对应于共有变异区域序列的第一QCT序列读段簇和第二QCT序列读段簇,其中第一QCT序列读段簇和第二QCT序列读段簇被分配至样品标识符的集合中的不同的样品标识符(例如,鉴定不同的样品室、不同的样品等);生成与第一QCT序列读段簇相关的第一读段深度和与第二QCT序列读段簇相关的第二读段深度之间的读段深度比较;以及基于所述读段深度比较,确定与被不同样品标识符中的不同样品标识符鉴定的样品相关的污染参数。
在实例中,确定污染参数可以包括基于QCT序列读段簇的集合,确定与测序文库制备的第一实例中的第一扩增相关的第一分子指纹;基于QCT序列读段簇的另外的集合,确定与测序文库制备的第二实例中的第二扩增相关的第二分子指纹;以及基于第一分子指纹与第二分子指纹之间的比较,确定描述从第一实例到第二实例的遗留污染的遗留污染参数。
在变化形式中,确定污染参数可以包括确定索引跳跃污染参数。在具体实例中,如图13A-13B中示出的,QCT分子可以用于促进鉴定和去除污染引物和/或索引跳跃引物;其中,如图13A中示出的,每个样品被对应的D7xx索引引物加条形码,并在同一测序流动池泳道上运行以进行验证实验;其中发现D701和D707具有来源于彼此的高污染分数,该高污染分数可能是由于D701和D707索引寡核苷酸在同一寡核苷酸合成柱上合成、合成误差或索引跳跃引起,并且其中该水平为显著的5%并且可能影响临床结果;并且其中,如图13B中示出的,在随后的临床样品运行中,未使用该索引引物,这使最大污染水平降低至低于1%。
在具体实例中,如图14中示出的,QCT分子可以用于促进测量与使用独特的双重索引引物相关的真实污染水平;其中由于真实的样品-至-样品污染、索引跳跃和/或索引寡核苷酸污染的组合,标准双重索引引物可以导致0.1%污染(如样品1至9显示的);其中预期独特的双重索引使索引跳跃和索引寡核苷酸污染的影响降低至0.001*0.001~1e-6;但是其中测量值指示在双重独特索引反应中污染分数(如样品10至29示出的)最多为0.03%(3e-5),这高于预期的1e-6污染,这可以指示在实验室条件下对于给定测定的真实污染水平的检测。
但是,确定污染参数S132可以以任何合适的方式进行。
2.3.B确定分子计数参数。
确定测序相关参数S130可以另外地或可选地包括确定一种或更多种分子计数参数S134。分子计数参数可以包括一种或更多种靶分子计数(例如,靶分子的绝对分子计数,诸如原始样品中靶分子的绝对分子计数;内源性靶分子的绝对计数,诸如原始样品中内源性靶分子的绝对计数;等等);参考分子计数(例如,内源性参考分子的绝对计数;诸如原始样品中内源性参考分子的绝对计数;等等);QCT分子计数(例如,对应于有效的QCT序列读段簇的数目;对应于添加到样品组分中的不同的QCT分子的数目等);相关比率(例如,校正因子;分子计数与相关的序列读段数目之间的比率等)和/或与分子计数相关的任何其他合适的参数。
分子计数参数优选地用于促进一种或更多种诊断,但是可以另外地或可选地用于方法100的实施方案的任何合适的部分(例如,作为输入)。
在变化形式中,确定分子计数参数(例如,靶分子计数等)可以基于校正因子比率,诸如通过将靶分子序列读段的数目乘以校正因子比率来确定,所述校正因子比率基于QCT分子计数(例如,对应于QCT序列读段簇的数目,诸如有效的QCT序列读段簇的数目等)和QCT分子序列读段(例如,对应于QCT序列读段簇的QCT分子序列读段的数目等)确定。在具体实例中,有效的非污染QCT序列读段簇的数目(例如,在弃去具有2个或更少的读段和/或具有任何合适数目或更少的读段的QCT序列读段簇之后剩余的QCT序列读段簇等)可以指示QCT分子计数(例如,特定样品室的QCT分子的数目、特定样品的QCT分子的数目、特定样品标识符的QCT分子的数目等)。在具体实例中,通过将QCT分子计数除以从对应的QCT分子得到的测序读段,可以得到校正因子,诸如其中将校正因子乘以属于靶分子(例如,在特定的样品室中、来自特定样品、与特定样品标识符相关的靶分子等)的测序读段可得到靶分子计数(例如,扩增测定可及的初始生物靶分子的绝对数目等)。在实例中,用于确定内源性靶分子的绝对计数和内源性参考分子的绝对计数的平均QCT测序深度由它们对应的QCT单独确定。
可选地,在实施方案的变化形式中,用于弃去QCT序列读段簇的读段深度阈值(例如,用于确定分子计数参数和/或合适的测序相关参数等)可以基于QCT分子序列读段(例如,EMI序列读段)深度分布的特征适应性地确定。例如,通过计算每个样品内的平均EMI读段深度,计算该平均读段深度的平方根,可以为每个索引样品设置阈值,并弃去读段深度低于平均读段深度的平方根的QCT序列读段簇。另外地或可选地,对于弃去QCT序列读段簇的读段深度阈值可以以任何合适的方式计算。
但是,确定分子计数参数S134可以以任何合适的方式进行。
2.4促进诊断。
方法100的实施方案可另外地或可选地包括促进诊断S140,这可以用于协助、确定、提供和/或以其他方式促进促对一种或更多种状况的一种或更多种诊断。
促进一种或更多种诊断可以包括以下中的任一种或更多种:确定一种或更多种诊断(例如,基于一种或更多种测序相关参数等);提供一种或更多种诊断(例如,提供给一个或更多个用户;提供给一个或更多个护理提供者,诸如由一个或更多个护理提供者在向患者提供医学诊断时使用等);协助一种或更多种诊断(例如,向一个或更多个护理提供者和/或其他合适的实体提供一种或更多种测序相关参数和/或其他合适的参数,用于确定诊断,诸如与其他数据组合等)和/或与诊断相关的任何合适的过程。例如,协助诊断可以包括提供污染参数(例如,给用户、给护理提供者等),所述污染参数适于用于确定与无创产前测试和液体活组织检查中的至少一种相关的测定的诊断结果。在实例中,确定靶分子计数(和/或合适的测序相关参数等)可以包括确定用于促进与无创产前测试和液体活组织检查中的至少一种相关的诊断的靶分子计数(和/或合适的测序相关参数等)。
在变化形式中,促进诊断可以包括促进产前诊断(例如,与无创产前测试相关的产前诊断;对相关的遗传紊乱和/或合适的状况的产前诊断等)。在实例中,促进诊断可以包括基于靶分子计数参数和参考分子计数参数(例如,基于内源性靶序列的绝对计数与内源性参考序列的绝对计数之间的比较等),促进对一种或更多种遗传紊乱(例如,单基因紊乱、染色体异常等)的产前诊断。
在变化形式中,促进诊断可以包括促进对一种或更多种单基因紊乱(和/或合适的遗传紊乱)的诊断。例如,确定内源性靶分子的绝对计数可以包括确定包含与单基因紊乱相关的突变的内源性靶分子的绝对计数(例如,基于将内源性靶分子的总读段计数除以平均QCT测序深度,诸如通过将QCT分子序列读段的数目除以QCT分子的独特数目来获得等),其中确定内源性参考分子的绝对计数可以包括确定缺少所述突变的内源性参考分子的绝对计数(例如,基于将内源性参考分子的总读段计数除以平均QCT测序深度等);以及基于内源性靶序列的绝对计数与内源性参考序列的绝对计数(例如,内源性靶序列的绝对计数与内源性参考序列的绝对计数之间的比较等),促进对单基因紊乱的遗传紊乱的产前诊断。在具体实例中,如图15A-15D中示出的,可以测量和比较样品中疾病等位基因和非疾病等位基因的数目,以从母体血液确定发育中的胎儿的基因型;其中图15A包括通过QCT分子测量的镰状细胞性状(SCT)样品中HbS(突变的血红蛋白)和HbA(正常血红蛋白)分子的数目,其中预期HbS等位基因和HbA等位基因的频率相同,代表妊娠女性和发育中的胎儿对于该紊乱均为杂合性的情况;其中图15B包括通过QCT测量的SCT+10%镰状细胞病(SCD)样品中HbS和HbA分子的数目,代表妊娠女性是该紊乱的携带者,而发育中的胎儿从双亲遗传了疾病等位基因并且从而患有疾病的情况;其中图15C包括分子数目和胎儿分数测量值(例如,在母亲与胎儿基因型不同的最多9个基因座处的测量值),以便用于通过相对突变剂量(RMD)分析来计算胎儿遗传了该紊乱的后验概率;并且其中图15D包括添加有0%与10%SCD的SCT样品的平均值和95%置信区间(例如,代表来自是紊乱携带者的妊娠女性的携带者胎儿与患病胎儿)。但是,促进单基因紊乱的诊断可以以任何合适的方式进行。
在变化形式中,促进诊断可以包括促进对一种或更多种染色体异常(和/或合适的遗传紊乱)的诊断。例如,确定内源性靶分子的绝对计数可以包括确定与第一染色体相关的内源性靶分子的绝对计数(例如,基于将内源性靶分子的总读段计数除以平均QCT测序深度等),其中确定内源性参考分子的绝对计数可以包括确定与第二染色体相关的内源性参考分子的绝对计数(例如,基于将内源性参考分子的总读段计数除以平均QCT测序深度等);以及基于内源性靶序列的绝对计数与内源性参考序列的绝对计数(例如,内源性靶序列的绝对计数与内源性参考序列的绝对计数之间的比较等),促进对染色体异常的产前诊断。在具体实例中,如图16A-16B中示出的,Chr21和另一染色体的数目可以使用QCT分子来类似地计数,以便确定Chr 21的数目是否过多(例如,与另一染色体相比)而指示胎儿患有唐氏综合征;其中对于所计数的3条染色体对比2条染色体的差异,信号可以是遗传性隐性紊乱的一半(例如,HbSS对比HbAS为2相对比1的信号;100%增加对比50%增加),这可以指示需要对每条染色体上的多于一个基因座进行计数,以提高从母体血液的循环DNA测量发育中的胎儿的唐氏综合征的准确度;并且其中方法100的实施方案的部分可以另外地或可选地用于促进对其他从头突变和/或染色体异常诸如18三体综合征和/或迪格奥尔格综合征的诊断。
在变化形式中,促进诊断可以包括促进对一种或更多种染色体微缺失的诊断。例如,确定内源性靶分子的绝对计数可以包括基于将内源性靶分子的总读段计数除以平均QCT测序深度,确定与微缺失区域相关的内源性靶分子的绝对计数,其中确定内源性参考分子的绝对计数可以包括基于将内源性参考分子的总读段计数除以平均QCT测序深度,确定与预期不具有微缺失的第二染色体区域相关的内源性参考分子的绝对计数,并且其中促进对遗传紊乱的诊断(例如,产前诊断等)可以包括基于比较促进对染色体微缺失的诊断(例如,产前诊断等)。
在变化形式中,促进诊断可以包括促进对一种或更多种拷贝数变异的诊断。例如,确定内源性靶分子的绝对计数可以包括基于将内源性靶分子的总读段计数除以平均QCT测序深度,确定与可能具有拷贝数变异的区域相关的内源性靶分子的绝对计数,其中确定内源性参考分子的绝对计数可以包括基于将内源性参考分子的总读段计数除以平均QCT测序深度,确定与预期不具有拷贝数变异的区域相关的内源性参考分子的绝对计数,并且其中促进对遗传紊乱的诊断(例如,产前诊断)可以包括基于比较促进对拷贝数变异的诊断(例如,产前诊断)。
另外地或可选地,促进诊断可以用于任何合适的条件。
如图15C和图16B中示出的,促进诊断可以基于一种或更多种胎儿分数测量值。例如,促进产前诊断可以包括基于胎儿分数测量值、内源性靶序列的绝对计数和内源性参考序列的绝对计数来促进对遗传紊乱的产前诊断。但是,将胎儿分数测量值用于方法100的实施方案的任何合适的过程可以以任何合适的方式进行,并且促进诊断S140可以以任何合适的方式进行。
但是,方法100的实施方案可以以任何合适的方式进行。
方法100和/或系统200的实施方案可以包括多种系统组成部分和多种方法过程(包括任何变型(variant)(例如,实施方案、变化形式、实例、具体实例、附图等))的每种组合和布置,其中通过和/或使用本文描述的系统200和/或其他实体的一种或更多种实例、要素、组成部分和/或其他方面,本文描述的方法100和/或过程的实施方案的部分可以异步地(例如,顺序地)、同时地(例如,并行地)或以任何其他合适的顺序进行。
本文描述的任何变型(例如,实施方案、变化形式、实例、特定实例、附图等)和/或本文描述的变型的任何部分可以另外地或可选地组合、集合(aggregate)、排除、使用、串行执行、并行执行和/或以其他方式应用。
方法100和/或系统200的实施方案的部分可以至少部分地作为被配置为接收存储有计算机可读指令的计算机可读介质的机器来实施和/或实现。所述指令可以由可以与所述系统集成的计算机可执行部件来执行。计算机可读介质可以储存在任何合适的计算机可读介质上,诸如RAM、ROM、闪存、EEPROM、光学装置(CD或DVD)、硬盘驱动器、软盘驱动器或任何合适的装置。计算机可执行部件可以是通用或专用处理器,但任何合适的专用的硬件或硬件/固件组合装置可以可选择地或另外地执行所述指令。
如本领域技术人员将从先前的详细描述以及从附图和权利要求书认识到的,可以对方法100、系统200和/或变型的实施方案进行修改和改变而不脱离本权利要求书中定义的范围。
Claims (52)
1.一种用于鉴定与测序文库制备和高通量测序中的至少一种相关的污染的方法,所述方法包括:
·生成质量控制模板(QCT)分子的集合,每个QCT分子包含:
·与生物靶的靶序列区域具有序列相似性的靶相关区域,和
·与所述生物靶的序列区域具有序列相异性的变异区域;其中所述变异区域包含具有随机选择的核苷酸序列的嵌入式分子标识符,其中所述嵌入式分子标识符鉴定所述QCT分子;以及
·生成包含所述QCT分子的集合和样品的核酸分子的混合物;
·共扩增所述混合物;
·对共扩增的混合物进行测序以生成测序数据;
·基于所述测序数据中鉴定的所述QCT分子的集合的不同的变异区域的数目,使用所述测序数据计算确定QCT序列读段簇的集合,
·其中所述QCT序列读段簇的集合包括源自对应于QCT混合物的集合的高通量测序的QCT分子序列读段,所述QCT混合物的集合基于所述QCT分子的集合和包含所述生物靶的样品集合生成,并且
·其中所述测序文库制备包括基于所述靶相关区域与所述生物靶的靶序列区域的序列相似性对所述QCT分子的集合和包含所述生物靶的核酸分子进行共扩增;以及
·基于QCT分子的数目,确定描述与所述测序文库制备和所述高通量测序中的至少一种相关的污染的污染参数。
2.如权利要求1所述的方法,其中计算确定所述QCT序列读段簇的集合包括:
·基于第一QCT分子的第一变异区域和第二QCT分子的第二变异区域之间满足第一条件的变异区域序列相似性,将第一QCT分子序列读段和第二QCT分子序列读段聚类成所述QCT序列读段簇的集合中的QCT序列读段簇,以及
·对于所述QCT序列读段簇的集合的每个QCT序列读段簇,确定所述QCT序列读段簇向鉴定所述样品集合的样品标识符集合中的样品标识符的分配,
·其中确定所述污染参数还基于所述QCT序列读段簇向所述样品标识符集合中的样品标识符的分配。
3.如权利要求2所述的方法,其中确定所述污染参数包括:
·鉴定对应于共有变异区域序列的第一QCT序列读段簇和第二QCT序列读段簇,其中所述第一QCT序列读段簇和所述第二QCT序列读段簇被分配至所述样品标识符集合中的不同样品标识符;
·生成与所述第一QCT序列读段簇相关的第一读段深度和与所述第二QCT序列读段簇相关的第二读段深度之间的读段深度比较;以及
·基于所述读段深度比较,确定与通过所述样品标识符集合中的第一不同样品标识符鉴定的样品相关的所述污染参数。
4.如权利要求2所述的方法,其中将所述第一QCT序列读段和所述第二QCT序列读段聚类成所述QCT序列读段簇基于少于三个点取代的变异区域序列相似性,并且还基于与满足第二条件的QCT序列读段簇相关的读段深度。
5.如权利要求1所述的方法,其中确定所述污染参数包括:
·基于所述QCT序列读段簇的集合,确定与所述测序文库制备的第一实例中的第一扩增相关的第一分子指纹;
·基于QCT序列读段簇的另外的集合,确定与所述测序文库制备的第二实例中的第二扩增相关的第二分子指纹;以及
·基于所述第一分子指纹与所述第二分子指纹之间的比较,确定描述从所述第一实例到所述第二实例的遗留污染的遗留污染参数。
6.如权利要求1所述的方法,其中所述污染参数描述与所述高通量测序相关的索引错误分配的程度。
7.如权利要求6所述的方法,其中所述污染参数适用于确定与无创产前测试和液体活组织检查中的至少一种相关的测定的诊断结果。
8.如权利要求1所述的方法,所述方法还包括生成包含所述QCT分子的集合的单个QCT文库,其中所述单个QCT文库适于在所述测序文库制备和所述高通量测序中的至少一种的单个阶段为所述样品集合的每个样品配置少于0.00001纳克的可扩增的QCT分子。
9.如权利要求1所述的方法,
·其中所述变异区域包括第一嵌入式分子标识符(EMI)区域,所述第一EMI区域包含可变的“N”碱基的第一集合,其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一个,
·其中所述QCT分子的集合的每个QCT分子还包含第二EMI区域,所述第二EMI区域包含可变的“N”碱基的第二集合,其中所述第二EMI区域与所述第一EMI区域被所述QCT分子的序列区域隔开,其中所述可变的“N”碱基的第一集合和所述可变的“N”碱基的第二集合各自包含多于三个“N”碱基,并且
·其中确定所述污染参数基于所述QCT序列读段簇的集合,所述QCT序列读段簇基于所述QCT分子的集合中的所述第一EMI区域和所述第二EMI区域获得。
10.一种与测序文库制备和测序中的至少一种相关的表征方法,所述方法包括:
·生成质量控制模板(QCT)分子的集合,每个QCT分子包含:
·与生物靶的靶序列区域具有序列相似性的靶相关区域,和
·与所述生物靶的序列区域具有序列相异性的变异区域;其中所述变异区域包含具有随机选择的核苷酸序列的嵌入式分子标识符,其中所述嵌入式分子标识符鉴定所述QCT分子;
·生成包含所述QCT分子的集合和样品的核酸分子的混合物;
·共扩增所述混合物;
·对共扩增的混合物进行测序以生成测序数据;
·基于所述测序数据中鉴定的所述QCT分子的集合的不同变异区域的数目,使用所述测序数据计算确定QCT序列读段簇的集合,其中所述QCT序列读段簇的集合包含源自对应于QCT混合物的测序的QCT分子序列读段,所述QCT混合物基于所述QCT分子的集合和包含所述生物靶的样品生成;以及
·基于所述QCT序列读段簇的集合计算确定所述共扩增之前所述混合物中QCT分子的计数;
·基于所述QCT分子的数目,确定与所述测序文库制备和所述测序中的至少一种相关的测序相关参数。
11.如权利要求10所述的方法,
·其中所述每个QCT分子包含第一QCT标识符区域,所述第一QCT标识符区域是所述QCT分子的集合中共有的并且适于鉴定所述QCT分子,
·其中所述方法还包括生成另外的QCT分子的集合,每个另外的QCT分子包含第二QCT标识符区域,所述第二QCT标识符区域是所述另外的QCT分子的集合中共有的并且适于鉴定所述另外的QCT分子;以及
·其中计算确定所述QCT序列读段簇的集合包括基于所述第一QCT标识符区域和所述第二QCT标识符区域确定所述QCT序列读段簇的集合。
12.如权利要求11所述的方法,
·其中所述QCT分子的集合适于在所述测序文库制备和所述测序中的至少一种的第一阶段进行配置,
·其中所述另外的QCT分子的集合适于在所述测序文库制备和所述测序中的至少一种的第二阶段进行配置,
·其中计算确定所述QCT序列读段簇的集合包括:
ο确定所述QCT序列读段簇的集合的第一子集,其中所述第一子集对应于所述第一QCT标识符区域并且与所述第一阶段相关,和
ο确定所述QCT序列读段簇的集合的第二子集,其中所述第二子集对应于所述第二QCT标识符区域并且与所述第二阶段相关;并且
·其中确定与所述测序文库制备和所述测序中的至少一种相关的所述测序相关参数包括基于所述QCT序列读段簇的集合的所述第一子集和所述第二子集,确定与样品损失相关的样品追踪参数。
13.如权利要求11所述的方法,其中确定与所述测序文库制备和所述测序中的至少一种相关的所述测序相关参数包括:
·基于所述QCT序列读段簇的集合,确定分别对应于所述QCT分子的集合和所述QCT分子的另外的集合的第一绝对计数和第二绝对计数,以及
·基于所述第一绝对计数和所述第二绝对计数确定移液误差参数和定量误差参数中的至少一种。
14.如权利要求11所述的方法,其中确定所述测序相关参数包括:
·鉴定未被分配至所述QCT序列读段簇集合的QCT序列读段簇的QCT序列读段;以及
·从未被分配的所述QCT序列读段的数目和QCT序列读段的总数目确定测序误差率和聚合酶误差率中的至少一种。
15.如权利要求11所述的方法,
·其中所述QCT分子还包含第一嵌入式分子标识符(EMI)区域,所述第一EMI区域与第二EMI区域至少被所述第一QCT标识符区域隔开,
·其中所述每个另外的QCT分子包含第一另外的EMI区域,所述第一另外的EMI区域与第二另外的EMI区域至少被所述第二QCT标识符区域隔开,
·其中所述第一EMI区域、所述第二EMI区域、所述第一另外的EMI区域和所述第二另外的EMI区域包含可变的“N”碱基的集合,并且其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一个,
·其中计算确定所述QCT序列读段簇的集合包括基于所述第一QCT标识符区域和所述第二QCT标识符区域以及所述第一EMI区域、所述第二EMI区域、所述第一另外的EMI区域和所述第二另外的EMI区域来确定所述QCT序列读段簇的集合。
16.如权利要求15所述的方法,
·其中,对于每个QCT分子,所对应的QCT分子序列的特征在于除了所述第一QCT标识符区域、所述第一EMI区域和所述第二EMI区域之外,与所述生物靶的第一序列模板具有全序列相似性;
·其中,对于每个另外的QCT分子,所对应的另外的QCT分子序列的特征在于除了所述第二QCT标识符区域、所述第一另外的EMI区域和所述第二另外的EMI区域之外,与第二序列模板具有全序列相似性。
17.如权利要求10所述的方法,
·其中基于所述靶相关区域与所述生物靶的靶序列区域的序列相似性,对所述混合物共扩增,以及
·其中确定与所述测序文库制备和所述测序中的至少一种相关的所述测序相关参数包括确定所述样品中原始存在的生物靶的分子计数。
18.如权利要求17所述的方法,
·其中确定所述QCT序列读段簇的集合包括基于对应于QCT序列读段簇的经过滤的子集的读段深度,确定所述QCT序列读段簇的经过滤的子集,
·其中确定所述生物靶的分子计数包括:
·基于所述QCT序列读段簇的经过滤的子集确定QCT分子计数;
·基于所述QCT分子计数和所述QCT分子序列读段确定校正因子比率;以及
·基于所述校正因子比率和源自所述测序的靶分子序列读段确定所述生物靶的分子计数,所述靶分子序列读段与所述生物靶相关。
19.如权利要求18所述的方法,所述方法还包括基于所述QCT分子序列读段的读段深度分布特征适应性地确定读段深度阈值,其中确定所述QCT序列读段簇的经过滤的子集包括基于所述读段深度满足所述适应性地确定的读段深度阈值来确定所述过滤的子集。
20.如权利要求18所述的方法,其中对于QCT序列读段簇的经过滤的子集中的对应QCT序列读段簇,所述读段深度的每个读段深度对应多于二十个读段。
21.如权利要求10所述的方法,其中确定与所述测序文库制备和所述测序中的至少一种相关的所述测序相关参数包括确定污染参数,所述污染参数包括以下中的至少一种:描述与所述测序文库制备和所述测序中的至少一种相关的跨样品室的交叉污染的交叉污染参数、描述所述测序文库制备和所述测序中的至少一种的跨多于一个实例的遗留污染的遗留污染参数,以及描述与索引跳跃引物相关的索引跳跃污染的索引跳跃污染参数。
22.如权利要求21所述的方法,
·其中所述QCT分子的集合被调整为适于所述测序,
·其中生成所述QCT分子的集合包括:
·扩增所述QCT分子的集合中的QCT分子的第一子集;以及
·扩增所述QCT分子的集合中的QCT分子的第二子集,
·其中所述QCT分子测序读段源自对应于以下的测序:
·基于所述QCT分子的第一子集和包含所述生物靶的样品生成的QCT混合物,以及
·基于所述QCT分子的第二子集和包含所述生物靶的另外的样品生成的另外的QCT混合物,其中所述样品和所述另外的样品分别对应于所述样品室的第一样品室和第二样品室。
23.一种用于分析从妊娠女性获得的母体样品以促进对遗传紊乱的存在的产前确定的系统,其中所述系统包括用于进行以下步骤的样品处理网络:
·向所述母体样品添加与所述遗传紊乱相关的质量控制模板(QCT)分子的集合,所述QCT分子的集合包含:
·与内源性靶分子的靶序列区域具有序列相似性的靶相关区域,和
·与所述内源性靶分子的序列区域具有序列相异性的变异区域,其中所述变异区域包含具有随机选择的核苷酸序列的嵌入式分子标识符,其中所述嵌入式分子标识符鉴定所述QCT分子;
·基于对所述QCT分子的集合和包含所述内源性靶分子的所述靶序列区域的核酸分子进行共扩增来生成共扩增混合物;
其中所述系统还包括用于对所述共扩增混合物进行测序的测序系统;和用于进行以下步骤的计算系统:
·基于所述变异区域的数目,计算确定所述QCT分子的集合的独特数目,所述变异区域是不同的且从来自所述测序的QCT分子序列读段被检测到,其中所述QCT分子序列读段对应于所述QCT分子的集合;
·基于将所述QCT分子序列读段的数目除以所述QCT分子的集合的独特数目来计算平均QCT测序深度;
·基于将所述内源性靶分子的总读段计数除以所述平均QCT测序深度来确定所述内源性靶分子的绝对计数;
·基于将内源性参考分子的总读段计数除以所述平均QCT测序深度来确定所述内源性参考分子的绝对计数;以及
·基于所述内源性靶分子的绝对计数与所述内源性参考分子的绝对计数之间的比较,促进对所述遗传紊乱的存在的产前确定。
24.如权利要求23所述的系统,其中
·所述遗传紊乱包括单基因紊乱,
·其中确定所述内源性靶分子的绝对计数包括基于将具有与所述单基因紊乱相关的突变的内源性靶分子的总读段计数除以所述平均QCT测序深度来确定所述内源性靶分子的数目,并且
·其中确定所述内源性参考分子的绝对计数包括基于将缺少所述突变的内源性参考分子的总读段计数除以所述平均QCT测序深度来确定所述内源性参考分子的数目,并且
·其中促进对所述遗传紊乱的存在的产前确定包括基于所述比较来促进对所述单基因紊乱的产前确定。
25.如权利要求23所述的系统,
·其中所述遗传紊乱包括染色体异常,
·其中确定所述内源性靶分子的绝对计数包括基于将与第一染色体相关的内源性靶分子的总读段计数除以所述平均QCT测序深度来确定所述内源性靶分子的数目,
·其中确定所述内源性参考分子的绝对计数包括基于将与第二染色体相关的内源性参考分子的总读段计数除以所述平均QCT测序深度来确定所述内源性参考分子的数目,并且
·其中促进对所述遗传紊乱的存在的产前确定包括基于所述比较来促进对所述染色体异常的产前确定。
26.如权利要求23所述的系统,其中所述遗传紊乱包括染色体微缺失,
·其中确定所述内源性靶分子的绝对计数包括基于将与微缺失区域相关的内源性靶分子的总读段计数除以所述平均QCT测序深度来确定所述内源性靶分子的数目,
·其中确定所述内源性参考分子的绝对计数包括基于将与预期不具有微缺失的第二染色体区域相关的内源性参考分子的总读段计数除以所述平均QCT测序深度来确定所述内源性参考分子的数目,并且
·其中促进对所述遗传紊乱的存在的产前确定包括基于所述比较来促进对所述染色体微缺失的产前确定。
27.如权利要求23所述的系统,其中所述遗传紊乱包括拷贝数变异,
·其中确定所述内源性靶分子的绝对计数包括基于将与具有拷贝数变异的区域相关的内源性靶分子的总读段计数除以所述平均QCT测序深度来确定所述内源性靶分子的数目,
·其中确定所述内源性参考分子的绝对计数包括基于将与预期不具有拷贝数变异的区域相关的内源性参考分子的总读段计数除以所述平均QCT测序深度来确定所述内源性参考分子的数目,以及
·其中促进对所述遗传紊乱的存在的产前确定包括基于所述比较来促进对所述拷贝数变异的产前确定。
28.如权利要求23所述的系统,其中用于确定所述内源性靶分子的绝对计数和所述内源性参考分子的绝对计数的所述平均QCT测序深度从它们对应的QCT单独确定。
29.如权利要求23所述的系统,其中促进对所述遗传紊乱的存在的产前确定还基于胎儿分数测量值。
30.一种用于鉴定与测序文库制备和高通量测序中的至少一种相关的污染的系统,所述系统包括:
用于生成质量控制模板(QCT)分子的集合的样品处理网络,每个QCT分子包含:
·与生物靶的靶序列区域具有序列相似性的靶相关区域,和
·与所述生物靶的序列区域具有序列相异性的变异区域,其中所述变异区域包含具有随机选择的核苷酸序列的嵌入式分子标识符,其中所述嵌入式分子标识符鉴定所述QCT分子;以及
用于进行以下步骤的计算系统:
·基于所述QCT分子的集合的变异区域计算确定QCT序列读段簇的集合,
·其中所述QCT序列读段簇的集合包括源自对应于QCT混合物的集合的高通量测序的QCT分子序列读段,所述QCT混合物的集合基于所述QCT分子的集合和包含所述生物靶的样品集合生成,并且
·其中所述测序文库制备包括基于所述靶相关区域与所述生物靶的靶序列区域的序列相似性对所述QCT分子的集合和包含所述生物靶的核酸分子进行共扩增;以及
·基于所述QCT序列读段簇的集合,确定描述与所述测序文库制备和所述高通量测序中的至少一种相关的污染的污染参数。
31.如权利要求30所述的系统,其中计算确定所述QCT序列读段簇的集合包括:
·基于第一QCT分子的第一变异区域和第二QCT分子的第二变异区域之间满足第一条件的变异区域序列相似性,将第一QCT分子序列读段和第二QCT分子序列读段聚类成所述QCT序列读段簇的集合中的QCT序列读段簇,以及
·对于所述QCT序列读段簇的集合的每个QCT序列读段簇,确定所述QCT序列读段簇向鉴定所述样品集合的样品标识符集合中的样品标识符的分配,
·其中确定所述污染参数还基于所述QCT序列读段簇向所述样品标识符集合中的样品标识符的分配。
32.如权利要求31所述的系统,其中确定所述污染参数包括:
·鉴定对应于共有变异区域序列的第一QCT序列读段簇和第二QCT序列读段簇,其中所述第一QCT序列读段簇和所述第二QCT序列读段簇被分配至所述样品标识符集合中的不同样品标识符;
·生成与所述第一QCT序列读段簇相关的第一读段深度和与所述第二QCT序列读段簇相关的第二读段深度之间的读段深度比较;以及
·基于所述读段深度比较,确定与通过所述样品标识符集合中的第一不同样品标识符鉴定的样品相关的所述污染参数。
33.如权利要求31所述的系统,其中将所述第一QCT序列读段和所述第二QCT序列读段聚类成所述QCT序列读段簇基于少于三个点取代的变异区域序列相似性,并且还基于与满足第二条件的QCT序列读段簇相关的读段深度。
34.如权利要求30所述的系统,其中确定所述污染参数包括:
·基于所述QCT序列读段簇的集合,确定与所述测序文库制备的第一实例中的第一扩增相关的第一分子指纹;
·基于QCT序列读段簇的另外的集合,确定与所述测序文库制备的第二实例中的第二扩增相关的第二分子指纹;以及
·基于所述第一分子指纹与所述第二分子指纹之间的比较,确定描述从所述第一实例到所述第二实例的遗留污染的遗留污染参数。
35.如权利要求30所述的系统,其中所述污染参数描述与所述高通量测序相关的索引错误分配的程度。
36.如权利要求35所述的系统,其中所述污染参数适用于确定与无创产前测试和液体活组织检查中的至少一种相关的测定的诊断结果。
37.如权利要求30所述的系统,其中所述系统还进行生成包含所述QCT分子的集合的单个QCT文库的步骤,其中所述单个QCT文库适于在所述测序文库制备和所述高通量测序中的至少一种的单个阶段为所述样品集合的每个样品配置少于0.00001纳克的可扩增的QCT分子。
38.如权利要求30所述的系统,
·其中所述嵌入式分子标识符(EMI)区域包含可变的“N”碱基的集合,其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一个,
·其中所述QCT分子的集合的每个QCT分子还包含另外的EMI区域,所述另外的EMI区域包含可变的“N”碱基的另外的集合,其中所述另外的EMI区域与所述EMI区域被所述QCT分子的序列区域隔开,其中所述可变的“N”碱基的集合和所述可变的“N”碱基的另外的集合各自包含多于三个“N”碱基,并且
·其中确定所述污染参数基于所述QCT序列读段簇的集合,所述QCT序列读段簇基于所述QCT分子的集合中的所述EMI区域和所述另外的EMI区域获得。
39.一种用于与测序文库制备和测序中的至少一种相关的表征的系统,所述系统包括:
用于生成质量控制模板(QCT)分子的集合的样品处理网络,每个QCT分子包含与生物靶的靶序列区域具有序列相似性的靶相关区域及变异区域,其中所述变异区域包含具有随机选择的核苷酸序列的嵌入式分子标识符,其中所述嵌入式分子标识符鉴定所述QCT分子;以及
用于进行以下步骤的计算系统:
·基于所述QCT分子的集合的所述变异区域计算确定QCT序列读段簇的集合,其中所述QCT序列读段簇的集合包含源自对应于QCT混合物的测序的QCT分子序列读段,所述QCT混合物基于所述QCT分子的集合和包含所述生物靶的样品生成;
·基于所述QCT序列读段簇的数目确定添加到所述样品的组分中的不同QCT分子的数目;
·基于所述QCT分子的数目,确定与所述测序文库制备和所述测序中的至少一种相关的测序相关参数。
40.如权利要求39所述的系统,
·其中所述每个QCT分子包含第一QCT标识符区域,所述第一QCT标识符区域是所述QCT分子的集合中共有的并且适于鉴定所述QCT分子,
·其中所述系统还进行生成另外的QCT分子的集合的步骤,每个另外的QCT分子包含第二QCT标识符区域,所述第二QCT标识符区域是所述另外的QCT分子的集合中共有的并且适于鉴定所述另外的QCT分子;以及
·其中计算确定所述QCT序列读段簇的集合包括基于所述第一QCT标识符区域和所述第二QCT标识符区域确定所述QCT序列读段簇的集合。
41.如权利要求40所述的系统,
·其中所述QCT分子的集合适于在所述测序文库制备和所述测序中的至少一种的第一阶段进行配置,
·其中所述另外的QCT分子的集合适于在所述测序文库制备和所述测序中的至少一种的第二阶段进行配置,
·其中计算确定所述QCT序列读段簇的集合包括:
ο确定所述QCT序列读段簇的集合的第一子集,其中所述第一子集对应于所述第一QCT标识符区域并且与所述第一阶段相关,和
ο确定所述QCT序列读段簇的集合的第二子集,其中所述第二子集对应于所述第二QCT标识符区域并且与所述第二阶段相关;并且
·其中确定所述测序相关参数包括基于所述QCT序列读段簇的集合的所述第一子集和所述第二子集,确定与样品损失相关的样品追踪参数。
42.如权利要求40所述的系统,其中确定所述测序相关参数包括:
·基于所述QCT序列读段簇的集合,确定分别对应于所述QCT分子的集合和所述QCT分子的另外的集合的第一绝对计数和第二绝对计数,以及
·基于所述第一绝对计数和所述第二绝对计数确定移液误差参数和定量误差参数中的至少一种。
43.如权利要求40所述的系统,其中确定所述测序相关参数包括:
·鉴定未被分配至所述QCT序列读段簇集合的QCT序列读段簇的QCT序列读段;以及
·从未被分配的所述QCT序列读段的数目和QCT序列读段的总数目确定测序误差率和聚合酶误差率中的至少一种。
44.如权利要求40所述的系统,
·其中所述QCT分子包含第一嵌入式分子标识符(EMI)区域,所述第一EMI区域与第二EMI区域至少被所述第一QCT标识符区域隔开,
·其中每个另外的QCT分子包含第一另外的EMI区域,所述第一另外的EMI区域与第二另外的EMI区域至少被所述第二QCT标识符区域隔开,
·其中所述第一EMI区域、所述第二EMI区域、所述第一另外的EMI区域和所述第二另外的EMI区域包含可变的“N”碱基的集合,并且其中每个“N”碱基选自“A”碱基、“G”碱基、“T”碱基和“C”碱基中的任一个,
·其中计算确定所述QCT序列读段簇的集合包括基于所述第一QCT标识符区域和所述第二QCT标识符区域以及所述第一EMI区域、所述第二EMI区域、所述第一另外的EMI区域和所述第二另外的EMI区域来确定所述QCT序列读段簇的集合。
45.如权利要求44所述的系统,
·其中,对于每个QCT分子,所对应的QCT分子序列的特征在于除了所述第一QCT标识符区域、所述第一EMI区域和所述第二EMI区域之外,与所述生物靶的第一序列模板具有全序列相似性;
·其中,对于每个另外的QCT分子,所对应的另外的QCT分子序列的特征在于除了所述第二QCT标识符区域、所述第一另外的EMI区域和所述第二另外的EMI区域之外,与第二序列模板具有全序列相似性。
46.如权利要求39所述的系统,
·其中所述QCT分子的集合的每个QCT分子包含与所述生物靶的靶序列区域具有序列相似性的靶相关区域,
·其中所述测序文库制备包括基于所述靶相关区域与所述生物靶的靶序列区域的序列相似性,对所述QCT分子的集合和包含所述生物靶的核酸分子共扩增,以及
·其中确定所述测序相关参数包括基于所述QCT序列读段簇的集合,确定描述与所述测序相关的所述生物靶的分子数目的靶分子计数。
47.如权利要求46所述的系统,
·其中确定所述QCT序列读段簇的集合包括基于对应于QCT序列读段簇的经过滤的子集的读段深度,确定所述QCT序列读段簇的经过滤的子集,
·其中确定所述靶分子计数包括:
·基于所述QCT序列读段簇的经过滤的子集确定QCT分子计数;
·基于所述QCT分子计数和所述QCT分子序列读段确定校正因子比率;以及
·基于所述校正因子比率和源自所述测序的靶分子序列读段确定所述靶分子计数,所述靶分子序列读段与所述生物靶相关。
48.如权利要求47所述的系统,其中所述系统还进行基于所述QCT分子序列读段的读段深度分布特征适应性地确定读段深度阈值的步骤,其中确定所述QCT序列读段簇的经过滤的子集包括基于所述读段深度满足所述适应性地确定的读段深度阈值来确定所述过滤的子集。
49.如权利要求47所述的系统,其中对于QCT序列读段簇的经过滤的子集中的对应QCT序列读段簇,所述读段深度的每个读段深度对应多于二十个读段。
50.如权利要求46所述的系统,其中确定所述靶分子计数包括确定用于促进与无创产前测试和液体活组织检查中的至少一种相关的诊断的靶分子计数。
51.如权利要求39所述的系统,其中确定所述测序相关参数包括确定污染参数,所述污染参数包括以下中的至少一种:描述与所述测序文库制备和所述测序中的至少一种相关的跨样品室的交叉污染的交叉污染参数、描述所述测序文库制备和所述测序中的至少一种的跨多于一个实例的遗留污染的遗留污染参数,以及描述与索引跳跃引物相关的索引跳跃污染的索引跳跃污染参数。
52.如权利要求51所述的系统,
·其中所述QCT分子的集合被调整为适于所述测序,
·其中生成所述QCT分子的集合包括:
·扩增所述QCT分子的集合中的QCT分子的第一子集;以及
·扩增所述QCT分子的集合中的QCT分子的第二子集,
·其中所述QCT分子测序读段源自对应于以下的测序:
·基于所述QCT分子的第一子集和包含所述生物靶的样品生成的QCT混合物,以及
·基于所述QCT分子的第二子集和包含所述生物靶的另外的样品生成的另外的QCT混合物,其中所述样品和所述另外的样品分别对应于所述样品室的第一样品室和第二样品室。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862614236P | 2018-01-05 | 2018-01-05 | |
US62/614,236 | 2018-01-05 | ||
PCT/US2018/045434 WO2019135790A1 (en) | 2018-01-05 | 2018-08-06 | Quality control templates for ensuring validity of sequencing-based assays |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112020565A CN112020565A (zh) | 2020-12-01 |
CN112020565B true CN112020565B (zh) | 2024-05-24 |
Family
ID=67140573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880090911.4A Active CN112020565B (zh) | 2018-01-05 | 2018-08-06 | 用于确保基于测序的测定的有效性的质量控制模板 |
Country Status (15)
Country | Link |
---|---|
US (2) | US11629381B2 (zh) |
EP (2) | EP3735470B1 (zh) |
JP (2) | JP7164125B2 (zh) |
KR (1) | KR20200106179A (zh) |
CN (1) | CN112020565B (zh) |
AU (1) | AU2018399524B2 (zh) |
BR (1) | BR112020013636A2 (zh) |
CA (1) | CA3087046A1 (zh) |
DK (1) | DK3735470T3 (zh) |
ES (1) | ES2970286T3 (zh) |
FI (1) | FI3735470T3 (zh) |
IL (1) | IL275699A (zh) |
PT (1) | PT3735470T (zh) |
SG (1) | SG11202006110UA (zh) |
WO (1) | WO2019135790A1 (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
ES2904816T3 (es) | 2012-02-27 | 2022-04-06 | Becton Dickinson Co | Composiciones para recuento molecular |
GB2546833B (en) | 2013-08-28 | 2018-04-18 | Cellular Res Inc | Microwell for single cell analysis comprising single cell and single bead oligonucleotide capture labels |
ES2934982T3 (es) | 2015-03-30 | 2023-02-28 | Becton Dickinson Co | Métodos para la codificación con códigos de barras combinatorios |
WO2017044574A1 (en) | 2015-09-11 | 2017-03-16 | Cellular Research, Inc. | Methods and compositions for nucleic acid library normalization |
US10301677B2 (en) | 2016-05-25 | 2019-05-28 | Cellular Research, Inc. | Normalization of nucleic acid libraries |
US10202641B2 (en) | 2016-05-31 | 2019-02-12 | Cellular Research, Inc. | Error correction in amplification of samples |
AU2017331459B2 (en) | 2016-09-26 | 2023-04-13 | Becton, Dickinson And Company | Measurement of protein expression using reagents with barcoded oligonucleotide sequences |
US11319583B2 (en) | 2017-02-01 | 2022-05-03 | Becton, Dickinson And Company | Selective amplification using blocking oligonucleotides |
US11519024B2 (en) * | 2017-08-04 | 2022-12-06 | Billiontoone, Inc. | Homologous genomic regions for characterization associated with biological targets |
EP3662480A4 (en) * | 2017-08-04 | 2021-05-19 | BillionToOne, Inc. | TARGET-ASSOCIATED MOLECULES FOR CHARACTERIZATION IN CONNECTION WITH BIOLOGICAL TARGETS |
WO2019161031A1 (en) * | 2018-02-15 | 2019-08-22 | Papgene, Inc. | Barcoded molecular standards |
US11365409B2 (en) | 2018-05-03 | 2022-06-21 | Becton, Dickinson And Company | Molecular barcoding on opposite transcript ends |
US11773441B2 (en) | 2018-05-03 | 2023-10-03 | Becton, Dickinson And Company | High throughput multiomics sample analysis |
JP2022511398A (ja) | 2018-10-01 | 2022-01-31 | ベクトン・ディキンソン・アンド・カンパニー | 5’転写物配列の決定 |
EP3877520A1 (en) | 2018-11-08 | 2021-09-15 | Becton Dickinson and Company | Whole transcriptome analysis of single cells using random priming |
CN113195717A (zh) | 2018-12-13 | 2021-07-30 | 贝克顿迪金森公司 | 单细胞全转录组分析中的选择性延伸 |
WO2020154247A1 (en) | 2019-01-23 | 2020-07-30 | Cellular Research, Inc. | Oligonucleotides associated with antibodies |
US11939622B2 (en) | 2019-07-22 | 2024-03-26 | Becton, Dickinson And Company | Single cell chromatin immunoprecipitation sequencing assay |
CN114729350A (zh) | 2019-11-08 | 2022-07-08 | 贝克顿迪金森公司 | 使用随机引发获得用于免疫组库测序的全长v(d)j信息 |
CN110970091B (zh) * | 2019-12-20 | 2023-05-23 | 北京优迅医学检验实验室有限公司 | 标签质控的方法及装置 |
CN115244184A (zh) | 2020-01-13 | 2022-10-25 | 贝克顿迪金森公司 | 用于定量蛋白和rna的方法和组合物 |
US11661625B2 (en) | 2020-05-14 | 2023-05-30 | Becton, Dickinson And Company | Primers for immune repertoire profiling |
US11932901B2 (en) | 2020-07-13 | 2024-03-19 | Becton, Dickinson And Company | Target enrichment using nucleic acid probes for scRNAseq |
US20220010362A1 (en) * | 2020-07-13 | 2022-01-13 | Becton, Dickinson And Company | cDNA SPIKE-IN CONTROL FOR SINGLE CELL ANALYSIS |
US11739443B2 (en) | 2020-11-20 | 2023-08-29 | Becton, Dickinson And Company | Profiling of highly expressed and lowly expressed proteins |
CN113981056A (zh) * | 2021-11-26 | 2022-01-28 | 广州达安基因股份有限公司 | 基于已知标签的内参进行高通量测序的方法 |
WO2023183812A2 (en) * | 2022-03-21 | 2023-09-28 | Billion Toone, Inc. | Molecule counting of methylated cell-free dna for treatment monitoring |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103534591A (zh) * | 2010-10-26 | 2014-01-22 | 利兰·斯坦福青年大学托管委员会 | 通过测序分析进行的非侵入性胎儿遗传筛选 |
WO2017165864A1 (en) * | 2016-03-25 | 2017-09-28 | Karius, Inc. | Synthetic nucleic acid spike-ins |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7709194B2 (en) | 2004-06-04 | 2010-05-04 | The Chinese University Of Hong Kong | Marker for prenatal diagnosis and monitoring |
US20070009884A1 (en) | 2005-04-11 | 2007-01-11 | Ghc Technologies, Inc. | Methods and apparatuses for detecting chemical or biological agents |
US10081839B2 (en) | 2005-07-29 | 2018-09-25 | Natera, Inc | System and method for cleaning noisy genetic data and determining chromosome copy number |
US20070092869A1 (en) | 2005-10-24 | 2007-04-26 | Fulmer-Smentek Stephanie B | Spike-in controls and methods for using the same |
US20080124712A1 (en) | 2006-10-26 | 2008-05-29 | Hantash Feras M | Alpha globin gene dosage assay |
KR102516709B1 (ko) | 2007-07-23 | 2023-04-03 | 더 차이니즈 유니버시티 오브 홍콩 | 핵산 서열 불균형의 결정 |
ES2620012T3 (es) | 2008-09-20 | 2017-06-27 | The Board Of Trustees Of The Leland Stanford Junior University | Diagnóstico no invasivo de la aneuploidia fetal por secuenciación |
TWI350312B (en) | 2009-03-16 | 2011-10-11 | Univ Kaohsiung Medical | Method for determining smn gene transfer and intragenic mutations |
CA2779695C (en) | 2009-11-05 | 2016-05-24 | The Chinese University Of Hong Kong | Fetal genomic analysis from a maternal biological sample |
EP3660165B1 (en) | 2009-12-22 | 2023-01-04 | Sequenom, Inc. | Processes and kits for identifying aneuploidy |
CA2786916A1 (en) | 2010-01-15 | 2011-07-21 | The University Of British Columbia | Multiplex amplification for the detection of nucleic acid variations |
WO2011091046A1 (en) | 2010-01-19 | 2011-07-28 | Verinata Health, Inc. | Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing |
GB2485645B (en) | 2010-01-19 | 2012-11-21 | Verinata Health Inc | Improved identification of partial aneuploidies using a normalising sequence |
US20120270739A1 (en) | 2010-01-19 | 2012-10-25 | Verinata Health, Inc. | Method for sample analysis of aneuploidies in maternal samples |
US20130261196A1 (en) | 2010-06-11 | 2013-10-03 | Lisa Diamond | Nucleic Acids For Multiplex Organism Detection and Methods Of Use And Making The Same |
US20120021919A1 (en) * | 2010-07-23 | 2012-01-26 | Thomas Scholl | Identification of Differentially Represented Fetal or Maternal Genomic Regions and Uses Thereof |
EP2649199A2 (en) | 2010-12-07 | 2013-10-16 | Stanford University | Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale |
WO2012129363A2 (en) | 2011-03-24 | 2012-09-27 | President And Fellows Of Harvard College | Single cell nucleic acid detection and analysis |
EP2561103B1 (en) * | 2011-06-29 | 2014-08-27 | BGI Diagnosis Co., Ltd. | Noninvasive detection of fetal genetic abnormality |
US8688388B2 (en) | 2011-10-11 | 2014-04-01 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
EP2823306A4 (en) | 2012-03-09 | 2015-11-11 | Caris Life Sciences Switzerland Holdings Gmbh | BIOMARKER COMPOSITIONS AND METHODS |
WO2013176958A1 (en) | 2012-05-21 | 2013-11-28 | Sequenom, Inc. | Methods and compositions for analyzing nucleic acid |
US10497461B2 (en) * | 2012-06-22 | 2019-12-03 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
US20160040229A1 (en) | 2013-08-16 | 2016-02-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
CA2883901C (en) | 2012-09-04 | 2023-04-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
EP2922989B1 (en) | 2012-11-26 | 2018-04-04 | The University of Toledo | Methods for standardized sequencing of nucleic acids and uses thereof |
US9944973B2 (en) | 2012-11-26 | 2018-04-17 | The University Of Toledo | Methods for standardized sequencing of nucleic acids and uses thereof |
US10643738B2 (en) | 2013-01-10 | 2020-05-05 | The Chinese University Of Hong Kong | Noninvasive prenatal molecular karyotyping from maternal plasma |
WO2014127484A1 (en) | 2013-02-21 | 2014-08-28 | British Columbia Cancer Agency Branch | Spike-in control nucleic acids for sample tracking |
WO2015051283A1 (en) | 2013-10-04 | 2015-04-09 | Rana Therapeutics, Inc. | Compositions and methods for treating amyotrophic lateral sclerosis |
US11901041B2 (en) | 2013-10-04 | 2024-02-13 | Bio-Rad Laboratories, Inc. | Digital analysis of nucleic acid modification |
WO2015058086A1 (en) | 2013-10-18 | 2015-04-23 | Good Start Genetics, Inc. | Methods for copy number determination |
IL285106B (en) | 2013-11-07 | 2022-09-01 | Univ Leland Stanford Junior | Clean nucleic acids are suitable for analyzing the human microbiome and its parts |
EP3201361B1 (en) | 2014-10-01 | 2020-02-12 | Chronix Biomedical | Methods of quantifying cell-free dna |
US10844428B2 (en) | 2015-04-28 | 2020-11-24 | Illumina, Inc. | Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS) |
EP3464593B1 (en) | 2016-05-31 | 2022-03-09 | The Translational Genomics Research Institute | Molecular tagging methods and sequencing libraries |
WO2018031486A1 (en) | 2016-08-08 | 2018-02-15 | Karius, Inc. | Reduction of signal from contaminant nucleic acids |
EP3662480A4 (en) * | 2017-08-04 | 2021-05-19 | BillionToOne, Inc. | TARGET-ASSOCIATED MOLECULES FOR CHARACTERIZATION IN CONNECTION WITH BIOLOGICAL TARGETS |
-
2018
- 2018-08-06 ES ES18898428T patent/ES2970286T3/es active Active
- 2018-08-06 KR KR1020207022621A patent/KR20200106179A/ko not_active Application Discontinuation
- 2018-08-06 JP JP2020537213A patent/JP7164125B2/ja active Active
- 2018-08-06 EP EP18898428.0A patent/EP3735470B1/en active Active
- 2018-08-06 AU AU2018399524A patent/AU2018399524B2/en active Active
- 2018-08-06 SG SG11202006110UA patent/SG11202006110UA/en unknown
- 2018-08-06 BR BR112020013636-0A patent/BR112020013636A2/pt unknown
- 2018-08-06 DK DK18898428.0T patent/DK3735470T3/da active
- 2018-08-06 FI FIEP18898428.0T patent/FI3735470T3/fi active
- 2018-08-06 CN CN201880090911.4A patent/CN112020565B/zh active Active
- 2018-08-06 CA CA3087046A patent/CA3087046A1/en active Pending
- 2018-08-06 US US16/056,254 patent/US11629381B2/en active Active
- 2018-08-06 PT PT188984280T patent/PT3735470T/pt unknown
- 2018-08-06 EP EP23211331.6A patent/EP4335928A3/en active Pending
- 2018-08-06 WO PCT/US2018/045434 patent/WO2019135790A1/en unknown
-
2020
- 2020-06-28 IL IL275699A patent/IL275699A/en unknown
-
2022
- 2022-09-23 US US17/952,098 patent/US20230015348A1/en active Pending
- 2022-10-12 JP JP2022163736A patent/JP2023017771A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103534591A (zh) * | 2010-10-26 | 2014-01-22 | 利兰·斯坦福青年大学托管委员会 | 通过测序分析进行的非侵入性胎儿遗传筛选 |
WO2017165864A1 (en) * | 2016-03-25 | 2017-09-28 | Karius, Inc. | Synthetic nucleic acid spike-ins |
Non-Patent Citations (1)
Title |
---|
Tourlousse DM等.Synthetic spike-in standards for high-throughput 16S rRNA gene amplicon sequencing.Nucleic Acids Res.2016,第45卷(第4期),1-14. * |
Also Published As
Publication number | Publication date |
---|---|
US20190211395A1 (en) | 2019-07-11 |
DK3735470T3 (da) | 2024-02-26 |
BR112020013636A2 (pt) | 2020-12-01 |
JP7164125B2 (ja) | 2022-11-01 |
PT3735470T (pt) | 2024-01-31 |
US11629381B2 (en) | 2023-04-18 |
CN112020565A (zh) | 2020-12-01 |
EP3735470A1 (en) | 2020-11-11 |
AU2018399524B2 (en) | 2022-05-26 |
EP3735470B1 (en) | 2023-11-22 |
ES2970286T3 (es) | 2024-05-27 |
IL275699A (en) | 2020-08-31 |
EP3735470A4 (en) | 2021-10-27 |
EP4335928A3 (en) | 2024-04-17 |
EP4335928A2 (en) | 2024-03-13 |
US20230015348A1 (en) | 2023-01-19 |
FI3735470T3 (fi) | 2024-02-21 |
SG11202006110UA (en) | 2020-07-29 |
CA3087046A1 (en) | 2019-07-11 |
AU2018399524A1 (en) | 2020-08-06 |
JP2021509583A (ja) | 2021-04-01 |
WO2019135790A1 (en) | 2019-07-11 |
KR20200106179A (ko) | 2020-09-11 |
JP2023017771A (ja) | 2023-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112020565B (zh) | 用于确保基于测序的测定的有效性的质量控制模板 | |
US20210065847A1 (en) | Systems and methods for determining consensus base calls in nucleic acid sequencing | |
US11961589B2 (en) | Models for targeted sequencing | |
EP3942556A1 (en) | Systems and methods for deriving and optimizing classifiers from multiple datasets | |
JP7387110B2 (ja) | 生物学的標的に関する定量化における標的関連分子のシーケンシング出力決定及び解析 | |
US20230268025A1 (en) | Target-associated molecules for characterization associated with biological targets | |
US20210102262A1 (en) | Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data | |
US20210166813A1 (en) | Systems and methods for evaluating longitudinal biological feature data | |
WO2019074963A1 (en) | CHARACTERIZATION OF THE INSTABILITY OF MICROSATELLITES | |
US20200105374A1 (en) | Mixture model for targeted sequencing | |
US20230005569A1 (en) | Chromosomal and Sub-Chromosomal Copy Number Variation Detection | |
US20240170099A1 (en) | Methylation-based age prediction as feature for cancer classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40034154 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |