CN112074909A - 在基因和基因组测试与分析中用于对变体解释进行可审计地不断优化的分子证据平台 - Google Patents
在基因和基因组测试与分析中用于对变体解释进行可审计地不断优化的分子证据平台 Download PDFInfo
- Publication number
- CN112074909A CN112074909A CN201880081247.7A CN201880081247A CN112074909A CN 112074909 A CN112074909 A CN 112074909A CN 201880081247 A CN201880081247 A CN 201880081247A CN 112074909 A CN112074909 A CN 112074909A
- Authority
- CN
- China
- Prior art keywords
- data
- evidence
- variant
- aspects
- performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 155
- 108090000623 proteins and genes Proteins 0.000 title description 31
- 238000005457 optimization Methods 0.000 title description 10
- 238000004458 analytical method Methods 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 155
- 238000012550 audit Methods 0.000 claims description 95
- 238000010200 validation analysis Methods 0.000 claims description 80
- 238000004519 manufacturing process Methods 0.000 claims description 72
- 238000012795 verification Methods 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 30
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 abstract description 7
- 238000004590 computer program Methods 0.000 abstract description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 74
- 239000003814 drug Substances 0.000 description 62
- 229940124597 therapeutic agent Drugs 0.000 description 55
- 239000000523 sample Substances 0.000 description 50
- 230000000694 effects Effects 0.000 description 46
- 238000011282 treatment Methods 0.000 description 44
- 201000010099 disease Diseases 0.000 description 39
- 208000035475 disorder Diseases 0.000 description 32
- 238000002560 therapeutic procedure Methods 0.000 description 25
- 230000002068 genetic effect Effects 0.000 description 24
- 230000008901 benefit Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 18
- 230000007918 pathogenicity Effects 0.000 description 15
- 238000003745 diagnosis Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000001717 pathogenic effect Effects 0.000 description 9
- 230000008676 import Effects 0.000 description 8
- 230000035772 mutation Effects 0.000 description 8
- 239000002773 nucleotide Substances 0.000 description 8
- 125000003729 nucleotide group Chemical group 0.000 description 8
- 102000004169 proteins and genes Human genes 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 7
- 230000001225 therapeutic effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010230 functional analysis Methods 0.000 description 6
- 108700028369 Alleles Proteins 0.000 description 5
- 230000007012 clinical effect Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 108700020463 BRCA1 Proteins 0.000 description 4
- 101150072950 BRCA1 gene Proteins 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 102000004196 processed proteins & peptides Human genes 0.000 description 4
- 108090000765 processed proteins & peptides Proteins 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 102000036365 BRCA1 Human genes 0.000 description 3
- 239000012472 biological sample Substances 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000002405 diagnostic procedure Methods 0.000 description 3
- 102000054767 gene variant Human genes 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 210000003205 muscle Anatomy 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 210000002966 serum Anatomy 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 108090000144 Human Proteins Proteins 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 239000013543 active substance Substances 0.000 description 2
- 230000006793 arrhythmia Effects 0.000 description 2
- 206010003119 arrhythmia Diseases 0.000 description 2
- 238000013474 audit trail Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000013060 biological fluid Substances 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000010353 genetic engineering Methods 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 230000000869 mutational effect Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 208000037920 primary disease Diseases 0.000 description 2
- 230000000069 prophylactic effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 102220020916 rs80357276 Human genes 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 208000037921 secondary disease Diseases 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 210000003491 skin Anatomy 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 102000021944 Butyrylcholinesterase Human genes 0.000 description 1
- 108010053652 Butyrylcholinesterase Proteins 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 208000032065 Convulsion neonatal Diseases 0.000 description 1
- 241000938605 Crocodylia Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 208000008051 Hereditary Nonpolyposis Colorectal Neoplasms Diseases 0.000 description 1
- 206010051922 Hereditary non-polyposis colorectal cancer syndrome Diseases 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 101000943274 Homo sapiens Cholinesterase Proteins 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 201000005027 Lynch syndrome Diseases 0.000 description 1
- 229910015837 MSH2 Inorganic materials 0.000 description 1
- 238000011887 Necropsy Methods 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 102000029797 Prion Human genes 0.000 description 1
- 108091000054 Prion Proteins 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 102000001742 Tumor Suppressor Proteins Human genes 0.000 description 1
- 108010040002 Tumor Suppressor Proteins Proteins 0.000 description 1
- 241000282458 Ursus sp. Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 239000005557 antagonist Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 229960003920 cocaine Drugs 0.000 description 1
- 108010084506 cocaine hydrolase Proteins 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000002380 cytological effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 210000002615 epidermis Anatomy 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002489 hematologic effect Effects 0.000 description 1
- 102000051276 human BCHE Human genes 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000009707 neogenesis Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 210000002741 palatine tonsil Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 1
- 239000008177 pharmaceutical agent Substances 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 229940002612 prodrug Drugs 0.000 description 1
- 239000000651 prodrug Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 102220020941 rs80357327 Human genes 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000405 serological effect Effects 0.000 description 1
- 229940126586 small molecule drug Drugs 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 210000004989 spleen cell Anatomy 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 210000001179 synovial fluid Anatomy 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 239000000225 tumor suppressor protein Substances 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000002255 vaccination Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0618—Block ciphers, i.e. encrypting groups of characters of a plain text message using fixed encryption transformation
- H04L9/0637—Modes of operation, e.g. cipher block chaining [CBC], electronic codebook [ECB] or Galois/counter mode [GCM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Physiology (AREA)
- Power Engineering (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了系统、方法和计算机程序产品实施方案,它们通过定期合并、更新、监测、验证、选择和审计用于解释多种证据类别中的分子变体的具有最佳性能的证据模型,来优化对在受试者的分子测试、样本或报告中识别的分子变体的表型影响的确定。
Description
背景技术
由于个体有患新生儿惊厥、心律不齐(例如,心律失常)或易患癌症的风险,分子测试(诸如,基因测试和基因组测试)已成为在各种各样的临床环境中越来越重要的诊断工具。确定在受试者体内识别的分子变体(诸如基因型(序列)变体)的表型影响(例如,临床和非临床两者的,包括但不限于,致病性、功能性或相对效应)通常是临床分子测试的基础。分子测试的有效性和实用性可能要求此类确定(例如,通常被称为变体分类)为基于证据的、客观的且系统的(Yandell等人,Genome Res.,2011年9月;第21卷第9期:第1529-1542页)。
在很大程度上受到下一代测序(NGS)技术的推动,基因和基因组技术的快速发展已使得基因和基因组测试的量(例如,市场采用量)、多样性和范围(例如,分析的序列信息)急剧增加。同时,未知意义的变体数量也急剧增加,这影响了临床基因和基因组测试的敏感性和特异性。
具有未知(例如,临床或非临床的)表型影响的分子变体占优势是几乎所有基因(包括许多具有临床意义的基因)和所有群体的特征。即使在研究最深入的临床基因和条件下,通常关于分子变体的临床意义的现有知识仍然很稀少。例如,以BRCA1基因为例,一个由临床遗传学家、分子病理学家和BRCA1专家组成的大型国际联合会已为108个非同义分子变体定义了分类,为BRCA1(BRCA交换)中的约16,200个可能的非同义单核苷酸基因型(序列)变体的约0.7%提供了临床意义支持。因此,现代基因板和基因组测试中识别的绝大多数分子变体没有已知的表型影响或临床意义。例如,最近的报道表明,现代遗传性癌症基因板测试可发现每个已知致病变体便有多达95个未知意义的变体(比例为95:1)(Maxwell等人,2016年)。
除了分子变体的可用性有限外,有关这些分子变体的(临床或非临床的)表型影响的现有知识和分类也还在不断发展。例如,在临床意义分类的大型公开知识库(ClinVar)中,约50%的BRCA1非同义单核苷酸基因型(序列)变体具有冲突的分类,并且基于共识的真实定义可导致在12个月的时间范围内分类的不稳定性为约11%(Landrum等人,2015年)。在许多基因中并且对于多种情况,冲突分类的增加可超过基于共识的新分类的增加(Landrum等人,2015年)。此外,在对基因组变异、疾病病因学、分子病理学和流行病学以及其他特性的理解上的不断进步,已使得变体影响和分类的相应“真集”不断发展。
在变体解释和审查过程中,基因或基因组测试提供者可要求经由变体解释支持系统访问关于变体、基因、病症和病例的证据。由于大量基因变体具有未知临床意义,因此基因和基因组测试提供者通常依赖于各种各样的证据类型来确定在受试者体内和测试中识别的另外未知效应的分子变体的(例如,临床或非临床的)表型影响。变体解释支持系统可包括一行或多行支持证据,包括但不限于来自计算预测器、突变热点、功能分析和群体指标等的数据。但是,由于变体分类的不断增加和变化的性质(这形成证据模型评估的“真集”的基础),因此用于任何证据模型的计算性能指标(例如,诊断、分类、回归精度等)经常过时。另外,依赖于在不同环境中(例如,使用经常不相交的真集定义)开发(例如,计算、分析或汇总)和评估的大量证据模型通常导致证据模型之间的评估指标不一致。这些因素加在一起使作为变体解释支持的证据模型的评估和使用变得复杂。因此,在证据模型的不同类别内或之间,变异解释支持系统可能无法可靠地比较通过基于不同数据进行评估的证据模型的性能。
另外,变体解释支持系统可包含已使用感兴趣的不同性能指标(例如,诊断、分类、回归精度等)来评估的证据模型。因此,变体解释支持系统可能无法系统且客观地比较不同证据模型的性能。尽管持续的科研工作和出版通常生成新的证据模型,但是缺乏统一的“真集”定义、缺乏同步更新以及性能评估中的(例如,可能源于作者兴趣的)偏差可限制生成证据的内在质量和实用性以及与这些证据模型相关联的性能指标。因此,在证据模型的不同类别内或之间,变体解释支持系统无法可靠地比较使用不同性能指标来评估的证据模型的性能。
除了这些与证据评估有关的问题之外,现有分类(例如,以及由此产生的真集)的不断增加和变化的性质还影响证据模型的稳健性,而证据模型通常需要监督学习步骤来生成。随着真集的不断发展,证据的评估和生成两者均可能需要更新。因此,变体解释支持系统可能无法访问可能的最新证据模型。例如,变体解释支持系统可包含计算预测器,该计算预测器产生对与变体的已知表型影响不一致的基因变体的预测,如在生成该预测器后所学习的。
最后,变体解释支持系统可能不能确认证据模型是在给定时刻生成的,还是使用给定数据集生成的。从变体解释支持系统获得支持证据的基因和基因组测试提供者可能因此无法保证用于证据模型的性能指标(例如,诊断、分类、回归精度等)是最新的、稳健的且仅基于不相交的数据(例如,基于模型生成中未使用(或可用)的变体)来进行计算。
因此,需要新的或改进的变体解释支持系统来克服当前可用系统的缺点。
发明内容
本公开提供了一种计算机实现的方法,该方法包括:(i)记录包括证据数据的证据模型,其中该证据数据描述了目标实体的分子变体的预测表型影响;(ii)基于生产数据来评估用于证据模型的验证性能数据;(iii)生成用于证据模型的支持数据的散列值,其中该支持数据包括证据数据,并且该散列值的生成使得能够响应于接收到用于证据模型的测试数据来对该证据数据进行前瞻性评估;(iv)响应于接收到用于证据模型的测试数据,基于证据数据和测试数据来评估用于证据模型的测试性能数据;(v)基于验证性能数据或测试性能数据,对针对目标实体的一组证据模型中的证据模型进行排序;以及(vi)响应于从变体解释终端查询目标实体的分子变体的预测表型影响,基于排序使用针对目标实体具有最佳性能的证据模型来提供预测表型影响。
在一些方面,目标实体包括感兴趣的功能元件、分子或分子变体以及表型。
在一些方面,记录还包括使用机器学习技术来生成基于生产数据的证据模型。在一些方面,记录还包括导入证据模型或证据数据。在一些方面,该方法还包括根据证据数据、生产数据、测试数据、验证性能数据或测试性能数据中的至少一者生成支持数据。
在一些方面,散列值的生成使得能够评估支持数据的内容和支持数据的创建时间。在一些方面,该方法还包括从临床知识库接收生产数据。
在一些方面,评估验证性能数据还包括:(i)使用证据模型和模型验证技术来计算生产数据中目标实体的分子变体的表型影响得分;以及(ii)使用感兴趣的性能指标基于表型影响得分来生成验证性能数据。
在一些方面,评估测试性能数据还包括:(i)使用证据模型和模型验证技术来计算测试数据中目标实体的分子变体的表型影响得分;以及(ii)基于表型影响得分使用感兴趣的性能指标来生成测试性能数据。
在一些方面,该方法还包括将支持数据的散列值存储在数据库中,其中该数据库将该散列值与该支持数据相关联。在一些方面,该方法还包括将散列值插入分布式数据结构中。
在一些方面,该方法还包括向变体解释终端提供审计记录,其中该审计记录引用分布式数据结构中的支持数据的条目,并且该审计记录使得该变体解释终端能够审计该支持数据的内容和该支持数据的创建时间。在一些方面,分布式数据结构为区块链数据结构。在一些方面,分布式数据结构为分布式提要。
本公开还提供了一种变体解释终端系统,包括:存储器,以及至少一个处理器,该至少一个处理器耦接到该存储器并被配置为:将支持查询发送到变体解释系统,以用于证据模型的支持数据,该证据模型满足用于目标实体的一组性能指标;从变体解释系统接收该支持数据和该支持数据的相关联的审计记录;将审计查询发送到分布式数据结构,其中该审计查询包括该支持数据的审计记录;响应于该审计查询的发送,从分布式数据库接收审计记录的验证证书;并且基于审计记录,确定该支持数据在某个时间点的数据状态。
在一些方面,该至少一个处理器被配置为:计算用于证据模型的支持数据的散列值;并且确定该散列值与用于证据模型的支持数据的审计记录中的散列值匹配。在一些方面,目标实体包括感兴趣的功能元件、分子或分子变体以及表型。
附图说明
将附图并入本文并形成说明书的一部分。
图1是根据一些方面的用于提供一组最佳证据模型的系统的框图,该组最佳证据模型用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。
图2是根据一些方面的提供一组最佳证据模型的系统的示例性图,该组最佳证据模型用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。
图3是根据一些方面的示出提供一组最佳证据模型的过程的流程图,该组最佳证据模型用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。
图4是根据一些方面的示出用于审计证据模型的过程的流程图,该证据模型用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。
图5是用于实现本文所述发明的各个方面的示例性计算机系统。
图6是根据一个方面的用于根据证据列表和支持数据条目生成默克尔树并将其提交给带时间戳的公共分类帐的系统600的图。
在附图中,相似的参考标号通常指示相同或类似的元件。另外,通常,参考标号的最左边数字标识首次出现该参考标号的图。
具体实施方式
本文提供了系统、装置、设备、方法和/或计算机程序产品方面和/或它们的组合和子组合,它们通过定期合并、更新、监测、验证、选择和审计用于解释多种证据类别中的分子变体的具有最佳性能的支持证据模型,以用于优化对在受试者的分子测试、样本或报告中识别的分子变体(诸如,在基因和基因组测试、样本或报告中识别的基因型(序列)变体)的(例如,临床或非临床的)表型影响(例如,致病性、功能性或相对效应)的确定。
在一些方面,每个证据模型可构成独特分子变体以及与独特分子变体相关联的(例如,临床或非临床的)表型影响(例如,致病性、功能性或相对效应)的系统。如本领域普通技术人员将理解的,可使用一系列方法、技术和数据源来推导证据模型,包括计算模型和实验模型两者或它们的组合(例如,训练计算预测器、计算突变热点、定义群体等位基因频率阈值或在分子或细胞分析中测量变体的功能影响)。例如,可访问来自计算预测器的变体得分或预测以确定未知意义的基因型(序列)变体的可能的(例如,临床或非临床的)表型影响。例如,当解释MSH2(例如,编码已建立的肿瘤抑制蛋白的基因)中的基因型(序列)变体的临床意义时,计算预测器可确定某些具有未知临床意义的基因型(序列)变体(或分子变体)可能会增加携带该变体的受试者患Lynch综合征的终生风险。
在一些方面,变体解释支持系统可整合和利用许多不同的证据线(例如,证据模型)来确定在受试者的分子诊断测试、样本或报告中识别的分子变体的(例如,临床或非临床的)表型影响。但是,在一些方面,变体解释支持系统可能缺乏可比较的性能指标(例如,原始精度、平衡精度(诸如,Matthew相关系数(MCC)、真阳性率(TPR)或敏感性、真阴性率(TNR)或特异性、阳性预测值(PPV)和阴性预测值(NPV)),这些可比较的性能指标特定于针对每个证据模型和所有证据模型的测试的诊断背景。这是因为变体解释支持系统可包含证据模型,这些证据模型是在不同时间使用不同的真集生成或评估的,或者使用不同性能指标评估的。
此外,由于分子变体的(例如,临床或非临床的)表型影响的知识和分类不断增加和变化,因此在一些方面,变体解释支持系统可能不包含可能的最新证据模型,并且可能包含与在证据模型生成后学习到的(例如,临床或非临床的)表型影响冲突的证据模型。因此,变体解释支持系统无法可靠地向基因和基因组测试提供者提供最合适且最新的证据模型。
因此,需要一种用于变体解释支持系统来定期合并(例如,生成或导入)、监测、更新、验证、选择、分配和审计不同证据模型的方法,以确保在给定时刻,在特定个体、家庭或群体的背景下使用用于解释分子变体的具有最佳性能的证据模型。在一些方面,变体解释支持系统可通过系统地(1)定义描述分子变体的表型影响(例如标记)的真集,并且(2)使用分子变体的(例如,临床或非临床的)表型影响的测试数据根据一组性能指标对证据模型评分,从而提供一个或多个一致的评估。如本领域普通技术人员将理解的,测试数据可指不相交的数据,该不相交的数据指定未用于生成证据模型的数据(例如,生产数据)中的分子变体的(例如,临床或非临床的)表型影响。变体解释支持系统可能还需要提供一种独立的方法以通过以下方式之一来验证提供的证据模型是使用特定数据生成的还是未使用特定数据生成的:(1)直接确认生产数据中数据的存在或不存在,或者(2)通过将证据模型合并(例如,生成或导入)的时间戳与已知或接受的时间戳进行比较以得出特定数据的可用性,从而推断生产数据中不存在特定数据。
在一些方面,在特定时间点,证据模型的客观选择可满足特定性能标准,该特定性能标准用于解释在(例如,细胞核、线粒体等)的基因组或其衍生分子中的一个或多个(例如,编码或非编码)功能元件(例如,蛋白质编码基因、非编码基因、分子结构域诸如蛋白质或RNA结构域、启动子、增强子、沉默子、调控结合位点、复制起点等)中分子变体(诸如,基因型(序列)变体)的(例如,临床或非临床的)表型影响。如本领域普通技术人员将理解的,基因型(序列)变体可以是单核苷酸变体(SNV)、拷贝数变体(CNV)或影响基因组中编码或非编码序列(或两者)的插入或缺失。如本领域普通技术人员将理解的,分子变体可以是蛋白质分子中的单氨基酸取代、RNA分子中的单核苷酸取代、DNA分子中的单核苷酸取代或生物多肽同源序列的任何其他分子改变。如本领域普通技术人员将理解的,表型可以是一个或多个临床或非临床可观察的特性,并且可在特定人群、年龄组、性别、组织或突变类型(例如,体细胞、生殖系遗传性、生殖系新生)的背景下进行评估。具体地,在一些方面,变体解释支持系统可定期合并(例如,生成或导入)或更新证据模型,以用于在特定表型或表型集合的背景下解释基因组或衍生分子中的(例如,编码或非编码的)功能元件中的分子变体。在一些方面,变体解释支持系统可根据分子变体的(例如,临床或非临床的)表型影响的新(例如,新颖的或变化的)数据来定期评估证据模型的比较性能。在一些方面,变体解释支持系统可以可靠地确保证据模型的客观选择满足在进行变体解释时用于一个或多个(例如,编码或非编码的)功能元件和表型的特定性能标准。
图1是根据一些方面的用于提供一组最佳证据数据114的系统100的框图,该组最佳证据数据用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。系统100包括来自各种知识库(例如,表型影响知识库102、群体知识库104、功能知识库106或分子知识库108)、变体解释支持系统110、网络136和变体解释终端138的数据。如本领域普通技术人员将理解的,系统100的一些方面可提供用于一个或多个功能元件和表型的多个证据模型,以及用于特定背景的证据模型。例如,在一些方面,系统100可使用不同类别的一个或多个证据模型(例如,计算预测器、突变热点、功能分析、生物物理模拟、群体等位基因频率阈值等)。
在一些方面,(例如,临床或非临床的)表型影响知识库102包括一个或多个分子变体信息数据库。在一些方面,分子变体信息数据库可包括分子变体以及与这些分子变体相关联的表型或表型影响的信息。分子变体的表型和表型影响关联可来源于对受影响和未受影响的个体、家庭和群体中的分子变体的观察,或者来源于代表性实验模型。例如,临床测试可分别基于对受影响或未受影响的个体的统计学意义的观察率来证实分子变体是致病性的还是良性的。
在一些方面,用于生成输入数据112的知识库(例如,表型影响知识库102)可为公共数据库,该公共数据库中的信息向公众开放。在一些方面,知识库可为私有(例如,专有)数据库,仅创建该数据库的公司或实体或被允许访问该数据库的公司或实体可访问该数据库中的信息。
在一些方面,变体解释支持系统110包括输入数据112的数据库、证据数据114的数据库、评估数据116的数据库、散列记录120的数据库(例如,散列数据库122)以及审计记录128的数据库(例如,审计数据库130)。在一些方面,将输入数据112(例如,来自基因组中(例如,编码或非编码的)功能元件的变体、残基(例如,位置)和分子的数据)导入变体解释支持系统110。输入数据112可直接用作证据数据114,或者可用于生成证据数据114(例如,证据模型)。证据数据114可描述分子变体集以及与这组分子变体相关联的(例如,临床或非临床的)表型影响(例如,致病性、功能性或相对效应)。在一些方面,(例如,直接的或经处理的)证据数据114的性能(例如,精度)可被记录并存储在评估数据116中。在一些方面,计算单独的原始或经处理的输入数据112、证据数据114或评估数据116(或它们的组合)(这些数据统称为用于证据模型的支持数据118)的散列值124并将其存储在散列数据库122中的散列记录120中,允许散列值124具有与原始或经处理的输入数据112、证据数据114或评估数据116的唯一关联和身份验证。在一些方面,变体解释支持系统110可通过将一个证据模型(或一组证据模型)的支持数据118的散列值124存储在可由变体解释终端138访问的分布式数据库126(例如,区块链、公共或私有提要(例如,提要)数据库或本领域普通技术人员将理解的各种其他数据结构)中来生成审计数据128。在一些方面,审计记录128存储在审计数据库130中,该审计数据库将散列值124和审计记录128相关联。在一些方面,响应于对分子变体、功能元件(或分子)、表型、背景等的请求,查询数据库134可经由网络136访问并提供对来自支持数据118的查询记录132信息的访问。在一些方面,查询数据库134向相关联的散列记录120和审计记录128信息提供请求的支持数据118。在一些方面,查询数据库134可经由应用程序接口(API)访问。变体解释支持系统110的该特征可使得变体解释终端138能够审计支持数据118(例如,输入数据112、证据数据114(例如,证据模型)或评估数据116)的可用性、创建日期和内容,该支持数据涉及描述在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。如本领域普通技术人员将理解的,支持数据118可指任何输入数据112、证据数据114或评估数据116或它们的派生数据。
在一些方面,在合并(例如,生成或导入)、监测、更新和验证证据模型之后,变体解释支持系统110可遵循用于选择和分配来自证据模型的变体解释支持的过程,这确保了向变体解释终端138提供的支持数据118的性能、精度和可靠性。首先,该过程可确保对不同证据模型进行可靠的比较评估。其次,该过程可减少系统审查、选择和提供一个或多个性能最佳的证据模型所涉及的大量时间。第三,该过程可实现对用于提供的一个或多个证据模型的数据进行独立且自动的验证。最后,该过程可确保在请求时选择具有期望性能标准的一个或多个证据模型以用于变体解释终端138中的变体解释。因此,该过程为证据模型选择和使用的传统行业惯例提供了一种改进的技术解决方案,该技术解决方案通常依赖于来自不同来源、由不同数据生成并根据不同数据或使用不同性能指标进行评估的证据模型的汇总。此外,该系统提供了一种可选过程,以用于针对特定功能元件和表型对性能最佳的证据模型进行自动排序和选择。
该改进的技术解决方案必须植根于合并(例如,生成和导入)、评估、审计和分配证据模型(诸如,计算预测器)以解释(例如,分类)分子变体的技术。具体地,变体解释支持系统110可在合并证据模型后立即遵循一系列步骤。对于生成的证据模型和导入的证据模型两者,这些步骤可包括计算一系列性能和质量控制指标(例如,评估数据116),生成支持数据118的散列记录120以及在分布式数据库126中生成支持数据118的审计记录128以用于将来的审计目的。这些步骤可为(例如,不同的)证据模型的比较性能评估建立基线,作为先前不确定影响(例如,临床意义)的分子变体的(例如,临床或非临床的)表型影响的增长和变化的知识库的函数。换句话讲,这些步骤可使得变体解释支持系统110能够仅考虑具有新关联的分子变体(例如,临床或非临床的)表型影响来评估证据模型的性能(和相关联的支持数据118以及这些模型的生成方法)。
在一些方面,变体解释支持系统110可利用或触发独立的(例如,预编程的)模块以直接导入或处理输入数据112。输入数据112可指基因组中(例如,编码或非编码的)功能元件的变体、残基(例如,位置)和分子数据。变体数据可指定分子变体的(例如,临床或非临床的)表型影响,并且可来源于对受影响和未受影响的个体、家庭和群体的临床或非临床观察,或者来源于计算预测器、模型或模拟的变体得分、来源于功能分析和测量的变体得分以及来源于群体等位基因频率的变体得分。残基数据可包括描述功能元件中的残基的进化性质和残基相互之间的关系的数据,描述功能元件中的残基的物理化学性质和残基相互之间的关系的数据,描述功能元件中的残基的功能性质和残基相互之间的关系的数据,描述功能元件中残基的结构性质和残基相互之间的关系的数据,以及描述功能元件中残基的动态性质和残基相互之间的关系的数据。分子数据可包括描述功能元件的功能、进化、结构和动态信息的数据。输入数据112的一个示例是在普通群体或特定群体中观察到的等位基因或变体频率的数据(或数据库)(例如,来自外显子集成联合的数据(Lek等人,2016年))。从输入数据112导出的数据的一个示例是基因型(序列)变体的列表,这些变体由于其在普通人群或特定人群中的高频率而可能是良性的。在一些方面,变体解释支持系统110还可存储输入数据标识符,该输入数据标识符唯一地标识(例如,原始的或经处理的)输入数据112。
在一些方面,变体解释支持系统110可触发独立的(例如,预编程的)模块以直接导入或生成来自输入数据112的由证据模型(诸如,使用机器学习方法开发的计算预测器)生成的证据数据114(例如,分子变体的表型影响的预测)。在一些方面,证据数据114可指示分子变体的表型影响的特定预测。在一些其他方面,证据数据114可指生成对分子变体的表型影响的预测的对象、算法和功能。
在一些方面,可以使用多种机器学习方法和技术来生成(例如,训练)证据模型以预测分子变体的(例如,临床或非临床的)表型影响。在一些方面,对于表型和/或背景,用于给定功能元件或分子的证据模型(例如,计算预测器)可以是特定的。在一些方面,证据模型(或来自证据模型的证据数据114)可特定于给定功能域、残基的特定子集或功能元件的分子变体的特定子集,诸如蛋白质编码基因的特定蛋白质结构域中的非同义单核苷酸基因型(序列)变体(即,SNV—可访问的错义突变)的集合。在一些其他方面,证据模型可特定于一组相关的功能元件,诸如一组具有同源结构和功能的蛋白质。由证据模型生成的(例如,原始)证据数据114的一个示例是,对于特定临床表型的蛋白质编码基因中所有可能的非同义单核苷酸基因型(序列)变体的致病性概率表。从证据模型导出的(例如,经处理的)证据数据114的一个示例是来自证据模型的50%最高置信度预测的预测致病性或良性分类的表。在一些方面,变体解释支持系统110还可存储证据模型标识符,该证据模型标识符唯一地标识证据模型及其相关联的输入数据112、证据数据114和评估数据116。
在一些方面,变体解释支持系统110将与证据模型相关的性能和质量控制元数据(例如,评估数据116)存储在评估数据库中。例如,变体解释支持系统110可计算和/或在评估数据116中存储对应于使用生产数据计算的统一性能指标集(例如,诊断、分类、回归精度等)的验证性能数据。在一些方面,变体解释系统110可利用交叉验证方案来使用不相交分子变体集来计算性能指标,该不相交分子变体集在生产数据中可用但在训练数据期间在证据模型的生成中被留存。类似地,变体解释支持系统110可在稍后以测试性能数据的形式计算和/或存储评估数据116,该测试性能数据对应于测试数据的诊断精度的统一指标集(例如,生产数据中不可用的不相交分子变体)。如本领域普通技术人员将理解的,在来自证据模型的表型影响预测与在证据模型生成之后确定的(或使得可用的)表型影响之间计算的性能指标的评估可允许在真集和性能指标的系统定义下对不同证据模型的性能进行稳健的前瞻性评估。在一些方面,变体解释支持系统110还可存储评估数据标识符,该评估数据标识符唯一地标识原始的或经处理的评估数据116。
在一些方面,变体解释支持系统110可评估证据模型的验证性能数据。如本领域普通技术人员将理解的,变体解释支持系统110可评估证据模型的验证性能数据,以便给出证据模型的预测性能(例如,精度)的无偏估计,以解释在给定时间分子变体的(例如,临床或非临床的)表型影响。这可克服由于基因变体的表型影响的知识库不断增长和变化而导致基因测试提供者无法评估特定证据模型(诸如,计算预测器)的预测性能的问题。
如本领域普通技术人员将理解的,变体解释支持系统110可使用各种模型验证技术(包括例如为机器学习和数据科学领域中的标准的各种技术)来评估证据模型的验证性能数据。在一些方面,变体解释支持系统110可使用证据模型生产数据作为模型验证技术来应用交叉验证训练/验证方案(例如,旋转估计),以用于评估统计分析的(例如,在生产数据的子集上计算的)验证性能数据将如何推广到分子变体的独立集合。
在一些方面,变体解释支持系统110可通过生成与证据模型(或证据模型集)相关的支持数据118(例如,输入数据112、证据数据114或评估数据116)的散列值124来生成散列记录120,并将散列记录120存储在散列数据库122中。在一些方面,变体解释支持系统110可在生产数据中创建分子变体的身份和标记的散列记录120。在一些方面,变体解释支持系统110可生成如证据模型生成的表型影响得分、概率、预测和/或相关联的置信度估计的散列记录120。在一些方面,散列记录120可存储在变体解释支持系统110内的散列数据库122中,该变体解释支持系统将散列值124与根据其来计算散列值124的数据或数据组合,以及用于根据数据计算散列值124的散列函数相关联。在一些方面,变体解释支持系统110可生成用于生成、监测或验证针对一个或多个分子变体的一个或多个预测的任何支持数据118的审计记录128,以使得变体解释终端138能够审计证据模型的不同特性。如本领域普通技术人员将理解的,给定原始数据和散列函数,可总是重新生成数据的散列值124。如本领域普通技术人员将理解的,统计上抗冲突的散列函数可用于根据支持数据118生成散列值124,该散列值唯一标识支持数据118。在一些方面,变体解释支持系统110可生成来自散列值组合中的单个散列值124,以存储在散列数据库122中,诸如通过将散列值124计算为默克尔树的根,其他散列值计算为该树上的叶。如本领域普通技术人员将理解的,各种散列函数可用于生成散列值124。
在一些方面,变体解释支持系统110可通过以下方式之一生成来自一个或多个证据模型的一组支持数据118的散列记录120:(1)计算散列值124并存储针对包含所有支持数据的单个数据对象(例如,压缩数据对象)的散列记录120,或者(2)计算与散列数据库122中的一个或多个支持数据相关联的一组散列值124中的散列值124。
在一些方面,变体解释支持系统110可通过将证据模型支持数据118的散列值124存储在分布式数据库126(例如,区块链、公共或私有提要(例如,提要)或本领域普通技术人员将理解的各种其他数据结构)中来生成审计记录128,以使得变体解释终端138能够审计证据模型的相关联的支持数据118(例如,输入数据112、证据数据114和/或评估数据116)。在一些方面,分布式数据库126可为可变的。在其他方面,分布式数据库126可在防火墙之后,以防止控制变体解释支持系统110的实体修改审计记录128。审计记录128可包括时间戳,该时间戳表示将散列值124插入分布式数据库126中的日期和时间。在一些方面,时间戳由分布式数据库126自动添加,反映了存储散列值124的准确日期和时间。审计记录128还可包括标识符,这些标识符唯一地标识分布式数据库126内的相关联散列值124。审计记录128标识符还可唯一地标识变体解释支持系统110内的对应数据。审计记录128可存储在变体解释支持系统110内的审计数据库130中。散列值124将审计数据库130中的审计记录128与散列数据库122中的对应散列记录120相关联,并且相关联散列记录120将每个散列值124与对应或相关联支持数据118以及一个或多个散列函数相关联。
在一些方面,变体解释支持系统110可在区块链数据结构中输入散列值124,记录包含用于标识数据结构中的条目的所有必要信息的对应审计记录128。如本领域普通技术人员将理解的,区块链数据结构可以是维护不断增长的(例如,可用审计记录128标识的)有序块列表的分布式数据库。此外,如本领域普通技术人员将理解的,区块链数据结构固有地抵抗对其数据的修改。一旦记录,块中的数据可能无法追溯更改。因此,基于区块链的审计记录128可用于确认在特定日期和时间在变体解释支持系统110内特定数据的可用性。在一些方面,从特定散列值与该特定数据之间的唯一关联来推断该特定数据的可用性。
在一些方面,变体解释支持系统110可在安全、远程、独立或第三方数据结构(例如,提要)中输入散列值124,记录包含标识条目(以及该条目的创建日期)的必要信息的对应审计记录128。此外,如本领域普通技术人员将理解的,安全、远程、独立或第三方数据结构可固有地抵抗对其数据的修改。因此,与存储在安全、远程、独立或第三方数据结构(例如,提要)中的散列值124相关联的审计记录128可用于确认在特定日期和时间在变体解释支持系统110内特定数据的可用性。
在一些方面,变体解释支持系统110在一些方面可从表型影响知识库102接收有关分子变体的(例如,临床或非临床的)表型影响的新数据。该数据可包括(例如,临床或非临床的)表型影响,在证据模型生成时用于未知表型影响的分子变体,或在证据模型生成时不可用。在一些方面,变体解释支持系统110可使用统一性能指标集(例如,诊断、分类、回归精度等)根据新表型影响来评估证据模型的表型影响预测(例如,证据数据114),以确定证据模型的测试性能数据或相关证据数据114。在一些方面,变体解释支持系统110可记录证据模型的测试性能数据,来更新评估数据116。
在一些方面,变体解释支持系统110可比较测试性能数据和验证性能数据或与这些数据相关联的离散估计(例如,置信区间),以确定证据模型或与证据模型相关联的证据数据114是否满足预期(或要求)性能(或在预期性能范围内)。例如,变体解释支持系统110可检查在测试性能数据中实现的性能指标是否满足在验证性能数据和相关联的可推广性分析中确定的预期(或要求)性能要求(或在预期性能范围内)。
在变体解释支持系统110的一些方面,测试性能数据与验证性能数据的比较应用(例如,记录)在评估数据116中的标记翻转质量控制来标准化测试性能数据。该特征允许在与验证性能数据进行比较之前评估测试性能数据,以说明由于知识库中的(例如,临床或非临床的)表型影响的不断增加和变化的性质,该表型影响中的标记具有(例如,观察到的或预期的)波动性。
在一些方面,变体解释支持系统110可响应于新数据来更新证据模型,并且计算用于不相交(例如,新)分子变体集的性能指标。如本领域普通技术人员将理解的,可使用各种模型验证技术。在一些方面,变体解释支持系统110可使用一个或多个性能指标(例如,诊断、分类、回归精度等)基于证据模型的原始表型影响预测来确定测试性能结果,这可理解预测的精度(例如,质量)以及感兴趣的功能元件(或分子)中可能的分子变体的覆盖率(例如,数量)。在一些其他方面,变体解释支持系统110可使用一个或多个性能指标基于更新的证据模型的更新的表型影响预测来确定更新的测试性能结果。
在一些方面,变体解释支持系统110可根据一个或多个性能指标(例如,诊断、分类、回归精度等)来评估证据模型的验证性能数据和测试性能数据,这可考虑预测的精度(例如,质量)以及感兴趣的功能元件(或分子)中可能的分子变体的覆盖率(例如,数量)两者。例如,在一些方面,变体解释支持系统110可评估与针对证据数据114的一个或多个预测的诊断精度相关的一个或多个性能指标。如本领域普通技术人员将理解的,可使用各种性能指标。例如,诊断指标可包括但不限于以下一项或多项:
·(原始)精度:真实结果占检查病例总数的比例。
·平衡精度:当二进制分类表示不平衡(大小明显不同)时可使用的二进制分类中真阳性、假阳性和真阴性、假阴性的度量,诸如Matthew相关系数。
·真阳性率(TPR):测量被正确识别为具有此类特性或病症的受试者的比例。
·真阴性率(TNR):测量被正确识别为不具有此类特性或病症的受试者的比例。
·阳性预测值(PPV):表示在测试结果为阳性的这些群体中具有特性或病症的概率。
·阴性预测值(NPV):表示在测试结果为阴性的这些群体中不具有特性或病症的概率。
·真阳性(TP):当存在病症时检测到该病症的测试结果。
·真阴性(TN):当不存在病症时未检测到该病症的测试结果。
·假阳性(FP):当不存在病症时检测到该病症的测试结果。
·假阴性(FN):当存在病症时未检测到该病症的测试结果。
·覆盖率(CVG):感兴趣的功能元件(或分子)中可能的分子变体的比率。
在一些方面,使用关于不相交分子变体集(例如,验证性能数据和测试性能数据)的统一性能指标集来评估证据模型可克服无法有效地比较证据模型的预测性能的问题。如本领域普通技术人员将理解的,可使用各种性能指标以及不同(例如,均一和不均一的)不相交分子变体集。现有变体解释支持系统可能无法评估证据模型的预测性能,因为用于测量证据模型性能的诊断指标在临床基因测试中因基因和疾病的不同而改变。此外,现有变体解释支持系统无法评估证据模型的预测性能,因为在选择过程中使用的感兴趣的请求诊断指标不同于在评估过程中由证据模型创建者使用的感兴趣的诊断指标。因此,因为变体解释支持系统110使用(在一组查询的功能元件、表型和背景的具有已知表型影响的分子变体中一致的)一个或多个性能指标来评估用于证据模型(或相关联证据数据114)的验证性能数据和测试性能数据,不像临床基因测试提供者使用的现有变体解释支持系统,变体解释支持系统110可在任何给定时间提供用于证据模型和相关联证据数据114的客观且易于比较的验证性能数据和测试性能数据。
在一些方面,变体解释支持系统110可根据机器学习模型来生成证据模型或相关联证据数据114。机器学习模型可以是具有可调参数的程序,该可调参数可响应于先前接收到的数据而进行调整以便改进该模型的预测行为。在一些其他方面,变体解释支持系统110从外部源(例如,包含由公布的计算预测器生成的分子变体的表型影响的预测的公共数据库)获取证据模型或证据数据114。
在一些方面,变体解释支持系统110可使用各种输入数据112(例如,临床数据、功能数据、生化数据、生物物理数据、进化数据、基因数据和本领域普通技术人员将理解的其他数据)来生成证据模型。例如,变体解释支持系统110可应用无监督的、半监督的和有监督的机器学习技术(或它们的组合)来生成(例如,训练)证据模型(相关联证据数据114)诸如计算预测器,该证据模型将变体、残基或分子特征的原始和/或经处理的输入数据112与标记的表型影响的原始和/或经处理的输入数据112相关联(例如,具有已知临床意义的基因变体的致病性或中性),如可根据表型影响知识库102确定的。变体解释支持系统110可训练一个或多个机器学习模型以生成证据模型,以便基于分子变体的变体、残基或分子(例如,特征)的特性,学习预测分子变体(例如,表型影响)的表型影响(例如,标记)的一系列通用规则。变体解释支持系统110可通过调整一个或多个机器学习模型的参数来确定这些通用规则。如本领域普通技术人员将理解的,证据模型可表示一个或多个生成或导入的证据模型。
在一些方面,变体解释支持系统110可基于证据模型的相关联评估数据116(诸如,该证据模型的原始或经处理的验证性能数据或测试性能数据)来重新训练(或更新)该证据模型(诸如,计算预测器或突变热点)的机器学习模型。如本领域普通技术人员将理解的,变体解释支持系统110可迭代训练评估策略或过程,直到证据模型(例如,计算预测器)在其验证性能数据、测试性能数据或两者中达到性能的阈值水平。如本领域普通技术人员将理解的,变体解释支持系统110可基于多个因素(包括一个或多个性能指标(例如,诊断、分类、回归精度等)的一个或多个阈值)来指定性能的阈值水平。
在一些方面,变体解释支持系统110定期合并(例如,生成或导入)、更新、评估和验证证据模型诸如计算预测器。这些新证据模型可基于变体解释支持系统110接收到的有关分子变体的表型影响的数据的新数据并且响应于该新数据而生成。
在计算并合并评估数据库中用于证据模型的验证性能数据或测试性能数据之后,变体解释支持系统110可基于证据模型的验证性能数据、测试性能数据、验证性能数据的(例如,历史或模拟的)跟踪记录、测试性能数据的(例如,历史或模拟的)跟踪记录或它们的组合来对证据模型或相关联证据数据114以及其他证据模型(或证据数据114)进行排序。如本领域普通技术人员将理解的,变体解释支持系统110可基于一个或多个性能指标来对证据模型或相关联证据数据114进行排序。
在一些方面,变体解释支持系统110可合并(例如,生成或导入)、监测、更新、验证、选择、分配和审计证据模型或其相关联支持数据118。如本领域普通技术人员将理解的,在一些方面,变体解释支持系统110可相对于各种类别的证据模型(例如,突变热点、计算预测器或功能分析)执行相同的(或相关的)过程以用于合并(例如,生成或导入)、监测、更新、验证、选择、分配和审计。变体解释支持系统110可针对给定分子变体、感兴趣的功能元件(或分子)、表型、背景和性能指标定期生成或导入新证据模型或相关联证据数据114。变体解释支持系统110可记录和监测证据模型的性能或其相关联支持数据118。变体解释支持系统110可响应于新输入数据112或评估数据116来更新证据模型。变体解释支持系统110还可响应于从表型影响知识库102接收到关于分子变体的(例如,新的)不相交数据来验证证据模型。变体解释支持系统110可基于验证性能数据或测试性能数据或它们的组合,从满足特定性能要求的证据模型中选择支持。变体解释支持系统110可响应于来自变体解释终端138的查询,分配来自选定证据模型(诸如,证据数据114)的分子变体的表型影响的预测。最后,变体解释支持系统110能够响应于来自变体解释终端138的审计请求,审计来自选定证据模型的支持数据118(包括输入数据112(例如,训练中使用的标记数据)、证据数据114(例如,表型影响的证据模型预测)或评估数据116)的可用性、创建日期或内容。因此,变体解释支持系统110可响应于来自变体解释终端138的查询和请求,同时分配和审计由证据模型提供的并且涉及在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响的变体解释支持数据118。
响应于用户输入或自动请求,变体解释终端138可向变体解释支持系统110查询来自证据模型和相关联证据数据114的变体解释支持,这些证据模型满足针对给定表型或感兴趣的表型集以及(例如,使真阳性率的优先级高于平衡精度的)给定诊断优化策略的给定分子变体(诸如,由参考基因组中的染色体、位置、参考核苷酸和突变或等位基因限定的基因型(序列)变体)的期望性能要求。在一些方面,变体解释支持系统110从变体解释终端138接收请求对一个或多个分子变体的变体解释支持的查询。在一些方面,来自变体解释终端138的查询可描绘感兴趣的功能元件、表型、背景或性能指标。在一些方面,来自变体解释终端138的查询可描述用于变体解释支持的性能要求。在一些方面,变体解释支持系统110对(来自针对给定分子变体、感兴趣的功能元件(或分子)、表型或表型集和性能指标的一组证据模型的)排序最高的证据数据114的对应表型影响预测以及用于审计所述证据模型和这些证据模型的相关联支持数据118的元数据作出响应。在一些方面,已基于特定评估数据116(例如,验证性能数据或测试性能数据或它们的组合)来对证据模型进行排序和选择。在一些方面,变体解释支持系统110可提供相关联的输入数据112(例如,生产数据或测试数据)、证据数据114(例如,相关联的表型影响预测)、评估数据116(例如,验证性能数据或测试性能数据)和审计信息(包括审计记录128和/或时间戳)以验证用于选定证据模型的输入数据112、证据数据114或评估数据116的可用性、创建日期和内容。如本领域普通技术人员将理解的,可提供这些各种数据项的一部分或全部。
在一些方面,审计信息可包括对包含审计记录28以及所有相关联审计记录标识符的分布式数据库126的引用。例如,审计信息可包括对包含审计记录28的区块链数据结构的引用。
在一些方面,变体解释支持系统110可通过网络136与变体解释终端138通信。网络136可以是任何网络或网络的组合,包括互联网、局域网(LAN)、广域网(WAN)、无线网络、蜂窝网络或本领域普通技术人员将理解的各种其他类型的网络。例如,变体解释终端138可以是远程终端,该远程终端通过网络136向变体解释支持系统110查询对于给定分子变体、功能元件(或分子)、表型或背景最准确的证据模型或相关联证据数据114。尽管远程终端的该方面将自始至终地用于说明和解释,但变体解释终端138不必远离变体解释支持系统110,而是可位于变体解释支持系统110本地,使得变体解释终端138与变体解释系统110直接通信。
在一些方面,审计员可获得用于每个证据模型的(例如,原始的或经处理的)支持数据118(包括输入数据112、证据数据114、评估数据116)的输入日期和时间的证据。例如,审计员可使用对应于与证据模型有关的数据的审计记录标识符(例如,区块链收据)来查询分布式数据库126(例如,区块链数据结构)。作为响应,审计员可接收对对应于用于审计的支持数据118和感兴趣的审计记录128的特定散列值124在某个日期和时间可用的确认。
这使得审计员能够确定(1)证据模型使用输入其审计记录128时可用的数据来合并(例如,生成),以及(2)由证据模型或相关联证据数据114生成的表型影响预测在某个日期和时间可用。
响应于用户输入或自动请求,变体解释终端138可审计证据模型或其相关联支持数据118,以便确保以下任何一项或以下那些项的组合:(a)证据模型或相关联支持数据118在某个日期和时间可用,(b)证据模型或相关联证据数据114使用在证据模型创建的日期和时间可用的特定输入数据112来生成(例如,训练),(c)证据模型或相关联证据数据114未使用在证据模型创建的日期和时间不可用的特定输入数据112来生成(例如,训练),(d)证据模型或相关联证据数据114包含(可能已提供给变体解释终端138的)特定表型影响预测,或者(e)证据模型或相关联证据数据114基于不相交数据集上评估数据116中报告的验证性能数据或测试性能数据来实现预期的性能。这可向变体解释终端138提供置信度,即所提供的变体解释支持基于满足指定性能要求的证据模型或相关联证据数据114,并且该证据模型或相关联证据数据114未被操纵。该审计还可为患者和医生提供额外置信度,即他们的临床基因结果是使用稳健且透明的证据模型和支持数据118确定的。
在一些方面,变体解释终端138可获得用于生成给定证据模型(例如,计算预测器)或一组证据模型(例如,计算预测器、突变热点和功能分析的组合)的支持数据118(包括输入数据112、证据数据114、评估数据116)的可用性、内容以及创建日期和时间的证据,然后可将该证据提供给用户。例如,审计员可指示变体解释终端138审计具有审计记录128标识符的分布式数据库126(例如,区块链)中的计算预测器,该审计记录标识符用于与感兴趣的计算预测器相关联的支持数据118。作为响应,变体解释终端138可从分布式数据库126接收验证证书,该验证证书包括支持数据118的散列值124。在一些方面,验证证书可以是由第三方提供的接收证书或者是由变体解释支持系统110维护的数据。例如,在一些方面,验证证书可以是由包含支持数据118的散列值124以及与该支持数据的审计记录128相关联的条目的创建日期和时间的区块链数据结构提供的接收证书。变体解释终端138可通过确认验证码(例如,计算的散列值)对应于(1)来自特定支持数据118(例如,对应于单个计算预测器的表型影响预测的证据数据114)的散列记录120的散列值124,(2)来自支持数据118的单个压缩对象的散列记录120的散列值124(用于批量数据库条目),或者(3)来自一组支持数据118的散列记录120的散列值124(例如,用于批量数据库条目)来确认验证证书与用于正在审计的计算预测器的支持数据118匹配。
图2是根据一些方面的用于向蛋白质编码基因和表型提供具有客观最高性能的证据模型的系统200的示例性图。图2参考图1进行讨论。在图2中,生产数据206可表示具有相关联表型影响(例如,分子效应)的分子变体集,该生产数据从各种输入数据112(诸如,临床数据202和群体数据204)导出。在图2中,测试数据212可表示具有相关联表型影响(例如,分子效应)的分子变体集,该测试数据从新输入数据112(诸如,临床数据208和群体数据210)导出并且针对与生产数据206中包含的那些变体不相交的变体。例如,表型影响指示在特定临床条件下,给定蛋白质编码基因中的相关联分子变体被认为是致病性的还是良性的(例如,中性的)。
在一些方面,在生成或导入生产数据206之后,变体解释支持系统110利用证据生成模块214来根据证据模型(诸如,计算预测器)生成证据数据220,并且使用给定蛋白质编码基因和表型的生产数据206来计算该模型的相关联验证性能数据222。例如,在由证据生成模块214生成的证据数据220中,分子变体H41R(例如,基因型(序列)变体17:43115738T>C)被预测为属于类别致病性,该分子变体如在交叉验证折叠集(训练/验证迭代)(其中分子变体H41R在训练中被排除)中所估计的被分类为致病性的概率等于P(致病性)。变体解释支持系统110可调整生成证据数据220的证据模型的参数。
在一些方面,变体解释支持系统110可评估证据数据220的证据模型的验证性能数据222。如本领域普通技术人员将理解的,证据数据220可由包括计算预测器的多种证据模型生成,并且可使用包括无监督、半监督或有监督的机器学习技术和方法的各种各样的技术和方法来生成。如本领域普通技术人员将理解的,证据模型可表示使用生产数据206生成的一个或多个证据模型(证据模型的集合)。
在图2中,变体解释支持系统110可利用证据生成模块214,该证据生成模块使用交叉验证方案(诸如,留一法交叉验证(LOOCV)训练和验证方案)来确定作为证据数据220基础的证据模型的验证性能数据222。例如,在图2中,整个交叉验证方案中的诊断性能指标的概要统计被汇总且被提供在验证性能数据222中。该记录过程建立了证据数据220的性能基线。
在图2中,变体解释支持系统110可利用证据评估模块216,该证据评估模块基于测试数据212来确定证据数据220的测试性能数据224。
在一些方面,变体解释支持系统110可利用证据生成模块214和证据评估模块216中的一个或它们的组合以利用生产数据206来生成和评估多个证据模型(例如,训练多个计算预测器和突变热点)。
在一些方面,变体解释支持系统110将生成、提交和存储与证据模型相关联的生产数据206、测试数据212、证据数据220、验证性能数据222和/或测试性能数据224的散列记录120和审计记录128(例如,分别为步骤228、230、232、234和/或236)。
在一些方面,变体解释支持系统110可通过遵循计算对应数据的散列值124并将对应散列记录120存储在散列数据库122中的过程(如图1所示)来生成、提交和存储生产数据206、测试数据212、证据数据220、验证性能数据222和/或测试性能数据224的散列记录120。
在一些方面,变体解释支持系统110可通过遵循访问散列数据库122的散列记录120中的对应数据的散列值124,将该散列值输入分布式数据库126中,并将该条目的相关联审计记录128存储在图1所示的审计数据库130中的过程来生成、提交和存储生产数据206、测试数据212、证据数据220、验证性能数据222和/或测试性能数据224的审计记录128。审计记录128可包括表示何时建立对应数据的时间戳和唯一标识分布式数据库126中的条目的记录标识符。
在一些方面,变体解释支持系统110可根据来自一个或多个支持数据118的目标子集数据来计算目标散列值,诸如由证据模型预测的单个分子变体的表型影响、证据数据220的粒度形式。在一些方面,变体解释支持系统110可将(例如,根据目标子集数据计算的)目标散列值记录到散列数据库中的目标散列记录中。在一些方面,目标散列记录包括附加散列值信息,该附加散列值信息包括例如主散列值,该主散列值可根据多个目标子集数据的目标散列记录来重新计算(或者用于验证该目标散列记录)。例如,在一些方面,变体解释支持系统110可使用默克尔树结构将主散列值计算为一组目标散列值(例如,叶)的根。连同本文描述和启用的系统、方法和应用一起,该记录过程可确保存在一种审计与从主散列值导出的单个审计记录128相关联的支持数据118的多种粒度形式的可用性、创建日期和内容的有效、客观的方法。
在一些方面,变体解释支持系统110可对证据数据220以及描述对在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响的其他证据数据进行排序。例如,变体解释支持系统110可基于证据模型的验证性能数据222或测试性能数据224,对来自计算预测器以及其他证据模型(例如,计算预测器和功能分析)的证据数据220进行排序。如本领域普通技术人员将理解的,可基于一个或多个感兴趣的性能指标,将证据数据220的验证性能数据222或测试性能数据224与其他性能结果进行比较。使用多个性能指标可使得证据模型能够在不同启发法下进行排序,并根据感兴趣的临床背景进行优化。如本领域普通技术人员将理解的,感兴趣的临床背景可能需要优化关于特定性能指标的诊断策略。
在一些方面,为了确定证据模型的精度,变体解释支持系统110使用一组或多组验证性能数据222、一组或多组测试性能数据224或验证性能数据222和测试性能数据224的组合来验证证据模型性能。例如,变体解释支持系统110可通过确认测试性能数据224在基于验证性能数据222或先前的测试性能数据来估计的一个或多个性能指标的特定置信区间(或离散范围)内,来验证证据数据220的性能。如本领域普通技术人员将理解的,各种模型验证技术可用于验证测试性能数据224相对于验证性能数据222或先前的测试性能数据224的一致性。
例如,在图2中,变体C44S在证据数据220创建之后被发现是致病性的分子变体(并在临床数据208中对此进行了注释)。虽然该变体不在证据数据220的生产数据206中,但证据数据220准确地预测该变体的表型影响是致病性的。
在一些方面,在计算验证性能数据222和/或测试性能数据224之后,变体解释支持系统110可基于证据模型220的验证性能数据222和/或测试性能数据224或它们的组合来对该证据模型进行排序。
在证据查询226中,变体解释终端138可请求一组最佳证据数据220,用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。例如,查询可请求生产数据206、验证性能数据222、测试性能数据224以及证据数据220的预测表型影响,该证据数据对于考虑到的感兴趣的特定表型的分子变体具有在测试性能数据224中的由Matthew相关系数(MCC)测量的最高平衡精度。作为响应,通过证据分配模型218处理查询,变体解释支持系统110可返回对于考虑到的分子变体和表型具有最高平衡精度的证据数据220的请求的支持数据118(例如,生产数据206、验证性能数据222、测试性能数据224和表型影响预测)。该查询还可包括用于优化的感兴趣的目标性能指标。在这种情况下,变体解释支持系统110可针对感兴趣的一个或多个特定诊断指标返回最准确的证据模型。
在一些方面,变体解释支持系统110的证据分配模块218可包括请求的支持数据118的散列记录120和审计记录128,以确认提供的支持数据118的内容、可用性或创建日期。在一些方面,证据分配模块218可访问散列数据库122中的信息以标识提供的支持数据118的散列记录120,并且使用该散列记录120的散列值124来恢复相关联支持数据118的审计记录128。在一些方面,为了使得对提供的支持数据118、证据分配模块218的审计能够向查询记录132返回期望支持数据118、相关联散列记录120(例如,包括散列值124和散列函数)以及相关的审计记录128。
在一些方面,变体解释终端138可应用这些方法来获得支持数据118的可用性、内容以及创建日期和时间的证明。例如,审计员可指示变体解释终端138审计与响应于查询而提供的表型影响相关联的证据数据220。使用响应中的证据数据220的审计记录128,变体解释终端可通过从数据库接收包括存储在分布式数据库126中的散列值124的验证证书来认证分布式数据库126(例如,区块链)中的条目。在一些方面,验证证书可以是由第三方提供的接收证书或者是由变体解释支持系统110维护的数据。例如,在一些方面,验证证书可以是由包含与支持数据118的审计记录128相关联的条目的散列值124以及创建日期和时间的区块链数据结构提供的接收证书。变体解释终端138可通过确认验证码(例如,计算的散列值)对应于(1)来自特定支持数据118(例如,对应于单个计算预测器的表型影响预测的证据数据220)的散列记录120的散列值124,(2)来自支持数据118的单个压缩对象的散列记录的散列值124(用于批量数据库条目),或者(3)来自一组支持数据118的散列记录120的散列值124(例如,用于批量数据库条目)来确认验证证书与用于正在审计的证据模型的支持数据118匹配。
图3是根据一个方面的用于提供一组最佳证据模型的方法300的流程图,该一组最佳证据模型用于描述或预测在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响。方法300可通过具有硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上执行的指令)或它们的组合的处理逻辑来执行。应当理解,执行本文提供的公开内容可能不需要所有步骤。此外,如本领域普通技术人员将理解的,某些步骤可同时执行,或者按与图3所示顺序不同的顺序来执行。
将参照图1和图2来描述方法300。然而,方法300不限于所述示例性方面。
在302中,变体解释支持系统110接收输入数据112(包括临床数据202和群体数据204),使得能够生成(或导入)证据模型。在一些方面,变体解释支持系统110从临床数据202和群体数据204导出生产数据206中描述的表型影响(例如,标签)。
在304中,变体解释支持系统110生成、提交和存储生产数据206的散列记录120和审计记录128。如本领域普通技术人员将理解的,变体解释支持系统110可生成或获取多个输入数据112(包括来自各种各样的知识库(102、104、106、108)的数据),并且类似地,生成、提交和存储该数据的散列记录120和审计记录128。
在306中,变体解释支持系统110使用生产数据206中描述的分子变体的表型影响(例如,标记)来生成(例如,训练)计算预测器(例如,证据模型)。
在308中,变体解释支持系统110生成、提交和存储由计算预测器(例如,证据模型)生成的证据数据220的散列记录120和审计记录128。
在310中,变体解释支持系统110评估使用留一法交叉验证训练/验证方案计算的计算预测器(例如,证据模型)的验证性能数据222。如本领域普通技术人员将理解的,机器学习和数据科学领域中的多种验证方案和技术可用于导出基于生产数据206训练的计算预测器的验证性能数据222。
在312中,变体解释支持系统110生成、提交和存储验证性能数据222的散列记录120和审计记录128。
在314中,变体解释支持系统110接收新输入数据112(例如,临床数据208和群体数据210),并且生成描述未包含在生产数据206中的分子变体的表型影响的测试数据212。
在316中,变体解释支持系统110评估基于在测试数据212中描述的不相交分子变体集来计算的计算预测器(例如,证据模型)的测试性能数据224。
在318中,变体解释支持系统110生成、提交和存储测试性能数据224的散列记录120和审计记录128。
在320中,变体解释支持系统110基于证据模型的验证性能数据222和测试性能数据224对一组最佳证据模型(包括,例如,来自步骤306的计算预测器)进行过滤、排序和/或选择,对计算预测器(来自步骤306)进行排序且选择为在测试性能数据224中的平衡精度(例如,Matthew相关系数(MCC)在验证性能数据222和最高平衡精度(MCC)的平衡精度估计的预期范围(例如,95%的置信区间)内的计算预测器。在该示例中,变体解释支持系统110可将证据模型(或相关联证据数据114)的选择限制为其中测试性能数据落在来自验证性能数据222的预期范围内的那些证据模型,然后选择具有客观最高性能的证据模型(或相关联证据数据114)。如本领域普通技术人员将理解的,一组最佳证据模型可包括单个证据模型或多个证据模型。
在322中,变体解释支持系统110从变体解释终端138接收对感兴趣的特定分子变体的预测表型影响的查询,该预测表型影响使解释的平衡精度(MCC)最大化。
在324中,变体解释支持系统110对来自(来自步骤306的)计算预测器的预测表型影响作出响应。
图4是根据一个方面的用于审计针对给定分子变体、功能元件(或分子)、表型或背景的计算预测器的方法400的流程图。方法400可通过具有硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上执行的指令)或它们的组合的处理逻辑来执行。应当理解,执行本文提供的公开内容可能不需要所有步骤。此外,如本领域普通技术人员将理解的,某些步骤可同时执行,或者按与图4所示顺序不同的顺序来执行。
将参照图1和图2来描述方法400。然而,方法400不限于所述示例性方面。
在402中,变体解释终端138向变体解释支持系统110发送查询,以得到针对临床感兴趣的功能元件和表型具有最高平衡精度(MCC)的证据模型。在一些方面,查询还针对感兴趣的特定背景。
在404中,在针对感兴趣的功能元件和表型的证据模型中,变体解释终端138从证据模型接收支持数据118,该证据模型的证据数据220显示最高测试性能数据224的平衡精度(例如,MCC),并且该证据模型的测试性能数据224的平衡精度在证据模型的对应验证性能数据222的平衡精度估计的预期范围(例如,95%的置信区间)内。变体解释终端138还接收与针对感兴趣的功能元件和临床表型的提供的支持数据118相关联的审计记录128。支持数据118可包括生产数据206、临床数据202、临床数据204、验证性能数据222、测试性能数据224和证据数据220。
在406中,变体解释终端138向包含接收到的审计记录128的分布式数据库126发送查询,并且从分布式数据库126接收每个支持数据118的审计记录128的验证证书。验证证书可包括来自分布式数据库126中对应审计记录128的散列值124和时间戳。如本领域普通技术人员将理解的,验证证书可以是由第三方提供的接收证书或者可以是由变体解释支持系统110维护的数据。
在408中,变体解释终端138通过评估验证码(例如,计算的支持数据118的散列值)和与支持数据118相关联的审计记录128的散列值124的等效性,来确认提供的支持数据118与审计记录128相匹配。使验证码和散列值124相匹配来确认提供的支持数据118在步骤406中提供的时间戳时或之前生成。例如,使根据在查询中作为支持数据118提供的证据数据220计算的验证码和证据数据220的散列值124相匹配可允许审计变体解释终端138确认由证据数据220提供的特定预测表型影响在审计记录128的时间戳时或之前生成。例如,变体解释终端138可将步骤406中的时间戳与感兴趣的时间戳进行比较,以验证证据数据220是在感兴趣的时间戳之前生成的。变体解释终端138还可将在步骤406中的散列值124与从生产数据206导出的验证码进行比较,以确定证据数据220是使用提供的生产数据206生成的。
各种方面可例如使用一个或多个计算机系统诸如图5所示的计算机系统500来实现。可使用计算机系统500来例如实现图3的方法300。例如,计算机系统500可生成用于训练的计算预测器的验证记录。还可使用计算机系统500来例如实现图4的方法400。例如,计算机系统500可向作为基因测试提供者的用户提供最准确的计算预测器,以及与最准确的计算预测器相关联的元数据。根据一些方面,计算机系统500还可基于确定的资源块分配将多个音调映射到资源块。计算机系统500可以是能够执行本文所述功能的任何计算机。
计算机系统500可以是能够执行本文所述功能的任何熟知的计算机。
计算机系统500包括一个或多个处理器(也称为中央处理单元或CPU)诸如处理器504。处理器504连接到通信基础结构或总线506。
一个或多个处理器504可各自为图形处理单元(GPU)。在一个方面,GPU是被设计为处理数学密集型应用的专用电子电路的处理器。GPU可具有并行结构,该结构对于并行处理大数据块(诸如,对于计算机图形应用、图像、视频等常见的数学密集型数据)非常有效。
计算机系统500还包括一个或多个用户输入/输出设备503诸如监视器、键盘、指向设备等,该一个或多个用户输入/输出设备通过一个或多个用户输入/输出接口502与通信基础结构506通信。
计算机系统500还包括主存储器或初级存储器508,诸如随机存取存储器(RAM)。主存储器508可包括一个或多个级别的高速缓存。主存储器508在其中存储有控制逻辑(即,计算机软件)和/或数据。
计算机系统500还可包括一个或多个辅助存储设备或存储器510。例如,辅助存储器510可包括硬盘驱动器512和/或可移除存储设备或驱动器514。可移除存储驱动器514可以是软盘驱动器、磁带驱动器、光盘驱动器、光学存储设备、磁带备份设备和/或任何其他存储设备/驱动器。
可移除存储驱动器514可与可移除存储单元518交互。可移除存储单元518包括其上存储有计算机软件(控制逻辑)和/或数据的计算机可用或可读存储设备。可移除存储单元518可以是软盘、磁带、光盘、DVD、光学存储盘和/或任何其他计算机数据存储设备。可移除存储驱动器514以众所周知的方式从可移除存储单元518读取和/或向该可移除存储单元写入。
根据示例性方面,辅助存储器510可包括用于允许计算机系统500访问计算机程序和/或其他指令和/或数据的其他装置、工具或其他方法。此类装置、工具或其他方法可包括例如可移除存储单元522和接口520。可移除存储单元522和接口520的示例可包括程序盒式存储器和盒接口(诸如,在视频游戏设备中发现的程序盒式存储器和盒接口)、可移除存储器芯片(诸如,EPROM或PROM)和相关联的插口、存储棒和USB端口、存储卡和相关联的存储卡插槽,和/或任何其他可移除存储单元和相关联的接口。
计算机系统500还可包括通信或网络接口524。通信接口524使得计算机系统500能够与远程设备、远程网络、远程实体等(单独地和共同地由参考标号528引用)的任何组合进行通信和交互。例如,通信接口524可允许计算机系统500通过通信路径526与远程设备528通信,该通信路径可以是有线和/或无线的,并且可包括LAN、WAN、因特网等的任意组合。控制逻辑和/或数据可经由通信路径526发射到计算机系统500和从该计算机系统发射。
在一个方面,包括其上存储有控制逻辑(软件)的有形计算机可用或可读介质的有形设备或制品在本文中也被称为计算机程序产品或程序存储设备。这包括但不限于计算机系统500、主存储器508、辅助存储器510和可移除存储单元518和522,以及体现前述任何组合的有形制品。这种控制逻辑当由一个或多个数据处理设备(诸如,计算机系统500)执行时,导致此类数据处理设备如本文所述来进行操作。
基于本公开中包含的教导内容,相关领域技术人员将明白如何使用除图5所示以外的数据处理设备、计算机系统和/或计算机体系结构来制作和使用本公开的方面。具体地,方面可使用除本文所述的那些之外的软件、硬件和/或操作系统实现来操作。
应当理解,具体实施方式部分而非任何其他部分旨在用于解释权利要求书。其他部分可阐述发明人所设想的一个或多个但并非所有示例性方面,并且因此,不旨在以任何方式限制本公开或所附权利要求书。
尽管本公开描述了示例性领域和应用的示例性方面,但应当理解,本公开不限于此。其他方面及其修改是可能的,并且在本公开的范围和精神内。例如,并且在不限制该段落的一般性的情况下,方面不限于附图所示和/或本文所述的软件、硬件、固件和/或实体。另外,方面(无论是否在本文中明确描述)对于本文所述的示例之外的领域和应用具有显著的实用性。
本文已借助功能构建块描述了方面,该功能构建块示出了指定功能及其关系的实现。为了描述方便,本文已任意地定义了这些功能构建块的边界。只要适当地执行指定的功能和关系(或其等效项),就可定义另选边界。此外,另选的方面可使用与本文所述的那些不同的顺序来执行功能块、步骤、操作、方法等。
在本文中提到“一个方面”、“方面”、“示例性方面”或类似短语表示所述的方面可包括特定特征、结构或特性,但未必每个方面都包括该特定特征、结构或特性。此外,此类短语未必是指相同的方面。此外,当结合方面描述特定特征、结构或特性时,无论本文是否明确提及或描述,将这种特征、结构或特性并入其他方面中在相关领域的技术人员的知识范围内。另外,可使用表达“耦接”和“连接”及其派生词来描述一些方面。这些术语未必是彼此的同义词。例如,可使用术语“连接”和/或“耦接”来描述一些方面,以指示两个或更多个元件彼此直接物理或电接触。然而,术语“耦接”也可指两个或更多个元件彼此不直接接触,但仍然彼此协作或相互作用。
本公开的广度和范围不应受任何上述示例性方面的限制,并且应当仅根据以下权利要求书以及它们的等效项进行限定。
在一些方面,可以多种方式根据一个或多个知识库102、104、106和108生成用于生成生产数据204和测试数据212(包括描述表型影响的真集的特定定义)的方法。在其他方面,可根据临床变体解释的多种来源定义多个真集定义,该临床变体解释在一种或多种性质(诸如,质量或范围或质量)方面随着时间推移而改变。在其他方面,在一些情况下可能必需要各种真集定义来生成足够的数据,然后才能继续生成证据数据。在其他方面,可存在用于将知识库数据102、104、106和108转换成适当的输入数据112的多种适当方法。例如,将群体知识库104解释为真集可能需要基于通过真集描述的表型特性(诸如,外显率、患病率、发病年龄或遗传模式)的一个或多个适当群体频率截止值。
在其他方面,可使用根据多种方法导出的生产数据206来评估验证性能数据222。例如,证据数据220可使用从所有临床数据202的集合导出的生产数据206来导出,而验证性能数据222可通过使用从一组有限的临床数据202导出的生产数据206评估证据数据220来导出。
在一些方面,与用于生成生产数据206和验证数据222的证据数据202相关联的一种或多种特定方法可不同于用于生成测试数据212的一种或多种特定方法。在一些方面,测试性能数据224可考虑在生产数据206和验证数据222中使用的方法以创建不相交真集,该不相交真集不包含生产数据206中使用的零种、一种或多种方法所包括的知识。在其他方面,可使用用于生成测试性能数据224的多种方法。例如,测试性能数据224可生成两个或更多个得分,同时改变用于生成测试性能数据224的临床数据202。
在一些方面,可基于多种方法来评估用于生成生产数据206和测试数据212的特定方法。在一些方面,可基于随着时间推移方法的自我一致性来评估用于生成生产数据206和所生成的测试数据212的方法的相对质量。在其他方面,可基于由每种方法产生的生产数据206生成的证据数据220的验证性能数据222和测试性能数据224,来评估用于生成生产数据206的方法的相对质量。在其他方面,用于生成生产数据206和测试数据212的方法的相对排序可随着时间推移而改变。在其他方面,可根据多个证据数据220确定用于生成生产数据206和测试数据212的方法的相对排序。
在一些方面,基于生产数据206的一个或多个特定定义来生成单个表型的证据数据220。类似地,可根据生产数据206的一个或多个定义来评估证据数据220的验证性能数据222。类似地,可根据测试数据212的一个或多个定义来评估证据数据220的测试性能数据224。例如,可分别使用所有临床数据208和临床数据202、或与特定表型最相关的临床数据的子集来生成证据数据220的测试性能数据224或验证性能数据222。
在一些方面,可在生成证据数据220之后对其进行校准。在一些方面,可调整证据数据220以使其与生产数据206的不同定义或者使用来自不同日期的临床数据202生成的生产数据206的类似版本的一致性最大化。在其他方面,可借助于根据生产数据206的相同或相似定义生成证据数据220而对该多个证据数据进行分组并一起校准。例如,可相对于(与真实世界的致病表型的概率更一致的)生产数据206的定义来校准根据生产数据206的特定定义(已知其高估致病表型的概率)生成的一个或多个证据数据220。在一些方面,校准方法可将变换应用于证据数据220内的致病性概率以维持概率的排序,同时提供更好的真实世界的致病性概率。在其他方面,校准方法可确定最佳概率截止值,在该最佳概率截止值之上和之下,可按照阐述的特定性能要求对分子变体进行最佳分类。如本领域普通技术人员可理解的,可将多种校准技术用于优化证据数据220与生产数据206或测试数据212之间的一致性。在一些方面,将校准方法实现为证据生成模块214或证据评估模块216的一部分。在其他方面,将校准方法的特定参数和方法存储为验证数据222和测试性能数据224的一部分。
如本领域技术人员可理解的,用于评估预测的数据的特定平衡或质量可改变测得的预测性能。例如,诊断的PPV和NPV性能可能会根据测试群体中真阳性和真阴性的分布而有很大差异。在一些方面,可在分别计算验证性能数据222和测试性能数据224之前修改生产数据206和测试数据212,以实现特定结果。在一些方面,可在平衡阳性病例和阴性病例之后计算验证性能数据222和测试性能数据224。例如,在计算验证性能数据222之前,可对具有100个变体和10个良性变体的生产数据206进行重新采样,以获得相等数量的良性变体和致病变体。在其他方面,可对来自生产数据206或测试数据212的特定表型分布进行重新采样,以实现与证据查询226中定义的测试群体的奇偶校验。在其他方面,可直接重新计算验证数据222和测试性能数据224以表示特定表型分布。在其他方面,测试性能数据224可改变测试数据212的分布,以实现与特定生产数据206的奇偶校验。如本领域技术人员可理解的,对验证性能数据222和测试性能数据224进行修改以分别改变生产数据206和测试数据212的表观分布或质量可在生成性能数据时发生,或者响应于特定证据查询226而发生。在一些方面,通过实现验证性能数据222和测试性能数据224之间的奇偶校验,允许证据分配模块218更直接地对群体敏感性指标(诸如,NPV和PPV)进行比较和排序。
在一些方面,可通过将证据数据220限制为具有更高置信度的预测的那些变体,来优化证据数据220以在验证性能数据222或测试性能数据224中实现特定性能指标。例如,证据数据220当考虑到所有变体时可能无法实现特定性能指标阈值,但是如果考虑仅80%最高置信度的预测,则可达到相同的性能指标阈值。在一些方面,优化参数和方法(诸如最佳置信度阈值)与验证性能数据222和测试性能数据224一起存储。
在一些方面,来自验证性能数据222和测试性能数据224的校准和优化参数被应用于来自证据分配模块218中的证据数据220的预测。在一些实施方案中,证据分配模块提供原始证据数据220和被提供为证据查询226的优化证据数据220两者。
在一些方面,生成针对验证性能数据222和测试性能数据224的多种校准和优化技术以实现特定性能要求。证据分配模块218将检索最能满足证据查询226的要求的特定校准和优化技术。
在一些方面,多个证据数据220满足证据查询226的要求。在其他方面,证据数据220的多种校准或优化技术满足证据查询226的要求。在这些情况下,证据分配模块218必须选择一个或多个证据数据220,以从中提供对证据查询226的响应。在一些方面,根据来自证据查询226的性能要求,将可用证据数据220按其可用验证性能数据222和测试性能数据224进行排序定级。在其他方面,证据分配模型218可根据并非特定于任何特定证据数据220的指标对证据数据220进行排序定级。在其他实施方案中,证据分配模型218可组合两个或更多个已排序定级的证据数据。例如,证据分配模块218第一级可按来自验证性能数据220的特定指标对证据数据220进行排序定级,然后按根据许多证据数据220中的等效生产数据206生成的证据数据220的整体性能进行升序排序。
在一些方面,在对证据数据220进行排序之后,证据分配模块218可能无法找到性能足以满足证据查询226的要求的证据数据220。在一些方面,证据分配模块218可能无法提供排序最高的证据数据220。在一些方面,如果证据查询226请求排序最高的模型,则证据分配模块218仍可提供证据数据220即使该证据数据不满足证据查询226的要求。在一些方面,证据查询226可不具有特定性能阈值,但可请求证据数据220,该证据数据根据由证据查询226定义且由证据分配模块218执行的排序来实现最高排序。
在一些方面,证据数据220可提供基于非分类的解释和验证技术,并且可相对于该基于非分类的解释和验证技术对该证据数据进行评估。例如,证据数据220可预测表型分类(例如,致病性或良性)、概率(例如,22%的致病性几率)或更高维度的表型。例如,验证性能数据222可相对于生产数据206存储证据数据222的基于非分类的指标,诸如受试者工作曲线下面积或斯皮尔曼相关系数。在一些方面,证据分配模块218将单独地使用基于非分类的指标或者与其他指标一起使用来对适当证据数据220进行排序。在其他方面,证据分配模块218可提供来自证据数据220的连续且基于分类的得分。
如本领域技术人员可理解的,变体解释支持系统的一些应用可存在于按一个或多个表型的概率的等级对变体列表进行排序的范围中。例如,变体解释支持系统的一些用户可能对在表现出特定表型的患者中识别最可能的因果变体感兴趣。在一些方面,证据查询226将请求变体列表的相对表型概率。在这些情况下,证据分配模块将针对证据查询206中的每个变体对性能最佳的证据数据220进行排序并且收集这些性能最佳的证据数据。在一些方面,证据分配模块218将返回高于特定表型概率的所有变体的列表。在一些方面,在内部阐述特定表型概率。在其他方面,特定表型概率是根据证据查询226中阐述的要求来阐述的。在其他方面,证据分配模块218将根据一个或多个表型的相对概率,按顺序等级提供来自证据查询的变体列表。在其他方面,证据分配模块将包括与来自证据查询226中的每个变体的每个表型相关联的相对概率。在其他方面,证据分配模块返回证据查询中仅一定数量或百分比的证据。
在一些方面,变体解释支持系统可跟踪来自不同数据库中的特定查询实体的证据查询226。稍后,变体解释支持系统可将记录的证据查询226用作输入数据的一部分,以进一步精修生产数据206或测试数据212。例如,临床数据208可能已从证据查询226和证据数据220部分地导出,此时变体解释支持系统可选择排除特定临床数据208,以避免在测试性能数据224中得出重复的结论。
系统600(图6)可通过具有硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上执行的指令)或它们的组合的处理逻辑来执行。应当理解,执行本文提供的公开内容可能不需要所有步骤。此外,如本领域普通技术人员将理解的,某些步骤可同时执行,或者按与图6所示顺序不同的顺序来执行。
将参照图1和图2来描述系统600和系统601。然而,系统600不限于所述示例性方面。
证据和支持数据602可针对来自证据数据220和任何支持数据(诸如,生产数据206、验证性能数据222或任何其他输入数据122)的一组预测进行汇总。每个变体的支持数据可被分为包括识别信息(诸如,基因型变体和分子变体)的变体特定支持数据604。在一些方面,变体特定支持数据604包括特定于证据模型220预测的信息或特定于变体的验证性能数据222。在其他方面,变体特定支持数据604包括关于输入数据122或来自证据模型214的特定参数的信息。变体特定支持数据5604可跨越预定义的分子变体范围603,例如:来自特定证据数据220的错义变体的所有预测。
对于每个变体特定支持数据604,可定义抗冲突散列函数606以确定性地将变体特定支持数据604转换为每个变体特定支持数据604的散列值607。在一些方面,可在变体特定支持数据604中定义特定的抗冲突散列函数606。在其他方面,还可将随机值添加到变体特定支持数据222,例如以减少意外解密的可能性。
散列值607形成默克尔树体系结构608的默克尔树叶节点610。可以预定义且可复制的方式对默克尔树叶节点进行排序。可将成对的默克尔树叶节点610串联,并且可通过抗冲突散列函数将该值进一步散列到默克尔树非叶节点612中。可重复该过程,直到计算出单个默克尔树根614。然后可将默克尔树根614提交给带时间戳的分布式公共分类帐618。
如本领域技术人员将理解的,可被包括在默克尔树体系结构608中的单独变体特定支持数据604条目的数量可由默克尔树深度616限制。例如,默克尔树深度616为5将仅允许32个默克尔树叶节点。因此,通过限制默克尔树深度616,默克尔树体系结构608自然地限制了可归因于带时间戳的分布式公共分类帐618中的单个默克尔树根614的变体特定支持数据604的数量。结果,具有固定且公开的默克尔树深度616的默克尔树体系结构被动地限制了恶意参与者,例如,限制其试图存储变体特定支持数据604的每个组合和/或枚举。例如,恶意参与者可能会存储声称分子变体P871L是致病性的变体特定支持数据604条目,以及声称同一分子变体是良性的另一个变体特定支持数据604条目。针对特定定义的变体范围603的有限默克尔树深度因此可防止恶意参与者在单个默克尔树根614下将针对特定变体的所有可能预测归因于公共分类帐。如本领域技术人员将理解的,变体范围603的可能变体的数量可由第三方确定,该第三方可确认默克尔树深度不超过定义的变体范围603。
根据一个方面,系统601用于提供证明在公共分类帐上的特定时间戳处存在变体特定支持数据620的散列安全证明。系统601可通过具有硬件(例如,电路、专用逻辑、可编程逻辑、微代码等)、软件(例如,在处理设备上执行的指令)或它们的组合的处理逻辑来执行。应当理解,执行本文提供的公开内容可能不需要所有步骤。此外,如本领域普通技术人员将理解的,某些步骤可同时执行,或者按与图6所示顺序不同的顺序来执行。
在系统601中,可使用用于生成原始默克尔树体系结构608的信息的一小部分来证明与嵌入变体特定支持数据620中的知识相关联的时间戳(可以是来自变体特定支持数据604的特定条目)。例如,系统601提供默克尔树证明624,以通过数学上示出如何使用抗冲突散列函数622变换变体特定支持数据620并且将所得散列与其他散列组合来恢复存储在具有时间戳的公共分类帐中的默克尔树根614,来证明变体特定支持数据620的关联。作为证明返回给审计证明查询624的信息可由四个部分(默克尔树根616、与通向与变体特定支持数据620相关联的默克尔树叶节点610的路径相邻的默克尔树非叶节点612、用于转换变体特定支持数据620的抗冲突散列函数622、以及最后变体特定支持数据620的内容)组成。有了这四个部分,本领域技术人员可快速生成数学证明,即变体特定支持数据620与在带时间戳的分布式公共分类帐618上发布的默克尔树根614密码地相关联。因此,向系统601提出审计证明查询624的审计员可快速确定在用于一个或多个变体的变体特定支持数据620是在与默克尔树根614相关联的时间戳时或之前生成的。
可将使用本文公开的方法和系统(例如,本公开的变体解释方法、变体解释支持系统和变体解释终端系统)获得的在给定时间下感兴趣的一个或多个功能元件(或分子)、表型、背景或变体集的分子变体的表型影响的描述或预测用作例如诊断或治疗的一部分。本文公开的系统、装置、设备、方法和/或计算机程序产品和/或它们的组合和子组合,通过定期合并、更新、监测、验证、选择和审计用于解释多种证据类别中的分子变体的具有最佳性能的支持证据模型,可用于优化对在受试者的分子测试、样本或报告中识别的分子变体(诸如,在基因和基因组测试、样本或报告中识别的基因型(序列)变体)的(例如,临床或非临床的)表型影响(例如,致病性、功能性或相对效应)的确定。此类信息随后可用于例如决定是否治疗患者、对患者停止治疗、选择患者进行治疗、预测患者的预后、选择某种治疗剂等。
应当理解,下文公开的方法不限于临床治疗,并且可与生活方式决策有关。例如,响应于关于潜在表型影响的确定,受试者可能会产生饮食或生活方式的改变。
应当理解,下文公开的方法不限于解释单个个体间的单个变体,并且可涉及一个或多个个体间的多个变体。例如,在临床试验中对一组患者中的变体的相对表型影响进行排序。
应当理解,下文公开的方法不限于解释活体个体中的变体。例如,对个体变体的验尸分析可告知个体亲属的遗传风险。
如本文所用,术语“治疗”(treat、treatment或treatment of)是指降低疾病、病症或表型的可能性,减少疾病、病症或表型的发生,并且/或者降低疾病或病症的严重性,优选达到使受试者不再因此而感到不适和/或功能改变的程度。例如,治疗可指当疗法施用于受试者时其预防疾病或障碍发生并且/或者治愈或减轻疾病的症状、体征或原因的能力。治疗还指减轻或减少至少一种临床症状并且/或者抑制或延缓病症的进展并且/或者预防或延缓疾病或病的发作。治疗还可指减轻或解决疾病、障碍或表型的间接影响,诸如通过告知计划生育决策。因此,术语“治疗”(或语法上等同的术语)是指预防性和治疗性治疗方案。
本公开的方法和系统可在疾病、障碍或表型的诊断和/或治疗中提供益处。益处不一定是特定疾病或障碍的治愈,而是涵盖最通常包括如下情况的结果:缓解疾病、障碍或表型,或者提高生存率、消除疾病或障碍,减少与疾病或障碍相关的症状,预防或缓解由于原发性疾病、障碍或表型的发生而引起的继发性疾病、障碍或病症,以及/或者预防疾病、障碍或表型。
如本文所用,术语“受试者”或“患者”是指希望对其进行疾病、障碍或表型的诊断、预后或治疗的任何受试者。如本文所用,术语“受试者”或“患者”包括任何人类或非人类生物体。术语“非人类生物体”包括所有生物体,诸如非人类灵长类动物、绵羊、狗、猫、马、牛、熊、鸡、两栖动物、爬行动物、鱼类、昆虫、细菌等。
在某些方面,本文公开的方法和系统可用于做出与治疗剂的施用有关的决策,该治疗剂可以是用于预防、治疗、管理或改善疾病或病症的药剂。
如本文所用,术语“疗法”包括用于治愈、减轻或预防疾病或障碍的任何手段,包括例如治疗剂、仪器、支持措施以及外科手术或康复过程。在该方面,术语疗法涵盖可用于疾病或障碍的预防、管理、治疗和/或改善的任何方案、方法和/或治疗或诊断。
如本文所用,术语“治疗剂”是指施用于患有疾病或障碍的受试者以产生期望的、通常有益的效果的任何治疗活性物质。术语治疗剂包括,例如通常被称为小分子药物和生物制剂的经典低分子量治疗剂,包括但不限于:抗体或其活性片段、肽、脂质、蛋白质药物、蛋白质缀合药物、酶,寡核苷酸、核酶、遗传物质、朊病毒、病毒、细菌和真核细胞。治疗剂还可以是前体药物,该前体药物当施用于受试者时会代谢成期望的治疗活性物质。在一些方面,治疗剂是预防剂。此外,可从药学上配制治疗剂。治疗剂还可以是通过某种其他形式的能量(诸如,光能或超声能)或通过可全身性施用的其他循环分子激活的放射性同位素或药剂。治疗剂还可以是改善疾病的间接非生理影响的过程,诸如通过遗传咨询进行计划生育,或者告知患者或患者亲属变体对他们造成的可遗传风险。
如本文所用,“治疗有效”量是为患有疾病或障碍的受试者提供一些改善或益处的治疗剂的量。因此,“治疗有效”量是在疾病或障碍的至少一种临床症状中提供一定程度的缓解、减轻和/或减少的量。本领域技术人员将理解,治疗效果不需要是完全的或治愈的,而只要向受试者提供一些益处即可。
如本文所用,在患有疾病或障碍的患者中实现特定结果的“足够量”或“足以……的量”是指有效(即,通过施用治疗有效量)产生期望效果(任选地是治疗效果)的治疗剂的量。
如本文所用,术语“样本”包括任何生物体液或组织,诸如获自受试者的全血、血清、肌肉、唾液。样本包括任何生物体液或组织,诸如全血、血清、肌肉、唾液、尿液、滑液、骨髓、脑脊液、鼻分泌物、痰、羊水、支气管肺泡灌洗液、肺组织、外周血单核细胞、总白细胞、淋巴结细胞、脾细胞、扁桃体细胞或皮肤。在一些具体方面,样本是血液或其部分、肌肉、皮肤或它们的组合。样本可通过本领域已知的任何手段获得。在一些方面,可通过从多个受试者中采集生物样本并将这些生物样本合并或合并每个受试者的生物样本的等分试样获得样本。合并的样本可被视为来自单个受试者的样本。术语样本还包括所有前述的实验分离部分。例如,可将血液样本分为血清或含有特定类型细胞的部分。在一些方面,样本可以是来自个体的样本的组合,诸如组织和体液样本的组合。
为了应用本公开的方法和系统,来自患者的样本可在施用治疗疾病或障碍的疗法之前或之后获得。在一些情况下,连续样本可在治疗已开始之后或治疗已停止之后从患者获得。样本可例如由医疗保健提供者(例如,医生)或医疗保健福利提供者所请求,由相同或不同的医疗保健提供者(例如,护士、医院)或临床实验室获得和/或处理,并且在处理之后,结果可被转发给原始医疗保健提供者或另一个医疗保健提供者、医疗保健福利提供者或患者。类似地,一个或多个得分的测量/确定、得分之间的比较、得分的评估和治疗决策可由一个或多个医疗保健提供者、医疗保健福利提供者和/或临床实验室执行。
如本文所用,术语“医疗保健提供者”是指直接与活体受试者(诸如,人类患者)互动并且对其进行管理的个体或机构。医疗保健提供者的非限制性示例包括医生、护士、技术人员、治疗师、药剂师、咨询师、替代医学从业人员、医疗设施、医生办公室、医院、急诊室、诊所、急诊中心、替代医学诊所/设施以及提供与患者健康状况的全部或任何部分有关的一般和/或专门治疗、评估、保养、疗法、药物和/或建议的任何其他实体,该任何其他实体包括但不限于全科医疗、专科医疗、外科和/或任何其他类型的治疗、评估、保养、疗法、药物和/或建议。医疗保健提供者还可指寻求个体的变体解释(诸如,追求对家族表型的理解)的个体或该个体的同伴。
如本文所用,术语“临床实验室”是指用于检查或处理来源于活体受试者(例如,人类)的材料的设施。处理的非限制性示例包括对来源于人体的材料进行生物检查、生化检查、血清学检查、化学检查、免疫血液学检查、血液学检查、生物物理检查、细胞学检查、病理学检查、基因检查或其他检查,目的是提供信息,该信息例如用于诊断、预防或治疗活体受试者(例如,人类)的任何疾病或损伤,或者评估该活体受试者的健康状况。这些检查还可包括以下过程:收集或以其他方式获得样本,制备、确定、测量或以其他方式描述活体受试者(例如,人类)身体中的各种物质或者从活体受试者(例如,人类)身体获得的样本的存在或不存在。
如本文所用,术语“医疗保健福利提供者”涵盖全部或部分提供、赠送、给予、支付或以其他方式与给予患者一种或多种医疗保健福利、福利计划、健康保险和/或医疗保健费用帐户计划相关联的个体方、组织或团体。
在一些方面,医疗保健提供者可施用或指示另一个医疗保健提供者施用治疗疾病或障碍的疗法。医疗保健提供者可实现或指示另一个医疗保健提供者或患者执行以下操作:获得样本、处理样本、提交样本、接收样本、转移样本、分析或测量样本、量化样本、提供分析/测量/量化样本之后获得的结果、接收分析/测量/量化样本之后获得的结果、对分析/测量/量化一个或多个样本之后获得的结果进行比较/评分、提供一个或多个样本的比较/得分、获得一个或多个样本的比较/得分、施用疗法、开始施用疗法、停止施用疗法、继续施用疗法、暂时中断施用疗法、增加所施用治疗剂的量、减少所施用治疗剂的量、继续施用一定量的治疗剂、增加施用治疗剂的频率、减少施用治疗剂的频率、维持治疗剂的相同给药频率、用至少另一种疗法或治疗剂来替代疗法或治疗剂、将疗法或治疗剂与至少另一种疗法或额外治疗剂组合。
在一些方面,医疗保健福利提供者可授权或拒绝:例如,收集样本、处理样本、提交样本、接收样本、转移样本、分析或测量样本、量化样本、提供分析/测量/量化样本之后获得的结果、转移分析/测量/量化样本之后获得的结果、对分析/测量/量化一个或多个样本之后获得的结果进行比较/评分、转移一个或多个样本的比较/得分、施用疗法或治疗剂、开始施用疗法或治疗剂、停止施用疗法或治疗剂、继续施用疗法或治疗剂、暂时中断施用疗法或治疗剂、增加所施用治疗剂的量、减少所施用治疗剂的量、继续施用一定量的治疗剂、增加施用治疗剂的频率、减少施用治疗剂的频率、维持治疗剂的相同给药频率、用至少另一种疗法或治疗剂来替代疗法或治疗剂、或者将疗法或治疗剂与至少另一种疗法或额外治疗剂组合。
另外,医疗保健福利提供者可例如授权或拒绝治疗处方、授权或拒绝治疗覆盖范围、授权或拒绝治疗费用报销、确定或拒绝治疗的资格等。
在一些方面,临床实验室可例如收集或获得样本、处理样本、提交样本、接收样本、转移样本、分析或测量样本、量化样本、提供分析/测量/量化样本之后获得的结果、接收分析/测量/量化样本之后获得的结果、对分析/测量/量化一个或多个样本之后获得的结果进行比较/评分、提供一个或多个样本的比较/得分、获得一个或多个样本的比较/得分或其他有关活动。
在特定方面,本文公开的方法包括告知受试者根据本文公开的方法获得的结果(例如,分子变体的表型影响)。可以口头、书面和/或电子方式告知患者。该信息还可记录在患者病历中。例如,在各个方面,将可使用特定治疗剂治疗的疾病或障碍的诊断记录在病历中。术语“病历”或“患者病历”是指对患者的检查和/或治疗的说明,通常包括以下中的一项或多项:患者的病史和主诉、医生的体格检查结果、诊断测试和过程的结果、以及患者的用药和治疗过程。病历通常由一名或多名医生和/或医生的助手制作,并且是需要医疗护理、和/或接种、和/或过敏、和/或治疗、和/或预后的各种疾病或伤害和/或与父母、兄弟姐妹和/或职业有关的常见健康信息的书面、抄录或以其他方式记录的记录和/或历史。记录可例如在诊断病症或做出治疗决策时由医生检查。
病历可以是纸质形式并且/或者可被维护在计算机可读介质中。可通过实验室、医生办公室、医院、医疗保健维护组织、保险公司和/或个人病历网站来维护病历。在一些方面,至少部分地基于本文公开的方法,诊断被记录在医疗警报制品,诸如卡、穿戴制品和/或射频识别(RFID)标签上或中。如本文所用,术语“穿戴制品”是指可穿戴在受试者身体上的任何制品,包括但不限于标签、手镯、项链、臂带或头带。
本文公开的方法还包括对疾病或障碍的预防和/或疗法开处方、开始和/或改变疾病或障碍的预防和/或疗法。在某些方面,这些方法可能需要排序和/或执行一个或多个其他分析。例如,可重复进行基因测试以排除假阴性结果,并且/或者可执行一个或多个附加测试以监测受试者的状态。
本领域技术人员将理解,本文公开的方法例如在治疗、诊断和监测方法中可用作(i)阳性选择器,即,在确定基因型的潜在临床效果之后,将采取特定行动(例如,治疗患有疾病或障碍的患者);或者(ii)阴性选择器,即,在确定基因型的潜在临床效果之后,将采取特定行动(例如,不治疗患有疾病或障碍的患者);或者(iii)阳性选择器和阴性选择器两者,例如,在确定基因型的潜在临床效果之后,可停止特定治疗并且可开始不同的治疗。
本公开提供了一种治疗疑似患有疾病、障碍或表型的患者的方法,该方法包括如果根据本文公开的方法确定基因型的潜在临床效果指示该患者可受益于使用治疗剂的治疗,则对该患者施用该治疗剂。
本公开还提供了方法和系统,以帮助医疗保健提供者、医疗保健福利提供者或临床实验室确定,如果根据本文公开的方法确定基因型的潜在临床效果指示患者可受益于使用治疗剂的治疗,该患者是否将受益于使用治疗剂拮抗剂的治疗。
本文提供的方法还将帮助医疗保健提供者、医疗保健福利提供者或临床实验室确定患者是否将受益于使用任何其他治疗剂的治疗。
本公开还提供一种治疗患有或疑似患有疾病或障碍的患者的方法,该方法包括如果根据本文公开的方法识别的分子变体的表型影响指示该患者将受益于这种治疗,则对该患者施用治疗剂。在一些方面,从患者获得样本并将其提交给例如临床实验室用于基因测试。
还提供了一种治疗患有或疑似患有疾病或障碍的患者的方法,该方法包括:(a)提交从患者获得的样本用于基因测试;以及(b)如果根据本文公开的方法从所述基因测试中识别的分子变体的表型影响指示该患者可受益于使用治疗剂的治疗,则对该患者施用该治疗剂。
本公开还提供了一种治疗患有或疑似患有疾病或障碍的患者的方法,该方法包括:(a)测量根据本文公开的方法在从患有或疑似患有疾病或障碍的患者获得的样本中识别的分子变体的表型影响;(b)基于存在/不存在等位基因变体来确定患者是否可受益于使用治疗剂的治疗;(c)如果存在/不存在等位基因变体,建议医疗保健提供者对患者施用该治疗剂。
在某些方面,确定根据本公开的方法识别的分子变体的表型影响的临床实验室(例如,基因测试实验室)将向医疗保健提供者建议患者是否可受益于使用某种治疗剂的治疗。在一些方面,临床实验室可向医疗保健提供者建议患者是否可受益于开始、停止或修改使用某种治疗剂的治疗。
在一些方面,可将根据本公开的方法进行的分子变体的表型影响的确定的结果提交给医疗保健提供者或医疗保健福利提供者,以用于确定患者的保险是否将涵盖使用某种治疗剂的治疗。
在某些方面,本公开提供了一种治疗患有或疑似患有疾病或障碍的患者的方法,该方法包括:例如,在基因测试实验室中,确定根据本公开的方法识别的分子变体的表型影响;以及如果根据本文公开的方法识别的分子变体的表型影响指示患者可受益于使用治疗剂的治疗,则建议医疗保健提供者对患者施用某种治疗剂。
在某些方面,治疗方法可包括:例如,在基因测试实验室中,确定根据本公开的方法识别的分子变体的表型影响;确定分子变体的表型影响是否指示患者可受益于使用治疗剂的治疗;以及如果指示例如增加或维持施用于患者的治疗剂的量或频率、停止疗法或维持或减少治疗剂的量或频率,则建议医疗保健提供者调整治疗剂的剂量。
在一些方面,除了确定根据本文公开的方法识别的分子变体的表型影响外,本文公开的方法还可包括确定、提交从患者获得的样本以用于确定,或者指示临床实验室进行附加测试,例如以确定某种生物标记或某些生物标记的表达水平和/或活性的不存在或存在。
如上所述,根据本文公开的方法识别的分子变体的表型影响的确定可用作疾病或病症的治疗的一部分。此外,根据本文公开的方法识别的分子变体的表型影响的确定可用于例如选择使用治疗剂进行治疗的患者、在几种潜在的方案中选择用于治疗的治疗剂、选择或排除进行临床试验的患者、或确定患者的预后。响应于根据本文公开的方法识别的分子变体的潜在表型影响,医疗保健提供者、医疗保健福利提供者或咨询师可提供生活方式建议。例如,响应于识别出与肥胖有关的分子变体,可建议受试者调整饮食;响应于识别出与肺癌有关的分子变体,可建议受试者停止吸烟等。
在一些方面,通过告知变体对生物分子的影响,建议改变生物分子以实现生物分子、生物系统或生物医学技术的特定性质、行为或目的,可将分子变体的表型影响的确定的结果用于生物分子工程、分子生物工程、基因工程或生物工程应用中。
如本文所用,术语“生物分子”包括生物衍生和人造两者的所有分子,诸如人类和非人类蛋白质、合成蛋白质、肽、核酸或这些分子的副产物,诸如分析物、代谢物或与这些分子相互作用的分子,诸如配体、小分子、其他肽。例如,人类蛋白质“丁酰胆碱酯酶”是蛋白质生物分子。
如本文所用,“生物分子工程”、“分子生物工程”、“基因工程”或“生物工程”用于指应用生物学原理和工程工具来产生具有特定性质的产品。例如,人类蛋白质“人类丁酰胆碱酯酶”经过重新工程改造,以产生效力为其原始形式的1390倍的可卡因水解酶(Xue等人,“Design,preparation,and characterization of high-activity mutants of humanbutyrylcholinesterase specific for detoxification of cocaine”,Molecularpharmacology,2011年)。
如本文所用,“生物系统”用于指生物实体或一组实体,诸如一组微生物、人体器官或一组器官。例如,表皮是生物系统。
如本文所用,“生物医学技术”用于指根据生物学、部分或全部地基于生物学或受生物学启发的技术。例如,PacBio测序使用工程DNA聚合酶实现单分子实时测序。
Claims (17)
1.一种计算机实现的方法,所述方法包括:
记录包括证据数据的证据模型,其中所述证据数据描述了目标实体的分子变体的预测表型影响;
基于生产数据来评估用于所述证据模型的验证性能数据;
生成用于所述证据模型的支持数据的散列值,其中所述支持数据包括所述证据数据,并且所述散列值的所述生成使得能够响应于接收到用于所述证据模型的测试数据来对所述证据数据进行前瞻性评估;
响应于接收到用于所述证据模型的所述测试数据,基于所述证据数据和所述测试数据来评估用于所述证据模型的测试性能数据;
基于所述验证性能数据或所述测试性能数据,对针对所述目标实体的一组证据模型中的所述证据模型进行排序;以及
响应于从变体解释终端查询所述目标实体的所述分子变体的所述预测表型影响,基于所述排序使用针对所述目标实体具有最佳性能的证据模型来提供所述预测表型影响。
2.根据权利要求1所述的方法,其中所述目标实体包括感兴趣的功能元件、分子或分子变体以及表型。
3.根据权利要求1或2所述的方法,所述记录还包括:
使用机器学习技术来生成基于所述生产数据的所述证据模型。
4.根据权利要求1至3中任一项所述的方法,所述记录还包括:
导入所述证据模型或所述证据数据。
5.根据权利要求1至4中任一项所述的方法,还包括:
根据所述证据数据、所述生产数据、所述测试数据、所述验证性能数据或所述测试性能数据中的至少一者生成所述支持数据。
6.根据权利要求1至5中任一项所述的方法,其中所述散列值的所述生成使得能够评估所述支持数据的内容和所述支持数据的创建时间。
7.根据权利要求1至6中任一项所述的方法,还包括:
从临床知识库接收所述生产数据。
8.根据权利要求1至7中任一项所述的方法,所述评估所述验证性能数据还包括:
使用所述证据模型和模型验证技术来计算所述生产数据中所述目标实体的所述分子变体的表型影响得分;以及
使用感兴趣的性能指标基于所述表型影响得分来生成所述验证性能数据。
9.根据权利要求1至8中任一项所述的方法,所述评估所述测试性能数据还包括:
使用所述证据模型和模型验证技术来计算所述测试数据中所述目标实体的所述分子变体的表型影响得分;以及
使用感兴趣的性能指标基于所述表型影响得分来生成所述测试性能数据。
10.根据权利要求1至9中任一项所述的方法,还包括:
将所述支持数据的所述散列值存储在数据库中,其中所述数据库将所述散列值与所述支持数据相关联。
11.根据权利要求1至10中任一项所述的方法,还包括:
将所述散列值插入分布式数据结构中。
12.根据权利要求11所述的方法,还包括:
向所述变体解释终端提供审计记录,其中所述审计记录引用所述分布式数据结构中的所述支持数据的条目,并且所述审计记录使得所述变体解释终端能够审计所述支持数据的内容和所述支持数据的创建时间。
13.根据权利要求11或权利要求12所述的方法,其中所述分布式数据结构为区块链数据结构。
14.根据权利要求11至13中任一项所述的方法,其中所述分布式数据结构为分布式提要。
15.一种变体解释终端系统,包括:
存储器;以及
至少一个处理器,所述至少一个处理器耦接到所述存储器并且被配置为:
将支持查询发送到变体解释系统,以用于证据模型的支持数据,所述证据模型满足用于目标实体的一组性能指标;
从所述变体解释系统接收所述支持数据和所述支持数据的相关联的审计记录;
将审计查询发送到分布式数据结构,其中所述审计查询包括所述支持数据的所述审计记录;
响应于所述审计查询的所述发送,从所述分布式数据库接收所述审计记录的验证证书;并且
基于所述审计记录,确定所述支持数据在某个时间点的数据状态。
16.根据权利要求15所述的系统,其中所述至少一个处理器被配置为:
计算用于所述证据模型的所述支持数据的散列值;并且
确定所述散列值与用于所述证据模型的所述支持数据的所述审计记录中的散列值匹配。
17.根据权利要求15或权利要求16所述的系统,其中所述目标实体包括感兴趣的功能元件、分子或分子变体以及表型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762573458P | 2017-10-17 | 2017-10-17 | |
US62/573,458 | 2017-10-17 | ||
PCT/US2018/056304 WO2019079464A1 (en) | 2017-10-17 | 2018-10-17 | PLATFORM OF MOLECULAR EVIDENCE FOR CONTINUOUS AND VERIFY OPTIMIZATION OF INTERPRETATION OF VARIANTS IN TESTS AND GENETIC ANALYZES |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112074909A true CN112074909A (zh) | 2020-12-11 |
CN112074909B CN112074909B (zh) | 2024-03-19 |
Family
ID=66174641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880081247.7A Active CN112074909B (zh) | 2017-10-17 | 2018-10-17 | 变体解释终端系统 |
Country Status (10)
Country | Link |
---|---|
US (4) | US11462299B2 (zh) |
EP (1) | EP3701534B1 (zh) |
JP (1) | JP7258871B2 (zh) |
CN (1) | CN112074909B (zh) |
AU (1) | AU2018350975B2 (zh) |
BR (1) | BR112020007449A2 (zh) |
CA (1) | CA3079389A1 (zh) |
IL (1) | IL274001A (zh) |
MX (1) | MX2020003709A (zh) |
WO (1) | WO2019079464A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11462299B2 (en) | 2017-10-17 | 2022-10-04 | Invitae Corporation | Molecular evidence platform for auditable, continuous optimization of variant interpretation in genetic and genomic testing and analysis |
US10959277B2 (en) * | 2019-04-01 | 2021-03-23 | T-Mobile Usa, Inc. | Mobile device network performance restoration and improvement |
US10764062B2 (en) * | 2019-06-03 | 2020-09-01 | Alibaba Group Holding Limited | Blockchain ledger compression |
CN110602162B (zh) * | 2019-08-06 | 2022-11-01 | 苏州龙信信息科技有限公司 | 终端取证方法、装置、设备和存储介质 |
CN110957006B (zh) * | 2019-12-14 | 2023-08-11 | 杭州联川基因诊断技术有限公司 | 一种brca1/2基因变异的解读方法 |
CN112489812B (zh) * | 2020-11-30 | 2021-07-06 | 北京华彬立成科技有限公司 | 药物开发分析方法、装置、电子设备和存储介质 |
US11652650B1 (en) * | 2022-09-20 | 2023-05-16 | Veiovia Limited | Externally validated proof of work for appending a block record to a blockchain with a commitment database server |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120044100A (ko) * | 2010-10-27 | 2012-05-07 | 삼성에스디에스 주식회사 | 바이오 마커 추출 장치 및 방법 |
US20130013213A1 (en) * | 2011-07-08 | 2013-01-10 | Medical College Of Wisconsin | Methods and apparatus for identification of disease associated mutations |
US20140089009A1 (en) * | 2012-09-27 | 2014-03-27 | Wobblebase, Inc. | Method for Personal Genome Data Management |
US20150025861A1 (en) * | 2013-07-17 | 2015-01-22 | The Johns Hopkins University | Genetic screening computing systems and methods |
CN105074463A (zh) * | 2013-01-31 | 2015-11-18 | 科德克希思公司 | 使用相乘形式的模型鉴定生物分子的方法、系统和软件 |
US20160048633A1 (en) * | 2013-03-15 | 2016-02-18 | Cypher Genomics, Inc. | Systems and methods for genomic variant annotation |
US20160048634A1 (en) * | 2013-03-15 | 2016-02-18 | Ali Torkamani | Systems and methods for genomic annotation and distributed variant interpretation |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
WO2016154584A1 (en) * | 2015-03-26 | 2016-09-29 | Quest Diagnostics Investments Incorporated | Alignment and variant sequencing analysis pipeline |
US20160306923A1 (en) * | 2013-01-17 | 2016-10-20 | Edico Genome, Inc. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
CN106796620A (zh) * | 2014-06-30 | 2017-05-31 | 凯杰雷德伍德城公司 | 用于解释和报告基于序列的基因测试的方法和系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5972693A (en) | 1995-10-24 | 1999-10-26 | Curagen Corporation | Apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing |
US6949692B2 (en) | 1996-11-18 | 2005-09-27 | Wisconsin Alumni Research Foundation | Method for identifying mutants and molecules |
US5780236A (en) | 1996-11-18 | 1998-07-14 | Wisconsin Alumni Research Foundation | Method for identifying mutants and molecules |
US7135286B2 (en) | 2002-03-26 | 2006-11-14 | Perlegen Sciences, Inc. | Pharmaceutical and diagnostic business systems and methods |
US7702468B2 (en) | 2006-05-03 | 2010-04-20 | Population Diagnostics, Inc. | Evaluating genetic disorders |
US7993833B2 (en) | 2006-09-11 | 2011-08-09 | Celera Corporation | Genetic polymorphisms associated with psoriasis, methods of detection and uses thereof |
EP2640857A4 (en) | 2010-11-18 | 2014-04-30 | Decode Genetics Ehf | GENETIC RISK FACTORS OF SINUS NODE SYNDROME |
US20120310539A1 (en) * | 2011-05-12 | 2012-12-06 | University Of Utah | Predicting gene variant pathogenicity |
US9218457B2 (en) | 2012-01-06 | 2015-12-22 | Molecular Health Gmbh | Systems and methods for identifying unknown drug targets via adverse event data |
EP2949204B2 (en) * | 2013-06-14 | 2020-06-03 | Keygene N.V. | Directed strategies for improving phenotypic traits |
US10460830B2 (en) | 2013-08-22 | 2019-10-29 | Genomoncology, Llc | Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein |
US20160314245A1 (en) | 2014-06-17 | 2016-10-27 | Genepeeks, Inc. | Device, system and method for assessing risk of variant-specific gene dysfunction |
EP3189619B1 (en) * | 2014-09-03 | 2021-02-17 | NantOmics, LLC | Device, method and computer program product for synthetic genomic variant-based secure transaction |
EP3286677A4 (en) * | 2015-04-22 | 2019-07-24 | Genepeeks, Inc. | DEVICE, SYSTEM AND METHOD FOR ASSESSING THE RISK OF VARIATION SPECIFIC GENDYS FUNCTION |
US10185803B2 (en) * | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
SG11201808219PA (en) * | 2016-03-21 | 2018-10-30 | Human Longevity Inc | Genomic, metabolomic, and microbiomic search engine |
US11462299B2 (en) | 2017-10-17 | 2022-10-04 | Invitae Corporation | Molecular evidence platform for auditable, continuous optimization of variant interpretation in genetic and genomic testing and analysis |
US10978196B2 (en) * | 2018-10-17 | 2021-04-13 | Tempus Labs, Inc. | Data-based mental disorder research and treatment systems and methods |
US20200121715A1 (en) | 2018-10-20 | 2020-04-23 | MC Technology Holdings, LLC | Composition comprising aqueous medium with reduced size water clusters to improve bioavailability of the aqueous medium and methods for making and using the compositions |
-
2018
- 2018-10-17 US US16/162,889 patent/US11462299B2/en active Active
- 2018-10-17 WO PCT/US2018/056304 patent/WO2019079464A1/en unknown
- 2018-10-17 EP EP18868620.8A patent/EP3701534B1/en active Active
- 2018-10-17 BR BR112020007449-7A patent/BR112020007449A2/pt unknown
- 2018-10-17 CN CN201880081247.7A patent/CN112074909B/zh active Active
- 2018-10-17 CA CA3079389A patent/CA3079389A1/en active Pending
- 2018-10-17 JP JP2020522707A patent/JP7258871B2/ja active Active
- 2018-10-17 MX MX2020003709A patent/MX2020003709A/es unknown
- 2018-10-17 US US16/756,802 patent/US20200251179A1/en not_active Abandoned
- 2018-10-17 AU AU2018350975A patent/AU2018350975B2/en active Active
-
2020
- 2020-04-16 IL IL274001A patent/IL274001A/en unknown
-
2022
- 2022-09-16 US US17/946,942 patent/US11798651B2/en active Active
-
2023
- 2023-09-14 US US18/368,375 patent/US20240006021A1/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120044100A (ko) * | 2010-10-27 | 2012-05-07 | 삼성에스디에스 주식회사 | 바이오 마커 추출 장치 및 방법 |
US20130013213A1 (en) * | 2011-07-08 | 2013-01-10 | Medical College Of Wisconsin | Methods and apparatus for identification of disease associated mutations |
US20140089009A1 (en) * | 2012-09-27 | 2014-03-27 | Wobblebase, Inc. | Method for Personal Genome Data Management |
US20160306923A1 (en) * | 2013-01-17 | 2016-10-20 | Edico Genome, Inc. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
CN105074463A (zh) * | 2013-01-31 | 2015-11-18 | 科德克希思公司 | 使用相乘形式的模型鉴定生物分子的方法、系统和软件 |
US20160048633A1 (en) * | 2013-03-15 | 2016-02-18 | Cypher Genomics, Inc. | Systems and methods for genomic variant annotation |
US20160048634A1 (en) * | 2013-03-15 | 2016-02-18 | Ali Torkamani | Systems and methods for genomic annotation and distributed variant interpretation |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
US20150025861A1 (en) * | 2013-07-17 | 2015-01-22 | The Johns Hopkins University | Genetic screening computing systems and methods |
CN106796620A (zh) * | 2014-06-30 | 2017-05-31 | 凯杰雷德伍德城公司 | 用于解释和报告基于序列的基因测试的方法和系统 |
WO2016154584A1 (en) * | 2015-03-26 | 2016-09-29 | Quest Diagnostics Investments Incorporated | Alignment and variant sequencing analysis pipeline |
Non-Patent Citations (2)
Title |
---|
CHENGLIANG DONG ET AL.: "Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies", 《HUMAN MOLECULAR GENETICS》, vol. 24, no. 8, pages 2125 - 2137, XP093014313, DOI: 10.1093/hmg/ddu733 * |
DOMINIK G. GRIMM ET AL.: "The Evaluation of Tools Used to Predict the Impact of Missense Variants Is Hindered by Two Types of Circularity", 《HUMAN MUTATION》, pages 513 - 523 * |
Also Published As
Publication number | Publication date |
---|---|
JP7258871B2 (ja) | 2023-04-17 |
US20200251179A1 (en) | 2020-08-06 |
CN112074909B (zh) | 2024-03-19 |
IL274001A (en) | 2020-05-31 |
US20190189246A1 (en) | 2019-06-20 |
AU2018350975A1 (en) | 2020-05-07 |
WO2019079464A1 (en) | 2019-04-25 |
BR112020007449A2 (pt) | 2020-10-20 |
CA3079389A1 (en) | 2019-04-25 |
AU2018350975B2 (en) | 2023-11-23 |
US11798651B2 (en) | 2023-10-24 |
JP2020537795A (ja) | 2020-12-24 |
US20240006021A1 (en) | 2024-01-04 |
EP3701534A4 (en) | 2021-08-04 |
US11462299B2 (en) | 2022-10-04 |
EP3701534B1 (en) | 2024-04-10 |
MX2020003709A (es) | 2020-07-22 |
US20230117854A1 (en) | 2023-04-20 |
EP3701534A1 (en) | 2020-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112074909B (zh) | 变体解释终端系统 | |
JP7390711B2 (ja) | 個体およびコホートの薬理学的表現型予測プラットフォーム | |
Attia et al. | How to use an article about genetic association: B: Are the results of the study valid? | |
US20200027557A1 (en) | Multimodal modeling systems and methods for predicting and managing dementia risk for individuals | |
Rim et al. | Accuracy of next-generation sequencing for molecular diagnosis in patients with infantile nystagmus syndrome | |
JP2022523621A (ja) | コミュニティデータの集約、完成、修正、および使用 | |
Orlacchio et al. | Hereditary spastic paraplegia: clinical genetic study of 15 families | |
US20120310539A1 (en) | Predicting gene variant pathogenicity | |
Han et al. | Myocilin gene Gln368Ter variant penetrance and association with glaucoma in population-based and registry-based studies | |
US11682481B2 (en) | Data-based mental disorder research and treatment systems and methods | |
Torp-Pedersen et al. | Strabismus incidence in a Danish population-based cohort of children | |
KR20020075265A (ko) | 임상 진단 서비스를 제공하는 방법 | |
Merks et al. | Prevalence and patterns of morphological abnormalities in patients with childhood cancer | |
Grimmer et al. | Familial clustering of hemangiomas | |
Bascom et al. | Heritable disorders of connective tissue: Description of a data repository and initial cohort characterization | |
Wyatt et al. | Genders of patients and clinicians and their effect on shared decision making: a participant-level meta-analysis | |
Jung et al. | Transferability of Alzheimer disease polygenic risk score across populations and its association with Alzheimer disease-related phenotypes | |
Day et al. | Association of acquired and heritable factors with intergenerational differences in age at symptomatic onset of Alzheimer disease between offspring and parents with dementia | |
Jin et al. | Identification of immune-related biomarkers for sciatica in peripheral blood | |
Montesano et al. | UWHVF: a real-world, open source dataset of perimetry tests from the Humphrey Field Analyzer at the University of Washington | |
Holliday et al. | Susceptibility locus on chromosome 1q23-25 for a schizophrenia subtype resembling deficit schizophrenia identified by latent class analysis | |
Williams et al. | 90-Day all-cause mortality can be predicted following a total knee replacement: an international, network study to develop and validate a prediction model | |
US20200176086A1 (en) | Method for Compiling A Genomic Database for A Complex Disease And Method for Using The Compiled Database to Identify Genetic Patterns in The Complex Disease to Establish Diagnostic Biomarkers | |
Velanovich | Using quality-of-life measurements in clinical practice | |
CN107851136A (zh) | 用于对未知重要性的变体划分优先级顺序的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |