CN109937426A - 用于生物数据管理的系统和方法 - Google Patents
用于生物数据管理的系统和方法 Download PDFInfo
- Publication number
- CN109937426A CN109937426A CN201780035638.0A CN201780035638A CN109937426A CN 109937426 A CN109937426 A CN 109937426A CN 201780035638 A CN201780035638 A CN 201780035638A CN 109937426 A CN109937426 A CN 109937426A
- Authority
- CN
- China
- Prior art keywords
- base
- data
- stored
- biological data
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000013523 data management Methods 0.000 title claims abstract description 25
- 239000002585 base Substances 0.000 claims description 249
- 230000015654 memory Effects 0.000 claims description 123
- 238000003860 storage Methods 0.000 claims description 101
- 238000004891 communication Methods 0.000 claims description 31
- 230000002068 genetic effect Effects 0.000 claims description 26
- 238000005259 measurement Methods 0.000 claims description 24
- 108091033319 polynucleotide Proteins 0.000 claims description 18
- 102000040430 polynucleotide Human genes 0.000 claims description 18
- 239000002157 polynucleotide Substances 0.000 claims description 18
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 239000003513 alkali Substances 0.000 claims description 9
- 208000035657 Abasia Diseases 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 239000000178 monomer Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 2
- BOKGTLAJQHTOKE-UHFFFAOYSA-N 1,5-dihydroxynaphthalene Chemical compound C1=CC=C2C(O)=CC=CC2=C1O BOKGTLAJQHTOKE-UHFFFAOYSA-N 0.000 claims 3
- 108020004414 DNA Proteins 0.000 claims 2
- 238000007726 management method Methods 0.000 abstract description 12
- 239000000523 sample Substances 0.000 description 47
- 210000004027 cell Anatomy 0.000 description 23
- 244000052769 pathogen Species 0.000 description 23
- 230000001717 pathogenic effect Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 18
- 239000002773 nucleotide Substances 0.000 description 13
- 125000003729 nucleotide group Chemical group 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 229920002477 rna polymer Polymers 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 108090000623 proteins and genes Proteins 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000036541 health Effects 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 7
- 241001269238 Data Species 0.000 description 6
- 108091034117 Oligonucleotide Proteins 0.000 description 6
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 6
- 150000007523 nucleic acids Chemical class 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 230000011987 methylation Effects 0.000 description 5
- 238000007069 methylation reaction Methods 0.000 description 5
- 102000039446 nucleic acids Human genes 0.000 description 5
- 108020004707 nucleic acids Proteins 0.000 description 5
- 230000003647 oxidation Effects 0.000 description 5
- 238000007254 oxidation reaction Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- DWRXFEITVBNRMK-UHFFFAOYSA-N Beta-D-1-Arabinofuranosylthymine Natural products O=C1NC(=O)C(C)=CN1C1C(O)C(O)C(CO)O1 DWRXFEITVBNRMK-UHFFFAOYSA-N 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 229940104230 thymidine Drugs 0.000 description 4
- 229930024421 Adenine Natural products 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 239000002253 acid Substances 0.000 description 3
- 229960000643 adenine Drugs 0.000 description 3
- 238000007385 chemical modification Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 229930182470 glycoside Natural products 0.000 description 3
- 150000002338 glycosides Chemical class 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003990 capacitor Substances 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 206010034972 Photosensitivity reaction Diseases 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 230000010933 acylation Effects 0.000 description 1
- 238000005917 acylation reaction Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005576 amination reaction Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000029918 bioluminescence Effects 0.000 description 1
- 238000005415 bioluminescence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 230000004547 gene signature Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 208000007578 phototoxic dermatitis Diseases 0.000 description 1
- 231100000018 phototoxicity Toxicity 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000000352 storage cell Anatomy 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Abstract
用于生物数据管理的系统和方法可以保留对数据的替选解释,并且可以实现多级加密和隐私管理。用于生物数据管理的系统和方法可以包括单元级架构、库和块级架构和/或多层架构。用于生物数据管理的系统和方法可以包含定义、规则和指令和/或采用二维或三维数据结构。
Description
相关申请的交叉引用
本申请要求在2016年4月11日提交的美国临时专利申请No.62/321,103的优先权,其全部通过引用并入本文。
背景技术
新的研究继续增加我们对遗传信息的理解并且提出关于如何管理这些信息的挑战。更全面地了解具有更高分辨率的遗传图谱可能会在医疗保健和其它学科中产生有价值的结果。
作为一个例子,管理遗传脱氧核糖核酸(DNA)数据中的挑战之一是存在高度保守的代码区域,其随时间保持不变,但似乎不编码蛋白质。然而,研究表明,它们可能在基因表达调控、选择性剪接和远端增强子中发挥重要作用。因此,期望一种有效的方法来保存不经常使用的区域,同时保持对于遗传序列的更频繁使用的区域的快速访问。
发明内容
这里认识到需要数据管理方案,其可以适应数据的替代解释,并且因此可以访问由各种设备测量的较低级数据。此处还认识到需要以更大的灵活性和更大的完整性来感知、存储和管理遗传数据,以及需要在处理错误情景时灵活且有效地创建、添加到、维护和查询不同级别的这些数据集。
本文提供了用于有效且安全地管理遗传数据的系统和方法,包括:读取和解释原始数据、存储和解释遗传数据、以及维护数据的隐私和机密性。
一些系统和方法可以提供定义和规则,并针对与医疗保健、食品安全和/或其它病原体处理情况相关的问题发布适当的指令。可以利用信息处理环境中的多层网络架构。
可以如生物数据解释的任务和类型所要求使用平行度。信息最初可以存储在半结构化数据的分布式存储器中,允许根据需要扫描、减少和重组信息到结构化、列式或关系型数据库中。
系统和方法可以同时分阶段执行不同的查询,允许信息存储在储存库中,并且可以在静止时加密。信息可以以安全和灵活的方式跨分布式系统、在储存库之间、在服务器之间或在服务器与客户端之间传输。
系统和方法可以根据数据或数据单元的大小与一个或多个存储设备的单元存储块或存储体的大小之间的关系将生物数据存储在一个或多个存储设备中。
系统和方法可以支持访问控制,访问控制可以是基于用户、角色、应用、过程或位置的。
系统和方法可以涉及在存储器单元级别、存储器块级别、存储体级别或另一个存储器单元级别处将遗传数据(例如,多核苷酸数据)映射和存储在一个或多个存储器设备中。
本公开的一方面提供了一种生物数据管理系统,包括:(a)最终用户模块,所述最终用户模块包括排序设备,所述排序设备被配置为生成碱基数据;(b)与所述最终用户模块进行网络通信的本地储存库,所述本地储存库被编程或配置为(i)接收所述碱基数据,(ii)将所述碱基数据转换为序列数据,(iii)基于所述序列数据产生缩写数据,以及(iv)将所述缩写数据与现有缩写的数据库进行比较;以及,(c)与所述本地储存库进行网络通信的中央服务器,所述中央服务器被配置为更新所述现有缩写的所述数据库。
在一些实施例中,所述本地储存库还被编程或配置为标记缩写并将经标记的缩写传递到所述中央服务器。在一些实施例中,所述中央服务器还被编程或配置为接收所述经标记的缩写并对所述经标记的缩写执行进一步的分析。在一些实施例中,所述中央服务器还被编程或配置成在分析所述经标记的缩写时生成指令并将所述指令传递到所述本地储存库。在一些实施例中,所述缩写是方差、散列或校验和。
本公开的另一方面提供了一种用于存储生物数据的方法,包括:(a)确定所述生物数据的大小以识别适于存储所述生物数据的存储单元大小;(b)识别具有与所述存储单元大小兼容的块大小的存储器设备中的存储器位置;以及,(c)将所述生物数据存储在所述存储器设备的存储位置处的可擦除块中。
在一些实施例中,每个可擦除块包括用于存储所述生物数据的分区和用于存储与所述生物数据有关的元数据的分区。在一些实施例中,用于存储元数据的所述分区包括更长的寿命。在一些实施例中,用于存储元数据的所述分区包括与用于存储序列数据的所述分区的控制器不同的控制器。在一些实施例中,与用于存储序列数据的所述分区相比,用于存储元数据的所述分区被配置用于更频繁的访问。
本公开的另一方面提供了一种生物数据管理系统,包括:(a)第一存储器设备,被配置为存储供不频繁访问的生物数据;以及,(b)具有块大小的第二存储器设备,所述第二存储器设备与所述第一存储器设备通信并且被配置为存储供频繁访问的生物数据;其中,所述第二存储器设备比所述第一存储器设备快,并且其中,选择所述块大小以根据所述生物数据的大小存储所述生物数据。
在一些实施例中,所述生物数据是n聚体序列,并且其中,所述块大小是存储所述n聚体的单体所需的位数的n倍。在一些实施例中,所述生物数据是n聚体序列,并且其中,所述块大小是存储所述n聚体的单体所需的位数的至少n倍。在一些实施例中,所述第二存储器设备包括闪速存储器设备。在一些实施例中,所述第二存储器设备包括作为闪速存储器擦除块的块。
本公开的另一方面提供了一种用于在多级单元(MLC)存储器设备中存储序列碱基数据的方法,所述MLC存储器设备包括存储器单元,所述存储器单元中的每一个被配置为存储两位,所述方法包括,在存储器单元中:(a)将所述两位设置为00以代表第一类型的碱基;(b)将所述两位设置为01以代表第二类型的碱基;(c)将所述两位设置为10以代表第三类型的碱基;或者(d)将所述两位设置为11以代表第四类型的碱基。
在一些实施例中,所述序列碱基数据代表一种或多种多核苷酸,所述一种或多种多核苷酸中的每一种包含一种或多种碱基,所述一种或多种碱基中的每一种是至少四种可能碱基中的一种。在一些实施例中,所述多核苷酸是DNA或RNA。
本公开的另一方面提供了一种用于将生物数据存储在存储器设备中的方法,所述存储器设备包括块,所述块中的每一个包括块大小,所述方法包括:(a)确定所述生物数据的大小;(b)确定所述块的至少一个子集的块大小;(c)基于所述块大小压缩所述生物数据以产生经压缩的生物数据;以及,(d)将所述生物数据存储在所述块的所述至少一个子集中。
根据权利要求19所述的方法,其中,所述存储器装置包括闪速存储器设备,并且其中,所述块大小为擦除块大小。
在一些实施例中,所述块大小大于或等于所述经压缩的生物数据的大小。在一些实施例中,所述擦除块存储所述生物数据和所述生物数据的元数据。
本公开的另一方面提供了一种用于将序列碱基数据存储在存储器设备中的方法,所述存储器设备包括存储器单元,所述存储器单元中的每一个被配置为存储至少三位,所述方法包括:在存储器单元中,(a)将所述至少三位中的三位设置为000以代表第一类型的碱基;(b)将所述至少三位中的三位设置为001以代表第二类型的碱基;(c)将所述至少三位中的三位设置为010以代表第三种类型的碱基;(d)将所述至少三位中的三位设置为011以代表第四种类型的碱基;(e)将所述至少三位中的三位设置为100以代表第五种类型的碱基;(f)将所述至少三位中的三位设置为101以代表第六种类型的碱基;(g)将所述至少三位中的三位设置为110以代表第七种类型的碱基;以及,(h)将所述至少三位中的三位设置为111以代表第八种类型的碱基。
在一些实施例中,所述序列碱基数据代表一种或多种多核苷酸,所述一种或多种多核苷酸中的每一种包含一种或多种碱基,所述一种或多种碱基中的每一种碱基是四种不同天然碱基、甲基化碱基、氧化碱基或非碱基位置中的一种。在一些实施例中,所述多核苷酸是DNA或RNA。在一些实施例中,所述存储器设备包括闪速存储器、相变存储器或电阻存储器。
本公开的另一方面提供了一种用于将序列碱基数据存储在存储器设备中的方法,所述序列碱基数据包括两种可能的碱基以代表所测量的多种碱基中的每一种,所述存储器设备包括存储器单元,所述存储器单元中的每一个被配置为存储多个位,所述方法包括:在所述多个位的第一位中存储所述序列碱基数据的最可能的碱基;在所述多个位的第二位中存储所述序列碱基数据的第二最可能的碱基;以及,在所述多个位的剩余部分中存储所述最可能的碱基和所述第二最可能的碱基的相对概率。
在一些实施例中,所述方法还包括:使用所述存储器单元的第一单元来识别最可能的碱基;使用所述存储器单元的第二单元来识别第二最可能的碱基;以及,使用所述存储器单元的一个或多个其它单元来存储所述相对概率。在一些实施例中,所述方法还包括在所述存储器单元的第三单元中存储所述第二最可能碱基的概率。
本公开的另一方面提供了一种用于将序列碱基数据存储在存储器设备中的方法,所述存储器设备包括存储器单元,每个所述存储器单元被配置为存储至少三位,所述方法包括,在所述存储器单元中:(a)提供包括所述至少三位的三位的第一位指示,以代表第一类型的碱基;(b)提供包括所述至少三位的三位的第二位指示,以代表第二类型的碱基;(c)提供包括所述至少三位的三位的第三位指示,以代表第三类型的碱基;(d)提供包括所述至少三位的三位的第四位指示,以代表第四类型的碱基;(e)提供包括所述至少三位的三位的第五位指示,以代表甲基化碱基;(f)提供包括所述至少三位的三位的第六位指示,以代表氧化碱基;以及,(g)提供包括所述至少三位的三位的第七位指示,以代表脱碱基位点。
在一些实施例中,存储器设备包括闪速存储器、相变存储器或电阻存储器。
本公开的另一方面提供了一种加密生物序列数据的方法,所述方法包括:(a)识别在所述生物序列数据中的正常级方差;以及,(b)向所述生物序列数据中引入第二级方差,所述第二级方差与所述正常级方差相当,使得相对于所述正常级方差所述生物序列数据是不可区分的。
在一些实施例中,所述方法还包括使用加密方法传递所引入的级的方差。
本公开的另一方面提供了一种加密受试者的生物序列数据的方法,所述方法包括:(a)使用第一加密方案加密与所述受试者相关的信息;以及,(b)使用第二加密方案加密所述生物序列数据,所述第二加密方案不同于所述第一加密方案。
在一些实施例中,所述第二加密方案包括比所述第一加密方案更少扩展的加密。在一些实施例中,所述第二加密方案包括加扰(chaffing)和风选(winnowing)。在一些实施例中,所述第一加密方案使用公钥基础设施,并且所述第二加密方案使用所述公钥基础设施。在一些实施例中,所述第一加密方案使用第一公钥基础设施,并且所述第二加密方案使用与所述第一公钥基础设施不同的第二公钥基础设施。
本公开的另一方面提供了一种用于存储序列碱基数据的方法,所述方法包括:在计算机存储器中提供二维表结构,所述二维表结构被配置为存储代表潜在碱基的信息;将代表所述序列碱基数据的最可能测量碱基的信息存储在所述二维表结构的第一维中;将代表所述序列碱基数据的其它潜在碱基的信息存储在所述二维表结构的第二维中;以及,将与所述第一维和所述第二维的交集相对应的概率存储在所述二维表结构中。
在一些实施例中,所述潜在碱基包括一组四种可能的碱基的每个和甲基化碱基、氧化碱基和脱碱基位点中的至少一种。在一些实施例中,所述方法还包括在计算机存储器中提供第二二维表结构,所述第二二维表结构被配置为存储代表潜在碱基的信息;并且在所述第二二维表结构中存储所述序列碱基数据的最可能的测量碱基和所述序列碱基数据的第二最可能的测量碱基。
本公开的另一方面提供了一种用于管理生物数据的方法,所述方法包括:提供应用服务器,所述应用服务器被编程或配置成(i)从传感器接收原始测量的生物数据,以及(ii)从所述原始测量的生物数据生成经处理的生物数据;在所述应用服务器处从本地储存库接收与所述经处理的生物数据相关的定义和规则;以及,由所述应用服务器发布基于与所述经处理的生物数据相关的所述定义和规则的指令。
在一些实施例中,所述经处理的生物数据包括所述经处理的生物数据的在所述本地储存库中未找到相关定义和规则的一部,并且所述方法还包括向所述本地储存库发送所述处理的生物数据的至少所述部分。在一些实施例中,所述方法还包括将所述经处理的生物数据的至少所述部分从所述本地储存库发送到中央服务器。在一些实施例中,所述方法还包括从所述中央服务器向所述本地储存库发送指令。在一些实施例中,所述方法还包括从所述中央服务器向所述本地储存库发送新的定义和规则。
本公开的另一方面提供了一种用于存储序列碱基数据的方法,所述方法包括:对于碱基位置,将代表所述序列碱基数据的最可能碱基的信息存储在存储设备的第一位置,并将所述最可能碱基的出现次数的概率存储在所述存储设备的第二位置。
本公开的另一方面提供了一种用于存储包含至少四种可能碱基的序列碱基数据的方法,所述方法包括:(a)在计算机存储器中提供三维表结构,所述三维表结构被配置为存储所述序列碱基数据,其中,(i)所述三维表结构的第一维存储代表遗传序列碱基数据的最可能的测量碱基的信息;(ii)所述三维表结构的第二维存储代表所述遗传序列碱基数据的潜在碱基的信息;并且(iii)所述三维表结构的第三维存储代表所述序列碱基数据的至少四种可能碱基中的每一种的碱基计数概率的信息;(b)将与所述第一维、所述第二维和所述第三维的交集相对应的概率存储在所述三维表结构中。
本公开的另一方面提供了一种用于保护与受试者相关的生物数据的方法,所述方法包括:使用第一加密方案加密受试者的个人识别信息;使用第二加密方案加密所述受试者的表型;使用第三加密方案加密所述生物数据,其中,所述第二加密方案或所述第三加密方案不同于所述第一加密方案;以及,将所述加密的个人识别信息、所述加密的表型和所述加密的生物数据存储在计算机存储器中。
在一些实施例中,(i)所述第二加密方案不同于所述第一加密方案,以及(ii)所述第三加密方案不同于所述第一加密方案,以及(iii)所述第三加密方案不同所述第二加密方案。在一些实施例中,所述方法还包括存储所述受试者的基因表达数据。在一些实施例中,所述方法还包括存储所述受试者的地理数据。
本公开的另一方面提供了一种用于存储受试者的遗传数据的方法,所述方法包括:将所述受试者的个人识别信息存储在具有第一访问限制级的第一存储段中;将所述受试者的表型数据存储在具有第二访问限制级的第二存储段中;以及,将所述受试者的所述遗传数据存储在具有第三访问限制级的第三存储段中。
在一些实施例中,所述第二访问限制级或所述第三访问限制级不同于所述第一访问限制级。在一些实施例中,(i)所述第二访问限制级不同于所述第一访问限制级,以及(ii)所述第三访问限制级不同于所述第一访问限制级,以及(iii)所述第三访问限制级不同于所述第二访问限制级。
通过以下详细描述,本公开的其它方面和优点对于本领域技术人员将变得显而易见,在以下详细描述中,仅示出和描述了本公开的说明性实施例。如将认识到的,本公开能够具有其它和不同的实施例,并且其若干细节能够在各种明显的方面进行修改,所有这些都不脱离本公开。因此,附图和描述本质上被认为是说明性的,而不是限制性的。
通过引用并入
本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度如同每个单独的出版物、专利或专利申请被具体和单独地指示通过引用并入。
附图说明
在所附权利要求中具体阐述了本发明的新颖特征。通过参考以下具体实施方式和附图将获得对本发明的特征和优点的更好理解,所述具体实施方式阐述了其中利用本发明的原理的说明性实施例,在附图(也称为“图”)中:
图1图示出了传感器的电导-时间曲线的示例。
图2图示出了生物数据管理系统的示意图的示例。
图3图示出了用于生物数据管理的分布式网络的图的示例。
图4图示出了生物数据管理系统的示意图的示例,在该系统中,中央服务器位于中心位置。
图5图示出了图示可以由应用服务器执行的过程的流程图的示例。
图6图示出了图示可以由本地储存库执行的过程的流程图的示例。
图7图示出了传感器对21聚体读数的碱基概率矩阵的示例。
图8图示出了为读取保留的数据的附加维度的示例。
图9图示出了各种样本标识符的示例。
图10图示出了句法的三个示例。
图11图示出了转换句法的示例。
图12图示出了应用服务器输入的示例。
图13图示出了应用服务器输出的示例。
图14图示出了分布式文件系统的示例。
图15图示出了用于分段访问控制的架构的示例。
图16A、16B、16C和16D示出了分层存储访问方案的示例。
图17示出了被编程或以其它方式配置为管理生物数据的计算机系统的示例。
具体实施方式
虽然本文已经示出和描述了本发明的各种实施例,但是对于本领域技术人员显而易见的是,这些实施例仅以举例的方式提供。在不脱离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应该理解,可以采用本文所述的本发明实施例的各种替代方案。
如本文所用,术语“受试者”通常是指:动物,诸如哺乳动物物种(例如,人)或禽类(例如,鸟)物种;或其它生物,例如,植物。受试者可以是脊椎动物、哺乳动物、小鼠、灵长类动物、猿猴或人类。动物可包括但不限于农场动物、运动动物或宠物。受试者可以是健康个体、具有或怀疑患有疾病或对于疾病的预先处置的个体或需要治疗或怀疑需要治疗的个体。受试者可以是患者。
如本文所用,“基因组”通常是指整个生物体的遗传信息。基因组可以在脱氧核糖核酸(DNA)或核糖核酸(RNA)中编码。基因组可以包含对于蛋白质编码的编码区域或非编码区域。基因组可包含生物体的任何或所有染色体的序列。例如,人类基因组总共有46条染色体。所有这些染色体的序列可以共同构成人类基因组。
如本文所用,术语“遗传变体”通常是指受试者的核酸样本或基因组中的改变、变体或多态性。这种改变、变体或多态性可以是相对于参考基因组的,参考基因组可以是受试者或其它个体的参考基因组。多态性可包含单核苷酸多态性(SNP)。在一些示例中,一个或多个多态性包括一个或多个单核苷酸变异(SNV)、插入或缺失(插入缺失)、重复、小插入、小缺失、小重复、结构变体连接、可变长度串联重复和/或侧翼序列。遗传变体可包括拷贝数变体(CNV)、颠换或其它类型的重排。基因组改变可包括碱基改变、插入或缺失(插入缺失)、取代、重复、拷贝数变异或颠换。
如本文所用的术语“多核苷酸”通常是指包含一个或多个核酸亚基的分子。多核苷酸可包含选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的一个或多个亚基。核苷酸可包含A、C、G、T、U或其变体。核苷酸可包含可掺入核酸链的任何亚基。这样的亚基可以包含A、C、G、T、U或对一个或多个互补的A、C、G、T或U特异的或与嘌呤(例如,A、G或其变体)或嘧啶(例如,C、T或U或其变体)互补的任何其它亚基。亚基可以使各个核酸碱基或碱基组(例如,AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA或其尿嘧啶-对应物)得以分离。在一些实例中,多核苷酸可包含脱氧核糖核酸(DNA)、核糖核酸(RNA)或其衍生物。多核苷酸可以是单链或双链的。
本文描述的系统和方法可以涉及遗传数据管理。遗传数据管理可以包括网络架构、报告、定义和规则、指令和动作、存储设备和存储管理、隐私、加密或压缩。
可以使用各种类型的传感器来测量不同的遗传属性。某些传感器可以会记录和报告不同级别的分辨率。一些传感器可以提供本地碱基序列。在一些情况下,传感器可以检测化学修饰,例如,甲基化、胺化/脱氨基、氧化和/或DNA和RNA中的任何其它修饰和脱碱基(AP)位点。
传感器可以被配置为检测各种类型的信号,例如,光学信号、电信号或其组合。光学信号可包括荧光、发光、化学发光、生物发光、白炽、激光、发光二极管(LED)、可见光、红外辐射、近红外辐射或其组合。电信号可包括电流、电压、差分阻抗、隧道电流、电阻、电容、电导或其组合。用于遗传检测的一些解决方案可改变天然分子以检测它们。一些检测方法(例如,聚合酶链反应(PCR))可以依赖于扩增,其中,可以产生许多拷贝的原始遗传聚合物。
扩增过程进而可以引入明显的突变错误,这可以导致结果不准确。还可以存在其它误差源,例如,电子噪声、相位误差、光谱反卷积误差、流体扩散误差、定量误差、读数中的位置、序列环境、空间和光谱光学串扰、这使得各种传感器或探测器在信号质量、误差类型、测量精度或感测或测量数据的替代解释方面存在差异。
在管理这些不同类型的遗传数据时,管理关于数据来源的信息、如何测量它们以及用于测量的传感器、检测系统、硬件、消耗品、化学方法或软件版本可以是重要的。每组数据可包括在各种情况下可以需要考虑的特征误差和不确定性。
管理遗传数据的另一个问题可以是管理数据存储。可以采用不同的存储技术和设备。可以使用各种类型的特定存储介质,其可以结合遗传数据的性质、质量或数量来指定。各种类型的遗传数据,例如,DNA或RNA序列,可以存储在多单元存储器设备中。可以关于遗传数据的特征以各种方式使用存储块。例如,存储块的大小与存储块中存储的数据的类型和大小之间可以存在关系。
数据采集
一个或多个生物传感器可以检测分子链的原始数据。可以将每个原始数据读数转变为该读数的本机格式化记录。例如,如果传感器感测并测量电导,则传感器可以在链穿过传感器时随时间产生时间序列的电导,如图1所示。
在脱氧核糖核酸(DNA)或核糖核酸(RNA)的情况下,电导原始数据可以稍后解释为核苷酸碱基数据或记录。
来自传感器的原始数据可以传递到应用服务器。数据可取决于传感器类型,并且可源自电特性,例如,电导、电容、电流(例如,隧道电流)、电压、电阻或其任何组合。数据可包括光学数据,例如,通过例如荧光标记标记或亚基的修饰(例如,核酸碱基)衍生自荧光(例如,化学荧光)或吸光度的光学数据。
可以使用通过无线协议(诸如无线保真(Wi-Fi)、蓝牙或近场通信(NFC))与传感器集成的无线模块来执行从传感器到应用服务器的数据传输。可以使用诸如通用串行总线(USB)的有线连接来执行数据传输。
应用服务器可以包括台式计算机、膝上型计算机或诸如移动电话(例如,iPhone或Android电话)或平板电脑(例如,iPad或Android平板电脑)的移动设备。
应用服务器可以具有接收原始信号数据并使用某些碱基调用例程产生碱基数据的指令集。可以基于传感器的能力和特性或其它全局指令在应用服务器上对这些例程进行编程和更新,如本文其它地方所述。
例如,可以从传感器制造商接收或推送传感器更新,以改善信号测量或改变硬件或固件。
如图2所示,应用服务器或中央服务器201可以包括或可以访问应用服务器或中央从本地储存库202接收的定义和规则的专用数据库。可以根据需要更新定义和规则。定义和规则可以识别各种情况和行动。例如,可以存在病原体特征或序列或与可由本地传感器检测的特定病原体相关的任何其它数据。因此,定义和规则可以是定制的并且可以是动态的。应用服务器201可以与本地主设备205通信,本地主设备205可以用作应用服务器不能解释或得出的数据的资源。本地主设备205可以与本地从设备206通信,本地从设备206可以停留在相同的设施中,但是可以通过快速访问本地主设备来提供有限的功能。本地储存库202可以与端节点1 203和端节点2 204通信,端节点1 203和端节点2 204可以是测量设备。
当应用服务器执行测量时,它可以将其结果与其可以访问的定义和规则进行比较,并且可以随后相应地建议指令。
如果对于特定情况没有可用的定义或规则,则应用服务器可以就该情况与其本地储存库202通信。
本地储存库可以包括与一个或多个应用服务器进行网络连接的服务器,如图3所示。本地储存库301可以包括或可以访问更大的数据库和更多定义和规则或更新的定义和规则。
例如,本地储存库可以与中央服务器302进行网络连接。中央服务器可以与多个本地储存库302进行网络连接,这些本地储存库302又可以与本地应用服务器303进行网络连接。
如图4所示,中央服务器可以位于中心位置,例如,国家实验室或健康组织设施。
中央服务器的角色可以包括将定义和规则连同指令一起传递或更新到多个本地储存库或从它们接收报告。
取决于来自某个机器的视点,可以存在若干场景。在某些情况下,可以针对应用服务器执行如图5所示的一个或多个操作:
-传感器测量来自多核苷酸测量的信号501;
-传感器将信号数据传递到应用服务器502;
-应用服务器接收信号数据并生成碱基数据503;
-应用服务器基于碱基数据识别序列数据504;
-应用服务器针对从本地储存库接收的定义和规则分析序列数据505;
-应用服务器基于分析向用户提供消息506;
-如果需要,应用服务器将序列数据传递到本地储存库507。
图6图示出了由本地储存库执行的可能的操作,其可以对应于当应用服务器将序列数据传递到本地储存库时图5中描述的一组操作:
-本地储存库从应用服务器接收碱基数据601;
-本地储存库检查定义和规则602;
-本地储存库将与碱基数据相关的异常传递到中央服务器603;
-本地储存库从中央服务器接收全局和区域更新604;
-本地储存库更新定义和规则605;
-本地储存库与应用服务器传递新定义和规则606;
-中央服务器将指令传递给本地储存库;以及
-本地储存库将指令传递给应用服务器。
应用服务器可以与本地储存库进行直接或网络通信。本地储存库可以周期性地向应用服务器发送本地储存库从中央服务器接收的更新。
中央服务器可以位于中心实验室或健康中心,并且可以分析由本地储存库传递的序列数据。中央服务器可以访问序列数据库。
示例:病原体
序列数据库可包括病原体序列的数据库。中央服务器可以更快地访问通过使用更快的存储器和通信管道报告的最近的病原体序列。
当本地储存库接收可以与新病原体或有害已知病原体的可能性有关的信息时,本地储存库可以寻找由中央服务器提供的、可以与专用数据库中的所接收的序列相关的定义和规则。基于所接收的序列数据与具有特定定义和规则的在专用数据库中的序列的比较,本地储存库可以相应地采用适当的选项。例如,本地储存库可以找到特定规则,并且然后将特定指令传递给应用服务器。
替选地,如果本地储存库的定义和规则满足某组标准,则它可以将所接收的序列传递到中央服务器。
中央服务器可以访问更大的数据库,诸如最近和/或更早的爆发的综合中央数据库。中央服务器可以基于中央服务器从多个本地储存库收集的内容来连续更新中央数据库。
中央服务器可以由中央实验室或健康中心访问,其中,健康或安全专业人员可以访问具有特定预定阈值的事件并且关于具有特定预定阈值的事件被警告。
运行中央服务器的机构可以做出各种决定。这些决定可以包括自动或半自动决策。例如,如果中央实验室确定某个序列不危险,则中央实验室可以向本地储存库传递忽略这种实例的决定。或者,如果存在更严重情况的指示,则中央服务器可以将标记的序列添加到专用于这种实例的指令,并保持指令以便在存储器中更快地访问。向中央实验室报告的、具有相同或相似模式的一些后续实例可以接受相同的指令。该指令可以包括有关药物、检疫、休息等的决定。
当中央实验室已经解决并分类情况时,中央实验室然后可以建立与情况相关的定义和规则。然后可以将这些定义和规则和指令传递到相关性的本地储存库。例如,如果地理爆发结束,则中央服务器可以更新与该区域相关的最终用户和应用服务器连接的任何或所有本地储存库,同时将该区域附近的其它区域置于警报状态。
关于食品安全性,不同位置的多个传感器可以测量来自各种类型食物的序列。这些位置处的传感器可以测量序列并且可以搜索候选病原体。每个传感器可以与应用服务器通信。传感器可以测量来自序列的信号并将原始数据发送到应用服务器。
应用服务器可以包括一组定义和规则。当应用服务器从传感器接收原始数据时,应用服务器可以运行程序以从原始数据产生碱基读数并从碱基读数产生序列重叠群。在产生序列重叠群之后,应用服务器可以运行将碱基数据或序列数据与预先建立的定义和规则进行比较的程序。这些定义可以位于应用服务器可以访问的数据库中。定义可以远程存储在专用服务器上。可以存在被指定为特别重要或至关重要的定义的子集。例如,可以存在一组最近或当前的病原体信息。这些特别重要或关键的数据可以存储在应用服务器可以容易地访问的更快的访问存储器中。在某些情况下,可以通过指令或规则来指示应用服务器搜索特定模式。例如,该特定模式可以与当前爆发或来自其它传感器的报告有关,这些传感器可以已经在相似类型的食物(例如,农产品)中指示了病原体。
应用服务器可以与本地储存库进行网络通信。本地储存库可以为许多具有定义和规则的应用服务器提供服务,并且可以向应用服务器提供指令。因此,本地储存库可以定期向应用服务器发送更新。
如果应用服务器没有找到针对特定情况的适当定义或规则,则应用服务器可以将序列数据或其它生物数据发送到本地储存库。然后,本地储存库可以搜索它可以访问定义或规则的更广泛的数据库。可以在一个或多个本地储存库之间共享该数据库。数据库可以具有例如更大的已知病原体集合,或者可以具有与历史爆发相关的一些病原体,这些病原体在一段时间内未被观察到。替选地,可以未在传感器位置附近观察到这样的病原体,但是本地储存库可以访问记录病原体的数据库,并且因此可以知道它们。
在特殊情况下,本地储存库可以采用多种选项中的任何一种。例如,本地储存库可以查找与病原体相关的定义和规则,并将其与某些指令一起传递给应用服务器。替选地,本地储存库可以将数据传递到中央服务器。
本地储存库可以具有其从中央服务器接收的其自己的定义和规则。中央服务器可以与许多本地储存库进行网络通信。因此,中央服务器可以定期更新本地储存库处的定义和规则。
如果本地储存库找不到针对特定情况的任何定义或规则,则本地储存库可以选择将数据传递到中央服务器。规则可以要求本地储存库报告可以指示特殊情况的任何碱基数据、序列数据或生物数据。
中央储存库可以位于包括研究人员或健康专业人员的中央实验室中、在其中使用或被其使用。例如,国家或国际卫生中心可以控制中央储存库。当检测到特殊情况并将其从传感器传递到中央服务器时,中央服务器可以访问大集的定义或规则来处理这些情况。可选地,在达到某些预定阈值或由用户自行决定时,研究人员或健康专业人员可评估情况以确定情况的严重性。
单个样本可以产生多个千兆字节的原始模拟电导信息,其代表数百万个序列信息的读数。初始解释过程可以消耗这些模拟读数,并且可以在没有分子通过分子传感器时或当污染物导致不可靠或无效结果时滤除环境噪声。解释过程可以将数据解释并转换为基本序列串。每个碱基确定可以与一个或多个数据维度相关联。例如,维度或向量可以指示其正在读取的碱基的概率等级,如图7中所示。
图7示出了能够感测脱碱基(AP)位点或五种可能碱基之一的传感器的21聚体读数的碱基概率矩阵。确定的碱基序列310可以代表在读数中的每个位置处的最高概率碱基。脱碱基位点或碱基的可能性可包括:
A=腺嘌呤
B=脱碱基位点
C=胞嘧啶
G=鸟嘌呤
T=胸腺嘧啶
U=尿嘧啶
每列示出在序列中每个位置的特定核苷酸碱基的概率。传感器端节点或应用服务器可以解释在每个位置处的每个可能碱基的概率。例如,该图示出胞嘧啶(C)为在第16个碱基位置上最可能的碱基。
图8图示出了如何为读数保留数据的附加维度。在该图示中,修饰表在每个碱基位置示出该碱基是否被甲基化、氧化或酰化。在该示例中,第三和第四碱基包含甲基化的5'-C-磷酸-G-3'(CpG)对。还相信胞嘧啶(C)被氧化。相关的碱基概率表示出确定的碱基序列。距离表或转换位置表包含在多个碱基中的到新碱基的转换之间的距离,给出确定的均聚物长度。该示例示出在转换为腺嘌呤(A)之前运行大约两个胸腺嘧啶(T)碱基。它还示出在序列中后期转换为鸟嘌呤(G)之前的两个腺嘌呤(A)碱基。存储读数的数据的维度可以解决关于序列或子序列中相同类型碱基数量该类型传感器具有固有不确定性。
其它维度可以包括总长度和作为距读数开始的距离的碱基位置。一些排序技术在寡核苷酸(寡核苷酸)的一端开始并通过合成(SBS)进行排序。此类过程可涉及在每轮之后寻找碱基掺入(例如,一次一个)。因此,每次引入碱基时都可以产生相位误差。例如,如果存在克隆群体,则整个群体中碱基的掺入可以是不均匀的。某些成员可以包含多于一个的碱基,而其它成员可以不包含碱基。因此,置信度可以随着序列读数进一步降低。第四维可以包括距离、碱基数、碱基配对端、或来自被分析序列的引物切割末端的碱基转换。
可保留原始数据读数以供进一步分析。例如,人们可以希望通过检测聚合物蠕变、光毒性、影响传感器的污染物的存在或纳米网关尖端的原子结构变化来提高灵敏度。碱基调用的不确定性可以特定于所用传感器的品牌和型号。
例如,解释过程控制器可以将每个过滤的电导记录传递给单个解释工作者进程或线程。可以在不考虑锁定的情况下解释每个原始读数,因为可以没有共享数据。同步可以是不必要的,因为解释的下游过程可以在增长的解释样本数据集上执行多次,直到解释以可接受的置信度达到其完成状态。
此外,该系统可以结合来自不同供应商的传感器以使用各种技术来感测序列。在某些情况下,原始信息可以不可用。相反,可以从样本中获得读数,其中,概率和诱导误差是所使用的技术特有的。每种技术都有优点和缺点,并且可以具有不同的灵敏度。每种技术可以对读取DNA或RNA序列的各个方面或维度具有不同分辨率。一些技术可以对从一个碱基到下一个碱基的转换非常敏感,但对特定感兴趣的碱基不太敏感。在这种情况下,可以期望对碱基读数进行进一步分析。
一些技术在碱基确定方面可以特别好,但在确定碱基移动或转换时不太强。这种情况可以导致它查看特定碱基的可能性很高,但对碱基数量和重复时间提供的确定性较低。另一种技术可以沿着寡核苷酸(例如,一次一个)读取每个碱基,其具有加性误差模型,使得离起始标记越远,碱基被感测越不确定。
因此,当存储在非易失性存储器中时,各种实施例支持以文件和记录的各种样式和格式解释序列碱基数据。例如,来自可扩展标记语言(XML)或JavaScript对象表示法(JSON)文件中的样本的数据可以存储在分布式文件系统上。
文件可以包含作为链中每个核苷酸的单个碱基值存储的读数。读数可以存储为概率值。替选地,可以将读数存储为在每个核苷酸位置的每个可能碱基的完整概率矩阵。可能的句法可以包括使用一个或多个属性来描述存储在读数记录中的内容的元数据句法。
基于收集样本中所涉及的各种因素,存在半结构化读数格式的各种示例,各种实施例能够解释和使用所述各种示例。这些因素的示例可包括样本制备、传感器的品牌和/或型号或数据的分析。样本文件可以包括简单和基本的模式,该模式包括具有一个或多个碱基读数的唯一样本标识符。
图9示出了序列读数、基本格式读数和句法的示例。部分A示出包含确定的碱基序列的读数。部分B示出了包括每个碱基的概率数据的相同碱基格式读数的示例。该第二示例的句法包括描述单个碱基的每个词。例如,词“C67.74”将第三碱基描述为胞嘧啶(C),概率超过67%。
在部分C中示出的第三示例示出了相同碱基格式读数,其中每个词描述单个碱基位置。在此示例中,每个词描述碱基、概率和任何修饰。例如,词“Cf67.74”将第三碱基描述为胞嘧啶(C),概率为67%。通过在该碱基之后添加小写字母,可以将修饰记录到每个词中。在该实施例中,缺少跟着的小写字母指示该碱基未被甲基化、氧化或酰化。小写字母“a”到“h”可以被翻译成数字1到8以保持修饰表的位掩码。甲基化等于最高有效位(MSB)(4),氧化为(2),并且酰化是最低有效位(LSB)(1)。因此,用“f”修饰的胞嘧啶(C)碱基示出胞嘧啶被甲基化和氧化。
根据本文描述的系统和方法,可以维持二级和三级可能的碱基值、对那些碱基的任何修饰以及任何其它传感器记录的数据维度。图10表示用于存储下述部分的句法的三个示例:(A)六个跟踪的碱基或AP位点可能性中的每一个;(B)最高的两个最可能的碱基或AP位点可能性;或者(C)如果概率超过某个预定阈值,则仅维持碱基位置概率的阵列。在部分A中所示的第一个例子中,文件存储六个碱基中每个碱基的概率和读数中第三碱基位置为具有最高概率超过67%的胞嘧啶(C)和具有最低概率低于2%的脱碱基位点的概率值。如果仅维持两个最高可能碱基值,则该碱基位置可被视为主要胞嘧啶(C)碱基,或以概率约14%替选地为胸腺嘧啶(T)碱基,如部分B所示。
存储概率仅在它们超过预定阈值时可以用部分C中所示的长度/值句法来实现。具有超过15%的阈值的两个碱基可能性的碱基位置可以导致引导数“2”作为词“2C64.46”的第一个字符,其还提供为对于该碱基位置保留的碱基阵列的长度。胞嘧啶(C)的概率最高,为64%,并且鸟嘌呤也超过15%的阈值。
还可以使用用于记录碱基转换之间的距离维度的传感器的转换句法,如图11所示。
应用服务器可以从样本中收集数百万个读数。然后,它可以从读数的分析中鉴定更长的对齐序列或重叠群数据。为了进一步评估,应用服务器可以执行碱基读数与参考的对齐。或者,读数可以与几个其它读数聚组并用于从头组装。应用服务器可以是可扩展的,使得它可以调用仅接受以读数的半结构化格式存储的信息的子集的其它过程。例如,对齐过程的接口可以接受读数的FASTA格式化的句法或FASTQ格式化的句法。在这种情况下,可以将读数转化为对齐过程所理解的格式。
例如,图12中描述的示例读数当被转化成FASTQ格式时,可以看起来类似于以下四行:
@10032QB:1157S:1.1:20151221:09:42:37
ATCGTCGAGBAGTTACAAGCT
+10032QB:11578:1.1:20151221:09:42:37
′*&*′+%+)&(%′(&&)&&&(
可以发送碱基和对应的Phread质量分数。可以解释读数,并且可以从对齐过程的一致性算法返回重叠群。样本可以包含数百万个读数。读数可以与参考序列对齐或从头组装。将碱基读数转化为不同的句法可能会丢失碱基读数的某些环境或分配率。在图13所示的示例中,除了碱基序列和由将读数对齐成重叠群的程序发送和返回的概率或质量分数,指示的传感器还能够捕获转换距离和化学修饰。应用服务器可以进行对齐,并且当确定共识时,将一些丢失的环境或分辨率重新应用回序列重叠群,使得以与读数类似的半结构化句法存储重叠群。例如,对于衍生自含有化学修饰的碱基读数的重叠群,应用服务器可以重新应用不用于对读数进行排序的任何修饰。
应用服务器可以分析关于从本地储存库接收的定义和规则的序列重叠群数据。安装可以在端节点、服务器和/或储存库处分发,所述端节点、服务器和/或储存库联网并协作以管理序列数据获取并对其进行操作。在一个方面,应用服务器可以包含用于高效地发现和作用于遗传序列信息的规则。可以引导序列发现来寻找病原体。在其它情况下,人们可能想要发现某些基因表达的重叠群。各种实施例允许诸如微生物学家的人管理病原体或基因的序列定义的数据库。规则定义可以分配给特定指令或指令集,或与之相关联。
中央控制和规则管理模块可以处理这些规则。在某些情况下,它们可能会转换规则或进一步修改规则,以便它在特定的下游服务器和节点上运行。许多规则将自行分发。
例如,规则可以包括简单序列、匹配方法、加权、一个或多个回归调整或将样本信息捆绑到符合国家生物技术中心(NCBI)的生物样本(BioSample)并通知部门领导的指令。
该示例中的系统的实例化可以包括基本传感器、本地节点和/或本地服务器。规则可以根据其执行所在的特定设备进行调整。应用服务器可以尝试从每个单独的读数或重叠群发现序列。通过修改更高级别规则以基于所使用的传感器的品牌或型号更有效地发现序列,可以更好地服务于规则的发现部分。高水平的规则可以是基于所使用的排序设备的类型将序列与具有少于预定数目的方差的重叠群对齐。在某些情况下,可以使用全局方法和估值,而对于其它排序设备,可以应用本地方法和估值。替选地,例如,如果使用的传感器是罗氏454,则序列到重叠群的映射可以具有基于流程图的阈值方差水平。
在一个实施例中,规则可以被分发并且规则可以包括与专用应用服务器的协作。这可以允许具有更少的错误结果的更准确的结果,而不会不利地影响末端排序设备的整体性能。例如,设备可以有测试食物样本的多个传感器节点:
-将这些读数信号发送到应用服务器,以便解释为碱基读数和随后的重叠群。
-该初始应用服务器对于针对病原体签名阵列的每个碱基读数执行具有简单的较低处理成本的序列对齐算法的规则。
-如果一个或多个病原体满足多个密切匹配或分数的阈值,则该指令可以包括:
-扩大传感器处的采样;和/或
-捆绑完整的样本并将其转发到专用的病原体测试应用服务器,以更加严格地解释传感器测量。
-病原体测试应用服务器然后可以基于其发现应用其自己的指令。
该实施例可以确保在跨网络传递信息时以及当信息存储在储存库中时信息受到保护。
对于传输中的数据,可以应用诸如安全套接字层(SSL)或传输层安全性(TLS)的加密方案。可以在传感器处产生数据。这些端节点传感器可以支持与本地应用服务器的连接,本地应用服务器将原始数据分析为碱基读数。应用服务器可以进一步将碱基读数分析成重叠群或序列。替选地,应用服务器可以将读数传递到另一个应用服务器以创建碱基读数和序列。传感器和应用服务器之间、协作应用服务器之间、应用服务器和储存库之间以及应用服务器和服务之间的通信可以支持安全套接字层(SSL)或传输层安全(TLS)连接。这可以包括将碱基读数和序列与其它元数据(诸如名称或地理位置)相关联并且应用规则和指令的服务器。
对于静止的数据(例如,不在传输中),可以使用各种机制来保护该数据。数据可以存储在多个位置。样本数据可以存储在文件系统中。每个样本可以包括半结构化数据文件。过程可以执行样本文件的编组、解组和/或删除。
得到的重叠群或序列数据可以以与多个半结构化文件类似的方式存储。重叠群数据可以保存在分布式文件系统中,因为重叠群数据可以包括大数据集,可以连续挖掘和分析以测试假设,并且可以需要能够支持高并行性访问的储存库。与样本文件一样,过程可以执行重叠群文件的编组、解组和/或删除。这些文件可以是匿名的。可以调谐加密和压缩机制以获得较低的中央处理单元(CPU)访问成本和较高的读取吞吐量。
当序列存储到储存库中时,只有标识符可以与重叠群相关联。可以针对与样本相对应的受试者、位置、联系信息或研究来对它们进行去识别。身份数据可以存储在与序列不同的储存库中。同样,来自样本的碱基读数可以仅与唯一标识符相关联。如果保留原始数据,则它也可以仅与标识符相关联。身份数据可以放在单独的数据库中。身份数据可以保存在关系数据库中。可以维持样本-身份和重叠群-身份参考表,以允许在访问控制允许的情况下链接重新识别一对样本和重叠群。可以将一组不同的访问控制应用于匿名样本。身份数据和序列数据都可以在静止时加密。
样本数据、重叠群和序列可以代表相对静态的数据集。在添加到储存库后,它们可能很少更新。它们可以表示高达千万亿字节(例如,数百万千兆字节)的数据。可以通过使用存储受保护的半结构化数据集的分布式文件系统来实现对这些极大数据集的分析处理,所述受保护的半结构化数据集可以通过诸如MapReduce或Spark之类的过程来访问和缩减到工作事务或列式数据库中。
例如,图14图示出了分布式文件系统的示例,其中,信息保留在三个单独的存储系统中-每个用于样本1401、重叠群1402和工作数据1403。原始样本数据1401可以被解释并转化成由分子读数连同关于样本的简单或基本元数据组成的半结构化格式。基本元数据可以包括样本标识符。关于样本的所有其它元数据可以被认为是工作信息。工作信息可以参考样本标识符单独存储在数据库中。一旦处理后,可以保留或不保留样本数据。如果样本数据被长时间保留并出于其它目的被使用或访问,则其可以存储在分布式文件储存库1404中。替选地,如果样本数据被保留很长一段时间但是通常不会出于其它目的被访问和使用,则它可以被归档。
可以将样本数据进一步解释、对齐或组装成多组重叠群或序列。这些重叠群可以以诸如XML或JSON的半结构化格式存储在分布式文件系统1404中,带有分配的重叠群标识符。以与样本数据类似的方式,关于重叠群的其它元数据可以是工作信息,并且可以参考重叠群标识符单独存储在数据库中。
重叠群也可具有工作数据。工作数据可以包括除了读数和导出的重叠群之外捕获和使用的附加数据。这可以包括有关捕获信息所涉及的过程的信息,例如,所用设备的品牌、型号或序列号;样本制备信息;来源信息;获得样本的位置;以及,保护的健康信息,诸如患者的姓名和联系信息。
可以压缩这些样本数据和重叠群数据文件以增加容量,应理解在这样做时,在读取文件时会产生计算成本。这些文件可能已加密。由于这些文件中的信息可以是匿名的,因此实施例使用采用高性能(例如,安全)解密对应物的加密算法。可以采用硬件加密加速器来最小化加密和解密成本。
工作数据可以包括附加信息,其被存储以便重新识别或使用样本和重叠群。工作数据还可以包括具有在身份、序列和表型1405之间的关联的表型模式。工作数据也可以是加密的。然而,虽然性能可以是用于决定使用哪种算法的重要因素,但安全性可以是工作数据的重要因素。此外,可以为工作数据实现细粒度安全性和访问,诸如记录级访问。
样本存储和重叠群/序列分布式存储可以使用对称密钥来加密半结构化文件。负责编组和解组文件的应用服务器进程可以维护安全钱包中的文件的密码列表。此外,运行应用服务器过程的主机可以包括加速器,诸如英特尔高级加密标准-新指令(IntelAdvanced Encryption Standard-New Instructions)(AES-NI)。
该实施例的益处之一可以是储存库被建模以维护和提供必要的工具以访问和挖掘储存库能够在匿名环境中长时间存储的生物信息的大量采集。匿名重叠群和可选的初始样本数据可以被保留,并且可以安全地使研究人员能够改进对遗传学的理解。
在一些实施例中,医生可以能够访问包括链接到相关工作信息的遗传重叠群的患者病历。在该示例中,医生在提供两种不同类型的访问的应用程序内:对特定重叠群和序列集的高效访问以及对链接到重叠群和序列的工作数据的安全访问。
示例1:研究
在研究环境中,来自不同制造商的多个传感器的样本的原始数据被发送到应用服务器。应用服务器解释原始数据并确定原始数据中部分或全部读数的碱基序列。然后,应用服务器要么自己执行对齐分析,要么将读数格式化为它调用的外部对齐分析服务器工具所理解的句法。生成的重叠群从外部服务器返回到应用服务器。
在一些情况下,应用服务器将来自样本读数的信息重新应用回重叠群。重构的重叠群被用标识符标记并传送到重叠群库,在那里它们被保存为应用服务器的分布式文件系统中的半结构化文件。与重叠群相关的其它信息(例如、源、身份、位置和/或地址)将插入到储存库的工作数据库中。
可以将附加元信息合并到半结构化文件中,诸如分类法,以允许在分布式文件系统中有效存储或者在提取期间减少数据。重叠群的储存库随着时间的推移而增长。
研究人员对特定遗传签名与一种或多种表型的某种表达的原因或概率之间的关系进行假设。重叠群库被挖掘。将特定签名及其关联标识符作为独立变量提取并加载到数据库中以测试研究人员的理论。
然后可以将签名映射到从外部源获得的表型。
可以保存证明有用的假设,并将其并入与基因表达和表型相关联的基因签名的单独数据库1406中的应用服务器中。
半结构化文件被加密,数据库也是如此。访问被控制到样本和重叠群标识符的水平。
可以在没有具有不同安全级别的工作信息的情况下检索样本和重叠群信息。例如,可以允许研究人员访问系统中的所有重叠群,但不允许访问具有其关联工作信息的任何重叠群。
访问控制是抽象的,并且可以支持诸如组和角色安全性之类的概念。带有抽象控件的细粒度安全性可以提供随着时间的有效的安全性和隐私性。作为示例,医疗组的雇员可以访问存储关于医疗组的一部分或全部患者成员的生物信息学信息的实施例。随着时间的推移,负责特定患者的医生可以改变。医生可以只能访问他们目前负责的患者的生物信息学信息。
访问通过强大的公共/私人密钥管理系统被授予权限,并为不可否认性提供支持。
管理程序可以管理系统的节点和用户。管理程序可以包含用于发布密钥和维护证书撤销列表的证书授权服务。在端节点传感器、应用服务器和分布式文件系统管理器中运行的过程具有公钥/私钥对,其允许它们作用于信息。用户还生成了密钥对。用户可以具有与其帐户相关联的多个密钥对,以支持来自多个不同计算机、平板电脑或其它计算设备的认证。
支持角色或组的概念。由角色控制访问存储的数据,而当前活动的用户可以属于一个或多个角色。
这种静态数据的访问控制的体系结构和抽象具有额外的好处,即确保一部分或所有序列信息被保护并且在数据记录的整个生命周期中仅使授权实体可用。图15示出了图示分段访问控制的示例性架构。
访问控制能够被例如细粒度化到个体样本水平。可以用唯一标识符标记每个样本。
对于本质上不重要的作业,可以使用低级排序器或生物传感器。低级排序器或生物传感器可以不需要大型永久存储设备。这种设备的示例可以包括测量或数据采集模块。这种设备可以具有用于处理系统功能的测量硬件、处理器和/或系统存储器。这些组件中的每一个可以具有其自己的缓冲存储器,用于处理其自身的功能。
低级排序器可以需要通信链路以将其原始数据中继到更高级别的设备,所述更高级别的设备诸如应用服务器、本地储存库或本地服务器。
通信链路可以包括诸如蓝牙或近场通信(NFC)的近场通信协议或者诸如Wi-Fi的无线协议。通信链路可以包括诸如USB的使用线缆的(例如,有线)通信设备。在一些情况下,通信链路可以包括卫星或蜂窝通信模块。
低级排序器可以与可以在诸如移动智能电话的移动设备上操作以执行这些前述功能中的一些的应用服务器集成。例如,低级排序器可以包括测量硬件并使用移动设备能力和应用作为本地存储器、处理器和通信链路。
替选地,中级排序器可用于更危急的情况。这种危急情况的示例可以包括监视患者和需要初始诊断的护理点应用。
中级排序器可以执行更准确的多核苷酸测量。可以根据对序列的可靠准确判断所需的精度来设置精度。
中级排序器可以使用存储器设备和通信组件。因此,中级排序器可以包括具有测量硬件的测量和数据采集模块、处理器和用于处理系统功能的系统存储器。这些组件中的每一个可包括其自己的缓冲存储器,用于处理其自身的功能。
附加存储器设备可以包括能够存储数据的位的闪速存储器(例如,多级单元闪速存储器)。在中级排序器中的数据可以是碱基数据,在这种情况下,多级单元闪速存储器可以适合于在本地存储数据。诸如USB端口之类的端口可用于传输数据,例如在存在大量数据使得有线连接可以是用于高带宽或吞吐量目的所需的情况下。
在一个实施例中,诸如闪速存储器的多级单元设备被用作存储和访问遗传序列数据的相对快速的方式。在闪速存储器设备中,可以使用大量单元来基于能够保持电荷的浮置栅极场效应晶体管(FET)存储数据。可以通过对每个FET的浮置栅极充电来单独编程单元。
该实施例的一个优点是由于下述情况:可以经由块擦除操作以块的形式擦除闪速存储器单元,从而在单个操作中擦除所有多个浮置栅极的所有电荷。
该实施例还可以具有个体单元不可擦除可寻址的特性。然而,在该实施例中,闪速存储器的可擦除块用于存储与碱基序列、核苷酸或其它方式的连续遗传数据相关的遗传数据。在需要替换该可擦除块的情况下,用户可能通常希望立即擦除在可擦除块中的所有数据,而不是擦除可擦除块的一部分。因此,该实施例可以允许优化用于遗传数据存储的成本相对于速度的灵活性。
在闪速存储器存储设备中,单元可能在多个编程和擦除循环之后开始失效,此后,读取或写入可能失败。该事实可以有利地用于遗传数据存储。由于闪速存储器的擦除循环的数量可能是有限的,因此相比于其它一些使用场景数据可以保持更长时间的安全。
在擦除块大小和序列或其它方式的遗传数据大小之间可以存在特定关系。这可以确保与整个序列相关的数据的完整性。
作为具体实例,由128千碱基对(kbp)组成的碱基序列存储在128个单元的擦除块中:
CTT...GAG(128k碱基)
===...===(128k单元擦除块)
对于天然DNA和RNA碱基,两位多级单元(MLC)可以专用于每个碱基。例如,对于涉及DNA的案例,人们使用:
A(00)C(01)G(10)T(11)
这意味着,当碱基为A时,第一位和第二位都关闭,当碱基为C时第二位开启,当碱基为G时第一位开启,并且最后当碱基为T时第一位和第二位都开启。类似的方案可用于RNA。
每个擦除块可以被设计或配置为存储多个序列。替选地,可以将更大的序列存储在具有相似或相同属性和生命周期的特定数量的擦除块上。
不同大小的擦除块可以用于不同大小的序列。例如,更小擦除块大小的闪速存储器设备可用于存储寡核苷酸数据或杂化数据,而更大擦除块大小的闪速存储器设备可用于存储基因和突变或参考基因。大块大小的闪速存储器设备可用于存储基因组数据。
使用闪速存储器进行更快访问的优点可能会受到生命周期问题的影响。闪速存储器内容的副本可以在存储服务器上镜像,访问速度较慢但生命周期较长。然后可以设计测试以探测每个块大小中的数据的完整性。有时,可以针对服务器中的镜像数据测试每个块中的数据。如果闪速存储器擦除块数据示出任何退化的迹象,则可以解除闪速存储器设备的该块。
该实施例可以是有利的,至少因为较长生命周期存储设备可以是例如云中的远程硬盘驱动器(HDD)存储服务器。
在另一示例中,闪速存储器存储设备的擦除块可用于存储序列数据加上一些元数据:
CTT...GAG(96k碱基)-元数据(64k位=32k单元MLC)
===...===(128k单元擦除块)
元数据的示例可包括与序列的起源相关的任何信息,诸如患者的姓名、与患者相关的其它信息或序列本身。
生物数据的简写可以例如通过使用压缩或生物数据而相对于存储设备架构来优化数据的大小。可以微调压缩数据的大小以获得更好的存储设备兼容性。
散列表可以由不同的生物数据构成。每个散列可以对应于一个类别或基因。例如,在病原体数据增殖的情况下,可以为每种病原体构建散列并使用散列表。每当测量新样本时,执行新样本的散列可以容易地在散列表中找到匹配。这是获得病原体信息的快速和有效的方式。
多级单元(MLC)存储单元可以存储两个位。这两个位可用于存储关于多核苷酸碱基的信息。例如,对于DNA碱基,可以使用以下位配置:
以这种方式,可以使用单个存储器单元来代表所有天然四个碱基。该方法对于确保数据的完整性可以是有利的。
在另一个示例中,MLC存储单元可以存储三个位。这三个位可用于存储关于多核苷酸碱基的信息,其中,附加信息指示甲基化或氧化状态。例如,对于DNA碱基,可以使用以下位配置:
以这种方式,可以使用诸如闪速存储器和相变存储器的多单元存储器设备。
在具有多个单元的块的存储设备中数据劣化的情况下,可以通过提供警告、通过刷新周期或通过自动或激发的数据转储到存储服务器(例如,HDD)或云存储服务器内来避免数据丢失。
闪速存储器设备中的擦除块可以用于便于访问和存储管理。当擦除块上的所有数据对应于生物单元(例如,DNA或RNA序列)时,可以节省存储器访问并且数据可以具有更高的完整性。这可以导致在大规模操作中的功率优化,在该大规模操作中,可以访问许多序列区域或遗传数据并且其可以在短时间内操作。
通过该实施例,可以通过将与某些遗传单元(例如,基因或重叠群)相关的所有数据保持在某一或多个记忆单位中来保持数据完整性。此外,可以实现其它益处,例如,处理、优化和减少产生的热量。可以设想,数据管理、数据压缩、存储器访问、温度控制和数据完整性可以对整个生物数据管理生态系统产生积极的净影响,无论是本地还是全局。
可以选择诸如闪速存储器擦除块的存储器块以与遗传数据的大小兼容。为此,可以执行定制的压缩和方差分析,以使遗传数据的压缩大小更优化适合于存储器块或存储器体的大小。可以在数据丢失和数据保存方面执行优化。例如,在存储器单元大小(诸如块大小或体大小)大于生物单位数据的大小的情况下,存储器空间的其余部分可用于存储关于生物单元数据的附加信息。例如,闪速存储器中的擦除块可以用于保存基因信息,而关于基因的附加信息(诸如基因表达)可以保存在块的剩余空间中。
可以通过分层存储访问方案来管理对生物数据的访问,如图16A所示。应用程序可以位于本地储存库或中央服务器上。可以通过使用快速存储器来实现第一层访问。在关键情况下,随机存取存储器(RAM)1601可用于访问需要频繁访问的某些数据。在不太关键的系统中,快速存储器可以包括在本地HDD或基于云的存储单元中或附近的闪速存储器1602。
保留某些生物数据的决定可以基于命中或未命中架构。当登记了一定数量的命中时,处理器可以访问生物数据并且可以将其升级到更快的存储器(例如,通过复制或移动生物数据)。例如,在检测到病原体实例的报告时,本地储存库或中央服务器可以决定将病原体的副本带到本地存储器。此外,在识别可能重要的生物数据单元的特定区域时,可以在更快的存储器中保存特定区域的副本,并且可以在较慢的存储器中将数据单元的其它部分保持在较低的水平,较慢的存储器例如是HDD、云或等同物1603。图16B、16C和16D提供了存储架构的附加示例。图16B示出适合于提供超快数据访问和决策制定的架构的实例,其中,处理器可经配置以与RAM、闪速存储器和/或HDD或等效物通信。图16C示出适合于提供快速遗传访问和决策制定的架构的示例,其中处理器可经配置以与闪速存储器和/或HDD或等效物通信。图16D示出适合于提供遗传归档的架构的示例,其中,处理器可经配置以与HDD或等效物通信。
示例2:隐私加密
提供了通过姓名迈克尔·史密斯和与假想的人有关的16聚体序列应用于假想的人的遗传序列数据的加密技术的示例。16聚体可以是与该人相关的更大序列、基因或基因组的一部分。
迈克尔·史密斯-… t t g c g a t g t c t a a t g g …(受试者序列)
在该示例中,出于说明的目的,使用24位密码对姓名“迈克尔·史密斯”进行加密。加密姓名和相应句法表达为:
Encrfn("迈克尔·史密斯",密码1)=
EnCt2568e6c561c2b3a78926b5dbb3adea5ba827c065e568e6c561c2b3a78926b5dbbJIGwNtmg0ACHd+Q9elZHTMJV2DqVe3XSDb77IwEmS
只要密码是安全的,该方法可以确保姓名的隐私。这种类型的加密以及随后的解密和密码保护可能是计算密集型且成本高昂的。可以理解,在该示例中,如果使用大量加密,则可能包括几个字节的人的姓名可以增长几百个字节。
为了确保序列的隐私性,可以假设存在包含以下内容的参考序列:
t t g c g a a gt c t a a t g g …(参考序列)
假设粗体和下划线的碱基是群体中唯一变化的碱基。
然后,可以假设从迈克尔·史密斯获取的原始序列包含以下内容:
… t t g c g a t g t c t a a t g g …(受试者序列)
根据该实施例,该序列存储为:
… t t g c g a a* g t c t a a t g g …(受试者序列表示)
其中,*可以是0到3的数字,从而给出:
a0=a
a1=c
a2=g
以及
a3=t
在迈克尔·史密斯的情况下,该数字被取为3,将“a”移位到“t”。
该示例示出了序列
… t t g c g a a(0123) g t c t a a t g g …可以以两位字符为代价表示整个群体,在这种情况下为(0,1,2,3)。
由于序列的其余部分对于整个群体是相同的,根据该实施例,可以以2位密钥为代价实现序列的完全隐私。
在该示例中,呈现寡核苷酸或重叠群的一部分,其中,与参考寡核苷酸或重叠群相比,仅一个碱基是可变的。
在该示例中,为了加密该序列,假设参考序列加上2位代码(123),其可以根据加密方案将一个碱基移位1-3个位置,例如:
a c(1)g(2)t(3)
例如,如果加密的可变碱基是“g”,则加密代码中的移位函数可以给出:
a(2)c(3)gt(1)
可以使用类似的方案而不脱离本实施例的范围。
计算机控制系统
本公开提供了被编程为实现本公开的方法的计算机控制系统。图17示出了被编程或以其它方式被配置为管理生物数据的计算机系统1701。计算机系统1701可以调节本公开的数据管理的各个方面,例如,生物数据的收集、存储、加密,在服务器、服务器和储存库之间关于定义和规则的通信以及管理定义和规则。计算机系统1701可以是用户的电子设备或相对于电子设备远程定位的计算机系统。电子设备可以是移动电子设备。
计算机系统1701包括中央处理单元(CPU,这里也称为“处理器”和“计算机处理器”)1705,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统1701还包括用于与一个或多个其它系统和外围设备1725(例如,高速缓存、其它存储器、数据存储和/或电子显示适配器)通信的存储器或存储器位置1710(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元1715(例如,硬盘)、通信接口1720(例如,网络适配器)。存储器1710、存储单元1715、接口1720和外围设备1725通过诸如主板的通信总线(实线)与CPU 1705通信。存储单元1715可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统1701可借助于通信接口1720可操作地耦合到计算机网络(“网络”)1730。网络1730可以是互联网、互联的网络和/或外联网或与互联网通信的内联网和/或外联网。在一些情况下,网络1730是电信和/或数据网络。网络1730可以包括一个或多个计算机服务器,其可以实现如云计算的分布式计算诸。在一些情况下借助于计算机系统1701,网络1730可以实现对等网络,其可以使耦合到计算机系统1701的设备能够充当客户端或服务器。
CPU 1705可以执行一系列机器可读指令,其可以体现在程序或软件中。指令可以存储在诸如存储器1710的存储器位置中。指令可以指向CPU 1705,CPU 1705随后可以编程或以其它方式配置CPU 1705以实现本公开的方法。由CPU 1705执行的操作的示例可以包括获取、解码、执行和回写。
CPU 1705可以是诸如集成电路的电路的一部分。系统1701的一个或多个其它组件可以包括在该电路中。在某些情况下,该电路是专用集成电路(ASIC)。
存储单元1715可以存储文件,诸如驱动程序、库和保存的程序。存储单元1715可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统1701可以包括在计算机系统1701外部(诸如位于通过内联网或互联网与计算机系统1701通信的远程服务器上)的一个或多个附加数据存储单元。
计算机系统1701可以通过网络1730与一个或多个远程计算机系统通信。例如,计算机系统1701可以与用户(例如,实验室或医院)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式PC)、平板电脑或平板PC(例如,iPad、GalaxyTab)、电话、智能电话(例如,iPhone、支持Android的设备、)或个人数字助理。用户可以经由网络1730访问计算机系统1701。
这里描述的方法可以通过存储在计算机系统1701的电子存储器位置上(例如,在存储器1710或电子存储单元1715上)的机器(例如,计算机处理器)可执行代码来实现。可以以软件的形式提供机器可执行代码或机器可读代码。在使用期间,代码可以由处理器1705执行。在一些情况下,代码可以从存储单元1715检索并存储在存储器1710上以供处理器1705准备访问。在一些情况下,可以排除电子存储单元1715,并且机器可执行指令存储在存储器1710中。
可以预编译和配置代码以用于具有适于执行代码的处理器的机器,或者可以在运行时期间编译代码。可以用编程语言提供代码,可以选择该编程语言使代码能够以预编译或编译的方式执行。
本文提供的系统和方法的各方面(例如,计算机系统1701)可以在编程中体现。该技术的各个方面可以被认为是通常是以在一种类型的机器可读介质中承载或体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元上,例如,存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘。“存储”型介质可以包括计算机的有形存储器或处理器等或其相关模块中的任何一个或全部,诸如各种半导体存储器、磁带驱动器和磁盘驱动器等,它们可以随时提供非暂时性存储器以用于软件编程。有时,软件的全部或部分可以通过互联网或各种其它电信网络进行通信。例如,这种通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器,例如,从管理服务器或主计算机加载到应用服务器的计算机平台。因此,可以承载软件元素的另一种类型的介质包括诸如在本地设备之间的物理接口上、通过有线和光学陆线网络以及通过各种空中链路使用的光学、电学和电磁波。此类载波的物理元件(例如,有线或无线链路或光学链路等)也可以被认为是承载软件的媒体。如本文所使用的,除非限于非暂时性、有形“存储”媒体,否则诸如计算机或机器“可读介质”之类的术语是指参与向处理器提供指令以供执行的任何介质。
因此,诸如计算机可执行代码之类的机器可读介质可以采用许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如例如可用于实现附图中所示的数据库等的任何计算机等中的任何存储设备。易失性存储介质包括动态存储器,例如,这种计算机平台的主存储器。有形传输介质包括:同轴电缆;铜线和光纤,包括构成计算机系统内总线的线。载波传输介质可以采用电或电磁信号或声波或光波的形式,例如,在射频(RF)和红外(IR)数据通信期间产生的那些。因此,常见形式的计算机可读介质包括例如:软盘、软磁盘、硬盘、磁带、任何其它磁介质、CD-ROM、DVD或DVD-ROM、任何其它光学介质、穿孔卡纸磁带、具有孔图案的任何其它物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或盒式磁带、载波传输数据或指令、传输此类载波的电缆或链路或计算机可以从其读取编程代码和/或数据的任何其它介质。许多这些形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列传递到处理器以供执行。
计算机系统1701可包括电子显示器1735或与电子显示器1735通信,电子显示器1735包括用户界面(UI)1740,用于提供例如遗传数据,其包括例如碱基序列串或在各种句法、序列对齐中的读数。UI的示例包括但不限于图形用户界面(GUI)和基于web的用户界面。
本公开的方法和系统可以通过一种或多种算法来实现。算法可以通过软件在由中央处理单元1705执行时实现。该算法可以例如加密数据、转化遗传读数、分析、解释、对齐和组装各种数据,包括但不限于序列数据、工作数据、元数据、样本数据、重叠群数据。
虽然本文已经示出和描述了本发明的优选实施例,但是对于本领域技术人员显而易见的是,这些实施例仅以举例的方式提供。旨在本发明不受本说明书中提供的具体示例限制。虽然已经参考前述说明书描述了本发明,但是本文的实施例的描述和说明并不意味着以限制意义来解释。在不脱离本发明的情况下,本领域技术人员现在可想到许多变化、改变和替换。此外,应当理解,本发明的所有方面不限于本文所述的取决于各种条件和变量的具体描述、配置或相对比例。应该理解的是,本文所述的对于本发明实施例的各种替代方案可用于实施本发明。因此,预期本发明还应涵盖任何这样的替代、修改、变化或等同物。旨在所附权利要求限定本发明的范围,并且由此覆盖在这些权利要求及其等同物的范围内的方法和结构。
Claims (55)
1.一种生物数据管理系统,其包括:
(a)最终用户模块,所述最终用户模块包括排序设备,所述排序设备被配置为生成碱基数据;
(b)与所述最终用户模块进行网络通信的本地储存库,所述本地储存库被编程或配置为:(i)接收所述碱基数据,(ii)将所述碱基数据转换为序列数据,(iii)基于所述序列数据产生缩写数据,以及(iv)将所述缩写数据与现有缩写的数据库进行比较;以及
(c)与所述本地储存库进行网络通信的中央服务器,所述中央服务器被配置为更新所述现有缩写的所述数据库。
2.根据权利要求1所述的生物数据管理系统,其中,所述本地储存库还被编程或配置为:
标记缩写,并且将经标记的缩写传递到所述中央服务器。
3.根据权利要求2所述的生物数据管理系统,其中,所述中央服务器还被编程或配置为:
接收经标记的缩写,并且对所述经标记的缩写执行进一步的分析。
4.根据权利要求3所述的生物数据管理系统,其中,所述中央服务器还被编程或配置为:
在分析所述经标记的缩写时,生成指令并将所述指令传递到所述本地储存库。
5.根据权利要求1所述的生物数据管理系统,其中,
所述缩写是方差、散列或校验和。
6.一种用于存储生物数据的方法,其包括:
(d)确定所述生物数据的大小,以识别适于存储所述生物数据的存储单元大小;
(e)识别具有与所述存储单元大小兼容的块大小的存储器设备中的存储器位置;以及
(f)将所述生物数据存储在所述存储器设备的所述存储位置处的可擦除块中。
7.根据权利要求6所述的方法,其中,
每个可擦除块包括用于存储所述生物数据的分区和用于存储与所述生物数据有关的元数据的分区。
8.根据权利要求7所述的方法,其中,
用于存储元数据的所述分区包括更长的寿命。
9.根据权利要求7所述的方法,其中,
用于存储元数据的所述分区包括与用于存储序列数据的所述分区的控制器不同的控制器。
10.根据权利要求7所述的方法,其中,
与用于存储序列数据的所述分区相比,用于存储元数据的所述分区被配置为用于更频繁的访问。
11.一种生物数据管理系统,其包括:
(g)第一存储器设备,所述第一存储器设备被配置为存储供不频繁访问的生物数据;以及
(h)具有块大小的第二存储器设备,所述第二存储器设备与所述第一存储器设备通信,并且所述第二存储器设备被配置为存储供频繁访问的生物数据;
其中,所述第二存储器设备比所述第一存储器设备快,并且
其中,将所述块大小选择为以根据所述生物数据的大小存储所述生物数据。
12.根据权利要求11所述的生物数据管理系统,
其中,所述生物数据是n聚体序列,并且
其中,所述块大小是用于存储所述n聚体的单体所需的位数的n倍。
13.根据权利要求11所述的生物数据管理系统,
其中,所述生物数据是n聚体序列,并且
其中,所述块大小是用于存储所述n聚体的单体所需的位数的至少n倍。
14.根据权利要求11所述的生物数据管理系统,其中,
所述第二存储器设备包括闪速存储器设备。
15.根据权利要求14所述的生物数据管理系统,其中,
所述第二存储器设备包括作为闪速存储器擦除块的块。
16.一种用于在多级单元(MLC)存储器设备中存储序列碱基数据的方法,所述MLC存储器设备包括存储器单元,每一个所述存储器单元被配置为存储两位,
所述方法包括,在存储器单元中:
(i)将所述两位设置为00以代表第一类型的碱基;
(j)将所述两位设置为01以代表第二类型的碱基;
(k)将所述两位设置为10以代表第三类型的碱基;或者
(l)将所述两位设置为11以代表第四类型的碱基。
17.根据权利要求16的方法,其中,
所述序列碱基数据代表一种或多种多核苷酸,每一种所述多核苷酸包含一种或多种碱基,所述一种或多种碱基中的每一种碱基是至少四种可能碱基中的一种。
18.根据权利要求17的方法,其中,
所述多核苷酸是DNA或RNA。
19.一种用于将生物数据存储在存储器设备中的方法,所述存储器设备包括块,每一个所述块包括块大小,
所述方法包括:
(m)确定所述生物数据的大小;
(n)确定至少所述块的子集的块大小;
(o)基于所述块大小压缩所述生物数据,以产生经压缩的生物数据;以及
(p)将所述生物数据存储在至少所述块的子集中。
20.根据权利要求19所述的方法,
其中,所述存储器设备包括闪速存储器设备,并且
其中,所述块大小为擦除块大小。
21.根据权利要求19所述的方法,其中,
所述块大小大于或等于所述经压缩的生物数据的大小。
22.根据权利要求20所述的方法,其中,
所述擦除块存储所述生物数据以及所述生物数据的元数据。
23.一种用于将序列碱基数据存储在存储器设备中的方法,所述存储器设备包括存储器单元,每一个所述存储器单元被配置为存储至少三位,
所述方法包括,在存储器单元中:
(q)将所述至少三位中的三位设置为000,以代表第一类型的碱基;
(r)将所述至少三位中的三位设置为001,以代表第二类型的碱基;
(s)将所述至少三位中的三位设置为010,以代表第三类型的碱基;
(t)将所述至少三位中的三位设置为011,以代表第四类型的碱基;
(u)将所述至少三位中的三位设置为100,以代表第五类型的碱基;
(v)将所述至少三位中的三位设置为101,以代表第六类型的碱基;
(w)将所述至少三位中的三位设置为110,以代表第七类型的碱基;以及
(x)将所述至少三位中的三位设置为111,以代表第八类型的碱基。
24.权利要求23的方法,其中,
所述序列碱基数据代表一种或多种多核苷酸,每一种所述多核苷酸包含一种或多种碱基,所述一种或多种碱基中的每一种碱基是四种不同天然碱基、甲基化碱基、氧化碱基、或脱碱基位置中的一种。
25.权利要求24的方法,其中,
所述多核苷酸是DNA或RNA。
26.根据权利要求23所述的方法,其中,
所述存储器设备包括闪速存储器、相变存储器或电阻存储器。
27.一种用于将序列碱基数据存储在存储器设备中的方法,所述序列碱基数据包括两种可能的碱基以代表所测量的多种碱基中的每一种,所述存储器设备包括存储器单元,每一个所述存储器单元被配置为存储多个位,
所述方法包括:
在所述多个位的第一位中,存储所述序列碱基数据的最可能的碱基;
在所述多个位的第二位中,存储所述序列碱基数据的第二最可能的碱基;以及
在所述多个位的剩余部分中,存储所述最可能的碱基和所述第二最可能的碱基的相对概率。
28.根据权利要求27所述的方法,还包括:
使用所述存储器单元的第一单元来识别所述最可能的碱基;
使用所述存储器单元的第二单元来识别所述第二最可能的碱基;以及
使用所述存储器单元的一个或多个其它单元来存储所述相对概率。
29.根据权利要求27所述的方法,还包括:
在所述存储器单元的第三单元中,存储所述第二最可能碱基的概率。
30.一种用于将序列碱基数据存储在存储器设备中的方法,所述存储器设备包括存储器单元,每一个所述存储器单元被配置为存储至少三位,
所述方法包括,在所述存储器单元中:
(y)提供包括所述至少三位中的三位的第一位指示,以代表第一类型的碱基;
(z)提供包括所述至少三位中的三位的第二位指示,以代表第二类型的碱基;
(aa)提供包括所述至少三位中的三位的第三位指示,以代表第三类型的碱基;
(bb)提供包括所述至少三位中的三位的第四位指示,以代表第四类型的碱基;
(cc)提供包括所述至少三位中的三位的第五位指示,以代表甲基化碱基;
(dd)提供包括所述至少三位中的三位的第六位指示,以代表氧化碱基;以及
(ee)提供包括所述至少三位中的三位的第七位指示,以代表脱碱基位点。
31.根据权利要求29所述的方法,其中,
所述存储器设备包括闪速存储器、相变存储器或电阻存储器。
32.一种用于加密生物序列数据的方法,所述方法包括:
(ff)识别在所述生物序列数据中的正常级方差;以及
(gg)向所述生物序列数据中引入第二级方差,所述第二级方差与所述正常级方差相当,使得所述生物序列数据相对于所述正常级方差是不可区分的。
33.根据权利要求32所述的方法,还包括:
使用加密方法来传递所引入的级的方差。
34.一种用于加密受试者的生物序列数据的方法,所述方法包括:
(hh)使用第一加密方案加密与所述受试者相关的信息;以及
(ii)使用第二加密方案加密所述生物序列数据,所述第二加密方案不同于所述第一加密方案。
35.根据权利要求34所述的方法,其中,
所述第二加密方案包括比所述第一加密方案更少扩展的加密。
36.根据权利要求35所述的方法,其中,
所述第二加密方案包括加扰和风选。
37.根据权利要求35所述的方法,其中,
所述第一加密方案使用公钥基础设施,并且
所述第二加密方案使用所述公钥基础设施。
38.根据权利要求35所述的方法,其中,
所述第一加密方案使用第一公钥基础设施,并且
所述第二加密方案使用与所述第一公钥基础设施不同的第二公钥基础设施。
39.一种用于存储序列碱基数据的方法,所述方法包括:
在计算机存储器中提供二维表结构,所述二维表结构被配置为存储代表潜在碱基的信息;
将代表所述序列碱基数据的最可能的测量碱基的信息存储在所述二维表结构的第一维中;
将代表所述序列碱基数据的其它潜在碱基的信息存储在所述二维表结构的第二维中;以及
将与所述第一维和所述第二维的交集相对应的概率存储在所述二维表结构中。
40.根据权利要求39所述的方法,其中,
所述潜在碱基包括四种可能碱基中的每一种碱基与以下各项中的至少一种的集合:
甲基化碱基、氧化碱基、和脱碱基位点。
41.根据权利要求39所述的方法,还包括:
在计算机存储器中提供第二二维表结构,所述第二二维表结构被配置为存储代表潜在碱基的信息;并且
在所述第二二维表结构中,存储所述序列碱基数据的最可能的测量碱基和所述序列碱基数据的第二最可能的测量碱基。
42.一种用于管理生物数据的方法,所述方法包括:
提供应用服务器,所述应用服务器被编程或配置为:(i)从传感器接收原始测量的生物数据,以及(ii)从所述原始测量的生物数据生成经处理的生物数据;
在所述应用服务器处,从本地储存库接收与所述经处理的生物数据相关的定义和规则;以及
由所述应用服务器,发布基于与所述经处理的生物数据相关的所述定义和规则的指令。
43.根据权利要求42所述的方法,
其中,所述经处理的生物数据包括所述经处理的生物数据之中的在所述本地储存库中未找到其相关定义和规则的一部分,并且
其中,所述方法还包括向所述本地储存库发送所述经处理的生物数据的至少所述一部分。
44.根据权利要求43所述的方法,还包括:
将所述经处理的生物数据的至少所述一部分从所述本地储存库发送到中央服务器。
45.根据权利要求44所述的方法,还包括:
从所述中央服务器向所述本地储存库发送指令。
46.根据权利要求45所述的方法,还包括:
从所述中央服务器向所述本地储存库发送新的定义和规则。
47.一种用于存储序列碱基数据的方法,所述方法包括:
对于碱基位置,将代表所述序列碱基数据的最可能碱基的信息存储在存储设备的第一位置,并且将所述最可能碱基的出现次数的概率存储在所述存储设备的第二位置。
48.一种用于存储包含至少四种可能碱基的序列碱基数据的方法,所述方法包括:
(jj)在计算机存储器中提供三维表结构,所述三维表结构被配置为存储所述序列碱基数据,其中,
(i)所述三维表结构的第一维存储代表遗传序列碱基数据的最可能的测量碱基的信息;
(ii)所述三维表结构的第二维存储代表所述遗传序列碱基数据的潜在碱基的信息;以及
(iii)所述三维表结构的第三维存储代表所述序列碱基数据的所述至少四种可能碱基中的每一种碱基的碱基计数概率的信息;
(kk)将与所述第一维、所述第二维和所述第三维的交集相对应的概率存储在所述三维表结构中。
49.一种用于保护与受试者相关的生物数据的方法,所述方法包括:
使用第一加密方案加密受试者的个人识别信息;
使用第二加密方案加密所述受试者的表型;
使用第三加密方案加密所述生物数据,其中,所述第二加密方案或所述第三加密方案不同于所述第一加密方案;以及
将被加密的个人识别信息、被加密的表型和被加密的生物数据存储在计算机存储器中。
50.根据权利要求49所述的方法,其中,
(i)所述第二加密方案不同于所述第一加密方案,以及
(ii)所述第三加密方案不同于所述第一加密方案,以及
(iii)所述第三加密方案不同所述第二加密方案。
51.根据权利要求49的方法,还包括:
存储所述受试者的基因表达数据。
52.根据权利要求50所述的方法,还包括:
存储所述受试者的地理数据。
53.一种用于存储受试者的遗传数据的方法,所述方法包括:
将所述受试者的个人识别信息存储在具有第一访问限制级的第一存储段中;
将所述受试者的表型数据存储在具有第二访问限制级的第二存储段中;以及
将所述受试者的所述遗传数据存储在具有第三访问限制级的第三存储段中。
54.根据权利要求53所述的方法,其中,
所述第二访问限制级或所述第三访问限制级不同于所述第一访问限制级。
55.根据权利要求54所述的方法,其中,
(i)所述第二访问限制级不同于所述第一访问限制级,以及
(ii)所述第三访问限制级不同于所述第一访问限制级,以及
(iii)所述第三访问限制级不同于所述第二访问限制级。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662321103P | 2016-04-11 | 2016-04-11 | |
US62/321,103 | 2016-04-11 | ||
PCT/JP2017/014847 WO2017179581A1 (en) | 2016-04-11 | 2017-04-11 | Systems and methods for biological data management |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109937426A true CN109937426A (zh) | 2019-06-25 |
Family
ID=60041640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780035638.0A Pending CN109937426A (zh) | 2016-04-11 | 2017-04-11 | 用于生物数据管理的系统和方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20190304571A1 (zh) |
EP (1) | EP3443531A4 (zh) |
JP (1) | JP2019517056A (zh) |
KR (1) | KR20190017738A (zh) |
CN (1) | CN109937426A (zh) |
CA (1) | CA3020669A1 (zh) |
WO (1) | WO2017179581A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996763A (zh) * | 2022-07-28 | 2022-09-02 | 北京锘崴信息科技有限公司 | 基于可信执行环境的隐私数据安全分析方法及装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9194838B2 (en) | 2010-03-03 | 2015-11-24 | Osaka University | Method and device for identifying nucleotide, and method and device for determining nucleotide sequence of polynucleotide |
EP3047282B1 (en) | 2013-09-18 | 2019-05-15 | Quantum Biosystems Inc. | Biomolecule sequencing devices, systems and methods |
JP2015077652A (ja) | 2013-10-16 | 2015-04-23 | クオンタムバイオシステムズ株式会社 | ナノギャップ電極およびその製造方法 |
US10438811B1 (en) | 2014-04-15 | 2019-10-08 | Quantum Biosystems Inc. | Methods for forming nano-gap electrodes for use in nanosensors |
WO2015170782A1 (en) | 2014-05-08 | 2015-11-12 | Osaka University | Devices, systems and methods for linearization of polymers |
GB2554883A (en) * | 2016-10-11 | 2018-04-18 | Petagene Ltd | System and method for storing and accessing data |
US20190318118A1 (en) * | 2018-04-16 | 2019-10-17 | International Business Machines Corporation | Secure encrypted document retrieval |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1938720A (zh) * | 2004-03-31 | 2007-03-28 | 松下电器产业株式会社 | 存储卡和存储卡系统 |
US20070171714A1 (en) * | 2006-01-20 | 2007-07-26 | Marvell International Ltd. | Flash memory with coding and signal processing |
JP2008146538A (ja) * | 2006-12-13 | 2008-06-26 | Intec Web & Genome Informatics Corp | マイクロrna検出装置、方法およびプログラム |
CN101497924A (zh) * | 2008-01-30 | 2009-08-05 | 中国农业大学 | 一种基于间隙谱的生物序列分析方法 |
US20110276277A1 (en) * | 2009-11-06 | 2011-11-10 | The Chinese University Of Hong Kong | Size-based genomic analysis |
JP2012118709A (ja) * | 2010-11-30 | 2012-06-21 | Brother Ind Ltd | 配信システム、ストレージ容量決定プログラム、及びストレージ容量決定方法 |
CN102870086A (zh) * | 2010-03-29 | 2013-01-09 | 卡尼股份有限公司 | 具有隐私保护控制的个人属性、倾向、推荐行为和历史事件的数字简档系统 |
CN102915594A (zh) * | 2011-08-04 | 2013-02-06 | 深圳市凯智汇科技有限公司 | 基于人体生物信息码的银行卡安全系统及其操作方法 |
CN103559427A (zh) * | 2013-11-12 | 2014-02-05 | 高扬 | 一种用数字标识生物序列和推断物种亲缘关系的方法 |
CN105190636A (zh) * | 2013-03-28 | 2015-12-23 | 三菱宇宙软件株式会社 | 基因信息存储装置、基因信息检索装置、基因信息存储程序、基因信息检索程序、基因信息存储方法、基因信息检索方法以及基因信息检索系统 |
CN105447844A (zh) * | 2014-08-15 | 2016-03-30 | 大连达硕信息技术有限公司 | 一种复杂多变量数据的特征选择新方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6437640A (en) * | 1987-08-03 | 1989-02-08 | Mitsubishi Electric Corp | Control system for cache memory |
JPH04289938A (ja) * | 1991-03-18 | 1992-10-14 | Nippon Telegr & Teleph Corp <Ntt> | キャッシュメモリ制御方式 |
JPH10283230A (ja) * | 1997-03-31 | 1998-10-23 | Nec Corp | ファイルデータ格納装置およびプログラムを記録した機械読み取り可能な記録媒体 |
JP4259902B2 (ja) * | 2003-04-01 | 2009-04-30 | 日立オムロンターミナルソリューションズ株式会社 | 情報読み取り装置、情報読み取り装置用プログラム |
US8340914B2 (en) * | 2004-11-08 | 2012-12-25 | Gatewood Joe M | Methods and systems for compressing and comparing genomic data |
EP2634716A1 (en) * | 2012-02-28 | 2013-09-04 | Koninklijke Philips Electronics N.V. | Tamper-proof genetic sequence processing |
JP6576957B2 (ja) * | 2014-02-26 | 2019-09-18 | ナントミクス,エルエルシー | 安全な携帯ゲノムブラウジングデバイスおよびその方法 |
US20170068776A1 (en) * | 2014-03-04 | 2017-03-09 | Arc Bio, Llc | Methods and systems for biological sequence alignment |
-
2017
- 2017-04-11 KR KR1020187032359A patent/KR20190017738A/ko unknown
- 2017-04-11 EP EP17782394.5A patent/EP3443531A4/en not_active Withdrawn
- 2017-04-11 JP JP2018553497A patent/JP2019517056A/ja active Pending
- 2017-04-11 CN CN201780035638.0A patent/CN109937426A/zh active Pending
- 2017-04-11 CA CA3020669A patent/CA3020669A1/en not_active Abandoned
- 2017-04-11 WO PCT/JP2017/014847 patent/WO2017179581A1/en active Application Filing
-
2018
- 2018-10-10 US US16/156,755 patent/US20190304571A1/en not_active Abandoned
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1938720A (zh) * | 2004-03-31 | 2007-03-28 | 松下电器产业株式会社 | 存储卡和存储卡系统 |
US20070171714A1 (en) * | 2006-01-20 | 2007-07-26 | Marvell International Ltd. | Flash memory with coding and signal processing |
JP2008146538A (ja) * | 2006-12-13 | 2008-06-26 | Intec Web & Genome Informatics Corp | マイクロrna検出装置、方法およびプログラム |
CN101497924A (zh) * | 2008-01-30 | 2009-08-05 | 中国农业大学 | 一种基于间隙谱的生物序列分析方法 |
US20110276277A1 (en) * | 2009-11-06 | 2011-11-10 | The Chinese University Of Hong Kong | Size-based genomic analysis |
CN102870086A (zh) * | 2010-03-29 | 2013-01-09 | 卡尼股份有限公司 | 具有隐私保护控制的个人属性、倾向、推荐行为和历史事件的数字简档系统 |
JP2012118709A (ja) * | 2010-11-30 | 2012-06-21 | Brother Ind Ltd | 配信システム、ストレージ容量決定プログラム、及びストレージ容量決定方法 |
CN102915594A (zh) * | 2011-08-04 | 2013-02-06 | 深圳市凯智汇科技有限公司 | 基于人体生物信息码的银行卡安全系统及其操作方法 |
CN105190636A (zh) * | 2013-03-28 | 2015-12-23 | 三菱宇宙软件株式会社 | 基因信息存储装置、基因信息检索装置、基因信息存储程序、基因信息检索程序、基因信息存储方法、基因信息检索方法以及基因信息检索系统 |
US20160048690A1 (en) * | 2013-03-28 | 2016-02-18 | Mitsubishi Space Software Co., Ltd. | Genetic information storage apparatus, genetic information search apparatus, genetic information storage program, genetic information search program, genetic information storage method, genetic information search method, and genetic information search system |
CN103559427A (zh) * | 2013-11-12 | 2014-02-05 | 高扬 | 一种用数字标识生物序列和推断物种亲缘关系的方法 |
CN105447844A (zh) * | 2014-08-15 | 2016-03-30 | 大连达硕信息技术有限公司 | 一种复杂多变量数据的特征选择新方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996763A (zh) * | 2022-07-28 | 2022-09-02 | 北京锘崴信息科技有限公司 | 基于可信执行环境的隐私数据安全分析方法及装置 |
CN114996763B (zh) * | 2022-07-28 | 2022-11-15 | 北京锘崴信息科技有限公司 | 基于可信执行环境的隐私数据安全分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3443531A4 (en) | 2020-07-22 |
KR20190017738A (ko) | 2019-02-20 |
JP2019517056A (ja) | 2019-06-20 |
WO2017179581A1 (en) | 2017-10-19 |
EP3443531A1 (en) | 2019-02-20 |
CA3020669A1 (en) | 2017-10-19 |
US20190304571A1 (en) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109937426A (zh) | 用于生物数据管理的系统和方法 | |
Andrews et al. | Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data | |
Heumos et al. | Best practices for single-cell analysis across modalities | |
Washburne et al. | Methods for phylogenetic analysis of microbiome data | |
Kulkarni et al. | Beyond bulk: a review of single cell transcriptomics methodologies and applications | |
Clarke et al. | Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods | |
Zhu et al. | Identification of spatially associated subpopulations by combining scRNAseq and sequential fluorescence in situ hybridization data | |
Curry et al. | Emu: species-level microbial community profiling of full-length 16S rRNA Oxford Nanopore sequencing data | |
Brbić et al. | MARS: discovering novel cell types across heterogeneous single-cell experiments | |
Liu et al. | Reconstructing cell cycle pseudo time-series via single-cell transcriptome data | |
Satija et al. | Spatial reconstruction of single-cell gene expression data | |
Tekaia | Inferring orthologs: open questions and perspectives | |
Garber et al. | Computational methods for transcriptome annotation and quantification using RNA-seq | |
ES2899879T3 (es) | Identificación y medición de poblaciones relativas de microorganismos con secuenciación directa de ADN | |
Conway et al. | Xenome—a tool for classifying reads from xenograft samples | |
Kelly et al. | Phylogenetic trees do not reliably predict feature diversity | |
Lukhtanov et al. | DNA barcodes as a tool in biodiversity research: testing pre-existing taxonomic hypotheses in Delphic Apollo butterflies (Lepidoptera, Papilionidae) | |
CN102007407A (zh) | 基因组鉴定系统 | |
Lohr et al. | Identification of sample annotation errors in gene expression datasets | |
JP2003021630A (ja) | 臨床診断サービスを提供するための方法 | |
Altman | Replication, variation and normalisation in microarray experiments | |
KR102030800B1 (ko) | 생체 데이터 제공 방법, 생체 데이터 암호화 방법 및 생체 데이터 처리 장치 | |
Cissé et al. | FGMP: assessing fungal genome completeness | |
WO2019084236A1 (en) | METHOD AND SYSTEM FOR GENERATING AND COMPARING GENOTYPES | |
Chen et al. | SIMBA: single-cell embedding along with features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190625 |
|
WD01 | Invention patent application deemed withdrawn after publication |