CN110872616A - 分析方法、信息处理装置、基因分析系统、程序、记录介质 - Google Patents
分析方法、信息处理装置、基因分析系统、程序、记录介质 Download PDFInfo
- Publication number
- CN110872616A CN110872616A CN201910807846.9A CN201910807846A CN110872616A CN 110872616 A CN110872616 A CN 110872616A CN 201910807846 A CN201910807846 A CN 201910807846A CN 110872616 A CN110872616 A CN 110872616A
- Authority
- CN
- China
- Prior art keywords
- sample
- nucleic acid
- sequence
- subject
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 540
- 238000004458 analytical method Methods 0.000 title claims abstract description 248
- 230000010365 information processing Effects 0.000 title claims abstract description 116
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 337
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 331
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 331
- 238000005259 measurement Methods 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims description 93
- 238000002360 preparation method Methods 0.000 claims description 27
- 238000002156 mixing Methods 0.000 claims description 25
- 239000000203 mixture Substances 0.000 claims description 10
- 238000003556 assay Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 description 403
- 230000035772 mutation Effects 0.000 description 158
- 239000003814 drug Substances 0.000 description 121
- 238000007689 inspection Methods 0.000 description 117
- 108020004414 DNA Proteins 0.000 description 110
- 238000012163 sequencing technique Methods 0.000 description 82
- 239000013062 quality control Sample Substances 0.000 description 68
- 239000012634 fragment Substances 0.000 description 66
- 238000010586 diagram Methods 0.000 description 64
- 201000010099 disease Diseases 0.000 description 63
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 63
- 229940079593 drug Drugs 0.000 description 59
- 210000004027 cell Anatomy 0.000 description 52
- 239000002773 nucleotide Substances 0.000 description 52
- 125000003729 nucleotide group Chemical group 0.000 description 52
- 238000012545 processing Methods 0.000 description 45
- 238000012360 testing method Methods 0.000 description 41
- 238000013441 quality evaluation Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 33
- 230000002068 genetic effect Effects 0.000 description 24
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 18
- 210000004369 blood Anatomy 0.000 description 17
- 239000008280 blood Substances 0.000 description 17
- 239000003153 chemical reaction reagent Substances 0.000 description 16
- 238000011282 treatment Methods 0.000 description 16
- 210000001519 tissue Anatomy 0.000 description 15
- 238000012300 Sequence Analysis Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 206010064571 Gene mutation Diseases 0.000 description 11
- 238000012217 deletion Methods 0.000 description 11
- 230000037430 deletion Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000003908 quality control method Methods 0.000 description 10
- 230000005856 abnormality Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 238000007481 next generation sequencing Methods 0.000 description 8
- 102000053602 DNA Human genes 0.000 description 7
- 210000000349 chromosome Anatomy 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 7
- 230000004544 DNA amplification Effects 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 6
- 108020004682 Single-Stranded DNA Proteins 0.000 description 6
- 108010090804 Streptavidin Proteins 0.000 description 6
- 239000011324 bead Substances 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 6
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 6
- 230000007614 genetic variation Effects 0.000 description 6
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 5
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 5
- 238000002835 absorbance Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010448 genetic screening Methods 0.000 description 5
- 230000003902 lesion Effects 0.000 description 5
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 235000018102 proteins Nutrition 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 4
- 235000001014 amino acid Nutrition 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 3
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 3
- 101150010487 are gene Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 102000054765 polymorphisms of proteins Human genes 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 125000006850 spacer group Chemical group 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 102100031048 Coiled-coil domain-containing protein 6 Human genes 0.000 description 2
- 102100036738 Guanine nucleotide-binding protein subunit alpha-11 Human genes 0.000 description 2
- 101000777370 Homo sapiens Coiled-coil domain-containing protein 6 Proteins 0.000 description 2
- 101001072407 Homo sapiens Guanine nucleotide-binding protein subunit alpha-11 Proteins 0.000 description 2
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 2
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 2
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 2
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 2
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 2
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 2
- OMOVVBIIQSXZSZ-UHFFFAOYSA-N [6-(4-acetyloxy-5,9a-dimethyl-2,7-dioxo-4,5a,6,9-tetrahydro-3h-pyrano[3,4-b]oxepin-5-yl)-5-formyloxy-3-(furan-3-yl)-3a-methyl-7-methylidene-1a,2,3,4,5,6-hexahydroindeno[1,7a-b]oxiren-4-yl] 2-hydroxy-3-methylpentanoate Chemical compound CC12C(OC(=O)C(O)C(C)CC)C(OC=O)C(C3(C)C(CC(=O)OC4(C)COC(=O)CC43)OC(C)=O)C(=C)C32OC3CC1C=1C=COC=1 OMOVVBIIQSXZSZ-UHFFFAOYSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- ANSXAPJVJOKRDJ-UHFFFAOYSA-N furo[3,4-f][2]benzofuran-1,3,5,7-tetrone Chemical compound C1=C2C(=O)OC(=O)C2=CC2=C1C(=O)OC2=O ANSXAPJVJOKRDJ-UHFFFAOYSA-N 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 102200048928 rs121434568 Human genes 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007841 sequencing by ligation Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 102100025570 Cancer/testis antigen 1 Human genes 0.000 description 1
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 1
- 101710146526 Dual specificity mitogen-activated protein kinase kinase 1 Proteins 0.000 description 1
- 102000036353 FBXWs Human genes 0.000 description 1
- 108091007023 FBXWs Proteins 0.000 description 1
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Natural products NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000856237 Homo sapiens Cancer/testis antigen 1 Proteins 0.000 description 1
- 101000579425 Homo sapiens Proto-oncogene tyrosine-protein kinase receptor Ret Proteins 0.000 description 1
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 1
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 1
- 239000012807 PCR reagent Substances 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 description 1
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 1
- 239000007984 Tris EDTA buffer Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000003125 aqueous solvent Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000000280 densification Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003085 diluting agent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000005861 gene abnormality Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 125000003630 glycyl group Chemical group [H]N([H])C([H])([H])C(*)=O 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004020 luminiscence type Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000002751 oligonucleotide probe Substances 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 125000006239 protecting group Chemical group 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 102200055464 rs113488022 Human genes 0.000 description 1
- 238000005464 sample preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 101150077543 st gene Proteins 0.000 description 1
- 238000009210 therapy by ultrasound Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1072—Differential gene expression library synthesis, e.g. subtracted libraries, differential screening
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2545/00—Reactions characterised by their quantitative nature
- C12Q2545/10—Reactions characterised by their quantitative nature the purpose being quantitative analysis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Physics & Mathematics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Plant Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及分析方法、信息处理装置、基因分析系统、程序、记录介质,其课题在于,使每1试样的序列信息的数据量的变动收敛于规定的范围内。解决手段为:将包含被检者来源的核酸的试样和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量,从而制备测定试样,输出每1试样的序列信息的数据量为规定的量的序列信息。
Description
技术领域
本发明涉及对基因的碱基序列进行分析的分析方法和信息处理装置等。
背景技术
一直以来,对基因的碱基序列进行分析的技术在基础研究、临床研究和医疗等领域中已被作为重要的分析方法来利用。近年来,出现了使用基因面板(日语:遺伝子パネル)的面板检查,所述基因面板能够使用NGS包罗地调查被检者(例如患者等)的基因中的异常。面板检查作为在个性化医疗中担负着重要作用的技术而备受期待。这里,个性化医疗是指:考虑患者的遗传背景、生理状态和疾病状态等特性,来选择适合于每个患者的治疗方针的医疗。
在对基因的碱基序列进行分析的技术中,下一代测序(next generationsequencing:NGS)是对于包罗地检测基因的碱基序列中的异常而言不可或缺的技术。例如,非专利文献1中记载了使用NGS同时分析多个被检者的试样来源的基因的碱基序列的方法。
在使用NGS同时分析多个被检者的基因的碱基序列时,通过例如图60所示的工序I~V来实施。图60是示出为了同时分析多个被检者的基因的碱基序列而进行的工序的一例的图。
在工序I中,将试样A和B片段化,从而制备试样A的文库A和试样B的文库B。其中,“试样A”例如可以为采自被检者A的组织来源的基因,“试样B”可以为采自被检者B的组织来源的基因。该工序中,在试样A和试样B的片段上添加衔接序列。另外,该工序中,在试样A的片段(例如DNA片段)上添加索引序列1(图中的“AAAAAAAA”),在试样B的片段(例如DNA片段)上添加索引序列2(图中的“BBBBBBBB”)。需要说明的是,“衔接序列”是指:为了在执行测序的测序仪用的流动池上进行测序反应从而捕捉片段,而添加到各片段上的寡核苷酸。另外,“索引序列”是指:为了在后续工序IV中识别试样A的片段来源的序列信息和试样B来源的序列信息,而添加到各片段上的具有数个碱基~数十个碱基长度的寡核苷酸。
接下来,在工序II中,将文库A和文库B混合,注入到流动池中。工序III中进行流动池内的测序反应,取得序列信息。所取得的序列信息包括试样A的片段的碱基序列数据和试样B的片段的碱基序列数据。
然后,在工序IV中,基于序列信息中所含的索引序列进行分类、存储到对每个试样制作的文件中。然后,在工序V中,从各文件读出序列信息,对于试样A和B分别进行比对。
使用NGS同时分析多个被检者的基因的碱基序列时,基于对使用的测序仪和使用的基因面板所推荐的方案来确定各工序。另外,基因的碱基序列分析中所使用的既有分析程序,也设定为基于推荐方案而确定的各种基准值。
例如,根据适合于所使用的测序仪的流动池的规格、和基因面板中所含的引物和探针等量来推荐合适的方案。因此,在图60所示的工序I和II中制备包含预先规定的核酸量的文库并注入流动池,使得供于1次测序运行的核酸的总量为最适的量。
例如,如图61所示,在流动池的流路的表面固定化有一定数量(例如数万个分子)的寡DNA,所述寡DNA作为用于捕捉成为读取碱基序列的对象的DNA片段的捕捉分子起作用。对于注入到流动池的核酸中的、被流动池上的寡DNA捕捉的核酸进行测序反应,取得序列信息。因此,如果注入到流动池中的核酸的量增多,则被流动池上的寡DNA捕捉的核酸的数量增多,如果注入到流动池的核酸的量减少,则被流动池上的寡DNA捕捉的核酸的数量减少。即,如果被捕捉到流动池上的核酸的数量发生变化,则在流动池上的测序反应中与引物和探针接触的DNA片段在流动池上的密度发生变化。由于供于测序反应的引物和探针的量是恒定的,因此如果DNA片段在流动池上的密度发生变化则测序反应的结果产生偏差,不能得到品质恒定的测定结果。为了防止测序反应的结果产生偏差,需要将按照使注入流动池的核酸量成为预先规定的核酸量的方式混合而成的试样注入流动池。
现有技术文献
非专利文献
非专利文献1:“An introduction to Next-Generation SequencingTechnology”、[online]、Illumina株式会社、[平成30年8月30日检索]、因特网<https://www.illumina.com/content/dam/illumina-marketing/documents/products/illumina_sequencing_introduction.pdf>
发明内容
发明要解决的课题
但是,也设想了被检者来源的试样数量少等、应注入到流动池的理想的试样数量无法备齐的情况。还可能存在下述情况:结束了一次分析的试样中,仅一部分需要进行再次分析。当供于1次测序运行的试样数量发生改变时,由每1试样取得的序列信息的数据量会发生改变。这是由于,注入到流动池的文库中所含的核酸的总量需要调节为恒定,结果导致注入到流动池中的核酸分子的总量中的每1试样的核酸量发生改变。
例如,在用理想的试样数量(例如48个试样)的1/3的试样数量(例如16个试样)进行测序时,每1试样的核酸的量变为用理想的试样数量进行测序时的3倍。预测其结果是,由每1试样取得的序列信息的数据量变为用理想的试样数量进行测序时的3倍。
为了使基因的碱基序列的分析结果的品质保持恒定,期望由每1试样取得的序列信息的数据量在每次测序运行中不变。但是,当供于测序运行的试样数量发生改变而导致由每1试样取得的序列信息的数据量发生改变时,则需要根据该结果来修改用于基因的碱基序列分析的既有分析程序等。
为了将NGS用于医疗领域、协助被检者的疾病的诊断和治疗,始终输出品质恒定的分析结果这一点很重要。为此,希望即使供于1次测序运行的检体数量发生改变时也使由每1试样取得的序列信息的数据量保持恒定、直接使用既有分析程序。
本发明的目的在于实现下述分析方法等:在基因检查中,即使用于制备供于1次测序运行的测定试样的包含被检者来源的核酸的试样数量比推荐的试样数量少时,也使每1试样的序列信息的数据量的变动收敛于规定的范围内。
用于解决课题的方案
为了解决上述课题,本发明的一实施方式的分析方法包含:取得测定试样中所含的核酸的序列信息的工序(S1),所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和,输出序列信息的工序(S2),不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,包含被检者来源的核酸的每1试样的序列信息的数据量为规定的量。
其中,“被检者”是指例如接受面板检查等基因检查的患者等。另外,“测定试样”是指为了供于测序而制备的试样。另外,“预先规定的核酸量”是指基于对使用的测序仪2和使用的试剂推荐的方案而确定的核酸量。即,“预先规定的核酸量”为满足作为供于1次测序运行的试样数量而推荐的数量的试样数量时的核酸量。另外,“规定的量”是指:使用推荐数量的试样制备测定试样时所取得的、每1试样的序列信息的数据量。
根据上述构成,测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的。并且,取得测定试样中的核酸的序列信息,输出每1试样的序列信息的数据量为规定的量的序列信息。
为了使分析序列信息的结果的可靠性保持恒定,需要适当地评价序列信息的品质。通过采用上述分析方法,在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,每1试样的序列信息的数据量的变动也收敛于规定的范围内,可以输出品质恒定的分析结果。从而,即使用于制备供于1次测序运行的测定试样的包含被检者来源的核酸的试样数量少于推荐的试样数量时,也可以使每1试样的序列信息的数据量的变动收敛于规定的范围内。
在制备测定试样的工序(S304b)中,测定试样中的、源自包含被检者来源的核酸的1试样的核酸的量可以几乎相等。
不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,每1试样的序列信息的数据量可以在所取得的测定试样的核酸的序列信息的数据量中占规定的比例。
测定试样的制备中使用的包含被检者来源的核酸的试样的数量发生变化时的、每1试样的序列信息的数据量的偏差可以在±10%的范围内。
根据上述构成,可以使基因的碱基序列的分析结果的品质收敛于面板检查等基因检查的检查结果的可接受范围内。
在取得序列信息的工序(S1)中,所取得的序列信息中,不是被检者来源的核酸的序列信息的数据量可以等于或多于每1试样的序列信息的数据量。
即使不是被检者来源的核酸的序列信息的数据量增加,也不影响被检者来源的核酸的序列信息的品质。
上述中,规定的比例不依赖于制备测定试样的工序(S304b)中使用的、包含被检者来源的核酸的试样的数量。
第一测定试样是将包含第一被检者组来源的核酸的试样、和包含不是被检者来源的核酸的试样混合而制备的,第二测定试样是将包含第二被检者组来源的核酸的试样、和包含不是被检者来源的核酸的试样混合而制备的,第一被检者组的被检者数量与第二被检者组的被检者数量可以不同。
即使供于测定试样的制备的包含被检者组来源的核酸的试样的数量在每个测定试样中发生改变,每1试样的序列信息的数据量的变动也收敛于规定的范围内,因此不影响被检者来源的核酸的序列信息的品质。
也可以根据制备测定试样的工序(S304b)中所使用的、包含被检者来源的核酸的试样的数量来改变测定试样中的不是被检者来源的核酸的量。
核酸的量可以是核酸的摩尔数。核酸的摩尔数可以基于260nm处的吸光度等测定值、平均分子量和核酸的摩尔比吸光系数等算出。
在制备测定试样的工序(S304b)中,各测定试样中所含的核酸的量可以是预先规定的核酸量。
测定试样中所含的每1试样的核酸量的偏差可以在±10%的范围内。
根据上述构成,可以使基因的碱基序列的分析结果的品质收敛于面板检查等基因检查的检查结果的可接受范围内。
测定试样中所含的不是被检者来源的核酸的量可以至少等于或多于测定试样中所含的每1试样的核酸的量。
从而,即使在测定试样的制备中包含被检者来源的核酸的试样数量不足,也可以用不是被检者来源的核酸来补足该不足的部分。
为了解决上述课题,本发明的另一方式的信息处理装置(1)具备控制部(11),控制部(11)取得测定试样的核酸的序列信息,其中,所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的,所述信息处理装置(1)不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,分析包含被检者来源的核酸的每1试样的序列信息的数据量为规定的量序列信息。
根据上述构成,信息处理装置(1)对序列信息进行分析,其中,不论测定试样的制备中使用的、所述序列信息包含被检者来源的核酸的试样的数量、每1试样的序列信息的数据量为规定的量。
从而,例如在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也使每1试样的序列信息的数据量的变动收敛于规定的范围内,可以输出品质恒定的分析结果。
为了解决上述课题,本发明的另一方式的基因分析系统(100)具备读取测定试样的核酸的序列信息的测序仪(2);和取得序列信息、进行分析并输出分析结果的信息处理装置(1),所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的,不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,序列信息中的每1试样的序列信息的数据量为规定的量。
根据上述构成,测序仪(2)对测定试样进行测序,所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并预先调整成规定的核酸量而得的。并且,信息处理装置(1)对序列信息进行分析,其中,不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,所述序列信息中的每1试样的序列信息的数据量为规定的量。
从而,例如在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也使每1试样的序列信息的数据量的变动收敛于规定的范围内,可以输出品质恒定的分析结果。
为了解决上述课题,本发明的另一方式的程序使计算机执行下述工序:取得测定试样的核酸的序列信息的工序(S1),所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和,对序列信息进行分析的工序(S109),其中,不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,包含被检者来源的核酸的每1试样的序列信息的数据量为规定的量。
根据该构成,例如在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也使每1试样的序列信息的数据量的变动收敛于规定的范围内,可以输出品质恒定的分析结果。
另外,记录有上述程序的计算机可读取的记录介质也纳入本发明的范畴。
本发明的一方式还可以如下所述地记载。
本发明的一方式的分析方法包含下述工序:取得测定试样中所含的核酸的序列信息的工序(S1),所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和,对所取得的序列信息进行分析的工序(S3),在进行分析的工序中,对所取得的序列信息中的、被检者来源的核酸的序列信息进行分析(S52),对所取得的序列信息中的、不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分(S53)。
其中,“被检者”是指例如接受面板检查等基因检查的患者等。另外,“测定试样”是指为了供于测序而制备的试样。另外,“预先规定的核酸量”是指:基于所使用的测序仪2和所使用的试剂的推荐方案而确定的核酸量。即,“预先规定的核酸量”为满足作为供于1次测序运行的试样数量而推荐的数量的试样数量时的核酸量。需要说明的是,“试样数量”是指要各自地取得序列信息的试样的数量。例如,对于1个被检者制备了1个由组织提取的包含核酸的试样、和1个由血液提取的包含核酸的试样的情况下,每1被检者的试样数量为2个。
根据上述构成,测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的。并且,对所取得的序列信息中的、上述被检者来源的核酸的序列信息进行分析,对不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分。
通过采用上述分析方法,在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也可以对被检者来源的核酸的序列信息有效地进行品质恒定的分析。
也可以是下述构成:被检者来源的核酸的序列信息包含索引序列,对测定试样的核酸的序列信息中的、包含索引序列的序列信息进行分析。
也可以是下述构成:被检者来源的核酸的序列信息包含多个被检者来源的核酸的序列信息,不同的被检者来源的核酸的序列信息中包含不同的索引序列。
也可以是下述构成:不是被检者来源的核酸的序列信息不含索引序列。
也可以是下述构成:对测定试样的核酸的序列信息中的、包含索引序列的序列信息进行分析(S52),对不含索引序列的序列信息,不进行对包含索引序列的序列信息所进行的分析中的至少一部分(S53)。
也可以是下述构成:测定试样的核酸的序列信息包括:包含第1索引序列的序列信息、和包含不同于第1索引序列的第2索引序列的序列信息,对包含第1索引序列的序列信息进行分析,对包含第2索引序列的序列信息,不进行对包含第1索引序列的序列信息所进行的分析中的至少一部分。
上述中,分析可以包含下述步骤:基于被检者来源的核酸的序列信息,取得与上述被检者的基因有关的信息。另外,上述中,与被检者的基因有关的信息可以包含与序列信息对应的基因名、和基因的变异信息。
也可以是下述构成:在制备测定试样的工序(S304b)中,制备进一步加入了用于评价序列信息的品质的品质管理试样的测定试样,所述分析方法还包含进行处理的工序(S110),所述处理用于由测定试样的核酸的序列信息中的、品质管理试样的序列信息取得与上述测定试样的品质有关的信息。
也可以是下述构成:品质管理试样的核酸与上述不是被检者来源的核酸相同,所述分析方法还包含下述工序:对测定试样的核酸的序列信息中的、不是被检者来源的核酸的序列信息的至少一部分,进行用于取得与品质有关的信息的处理。
不论制备测定试样的工序(S304b)中所使用的包含被检者来源的核酸的试样的数量,测定试样中的1试样来源的核酸的量可以几乎相等。
取得序列信息的工序(S1)中所取得的、测定试样的核酸的序列信息中的每1试样的序列信息的数据量可以几乎相等。
从而,在被检者来源的核酸的序列信息的分析中,可以使品质保持恒定。
不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,取得序列信息的工序(S1)中所取得的、测定试样的核酸的序列信息中的每1试样的序列信息的数据量可以在测定试样的核酸的序列信息的数据量中占规定的比例。
其中,规定的比例例如为:根据对制备测定试样而言所推荐的、包含被检者来源的核酸的试样数量确定的值。
测定试样的制备中使用的、包含被检者来源的核酸的试样的数量发生变化时的、测定试样的核酸的序列信息中的每1试样的序列信息的数据量的偏差可以在±10%的范围内。
根据上述构成,可以使基因的碱基序列的分析结果的品质收敛于面板检查等基因检查的检查结果的可接受范围内。
取得序列信息的工序(S1)中所取得的序列信息中的、不是被检者来源的核酸的序列信息的数据量可以等于或多于取得序列信息的工序(S1)中所取得的、测定试样的核酸的序列信息中的每1试样的序列信息的数据量。
不是被检者来源的核酸的序列信息的数据量即使增多,也不影响被检者来源的核酸的序列信息的品质。
核酸的量可以是核酸的摩尔数。核酸的摩尔数可以基于260nm处的吸光度等测定值、平均分子量和核酸的摩尔比吸光系数等算出。
在取得测定试样中所含的核酸的序列信息的工序(S1)中,取得被用于捕捉核酸的捕捉分子捕捉到的测定试样的核酸的序列信息,捕捉分子可以包含与测定试样中所含的核酸的至少一部分互补的碱基序列。
序列信息可以是测序仪所读取的上述核酸的碱基序列。
为了解决上述课题,本发明的另一方式的信息处理装置(1)具备控制部(11),控制部(11)取得测定试样的核酸的序列信息,对所取得的序列信息中的、被检者来源的核酸的序列信息进行分析,对所取得的序列信息中的、不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分,所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的。
根据上述构成,信息处理装置(1)取得序列信息,对被检者来源的核酸的序列信息进行分析,对不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分。从而,例如在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也可以有效地进行品质恒定的分析。
也可以是下述构成:对所取得的序列信息所进行的分析包含比对处理(S12),所述比对处理(S12)将所取得的序列信息相对于参照序列作图,对不是被检者来源的核酸的序列信息,不进行比对处理。
例如,在使用噬菌体来源的核酸“PhiX DNA”(Illumina公司)作为包含不是被检者来源的核酸的试样时,不需要进行比对处理。根据上述构成,可以适当省略不必要的处理。
也可以是下述构成:对所取得的序列信息所进行的分析包含对核酸的变异进行提取的变异提取处理(S14),对不是被检者来源的核酸的序列信息,不进行变异提取处理。
例如,使用用于评价序列信息的品质的品质管理试样作为包含不是被检者来源的核酸的试样时,不需要进行变异提取处理。根据上述构成,可以适当省略不必要的处理。
为了解决上述课题,本发明的另一方式的基因分析系统(100)具备:读取测定试样的核酸的序列信息的测序仪(2),所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和对所取得的上述序列信息进行分析的信息处理装置(1),就信息处理装置而言,对所取得的上述序列信息中的、上述被检者来源的核酸的序列信息进行分析,对所取得的序列信息中的、不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分。
根据上述构成,测序仪(2)对测定试样进行测序,所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的。并且,就信息处理装置(1)而言,取得序列信息、并且对被检者来源的核酸的序列信息进行分析,对所取得的序列信息中的、不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分。
从而,例如在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也可以有效地进行品质恒定的分析。
为了解决上述课题,本发明的另一方式的程序使计算机执行以下的工序:取得测定试样的核酸的序列信息的工序(S1),所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和,对所取得的序列信息进行分析的工序(S52),其中,在进行分析的工序中,对所取得的序列信息中的、被检者来源的核酸的序列信息进行分析(S52),对所取得的序列信息中的、不是被检者来源的核酸的序列信息,不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分(S53)。
根据该构成,例如在基因检查中,即使用于制备测定试样的包含被检者来源的核酸的试样数量发生改变时,也可以有效地进行品质恒定的分析。
另外,记录有上述程序的计算机可读取的记录介质也纳入本发明的范畴。
发明效果
根据本发明,在基因检查中,即使用于制备供于1次测序运行的测定试样的包含被检者来源的核酸的试样数量比推荐的试样数量少,也可以使每1试样的序列信息的数据量的变动收敛于规定的范围内。
附图说明
图1是示出本发明的一实施方式的分析方法中的处理流程的概要的流程图。
图2是示出系统构成例的图,所述系统包含:制作包含利用本发明的一实施方式的分析方法得到的分析结果的报告的信息处理装置、测序仪、和具备管理与存储由测序仪取得的序列信息的功能的辅助装置。
图3是示出包含信息处理装置和测序仪的系统构成例的图。
图4是示出图3所示的信息处理装置对被检者来源的核酸的序列信息进行分析的处理流程的概要的流程图。
图5是示出具备测序仪和信息处理装置的基因分析系统的构成例的图。
图6是示出在基因分析系统中进行的主要处理的例子的顺序图。
图7是示出收容试样的容器上所赋予的标签的一例的图。
图8是示出收容试样的容器上所赋予的标签的另一例的图。
图9是示出管理服务器所存储的数据的数据结构的例子的图。
图10是示出信息处理装置的构成的例子的图。
图11是示出接收与基因面板有关的信息的输入的处理流程的一例的流程图。
图12是示出与基因面板有关的信息的输入中使用的GUI的例子图。
图13是示出基因面板相关信息数据库的数据结构的例子的图。
图14是示出与基因面板有关的信息的输入中使用的GUI的另一例的图。
图15是示出用于识别疾病的识别信息的输入中使用的GUI的另一例的图。
图16是示出操作者更新与基因面板有关的信息时所使用的GUI的例子的图。
图17是示出操作者更新与基因面板有关的信息时所使用的GUI的另一例的图。
图18是示出用于分析试样的基因的碱基序列的处理流程的一例的流程图。
图19是说明用于利用测序仪分析试样的基因的碱基序列的前处理的步骤的一例的流程图。
图20是说明用于利用测序仪分析试样的基因的碱基序列的前处理的步骤的另一例的流程图。
图21是说明用于利用测序仪分析试样的基因的碱基序列的前处理的步骤的另一例的流程图。
图22是说明用于利用测序仪分析试样的基因的碱基序列的前处理的步骤的另一例的流程图。
图23是说明品质管理试样的一例的图。
图24是示出基因面板相关信息数据库的数据结构的例子的图。
图25是示出品质管理试样的具体例的图。
图26是对试样片段化的工序(a)、和赋予索引序列和衔接序列的工序(b)的例子进行说明的图。
图27是对杂交工序的一例进行说明的图。
图28是对回收成为分析对象的DNA片段的工序的一例进行说明的图。
图29是说明制备要注入到流动池中的测定试样的步骤的一例的流程图。
图30是示出制备供于测序的测定试样时所制作的测定试样片的一例的图。
图31是对将多个成为分析对象的被检者来源的试样的文库混合、从而制备测定试样的方法进行说明的图。
图32是说明成为分析对象的被检者来源的试样数量不足时的测定试样的制备方法的一例的图。
图33是说明成为分析对象的被检者来源的试样数量不足时的测定试样的制备方法的另一例的图。
图34是对将DNA片段供于流动池的工序的一例进行说明的图。
图35是说明利用测序仪分析试样DNA的碱基序列的步骤的一例的流程图。
图36是对扩增成为分析对象的DNA片段的工序的一例进行说明的图。
图37是对测序工序的一例进行说明的图。
图38是示出用图32所示的方法制备测定试样时的信息处理装置的处理流程的一例的流程图。
图39是示出用图33所示的方法制备测定试样时的信息处理装置的处理流程的一例的流程图。
图40是说明利用信息处理装置进行的分析的流程的一例的流程图。
图41是示出序列信息的文件格式的一例的图。
图42中,(a)是说明利用数据调整部进行的比对的图,(b)是示出数据调整部的比对结果的格式的一例的图。
图43是示出参照序列数据库的结构例的图。
图44是示出整合到参照序列数据库中所含的参照序列(不是表示野生型序列的序列)中的已知变异的例子的图。
图45是说明比对的详细工序的一例的流程图。
图46中,(a)是示出评分计算的一例的图,(b)为示出评分计算的另一例的图。
图47是示出变异鉴定部所生成的结果文件的格式的一例的图。
图48是示出变异数据库的结构的一例的图。
图49是示出变异数据库中的变异信息的结构的详细例的图。
图50中,(a)是示出分析对象基因与位置信息的对应关系的表格,(b)是示出从结果文件中排除不对应于与基因面板有关的信息的变异的情况的图。
图51是示出药剂检索部生成与变异有关的药剂列表的处理的一例的流程图。
图52是示出药剂数据库的数据结构的例子的图。
图53是示出药剂数据库的数据结构的例子的图。
图54是示出药剂检索部生成包含关于与变异有关的药剂的信息的列表的处理的一例的流程图。
图55是示出药剂数据库的数据结构的例子的图。
图56是示出与基因面板有关的信息的输入中使用的GUI的另一例的图。
图57是示出所制作的报告的一例的图。
图58是示出品质评价指标的一例的图。
图59是示出基因检查的流程的一例的流程图。
图60是示出为了同时分析多个被检体来源的基因的碱基序列而进行的工序的一例的图。
图61是示出注入到流动池中的DNA片段被捕捉分子捕捉后的情况的示意图。
具体实施方式
〔实施方式1〕
本发明的一实施方式的分析方法是在基因检查中输出品质恒定的分析结果的方法。如果应用该分析方法,即使供于1次测序运行的试样数量少于推荐的试样数量时,也可以避免每1试样的序列信息的数据量大幅变动而超过规定的范围,可以输出品质恒定的分析结果。
(基因检查的流程)
首先,使用图59,对于如何进行基因检查这一点进行说明。图59是示出基因检查的流程的一例的流程图。
在认为接受基因检查有利于确定被检者的诊断和治疗的方法的情况下,被检者的主治医生对被检者说明上述意思,对于利用基因检查这一点,取得被检者的同意(步骤S91)。在被检者同意的情况下,进行成为基因检查中的试样的、被检者的组织和血液的采集(步骤S92)。所采集的试样收容到规定的容器中。
然后,进行由试样中提取的基因的前处理和测序(步骤S93)。然后,对作为测序结果而得到的序列信息进行分析,检测分析对象基因中的异常(步骤S94),制作包含表示基因检查的品质的品质评价指标、和与所检测到的异常有关的信息的报告(步骤S95)。
然后,利用基因检查中的由多位专家组成的专家面板进行报告中所含的信息的解读(步骤S96)。被检者的主治医生基于报告对被检者说明基因检查的结果,在与被检者商谈的基础上选择治疗方法(步骤S97)。
(分析方法的概要)
使用图1对本发明的一实施方式的分析方法的概要进行说明。图1是示出本发明的一实施方式的分析方法中的处理流程的流程图。
步骤S1是取得预先按照成为规定的核酸量的方式制备的测定试样中所含的核酸的序列信息的工序。测定试样可使用包含被检者来源的核酸的试样而制备。包含被检者来源的核酸的试样例如为由采自被检者(例如患者等)的组织和血液等中使用任意的公知方法提取的DNA和RNA等核酸。需要说明的是,测序包含下述处理:读取在前处理中回收的成为分析对象的1或多个基因的片段(分析对象为DNA时为DNA片段)的碱基序列,生成序列信息。
需要说明的是,测定试样是指:为了供于测序仪2的测序而制备的试样。在被检者来源的试样的核酸量不满足预先规定的核酸量的情况下,按照混合不是被检者来源的试样而达到预先规定的核酸量的方式来制备测定试样。
其中,“不是被检者来源的核酸”例如是指:病毒来源、微生物来源、植物来源和昆虫来源的核酸等。作为“不是被检者来源的核酸”,可适宜地使用例如Illumina公司提供的“PhiX DNA”等。PhiX DNA为噬菌体来源的核酸,具有分子量小、序列多样性高的特征。
另外,“预先规定的核酸量”是指:基于所使用的测序仪2和所使用的试剂的推荐方案而确定的核酸量。即,“预先规定的核酸量”为满足作为供于1次测序运行的试样数量而推荐的数量的试样数量时的核酸量。“预先规定的核酸量”是用于保证作为测序的结果而得到的碱基序列的分析结果的品质恒定或更好的,可以是上限量与下限量之间的规定量。
序列信息例如为被设置在流动池的流路表面的捕捉分子捕捉到的核酸的序列信息。就序列信息的取得而言,除了向规定的流动池注入测定试样的操作和将流动池设置于测序仪2的操作以外均由测序仪2执行。某些情况下,用于捕捉核酸的捕捉分子被固定在推荐用于测序仪2的规定的流动池等固相的表面。需要说明的是,捕捉分子包含与测定试样中所含的核酸的至少一部分互补的碱基序列。
上述步骤S1中所含的操作的一部分(例如向流动池注入测定试样的操作和将流动池设置于测序仪2的操作)由测序仪2的操作者或检查担当者来进行。但是,也可以是下述构成:由以下所示的1或多个操作机器人来进行步骤S1的操作中的任一操作。
·(操作机器人1)对在测定试样的制备中所使用的、包含被检者来源的核酸的试样和包含不是被检者来源的核酸的试样进行设置,当输入了各自中所含的核酸的摩尔浓度时,自动地按照达到预先规定的核酸量的方式分注各试样而制备测定试样。
·(操作机器人2)将所制备的测定试样注入到流动池中。
·(操作机器人3)将流动池输送、设置在测序仪2内的规定位置。
步骤S2为如下工序:不论测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,输出每1试样的序列信息的数据量为规定的量的序列信息。其中,“规定的量”可以是上限量与下限量之间的、规定的量。规定的数据量是指在步骤S1中所取得的序列信息的数据量中占规定的比例的数据量。该工序为测序的一部分,由测序仪2执行。
例如,如果对制备测定试样而言所推荐的、包含被检者来源的核酸的试样数量为3,则每1试样的序列信息的数据量在所取得的序列信息的数据量中大约占1/3(即,大约33%)。如果对制备测定试样而言所推荐的、包含被检者来源的核酸的试样数量为8,则每1试样的序列信息的数据量在所取得的序列信息的数据量中大约占1/8(即,大约12.5%)。从而,规定的比例是与对制备测定试样而言所推荐的、包含被检者来源的核酸的试样数量相应的值。
需要说明的是,期望测定试样的制备中使用的、包含被检者来源的核酸的试样的数量发生变化时的、每1试样的序列信息的数据量的偏差在±10%的范围内。这种情况下,所取得的序列信息中的、不是被检者来源的核酸的序列信息的数据量可以变为至少与序列信息中所含的每1试样的核酸的序列信息的数据量相当的量或更多。
步骤S3是对序列信息进行分析、输出分析结果的工序。该工序由信息处理装置1执行。需要说明的是,信息处理装置1是对基于所读取的碱基序列数据而由测序仪2生成·输出的、成为分析对象的序列信息进行分析的计算机。需要说明的是,碱基序列数据是指通过测序而得到的多核苷酸序列数据,是指由测序仪2输出的碱基序列数据。
为了使基因的碱基序列的分析结果的品质保持恒定,需要对序列信息的品质进行适当评价。但是存在下述问题:如果由每1试样取得的序列信息的数据量发生改变,则必需根据该变动来改变用于评价序列信息的品质的指标。
例如,作为用于评价序列信息的品质的指标之一,可列举深度(depth)。深度是基于对分析对象基因中所含的各碱基、读取该碱基而得的序列信息的总数的品质评价指标。通常,根据用理想的试样数量进行测序的情况预先精密设定深度的基准值,通过深度是否为所赋予的基准值以上来评价序列信息的品质。为了使基因的碱基序列的分析结果的品质保持恒定,必需根据供于1次测序运行的试样数量的变动来变更基因的碱基序列的分析中所使用的既有分析程序中的深度基准值。
通过采用图1的步骤S1~S3,在基因检查中,即使供于1次测序运行的试样数量少于推荐的试样数量时,也使每1试样的序列信息的数据量的变动收敛于规定的范围内,可以输出品质恒定的分析结果。
进一步地,还产生如下问题:如果由每1试样取得的序列信息的数据量发生改变,则必需根据其变动来改变用于检测分析对象基因中的异常的基准。
例如,成为面板检查的检测对象的基因异常还包括单核苷酸多态性(SNP、SingleNucleotide Polymorphism)和拷贝数变异(CNV、Copy Number Variation)等多态性。为了避免多态性检测精度由于由每1试样取得的序列信息的数据量的变动而产生偏差,必需根据供于1次测序运行的试样数量来设定基因的碱基序列的分析中所使用的既有分析程序中的多态性检测基准。
通过采用图1的步骤S1~S3,即使供于1次测序运行的检体数量发生改变时,由每1试样取得的序列信息的数据量也恒定,因此可以直接使用既有分析程序。
(系统构成例)
图2是示出系统构成例的图,所述系统包含:制作包含利用本发明的一实施方式的分析方法得到的分析结果的报告的信息处理装置1、测序仪2、和具备管理·存储由测序仪2取得的序列信息的功能的辅助装置2a。测序仪2所生成的序列信息例如存储于与测序仪2连接的辅助装置2a所具备的存储装置21a。信息处理装置1也可以是下述构成:由存储装置21a取得分析对象的序列信息。信息处理装置1对测序仪2所生成的序列信息进行分析,以分析有无基因异常。需要说明的是,辅助装置2a可以将测序仪2所取得的序列信息按照被检者或按照试样来分类并存储于存储装置21a。信息处理装置1也可以借助通信线路从辅助装置2a接收成为分析对象的序列信息。
需要说明的是,也可以是信息处理装置1具备图2的辅助装置2a的功能的构成。这种情况下,可以是如图3所示的、包含信息处理装置1和测序仪2的系统构成。测序仪2所生成的序列信息存储于信息处理装置1所具备的存储部12中。信息处理装置1可以取得测序仪2所生成的序列信息、并且将序列信息按照被检者或按照试样分类并存储于存储部12。
使用图4说明具备辅助装置2a的功能的信息处理装置1对被检者来源的核酸的序列信息进行分析的处理流程。图4是示出图3所示的信息处理装置1对被检者来源的核酸的序列信息进行分析的处理流程的概要的流程图。信息处理装置1仅以测序仪2所取得的序列信息中的、被检者来源的核酸的序列信息为对象进行分析。即,信息处理装置1中,如果是被检者来源的核酸的序列信息(步骤S51中为YES)则进行分析(步骤S52),如果为不是被检者来源的核酸的序列信息(步骤S51中为NO)则不进行对被检者来源的核酸的序列信息所进行的分析中的至少一部分(步骤S53)。
为了判别是否为被检者来源的核酸的序列信息,图1的步骤S1中取得的序列信息中的、被检者来源的核酸的序列信息包含索引序列。因此,可以从测序仪2所取得的序列信息中,选择性提取被检者来源的核酸的序列信息并进行分析。
以下对本发明的一实施方式进行详细说明。
(基因分析系统100的应用例)
首先,使用图5对包含本发明的一实施方式的信息处理装置1的基因分析系统100的概略进行说明。图5是示出具备测序仪2和信息处理装置1的基因分析系统100的构成例的图。基因分析系统100为对基因的序列信息进行分析的系统,具备信息处理装置1、测序仪2和管理服务器3。
图5所示的基因分析系统100根据来自对检查机构120中所执行的全部分析进行管理的分析系统管理机构130和医疗机构210的分析委托,对所提供的试样进行分析,并应用于向医疗机构210提供分析结果的检查机构120中。
检查机构120是对医疗机构210所提供的试样进行检查·分析并制作基于分析结果的报告、向医疗机构210提供该报告的机构。在图5所示的例子中,检查机构120中设置有测序仪2和信息处理装置1等,但不限于此。例如,检查机构120也可以是具备设置信息处理装置1的施设和设置测序仪2的另一施设的构成。
分析系统管理机构130是对利用基因分析系统100在各检查机构120中执行的全部分析进行管理的机构。分析系统管理机构130可以是与检查机构120相同的机构。
医疗机构210是医师、护士、药剂师等对患者进行诊断、治疗、处方等医疗行为的机构,可列举例如医院、诊所、药房等。
需要说明的是,图5示出了检查机构120和医疗机构210为分开设置的情况,但是在检查机构120和医疗机构210为一体的施设、例如大学医院等中也可以适宜地利用基因分析系统100。
(基因分析系统100在应用例中的处理)
接下来,使用图6进一步具体说明图5所示的基因分析系统100在应用例中的处理流程。图6是示出基因分析系统100中进行的主要处理的例子的顺序图。需要说明的是,图6所示的处理不过是各机构所进行的处理的一部分。
<基因分析系统利用的申请和利用开始>
首先,希望利用基因分析系统100的检查机构120导入信息处理装置1。然后,向分析系统管理机构130申请利用基因分析系统100(步骤S101)。S101可省略。例如,在分析系统管理机构130与检查机构120相同时,S101省略。
对于基因分析系统100的利用,检查机构120与分析系统管理机构130可以事先从多种契约类型中订立期望的契约。例如,可以从由分析系统管理机构130对检查机构120提供的服务内容、分析系统管理机构130向检查机构120收取的系统使用费的确定方法、和系统使用费的支付方法等多种不同的契约类型中选择。分析系统管理机构130的管理服务器3根据来自检查机构120的申请而确定与检查机构120之间订立的契约的内容(步骤S102)。S102可省略。例如,当分析系统管理机构130与检查机构120相同时,S102省略。
然后,分析系统管理机构130所管理的管理服务器3对已订立契约的检查机构120的信息处理装置1赋予检查机构ID,并且开始提供各种服务(步骤S103)。S103可省略。例如,在分析系统管理机构130与检查机构120相同时,S103省略。分析系统管理机构130与检查机构120相同时,检查机构ID、各种服务由检查机构120本身来管理。
信息处理装置1由管理服务器3接收用于控制基因的碱基序列的分析处理、和制作基于该分析的结果的报告等的程序、信息等。从而,检查机构120能够由分析系统管理机构130接受各种服务。并且,信息处理装置1可以输出与所输入的与基因面板有关的信息匹配的分析结果和报告等。分析系统管理机构130与检查机构120相同时,用于控制基因的碱基序列的分析处理、和制作基于该分析的结果的报告等的程序、信息等由检查机构120本身来管理。
基因面板通常包含引物、探针等成套的试剂。需要说明的是,基因面板也可以用于分析基因中所产生的变异、单核苷酸多态性(SNP、Single Nucleotide Polymorphism)和拷贝数多态性(拷贝数变异)(CNV、Copy Number Variation)等多态性。另外,基因面板可以用于输出分析对象基因整体的变异等量的相关信息(也称为肿瘤突变负荷(Tumor MutationBurden)等)、计算甲基化频度。
需要说明的是,本说明书中,“基因面板”是能够一次性分析多个基因中的多个异常、能够检查多种与疾病有关的试样的基因面板。这种基因面板也被称为“多功能面板(日语:マルチパネル)”和“大面板(日语:ラージパネル)”,是以多个与疾病相关的基因为分析对象的基因面板。这种基因面板中,分析对象为从碱基长为10Mb(1000万碱基)以上的外显子区域读取的碱基序列。
<对检查机构120的分析委托>
医疗机构210中,医师等根据需要采集被检者的病变部位的组织和血液等试样。在委托检查机构120分析所采集的试样时,例如由医疗机构210中设置的通信终端5发送分析委托(步骤S105)。在委托检查机构120分析试样时,医疗机构210在发送分析委托的同时,将赋予给每个试样的试样ID提供给检查机构120。赋予给每个试样的试样ID将与采集各试样的被检者有关的信息(例如患者ID等)和用于识别该被检者的疾病的识别信息(例如疾病名和疾病ID)等、与各试样建立对应关系。需要说明的是,医疗机构210可以将被检者ID和疾病ID等与试样ID一起向检查机构120发送。检查机构120将试样ID和被检者ID与疾病ID建立对应关系并进行管理。
以下列举医疗机构210向检查机构120委托面板检查的分析的情况为例来进行说明。需要说明的是,面板检查不限于临床检查,也包括研究用途的检查。
需要说明的是,本说明书中“被检者”是指人。但是,本发明的概念可以应用于人以外的任意动物等生物来源的基因组,在医疗、兽医学和动物科学等领域中也是有用的。
医疗机构210委托基因面板检查的情况下,可以规定期望的基因面板。因此,在图6的步骤S105中,医疗机构210所发送的分析委托可包含与基因面板有关的信息。其中,与基因面板有关的信息只要是可用于确定基因面板的信息即可,可以是例如基因面板名和面板检查中的分析对象的基因名等。
<检查机构120中的分析>
信息处理装置1从医疗机构210接收分析委托(S106)。进一步地,信息处理装置1从作为该分析委托的发送源的医疗机构210取得试样。医疗机构210(和检查机构120)中,对被检者名、被检者ID、疾病名、疾病ID和试样ID等建立关联并进行记录·管理。
医疗机构210所提供的试样被收容到如图7和图8所示的容器中。图7是示出收容试样的容器P1上所赋予的标签L1的一例的图。收容试样的各容器P1上附有显示被检者ID和试样ID等的标签L1,该标签L1上显示条形码L11等记录手段。通过读取标签L1所显示的条形码L11等记录手段,能够取得被检者的被检者ID、试样ID和作为疾病的识别信息的疾病ID等。需要说明的是,条形码L11的读取可以由检查担当者人工进行,也可以由信息处理装置1自动进行。
或者也可以是下述构成:如图8所示,各容器P1上附有显示被检者ID和试样ID等的标签L2,该标签L2上附有RFID标牌L21等记录手段。通过读取标签L2上所赋予的RFID标牌L21等记录手段,能够取得被检者的被检者ID、试样ID、和作为被检者的疾病的识别信息的疾病ID。需要说明的是,图7和图8中,示出了收容采自被检者的组织的容器的例子,收容采自被检者的血液的容器也是同样的。
检查机构120接受医疗机构210的委托而进行的分析中可使用多个基因面板,并且在每个基因面板中确定分析对象的基因组。检查机构120也可以根据分析目的将多个基因面板区分使用。即,对于医疗机构210所提供的第1试样,可为了分析第1分析对象基因组而使用第1基因面板、对于第2试样,可为了分析第2分析对象基因组而使用第2基因面板。
信息处理装置1接收来自操作者的、用于分析试样的与基因面板有关的信息的输入(步骤S107)。
检查机构120中,对取得的试样,用基因面板进行前处理,进行使用测序仪2的测序(步骤S108)。
另外,检查机构120中,在被检者来源的试样的测序之外,对于与基因面板对应的规定的品质管理试样,使用基因面板进行前处理,进行使用测序仪2的测序(步骤S108),由此进行精度管理。
将品质管理试样供于前处理、测序和序列分析等基因检查时的结果,可作为面板检查的品质评价指标来使用。
既可以是1或多个品质管理试样与每个基因面板建立对应关系,也可以是例如对每个基因面板预先制备对应的品质管理试样。另外,品质管理试样既可以单独进行测定,也可以与医疗机构210所提供的试样一起进行测定。
前处理是指用于制备测定试样的一系列处理。前处理与图1的步骤S1~S2相当,包括将试样中所含的DNA等基因片段化、回收片段化后的基因的处理等。另外,测序与图1的步骤S3相当,包括读取在前处理中回收的成为分析对象的1或多个DNA片段的碱基序列的处理。利用测序仪2的测序中所读取的包括碱基序列数据在内的序列信息中的、成为分析对象的序列信息被输入到信息处理装置1中。需要说明的是,前处理包括对被检者来源的试样和不是被检者来源的试样中所含的DNA等基因进行片段化、回收片段化后的基因的处理。
测序仪2也可以向信息处理装置1输出包含品质评分在内的序列信息,所述品质评分是与基因的碱基序列读取工序有关的品质评价指标。另外,测序仪2可以向信息处理装置1输出簇浓度,所述簇浓度为与成为分析对象的DNA片段的扩增工序有关的品质评价指标。需要说明的是,“品质评分”和“簇浓度”容后说明。
信息处理装置1由测序仪2取得序列信息,对基因的碱基序列进行分析(步骤S109)。
需要说明的是,品质管理试样也通过与医疗机构210所提供的试样的面板检查中所进行的工序相同的工序来进行处理。从而,与医疗机构210所提供的试样同样地,也对品质管理试样的基因的序列信息进行分析。基于品质管理试样的分析结果,生成用于评价面板检查的品质的品质评价指标。
然后,信息处理装置1基于品质管理部117所生成的品质评价指标评价面板检查的品质(步骤S110)。具体而言,信息处理装置1可以基于下述比较结果来评价各面板检查的品质,所述比较结果是比较对图10的品质评价基准126所存储的每一品质评价指标所设定的评价基准和所生成的品质评价指标而得的。
需要说明的是,品质管理试样为包含不是被检者来源的核酸的试样。信息处理装置1可以进行下述处理,所述处理对测定试样的核酸的序列信息中的、包含不是被检者来源的核酸的试样的序列信息的至少一部分取得与品质有关的信息。这种情况下,包含不是被检者来源的核酸的试样的序列信息的至少一部分被作为品质管理试样的序列信息的替代来使用。
信息处理装置1基于步骤S109中的分析结果、和基于品质管理试样的分析结果而生成的指标来制作报告(步骤S111),将制作的报告发送给通信终端5(步骤S112)。报告中可包含例如:序列信息的比对结果的数据和与鉴定出的基因变异等有关的数据等信息处理装置1的分析结果数据本身、以及与面板检查的品质有关的信息。
需要说明的是,制作的报告可以在检查机构120中印刷,例如检查机构120可以将制作的报告以纸媒形式寄送给医疗机构210。
利用基因分析系统100的检查机构120的信息处理装置1将分析中使用的与基因面板有关的信息、分析出的与基因有关的信息、分析成效、和针对进行的基因检查而生成的品质评价指标等通知到管理服务器3(步骤S114)。S114可省略。例如,在分析系统管理机构130与检查机构120相同时,S114省略。这种情况下,检查机构120本身对分析成效·品质评价指标等进行管理。
管理服务器3借助例如通信线路4从利用基因分析系统100的各检查机构120的信息处理装置1取得检查机构ID、基因面板ID、基因ID和分析成效等。另外,管理服务器3对取得的检查机构ID、基因面板ID、基因ID、分析成效、和品质评价指标等建立对应关系并进行存储(步骤S115)。S115可省略。例如,在分析系统管理机构130与检查机构120相同时,S115省略。这种情况下,检查机构120本身对分析成效·品质评价指标等进行管理。
需要说明的是,检查机构ID是确定进行基因的序列分析的检查机构120的信息,可以是给利用信息处理装置1的从属于检查机构120的每位操作者赋予的识别信息、即操作者ID。
基因面板ID是用于确定分析对象的基因的分析中所使用的基因面板的、所赋予的识别信息。赋予给基因面板的基因面板ID与基因面板名和提供该基因面板的公司名等建立对应关系。
基因ID是用于确定分析对象的基因而赋予给每个基因的识别信息。
分析成效是与基因的序列信息的分析状况有关的信息。分析成效例如可以是信息处理装置1中执行使用规定的基因面板的分析的序列分析次数,也可以是所分析的基因数,还可以是鉴定出的基因变异的数量等的累计。或者,可以是与分析中所处理的数据量有关的信息。
管理服务器3对每个检查机构120统计规定的期间(例如日、周、月、年等任意的期间)内的分析成效,根据统计结果和契约类型确定系统使用费(步骤S116)。分析系统管理机构130对检查机构120收取所确定的系统使用费,也可以要求对分析系统管理机构130支付系统使用费。S116可省略。例如,在分析系统管理机构130与检查机构120相同时,S116省略。
(基因分析系统100的构成例)
基因分析系统100是对基因的序列信息进行分析的系统,至少具备信息处理装置1和管理服务器3。信息处理装置1借助内网和因特网等的通信线路4与管理服务器3连接。
(测序仪2)
测序仪2是用于读取试样中所含的基因的碱基序列的碱基序列分析装置。
本实施方式的测序仪2优选为使用第二代测序技术进行测序的第二代测序仪、或第3代测序仪。第二代测序仪是近年开发的一组碱基序列分析装置,通过在流动池内大量地对无性扩增出的DNA模板或单独DNA分子进行平行处理,从而具有显著提高的分析能力。
另外,本实施方式中可使用的测序技术可以是对同一区域进行重复读取(深度测序)而取得多个读长(read)的测序技术。
作为本实施方式中可使用的测序技术的例子,可列举离子半导体测序、焦磷酸测序(pyrosequencing)、使用可逆染料终止子的边合成边测序(sequencing-by-synthesis)、边连接边测序(sequencing-by-ligation)、和基于寡核苷酸探针连接的测序等每1测序运行中可取得大量的读长的测序技术。另外,在不是对特定区域的碱基序列、而是对基因组整体的碱基序列进行分析的全基因组测定(whole genome sequencing)中,也可以应用本发明。全基因组测序被应用于以多种疾病相关基因作为分析对象的基因面板,能够从10Mb(1000万碱基)以上的外显子区域中读取碱基序列。
测序中使用的测序引物没有特别限定,可以基于适合于对区域进行扩增的序列来适当设定。另外,关于测序中使用的试剂,也可以根据所使用的测序技术和测序仪2来选择合适的试剂。关于前处理至测序的步骤,后文将列举具体例来说明。
(管理服务器3)
然后,使用图9说明管理服务器3中所存储的数据。图9是示出管理服务器3所存储的数据的数据结构的例子。分析系统管理机构130基于图9所示的各数据确定对各检查机构收取的系统使用费。管理服务器3借助通信线路4从信息处理装置1接受信息,所述信息包括:确定对基因的序列进行分析的检查机构120的信息(例如检查机构ID)、与所使用的基因面板有关的信息、以及与基因的序列的分析状况有关的信息(例如分析成效)。需要说明的是,图9中,“基因面板A”记作“A面板”、“基因面板B”记作“B面板”等,“基因面板ID”记作“面板ID”。
数据3A中,利用基因分析系统100的检查机构的名称与赋予给每个检查机构的检查机构ID建立关联。数据3B中,分析系统管理机构130与检查机构120之间订立的契约的类型、与对订立了各契约的检查机构提供的服务(例如可使用的基因面板)、与系统使用费建立关联。
例如,在检查机构“P机构”与分析系统管理机构130之间订立了“方案1”的契约时,分析系统管理机构130对检查机构P收取与动作次数相应的使用费。需要说明的是,“动作次数”例如为信息处理装置1所进行的面板检查的次数。在开始利用基因分析系统100时,检查机构P使用检查机构P的检查机构ID和口令登录基因分析系统100。管理服务器3可以基于登录时所输入的检查机构ID来确定检查机构名和契约类型等。
“方案3”是在“方案1”中添加了提供可用于“CDx用途”的辅助信息的、“方案1”的上位方案。因此,订立“方案3”的契约的费用也可以比订立“方案1”的契约的费用高。
对于订立了“方案3”的契约的检查机构,提供制作下述报告所需要的CDx信息,所述报告包含与可应用于伴随诊断(CDx)的药剂的奏效性相关的辅助信息(参照图6的S104)。例如,在检查机构“Q机构”与分析系统管理机构130之间订立“方案3”的契约时,管理服务器3基于检查机构Q登录基因分析系统100时所输入的检查机构ID确定检查机构名和契约类型等,向检查机构Q提供与可应用于CDx的药剂的奏效性有关的辅助信息。从而,检查机构Q可以向医疗机构210提供包含与可应用于CDx的药剂的奏效性相关的辅助信息的报告。
数据3C~3E分别为与利用基因分析系统100的检查机构在2017年8月1日~2017年8月31日期间进行的动作次数、所分析的基因和鉴定出的基因变异的总数有关的分析成效。这些分析成效被从信息处理装置1发送给管理服务器3,并且存储于管理服务器3中。分析系统管理机构130基于这些分析成效的数据确定向各检查机构收取的系统使用费。成效的统计期不限于上述,可以按照天、周、月、年等任意期间来进行统计。
需要说明的是,分析系统管理机构130在确定系统使用费时,可以根据是否由提供用于检查的基因面板(例如制造或销售)的公司提供这一点来变更系统的使用费。这种情况下,可以在管理服务器3中预先存储数据3F。数据3F中,“A公司”、“B公司”等提供基因面板的公司名、基因面板ID和与系统使用费有关的协议(例如是否需要系统使用费等)建立关联。
列举“P机构”与分析系统管理机构130之间订立“方案1”的契约、其分析成效如图9所示的情况为例进行说明。P机构进行了5次使用由A公司提供的基因面板(基因面板ID“AAA”)的检查,进行了10次使用由B公司提供的基因面板(基因面板ID“BBB”)的检查。根据图9所示的数据3F,使用由A公司提供的基因面板这5次不需要系统使用费。因此,分析系统管理机构130对P机构排除使用由A公司提供的基因面板的检查次数来确定系统使用费。
(信息处理装置1的构成例)
图10为信息处理装置1的构成的一例。
信息处理装置1具备控制部11和输出部13,所述控制部11取得包含由测序仪2读取的碱基序列数据的成为分析对象的序列信息、和包含成为分析对象的多个基因的与基因面板有关的信息,所述输出部13输出基于控制部11所取得的与基因面板有关的信息的、序列信息的分析结果。信息处理装置1可使用计算机构成。例如,控制部11是CPU(CentralProcessing Unit)等处理器,存储部12为硬盘驱动器。
另外,存储部12中还存储有:用于序列分析的程序、用于生成单一的参照序列的程序等。输出部13包含显示器、打印机、扬声器等。输入部17包含键盘、鼠标、触控传感器等。另外,也可以使用使触控传感器和显示器一体化的触摸面板之类的、具有输入部和输出部双方的功能的装置。通信部14是用于控制部11与外部的装置通信的接口。
信息处理装置1具备:总体地控制信息处理装置1所具备的各部的控制部11、存储分析执行部110所使用的各种数据的存储部12、输出部13、通信部14和输入部17。控制部11具备分析执行部110和管理部116。进一步地,分析执行部110具备序列数据读取部111、信息选择部112、数据调整部113、变异鉴定部114、品质管理部117、药剂检索部118、和报告制作部115。存储部12中存储有基因面板相关信息数据库121、参照序列数据库122、变异数据库123、药剂数据库124、和分析成效日志151。
在每次分析中使用不同的基因面板时,信息处理装置1制作包含与所使用的基因面板对应的分析结果的报告。不论基因面板的类型,利用基因分析系统100的操作者均能够利用共通的分析程序对面板检查的结果进行分析、制作报告。从而,在实施面板检查时,消除了根据每个基因面板来区分使用所用的分析程序、必需根据所使用的基因面板对分析程序进行特殊设定之类的烦恼,操作者的便利性提高。
信息处理装置1的操作者由输入部17输入与基因面板有关的信息时,信息选择部112按照参照基因面板相关信息数据库121、根据所输入的与基因面板有关的信息使分析程序执行分析对象基因的分析的方式来控制分析程序的算法。
其中,与基因面板有关的信息只要是确定利用测序仪2的测定中所使用的基因面板的信息即可,例如为基因面板名、成为基因面板的分析对象的基因名、和基因面板ID等。
序列数据读取部111取得测序仪2所生成的序列信息。信息处理装置1不具备图2所示的辅助装置2a的功能时,序列数据读取部111由辅助装置2a取得分析对象的序列信息。另一方面,信息处理装置1具备图2所示的辅助装置2a的功能时,序列数据读取部111由测序仪2取得序列信息,将其按照被检者ID或试样ID分类并存储于存储部12。并且,序列数据读取部111由存储部12读出成为分析对象的序列信息,不是分析对象的序列信息则不进行读出。
信息选择部112基于由输入部17输入的与基因面板有关的信息来改变分析算法,以进行对应于该与基因面板有关的信息所示的作为基因面板的分析对象基因的分析。
信息选择部112对数据调整部113、变异鉴定部114、药剂检索部118、和报告制作部115中的至少任一者输出基于与基因面板有关的信息的指示。通过采用该构成,信息处理装置1可以基于所输入的与基因面板有关的信息来输出序列信息的分析结果。
即,信息选择部112为按照下述方式进行控制的功能块:取得包含成为分析对象的多个基因的与基因面板有关的信息,基于所取得的与基因面板有关的信息,由输出部13输出序列信息的分析结果。
实施面板检查的检查机构120对各种试样中所含的基因进行分析时,根据每个试样的分析对象基因组而使用各种基因面板。
即使在使用各种基因面板对各种组合的分析对象基因进行分析时,信息处理装置1也通过具备信息选择部112而可以适当地输出序列信息的分析结果。
即,对于操作者而言,不再对每个分析对象基因设定序列信息的分析中所使用的分析程序或进行分析,仅通过选择与基因面板有关的信息即能够适当地输出各序列信息的分析结果。
例如,信息选择部112对数据调整部113输出基于与基因面板有关的信息的指示时,数据调整部113进行反映该与基因面板有关的信息的比对处理等。
信息选择部112根据与基因面板有关的信息,来指示数据调整部113将序列信息的作图中使用的参照序列(野生型的基因组序列与变异序列整合而成参照序列)仅限定为对应于与基因面板有关的信息的、关于基因的参照序列。
这种情况下,数据调整部113的处理结果已反映与基因面板有关的信息,因此信息选择部112对于进行数据调整部113所进行的处理的下一处理的变异鉴定部114,也可以不输出基于与基因面板有关的信息的指示。
例如,信息选择部112对变异鉴定部114输出基于与基因面板有关的信息的指示时,变异鉴定部114进行反映该与基因面板有关的信息的处理。
例如,信息选择部112根据与基因面板有关的信息,来指示变异鉴定部114将所参照的变异数据库123的区域仅限定为对应于与基因面板有关的信息的、关于基因的变异。从而,变异鉴定部114的处理结果反映与基因面板有关的信息。
(与基因面板有关的信息的输入)
这里,使用图11说明图6的步骤S107所示的、接收与基因面板有关的信息的输入的处理。图11是示出接收与基因面板有关的信息的输入的处理流程的一例的流程图。
这里,列举控制部11在输入部17中显示用于输入与基因面板有关的信息的GUI、由操作者来输入与基因面板有关的信息的构成作为例子来说明。这里,列举输入部17具备能够对呈现给操作者的GUI进行输入操作的触摸面板的构成的情况作为例子来说明。
首先,信息处理装置1的控制部11使输入部17显示用于使操作者选择与基因面板有关的信息的GUI。基于操作者对GUI的输入操作,而取得与基因面板有关的信息(步骤S201)。
信息选择部112基于作为GUI而显示的信息中的、操作者所选择的信息,检索基因面板相关信息数据库121、并读出对应于所选择的信息的与基因面板有关的信息。
另外,信息处理装置1读出由医疗机构210接收的分析委托中所含的、与基因面板有关的信息。
在对应于所选择的信息的基因面板在基因面板相关信息数据库121中有登录(步骤S202中为YES)、且该基因面板与由医疗机构210接收的分析委托中所含的基因面板一致时(步骤S203中为YES),信息选择部112接收该输入。并且,信息选择部112在输入部17中显示主旨为所输入的基因面板可使用的信息(步骤S204)。
另一方面,对应于所选择的信息的基因面板在基因面板相关信息数据库121中没有登录时、即选择了未登录的基因面板时(步骤S202中为NO)、信息选择部112在输入部17中显示主旨为所输入的基因面板不可使用的信息(步骤S205),阻止由信息处理装置1进行的分析。
这种情况下,也可以显示报错的信息,来代替主旨为基因面板不可使用的信息。作为这样的信息,可以是例如“所选择的基因面板未登录。”之类的信息,还可以增加“请重新输入与基因面板有关的信息”等提醒重新输入的信息。
另外,在对应于所选择的信息的基因面板与由医疗机构210接收的分析委托中所含的基因面板不一致时(步骤S203中为NO),信息选择部112在输入部17中显示主旨为所输入的基因面板不可使用的信息(步骤S205),阻止由信息处理装置1进行的分析。
这种情况下,也可以显示报错信息,来代替主旨为基因面板不可使用的信息。作为这样的信息,可以是例如“所选择的基因面板与调配不同。”之类的信息,还可以增加“请重新输入与基因面板有关的信息”等提醒重新输入的信息。
通过这样的处理,防止了使用不合适的基因面板来进行测序、以及执行多余的分析动作的情况,可以消除基因面板的无效使用、基因分析系统100的无效启动。
(输入与基因面板有关的信息时所使用的GUI的例子)
接下来,使用图12说明使操作者输入与基因面板有关的信息的GUI。图12是示出输入与基因面板有关的信息时所使用的GUI的例子的图。
如图12所示,可以在GUI中显示作为与基因面板有关的信息的“xxxxx”、“yyyyy”等基因面板名的列表,使操作者从列表所示的基因面板中选择期望的基因面板。
GUI中显示的基因面板名的列表是基于基因面板相关信息数据库121中所登录的、赋予了基因面板ID的基因面板的基因面板名。
图12所示的GUI示出了操作者选择了“基因面板2(基因面板名:“yyyyy”)”的情况。信息选择部112使用与所选择的基因面板名“yyyyy”建立关联的基因面板ID作为关键词来检索基因面板相关信息数据库121,取得对应于所输入的基因面板名的与基因面板有关的信息。
(基因面板相关信息数据库121)
然后,使用图13说明在介由输入部17输入与基因面板有关的信息时、信息选择部112所参照的存储于基因面板相关信息数据库121的数据。图13是示出基因面板相关信息数据库121的数据结构的例子的图。
在基因面板相关信息数据库121中,如图13所示的数据121A所示那样,对于每一基因面板存储可成为分析对象基因的名称和赋予给每个基因的基因ID。基因面板“A面板”、“B面板”、“C面板”为能够总括地分析多种疾病相关的、多个基因中的多个异常的基因面板(所谓的“大面板”)。
另外,基因面板相关信息数据库121中,如图13所示的数据121B那样,可选择的基因面板的名称、赋予给各基因面板的基因面板ID、各基因面板的作为分析对象基因的基因ID(相关基因ID)、和CDx flag建立关联并被存储。CDx flag是表示是否为CDx对象的基因面板的flag。需要说明的是,CDx对象的基因面板是能够检测CDx对象的基因变异的基因面板。需要说明的是,对于各基因面板是否得到公共机构(例如日本厚生劳动省等)的使用许可的相关信息这一点,也可以建立对应关系。
如图12所示,当操作者从GUI中呈现的基因面板中选择率期望的基因面板时,信息选择部112可以参照基因面板相关信息数据库121来提取与所选择的基因面板名建立关联的基因面板ID和相关基因ID。
如图14所示,在从GUI中呈现的基因名中选择分析对象基因时,信息选择部112参照基因面板相关信息数据库121来提取与所选择的基因名建立关联的基因ID、和在相关基因ID中包含有这些基因ID的基因面板的基因面板ID。
在使用能够总括地分析多种疾病相关的、多个基因中的多个异常的基因面板实施面板检查时,可以输入各试样是否与某种疾病相关。例如,如图15所示,可以从GUI中呈现的疾病名的列表中选择用于识别疾病的识别信息。信息选择部112将所选择·输入的疾病名(或疾病ID)输出到数据调整部113、变异鉴定部114、药剂检索部118、品质管理部117、和报告制作部115等。需要说明的是,也可以是下述构成:信息选择部112基于试样ID自动取得与各试样ID建立对应关系的被检者的疾病名和疾病ID。
也可以是下述构成:如图7和图8所示,由赋予给收容被检者来源的组织和血液等的容器的条形码L11和RFID标牌L21等记录手段,读取各试样的试样ID、被检者的疾病名、和疾病ID等而取得。在读取条形码L11而取得试样ID和疾病ID等的情况下,输入部17可以是条形码读取器。在由RFID标牌L21取得试样ID和疾病ID等的情况下,输入部17可以是具备接收来自RFID标牌L21的信号的功能的接收装置。
<基因面板相关信息数据库121的更新>
这里,使用图16和图17说明基因面板相关信息数据库121所存储的信息的更新。图16和图17是示出操作者对基因面板相关信息数据库121进行更新时所使用的GUI的例子的图。
基因面板相关信息数据库121所存储的信息的更新可以利用由分析系统管理机构130提供给检查机构120的更新补丁来进行。
需要说明的是,也可以是下述构成:以缴纳系统使用费后的检查机构120为对象,分析系统管理机构130对其提供更新补丁。例如,分析系统管理机构130可以通知检查机构120下述主旨:存在可提供的更新补丁、以及支付系统使用费为提供更新补丁的条件。通过如此进行通知,可以适当地提醒检查机构120支付系统使用费。
在对多个基因总括地更新时,可以如图16所示那样显示输入“登录文件名”的栏、并且在该栏中输入“基因面板对象基因.csv”等记载有基因名的文件名。在图16所示的例子中,该“基因面板对象基因.csv”中包含RET、CHEK2、PTEN、MEK1等多个基因名。
当输入文件名后点击“登录”按钮时,对应于该文件中所含的基因名的基因相关信息的更新要求与检查机构ID建立对应关系,介由通信部14发送给管理服务器3。也可以是下述构成:该更新要求的生成和与检查机构ID建立对应关系例如由图10的控制部11来进行。
分析系统管理机构130允许信息处理装置1下载信息,其中,所述信息包含:赋予给管理服务器3所接收的更新要求中所含的基因名的基因ID、和赋予给以该基因为分析对象的基因面板的基因面板ID。
或者,在操作者分别输入基因名而进行更新的情况下,可以如图17所示那样显示输入“基因名”的栏、并且在该栏中输入“FBXW7”等基因名。
输入基因名后点击“登录”按钮时,对应于该基因名的基因相关信息的更新要求与检查机构ID建立对应关系,介由通信部14发送给管理服务器3。分析系统管理机构130允许信息处理装置1下载信息,其中,所述信息包含赋予给管理服务器3所接收的更新要求中所含的基因名的基因ID、和赋予给以该基因为分析对象的基因面板的基因面板ID。
需要说明的是,可以具备下述构成:在图16的输入“登录文件名”的栏、和图17的输入“基因名”的栏中,显示输入候选作为提示。
例如,所显示的输入候选的信息是预先管理服务器3向信息处理装置1提供的,并被存储在存储部12。并且,在检测到对输入栏的GUI的点击操作时,可以将可更新的基因名作为输入候选而全部呈现,使操作者从其中选择、或将与操作者所输入的文字列一致的可更新的基因名作为输入候选而呈现。或者,还可以是例如下述情况:对于图17的“基因名”,操作者在输入栏输入“E”这1文字时,显示“EGFR”和“ESR”等可更新的基因名的列表,使操作者从列表中选择。通过如此地呈现输入候选,可以防止操作者的输入错误。
基因面板相关信息数据库121中,各基因名、该基因的基因ID、该基因所编码的蛋白质名可以建立关联而存储。
这种情况下,所输入的文字列不是基因名、而是该基因所编码的蛋白质等的情况下,信息选择部112也可以参照基因面板相关信息数据库121而取得与所输入的蛋白质名建立关联的基因名和基因ID。
需要说明的是,在对输入“基因名”的栏中输入蛋白质名并点击登录按钮的情况下,可以显示示出与该蛋白质名建立关联的基因名、并且使操作者确认该基因名无误的GUI。
(管理部116)
管理部116将包含分析执行部110进行动作的动作次数、所分析的基因数、和所鉴定的变异的总数等的分析成效与基因面板ID、基因ID建立关联,随时存储于分析成效日志151。管理部116以任意频度(例如每天、每周、每月)从分析成效日志151读出包含分析成效等的数据,将该数据与检查机构ID建立对应关系,介由通信部14发送给管理服务器。
(通信部14)
通信部14用于使信息处理装置1介由通信线路4与管理服务器3通信。由通信部14发送给管理服务器3的数据中,可包含检查机构ID、基因面板ID、基因ID、分析成效、更新要求等。另外,由管理服务器3接收的数据中,可包含与基因面板有关的信息、可更新的基因名等。
(用于分析试样的基因的碱基序列的处理流程)
这里,使用图18说明分析试样的碱基序列的处理流程。图18是示出用于分析试样的基因的碱基序列的处理流程的一例的流程图。
首先,在图18的步骤S31中,进行用于分析分析对象基因的序列的前处理。在前处理中,包含对试样和品质管理试样中所含的DNA等核酸进行片段化、并回收片段化后的核酸为止的处理。需要说明的是,医疗机构210所提供的试样为组织和血液等时,还包含由组织和血液提取核酸的处理。这种情况下,由1个被检者中,制备包含由组织提取的核酸的试样和包含由血液提取的核酸的试样。
然后,步骤S32中,利用测序仪2读取结束了前处理的试样的基因和品质管理试样中所含的核酸的碱基序列。
该步骤S32具体为读取前处理后所回收的成为分析对象的1或多个片段化的基因的碱基序列的工序。序列信息包含该工序中所读取的基因的碱基序列。前处理后所回收的成为分析对象的1或多个片段化的核酸有时也被称为“文库”。
接下来,步骤S33中,信息处理装置1对读取的基因的碱基序列进行分析,确定序列中有无变异、变异的位置、变异的类型等。通过对读取的基因的碱基序列进行分析,来鉴定所要检测的基因变异。
然后,在对品质管理试样进行测定时,步骤S34中,品质管理部117生成用于评价面板检查的品质的品质评价指标。信息处理装置1可以基于生成的品质评价指标来评价所进行的面板检查的品质。
最后,信息处理装置1制作报告,所述报告包含:步骤S33中鉴定的基因变异的相关信息等分析结果、和步骤S34中由品质管理部117生成的品质评价指标等表示面板检查的品质的信息。所制作的报告提供给医疗机构210。
本实施方式中可以使用的测序仪2的种类没有特别限定,可以适当使用在一次运行中可以分析多个分析对象的测序仪。以下,作为一例,对使用Illumina公司(San Diego、CA)的测序仪(例如MySeq、HiSeq、NextSeq等)或采用与Illumina公司的测序仪同样方式的装置的情况进行说明。
Illumina公司的测序仪通过组合Bridge PCR法和称为Sequencing-by-synthesis的方法而可以在流动池上扩增数量巨大的目标DNA并一边合成一边进行测序。另外,Illumina公司的测序仪可以同时分析多个被检者的基因的碱基序列。
(a.前处理)
接下来,沿着图19~22所示的流程对图18的步骤S31的前处理的步骤进行说明。图19~22是说明用于利用测序仪2分析试样的基因的碱基序列的前处理的步骤的一例的流程图。需要说明的是,以下列举成为序列分析对象的核酸为DNA的情况为例来进行说明。
<提取>
在对试样和品质管理试样各自的碱基序列进行分析时,首先从包含分析对象基因的试样、和对应于所使用的基因面板的品质管理试样中提取DNA(图19的步骤S300)。
这种情况下,对试样来源的DNA、和品质管理试样来源的DNA,分别进行步骤S301和此后的处理。
对于由品质管理试样提取的DNA,进行与由试样提取的DNA相同的处理,从而可以生成对于评价面板检查中的序列分析品质而言有用的品质评价指标。
需要说明的是,品质管理试样的利用方法不限于此。例如,可以如图20所示那样在步骤S300a中仅提取品质管理试样的DNA、并且进行步骤S301和此后的处理。
或者,可以如图21所示那样准备包含变异的品质管理试样和不含变异的品质管理试样作为品质管理试样、并且由这些提取DNA(步骤S300b)。
通过比较包含变异的品质管理试样来源的DNA的分析结果和不含变异的品质管理试样来源的DNA的分析结果,可以生成对于评价面板检查中的序列分析的品质而言有用的品质评价指标。
或者,可以如图22所示那样由包含分析对象基因的试样、包含变异的品质管理试样、和不含变异的品质管理试样提取DNA(步骤S300c)。
包含分析对象基因的试样可以是血液试样与组织(例如肿瘤细胞)试样的组合。这种情况下,对于1个被检者,将包含由组织提取的核酸的试样、和包含由血液提取的核酸的试样作为不同的试样供于测序。
需要说明的是,步骤S301以后的处理中,不分别对试样来源的DNA和品质管理试样来源的DNA进行处理、而是将试样来源的DNA和品质管理试样来源的DNA混合而进行步骤S301以后的处理。从而,步骤S301以后的全部处理中,两者的条件相同,因此可生成更准确的品质评价指标。另外,变得没有必要仅为了由品质管理试样制备的DNA片段而使用在测序仪2中使用的流动池的泳道的一部分。由此,可将数量有限的泳道有效用于包含分析对象基因的试样来源的DNA片段。
需要说明的是,这种情况下,期望利用:(1)用于将品质管理试样中所含的基因、即标准基因和面板检查的分析对象基因适当地片段化而制备文库的试剂、和(2)包含在将品质管理试样中所含的标准基因和面板检查的分析对象基因片段化后、用于适当地捕捉各自的DNA片段的RNA诱饵的试剂。
<品质管理试样>
一实施方式中,品质管理试样为包含多个标准基因的组合物。品质管理试样可通过将多个标准基因混合而制备。将这些标准基因混合并收容在一个容器中而成的试剂,可以作为品质管理试样提供给检查机构120。另外,作为品质管理试样,可以将多个标准基因收容在各容器中而以试剂盒的方式提供给检查机构120。品质管理试样可以是溶液的状态,也可以是固体(粉末)的状态。作为以溶液形式提供时的溶剂,可以使用水、TE缓冲液等本领域技术人员公知的水性溶剂。
使用图23说明品质管理试样。图23是说明品质管理试样的一例的图。
图23的(a)示出在使用基因面板的面板检查中可成为分析对象的的基因的列表。该列表中的1或多个基因作为基因面板的分析对象基因而建立关联(参照图13的数据121B)。
图23的(b)和(c)示出在面板检查中成为检测对象的变异类型的例子。作为成为检测对象的变异类型,示出“SNV(单核苷酸多态性)”、“Insertion(插入)”和“Deletion(缺失)”(图中记作“InDel”)、“CNV(拷贝数多态性)”、和“Fusion(融合)”。
对应于基因面板A的品质管理试样A1中,包括包含SNV的标准基因、包含Insertion的标准基因、包含Deletion的标准基因、包含CNV的标准基因、和包含Fusion的标准基因中的至少2种。例如,品质管理试样A1中,作为标准基因包含:相对于野生型包含“SNV”的基因A的部分序列和相对于野生型包含“Insertion”的基因B的部分序列。
图23的(d)是使用基因面板A的基因检查的分析结果和品质管理试样的分析结果的输出例。该例中,作为基因面板A的分析结果,检测到GNA11、AKT1和PIK3CA的SNV、EGFR的Long insertion和Long deletion、SLC34A2与ROS1的融合基因、CCDC6与RET的融合基因、MET的基因扩增、MYC-N的基因扩增、和MYC-C的基因扩增。基因面板A的品质管理试样含有包含GNA11的SNV的标准基因、包含AKT1的SNV的标准基因、包含PIK3CA的SNV的标准基因、包含EGFR的Long insertion的标准基因、包含EGFR的Long deletion的标准基因、包含SLC34A2与ROS1的融合序列的标准基因、包含CCDC6与RET的融合序列的标准基因、包含MET的基因扩增的标准基因、包含MYC-N的基因扩增的标准基因、和包含MYC-C的基因扩增的标准基因。这里,示出了品质管理试样包含10种标准基因的例子,但不限于此。
品质管理试样中所含的第1标准基因和第2标准基因可以是不同的DNA分子,这些可以相连。在第1标准基因与第2标准基因相连的情况下,第1标准基因的序列与第2标准基因的序列可以直接相连,也可以在第1标准基因的序列与第2标准基因的序列之间夹着间隔序列。
该间隔序列优选在供于基因检查的试样中包含该间隔序列的可能性低的序列。例如,可以是仅多个(例如,100个)腺嘌呤碱基连续而成的序列。
标准基因可以是分析对象的基因面板中包含的基因,也可以是其中不包含的基因。既可以是成为基因检查的对象的同种属的基因,也可以是不同种属的基因。例如,在基因检查的对象为人的情况下,可以是人以外的动物、植物、细菌等的基因。
标准基因的合成方法没有特别限定。例如,可以用公知的DNA合成机来合成。另外,也可以通过PCR对成为模板的生物来源的基因进行扩增并纯化来取得。还可以以DNA合成机所合成的标准基因为模板进行PCR扩增并纯化来取得。
标准基因的长度没有特别限定。例如,标准基因的长度可以是50核苷酸以上。在用PCR扩增的情况下,2000核苷酸以内均可简便地扩增,是优选的。在用DNA合成机合成的情况下,数kbp以内均可合成。
品质管理试样中的标准基因的浓度没有特别限定。例如,可以设为与试样中的DNA浓度为同等程度。
品质管理试样中的标准基因可以是单链,也可以是双链。另外,可以是直链状,也可以是环状。
例如,(1)制备包含置换变异的标准基因,(2)制备包含融合变异的标准基因,(3)将品质管理试样和试样混合,从而制备序列分析用材料。然后,(4)将序列分析用试样中的试样来源的基因组DNA和标准基因供于前处理(片段化、DNA浓缩、使用标牌引物的PCR扩增等)和序列分析,取得靶基因的序列信息。在序列分析时,取得用于品质管理的指标,基因标准DNA分子的序列分析的指标评价靶基因的分析结果的品质。操作者可以基于该品质评价的结果判断分析对象基因的分析结果的可靠性。
需要说明的是,上述例子中,在(3)中,品质管理试样和被检者来源的试样是混合的,但不限于此。例如,可以不将品质管理试样与试样混合,而是分别供于(4)的序列分析。
另外,在重复进行使用同一基因面板的面板检查的情况下,可以重复使用同一品质管理试样。如图24的数据121D所示,可以作为对应于各基因面板的品质管理试样,而准备多个各品质管理试样中所含的标准基因和变异类型不同的多种品质管理试样。
通过将标准基因的组合不同的多个品质管理试样分别用于每次面板检查、每周、每月,从而品质管理部117可以通过检测更多样的标准基因的变异来生成用于在面板检查中评价检测变异的处理的品质的品质评价指标。从而,面板检查的品质管理的包罗性提高。
例如,将作为对应于基因面板A的品质管理试样的品质管理试样A和品质管理试样B示于图25。品质管理试样A中所含的标准基因a1、标准基因a2、标准基因a3在品质管理试样B中分别变更为标准基因b1、标准基因b2、标准基因b3。
<片段化>
然后,如图26的(a)所示,将试样(试样来源的基因组DNA和/或标准基因)片段化成用于利用测序仪2读取序列的长度(图19~图22的步骤S301)。试样DNA的片段化例如可以通过超声波处理、利用将核酸片段化的试剂进行的处理等公知的方法来进行。得到的DNA片段(核酸片段)可以为例如数十至数百bp的长度。在使用Illumina公司的测序仪进行测序时,适宜为例如150~200bp的DNA片段。
<衔接序列的赋予>
接下来,如图26的(b)所示,在步骤S301中得到的DNA片段的两端(3′末端和5′末端)赋予对应于所使用的测序仪2的种类、测序方案的衔接序列(图19~图22的步骤S302)。其中,测序仪2为Illumina公司的测序仪、或采用与Illumina公司的测序仪同样方式的装置时,本工序为必需工序,在使用其它种类的测序仪2时,本工序有时可以省略。
衔接序列是为了在后续工序中执行测序而使用的序列,一实施方式中,在桥式PCR(Bridge PCR)法中,可以是用于与固定化于流动池的作为捕捉分子的寡DNA杂交的序列。
一实施方式中,如图26的(b)的上段所示,可以在DNA片段的两端直接添加衔接序列(例如,图26中的衔接1序列和衔接2序列)。在添加的衔接1序列和衔接2序列的至少一侧包含与后续的测序中利用的测序引物的序列相同的序列。需要说明的是,衔接1序列和衔接2序列可以是相同的碱基序列。
可以使用该领域中公知的方法对DNA片段添加衔接序列。例如,对DNA片段,使用包含分析对象基因的序列和衔接序列的PCR引物进行PCR反应,从而可以添加衔接序列。或者,可以将DNA片段平滑化,并连接衔接序列。
<DNA片段的浓缩>
然后,如图27所示,使生物素化RNA诱饵文库与赋予了衔接序列的DNA片段杂交(图19~图22的步骤S303)。
生物素化RNA诱饵文库由与分析对象基因杂交的生物素化RNA(以下称为RNA诱饵。)构成。RNA诱饵的长度是任意的,例如可以为了提高特异性而使用120bp程度的长寡RNA诱饵。
需要说明的是,本实施方式中的使用测序仪2的面板检查可以是以特定基因作为分析对象基因的检查,也可以是以多个基因(例如100个以上)作为分析对象基因的检查。
面板检查所使用的试剂中,包含分别对应于该多个基因的RNA诱饵组。如果面板不同,则检查对象基因的数量和种类不同,因此面板检查所使用的试剂中所含的RNA诱饵组也不同。在使用不同于分析对象基因的基因作为标准基因时,还需要准备与标准基因结合的诱饵。
然后,如图28所示,回收成为分析对象的DNA片段(图19~图22的步骤S304)。详细而言,如图28的上段所示,相对于与生物素化RNA诱饵文库杂交的DNA片段,混合由链霉亲和素和磁珠结合而成的链霉亲和素磁珠。
从而,如图28的中段所示,链霉亲和素磁珠的链霉亲和素部分与RNA诱饵的生物素部分结合。并且,如图28的下段所示,用磁体对链霉亲和素磁珠进行聚磁(日语:集磁),并且通过洗涤来除去未与RNA诱饵杂交的片段(即,非分析对象的基因的DNA片段)。
从而,可以选择性地回收·浓缩与RNA诱饵杂交的DNA片段、即成为分析对象的DNA片段。通过对每个试样进行该处理,可制备各试样的文库(参照图60的工序I)。
(测定试样的制备)
在同时分析多个被检者的基因的碱基序列时,将多个试样的文库混合而制备注入到流动池的测定试样(参照图60的工序II)。通过测序而读取的碱基序列的序列信息中,来自多个被检者的试样来源的DNA的序列信息混杂在一起。因此,在测序前,在由被检者来源的试样制备的DNA片段上添加索引序列。
<索引序列的赋予>
为了能够从多个被检者来源的试样的DNA的序列信息中区分每个被检者或每个试样的碱基序列,而对每个文库添加不同的索引序列。图29是说明制备要注入流动池的测定试样的步骤的一例的流程图。
在图29的步骤S304a中,在由被检者来源的试样制备的DNA片段上添加索引序列。此时,对注入到同一流动池的测定试样中混合存在的各被检者来源的基因文库,添加彼此不同的索引序列。
从而,可以基于所添加的索引序列的碱基序列,来相互区别与不同的被检者来源的试样的基因有关的碱基序列的序列信息。另外,不是分析对象的核酸(例如不是被检者来源的基因、品质管理试样来源的基因等)上不添加索引序列,从而还能够仅将被检者来源的试样的碱基序列的序列信息作为分析对象。
可以使用该领域中公知的方法向DNA片段添加索引序列。例如,使用安捷伦公司的SureSelect XT的情况下,可使用包含索引序列的PCR引物对图22的步骤S304中回收的DNA片段进行PCR反应,从而在DNA片段上添加索引序列。
需要说明的是,在图29中,列举对图22的步骤S304中回收的DNA片段添加索引序列的情况作为例子,但不限于此。索引序列的添加也可以在图22的步骤S304之前进行。例如,使用安捷伦公司的SureSelect XT2的情况下,可以在图22的步骤S302的阶段使用包含索引序列的PCR引物进行PCR反应,从而在DNA片段上添加索引序列。
或者,可以配合衔接序列向DNA片段的添加而添加索引序列。例如,可以对DNA片段使用包含分析对象基因的序列、索引序列、和衔接序列的PCR引物进行PCR反应,从而添加索引序列。
<测定试样片>
然后,在图29的步骤S304b中,将多个添加索引序列后的由被检者来源的试样制备的文库混合,从而制备测定试样。
测定试样的制备中,制作使试样ID与各试样的文库上所添加的索引序列和索引序列ID建立关联的测定试样片,并进行管理。图30是示出制备供于测序的测定试样时制作的测定试样片的一例的图。
测定试样片可以包含:测定试样中所含的全部试样文库所共通的设定信息、和测定试样中所含的各试样的文库的个性化的试样信息。如图30所示,设定信息可以包含:“测序实施日”、测序仪2的操作者的ID即“操作者ID”、分批给每次检查的ID即“会话ID”、和测序仪2所使用的应用的类型等。
另外,设定信息可以包含与制备测定试样时使用的试样文库的制备方法有关的信息、即“试样基因”。“试样基因”一栏可记入例如“PCR产物”或“扩增子等。
进一步地,设定信息可包含:测序仪2所读取的碱基序列的长度的设定值即“读长序列的长度”、与衔接1序列和衔接2序列有关的信息等。其中,读长序列是指:通过利用测序仪2的测序而读取的碱基序列。
如图30所示,对于流动池的每个“泳道编号”而言,试样信息可包含:“试样ID”、“被检者ID”、试样上所添加的索引序列的“索引序列ID”和该索引序列的碱基序列即“索引序列”等。
就测定试样片而言,可以是下述构成:图2的测序仪2或辅助装置2a取得由操作者输入的测定试样片,也可以是下述构成:操作者由图3的信息处理装置1的输入部17输入。
<测定试样的制备方法>
这里,使用图31~33说明某情况下的试样制备方法。需要说明的是,图31~33中,列举供于1次测序运行的测定试样中所含的推荐的试样数量为8的情况作为例子来进行说明。
图31是说明通过将多个由成为分析对象的被检者来源的试样制备的文库混合而制备测定试样的方法的图。如图所示,在分析对象的被检者来源的试样的数量为推荐的试样数量时,可以如图31所示将这些混合而制备测定试样。
从而,测定试样是按照下述方式制备的:将由推荐数量的被检者来源的试样制备的文库混合,从而达到预先规定的核酸量。其中,“预先规定的核酸量”是指:根据与测序仪2匹配的流动池的规格、和基因面板中所含的引物和探针等的量而推荐的核酸量。其中,核酸量是指核酸的摩尔数。
核酸的摩尔浓度例如可以通过260nm下的吸光度、DNA片段的分子量、和核酸的摩尔比吸光系数算出。在图29的步骤S304a中,将进行用于添加索引序列的PCR反应后的PCR产物纯化之后,测定260nm处的吸光度。由测得的吸光度和摩尔比吸光系数算出PCR产物的浓度(例如ng/μl)。
例如,在作为PCR产物而得到的文库的长度为100bp、浓度为x(ng/μl)时,使用330作为脱氧核糖核苷酸的平均分子量,则PCR产物的摩尔浓度由x/33(pmol/μl)算出。在混合预先规定的量(例如y(pmol))的该文库的核酸时,可以使用自动移液器(auto pipette)等将33×x/y(μl)用于测定试样的制备。
成为分析对象的被检者来源的试样数量不足时,即使以分析对象的被检者来源的试样的数量为推荐的试样数量时所使用的量相同的量来混合由被检者来源的试样制备的文库,测定试样的核酸量也达不到预先规定的核酸量。而如果通过增加或减少由被检者来源的试样制备的文库的量、使其达到预先规定的核酸量的方式来制备测定试样,则由每1试样取得的序列信息的数据量在每次测序运行中会发生改变。
因此,期望的是,即使成为分析对象的被检者来源的试样数量不足,也以分析对象的被检者来源的试样的数量为推荐的试样数量时所使用的量相同的量来混合由被检者来源的试样制备的文库、并且使测定试样的核酸量为预先规定的核酸量。使用图32和33,对此种测定试样的制备方法进行说明。
图32是说明成为分析对象的被检者来源的试样数量不足时的测定试样的制备方法的一例的图。如图所示,当分析对象的被检者来源的试样的数量少于推荐的试样数量时,可以使用赋予了衔接序列的、不是被检者来源的核酸来将不足部分补足,从而制备测定试样。需要说明的是,期望测定试样中所含的1试样来源的核酸的量的偏差在±10%的范围内。
这种情况下,测定试样中所含的不是被检者来源的核酸的量可以至少为与测定试样中所含的每1试样的核酸的量相当的量或更多。作为不是被检者来源的核酸,可列举Illumina公司提供的“PhiX DNA”等,但不限于此。例如,也可以使用在基因面板的品质管理试样的核酸等上添加衔接序列而成的序列。需要说明的是,为了不妨碍测序仪2读取碱基序列,相较于含有较多的相同碱基序列的核酸的低多样性核酸(即,序列的多样性低的核酸),碱基序列多样化的核酸混杂而成的高多样性核酸(即,序列的多样性高的核酸)更为理想。
或者,分析对象的被检者来源的试样的数量少于推荐的试样数量时,可以如图33所示那样使用分析后(即,此次不作为分析对象)的由被检者来源的试样制备的文库作为替代,从而制备测定试样。需要说明的是,作为分析后的由被检者来源的试样制备的文库,使用所添加的索引序列与为了制备测定试样而混合的、分析对象的由被检者来源的试样制备的文库上所添加的任一索引序列均不同的文库。
例如,在分析对象的由被检者来源的试样制备的文库上添加有第1索引序列时,可以使用添加有不同于第1索引序列的第2索引序列的、分析后的由被检者来源的试样制备的文库来制备测定试样。
需要说明的是,这种情况下,期望测定试样中所含的1试样来源的核酸的量的偏差在±10%的范围内。测定试样中所含的分析后的被检者来源的核酸的量可以为至少与测定试样中所含的每1试样的核酸量相当的量或更多。
如果利用图32和图33所示的方法制备测定试样,则测定试样中的由被检者来源的试样制备的各文库的量不会改变,由每1试样取得的序列信息的数据量在每次测序运行中不变。即,即使某次测序运行中成为分析对象的第一被检者组的被检者数量与另一次测序运行中成为分析对象的第二被检者组的被检者数量不同,也根据第一被检者组的被检者数量与第二被检者组的被检者数量之差来改变、调节测定试样中的不是被检者来源的核酸量即可。
(利用测序仪2进行的读长序列的读取)
接下来,适当参照图35~图37并沿着图34所示的流程说明图18的步骤S32的步骤。图34是说明利用测序仪2来分析试样DNA的碱基序列的步骤的一例的流程图。
如图35的左栏至中央栏所示,从浓缩后的DNA片段中除去链霉亲和素磁珠和RNA诱饵,利用PCR法扩增,从而完成前处理。其中,可以使用包含索引序列的PCR引物对扩增后的DNA片段进行PCR反应,从而在DNA片段上添加索引序列。
需要说明的是,图35中示出在DNA片段的5’末端侧和3′末端侧这两侧添加有索引序列的例子,但不限于此。索引序列也可以仅添加在DNA片段的5’末端侧或仅添加在3’末端侧。
然后,如图35的右栏所示,将通过图31~33所示的方法制备的测定试样注入流动池(图34的步骤S305)。注入到流动池中的测定试样中,添加有衔接序列和索引序列的核酸与仅添加了衔接序列的核酸混杂在一起。
接下来,如图36所示,在流动池上利用桥式PCR法扩增成为分析对象的DNA片段(图34的步骤S306)。
即,成为分析对象的DNA片段(例如图36中的Template DNA)由于上述前处理而为在两末端添加有两种不同的衔接序列(例如图36中的衔接1序列和衔接2序列)的状态(图36的“1”),使该该DNA片段形成单链,使5’末端侧的衔接1序列固定在流动池上(图36的“2”)。
流动池上预先固定有5’末端侧的衔接2序列,通过DNA片段的3’末端侧的衔接2序列与流动池上的5’末端侧的衔接2序列结合而形成桥的状态,从而形成桥(图36的“3”)。
在该状态下利用DNA聚合酶进行DNA延伸反应(图36的“4”),变性,从而得到2条单链DNA片段(图36的“5”)。
通过依次反复进行这样的桥形成、DNA延伸反应和变性,可以使多个单链DNA片段在局部进行扩增、固定而形成簇(图36的“6”~“10”)。
然后,如图37所示,以形成簇的单链DNA为模板,通过Sequencing-by-synthesis来读取序列(图34的步骤S307)。
首先,对固定在流动池上的单链DNA(图37的上段左栏)添加DNA聚合酶和经荧光标记的3’末端侧封闭的dNTP(图37的上段中央栏),再添加测序引物(图37的上段右栏)。
测序引物例如按照与衔接序列的一部分进行杂交的方式而设计。换言之,测序引物可以按照对试样DNA来源的DNA片段进行扩增的方式而设计,在添加有索引序列时,进一步可以按照对索引序列进行扩增的方式而设计。
添加测序引物后,利用DNA聚合酶进行3’末端封闭荧光dNTP的1碱基延伸反应。由于使用了3’末端侧被封闭的dNTP,因此当延伸1碱基时,聚合酶反应即停止。然后除去DNA聚合酶(图37的中段右栏),对1碱基延伸后的单链DNA(图37的下段右栏),利用激光使碱基上结合的荧光物质激发,以照片形式记录此时产生的发光(图37的下段左栏)。
关于照片,使用荧光显微镜,边变更滤光片以确定4种碱基边拍摄分别对应于A、C、G、T的荧光色而拍摄。在拍摄完所有的照片后,由照片数据确定碱基。然后除去荧光物质和封闭3’末端侧的保护基,进入下一次聚合酶反应。将该流程作为1周期,重复进行第2周期、第3周期,从而可以对全长进行测序。
根据以上的方法,可分析的链长达到150碱基×2,能够以远远小于皮量滴定板的单位进行分析,因此通过高密度化可在1次分析中获得40~200Gb的数量庞大的序列信息。
(基因面板)
关于利用测序仪2读取读长序列时所使用的基因面板,如上所述为用于在一次运行中分析多个分析对象的分析试剂盒,一实施方式中,可以是用于分析多个疾病相关的多个基因序列的分析试剂盒。
在本说明书中使用时,用语“试剂盒”是指具备内包特定的材料的容器(例如,瓶、板、管、皿等)的包装。优选具备用于使用各材料的指示书。在本说明书中,在试剂盒的方面使用时,“具备(具备有)”是指内包在构成试剂盒的各容器之任一者之中的状态。另外,试剂盒可以为将多个不同的组合物捆包为1个的包装、其中,组合物的形态可以为上述的形态、溶液形态时也可内包在容器中。
试剂盒可以以在同一容器中混合的方式具备物质A和物质B,也可在不同容器中具备物质A和物质B。在“指示书”中,显示将试剂盒中的各构成应用于治疗和/或诊断的步骤。需要说明的是,“指示书”可书写或印刷在纸或其他介质上,或者也可附在磁带、计算机可读取的盘或带、CD-ROM之类的电子介质。试剂盒还可具备内包稀释剂、溶剂、洗涤液或其它试剂的容器。另外,试剂盒也可一并具备为了应用于治疗和/或诊断而需要的器具。
一实施方式中,基因面板也可具备上述品质管理试样、使核酸片段化的试剂、连接用试剂、洗涤液、PCR试剂(dNTP、DNA聚合酶等)等试剂、和磁性珠中的一者以上。另外,基因面板也可具备用于向片段化的DNA添加衔接序列的寡核苷酸、用于向片段化的DNA添加索引序列的寡核苷酸、RNA诱饵文库等中的一者以上。
需要说明的是,各基因面板所具备的索引序列可以为该基因面板固有的、用于识别该基因面板的序列。另外,各基因面板所具备的RNA诱饵文库可以为包含对应于该基因面板的各检查基因的RNA诱饵的、所述基因面板固有的文库。
(基于测定试样片的信息的、信息处理装置1的控制)在操作者由信息处理装置1的输入部17输入图30所示的测定试样片中所含的各信息的情况下,信息选择部112将所输入的信息提供给数据调整部113、变异鉴定部114、药剂检索部118、和报告制作部115中的至少任一者。
从而,信息处理装置1可以基于测定试样片的试样信息而仅选择性地分析测序仪2所取得的全部序列信息中的、添加有规定的索引序列的被检者来源的试样的基因的序列信息。
使用图38和图39说明基于测定试样片的信息的、信息处理装置1的控制。图38是示出通过图32所示的方法制备测定试样时的信息处理装置的处理流程的一例的流程图。图39是示出通过图33所示的方法制备测定试样时的信息处理装置的处理流程的一例的流程图。
通过图32所示的方法制备测定试样时,被检者来源的核酸上被添加衔接序列和索引序列,而不是被检者来源的核酸上仅添加衔接序列。
例如,前述的Illumina公司提供的Phi X上已连接了衔接序列,可以适宜地作为不是被检者来源的核酸来使用。
信息处理装置1中,对于测定试样片,如果是与索引序列建立关联的序列信息(即,包含索引序列的序列信息)(步骤S51a中为YES)则进行分析(步骤S52),如果不是与索引序列建立关联的序列信息(步骤S51a中为NO)则不进行对与索引序列建立关联的序列信息所进行的分析中的至少一部分分析(步骤S53)。即,信息处理装置1中,对测序仪2所取得的全部序列信息中的、添加有索引序列的文库的核酸的序列信息选择性地进行图6所示的步骤S109以后的处理,对于未添加索引序列的核酸的序列信息,不进行图6所示的步骤S109以后的处理。
或者,在通过图33所示的方法制备测定试样时,在分析后的被检者来源的核酸上,添加不同于对成为分析对象的被检者来源的核酸所添加的索引序列的索引序列。这里,为了明确而将成为分析对象的被检者来源的核酸上所添加的索引序列记作“第1索引序列”。
信息处理装置1中,对于测定试样片,如果是与索引序列建立关联的序列信息(步骤S51a中为YES)则进入步骤S51b,如果不是与索引序列建立关联的序列信息(步骤S51a中为NO)则进入步骤S53。
步骤S51b中,信息处理装置1参照测定试样片,如果是与由分析对象的试样制备的核酸上所添加的第1索引序列建立关联的序列信息(步骤S51b中为YES)则进行分析(步骤S52)。另一方面,如果不是与第1索引序列建立关联的序列信息(步骤S51a中为NO),则不进行对与索引序列建立关联的序列信息所进行的分析的至少一部分分析(步骤S53)。即,信息处理装置1对于测序仪2所取得的全部序列信息中的、添加有第1索引序列的文库的核酸的碱基序列数据选择性地进行图6所示的步骤S109和此后的处理,对于未添加第1索引序列的文库的核酸的碱基序列数据,不进行图6所示的步骤S109和此后的处理。
通过如此构成,信息处理装置1可以仅对成为分析对象的试样的碱基序列有效地进行分析。
(序列数据读取部111、数据调整部113、变异鉴定部114)
接下来,适当参照图41~图46并沿着图40所示的处理流程来说明分析执行部110的序列数据读取部111、数据调整部113、和变异鉴定部114的处理。
图40是说明由信息处理装置1进行的分析流程的一例的流程图。需要说明的是,图40所示的处理对应于图6所示的步骤S109。
<序列数据读取部111>
首先,图40的步骤S10中,序列数据读取部111取得由测序仪2提供的序列信息,基于索引序列对每个试样制作文件、将序列信息分类。对于包含索引序列的序列信息,对每一索引序列制作不同的文件,对于不含索引序列的序列信息则制作与对每个索引序列所制作的文件不同的文件。
序列信息是表示测序仪2所读取的碱基序列的数据。测序仪2对使用特定的基因面板得到的多个核酸片段进行测序,读取它们的序列信息来作为序列信息,并提供给信息处理装置1。
序列数据读取部111可以取得从核酸序列的外显子区域读取的序列信息,可以取得从至少10Mb(1000万碱基)以上的外显子区域读取的序列信息。
然后,步骤S11中,序列数据读取部111读入存储于成为分析对象的序列信息的文件的序列信息。
一实施方式中,序列信息中,与所读取的序列一起包含有序列中的各碱基的品质评分。另外,将由被检者的病变部位采集的FFPE试样供于测序仪2而得到的序列信息和将该被检者的血液试样供于测序仪2而得到的序列信息这两者输入到信息处理装置1中。
图41是示出成为分析对象的序列信息被输出到信息处理装置1时的文件格式的一例的图。图41所示的例子中,序列信息中包含序列名、序列、和品质评分。序列名可以是赋予给由测序仪2输出的序列信息的序列ID等。序列表示测序仪2所读取的碱基序列。品质评分表示测序仪2未正确进行碱基配比的概率。任意碱基的测序品质评分(Q)由下式来示出。
Q=-10log10E
该式中,E表示未正确进行碱基配比的概率的推断值。Q值越高意味着错误的概率越低。Q值越低,则其读长中不可用的部分越变大。
另外,假阳性的变异配比也增加,有结果的精度下降之虞。需要说明的是,“假阳性”是指:读长序列中不具有成为判定对象的真正变异,却被判定为有变异。
需要说明的是,“阳性”是指:读长序列中具有成为判定对象的真正变异,“阴性”是指:读长序列中不具有成为对象的变异。例如,如果品质评分为20,则意味着错误的概率为百分之一,因此所读取的基因序列中的各碱基的正确度(也称为“碱基响应精度”)为99%。
<数据调整部113>
接下来,图40的步骤S12中,数据调整部113基于序列数据读取部111所读入的序列信息而执行序列信息中所含的各核酸片段的碱基序列的比对。
图42的(a)是说明数据调整部113所进行的比对的图。数据调整部113参照存储于参照序列数据库122的参照序列,将各核酸片段的读长序列相对于应作为序列信息的比较对象的参照序列作图,从而执行比对。一实施方式中,参照序列数据库122中存储有多种对应于各分析对象基因的参照序列。
另外,数据调整部113对将从被检者的病变部位采集的FFPE试样供于测序仪2而得到的序列信息和将该被检者的血液试样供于测序仪2而得到的序列信息这两者执行比对。
图42的(b)是示出数据调整部113的比对结果的格式的一例的图。比对结果的格式只要可分别确定读长序列、参照序列和作图位置则没有特别限定,如图42的(b)所示,可以包含参照序列信息、读长序列名、位置信息、图谱品质和序列。
参照序列信息是表示参照序列数据库122中的参照序列名(参照序列ID)、参照序列的序列长等的信息。读长序列名是表示成为比对对象的各读长序列的名称(读长序列ID)的信息。位置信息是表示读长序列的最左侧碱基被作图的、在参照序列上的位置(Leftmostmapping position)的信息。图谱品质是表示对应于该读长序列的作图品质的信息。序列是表示对应于各读长序列的碱基序列(例:…GTAAGGCACGTCATA…)的信息。
图43是示出参照序列数据库122的结构例的图。如图43所示,参照序列数据库122中存储有:表示野生型的序列的参照序列(例如染色体#1~23的基因组序列)和相对于野生型的序列整合了已知的变异的参照序列。
进一步地,对参照序列数据库122中的各参照序列分批表示与基因面板有关的信息的元数据。赋予给各参照序列的与基因面板有关的信息例如可以是直接或间接表示各参照序列所对应的分析对象基因的数据。
一实施方式中,信息选择部112按照下述方式进行控制:数据调整部113由参照序列数据库122取得参照序列时,参照所输入的与基因面板有关的信息和各参照序列的元数据来选择对应于该与基因面板有关的信息的参照序列。
例如,一实施方式中,信息选择部112可以控制数据调整部113,使得选择对应于由所输入的、与基因面板有关的信息确定的分析对象基因的参照序列。从而,数据调整部113可以仅对所使用的基因面板的相关参照序列进行作图,因此可以提高分析的效率。
另外,另一实施方式中,信息选择部112可以不进行上述控制。这种情况下,如后所述,信息选择部112可以控制变异鉴定部114或报告制作部115。
图44是示出整合于参照序列数据库122中所含的参照序列(不是表示野生型序列的序列)中的已知的变异的例子的图。已知的变异是登录在外部的数据库(例如COSMIC、ClinVar等)中的基因变异,如图33所示,确定了染色体位置、基因名和变异。在图33的例子中,虽然确定了氨基酸变异,但未确定核酸变异。变异类型没有特别限定,可以是置换、插入、缺失等各种变异,也可以是结合有其它染色体的部分序列或反向互补序列的变异。
图45是说明图40的步骤S12中的比对的详细工序的一例的流程图。一实施方式中,图40的步骤S12中的比对通过图45所示的步骤S401~S205而执行。
图45的步骤S401中,数据调整部113选择序列数据读取部111所取得的序列信息中包含的各核酸片段的读长序列中的、尚未进行比对的序列,与由参照序列数据库122中取得的参照序列进行比较。然后,步骤S402中,数据调整部113确定与读长序列的一致度满足规定的基准的、参照序列上的位置。其中,一致度是表示所取得的序列信息与参照序列一致到何种程度的值,可列举例如一致的碱基的数量、比例等作为一例。
一实施方式中,数据调整部113算出表示读长序列与参照序列的一致度的评分。表示一致度的评分例如可以设为2个序列间的同一性的百分率(percentage identity)。数据调整部113例如确定读长序列的碱基与参照序列的碱基达到同一的位置的数量,求出一致的位置的数量,将一致的位置的数量除以与参照序列比较而得的读长序列的碱基数(比较窗的碱基数),从而算出百分率。
图46的(a)是示出评分计算的一例的图。一实施方式中,在图46的(a)所示的位置,读长序列R1与参照序列的一致度的评分由于读长序列13碱基中13碱基一致而成为100%,读长序列R2与参照序列的一致度的评分由于读长序列13碱基中12碱基一致而成为92.3%。
另外,数据调整部113在表示读长序列与参照序列的一致度的评分的计算中,在读长序列相对于参照序列包含规定的变异(例如,插入·缺失(InDel:Insertion/Deletion))时,也可以赋予比通常的计算低的评分而进行计算。
一实施方式中,对于读长序列相对于参照序列包含插入和缺失中的至少一者的序列,数据调整部113也可以通过例如用如上所述的通常计算算出的评分乘以根据对应于插入·缺失的碱基数的加权系数来修正评分。加权系数W也可以例如用W={1-(1/100)×(对应于插入·缺失的碱基数)}来计算。
图46的(b)是示出评分计算的另一例的图。一实施方式中,在图46的(b)中所示的位置,读长序列R3与参照序列的一致度的评分在通常计算中会由于读长序列17碱基(将表示缺失的*也作为一碱基来进行计算)中15碱基一致而成为88%,修正后的评分成为88%×0.98=86%。另外,读长序列R4与参照序列的一致度的评分在通常计算中会由于读长序列21碱基中17碱基一致而成为81%,修正后的评分成为81%×0.96=77.8%。
数据调整部113通过边改变读长序列相对于各参照序列的作图位置边算出一致度的评分,来确定与读长序列的一致度满足规定的基准的参照序列上的位置。此时,也可使用动态规划法、FASTA法、BLAST法等该领域中公知的算法。
回到图45,接下来,数据调整部113在与读长序列的一致度满足规定的基准的参照序列上的位置是单一的位置时(步骤S403中为NO),使读长序列与该位置比对,在与读长序列的一致度满足规定的基准的参照序列上的位置是多个位置时(步骤S403中为YES),数据调整部113使读长序列与一致度最高的位置比对(步骤S404)。
并且,在数据调整部113不对序列数据读取部111所取得的序列信息中所含的全部读长序列进行比对时(步骤S405中为NO),回到步骤S401,在比对序列信息中所含的全部读长序列时(步骤S405中为YES),结束步骤S12的处理。
<变异鉴定部114>
接下来,回到图40,步骤S13中,变异鉴定部114对于与供给由被检者的病变部位采集的试样而得到的读长序列进行比对的参照序列的序列(比对序列)、和与供给该被检者的血液试样而得到的读长序列进行比对的参照序列的序列进行比较。
然后,图40的步骤S14中,提取两比对序列间的差异,作为变异(变异提取处理)。例如,如果同一分析对象基因的同一位置的血液试样来源的比对序列为ATCGA、而肿瘤组织来源的比对序列为ATCCA,则变异鉴定部114提取G和C差异,作为变异。
一实施方式中,变异鉴定部114基于所提取的基因变异生成结果文件。图47是示出变异鉴定部114所生成的结果文件的格式的一例的图。该格式例如可以基于Variant CallFormat(VCF)。
如图47所示,结果文件中,对于所提取的每个基因变异,记载位置信息、参照碱基和变异碱基。位置信息表示参照基因组上的位置,例如包含染色体号和该染色体上的位置。参照碱基表示位于上述位置信息所示的位置处的参照碱基(A,T,C,G等)。变异碱基表示参照碱基的变异后的碱基。参照碱基为血液试样来源的比对序列上的碱基,变异碱基为肿瘤组织来源的比对序列上的碱基。
需要说明的是,图47中,参照碱基为C、变异碱基为G的变异为置换变异的例子,参照碱基为C、变异碱基为CTAG的变异为插入(Insertion)变异的例子,参照碱基为TCG、变异碱基为T的变异为缺失(Deletion)变异的例子。另外,变异碱基为G]17:198982]、]13:123456]T、C[2:321682[、或、[17:198983[A的变异是结合有其它染色体的部分序列或反向互补序列的变异的例子。
回到图40,接下来,步骤S15中,变异鉴定部114检索变异数据库123。然后,步骤S16中,变异鉴定部114参照变异数据库123的变异信息对结果文件中所含的变异赋予注释,从而鉴定变异。
图48是示出变异数据库123的结构的一例的图。变异数据库123例如基于COSMIC、ClinVar等外部数据库而构建。另外,一实施方式中,数据库中的各变异信息中被赋予与基因面板有关的信息的相关元数据。图48所示的例子中,数据库中的各变异信息被赋予作为元数据的分析对象基因的基因ID。
图49是示出变异数据库123中的变异信息的结构的详细例的图。如图49所示,一实施方式中,变异数据库123中所含的变异信息中可包含变异ID、变异的位置信息(例如“CHROM”、和“POS”)、“REF”、“ALT”、“Annotation”。变异ID是用于识别变异的识别码。
变异的位置信息中,“CHROM”表示染色体号,“POS”表示染色体号上的位置。“REF”表示野生型(Wild type)中的碱基,“ALT”表示变异后的碱基。“Annotation”表示变异的有关信息。“Annotation”例如可以是“EGFR C2573G”、“EGFR L858R”之类的表示氨基酸变异的信息。例如,“EGFR C2573G”表示蛋白质“EGFR”的第2573残基的半胱氨酸被置换为甘氨酸的变异。
如上述的例子所示,变异信息的“Annotation”可以是用于将表示基于碱基信息的变异变换为基于氨基酸信息的变异的信息。这种情况下,变异鉴定部114可基于所参照的“Annotation”的信息将基于碱基信息的变异变换为基于氨基酸信息的变异。
变异鉴定部114以结果文件中所含的确定变异的信息(例如变异的位置信息和对应于变异的碱基信息)为关键词来检索变异数据库123。例如,变异鉴定部114可以以“CHROM”、“POS”、“REF”和“ALT”的信息中的任一者为关键词来检索变异数据库123。变异鉴定部114将通过比较血液试样来源的比对序列和病变部位来源的比对序列而提取的基因变异登录到变异数据库123的情况下,将该变异鉴定为试样中所存在的变异,对结果文件中所含的该变异赋予注释(例如“EGFR L858R”、“BRAF V600E”等)。
需要说明的是,一实施方式中,在变异鉴定部114基于结果文件检索变异数据库123之前,信息选择部112可以从结果文件中屏蔽(排除)掉输入到变异鉴定部114中的不对应于与基因面板有关的信息的变异。
例如,一实施方式中,被信息选择部112通知与基因面板有关的信息的变异鉴定部114可以参照图50的(a)那样的、表示分析对象基因与位置信息(例如“CHROM”与“POS”)的对应关系的表格,来确定对应于由被通知的与基因面板有关的信息确定的分析对象基因的变异的位置,如图50的(b)那样从结果文件中屏蔽(排除)掉其以外的位置的变异。从而,变异鉴定部114可以仅对结果文件中的、与使用的基因面板相关的变异赋予注释,因此可以提高变异的鉴定和确定的效率。
(药剂检索部118)
使用图51说明药剂检索部118生成包含药剂相关信息的列表的处理流程。图51是示出药剂检索部118示出变异相关的药剂列表的处理的一例的流程图。
药剂检索部118以赋予给由变异鉴定部114鉴定的基因变异的变异ID为关键词,来检索药剂数据库124(步骤S15a)。基于检索结果,药剂检索部118生成包含关于与变异有关的药剂的信息的列表(步骤S16a)。所生成的列表整合于报告制作部115所制作的报告中。
(药剂数据库124)
使用图52说明在药剂检索部118检索药剂数据库124而生成药剂列表的情况下、药剂数据库124中存储的数据124A。图52是示出药剂数据库124的数据结构的例子的图。
药剂数据库124中,如图52所示,赋予给每个变异的变异ID、相关药剂名、和赋予给每种药剂的药剂ID彼此建立关联而存储。需要说明的是,可以如图52的数据124A中使“药剂A”和“药剂B”与变异ID“#3”建立关联那样、使各变异ID与多个相关药剂建立关联。
另外,可以对药剂数据库124的各变异ID赋予作为与基因面板有关的信息的相关元数据的、“基因面板相关信息的相关元数据”。药剂检索部118根据来自信息选择部112的指示而参照该“基因面板相关信息的相关元数据”。
然后,药剂检索部118将检索药剂数据库124的范围变更为该元数据所示的范围。从而,药剂检索部118可以根据赋予给各药剂的“基因面板相关信息的相关元数据”和所输入的与基因面板有关的信息而在药剂数据库中缩小应参照的药剂的范围,可以生成包含相应于与基因面板有关的信息的药剂的相关信息的列表。
药剂检索部118可以检索具有图53所示的数据结构的药剂数据库124,生成包含关于与变异有关的药剂的其它信息的列表。使用图54对这一点进行说明。图54是示出药剂检索部118生成包含关于与变异有关的药剂的信息的列表的处理的一例的流程图。
药剂检索部118从存储图53所示的数据124B的药剂数据库124中检索相关药剂是否得到当局(FDA、PMDA等)许可。具体而言,药剂检索部118例如以“变异ID”等变异相关信息为关键词,检索表示对应于变异的相关药剂是否得到当局许可的“许可状况”、表示得到哪个国家的当局许可的“许可国”(步骤S15b)。
药剂检索部118基于检索结果示出包含变异、对应于该变异的相关药剂、和该相关药剂的许可相关信息等的列表(步骤S16b)。
药剂检索部118可以检索具有图53所示的数据结构的药剂数据库124,生成包含关于与变异有关的药剂的进一步的其它信息的列表。使用图54对这一点进行说明。图54是示出药剂检索部118基于检索药剂数据库124而得到的信息判定有无可能Off-label use(超说明书用药)的药剂、生成包含判定结果的列表的处理的一例的流程图。
药剂检索部118从存储图53所示的数据124B的药剂数据库124中检索相关药剂是否得到当局(FDA、PMDA等)许可(步骤S15b)。在所检索的药剂未得到许可时(步骤S21中为NO),药剂检索部118将该药剂作为未许可药并且与变异建立关联(步骤S23),制作变异相关药剂的报告(步骤S16a)。
在所检索的药剂得到许可时(步骤S21中为YES),药剂检索部118判定进行试样采集的被检者的疾病(疾病名或疾病ID)与从药剂数据库124中检索到的相关药剂所对应的疾病(例如图53所示的“对象疾病”的疾病名或疾病ID)是否一致(步骤S22)。
在被检者的疾病与“对象疾病”一致时(步骤S22中为YES),药剂检索部118将检索结果的药剂作为许可药并且与变异建立关联(步骤S24),生成包含变异、对应于该变异的相关药剂、和该相关药剂的许可相关信息等的列表(步骤S16a)。
另一方面,在被检者的疾病与“对象疾病”不同时(步骤S22中为NO),药剂检索部118判定所检索的相关药剂为可能Off-label use(超说明书用药)的药剂,将其判定结果与变异建立关联(步骤S25),生成包含变异、对应于该变异的相关药剂、和该相关药剂的许可相关信息等的列表(步骤S16a)。
需要说明的是,例如在执行基因分析时,用于识别被检者的疾病的识别(例如疾病的名称、疾病ID等)可由操作者等从输入部17输入。这种情况下,信息选择部112取得由操作者输入的对应于试样的疾病相关信息,识别疾病。或者,也可以是下述构成:如图7所示,在收容试样的各容器P1上赋予显示被检者ID和试样ID等的标签L1,通过读取该标签L1所显示的条形码L11等记录手段,来取得作为被检者的疾病的识别信息的疾病ID。或者,也可以是下述构成:如图8所示,在收容试样的各容器P1上赋予显示被检者ID和试样ID等的标签L2,通过读取该标签L2所附带的RFID标牌L21等记录手段,取得作为被检者的疾病的识别信息的疾病ID。
或者,检查机构120中,将试样ID和被检者ID与疾病ID建立对应关系并进行管理,信息选择部112可以基于被检者ID或试样ID取得对应于试样的疾病ID。例如,也可以是下述构成:信息选择部112介由通信线路取得与被检者ID(或试样ID)建立对应关系的疾病ID,所述被检者ID(或试样ID)是读取赋予给收容试样的每个容器的标签的记录手段而得的。需要说明的是,也可以是下述构成:在图41所示的序列信息的头部区域包含疾病ID,信息选择部112取得该疾病ID。
如图53示出的数据124B那样,药剂数据库124可以具有“CDx flag”,其表示数据库中的各药剂在规定的基因变异与规定的疾病的关系中是否为CDx相关药剂。药剂检索部118在检索到CDx flag为“1”的药剂(图53中的“药剂A”和“药剂B”)时,可以生成包含辅助信息的列表,所述辅助信息显示出规定疾病中的规定基因变异的检测结果可应用于所检索的药剂的CDx的意思。药剂检索部118可以根据在罹患规定疾病(例如癌症等)的被检者中采集的试样检测到规定的基因变异这一点,来制作包含下述信息的列表,所述信息为:所检测的基因变异和对应于该基因变异的药剂与CDx相关之类的信息、和该药剂的奏效性的相关辅助信息。
从而,药剂检索部118通过检索使基因变异、对象疾病和药剂建立关联而存储的药剂数据库124、使所检测的基因变异与信息选择部112确定的疾病相匹配,从而可以制作对应于与试样对应的疾病的列表。报告制作部115使用由药剂检索部118制作的列表来制作报告。
药剂检索部118可以检索具有图55所示的数据结构的药剂数据库124,生成包含与变异相关的药剂的临床试验相关信息的列表。使用图56对这一点进行说明。图56是示出药剂检索部118生成包含药剂的临床试验相关信息的列表的处理的一例的流程图。
药剂检索部118从存储图55所示的数据124C的药剂数据库124中检索相关药剂的临床试验的进展情况等信息。具体而言,药剂检索部118以变异ID等为关键词来检索变异的临床试验相关信息、例如图55所示的“临床试验/临床试验状况”、正在实施临床试验的“实施国”、和“实施机构”等(图56的步骤S15c)。药剂检索部118基于检索结果生成包含变异、对应于该变异的相关药剂、和该相关药剂的临床试验相关信息等的列表(图56的步骤S16c)。
需要说明的是,图52所示的数据124A、图53所示的数据124B、和图55所示的数据124C既可以汇总为一个存储在药剂数据库124中,也可以分散存储在包括药剂数据库124在内的多个数据库中。
(报告制作部115)
报告制作部115基于变异鉴定部114所输出的信息、信息选择部112所提供的与基因面板有关的信息、和药剂检索部118所生成的药剂列表来制作报告(对应于图6的步骤S111)。所制作的报告中披露的信息包含与基因面板有关的信息、鉴定出的基因变异的相关信息、和检测出的基因变异的相关药剂的信息。在检查机构120订立“CDx用途”的方案的契约时,报告制作部115还可制作包含辅助信息的报告,实施辅助信息涉及可应用于CDx的药剂对具有规定疾病的被检者的奏效性。
报告制作部115也可以是下述构成:基于来自信息选择部112的与基因面板有关的信息,选择取舍报告中将披露的对象,将未选中的信息从报告中削除。或者,也可以是下述构成:按照下述方式来控制报告制作部115,即,信息选择部112选择介由输入部17而输入的、对应于与基因面板有关的信息的基因相关信息,作为报告中将披露的对象,将未选中的信息从报告中削除。
<报告例>
接下来,使用图57说明报告制作部115所制作的报告的具体例。图57是示出所制作的报告的一例的图。
图57所示的报告例中,左上的部分中记载有:表示被检者ID的“患者ID”、“患者的性别”、“患者的病名”、医疗机构210中负责该被检者的医师的姓名、也即“责任医师名”、和表示医疗机构名称的“机构名”。
在其下方,作为与基因面板有关的信息,还包含例如“A面板”等基因面板名。进一步地,还将使用品质管理试样的处理和由分析结果等得到的品质评价指标“QC指标”输出到报告中。
(输出部13)
报告制作部115所制作的报告也可以作为序列信息的分析结果,从输出部13向设置在医疗机构210中的通信终端5(参照图5)发送数据(对应于图6的步骤S112)。或者,发送到与信息处理装置1连接的打印机(未图示),在由该打印机打印后,以纸媒形式由检查机构120寄送给医疗机构210。
(信息处理装置1的分析对象)
如图38所示,如果是包含索引序列的序列信息,则信息处理装置1进行分析(步骤S52),如果不是与索引序列建立关联的序列信息,则信息处理装置1不进行对与索引序列建立关联的序列信息所进行的分析中的至少一部分分析(步骤S53)。
例如,在制备测定试样时使用PhiX DNA作为不是被检者来源的核酸的情况下,PhiX DNA上未被添加索引序列,因此在图40的步骤S10中不会成为每个索引序列的分类对象,不进行步骤S10和此后的处理。
例如,在制备测定试样时使用分析后的由被检者来源的试样制备的文库的情况下,其不是分析对象,因此不进行图40的步骤S11和此后的处理。
例如,在制备测定试样时使用品质管理试样的情况下,由于无需鉴定变异,因此不进行图40的步骤S15和此后的处理。
即,信息处理装置1选择性地对测序仪2所取得的全部序列信息中的、添加有索引序列的文库的核酸的序列信息进行图40所示的步骤S10和此后的处理,对未添加索引序列的核酸的序列信息,不进行步骤S10和此后的至少一部分处理。
(品质评价指标)
这里,对用于评价序列信息的品质的品质评价指标进行说明。品质评价指标可列举例如以下指标。
·指标(i):表示由测序仪2得到的碱基信息的读取品质的品质评价指标。
·指标(ii):表示分析对象的多个基因中所含的碱基之中、测序仪2所读取的碱基的比例的品质评价指标。
·指标(iii):表示序列信息的深度的品质评价指标。
·指标(iv):表示序列信息的深度的偏差的品质评价指标。
·指标(v):表示是否检测到品质管理试样中所含的各标准基因所具有的全部变异的品质评价指标。
进而,指标(i)中可包含:
指标(i-1):品质评分、和
指标(i-2):簇浓度。
这里,使用图58来说明上述的品质评价指标。
指标(i-1):品质评分
品质评分是表示由测序仪2读取的基因序列中的各碱基的正确性的指标。
例如,从测序仪2以FASTQ文件输出序列信息时,品质评分也含在序列信息中(参照图41)。需要说明的是,品质评分的细节已经进行了说明,在这里省略其说明。
指标(i-2):簇浓度
测序仪2在流动池上局部扩增固定多个单链DNA片段而形成簇(参照图36的“9”)。进而,通过使用荧光显微镜而摄像流动池上的簇组,检测对应于A、C、G、T各自的荧光色(即,荧光波长不同)而读取序列。簇密度是表示进行测序之时的形成在流动池上的、各基因的簇接近何种程度的指标。
例如,簇的密度过高,簇彼此过度接近或重合了,则由于对流动池进行摄像的图像的对比度即S/N比变低,变得难以取得荧光显微镜的焦点。所以,变得无法正确检测荧光,结果,变得无法正确地读取序列。
指标(ii):表示用测序仪2读取的碱基之中、测序仪2所读取的靶区域的碱基的比例的品质评价指标
此指标是表示由测序仪2读取的碱基(还含靶区域以外)之中读取了哪个靶区域的碱基的指标,可以以所读取的碱基的总数与靶区域的碱基的总数之比的形式算出。
指标(iii)表示序列信息的深度的品质评价指标。
该指标是针对分析对象基因中所含的各碱基的、基于已读取了其碱基的序列信息的总数的指标,可以以已读取的碱基中的深度为规定值以上的碱基的总数与已读取的碱基的总数之比的形式算出。
需要说明的是,深度(depth)对于同一碱基所读取的序列信息的总数。
图58示出分析对象的基因的全长是T碱基、所读取的区域的碱基是t1碱基时的表示所读取的各碱基的深度的图表。该图表的横轴是碱基的位置,纵轴是各碱基的深度。在图58中所示的例子中,所读取的区域的t1碱基之中、深度为规定值(例如100)以上的区域的总碱基数是(t2+t3)碱基。这种情况下,指标(iii)以(t2+t3)/t1的值的形式来生成。
指标(iv):表示序列信息的深度的偏差的品质评价指标。
该指标是表示深度的均匀性的指标。在读取所读取的区域之中的某个部分的序列信息极端多时,深度的一致性低,经读取的区域比较遍历而存在读长序列信息时,深度的一致性高。深度的一致性不限于此,例如,可使用四分位范围(IQR)进行数值化。显示出IQR越高则一致性越低、IQR越低则一致性越高的结果。
指标(v):表示是否检测到品质管理试样中所含的各标准基因所具有的全部变异的品质评价指标。
该指标是表示检测并正确地鉴定品质管理试样中所含的各标准基因所具有的变异的指标。例如,图25的(a)所示的品质管理试样A和图25的(b)所示的品质管理试样B等中所含的各标准基因所具有的变异(参照“Variant”一栏)为已知的变异。用于评价是否能够正确地鉴定这些变异的位置、变异类型等的指标也被作为品质评价指标来使用。
需要说明的是,信息处理装置1是执行作为实现各功能的软件的程序的命令的计算机。该计算机例如具备1个以上的处理器,并且具备存储有上述程序的计算机可读取的记录介质。并且,上述计算机中,上述处理器从上述记录介质读取、执行上述程序而实现本发明的目的。作为上述处理器,可以使用例如CPU(Central Processing Unit)。作为上述记录介质,可以使用“非临时的有形的介质”,例如ROM(Read Only Memory)等以及磁带、磁盘、卡、半导体存储器、可编程的逻辑电路等。另外,可以进一步具备扩增上述程序的RAM(Random Access Memory)等。另外,上述程序可以介由能传输该程序的任意传输介质(通信网络、广播波等)而提供给上述计算机。需要说明的是,本发明的一方式也可以通过利用电子传输而使上述程序具体化的、嵌入输送波的数据信号的方式来实现。
本发明不限于上述的各实施方式,在权利要求书所示的范围中可以进行各种变更,将在不同的实施方式中分别公开的技术手段适宜组合而得到的实施方式也包含在本发明的技术范围内。
【符号说明】
1信息处理装置;2测序仪;11控制部;12存储部;100基因分析系统。
Claims (14)
1.一种分析方法,其包含下述工序:
取得测定试样中所含的核酸的序列信息的工序,所述测定试样是将包含被检者来源的核酸的试样、和包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和,
输出序列信息的工序,不论所述测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,包含被检者来源的核酸的每1试样的序列信息的数据量为规定的量。
2.根据权利要求1所述的分析方法,其特征在于,所述测定试样中的、源自包含被检者来源的核酸的1试样的核酸的量几乎相等。
3.根据权利要求1或2所述的分析方法,其特征在于,不论所述测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,每1试样的序列信息的数据量在所取得的所述测定试样中所含的核酸的序列信息的数据量中占规定的比例。
4.根据权利要求1至3中任一项所述的分析方法,其特征在于,所述测定试样的制备中使用的包含被检者来源的核酸的试样的数量发生变化时的、所述每1试样的序列信息的数据量的偏差在±10%的范围内。
5.根据权利要求1至4中任一项所述的分析方法,其特征在于,所述取得序列信息的工序中所取得的序列信息中,所述不是被检者来源的核酸的序列信息的数据量等于或多于所述每1试样的序列信息的数据量。
6.根据权利要求1至5中任一项所述的分析方法,其特征在于,所述测定试样包含第一测定试样或第二测定试样,所述第一测定试样是将包含第一被检者组来源的核酸的试样与包含不是被检者来源的核酸的试样混合而制备的,所述第二测定试样是将包含第二被检者组来源的核酸的试样与包含不是被检者来源的核酸的试样混合而制备的,
所述第一被检者组的被检者数量与所述第二被检者组的被检者数量不同。
7.根据权利要求1至6中任一项所述的分析方法,其特征在于,还包含下述工序:根据所述包含被检者来源的核酸的试样的数量,改变所述测定试样中的不是被检者来源的核酸的量,而制备所述测定试样。
8.根据权利要求1至7中任一项所述的分析方法,其特征在于,所述核酸的量为所述核酸的摩尔数。
9.根据权利要求1至8中任一项所述的分析方法,其特征在于,还包含下述工序:制备包含所述预先规定的量的核酸的所述测定试样。
10.根据权利要求1至9中任一项所述的分析方法,其特征在于,所述测定试样中所含的每1试样的核酸的量的偏差在±10%的范围内。
11.根据权利要求1至10中任一项所述的分析方法,其特征在于,所述测定试样中所含的不是被检者来源的核酸的量至少等于或多于测定试样中所含的每1试样的核酸的量。
12.一种信息处理装置,其特征在于,具备控制部,
所述控制部取得测定试样中所含的核酸的序列信息、对序列信息进行分析,其中,
所述测定试样是将包含被检者来源的核酸的试样与包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的,
不论所述测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,包含被检者来源的核酸的每1试样的序列信息的数据量为规定的量。
13.一种基因分析系统,其特征在于,具备读取测定试样的核酸的序列信息的测序仪;取得所述序列信息、进行分析并输出分析结果的信息处理装置,
所述测定试样是将包含被检者来源的核酸的试样与包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的,
不论所述测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,所述序列信息中的每1试样的序列信息的数据量为规定的量。
14.一种计算机可读取的记录介质,其特征在于,记录有使计算机执行以下的工序的程序,所述工序为:
取得测定试样中所含的核酸的序列信息的工序,所述测定试样是将包含被检者来源的核酸的试样与包含不是被检者来源的核酸的试样混合并制备成预先规定的核酸量而得的;和
对所述序列信息进行分析的工序,其中,
不论所述测定试样的制备中使用的、包含被检者来源的核酸的试样的数量,包含被检者来源的核酸的每1试样的序列信息的数据量为规定的量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-163954 | 2018-08-31 | ||
JP2018163954A JP6891151B2 (ja) | 2018-08-31 | 2018-08-31 | 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110872616A true CN110872616A (zh) | 2020-03-10 |
Family
ID=67766073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910807846.9A Pending CN110872616A (zh) | 2018-08-31 | 2019-08-29 | 分析方法、信息处理装置、基因分析系统、程序、记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200082912A1 (zh) |
EP (1) | EP3617327A1 (zh) |
JP (1) | JP6891151B2 (zh) |
CN (1) | CN110872616A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120270739A1 (en) * | 2010-01-19 | 2012-10-25 | Verinata Health, Inc. | Method for sample analysis of aneuploidies in maternal samples |
JP2013165661A (ja) * | 2012-02-15 | 2013-08-29 | Obihiro Univ Of Agriculture & Veterinary Medicine | 複数検体の塩基配列を、各検体と配列を対応付けて一度に決定する方法 |
CN104232760A (zh) * | 2014-08-26 | 2014-12-24 | 深圳华大基因医学有限公司 | 确定混合测序数据中读段的样本源的方法及装置 |
CN107849612A (zh) * | 2015-03-26 | 2018-03-27 | 奎斯特诊断投资股份有限公司 | 比对和变体测序分析管线 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015131107A1 (en) * | 2014-02-28 | 2015-09-03 | Nugen Technologies, Inc. | Reduced representation bisulfite sequencing with diversity adaptors |
JPWO2018135464A1 (ja) * | 2017-01-18 | 2019-12-12 | 大学共同利用機関法人情報・システム研究機構 | 次世代シーケンサーを用いた迅速な遺伝子検査方法 |
-
2018
- 2018-08-31 JP JP2018163954A patent/JP6891151B2/ja active Active
-
2019
- 2019-08-26 EP EP19193573.3A patent/EP3617327A1/en active Pending
- 2019-08-27 US US16/552,709 patent/US20200082912A1/en active Pending
- 2019-08-29 CN CN201910807846.9A patent/CN110872616A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120270739A1 (en) * | 2010-01-19 | 2012-10-25 | Verinata Health, Inc. | Method for sample analysis of aneuploidies in maternal samples |
JP2013165661A (ja) * | 2012-02-15 | 2013-08-29 | Obihiro Univ Of Agriculture & Veterinary Medicine | 複数検体の塩基配列を、各検体と配列を対応付けて一度に決定する方法 |
CN104232760A (zh) * | 2014-08-26 | 2014-12-24 | 深圳华大基因医学有限公司 | 确定混合测序数据中读段的样本源的方法及装置 |
CN107849612A (zh) * | 2015-03-26 | 2018-03-27 | 奎斯特诊断投资股份有限公司 | 比对和变体测序分析管线 |
Non-Patent Citations (1)
Title |
---|
JEREMY E. ELLIS等: "Rapid infectious disease identification by next-generation DNA sequencing", JOURNAL OF MICROBIOLOGICAL METHODS, vol. 138, pages 12 - 19, XP085062892, DOI: 10.1016/j.mimet.2016.09.012 * |
Also Published As
Publication number | Publication date |
---|---|
US20200082912A1 (en) | 2020-03-12 |
JP2020036537A (ja) | 2020-03-12 |
JP6891151B2 (ja) | 2021-06-18 |
EP3617327A1 (en) | 2020-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7067896B2 (ja) | 品質評価方法、品質評価装置、プログラム、および記録媒体 | |
JP7320345B2 (ja) | 遺伝子解析方法、遺伝子解析装置、遺伝子解析システム、プログラム、および記録媒体 | |
CN109949860B (zh) | 序列解析方法及装置、参照序列生成方法及装置及程序及记录介质 | |
JP2019083011A5 (zh) | ||
CN110875083A (zh) | 分析方法、信息处理装置、基因分析系统、记录介质 | |
JP2023139180A (ja) | 遺伝子解析方法および遺伝子解析装置 | |
JP6891151B2 (ja) | 解析方法、情報処理装置、遺伝子解析システム、プログラム、記録媒体 | |
US20210098075A1 (en) | Method for managing test request by computer, management device, management computer program, and management system | |
JP7148681B2 (ja) | レポートを作成する方法、情報処理装置、プログラム | |
JP3880361B2 (ja) | 蛍光シグナル処理方法及びハイブリダイゼーション反応結果表示方法 | |
Ewalt et al. | Molecular Methods: Clinical Utilization and Designing a Test Menu | |
EP3267347A1 (en) | Electronic platform for providing methods for the interpretation of nucleic acid sequences | |
Wygant | Welcome Guest United States | |
Hambuch et al. | Whole Genome Sequencing in the Clinical Laboratory | |
Clarke | Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms | |
JP2006194895A (ja) | バイオチップ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |