JP2004521407A - 大きなデータアレイを解析するための統計学的モデリング - Google Patents
大きなデータアレイを解析するための統計学的モデリング Download PDFInfo
- Publication number
- JP2004521407A JP2004521407A JP2002523776A JP2002523776A JP2004521407A JP 2004521407 A JP2004521407 A JP 2004521407A JP 2002523776 A JP2002523776 A JP 2002523776A JP 2002523776 A JP2002523776 A JP 2002523776A JP 2004521407 A JP2004521407 A JP 2004521407A
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- heterogeneity
- analysis method
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003491 array Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 196
- 108090000623 proteins and genes Proteins 0.000 claims description 244
- 230000014509 gene expression Effects 0.000 claims description 174
- 230000022131 cell cycle Effects 0.000 claims description 72
- 238000004458 analytical method Methods 0.000 claims description 55
- 230000004044 response Effects 0.000 claims description 28
- 238000002474 experimental method Methods 0.000 claims description 25
- 239000000654 additive Substances 0.000 claims description 23
- 230000000996 additive effect Effects 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 23
- 239000003814 drug Substances 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 21
- 229940079593 drug Drugs 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 6
- 231100000673 dose–response relationship Toxicity 0.000 claims description 5
- 238000003745 diagnosis Methods 0.000 claims description 4
- 230000001747 exhibiting effect Effects 0.000 claims description 4
- 238000013179 statistical model Methods 0.000 claims description 4
- 239000000090 biomarker Substances 0.000 claims description 3
- 235000005911 diet Nutrition 0.000 claims description 3
- 230000037213 diet Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000001575 pathological effect Effects 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 11
- 210000004027 cell Anatomy 0.000 description 102
- 239000000523 sample Substances 0.000 description 56
- 238000002493 microarray Methods 0.000 description 48
- 208000032839 leukemia Diseases 0.000 description 42
- 230000000737 periodic effect Effects 0.000 description 39
- 108020004999 messenger RNA Proteins 0.000 description 33
- 206010028980 Neoplasm Diseases 0.000 description 29
- 102000004169 proteins and genes Human genes 0.000 description 26
- 238000013459 approach Methods 0.000 description 24
- 238000009826 distribution Methods 0.000 description 23
- 235000021251 pulses Nutrition 0.000 description 23
- 230000004913 activation Effects 0.000 description 20
- 238000009396 hybridization Methods 0.000 description 20
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 19
- 230000027455 binding Effects 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 19
- 201000011510 cancer Diseases 0.000 description 18
- 230000006870 function Effects 0.000 description 18
- 210000001519 tissue Anatomy 0.000 description 18
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 17
- 102000036693 Thrombopoietin Human genes 0.000 description 16
- 108010041111 Thrombopoietin Proteins 0.000 description 16
- 238000007621 cluster analysis Methods 0.000 description 15
- 230000002779 inactivation Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 239000002299 complementary DNA Substances 0.000 description 14
- 150000007523 nucleic acids Chemical class 0.000 description 13
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 12
- 238000011160 research Methods 0.000 description 12
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 11
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 description 11
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 description 11
- 208000006664 Precursor Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 11
- 238000005259 measurement Methods 0.000 description 11
- 102000039446 nucleic acids Human genes 0.000 description 11
- 108020004707 nucleic acids Proteins 0.000 description 11
- 210000004369 blood Anatomy 0.000 description 10
- 239000008280 blood Substances 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000002360 preparation method Methods 0.000 description 10
- 238000013518 transcription Methods 0.000 description 10
- 230000035897 transcription Effects 0.000 description 10
- 108091034117 Oligonucleotide Proteins 0.000 description 9
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 9
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 102100026194 C-type lectin domain family 2 member B Human genes 0.000 description 8
- 101000912618 Homo sapiens C-type lectin domain family 2 member B Proteins 0.000 description 8
- 208000000172 Medulloblastoma Diseases 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 8
- 230000002103 transcriptional effect Effects 0.000 description 8
- 102100038550 Neurogenin-1 Human genes 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000002966 oligonucleotide array Methods 0.000 description 7
- 230000005945 translocation Effects 0.000 description 7
- 230000003321 amplification Effects 0.000 description 6
- 210000000349 chromosome Anatomy 0.000 description 6
- 230000004069 differentiation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 5
- 108700026244 Open Reading Frames Proteins 0.000 description 5
- 230000002542 deteriorative effect Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000007850 fluorescent dye Substances 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012806 monitoring device Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000009897 systematic effect Effects 0.000 description 5
- 208000031404 Chromosome Aberrations Diseases 0.000 description 4
- 108020004635 Complementary DNA Proteins 0.000 description 4
- 238000000018 DNA microarray Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 108010046722 Thrombospondin 1 Proteins 0.000 description 4
- 102100036034 Thrombospondin-1 Human genes 0.000 description 4
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 201000005793 childhood medulloblastoma Diseases 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000010841 mRNA extraction Methods 0.000 description 4
- 238000004949 mass spectrometry Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 102000040430 polynucleotide Human genes 0.000 description 4
- 108091033319 polynucleotide Proteins 0.000 description 4
- 239000002157 polynucleotide Substances 0.000 description 4
- 108090000765 processed proteins & peptides Proteins 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 206010000830 Acute leukaemia Diseases 0.000 description 3
- 208000003174 Brain Neoplasms Diseases 0.000 description 3
- 210000004460 N cell Anatomy 0.000 description 3
- 108700020796 Oncogene Proteins 0.000 description 3
- 102000002933 Thioredoxin Human genes 0.000 description 3
- 108091023040 Transcription factor Proteins 0.000 description 3
- 102000040945 Transcription factor Human genes 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000001684 chronic effect Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 238000001962 electrophoresis Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 230000012010 growth Effects 0.000 description 3
- 230000003394 haemopoietic effect Effects 0.000 description 3
- 230000002489 hematologic effect Effects 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 238000012775 microarray technology Methods 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 238000003752 polymerase chain reaction Methods 0.000 description 3
- 230000002285 radioactive effect Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- 108060008226 thioredoxin Proteins 0.000 description 3
- 229940094937 thioredoxin Drugs 0.000 description 3
- 238000011179 visual inspection Methods 0.000 description 3
- 101100509304 Arabidopsis thaliana ISPH gene Proteins 0.000 description 2
- 208000032791 BCR-ABL1 positive chronic myelogenous leukemia Diseases 0.000 description 2
- 102100023995 Beta-nerve growth factor Human genes 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 2
- 102000004091 Caspase-8 Human genes 0.000 description 2
- 108090000538 Caspase-8 Proteins 0.000 description 2
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 2
- 208000010833 Chronic myeloid leukaemia Diseases 0.000 description 2
- 102100039606 DNA replication licensing factor MCM3 Human genes 0.000 description 2
- 101000963174 Homo sapiens DNA replication licensing factor MCM3 Proteins 0.000 description 2
- 101001116548 Homo sapiens Protein CBFA2T1 Proteins 0.000 description 2
- 101000802094 Homo sapiens mRNA decay activator protein ZFP36L1 Proteins 0.000 description 2
- 108010051335 Lipocalin-2 Proteins 0.000 description 2
- 102000013519 Lipocalin-2 Human genes 0.000 description 2
- 206010025323 Lymphomas Diseases 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 102100034670 Myb-related protein B Human genes 0.000 description 2
- 108010025020 Nerve Growth Factor Proteins 0.000 description 2
- 238000000636 Northern blotting Methods 0.000 description 2
- 239000004677 Nylon Substances 0.000 description 2
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 2
- 108700020978 Proto-Oncogene Proteins 0.000 description 2
- 102000052575 Proto-Oncogene Human genes 0.000 description 2
- 108010055623 S-Phase Kinase-Associated Proteins Proteins 0.000 description 2
- 101100439294 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CLB6 gene Proteins 0.000 description 2
- 101100033865 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RFA1 gene Proteins 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 108090000190 Thrombin Proteins 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- SHGAZHPCJJPHSC-YCNIQYBTSA-N all-trans-retinoic acid Chemical compound OC(=O)\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C SHGAZHPCJJPHSC-YCNIQYBTSA-N 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- AIYUHDOJVYHVIT-UHFFFAOYSA-M caesium chloride Chemical compound [Cl-].[Cs+] AIYUHDOJVYHVIT-UHFFFAOYSA-M 0.000 description 2
- 230000036952 cancer formation Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000000295 emission spectrum Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 102100034702 mRNA decay activator protein ZFP36L1 Human genes 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 210000003593 megakaryocyte Anatomy 0.000 description 2
- 238000010208 microarray analysis Methods 0.000 description 2
- 230000000394 mitotic effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 208000025113 myeloid leukemia Diseases 0.000 description 2
- 229940053128 nerve growth factor Drugs 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 229920001778 nylon Polymers 0.000 description 2
- 239000002751 oligonucleotide probe Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000004962 physiological condition Effects 0.000 description 2
- -1 polypropylene Polymers 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002797 proteolythic effect Effects 0.000 description 2
- 238000005057 refrigeration Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 229930002330 retinoic acid Natural products 0.000 description 2
- CJBPIZBHRWDBGQ-COSFPPCYSA-N rfa-1 Chemical compound C1([C@H]2N[C@H](CC3(N=C4C=5C6=C7O[C@](C6=O)(C)O/C=C/[C@@H]([C@H]([C@@H](OC(C)=O)[C@@H](C)[C@@H](O)[C@H](C)[C@@H](O)[C@@H](C)\C=C\C=C(C)/C(=O)NC(=C4N3)C(=O)C=5C(O)=C7C)C)OC)C2)C=2C=CC=CC=2)=CC=CC=C1 CJBPIZBHRWDBGQ-COSFPPCYSA-N 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 231100000588 tumorigenic Toxicity 0.000 description 2
- 230000000381 tumorigenic effect Effects 0.000 description 2
- 238000000539 two dimensional gel electrophoresis Methods 0.000 description 2
- 239000011534 wash buffer Substances 0.000 description 2
- 102000001556 1-Phosphatidylinositol 4-Kinase Human genes 0.000 description 1
- 108010029190 1-Phosphatidylinositol 4-Kinase Proteins 0.000 description 1
- 102000007469 Actins Human genes 0.000 description 1
- 108010085238 Actins Proteins 0.000 description 1
- 108010021809 Alcohol dehydrogenase Proteins 0.000 description 1
- 102000007698 Alcohol dehydrogenase Human genes 0.000 description 1
- 102100026663 All-trans-retinol dehydrogenase [NAD(+)] ADH7 Human genes 0.000 description 1
- 101100395484 Arabidopsis thaliana HPD gene Proteins 0.000 description 1
- 101001007348 Arachis hypogaea Galactose-binding lectin Proteins 0.000 description 1
- 208000032800 BCR-ABL1 positive blast phase chronic myelogenous leukemia Diseases 0.000 description 1
- 208000023514 Barrett esophagus Diseases 0.000 description 1
- 108010027344 Basic Helix-Loop-Helix Transcription Factors Proteins 0.000 description 1
- 102000018720 Basic Helix-Loop-Helix Transcription Factors Human genes 0.000 description 1
- 208000004860 Blast Crisis Diseases 0.000 description 1
- 101000782236 Bothrops leucurus Thrombin-like enzyme leucurobin Proteins 0.000 description 1
- 102100033641 Bromodomain-containing protein 2 Human genes 0.000 description 1
- JMPQQXWPKDTARU-YURFNIAASA-N CC1C2CC[C@@H]1C2 Chemical compound CC1C2CC[C@@H]1C2 JMPQQXWPKDTARU-YURFNIAASA-N 0.000 description 1
- 101150082216 COL2A1 gene Proteins 0.000 description 1
- 102000005367 Carboxypeptidases Human genes 0.000 description 1
- 108010006303 Carboxypeptidases Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108010042086 Collagen Type IV Proteins 0.000 description 1
- 102000004266 Collagen Type IV Human genes 0.000 description 1
- 102100033779 Collagen alpha-4(IV) chain Human genes 0.000 description 1
- 108010058545 Cyclin D3 Proteins 0.000 description 1
- 102000000577 Cyclin-Dependent Kinase Inhibitor p27 Human genes 0.000 description 1
- 108010016777 Cyclin-Dependent Kinase Inhibitor p27 Proteins 0.000 description 1
- 102000018832 Cytochromes Human genes 0.000 description 1
- 108010052832 Cytochromes Proteins 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 101710096438 DNA-binding protein Proteins 0.000 description 1
- 102100027480 DNA-directed RNA polymerase III subunit RPC3 Human genes 0.000 description 1
- 101710197780 E3 ubiquitin-protein ligase LAP Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000003951 Erythropoietin Human genes 0.000 description 1
- 108090000394 Erythropoietin Proteins 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 206010016717 Fistula Diseases 0.000 description 1
- 230000010190 G1 phase Effects 0.000 description 1
- 230000037057 G1 phase arrest Effects 0.000 description 1
- 108010017213 Granulocyte-Macrophage Colony-Stimulating Factor Proteins 0.000 description 1
- 102100039620 Granulocyte-macrophage colony-stimulating factor Human genes 0.000 description 1
- 102100021090 Homeobox protein Hox-A9 Human genes 0.000 description 1
- 101000690766 Homo sapiens All-trans-retinol dehydrogenase [NAD(+)] ADH7 Proteins 0.000 description 1
- 101000871850 Homo sapiens Bromodomain-containing protein 2 Proteins 0.000 description 1
- 101000710870 Homo sapiens Collagen alpha-4(IV) chain Proteins 0.000 description 1
- 101000650556 Homo sapiens DNA-directed RNA polymerase III subunit RPC3 Proteins 0.000 description 1
- 101000593405 Homo sapiens Myb-related protein B Proteins 0.000 description 1
- 101000584743 Homo sapiens Recombining binding protein suppressor of hairless Proteins 0.000 description 1
- 101000828738 Homo sapiens Selenide, water dikinase 2 Proteins 0.000 description 1
- 101000799461 Homo sapiens Thrombopoietin Proteins 0.000 description 1
- 102100033010 Integrin beta-5 Human genes 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 208000031671 Large B-Cell Diffuse Lymphoma Diseases 0.000 description 1
- 102000019298 Lipocalin Human genes 0.000 description 1
- 108050006654 Lipocalin Proteins 0.000 description 1
- 108700012912 MYCN Proteins 0.000 description 1
- 101150022024 MYCN gene Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102000029749 Microtubule Human genes 0.000 description 1
- 108091022875 Microtubule Proteins 0.000 description 1
- 101100178928 Mus musculus Hoxa9 gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 101710115153 Myb-related protein B Proteins 0.000 description 1
- 201000003793 Myelodysplastic syndrome Diseases 0.000 description 1
- 208000033761 Myelogenous Chronic BCR-ABL Positive Leukemia Diseases 0.000 description 1
- 108700026495 N-Myc Proto-Oncogene Proteins 0.000 description 1
- 102100030124 N-myc proto-oncogene protein Human genes 0.000 description 1
- 206010029260 Neuroblastoma Diseases 0.000 description 1
- 101710096136 Neurogenin-1 Proteins 0.000 description 1
- 239000000020 Nitrocellulose Substances 0.000 description 1
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 101100463166 Oryza sativa subsp. japonica PDS gene Proteins 0.000 description 1
- 101150061817 PDS1 gene Proteins 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 229930012538 Paclitaxel Natural products 0.000 description 1
- 102000007079 Peptide Fragments Human genes 0.000 description 1
- 108010033276 Peptide Fragments Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 108010004729 Phycoerythrin Proteins 0.000 description 1
- 239000004743 Polypropylene Substances 0.000 description 1
- 102000011195 Profilin Human genes 0.000 description 1
- 108050001408 Profilin Proteins 0.000 description 1
- 102100024952 Protein CBFA2T1 Human genes 0.000 description 1
- 102100027171 Protein SET Human genes 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 101150040459 RAS gene Proteins 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 108090000944 RNA Helicases Proteins 0.000 description 1
- 102000004409 RNA Helicases Human genes 0.000 description 1
- 108010078067 RNA Polymerase III Proteins 0.000 description 1
- 102000014450 RNA Polymerase III Human genes 0.000 description 1
- 102100030000 Recombining binding protein suppressor of hairless Human genes 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 208000032826 Ring chromosome 3 syndrome Diseases 0.000 description 1
- 102000000341 S-Phase Kinase-Associated Proteins Human genes 0.000 description 1
- 101150106167 SOX9 gene Proteins 0.000 description 1
- 102100023522 Selenide, water dikinase 2 Human genes 0.000 description 1
- 108010074686 Selenoproteins Proteins 0.000 description 1
- 102000008114 Selenoproteins Human genes 0.000 description 1
- 108010053551 Sp1 Transcription Factor Proteins 0.000 description 1
- 102000015215 Stem Cell Factor Human genes 0.000 description 1
- 108010039445 Stem Cell Factor Proteins 0.000 description 1
- 108700025695 Suppressor Genes Proteins 0.000 description 1
- 208000000389 T-cell leukemia Diseases 0.000 description 1
- 102000002938 Thrombospondin Human genes 0.000 description 1
- 108060008245 Thrombospondin Proteins 0.000 description 1
- 102100029529 Thrombospondin-2 Human genes 0.000 description 1
- 102100034204 Transcription factor SOX-9 Human genes 0.000 description 1
- 101710198026 Transcription factor SOX-9 Proteins 0.000 description 1
- 102100030246 Transcription factor Sp1 Human genes 0.000 description 1
- 102000004243 Tubulin Human genes 0.000 description 1
- 108090000704 Tubulin Proteins 0.000 description 1
- 108090000848 Ubiquitin Proteins 0.000 description 1
- 102000044159 Ubiquitin Human genes 0.000 description 1
- 241000387514 Waldo Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000002469 basement membrane Anatomy 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001851 biosynthetic effect Effects 0.000 description 1
- 210000003969 blast cell Anatomy 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 230000022159 cartilage development Effects 0.000 description 1
- 108700021031 cdc Genes Proteins 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000022534 cell killing Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 108091092328 cellular RNA Proteins 0.000 description 1
- 230000005754 cellular signaling Effects 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 230000008711 chromosomal rearrangement Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002559 cytogenic effect Effects 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 230000003013 cytotoxicity Effects 0.000 description 1
- 231100000135 cytotoxicity Toxicity 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012818 diffuse large B-cell lymphoma Diseases 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 239000000975 dye Substances 0.000 description 1
- 101150039994 dye gene Proteins 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007824 enzymatic assay Methods 0.000 description 1
- 229940088598 enzyme Drugs 0.000 description 1
- 229940105423 erythropoietin Drugs 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003890 fistula Effects 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 238000001506 fluorescence spectroscopy Methods 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000003102 growth factor Substances 0.000 description 1
- ZJYYHGLJYGJLLN-UHFFFAOYSA-N guanidinium thiocyanate Chemical compound SC#N.NC(N)=N ZJYYHGLJYGJLLN-UHFFFAOYSA-N 0.000 description 1
- 201000005787 hematologic cancer Diseases 0.000 description 1
- 230000023597 hemostasis Effects 0.000 description 1
- 210000001320 hippocampus Anatomy 0.000 description 1
- 108010027263 homeobox protein HOXA9 Proteins 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003119 immunoblot Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 239000000411 inducer Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 108010021518 integrin beta5 Proteins 0.000 description 1
- 102000006495 integrins Human genes 0.000 description 1
- 108010044426 integrins Proteins 0.000 description 1
- 230000016507 interphase Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000001155 isoelectric focusing Methods 0.000 description 1
- 229940043355 kinase inhibitor Drugs 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 210000004379 membrane Anatomy 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000000386 microscopy Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 125000002950 monocyclic group Chemical group 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 210000005170 neoplastic cell Anatomy 0.000 description 1
- 210000003757 neuroblast Anatomy 0.000 description 1
- 230000001272 neurogenic effect Effects 0.000 description 1
- 229920001220 nitrocellulos Polymers 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003499 nucleic acid array Methods 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 229960001592 paclitaxel Drugs 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 150000008300 phosphoramidites Chemical class 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 239000003757 phosphotransferase inhibitor Substances 0.000 description 1
- 238000000554 physical therapy Methods 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 229920002401 polyacrylamide Polymers 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 229920001155 polypropylene Polymers 0.000 description 1
- OXCMYAYHXIHQOA-UHFFFAOYSA-N potassium;[2-butyl-5-chloro-3-[[4-[2-(1,2,4-triaza-3-azanidacyclopenta-1,4-dien-5-yl)phenyl]phenyl]methyl]imidazol-4-yl]methanol Chemical compound [K+].CCCCC1=NC(Cl)=C(CO)N1CC1=CC=C(C=2C(=CC=CC=2)C2=N[N-]N=N2)C=C1 OXCMYAYHXIHQOA-UHFFFAOYSA-N 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000000069 prophylactic effect Effects 0.000 description 1
- 230000004952 protein activity Effects 0.000 description 1
- 238000000575 proteomic method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 108700042226 ras Genes Proteins 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009844 retrograde axon cargo transport Effects 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- PYWVYCXTNDRMGF-UHFFFAOYSA-N rhodamine B Chemical compound [Cl-].C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=CC=C1C(O)=O PYWVYCXTNDRMGF-UHFFFAOYSA-N 0.000 description 1
- 210000001202 rhombencephalon Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000002415 sodium dodecyl sulfate polyacrylamide gel electrophoresis Methods 0.000 description 1
- OSQUFVVXNRMSHL-LTHRDKTGSA-M sodium;3-[(2z)-2-[(e)-4-(1,3-dibutyl-4,6-dioxo-2-sulfanylidene-1,3-diazinan-5-ylidene)but-2-enylidene]-1,3-benzoxazol-3-yl]propane-1-sulfonate Chemical compound [Na+].O=C1N(CCCC)C(=S)N(CCCC)C(=O)C1=C\C=C\C=C/1N(CCCS([O-])(=O)=O)C2=CC=CC=C2O\1 OSQUFVVXNRMSHL-LTHRDKTGSA-M 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000020347 spindle assembly Effects 0.000 description 1
- 230000028070 sporulation Effects 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- RCINICONZNJXQF-MZXODVADSA-N taxol Chemical compound O([C@@H]1[C@@]2(C[C@@H](C(C)=C(C2(C)C)[C@H](C([C@]2(C)[C@@H](O)C[C@H]3OC[C@]3([C@H]21)OC(C)=O)=O)OC(=O)C)OC(=O)[C@H](O)[C@@H](NC(=O)C=1C=CC=CC=1)C=1C=CC=CC=1)O)C(=O)C1=CC=CC=C1 RCINICONZNJXQF-MZXODVADSA-N 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 229960004072 thrombin Drugs 0.000 description 1
- 108010060887 thrombospondin 2 Proteins 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011830 transgenic mouse model Methods 0.000 description 1
- 230000014621 translational initiation Effects 0.000 description 1
- 229960001727 tretinoin Drugs 0.000 description 1
- 230000005747 tumor angiogenesis Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000004614 tumor growth Effects 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 238000001262 western blot Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【課題】
【解決手段】大きなデータアレイを解析する方法が提供される。1つの観点では、本発明は2つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは、複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上のパラメータによってインデックス付けされる。1つの実施形態では、この方法は、モデルをデータに適合させることと、適合の統計学的有意性を評価することによって適合度を決定することと、シグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルをデータに適合させるより前にメンバ間の異質性に関するデータを補正することをさらに含む。
【選択図】図1
【解決手段】大きなデータアレイを解析する方法が提供される。1つの観点では、本発明は2つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは、複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上のパラメータによってインデックス付けされる。1つの実施形態では、この方法は、モデルをデータに適合させることと、適合の統計学的有意性を評価することによって適合度を決定することと、シグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルをデータに適合させるより前にメンバ間の異質性に関するデータを補正することをさらに含む。
【選択図】図1
Description
【0001】
【発明の属する技術分野】
本発明は、大きなデータアレイを解析する方法に関する。
【0002】
【従来の技術】
リファレンス
ここに参照された刊行物の引用のすべては、明細書の末尾、請求項の直前に記載されている。本発明で参照された各引用例の開示は、参照によりその全体がここに取り込まれる。
【0003】
マイクロアレイ技術の進歩(フォードール他、1991年、シェーナ他、1995年、シェーナ他、1996年、デライジ他、1997年、ランダー、1999年)は、研究者がゲノムワイドのスケールでの動態転写動態を調査することを可能にしてきた。マイクロアレイの発達はまた、プロテオミック検出を可能にしてきた。現在の課題は、これら大きなデータセットから有益かつ信頼できる情報を抽出することにある。マイクロアレイデータは、多くの固有の制限がある。これらのチップにおける発現レベルの評価は、チップ表面の差異、プローブ調製が不均一であること、信号強度の相隣効果など、多くの技術的困難により影響を受けるおそれがある。チップにおけるクロスハイブリダイゼーションもまた、誤相関をもたらすおそれがある。さらに、各サンプルにおけるmRNAの量が変化し、サンプル間の異質性をもたらすかもしれない。これらの制限は異なる影響を持つ一方で、これらの制限の存在が定量解析に課題を与えている。
【0004】
発現データを解析する統計学的方法はほとんど発達してこなかった。現時点での最も生産的な方法はクラスタ解析であり、その価値は長い間認められてきた。アリストテレスもクラスタ解析を用いて500種類の動物を分類したと伝えられている。そして、この方法は、1753年のリンネの時代までに確立された。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、この方法には、1)アルゴリズムに一貫性のある適切な定義が欠けている、2)クラスタ数の決定が裁量的である、3)クラスタの構成が再現できない場合がある、4)確率モデルあるいは、事例と変数を同時にクラスタ化するモデルの明確な選択肢がない、などの制限がある。
【0005】
クラスタ解析の第1の目的は、類似の変化パターンを持つ遺伝子をクラスタに分類することである。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、雑音の影響を最小にするためには、これらの大きなデータセットから個々の遺伝子に関する情報を抽出する付加的な方法が必要となる。
【0006】
発現データを解析するために、いくつかのクラスタ化アルゴリズムが提案されてきた。最も広く用いられている主なものの1つは、階層クラスタ化アルゴリズムである。基本的に、このアルゴリズムは遺伝子発現のペアワイズの相関係数を演算することを伴う。そして、この相関係数の大きさに基づいて、このアルゴリズムはすべての遺伝子を単一の階層ツリーに分類する。2つの遺伝子発現パターン間の相関が高いほど、このツリーにおいて遺伝子はより近くに位置する(アイゼン他、1998年)。このアルゴリズムは、複数の遺伝子の同時制御について多くの有用な発見をもたらしてきたが(スペルマン他、1998年)、すべての遺伝子発現パターンをむりやり単一のツリーに分類することは極端な単純化とされるに違いない。
【0007】
他のクラスタ化アルゴリズムには、セルフオーガナイジングマップがある(タマヨ他、1999年)。この方法は、解析に対する予備的情報として遺伝子のクラスタに偏幾何学的構造を重ね、類似の水平パターンを持つ遺伝子のクラスタを相互に同定する。最近の別の方法は、遺伝子をクラスタ化するためのK平均アルゴリズムである(タバゾイエ他、1999年)。これはアンスーパーバイズド的で反復的なアルゴリズムであり、クラスタの差異の中で最小化し、クラスタの差異の間で最大化するクラスタを検索する。これらの方法の両方に固有の課題は、任意の中間パラメータによって作成されるクラスタが主観的に選択されるおそれがあるという点である。異なる選択をすれば、異なるクラスタが作成されることになる。
【0008】
アルゴリズムをクラスタ解析することに関しては一般的にいくつかの付随的な課題もある。まず、クラスタ化の方法は、相関係数あるいは“距離”測定値を用いて、遺伝子の発現パターンの類似性に基づいて遺伝子を分類することを目的としている。確かにこのような類似性は意味があるものとなりうる。しかし、これらは実験上の変化からも生じうるのである。さらに言えば、クラスタ解析方法の一般的な結果である同族の複合ツリー(系統樹)は、互いに比較が難しく、クラスタの統計学的有意性を示さない。この形式はさらに、その根底にある構成を理解するために必要な、異なる変異歴または異なる生理学的状態におけるクラスタのパターンの詳細かつ厳密な比較を妨げてしまう。これらの課題がクラスタ解析を補完するモデリング法の発展を動機づけたのである。
【0009】
モデリングは、データのより客観的な処理の可能性を提供するために、クラスタ解析を発展させたものである。鍵となるアイデアは遺伝子発現をネットワークとしてモデリングし、モデリングを通じて時の経過によるダイナミックな変化を特徴づけることである。そのようなモデルの1つは、1組の微分方程式からなる。しかしながら、このような動態システムのモデリングは、時間の経過にわたって連続的に集積されたデータを必要とし、これは、現在の技術では容易に利用できない。さらに、このようなダイナミックなシステムから解を得ることは演算上高度で困難である。この演算を簡単化するために、リャング他(1986年)は、発現レベルを二分化し、時間スケールを離散化させることを提案し、これらはいわゆるブールネットワークとなった。このような簡単化は、モデルの構築および適合を大変容易にしており、この方法は発現データ解析にも有益に適用されている。細胞生物学に関する基本的な興味は、例えば、30秒毎に遺伝子調節ネットワークに対する洞察を得ることである。
【0010】
【発明が解決しようとする課題】
現在の方法は、生物体組織においてより高度の分解能を達成することを妨げる、以下の未解決の課題に直面している:(1)細胞は同調可能だがその同調は完全なものではない;(2)マイクロアレイ技術は高いスループットを持つが、結果データの質は向上しないままである;(3)mRNA抽出およびサンプル調製の現在の方法は、サンプルを得ることができる頻度に実用上の制限がある;(4)実験上の変化は、状態が十分に制御されていたとしても、時間経過にわたって大きなままである。同様の制限は、例えばプロテオミック解析などを含むさまざまな原因のうちの任意の1つから導出される大きなデータアレイの解析においても存する。
【0011】
本発明は大きなマイクロアレイデータセットのクラスタ解析を補強する相補的な方法を提供する。
【0012】
【課題を解決するための手段】
本発明は、例えば、ゲノムの発現データおよびプロテオミックデータのような関連シグナルおよび解析データを抽出するための統計ツールを使用した方法を提供する。本発明は、統計学的モデリングを使用して大きなデータアレイにおける刺激応答プロファイルを同定する方法を提供する。
【0013】
1つの観点では、本発明は、2つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上のパラメータによってインデックス付けされる。データは、例えば、アレイ中のx−y位置によってインデックス付けされてもよく、また、既知の遺伝子との対応によって、あるいは刺激によってインデックス付けされてもよい。データは1つ以上の共変数と関連づけられている。共変数は、いくつかの異なるタイプであってもよい。臨床研究においては、共変数は、患者に対する診断、病歴、投薬歴、病理学的状態、およびバイオマーカー情報を含んでいてもよい。母集団調査のためには、共変数は年齢、性別、体重、身長、民族、生活様式、ダイエット、および質問事項を評価する他の情報を含んでいてもよい。基礎生物研究のためには、共変数は候補遺伝子、時間経過検査における時間、温度、細胞型、細胞のタイミング、用量応答調査における用量、あるいは刺激または薬に応答した細胞株の特性の存在を含んでいてもよい。共変数が薬に応答した細胞株の特性である場合、本発明の1つの実施形態では、薬に対する応答はED50である。本発明の1つの観点では、データアレイのメンバによって提供されるシグナルは薬の投薬量に応答している。別の実施形態では、シグナルは共変数の変化に応答している。さらに別の実施形態では、シグナルは1つより大きい共変数の変化に対応している。
【0014】
1つの観点では、本発明は、2つ以上のデータアレイからのデータを解析する方法を提供し、各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上の共変数に関連づけられ、この方法は、モデルをデータアレイおよび共変数に適合させることを含む。本発明の1つの実施形態では、モデルをデータアレイに適合させることは、共変数値を推定することを含む。別の実施形態では、モデルをデータアレイに適合させることは、少なくとも線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも1つである既知のモデルを適合させることを含む。本発明の別の実施形態において、モデルをデータアレイに適合させることは、派生モデルを適合させることを含む。1つの実施形態で、派生モデルは単一パルスモデルを含む。本発明の別の実施形態で、モデルは線形モデルである。さらに別の実施形態で、モデルは二次モデルである。
【0015】
1つの実施形態では、この方法は、モデルをデータアレイおよび共変数に適合させること、適合の統計学的有意性を評価することによって適合度を決定すること、およびシグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルにデータを適合させるより前に、メンバ間の異質性についてデータを補正することを含む。1つの実施形態では、メンバ間の異質性についてデータを補正することは、データを正規化することを含む。別の実施形態では、シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される。この方法の1つの実施形態では、共変数値は加重最小2乗法によって推定される。
【0016】
本発明の1つの実施形態では、データアレイは、同調化実験によって導出されたデータを含む。別の実施形態では、この方法は、可変同調がなされている場合に発現を解析することを含む。さらに別の実施形態では、この方法は、同調が悪化している場合に、発現を解析することを含む。本発明のある観点において、この方法は、細胞周期における単一転写物の発現を解析することを含む。本発明の他の実施形態では、この方法は、細胞周期における複数の転写物の発現を解析することを含む。別の実施形態では、この方法は、複数の細胞型における1つ以上の転写物の発現を解析することを含む。本発明の1つの観点では、データアレイは時の経過にしたがって得られたデータを有する。本発明の1つの観点では、データアレイは正常および異常組織に由来するデータを含む。
【0017】
さらなる実施形態では、本発明は、2つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは被検査変数に応答するシグナルを提供する。この方法は、メンバ間の異質性を推定すること、所定のパターンとは異なるメンバを同定すること、所定のパターンとは異なるメンバについてデータを補正すること、データで推定可能な1つ以上のパラメータによってインデックス付けされているモデルを、データアレイに適用すること、共変数値を推定することによってモデルをデータに適合させることと、シグナルの統計学的有意性を決定することを含む。この方法では、適合度は、適合の統計学的有意性を評価することによって決定される。1つの実施形態では、適合の統計学的有意性の評価は、モデルによって説明される観察される変動の範囲を決定することを含む。別の実施形態では、シグナルの統計学的有意性はシグナルシグナル対雑音比の有意性を決定することを含む。本発明の実施形態では、異質性の推定は、メンバの応答が被検査変数によって変化しないと仮定することを含む。さらに別の実施形態では、メンバ間の異質性の推定は、加算的および/または乗算的異質性因子を推定することを含む。別の実施形態では、異質性因子は、適切な方法の1つの例が加重最小2乗法である統計学的方法によって推定される。この方法の別の実施形態では、異質性因子は、所定のパターンとは異なるメンバについてデータを補正し、補正値を提供するために用いられる。
【0018】
別の実施形態では、本発明は、2つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは、被検査変数に応答するシグナルを提供する。この方法は2つ以上のデータアレイからデータを獲得することを含み、各データアレイはサンプルのアレイから導出され、各サンプルはシグナルを提供し、シグナルは被検査変数に応答する。このデータから、サンプル固有の異質性について補正因子を推定し、アレイ固有の異質性について補正因子を推定し、データで推定可能な1つ以上のパラメータによりインデックス付けされたモデルを適用し、各パラメータは値を有しており、モデルに適合するパラメータ値を決定し、適合の統計学的有意性を評価することによって、モデルに対するパラメータ値の適合度を決定し、シグナルの統計学的有意性を決定する。1つの実施形態では、適合度は、Zスコア、p値、およびR2からなるグループから選択された統計基準によって決定される。本発明の1つの実施形態では、補正因子は加算的因子である。
【0019】
本発明の別の観点では、2つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは1つ以上の変数に関連する。この方法は、データセット全体にわたって、異質性を推定し、データセットに関係するパラメータを含む統計モデルを適用し、モデルに適合するメンバ固有パラメータ値を推定し、適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、シグナルの統計学的有意性を決定することを含む。本発明の1つの実施形態では、各メンバは、単一遺伝子からの転写物を有し、メンバ固有パラメータ値は、転写物の発現のレベルを有する。本発明の1つの実施形態では、メンバ固有パラメータ値を推定することは、回帰解析を含む。さらに別の実施形態では、異質性を推定し、メンバ固有パラメータを推定することは、残差の2乗の和を最小にすることを含む。別の実施形態では、異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む。別の実施形態では、この方法は、データセットが安定パターンと異なるときに、データセットのすべてのメンバについてデータを補正することを含む。別の実施形態では、異質性を推定することは、異質性因子を決定することを含む。別の実施形態では、異質性因子は、以下の合計の最小2乗を最小にすることによって推定され、
【数2】
ここで、Yk=(Y1k,Y2k,...,YJk)はアレイを示し、Yjkはk番目のデータセットのj番目のメンバのパラメータ値を示しており(j=1,2,...,J;k=1,2,...,K)、(δk,λk)はサンプル固有の加算的異質性因子および乗算的異質性因子であり、(aj,bj)は回帰係数であり、加重の範囲は0から1であり、合計は全メンバと全データセットに対するものである。さらに別の実施形態では、異質性因子は加算的因子または乗算的因子である。
【0020】
本発明の1つの観点は、本発明の方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体を提供する。別の実施形態では、本発明は、プロセッサ、メモリ、および動作環境を有するコンピュータシステムを具備する。このコンピュータシステムは、本発明の方法を実行するために動作可能である。
【0021】
本発明の1つの観点は、統計学的モデリング方法を提供し、大きなデータセットからの刺激に応答する転写物を持つ遺伝子を同定する。このモデルは、システマティックな異質性について補償し、提供された遺伝子固有の情報の統計学的有意性を評価する。
【0022】
1つの実施形態では、本発明は、マイクロアレイデータにおいて細胞周期で調製された転写物を同定するための単一パルスモデル(SPM)を提供する。この実施形態にしたがうと、この方法は、SPMの変化を用いることによって補正因子を推定し;SPMの変化を用いることによって補正因子を推定し、SPM変動を用いることによって細胞周期間隔を推定し;可変同調に対応する標準偏差を推定し、活性化時間、不活性化時間、基底レベルおよび高められたレベルを、これらの標準誤差、Zスコア、および変化の割合とともに含む遺伝子に特異的なパラメータを推定し;SPMの周期間隔を時間経過の終点に対して設定し、全観察を通じて1つのパルスにデータを適合させることによって、単一非振動ピーク(SNOP)プロファイルを同定し;レイ中の遺伝子に関するSPMにより説明される変化の割合を定量化することによって細胞周期で調製された転写物を同定し;パルス高のしきい値を設定し、SPMへの適合に対するSNOPへの適合の比を演算することを含む。
【0023】
別の観点では、本発明は、刺激に応答した転写の誘導または抑制を受ける遺伝子を同定するための方法を提供する。
【0024】
1つの実施形態は、疾病に関連した遺伝子を同定し、これらを臨床結果と相関させる方法を提供する。さらなる実施形態では、本発明は、腫瘍の発現プロファイルに基づく腫瘍のサブタイプの分類と、このようなサブタイプと臨床結果との相関に対する方法を提供する。
【0025】
【発明の実施の形態】
前述の観点および本発明の多くの付随的な利点は、添付の図面とともに以下の詳細な説明を参照することによってより容易に認められるだろう。
【0026】
本発明は、関連シグナルを抽出し、ゲノムの発現データやプロテオミックデータのようなデータを解析するために統計ツールが用いられる方法を提供する。本発明は、統計学的モデリングを利用して大きなデータアレイのプロファイルを同定する方法を提供する。
【0027】
1つの実施形態では、本発明は、その転写物プロファイルが刺激に応答する遺伝子を同定する統計学的方法を提供する。一般的な用語では、このアプローチは、1組の判断可能なパラメータを用いて、一般的な応答あるいはシグナルと、例えば、タイミング、細胞型、温度、または投薬量のような特定の実験変数との関係をモデリングすることを含む。他の変数も含まれるが、時間経過調査の時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミング、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報には限定されない。あるいは、変数は薬に対する応答における細胞株の性質であり、例えば、薬に対する応答の適切な性質は、ED50である。
【0028】
1つの目的は、刺激に対する転写物応答に関連した特定の仮定を検証する目的とともに、個々の転写物について関連するパラメータを推定することである。統計モデルが特定の遺伝子またはタンパク質に関する発現データの適切な表現を提供すれば、対応するモデルパラメータ推定値は、その遺伝子またはタンパク質に対してある応答特性を提供することができる。例えば、モデルパラメータは、その応答の大きさ、期間、またはタイミングを記述することができる。このモデリング戦略は、2つのグループの比較に用いることができ、その目的は、正常組織と異常組織の間で、異なるフェーズもしくは細胞周期で、異なった分化の段階で、または薬剤開発研究において、差次的に発現される遺伝子またはタンパク質を同定することであり、その目的は投薬量の影響を受けた転写物を同定することである。パラメータまたは共変数値は、多くの方法で推定されてもよいが、1つの例は、加重最小2乗法による。
【0029】
本発明の方法において、アレイのメンバのそれぞれがシグナルを提供する場合、2つ以上のアレイからのデータが調査され、アレイにわたる異質性を推定する。異質性は加算的または乗算的であってもよく、例えば、加重最小2乗法によって演算可能である。これらのデータメンバは、(SPMのようなモデルによって定量化された)所定のパターンを確認した後、異なるアレイからのこれらのデータメンバを正規化するよう補正され、アレイ間の比較を容易にする。ここでは、所定のパターンとは異なるこれらのデータメンバは正規化によって補正される。このモデルはデータアレイに適用され、モデルは1つ以上の生物学的パラメータによってインデックス付けされる。この生物学的パラメータは利用可能なデータによって推定可能な共変数に関連づけられてもよく、このモデルはパラメータ値を推定することによってデータに適合され、適合度は適合の統計学的有意性を評価することによって決定される。適合度は、例えば、R2およびχ2統計量によって決定することができる。シグナルの統計学的有意性は、例えば、Z統計量やp値を用いることで実現できる。このようなZ統計量は、シグナル対雑音比の有意性を測定する。
【0030】
典型的な発現データは、高スループットであるが、十分に構造化されており、複数のサンプル(k=1,2,...,K)による何千もの遺伝子(j=1,2,...,J)の観察の行列として示される。さらにYjkは、刺激実験におけるk番目のサンプルにおけるj番目の遺伝子についての発現レベルを示す。研究される遺伝子の数Jはしばしば、一般的に何千もの高い次元からなることが多い一方で、サンプル数Kは比較的少なくてもよい。標準的な統計的アプローチは、k番目のサンプルについて、ベクトル応答Yk=(Y1k,...,YJk)の平均を、対応するベクトルxk=(x1k,...,xpk)に関連づける。このベクトルは、k番目のサンプルの刺激のカテゴリおよび予想される他の特性を、回帰関数、すなわちΔ(xk,θ)’={Δ1k(xk,θ),...,ΔJk(xk,θ)}を用いて符号化し、ここでθ’=(θ1,...,θJ)は、遺伝子に特異的なパラメータおよび他のパラメータを含んでいてよく、また、推定されるべきものである。このような回帰モデルに基づいて、差分ベクトルYk−Δk(xk,θ)の成分は平均値0を有するが、例えば、mRNAの抽出、増幅、およびサンプル間の評価の変化のために、相関されるよう期待されてもよい。このような変化は、ここで異質性パラメータとして参照されている付加的なパラメータをYkの平均についてのモデルに導入することによって確認可能である。実際、サンプルkについて加算的異質性パラメータδkおよび乗算的異質性パラメータλkの両方を導入することができ、Yjkの期待値に関するモデルδk+λkΔjk(xk,θ)を与える。δkのものとλkのものの平均は、それぞれ0および1に制限され、当初の対象の回帰パラメータθと関連する、可能性ある同定可能性問題が回避される。Ykの高い次元によって、これらの異質性パラメータが正確に推定できるようになる。これらのパラメータを含めることは、特にインビボ実験に関して所定xkに対するYkがほぼ独立しているという仮定をもっともらしいものにすることができる。このような仮定の下で、モデリングおよびθの推定のための数的処理が簡単化される。
【0031】
以下のリャングおよびゼガー(1986年)による、生殖統計学論文(64)において説明されたアプローチにしたがい、平均パラメータベクトルη’={δ1,...,δK,λ1,...,λK,θ}の推定は、Ykについて“作用する”共分散行列を特定することにより処理することができる。これは、上述の独立仮定の下で、Vk=対角(ν1 2,...,νJ 2)として記される対角行列により近似されるので、J個の遺伝子のそれぞれについての発現レベルが別個の分散を持つことができる。
【0032】
平均パラメータηのベクトルの推定は、η’^={δ1^,...,δK^,λ1^,...,λK^,θ^}として推定することができ、
推定式の解は以下の式で求められ、
【数3】
【0033】
ここで、DkはパラメータηについてのYkの平均値の偏導関数の行列であり、Vk^は、各νJ 2が一致推定νJ 2^で置換されたVkを示し、1は、長さJのものの列ベクトルを示している。上述のモデリングの仮定の下で、η^は、JおよびKの両方が大きい場合にほぼ共正規分布し、η^の分散は(JおよびKが大きくなるにつれて)標準”サンドイッチ”公式(64;8)により一致推定が可能である。
【0034】
ここで概説された平均パラメータ推定方法は、さまざまなタイプのマイクロアレイデータセットに有効であると予測される。これは、遺伝子に特異的な有意なパラメータを推定して、刺激に応答した発現レベルを特徴づけることを可能にし、この意味において、パターンの特性に重点をおかずに、同様の発現パターンを有する遺伝子を探し出すというクラスタ解析に対して相補的である。例えば、疾病組織と非疾病組織間で発現パターンを比較する場合、非疾病組織サンプルについて値0をとり、疾病組織サンプルについて値1をとるバイナリインジケータxkを定義し、回帰関数Δjk(xk,θ)=θj0+θj1xkを特定することができ、ここで、j番目の遺伝子は、θj1≠0のとき、正常組織と異常組織との間で差次的に発現するだろう。回帰変数xkは、回帰関数がk番目のサンプル(あるいはk番目の研究対象)の他の測定された特性に基づくことが可能であるよう拡張されてもよい。同様に、時間の経過に伴う発現の変化の調査において、xk=tkを定義し、tkは収集されるべきk番目のサンプルのタイミングであり、線形関数または他の関数形態を選択して、回帰関数Δjk(xk,θ)をモデリングすることができる。
【0035】
任意の所定のアプリケーションにおいて、同定されたプロファイルは、使用される特定のモデルに適合するものであるが、構成可能なモデル数は限定されない。当業者にとって明らかなように、モデルの選択は線形または二次であってよく、既知のモデルまたは派生モデルであってよい。この場合、本発明で用いられる既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも1つを含むことができるがこれらに限定されない。本発明で有効な派生モデルは、単一パルスモデルを含むがこれに限定されない。適合度は、当業者にとって自明な多くの手段によって決定可能である。適合度を決定する適切な方法の例には、Zスコア、p値、およびR2が含まれるがこれらに限定されない。
【0036】
さらに、この戦略は演算の負担を大幅に減らし、大きなデータセットを調査し、雑音の影響を最小にすることができる。さらに、研究者がこれらを直接検索して、どのような既存の情報をも活用することを可能にする。このように、本発明は2つのグループを比較するために利用できるモデリングアプローチを提供する。例えば、この方法は、正常組織と異常組織との間で差次的に発現する遺伝子あるいはタンパク質を同定するための目的での場合に利用可能である。あるいは、薬物発見調査において、投薬量によって変化する転写物を同定する目的である場合にも利用可能である。後者の場合、特定の用量応答パターンを持つ転写物を捜すことができ、このようなパターンを特徴づけるパラメータは、変化の傾きやピーク応答に必要な投薬量を含むことが可能である。
【0037】
このアプローチの有効性を示すために、発芽イーストサッカロミセスセレビジアの周期転写遺伝子を同定するモデルが形成された。この場合、刺激は、細胞を固定制止位置から解放することにより細胞周期と同調的に再開される。応答は転写物のパルスであり、鍵となる実験上の変数は細胞周期のタイミングである(2;3;11)。4つの同調した細胞周期データセットが生成され、一般的な調査のために利用可能となっている(2;11)。これらの大きなデータセットは、視覚検査(2)、フーリエ変換および階層クラスタ化(11)、K平均(13)およびQTクラスタ化(113)、セルフオーガナイジングマップ(12)および特異値分解(114;115)によって解析されている。3つのデータセットのフーリエ変換解析は、周期性についてのしきい値が既知の周期的な遺伝子の行動に基づいた場合、800周期転写遺伝子が存するとの報告を導き出した(11)。次に、K平均クラスタ化は1つのデータセットに適用され、524メンバを有する5つの周期クラスタが同定された(13)。しかしながら、両方のアプローチによっては330遺伝子しか同定されない。比較として、本発明の方法は、統計学的モデリングを用いて、これらの大きなデータセット内の規則的に振動しているプロファイルを捜す。このアプローチはクラスタ化方法を補完する。クラスタ化方法では、同様の発現パターンを持つ遺伝子を1つにグループ分けしようとするよりも、所定の刺激により影響を受けた転写物を直接同定し、個々の応答パターンに関する特定の情報を提供する。以下で詳説されるように、この方法はさらに、サンプル間の応答パターンの異質性が予想された強さであるタイプの実験上の変数に対する応答パラメータの推論を可能にする。
【0038】
本発明の方法を示すために同調化実験が考えられる。これは、細胞周期毎に1度転写されるmRNAを同定するものである。j番目のmRNAが活性化すると、高められたレベル(αj+βj)に達し、不活性となると、基底発現レベル(αj)に落ちる(図1)。その後、βjは、平均化されたピークと谷の発現レベル間の差分として解釈される。不完全な同調で、複数細胞の中で連続回数転写され消失したj番目のmRNAの複数のコピーについて検討すると、時間tkにおけるこのj番目の転写物の平均発現レベルは、以下ようにモデリングすることができる:
【数4】
ここで、j=1,2,...,Jおよびk=1,2,...,K、全K回の時間点における全J個の転写物であり、(ζj、ξj)は、j番目の遺伝子についての活性化および不活性化時間をそれぞれ示し、tk*=tk+τにおいて、τは、実際の細胞周期のタイミングと観測されたタイミングとの差分を示し、これは一般的にはフェーズとして知られている。Θは細胞周期間隔であり、総和は複数の細胞周期c=0,1,2...の全体に対するものである。標準偏差σkは、tk周辺の“真の”細胞固有タイミングの変化を示す。この変動は平均tkを有する正規分布にしたがい、平均モデルでは累積正規分布関数φ(・)となると仮定している。また、(δk,λk)は、上述したように、k番目のサンプルに対する加算的および乗算的異質性パラメータであり、ここでxk=tkである。上記単一パルスモデル(SPM)は、細胞周期が進むにつれて、各遺伝子の平均発現に関するモデルを特定する。遺伝子固有の活性化および不活性化時間は、背景および高められた発現レベルと同様に、遺伝子ごとに推定される。SPMは、サンプル間の変動、同調が完全でない事実、および以下で説明するように、時を経て悪化する同調も許容する。SPMの開発のさらなる詳細は例1で示されている。結果として示された平均発現モデルが視覚的に示されており、従来的な方法で測定された周期的な転写物について観察されたプロファイルを再現している。
【0039】
上述のSPMは、すでに概略が示された平均モデル推定方法を用いて適用することができる。数字的側面を簡単化するために、マルチステージ方法が用いられた:1)異質性パラメータ(δk,λk)、k=1,2,...,Kは、パルス高が0に設定されている場合、すべての遺伝子を用いて推定される。2)細胞周期間隔Θは、パルスモデル下での既知の細胞周期遺伝子のグループを用いて推定される。3)同調変動量、σk、k=1,2,...,K、は、既知の遺伝子の同一のグループを用いて推定される。4)遺伝子に特異的なパラメータ(αj,βj,ζj,ξj)、j=1,...,Jが推定される一方で、他の推定パラメータはそれの推定値で固定していると扱われる。上記の推定式[1]を用いた同時推定アプローチが好ましいが、それらの分散推定値の遺伝子に特異的なパラメータの推定における影響は、遺伝子に特異的なパラメータが他のパラメータと弱く相関することから最小となりやすい。細胞周期間隔およびサンプル固有パラメータを固定することにより、J遺伝子のそれぞれについて、遺伝子に特異的なパラメータの推定値、およびそれらの分散推定値の別々の単純演算が可能となる。これらの演算のさらなる詳細は例1で示される。
【0040】
SPMの適合をテストするために平均モデルの時間の付加的な多項式関数が導入され、多項係数が同様に0であるという仮説がテストされた。具体的には、SPMが強化され、以下の式で書かれており、
【数5】
SPMからのずれが許容される。(γj1,γj2,γj3)=(0,0,0)についてのスコアタイプのテスト統計が、上述の漸近正規理論を用いて構築された。このスコア統計量χj 2は、十分大きなJおよびKについて、SPMモデルの下で3つの自由度を持つ近似χ2分布を有する。SPMから大きくずれた、11.3、パターンを持つ遺伝子を同定するために、このχ2分布の上位1%が使用された。cdc28データセットに関して、例えば、262個の遺伝子しか、臨界値を超えるテスト統計量を与えない。当業者にとって明らかなように、これらの多項式の項以外の他の偏差も特定可能である。
【0041】
発現パターンがSPMから大きくずれていない遺伝子について、活性化時間(ζj)、不活性化時間(ξj)、基底発現レベル(αj)および間隔中の発現レベルの高まり(βj)が、それらの推定標準偏差とともに推定される。SPMの下で、βj≠0の場合のみ、発現レベルは細胞周期で調製される。各Zjの絶対値について臨界値5が選択され、ヌル仮定を排除する。このZjは、推定標準偏差に対する推定値βjの比である。この値は、正規分布の末端ではなれており、検査される6000個程度の遺伝子の場合でさえ、0.3%(両側)のゲノムワイドの有意レベルを保つよう予測される。SPMからのずれの証拠を示したいくつかの遺伝子は、細胞周期とともに変化する発現パターンも持ちうる。上述の強化された平均モデルμj〜(tk)の場合にこれらの遺伝子についてもβj=0をテストすることができるが、そのようなテストの解釈は強化モデルの妥当性次第である。
【0042】
3つのデータセットがこの解析で利用された。cdc28データセットはチョウ他(1998年)によって生成され(2)、温度感知可能なcdc28の突然変異を利用して同調が確立され、G1で細胞を可逆的に停止させる。簡単に言えば、オリゴヌクレオチドアレイは、各サンプルで作られた蛍光ラベル付けされたcDNAにハイブリダイゼーションされ、絶対蛍光強度値は、各ターゲットサンプルの各転写物の量に比例すると仮定される(3)。これらのアレイからのデータはhttp://genomics.stanford.edu.からダウンロードされた。データの他の2つのセット(アルファ因子およびcdc15)は、アルファ因子媒介されたG1の停止および、温度感知可能なcdc15の突然変異を利用して、スペルマン他(1998年)によって生成され(11)、それぞれ可逆Mフェーズの停止を誘導した。簡単に言えば、蛍光ラベル付けされたcDNAは、各時間点からのRNAで作られ、第2の蛍光染料は、非同調制御培養で作られたcDNAをラベル付けするために用いられた。制御およびテストcDNAは混合され、PRC増幅されたイーストのオープンリーディングフレーム(ORF)のアレイにハイブリダイゼーションされた。両染料の蛍光強度値が測定され、テスト対制御値の対数比が生成された。得られる比率は、テスト対制御mRNAレベルの対応する真の比率を近似すると仮定された(11)。これらのデータおよびcdc28データは、比率データを模倣するよう再スケールされており、パブリックドメインサイト(http://cellcycle−www.stanford.edu)からアクセスされた。その結果はこれらのデータセットの解析に基づき、これら配列されたサンプルの調製および処理に伴う変化のすべての原因の影響を受けた。
【0043】
SPMの主な仮定は、で調製された転写物が周期毎に1度だけピークをとり、これらのパルスは、連続周期において一定回数生じるというものである。SPMには、サンプルにわたる加算的および乗算的異質性を調製できる項が含まれる。図2は、各データセットについて演算されたこれらの値を示している。加算的異質性は対数比が用いられるとき最小である。cdc28データセットについて絶対強度が検討されるとき、加算的異質性は、90分の時間点で最も明らかとなる。これは、この特定の時間点にわたる懸念を確認し(2)、その異質性について補正する手段を提供する。
【0044】
104個の既知の細胞周期で調製された遺伝子のセットと、可能性ある細胞周期間隔の範囲に対するプロファイリングとを用いて、各データセットについて細胞周期間隔が推定された(例1を参照)。予測されるように、細胞周期間隔は各同調方法により異なる。アルファ因子およびcdc15データセットに関する細胞周期間隔は、二モード分布を示す(図2)。これらは、第1の周期に差次的に影響を与え、転写物のサブセットのタイミングを変更させるリカバリーアーティファクトによるものかもしれない。ある2乗の加重和を最小にする推定細胞周期間隔が用いられ、アルファ因子の同調について58分の値を与え、cdc15の細胞については115分、cdc28の培養については85分の値を与えている。図2はさらに、時の経過による同調の損失に関連する推定標準偏差も示している。いったんこれらの値が得られると、j=1,...,Jのj番目の遺伝子についてχj 2値が演算され、遺伝子に特異的なパラメータが、SPMと一致する転写物パターンを持つすべての遺伝子について推定される(すなわち、χj 2が11.3より少ない値をとる)。遺伝子に特異的なパラメータは、平均活性化および不活性化時間、ならびに基底および高められたレベルを含む。
【0045】
図3は、5つの周期的遺伝子についてのマイクロアレイデータ(実線)およびこれらのプロファイルに対する適合SPM(点線)を示している。明らかなことは、モデルが、データのプロファイルに非常に近似し、観察されたパターンと一致する平均活性化および不活性化時間(かっこ書き)を提供している。これらの振動に対するZ値は、cdc15データセットにおけるRFA1に対する約18から、アルファ因子データセットにおけるMCM3に対する約3.5まで変化する。MCM3の周期的な行動がなお明らかなままであるという事実は、かなり控えめなしきい値が各Zjに対して設定されたという確信を与えている。上位3つの転写物はG1固有のMCB調製された遺伝子として分類されている(11)。しかしながら、PDS1パルスは他の2つと比べて遅延している。RFA1およびCLB6は、ほぼ同時に活性化しているが、CLB6mRNAのパルスは短命である。これらの差はSPMによって各遺伝子について演算された活性化および不活性化時間に影響しており、相互調製された転写物を同定するのに用いることができる。
【0046】
合計607個の遺伝子は、cdc28データから直接の絶対蛍光強度測定値を用いて、周期性についてのSPMしきい値を満たした(すなわち、Zjの絶対値が5以上)(2)。ほぼ同数の遺伝子が、この強度の対数あるいはスペルマン他によって生成された強度の対数比(9;10;11)のいずれかを用いることによって得られた。しかしながら、約500個の遺伝子しか3つの解析のすべてで同定されなかった。したがって、任意の単一データ変換は約20%の潜在的な陽性を見逃すおそれがある。それは、Z値がわれわれのしきい値に近いためである。すべてのその後の解析において、アルファ因子およびcdc15データと調和させるために、cdc28データの対数比が用いられた。
【0047】
cdc28データセットにおける細胞周期で調製された遺伝子のリストが視覚調査(2)およびK平均クラスタ化(13)によって編集されている。SPM解析は、これらの割当ての大部分を確認し、より多くの候補振動転写物を同定する。タバゾイエ他(1999年)によって提出されたK平均アプローチについての応用(13)は、3000個のイースト遺伝子を選択するために初期のフィルタリング方法を採用しており、この方法は、時間経過による変化の最も高い係数を示している。その後、反復型K平均方法が、すべての3000個のプロファイルを30のクラスタに区分するために用いられた。すべての3000個のプロファイルを30のクラスタのうちの1つに適合させるという要求は、緩やかに相関された発現のパターンと大きなクラスタとのアセンブリを必要とした。これらのクラスタのうちの5つは、平均テンポラルプロファイルを有し、これは2つの細胞周期にわたってあきらかに周期的であった。しかしながら、524クラスタメンバのプロファイルの約半数だけしか、SPMにおける周期性についてのしきい値を超えなかった。
【0048】
SPMが周期遺伝子の緊密なクラスタを同定できるか否かを判断するために、QTクラストアルゴリズムを用いて3つの異なるしきい値でアセンブルされたG1固有転写物のクラスタについてχ2およびZ値が演算された。この場合、最も緊密なクラスタメンバのすべては、SPMにおいて設定された周期性についてのしきい値を超えたか、非常に近接しているかのいずれかである(図4上段)。制限事例の調査によって、これらは周期的である可能性が高く、これにより我々のZ値のしきい値は控えめであることが示された。クラスタのしきい値がより低く設定されている場合、ナンバーシップは2倍になり、ほとんどすべてのプロファイルは再びSPMのしきい値にあるか、あるいはそれよりも十分高くなる(図4中段)。しかしながら、参照文献(113)の著者によって記されているように、272のプロファイルを含むためにクラスタのしきい値をさらに緩和することによって、多くの一致が乏しいパターンを含むことが導かれ、これは、SPMによる低いZ値も有する(図4下段)。このことは、最も周期的な転写物を同定するのにどちらのアプローチも効果的であることを示している。さらに、意味のあるしきい値を確立し、より低いロバスト応答パターンを特徴づけるために、全く異なる2つのデータ解析方法を有することの意義を示している。
【0049】
SPMのもう一つの特徴は、遺伝子に特異的なパラメータの推定にある。図4は、クラスタメンバーシップが増加するにつれ、どのように活性化および不活性化時間の分布が広がるかも示している。これは、非周期的プロファイルを含むことに加えて、このグループが、発現の異なる反応速度を持つ遺伝子を含むことを示す。したがって、SPMは、同様の発現パターンのこれらのクラスタが、対象とする質問にしたがってさらに細分できるようにする。
【0050】
これらの細胞周期データセットの1つの制限は、少ない数のサンプルと、任意の時間点での複数の測定の欠如にある。このことは、間違った陽性および間違った陰性の同定を問題のあるものにする。この問題を軽減するために、SPMを用いてcdc28、cdc15およびアルファ因子のデータセットから周期的な転写物を別々に同定して、その結果を比較した。SPMは、他の2つの同時性のもののいずれかと比べて約2倍程度のcdc28データセットの周期遺伝子を同定し(図5)、少なくとも1つのデータセットにおいて有意な振動を示す遺伝子が全部で1088個存する。SPMによって同定されたこれら1088個の候補周期遺伝子の中には、104個の既知の周期遺伝子の81%が含まれる。254個の遺伝子は、少なくとも2つのデータベースで大きく振動する。これは、すべての遺伝子のうちの4%を示すが、既知の周期遺伝子のうちの46%を含んでいる。したがって、SPMは、偶然により予想されるレベルよりも十分高い既知の周期的な転写物を同定する。3つのデータセットのすべてにおいて周期的として得点づけられた71個の遺伝子には、既知の周期遺伝子の4分の1だけしかない。834個の遺伝子は1つのデータセットにおいてのみ周期的であると考えられ、よって遺伝子のこの大きなグループが不明確でなく分類できるためにはさらなるデータ収集が必要である。
【0051】
スペルマン他(1998年)(11)は、同一の3つのデータセットからの結合されたデータのフーリエ解析を用いて、周期的な転写物を同定した。既知の周期遺伝子をこれらのしきい値を設定するためのガイドとして用いることにより、彼らは、799個の遺伝子が周期的であると推定した。これらの遺伝子のうちの65%だけが、少なくとも1つのデータセットにおいて周期的であるとしてSPMによってピックアップされている。この差は、Zについての控えめなしきい値によってある程度説明することができる。なぜなら、Zについてのしきい値の値を4.0に減らすことによって、これらの遺伝子の79%が少なくとも1つのデータセットにおいて周期的であると分類されるからである。
【0052】
少なくとも2つのデータセットにおいて、SPMによって、周期性についてのしきい値を超える遺伝子のほぼすべても、スペルマン他(1998年)の方法により確認されている(11)。ここで再び、クラスタ化によって、最もロバストな周期パターンが両方の方法によって同定されている。しかしながら、少なくとも1つのデータセットにおいてSPM基準によって周期的であると考えられたが、スペルマン他(1998年)(11)によってそのようには分類されていない571個の遺伝子がある。上述のように、これらはさらなる裏付けデータなしでは、不明確とならないようにして周期的であると分類することはできない。それらは、2つのデータセットにおける間違った陰性か、1つのデータセットにおける間違った陽性のいずれかである。実験上の変動は、スムーズに振動するプロファイルを生成するよりも、非同調的パターンをもたらす可能性が非常に高い。SPMでは、ピークも、連続した細胞周期において同時に生じなければならず、ピークと谷は、プロファイルにおいて、単一のポイントで表される場合には認識されない(例1を参照)。これらの制限は、雑音の影響を低減させ、間違った陽性のより低い誤差比率をもたらすに違いない。しかしながら、データ中の雑音の影響を除去することはできず、これらの割り当てに基礎をおくこのように少ないデータポイントでは、多くが曖昧なままとなっている。2つのデータセットで周期的であると得点がつけられた254個の遺伝子は、合理的に高い確信をもって周期的であると考え得るが、これらは既知の遺伝子の約半分しか含んでおらず、明らかにその数を過小評価している。より多くのデータが生成されないかぎり、他の転写物の分類はあいまいなままであろう。言い換えれば、ほぼ50万のデータポイントを累算しているのに、発芽イーストの周期転写物の約半分しか高い確信をもって同定できない。統計的方法は多数の独立サンプルが存在するときに最も信頼性を有するという事実と相まって、これらのあいまいさは、この重要なモデル生物体の周期的な転写物をより完全に同定し、順序づけるために、2つの細胞周期全体にわたり、そしてより近い時間点を有する別のデータセットが要求されると示唆している。
【0053】
これら1088個の遺伝子の半分が実際に周期的である場合(図5の脚注を参照)、これらはすべての発芽イースト遺伝子の約10%を含むであろう。特に、この調製がなされる多くの異なる方法がある場合には、細胞に対する膨大な調製の負担と見られるかもしれない。一方、この調製を行う20の異なるサーキットしかなく、遺伝子生成物が、これらに対する細胞の要求に基づいてこれら制限された発現パターンに放出されたのであれば、細胞への生合成負荷を制限する、非常に限られた方法としてとらえることができよう。
【0054】
このように、本発明の1つの実施形態は、統計モデル(SPM)を採用し、連続した細胞周期において一定回数生じる転写物の単一パルスを同定し、特徴づけている。SPMは統計学的モデリングの特定アプリケーションであるが、基本的な方法を、任意の大きなデータセットに適用して、刺激に対する転写物応答を受ける遺伝子を同定することができる。統計学的モデリングは比較的簡単なので、付加的なフィルタを採用することなく、大きなデータセットを調査して、解析されるべき遺伝子数を減らすために利用することができる。統計学的モデリングは、データセットの雑音の影響を低減する傾向のある異質性パラメータをさらに含む。SPMは、多量の転写物あるいはピークの高さまたはタイミングと関係なく、規則的に振動する転写物を同定し、活性化および不活性化の平均時間の推定値を提供する。これらの値は推定値にすぎないが、仮定SPMのもとでバイアスされておらず、個々の遺伝子の特性を規定していると考えられる。最適なグループ分けがなされ、さらなる解析の対象となるよう、SPMはパラメータ推定値の質に対する統計測定値も提供する。統計学的モデリングのこれらの特徴は、マイクロアレイデータを解析するために用いられる他の方法を補完し、強化する。
【0055】
本発明の方法で測定されている細胞の構成要素は、細胞の生物学的な状態の任意の側面からのものであってよい。それらは、RNA存在度が測定される転写状態、タンパク質存在度が測定される変換状態、タンパク質の活動が測定される活動状態からのものであってもよい。細胞の特性もまた混合された側面からのものでよく、例えば、1つ以上のタンパク質の活動が、他の細胞の構成要素のRNAの存在度(遺伝子発現)とともに測定される。
【0056】
本発明の方法は2つ以上のデータアレイからのデータを解析する。用語“データアレイ”は複数のメンバに関連するデータの行列に関係しており、各メンバはシグナルを提供しており、データは1つ以上の共変数に関連づけられている。各データアレイは一般的に、例えば、500個以上の多数の観察を含む。データアレイは天然におけるゲノムの(核酸アレイ)、あるいはプロテオミックの(タンパク質またはペプチドアレイ)ものであってもよい。
【0057】
マイクロアレイは一般的に表面からなり、その表面には、遺伝子生成物(例えば、cDNA、mRNA、cRNA、ポリペプチド、およびこれらのフラグメント)と順次対応しているプローブが、既知の位置で特にハイブリダイゼーションされ、あるいは結合可能である。1つの実施形態では、マイクロアレイはアレイ(すなわち、行列)であり、アレイでは各位置が、遺伝子(例えば、タンパク質またはRNA)によって符号化された生成物に対する別個の結合部位を示し、結合部位が、生物体のゲノムにおける大部分またはほとんど全ての遺伝子の生成物に対して存在している。
【0058】
1つの実施形態では、本発明は“転写物アレイ”(ここで“マイクロアレイ”とも呼ばれている)を利用している。転写物アレイは、細胞内の転写状態を解析するために採用され、特に、グレード付けされたレベルの対象とする薬に、あるいは生物体モデルに投入された細胞の構成要素へのグレード付けされた一時的変異/外乱に暴露された細胞の転写状態を測定するために採用されてもよい。
【0059】
別の実施形態では、本発明は、タンパク質チップアレイまたはプロテオミックアレイを活用している。例えば、データアレイは質量分析法または等価計測によって得られる飛行時間にわたる強度値のベクトルであってもよい。このように、本発明の方法は質量分析データアレイを解析するために利用することができる。質量分析アレイは、さまざまなソースから得ることができる。このソースには、例えば、タンパク質およびペプチドアレイが含まれる。適切なタンパク質およびペプチドアレイは、例えば、サイファーゲンから入手可能なタンパク質チップを含む。
【0060】
1つの実施形態では、転写物アレイは細胞中に存するmRNAの転写物(例えば、所定から合成された、蛍光ラベル付けされたcDNA)を表し、検出可能なようラベル付けされた、ポリヌクレオチドをマイクロアレイに対してハイブリダイゼーションすることによって生成される。マイクロアレイは、細胞または生物体のゲノム中の多くの遺伝子、好ましくはほとんどまたはほぼすべての遺伝子の生成物に対する結合(例えば、ハイブリダイゼーション)部位の順序づけされたアレイを持つ表面である。マイクロアレイは多くの方法で作ることができ、そのうちのいくつかが以下で説明される。生成されるとはいえ、マイクロアレイはある特性を共有している。それは、アレイが複製可能であり、所定のアレイの複数のコピーを作成し、容易に互いを比較可能である。マイクロアレイは小さいのが好ましく、通常は5cm2よりも小さく、結合(例えば、核酸のハイブリダイゼーション)状態で安定な物質から作成されることが好ましい。マイクロアレイにおける所定の結合部位または結合部位の固有のセットが、細胞内の単一遺伝子の生成物と特に結合される。特定のmRNA毎に1つより多い物理的な結合部位(以下、“部位”と呼ぶ)があってもよいが、以下の議論を明確にするために、単一の部位のみが存すると仮定する。具体的な実施形態では、各位置で既知の配列の固定された核酸を含む、位置付け可能なアレイが用いられる。
【0061】
細胞のRNAに対して相補的なcDNAが作られ、適切なハイブリダイゼーション状態の下でマイクロアレイにハイブリダイゼーションされるとき、任意の特定の遺伝子に対応するアレイにおける部位へのハイブリダイゼーションのレベルは、その遺伝子から転写したmRNAの、細胞における優勢さに影響を与える。例えば、検出可能なようラベル付け(例えば、蛍光体で)された、全細胞mRNAに対して相補的なcDNAが、マイクロアレイにハイブリダイゼーションされるとき、細胞内で転写されない遺伝子に対応する(すなわち、特に遺伝子の生成物を結合可能である)アレイ上の部位は、シグナル(例えば、蛍光シグナル)をわずかしか持たないか、あるいは全く持たず、符号化されたmRNAが優勢な遺伝子は比較的強いシグナルを持つ。
【0062】
ある実施形態では、2つの異なる細胞からのcDNAがマイクロアレイの結合部位に対してハイブリダイゼーションされる。薬に対する応答の場合は、ある細胞は薬に対して暴露され、同一タイプの別の細胞は薬に対して暴露されていない。細胞の構成要素への一時的変異/外乱に対する応答の場合は、ある細胞はそのような一時的変異/外乱に対して暴露され、同一タイプの別の細胞は経路外乱に対して暴露されていない。
【0063】
遺伝子発現データは反復実験により組み合わされ、ランダムに生じる実験上の誤差を低減させ、特徴づけることができる。
【0064】
1つの実施形態で、マイクロアレイは、ターゲット生物体のゲノムにおけるすべてまたはほぼすべての遺伝子の生成物に対する結合部位を含むが、かかる範囲の広さは必ずしも要求されていない。ふつう、マイクロアレイは、ゲノム中の遺伝子の少なくとも約50%に対応する結合部位を有し、しばしば少なくとも約75%、たいていの場合少なくとも約85%、さらに多くの場合少なくとも約90%、最も多くの場合少なくとも約99%の遺伝子に対応する結合部位を持つ。マイクロアレイは検査と関連した遺伝子に対する結合部位を持つこともできる。“遺伝子”は、好ましくは少なくとも50,75,または99個のアミノ酸のオープンリーディングフレーム(ORF)として同定される。生物体(例えば、単一の細胞の場合)あるいは多細胞の生物体におけるいくつかの細胞中に、このアミノ酸からメッセンジャーRNAが転写される。ゲノム中の遺伝子の数は、生物体により、あるいはゲノムのはっきり特徴づけられた部分からの推定により表されたmRNAの数から推定可能である。対象となる生物体のゲノムが順番に配列されているとき、ORFの数を決定し、mRNAの符号化領域をDNA配列の解析によって同定することが可能である。しばしば、設計チップが特定のセットの遺伝子だけでつくられる。このような技術は、現在アクセス可能であり、例えば、臨床業務のような定常業務について経済的である。
【0065】
上述のように、核酸の場合、特定の同種のcDNAが特にハイブリダイゼーションしている“結合部位”は、通常、この結合部位に結びつけられた核酸あるいは核酸相似物である。1つの実施形態では、マイクロアレイの結合部位は、生物体のゲノム中の各遺伝子の少なくとも一部分に対応するDNAポリヌクレオチドである。これらのDNAは、例えば、ゲノムのDNA、cDNA(例えば、RT−PCRによる)、またはクローン配列からの遺伝子セグメントのポリメラーゼ連鎖反応法(PCR)増幅などにより得られる。遺伝子またはcDNAの既知の配列に基づいてPCRが選ばれ、固有のフラグメント(すなわち、マイクロアレイ上の他の任意のフラグメントと、隣接した同一の配列の10より多いベースを共有しないフラグメント)の増幅をもたらす。
【0066】
マイクロアレイに対して核酸を生成する代替手段は、例えば、N−ホスホネートまたはホスホラミディート化学を用いた、合成ポリヌクレオチドまたはオリゴヌクレオチドの合成による(フレーラー他、1986年、核酸リサーチ14:5399−5407;マックブライド他、1983年、四面体報24:245−248)。
【0067】
核酸またはその相似物は固体の支持体に結びつけられており、この支持体は、ガラス、プラスティック(例えば、ポリプロピレン、ナイロン)、ポリアクリルアミド、ニトロセルロース、または他の物質から作られてもよい。核酸を表面に結びつける1つの方法はガラス板上にプリンティングすることによるものであり、一般的には、シェーナ他、1995年、サイエンス、270:467−470で説明されている。この方法はcDNAのマイクロアレイを調製するのに特に有用である。デライジ他1996年、ネイチャーゲネティックス14:457−460;シャロン他1996年、ゲノムリサーチ6:639−645;およびシェーナ他1995年、ナショナル科学アカデミー報USA93:10539−11286も参照。
【0068】
別のマイクロアレイ作成方法は、高密度のオリゴヌクレオチドアレイを作成することによる。技術的には、生体内原位置における合成のためのフォトリソグラフィック技術を用いて、表面上の定められた位置において、定められた配列に相補的な何千ものオリゴヌクレオチドを含むアレイを生産する技術(フォードール他、1991年、サイエンス251:767−773;ピーズ他、1994年、ナショナル科学アカデミー報USA91:5022−5026;ロックハート他、1996年、ネイチャーバイオテック14:1675;米国特許第5,578,832号;第5,556,752号;および第5,510,270号を参照)、あるいは、定められたオリゴヌクレオチドの急速な合成およびディポジションを行う他の方法(ブランチャード他、1996年、バイオセンサアンドバイオエレクトロニクス11:687−90を参照)が知られている。これらの方法が用いられる場合、既知の配列のオリゴヌクレオチド(例えば、20mers)は変性スライドガラスのような表面上に直接合成される。通常、生成されたアレイは冗長であり、RNA毎にいくつかのオリゴヌクレオチド分子を有している。オリゴヌクレオチドプローブを選択して、交互に接合されたmRNAを検出することができる。
【0069】
例えば、マスキング(マスコスとサザン、1992年、核酸リサーチ20:1679−1684を参照)によりマイクロアレイを作成する他の方法もまた用いられてもよい。基本的には、例えばナイロンハイブリタイゼーション膜上のドットブロット(サムブローク他、分子クローニング−ラボラトリマニュアル(第2版)Vol.1−3、コールドスプリングハーバーラボラトリ、コールドスプリング、ニューヨーク、1989年を参照)のような、任意のタイプのアレイを用いることができる。いくつかの実施形態では、非常に小さなアレイが好まれる。というのも、ハイブリタイゼーション量がより少なくて済むからである。
【0070】
全部およびポリ(A)+RNAの調製方法はよく知られており、一般的にサムブローク他(前掲)で説明されている。1つの実施形態では、グアニジウムチオシアン酸塩溶解を用いて、本発明で対象としているさまざまなタイプの細胞からRNAが抽出され(チャーグウィン他、1979年、バイオケミストリ18:5294−5299を参照)、その後CsCl遠心分離が続いてなされる。
【0071】
蛍光ラベル付けされたプローブが用いられる場合、多くの適したフルオロフォアが知られている。これらの蛍光体には、フルオレセイン、リサーマイン、フィコエリトリン、ローダミン(パーキンエルマーセタス)、Cy2,Cy3,Cy3.5,Cy5,Cy5.5,Cy7、フルオロX(アメルシャム)およびその他のものが含まれる(例として、クリッカ、1992年、非同位体DNAプローブ技術、アカデミックプレス、サンディエゴ、カリフォルニアを参照)。容易に区別されるように、別個の発光スペクトルを持つ1対の蛍光体が選択されることが認められるだろう。
【0072】
別の実施形態では蛍光ラベル以外のラベルが用いられる。例えば、放射性ラベルあるいは別個の発光スペクトルを持つ一対の放射性ラベルが用いられてもよい(チャオ他、1995年、遺伝子156:207;ピエトゥー他、1996年、ゲノムリサーチ6:492を参照)。しかしながら、放射性粒子を散乱することや広くスペースを空けた結合部位をその結果必要とするせいで、放射性同位体を利用した実施形態はあまり好まれない。
【0073】
特定のアレイ部位に対して、プローブが“特に結合し”、あるいは“特にハイブリダイゼーション”するよう核酸のハイブリダイゼーションおよび洗浄条件が選択される。すなわち、プローブは相補核酸配列を持つ配列アレイ部位にハイブリダイゼーションし、デュプレクスし、あるいは結合するが、非相補核酸配列を持つ部位にはハイブリダイゼーションしない。最適なハイブリダイゼーション状態は、長さ(例えば、200ベースよりも大きいポリヌクレオチド対オリゴメル)、およびラベル付けされたプローブおよび固定化ポリヌクレオチドまたはオリゴヌクレオチドのタイプ(例えば、RNA、DNA、PNA)に基づく。核酸に対する特定の(すなわち、厳密な)ハイブリダイゼーション状態についての一般的なパラメータは、サムブローク他(前掲)、およびアウスベル他、1987年、分子生物学におけるカレントプロトコル、グリーン出版アンドワイリーインターサイエンス、ニューヨーク、で説明されている。シェーナ他のcDNAマイクロアレイが用いられる場合、一般的なハイブリダイゼーション状態は、65℃で4時間、5X SSCプラス0.2%SDSにおけるハイブリダイゼーションであり、その後、低い厳密性の洗浄バッファ(1 X SSCプラス0.2%SDS)で25℃で洗浄され、その後、高い厳密性の洗浄バッファ(0.1 X SSCプラス0.2%SDS)で、25℃で10分間洗浄される(シェーナ他、1996年、ナショナル科学アカデミー報USA、93:10614)。実用的なハイブリダイゼーション状態は、例えば、タイジェッセン、1993年、核酸プローブによるハイブリダイゼーション、エルスヴィアサイエンス出版B.V.、およびクリッカ、1992年、非同位体DNAプローブ技術、アカデミックプレスサンディエゴ、カリフォルニア、でも示されている。
【0074】
蛍光ラベル付けされたプローブが用いられると、転写物アレイの各部位での蛍光発光は、走査共焦点レーザー顕微鏡法により検出できることが好ましい。1つの実施形態では、適切な励起線を使用して、用いられている2つの蛍光体のそれぞれについて別々の走査が行われる。代替的に、レーザーが用いられることにより、2つの蛍光体に特有の波長での同時標本照射を可能として、2つの蛍光体からの発光を同時に解析することもできる(シャロン他、1996年、ゲノムリサーチ6:639−645を参照)。好ましい実施形態では、コンピュータ制御可能なX−Yステージと顕微鏡対物レンズを持つレーザー蛍光スキャナでアレイが走査される。2つの蛍光体の連続的な励起はマルチライン、混合ガスレーザーによって実現され、発光線は波長によって分割され、2つの光電子増倍管によって検出される。蛍光レーザー走査装置はシェーナ他、1996年、ゲノムリサーチ6:639−645、およびここに引用されている他の参照文献において説明されている。代替的に、フェルグソン他、1996年、ネイチャーバイオテック14:1681−1684に記載の光ファイバーの束を用いて、多数の部位におけるmRNAの存在度のレベルを同時にモニタすることができる。
【0075】
シグナルは記録され、好ましい実施形態では、例えば、12ビットアナログ・デジタルボードを用いてコンピュータにより解析される。1つの実施形態では、走査はグラフィックプログラムを用いて一般化され、その後画像グリッディングプログラムを用いて解析される。このプログラムは、各部位の各波長で平均的なハイブリダイゼーションのスプレッドシートを作成する。必要ならば、2つの蛍光体に対するチャネル間の“クロストーク”(またはオーバーラップ)について実験的に決定される補正がなされてもよい。転写物アレイ上の、任意の特定のハイブリダイゼーション部位について、2つの蛍光体の発光の比率が演算されるのが好ましい。この比率は同種の遺伝子の絶対的な発現レベルとは独立しているが、薬投与、遺伝子の除去、または他の任意のテストされたイベントによって発現が大きく調整された遺伝子に関して有用である。
【0076】
本発明の方法にしたがうと、2つの細胞型または細胞株におけるmRNAの相対存在度が、外乱および決定されたその大きさとして(すなわち、存在度はテストされたmRNAの2つのソースで異なる)、あるいは外乱されないものとして(すなわち、相対的な存在度は同一)としてスコアが付けられる。ここで使用されているように、少なくとも約25%(1つのソースからのRNAは他のソースよりも1つのソースにおいて25%さらに存在度が高い)、さらに一般的には約50%、さらに多くの場合には約2倍(2倍の存在度)、約3倍(3倍の存在度)、または約5倍(5倍の存在度)だけ、RNAのソース間の差が外乱としてスコア付けされる。
【0077】
本発明の1つの実施形態では、対象とする細胞の転写状態を反映している転写物アレイは、それぞれが、対象とされた異なる細胞のmRNAに対応した(すなわち、相補的な)2つの別々にラベル付けされたプローブの混合物をマイクロアレイに対してハイブリダイゼーションすることによって作られる。本発明にしたがうと、2つの細胞は同一のタイプ、すなわち、同一の種および株からなるが、遺伝学的に少ない数の遺伝座で異なっていてもよい(例えば、1,2,3、または5、好ましくは1)。代わりに、これらは同質遺伝子であり、これらの環境歴が異なっている(例えば、薬への暴露対非暴露)。
【0078】
本発明のある実施形態では、グレード付けされた薬の暴露および一時的変異/外乱制御パラメータのグレード付けされたレベルの測定を行う利点がある。これは、グレード付けされた暴露および一時的変異が、飽和レベルを明確に同定するために用いられるときに利点がある。この場合、グレード付けされた薬の暴露およびグレード付けされた外乱制御パラメータのレベルの密度は、個々の遺伝子応答における鋭さおよび構造によって左右される――応答の最も急な部分がより急になるにしたがい、応答を適切に分析するのに必要なレベルがより密になる。100倍の全範囲のうち、6から10レベルの外乱または暴露が、遺伝子発現応答を分析するのに十分であることが好ましい。しかしながら、この経路をより良く示すためにはより多くの暴露が好ましい。
【0079】
さらに、実験上の誤差を低減するために、個々の遺伝子またはアレイスポット位置に特有のバイアスが低減されるよう、2色の差分的ハイブリダイゼーション実験において蛍光ラベルを反転することに利点があるだろう。まず、測定されている2つの細胞からのmRNAの1つのラベル付け(例えば、第1の蛍光色素で、第1の投入状態に対して暴露された細胞と、第2の蛍光色素で、第2の投入状態に対して露光された細胞をラベル付けすること)によって遺伝子発現を測定し、次に反転されたラベル付け(第2の蛍光色素で、第1の投入状態に対して露光された細胞と、第1の蛍光色素で、第2の投入状態に対して露光された細胞をラベル付けすること)によって2つの細胞からの遺伝子発現を測定することが好ましい。
【0080】
これらの投入状態の複数の測定により、実験上の誤差の付加的な表示および制御が提供される。さらに、グレード付けされた一時的変異/外乱の場合、暴露レベルおよび一時的変異/外乱制御パラメータレベルに対する複数の測定は、付加的な実験上の誤差の制御を提供する。
【0081】
細胞の転写状態は、技術的に知られた他の遺伝子発現技術によって測定されてもよい。このような技術のいくつかは、電気泳動解析のために制限された複雑さの制限フラグメントのプールを生成する。それは、例えば、二重制限消化酵素をフェージングプライマに結合させる方法(1992年9月24日に出願された、ザボー他による欧州特許出願番号第0 534 858 A1号等を参照)あるいは、定められたmRNA端に最も近い部位を持つ制限フラグメントを選択する方法(プラシャー他、1996年、ナショナル科学アカデミー報USA93:659−663等を参照)などがある。他の方法は、例えば、各cDNAを同定するために複数のcDNAの各々において十分なベース(例えば、20−50ベース)を配列することによって、あるいは規定されたmRNA端に対する既知の位置で生成されたショートタグ(例えば、9−10ベース)を配列することによって、cDNAのプールを統計学的にサンプル付けする(ベルクレスク、1995年、サイエンス270:484−487等を参照)。
【0082】
本発明のさまざまな実施形態で、例えば、翻訳状態、活動状態、あるいはこれらの混合した側面のような、転写状態以外の生物学的状態の側面が、薬や経路応答を得るために測定されてもよい。翻訳状態の測定は、いくつかの方法にしたがって実行することができる。例えば、タンパク質のゲノム全体のモニタリング(すなわち、“プロテオーム”、ゴッフォー他、前掲)が、マイクロアレイを構成することによって実行されてもよく、マイクロアレイにおいて、結合部位は、細胞ゲノムによって符号化された複数のタンパク質種に固有の、固定化され、好ましくはモノクローナル抗体を有する。抗体は、符号化されたタンパク質の相当な割合に対して存在しているか、あるいは、少なくとも、対象とする生物学的ネットワークモデルをテストまたは確認することに関連したタンパク質のために存在することが好ましい。モノクローナル抗体の生成方法はよく知られている(ハーローとレイン、1988年、抗体:ラボラトリマニュアル、コールドスプリングハーバー、ニューヨーク等を参照)。好ましい実施形態では、モノクローナル抗体は、細胞のゲノム配列に基づいて設計された、合成ペプチドフラグメントに対して産生される。このような抗体アレイによって、細胞からのタンパク質がアレイに接触し、これらの結合は、技術的に知られた分析法によって分析される。
【0083】
代替的に、タンパク質は二次元ゲル電気泳動システムによって分離することができる。二次元ゲル電気泳動は技術的によく知られており、一般的に第1の次元に沿った等電点電気泳動を含み、その後第2の次元に沿ったSDS−PAGE電気泳動がなされる。ハメス他、1990年、タンパク質のゲル電気泳動;プラクティカルアプローチ、IRLプレス、ニューヨーク;シェブチェンコ他、1996年、ナショナル科学アカデミー報USA93:1440−1445;サグリオッコ他、1996年、イースト12:1519−1533;ランダー、1996年、サイエンス274:536−539等を参照。結果として示された電気泳動図は、多くの技術によって解析することができ、質量分析法、ポリクローナルおよびモノクローナル抗体を利用したウェスタンブロッティングおよび免疫ブロット解析、ならびに内部およびNターミナルマイクロシーケンシングが含まれる。これらの技術を用いて、所定の生理学的状態の下で生成されたすべてのタンパク質の相当な割合を同定できるようになる。この状態には、薬に対して暴露された細胞(例えば、イースト)内、あるいは、例えば、特定の遺伝子の除去または過発現により変更された細胞内という状態が含まれる。
【0084】
示された実施形態において、生物学的なシステムのネットワークモデルを形成し、テストするパワフルかつ便利な機能を提供するために、上述の方法の演算ステップが、コンピュータシステム上、または、ネットワーク化された1つ以上のコンピュータシステム上で実現される。いくつかの実施形態では、コンピュータシステムは、ハンドヘルド装置、サーバコンピュータ、デスクトップパーソナルコンピュータ、ポータブルコンピュータ、あるいは移動体電話を含むことができるがこれらに限定されない。代表的なコンピュータシステムは、内部コンポーネントを有し、外部コンポーネントとリンクしているシングルハードウェアプラットホームである。このコンピュータシステムの内部コンポーネントは、主メモリと内部接続されたプロセッサエレメントを含む。
【0085】
コンピュータシステムは、プロセッシングユニット、ディスプレイ、入力/出力(I/O)インターフェースおよびマスメモリを含み、これらはすべて通信バス、あるいは他の通信装置によって接続されている。I/Oインターフェースは、TCP/IP、X10、デジタルI/O、RS−232、RS−485などを含むさまざまな通信プロトコルにより、さまざまなモニタリング装置との対話を容易にするハードウェアおよびソフトウェアコンポーネントを含む。さらに、I/Oインターフェースは、地上電話回線、ワイヤレスネットワーク(セルラ、デジタルおよびラジオネットワークを含む)、ケーブルネットワークなどを含むさまざまな通信媒体による通信を容易にする。本発明の実際の実施形態では、I/Oインターフェースは、サーバハードウェアとソフトウェアアプリケーションとの間のレイヤとして構成されている。関連技術の当業者であれば、代替インターフェース構成が本発明によって実用可能であることを理解するだろう。
【0086】
外部コンポーネントはマスストレージを含む。マスメモリは一般的に、RAM、ROMおよび、ハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有する。マスメモリは、宅内サーバのオペレーションを制御するオペレーティングシステムを記憶する。このコンポーネントが、UNIX、LINUX、またはマイクロソフトウィンドウズNTのような当業者によって知られている汎用サーバオペレーティングシステムを有していてもよいことが認められるであろう。メモリはさらに、WWWにアクセスするためのネットエスケープナビゲータまたはマイクロソフトインターネットエクスプローラブラウザのようなWWWブラウザも含む。このマスストレージは1つ以上のハードディスクであってもよい(一般的にプロセッサおよびメモリとともに実装されている)。他の外部コンポーネントは、ユーザインターフェース装置を含む。これは、“マウス”または他のグラフィック入力装置のような指示装置とともに、モニタやキーボードとすることができる。一般的に、コンピュータシステムは、他のローカルコンピュータシステム、遠隔コンピュータシステム、あるいは、インターネットのような広域通信ネットワークにもリンクしている。このネットワークリンクは、コンピュータシステムが他のコンピュータシステムとデータを共有および処理タスクできるようにする。
【0087】
このシステムのオペレーション中にメモリに読み込まれたものは、いくつかのソフトウェアコンポーネントであり、これは、技術的に標準なものと本発明に特有なものの両方である。これらのソフトウェアコンポーネントは共同でコンピュータシステムに対して、本発明の方法にしたがった機能を行わせる。これらのソフトウェアコンポーネントは一般的にマスストレージに記憶されている。代替的に、ソフトウェアコンポーネントは、フロッピーディスク、CD−ROM、または他のネットワークに接続された装置のようなリムーバブル媒体に記憶されていてもよい。ソフトウェアコンポーネントは、オペレーティングシステムを表しており、これは、コンピュータシステムやそのネットワーク内部接続を管理する役割を果たす。このオペレーティングシステムは例えば、マイクロソフトウィンドウズシリーズ、UNIXオペレーティングシステム、あるいはLINUXベースのオペレーションシステムであってよい。別のソフトウェアコンポーネントは、共通言語およびこのシステム上で便利に存する機能を表し、本発明固有の方法を実現するプログラムをアシストする。本発明の解析方法をプログラムミングするために用いることのできる言語は、C、C++、あるいはあまり好ましくはないが、JAVAなどである。本発明の方法は、数理的ソフトウェアパッケージでプログラムされるのがもっとも好ましく、これは、式のシンボル入力および、アルゴリズムを含む処理の高レベルな仕様が用いられるようにすることができる。これにより、個々の式やアルゴリズムの手続的なプログラムの必要性からユーザを解放する。このようなパッケージは、例えば、マスワークス(ナチック、マサチューセッツ)のMATLAB、ウオルフマンリサーチ(キャンペイン、イリノイ)のMATHEMATICA、およびマスソフト(ケンブリッジ、マサチューセッツ)のMASCADなどを含む。本発明の解析方法は、手続型言語またはシンボリックパッケージでプログラムされてもよい。
【0088】
マスメモリは一般的に、RAM,ROMおよびハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有している。マスメモリは、宅内サーバのオペレーションを制御するオぺレーティングシステムを記憶する。このコンポーネントが、UNIX、LINUX、またはマイクロソフトウィンドウズNTのような当業者に知られている汎用サーバオペレーティングシステムからなってもよいことが認められるだろう。このメモリは、WWWにアクセスするためのネットエスケープナビゲータ、またはマイクロソフトインターネットエクスプローラブラウザのようなWWWブラウザも含む。
【0089】
マスメモリはさらに、さまざまな宅内モニタリング装置とインターフェースし、モニタリング装置データを処理し、データを中央サーバに送信するプログラムコードおよびデータも記憶する。より具体的には、マスメモリは、本発明にしたがった装置インターフェースアプリケーションを記憶する。このアプリケーションは、モニタリング装置データをさまざまな装置から獲得し、中央サーバが処理するデータを操作する。装置インターフェースアプリケーションは、コンピュータ実行可能な指令を有し、この指令は、宅内サーバによって実行されるときに、以下でより詳細に説明されるように装置データを獲得して送信する。マスメモリはさらに、装置データを中央サーバに送信して、中央サーバとモニタリング装置間の通信を容易にする、データ送信アプリケーションプログラムも記憶する。これらのコンポーネントがコンピュータ読み取り可能媒体上に記憶され、フロッピー、CD−ROM、DVD−ROMドライブ、あるいはネットワークドライブのようなコンピュータ読み取り可能な媒体に関係するドライブメカニズムを利用して宅内サーバのメモリに読み込まれてもよいことが認められるであろう。
【0090】
本発明の解析方法を実現する代替システムおよび方法が当業者にとって明らかであり、添付の特許請求の範囲内で理解されるよう意図されている。特に、添付の特許請求の範囲は、本発明の方法を実現する代替プログラム構成を含むよう意図され、当業者が容易に理解できるだろう。
【0091】
以下の例は本発明を説明する目的で示されるものであり、本発明を制限するものではない。
【0092】
実施例
例1
単一パルスモデルおよび推定
この例では、本発明の代表的な方法、単一パルスモデル(SPM)を説明する。
【0093】
単一パルスモデルはいくつかのステップで開発することができる。第1のステップはバイナリプロセスとして細胞周期にわたって単一細胞中の単一転写物をモデリングする。
【数6】
【0094】
ここで、Y(t)は時間‘t’における発現レベルを示し、(0≦ζ<ξ≦Θ)としての(ζ,ξ)は活性化時間および不活性化時間、Θは細胞周期間隔であり、c=0,1,2,...は第1、第2、第3、...の細胞周期を示す。代わりに、上記表示は以下のように書くことができる。
【数7】
【0095】
第1、第2、第3、...周期に対する和であり、I{・}は恒等関数である。
【0096】
第2のステップは単一細胞内の複数の転写物を考慮し、背景および高められた発現レベル(α〜,α〜+β〜)と活性化および不活性化時間(ζ,ξ)を有する細胞に対する発現パルスを提供する(図1)。細胞についての予測される発現レベルに対するモデルは以下のように書くことができる。
【数8】
【0097】
第3のステップは、複数の細胞がプールされ、同調化されるが、同調化が完全でない事実を確認する。tkがターゲットタイミングを示すとしよう。単一細胞の実際のタイミングTkはtkのまわりにランダムに分散され、平均tkと標準偏差σを持つ正規分布を有すると仮定される。
【0098】
記述として、以下のようにする。
【数9】
【0099】
ここで、Nは共時性中の細胞数であり、(t+Ti)はi番目の細胞の年齢(タイミング)であり、Yi *はi番目の細胞における特定の遺伝子の発現レベルである。SPMによる平均発現レベルYiをモデリングすることは以下のようにYi *(t+Ti)の予測値を与える。
【数10】
【0100】
共時性に対する平均発現はN個の細胞に対する総和から生じ、ランダムタイミング(Ti)に対する期待値をとる。いくつかの簡単な代数にしたがうと、時間tkにおける平均発現レベルは以下のように書けることを示すことができる。
【数11】
【0101】
ここで、φ(x)はガウス累積分布関数であり、α=Nα〜およびβ=Nβ〜である。
【0102】
第4のステップは、時間に対して同調化がすべての同調プロトコルによる固有の制限を悪化させることを確認する。時間tでσを単調増加できるようにすることによりこの悪化をモデリングする。特に、サンプルk中の細胞のタイミングに対する標準偏差が以下の指数形態モデルにしたがうことを仮定する。
【数12】
【0103】
ここで、(γ0,γ1)は推定されるべきパラメータである。
【0104】
第5のステップはサンプル間の乗算的(λk)および加算的(δk)異質性因子を組み入れる。mRNA抽出、増幅および評価における変動はサンプル間の異質性となり得る。先に言及したように、このような異質性を調製する要求は平均発現レベルに対する以下のモデルに導く。
【数13】
【0105】
ここで、δkおよびλkはk番目のサンプルに特有であり、δkおよびλkはKサンプルに対してそれぞれ0と1に平均化する。既述したように、モデルは多量の転写物の測定値に直接適用することができる。転写レベルの比を解析するために、乗算的異質性因子(λk≡1)を削除することを選択する。
【0106】
各遺伝子はその自己の活性化および不活性化時間ならびにその自己の背景および高められた発現レベルを持つことを許容されており、j番目の遺伝子に対する平均発現についてのSPMモデルを以下のように提供する。
【数14】
【0107】
ここで、j=1,2,...,Jおよびk=1,2,...,KはK個のすべてのサンプル中におけるJ個のすべての遺伝子を示す。
【0108】
推定式[A1]を解くパラメータ推定値を見つけるために、2乗の加重和を最小にすることができる。
【数15】
【0109】
平均の活性化および不活性化時間は変化点を表し、制限される(ζj≧0,ξj≧0およびξj>ζj)ので、(ζj,ξj)に対する良好なグリッド値における各点の他のパラメータに関して上記2乗和[A1]を最小にし、[A1]に対して全体を最小にする1組みのパラメータ推定値を選択する。少なくとも2つのtk値において含まれる点(ζj,ξj)にプロファイル処理を制限する。計算における加重関数は以下のように規定される。
【数16】
【0110】
ここで、μj^0(tk)=δk^+λk^αj^は、βj=0を要求する場合のμj(tk)の推定値を示す。すべてのモデルパラメータを推定する際に、以下の式は単に遺伝子jに対する発現レベルの変動のパーセンテージであり、異質性パラメータ調製にしたがい、これはSPMモデルの周期側面により説明したことにも留意すべきである。
【数17】
【0111】
したがって、1に近づくRj 2値は、SPMがj番目の遺伝子に対する観測された発現プロファイルの良好な表示を提供していることを意味する。
【0112】
方法セクションで言及したように、複数のステージでパラメータ推定を実行して計算を簡単化した。第1のステージは、すべてのβj値を0に制限して、[A1]を最小にすることにより、(δk^,λk^)の推定値に導き、k=1,...,Kとした。この制限のもとで、以下の式も有するので、μj^0(tk)値と加重νj^2を計算することができる。
【数18】
【0113】
次に細胞周期間隔推定Θ^は単一パルスモデルのもとで[A1]を最小にすることにより計算された。ほとんどの転写物は細胞周期で調製されていないことから、1組の104の既知の周期的転写物のみを使用して、細胞周期間隔の適切な推定を確実にした。この計算は例えば1分の単位で40分から80分のcdc28データセットについての細胞周期間隔Θに対するプロファイリングに関係する。同じ組の遺伝子において、[A1]を最小化することにより同調変動σkを推定した。
【0114】
これらのパラメータを固定化すると、j番目の遺伝子に対するパラメータ(ζj,ξj,αj,βj)に関する[A1]の最小化は単にj=1,...,Jに対して個々に以下の式の最小化が必要となり、計算が非常に簡単化される。
【数19】
【0115】
これらのパラメータ推定値に対する推定標準偏差は、モデル仮定およびxkを与えるYkの独立仮定のもと、サンドイッチ式(15)をj番目の遺伝子に対するデータだけに適用することから生じる。これらの計算は統計値Zj、その標準偏差に対するβj^の比を与え、これは各j=1,...,Jに対してβj=0であるならば、ほぼ標準正規分布を有する。このような標準正規分布のもとで、絶対値でZjが5を超える確率は約5.7×10−7であるので、βj^値の任意の1つ、例えば6000遺伝子が5を超える確率は、すべてのβj値が0に等しい場合に、ボンフェロニ近似を使用して、6000×5.7×10−7=0.003として、控えめに推定される。特に、ボンフェロニ補正は控えめであるから、これは5のしきい値は極端過ぎるかもしれないことを示唆しているが、特に、サンプル数(K)がかなり小さい場合には、Zjに対する標準正規分布近似はむしろ自由にすることができる。したがって、5のかなり極端なしきい値を保持することを選択した。
【0116】
先に概説した数値処理は、すべてのモデルパラメータのパラメータ推定値をデータ上の最小制約のもとで確実に得ることができるにする(例えば、異質性補正値(Yjk−δk^)/λk^はサンプルにわたって何らかの変動を示さなければならない)。複数ステージ推定処理が、すべてのモデルパラメータを同時に推定する処理と比較して、Z統計値に最小の影響を確実に持つようにし、モデルパラメータ推定値の分布に対する漸近正規近似に関係する保守性を調査するために、さらに統計開発することが望まれる。方法セクションで言及した2グループ比較問題および時間経過解析の状況において、各Zj値は、異質性および回帰パラメータが複数ステージでまたは共同で推定されるか否かにそれ程依存していない。しかしながら漸近正規近似は、サンプル間の回帰変数のさまざまな組み合わせのもとで、Zj値を比較することにより生じるZj分布に対するある経験的近似よりも、かなり端部においてさらに自由であると思われる。
【0117】
例2
遺伝子発現を解析するための代表的なセミパラメータ方法の例示
この例では、本発明の代表的な方法を使用して遺伝子発現を解析するセミパラメータ方法の例示を説明する。
【0118】
同調化実験
単一転写物。代表的な同調化実験が図6に例示されている。図6を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)は各細胞周期で生じる。シンボルに対する鍵は以下の通りである。
【数20】
【0119】
単一細胞内の複数転写物。単一細胞内において、複数転写物が時間にわたって転写され、消失され、三角形状のパルスとなる。単一細胞内の複数転写物に対する代表的な同調化実験が図7に示されている。図7を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0120】
この方法では、転写プロセスは消失プロセスと同様に均一に分散されることが仮定される。単一パルスモデル(SPM)による近似、本発明の代表的な方法は、転写時間の推定された中間時間と、mRNAの半分の寿命を生み出す。単一細胞内のmRNAパターンを近似すると、SPMは以下のように書くことができる。
【数21】
【0121】
複数細胞との可変同調化。典型的な同調化実験は数千または数百万の細胞をポーリングして、細胞周期タイミングに対してそれらを同調化させようと試みる。同調化技術の進歩にかかわらず、同調化において変動がある。個々の細胞の実際のタイミングは同一ではない。単一細胞の実際のタイミングTkはランダムであり、正規分布を有すると仮定され、平均予測タイミングtk、標準偏差σである。
【0122】
時間tkにおける観測された発現レベルは以下の通りである。
【数22】
【0123】
複数細胞との可変同調化に対する代表的な同調化実験が図8に示されている。図8を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0124】
複数細胞に対するSPMは以下のように導出することができる。N個の細胞(Nは非常に大きい。例えば>100,000)を考える。各細胞は、Ti(i=1,2,...,N)として示される、その自己のタイミングにしたがう。時間tにおいて細胞を同調化するために、すべてのTiはtのまわりにランダムに分散され、その分布はガウス分布と仮定される。この仮定のもと、N個の細胞の観測発現レベルは以下の式により近似することができる。
【0125】
中央制限理論
【数23】
【0126】
インジケータ関数に対するラベリングおよび予測
【数24】
【0127】
標準化
【数25】
【0128】
悪化する同調化。悪化する同調化は、従来の同調プロトコルによる固有の制限である。悪化する同調化を示す転写物に対する代表的な同調化実験が図9に示されている。図9を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0129】
悪化する同調化は、同調化変動を変化させることにより、すなわち時間tでσが単調増加することによりモデリングすることができる。指数モデルでは以下の式のようになる。
【数26】
【0130】
ここで、(γ0,γ1)はデータから推定されるべきパラメータである。γ1=0の場合には、同調細胞が考慮されている時間フレーム内に十分にそれらの同調を保持していることをこれは意味している。一般的に、正γ1>0では、変数は図10に示されているように単調に増加する。細胞周期タイミングの関数としての同調変動が図10に示されている。
【0131】
悪化する同調化を組み込むために、SPMは以下のように修正することができる。
【数27】
【0132】
サンプル間の異質性。mRNA抽出、増幅および評価における変動のために、観測された発現レベルは変動振動し、サンプル間の異質性となる。サンプル間の異質性を示す転写物に対する代表的な同調化実験が図11に示されている。図11を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0133】
このような異質性がチップ上のmRNAの量に純粋に関係しているのであれば、乗算的異質性因子をSPMに導入して、以下の式を提供することができる。
【数28】
【0134】
以下の制約がパラメータの同定可能性を確実にするために課される。
【数29】
【0135】
2つのサンプルで、この補正はx−yプロット上の回転を表す。
【0136】
乗算的異質性から拡張すると、加算的異質性を考慮して、加算的スケール上の異質性を補正することもできる。モデルは以下のように書くことができる。
【数30】
【0137】
ここで、δkは0平均の制約を有する加算的異質性である。
【0138】
遺伝子特定ビュー。遺伝子の機能は異なっており、それぞれそれ自体の活性化および不活性化時間ならびにそれ自体の背景および高められた発現レベルを持つ。下付文字“j”を使用することにより、SPMは以下のように書くことができる。
【数31】
【0139】
未知の原因によるランダム変動。他の多くの原因が遺伝子発現レベルの変動に寄与する。ランダム変動に対処するために雑音因子をSPMに導入することができる。SPMは以下のように書くことができる。
【数32】
【0140】
鍵となる仮定は、これらのランダム変動が平均0を持つことである。
【0141】
分布仮定はなされていないことに留意すべきである。さもなければ、LOD SCORE等価方法を発展させることが可能であり、それからの結果は分布仮定に必然的に依存する。
【0142】
一般的に、統計学者は以下の表現を使用する傾向がある。
【数33】
【0143】
予測値
パラメータ推定。推定されるべきパラメータは以下のものを含む。
【0144】
Θ…細胞周期間隔
σkにおける(γ0,γ1)…同調化変動に対する標準偏差
(δk,λk)…加算的および乗算的な異質性因子
(ζj,ξj)…活性化および不活性化時間
(αj,βj)…背景および高められた発現レベル。
【0145】
上記パラメータを推定する基本メカニズムは、2乗残差の以下の和を最小にすることである。
【数34】
【0146】
方法に対する2つの重要な統計値。方法に対する2つの重要な統計値はZスコアとR2である。
【0147】
Zスコアを使用してヌル仮定H0をテストする。Jj=0、すなわち周期性の欠如である。
【0148】
R2はSPMにより説明される変動の割合を測定する。
【数35】
【0149】
選択基準は(R2>0.5、Z>4およびSPMはSNOPに好都合である)ことである。
【0150】
時間経過実験
SPMを拡張して一般的にタイミング因子を組み込むと、遺伝子発現に対する一般モデルは以下のようになる。
【数36】
【0151】
線形モデル。遺伝子発現に対する代表的な線形SPMが図12に示されている。図12を参照すると、転写発現レベル(β)が細胞周期タイミングに対してプロットされている。線形SPMは以下の通りである。
【数37】
【0152】
二次モデル。遺伝子発現に対する代表的な二次SPMが図13に示されている。図13を参照すると、転写発現レベル(β)が細胞周期タイミングに対してプロットされている。二次SPMは以下の通りである。
【数38】
【0153】
解析の目的は次のものを推定することである。
Βj…時間依存性
τj…ピーク時間
αj…背景発現値
(δkλk)…異質性補正。
【0154】
正常および異常組織の比較
モデルを拡張して正常および異常組織を比較することができる。インジケータ関数xkは時間変数tkを置換し、xkはバイナリ値を持つ。
【数39】
【0155】
対応モデルは以下のように書くことができる。
【数40】
【0156】
この方法により正常および異常組織を比較する代表的な結果が図14に示されている。
【0157】
例3
人間の癌において差次的に発現した遺伝子の解析のための代表的方法
この例では、本発明の代表的な方法を使用して人間の癌において差次的に発現した遺伝子を同定する。
【0158】
この例は、DNAマイクロアレイ実験から関連情報を抽出する統計学的モデリングアプローチを説明する。これは2つの予め定められたサンプルグループ間、例えば健康な組織対癌組織との間で差次的に発現した遺伝子を発見することに向けられている。このモデルは十分に規定された仮定に基づいており、正確でよく特徴付けられた統計測定値を使用して、ゲノム発現プロファイルの特定の側面を問い合わせ、データの異質性およびゲノム複雑性に対処する。共通の全体的な発現プロファイルを共有する遺伝子および/またはサンプルのグループを規定しようとするクラスタ解析と対照的に、このモデリングアプローチは“既知のクラスタメンバーシップ”(すなわち、2つの予め定められたサンプルグループ)を利用して、高感度で強力な方法で個々の遺伝子の発現プロファイルに焦点を合わせる。さらに、このアプローチを使用して、特定の遺伝子の発現について前もって考えた仮定を生成し、テストすることができる。この方法論を例示するために、マイクロアレイデータが38個の急性白血病サンプルおよび10個の小児髄芽細胞腫脳腫瘍から得られた。
【0159】
DNAマイクロアレイ技術は単一サンプルからの数千のmRNA分子の発現レベルを同時問い合わせできるようにし、したがって機能性ゲノム研究(31,38)の基礎である。これらの実験から得られるデータの量はデータ解析へのチャレンジ:すなわち、どのように、高いスループットデータの“海”から関連情報を効率的に抽出することができるか(21,22,41)?を表す。遺伝子発現データを解析する高感度で強力な理論上のフレームワークを確立させなければならない。
【0160】
現在、マイクロアレイデータを解析するために最も一般的に使用されている計算アプローチはクラスタ解析である。クラスタ解析は類似する発現プロファイルに基づいて遺伝子またはサンプルを“クラスタ”にグループ分けし、共有クラスタメンバーシップを通して遺伝子の機能または規則性あるいはサンプルの類似性に対する手がかりを提供する(41,97,98)。いくつかのクラスタ化方法がゲノムワイドな発現データの解析に有効に適用されており、大きく3つのカテゴリに分類することができる。すなわち(1)ツリーベースのアプローチは相関係数のような遺伝子間の距離測定値を使用して、遺伝子を階層ツリーにグループ分けし(33)、(2)第2のカテゴリは、クラスタ内の変動を最小にし、クラスタ間の変動を最大にするように遺伝子をクラスタ分けし(97,98)、(3)第3のカテゴリは遺伝子をブロックにグループ分けし、それらの中では相関が最大化され、それらの間では相関が最小化される(19)。
【0161】
マイクロアレイ研究に対するクラスタ解析の力は、類似する発現プロファイルを示す遺伝子転写物またはサンプルを発見することにある。例は時間経過に対して同時調製されると思われる転写物の同定子(29,92)、あるいは以前に未知のサンプルグループ化を発見すること(15,16)を含む。しかしながら、“同様な”グループの同定子は必ずしもマイクロアレイ研究における目的ではない。例えば、マイクロアレイはパワフルな高スループット方法を提供し、正常組織対癌性組織のような予め定められたサンプルグループ間で差次的に発現した遺伝子を発見する(16,30)。クラスタ解析は個々の遺伝子に焦点を当てないことから、このタイプの研究のためには高感度な方法ではない。
【0162】
マイクロアレイ研究からのグループ比較に対してもっとも一般的に適用されている技術は、各グループに対する平均強度間の2倍またはそれ以上の差を持つ遺伝子を単に探すことである。しかしながら、相対的な平均比較はサンプル変動に対処できず、100%より少ない発現レベルの差が非常に現実的で意味のある生物学的影響を持つことがある事実を無視する。実際、ノーザンブロットのパネルの比較や、あるいは健康および癌組織サンプル間の酵素分析法のような、単一遺伝子における解析に焦点を当てるときに、科学者達は類似する基準をめったに利用しない。グループ間のマイクロアレイ発現プロファイルを比較するための非常に改良された方法が最近提供され、この方法では、修正された人の係数およびデータ変動に対処する隣近解析アプローチを使用して、サンプルグループが比較される(44)。
【0163】
この例は統計学的モデリングアプローチを説明し、よく理解されており、強力な統計基準を使用して、2つのサンプルグループ間で差次的に発現した遺伝子を同定する。統計学的モデリング技術の2つの例示が含まれている。38人の白血病患者からの発現プロファイルが調査され、そのうちの27人が急性リンパ球性白血病(ALL)として診断される一方、11人が急性骨髄性白血病(AML)(44)として診断された。このデータセットはクラスタ解析を通して元々解析され、発現ベースの分類モデルが開発され、AML(44)からALLを同定した。第2の目的は新規なデータセットを解析して、NEUROD3/神経性1−ポジティブ対ネガティブ−小児髄芽細胞腫脳腫瘍において差次的に発現した遺伝子を発見することであった(74)。発見は、統計学的モデリングが高感度で強力な手段を提供してDNAマイクロアレイからの情報を抽出することを示す。
【0164】
方法論。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第1のステップは、データの事前処理および/または変換である。これにはスパイクオリゴヌクレオチド制御の除去が含まれる。第2のステップは、サンプルに特異的な異質性とともにチップに特異的な異質性に対する補正因子を推定し、これらの因子を使用してデータを正規化することである。最後のステップは回帰解析を実行し、強力な統計技術を使用して各遺伝子転写物に対する関連モデルパラメータ(方法中の式1)を推定することである。結果は各転写物に対するZスコアの絶対値によりランク付けされる。Zスコアが高くなると、対応する遺伝子が2つのグループ間で差次的に発現したことの信頼レベルがより高くなる。
【0165】
方法論はMATLAB(MATH WORKS,Inc.により開発されたコンピュータ言語)を使用するコンピュータプログラムで実現することができる。
【0166】
複数比較。比較的少ない数のサンプルで非常に多量の比較を実行するときの問題は、複数比較から生じる不正確な高ポジティブレートである。この懸念を取り扱うために、有意性レベルが確実にゲノムスケールに適用可能なように、差次的に発現した転写物を宣言する統計しきい値が高められた。控えめな選択はボンフェロニ補正であり(53)、これは所要のゲノムワイド有意性、例えば1%を解析される遺伝子の総数で割る。例えば、7070のプローブを含むアフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイでは、調製された有意性レベルは約1/7070%である。Zスコアは正規分布にしたがうことを仮定すると、ゲノムレベルにおける対応する1%有意性しきい値は4.8のZスコアである。差次的に発現した複数の遺伝子を検出する力を向上させるために、各遺伝子に対する有意性値(すなわちp値)はホッケベルグにより提案された修正されたボンフェロニ補正を使用して計算された(52)。
【0167】
白血病研究。以前の研究は、38人の白血病患者(27人はALLで11人はAML)からのmRAN発現プロファイルを調べ、急性白血病に対する発現ベースの分類方法を開発した(44)。この研究からのデータセットはモデリング技術を例示するのに理想的であった。その理由は多量の患者を含み、十分に特徴付けられていたからである(41)。さらに、白血病に関する多量の文献があり、これらの文献から発見の有効性を評価することができる。
【0168】
統計学的モデリングアプローチは、4.8以上のZスコアで、AMLとALLとの間で差次的に発現した141の転写物を同定した。これらのうち23がAMLにおいてより高いレベルで発現した一方、114がALLで差次的に発現した。テーブル1および2はmRNAに対応するトップ25遺伝子をリストアップし、これらはいずれかのサンプルグループでさらに高く発現している。これらのテーブルには、修正された人の相関係数方法論に基づいたグラウブ氏らによる各所定プローブの場合の、AML対ALLについての平均間の相対差と、対応ランキングとを含む(44)。2つの方法間のランキングにおける差は比較的小さい平均発現差および/または発現レベルを持つ遺伝子に向けての統計学的モデリング方法における増加した感度から生じるものと思われる。これは重要な問題である。その理由はこれらの基準のいずれもタンパク質の生物学的特異性と必ずしも相関していないからである。例えば、テーブル1は、トロンボスポンディン1(TSP1)はAML対ALLで差次的に発現した一方、相対的および絶対的平均発現レベル差の両者は非常にわずかであった(それぞれ1.8倍および125)ことを示している。それにもかかわらず、TSP1は骨髄巨核球ろう(28)をネガティブに制御し、骨髄性白血病細胞増殖(101)に影響を与えることが知られている。
【0169】
マイクロアレイ研究の大部分はAML/ALL比較における38個のサンプルよりも少ないサンプルサイズで実行されることから、統計学的モデリング方法は、11人のAML患者間のトロンボポエテイン(TPO)との発現プロファイルの関係を調査するために適用された(44)。TPOは骨髄前駆の巨大核細胞(24)への遷移の原因となる主なサイトカインであるが、造血幹細胞からすべてのタイプの前駆への分化においてさらに一般的な役割も果たす(58)。さらに、TPOは多数のAML細胞株で発現することが知られている(46)。トロンボポエテイン(TPO)発現プロファイルのシャープな図形が患者28,30,32,34,36および38対、患者29,31,33,35および37との間で発見され、したがって、統計学的モデリング技術を使用してこれらの患者グループが比較された。8個の転写物が4.8より上のZスコアを持っていた。TPO自体は最高のランキングを生じさせた(テーブル3)。この解析からの15個の最高ランキングmRNAのうち、3個の対応する遺伝子生成物がTPOにより影響を受け、あるいはTPOと直接的に相互作用することが知られており、2個は詳しく特徴付けられなかったが、TPOと相互作用するタンパク質と非常に相同しており、他の8個は骨髄造血に関係している。TPOはAML芽細胞の増殖を刺激することができ(65,70)、グルーピングが芽細胞の高いまたは低いパーセンテージを持つサンプルのラインに沿って大きく落ちることに着目することは興味深い(www.genome.wi.mit.edu/MPR参照(44))。
【0170】
治療の成功または失敗と遺伝子発現の関係が調査された。11人のAML患者のうち、6人の患者(患者28−33)は治療に応答することがない一方、5人の患者(患者34−38)は生き延びた(www.genome.wi.mit.edu/MPR参照(44))。この解析からの25個の最も重要な転写物がテーブル4にリストアップされている。対応する遺伝子の染色体位置が調査された。その理由は染色体異常が白血病では優勢であり、予知的な密接関係を持っていることが多いからである(34,85)。テーブル4にリストアップされている遺伝子のほとんどすべては、異常をAMLおよび他の形態の白血病に含めるために以前に同定された領域に入る。さらに、遺伝子のうちの3個は5q11−31にエンコードされ、4個は2q領域に入り、2個は1q32−26内であり、他の2個は6p12−p11で見出される(テーブル4)。6800+遺伝子のランダムプールからのトップ25遺伝子における染色体位置の5個の“ミニクラスタ”の同定子が目を引く。注目すべきことは、領域5q11−31はAMLで頻繁に失われており、予知に影響を与えることが知られている(34,90,103)。さらに、Set(63)およびHoxA9(61)はAML進行で役割を果たすことが知られており、COL4A4(105)、チオレドキシン(71,91)、カスパーゼ−8(76)、インテグリンベータ5(25)、アルファチューブリン(51)、およびSPS2(91)は病気によく寄与するかもしれない。臨床結果は患者年齢、診断時期、および処置プロトコルを含む多くの非遺伝子要因により影響されるが、上記発見はゲノムワイドのマイクロアレイ解析を使用して予知インジケータの発見を約束していることを心に留めておくべきである。
【0171】
髄芽細胞腫研究。NEUROD3/神経性1は基本的ならせん−ループ−らせん転写因子であり、その発現は小児髄芽細胞腫に対するネガティブ予知インジケータである(84)。白血病データを解析することからの有望な結果にしたがって、mRNA発現プロファイルが10個の小児髄芽細胞腫組織サンプルから調査され、そのNEUROD3ステータスがノーザンブロットを使用してあいまいさなく決定された(74)。主目的はNEUROD3で差次的に発現した遺伝子を発見することであった。マイクロアレイ発現プロファイルの統計学的モデリングは、4.8を超えるZスコアを持つNEUROD3+またはNEUROD3−腫瘍間で差次的に発現した22個の遺伝子を明らかにした(テーブル5)。多数のこれらの遺伝子は髄芽細胞腫の腫瘍形成において潜在的な役割を持ち、これには細胞周期で調製された遺伝子Skp2(26)およびSmN(25);ERF−1(Berg36)、細胞消滅で役割を果たすかもしれない推定核細胞転写因子;微小管タンパク質および原腫瘍形成遺伝子プロファイル(55)、これは染色体領域17p13.3にあり、髄芽細胞腫の約50%で失われ(68);ホスファチジルイノシトール4−キナーゼ、これは神経発育因子(NGF)のトランスポートに関係しており(83);Kid、分裂紡錘フォーメーションに関係するタンパク質で、さまざまな癌細胞で発現する(100);Rar、人間の海馬状隆起(http://www.ncbi.nlm.nih.gov/entrez/utils/qmap.cgi?form=6&db=n&dopt=g&uid=u05227参照)から分離されたものであり、マウス中のras原腫瘍形成遺伝子ファミリーの脳特定メンバと相同であり(17);ADH7、レチノイン酸合成で機能するかもしれないものであり(50);転写因子SOX9(112)およびpolIIIサブユニットRPC62(107);RING3、転写因子および推定腫瘍形成遺伝子(75);およびMYBL2腫瘍形成遺伝子、神経芽細胞腫瘍中のプア予知因子(80)が含まれる。
【0172】
オリゴヌクレオチドマイクロアレイ技術の開発は、単一実験における数千の遺伝子のmRNA転写レベルのモニタリングを可能にする。実際、科学者は完全なDNA配列が既知である酵母のような生物に対する全ゲノムの発現プロファイルを既に調査し始めている(29,36,60,92)。調査および発見のこの力は、同時に1つの遺伝子に焦点を合わせる伝統的な実験アプローチをはるかに超えて進行する。さもなければ、マイクロアレイ研究から得ることができるおびただしい量のデータがデータ解析に対するチャレンジを提供する(21)。この例では、十分な基礎がある統計処理が説明され、この処理はゲノムデータの複雑性を考慮に入れながら、2つのサンプルグループ間の個々の遺伝子の発現プロファイルを比較する。
【0173】
統計処理に隠れたモチベーションは単純なコンセプトに基づいている。すなわち個々の遺伝子について、それぞれ予め定められたサンプルグループ中のその転写レベルの平均および標準偏差を計算し、Zスコア、p値またはR2のような典型的な統計基準に基づいて発現プロファイルが異なっている尤度を決定する。同時に、この方法はゲノムワイドな情報を利用して、サンプル異質性および複数比較問題を取り扱う。白血病データについて得られた結果は、モデリングアプローチが遺伝子発現を定量化するかなり高感度な方法を生み出すことを示す。
【0174】
何らかの特別なフィルタリング方法を生蛍光データに適用することなく、白血病および髄芽細胞腫データセットが解析されたことに着目することは重要である。例えば、蛍光シグナル強度に基づいて“背景”雑音レベルはデータから減算されなかった、あるいは “発現しなかった”遺伝子を取り除かれなかった。これらのフィルタリング技術は、データをグラスタリングするとき、あるいは単一サンプルで遺伝子が発現したかまたはしなかったかを問うときに、最強の関連付けを行うことが要求される。しかしながら、フィルタリングは対象とする潜在的な遺伝子、特に低いものから適度な発現レベルを持つ潜在的な遺伝子を除去し、したがって、発見の力を減らすことがある。例えば、細胞毎に数転写物からゼロ転写物のみの差は、特別なフィルタリング技術を適用した後に検出できなくなることがあるが、そうでなければ、非常に現実的な生物的有意性を持つか、あるいは治療のために細胞を特にターゲットにするかなりの機会を提供する。
【0175】
統計学的モデリングの顕著な利点は、この技術はデータ中のランダム変動(すなわち“雑音”を利用することである。例えば、活性化誘導Cタイプレクチン(AICL)の平均発現レベルはAMLにおいてALLより3倍高く、絶対平均差は826ユニットで相当であった。AICLがさまざまな造血誘導細胞株で発現することを考えると(49)、AICLはこの証拠に基づいてAMLで実際に過剰発現したと合理的に結論するかもしれない。しかしながら、モデリングアプローチは0.91のみのZスコアをAICLに与えた。この明白な不一致は、AMLセット中のAICLサンプルの1つが他の任意のものよりも5倍以上高い強度値を持っていた事実により説明される。38個のサンプルからこの1つだけを排除すると、AMLとALLとの間のAICLに対する相対および絶対平均差はそれぞれ1.3倍および−94+/−216であった。明らかに、統計学的モデリングは倍数変化の単純比較よりも非常に意味のある結果を生み出す。
【0176】
モデリングアプローチは拡張することができる。第1に、非線形モデルを組み込むことができ、あるいは他の変換を観測された発現レベルに適用して、蛍光強度における非線形性に対処することができる。第2に、モデル(方法中の式1)を自然に拡張して付加的な共変量を組み込むことができる。例えば、複数の患者の臨床研究では、いくつかの臨床変数と発現プロファイルとの関係を評価することができる。第3に、たとえば非線形用量応答関係の評価において、連続的な共変量に対して非パラメータ平滑関数を組み込むことによりモデル(式1)を拡張することができる。第4に、複数の遺伝子の遺伝子調製回路についての我々の知識が蓄積するので、回帰係数α(π)(α1,α2,...,αJ)およびβ(π)(β1,β2,...,βJ)に対する“高レベル”モデルを仮定することにより遺伝子間の機能関係を公式化することができる。ここでπは全体的な遺伝子調製回路を特徴付けるパラメータの共通セットとすることができる。推定式を使用して、このような遺伝子回路モデルがどれくらい上手くデータに適合するかをテストすることができる。
【0177】
現在のアプローチの主な制限はp値の計算に関係している。先に着目したように、4.8のZスコアはゲノムワイドの有意性がアフィイメトリックス6800遺伝子チップに対して1%で確実に制御されるように選択される。しかしながら、対応するp値の計算はZスコアに対する漸近正規分布に基づいている。小さいものから適度なサンプルサイズで、この正常性は疑わしく、このようなしきい値は控えめではない。小さいサンプルサイズでの発見科学のために、Zスコア4.8しきい値は暫定的ガイドラインとして取り扱うべきであることに着目することも重要である。特定の候補遺伝子との関係をテストする状況では、単一遺伝子に対して確実に1%の誤り誤差率とするための許容しきい値は2.58のZスコアである。最後に、ボンフェロニ補正またはその変形は遺伝子発現の共変量を考慮にいれず、これはp値に対して控えめな推定となる。
【0178】
回帰モデル。遺伝子発現プロファイルのアレイを結果のベクトルとして概念化することができる。Yk=(Y1k,Y2k,...,YJk)’がアレイを示すとする。ここでYjkはk番目のサンプル中のj番目の発現を示す(j=1,2,...,J;k=1,2,...,K)。xkが各k番目のサンプルに関係する共変量を示すものとする。例えば、マーカー遺伝子の存在に対してxk=1、その不存在に対してxk=0である。k番目のサンプルにおけるj番目の遺伝子の発現レベルに対する回帰モデルを以下のように提案する。
【数41】
【0179】
ここで、(aj,bj)は遺伝子に特異な回帰係数であり、(δk,λk)はそれぞれサンプルに特異な加算的および乗算的異質性因子であり、εjkは既知の共変量およびサンプル間のシステマティックな異質性により同定されたもの以外の原因による変動を反映するランダム変数である。xkはバイナリであることから、ajは正常サンプル(xk=0)中のj番目の遺伝子の平均発現レベルを測定し、bjは2つのサンプルグループ間のj番目の遺伝子の平均化発現レベルの差を測定する。
【0180】
異質性因子(δk,λk)は複数のmRNAサンプルを調製する際の変動に対処するために導入される。このような補正は2つのサンプルを比較する際に十分に考えられた。これらの2つのサンプル間に全体的な差次的発現がないヌル仮定のもとでは、サンプルデータを正規化して対角線上で共通技術に入れることによりこの異質性を調製することができる(111)。数値的安定性を確保するために切片も推定することができる。切片が0とは異なる場合には、補償するために対角線が上下に移動される。この補正を形式化して、典型的なゲノムワイドの発現パターンが安定であることを仮定することができ、線形モデルμjk=δk+λkajを使用して、すべてのサンプルおけるすべての遺伝子に対する平均発現値を特徴付けることができる。これらの異質性因子は加重最小2乗法により推定される(27)。推定された異質性因子を使用して(Yjk−δk^)/λk^として観測された発現レベルを調製し、補正された発現値を使用して上記モデル(式1)のもとにさらに解析をする。
【0181】
ランダム変動εjkを使用して未知のすべての原因による変動を示す。特に、この変動はサンプリング調製、遺伝子のクロスハイブリダイゼーション、またはマイクロアレイにおける他の異常と関係付けることができる。これらのランダム変動の確率分布は一般的に未知であり、正規分布のようなよく知られている何らかの分布にしたがう傾向がない。したがって、分布仮定は行われない。
【0182】
分析戦略。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第1のステップはデータの前処理であり、これには必要に応じて制御遺伝子の除去およびデータの変換(例えば、対数変換)が含まれる。
【0183】
第2のステップは加算的および乗算的異質性要因(δk、λk)を推定することによりサンプル間の異質性を調査することである。推定は以下の加重最小2乗を最小にすることにより得られる。
【数42】
【0184】
ここで、和はすべての遺伝子およびサンプルに対するものである(27)。加重はすべての遺伝子の寄与が0と1との範囲で標準化されるように選択される。結果的に、上記の加重最小2乗は、サンプルが同質のときの遺伝子数に等しい。推定されたパラメータを使用してデータを補正する。
【0185】
残余についての分散仮定は課されていないことから、第3のステップは加重最小2乗を使用して(54)、モデル(式1)中の遺伝子に特異なパラメータ(aj,bj)を推定することである(78)。(aj^,bj^)により示される各遺伝子についての回帰推定を得るほかに、各遺伝子に対する対応する強力な標準誤差が推定公式理論を使用して計算される(42,64)。推定されたパラメータおよび標準誤差を使用してZスコアを計算することができ、これは対応する標準誤差に対する平均差の比に等しい。有意性を決定するときに複数比較問題を取り扱うために、ホックベルグにより提案された修正されたボンフェロニ補正を使用してZスコアをp値に変換し、これが研究結果の有意性を測定する。
【0186】
白血病研究。アフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイは4つのチップからなり、これらには6817個の個々の遺伝子に対して結合された総7070オリゴヌクレオチドプローブ(制御遺伝子を除く)が含まれている。MITの研究者は38人の白血病患者(27人のALLおよび11人のAML)から血液サンプルを集め、アフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイを使用して、遺伝子発現プロファイルを評価した(44)。この研究ではもっぱらトレーニングデータセットが調査された。その理由はこのデータセットがグラウブ氏らにより最も特徴付けられていたからである(44)。マイクロアレイ解析を実行するために使用される実験プロトコルおよび得られたデータ値は(http://waldo.wi.mit.edu/mpr/pubs.html)で公衆に利用可能である。
【0187】
脳腫瘍研究。アフィイメトリックス6800遺伝子チップを使用して髄芽細胞腫と診断された10人の小児患者からの組織サンプルのmRNA発現プロファイルを解析した。
【0188】
【表1】
【0189】
【表2】
【0190】
【表3】
【0191】
【表4】
【表5】
これは、発現値が正規分布にしたがうときには経験的確率となる。右列の図は、悪化同調と関連づけられた、推定標準偏差を示している。
【0192】
リファレンス
1. Breeden, L. L. (1997) Methods in Enzymology 283, 332−341.
2. Cho, R. J., Campbell, M. J., Winzeler, E A., Steinmetz, L., Conway, A., Wodicka, L., Wolfsberg, T. G., Gabrielian, A. E., Landsman, D. et al (1998a) Molecular Cell 2, 65−73.
3. Cho, R. J., Fromont−Racine, M., Wodicka, L., Feierbach, B., Steams, T., Legrain, P., Lockhart, D. J., & Davis, R. W. (1998b) Proc. Nat Acad. Sci. USA 95, 3752−3757.
4. DeRisi, J. L., Lyer, V. R., & Brown, P. O. (1997) Science 278, 680−686.
5. Fodor, S. P. A., Read, J. J., Pirrung. M. C., Stryer, L., Lu, A. T., & Solas, D. (1991) Science 251, 767−773.
6. Lander, E. S. (1999) Nature Genetics Supplement 21, 3−4.
7. Liang, K. Y. & Zeger, S. L. (1986) Biometrika 73, 13−22.
8. Prentice, R. L. & Zhao, L. P. (1991) Biometrics 47, 825−839.
9. Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995) Science 270, 467−470.
10. Schena, M., Shalon, D., Heller, R., Chai, A., Brown, P. O., & Davis, R. W. (1996) Proc. Natl. Acad. Sci. USA 93, 10614−10619.
11. Spellman, P. T., Sherlock, G., Zhang, M. Q., Vishwanath, R. I., Anders, K., Eisen, M. B., Brown, P. O., Botstein, D., & Futcher, B. (1998) Molecular biology of the cell 9, 3273−3279.
12. Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dimtrovaky, E., Lander, E. S., & Golub, T. R. (1999) Proc. Natl. Acad. Sci. USA 96, 2907−2913.
13. Tavazoie, S., Hughes, J. D., Cambell, M. J., Cho, R. J., & Church, G. M. (1999) Nature Genetics 22, 28 1−285.
14. Aguiar, R. C. et al. Characterization of a t(10;12)(q24;p13) in a case of CML in transformation. Genes Chromosomes Cancer 20, 408−11(1997).
15. Alizadeh, A. A. et al. Distinct types of diffuse large B−cell lymphoma identified by gene expression profiling. Nature 403, 503−11(2000).
16. Alon, U. et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci U S A 96, 6 745−50 (1999).
17. Ayala, J. et al. Developmental and regional expression of three new members of the ras−gene family in the mouse brain. J Neurosci Res 22 , 384−9 (1989).
18. Bajalica−Lagercrantz, S., Tingaard Pedersen, N., Sorensen, A. G., & Nordenskjold, M. Duplication of 2q31−qter as a sole aberration in a case of non− Hodgkin’s lymphoma. Cancer Genet Cytogenet 90, 102−5 (1996).
19. Ben−Dot, A., Shamir, R., & Yakhini, Z. Clustering gene expression patterns. J Comput Biol 6, 281−97 (1999).
20. Berget, R., Le Coniat, M., Derre, J., Vecchione, D., & Jonveaux, P. Cytogenetic studies in acute promyelocytic leukemia: a survey of secondary chromosomal abnormalities. Genes Chromosomes Cancer 3,332−7(1991).
21. Brent, R. Genomic biology. Cell 100, 169−83 (2000).
22. Brown, P. O. & Botstein, D. Exploring the new world of the genome with DNA microarrays. Nat Genet 21, 33−7 (1999).
23. Bundgaard, J. R., Sengelov, H., Borregaard, N., & Kjeldsen, L. Molecular cloning and expression of a cDNA encoding NGAL: a lipocalin expressed in human neutrophils. Biochem Biophys Res Commun 202, 1468−75 (1994).
24. Caen, J. P., Han, Z. C., Bellucci, S., & Alemany, M. Regulation of megakaryocytopoiesis. Haemostasis 29,27−40 (1999).
25. Campbell, L. et al. Direct interaction of Smn with dp103, a putative RNA helicase: a role for Smn in transcription regulation? Hum Mol Genet 9, 1093−100 (2000).
26. Carrano, A. C., Eytan, E., Hershko, A., & Pagano, M. SKP2 is required for ubiquitin−mediated degradation of the CDK inhibitor p27. Nat Cell Biol 1, 193−9 (1999).
27. Carroll, R. J. & Ruppert, D. Transformation and weighting in regression, Chapman and Hall, London (1988).
28. Chen, Y. Z. et al. Thrombospondin, a negative modulator of megakaryocytopoiesis. J Lab Crin Med 129,231−8 (1997).
29. Chu, S. et al. The transcriptional program of sporulation in budding yeast. Science 282, 699−705 (1998).
30. Coller, H. A. et al. Expression analysis with oligonucleotide microarrays reveals that MYC regulates genes involved in growth, cell cycle, signaling, and adhesion. Proc Nail Acad Sci U S A 97, 3260−5 (2000).
31. DeRisi, J. et al. Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nat Genet 14,457−60 (1996).
32. DeRisi, J. L., Iyer, V. R., & Brown, P.O. Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680−6(1997).
33. Eisen, M. B., Spellman, P. T., Brown, P. 0., & Botstein, D. Cluster analysis and display of genome−wide expression patterns. Proc Natl Acad Sci U S A 95, 14863−8 (1998).
34. El−Rifal, W., Elonen, E., Larramendy, M., Ruutu, T., & Knuutila, S. Chromosomal breakpoints and changes in DNA copy number in refractory acute myeloid leukemia. Leukemia 11 , 958−63 (1997).
35. Feng, X., Teitelbaum, S. L., Quiroz, M. E., Towler, D. A., & Ross, F. P. Cloning of the murine beta5 integrin subunit promoter. Identification of a novel sequence mediating granulocyte−macrophage colony−stimulating factor−dependent repression of beta5 integrin gene transcription. J Biol Chem 274, 1366−74 (1999).
36. Ferea, T. L., Botstein, D., Brown, P. O., & Rosenzweig, R. F. Systematic changes in gene expression patterns following adaptive evolution in yeast. Proc Natl Acad Sci U S A 96, 9721−6 (1999).
37. Fioretos, T. et al. Isocbromosome 17q in blast crisis of chronic myeloid leukemia and in other hematologic malignancies is the result of clustered breakpoints in 17p11 and is not associated with coding TP53 mutations. Blood 94, 225−32 (1999).
38. Fodor, S. P. et at Light−directed, spatially addressable parallel chemical synthesis. Science 251, 767−73 (1991).
39. Fontenay−Roupie, M. et al. Tbrombopoietin activates human platelets and induces tyrosine phosphorylation of p80/85 cortactin. Thromb Haemost 79, 195−201 (1998).
40. Fracchiolla, N. S., Colombo, G., Finelli, P., Maiolo, A. T., & Nert, A. EHT, a new member of the MTG8/ETO gene family, maps on 20q11 region and is deleted in acute myeloid leukemias. Blood 92, 3481−4 (1998).
41. Gaasterland, T. & Bekiranov, S. Making the most of niicroarray data. Nat Genet 24,204−6(2000).
42. Godambe, V. P. An optimum property of regular maximum likelihood estimation. Annals of Mathematical Statistics 31, 1208−12 (1960).
43. Gogineni, S. K. et al. Variant complex translocations involving chromosomes 1, 9, 9, 15 and 17 in acute promyelocytic leukemia without RAR alpha/PML gene fusion rearrangement. Leukemia 11, 514−8 (1997).
44. Golub, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286, 531−7 (1999).
45. Gotoh, A., Ritchie, A., Takabira, H., & Broxmeyer, H. E. Thrombopoietin and erytbropoietin activate inside−out signaling of integrin and enhance adhesion to immobilized fibronectin in human growth−factor−dependent hematopoietic cells. Ann Hematol 75, 207−13 (1997).
46. Graf G., Dehmel, U., & Drexler, H. G.Expression of thrombopoietin and tbrombopoietin receptor MPL in human leukemia−lymphoma and solid tumor cell lines. Leuk Res 20, 831−8 (1996).
47. Grimwade, D. et al. Characterization of cryptic rearrangements and variant translocations in acute promyelocytic leukemia. Blood 90, 4876−85 (1997).
48. Haase, D. et al. Evidence for malignant transformation in acute myeloid leukemia at the level of early hematopoietic stem cells by cytogenetic analysis of CD34+ subpopulations. Blood 86, 2906−12 (1995).
49. Hamann, J., Montgomery, K. T., Lau, S., Kucherlapati, R., & van Lier, R. A. AICL: a new activation−induced antigen encoded by the human NK gene complex. Iinmunogenetics 45 , 295−300 (1997).
50. Haselbeck, R. J. & Duester, G. ADH4−lacZ transgenic mouse reveals alcohol dehydrogenase localization in embryonic midbrainlhindbrain, otic vesicles, and mesencephalic, trigeminal, facial, and olfactory neural crest. Alcohol Chin Exp Res 22, 1607−13 (1998).
51. Hirose, Y. & Takiguchi, T. Microtubule changes in hematologic malignant cells treated with paclitaxel and comparison with vincristine cytotoxicity. Blood Cells Mol Dis 21, 119−30 (1995).
52. Hochberg, Y. A sharper Bonferroni procedure for multiple test of significance. Biometrika 75, 800−802 (1988).
53. Hsu, J. C. Multiple comparisons: theory and methods, Chapman & Hall, London (1996).
54. Huber, P. J. The behavior of maximum likelihood estimates under nonstandard condition. in Proceedings of the Fifth Berkeley Symposium in Mathematical Statistics and Probability 221−233 UC Press, Berkeley, (67).
55. Janke, J. et al. Suppression of tumorigenicity in breast cancer cells by the microfilament protein profilin 1. J Exp Med 191, 1675−86 (2000).
56. Kagan, J. et al. Clustering of breakpoints on chromosome 10 in acute T−cell leukemias with the t(10;14) chromosome translocation. Proc Natl Acad Sci U S A 86, 4161−5 (1989).
57. Kate, T. et al. Thrombin cleaves recombinant human thrombopoietin: one of the proteolytic events that generates truncated forms of thrombopoietin. Proc Natl Acad Sci U S A 94, 4669−74 (1997).
58. Kaushansky, K. Thrombopoietin and hematopoietic stem cell development. Ann N Y Acad Sci 872, 314−9 (1999).
59. Kharbanda, S. et al. Stimulation of human monocytes with macrophage colony−simulating factor induces a Grb2−mediated association of the focal adhesion kinase pp125 FAK and dynamin. Proc Natl Acad Sci U S A 92, 6132−6 (1995).
60. Lasbkari, D. A. et al. Yeast microarrays for genome wide parallel genetic and gene expression analysis. Proc Natl Acad Sci U S A 94, 13057−62 (1997).
61. Lawrence, H. J. et al. Frequent co−expression of the HOXA9 and MEISl homeobox genes in human myeloid leukemias. Leukemia 13, 1993−9 (1999).
62. Lc Cabec, V., Calafat, J., & Borregaard, N. Sorting of the specific granule protein, NGAL, during granulocytic maturation of HL−60 cells. Blood 89, 2113−21 (1997).
63. Li, M., Makkinje, A., & Damuni, Z. The myeloid leukemia−associated protein SET is a potent inhibitor of protein phosphatase 2A. J Biol Chem 271, 11059−62 (1996).
64. Liang, K. Y. & Zeger, S. L. Longitudinal data analysis using generalized linear models. Biometrika 73, 13−22 (1986).
65. Luo, S. S., Ogata, K., Yokose, N., Kato, T., & Dan, K. Effect of thrombopoietin on proliferation of blasts from patients with myelodysplastic syndromes. Stem Cells 18, 112−9 (2000).
66. Mancini, M. et al. Use of dual−color interphase FISH for the detection of inv(16) in acute myeloid leukemia at diagnosis, relapse and during follow−up: a study of 23 patients. Leukemia 14, 364−8 (2000).
67. Marlton, P. et al. Molecular characterization of l6p deletions associated with inversion 16 defines the critical fusion for leukemogenesis. Blood 85, 772−9 (1995).
68. McDonald, J. D. et al. Physical mapping of chromosome 17p13.3 in the region of a putative tumor suppressor gene important in medulloblastoma. Genomics 23, 229−32 (1994).69. Melnick, A. et al. Identification of novel chromosomal rearrangements in acute myelogenous leukemia involving loci on chromosome 2p23, 15q22 and 17q2l. Leukemia 13, 1534−8 (1999).
70. Motoji, T. et al. Growth stimulatory effect of thrombopoietin on the blast cells of acute myelogenous leukemia. Br J Haematol 94, 513−6 (1996).
71. Nilsson, J., Soderberg, O., Nilsson, K., & Rosen, A. Thioredoxin prolongs survival of B−type chronic lymphocytic leukemia cells. Blood 95, 1420−6 (2000).
72. Ning, Z. Q., Norton, J. D., Li, J., & Murphy, J. J. Distinct mechanisms for rescue from apoptosis in Ramos human B cells by signaling through CD4O and interleukin−4 receptor: role for inhibition of an early response gene, Bergs6. Eur J Iminunol 26, 23 56−63 (1996).
73. Nowell, P. C. et al. The most common chromosome change in 86 chronic B cell or T cell tumors: a l4q32 translocation. Cancer Genet Cytogenet 19, 219−27 (1986).
74. Olson, J. M. et al. NEUROD3/neurogenin−1−positive medulloblastomas share a distinct cohort of preferentially expressed genes: implications for therapeutic stratagies (personal communication).
75. Ostrowski, J., Florie, S. K., Denis, G. V., Suzuki, H., & Bomsztyk, K. Stimulation of p85/RlNG3 kinase in multiple organs after systemic administration of rnitogens into mice. Oncogene 16, 1223−7 (1998).
76. Pervaiz, S., Seyed, M. A., Hirpara, J. L., Clement, M. V., & Lon, K. W. Purified photoproducts of merocyanine 540 trigger cytochrome C release and caspase 8−dependent apoptosis in human leukemia and melanoma cells. Blood 93, 4096−108 (1999).
77. Pinto do, O. P. Kolterud, A., & Carlsson, L. Expression of the LIM−homeobox gene LH2 generates immortalized steel factor−dependent multipotent hematopoietic precursors. EMBO J 17, 5744−56 (1998).
78. Prentice, R. L. & Zhao, L. P. Estimating equations for parameters in means and covariances of multivariate discrete continuous responses. Biometrics 47, 825−839 (1991).
79. Ragione, F. D. & Iolascon, A. Inactivation of cyclin−dependent kinase inhibitor genes and development of human acute leukemias. Leuk Lymphoma 25, 23−35 (1997).
80. Raschella, G. et al. Expression of B−myb in neuroblastoma tumors is a poor prognostic factor independent from MYCN amplification. Cancer Res 59, 3365−8 (1999).
81. Raynaud, S. D. et al. Recurrent cytogenetic abnormalities observed in complete remission of acute myeloid leukemia do not necessarily mark preleukemic cells. Leukemia 8, 245−9 (1994).
82. Rebli, M., Krause, S. W., Kreutz, M., & Andreesen, R. Carboxypeptidase M is identical to the MAX. 1 antigen and its expression is associated with monocyte to macrophage differentiation. J Bio1 Chem 270, 15644−9 (1995).
83. Reynolds, A. J., Heydon, K., Bartlett, S. E., & Hendry, I. A. Evidence for phosphatidylinositol 4−kinase and actin involvement .in the regulation of 125I−beta−nerve growth factor retrograde axonal transport. J Neurochem 73, 87−95 (1999).
84. Rostomily, R. C. et al. Expression of neurogenic basic helix−loop−helix genes in primitive neuroectodermal tumors. Cancer Res 57, 3526−31 (1997).
85. Rawley, J. D. Molecular genetics in acute leukemia. Leukemia 14, 513−7 (2000).
86. Salvati, P. D., Watt, P. M., Thomas, W. R., & Kees, U. R. Molecular characterization of a complex chromosomal translocation breakpoint t(10;14) including the HOXI 1 oncogene locus. Leukemia 13, 975−9 (1999).
87. Schroeder, T. & Just, U.〜 Notch signaling via RBP−J promotes myeloid differentiation. EMBO J 19, 2558−68 (2000).
88. Selypes, A. & Laszlo, A. A new translocation t(1;4;11) in congenital acute nonlymphocytic leukemia (acute myeloblastic leukemia). Hum Genet 76, 106−8 (1987).
89. Shimizu, S. et al. Identification of breakpoint cluster regions at 1p36.3 and 3q2l in hematologic malignancies with t(1;3)(p36;q21). Genes Chromosomes Cancer 27, 229−38 (2000).
90. Shipley, J., Weber−Hall, S., & Birdsall, S. Loss of the chromosomal region 5q11−q31 in the myeloid cell line HL−60: characterization by comparative genomic hybridization and fluorescence in situ hybridization. Genes Chromosomes Cancer 15, 182−6 (1996).
91. Soderberg, A., Sahaf B., & Rosen, A. Thioredoxin reductase, a redox−active selenoprotein, is secreted by normal and neoplastic cells: presence in human plasma. Cancer Res 60, 2281−9 (2000).
92. Spellman, P. T. et al. Comprehensive identification of cell cycle−regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell 9, 3273−97 (1998).
93. Stanley, W. S. et al. Constitutional inversion of chromosome 7 and hematologic cancers. Cancer Genet Cytogenet 96, 46−9 (1997).
94. Stern, M. H. [Oncogenesis of T−cell prolymphocytic leukemia (editorial)]. Pathol Bio1 (Paris) 44, 689−93 (1996).
95. Streit, M. et al. Thrombospondin−2: a potent endogenous inhibitor of tumor growth and angiogenesis. Proc Natl Acad Sci U S A 96, 14888−93 (1999).
96. Suske, G. The Sp−family of transcription factors. Gene 238, 291−300 (1999).
97. Tamayo, P. et al. Interpreting patterns of gene expression with self−organizing maps: methods and application to hematopoletic differentiation. Proc Natl Acad Sci U S A 96, 2907−12 (1999).
98. Tavazoie, S., Hughes, J. D., Campbell, M. J., Cho, R. J., & Church, G. M. Systematic determination of genetic network architecture. Nat Genet 22, 281−5 (1999).
99. Testoni, N. et al. 3q2l and 3q26 cytogenetic abnormalities in acute myeloblastic leukemia: biological and clinical features. Haematologica 84, 690−4 (1999).
100. Tokai, N. et al. Kid, a novel kinesin−like DNA binding protein, is localized to chromosomes and the mitotic spindle. EMBO J 15, 457−67 (1996).
101. Touhami, M., Fauvel−Lafeve, F., Da Silva, N., Chomienne, C., & Legrand, C. Induction of thrombospondin−1 by all−trans retinoic acid modulates growth and differentiation of HL−60 myeloid leukemia cells. Leukemia 11, 2137−42 (1997).
102. Tsuboi, A. et al. Constitutive expression of the Wilms’ tumor gene WT1 inhibits the differentiation of myeloid progenitor cells but promotes their proliferation in response to granulocyte−colony stimulating factor (G−CSF). Leulc Res 23, 499−505 (1999).103. Van den Berghe, H. & Michaux, L. 5q−, twenty−five years later: a synopsis. Cancer Genet Cytogenet 94, 1−7 (1997).
104. van Willigen, G., Gorter, G., & Akkerman, J. W. Thrombopoietin increases platelet sensitivity to alpha−thrombin via activation of the ERK2−cPLA2 pathway. Thromb Haemost 83 , 610−6 (2000).
105. Verfaillie, C. M., McCarthy, J. B., & McGlave, P. B. Mechanisms underlying abnormal trafficking of malignant progenitors in chronic myelogenous leukemia. Decreased adhesion to stroma and fibronectin but increased adhesion to the basement membrane components laminin and collagen type IV. J Crin Invest 90, 1232−41 (1992).
106. von Lindern, M. et al. Can, a putative oncogene associated with myeloid leukemogenesis, may be activated by fusion of its 3’ half to different genes: characterization of the set gene. Mol Cell Biol 12, 3346−55 (1992).
107. Wang, Z. & Roeder, R. G. Three human RNA polymerase III−specific subunits form a subcomplex with a selective function in specific transcription initiation. Genes Dev 11, 1315−26 (1997).
108. Wang, Z., Zhang, Y., Lu, J., Sun, S., & Ravid, K. Mp1 ligand enhances the transcription of the cyclin D3 gene: a potential role for Sp1 transcription factor. Blood 93, 4208−21(1999).
109. Weis, J., DeVito, V., Allen, L., Linder, D., & Magenis, E. Translocation X;10 in a case of congenital acute monocytic leukemia. Cancer Gent Cytogenet 16, 357−64 (1985).110. Whang−Peng, J., Lee, E. C., Kao−Shan, C. S., & Schechter, G. Ring chromosome in a case of acute myelomonocytic leukemia: its significance and a review of the literature. Hematol Pathol 1, 57−65 (1987).
111. Wodicka, L., Dong, H., Mittmann, M., Ho, M. H., & Lockhart, D. J. Genome−wide expression monitoring in Saccharomyces cerevisiae. Nat Biotechnol 15, 1359−67 (1997).
112. Zhao, Q., Eberspaecher, H., Lefebvre, V., & De Crombrugghe, B. Parallel expression of Sox9 and Col2a1 in cells undergoing chondrogenesis. Dev Dyn 209, 377−86 (1997).
113. Heyer et al., Genome Research 9, 1106−1115(1999).
114. Helter et al., Proc. Nail. Acad. Sci. USA 97, 8409−8414 (2000).
115. Alter et al., Proc. Nail. Acad. Sci. USA 97, 10101−10106 (2000).
本発明の好ましい実施形態が図示され、説明されたが、本発明の精神と範囲から逸脱することなく、さまざまな変化がなされてもよいことが認められるであろう。
【図面の簡単な説明】
【図1】
図1は、本発明の代表的な方法である単一パルスモデル(SPM)の基本仮定であり、細胞周期で調製された転写物が、ある一定時間で転写され、細胞周期中の次の時間に消失する。A.例えば、発現の基底レベル(α=0)から誘導レベル(α+β=1)の長さ(Θ=80’)の2つの連続した細胞周期中に、(ζ=10’)で活性化し、(ζ=55’)で不活性化する単一転写物。B.典型的な同調化実験において、複数の転写物が細胞毎に作られ、RNAはいくつかの細胞から採取される。これらの細胞は完全には同調しておらず、同調は時間とともに悪化する。これにより、単純パルス(破線)が、時間とともに減衰する(実線)なめらかなピーク(点線)に弱まる。示されている例において、細胞の年齢は標準偏差3分から19分へ変化する。C.得られた発現値(ポイント)は、モデル化されていたものを超える付加的な変動性と同様に、加算的および乗算的異質性両方の対象となり、これらの差は残差として知られる。これらの残差の標準偏差が推定され、Zスコアによって、この標準偏差に関連するパルス高の有意性が評価された。
【図2】
図2は、アルファ因子(表A)、cdc15(表B)、およびcdc28(比率データに関する表C、絶対強度に関する表D)のデータセットによる同調からのデータセットに対して推定されたパラメータの図である。左列は各時間点について推定された加算的異質性を反映しており、中列は各同調について推定された細胞周期間隔を、確率スケール上のプロファイルされた加重最小2乗として示している。視覚的に検査しやすいように、この2乗の和は以下の式を用いて確率スケールに変換された。
【数43】 【図3】
図3は、5つの周期的に転写された遺伝子について3つの異なる同調細胞周期からのマイクロアレイデータ(実線)への単一パルスモデル(点線)の適合を示す。データ対時間の対数比は、アルファ因子(右段)、cdc15(中段)、およびcdc28(左段)の同調について作図されている。各作図の下に、各転写物についての活性化および不活性化時間がかっこ内に示され、これに続いて、SPMのもとで演算され、SPMからのパルス高および偏差の有意性をそれぞれ示すZスコアおよびΧ2統計量が記されている。
【図4】
図4では、周期的な転写を示し、G1フェーズにおけるピークが、QT_クラストアルゴリズムを用いて同定され、クラスタ直径のしきい値が<0.3(上位41個の遺伝子)から、<0.5(83個の遺伝子)、<1.2(272個の遺伝子)へ変化していた。これらの連続的により大きいG1クラスタのメンバに関する転写物プロファイルがSPMによって解析され、それらのZスコアおよびΧ2値が作図されている(左)。SPMのZスコアおよびΧ2しきい値がこれらの作図に重ねられており、これらのプロファイルの比率が周期的だとして分類されることを示している(各プロットの右下の象限)。右列の図で、各グループについての平均活性化・不活性化時間の分布が作図されている。これらのパラメータの推定値は、SPMしきい値を超えるこれらのプロファイルについてのみ、SPMにより演算された。
【図5】
図5は、Zスコアの絶対値>5およびχ2<11.3のしきい値を持つSPMによって同定された周期的な転写物を示し、3つのデータセット間の一致の範囲が示されている。3つのデータセットのそれぞれに関する対数比データがSPMによって解析された。各データセットにおいて同定された周期遺伝子の総数が示され、円で表されている。データセット間の一致は、円の交わりによって示されている。全1088個の遺伝子は、少なくとも1つのデータベースにおいてSPMしきい値に一致する。71個の遺伝子は、3つのデータセットすべてにおいて周期性に対するSPMのしきい値に一致する。254個の遺伝子は少なくとも2つのデータベースにおいて周期的であるとして記録されている。834個の遺伝子は1つのデータセットのみで周期性を表している。R2>0.6のような付加的な基準が採用され、モデルが60%以上の発現データ変動に関する説明を提供するこれら834個の遺伝子間のプロファイルを同定する場合、473個のプロファイルが同定される。
【図6】
図6は、代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図7】
図7は、単一細胞内での複数の転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図8】
図8は、複数の細胞の可変同調を示す細胞についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図9】
図9は、悪化同調を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図10】
図10は、細胞周期のタイミングの機能としての同調変動性の図である。
【図11】
図11は、サンプル間の異質性を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図12】
図12は、遺伝子発現についての代表的な線形SPMの図であり、転写物発現レベル(β)が細胞周期のタイミングについて作図されている。
【図13】
図13は、遺伝子発現についての代表的な二次SPMの図であり、転写物発現レベル(β)が細胞周期のタイミングについて作図されている。
【図14】
図14は、正常組織と異常組織とを本発明の方法によって比較した代表的な結果の図である。
【発明の属する技術分野】
本発明は、大きなデータアレイを解析する方法に関する。
【0002】
【従来の技術】
リファレンス
ここに参照された刊行物の引用のすべては、明細書の末尾、請求項の直前に記載されている。本発明で参照された各引用例の開示は、参照によりその全体がここに取り込まれる。
【0003】
マイクロアレイ技術の進歩(フォードール他、1991年、シェーナ他、1995年、シェーナ他、1996年、デライジ他、1997年、ランダー、1999年)は、研究者がゲノムワイドのスケールでの動態転写動態を調査することを可能にしてきた。マイクロアレイの発達はまた、プロテオミック検出を可能にしてきた。現在の課題は、これら大きなデータセットから有益かつ信頼できる情報を抽出することにある。マイクロアレイデータは、多くの固有の制限がある。これらのチップにおける発現レベルの評価は、チップ表面の差異、プローブ調製が不均一であること、信号強度の相隣効果など、多くの技術的困難により影響を受けるおそれがある。チップにおけるクロスハイブリダイゼーションもまた、誤相関をもたらすおそれがある。さらに、各サンプルにおけるmRNAの量が変化し、サンプル間の異質性をもたらすかもしれない。これらの制限は異なる影響を持つ一方で、これらの制限の存在が定量解析に課題を与えている。
【0004】
発現データを解析する統計学的方法はほとんど発達してこなかった。現時点での最も生産的な方法はクラスタ解析であり、その価値は長い間認められてきた。アリストテレスもクラスタ解析を用いて500種類の動物を分類したと伝えられている。そして、この方法は、1753年のリンネの時代までに確立された。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、この方法には、1)アルゴリズムに一貫性のある適切な定義が欠けている、2)クラスタ数の決定が裁量的である、3)クラスタの構成が再現できない場合がある、4)確率モデルあるいは、事例と変数を同時にクラスタ化するモデルの明確な選択肢がない、などの制限がある。
【0005】
クラスタ解析の第1の目的は、類似の変化パターンを持つ遺伝子をクラスタに分類することである。この方法は、大きなデータセットの複雑さを緩和し、データ内の顕著なパターンを認識するには価値がある。しかしながら、雑音の影響を最小にするためには、これらの大きなデータセットから個々の遺伝子に関する情報を抽出する付加的な方法が必要となる。
【0006】
発現データを解析するために、いくつかのクラスタ化アルゴリズムが提案されてきた。最も広く用いられている主なものの1つは、階層クラスタ化アルゴリズムである。基本的に、このアルゴリズムは遺伝子発現のペアワイズの相関係数を演算することを伴う。そして、この相関係数の大きさに基づいて、このアルゴリズムはすべての遺伝子を単一の階層ツリーに分類する。2つの遺伝子発現パターン間の相関が高いほど、このツリーにおいて遺伝子はより近くに位置する(アイゼン他、1998年)。このアルゴリズムは、複数の遺伝子の同時制御について多くの有用な発見をもたらしてきたが(スペルマン他、1998年)、すべての遺伝子発現パターンをむりやり単一のツリーに分類することは極端な単純化とされるに違いない。
【0007】
他のクラスタ化アルゴリズムには、セルフオーガナイジングマップがある(タマヨ他、1999年)。この方法は、解析に対する予備的情報として遺伝子のクラスタに偏幾何学的構造を重ね、類似の水平パターンを持つ遺伝子のクラスタを相互に同定する。最近の別の方法は、遺伝子をクラスタ化するためのK平均アルゴリズムである(タバゾイエ他、1999年)。これはアンスーパーバイズド的で反復的なアルゴリズムであり、クラスタの差異の中で最小化し、クラスタの差異の間で最大化するクラスタを検索する。これらの方法の両方に固有の課題は、任意の中間パラメータによって作成されるクラスタが主観的に選択されるおそれがあるという点である。異なる選択をすれば、異なるクラスタが作成されることになる。
【0008】
アルゴリズムをクラスタ解析することに関しては一般的にいくつかの付随的な課題もある。まず、クラスタ化の方法は、相関係数あるいは“距離”測定値を用いて、遺伝子の発現パターンの類似性に基づいて遺伝子を分類することを目的としている。確かにこのような類似性は意味があるものとなりうる。しかし、これらは実験上の変化からも生じうるのである。さらに言えば、クラスタ解析方法の一般的な結果である同族の複合ツリー(系統樹)は、互いに比較が難しく、クラスタの統計学的有意性を示さない。この形式はさらに、その根底にある構成を理解するために必要な、異なる変異歴または異なる生理学的状態におけるクラスタのパターンの詳細かつ厳密な比較を妨げてしまう。これらの課題がクラスタ解析を補完するモデリング法の発展を動機づけたのである。
【0009】
モデリングは、データのより客観的な処理の可能性を提供するために、クラスタ解析を発展させたものである。鍵となるアイデアは遺伝子発現をネットワークとしてモデリングし、モデリングを通じて時の経過によるダイナミックな変化を特徴づけることである。そのようなモデルの1つは、1組の微分方程式からなる。しかしながら、このような動態システムのモデリングは、時間の経過にわたって連続的に集積されたデータを必要とし、これは、現在の技術では容易に利用できない。さらに、このようなダイナミックなシステムから解を得ることは演算上高度で困難である。この演算を簡単化するために、リャング他(1986年)は、発現レベルを二分化し、時間スケールを離散化させることを提案し、これらはいわゆるブールネットワークとなった。このような簡単化は、モデルの構築および適合を大変容易にしており、この方法は発現データ解析にも有益に適用されている。細胞生物学に関する基本的な興味は、例えば、30秒毎に遺伝子調節ネットワークに対する洞察を得ることである。
【0010】
【発明が解決しようとする課題】
現在の方法は、生物体組織においてより高度の分解能を達成することを妨げる、以下の未解決の課題に直面している:(1)細胞は同調可能だがその同調は完全なものではない;(2)マイクロアレイ技術は高いスループットを持つが、結果データの質は向上しないままである;(3)mRNA抽出およびサンプル調製の現在の方法は、サンプルを得ることができる頻度に実用上の制限がある;(4)実験上の変化は、状態が十分に制御されていたとしても、時間経過にわたって大きなままである。同様の制限は、例えばプロテオミック解析などを含むさまざまな原因のうちの任意の1つから導出される大きなデータアレイの解析においても存する。
【0011】
本発明は大きなマイクロアレイデータセットのクラスタ解析を補強する相補的な方法を提供する。
【0012】
【課題を解決するための手段】
本発明は、例えば、ゲノムの発現データおよびプロテオミックデータのような関連シグナルおよび解析データを抽出するための統計ツールを使用した方法を提供する。本発明は、統計学的モデリングを使用して大きなデータアレイにおける刺激応答プロファイルを同定する方法を提供する。
【0013】
1つの観点では、本発明は、2つ以上のデータアレイからのデータを解析する方法を提供する。各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上のパラメータによってインデックス付けされる。データは、例えば、アレイ中のx−y位置によってインデックス付けされてもよく、また、既知の遺伝子との対応によって、あるいは刺激によってインデックス付けされてもよい。データは1つ以上の共変数と関連づけられている。共変数は、いくつかの異なるタイプであってもよい。臨床研究においては、共変数は、患者に対する診断、病歴、投薬歴、病理学的状態、およびバイオマーカー情報を含んでいてもよい。母集団調査のためには、共変数は年齢、性別、体重、身長、民族、生活様式、ダイエット、および質問事項を評価する他の情報を含んでいてもよい。基礎生物研究のためには、共変数は候補遺伝子、時間経過検査における時間、温度、細胞型、細胞のタイミング、用量応答調査における用量、あるいは刺激または薬に応答した細胞株の特性の存在を含んでいてもよい。共変数が薬に応答した細胞株の特性である場合、本発明の1つの実施形態では、薬に対する応答はED50である。本発明の1つの観点では、データアレイのメンバによって提供されるシグナルは薬の投薬量に応答している。別の実施形態では、シグナルは共変数の変化に応答している。さらに別の実施形態では、シグナルは1つより大きい共変数の変化に対応している。
【0014】
1つの観点では、本発明は、2つ以上のデータアレイからのデータを解析する方法を提供し、各アレイは複数のメンバを含み、各メンバはシグナルを提供し、データは1つ以上の共変数に関連づけられ、この方法は、モデルをデータアレイおよび共変数に適合させることを含む。本発明の1つの実施形態では、モデルをデータアレイに適合させることは、共変数値を推定することを含む。別の実施形態では、モデルをデータアレイに適合させることは、少なくとも線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも1つである既知のモデルを適合させることを含む。本発明の別の実施形態において、モデルをデータアレイに適合させることは、派生モデルを適合させることを含む。1つの実施形態で、派生モデルは単一パルスモデルを含む。本発明の別の実施形態で、モデルは線形モデルである。さらに別の実施形態で、モデルは二次モデルである。
【0015】
1つの実施形態では、この方法は、モデルをデータアレイおよび共変数に適合させること、適合の統計学的有意性を評価することによって適合度を決定すること、およびシグナルの統計学的有意性を決定することを含む。別の実施形態では、この方法は、モデルにデータを適合させるより前に、メンバ間の異質性についてデータを補正することを含む。1つの実施形態では、メンバ間の異質性についてデータを補正することは、データを正規化することを含む。別の実施形態では、シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される。この方法の1つの実施形態では、共変数値は加重最小2乗法によって推定される。
【0016】
本発明の1つの実施形態では、データアレイは、同調化実験によって導出されたデータを含む。別の実施形態では、この方法は、可変同調がなされている場合に発現を解析することを含む。さらに別の実施形態では、この方法は、同調が悪化している場合に、発現を解析することを含む。本発明のある観点において、この方法は、細胞周期における単一転写物の発現を解析することを含む。本発明の他の実施形態では、この方法は、細胞周期における複数の転写物の発現を解析することを含む。別の実施形態では、この方法は、複数の細胞型における1つ以上の転写物の発現を解析することを含む。本発明の1つの観点では、データアレイは時の経過にしたがって得られたデータを有する。本発明の1つの観点では、データアレイは正常および異常組織に由来するデータを含む。
【0017】
さらなる実施形態では、本発明は、2つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは被検査変数に応答するシグナルを提供する。この方法は、メンバ間の異質性を推定すること、所定のパターンとは異なるメンバを同定すること、所定のパターンとは異なるメンバについてデータを補正すること、データで推定可能な1つ以上のパラメータによってインデックス付けされているモデルを、データアレイに適用すること、共変数値を推定することによってモデルをデータに適合させることと、シグナルの統計学的有意性を決定することを含む。この方法では、適合度は、適合の統計学的有意性を評価することによって決定される。1つの実施形態では、適合の統計学的有意性の評価は、モデルによって説明される観察される変動の範囲を決定することを含む。別の実施形態では、シグナルの統計学的有意性はシグナルシグナル対雑音比の有意性を決定することを含む。本発明の実施形態では、異質性の推定は、メンバの応答が被検査変数によって変化しないと仮定することを含む。さらに別の実施形態では、メンバ間の異質性の推定は、加算的および/または乗算的異質性因子を推定することを含む。別の実施形態では、異質性因子は、適切な方法の1つの例が加重最小2乗法である統計学的方法によって推定される。この方法の別の実施形態では、異質性因子は、所定のパターンとは異なるメンバについてデータを補正し、補正値を提供するために用いられる。
【0018】
別の実施形態では、本発明は、2つ以上のデータアレイからデータを獲得することを含むデータの解析方法を提供し、各アレイは複数のメンバを含み、各メンバは、被検査変数に応答するシグナルを提供する。この方法は2つ以上のデータアレイからデータを獲得することを含み、各データアレイはサンプルのアレイから導出され、各サンプルはシグナルを提供し、シグナルは被検査変数に応答する。このデータから、サンプル固有の異質性について補正因子を推定し、アレイ固有の異質性について補正因子を推定し、データで推定可能な1つ以上のパラメータによりインデックス付けされたモデルを適用し、各パラメータは値を有しており、モデルに適合するパラメータ値を決定し、適合の統計学的有意性を評価することによって、モデルに対するパラメータ値の適合度を決定し、シグナルの統計学的有意性を決定する。1つの実施形態では、適合度は、Zスコア、p値、およびR2からなるグループから選択された統計基準によって決定される。本発明の1つの実施形態では、補正因子は加算的因子である。
【0019】
本発明の別の観点では、2つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは1つ以上の変数に関連する。この方法は、データセット全体にわたって、異質性を推定し、データセットに関係するパラメータを含む統計モデルを適用し、モデルに適合するメンバ固有パラメータ値を推定し、適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、シグナルの統計学的有意性を決定することを含む。本発明の1つの実施形態では、各メンバは、単一遺伝子からの転写物を有し、メンバ固有パラメータ値は、転写物の発現のレベルを有する。本発明の1つの実施形態では、メンバ固有パラメータ値を推定することは、回帰解析を含む。さらに別の実施形態では、異質性を推定し、メンバ固有パラメータを推定することは、残差の2乗の和を最小にすることを含む。別の実施形態では、異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む。別の実施形態では、この方法は、データセットが安定パターンと異なるときに、データセットのすべてのメンバについてデータを補正することを含む。別の実施形態では、異質性を推定することは、異質性因子を決定することを含む。別の実施形態では、異質性因子は、以下の合計の最小2乗を最小にすることによって推定され、
【数2】
ここで、Yk=(Y1k,Y2k,...,YJk)はアレイを示し、Yjkはk番目のデータセットのj番目のメンバのパラメータ値を示しており(j=1,2,...,J;k=1,2,...,K)、(δk,λk)はサンプル固有の加算的異質性因子および乗算的異質性因子であり、(aj,bj)は回帰係数であり、加重の範囲は0から1であり、合計は全メンバと全データセットに対するものである。さらに別の実施形態では、異質性因子は加算的因子または乗算的因子である。
【0020】
本発明の1つの観点は、本発明の方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体を提供する。別の実施形態では、本発明は、プロセッサ、メモリ、および動作環境を有するコンピュータシステムを具備する。このコンピュータシステムは、本発明の方法を実行するために動作可能である。
【0021】
本発明の1つの観点は、統計学的モデリング方法を提供し、大きなデータセットからの刺激に応答する転写物を持つ遺伝子を同定する。このモデルは、システマティックな異質性について補償し、提供された遺伝子固有の情報の統計学的有意性を評価する。
【0022】
1つの実施形態では、本発明は、マイクロアレイデータにおいて細胞周期で調製された転写物を同定するための単一パルスモデル(SPM)を提供する。この実施形態にしたがうと、この方法は、SPMの変化を用いることによって補正因子を推定し;SPMの変化を用いることによって補正因子を推定し、SPM変動を用いることによって細胞周期間隔を推定し;可変同調に対応する標準偏差を推定し、活性化時間、不活性化時間、基底レベルおよび高められたレベルを、これらの標準誤差、Zスコア、および変化の割合とともに含む遺伝子に特異的なパラメータを推定し;SPMの周期間隔を時間経過の終点に対して設定し、全観察を通じて1つのパルスにデータを適合させることによって、単一非振動ピーク(SNOP)プロファイルを同定し;レイ中の遺伝子に関するSPMにより説明される変化の割合を定量化することによって細胞周期で調製された転写物を同定し;パルス高のしきい値を設定し、SPMへの適合に対するSNOPへの適合の比を演算することを含む。
【0023】
別の観点では、本発明は、刺激に応答した転写の誘導または抑制を受ける遺伝子を同定するための方法を提供する。
【0024】
1つの実施形態は、疾病に関連した遺伝子を同定し、これらを臨床結果と相関させる方法を提供する。さらなる実施形態では、本発明は、腫瘍の発現プロファイルに基づく腫瘍のサブタイプの分類と、このようなサブタイプと臨床結果との相関に対する方法を提供する。
【0025】
【発明の実施の形態】
前述の観点および本発明の多くの付随的な利点は、添付の図面とともに以下の詳細な説明を参照することによってより容易に認められるだろう。
【0026】
本発明は、関連シグナルを抽出し、ゲノムの発現データやプロテオミックデータのようなデータを解析するために統計ツールが用いられる方法を提供する。本発明は、統計学的モデリングを利用して大きなデータアレイのプロファイルを同定する方法を提供する。
【0027】
1つの実施形態では、本発明は、その転写物プロファイルが刺激に応答する遺伝子を同定する統計学的方法を提供する。一般的な用語では、このアプローチは、1組の判断可能なパラメータを用いて、一般的な応答あるいはシグナルと、例えば、タイミング、細胞型、温度、または投薬量のような特定の実験変数との関係をモデリングすることを含む。他の変数も含まれるが、時間経過調査の時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミング、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報には限定されない。あるいは、変数は薬に対する応答における細胞株の性質であり、例えば、薬に対する応答の適切な性質は、ED50である。
【0028】
1つの目的は、刺激に対する転写物応答に関連した特定の仮定を検証する目的とともに、個々の転写物について関連するパラメータを推定することである。統計モデルが特定の遺伝子またはタンパク質に関する発現データの適切な表現を提供すれば、対応するモデルパラメータ推定値は、その遺伝子またはタンパク質に対してある応答特性を提供することができる。例えば、モデルパラメータは、その応答の大きさ、期間、またはタイミングを記述することができる。このモデリング戦略は、2つのグループの比較に用いることができ、その目的は、正常組織と異常組織の間で、異なるフェーズもしくは細胞周期で、異なった分化の段階で、または薬剤開発研究において、差次的に発現される遺伝子またはタンパク質を同定することであり、その目的は投薬量の影響を受けた転写物を同定することである。パラメータまたは共変数値は、多くの方法で推定されてもよいが、1つの例は、加重最小2乗法による。
【0029】
本発明の方法において、アレイのメンバのそれぞれがシグナルを提供する場合、2つ以上のアレイからのデータが調査され、アレイにわたる異質性を推定する。異質性は加算的または乗算的であってもよく、例えば、加重最小2乗法によって演算可能である。これらのデータメンバは、(SPMのようなモデルによって定量化された)所定のパターンを確認した後、異なるアレイからのこれらのデータメンバを正規化するよう補正され、アレイ間の比較を容易にする。ここでは、所定のパターンとは異なるこれらのデータメンバは正規化によって補正される。このモデルはデータアレイに適用され、モデルは1つ以上の生物学的パラメータによってインデックス付けされる。この生物学的パラメータは利用可能なデータによって推定可能な共変数に関連づけられてもよく、このモデルはパラメータ値を推定することによってデータに適合され、適合度は適合の統計学的有意性を評価することによって決定される。適合度は、例えば、R2およびχ2統計量によって決定することができる。シグナルの統計学的有意性は、例えば、Z統計量やp値を用いることで実現できる。このようなZ統計量は、シグナル対雑音比の有意性を測定する。
【0030】
典型的な発現データは、高スループットであるが、十分に構造化されており、複数のサンプル(k=1,2,...,K)による何千もの遺伝子(j=1,2,...,J)の観察の行列として示される。さらにYjkは、刺激実験におけるk番目のサンプルにおけるj番目の遺伝子についての発現レベルを示す。研究される遺伝子の数Jはしばしば、一般的に何千もの高い次元からなることが多い一方で、サンプル数Kは比較的少なくてもよい。標準的な統計的アプローチは、k番目のサンプルについて、ベクトル応答Yk=(Y1k,...,YJk)の平均を、対応するベクトルxk=(x1k,...,xpk)に関連づける。このベクトルは、k番目のサンプルの刺激のカテゴリおよび予想される他の特性を、回帰関数、すなわちΔ(xk,θ)’={Δ1k(xk,θ),...,ΔJk(xk,θ)}を用いて符号化し、ここでθ’=(θ1,...,θJ)は、遺伝子に特異的なパラメータおよび他のパラメータを含んでいてよく、また、推定されるべきものである。このような回帰モデルに基づいて、差分ベクトルYk−Δk(xk,θ)の成分は平均値0を有するが、例えば、mRNAの抽出、増幅、およびサンプル間の評価の変化のために、相関されるよう期待されてもよい。このような変化は、ここで異質性パラメータとして参照されている付加的なパラメータをYkの平均についてのモデルに導入することによって確認可能である。実際、サンプルkについて加算的異質性パラメータδkおよび乗算的異質性パラメータλkの両方を導入することができ、Yjkの期待値に関するモデルδk+λkΔjk(xk,θ)を与える。δkのものとλkのものの平均は、それぞれ0および1に制限され、当初の対象の回帰パラメータθと関連する、可能性ある同定可能性問題が回避される。Ykの高い次元によって、これらの異質性パラメータが正確に推定できるようになる。これらのパラメータを含めることは、特にインビボ実験に関して所定xkに対するYkがほぼ独立しているという仮定をもっともらしいものにすることができる。このような仮定の下で、モデリングおよびθの推定のための数的処理が簡単化される。
【0031】
以下のリャングおよびゼガー(1986年)による、生殖統計学論文(64)において説明されたアプローチにしたがい、平均パラメータベクトルη’={δ1,...,δK,λ1,...,λK,θ}の推定は、Ykについて“作用する”共分散行列を特定することにより処理することができる。これは、上述の独立仮定の下で、Vk=対角(ν1 2,...,νJ 2)として記される対角行列により近似されるので、J個の遺伝子のそれぞれについての発現レベルが別個の分散を持つことができる。
【0032】
平均パラメータηのベクトルの推定は、η’^={δ1^,...,δK^,λ1^,...,λK^,θ^}として推定することができ、
推定式の解は以下の式で求められ、
【数3】
【0033】
ここで、DkはパラメータηについてのYkの平均値の偏導関数の行列であり、Vk^は、各νJ 2が一致推定νJ 2^で置換されたVkを示し、1は、長さJのものの列ベクトルを示している。上述のモデリングの仮定の下で、η^は、JおよびKの両方が大きい場合にほぼ共正規分布し、η^の分散は(JおよびKが大きくなるにつれて)標準”サンドイッチ”公式(64;8)により一致推定が可能である。
【0034】
ここで概説された平均パラメータ推定方法は、さまざまなタイプのマイクロアレイデータセットに有効であると予測される。これは、遺伝子に特異的な有意なパラメータを推定して、刺激に応答した発現レベルを特徴づけることを可能にし、この意味において、パターンの特性に重点をおかずに、同様の発現パターンを有する遺伝子を探し出すというクラスタ解析に対して相補的である。例えば、疾病組織と非疾病組織間で発現パターンを比較する場合、非疾病組織サンプルについて値0をとり、疾病組織サンプルについて値1をとるバイナリインジケータxkを定義し、回帰関数Δjk(xk,θ)=θj0+θj1xkを特定することができ、ここで、j番目の遺伝子は、θj1≠0のとき、正常組織と異常組織との間で差次的に発現するだろう。回帰変数xkは、回帰関数がk番目のサンプル(あるいはk番目の研究対象)の他の測定された特性に基づくことが可能であるよう拡張されてもよい。同様に、時間の経過に伴う発現の変化の調査において、xk=tkを定義し、tkは収集されるべきk番目のサンプルのタイミングであり、線形関数または他の関数形態を選択して、回帰関数Δjk(xk,θ)をモデリングすることができる。
【0035】
任意の所定のアプリケーションにおいて、同定されたプロファイルは、使用される特定のモデルに適合するものであるが、構成可能なモデル数は限定されない。当業者にとって明らかなように、モデルの選択は線形または二次であってよく、既知のモデルまたは派生モデルであってよい。この場合、本発明で用いられる既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、およびセミパラメトリックモデルのうちの少なくとも1つを含むことができるがこれらに限定されない。本発明で有効な派生モデルは、単一パルスモデルを含むがこれに限定されない。適合度は、当業者にとって自明な多くの手段によって決定可能である。適合度を決定する適切な方法の例には、Zスコア、p値、およびR2が含まれるがこれらに限定されない。
【0036】
さらに、この戦略は演算の負担を大幅に減らし、大きなデータセットを調査し、雑音の影響を最小にすることができる。さらに、研究者がこれらを直接検索して、どのような既存の情報をも活用することを可能にする。このように、本発明は2つのグループを比較するために利用できるモデリングアプローチを提供する。例えば、この方法は、正常組織と異常組織との間で差次的に発現する遺伝子あるいはタンパク質を同定するための目的での場合に利用可能である。あるいは、薬物発見調査において、投薬量によって変化する転写物を同定する目的である場合にも利用可能である。後者の場合、特定の用量応答パターンを持つ転写物を捜すことができ、このようなパターンを特徴づけるパラメータは、変化の傾きやピーク応答に必要な投薬量を含むことが可能である。
【0037】
このアプローチの有効性を示すために、発芽イーストサッカロミセスセレビジアの周期転写遺伝子を同定するモデルが形成された。この場合、刺激は、細胞を固定制止位置から解放することにより細胞周期と同調的に再開される。応答は転写物のパルスであり、鍵となる実験上の変数は細胞周期のタイミングである(2;3;11)。4つの同調した細胞周期データセットが生成され、一般的な調査のために利用可能となっている(2;11)。これらの大きなデータセットは、視覚検査(2)、フーリエ変換および階層クラスタ化(11)、K平均(13)およびQTクラスタ化(113)、セルフオーガナイジングマップ(12)および特異値分解(114;115)によって解析されている。3つのデータセットのフーリエ変換解析は、周期性についてのしきい値が既知の周期的な遺伝子の行動に基づいた場合、800周期転写遺伝子が存するとの報告を導き出した(11)。次に、K平均クラスタ化は1つのデータセットに適用され、524メンバを有する5つの周期クラスタが同定された(13)。しかしながら、両方のアプローチによっては330遺伝子しか同定されない。比較として、本発明の方法は、統計学的モデリングを用いて、これらの大きなデータセット内の規則的に振動しているプロファイルを捜す。このアプローチはクラスタ化方法を補完する。クラスタ化方法では、同様の発現パターンを持つ遺伝子を1つにグループ分けしようとするよりも、所定の刺激により影響を受けた転写物を直接同定し、個々の応答パターンに関する特定の情報を提供する。以下で詳説されるように、この方法はさらに、サンプル間の応答パターンの異質性が予想された強さであるタイプの実験上の変数に対する応答パラメータの推論を可能にする。
【0038】
本発明の方法を示すために同調化実験が考えられる。これは、細胞周期毎に1度転写されるmRNAを同定するものである。j番目のmRNAが活性化すると、高められたレベル(αj+βj)に達し、不活性となると、基底発現レベル(αj)に落ちる(図1)。その後、βjは、平均化されたピークと谷の発現レベル間の差分として解釈される。不完全な同調で、複数細胞の中で連続回数転写され消失したj番目のmRNAの複数のコピーについて検討すると、時間tkにおけるこのj番目の転写物の平均発現レベルは、以下ようにモデリングすることができる:
【数4】
ここで、j=1,2,...,Jおよびk=1,2,...,K、全K回の時間点における全J個の転写物であり、(ζj、ξj)は、j番目の遺伝子についての活性化および不活性化時間をそれぞれ示し、tk*=tk+τにおいて、τは、実際の細胞周期のタイミングと観測されたタイミングとの差分を示し、これは一般的にはフェーズとして知られている。Θは細胞周期間隔であり、総和は複数の細胞周期c=0,1,2...の全体に対するものである。標準偏差σkは、tk周辺の“真の”細胞固有タイミングの変化を示す。この変動は平均tkを有する正規分布にしたがい、平均モデルでは累積正規分布関数φ(・)となると仮定している。また、(δk,λk)は、上述したように、k番目のサンプルに対する加算的および乗算的異質性パラメータであり、ここでxk=tkである。上記単一パルスモデル(SPM)は、細胞周期が進むにつれて、各遺伝子の平均発現に関するモデルを特定する。遺伝子固有の活性化および不活性化時間は、背景および高められた発現レベルと同様に、遺伝子ごとに推定される。SPMは、サンプル間の変動、同調が完全でない事実、および以下で説明するように、時を経て悪化する同調も許容する。SPMの開発のさらなる詳細は例1で示されている。結果として示された平均発現モデルが視覚的に示されており、従来的な方法で測定された周期的な転写物について観察されたプロファイルを再現している。
【0039】
上述のSPMは、すでに概略が示された平均モデル推定方法を用いて適用することができる。数字的側面を簡単化するために、マルチステージ方法が用いられた:1)異質性パラメータ(δk,λk)、k=1,2,...,Kは、パルス高が0に設定されている場合、すべての遺伝子を用いて推定される。2)細胞周期間隔Θは、パルスモデル下での既知の細胞周期遺伝子のグループを用いて推定される。3)同調変動量、σk、k=1,2,...,K、は、既知の遺伝子の同一のグループを用いて推定される。4)遺伝子に特異的なパラメータ(αj,βj,ζj,ξj)、j=1,...,Jが推定される一方で、他の推定パラメータはそれの推定値で固定していると扱われる。上記の推定式[1]を用いた同時推定アプローチが好ましいが、それらの分散推定値の遺伝子に特異的なパラメータの推定における影響は、遺伝子に特異的なパラメータが他のパラメータと弱く相関することから最小となりやすい。細胞周期間隔およびサンプル固有パラメータを固定することにより、J遺伝子のそれぞれについて、遺伝子に特異的なパラメータの推定値、およびそれらの分散推定値の別々の単純演算が可能となる。これらの演算のさらなる詳細は例1で示される。
【0040】
SPMの適合をテストするために平均モデルの時間の付加的な多項式関数が導入され、多項係数が同様に0であるという仮説がテストされた。具体的には、SPMが強化され、以下の式で書かれており、
【数5】
SPMからのずれが許容される。(γj1,γj2,γj3)=(0,0,0)についてのスコアタイプのテスト統計が、上述の漸近正規理論を用いて構築された。このスコア統計量χj 2は、十分大きなJおよびKについて、SPMモデルの下で3つの自由度を持つ近似χ2分布を有する。SPMから大きくずれた、11.3、パターンを持つ遺伝子を同定するために、このχ2分布の上位1%が使用された。cdc28データセットに関して、例えば、262個の遺伝子しか、臨界値を超えるテスト統計量を与えない。当業者にとって明らかなように、これらの多項式の項以外の他の偏差も特定可能である。
【0041】
発現パターンがSPMから大きくずれていない遺伝子について、活性化時間(ζj)、不活性化時間(ξj)、基底発現レベル(αj)および間隔中の発現レベルの高まり(βj)が、それらの推定標準偏差とともに推定される。SPMの下で、βj≠0の場合のみ、発現レベルは細胞周期で調製される。各Zjの絶対値について臨界値5が選択され、ヌル仮定を排除する。このZjは、推定標準偏差に対する推定値βjの比である。この値は、正規分布の末端ではなれており、検査される6000個程度の遺伝子の場合でさえ、0.3%(両側)のゲノムワイドの有意レベルを保つよう予測される。SPMからのずれの証拠を示したいくつかの遺伝子は、細胞周期とともに変化する発現パターンも持ちうる。上述の強化された平均モデルμj〜(tk)の場合にこれらの遺伝子についてもβj=0をテストすることができるが、そのようなテストの解釈は強化モデルの妥当性次第である。
【0042】
3つのデータセットがこの解析で利用された。cdc28データセットはチョウ他(1998年)によって生成され(2)、温度感知可能なcdc28の突然変異を利用して同調が確立され、G1で細胞を可逆的に停止させる。簡単に言えば、オリゴヌクレオチドアレイは、各サンプルで作られた蛍光ラベル付けされたcDNAにハイブリダイゼーションされ、絶対蛍光強度値は、各ターゲットサンプルの各転写物の量に比例すると仮定される(3)。これらのアレイからのデータはhttp://genomics.stanford.edu.からダウンロードされた。データの他の2つのセット(アルファ因子およびcdc15)は、アルファ因子媒介されたG1の停止および、温度感知可能なcdc15の突然変異を利用して、スペルマン他(1998年)によって生成され(11)、それぞれ可逆Mフェーズの停止を誘導した。簡単に言えば、蛍光ラベル付けされたcDNAは、各時間点からのRNAで作られ、第2の蛍光染料は、非同調制御培養で作られたcDNAをラベル付けするために用いられた。制御およびテストcDNAは混合され、PRC増幅されたイーストのオープンリーディングフレーム(ORF)のアレイにハイブリダイゼーションされた。両染料の蛍光強度値が測定され、テスト対制御値の対数比が生成された。得られる比率は、テスト対制御mRNAレベルの対応する真の比率を近似すると仮定された(11)。これらのデータおよびcdc28データは、比率データを模倣するよう再スケールされており、パブリックドメインサイト(http://cellcycle−www.stanford.edu)からアクセスされた。その結果はこれらのデータセットの解析に基づき、これら配列されたサンプルの調製および処理に伴う変化のすべての原因の影響を受けた。
【0043】
SPMの主な仮定は、で調製された転写物が周期毎に1度だけピークをとり、これらのパルスは、連続周期において一定回数生じるというものである。SPMには、サンプルにわたる加算的および乗算的異質性を調製できる項が含まれる。図2は、各データセットについて演算されたこれらの値を示している。加算的異質性は対数比が用いられるとき最小である。cdc28データセットについて絶対強度が検討されるとき、加算的異質性は、90分の時間点で最も明らかとなる。これは、この特定の時間点にわたる懸念を確認し(2)、その異質性について補正する手段を提供する。
【0044】
104個の既知の細胞周期で調製された遺伝子のセットと、可能性ある細胞周期間隔の範囲に対するプロファイリングとを用いて、各データセットについて細胞周期間隔が推定された(例1を参照)。予測されるように、細胞周期間隔は各同調方法により異なる。アルファ因子およびcdc15データセットに関する細胞周期間隔は、二モード分布を示す(図2)。これらは、第1の周期に差次的に影響を与え、転写物のサブセットのタイミングを変更させるリカバリーアーティファクトによるものかもしれない。ある2乗の加重和を最小にする推定細胞周期間隔が用いられ、アルファ因子の同調について58分の値を与え、cdc15の細胞については115分、cdc28の培養については85分の値を与えている。図2はさらに、時の経過による同調の損失に関連する推定標準偏差も示している。いったんこれらの値が得られると、j=1,...,Jのj番目の遺伝子についてχj 2値が演算され、遺伝子に特異的なパラメータが、SPMと一致する転写物パターンを持つすべての遺伝子について推定される(すなわち、χj 2が11.3より少ない値をとる)。遺伝子に特異的なパラメータは、平均活性化および不活性化時間、ならびに基底および高められたレベルを含む。
【0045】
図3は、5つの周期的遺伝子についてのマイクロアレイデータ(実線)およびこれらのプロファイルに対する適合SPM(点線)を示している。明らかなことは、モデルが、データのプロファイルに非常に近似し、観察されたパターンと一致する平均活性化および不活性化時間(かっこ書き)を提供している。これらの振動に対するZ値は、cdc15データセットにおけるRFA1に対する約18から、アルファ因子データセットにおけるMCM3に対する約3.5まで変化する。MCM3の周期的な行動がなお明らかなままであるという事実は、かなり控えめなしきい値が各Zjに対して設定されたという確信を与えている。上位3つの転写物はG1固有のMCB調製された遺伝子として分類されている(11)。しかしながら、PDS1パルスは他の2つと比べて遅延している。RFA1およびCLB6は、ほぼ同時に活性化しているが、CLB6mRNAのパルスは短命である。これらの差はSPMによって各遺伝子について演算された活性化および不活性化時間に影響しており、相互調製された転写物を同定するのに用いることができる。
【0046】
合計607個の遺伝子は、cdc28データから直接の絶対蛍光強度測定値を用いて、周期性についてのSPMしきい値を満たした(すなわち、Zjの絶対値が5以上)(2)。ほぼ同数の遺伝子が、この強度の対数あるいはスペルマン他によって生成された強度の対数比(9;10;11)のいずれかを用いることによって得られた。しかしながら、約500個の遺伝子しか3つの解析のすべてで同定されなかった。したがって、任意の単一データ変換は約20%の潜在的な陽性を見逃すおそれがある。それは、Z値がわれわれのしきい値に近いためである。すべてのその後の解析において、アルファ因子およびcdc15データと調和させるために、cdc28データの対数比が用いられた。
【0047】
cdc28データセットにおける細胞周期で調製された遺伝子のリストが視覚調査(2)およびK平均クラスタ化(13)によって編集されている。SPM解析は、これらの割当ての大部分を確認し、より多くの候補振動転写物を同定する。タバゾイエ他(1999年)によって提出されたK平均アプローチについての応用(13)は、3000個のイースト遺伝子を選択するために初期のフィルタリング方法を採用しており、この方法は、時間経過による変化の最も高い係数を示している。その後、反復型K平均方法が、すべての3000個のプロファイルを30のクラスタに区分するために用いられた。すべての3000個のプロファイルを30のクラスタのうちの1つに適合させるという要求は、緩やかに相関された発現のパターンと大きなクラスタとのアセンブリを必要とした。これらのクラスタのうちの5つは、平均テンポラルプロファイルを有し、これは2つの細胞周期にわたってあきらかに周期的であった。しかしながら、524クラスタメンバのプロファイルの約半数だけしか、SPMにおける周期性についてのしきい値を超えなかった。
【0048】
SPMが周期遺伝子の緊密なクラスタを同定できるか否かを判断するために、QTクラストアルゴリズムを用いて3つの異なるしきい値でアセンブルされたG1固有転写物のクラスタについてχ2およびZ値が演算された。この場合、最も緊密なクラスタメンバのすべては、SPMにおいて設定された周期性についてのしきい値を超えたか、非常に近接しているかのいずれかである(図4上段)。制限事例の調査によって、これらは周期的である可能性が高く、これにより我々のZ値のしきい値は控えめであることが示された。クラスタのしきい値がより低く設定されている場合、ナンバーシップは2倍になり、ほとんどすべてのプロファイルは再びSPMのしきい値にあるか、あるいはそれよりも十分高くなる(図4中段)。しかしながら、参照文献(113)の著者によって記されているように、272のプロファイルを含むためにクラスタのしきい値をさらに緩和することによって、多くの一致が乏しいパターンを含むことが導かれ、これは、SPMによる低いZ値も有する(図4下段)。このことは、最も周期的な転写物を同定するのにどちらのアプローチも効果的であることを示している。さらに、意味のあるしきい値を確立し、より低いロバスト応答パターンを特徴づけるために、全く異なる2つのデータ解析方法を有することの意義を示している。
【0049】
SPMのもう一つの特徴は、遺伝子に特異的なパラメータの推定にある。図4は、クラスタメンバーシップが増加するにつれ、どのように活性化および不活性化時間の分布が広がるかも示している。これは、非周期的プロファイルを含むことに加えて、このグループが、発現の異なる反応速度を持つ遺伝子を含むことを示す。したがって、SPMは、同様の発現パターンのこれらのクラスタが、対象とする質問にしたがってさらに細分できるようにする。
【0050】
これらの細胞周期データセットの1つの制限は、少ない数のサンプルと、任意の時間点での複数の測定の欠如にある。このことは、間違った陽性および間違った陰性の同定を問題のあるものにする。この問題を軽減するために、SPMを用いてcdc28、cdc15およびアルファ因子のデータセットから周期的な転写物を別々に同定して、その結果を比較した。SPMは、他の2つの同時性のもののいずれかと比べて約2倍程度のcdc28データセットの周期遺伝子を同定し(図5)、少なくとも1つのデータセットにおいて有意な振動を示す遺伝子が全部で1088個存する。SPMによって同定されたこれら1088個の候補周期遺伝子の中には、104個の既知の周期遺伝子の81%が含まれる。254個の遺伝子は、少なくとも2つのデータベースで大きく振動する。これは、すべての遺伝子のうちの4%を示すが、既知の周期遺伝子のうちの46%を含んでいる。したがって、SPMは、偶然により予想されるレベルよりも十分高い既知の周期的な転写物を同定する。3つのデータセットのすべてにおいて周期的として得点づけられた71個の遺伝子には、既知の周期遺伝子の4分の1だけしかない。834個の遺伝子は1つのデータセットにおいてのみ周期的であると考えられ、よって遺伝子のこの大きなグループが不明確でなく分類できるためにはさらなるデータ収集が必要である。
【0051】
スペルマン他(1998年)(11)は、同一の3つのデータセットからの結合されたデータのフーリエ解析を用いて、周期的な転写物を同定した。既知の周期遺伝子をこれらのしきい値を設定するためのガイドとして用いることにより、彼らは、799個の遺伝子が周期的であると推定した。これらの遺伝子のうちの65%だけが、少なくとも1つのデータセットにおいて周期的であるとしてSPMによってピックアップされている。この差は、Zについての控えめなしきい値によってある程度説明することができる。なぜなら、Zについてのしきい値の値を4.0に減らすことによって、これらの遺伝子の79%が少なくとも1つのデータセットにおいて周期的であると分類されるからである。
【0052】
少なくとも2つのデータセットにおいて、SPMによって、周期性についてのしきい値を超える遺伝子のほぼすべても、スペルマン他(1998年)の方法により確認されている(11)。ここで再び、クラスタ化によって、最もロバストな周期パターンが両方の方法によって同定されている。しかしながら、少なくとも1つのデータセットにおいてSPM基準によって周期的であると考えられたが、スペルマン他(1998年)(11)によってそのようには分類されていない571個の遺伝子がある。上述のように、これらはさらなる裏付けデータなしでは、不明確とならないようにして周期的であると分類することはできない。それらは、2つのデータセットにおける間違った陰性か、1つのデータセットにおける間違った陽性のいずれかである。実験上の変動は、スムーズに振動するプロファイルを生成するよりも、非同調的パターンをもたらす可能性が非常に高い。SPMでは、ピークも、連続した細胞周期において同時に生じなければならず、ピークと谷は、プロファイルにおいて、単一のポイントで表される場合には認識されない(例1を参照)。これらの制限は、雑音の影響を低減させ、間違った陽性のより低い誤差比率をもたらすに違いない。しかしながら、データ中の雑音の影響を除去することはできず、これらの割り当てに基礎をおくこのように少ないデータポイントでは、多くが曖昧なままとなっている。2つのデータセットで周期的であると得点がつけられた254個の遺伝子は、合理的に高い確信をもって周期的であると考え得るが、これらは既知の遺伝子の約半分しか含んでおらず、明らかにその数を過小評価している。より多くのデータが生成されないかぎり、他の転写物の分類はあいまいなままであろう。言い換えれば、ほぼ50万のデータポイントを累算しているのに、発芽イーストの周期転写物の約半分しか高い確信をもって同定できない。統計的方法は多数の独立サンプルが存在するときに最も信頼性を有するという事実と相まって、これらのあいまいさは、この重要なモデル生物体の周期的な転写物をより完全に同定し、順序づけるために、2つの細胞周期全体にわたり、そしてより近い時間点を有する別のデータセットが要求されると示唆している。
【0053】
これら1088個の遺伝子の半分が実際に周期的である場合(図5の脚注を参照)、これらはすべての発芽イースト遺伝子の約10%を含むであろう。特に、この調製がなされる多くの異なる方法がある場合には、細胞に対する膨大な調製の負担と見られるかもしれない。一方、この調製を行う20の異なるサーキットしかなく、遺伝子生成物が、これらに対する細胞の要求に基づいてこれら制限された発現パターンに放出されたのであれば、細胞への生合成負荷を制限する、非常に限られた方法としてとらえることができよう。
【0054】
このように、本発明の1つの実施形態は、統計モデル(SPM)を採用し、連続した細胞周期において一定回数生じる転写物の単一パルスを同定し、特徴づけている。SPMは統計学的モデリングの特定アプリケーションであるが、基本的な方法を、任意の大きなデータセットに適用して、刺激に対する転写物応答を受ける遺伝子を同定することができる。統計学的モデリングは比較的簡単なので、付加的なフィルタを採用することなく、大きなデータセットを調査して、解析されるべき遺伝子数を減らすために利用することができる。統計学的モデリングは、データセットの雑音の影響を低減する傾向のある異質性パラメータをさらに含む。SPMは、多量の転写物あるいはピークの高さまたはタイミングと関係なく、規則的に振動する転写物を同定し、活性化および不活性化の平均時間の推定値を提供する。これらの値は推定値にすぎないが、仮定SPMのもとでバイアスされておらず、個々の遺伝子の特性を規定していると考えられる。最適なグループ分けがなされ、さらなる解析の対象となるよう、SPMはパラメータ推定値の質に対する統計測定値も提供する。統計学的モデリングのこれらの特徴は、マイクロアレイデータを解析するために用いられる他の方法を補完し、強化する。
【0055】
本発明の方法で測定されている細胞の構成要素は、細胞の生物学的な状態の任意の側面からのものであってよい。それらは、RNA存在度が測定される転写状態、タンパク質存在度が測定される変換状態、タンパク質の活動が測定される活動状態からのものであってもよい。細胞の特性もまた混合された側面からのものでよく、例えば、1つ以上のタンパク質の活動が、他の細胞の構成要素のRNAの存在度(遺伝子発現)とともに測定される。
【0056】
本発明の方法は2つ以上のデータアレイからのデータを解析する。用語“データアレイ”は複数のメンバに関連するデータの行列に関係しており、各メンバはシグナルを提供しており、データは1つ以上の共変数に関連づけられている。各データアレイは一般的に、例えば、500個以上の多数の観察を含む。データアレイは天然におけるゲノムの(核酸アレイ)、あるいはプロテオミックの(タンパク質またはペプチドアレイ)ものであってもよい。
【0057】
マイクロアレイは一般的に表面からなり、その表面には、遺伝子生成物(例えば、cDNA、mRNA、cRNA、ポリペプチド、およびこれらのフラグメント)と順次対応しているプローブが、既知の位置で特にハイブリダイゼーションされ、あるいは結合可能である。1つの実施形態では、マイクロアレイはアレイ(すなわち、行列)であり、アレイでは各位置が、遺伝子(例えば、タンパク質またはRNA)によって符号化された生成物に対する別個の結合部位を示し、結合部位が、生物体のゲノムにおける大部分またはほとんど全ての遺伝子の生成物に対して存在している。
【0058】
1つの実施形態では、本発明は“転写物アレイ”(ここで“マイクロアレイ”とも呼ばれている)を利用している。転写物アレイは、細胞内の転写状態を解析するために採用され、特に、グレード付けされたレベルの対象とする薬に、あるいは生物体モデルに投入された細胞の構成要素へのグレード付けされた一時的変異/外乱に暴露された細胞の転写状態を測定するために採用されてもよい。
【0059】
別の実施形態では、本発明は、タンパク質チップアレイまたはプロテオミックアレイを活用している。例えば、データアレイは質量分析法または等価計測によって得られる飛行時間にわたる強度値のベクトルであってもよい。このように、本発明の方法は質量分析データアレイを解析するために利用することができる。質量分析アレイは、さまざまなソースから得ることができる。このソースには、例えば、タンパク質およびペプチドアレイが含まれる。適切なタンパク質およびペプチドアレイは、例えば、サイファーゲンから入手可能なタンパク質チップを含む。
【0060】
1つの実施形態では、転写物アレイは細胞中に存するmRNAの転写物(例えば、所定から合成された、蛍光ラベル付けされたcDNA)を表し、検出可能なようラベル付けされた、ポリヌクレオチドをマイクロアレイに対してハイブリダイゼーションすることによって生成される。マイクロアレイは、細胞または生物体のゲノム中の多くの遺伝子、好ましくはほとんどまたはほぼすべての遺伝子の生成物に対する結合(例えば、ハイブリダイゼーション)部位の順序づけされたアレイを持つ表面である。マイクロアレイは多くの方法で作ることができ、そのうちのいくつかが以下で説明される。生成されるとはいえ、マイクロアレイはある特性を共有している。それは、アレイが複製可能であり、所定のアレイの複数のコピーを作成し、容易に互いを比較可能である。マイクロアレイは小さいのが好ましく、通常は5cm2よりも小さく、結合(例えば、核酸のハイブリダイゼーション)状態で安定な物質から作成されることが好ましい。マイクロアレイにおける所定の結合部位または結合部位の固有のセットが、細胞内の単一遺伝子の生成物と特に結合される。特定のmRNA毎に1つより多い物理的な結合部位(以下、“部位”と呼ぶ)があってもよいが、以下の議論を明確にするために、単一の部位のみが存すると仮定する。具体的な実施形態では、各位置で既知の配列の固定された核酸を含む、位置付け可能なアレイが用いられる。
【0061】
細胞のRNAに対して相補的なcDNAが作られ、適切なハイブリダイゼーション状態の下でマイクロアレイにハイブリダイゼーションされるとき、任意の特定の遺伝子に対応するアレイにおける部位へのハイブリダイゼーションのレベルは、その遺伝子から転写したmRNAの、細胞における優勢さに影響を与える。例えば、検出可能なようラベル付け(例えば、蛍光体で)された、全細胞mRNAに対して相補的なcDNAが、マイクロアレイにハイブリダイゼーションされるとき、細胞内で転写されない遺伝子に対応する(すなわち、特に遺伝子の生成物を結合可能である)アレイ上の部位は、シグナル(例えば、蛍光シグナル)をわずかしか持たないか、あるいは全く持たず、符号化されたmRNAが優勢な遺伝子は比較的強いシグナルを持つ。
【0062】
ある実施形態では、2つの異なる細胞からのcDNAがマイクロアレイの結合部位に対してハイブリダイゼーションされる。薬に対する応答の場合は、ある細胞は薬に対して暴露され、同一タイプの別の細胞は薬に対して暴露されていない。細胞の構成要素への一時的変異/外乱に対する応答の場合は、ある細胞はそのような一時的変異/外乱に対して暴露され、同一タイプの別の細胞は経路外乱に対して暴露されていない。
【0063】
遺伝子発現データは反復実験により組み合わされ、ランダムに生じる実験上の誤差を低減させ、特徴づけることができる。
【0064】
1つの実施形態で、マイクロアレイは、ターゲット生物体のゲノムにおけるすべてまたはほぼすべての遺伝子の生成物に対する結合部位を含むが、かかる範囲の広さは必ずしも要求されていない。ふつう、マイクロアレイは、ゲノム中の遺伝子の少なくとも約50%に対応する結合部位を有し、しばしば少なくとも約75%、たいていの場合少なくとも約85%、さらに多くの場合少なくとも約90%、最も多くの場合少なくとも約99%の遺伝子に対応する結合部位を持つ。マイクロアレイは検査と関連した遺伝子に対する結合部位を持つこともできる。“遺伝子”は、好ましくは少なくとも50,75,または99個のアミノ酸のオープンリーディングフレーム(ORF)として同定される。生物体(例えば、単一の細胞の場合)あるいは多細胞の生物体におけるいくつかの細胞中に、このアミノ酸からメッセンジャーRNAが転写される。ゲノム中の遺伝子の数は、生物体により、あるいはゲノムのはっきり特徴づけられた部分からの推定により表されたmRNAの数から推定可能である。対象となる生物体のゲノムが順番に配列されているとき、ORFの数を決定し、mRNAの符号化領域をDNA配列の解析によって同定することが可能である。しばしば、設計チップが特定のセットの遺伝子だけでつくられる。このような技術は、現在アクセス可能であり、例えば、臨床業務のような定常業務について経済的である。
【0065】
上述のように、核酸の場合、特定の同種のcDNAが特にハイブリダイゼーションしている“結合部位”は、通常、この結合部位に結びつけられた核酸あるいは核酸相似物である。1つの実施形態では、マイクロアレイの結合部位は、生物体のゲノム中の各遺伝子の少なくとも一部分に対応するDNAポリヌクレオチドである。これらのDNAは、例えば、ゲノムのDNA、cDNA(例えば、RT−PCRによる)、またはクローン配列からの遺伝子セグメントのポリメラーゼ連鎖反応法(PCR)増幅などにより得られる。遺伝子またはcDNAの既知の配列に基づいてPCRが選ばれ、固有のフラグメント(すなわち、マイクロアレイ上の他の任意のフラグメントと、隣接した同一の配列の10より多いベースを共有しないフラグメント)の増幅をもたらす。
【0066】
マイクロアレイに対して核酸を生成する代替手段は、例えば、N−ホスホネートまたはホスホラミディート化学を用いた、合成ポリヌクレオチドまたはオリゴヌクレオチドの合成による(フレーラー他、1986年、核酸リサーチ14:5399−5407;マックブライド他、1983年、四面体報24:245−248)。
【0067】
核酸またはその相似物は固体の支持体に結びつけられており、この支持体は、ガラス、プラスティック(例えば、ポリプロピレン、ナイロン)、ポリアクリルアミド、ニトロセルロース、または他の物質から作られてもよい。核酸を表面に結びつける1つの方法はガラス板上にプリンティングすることによるものであり、一般的には、シェーナ他、1995年、サイエンス、270:467−470で説明されている。この方法はcDNAのマイクロアレイを調製するのに特に有用である。デライジ他1996年、ネイチャーゲネティックス14:457−460;シャロン他1996年、ゲノムリサーチ6:639−645;およびシェーナ他1995年、ナショナル科学アカデミー報USA93:10539−11286も参照。
【0068】
別のマイクロアレイ作成方法は、高密度のオリゴヌクレオチドアレイを作成することによる。技術的には、生体内原位置における合成のためのフォトリソグラフィック技術を用いて、表面上の定められた位置において、定められた配列に相補的な何千ものオリゴヌクレオチドを含むアレイを生産する技術(フォードール他、1991年、サイエンス251:767−773;ピーズ他、1994年、ナショナル科学アカデミー報USA91:5022−5026;ロックハート他、1996年、ネイチャーバイオテック14:1675;米国特許第5,578,832号;第5,556,752号;および第5,510,270号を参照)、あるいは、定められたオリゴヌクレオチドの急速な合成およびディポジションを行う他の方法(ブランチャード他、1996年、バイオセンサアンドバイオエレクトロニクス11:687−90を参照)が知られている。これらの方法が用いられる場合、既知の配列のオリゴヌクレオチド(例えば、20mers)は変性スライドガラスのような表面上に直接合成される。通常、生成されたアレイは冗長であり、RNA毎にいくつかのオリゴヌクレオチド分子を有している。オリゴヌクレオチドプローブを選択して、交互に接合されたmRNAを検出することができる。
【0069】
例えば、マスキング(マスコスとサザン、1992年、核酸リサーチ20:1679−1684を参照)によりマイクロアレイを作成する他の方法もまた用いられてもよい。基本的には、例えばナイロンハイブリタイゼーション膜上のドットブロット(サムブローク他、分子クローニング−ラボラトリマニュアル(第2版)Vol.1−3、コールドスプリングハーバーラボラトリ、コールドスプリング、ニューヨーク、1989年を参照)のような、任意のタイプのアレイを用いることができる。いくつかの実施形態では、非常に小さなアレイが好まれる。というのも、ハイブリタイゼーション量がより少なくて済むからである。
【0070】
全部およびポリ(A)+RNAの調製方法はよく知られており、一般的にサムブローク他(前掲)で説明されている。1つの実施形態では、グアニジウムチオシアン酸塩溶解を用いて、本発明で対象としているさまざまなタイプの細胞からRNAが抽出され(チャーグウィン他、1979年、バイオケミストリ18:5294−5299を参照)、その後CsCl遠心分離が続いてなされる。
【0071】
蛍光ラベル付けされたプローブが用いられる場合、多くの適したフルオロフォアが知られている。これらの蛍光体には、フルオレセイン、リサーマイン、フィコエリトリン、ローダミン(パーキンエルマーセタス)、Cy2,Cy3,Cy3.5,Cy5,Cy5.5,Cy7、フルオロX(アメルシャム)およびその他のものが含まれる(例として、クリッカ、1992年、非同位体DNAプローブ技術、アカデミックプレス、サンディエゴ、カリフォルニアを参照)。容易に区別されるように、別個の発光スペクトルを持つ1対の蛍光体が選択されることが認められるだろう。
【0072】
別の実施形態では蛍光ラベル以外のラベルが用いられる。例えば、放射性ラベルあるいは別個の発光スペクトルを持つ一対の放射性ラベルが用いられてもよい(チャオ他、1995年、遺伝子156:207;ピエトゥー他、1996年、ゲノムリサーチ6:492を参照)。しかしながら、放射性粒子を散乱することや広くスペースを空けた結合部位をその結果必要とするせいで、放射性同位体を利用した実施形態はあまり好まれない。
【0073】
特定のアレイ部位に対して、プローブが“特に結合し”、あるいは“特にハイブリダイゼーション”するよう核酸のハイブリダイゼーションおよび洗浄条件が選択される。すなわち、プローブは相補核酸配列を持つ配列アレイ部位にハイブリダイゼーションし、デュプレクスし、あるいは結合するが、非相補核酸配列を持つ部位にはハイブリダイゼーションしない。最適なハイブリダイゼーション状態は、長さ(例えば、200ベースよりも大きいポリヌクレオチド対オリゴメル)、およびラベル付けされたプローブおよび固定化ポリヌクレオチドまたはオリゴヌクレオチドのタイプ(例えば、RNA、DNA、PNA)に基づく。核酸に対する特定の(すなわち、厳密な)ハイブリダイゼーション状態についての一般的なパラメータは、サムブローク他(前掲)、およびアウスベル他、1987年、分子生物学におけるカレントプロトコル、グリーン出版アンドワイリーインターサイエンス、ニューヨーク、で説明されている。シェーナ他のcDNAマイクロアレイが用いられる場合、一般的なハイブリダイゼーション状態は、65℃で4時間、5X SSCプラス0.2%SDSにおけるハイブリダイゼーションであり、その後、低い厳密性の洗浄バッファ(1 X SSCプラス0.2%SDS)で25℃で洗浄され、その後、高い厳密性の洗浄バッファ(0.1 X SSCプラス0.2%SDS)で、25℃で10分間洗浄される(シェーナ他、1996年、ナショナル科学アカデミー報USA、93:10614)。実用的なハイブリダイゼーション状態は、例えば、タイジェッセン、1993年、核酸プローブによるハイブリダイゼーション、エルスヴィアサイエンス出版B.V.、およびクリッカ、1992年、非同位体DNAプローブ技術、アカデミックプレスサンディエゴ、カリフォルニア、でも示されている。
【0074】
蛍光ラベル付けされたプローブが用いられると、転写物アレイの各部位での蛍光発光は、走査共焦点レーザー顕微鏡法により検出できることが好ましい。1つの実施形態では、適切な励起線を使用して、用いられている2つの蛍光体のそれぞれについて別々の走査が行われる。代替的に、レーザーが用いられることにより、2つの蛍光体に特有の波長での同時標本照射を可能として、2つの蛍光体からの発光を同時に解析することもできる(シャロン他、1996年、ゲノムリサーチ6:639−645を参照)。好ましい実施形態では、コンピュータ制御可能なX−Yステージと顕微鏡対物レンズを持つレーザー蛍光スキャナでアレイが走査される。2つの蛍光体の連続的な励起はマルチライン、混合ガスレーザーによって実現され、発光線は波長によって分割され、2つの光電子増倍管によって検出される。蛍光レーザー走査装置はシェーナ他、1996年、ゲノムリサーチ6:639−645、およびここに引用されている他の参照文献において説明されている。代替的に、フェルグソン他、1996年、ネイチャーバイオテック14:1681−1684に記載の光ファイバーの束を用いて、多数の部位におけるmRNAの存在度のレベルを同時にモニタすることができる。
【0075】
シグナルは記録され、好ましい実施形態では、例えば、12ビットアナログ・デジタルボードを用いてコンピュータにより解析される。1つの実施形態では、走査はグラフィックプログラムを用いて一般化され、その後画像グリッディングプログラムを用いて解析される。このプログラムは、各部位の各波長で平均的なハイブリダイゼーションのスプレッドシートを作成する。必要ならば、2つの蛍光体に対するチャネル間の“クロストーク”(またはオーバーラップ)について実験的に決定される補正がなされてもよい。転写物アレイ上の、任意の特定のハイブリダイゼーション部位について、2つの蛍光体の発光の比率が演算されるのが好ましい。この比率は同種の遺伝子の絶対的な発現レベルとは独立しているが、薬投与、遺伝子の除去、または他の任意のテストされたイベントによって発現が大きく調整された遺伝子に関して有用である。
【0076】
本発明の方法にしたがうと、2つの細胞型または細胞株におけるmRNAの相対存在度が、外乱および決定されたその大きさとして(すなわち、存在度はテストされたmRNAの2つのソースで異なる)、あるいは外乱されないものとして(すなわち、相対的な存在度は同一)としてスコアが付けられる。ここで使用されているように、少なくとも約25%(1つのソースからのRNAは他のソースよりも1つのソースにおいて25%さらに存在度が高い)、さらに一般的には約50%、さらに多くの場合には約2倍(2倍の存在度)、約3倍(3倍の存在度)、または約5倍(5倍の存在度)だけ、RNAのソース間の差が外乱としてスコア付けされる。
【0077】
本発明の1つの実施形態では、対象とする細胞の転写状態を反映している転写物アレイは、それぞれが、対象とされた異なる細胞のmRNAに対応した(すなわち、相補的な)2つの別々にラベル付けされたプローブの混合物をマイクロアレイに対してハイブリダイゼーションすることによって作られる。本発明にしたがうと、2つの細胞は同一のタイプ、すなわち、同一の種および株からなるが、遺伝学的に少ない数の遺伝座で異なっていてもよい(例えば、1,2,3、または5、好ましくは1)。代わりに、これらは同質遺伝子であり、これらの環境歴が異なっている(例えば、薬への暴露対非暴露)。
【0078】
本発明のある実施形態では、グレード付けされた薬の暴露および一時的変異/外乱制御パラメータのグレード付けされたレベルの測定を行う利点がある。これは、グレード付けされた暴露および一時的変異が、飽和レベルを明確に同定するために用いられるときに利点がある。この場合、グレード付けされた薬の暴露およびグレード付けされた外乱制御パラメータのレベルの密度は、個々の遺伝子応答における鋭さおよび構造によって左右される――応答の最も急な部分がより急になるにしたがい、応答を適切に分析するのに必要なレベルがより密になる。100倍の全範囲のうち、6から10レベルの外乱または暴露が、遺伝子発現応答を分析するのに十分であることが好ましい。しかしながら、この経路をより良く示すためにはより多くの暴露が好ましい。
【0079】
さらに、実験上の誤差を低減するために、個々の遺伝子またはアレイスポット位置に特有のバイアスが低減されるよう、2色の差分的ハイブリダイゼーション実験において蛍光ラベルを反転することに利点があるだろう。まず、測定されている2つの細胞からのmRNAの1つのラベル付け(例えば、第1の蛍光色素で、第1の投入状態に対して暴露された細胞と、第2の蛍光色素で、第2の投入状態に対して露光された細胞をラベル付けすること)によって遺伝子発現を測定し、次に反転されたラベル付け(第2の蛍光色素で、第1の投入状態に対して露光された細胞と、第1の蛍光色素で、第2の投入状態に対して露光された細胞をラベル付けすること)によって2つの細胞からの遺伝子発現を測定することが好ましい。
【0080】
これらの投入状態の複数の測定により、実験上の誤差の付加的な表示および制御が提供される。さらに、グレード付けされた一時的変異/外乱の場合、暴露レベルおよび一時的変異/外乱制御パラメータレベルに対する複数の測定は、付加的な実験上の誤差の制御を提供する。
【0081】
細胞の転写状態は、技術的に知られた他の遺伝子発現技術によって測定されてもよい。このような技術のいくつかは、電気泳動解析のために制限された複雑さの制限フラグメントのプールを生成する。それは、例えば、二重制限消化酵素をフェージングプライマに結合させる方法(1992年9月24日に出願された、ザボー他による欧州特許出願番号第0 534 858 A1号等を参照)あるいは、定められたmRNA端に最も近い部位を持つ制限フラグメントを選択する方法(プラシャー他、1996年、ナショナル科学アカデミー報USA93:659−663等を参照)などがある。他の方法は、例えば、各cDNAを同定するために複数のcDNAの各々において十分なベース(例えば、20−50ベース)を配列することによって、あるいは規定されたmRNA端に対する既知の位置で生成されたショートタグ(例えば、9−10ベース)を配列することによって、cDNAのプールを統計学的にサンプル付けする(ベルクレスク、1995年、サイエンス270:484−487等を参照)。
【0082】
本発明のさまざまな実施形態で、例えば、翻訳状態、活動状態、あるいはこれらの混合した側面のような、転写状態以外の生物学的状態の側面が、薬や経路応答を得るために測定されてもよい。翻訳状態の測定は、いくつかの方法にしたがって実行することができる。例えば、タンパク質のゲノム全体のモニタリング(すなわち、“プロテオーム”、ゴッフォー他、前掲)が、マイクロアレイを構成することによって実行されてもよく、マイクロアレイにおいて、結合部位は、細胞ゲノムによって符号化された複数のタンパク質種に固有の、固定化され、好ましくはモノクローナル抗体を有する。抗体は、符号化されたタンパク質の相当な割合に対して存在しているか、あるいは、少なくとも、対象とする生物学的ネットワークモデルをテストまたは確認することに関連したタンパク質のために存在することが好ましい。モノクローナル抗体の生成方法はよく知られている(ハーローとレイン、1988年、抗体:ラボラトリマニュアル、コールドスプリングハーバー、ニューヨーク等を参照)。好ましい実施形態では、モノクローナル抗体は、細胞のゲノム配列に基づいて設計された、合成ペプチドフラグメントに対して産生される。このような抗体アレイによって、細胞からのタンパク質がアレイに接触し、これらの結合は、技術的に知られた分析法によって分析される。
【0083】
代替的に、タンパク質は二次元ゲル電気泳動システムによって分離することができる。二次元ゲル電気泳動は技術的によく知られており、一般的に第1の次元に沿った等電点電気泳動を含み、その後第2の次元に沿ったSDS−PAGE電気泳動がなされる。ハメス他、1990年、タンパク質のゲル電気泳動;プラクティカルアプローチ、IRLプレス、ニューヨーク;シェブチェンコ他、1996年、ナショナル科学アカデミー報USA93:1440−1445;サグリオッコ他、1996年、イースト12:1519−1533;ランダー、1996年、サイエンス274:536−539等を参照。結果として示された電気泳動図は、多くの技術によって解析することができ、質量分析法、ポリクローナルおよびモノクローナル抗体を利用したウェスタンブロッティングおよび免疫ブロット解析、ならびに内部およびNターミナルマイクロシーケンシングが含まれる。これらの技術を用いて、所定の生理学的状態の下で生成されたすべてのタンパク質の相当な割合を同定できるようになる。この状態には、薬に対して暴露された細胞(例えば、イースト)内、あるいは、例えば、特定の遺伝子の除去または過発現により変更された細胞内という状態が含まれる。
【0084】
示された実施形態において、生物学的なシステムのネットワークモデルを形成し、テストするパワフルかつ便利な機能を提供するために、上述の方法の演算ステップが、コンピュータシステム上、または、ネットワーク化された1つ以上のコンピュータシステム上で実現される。いくつかの実施形態では、コンピュータシステムは、ハンドヘルド装置、サーバコンピュータ、デスクトップパーソナルコンピュータ、ポータブルコンピュータ、あるいは移動体電話を含むことができるがこれらに限定されない。代表的なコンピュータシステムは、内部コンポーネントを有し、外部コンポーネントとリンクしているシングルハードウェアプラットホームである。このコンピュータシステムの内部コンポーネントは、主メモリと内部接続されたプロセッサエレメントを含む。
【0085】
コンピュータシステムは、プロセッシングユニット、ディスプレイ、入力/出力(I/O)インターフェースおよびマスメモリを含み、これらはすべて通信バス、あるいは他の通信装置によって接続されている。I/Oインターフェースは、TCP/IP、X10、デジタルI/O、RS−232、RS−485などを含むさまざまな通信プロトコルにより、さまざまなモニタリング装置との対話を容易にするハードウェアおよびソフトウェアコンポーネントを含む。さらに、I/Oインターフェースは、地上電話回線、ワイヤレスネットワーク(セルラ、デジタルおよびラジオネットワークを含む)、ケーブルネットワークなどを含むさまざまな通信媒体による通信を容易にする。本発明の実際の実施形態では、I/Oインターフェースは、サーバハードウェアとソフトウェアアプリケーションとの間のレイヤとして構成されている。関連技術の当業者であれば、代替インターフェース構成が本発明によって実用可能であることを理解するだろう。
【0086】
外部コンポーネントはマスストレージを含む。マスメモリは一般的に、RAM、ROMおよび、ハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有する。マスメモリは、宅内サーバのオペレーションを制御するオペレーティングシステムを記憶する。このコンポーネントが、UNIX、LINUX、またはマイクロソフトウィンドウズNTのような当業者によって知られている汎用サーバオペレーティングシステムを有していてもよいことが認められるであろう。メモリはさらに、WWWにアクセスするためのネットエスケープナビゲータまたはマイクロソフトインターネットエクスプローラブラウザのようなWWWブラウザも含む。このマスストレージは1つ以上のハードディスクであってもよい(一般的にプロセッサおよびメモリとともに実装されている)。他の外部コンポーネントは、ユーザインターフェース装置を含む。これは、“マウス”または他のグラフィック入力装置のような指示装置とともに、モニタやキーボードとすることができる。一般的に、コンピュータシステムは、他のローカルコンピュータシステム、遠隔コンピュータシステム、あるいは、インターネットのような広域通信ネットワークにもリンクしている。このネットワークリンクは、コンピュータシステムが他のコンピュータシステムとデータを共有および処理タスクできるようにする。
【0087】
このシステムのオペレーション中にメモリに読み込まれたものは、いくつかのソフトウェアコンポーネントであり、これは、技術的に標準なものと本発明に特有なものの両方である。これらのソフトウェアコンポーネントは共同でコンピュータシステムに対して、本発明の方法にしたがった機能を行わせる。これらのソフトウェアコンポーネントは一般的にマスストレージに記憶されている。代替的に、ソフトウェアコンポーネントは、フロッピーディスク、CD−ROM、または他のネットワークに接続された装置のようなリムーバブル媒体に記憶されていてもよい。ソフトウェアコンポーネントは、オペレーティングシステムを表しており、これは、コンピュータシステムやそのネットワーク内部接続を管理する役割を果たす。このオペレーティングシステムは例えば、マイクロソフトウィンドウズシリーズ、UNIXオペレーティングシステム、あるいはLINUXベースのオペレーションシステムであってよい。別のソフトウェアコンポーネントは、共通言語およびこのシステム上で便利に存する機能を表し、本発明固有の方法を実現するプログラムをアシストする。本発明の解析方法をプログラムミングするために用いることのできる言語は、C、C++、あるいはあまり好ましくはないが、JAVAなどである。本発明の方法は、数理的ソフトウェアパッケージでプログラムされるのがもっとも好ましく、これは、式のシンボル入力および、アルゴリズムを含む処理の高レベルな仕様が用いられるようにすることができる。これにより、個々の式やアルゴリズムの手続的なプログラムの必要性からユーザを解放する。このようなパッケージは、例えば、マスワークス(ナチック、マサチューセッツ)のMATLAB、ウオルフマンリサーチ(キャンペイン、イリノイ)のMATHEMATICA、およびマスソフト(ケンブリッジ、マサチューセッツ)のMASCADなどを含む。本発明の解析方法は、手続型言語またはシンボリックパッケージでプログラムされてもよい。
【0088】
マスメモリは一般的に、RAM,ROMおよびハードディスクドライブ、テープドライブ、光ドライブ、フロッピーディスクドライブ、またはこれらの組み合わせのようなパーマネントマスストレージ装置を有している。マスメモリは、宅内サーバのオペレーションを制御するオぺレーティングシステムを記憶する。このコンポーネントが、UNIX、LINUX、またはマイクロソフトウィンドウズNTのような当業者に知られている汎用サーバオペレーティングシステムからなってもよいことが認められるだろう。このメモリは、WWWにアクセスするためのネットエスケープナビゲータ、またはマイクロソフトインターネットエクスプローラブラウザのようなWWWブラウザも含む。
【0089】
マスメモリはさらに、さまざまな宅内モニタリング装置とインターフェースし、モニタリング装置データを処理し、データを中央サーバに送信するプログラムコードおよびデータも記憶する。より具体的には、マスメモリは、本発明にしたがった装置インターフェースアプリケーションを記憶する。このアプリケーションは、モニタリング装置データをさまざまな装置から獲得し、中央サーバが処理するデータを操作する。装置インターフェースアプリケーションは、コンピュータ実行可能な指令を有し、この指令は、宅内サーバによって実行されるときに、以下でより詳細に説明されるように装置データを獲得して送信する。マスメモリはさらに、装置データを中央サーバに送信して、中央サーバとモニタリング装置間の通信を容易にする、データ送信アプリケーションプログラムも記憶する。これらのコンポーネントがコンピュータ読み取り可能媒体上に記憶され、フロッピー、CD−ROM、DVD−ROMドライブ、あるいはネットワークドライブのようなコンピュータ読み取り可能な媒体に関係するドライブメカニズムを利用して宅内サーバのメモリに読み込まれてもよいことが認められるであろう。
【0090】
本発明の解析方法を実現する代替システムおよび方法が当業者にとって明らかであり、添付の特許請求の範囲内で理解されるよう意図されている。特に、添付の特許請求の範囲は、本発明の方法を実現する代替プログラム構成を含むよう意図され、当業者が容易に理解できるだろう。
【0091】
以下の例は本発明を説明する目的で示されるものであり、本発明を制限するものではない。
【0092】
実施例
例1
単一パルスモデルおよび推定
この例では、本発明の代表的な方法、単一パルスモデル(SPM)を説明する。
【0093】
単一パルスモデルはいくつかのステップで開発することができる。第1のステップはバイナリプロセスとして細胞周期にわたって単一細胞中の単一転写物をモデリングする。
【数6】
【0094】
ここで、Y(t)は時間‘t’における発現レベルを示し、(0≦ζ<ξ≦Θ)としての(ζ,ξ)は活性化時間および不活性化時間、Θは細胞周期間隔であり、c=0,1,2,...は第1、第2、第3、...の細胞周期を示す。代わりに、上記表示は以下のように書くことができる。
【数7】
【0095】
第1、第2、第3、...周期に対する和であり、I{・}は恒等関数である。
【0096】
第2のステップは単一細胞内の複数の転写物を考慮し、背景および高められた発現レベル(α〜,α〜+β〜)と活性化および不活性化時間(ζ,ξ)を有する細胞に対する発現パルスを提供する(図1)。細胞についての予測される発現レベルに対するモデルは以下のように書くことができる。
【数8】
【0097】
第3のステップは、複数の細胞がプールされ、同調化されるが、同調化が完全でない事実を確認する。tkがターゲットタイミングを示すとしよう。単一細胞の実際のタイミングTkはtkのまわりにランダムに分散され、平均tkと標準偏差σを持つ正規分布を有すると仮定される。
【0098】
記述として、以下のようにする。
【数9】
【0099】
ここで、Nは共時性中の細胞数であり、(t+Ti)はi番目の細胞の年齢(タイミング)であり、Yi *はi番目の細胞における特定の遺伝子の発現レベルである。SPMによる平均発現レベルYiをモデリングすることは以下のようにYi *(t+Ti)の予測値を与える。
【数10】
【0100】
共時性に対する平均発現はN個の細胞に対する総和から生じ、ランダムタイミング(Ti)に対する期待値をとる。いくつかの簡単な代数にしたがうと、時間tkにおける平均発現レベルは以下のように書けることを示すことができる。
【数11】
【0101】
ここで、φ(x)はガウス累積分布関数であり、α=Nα〜およびβ=Nβ〜である。
【0102】
第4のステップは、時間に対して同調化がすべての同調プロトコルによる固有の制限を悪化させることを確認する。時間tでσを単調増加できるようにすることによりこの悪化をモデリングする。特に、サンプルk中の細胞のタイミングに対する標準偏差が以下の指数形態モデルにしたがうことを仮定する。
【数12】
【0103】
ここで、(γ0,γ1)は推定されるべきパラメータである。
【0104】
第5のステップはサンプル間の乗算的(λk)および加算的(δk)異質性因子を組み入れる。mRNA抽出、増幅および評価における変動はサンプル間の異質性となり得る。先に言及したように、このような異質性を調製する要求は平均発現レベルに対する以下のモデルに導く。
【数13】
【0105】
ここで、δkおよびλkはk番目のサンプルに特有であり、δkおよびλkはKサンプルに対してそれぞれ0と1に平均化する。既述したように、モデルは多量の転写物の測定値に直接適用することができる。転写レベルの比を解析するために、乗算的異質性因子(λk≡1)を削除することを選択する。
【0106】
各遺伝子はその自己の活性化および不活性化時間ならびにその自己の背景および高められた発現レベルを持つことを許容されており、j番目の遺伝子に対する平均発現についてのSPMモデルを以下のように提供する。
【数14】
【0107】
ここで、j=1,2,...,Jおよびk=1,2,...,KはK個のすべてのサンプル中におけるJ個のすべての遺伝子を示す。
【0108】
推定式[A1]を解くパラメータ推定値を見つけるために、2乗の加重和を最小にすることができる。
【数15】
【0109】
平均の活性化および不活性化時間は変化点を表し、制限される(ζj≧0,ξj≧0およびξj>ζj)ので、(ζj,ξj)に対する良好なグリッド値における各点の他のパラメータに関して上記2乗和[A1]を最小にし、[A1]に対して全体を最小にする1組みのパラメータ推定値を選択する。少なくとも2つのtk値において含まれる点(ζj,ξj)にプロファイル処理を制限する。計算における加重関数は以下のように規定される。
【数16】
【0110】
ここで、μj^0(tk)=δk^+λk^αj^は、βj=0を要求する場合のμj(tk)の推定値を示す。すべてのモデルパラメータを推定する際に、以下の式は単に遺伝子jに対する発現レベルの変動のパーセンテージであり、異質性パラメータ調製にしたがい、これはSPMモデルの周期側面により説明したことにも留意すべきである。
【数17】
【0111】
したがって、1に近づくRj 2値は、SPMがj番目の遺伝子に対する観測された発現プロファイルの良好な表示を提供していることを意味する。
【0112】
方法セクションで言及したように、複数のステージでパラメータ推定を実行して計算を簡単化した。第1のステージは、すべてのβj値を0に制限して、[A1]を最小にすることにより、(δk^,λk^)の推定値に導き、k=1,...,Kとした。この制限のもとで、以下の式も有するので、μj^0(tk)値と加重νj^2を計算することができる。
【数18】
【0113】
次に細胞周期間隔推定Θ^は単一パルスモデルのもとで[A1]を最小にすることにより計算された。ほとんどの転写物は細胞周期で調製されていないことから、1組の104の既知の周期的転写物のみを使用して、細胞周期間隔の適切な推定を確実にした。この計算は例えば1分の単位で40分から80分のcdc28データセットについての細胞周期間隔Θに対するプロファイリングに関係する。同じ組の遺伝子において、[A1]を最小化することにより同調変動σkを推定した。
【0114】
これらのパラメータを固定化すると、j番目の遺伝子に対するパラメータ(ζj,ξj,αj,βj)に関する[A1]の最小化は単にj=1,...,Jに対して個々に以下の式の最小化が必要となり、計算が非常に簡単化される。
【数19】
【0115】
これらのパラメータ推定値に対する推定標準偏差は、モデル仮定およびxkを与えるYkの独立仮定のもと、サンドイッチ式(15)をj番目の遺伝子に対するデータだけに適用することから生じる。これらの計算は統計値Zj、その標準偏差に対するβj^の比を与え、これは各j=1,...,Jに対してβj=0であるならば、ほぼ標準正規分布を有する。このような標準正規分布のもとで、絶対値でZjが5を超える確率は約5.7×10−7であるので、βj^値の任意の1つ、例えば6000遺伝子が5を超える確率は、すべてのβj値が0に等しい場合に、ボンフェロニ近似を使用して、6000×5.7×10−7=0.003として、控えめに推定される。特に、ボンフェロニ補正は控えめであるから、これは5のしきい値は極端過ぎるかもしれないことを示唆しているが、特に、サンプル数(K)がかなり小さい場合には、Zjに対する標準正規分布近似はむしろ自由にすることができる。したがって、5のかなり極端なしきい値を保持することを選択した。
【0116】
先に概説した数値処理は、すべてのモデルパラメータのパラメータ推定値をデータ上の最小制約のもとで確実に得ることができるにする(例えば、異質性補正値(Yjk−δk^)/λk^はサンプルにわたって何らかの変動を示さなければならない)。複数ステージ推定処理が、すべてのモデルパラメータを同時に推定する処理と比較して、Z統計値に最小の影響を確実に持つようにし、モデルパラメータ推定値の分布に対する漸近正規近似に関係する保守性を調査するために、さらに統計開発することが望まれる。方法セクションで言及した2グループ比較問題および時間経過解析の状況において、各Zj値は、異質性および回帰パラメータが複数ステージでまたは共同で推定されるか否かにそれ程依存していない。しかしながら漸近正規近似は、サンプル間の回帰変数のさまざまな組み合わせのもとで、Zj値を比較することにより生じるZj分布に対するある経験的近似よりも、かなり端部においてさらに自由であると思われる。
【0117】
例2
遺伝子発現を解析するための代表的なセミパラメータ方法の例示
この例では、本発明の代表的な方法を使用して遺伝子発現を解析するセミパラメータ方法の例示を説明する。
【0118】
同調化実験
単一転写物。代表的な同調化実験が図6に例示されている。図6を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)は各細胞周期で生じる。シンボルに対する鍵は以下の通りである。
【数20】
【0119】
単一細胞内の複数転写物。単一細胞内において、複数転写物が時間にわたって転写され、消失され、三角形状のパルスとなる。単一細胞内の複数転写物に対する代表的な同調化実験が図7に示されている。図7を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0120】
この方法では、転写プロセスは消失プロセスと同様に均一に分散されることが仮定される。単一パルスモデル(SPM)による近似、本発明の代表的な方法は、転写時間の推定された中間時間と、mRNAの半分の寿命を生み出す。単一細胞内のmRNAパターンを近似すると、SPMは以下のように書くことができる。
【数21】
【0121】
複数細胞との可変同調化。典型的な同調化実験は数千または数百万の細胞をポーリングして、細胞周期タイミングに対してそれらを同調化させようと試みる。同調化技術の進歩にかかわらず、同調化において変動がある。個々の細胞の実際のタイミングは同一ではない。単一細胞の実際のタイミングTkはランダムであり、正規分布を有すると仮定され、平均予測タイミングtk、標準偏差σである。
【0122】
時間tkにおける観測された発現レベルは以下の通りである。
【数22】
【0123】
複数細胞との可変同調化に対する代表的な同調化実験が図8に示されている。図8を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0124】
複数細胞に対するSPMは以下のように導出することができる。N個の細胞(Nは非常に大きい。例えば>100,000)を考える。各細胞は、Ti(i=1,2,...,N)として示される、その自己のタイミングにしたがう。時間tにおいて細胞を同調化するために、すべてのTiはtのまわりにランダムに分散され、その分布はガウス分布と仮定される。この仮定のもと、N個の細胞の観測発現レベルは以下の式により近似することができる。
【0125】
中央制限理論
【数23】
【0126】
インジケータ関数に対するラベリングおよび予測
【数24】
【0127】
標準化
【数25】
【0128】
悪化する同調化。悪化する同調化は、従来の同調プロトコルによる固有の制限である。悪化する同調化を示す転写物に対する代表的な同調化実験が図9に示されている。図9を参照すると、転写発現レベルは細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0129】
悪化する同調化は、同調化変動を変化させることにより、すなわち時間tでσが単調増加することによりモデリングすることができる。指数モデルでは以下の式のようになる。
【数26】
【0130】
ここで、(γ0,γ1)はデータから推定されるべきパラメータである。γ1=0の場合には、同調細胞が考慮されている時間フレーム内に十分にそれらの同調を保持していることをこれは意味している。一般的に、正γ1>0では、変数は図10に示されているように単調に増加する。細胞周期タイミングの関数としての同調変動が図10に示されている。
【0131】
悪化する同調化を組み込むために、SPMは以下のように修正することができる。
【数27】
【0132】
サンプル間の異質性。mRNA抽出、増幅および評価における変動のために、観測された発現レベルは変動振動し、サンプル間の異質性となる。サンプル間の異質性を示す転写物に対する代表的な同調化実験が図11に示されている。図11を参照すると、転写発現レベルが細胞周期タイミングに対してプロットされている。図では、背景(α)より上の転写発現(β)が各細胞周期で生じている。
【0133】
このような異質性がチップ上のmRNAの量に純粋に関係しているのであれば、乗算的異質性因子をSPMに導入して、以下の式を提供することができる。
【数28】
【0134】
以下の制約がパラメータの同定可能性を確実にするために課される。
【数29】
【0135】
2つのサンプルで、この補正はx−yプロット上の回転を表す。
【0136】
乗算的異質性から拡張すると、加算的異質性を考慮して、加算的スケール上の異質性を補正することもできる。モデルは以下のように書くことができる。
【数30】
【0137】
ここで、δkは0平均の制約を有する加算的異質性である。
【0138】
遺伝子特定ビュー。遺伝子の機能は異なっており、それぞれそれ自体の活性化および不活性化時間ならびにそれ自体の背景および高められた発現レベルを持つ。下付文字“j”を使用することにより、SPMは以下のように書くことができる。
【数31】
【0139】
未知の原因によるランダム変動。他の多くの原因が遺伝子発現レベルの変動に寄与する。ランダム変動に対処するために雑音因子をSPMに導入することができる。SPMは以下のように書くことができる。
【数32】
【0140】
鍵となる仮定は、これらのランダム変動が平均0を持つことである。
【0141】
分布仮定はなされていないことに留意すべきである。さもなければ、LOD SCORE等価方法を発展させることが可能であり、それからの結果は分布仮定に必然的に依存する。
【0142】
一般的に、統計学者は以下の表現を使用する傾向がある。
【数33】
【0143】
予測値
パラメータ推定。推定されるべきパラメータは以下のものを含む。
【0144】
Θ…細胞周期間隔
σkにおける(γ0,γ1)…同調化変動に対する標準偏差
(δk,λk)…加算的および乗算的な異質性因子
(ζj,ξj)…活性化および不活性化時間
(αj,βj)…背景および高められた発現レベル。
【0145】
上記パラメータを推定する基本メカニズムは、2乗残差の以下の和を最小にすることである。
【数34】
【0146】
方法に対する2つの重要な統計値。方法に対する2つの重要な統計値はZスコアとR2である。
【0147】
Zスコアを使用してヌル仮定H0をテストする。Jj=0、すなわち周期性の欠如である。
【0148】
R2はSPMにより説明される変動の割合を測定する。
【数35】
【0149】
選択基準は(R2>0.5、Z>4およびSPMはSNOPに好都合である)ことである。
【0150】
時間経過実験
SPMを拡張して一般的にタイミング因子を組み込むと、遺伝子発現に対する一般モデルは以下のようになる。
【数36】
【0151】
線形モデル。遺伝子発現に対する代表的な線形SPMが図12に示されている。図12を参照すると、転写発現レベル(β)が細胞周期タイミングに対してプロットされている。線形SPMは以下の通りである。
【数37】
【0152】
二次モデル。遺伝子発現に対する代表的な二次SPMが図13に示されている。図13を参照すると、転写発現レベル(β)が細胞周期タイミングに対してプロットされている。二次SPMは以下の通りである。
【数38】
【0153】
解析の目的は次のものを推定することである。
Βj…時間依存性
τj…ピーク時間
αj…背景発現値
(δkλk)…異質性補正。
【0154】
正常および異常組織の比較
モデルを拡張して正常および異常組織を比較することができる。インジケータ関数xkは時間変数tkを置換し、xkはバイナリ値を持つ。
【数39】
【0155】
対応モデルは以下のように書くことができる。
【数40】
【0156】
この方法により正常および異常組織を比較する代表的な結果が図14に示されている。
【0157】
例3
人間の癌において差次的に発現した遺伝子の解析のための代表的方法
この例では、本発明の代表的な方法を使用して人間の癌において差次的に発現した遺伝子を同定する。
【0158】
この例は、DNAマイクロアレイ実験から関連情報を抽出する統計学的モデリングアプローチを説明する。これは2つの予め定められたサンプルグループ間、例えば健康な組織対癌組織との間で差次的に発現した遺伝子を発見することに向けられている。このモデルは十分に規定された仮定に基づいており、正確でよく特徴付けられた統計測定値を使用して、ゲノム発現プロファイルの特定の側面を問い合わせ、データの異質性およびゲノム複雑性に対処する。共通の全体的な発現プロファイルを共有する遺伝子および/またはサンプルのグループを規定しようとするクラスタ解析と対照的に、このモデリングアプローチは“既知のクラスタメンバーシップ”(すなわち、2つの予め定められたサンプルグループ)を利用して、高感度で強力な方法で個々の遺伝子の発現プロファイルに焦点を合わせる。さらに、このアプローチを使用して、特定の遺伝子の発現について前もって考えた仮定を生成し、テストすることができる。この方法論を例示するために、マイクロアレイデータが38個の急性白血病サンプルおよび10個の小児髄芽細胞腫脳腫瘍から得られた。
【0159】
DNAマイクロアレイ技術は単一サンプルからの数千のmRNA分子の発現レベルを同時問い合わせできるようにし、したがって機能性ゲノム研究(31,38)の基礎である。これらの実験から得られるデータの量はデータ解析へのチャレンジ:すなわち、どのように、高いスループットデータの“海”から関連情報を効率的に抽出することができるか(21,22,41)?を表す。遺伝子発現データを解析する高感度で強力な理論上のフレームワークを確立させなければならない。
【0160】
現在、マイクロアレイデータを解析するために最も一般的に使用されている計算アプローチはクラスタ解析である。クラスタ解析は類似する発現プロファイルに基づいて遺伝子またはサンプルを“クラスタ”にグループ分けし、共有クラスタメンバーシップを通して遺伝子の機能または規則性あるいはサンプルの類似性に対する手がかりを提供する(41,97,98)。いくつかのクラスタ化方法がゲノムワイドな発現データの解析に有効に適用されており、大きく3つのカテゴリに分類することができる。すなわち(1)ツリーベースのアプローチは相関係数のような遺伝子間の距離測定値を使用して、遺伝子を階層ツリーにグループ分けし(33)、(2)第2のカテゴリは、クラスタ内の変動を最小にし、クラスタ間の変動を最大にするように遺伝子をクラスタ分けし(97,98)、(3)第3のカテゴリは遺伝子をブロックにグループ分けし、それらの中では相関が最大化され、それらの間では相関が最小化される(19)。
【0161】
マイクロアレイ研究に対するクラスタ解析の力は、類似する発現プロファイルを示す遺伝子転写物またはサンプルを発見することにある。例は時間経過に対して同時調製されると思われる転写物の同定子(29,92)、あるいは以前に未知のサンプルグループ化を発見すること(15,16)を含む。しかしながら、“同様な”グループの同定子は必ずしもマイクロアレイ研究における目的ではない。例えば、マイクロアレイはパワフルな高スループット方法を提供し、正常組織対癌性組織のような予め定められたサンプルグループ間で差次的に発現した遺伝子を発見する(16,30)。クラスタ解析は個々の遺伝子に焦点を当てないことから、このタイプの研究のためには高感度な方法ではない。
【0162】
マイクロアレイ研究からのグループ比較に対してもっとも一般的に適用されている技術は、各グループに対する平均強度間の2倍またはそれ以上の差を持つ遺伝子を単に探すことである。しかしながら、相対的な平均比較はサンプル変動に対処できず、100%より少ない発現レベルの差が非常に現実的で意味のある生物学的影響を持つことがある事実を無視する。実際、ノーザンブロットのパネルの比較や、あるいは健康および癌組織サンプル間の酵素分析法のような、単一遺伝子における解析に焦点を当てるときに、科学者達は類似する基準をめったに利用しない。グループ間のマイクロアレイ発現プロファイルを比較するための非常に改良された方法が最近提供され、この方法では、修正された人の係数およびデータ変動に対処する隣近解析アプローチを使用して、サンプルグループが比較される(44)。
【0163】
この例は統計学的モデリングアプローチを説明し、よく理解されており、強力な統計基準を使用して、2つのサンプルグループ間で差次的に発現した遺伝子を同定する。統計学的モデリング技術の2つの例示が含まれている。38人の白血病患者からの発現プロファイルが調査され、そのうちの27人が急性リンパ球性白血病(ALL)として診断される一方、11人が急性骨髄性白血病(AML)(44)として診断された。このデータセットはクラスタ解析を通して元々解析され、発現ベースの分類モデルが開発され、AML(44)からALLを同定した。第2の目的は新規なデータセットを解析して、NEUROD3/神経性1−ポジティブ対ネガティブ−小児髄芽細胞腫脳腫瘍において差次的に発現した遺伝子を発見することであった(74)。発見は、統計学的モデリングが高感度で強力な手段を提供してDNAマイクロアレイからの情報を抽出することを示す。
【0164】
方法論。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第1のステップは、データの事前処理および/または変換である。これにはスパイクオリゴヌクレオチド制御の除去が含まれる。第2のステップは、サンプルに特異的な異質性とともにチップに特異的な異質性に対する補正因子を推定し、これらの因子を使用してデータを正規化することである。最後のステップは回帰解析を実行し、強力な統計技術を使用して各遺伝子転写物に対する関連モデルパラメータ(方法中の式1)を推定することである。結果は各転写物に対するZスコアの絶対値によりランク付けされる。Zスコアが高くなると、対応する遺伝子が2つのグループ間で差次的に発現したことの信頼レベルがより高くなる。
【0165】
方法論はMATLAB(MATH WORKS,Inc.により開発されたコンピュータ言語)を使用するコンピュータプログラムで実現することができる。
【0166】
複数比較。比較的少ない数のサンプルで非常に多量の比較を実行するときの問題は、複数比較から生じる不正確な高ポジティブレートである。この懸念を取り扱うために、有意性レベルが確実にゲノムスケールに適用可能なように、差次的に発現した転写物を宣言する統計しきい値が高められた。控えめな選択はボンフェロニ補正であり(53)、これは所要のゲノムワイド有意性、例えば1%を解析される遺伝子の総数で割る。例えば、7070のプローブを含むアフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイでは、調製された有意性レベルは約1/7070%である。Zスコアは正規分布にしたがうことを仮定すると、ゲノムレベルにおける対応する1%有意性しきい値は4.8のZスコアである。差次的に発現した複数の遺伝子を検出する力を向上させるために、各遺伝子に対する有意性値(すなわちp値)はホッケベルグにより提案された修正されたボンフェロニ補正を使用して計算された(52)。
【0167】
白血病研究。以前の研究は、38人の白血病患者(27人はALLで11人はAML)からのmRAN発現プロファイルを調べ、急性白血病に対する発現ベースの分類方法を開発した(44)。この研究からのデータセットはモデリング技術を例示するのに理想的であった。その理由は多量の患者を含み、十分に特徴付けられていたからである(41)。さらに、白血病に関する多量の文献があり、これらの文献から発見の有効性を評価することができる。
【0168】
統計学的モデリングアプローチは、4.8以上のZスコアで、AMLとALLとの間で差次的に発現した141の転写物を同定した。これらのうち23がAMLにおいてより高いレベルで発現した一方、114がALLで差次的に発現した。テーブル1および2はmRNAに対応するトップ25遺伝子をリストアップし、これらはいずれかのサンプルグループでさらに高く発現している。これらのテーブルには、修正された人の相関係数方法論に基づいたグラウブ氏らによる各所定プローブの場合の、AML対ALLについての平均間の相対差と、対応ランキングとを含む(44)。2つの方法間のランキングにおける差は比較的小さい平均発現差および/または発現レベルを持つ遺伝子に向けての統計学的モデリング方法における増加した感度から生じるものと思われる。これは重要な問題である。その理由はこれらの基準のいずれもタンパク質の生物学的特異性と必ずしも相関していないからである。例えば、テーブル1は、トロンボスポンディン1(TSP1)はAML対ALLで差次的に発現した一方、相対的および絶対的平均発現レベル差の両者は非常にわずかであった(それぞれ1.8倍および125)ことを示している。それにもかかわらず、TSP1は骨髄巨核球ろう(28)をネガティブに制御し、骨髄性白血病細胞増殖(101)に影響を与えることが知られている。
【0169】
マイクロアレイ研究の大部分はAML/ALL比較における38個のサンプルよりも少ないサンプルサイズで実行されることから、統計学的モデリング方法は、11人のAML患者間のトロンボポエテイン(TPO)との発現プロファイルの関係を調査するために適用された(44)。TPOは骨髄前駆の巨大核細胞(24)への遷移の原因となる主なサイトカインであるが、造血幹細胞からすべてのタイプの前駆への分化においてさらに一般的な役割も果たす(58)。さらに、TPOは多数のAML細胞株で発現することが知られている(46)。トロンボポエテイン(TPO)発現プロファイルのシャープな図形が患者28,30,32,34,36および38対、患者29,31,33,35および37との間で発見され、したがって、統計学的モデリング技術を使用してこれらの患者グループが比較された。8個の転写物が4.8より上のZスコアを持っていた。TPO自体は最高のランキングを生じさせた(テーブル3)。この解析からの15個の最高ランキングmRNAのうち、3個の対応する遺伝子生成物がTPOにより影響を受け、あるいはTPOと直接的に相互作用することが知られており、2個は詳しく特徴付けられなかったが、TPOと相互作用するタンパク質と非常に相同しており、他の8個は骨髄造血に関係している。TPOはAML芽細胞の増殖を刺激することができ(65,70)、グルーピングが芽細胞の高いまたは低いパーセンテージを持つサンプルのラインに沿って大きく落ちることに着目することは興味深い(www.genome.wi.mit.edu/MPR参照(44))。
【0170】
治療の成功または失敗と遺伝子発現の関係が調査された。11人のAML患者のうち、6人の患者(患者28−33)は治療に応答することがない一方、5人の患者(患者34−38)は生き延びた(www.genome.wi.mit.edu/MPR参照(44))。この解析からの25個の最も重要な転写物がテーブル4にリストアップされている。対応する遺伝子の染色体位置が調査された。その理由は染色体異常が白血病では優勢であり、予知的な密接関係を持っていることが多いからである(34,85)。テーブル4にリストアップされている遺伝子のほとんどすべては、異常をAMLおよび他の形態の白血病に含めるために以前に同定された領域に入る。さらに、遺伝子のうちの3個は5q11−31にエンコードされ、4個は2q領域に入り、2個は1q32−26内であり、他の2個は6p12−p11で見出される(テーブル4)。6800+遺伝子のランダムプールからのトップ25遺伝子における染色体位置の5個の“ミニクラスタ”の同定子が目を引く。注目すべきことは、領域5q11−31はAMLで頻繁に失われており、予知に影響を与えることが知られている(34,90,103)。さらに、Set(63)およびHoxA9(61)はAML進行で役割を果たすことが知られており、COL4A4(105)、チオレドキシン(71,91)、カスパーゼ−8(76)、インテグリンベータ5(25)、アルファチューブリン(51)、およびSPS2(91)は病気によく寄与するかもしれない。臨床結果は患者年齢、診断時期、および処置プロトコルを含む多くの非遺伝子要因により影響されるが、上記発見はゲノムワイドのマイクロアレイ解析を使用して予知インジケータの発見を約束していることを心に留めておくべきである。
【0171】
髄芽細胞腫研究。NEUROD3/神経性1は基本的ならせん−ループ−らせん転写因子であり、その発現は小児髄芽細胞腫に対するネガティブ予知インジケータである(84)。白血病データを解析することからの有望な結果にしたがって、mRNA発現プロファイルが10個の小児髄芽細胞腫組織サンプルから調査され、そのNEUROD3ステータスがノーザンブロットを使用してあいまいさなく決定された(74)。主目的はNEUROD3で差次的に発現した遺伝子を発見することであった。マイクロアレイ発現プロファイルの統計学的モデリングは、4.8を超えるZスコアを持つNEUROD3+またはNEUROD3−腫瘍間で差次的に発現した22個の遺伝子を明らかにした(テーブル5)。多数のこれらの遺伝子は髄芽細胞腫の腫瘍形成において潜在的な役割を持ち、これには細胞周期で調製された遺伝子Skp2(26)およびSmN(25);ERF−1(Berg36)、細胞消滅で役割を果たすかもしれない推定核細胞転写因子;微小管タンパク質および原腫瘍形成遺伝子プロファイル(55)、これは染色体領域17p13.3にあり、髄芽細胞腫の約50%で失われ(68);ホスファチジルイノシトール4−キナーゼ、これは神経発育因子(NGF)のトランスポートに関係しており(83);Kid、分裂紡錘フォーメーションに関係するタンパク質で、さまざまな癌細胞で発現する(100);Rar、人間の海馬状隆起(http://www.ncbi.nlm.nih.gov/entrez/utils/qmap.cgi?form=6&db=n&dopt=g&uid=u05227参照)から分離されたものであり、マウス中のras原腫瘍形成遺伝子ファミリーの脳特定メンバと相同であり(17);ADH7、レチノイン酸合成で機能するかもしれないものであり(50);転写因子SOX9(112)およびpolIIIサブユニットRPC62(107);RING3、転写因子および推定腫瘍形成遺伝子(75);およびMYBL2腫瘍形成遺伝子、神経芽細胞腫瘍中のプア予知因子(80)が含まれる。
【0172】
オリゴヌクレオチドマイクロアレイ技術の開発は、単一実験における数千の遺伝子のmRNA転写レベルのモニタリングを可能にする。実際、科学者は完全なDNA配列が既知である酵母のような生物に対する全ゲノムの発現プロファイルを既に調査し始めている(29,36,60,92)。調査および発見のこの力は、同時に1つの遺伝子に焦点を合わせる伝統的な実験アプローチをはるかに超えて進行する。さもなければ、マイクロアレイ研究から得ることができるおびただしい量のデータがデータ解析に対するチャレンジを提供する(21)。この例では、十分な基礎がある統計処理が説明され、この処理はゲノムデータの複雑性を考慮に入れながら、2つのサンプルグループ間の個々の遺伝子の発現プロファイルを比較する。
【0173】
統計処理に隠れたモチベーションは単純なコンセプトに基づいている。すなわち個々の遺伝子について、それぞれ予め定められたサンプルグループ中のその転写レベルの平均および標準偏差を計算し、Zスコア、p値またはR2のような典型的な統計基準に基づいて発現プロファイルが異なっている尤度を決定する。同時に、この方法はゲノムワイドな情報を利用して、サンプル異質性および複数比較問題を取り扱う。白血病データについて得られた結果は、モデリングアプローチが遺伝子発現を定量化するかなり高感度な方法を生み出すことを示す。
【0174】
何らかの特別なフィルタリング方法を生蛍光データに適用することなく、白血病および髄芽細胞腫データセットが解析されたことに着目することは重要である。例えば、蛍光シグナル強度に基づいて“背景”雑音レベルはデータから減算されなかった、あるいは “発現しなかった”遺伝子を取り除かれなかった。これらのフィルタリング技術は、データをグラスタリングするとき、あるいは単一サンプルで遺伝子が発現したかまたはしなかったかを問うときに、最強の関連付けを行うことが要求される。しかしながら、フィルタリングは対象とする潜在的な遺伝子、特に低いものから適度な発現レベルを持つ潜在的な遺伝子を除去し、したがって、発見の力を減らすことがある。例えば、細胞毎に数転写物からゼロ転写物のみの差は、特別なフィルタリング技術を適用した後に検出できなくなることがあるが、そうでなければ、非常に現実的な生物的有意性を持つか、あるいは治療のために細胞を特にターゲットにするかなりの機会を提供する。
【0175】
統計学的モデリングの顕著な利点は、この技術はデータ中のランダム変動(すなわち“雑音”を利用することである。例えば、活性化誘導Cタイプレクチン(AICL)の平均発現レベルはAMLにおいてALLより3倍高く、絶対平均差は826ユニットで相当であった。AICLがさまざまな造血誘導細胞株で発現することを考えると(49)、AICLはこの証拠に基づいてAMLで実際に過剰発現したと合理的に結論するかもしれない。しかしながら、モデリングアプローチは0.91のみのZスコアをAICLに与えた。この明白な不一致は、AMLセット中のAICLサンプルの1つが他の任意のものよりも5倍以上高い強度値を持っていた事実により説明される。38個のサンプルからこの1つだけを排除すると、AMLとALLとの間のAICLに対する相対および絶対平均差はそれぞれ1.3倍および−94+/−216であった。明らかに、統計学的モデリングは倍数変化の単純比較よりも非常に意味のある結果を生み出す。
【0176】
モデリングアプローチは拡張することができる。第1に、非線形モデルを組み込むことができ、あるいは他の変換を観測された発現レベルに適用して、蛍光強度における非線形性に対処することができる。第2に、モデル(方法中の式1)を自然に拡張して付加的な共変量を組み込むことができる。例えば、複数の患者の臨床研究では、いくつかの臨床変数と発現プロファイルとの関係を評価することができる。第3に、たとえば非線形用量応答関係の評価において、連続的な共変量に対して非パラメータ平滑関数を組み込むことによりモデル(式1)を拡張することができる。第4に、複数の遺伝子の遺伝子調製回路についての我々の知識が蓄積するので、回帰係数α(π)(α1,α2,...,αJ)およびβ(π)(β1,β2,...,βJ)に対する“高レベル”モデルを仮定することにより遺伝子間の機能関係を公式化することができる。ここでπは全体的な遺伝子調製回路を特徴付けるパラメータの共通セットとすることができる。推定式を使用して、このような遺伝子回路モデルがどれくらい上手くデータに適合するかをテストすることができる。
【0177】
現在のアプローチの主な制限はp値の計算に関係している。先に着目したように、4.8のZスコアはゲノムワイドの有意性がアフィイメトリックス6800遺伝子チップに対して1%で確実に制御されるように選択される。しかしながら、対応するp値の計算はZスコアに対する漸近正規分布に基づいている。小さいものから適度なサンプルサイズで、この正常性は疑わしく、このようなしきい値は控えめではない。小さいサンプルサイズでの発見科学のために、Zスコア4.8しきい値は暫定的ガイドラインとして取り扱うべきであることに着目することも重要である。特定の候補遺伝子との関係をテストする状況では、単一遺伝子に対して確実に1%の誤り誤差率とするための許容しきい値は2.58のZスコアである。最後に、ボンフェロニ補正またはその変形は遺伝子発現の共変量を考慮にいれず、これはp値に対して控えめな推定となる。
【0178】
回帰モデル。遺伝子発現プロファイルのアレイを結果のベクトルとして概念化することができる。Yk=(Y1k,Y2k,...,YJk)’がアレイを示すとする。ここでYjkはk番目のサンプル中のj番目の発現を示す(j=1,2,...,J;k=1,2,...,K)。xkが各k番目のサンプルに関係する共変量を示すものとする。例えば、マーカー遺伝子の存在に対してxk=1、その不存在に対してxk=0である。k番目のサンプルにおけるj番目の遺伝子の発現レベルに対する回帰モデルを以下のように提案する。
【数41】
【0179】
ここで、(aj,bj)は遺伝子に特異な回帰係数であり、(δk,λk)はそれぞれサンプルに特異な加算的および乗算的異質性因子であり、εjkは既知の共変量およびサンプル間のシステマティックな異質性により同定されたもの以外の原因による変動を反映するランダム変数である。xkはバイナリであることから、ajは正常サンプル(xk=0)中のj番目の遺伝子の平均発現レベルを測定し、bjは2つのサンプルグループ間のj番目の遺伝子の平均化発現レベルの差を測定する。
【0180】
異質性因子(δk,λk)は複数のmRNAサンプルを調製する際の変動に対処するために導入される。このような補正は2つのサンプルを比較する際に十分に考えられた。これらの2つのサンプル間に全体的な差次的発現がないヌル仮定のもとでは、サンプルデータを正規化して対角線上で共通技術に入れることによりこの異質性を調製することができる(111)。数値的安定性を確保するために切片も推定することができる。切片が0とは異なる場合には、補償するために対角線が上下に移動される。この補正を形式化して、典型的なゲノムワイドの発現パターンが安定であることを仮定することができ、線形モデルμjk=δk+λkajを使用して、すべてのサンプルおけるすべての遺伝子に対する平均発現値を特徴付けることができる。これらの異質性因子は加重最小2乗法により推定される(27)。推定された異質性因子を使用して(Yjk−δk^)/λk^として観測された発現レベルを調製し、補正された発現値を使用して上記モデル(式1)のもとにさらに解析をする。
【0181】
ランダム変動εjkを使用して未知のすべての原因による変動を示す。特に、この変動はサンプリング調製、遺伝子のクロスハイブリダイゼーション、またはマイクロアレイにおける他の異常と関係付けることができる。これらのランダム変動の確率分布は一般的に未知であり、正規分布のようなよく知られている何らかの分布にしたがう傾向がない。したがって、分布仮定は行われない。
【0182】
分析戦略。オリゴヌクレオチドアレイ発現プロファイルの統計解析における第1のステップはデータの前処理であり、これには必要に応じて制御遺伝子の除去およびデータの変換(例えば、対数変換)が含まれる。
【0183】
第2のステップは加算的および乗算的異質性要因(δk、λk)を推定することによりサンプル間の異質性を調査することである。推定は以下の加重最小2乗を最小にすることにより得られる。
【数42】
【0184】
ここで、和はすべての遺伝子およびサンプルに対するものである(27)。加重はすべての遺伝子の寄与が0と1との範囲で標準化されるように選択される。結果的に、上記の加重最小2乗は、サンプルが同質のときの遺伝子数に等しい。推定されたパラメータを使用してデータを補正する。
【0185】
残余についての分散仮定は課されていないことから、第3のステップは加重最小2乗を使用して(54)、モデル(式1)中の遺伝子に特異なパラメータ(aj,bj)を推定することである(78)。(aj^,bj^)により示される各遺伝子についての回帰推定を得るほかに、各遺伝子に対する対応する強力な標準誤差が推定公式理論を使用して計算される(42,64)。推定されたパラメータおよび標準誤差を使用してZスコアを計算することができ、これは対応する標準誤差に対する平均差の比に等しい。有意性を決定するときに複数比較問題を取り扱うために、ホックベルグにより提案された修正されたボンフェロニ補正を使用してZスコアをp値に変換し、これが研究結果の有意性を測定する。
【0186】
白血病研究。アフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイは4つのチップからなり、これらには6817個の個々の遺伝子に対して結合された総7070オリゴヌクレオチドプローブ(制御遺伝子を除く)が含まれている。MITの研究者は38人の白血病患者(27人のALLおよび11人のAML)から血液サンプルを集め、アフィイメトリックス6800遺伝子チップオリゴヌクレオチドアレイを使用して、遺伝子発現プロファイルを評価した(44)。この研究ではもっぱらトレーニングデータセットが調査された。その理由はこのデータセットがグラウブ氏らにより最も特徴付けられていたからである(44)。マイクロアレイ解析を実行するために使用される実験プロトコルおよび得られたデータ値は(http://waldo.wi.mit.edu/mpr/pubs.html)で公衆に利用可能である。
【0187】
脳腫瘍研究。アフィイメトリックス6800遺伝子チップを使用して髄芽細胞腫と診断された10人の小児患者からの組織サンプルのmRNA発現プロファイルを解析した。
【0188】
【表1】
【0189】
【表2】
【0190】
【表3】
【0191】
【表4】
【表5】
これは、発現値が正規分布にしたがうときには経験的確率となる。右列の図は、悪化同調と関連づけられた、推定標準偏差を示している。
【0192】
リファレンス
1. Breeden, L. L. (1997) Methods in Enzymology 283, 332−341.
2. Cho, R. J., Campbell, M. J., Winzeler, E A., Steinmetz, L., Conway, A., Wodicka, L., Wolfsberg, T. G., Gabrielian, A. E., Landsman, D. et al (1998a) Molecular Cell 2, 65−73.
3. Cho, R. J., Fromont−Racine, M., Wodicka, L., Feierbach, B., Steams, T., Legrain, P., Lockhart, D. J., & Davis, R. W. (1998b) Proc. Nat Acad. Sci. USA 95, 3752−3757.
4. DeRisi, J. L., Lyer, V. R., & Brown, P. O. (1997) Science 278, 680−686.
5. Fodor, S. P. A., Read, J. J., Pirrung. M. C., Stryer, L., Lu, A. T., & Solas, D. (1991) Science 251, 767−773.
6. Lander, E. S. (1999) Nature Genetics Supplement 21, 3−4.
7. Liang, K. Y. & Zeger, S. L. (1986) Biometrika 73, 13−22.
8. Prentice, R. L. & Zhao, L. P. (1991) Biometrics 47, 825−839.
9. Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995) Science 270, 467−470.
10. Schena, M., Shalon, D., Heller, R., Chai, A., Brown, P. O., & Davis, R. W. (1996) Proc. Natl. Acad. Sci. USA 93, 10614−10619.
11. Spellman, P. T., Sherlock, G., Zhang, M. Q., Vishwanath, R. I., Anders, K., Eisen, M. B., Brown, P. O., Botstein, D., & Futcher, B. (1998) Molecular biology of the cell 9, 3273−3279.
12. Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dimtrovaky, E., Lander, E. S., & Golub, T. R. (1999) Proc. Natl. Acad. Sci. USA 96, 2907−2913.
13. Tavazoie, S., Hughes, J. D., Cambell, M. J., Cho, R. J., & Church, G. M. (1999) Nature Genetics 22, 28 1−285.
14. Aguiar, R. C. et al. Characterization of a t(10;12)(q24;p13) in a case of CML in transformation. Genes Chromosomes Cancer 20, 408−11(1997).
15. Alizadeh, A. A. et al. Distinct types of diffuse large B−cell lymphoma identified by gene expression profiling. Nature 403, 503−11(2000).
16. Alon, U. et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci U S A 96, 6 745−50 (1999).
17. Ayala, J. et al. Developmental and regional expression of three new members of the ras−gene family in the mouse brain. J Neurosci Res 22 , 384−9 (1989).
18. Bajalica−Lagercrantz, S., Tingaard Pedersen, N., Sorensen, A. G., & Nordenskjold, M. Duplication of 2q31−qter as a sole aberration in a case of non− Hodgkin’s lymphoma. Cancer Genet Cytogenet 90, 102−5 (1996).
19. Ben−Dot, A., Shamir, R., & Yakhini, Z. Clustering gene expression patterns. J Comput Biol 6, 281−97 (1999).
20. Berget, R., Le Coniat, M., Derre, J., Vecchione, D., & Jonveaux, P. Cytogenetic studies in acute promyelocytic leukemia: a survey of secondary chromosomal abnormalities. Genes Chromosomes Cancer 3,332−7(1991).
21. Brent, R. Genomic biology. Cell 100, 169−83 (2000).
22. Brown, P. O. & Botstein, D. Exploring the new world of the genome with DNA microarrays. Nat Genet 21, 33−7 (1999).
23. Bundgaard, J. R., Sengelov, H., Borregaard, N., & Kjeldsen, L. Molecular cloning and expression of a cDNA encoding NGAL: a lipocalin expressed in human neutrophils. Biochem Biophys Res Commun 202, 1468−75 (1994).
24. Caen, J. P., Han, Z. C., Bellucci, S., & Alemany, M. Regulation of megakaryocytopoiesis. Haemostasis 29,27−40 (1999).
25. Campbell, L. et al. Direct interaction of Smn with dp103, a putative RNA helicase: a role for Smn in transcription regulation? Hum Mol Genet 9, 1093−100 (2000).
26. Carrano, A. C., Eytan, E., Hershko, A., & Pagano, M. SKP2 is required for ubiquitin−mediated degradation of the CDK inhibitor p27. Nat Cell Biol 1, 193−9 (1999).
27. Carroll, R. J. & Ruppert, D. Transformation and weighting in regression, Chapman and Hall, London (1988).
28. Chen, Y. Z. et al. Thrombospondin, a negative modulator of megakaryocytopoiesis. J Lab Crin Med 129,231−8 (1997).
29. Chu, S. et al. The transcriptional program of sporulation in budding yeast. Science 282, 699−705 (1998).
30. Coller, H. A. et al. Expression analysis with oligonucleotide microarrays reveals that MYC regulates genes involved in growth, cell cycle, signaling, and adhesion. Proc Nail Acad Sci U S A 97, 3260−5 (2000).
31. DeRisi, J. et al. Use of a cDNA microarray to analyse gene expression patterns in human cancer. Nat Genet 14,457−60 (1996).
32. DeRisi, J. L., Iyer, V. R., & Brown, P.O. Exploring the metabolic and genetic control of gene expression on a genomic scale. Science 278, 680−6(1997).
33. Eisen, M. B., Spellman, P. T., Brown, P. 0., & Botstein, D. Cluster analysis and display of genome−wide expression patterns. Proc Natl Acad Sci U S A 95, 14863−8 (1998).
34. El−Rifal, W., Elonen, E., Larramendy, M., Ruutu, T., & Knuutila, S. Chromosomal breakpoints and changes in DNA copy number in refractory acute myeloid leukemia. Leukemia 11 , 958−63 (1997).
35. Feng, X., Teitelbaum, S. L., Quiroz, M. E., Towler, D. A., & Ross, F. P. Cloning of the murine beta5 integrin subunit promoter. Identification of a novel sequence mediating granulocyte−macrophage colony−stimulating factor−dependent repression of beta5 integrin gene transcription. J Biol Chem 274, 1366−74 (1999).
36. Ferea, T. L., Botstein, D., Brown, P. O., & Rosenzweig, R. F. Systematic changes in gene expression patterns following adaptive evolution in yeast. Proc Natl Acad Sci U S A 96, 9721−6 (1999).
37. Fioretos, T. et al. Isocbromosome 17q in blast crisis of chronic myeloid leukemia and in other hematologic malignancies is the result of clustered breakpoints in 17p11 and is not associated with coding TP53 mutations. Blood 94, 225−32 (1999).
38. Fodor, S. P. et at Light−directed, spatially addressable parallel chemical synthesis. Science 251, 767−73 (1991).
39. Fontenay−Roupie, M. et al. Tbrombopoietin activates human platelets and induces tyrosine phosphorylation of p80/85 cortactin. Thromb Haemost 79, 195−201 (1998).
40. Fracchiolla, N. S., Colombo, G., Finelli, P., Maiolo, A. T., & Nert, A. EHT, a new member of the MTG8/ETO gene family, maps on 20q11 region and is deleted in acute myeloid leukemias. Blood 92, 3481−4 (1998).
41. Gaasterland, T. & Bekiranov, S. Making the most of niicroarray data. Nat Genet 24,204−6(2000).
42. Godambe, V. P. An optimum property of regular maximum likelihood estimation. Annals of Mathematical Statistics 31, 1208−12 (1960).
43. Gogineni, S. K. et al. Variant complex translocations involving chromosomes 1, 9, 9, 15 and 17 in acute promyelocytic leukemia without RAR alpha/PML gene fusion rearrangement. Leukemia 11, 514−8 (1997).
44. Golub, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286, 531−7 (1999).
45. Gotoh, A., Ritchie, A., Takabira, H., & Broxmeyer, H. E. Thrombopoietin and erytbropoietin activate inside−out signaling of integrin and enhance adhesion to immobilized fibronectin in human growth−factor−dependent hematopoietic cells. Ann Hematol 75, 207−13 (1997).
46. Graf G., Dehmel, U., & Drexler, H. G.Expression of thrombopoietin and tbrombopoietin receptor MPL in human leukemia−lymphoma and solid tumor cell lines. Leuk Res 20, 831−8 (1996).
47. Grimwade, D. et al. Characterization of cryptic rearrangements and variant translocations in acute promyelocytic leukemia. Blood 90, 4876−85 (1997).
48. Haase, D. et al. Evidence for malignant transformation in acute myeloid leukemia at the level of early hematopoietic stem cells by cytogenetic analysis of CD34+ subpopulations. Blood 86, 2906−12 (1995).
49. Hamann, J., Montgomery, K. T., Lau, S., Kucherlapati, R., & van Lier, R. A. AICL: a new activation−induced antigen encoded by the human NK gene complex. Iinmunogenetics 45 , 295−300 (1997).
50. Haselbeck, R. J. & Duester, G. ADH4−lacZ transgenic mouse reveals alcohol dehydrogenase localization in embryonic midbrainlhindbrain, otic vesicles, and mesencephalic, trigeminal, facial, and olfactory neural crest. Alcohol Chin Exp Res 22, 1607−13 (1998).
51. Hirose, Y. & Takiguchi, T. Microtubule changes in hematologic malignant cells treated with paclitaxel and comparison with vincristine cytotoxicity. Blood Cells Mol Dis 21, 119−30 (1995).
52. Hochberg, Y. A sharper Bonferroni procedure for multiple test of significance. Biometrika 75, 800−802 (1988).
53. Hsu, J. C. Multiple comparisons: theory and methods, Chapman & Hall, London (1996).
54. Huber, P. J. The behavior of maximum likelihood estimates under nonstandard condition. in Proceedings of the Fifth Berkeley Symposium in Mathematical Statistics and Probability 221−233 UC Press, Berkeley, (67).
55. Janke, J. et al. Suppression of tumorigenicity in breast cancer cells by the microfilament protein profilin 1. J Exp Med 191, 1675−86 (2000).
56. Kagan, J. et al. Clustering of breakpoints on chromosome 10 in acute T−cell leukemias with the t(10;14) chromosome translocation. Proc Natl Acad Sci U S A 86, 4161−5 (1989).
57. Kate, T. et al. Thrombin cleaves recombinant human thrombopoietin: one of the proteolytic events that generates truncated forms of thrombopoietin. Proc Natl Acad Sci U S A 94, 4669−74 (1997).
58. Kaushansky, K. Thrombopoietin and hematopoietic stem cell development. Ann N Y Acad Sci 872, 314−9 (1999).
59. Kharbanda, S. et al. Stimulation of human monocytes with macrophage colony−simulating factor induces a Grb2−mediated association of the focal adhesion kinase pp125 FAK and dynamin. Proc Natl Acad Sci U S A 92, 6132−6 (1995).
60. Lasbkari, D. A. et al. Yeast microarrays for genome wide parallel genetic and gene expression analysis. Proc Natl Acad Sci U S A 94, 13057−62 (1997).
61. Lawrence, H. J. et al. Frequent co−expression of the HOXA9 and MEISl homeobox genes in human myeloid leukemias. Leukemia 13, 1993−9 (1999).
62. Lc Cabec, V., Calafat, J., & Borregaard, N. Sorting of the specific granule protein, NGAL, during granulocytic maturation of HL−60 cells. Blood 89, 2113−21 (1997).
63. Li, M., Makkinje, A., & Damuni, Z. The myeloid leukemia−associated protein SET is a potent inhibitor of protein phosphatase 2A. J Biol Chem 271, 11059−62 (1996).
64. Liang, K. Y. & Zeger, S. L. Longitudinal data analysis using generalized linear models. Biometrika 73, 13−22 (1986).
65. Luo, S. S., Ogata, K., Yokose, N., Kato, T., & Dan, K. Effect of thrombopoietin on proliferation of blasts from patients with myelodysplastic syndromes. Stem Cells 18, 112−9 (2000).
66. Mancini, M. et al. Use of dual−color interphase FISH for the detection of inv(16) in acute myeloid leukemia at diagnosis, relapse and during follow−up: a study of 23 patients. Leukemia 14, 364−8 (2000).
67. Marlton, P. et al. Molecular characterization of l6p deletions associated with inversion 16 defines the critical fusion for leukemogenesis. Blood 85, 772−9 (1995).
68. McDonald, J. D. et al. Physical mapping of chromosome 17p13.3 in the region of a putative tumor suppressor gene important in medulloblastoma. Genomics 23, 229−32 (1994).69. Melnick, A. et al. Identification of novel chromosomal rearrangements in acute myelogenous leukemia involving loci on chromosome 2p23, 15q22 and 17q2l. Leukemia 13, 1534−8 (1999).
70. Motoji, T. et al. Growth stimulatory effect of thrombopoietin on the blast cells of acute myelogenous leukemia. Br J Haematol 94, 513−6 (1996).
71. Nilsson, J., Soderberg, O., Nilsson, K., & Rosen, A. Thioredoxin prolongs survival of B−type chronic lymphocytic leukemia cells. Blood 95, 1420−6 (2000).
72. Ning, Z. Q., Norton, J. D., Li, J., & Murphy, J. J. Distinct mechanisms for rescue from apoptosis in Ramos human B cells by signaling through CD4O and interleukin−4 receptor: role for inhibition of an early response gene, Bergs6. Eur J Iminunol 26, 23 56−63 (1996).
73. Nowell, P. C. et al. The most common chromosome change in 86 chronic B cell or T cell tumors: a l4q32 translocation. Cancer Genet Cytogenet 19, 219−27 (1986).
74. Olson, J. M. et al. NEUROD3/neurogenin−1−positive medulloblastomas share a distinct cohort of preferentially expressed genes: implications for therapeutic stratagies (personal communication).
75. Ostrowski, J., Florie, S. K., Denis, G. V., Suzuki, H., & Bomsztyk, K. Stimulation of p85/RlNG3 kinase in multiple organs after systemic administration of rnitogens into mice. Oncogene 16, 1223−7 (1998).
76. Pervaiz, S., Seyed, M. A., Hirpara, J. L., Clement, M. V., & Lon, K. W. Purified photoproducts of merocyanine 540 trigger cytochrome C release and caspase 8−dependent apoptosis in human leukemia and melanoma cells. Blood 93, 4096−108 (1999).
77. Pinto do, O. P. Kolterud, A., & Carlsson, L. Expression of the LIM−homeobox gene LH2 generates immortalized steel factor−dependent multipotent hematopoietic precursors. EMBO J 17, 5744−56 (1998).
78. Prentice, R. L. & Zhao, L. P. Estimating equations for parameters in means and covariances of multivariate discrete continuous responses. Biometrics 47, 825−839 (1991).
79. Ragione, F. D. & Iolascon, A. Inactivation of cyclin−dependent kinase inhibitor genes and development of human acute leukemias. Leuk Lymphoma 25, 23−35 (1997).
80. Raschella, G. et al. Expression of B−myb in neuroblastoma tumors is a poor prognostic factor independent from MYCN amplification. Cancer Res 59, 3365−8 (1999).
81. Raynaud, S. D. et al. Recurrent cytogenetic abnormalities observed in complete remission of acute myeloid leukemia do not necessarily mark preleukemic cells. Leukemia 8, 245−9 (1994).
82. Rebli, M., Krause, S. W., Kreutz, M., & Andreesen, R. Carboxypeptidase M is identical to the MAX. 1 antigen and its expression is associated with monocyte to macrophage differentiation. J Bio1 Chem 270, 15644−9 (1995).
83. Reynolds, A. J., Heydon, K., Bartlett, S. E., & Hendry, I. A. Evidence for phosphatidylinositol 4−kinase and actin involvement .in the regulation of 125I−beta−nerve growth factor retrograde axonal transport. J Neurochem 73, 87−95 (1999).
84. Rostomily, R. C. et al. Expression of neurogenic basic helix−loop−helix genes in primitive neuroectodermal tumors. Cancer Res 57, 3526−31 (1997).
85. Rawley, J. D. Molecular genetics in acute leukemia. Leukemia 14, 513−7 (2000).
86. Salvati, P. D., Watt, P. M., Thomas, W. R., & Kees, U. R. Molecular characterization of a complex chromosomal translocation breakpoint t(10;14) including the HOXI 1 oncogene locus. Leukemia 13, 975−9 (1999).
87. Schroeder, T. & Just, U.〜 Notch signaling via RBP−J promotes myeloid differentiation. EMBO J 19, 2558−68 (2000).
88. Selypes, A. & Laszlo, A. A new translocation t(1;4;11) in congenital acute nonlymphocytic leukemia (acute myeloblastic leukemia). Hum Genet 76, 106−8 (1987).
89. Shimizu, S. et al. Identification of breakpoint cluster regions at 1p36.3 and 3q2l in hematologic malignancies with t(1;3)(p36;q21). Genes Chromosomes Cancer 27, 229−38 (2000).
90. Shipley, J., Weber−Hall, S., & Birdsall, S. Loss of the chromosomal region 5q11−q31 in the myeloid cell line HL−60: characterization by comparative genomic hybridization and fluorescence in situ hybridization. Genes Chromosomes Cancer 15, 182−6 (1996).
91. Soderberg, A., Sahaf B., & Rosen, A. Thioredoxin reductase, a redox−active selenoprotein, is secreted by normal and neoplastic cells: presence in human plasma. Cancer Res 60, 2281−9 (2000).
92. Spellman, P. T. et al. Comprehensive identification of cell cycle−regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell 9, 3273−97 (1998).
93. Stanley, W. S. et al. Constitutional inversion of chromosome 7 and hematologic cancers. Cancer Genet Cytogenet 96, 46−9 (1997).
94. Stern, M. H. [Oncogenesis of T−cell prolymphocytic leukemia (editorial)]. Pathol Bio1 (Paris) 44, 689−93 (1996).
95. Streit, M. et al. Thrombospondin−2: a potent endogenous inhibitor of tumor growth and angiogenesis. Proc Natl Acad Sci U S A 96, 14888−93 (1999).
96. Suske, G. The Sp−family of transcription factors. Gene 238, 291−300 (1999).
97. Tamayo, P. et al. Interpreting patterns of gene expression with self−organizing maps: methods and application to hematopoletic differentiation. Proc Natl Acad Sci U S A 96, 2907−12 (1999).
98. Tavazoie, S., Hughes, J. D., Campbell, M. J., Cho, R. J., & Church, G. M. Systematic determination of genetic network architecture. Nat Genet 22, 281−5 (1999).
99. Testoni, N. et al. 3q2l and 3q26 cytogenetic abnormalities in acute myeloblastic leukemia: biological and clinical features. Haematologica 84, 690−4 (1999).
100. Tokai, N. et al. Kid, a novel kinesin−like DNA binding protein, is localized to chromosomes and the mitotic spindle. EMBO J 15, 457−67 (1996).
101. Touhami, M., Fauvel−Lafeve, F., Da Silva, N., Chomienne, C., & Legrand, C. Induction of thrombospondin−1 by all−trans retinoic acid modulates growth and differentiation of HL−60 myeloid leukemia cells. Leukemia 11, 2137−42 (1997).
102. Tsuboi, A. et al. Constitutive expression of the Wilms’ tumor gene WT1 inhibits the differentiation of myeloid progenitor cells but promotes their proliferation in response to granulocyte−colony stimulating factor (G−CSF). Leulc Res 23, 499−505 (1999).103. Van den Berghe, H. & Michaux, L. 5q−, twenty−five years later: a synopsis. Cancer Genet Cytogenet 94, 1−7 (1997).
104. van Willigen, G., Gorter, G., & Akkerman, J. W. Thrombopoietin increases platelet sensitivity to alpha−thrombin via activation of the ERK2−cPLA2 pathway. Thromb Haemost 83 , 610−6 (2000).
105. Verfaillie, C. M., McCarthy, J. B., & McGlave, P. B. Mechanisms underlying abnormal trafficking of malignant progenitors in chronic myelogenous leukemia. Decreased adhesion to stroma and fibronectin but increased adhesion to the basement membrane components laminin and collagen type IV. J Crin Invest 90, 1232−41 (1992).
106. von Lindern, M. et al. Can, a putative oncogene associated with myeloid leukemogenesis, may be activated by fusion of its 3’ half to different genes: characterization of the set gene. Mol Cell Biol 12, 3346−55 (1992).
107. Wang, Z. & Roeder, R. G. Three human RNA polymerase III−specific subunits form a subcomplex with a selective function in specific transcription initiation. Genes Dev 11, 1315−26 (1997).
108. Wang, Z., Zhang, Y., Lu, J., Sun, S., & Ravid, K. Mp1 ligand enhances the transcription of the cyclin D3 gene: a potential role for Sp1 transcription factor. Blood 93, 4208−21(1999).
109. Weis, J., DeVito, V., Allen, L., Linder, D., & Magenis, E. Translocation X;10 in a case of congenital acute monocytic leukemia. Cancer Gent Cytogenet 16, 357−64 (1985).110. Whang−Peng, J., Lee, E. C., Kao−Shan, C. S., & Schechter, G. Ring chromosome in a case of acute myelomonocytic leukemia: its significance and a review of the literature. Hematol Pathol 1, 57−65 (1987).
111. Wodicka, L., Dong, H., Mittmann, M., Ho, M. H., & Lockhart, D. J. Genome−wide expression monitoring in Saccharomyces cerevisiae. Nat Biotechnol 15, 1359−67 (1997).
112. Zhao, Q., Eberspaecher, H., Lefebvre, V., & De Crombrugghe, B. Parallel expression of Sox9 and Col2a1 in cells undergoing chondrogenesis. Dev Dyn 209, 377−86 (1997).
113. Heyer et al., Genome Research 9, 1106−1115(1999).
114. Helter et al., Proc. Nail. Acad. Sci. USA 97, 8409−8414 (2000).
115. Alter et al., Proc. Nail. Acad. Sci. USA 97, 10101−10106 (2000).
本発明の好ましい実施形態が図示され、説明されたが、本発明の精神と範囲から逸脱することなく、さまざまな変化がなされてもよいことが認められるであろう。
【図面の簡単な説明】
【図1】
図1は、本発明の代表的な方法である単一パルスモデル(SPM)の基本仮定であり、細胞周期で調製された転写物が、ある一定時間で転写され、細胞周期中の次の時間に消失する。A.例えば、発現の基底レベル(α=0)から誘導レベル(α+β=1)の長さ(Θ=80’)の2つの連続した細胞周期中に、(ζ=10’)で活性化し、(ζ=55’)で不活性化する単一転写物。B.典型的な同調化実験において、複数の転写物が細胞毎に作られ、RNAはいくつかの細胞から採取される。これらの細胞は完全には同調しておらず、同調は時間とともに悪化する。これにより、単純パルス(破線)が、時間とともに減衰する(実線)なめらかなピーク(点線)に弱まる。示されている例において、細胞の年齢は標準偏差3分から19分へ変化する。C.得られた発現値(ポイント)は、モデル化されていたものを超える付加的な変動性と同様に、加算的および乗算的異質性両方の対象となり、これらの差は残差として知られる。これらの残差の標準偏差が推定され、Zスコアによって、この標準偏差に関連するパルス高の有意性が評価された。
【図2】
図2は、アルファ因子(表A)、cdc15(表B)、およびcdc28(比率データに関する表C、絶対強度に関する表D)のデータセットによる同調からのデータセットに対して推定されたパラメータの図である。左列は各時間点について推定された加算的異質性を反映しており、中列は各同調について推定された細胞周期間隔を、確率スケール上のプロファイルされた加重最小2乗として示している。視覚的に検査しやすいように、この2乗の和は以下の式を用いて確率スケールに変換された。
【数43】 【図3】
図3は、5つの周期的に転写された遺伝子について3つの異なる同調細胞周期からのマイクロアレイデータ(実線)への単一パルスモデル(点線)の適合を示す。データ対時間の対数比は、アルファ因子(右段)、cdc15(中段)、およびcdc28(左段)の同調について作図されている。各作図の下に、各転写物についての活性化および不活性化時間がかっこ内に示され、これに続いて、SPMのもとで演算され、SPMからのパルス高および偏差の有意性をそれぞれ示すZスコアおよびΧ2統計量が記されている。
【図4】
図4では、周期的な転写を示し、G1フェーズにおけるピークが、QT_クラストアルゴリズムを用いて同定され、クラスタ直径のしきい値が<0.3(上位41個の遺伝子)から、<0.5(83個の遺伝子)、<1.2(272個の遺伝子)へ変化していた。これらの連続的により大きいG1クラスタのメンバに関する転写物プロファイルがSPMによって解析され、それらのZスコアおよびΧ2値が作図されている(左)。SPMのZスコアおよびΧ2しきい値がこれらの作図に重ねられており、これらのプロファイルの比率が周期的だとして分類されることを示している(各プロットの右下の象限)。右列の図で、各グループについての平均活性化・不活性化時間の分布が作図されている。これらのパラメータの推定値は、SPMしきい値を超えるこれらのプロファイルについてのみ、SPMにより演算された。
【図5】
図5は、Zスコアの絶対値>5およびχ2<11.3のしきい値を持つSPMによって同定された周期的な転写物を示し、3つのデータセット間の一致の範囲が示されている。3つのデータセットのそれぞれに関する対数比データがSPMによって解析された。各データセットにおいて同定された周期遺伝子の総数が示され、円で表されている。データセット間の一致は、円の交わりによって示されている。全1088個の遺伝子は、少なくとも1つのデータベースにおいてSPMしきい値に一致する。71個の遺伝子は、3つのデータセットすべてにおいて周期性に対するSPMのしきい値に一致する。254個の遺伝子は少なくとも2つのデータベースにおいて周期的であるとして記録されている。834個の遺伝子は1つのデータセットのみで周期性を表している。R2>0.6のような付加的な基準が採用され、モデルが60%以上の発現データ変動に関する説明を提供するこれら834個の遺伝子間のプロファイルを同定する場合、473個のプロファイルが同定される。
【図6】
図6は、代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図7】
図7は、単一細胞内での複数の転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図8】
図8は、複数の細胞の可変同調を示す細胞についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図9】
図9は、悪化同調を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図10】
図10は、細胞周期のタイミングの機能としての同調変動性の図である。
【図11】
図11は、サンプル間の異質性を示す転写物についての代表的な同調化実験の図であり、転写物発現レベルが細胞周期のタイミングに対して作図されている。
【図12】
図12は、遺伝子発現についての代表的な線形SPMの図であり、転写物発現レベル(β)が細胞周期のタイミングについて作図されている。
【図13】
図13は、遺伝子発現についての代表的な二次SPMの図であり、転写物発現レベル(β)が細胞周期のタイミングについて作図されている。
【図14】
図14は、正常組織と異常組織とを本発明の方法によって比較した代表的な結果の図である。
Claims (53)
- それぞれが複数のメンバを含む2つ以上のデータアレイからのデータを解析する方法であって、各メンバはシグナルを提供し、データは1つ以上の共変数と関連づけられており、この方法は、
モデルをデータアレイと共変数に適合させ、
この適合の統計学的有意性を評価することによって適合度を決定し、
シグナルの統計学的有意性を決定することを含む解析方法。 - モデルをデータに適合させるより前に、メンバ間の異質性についてデータを補正することをさらに含む請求項1記載の解析方法。
- メンバ間の異質性についてデータを補正することは、データを正規化することを含む請求項2記載の解析方法。
- モデルを適合させることは、共変数パラメータ値を含む請求項1記載の解析方法。
- モデルをデータアレイに適合させることは、既知のモデルを適合させることを含む請求項1記載の解析方法。
- 既知のモデルは、線形回帰モデル、指数モデル、パラメトリックモデル、ノンパラメトリックモデル、セミパラメトリックモデルのうちの少なくとも1つである請求項5記載の解析方法。
- モデルをデータアレイに適合させることは、派生モデルを適合させることを含む請求項1記載の解析方法。
- 派生モデルは、単一パルスモデルを含む請求項7記載の解析方法。
- 1つ以上の共変数は、時間経過調査における時間、病状、温度、細胞型、刺激への暴露、用量応答調査における用量、臨床結果、および細胞周期のタイミングのうちの少なくとも1つである請求項1記載の方法。
- 1つ以上の共変数は、年齢、性別、体重、身長、人種、民族、ダイエット、および生活様式のうちの少なくとも1つである請求項1記載の解析方法。
- 1つ以上の共変数は、患者に対する診断、病歴、投薬歴、病理学上の分類、およびバイオマーカー情報のうち少なくとも1つである請求項10記載の解析方法。
- 1つ以上の共変数は、薬に応答した細胞株の特性である請求項1記載の解析方法。
- 薬に応答した細胞株の特性は、ED50である請求項12記載の解析方法。
- 共変数値は加重最小2乗法によって推定される請求項4記載の解析方法。
- シグナルの統計学的有意性は、シグナルシグナル対雑音比を評価することによって決定される請求項1記載の解析方法。
- データアレイは、同調化実験から導出されるデータを含む請求項1記載の解析方法。
- 方法は細胞周期における単一の転写物の発現を解析することを含む請求項16記載の解析方法。
- 方法は細胞周期における複数の転写物の発現を解析することを含む請求項16記載の解析方法。
- 方法は複数の細胞型における1つ以上の転写物の発現を解析することを含む請求項16記載の解析方法。
- 方法は可変同調化実験を示す複数の細胞型の発現を解析することを含む請求項19記載の解析方法。
- 方法は悪化同調を示す複数の細胞型の発現を解析することを含む請求項16記載の解析方法。
- データアレイは時間経過調査によって導出されるデータを含む請求項1記載の解析方法。
- モデルは線形モデルである請求項1記載の解析方法。
- モデルは二次モデルである請求項1記載の解析方法。
- データアレイは、正常および異常組織から導出されるデータを含む請求項1記載の解析方法。
- シグナルは薬の服用量に応答する請求項1記載の解析方法。
- シグナルは共変数の変化に応答する請求項1記載の解析方法。
- シグナルは1つより多い共変数の変化に応答する請求項1記載の解析方法。
- 2つ以上のデータアレイからデータを獲得し、各アレイが複数のメンバを含み、各メンバはシグナルを提供し、シグナルは被検査変数に応答し、
メンバ間の異質性を推定し、
所定のパターンとは異なるメンバを同定し、
所定のパターンとは異なるメンバに関するデータを補正し、
モデルをデータアレイに適用し、モデルはデータで推定可能な1つ以上のパラメータによってインデックス付けされ、
パラメータ値を推定することによりモデルをデータに適合させ、適合度は、この適合の統計学的有意性を評価することによって決定し、
シグナルの統計学的有意性を決定することを含むデータ解析方法。 - 適合の統計学的有意性を評価することは、モデルによって説明される観察された変動の範囲を決定することを含む請求項29記載の解析方法。
- シグナルの統計学的有意性を決定することは、シグナルシグナル対雑音比の有意性を決定することを含む請求項29記載の解析方法。
- 異質性を推定することは、メンバの応答が被検査変数に対して不変であると仮定することを含む請求項29記載の解析方法。
- メンバ間の異質性を推定することは加算的および乗算的異質性因子を推定することを含む請求項29記載の解析方法。
- 異質性因子は統計的方法によって推定される請求項33記載の解析方法。
- 統計的方法は加重最小2乗法を含む請求項34記載の解析方法。
- 異質性因子は、所定のパターンとは異なるメンバに関するデータを補正して補正値を提供するために用いられる請求項33記載の解析方法。
- 各データアレイがサンプルのアレイから導出された、2つ以上のデータアレイを解析する方法であって、
(a)2つ以上のデータアレイからデータを獲得し、各データアレイがサンプルのアレイから導出され、各サンプルがシグナルを提供し、シグナルは被検査変数に応答し、
(b)サンプル固有の異質性に関する補正因子を推定し、
(c)アレイ固有の異質性に関する補正因子を推定し、
(d)データで推定可能な1つ以上のパラメータによってインデックス付けされたモデルを適用し、各パラメータは値を有し、
(e)モデルに適合するパラメータ値を決定し、
(f)適合の統計学的有意性を評価することによってモデルに対するパラメータ値の適合度を決定し、
(g)シグナルの統計学的有意性を決定することを含む解析方法。 - 適合度は、Zスコア、p値、およびR2からなるグループから選択された統計基準によって決定される請求項37記載の解析方法。
- 補正因子は乗算的因子である請求項37記載の解析方法。
- 補正因子は加算的因子である請求項37記載の解析方法。
- 2つ以上のデータセット間のメンバ固有パラメータ値の変化を解析する方法であって、各データセットはメンバのアレイから導出され、各データセットは1つ以上の変数と関係しており、この方法は、
(a)データセット全体の異質性を推定し、
(b)データセットに関係するパラメータを有する統計モデルを適用し、
(c)このモデルに適合するメンバ固有パラメータ値を推定し、
(d)適合の統計学的有意性を評価することによってモデルに対するメンバ固有パラメータ値の適合度を決定し、
(e)シグナルの統計学的有意性を決定することを含む解析方法。 - 1つ以上の変数は、時間、病状、温度、細胞型、薬への暴露、臨床結果、および細胞周期のタイミングからなるグループから選択される請求項41記載の解析方法。
- 各メンバは単一遺伝子からの転写物を有し、メンバ固有パラメータ値は転写物の発現のレベルを有する請求項41記載の解析方法。
- 異質性を推定することは、メンバ固有パラメータ値がデータセット間で変化しないと仮定することを含む請求項41記載の解析方法。
- データセットが安定パターンと異なる場合に、データセットのすべてのメンバに関するデータを補正することをさらに含む請求項41記載の解析方法。
- 異質性を推定することは異質性因子を決定することを含む請求項41記載の解析方法。
- 異質性因子は加算的因子である請求項46記載の解析方法。
- 異質性因子は乗算的因子である請求項46記載の解析方法。
- メンバ固有パラメータ値を推定することは回帰解析を含む請求項41記載の解析方法。
- 異質性を推定することおよびメンバ固有パラメータを推定することは、残差の2乗の和を最小にすることを含む請求項41記載の解析方法。
- 請求項1、29、37または41いずれか1項に記載の解析方法を実行するためのコンピュータ実行可能命令を有するコンピュータ読み取り可能媒体。
- プロセッサ、メモリ、および動作環境を有し、請求項1、29、37または41いずれか1項に記載の解析方法を実行するよう動作可能なコンピュータシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22986600P | 2000-09-01 | 2000-09-01 | |
US28224501P | 2001-04-06 | 2001-04-06 | |
PCT/US2001/027273 WO2002019602A2 (en) | 2000-09-01 | 2001-08-30 | Statistical modeling to analyze large data arrays |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004521407A true JP2004521407A (ja) | 2004-07-15 |
Family
ID=26923683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002523776A Pending JP2004521407A (ja) | 2000-09-01 | 2001-08-30 | 大きなデータアレイを解析するための統計学的モデリング |
Country Status (5)
Country | Link |
---|---|
US (1) | US20030219797A1 (ja) |
JP (1) | JP2004521407A (ja) |
AU (1) | AU2001287010A1 (ja) |
CA (1) | CA2421221A1 (ja) |
WO (1) | WO2002019602A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039862A (ja) * | 2004-07-26 | 2006-02-09 | Mitsubishi Electric Corp | データ類別装置 |
JP2007312653A (ja) * | 2006-05-24 | 2007-12-06 | Nec Soft Ltd | 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置 |
JP2017097884A (ja) * | 2013-06-28 | 2017-06-01 | ナントミクス,エルエルシー | 診断テストを特定するための経路分析 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005518008A (ja) * | 2002-02-11 | 2005-06-16 | シンジェンタ・パティシペーションズ・アクチェンゲゼルシャフト | 遺伝子発現データを用いた遺伝子機能推定 |
US7242989B2 (en) | 2003-05-30 | 2007-07-10 | Fisher-Rosemount Systems, Inc. | Apparatus and method for batch property estimation |
US20050010541A1 (en) * | 2003-07-07 | 2005-01-13 | Rietman Edward A. | Method and system for computing categories and prediction of categories utilizing time-series classification data |
JP2006347701A (ja) * | 2005-06-16 | 2006-12-28 | Komori Corp | シート状物押え装置 |
US20070226099A1 (en) * | 2005-12-13 | 2007-09-27 | General Electric Company | System and method for predicting the financial health of a business entity |
US20070136115A1 (en) * | 2005-12-13 | 2007-06-14 | Deniz Senturk Doganaksoy | Statistical pattern recognition and analysis |
US8364417B2 (en) * | 2007-02-15 | 2013-01-29 | 454 Life Sciences Corporation | System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm |
CN101390101B (zh) * | 2006-02-16 | 2012-05-23 | 454生命科学公司 | 用于校正核酸序列数据中的引物延伸误差的系统和方法 |
US9330127B2 (en) * | 2007-01-04 | 2016-05-03 | Health Care Productivity, Inc. | Methods and systems for automatic selection of classification and regression trees |
US7412356B1 (en) * | 2007-01-30 | 2008-08-12 | Lawrence Livermore National Security, Llc | Detection and quantification system for monitoring instruments |
FI20085302A0 (fi) * | 2008-04-10 | 2008-04-10 | Valtion Teknillinen | Rinnakkaisilta mittalaitteilta tulevan biologisten signaalien mittausten korjaaminen |
US8090558B1 (en) * | 2008-06-09 | 2012-01-03 | Kla-Tencor Corporation | Optical parametric model optimization |
AU2011226792A1 (en) | 2010-06-11 | 2012-01-12 | Life Technologies Corporation | Alternative nucleotide flows in sequencing-by-synthesis methods |
EP2585957A4 (en) * | 2010-06-24 | 2014-12-24 | Valtion Teknillinen | STATE DEDUCTION IN A HETEROGENEOUS SYSTEM |
WO2012058459A2 (en) | 2010-10-27 | 2012-05-03 | Life Technologies Corporation | Predictive model for use in sequencing-by-synthesis |
US10273540B2 (en) | 2010-10-27 | 2019-04-30 | Life Technologies Corporation | Methods and apparatuses for estimating parameters in a predictive model for use in sequencing-by-synthesis |
WO2012118555A1 (en) | 2010-12-29 | 2012-09-07 | Life Technologies Corporation | Time-warped background signal for sequencing-by-synthesis operations |
EP2658999B1 (en) | 2010-12-30 | 2019-03-13 | Life Technologies Corporation | Models for analyzing data from sequencing-by-synthesis operations |
US10241075B2 (en) | 2010-12-30 | 2019-03-26 | Life Technologies Corporation | Methods, systems, and computer readable media for nucleic acid sequencing |
US20130060482A1 (en) | 2010-12-30 | 2013-03-07 | Life Technologies Corporation | Methods, systems, and computer readable media for making base calls in nucleic acid sequencing |
EP3366782B1 (en) | 2011-04-08 | 2021-03-10 | Life Technologies Corporation | Phase-protecting reagent flow orderings for use in sequencing-by-synthesis |
US10704164B2 (en) | 2011-08-31 | 2020-07-07 | Life Technologies Corporation | Methods, systems, computer readable media, and kits for sample identification |
US9646132B2 (en) | 2012-05-11 | 2017-05-09 | Life Technologies Corporation | Models for analyzing data from sequencing-by-synthesis operations |
US10329608B2 (en) | 2012-10-10 | 2019-06-25 | Life Technologies Corporation | Methods, systems, and computer readable media for repeat sequencing |
US20140296080A1 (en) | 2013-03-14 | 2014-10-02 | Life Technologies Corporation | Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood |
WO2015051338A1 (en) | 2013-10-04 | 2015-04-09 | Life Technologies Corporation | Methods and systems for modeling phasing effects in sequencing using termination chemistry |
WO2016060974A1 (en) | 2014-10-13 | 2016-04-21 | Life Technologies Corporation | Methods, systems, and computer-readable media for accelerated base calling |
EP4220645A3 (en) | 2015-05-14 | 2023-11-08 | Life Technologies Corporation | Barcode sequences, and related systems and methods |
US10619205B2 (en) | 2016-05-06 | 2020-04-14 | Life Technologies Corporation | Combinatorial barcode sequences, and related systems and methods |
US11419558B2 (en) | 2017-05-24 | 2022-08-23 | Covidien Lp | Determining a limit of autoregulation |
US10660530B2 (en) | 2018-04-25 | 2020-05-26 | Covidien Lp | Determining changes to autoregulation |
US10674964B2 (en) | 2018-04-25 | 2020-06-09 | Covidien Lp | Determining changes to autoregulation |
US10610164B2 (en) | 2018-04-25 | 2020-04-07 | Covidien Lp | Determining changes to autoregulation |
US11026586B2 (en) | 2018-04-25 | 2021-06-08 | Covidien Lp | Determining changes to autoregulation |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5639619A (en) * | 1994-10-13 | 1997-06-17 | Regents Of The University Of California | Screening assay for anti-HIV drugs using the Vpr gene |
US5909278A (en) * | 1996-07-29 | 1999-06-01 | The Regents Of The University Of California | Time-resolved fluorescence decay measurements for flowing particles |
-
2001
- 2001-08-30 WO PCT/US2001/027273 patent/WO2002019602A2/en not_active Application Discontinuation
- 2001-08-30 CA CA002421221A patent/CA2421221A1/en not_active Abandoned
- 2001-08-30 AU AU2001287010A patent/AU2001287010A1/en not_active Abandoned
- 2001-08-30 JP JP2002523776A patent/JP2004521407A/ja active Pending
-
2003
- 2003-02-26 US US10/379,112 patent/US20030219797A1/en not_active Abandoned
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039862A (ja) * | 2004-07-26 | 2006-02-09 | Mitsubishi Electric Corp | データ類別装置 |
JP4536445B2 (ja) * | 2004-07-26 | 2010-09-01 | 三菱電機株式会社 | データ類別装置 |
JP2007312653A (ja) * | 2006-05-24 | 2007-12-06 | Nec Soft Ltd | 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置 |
JP4555256B2 (ja) * | 2006-05-24 | 2010-09-29 | Necソフト株式会社 | 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置 |
JP2017097884A (ja) * | 2013-06-28 | 2017-06-01 | ナントミクス,エルエルシー | 診断テストを特定するための経路分析 |
JP2019023871A (ja) * | 2013-06-28 | 2019-02-14 | ナントミクス,エルエルシー | 診断テストを特定するための経路分析 |
US11011273B2 (en) | 2013-06-28 | 2021-05-18 | Nantomics, Llc | Pathway analysis for identification of diagnostic tests |
Also Published As
Publication number | Publication date |
---|---|
AU2001287010A1 (en) | 2002-03-13 |
US20030219797A1 (en) | 2003-11-27 |
CA2421221A1 (en) | 2002-03-07 |
WO2002019602A3 (en) | 2004-11-25 |
WO2002019602A2 (en) | 2002-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004521407A (ja) | 大きなデータアレイを解析するための統計学的モデリング | |
Causton et al. | Microarray gene expression data analysis: a beginner's guide | |
Wu | Analysing gene expression data from DNA microarrays to identify candidate genes | |
Zweiger | Knowledge discovery in gene-expression-microarray data: mining the information output of the genome | |
McLoughlin | Microarrays for pathogen detection and analysis | |
US20200347444A1 (en) | Gene-expression profiling with reduced numbers of transcript measurements | |
US6516276B1 (en) | Method and apparatus for analysis of data from biomolecular arrays | |
US20090319244A1 (en) | Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications | |
Ringnér et al. | Analyzing array data using supervised methods | |
US20050282227A1 (en) | Treatment discovery based on CGH analysis | |
Greenberg | DNA microarray gene expression analysis technology and its application to neurological disorders | |
EP2556185B1 (en) | Gene-expression profiling with reduced numbers of transcript measurements | |
WO2005017807A2 (en) | Apparatus and method for classifying multi-dimensional biological data | |
Kuo et al. | A primer on gene expression and microarrays for machine learning researchers | |
Page et al. | Microarray analysis | |
Shioda | Application of DNA microarray to toxicological research | |
US20060265135A1 (en) | Bio-information analyzer, bio-information analysis method and bio-information analysis program | |
Slonim | Transcriptional profiling in cancer: the path to clinical pharmacogenomics | |
Liang et al. | Computational analysis of microarray gene expression profiles: clustering, classification, and beyond | |
Beltrame et al. | Using pathway signatures as means of identifying similarities among microarray experiments | |
Kuo et al. | Gene expression profiling by DNA microarrays and its application to dental research | |
Chen et al. | Microarray gene expression | |
Sievertzon et al. | Improving reliability and performance of DNA microarrays | |
McConnell et al. | An introduction to DNA microarrays | |
Gibbons et al. | Sequential prediction bounds for identifying differentially expressed genes in replicated microarray experiments |