JP5409354B2 - 配列モチーフを同定するための方法、およびその応用 - Google Patents
配列モチーフを同定するための方法、およびその応用 Download PDFInfo
- Publication number
- JP5409354B2 JP5409354B2 JP2009512000A JP2009512000A JP5409354B2 JP 5409354 B2 JP5409354 B2 JP 5409354B2 JP 2009512000 A JP2009512000 A JP 2009512000A JP 2009512000 A JP2009512000 A JP 2009512000A JP 5409354 B2 JP5409354 B2 JP 5409354B2
- Authority
- JP
- Japan
- Prior art keywords
- genome
- sequence
- word
- words
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 161
- 238000004422 calculation algorithm Methods 0.000 claims description 89
- 239000002773 nucleotide Substances 0.000 claims description 83
- 125000003729 nucleotide group Chemical group 0.000 claims description 83
- 241000700605 Viruses Species 0.000 claims description 58
- 150000001413 amino acids Chemical class 0.000 claims description 33
- 108700010070 Codon Usage Proteins 0.000 claims description 28
- 230000007923 virulence factor Effects 0.000 claims description 17
- 239000000304 virulence factor Substances 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 10
- 208000015181 infectious disease Diseases 0.000 claims description 8
- 108090000623 proteins and genes Proteins 0.000 description 96
- 238000009826 distribution Methods 0.000 description 80
- 102000004169 proteins and genes Human genes 0.000 description 76
- 210000004027 cell Anatomy 0.000 description 59
- 230000014509 gene expression Effects 0.000 description 36
- 229960005486 vaccine Drugs 0.000 description 33
- 108091028043 Nucleic acid sequence Proteins 0.000 description 32
- 239000013598 vector Substances 0.000 description 32
- 108020004999 messenger RNA Proteins 0.000 description 28
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 25
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 25
- 150000007523 nucleic acids Chemical group 0.000 description 25
- 241000894007 species Species 0.000 description 24
- 230000001580 bacterial effect Effects 0.000 description 22
- 102000039446 nucleic acids Human genes 0.000 description 19
- 108020004707 nucleic acids Proteins 0.000 description 19
- 230000035772 mutation Effects 0.000 description 17
- 230000003612 virological effect Effects 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 16
- 230000001717 pathogenic effect Effects 0.000 description 16
- 108091026890 Coding region Proteins 0.000 description 14
- 210000001519 tissue Anatomy 0.000 description 14
- 241000725303 Human immunodeficiency virus Species 0.000 description 13
- 230000008859 change Effects 0.000 description 13
- 241000894006 Bacteria Species 0.000 description 12
- 241000588724 Escherichia coli Species 0.000 description 12
- 238000010845 search algorithm Methods 0.000 description 12
- 108020004414 DNA Proteins 0.000 description 11
- 108091034117 Oligonucleotide Proteins 0.000 description 11
- 230000002238 attenuated effect Effects 0.000 description 11
- 244000052769 pathogen Species 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 10
- 230000028993 immune response Effects 0.000 description 10
- 238000013077 scoring method Methods 0.000 description 10
- 230000014616 translation Effects 0.000 description 10
- 241000196324 Embryophyta Species 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 9
- 230000002163 immunogen Effects 0.000 description 9
- 108091023040 Transcription factor Proteins 0.000 description 8
- 102000040945 Transcription factor Human genes 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 241000713800 Feline immunodeficiency virus Species 0.000 description 7
- 241000238631 Hexapoda Species 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 7
- 241000713311 Simian immunodeficiency virus Species 0.000 description 7
- 125000003275 alpha amino acid group Chemical group 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 108090000765 processed proteins & peptides Proteins 0.000 description 7
- 108020004705 Codon Proteins 0.000 description 6
- 241000699800 Cricetinae Species 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 241000713666 Lentivirus Species 0.000 description 5
- 239000000427 antigen Substances 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000036039 immunity Effects 0.000 description 5
- 238000000338 in vitro Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000002703 mutagenesis Methods 0.000 description 5
- 231100000350 mutagenesis Toxicity 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 241001515965 unidentified phage Species 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 4
- 208000031886 HIV Infections Diseases 0.000 description 4
- 108090000144 Human Proteins Proteins 0.000 description 4
- 102000003839 Human Proteins Human genes 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 4
- 239000002253 acid Substances 0.000 description 4
- 150000007513 acids Chemical class 0.000 description 4
- 102000036639 antigens Human genes 0.000 description 4
- 108091007433 antigens Proteins 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 239000003623 enhancer Substances 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000003834 intracellular effect Effects 0.000 description 4
- 239000013612 plasmid Substances 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 229940021993 prophylactic vaccine Drugs 0.000 description 4
- 239000013603 viral vector Substances 0.000 description 4
- 108010041986 DNA Vaccines Proteins 0.000 description 3
- 229940021995 DNA vaccine Drugs 0.000 description 3
- 241000233866 Fungi Species 0.000 description 3
- 208000037357 HIV infectious disease Diseases 0.000 description 3
- 229940033330 HIV vaccine Drugs 0.000 description 3
- 241000713772 Human immunodeficiency virus 1 Species 0.000 description 3
- 241000124008 Mammalia Species 0.000 description 3
- 241001494479 Pecora Species 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 3
- 230000000593 degrading effect Effects 0.000 description 3
- 230000002939 deleterious effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 208000033519 human immunodeficiency virus infectious disease Diseases 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- MYWUZJCMWCOHBA-VIFPVBQESA-N methamphetamine Chemical compound CN[C@@H](C)CC1=CC=CC=C1 MYWUZJCMWCOHBA-VIFPVBQESA-N 0.000 description 3
- 239000013600 plasmid vector Substances 0.000 description 3
- 230000001681 protective effect Effects 0.000 description 3
- 108091008146 restriction endonucleases Proteins 0.000 description 3
- 238000002741 site-directed mutagenesis Methods 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 229940021747 therapeutic vaccine Drugs 0.000 description 3
- 230000009261 transgenic effect Effects 0.000 description 3
- 229940023147 viral vector vaccine Drugs 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 241000271566 Aves Species 0.000 description 2
- 241000283707 Capra Species 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 108091060211 Expressed sequence tag Proteins 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 2
- 241000948243 Idiomarina Species 0.000 description 2
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 241000288906 Primates Species 0.000 description 2
- 241001138501 Salmonella enterica Species 0.000 description 2
- 241000293871 Salmonella enterica subsp. enterica serovar Typhi Species 0.000 description 2
- 241000607265 Vibrio vulnificus Species 0.000 description 2
- 108010067390 Viral Proteins Proteins 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000004102 animal cell Anatomy 0.000 description 2
- 210000003578 bacterial chromosome Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 210000003763 chloroplast Anatomy 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000000987 immune system Anatomy 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 239000012678 infectious agent Substances 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 210000003292 kidney cell Anatomy 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000002101 lytic effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000007918 pathogenicity Effects 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- MXHRCPNRJAMMIM-SHYZEUOFSA-N 2'-deoxyuridine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-SHYZEUOFSA-N 0.000 description 1
- 241000589291 Acinetobacter Species 0.000 description 1
- 101100388296 Arabidopsis thaliana DTX51 gene Proteins 0.000 description 1
- 241000282465 Canis Species 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 241000305071 Enterobacterales Species 0.000 description 1
- 241000713730 Equine infectious anemia virus Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000588698 Erwinia Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 108010029961 Filgrastim Proteins 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101100496569 Homo sapiens C6 gene Proteins 0.000 description 1
- 101000987586 Homo sapiens Eosinophil peroxidase Proteins 0.000 description 1
- 101000920686 Homo sapiens Erythropoietin Proteins 0.000 description 1
- 101000746367 Homo sapiens Granulocyte colony-stimulating factor Proteins 0.000 description 1
- 241000713340 Human immunodeficiency virus 2 Species 0.000 description 1
- 206010061598 Immunodeficiency Diseases 0.000 description 1
- 208000029462 Immunodeficiency disease Diseases 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000605122 Nitrosomonas Species 0.000 description 1
- 241000605121 Nitrosomonas europaea Species 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 108091005461 Nucleic proteins Chemical class 0.000 description 1
- 235000011464 Pachycereus pringlei Nutrition 0.000 description 1
- 240000006939 Pachycereus weberi Species 0.000 description 1
- 235000011466 Pachycereus weberi Nutrition 0.000 description 1
- 241000588701 Pectobacterium carotovorum Species 0.000 description 1
- 206010035226 Plasma cell myeloma Diseases 0.000 description 1
- 241000224016 Plasmodium Species 0.000 description 1
- 102000029797 Prion Human genes 0.000 description 1
- 108091000054 Prion Proteins 0.000 description 1
- 208000024777 Prion disease Diseases 0.000 description 1
- 101100215626 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ADP1 gene Proteins 0.000 description 1
- 241000607768 Shigella Species 0.000 description 1
- 241000607762 Shigella flexneri Species 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 241000607598 Vibrio Species 0.000 description 1
- 241000607272 Vibrio parahaemolyticus Species 0.000 description 1
- 108020005202 Viral DNA Proteins 0.000 description 1
- 241000607734 Yersinia <bacteria> Species 0.000 description 1
- 241000607477 Yersinia pseudotuberculosis Species 0.000 description 1
- 208000025087 Yersinia pseudotuberculosis infectious disease Diseases 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 229940031567 attenuated vaccine Drugs 0.000 description 1
- 102000023732 binding proteins Human genes 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000007910 cell fusion Effects 0.000 description 1
- 210000004978 chinese hamster ovary cell Anatomy 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000012411 cloning technique Methods 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- MXHRCPNRJAMMIM-UHFFFAOYSA-N desoxyuridine Natural products C1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-UHFFFAOYSA-N 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 108700004026 gag Genes Proteins 0.000 description 1
- 101150098622 gag gene Proteins 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 102000044890 human EPO Human genes 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 230000007813 immunodeficiency Effects 0.000 description 1
- 230000005847 immunogenicity Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 210000004962 mammalian cell Anatomy 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 201000000050 myeloid neoplasm Diseases 0.000 description 1
- 229940029345 neupogen Drugs 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 230000007110 pathogen host interaction Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000009465 prokaryotic expression Effects 0.000 description 1
- 230000000069 prophylactic effect Effects 0.000 description 1
- 229940023143 protein vaccine Drugs 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003584 silencer Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 101150038671 strat gene Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 241000701447 unidentified baculovirus Species 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 230000007733 viral latency Effects 0.000 description 1
- 230000017613 viral reproduction Effects 0.000 description 1
- 229960004854 viral vaccine Drugs 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 210000005253 yeast cell Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P21/00—Preparation of peptides or proteins
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- General Chemical & Material Sciences (AREA)
- Microbiology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Peptides Or Proteins (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
Description
単数形である1つの(「a」「an」)およびその(「the」)は、内容が明確に反対を示唆しない限り、複数形の言及を含む。従って、例えば、「ウイルス」との言及は、複数のこのようなウイルスを含む。
ゲノムのヌクレオチド配列に対して種々の制約が存在する。このような制約の1つは、ゲノムによってコードされるタンパク質における特定のアミノ酸配列についての選択圧である。遺伝コードが縮重しているので、ヌクレオチド配列は、理論的には、ヌクレオチドレベルで互いに異なるが、なお同じタンパク質またはペプチドをコードすることができる。しかし、事実上、特定のコドン使用頻度についての選択圧がしばしば存在する。例えば、2つのコドンが同じアミノ酸をコードする可能性があるが、1つのコドンが、同じアミノ酸をコードする別のコドンよりもより頻繁にゲノム中で使用される可能性がある。本発明は、これらの選択圧の各々を標準化し、次いで、偶然に出現することが予想される配列モチーフの頻度と比較して、ゲノム中またはゲノム部分中で出現頻度が高いまたは出現頻度が低い配列モチーフを同定する方法およびアルゴリズムを提供する。本発明は、配列が含む配列モチーフに基づいて、配列を分類し、または配列間の関連性を比較もしくは予測するために使用できるスコアリングアルゴリズムもまた提供する。これらの方法およびアルゴリズムは、Robinsら(2005)Journal of Bacteriology,Vol.187,p.8370−74にもまた記載され、その内容は参照により本明細書に組み入れられる。本発明の配列モチーフは、機能的情報を含む可能性があり、生物学的に有意である可能性がある。例えば、出現頻度が高い配列および/または出現頻度が低い配列は、転写因子結合部位、スプライシング部位、mRNA分解/安定性シグナル、後成的シグナルなどであり得る。出現頻度が高い配列および/または出現頻度が低い配列は、宿主と病原体との相互作用においてもまた重要であり得る。従って、本発明の方法およびアルゴリズムは、生物学的に重要な配列モチーフを同定するために有用であり得、これは次いで、特定の目的を達成するために変化されてもよい。
一実施形態において、本発明は、実ゲノム中で出現頻度が低いまたは出現頻度が高い1つ以上の配列モチーフを同定するための方法を志向したもので、この方法は、以下の工程を実行することを包含する。工程1:出現頻度が低いまたは出現頻度が高い配列モチーフを同定するための、実ゲノムまたは実ゲノム部分を選択する工程。工程2:実ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程。工程3:バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程。工程2および3は、数回反復されて、さらなるバックグラウンドゲノムを生成してもよい。工程4:複数のバックグラウンドゲノムが生成された場合、工程2の各反復において生成したバックグラウンドゲノムの各々にわたる各ワードの平均出現回数を計数し、および任意選択的に、バックグラウンドゲノム中の各ワードについての平均計数を、バックグラウンドゲノム中のワードの頻度または確率に転換する工程。工程5:実ゲノムにおける、工程3において同定した各ワードの出現回数を数える、および任意選択的に、実ゲノムにおけるこの各ワードについての計数を、実ゲノムにおけるそのワードの頻度または確率に転換する工程。工程6:実ゲノムとバックグラウンドゲノムとの違いに寄与する1つ以上のワードを同定するために「反復ワード検索アルゴリズム」を適用する工程。この方法を使用して同定される「配列モチーフ」は、偶然に出現することが予想されるワードの頻度と比較して、実ゲノムの中で出現頻度が低いかまたは出現頻度が高いかのいずれかである「ワード」である。この実施形態の模式図は図1に図示される。上記の工程は、上記の順序で実行されることが好ましい。しかし、これらの工程のいくつかは異なる順序で実行されてもよく、または同時に実行されてもよい。例えば、工程2および3が複数回反復される実施形態において、次の反復に進む前に、工程2および3の1回目の反復が完了する必要はない。その代わりに、工程2は、工程3ができる場合と同様に、複数回、独立にまたは同時に、実行することができる。工程4および5もまた、同時に実行することができる。
互いに素であるサブセットKJ(w)は、以下の方程式(6)および(7)によって図示されるように、実質分布とバックグラウンド分布の中の所定のサブセット中にある確率が等しくなるようにスケール変更されるべきである。
本発明は、長さgのゲノムGに関して、長さsのコード配列S(または、言及される別の方法、長さs2の配列S2に関して、長さs1の第1の配列S1)をスコアリングするために使用できる方法およびアルゴリズムもまた提供する。このような方法は多くの応用のために有用である。例えば、一実施形態において、未知の配列は、本発明のスコアリング方法を使用して、配列が由来する生物/種によって分類することができる。別の方法において、スコアリング方法は、異なる配列またはゲノムとの進化的な関連性を決定するために使用し、それによって、系統樹を作製することができる。別の実施形態において、スコアリング方法は、ウイルスなどの病原因子の宿主である可能性を同定するために、または特定の宿主に感染する可能性がある病原因子を同定するために、使用できる。本発明のスコアリング方法およびアルゴリズムのこれらおよび他の応用は以下により詳細に記載される。
本明細書の方法およびアルゴリズムは、好ましくは、コンピュータを使用して実行される。一実施形態において、本発明は、「実ゲノム」の配列の入力を可能にするように適合されており、本明細書に記載される種々のアルゴリズムのステップの1つ以上を実行するためのコンピュータコードを含む、コンピュータシステムの使用を含む。例えば、本発明は、以下の1つ以上を実行するためのコードを含むコンピュータプログラムを包含する:バックグラウンドゲノムを生成する工程、所定の長さのバックグラウンドゲノムの各ワードの出現回数を数える工程、複数のバックグラウンドゲノムにわたる各ワードについての平均バックグラウンド計数を数える工程、所定のワードについての平均バックグラウンド計数を頻度/確率に転換する工程、実ゲノム中の所定のワードの出現回数を計数する工程、実ゲノム中の所定のワードについての計数を頻度または確率に転換する工程、実ゲノムとバックグラウンドゲノムとの違いに寄与するワードのリストを同定するために反復ワード検索アルゴリズムを実行する工程、実ゲノム確率分布とバックグラウンドゲノム確率分布との距離を計算する工程、実ゲノム分布をバックグラウンドゲノム分布から有意に分離するワードを同定する工程、特定のワードに起因する、実ゲノムとバックグラウンドゲノムとの違いを取り除くためにバックグラウンドゲノム分布をスケール変更する工程。
本発明のアルゴリズムおよび方法は、多くの異なる用途および応用を有し、このいくつかは以下に記載される。他の応用は当業者に周知である。
組換えタンパク質は、例えば、治療剤として、およびタンパク質性ワクチンの成分としての多くの応用を有する。これらの組換えタンパク質は、一般的に、適切なプロモーターの制御下でタンパク質をコードするヌクレオチド配列を含む発現ベクターで形質転換またはトランスフェクトされた宿主細胞中で産生される。しばしば、組換えタンパク質は、そのヌクレオチド配列が由来する種とは異なる種の細胞型の中で発現および産生される。例えば、Amgenの組換えヒトエリスロポエチン生成物は培養ハムスター卵巣(CHO)細胞中で産生され、市販の製品Neupogen(登録商標)の中の活性成分である組換えヒトG−CSFは、E.coli細菌細胞中で産生される。このような状況において、組換えタンパク質をコードするヌクレオチド配列は、宿主細胞のゲノム中に存在する特定の配列モチーフを含まなくてもよいし、または宿主細胞中に存在しないさらなる配列モチーフを含んでもよい。これらの違いは、宿主細胞中の外来性組換えタンパク質の発現に有害な作用を与え得る。例えば、宿主ゲノムは、組換えヌクレオチド配列中に存在しない、宿主中のmRNA安定性のために必要とされる特定の配列モチーフを含んでもよく、または組換えヌクレオチド配列は、宿主中のタンパク質発現の効率を阻害もしくは減少する特定の配列モチーフを含んでもよい。従って、宿主細胞中の組換えタンパク質の産生を最適化するために、組換えタンパク質をコードするヌクレオチド配列を変異させて、1つ以上の宿主特異的配列モチーフを加えるか、あるいは1つ以上の供給源種配列モチーフを除去することが有用であり得る。例えば、組換えヒトタンパク質がハムスター細胞中で発現される場合、組換えヒトタンパク質をコードするヌクレオチド配列に、1つ以上のハムスター特異的配列モチーフを加えることが所望され得る。同様に、組換えヒトタンパク質が、バキュロウイルス発現系を使用するなどの昆虫細胞中で発現される場合、組換えヒトタンパク質をコードするヌクレオチド配列に、1つ以上の昆虫特異的配列モチーフを加えることが所望され得る。
別の実施形態において、本発明のアルゴリズムおよび方法は、組換えタンパク質の発現のために使用されるバクター(発現ベクター)、遺伝子治療のために使用されるベクター、ワクチンとして使用されるベクターなどのような種々のベクターの配列を最適化するために使用することができる。このようなベクターは、例えば、プラスミドベクターまたはウイルスベクター(すなわち、ウイルスゲノムを含むか、あるいはウイルスゲノムから誘導されたベクター)であり得る。組換えタンパク質をコードし、かつベクター骨格に挿入されてもよいヌクレオチド配列を最適化するための方法は、上記に記載されている。しかし、本発明の方法は、ベクター骨格それ自体を最適化するためにもまた使用されてもよい。例えば、多くのベクターそれ自体が、種々のタンパク質をコードしている。例えば、ウイルスベクターは、種々のウイルスタンパク質をコードしている。いくつかの状況において、ベクター骨格によってコードされるタンパク質の発現を除去または最小化することによってベクターを最適化することが所望され得る。他の状況において、ベクター骨格によってコードされるタンパク質の発現を増加するためにベクターを最適化することが所望され得る。ベクター配列は、これらの結果を達成するために、タンパク質をコードする配列について上記と同じ方法で変化させることができる。例えば、本発明の方法は、宿主ゲノムと比較して、出現頻度が高いかまたは出現頻度が低いかのいずれかであるベクター骨格中に存在する配列モチーフを同定するために使用することができる。好ましくは、これらの配列モチーフの機能的結果が決定されるべきである。このことは、ベクター中または宿主ゲノム中のいずれかで配列モチーフを変異させること、および特定の生物学的特性、例えば、ベクターがコードするmRNAの産生の速度、ベクターがコードするmRNAの安定性などに対するこれらの変異の作用を試験することによって、行うことができる。次いで、ベクター骨格のヌクレオチド配列は、ベクター骨格中の1つ以上の不利な配列モチーフを除去するため、またはベクター骨格に1つ以上の有利な配列モチーフを付加するために、変異を実行することによって最適化されてもよい。当該分野において公知である任意の適切な変異方法、例えば、本明細書に記載される方法が使用されてもよい。
タンパク質産生のための配列の最適化およびベクター配列の最適化のための上記の方法は、弱毒化ウイルスワクチン、死滅ウイルスワクチン、ウイルスベクターワクチン、DNAワクチン、およびタンパク質ワクチンを含むがこれらに限定されないワクチンを最適化するために使用できる。
いくつかの実施形態において、本発明は、配列モチーフを付加/作製するため、または配列モチーフを除去/破壊するためにヌクレオチド配列を変異させる工程を含む。このような変異は、当該分野において公知である任意の適切な変異誘発方法を使用して作製することができ、この方法には以下が含まれるがこれらに限定されない:部位特異的変異誘発、オリゴヌクレオチド特異的変異誘発、ポジティブ抗生物質選択法、固有の制限部位除去(USE)、デオキシウリジン取り込み、ホスホロチオエート取り込み、およびPCRベースの変異誘発法。このような方法の詳細は、例えば、以下において見い出され得る:Lewis ら(1990)Nucl.Acids Res.18,p3439;Bohnsackら(1996)Meth.Mol.Biol.57,p1;Vavraら(1996)Promega Notes 58,30;Altered Sites(登録商標)II in vitro Mutagenesis Systems Technical Manual #TM001,Promega Corporation;Dengら(1992)Anal.Biochem.200,p81;Kunkelら(1985)Proc.Natl.Acad.Sci.USA 82,p488;Kunkeら(1987)Meth.Enzymol.154,p367;Taylorら(1985)Nucl.Acids Res.13,p8764;Nakamayeら(1986)Nucl.Acids Res.14,p9679;Higuchiら(1988)Nucl.Acids Res.16,p7351;Shimadaら(1996)Meth.Mol Biol.57,p157;Hoら(1989)Gene 77,p51;Hortonら(1989)Gene 77,p61;およびSarkarら(1990)BioTechniques 8,p404。部位特異的変異誘発を実行するための大部分のキット、例えば、Stratgene Inc.からQuikChange(登録商標)II Site−Directed Mutagenesis KitおよびPromega Inc.からAltered Sites(登録商標)IIインビトロ変異誘発システムが市販されている。このような市販のキットは、AGGモチーフを非AGG配列に変異誘発するためにもまた使用されてもよい。
本発明の方法およびアルゴリズムは、ウイルスなどの病原体と、それらの宿主との関係を研究するために十分に適している。例えば、ウイルスの場合においては、ウイルス核酸分子はコピーされ、宿主細胞の内部で発現されるので、ウイルスゲノムおよび宿主ゲノムはいくらかの同じ進化的な圧力に供されることが予測され得る。従って、ウイルスゲノム中で出現頻度の高い配列モチーフもまた、ウイルス宿主のゲノム中で出現頻度が高い可能性がある。同様に、ウイルスゲノム中で出現頻度が低い配列モチーフもまた、ウイルス宿主のゲノム中で出現頻度が低い可能性がある。実施例6は、バクテリオファージおよびそれらの宿主細菌種におけるこの現象を図示し、そしてバクテリオファージのゲノムがそれらの正確な細菌宿主と最高にスコアリングされたことを示す。従って、本発明の方法は、特に、本発明のスコアリングアルゴリズムが、病原因子のゲノムをスコアリングし、および潜在的な宿主種のゲノムをスコアリングするために、ならびに病原因子の宿主である可能性を同定し、および/または所定の宿主に感染できる可能性がある病原因子の種類を同定するために使用できる。例えば、ウイルスなどの病原因子については、本発明のスコアリングアルゴリスムは、その病原体からの配列中のワードのリストLについての全体のスコアを形成し、そのスコアを、種々の潜在的な宿主種のスケール付けしたゲノム中のワードの同じリストについてのスコアに対して比較するために使用することができる。このやり方で、可能性がある病原体の宿主を決定することができ、そして逆に、所定の宿主に感染する可能性がある病原体を決定することができる。これらの配列モチーフの知見は、種々の他の応用のためにもまた有用である。例えば、薬物およびワクチンは、これらの配列モチーフを利用するように設計することができる。これらおよび他の実施形態は以下により詳細に記載される。
本発明は、偶然に出現することが予想される配列モチーフの頻度と比較して、ゲノムの中で出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための方法を提供する。これらの配列が、制約の非存在下で予測されるものとは違う頻度で起こるという事実は、これらのモチーフが選択圧に供されていることを示唆する。例えば、進化の過程で、出現頻度の高い配列は選択されてきた可能性があり、そして出現頻度が低い配列は、それに反対するように選択されてきた可能性がある。このために、本発明の方法を使用して同定した配列モチーフは、生物、ウイルス、またはヌクレオチド配列を分類するために、または生物、ウイルス、またはヌクレオチド配列との系統発生的関係を決定するために、使用することができる。本明細書で提供されるスコアリング方法もまた、生物、ウイルス、またはヌクレオチド配列との系統発生的関係を決定するために十分に適している。実施例5は、本発明の方法がいかにしてゲノムを分類し、系統樹を生成するために使用できるかを例示している。
本発明のアルゴリズムおよび方法は、スプライシング部位の同定、エキソンスプライシングエンハンサーの同定、実際のエキソンの同定、mRNA分解または安定性シグナルの同定、転写因子結合部位の同定、および組織特異性に関連する配列の同定を含むがこれらに限定されない、多数の他の用途を有する。
ゲノム分析は生物間の多数の配列の違いを明らかにしてきた。モノヌクレオチドとジヌクレオチドの両方の含量、ならびにコドン使用頻度は、ゲノム間で広範に変動する。小さな細菌ゲノムのサイズさえ、各生物を説明する配列に基づく特徴の実質的により豊富なセットを決定するためには統計学的に十分である。しかし、これらの特徴の多くは、特に、複雑な制約に起因して、コード領域中では判定しにくい状況である。各遺伝子は特定のタンパク質をコードし、これは、その可能なヌクレオチド配列を制限する。遺伝コードが縮重しているので、この制約は、各遺伝子についての可能なDNA配列の膨大な数をなお可能にする。また、各遺伝子における全体のコドン使用頻度は、イソアクセプターtRNAの豊富さによって決定することが可能である強力な生物学的結果を有することが知られている。コード領域の中で新たな特徴を単離するために、これらの制約は取り除かなければならない。
第1の工程は、配列モチーフを同定するために実ゲノムを選択することであった。種々の異なる実ゲノムを使用して得たデータを後の実施例に示す。
次の工程は、実ゲノムとの比較のために、ランダム化したバックグラウンドゲノムを生成することであった。これは、Fuglsang(2004)「The relationship between palindrome avoidance and intragenic codon usage variations:a Monte Carlo study」Biochem.Biophys.Res.Commun.316:755−762に記載されている方法を使用して、実ゲノムのすべての遺伝子の中の各アミノ酸に対応するコドンをランダムに順序を変えることによって達成した。実ゲノムの遺伝子に対して、同じアミノ酸含量およびコドン使用頻度を有するが、他の点ではランダムな新たなコード配列を作製した。
ランダム化バックグラウンドゲノム中での2〜7ヌクレオチド長の各ワードwの出現回数を計数した。7ヌクレオチドの長さは、研究した細菌ゲノムのコード配列の全体の長さに基づいて考慮するための最大ワード長として選択した(以降の実施例を参照)。しかし、他のワード長を使用することができた。理想的には、各ワードの平均出現回数は、アルゴリズムを強固にするために0よりもはるかに大きくあるべきであり、それゆえに、最大ワード長は、分析されるゲノムまたはゲノム部分において、その長さのワードが0よりもはるかに大きな頻度で出現するように選択されるべきである。
生成した30個すべてのバックグラウンドゲノムにわたる各ワード「w」の「平均バックグラウンド計数」NB(w)を計算した。各ワードについての平均バックグラウンド計数は、同じ制約に供されている同じサイズの実ゲノム中で、偶然に出現することが予想されるワードの出現回数の測定値を提供する。本発明者らは、以下に明らかにされる理由のために、長さ7のワードのみを考慮することによって、およびサブストリングによってより短い長さの計数を得ることによって、NB(w)を決定することを選択する。
本発明者らはまた、実ゲノム中の各ワードwの出現回数もまた計数して、NR(w)を得た。次いで、実ゲノムにおける各ワードの計数は、数式PR(w)= NR(W)/Lを使用して頻度(または等価には確率)に転換し、ここで、Lはコード配列の全体の長さである。
使用したワード検索アルゴリズムは、第1の任意選択のサブステップ(A)を実行して、実ゲノム確率分布とバックグラウンドゲノム確率分布の距離を決定すること、次いで、2つのさらなるサブステップ(BおよびC)を実行および反復することからなった。サブステップBにおいて、以下に記載される有意性S(w)の測定値に基づいて、バックグラウンド分布から実ゲノムを最も有意に分離したワードを同定した。サブステップCにおいて、バックグラウンド確率分布は、第1のサブステップBにおいて見い出されたワードに起因する違いを取り除くためにスケール変更した。サブステップBおよびCは固定された回数、反復した。しかし、代替的には、サブステップBおよびCは、バックグラウンド分布が実質分布に十分に近づくまで反復することができた。
次に、実ゲノム分布とバックグラウンドゲノム分布との距離/違いに最も有意に寄与するワードを、以下の方程式(3)を使用して計算した有意差の尺度S(w)を使用して同定した。S(w)は、長さ2〜7の任意の1つのワードwがDKLに寄与する程度を測定する。任意の所定のワードの有意性を測定する代替的方法もまた使用することができた。
次のステップは、wの寄与が、実質分布とバックグラウンド分布の両方において同一になるように、バックグラウンド分布を最小限にスケール変更すること、すなわち、バックグラウンドゲノムに対するwの寄与を取り除くことであった。最小限にスケール変更するために、wを同じ回数含む長さ7のワードWi 7の頻度の比率は変化させるべきではない。すなわち、本発明者らは、等しい因子で、同じC(Wi 7,w)を有するすべてのワードWi 7をスケール変更することを望んだ。それゆえに、詳細な確率分布の適切な粗視化を用いて行うことが必要であった。バックグランドの分布は、確率PB(Wi 7)を有する長さ7のワードWi 7のセットとして定義した。本発明者らは、このWi 7のセットを、結合していないサブセットに分割し、ここで、所定のサブセットの各エレメントは、ワードwを等しい回数含んだ。これらのセットは以下の方程式(4)および(5)によって定義されるようなものである。
以下は、バックグラウンドゲノムが実施例1のステップ6Bにおいて記載されるようにスケール変更されるときに、DKLが単調に減少することの証明である。2つの確率分布{pj}および{qj}を仮定し、j∈SでありかつSが可能な結果のセットである場合、カルバック・ライブラー距離は以下の方程式(10)によって与えられる。
(11)によって記載されるように、r個のセット、S1...SrへのSの非結合的な分割を考慮する。
次に、粗視化確率を定義する。
スケール変更分布を定義する。
J∈Siについて
長さgのゲノムGに関して、長さsのコード配列Sをスコアリングするために、Gについてのワードリストを、以下の改変を伴って、実施例1に記載されるように最初に形成した:ワードは、長さsの配列について有意である場合のみに、リストに加えた。この有意性は、スケールsに対する各ワードの計数および標準偏差をスケール変更することによって決定した。バックグラウンドゲノムおよび実ゲノム中の各ワードの計数はs/gで乗算し、これは、配列Sについての予測計数NbおよびNrを与える。この標準偏差を、√s/gによってスケール変更して、ΔSを得た。ワードが方程式|Nr−Nb|>3×ΔSを満たす場合は、これはリストに含めた;そうでない場合は、これはスキップした。sはgよりもはるかに小さいので、この標準は、実施例1に記載された複数仮説で修正されたカットオフよりも実質的に厳密であった。バックグランド分布をスケール変更することを含む、反復手順の残りは、実施例1に記載されるものと同じであった。この新たなリストは、ワード数Xを有するスコアリングテンプレートを形成した。スコアを得るために、本発明者らは、上記のバックグラウンドゲノムを生成するために使用した場合と同じモンテカルロシャッフリング手順によって配列SのバックグラウンドBを形成した。次いで、本発明者らは、以下の反復アルゴリズムを実行した:各工程において、本発明者らは、順序付けしたリストLからワードWを取得した。次いで、本発明者らは、配列SおよびバックグラウンドBの中のそのワードの計数を比較し、SとBの間のWについての偏りの方向が、ゲノムGとそのバックグラウンドの間のWについての方向と同じであった場合のみに、すなわち、Wが、GとSの各々のバックグラウンドと比較して、GとSの両方において出現頻度が高い、または両方において出現頻度が低い場合のみに、本発明者らのスコアに1を加えた。次いで、本発明者らは、Wの作用を取り除くために上記の様式でBをスケール変更し、次の工程に進んだ。全体のリストLを通して、本発明者らは、ゲノムと配列との間で一致が存在したX個の可能なワードから数値Yを取得した。最終スコアはC×(X−Y/2)√Yであり、Cは定数である。すべての短い配列について、スコアリングは、253個の染色体を含むNCBIデータベース(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)中の全部で164種の細菌種について行った。
実施例1のアルゴリズムは、そのゲノムが253個の染色体を含むNCBIデータベースにおいて入手可能である、全部で164種の細菌種のゲノム中に存在する、出現頻度が高いまたは出現頻度が低い配列モチーフのリストを同定するために使用した。多くの細菌種について、このアルゴリズムは、2〜7ヌクレオチドの長さの100〜200のワードを同定した。表1は、細菌である大腸菌(E.coli)のゲノム中で同定された、出現頻度が高いまたは出現頻度が低い100種の配列モチーフを例示している。
実施例5において上記に記載されたように、NCBIデータベースの中の100kb長よりも長い253種の細菌染色体を50kbおよび100kb部分に分解し、そして164種すべてに対して別々にスコアリングしたときに、100kb部分の92%および50kb部分の86%がそれら自体の種とともに最高のスコアを得た。この結果は、本発明の方法を使用して同定した配列モチーフが配列の分類子として有用であることを示唆する。例えば、Venterら(9)によって記載されたサルガッソー海の微生物から得た配列は、相同遺伝子を必要とすることなく既知の細菌と比較することができる。本発明より以前には、最高の公知の細菌ゲノム分類子は、KarlinおよびCardon[6]によって開発されたオリゴヌクレオチドアプローチであった。本発明のスコアリングアルゴリスムを使用すると、50kbおよび100kbゲノム部分についての分類結果は、4個までの長さを有するオリゴヌクレオチドの頻度を比較する工程を含む、最も包括的なオリゴヌクレオチドアプローチを用いて得たものよりもわずかに良好であった。本発明のスコアリングシステムはまた、Venterら[9]によって適用されたジヌクレオチドアプローチよりも、配列を分類する際に実質的により良好であった。
本発明の方法およびアルゴリズムは、ウイルスと宿主との関連性を研究するためにもまた、十分に適している。ウイルスDNA(またはRNA)は宿主の中でコピーおよび発現されるので、ウイルスおよびそれらの宿主は、いくらかの進化的圧力を共有していることが予測され得る。しかし、モノヌクレオチド含量およびコドン使用頻度は、宿主とバクテリオファージとの間で劇的に異なっている。ある情報は、オリゴヌクレオチドの比較から獲得しているが、しかし、上記の実施例に記載されたアルゴリズムに記載されたスコアリングシステムは60%より良好である。NCBIウェブサイト上で入手可能である配列決定されたDNAバクテリオファージ(または「ファージ」)のセットから、185種のファージが既知の主要な宿主を有する。多くのファージは、同じ属の中に複数の宿主種を有することが知られているか、あるいはそのことが疑われている。この理由のために、宿主ゲノムは属レベルで考慮した。164種の細菌宿主は108の異なる属に分かれる。上記の実施例に記載されたアルゴリズムを使用して、正しい宿主属は185種のファージのうちで93種で最高にスコアリングされ、131種のファージがトップ3つのスコアにおいて正確な宿主を有した(表2を参照)。
レンチウイルスはレトロウイルスファミリーのウイルスに属する。「レンチ」という用語は、「遅い」というラテン語である。レンチウイルスは、長いインキュベーション時間および細胞外粒子を形成することなく、隣接する細胞に直接的に感染する能力によって特徴付けられる。これらの遅いターンオーバーは、長時間細胞内に留まるそれらの能力と相まって、感染宿主における免疫応答を回避する際に、レンチウイルスを特に巧みにする。これらのレンチウイルスの特性は、少なくとも部分的には、レンチウイルスゲノム中の1つ以上の阻害ヌクレオチドシグナル配列または「INS」配列の存在に起因し得ることが示唆されてきた。
今日まで、HIV感染に対して免疫を付与することが可能である市販のワクチンは存在していない。このようなワクチンを生成することが不可能であったことについては、多くの理由が存在する。ワクチンを産生する際の困難に寄与してきた可能性がある1つの要因は、HIVが長期間にわたって細胞内に留まる能力であり得る。細胞内ウイルスは、抗体が媒介する(しかしCD−8 T細胞媒介ではない)免疫から保護されている。HIVウイルスは、そのゆっくりとした細胞内での産生速度、細胞内に潜在性の状態であるその能力、および細胞融合によって提供される細胞から細胞までのその伝播の能力のために、長期間に及んで、細胞内に隠れた状態であることが可能である。
本発明の配列モチーフは、タンパク質の結合部位であり得る。本発明の方法およびアルゴリズムを使用して配列モチーフを同定し、このようなタンパク質を同定および単離することが可能である。例えば、細胞または組織抽出物は、本発明の配列モチーフを含むカラムを通すことができ、必要に応じて、非特異的および/または競争的DNAの洗浄を伴う。細胞または組織抽出物が配列モチーフに特異的に結合するタンパク質を含む場合、このタンパク質はカラムに保持され、引き続いて、カラムから溶出され、精製することができる。このことはまた、タンパク質のアミノ酸配列を決定することも可能にし、タンパク質をコードする遺伝子を同定することも可能にする。
本発明の方法およびアルゴリズムのためのいくつかの可能な用途には、スプライシング部位、エキソンスプライシングエンハンサー、mRNA分解または安定化シグナル、転写因子結合部位、および組織特異性に関連する配列の同定が含まれる。例えば、実際のエキソンは、出現頻度の高いシグナル、例えば、エキソンスプライシングエンハンサーを有する。本発明のアルゴリズムおよび方法は、交絡するイントロン配列から実際のエキソンを分けるために使用できる、実際のエキソン中で出現頻度が高いまたは出現頻度が低い配列の包括的リストを決定するために使用できる。mRNA安定性のために、2、3のグループは、ヒトを含む種々の生物における多数のmRNAについての崩壊速度を測定してきた。mRNA半減期の範囲は2桁の規模にわたるが、この安定性の違いを決定するシグナルまたは構造は知られていない。本発明のアルゴリズムおよび方法が、例えば、1,000個の最も急速に分解するmRNAのセットおよび、例えば、1,000個の最も安定なmRNAに適用される場合、2つのリスト中の違いは重要なシグナルのセットを提供するべきものである。組織特異性については、最近数年間で、異なる組織中で主として発現された遺伝子は明らかな特性を有し;これらのコドン使用頻度およびGC含量は異なることが示されてきた。本発明の方法およびアルゴリズムは、組織を区別するさらなるシグナルを見い出すために使用することができる。これらのシグナルはまた、特定のウイルスについての宿主組織の特異性および選択性に関する情報を提供するための潜在能力も有する。ファージおよびそれらの細菌宿主によって(またはヒトウイルスおよびそれらの宿主組織)によっては共有されない、コドン使用頻度およびモノヌクレオチド含量とは異なり、本発明の方法およびアルゴリズムは、ウイルス宿主の優れた予測因子である。
Claims (13)
- 偶然に出現することが予想される配列モチーフの頻度と比較して、実ゲノムまたは実ゲノム部分の中で出現頻度が高いまたは出現頻度が低い1つ以上の配列モチーフを同定するための方法であって、
(i)出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための、実ゲノムまたは実ゲノム部分を選択する工程と、
(ii)前記実ゲノムまたは実ゲノム部分と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程と、
(iii)前記バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程と、
(iv)前記実ゲノムまたは実ゲノム部分中で工程(iii)において同定された各ワードの出現回数を数える工程と、
(v)前記バックグラウンドゲノムと、前記実ゲノムまたは実ゲノム部分との違いに寄与するワードを同定するためのアルゴリズムを実行する工程であって、前記アルゴリズムが、
(a)前記実ゲノムまたは実ゲノム部分と、前記バックグラウンドゲノムとの違いに最も有意に寄与するワードを同定するステップと、
(b)ステップ(a)において同定されたワードに起因した、前記実ゲノムまたは実ゲノム部分と、前記バックグラウンドゲノムとの違いを取り除くために、前記バックグラウンドゲノムをスケール変更するステップと、
を含む、工程と、を包含し、
前記各工程の1つ以上がコンピューターを使用して実行され、
ステップ(a)において同定されるワードは、偶然に出現することが予想される配列の頻度と比較して、前記実ゲノムもしくは実ゲノム部分の中で出現頻度が高いもしくは出現頻度が低い配列モチーフである、方法。 - 前記ワードが2〜10ヌクレオチド長である、請求項1に記載の方法。
- 工程(ii)がモンテカルロアルゴリズムを使用して実行される、請求項1又は2に記載の方法。
- 工程(ii)および(iii)が、前記ワードの出現回数についての標準偏差が収束するまで反復される、請求項1〜3のいずれか1項に記載の方法。
- 工程(v)ステップ(a)が
(i)前記実ゲノムとバックグラウンドゲノムとの間で、カルバック−ライブラー距離D KL を計算する工程と、
(ii)D KL に最も有意に寄与するワードを同定する工程と、
を含む、請求項1〜4のいずれか1項に記載の方法。 - 工程(v)ステップ(a)および工程(v)ステップ(b)が、前記実ゲノムおよびバックグラウンドゲノムが収束するまで反復される、請求項1〜5のいずれか1項に記載の方法。
- 工程(v)ステップ(a)および工程(v)ステップ(b)が、前記実ゲノムとバックグラウンドゲノムとの前記カルバック−ライブラー距離D KL が0に達するまで反復される、請求項1〜6のいずれか1項に記載の方法。
- 工程(v)ステップ(a)および工程(v)ステップ(b)が、X個の配列モチーフを同定するためにX回反復され、ここで、Xは1から100の間の自然数である、請求項1〜7のいずれか1項に記載の方法。
- 第1の配列S1を、第2の配列S2と比較するための方法であって、
(a)偶然に出現することが予想されるワードの頻度と比較して、第1の配列S1中で出現頻度が低いまたは出現頻度が高い1つ以上のワードを同定する工程と、
(b)工程(a)において同定された任意のワードが、偶然に出現することが予想されるワードの頻度と比較して、第2の配列S2中で出現頻度が低いかまたは出現頻度が高いかのいずれであるかを決定する工程と、
(c)S1とS2の両方において出現頻度が高いか、あるいはS1とS2の両方において出現頻度が低いかのいずれかである、工程(a)において同定されたワードの総数から、ワードの数に基づいてS1とS2との類似性について計算するスコアを生成する工程と、を包含し、
前記各工程の1つ以上がコンピューターを使用して実行され、
前記ワードが請求項1〜8のいずれか1項に記載の方法を使用して同定され、
前記スコアが高いほど、配列S1と配列S2との類似性が大きくなる、方法。 - 前記S1とS2が2種の異なる生物またはウイルス由来の配列であり、前記スコアが高いほど、S1とS2との系統発生学的な関連がより密接になり、前記スコアが低いほど、S1とS2との系統発生学的な関連性がより小さくなる、請求項9に記載の方法。
- S1が宿主からの配列であり、S2は病原因子由来の配列であり、かつ前記スコアが高いほど、前記宿主生物が前記病原因子による感染に対して感受性を有する可能性が高い、請求項9に記載の方法。
- S1が宿主からの配列であり、S2は病原因子由来の配列Sであり、かつ前記スコアが高いほど、前記病原因子が宿主に感染する可能性が高い、請求項9に記載の方法。
- 長さs1の第1の配列S1を、長さs2の第2の配列S2と比較するための方法であって、
(a)S1と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムB S1 中に存在するワードの頻度と比較して、長さs1の配列S1の中で出現頻度が低いまたは出現頻度が高いワードのリストを生成する工程と、
(b)各ワードWが工程(a)において同定されるワードであり、その出現頻度の高低が長さs2のコード配列中で統計学的に有意である、ワードWのリストLを生成する工程と、
(c)前記配列S2と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンド配列B S2 を生成する工程と、
(d)以下の
(i)前記リストLからワードWを取り出すステップと、
(ii)前記ワードが、S1とS2の両方において、それらの各々のバックグラウンド
B S1 およびB S2 と比較して出現頻度が高い場合にのみ、または前記ワードが、S1とS2の両方において、それらの各々のバックグラウンドB S1 およびB S2 と比較して出現頻度が低い場合にのみ、前記ワードについて「1」の数値スコアを加えるステップと、
(iii)Wの作用を取り除くために、前記バックグラウンドB S2 をスケール変更するステップ、および
(iv)前記リストLの中の各ワードWについてステップ(i)〜(iii)を反復し、前記リストWの中でX個の可能なワードから1つ以上のスコアを有するY個のワードのリストを生成するステップと、
を含む反復アルゴリズムを実行する工程と、
(e)工程(a)において同定された配列モチーフの総数から、1つ以上のスコアを有する配列モチーフの数に基づいて最終スコアを計算する工程と、
を包含し、
前記各工程の1つ以上がコンピューターを使用して実行され、
前記最終スコアが高いほど、配列S1と配列S2との類似性が高い、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009512000A JP5409354B2 (ja) | 2006-05-25 | 2006-11-30 | 配列モチーフを同定するための方法、およびその応用 |
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US80842006P | 2006-05-25 | 2006-05-25 | |
US60/808,420 | 2006-05-25 | ||
JP2006149797 | 2006-05-30 | ||
JP2006149797A JP2007319016A (ja) | 2006-05-30 | 2006-05-30 | 標的バクテリアあるいはファージを特定の属、種若しくは血清型として特定若しくは分類する方法 |
US83049806P | 2006-07-13 | 2006-07-13 | |
US60/830,498 | 2006-07-13 | ||
JP2009512000A JP5409354B2 (ja) | 2006-05-25 | 2006-11-30 | 配列モチーフを同定するための方法、およびその応用 |
PCT/US2006/045848 WO2007139584A2 (en) | 2006-05-25 | 2006-11-30 | Methods for identifying sequence motifs, and applications thereof |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012186111A Division JP5727426B2 (ja) | 2006-05-25 | 2012-08-27 | 配列モチーフを同定するための方法、およびその応用 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009538131A JP2009538131A (ja) | 2009-11-05 |
JP5409354B2 true JP5409354B2 (ja) | 2014-02-05 |
Family
ID=38779128
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009512000A Active JP5409354B2 (ja) | 2006-05-25 | 2006-11-30 | 配列モチーフを同定するための方法、およびその応用 |
JP2012186111A Active JP5727426B2 (ja) | 2006-05-25 | 2012-08-27 | 配列モチーフを同定するための方法、およびその応用 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012186111A Active JP5727426B2 (ja) | 2006-05-25 | 2012-08-27 | 配列モチーフを同定するための方法、およびその応用 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20090208955A1 (ja) |
JP (2) | JP5409354B2 (ja) |
AU (1) | AU2006345511B2 (ja) |
CA (1) | CA2653256C (ja) |
WO (1) | WO2007139584A2 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2657626C (en) * | 2006-07-13 | 2020-02-25 | Institute For Advanced Study | Viral inhibitory nucleotide sequences and vaccines |
GB2456369A (en) * | 2008-01-11 | 2009-07-15 | Ibm | String pattern analysis for word or genome analysis |
US9506119B2 (en) | 2008-11-07 | 2016-11-29 | Adaptive Biotechnologies Corp. | Method of sequence determination using sequence tags |
US9365901B2 (en) | 2008-11-07 | 2016-06-14 | Adaptive Biotechnologies Corp. | Monitoring immunoglobulin heavy chain evolution in B-cell acute lymphoblastic leukemia |
GB2467704B (en) | 2008-11-07 | 2011-08-24 | Mlc Dx Inc | A method for determining a profile of recombined DNA sequences in T-cells and/or B-cells |
US8628927B2 (en) | 2008-11-07 | 2014-01-14 | Sequenta, Inc. | Monitoring health and disease status using clonotype profiles |
US9528160B2 (en) | 2008-11-07 | 2016-12-27 | Adaptive Biotechnolgies Corp. | Rare clonotypes and uses thereof |
US8748103B2 (en) | 2008-11-07 | 2014-06-10 | Sequenta, Inc. | Monitoring health and disease status using clonotype profiles |
US8685898B2 (en) | 2009-01-15 | 2014-04-01 | Imdaptive, Inc. | Adaptive immunity profiling and methods for generation of monoclonal antibodies |
CA2765949C (en) | 2009-06-25 | 2016-03-29 | Fred Hutchinson Cancer Research Center | Method of measuring adaptive immunity |
JP5521236B2 (ja) * | 2009-12-22 | 2014-06-11 | 独立行政法人産業技術総合研究所 | 発現予測装置および発現予測方法 |
US10385475B2 (en) | 2011-09-12 | 2019-08-20 | Adaptive Biotechnologies Corp. | Random array sequencing of low-complexity libraries |
US8869017B2 (en) | 2011-09-21 | 2014-10-21 | Facebook, Inc | Aggregating social networking system user information for display via stories |
US8832560B2 (en) * | 2011-09-21 | 2014-09-09 | Facebook, Inc. | Displaying social networking system user information via a historical newsfeed |
US8887035B2 (en) | 2011-09-21 | 2014-11-11 | Facebook, Inc. | Capturing structured data about previous events from users of a social networking system |
US9946430B2 (en) | 2011-09-21 | 2018-04-17 | Facebook, Inc. | Displaying social networking system user information via a timeline interface |
US8726142B2 (en) | 2011-09-21 | 2014-05-13 | Facebook, Inc. | Selecting social networking system user information for display via a timeline interface |
US9773284B2 (en) | 2011-09-21 | 2017-09-26 | Facebook, Inc. | Displaying social networking system user information via a map interface |
US10296159B2 (en) | 2011-09-21 | 2019-05-21 | Facebook, Inc. | Displaying dynamic user interface elements in a social networking system |
CA2853088C (en) | 2011-10-21 | 2018-03-13 | Adaptive Biotechnologies Corporation | Quantification of adaptive immune cell genomes in a complex mixture of cells |
US9824179B2 (en) | 2011-12-09 | 2017-11-21 | Adaptive Biotechnologies Corp. | Diagnosis of lymphoid malignancies and minimal residual disease detection |
US9499865B2 (en) | 2011-12-13 | 2016-11-22 | Adaptive Biotechnologies Corp. | Detection and measurement of tissue-infiltrating lymphocytes |
EP2823060B1 (en) | 2012-03-05 | 2018-02-14 | Adaptive Biotechnologies Corporation | Determining paired immune receptor chains from frequency matched subunits |
WO2013169957A1 (en) | 2012-05-08 | 2013-11-14 | Adaptive Biotechnologies Corporation | Compositions and method for measuring and calibrating amplification bias in multiplexed pcr reactions |
US9691128B2 (en) | 2012-09-20 | 2017-06-27 | Facebook, Inc. | Aggregating and displaying social networking system user information via a map interface |
US9766783B2 (en) | 2012-09-20 | 2017-09-19 | Facebook, Inc. | Displaying aggregated social networking system user information via a map interface |
ES2660027T3 (es) | 2012-10-01 | 2018-03-20 | Adaptive Biotechnologies Corporation | Evaluación de la inmunocompetencia por la diversidad de los receptores de inmunidad adaptativa y caracterización de la clonalidad |
US9708657B2 (en) | 2013-07-01 | 2017-07-18 | Adaptive Biotechnologies Corp. | Method for generating clonotype profiles using sequence tags |
CA2941612A1 (en) | 2014-03-05 | 2015-09-11 | Adaptive Biotechnologies Corporation | Methods using randomer-containing synthetic molecules |
US10066265B2 (en) | 2014-04-01 | 2018-09-04 | Adaptive Biotechnologies Corp. | Determining antigen-specific t-cells |
EP3132059B1 (en) | 2014-04-17 | 2020-01-08 | Adaptive Biotechnologies Corporation | Quantification of adaptive immune cell genomes in a complex mixture of cells |
US11017881B2 (en) | 2014-05-15 | 2021-05-25 | Codondex Llc | Systems, methods, and devices for analysis of genetic material |
WO2015175602A1 (en) | 2014-05-15 | 2015-11-19 | Codondex Llc | Systems, methods, and devices for analysis of genetic material |
US11610650B2 (en) * | 2014-05-29 | 2023-03-21 | Ramot At Tel-Aviv University Ltd. | Method and system for designing polynucleotide sequences and polynucleotide sequences obtained thereby |
ES2784343T3 (es) | 2014-10-29 | 2020-09-24 | Adaptive Biotechnologies Corp | Detección simultánea altamente multiplexada de ácidos nucleicos que codifican heterodímeros de receptores inmunes adaptativos emparejados de muchas muestras |
US10246701B2 (en) | 2014-11-14 | 2019-04-02 | Adaptive Biotechnologies Corp. | Multiplexed digital quantitation of rearranged lymphoid receptors in a complex mixture |
WO2016086029A1 (en) | 2014-11-25 | 2016-06-02 | Adaptive Biotechnologies Corporation | Characterization of adaptive immune response to vaccination or infection using immune repertoire sequencing |
US11047008B2 (en) | 2015-02-24 | 2021-06-29 | Adaptive Biotechnologies Corporation | Methods for diagnosing infectious disease and determining HLA status using immune repertoire sequencing |
WO2016161273A1 (en) | 2015-04-01 | 2016-10-06 | Adaptive Biotechnologies Corp. | Method of identifying human compatible t cell receptors specific for an antigenic target |
US10428325B1 (en) | 2016-09-21 | 2019-10-01 | Adaptive Biotechnologies Corporation | Identification of antigen-specific B cell receptors |
US11254980B1 (en) | 2017-11-29 | 2022-02-22 | Adaptive Biotechnologies Corporation | Methods of profiling targeted polynucleotides while mitigating sequencing depth requirements |
US11501067B1 (en) * | 2020-04-23 | 2022-11-15 | Wells Fargo Bank, N.A. | Systems and methods for screening data instances based on a target text of a target corpus |
CN112735525B (zh) * | 2021-01-18 | 2023-12-26 | 苏州科锐迈德生物医药科技有限公司 | 一种基于分治法的mRNA序列优化的方法与装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NZ230375A (en) * | 1988-09-09 | 1991-07-26 | Lubrizol Genetics Inc | Synthetic gene encoding b. thuringiensis insecticidal protein |
US5639949A (en) * | 1990-08-20 | 1997-06-17 | Ciba-Geigy Corporation | Genes for the synthesis of antipathogenic substances |
US5530195A (en) * | 1994-06-10 | 1996-06-25 | Ciba-Geigy Corporation | Bacillus thuringiensis gene encoding a toxin active against insects |
US6958226B1 (en) * | 1998-09-11 | 2005-10-25 | The Children's Medical Center Corp. | Packaging cells comprising codon-optimized gagpol sequences and lacking lentiviral accessory proteins |
JP2003530307A (ja) * | 1999-07-06 | 2003-10-14 | メルク・アンド・カンパニー・インコーポレーテッド | gag遺伝子保有アデノウイルスHIVワクチン |
US7879540B1 (en) * | 2000-08-24 | 2011-02-01 | Promega Corporation | Synthetic nucleic acid molecule compositions and methods of preparation |
US7402312B2 (en) * | 2001-04-13 | 2008-07-22 | Human Genome Sciences, Inc. | Antibodies to vascular endothelial growth factor 2 (VEGF-2) |
DE10260805A1 (de) * | 2002-12-23 | 2004-07-22 | Geneart Gmbh | Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins |
JP4748685B2 (ja) * | 2003-01-31 | 2011-08-17 | プロメガ コーポレイション | タンパク質に対する官能基の共有結合的テザリング |
JP3928050B2 (ja) * | 2003-09-19 | 2007-06-13 | 大学共同利用機関法人情報・システム研究機構 | 塩基配列の分類システムおよびオリゴヌクレオチド出現頻度の解析システム |
GB0419424D0 (en) * | 2004-09-02 | 2004-10-06 | Viragen Scotland Ltd | Transgene optimisation |
US7728118B2 (en) * | 2004-09-17 | 2010-06-01 | Promega Corporation | Synthetic nucleic acid molecule compositions and methods of preparation |
-
2006
- 2006-11-30 JP JP2009512000A patent/JP5409354B2/ja active Active
- 2006-11-30 US US12/302,199 patent/US20090208955A1/en not_active Abandoned
- 2006-11-30 AU AU2006345511A patent/AU2006345511B2/en active Active
- 2006-11-30 CA CA2653256A patent/CA2653256C/en active Active
- 2006-11-30 WO PCT/US2006/045848 patent/WO2007139584A2/en active Application Filing
-
2012
- 2012-08-27 JP JP2012186111A patent/JP5727426B2/ja active Active
-
2014
- 2014-07-09 US US14/327,174 patent/US20140370544A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2009538131A (ja) | 2009-11-05 |
WO2007139584A3 (en) | 2009-04-23 |
JP2013013412A (ja) | 2013-01-24 |
AU2006345511B2 (en) | 2013-03-21 |
US20090208955A1 (en) | 2009-08-20 |
US20140370544A1 (en) | 2014-12-18 |
CA2653256A1 (en) | 2007-12-06 |
JP5727426B2 (ja) | 2015-06-03 |
AU2006345511A1 (en) | 2007-12-06 |
CA2653256C (en) | 2018-08-28 |
WO2007139584A2 (en) | 2007-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5409354B2 (ja) | 配列モチーフを同定するための方法、およびその応用 | |
US9493846B2 (en) | Virus discovery by sequencing and assembly of virus-derived siRNAS, miRNAs, piRNAs | |
Schoebel et al. | Detection and genetic characterisation of a novel mycovirus in Hymenoscyphus fraxineus, the causal agent of ash dieback | |
Boratto et al. | Yaravirus: A novel 80-nm virus infecting Acanthamoeba castellanii | |
Mushegian et al. | Changes in the composition of the RNA virome mark evolutionary transitions in green plants | |
Boros et al. | A diarrheic chicken simultaneously co-infected with multiple picornaviruses: Complete genome analysis of avian picornaviruses representing up to six genera | |
Meaden et al. | High viral abundance and low diversity are associated with increased CRISPR-Cas prevalence across microbial ecosystems | |
US12065651B2 (en) | Viral synthetic nucleic acid sequences and use thereof | |
Prabhakaran et al. | Aeromonas phages encode tRNAs for their overused codons | |
Robins et al. | The computational detection of functional nucleotide sequence motifs in the coding regions of organisms | |
Du et al. | Molecular characterization and pathogenicity of a novel soybean-infecting monopartite geminivirus in China | |
Lee et al. | A vast world of viroid-like circular RNAs revealed by mining metatranscriptomes | |
AU2013206364B2 (en) | Methods for identifying sequence motifs, and applications thereof | |
Moss et al. | In silico discovery and modeling of non-coding RNA structure in viruses | |
Yang et al. | Genomic and molecular characterization of a cyprinid herpesvirus 2 YC-01 strain isolated from gibel carp | |
Darooneh et al. | A novel statistical method predicts mutability of the genomic segments of the SARS-CoV-2 virus | |
Chatterjee | Autotransmutable Sequence: Targeting Spike (S) Glycoprotein of SARS-COV-2 | |
Sah et al. | Genomic sequence similarity of SARS-CoV2 nucleotide sequences using biopython: Key for finding cure and vaccines | |
Narayan et al. | In silico methods for the identification of viral-derived small interfering RNAs (vsiRNAs) and their application in plant genomics | |
Zhang et al. | Analysis on the genome of a teschovirus type 1 isolates with swine diarrhea | |
Zhang et al. | Potential Achilles heels of SARS-CoV-2 displayed by the base order-dependent component of RNA folding energy | |
dos Santos | Computational Genomics of Human-Infecting Microsporidia Species From the Genus Encephalitozoon | |
Yin et al. | The draft genome sequence of mandrill (Mandrillus sphinx) | |
Bessenay et al. | Complex transcriptional regulations of a hyperparasitic quadripartite system in giant viruses infecting protists | |
Dautović et al. | Molecular evolutionary analysis of the SARS-CoV-2 through the mutation analysis of Spike, Envelope and RdRp proteins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120625 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120702 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120725 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5409354 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |