BR112012010535B1 - Microrganismo transgênico, seus métodos de criação, bem como método de geração de uma sequência de identificadores de códon - Google Patents
Microrganismo transgênico, seus métodos de criação, bem como método de geração de uma sequência de identificadores de códon Download PDFInfo
- Publication number
- BR112012010535B1 BR112012010535B1 BR112012010535-3A BR112012010535A BR112012010535B1 BR 112012010535 B1 BR112012010535 B1 BR 112012010535B1 BR 112012010535 A BR112012010535 A BR 112012010535A BR 112012010535 B1 BR112012010535 B1 BR 112012010535B1
- Authority
- BR
- Brazil
- Prior art keywords
- sequence
- human readable
- codon
- symbol
- nucleic acid
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 131
- 244000005700 microbiome Species 0.000 title claims description 17
- 230000009261 transgenic effect Effects 0.000 title claims description 15
- 108020004705 Codon Proteins 0.000 claims abstract description 308
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 139
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 95
- 230000002068 genetic effect Effects 0.000 claims abstract description 76
- 238000013507 mapping Methods 0.000 claims abstract description 56
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 9
- 210000004027 cell Anatomy 0.000 claims description 128
- 108091081024 Start codon Proteins 0.000 claims description 45
- 239000002773 nucleotide Substances 0.000 claims description 43
- 125000003729 nucleotide group Chemical group 0.000 claims description 37
- 102000039446 nucleic acids Human genes 0.000 claims description 36
- 108020004707 nucleic acids Proteins 0.000 claims description 36
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 10
- 241000195493 Cryptophyta Species 0.000 claims description 9
- 230000001580 bacterial effect Effects 0.000 claims description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 230000002538 fungal effect Effects 0.000 claims description 5
- 210000005253 yeast cell Anatomy 0.000 claims description 5
- 238000011068 loading method Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 239000000592 Artificial Cell Substances 0.000 abstract description 27
- 210000001072 colon Anatomy 0.000 abstract 1
- 102000053602 DNA Human genes 0.000 description 54
- 108020004414 DNA Proteins 0.000 description 54
- 241000700605 Viruses Species 0.000 description 42
- 230000008569 process Effects 0.000 description 42
- 108090000623 proteins and genes Proteins 0.000 description 35
- 238000009826 distribution Methods 0.000 description 33
- 239000000523 sample Substances 0.000 description 30
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 29
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 29
- 230000006870 function Effects 0.000 description 23
- 241000202936 Mycoplasma mycoides Species 0.000 description 19
- 229920002477 rna polymer Polymers 0.000 description 17
- 150000001413 amino acids Chemical class 0.000 description 15
- 230000001131 transforming effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 241000196324 Embryophyta Species 0.000 description 13
- 241001465754 Metazoa Species 0.000 description 13
- 241000894007 species Species 0.000 description 13
- 239000000463 material Substances 0.000 description 12
- 102000004169 proteins and genes Human genes 0.000 description 12
- 229920000936 Agarose Polymers 0.000 description 11
- 241000894006 Bacteria Species 0.000 description 11
- 108091026890 Coding region Proteins 0.000 description 11
- 210000000349 chromosome Anatomy 0.000 description 11
- 239000013612 plasmid Substances 0.000 description 11
- 238000012163 sequencing technique Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- 108700010070 Codon Usage Proteins 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 8
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 241000233866 Fungi Species 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 210000003527 eukaryotic cell Anatomy 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 108091093088 Amplicon Proteins 0.000 description 6
- 241000282412 Homo Species 0.000 description 6
- 241000204025 Mycoplasma capricolum Species 0.000 description 6
- 241000283984 Rodentia Species 0.000 description 6
- -1 acids nucleic acids Chemical class 0.000 description 6
- 210000004102 animal cell Anatomy 0.000 description 6
- 239000000543 intermediate Substances 0.000 description 6
- 102000054765 polymorphisms of proteins Human genes 0.000 description 6
- 102000040430 polynucleotide Human genes 0.000 description 6
- 108091033319 polynucleotide Proteins 0.000 description 6
- 239000002157 polynucleotide Substances 0.000 description 6
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 6
- 241000203069 Archaea Species 0.000 description 5
- 241000195940 Bryophyta Species 0.000 description 5
- 241000288906 Primates Species 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 108090000765 processed proteins & peptides Proteins 0.000 description 5
- 229930024421 Adenine Natural products 0.000 description 4
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 4
- 241000283690 Bos taurus Species 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 4
- 241000283086 Equidae Species 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 4
- 241001494479 Pecora Species 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 239000002253 acid Substances 0.000 description 4
- 229960000643 adenine Drugs 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 229940104302 cytosine Drugs 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000007403 mPCR Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 241000222120 Candida <Saccharomycetales> Species 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 241000985694 Polypodiopsida Species 0.000 description 3
- 241000282887 Suidae Species 0.000 description 3
- 230000002378 acidificating effect Effects 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 3
- 230000000692 anti-sense effect Effects 0.000 description 3
- 210000004507 artificial chromosome Anatomy 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000003599 detergent Substances 0.000 description 3
- 235000015872 dietary supplement Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 210000001161 mammalian embryo Anatomy 0.000 description 3
- 229920001184 polypeptide Polymers 0.000 description 3
- 102000004196 processed proteins & peptides Human genes 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 238000001890 transfection Methods 0.000 description 3
- 238000002054 transplantation Methods 0.000 description 3
- UHPMCKVQTMMPCG-UHFFFAOYSA-N 5,8-dihydroxy-2-methoxy-6-methyl-7-(2-oxopropyl)naphthalene-1,4-dione Chemical compound CC1=C(CC(C)=O)C(O)=C2C(=O)C(OC)=CC(=O)C2=C1O UHPMCKVQTMMPCG-UHFFFAOYSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 241000235349 Ascomycota Species 0.000 description 2
- 241000193830 Bacillus <bacterium> Species 0.000 description 2
- 241000221198 Basidiomycota Species 0.000 description 2
- 108091033409 CRISPR Proteins 0.000 description 2
- 238000010354 CRISPR gene editing Methods 0.000 description 2
- 101100043731 Caenorhabditis elegans syx-3 gene Proteins 0.000 description 2
- 241000195649 Chlorella <Chlorellales> Species 0.000 description 2
- 108091033380 Coding strand Proteins 0.000 description 2
- 241000371644 Curvularia ravenelii Species 0.000 description 2
- 241000592295 Cycadophyta Species 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 101100535673 Drosophila melanogaster Syn gene Proteins 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 241000192125 Firmicutes Species 0.000 description 2
- 241000223218 Fusarium Species 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 244000285963 Kluyveromyces fragilis Species 0.000 description 2
- 235000014663 Kluyveromyces fragilis Nutrition 0.000 description 2
- 241001138401 Kluyveromyces lactis Species 0.000 description 2
- 241000218922 Magnoliophyta Species 0.000 description 2
- 241000196323 Marchantiophyta Species 0.000 description 2
- 101100368134 Mus musculus Syn1 gene Proteins 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 241000588653 Neisseria Species 0.000 description 2
- 108091005804 Peptidases Proteins 0.000 description 2
- 241000425347 Phyla <beetle> Species 0.000 description 2
- 241000235648 Pichia Species 0.000 description 2
- 239000004365 Protease Substances 0.000 description 2
- 241000228454 Pyrenophora graminea Species 0.000 description 2
- 241000232299 Ralstonia Species 0.000 description 2
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 2
- 241000223252 Rhodotorula Species 0.000 description 2
- 108091028664 Ribonucleotide Proteins 0.000 description 2
- 241000192707 Synechococcus Species 0.000 description 2
- 239000004098 Tetracycline Substances 0.000 description 2
- 241000219094 Vitaceae Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 244000309464 bull Species 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000003833 cell viability Effects 0.000 description 2
- 210000002421 cell wall Anatomy 0.000 description 2
- 238000000975 co-precipitation Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000005547 deoxyribonucleotide Substances 0.000 description 2
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000499 gel Substances 0.000 description 2
- 238000001502 gel electrophoresis Methods 0.000 description 2
- 235000021021 grapes Nutrition 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 239000006101 laboratory sample Substances 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000002515 oligonucleotide synthesis Methods 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 150000008300 phosphoramidites Chemical class 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000002336 ribonucleotide Substances 0.000 description 2
- 125000002652 ribonucleotide group Chemical group 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 241000114864 ssRNA viruses Species 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 229960002180 tetracycline Drugs 0.000 description 2
- 229930101283 tetracycline Natural products 0.000 description 2
- 235000019364 tetracycline Nutrition 0.000 description 2
- 150000003522 tetracyclines Chemical class 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 229960005486 vaccine Drugs 0.000 description 2
- 108700026220 vif Genes Proteins 0.000 description 2
- OJHZNMVJJKMFGX-RNWHKREASA-N (4r,4ar,7ar,12bs)-9-methoxy-3-methyl-1,2,4,4a,5,6,7a,13-octahydro-4,12-methanobenzofuro[3,2-e]isoquinoline-7-one;2,3-dihydroxybutanedioic acid Chemical compound OC(=O)C(O)C(O)C(O)=O.O=C([C@@H]1O2)CC[C@H]3[C@]4([H])N(C)CC[C@]13C1=C2C(OC)=CC=C1C4 OJHZNMVJJKMFGX-RNWHKREASA-N 0.000 description 1
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- OPIFSICVWOWJMJ-AEOCFKNESA-N 5-bromo-4-chloro-3-indolyl beta-D-galactoside Chemical compound O[C@@H]1[C@@H](O)[C@@H](O)[C@@H](CO)O[C@H]1OC1=CNC2=CC=C(Br)C(Cl)=C12 OPIFSICVWOWJMJ-AEOCFKNESA-N 0.000 description 1
- 241001607836 Achnanthes Species 0.000 description 1
- 241000218592 Acidovorax delafieldii Species 0.000 description 1
- 241000588626 Acinetobacter baumannii Species 0.000 description 1
- 241001503974 Adriana Species 0.000 description 1
- 241000607574 Aeromonas veronii Species 0.000 description 1
- 229920001817 Agar Polymers 0.000 description 1
- 235000016626 Agrimonia eupatoria Nutrition 0.000 description 1
- 241000640374 Alicyclobacillus acidocaldarius Species 0.000 description 1
- 241000213004 Alternaria solani Species 0.000 description 1
- QGZKDVFQNNGYKY-UHFFFAOYSA-O Ammonium Chemical compound [NH4+] QGZKDVFQNNGYKY-UHFFFAOYSA-O 0.000 description 1
- 239000005695 Ammonium acetate Substances 0.000 description 1
- 241000091673 Amphiprora Species 0.000 description 1
- 241000611184 Amphora Species 0.000 description 1
- 241000192542 Anabaena Species 0.000 description 1
- 241000149144 Anabaenopsis Species 0.000 description 1
- 241000196169 Ankistrodesmus Species 0.000 description 1
- 241000736282 Anthocerotophyta Species 0.000 description 1
- 241000192660 Aphanizomenon Species 0.000 description 1
- 101100163869 Arabidopsis thaliana AS1 gene Proteins 0.000 description 1
- 101100509468 Arabidopsis thaliana JASON gene Proteins 0.000 description 1
- 241001424309 Arita Species 0.000 description 1
- 241000238421 Arthropoda Species 0.000 description 1
- 241001495180 Arthrospira Species 0.000 description 1
- 240000002900 Arthrospira platensis Species 0.000 description 1
- 235000016425 Arthrospira platensis Nutrition 0.000 description 1
- 241001273451 Ascochyta pisi Species 0.000 description 1
- 241000228212 Aspergillus Species 0.000 description 1
- 241000228245 Aspergillus niger Species 0.000 description 1
- 241000196313 Asteromonas Species 0.000 description 1
- 241001530056 Athelia rolfsii Species 0.000 description 1
- 241000223678 Aureobasidium pullulans Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000193755 Bacillus cereus Species 0.000 description 1
- 241000193752 Bacillus circulans Species 0.000 description 1
- 241000194108 Bacillus licheniformis Species 0.000 description 1
- 241000194103 Bacillus pumilus Species 0.000 description 1
- 244000063299 Bacillus subtilis Species 0.000 description 1
- 235000014469 Bacillus subtilis Nutrition 0.000 description 1
- 241000760381 Blastocladiomycetes Species 0.000 description 1
- 241001273338 Boeremia foveata Species 0.000 description 1
- 241000588779 Bordetella bronchiseptica Species 0.000 description 1
- 241001536324 Botryococcus Species 0.000 description 1
- 241000123650 Botrytis cinerea Species 0.000 description 1
- 241000534630 Brevibacillus choshinensis Species 0.000 description 1
- 241000186146 Brevibacterium Species 0.000 description 1
- 240000008213 Brosimum alicastrum Species 0.000 description 1
- 241000589513 Burkholderia cepacia Species 0.000 description 1
- 241000244203 Caenorhabditis elegans Species 0.000 description 1
- 241000192685 Calothrix Species 0.000 description 1
- 241000222122 Candida albicans Species 0.000 description 1
- 241000222178 Candida tropicalis Species 0.000 description 1
- 241000218459 Carteria Species 0.000 description 1
- 235000006719 Cassia obtusifolia Nutrition 0.000 description 1
- 244000201986 Cassia tora Species 0.000 description 1
- 235000014552 Cassia tora Nutrition 0.000 description 1
- 241001290235 Ceratobasidium cereale Species 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001157813 Cercospora Species 0.000 description 1
- 241000530549 Cercospora beticola Species 0.000 description 1
- 241000227752 Chaetoceros Species 0.000 description 1
- 241000221955 Chaetomium Species 0.000 description 1
- 241001515917 Chaetomium globosum Species 0.000 description 1
- 241001611009 Chamaesiphon Species 0.000 description 1
- 241000195585 Chlamydomonas Species 0.000 description 1
- 241000191368 Chlorobi Species 0.000 description 1
- 241000180279 Chlorococcum Species 0.000 description 1
- 241001142109 Chloroflexi Species 0.000 description 1
- 241000192703 Chlorogloeopsis Species 0.000 description 1
- 241000508318 Chlorogonium Species 0.000 description 1
- 241000190834 Chromatiaceae Species 0.000 description 1
- 241000531074 Chroococcidiopsis Species 0.000 description 1
- 241001219477 Chroococcus Species 0.000 description 1
- 241000195492 Chroomonas Species 0.000 description 1
- 241000391097 Chrysosphaera Species 0.000 description 1
- 241000760356 Chytridiomycetes Species 0.000 description 1
- 108020004638 Circular DNA Proteins 0.000 description 1
- 241000588923 Citrobacter Species 0.000 description 1
- 241000588919 Citrobacter freundii Species 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000222290 Cladosporium Species 0.000 description 1
- 241001112696 Clostridia Species 0.000 description 1
- 241000193470 Clostridium sporogenes Species 0.000 description 1
- 241000589519 Comamonas Species 0.000 description 1
- 241000218631 Coniferophyta Species 0.000 description 1
- 241001600093 Coniophora Species 0.000 description 1
- 241001600095 Coniophora puteana Species 0.000 description 1
- 241000186246 Corynebacterium renale Species 0.000 description 1
- 241000652564 Coryneum Species 0.000 description 1
- 241001137853 Crenarchaeota Species 0.000 description 1
- 241001245609 Cricosphaera Species 0.000 description 1
- 241000973888 Crinalium Species 0.000 description 1
- 241000199913 Crypthecodinium Species 0.000 description 1
- 201000007336 Cryptococcosis Diseases 0.000 description 1
- 241001337994 Cryptococcus <scale insect> Species 0.000 description 1
- 241000221204 Cryptococcus neoformans Species 0.000 description 1
- 241000195618 Cryptomonas Species 0.000 description 1
- 241000252867 Cupriavidus metallidurans Species 0.000 description 1
- 241000186427 Cutibacterium acnes Species 0.000 description 1
- 241000192700 Cyanobacteria Species 0.000 description 1
- 241001464430 Cyanobacterium Species 0.000 description 1
- 241000414116 Cyanobium Species 0.000 description 1
- 241001353641 Cyanocystis Species 0.000 description 1
- 241000380046 Cyanospira Species 0.000 description 1
- 241000159506 Cyanothece Species 0.000 description 1
- 241001147476 Cyclotella Species 0.000 description 1
- 241001299740 Cylindrospermopsis Species 0.000 description 1
- 241000565779 Cylindrospermum Species 0.000 description 1
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 241000450599 DNA viruses Species 0.000 description 1
- 241000721041 Dactylococcopsis Species 0.000 description 1
- 241000252212 Danio rerio Species 0.000 description 1
- 241000192093 Deinococcus Species 0.000 description 1
- 241000192091 Deinococcus radiodurans Species 0.000 description 1
- 241001600129 Delftia Species 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 241000530784 Dermocarpella Species 0.000 description 1
- 229920002307 Dextran Polymers 0.000 description 1
- 241001306390 Diaporthe ampelina Species 0.000 description 1
- 241000255601 Drosophila melanogaster Species 0.000 description 1
- 241000195634 Dunaliella Species 0.000 description 1
- 241000200106 Emiliania Species 0.000 description 1
- 241000588697 Enterobacter cloacae Species 0.000 description 1
- 241000587112 Enterobacteriaceae sp. Species 0.000 description 1
- 241000195955 Equisetum hyemale Species 0.000 description 1
- 241000354295 Eremosphaera Species 0.000 description 1
- 241000221787 Erysiphe Species 0.000 description 1
- 241000495778 Escherichia faecalis Species 0.000 description 1
- 241000195620 Euglena Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 241000383888 Euparkerella Species 0.000 description 1
- 241001137858 Euryarchaeota Species 0.000 description 1
- 241000192601 Fischerella Species 0.000 description 1
- 241001466505 Fragilaria Species 0.000 description 1
- 241000923853 Franceia Species 0.000 description 1
- 241000223194 Fusarium culmorum Species 0.000 description 1
- 241000223221 Fusarium oxysporum Species 0.000 description 1
- 241000221779 Fusarium sambucinum Species 0.000 description 1
- 241000892911 Geitlerinema Species 0.000 description 1
- 241000626621 Geobacillus Species 0.000 description 1
- 235000011201 Ginkgo Nutrition 0.000 description 1
- 244000194101 Ginkgo biloba Species 0.000 description 1
- 235000008100 Ginkgo biloba Nutrition 0.000 description 1
- 241000592346 Ginkgophyta Species 0.000 description 1
- 241001464794 Gloeobacter Species 0.000 description 1
- 241001464427 Gloeocapsa Species 0.000 description 1
- 241001134702 Gloeothece Species 0.000 description 1
- 241001583501 Glomeromycetes Species 0.000 description 1
- 241000592348 Gnetophyta Species 0.000 description 1
- 241000896246 Golovinomyces cichoracearum Species 0.000 description 1
- 241001517118 Goose parvovirus Species 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 241000777639 Gracilibacillus dipsosauri Species 0.000 description 1
- 241000644555 Guppy reovirus Species 0.000 description 1
- 241000168525 Haematococcus Species 0.000 description 1
- 241000606768 Haemophilus influenzae Species 0.000 description 1
- 241001106237 Halocafeteria Species 0.000 description 1
- 241000549847 Halospirulina Species 0.000 description 1
- 244000286779 Hansenula anomala Species 0.000 description 1
- 235000014683 Hansenula anomala Nutrition 0.000 description 1
- 241000589989 Helicobacter Species 0.000 description 1
- 102100039869 Histone H2B type F-S Human genes 0.000 description 1
- 101001035372 Homo sapiens Histone H2B type F-S Proteins 0.000 description 1
- 241000922020 Hydrogenophaga palleronii Species 0.000 description 1
- 235000003332 Ilex aquifolium Nutrition 0.000 description 1
- 235000002296 Ilex sandwicensis Nutrition 0.000 description 1
- 235000002294 Ilex volkensiana Nutrition 0.000 description 1
- 241001501885 Isochrysis Species 0.000 description 1
- 229930188970 Justin Natural products 0.000 description 1
- 241000588748 Klebsiella Species 0.000 description 1
- 241000588749 Klebsiella oxytoca Species 0.000 description 1
- 201000008225 Klebsiella pneumonia Diseases 0.000 description 1
- 241000588747 Klebsiella pneumoniae Species 0.000 description 1
- 241000881812 Kluyvera intermedia Species 0.000 description 1
- 241000235649 Kluyveromyces Species 0.000 description 1
- 241000579722 Kocuria Species 0.000 description 1
- 241001524190 Kocuria kristinae Species 0.000 description 1
- 241001247311 Kocuria rhizophila Species 0.000 description 1
- 241000191948 Kocuria rosea Species 0.000 description 1
- 241000235058 Komagataella pastoris Species 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 241000589248 Legionella Species 0.000 description 1
- 208000007764 Legionnaires' Disease Diseases 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 241000936931 Lepocinclis Species 0.000 description 1
- 241000215457 Leptolyngbya Species 0.000 description 1
- 241000228457 Leptosphaeria maculans Species 0.000 description 1
- 241000913084 Limnothrix Species 0.000 description 1
- 241000186781 Listeria Species 0.000 description 1
- 241000186779 Listeria monocytogenes Species 0.000 description 1
- 241000758962 Lycopodiopsida Species 0.000 description 1
- 241000195947 Lycopodium Species 0.000 description 1
- 241001134698 Lyngbya Species 0.000 description 1
- VAYOSLLFUXYJDT-RDTXWAMCSA-N Lysergic acid diethylamide Chemical compound C1=CC(C=2[C@H](N(C)C[C@@H](C=2)C(=O)N(CC)CC)C2)=C3C2=CNC3=C1 VAYOSLLFUXYJDT-RDTXWAMCSA-N 0.000 description 1
- 241000193386 Lysinibacillus sphaericus Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001661269 Marssonina Species 0.000 description 1
- 241001555627 Melonis Species 0.000 description 1
- 201000009906 Meningitis Diseases 0.000 description 1
- 241000520876 Merismopedia Species 0.000 description 1
- 241000586743 Micractinium Species 0.000 description 1
- 241000983412 Microbacterium saperdae Species 0.000 description 1
- 241001139348 Microchaete Species 0.000 description 1
- 241000192041 Micrococcus Species 0.000 description 1
- 241000179980 Microcoleus Species 0.000 description 1
- 241000192701 Microcystis Species 0.000 description 1
- 241000243190 Microsporidia Species 0.000 description 1
- 241000862466 Monilinia laxa Species 0.000 description 1
- 241001459558 Monographella nivalis Species 0.000 description 1
- 241001478792 Monoraphidium Species 0.000 description 1
- 241000588772 Morganella morganii Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000282339 Mustela Species 0.000 description 1
- 241000186359 Mycobacterium Species 0.000 description 1
- 241000186367 Mycobacterium avium Species 0.000 description 1
- 241000204031 Mycoplasma Species 0.000 description 1
- 241000204022 Mycoplasma gallisepticum Species 0.000 description 1
- 241000204051 Mycoplasma genitalium Species 0.000 description 1
- 241000204048 Mycoplasma hominis Species 0.000 description 1
- 241000204045 Mycoplasma hyopneumoniae Species 0.000 description 1
- 241000123119 Mycoplasma mycoides subsp. capri Species 0.000 description 1
- 241000202934 Mycoplasma pneumoniae Species 0.000 description 1
- 241000204003 Mycoplasmatales Species 0.000 description 1
- 241000589588 Myroides odoratus Species 0.000 description 1
- 241000511380 Myxosarcina Species 0.000 description 1
- PYUSHNKNPOHWEZ-YFKPBYRVSA-N N-formyl-L-methionine Chemical compound CSCC[C@@H](C(O)=O)NC=O PYUSHNKNPOHWEZ-YFKPBYRVSA-N 0.000 description 1
- 108091061960 Naked DNA Proteins 0.000 description 1
- 241000196305 Nannochloris Species 0.000 description 1
- 241000224474 Nannochloropsis Species 0.000 description 1
- 241000502321 Navicula Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 241000760367 Neocallimastigomycetes Species 0.000 description 1
- 241000195644 Neochloris Species 0.000 description 1
- 241001442227 Nephroselmis Species 0.000 description 1
- 241000180701 Nitzschia <flatworm> Species 0.000 description 1
- 241000059630 Nodularia <Cyanobacteria> Species 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 241000192656 Nostoc Species 0.000 description 1
- WXOMTJVVIMOXJL-BOBFKVMVSA-A O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)OS(=O)(=O)OC[C@H]1O[C@@H](O[C@]2(COS(=O)(=O)O[Al](O)O)O[C@H](OS(=O)(=O)O[Al](O)O)[C@@H](OS(=O)(=O)O[Al](O)O)[C@@H]2OS(=O)(=O)O[Al](O)O)[C@H](OS(=O)(=O)O[Al](O)O)[C@@H](OS(=O)(=O)O[Al](O)O)[C@@H]1OS(=O)(=O)O[Al](O)O Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)O.O[Al](O)OS(=O)(=O)OC[C@H]1O[C@@H](O[C@]2(COS(=O)(=O)O[Al](O)O)O[C@H](OS(=O)(=O)O[Al](O)O)[C@@H](OS(=O)(=O)O[Al](O)O)[C@@H]2OS(=O)(=O)O[Al](O)O)[C@H](OS(=O)(=O)O[Al](O)O)[C@@H](OS(=O)(=O)O[Al](O)O)[C@@H]1OS(=O)(=O)O[Al](O)O WXOMTJVVIMOXJL-BOBFKVMVSA-A 0.000 description 1
- 241000588814 Ochrobactrum anthropi Species 0.000 description 1
- 241000199478 Ochromonas Species 0.000 description 1
- 241001668536 Oculimacula yallundae Species 0.000 description 1
- 241000546131 Oedogonium Species 0.000 description 1
- 241000320412 Ogataea angusta Species 0.000 description 1
- 241000514008 Oocystis Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 241000192497 Oscillatoria Species 0.000 description 1
- 241001221669 Ostreococcus Species 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 241000179039 Paenibacillus Species 0.000 description 1
- 241000611786 Paenibacillus glucanolyticus Species 0.000 description 1
- 241000194105 Paenibacillus polymyxa Species 0.000 description 1
- 241000282579 Pan Species 0.000 description 1
- 241000588696 Pantoea ananatis Species 0.000 description 1
- 241000222051 Papiliotrema laurentii Species 0.000 description 1
- 241001036353 Parachlorella Species 0.000 description 1
- 241000611236 Paracoccus marcusii Species 0.000 description 1
- 241000736122 Parastagonospora nodorum Species 0.000 description 1
- 241000206766 Pavlova Species 0.000 description 1
- 241001123663 Penicillium expansum Species 0.000 description 1
- 241001223281 Peronospora Species 0.000 description 1
- 241000582441 Peronospora tabacina Species 0.000 description 1
- 241000206731 Phaeodactylum Species 0.000 description 1
- 241000975369 Phoma betae Species 0.000 description 1
- 241000192608 Phormidium Species 0.000 description 1
- 241000210649 Phyllosticta ampelicida Species 0.000 description 1
- 241001149949 Phytophthora cactorum Species 0.000 description 1
- 241000233616 Phytophthora capsici Species 0.000 description 1
- 241000233618 Phytophthora cinnamomi Species 0.000 description 1
- 241000233624 Phytophthora megasperma Species 0.000 description 1
- 241000233629 Phytophthora parasitica Species 0.000 description 1
- 241000948156 Phytophthora syringae Species 0.000 description 1
- 241000709664 Picornaviridae Species 0.000 description 1
- 241000530769 Planktothrix Species 0.000 description 1
- 241000196317 Platymonas Species 0.000 description 1
- 241000179979 Pleurocapsa Species 0.000 description 1
- 241000722208 Pleurochrysis Species 0.000 description 1
- 241000996896 Pleurococcus Species 0.000 description 1
- 206010035717 Pneumonia klebsiella Diseases 0.000 description 1
- 241000209504 Poaceae Species 0.000 description 1
- 241000282405 Pongo abelii Species 0.000 description 1
- 241000192138 Prochlorococcus Species 0.000 description 1
- 241000192141 Prochloron Species 0.000 description 1
- 241000192144 Prochlorothrix Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 241000588767 Proteus vulgaris Species 0.000 description 1
- 241000196250 Prototheca Species 0.000 description 1
- 241000588777 Providencia rettgeri Species 0.000 description 1
- 241000192511 Pseudanabaena Species 0.000 description 1
- 241000087479 Pseudocercospora fijiensis Species 0.000 description 1
- 241000682843 Pseudocercosporella Species 0.000 description 1
- 241000947836 Pseudomonadaceae Species 0.000 description 1
- 241000589516 Pseudomonas Species 0.000 description 1
- 241000589517 Pseudomonas aeruginosa Species 0.000 description 1
- 241000589540 Pseudomonas fluorescens Species 0.000 description 1
- 241000589776 Pseudomonas putida Species 0.000 description 1
- 241000589614 Pseudomonas stutzeri Species 0.000 description 1
- 241000195965 Psilotopsida Species 0.000 description 1
- 235000007959 Psilotum nudum Nutrition 0.000 description 1
- 241001509341 Pyramimonas Species 0.000 description 1
- 241000520648 Pyrenophora teres Species 0.000 description 1
- 241000195604 Pyrobotrys Species 0.000 description 1
- 241000233639 Pythium Species 0.000 description 1
- 238000002123 RNA extraction Methods 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 241001361634 Rhizoctonia Species 0.000 description 1
- 241000813090 Rhizoctonia solani Species 0.000 description 1
- 241000158504 Rhodococcus hoagii Species 0.000 description 1
- 241000131970 Rhodospirillaceae Species 0.000 description 1
- 241000223254 Rhodotorula mucilaginosa Species 0.000 description 1
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 1
- 241001575211 Rivularia <snail> Species 0.000 description 1
- BFDMCHRDSYTOLE-UHFFFAOYSA-N SC#N.NC(N)=N.ClC(Cl)Cl.OC1=CC=CC=C1 Chemical compound SC#N.NC(N)=N.ClC(Cl)Cl.OC1=CC=CC=C1 BFDMCHRDSYTOLE-UHFFFAOYSA-N 0.000 description 1
- 241000235070 Saccharomyces Species 0.000 description 1
- 235000003534 Saccharomyces carlsbergensis Nutrition 0.000 description 1
- 241001123227 Saccharomyces pastorianus Species 0.000 description 1
- 241000607142 Salmonella Species 0.000 description 1
- 241000293869 Salmonella enterica subsp. enterica serovar Typhimurium Species 0.000 description 1
- 241000195663 Scenedesmus Species 0.000 description 1
- 241000233671 Schizochytrium Species 0.000 description 1
- 241000235346 Schizosaccharomyces Species 0.000 description 1
- 241000235347 Schizosaccharomyces pombe Species 0.000 description 1
- 241000970913 Schizothrix Species 0.000 description 1
- 241000221696 Sclerotinia sclerotiorum Species 0.000 description 1
- 241000192120 Scytonema Species 0.000 description 1
- 241001533598 Septoria Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 241000607720 Serratia Species 0.000 description 1
- 241000607717 Serratia liquefaciens Species 0.000 description 1
- 241000607715 Serratia marcescens Species 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 241000206733 Skeletonema Species 0.000 description 1
- VMHLLURERBWHNL-UHFFFAOYSA-M Sodium acetate Chemical compound [Na+].CC([O-])=O VMHLLURERBWHNL-UHFFFAOYSA-M 0.000 description 1
- 240000006394 Sorghum bicolor Species 0.000 description 1
- 241000592344 Spermatophyta Species 0.000 description 1
- 241001464990 Stanieria Species 0.000 description 1
- 241000191940 Staphylococcus Species 0.000 description 1
- 241000191967 Staphylococcus aureus Species 0.000 description 1
- 241001147687 Staphylococcus auricularis Species 0.000 description 1
- 241001147736 Staphylococcus capitis Species 0.000 description 1
- 241000191963 Staphylococcus epidermidis Species 0.000 description 1
- 241000973891 Starria Species 0.000 description 1
- 241000122971 Stenotrophomonas Species 0.000 description 1
- 241001148696 Stichococcus Species 0.000 description 1
- 241000243446 Stigonema Species 0.000 description 1
- 241000194017 Streptococcus Species 0.000 description 1
- 241000194023 Streptococcus sanguinis Species 0.000 description 1
- 241001512067 Symploca Species 0.000 description 1
- 241000192584 Synechocystis Species 0.000 description 1
- 241000196321 Tetraselmis Species 0.000 description 1
- 241001491691 Thalassiosira Species 0.000 description 1
- 241000170370 Thaumarchaeota Species 0.000 description 1
- RYYWUUFWQRZTIU-UHFFFAOYSA-N Thiophosphoric acid Chemical class OP(O)(S)=O RYYWUUFWQRZTIU-UHFFFAOYSA-N 0.000 description 1
- 241000233675 Thraustochytrium Species 0.000 description 1
- 241000157473 Tolypothrix Species 0.000 description 1
- 241000592342 Tracheophyta Species 0.000 description 1
- 241000192118 Trichodesmium Species 0.000 description 1
- 241000530641 Tychonema Species 0.000 description 1
- 108091023045 Untranslated Region Proteins 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 241000143950 Vanessa Species 0.000 description 1
- 241000222050 Vanrija humicola Species 0.000 description 1
- 241000510009 Varanus griseus Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 241001123668 Verticillium dahliae Species 0.000 description 1
- 241000607626 Vibrio cholerae Species 0.000 description 1
- 241000607493 Vibrionaceae Species 0.000 description 1
- 241001411205 Viridiella Species 0.000 description 1
- 241000195615 Volvox Species 0.000 description 1
- 241000511385 Xenococcus Species 0.000 description 1
- 241000235013 Yarrowia Species 0.000 description 1
- 241000235015 Yarrowia lipolytica Species 0.000 description 1
- 241001135251 Yersinia kristensenii Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 241001360088 Zymoseptoria tritici Species 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 239000008272 agar Substances 0.000 description 1
- 150000001298 alcohols Chemical class 0.000 description 1
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 1
- 229940043376 ammonium acetate Drugs 0.000 description 1
- 235000019257 ammonium acetate Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000003578 bacterial chromosome Anatomy 0.000 description 1
- 229960001212 bacterial vaccine Drugs 0.000 description 1
- CJPQIRJHIZUAQP-MRXNPFEDSA-N benalaxyl-M Chemical compound CC=1C=CC=C(C)C=1N([C@H](C)C(=O)OC)C(=O)CC1=CC=CC=C1 CJPQIRJHIZUAQP-MRXNPFEDSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 102000005936 beta-Galactosidase Human genes 0.000 description 1
- 108010005774 beta-Galactosidase Proteins 0.000 description 1
- 239000002551 biofuel Substances 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- XGOQVDSNQJJHTN-VRHVFUOLSA-N busam Chemical compound O1C(=O)\C=C/C=C\C(C(O)C)OCC(O)C(C)(OC(C)=O)CC(=O)OCC23CCC(C)=CC2OC2CC1C3(C)C21CO1 XGOQVDSNQJJHTN-VRHVFUOLSA-N 0.000 description 1
- 239000001506 calcium phosphate Substances 0.000 description 1
- 229910000389 calcium phosphate Inorganic materials 0.000 description 1
- 235000011010 calcium phosphates Nutrition 0.000 description 1
- 229940095731 candida albicans Drugs 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 125000002091 cationic group Chemical group 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000006037 cell lysis Effects 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002738 chelating agent Substances 0.000 description 1
- YTRQFSDWAXHJCC-UHFFFAOYSA-N chloroform;phenol Chemical compound ClC(Cl)Cl.OC1=CC=CC=C1 YTRQFSDWAXHJCC-UHFFFAOYSA-N 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000004690 coupled electron pair approximation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 241001492478 dsDNA viruses, no RNA stage Species 0.000 description 1
- 241001493065 dsRNA viruses Species 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000004520 electroporation Methods 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000012224 gene deletion Methods 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 230000005017 genetic modification Effects 0.000 description 1
- 238000012248 genetic selection Methods 0.000 description 1
- 235000013617 genetically modified food Nutrition 0.000 description 1
- 235000003869 genetically modified organism Nutrition 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 210000003783 haploid cell Anatomy 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 125000000623 heterocyclic group Chemical group 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 229940031551 inactivated vaccine Drugs 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 239000003262 industrial enzyme Substances 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- YOBAEOGBNPPUQV-UHFFFAOYSA-N iron;trihydrate Chemical compound O.O.O.[Fe].[Fe] YOBAEOGBNPPUQV-UHFFFAOYSA-N 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 239000002502 liposome Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 239000011859 microparticle Substances 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000011278 mitosis Effects 0.000 description 1
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 description 1
- 229940076266 morganella morganii Drugs 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 108010020615 nociceptin receptor Proteins 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000001668 nucleic acid synthesis Methods 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 239000011022 opal Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 235000012162 pavlova Nutrition 0.000 description 1
- 150000002972 pentoses Chemical group 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229940083251 peripheral vasodilators purine derivative Drugs 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002205 phenol-chloroform extraction Methods 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 230000000243 photosynthetic effect Effects 0.000 description 1
- 230000008635 plant growth Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 230000001376 precipitating effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 229940055019 propionibacterium acne Drugs 0.000 description 1
- 229940007042 proteus vulgaris Drugs 0.000 description 1
- 229940083082 pyrimidine derivative acting on arteriolar smooth muscle Drugs 0.000 description 1
- 150000003230 pyrimidines Chemical class 0.000 description 1
- 150000004053 quinones Chemical class 0.000 description 1
- 235000005828 ramon Nutrition 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000014639 sexual reproduction Effects 0.000 description 1
- 239000013605 shuttle vector Substances 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 239000001632 sodium acetate Substances 0.000 description 1
- 235000017281 sodium acetate Nutrition 0.000 description 1
- 238000010532 solid phase synthesis reaction Methods 0.000 description 1
- 229940082787 spirulina Drugs 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000005030 transcription termination Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 description 1
- JOPDZQBPOWAEHC-UHFFFAOYSA-H tristrontium;diphosphate Chemical compound [Sr+2].[Sr+2].[Sr+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O JOPDZQBPOWAEHC-UHFFFAOYSA-H 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- WFKWXMTUELFFGS-UHFFFAOYSA-N tungsten Chemical compound [W] WFKWXMTUELFFGS-UHFFFAOYSA-N 0.000 description 1
- 229910052721 tungsten Inorganic materials 0.000 description 1
- 239000010937 tungsten Substances 0.000 description 1
- 229910021642 ultra pure water Inorganic materials 0.000 description 1
- 239000012498 ultrapure water Substances 0.000 description 1
- 241000701161 unidentified adenovirus Species 0.000 description 1
- 241001529453 unidentified herpesvirus Species 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000003981 vehicle Substances 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 229960004854 viral vaccine Drugs 0.000 description 1
- 235000013618 yogurt Nutrition 0.000 description 1
Abstract
CODIFICAÇÃO DE TEXTO EM SEQUÊNCIA DE ÁCIDOS NUCLEICOS. Os métodos e dispositivos são descritos neste pedido para codificação de texto legível humano que transmita uma mensagem não genética em sequências de ácidos nucleicos com uma probabilidade substancialmente reduzida de impacto biológico e decifre tal texto de sequências de ácidos nucleicos. Em uma modalidade, cada símbolo de um conjunto de símbolos de símbolos legíveis humanos mapeia unicamente para um respectivo identificador de códon. O mapeamento pode assegurar que cada símbolo não mapeará para um identificador de cólon que gere um resíduo de aminoácido que tenha uma abreviatura de letra única que seja o equivalente ao respectivo símbolo. As sequências de ácido nucleicos sintéticas que compreendam tal texto legível humano, e células recombinantes ou sintéticas que compreendam tais sequências são fornecidas, bem como os métodos de identificação das células, organismos, ou amostras contendo tais sequências.
Description
[001] O pedido de patente presentemente descrito se refere geralmente ao campo da biologia molecular. Mais especificamente, este pedido de patente se refere a sequências de ácidos nucleicos sintéticas compreendendo informação não genética.
[002] Este pedido de patente contém referências para sequências de aminoácidos e/ou sequências de ácidos nucleicos que foram submetidas concorrentemente por meio deste como o arquivo de texto da listagem de sequências "SGI1450-1WO_ST25.txt", tamanho do arquivo 9,02 Kilobytes (KB), criado em 29 de outubro de 2010. A listagem de sequências acima mencionada é por meio deste incorporada por referência em sua totalidade de acordo com 37 C.F.R. §1.52 (e) (5).
[003] Os organismos biológicos compreendem sequências de ácidos nucleicos que codificam, entre outras coisas, genes que podem ser usados para catalisar reações químicas dentro do organismo. Os genes englobam diversas regiões diferentes, tais como promotores, terminadores, e possivelmente ainda de forma mais importante, a região de leitura aberta ou região de codificação do gene que contém o "texto" da proteína de interesse. As sequências de ácidos desoxinucleicos são transcritas para o RNA mensageiro (mRNA) que então é traduzido para uma sequência proteica de interesse. Há quatro bases usadas em sequências de ácidos desoxirribonucleicos, cada uma das quais pode ser usada em três posições em um códon e, dessa forma, há em teoria 64 permutações de códon possíveis.
[004] Como muitas células têm a capacidade de absorver e conservar sequências de ácidos nucleicos, alguns consideraram a perspectiva de usar um organismo biológico como uma fonte de memória para armazenar informação legível humana. A fim de alcançar este fim, vários esquemas de codificação foram desenvolvidos que tentam mapear de símbolos legíveis humanos em sequências de ácidos nucleicos que podem ser armazenadas dentro de um organismo vivo.
[005] A Patente U.S. No. 6.312.911 descreve um método esteganográfico para criação de um código secreto produzindo uma molécula de DNA compreendendo uma sequência de DNA de mensagem secreta flanqueada em cada lado de uma sequência iniciadora.
[006] A Patente U.S. No. 7.056.724 descreve um método de armazenamento de dados em Deinococcus radians realizando uma avaliação do genoma de D. radians quanto a um ou mais critérios para uso como um meio de armazenamento, preparando um código baseado na avaliação, codificando uma sequência de DNA no acordo com o código para representar os dados, e incorporando a sequência de DNA codificada em D. radians.
[007] A Patente Publicada U.S. No. 20080124725 descreve um método de marcação de uma bactéria expondo uma porção de um locus CRISPR a pelo menos uma sequência de ácidos nucleicos exógena para produzir pelo menos uma bactéria marcada compreendendo um locus CRISPR modificado.
[008] A Patente U.S. No. 6.175.830 descreve um método para geração de um recurso informativo investigável destinando uma marcação determinada a cada uma de uma pluralidade de elementos finitos e arranjando os resultados de uma etapa investigável em uma estrutura hierárquica de acordo com informação em marcações determinadas destinadas a elementos finitos correspondentes a registros de banco de dados investigáveis identificados por busca.
[009] A Patente U.S. No. 7.323.307 descreve um método para análise do mRNA tendo um ou mais éxons que definem uma ordem por uma ou mais sequências de assinatura, hibridizando fragmentos marcados a um arranjo de ácidos nucleicos e determinando a identidade de assinaturas de sequência e a ordem de um ou mais éxons.
[0010] A Patente U.S. No. 6.607.878 descreve uma composição de uma mistura de espécies diferentes de moléculas, onde pelo menos algumas moléculas são derivadas de um processo de síntese combinatória e algumas espécies são ligadas a uma marcação de elementos de codificação de informação ligados, e onde a propriedade física da combinação de elementos identifica as espécies da molécula sem determinar a propriedade física de cada elemento da marcação e, ainda, onde as marcações não consistem somente de nucleotídeos.
[0011] Clelland et al. (Nature, volume 399, páginas 533-534 (1999)) descrevem mensagens secretas ocultas escondidas em micropontos de DNA onde as mensagens são flanqueadas por sequências iniciadoras de PCR.
[0012] Heider e Barnekow (BMC Molec. Biol., 9: 40 (2008) e Heider e Barnekow (BMC Bioinformatics, 8:176 (2007)) cada um deles descreve a aplicação de linhas d’água baseadas em sequências de DNA usando um código binário de números 0 e 1.
[0013] Leier et al. (Biosystems, 57: 13-22 (2000) descrevem duas técnicas criptográficas diferentes, cada uma das quais requer códigos binários de números 0 e 1.
[0014] Arita e Ohashi (Biotechnol. Prog. 20: 1605-1607 (2004)) descrevem um esquema de codificação em que a sequência real do gene que codifica a mensagem é bastante dependente do código genético do organismo; a decodificação correta de uma sequência introduzida requer conhecimento superficial da sequência selvagem de um gene de veículo; e um mínimo de 18 nucleotídeos deve codificar uma única letra.
[0015] Infelizmente, os esquemas de codificação convencionais sofrem de duas desvantagens sérias, correm o risco de causar um impacto biológico negativo em uma célula que abriga sequências de ácidos nucleicos feitas usando tais esquemas de codificação, ou confiam na redundância do códon em um gene-veículo de função conhecida. Os métodos usando um gene do veículo são caracterizados pela falta de eficiência extrema da informação codificada e são ainda limitados pela sua exigência de codificar uma mensagem dentro de um gene veículo de sequência conhecida e comprimento limitado. Isto impõe um limite ao comprimento da mensagem que pode ser codificada que é ainda exacerbado pela falta de eficiência do esquema de codificação.
[0016] O presente pedido de patente é dirigido à geração de um esquema de codificação configurado para traduzir símbolos legíveis humanos para identificadores de códon (isto é, as sequências discretas preferencialmente dos três elementos, onde cada elemento contém uma de quatro bases de nucleotídeos selecionadas). Desta maneira, as sequências de símbolos legíveis humanos podem ser usadas para transmitir mensagens não genéticas (por exemplo, mensagens de texto, marcas comerciais, avisos de direitos autorais, informação sobre identificação única, etc.) codificando a mensagem em sequências de identificadores de códon. Estas sequências de identificadores de códon então podem ser usadas para gerar sequências de ácidos nucleicos sintéticas que são introduzidas em uma célula viva ou organismo como DNA livre ou incorporadas em outros vários tipos de materiais de ácidos nucleicos celulares (por exemplo, plasmídeos, cromossomos, DNA mitocondrial, genomas, etc.). O conjunto resultante de códons ou identificadores de códon efetivamente serve como uma fonte de memória das sequências codificadas de símbolos legíveis humanos.
[0017] Diferentemente de métodos convencionais de codificar tais sequências de ácidos nucleicos, as modalidades descritas neste pedido utilizam um esquema de codificação com uma probabilidade notavelmente baixa de impacto biológico. Isto é, uma baixa probabilidade existe que uma sequência sintética de ácidos nucleicos criada usando métodos de invenção e esquemas será transcrita ou traduzida por processos biológicos internos de uma célula. Como resultado, a mensagem não genética criada usando métodos de invenção e esquemas pode ser transportada inocuamente e replicada por células compreendendo a mensagem, mas pode ser decifrada para fornecer os símbolos legíveis humanos, isto é, a mensagem transportada nestas. Conhecimento avançado da estrutura de um gene e/ou função não é necessário a fim de decifrar uma sequência dada de nucleotídeos. Isto muito simplifica o processo de decodificação, permitindo um recipiente de mensagem decifrar uma ou mais mensagens usando um mapa de símbolo legível humano simples.
[0018] Também, uma vez que o esquema de codificação é configurado para traduzir cada símbolo legível humano de uma mensagem de entrada em um identificador de códon de três nucleotídeos, os ganhos de eficiência são realizados sobre muitos sistemas de codificação convencionais. Por isso, significativamente menos espaço de armazenamento deve armazenar uma mensagem codificada, tanto dentro de uma célula ou uma célula dentro de um organismo, como dentro do próprio transcodificador ou a memória do próprio transcodificador.
[0019] Em um primeiro aspecto, é fornecida neste pedido uma sequência sintética de ácidos nucleicos, em que a sequência sintética de ácidos nucleicos compreende um ou mais identificadores de códon correspondente ao grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, tal como uma linha d’água, e ainda em que esta sequência não seja geneticamente viável e não tenha um impacto biológico em uma célula ou vírus recombinantes ou sintéticos compreendendo esta sequência.
[0020] Em modalidades preferenciais, esta sequência não pode ser biologicamente traduzida para uma sequência de aminoácidos funcional pela célula ou vírus recombinantes ou sintéticos e/ou esta sequência, e/ou um ou mais identificadores de códon não correspondem à sequência de um gene que ocorre naturalmente ou outra sequência biologicamente ativa. Preferencialmente, um ou mais identificadores de códon correspondem a uma ou mais letras, um ou mais números, um ou mais espaços, uma ou mais marcas de pontuação, um ou mais símbolos matemáticos, etc., um ou mais caracteres tipográficos, uma ou mais novas linhagens, ou uma combinação de qualquer um dos mesmos e são preferencialmente são compostos de três nucleotídeos. Em uma modalidade, o conjunto de símbolos legíveis humanos compreende uma linha d’água. As linhas d’água podem ser usadas para transmitir uma mensagem não genética e podem incluir, mas não são limitadas a, um aviso de direitos autorais, uma marca comercial, um identificador de companhia, um nome, uma frase, uma sentença, uma cotação, informação genética, informação sobre identificação única, dados, ou uma combinação de qualquer uma das mesmas.
[0021] A sequência sintética de ácidos nucleicos pode compreender ainda um dos 6 códons de parada da região de leitura contendo a sequência 5’ a um primeiro identificador de códon na sequência, um dos 6 códons de parada da região de leitura contendo a sequência 3’ ao identificador do último códon na sequência, ou ambos.
[0022] Em outro aspecto, é fornecido neste pedido um organismo recombinante ou sintético que contém uma sequência sintética de ácidos nucleicos como descrito neste pedido.
[0023] Em várias modalidades, o organismo recombinante ou sintético pode ser uma célula procariótica, uma célula eucariótica, uma célula de arquea ou um vírus. Em certas modalidades preferenciais, a célula recombinante pode ser uma célula bacteriana, uma célula de levedura, uma célula fúngica, uma célula algácea, uma célula animal ou uma célula vegetal. Em certas modalidades, o conjunto de símbolos legíveis humanos pode ser uma linha d’água que permite a autenticação ou a identificação da célula ou vírus recombinantes ou sintéticos compreendendo a sequência sintética de ácidos nucleicos contendo a linha d’água, ou de um organismo compreendendo tal célula ou vírus recombinantes ou sintéticos.
[0024] Em outro aspecto, é fornecido neste pedido um método de criação de um organismo recombinante ou sintético compreendendo uma linha d’água que transmite uma mensagem não genética, compreendendo: geração de uma sequência de ácidos nucleicos compreendendo uma sequência de identificadores de códon selecionados baseados no texto da linha d’água tal que um mapeamento de símbolos de identificadores de códon de mapas correspondentes ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e identificadores de códon de mapas correspondente ao códon(s) de parada a símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; síntese desta sequência de ácidos nucleicos; e introdução desta sequência de ácidos nucleicos em um organismo recombinante ou sintético.
[0025] Alternativamente, é fornecido neste pedido um método de criação de um organismo recombinante ou sintético compreendendo uma linha d’água que transmite uma mensagem não genética, compreendendo: geração de uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon do grupo dos símbolos legíveis humanos de uma linguagem de referência compreendendo a dita linha d’água, em que um mapeamento de símbolo é configurado para mapear um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e em que o mapeamento de símbolo é ainda configurado para mapear um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada; síntese desta sequência de ácidos nucleicos; e introdução desta sequência de ácidos nucleicos em um organismo recombinante ou sintético.
[0026] Em modalidades preferenciais, o mapeamento de símbolo não mapeia um identificador de códon de três nucleotídeos a uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele códon de três nucleotídeos no código genético padrão. Em certas modalidades, a etapa de geração é assistida por computador e compreende a identificação do conjunto de símbolos legíveis humanos em um módulo de memória e para cada símbolo legível humano no conjunto, usando um processador para ler um mapeamento de símbolo para determinar um identificador de códon que mapeia para o respectivo símbolo legível humano.
[0027] Uma célula recombinante, uma célula sintética, um vírus recombinante, um vírus sintético, ou um organismo multicelular recombinante ou sintético compreendendo tal mensagem não genética podem ser usados com qualquer objetivo adequado como é conhecido na técnica, por exemplo, com relação a uma planta ou cultura recombinante (por exemplo, milho, uvas, etc.); um animal modificado (por exemplo, um roedor, primata, aves domésticas, grande animal veterinário geneticamente modificados, etc.); um embrião recombinante; um organismo, célula, linhagem celular ou cepa geneticamente modificados; um organismo, célula, linhagem celular ou cepa recombinantes; um organismo, célula, linhagem celular ou cepa sintéticos; um vírus ou cepa recombinantes; um vírus ou cepa sintéticos; e similares.
[0028] Em outro aspecto, é fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético, que pode ser uma célula única, um organismo multicelular ou um vírus, compreendendo uma linha d’água de referência que transmite uma mensagem não genética em uma dita amostra, o método compreendendo: sequenciamento de material de ácido nucleico obtido de um ou mais organismos na dita amostra; transformação da sequência de ácidos nucleicos ao grupo de identificadores de códon, em que cada identificador de códon consiste em três nucleotídeos da dita sequência, e a transformação é realizada nas três regiões de leitura; determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos aqueles identificadores de códons de mapa correspondentes ao códon(s) de partida a símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeia identificadores de códon correspondentes ao códon(s) de parada a símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; e comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico indica a presença do organismo recombinante ou sintético na amostra.
[0029] Alternativamente, é fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético, que pode ser uma célula única, um organismo multicelular ou um vírus, compreendendo uma linha d’água de referência que transmite uma mensagem não genética em uma dita amostra, o método compreendendo: sequenciamento de material de ácido nucleico obtido de um ou mais organismos na dita amostra; transformação da sequência de ácidos nucleicos ao grupo de identificadores de códon, em que cada identificador de códon consiste em três nucleotídeos da dita sequência, e a transformação é realizada nas três regiões de leitura; determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos que é configurado para mapear um códon de partida a um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos e é ainda configurado para mapear um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico indica a presença do organismo recombinante ou sintético na amostra.
[0030] Uma amostra pode ser qualquer amostra que pode conter uma célula, múltiplas células, um vírus, ou material de ácido nucleico de uma célula, células ou vírus, incluindo sem limitação, amostras ambientais, amostras de pacientes, amostras veterinárias, amostras obtidas de humanos, animais, plantas, vírus, bactérias, arquea, levedura, e qualquer fração ou derivados de qualquer tal amostra. As amostras também podem ser amostras de laboratório (por exemplo, laboratórios com ou sem fins lucrativos) e amostras comerciais.
[0031] Em outro aspecto, é fornecido neste pedido um aparelho para transformar uma sequência de identificadores de códon em uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o aparelho compreendendo: um processador adaptado para realizar instruções; e um módulo de armazenamento, em que o módulo de armazenamento compreende uma estrutura de dados para mapear de identificadores de códon em símbolos legíveis humanos, e grupo de instruções que, quando realizadas pelo processador, geram um símbolo legível humano de cada identificador de códon lido em uma sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre a estrutura de dados; em que a estrutura de dados é configurada para mapear um códon de partida a um símbolo legível humano com uma frequência de ocorrência dentro de uma linguagem de referência que é menos que um primeiro limiar predeterminado, e em que a estrutura de dados é ainda configurada para mapear uma pluralidade de códons de parada a símbolos legíveis humanos com frequências de ocorrência dentro da linguagem de referência que são maiores do que um segundo limiar predeterminado.
[0032] Em outra modalidade, a estrutura de dados mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos.
[0033] Em uma modalidade preferencial, a estrutura de dados não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão. Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e/ou um dos 6 códons de parada da região de leitura contendo a sequência 3’ ao identificador do último códon na sequência.
[0034] Em outro aspecto, é fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon nas três regiões de leitura; e geração de um símbolo legível humano de cada identificador de códon na sequência; em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida a um símbolo legível humano que tem uma frequência de ocorrência dentro de uma linguagem de referência que é menor do que outro símbolo legível humano de um primeiro conjunto de símbolos legíveis humanos, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um símbolo legível humano que tem uma frequência de ocorrência dentro da linguagem de referência que é maior do que outro símbolo legível humano do primeiro conjunto de símbolos legíveis humanos.
[0035] Também é fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon nas três regiões de leitura; e geração de um símbolo legível humano de cada identificador de códon na sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia identificadores de códon correspondentes ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeiam identificadores de códon correspondente ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água (que transmite uma mensagem não genética).
[0036] Em outro aspecto, é fornecido neste pedido um método de transformar um primeiro sinal adaptado para indicar uma sequência de identificadores de códon em um segundo sinal adaptado para indicar uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o método compreendendo: recepção do primeiro sinal; determinar um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma sequência de símbolos do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na sequência de símbolos do que um ou mais símbolos legíveis humanos do conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal baseado em um ou mais símbolos legíveis humanos determinados.
[0037] Também é fornecido neste pedido um método de transformação de um primeiro sinal compreendendo uma sequência de identificadores de códon em um segundo sinal para indicar uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: a identificação do primeiro sinal que indica a sequência de identificadores de códon; determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação de um símbolo legível humano é baseada pelo menos em parte sobre uma função de mapeamento que mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal, em que o segundo sinal indica a sequência de símbolos legíveis humanos.
[0038] Em outro aspecto, é fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador configurado para realizar instruções; um módulo de memória acoplado ao processador e compreendendo instruções que, quando realizadas pelo processador, determinam um identificador de códon de cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados conectado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, em que o mapa de símbolos é configurado para mapear um ou mais códons de partida para respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa de ocorrência na linguagem de referência, e em que o mapa de símbolos é ainda configurado para mapear um ou mais códons de parada para respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem de referência.
[0039] Também é fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador que executa uma sequência de instruções; um módulo de memória acoplado ao processador e compreensão de instruções para determinar um identificador de códon de cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados acoplado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, mapa de símbolos mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e o mapa de símbolos mapeia ainda um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.
[0040] Em outro aspecto, é fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: recepção de uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética; e geração de um identificador de códon de cada símbolo legível humano contido dentro da sequência, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma linguagem de referência do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na linguagem de referência do que um ou mais símbolos legíveis humanos do conjunto de símbolos legíveis humanos.
[0041] Também é fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: geração de um identificador de códon de cada símbolo legível humano no grupo de símbolos legíveis humanos que transmite uma mensagem não genética, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.
[0042] Em outro aspecto, é fornecido neste pedido um método de geração de uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o método compreendendo: recepção da sequência de símbolos legíveis humanos em um módulo de memória; carregamento de um mapa de símbolos dentro do módulo de memória, em que o mapa de símbolos é configurado para determinar um identificador de códon que mapeia a cada símbolo legível humano dentro da sequência, em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é menos que um primeiro limiar predeterminado dentro de uma linguagem de referência a um códon de partida, e em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é maior do que um segundo limiar predeterminado dentro da linguagem de referência a um códon de parada; e liberação de uma sequência de identificadores de códon correspondente a cada símbolo legível humano dentro da sequência.
[0043] Também é fornecido neste pedido um método de geração de uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: identificação da sequência de símbolos legíveis humanos em um módulo de memória; e uso de um processador para ler um mapeamento de símbolo de cada símbolo legível humano na sequência e determinar um identificador de códon que mapeia o respectivo símbolo legível humano; em que o mapeamento de símbolo mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.
[0044] Vários outros aspectos e as modalidades ficarão mais evidentes com referência às figuras acompanhantes e descrição detalhada fornecida abaixo.
[0045] A Figura 1 é um diagrama de sequência funcional que ilustra um processo exemplar de transcodificação de uma sequência de símbolo legível humano de entrada e uma sequência de ácidos nucleicos codificada.
[0046] A figura 2 é um diagrama de bloco de um transcodificador exemplar configurado para codificar uma sequência de símbolo legível humano de entrada em uma sequência de códon com uma baixa probabilidade de impacto biológico.
[0047] A figura 3 é uma captura de tela de um mapa de símbolo legível humano exemplar que pode ser usado para gerar uma sequência de ácidos nucleicos codificada com uma baixa probabilidade de impacto biológico.
[0048] A figura 4 é um diagrama de fluxo de um método exemplar de criação de um mapa de símbolo legível humano que pode ser usado para gerar uma sequência de ácidos nucleicos com uma baixa probabilidade de impacto biológico.
[0049] A figura 5 é um diagrama de fluxo de um método exemplar de codificação de uma sequência de símbolo legível humano de entrada em uma sequência de códon com uma baixa probabilidade de impacto biológico.
[0050] A figura 6 é um diagrama de fluxo de um método exemplar de deciframento de uma sequência de ácidos nucleicos com uma baixa probabilidade de impacto biológico em uma sequência de símbolo legível humano.
[0051] A figura 7 é um diagrama de fluxo de um método exemplar de codificação de uma linha d’água em uma sequência sintética de ácidos nucleicos com uma baixa probabilidade de impacto biológico.
[0052] As figuras 8A-8E fornecem tabelas de códons exemplares baseadas na língua inglesa. A figura 8A representa um código exemplar no formato "Alt"; a Figura 8B representa um código exemplar no formato "Ctrl"; a Figura 8C representa um código exemplar no formato "Default"; a Figura 8a representa um código exemplar no formato "Shift"; e a Figura 8E representa um código exemplar.
[0053] O presente pedido de patente fornece um sistema para codificar o texto básico em uma sequência sintética de ácidos nucleicos de identificadores de códon e, além disso, para decifrar o texto do mesmo.
[0054] As tentativas prévias para criar tal sistema utilizaram tabelas de códon padrão de codificação de aminoácido, que resultam em efeitos biológicos não desejados do texto codificado do ácido nucleico. O presente sistema descrito neste pedido é especificamente projetado para assegurar que o texto codificado não corresponde aos códons usados ou de outra maneira biologicamente ativo em um organismo hospedeiro. Uma modalidade codifica todas as letras no alfabeto inglês americano, bem como todos os 10 numerais, símbolos matemáticos, caracteres tipográficos e marcas de pontuação comuns. Os esquemas de uso de códon descritos neste pedido são projetados para o uso em uma variedade de organismos hospedeiros, e podem ser especificamente personalizados para a otimização em um hospedeiro particular. Na seguinte descrição, a referência é feita às figuras acompanhantes nas quais são mostradas por meio da ilustração as modalidades específicas que podem ser praticadas. Deve ser entendido que outras modalidades podem ser usadas e modificações estruturais podem ser feitas sem se afastar do escopo do presente pedido de patente. Os elementos das modalidades descritas neste pedido podem ser combinados para criar modalidades adicionais não especificamente descritas que estão também dentro do escopo da invenção. Os títulos dentro da aplicação são somente para a conveniência do leitor, e não limitam de nenhum modo o escopo da invenção ou suas modalidades.
[0055] Todas as publicações e pedidos de patentes mencionados neste relatório descritivo são neste pedido incorporados por referência na mesma extensão como se cada publicação individual ou pedido de patente fossem especificamente e individualmente indicados para serem incorporados por referência.
[0056] A menos que definido de outra maneira, todos os termos técnicos e científicos usados neste pedido têm o mesmo significado que comumente entendido por um versado ordinário na técnica à qual esta invenção está relacionada. Os seguintes termos são definidos para os fins da invenção como descrito neste pedido.
[0057] Como usado neste pedido, os termos "pedido de patente", "programa de computador", "programa", e "software" incluem sem limitação qualquer sequência de etapas reconhecíveis por humanos ou máquinas que são adaptadas para ser processadas por um computador. Tal pode ser dado em qualquer linguagem ou ambiente de programação incluindo, sem limitação, C/C ++, Fortran, COBOL, PASCAL, Perl, Prolog, Python, MATLAB, linguagem assembly, linguagens de script, linguagens de marcação (por exemplo, HTML, SGML, XML, VoXML), linguagens funcionais (por exemplo, APL, Erlang, Haskell, Lisp, ML, F# e Scheme), bem como ambientes orientados ao objeto, tais como Common Object Request Broker Architecture (CORBA) e Java™ (incluindo J2ME, Java Beans, etc.).
[0058] Como usado neste pedido, o termo "monitor" inclui qualquer tipo de dispositivo ou meio adaptado para exibir a informação, incluindo sem limitação monitores de tubo de raios catódicos (CRTs), monitores de cristal líquido (LCDs), monitores de transistor de filme delgado (TFTs), monitores de processador de luz digitais (DLPs), monitores de plasma, arranjos de diodos de emissão de luz (LEDs) ou de diodo, dispositivos incandescentes e dispositivos fluorescentes. Os dispositivos monitores também incluem dispositivos menos dinâmicos, tais como impressoras, dispositivos de tinta eletrônica, e outras estruturas similares.
[0059] Como usado neste pedido, os termos "local" e "remoto" referem-se geralmente a dispositivos, entidades, ou usuários que são reparados por conjuntos separados de processos. Estes termos são destinados a serem relativos, e não carregar nenhuma referência absoluta ou conotação à posição física dos processos realizados do dispositivo servido, entidades, ou usuários.
[0060] Como usado neste pedido, o termo "memória" inclui qualquer tipo do circuito integrado ou outro dispositivo de armazenamento adaptado a armazenar dados digitais incluindo, sem limitação, ROM, PROM, EEPROM, DRAM, SDRAM, DDR/2 SDRAM, EDO/FPMS, RLDRAM, SRAM, memória "flash" (por exemplo, NAND/NOR), e PSRAM.
[0061] Como usado neste pedido, o termo "módulo" se refere a qualquer tipo de programa, firmware, maquinário, ou combinação dos mesmos que é projetado para realizar uma função desejada.
[0062] Como usado neste pedido, os termos "processador", "microprocessador", e "processador digital" incluem todos os tipos de dispositivos de processamento digitais incluindo, sem limitação, processadores de sinal digital (DSPs), computadores de conjunto de instruções reduzido (RISC), processadores de uso geral (CISC), microprocessadores, arranjos de portas (por exemplo, FPGAs), dispositivos lógicos programáveis (PLDs), estrutura computacional reconfigurável (RCFs), processadores de arranjos, e circuitos integrados específicos para aplicação (ASICs). Tais processadores podem ser contidos em um molde de IC unitário simples ou distribuído através de múltiplos componentes.
[0063] Como usado neste pedido, no contexto de introdução de ácidos nucleicos em células ou organismos, os termos "introdução", "transfecção", "transformação" ou "transdução", se refere à introdução de uma ou mais sequências exógenas de ácidos nucleicos ou de polinucleotídeos em uma célula ou organismo hospedeiro usando um ou mais métodos físicos ou químicos como são conhecidos na técnica. Muitas técnicas de transfecção são conhecidas por aqueles versados ordinários na técnica incluindo, mas não limitadas a, coprecipitação de DNA em fosfato de cálcio (ver Methods in Molecular Biology, Vol. 7, Gene Transfer and Expression Protocols, Ed. E. J. Murray, Humana Press (1991)); DEAE-dextrana; eletroporação; transfecção mediada por lipossoma catiônico; bombardeio de micropartícula facilitado por partícula de tungstênio (Johnston, S. A., Nature 346: 776-777 (1990)); e coprecipitação de DNA em fosfato de estrôncio (Brash D. E. et al., Molec. Cell. Biol. 7: 2031-2034 (1987)).
[0064] Como usado neste pedido, no contexto geral de transformação de uma sequência, conjunto ou sinal (tal como uma sequência de resíduos de ácidos nucleicos ou identificadores de códon), o termo "transformar" se refere simplesmente a modificação ou conversão de uma primeira sequência, conjunto, ou sinal em uma segunda sequência, conjunto, ou sinal.
[0065] Como usado neste pedido, "isolamento ou extração de DNA" se refere a qualquer procedimento usado para coletar DNA de uma amostra para análise subsequente. Por exemplo, há três etapas básicas e uma etapa opcional em uma extração de DNA: (i) quebra das células abertas, tipicamente referida como disrupção celular ou lise celular, para expor DNA dentro (comumente alcançado por moagem física ou sonicação da amostra, ou tratamento químico da amostra); (ii) remoção dos lipídios da membrana adicionando um detergente; (iii) proteínas de remoção adicionando uma protease (opcional); e (iv) precipitação de DNA com um álcool (etanol ou isopropanol normalmente gelados). Uma vez que DNA é insolúvel nestes álcoois, será agregado, resultando em um precipitado na centrifugação; esta etapa também remove o sal solúvel em álcool. Refinamentos da técnica incluem a adição de um agente quelante para isolar cátions divalentes, tais como Mg2+ e Ca2+; isto para as enzimas DNase de degradar o DNA. Proteínas celulares e de histona ligadas ao DNA podem ser removidas pela adição de uma protease ou por ter precipitado as proteínas com acetato de amônio ou sódio, ou as extraído com uma mistura de fenol-clorofórmio antes da precipitação de DNA. Se desejado, o DNA pode ser redissolvido em um tampão levemente alcalino ou em água ultrapura.
[0066] Como usado neste pedido, "isolamento ou extração de RNA" se refere a qualquer procedimento usado para coletar RNA de uma amostra para análise subsequente. Vários métodos podem ser usados para isolar RNA de amostras; o mais comum destes é a extração tiocianato de guanidínio-fenol-clorofórmio.
[0067] Como usado neste pedido, o termo "sequenciamento de DNA" se refere a qualquer método de sequenciamento para determinar a ordem das bases nucleotídicas (adenina, guanina, citosina, e timina) em uma molécula de DNA. Os métodos incluem, mas não são limitados a, sequenciamento de Maxam-Gilbert, métodos de terminação de cadeia, sequenciamento terminador-corante, sequenciamento de DNA automatizado, amplificação de clonagem in vitro, sequenciamento paralelizado por síntese, sequenciamento por ligação, sequenciamento microfluídico de Sanger e sequenciamento por hibridização.
[0068] Como usado neste pedido, "síntese de oligonucleotídeo" se refere à síntese química de fragmentos relativamente curtos de ácidos nucleicos ou identificadores de códon com estrutura química definida (sequência). A técnica é útil porque fornece um acesso rápido e barato a oligonucleotídeos feitos adaptados de uma sequência desejada. Ao passo que as enzimas sintetizam DNA e RNA em uma direção 5’ a 3’, síntese química de oligonucleotídeo é realizada ao contrário, direção 3’ a 5’. Atualmente, o processo é implementado como síntese em fase sólida usando método de fosforamidita e A, C, G, T (somente 2’- desóxi), e fosforamiditas de nucleosídeo U (somente ribo) ou fosforamiditas de 2’-desoxinucleosídeo como blocos de construção. Para obter o oligonucleotídeo desejado, os blocos de construção são sequencialmente acoplados à cadeia de oligonucleotídeo crescente na ordem necessária pela sequência do produto.
[0069] Como usado neste pedido, "síntese de ácidos nucleicos" se refere ao processo de sintetizar uma sequência artificialmente projetada (por exemplo, um gene ou uma sequência de ácidos nucleicos que pode conter uma linha d’água) em uma sequência de ácidos nucleicos física.
[0070] Os termos "células", "culturas de célula", "linhagem celular", "células hospedeiras recombinantes", "células recipiente" e "células hospedeiras" muitas vezes são usados intercambiavelmente e serão claros a partir do contexto no qual são usados. Estes termos incluem as células objeto primárias e qualquer progênie das mesmas, sem respeito ao número de transferências. Deve ser entendido que nem toda progênie é exatamente idêntica à célula parental (devido a mutações deliberadas ou inadvertidas ou diferenças no ambiente); entretanto, tal progênie alterada está incluída nestes termos, contanto que a progênie conserve a mesma funcionalidade que aquela da célula originalmente transformada. Por exemplo, embora não limitado a, tal característica pudesse ser a capacidade de incluir uma mensagem não genética, tal como uma linha d’água. A linhagem celular pode ser qualquer uma das conhecidos na técnica ou descritas neste pedido. Um "clone" é uma população de células derivadas de uma célula única ou ancestral comum por mitose.
[0071] Como usado neste pedido, o termo "nucleotídeo" se refere a uma unidade monomérica de um polinucleotídeo que consiste em uma base heterocíclica, um açúcar, e um ou mais grupos fosfato. As bases de ocorrência natural, (guanina, (G), adenina, (A), citosina, (C), timina, (T), e uracila (U)) são derivados de purina ou pirimidina, embora deva ser entendido que bases análogas de ocorrência natural e não natural também estão incluídas. O açúcar que ocorre naturalmente é pentose (açúcar de cinco carbonos) desoxirribose (que forma DNA) ou ribose (que forma RNA), embora deva ser entendido que análogos de açúcar de ocorrência natural e não natural também estão incluídos. Os ácidos nucleicos são ligados através de ligações fosfato para formar ácidos nucleicos, ou polinucleotídeos, embora muitas outras ligações sejam conhecidas na técnica (tal como, embora não limitadas a fosforotioatos, boranofosfatos e similares).
[0072] Como usado neste pedido, os termos "ácido nucleico", "nucleotídeo" e "polinucleotídeo" referem-se a uma forma polimérica de nucleotídeos, ribonucleotídeos (RNA) ou desoxirribonucleotídeos (DNA) de qualquer comprimento. Estes termos referem-se à estrutura primária das moléculas e, dessa forma, incluem DNA de fita dupla e simples, e RNA de fita dupla e simples. Estes termos incluem, como equivalentes, ácidos nucleicos naturais ou sintéticos, análogos de RNA ou de DNA feitos de análogos de nucleotídeo e polinucleotídeos modificados tais como, embora não limitados a, polinucleotídeos metilados e/ou terminados. As sequências de ácidos nucleicos podem ser mencionadas como tendo uma extremidade 5’ e uma extremidade 3’ como são conhecidas na técnica, que podem ser usadas como pontos de referência de outras sequências, por exemplo, como sendo a 5’ (também a montante) ou 3’ (também a jusante) a um identificador de códon em uma sequência.
[0073] Como usado neste pedido, uma "molécula de DNA" se refere à forma polimérica de desoxirribonucleotídeos (adenina, guanina, timina, e citosina) na sua forma de fita única ou uma hélice de fita dupla. Este termo se refere somente à estrutura primária e secundária da molécula, e não a limita a nenhuma forma terciária particular. Dessa forma, este termo inclui DNA de fita dupla encontrado, inter alia, em moléculas de DNA lineares (por exemplo, fragmentos de restrição), vírus, plasmídeos, e cromossomos. Na discussão da estrutura de moléculas de DNA particulares de fita dupla, as sequências podem ser descritas neste pedido de acordo com a convenção normal de fornecer somente a sequência na direção 5’ a 3’ ao longo da fita não transcrita de DNA (isto é, a fita que tem uma sequência homóloga ao mRNA). Uma "molécula de RNA" se refere à forma polimérica de ribonucleotídeos (adenina, guanina, uracila, e citosina), que é tipicamente, mas não sempre, de fita simples.
[0074] Embora as modalidades possam ser descritas e ilustradas em termos de sequências de ácido desoxirribonucleico (DNA) e as bases nucleotídicas correspondentes, deve ser entendido que as modalidades não são tão limitadas, mas são adicionalmente aplicáveis a outros tipos de ácidos nucleicos e bases nucleotídicas (incluindo, por exemplo, ácido ribonucleico (RNA), tais como ácido ribonucleico mensageiro (mRNA)). Além disso, embora as modalidades possam ser descritas e ilustradas neste pedido em termos de um transcodificador único configurado tanto para codificar como decifrar uma sequência de símbolo legível humano de entrada, deve ser entendido que a codificação associada e a decodificação lógica podem ser separadas e/ou distribuídas entre múltiplos sistemas, dispositivos, e/ou redes de computadores.
[0075] Como usado neste pedido, uma "sequência de codificação" ou "região de codificação" de ácidos nucleicos são uma região de uma sequência de ácidos nucleicos que pode ser transcrita e/ou traduzida para um polipeptídeo quando colocado no controle de sequências de controle de expressão apropriadas e na presença de maquinário celular ou enzimas apropriados. Em outras palavras, uma sequência de codificação fornece um tipo da mensagem genética à célula que contém a sequência. Os limites da sequência de codificação ("região de leitura aberta" ou "ORF") são determinados por um códon de partida no terminal 5’ (codificando o terminal amino de um peptídeo ou polipeptídeo) e um códon de parada de tradução no terminal 3’ (codificando o terminal carboxila de um peptídeo ou polipeptídeo). Por exemplo, na maioria de exemplos, ATG e AUG denotam sequências de DNA e RNA respectivamente que são o códon de partida ou códon de iniciação que codifica o aminoácido metionina (Met) em eucariotos e um Met modificado (fMet) em procariotos, embora os códons de partida alternativos, principalmente GUG e UUG, possam ser usados em procariotos. No código genético padrão, há três códons de parada: UAG (em RNA) / TAG (em DNA) ("âmbar"), UAA / TAA ("ocre"), e UGA / TGA ("opala" ou "carmim"); embora várias variações a este na maioria dos conjuntos sejam conhecidas. Uma sequência de codificação pode incluir, mas não é limitada a, sequências procarióticas, cDNA de mRNA eucariótico, sequências de DNA genômicas de DNA eucariótico (por exemplo, mamífero), e sequências de DNA sintéticas. Um sinal de poliadenilação e a sequência de terminação de transcrição são, normalmente, localizados 3’ à sequência de codificação. Como usado neste pedido, o termo "sequência não codificante" ou "região não codificante" se refere a regiões de uma sequência de ácidos nucleicos que não são transcritas e/ou traduzidas para aminoácidos (por exemplo, regiões não traduzidas, sequências sinal, etc.).
[0076] Como usado neste pedido o termo "região de leitura" se refere a uma das seis regiões de leitura possíveis, três em cada direção (5’ e 3’), da molécula de ácidos nucleicos. A região de leitura que é usada determina que códons são usados para codificar aminoácidos dentro da sequência de codificação de uma molécula de DNA. Decifrando sequências em métodos e aparelho descrito neste pedido, as três regiões de leitura na direção 5’ são tipicamente usadas para assegurar a detecção de qualquer mensagem não genética codificada em uma sequência de ácidos nucleicos. Como usado neste pedido, um dos seis códon de parada ou uma das 6 regiões de leitura contendo a sequência se refere a uma sequência que provocará obrigatoriamente a terminação da transcrição e tradução prosseguindo na direção 5’ ou 3’, em alguma das três respectivas regiões de leitura (por exemplo, TTAACTAGCTAA; SEQ ID NO: 1).
[0077] Usando a sequência exemplar, as três regiões de leitura 5’ seriam: TTA ACT AGC TAA (SEQ ID NO: 1), com o códon de parada no quarto tripleto; TAA CTA GCT AA- (SEQ ID NO: 2), com o códon de parada no primeiro tripleto; e AAC TAG CTA A- (SEQ ID NO: 3), com o códon de parada no segundo tripleto. Usando a mesma sequência exemplar, as três regiões de leitura 3’ (antissentido ou fita complementar) seriam: TTA GCT AGT TAA (SEQ ID NO: 4), com o códon de parada no quarto tripleto; TAG CTA GTT AA- (SEQ ID NO: 5), com o códon de parada no primeiro tripleto; e ACG TAG TTA A- (SEQ ID NO: 6), com o códon de parada no segundo tripleto.
[0078] Como usado neste pedido, uma molécula "antissentido" de ácidos nucleicos compreende uma sequência de ácidos nucleicos que é complementar a um ácido nucleico "sentido" que codifica uma proteína, por exemplo, complementar à fita de codificação de uma molécula de DNA de fita dupla, complementar a uma sequência de mRNA ou complementar à fita de codificação de um gene. Consequentemente, uma molécula antissentido de ácidos nucleicos pode ser ligada com hidrogênio com uma molécula sentido de ácidos nucleicos.
[0079] Como usado neste pedido, um "códon" se refere aos três nucleotídeos que, quando transcritos e traduzidos, codificam um resíduo de aminoácido único; ou em caso de UUA, UGA ou UAG codificam um sinal de terminação. Como usado neste pedido, "uma posição wobble" se refere à terceira posição de um códon. Os códons do código genético padrão que codificam aminoácidos são bem conhecidos na técnica e são fornecidos para conveniência neste pedido na Tabela 1. TABELA 1: Tabela de Códons
[0080] Abr: abreviatura. Deve ser entendido que os códons especificados acima são para sequências de RNA. Os códons correspondentes de DNA têm um T substituído por U. Cada códon corresponde a um aminoácido que pode ser abreviado em uma letra única do alfabeto. Em modalidades preferenciais, três identificadores de códon de nucleotídeo não correspondem a estas mesmas letras únicas no mapeamento de símbolo, tal que qualquer informação sobre linguagem natural codificada como identificadores de códon muito improvavelmente corresponderá a uma sequência de ácidos nucleicos com a função biológica. Como tal, a sequência codificada será improvavelmente letal a uma célula ou organismo que compreende a sequência, ou sujeita à seleção genética em um contexto celular, ou corresponderá a uma sequência que nasceria naturalmente.
[0081] O uso ótimo de códon é indicado por frequências de uso de códon de genes expressos, por exemplo, como mostrado no diagrama de uso de códon do programa "Humano-High.cod" do Pacote de Análise de Sequência de Wisconsin, Versão 8.1, Genetics Computer Group, Madison, Wis. O uso de códon também é descrito em, por exemplo, R. Nussinov, "Eukaryotic Dinucleotide Preference Rules and Their Implications for Degenerate Codon Usage," J. Mol. Biol. 149: 125-131 (1981). Os códons que são ainda mais frequentemente usados em genes humanos altamente expressos são presumidamente os códons ótimos para expressão em células hospedeiras humanas e, dessa forma, formam as bases para construir uma sequência de codificação sintética. Em espécies alternativas, o uso de códon pode variar (também conhecido como códon bias), e as sequências podem ser otimizadas para códon para refletir tais diferenças para uso de sequências em organismos diferentes. Uma fonte de informação útil pode ser encontrada na Internet na www URL kazusa.or.jp/codon/, em um Banco de dados de Uso de Códon.
[0082] Como usado neste pedido, "um identificador de códon" se refere a nucleotídeos que codificam para um símbolo legível humano único de uma linguagem de referência, preferencialmente um tripleto ou três nucleotídeos. Um conjunto ou a sequência de identificadores de códon preferencialmente não correspondem à sequência de um gene que ocorre naturalmente ou outra sequência biologicamente ativa. Preferencialmente, um ou mais identificadores de códon correspondem a uma ou mais letras, um ou mais números, um ou mais espaços, uma ou mais marcas de pontuação (por exemplo, ".; [ ] {} ():!? e ’), um ou mais símbolos matemáticos (#, (, ), ?, *, +, =, $,%, etc.), um ou mais caracteres tipográficos (por exemplo, ©, ™, ®, §, etc.) Uma ou mais novas linhagens, ou combinação de qualquer uma destas e são compostas de três nucleotídeos. Identificadores de códon exemplares são fornecidos em mais detalhes abaixo e nas figuras acompanhantes. Quando combinados em uma sequência sintética de ácidos nucleicos, uma série de identificadores de códon transmite uma mensagem não genética.
[0083] A seguinte Tabela 2 ilustra símbolos legíveis humanos exemplares reconhecíveis na língua inglesa. Qualquer outro caractere ou símbolos podem ser prontamente incorporados como desejado pelo usuário. TABELA 2: símbolos legíveis humanos exemplares
[0084] Como usado neste pedido, uma "linha d’água" pode incluir, mas não é limitada a, um aviso de direitos autorais, uma marca comercial, um identificador de companhia, um nome, uma frase, uma sentença, uma cotação, informação genética, informação sobre identificação única, dados, ou uma combinação de qualquer um dos mesmos. As linhas d’água podem conter letras, números, símbolos, pontuação, ou qualquer outro símbolo legível humano definível. Como usado neste pedido, "dados" incluem, por exemplo, cômputos baseados em DNA incluindo o uso de DNA como um processador. Mensagens codificadas ou linhas d’água podem ser técnicas ou de outra maneira significativas (tais como vários identificadores), ou podem ser estranhas ou arbitrárias (tais como cotações literárias). A mensagem codificada ou linha d’água transmitem uma mensagem "não genética", por exemplo, não é transcrita ou traduzida, não pode ligar ou estar ligada, transportar ou ser transportada por processos celulares tradicionais, e é de outra maneira biologicamente silenciosa ou inócua na célula dentro da qual está presente. O tamanho de uma linha d’água é baseado no tamanho de uma célula/organismo. As sequências que contêm mensagens ou linhas d’água podem ter comprimentos até aproximadamente 40 Kb, até aproximadamente 35 Kb, até aproximadamente 30 Kb, até aproximadamente 25 Kb, até aproximadamente 20 Kb, até aproximadamente 15 Kb, até aproximadamente 10 Kb, até aproximadamente 5 Kb, até aproximadamente 3 Kb, até aproximadamente 2 Kb, até aproximadamente 1 Kb, até aproximadamente 0,5 Kb, até aproximadamente 0,1 Kb, ou qualquer valor entre eles. O comprimento da sequência geralmente não excede o comprimento de um gene, genoma, plasmídeo, ou cromossomo no qual é inserido. A inserção pode ser colocada dentro de um gene, genoma, plasmídeo, ou cromossomo, ou substituição de todos ou uma porção dos mesmos.
[0085] Como usado neste pedido, "uma linguagem de referência" se refere a qualquer linguagem no planeta incluindo, mas não limitada a, africâner, albanês, árabe, aranês (Occitan), armênio, basco, chinês cantonês, catalão, chipewyan, cree, croata, cirílico, checo, dinamarquês, holandês, inglês, feroês, farsi, finlandês, francês, alemão, galícia, Gwich'in, grego, hebraico, hindi, húngaro, coreano, islandês, Inuinnaqtun, Inuktitut, Inuvialuktun, italiano, japonês, Kalaallisut, mandarim, Mazandarani, norueguês, persa, polonês, português, Punjabi, romeno, russo, Rusyn, Sami, Sânscrito, Slavey do Norte e do Sul, esloveno, espanhol, suaíli, sueco, taitiano, tibetano, Tswana, turco, ucraniano, urdu, Uyghur, uzbeque, Venda, vietnamita, galês, xhosa, Iídiche, Zhuang e zulu.
[0086] Como usado neste pedido, "isolado" (usado intercambiavelmente com "substancialmente puro") no contexto de uma biomolécula isolada, tal como uma proteína ou ácido nucleico isolados, é uma biomolécula removida do contexto no qual a biomolécula existe na natureza. Por exemplo, uma molécula de proteína ou ácido nucleico isolada é removida da célula ou organismo com o qual está associada em seu estado natural. Uma biomolécula isolada pode ser, em alguns exemplos, parcialmente ou substancialmente purificada, por exemplo, uma molécula de ácidos nucleicos isolada pode ser uma sequência de ácidos nucleicos que foi extirpada do cromossomo, genoma, ou epissoma que está integrado em na natureza.
[0087] São fornecidos neste pedido meios para codificar uma sequência de símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em um ou mais identificadores de códon. Tais meios incluem, por exemplo, um aparelho, sistemas, e um meio legível por computador para gerar uma sequência de identificadores de códon de uma linguagem de referência.
[0088] É fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador configurado para realizar instruções; um módulo de memória acoplado ao processador e compreendendo instruções que, quando realizadas pelo processador, determinam um identificador de códon para cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados conectado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, em que o mapa de símbolos é configurado para mapear um ou mais códons de partida a respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa de ocorrência na linguagem de referência, e em que o mapa de símbolos é ainda configurado para mapear um ou mais códons de parada para respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem de referência.
[0089] A meta é gerar uma sequência de ácidos nucleicos que não seja geneticamente viável, e dessa forma não tenha um impacto biológico em uma célula recombinante ou sintética, ou em um vírus recombinante ou sintético, compreendendo a sequência. Para aquele fim, a sequência de ácidos nucleicos deve conter ocorrências frequentes de códons de parada, e pouca ocorrência de códons de partida. Como um exemplo, um códon de partida pode ser mapeado para um caractere na língua inglesa que é raramente usado, tal como *, tal que mapeariam raramente de um códon de partida na sequência sintética de ácidos nucleicos; o complemento reverso do códon de partida pode ser destinado ao "Y" raro; e podem mapear um códon de parada a um caractere na língua inglesa que é ainda mais comumente usado, tal como a letra E, A ou T, tal que um códon de parada seria frequentemente mapeado na sequência sintética de ácidos nucleicos. O complemento reverso de dois dos códons de parada é os caracteres comuns "R" e "H". Estas medidas asseguram que uma linha d’água pode ser transcrita em qualquer direção e qualquer região de leitura aberta potencial será curta nas regiões de leitura +0 e -0. O código pode ser projetado tal que as combinações de dois caracteres comuns, tais como "CH" assegurem que as regiões de leitura -1,-2, +1 e +2 não tendam a evitar códons de parada. Os caracteres comuns e raros podem ser distribuídos igualmente através do diagrama para ajudar a manter contra sequências de baixa complexidade que são adicionadas por modelos em um texto de linha d’água. Uma frequência desproporcionalmente baixa de ocorrência na linguagem de referência tipicamente se refere a um símbolo que tem uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos. Uma frequência desproporcionalmente alta de ocorrência na linguagem de referência tipicamente se refere a um símbolo que tem uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos. Por exemplo, no mapa de símbolos mostrado na Figura 3, o caractere * teria frequência desproporcionalmente baixa de ocorrência em modelos de texto convencionais na língua inglesa, e os caracteres alfabéticos E, A e T teriam uma frequência desproporcionalmente alta de ocorrência em modelos de texto convencionais na língua inglesa.
[0090] É fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador que executa uma sequência de instruções; um módulo de memória acoplado ao processador e compreendendo instruções para determinar um identificador de códon de cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados acoplado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, o mapa de símbolos mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e o mapa de símbolos mapeia ainda um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.
[0091] É fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: a recepção de uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética; e gerar um identificador de códon de cada símbolo legível humano contido dentro da sequência, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma linguagem de referência do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na linguagem de referência do que um ou mais símbolos legíveis humanos do conjunto de símbolos legíveis humanos.
[0092] É fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: a geração de um identificador de códon de cada símbolo legível humano no grupo de símbolos legíveis humanos que transmite uma mensagem não genética, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.
[0093] É fornecido neste pedido um método de gerar uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos, o método compreendendo: a recepção da sequência de símbolos legíveis humanos que transmite uma mensagem não genética em um módulo de memória; carregamento de um mapa de símbolos dentro do módulo de memória, em que o mapa de símbolos é configurado para determinar um identificador de códon que mapeia para cada símbolo legível humano dentro da sequência, em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é menos que um primeiro limiar predeterminado dentro de uma linguagem de referência a um códon de partida, e em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é maior do que um segundo limiar predeterminado dentro da linguagem de referência a um códon de parada; e liberação de uma sequência de identificadores de códon correspondente a cada símbolo legível humano dentro da sequência.
[0094] É fornecido neste pedido um método de geração de uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: identificação da sequência de símbolos legíveis humanos em um módulo de memória; e usar um processador para ler um mapeamento de símbolo de cada símbolo legível humano na sequência e determinar um identificador de códon que mapeia o respectivo símbolo legível humano; em que o mapeamento de símbolo mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.
[0095] É fornecido neste pedido meios para decifrar uma sequência de um ou mais identificadores de códon em um ou mais símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética. Tais meios incluem, por exemplo, um aparelho, sistemas, e um meio legível por computador. Ao decodificar uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon, será inicialmente desconhecido a partir da sequência fonte que a região de leitura 5’ pode conter mensagem não genética ou linha d’água, e por isso, todas as três regiões de leitura 5’ devem ser analisadas.
[0096] É fornecido neste pedido um aparelho para transformar uma sequência de identificadores de códon em uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o aparelho compreendendo: um processador adaptado para realizar instruções; e um módulo de armazenamento, em que o módulo de armazenamento compreende uma estrutura de dados para mapear de identificadores de códon em símbolos legíveis humanos, e grupo de instruções que, quando realizadas pelo processador, geram um símbolo legível humano de cada identificador de códon lido em uma sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre a estrutura de dados; em que a estrutura de dados é configurada para mapear um códon de partida a um símbolo legível humano com uma frequência de ocorrência dentro de uma linguagem de referência que é menos que um primeiro limiar predeterminado, e em que a estrutura de dados é ainda configurada para mapear de uma pluralidade de códons de parada para símbolos legíveis humanos com frequências de ocorrência dentro da linguagem de referência que são maiores do que um segundo limiar predeterminado.
[0097] Em outra modalidade, a estrutura de dados mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos.
[0098] Em uma modalidade, a estrutura de dados não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão.
[0099] Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência.
[00100] É fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon; e geração de um símbolo legível humano de cada identificador de códon na sequência; em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida a um símbolo legível humano que tem uma frequência de ocorrência dentro de uma linguagem de referência que é menor do que cada outro símbolo legível humano de um primeiro conjunto de símbolos legíveis humanos, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um símbolo legível humano que tem uma frequência de ocorrência dentro da linguagem de referência que é maior do que cada outro símbolo legível humano do primeiro conjunto de símbolos legíveis humanos.
[00101] É fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon; e geração de um símbolo legível humano de cada identificador de códon na sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia identificadores de códon correspondente ao códon(s) de partida a símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeia identificadores de códon correspondente ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água.
[00102] Em uma modalidade, a função de mapeamento não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão.
[00103] Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência.
[00104] É fornecido neste pedido um método de transformação de um primeiro sinal adaptado para indicar uma sequência de identificadores de códon em um segundo sinal adaptado para indicar uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o método compreendendo: recepção do primeiro sinal; determinar um símbolo legível humano de cada identificador de códon na sequência, em que a dita determinação é baseada pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma sequência de símbolo legível humano do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na sequência de símbolo legível humano do que um ou mais símbolos do conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal baseado em um ou mais símbolos legíveis humanos determinados.
[00105] É fornecido neste pedido um método de transformação de um primeiro sinal compreendendo uma sequência de identificadores de códon em um segundo sinal para indicar uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: a identificação do primeiro sinal que indica a sequência de identificadores de códon; determinação de um símbolo legível humano de cada identificador de códon na sequência, em que a dita determinação de um símbolo legível humano é baseada pelo menos em parte sobre uma função de mapeamento que mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal, em que o segundo sinal indica a sequência de símbolos legíveis humanos.
[00106] Em uma modalidade, a função de mapeamento não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão.
[00107] Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência.
[00108] A Figura 1 é um diagrama de sequência funcional que ilustra um processo de alto nível exemplar para traduzir uma sequência de símbolos de entrada para uma sequência de ácidos nucleicos codificada que pode ser armazenada dentro de qualquer material genético de um organismo, tal como aquela contida em um cromossomo ou genoma em uma ou mais células de uma amostra, organismo vivo e similares. O material genético (por exemplo, DNA) da célula/organismo pode ser posteriormente coletado ou extraído usando técnicas padrão que são bem conhecidas na técnica, para que a sequência nucleotídica codificada possa ser depois determinada. A sequência nucleotídica codificada então pode ser analisada e decifrada a fim de gerar a sequência do símbolo original. Embora a seguinte descrição forneça codificação e/ou decodificação de processos assistida por computador, qualquer um dos métodos descritos neste pedido pode ser realizado manualmente.
[00109] No bloco 102, uma sequência de símbolos 104 é fornecida. A sequência de símbolos 104 pode compreender qualquer número de representações discretas ou símbolos, incluindo símbolos alfanuméricos e não padrão, símbolos ASCII ou ANSI, símbolos de controle e/ou outros tipos de metadados.
[00110] Uma ampla variedade de sequências de símbolo possíveis 104 pode ser utilizada. Por exemplo, uma sequência de símbolos 104 pode incluir os nomes de pessoas ou organizações, marcas comerciais e/ou avisos de direitos autorais, números de série, mensagens de texto, tempos e/ou datas, marcadores e outros indicadores, informação sigilosa, dados, instruções de computador digitais, gráficos, vídeo, informação pretendida a ser operada pelo computador baseado em DNA, etc. Inúmeros outros tipos do conteúdo também podem estar contidos dentro de uma sequência de símbolos 104 e são contemplados neste pedido.
[00111] A sequência de símbolos 104 também pode ser fornecida em qualquer número de maneiras. Em algumas modalidades, por exemplo, a sequência de símbolos 104 pode ser fornecida por um teclado ligado, touchpad, mouse, microfone, ou outro periférico de entrada. Em outras modalidades, a sequência de símbolos 104 pode ser lida em um ou mais arquivos ou fluxo de dados. Estes arquivos ou fluxos de dados podem ser acessados em um sistema local (por exemplo, em um disco rígido local ou outra fonte de memória não volátil), um sistema remoto (por exemplo, em um sistema em rede ou servidor acessível pela Internet), ou um dispositivo de mídia removível (por exemplo, um disquete, unidade de disco rígido externo, unidade flash, cartão inteligente, ou outro dispositivo de barramento serial).
[00112] No bloco 106, uma sequência codificada 108 de nucleotídeos é gerada baseada na sequência de símbolos fornecida 104. Um mapa de símbolos 220 (por exemplo, como aquele mostrado na Figura 3) pode ser usado para traduzir cada símbolo para a sequência de símbolos 106 em uma sequência conhecida como um identificador de códon, preferencialmente um trinucleotídeo. Em algumas modalidades, o mapa de símbolos 220 pode ser armazenado localmente (por exemplo, dentro de uma tabela de busca, banco de dados, ou outro residente da estrutura de referência dentro de um módulo de memória local). Em outras modalidades, o mapa de símbolos 220 pode ser armazenado dentro da memória de um ou mais sistemas remotos.
[00113] No bloco 110, uma sequência sintética de ácidos nucleicos 112 então pode ser criada da sequência codificada 108 especificada. Técnicas convencionais em biologia molecular e síntese de DNA podem ser usadas, por exemplo, para criar uma sequência sintética de ácidos nucleicos 112 que contém o mesmo identificador de códon ordenando como a sequência codificada 108.
[00114] No bloco 114, a sequência sintética de ácidos nucleicos 112 então pode ser introduzida em uma célula ou organismo vivo usando técnicas padrão. A sequência sintética de ácidos nucleicos 112 pode ser diretamente ou indiretamente introduzida no organismo. Uma vez que a sequência sintética de ácidos nucleicos 112 é introduzida na célula ou organismo, as células então podem abrigar a sequência sintética de ácidos nucleicos 112, efetivamente servindo como uma fonte de memória da sequência codificada 108.
[00115] A fim de recuperar a sequência de símbolos 104 da célula ou organismo (por exemplo, um vírus ou um organismo multicelular), o ácido nucleico ou células podem ser extraídos (como mostrado no bloco 116). Observar que uma variedade de técnicas de extração convencionais pode ser usada para extrair o material genético de uma célula recombinante, uma célula sintética, ou um organismo recombinante ou sintético. As células extraídas 118 então podem ser analisadas no bloco 120 a fim de recuperar a sequência originalmente codificada 108.
[00116] Uma vez que a sequência codificada 108 foi recuperada, esta sequência 108 então pode ser analisada e decifrada no bloco 122. Um mapa de símbolos 220 (por exemplo, como aquele mostrado na Figura 3) pode ser usado para decifrar/traduzir cada identificador de códon 302 em um símbolo correspondente 304 da sequência de símbolos original 106. Desta maneira, todos os símbolos legíveis humanos da sequência de símbolos original 106 podem ser reproduzidos.
[00117] A sequência de símbolos 106 então pode ser produzida no bloco 124 em qualquer número de maneiras. Em algumas modalidades, por exemplo, a sequência de símbolos 104 pode ser produzida diretamente em um ou mais dispositivos de produção. Qualquer dispositivo capaz de escrita ou exibição de dados pode ser usado para tais fins, incluindo, por exemplo, dispositivos de exibição (por exemplo, monitores), impressoras, projetores, televisões, falantes, dispositivos de transmissão em rede (por exemplo, computadores, câmeras digitais, assistentes de dados pessoais, dispositivos de memória, etc.) e/ou outra periféricos de saída. Em algumas modalidades, a sequência de símbolos 104 é configurada para ser escrita para um ou mais arquivos que podem ser armazenados dentro de uma fonte de memória local. Ainda em outras modalidades, a sequência de símbolos 104 pode ser produzida pela escrita humana em instrumentos, tais como papel.
[00118] A figura 2 é um diagrama de bloco de um transcodificador exemplar 200 configurado para codificar uma sequência de símbolos de entrada em uma sequência de códon tal que a sequência de códon não tenha substancialmente nenhum impacto biológico em um organismo hospedeiro se introduzido no organismo como uma sequência sintética de ácidos nucleicos (por exemplo, como DNA livre). O transcodificador 200 também pode ser configurado para decifrar uma sequência de entrada de códons e por meio disso ceder originalmente a sequência de símbolos de entrada. Dessa forma, o transcodificador exemplar 200 representado na Figura 2 pode ser usado para tanto codificar uma sequência de símbolo legível humano em uma sequência de códon, como decifrar uma sequência de códon em uma sequência de símbolo legível humano.
[00119] O fornecimento de energia 202 fornece uma fonte de energia para módulos dispostos dentro do transcodificador 200. Em algumas modalidades, a energia é fornecida externamente por um ou mais fios condutores, por exemplo, por um cabo de energia ou barramento serial. Em outras modalidades, uma bateria pode ser usada como uma fonte de energia. Em outras modalidades, um cérebro humano é usado como uma fonte de energia.
[00120] Um ou mais processadores 204 são adaptados para executar sequências de instruções carregando dados e armazenando dados em um módulo de memória local (por exemplo, memória volátil 206, que pode ser implementada como qualquer combinação da memória de acesso aleatório estática e/ou dinâmica). As instruções possíveis podem incluir, sem limitação, instruções de conversões de dados, operações de formatação, operações aritméticas, instruções de comunicação, e/ou operações de recuperação e armazenamento.
[00121] Um ou mais módulos de entrada-saída 216 podem ser usados para interrelacionar o grupo de periféricos de entrada-saída com vários programas, processos, ou execução aplicada dentro da memória volátil 206 do transcodificador 200. Em algumas modalidades, os módulos de entrada-saída 216 podem consistir de um ou mais controladores de dispositivo adaptados para interrelacionar o grupo de dispositivos de maquinário com um sistema operacional associado ao transcodificador 200. Observar que os módulos de entrada-saída 216 podem ser implementados como qualquer combinação de programa, firmware, ou maquinário de acordo com as modalidades descritas neste pedido.
[00122] Uma ampla variedade de periféricos de entrada pode ser usada para gerar a entrada 212 ao transcodificador 200 de acordo com as modalidades descritas neste pedido. Estes periféricos de entrada incluem, sem limitação, teclados, mouses, trackballs, painéis de toque, microfones, controladores (por exemplo, alavancas de controle), scanners, câmeras digitais, lápis, canetas, marcadores, lápis de cera, e interfaces de comunicação de dispositivos em rede (por exemplo, interfaces de rede ou de barramento serial).
[00123] Similarmente, uma ampla variedade de periféricos de saída pode ser usada para escrever e/ou exibir a saída 214 de acordo com várias modalidades descritas neste pedido. Estes periféricos de saída incluem, sem limitação, dispositivos de exibição (por exemplo, monitores), impressoras, projetores, televisões, falantes, módulos de memória local, lápis, canetas, marcadores, lápis de cera, e dispositivos em rede (por exemplo, computadores, câmeras digitais, assistentes de dados pessoais, dispositivos de memória remota, dispositivos de barramento serial de alta velocidade, etc.).
[00124] O módulo 208 de memória não volátil pode ser usado para armazenar persistentemente dados, instruções, estados de processo, tabelas de memória, e outra informação dentro do transcodificador 200. O módulo 208 de memória não volátil pode ser implementado como qualquer tipo ou combinação de memória adaptada ao armazenamento persistente, incluindo, sem limitação, discos rígidos convencionais, ROM (por exemplo, PROM, EPROM, EEPROM), memória flash, papel, etc. Observar também que em algumas modalidades, todo ou uma porção do módulo 208 de memória não volátil pode servir como memória virtual do módulo 206 de memória volátil.
[00125] Em algumas modalidades, a memória não volátil 208 pode incluir um analisador de frequência de símbolo 230 para determinar com que frequência certos símbolos aparecem dentro de um ou mais fluxos de símbolo de entrada. Por exemplo, a frequência de símbolo analisador 230 pode ser usada para determinar que o símbolo "v" tem uma frequência de ocorrência de aproximadamente 1% dentro de um fluxo de símbolo especificado, enquanto o símbolo "e" tem uma frequência de ocorrência de aproximadamente 13% dentro da mesma corrente. Observar um processo exemplar de implementar o analisador de frequência de símbolo 230 foi descrito em mais detalhes abaixo (vide Figura 4 e texto acompanhante).
[00126] Em algumas modalidades, a memória não volátil 208 pode incluir um ou mais mapas de símbolos 220 que podem ser usados para construir sequências de ácidos nucleicos sintéticas com baixa probabilidade de impacto biológico. Um mapa de símbolo exemplar 220 foi fornecido com referência à Figura 3. Como mostrado por esta figura, cada símbolo 304 de um domínio de símbolos possíveis (incluindo letras, números, marcadores de pontuação, símbolos, e símbolos de controle) unicamente mapeia um identificador de códon único 302. O mapa de símbolos 220 pode ser dessa forma usado para traduzir uma sequência de símbolos legíveis humanos em uma sequência de códons, ou traduzir uma sequência de códons em uma sequência de símbolos legíveis humanos.
[00127] Observar enquanto o mapa de símbolos 220 representado na Figura 3 ilustra um mapeamento individual de sessenta e quatro símbolos possíveis 304 a sessenta e quatro identificadores de códons possíveis 302, o mapa de símbolos 220 representado na Figura 3 é simplesmente exemplar na natureza, e foi incluído neste pedido para ilustrar os mais amplos princípios da aplicação. Deve ser entendido que as modalidades descritas neste pedido englobam uma larga variedade de mapeamentos possíveis. Além disso, o domínio de símbolos possíveis 304 e a faixa de identificadores de códon possíveis 302 também podem ser menores do que ou maior do que sessenta e quatro.
[00128] Em algumas modalidades, por exemplo, um domínio de símbolo reduzido pode ser utilizado a fim de reduzir mais a probabilidade que uma sequência sintética de ácidos nucleicos construída tenha um impacto detectável biologicamente no organismo. Isto pode ser implementado, por exemplo, pela exclusão do mapa de símbolos 220 daquelas permutações de nucleotídeos que podem ser potencialmente interpretadas como um códon de partida por processos biológicos internos de um organismo (ATG, GTA, *AT, TG *, etc.).
[00129] Em outras modalidades, o domínio de símbolo pode ser estendido a fim de suportar um maior número de símbolos codificáveis (por exemplo, símbolos em letras maiúsculas e minúsculas, símbolos não padrão, etc.). Isto pode ser implementado, por exemplo, pelo mapeamento de cada símbolo 304 no grupo de múltiplos códons em vez de um códon único (por exemplo, "A" =CAGCCG).
[00130] Voltando agora à Figura 2, a memória não volátil 208 também pode incluir o módulo transcodificador 210 para traduzir uma sequência de símbolos 304 em uma sequência de identificadores de códon 302 e/ou para traduzir uma sequência de identificadores de códon 302 em uma sequência de símbolos. Em algumas modalidades, o módulo transcodificador 210 pode utilizar um ou mais mapas de símbolo 220 como um argumento de entrada, valor, ou parâmetro. Em outras modalidades, o módulo transcodificador 210 pode conter a lógica interna que fornece um ou mais esquemas de codificação (por exemplo, comutador e/ou caso lógico). Observar que um processo exemplar de codificação de uma sequência de símbolos 304 em uma sequência de identificadores de códon 302 foi fornecido abaixo com referência à Figura 5, enquanto um processo exemplar de decifração de uma sequência de identificadores de códon 302 em uma sequência de símbolos 304 foi fornecido abaixo com referência à Figura 6.
[00131] A figura 4 é um diagrama de fluxo de um método exemplar de criação de um mapa de símbolos que pode ser usado para gerar uma sequência de ácidos nucleicos com uma probabilidade substancialmente reduzida ou baixa de impacto biológico.
[00132] No bloco 402, uma análise da frequência de símbolo em uma linguagem de referência ou corrente de símbolo é gerada. Isto pode ser realizado, por exemplo, analisando um ou mais fluxos de entrada a fim de determinar o número de ocorrências de certo símbolo em relação ao número total de símbolos analisados. Em algumas modalidades, um contador pode ser destinado a cada símbolo único que é verificado dentro de um ou mais fluxos de entrada. Em outras modalidades, os contadores podem ser destinados somente àqueles símbolos que são os elementos do domínio de símbolo de entrada. Observar que os equivalentes em letras minúsculas e maiúsculas podem ser tratados como os mesmos símbolos ou separados.
[00133] No bloco 404, o símbolo que ocorre ainda menos frequentemente dentro do domínio de símbolo pode ser determinado. Isto pode ser realizado, por exemplo, por rotinas de tipo convencional (por exemplo, tipo bolha, tipo inserção, tipo seleção, tipo rápida, etc.). Em algumas modalidades, o símbolo que ocorre ainda menos frequentemente é o símbolo asterisco "*". Observar, entretanto, que o símbolo que ocorre ainda menos frequentemente pode depender de um ou mais fluxos de entrada analisados e/ou o domínio de símbolo selecionado.
[00134] No bloco 406, o símbolo que ocorre ainda menos frequentemente pode ser mapeado para uma permutação específica de nucleotídeos conhecidos como códon de partida (isto é, ATG). Um códon de partida é comumente usado por processos internos de um organismo para indicar o começo de uma sequência de codificação. Mapeamento do símbolo que ocorre ainda menos frequentemente para o códon de partida nesta maneira reduz substancialmente o número de códons de partida que aparecerão dentro da sequência codificada, por meio disso reduzindo a probabilidade que processos internos de uma célula interpretem uma porção da sequência codificada como uma instrução genética.
[00135] No bloco 408, os três símbolos que ainda mais frequentemente ocorrem dentro do domínio de símbolo podem ser determinados. Isto pode ser implementado, por exemplo, lendo os três símbolos que ainda mais frequentemente ocorrem dentro de uma lista de símbolo que foi classificada pela frequência de ocorrência (por exemplo, pela leitura da lista classificada gerada no bloco 404). Em algumas modalidades, os três símbolos ainda mais frequentemente ocorrem são as letras "E", "A", e "T" (onde as frequências de letras equivalentes maiúsculas e minúsculas foram agregadas). Como no caso anterior, os três símbolos ainda mais frequentemente ocorrem podem depender de um ou mais fluxos de entrada analisadas e/ou o domínio de símbolo selecionado.
[00136] No bloco 410, cada um dos três símbolos que ainda mais frequentemente ocorrem então pode ser mapeado para um respectivo códon de parada (isto é, TAA, TAG, e TGA). Mapeamento dos símbolos que ainda mais frequentemente ocorrem para códons de parada desta maneira aumenta a probabilidade que uma instrução de parada apareça dentro de uma dada sequência de nucleotídeos, por meio disso substancialmente reduzindo a probabilidade que os processos internos de uma célula interpretem uma porção da sequência codificada como uma instrução genética.
[00137] Cada símbolo não mapeado do domínio de símbolo então pode ser mapeado para um identificador de códon que ainda não mapeou para um símbolo legível humano. Opcionalmente, lógica também pode ser também fornecida que é configurada para impedir um símbolo não mapeado de mapear para um códon que gera um aminoácido que tem uma abreviatura de letra única que é equivalente ao símbolo não mapeado. Por exemplo, se o seguinte símbolo não mapeado foi a letra "V", os códons "GTT", "GTC", "GTA", e "GTG" podem ser excluídos da faixa de candidatos possíveis que podem mapear "V", uma vez que cada um destes códons pode produzir finalmente aminoácido valina (comumente abreviado como "V"). A lógica exemplar para realizar esta funcionalidade é discutida abaixo com referência aos blocos 412-418.
[00138] No bloco 412, uma decisão pode ser tomada quanto a se um símbolo legível humano não mapeado presentemente existe. Se não houver nenhum resto de símbolos não mapeado, o processo pode terminar. De outra maneira, o seguinte símbolo não mapeado pode ser recuperado e o processo continuado no bloco 414.
[00139] O seguinte identificador de códon disponível então pode ser determinado no bloco 414. Isto pode ser implementado recuperando o seguinte identificador de códon de uma estrutura de dados de referência (por exemplo, tabela, lista, montão, pilha, fila, etc.).
[00140] Uma decisão então pode ser tomada no bloco 416 quanto a se o seguinte identificador de códon disponível produz um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado. Em algumas modalidades, tanto os equivalentes de caso superior como inferior são considerados nesta decisão. Se o identificador de códon realmente produzir de fato um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado, um novo identificador de códon pode ser recebido no bloco 414, e o processo pode ser repetido até que um identificador de códon adequado seja determinado. De outra maneira, se o identificador de códon não produz um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado, pode mapear o símbolo não mapeado para o identificador de códon selecionado no bloco 418, e o processo repetido pelo bloco 412.
[00141] Observar que em casos onde cada um dos identificadores de códon restantes não mapeados produzem um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado, processos convencionais de retrocesso podem ser utilizados a fim de não mapear e reordenar símbolos prévios para alternar identificadores de códon. Em outras modalidades, podem mapear símbolos com equivalentes de abreviatura de aminoácido para identificadores de códon antes que mapeiem qualquer outro símbolo, por meio disso evitando a necessidade da lógica de retrocesso.
[00142] A figura 5 é um diagrama de fluxo de um método exemplar de codificação de uma sequência de símbolos de entrada em uma sequência de códon com uma baixa probabilidade de impacto biológico.
[00143] No bloco 502, uma decisão é tomada quanto a se um símbolo não codificado ainda existe dentro da sequência de símbolos de entrada. Se todos os símbolos legíveis humanos da sequência de símbolos de entrada tiverem sido codificados, o processo pode terminar de acordo com algumas modalidades. Alternativamente, o processo pode compreender ainda a inserção de um dos 6 códons de parada da região de leitura no começo e/ou extremidade da sequência codificada. Isto é mostrado nos blocos 508 e 510, respectivamente. Estes todos os 6 códons de parada da região de leitura podem servir dessa forma para designar o começo e/ou extremidade de uma mensagem codificada, por meio disso permitindo uma mensagem ser mais facilmente detectada entre um grande fluxo de nucleotídeos sucessivos.
[00144] Em algumas modalidades, todos os 6 códons de parada da região de leitura podem ser usados para reduzir ainda a probabilidade que os processos internos de uma célula ou um vírus interpretem uma porção da sequência codificada como uma instrução genética. Em algumas modalidades, por exemplo, um ou mais dos 6 códons de parada da região de leitura podem ser intercalados dentro da mensagem codificada em intervalos periódicos, por meio disso assegurando que um códon de parada ocorra em todas as regiões de leitura de "n". Um transcodificador adaptado para decifrar tal mensagem não pode ignorar simplesmente estes códons durante o processo de decodificação.
[00145] Se um símbolo não codificado ainda existir dentro da sequência de entrada, no bloco 504, uma decisão pode ser tomada quanto a se o símbolo de entrada é suportável (isto é, se ele existe dentro do domínio de símbolos codificáveis). Em algumas modalidades, uma mensagem incorreta pode ser gerada quando é determinada que um certo símbolo não pode ser codificado (por exemplo, como mostrado no bloco 512). Em outras modalidades, qualquer símbolo não codificável não pode ser simplesmente ignorado. Ainda em outras modalidades, um símbolo especial pode ser usado para indicar que um símbolo não codificável foi identificado. Este símbolo especial pode servir dessa forma como uma substituição de cada símbolo não codificável encontrado dentro da sequência de símbolos de entrada.
[00146] No bloco 506, o identificador de códon que corresponde ao símbolo de entrada então pode ser gerado. De acordo com algumas modalidades, o identificador de códon que corresponde ao símbolo de entrada pode ser determinado consultando um mapa de símbolos que é armazenado dentro de uma fonte de memória local (por exemplo, o mapa de símbolos 220 representado na Figura 2 e na Figura 3). O processo então pode ser repetido no bloco 502 até que todos os símbolos de entrada tenham sido finalmente codificados.
[00147] A figura 6 é um diagrama de fluxo de um método exemplar de decifração de uma sequência de ácidos nucleicos com uma baixa probabilidade de impacto biológico em uma sequência de símbolos.
[00148] No bloco 602, uma decisão é tomada quanto a se algum identificador de códon adicional existe dentro de uma sequência de entrada de identificadores de códon. Se nenhum identificador de códon existir, o processo então pode terminar. De outra maneira, o processo pode continuar por bloco 604. Este processo seria repetido para todas as três regiões de leitura 5’.
[00149] O símbolo correspondente ao identificador de códon então pode ser determinado no bloco 604. De acordo com algumas modalidades, o símbolo que corresponde ao identificador de códon pode ser determinado consultando um mapa de símbolos que é armazenado dentro de uma fonte de memória local (por exemplo, o mapa de símbolos 220 representado na Figura 2 e na Figura 3).
[00150] O símbolo determinado então pode ser produzido no bloco 606. Em algumas modalidades, o símbolo pode ser escrito, ou exibido, um periférico de saída ligado (por exemplo, um dispositivo de exibição, impressora, tela de televisão, papel, etc.). Em outras modalidades, o símbolo pode ser escrito para uma fonte de memória local e/ou armazenado dentro de um ou mais arquivos. Em algumas modalidades, (por exemplo, como aquelas mostradas na Figura 6) os símbolos podem ser produzidos tão logo sejam determinados. Em outras modalidades, a saída pode ser gerada após todos os símbolos serem determinados.
[00151] A figura 7 é um diagrama de fluxo de um método exemplar de codificação de uma linha d’água em uma sequência sintética de ácidos nucleicos com uma baixa probabilidade de impacto biológico. Cada símbolo de uma linguagem de referência pode ser destinado a um identificador de códon 106. Uma linha d’água que contém uma série de símbolos de uma linguagem de referência 102 pode ser gerada. Cada símbolo na linha d’água pode ser substituído por um identificador de códon e a sequência codificada resultante pode ser incluída no começo com um dos 6 códons de parada da região de leitura contendo a sequência 508 e acrescentada com um dos 6 códons de parada da região de leitura contendo a sequência 510 para criar uma sequência sintética de ácidos nucleicos que contém a mensagem 110 de linha d’água codificada. Dessa forma, dentro do contexto de uma série de identificadores de códon que são usados para codificar uma mensagem que existe entre um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência, seria possível mapear de símbolos para identificadores de códon que podem representar uma abreviatura de letra única de um aminoácido. Neste contexto, seria entendido que todos os 6 códon de parada da região de leitura contendo a sequências preveniria uma mensagem codificada que contém uma abreviatura de aminoácido de ser lida como material genético. Dessa forma, um código mais estático que não se modificaria tipicamente de implementação a implementação pode ser criado. Tal código então pode tornar-se um padrão, tal como um formato de arquivo.
[00152] As figuras 8A-8E ilustram uma modalidade exemplar contemplada para o uso com o sistema descrito acima.
[00153] As mensagens podem ser introduzidas como fragmentos de ácidos nucleicos sintéticos em uma célula ou vírus e incorporadas em um gene, um genoma, um plasmídeo, ou um cromossomo, ou qualquer outro material genético em uma célula. Os ácidos nucleicos incorporados são compostos de identificadores de códon que representam uma série de símbolos legíveis humanos de uma linguagem de referência humana. A sequência de identificadores de códon cria uma mensagem não genética ou linha d’água que podem ser usadas para identificar ou autenticar qualquer célula ou vírus contendo aquela mensagem.
[00154] Uma sequência sintética de ácidos nucleicos pode compreender ainda um dos 6 códons de parada da região de leitura contendo a sequência 5’ (antes) para um primeiro identificador de códon na sequência, um dos 6 códons de parada da região de leitura contendo a sequência 3’ (subsequente) para o identificador do último códon na sequência, ou ambos.
[00155] É fornecida neste pedido uma sequência sintética de ácidos nucleicos, em que a dita sequência sintética de ácidos nucleicos compreende um ou mais identificadores de códon correspondente ao grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, e ainda em que a dita sequência sintética de ácidos nucleicos não seja geneticamente viável e não tenha um impacto biológico em uma célula recombinante ou sintética, ou em um vírus recombinante ou sintético, compreendendo a sequência sintética de ácidos nucleicos.
[00156] Em uma modalidade, uma sequência sintética de ácidos nucleicos não pode ser biologicamente traduzida para uma sequência de aminoácidos funcional pela célula/vírus recombinantes ou sintéticos.
[00157] Um ou mais identificadores de códon não correspondem à sequência de um gene ou outra sequência biologicamente ativa. Preferencialmente um ou mais identificadores de códon correspondem a uma ou mais letras, um ou mais números, um ou mais espaços, um ou mais marcadores de pontuação (por exemplo, " . ; [ ] { } ( ) : ! ? e ’), um ou mais símbolos matemáticos (#, (,), ?, *, +, =, $, %, etc.), um ou mais caracteres tipográficos (por exemplo, ©, ™, ®, §, etc.), uma ou mais novas linhagens, ou combinação de qualquer um dos mesmos e são compostos de três nucleotídeos.
[00158] Em um aspecto, o conjunto de símbolos legíveis humanos compreende uma linha d’água. As linhas d’água incluem, mas não são limitadas a, um aviso de direitos autorais, uma marca comercial, um identificador de companhia, um nome, uma frase, uma sentença, uma cotação, informação genética, informação sobre identificação única, dados, instruções de computador digitais, textos, gráfica, vídeo, informação pretendida a ser operada por um computador baseado em DNA, ou combinação de qualquer um dos mesmos.
[00159] A sequência sintética de ácidos nucleicos pode compreender ainda um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência, ou ambos.
[00160] Pode-se determinar empiricamente o tamanho de uma linha d’água baseada no tamanho de um ou mais dos seguintes: um gene, um genoma, um plasmídeo, um cromossomo artificial, uma célula ou um organismo. Os comprimentos de mensagem podem ter até aproximadamente 40 Kb, até aproximadamente 35 Kb, até aproximadamente 30 Kb, até aproximadamente 25 Kb, até aproximadamente 20 Kb, até aproximadamente 15 Kb, até aproximadamente 10 Kb, até aproximadamente 5 Kb, até aproximadamente 3 Kb, até aproximadamente 2 Kb, até aproximadamente 1 KB, até aproximadamente 0,5 Kb, até aproximadamente 0,1 Kb, ou qualquer valor entre. Em uma modalidade, um comprimento de mensagem pode ter até aproximadamente 5 Kb. Em outra modalidade, um comprimento de mensagem pode ter até aproximadamente 2 Kb. Um comprimento de mensagem, tipicamente, não excede o comprimento de um gene, genoma, plasmídeo, ou cromossomo no qual deva ser incorporado ou substituído. Células, Vírus, Organismos e Animais recombinantes e Sintéticos
[00161] Seria entendido que as sequências de ácidos nucleicos sintéticas que transmitem mensagens não genéticas podem ser usadas em qualquer tipo de célula. Em alguns exemplos, as células podem estar presentes em uma população de células (por exemplo, uma cultura celular, um embrião, um organismo multicelular, uma planta, um animal, etc.).
[00162] É fornecida neste pedido uma célula recombinante ou sintética que contém uma sequência sintética de ácidos nucleicos descrita neste pedido. Uma célula recombinante ou sintética pode ser uma célula procariótica, uma célula eucariótica, ou uma célula de arquea. Também é fornecido neste pedido um vírus, organismo multicelular, ou animal recombinantes ou sintéticos que contém uma sequência sintética de ácidos nucleicos descrita neste pedido. O grupo de símbolos legíveis humanos pode ser uma linha d’água que permite a autenticação ou identificação de dita célula, vírus, organismo ou animal recombinantes ou sintéticos; ou identificação de um organismo compreendendo células recombinantes ou sintéticas ou vírus.
[00163] As células recombinantes ou sintéticas descritas neste pedido são úteis para rastreamento de células ou organismos de pesquisa e/ou uso comercial. As células também incluem, mas não são limitadas a células e organismos em um laboratório de pesquisa. Tais células e os organismos podem ser distribuídos internamente dentro de uma companhia ou instituto, ou distribuídos externamente como parte de uma colaboração ou acordo de transferência material. Outras células são descritas abaixo com respeito a amostras que podem ser avaliadas para células ou organismos contendo uma linha d’água.
[00164] É fornecido neste pedido um animal recombinante que contém uma sequência sintética de ácidos nucleicos que transmite uma mensagem não genética ou linha d’água. Animais recombinantes incluem, por exemplo, roedores transgênicos (por exemplo, camundongos, ratos, furões, coelhos, etc.), cavalos (por exemplo, raça pura, híbrida ou puro-sangue), vacas, touros, cães, gatos, ovelhas, primatas (por exemplo, gorilas, chimpanzés, macacos, orangotangos, etc.), peixe (por exemplo, peixe-zebra ou peixe exótico), anfíbios (por exemplo, rãs), insetos, etc. Tais linhas d’água podem ser usadas para identificar, por exemplo, a fonte do animal, ou identificação de uma modificação genética específica.
[00165] É fornecido neste pedido um embrião recombinante que contém uma linha d’água; tais linhas d’água podem ser usadas para rastrear e identificar embriões baseados na informação codificada.
[00166] Também é fornecida neste pedido uma planta recombinante que contém uma linha d’água; tais linhas d’água podem ser usadas para rastrear e identificar plantas baseadas na informação codificada.
[00167] Uma célula recombinante ou sintética pode ser uma célula procariótica, uma célula eucariótica, ou uma célula de arquea.
[00168] Uma célula procariótica pode ser, por exemplo, uma célula bacteriana que é Gram-positiva ou Gram-negativa.
[00169] Uma célula eucariótica pode ser, por exemplo, uma célula de levedura, uma célula fúngica, uma célula algácea, uma célula animal, ou uma célula vegetal.
[00170] Uma célula procariótica pode ser, por exemplo, uma célula bacteriana que é Gram-positiva ou Gram-negativa, ou pode não ter uma parede celular. Uma sequência sintética de ácidos nucleicos pode ser incorporada em um genoma, um plasmídeo, ou um cromossomo artificial de qualquer bactéria Gram-positiva ou Gram-negativa.
[00171] A bactéria Gram-negativa inclui, mas não é limitada a Enterobacteriaceae spp. (por exemplo, E. coli, E. cloacae, E. intermedius, etc.), Hemophilus spp. (por exemplo, H. influenzae, etc.), Vibrionaceae spp. (por exemplo, V. cholera, etc.), Pseudomonadaceae spp. (por exemplo, Pseudomonas aeruginosa, Pseudomonas fluorescens, Pseudomonas putida, Pseudomonas stutzeri, etc.), Helicobacter spp. (por exemplo, H. pylori, etc.), Synechosystis spp, Acinetobacter baumannii, Acidovorax delafieldii, Aeromonas veronii, Aquaspirrilium spp., Bordetella bronchiseptica, Flavobacterium odoratum, Cryseobacterium gleum, Citrobacter braaki, Citrobacter freundii, Comamonas (Delftia) acidovorans, Burkholderia cepacia, Yersinia kristensenii, Stenotrophomonas spp., Serratia spp. (por exemplo, Serratia liquefaciens, Serratia marcescens, etc.), Salmonella spp. (por exemplo, Salmonella typhimurium, etc.), Ralstonia spp. (por exemplo, Ralstonia eutropha, Ralstonia pickett, etc.) Proteus vulgaris, Providencia rettgeri, Pseudomonas spp. Pantoea ananas, Paracoccus marcusii, Ochrobactrum anthropi, Morganella morganii, Neisseria spp. (por exemplo, Neisseria meningitides, etc.), Klebsiella spp. (por exemplo, Klebsiella oxytoca, Klebsiella pneumonia, etc.) e Hydrogenophaga palleronii. Seria entendido que outro gênero e as espécies do grama bactérias negativas estão incluídos neste pedido.
[00172] As bactérias Gram-positivas incluem, mas não são limitadas a, Streptococcus spp. (por exemplo, S. pneumoniae, S. sanguis, etc.), Enterococci spp. (por exemplo, E. faecalis, etc.), Bacterioides spp. e Clostridia spp. (por exemplo, C. sporogenes, etc.), Mycobacterium spp. (por exemplo, M. tuberculosis, M. avium, etc.), Corynebacterum spp. (por exemplo, C. renale, etc.), Peptostreptococus spp., Listeria spp. (por exemplo, L. monocytogenes, etc.), Legionella spp., Alicyclobacillus acidocaldarius, Bacillus spp. (por exemplo, Bacillus licheniformis, Bacillus pumilus, Bacillus sphaericus, Bacillus subtilis, Bacillus thuringensis, Bacillus cereus, Bacillus circulans, Bacillus dipsosauri, etc.), Brevibacillus choshinensis, Brevibacterium brevis, Deinococcus radiodurans, Staphylococcus spp. (por exemplo, Staphylococcus aureus, Staphylococcus auricularis, Staphylococcus capitis, Staphylococcus epidermidis, etc.) Rhodococcus equi, Propionibacterium acnes, Paenibacillus spp. (por exemplo, Paenibacillus glucanolyticus, Paenibacillus polymyxa, etc.), Kocuria rosea, Microbacterium saperdae, espécies Micrococcus, Kocuria spp. (por exemplo, Kocuria kristinae, Kocuria rhizophila, etc.), e Geobacillus sterothermophilus. Seria entendido que outros gêneros e espécies de bactérias gram-positivas estão incluídos neste pedido.
[00173] As bactérias sem uma parede celular definida incluem, mas não são limitadas a, Mycoplasma spp. (por exemplo, M. capricolum, M. gallisepticum, M. genitalium, M. hominis, M. hyopneumoniae, M. laboratorium, M. mycoides, M. ovipneumonia, M. pneumoniae, etc.).
[00174] Em algumas modalidades, bactérias fotossintéticas, incluindo, por exemplo, bactérias verdes sulfurosas, bactérias púrpuras sulfurosas, bactérias de verdes não sulfurosas, bactérias púrpuras não sulfurosas, ou cianobactérias podem ser usadas. Espécies de cianobactérias que podem ser usadas incluem, sem limitação, espécies Agmenellum, Anabaena, Anabaenopsis, Anacystis, Aphanizomenon, Arthrospira, Asterocapsa, Borzia, Calothrix, Chamaesiphon, Chlorogloeopsis, Chroococcidiopsis, Chroococcus, Crinalium, Cyanobacterium, Cyanobium, Cyanocystis, Cyanospira, Cyanothece, Cylindrospermopsis, Cylindrospermum, Dactylococcopsis, Dermocarpella, Fischerella, Fremyella, Geitleria, Geitlerinema, Gloeobacter, Gloeocapsa, Gloeothece, Halospirulina, Iyengariella, Leptolyngbya, Limnothrix, Lyngbya, Microcoleus, Microcystis, Myxosarcina, Nodularia, Nostoc, Nostochopsis, Oscillatoria, Phormidium, Planktothrix, Pleurocapsa, Prochlorococcus, Prochloron, Prochlorothrix, Pseudanabaena, Rivularia, Schizothrix, Scytonema, Spirulina, Stanieria, Starria, Stigonema, Symploca, Synechococcus, Synechocystis, Tolypothrix, Trichodesmium, Tychonema ou Xenococcus.
[00175] Cada uma das células procarióticas acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.
[00176] A arquea é um grupo de microrganismos monocelulares. Não têm nenhum núcleo celular ou qualquer outra organela dentro das suas células. A arquea inclui, mas não é limitada a células dos filos: Crenarchaeota, Euryarchaeota, Korachaeota, Nanoacraeota e Thaumarchaeota. Cada uma da arquea acima mencionada e outras conhecidas na técnica são contempladas para uso neste pedido.
[00177] Os vírus são tipicamente classificados nos seguintes grupos: I: vírus de dsDNA (por exemplo, Adenovírus, Herpesvírus, Poxvírus); II: vírus de ssDNA (+)DNA sentido (por exemplo, Parvovírus); III: vírus de dsRNA (por exemplo, Reovírus); IV: (+) ssRNA vírus (+) RNA sentido (por exemplo, Picornavírus, Togavírus); V: (-) ssRNA vírus (-) RNA sentido (por exemplo, Ortomixovírus, Rhabdovírus); VI: vírus de ssRNA-RT (+) RNA sentido com DNA servem como intermediário no ciclo da vida (por exemplo, Retrovírus); e VII: vírus de dsDNA-RT (por exemplo, Hepadnavírus).
[00178] Cada um dos vírus acima mencionados e outros conhecidos na técnica são contemplados para o uso neste pedido.
[00179] Uma célula eucariótica contemplada neste pedido pode ser qualquer célula com um núcleo cercado dentro de uma membrana celular, por exemplo, uma célula de levedura, uma célula fúngica, uma célula algácea, uma célula animal ou uma célula vegetal.
[00180] Leveduras são microrganismos unicelulares que pertencem a uma das três classes: Ascomicetos, Basidiomicetos e Fungos Imperfeitos. Cepas de levedura patogênica e cepas de levedura não patogênicas são consideradas neste pedido.
[00181] Gêneros de cepas de levedura incluem, mas não são limitados a, Saccharomyces, Candida, Cryptococcus, Hansenula, Kluyveromyces, Pichia, Rhodotorula, Schizosaccharomyces e Yarrowia.
[00182] Espécies representativas não limitantes das cepas de levedura inclui Saccharomyces cerevisiae, Saccharomyces carlsbergensis, Candida albicans, Candida kefyr, Candida tropicalis, Candida guillermondii, Candida parapilosis, Cryptococcus laurentii, Cryptococcus neoformans, Cryptococcus humicolus, Hansenula anomala, Hansenula polymorpha, Kluyveromyces fragilis, Kluyveromyces lactis, Kluyveromyces marxianus var. lactis, Pichia pastoris, Rhodotorula rubra, Rhodotorula glutinoso, Schizosaccharomyces pombe e Yarrowia lipolytica. Entende-se que um número destas espécies incluem uma variedade de subespécies, tipos, subtipos, etc. que estão destinados a estar incluídos dentro das espécies acima mencionadas.
[00183] Cada um dos gêneros de levedura e espécies acima mencionados e outros conhecidos na técnica são contemplados para o uso neste pedido.
[00184] Uma sequência sintética de ácidos nucleicos pode ser incorporada em um genoma, um plasmídeo, ou um cromossomo artificial de qualquer espécie de algas.
[00185] Algas que podem ser usadas nos métodos da invenção podem ser qualquer alga, e podem incluir microalgas, tal como mas não limitadas a, espécies Achnanthes, Amphiprora, Amphora, Ankistrodesmus, Asteromonas, Boekelovia, Borodinella, Botryococcus, Bracteococcus, Chaetoceros, Carteria, Chlamydomonas, Chlorococcum, Chlorogonium, Chlorella, Chroomonas, Chrysosphaera, Cricosphaera, Crypthecodinium, Cryptomonas, Cyclotella, Dunaliella, Ellipsoidon, Emiliania, Eremosphaera, Ernodesmius, Euglena, Franceia, Fragilaria, Gloeothamnion, Haematococcus, Halocafeteria, Hymenomonas, Isochrysis, Lepocinclis, Micractinium, Monoraphidium, Nannochloris, Nannochloropsis, Navicula, Neochloris, Nephrochloris, Nephroselmis, Nitzschia, Ochromonas, Oedogonium, Oocystis, Ostreococcus, Pavlova, Parachlorella, Pascheria, Phaeodactylum, Phagus, Platymonas, Pleurochrysis, Pleurococcus, Prototheca, Pseudochlorella, Pyramimonas, Pyrobotrys, Scenedesmus, Schizochytrium, Skeletonema, Spyrogyra, Stichococcus, Tetraselmis, Thraustochytrium, Thalassiosira, Viridiella ou Volvox.
[00186] Cada uma das algas acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.
[00187] Células vegetais que podem ser usadas incluem as obtidas de organismos, tais como árvores, ervas, arbustos, gramas, videiras, samambaias, e musgos. A diversidade de divisões vegetais vivas inclui plantas terrestres não vasculares ou briófitas, tais como Marchantiophyta (hepáticas), Anthocerotophyta (antóceros), Bryophyta (musgos) e Horneophytopsida; e plantas vasculares ou traqueófitas, tais como Rhyniophyta, Zosterophyllophyta, Lycopodiophyta (musgos clube), Trimerophytophyta, Pteridophyta (samambaias, samambaias whisk & cavalinha), Progymnospermophyta, e plantas de Semente ou espermatófitos, tais como Pteridospermatophyta (samambaias de semente), Pinophyta (coníferas), Cycadophyta (cicadáceas), Ginkgophyta (ginkgo), Gnetophyta (gnetófitos), e Magnoliophyta (plantas florescentes).
[00188] Cada uma das células vegetais acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.
[00189] Células animais que podem ser usadas incluem, mas não são limitadas a de vertebrados, tais como peixes, anfíbios, répteis, pássaros e mamíferos (por exemplo, roedores, primatas, ovelhas, cavalos, vacas, porcos, cães, gatos, etc.); artrópodes, tais como insetos (por exemplo, Drosophila melanogaster); e nematoides (por exemplo, Caenorhabditis elegans).
[00190] Cada uma das células animais acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.
[00191] Fungos que podem ser usados incluem algum dos filos Microsporidia, Quitridiomiceto, Blastocladiomiceto, Neocallimastigomiceto, Glomeromiceto, Ascomiceto e Basidiomiceto. Gêneros exemplares de fungos a serem usados nas composições e métodos descritos neste pedido incluem, por exemplo, Pullularia, Chaetomium, Aspergillus, Coniophora, Pseudocercosporella, Helminthosporium, Pyrenophorae, Septoria, Helminthosporium, Fusarium, Rhizoctonia, Cercospora, Peronospora, Erysiphe, Pythium e Pestalozzia.
[00192] Espécies de fungos contemplados para o uso nas composições e métodos descritos neste pedido incluem, por exemplo, Pseudocercosporella herpotrichoides, Helminthosporium gramineum, Pyrenophorae avenae, Septoria nodorum, Helminthosporium teres, Fusarium roseum, Fusarium nivale, Fusarium culmorum, Rhizoctonia cerealis, Pullularia pullulans, Chaetomium globosum, Coniophora puteana, Cercospora beticola, Peronospora tabacina, Erysiphe cichoracearum, Pyprenophora avenae, Whetzelinia sclerotiorium, Monilia laxa, Mycosphaerella fijiensis, Marssonina panattoniana, Alternaria solani, Aspergillus niger, Cladosporium herbarium, Penicillium expansum, Phialophora cinerescens, Phoma betae, Phoma foveata, Phoma lingam, Verticillium dahliae, Ascochyta pisi, Guignardia bidwellii, Corticium rolfsii, Phomopsis viticola, Sclerotinia sclerotiorum, Sclerotiniia minor, Phytophthora cinnamomi, Phytophthora cactorum, Phytophthora capsici, Phytophthora parasitica, Phytophthora megasperma, Phytophthora syringae, Coryneum cardinal, Septoria tritici, Botrytis cinerea, Fusarium oxysporum, Fusarium melonis, Rhizoctonia solani e Helminthosporium gramineum.
[00193] Cada um dos fungos acima mencionados e outros conhecidos na técnica são contemplados para o uso neste pedido.
[00194] É fornecido neste pedido um método de criação de uma célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água, compreendendo: (i) geração de uma sequência de ácidos nucleicos compreendendo uma sequência de identificadores de códon selecionado baseada no texto da linha d’água tal que o mapeamento de símbolos de identificadores de códon de mapas correspondente ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e identificadores de códon de mapas correspondentes ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; (ii) síntese da dita sequência de ácidos nucleicos; e (iii) introdução da dita sequência de ácidos nucleicos em uma célula ou vírus recombinantes ou sintéticos, por meio disso criando a dita célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água.
[00195] É fornecido neste pedido um método de criação de uma célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água, compreendendo: (i) geração de uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon do grupo dos símbolos legíveis humanos de uma dita linguagem de referência compreendendo a linha d’água que transmite uma mensagem não genética, em que um mapeamento de símbolo é configurado para mapear um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos para um códon de partida, e em que o mapeamento de símbolo é ainda configurado para mapear um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos para um códon de parada; (ii) síntese da dita sequência de ácidos nucleicos; e (iii) introdução da dita sequência de ácidos nucleicos em uma célula ou vírus recombinantes ou sintéticos, por meio disso criando a dita célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água.
[00196] Alternativamente, é fornecido neste pedido um método de criação de uma célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água, compreendendo: (i) geração de uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon do grupo dos símbolos legíveis humanos da dita linguagem de referência compreendendo a linha d’água que transmite uma mensagem não genética, em que um mapeamento de símbolo é configurado para mapear um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos para um códon de partida, e em que o mapeamento de símbolo é ainda configurado para mapear um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos para um códon de parada; (ii) síntese da dita sequência de ácidos nucleicos; e (iii) introdução da dita sequência de ácidos nucleicos em uma célula ou vírus recombinantes ou sintéticos, por meio disso criando a dita célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água.
[00197] Em uma modalidade, o mapeamento de símbolo não mapeia um identificador de códon de três nucleotídeos para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele códon de três nucleotídeos no código genético padrão.
[00198] Em outra modalidade, a etapa de geração (i) é assistida por computador e compreende a identificação do conjunto de símbolos legíveis humanos em um módulo de memória e para cada símbolo legível humano no conjunto, usando um processador para ler um mapeamento de símbolo para determinar um identificador de códon que mapeia o respectivo símbolo legível humano.
[00199] As tecnologias atuais permitem a geração de moléculas de ácidos nucleicos sintéticas e/ou a capacidade de alterar as sequências de ácidos nucleicos de moléculas de ácidos nucleicos existentes. Com um esquema cuidadoso de codificação e arranjo, é possível codificar informação importante como uma sequência sintética de ácidos nucleicos e armazená-la em um hospedeiro vivo seguramente e permanentemente. Esta tecnologia pode ser usada para identificar origens de um hospedeiro contendo uma linha d’água e proteger investimentos de pesquisa e desenvolvimento. Também pode ser usado na pesquisa ambiental para rastrear de gerações de organismos e observar o impacto ecológico de poluentes. Hoje, há microrganismos que podem sobreviver sob condições extremas. Também, é vantajoso considerar organismos multicelulares como hospedeiros para informação armazenada. Estes organismos vivos podem ser fornecidos como alojamento de memória e proteção de dados ou informação armazenados. A presente invenção fornece bem para armazenamento de dados em um organismo vivo em que pelo menos uma mensagem não genética ou linha d’água são codificadas para representar a informação e incorporadas em uma célula viva ou organismo.
[00200] Um aspecto fornecido neste pedido é o armazenamento de uma mensagem não genética em organismos vivos multicelulares (por exemplo, roedores, primatas, ovelhas, cavalos, vacas, porcos, cães, gatos, etc.). Isto pode ser alcançado incorporando pelo menos uma sequência de ácidos nucleicos codificada para representar uma mensagem não genética em uma célula germinativa; uma célula precursora que dá origem a gametas que então servirão como células haploides especializadas (esperma ou ovo) na reprodução sexuada, ou célula-tronco; uma célula relativamente não diferenciada que continuará dividindo-se indefinidamente, continuando nas células-filha (produção) que sofrerão diferenciação terminal em tipos celulares particulares. A sequência de ácidos nucleicos codificada então propagará em um organismo vivo multicelular. Esta modalidade da invenção é um sistema de armazenamento de memória que tira proveito de organismos multicelulares (por exemplo, inseto, roedor, etc.) e serviços para propagar a sequência de ácidos nucleicos codificada em todas as células-filha que se originam da célula-tronco do hospedeiro original.
[00201] Também é fornecido neste pedido um sistema de armazenamento de memória em que um organismo vivo compreende neste pelo menos uma sequência de ácidos nucleicos codificada para representar uma mensagem não genética. A mensagem não genética armazenada reside em um organismo vivo e permanece lá até que a recuperação seja desejada. A mensagem não genética então é recuperada e decifrada para permitir a comunicação. Como um dispositivo de memória de computador que pode armazenar dados e programas, os mesmos itens ou similares podem ser contidos em um sistema de memória ácido nucleico.
[00202] As mensagens não genéticas ou linhas d’água descritas neste pedido podem ser usadas para traçar ou monitorar a distribuição de uma célula ou organismo particular in situ, exceto situ, in vitro, in vivo ou uma combinação dos mesmos.
[00203] É fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético compreendendo uma linha d’água de referência em uma amostra que transmite uma mensagem não genética, o dito método compreendendo: (i) sequenciamento do material de ácido nucleico obtido de um ou mais organismos na dita amostra ambiental; (ii) transformação da sequência de ácidos nucleicos obtida na etapa (i) ao grupo de identificadores de códon, em que cada identificador de códon do dito conjunto de identificadores de códon consiste em três nucleotídeos da dita sequência nas três regiões de leitura; (iii) determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos daqueles identificadores de códons de mapa correspondente ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeia identificadores de códon correspondentes ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; e (iv) comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico obtido na etapa (i) indica a presença do organismo recombinante ou sintético na amostra ambiental.
[00204] É fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético compreendendo uma linha d’água de referência em uma amostra que transmite uma mensagem não genética, o dito método compreendendo: (i) sequenciamento do material de ácido nucleico obtido de um ou mais organismos na dita amostra ambiental; (ii) transformação da sequência de ácidos nucleicos obtida na etapa (i) ao grupo de identificadores de códon, em que cada identificador de códon do dito conjunto de identificadores de códon consiste em três nucleotídeos da sequência dita nas três regiões de leitura; (iii) determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos que é configurado para mapear um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos e é ainda configurado para mapear um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e (iv) comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico obtido na etapa (i) indica a presença do organismo recombinante ou sintético na amostra ambiental.
[00205] Uma amostra pode ser qualquer amostra que pode conter uma célula recombinante ou sintética tal como, por exemplo, uma amostra ambiental, uma amostra depositada com um depósito celular (por exemplo, American Type Culture Collection (ATCC) ou outro depósito internacional, uma amostra de laboratório, suplementos alimentícios, uma amostra comercial, culturas e sementes recombinantemente engendradas, etc.
[00206] As amostras ambientais incluem, mas não são limitadas a amostras de água, amostras de solo, culturas, depósitos ou derramamentos de óleo, depósitos de carvão, depósitos minerais, células de algas usadas para produção de biocombustível, culturas e sementes recombinantemente engendradas, culturas que entraram em contato com culturas recombinantemente engendradas (por exemplo, milho, uvas, etc.) em virtude da reprodução, amostras contendo células ou organismos úteis para melhorar a qualidade de solo, fungos usados para aumentar o crescimento vegetal, etc.
[00207] As amostras incluem, mas não são limitadas a, células e organismos em um laboratório de pesquisa. Tais amostras podem ser distribuídas internamente dentro de uma companhia, universidade ou instituto, ou distribuídas externamente como parte de uma colaboração ou acordo de transferência de material.
[00208] As amostras também incluem suplementos nutritivos tais como, por exemplo, estoques de algas usados em suplementos nutritivos, algas dessecadas, bactérias para uso em suplementos digestivos e/ou culturas de iogurte, alimento animal e suplementos animais.
[00209] As amostras também incluem vacinas bacterianas e virais tais como, por exemplo, vacinas vivas, vacinas modificadas, vacinas inativadas, etc.
[00210] Também contempladas neste pedido são amostras contendo organismos para produção de enzimas industriais. Tais enzimas são úteis, por exemplo, em detergentes comerciais (por exemplo, sabão para louças, detergente de lavanderia, etc.).
[00211] As amostras também incluem animais recombinantemente engendrados (por exemplo, roedores, primatas, ovelhas, cavalos, vacas, touros, porcos, cães, gatos, etc.). É fornecido neste pedido um método de marcação genética de um organismo não humano introduzindo no organismo uma molécula de ácidos nucleicos contendo uma linha d’água que pode ser decifrada usando os métodos descritos neste pedido.
[00212] Em um aspecto, é fornecido neste pedido um método de monitoramento da fonte, propriedade, ou modificações em uma amostra ao longo do tempo. A amostra que é monitorada pode ser de amostra contendo um ou mais de: uma célula procariótica, um vírus, uma célula de arquea ou uma célula eucariótica. O monitoramento pode determinar se o estado de uma amostra foi modificado ao longo do tempo. Por exemplo, uma cultura recombinantemente engendrada pode ser monitorada para determinar que as células contendo uma modificação são expandidas pelo ambiente através de meios naturais ou são transportadas ilegalmente. O monitoramento pode ser realizado por qualquer um dos métodos fornecidos neste pedido.
[00213] Em outro aspecto, é fornecido neste pedido um método de rastreamento de uma amostra que é transportada por meios naturais ou artificiais.
[00214] Embora as modalidades deste pedido de patente tenham sido descritas com referência aos desenhos acompanhantes, deve ser observado que várias modificações e alterações ficarão evidentes para os versados na técnica. Tais modificações e alterações devem ser entendidas como incluídas dentro do escopo de modalidades como definido pelas reivindicações acrescentadas.
[00215] Termos e frases usados neste documento, e variações dos mesmos, a menos que de outra maneira expressamente afirmado, devem ser interpretados como em aberto ao contrário de limitação. Como exemplos do precedente, o termo "inclusão" deve ser lido como significando "incluindo, sem limitação" ou similares; o termo "exemplo" é usado para fornecer exemplos exemplares do item em discussão, não uma lista exaustiva ou limitante do mesmo; e adjetivos tais como "convencional", "tradicional", "normal", "padrão", "conhecido" e termos de significado similar não devem ser interpretados como limitação do item descrito a um período do tempo dado ou a um item disponível desde um tempo dado, mas em vez disso devem ser lidos para englobar tecnologias convencionais, tradicionais, normais, ou padrão que podem estar disponíveis ou conhecidas agora ou em qualquer momento no futuro. Do mesmo modo, um grupo de itens ligados com a conjunção "e" não deve ser lido como requerendo que todos e cada um daqueles itens estejam presentes no agrupamento, mas um tanto devam ser lidos como "e/ou" a menos que expressamente afirmado de outra maneira. Similarmente um grupo de itens ligados com a conjunção "ou" não deve ser lido como requerimento de exclusividade mútua entre aquele grupo, mas também deve ser lido como "e/ou" a menos que expressamente afirmado de outra maneira. Além disso, embora itens, elementos ou componentes da revelação possam ser descritos ou reivindicados no singular, o plural é contemplado para estar dentro do escopo do mesmo a menos que a limitação ao singular seja explicitamente afirmada. A presença de palavras e frases de ampliação, tais como "um ou mais," "pelo menos," "mas não limitado a" ou outras como frases em alguns exemplos não devem ser lidas para significar que o caso mais estreito seja destinado ou necessário em exemplos onde tais frases de ampliação podem estar ausentes.
[00216] Elementos do presente pedido de patente são ilustrados pelos seguintes exemplos, que não devem ser interpretados como limitantes de forma alguma.
[00217] As figuras 3 e 8 identificam identificadores de códon e os respectivos símbolos codificados destes. Em virtude do desenho da mensagem não genética ou linha d’água, o texto codificado não corresponde às sequências de um gene ou outra sequência biologicamente ativa quando na forma de um ácido nucleico na célula ou organismo. Exemplos fornecidos nas Figuras codificam todas as letras no alfabeto inglês americano bem como os 10 numerais e marcas de pontuação comuns.
[00218] Enquanto as presentes Figuras e Exemplos são descritos com respeito à língua inglesa, seria compreendido que o esquema de codificação pode ser adaptado a qualquer linguagem de referência como descrito acima.
[00219] Uma mensagem não genética codificada na sequência de ácidos nucleicos é flanqueada da sequência 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1) tanto nos lados 5’ como no 3’ da linha d’água uma vez que aquela sequência contém um códon de parada em todas as 6 regiões de leitura.
[00220] Para codificar uma mensagem não genética ou linha d’água, pode-se substituir de uma maneira serial, um para um, um dado símbolo do texto legível humano usando um ou mais de: alfabeto romano, numerais arábicos, e certa pontuação comum e símbolos de formatação de séries de três nucleotídeos. Estas substituições são realizadas tal que cada identificador de códon sucessivo (três sequência nucleotídica) seja adicionado à extremidade 3’ da sequência de ácidos nucleicos.
[00221] Por exemplo, a codificação do texto "JCVI-cepa 012.3 Todos os direitos reservados, 2009." em uma sequência de ácidos nucleicos uma linha d’água pode ser realizada à mão ou pelo programa de computador como se segue:
[00222] Primeiro a linha d’água começa com a sequência de DNA 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1). Depois, o primeiro símbolo legível humano do texto é "J". De acordo com a tabela exemplar acima, a letra "J" (caso superior ou inferior) corresponde à cadeia de 3 nucleotídeos 5’-GTT-3’ no código. Por isso, os três seguintes nucleotídeos da linha d’água são 5’-GTT-3’, que são adicionados à extremidade 3’ da sequência de linha d’água precedente. Neste estágio, a sequência da linha d’água ainda incompleta é 5’- TTAACTAGCTAAGTT-3’ (SEQ ID NO: 7).
[00223] O seguinte símbolo legível humano do texto é "C" que corresponde à cadeia de 3 nucleotídeos 5’-TTT-3’ no código. Por isso, os três seguintes nucleotídeos da linha d’água são 5’-TTT-3’. Neste estágio, a sequência da linha d’água ainda incompleta é 5’- TTAACTAGCTAAGTTTTT-3’ (SEQ ID NO: 8).
[00224] Desta maneira, adiciona-se em série três cadeias nucleotídicas apropriadas que correspondem aos símbolos legíveis humanos do texto à extremidade 3’ da sequência de linha d’água crescente. Os símbolos legíveis humanos que não são cobertos no código são omitidos. Quando todos os símbolos legíveis humanos do texto foram omitidos ou codificados na linha d’água, a sequência 5’- TTAACTAGCTAA-3’ (SEQ ID NO: 1) são adicionados à sua extremidade 3’.
[00225] Dessa forma, a sequência de linha d’água completamente codificada do texto "JCVI-cepa 012.3 Todos os direitos reservados, 2009." é: 5’- TTAACTAGCTAAGTTTTTTTGCTGCCCGCTTGACTATAGCTGTGCATATCTCTTACTC GAAATATATAGAACAACATACTACTGTACTCATGAGCTATACTATAAGCTTAACTATT GTAAATTGTGATAACTTCTTCTGTACGATTAACTAGCTAA-3' (SEQ ID NO: 9).
[00226] Para decifrar uma linha d’água, realiza-se o mesmo processo como a codificação como descrito no Exemplo 1, mas ao contrário.
[00227] Substitui-se de uma maneira individual um para um, cada um dos três nucleotídeos sucessivos da linha d’água dos seus respectivos símbolos legíveis humanos do texto legível humano. Estas substituições (realizadas à mão ou por um programa de computador) são feitas tais que cada símbolo legível humano é colocado à direita do símbolo precedente como cada um substitui ao longo da linha d’água em uma direção 5’ a 3’. Isto é, o processo da substituição é realizado após a sequência 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1) ser removida de ambas as extremidades da linha d’água.
[00228] Por exemplo, para decifrar a sequência 5’- TTAACTAGCTAAGTTTTTTTGCTGCCCGCTTGACTATAGCTGTGCATATCTCTTACTC GAAATATATAGAACAACATACTACTGTACTCATGAGCTATACTATAAGCTTAACTATT GTAAATTGTGATAACTTCTTCTGTACGATTAACTAGCTAA-B'iSEQ ID NO; 9), a primeira etapa remove a sequência 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1) de ambas as extremidades da linha d’água deixando a seguinte linha d’água: 5’- GTTππTGCTGCCCGCTTGACTATAGCTGTGCATATCTCTTACTCGAAATATATAGA ACAACATACTACTGTACTCATGAGCTATACTATAAGCTTAACTATTGTAAATTGTGAT AACTTCTTCTGTACGA-3' (SEQ ID NO: 10).
[00229] Depois, os três primeiros nucleotídeos da sequência de linha d’água restantes são 5’-GTT-3’ que correspondem no código à letra "J". Dessa forma, a primeira letra do texto decifrado é "J". Os três seguintes nucleotídeos da sequência de linha d’água restante são 5’- TTT-3’ que corresponde no código à letra "C". Dessa forma, o texto decifrado agora lê "JC".
[00230] Desta maneira, substituem-se em série os símbolos legíveis humanos apropriados que correspondem às três séries de nucleotídeo da linha d’água ao lado direito do texto decifrado em crescimento. Neste caso exemplar, a linha d’água decifrada do final lê: "JCVI-CEPA 012.3 TODOS OS DIREITOS RESERVADOS, 2009".
[00231] Quando se está inseguro da região de leitura original para decifrar a sequência, isto seria executado em todas as três regiões de leitura 5’; dessa forma, começando a sequência com GTT como o primeiro identificador de códon (1), então com TTT como o primeiro identificador de códon (2), e então com TTT como o primeiro identificador de códon (3) para ver se algum destes produz uma sequência de símbolos legíveis humanos como se segue: GTT ITTTTG CTGCCC GCT (SEQ ID NO; 11) ,...(1) - JCVI-S... TTTTTTTGCTGCCCGCTT(SEQIDNO: 12) ....(2) = CCNN(1... TTT TTT GCT GCC CGC TTG (SEQ ID NO: 13) ... .(3) = CC S68V... em que a região de leitura (1) emergiria como a sequência reconhecível de símbolos legíveis humanos, isto é, a linha d’água.
[00232] A sequência decifrada é apresentada em maiúsculas porque o código, na sua forma básica, não se distingue entre letras de caso superior e inferior, causando a informação da qual as letras foram originalmente capitalizadas a serem perdidas no processo de codificação. Entretanto, as marcas de pontuação, tais como vírgulas, períodos, hífens, e espaços são todos conservados pelos procedimentos de codificação e decodificação.
[00233] O exemplo acima demonstra uma das características úteis das linhas d’água de DNA: se a linha d’água acima foi codificada duas vezes na mesma molécula genômica em posições a uma distância adequada separada uma da outra (por exemplo, 2 kilobases) e nas fitas de oposição, um iniciador único para a reação de PCR pode ser usada como um teste específico para a cepa diagnóstico para identificar a molécula em questão. Neste caso exemplar, o iniciador teria uma sequência que colocaria a extremidade 3’ do iniciador dentro da porção da linha d’água que codificou o número de cepa. Exemplo 3: Células Sintéticas que Contêm Linhas de água
[00234] Um genoma de Mycoplasma mycoides de 1,08 Mbp foi quimicamente sintetizado, e montado na levedura como um plasmídeo centromérico; o genoma foi isolado como DNA nu e transplantado em Mycoplasma capricolum para criar uma nova célula bacteriana controlada somente pelo genoma sintético.
[00235] Descrito no Pedido de Patente Internacional PCT/US10/35490 é o desenho, síntese e montagem do genoma de Mycoplasma mycoides 1.077.947-bp JCVI-syn1 1.078 cassetes de DNA sintético de 1 kb. A montagem foi facilitada por métodos de montagem in vitro e in vivo. Os cassetes em conjuntos de dez foram montados pela recombinação de levedura e propagados em um vetor de lançadeira de levedura/Escherichia coli. As montagens de 10 kb foram recombinadas em conjuntos de dez para produzir montagens de 100 kb. Onze montagens de 100 kb resultantes foram recombinadas em uma etapa final única no genoma completo. Um clone de levedura que nasce do genoma sintético foi selecionado e confirmado por PCR multiplex e análise de restrição.
[00236] O genoma sintético montado foi propagado na levedura como um plasmídeo centromérico e com sucesso transplantado nas células de Mycoplasma capricolum restrição-menor. As novas células têm as propriedades fenotípicas esperadas para M. mycoides e a sequência de DNA sintética projetada, incluindo sequências de linha d’água e outras deleções gênicas projetadas e polimorfismos. Esta cepa é referida como M. mycoides JCVI-syn1; isto foi o segundo cromossomo bacteriano sintetizado e o primeiro mais de um milhão de bp. É um genoma bacteriano sintético com sucesso transplantado na célula recipiente resultando em novas células que são controladas somente por um cromossomo sintético. As novas células de cromossomo sintéticas são capazes de autorreplicação contínua. Este estudo confirmou a capacidade de começar com a informação genética digitalizada, sintetizar novo DNA e transplantar aquele DNA sintético em células que substituem toda a informação genética existente e, como resultado, criou novas células controladas somente por que DNA projetado sintético. A informação genética existente (endógena) foi perdida e como resultado, novas células foram criadas que foram controladas somente pelo cromossomo sintético projetado.
[00237] O desenho do genoma de M. mycoides JCVI-syn1 foi baseado nas sequências de genoma terminadas altamente exatas de duas cepas de laboratório anteriormente descritas de M. mycoides subespécie Capri GM12 (Flexores et al., Nucleic Acids Res, (2010); Lartigue et al., Science 325, 1693 (2009)). Uma foi o doador de genoma usado por Lartigue et al. [Acesso GenBank CP001621] (Lartigue et al., Science 317, 632 (2007)). A outra foi uma cepa criada pelo transplante de um genoma que tinha sido clonado e engendrado na levedura, yCpMmycl.l-Δtypelllres, [acesso GenBank CP001668] (Lartigue et al., Science 325, 1693 (2009)). As diferenças em 95 sítios foram identificadas entre sequências genômicas de M. mycoides. A sequência do genoma transplantado com sucesso da levedura (CP001668) foi usada como uma referência para o desenho; todas as diferenças entre cassetes anteriormente sintetizados que pareceram ser de significância biológica foram corrigidas para combinar com CP001668. As diferenças de sequência entre os nossos cassetes sintéticos e CP001668 que ocorreram em 19 sítios pareceram inofensivas, e não corrigidas também. Estas forneceram 19 diferenças polimórficas entre o genoma sintético (JCVI-syn1) e o genoma natural que clonamos em levedura e uso como um padrão do transplante de genoma da levedura, YCpMmyc1.1 (Lartigue et al., Science 325, 1693 (2009)). Linhas de água
[00238] Para diferenciar entre um genoma sintético ou que ocorre não naturalmente e um natural, quatro sequências de linha d’água exemplares foram projetadas; estas sequências foram adicionadas a um genoma em lugares onde a inserção de uma sequência adicional, ou onde a substituição de uma sequência, não interferiria na viabilidade. Linha d’água-1, 321 caracteres não codificados, 1246 pares de base J, CRAIG VENTER INSTITUTE 2009 ABCDEFGHTJKLMNOPQRSTUVWXYZ 0123456789#@O+^/:<^S&} {*]” [%!r„ SYNTHETIC GENOMICS, INC. <!DOCTYPE 11TML><HTML><HEAD><TITLE>GENOME TEAM<ΠTLEXZHEADXBOD Y><A HREF="HTTP://WWW.JCVI.ORGC>THE JCVI</A><P>PROVE YOU’VE DECODED THIS WATERMARK BY EMAILING US <A HREF=’,MAILTO:MROQST1Z@JCVI.ORG,’>HERE!</A></P></BODY></HT ML> TTAACTAGCTAAGTTCGAATATTTCTATAGCTGTACATATTGTAATGCT GATAACTAATACTGTGCGCTTGACTGTGATCCTGATAAATAACTTCTTCTGTAGG GTAGAGTTTTATTTAAGGCTACTACTGGTTGCAAACCAATGCCGTACATTACTAG CTTGATCCTTGGTCGGTCATTGGGGGATATCTCTTACTAATAGAGCGGCCTATCG CGTATTCTCGCCGGACCCCCCTCTCCCACACCAGCGGTGTACATCACCAAGAAAA TGAGGGGAACGGATGAGGAACGAGTGGGGGCTCATTGCTGATCATAATGACTGT TTATATACTAATGCCGTCAACTGTTTGCTGTGATACTGTGCTTTCGAGGGCGGGA GATTCTTTTTGACATACATAAATATCATGACAAAACAGCCGGTCATGACAAAACA GCCGGTCATAATAGATTAGCCGGTGACTGTGAAACTAAAGCTACTAATGCCGTCA ATAAATATGATAATAGCAACGGCCTGACTGTGAAACTAAAGCCGGCACTCATAA TAGATTAGCCGGAGTCGTATTCATAGCCGGTAGATATCACTATAAGGCCCAGGAT CATGATGAACACAGCACCACGTCGTCGTCCGAGTTTTTTTGCGCGACGTCTATAC CACGGAAGCTGATCATAAATAGTTTTTTTGCTGCGGCACTAGAGCCGGACAAGCA CACTACGTTTGTAAATACATCGTTCCGAATTGTAAATAATTTAATTTCGTATTTAA ATTAATGATCACTGGCTATAGTCTAGTGATAACTACAATAGCTAGCAATAAGTCA TATATAACAATAGCTGAACCTGTGCTACATATCCGCTATACGGTAGATATCACTA TAAGGCCCAGGACAATAGCTGACTGACGTCAGCAACTACGTTTAGCTTGACTGTG GTCGGTTTTTTTGCTGCGACGTCTATACGGAAGCTCATAACTATAAGAGCGGCAC TAGAGCCGGCACACAAGCCGGCACAGTCGTATTCATAGCCGCACTCATGACAAA ACAGCGGCGCGGCTTAACTAGCTAA (SEQ ID NO; 14) Linha d’água-2, 326 caracteres não codificados, 1081 pares de base MIKKEL ALGIRE, MICHAEL MONTAGUE, SANJAY VASHEE, CAROLE LARTIGUE, CHUCK MERRYMAN, NINA ALPEROVICH, NACYRA ASSAD-GARCIA, GWYN BENDERS, RAY-YUAN CHUANG, EVGENIA DENISOVA, DANIEL GIBSON, JOHN GLASS, ZHI-QING QI, "TO LIVE, TO ERR, TO FALL, TO TRIUMPH, TO RECREATE LIFE OUT OF LIFE." - JAMES JOYCE TTAACTAGCTAACAACTGGCAGCATAAAACATATAGAACTACCTGCTA TAAGTGATACAACTGTTTTCATAGTAAAACATACAACGTTGCTGATAGTACTCCT AAGTGATAGCTTAGTGCGTTTAGCTATATTGTAGGCTTCATAATAAGTGATATTTT AGCTACGTAACTAAATAAACTAGCTATGACTGTACTCCTAAGTGATATTTTCATC CTTTGCAATACAATAACTACTACATCAATAGTGCGTGATATCCTGTGCTAGATAT AGAACACATAACTACGTTTGCTGTTTTCAGTGATATGCTAGTTTCATCTATAGATA TAGGCTGCTTAGATTCCCTACTAGCTATTTCTGTAGGTGATATACGTCCATTGCAT AATTAATGCATTTAACTAGCTGTGATACTATAGCATCCCCATTCCTAGTGCATATT TTCATCCTAGTGCTACGTGATATAATTGTACTAATGCCTGTAGATAATTTAATGCC TGGCTCGTTTGTAGGTGAAATTTAGTGCCTGTAAAACATATACCTGAGTGCTCGT TGCGTGATAGTTCGTTCATGCATATACAACTAGGCTGCTGTGATATGGTCACTGC CCTTACTGTGCTACATATTACTGCGAGGGGGATGACTATAAACCTGTTGTAAGTG ATATGACGTATATAACTACTAGTGATATGACGTATAGGCTAGAACAACGTGATAT GACGTATATGACTACTGTCCCAAACATCAGTGATATGACGTATACTATAATTTCA TAATAGTGATAAATAAACCTGGGCTAAATACGTTCCTGAATACGTGGCATAAACC TGGGCTAACGAGGAATACCCATAGTTTAGCAATAAGCTATAGTTCGTCATTTTrA AGGCGCGCCTTAACTAGTAA (SEQ ID NO: 15) Linha d’água-3, 335 caracteres não codificados, 1109 pares de base CLYDE HUTCHISON, ADRIANA JIGA, RADHA KRISHNAKUMAR, JAN MOY, MONZIA MOODIE, MARVIN FRAZIER, HOLLY BADEN-TILSON, JASON MITCHELL, DANA BUSAM, JUSTIN JOHNSON, LAKSHMI DEVI VISWANATHAN, JESSICA HOSTETLER, ROBERT FRIEDMAN, VLADIMIR NOSKOV, JAYSHREE Z AVERT "SEE THINGS NOT AS THEY ARE, BUT AS THEY MIGHT BE." TTAACTAGCTAATTTAACCATATTTAAATATCATCCTGATΠTCACTGGC TCGTTGCGTGATATAGATTCTACTGTAGTGCTAGATAGTTCTGTACTAGGTGATA CTATAGATTTCATAGATAGCACACTGGCTTCATGCTAGGCATCCCAATAGCTAGT GATAGTTTAGTGCATACAACGTCATGTGATACAACGTTGCTGGCTGTAGATACAA CGTCGTATTCTGTAAGTGATACAATAGCTATTGCTGTGCAAGGCCTATAGTGGCT GTAACTAGTGATATCACGTAACAACCATATAAGTTAGATTTAATGCCCCTGACTG AACGCTCGTTGCGTGATAGTITAGGCTCGTTGCATACAACTGTGATTTTCATAAA ACACGTGATAATTTAGTGCTAGATAAGTTCCGCTTAGCAAGTGATAGTTTCCGCT TGACTGTGCATAGTTCGTTCATGCGCTCGTTGCGTGATAAACTAGGCAGCTTCAC AACTGATAATTTAATTGCTGAATTGCTGGCTGTCTAGTGCTAGTGATCATAGTGC GTGATAGTTTAAGCTGCTCTGTTTTAGATATCACGTGCTTGATAATGAAACTAAC TAGTGATACTACGTAGTTAACTATGAATAGGCCTACTGTAATTCAATAGTGCGTG ATATTGAACTAGATTCTGCAACTGCTAATATGCCGTGCTGCACGTTTGGTGATAG TTTAGCATGCTTCACTATAATAAATATGGTAGTTGTAACTACTGCGAATAGGGGG AGTTAATAAATATGATCACTGTGCTACGCTATATGCCGTTGAATATAGGCTATAT GATCATAACATATATAGCTATAAGTGATAAGTTCCTGAATATAGGCTATATGATC ATAACATATACAACTGTACTATGAATAAGTTAACGAGGATTAACTAGCTAA (SEQ ID NO' 16) Linha d’água-4, 338 caracteres não codificados, 1222 pares de base CYNTHIA ANDREWS-PFANNKOCH, QUANG PHAN, LI MA, HAMILTON SMITH, ADI RAMON, CHRISTIAN TAGWERKER, J CRAIG VENTER, EULA WILTURNER, LEI YOUNG, SHIBU YOOSEPH, PRABHA IYER, TIM STOCKWELL, DIANA RADUNE, BRIDGET SZCZYPINSKI, SCOTT DURKIN, NADIA FEDOROVA, I JAVIER QUINONES, HANNA TEKLEAB. "WHAT I CANNOT BUILD, I CANNOT UNDERSTAND." - RICHARD FEYNMAN TTAACTAGCTAATTTCATTGCTGATCACTGTAGATATAGTGCATTCTAT AAGTCGCTCCCACAGGCTAGTGCTGCGCACGTTTTTCAGTGATATTATCCTAGTG CTACATAACATCATAGTGCGTGAAAACCTGATACAATAGGTGATATCATAGCAA CTGAACTGACGTTGCATAGCTCAACTGTGATCAGTGATATAGATTCTGATACTAT AGCAACGTTGCGTGATATTTTCACTACTGGCTTGACTGTAGTCATATGATAGTAC GTCTAACTAGCATAACTAGTGATAGTTATATTTCTATAGCTGTACATATTGTAATG CTGATAACTAGTGATATAATCCAACTAGATAGTCCTGAACTGATCCCTATGCTAA CTAGGATAAACTAACTGATACATCGTTCCTGCTACGTGATAGCTTCACTGAGTTC CATACATCGTCGTGCTTAAACATCAGTGATAACACTATAGAGTTCATAGATACTG CATTAACTAGTGATATGACTGCAATAGCTTGACGTTTTGCAGTCTAAAACAACGT GATAATTCTGTAGTGCTAGATACTATAGATTTCCTGCTAAGTGATAAGTCTACTG ATTTACTAATGAATAGCTTGGTTTTGGCATACACTGTGCGTGCACTGGTGATAGC TTTTCGTTGATGAATAATTTCCCTAGCACTGTGCGTGATATGCTAGATTCTGTAGA TAGGCTAAATTCGTCTACGTTTGTAGGTGATAGTTTAGTTGCTGTAACTAATATTA TCCTGTGCCGTTGCTAAGCTGTGATATCATAGTGCTGCTAGATATGATAAGCAAA CTAATAGAGTCGAGGGGGAGTCTCATAGTGAATACTGATATTTTAGTGCTGCCGT TGAATAAGTTCCCTGAACATGTGATACTGATATΠTAGTGCTGCCGTTOAATATC CTGCATTTAACTAGCTTGATAGTGCATTCGAGGAATACCCATACTACTGTTTTCAT AGCTAATTATAGGCTAACATTGCCAATAGTGCGGCGGCC1TAACTAGCTAA (SEQ ID NO: 17)
[00239] Linhas d’água 1-4 substituíram os cassetes 282-287, 447, 106, e 680, respectivamente como anteriormente descrito em PCT/US10/35490. As linhas d’água foram inseridas em regiões experimentalmente demonstradas (linha d’água 1 (1246 bp) e 2 (1081 bp)) ou preditas (linha d’água 3 (1109 bp) e 4 (1222 bp) para não interferir na viabilidade celular. Um dos 6 códons de parada da região de leitura é sublinhado no começo e final de cada linha d’água; sítios de restrição Afc I são mostrados em itálico negrito. Uma vez que os dados indicaram que a sequência de genoma representada por cassetes 936-939 era dispensável, uma versão do cassete 940 que continha uma sobreposição de 80 bp ao cassete 935 foi produzida. Isto produziria uma deleção de 4 kb e ainda distinguiria o genoma sintético de um natural.
[00240] O desenho de genoma sintético, com esta deleção e as quatro sequências de linha d’água tinha 1.077.947 bp de comprimento. Esta sequência foi dividida em cassetes de 1.080 bp de comprimento com sobreposições de 80 bp, e um sítio de restrição NotI (GCGGCCGC) foi adicionado a cada extremidade. Um mapa dos genes, os 1.078 cassetes dos quais foram montados, polimorfismos esperados, polimorfismos inesperados, um transposon de E. coli inserido, e outras características de M. mycoides JCVI-syn1 foram criadas as quais fornecem o mapa de genoma de M. mycoides JCVI- syn1. Genes, RNAs estruturais, linhas d’água, polimorfismos relativos a M. mycoides Capri GM12 natural, e as coordenadas dos cassetes de DNA sintético foram identificados.
[00241] Uma estratégia hierárquica foi projetada para montar o genoma em 3 estágios por transformação e recombinação homóloga na levedura. No primeiro estágio, foram tomados 10 cassetes de uma vez para produzir intermediários de montagem de 10 kb. No segundo estágio, estes intermediários de 10 kb foram tomados 10 de uma vez para produzir onze intermediários de montagem de ~100 kb. No estágio final, os 11 fragmentos de DNA foram montados em um genoma sintético completo.
[00242] A fim de enriquecer mais para onze intermediários de montagem circular, amostras de ~200 ng de cada montagem foram agrupadas e misturadas com agarose fundida. Como agarose solidifica, o fio através de fibras e "aprisiona" topologicamente o DNA circular (Dean et al., Biochem Anal 56, 417 (dezembro de 1973)).
[00243] DNA linear não aprisionado então pode passar por eletroforese fora do plugue de agarose, que dessa forma enriquece para moléculas circulares aprisionadas. Onze intermediários de montagem circulares foram digeridos com NotI para que os insertos possam ser liberados. Posteriormente, os fragmentos foram extraídos do plugue de agarose, analisados por FIGE (dados não mostrados), e transformados em esferoplastos de levedura. Neste terceiro e final estágio de montagem, uma sequência de vetor adicional não foi necessária uma que que os elementos de propagação de levedura estiveram presentes já na montagem 811-900. Seguinte à incubação em placas seletivas, aproximadamente 100 colônias apareceram.
[00244] Aprisionamento topológico e análise foram conduzidos. As culturas de levedura (50 ml) foram cultivadas e processadas como anteriormente descritas. Os clones de levedura que contêm um genoma sintético completamente montado foram rastreados por PCR múltiplo com um conjunto de iniciadores que produzem 11 amplicons; um em cada uma das 11 ligações de montagem. Os pares de iniciadores foram projetados para transpor cada uma de onze ligações de montagem de 100 kb. De 48 colônias rastreadas, DNA extraído de um clone (sMmYCp235) produziu todos os 11 amplicons. PCR de controle positivo Selvagem (YCpMmyc1.1) produziu um conjunto indistinguível de 11 amplicons (dados não mostrados).
[00245] Para demonstrar ainda a montagem completa de um genoma sintético de M. mycoides, DNA intacto foi isolado da levedura em plugues de agarose e submetido a duas análises de restrição; AscI e BssHII. Uma vez que estes sítios de restrição estão presentes em três das quatro sequências da linha d’água, esta escolha de digestão produz modelos de restrição que são distintos do genoma M. mycoides natural. Genomas naturais (Selvagem) e sintéticos (235) de M. mycoides foram isolados da levedura em plugues de agarose. Além disso, DNA foi purificado da cepa hospedeira sozinha. Os plugues de Agarose foram digeridos com AscI ou BssHII e os fragmentos foram separados por eletroforese em gel de campo elétrico homogêneo estrito (CHEF).
[00246] Plugues de agarose adicionais usadas na análise de gel acima também foram usados em experimentos de transplante de genoma. Genomas sintéticos intactos de M. mycoides do clone de levedura sMmYCp235 foram transplantados nas células recipiente de M. capricolum restrição-menor, como anteriormente descrito (Lartigue et al., Science 325, 1693 (Sep 25, 2009)). Os resultados foram marcados por seleção para o crescimento de colônias azuis em meio SP4 contendo tetraciclina e X-gal a 37 °C. Os genomas isolados deste clone de levedura produziram 5-15 colônias azuis resistentes à tetraciclina por plugue de agarose. Isto foi comparável com o controle YCpMmyc1.1. A recuperação de colônias em todos os experimentos de transplante foi observada quando tanto células recipiente de M. capricolum como um genoma de M. mycoides estavam presentes.
[00247] Para distinguir rapidamente os transplantes sintéticos de M. capricolum ou M. mycoides natural, duas análises foram realizadas. Em primeiro lugar, quatro pares de iniciadores que foram específicos para cada uma das quatro linhas d’água foram projetados tal que produzam quatro amplicons em uma reação de PCR multiplex única.
[00248] Os transplantes contendo um genoma sintético foram rastreados por PCR multiplex com um conjunto de iniciadores que produz 4 amplicons; um interno para cada uma das quatro linhas d’água. Um transplante (syn1) originando-se do clone da levedura sMmYCp235 foi analisado ao lado de um genoma natural, não sintético (Selvagem) transplantado fora da levedura.
[00249] Os quatro amplicons foram produzidos por transplantes gerados de sMmYCp235, mas não YCpMmyc1.1 (dados não mostrados).
[00250] Em segundo lugar, a análise de gel com AscI e BssHII, descrito acima, foi realizada. Resumidamente, genomas de M. mycoides natural (Selvagem) e sintético (syn1) foram isolados de transplantes de M. mycoides em plugues de agarose. Os plugues de agarose foram digeridos com AscI ou BssHII e os fragmentos foram separados por eletroforese em gel CHEF. O modelo de restrição obtido foi compatível com um transplante produzido de um genoma sintético de M. mycoides (dados não mostrados).
[00251] Um transplante único que se origina do genoma sintético sMmYCp235 foi sequenciado. Com a exceção dos polimorfismos conhecidos que ocorreram durante o processo de síntese, e 8 novos polimorfismos e uma inserção de transposon de E. coli inesperada, a sequência combinou com o desenho desejado. Esta cepa é referida como M. mycoides JCVI-syn1. As colônias (isto é, crescimento, células dividindo-se) foram cultivadas em ágar SP4 contendo Xgal para produzir as células que expressam beta-galactosidase azul. Dessa forma, as células sintéticas que compreendem as quatro linhas d’água que não impactaram biologicamente a viabilidade das células tinham sido produzidas.
[00252] Embora as modalidades preferenciais sejam mostradas e descritas neste pedido, tais modalidades são fornecidas por meio de exemplo somente. Deve ser entendido que várias alternativas e equivalentes às modalidades descritas neste pedido podem ser empregados.
Claims (13)
1. Método de geração de uma sequência de identificadores de códon correspondendo a uma sequência de símbolos legíveis humanos e assinada de acordo com um esquema de codificação para transmitir uma mensagem não genética em uma linguagem de referência humana, o método caracterizado pelo fato de que consiste em: (i) recepção da sequência de símbolos legíveis humanos em um módulo de memória; (ii) carregamento de um mapa de símbolo legível humano dentro do módulo de memória, em que o mapa de símbolo legível humano é configurado para determinar um identificador de códon que mapeia cada símbolo legível humano dentro da sequência, em que o mapa de símbolos legível humano é ainda configurado para mapeamento de um símbolo legível humano com uma frequência de ocorrência que é menor que um por cento dentro de uma linguagem de referência para um códon de partida, e em que o mapa de símbolos é ainda configurado para mapeamento de um símbolo legível humano com uma frequência de ocorrência que é maior do que cinco por cento dentro da linguagem de referência a um códon de parada, e nenhum símbolo é codificado por ATG; e (iii) liberação de uma sequência de identificadores de códon correspondente a cada símbolo legível humano dentro da sequência; (iv) sintetização de um ácido nucleico com a sequência da etapa (iii).
2. Método para criar um microrganismo transgênico, caracterizado pelo fato de que consiste em: (i) geração de uma sequência de ácido nucleico como definida na reivindicação 1; e (ii) introdução da referida sequência de ácido nucleico em um microrganismo transgênico.
3. Microrganismo transgênico, caracterizado pelo fato de que consiste na sequência de ácido nucleico sintético como definido na reivindicação 2, em que a referida sequência de ácido nucleico tem um comprimento de 0,1 kb a 40 kb.
4. Microrganismo transgênico, de acordo com a reivindicação 3, caracterizado pelo fato de que: (a) o referido microrganismo transgênico é uma célula procariótica, uma célula de arquea, uma célula bacteriana, uma célula de levedura, uma célula fúngica ou uma célula de alga.
5. Microrganismo transgênico, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que o dito conjunto de símbolos legíveis humanos consiste em uma marca d'água que permite a autenticação ou identificação do dito microrganismo transgênico compreendendo a dita marca d'água, em que a dita marca d'água é preferencialmente um aviso de direitos autorais, uma marca comercial, um identificador da empresa, um nome, uma frase, uma sentença, uma cotação, informações genéticas, informações de identificação exclusivas, dados ou uma combinação de qualquer um dos mesmos.
6. Microrganismo transgênico, de acordo com qualquer uma das reivindicações 2 a 5, caracterizado pelo fato de que a sequência de ácido nucleico sintética ainda consiste em um códon de parada em todas as 6 fases de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência e/ou um códon de parada em todas as 6 fases de leitura de quadro de leitura contendo a sequência 3’ para o último identificador de códon na sequência.
7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que o idioma de referência é selecionado dentre o grupo que consiste em: inglês, espanhol, francês, italiano e alemão.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de o idioma de referência é o inglês.
9. Método para criação de um microrganismo transgênico compreendendo uma marca d'água que transmite uma mensagem não genética, caracterizado pelo fato de que consiste em: (i) geração de uma sequência de ácido nucleico como definida na reivindicação 1; e (ii) introdução da referida sequência de ácido nucleico em um microrganismo transgênico, criando assim o referido microrganismo transgênico compreendendo uma marca d'água.
10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o referido microrganismo transgênico é uma célula procariota, uma célula arquea, uma célula bacteriana, uma célula de levedura, uma célula fúngica ou uma célula de alga.
11. Método, de acordo com qualquer uma das reivindicações 9 a 10, caracterizado pelo fato de que o esquema de codificação não mapeia um identificador de códon de três nucleotídeos para uma representação de uma letra única de um resíduo de aminoácido normalmente atribuído àquele códon de três nucleotídeos no código genético padrão.
12. Método, de acordo com qualquer uma das reivindicações 9 a 10, caracterizado pelo fato de que a referida etapa de geração (i) é assistida por computador e compreende a identificação do conjunto de símbolos legíveis humanos em um módulo de memória e para cada símbolo legível humano no conjunto, e usa um processador para ler um esquema de codificação para determinar um identificador de códon que mapeia para o respectivo símbolo legível humano.
13. Método, de acordo com qualquer uma das reivindicações 9 a 12, caracterizado pelo fato de que o referido microrganismo transgênico é uma célula bacteriana.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25691309P | 2009-10-30 | 2009-10-30 | |
US61/256,913 | 2009-10-30 | ||
US12/783,489 | 2010-05-19 | ||
US12/783,489 US9267132B2 (en) | 2007-10-08 | 2010-05-19 | Methods for cloning and manipulating genomes |
PCT/US2010/054862 WO2011053868A1 (en) | 2009-10-30 | 2010-10-29 | Encoding text into nucleic acid sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112012010535A2 BR112012010535A2 (pt) | 2017-05-16 |
BR112012010535B1 true BR112012010535B1 (pt) | 2024-04-16 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016210593B2 (en) | Encoding text into nucleic acid sequences | |
US10818378B2 (en) | Encoding text into nucleic acid sequences | |
US11236327B2 (en) | Cell sorting | |
Pavlek et al. | Genome-wide analysis of tandem repeats in Tribolium castaneum genome reveals abundant and highly dynamic tandem repeat families with satellite DNA features in euchromatic chromosomal arms | |
Bézier et al. | Functional endogenous viral elements in the genome of the parasitoid wasp Cotesia congregata: insights into the evolutionary dynamics of bracoviruses | |
Johnson | Hybrid incompatibility genes: remnants of a genomic battlefield? | |
Stern | Identification of loci that cause phenotypic variation in diverse species with the reciprocal hemizygosity test | |
US10373705B2 (en) | Providing nucleotide sequence data | |
Ülker et al. | T-DNA–mediated transfer of Agrobacterium tumefaciens chromosomal DNA into plants | |
Behura | Analysis of nuclear copies of mitochondrial sequences in honeybee (Apis mellifera) genome | |
Paul et al. | Genome sequence of the oleaginous yeast Rhodotorula glutinis ATCC 204091 | |
Tollis et al. | Lizards and LINEs: selection and demography affect the fate of L1 retrotransposons in the genome of the green anole (Anolis carolinensis) | |
Gschloessl et al. | Draft genome and reference transcriptomic resources for the urticating pine defoliator Thaumetopoea pityocampa (Lepidoptera: Notodontidae) | |
Pound et al. | The “neglected viruses” of Taihu: abundant transcripts for viruses infecting eukaryotes and their potential role in phytoplankton succession | |
Drinnenberg et al. | EvoChromo: towards a synthesis of chromatin biology and evolution | |
Seddiki et al. | Sequencing, de novo assembly, and annotation of the complete genome of a new Thraustochytrid species, strain CCAP_4062/3 | |
Gupta et al. | Novel DNA barcode sequence discovery from transcriptome of Acheta domesticus: a partial mitochondrial DNA | |
Bracewell et al. | Sex chromosome evolution in beetles | |
DePriest et al. | The mitochondrial genome of Grateloupia taiwanensis (Halymeniaceae, Rhodophyta) and comparative mitochondrial genomics of red algae | |
BR112012010535B1 (pt) | Microrganismo transgênico, seus métodos de criação, bem como método de geração de uma sequência de identificadores de códon | |
Coleine et al. | Draft genome sequence of the yeast Rhodotorula sp. strain CCFEE 5036, isolated from McMurdo Dry Valleys, Antarctica | |
Žiarovská et al. | Transposable elements in the revealing of polymorphism-based differences in the seeds of flax varieties grown in remediated chernobyl area | |
Forsdyke | The chromosomal basis of species initiation: Prdm9 as an anti-speciation gene | |
Sun et al. | Variation and evolution of polyadenylation profiles in sauropsid mitochondrial mRNAs as deduced from the high-throughput RNA sequencing | |
Yim et al. | The last missing piece of the Triangle of U: the evolution of the tetraploid Brassica carinata genome |