CN114040971A - CRISPR-Cas效应子多肽及其使用方法 - Google Patents
CRISPR-Cas效应子多肽及其使用方法 Download PDFInfo
- Publication number
- CN114040971A CN114040971A CN202080030261.1A CN202080030261A CN114040971A CN 114040971 A CN114040971 A CN 114040971A CN 202080030261 A CN202080030261 A CN 202080030261A CN 114040971 A CN114040971 A CN 114040971A
- Authority
- CN
- China
- Prior art keywords
- crispr
- cas effector
- activity
- amino acid
- polypeptide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012636 effector Substances 0.000 title claims abstract description 845
- 238000000034 method Methods 0.000 title claims abstract description 113
- 108090000765 processed proteins & peptides Proteins 0.000 title claims description 318
- 102000004196 processed proteins & peptides Human genes 0.000 title claims description 310
- 229920001184 polypeptide Polymers 0.000 title claims description 309
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 545
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 537
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 262
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 254
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 254
- 108020005004 Guide RNA Proteins 0.000 claims abstract description 210
- 239000000203 mixture Substances 0.000 claims abstract description 50
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 406
- 210000004027 cell Anatomy 0.000 claims description 220
- 230000000694 effects Effects 0.000 claims description 198
- 239000002773 nucleotide Substances 0.000 claims description 193
- 125000003729 nucleotide group Chemical group 0.000 claims description 193
- 230000004927 fusion Effects 0.000 claims description 117
- 108020004414 DNA Proteins 0.000 claims description 94
- 102000053602 DNA Human genes 0.000 claims description 78
- 230000027455 binding Effects 0.000 claims description 70
- 238000006467 substitution reaction Methods 0.000 claims description 70
- 150000001413 amino acids Chemical class 0.000 claims description 59
- 239000013604 expression vector Substances 0.000 claims description 56
- 238000003259 recombinant expression Methods 0.000 claims description 46
- 108010077850 Nuclear Localization Signals Proteins 0.000 claims description 36
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 34
- 238000013518 transcription Methods 0.000 claims description 30
- 230000035897 transcription Effects 0.000 claims description 30
- 238000003776 cleavage reaction Methods 0.000 claims description 27
- 230000007017 scission Effects 0.000 claims description 27
- 241000282414 Homo sapiens Species 0.000 claims description 26
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 24
- 241000196324 Embryophyta Species 0.000 claims description 22
- 230000002255 enzymatic effect Effects 0.000 claims description 20
- 108060004795 Methyltransferase Proteins 0.000 claims description 18
- 108020004999 messenger RNA Proteins 0.000 claims description 18
- 230000001939 inductive effect Effects 0.000 claims description 17
- 101710163270 Nuclease Proteins 0.000 claims description 15
- 108010033040 Histones Proteins 0.000 claims description 14
- 101000615488 Homo sapiens Methyl-CpG-binding domain protein 2 Proteins 0.000 claims description 14
- 102100021299 Methyl-CpG-binding domain protein 2 Human genes 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 14
- 238000012986 modification Methods 0.000 claims description 14
- 230000008685 targeting Effects 0.000 claims description 14
- 102000016397 Methyltransferase Human genes 0.000 claims description 13
- 108010008532 Deoxyribonuclease I Proteins 0.000 claims description 12
- 102000007260 Deoxyribonuclease I Human genes 0.000 claims description 12
- 108010061833 Integrases Proteins 0.000 claims description 9
- 238000000338 in vitro Methods 0.000 claims description 9
- 210000004962 mammalian cell Anatomy 0.000 claims description 9
- 210000001519 tissue Anatomy 0.000 claims description 9
- 239000004475 Arginine Substances 0.000 claims description 8
- 241000288906 Primates Species 0.000 claims description 8
- 102000018120 Recombinases Human genes 0.000 claims description 8
- 108010091086 Recombinases Proteins 0.000 claims description 8
- 241000251539 Vertebrata <Metazoa> Species 0.000 claims description 7
- 102000005421 acetyltransferase Human genes 0.000 claims description 7
- 108020002494 acetyltransferase Proteins 0.000 claims description 7
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 claims description 7
- 210000005260 human cell Anatomy 0.000 claims description 7
- 238000001727 in vivo Methods 0.000 claims description 7
- 239000002245 particle Substances 0.000 claims description 7
- 230000001177 retroviral effect Effects 0.000 claims description 7
- 241000238631 Hexapoda Species 0.000 claims description 6
- 108010020764 Transposases Proteins 0.000 claims description 6
- 102000008579 Transposases Human genes 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000027832 depurination Effects 0.000 claims description 6
- 230000008488 polyadenylation Effects 0.000 claims description 6
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 6
- 102000003960 Ligases Human genes 0.000 claims description 5
- 108090000364 Ligases Proteins 0.000 claims description 5
- 102100025169 Max-binding protein MNT Human genes 0.000 claims description 5
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 claims description 5
- 241000283984 Rodentia Species 0.000 claims description 5
- 108010031100 chloroplast transit peptides Proteins 0.000 claims description 5
- 230000009615 deamination Effects 0.000 claims description 5
- 238000006481 deamination reaction Methods 0.000 claims description 5
- 230000007498 myristoylation Effects 0.000 claims description 5
- 108091006107 transcriptional repressors Proteins 0.000 claims description 5
- 239000013603 viral vector Substances 0.000 claims description 5
- 230000033616 DNA repair Effects 0.000 claims description 4
- 108010046331 Deoxyribodipyrimidine photo-lyase Proteins 0.000 claims description 4
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 claims description 4
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 claims description 4
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 claims description 4
- 239000004472 Lysine Substances 0.000 claims description 4
- 230000010718 Oxidation Activity Effects 0.000 claims description 4
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 claims description 4
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 claims description 4
- 108091000080 Phosphotransferase Proteins 0.000 claims description 4
- 108091093078 Pyrimidine dimer Proteins 0.000 claims description 4
- 108010083111 Ubiquitin-Protein Ligases Proteins 0.000 claims description 4
- 102000006275 Ubiquitin-Protein Ligases Human genes 0.000 claims description 4
- 230000029936 alkylation Effects 0.000 claims description 4
- 238000005804 alkylation reaction Methods 0.000 claims description 4
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 claims description 4
- 102000020233 phosphotransferase Human genes 0.000 claims description 4
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 claims description 4
- 239000013635 pyrimidine dimer Substances 0.000 claims description 4
- 238000010361 transduction Methods 0.000 claims description 4
- 230000026683 transduction Effects 0.000 claims description 4
- 230000005778 DNA damage Effects 0.000 claims description 3
- 231100000277 DNA damage Toxicity 0.000 claims description 3
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 claims description 3
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000004102 animal cell Anatomy 0.000 claims description 3
- 230000013595 glycosylation Effects 0.000 claims description 3
- 238000006206 glycosylation reaction Methods 0.000 claims description 3
- 239000002502 liposome Substances 0.000 claims description 3
- 241000283073 Equus caballus Species 0.000 claims description 2
- 108700019146 Transgenes Proteins 0.000 claims description 2
- 230000002538 fungal effect Effects 0.000 claims 5
- 102100034343 Integrase Human genes 0.000 claims 4
- 241000270322 Lepidosauria Species 0.000 claims 4
- 230000009261 transgenic effect Effects 0.000 claims 4
- 241000251468 Actinopterygii Species 0.000 claims 3
- 241000238421 Arthropoda Species 0.000 claims 3
- 241000271566 Aves Species 0.000 claims 3
- 244000045947 parasite Species 0.000 claims 3
- 241000239223 Arachnida Species 0.000 claims 2
- 108091092566 Extrachromosomal DNA Proteins 0.000 claims 2
- 108010077991 O-GlcNAc transferase Proteins 0.000 claims 2
- 102000005520 O-GlcNAc transferase Human genes 0.000 claims 2
- 230000007423 decrease Effects 0.000 claims 2
- 230000022811 deglycosylation Effects 0.000 claims 2
- 241000212948 Cnidium Species 0.000 claims 1
- 241000209510 Liliopsida Species 0.000 claims 1
- 241001494479 Pecora Species 0.000 claims 1
- 239000000872 buffer Substances 0.000 claims 1
- 229940042399 direct acting antivirals protease inhibitors Drugs 0.000 claims 1
- 210000001163 endosome Anatomy 0.000 claims 1
- 241001233957 eudicotyledons Species 0.000 claims 1
- 238000010362 genome editing Methods 0.000 claims 1
- 239000003112 inhibitor Substances 0.000 claims 1
- 150000002632 lipids Chemical class 0.000 claims 1
- 239000011159 matrix material Substances 0.000 claims 1
- 239000000137 peptide hydrolase inhibitor Substances 0.000 claims 1
- 102000004389 Ribonucleoproteins Human genes 0.000 abstract description 10
- 108010081734 Ribonucleoproteins Proteins 0.000 abstract description 10
- 235000018102 proteins Nutrition 0.000 description 525
- 235000001014 amino acid Nutrition 0.000 description 94
- 230000000295 complement effect Effects 0.000 description 61
- 108091027963 non-coding RNA Proteins 0.000 description 54
- 102000042567 non-coding RNA Human genes 0.000 description 54
- 230000003197 catalytic effect Effects 0.000 description 35
- 230000001105 regulatory effect Effects 0.000 description 35
- 230000002441 reversible effect Effects 0.000 description 35
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 32
- 108020001580 protein domains Proteins 0.000 description 31
- 229940024606 amino acid Drugs 0.000 description 29
- 108091028043 Nucleic acid sequence Proteins 0.000 description 20
- 102000040430 polynucleotide Human genes 0.000 description 19
- 108091033319 polynucleotide Proteins 0.000 description 19
- 239000002157 polynucleotide Substances 0.000 description 19
- -1 rRNA Proteins 0.000 description 19
- 210000000130 stem cell Anatomy 0.000 description 18
- 125000005647 linker group Chemical group 0.000 description 17
- 238000001890 transfection Methods 0.000 description 14
- 108020001507 fusion proteins Proteins 0.000 description 13
- 102000037865 fusion proteins Human genes 0.000 description 13
- 230000014616 translation Effects 0.000 description 13
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 12
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 12
- 239000005090 green fluorescent protein Substances 0.000 description 12
- 230000003993 interaction Effects 0.000 description 12
- 238000013519 translation Methods 0.000 description 12
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 239000012634 fragment Substances 0.000 description 11
- 210000004940 nucleus Anatomy 0.000 description 11
- 238000003556 assay Methods 0.000 description 10
- 238000009396 hybridization Methods 0.000 description 10
- 230000001404 mediated effect Effects 0.000 description 10
- 230000003612 virological effect Effects 0.000 description 10
- 210000001671 embryonic stem cell Anatomy 0.000 description 9
- 210000001778 pluripotent stem cell Anatomy 0.000 description 9
- 229930101283 tetracycline Natural products 0.000 description 9
- 108091033409 CRISPR Proteins 0.000 description 8
- 108091026890 Coding region Proteins 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 8
- 108090000790 Enzymes Proteins 0.000 description 8
- 241000699666 Mus <mouse, genus> Species 0.000 description 8
- 239000004098 Tetracycline Substances 0.000 description 8
- 229940088598 enzyme Drugs 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000007115 recruitment Effects 0.000 description 8
- 230000004936 stimulating effect Effects 0.000 description 8
- 229960002180 tetracycline Drugs 0.000 description 8
- 235000019364 tetracycline Nutrition 0.000 description 8
- 150000003522 tetracyclines Chemical class 0.000 description 8
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 7
- 235000009697 arginine Nutrition 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N biotin Natural products N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 7
- 210000003763 chloroplast Anatomy 0.000 description 7
- 102000034287 fluorescent proteins Human genes 0.000 description 7
- 108091006047 fluorescent proteins Proteins 0.000 description 7
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 7
- 108020004705 Codon Proteins 0.000 description 6
- 241000701022 Cytomegalovirus Species 0.000 description 6
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 6
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 6
- 102000004533 Endonucleases Human genes 0.000 description 6
- 108010042407 Endonucleases Proteins 0.000 description 6
- 102100034349 Integrase Human genes 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 210000004602 germ cell Anatomy 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 6
- 230000011987 methylation Effects 0.000 description 6
- 238000007069 methylation reaction Methods 0.000 description 6
- 230000011278 mitosis Effects 0.000 description 6
- 238000004806 packaging method and process Methods 0.000 description 6
- 108010054624 red fluorescent protein Proteins 0.000 description 6
- 108091005957 yellow fluorescent proteins Proteins 0.000 description 6
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 5
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 5
- 241000894006 Bacteria Species 0.000 description 5
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 5
- 239000004471 Glycine Substances 0.000 description 5
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 5
- 108010044843 Peptide Initiation Factors Proteins 0.000 description 5
- 102000005877 Peptide Initiation Factors Human genes 0.000 description 5
- 108010029485 Protein Isoforms Proteins 0.000 description 5
- 102000001708 Protein Isoforms Human genes 0.000 description 5
- 241000700584 Simplexvirus Species 0.000 description 5
- 241000700605 Viruses Species 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 5
- 108010082025 cyan fluorescent protein Proteins 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000000520 microinjection Methods 0.000 description 5
- 229920000642 polymer Polymers 0.000 description 5
- 210000001082 somatic cell Anatomy 0.000 description 5
- 125000006850 spacer group Chemical group 0.000 description 5
- 108091006106 transcriptional activators Proteins 0.000 description 5
- 230000002103 transcriptional effect Effects 0.000 description 5
- 102100036279 DNA (cytosine-5)-methyltransferase 1 Human genes 0.000 description 4
- 108010024491 DNA Methyltransferase 3A Proteins 0.000 description 4
- 108010024985 DNA methyltransferase 3B Proteins 0.000 description 4
- 102100022846 Histone acetyltransferase KAT2B Human genes 0.000 description 4
- 102100022893 Histone acetyltransferase KAT5 Human genes 0.000 description 4
- 102100033071 Histone acetyltransferase KAT6A Human genes 0.000 description 4
- 102100033070 Histone acetyltransferase KAT6B Human genes 0.000 description 4
- 102100038720 Histone deacetylase 9 Human genes 0.000 description 4
- 102000006947 Histones Human genes 0.000 description 4
- 101001047006 Homo sapiens Histone acetyltransferase KAT2B Proteins 0.000 description 4
- 101000944179 Homo sapiens Histone acetyltransferase KAT6A Proteins 0.000 description 4
- 101000613625 Homo sapiens Lysine-specific demethylase 4A Proteins 0.000 description 4
- 101001088893 Homo sapiens Lysine-specific demethylase 4C Proteins 0.000 description 4
- 101001088887 Homo sapiens Lysine-specific demethylase 5C Proteins 0.000 description 4
- 101001088879 Homo sapiens Lysine-specific demethylase 5D Proteins 0.000 description 4
- 102100040863 Lysine-specific demethylase 4A Human genes 0.000 description 4
- 102100033230 Lysine-specific demethylase 4C Human genes 0.000 description 4
- 102100033246 Lysine-specific demethylase 5A Human genes 0.000 description 4
- 102100033247 Lysine-specific demethylase 5B Human genes 0.000 description 4
- 102100033249 Lysine-specific demethylase 5C Human genes 0.000 description 4
- 102100033143 Lysine-specific demethylase 5D Human genes 0.000 description 4
- 229920002873 Polyethylenimine Polymers 0.000 description 4
- 230000004570 RNA-binding Effects 0.000 description 4
- 108020004566 Transfer RNA Proteins 0.000 description 4
- QTBSBXVTEAMEQO-UHFFFAOYSA-N acetic acid Substances CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 4
- 229960002685 biotin Drugs 0.000 description 4
- 235000020958 biotin Nutrition 0.000 description 4
- 239000011616 biotin Substances 0.000 description 4
- 239000001506 calcium phosphate Substances 0.000 description 4
- 229910000389 calcium phosphate Inorganic materials 0.000 description 4
- 235000011010 calcium phosphates Nutrition 0.000 description 4
- 102000028861 calmodulin binding Human genes 0.000 description 4
- 108091000084 calmodulin binding Proteins 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 238000004520 electroporation Methods 0.000 description 4
- 108010048367 enhanced green fluorescent protein Proteins 0.000 description 4
- 238000010353 genetic engineering Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000021121 meiosis Effects 0.000 description 4
- 239000012528 membrane Substances 0.000 description 4
- 210000004379 membrane Anatomy 0.000 description 4
- 229910052751 metal Inorganic materials 0.000 description 4
- 239000002184 metal Substances 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 239000013612 plasmid Substances 0.000 description 4
- 238000001556 precipitation Methods 0.000 description 4
- 230000000754 repressing effect Effects 0.000 description 4
- YGSDEFSMJLZEOE-UHFFFAOYSA-N salicylic acid Chemical compound OC(=O)C1=CC=CC=C1O YGSDEFSMJLZEOE-UHFFFAOYSA-N 0.000 description 4
- 230000035939 shock Effects 0.000 description 4
- 150000003431 steroids Chemical class 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 description 4
- RAVVEEJGALCVIN-AGVBWZICSA-N (2s)-2-[[(2s)-2-[[(2s)-2-[[(2s)-5-amino-2-[[(2s)-2-[[(2s)-2-[[(2s)-6-amino-2-[[(2s)-6-amino-2-[[(2s)-2-[[2-[[(2s)-2-amino-3-(4-hydroxyphenyl)propanoyl]amino]acetyl]amino]-5-(diaminomethylideneamino)pentanoyl]amino]hexanoyl]amino]hexanoyl]amino]-5-(diamino Chemical compound NC(N)=NCCC[C@@H](C(O)=O)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CCCN=C(N)N)NC(=O)CNC(=O)[C@@H](N)CC1=CC=C(O)C=C1 RAVVEEJGALCVIN-AGVBWZICSA-N 0.000 description 3
- FNQJDLTXOVEEFB-UHFFFAOYSA-N 1,2,3-benzothiadiazole Chemical compound C1=CC=C2SN=NC2=C1 FNQJDLTXOVEEFB-UHFFFAOYSA-N 0.000 description 3
- 239000005964 Acibenzolar-S-methyl Substances 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 3
- 238000010354 CRISPR gene editing Methods 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 3
- 108060002716 Exonuclease Proteins 0.000 description 3
- 239000004366 Glucose oxidase Substances 0.000 description 3
- 108010015776 Glucose oxidase Proteins 0.000 description 3
- 102000006479 Heterogeneous-Nuclear Ribonucleoproteins Human genes 0.000 description 3
- 108010019372 Heterogeneous-Nuclear Ribonucleoproteins Proteins 0.000 description 3
- 108010074870 Histone Demethylases Proteins 0.000 description 3
- 102000008157 Histone Demethylases Human genes 0.000 description 3
- 108010016918 Histone-Lysine N-Methyltransferase Proteins 0.000 description 3
- 102000000581 Histone-lysine N-methyltransferase Human genes 0.000 description 3
- 102100035042 Histone-lysine N-methyltransferase EHMT2 Human genes 0.000 description 3
- 101000877312 Homo sapiens Histone-lysine N-methyltransferase EHMT2 Proteins 0.000 description 3
- 101001050886 Homo sapiens Lysine-specific histone demethylase 1A Proteins 0.000 description 3
- 108700000788 Human immunodeficiency virus 1 tat peptide (47-57) Proteins 0.000 description 3
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 3
- 102100024985 Lysine-specific histone demethylase 1A Human genes 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 102000015097 RNA Splicing Factors Human genes 0.000 description 3
- 108010039259 RNA Splicing Factors Proteins 0.000 description 3
- 241000700159 Rattus Species 0.000 description 3
- 241000714474 Rous sarcoma virus Species 0.000 description 3
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 230000021736 acetylation Effects 0.000 description 3
- 238000006640 acetylation reaction Methods 0.000 description 3
- 229960000643 adenine Drugs 0.000 description 3
- 125000000637 arginyl group Chemical class N[C@@H](CCCNC(N)=N)C(=O)* 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 210000004899 c-terminal region Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 102000013165 exonuclease Human genes 0.000 description 3
- 239000007850 fluorescent dye Substances 0.000 description 3
- 229940116332 glucose oxidase Drugs 0.000 description 3
- 235000019420 glucose oxidase Nutrition 0.000 description 3
- 235000014304 histidine Nutrition 0.000 description 3
- 210000004263 induced pluripotent stem cell Anatomy 0.000 description 3
- BPHPUYQFMNQIOC-NXRLNHOXSA-N isopropyl beta-D-thiogalactopyranoside Chemical compound CC(C)S[C@@H]1O[C@H](CO)[C@H](O)[C@H](O)[C@H]1O BPHPUYQFMNQIOC-NXRLNHOXSA-N 0.000 description 3
- 238000001638 lipofection Methods 0.000 description 3
- 235000018977 lysine Nutrition 0.000 description 3
- 229920002521 macromolecule Polymers 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000010369 molecular cloning Methods 0.000 description 3
- 239000002105 nanoparticle Substances 0.000 description 3
- 230000030147 nuclear export Effects 0.000 description 3
- 210000003463 organelle Anatomy 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009870 specific binding Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005945 translocation Effects 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- DIGQNXIGRZPYDK-WKSCXVIASA-N (2R)-6-amino-2-[[2-[[(2S)-2-[[2-[[(2R)-2-[[(2S)-2-[[(2R,3S)-2-[[2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S,3S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2R)-2-[[2-[[2-[[2-[(2-amino-1-hydroxyethylidene)amino]-3-carboxy-1-hydroxypropylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1-hydroxyethylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxyethylidene]amino]-1-hydroxypropylidene]amino]-1,3-dihydroxypropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxybutylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1-hydroxypropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxyethylidene]amino]-1,5-dihydroxy-5-iminopentylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxybutylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1,3-dihydroxypropylidene]amino]-1-hydroxyethylidene]amino]-1-hydroxy-3-sulfanylpropylidene]amino]-1-hydroxyethylidene]amino]hexanoic acid Chemical compound C[C@@H]([C@@H](C(=N[C@@H](CS)C(=N[C@@H](C)C(=N[C@@H](CO)C(=NCC(=N[C@@H](CCC(=N)O)C(=NC(CS)C(=N[C@H]([C@H](C)O)C(=N[C@H](CS)C(=N[C@H](CO)C(=NCC(=N[C@H](CS)C(=NCC(=N[C@H](CCCCN)C(=O)O)O)O)O)O)O)O)O)O)O)O)O)O)O)N=C([C@H](CS)N=C([C@H](CO)N=C([C@H](CO)N=C([C@H](C)N=C(CN=C([C@H](CO)N=C([C@H](CS)N=C(CN=C(C(CS)N=C(C(CC(=O)O)N=C(CN)O)O)O)O)O)O)O)O)O)O)O)O DIGQNXIGRZPYDK-WKSCXVIASA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 101100443354 Arabidopsis thaliana DME gene Proteins 0.000 description 2
- 101100331657 Arabidopsis thaliana DML2 gene Proteins 0.000 description 2
- 101100091498 Arabidopsis thaliana ROS1 gene Proteins 0.000 description 2
- 102100026596 Bcl-2-like protein 1 Human genes 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 2
- 241000282465 Canis Species 0.000 description 2
- 108010051109 Cell-Penetrating Peptides Proteins 0.000 description 2
- 102000020313 Cell-Penetrating Peptides Human genes 0.000 description 2
- 101150064551 DML1 gene Proteins 0.000 description 2
- 108010009540 DNA (Cytosine-5-)-Methyltransferase 1 Proteins 0.000 description 2
- 230000008836 DNA modification Effects 0.000 description 2
- 101150117307 DRM3 gene Proteins 0.000 description 2
- 102000016911 Deoxyribonucleases Human genes 0.000 description 2
- 108010053770 Deoxyribonucleases Proteins 0.000 description 2
- 241000702421 Dependoparvovirus Species 0.000 description 2
- 229920002307 Dextran Polymers 0.000 description 2
- 101001095965 Dictyostelium discoideum Phospholipid-inositol phosphatase Proteins 0.000 description 2
- 108010028143 Dioxygenases Proteins 0.000 description 2
- 102000016680 Dioxygenases Human genes 0.000 description 2
- 102100035102 E3 ubiquitin-protein ligase MYCBP2 Human genes 0.000 description 2
- 101150068427 EP300 gene Proteins 0.000 description 2
- 102100038595 Estrogen receptor Human genes 0.000 description 2
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 2
- 239000005977 Ethylene Substances 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 241000282324 Felis Species 0.000 description 2
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 2
- HVLSXIKZNLPZJJ-TXZCQADKSA-N HA peptide Chemical compound C([C@@H](C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](C(C)C)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H](C)C(O)=O)NC(=O)[C@H]1N(CCC1)C(=O)[C@@H](N)CC=1C=CC(O)=CC=1)C1=CC=C(O)C=C1 HVLSXIKZNLPZJJ-TXZCQADKSA-N 0.000 description 2
- 108091005772 HDAC11 Proteins 0.000 description 2
- 102100031573 Hematopoietic progenitor cell antigen CD34 Human genes 0.000 description 2
- 108010036115 Histone Methyltransferases Proteins 0.000 description 2
- 102000011787 Histone Methyltransferases Human genes 0.000 description 2
- 101710116149 Histone acetyltransferase KAT5 Proteins 0.000 description 2
- 102100033068 Histone acetyltransferase KAT7 Human genes 0.000 description 2
- 102100038885 Histone acetyltransferase p300 Human genes 0.000 description 2
- 108090000246 Histone acetyltransferases Proteins 0.000 description 2
- 102000003893 Histone acetyltransferases Human genes 0.000 description 2
- 102100039996 Histone deacetylase 1 Human genes 0.000 description 2
- 102100039385 Histone deacetylase 11 Human genes 0.000 description 2
- 102100039999 Histone deacetylase 2 Human genes 0.000 description 2
- 102100021455 Histone deacetylase 3 Human genes 0.000 description 2
- 102100021454 Histone deacetylase 4 Human genes 0.000 description 2
- 102100021453 Histone deacetylase 5 Human genes 0.000 description 2
- 102100038715 Histone deacetylase 8 Human genes 0.000 description 2
- 102100022103 Histone-lysine N-methyltransferase 2A Human genes 0.000 description 2
- 102100026265 Histone-lysine N-methyltransferase ASH1L Human genes 0.000 description 2
- 102100029768 Histone-lysine N-methyltransferase SETD1A Human genes 0.000 description 2
- 102100030095 Histone-lysine N-methyltransferase SETD1B Human genes 0.000 description 2
- 102100023696 Histone-lysine N-methyltransferase SETDB1 Human genes 0.000 description 2
- 102100028998 Histone-lysine N-methyltransferase SUV39H1 Human genes 0.000 description 2
- 102100029239 Histone-lysine N-methyltransferase, H3 lysine-36 specific Human genes 0.000 description 2
- 101000901099 Homo sapiens Achaete-scute homolog 1 Proteins 0.000 description 2
- 101000931098 Homo sapiens DNA (cytosine-5)-methyltransferase 1 Proteins 0.000 description 2
- 101000882584 Homo sapiens Estrogen receptor Proteins 0.000 description 2
- 101000777663 Homo sapiens Hematopoietic progenitor cell antigen CD34 Proteins 0.000 description 2
- 101001046967 Homo sapiens Histone acetyltransferase KAT2A Proteins 0.000 description 2
- 101001046996 Homo sapiens Histone acetyltransferase KAT5 Proteins 0.000 description 2
- 101000944174 Homo sapiens Histone acetyltransferase KAT6B Proteins 0.000 description 2
- 101000944166 Homo sapiens Histone acetyltransferase KAT7 Proteins 0.000 description 2
- 101001035024 Homo sapiens Histone deacetylase 1 Proteins 0.000 description 2
- 101001035011 Homo sapiens Histone deacetylase 2 Proteins 0.000 description 2
- 101000899282 Homo sapiens Histone deacetylase 3 Proteins 0.000 description 2
- 101000899259 Homo sapiens Histone deacetylase 4 Proteins 0.000 description 2
- 101000899255 Homo sapiens Histone deacetylase 5 Proteins 0.000 description 2
- 101001032113 Homo sapiens Histone deacetylase 7 Proteins 0.000 description 2
- 101001032118 Homo sapiens Histone deacetylase 8 Proteins 0.000 description 2
- 101001032092 Homo sapiens Histone deacetylase 9 Proteins 0.000 description 2
- 101001045846 Homo sapiens Histone-lysine N-methyltransferase 2A Proteins 0.000 description 2
- 101000785963 Homo sapiens Histone-lysine N-methyltransferase ASH1L Proteins 0.000 description 2
- 101000865038 Homo sapiens Histone-lysine N-methyltransferase SETD1A Proteins 0.000 description 2
- 101000864672 Homo sapiens Histone-lysine N-methyltransferase SETD1B Proteins 0.000 description 2
- 101000696705 Homo sapiens Histone-lysine N-methyltransferase SUV39H1 Proteins 0.000 description 2
- 101000634050 Homo sapiens Histone-lysine N-methyltransferase, H3 lysine-36 specific Proteins 0.000 description 2
- 101100019690 Homo sapiens KAT6B gene Proteins 0.000 description 2
- 101000613629 Homo sapiens Lysine-specific demethylase 4B Proteins 0.000 description 2
- 101001088895 Homo sapiens Lysine-specific demethylase 4D Proteins 0.000 description 2
- 101001088892 Homo sapiens Lysine-specific demethylase 5A Proteins 0.000 description 2
- 101001088883 Homo sapiens Lysine-specific demethylase 5B Proteins 0.000 description 2
- 101001025967 Homo sapiens Lysine-specific demethylase 6A Proteins 0.000 description 2
- 101001025971 Homo sapiens Lysine-specific demethylase 6B Proteins 0.000 description 2
- 101000653360 Homo sapiens Methylcytosine dioxygenase TET1 Proteins 0.000 description 2
- 101000988591 Homo sapiens Minor histocompatibility antigen H13 Proteins 0.000 description 2
- 101001017254 Homo sapiens Myb-binding protein 1A Proteins 0.000 description 2
- 101000602926 Homo sapiens Nuclear receptor coactivator 1 Proteins 0.000 description 2
- 101000687346 Homo sapiens PR domain zinc finger protein 2 Proteins 0.000 description 2
- 101000738757 Homo sapiens Phosphatidylglycerophosphatase and protein-tyrosine phosphatase 1 Proteins 0.000 description 2
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 2
- 101000651467 Homo sapiens Proto-oncogene tyrosine-protein kinase Src Proteins 0.000 description 2
- 101000755643 Homo sapiens RIMS-binding protein 2 Proteins 0.000 description 2
- 101000756365 Homo sapiens Retinol-binding protein 2 Proteins 0.000 description 2
- 101000596093 Homo sapiens Transcription initiation factor TFIID subunit 1 Proteins 0.000 description 2
- 108010001336 Horseradish Peroxidase Proteins 0.000 description 2
- 241000725303 Human immunodeficiency virus Species 0.000 description 2
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 2
- 108010021101 Lamin Type B Proteins 0.000 description 2
- 108010047294 Lamins Proteins 0.000 description 2
- 241000713666 Lentivirus Species 0.000 description 2
- 102100040860 Lysine-specific demethylase 4B Human genes 0.000 description 2
- 102100033231 Lysine-specific demethylase 4D Human genes 0.000 description 2
- 101710105712 Lysine-specific demethylase 5B Proteins 0.000 description 2
- 102100037462 Lysine-specific demethylase 6A Human genes 0.000 description 2
- 102100037461 Lysine-specific demethylase 6B Human genes 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 102000003792 Metallothionein Human genes 0.000 description 2
- 108090000157 Metallothionein Proteins 0.000 description 2
- 102100030819 Methylcytosine dioxygenase TET1 Human genes 0.000 description 2
- 102100029083 Minor histocompatibility antigen H13 Human genes 0.000 description 2
- 241001529936 Murinae Species 0.000 description 2
- 102100034005 Myb-binding protein 1A Human genes 0.000 description 2
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 2
- 102100031455 NAD-dependent protein deacetylase sirtuin-1 Human genes 0.000 description 2
- 102100022913 NAD-dependent protein deacetylase sirtuin-2 Human genes 0.000 description 2
- 108090001145 Nuclear Receptor Coactivator 3 Proteins 0.000 description 2
- 102100022883 Nuclear receptor coactivator 3 Human genes 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 102000002488 Nucleoplasmin Human genes 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 102100024885 PR domain zinc finger protein 2 Human genes 0.000 description 2
- 102000010562 Peptide Elongation Factor G Human genes 0.000 description 2
- 108010077742 Peptide Elongation Factor G Proteins 0.000 description 2
- 102100026531 Prelamin-A/C Human genes 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 2
- 102100027384 Proto-oncogene tyrosine-protein kinase Src Human genes 0.000 description 2
- 108020005067 RNA Splice Sites Proteins 0.000 description 2
- 230000014632 RNA localization Effects 0.000 description 2
- 230000007022 RNA scission Effects 0.000 description 2
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 2
- 101001023863 Rattus norvegicus Glucocorticoid receptor Proteins 0.000 description 2
- 241000242739 Renilla Species 0.000 description 2
- 102000006382 Ribonucleases Human genes 0.000 description 2
- 108010083644 Ribonucleases Proteins 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- 108010041191 Sirtuin 1 Proteins 0.000 description 2
- 108010041216 Sirtuin 2 Proteins 0.000 description 2
- 108010090804 Streptavidin Proteins 0.000 description 2
- 108010022394 Threonine synthase Proteins 0.000 description 2
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 2
- 108700009124 Transcription Initiation Site Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 108091023040 Transcription factor Proteins 0.000 description 2
- 102100035222 Transcription initiation factor TFIID subunit 1 Human genes 0.000 description 2
- 101000771024 Zea mays DNA (cytosine-5)-methyltransferase 1 Proteins 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- 239000012190 activator Substances 0.000 description 2
- 235000004279 alanine Nutrition 0.000 description 2
- 230000000692 anti-sense effect Effects 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 210000000234 capsid Anatomy 0.000 description 2
- 210000000170 cell membrane Anatomy 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- HISOCSRUFLPKDE-KLXQUTNESA-N cmt-2 Chemical compound C1=CC=C2[C@](O)(C)C3CC4C(N(C)C)C(O)=C(C#N)C(=O)[C@@]4(O)C(O)=C3C(=O)C2=C1O HISOCSRUFLPKDE-KLXQUTNESA-N 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 210000000805 cytoplasm Anatomy 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 210000000172 cytosol Anatomy 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 229960005156 digoxin Drugs 0.000 description 2
- 102000004419 dihydrofolate reductase Human genes 0.000 description 2
- 239000000539 dimer Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 210000003981 ectoderm Anatomy 0.000 description 2
- 210000001900 endoderm Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 108010038795 estrogen receptors Proteins 0.000 description 2
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000001654 germ layer Anatomy 0.000 description 2
- 230000012010 growth Effects 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 229960000310 isoleucine Drugs 0.000 description 2
- 210000005053 lamin Anatomy 0.000 description 2
- 108010021853 m(5)C rRNA methyltransferase Proteins 0.000 description 2
- 210000001161 mammalian embryo Anatomy 0.000 description 2
- 210000003716 mesoderm Anatomy 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 108060005597 nucleoplasmin Proteins 0.000 description 2
- FJKROLUGYXJWQN-UHFFFAOYSA-N papa-hydroxy-benzoic acid Natural products OC(=O)C1=CC=C(O)C=C1 FJKROLUGYXJWQN-UHFFFAOYSA-N 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 108700010839 phage proteins Proteins 0.000 description 2
- 108060006184 phycobiliprotein Proteins 0.000 description 2
- 210000002706 plastid Anatomy 0.000 description 2
- 229920000447 polyanionic polymer Polymers 0.000 description 2
- 108010011110 polyarginine Proteins 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000159 protein binding assay Methods 0.000 description 2
- 150000004492 retinoid derivatives Chemical class 0.000 description 2
- PYWVYCXTNDRMGF-UHFFFAOYSA-N rhodamine B Chemical compound [Cl-].C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=CC=C1C(O)=O PYWVYCXTNDRMGF-UHFFFAOYSA-N 0.000 description 2
- 229960004889 salicylic acid Drugs 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 230000004960 subcellular localization Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000014621 translational initiation Effects 0.000 description 2
- 241000701161 unidentified adenovirus Species 0.000 description 2
- 241001430294 unidentified retrovirus Species 0.000 description 2
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 1
- JARGNLJYKBUKSJ-KGZKBUQUSA-N (2r)-2-amino-5-[[(2r)-1-(carboxymethylamino)-3-hydroxy-1-oxopropan-2-yl]amino]-5-oxopentanoic acid;hydrobromide Chemical compound Br.OC(=O)[C@H](N)CCC(=O)N[C@H](CO)C(=O)NCC(O)=O JARGNLJYKBUKSJ-KGZKBUQUSA-N 0.000 description 1
- BEJKOYIMCGMNRB-GRHHLOCNSA-N (2s)-2-amino-3-(4-hydroxyphenyl)propanoic acid;(2s)-2-amino-3-phenylpropanoic acid Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1.OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 BEJKOYIMCGMNRB-GRHHLOCNSA-N 0.000 description 1
- KUHSEZKIEJYEHN-BXRBKJIMSA-N (2s)-2-amino-3-hydroxypropanoic acid;(2s)-2-aminopropanoic acid Chemical compound C[C@H](N)C(O)=O.OC[C@H](N)C(O)=O KUHSEZKIEJYEHN-BXRBKJIMSA-N 0.000 description 1
- LAQPKDLYOBZWBT-NYLDSJSYSA-N (2s,4s,5r,6r)-5-acetamido-2-{[(2s,3r,4s,5s,6r)-2-{[(2r,3r,4r,5r)-5-acetamido-1,2-dihydroxy-6-oxo-4-{[(2s,3s,4r,5s,6s)-3,4,5-trihydroxy-6-methyloxan-2-yl]oxy}hexan-3-yl]oxy}-3,5-dihydroxy-6-(hydroxymethyl)oxan-4-yl]oxy}-4-hydroxy-6-[(1r,2r)-1,2,3-trihydrox Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]([C@@H](NC(C)=O)C=O)[C@@H]([C@H](O)CO)O[C@H]1[C@H](O)[C@@H](O[C@]2(O[C@H]([C@H](NC(C)=O)[C@@H](O)C2)[C@H](O)[C@H](O)CO)C(O)=O)[C@@H](O)[C@@H](CO)O1 LAQPKDLYOBZWBT-NYLDSJSYSA-N 0.000 description 1
- SGKRLCUYIXIAHR-AKNGSSGZSA-N (4s,4ar,5s,5ar,6r,12ar)-4-(dimethylamino)-1,5,10,11,12a-pentahydroxy-6-methyl-3,12-dioxo-4a,5,5a,6-tetrahydro-4h-tetracene-2-carboxamide Chemical compound C1=CC=C2[C@H](C)[C@@H]([C@H](O)[C@@H]3[C@](C(O)=C(C(N)=O)C(=O)[C@H]3N(C)C)(O)C3=O)C3=C(O)C2=C1O SGKRLCUYIXIAHR-AKNGSSGZSA-N 0.000 description 1
- WKBPZYKAUNRMKP-UHFFFAOYSA-N 1-[2-(2,4-dichlorophenyl)pentyl]1,2,4-triazole Chemical compound C=1C=C(Cl)C=C(Cl)C=1C(CCC)CN1C=NC=N1 WKBPZYKAUNRMKP-UHFFFAOYSA-N 0.000 description 1
- YMHOBZXQZVXHBM-UHFFFAOYSA-N 2,5-dimethoxy-4-bromophenethylamine Chemical compound COC1=CC(CCN)=C(OC)C=C1Br YMHOBZXQZVXHBM-UHFFFAOYSA-N 0.000 description 1
- ZVEUWSJUXREOBK-DKWTVANSSA-N 2-aminoacetic acid;(2s)-2-amino-3-hydroxypropanoic acid Chemical compound NCC(O)=O.OC[C@H](N)C(O)=O ZVEUWSJUXREOBK-DKWTVANSSA-N 0.000 description 1
- 102100039377 28 kDa heat- and acid-stable phosphoprotein Human genes 0.000 description 1
- 101710176122 28 kDa heat- and acid-stable phosphoprotein Proteins 0.000 description 1
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 102100037710 40S ribosomal protein S21 Human genes 0.000 description 1
- 101710169336 5'-deoxyadenosine deaminase Proteins 0.000 description 1
- OSXFATOLZGZLSK-UHFFFAOYSA-N 6,7-dimethoxy-2-(4-methyl-1,4-diazepan-1-yl)-N-[1-(phenylmethyl)-4-piperidinyl]-4-quinazolinamine Chemical compound C=12C=C(OC)C(OC)=CC2=NC(N2CCN(C)CCC2)=NC=1NC(CC1)CCN1CC1=CC=CC=C1 OSXFATOLZGZLSK-UHFFFAOYSA-N 0.000 description 1
- 102100031126 6-phosphogluconolactonase Human genes 0.000 description 1
- 108010029731 6-phosphogluconolactonase Proteins 0.000 description 1
- 102000012758 APOBEC-1 Deaminase Human genes 0.000 description 1
- 108010079649 APOBEC-1 Deaminase Proteins 0.000 description 1
- 108010055851 Acetylglucosaminidase Proteins 0.000 description 1
- 101710159080 Aconitate hydratase A Proteins 0.000 description 1
- 101710159078 Aconitate hydratase B Proteins 0.000 description 1
- 102100022900 Actin, cytoplasmic 1 Human genes 0.000 description 1
- 108010085238 Actins Proteins 0.000 description 1
- 102100036664 Adenosine deaminase Human genes 0.000 description 1
- 241001136782 Alca Species 0.000 description 1
- 102000007698 Alcohol dehydrogenase Human genes 0.000 description 1
- 108010021809 Alcohol dehydrogenase Proteins 0.000 description 1
- 108700028939 Amino Acyl-tRNA Synthetases Proteins 0.000 description 1
- 102000052866 Amino Acyl-tRNA Synthetases Human genes 0.000 description 1
- 108700031308 Antennapedia Homeodomain Proteins 0.000 description 1
- 108020005098 Anticodon Proteins 0.000 description 1
- 101100219315 Arabidopsis thaliana CYP83A1 gene Proteins 0.000 description 1
- 101100011863 Arabidopsis thaliana ERD15 gene Proteins 0.000 description 1
- 101000993093 Arabidopsis thaliana Heat stress transcription factor B-2a Proteins 0.000 description 1
- 101100137444 Arabidopsis thaliana PCMP-H40 gene Proteins 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- BHELIUBJHYAEDK-OAIUPTLZSA-N Aspoxicillin Chemical compound C1([C@H](C(=O)N[C@@H]2C(N3[C@H](C(C)(C)S[C@@H]32)C(O)=O)=O)NC(=O)[C@H](N)CC(=O)NC)=CC=C(O)C=C1 BHELIUBJHYAEDK-OAIUPTLZSA-N 0.000 description 1
- 241000714230 Avian leukemia virus Species 0.000 description 1
- 108090001008 Avidin Proteins 0.000 description 1
- 108091007065 BIRCs Proteins 0.000 description 1
- 206010061692 Benign muscle neoplasm Diseases 0.000 description 1
- DWRXFEITVBNRMK-UHFFFAOYSA-N Beta-D-1-Arabinofuranosylthymine Natural products O=C1NC(=O)C(C)=CN1C1C(O)C(O)C(CO)O1 DWRXFEITVBNRMK-UHFFFAOYSA-N 0.000 description 1
- 102100026189 Beta-galactosidase Human genes 0.000 description 1
- 101500025162 Bos taurus Inter-alpha-trypsin inhibitor light chain Proteins 0.000 description 1
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 108010014064 CCCTC-Binding Factor Proteins 0.000 description 1
- 238000010453 CRISPR/Cas method Methods 0.000 description 1
- 101000879203 Caenorhabditis elegans Small ubiquitin-related modifier Proteins 0.000 description 1
- 101100014712 Caenorhabditis elegans gld-2 gene Proteins 0.000 description 1
- UXVMQQNJUSDDNG-UHFFFAOYSA-L Calcium chloride Chemical compound [Cl-].[Cl-].[Ca+2] UXVMQQNJUSDDNG-UHFFFAOYSA-L 0.000 description 1
- 101000909256 Caldicellulosiruptor bescii (strain ATCC BAA-1888 / DSM 6725 / Z-1320) DNA polymerase I Proteins 0.000 description 1
- 102000000584 Calmodulin Human genes 0.000 description 1
- 108010041952 Calmodulin Proteins 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 108091005944 Cerulean Proteins 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091005960 Citrine Proteins 0.000 description 1
- 102000011591 Cleavage And Polyadenylation Specificity Factor Human genes 0.000 description 1
- 108010076130 Cleavage And Polyadenylation Specificity Factor Proteins 0.000 description 1
- 102000005221 Cleavage Stimulation Factor Human genes 0.000 description 1
- 108010081236 Cleavage Stimulation Factor Proteins 0.000 description 1
- 241000243321 Cnidaria Species 0.000 description 1
- 108700010070 Codon Usage Proteins 0.000 description 1
- 241000699800 Cricetinae Species 0.000 description 1
- 108091005943 CyPet Proteins 0.000 description 1
- 102100026810 Cyclin-dependent kinase 7 Human genes 0.000 description 1
- 102000000311 Cytosine Deaminase Human genes 0.000 description 1
- 108010080611 Cytosine Deaminase Proteins 0.000 description 1
- 102100024810 DNA (cytosine-5)-methyltransferase 3B Human genes 0.000 description 1
- 101710123222 DNA (cytosine-5)-methyltransferase 3B Proteins 0.000 description 1
- 101710177611 DNA polymerase II large subunit Proteins 0.000 description 1
- 101710184669 DNA polymerase II small subunit Proteins 0.000 description 1
- 101710135281 DNA polymerase III PolC-type Proteins 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 101710096438 DNA-binding protein Proteins 0.000 description 1
- LTMHDMANZUZIPE-AMTYYWEZSA-N Digoxin Natural products O([C@H]1[C@H](C)O[C@H](O[C@@H]2C[C@@H]3[C@@](C)([C@@H]4[C@H]([C@]5(O)[C@](C)([C@H](O)C4)[C@H](C4=CC(=O)OC4)CC5)CC3)CC2)C[C@@H]1O)[C@H]1O[C@H](C)[C@@H](O[C@H]2O[C@@H](C)[C@H](O)[C@@H](O)C2)[C@@H](O)C1 LTMHDMANZUZIPE-AMTYYWEZSA-N 0.000 description 1
- 108700006830 Drosophila Antp Proteins 0.000 description 1
- 208000035859 Drug effect increased Diseases 0.000 description 1
- 102100032049 E3 ubiquitin-protein ligase LRSAM1 Human genes 0.000 description 1
- UPEZCKBFRMILAV-JNEQICEOSA-N Ecdysone Natural products O=C1[C@H]2[C@@](C)([C@@H]3C([C@@]4(O)[C@@](C)([C@H]([C@H]([C@@H](O)CCC(O)(C)C)C)CC4)CC3)=C1)C[C@H](O)[C@H](O)C2 UPEZCKBFRMILAV-JNEQICEOSA-N 0.000 description 1
- 241000991587 Enterovirus C Species 0.000 description 1
- 101710091045 Envelope protein Proteins 0.000 description 1
- 108091029865 Exogenous DNA Proteins 0.000 description 1
- 108090000331 Firefly luciferases Proteins 0.000 description 1
- 108010093031 Galactosidases Proteins 0.000 description 1
- 102000002464 Galactosidases Human genes 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 108010014458 Gin recombinase Proteins 0.000 description 1
- 108010018962 Glucosephosphate Dehydrogenase Proteins 0.000 description 1
- 108010060309 Glucuronidase Proteins 0.000 description 1
- 102000053187 Glucuronidase Human genes 0.000 description 1
- 108010063907 Glutathione Reductase Proteins 0.000 description 1
- 102100036442 Glutathione reductase, mitochondrial Human genes 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 102100035364 Growth/differentiation factor 3 Human genes 0.000 description 1
- 102100032606 Heat shock factor protein 1 Human genes 0.000 description 1
- 101710190344 Heat shock factor protein 1 Proteins 0.000 description 1
- 102100032510 Heat shock protein HSP 90-beta Human genes 0.000 description 1
- 108010068250 Herpes Simplex Virus Protein Vmw65 Proteins 0.000 description 1
- 101150094793 Hes3 gene Proteins 0.000 description 1
- 101150029234 Hes5 gene Proteins 0.000 description 1
- 101001023784 Heteractis crispa GFP-like non-fluorescent chromoprotein Proteins 0.000 description 1
- 102100033069 Histone acetyltransferase KAT8 Human genes 0.000 description 1
- 102000003964 Histone deacetylase Human genes 0.000 description 1
- 108090000353 Histone deacetylase Proteins 0.000 description 1
- 102100038970 Histone-lysine N-methyltransferase EZH2 Human genes 0.000 description 1
- 101710168120 Histone-lysine N-methyltransferase SETDB1 Proteins 0.000 description 1
- 102100028988 Histone-lysine N-methyltransferase SUV39H2 Human genes 0.000 description 1
- 102100039489 Histone-lysine N-methyltransferase, H3 lysine-79 specific Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000741445 Homo sapiens Calcitonin Proteins 0.000 description 1
- 101000911952 Homo sapiens Cyclin-dependent kinase 7 Proteins 0.000 description 1
- 101001023986 Homo sapiens Growth/differentiation factor 3 Proteins 0.000 description 1
- 101001016856 Homo sapiens Heat shock protein HSP 90-beta Proteins 0.000 description 1
- 101000944170 Homo sapiens Histone acetyltransferase KAT8 Proteins 0.000 description 1
- 101000882127 Homo sapiens Histone-lysine N-methyltransferase EZH2 Proteins 0.000 description 1
- 101000684609 Homo sapiens Histone-lysine N-methyltransferase SETDB1 Proteins 0.000 description 1
- 101000696699 Homo sapiens Histone-lysine N-methyltransferase SUV39H2 Proteins 0.000 description 1
- 101000963360 Homo sapiens Histone-lysine N-methyltransferase, H3 lysine-79 specific Proteins 0.000 description 1
- 101000599778 Homo sapiens Insulin-like growth factor 2 mRNA-binding protein 1 Proteins 0.000 description 1
- 101001139134 Homo sapiens Krueppel-like factor 4 Proteins 0.000 description 1
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 1
- 101000864039 Homo sapiens Nonsense-mediated mRNA decay factor SMG5 Proteins 0.000 description 1
- 101000597417 Homo sapiens Nuclear RNA export factor 1 Proteins 0.000 description 1
- 101000579423 Homo sapiens Regulator of nonsense transcripts 1 Proteins 0.000 description 1
- 101001090935 Homo sapiens Regulator of nonsense transcripts 3A Proteins 0.000 description 1
- 101000843556 Homo sapiens Transcription factor HES-1 Proteins 0.000 description 1
- 101000962469 Homo sapiens Transcription factor MafF Proteins 0.000 description 1
- 101000687905 Homo sapiens Transcription factor SOX-2 Proteins 0.000 description 1
- 101000964436 Homo sapiens Z-DNA-binding protein 1 Proteins 0.000 description 1
- 101000818735 Homo sapiens Zinc finger protein 10 Proteins 0.000 description 1
- 101000976622 Homo sapiens Zinc finger protein 42 homolog Proteins 0.000 description 1
- 241000713772 Human immunodeficiency virus 1 Species 0.000 description 1
- 108700003968 Human immunodeficiency virus 1 tat peptide (49-57) Proteins 0.000 description 1
- 102000055031 Inhibitor of Apoptosis Proteins Human genes 0.000 description 1
- 102100037924 Insulin-like growth factor 2 mRNA-binding protein 1 Human genes 0.000 description 1
- 102100023408 KH domain-containing, RNA-binding, signal transduction-associated protein 1 Human genes 0.000 description 1
- 101710094958 KH domain-containing, RNA-binding, signal transduction-associated protein 1 Proteins 0.000 description 1
- 102100020677 Krueppel-like factor 4 Human genes 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 101710128836 Large T antigen Proteins 0.000 description 1
- 101000839464 Leishmania braziliensis Heat shock 70 kDa protein Proteins 0.000 description 1
- 101000988090 Leishmania donovani Heat shock protein 83 Proteins 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 239000000232 Lipid Bilayer Substances 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 241000713333 Mouse mammary tumor virus Species 0.000 description 1
- 241000714177 Murine leukemia virus Species 0.000 description 1
- 101100269674 Mus musculus Alyref2 gene Proteins 0.000 description 1
- 101000969137 Mus musculus Metallothionein-1 Proteins 0.000 description 1
- 101100078999 Mus musculus Mx1 gene Proteins 0.000 description 1
- 101000663223 Mus musculus Serine/arginine-rich splicing factor 1 Proteins 0.000 description 1
- 101100046352 Mus musculus Tjap1 gene Proteins 0.000 description 1
- 101000976618 Mus musculus Zinc finger protein 42 Proteins 0.000 description 1
- 101710135898 Myc proto-oncogene protein Proteins 0.000 description 1
- 241000713883 Myeloproliferative sarcoma virus Species 0.000 description 1
- 201000004458 Myoma Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 102100029940 Nonsense-mediated mRNA decay factor SMG5 Human genes 0.000 description 1
- 102100035402 Nuclear RNA export factor 1 Human genes 0.000 description 1
- 108010047956 Nucleosomes Proteins 0.000 description 1
- 102100035423 POU domain, class 5, transcription factor 1 Human genes 0.000 description 1
- 101710126211 POU domain, class 5, transcription factor 1 Proteins 0.000 description 1
- 102000003992 Peroxidases Human genes 0.000 description 1
- 235000010582 Pisum sativum Nutrition 0.000 description 1
- 240000004713 Pisum sativum Species 0.000 description 1
- 102000012338 Poly(ADP-ribose) Polymerases Human genes 0.000 description 1
- 108010061844 Poly(ADP-ribose) Polymerases Proteins 0.000 description 1
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 description 1
- 102100026090 Polyadenylate-binding protein 1 Human genes 0.000 description 1
- 101710103012 Polyadenylate-binding protein, cytoplasmic and nuclear Proteins 0.000 description 1
- 108010039918 Polylysine Proteins 0.000 description 1
- 102100030122 Protein O-GlcNAcase Human genes 0.000 description 1
- 101710188315 Protein X Proteins 0.000 description 1
- 101000902592 Pyrococcus furiosus (strain ATCC 43587 / DSM 3638 / JCM 8422 / Vc1) DNA polymerase Proteins 0.000 description 1
- 238000010357 RNA editing Methods 0.000 description 1
- 230000026279 RNA modification Effects 0.000 description 1
- 108700020471 RNA-Binding Proteins Proteins 0.000 description 1
- 101710105008 RNA-binding protein Proteins 0.000 description 1
- 101150076358 RPL7 gene Proteins 0.000 description 1
- 101100016889 Rattus norvegicus Hes2 gene Proteins 0.000 description 1
- 101000599776 Rattus norvegicus Insulin-like growth factor 2 mRNA-binding protein 1 Proteins 0.000 description 1
- 101100247004 Rattus norvegicus Qsox1 gene Proteins 0.000 description 1
- 102100028287 Regulator of nonsense transcripts 1 Human genes 0.000 description 1
- 102100021087 Regulator of nonsense transcripts 2 Human genes 0.000 description 1
- 102100035026 Regulator of nonsense transcripts 3A Human genes 0.000 description 1
- 108010034634 Repressor Proteins Proteins 0.000 description 1
- 102000009661 Repressor Proteins Human genes 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 102000044437 S1 domains Human genes 0.000 description 1
- 101150086694 SLC22A3 gene Proteins 0.000 description 1
- 102000051619 SUMO-1 Human genes 0.000 description 1
- 101100191082 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GLC7 gene Proteins 0.000 description 1
- 101100140580 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) REF2 gene Proteins 0.000 description 1
- 206010039491 Sarcoma Diseases 0.000 description 1
- 101100274406 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cid1 gene Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 101710140159 She2p Proteins 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 101800001707 Spacer peptide Proteins 0.000 description 1
- 102100038020 Speckle targeted PIP5K1A-regulated poly(A) polymerase Human genes 0.000 description 1
- 101710140499 Speckle targeted PIP5K1A-regulated poly(A) polymerase Proteins 0.000 description 1
- 241000713896 Spleen necrosis virus Species 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 101710137500 T7 RNA polymerase Proteins 0.000 description 1
- 102000018679 Tacrolimus Binding Proteins Human genes 0.000 description 1
- 108010027179 Tacrolimus Binding Proteins Proteins 0.000 description 1
- 101710192266 Tegument protein VP22 Proteins 0.000 description 1
- 206010043276 Teratoma Diseases 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 102000006601 Thymidine Kinase Human genes 0.000 description 1
- 108020004440 Thymidine kinase Proteins 0.000 description 1
- 108010010574 Tn3 resolvase Proteins 0.000 description 1
- 102100030798 Transcription factor HES-1 Human genes 0.000 description 1
- 102100039187 Transcription factor MafF Human genes 0.000 description 1
- 102100024270 Transcription factor SOX-2 Human genes 0.000 description 1
- 101710195626 Transcriptional activator protein Proteins 0.000 description 1
- 101710150448 Transcriptional regulator Myc Proteins 0.000 description 1
- 102100027671 Transcriptional repressor CTCF Human genes 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 108010082433 UDP-glucose-hexose-1-phosphate uridylyltransferase Proteins 0.000 description 1
- 101710028540 UPF2 Proteins 0.000 description 1
- 108020004417 Untranslated RNA Proteins 0.000 description 1
- 102000039634 Untranslated RNA Human genes 0.000 description 1
- 241000700618 Vaccinia virus Species 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 241000545067 Venus Species 0.000 description 1
- 108010067390 Viral Proteins Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 102100033220 Xanthine oxidase Human genes 0.000 description 1
- 108010093894 Xanthine oxidase Proteins 0.000 description 1
- 101001029301 Xenopus tropicalis Forkhead box protein D3 Proteins 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 101710185494 Zinc finger protein Proteins 0.000 description 1
- 102100021112 Zinc finger protein 10 Human genes 0.000 description 1
- 102100023550 Zinc finger protein 42 homolog Human genes 0.000 description 1
- 102100023597 Zinc finger protein 816 Human genes 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006154 adenylylation Effects 0.000 description 1
- 101150084233 ago2 gene Proteins 0.000 description 1
- 125000001931 aliphatic group Chemical group 0.000 description 1
- 108010004469 allophycocyanin Proteins 0.000 description 1
- UPEZCKBFRMILAV-UHFFFAOYSA-N alpha-Ecdysone Natural products C1C(O)C(O)CC2(C)C(CCC3(C(C(C(O)CCC(C)(C)O)C)CCC33O)C)C3=CC(=O)C21 UPEZCKBFRMILAV-UHFFFAOYSA-N 0.000 description 1
- 150000001408 amides Chemical class 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 230000001640 apoptogenic effect Effects 0.000 description 1
- 210000004507 artificial chromosome Anatomy 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 108010028263 bacteriophage T3 RNA polymerase Proteins 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 108010051210 beta-Fructofuranosidase Proteins 0.000 description 1
- 108010005774 beta-Galactosidase Proteins 0.000 description 1
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 238000002306 biochemical method Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000002459 blastocyst Anatomy 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 210000002798 bone marrow cell Anatomy 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 239000001110 calcium chloride Substances 0.000 description 1
- 229910001628 calcium chloride Inorganic materials 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 210000004413 cardiac myocyte Anatomy 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- BHONFOAYRQZPKZ-LCLOTLQISA-N chembl269478 Chemical compound C([C@H](NC(=O)[C@H](CC=1C2=CC=CC=C2NC=1)NC(=O)[C@H]([C@@H](C)CC)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](N)CCCNC(N)=N)[C@@H](C)CC)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(O)=O)C1=CC=CC=C1 BHONFOAYRQZPKZ-LCLOTLQISA-N 0.000 description 1
- 230000007073 chemical hydrolysis Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 230000011088 chloroplast localization Effects 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 239000011035 citrine Substances 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- 230000021953 cytokinesis Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000000254 damaging effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000017858 demethylation Effects 0.000 description 1
- 238000010520 demethylation reaction Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000000368 destabilizing effect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- LTMHDMANZUZIPE-PUGKRICDSA-N digoxin Chemical compound C1[C@H](O)[C@H](O)[C@@H](C)O[C@H]1O[C@@H]1[C@@H](C)O[C@@H](O[C@@H]2[C@H](O[C@@H](O[C@@H]3C[C@@H]4[C@]([C@@H]5[C@H]([C@]6(CC[C@@H]([C@@]6(C)[C@H](O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)C[C@@H]2O)C)C[C@@H]1O LTMHDMANZUZIPE-PUGKRICDSA-N 0.000 description 1
- LTMHDMANZUZIPE-UHFFFAOYSA-N digoxine Natural products C1C(O)C(O)C(C)OC1OC1C(C)OC(OC2C(OC(OC3CC4C(C5C(C6(CCC(C6(C)C(O)C5)C=5COC(=O)C=5)O)CC4)(C)CC3)CC2O)C)CC1O LTMHDMANZUZIPE-UHFFFAOYSA-N 0.000 description 1
- 210000001840 diploid cell Anatomy 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 230000005782 double-strand break Effects 0.000 description 1
- 229960003722 doxycycline Drugs 0.000 description 1
- 238000012377 drug delivery Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- UPEZCKBFRMILAV-JMZLNJERSA-N ecdysone Chemical compound C1[C@@H](O)[C@@H](O)C[C@]2(C)[C@@H](CC[C@@]3([C@@H]([C@@H]([C@H](O)CCC(C)(C)O)C)CC[C@]33O)C)C3=CC(=O)[C@@H]21 UPEZCKBFRMILAV-JMZLNJERSA-N 0.000 description 1
- 108010057988 ecdysone receptor Proteins 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000009710 electro sinter forging Methods 0.000 description 1
- 230000013020 embryo development Effects 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 230000007071 enzymatic hydrolysis Effects 0.000 description 1
- 238000006047 enzymatic hydrolysis reaction Methods 0.000 description 1
- 239000003687 estradiol congener Substances 0.000 description 1
- 229940011871 estrogen Drugs 0.000 description 1
- 239000000262 estrogen Substances 0.000 description 1
- 210000001723 extracellular space Anatomy 0.000 description 1
- 108010021843 fluorescent protein 583 Proteins 0.000 description 1
- 238000002825 functional assay Methods 0.000 description 1
- 108010044804 gamma-glutamyl-seryl-glycine Proteins 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 102000034356 gene-regulatory proteins Human genes 0.000 description 1
- 108091006104 gene-regulatory proteins Proteins 0.000 description 1
- 230000005017 genetic modification Effects 0.000 description 1
- 238000003144 genetic modification method Methods 0.000 description 1
- 235000013617 genetically modified food Nutrition 0.000 description 1
- 239000003862 glucocorticoid Substances 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 108700026078 glutathione trisulfide Proteins 0.000 description 1
- 125000003630 glycyl group Chemical group [H]N([H])C([H])([H])C(*)=O 0.000 description 1
- 101150118163 h gene Proteins 0.000 description 1
- 230000003781 hair follicle cycle Effects 0.000 description 1
- 210000003783 haploid cell Anatomy 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 230000006658 host protein synthesis Effects 0.000 description 1
- 238000006460 hydrolysis reaction Methods 0.000 description 1
- 230000000984 immunochemical effect Effects 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 108700032552 influenza virus INS1 Proteins 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 150000002484 inorganic compounds Chemical class 0.000 description 1
- 229910010272 inorganic material Inorganic materials 0.000 description 1
- 210000003093 intracellular space Anatomy 0.000 description 1
- 239000001573 invertase Substances 0.000 description 1
- 235000011073 invertase Nutrition 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 230000001535 kindling effect Effects 0.000 description 1
- 101150111214 lin-28 gene Proteins 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 235000009973 maize Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 241001515942 marmosets Species 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002609 medium Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 229910021645 metal ion Inorganic materials 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 239000000693 micelle Substances 0.000 description 1
- VKHAHZOOUSRJNA-GCNJZUOMSA-N mifepristone Chemical compound C1([C@@H]2C3=C4CCC(=O)C=C4CC[C@H]3[C@@H]3CC[C@@]([C@]3(C2)C)(O)C#CC)=CC=C(N(C)C)C=C1 VKHAHZOOUSRJNA-GCNJZUOMSA-N 0.000 description 1
- 229960003248 mifepristone Drugs 0.000 description 1
- 238000010232 migration assay Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 230000025608 mitochondrion localization Effects 0.000 description 1
- 230000000394 mitotic effect Effects 0.000 description 1
- 108091005601 modified peptides Proteins 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000005155 neural progenitor cell Anatomy 0.000 description 1
- 239000011824 nuclear material Substances 0.000 description 1
- 210000001623 nucleosome Anatomy 0.000 description 1
- 230000030648 nucleus localization Effects 0.000 description 1
- 230000005868 ontogenesis Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 108040007629 peroxidase activity proteins Proteins 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 238000013081 phylogenetic analysis Methods 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 229920000724 poly(L-arginine) polymer Polymers 0.000 description 1
- 102000015585 poly-pyrimidine tract binding protein Human genes 0.000 description 1
- 108010063723 poly-pyrimidine tract binding protein Proteins 0.000 description 1
- 229920000656 polylysine Polymers 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 230000000861 pro-apoptotic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000069 prophylactic effect Effects 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000001814 protein method Methods 0.000 description 1
- 230000009145 protein modification Effects 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 210000001938 protoplast Anatomy 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 102000027483 retinoid hormone receptors Human genes 0.000 description 1
- 108091008679 retinoid hormone receptors Proteins 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 108010033826 ribosomal protein S1 Proteins 0.000 description 1
- 108010092936 ribosomal protein S21 Proteins 0.000 description 1
- 210000003705 ribosome Anatomy 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229910052594 sapphire Inorganic materials 0.000 description 1
- 239000010980 sapphire Substances 0.000 description 1
- 230000003584 silencer Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 102000005969 steroid hormone receptors Human genes 0.000 description 1
- 108020003113 steroid hormone receptors Proteins 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 229940037128 systemic glucocorticoids Drugs 0.000 description 1
- 108010066587 tRNA Methyltransferases Proteins 0.000 description 1
- 102000018477 tRNA Methyltransferases Human genes 0.000 description 1
- 101150024821 tetO gene Proteins 0.000 description 1
- 101150061166 tetR gene Proteins 0.000 description 1
- OFVLGDICTFRJMM-WESIUVDSSA-N tetracycline Chemical compound C1=CC=C2[C@](O)(C)[C@H]3C[C@H]4[C@H](N(C)C)C(O)=C(C(N)=O)C(=O)[C@@]4(O)C(O)=C3C(=O)C2=C1O OFVLGDICTFRJMM-WESIUVDSSA-N 0.000 description 1
- MPLHNVLQVRSVEE-UHFFFAOYSA-N texas red Chemical compound [O-]S(=O)(=O)C1=CC(S(Cl)(=O)=O)=CC=C1C(C1=CC=2CCCN3CCCC(C=23)=C1O1)=C2C1=C(CCC1)C3=[N+]1CCCC3=C2 MPLHNVLQVRSVEE-UHFFFAOYSA-N 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 229940104230 thymidine Drugs 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 102000004217 thyroid hormone receptors Human genes 0.000 description 1
- 108090000721 thyroid hormone receptors Proteins 0.000 description 1
- 239000011031 topaz Substances 0.000 description 1
- 229910052853 topaz Inorganic materials 0.000 description 1
- 230000037426 transcriptional repression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- PBKWZFANFUTEPS-CWUSWOHSSA-N transportan Chemical compound C([C@@H](C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CCCCN)C(=O)N[C@H](C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(C)C)C(N)=O)[C@@H](C)CC)NC(=O)CNC(=O)[C@H](C)NC(=O)[C@H](CO)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](NC(=O)[C@H](CC=1C2=CC=CC=C2NC=1)NC(=O)CN)[C@@H](C)O)C1=CC=C(O)C=C1 PBKWZFANFUTEPS-CWUSWOHSSA-N 0.000 description 1
- 108010062760 transportan Proteins 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 241001515965 unidentified phage Species 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 210000002845 virion Anatomy 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 238000001262 western blot Methods 0.000 description 1
- 210000005253 yeast cell Anatomy 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/005—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from viruses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/62—DNA sequences coding for fusion proteins
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/01—Fusion polypeptide containing a localisation/targetting motif
- C07K2319/09—Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2795/00—Bacteriophages
- C12N2795/00011—Details
- C12N2795/10011—Details dsDNA Bacteriophages
- C12N2795/10111—Myoviridae
- C12N2795/10122—New viral proteins or individual genes, new structural or functional aspects of known viral proteins or genes
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biomedical Technology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Biophysics (AREA)
- Plant Pathology (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Virology (AREA)
- Gastroenterology & Hepatology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Enzymes And Modification Thereof (AREA)
- Peptides Or Proteins (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本公开提供RNA指导的CRISPR‑Cas效应子蛋白、编码所述RNA指导的CRISPR‑Cas效应子蛋白的核酸,以及包含所述RNA指导的CRISPR‑Cas效应子蛋白或所述核酸的组合物。本公开提供核糖核蛋白复合物,所述核糖核蛋白复合物包含:本公开的RNA指导的CRISPR‑Cas效应子蛋白;和指导RNA。本公开提供使用本公开的RNA指导的CRISPR‑Cas效应子蛋白和指导RNA修饰靶核酸的方法。
Description
交叉引用
本申请要求2019年3月7日提交的美国临时专利申请号62/815,179的权益,所述申请以引用方式整体并入本文。
引言
CRISPR-Cas系统包括Cas蛋白和一种或多种指导RNA,所述Cas蛋白参与外源DNA或RNA的获取、靶向和切割,所述一种或多种指导RNA包括结合Cas蛋白的区段和结合靶核酸的区段。例如,2类CRISPR-Cas系统包含与指导RNA结合的单个Cas蛋白,其中Cas蛋白结合并切割所靶向核酸。这些系统的可编程性质有利于它们用作一种用于靶核酸修饰中的多功能技术。
发明内容
本公开提供RNA指导的CRISPR-Cas效应子蛋白、编码所述RNA指导的CRISPR-Cas效应子蛋白的核酸,以及包含所述RNA指导的CRISPR-Cas效应子蛋白或所述核酸的组合物。本公开提供核糖核蛋白复合物,所述核糖核蛋白复合物包含:本公开的RNA指导的CRISPR-Cas效应子蛋白;和指导RNA。本公开提供使用本公开的RNA指导的CRISPR-Cas效应子蛋白和指导RNA修饰靶核酸的方法。
附图说明
图1A示出本研究中的完整噬菌体基因组、最近从相同样品的一个子组中报告的Lak噬菌体和参考来源(来自RefSeq v92的所有dsDNA基因组和来自(Paez-Espino等人(2016)Nature 536:425)的>200kb的非人工组件)的大小分布。
图1B示出本研究中基因组>200kb的噬菌体、Lak和参考基因组的基因组大小分布的直方图。每个基因组的tRNA计数作为基因组大小的函数的盒须图。
图2示出使用来自本研究的巨大噬菌体基因组的末端酶序列和相关数据库序列构建的系统发育树。树的彩色区域指示噬菌体的大型进化枝,所有这些进化枝都具有巨大的基因组。
图3示出说明噬菌体编码的能力如何重定向宿主的翻译系统以产生噬菌体蛋白的模型。没有巨大噬菌体具有所有这些基因,但许多噬菌体具有tRNA(三叶草形状)和tRNA合成酶(aaRS)。具有多达6个核糖体蛋白S1结构域的噬菌体蛋白出现在少数基因组中。S1与mRNA结合,将其带入核糖体上其被解码的位点。核糖体蛋白S21(S21)可能选择性地启动噬菌体mRNA的翻译,并且许多序列具有可能参与结合RNA的N末端延伸(核糖体插入物中的虚线,它基于PDB代码6bu8和pmid:29247757,用于核糖体和S1结构模型)。一些噬菌体具有起始因子(IF)和延伸因子G(EF G),一些噬菌体具有rpL7/L12,可介导高效核糖体结合。缩写:RNA pol,RNA聚合酶。
图4A示出涉及CRISPR靶向的细菌-噬菌体相互作用(细胞图)。
图4B示出相互作用网络,显示靶向细菌(从上到下:SEQ ID NO:49-50)和噬菌体编码(从上到下:SEQ ID NO:49-50)的CRISPR间隔序列。
图5示出噬菌体和一些具有>200kbp基因组的质粒的生态系统,按采样点类型分组。每个框代表一个噬菌体基因组,框按基因组大小递减的顺序排列;每个采样点类型的大小范围列在右边。彩色指示基于基因组系统发育图谱的推定宿主门,经CRISPR靶向(X)或信息系统基因系统发育分析(T)确认。
图6A至图6BB提供本公开的CRISPR-Cas效应子多肽的实例的氨基酸序列(从上到下:SEQ ID NO:51-97)。
图7A至图7D提供CRISPR-Cas效应子指导RNA的恒定区部分的核苷酸序列(从上到下:SEQ ID NO:98-116)。
图8提供CRISPR-Cas效应子多肽的氨基酸序列比对(从上到下:SEQ ID NO:117-187)。
图9提供CRISPR-Cas效应子多肽的氨基酸序列(SEQ ID NO:188)。
图10提供显示各种CRISPR-Cas效应子蛋白家族的树状图。
定义
在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此,此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。
“可杂交的”或“互补的”或“基本上互补的”意指核酸(例如RNA、DNA)包含这样的核苷酸序列,所述核苷酸序列使所述核酸能够在适当的体外和/或体内温度和溶液离子强度条件下,与另一核酸以序列特异性、反向平行方式(即,核酸特异性地结合互补核酸)非共价结合(即,形成沃森-克里克(Watson-Crick)碱基对和/或G/U碱基对)、“退火”或“杂交”。标准Watson-Crick碱基配对包括:腺嘌呤(A)与胸苷(T)配对,腺嘌呤(A)与尿嘧啶(U)配对,以及鸟嘌呤(G)与胞嘧啶(C)配对[DNA,RNA]。此外,对于两个RNA分子(例如,dsRNA)之间的杂交,以及对于DNA分子与RNA分子的杂交(例如,当DNA靶核酸碱基与指导RNA配对时,等):鸟嘌呤(G)也可与尿嘧啶(U)配对。例如,在tRNA反密码子与mRNA中的密码子进行碱基配对的情形下,G/U碱基配对至少部分地负责遗传密码的简并性(即,冗余)。因此,在本公开的上下文中,鸟嘌呤(G)(例如,指导RNA分子的dsRNA双链体的G;与靶核酸碱基配对的指导RNA的G,等)被认为是与尿嘧啶(U)和腺嘌呤(A)两者互补。例如,当可以在指导RNA分子的dsRNA双链体的给定核苷酸位置处制备G/U碱基对时,该位置不被认为是不互补的,而是替代地被认为是互补的。
杂交和洗涤条件是众所周知的,并在Sambrook,J.,Fritsch,E.F.and Maniatis,T.Molecular Cloning:A Laboratory Manual,第二版,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor(1989)中,特别是该参考文献中的第11章和表11.1中;和Sambrook,J.和Russell,W.,Molecular Cloning:A Laboratory Manual,第三版,ColdSpring Harbor Laboratory Press,Cold Spring Harbor(2001)中例示。温度和离子强度的条件决定了杂交的“严格性”。
杂交需要两个核酸含有互补序列,但是碱基之间的错配是可能的。适合于两个核酸之间杂交的条件取决于核酸的长度和互补程度,核酸的长度和互补程度是本领域中众所周知的变量。两个核苷酸序列之间的互补程度越大,则具有这些序列的核酸的杂交体的解链温度(Tm)值越大。对于具有短链互补性(例如35个或更少个、30个或更少个、25个或更少个、22个或更少个、20个或更少个或18个或更少个核苷酸的互补性)的核酸之间的杂交,错配位置可能变得重要(参见Sambrook等人,出处同上,11.7-11.8)。通常,可杂交核酸的长度为8个核苷酸或更多个(例如,10个核苷酸或更多个、12个核苷酸或更多个、15个核苷酸或更多个、20个核苷酸或更多个、22个核苷酸或更多个、25个核苷酸或更多个或30个核苷酸或更多个)。可根据诸如互补区域的长度和互补程度之类的因素,而根据需要调节温度、洗涤溶液盐浓度和其他条件。
应当理解,多核苷酸的序列不需要与其可特异性杂交或可杂交的靶核酸的序列100%互补。此外,多核苷酸可以在一个或多个区段上杂交,使得插入或相邻区段不参与杂交事件(例如,凸起、环结构或发夹结构等)。多核苷酸可包含与其将杂交的靶核酸序列内的靶区域60%或更多、65%或更多、70%或更多、75%或更多、80%或更多、85%或更多、90%或更多、95%或更多、98%或更多、99%或更多、99.5%或更多或100%的序列互补性。例如,这样的反义核酸将代表百分之90的互补性,在所述反义核酸中,反义化合物的20个核苷酸中的18个与靶区域互补并因此与靶区域特异性杂交。在该实例中,剩余的非互补核苷酸可以与互补核苷酸成簇或散布,并且不需要彼此邻接或与互补核苷酸邻接。可使用任何方便的方法确定核酸内的特定核酸序列段之间的互补百分比。示例性方法包括BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul等人,J.Mol.Biol.,1990,215,403-410;Zhang和Madden,Genome Res.,1997,7,649-656);例如使用默认设置的Gap程序(Wisconsin序列分析包,Version 8for Unix,Genetics Computer Group,University ResearchPark,Madiso n Wis.),所述程序使用Smith和Waterman算法(Adv.Appl.Math.,1981,2,482-489);等等。
术语“肽”、“多肽”和“蛋白质”在本文中可互换使用,并且是指具有任何长度的氨基酸的聚合形式,其可包括编码和非编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸,以及具有修饰的肽骨架的多肽。
如本文所用的“结合”(例如,参照多肽的RNA结合结构域、与靶核酸结合等)是指大分子之间的非共价相互作用(例如,蛋白质与核酸之间的非共价相互作用;在CRISPR-Cas效应子多肽/指导RNA复合物和靶核酸之间的非共价相互作用;等等)。当处于非共价相互作用状态时,大分子被称为“缔合的”或“相互作用”或“结合”(例如,当分子X被称为与分子Y相互作用时,则意味着分子X以非共价方式与分子Y结合)。并非结合相互作用的所有组分都需要是序列特异性的(例如,与DNA骨架中的磷酸残基接触),但结合相互作用的一些部分可以是序列特异性的。结合相互作用的特征通常在于解离常数(KD)小于10-6M、小于10-7M、小于10-8M、小于10-9M、小于10-10M、小于10-11M、小于10-12M、小于10-13M、小于10-14M,或小于10-15M。“亲和力”是指结合强度,增加的结合亲和力与较低的KD相关。
“结合结构域”是指能够与另一分子非共价结合的蛋白结构域。结合结构域可以与例如DNA分子(DNA结合结构域)、RNA分子(RNA结合结构域)和/或蛋白分子(蛋白结合结构域)结合。在具有蛋白结合结构域的蛋白的情况下,所述蛋白在一些情况下可以与其自身结合(以形成同源二聚体、同源三聚体等)和/或所述蛋白可以与一个或多个不同蛋白的一个或多个区域结合。
术语“保守氨基酸取代”是指蛋白质中具有相似侧链的氨基酸残基的的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;具有酸性侧链的一组氨基酸由谷氨酸和天冬氨酸组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸-甘氨酸和天冬酰胺-谷氨酰胺。
多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时所述碱基或氨基酸处于相同的相对位置上。可以许多不同方式确定序列同一性。为了确定序列同一性,可使用各种方便方法和计算机程序(例如,BLAST、T-COFFEE、MUSCLE、MAFF T等)比对序列,所述方法和计算机程序可通过万维网在包括ncbi.nl m.nili.gov/BLAST、ebi.ac.uk/Tools/msa/tcoffee/、ebi.ac.uk/Tools/msa/muscle/、mafft.cbrc.jp/alignment/software/的网站处获得。参见例如Alts chul等人(1990),J.Mol.Bioi.215:403-10。
“编码”特定RNA的DNA序列是转录成RNA的DNA核苷酸序列。DNA多核苷酸可编码转化为蛋白质的RNA(mRNA)(因此DNA和mRNA两者均编码蛋白质),或者DNA多核苷酸可编码未翻译成蛋白质的RNA(例如tRNA、rRNA、微小RNA(miRNA)、“非编码”RNA(ncRNA)、指导RNA等)。
“蛋白质编码序列”或编码特定蛋白质或多肽的序列是当置于适当调控序列的控制下时转录成mRNA(在DNA的情况下)并且在体外或体内翻译(在mRNA的情况下)成多肽的核苷酸序列。
在本文中可互换使用的术语“DNA调控序列”、“控制元件”和“调控元件”是指转录和翻译控制序列,诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等,所述转录和翻译控制序列提供和/或调节非编码序列(例如,指导RNA)或编码序列(例如,RNA指导的核酸内切酶、GeoCas9多肽、GeoCas9融合多肽等)的转录,和/或调节所编码多肽的翻译。
如本文所用,“启动子”或“启动子序列”是能够结合RNA聚合酶并启动下游(3'方向)编码或非编码序列的转录的DNA调控区。出于本公开的目的,启动子序列在其3'末端处由转录起始位点结合并向上游(5'方向)延伸,以包含以高于背景的可检测水平起始转录所必需的最少数量的碱基或元件。在启动子序列内将发现转录起始位点,以及负责结合RNA聚合酶的蛋白结合结构域。真核启动子通常将(但不总是)包含“TATA”盒和“CAT”盒。包括诱导型启动子在内的各种启动子可用于驱动本公开的各种载体的表达。
如本文所用,应用于核酸、多肽、细胞或生物体的术语“天然存在的”或“未修饰的”或“野生型”是指存在于自然界中的核酸、多肽、细胞或生物体。例如,存在于生物体中的可从自然界中的来源分离的多肽或多核苷酸序列是天然存在的。
如本文所用,应用于核酸或多肽的术语“融合”是指由衍生自不同来源的结构限定的两种组分。例如,当在融合多肽(例如,融合CRISPR-Cas效应子蛋白)的情形下使用“融合”时,融合多肽包括衍生自不同多肽的氨基酸序列。融合多肽可包含修饰的或天然存在的多肽序列(例如,来自修饰或未修饰的CRISPR-Cas效应子蛋白的第一氨基酸序列;和来自除CRISPR-Cas效应子蛋白之外的修饰或未修饰的蛋白质的第二氨基酸序列等)。类似地,在编码融合多肽的多核苷酸的情形下的“融合”包括衍生自不同编码区的核苷酸序列(例如,编码修饰或未修饰的CRISPR-Cas效应子蛋白的第一核苷酸序列;和编码除CRISPR-Cas效应子蛋白之外的多肽的第二核苷酸序列)。
术语“融合多肽”是指通常通过人干预,通过组合(即,“融合”)氨基酸序列的两个另外分开的区段而制得的多肽。
如本文所用,“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,在一些情况下,在本公开的变体CRISPR-Cas效应子蛋白中,天然存在的CRISPR-Cas效应子多肽(或其变体)的一部分可与异源多肽(即,来自除CRISPR-Cas效应子多肽之外的蛋白质的氨基酸序列或来自另一种生物体的氨基酸序列)融合。作为另一个实例,融合CRISPR-Cas效应子多肽可包含与异源多肽(即,来自除CRISPR-Cas效应子多肽之外的蛋白质的多肽或来自另一种生物体的多肽)融合的天然存在的CRISPR-Cas效应子多肽(或其变体)的全部或一部分。异源多肽可表现出也将由变体CRISPR-Cas效应子蛋白或融合CRISPR-Cas效应子蛋白表现出的活性(例如,酶活性)(例如,生物素连接酶活性;核定位等)。异源核酸序列可与天然存在的核酸序列(或其变体)连接(例如,通过基因工程化)以产生编码融合多肽(融合蛋白)的核苷酸序列。
如本文所用,“重组”意指特定核酸(DNA或RNA)是克隆、限制、聚合酶链式反应(PCR)和/或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。编码多肽的DNA序列可由cDNA片段或由一系列合成寡核苷酸组装,以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操纵或表达,并且实际上可通过各种机制起到调节所需产物的产生的作用(参见“DNA调控序列”)。或者,编码未翻译的RNA(例如,指导RNA)的DNA序列也可被认为是重组的。因此,例如术语“重组”核酸是指非天然存在的多核苷酸或核酸,例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如,通过遗传工程化技术)来完成。通常进行这种操作以用编码相同氨基酸、保守氨基酸或非保守氨基酸的密码子替换密码子。可替代地,执行这种操作以将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如,通过遗传工程化技术)来完成。当重组多核苷酸编码多肽时,所编码的多肽的序列可以是天然存在的(“野生型”)或者可以是天然存在的序列的变体(例如,突变体)。这种情况的一个实例是编码野生型蛋白的DNA(重组体),其中DNA序列经密码子优化以在所述蛋白以非天然形式所在的细胞(例如,真核细胞)中表达所述蛋白(例如,在真核细胞中表达CRISPR/Cas RNA指导的多肽诸如CRISPR-Cas效应子(例如,野生型CRISPR-Cas效应子;变体CRISPR-Cas效应子;融合CRISPR-Cas效应子;等))。因此,密码子优化的DNA可以是重组的和非天然存在的,而由DNA编码的蛋白质可能具有野生型氨基酸序列。
因此,术语“重组”多肽未必是指其氨基酸序列不是天然存在的多肽。相反,“重组”多肽由重组的非天然存在的DNA序列编码,但多肽的氨基酸序列可以是天然存在的(“野生型”)或非天然存在的(例如,变体、突变体等)。因此,“重组”多肽是人工干预的结果,但可具有天然存在的氨基酸序列。
“载体”或“表达载体”是复制子,诸如质粒、噬菌体、病毒、人工染色体或粘粒,另一DNA区段(即“插入物”)可附接至所述复制子以便引起所附接区段在细胞中的复制。
“表达盒”包含与启动子可操作地连接的DNA编码序列。“可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如,如果启动子影响编码序列的转录或表达,则启动子与编码序列可操作地连接(或者编码序列也可被称为与启动子可操作地连接)。
术语“重组表达载体”或“DNA构建体”在本文中可互换使用,以指代包含载体和插入物的DNA分子。通常产生重组表达载体以用于表达和/或增殖一个或多个插入物的目的,或用于构建其他重组核苷酸序列的目的。所述一个或多个插入物可以或可以不与启动子序列可操作地连接,并且可以或可以不与DNA调控序列可操作地连接。
当这种DNA引入到细胞内部时,细胞被外源DNA或外源RNA例如重组表达载体“遗传修饰”或“转化”或“转染”。外源DNA的存在导致永久或瞬时的遗传变化。转化DNA可以或可以不整合(共价连接)到细胞基因组中。在例如原核生物、酵母和哺乳动物细胞中,转化DNA可维持在游离元件诸如质粒上。相对于真核细胞,稳定转化的细胞为其中转化DNA逐渐整合到染色体中以使得通过染色体复制遗传给子细胞的一种细胞。此稳定性通过真核细胞建立包含含有转化DNA的子细胞群的细胞系或克隆的能力来展示。“克隆”是通过有丝分裂衍生自单个细胞或共同祖先的一群细胞。“细胞系”是能够在体外稳定生长许多代的原代细胞的克隆。
遗传修饰(也称为“转化”)的合适方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
遗传修饰方法的选择一般取决于待转化的细胞类型和发生转化所在的环境(例如,体外、离体或体内)。这些方法的一般讨论可见于Ausubel等人,Short Protocols inMolecular Biology,第3版,Wiley&Sons,1995中。
如本文所用,“靶核酸”是包括由RNA指导的核酸内切酶多肽(例如,野生型CRISPR-Cas效应子;变体CRISPR-Cas效应子;融合CRISPR-Cas效应子;等)靶向的位点(“靶位点”或“靶序列”)的多核苷酸(例如,DNA诸如基因组DNA)。靶序列是主题CRISPR-Cas效应子指导RNA(例如,双CRISPR-Cas效应子指导RNA或单分子CRISPR-Cas效应子指导RNA)的指导序列将与之杂交的序列。例如,靶核酸内的靶位点(或靶序列)5'-GAGCAUAUC-3'被序列5’-GAUAUGCUC-3’靶向(或被其结合,或与其杂交或互补)。合适的杂交条件包括正常存在于细胞中的生理条件。对于双链靶核酸,与指导RNA互补并杂交的靶核酸的链被称为“互补链”或“靶链”;而与“靶链”互补(并因此不与指导RNA互补)的靶核酸的链被称为“非靶链”或“非互补链”。
“切割”意指靶核酸分子(例如,RNA、DNA)的共价骨架的断裂。可通过多种方法来开始切割,所述方法包括但不限于磷酸二酯键的酶水解或化学水解。单链切割和双链切割均是可能的,并且双链切割可由于两个相异单链切割事件而发生。
“核酸酶”和“核酸内切酶”在本文中可互换使用,意指具有用于核酸切割的催化活性的酶(例如,核糖核酸酶活性(核糖核酸切割)、脱氧核糖核酸酶活性(脱氧核糖核酸切割)等)。
核酸酶的“切割结构域”或“活性结构域”或“核酸酶结构域”意指具有用于核酸切割的催化活性的核酸酶内的多肽序列或结构域。切割结构域可包含在单个多肽链中或切割活性可由两个(或更多个)多肽的缔合引起。单个核酸酶结构域可由给定多肽内的多于一个分离的氨基酸段组成。
术语“干细胞”在本文中用于指代具有自我更新和产生分化的细胞类型的能力的细胞(例如,植物干细胞、脊椎动物干细胞)(参见Morrison等人(1997)Cell 88:287-298)。在细胞个体发育的情形下,形容词“被分化的”或“分化的”为相对术语。“分化的细胞”是比与其比较的细胞在发育途径上更进一步向下发展的细胞。因此,多能干细胞(以下所述)可分化成谱系限制的祖细胞(例如,中胚层干细胞),所述祖细胞又可分化成进一步限制的细胞(例如,神经元祖细胞),所述细胞可分化成末期细胞(即,终止分化的细胞,例如神经元、心肌细胞等),所述末期细胞在某些组织类型中起特征性作用,并且可以或可以不保持进一步增殖的能力。干细胞的特征可在于存在特异性标志物(例如,蛋白质、RNA等)和不存在特异性标志物。干细胞还可通过体外和体内的功能测定,具体地与干细胞产生多个分化子代的能力相关的测定来鉴定。
目标干细胞包括多能干细胞(PSC)。术语“多能干细胞”或“PSC”在本文中用于意指能够产生生物体的所有细胞类型的干细胞。因此,PSC可产生生物体的所有生殖层(例如,脊椎动物的内胚层、中胚层和外胚层)的细胞。多能细胞能够形成畸胎瘤并且对活生物体中的外胚层、中胚层或内胚层组织有影响。植物的多能干细胞能够产生植物的所有细胞类型(例如,根、茎、叶等的细胞)。
可以许多不同方式得到动物的PSC。例如,胚胎干细胞(ESC)衍生自胚胎的内细胞团(Thomson等人,Science.1998年11月6日;282(5391):1145-7),而诱导型多能干细胞(iPSC)衍生自体细胞(Takahashi等人,Cell.2007年11月30日;131(5):861-72;Takahashi等人,Nat Protoc.2007;2(12):3081-9;Yu等人,Science.2007年12月21日;318(5858):1917-20.Epub 2007年11月20日)。因为术语PSC是指无论其来源的多能干细胞,所以术语PSC涵盖术语ESC和iPSC以及术语胚胎生殖干细胞(EGSC),所述胚胎生殖干细胞是PSC的另一个实例。PSC可以建立的细胞系形式存在,它们可直接从原代胚胎组织获得或者它们可衍生自体细胞。PSC可以是本文所述方法的靶细胞。
“胚胎干细胞”(ESC)意指从胚胎,通常从胚泡的内细胞群分离的PSC。ESC系列于NIH Human Embryonic Stem Cell Registry中,例如hESBGN-01、hESBGN-02、hESBGN-03、hESBGN-04(BresaGen,Inc.);HES-1、HES-2、HES-3、HES-4、HES-5、HES-6(ES CellInternational);Miz-hES1(MizMedi Hospital-Seoul National University);HSF-1、HSF-6(University of California,San Francisco)以及H1、H7、H9、H13、H14(WisconsinAlumni Research Foundation(WiCell Research Institute))。目标干细胞还包括来自其他灵长类动物的胚胎干细胞,诸如恒河猴干细胞和狨猴干细胞。干细胞可获自任何哺乳动物种类,诸如人、马、牛、猪、犬、猫、啮齿动物(例如,小鼠、大鼠、仓鼠)、灵长类动物等。(Thomson等人(1998)Science 282:1145;Thomson等人(1995)Proc.Natl.Acad.Sci USA92:7844;Thomson等人(1996)Biol.Reprod.55:254;Shamblott等人,Proc.Natl.Acad.Sci.USA 95:13726,1998)。在培养中,ESC通常呈具有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长。此外,ESC表达SSEA-3、SSEA-4、TRA-1-60、TRA-1-81和碱性磷酸酶,但不表达SSEA-1。产生和表征ESC的方法的实例可见于例如美国专利号7,029,913、美国专利号5,843,780和美国专利号6,200,806中,所述专利的公开内容以引用方式并入本文。用于以未分化的形式增殖hESC的方法描述于WO99/20741、WO 01/51616和WO03/020920中。
“胚胎生殖干细胞(EGSC)”或“胚胎生殖细胞”或“EG细胞”意指衍生自生殖细胞和/或生殖细胞祖细胞(例如原生殖细胞,即将变为精子和卵子的原生殖细胞)的PSC。认为胚胎生殖细胞(EG细胞)具有类似于如上所述的胚胎干细胞的性质。产生和表征EG细胞的方法的实例可见于例如美国专利号7,153,684;Matsui,Y.等人,(1992)Cell 70:841;Shamblott,M.等人(2001)Proc.Natl.Acad.Sci.USA 98:113;Shamblott,M.等人(1998)Proc.Natl.Acad.Sci.USA,95:13726;以及Koshimizu,U.等人(1996)Development,122:1235中,所述参考文献的公开内容以引用方式并入本文。
“诱导型多能干细胞”或“iPSC”意指衍生自不是PSC的细胞(即,衍生自相对于PSC分化的细胞)的PSC。iPSC可衍生自多种不同细胞类型,包括终止分化的细胞。iPSC具有ES细胞样形态,呈具有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长。另外,iPSC表达本领域普通技术人员已知的一种或多种主要多能标志物,包括但不限于碱性磷酸酶、SSEA3、SSEA4、Sox2、Oct3/4、Nanog、TRA160、TRA181、TDGF 1、Dnmt3b、FoxD3、GDF3、Cyp26a1、TERT和zfp42。产生和表征iPSC的方法的实例可见于例如美国专利公布号US20090047263、US20090068742、US20090191159、US20090227032、US20090246875和US20090304646中,所述专利的公开内容以引用方式并入本文。通常,为了产生iPSC,向体细胞提供本领域中已知的重新编程因子(例如Oct4、SOX2、KLF4、MYC、Nanog、Lin28等)以将体细胞重新编程变为多能干细胞。
“体细胞”意指生物体中的任何细胞,所述细胞在不存在实验操纵的情况下通常不产生生物体中的所有类型的细胞。换句话讲,体细胞是已足够分化的细胞,它们将不天然地产生身体的所有三个生殖层(即外胚层、中胚层和内胚层)的细胞。例如,体细胞将包括神经元和神经祖细胞,后者神经祖细胞可能够天然产生中枢神经系统的所有或一些细胞类型但不能产生中胚层或内胚层谱系的细胞。
“有丝分裂细胞”意指经历有丝分裂的细胞。有丝分裂是真核细胞将其细胞核中的染色体分到两个分开细胞核中的两个相同集合中的过程。通常紧接着是胞质分裂,胞质分裂将细胞核、细胞质、细胞器官和细胞膜分到含有粗略相等共有这些细胞组分的两个细胞中。
“有丝分裂后细胞”意指退出有丝分裂的细胞,即其为“静止的”,即它不再经历分裂。这种静止状态可为瞬时的,即可逆的,或其可为永久的。
“减数分裂细胞”意指经历减数分裂的细胞。减数分裂是细胞出于产生配子或孢子的目的分配其核物质的过程。不像有丝分裂,在减数分裂中,染色体经历在染色体之间混乱遗传物质的重组步骤。另外,与由有丝分裂产生的两个(遗传相同的)二倍体细胞相比,减数分裂的结果是四个(遗传独特的)单倍体细胞。
在一些情况下,组分(例如,核酸组分(例如,CRISPR-Cas效应子指导RNA);蛋白质组分(例如,野生型CRISPR-Cas效应子多肽;变体CRISPR-Cas效应子多肽;融合CRISPR-Cas效应子多肽等);等等)包括标记部分。如本文所用,术语“标记”、“可检测标记”或“标记部分”是指提供信号检测的任何部分,并且可根据测定的特定性质而广泛变化。目标标记部分包括可直接检测的标记(直接标记;例如荧光标记)和间接可检测的标记(间接标记;例如结合对成员)。荧光标记可以是任何荧光标记(例如,荧光染料(例如,荧光素、德克萨斯红、罗丹明、标记等)、荧光蛋白(例如,绿色荧光蛋白(GFP)、增强型GFP(EGFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)、樱桃、番茄、橘子以及它们的任何荧光衍生物)等)。用于所述方法中的合适的可检测(直接或间接)标记部分包括可通过光谱、光化学、生物化学、免疫化学、电学、光学、化学或其他方式检测的任何部分。例如,合适的间接标记包括生物素(结合对成员),其可被链霉抗生物素蛋白(其本身可被直接或间接标记)结合。标记还可包括:放射性标记(直接标记)(例如,3H、125I、35S、14C或32P);酶(间接标记)(例如,过氧化物酶、碱性磷酸酶、半乳糖苷酶、荧光素酶、葡萄糖氧化酶等);荧光蛋白(直接标记)(例如,绿色荧光蛋白、红色荧光蛋白、黄色荧光蛋白以及它们的任何适宜衍生物);金属标记(直接标记);比色标记;结合对成员;等等。“结合对配偶体”或“结合对成员”是指第一部分和第二部分中的一者,其中第一部分和第二部分彼此具有特异性结合亲和力。合适的结合对包括但不限于:抗原/抗体(例如,地高辛/抗地高辛、二硝基苯基(DNP)/抗-DNP、丹酰-X-抗丹酰、荧光素/抗荧光素、荧光素黄/抗荧光素黄,以及罗丹明抗罗丹明)、生物素/抗生物素蛋白(或生物素/链霉抗生物素蛋白)和钙调素结合蛋白(CBP)/钙调素。任何结合对成员都适合用作可间接检测的标记部分。
任何给定的部件或部件组合可以是未标记的,或者可用标记部分可检测地标记。在一些情况下,当标记两种或更多种组分时,它们可用彼此可区分的标记部分标记。
一般的分子和细胞生物化学方法可在标准教科书中找到,所述标准教科书为诸如Molecular Cloning:A Laboratory Manual,第3版(Sambrook等人,HaRBor LaboratoryPress 2001);Short Protocols in Molecular Biology,第4版(Ausubel等人编,JohnWiley&Sons 1999);Protein Methods(Bollag等人,John Wiley&Sons 1996);NonviralVectors for Gene Therapy(Wagner等人编,Academic Press 1999);Viral Vectors(Kaplift和Loewy编,Academic Press 1995);Immunology Methods Manual(I.Lefkovits编,Academic Press 1997);以及Cell and Tissue Culture:Laboratory Procedures inBiotechnology(Doyle和Griffiths,John Wiley&Sons 1998),这些参考文献的公开内容以引用方式并入本文。
如本文所用,术语“治疗(treatment)、治疗(treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言,所述效果可以是预防性的,并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言,所述效果可以是治疗性的。如本文所用,“治疗”涵盖对哺乳动物(例如,人)的疾病的任何治疗,并且包括:(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生;(b)抑制疾病,即阻止其发展;以及(c)缓解疾病,即引起疾病消退。
在本文中可互换使用的术语“个体”、“受试者”、“宿主”和“患者”是指个体生物体,例如哺乳动物,包括但不限于鼠类、猿、人、非人灵长类动物、有蹄类动物、猫科动物、犬科动物、牛、绵羊、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。
在进一步描述本发明之前,应理解本发明不限于所述的具体实施方案,因此,当然也可有所变化。还应理解,本文所用的术语仅出于描述具体实施方案的目的,并且不意图具有限制性,因为本发明的范围将仅受所附权利要求限制。
在提供值的范围的情况下,应理解此范围的上限与下限之间的各介入值(除非上下文另外清楚地指出,否则准确到下限的单位的十分之一),以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内,并且也涵盖在本发明内,从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下,排除那些所包括的限值中的任一个或两个的范围也包括在本发明内。
除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中,但是现在描述优选的方法和材料。本文提及的所有出版物以引用方式并入本文,以结合所引用的出版物公开并描述方法和/或材料。
必须指出,如在本文和所附权利要求中所用,单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物,除非上下文另外清楚地指出。因此,例如,提及“CRISPR-Cas效应子CRISPR-Cas效应子多肽”包括多个此类多肽,并且提及“指导RNA”包括提及本领域的技术人员已知的一种或多种指导RNA及其等效物,等。还应注意,权利要求可拟订成排除任何任选的要素。因而,这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。
应理解,出于清晰目的而在单独的实施方案的上下文中描述的本发明的某些特征也可在单个实施方案中组合提供。相反,为了简明而在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地且明确地公开一样。另外,各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地且明确地在本文中公开一样。
本文中讨论的出版物仅仅提供它们在本申请的提交日期之前的公开内容。本文中的任何内容均不应解释为承认本发明无权借助在先发明而先于此类出版物。此外,所提供的出版日可能不同于可能需要独立确认的实际出版日期。
具体实施方式
本公开提供RNA指导的CRISPR-Cas效应子蛋白(在本文中不同地称为“Cas14i”多肽、“Cas14j”多肽、“Cas 14k”多肽等)、编码所述RNA指导的CRISPR-Cas效应子蛋白的核酸,以及所述包含RNA指导的CRISPR-Cas效应子蛋白和所述核酸的组合物。本公开提供核糖核蛋白复合物,所述核糖核蛋白复合物包含:本公开的CRISPR-Cas效应子多肽;和指导RNA。本公开提供使用本公开的CRISPR-Cas效应子多肽和指导RNA修饰靶核酸的方法。
本公开提供与本公开的CRISPR-Cas效应子蛋白结合并为其提供序列特异性的指导RNA(在本文中称为“CRISPR-Cas效应子指导RNA”);编码所述CRISPR-Cas效应子指导RNA的核酸;以及包含CRISPR-Cas效应子指导RNA和/或编码所述CRISPR-Cas效应子指导RNA的核酸的修饰宿主细胞。CRISPR-Cas效应子指导RNA可用于多种应用,本文提供了这些应用。
组合物
CRISPR/CAS效应子蛋白和指导RNA
本公开的CRISPR-Cas效应子多肽(例如,本公开的Cas14i多肽;本公开的Cas14j多肽;等)与对应的指导RNA(例如,CRISPR-Cas效应子指导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物,所述复合物通过指导RNA与靶核酸分子内的靶序列之间的碱基配对被靶向至靶核酸中的特定位点。指导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(指导序列)。因此,本公开的CRISPR-Cas效应子蛋白与CRISPR-Cas效应子指导RNA形成复合物,并且指导RNA通过指导序列为RNP复合物提供序列特异性。复合物的CRISPR-Cas效应子蛋白提供位点特异性活性。换句话讲,CRISPR-Cas效应子蛋白由于其与指导RNA的缔合而被导向至靶核酸序列(例如染色体序列或染色体外序列,例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如,稳定在靶位点)。
本公开提供组合物,所述组合物包含CRISPR-Cas效应子多肽(和/或包含编码CRISPR-Cas效应子多肽的核苷酸序列的核酸)(例如,其中CRISPR-Cas效应子多肽可以是天然存在的蛋白质、切口酶CRISPR-Cas效应子蛋白、无催化活性的(“死的”CRISPR-Cas效应子蛋白;在本文中也称为“dCRISPR-Cas效应子蛋白”);融合CRISPR-Cas效应子蛋白等)。本公开提供组合物,所述组合物包含CRISPR-Cas效应子指导RNA(和/或包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的核酸)。本公开提供组合物,所述组合物包含(a)CRISPR-Cas效应子多肽(和/或编码CRISPR-Cas效应子多肽的核酸)(例如,其中CRISPR-Cas效应子多肽可以是天然存在的蛋白质、切口酶CRISPR-Cas效应子蛋白、dCRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白等);和(b)CRISPR-Cas效应子指导RNA(和/或编码CRISPR-Cas效应子指导RNA的核酸)。本公开提供一种核酸/蛋白质复合物(RNP复合物),其包含:(a)本公开的CRISPR-Cas效应子多肽(例如,其中CRISPR-Cas效应子多肽可以是天然存在的蛋白质、切口酶CRISPR-Cas效应子蛋白、Cdas12J蛋白、融合CRISPR-Cas效应子蛋白等);和(b)CRISPR-Cas效应子指导RNA。
CRISPR-Cas效应子蛋白
CRISPR-Cas效应子多肽(此术语与术语“CRISPR-Cas效应子蛋白”可互换使用)可以结合和/或修饰(例如,切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如,组蛋白尾的甲基化或乙酰化)(例如,在一些情况下,CRISPR-Cas效应子蛋白包括具有活性的融合配偶体,并且在一些情况下,CRISPR-Cas效应子蛋白提供核酸酶活性)。在一些情况下,CRISPR-Cas效应子蛋白是天然存在的蛋白质(例如,天然存在于噬菌体中)。在其他情况下,CRISPR-Cas效应子蛋白不是天然存在的多肽(例如,CRISPR-Cas效应子蛋白是变体CRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白等)。
确定给定蛋白质是否与CRISPR-Cas效应子指导RNA相互作用的测定可以是用于测试蛋白质与核酸之间的结合的任何适宜的结合测定。合适的结合测定(例如,凝胶迁移测定)是本领域普通技术人员已知的(例如,包括向靶核酸添加CRISPR-Cas效应子指导RNA和蛋白质的测定)。确定蛋白质是否具有活性(例如,确定蛋白质是否具有切割靶核酸的核酸酶活性和/或某些异源活性)的测定可以是任何适宜的测定(例如,测试核酸切割的任何适宜的核酸切割测定)。合适的测定(例如,切割测定)是本领域普通技术人员已知的。
天然存在的CRISPR-Cas效应子蛋白充当核酸内切酶,催化靶向双链DNA(dsDNA)中特定序列的双链断裂。序列特异性由相关联的指导RNA提供,所述指导RNA与靶DNA内的靶序列杂交。天然存在的CRISPR-Cas效应子指导RNA是crRNA,其中crRNA包括(i)与靶DNA中的靶序列杂交的指导序列和(ii)包含与CRISPR-Cas效应子蛋白结合的茎环(发夹-dsRNA双链体)的蛋白结合区段。
在一些实施方案中,主题方法和/或组合物的CRISPR-Cas效应子蛋白是(或衍生自)天然存在的(野生型)蛋白质。图6A至图6BB中描绘了天然存在的CRISPR-Cas效应子蛋白的实例。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6A中描绘的且命名为“噬菌体Cas14J_k87_9374247_16”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6A中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6A中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6A中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6A中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6A中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6A中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6B中描绘的且命名为“噬菌体Cas14J_LacPavin_0818_WC40_支架_407201_205”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6B中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6B中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6B中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6B中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6B中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6B中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6C中描绘的且命名为“噬菌体Cas14J_BML_08042016_6_5m_支架_18_prodigal-single_54”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6C中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6C中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6C中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISP R-Cas效应子蛋白包含具有图6C中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6C中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6C中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6D中描绘的且命名为“Ga0194119_1000113823”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6D中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6D中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6D中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6D中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6D中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6D中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6E中描绘的且命名为“Ga0116197_10005458”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6E中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6E中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6E中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6E中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6E中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6E中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6F中描绘的且命名为“Ga0116179_10426881”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6F中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6F中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6F中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6F中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6F中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6F中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6G中描绘的且命名为“Ga0268285_10062095”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6G中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6G中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6G中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6G中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6G中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6G中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6H中描绘的且命名为“Ga0066868_100162752”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6H中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6H中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6H中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6H中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6H中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6H中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6I中描绘的且命名为“噬菌体Cas14_SR-VP_2-4_支架_141_2548329_92”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6I中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6I中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6I中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6I中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6I中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6I中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6J中描绘的且命名为“噬菌体Cas14_SR-VP_4-6_支架_141_3640689_5”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6J中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6J中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6J中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6J中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6J中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6J中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6K中描绘的且命名为“噬菌体Cas14_RifSed”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6K中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6K中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6K中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6K中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6K中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6K中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6L中描绘的且命名为“噬菌体Cas14_16ft_4_支架_2_465_16ft_4_噬菌体_29_13”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6L中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6L中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6L中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6L中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6L中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6L中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6M中描绘的且命名为“Ga0116179_10109322”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6M中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6M中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6M中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6M中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6M中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6M中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6N中描绘的且命名为“Ga0116179_10465782”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6N中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6N中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6N中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6N中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6N中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6N中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6O中描绘的且命名为“Ga0134101_10165752”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6O中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6O中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6O中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6O中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6O中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6O中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6P中描绘的且命名为“Ga0066665_100815632”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6P中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6P中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6P中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6P中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6P中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6P中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6Q中描绘的且命名为“Ga0224523_10070512”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6Q中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6Q中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6Q中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6Q中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6Q中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6Q中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6R中描绘的且命名为“Ga0247839_10583994”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6R中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6R中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6R中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6R中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6R中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6R中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6S中描绘的且命名为“Cas14u9|噬菌体Cas14|LacPavin_0818_WC55_支架_56344_prodigal-single_16”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6S中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6S中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6S中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6S中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6S中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6S中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6T中描绘的且命名为“Cas14u10|Ga0153798_100522201”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6T中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6T中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6T中描绘的CRISPR-C as效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6T中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6T中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6T中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6U中描绘的且命名为“Cas14u_VU_u11|rifcsplowo2_12_支架_23_prodigal-single_23”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6U中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CR ISPR-Cas效应子蛋白包含与图6U中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6U中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6U中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6U中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6U中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6V中描绘的且命名为“Cas14u_VU_u12|SR-VP_4-6_支架_141_2630357_509”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6V中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6V中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6V中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6V中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6V中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6V中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6W中描绘的且命名为“Cas14u_VU_u13|gwd1_支架_1554_3”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6W中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6W中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6W中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6W中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6W中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6W中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6X中描绘的且命名为“Cas14u_VU_u14|pig_F100_支架_13388_4”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6X中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6X中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6X中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6X中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6X中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6X中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6Y中描绘的且命名为“Cas14u_VU_u15|pig_ID_3640_F65_支架_73762_2”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6Y中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6Y中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6Y中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6Y中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6Y中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6Y中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6Z中描绘的且命名为“Cas14u_VU_u16|pig_ID_1851_F40_2_支架_55126_1”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6Z中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6Z中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6Z中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6Z中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6Z中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6Z中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6AA中描绘的且命名为“Cas14u_VU_u17|pig_ID_3784_F96_支架_13509_10”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6AA中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6AA中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6AA中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Ca s效应子蛋白包含具有图6AA中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6AA中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导RNA,所述恒定区包含图6AA中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,(主题组合物和/或方法的)主题CRISPR-Cas效应子蛋白包含与图6BB中描绘的且命名为“Cas14u_VU_u18|SRR1747065_支架_28”的CRISPR-Cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,CRISPR-Cas效应子蛋白包含与图6BB中描绘的CRISPR-Cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6BB中描绘的CRISPR-Cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含与图6BB中描绘的CRISPR-Cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,CRISPR-Cas效应子蛋白包含具有图6BB中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列。在一些情况下,主题CRISPR-Cas效应子蛋白包含具有图6BB中描绘的CRISPR-Cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。CRISPR-Cas效应子蛋白可结合包含恒定区的指导R NA,所述恒定区包含图6BB中描绘的核苷酸序列(T被U取代)或其反向互补物,其中指导RNA可根据需要包括靶结合序列,这取决于靶核酸。
在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约350个氨基酸(aa)至约550个氨基酸的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约350aa至约375aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约375aa至约400aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约390aa至约410aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约400aa至约410aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约400aa至约450aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约410aa至约425aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约425aa至约450aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约450aa至约500aa的长度。在一些情况下,本公开的CRISPR-Cas效应子蛋白具有约450aa至约475aa的长度。
CRISPR-Cas效应子变体
变体CRISPR-Cas效应子蛋白的氨基酸序列当与对应的野生型CRISPR-Cas效应子蛋白的氨基酸序列相比时,例如,当与图6A至图6BB中任一者中所描绘的CRISPR-Cas效应子氨基酸序列相比时,相差至少一个氨基酸(例如,具有缺失、插入、取代、融合)。在一些情况下,CRISPR-Cas效应子变体与图6A至图6BB中任一者中所描绘的CRISPR-Cas效应子氨基酸序列相比包含1个氨基酸取代至10个氨基酸取代。在一些情况下,CRISPR-Cas效应子变体与图6A至图6BB中任一者中所描绘的CRISPR-Cas效应子氨基酸序列相比在RuvC结构域中包含1个氨基酸取代至10个氨基酸取代。
变体–催化活性
在一些情况下,CRISPR-Cas效应子蛋白是变体CRISPR-Cas效应子蛋白,例如相对于天然存在的催化活性序列突变的蛋白,并且在与对应的天然存在的序列相比时,表现出降低的切割活性(例如,表现出90%或更低、80%或更低、70%或更低、60%或更低、50%或更低、40%或更低,或30%或更低的切割活性)。在一些情况下,这种变体CRISPR-Cas效应子蛋白是催化‘死’蛋白(基本上没有切割活性)并且可被称为‘dCRISPR-Cas效应子’。在一些情况下,变体CRISPR-Cas效应子蛋白是切口酶(仅切割双链靶核酸(例如,双链靶DNA)的一条链)。如本文更详细描述的,在一些情况下,CRISPR-Cas效应子蛋白(在一些情况下,是具有野生型切割活性的CRISPR-Cas效应子蛋白,并且在一些情况下,是具有降低的切割活性的变体CRISPR-Cas效应子,例如dCRISPR-Cas效应子或切口酶CRISPR-Cas效应子)与具有目标活性(例如,目标催化活性)的异源多肽融合(缀合)以形成融合蛋白(融合CRISPR-Cas效应子蛋白)。
导致结合但不切割靶核酸的CRISPR-Cas效应子多肽的氨基酸取代包括例如在Cas14i、Cas14K、Cas14J或Cas14u RuvC-1结构域和/或RuvC-II结构域和/或RuvC-III结构域中保守的氨基酸取代。图8提供了Cas14i、Cas14K、Cas14J和Cas14u氨基酸序列的氨基酸序列比对。示出了保守氨基酸。在一些情况下,本公开的CRISPR-Cas效应子多肽包含以下一项或多项的氨基酸取代:i)对应于图9中所描绘氨基酸序列第258位Asp的Asp;ii)对应于图9中所描绘氨基酸序列第356位Glu的Glu;和iii)对应于图9中所描绘氨基酸序列第435位Asp的Asp。实例包括:i)图8中所描绘序列第236位的Asp(例如,图8中Cas14i_ga0066868-100162752的VGID序列中的Asp,或另一CRISPR-Cas效应子多肽中的对应位置;ii)图8中所描绘序列第332位的Glu(例如,图8中Cas14i_ga0066868-100162752的VAVENL序列中的Glu,或另一CRISPR-Cas效应子多肽中的对应位置;和iii)图8中所描绘序列第415位的Asp(例如,图8中Cas14i_ga0066868-100162752的NADVNAA序列中的Asp,或另一CRISPR-Cas效应子多肽中的对应位置。
变体–融合CRISPR-Cas效应子多肽
如上所述,在一些情况下,CRISPR-Cas效应子蛋白(在一些情况下,是具有野生型切割活性的CRISPR-Cas效应子蛋白,并且在一些情况下,是具有降低的切割活性的变体CRISPR-Cas效应子,例如dCRISPR-Cas效应子或切口酶CRISPR-Cas效应子)与具有目标活性(例如,目标催化活性)的异源多肽融合(缀合)以形成融合蛋白。CRISPR-Cas效应子蛋白可与之融合的异源多肽在本文中被称为‘融合配偶体’。
在一些情况下,融合配偶体可调节靶DNA的转录(例如,抑制转录、增加转录)。例如,在一些情况下,融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如,转录阻遏物,一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。在一些情况下,融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如,转录激活因子,一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。
在一些情况下,融合CRISPR-Cas效应子蛋白包括具有修饰靶核酸的酶活性(例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。
在一些情况下,融合CRISPR-Cas效应子蛋白包括具有修饰与靶核酸相关联的多肽(例如,组蛋白)的酶活性(例如,甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。
可用于增加转录的蛋白质(或其片段)的实例包括但不限于:转录激活因子,诸如VP16、VP64、VP48、VP160、p65亚结构域(例如,来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如,针对植物中的活性);组蛋白赖氨酸甲基转移酶,诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等;组蛋白赖氨酸脱甲基酶,诸如JHDM2a/b、UTX、JMJD3等;组蛋白乙酰转移酶,诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等;以及DNA脱甲基酶,诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。
可用于减少转录的蛋白质(或其片段)的实例包括但不限于:转录阻遏物,诸如Krüppel相关盒(KRAB或SKD);KOX1阻遏结构域;Mad mSIN3相互作用结构域(SID);ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如,针对植物中的阻遏)等;组蛋白赖氨酸甲基转移酶,诸如Pr-SET7/8、SUV4-20H1、RIZ1等;组蛋白赖氨酸脱甲基酶,诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等;组蛋白赖氨酸脱乙酰酶,诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等;DNA甲基化酶,诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等;以及外周募集元件,诸如核纤层蛋白A、核纤层蛋白B等。
在一些情况下,融合配偶体具有修饰靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于:核酸酶活性,诸如由限制性酶(例如,FokI核酸酶)提供的活性;甲基转移酶活性,诸如由甲基转移酶(例如,HhaI DNAm5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性;脱甲基酶活性,诸如由脱甲基酶(例如;10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性;DNA修复活性;DNA损伤活性;脱氨基活性,诸如由脱氨酶(例如,胞嘧啶脱氨酶,诸如大鼠APOBEC1)提供的活性;歧化酶活性;烷基化活性;脱嘌呤活性;氧化活性;嘧啶二聚体形成活性;整合酶活性,诸如由整合酶和/或解离酶(例如,Gin转化酶诸如Gin转化酶的过度活跃突变体GinH106Y、人免疫缺陷病毒1型整合酶(IN)、Tn3解离酶等)提供的活性;转座酶活性;重组酶活性,诸如由重组酶(例如,Gin重组酶的催化结构域)提供的活性;聚合酶活性;连接酶活性;解旋酶活性;光裂合酶活性和糖基化酶活性)。
在一些情况下,融合配偶体具有修饰与靶核酸(例如,ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如,组蛋白、RNA结合蛋白、DNA结合蛋白等)的酶活性。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶(HMT)(例如,花斑抑制因子3-9同源物1(SUV39H1,也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A,也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性;脱甲基酶活性,诸如由组蛋白脱甲基酶(例如,赖氨酸脱甲基酶1A(KDM1A,也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性;乙酰转移酶活性,诸如由组蛋白乙酰转移酶(例如,人乙酰转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性;脱乙酰酶活性,诸如由组蛋白脱乙酰酶(例如,HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性;激酶活性;磷酸酶活性;泛素连接酶活性;去泛素化活性;腺苷酸化活性;脱腺苷酸化活性;SUMO化活性;脱SUMO化活性;核糖基化活性;脱核糖基化活性;豆蔻酰化活性和脱豆蔻酰化活性。
合适的融合配偶体的另外的实例是二氢叶酸还原酶(DHFR)去稳定化结构域(例如,以产生化学可控的融合CRISPR-Cas效应子蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于:
MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRA(SEQ ID NO:1);MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKS(SEQ ID NO:2);MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNC(SEQ ID NO:3);MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:4);MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTAC(SEQ ID NO:5);MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATAC(SEQID NO:6);MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVV(SEQ ID NO:7);MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVC(SEQ ID NO:8);MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQC(SEQ ID NO:9);MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAA(SEQ ID NO:10);和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASS(SEQ ID NO:11)。
在一些情况下,本公开的CRISPR-Cas效应子融合多肽包含:a)本公开的CRISPR-Cas效应子多肽;和b)叶绿体转运肽。因此,例如,CRISPR-Cas效应子多肽/指导RNA复合物可被靶向至叶绿体。在一些情况下,这种靶向可通过N末端延伸的存在来实现,所述N末端延伸称为叶绿体转运肽(CTP)或质体转运肽。如果表达的多肽要在植物质体(例如,叶绿体)中区室化,则来自细菌来源的染色体转基因必须具有编码CTP序列的序列,所述CTP序列与编码表达的多肽的序列融合。因此,外源多肽到叶绿体的定位通常1通过将编码CTP序列的多核苷酸序列与编码外源多肽的多核苷酸的5'区可操作地连接来实现。在易位到质体的过程中,在加工步骤中去除CTP。然而,加工效率可能受到CTP的氨基酸序列和肽的氨基末端(NH2末端)附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、WO 97/41228)、豌豆谷胱甘肽还原酶信号序列(WO 97/41228)和US2009029861中描述的CTP。
在一些情况下,本公开的CRISPR-Cas效应子融合多肽可包含:a)本公开的CRISPR-Cas效应子多肽;和b)内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXA(SEQ ID NO:12),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHA(SEQ ID NO:13)。
对于在与Cas9蛋白、锌指蛋白和/或TALE蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰,例如组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例,参见例如:Nomura等人,J Am Chem Soc.2007年7月18日;129(28):8676-7;Rivenbark等人,Epigenetics.2012年4月;7(4):350-60;Nucleic Acids Res.2016年7月8日;44(12):5615-28;Gilbert等人,Cell.2013年7月18日;154(2):442-51;Kearns等人,NatMethods.2015年5月;12(5):401-3;Mendenhall等人,Nat Biotechnol.2013年12月;31(12):1133-6;Hilton等人,Nat Biotechnol.2015年5月;33(5):510-7;Gordley等人,ProcNatl Acad Sci U S A.2009年3月31日;106(13):5053-8;Akopian等人,Proc Natl AcadSci U S A.2003年7月22日;100(15):8688-91;Tan等人,J Virol.2006年2月;80(4):1939-48;Tan等人,Proc Natl Acad Sci U S A.2003年10月14日;100(21):11997-2002;Papworth等人,Proc Natl Acad Sci U S A.2003年2月18日;100(4):1621-6;Sanjana等人,Nat Protoc.2012年1月5日;7(1):171-92;Beerli等人,Proc Natl Acad Sci U SA.1998年12月8日;95(25):14628-33;Snowden等人,Curr Biol.2002年12月23日;12(24):2159-66;Xu等人,Xu等人,Cell Discov.2016年5月3日;2:16009;Komor等人,Nature.2016年4月20日;533(7603):420-4;Chaikind等人,Nucleic Acids Res.2016年8月11日;Choudhury等人,Oncotarget.2016年6月23日;Du等人,Cold Spring Harb Protoc.2016年1月4日;Pham等人,Methods Mol Biol.2016;1358:43-57;Balboa等人,Stem CellReports.2015年9月8日;5(3):448-59;Hara等人,Sci Rep.2015年6月9日;5:11221;Piatek等人,Plant Biotechnol J.2015年5月;13(4):578-89;Hu等人,Nucleic Acids Res.2014年4月;42(7):4375-90;Cheng等人,Cell Res.2013年10月;23(10):1163-71;以及Maeder等人,Nat Methods.2013年10月;10(10):977-9。
另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物响应性转录和/或翻译调控因子、翻译调控蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下,融合CRISPR-Cas效应子多肽通过指导核酸(指导RNA)被靶向靶核酸中的特定位置(即,序列)并且发挥基因座特异性调控的作用,诸如阻断RNA聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如,在使用融合序列时,修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下,变化是瞬时的(例如,转录阻遏或激活)。在一些情况下,变化是可遗传的(例如,在对靶核酸或与靶核酸相关联的蛋白质(例如,核小体组蛋白)进行表观遗传修饰时)。
当靶向ssRNA靶核酸时,使用的异源多肽的非限制性实例包括(但不限于):剪接因子(例如,RS结构域);蛋白质翻译组分(例如,翻译起始因子、延伸因子和/或释放因子;例如,eIF4G);RNA甲基化酶;RNA编辑酶(例如,RNA脱氨酶,例如作用于RNA的腺苷脱氨酶(ADAR),包括A至I和/或C至U编辑酶);解旋酶;RNA结合蛋白等。应理解,异源多肽可包括整个蛋白质,或者在一些情况下,可包括蛋白质的片段(例如,功能结构域)。
主题融合CRISPR-Cas效应子多肽的异源多肽可以是能够与ssRNA(出于本公开的目的,其包括分子内和/或分子间二级结构,例如双链RNA双链体,诸如发夹、茎环等)相互作用的任何结构域,无论是瞬时的还是不可逆的,直接的还是间接的,所述结构域包括但不限于选自由以下组成的组的效应结构域;内切核酸酶(例如RNA酶III、CRR22 DYW结构域、来自诸如SMG5和SMG6的蛋白质的Dicer和PIN(PilT N末端)结构域);负责刺激RNA切割的蛋白质和蛋白质结构域(例如CPSF、CstF、CFIm和CFIIm);外切核酸酶(例如XRN-1或外切核酸酶T);脱腺苷酶(例如HNT3);负责无义介导的RNA衰变的蛋白质和蛋白质结构域(例如UPF1、UPF2、UPF3、UPF3b、RNP S1、Y14、DEK、REF2和SRm160);负责稳定RNA的蛋白质和蛋白质结构域(例如PABP);负责阻遏翻译的蛋白质和蛋白质结构域(例如Ago2和Ago4);负责刺激翻译的蛋白质和蛋白质结构域(例如Staufen);负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G);负责RNA的聚腺苷酸化的蛋白质和蛋白质结构域(例如PAP1、GLD-2和Star-PAP);负责RNA的聚尿苷酸化的蛋白质和蛋白质结构域(例如CID1和末端尿苷酸转移酶);负责RNA定位的蛋白质和蛋白质结构域(例如来自IMP1、ZBP1、She2p、She3p和Bicaudal-D);负责RNA的核保留的蛋白质和蛋白质结构域(例如Rrp6);负责RNA的核输出的蛋白质和蛋白质结构域(例如TAP、NXF1、THO、TREX、REF和Aly);负责阻遏RNA剪接的蛋白质和蛋白质结构域(例如PTB、Sam68和hnRNP A1);负责刺激RNA剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(SR)结构域);负责降低转录效率的蛋白质和蛋白质结构域(例如FUS(TLS));以及负责刺激转录的蛋白质和蛋白质结构域(例如CDK7和HIV Tat)。可替代地,效应结构域可选自包括以下的组:内切核酸酶;能够刺激RNA切割的蛋白质和蛋白质结构域;外切核酸酶;脱腺苷酶;具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域;能够稳定RNA的蛋白质和蛋白质结构域;能够阻遏翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域(例如,翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G);能够进行RNA的聚腺苷酸化的蛋白质和蛋白质结构域;能够进行RNA的聚尿苷酸化的蛋白质和蛋白质结构域;具有RNA定位活性的蛋白质和蛋白质结构域;能够进行RNA的核保留的蛋白质和蛋白质结构域;具有RNA核输出活性的蛋白质和蛋白质结构域;能够阻遏RNA剪接的蛋白质和蛋白质结构域;能够刺激RNA剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUFRNA结合结构域,其在WO2012068627中更详细地描述,所述文献以引用方式整体并入本文。
可作为融合CRISPR-Cas效应子多肽的异源多肽(整体或作为其片段)使用的一些RNA剪接因子具有模块化结构,具有分开的序列特异性RNA结合模块和剪接效应结构域。例如,富含丝氨酸/精氨酸(SR)的蛋白质家族的成员含有N末端RNA识别基序(RRM),其结合前mRNA和C末端RS结构域中的外显子剪接增强子(ESE),所述外显子剪接增强子促进外显子包含。作为另一个实例,hnRNP蛋白hnRNP Al通过其RRM结构域与外显子剪接沉默子(ESS)结合,并通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调控序列来调控剪接位点(ss)的替代使用。例如,ASF/SF2可识别ESE并有助于使用内含子近侧位点,而hnRNP Al可结合ESS并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的ESF。例如,Bcl-x前mRNA产生两种剪接同种型,这两种剪接同种型具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子,并且在许多癌细胞中上调,从而保护细胞免于凋亡信号。短同种型Bcl-xS是促凋亡同种型,并且在具有高周转率的细胞(例如,发育中的淋巴细胞)中以高水平表达。两种Bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即,两个替代5'剪接位点之间)中的多个元件调控。对于更多实例,参见WO2010075303,其特此以引用方式整体并入。
另外的合适的融合配偶体包括但不限于作为边界元件(例如,CTCF)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如,核纤层蛋白A、核纤层蛋白B等)、蛋白质对接元件(例如,FKBP/FRB、Pil1/Aby1等)。
用于主题融合CRISPR-Cas效应子多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下申请中描述的那些(所述公布涉及其他CRISPR内切核酸酶(诸如Cas9),但是描述的融合配偶体也可与CRISPR-Cas效应子一起使用):PCT专利申请:WO2010075303、WO2012068627和WO2013155555,并且可见于例如以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用方式整体并入。
在一些情况下,异源多肽(融合配偶体)提供亚细胞定位,即异源多肽含有亚细胞定位序列(例如,用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、用于将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中,CRISPR-Cas效应子融合多肽不包含NLS,使得蛋白质不靶向细胞核(这可能是有利的,例如,在靶核酸是存在于胞质溶胶中的RNA时)。在一些实施方案中,异源多肽可提供便于追踪和/或纯化的标签(即,异源多肽是可检测标记)(例如,荧光蛋白,例如绿色荧光蛋白(GFP)、YFP、RFP、CFP、mCherry、tdTomato等;组氨酸标签,例如6XHis标签;血凝素(HA)标签;FLAG标签;Myc标签等)。
在一些情况下,CRISPR-Cas效应子蛋白(例如,野生型CRISPR-Cas效应子蛋白、变体CRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白、dCRISPR-Cas效应子蛋白等)包含(融合至)核定位信号(NLS)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此,在一些情况下,CRISPR-Cas效应子多肽包含一个或多个NLS(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和/或C末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在C末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和C末端二者处或附近(例如,在50个氨基酸内)。在一些情况下,NLS定位在N末端,并且NLS定位在C末端。
在一些情况下,CRISPR-Cas效应子蛋白(例如,野生型CRISPR-Cas效应子蛋白、变体CRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白、dCRISPR-Cas效应子蛋白等)包含(融合至)1与10个之间的NLS(例如,1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个、或2-5个NLS)。在一些情况下,CRISPR-Cas效应子蛋白(例如,野生型CRISPR-Cas效应子蛋白、变体CRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白、dCRISPR-Cas效应子蛋白等)包含(融合至)2与5个之间的NLS(例如,2-4个或2-3个NLS)。
NLS的非限制性实例包括衍生自以下的NLS序列:SV40病毒大T抗原的NLS,具有氨基酸序列PKKKRKV(SEQ ID NO:14);来自核质蛋白的NLS(例如,具有序列KRPAATKKAGQAKKKK(SEQ ID NO:15)的核质蛋白二分NLS);c-myc NLS,具有氨基酸序列PAAKRVKLD(SEQ ID NO:16)或RQRRNELKRSP(SEQ ID NO:17);hRNPA1 M9 NLS,具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:18);来自输入蛋白α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:19);肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:20)和PPKKARED(SEQ ID NO:21);人p53的序列PQPKKKPL(SEQ ID NO:22);小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:23);流感病毒NS1的序列DRLRR(SEQ ID NO:24)和PKQKKRK(SEQ ID NO:25);肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:26);小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:27);人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQID NO:28);以及类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:29)。一般来讲,NLS(或多个NLS)具有足够的强度来驱动CRISPR-Cas效应子蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如,可检测标记物可与CRISPR-Cas效应子蛋白融合,使得细胞内的位置可被可视化。也可从细胞中分离细胞核,然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析细胞核的内容物。也可间接确定细胞核中的积累。
在一些情况下,CRISPR-Cas效应子融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽),其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中,PTD与多肽的氨基末端共价连接(例如,与野生型CRISPR-Cas效应子连接以生成融合蛋白,或与变体CRISPR-Cas效应子蛋白(诸如dCRISPR-Cas效应子、切口酶CRISPR-Cas效应子或融合CRISPR-Cas效应子蛋白)连接以生成融合蛋白)。在一些实施方案中,PTD与多肽的羧基末端共价连接(例如,与野生型CRISPR-Cas效应子连接以生成融合蛋白,或与变体CRISPR-Cas效应子蛋白(诸如dCRISPR-Cas效应子、切口酶CRISPR-Cas效应子或融合CRISPR-Cas效应子蛋白)连接以生成融合蛋白)。在一些情况下,PTD在合适的插入位点处内插在CRISPR-Cas效应子融合多肽中(即,不在CRISPR-Cas效应子融合多肽的N末端或C末端)。在一些情况下,主题CRISPR-Cas效应子融合多肽包含(缀合至、融合至)一个或多个PTD(例如,两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下,PTD包含核定位信号(NLS)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。因此,在一些情况下,CRISPR-Cas效应子融合多肽包含一个或多个NLS(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)。在一些实施方案中,PTD与核酸(例如,CRISPR-Cas效应子指导核酸、编码CRISPR-Cas效应子指导核酸的多核苷酸、编码CRISPR-Cas效应子融合多肽的多核苷酸、供体多核苷酸等)共价连接。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR;SEQ ID NO:112的HIV-1TAT的残基47-57);包含足以直接进入细胞中的数量的精氨酸(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列;VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96);果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737);截短的人降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKR(SEQ IDNO:30);运输蛋白(Transportan)GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:31);KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:32);和RQIKIWFQNRRMKWKK(SEQ ID NO:33)。示例性PTD包括但不限于:YGRKKRRQRRR(SEQ ID NO:34);RKKRRQRRR(SEQ ID NO:35);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列中的任一个:YGRKKRRQRRR(SEQ ID NO:34);RKKRRQRR(SEQ ID NO:36);YARAAARQARA(SEQ ID NO:37);THRLPRRRRRR(SEQ ID NO:38);和GGRRARRRRRR(SEQ ID NO:39)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月;1(5-6):371-381)。ACPP包括经由可切割接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。
接头(例如,用于融合配偶体)
在一些实施方案中,主题CRISPR-Cas效应子蛋白可经由接头多肽(例如,一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,间隔肽通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸来产生以偶联蛋白质,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为是适合使用的。
接头多肽的实例包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物(包括例如(GS)n、GSGGSn(SEQ ID NO:40)、GGSGGSn(SEQ ID NO:41)和GGGSn(SEQ ID NO:42),其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列,所述氨基酸序列包括但不限于GGSG(SEQ ID NO:43)、GGSGG(SEQ ID NO:44)、GSGSG(SEQ IDNO:45)、GSGGG(SEQ ID NO:46)、GGGSG(SEQ ID NO:47)、GSSSG(SEQ ID NO:48)等。普通技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
可检测标记
在一些情况下,本公开的CRISPR-Cas效应子多肽包含可检测标记。可提供可检测信号的合适的可检测标记和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。
合适的荧光蛋白包括但不限于绿色荧光蛋白(GFP)或其变体、GFP的蓝色荧光变体(BFP)、GFP的青色荧光变体(CFP)、GFP的黄色荧光变体(YFP)、增强型GFP(EGFP)、增强型CFP(ECFP)、增强型YFP(EYFP)、GFPS65T、Emerald、Topaz(TYFP)、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFP(dEGFP)、去稳定化ECFP(dECFP)、去稳定化EYFP(dEYFP)、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体2(12)、mRFP1、pocilloporin、海肾GFP(Renilla GFP)、MonsterGFP、paGFP、Kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlum(Shaner等人(2005)Nat.Methods 2:905-909)等。如在例如Matz等人(1999)Nature Biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。
合适的酶包括但不限于辣根过氧化物酶(HRP)、碱性磷酸酶(AP)、β-半乳糖苷酶(GAL)、葡萄糖-6-磷酸脱氢酶、β-N-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(GO)等。
CRISPR-Cas效应子指导RNA
与CRISPR-Cas效应子蛋白结合形成核糖核蛋白复合物(RNP)并将复合物靶向靶核酸(例如,靶DNA)内的特定位置的核酸在本文中称为“CRISPR-Cas效应子指导RNA”或者简称为“指导RNA”。应理解,在一些情况下,可制备杂交体DNA/RNA,使得CRISPR-Cas效应子指导RNA除RNA碱基外还包含DNA碱基,但术语“CRISPR-Cas效应子指导RNA”仍然用于涵盖本文的这种分子。
可以说CRISPR-Cas效应子指导RNA包含两个区段,即靶向区段和蛋白质结合区段。蛋白质结合区段在本文中也称为指导RNA的“恒定区”。CRISPR-Cas效应子指导RNA的靶向区段包含与靶核酸(例如,靶dsDNA、靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与CRISPR-Cas效应子多肽相互作用(结合)。主题CRISPR-Cas效应子指导RNA的蛋白质结合区段可包含彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。靶核酸(例如,基因组DNA、ds DNA、RNA等)的位点特异性结合和/或切割可发生在由CRISPR-Cas效应子指导RNA(CRISPR-Cas效应子指导RNA的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如,靶基因座的靶序列)处。
CRISPR-Cas效应子指导RNA和CRISPR-Cas效应子蛋白(例如,野生型CRISPR-Cas效应子蛋白;变体CRISPR-Cas效应子蛋白;融合CRISPR-Cas效应子多肽等)形成复合物(例如,通过非共价相互作用结合)。CRISPR-Cas效应子指导RNA通过包含靶向区段为复合物提供靶特异性,所述靶向区段包含指导序列(与靶核酸序列互补的核苷酸序列)。复合物的CRISPR-Cas效应子蛋白提供位点特异性活性(例如,由CRISPR-Cas效应子蛋白提供的切割活性和/或在融合CRISPR-Cas效应子蛋白的情况下由融合配偶体提供的活性)。换句话讲,CRISPR-Cas效应子蛋白由于其与CRISPR-Cas效应子指导RNA的缔合而被导向至靶核酸序列(例如,靶序列)。
可修饰“指导序列”,也称为CRISPR-Cas效应子指导RNA的“靶向序列”,使得CRISPR-Cas效应子指导RNA可将CRISPR-Cas效应子蛋白(例如,天然存在的CRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子多肽等)靶向任何所需的靶核酸的任何所需序列,除了(例如,如本文所述)可考虑PAM序列之外。因此,例如,CRISPR-Cas效应子指导RNA可具有与真核细胞中的核酸中的序列互补(例如,可与其杂交)的指导序列,所述核酸例如是病毒核酸、真核核酸(例如,真核染色体、染色体序列、真核RNA等)等。
CRISPR-Cas效应子指导RNA的指导序列
主题CRISPR-Cas效应子指导RNA包含指导序列(即,靶向序列),其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换句话讲,CRISPR-Cas效应子指导RNA的指导序列可通过杂交(即,碱基配对)以序列特异性方式与靶核酸(例如,双链DNA(dsDNA)、单链DNA(ssDNA)、单链RNA(ssRNA)或双链RNA(dsRNA))相互作用。CRISPR-Cas效应子指导RNA的指导序列可被修饰(例如,通过遗传工程)/设计成与靶核酸(例如,真核靶核酸,诸如基因组DNA)内的任何所需靶序列杂交(例如,当考虑PAM时,例如,当靶向dsDNA靶时)。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为60%或更高(例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在靶核酸的靶位点最3'端的七个连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100%。
在一些情况下,指导序列具有在17-30个核苷酸(nt)(例如,17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有在17-25个核苷酸(nt)(例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有17或更多个nt(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有19个或更多个nt(例如,20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有17个nt的长度。在一些情况下,指导序列具有18个nt的长度。在一些情况下,指导序列具有19个nt的长度。在一些情况下,指导序列具有20个nt的长度。在一些情况下,指导序列具有21个nt的长度。在一些情况下,指导序列具有22个nt的长度。在一些情况下,指导序列具有23个nt的长度。
在一些情况下,指导序列(也称为“间隔序列”)的长度为15至50个核苷酸(例如,15个核苷酸(nt)至20个nt、20个nt至25个nt、25个nt至30个nt、30个nt至35个nt、35个nt至40个nt、40个nt至45个nt、或45个nt至50个nt)。
CRISPR-Cas效应子指导RNA的蛋白质结合区段
主题CRISPR-Cas效应子指导RNA的蛋白质结合区段(“恒定区”)与CRISPR-Cas效应子蛋白相互作用。CRISPR-Cas效应子指导RNA通过上文提及的指导序列将结合的CRISPR-Cas效应子蛋白导向至靶核酸内的特定核苷酸序列。CRISPR-Cas效应子指导RNA的蛋白质结合区段可包含两段核苷酸,它们彼此互补并杂交形成双链RNA双链体(dsRNA双链体)。因此,在一些情况下,蛋白质结合区段包含dsRNA双链体。
在一些情况下,dsRNA双链体区包含5-25个碱基对(bp)的范围(例如,5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如5个bp、6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,dsRNA双链体区包含6-15个碱基对(bp)的范围(例如,6-12个、6-10个或6-8个bp,例如6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,双链体区包含5个或更多个bp(例如,6个或更多个、7个或更多个或者8个或更多个bp)。在一些情况下,双链体区包含6个或更多个bp(例如,7个或更多个或者8个或更多个bp)。在一些情况下,并非双链体区的所有核苷酸都是配对的,并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),这段核苷酸对双链双链体没有贡献,但是在5'端和3'端被有贡献的核苷酸围绕,并且因此凸起被认为是双链体区的一部分。在一些情况下,dsRNA包含1个或更多个凸起(例如,2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下,dsRNA双链体包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些情况下,dsRNA双链体包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
因此,在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)。
换句话讲,在一些实施方案中,dsRNA双链体包含彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsRNA双链体包含彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsRNA双链体包含彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)的两段核苷酸。
相对于天然存在的双链体区,主题CRISPR-Cas效应子指导RNA的双链体区可包含一个或多个(1个、2个、3个、4个、5个等)突变。例如,在一些情况下,可维持碱基对,同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与(天然存在的CRISPR-Cas效应子指导RNA的)天然存在的双链体区相比,主题CRISPR-Cas效应子指导RNA的双链体区包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或它们的任何方便的组合。
各种Cas9指导RNA的实例可在本领域中找到,并且在一些情况下,与引入Cas9指导RNA中的那些相似的变型也可引入本公开的CRISPR-Cas效应子指导RNA中(例如,dsRNA双链体区的突变、5'或3'末端的延伸以用于增加稳定性以提供与另一种蛋白质的相互作用,等)。例如,参见Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNA Biol.2013年5月;10(5):726-37;Ma等人,Biomed Res Int.2013;2013:270805;Hou等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic Acids Res.2013年11月1日;41(20):e19;Cheng等人,Cell Res.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,Nat Methods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,CellRes.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,NatMethods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;Briner等人,Mol Cell.2014年10月23日;56(2):333-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述文献全部特此以引用方式整体并入。
图7中提供了适合包含在CRISPR-Cas效应子指导RNA中的恒定区的实例(例如,其中T被U取代)。与图7中描绘的任一核苷酸序列相比,CRISPR-Cas效应子指导RNA可包含具有1至5个核苷酸取代的恒定区。本公开的CRISPR-Cas效应子指导RNA可包含与图7中描绘的任一crRNA核苷酸序列(例如,其中T被U取代)具有至少85%、至少85%、至少90%、至少95%、至少98%、至少99%或100%核苷酸序列同一性的恒定区。
核苷酸序列(T被U取代)可与15至50个核苷酸(例如,长度为15个核苷酸(nt)至20个nt、20个nt至25个nt、25个nt至30个nt、30个nt至35个nt、35个nt至40个nt、40个nt至45个nt、或45个nt至50个nt)的所选间隔序列(其中所述间隔序列包含靶核酸结合序列(“指导序列”))结合。在一些情况下,间隔序列的长度为35-38个核苷酸。例如,图7中描绘的任一核苷酸序列(T被U取代)可包括在包含(N)n-恒定区的指导RNA中,其中N是任何核苷酸并且n是15至50(例如,15至20、20至25、25至30、30至35、35至38、35至40、40至45、或45至50)的整数。
CRISPR-CAS效应子系统
本公开提供一种CRISPR-Cas效应子系统。本公开的CRISPR-Cas效应子系统可包含:a)本公开的CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA;b)本公开的CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;c)本公开的CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA;d)本公开的CRISPR-Cas效应子融合多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;e)编码本公开的CRISPR-Cas效应子多肽的mRNA;和CRISPR-Cas效应子指导RNA;f)编码本公开的CRISPR-Cas效应子多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;g)编码本公开的CRISPR-Cas效应子融合多肽的mRNA;和CRISPR-Cas效应子指导RNA;h)编码本公开的CRISPR-Cas效应子融合多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;i)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;j)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;l)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或r)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或(a)到(r)之一的一些变化。
核酸
本公开提供一种或多种核酸,所述一种或多种核酸包含以下一项或多项:供体多核苷酸序列、编码CRISPR-Cas效应子多肽(例如,野生型CRISPR-Cas效应子蛋白、切口酶CRISPR-Cas效应子蛋白、dCRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白等)的核苷酸序列、CRISPR-Cas效应子指导RNA和编码CRISPR-Cas效应子指导RNA的核苷酸序列。本公开提供包含编码CRISPR-Cas效应子融合多肽的核苷酸序列的核酸。本公开提供包含编码CRISPR-Cas效应子多肽的核苷酸序列的重组表达载体。本公开提供包含编码CRISPR-Cas效应子融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体,所述重组表达载体包含:a)编码CRISPR-Cas效应子多肽的核苷酸序列;和b)编码一个或多个CRISPR-Cas效应子指导RNA的核苷酸序列。本公开提供一种重组表达载体,所述重组表达载体包含:a)编码CRISPR-Cas效应子融合多肽的核苷酸序列;和b)编码一个或多个CRISPR-Cas效应子指导RNA的核苷酸序列。在一些情况下,编码CRISPR-Cas效应子蛋白的核苷酸序列和/或编码CRISPR-Cas效应子指导RNA的核苷酸序列可操作地连接至可在选择的细胞类型(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等)中操作的启动子。
在一些情况下,编码本公开的CRISPR-Cas效应子多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码CRISPR-Cas效应子的核苷酸序列的突变以模拟预期的宿主生物体或细胞同时编码相同蛋白质时的密码子偏好。因此,密码子可改变,但编码的蛋白质保持不变。例如,如果预期的靶细胞是人细胞,可使用人密码子优化的编码CRISPR-Cas效应子的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是小鼠细胞,则可生成小鼠密码子优化的编码CRISPR-Cas效应子的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是植物细胞,则可生成植物密码子优化的编码CRISPR-Cas效应子的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是昆虫细胞,则可生成昆虫密码子优化的编码CRISPR-Cas效应子的核苷酸序列。
本公开提供一种或多种重组表达载体,其(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中)包括:(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如靶基因组)的靶序列具有同源性的核苷酸序列);(ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列,其与靶基因组的靶基因座的靶序列杂交(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子);和(iii)编码CRISPR-Cas效应子蛋白的核苷酸序列(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子)。本公开提供一种或多种重组表达载体,其(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中)包括:(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如靶基因组)的靶序列具有同源性的核苷酸序列);和(ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列,其与靶基因组的靶基因座的靶序列杂交(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子)。本公开提供一种或多种重组表达载体,其包括(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)编码CRISPR-Cas效应子指导RNA的核苷酸序列,其与靶基因组的靶基因座的靶序列杂交(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子);和(ii)编码CRISPR-Cas效应子蛋白的核苷酸序列(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子)。
合适的表达载体包括病毒表达载体(例如,基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见例如Li等人,Invest Opthalmol Vis Sci 35:2543 2549,1994;Borras等人,Gene Ther 6:515 524,1999;Li和Davidson,PNAS 92:7700 7704,1995;Sakamoto等人,H Gene Ther 5:1088 1097,1999;WO 94/12649、WO 93/03769;WO 93/19191;WO 94/28938;WO 95/11984和WO 95/00655);腺相关病毒(AAV)(参见例如Ali等人,Hum Gene Ther 9:81 86,1998;Flannery等人,PNAS 94:6916 6921,1997;Bennett等人,Invest Opthalmol Vis Sci 38:2857 2863,1997;Jomary等人,Gene Ther 4:683 690,1997;Rolling等人,Hum Gene Ther 10:641 648,1999;Ali等人,Hum Mol Genet 5:591594,1996;Srivastava的WO 93/09239;Samulski等人,J.Vir.(1989)63:3822-3828;Mendelson等人,Virol.(1988)166:154-165;以及Flotte等人,PNAS(1993)90:10613-10617);SV40;单纯疱疹病毒;人免疫缺陷病毒(参见例如,Miyoshi等人,PNAS 94:1031923,1997;Takahashi等人,J Virol 73:7812 7816,1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒的逆转录病毒的载体)等。在一些情况下,本公开的重组表达载体是重组腺相关病毒(AAV)载体。在一些情况下,本公开的重组表达载体是重组慢病毒载体。在一些情况下,本公开的重组表达载体是重组逆转录病毒载体。
根据所用的宿主/载体系统,可在表达载体中使用多种合适的转录和翻译控制元件中的任一种,包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。
在一些实施方案中,编码CRISPR-Cas效应子指导RNA的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码CRISPR-Cas效应子蛋白或CRISPR-Cas效应子融合多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。
转录控制元件可以是启动子。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调控启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件(例如,启动子)在所靶向细胞类型或所靶向细胞群中是功能性的。例如,在一些情况下,转录控制元件在真核细胞(例如,造血干细胞(例如,动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。
真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α,来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如,6xHis标签、血凝素标签、荧光蛋白等)的核苷酸序列,所述蛋白质标签可融合至CRISPR-Cas效应子蛋白,从而产生融合CRISPR-Cas效应子多肽。
在一些实施方案中,编码CRISPR-Cas效应子指导RNA和/或CRISPR-Cas效应子融合多肽的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中,编码CRISPR-Cas效应子指导RNA和/或CRISPR-Cas效应子融合蛋白的核苷酸序列可操作地连接至组成型启动子。
启动子可以是组成型活性启动子(即,组成性地处于活性/“ON”状态的启动子),它可以是诱导型启动子(即,通过外界刺激例如特定温度、化合物或蛋白质的存在控制其状态(活性/“ON”或非活性/“OFF”)的启动子),它可以是空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可以是时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程的特定阶段(例如,小鼠体内的毛囊周期)过程中处于“ON”状态或“OFF”状态)。
合适的启动子可衍生自病毒并且可因此称为病毒启动子,或者它们可衍生自任何生物,包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如,pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子;腺病毒主要晚期启动子(Ad MLP);单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)(Miyagishi等人,Nature Biotechnology 20,497-500(2002))、增强的U6启动子(例如,Xia等人,Nucleic Acids Res.2003年9月1日;31(17))、人H1启动子(H1)等。
在一些情况下,编码CRISPR-Cas效应子指导RNA的核苷酸序列可操作地连接至(受控制于)在真核细胞中可操作的启动子(例如,U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的,当使用U6启动子(例如,在真核细胞中)或另一种PolIII启动子由核酸(例如,表达载体)表达RNA(例如,指导RNA)时,如果连续存在若干个T(在RNA中编码U),则可能需要对RNA进行突变。这是因为DNA中的一串T(例如,5个T)可充当聚合酶III(PolIII)的终止子。因此,为了确保指导RNA在真核细胞中的转录,有时可能需要修饰编码指导RNA的序列以消除T的作用。在一些情况下,编码CRISPR-Cas效应子蛋白(例如,野生型CRISPR-Cas效应子蛋白、切口酶CRISPR-Cas效应子蛋白、dCRISPR-Cas效应子蛋白、融合CRISPR-Cas效应子蛋白等)的核苷酸序列可操作地连接至在真核细胞中可操作的启动子(例如,CMV启动子、EF1α启动子、雌激素受体调控的启动子等)。
诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代半乳糖苷(IPTG)调控的启动子、乳糖诱导的启动子、热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。因此,诱导型启动子可通过分子调控,所述分子包括但不限于强力霉素;雌激素和/或雌激素类似物;IPTG等。
适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调控的启动子和物理调控的启动子,诸如醇调控的启动子、四环素调控的启动子(例如,无水四环素(aTc)-响应性启动子和其他四环素响应性启动子系统,其包括四环素阻遏蛋白(tetR)、四环素操作序列(tetO)和四环素反式激活因子融合蛋白(tTA))、类固醇调控的启动子(例如,基于大鼠糖皮质激素受体、人雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调控的启动子(例如,衍生自来自酵母、小鼠和人的金属硫蛋白(结合并螯合金属离子的蛋白质)基因的启动子)、发病原调控的启动子(例如,由水杨酸、乙烯或苯并噻二唑(BTH)诱导的启动子)、温度/热诱导型启动子(例如,热休克启动子)和光调控的启动子(例如,来自植物细胞的光响应性启动子)。
在一些情况下,启动子是空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等),使得在多细胞生物体中,启动子在特定细胞子组中是活性的(即,“ON”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子,只要启动子在靶向宿主细胞(例如,真核细胞;原核细胞)中是功能性的即可。
在一些情况下,启动子是可逆启动子。合适的可逆启动子,包括可逆诱导型启动子,在本领域中是已知的。此类可逆启动子可分离自并衍生自许多生物体,例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如,第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰在本领域中是众所周知的。此类可逆启动子和基于此类可逆启动子但还包含另外的控制蛋白的系统包括但不限于醇调控的启动子(例如,醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调控的启动子(例如,包括Tet激活因子、TetON、TetOFF等的启动子系统)、类固醇调控的启动子(例如,大鼠糖皮质激素受体启动子系统、人雌激素受体启动子系统、类视黄醇启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调控的启动子(例如,金属硫蛋白启动子系统等)、发病原相关的调控启动子(例如,水杨酸调控的启动子、乙烯调控的启动子、苯并噻二唑调控的启动子等)、温度调控的启动子(例如,热休克诱导型启动子(例如,HSP-70、HSP-90、大豆热休克启动子等))、光调控的启动子、合成诱导型启动子等。
将核酸(例如,包含供体多核苷酸序列的核酸、一种或多种编码CRISPR-Cas效应子蛋白和/或CRISPR-Cas效应子指导RNA的核酸等)引入宿主细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。
将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。
在一些实施方案中,CRISPR-Cas效应子蛋白可以RNA形式提供。RNA可通过直接化学合成提供,或者可在体外从DNA(例如,编码CRISPR-Cas效应子蛋白的DNA)转录。一旦合成,可通过用于将核酸引入细胞中的任何众所周知的技术(例如,微注射、电穿孔、转染等)将RNA引入细胞中。
可使用开发良好的转染技术(参见例如Angel和Yanik(2010)PLoS ONE 5(7):e11756);以及可从Qiagen商购获得的试剂、可从Stemgent商购获得的StemfectTM RNA转染试剂盒和可从Mirus Bio LLC商购获得的-mRNA转染试剂盒向细胞提供核酸。还参见Beumer等人(2008)PNAS 105(50):19821-19826。
可直接向靶宿主细胞提供载体。换句话讲,使细胞与包含主题核酸的载体(例如,具有供体模板序列并编码CRISPR-Cas效应子指导RNA的重组表达载体;编码CRISPR-Cas效应子蛋白的重组表达载体等)接触,使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)在本领域中是众所周知的。对于病毒载体递送,可使细胞与包含主题病毒表达载体的病毒颗粒接触。
逆转录病毒,例如慢病毒,适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”,即不能产生生产性感染所需要的病毒蛋白质。而且载体的复制需要在包装细胞系中生长。为了生成包含目标核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同的包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性),此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性;对包括人、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法在本领域中是众所周知的。还可通过直接微注射引入核酸(例如,RNA的注射)。
用于向靶宿主细胞提供编码CRISPR-Cas效应子指导RNA和/或CRISPR-Cas效应子多肽的核酸的载体可包括用于驱动目标核酸的表达(即,转录激活)的合适的启动子。换句话讲,在一些情况下,目标核酸将可操作地连接至启动子。所述启动子可包括遍在活化型启动子,例如CMV-β-肌动蛋白启动子;或诱导型启动子,诸如在特定细胞群中有活性或对药物(诸如四环素的)存在有响应的启动子。通过转录激活,预期转录将在靶细胞中与基础水平相比增加10倍、100倍、更通常地1000倍。另外,用于向细胞提供编码CRISPR-Cas效应子指导RNA和/或CRISPR-Cas效应子蛋白的核酸的载体可包含如下核酸序列,其在靶细胞中编码可选择标记以便鉴定已经吸收CRISPR-Cas效应子指导RNA和/或CRISPR-Cas效应子蛋白的细胞。
包含编码CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列的核酸在一些情况下是RNA。因此,可将CRISPR-Cas效应子融合蛋白以RNA的形式引入细胞中。将RNA引入细胞中的方法在本领域中是已知的并且可包括例如直接注射、转染或用于引入DNA的任何其他方法。CRISPR-Cas效应子蛋白可替代地以多肽的形式向细胞提供。这种多肽可任选地融合至增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如,通过TEV蛋白酶切割的TEV序列)连接至多肽。接头还可包括一个或多个柔性序列,例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行,例如在0.5至2M尿素存在下、在增加溶解度的多肽和/或多核苷酸的存在下等进行。目标结构域包括核内体溶解结构域,例如流感HA结构域;和有助于产生的其他多肽,例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如,肽可以是PEG化的,其中聚乙烯氧基提供在血流中的增加的寿命。
另外或可替代地,本公开的CRISPR-Cas效应子多肽可融合至多肽穿透结构域以促进被细胞吸收。许多穿透结构域在本领域中是已知的并且可用于本公开的非整合多肽,包括肽、肽模拟物和非肽运载体。例如,穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋,所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKK(SEQ ID NO:33)。作为另一个实例,穿透肽包含HIV-1tat碱性区氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序,例如HIV-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如Futaki等人(2003)CurrProtein Pept Sci.2003年4月;4(2):87-9和446;以及Wender等人(2000)Proc.Natl.Acad.Sci.U.S.A 2000年11月21日;97(24):13003-8;公布的美国专利申请20030220334;20030083256;20030032593;和20030022831,在此以引用方式明确地并入易位肽和类肽的教导内容中)。九精氨酸(R9)序列是已表征的更有效的PTD之一(Wender等人2000;Uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。
本公开的CRISPR-Cas效应子多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工,并且可使用本领域已知的方法进一步再折叠。
不改变一级序列的目标修饰包括多肽的化学衍生化,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在多肽的合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰;例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。
还适合包括在本公开的实施方案中的是核酸(例如,编码CRISPR-Cas效应子指导RNA、编码CRISPR-Cas效应子融合蛋白等的核酸)和蛋白质(例如,衍生自野生型蛋白质或变体蛋白质的CRISPR-Cas效应子融合蛋白),所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰,以便改进它们对蛋白水解降解的抗性,改变靶序列特异性,优化溶解特性,改变蛋白质活性(例如,转录调节活性、酶活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的L-氨基酸之外的残基(例如,D-氨基酸或非天然存在的合成氨基酸)的那些多肽。D-氨基酸可取代一些或所有氨基酸残基。
可使用如本领域已知的常规方法,通过体外合成制备本公开的CRISPR-Cas效应子多肽。可使用各种商业合成装置,例如Applied Biosystems,Inc.、Beckman等的自动合成仪。通过使用合成仪,天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。
如果需要,可在合成过程中或在表达过程中将各种基团引入肽中,这允许连接至其他分子或表面。因此半胱氨酸可用来制备硫醚、组氨酸用于连接至金属离子络合物,羧基用于形成酰胺或酯,氨基用于形成酰胺等。
还可根据常规重组合成方法分离和纯化本公开的CRISPR-Cas效应子多肽。可由表达宿主制备裂解液,并且使用高效液相色谱法(HPLC)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下,相对于与产物制备及其纯化的方法相关的污染物,所使用的组合物将占所需产物的20重量%或更多、更通常地75重量%或更多、优选地95重量%或更多,并且出于治疗目的通常为99.5重量%或更多。通常,百分数将基于总蛋白。因此,在一些情况下,本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽具有至少80%纯度、至少85%纯度、至少90%纯度、至少95%纯度、至少98%纯度或至少99%纯度(例如,不含污染物、非CRISPR-Cas效应子蛋白质或其他大分子等)。
为了诱导对靶核酸(例如,基因组DNA)的切割或任何所需的修饰,或对与靶核酸相关联的多肽的任何所需的修饰,向细胞提供CRISPR-Cas效应子指导RNA和/或本公开的CRISPR-Cas效应子多肽和/或供体模板序列(无论它们作为核酸还是多肽引入)持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段,这可以约每天至约每4天的频率来重复,例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可一次或多次(例如一次、两次、三次或多于三次)向主题细胞提供一种或多种剂,并且在每次接触事件之后允许将细胞与所述一种或多种剂孵育持续一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。
在其中向细胞提供两种或更多种不同靶向复合物(例如,与相同或不同靶核酸内的不同序列互补的两种不同CRISPR-Cas效应子指导RNA)的情况下,可同时提供(例如,作为两种多肽和/或核酸)或同时递送所述复合物。可替代地,可连续提供复合物,例如首先提供靶向复合物,接着提供第二靶向复合物等,或反之亦然。
为了改进DNA载体向靶细胞的递送,可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护DNA免受损伤,并且促进DNA进入细胞中。因此,在一些情况下,本公开的核酸(例如,本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与DNA复合时,它被称为脂质复合物。存在三种类型的脂质,阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷,与带负电的DNA天然复合。同样由于它们的电荷,它们与细胞膜相互作用。然后发生脂质复合物的内吞作用,并且将DNA释放到细胞质中。阳离子脂质还可防止细胞对DNA的降解。
聚合物与DNA的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成,并且它们的产生由离子相互作用调控。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其DNA负载释放到细胞质中,为此,必须发生与内体溶解剂(溶解内吞作用期间产生的内体)诸如灭活的腺病毒共转染。然而,并非总是如此;诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样,都有自己的内体破坏方法。
树枝状聚合物,一种球形的高度支化的大分子,也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地,可能构建阳离子树枝状聚合物(即,具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如DNA质粒)时,电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。树枝状聚合物-核酸复合物在到达其目的地时,可通过内吞作用被吸收到细胞中。
在一些情况下,本公开的核酸(例如,表达载体)包含目标指导序列的插入位点。例如,核酸可包含目标指导序列的插入位点,其中所述插入位点紧邻编码CRISPR-Cas效应子指导RNA的部分的核苷酸序列,当指导序列被改变而与所需靶序列(例如,有助于指导RNA的CRISPR-Cas效应子结合方面的序列,例如,有助于CRISPR-Cas效应子指导RNA的一个或多个dsRNA双链体的序列-指导RNA的这个部分也可称为指导RNA的‘支架’或‘恒定区’)杂交时,所述CRISPR-Cas效应子指导RNA的所述部分不会改变。因此,在一些情况下,主题核酸(例如,表达载体)包含编码CRISPR-Cas效应子指导RNA的核苷酸序列,不同的是编码指导RNA的指导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点(MCS)(例如,包含一个或多个限制性酶识别序列的位点),用于不依赖于连接的克隆的位点,用于基于重组的克隆(例如,基于att位点的重组)的位点,由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。
插入位点可以是任何期望的长度,并且可取决于插入位点的类型(例如,可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列),位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些情况下,主题核酸的插入位点的长度为3个或更多个核苷酸(nt)(例如,长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下,主题核酸的插入位点的长度具有在2至50个核苷酸(nt)的范围内(例如,2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下,主题核酸的插入位点的长度具有在5至40个nt的范围内的长度。
核酸修饰
在一些实施方案中,主题核酸(例如,CRISPR-Cas效应子指导RNA)具有一个或多个修饰(例如,碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如,改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接至核苷的糖部分的磷酸酯基团的核苷。对于包含戊呋喃糖的那些核苷,磷酸酯基团可连接至糖的2'、3'或5'羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而,此线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物是合适的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常被称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架是3'到5'的磷酸二酯键。
合适的核酸修饰包括但不限于:2'O甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如,7-甲基鸟苷酸帽(m7G))。下文描述另外的细节和另外的修饰。
2'-O-甲基修饰的核苷酸(也称为2'-O-甲基RNA)是在tRNA和其他小RNA中发现的天然存在的RNA修饰,其作为转录后修饰而出现。可直接合成含有2'-O-甲基RNA的寡核苷酸。这种修饰增加RNA:RNA双链体的Tm,但仅导致RNA:DNA稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的,并且对DNA酶的易感性通常是DNA的5至10倍低。它通常用于反义寡核苷酸中,作为增加稳定性和对于靶信使的结合亲和力的手段。
2'氟修饰的核苷酸(例如,2'氟碱基)具有氟修饰的核糖,其增加结合亲和力(Tm)并且与天然RNA相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和siRNA中以改进在血清或其他生物体液中的稳定性。
LNA碱基具有对核糖骨架的修饰,其将碱基锁定在C3'-内部位置,这有利于RNA A型螺旋双链体几何结构。这种修饰显著增加Tm并且还具有非常强的核酸酶抗性。可将多个LNA插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到SNP检测和等位基因特异性PCR的应用。由于LNA赋予Tm的大量增加,它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下,并入单个寡核苷酸中的LNA的数量是10个碱基或更少。
硫代磷酸酯(PS)键(即,硫代磷酸酯键联)用硫原子取代核酸(例如,寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键以抑制外切核酸酶降解。在寡核苷酸内(例如,在整个寡核苷酸中)包含硫代磷酸酯键也可帮助减少内切核酸酶的攻击。
在一些实施方案中,主题核酸具有一个或多个核苷酸,所述一个或多个核苷酸是2'-O-甲基修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有一个或多个2'氟修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有一个或多个LNA碱基。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有通过硫代磷酸酯键连接的一个或多个核苷酸(即,主题核酸具有一个或多个硫代磷酸酯键联)。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有5'帽(例如,7-甲基鸟苷酸帽(m7G))。在一些实施方案中,主题核酸(例如,dsRNA、siNA等)具有修饰的核苷酸的组合。例如,除具有一个或多个具有其他修饰的核苷酸(例如,2'-O-甲基核苷酸和/或2'氟修饰的核苷酸和/或LNA碱基和/或硫代磷酸酯键联)之外,主题核酸(例如,dsRNA、siNA等)可具有5'帽(例如,7-甲基鸟苷酸帽(m7G))。
修饰的骨架和修饰的核苷间键联
含有修饰的合适的核酸(例如,CRISPR-Cas效应子指导RNA)的实例包括含有修饰的骨架或非天然的核苷间键联的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。
其中含有磷原子的合适的修饰的寡核苷酸骨架包括例如,硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基磷酸酯(包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯)、次膦酸酯、氨基磷酸酯(包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯)、二氨基磷酸酯、硫羰氨基磷酸酯、硫羰烷基磷酸酯、硫羰烷基磷酸三酯,具有正常3'-5'键联的硒代磷酸酯和硼代磷酸酯、这些物质的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架,其中一个或多个核苷酸间键联为3'至3'、5'至5'或2'至2'键联。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键联,即可为碱性(核碱基丢失或其被羟基替代)的单个反核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。
在一些实施方案中,主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键联,具体地是-CH2-NH-O-CH2-、-CH2-N(CH3)-O-CH2-(称为亚甲基(甲基亚氨基)或MMI骨架)、-CH2-O-N(CH3)-CH2-、-CH2-N(CH3)-N(CH3)-CH2-和-O-N(CH3)-CH2-CH2-(其中天然磷酸二酯核苷酸间键联表示为-O-P(=O)(OH)-O-CH2-)。MMI型核苷间键联公开于上文提及的美国专利号5,489,677中,所述专利的公开内容以引用方式整体并入本文。合适的酰胺核苷间键联公开于美国专利号5,602,240中,所述专利的公开内容以引用方式整体并入本文。
还合适的是具有吗啉代骨架结构的核酸,如例如美国专利号5,034,506中所述。例如,在一些实施方案中,主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些实施方案中,二氨基磷酸酯或其他非磷酸二酯核苷间键联替代磷酸二酯键联。
其中不包含磷原子的合适的修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键联、混合杂原子和烷基或环烷基核苷间键联或一个或多个短链杂原子或杂环核苷间键联形成的骨架。这些包括:具有吗啉代键联(部分地由核苷的糖部分形成)的那些骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基(riboacetyl)骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合的N、O、S和CH2组成部分的其他骨架。
模拟物
主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键联两者被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中也称为糖替代。维持杂环碱基部分或修饰的杂环碱基部分用于与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(PNA)。在PNA中,多核苷酸的糖骨架被含酰胺的骨架替代,具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接键合至骨架的酰胺部分的氮杂氮原子。
已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(PNA)。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接键合至骨架的酰胺部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331;和5,719,262,所述专利的公开内容以引用方式整体并入本文。
已研究的另一类多核苷酸模拟物基于具有连接至吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道连接吗啉代核酸中的吗啉代单体单元的许多连接基团。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(Dwaine A.Braasch和David R.Corey,Biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中,所述专利的公开内容以引用方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物,所述化合物具有连接单体亚单元的多种不同的连接基团。
另一类多核苷酸模拟物称为环己烯基核酸(CeNA)。通常存在于DNA/RNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNA DMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸(参见Wang等人,J.Am.Chem.Soc.,2000,122,8595-8602,其公开内容以引用方式整体并入本文)。一般来讲,CeNA单体并入DNA链中增加了DNA/RNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色性示出将CeNA结构并入天然核酸结构中的研究以继续进行简单的构象调整。
另一种修饰包括锁核酸(LNA),其中2'-羟基连接至糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键联,从而形成双环糖部分。所述键可以是亚甲基(-CH2-),即桥接2’氧原子和4'碳原子的基团,其中n为1或2(Singh等人,Chem.Commun.,1998,4,455-456,其公开内容以引用方式整体并入本文)。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性(Tm=+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有LNA的有效且无毒的反义寡核苷酸(例如Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638,其公开内容以引用方式整体并入本文)。
已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如,Koshkin等人,Tetrahedron,1998,54,3607-3630,其公开内容以引用方式整体并入本文)。LNA及其制备也描述于WO 98/39352和WO 99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中,所述专利的公开内容以引用方式整体并入本文。
修饰的糖部分
主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别合适的是:O((CH2)nO)mCH3、O(CH2)nOCH3、O(CH2)nNH2、O(CH2)nCH3、O(CH2)nONH2和O(CH2)nON((CH2)nCH3)2,其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团:C1至C10低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团,以及其他具有相似特性的取代基。合适的修饰包括2'-甲氧基乙氧基(2'-O-CH2 CH2OCH3,又称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等人,Helv.Chim.Acta,1995,78,486-504,其公开内容以引用方式整体并入本文),即烷氧基烷氧基。另外合适的修饰包括2'-二甲基氨基氧基乙氧基,即O(CH2)2ON(CH3)2基团,又称为2'-DMAOE,如在下文的实施例中所述;和2'-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE),即2'-O-CH2-O-CH2-N(CH3)2。
其他合适的糖取代基团包括甲氧基(-O-CH3)、氨基丙氧基(--OCH2CH2CH2NH2)、烯丙基(-CH2-CH=CH2)、-O-烯丙基(--O--CH2—CH=CH2)和氟(F)。2'-糖取代基团可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-F。还可在低聚化合物上的其他位置上做出相似的修饰,具体地在糖的3'末端核苷上或在2'-5'连接的寡核苷酸中的3'位置以及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物,诸如环丁基部分。
碱基修饰和取代
主题核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所用,“未修饰的”或“天然”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。修饰的核碱基包括其他合成和天然的核碱基,诸如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-C=C-CH3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基(具体为5-溴代基)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的修饰的核碱基包括三环嘧啶,诸如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮)、G-夹诸如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。
杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于The Concise Encyclopedia Of Polymer Science AndEngineering,第858-859页,Kroschwitz,J.I.编John Wiley&Sons,1990中的那些、由Englisch等人,Angewandte Chemie,International Edition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,Antisense Research and Applications,第289-302页,Crooke,S.T.和Lebleu,B.编,CRC Press,1993公开的那些,这些文献的公开内容以引用方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶,6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(Sanghvi等人编Antisense Research and Applications,CRC Press,Boca Raton,1993,第276-278页;其公开内容以引用方式整体并入本文)并且例如当与2'-O-甲氧基乙基糖修饰组合时是适合的碱基取代。
缀合物
主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接至多核苷酸。这些部分或缀合物可包括共价键合至诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报告分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物的药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。
缀合物部分包括但不限于脂质部分,诸如胆固醇部分(Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556)、胆酸(Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060)、硫醚例如己基-S-三苯甲基硫醇(Manoharan等人,Ann.N.Y.Acad.Sci.,1992,660,306-309;Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770)、巯基胆固醇(Oberhauser等人,Nucl.Acids Res.,1992,20,533-538)、脂族链例如十二烷二醇或十一烷基残基(Saison-Behmoaras等人,EMBO J.,1991,10,1111-1118;Kabanov等人,FEBS Lett.,1990,259,327-330;Svinarchuk等人,Biochimie,1993,75,49-54)、磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-O-十六烷基-外消旋-甘油-3-H-磷酸酯(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654;Shea等人,Nucl.Acids Res.,1990,18,3777-3783)、多胺或聚乙二醇链(Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973),或金刚烷乙酸(Manoharan等人,Tetrahedron Lett.,1995,36,3651-3654),棕榈基部分(Mishra等人,Biochim.Biophys.Acta,1995,1264,229-237),或十八烷基胺或己基氨基-羰基-羟基胆固醇部分(Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937)。
缀合物可包括“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽),其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如,细胞核)内。在一些实施方案中,PTD与外源多核苷酸的3'末端共价连接。在一些实施方案中,PTD与外源多核苷酸的5'末端共价连接。示例性PTD包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR;SEQ ID NO:34的HIV-1 TAT的残基47-57);包含足以直接进入细胞中的数量的精氨酸(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列;VP22结构域(Zender等人(2002)Cancer GeneTher.9(6):489-96);果蝇触角足基因蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737);截短的人降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256);聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008);RRQRRTSKLMKRSEQ ID NO:30);运输蛋白GWTLNSAGYLLGKINLKALAALAKKIL SEQ ID NO:31);KALAWEAKLAKALAKALAKHLAKALAKALKCEA SEQ ID NO:32);和RQIKIWFQNRRMKWKK SEQ ID NO:33)。示例性PTD包括但不限于:YGRKKRRQRRR SEQ ID NO:34);RKKRRQRRR SEQ ID NO:35);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列中的任一个:YGRKKRRQRRR SEQ ID NO:34);RKKRRQRR SEQ ID NO:36);YARAAARQARASEQ ID NO:37);THRLPRRRRRR SEQ ID NO:38);和GGRRARRRRRR SEQ ID NO:39)。在一些实施方案中,PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月;1(5-6):371-381)。ACPP包括经由可切割接头连接至匹配聚阴离子(例如,Glu9或“E9”)的聚阳离子CPP(例如,Arg9或“R9”),这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。
将组分引入靶细胞中
CRISPR-Cas效应子指导RNA(或包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的核酸)和/或CRISPR-Cas效应子多肽(或包含编码CRISPR-Cas效应子多肽的核苷酸序列的核酸)和/或本公开的CRISPR-Cas效应子融合多肽(或包括编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)可通过多种众所周知的方法的任一种方法引入宿主细胞中。
可使用多种化合物和方法中的任一种化合物和方法将本公开的CRISPR-Cas效应子系统递送至靶细胞(例如,其中CRISPR-Cas效应子系统包含:a)本公开的CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA;b)本公开的CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;c)本公开的CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA;d)本公开的CRISPR-Cas效应子融合多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;e)编码本公开的CRISPR-Cas效应子多肽的mRNA;和CRISPR-Cas效应子指导RNA;f)编码本公开的CRISPR-Cas效应子多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;g)编码本公开的CRISPR-Cas效应子融合多肽的mRNA;和CRISPR-Cas效应子指导RNA;h)编码本公开的CRISPR-Cas效应子融合多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;i)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;j)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;l)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或r)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或(a)到(r)之一的一些变化。作为非限制性实例,本公开的CRISPR-Cas效应子系统可与脂质组合。作为另一个非限制性实例,本公开的CRISPR-Cas效应子系统可与颗粒组合或配制成颗粒。
将核酸引入宿主细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将主题核酸(例如,表达构建体/载体)引入靶细胞(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。合适的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
在一些情况下,本公开的CRISPR-Cas效应子多肽作为编码CRISPR-Cas效应子多肽的核酸(例如,mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的CRISPR-Cas效应子多肽直接作为蛋白质(例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CRISPR-Cas效应子多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CRISPR-Cas效应子多肽直接注射到细胞中(例如,与或不与CRISPR-Cas效应子指导RNA或编码CRISPR-Cas效应子指导RNA的核酸一起,且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA的预先形成的复合物(RNP)引入细胞(例如,真核细胞)中(例如,通过注射、通过核转染;通过缀合至一种或多种组分的蛋白转导结构域(PTD),例如缀合至CRISPR-Cas效应子蛋白、缀合至指导RNA、缀合至本公开的CRISPR-Cas效应子多肽和指导RNA;等)。
在一些情况下,本公开的CRISPR-Cas效应子融合多肽(例如,与融合配偶体融合的dCRISPR-Cas效应子、与融合配偶体融合的切口酶CRISPR-Cas效应子等)作为编码CRISPR-Cas效应子多肽的核酸(例如,mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的CRISPR-Cas效应子融合多肽直接作为蛋白质(例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的CRISPR-Cas效应子融合多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CRISPR-Cas效应子融合多肽直接注射到细胞中(例如,与或不与编码CRISPR-Cas效应子指导RNA的核酸一起,且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA的预先形成的复合物(RNP)引入细胞中(例如,通过注射、通过核转染;通过缀合至一种或多种组分的蛋白转导结构域(PTD),例如缀合至CRISPR-Cas效应子融合蛋白、缀合至指导RNA、缀合至本公开的CRISPR-Cas效应子融合多肽和指导RNA;等)。
在一些情况下,将颗粒中的或与颗粒缔合的核酸(例如,CRISPR-Cas效应子指导RNA;包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的核酸;等)和/或多肽(例如,CRISPR-Cas效应子多肽;CRISPR-Cas效应子融合多肽)递送至细胞(例如,靶宿主细胞)。在一些情况下,将颗粒中的或与颗粒缔合的本公开的CRISPR-Cas效应子系统递送至细胞。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的CRISPR-Cas效应子多肽和/或CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体、包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的mRNA以及指导RNA可使用颗粒或脂质包膜同时递送;例如,CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA,例如作为复合物(例如,核糖核蛋白(RNP)复合物)可通过颗粒递送,例如通过包含脂质或类脂质以及亲水性聚合物(例如,阳离子脂质和亲水聚合物)的递送颗粒递送,例如,其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包括乙二醇或聚乙二醇(PEG);并且/或者其中颗粒还包含胆固醇(例如,来自制剂1的颗粒=DOTAP 100、DMPC 0、PEG 0、胆固醇0;制剂编号2=DOTAP 90、DMPC 0、PEG 10、胆固醇0;制剂编号3=DOTAP 90、DMPC 0、PEG 5、胆固醇5)。例如,可使用多步骤方法形成颗粒,其中将CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(PBS)中混合在一起;并且将适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于醇(例如,100%乙醇),并且将两种溶液混合在一起以形成含有复合物的颗粒)。
本公开的CRISPR-Cas效应子多肽(或包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的mRNA;或包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的重组表达载体)和/或CRISPR-Cas效应子指导RNA(或核酸,诸如一种或多种编码CRISPR-Cas效应子指导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如,可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些情况下,使用基于自组装生物粘附聚合物的颗粒/纳米颗粒;此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送,例如递送至脑。还考虑了其他实施方案,诸如疏水性药物的口服吸收和眼部递送。可使用分子包膜技术,其涉及受保护并递送至疾病部位的工程化聚合物包膜。可以单剂量或多剂量使用约5mg/kg的剂量,这取决于各种因素,例如靶组织。
类脂质化合物(例如,如美国专利申请20110293703中所述)也可用于多核苷酸的施用,并且可用于递送本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统(例如,其中CRISPR-Cas效应子系统包含:a)本公开的CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA;b)本公开的CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;c)本公开的CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA;d)本公开的CRISPR-Cas效应子融合多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;e)编码本公开的CRISPR-Cas效应子多肽的mRNA;和CRISPR-Cas效应子指导RNA;f)编码本公开的CRISPR-Cas效应子多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;g)编码本公开的CRISPR-Cas效应子融合多肽的mRNA;和CRISPR-Cas效应子指导RNA;h)编码本公开的CRISPR-Cas效应子融合多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;i)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;j)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;l)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或r)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或(a)到(r)之一的一些变化。在一方面,将氨基醇类脂质化合物与待递送至细胞或受试者的剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。
聚(β-氨基醇)(PBAA)可用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚(β-氨基醇)(PBAA)。
可使用基于糖的颗粒,例如,如参考WO2014118272(以引用方式并入本文)和Nair,J K等人,2014,Journal of the American Chemical Society 136(49),16958-16961)所述的GalNAc可用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。
在一些情况下,使用脂质纳米颗粒(LNP)将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如,pH 4)下装载到LNP中,其中可电离的脂质显示正电荷。然而,在生理pH值下,LNP表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质,即1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基-酮基-N,N-二甲基-3-氨基丙烷(DLinKDMA)和1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)。LNP的制备描述于例如Rosin等人(2011)Molecular Therapy 19:1286-2200)中。可使用阳离子脂质1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮基-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2”-(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG),以及R-3-[(.ω.-甲氧基-聚(乙二醇)2000)氨甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如,CRISPR-Cas效应子指导RNA;本公开的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些情况下,并入0.2%SP-DiOC18。
球形核酸(SNATM)构建体和其他纳米颗粒(特别是金纳米颗粒)可用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。参见例如Cutler等人,J.Am.Chem.Soc.2011 133:9254-9257;Hao等人,Small.2011 7:3158-3162;Zhang等人,ACSNano.2011 5:6962-6970;Cutler等人,J.Am.Chem.Soc.2012 134:1376-1391;Young等人,Nano Lett.2012 12:3867-71;Zheng等人,Proc.Natl.Acad.Sci.USA.2012 109:11975-80;Mirkin,Nanomedicine 2012 7:635-638;Zhang等人,J.Am.Chem.Soc.2012134:16488-1691;Weintraub,Nature 2013 495:S14-S16;Choi等人,Proc.Natl.Acad.Sci.USA.2013110(19):7625-7630;Jensen等人,Sci.Transl.Med.5,209ra152(2013)和Mirkin,等人,Small,10:186-192。
具有RNA的自组装纳米颗粒可用聚乙烯亚胺(PEI)构建,所述聚乙烯亚胺(PEI)用连接在聚乙二醇(PEG)远端处的Arg-Gly-Asp(RGD)肽配体PEG化。
一般来讲,“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下,适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞的纳米颗粒具有500nm或更小,例如,25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下,适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下,适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下,适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞的纳米颗粒具有35nm至60nm的直径。
适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞的纳米颗粒可以不同的形式提供,例如,作为固体纳米颗粒(例如,金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或它们的组合提供。可制备金属、介电和半导体纳米颗粒,以及混合结构(例如,核壳纳米颗粒)。如果由半导体材料制成的纳米颗粒足够小(通常低于10nm)以致发生电子能级的量子化,则也可将它们标记量子点。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂,并且可适用于本公开中的相似目的。
半固体和软纳米颗粒也适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。具有半固体性质的原型纳米颗粒是脂质体。
在一些情况下,使用外泌体将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。外泌体是内源性纳米囊泡,其运输RNA和蛋白质,并且可将RNA递送至脑和其他靶器官。
在一些情况下,使用脂质体将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。脂质体是球形囊泡结构,其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成;然而,磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时,脂质体形成是自发的,但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如,可将胆固醇或鞘磷脂添加到脂质体混合物中,以便帮助稳定脂质体结构并防止脂质体内容物(inner cargo)的泄漏。脂质体制剂可主要由以下组成:天然磷脂和脂质,诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。
可使用稳定的核酸-脂质颗粒(SNALP)将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。SNALP制剂可含有2:40:10:48摩尔百分比的脂质3-N-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC)和胆固醇。可通过使用25:1的脂质/siRNA比和48/40/10/2摩尔比的胆固醇/D-Lin-DMA/DSPC/PEG-C-DMA来配制D-Lin-DMA和PEG-C-DMA以及二硬脂酰基磷脂酰胆碱(DSPC)、胆固醇和siRNA来制备SNALP脂质体。所得的SNALP脂质体的尺寸可以是约80-100nm。SNALP可包含合成胆固醇(Sigma-Aldrich,St Louis,Mo.,USA)、二棕榈酰磷脂酰胆碱(Avanti Polar Lipids,Alabaster,Ala.,USA)、3-N-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。SNALP可以包含合成胆固醇(Sigma-Aldrich)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(DSPC;Avanti Polar LipidsInc.)、PEG-cDMA和1,2-二亚油基氧基-3-(N;N-二甲基)氨基丙烷(DLinDMA)。
可使用其他阳离子脂质诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环(DLin-KC2-DMA)将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。可考虑具有以下脂质组成的预成形的囊泡:摩尔比分别为40/10/40/10的并且FVII siRNA/总脂质比为大约0.05(w/w)的氨基脂质、二硬脂酰磷脂酰胆碱(DSPC)、胆固醇和(R)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000)丙基氨基甲酸酯(PEG-脂质)。为了确保在70-90nm范围内的窄粒径分布和0.11.+-.0.04(n=56)的低多分散指数,可在添加指导RNA之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒,其中四种脂质组分16、DSPC、胆固醇和PEG-脂质的摩尔比(50/10/38.5/1.5)可进一步优化以增强体内活性。
脂质可用本公开的CRISPR-Cas效应子系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒(LNP)。合适的脂质包括但不限于DLin-KC2-DMA4、C12-200和辅脂质(colipid)二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG可用本公开的CRISPR-Cas效应子系统或其组分使用自发的囊泡形成程序配制。组分摩尔比可以是约50/10/38.5/1.5(DLin-KC2-DMA或C12-200/二硬脂酰磷脂酰胆碱/胆固醇/PEG-DMG)。
本公开的CRISPR-Cas效应子系统或其组分可包封在PLGA微球中递送,所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。
可使用超电荷蛋白将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质,其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使货物与这些蛋白质(诸如质粒DNA、RNA或其他蛋白质)缔合可实现这些大分子在体外和体内向哺乳动物细胞的功能性递送。
可使用细胞穿透肽(CPP)将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞。CPP通常具有以下氨基酸组成,其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸),或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。
可使用可植入装置将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸(例如,CRISPR-Cas效应子指导RNA、编码CRISPR-Cas效应子指导RNA的核酸、编码CRISPR-Cas效应子多肽的核酸、供体模板等)或本公开的CRISPR-Cas效应子系统递送至靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的CRISPR-Cas效应子多肽、本公开的CRISPR-Cas效应子融合多肽、本公开的RNP、本公开的核酸或本公开的CRISPR-Cas效应子系统递送至靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)的可植入装置可包括容器(例如,储库、基质等),所述容器包含CRISPR-Cas效应子多肽、CRISPR-Cas效应子融合多肽、RNP或CRISPR-Cas效应子系统(或其组分,例如本公开的核酸)。
合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质),并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物),以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放,其中待递送的多肽和/或核酸直接释放至靶位点,例如细胞外基质(ECM)、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送至腔(诸如腹腔)和/或其中药物递送系统未锚定或附接的任何其他类型的施用的装置,所述装置包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基底,其可以例如任选地是基质。在一些情况下,合适的可植入药物递送装置包含可降解聚合物,其中主要释放机制是整体侵蚀(bulk erosion)。在一些情况下,合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物,其中主要释放机制是扩散而不是整体侵蚀,使得外部部分用作膜并且其内部部分用作药物储库,实际上,所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内,浓度梯度可保持有效恒定,并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值,但其仍然任选地以初始突发为特征并且/或者可波动,例如增加和降低到某一程度。扩散速率可长时间这样维持,并且可认为扩散速率恒定到某一水平以优化治疗有效期,例如有效的沉默期。
在一些情况下,可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解,无论是化学性质还是由于受试者体内酶和其他因素的攻击而引起的降解。
可选择装置的植入位点或靶位点,用于获得最大的治疗功效。例如,递送装置可植入在肿瘤环境内或附近,或者与肿瘤相关联的血液供给内或附近。靶位置可以是,例如:1)大脑退化位点,如在帕金森病或阿尔茨海默病中在基底神经节、白质和灰质处;2)脊柱,如就肌萎缩侧索硬化症(ALS)而言;3)子宫颈;4)活动性和慢性炎症关节;5)真皮,如就牛皮癣而言;7)交感神经和感觉神经位点,用于镇痛作用;7)骨;8)急性或慢性感染位点;9)阴道内;10)内耳-听觉系统、内耳迷路、前庭系统;11)气管内;12)心内;冠状动脉、心外膜;13)泌尿道或膀胱;14)胆系统;15)实质组织,包括但不限于肾、肝、脾;16)淋巴结;17)唾液腺;18)牙龈;19)关节内(到关节中);20)眼内;21)脑组织;22)脑室;23)腔,包括腹腔(例如但不限于卵巢癌);24)食管内;和25)直肠内;和26)到脉管系统中。
插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样,任选地无需修改,或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于近距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。
修饰的宿主细胞
本公开提供一种修饰的细胞,所述修饰的细胞包含本公开的CRISPR-Cas效应子多肽和/或包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的核酸。本公开提供一种修饰的细胞,所述修饰的细胞包含本公开的CRISPR-Cas效应子多肽,其中所述修饰的细胞是通常不包含本公开的CRISPR-Cas效应子多肽的细胞。本公开提供一种修饰的细胞(例如,遗传修饰的细胞),所述修饰的细胞包含核酸,所述核酸包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列。本公开提供一种用mRNA遗传修饰的遗传修饰的细胞,所述mRNA包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰的细胞,所述重组表达载体包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰细胞,所述重组表达载体包含:a)编码本公开的CRISPR-Cas效应子多肽的核苷酸序列;和b)编码本公开的CRISPR-Cas效应子指导RNA的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰的细胞,所述重组表达载体包含:a)编码本公开的CRISPR-Cas效应子多肽的核苷酸序列;b)编码本公开的CRISPR-Cas效应子指导RNA的核苷酸序列;和c)编码供体模板的核苷酸序列。
用作本公开的CRISPR-Cas效应子多肽和/或包含编码本公开的CRISPR-Cas效应子多肽和/或本公开的CRISPR-Cas效应子指导RNA的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种,这些细胞包括例如体外细胞;体内细胞;离体细胞;原代细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞等。用作本公开的CRISPR-Cas效应子多肽和/或包含编码本公开的CRISPR-Cas效应子多肽和/或本公开的CRISPR-Cas效应子指导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的CRISPR-Cas效应子系统的受体。宿主细胞或靶细胞可以是本公开的CRISPR-Cas效应子RNP的受体。宿主细胞或靶细胞可以是本公开的CRISPR-Cas效应子系统的单一组分的受体。
细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、羽藻(C.agardh)等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不源自天然生物体的细胞(例如,细胞可以是合成制得的细胞;也称为人造细胞)。
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节性T细胞(Treg)。
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。体细胞干细胞的许多实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
目标干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
干细胞可表达一种或多种干细胞标记物,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。
在一些实施方案中,干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红系细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红系细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
在其他实施方案中,干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或可作为成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法在本领域中是已知的。
在其他实施方案中,干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法在本领域中是已知的;并且可使用任何已知的方法来获得MSC。参见例如美国专利号5,736,396,其描述了人MSC的分离。
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrowroot)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalemartichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(Chelicerata)、多足亚门(Myriapodia)、Hexipodia、蛛形纲(Arachnida)、昆虫纲(Insecta)、石蛃目(Archaeognatha)、缨尾目(Thysanura)、古翅下纲(Palaeoptera)、蜉蝣目(Ephemeroptera)、蜻蜓目(Odonata)、差翅亚目(Anisoptera)、束翅亚目(Zygoptera)、新翅亚纲(Neoptera)、外翅总目(Exopterygota)、襀翅目(Plecoptera)、纺足目(Embioptera)、直翅目(Orthoptera)、缺翅目(Zoraptera)、革翅目(Dermaptera)、网翅目(Dictyoptera)、蛩蠊目(Notoptera)、蛩蠊科(Grylloblattidae)、螳科(Mantophasmatidae)、竹节虫目(Phasmatodea)、蜚蠊目(Blattaria)、等翅目(Isoptera)、螳螂目(Mantodea)、Parapneuroptera、啮虫目(Psocoptera)、缨翅目(Thysanoptera)、虱毛目(Phthiraptera)、半翅目(Hemiptera)、内翅类(Endopterygota)或全变态类(Holometabola)、膜翅目(Hymenoptera)、鞘翅目(Coleoptera)、捻翅目(Strepsiptera)、蛇蛉目(Raphidioptera)、广翅目(Megaloptera)、脉翅目(Neuroptera)、长翅目(Mecoptera)、蚤目(Siphonaptera)、双翅目(Diptera)、毛翅目(Trichoptera)或鳞翅目(Lepidoptera)。
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
试剂盒
本公开提供一种试剂盒,所述试剂盒包含本公开的CRISPR-Cas效应子系统或本公开的CRISPR-Cas效应子系统的组分。
本公开的试剂盒可包含:a)本公开的CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA;b)本公开的CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;c)本公开的CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA;d)本公开的CRISPR-Cas效应子融合多肽、CRISPR-Cas效应子指导RNA和供体模板核酸;e)编码本公开的CRISPR-Cas效应子多肽的mRNA;和CRISPR-Cas效应子指导RNA;f)编码本公开的CRISPR-Cas效应子多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;g)编码本公开的CRISPR-Cas效应子融合多肽的mRNA;和CRISPR-Cas效应子指导RNA;h)编码本公开的CRISPR-Cas效应子融合多肽的mRNA、CRISPR-Cas效应子指导RNA和供体模板核酸;i)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;j)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列和编码CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;l)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码CRISPR-Cas效应子指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;n)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;p)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或r)包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列、编码第一CRISPR-Cas效应子指导RNA的核苷酸序列和编码第二CRISPR-Cas效应子指导RNA的核苷酸序列的重组表达载体;或(a)到(r)之一的一些变化。
本公开的试剂盒可包含:a)如上所述的本公开的CRISPR-Cas效应子系统的组分,或者可包含本公开的CRISPR-Cas效应子系统;和b)一种或多种另外的试剂,例如,i)缓冲剂;ii)蛋白酶抑制剂;iii)核酸酶抑制剂;iv)显影或可视化可检测标记所需的试剂;v)阳性和/或阴性对照靶DNA;vi)阳性和/或阴性对照CRISPR-Cas效应子指导RNA;等。本公开的试剂盒可包含:a)如上所述的本公开的CRISPR-Cas效应子系统的组分,或者可包含本公开的CRISPR-Cas效应子系统;和b)治疗剂。
本公开的试剂盒可包含重组表达载体,所述重组表达载体包含:a)用于插入核酸的插入位点,所述核酸包含编码CRISPR-Cas效应子指导RNA的一部分的核苷酸序列,所述CRISPR-Cas效应子指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;和b)编码CRISPR-Cas效应子指导RNA的CRISPR-Cas效应子结合部分的核苷酸序列。本公开的试剂盒可包含重组表达载体,所述重组表达载体包含:a)用于插入核酸的插入位点,所述核酸包含编码CRISPR-Cas效应子指导RNA的一部分的核苷酸序列,所述CRISPR-Cas效应子指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;b)编码CRISPR-Cas效应子指导RNA的CRISPR-Cas效应子结合部分的核苷酸序列;和c)编码本公开的CRISPR-Cas效应子多肽的核苷酸序列。
实用性
本公开的CRISPR-Cas效应子多肽或本公开的CRISPR-Cas效应子融合多肽可用于多种方法(例如,与CRISPR-Cas效应子指导RNA组合,并且在一些情况下进一步与供体模板组合)。例如,本公开的CRISPR-Cas效应子多肽可用于(i)修饰(例如切割,例如切口;甲基化等)靶核酸(DNA或RNA;单链或双链);(ii)调节靶核酸的转录;(iii)标记靶核酸;(iv)结合靶核酸(例如,用于分离、标记、成像、追踪等的目的);(v)修饰与靶核酸相关联的多肽(例如,组蛋白)等。因此,本公开提供一种修饰靶核酸的方法。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的CRISPR-Cas效应子多肽;和b)一种或多种(例如,两种)CRISPR-Cas效应子指导RNA。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的CRISPR-Cas效应子多肽;b)CRISPR-Cas效应子指导RNA;和c)供体核酸(例如,供体模板)。在一些情况下,接触步骤在体外细胞中进行。在一些情况下,接触步骤在体内细胞中进行。在一些情况下,接触步骤在离体细胞中进行。
因为使用CRISPR-Cas效应子多肽的方法包括将CRISPR-Cas效应子多肽与靶核酸中的特定区域结合(通过相关联的CRISPR-Cas效应子指导RNA靶向靶核酸中的特定区域),所述方法在本文中一般称为结合方法(例如,结合靶核酸的方法)。然而,应理解在一些情况下,虽然结合方法可能无非是导致靶核酸的结合,但在其他情况下,所述方法可具有不同的最终结果(例如,所述方法可导致靶核酸的修饰(例如,切割/甲基化等);从靶核酸转录的调节;靶核酸翻译的调节;基因组编辑;与靶核酸相关联的蛋白质的调节;靶核酸的分离等)。
对于合适方法的实例,参见,例如,Jinek等人,Science.2012年8月17日;337(6096):816-21;Chylinski等人,RNA Biol.2013年5月;10(5):726-37;Ma等人,Biomed ResInt.2013;2013:270805;Hou等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,Nat Biotechnol.2013年9月;31(9):839-43;Qi等人,Cell.2013年2月28日;152(5):1173-83;Wang等人,Cell.2013年5月9日;153(4):910-8;Auer等人,Genome Res.2013年10月31日;Chen等人,Nucleic AcidsRes.2013年11月1日;41(20):e19;Cheng等人,Cell Res.2013年10月;23(10):1163-71;Cho等人,Genetics.2013年11月;195(3):1177-80;DiCarlo等人,Nucleic Acids Res.2013年4月;41(7):4336-43;Dickinson等人,Nat Methods.2013年10月;10(10):1028-34;Ebina等人,Sci Rep.2013;3:2510;Fujii等人,Nucleic Acids Res.2013年11月1日;41(20):e187;Hu等人,Cell Res.2013年11月;23(11):1322-5;Jiang等人,Nucleic Acids Res.2013年11月1日;41(20):e188;Larson等人,Nat Protoc.2013年11月;8(11):2180-96;Mali等人,NatMethods.2013年10月;10(10):957-63;Nakayama等人,Genesis.2013年12月;51(12):835-43;Ran等人,Nat Protoc.2013年11月;8(11):2281-308;Ran等人,Cell.2013年9月12日;154(6):1380-9;Upadhyay等人,G3(Bethesda).2013年12月9日;3(12):2233-8;Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日;110(39):15514-5;Xie等人,Mol Plant.2013年10月9日;Yang等人,Cell.2013年9月12日;154(6):1370-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述文献各自特此以引用方式整体并入。
例如,本公开提供(但不限于)切割靶核酸的方法;编辑靶核酸的方法;调节从靶核酸转录的方法;分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。
如本文所用,术语/短语“使靶核酸,例如,与CRISPR-Cas效应子多肽或与CRISPR-Cas效应子融合多肽等接触”,涵盖用于接触靶核酸的所有方法。例如,可将CRISPR-Cas效应子多肽作为蛋白质、RNA(编码CRISPR-Cas效应子多肽)或DNA(编码CRISPR-Cas效应子多肽)提供给细胞;而可将CRISPR-Cas效应子指导RNA作为指导RNA或编码指导RNA的核酸提供。因此,当例如在细胞中(例如,在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时,包括接触靶核酸的方法涵盖将处于活性/最终状态的任何或所有组分(例如,呈CRISPR-Cas效应子多肽的一种或多种蛋白质形式;呈CRISPR-Cas效应子融合多肽的蛋白质形式;在一些情况下呈指导RNA的RNA形式)引入细胞中,并且还涵盖将编码一种或多种组分的一种或多种核酸(例如,一种或多种包含编码CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导RNA的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外在细胞外部执行,所以包括接触靶核酸的方法(除非另外指明)涵盖在体外在细胞外部、在体外在细胞内部、在体内在细胞内部、离体在细胞内部接触等。
在一些情况下,本公开的用于修饰靶核酸的方法包括向靶细胞中引入CRISPR-Cas效应子基因座,例如来自包含CRISPR-Cas效应子基因座的细胞(例如,在一些情况下,处于天然状态(天然存在的状态)包含CRISPR-Cas效应子基因座的细胞)的核酸,所述核酸包含编码CRISPR-Cas效应子多肽的核苷酸序列以及长度为约1千碱基(kb)至5kb的在编码CRISPR-Cas效应子的核苷酸序列周围的核苷酸序列,其中靶细胞通常(在天然状态下)不包含CRISPR-Cas效应子基因座。然而,可以修饰一个或多个间隔序列,一个或多个编码crRNA的编码指导序列,使得靶向一个或多个目标靶序列。因此,例如,在一些情况下,本公开的用于修饰靶核酸的方法包括向靶细胞中引入CRISPR-Cas效应子基因座,例如,从源细胞(例如,在一些情况下,处于天然状态(天然存在的状态)包含CRISPR-Cas效应子基因座的细胞)获得的核酸,其中核酸具有100个核苷酸(nt)至5kb(例如,100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb、或4kb至5kb)的长度并且包含编码CRISPR-Cas效应子多肽的核苷酸序列。如上所述,在一些此类情况下,可以修饰一个或多个间隔序列,一个或多个编码crRNA的编码指导序列,使得靶向一个或多个目标靶序列。在一些情况下,所述方法包括向靶细胞中引入:i)CRISPR-Cas效应子基因座;和ii)供体DNA模板。在一些情况下,靶核酸在体外无细胞组合物中。在一些情况下,靶核酸存在于靶细胞中。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是原核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是真核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是哺乳动物细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是植物细胞。
在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CRISPR-Cas效应子多肽或本公开的CRISPR-Cas效应子融合多肽接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CRISPR-Cas效应子多肽、第一CRISPR-Cas效应子指导RNA和第二CRISPR-Cas效应子指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA和供体DNA模板接触。
目标靶核酸和靶细胞
本公开的CRISPR-Cas效应子多肽,或本公开的CRISPR-Cas效应子融合多肽,当与CRISPR-Cas效应子指导RNA结合时,可与靶核酸结合,并且在一些情况下,可结合并修饰靶核酸。靶核酸可以是任何核酸(例如,DNA、RNA),可以是双链或单链的,可以是任何类型的核酸(例如,染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如,只要CRISPR-Cas效应子指导RNA包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可)。
靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如,dsDNA、dsRNA)或单链的(例如,ssRNA、ssDNA)。在一些情况下,靶核酸是单链的。在一些情况下,靶核酸是单链RNA(ssRNA)。在一些情况下,靶ssRNA(例如,靶细胞ssRNA、病毒ssRNA等)选自:mRNA、rRNA、tRNA、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和微小RNA(miRNA)。在一些情况下,靶核酸是单链DNA(ssDNA)(例如,病毒DNA)。如上所指出,在一些情况下,靶核酸是单链的。
靶核酸可位于任何地方,例如,体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸,诸如基因组DNA)包括但不限于:细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;昆虫(例如,蚊子;蜜蜂;农业害虫等)的细胞;蛛形纲动物(例如,蜘蛛;蜱等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞(例如,来自啮齿动物的细胞;来自人的细胞;非人哺乳动物的细胞;啮齿动物(例如,小鼠、大鼠)的细胞;兔形目动物(例如,兔)的细胞;有蹄类动物(例如,牛、马、骆驼、美洲驼、骆马、绵羊、山羊等)的细胞;海洋哺乳动物(例如,鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞,例如胚胎干(ES)细胞、诱导多能干(iPS)细胞、生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如,成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞(例如,1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。
细胞可来自已建立的细胞系或者它们可以是原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即,分裂)的细胞和细胞培养物。例如,原代培养物是可能已传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常,原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞是原代细胞,它们可通过任何方便的方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织(诸如皮肤、肌肉、骨髓、脾、肝、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。
在上述申请的一些申请中,主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如,用于可视化,用于采集和/或分析等)(例如,以破坏由靶向mRNA编码的蛋白质的产生,以切割或以其他方式修饰靶DNA,以遗传修饰靶细胞等)。因为指导RNA通过与靶核酸杂交来提供特异性,所以在公开的方法中目标有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人的细胞等)。在一些情况下,可将主题CRISPR-Cas效应子蛋白(和/或编码蛋白质的核酸,诸如DNA和/或RNA)和/或CRISPR-Cas效应子指导RNA(和/或编码指导RNA的DNA)和/或供体模板和/或RNP引入个体(即,靶细胞可在体内)(例如,哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人等)中。在一些情况下,这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。
植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞,诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞,例如生产杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。
靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等)、海藻(例如巨藻)、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不源自天然生物体的细胞(例如,细胞可以是合成制得的细胞;也称为人造细胞)。
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节性T细胞(Treg)。
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。体细胞干细胞的许多实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
目标干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
干细胞可表达一种或多种干细胞标记物,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。
在一些实施方案中,干细胞是造血干细胞(HSC)。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红系细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红系细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
在其他实施方案中,干细胞是神经干细胞(NSC)。神经干细胞(NSC)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或可作为成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法在本领域中是已知的。
在其他实施方案中,干细胞是间充质干细胞(MSC)。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法在本领域中是已知的;并且可使用任何已知的方法来获得MSC。参见例如美国专利号5,736,396,其描述了人MSC的分离。
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根、慈菇、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿)、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜、蒲公英嫩叶、芋头、dau mue、donqua(冬瓜)、茄子、菊苣、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡、嫩叶、汉诺威沙拉用绿叶、huauzontle、洋姜、豆薯、羽衣甘蓝嫩叶、大头菜、羊腿藜、生菜(贝比生菜)、生菜(波士顿生菜)、生菜(波士顿红生菜)、生菜(绿叶)、生菜(冰山生菜)、生菜(红毛菜)、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜)、生菜(红罗马生菜)、生菜(俄罗斯红芥末)、linkok、白萝卜、长豆、莲藕、野苣、龙舌兰(龙舌兰)叶、黄肉芋、混和生菜、京水菜、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜、菊苣、萝卜芽、萝卜、青芸苔、青芸苔、大黄、罗马生菜、芜菁甘蓝、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦)、红瓜、粘果酸浆、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁、荸荠、薯蓣、山药、油菜、木薯(木薯)等。
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(Chelicerata)、多足亚门(Myriapodia)、Hexipodia、蛛形纲(Arachnida)、昆虫纲(Insecta)、石蛃目(Archaeognatha)、缨尾目(Thysanura)、古翅下纲(Palaeoptera)、蜉蝣目(Ephemeroptera)、蜻蜓目(Odonata)、差翅亚目(Anisoptera)、束翅亚目(Zygoptera)、新翅亚纲(Neoptera)、外翅总目(Exopterygota)、襀翅目(Plecoptera)、纺足目(Embioptera)、直翅目(Orthoptera)、缺翅目(Zoraptera)、革翅目(Dermaptera)、网翅目(Dictyoptera)、蛩蠊目(Notoptera)、蛩蠊科(Grylloblattidae)、螳科(Mantophasmatidae)、竹节虫目(Phasmatodea)、蜚蠊目(Blattaria)、等翅目(Isoptera)、螳螂目(Mantodea)、Parapneuroptera、啮虫目(Psocoptera)、缨翅目(Thysanoptera)、虱毛目(Phthiraptera)、半翅目(Hemiptera)、内翅类(Endopterygota)或全变态类(Holometabola)、膜翅目(Hymenoptera)、鞘翅目(Coleoptera)、捻翅目(Strepsiptera)、蛇蛉目(Raphidioptera)、广翅目(Megaloptera)、脉翅目(Neuroptera)、长翅目(Mecoptera)、蚤目(Siphonaptera)、双翅目(Diptera)、毛翅目(Trichoptera)或鳞翅目(Lepidoptera)。
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
将组分引入靶细胞中
CRISPR-Cas效应子指导RNA(或包含编码CRISPR-Cas效应子指导RNA的核苷酸序列的核酸)和/或CRISPR-Cas效应子融合多肽(或包含编码CRISPR-Cas效应子融合多肽的核苷酸序列的核酸)和/或供体多核苷酸可通过多种众所周知的方法的任一种方法引入宿主细胞中。
将核酸引入细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入靶细胞(例如,真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法在本文中其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,Panyam等人Adv Drug Deliv Rev.2012年9月13日.pii:S0169-409X(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可使用已知方法例如像核转染将任何或所有组分作为组合物(例如,包括CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA、供体多核苷酸等的任何方便组合)引入细胞中。
供体多核苷酸(供体模板)
在CRISPR-Cas效应子指导RNA的指导下,CRISPR-Cas效应子蛋白在一些情况下在双链DNA(dsDNA)靶核酸内生成位点特异性双链断裂(DSB)或单链断裂(SSB)(例如,当CRISPR-Cas效应子蛋白是切口酶变体时),这些断裂通过非同源末端连接(NHEJ)或同源定向重组(HDR)修复。
在一些情况下,使靶DNA(与CRISPR-Cas效应子蛋白和CRISPR-Cas效应子指导RNA)接触在允许非同源末端连接或同源定向修复的条件下发生。因此,在一些情况下,主题方法包括使靶DNA与供体多核苷酸接触(例如,通过将供体多核苷酸引入细胞中),其中将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分整合到靶DNA中。在一些情况下,所述方法不包括使细胞与供体多核苷酸接触,并且修饰靶DNA使得靶DNA内的核苷酸缺失。
在一些情况下,CRISPR-Cas效应子指导RNA(或编码CRISPR-Cas效应子指导RNA的DNA)和CRISPR-Cas效应子蛋白(或编码CRISPR-Cas效应子蛋白的核酸,诸如RNA或DNA,例如一种或多种表达载体)与供体多核苷酸序列共同施用(例如,与靶核酸接触、向细胞施用等),所述供体多核苷酸序列包括与靶DNA序列同源的至少一个区段,主题方法可用于将核酸物质添加(即插入或替代)到靶DNA序列(例如以“敲入”核酸,例如编码蛋白质、siRNA、miRNA的核酸等),添加标签(例如,6xHis、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)、血凝素(HA)、FLAG等),将调控序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(IRES)、2A肽、起始密码子、终止密码子、剪接信号、定位信号等),修饰核酸序列(例如,引入突变、通过引入正确的序列去除致病突变)等。因此,包含CRISPR-Cas效应子指导RNA和CRISPR-Cas效应子蛋白的复合物可用于任何体外或体内应用中,在所述应用中希望以位点特异性(即“靶向的”)方式修饰DNA,例如基因敲除、基因敲入、基因编辑、基因标签等,例如,如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法,农业中遗传修饰的生物体的生产,出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产,iPS细胞诱导,生物研究,用于缺失或替代的病原体基因的靶向等中所使用的。
在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中,还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指待在CRISPR-Cas效应子蛋白切割的位点处插入的核酸序列(例如,在dsDNA切割之后、对靶DNA进行切口之后、对靶DNA进行双切口之后等)。供体多核苷酸可含有与靶位点处的基因组序列足够的同源性(例如与侧接靶位点,例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)的核苷酸序列或直接侧接靶位点的核苷酸序列,具有70%、80%、85%、90%、95%或100%的同源性),以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25个、50个、100个或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。
供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复即可(例如,用于基因校正,例如,以转化致病碱基对或非致病碱基对)。在一些实施方案中,供体序列包含侧接两个同源区的非同源序列,以使得靶DNA区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与目标DNA区域同源并且不意图插入到目标DNA区域中的序列。通常,供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50%的序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。根据供体多核苷酸的长度,可存在1%与100%之间的任何值的序列同一性。
供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标记(例如,抗药基因、荧光蛋白、酶等)等,所述序列差异可用来评估供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如,表示靶向基因组基因座处的表达)。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不会改变氨基酸序列,或将产生沉默氨基酸变化(即,不影响蛋白质结构或功能的变化)。可替代地,这些序列差异可包括侧接重组序列,诸如FLP、loxP序列等,所述侧接重组序列可在去除标记序列之后的时间里激活。
在一些情况下,供体序列作为单链DNA提供给细胞。在一些情况下,供体序列作为双链DNA提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入,供体序列的末端可通过任何方便的方法来保护(例如,免受核酸外切降解),并且此类方法是本领域的技术人员已知的。例如,可将一个或多个双脱氧核苷酸残基添加到线性分子的3’末端,并且/或者可将自身互补寡核苷酸连接至一个或两个末端。参见例如Chang等人(1987)Proc.Natl.Acad Sci USA 84:4959-4963;Nehls等人(1996)Science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基以及使用修饰的核苷酸间键联,例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在同源区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中,所述载体分子具有另外的序列,例如像复制起点、启动子和编码抗生素耐药性的基因。此外,供体序列可作为裸核酸、作为与剂(诸如脂质体或泊洛沙姆)复合的核酸引入,或者可通过病毒(例如,腺病毒AAV)来递送,如本文其他地方对于编码CRISPR-Cas效应子指导RNA和/或CRISPR-Cas效应子融合多肽和/或供体多核苷酸的核酸所述。
转基因非人生物体
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的核酸;包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体,所述转基因非人生物体产生本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽。本公开提供一种转基因非人生物体,所述转基因非人生物体包含编码本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列。
转基因非人动物
本公开提供一种转基因非人动物,所述动物包含转基因,所述转基因包含含有编码CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列的核酸。在一些实施方案中,转基因非人动物的基因组包含编码本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列。在一些情况下,转基因非人动物对于遗传修饰是纯合的。在一些情况下,转基因非人动物对于遗传修饰是杂合的。在一些实施方案中,转基因非人动物是脊椎动物,例如鱼类(例如,鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如,鸡、火鸡等)、爬行动物(例如,蛇、蜥蜴等)、非人哺乳动物(例如,有蹄类动物,例如猪、牛、山羊、绵羊等;兔形目动物(例如,兔);啮齿动物(例如,大鼠、小鼠);非人灵长类动物等)等。在一些情况下,转基因非人动物是无脊椎动物。在一些情况下,转基因非人动物是昆虫(例如,蚊子;农业害虫等)。在一些情况下,转基因非人动物是蛛形纲动物。
编码本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接至未知启动子)或可在已知启动子的控制之下(即,可操作地连接至已知启动子)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如,CMV启动子)、诱导型启动子(例如,热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
转基因植物
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的CRISPR-Cas效应子多肽的核苷酸序列的核酸;包含编码本公开的CRISPR-Cas效应子融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因植物,所述转基因植物产生本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽。本公开提供一种转基因植物,所述转基因植物包含编码本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列。在一些实施方案中,转基因植物的基因组包含主题核酸。在一些实施方案中,转基因植物对于遗传修饰是纯合的。在一些实施方案中,转基因植物对于遗传修饰是杂合的。
将外源核酸引入植物细胞中的方法在本领域中是众所周知的。如上所定义,此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链DNA病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择一般取决于待转化的细胞类型和发生转化所在的环境(即体外、离体或体内)。
基于土壤细菌根瘤土壤杆菌(Agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(Agrobacterium)的野生型形式含有Ti(肿瘤诱导)质粒,该质粒引导在宿主植物上生长的致瘤冠瘿的产生。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码的毒力基因以及T-DNA边缘序列,所述T-DNA边缘序列是描绘待转移区域的一组正向DNA重复序列。基于土壤杆菌属的载体是Ti质粒的修饰形式,其中肿瘤诱导功能被待引入植物宿主中的目标核酸序列替代。
土壤杆菌属介导的转化一般采用共合体载体或二元载体系统,其中Ti质粒的组分在辅助载体(所述辅助载体永久驻留在土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被T-DNA序列界定的目标基因)之间分配。多种二元载体在本领域中是众所周知的并且可例如从Clontech(Palo Alto,Calif.)商购获得。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法在本领域中也是众所周知的。参见例如Glick和Thompson(编),Methods in Plant MolecularBiology and Biotechnology,Boca Raton,Fla.:CRC Press(1993)。
微粒介导的转化还可用来产生主题转基因植物。首先由Klein等人(Nature 327:70-73(1987))描述的这种方法依赖于微粒(诸如金或钨),所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀包被有所需的核酸分子。微粒颗粒使用诸如BIOLISTIC PD-1000(Biorad;Hercules Calif.)的装置在高速下被加速到被子植物组织中。
可将本公开的核酸(例如,包含编码本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列的核酸(例如,重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体,然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体,包括描述于Weissbach和Weissbach,(1989)Methods for Plant Molecular Biology Academic Press以及Gelvin等人,(1990)Plant Molecular Biology Manual,Kluwer AcademicPublishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的Ti质粒的那些,以及由Herrera-Estrella等人(1983)Nature 303:209,Bevan(1984)Nucl Acid Res.12:8711-8721,Klee(1985)Bio/Technolo 3:637-642公开的那些。可替代地,非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法,可产生转基因植物,诸如小麦、大米(Christou(1991)Bio/Technology 9:957-9和4462)和玉米(Gordon-Kamm(1990)Plant Cell 2:603-618)。未成熟胚也可以是通过使用粒子枪的直接DNA递送技术(Weeks等人(1993)Plant Physiol 102:1077-1084;Vasil(1993)Bio/Technolo 10:667-674;Wan和Lemeaux(1994)Plant Physiol 104:37-48)和土壤杆菌属介导的DNA转移(Ishida等人(1996)Nature Biotech 14:745-750)的单子叶植物的良好靶组织。用于将DNA引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(Danieli等人Nat.Biotechnol 16:345-348,1998;Staub等人Nat.Biotechnol 18:333-338,2000;O’Neill等人Plant J.3:729-738,1993;Knoblauch等人Nat.Biotechnol 17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;国际申请号WO 95/16783;以及Boynton等人,Methods in Enzymology 217:510-536(1993);Svab等人,Proc.Natl.Acad.Sci.USA 90:913-917(1993);和McBride等人,Proc.Natl.Acad.Sci.USA91:7301-7305(1994))。适用于生物弹轰击、原生质体的聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。
可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈植物、林业植物和藤本植物。可修饰的植物的具体实例如下:玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆和大米。
本公开提供转化的植物细胞,含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征是存在整合到基因组中的主题核酸,和通过本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。
编码本公开的CRISPR-Cas效应子多肽或CRISPR-Cas效应子融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接至未知启动子)或可在已知启动子的控制之下(即,可操作地连接至已知启动子)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。
本公开的非限制性方面的实例
上文所述的本发明主题的方面(包括实施方案)可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下,下文提供本公开的某些非限制性方面,其编号为1-121。对本领域技术人员在阅读本公开后将显而易见的是,每个单独编号的方面都可与之前或之后单独编号的方面中的任一个一起使用或组合。这意图为所有此类方面的组合提供支持,并且不限于下文明确提供的方面的组合:
方面1.一种组合物,所述组合物包含:a)CRISPR-Cas效应子多肽,或编码所述CRISPR-Cas效应子多肽的核酸分子,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和b)CRISPR-Cas效应子指导RNA,或一种或多种编码所述CRISPR-Cas效应子指导RNA的DNA分子。
方面2.如方面1所述的组合物,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
方面3.如方面1或方面2所述的组合物,其中所述CRISPR-Cas效应子指导RNA包含与图7中所描绘的crRNA序列中的任一者具有80%、90%、95%、98%、99%或100%核苷酸序列同一性的核苷酸序列。
方面4.如方面1或方面2所述的组合物,其中所述CRISPR-Cas效应子多肽与核定位信号(NLS)融合。
方面5.如方面1-4中任一项所述的组合物,其中所述组合物包含脂质。
方面6.如方面1-4中任一项所述的组合物,其中a)和b)在脂质体内。
方面7.如方面1-4中任一项所述的组合物,其中a)和b)在颗粒内。
方面8.如方面1-7中任一项所述的组合物,所述组合物包含以下一项或多项:缓冲剂、核酸酶抑制剂和蛋白酶抑制剂。
方面9.如方面1-8中任一项所述的组合物,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有85%或更高同一性的氨基酸序列。
方面10.如方面1-9中任一项所述的组合物,其中所述CRISPR-Cas效应子多肽是仅能切割双链靶核酸分子的一条链的切口酶。
方面11.如方面1-9中任一项所述的组合物,其中所述CRISPR-Cas效应子多肽是无催化活性的CRISPR-Cas效应子多肽(dCRISPR-Cas效应子)。
方面12.如方面10或方面11所述的组合物,其中所述CRISPR-Cas效应子多肽在RuvC-I结构域、RuvC-II结构域和RuvC-III结构域中的一者或多者中包含一个或多个氨基酸取代。
方面13.如方面1-12中任一项所述的组合物,所述组合物还包含DNA供体模板。
方面14.一种CRISPR-Cas效应子融合多肽,所述CRISPR-Cas效应子融合多肽包含:与异源多肽融合的CRISPR-Cas效应子多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
方面15.如方面14所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高同一性的氨基酸序列。
方面16.如方面14所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有85%或更高同一性的氨基酸序列。
方面17.如方面14-16中任一项所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽是仅能切割双链靶核酸分子的一条链的切口酶。
方面18.如方面14-17中任一项所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽是无催化活性的CRISPR-Cas效应子多肽(dCRISPR-Cas效应子)。
方面19.如方面17或方面18所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽在RuvC-I结构域、RuvC-II结构域和RuvC-III结构域中的一者或多者中包含一个或多个氨基酸取代。
方面20.如方面14-19中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽与所述CRISPR-Cas效应子多肽的N末端和/或C末端融合。
方面21.如方面14-20中任一项所述的CRISPR-Cas效应子融合多肽,所述CRISPR-Cas效应子融合多肽包含核定位信号(NLS)。
方面22.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是提供与靶细胞或靶细胞类型上的细胞表面部分的结合的靶向多肽。
方面23.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
方面24.如方面23所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
方面25.如方面24所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
方面26.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
方面27.如方面26所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
方面28.如方面26或方面27所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
方面29.如方面28所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
方面30.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是内体逃逸多肽。
方面31.如方面30所述的CRISPR-Cas效应子融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:12)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:13),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
方面32.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是叶绿体转运肽。
方面33.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽包含蛋白转导结构域。
方面34.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是增加或降低转录的蛋白质。
方面35.如方面34所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是转录阻遏物结构域。
方面36.如方面34所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是转录激活结构域。
方面37.如方面14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是蛋白结合结构域。
方面38.一种核酸,所述核酸包含编码方面14-37中任一项所述的CRISPR-Cas效应子融合多肽的核苷酸序列。
方面39.如方面38所述的核酸,其中编码所述CRISPR-Cas效应子融合多肽的所述核苷酸序列可操作地连接至启动子。
方面40.如方面39所述的核酸,其中所述启动子在真核细胞中是功能性的。
方面41.如方面40所述的核酸,其中所述启动子在以下一项或多项中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
方面42.如方面39-41中任一项所述的核酸,其中所述启动子是以下一项或多项:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
方面43.如方面38-42中任一项所述的核酸,其中所述核酸是重组表达载体。
方面44.如方面43所述的核酸,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
方面45.如方面39所述的核酸,其中所述启动子在原核细胞中是功能性的。
方面46.如方面38所述的核酸,其中所述核酸分子是mRNA。
方面47.一种或多种核酸,所述一种或多种核酸包含:
(a)编码CRISPR-Cas效应子指导RNA的核苷酸序列;和
(b)编码CRISPR-Cas效应子多肽的核苷酸序列,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
方面48.如方面47所述的一种或多种核酸,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高同一性的氨基酸序列。
方面49.如方面47所述的一种或多种核酸,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸具有85%或更高同一性的氨基酸序列。
方面50.如方面47-49中任一项所述的一种或多种核酸,其中所述CRISPR-Cas效应子指导RNA包含与图7中所示的crRNA序列中的任一者具有80%或更高同一性的核苷酸序列。
方面51.如方面47-50中任一项所述的一种或多种核酸,其中所述CRISPR-Cas效应子多肽与核定位信号(NLS)融合。
方面52.如方面47-51中任一项所述的一种或多种核酸,其中编码所述CRISPR-Cas效应子指导RNA的所述核苷酸序列可操作地连接至启动子。
方面53.如方面47-52中任一项所述的一种或多种核酸,其中编码所述CRISPR-Cas效应子多肽的所述核苷酸序列可操作地连接至启动子。
方面54.如方面52或方面53所述的一种或多种核酸,其中可操作地连接至编码所述CRISPR-Cas效应子指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接至编码所述CRISPR-Cas效应子多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。
方面55.如方面54所述的一种或多种核酸,其中所述启动子在以下一项或多项中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
方面56.如方面53-55中任一项所述的一种或多种核酸,其中所述启动子是以下一项或多项:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
方面57.如方面47-56中任一项所述的一种或多种核酸,其中所述一种或多种核酸是一种或多种重组表达载体。
方面58.如方面57所述的一种或多种核酸,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
方面59.如方面53所述的一种或多种核酸,其中所述启动子在原核细胞中是功能性的。
方面60.一种真核细胞,所述真核细胞包含以下一项或多项:
a)CRISPR-Cas效应子多肽,或包含编码所述CRISPR-Cas效应子多肽的核苷酸序列的核酸,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;
b)CRISPR-Cas效应子融合多肽,或包含编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸,其中所述融合多肽中存在的CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
c)CRISPR-Cas效应子指导RNA,或包含编码所述CRISPR-Cas效应子指导RNA的核苷酸序列的核酸。
方面61.如方面60所述的真核细胞,所述真核细胞包含编码所述CRISPR-Cas效应子多肽的核酸,其中所述核酸整合到所述细胞的基因组DNA中。
方面62.如方面60或方面61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、蛛形纲动物细胞、真菌细胞、鸟类细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
方面63.一种细胞,所述细胞包含方面14-37中任一项所述的CRISPR-Cas效应子融合多肽,或包含编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸。
方面64.如方面63所述的细胞,其中所述细胞是原核细胞。
方面65.如方面63或方面64所述的细胞,所述细胞包含含有编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸,其中所述核酸分子整合到所述细胞的基因组DNA中。
方面66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CRISPR-Cas效应子多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
b)CRISPR-Cas效应子指导RNA,所述CRISPR-Cas效应子指导RNA包含与所述靶核酸的靶序列杂交的指导序列,其中所述接触导致通过所述CRISPR-Cas效应子多肽对所述靶核酸的修饰。
方面67.如方面66所述的方法,其中所述修饰是对所述靶核酸的切割。
方面68.如方面66或方面67所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
方面69.如方面66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。
方面70.如方面66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
方面71.如方面66-68中任一项所述的方法,其中所述接触在体内在细胞内部发生。
方面72.如方面70或方面71所述的方法,其中所述细胞是真核细胞。
方面73.如方面72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
方面74.如方面70或方面71所述的方法,其中所述细胞是原核细胞。
方面75.如方面66-74中任一项所述的方法,其中所述接触导致基因组编辑。
方面76.如方面66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CRISPR-Cas效应子多肽,或包含编码所述CRISPR-Cas效应子多肽的核苷酸序列的核酸;和(b)所述CRISPR-Cas效应子指导RNA,或包含编码所述CRISPR-Cas效应子指导RNA的核苷酸序列的核酸。
方面77.如方面76所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
方面78.如方面66-77中任一项所述的方法,其中所述CRISPR-Cas效应子指导RNA包含与图7中所示的crRNA序列中的任一者具有80%或更高同一性的核苷酸序列。
方面79.如方面66-78中任一项所述的方法,其中所述CRISPR-Cas效应子多肽与核定位信号融合。
方面80.一种调节从靶DNA的转录,修饰靶核酸,或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CRISPR-Cas效应子融合多肽,所述CRISPR-Cas效应子融合多肽包含与异源多肽融合的CRISPR-Cas效应子多肽,其中所述融合多肽中存在的所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
b)CRISPR-Cas效应子指导RNA,所述CRISPR-Cas效应子指导RNA包含与所述靶核酸的靶序列杂交的指导序列。
方面81.如方面80所述的方法,其中所述CRISPR-Cas效应子指导RNA包含与图7中所示的crRNA序列中的任一者具有80%或更高同一性的核苷酸序列。
方面82.如方面80或方面81所述的方法,其中所述CRISPR-Cas效应子融合多肽包含核定位信号。
方面83.如方面80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
方面84.如方面80-83中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
方面85.如方面80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。
方面86.如方面80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
方面87.如方面80-84中任一项所述的方法,其中所述接触在体内在细胞内部发生。
方面88.如方面86或方面87所述的方法,其中所述细胞是真核细胞。
方面89.如方面88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
方面90.如方面86或方面87所述的方法,其中所述细胞是原核细胞。
方面91.如方面80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CRISPR-Cas效应子融合多肽,或包含编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸;和(b)所述CRISPR-Cas效应子指导RNA,或包含编码所述CRISPR-Cas效应子指导RNA的核苷酸序列的核酸。
方面92.如方面80-91中任一项所述的方法,其中所述CRISPR-Cas效应子多肽是无催化活性的CRISPR-Cas效应子多肽(dCRISPR-Cas效应子多肽)。
方面93.如方面80-92中任一项所述的方法,其中所述CRISPR-Cas效应子多肽在RuvC-I结构域、RuvC-II结构域和RuvC-III结构域中的一者或多者中包含一个或多个氨基酸取代。
方面94.如方面80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
方面95.如方面94所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
方面96.如方面95所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
方面97.如方面80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
方面98.如方面97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
方面99.如方面97或方面98所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
方面100.如方面99所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
方面101.如方面80-93中任一项所述的方法,其中所述异源多肽是增加或降低转录的蛋白质。
方面102.如方面101所述的方法,其中所述异源多肽是转录阻遏物结构域。
方面103.如方面101所述的方法,其中所述异源多肽是转录激活结构域。
方面104.如方面80-93中任一项所述的方法,其中所述异源多肽是蛋白结合结构域。
方面105.一种转基因的多细胞非人生物体,所述转基因的多细胞非人生物体的基因组包含转基因,所述转基因包含编码以下一项或多项的核苷酸序列:
a)CRISPR-Cas效应子多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;
b)CRISPR-Cas效应子融合多肽,其中所述融合多肽中存在的CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
c)CRISPR-Cas效应子指导RNA。
方面106.如方面105所述的转基因的多细胞非人生物体,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所示的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
方面107.如方面105所述的转基因的多细胞非人生物体,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所示的氨基酸序列具有95%或更高氨基酸序列同一性的氨基酸序列。
方面108.如方面105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
方面109.一种系统,所述系统包含:
a)CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA;
b)CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA和DNA供体模板;
c)方面14-37中任一项所述的CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA;
d)方面14-37中任一项所述的CRISPR-Cas效应子融合多肽、CRISPR-Cas效应子指导RNA和DNA供体模板;
e)编码CRISPR-Cas效应子多肽的mRNA和CRISPR-Cas效应子指导RNA;
f)编码CRISPR-Cas效应子多肽的mRNA、CRISPR-Cas效应子指导RNA和DNA供体模板;
g)编码方面14-37中任一项所述的CRISPR-Cas效应子融合多肽的mRNA和CRISPR-Cas效应子指导RNA;
h)编码方面14-37中任一项所述的CRISPR-Cas效应子融合多肽的mRNA、CRISPR-Cas效应子指导RNA和DNA供体模板;
i)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码CRISPR-Cas效应子多肽的核苷酸序列,和ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列;
j)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码CRISPR-Cas效应子多肽的核苷酸序列、ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码方面14-37中任一项所述的CRISPR-Cas效应子融合多肽的核苷酸序列,和ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码方面14-37中任一项所述的CRISPR-Cas效应子融合多肽的核苷酸序列、ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列,和DNA供体模板。
方面110.如方面109所述的CRISPR-Cas效应子系统,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
方面111.如方面109所述的CRISPR-Cas效应子系统,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有95%或更高氨基酸序列同一性的氨基酸序列。
方面112.如方面109-111中任一项所述的CRISPR-Cas效应子系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
方面113.如方面109-111中任一项所述的CRISPR-Cas效应子系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
方面114.一种试剂盒,所述试剂盒包含方面109-113中任一项所述的CRISPR-Cas效应子系统。
方面115.如方面114所述的试剂盒,其中所述试剂盒的组分在同一容器中。
方面116.如方面114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
方面117.一种无菌容器,所述无菌容器包含方面109-116中任一项所述的CRISPR-Cas效应子系统。
方面118.如方面117所述的无菌容器,其中所述容器是注射器。
方面119.一种可植入装置,所述可植入装置包含方面109-116中任一项所述的CRISPR-Cas效应子系统。
方面120.如方面119所述的可植入装置,其中所述CRISPR-Cas效应子系统在基质内。
方面121.如方面119所述的可植入装置,其中所述CRISPR-Cas效应子系统在储库中。
实施例
提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述,并且并非意图限制本发明人看待其发明的范围,也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值(例如量、温度等)的精确性,但一些实验误差和偏差应加以说明。除非另外指示,否则份为重量份,分子量为重均分子量,温度以摄氏度计,并且压力在大气压下或接近大气压。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌内的(肌内地);i.p.,腹膜内的(腹膜内地);s.c.,皮下的(皮下地)等。
实施例1:
从多个不同的生态系统中生成了宏基因组数据集,并重建了数百个长度在200kbp至716kbp之间的巨大噬菌体基因组。手动整理至完成34个基因组,包括迄今为止报告的最大的噬菌体基因组。扩展的基因库包括多种新的CRISPR-Cas系统、tRNA、tRNA合成酶、tRNA修饰酶、起始和延伸因子以及核糖体蛋白。噬菌体CRISPR具有使宿主转录因子和翻译基因沉默的能力,可能作为更大的相互作用网络的一部分,拦截翻译以将生物合成重定向到噬菌体编码的功能。一些噬菌体重新利用细菌系统进行噬菌体防御来消除竞争性噬菌体。在系统发育上定义了来自人和其他动物微生物组、海洋、湖泊、沉积物、土壤和建筑环境的巨大噬菌体的七个主要进化枝。结论是,大量基因库存反映了一种保守的生物策略,这种策略可在广泛的细菌宿主范围内观察到,并导致巨大噬菌体在地球生态系统中的分布。
展示了数百个长度为>200kbp的噬菌体序列,这些序列是从各种生态系统所产生的微生物组数据集中重建的。重建了迄今为止已知最大的三个噬菌体完整基因组,长度可达642kbp。图形摘要提供了方法和主要发现的概述。这项研究扩展了对噬菌体生物多样性的理解,并揭示了生态系统的多样性,在这些生态系统中,噬菌体的基因组大小可与小细胞细菌相匹敌。
生态系统采样
宏基因组数据集来自人粪便和口腔样品、其他动物粪便样品、淡水湖泊和河流、海洋生态系统、沉积物、温泉、土壤、深层地下栖息地和建筑环境(图5)。对于这些的子组,先前已发表了对细菌、古细菌和真核生物的分析。显然不是细菌、古细菌、古细菌病毒、真核或真核病毒的基因组序列根据其基因目录归为噬菌体或类质粒。对长度接近或>200kbp的从头组装片段进行环化测试,并选择一个子组进行手动验证和整理直至完成(参见方法)。
基因组大小和基本特征
重建了358个噬菌体、3个质粒和4个噬菌体-质粒序列(图5)。排除推断为质粒的其他序列(参见方法),仅保留那些编码CRISPR-Cas基因座的序列(参见下文)。与噬菌体的分类一致,鉴定了多种噬菌体相关基因,包括参与裂解和编码结构蛋白的基因,并记录了其他预期的噬菌体基因组特征。一些噬菌体预测的蛋白质很大,长度可达7694个氨基酸。其中许多被暂时注释为结构蛋白。将180个噬菌体序列环化,其中34个手动整理至完成,在一些情况下,方式是解析复杂的重复区域及其编码的蛋白质(参见方法)。一些基因组在双向复制中显示出清晰的GC歪斜信号,这一信息限制了它们的复制起始点。三个最大的完整的、手动整理的且环化的噬菌体基因组的长度分别为634、636和643kbp,代表了迄今为止报告的最大的噬菌体基因组。以前,最大的环化噬菌体基因组的长度为596kbp(Paez-Espino等人(2016)同上)。同一项研究报告了一个长度为630kbp的环状基因组,但这是一个人工制品。在IMG-VR中,拼接序列的问题非常突出,因此这些数据没有被纳入进一步的分析。来自该研究、Refseq和已发表研究的完整和环化基因组被用来描述噬菌体基因组大小分布的当前视图(方法)。完整噬菌体的中位基因组大小为约52kbp(图1A),与之前报告的约54kpp的平均大小相似(Paez-Espino等人(2016)同上)。因此,此处报告的序列大大扩展了具有异常大基因组的噬菌体的库存(图1B)。
有趣的是,鉴定出两个长度为712kbp和>716kbp的相关序列并进行了手动整理(图5)。基于其整体基因组含量和末端酶基因的存在,将它们归类为噬菌体。在基因组两端由小重复序列组成的几个kb长的复杂区域混淆了组装。如果重复区域能够合理化,这些基因组有望被关闭。
一些基因组的编码密度非常低(9个<75%),因为使用的遗传密码不同于用于基因预测的遗传密码。针对Lak噬菌体也报告了类似的现象(Devoto等人(2019)Nat Microbiol以及Ivanova等人(2014)Science 344:909-913)。与之前的研究不同的是,这些基因组似乎使用了遗传密码16,其中TAG通常是一个终止密码子,编码一个氨基酸。
仅在一种情况下,鉴定出一个>200kbp的序列,基于向侧翼细菌基因组序列转变将其归类为原噬菌体。然而,大约有一半的基因组没有被环化,因此不能排除它们来自原噬菌体。某些基因组中存在整合酶,提示在某些条件下存在溶源性生活方式。
宿主、多样性和分布
一个有趣的问题与具有巨大基因组的噬菌体的进化史有关。它们是最近在正常大小的噬菌体进化枝内基因组扩张的结果,还是大量的基因库存是一种既定的、持久的策略?为了研究这一点,构建了在所有大小的噬菌体公共数据库中用作背景序列的大末端酶亚单位(图2)和主要衣壳蛋白的系统发育树(方法)。来自大噬菌体基因组的许多序列聚类在一起,定义了进化枝。对数据库序列的基因组大小信息的分析表明,属于这些进化枝的公共序列来自基因组长度至少为120kbp的噬菌体。最大的进化枝,这里称为Mahaphage(Maha在梵语中是巨大的意思),包括本研究中所有最大的基因组以及来自人和动物微生物组的Lak基因组(Devoto等人(2019)同上)。另外六个明确定义的大噬菌体簇也被鉴定出来,它们在不同的语言中被命名为“巨大的”。这些进化枝的存在确立了大基因组大小是一种相对稳定的性状。在这七个进化枝中,噬菌体从各种环境类型中取样,表明这些大型噬菌体及其宿主在整个生态系统中的多样化。还检查了足够密切相关的使得基因组在很大程度上可以对齐的噬菌体的环境分布。在17个例子中,这些噬菌体出现在至少两种生物群落类型中。
为了确定细菌宿主系统发育与噬菌体进化枝的关联程度,使用来自相同或相关样品中细菌的CRISPR间隔序列靶向以及噬菌体上发生的正常宿主相关基因的系统发育来鉴定噬菌体宿主(参见下文)。还测试了噬菌体基因库存的细菌隶属关系的预测价值(方法),发现在每种情况下,CRISPR间隔序列靶向和门级系统发育图谱与基因库存特征一致。因此,所述方法被用来预测许多噬菌体的宿主的门级隶属关系。结果确定了厚壁菌门和变形杆菌门宿主的重要性,并表明与其他环境相比,厚壁菌门噬菌体在人和动物肠道中的患病率更高(图5)。值得注意的是,预测所有噬菌体的四个最大的基因组(长度为634-716kbp)在拟杆菌门中复制,具有540-552kbp基因组的Lak噬菌体也是如此(Devoto等人(2019)同上),所有簇均在Mahaphage内。总体而言,预测在系统发育上分组在一起的噬菌体会在同一门的细菌中复制。
代谢、转录、翻译
噬菌体基因组编码预测定位于细菌膜或细胞表面的蛋白质。这些可能影响宿主对其他噬菌体感染的易感性。人们认为几乎所有先前报告的基因类别都在感染期间增强宿主代谢。许多噬菌体的基因参与嘌呤和嘧啶的从头生物合成步骤以及使核酸和核糖核酸以及核苷酸磷酸化状态相互转变的多个步骤。有趣的是,这些基因与那些有着非常小的细胞和假定的共生生活方式的细菌的基因非常相似(Castelle和Banfield(2018)Cell 172:1181-1197)。
值得注意的是,许多噬菌体具有预测功能在转录和翻译中的基因。噬菌体每个基因组编码多达64个tRNA,其序列与其宿主的序列不同。通常,每个基因组的tRNA数量随着基因组长度的增加而增多(图1)。噬菌体每个基因组通常有多达16个tRNA合成酶,这些酶与噬菌体宿主的酶相关,但又截然不同。噬菌体可能使用这些蛋白质为它们自己的tRNA变体提供宿主来源的氨基酸。基因组的一个子组具有用于tRNA修饰和修复作为宿主防御噬菌体感染的一部分而切割的tRNA的基因。还确定了每个基因组多达三个可能的核糖体蛋白,其中最常见的是rpS21(一种最近才在噬菌体中报告的现象)(Mizuno等人(2019)Nat.Commun.10:752);图3)。有趣的是,注意到噬菌体rpS21序列具有富含精氨酸、赖氨酸和苯丙氨酸的N末端延伸:结合核酸的残基。据预测,这些噬菌体核糖体蛋白会取代核糖体中的宿主蛋白(Mizuno等人(2019)同上),并且这些延伸从核糖体表面靠近翻译起始位点的位置突出来定位噬菌体mRNA。
一些噬菌体的基因预测会在其他蛋白质合成步骤中发挥作用,包括确保高效翻译。一些编码起始因子1或3或两者,有时也编码延伸因子G、Tu、Ts和释放因子。还确定了编码核糖体再循环因子的基因,以及拯救在受损转录物上停滞的核糖体并触发异常蛋白质的降解的tmRNA和小蛋白B(SmpB)。tmRNA也被噬菌体用来感知宿主细胞的生理状态,当宿主体内停滞的核糖体数量很高时,tmRNA可以诱导细胞裂解。
这些观察表明,一些大型噬菌体可以通过许多方式实质性地拦截和重定向核糖体功能。由于噬菌体mRNA序列需要与宿主16S rRNA的3’末端结合以启动翻译,因此预测了它们的mRNA核糖体结合位点。在大多数情况下,噬菌体mRNA具有规范的Shine Dalgarno(SD)序列,另有约15%具有非标准的SD结合位点。然而,有趣的是,其基因组编码可行或可能的rpS1的噬菌体很少具有可识别或规范的SD序列。因此,噬菌体编码的rpS1可以选择性地启动噬菌体mRNA的翻译。总体而言,噬菌体基因似乎通过拦截最早的翻译步骤,将宿主的蛋白质生产能力重定向为有利于噬菌体基因。这些推论与一些真核病毒的发现相一致,真核病毒控制着蛋白质合成的每个阶段(Jaafar和Kieft(2019)Nat.Rev.Microbiol.17:110-123)。有趣的是,一些假定的大型质粒也有类似的翻译相关基因组。
大约一半的噬菌体基因组有1至50个长度大于25nt的序列,可以折叠成完美的发夹。回文(具有二重对称性的序列)几乎完全是基因间的,并且每个回文在基因组中都是独一无二的。一些回文,但不是全部,被预测为rho独立的终止子,因此提供了基因作为独立调控单元的功能的线索(方法)。然而,一些回文长度高达74bp,并且34个基因组的实例长度≥40nt,似乎比正常的终止子更大。这些几乎只发生在Mahaphage中,可能有替代或额外的功能,诸如调节mRNA通过核糖体的运动。
CRISPR-Cas介导的相互作用
鉴定出噬菌体上几乎所有主要类型的CRISPR-Cas系统,包括Cas9、最近描述的V-I型(Yan等人(2019)Science 363:88-91),以及V-F型系统的新亚型(Harrington等人(2018)Science 362:839–842.)。II类系统(II型和V型)是首次在噬菌体中报告。大多数效应核酸酶(用于干扰)具有保守的催化残基,这意味着它们可能是功能性的。
与之前描述的具有CRISPR系统的噬菌体例子(Seed等人(2013)Nature 494:489-491)不同,几乎所有的噬菌体CRISPR系统都缺乏间隔序列获取机制(Cas1、Cas2和Cas4),而且许多系统缺乏可识别的干扰用基因。例如,两个相关噬菌体都有I-C型变异系统,该系统缺少Cas1和Cas2,并用解旋酶蛋白代替Cas3。他们还拥有第二个系统,该系统中含有一个新的候选的约750aa V型效应子蛋白,所述效应子蛋白出现在CRISPR阵列近侧。在一些情况下,缺乏干扰和间隔序列整合用基因的噬菌体与其宿主具有相似的CRISPR重复序列,因此可能利用宿主合成的Cas蛋白实现这些功能。或者,缺乏效应核酸酶的系统可以在不发生切割的情况下抑制靶序列的转录(Luo等人(2015)Nucleic Acids Res.43:674-681;Stachler和Marchfelder(2016)J.Biol.Chem.291:15226-15242)。
噬菌体编码的CRISPR阵列通常是紧凑的(3-55个重复序列;每一阵列中位数为6)。这一范围大大小于通常在细菌基因组中发现的范围(Toms和Barrangou(2017)Biol.Direct12:20)。一些噬菌体间隔序列靶向其他噬菌体的核心结构和调控基因。因此,噬菌体显然增加了宿主的免疫武器库,以防止竞争性噬菌体的感染。
鉴定出了若干编码各种类型的CRISPR-Cas系统的大型质粒或类质粒基因组。其中一些系统也缺乏Cas1和Cas2。最常见的是,间隔序列靶向其他质粒的动员和接合相关基因,以及噬菌体的核酸酶和结构蛋白。
一些噬菌体编码的CRISPR基因座具有间隔序列,所述间隔序列靶向同一样品或来自同一研究的样品中的细菌。假设靶向细菌是这些噬菌体的宿主,这一推论得到了其他宿主预测分析的支持。一些具有靶向细菌染色体的间隔序列的基因座编码可以切割宿主染色体的Cas蛋白,而另一些则不会。可以使宿主基因的靶向失效或改变其调控,这在噬菌体感染周期中可能是有利的。一些噬菌体CRISPR间隔序列靶向细菌基因间区域,可能通过阻断启动子或沉默非编码RNA来干扰基因组调控。
CRISPR靶向细菌染色体的最有趣的实例之一是参与转录和翻译的基因。例如,一个噬菌体靶向宿主基因组中的σ70转录因子,同时编码σ70的基因。此前有报道称噬菌体携带抗σ因子劫持σ70,这也可能发生在一些基因组编码抗σ因子的巨大噬菌体上。在另一个实例中,噬菌体间隔序列靶向宿主甘氨酰tRNA合成酶。
有趣的是,没有证据表明宿主编码的间隔序列靶向任何携带CRISPR的噬菌体,这意味着还没有发现噬菌体-宿主-CRISPR相互作用的成分。然而,噬菌体CRISPR靶向其他也被细菌CRISPR靶向的噬菌体(图4)表明,噬菌体-宿主关联被噬菌体系统发育图谱广泛证实。
一些大型假单胞菌噬菌体编码抗CRISPR(Acr)(Bondy-Denomy等人(2015)Nature526:136-139;Pawluk等人(2016)Nat Microbiol 1:16085)和组装核样隔室的蛋白质,将它们的复制基因组与宿主防御和其他细菌系统分开。鉴定出了在与AcrVA5、AcrVA2和AcrIIA7聚类的巨大噬菌体基因组中编码的蛋白质,这些蛋白质可起到Acr的作用。还鉴定了定位于“噬菌体核”的微管蛋白同源物(PhuZ),以及与蛋白质屏障成分相关的蛋白质。因此,噬菌体“核”可能是大型噬菌体中相对常见的特征。
方法
噬菌体和质粒基因组鉴定
在当前研究中生成的数据集、来自先前研究的数据集、Tara Oceans微生物组(Karsenti等人(2011)PLoS Biol.9:e1001177)和Global Oceans Virome(GOV;(Roux等人(2016)Nature 537:689-693))中搜索可能来源于基因组长度为>200kbp的噬菌体的序列组件。读段组装、基因预测和初始基因注释遵循先前报告的标准方法(Wrighton等人(2014)ISME J.8:1452-1463)。
噬菌体候选物最初是通过检索未分配给基因组且在域级别没有明确分类学特征的序列来发现的。分类学特征是通过投票方案确定的,其中必须有一个赢家分类有>50%的投票,每个分类排名是基于Uniprot和ggKbase(ggkbase.berkeley.edu)数据库注释。通过鉴定具有大量假定蛋白注释和/或存在噬菌体结构基因(例如capsid、tail、holin)的序列,进一步缩小噬菌体的范围。全程检查所有候选噬菌体序列以将推定原噬菌体与噬菌体区分开来。噬菌体的鉴定是基于向基因组的清晰转变,具有高度可信的功能预测,通常与核心代谢功能相关,并且与细菌基因组的相似性更高。基于与质粒标记基因(例如parA)的匹配,将质粒与噬菌体区分开来。由于噬菌体与质粒之间的三个序列组件不能明确区分,故将其命名为“噬菌体-质粒”。
噬菌体和质粒基因组手动整理
所有被分类为噬菌体或类噬菌体的支架都使用自定义脚本进行末端重叠测试,并手动检查重叠。能完美环化的组装序列被认为是潜在的“完整”序列。最初通过使用Vmatch(Kurtz(2003)Ref Type:Computer Program 412:297)搜索>5kb的正向重复序列来标记错误的拼接序列组件。使用Geneious v9中的dotplot和RepeatFinder功能手动检查潜在的拼接序列组件是否有多个大的重复序列。如果校正长度<200kbp,则校正序列并将其从进一步分析中去除。
选择噬菌体序列的一个子组进行手动整理,目的是精整(用正确的核苷酸序列和环化替换支架空位或局部错误组装处的所有N)。整理一般遵循先前描述的方法(Devoto等人(2019)同上)。简而言之,使用Bowtie2(Langmead和Salzberg(2012)Nat.Methods 9:357-359)将来自适当数据集的读段映射到从头组装的序列。未放置的配对映射读段保留在shrinksam(github.com/bcthomas/shrinksam)中。全程使用Geneious v9手动检查映射以识别局部错误组装。N填充空位或错误组装校正利用未放置的配对读段,在一些情况下使用从错误映射的位点重新定位的读段。在此类情况下,基于远大于预期的配对读段距离、高多态性密度、一个读段对的反向映射或上述任何组合来识别错误映射。
类似地,使用未放置或错误放置的配对读数来延长末端,直到可以建立环化。在一些情况下,使用延长末端来募集新的支架,然后将其添加到组件中。所有延伸和局部组装更改的准确性在读段映射的后续阶段得到验证。在许多情况下,由于重复序列的存在,组件被终止或在内部被损坏。在这些情况下,识别出重复序列块以及独特的侧翼序列。然后手动重新定位读段,尊重配对读段放置规则和独特的侧翼序列。在空位闭合、环化和自始至终的准确性验证之后,消除末端重叠,自始至终预测基因,并且起点移至基因间区域,在一些情况下,基于覆盖趋势和GC歪斜的组合怀疑该区域是起始点(Brown等人(2016)Nat.Biotechnol.34:1256-1263)。最后,检查序列以识别任何可能导致错误路径选择的重复序列,因为重复区域大于配对读段所跨越的距离。该步骤还排除了由较小噬菌体的端到端重复序列产生的人工长噬菌体序列,这些序列出现在先前描述的数据集中。
结构和功能注释
在鉴定和整理噬菌体基因组后,利用prodigal(-m-c-g 11-p single)以遗传密码11预测编码序列(CDS)。如前所述,通过搜索UniProt、UniRef和KEGG对所测CDS进行注释(Wrighton等人(2014)同上)。通过在Pfam r32(Finn等人(2014)Nucleic Acids Res.42:D222-30)、TIGRFAMS r15(Haft等人(2013)Nucleic Acids Res.41:D387-95)和VirusOrthologous Groups r90(vogdb.org)中搜索蛋白质,进一步进行功能注释。使用细菌模型利用tRNAscan-SE 2.0(Lowe和Eddy,(1997)Nucleic Acids Res.25:955–964)鉴定tRNA。使用ARAGORN v1.2.38(Laslett和Canback,(2004)Nucleic Acids Res.32:11–16)给tmRNA分配细菌/植物遗传密码。使用两步程序将蛋白质序列聚类成家族。使用快速灵敏的蛋白质序列搜索软件MMseqs(Hauser等人(2016)Bioinformatics 32:1323–1330)完成第一蛋白质聚类。使用e值:0.001、灵敏度:7.5和覆盖率:0.5进行全比对全(all-vs-all)序列搜索。基于成对相似性构建序列相似性网络,并执行MMseqs的集合覆盖贪心算法来定义蛋白质亚簇。由此产生的亚簇被定义为亚家族。为了测试远距离同源性,使用HMM-HMM比较将亚家族分组为蛋白质家族。使用mmseqs2的result2msa参数比对具有至少两个蛋白质成员的每个亚家族的蛋白质,并使用HHpred套件从多个序列比对中构建HMM配置文件。然后使用HHpred套件(参数为-v 0-p 50-z 4-Z 32000-B 0-b 0)中的HHblits(Remmert等人(2011)Nat.Methods9:173–175)对这些亚家族进行相互比较。对于概率评分≥95%且覆盖率≥0.50的亚家族,采用相似性评分(概率X覆盖率)作为在使用Markov聚类算法(膨胀参数为2.0)进行最终聚类时输入网络的权重。这些簇被定义为蛋白质家族。使用Geneious Repeat Finder识别发夹(回文,基于在正向和反向上相同的重叠重复序列)并使用Vmatch(Kurtz(2003)同上)在数据集范围内进行定位。将具有100%相似性的>25bp的重复序列制成表格。
用于大小比较的参考基因组
利用NCBI病毒门户,并从细菌宿主中仅选择完整的dsDNA基因组,恢复RefSeq v92基因组。从IMG/VR下载基因组(Paez-Espino等人(2016)同上),只保留预测细菌宿主的标记为“环状”的序列组件。许多基因组是错误拼接重复组装的结果。鉴于IMG/VR中存在基于错误拼接的序列,本研究仅考虑该来源中>200kb的序列;其中的一个子组作为人工序列被删除。
宿主预测
通过考虑每个噬菌体基因组的每个CDS的Uniprot分类学特征,预测噬菌体的细菌宿主的门隶属关系。对每个噬菌体基因组的门级匹配进行总计,命中次数最多的门被认为是潜在宿主门。然而,只有当这个门的计数是下一个计数最多的门的3倍时,才会被指定为暂定的噬菌体宿主门。使用CRISPR靶向进一步分配和验证噬菌体宿主。在重建每个噬菌体基因组的相同环境下,在>1kbp的序列组件上预测CRISPR序列。提取间隔序列并使用BLASTN-short(Altschul等人(1990)J.Mol.Biol.215:403-410)针对同一位点的基因组进行搜索。含有匹配长度为>24bp且具有≤1个错配或与基因组具有至少90%序列同一性的间隔序列的序列组件被视为目标。在噬菌体的情况下,匹配用于推断噬菌体-宿主关系。在所有情况下,基于分类学分析和CRISPR靶向的宿主门预测结果完全一致。类似地,宿主的门是基于也在宿主基因组中出现的噬菌体基因(例如,参与翻译和核苷酸反应)的系统发育分析来预测的。基于计算的分类学特征和系统发育树的推论也完全一致。
替代遗传密码
在使用标准细菌密码(密码11)进行基因预测导致看似异常低的编码密度的情况下,研究了潜在的替代遗传密码。除了使用Fast and Accurate genetic Code Inferenceand Logo(FACIL;(Dutilh等人(2011)Bioinformatics 27:1929-1933))进行预测外,鉴定了功能明确的基因(例如聚合酶、核酸酶),并鉴定了比预期短的终止基因的终止密码子。然后使用Glimmer和Prodigal集合重新预测基因,这样密码子就不会被解释为终止密码子。对其他重新目的化终止密码子组合进行了评估,由于不太可能进行基因融合预测,排除了候选密码(例如,密码6,只有一个终止密码子)。
通过使用真核环境重新预测tRNA,在一些比预期长的伪tRNA中鉴定出内含子(因为在细菌和噬菌体中tRNA扫描没有发现内含子)。
末端酶系统发育分析
大末端酶系统发育树是通过从上述注释管线中恢复大末端酶来构建的。保留与PFAM、TIGRFAMS和VOG匹配>30比特得分(bits core)的CDS。无论比特得分如何,对任何命中大末端酶的CDS都使用HHblits(Steinegger等人Bioinformatics 21:951-960)针对uniclust30_2018_08数据库进行搜索。然后针对PDB70数据库进一步搜索所得比对。在手动验证后,还将聚类在具有大末端酶HMM的蛋白质家族中的其余CDS包括在内。使用HHPred(Steinegger等人同上)和jP red(Cole等人(2008)Nucleic Acids Res.36:W197-201)对检测到的大末端酶进行手动验证。在本研究中将来自于>200kb(Paez-Espino等人(2016)同上)噬菌体基因组和来自RefSeq r92的所有>200kb的完整dsDNA噬菌体基因组的大末端酶也包含在噬菌体CDS的蛋白质家族聚类中。使用cd-hit将所得末端酶以95%氨基酸同一性(AAI)聚类以减少冗余(Huang等人(2010)Bioinformatics 26:680-682)。通过在Refseq蛋白质数据库中搜索所得CDS集合并保留前10个最佳命中,将较小的噬菌体基因组包括在内。那些与PFAM、TIGRFAMS或VO G没有大的末端酶匹配的命中被排除在进一步考虑之外,其余的集合被聚类为90%AAI。使用MAFFT v7.407(--localpair--maxiterate 1000)对最后一个大末端酶CDS集合进行比对并删除比对分数差的序列,并对所得集合进行重新比对。使用IQTREE v1.6.9(Nguyen等人(2015)Mol.Biol.Evol.32:268-274)推断系统发育树。
噬菌体编码的tRNA合成酶树
使用一组来自NCBI的最接近的参考集合和来自当前研究的细菌基因组,为噬菌体编码的tRNA合成酶、核糖体和起始因子蛋白序列构建系统发育树。
CRISPR-Cas基因座检测和宿主鉴定
使用与鉴定细菌CRISPR-Cas基因座相同的方法鉴定噬菌体编码的CRISPR-Cas基因座,将使用MinCED(github.com/ctSkennerton/minced)和CRISPRDetect(Biswas等人2016)从CRISPR基因座的重复序列之间提取的间隔序列与从同一位点重建的序列进行比较并将靶标分类为细菌、噬菌体或其他。
由于许多噬菌体宿主无法通过CRISPR靶向来鉴定(可能是因为噬菌体在含有敏感宿主的样品中增殖,或者靶标发生的突变足以避免间隔序列检测),因此使用额外的证据来确定宿主身份。由于这些方法的不确定性,可能的噬菌体预测仅在门级别上进行。在这一分析中,计算了在任何基因组上编码的具有与每个门的最佳预测蛋白质匹配的基因的分数。只有当最具代表性的门的频率超过第二常见门的频率≥3倍时,才被提议为暂定的细菌宿主。基于从CRISPR靶向或系统发育分析确认的宿主门信息,该阈值被证实为保守的。
数据可用性
补充文件“Genbank”包括本研究报告的基因组序列的Genbank格式文件。所有读段都保藏在NCBI中的短读段存档(如果尚未存放在那里)和基因组序列中。
虽然本发明已经参考其特定实施方案进行描述,但是本领域技术人员应理解,可在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外,为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围,可进行许多修改。所有此类修改意图处于所附权利要求的范围内。
序列表
<110> 加利福尼亚大学董事会(The Regents of the University of California)
Al-Shayeb, Basem
Banfield, Jillian
Doudna, Jennifer
<120> CRISPR-Cas效应子多肽及其使用方法
<130> BERK-404WO
<150> US 62/815,179
<151> 2019-03-07
<160> 188
<170> PatentIn version 3.5
<210> 1
<211> 84
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 1
Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala
1 5 10 15
Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser
20 25 30
Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile
35 40 45
Thr Ser Asn Gly Gly Arg Val Lys Cys Met Gln Val Trp Pro Pro Ile
50 55 60
Gly Lys Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Pro Leu Thr Arg
65 70 75 80
Asp Ser Arg Ala
<210> 2
<211> 57
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 2
Met Ala Ser Met Ile Ser Ser Ser Ala Val Thr Thr Val Ser Arg Ala
1 5 10 15
Ser Arg Gly Gln Ser Ala Ala Met Ala Pro Phe Gly Gly Leu Lys Ser
20 25 30
Met Thr Gly Phe Pro Val Arg Lys Val Asn Thr Asp Ile Thr Ser Ile
35 40 45
Thr Ser Asn Gly Gly Arg Val Lys Ser
50 55
<210> 3
<211> 85
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 3
Met Ala Ser Ser Met Leu Ser Ser Ala Thr Met Val Ala Ser Pro Ala
1 5 10 15
Gln Ala Thr Met Val Ala Pro Phe Asn Gly Leu Lys Ser Ser Ala Ala
20 25 30
Phe Pro Ala Thr Arg Lys Ala Asn Asn Asp Ile Thr Ser Ile Thr Ser
35 40 45
Asn Gly Gly Arg Val Asn Cys Met Gln Val Trp Pro Pro Ile Glu Lys
50 55 60
Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Asp Leu Thr Asp Ser Gly
65 70 75 80
Gly Arg Val Asn Cys
85
<210> 4
<211> 76
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 4
Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Gln Asn Pro Ser Leu
1 5 10 15
Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val
20 25 30
Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser
35 40 45
Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg
50 55 60
Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys
65 70 75
<210> 5
<211> 76
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 5
Met Ala Gln Val Ser Arg Ile Cys Asn Gly Val Trp Asn Pro Ser Leu
1 5 10 15
Ile Ser Asn Leu Ser Lys Ser Ser Gln Arg Lys Ser Pro Leu Ser Val
20 25 30
Ser Leu Lys Thr Gln Gln His Pro Arg Ala Tyr Pro Ile Ser Ser Ser
35 40 45
Trp Gly Leu Lys Lys Ser Gly Met Thr Leu Ile Gly Ser Glu Leu Arg
50 55 60
Pro Leu Lys Val Met Ser Ser Val Ser Thr Ala Cys
65 70 75
<210> 6
<211> 72
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 6
Met Ala Gln Ile Asn Asn Met Ala Gln Gly Ile Gln Thr Leu Asn Pro
1 5 10 15
Asn Ser Asn Phe His Lys Pro Gln Val Pro Lys Ser Ser Ser Phe Leu
20 25 30
Val Phe Gly Ser Lys Lys Leu Lys Asn Ser Ala Asn Ser Met Leu Val
35 40 45
Leu Lys Lys Asp Ser Ile Phe Met Gln Leu Phe Cys Ser Phe Arg Ile
50 55 60
Ser Ala Ser Val Ala Thr Ala Cys
65 70
<210> 7
<211> 69
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 7
Met Ala Ala Leu Val Thr Ser Gln Leu Ala Thr Ser Gly Thr Val Leu
1 5 10 15
Ser Val Thr Asp Arg Phe Arg Arg Pro Gly Phe Gln Gly Leu Arg Pro
20 25 30
Arg Asn Pro Ala Asp Ala Ala Leu Gly Met Arg Thr Val Gly Ala Ser
35 40 45
Ala Ala Pro Lys Gln Ser Arg Lys Pro His Arg Phe Asp Arg Arg Cys
50 55 60
Leu Ser Met Val Val
65
<210> 8
<211> 77
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 8
Met Ala Ala Leu Thr Thr Ser Gln Leu Ala Thr Ser Ala Thr Gly Phe
1 5 10 15
Gly Ile Ala Asp Arg Ser Ala Pro Ser Ser Leu Leu Arg His Gly Phe
20 25 30
Gln Gly Leu Lys Pro Arg Ser Pro Ala Gly Gly Asp Ala Thr Ser Leu
35 40 45
Ser Val Thr Thr Ser Ala Arg Ala Thr Pro Lys Gln Gln Arg Ser Val
50 55 60
Gln Arg Gly Ser Arg Arg Phe Pro Ser Val Val Val Cys
65 70 75
<210> 9
<211> 57
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 9
Met Ala Ser Ser Val Leu Ser Ser Ala Ala Val Ala Thr Arg Ser Asn
1 5 10 15
Val Ala Gln Ala Asn Met Val Ala Pro Phe Thr Gly Leu Lys Ser Ala
20 25 30
Ala Ser Phe Pro Val Ser Arg Lys Gln Asn Leu Asp Ile Thr Ser Ile
35 40 45
Ala Ser Asn Gly Gly Arg Val Gln Cys
50 55
<210> 10
<211> 65
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 10
Met Glu Ser Leu Ala Ala Thr Ser Val Phe Ala Pro Ser Arg Val Ala
1 5 10 15
Val Pro Ala Ala Arg Ala Leu Val Arg Ala Gly Thr Val Val Pro Thr
20 25 30
Arg Arg Thr Ser Ser Thr Ser Gly Thr Ser Gly Val Lys Cys Ser Ala
35 40 45
Ala Val Thr Pro Gln Ala Ser Pro Val Ile Ser Arg Ser Ala Ala Ala
50 55 60
Ala
65
<210> 11
<211> 72
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 11
Met Gly Ala Ala Ala Thr Ser Met Gln Ser Leu Lys Phe Ser Asn Arg
1 5 10 15
Leu Val Pro Pro Ser Arg Arg Leu Ser Pro Val Pro Asn Asn Val Thr
20 25 30
Cys Asn Asn Leu Pro Lys Ser Ala Ala Pro Val Arg Thr Val Lys Cys
35 40 45
Cys Ala Ser Ser Trp Asn Ser Thr Ile Asn Gly Ala Ala Ala Thr Thr
50 55 60
Asn Gly Ala Ser Ala Ala Ser Ser
65 70
<210> 12
<211> 20
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<220>
<221> misc_feature
<222> (4)..(4)
<223> 位置4处的氨基酸选自赖氨酸、组氨酸和精氨酸。
<220>
<221> misc_feature
<222> (8)..(8)
<223> 位置8处的氨基酸选自赖氨酸、组氨酸和精氨酸。
<220>
<221> misc_feature
<222> (11)..(11)
<223> 位置11处的氨基酸选自赖氨酸、组氨酸和精氨酸。
<220>
<221> misc_feature
<222> (15)..(15)
<223> 位置15处的氨基酸选自赖氨酸、组氨酸和精氨酸。
<220>
<221> misc_feature
<222> (19)..(19)
<223> 位置19处的氨基酸选自赖氨酸、组氨酸和精氨酸。
<400> 12
Gly Leu Phe Xaa Ala Leu Leu Xaa Leu Leu Xaa Ser Leu Trp Xaa Leu
1 5 10 15
Leu Leu Xaa Ala
20
<210> 13
<211> 20
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 13
Gly Leu Phe His Ala Leu Leu His Leu Leu His Ser Leu Trp His Leu
1 5 10 15
Leu Leu His Ala
20
<210> 14
<211> 7
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 14
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 15
<211> 16
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 15
Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys
1 5 10 15
<210> 16
<211> 9
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 16
Pro Ala Ala Lys Arg Val Lys Leu Asp
1 5
<210> 17
<211> 11
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 17
Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro
1 5 10
<210> 18
<211> 38
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 18
Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly
1 5 10 15
Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro
20 25 30
Arg Asn Gln Gly Gly Tyr
35
<210> 19
<211> 42
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 19
Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu
1 5 10 15
Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys
20 25 30
Asp Glu Gln Ile Leu Lys Arg Arg Asn Val
35 40
<210> 20
<211> 8
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 20
Val Ser Arg Lys Arg Pro Arg Pro
1 5
<210> 21
<211> 8
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 21
Pro Pro Lys Lys Ala Arg Glu Asp
1 5
<210> 22
<211> 8
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 22
Pro Gln Pro Lys Lys Lys Pro Leu
1 5
<210> 23
<211> 12
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 23
Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro
1 5 10
<210> 24
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 24
Asp Arg Leu Arg Arg
1 5
<210> 25
<211> 7
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 25
Pro Lys Gln Lys Lys Arg Lys
1 5
<210> 26
<211> 10
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 26
Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu
1 5 10
<210> 27
<211> 10
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 27
Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg
1 5 10
<210> 28
<211> 20
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 28
Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys
1 5 10 15
Lys Ser Lys Lys
20
<210> 29
<211> 17
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 29
Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys
1 5 10 15
Lys
<210> 30
<211> 12
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 30
Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg
1 5 10
<210> 31
<211> 27
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 31
Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu
1 5 10 15
Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu
20 25
<210> 32
<211> 33
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 32
Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala
1 5 10 15
Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu
20 25 30
Ala
<210> 33
<211> 16
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 33
Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys
1 5 10 15
<210> 34
<211> 11
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 34
Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 35
<211> 9
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 35
Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5
<210> 36
<211> 8
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 36
Arg Lys Lys Arg Arg Gln Arg Arg
1 5
<210> 37
<211> 11
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 37
Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala
1 5 10
<210> 38
<211> 11
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 38
Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg
1 5 10
<210> 39
<211> 11
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 39
Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg
1 5 10
<210> 40
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 40
Gly Ser Gly Gly Ser
1 5
<210> 41
<211> 6
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 41
Gly Gly Ser Gly Gly Ser
1 5
<210> 42
<211> 4
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 42
Gly Gly Gly Ser
1
<210> 43
<211> 4
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 43
Gly Gly Ser Gly
1
<210> 44
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 44
Gly Gly Ser Gly Gly
1 5
<210> 45
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 45
Gly Ser Gly Ser Gly
1 5
<210> 46
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 46
Gly Ser Gly Gly Gly
1 5
<210> 47
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 47
Gly Gly Gly Ser Gly
1 5
<210> 48
<211> 5
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 48
Gly Ser Ser Ser Gly
1 5
<210> 49
<211> 28
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 49
gttaactgcc gcataggcag cttagaaa 28
<210> 50
<211> 28
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 50
gtgaaccgcc gtataggcag cttagaaa 28
<210> 51
<211> 439
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 51
Met Ile Glu Ser Lys Ala Phe Lys Phe Arg Val Tyr Pro Thr Asp Lys
1 5 10 15
Gln Lys Glu Leu Ile His Asn Ser Val Arg Ala Ser Asn Phe Ile Phe
20 25 30
Asn Phe Ser Leu Arg Gln Gln Ile Asp Ile Ser Asp Lys Met Asn Glu
35 40 45
Met Gly Ile Ile Glu Lys Gly Glu Arg Lys Lys Tyr Met Lys Asp Asn
50 55 60
Asp Leu Tyr Phe Asn Lys Tyr Thr Met Ser Arg Gln Leu Thr Val Met
65 70 75 80
Gly Asn Thr Glu Glu Phe Ser Phe Leu Lys Glu Ile Asp Ala Thr Ser
85 90 95
Lys Ser Tyr Ala Leu Arg Arg Ile Asp Asn Ala Phe Lys Asn Met Val
100 105 110
Lys Met Gly Ala Gly Phe Pro Lys Phe Lys Asn Ile Asn Lys Ser Thr
115 120 125
Tyr Ser Phe Thr Gly Gln Ile Gln Tyr Gln Asn Asp Arg Ile Lys Asn
130 135 140
Leu Arg Val Ile Lys Thr Lys Asn Pro Lys Ile Val His Leu Asn Leu
145 150 155 160
Ser Lys Leu Lys Asn Leu Lys Cys Val Cys His Ile Pro Met Phe Ile
165 170 175
Glu Asn Trp Ser Asn Met Asp Thr Ile Lys Ile Asn Ser Tyr Thr Ile
180 185 190
Ser Arg Lys Gly Asn Asn Tyr Tyr Ile Ser Phe Gln Val Glu His Asn
195 200 205
Gln Pro Leu Ile Ser Glu Pro Ile Lys Arg Glu Ile Lys Tyr Glu Thr
210 215 220
Thr Ile Gly Ile Asp Met Gly Val Glu Arg Pro Ile Thr Thr Ser Asp
225 230 235 240
Glu Ala Asp Phe Asn Leu Lys Leu Phe Asn Glu Arg Phe Asn Ile Leu
245 250 255
Lys Lys His Arg Lys Glu Leu His Lys Leu Ser Ala Ile Leu Asn Lys
260 265 270
Lys Arg Asp Tyr His Lys Lys Asn Glu Ser Glu Ile Lys Phe Tyr Glu
275 280 285
Thr Ala Thr Tyr Lys Arg Ile Leu Lys Lys Met Arg Gly Leu Tyr His
290 295 300
Lys Ile Thr Asn Ile Arg Glu Asn Leu Gln His Asn Ile Thr Ser Asn
305 310 315 320
Leu Val Asn Lys Glu Asn Ile Asp Thr Phe Ile Leu Glu Glu Leu Asn
325 330 335
Leu Lys Asn Met Thr Lys Arg Ser Gly Lys Gly Lys Ser Asn Asn Lys
340 345 350
Ser Asn Leu Asn Arg Val Leu Leu Asp Val Gly Met His Gly Ile Lys
355 360 365
Ser Lys Leu Glu Tyr Lys Ala Glu Lys Met Gly Lys Asn Val Glu Thr
370 375 380
Ile Asn Pro Arg Phe Thr Ser Gln Lys Cys Ser Asp Cys Gly His Ile
385 390 395 400
Asn Lys Leu Asn Arg Lys Ser Gln Ala Val Phe Lys Cys Val Lys Cys
405 410 415
Gly Tyr Thr Leu Asn Ala Asp Leu Asn Ala Ala Ile Asn Ile Lys Asn
420 425 430
Asn Phe Phe Gly Lys Asn Thr
435
<210> 52
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 52
gttgaagggt attgttattt gaaaggtact cacaac 36
<210> 53
<211> 450
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 53
Met Glu Asp Ile Ile Glu Ile Ser Glu Lys Lys Lys Lys Thr Lys Ile
1 5 10 15
Ser Gly Thr Gly Lys Gly Phe Ser Ile Arg Ile Tyr Pro Asp Lys Lys
20 25 30
Gln Ile Glu Tyr Ile Arg Asp Ser Phe Arg Val Asn Asn Phe Ile Tyr
35 40 45
Asn Tyr Phe Leu Ser Lys Gln Glu Lys Ile Val Ser Glu Leu Lys Glu
50 55 60
Met Gly Leu Glu Gly Lys Ala Leu Lys Ser His Met Lys Leu Asn Asn
65 70 75 80
Leu Tyr Phe Asp Tyr Asn Ser Ser Arg Asp Leu Leu Tyr Glu Met Lys
85 90 95
Lys Thr Pro Glu Tyr Ser Phe Leu Gly Asn Ala Ser Ala Leu Ser Tyr
100 105 110
His Tyr Ala Leu Met Arg Leu Lys Asn Ala Phe Asp Asn Met Trp Lys
115 120 125
Met Asn Thr Gly Phe Pro Asn Tyr Arg Lys Arg His Ile Asn Lys Ser
130 135 140
Phe Ser Gly Gln Ile Leu Phe Asn Thr Lys Ala Asp Lys Tyr Ser Pro
145 150 155 160
Phe Glu Ile Gln Thr Ile Asn Asp Lys Trp Cys Glu Ile Thr Leu Thr
165 170 175
Lys Ile Thr Glu Leu Lys Cys Val Val His Asn Asn Glu Leu Leu Asp
180 185 190
Phe Trp Asn Asp Arg Ser Tyr Met His Leu Lys Ser Tyr Thr Ile Thr
195 200 205
Glu Thr Pro Ser Gly Glu Phe Tyr Leu Ala Ile Thr Ala Asp Ile Ile
210 215 220
Ser Lys Pro Met Leu Glu Lys Arg Ile Val Asn Glu Glu Thr Ser Ile
225 230 235 240
Gly Ile Asp Met Gly Val Ala Arg Pro Ile Thr Thr Ser Asp Glu Glu
245 250 255
Leu Phe Asn Asp Lys Gln Leu Ser Asp Lys Phe Asn Leu Ile Lys Glu
260 265 270
Tyr Lys Ser Glu Val Glu Arg Leu Ser Gln Ile Leu Ala Lys Lys Arg
275 280 285
Glu Gly Asn Lys Asn Trp Lys Glu Ser Lys Lys Tyr Glu Arg Ile Lys
290 295 300
Lys Arg Leu Ala Lys Leu His Ser Lys Ile Ala Asn Ile Arg Lys Tyr
305 310 315 320
Leu Gln His Asn Ile Thr Ser Lys Leu Ile Asn Ser Lys Tyr Asp Thr
325 330 335
Ile Ile Ile Glu Asp Leu Asp Val Lys Asn Met Met Lys Lys Ser Ala
340 345 350
Lys Gly Lys Ser Asn Asn Lys Arg Gly Leu Asn Arg Val Leu Ser Asp
355 360 365
Thr Gly Leu Gly Glu Ile Lys Arg Gln Leu Val Tyr Lys Ser Asn Trp
370 375 380
Cys Gly Lys Asn Ile Val Thr Val Asp Pro Lys Tyr Thr Ser Gln Met
385 390 395 400
Cys Ser Asn Cys Gly His Thr His Arg Asp Asn Arg Lys Lys Gln Asp
405 410 415
Glu Phe Ile Cys Val Ser Cys Gly His Asn Glu Asn Ala Asp Leu Asn
420 425 430
Ala Ala Lys Asn Ile Lys Asn Lys Phe Phe Lys Lys Leu Ala Glu Leu
435 440 445
Lys Asn
450
<210> 54
<211> 37
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 54
aggtgtgaca tcctttaatt tgaagtgttc ctccacc 37
<210> 55
<211> 422
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 55
Met Ile Thr Lys Ala Tyr Lys Phe Arg Ile Tyr Pro Thr Lys Val Gln
1 5 10 15
Glu Glu Thr Ile Asn Asn Cys Phe Arg Val Asn Asp Phe Ile Tyr Asn
20 25 30
Phe Phe Leu Gly Leu Glu Gln Glu Thr Tyr Asp Val Leu Tyr Met Tyr
35 40 45
Gly Leu Arg Asn Gly Glu Lys Lys Glu Asp Lys His Leu Asn Lys Trp
50 55 60
Arg Thr Glu Asn Lys Leu Trp Phe Asn Arg Phe Asp Ala Ser Arg Leu
65 70 75 80
Leu Thr Lys Met Ala Lys Leu Glu Lys Tyr Lys Phe Leu Lys Thr Tyr
85 90 95
Pro Ser Thr Ser Arg Thr Tyr Ser Leu Lys Ser Leu Glu Ser Gly Met
100 105 110
Lys Ser Phe Met Lys Gly Gly Gly Phe Pro Lys Phe Lys Asn Lys Lys
115 120 125
Ser Asn Lys Ser Phe Thr Ile Gln Thr Gln Lys Asp Leu Lys Ile Ile
130 135 140
His Lys Asn Gly Lys Trp His Ser Ile Asn Leu Pro Ser Ala Leu Asp
145 150 155 160
Phe Pro Ile Lys Lys Leu Asp Ile Lys Ile His Asn Glu Leu Phe Leu
165 170 175
Ser Pro Asn Ile Lys Thr Asn Ser Cys Thr Val Ser Lys Arg Gly Asn
180 185 190
Gln Tyr Phe Ile Ser Phe Gln Val Glu Leu Pro Gly Glu Leu Pro Arg
195 200 205
Lys Arg Glu Ile Lys Lys Glu Thr Ser Val Gly Val Asp Phe Gly Val
210 215 220
Lys Lys Ile Ile Thr Ile Ser Ser Asp Glu Glu Asn Pro Tyr Ser Cys
225 230 235 240
Glu Thr Arg Phe Leu Lys Asn Ser Met Asn Glu Leu Lys Arg Leu Gln
245 250 255
Lys Ala Leu Ser Gln Lys Lys Lys Gly Ser Val Lys Tyr Asn Asn Ile
260 265 270
Lys Glu Lys Ile Asn Lys Leu His Ile Lys Ile Ser Asn Gln Arg Lys
275 280 285
Asn Leu Gln His Asn Ile Ser Ser Phe Leu Val Asn Leu Asn Ala Asp
290 295 300
Thr Ile Ile Met Glu Asp Leu Asn Leu Lys Gly Met Thr Lys Thr Pro
305 310 315 320
Asn Pro Ile Glu Ser Asn Gly Thr Phe Leu Pro Asn Gly Lys Ser Arg
325 330 335
Lys Ser Gly Leu Asn Ala Ser Ile Leu Asp Val Gly Ile Gly Glu Ile
340 345 350
Lys Thr Gln Val Gln Tyr Lys Ser Asp Phe Cys Gly Lys Asn Val Val
355 360 365
Leu Val Asn Pro Gln Tyr Thr Ser Gln Lys Cys Asn Asn Cys Gly Phe
370 375 380
Thr His Lys Glu Asn Arg Ile Ser Gln Ser Glu Phe Glu Cys Lys Asn
385 390 395 400
Cys Gly His Lys Asp Asn Ala Asp Lys Asn Ala Ser Lys Asn Ile Lys
405 410 415
Gln Lys Tyr Phe Asp Asn
420
<210> 56
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 56
actattaatg atagttaaat gaaaggtggt cacaac 36
<210> 57
<211> 392
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 57
Val Lys Gln Asn Lys Ala Tyr Lys Tyr Arg Ile Tyr Pro Thr Glu Lys
1 5 10 15
Gln Ile Glu Tyr Phe Glu Gly Ala Phe Lys Ala Gly Arg Tyr Val Tyr
20 25 30
Asn Val Ser Leu Asp Cys Glu Lys Gln Ile Tyr Gln Leu Gly Gly Lys
35 40 45
Ser Asn Leu Ser His Phe Gly Leu Asn Tyr His Ile Lys Asn Tyr Arg
50 55 60
Val Lys Ala Pro Phe Leu Asn Glu Tyr Asp Val Asn Ile Tyr Cys Asn
65 70 75 80
Glu Met Lys Ala Leu Ser Lys Ala Tyr Lys Asn Phe Phe Lys Asn Lys
85 90 95
Gly Gly Tyr Pro Lys Phe Lys Lys Glu Ser Asp Thr Thr Gln Ser Phe
100 105 110
Thr Thr Arg Pro Ser Thr Lys Gln Asn Ser Lys Asn Leu Tyr Ile Thr
115 120 125
Tyr Asp Gly Tyr Leu Lys Ile Pro Lys Val Glu Lys Leu Ile Lys Ile
130 135 140
Lys Tyr His Arg Pro Ile Glu Gly Lys Ile Lys Thr Val Thr Ile Ser
145 150 155 160
Lys Lys His Asn Lys Tyr Tyr Val Ser Ile Met Val Glu Tyr Thr Asn
165 170 175
Asn Phe Lys Lys Val Glu Val Lys Lys Ser Val Gly Ile Asp Leu Gly
180 185 190
Val Lys Ala Phe Val Val Thr Ser Asp Asn Glu Val Ile Glu Asn Pro
195 200 205
Lys His Leu Thr Lys Asn Gln Glu His Leu Thr Val Leu Gln Arg Lys
210 215 220
Leu Ala Arg Ala Lys Lys Gly Ser Asn Asn Tyr Lys Lys Ile Lys Lys
225 230 235 240
Asn Ile Ser Lys Ile His Glu Asn Val Ala Asn Thr Arg Glu Asn Phe
245 250 255
Leu His Asn Glu Ser Lys Lys Leu Val Asp Asn Tyr Asp Leu Ile Cys
260 265 270
Met Glu Asp Leu Asn Val Lys Gly Met Thr Lys Ser Ser Lys Gly Thr
275 280 285
Lys Glu Asn Pro Gly Lys Asn Val Lys Gln Lys Ser Gly Leu Asn Arg
290 295 300
Ser Ile Ile Asp Val Gly Phe Gly Lys Phe Lys Thr Met Ile Gly Tyr
305 310 315 320
Lys Thr Lys Asn Ser Gly Lys Tyr Leu Val Glu Ile Gly Arg Phe Glu
325 330 335
Pro Thr Ser Lys Lys Cys Asn Cys Cys Gly Thr Ile Asn Lys Asn Leu
340 345 350
Glu Leu Lys Asp Arg Ile Trp Lys Cys Glu Asn Cys Gly Glu Ile Leu
355 360 365
Asn Arg Asp Leu Asn Ala Ala Leu Asn Ile Arg Asp Leu Gly Thr Lys
370 375 380
Lys Phe Phe Asp Ser Leu Lys Lys
385 390
<210> 58
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 58
attgtgaatc atccttaaat gaaaggtaat cacaac 36
<210> 59
<211> 377
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 59
Met Leu Lys Ala Tyr Lys Tyr Arg Ile Tyr Pro Thr Lys Glu Gln Ile
1 5 10 15
Thr Leu Ile Glu Lys His Phe Gly Ser Thr Arg Phe Leu Tyr Asn Tyr
20 25 30
Phe Leu Glu Tyr Arg Gln Lys Ala Tyr Ala Lys Gly Asn Gln Lys Val
35 40 45
Gly Tyr Met Val Thr Gln Ala Glu Leu Thr Lys Leu Lys Lys Leu Lys
50 55 60
Glu Tyr Glu Trp Leu Asn Glu Cys Gly Ser Gln Ser Leu Gln Met Ala
65 70 75 80
Leu Arg Asp Leu Asp Ser Ala Tyr Ser Arg Phe Phe Lys Lys Gln Gly
85 90 95
Gly Tyr Pro Lys Phe Lys Ser Lys Lys His Thr Ser Gln Ser Phe Thr
100 105 110
Ala Pro Gln Asn Ile Lys Leu Ala Ser Asn Arg Val Tyr Leu Pro Lys
115 120 125
Phe Thr Lys Asp Gly Ile Lys Val Lys Leu His Arg Glu Ile Pro Gln
130 135 140
Asp Ala Val Leu Lys Gln Ala Thr Val Ser Arg Gln Asn Asn Gln Tyr
145 150 155 160
Phe Val Ser Ile Leu Ile Asp Asp Asn Asn Ala Ile Pro Lys Pro Ile
165 170 175
Lys Ala Lys Asn Ala Val Gly Leu Asp Met Gly Leu Thr Asp Leu Ile
180 185 190
Ile Thr Ser Asp Phe Thr Lys Tyr Pro Asn Asn Lys Tyr Phe Val Lys
195 200 205
Ser Gln Gln Lys Leu Lys Lys Leu Gln Arg Arg His Ser Lys Lys Gln
210 215 220
Lys Gly Ser Asn Asn Arg Gln Lys Ala Lys Leu Arg Val Gln Lys Leu
225 230 235 240
His Thr Lys Val Ser Asn Gln Arg Lys Asp Thr Leu His Lys Ile Ser
245 250 255
Asn Glu Ile Thr Asn Gln Tyr Asp Ile Ile Cys Leu Glu Thr Leu Asn
260 265 270
Val Arg Gly Met Gln Lys Asn Arg Arg Leu Ala Lys Gly Ile Ala Asp
275 280 285
Val Ala Trp Ser Glu Phe Met Arg Gln Leu Ala Tyr Lys Ala Gln Trp
290 295 300
Lys Gly Lys Thr Val Leu Lys Ile Asp Gln Trp Phe Pro Ser Ser Gln
305 310 315 320
Ile Cys Ser Asn Cys Gly Ala Ser Ser Lys Lys Lys Glu Leu His Val
325 330 335
Arg Lys Trp Glu Cys Pro Glu Cys His Ala Lys His Asp Arg Asp Ile
340 345 350
Asn Ala Ser Ile Asn Ile Lys Asn Tyr Gly Leu Gly Gln Ile Asp Asn
355 360 365
Arg Asn Thr Val Gly Thr Ile Gly Ile
370 375
<210> 60
<211> 400
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 60
Met Lys Ile Ile Asn Lys Thr Tyr Arg Phe Arg Leu Phe Pro Thr Lys
1 5 10 15
Glu Gln Glu Val Leu Leu Asn Lys His Phe Gly Cys Cys Arg Trp Val
20 25 30
Tyr Asn His Phe Leu Asn Glu Arg Lys Glu Gln Tyr Gln Ala Asn Lys
35 40 45
Lys Ser Asp Asn Tyr Tyr Lys Gln Ala Ala Thr Leu Ala Lys Leu Lys
50 55 60
Asn Glu Glu Asp Thr Lys Trp Leu Lys Glu Val Asn Ser Gln Ser Leu
65 70 75 80
Gln Phe Ala Leu Arg Ser Leu Asp Thr Ala Phe Leu Asn Phe Phe Arg
85 90 95
Gly Lys Ala Gln Phe Pro Lys Phe Lys Ser Lys Lys His Lys Asn Thr
100 105 110
Phe Thr Ile Pro Gln Phe Gly Lys Leu Glu Asp Gly Lys Ile Val Ile
115 120 125
Pro Lys Phe Lys Glu Gly Ile Lys Val Lys Leu His Arg Glu Val Lys
130 135 140
Gly Lys Ile Gly Lys Met Ser Ile Thr Lys Thr Pro Thr Gly Lys Tyr
145 150 155 160
Tyr Val Ser Ile Phe Thr Glu Gln Glu Val Glu Glu Leu Pro Lys Thr
165 170 175
Asn Lys Gln Val Gly Ile Asp Leu Gly Leu Lys Asp Phe Val Ile Thr
180 185 190
Ser Asp Asn Lys Lys Phe Lys Asn Asn Arg Tyr Val Lys Lys Tyr Glu
195 200 205
Lys Gln Leu Lys Lys Ala Gln Gln His Leu Ser Arg Lys Gln Lys Gly
210 215 220
Ser Lys Gly Phe Glu Lys Gln Lys Leu Lys Val Ala Lys Ile His Glu
225 230 235 240
Lys Ile Ala Asn Cys Arg Leu Asp Ile Leu His Lys Val Ser Thr Glu
245 250 255
Leu Val Lys Asn Tyr Asp Leu Ile Ala Val Glu Asp Leu Asn Val Lys
260 265 270
Gly Met Thr Lys Asn His Lys Leu Ser Lys His Ile Ala Asp Ala Ser
275 280 285
Trp Gly Lys Phe Val Thr Leu Leu Gln Tyr Lys Cys Asp Trp Tyr Gly
290 295 300
Lys Lys Leu Val Lys Val Asn Arg Phe Tyr Pro Ser Ser Lys Thr Cys
305 310 315 320
Ser Glu Cys Gly Trp Ile Asn Gln Glu Leu Lys Leu Ser Asp Arg Glu
325 330 335
Trp Thr Cys Asn Ser Cys Gly Ala Ile His Asp Arg Asp Leu Asn Ala
340 345 350
Ser Lys Asn Ile Leu Lys Glu Gly Leu Lys Ile Ile Ser Ala Gly Ala
355 360 365
Val Asp Tyr Thr Asp Gly Asp Leu Asn Asp Ala Ser Val Lys Lys Arg
370 375 380
Lys Ser Val Lys Ser Glu Ala Gln Pro Ile Ala Phe Gly Val Gly Gly
385 390 395 400
<210> 61
<211> 386
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 61
Met Ile Lys Ala Phe Lys Tyr Arg Ile Tyr Pro Thr Gln Asp Gln Lys
1 5 10 15
Glu Leu Leu Ser Asn Ile Phe Gly Gln Val Arg Phe Val Tyr Asn Leu
20 25 30
Gly Leu Glu Thr Lys Ile Ser Ala Tyr Thr Gly Asn Lys Lys His Leu
35 40 45
Ser Cys Phe Asp Leu Asn Lys Gln Ile Thr Gln Leu Lys Asn Glu Cys
50 55 60
Pro Trp Leu Lys Glu Ser Pro Ser Gln Ala Leu Gln Gln Ser Ile Arg
65 70 75 80
Asn Leu Asp Val Ala Tyr Thr Asn Phe Phe Arg Gly Ala Gly Phe Pro
85 90 95
Lys Phe Lys Asn Lys Tyr Thr Lys Gln Ser Phe Gln Leu Pro Gln Gly
100 105 110
Val Phe Leu Ser Asp Asp Lys Lys Gln Ile Phe Ile Pro Lys Leu Lys
115 120 125
Phe Thr Asp Ile Asp Leu His Lys Glu Phe Lys Gly Glu Val Lys Thr
130 135 140
Val Thr Val Ser Lys Thr Thr Thr Asn Lys Tyr Tyr Ile Ser Ile Leu
145 150 155 160
Val Asp Asp Lys Lys Pro Ile Pro Glu Lys Arg Gln Ile Lys Leu Glu
165 170 175
Ser Thr Val Gly Ile Asp Leu Gly Ile Lys Asp Phe Ala Ile Thr Ser
180 185 190
Asp Gly Lys Lys Phe Lys Asn His Asp Phe Phe Lys Ser Ala Met Asn
195 200 205
Glu Leu Arg Ile Gln Gln Arg Ser Leu Ala Arg Lys Gln Lys Gly Ser
210 215 220
Asn His Tyr Ile Lys Gln Lys Met Lys Val Ser Leu Leu His Glu His
225 230 235 240
Ile Lys Asn Gln Arg Glu Asp Tyr Leu His Lys Ile Ser Lys Tyr Leu
245 250 255
Val Tyr Asn Tyr Asp Thr Ile Cys Ile Glu Asn Leu Gly Val Ser Asn
260 265 270
Met Met Lys Asn His Lys Leu Ser Arg Val Ile Gly Asp Met Gly Trp
275 280 285
His Lys Phe Lys Ser Met Leu Glu Tyr Lys Cys Glu Trp Tyr Gly Lys
290 295 300
Asn Leu Ser Val Ile Gly Arg Phe Asp Pro Ser Ser Lys Thr Cys Ser
305 310 315 320
Ser Cys Gly Ser Ile Asn Lys Glu Leu Thr Leu Asn Asp Arg Glu Trp
325 330 335
Thr Cys Lys Cys Gly Thr Lys His Asp Arg Asp Ile Asn Ala Ala Ile
340 345 350
Asn Ile Arg Asn Phe Gly Leu Arg Asn Gln Pro Ser Val Thr Gln Ser
355 360 365
Glu Trp Leu His Cys Ala Cys Asp Val Glu Thr His Gln Ser Leu Ala
370 375 380
Asp Val
385
<210> 62
<211> 445
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 62
Met Thr Arg Asn Tyr Pro Tyr Lys Phe Arg Leu Glu Pro Thr Glu Glu
1 5 10 15
Gln Lys Thr Arg Leu Lys His Tyr Gly Phe Thr Cys Arg Phe Ile Tyr
20 25 30
Asn Leu Ala Leu Asp Gln Arg Asn Leu Ser Arg Asp Pro Lys Pro Leu
35 40 45
Pro Thr Leu Leu Glu Met Trp Glu Lys Arg Val Ala Asp Lys Leu Ala
50 55 60
Gly Val Lys Pro Glu Arg Lys Glu Arg Asn Phe Glu Glu Glu Arg Lys
65 70 75 80
Gln Glu Val Val His Lys Asn Ile Asn Tyr Gly Phe Gln Ser Pro Gln
85 90 95
Met Thr Val Leu Arg Arg Glu Val Glu Trp Met Gln Asp Val Pro Phe
100 105 110
Ser Cys Leu Gln Glu Thr Leu Arg Ser Leu Gln Thr Ala Phe Lys Asn
115 120 125
Phe Phe Asp Arg Val Lys Lys Gly Gln Arg Val Ser Asp Gly Arg Asn
130 135 140
Pro Tyr Gly Tyr Pro Val Tyr Arg Ser Arg Tyr Arg Leu Ser Ile Pro
145 150 155 160
Phe Lys Pro Ala Asn Val Ser Ile Lys Lys Val Ser Glu Arg Ala Gly
165 170 175
Gly Glu Glu Gly Ala Tyr Phe Ser Glu Leu Lys Val Pro Leu Met Gly
180 185 190
Ser Leu Ile Arg Phe Arg Gln Asp Arg Pro Val Leu Gly Thr Pro Lys
195 200 205
Thr Pro Thr Leu Lys Leu Glu Gly Asp Gly Lys Trp Tyr Val Val Ile
210 215 220
Leu Thr Glu Gln Glu Val Glu Asp Pro Gln Thr Pro Glu Ala Glu Val
225 230 235 240
Gly Ile Asp Leu Gly Val Ala Lys Met Ile Thr Leu Ser Asp Gly Thr
245 250 255
Ile Tyr Pro Leu Thr Lys Lys Gln Gln Gln Thr Phe Thr Asn Ile Asp
260 265 270
Thr Thr Glu Lys Arg Ile Arg Lys Leu Gln Ala Ala Cys Asp Arg Arg
275 280 285
Lys Thr Lys Phe Ser Lys Asn Trp Ile Lys Val Lys Arg Gln Val Val
290 295 300
Lys Leu Lys His Arg Gln Lys Arg Ser Arg Glu Ser Leu His His Glu
305 310 315 320
Ile Thr His Leu Ile Thr Ser Gly Phe Gly Arg Val Ala Val Glu Asn
325 330 335
Leu Asn Ile Lys Gly Met Thr Pro Ser Ala Ser Gly Thr Glu Glu Glu
340 345 350
Pro Gly Thr Asn Val Ala Gln Lys Ser Gly Leu Asn Arg Glu Ile Leu
355 360 365
Lys Arg Gly Trp Gly Leu Leu Val Ser Gln Leu Glu Tyr Lys Ala Lys
370 375 380
Trp Arg Gly Gly Glu Val Ile Lys Val Asp Pro Lys Tyr Thr Ser Gln
385 390 395 400
Thr Cys Ser Lys Cys Gly His Val Glu Lys Ala Asn Arg Ala Thr Gln
405 410 415
Ala Thr Phe Leu Cys Gln Lys Cys Gly His Lys Glu Asn Ala Asp Val
420 425 430
Asn Ala Ala Lys Asn Ile Leu Thr Arg Ala Glu Lys Gln
435 440 445
<210> 63
<211> 29
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 63
gtgttctcca tgcacgcggg ggagtttgg 29
<210> 64
<211> 555
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 64
Met Ala Lys Gln Ala Pro Gly Lys Arg Thr Asp Glu Ser Lys Glu Arg
1 5 10 15
Lys Ala Phe Ser Phe Arg Leu Tyr Pro Thr Pro Glu Gln Glu Arg Tyr
20 25 30
Leu Ala Arg Val Val Gly Ser Cys Arg Tyr Ile Tyr Asn Ala Leu Val
35 40 45
Arg Glu His Glu Arg Arg Met Lys Tyr Met Arg Thr Phe Gly Ala Trp
50 55 60
Pro Lys Pro Ile Gly Phe Lys Thr Ser Lys Lys Lys Gln Ser Leu Ala
65 70 75 80
Glu Asp Tyr Lys Leu Glu Ala Ser Leu Tyr Glu Ile Gln Thr Ala Leu
85 90 95
His Glu Pro Gly Gly Pro Ala Pro Trp Leu Glu Asp Val Ala Gly Asn
100 105 110
Ile Arg Asn His Ala Val Ala Met Phe Gly Ala Ala Gln Thr Asn Trp
115 120 125
Met Ser Gly Arg Thr Gly Pro Pro Asn Phe Lys Gln Arg Arg Pro Ala
130 135 140
Gly Ser Phe Arg Phe Gln Asp Thr Arg Val Ala Ser Ile Thr Gly Gly
145 150 155 160
Pro Asp Arg Gln Pro Gly Phe Asp Phe Ile Arg Ile Pro Leu Pro His
165 170 175
Gly Ile Glu Ile Asp Ser Trp Ile Cys Phe Arg Arg His Arg Arg Leu
180 185 190
Arg Gly Gln Pro Lys Thr Ala Thr Ile Arg Arg Ala Ala Gly Ile Trp
195 200 205
Tyr Val Ser Ile Leu Cys Glu Trp Asp Lys Pro Ala Lys Leu Pro Val
210 215 220
His Arg Ala Pro Asn Ala Lys Val Gly Val Asp Leu Asn Val Arg Asn
225 230 235 240
Leu Cys Ala Leu Ser Asp Gly Thr Ile Ile Asp Gly Arg Ser Ala Asp
245 250 255
Leu Ala Arg Leu Glu Lys Ser Ile Asn Arg Leu Lys His Arg Glu Ser
260 265 270
Lys Leu Arg Leu Arg Glu Lys Ala Ala Ser Ala Pro Arg Ser Lys Arg
275 280 285
His Phe Arg Leu Gln Cys Arg Ile Ala Arg Leu Gln Asp Arg Gln Ala
290 295 300
Asn Leu Arg Asn Glu Val Thr Asn Gln Val Ala His Ala Val Ala Leu
305 310 315 320
Lys His Ala Phe Val Gly Leu Glu Gly Leu Asp Ile Lys Gly Met Thr
325 330 335
Ala Ser Ala Lys Gly Thr Val Asp Ala Pro Gly Leu Asn Val Arg Ala
340 345 350
Lys Ala Gly Leu Asn Arg Ala Ile Leu Asn Arg Gly Trp Gly Lys Leu
355 360 365
Arg Glu Lys Ile Glu Ser Lys Val Lys Ile Tyr Gly Gly Gln Thr Val
370 375 380
Arg Val Pro Pro Gln Tyr Thr Ser Gln Thr Cys Ala Lys Cys Gly His
385 390 395 400
Ile Ala Ala Glu Asn Arg Asp Gly Val Ile Phe His Cys Val Lys Cys
405 410 415
Gly Phe Thr Ala His Ala Asp Val Asn Ala Ala Thr Asn Ile Leu Glu
420 425 430
Lys Ala Leu Arg Leu Ser Ala Gln Glu Ser Pro Gly Ser Gly Ser Leu
435 440 445
Asp Gly Glu Arg Pro Thr Glu Leu Gly Ser Thr Thr Arg Gln Arg Val
450 455 460
Arg Lys Gln Lys Asp Thr Lys Thr Leu Gly Ala Pro Lys Ala Thr Ser
465 470 475 480
Arg Lys Gly Ala Thr Ala Pro Arg Ser Thr Ile Pro Ser Leu His Val
485 490 495
Asp Met Gln Val Thr Ser Ala Arg Val Val Pro Ala Pro Gln Glu Ala
500 505 510
Leu Ala Thr Glu Ile Ala Gln Gln Met Lys Ala Leu Ala Lys Ser Glu
515 520 525
Val Asp Ala Ala Pro Arg Gln Lys Ile Asn Arg Arg Arg Arg Ser Gln
530 535 540
Thr Glu Val Glu Val Pro Thr Gly Ser Val Glu
545 550 555
<210> 65
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 65
gttgcgacgt gcaaagaacg gattggcgat cgacac 36
<210> 66
<211> 555
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 66
Met Ala Lys Gln Ala Pro Gly Lys Arg Thr Asp Glu Ser Lys Glu Arg
1 5 10 15
Lys Ala Phe Ser Phe Arg Leu Tyr Pro Thr Pro Glu Gln Glu Arg Tyr
20 25 30
Leu Ala Arg Val Val Gly Ser Cys Arg Tyr Ile Tyr Asn Ala Leu Val
35 40 45
Arg Glu His Glu Arg Arg Met Lys Tyr Met Arg Thr Phe Gly Ala Trp
50 55 60
Pro Lys Pro Ile Gly Phe Lys Thr Ser Lys Lys Lys Gln Ser Leu Ala
65 70 75 80
Glu Asp Tyr Lys Leu Glu Ala Ser Leu Tyr Glu Ile Gln Thr Ala Leu
85 90 95
His Glu Pro Gly Gly Pro Ala Pro Trp Leu Glu Asp Val Ala Gly Asn
100 105 110
Ile Arg Asn His Ala Val Ala Leu Phe Gly Ala Ala Gln Thr Asn Trp
115 120 125
Met Ser Gly Arg Thr Gly Pro Pro Asn Phe Lys Gln Arg Arg Pro Ala
130 135 140
Gly Ser Phe Arg Phe Gln Asp Thr Arg Val Ala Ser Ile Thr Gly Gly
145 150 155 160
Pro Asp Arg Gln Pro Gly Phe Asp Phe Ile Arg Ile Pro Leu Pro His
165 170 175
Gly Ile Glu Ile Asp Ser Trp Ile Cys Phe Arg Arg His Arg Arg Leu
180 185 190
Arg Gly Gln Pro Lys Thr Ala Thr Ile Arg Arg Ala Ala Gly Ile Trp
195 200 205
Tyr Val Ser Ile Leu Cys Glu Trp Asp Lys Pro Ala Lys Leu Pro Val
210 215 220
His Arg Ala Pro Asn Ala Lys Val Gly Val Asp Leu Asn Val Arg Tyr
225 230 235 240
Leu Cys Ala Leu Ser Asp Gly Thr Ile Ile Asp Gly Arg Ser Ala Asp
245 250 255
Leu Ala Arg Leu Glu Lys Ser Ile Asn Arg Leu Lys His Arg Glu Ser
260 265 270
Lys Leu Arg Leu Arg Glu Lys Ala Ala Ser Ala Pro Arg Ser Lys Arg
275 280 285
His Phe Arg Leu Gln Cys Arg Ile Ala Arg Leu Gln Asp Arg Gln Ala
290 295 300
Asn Leu Arg Asn Glu Val Thr Asn Gln Val Ala His Ala Val Ala Leu
305 310 315 320
Lys His Ala Phe Val Gly Leu Glu Gly Leu Asp Ile Lys Gly Met Thr
325 330 335
Ala Ser Ala Lys Gly Thr Val Asp Ala Pro Gly Leu Asn Val Arg Ala
340 345 350
Lys Ala Gly Leu Asn Arg Ala Ile Leu Asn Arg Gly Trp Gly Lys Leu
355 360 365
Arg Glu Lys Ile Glu Ser Lys Val Lys Ile Tyr Gly Gly Gln Thr Val
370 375 380
Arg Val Pro Pro Gln Tyr Thr Ser Gln Thr Cys Ala Lys Cys Gly His
385 390 395 400
Ile Ala Ala Glu Asn Arg Asp Gly Val Ile Phe His Cys Val Lys Cys
405 410 415
Gly Phe Thr Ala His Ala Asp Val Asn Ala Ala Thr Asn Ile Leu Glu
420 425 430
Lys Ala Leu Arg Leu Ser Ala Gln Glu Ser Pro Gly Ser Gly Ser Leu
435 440 445
Asp Gly Glu Arg Pro Thr Glu Leu Gly Ser Thr Thr Arg Gln Arg Val
450 455 460
Arg Lys Gln Lys Asp Thr Lys Thr Leu Gly Ala Pro Lys Ala Thr Ser
465 470 475 480
Arg Lys Gly Ala Thr Ala Pro Arg Ser Thr Ile Arg Ser Leu His Val
485 490 495
Asp Met Gln Val Thr Ser Ala Arg Val Val Pro Ala Pro Gln Glu Ala
500 505 510
Leu Ala Thr Glu Ile Ala Gln Gln Met Lys Ala Leu Ala Lys Ser Glu
515 520 525
Val Asp Ala Ala Pro Arg Gln Lys Ile Asn Arg Arg Arg Arg Ser Gln
530 535 540
Thr Glu Val Glu Val Pro Thr Gly Ser Val Glu
545 550 555
<210> 67
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 67
gttgcgacgt gcaaagaacg gattggcgat cgacac 36
<210> 68
<211> 400
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 68
Met Thr Thr Gln Lys Thr Tyr Asn Phe Cys Phe Tyr Asp Gln Arg Phe
1 5 10 15
Phe Glu Leu Ser Lys Glu Ala Gly Glu Val Tyr Ser Arg Ser Leu Glu
20 25 30
Glu Phe Trp Lys Ile Tyr Asp Glu Thr Gly Val Trp Leu Ser Lys Phe
35 40 45
Asp Leu Gln Lys His Met Arg Asn Lys Leu Glu Arg Lys Leu Leu His
50 55 60
Ser Asp Ser Phe Leu Gly Ala Met Gln Gln Val His Ala Asn Leu Ala
65 70 75 80
Ser Trp Lys Gln Ala Lys Lys Val Val Pro Asp Ala Cys Pro Pro Arg
85 90 95
Lys Pro Lys Phe Leu Gln Ala Ile Leu Phe Lys Lys Ser Gln Ile Lys
100 105 110
Tyr Lys Asn Gly Phe Leu Arg Leu Thr Leu Gly Thr Glu Lys Glu Phe
115 120 125
Leu Tyr Leu Lys Trp Asp Ile Asn Ile Pro Leu Pro Ile Tyr Gly Ser
130 135 140
Val Thr Tyr Ser Lys Thr Arg Gly Trp Lys Ile Asn Leu Cys Leu Glu
145 150 155 160
Thr Glu Val Glu Gln Lys Asn Leu Ser Glu Asn Lys Tyr Leu Ser Ile
165 170 175
Asp Leu Gly Val Lys Arg Val Ala Thr Ile Phe Asp Gly Glu Asn Thr
180 185 190
Ile Thr Leu Ser Gly Lys Lys Phe Met Gly Leu Met His Tyr Arg Asn
195 200 205
Lys Leu Asn Gly Lys Thr Gln Ser Arg Leu Ser His Lys Lys Lys Gly
210 215 220
Ser Asn Asn Tyr Lys Lys Ile Gln Arg Ala Lys Arg Lys Thr Thr Asp
225 230 235 240
Arg Leu Leu Asn Ile Gln Lys Glu Met Leu His Lys Tyr Ser Ser Phe
245 250 255
Ile Val Asn Tyr Ala Ile Arg Asn Asp Ile Gly Asn Ile Ile Ile Gly
260 265 270
Asp Asn Ser Ser Thr His Asp Ser Pro Asn Met Arg Gly Lys Thr Asn
275 280 285
Gln Lys Ile Ser Gln Asn Pro Glu Gln Lys Leu Lys Asn Tyr Ile Lys
290 295 300
Tyr Lys Phe Glu Ser Ile Ser Gly Arg Val Asp Ile Val Pro Glu Pro
305 310 315 320
Tyr Thr Ser Arg Lys Cys Pro His Cys Lys Asn Ile Lys Lys Ser Ser
325 330 335
Pro Lys Gly Arg Thr Tyr Lys Cys Lys Lys Cys Gly Phe Ile Phe Asp
340 345 350
Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Asn Glu Asn Val Ser Phe
355 360 365
Gly Gln Ile Ile Ser Pro Gly Arg Ile Arg Ser Leu Thr Glu Pro Ile
370 375 380
Gly Met Lys Phe His Asn Glu Ile Tyr Phe Lys Ser Tyr Val Ala Ala
385 390 395 400
<210> 69
<211> 35
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 69
gttttatacc ctttagaatt taaactgtct aaaag 35
<210> 70
<211> 403
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 70
Val Ile Thr Lys Lys Thr Tyr Asn Phe Ser Leu Tyr Asp Pro Arg Phe
1 5 10 15
Phe Glu Leu Ala Lys Glu Ala Gly Asp Val Tyr Ser Arg Ser Leu Glu
20 25 30
Glu Phe Trp Lys Val Tyr Asp Glu Thr Gly Val Trp Leu Ser Lys Phe
35 40 45
Asp Leu Gln Lys His Met Arg Asn Lys Leu Glu Arg Lys Leu Leu His
50 55 60
Ser Asp Ser Phe Ile Gly Ala Met Gln Gln Val His Ala Asn Leu Ala
65 70 75 80
Ser Trp Lys Gln Ala Lys Lys Val Val Lys Asp Ala Cys Pro Pro Arg
85 90 95
Lys Pro Lys Phe Leu Gln Ala Ile Leu Phe Lys Lys Ser Gln Ile Lys
100 105 110
Tyr Lys Asn Gly Phe Leu Lys Leu Thr Leu Gly Ile Gly Asn Glu Tyr
115 120 125
Leu Asn Leu Lys Trp Asn Gln Glu Ile Pro Leu Pro Ile Tyr Gly Ser
130 135 140
Val Thr Tyr Ser Lys Thr Arg Gly Trp Lys Ile Asn Leu Cys Leu Glu
145 150 155 160
Thr Asp Val Glu Gln Lys Asn Leu Asp Asn Asn Lys Phe Leu Ser Ile
165 170 175
Asp Leu Gly Val Lys Arg Ile Ala Thr Ile Phe Asp Gly Glu Asn Thr
180 185 190
Ile Thr Leu Ser Gly Lys Lys Phe Met Gly Leu Met His Tyr Arg Asn
195 200 205
Lys Leu Asn Gly Lys Thr Gln Ser Arg Leu Ser His Lys Lys Lys Gly
210 215 220
Ser Asn Asn Tyr Lys Lys Ile Gln Arg Ala Lys Arg Arg Thr Thr Asp
225 230 235 240
Lys Ile Leu Asn Ile Gln Lys Asp Met Leu His Lys Tyr Ser Ser Phe
245 250 255
Val Val Asn Tyr Ala Ile Lys Asn Asn Ile Gly Asn Ile Ile Ile Gly
260 265 270
Asp Asn Ser Ser Thr His Asp Ser Pro Asn Met Arg Gly Lys Thr Asn
275 280 285
Gln Lys Ile Ser Gln Asn Pro Glu Gln Lys Leu Lys Asn Tyr Ile Lys
290 295 300
Tyr Lys Phe Glu Gly Ile Ser Gly Gln Val Asn Ile Val Pro Glu Pro
305 310 315 320
Tyr Thr Ser Arg Lys Cys Pro Cys Cys Lys Asn Ile Lys Lys Ser Ser
325 330 335
Pro Arg Gly Arg Thr Tyr Lys Cys Lys Lys Cys Asp Phe Val Phe Asp
340 345 350
Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Asn Glu Asn Val Ser Phe
355 360 365
Gly Thr Cys Leu Asn Leu Asp Ser Gly Arg Ile Arg Phe Leu Thr Glu
370 375 380
Pro Ile Gly Met Lys Phe His Asn Glu Val Tyr Phe Lys Ser Tyr Val
385 390 395 400
Ala Val Ala
<210> 71
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 71
gttttatacc cttgtaattt taggagctca tcaaag 36
<210> 72
<211> 415
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 72
Leu Lys Glu Leu Tyr Lys Thr Tyr Ile Leu Pro Val Lys Gln Gln Glu
1 5 10 15
Leu Ala Arg Lys Leu Ser Arg Glu Ser Gly Arg Ile Tyr Ser Lys Val
20 25 30
Val Ser Lys Val Phe Asp Ile Tyr Lys Arg Lys Gly Phe Trp Leu Asn
35 40 45
Glu Phe Asp Met Lys Lys Tyr Ile Arg Leu Tyr Ala Lys Asn Ile Gly
50 55 60
Leu His Ser Gln Thr Lys Gln Gly Ile Val Glu Gln Tyr Tyr Ile Ala
65 70 75 80
Leu Asp Ser Phe Phe Lys Ala Tyr Lys Asn His Arg Asn Pro Lys Pro
85 90 95
Pro Tyr Lys Arg Arg Lys Tyr Asn Val Val Met Tyr Lys Asp Ser Ala
100 105 110
Ile Lys Leu Lys Asn Gly Ile Leu Lys Leu Ser Asn Gly Lys Gly Asn
115 120 125
Glu Pro Leu Met Val Lys Ala Asn Lys Leu Gly Lys Lys Pro Lys Tyr
130 135 140
Ala Glu Leu Val Tyr His His Asn Lys Arg Lys Tyr Phe Leu His Ile
145 150 155 160
Thr Val Glu Met Lys Gly Val Gln Arg Val Tyr Glu Lys Asp Arg Ala
165 170 175
Ile Ala Val Asp Leu Gly Gln Ile His Pro Met Val Thr Tyr Asp Ser
180 185 190
Lys Arg Ser Ile Ile Phe Asn Gly Gly Val Leu Asn Ser Phe Ile Arg
195 200 205
Phe Arg Asn Lys Gln Leu Ser Lys Leu Gln Gln Lys Met Ser Met Cys
210 215 220
Lys Lys Tyr Ser Lys Arg Trp Lys Lys Leu Asn Gly Ala Lys Lys Lys
225 230 235 240
Leu Leu Asn Lys Ser Lys Asn Lys Val Asn Asp Val Leu Gln Lys Tyr
245 250 255
Thr Ser Tyr Leu Val Gly Tyr Cys Ile Glu Gln Gly Ile Gly Thr Ile
260 265 270
Val Ile Gly Asp Ile Lys Ser Ile Arg Glu Asn Ile Asn Tyr Gly Val
275 280 285
Lys Thr Asn Gln Lys Leu His Asn Ser Trp Leu Phe Arg Lys Met Thr
290 295 300
Asn Ile Ile Glu His Lys Ala Asn Asn Val Gly Ile Lys Val Glu Tyr
305 310 315 320
Ile Asn Glu Ala Tyr Thr Ser Gln Thr Cys Pro Val Cys Asn Lys Lys
325 330 335
His Lys Pro Gly Asn Arg Asn Phe Thr Cys Lys Cys Gly Phe Lys Tyr
340 345 350
His Arg Asp Ala Val Gly Ala Ile Asn Ile His Lys Lys Tyr Thr Ser
355 360 365
Ser Leu Ser Ala Arg Leu Glu Gly Asp Leu Thr Pro Pro Val Gly Tyr
370 375 380
Arg Tyr Arg Tyr Asn Gln Arg Cys Leu Ala Gly Trp Asn Thr Ser Ile
385 390 395 400
Phe Asp Ala Gly Tyr Phe Ser Asp Leu Pro Thr Lys Lys Val Ala
405 410 415
<210> 73
<211> 405
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 73
Met Ser Arg Tyr Val Val Arg Thr Tyr Lys Val Ala Val Pro Lys Glu
1 5 10 15
Leu Tyr Pro Leu Cys Ala Glu Leu Asn Lys Thr Ala Ala Arg Ile Tyr
20 25 30
Asn Lys Thr Met Ser Leu Val Lys Lys Ile Lys Tyr Lys Lys Gly Phe
35 40 45
Trp Leu Ser Pro Asn Asn Thr Gln Lys Tyr Ile Leu Arg Trp Ala Cys
50 55 60
Ser Ile Asn Val His Thr His Ser Lys Gln Ala Ile Ile Gln Gln Tyr
65 70 75 80
Phe Gln Ala Leu Asp Ser Tyr Phe Asn Ala Val Lys Thr Lys Pro Asp
85 90 95
Leu Asn Pro Pro Tyr Lys Arg Lys Arg Phe Met Pro Phe Ile Trp Lys
100 105 110
Asp Thr Ala Ile Lys Leu Leu Pro Asp Gly Lys Leu Lys Leu Ser Met
115 120 125
Gly Ser Asn Arg Glu Pro Ile Val Ile Gln Thr Thr Leu Leu Ala Asp
130 135 140
Thr Lys Ile Arg Gln Ala Lys Leu Val Tyr Glu Glu Gly Lys Tyr Tyr
145 150 155 160
Leu His Leu Val Ile Glu Gly Lys Asn Val Ala Arg Lys Pro Gln Asn
165 170 175
Gly Lys Ile Met Ala Val Asp Leu Gly Ile Leu Arg Pro Ile Thr Cys
180 185 190
Phe Asp Gly Thr Glu Val Ile Ser Tyr His Gly Gly Ile Leu Asn Ser
195 200 205
Leu Ile Arg Tyr Arg Asn Lys Glu Leu Ala Lys Phe Gln Gln Met Leu
210 215 220
Ser Arg Cys Lys Lys Gly Ser Lys Arg Tyr Arg Lys Leu Val Lys Ala
225 230 235 240
Lys Lys Lys Met Leu Arg Arg Thr Arg His Gln Ile Lys Asp Ile Leu
245 250 255
His Lys Ile Thr Ser Asn Phe Leu Lys Met Cys Leu Gln Lys Gly Ile
260 265 270
Gly Thr Ile Ala Leu Gly Asp Val Thr Asn Ile Arg Glu Arg Val Glu
275 280 285
Gly Asn Asp Ser Ala Asn Gln Lys Leu His Gln Trp Cys Phe Arg Lys
290 295 300
Met Val Asp Met Ile Thr Tyr Lys Ala Glu Leu Leu Gly Met Asp Val
305 310 315 320
Lys Leu Val Pro Glu Glu Tyr Thr Ser Gln Thr Cys Pro Met Cys Gly
325 330 335
Ser Arg Asn His Ser Asn Asn Arg Asn Tyr Lys Cys Gln Asn Cys Gly
340 345 350
Phe Lys Tyr His Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Val Arg
355 360 365
Tyr Leu Gly Lys Lys Ser Gln Val Val Ala Gly Leu Ala Pro Val Arg
370 375 380
Gly Val Arg Tyr Lys Pro His Leu Cys Gly His Gly Val Arg Asn Ala
385 390 395 400
Pro Trp Lys Ala Ala
405
<210> 74
<211> 397
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 74
Met Pro Gly Tyr Val Val Arg Thr Tyr Lys Val Pro Val Pro Glu Glu
1 5 10 15
Leu Tyr Pro Leu Cys Ala Glu Leu Asn Lys Thr Ala Ala Arg Ile Tyr
20 25 30
Asn Lys Thr Met Ser Leu Val Lys Lys Ile Lys Arg Lys Lys Gly Ile
35 40 45
Trp Leu Ser Ser Asn Asn Ala Gln Lys Tyr Ile Leu Arg Trp Ala Cys
50 55 60
Gly Ile Asn Val His Thr His Ser Lys Gln Ala Met Val Gln Gln Tyr
65 70 75 80
Phe Gln Ala Leu Asp Ser Tyr Phe Asn Ala Val Lys Ala Lys Pro Asp
85 90 95
Leu Arg Pro Pro Tyr Lys Lys Lys Arg Phe Met Pro Phe Ile Trp Lys
100 105 110
Asp Ala Ala Ile Lys Leu Leu Pro Asp Gly Lys Leu Arg Leu Ser Met
115 120 125
Gly Asn Asn Gln Lys Pro Val Val Ile Gln Thr Thr Leu Pro Ala Asp
130 135 140
Thr Lys Ile Arg Gln Ala Lys Leu Val Tyr Glu Asp Gly Lys Tyr Tyr
145 150 155 160
Leu His Leu Ala Thr Glu Val Lys Asn Glu Val Gln Lys Gln Gln Gly
165 170 175
Lys Lys Val Met Ala Val Asp Leu Gly Ile Leu Arg Pro Ile Thr Cys
180 185 190
Phe Asp Gly Ile Glu Val Ile Ser Tyr His Gly Gly Ile Leu Asn Ser
195 200 205
Leu Ile Arg Tyr Arg Asn Lys Glu Leu Ala Lys Phe Gln Gln Met Leu
210 215 220
Ser Arg Cys Lys Lys Gly Ser Lys Arg Tyr Arg Lys Leu Val Lys Ala
225 230 235 240
Lys Lys Lys Met Leu Arg Arg Ile Arg His Gln Ile Lys Asp Ile Leu
245 250 255
His Lys Ile Thr Ser Asn Phe Leu Lys Met Cys Leu Gln Lys Gly Ile
260 265 270
Lys Thr Ile Ala Val Gly Asp Ile Thr Asn Ile Arg Glu Arg Val Gln
275 280 285
Gly Asn Asp Asn Ala Asn Gln Lys Leu His Gln Trp Cys Phe Arg Lys
290 295 300
Met Ile Asp Met Leu Thr Tyr Lys Val His Pro Leu Gly Ile Asp Val
305 310 315 320
Lys Leu Val Pro Glu Asn Tyr Thr Ser Gln Thr Cys Pro Ala Cys Gly
325 330 335
Ser Arg Asn His Pro Thr Asp Arg Asn Tyr Glu Cys Gln Asn Cys Gly
340 345 350
Phe Lys Tyr His Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Ala Arg
355 360 365
Tyr Leu Gly Lys Lys Ser Gln Val Val Ala Gly Leu Ala Pro Val Arg
370 375 380
Gly Val Arg Tyr Lys Pro His Leu Cys Gly His Gly Val
385 390 395
<210> 75
<211> 389
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 75
Met Tyr Gln Val Arg Arg Val Asn Ile Gly Lys Thr Ala Gln Leu Asp
1 5 10 15
Glu Leu Ala Arg Glu Cys Gly Arg Leu Tyr Ser Gln Thr Leu Ala Ser
20 25 30
Phe Trp Arg Thr Val Arg His Lys Gly Ile Trp Leu Lys Pro Lys His
35 40 45
Leu Met Arg Trp His Thr Ser Glu Lys Leu His Ala His Thr Ala Asp
50 55 60
Ala Cys Val Gln Ala Phe Phe Ala Ser Leu Lys Ser Trp Arg Glu Arg
65 70 75 80
Arg Lys Leu Gly Asp Pro Asp Ala His Pro Pro Arg Lys Arg Lys Trp
85 90 95
Tyr Phe Arg Ile Glu Tyr Lys Ser Thr Ala Met His His Lys Asp Ser
100 105 110
Val Leu Thr Leu Ser Asn Gly Lys Gly Asn Thr Pro Leu Val Leu Glu
115 120 125
Trp Pro Trp Glu Thr Pro Lys Thr Val Val Ile His Trp Thr Gly Thr
130 135 140
Gln Tyr Glu Ala Ile Ala Thr Tyr Lys Ile Glu Ala Gln Gly Gln Pro
145 150 155 160
Gln Gly Asn Lys Val Ala Gly Ile Asp Leu Gly Glu Ile His Met Ala
165 170 175
Val Ser His Asp Gly Thr Glu Thr His Ile Leu Asn Gly Arg Leu Leu
180 185 190
Arg Ser Lys Arg Gln Tyr Gln Asn Lys Leu Lys Ala Glu Leu Ser Thr
195 200 205
Met Ile Asp Val Lys Lys Lys Gly Ser Leu Arg Arg Lys Lys Leu Ile
210 215 220
Arg Ser Lys Gln Lys Gln Leu Lys Lys Leu Gln His Gln Val Asn Asp
225 230 235 240
Ile Glu His Lys Gln Ser Ser Arg Leu Ile Ser Thr Leu His Ala Lys
245 250 255
Gly Val Gln Thr Val Val Ile Gly Asp Val Arg Asp Ile Arg Gln Asp
260 265 270
Leu Asp Val Gly Ser Lys Asn Asn Gln Lys Leu His Gln Trp Ser His
275 280 285
Gly Ser Ile Arg His Lys Leu Thr Tyr Lys Ala Glu Trp Leu Gly Met
290 295 300
Glu Val Ala Leu Gln Asp Glu His Tyr Thr Ser Arg Thr Cys Pro Met
305 310 315 320
Cys Gln His Val Arg Lys Ser Lys Val Gln Gly Arg Val Phe Arg Cys
325 330 335
Pro Thr Cys His Trp Thr Tyr His Arg Asp Gly Val Gly Ala Ile Asn
340 345 350
Ile Arg Gln Lys Tyr Leu Gly Ser Leu Pro Val Ile Gly Asp Met Ala
355 360 365
Pro Pro Ile Gly Met Arg Phe Arg Pro His Thr Ser Val Ala Arg Trp
370 375 380
Glu Lys Thr Tyr Gln
385
<210> 76
<211> 392
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 76
Met Tyr Asn Val Arg Lys Leu Lys Ile Asp Gln Thr Glu Gln Leu Asp
1 5 10 15
Val Leu Ala Thr Ala Ser Gly Glu Leu Tyr Ser Arg Thr Leu Val Ser
20 25 30
Phe Trp Arg Thr Val Arg Lys His Gly Leu Trp Leu Lys Pro Ser Ser
35 40 45
Met Met Arg Trp Gln Asn Ser Gly Glu Leu His Ala His Ser Ala Asp
50 55 60
Ala Val Val Gln Ser Phe Tyr Ala Ser Leu Lys Ser Trp Arg Ala Leu
65 70 75 80
Arg Lys Val Asp Pro Asp Ala Lys Pro Pro Lys Arg Arg Lys His Phe
85 90 95
Phe Lys Val Gln Trp Lys Asn Ser Ala Ile Arg Leu Lys Asp Gly Cys
100 105 110
Leu Val Leu Ser Asn Gly Lys Gly Asn Glu Pro Leu Ile Ile Pro Trp
115 120 125
Asn Trp Thr Leu Pro Thr Leu Val Glu Leu Gly Trp Asn Gly Thr Gly
130 135 140
Tyr Glu Leu Arg Val Ile Tyr Ser Thr Thr Pro Thr Gly Val Pro Leu
145 150 155 160
Gly Val Lys Val Ala Gly Val Asp Met Gly Glu Ile His Leu Ala Val
165 170 175
Thr His Asp Gly Asp Asp Cys His Ile Tyr Asn Gly Arg Tyr Leu Arg
180 185 190
Ser Val Lys Arg Tyr Gln Asn Lys Lys Lys Ala Glu Ile Ser Ala Arg
195 200 205
Leu Asp Arg Met Lys Lys Gly Ser Arg Arg Ser Lys Tyr Leu Lys His
210 215 220
Asn Lys Ala Arg Thr Leu Lys Lys Leu Asp Asn Gln Ile Asn Asp Ile
225 230 235 240
Leu His Lys Gln Thr Thr Lys Leu Val Ser Thr Leu His Glu Ala Gly
245 250 255
Val Lys Thr Val Val Ile Gly Asp Val Arg Asp Ile Arg Lys Gly Leu
260 265 270
Asp Tyr Gly Ala Lys Ala Asn Gln Lys Ile His Gln Trp His Leu Gly
275 280 285
Lys Thr Arg Trp Leu Val Ser Tyr Lys Ala Glu Arg Leu Gly Met Glu
290 295 300
Val Val Leu Gln Asp Glu Ala Tyr Thr Ser Gln Thr Cys Pro Ala Cys
305 310 315 320
Gly Lys Arg His Lys Pro Lys Asp Arg Asn Tyr Arg Cys Ser Cys Gly
325 330 335
Phe Gln Tyr His Arg Asp Gly Ile Gly Ala Tyr Asn Ile Arg Ala Lys
340 345 350
Tyr Leu Gly Glu Leu Glu Thr Pro His Val Val Gly Ala Met Met Ser
355 360 365
Pro Thr Gly Val Arg Val Leu Gln Arg Cys Ser His Leu Ala Arg Lys
370 375 380
Asn Pro Leu Pro Leu Gly Met Gly
385 390
<210> 77
<211> 401
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 77
Met Asn Ile Ala His Gln Asp Ala Ile Trp Glu Ala Ser Lys Glu Ser
1 5 10 15
Ala Ser Ile Tyr Asn Asp Ala Ile Lys Leu Asn Gln Asp Gly Ile Pro
20 25 30
Lys Ala Gln Ala Met Lys Ser Leu Ser Ile Gln Ser Lys His Thr Lys
35 40 45
Tyr Leu Gln Ser Gln Ser Ser Gln Ala Pro Tyr Gln Asn Phe Phe Ile
50 55 60
Asp Leu Ser Ser Tyr Phe Ala Ser Leu Lys Arg Tyr Gln Lys Ser Lys
65 70 75 80
Arg Gly Tyr Lys Asn Glu Pro Lys Pro Pro His Lys Ile Lys Thr Leu
85 90 95
His Ala Ile Thr Phe Lys Lys Ser Ala Ile Arg Val Gln Asn Gly Tyr
100 105 110
Leu Leu Leu Ser Leu Arg Lys Pro Asn Lys Pro Ile Lys Leu Lys Trp
115 120 125
Ser Leu Ser Lys Pro Ile Trp Val Leu Ile Asn Phe Asp Ile Arg Thr
130 135 140
Gly Trp Lys Met Asn Cys Val Met Glu Gln Glu Val Gln Gln His Gln
145 150 155 160
Leu Asp Lys Thr Lys Ile Leu Ala Ile Asp Leu Gly Asn Lys Arg Ile
165 170 175
Ala Ala Ser Phe Asp Gly Lys Arg Cys Val Thr Tyr Ser Gly Lys Ile
180 185 190
Leu Lys Ser Leu Thr Arg Leu Gln Asn Lys Cys Ser Ala Arg Ser Lys
195 200 205
Ala Ser Thr Ser Ser Leu Ile Lys Asn Ser Lys Lys Tyr Lys Arg Val
210 215 220
Met Arg Ala Arg Arg Lys Ile Thr Ala Arg Ile Asn Asn Gln Lys Arg
225 230 235 240
Asp Ile Leu His Lys Thr Ser Arg Ala Ile Val Asn Tyr Ala Ile Glu
245 250 255
Asn Asn Ile Asp Lys Ile Val Phe Gly Asp Cys Ser Ser Ile His Asp
260 265 270
Gly Thr Thr Leu Gly Lys Glu Asn Thr Gln Gln Val Gln Gln Gly Cys
275 280 285
Glu Gln Lys Leu Arg Lys Tyr Val Glu Tyr Lys Phe Arg Asn Val Gly
290 295 300
Gly Thr Thr Glu Leu Val Ser Glu Arg Tyr Ser Ser Gln Glu Cys Pro
305 310 315 320
Ile Cys Asp His Arg Tyr Glu Pro Arg Gly Arg Thr Tyr Lys Cys Ser
325 330 335
Ala Cys Gly Tyr Val Tyr Asp Arg Asp Gly Val Gly Ser Ile Asn Ile
340 345 350
Tyr Thr Asn Val Ser Ser Gly Leu Thr Leu Asp Val Val Gly Gly Leu
355 360 365
Met Pro Pro Arg Gly Trp Lys Phe His Ser Gln Leu Pro Cys Thr Thr
370 375 380
Leu Arg Asn Ser Tyr Phe Ser Met Leu Tyr Cys Gly Glu Pro Asn Asp
385 390 395 400
Leu
<210> 78
<211> 431
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 78
Val Arg Lys Ile Ala Glu Ser Lys Gly Tyr Phe Thr Lys Ala Val Ser
1 5 10 15
Val Glu Leu Val Gly His Ser Lys Glu Asp Thr Val Trp Leu Leu Asp
20 25 30
Ile Leu Asn Arg Gly Tyr Pro Leu Ala Asn Lys Met Tyr Leu Leu Tyr
35 40 45
Arg Trp Tyr Tyr Glu Gly Leu Phe Pro Thr Glu Ile Glu Leu Asn Lys
50 55 60
Leu Glu Thr Tyr Val Tyr His Lys Ala Arg Glu Asp Ser Arg Phe Thr
65 70 75 80
Asp Ile Pro Ser Asn Ile Ile Ala Cys Thr Asn Arg Thr Ile Leu Gln
85 90 95
Lys Ile Lys Tyr Asp Ile Lys Ser Gly Ala Lys Ser Gly Lys Arg Ser
100 105 110
Trp Ser Gln Phe Lys Lys Gly Gln Pro Leu Tyr Phe Val Gln His Asn
115 120 125
Tyr Leu Glu Lys Thr Asp Asp Gly Tyr Asn Tyr Asn Phe Ile Phe Gly
130 135 140
His Lys Phe Lys Leu Lys Phe Gly Arg His Asn Glu Gly Glu Gln Leu
145 150 155 160
Ile Glu Lys Leu Met Asp Ser Glu Ser Gln Phe Lys Leu Asn Ala Asn
165 170 175
Ala Ala Phe Lys Val Ile Lys Arg Arg Leu Phe Leu Leu Leu Ser Tyr
180 185 190
Glu Ile Pro Asp Lys Ile Glu Asn Lys Pro Asn Pro Asp Asn Ile Met
195 200 205
Gly Ile Asp Phe Gly Met Ala Asn Phe Ala Thr Cys Tyr Leu Ala Asn
210 215 220
Asp Arg Lys Phe Lys Ile Val Arg Asp His Lys Tyr Leu Lys Lys Arg
225 230 235 240
Leu Leu Leu Gln Arg Lys Ile Lys Asn Leu Gln Ser Glu Leu Ser Met
245 250 255
His His Ala Gly Leu Gly Arg Ala Arg Lys Thr Arg Lys Ile Glu Asp
260 265 270
Tyr Arg Asn Lys Glu Lys Asn Leu Thr Lys Thr Glu Ile Ser Gln Ile
275 280 285
Leu Ser Ser Ile Val Arg Leu Ala Gln Ala Asn Asn Ile Gly Thr Ile
290 295 300
Lys Ile Glu Tyr Leu Thr Ile Asp Gln Lys Thr Gln Leu Glu Asp Lys
305 310 315 320
Tyr Val Tyr Arg Asn Trp Ala Val Met Met Thr Ile Asp Met Leu Arg
325 330 335
Glu Lys Ala Lys Tyr Val Gly Ile Asn Val Val Thr Ile Asp Pro Tyr
340 345 350
His Thr Ser Gln Lys Cys Ser Thr Cys Gly Thr Ile Gly Thr Arg Asp
355 360 365
Gly Arg Ile Phe Ser Cys Glu Asn Pro Ser Cys Lys Ser Phe His Lys
370 375 380
Val Val Asn Ala Asp Lys Asn Ala Ala Ile Asn Ile Ala Asn Ser Thr
385 390 395 400
Gln Phe Val Asp Asp Val Lys Asp Thr Glu Tyr Tyr Lys Gln Lys Gln
405 410 415
Glu Phe Phe Lys Thr Leu Arg Glu Lys Lys Glu Thr Asn Ile Thr
420 425 430
<210> 79
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 79
tgtgtatacc attcaaattg tat 23
<210> 80
<211> 447
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 80
Met Ala Lys Lys Asn Ile Asp Asp Thr Lys Lys Val Thr Leu Cys Glu
1 5 10 15
Lys Val Lys Leu Thr Gln Ile Tyr Ser Pro Val Val Asp Trp Lys Glu
20 25 30
Phe His Lys Ile Phe Lys Ile Leu Gln Lys Glu Thr Ile Leu Ala Ser
35 40 45
Asn Lys Ile Ile Ser Ile Cys Asn Ile Phe Asn Ser Phe Asn Asn Lys
50 55 60
Glu Glu Gln Lys Asp Trp Leu Ile Lys Lys Tyr Gln Ser Glu Lys Leu
65 70 75 80
Arg Asn Val Leu Tyr Asp Val Ala Arg Lys Tyr Cys Tyr Tyr Ser Tyr
85 90 95
Ser Arg Asn Ala Asn Ala Ile Ser Asn Asp Ile Tyr Tyr Lys Tyr Phe
100 105 110
Lys Gly Pro Asn Ser Tyr Lys Val Lys Ile Gln Lys Gly Ile Gly Asn
115 120 125
Pro Pro Met Thr Phe Thr Glu Ser Ile Pro Leu Tyr Ile Thr Val Gln
130 135 140
Arg His Lys Ile Glu Cys Thr Asn Asn Val Arg His Tyr Tyr Thr Ile
145 150 155 160
Glu Val Pro Leu Leu Ser Asn Asn Cys Lys Ser Gly Ile Gln Ile Thr
165 170 175
Asp Thr Glu Gln Thr Gln Val Asn Asn Asn Ala Leu Arg Phe Gly Ile
180 185 190
Asn Ala Ala Gly Asn Lys Arg Leu Ile Glu Ile Leu Asp Asn Ile Ile
195 200 205
Tyr Gly Lys Tyr Glu Phe Cys Asp Ser Lys Leu Lys Arg Val Lys Ser
210 215 220
Lys Lys Arg Ser His Arg Tyr Asp Tyr Tyr Phe Leu Leu Ser Tyr Lys
225 230 235 240
Lys Pro Val Ile Glu Ile Lys Ser Leu Lys Pro Glu Asn Val Leu Gly
245 250 255
Val Asp Leu Gly Met Thr Val Pro Ala Tyr Cys Ala Val Asn Tyr Cys
260 265 270
Asp Tyr Lys Lys Lys Ala Val Gly Asp Ser Arg Ile Ile Arg Phe Asn
275 280 285
Leu Ile Gln Glu Lys Ile Asn Lys Arg Ile Gln Arg Asn Ile Lys Tyr
290 295 300
Asn Leu Arg Asp Gly His Gly Arg Lys Tyr Lys Leu Asp Gly Tyr Asp
305 310 315 320
Gly Ala Ser Asn Lys Ile Ala Lys Arg Asn Ser Thr Phe Asn Phe Asn
325 330 335
Leu Ala Ser Glu Ile Ile Gln Leu Ala Ile Lys Trp Gln Cys Gly Thr
340 345 350
Ile His Leu Glu Asp Leu Thr Lys Ile His Glu Ile Asn Pro Gln Asn
355 360 365
Arg Phe Leu Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Lys Lys Ile Glu
370 375 380
Asn Lys Ala Lys Glu Tyr Gly Ile Val Val Lys Tyr Ile Asn Pro Tyr
385 390 395 400
Tyr Thr Ser Gln Ile Cys Ser Asn Cys Gly His Phe Glu Ser Gly Gln
405 410 415
Arg Ile Ser Gln Ser Gln Phe Gln Cys Lys Ser Cys Gly Tyr Ser Ala
420 425 430
Asn Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Leu Tyr Lys Phe
435 440 445
<210> 81
<211> 32
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 81
ctttcaatct gcacatgcgt acggattgta tc 32
<210> 82
<211> 595
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 82
Met Ser Thr Met Val Phe Glu Tyr Tyr Leu Arg Ser Pro Glu Lys Glu
1 5 10 15
Gln Glu Gln Ile Val Ile Gln Gln Leu Arg Ala Ser Tyr Glu Tyr Tyr
20 25 30
Asn Thr Leu Ile Arg Ile Glu Gln Asn Arg Arg Asn Gln Phe Arg Ala
35 40 45
Ile Gln Ser Gln Asp Pro Lys Ile Ala Gln Leu Glu Leu Glu Ile Ser
50 55 60
Ser Leu Asp Thr Glu Ile Asp Leu His Leu Thr Ser Ile Gln Asn Thr
65 70 75 80
Arg Ser Thr Asn Arg Lys Asn Val Leu Asp Lys Lys Asp Val Asp Arg
85 90 95
Val Lys Ser Leu Lys Ala Asp Arg Lys Leu Lys Arg Asp Glu Leu Lys
100 105 110
Ile Ala Lys Lys Ser Phe Cys Asp Asn Leu Ile Phe Gln Lys Ala Cys
115 120 125
Glu Asp Ile Asn Leu Phe Ala Lys Asn Glu Ser Lys Ala Ala Arg Lys
130 135 140
Ala Thr Pro Ser Tyr Trp Gly Ser Tyr Leu Leu Ile Glu Asn Ala Ile
145 150 155 160
Asp Ala Ala Lys Lys Ser Lys Thr Asp Pro Lys Arg Lys Tyr Trp Asp
165 170 175
Trp Thr Gly Arg Leu Gly Val Gln Val Gln Gly Gly Met Ser Val Ser
180 185 190
Glu Leu Phe Gly Asn Asp Thr Arg Ile Gln Ile Asp Pro Val Ser Leu
195 200 205
Asp Ala Trp Tyr His Pro Ile Arg Gly Lys Arg Lys Tyr Ala Gln Arg
210 215 220
Gln Pro Lys Leu Arg Phe Arg Ile Asn Ser Asp Asp Lys Gly Lys Pro
225 230 235 240
Ile Phe Val Glu Phe Pro Met Ile Met His Arg Pro Leu Pro Gln Asn
245 250 255
Ala Cys Ile Lys Gln Ala Asn Val Ile Val Thr Asn Arg Asp Arg Lys
260 265 270
Leu Cys Tyr Val Leu Gln Leu Thr Val Asn Ile Pro Glu Pro Val Ala
275 280 285
Ser Pro Cys Thr Asn Gly Val Gly Ile Asp Leu Gly Trp Arg Leu Met
290 295 300
Asp Ser Gly Asp Ile Arg Val Ala Tyr Gly Tyr Asp Gln Lys Gly Thr
305 310 315 320
Lys Ile Asp Leu Arg Leu Pro Lys Ser Ile Thr Ser Leu Phe Gln Lys
325 330 335
Ala Glu Ser Ile Arg Ala Ile Arg Asp Lys Glu Phe Glu Asp His Arg
340 345 350
Lys Ile Met Ile Pro Leu Ile Gln Gly Val Thr Phe Pro Asn Ile Asn
355 360 365
Thr Thr Asn Ile Gly Leu Ser Lys Ser Phe Arg Arg Phe His Ser Leu
370 375 380
Tyr Leu Gly Trp Lys Ala Asn Arg Gln Asp Gly Asp Gln Ile Ala Phe
385 390 395 400
Asp Ala Leu Glu Thr Trp His Arg Lys Asp Arg His Leu Glu Gln Tyr
405 410 415
Glu Val Gly Cys Arg Lys Arg Ala Met Asn Tyr Arg Arg Glu Glu Tyr
420 425 430
Arg Lys Phe Ala Lys Gln Met Thr Ser Thr Tyr Gly Tyr Leu Ala Leu
435 440 445
Glu Asn Trp Asn Ile Ser Lys Val Ala Leu Arg Pro Glu Ile Glu Asp
450 455 460
Gly Thr Arg Glu Gln Ser Glu Pro Gln His Gln Arg Val Met Ala Cys
465 470 475 480
Val Ser Met Leu Arg Gln Ile Leu Ile Asn Thr Ala Lys Arg Glu Gly
485 490 495
Val Ser Ile Ile Ser Val Pro Ala Ala Tyr Thr Thr Leu Glu Cys Ala
500 505 510
Ala Cys His Lys Ile Asn Thr Trp Asp Thr Ser Lys Asn Val Cys Gln
515 520 525
Thr Cys Glu Asn Cys Asp Thr Val Trp Asp Gln Asp Glu Asn Ala Ala
530 535 540
Arg Asn Leu Leu Ala Ser Gly Thr Val Leu Lys Asn Thr Ala Pro Leu
545 550 555 560
Pro Glu Glu Ala Asn Ile Ala Asn Thr Glu Lys Lys Ser Arg Trp Ser
565 570 575
Lys Arg Lys Ala Glu Val Val Ile Asp Glu Lys Val Asp Arg Ser Gln
580 585 590
Ile Ala Ser
595
<210> 83
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 83
cttgtaatgg ttgctcaaca ccttgaaagt tgagac 36
<210> 84
<211> 475
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 84
Met Lys Val Tyr Lys Tyr Gly Leu Leu Pro Pro Ile Lys Asn Gln Thr
1 5 10 15
Leu Val Phe Glu Gln Leu Asn Lys Ala Tyr Gln Tyr Lys Lys Gln Leu
20 25 30
Ile Asp Leu Val Asn Gln Glu Lys Ala Leu Leu Lys Lys Glu Glu Asp
35 40 45
Asn Ile Phe Gln Arg Leu Asn Pro Ala Leu Ile Ser Lys Lys Glu Thr
50 55 60
Thr Gln Gln Thr Val Glu Glu Leu Leu Ala Leu Met Lys Gln Gln Arg
65 70 75 80
Ser Lys Asn Arg Ser Lys Gln Asp Asn Ile Glu Leu Lys Gln Gln Phe
85 90 95
Lys Ile Ala Lys Glu Asn Ala Lys Gln Ala Lys Lys Asp Tyr Phe Thr
100 105 110
Glu Leu Ser Arg Ile Lys Thr Leu Glu Glu Val Lys Thr Ser Lys Glu
115 120 125
Lys Ile Lys Thr Asn Phe Lys Gln Leu His Lys Glu Ala Arg Lys Lys
130 135 140
Cys Gly Val Tyr Trp Gly Thr Tyr Leu Leu Ile Glu Glu Ala Val Glu
145 150 155 160
Gln Ser Lys Lys Thr Ser Phe Lys Lys Asp Phe Ile Phe Tyr Gly Arg
165 170 175
Arg Asp Asn Glu Arg Leu Gly Asn Gln Ile Gln Thr Ser Lys Asp Asp
180 185 190
Ser Gly Ser Lys Ile Met Gly Met Leu Ser Ser His Leu Phe Asn Glu
195 200 205
Lys Asn Ser Gln Ile Tyr Ile Glu Pro Val Ala Asp Thr Ala Trp Ile
210 215 220
Gly Val Tyr Arg Lys Asp Arg Arg Arg Thr Ala Lys Thr Ile Leu His
225 230 235 240
Trp Arg Ile Ala Ser Asp Glu Lys Leu Lys Pro Ile Trp Ala Glu Phe
245 250 255
Pro Met Ile Met His Arg Pro Leu Pro Lys Asp Ser Lys Ile Lys Ser
260 265 270
Ala Thr Ile Ser Arg Arg Phe Tyr Gly Pro His Gln Glu Trp Thr Leu
275 280 285
Glu Ile Thr Ile Asp Asp Asn Leu Ser Pro Thr Lys Glu Leu Gly Asn
290 295 300
Gly Val Val Ala Leu Asp Ile Gly Trp Arg Lys Leu Asn Asp Lys Ile
305 310 315 320
Arg Val Ala Thr Leu Tyr Asp Gly Glu Phe His Lys Glu Leu Val Ile
325 330 335
Ser Thr Tyr Gln Leu Asp Lys Ala Asn Glu Leu Lys Ser Leu Arg Asp
340 345 350
Asp Leu Phe Asn Gln Val Lys Asn Gln Ile Thr Glu Trp Asn Lys Glu
355 360 365
Lys Phe Pro Glu Trp Ile Leu Lys Glu Leu Glu Phe Val Ser Lys Trp
370 375 380
Lys Ser Gln Ala Arg Leu Val Arg Leu Val Lys Asn Trp Lys Lys Glu
385 390 395 400
Arg Trp Gln Asp Asp Asn Ile Tyr Phe Glu Leu Val Glu Ala Trp Arg
405 410 415
Tyr Lys Asp Gln His Leu Trp Gln Trp Glu Cys Gly Ser Arg Arg Ser
420 425 430
Gly Leu Arg Glu Arg Ile Ile Ile Ala Thr Leu Pro Pro Asn Leu Glu
435 440 445
Arg Asn Ile Thr Val Leu Tyr Trp Lys Thr Leu Ile Phe Gln Arg Trp
450 455 460
Gln Asn Tyr Gln Asn Phe Arg Gln Lys Lys Ile
465 470 475
<210> 85
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 85
atagtaatgg cagctcaatg ccctataaat tgagac 36
<210> 86
<211> 411
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 86
Met Pro Val Lys Ala Val Lys Phe Gln Ile Ile Lys Pro Leu Asn Ala
1 5 10 15
Thr Trp Asp Val Leu Gly Lys Thr Leu Arg Asp Leu Asn Tyr His Thr
20 25 30
Thr Leu Met Cys Asn Arg Ala Ile Gln Leu Tyr Trp Glu Tyr Gly Asn
35 40 45
Phe Arg Ser Gln Tyr Lys Ala Glu His Gly Lys Tyr Pro Ile Asp Lys
50 55 60
Asp Ile Tyr Gly Cys Ser Tyr Arg Asn His Val Tyr Arg Gln Leu Arg
65 70 75 80
Leu Met Tyr Pro Leu Met Ala Ser Ser Asn Thr Ser Gln Thr Asn Gln
85 90 95
Phe Ala Leu Lys Arg Trp Gln Thr Asp Val Pro Asp Ile Arg Lys Leu
100 105 110
Ala Lys Ser Ile Pro Ser Phe Lys Leu Gly Thr Pro Ile Gln Val Ala
115 120 125
Asn Gln Asn Phe Asp Leu Arg Phe Asn Asp Asp Thr Phe Ser Val Asp
130 135 140
Val Thr Leu Leu Gly Arg Glu Ser Glu Val Gly Arg Phe Ser Ile Leu
145 150 155 160
Leu Asp Thr Gly Asp Lys Ser Lys Arg Val Ile Phe Gln Arg Ile Leu
165 170 175
Asp Arg Thr Tyr Lys Gln Gly Ser Met Gln Ile Val Tyr Ser Lys Lys
180 185 190
Lys Gly Lys Trp Phe Cys Val Ile Ala Tyr Asp Ser Pro Ile Lys Val
195 200 205
Asn Glu Leu Asp Ile Asp Lys Val Met Gly Ile Asp Leu Gly Ile Val
210 215 220
Asn Ala Val Tyr Trp Ala Phe Asn Ser Gly His Asn Arg Gly Cys Ile
225 230 235 240
Ser Gly Gly Glu Ile Asp Thr Phe Arg Lys Gln Ile Glu Val Arg Arg
245 250 255
Arg Gln Ile Leu Arg Thr Pro Arg Lys Asp Gly His Gly Arg Lys Arg
260 265 270
Asn Met Gln Ala Ala Asp Ile Leu Gly Glu Lys Ile Ser Asn Phe Arg
275 280 285
Asp Thr Val Asn His Lys Tyr Ser Lys Lys Ile Ile Asp Ile Ala Ile
290 295 300
Ala Asn Lys Cys Gly Val Ile Gln Met Glu Asp Leu Thr Gly Ile Ser
305 310 315 320
Lys Asp Ser Phe Phe Leu Arg Asn Trp Thr Tyr Arg Asp Leu Gln Asp
325 330 335
Lys Ile Val Tyr Lys Ala Leu Gln Glu Gly Ile Ile Val Lys Leu Ile
340 345 350
Asp Pro Arg Asn Thr Ser Lys Thr Cys Ser Val Cys Gly His Leu Asp
355 360 365
Ala Glu Asn Arg Glu Asp Gln Ala Thr Phe Ile Cys Lys Asn Pro Glu
370 375 380
Cys Gly Ser Asn Met Asn Ala Asp His Asn Ala Ala Lys Asn Ile Ser
385 390 395 400
Val Trp Ser Lys Val Ser Lys Glu Phe Gly Leu
405 410
<210> 87
<211> 30
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 87
actccaaccc cacatagtta ccatggaaac 30
<210> 88
<211> 425
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 88
Met Asn Lys Val Met Arg Tyr Gln Ile Ile Lys Pro Ile Asp Ile Asp
1 5 10 15
Trp Lys Thr Phe Gly Asp Ile Leu Asn Lys Leu Arg Gln Glu Val Arg
20 25 30
Phe Thr Lys Asn Lys Thr Ile Ala Leu Tyr Asn Asp Trp Leu Thr Tyr
35 40 45
Cys Phe Gln Tyr Lys Asn Glu His Asn Glu Tyr Pro Lys Leu Val Asp
50 55 60
Tyr Cys Gly Tyr Lys Val Phe Ser Gly Tyr Ala Tyr Asp Lys Phe Lys
65 70 75 80
Thr Glu Val Val Phe Ser Asn Thr Ala Asn Tyr Thr Thr Ser Val Arg
85 90 95
Glu Ala Cys Ser Ala Tyr Asp Ala His Lys Thr Asp Ile Leu Lys Gly
100 105 110
Asn Cys Ser Ile Pro Ser Met Gly Ala Asn Gln Pro Ile Asp Leu His
115 120 125
Asn Lys Ser Leu Ser Val Asp Ile Asn Glu Phe Gly Asp Tyr Ile Ala
130 135 140
Thr Ile Ser Leu Leu Ser Asn Arg Gly Lys Lys Glu Phe Gly Leu Lys
145 150 155 160
Ser Gly Gln Ile Lys Ile Val Leu Lys Ala Gly Asp Lys Ser Ser Arg
165 170 175
Asp Ile Leu Gln Arg Cys Val Ser Lys Glu Tyr Lys Ile Cys Gly Ser
180 185 190
Lys Ile Ile Tyr Lys Asp Lys Lys Thr Phe Ile Asn Leu Cys Tyr Gly
195 200 205
Phe Glu Pro Val Thr Ser Glu Leu Asp Lys Ser Lys Val Met Gly Ile
210 215 220
Asp Leu Gly Val Ser Val Pro Ala Tyr Met Ala Phe Asn Phe Asp Lys
225 230 235 240
Tyr Lys Arg Asp Ser Ile Lys Asp Asn Arg Ile Met Ala Thr Lys Trp
245 250 255
Met Met Asp Arg Gln Leu Ser Ile Ala Lys Gln Ser Cys Lys Tyr Leu
260 265 270
Ser Asp Gly Asn Cys Gly His Gly Arg Lys Lys Lys Met Val Cys Tyr
275 280 285
Asp Lys Tyr Ser Asn Lys Ser Arg Asn Leu Ser Gln Thr Ile Asn His
290 295 300
Gly Trp Ser Lys Tyr Ile Val Asp Val Ala Phe Arg Asn Gly Cys Gly
305 310 315 320
Thr Ile Gln Met Glu Asp Leu Ser Gly Val Thr Ser Glu Lys Asp Lys
325 330 335
Phe Leu Lys Asn Trp Thr Phe Tyr Asp Leu Gln Gln Lys Ile Glu Tyr
340 345 350
Lys Ala Lys Glu Arg Gly Ile Asn Val Val Lys Ile Asn Pro Lys Tyr
355 360 365
Thr Ser Gln Arg Cys Cys Glu Cys Gly Cys Ile Cys Lys Arg Asn Arg
370 375 380
Pro Asp Gln Lys Thr Phe Lys Cys Ile Ser Cys Gly Tyr Ser Ala Asn
385 390 395 400
Ala Asp Phe Asn Ala Ala Lys Asn Ile Ala Thr Ile Gly Ile Glu Asp
405 410 415
Ile Ile Ala Asn Thr Glu Val Ile Glu
420 425
<210> 89
<211> 33
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 89
cgaagcaact cgcgcattcg cgcgaggtga gag 33
<210> 90
<211> 459
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 90
Met Arg Ile Glu Ile Met Val Lys Lys Lys Gly Ile Asn Met Asn Lys
1 5 10 15
Ile Met Lys Tyr Gln Ile Leu Lys Pro Thr Asn Ile Gly Trp Glu Asp
20 25 30
Phe Gly Asn Ile Leu Tyr Asn Leu Arg Ser Glu Val Arg Lys Ile Lys
35 40 45
Asn Arg Thr Ile Ala Leu Tyr His Glu Trp Thr Gly Tyr Thr Leu Glu
50 55 60
Cys His Asp Arg Thr Gly Glu Trp Pro Lys Pro Lys Asp Val Tyr Asn
65 70 75 80
Tyr Gly Thr Ile Gly Gly Tyr Ile Tyr Asp Arg Leu Lys Gly Glu Val
85 90 95
Lys Tyr Ser Asn Ser Val Asn Phe Ser Ser Ser Val Arg Asp Ala Met
100 105 110
Ser Lys Tyr Asp Thr His Lys Lys Asp Ile Leu Ala Gly Lys Ala Ser
115 120 125
Val Pro Ser Met Gly Asp Gly Gln Pro Ile Asp Ile Tyr Asn Lys Asn
130 135 140
Ile Val Leu His His Leu Asp Asn Glu Lys Lys Asp Tyr Ala Ala Thr
145 150 155 160
Leu Ser Leu Leu Asn Asn Gly Ala Lys Thr Glu Leu Gly Leu Leu Ser
165 170 175
Gly Arg Val Asp Val Ile Leu Thr Ile Lys Asn Glu Thr Gln Thr Ala
180 185 190
Ile Leu Asp Arg Cys Leu Ser Gly Glu Tyr Arg Val Cys Gly Ser Gln
195 200 205
Leu Val Tyr Glu Ala Ala Gly Lys Glu Lys Lys Gly Lys Lys Asp Lys
210 215 220
Pro Lys Val Trp Leu Tyr Leu Cys Tyr Gly Phe Glu Pro Glu Ala Pro
225 230 235 240
Glu Leu Asp Asp Ser Arg Ile Met Gly Ile Asp Leu Gly Met Lys Leu
245 250 255
Pro Ala Val Met Ala Phe Asn Phe Asn Asp Lys Lys Tyr Glu Val Ile
260 265 270
Asp Asp Asn Arg Ile Leu Asp Arg Lys Ile Arg Leu Asp Lys Met Leu
275 280 285
Ser Ile Ser Lys His Gln Cys Gln Trp Arg Cys Asp Gly Asn Ser Gly
290 295 300
His Gly Arg Lys Lys Lys Val Asp Val Tyr Glu Arg Tyr Ser His Lys
305 310 315 320
Ser His Asn Leu Ser Met His Ile Asn His Gln Trp Ser Lys Tyr Ile
325 330 335
Val Asp Thr Ala Val Lys Asn Lys Cys Gly Val Ile Gln Met Glu Asp
340 345 350
Leu Ser Gly Ile Lys Ala Ser Arg Gln Asn Phe Leu Gly Asn Trp Thr
355 360 365
Tyr Tyr Asp Leu Gln Gln Lys Ile Thr Tyr Lys Ala Glu Glu Lys Gly
370 375 380
Val Lys Val Ile Lys Val Asp Pro Ser Tyr Thr Ser Gln Met Cys Pro
385 390 395 400
Val Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr Gln Ala Asp Phe
405 410 415
Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp Tyr Asn Ala Ala
420 425 430
Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile Lys Asn Arg Leu
435 440 445
Ala Gln Gln Lys Lys Glu Gly Lys Pro Ile Glu
450 455
<210> 91
<211> 26
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 91
gtctcattcc atatatgtgc gtgaga 26
<210> 92
<211> 479
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 92
Met Pro Met Ser Ser Tyr Arg Lys Thr His Tyr Thr Asn Thr Cys Glu
1 5 10 15
Leu Arg Glu Ile Tyr Met Arg Ile Glu Ile Met Val Lys Lys Lys Gly
20 25 30
Ile Asn Met Asn Lys Ile Met Lys Tyr Gln Ile Leu Lys Pro Thr Asn
35 40 45
Ile Ser Trp Glu Asp Phe Gly Asn Ile Leu Tyr Asn Leu Arg Ser Glu
50 55 60
Val Arg Lys Ile Lys Asn Arg Thr Ile Ala Leu Tyr His Glu Trp Thr
65 70 75 80
Asn Tyr Thr Leu Glu Cys His Asp Lys Thr Gly Glu Trp Pro Lys Pro
85 90 95
Lys Asp Val Tyr Asn Tyr Gly Thr Met Ser Gly Tyr Ile Tyr Asp Arg
100 105 110
Leu Lys Gly Glu Val Arg Tyr Ser Asn Ser Val Asn Phe Asn Ser Ser
115 120 125
Val Arg Asp Ala Met Ser Lys Tyr Asp Thr His Lys Lys Asp Ile Leu
130 135 140
Ala Gly Lys Val Ser Val Pro Ser Met Gly Asp Gly Gln Pro Ile Asp
145 150 155 160
Ile Tyr Asn Lys Asn Ile Val Leu His His Leu Asp Asn Glu Lys Lys
165 170 175
Asp Tyr Ala Ala Thr Leu Ser Leu Leu Asn Asn Gly Ala Lys Ala Glu
180 185 190
Leu Gly Leu Leu Ser Gly Arg Val Asp Val Ile Leu Thr Ile Lys Asn
195 200 205
Glu Thr Gln Thr Ala Ile Leu Asp Arg Cys Leu Ser Gly Glu Tyr Arg
210 215 220
Ile Cys Gly Ser Gln Leu Ile Tyr Glu Gly Gly Lys Glu Lys Lys Gly
225 230 235 240
Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr Gly Phe Glu
245 250 255
Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly Ile Asp Leu
260 265 270
Gly Met Lys Leu Pro Ala Val Met Ala Phe Asn Phe Asn Asp Lys Lys
275 280 285
Tyr Glu Val Ile Asp Asp Asn Arg Ile Leu Asp Arg Lys Ile Arg Leu
290 295 300
Asp Lys Met Leu Ser Met Ser Lys His Gln Cys Gln Trp Arg Cys Asp
305 310 315 320
Gly Asn Ser Gly His Gly Arg Asn Lys Lys Val Asp Val Tyr Glu Arg
325 330 335
Tyr Ser His Lys Ser His Asn Leu Ser Met Asp Ile Asn His Gln Trp
340 345 350
Ser Lys Tyr Ile Val Asp Thr Ala Val Lys Asn Lys Cys Gly Val Ile
355 360 365
Gln Met Glu Asp Leu Ser Gly Ile Lys Ala Ser Arg Gln Asn Phe Leu
370 375 380
Gly Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Thr Tyr Lys Ala
385 390 395 400
Glu Glu Lys Gly Ile Lys Val Ile Lys Val Asp Pro Cys Tyr Thr Ser
405 410 415
Gln Met Cys Pro Val Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr
420 425 430
Gln Ala Asp Phe Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp
435 440 445
Tyr Asn Ala Ala Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
450 455 460
Lys Asn Arg Leu Ala Gln Gln Lys Lys Glu Gly Lys Pro Ile Glu
465 470 475
<210> 93
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 93
cacgcgtgtg tgtgaaatga gac 23
<210> 94
<211> 447
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 94
Met Asn Lys Ile Met Lys Tyr Gln Ile Ile Lys Pro Leu Asn Ile Asp
1 5 10 15
Trp Glu Thr Phe Gly Asn Ile Leu Phe Asn Leu Arg Lys Glu Ser Arg
20 25 30
Gln Val Lys Asn Arg Ala Ile Ala Ile Tyr His Glu Trp Val Leu Tyr
35 40 45
Ser Met Ala Tyr Tyr Asp Glu Cys Gly Lys Trp Pro Lys Ile Ile Asp
50 55 60
Val Tyr Pro Pro Tyr Lys Thr Ala Asp Gly Tyr Ile Tyr Asp Lys Leu
65 70 75 80
Lys Asn Glu Met Gly His Met Leu Ser Asn Asn Phe Asn Ala Thr Ile
85 90 95
Arg Asn Ala Leu Ser Lys Tyr Asp Thr His Lys Lys Asp Ile Met Ala
100 105 110
Gly Lys Val Ser Val Pro Ser Met Asp Ala Gly Gln Pro Ile Asp Val
115 120 125
Tyr Ala Lys Gly Ile Thr Leu His His Ile Asp Gly Asp Lys Gly Asp
130 135 140
Tyr Val Ala Thr Leu Ser Leu Leu Asn Ser Lys Ala Lys Ala Thr Leu
145 150 155 160
Asn Leu Pro Ser Gly Arg Ile Asp Met Val Leu Lys Met Asn Asp Lys
165 170 175
Thr Gln Thr Ala Ile Leu Asp Arg Cys Leu Ser Gly Glu Tyr Arg Ile
180 185 190
Cys Gly Ser Gln Leu Val Tyr Glu Ala Ala Gly Lys Glu Lys Lys Gly
195 200 205
Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr Gly Phe Glu
210 215 220
Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly Ile Asp Leu
225 230 235 240
Gly Met Lys Leu Pro Ala Val Met Ala Phe Asn Phe Asn Asp Lys Lys
245 250 255
Tyr Glu Val Ile Asp Asp Asn Arg Ile Leu Asp Arg Lys Ile Arg Leu
260 265 270
Asp Lys Met Leu Ser Ile Ser Lys His Gln Cys Gln Trp Arg Cys Asp
275 280 285
Gly Asn Ser Gly His Gly Arg Lys Lys Lys Val Asp Val Tyr Glu Arg
290 295 300
Tyr Ser His Lys Ser His Asn Leu Ser Met Asp Ile Asn His Gln Trp
305 310 315 320
Ser Lys Tyr Ile Val Glu Thr Ala Val Lys Asn Lys Cys Gly Val Ile
325 330 335
Gln Val Glu Asp Leu Ser Gly Ile Lys Ala Ser Arg Gln Asn Phe Leu
340 345 350
Gly Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Thr Tyr Lys Ala
355 360 365
Glu Glu Lys Gly Ile Lys Val Ile Lys Val Asp Pro Ser Tyr Thr Ser
370 375 380
Gln Met Cys Pro Val Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr
385 390 395 400
Gln Ala Asp Phe Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp
405 410 415
Tyr Asn Ala Ala Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
420 425 430
Lys Asn Arg Leu Ala Gln Gln Lys Lys Glu Gly Lys Pro Ile Glu
435 440 445
<210> 95
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 95
cgcgtgtgtg tgaaatgaga acg 23
<210> 96
<211> 447
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 96
Met Asn Lys Val Met Lys Tyr Gln Ile Ile Lys Pro Leu Asn Ile Asp
1 5 10 15
Trp Glu Asp Phe Gly Asn Ile Leu Phe Asn Leu Arg Lys Glu Ser Arg
20 25 30
Gln Ile Lys Asn Arg Ala Ile Ala Ile Tyr His Glu Trp Val Gln Tyr
35 40 45
Ser Met Ser Tyr Tyr Asp Glu Tyr Gly Lys Trp Pro Lys Val Ile Asp
50 55 60
Val Tyr Pro Pro Tyr Lys Thr Val Asp Gly Tyr Ile Tyr Asp Arg Leu
65 70 75 80
Lys Asn Glu Met Gly His Thr Ser Ser Asn Asn Phe Asn Ala Thr Ile
85 90 95
Arg Asn Ala Leu Ser Lys Tyr Asp Thr His Lys Lys Asp Ile Met Ala
100 105 110
Gly Lys Val Ser Val Pro Ser Met Asp Ala Gly Gln Pro Ile Asp Val
115 120 125
Tyr Ala Lys Gly Ile Thr Leu His His Ile Asp Gly Asp Lys Asp Asp
130 135 140
Tyr Val Ala Thr Leu Ser Leu Leu Asn Ser Lys Ala Lys Ala Thr Leu
145 150 155 160
Asn Leu Pro Ser Gly Arg Ile Asp Met Val Leu Lys Met Asn Asp Lys
165 170 175
Thr Gln Thr Ala Ile Leu Asp Arg Cys Leu Ser Gly Glu Tyr Arg Ile
180 185 190
Cys Gly Ser Gln Leu Ile Tyr Glu Ala Ala Gly Lys Glu Lys Lys Gly
195 200 205
Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr Gly Phe Glu
210 215 220
Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly Ile Asp Leu
225 230 235 240
Gly Met Lys Leu Pro Ala Val Met Ala Phe Asn Phe Asn Asp Lys Lys
245 250 255
Tyr Glu Val Ile Asp Asp Asn Arg Ile Leu Gly Gln Lys Ile Arg Leu
260 265 270
Asp Lys Met Leu Ser Ile Ser Lys His Gln Cys Gln Trp Arg Cys Asp
275 280 285
Gly Asn Ser Gly His Gly Arg Lys Lys Lys Val Asp Val Tyr Glu Lys
290 295 300
Cys Ser His Arg Ser His Asn Leu Ser Met Asp Ile Asn His Gln Trp
305 310 315 320
Ser Lys Tyr Ile Val Glu Thr Ala Ile Lys Asn Lys Cys Gly Val Ile
325 330 335
Gln Met Glu Asp Leu Ser Gly Ile Lys Ala Ser Arg Gln Asn Phe Leu
340 345 350
Gly Asn Trp Thr Tyr Tyr Asp Leu Gln Gln Lys Ile Thr Tyr Lys Ala
355 360 365
Glu Gly Lys Gly Ile Lys Val Ile Lys Ile Asp Pro His Tyr Thr Ser
370 375 380
Gln Met Cys Pro Ile Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr
385 390 395 400
Gln Ala Asp Phe Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp
405 410 415
Tyr Asn Ala Ala Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
420 425 430
Lys Asn Arg Val Lys Gln Gln Glu Lys Glu Gly Lys Ser Ile Asp
435 440 445
<210> 97
<211> 33
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 97
cctctcattc cacatatgcg tgtgagatgc gac 33
<210> 98
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 98
gttgaagggt attgttattt gaaaggtact cacaac 36
<210> 99
<211> 37
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 99
aggtgtgaca tcctttaatt tgaagtgttc ctccacc 37
<210> 100
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 100
actattaatg atagttaaat gaaaggtggt cacaac 36
<210> 101
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 101
attgtgaatc atccttaaat gaaaggtaat cacaac 36
<210> 102
<211> 29
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 102
gtgttctcca tgcacgcggg ggagtttgg 29
<210> 103
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 103
gttgcgacgt gcaaagaacg gattggcgat cgacac 36
<210> 104
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 104
gttgcgacgt gcaaagaacg gattggcgat cgacac 36
<210> 105
<211> 35
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 105
gttttatacc ctttagaatt taaactgtct aaaag 35
<210> 106
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 106
gttttatacc cttgtaattt taggagctca tcaaag 36
<210> 107
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 107
tgtgtatacc attcaaattg tat 23
<210> 108
<211> 32
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 108
ctttcaatct gcacatgcgt acggattgta tc 32
<210> 109
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 109
cttgtaatgg ttgctcaaca ccttgaaagt tgagac 36
<210> 110
<211> 36
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 110
atagtaatgg cagctcaatg ccctataaat tgagac 36
<210> 111
<211> 30
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 111
actccaaccc cacatagtta ccatggaaac 30
<210> 112
<211> 33
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 112
cgaagcaact cgcgcattcg cgcgaggtga gag 33
<210> 113
<211> 26
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 113
gtctcattcc atatatgtgc gtgaga 26
<210> 114
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 114
cacgcgtgtg tgtgaaatga gac 23
<210> 115
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 115
cgcgtgtgtg tgaaatgaga acg 23
<210> 116
<211> 33
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 116
cctctcattc cacatatgcg tgtgagatgc gac 33
<210> 117
<211> 143
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 117
Lys Lys Leu Gly Glu His Gln Lys Trp Phe Ala Asn Phe Ser Ile Glu
1 5 10 15
Gln Pro Ile Tyr Glu Arg Lys Pro Asn Arg Ser Ile Val Gly Gly Leu
20 25 30
Asp Val Gly Ile Arg Ser Ala His Lys Leu Glu Pro Ile Thr Glu Met
35 40 45
Thr Glu Lys Asn Asp Lys Phe Arg Lys Lys Ile Ile Glu Arg Trp Ala
50 55 60
Lys Glu Val Thr Asn Phe Phe Val Lys Asn Gln Val Gly Ile Val Gln
65 70 75 80
Ile Glu Asp Leu Ser Thr Met Lys Asp Arg Tyr Thr Ser Gln Leu Cys
85 90 95
Ser Asn Cys Arg Tyr Trp Asn Asn Glu Tyr Arg Lys Val Asn Lys Phe
100 105 110
Pro Lys Phe Lys Cys Glu Lys Cys Asn Leu Glu Ile Ser Ala Asp Tyr
115 120 125
Asn Ala Ala Arg Asn Leu Ser Thr Pro Asp Ile Glu Lys Phe Val
130 135 140
<210> 118
<211> 143
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 118
Lys Lys Leu Gly Asp His Gln Lys Trp Phe Val Asn Phe Thr Ile Glu
1 5 10 15
Gln Pro Ile Tyr Glu Arg Lys Leu Asp Lys Asn Ile Ile Gly Gly Ile
20 25 30
Asp Val Gly Ile Lys Ser Lys Asn Lys Leu Asp Pro Ile Thr Arg Met
35 40 45
Thr Glu Lys Asn Asp Arg Phe Arg Lys Lys Ile Ile Glu Arg Trp Ala
50 55 60
Lys Glu Val Thr Asn Phe Phe Ile Lys Asn Gln Val Gly Thr Val Gln
65 70 75 80
Ile Glu Asp Leu Ser Thr Met Lys Asp Arg Tyr Thr Ser Gln Leu Cys
85 90 95
Ser Ser Cys Arg His Trp Asn Ser Asp His Arg Lys Thr Asn Asn Phe
100 105 110
Pro Lys Phe Lys Cys Glu Lys Cys Ala Leu Glu Ile Ser Ala Asp Tyr
115 120 125
Asn Ala Ala Arg Asn Ile Ser Thr Pro Asp Ile Glu Lys Phe Val
130 135 140
<210> 119
<211> 144
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 119
Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp
1 5 10 15
Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile
20 25 30
Asp Val Gly Val Lys Ser Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu
35 40 45
Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala
50 55 60
Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln
65 70 75 80
Met Glu Asn Leu Glu Ser Met Lys Arg Lys Asn Thr Ser Lys Thr Cys
85 90 95
Ser Lys Cys Gly His Leu Asn Asn Glu Tyr Arg Lys Lys Asn Lys Phe
100 105 110
Pro His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr
115 120 125
Asn Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu
130 135 140
<210> 120
<211> 146
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 120
Ser Phe Leu Ile Pro Glu Asn Tyr Lys Trp Lys Leu His Phe Ser Ile
1 5 10 15
Glu Ile Pro Pro Met Val Asn Asp Ile Asp Ser Asn Leu Tyr Gly Gly
20 25 30
Ile Asp Phe Gly Glu Gln Asn Ser Arg Lys Thr Lys Ala Gln Glu Asp
35 40 45
Tyr Ser Glu Arg Met Gln Lys Leu Arg Gln Lys Ile Thr Glu Arg Leu
50 55 60
Val Lys Gln Ile Ser Asp Phe Phe Leu His Met Ala Val Cys Ser Leu
65 70 75 80
Arg Tyr Glu Asp Leu Asn Thr Leu Tyr Lys Tyr Thr Ser Arg Leu Cys
85 90 95
Ser Lys Cys Gly Lys Leu Asn Leu Lys Phe Arg Thr Lys Asn Glu Ile
100 105 110
Lys Tyr Met Pro Phe Phe Ile Cys Glu Phe Cys Gly Trp Lys Gln Ala
115 120 125
Gly Asp Lys Asn Ala Ser Ala Asn Ile Ala Asp Lys Asp Tyr Gln Asp
130 135 140
Lys Leu
145
<210> 121
<211> 94
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 121
Lys Arg Gln Arg Asp Arg Asn Lys Trp Phe Val Asn Ile Thr Ile Thr
1 5 10 15
Arg Pro Pro Phe Ile Asn Lys Glu Leu Asp Asp Thr Lys Phe Gly Gly
20 25 30
Ile Asp Leu Gly Val Lys Val Lys Asn Lys Phe Ile Lys Lys Glu Ile
35 40 45
Phe Asn Glu Arg Asn Glu Leu Phe Arg Lys Lys Ile Ile Glu Arg Trp
50 55 60
Ala Asn Gln Ile Val Lys Phe Phe Glu Asp Gln Lys Cys Ala Thr Val
65 70 75 80
Gln Ile Glu Asn Leu Glu Ser Phe Asp Arg Thr Ser Tyr Lys
85 90
<210> 122
<211> 141
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 122
Leu Gln Arg Asp Asp Ser Trp Phe Val Asn Phe Asn Ile Ala Tyr Asp
1 5 10 15
Ser Leu Lys Lys Gln Pro Asp Arg Asp Lys Ile Ala Gly Ile His Met
20 25 30
Gly Ile Thr Arg Asn Ala Lys Val Thr Gly Thr Asp Thr Leu Ser Glu
35 40 45
Ala Tyr Arg Gln Arg Arg Lys Lys Ile Ile Glu Asp Trp Ile Ala Ser
50 55 60
Ile Val Lys Phe Ala Ile Asn Asn Glu Ile Gly Thr Ile Tyr Leu Glu
65 70 75 80
Asp Ile Ser Asn Thr Asn Ser Phe Tyr Val Asn Gln Ile Cys Ser Leu
85 90 95
Cys Gly His Tyr Asn Lys Gln Phe Arg Arg Lys Asn Lys Phe Pro Lys
100 105 110
Met Lys Cys Gln Gly Cys Leu Glu Ala Thr Ser Thr Glu Phe Asn Ala
115 120 125
Ala Ala Asn Val Ala Asn Pro Asp Tyr Glu Lys Leu Leu
130 135 140
<210> 123
<211> 127
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 123
Asp Asp Asn Phe Tyr Leu Gln Tyr Thr Leu Glu Thr Glu Phe Asn Leu
1 5 10 15
Lys Glu Asp Tyr Ser Gly Ile Val Gly Ile Asp Arg Gly Val Ser His
20 25 30
Lys Ser Asn Met Arg Asn Ile Glu Lys Lys Ile Gln Leu Ile Leu His
35 40 45
Asn Tyr Ser Lys Gln Ile Val Asp Phe Ala Lys Asn Lys Asn Ala Phe
50 55 60
Ile Val Phe Glu Lys Leu Glu Lys Pro Lys Lys Asn Tyr Thr Ser Lys
65 70 75 80
Glu Cys Ser His Cys Gly Glu Lys Asn Thr Gln Arg Pro Phe Asn Asn
85 90 95
Ser Ser Leu Phe Lys Cys Asn Lys Cys Gly Val Glu Leu Asn Ala Asp
100 105 110
Tyr Asn Ala Ser Ile Asn Ile Ala Lys Lys Gly Leu Asn Ile Leu
115 120 125
<210> 124
<211> 131
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 124
Ser Glu Lys Lys Asn Tyr Glu Tyr Tyr Leu Gln Tyr Thr Leu Glu Ile
1 5 10 15
Lys Pro Glu Leu Lys Asp Phe Tyr Asp Gly Ala Ile Gly Ile Asp Arg
20 25 30
Gly Ile Asn His Lys Gly Asn Met Arg Val Ile Glu Asn Lys Ile Asn
35 40 45
Leu Ile Leu His Arg Tyr Ser Lys Gln Ile Val Asp Met Ala Lys Lys
50 55 60
Leu Asn Ala Ser Ile Val Phe Glu Glu Leu Gly Arg Ile Gly Lys Ser
65 70 75 80
Tyr Thr Ser Lys Glu Cys Ser His Cys Gly Glu Lys Asn Thr Gln Arg
85 90 95
Pro Phe Asn Asn Tyr Ser Leu Phe Lys Cys Asn Lys Cys Gly Ile Gln
100 105 110
Leu Asn Ser Asp Tyr Asn Ala Ser Ile Asn Ile Ala Lys Lys Gly Leu
115 120 125
Lys Ile Pro
130
<210> 125
<211> 127
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 125
Glu Gly Ser Phe Phe Ile Gln Tyr Thr Ile Glu Asn Val Pro Lys Thr
1 5 10 15
Phe Ser Asp Tyr Leu Gly Ala Ile Gly Ile Asp Arg Gly Ile Ser His
20 25 30
Lys Ser Asn Met Arg Asn Ile Asp Asn Lys Ile Asn Leu Ile Leu His
35 40 45
Lys Tyr Ser Arg Asn Ile Val Asn Leu Ala Lys Ser Glu Lys Ala Phe
50 55 60
Ile Val Phe Glu Lys Leu Glu Lys Ile Lys Lys Ser Tyr Thr Ser Lys
65 70 75 80
Glu Cys Ser His Cys Gly Glu Lys Asp Thr Gln Arg Pro Phe Asn Asn
85 90 95
Ser Ser Leu Phe Lys Cys Asn Lys Cys Arg Val Gln Leu Asn Ala Asp
100 105 110
Tyr Asn Ala Ser Ile Asn Ile Ala Lys Lys Ser Leu Asn Ile Ser
115 120 125
<210> 126
<211> 134
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 126
Ser Ser Asn Lys Tyr Glu Tyr Tyr Leu Gln Tyr Thr Tyr Glu Ala Glu
1 5 10 15
Val Glu Ala Asn Lys Glu Tyr Ala Gly Cys Leu Gly Val Asp Ile Gly
20 25 30
Cys Ser Lys Arg Arg Lys Leu Met Gln Leu Ser Lys Thr Glu Pro Ile
35 40 45
Ile Asp Tyr Thr Cys His Lys Thr Ala Arg Lys Ile Val Glu Met Ala
50 55 60
Asn Thr Ala Lys Ala Phe Ile Ser Met Glu Asn Leu Glu Thr Gly Ile
65 70 75 80
Lys Gln Lys Gln Tyr Thr Ser Gln Thr Cys Ser Ser Cys Gly Ala Lys
85 90 95
Glu Lys Thr Glu Arg Pro Ser Gln Ala Ile Phe Arg Cys Leu Asn Cys
100 105 110
Gln Arg Asp Ile Asn Ala Asp Phe Asn Ala Ala Val Asn Ile Ala Lys
115 120 125
Lys Ala Leu Asn Asn Thr
130
<210> 127
<211> 128
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 127
Glu Tyr Tyr Val Gln Trp Ser Ile Asp Thr Glu Thr Pro Ala Ile Thr
1 5 10 15
Ser Tyr Asp Asn Ile Leu Gly Ile Asp Ala Gly Ile Thr Asn Ile Lys
20 25 30
Arg Ile Arg Pro Ile Glu Gln Lys Val Asp Gly Tyr Cys His Val Val
35 40 45
Ser Lys Gln Ile Val Glu Met Ala Lys Glu Arg Asn Ser Cys Ile Ala
50 55 60
Leu Glu Lys Leu Glu Lys Pro Lys Lys Ser Gly Thr Ser Tyr Thr Cys
65 70 75 80
Ser His Cys Lys Asn Ala Asn Asn Gln Arg Pro Tyr Phe Lys Lys Ser
85 90 95
Trp Thr Ser Met Phe Lys Cys Gly Lys Cys Gly Ile Glu Leu Asn Ser
100 105 110
Asp Tyr Asn Ala Ala Phe Asn Ile Ala Gln Lys Ala Leu Asn Met Thr
115 120 125
<210> 128
<211> 139
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 128
Glu Asn Pro Asn Ala Asp Leu Cys Asp Phe Tyr Leu Gln Tyr Thr Ile
1 5 10 15
Glu Thr Glu Ser Arg Asn Asn Glu Glu Ile Asn Gly Ile Ile Gly Ile
20 25 30
Asp Arg Gly Ile Thr Asn Gln Arg Gln Ile Arg Ala Ile Glu Pro Lys
35 40 45
Ile Asn Leu Ile Leu His Gln Ile Ser Lys Asp Ile Val Lys Ile Ala
50 55 60
Lys Glu Lys Asn Phe Ala Ile Ala Leu Glu Gln Leu Glu Lys Pro Lys
65 70 75 80
Lys Ala Lys Thr Ser Gln Met Cys Ser His Cys Ala Ile Asn Gly Asp
85 90 95
Thr Gln Arg Pro Tyr Lys Gln Lys Pro Ser Tyr Ser Leu Phe Lys Cys
100 105 110
Asn Lys Cys Gly Ile Glu Leu Asn Ala Asp Tyr Asn Ala Ala Phe Asn
115 120 125
Ile Ala Gln Lys Gly Leu Lys Thr Leu Met Leu
130 135
<210> 129
<211> 130
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 129
Ser Glu Asp Glu Thr Asp Phe Tyr Leu Gln Tyr Thr Trp Arg Pro Asp
1 5 10 15
Ala His Pro Lys Lys Asp Tyr Thr Gly Cys Leu Gly Ile Asp Ile Gly
20 25 30
Gly Ser Lys Leu Glu Ser Leu Arg Asn Ile Glu Pro Arg Ile Asp Val
35 40 45
His Cys His Arg Ile Ala Arg Lys Ile Val Gly Met Ala Leu Ala Ala
50 55 60
Asn Ala Phe Ile Ser Met Glu Asn Leu Glu Gly Gly Ile Arg Glu Lys
65 70 75 80
Gln Tyr Thr Ser Gln Leu Cys Ser Ser Cys Gly Thr Asn Asn Thr Lys
85 90 95
Arg Pro Lys Gln Ala Ile Phe Met Cys Gln Asn Cys Gly Lys Asn Ile
100 105 110
Asn Ala Asp Phe Asn Ala Ala Ile Asn Ile Ala Lys Lys Ala Leu Asn
115 120 125
Arg Lys
130
<210> 130
<211> 126
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 130
Glu Asn Asn Ile Phe Leu Gln Tyr Thr Leu Asp Ser Ile Pro Glu Ile
1 5 10 15
His Ser Glu Tyr Ser Gly Ala Val Gly Ile Asp Arg Gly Val Ser His
20 25 30
Lys Gly Asn Met Arg Asn Ile Glu Gln Lys Ile Asn Leu Ile Leu His
35 40 45
Glu Tyr Ser Lys Gln Ile Val Asn Phe Ala Lys Asp Lys Asn Ala Phe
50 55 60
Ile Val Phe Glu Leu Leu Glu Lys Pro Lys Lys Ser Tyr Thr Ser Lys
65 70 75 80
Asp Cys Ser His Cys Gly Glu Arg Asn Thr Gln Arg Pro Phe Asn Asn
85 90 95
Phe Ser Leu Phe Lys Cys Asn Lys Cys Gly Ile Val Leu Asn Ser Asp
100 105 110
Tyr Asn Ala Ser Leu Asn Ile Ala Arg Lys Gly Leu Asn Ile
115 120 125
<210> 131
<211> 126
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 131
Asp Tyr Tyr Leu Gln Tyr Thr Val Glu Phe Leu Pro Asn Ile Ile Thr
1 5 10 15
Asn Tyr Asn Gly Ile Leu Gly Ile Asp Arg Gly Ile Asn Thr Gln Gln
20 25 30
Lys Ile Arg Pro Ile Glu Pro Arg Ile Asp Gln Ile Leu His Asp Ile
35 40 45
Ser Lys Gln Ile Ile Asp Leu Ala Lys Glu Lys Arg Val Ala Ile Ser
50 55 60
Leu Glu Gln Leu Glu Lys Pro Gln Lys Pro Met Thr Ser Gln Asn Cys
65 70 75 80
Ser Arg Cys Ala Met Lys Asn Asn Thr Gln Arg Pro Tyr Lys Thr Ser
85 90 95
Ser Leu Phe Lys Cys Asn Lys Cys Gly Val Glu Leu Asn Ala Asp Tyr
100 105 110
Asn Ala Ala Phe Asn Ile Ala Gln Lys Gly Leu Lys Ile Leu
115 120 125
<210> 132
<211> 145
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 132
Asn Leu Ser Pro Ser Glu Trp Lys Tyr Tyr Leu Gln Phe Gly Val Lys
1 5 10 15
Pro Leu Leu Lys Gln Lys Ser Arg Arg Lys Ser Arg Asn Val Leu Gly
20 25 30
Ile Asp Arg Gly Leu Lys His Thr Ile His Glu Asn Gln Thr Arg Lys
35 40 45
Lys Leu Lys Ser Leu Gln Gly Arg Ile Asp Asp Leu Leu His Asn Ile
50 55 60
Ser Arg Lys Ile Val Glu Thr Ala Lys Glu Tyr Asp Ala Val Ile Val
65 70 75 80
Val Glu Asp Leu Arg Gln His Gly Arg Ser Gly Thr Ser Gln Asn Cys
85 90 95
Ala Tyr Cys Leu Leu Ala Gln Glu Tyr Lys Arg Ser Gln Glu Asn Ser
100 105 110
Lys Ile Gly Asn Cys Gln Asn His Lys Lys Gln Ile Asp Ala Asp Leu
115 120 125
Asn Ala Ala Arg Val Ile Ala Ala Leu Lys Ile Asn Asp Ser Gln Pro
130 135 140
Phe
145
<210> 133
<211> 146
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 133
Asn Leu Lys Pro Glu Asp Trp Thr Tyr Tyr Ile Gln Phe Gly Phe Gln
1 5 10 15
Pro Leu Leu Asp Thr Pro Lys Pro Ile Lys Thr Lys Thr Val Leu Gly
20 25 30
Ile Asp Arg Gly Val Arg His His Leu His Glu Asn Gln Phe Lys Ala
35 40 45
Lys Leu Arg Ser Leu Glu Gly Arg Ile Glu Asp His Phe His Asn Leu
50 55 60
Ser Lys Glu Ile Val Asp Leu Ala Lys Glu Asn Asn Ser Val Ile Val
65 70 75 80
Val Glu Asn Leu Arg Gln His Gly Arg Gly Gly Thr Ser Ile Asn Cys
85 90 95
Ala Tyr Cys Leu Leu Asn Asp Asn Tyr Thr Arg Gly Gly Lys Lys Asn
100 105 110
Thr Lys Ile Gly Glu Cys Lys Thr Cys Lys Lys Glu Phe Asp Ala Asp
115 120 125
Leu Asn Ala Ala Arg Val Ile Ala Glu Lys Arg Leu Asn Asp Pro Gln
130 135 140
Pro Phe
145
<210> 134
<211> 148
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 134
Asn Leu Lys Pro Asp Glu Trp Ser Tyr Tyr Ile Gln Phe Gly Tyr Asp
1 5 10 15
Ser Ile Asn Pro Val Gln Leu Met Ser Thr Asp Lys Phe Leu Gly Ile
20 25 30
Asp Arg Gly Leu Thr His Lys Leu Pro Glu Asn Gln Met Lys Lys Lys
35 40 45
Leu Lys Ser Ile Glu Pro Lys Ile Glu Val His Tyr His Asn Ile Ser
50 55 60
Arg Lys Ile Val Asn Leu Ala Lys Asp Tyr Asn Ala Ser Ile Val Val
65 70 75 80
Glu Ser Leu Glu Gly Lys Gln His Gly Arg Lys Tyr Thr Ser Gln Gln
85 90 95
Cys Ala Lys Cys Val Leu Glu Lys Asp Tyr Lys Arg Gly Lys Glu Tyr
100 105 110
Thr Gly Asn Lys Lys Val Gly Tyr Cys Ser Lys His Gly Gln Val Asp
115 120 125
Ala Asp Leu Asn Ala Ser Arg Val Ile Ala Tyr Leu Asp Ile Asn Asp
130 135 140
Pro Ile Leu Phe
145
<210> 135
<211> 148
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 135
Asn Leu Lys Pro Glu Glu Trp Asp Tyr Tyr Ile Gln Phe Gly Tyr Gly
1 5 10 15
Leu Ile Asn Ser Pro Met Lys Ile Glu Thr Lys Asn Phe Met Gly Ile
20 25 30
Asp Arg Gly Leu Thr His Lys Leu Pro Glu Asn Gln Met Lys Lys Arg
35 40 45
Leu Lys Ser Ile Glu Pro Lys Ile Glu Ser Tyr Tyr His Asn Leu Ser
50 55 60
Arg Lys Ile Val Asn Leu Ala Lys Ala Asn Asn Ala Ser Ile Val Val
65 70 75 80
Glu Ser Leu Glu Gly Lys Gln His Gly Arg Lys Tyr Thr Ser Gln Gln
85 90 95
Cys Ala Lys Cys Val Leu Lys Lys Glu Tyr Lys Arg Gly Lys Glu Tyr
100 105 110
Thr Gly Asn Lys Lys Val Gly Tyr Cys Ser Val His Gly Gln Val Asp
115 120 125
Ala Asp Leu Asn Ala Ser Arg Val Ile Ala Tyr Leu Gly Ile Asn Glu
130 135 140
Pro Ile Val Phe
145
<210> 136
<211> 147
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 136
Asn Leu Glu Pro Asp Glu Trp Lys Tyr Tyr Ile Gln Phe Gly Tyr Glu
1 5 10 15
Gln Ile Asn Asn Pro Lys Leu Glu Thr Glu Asn Ile Leu Gly Ile Asp
20 25 30
Arg Gly Leu Thr His Lys Leu Pro Glu Asn Gln Met Lys Lys Asn Leu
35 40 45
Arg Ser Ile Glu Asp Lys Val Glu Asn Leu Tyr His Asn Leu Ser Arg
50 55 60
Lys Ile Val Asp Leu Ala Lys Glu Lys Asn Ala Cys Ile Val Phe Glu
65 70 75 80
Lys Leu Glu Gly Lys Gln His Gly Arg Lys Tyr Thr Ser Gln Asn Cys
85 90 95
Ala Lys Cys Val Leu Glu Ser Gln Tyr Thr Arg Arg Lys Glu Tyr Thr
100 105 110
Gly Asn Thr Lys Ile Gly Tyr Cys Met Lys His Gly Gln Val Asp Ala
115 120 125
Asp Leu Asn Ala Ser Arg Thr Ile Ala Asn Phe Asp Ile Asn Asn Pro
130 135 140
Glu Ile Trp
145
<210> 137
<211> 147
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 137
Asn Leu Lys Pro Asn Met Trp Lys Tyr Tyr Ile Gln Phe Gly Tyr Glu
1 5 10 15
Pro Ile Phe Glu Arg Lys Ala Ser Gly Lys Pro Lys Asn Ile Met Gly
20 25 30
Ile Asp Arg Gly Leu Thr His His Ile His Glu Ala Gln Leu Lys Lys
35 40 45
Arg Leu Gly Ser Ile Glu Glu Lys Thr Glu Gln His Tyr His Ile Val
50 55 60
Ser Ser Lys Ile Ile Asn Trp Ala Ile Glu Tyr Glu Ala Ala Ile Val
65 70 75 80
Leu Glu Ser Leu Lys Gln Arg Gly Gly Lys Met Thr Ser Lys Thr Cys
85 90 95
Ala Thr Cys Leu Leu Asn Gly Tyr Val Arg Gly Leu Glu Lys Arg Lys
100 105 110
Asn Met Lys Ile Gly Lys Cys Met Val Cys Asn Ser Ser Ile Asp Ala
115 120 125
Asp Leu Asn Ala Ala Arg Val Ile Ala Tyr Lys Asn Leu Asn Asp Pro
130 135 140
Gln Pro Ala
145
<210> 138
<211> 142
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 138
Asn Leu Lys Pro Thr Asp Tyr Lys Tyr Tyr Leu Gln Leu Ser Tyr Glu
1 5 10 15
Pro Phe Ser Lys Gln Leu Ile Ala Thr Lys Thr Ile Leu Gly Ile Asp
20 25 30
Arg Gly Leu Lys His His Ile His Glu Asn Gln Leu Ile Lys Lys Leu
35 40 45
Lys Ser Met Lys Asn Lys Ile Asn Val Leu Tyr His Asn Val Ser Lys
50 55 60
Asn Ile Val Asp Leu Ala Lys Lys Tyr Glu Ser Thr Ile Val Leu Glu
65 70 75 80
Arg Leu Lys Gln His Gly Arg Ser Tyr Thr Ser Lys Thr Cys Ala Lys
85 90 95
Cys Leu Leu Glu Val Glu Leu Lys Asn Glu Tyr Asp Ser Lys Asn Ser
100 105 110
Lys Ile Gly Ile Cys Asn Ile His Gly Gln Ile Asp Ala Asp Leu Asn
115 120 125
Ala Ala Arg Val Ile Ala Ser Lys Asn Leu Asn Glu Pro His
130 135 140
<210> 139
<211> 131
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 139
Arg Thr Thr Asp Arg Trp Thr Ile Ser Phe Ser Thr Glu Tyr Asp Asp
1 5 10 15
Ser Asn Met Arg Lys Asn Asp Gly Gly Gln Val Gly Ile Asp Val Gly
20 25 30
Leu Lys Thr Thr Arg Leu Arg Leu Arg Leu Ser Arg Leu Trp Glu Lys
35 40 45
Ile Arg Asn Ser Arg Ala Asp Leu Ile Gln Asn Glu Thr Tyr Glu Ile
50 55 60
Leu Ser Glu Asn Lys Leu Ile Ala Ile Glu Asp Leu Asn Val Lys Gly
65 70 75 80
Met Gln Glu Lys Ile Asp Ser Ser Lys Glu Cys His Asn Cys Gly Asn
85 90 95
Lys Lys Gly Met Pro Leu Glu Ser Arg Ile Tyr Glu Cys Pro Lys Cys
100 105 110
Gly Leu Lys Ile Asp Arg Asp Leu Asn Ser Ala Lys Val Ile Leu Ala
115 120 125
Arg Ala Thr
130
<210> 140
<211> 133
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 140
Arg Arg Ala Asp Gly Tyr Tyr Val Gln Phe Cys Ile Ser Val Asp Val
1 5 10 15
Lys Val Glu Thr Glu Pro Thr Gly Lys Ala Ile Gly Leu Asp Val Gly
20 25 30
Ile Lys Tyr His Lys Ala Arg Cys Arg Tyr Ala Arg Lys His Leu Arg
35 40 45
Val Ser Arg Gln Arg Lys Glu Tyr Cys Lys Arg Val Ala Tyr Cys Val
50 55 60
Ile His Ser Asn Asp Val Val Ala Tyr Glu Asp Leu Asn Val Lys Gly
65 70 75 80
Met Val Lys Asn His Asn Thr Ser Gln Asn Cys Ser Asn Cys Asp Lys
85 90 95
Lys Val Pro Lys Ser Leu Ser Thr Arg Thr His Ile Cys His His Cys
100 105 110
Gly Tyr Ser Glu Asp Arg Asp Val Asn Ala Ala Lys Asn Ile Leu Lys
115 120 125
Lys Ala Leu Ser Thr
130
<210> 141
<211> 101
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 141
Arg Arg Pro Thr His Arg Lys Trp Phe Ala Gln Leu Thr Ile Gly Tyr
1 5 10 15
Thr Asn Pro Ser Ser Leu Pro Glu Met Ala Leu Gly Ile His Phe Gly
20 25 30
Met Lys Asp Lys Ser Leu Leu Asn Ala Thr Tyr Arg Val Val Asn Gly
35 40 45
Val Leu Glu Phe Ser Lys Gly Ile Ser Ala Glu His Ala Ser Gln Pro
50 55 60
Ile Gly Leu Gly Leu Glu Thr Ile Arg Phe Val Asp Lys Ala Gln Arg
65 70 75 80
Asp Leu Ser Asp Ala Glu Gln Ala Arg Val Leu Ala Ile Glu Ala Thr
85 90 95
Lys Arg Phe Ala Ser
100
<210> 142
<211> 130
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 142
Glu Val Met Arg Arg Thr Lys Ser Gln Pro Trp Gln Glu Phe Ile Leu
1 5 10 15
Arg Leu Val Leu Ala His Lys Ala Pro Lys Leu Lys Pro Arg Cys Phe
20 25 30
Ala Gly Ile Ser Leu Gly Pro Lys Thr Ala Tyr Arg Lys Gln Leu Lys
35 40 45
Ser Leu Ile Asn Thr Gln Val Phe Thr Ile Val Thr Phe Leu Arg Ala
50 55 60
Ala Val Arg Leu Glu Ser Ile Ala Arg Val Arg Lys Ser Tyr Gly Val
65 70 75 80
Arg Thr Cys Ser Gln Cys Gly Ala Thr Asn Gln Gly Ile Lys Asp Pro
85 90 95
Thr Val Asp Ile Glu Ser Glu Thr Phe Leu Cys Ser Cys Ser His Arg
100 105 110
Glu Ile Ala Ala Val Asn Thr Ala Thr Asn Leu Ala Lys Gln Leu Leu
115 120 125
Asp Glu
130
<210> 143
<211> 120
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 143
Gln Leu Ala Lys Ser Gly Arg Phe Trp Ile Ser Val Val Tyr Glu Leu
1 5 10 15
Pro Lys Pro Glu Ala Thr Thr Cys Gln Ser Glu Gln Val Ala Phe Val
20 25 30
Ala Leu Gly Ala Ser Ser Leu Arg Leu Leu Asn Ser Gly Lys Arg Arg
35 40 45
Met His Met Ile Ser Ser Arg Gln His Val Gln Asp Glu Arg Ile Val
50 55 60
Asp Tyr Leu Val Arg Asn His Gly Ser His Phe Val Val Thr Glu Leu
65 70 75 80
Val Val Arg Ser Lys Glu Gly Lys Leu Ala Leu Thr Leu Thr Glu Ala
85 90 95
Pro Pro Ala Arg Gly Ala Glu Asn Lys Leu Trp Met Ala Arg Lys Leu
100 105 110
Arg Glu Ser Phe Leu Lys Glu Val
115 120
<210> 144
<211> 118
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 144
Ser Arg Asp Arg Arg Phe Trp Ile Ser Ile Ala Tyr Glu Ile Glu Leu
1 5 10 15
Pro Asp Gln Arg Pro Phe Asn Pro Glu Glu Val Ile Tyr Ile Ala Phe
20 25 30
Gly Ala Ser Ser Lys Lys Arg Ala Ala Ala Arg Arg Lys Met Tyr Ala
35 40 45
Met Thr Gln Arg Gln Gln Lys Leu Asn His Arg Ile Val Ala Ser Leu
50 55 60
Leu Arg Leu Gly Phe His Phe Val Val Thr Glu Tyr Thr Val Arg Ser
65 70 75 80
Lys Pro Gly Lys Leu Ala Leu Gly Gln Ser Glu Arg Pro Glu Lys Arg
85 90 95
Gly Arg Asp Asn Lys Ile Glu Met Val Arg Leu Leu Arg Glu Lys Tyr
100 105 110
Leu Glu Ser Gln Thr Ile
115
<210> 145
<211> 120
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 145
Glu Met Ala Lys Pro Gly Arg Phe Trp Ile Ser Val Ala Tyr Glu Ile
1 5 10 15
Pro Lys Pro Glu Lys Val Pro Val Val Ser Lys Gln Ile Thr Tyr Leu
20 25 30
Ala Ile Gly Ala Ser Arg Lys Lys Arg Met Ala Ala Cys Thr Arg Met
35 40 45
Phe Ala Lys Leu Gly His Gln Gln Lys Gln His Gly Gln Tyr Val Val
50 55 60
Lys Lys Leu Leu Arg His Gly Val His Phe Val Val Thr Glu Leu Lys
65 70 75 80
Val Arg Ser Lys Pro Gly Ala Leu Ala Leu Leu Ser Leu Glu Glu Arg
85 90 95
Gln Leu Pro Asp Ala Gln Arg Lys Ile Phe Ile Ala Lys Lys Leu Arg
100 105 110
Glu Glu Phe Leu Ala Asp Gln Lys
115 120
<210> 146
<211> 132
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 146
Arg Gln Gly Asp Arg Trp Tyr Leu Ser Cys Gln Trp Glu Arg Pro Gln
1 5 10 15
Pro Thr Leu Leu Pro Lys Thr Gly Arg Thr Ala Gly Val Lys Ile Ala
20 25 30
Ala Ser Ile Tyr Lys Ser Ala Ala Arg Leu Ala Ala Cys Glu Ala Ile
35 40 45
Glu Arg Asp Arg Arg Asp Gly Phe Leu His Arg Val Thr Asn Glu Ile
50 55 60
Val His Lys Phe Asp Ala Val Ser Val Gln Lys Met Ser Val Ala Pro
65 70 75 80
Met Met Arg Arg Gln Glu Pro Glu Val Gln Glu Cys Ser Arg Cys Gly
85 90 95
Thr Lys Asn Pro Gln Met Lys Asp Gly Arg Arg Leu Leu Arg Cys Thr
100 105 110
Asp Cys Asp Ala Val Leu Pro Arg Asn Arg Asn Ala Ala Arg Asn Ala
115 120 125
Glu Lys Arg Leu
130
<210> 147
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 147
Arg Gln Gly Glu Asn Trp Tyr Leu Ser Cys Gln Trp Lys Met Pro Lys
1 5 10 15
Pro Ala Pro Leu Pro Arg Ala Gly Arg Thr Ala Ala Ile Lys Ile Ala
20 25 30
Ala Ala Ile Tyr Ala Ala Ala Ala Lys Leu Ala Lys Leu Glu Ala Glu
35 40 45
Asp Ala Asn Ala Arg Glu Ala Trp Leu His Glu Ile Thr Thr Gln Ile
50 55 60
Val Arg Asn Phe Asp Val Ile Ala Val Pro Arg Met Glu Val Ala Lys
65 70 75 80
Leu Met Lys Lys Pro Asp Val Thr Ala Ala Ala Cys Ser Gly Cys Gly
85 90 95
Val Leu Lys Pro Glu Trp Lys Met Ala Arg Lys Gly Arg Glu Ile Met
100 105 110
Arg Cys Lys Thr Cys Asn Thr Val Leu Thr Tyr Thr Arg Asn Ser Ala
115 120 125
Arg Val Ile Gly Arg Glu Leu
130 135
<210> 148
<211> 145
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 148
Asp Lys Lys Ala Ala Tyr Leu Tyr Phe Thr Cys Asp Ile Pro Asp Glu
1 5 10 15
Pro Leu Thr Glu Thr Ala Lys Lys Ile Gln Trp Glu Thr Gly Asp Val
20 25 30
Cys Ala Val Asp Leu Ser Met Arg Arg Gly Thr Gly Ile Asp Leu Gln
35 40 45
Lys His Ile Asp Tyr Met Gly Glu Asp Arg Phe Lys Lys Ala Ala Arg
50 55 60
Thr Ile Val Asn Phe Ala Leu Tyr Pro Arg Ala Asp Val Leu Leu Leu
65 70 75 80
Glu Asn Leu Glu Gly Leu Ile Pro Asp Gly Thr Ser Gln Val Cys Ser
85 90 95
Lys Cys Gly Ala Leu Gly Arg Asn Asn Arg Arg Glu Phe Gly Tyr Val
100 105 110
Glu Lys Leu Phe Ala Cys Pro Asn Cys Gly Tyr Cys Ala Asn Ala Asp
115 120 125
His Asn Ala Ser Val Asn Leu Asn Arg Arg Phe Ile Glu Asp Ser Phe
130 135 140
Lys
145
<210> 149
<211> 152
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 149
Asp Ile Ala Asp Lys Pro Ser Ala Thr Tyr Leu Val Phe Ala Val Glu
1 5 10 15
Ile Lys Asp Glu Ala Arg Thr Glu Arg Ala Lys Ala Ile Arg Phe Glu
20 25 30
Thr Ser Glu Leu Val Ala Val Asp Leu Asp Thr Arg Phe Leu Thr Arg
35 40 45
Ala Ile Gly Val Arg Leu Gln Ala His Ile Asp Arg Met Gly Glu Asp
50 55 60
Arg Phe Lys Lys Ala Ala Arg Lys Ile Val Asn Glu Ala Leu Tyr Thr
65 70 75 80
Arg Ala Asp Val Leu Leu Tyr Glu Ser Leu Glu Thr Leu Leu Pro Asp
85 90 95
Gly Thr Ser Gln Val Cys Ser Lys Cys Gly Ala Leu Gly Arg Asn Gly
100 105 110
Arg Ala Val Phe Gly Trp Val Glu Arg Leu Phe Ala Cys Pro Asn Cys
115 120 125
Pro Phe Thr Cys Asn Ser Asp His Asn Ala Ser Val Asn Leu His Arg
130 135 140
Val Phe Leu Gly Asp Gln Ala Val
145 150
<210> 150
<211> 134
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 150
Arg Asp Val Asp Glu Trp Tyr Ala Val Phe Pro Leu Thr Phe Thr Lys
1 5 10 15
Glu Ile Glu Lys Pro Lys Gly Gly Ala Val Gly Ile Asn Arg Gly Ala
20 25 30
Val His Glu Arg Ala Arg Arg Phe Leu Ala Leu Ala His Gln Arg Val
35 40 45
Arg Arg Gln Arg Glu Trp Phe Leu His Asn Glu Ser Ala His Tyr Ala
50 55 60
Gln Ser Tyr Thr Lys Ile Ala Ile Glu Asp Trp Ser Thr Lys Glu Met
65 70 75 80
Thr Ser Ser Glu Leu Arg Ile Ser Gly Thr Cys Ser Arg Cys Gly Gly
85 90 95
Leu Leu Arg Ala Ser Ala Ser Gly His Ala Asp Ala Glu Cys Glu Val
100 105 110
Cys Leu His Val Glu Val Gly Asp Val Asn Ala Ala Val Asn Val Leu
115 120 125
Lys Arg Ala Met Phe Pro
130
<210> 151
<211> 134
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 151
Arg Asp Val Asp Glu Trp Tyr Ala Val Phe Pro Leu Thr Phe Val Ala
1 5 10 15
Glu Val Ala Arg Pro Lys Gly Gly Ala Val Gly Ile Asn Arg Gly Ala
20 25 30
Val His Glu Lys Ala Arg Lys Phe Leu Ala Leu Ala His Gln Arg Val
35 40 45
Arg Arg Gln Arg Glu Trp Phe Leu His Asn Glu Ser Ala His Tyr Ala
50 55 60
Arg Thr Tyr Ser Lys Ile Ala Ile Glu Asp Trp Ser Thr Lys Glu Met
65 70 75 80
Thr Ala Ser Glu Leu Lys Ile Ser Gly Thr Cys Ser Lys Cys Gly Gly
85 90 95
Leu Leu Arg Ala Pro Ala Ser Gly His Ala Asp Ala Glu Cys Glu Ile
100 105 110
Cys Leu Asn Val Glu Val Gly Asp Val Asn Ala Ala Val Asn Val Leu
115 120 125
Lys Arg Ala Met Phe Pro
130
<210> 152
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 152
Arg Asp Val Asp Glu Trp Tyr Ala Cys Leu Pro Leu Thr Phe Thr Gln
1 5 10 15
Pro Ile Glu Ala Pro His Arg Ser Val Gly Leu Asn Arg Gly Val Val
20 25 30
His His Lys Ala Arg Ile Lys Leu Ala Lys Ala His Gln Arg Val Arg
35 40 45
Arg Gln Arg Ala Ala Phe Leu His Gln Glu Ser Ala Tyr Tyr Ser Lys
50 55 60
Gly Phe Asp Leu Val Ala Leu Glu Asp Met Ser Val Arg Lys Met Thr
65 70 75 80
Ala Thr Ala Gln Thr Ile Ser Ser Ala Cys Ala Val Cys Gly Ile Pro
85 90 95
Leu Ala Arg Pro Ala Ser Gly Asn Ala Arg Met Arg Cys Thr Ala Cys
100 105 110
Gly Ser Ser Gln Val Gly Asp Val Asn Ala Ala Glu Asn Val Leu Thr
115 120 125
Arg Ala Leu Ser Ser Ala Pro Ser
130 135
<210> 153
<211> 134
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 153
Lys Lys Arg Gly Lys Trp Ile Ala Asp Leu Thr Val Thr Gln Glu Asp
1 5 10 15
Ala Pro Glu Ser Ser Gly Ser Ala Ile Met Gly Val Asp Leu Gly Ile
20 25 30
Lys Val Ala Lys Lys Leu Arg Ala Val Arg Lys Ser Lys Gly Lys Glu
35 40 45
Ala Arg Trp Met Lys Thr Ile Asn His Gln Leu Ser Arg Gln Ile Val
50 55 60
Asn His Ala His Ala Leu Gly Val Gly Thr Ile Lys Ile Glu Ala Leu
65 70 75 80
Gln Gly Ile Arg Lys Gly Tyr Thr Ser Gln Asp Cys Pro Ala Cys Arg
85 90 95
Ala Arg Asn Gly Ala Gln Asp Arg Thr Tyr Val Cys Ser Glu Cys Gly
100 105 110
Trp Arg Gly His Arg Asp Thr Val Gly Ala Ile Asn Ile Ser Arg Arg
115 120 125
Ala Leu Ser Gly His Arg
130
<210> 154
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 154
Lys Gly Val Phe Tyr Leu Cys Val Val Val Glu Val Ser Glu Glu Ser
1 5 10 15
Pro Asp Pro Lys Gly Val Leu Gly Val Asp Leu Gly Ile Lys Asn Lys
20 25 30
Ser Ala Lys Arg His Leu Lys Lys Leu Ser Gly Arg Met Ala Lys Phe
35 40 45
Ser Lys Asp Val Asn His Cys Ile Ser Lys Lys Leu Val Ala Lys Ala
50 55 60
Lys Gly Thr Leu Met Ser Ile Ala Leu Glu Asp Leu Gln Gly Ile Arg
65 70 75 80
Asp Arg Asn Thr Ser Arg Thr Cys Pro Ser Cys Gly His Val Ala Lys
85 90 95
Ala Asn Arg Pro Thr Arg Asp Glu Phe Arg Cys Val Ser Cys Gly Phe
100 105 110
Ala Gly Ala Ala Asp His Ile Ala Ala Met Asn Ile Ala Phe Arg Ala
115 120 125
Val Ser Gln Pro Ile Val Phe Phe
130 135
<210> 155
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 155
Arg Asn Gly Arg Ile Phe Val Asn Val Ala Cys Glu Ile Pro Thr Lys
1 5 10 15
Pro Leu Glu Val Glu Asn Phe Met Gly Val Ser Phe Gly Leu Glu His
20 25 30
Lys Thr Tyr Phe Ala Arg Leu Glu Arg Leu Arg Arg Pro Phe Ser Gln
35 40 45
Glu Leu Glu Thr Phe His Tyr Arg Gln Val Ala Gln Ile Val Glu Glu
50 55 60
Ala Leu Ser Val Pro Ala Val Glu Gln Val Gly Asn Ile Pro Lys Gly
65 70 75 80
Ala Thr Ala Lys Leu Cys Ser Thr Cys Gly Ala Ala Asn Lys Glu Gly
85 90 95
Asp Gln Pro Ile Ser Leu Lys Gly Pro Thr Val Tyr Cys Gly Asn Cys
100 105 110
Gly Thr Arg His Asn Thr Gly Phe Asn Thr Ala Leu Asn Leu Ala Arg
115 120 125
Arg Ala Gln Glu Leu Phe Val Lys
130 135
<210> 156
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 156
Lys Thr Arg Gly Trp Lys Ile Asn Leu Cys Leu Glu Thr Glu Val Glu
1 5 10 15
Gln Lys Asn Leu Ser Glu Asn Lys Tyr Leu Ser Ile Asp Leu Gly Val
20 25 30
Lys Arg Lys Lys Ile Gln Arg Ala Lys Arg Lys Thr Thr Asp Arg Leu
35 40 45
Leu Asn Ile Gln Lys Glu Met Leu His Lys Tyr Ser Ser Phe Ile Val
50 55 60
Asn Tyr Ala Ile Arg Asn Asp Ile Gly Asn Ile Ile Ile Gly Asp Ser
65 70 75 80
Ser Thr His Asp Ser Tyr Thr Ser Arg Lys Cys Pro His Cys Lys Asn
85 90 95
Ile Lys Lys Ser Ser Pro Lys Gly Arg Thr Tyr Lys Cys Lys Lys Cys
100 105 110
Gly Phe Ile Phe Asp Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Asn
115 120 125
Glu Asn Val Ser Phe Gly Gln Ile
130 135
<210> 157
<211> 148
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 157
Val Arg Val Gly Gly Arg His Arg Met Ser Val Ala Leu Thr Ala Lys
1 5 10 15
Leu Pro Asp Pro Pro Gln Val Gln Gly Leu Pro Pro Val Ala Leu His
20 25 30
Leu Gly Trp Arg Gln Arg Pro Asp Gly Leu Arg Arg Ile Gln Asp Lys
35 40 45
Leu Leu Trp Glu Arg Glu Ser His Leu Arg Arg Arg Leu Ala Ala Arg
50 55 60
Arg Asp Asp Ala Trp Arg Arg Val Ala Ser Trp Leu Ala Arg His Ala
65 70 75 80
Gly Val Leu Val Val Asp Asp Ala Asp Ile Ala Glu Leu Arg Arg Arg
85 90 95
Asp Gly Leu Thr Arg Leu His Arg Lys Cys Gly His Gln Ala Gln Pro
100 105 110
Asp Pro Arg Tyr Ala Ala Ser Ala Val Val Thr Cys Pro Gly Cys Gly
115 120 125
Asn Gly Tyr Asp Gln Asp Tyr Asn Ala Ala Met Leu Met Leu Asp Arg
130 135 140
Gln Gln Gln Pro
145
<210> 158
<211> 139
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 158
Arg Ser Gly Lys Arg Trp Phe Val Ser Ile Ala Met Glu Met Pro Ser
1 5 10 15
Val Glu Pro Ala Ala Ser Gly Arg Pro Ala Val Gly Leu Asp Met Gly
20 25 30
Val Arg Ala Thr Asp Pro Ser Arg Glu Lys Lys Ala Val Gln Ala Tyr
35 40 45
Ala Arg Ala Lys Glu Arg Glu Arg Ser Ala Arg Gly Asp His Arg His
50 55 60
Lys Val Ser Arg Ala Leu Val Arg Gln Phe Glu Glu Ile Ser Val Glu
65 70 75 80
Ala Leu Asp Ile Lys Gln Leu Thr Val Ala Pro His Thr Thr Gln Glu
85 90 95
Cys Ala Arg Cys Gly Thr Leu Val Pro Lys Pro Ile Ser Leu Arg Val
100 105 110
His Arg Cys Pro Ala Cys Gly Tyr Thr Ala Pro Arg Thr Val Asn Ser
115 120 125
Ala Arg Asn Val Leu Gln Arg Pro Leu Glu Glu
130 135
<210> 159
<211> 134
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 159
Lys Asp Ala Gly Gln Tyr Phe Leu Ser Phe Val Val Glu Val Lys Pro
1 5 10 15
Glu Ile Lys Pro Pro Lys Asn Pro Ser Ile Gly Ile Asp Leu Gly Leu
20 25 30
Lys Thr Glu Arg Met Arg Val Lys Val Ala Lys Leu Asn Ala Gln Ile
35 40 45
Arg Asp Lys Arg Lys Asp Phe Leu His Lys Leu Ser Thr Lys Val Val
50 55 60
Asn Glu Asn Gln Val Ile Ala Leu Glu Asp Leu Asn Val Gly Gly Met
65 70 75 80
Leu Lys Asn Arg Glu Pro Thr Ser Gln Val Cys Ser Glu Cys Gly Tyr
85 90 95
Arg Trp Gly Lys Ile Asp Leu Ser Val Arg Ser Ile Val Cys Ile Asn
100 105 110
Cys Gly Val Glu His Asp Arg Asp Asp Asn Ala Ser Val Asn Ile Glu
115 120 125
Gln Ala Gly Leu Lys Val
130
<210> 160
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 160
Arg Thr Ser Gly Lys Tyr Phe Val Ser Leu Val Val Glu Thr Gln Pro
1 5 10 15
Ala Pro Met Pro Glu Thr Gly Glu Ser Val Gly Val Asp Phe Gly Val
20 25 30
Ala Arg Met Arg Ile Lys Arg His Val Ala Arg Ile His Glu Lys Ile
35 40 45
Gly Asn Ser Arg Ser Asp Thr Leu His Lys Leu Ser Thr Asp Leu Val
50 55 60
Thr Arg Phe Asp Leu Ile Cys Val Glu Asp Leu Asn Leu Arg Gly Met
65 70 75 80
Val Lys Asn His Phe Pro Ser Ser Lys Thr Cys Ser Asp Cys Gly His
85 90 95
Ile Val Glu Gln Leu Pro Leu Asn Val Arg Glu Trp Thr Cys Pro Glu
100 105 110
Cys Gly Thr Thr His Asp Arg Asp Ala Asn Ala Ala Ala Asn Ile Leu
115 120 125
Ala Val Gly Gln Thr Val Ser Ala
130 135
<210> 161
<211> 132
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 161
Glu Gly Asp Gly Lys Trp Tyr Val Val Ile Leu Thr Glu Gln Glu Glu
1 5 10 15
Asp Pro Gln Thr Pro Glu Ala Glu Val Gly Ile Asp Leu Gly Val Ala
20 25 30
Lys Ile Lys Val Lys Arg Gln Val Val Lys Leu Lys His Arg Gln Lys
35 40 45
Arg Ser Arg Glu Ser Leu His His Glu Ile Thr His Leu Ile Thr Ser
50 55 60
Gly Phe Gly Arg Val Ala Val Glu Asn Leu Asn Ile Lys Gly Met Thr
65 70 75 80
Pro Ser Ala Tyr Thr Ser Gln Thr Cys Ser Lys Cys Gly His Val Glu
85 90 95
Lys Ala Asn Arg Ala Thr Gln Ala Thr Phe Leu Cys Gln Lys Cys Gly
100 105 110
His Lys Glu Asn Ala Asp Val Asn Ala Ala Lys Asn Ile Leu Thr Arg
115 120 125
Ala Glu Lys Gln
130
<210> 162
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 162
Arg Ala Ala Gly Ile Trp Tyr Val Ser Ile Leu Cys Glu Trp Asp Lys
1 5 10 15
Pro Ala Lys Pro Val His Arg Ala Pro Asn Ala Lys Val Gly Val Asp
20 25 30
Leu Asn Val Arg Asn Phe Arg Leu Gln Cys Arg Ile Ala Arg Leu Gln
35 40 45
Asp Arg Gln Ala Asn Leu Arg Asn Glu Val Thr Asn Gln Val Ala His
50 55 60
Ala Val Ala Leu Lys His Ala Phe Val Gly Leu Glu Gly Leu Asp Ile
65 70 75 80
Lys Gly Met Thr Ala Ser Ala Tyr Thr Ser Gln Thr Cys Ala Lys Cys
85 90 95
Gly His Ile Ala Ala Glu Asn Arg Asp Gly Val Ile Phe His Cys Val
100 105 110
Lys Cys Gly Phe Thr Ala His Ala Asp Val Asn Ala Ala Thr Asn Ile
115 120 125
Leu Glu Lys Ala Leu Arg Leu
130 135
<210> 163
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 163
Arg Ala Ala Gly Ile Trp Tyr Val Ser Ile Leu Cys Glu Trp Asp Lys
1 5 10 15
Pro Ala Lys Pro Val His Arg Ala Pro Asn Ala Lys Val Gly Val Asp
20 25 30
Leu Asn Val Arg Tyr Phe Arg Leu Gln Cys Arg Ile Ala Arg Leu Gln
35 40 45
Asp Arg Gln Ala Asn Leu Arg Asn Glu Val Thr Asn Gln Val Ala His
50 55 60
Ala Val Ala Leu Lys His Ala Phe Val Gly Leu Glu Gly Leu Asp Ile
65 70 75 80
Lys Gly Met Thr Ala Ser Ala Tyr Thr Ser Gln Thr Cys Ala Lys Cys
85 90 95
Gly His Ile Ala Ala Glu Asn Arg Asp Gly Val Ile Phe His Cys Val
100 105 110
Lys Cys Gly Phe Thr Ala His Ala Asp Val Asn Ala Ala Thr Asn Ile
115 120 125
Leu Glu Lys Ala Leu Arg Leu
130 135
<210> 164
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 164
Thr Gly Thr Gln Tyr Glu Ala Ile Ala Thr Tyr Lys Ile Glu Ala Gln
1 5 10 15
Gly Pro Gln Gly Asn Lys Val Ala Gly Ile Asp Leu Gly Glu Ile His
20 25 30
Lys Lys Leu Ile Arg Ser Lys Gln Lys Gln Leu Lys Lys Leu Gln His
35 40 45
Gln Val Asn Asp Ile Glu His Lys Gln Ser Ser Arg Leu Ile Ser Thr
50 55 60
Leu His Ala Lys Gly Val Gln Thr Val Val Ile Gly Asp Val Arg Asp
65 70 75 80
Ile Arg Gln Asp Tyr Thr Ser Arg Thr Cys Pro Met Cys Gln His Val
85 90 95
Arg Lys Ser Lys Val Gln Gly Arg Val Phe Arg Cys Pro Thr Cys His
100 105 110
Trp Thr Tyr His Arg Asp Gly Val Gly Ala Ile Asn Ile Arg Gln Lys
115 120 125
Tyr Leu Gly Ser Leu Pro Val
130 135
<210> 165
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 165
His His Asn Lys Arg Lys Tyr Phe Leu His Ile Thr Val Glu Met Lys
1 5 10 15
Gly Val Gln Arg Val Tyr Glu Lys Asp Arg Ala Ile Ala Val Asp Leu
20 25 30
Gly Gln Ile His Lys Lys Leu Asn Gly Ala Lys Lys Lys Leu Leu Asn
35 40 45
Lys Ser Lys Asn Lys Val Asn Asp Val Leu Gln Lys Tyr Thr Ser Tyr
50 55 60
Leu Val Gly Tyr Cys Ile Glu Gln Gly Ile Gly Thr Ile Val Ile Gly
65 70 75 80
Asp Ile Lys Ser Ile Arg Glu Asn Tyr Thr Ser Gln Thr Cys Pro Val
85 90 95
Cys Asn Lys Lys His Lys Pro Gly Asn Arg Asn Phe Thr Cys Lys Cys
100 105 110
Gly Phe Lys Tyr His Arg Asp Ala Val Gly Ala Ile Asn Ile His Lys
115 120 125
Lys Tyr Thr Ser Ser Leu Ser Ala
130 135
<210> 166
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 166
Glu Glu Gly Lys Tyr Tyr Leu His Leu Val Ile Glu Gly Lys Asn Val
1 5 10 15
Ala Arg Lys Pro Gln Asn Gly Lys Ile Met Ala Val Asp Leu Gly Ile
20 25 30
Leu Arg Arg Lys Leu Val Lys Ala Lys Lys Lys Met Leu Arg Arg Thr
35 40 45
Arg His Gln Ile Lys Asp Ile Leu His Lys Ile Thr Ser Asn Phe Leu
50 55 60
Lys Met Cys Leu Gln Lys Gly Ile Gly Thr Ile Ala Leu Gly Asp Val
65 70 75 80
Thr Asn Ile Arg Glu Arg Tyr Thr Ser Gln Thr Cys Pro Met Cys Gly
85 90 95
Ser Arg Asn His Ser Asn Asn Arg Asn Tyr Lys Cys Gln Asn Cys Gly
100 105 110
Phe Lys Tyr His Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Val Arg
115 120 125
Tyr Leu Gly Lys Lys Ser Gln
130 135
<210> 167
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 167
Glu Asp Gly Lys Tyr Tyr Leu His Leu Ala Thr Glu Val Lys Asn Glu
1 5 10 15
Val Gln Lys Gln Gln Gly Lys Lys Val Met Ala Val Asp Leu Gly Ile
20 25 30
Leu Arg Arg Lys Leu Val Lys Ala Lys Lys Lys Met Leu Arg Arg Ile
35 40 45
Arg His Gln Ile Lys Asp Ile Leu His Lys Ile Thr Ser Asn Phe Leu
50 55 60
Lys Met Cys Leu Gln Lys Gly Ile Lys Thr Ile Ala Val Gly Asp Ile
65 70 75 80
Thr Asn Ile Arg Glu Arg Tyr Thr Ser Gln Thr Cys Pro Ala Cys Gly
85 90 95
Ser Arg Asn His Pro Thr Asp Arg Asn Tyr Glu Cys Gln Asn Cys Gly
100 105 110
Phe Lys Tyr His Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Ala Arg
115 120 125
Tyr Leu Gly Lys Lys Ser Gln
130 135
<210> 168
<211> 132
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 168
Asn Gly Thr Gly Tyr Glu Leu Arg Val Ile Tyr Ser Thr Thr Pro Thr
1 5 10 15
Gly Pro Leu Gly Val Lys Val Ala Gly Val Asp Met Gly Glu Ile His
20 25 30
Lys Tyr Leu Lys His Asn Lys Ala Arg Thr Leu Lys Lys Leu Asp Asn
35 40 45
Gln Ile Asn Asp Ile Leu His Lys Gln Thr Thr Lys Leu Val Ser Thr
50 55 60
Leu His Glu Ala Gly Val Lys Thr Val Val Ile Gly Asp Val Arg Asp
65 70 75 80
Ile Arg Lys Gly Tyr Thr Ser Gln Thr Cys Pro Ala Cys Gly Lys Arg
85 90 95
His Lys Pro Lys Asp Arg Asn Tyr Arg Cys Ser Cys Gly Phe Gln Tyr
100 105 110
His Arg Asp Gly Ile Gly Ala Tyr Asn Ile Arg Ala Lys Tyr Leu Gly
115 120 125
Glu Leu Glu Thr
130
<210> 169
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 169
Asp Arg Thr Gly Trp Lys Met Asn Cys Val Met Glu Gln Glu Val Gln
1 5 10 15
Gln His Gln Leu Asp Lys Thr Lys Ile Leu Ala Ile Asp Leu Gly Asn
20 25 30
Lys Arg Lys Arg Val Met Arg Ala Arg Arg Lys Ile Thr Ala Arg Ile
35 40 45
Asn Asn Gln Lys Arg Asp Ile Leu His Lys Thr Ser Arg Ala Ile Val
50 55 60
Asn Tyr Ala Ile Glu Asn Asn Ile Asp Lys Ile Val Phe Gly Asp Cys
65 70 75 80
Ser Ser Ile His Asp Gly Tyr Ser Ser Gln Glu Cys Pro Ile Cys Asp
85 90 95
His Arg Tyr Glu Pro Arg Gly Arg Thr Tyr Lys Cys Ser Ala Cys Gly
100 105 110
Tyr Val Tyr Asp Arg Asp Gly Val Gly Ser Ile Asn Ile Tyr Thr Asn
115 120 125
Val Ser Ser Gly Leu Thr Leu
130 135
<210> 170
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 170
Lys Thr Arg Gly Trp Lys Ile Asn Leu Cys Leu Glu Thr Asp Val Glu
1 5 10 15
Gln Lys Asn Leu Asp Asn Asn Lys Phe Leu Ser Ile Asp Leu Gly Val
20 25 30
Lys Arg Lys Lys Ile Gln Arg Ala Lys Arg Arg Thr Thr Asp Lys Ile
35 40 45
Leu Asn Ile Gln Lys Asp Met Leu His Lys Tyr Ser Ser Phe Val Val
50 55 60
Asn Tyr Ala Ile Lys Asn Asn Ile Gly Asn Ile Ile Ile Gly Asp Ser
65 70 75 80
Ser Thr His Asp Ser Tyr Thr Ser Arg Lys Cys Pro Cys Cys Lys Asn
85 90 95
Ile Lys Lys Ser Ser Pro Arg Gly Arg Thr Tyr Lys Cys Lys Lys Cys
100 105 110
Asp Phe Val Phe Asp Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Asn
115 120 125
Glu Asn Val Ser Phe Gly Thr Cys
130 135
<210> 171
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 171
Lys Thr Arg Gly Trp Lys Ile Asn Leu Cys Leu Glu Thr Glu Val Glu
1 5 10 15
Gln Lys Asn Leu Ser Glu Asn Lys Tyr Leu Ser Ile Asp Leu Gly Val
20 25 30
Lys Arg Lys Lys Ile Gln Arg Ala Lys Arg Lys Thr Thr Asp Arg Leu
35 40 45
Leu Asn Ile Gln Lys Glu Met Leu His Lys Tyr Ser Ser Phe Ile Val
50 55 60
Asn Tyr Ala Ile Arg Asn Asp Ile Gly Asn Ile Ile Ile Gly Asp Ser
65 70 75 80
Ser Thr His Asp Ser Tyr Thr Ser Arg Lys Cys Pro His Cys Lys Asn
85 90 95
Ile Lys Lys Ser Ser Pro Lys Gly Arg Thr Tyr Lys Cys Lys Lys Cys
100 105 110
Gly Phe Ile Phe Asp Arg Asp Gly Val Gly Ala Ile Asn Ile Tyr Asn
115 120 125
Glu Asn Val Ser Phe Gly Gln Ile
130 135
<210> 172
<211> 134
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 172
Lys Thr Thr Gly Lys Tyr Tyr Val Ser Ile Phe Thr Glu Gln Glu Val
1 5 10 15
Glu Glu Pro Lys Thr Asn Lys Gln Val Gly Ile Asp Leu Gly Leu Lys
20 25 30
Asp Glu Lys Gln Lys Leu Lys Val Ala Lys Ile His Glu Lys Ile Ala
35 40 45
Asn Cys Arg Leu Asp Ile Leu His Lys Val Ser Thr Glu Leu Val Lys
50 55 60
Asn Tyr Asp Leu Ile Ala Val Glu Asp Leu Asn Val Lys Gly Met Thr
65 70 75 80
Lys Asn Tyr Pro Ser Ser Lys Thr Cys Ser Glu Cys Gly Trp Ile Asn
85 90 95
Gln Glu Leu Lys Leu Ser Asp Arg Glu Trp Thr Cys Asn Ser Cys Gly
100 105 110
Ala Ile His Asp Arg Asp Leu Asn Ala Ser Lys Asn Ile Leu Lys Glu
115 120 125
Gly Leu Lys Ile Ile Ser
130
<210> 173
<211> 137
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 173
Arg Gln Asn Asn Gln Tyr Phe Val Ser Ile Leu Ile Asp Asp Asn Asn
1 5 10 15
Ala Ile Pro Lys Pro Ile Lys Ala Lys Asn Ala Val Gly Leu Asp Met
20 25 30
Gly Leu Thr Asp Gln Lys Ala Lys Leu Arg Val Gln Lys Leu His Thr
35 40 45
Lys Val Ser Asn Gln Arg Lys Asp Thr Leu His Lys Ile Ser Asn Glu
50 55 60
Ile Thr Asn Gln Tyr Asp Ile Ile Cys Leu Glu Thr Leu Asn Val Arg
65 70 75 80
Gly Met Gln Lys Asn Phe Pro Ser Ser Gln Ile Cys Ser Asn Cys Gly
85 90 95
Ala Ser Ser Lys Lys Lys Glu Leu His Val Arg Lys Trp Glu Cys Pro
100 105 110
Glu Cys His Ala Lys His Asp Arg Asp Ile Asn Ala Ser Ile Asn Ile
115 120 125
Lys Asn Tyr Gly Leu Gly Gln Ile Asp
130 135
<210> 174
<211> 137
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 174
Lys Lys His Asn Lys Tyr Tyr Val Ser Ile Met Val Glu Tyr Thr Asn
1 5 10 15
Asn Phe Lys Lys Val Glu Val Lys Lys Ser Val Gly Ile Asp Leu Gly
20 25 30
Val Lys Ala Lys Lys Ile Lys Lys Asn Ile Ser Lys Ile His Glu Asn
35 40 45
Val Ala Asn Thr Arg Glu Asn Phe Leu His Asn Glu Ser Lys Lys Leu
50 55 60
Val Asp Asn Tyr Asp Leu Ile Cys Met Glu Asp Leu Asn Val Lys Gly
65 70 75 80
Met Thr Lys Ser Ser Glu Pro Thr Ser Lys Lys Cys Asn Cys Cys Gly
85 90 95
Thr Ile Asn Lys Asn Leu Glu Leu Lys Asp Arg Ile Trp Lys Cys Glu
100 105 110
Asn Cys Gly Glu Ile Leu Asn Arg Asp Leu Asn Ala Ala Leu Asn Ile
115 120 125
Arg Asp Leu Gly Thr Lys Lys Phe Phe
130 135
<210> 175
<211> 137
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 175
Lys Thr Thr Asn Lys Tyr Tyr Ile Ser Ile Leu Val Asp Asp Lys Lys
1 5 10 15
Pro Ile Pro Lys Arg Gln Ile Lys Leu Glu Ser Thr Val Gly Ile Asp
20 25 30
Leu Gly Ile Lys Asp Ile Lys Gln Lys Met Lys Val Ser Leu Leu His
35 40 45
Glu His Ile Lys Asn Gln Arg Glu Asp Tyr Leu His Lys Ile Ser Lys
50 55 60
Tyr Leu Val Tyr Asn Tyr Asp Thr Ile Cys Ile Glu Asn Leu Gly Val
65 70 75 80
Ser Asn Met Met Lys Asn Asp Pro Ser Ser Lys Thr Cys Ser Ser Cys
85 90 95
Gly Ser Ile Asn Lys Glu Leu Thr Leu Asn Asp Arg Glu Trp Thr Cys
100 105 110
Lys Cys Gly Thr Lys His Asp Arg Asp Ile Asn Ala Ala Ile Asn Ile
115 120 125
Arg Asn Phe Gly Leu Arg Asn Gln Pro
130 135
<210> 176
<211> 144
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 176
Arg Lys Gly Asn Asn Tyr Tyr Ile Ser Phe Gln Val Glu His Asn Gln
1 5 10 15
Pro Leu Ile Ser Glu Pro Ile Lys Arg Glu Ile Lys Tyr Glu Thr Thr
20 25 30
Ile Gly Ile Asp Met Gly Val Glu Arg Lys Arg Ile Leu Lys Lys Met
35 40 45
Arg Gly Leu Tyr His Lys Ile Thr Asn Ile Arg Glu Asn Leu Gln His
50 55 60
Asn Ile Thr Ser Asn Leu Val Asn Lys Glu Asn Ile Asp Thr Phe Ile
65 70 75 80
Leu Glu Glu Leu Asn Leu Lys Asn Met Thr Lys Arg Ser Phe Thr Ser
85 90 95
Gln Lys Cys Ser Asp Cys Gly His Ile Asn Lys Leu Asn Arg Lys Ser
100 105 110
Gln Ala Val Phe Lys Cys Val Lys Cys Gly Tyr Thr Leu Asn Ala Asp
115 120 125
Leu Asn Ala Ala Ile Asn Ile Lys Asn Asn Phe Phe Gly Lys Asn Thr
130 135 140
<210> 177
<211> 139
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 177
Glu Thr Ser Gly Glu Phe Tyr Leu Ala Ile Thr Ala Asp Ile Ile Ser
1 5 10 15
Lys Pro Met Lys Arg Ile Val Asn Glu Glu Thr Ser Ile Gly Ile Asp
20 25 30
Met Gly Val Ala Arg Glu Arg Ile Lys Lys Arg Leu Ala Lys Leu His
35 40 45
Ser Lys Ile Ala Asn Ile Arg Lys Tyr Leu Gln His Asn Ile Thr Ser
50 55 60
Lys Leu Ile Asn Ser Lys Tyr Asp Thr Ile Ile Ile Glu Asp Leu Asp
65 70 75 80
Val Lys Asn Met Met Lys Lys Ser Tyr Thr Ser Gln Met Cys Ser Asn
85 90 95
Cys Gly His Thr His Arg Asp Asn Arg Lys Lys Gln Asp Glu Phe Ile
100 105 110
Cys Val Ser Cys Gly His Asn Glu Asn Ala Asp Leu Asn Ala Ala Lys
115 120 125
Asn Ile Lys Asn Lys Phe Phe Lys Lys Leu Ala
130 135
<210> 178
<211> 138
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 178
Lys Arg Gly Asn Gln Tyr Phe Ile Ser Phe Gln Val Glu Leu Pro Gly
1 5 10 15
Glu Leu Pro Arg Lys Arg Glu Ile Lys Lys Glu Thr Ser Val Gly Val
20 25 30
Asp Phe Gly Val Lys Lys Asn Asn Ile Lys Glu Lys Ile Asn Lys Leu
35 40 45
His Ile Lys Ile Ser Asn Gln Arg Lys Asn Leu Gln His Asn Ile Ser
50 55 60
Ser Phe Leu Val Asn Leu Asn Ala Asp Thr Ile Ile Met Glu Asp Leu
65 70 75 80
Asn Leu Lys Gly Met Thr Lys Thr Pro Tyr Thr Ser Gln Lys Cys Asn
85 90 95
Asn Cys Gly Phe Thr His Lys Glu Asn Arg Ile Ser Gln Ser Glu Phe
100 105 110
Glu Cys Lys Asn Cys Gly His Lys Asp Asn Ala Asp Lys Asn Ala Ser
115 120 125
Lys Asn Ile Lys Gln Lys Tyr Phe Asp Asn
130 135
<210> 179
<211> 135
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 179
Lys Val Ile Lys Arg Arg Leu Phe Leu Leu Leu Ser Tyr Glu Ile Pro
1 5 10 15
Asp Lys Ile Glu Asn Lys Pro Asn Pro Asp Asn Ile Met Gly Ile Asp
20 25 30
Phe Gly Met Ala Asn Ala Arg Lys Thr Arg Lys Ile Glu Asp Tyr Arg
35 40 45
Asn Lys Glu Lys Asn Leu Thr Lys Thr Glu Ile Ser Gln Ile Leu Ser
50 55 60
Ser Ile Val Arg Leu Ala Gln Ala Asn Asn Ile Gly Thr Ile Lys Ile
65 70 75 80
Glu Tyr Leu Thr Ile Asp Gln Lys Thr His Thr Ser Gln Lys Cys Ser
85 90 95
Thr Cys Gly Thr Ile Gly Thr Arg Asp Gly Arg Ile Phe Ser Cys Glu
100 105 110
Asn Cys Ser Phe Lys Val Asn Ala Asp Lys Asn Ala Ala Ile Asn Ile
115 120 125
Ala Asn Ser Thr Gln Phe Val
130 135
<210> 180
<211> 148
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 180
Thr Asn Arg Asp Arg Lys Leu Cys Tyr Val Leu Gln Leu Thr Val Asn
1 5 10 15
Ile Pro Glu Pro Val Ala Ser Pro Cys Thr Asn Gly Val Gly Ile Asp
20 25 30
Leu Gly Trp Arg Leu Met Asp Ser Gly Ile Arg His Arg Lys Asp Arg
35 40 45
His Leu Glu Gln Tyr Glu Val Gly Cys Arg Lys Arg Ala Met Asn Tyr
50 55 60
Arg Arg Glu Glu Tyr Arg Lys Phe Ala Lys Gln Met Thr Ser Thr Tyr
65 70 75 80
Gly Tyr Leu Ala Leu Glu Asn Trp Asn Ile Ser Lys Val Ala Leu Arg
85 90 95
Tyr Thr Thr Leu Glu Cys Ala Ala Cys His Lys Ile Asn Thr Trp Asp
100 105 110
Thr Ser Lys Asn Val Cys Gln Thr Cys Glu Asn Cys Asp Thr Val Trp
115 120 125
Asp Gln Asp Glu Asn Ala Ala Arg Asn Leu Leu Ala Ser Gly Thr Val
130 135 140
Leu Lys Asn Thr
145
<210> 181
<211> 89
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 181
Arg Phe Tyr Gly Pro His Gln Glu Trp Thr Leu Glu Ile Thr Ile Asp
1 5 10 15
Asn Leu Ser Pro Thr Lys Glu Leu Gly Asn Gly Val Val Ala Leu Asp
20 25 30
Ile Gly Trp Arg Lys Leu Asn Asp Lys Ile Arg Arg Tyr Lys Asp Gln
35 40 45
His Leu Trp Gln Trp Glu Cys Gly Ser Arg Arg Ser Gly Leu Arg Glu
50 55 60
Arg Ile Ile Ile Ala Thr Leu Leu Glu Arg Asn Ile Thr Val Leu Tyr
65 70 75 80
Lys Thr Leu Ile Phe Gln Arg Trp Gln
85
<210> 182
<211> 138
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 182
Ser Lys Lys Lys Gly Lys Trp Phe Cys Val Ile Ala Tyr Asp Ser Pro
1 5 10 15
Ile Lys Val Asn Glu Leu Asp Ile Asp Lys Val Met Gly Ile Asp Leu
20 25 30
Gly Ile Val Asn Lys Arg Asn Met Gln Ala Ala Asp Ile Leu Gly Glu
35 40 45
Lys Ile Ser Asn Phe Arg Asp Thr Val Asn His Lys Tyr Ser Lys Lys
50 55 60
Ile Ile Asp Ile Ala Ile Ala Asn Lys Cys Gly Val Ile Gln Met Glu
65 70 75 80
Asp Leu Thr Gly Ile Ser Lys Asn Thr Ser Lys Thr Cys Ser Val Cys
85 90 95
Gly His Leu Asp Ala Glu Asn Arg Glu Asp Gln Ala Thr Phe Ile Cys
100 105 110
Lys Glu Cys Gly Ser Asn Met Asn Ala Asp His Asn Ala Ala Lys Asn
115 120 125
Ile Ser Val Trp Ser Val Ser Lys Glu Phe
130 135
<210> 183
<211> 136
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 183
Lys Asp Lys Lys Thr Phe Ile Asn Leu Cys Tyr Gly Phe Glu Pro Val
1 5 10 15
Thr Ser Glu Leu Asp Lys Ser Lys Val Met Gly Ile Asp Leu Gly Val
20 25 30
Ser Val Lys Lys Lys Met Val Cys Tyr Asp Lys Tyr Ser Asn Lys Ser
35 40 45
Arg Asn Leu Ser Gln Thr Ile Asn His Gly Trp Ser Lys Tyr Ile Val
50 55 60
Asp Val Ala Phe Arg Asn Gly Cys Gly Thr Ile Gln Met Glu Asp Leu
65 70 75 80
Ser Gly Val Thr Ser Tyr Thr Ser Gln Arg Cys Cys Glu Cys Gly Cys
85 90 95
Ile Cys Lys Arg Asn Arg Pro Asp Gln Lys Thr Phe Lys Cys Ile Ser
100 105 110
Cys Gly Tyr Ser Ala Asn Ala Asp Phe Asn Ala Ala Lys Asn Ile Ala
115 120 125
Thr Ile Gly Ile Glu Asp Ile Ile
130 135
<210> 184
<211> 141
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 184
Ala Ala Gly Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr
1 5 10 15
Gly Phe Glu Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly
20 25 30
Ile Asp Leu Gly Met Lys Leu Lys Lys Lys Val Asp Val Tyr Glu Arg
35 40 45
Tyr Ser His Lys Ser His Asn Leu Ser Met His Ile Asn His Gln Trp
50 55 60
Ser Lys Tyr Ile Val Asp Thr Ala Val Lys Asn Lys Cys Gly Val Ile
65 70 75 80
Gln Met Glu Asp Leu Ser Gly Ile Lys Ala Tyr Thr Ser Gln Met Cys
85 90 95
Pro Val Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr Gln Ala Asp
100 105 110
Phe Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp Tyr Asn Ala
115 120 125
Ala Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
130 135 140
<210> 185
<211> 140
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 185
Gly Gly Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr Gly
1 5 10 15
Phe Glu Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly Ile
20 25 30
Asp Leu Gly Met Lys Leu Asn Lys Lys Val Asp Val Tyr Glu Arg Tyr
35 40 45
Ser His Lys Ser His Asn Leu Ser Met Asp Ile Asn His Gln Trp Ser
50 55 60
Lys Tyr Ile Val Asp Thr Ala Val Lys Asn Lys Cys Gly Val Ile Gln
65 70 75 80
Met Glu Asp Leu Ser Gly Ile Lys Ala Tyr Thr Ser Gln Met Cys Pro
85 90 95
Val Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr Gln Ala Asp Phe
100 105 110
Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp Tyr Asn Ala Ala
115 120 125
Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
130 135 140
<210> 186
<211> 141
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 186
Ala Ala Gly Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr
1 5 10 15
Gly Phe Glu Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly
20 25 30
Ile Asp Leu Gly Met Lys Leu Lys Lys Lys Val Asp Val Tyr Glu Arg
35 40 45
Tyr Ser His Lys Ser His Asn Leu Ser Met Asp Ile Asn His Gln Trp
50 55 60
Ser Lys Tyr Ile Val Glu Thr Ala Val Lys Asn Lys Cys Gly Val Ile
65 70 75 80
Gln Val Glu Asp Leu Ser Gly Ile Lys Ala Tyr Thr Ser Gln Met Cys
85 90 95
Pro Val Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr Gln Ala Asp
100 105 110
Phe Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp Tyr Asn Ala
115 120 125
Ala Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
130 135 140
<210> 187
<211> 141
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 187
Ala Ala Gly Lys Lys Asp Lys Pro Lys Val Trp Leu Tyr Leu Cys Tyr
1 5 10 15
Gly Phe Glu Pro Glu Ala Pro Glu Leu Asp Asp Ser Arg Ile Met Gly
20 25 30
Ile Asp Leu Gly Met Lys Leu Lys Lys Lys Val Asp Val Tyr Glu Lys
35 40 45
Cys Ser His Arg Ser His Asn Leu Ser Met Asp Ile Asn His Gln Trp
50 55 60
Ser Lys Tyr Ile Val Glu Thr Ala Ile Lys Asn Lys Cys Gly Val Ile
65 70 75 80
Gln Met Glu Asp Leu Ser Gly Ile Lys Ala Tyr Thr Ser Gln Met Cys
85 90 95
Pro Ile Cys Gly Tyr Ile Asn Lys Arg Asn Arg Ser Thr Gln Ala Asp
100 105 110
Phe Glu Cys Leu Glu Cys Gly His Ile Ala Asn Ala Asp Tyr Asn Ala
115 120 125
Ala Arg Asn Ile Ala Thr Pro Asp Ile Ala Asn Ile Ile
130 135 140
<210> 188
<211> 446
<212> PRT
<213> 人工序列(Artificial sequence)
<220>
<223> 合成序列
<400> 188
Met Ala Lys Lys Asn Ile Asp Asp Thr Lys Lys Val Thr Leu Cys Glu
1 5 10 15
Lys Val Lys Leu Thr Gln Ile Tyr Ser Pro Val Val Asp Trp Lys Glu
20 25 30
Phe His Lys Ile Phe Lys Ile Leu Gln Lys Glu Thr Ile Leu Ala Ser
35 40 45
Asn Lys Ile Ile Ser Ile Cys Asn Ile Phe Asn Ser Phe Asn Asn Lys
50 55 60
Glu Glu Gln Lys Asp Trp Leu Ile Lys Lys Tyr Gln Ser Glu Lys Leu
65 70 75 80
Arg Asn Val Leu Tyr Asp Val Ala Arg Lys Tyr Cys Tyr Tyr Ser Tyr
85 90 95
Ser Arg Asn Ala Asn Ala Ile Ser Asn Asp Ile Tyr Tyr Lys Tyr Phe
100 105 110
Lys Gly Pro Asn Ser Tyr Lys Val Lys Ile Gln Lys Gly Ile Gly Asn
115 120 125
Pro Pro Met Thr Phe Thr Glu Ser Ile Pro Leu Tyr Ile Thr Val Gln
130 135 140
Arg His Lys Ile Glu Cys Thr Asn Asn Val Arg His Tyr Tyr Thr Ile
145 150 155 160
Glu Val Pro Leu Leu Ser Asn Asn Cys Lys Ser Gly Ile Gln Ile Thr
165 170 175
Asp Thr Glu Gln Thr Gln Val Asn Asn Asn Ala Leu Arg Phe Gly Ile
180 185 190
Asn Ala Ala Gly Asn Lys Arg Leu Ile Glu Ile Leu Asp Asn Ile Ile
195 200 205
Tyr Gly Lys Tyr Glu Phe Cys Asp Ser Lys Leu Lys Arg Val Lys Ser
210 215 220
Lys Lys Arg Ser His Arg Tyr Asp Tyr Tyr Phe Leu Leu Ser Tyr Lys
225 230 235 240
Lys Pro Val Ile Glu Ile Lys Ser Leu Lys Pro Glu Asn Val Leu Gly
245 250 255
Val Asp Leu Gly Met Thr Val Pro Ala Tyr Cys Ala Val Asn Tyr Cys
260 265 270
Asp Tyr Lys Lys Ala Val Gly Asp Ser Arg Ile Ile Arg Phe Asn Leu
275 280 285
Ile Gln Glu Lys Ile Asn Lys Arg Ile Gln Arg Asn Ile Lys Tyr Asn
290 295 300
Leu Arg Asp Gly His Gly Arg Lys Tyr Lys Leu Asp Gly Tyr Asp Gly
305 310 315 320
Ala Ser Asn Lys Ile Ala Lys Arg Asn Ser Thr Phe Asn Phe Asn Leu
325 330 335
Ala Ser Glu Ile Ile Gln Leu Ala Ile Lys Trp Gln Cys Gly Thr Ile
340 345 350
His Leu Glu Asp Leu Thr Lys Ile His Glu Ile Asn Pro Gln Asn Arg
355 360 365
Phe Leu Lys Asn Trp Thr Tyr Tyr Asp Leu Gln Lys Lys Ile Glu Asn
370 375 380
Lys Ala Lys Glu Tyr Gly Ile Val Val Lys Tyr Ile Asn Pro Tyr Tyr
385 390 395 400
Thr Ser Gln Ile Cys Ser Asn Cys Gly His Phe Glu Ser Gly Gln Arg
405 410 415
Ile Ser Gln Ser Gln Phe Gln Cys Lys Ser Cys Gly Tyr Ser Ala Asn
420 425 430
Ala Asp Tyr Asn Ala Ala Arg Asn Ile Ala Leu Tyr Lys Phe
435 440 445
Claims (121)
1.一种组合物,所述组合物包含:
a)CRISPR-Cas效应子多肽,或编码所述CRISPR-Cas效应子多肽的核酸分子,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
b)CRISPR-Cas效应子指导RNA,或一种或多种编码所述CRISPR-Cas效应子指导RNA的DNA分子。
2.如权利要求1所述的组合物,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
3.如权利要求1或权利要求2所述的组合物,其中所述CRISPR-Cas效应子指导RNA包含与图7中所描绘的crRNA序列中的任一者具有80%、90%、95%、98%、99%或100%核苷酸序列同一性的核苷酸序列。
4.如权利要求1或权利要求2所述的组合物,其中所述CRISPR-Cas效应子多肽与核定位信号(NLS)融合。
5.如权利要求1-4中任一项所述的组合物,其中所述组合物包含脂质。
6.如权利要求1-4中任一项所述的组合物,其中a)和b)在脂质体内。
7.如权利要求1-4中任一项所述的组合物,其中a)和b)在颗粒内。
8.如权利要求1-7中任一项所述的组合物,所述组合物包含以下一项或多项:缓冲剂、核酸酶抑制剂和蛋白酶抑制剂。
9.如权利要求1-8中任一项所述的组合物,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有85%或更高同一性的氨基酸序列。
10.如权利要求1-9中任一项所述的组合物,其中所述CRISPR-Cas效应子多肽是仅能切割双链靶核酸分子的一条链的切口酶。
11.如权利要求1-9中任一项所述的组合物,其中所述CRISPR-Cas效应子多肽是无催化活性的CRISPR-Cas效应子多肽(dCRISPR-Cas效应子)。
12.如权利要求10或权利要求11所述的组合物,其中所述CRISPR-Cas效应子多肽在RuvC-I结构域、RuvC-II结构域和RuvC-III结构域中的一者或多者中包含一个或多个氨基酸取代。
13.如权利要求1-12中任一项所述的组合物,所述组合物还包含DNA供体模板。
14.一种CRISPR-Cas效应子融合多肽,所述CRISPR-Cas效应子融合多肽包含:与异源多肽融合的CRISPR-Cas效应子多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
15.如权利要求14所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高同一性的氨基酸序列。
16.如权利要求14所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有85%或更高同一性的氨基酸序列。
17.如权利要求14-16中任一项所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽是仅能切割双链靶核酸分子的一条链的切口酶。
18.如权利要求14-17中任一项所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽是无催化活性的CRISPR-Cas效应子多肽(dCRISPR-Cas效应子)。
19.如权利要求17或权利要求18所述的CRISPR-Cas效应子融合多肽,其中所述CRISPR-Cas效应子多肽在RuvC-I结构域、RuvC-II结构域和RuvC-III结构域中的一者或多者中包含一个或多个氨基酸取代。
20.如权利要求14-19中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽与所述CRISPR-Cas效应子多肽的N末端和/或C末端融合。
21.如权利要求14-20中任一项所述的CRISPR-Cas效应子融合多肽,所述CRISPR-Cas效应子融合多肽包含核定位信号(NLS)。
22.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是提供与靶细胞或靶细胞类型上的细胞表面部分的结合的靶向多肽。
23.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。
24.如权利要求23所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
25.如权利要求24所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
26.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
27.如权利要求26所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
28.如权利要求26或权利要求27所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
29.如权利要求28所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
30.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是内体逃逸多肽。
31.如权利要求30所述的CRISPR-Cas效应子融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXA(SEQ ID NO:12)和GLFHALLHLLHSLWHLLLHA(SEQ ID NO:13),其中每个X独立地选自赖氨酸、组氨酸和精氨酸。
32.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是叶绿体转运肽。
33.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽包含蛋白转导结构域。
34.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是增加或降低转录的蛋白质。
35.如权利要求34所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是转录阻遏物结构域。
36.如权利要求34所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是转录激活结构域。
37.如权利要求14-21中任一项所述的CRISPR-Cas效应子融合多肽,其中所述异源多肽是蛋白结合结构域。
38.一种核酸,所述核酸包含编码权利要求14-37中任一项所述的CRISPR-Cas效应子融合多肽的核苷酸序列。
39.如权利要求38所述的核酸,其中编码所述CRISPR-Cas效应子融合多肽的所述核苷酸序列可操作地连接至启动子。
40.如权利要求39所述的核酸,其中所述启动子在真核细胞中是功能性的。
41.如权利要求40所述的核酸,其中所述启动子在以下一项或多项中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
42.如权利要求39-41中任一项所述的核酸,其中所述启动子是以下一项或多项:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
43.如权利要求38-42中任一项所述的核酸,其中所述核酸是重组表达载体。
44.如权利要求43所述的核酸,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
45.如权利要求39所述的核酸,其中所述启动子在原核细胞中是功能性的。
46.如权利要求38所述的核酸,其中所述核酸分子是mRNA。
47.一种或多种核酸,所述一种或多种核酸包含:
(a)编码CRISPR-Cas效应子指导RNA的核苷酸序列;和
(b)编码CRISPR-Cas效应子多肽的核苷酸序列,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
48.如权利要求47所述的一种或多种核酸,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高同一性的氨基酸序列。
49.如权利要求47所述的一种或多种核酸,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸具有85%或更高同一性的氨基酸序列。
50.如权利要求47-49中任一项所述的一种或多种核酸,其中所述CRISPR-Cas效应子指导RNA包含与图7中所示的crRNA序列中的任一者具有80%或更高同一性的核苷酸序列。
51.如权利要求47-50中任一项所述的一种或多种核酸,其中所述CRISPR-Cas效应子多肽与核定位信号(NLS)融合。
52.如权利要求47-51中任一项所述的一种或多种核酸,其中编码所述CRISPR-Cas效应子指导RNA的所述核苷酸序列可操作地连接至启动子。
53.如权利要求47-52中任一项所述的一种或多种核酸,其中编码所述CRISPR-Cas效应子多肽的所述核苷酸序列可操作地连接至启动子。
54.如权利要求52或权利要求53所述的一种或多种核酸,其中可操作地连接至编码所述CRISPR-Cas效应子指导RNA的所述核苷酸序列的所述启动子和/或可操作地连接至编码所述CRISPR-Cas效应子多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。
55.如权利要求54所述的一种或多种核酸,其中所述启动子在以下一项或多项中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
56.如权利要求53-55中任一项所述的一种或多种核酸,其中所述启动子是以下一项或多项:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
57.如权利要求47-56中任一项所述的一种或多种核酸,其中所述一种或多种核酸是一种或多种重组表达载体。
58.如权利要求57所述的一种或多种核酸,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
59.如权利要求53所述的一种或多种核酸,其中所述启动子在原核细胞中是功能性的。
60.一种真核细胞,所述真核细胞包含以下一项或多项:
a)CRISPR-Cas效应子多肽,或包含编码所述CRISPR-Cas效应子多肽的核苷酸序列的核酸,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;
b)CRISPR-Cas效应子融合多肽,或包含编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸,其中所述融合多肽中存在的CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
c)CRISPR-Cas效应子指导RNA,或包含编码所述CRISPR-Cas效应子指导RNA的核苷酸序列的核酸。
61.如权利要求60所述的真核细胞,所述真核细胞包含编码所述CRISPR-Cas效应子多肽的核酸,其中所述核酸整合到所述细胞的基因组DNA中。
62.如权利要求60或权利要求61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、蛛形纲动物细胞、真菌细胞、鸟类细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
63.一种细胞,所述细胞包含CRISPR-Cas效应子融合多肽,或包含编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸。
64.如权利要求63所述的细胞,其中所述细胞是原核细胞。
65.如权利要求63或权利要求64所述的细胞,所述细胞包含含有编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸,其中所述核酸分子整合到所述细胞的基因组DNA中。
66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CRISPR-Cas效应子多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
b)CRISPR-Cas效应子指导RNA,所述CRISPR-Cas效应子指导RNA包含与所述靶核酸的靶序列杂交的指导序列,
其中所述接触导致通过所述CRISPR-Cas效应子多肽对所述靶核酸的修饰。
67.如权利要求66所述的方法,其中所述修饰是对所述靶核酸的切割。
68.如权利要求66或权利要求67所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
69.如权利要求66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。
70.如权利要求66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
71.如权利要求66-68中任一项所述的方法,其中所述接触在体内在细胞内部发生。
72.如权利要求70或权利要求71所述的方法,其中所述细胞是真核细胞。
73.如权利要求72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
74.如权利要求70或权利要求71所述的方法,其中所述细胞是原核细胞。
75.如权利要求66-74中任一项所述的方法,其中所述接触导致基因组编辑。
76.如权利要求66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CRISPR-Cas效应子多肽,或包含编码所述CRISPR-Cas效应子多肽的核苷酸序列的核酸;和(b)所述CRISPR-Cas效应子指导RNA,或包含编码所述CRISPR-Cas效应子指导RNA的核苷酸序列的核酸。
77.如权利要求76所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。
78.如权利要求66-77中任一项所述的方法,其中所述CRISPR-Cas效应子指导RNA包含与图7中所示的crRNA序列中的任一者具有80%或更高同一性的核苷酸序列。
79.如权利要求66-78中任一项所述的方法,其中所述CRISPR-Cas效应子多肽与核定位信号融合。
80.一种调节从靶DNA的转录,修饰靶核酸,或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
a)CRISPR-Cas效应子融合多肽,所述CRISPR-Cas效应子融合多肽包含与异源多肽融合的CRISPR-Cas效应子多肽,其中所述融合多肽中存在的所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
b)CRISPR-Cas效应子指导RNA,所述CRISPR-Cas效应子指导RNA包含与所述靶核酸的靶序列杂交的指导序列。
81.如权利要求80所述的方法,其中所述CRISPR-Cas效应子指导RNA包含与图7中所示的crRNA序列中的任一者具有80%或更高同一性的核苷酸序列。
82.如权利要求80或权利要求81所述的方法,其中所述CRISPR-Cas效应子融合多肽包含核定位信号。
83.如权利要求80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
84.如权利要求80-83中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。
85.如权利要求80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。
86.如权利要求80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
87.如权利要求80-84中任一项所述的方法,其中所述接触在体内在细胞内部发生。
88.如权利要求86或权利要求87所述的方法,其中所述细胞是真核细胞。
89.如权利要求88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
90.如权利要求86或权利要求87所述的方法,其中所述细胞是原核细胞。
91.如权利要求80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述CRISPR-Cas效应子融合多肽,或包含编码所述CRISPR-Cas效应子融合多肽的核苷酸序列的核酸;和(b)所述CRISPR-Cas效应子指导RNA,或包含编码所述CRISPR-Cas效应子指导RNA的核苷酸序列的核酸。
92.如权利要求80-91中任一项所述的方法,其中所述CRISPR-Cas效应子多肽是无催化活性的CRISPR-Cas效应子多肽(dCRISPR-Cas效应子)。
93.如权利要求80-92中任一项所述的方法,其中所述CRISPR-Cas效应子多肽在RuvC-I结构域、RuvC-II结构域和RuvC-III结构域中的一者或多者中包含一个或多个氨基酸取代。
94.如权利要求80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。
95.如权利要求94所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
96.如权利要求95所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
97.如权利要求80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
98.如权利要求97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
99.如权利要求97或权利要求98所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自O-GlcNAc转移酶)和脱糖基化活性。
100.如权利要求99所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
101.如权利要求80-93中任一项所述的方法,其中所述异源多肽是增加或降低转录的蛋白质。
102.如权利要求101所述的方法,其中所述异源多肽是转录阻遏物结构域。
103.如权利要求101所述的方法,其中所述异源多肽是转录激活结构域。
104.如权利要求80-93中任一项所述的方法,其中所述异源多肽是蛋白结合结构域。
105.一种转基因的多细胞非人生物体,所述转基因的多细胞非人生物体的基因组包含转基因,所述转基因包含编码以下一项或多项的核苷酸序列:
a)CRISPR-Cas效应子多肽,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;
b)CRISPR-Cas效应子融合多肽,其中所述融合多肽中存在的CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
c)CRISPR-Cas效应子指导RNA。
106.如权利要求105所述的转基因的多细胞非人生物体,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所示的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
107.如权利要求105所述的转基因的多细胞非人生物体,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所示的氨基酸序列具有95%或更高氨基酸序列同一性的氨基酸序列。
108.如权利要求105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
109.一种系统,所述系统包含:
a)CRISPR-Cas效应子多肽和CRISPR-Cas效应子指导RNA;
b)CRISPR-Cas效应子多肽、CRISPR-Cas效应子指导RNA和DNA供体模板;
c)CRISPR-Cas效应子融合多肽和CRISPR-Cas效应子指导RNA;
d)CRISPR-Cas效应子融合多肽、CRISPR-Cas效应子指导RNA和DNA供体模板;
e)编码CRISPR-Cas效应子多肽的mRNA和CRISPR-Cas效应子指导RNA;
f)编码CRISPR-Cas效应子多肽的mRNA、CRISPR-Cas效应子指导RNA和DNA供体模板;
g)编码CRISPR-Cas效应子融合多肽的mRNA和CRISPR-Cas效应子指导RNA;
h)编码CRISPR-Cas效应子融合多肽的mRNA、CRISPR-Cas效应子指导RNA和DNA供体模板;
i)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码CRISPR-Cas效应子多肽的核苷酸序列,和ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列;
j)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码CRISPR-Cas效应子多肽的核苷酸序列、ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列,和iii)DNA供体模板;
k)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码CRISPR-Cas效应子融合多肽的核苷酸序列,和ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列;以及
l)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码CRISPR-Cas效应子融合多肽的核苷酸序列、ii)编码CRISPR-Cas效应子指导RNA的核苷酸序列,和DNA供体模板,
其中在(a)-(l)中的任一项中,所述CRISPR-Cas效应子多肽或在所述融合多肽中存在的所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
110.如权利要求109所述的CRISPR-Cas效应子系统,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
111.如权利要求109所述的CRISPR-Cas效应子系统,其中所述CRISPR-Cas效应子多肽包含与图6A至图6BB中任一者中所描绘的氨基酸序列具有95%或更高氨基酸序列同一性的氨基酸序列。
112.如权利要求109-111中任一项所述的CRISPR-Cas效应子系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
113.如权利要求109-111中任一项所述的CRISPR-Cas效应子系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
114.一种试剂盒,所述试剂盒包含权利要求109-113中任一项所述的CRISPR-Cas效应子系统。
115.如权利要求114所述的试剂盒,其中所述试剂盒的组分在同一容器中。
116.如权利要求114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
117.一种无菌容器,所述无菌容器包含权利要求109-116中任一项所述的CRISPR-Cas效应子系统。
118.如权利要求117所述的无菌容器,其中所述容器是注射器。
119.一种可植入装置,所述可植入装置包含权利要求109-116中任一项所述的CRISPR-Cas效应子系统。
120.如权利要求119所述的可植入装置,其中所述CRISPR-Cas效应子系统在基质内。
121.如权利要求119所述的可植入装置,其中所述CRISPR-Cas效应子系统在储库中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962815179P | 2019-03-07 | 2019-03-07 | |
US62/815,179 | 2019-03-07 | ||
PCT/US2020/021214 WO2020181102A1 (en) | 2019-03-07 | 2020-03-05 | Crispr-cas effector polypeptides and methods of use thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114040971A true CN114040971A (zh) | 2022-02-11 |
Family
ID=72338076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080030261.1A Pending CN114040971A (zh) | 2019-03-07 | 2020-03-05 | CRISPR-Cas效应子多肽及其使用方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210380957A1 (zh) |
EP (1) | EP3935155A4 (zh) |
JP (1) | JP2022522650A (zh) |
CN (1) | CN114040971A (zh) |
WO (1) | WO2020181102A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10660419B2 (en) * | 2016-12-15 | 2020-05-26 | Elc Management Llc | Packaged skin treatment composition and method |
US10894812B1 (en) | 2020-09-30 | 2021-01-19 | Alpine Roads, Inc. | Recombinant milk proteins |
US10947552B1 (en) | 2020-09-30 | 2021-03-16 | Alpine Roads, Inc. | Recombinant fusion proteins for producing milk proteins in plants |
WO2022072718A1 (en) | 2020-09-30 | 2022-04-07 | Nobell Foods, Inc. | Recombinant milk proteins and food compositions comprising the same |
JP2024520528A (ja) | 2021-06-01 | 2024-05-24 | アーバー バイオテクノロジーズ, インコーポレイテッド | Crisprヌクレアーゼを含む遺伝子編集システム及びそれらの使用 |
WO2024006824A2 (en) * | 2022-06-28 | 2024-01-04 | Mammoth Biosciences, Inc. | Effector proteins, compositions, systems and methods of use thereof |
WO2024173645A1 (en) | 2023-02-15 | 2024-08-22 | Arbor Biotechnologies, Inc. | Gene editing method for inhibiting aberrant splicing in stathmin 2 (stmn2) transcript |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1871252A (zh) * | 2003-09-05 | 2006-11-29 | Gtc生物治疗学公司 | 在转基因哺乳动物奶中生产融合蛋白的方法 |
WO2017117395A1 (en) * | 2015-12-29 | 2017-07-06 | Monsanto Technology Llc | Novel crispr-associated transposases and uses thereof |
WO2017189308A1 (en) * | 2016-04-19 | 2017-11-02 | The Broad Institute Inc. | Novel crispr enzymes and systems |
WO2019030257A1 (en) * | 2017-08-08 | 2019-02-14 | Snipr Technologies Limited | PROPAGATOR CELLS AND METHODS FOR PROPAGATING PHAGES, ESPECIALLY FOR THE ADMINISTRATION OF CRISPR-CAS COMPONENTS VIA PROBIOTIC ORGANISMS |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6605709B1 (en) * | 1999-04-09 | 2003-08-12 | Genome Therapeutics Corporation | Nucleic acid and amino acid sequences relating to Proteus mirabilis for diagnostics and therapeutics |
US20040029129A1 (en) * | 2001-10-25 | 2004-02-12 | Liangsu Wang | Identification of essential genes in microorganisms |
EP3702460A1 (en) * | 2010-11-12 | 2020-09-02 | The General Hospital Corporation | Polycomb-associated non-coding rnas |
US9790490B2 (en) * | 2015-06-18 | 2017-10-17 | The Broad Institute Inc. | CRISPR enzymes and systems |
WO2018213351A1 (en) * | 2017-05-16 | 2018-11-22 | The Regents Of The University Of California | Thermostable rna-guided endonucleases and methods of use thereof |
-
2020
- 2020-03-05 WO PCT/US2020/021214 patent/WO2020181102A1/en active Application Filing
- 2020-03-05 JP JP2021548244A patent/JP2022522650A/ja active Pending
- 2020-03-05 CN CN202080030261.1A patent/CN114040971A/zh active Pending
- 2020-03-05 EP EP20767083.7A patent/EP3935155A4/en active Pending
-
2021
- 2021-08-16 US US17/403,236 patent/US20210380957A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1871252A (zh) * | 2003-09-05 | 2006-11-29 | Gtc生物治疗学公司 | 在转基因哺乳动物奶中生产融合蛋白的方法 |
WO2017117395A1 (en) * | 2015-12-29 | 2017-07-06 | Monsanto Technology Llc | Novel crispr-associated transposases and uses thereof |
WO2017189308A1 (en) * | 2016-04-19 | 2017-11-02 | The Broad Institute Inc. | Novel crispr enzymes and systems |
WO2019030257A1 (en) * | 2017-08-08 | 2019-02-14 | Snipr Technologies Limited | PROPAGATOR CELLS AND METHODS FOR PROPAGATING PHAGES, ESPECIALLY FOR THE ADMINISTRATION OF CRISPR-CAS COMPONENTS VIA PROBIOTIC ORGANISMS |
Non-Patent Citations (2)
Title |
---|
LUCAS B HARRINGTON ET AL.: "Association of HLA CLASS I genotype with outcomes of gastrointestinal cancer patients with immunotherapy", SCIENCE, vol. 362, no. 6416, 16 November 2018 (2018-11-16) * |
黄娟 等: "CRISPR/Cas9系统及其在作物育种中的应用", 南方农业学报, no. 1, pages 20 - 27 * |
Also Published As
Publication number | Publication date |
---|---|
JP2022522650A (ja) | 2022-04-20 |
EP3935155A4 (en) | 2022-11-23 |
WO2020181102A1 (en) | 2020-09-10 |
US20210380957A1 (en) | 2021-12-09 |
EP3935155A1 (en) | 2022-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11453866B2 (en) | CASZ compositions and methods of use | |
US20220396812A1 (en) | Rna-guided nucleic acid modifying enzymes and methods of use thereof | |
US20240301376A1 (en) | Class 2 crispr/cas compositions and methods of use | |
US20240167052A1 (en) | Rna-guided nucleic acid modifying enzymes and methods of use thereof | |
JP2022521771A (ja) | CRISPR-Casエフェクターポリペプチド及びその使用方法 | |
US20200339967A1 (en) | Cas12c compositions and methods of use | |
CN114040971A (zh) | CRISPR-Cas效应子多肽及其使用方法 | |
JP2023508362A (ja) | Crispr-casエフェクターポリペプチド及びその使用方法 | |
WO2020023529A1 (en) | Rna-guided nucleic acid modifying enzymes and methods of use thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |