CN118325899A - Hsd17b13变体及其应用 - Google Patents
Hsd17b13变体及其应用 Download PDFInfo
- Publication number
- CN118325899A CN118325899A CN202410406162.9A CN202410406162A CN118325899A CN 118325899 A CN118325899 A CN 118325899A CN 202410406162 A CN202410406162 A CN 202410406162A CN 118325899 A CN118325899 A CN 118325899A
- Authority
- CN
- China
- Prior art keywords
- seq
- nucleotides
- composition
- hsd17b13
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 101000806241 Homo sapiens 17-beta-hydroxysteroid dehydrogenase 13 Proteins 0.000 title abstract description 313
- 102100037429 17-beta-hydroxysteroid dehydrogenase 13 Human genes 0.000 title abstract description 306
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 335
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 319
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 319
- 101150000579 Hsd17b13 gene Proteins 0.000 claims abstract description 243
- 238000000034 method Methods 0.000 claims abstract description 166
- 239000000203 mixture Substances 0.000 claims abstract description 105
- 208000019423 liver disease Diseases 0.000 claims abstract description 30
- 125000003729 nucleotide group Chemical group 0.000 claims description 912
- 239000002773 nucleotide Substances 0.000 claims description 902
- 239000012634 fragment Substances 0.000 claims description 321
- 210000004027 cell Anatomy 0.000 claims description 257
- 108020005004 Guide RNA Proteins 0.000 claims description 225
- 230000008685 targeting Effects 0.000 claims description 171
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 72
- 108020004414 DNA Proteins 0.000 claims description 63
- 108091033409 CRISPR Proteins 0.000 claims description 38
- 229940113082 thymine Drugs 0.000 claims description 36
- 230000037431 insertion Effects 0.000 claims description 33
- 238000003780 insertion Methods 0.000 claims description 32
- 210000003494 hepatocyte Anatomy 0.000 claims description 30
- 230000004048 modification Effects 0.000 claims description 28
- 238000012986 modification Methods 0.000 claims description 28
- 230000008439 repair process Effects 0.000 claims description 17
- 108091079001 CRISPR RNA Proteins 0.000 claims description 15
- 230000001404 mediated effect Effects 0.000 claims description 15
- 238000012239 gene modification Methods 0.000 claims description 14
- 230000005017 genetic modification Effects 0.000 claims description 13
- 235000013617 genetically modified food Nutrition 0.000 claims description 13
- 230000027455 binding Effects 0.000 claims description 11
- 238000001727 in vivo Methods 0.000 claims description 11
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 claims description 10
- 150000002632 lipids Chemical class 0.000 claims description 10
- 210000005260 human cell Anatomy 0.000 claims description 9
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 8
- 230000006798 recombination Effects 0.000 claims description 6
- 238000005215 recombination Methods 0.000 claims description 6
- 239000013603 viral vector Substances 0.000 claims description 5
- 229940046166 oligodeoxynucleotide Drugs 0.000 claims description 4
- 239000002105 nanoparticle Substances 0.000 claims description 3
- 230000023603 positive regulation of transcription initiation, DNA-dependent Effects 0.000 claims description 3
- 102000004169 proteins and genes Human genes 0.000 abstract description 139
- 239000013604 expression vector Substances 0.000 abstract description 42
- 101710163270 Nuclease Proteins 0.000 abstract description 34
- 239000003795 chemical substances by application Substances 0.000 abstract description 22
- 108091005461 Nucleic proteins Proteins 0.000 abstract description 13
- 239000003112 inhibitor Substances 0.000 abstract description 7
- 108091006106 transcriptional activators Proteins 0.000 abstract description 6
- 230000002103 transcriptional effect Effects 0.000 abstract description 6
- 230000001225 therapeutic effect Effects 0.000 abstract description 5
- 230000000069 prophylactic effect Effects 0.000 abstract description 4
- 108090000623 proteins and genes Proteins 0.000 description 211
- 235000018102 proteins Nutrition 0.000 description 133
- 235000001014 amino acid Nutrition 0.000 description 115
- 150000001413 amino acids Chemical class 0.000 description 112
- 229940024606 amino acid Drugs 0.000 description 111
- 230000000875 corresponding effect Effects 0.000 description 102
- 108090000765 processed proteins & peptides Proteins 0.000 description 100
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 92
- 102000004196 processed proteins & peptides Human genes 0.000 description 77
- 239000004055 small Interfering RNA Substances 0.000 description 72
- 229920001184 polypeptide Polymers 0.000 description 65
- 230000014509 gene expression Effects 0.000 description 62
- 108020005544 Antisense RNA Proteins 0.000 description 45
- 102000053602 DNA Human genes 0.000 description 45
- 108091027967 Small hairpin RNA Proteins 0.000 description 41
- 238000006467 substitution reaction Methods 0.000 description 39
- 108700024394 Exon Proteins 0.000 description 38
- 108020004459 Small interfering RNA Proteins 0.000 description 38
- 230000000295 complement effect Effects 0.000 description 35
- 239000013598 vector Substances 0.000 description 35
- -1 nucleotide triphosphates Chemical class 0.000 description 33
- 239000003184 complementary RNA Substances 0.000 description 32
- 239000002585 base Substances 0.000 description 30
- 230000001105 regulatory effect Effects 0.000 description 29
- 210000004602 germ cell Anatomy 0.000 description 27
- 239000000523 sample Substances 0.000 description 26
- 241000700159 Rattus Species 0.000 description 24
- 238000012217 deletion Methods 0.000 description 23
- 230000037430 deletion Effects 0.000 description 23
- 102000040430 polynucleotide Human genes 0.000 description 23
- 108091033319 polynucleotide Proteins 0.000 description 23
- 239000002157 polynucleotide Substances 0.000 description 23
- 108020004999 messenger RNA Proteins 0.000 description 22
- 108020004705 Codon Proteins 0.000 description 21
- 241000699666 Mus <mouse, genus> Species 0.000 description 20
- 108091028043 Nucleic acid sequence Proteins 0.000 description 19
- 230000000692 anti-sense effect Effects 0.000 description 18
- 208000008338 non-alcoholic fatty liver disease Diseases 0.000 description 18
- 229920002477 rna polymer Polymers 0.000 description 18
- 238000003776 cleavage reaction Methods 0.000 description 17
- 230000007017 scission Effects 0.000 description 17
- 235000000346 sugar Nutrition 0.000 description 17
- 102000004190 Enzymes Human genes 0.000 description 16
- 108090000790 Enzymes Proteins 0.000 description 16
- 108091081024 Start codon Proteins 0.000 description 16
- 125000003275 alpha amino acid group Chemical group 0.000 description 16
- 229940088598 enzyme Drugs 0.000 description 16
- 238000009396 hybridization Methods 0.000 description 15
- 108091026890 Coding region Proteins 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 14
- 230000035772 mutation Effects 0.000 description 14
- 108700028369 Alleles Proteins 0.000 description 13
- 230000005782 double-strand break Effects 0.000 description 13
- 239000003623 enhancer Substances 0.000 description 13
- 230000001965 increasing effect Effects 0.000 description 13
- 210000001519 tissue Anatomy 0.000 description 13
- 229910019142 PO4 Inorganic materials 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 102000054767 gene variant Human genes 0.000 description 12
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 11
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 11
- 108010082126 Alanine transaminase Proteins 0.000 description 11
- 210000004185 liver Anatomy 0.000 description 11
- 230000006780 non-homologous end joining Effects 0.000 description 11
- 235000021317 phosphate Nutrition 0.000 description 11
- 239000000047 product Substances 0.000 description 11
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 10
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 10
- 241000699670 Mus sp. Species 0.000 description 10
- 108091034117 Oligonucleotide Proteins 0.000 description 10
- 239000002299 complementary DNA Substances 0.000 description 10
- 125000005647 linker group Chemical group 0.000 description 10
- 230000002829 reductive effect Effects 0.000 description 10
- NHBKXEKEPDILRR-UHFFFAOYSA-N 2,3-bis(butanoylsulfanyl)propyl butanoate Chemical compound CCCC(=O)OCC(SC(=O)CCC)CSC(=O)CCC NHBKXEKEPDILRR-UHFFFAOYSA-N 0.000 description 9
- 241000283984 Rodentia Species 0.000 description 9
- 125000000217 alkyl group Chemical group 0.000 description 9
- 210000000349 chromosome Anatomy 0.000 description 9
- 230000004927 fusion Effects 0.000 description 9
- 230000002028 premature Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000000126 substance Substances 0.000 description 9
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 208000022309 Alcoholic Liver disease Diseases 0.000 description 8
- 239000012472 biological sample Substances 0.000 description 8
- 230000007882 cirrhosis Effects 0.000 description 8
- 230000002068 genetic effect Effects 0.000 description 8
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 8
- 238000011282 treatment Methods 0.000 description 8
- VOXZDWNPVJITMN-ZBRFXRBCSA-N 17β-estradiol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CCC2=C1 VOXZDWNPVJITMN-ZBRFXRBCSA-N 0.000 description 7
- 229930024421 Adenine Natural products 0.000 description 7
- 238000011740 C57BL/6 mouse Methods 0.000 description 7
- 108010033276 Peptide Fragments Proteins 0.000 description 7
- 102000007079 Peptide Fragments Human genes 0.000 description 7
- 229960000643 adenine Drugs 0.000 description 7
- 230000001476 alcoholic effect Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 239000000969 carrier Substances 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 108020004445 glyceraldehyde-3-phosphate dehydrogenase Proteins 0.000 description 7
- 239000010452 phosphate Substances 0.000 description 7
- 238000003752 polymerase chain reaction Methods 0.000 description 7
- 231100000240 steatosis hepatitis Toxicity 0.000 description 7
- 230000003612 virological effect Effects 0.000 description 7
- 241001164825 Adeno-associated virus - 8 Species 0.000 description 6
- 101000742104 Bacillus subtilis (strain 168) ATP-dependent isoleucine adenylase Proteins 0.000 description 6
- 206010016654 Fibrosis Diseases 0.000 description 6
- 230000001580 bacterial effect Effects 0.000 description 6
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 6
- 238000003205 genotyping method Methods 0.000 description 6
- 102000006602 glyceraldehyde-3-phosphate dehydrogenase Human genes 0.000 description 6
- 238000000338 in vitro Methods 0.000 description 6
- 239000003550 marker Substances 0.000 description 6
- 239000000693 micelle Substances 0.000 description 6
- 239000004005 microsphere Substances 0.000 description 6
- 229920000747 poly(lactic acid) Polymers 0.000 description 6
- 239000000758 substrate Substances 0.000 description 6
- 102000007469 Actins Human genes 0.000 description 5
- 108010085238 Actins Proteins 0.000 description 5
- 108091092195 Intron Proteins 0.000 description 5
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 5
- 125000000539 amino acid group Chemical group 0.000 description 5
- 239000003153 chemical reaction reagent Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 229960005309 estradiol Drugs 0.000 description 5
- 238000010362 genome editing Methods 0.000 description 5
- LXJXRIRHZLFYRP-UHFFFAOYSA-N glyceraldehyde 3-phosphate Chemical compound O=CC(O)COP(O)(O)=O LXJXRIRHZLFYRP-UHFFFAOYSA-N 0.000 description 5
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 5
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 5
- 238000002744 homologous recombination Methods 0.000 description 5
- 230000006801 homologous recombination Effects 0.000 description 5
- 210000004962 mammalian cell Anatomy 0.000 description 5
- HMFHBZSHGGEWLO-UHFFFAOYSA-N pentofuranose Chemical group OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 5
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 5
- 102000054765 polymorphisms of proteins Human genes 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000003259 recombinant expression Methods 0.000 description 5
- 230000010076 replication Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 150000003839 salts Chemical class 0.000 description 5
- 230000007863 steatosis Effects 0.000 description 5
- 230000005945 translocation Effects 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- 101710194118 17-beta-hydroxysteroid dehydrogenase 13 Proteins 0.000 description 4
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 4
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 4
- 108010003415 Aspartate Aminotransferases Proteins 0.000 description 4
- 102000004625 Aspartate Aminotransferases Human genes 0.000 description 4
- 108020004635 Complementary DNA Proteins 0.000 description 4
- 150000008574 D-amino acids Chemical class 0.000 description 4
- 208000004930 Fatty Liver Diseases 0.000 description 4
- 102000005720 Glutathione transferase Human genes 0.000 description 4
- 108010070675 Glutathione transferase Proteins 0.000 description 4
- 108010001336 Horseradish Peroxidase Proteins 0.000 description 4
- 239000004472 Lysine Substances 0.000 description 4
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 4
- 239000002253 acid Substances 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 208000026594 alcoholic fatty liver disease Diseases 0.000 description 4
- 208000010002 alcoholic liver cirrhosis Diseases 0.000 description 4
- 230000004075 alteration Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 208000019425 cirrhosis of liver Diseases 0.000 description 4
- 239000000539 dimer Substances 0.000 description 4
- 102000034287 fluorescent proteins Human genes 0.000 description 4
- 108091006047 fluorescent proteins Proteins 0.000 description 4
- 230000009368 gene silencing by RNA Effects 0.000 description 4
- 102000052040 human HSD17B13 Human genes 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 230000037361 pathway Effects 0.000 description 4
- 230000000149 penetrating effect Effects 0.000 description 4
- 150000003013 phosphoric acid derivatives Chemical class 0.000 description 4
- 238000000746 purification Methods 0.000 description 4
- 108010054624 red fluorescent protein Proteins 0.000 description 4
- 210000001082 somatic cell Anatomy 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 108700010070 Codon Usage Proteins 0.000 description 3
- 241000701022 Cytomegalovirus Species 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 3
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 3
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 3
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 3
- 101710154606 Hemagglutinin Proteins 0.000 description 3
- 108060003951 Immunoglobulin Proteins 0.000 description 3
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 3
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 3
- 102000029749 Microtubule Human genes 0.000 description 3
- 108091022875 Microtubule Proteins 0.000 description 3
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 3
- 208000008589 Obesity Diseases 0.000 description 3
- 101710093908 Outer capsid protein VP4 Proteins 0.000 description 3
- 101710135467 Outer capsid protein sigma-1 Proteins 0.000 description 3
- 101710176177 Protein A56 Proteins 0.000 description 3
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 3
- 108020005038 Terminator Codon Proteins 0.000 description 3
- 239000004098 Tetracycline Substances 0.000 description 3
- RYYWUUFWQRZTIU-UHFFFAOYSA-N Thiophosphoric acid Chemical class OP(O)(S)=O RYYWUUFWQRZTIU-UHFFFAOYSA-N 0.000 description 3
- 108010022394 Threonine synthase Proteins 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004071 biological effect Effects 0.000 description 3
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 3
- 230000003197 catalytic effect Effects 0.000 description 3
- 229940104302 cytosine Drugs 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 102000004419 dihydrofolate reductase Human genes 0.000 description 3
- 231100000673 dose–response relationship Toxicity 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229930182833 estradiol Natural products 0.000 description 3
- 210000003527 eukaryotic cell Anatomy 0.000 description 3
- 208000010706 fatty liver disease Diseases 0.000 description 3
- 230000004761 fibrosis Effects 0.000 description 3
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 3
- 235000004554 glutamine Nutrition 0.000 description 3
- 239000000185 hemagglutinin Substances 0.000 description 3
- 230000002209 hydrophobic effect Effects 0.000 description 3
- 102000018358 immunoglobulin Human genes 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000002502 liposome Substances 0.000 description 3
- 235000018977 lysine Nutrition 0.000 description 3
- 210000001161 mammalian embryo Anatomy 0.000 description 3
- 210000004688 microtubule Anatomy 0.000 description 3
- 239000000178 monomer Substances 0.000 description 3
- 206010053219 non-alcoholic steatohepatitis Diseases 0.000 description 3
- 239000002853 nucleic acid probe Substances 0.000 description 3
- 235000020824 obesity Nutrition 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000001301 oxygen Substances 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 230000005783 single-strand break Effects 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 125000001424 substituent group Chemical group 0.000 description 3
- 229960002180 tetracycline Drugs 0.000 description 3
- 229930101283 tetracycline Natural products 0.000 description 3
- 235000019364 tetracycline Nutrition 0.000 description 3
- 150000003522 tetracyclines Chemical class 0.000 description 3
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 3
- 241000701161 unidentified adenovirus Species 0.000 description 3
- 238000001262 western blot Methods 0.000 description 3
- 210000005253 yeast cell Anatomy 0.000 description 3
- WRIDQFICGBMAFQ-UHFFFAOYSA-N (E)-8-Octadecenoic acid Natural products CCCCCCCCCC=CCCCCCCC(O)=O WRIDQFICGBMAFQ-UHFFFAOYSA-N 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- LQJBNNIYVWPHFW-UHFFFAOYSA-N 20:1omega9c fatty acid Natural products CCCCCCCCCCC=CCCCCCCCC(O)=O LQJBNNIYVWPHFW-UHFFFAOYSA-N 0.000 description 2
- OVONXEQGWXGFJD-UHFFFAOYSA-N 4-sulfanylidene-1h-pyrimidin-2-one Chemical compound SC=1C=CNC(=O)N=1 OVONXEQGWXGFJD-UHFFFAOYSA-N 0.000 description 2
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 2
- UJBCLAXPPIDQEE-UHFFFAOYSA-N 5-prop-1-ynyl-1h-pyrimidine-2,4-dione Chemical compound CC#CC1=CNC(=O)NC1=O UJBCLAXPPIDQEE-UHFFFAOYSA-N 0.000 description 2
- QNNARSZPGNJZIX-UHFFFAOYSA-N 6-amino-5-prop-1-ynyl-1h-pyrimidin-2-one Chemical compound CC#CC1=CNC(=O)N=C1N QNNARSZPGNJZIX-UHFFFAOYSA-N 0.000 description 2
- HCGHYQLFMPXSDU-UHFFFAOYSA-N 7-methyladenine Chemical compound C1=NC(N)=C2N(C)C=NC2=N1 HCGHYQLFMPXSDU-UHFFFAOYSA-N 0.000 description 2
- QSBYPNXLFMSGKH-UHFFFAOYSA-N 9-Heptadecensaeure Natural products CCCCCCCC=CCCCCCCCC(O)=O QSBYPNXLFMSGKH-UHFFFAOYSA-N 0.000 description 2
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 description 2
- 108010021809 Alcohol dehydrogenase Proteins 0.000 description 2
- 102000007698 Alcohol dehydrogenase Human genes 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 2
- 108090001008 Avidin Proteins 0.000 description 2
- 101710201279 Biotin carboxyl carrier protein Proteins 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 2
- 241000700198 Cavia Species 0.000 description 2
- 206010009208 Cirrhosis alcoholic Diseases 0.000 description 2
- 241000699800 Cricetinae Species 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- ZHNUHDYFZUAESO-UHFFFAOYSA-N Formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 2
- 108020000311 Glutamate Synthase Proteins 0.000 description 2
- AEMRFAOFKBGASW-UHFFFAOYSA-N Glycolic acid Chemical compound OCC(O)=O AEMRFAOFKBGASW-UHFFFAOYSA-N 0.000 description 2
- 206010019708 Hepatic steatosis Diseases 0.000 description 2
- 208000005176 Hepatitis C Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 102100034343 Integrase Human genes 0.000 description 2
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 2
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 2
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 2
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 2
- FBOZXECLQNJBKD-ZDUSSCGKSA-N L-methotrexate Chemical compound C=1N=C2N=C(N)N=C(N)C2=NC=1CN(C)C1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 FBOZXECLQNJBKD-ZDUSSCGKSA-N 0.000 description 2
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 2
- 101710175625 Maltose/maltodextrin-binding periplasmic protein Proteins 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 239000005642 Oleic acid Substances 0.000 description 2
- ZQPPMHVWECSIRJ-UHFFFAOYSA-N Oleic acid Natural products CCCCCCCCC=CCCCCCCCC(O)=O ZQPPMHVWECSIRJ-UHFFFAOYSA-N 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 108091093037 Peptide nucleic acid Proteins 0.000 description 2
- 102000012288 Phosphopyruvate Hydratase Human genes 0.000 description 2
- 108010022181 Phosphopyruvate Hydratase Proteins 0.000 description 2
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 2
- 108091081021 Sense strand Proteins 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 108010090804 Streptavidin Proteins 0.000 description 2
- 244000057717 Streptococcus lactis Species 0.000 description 2
- 235000014897 Streptococcus lactis Nutrition 0.000 description 2
- 241000282887 Suidae Species 0.000 description 2
- 102000002933 Thioredoxin Human genes 0.000 description 2
- 102100035330 Transmembrane 6 superfamily member 2 Human genes 0.000 description 2
- 108091023045 Untranslated Region Proteins 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 230000002378 acidificating effect Effects 0.000 description 2
- 125000003342 alkenyl group Chemical group 0.000 description 2
- 125000000304 alkynyl group Chemical group 0.000 description 2
- 150000001408 amides Chemical group 0.000 description 2
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 2
- 125000004429 atom Chemical group 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol group Chemical group [C@@H]1(CC[C@H]2[C@@H]3CC=C4C[C@@H](O)CC[C@]4(C)[C@H]3CC[C@]12C)[C@H](C)CCCC(C)C HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012258 culturing Methods 0.000 description 2
- 125000000753 cycloalkyl group Chemical group 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000975 dye Substances 0.000 description 2
- 210000002889 endothelial cell Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002255 enzymatic effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000002950 fibroblast Anatomy 0.000 description 2
- 108010021843 fluorescent protein 583 Proteins 0.000 description 2
- 230000002538 fungal effect Effects 0.000 description 2
- 108020001507 fusion proteins Proteins 0.000 description 2
- 102000037865 fusion proteins Human genes 0.000 description 2
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- BRZYSWJRSDMWLG-CAXSIQPQSA-N geneticin Natural products O1C[C@@](O)(C)[C@H](NC)[C@@H](O)[C@H]1O[C@@H]1[C@@H](O)[C@H](O[C@@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](C(C)O)O2)N)[C@@H](N)C[C@H]1N BRZYSWJRSDMWLG-CAXSIQPQSA-N 0.000 description 2
- 239000005090 green fluorescent protein Substances 0.000 description 2
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003834 intracellular effect Effects 0.000 description 2
- 229960000310 isoleucine Drugs 0.000 description 2
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 2
- QXJSBBXBKPUZAA-UHFFFAOYSA-N isooleic acid Natural products CCCCCCCC=CCCCCCCCCC(O)=O QXJSBBXBKPUZAA-UHFFFAOYSA-N 0.000 description 2
- 210000003292 kidney cell Anatomy 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 210000005229 liver cell Anatomy 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002844 melting Methods 0.000 description 2
- 230000008018 melting Effects 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 229960000485 methotrexate Drugs 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- ZQPPMHVWECSIRJ-KTKRTIGZSA-N oleic acid Chemical compound CCCCCCCC\C=C/CCCCCCCC(O)=O ZQPPMHVWECSIRJ-KTKRTIGZSA-N 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 150000008298 phosphoramidates Chemical class 0.000 description 2
- 229920001223 polyethylene glycol Polymers 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 108020001580 protein domains Proteins 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229920005989 resin Polymers 0.000 description 2
- 239000011347 resin Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 230000009870 specific binding Effects 0.000 description 2
- 238000012453 sprague-dawley rat model Methods 0.000 description 2
- 238000013517 stratification Methods 0.000 description 2
- 238000010381 tandem affinity purification Methods 0.000 description 2
- 229940124597 therapeutic agent Drugs 0.000 description 2
- 150000003568 thioethers Chemical group 0.000 description 2
- 108060008226 thioredoxin Proteins 0.000 description 2
- 229940094937 thioredoxin Drugs 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000701447 unidentified baculovirus Species 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- 108091005957 yellow fluorescent proteins Proteins 0.000 description 2
- DNXHEGUUPJUMQT-UHFFFAOYSA-N (+)-estrone Natural products OC1=CC=C2C3CCC(C)(C(CC4)=O)C4C3CCC2=C1 DNXHEGUUPJUMQT-UHFFFAOYSA-N 0.000 description 1
- OGNSCSPNOLGXSM-UHFFFAOYSA-N (+/-)-DABA Natural products NCCC(N)C(O)=O OGNSCSPNOLGXSM-UHFFFAOYSA-N 0.000 description 1
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 1
- BHQCQFFYRZLCQQ-UHFFFAOYSA-N (3alpha,5alpha,7alpha,12alpha)-3,7,12-trihydroxy-cholan-24-oic acid Natural products OC1CC2CC(O)CCC2(C)C2C1C1CCC(C(CCC(O)=O)C)C1(C)C(O)C2 BHQCQFFYRZLCQQ-UHFFFAOYSA-N 0.000 description 1
- QGVQZRDQPDLHHV-DPAQBDIFSA-N (3s,8s,9s,10r,13r,14s,17r)-10,13-dimethyl-17-[(2r)-6-methylheptan-2-yl]-2,3,4,7,8,9,11,12,14,15,16,17-dodecahydro-1h-cyclopenta[a]phenanthrene-3-thiol Chemical compound C1C=C2C[C@@H](S)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 QGVQZRDQPDLHHV-DPAQBDIFSA-N 0.000 description 1
- 125000000008 (C1-C10) alkyl group Chemical group 0.000 description 1
- 125000003088 (fluoren-9-ylmethoxy)carbonyl group Chemical group 0.000 description 1
- FYADHXFMURLYQI-UHFFFAOYSA-N 1,2,4-triazine Chemical class C1=CN=NC=N1 FYADHXFMURLYQI-UHFFFAOYSA-N 0.000 description 1
- HNICUWMFWZBIFP-IRQZEAMPSA-N 13(S)-HODE Chemical compound CCCCC[C@H](O)\C=C\C=C/CCCCCCCC(O)=O HNICUWMFWZBIFP-IRQZEAMPSA-N 0.000 description 1
- GEWRKGDRYZIFNP-UHFFFAOYSA-N 1h-1,3,5-triazine-2,4-dione Chemical compound OC1=NC=NC(O)=N1 GEWRKGDRYZIFNP-UHFFFAOYSA-N 0.000 description 1
- YMHOBZXQZVXHBM-UHFFFAOYSA-N 2,5-dimethoxy-4-bromophenethylamine Chemical compound COC1=CC(CCN)=C(OC)C=C1Br YMHOBZXQZVXHBM-UHFFFAOYSA-N 0.000 description 1
- QSHACTSJHMKXTE-UHFFFAOYSA-N 2-(2-aminopropyl)-7h-purin-6-amine Chemical compound CC(N)CC1=NC(N)=C2NC=NC2=N1 QSHACTSJHMKXTE-UHFFFAOYSA-N 0.000 description 1
- PIINGYXNCHTJTF-UHFFFAOYSA-N 2-(2-azaniumylethylamino)acetate Chemical compound NCCNCC(O)=O PIINGYXNCHTJTF-UHFFFAOYSA-N 0.000 description 1
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- KQPKMEYBZUPZGK-UHFFFAOYSA-N 4-[(4-azido-2-nitroanilino)methyl]-5-(hydroxymethyl)-2-methylpyridin-3-ol Chemical compound CC1=NC=C(CO)C(CNC=2C(=CC(=CC=2)N=[N+]=[N-])[N+]([O-])=O)=C1O KQPKMEYBZUPZGK-UHFFFAOYSA-N 0.000 description 1
- YRNWIFYIFSBPAU-UHFFFAOYSA-N 4-[4-(dimethylamino)phenyl]-n,n-dimethylaniline Chemical compound C1=CC(N(C)C)=CC=C1C1=CC=C(N(C)C)C=C1 YRNWIFYIFSBPAU-UHFFFAOYSA-N 0.000 description 1
- LMNPKIOZMGYQIU-UHFFFAOYSA-N 5-(trifluoromethyl)-1h-pyrimidine-2,4-dione Chemical compound FC(F)(F)C1=CNC(=O)NC1=O LMNPKIOZMGYQIU-UHFFFAOYSA-N 0.000 description 1
- LQLQRFGHAALLLE-UHFFFAOYSA-N 5-bromouracil Chemical compound BrC1=CNC(=O)NC1=O LQLQRFGHAALLLE-UHFFFAOYSA-N 0.000 description 1
- ZLAQATDNGLKIEV-UHFFFAOYSA-N 5-methyl-2-sulfanylidene-1h-pyrimidin-4-one Chemical compound CC1=CNC(=S)NC1=O ZLAQATDNGLKIEV-UHFFFAOYSA-N 0.000 description 1
- DCPSTSVLRXOYGS-UHFFFAOYSA-N 6-amino-1h-pyrimidine-2-thione Chemical compound NC1=CC=NC(S)=N1 DCPSTSVLRXOYGS-UHFFFAOYSA-N 0.000 description 1
- BZTDTCNHAFUJOG-UHFFFAOYSA-N 6-carboxyfluorescein Chemical compound C12=CC=C(O)C=C2OC2=CC(O)=CC=C2C11OC(=O)C2=CC=C(C(=O)O)C=C21 BZTDTCNHAFUJOG-UHFFFAOYSA-N 0.000 description 1
- PFUVOLUPRFCPMN-UHFFFAOYSA-N 7h-purine-6,8-diamine Chemical compound C1=NC(N)=C2NC(N)=NC2=N1 PFUVOLUPRFCPMN-UHFFFAOYSA-N 0.000 description 1
- MSSXOMSJDRHRMC-UHFFFAOYSA-N 9H-purine-2,6-diamine Chemical compound NC1=NC(N)=C2NC=NC2=N1 MSSXOMSJDRHRMC-UHFFFAOYSA-N 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 102000006822 Agouti Signaling Protein Human genes 0.000 description 1
- 108010072151 Agouti Signaling Protein Proteins 0.000 description 1
- 241001136782 Alca Species 0.000 description 1
- 102100039702 Alcohol dehydrogenase class-3 Human genes 0.000 description 1
- 101710133776 Alcohol dehydrogenase class-3 Proteins 0.000 description 1
- 108010025188 Alcohol oxidase Proteins 0.000 description 1
- 208000007082 Alcoholic Fatty Liver Diseases 0.000 description 1
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- 241000024188 Andala Species 0.000 description 1
- 108091023037 Aptamer Proteins 0.000 description 1
- 101100020619 Arabidopsis thaliana LATE gene Proteins 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 108091005950 Azurite Proteins 0.000 description 1
- 241000157302 Bison bison athabascae Species 0.000 description 1
- 101100327917 Caenorhabditis elegans chup-1 gene Proteins 0.000 description 1
- 102000000584 Calmodulin Human genes 0.000 description 1
- 108010041952 Calmodulin Proteins 0.000 description 1
- 102100029968 Calreticulin Human genes 0.000 description 1
- 108090000549 Calreticulin Proteins 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 241000701489 Cauliflower mosaic virus Species 0.000 description 1
- 108010051109 Cell-Penetrating Peptides Proteins 0.000 description 1
- 102000020313 Cell-Penetrating Peptides Human genes 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 108091005944 Cerulean Proteins 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 229920002101 Chitin Polymers 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 239000004380 Cholic acid Substances 0.000 description 1
- 208000006154 Chronic hepatitis C Diseases 0.000 description 1
- 108020004638 Circular DNA Proteins 0.000 description 1
- 235000005979 Citrus limon Nutrition 0.000 description 1
- 244000131522 Citrus pyriformis Species 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 241000699802 Cricetulus griseus Species 0.000 description 1
- 241000484025 Cuniculus Species 0.000 description 1
- 102220605874 Cytosolic arginine sensor for mTORC1 subunit 2_D10A_mutation Human genes 0.000 description 1
- 210000004128 D cell Anatomy 0.000 description 1
- KDXKERNSBIXSRK-RXMQYKEDSA-N D-lysine Chemical compound NCCCC[C@@H](N)C(O)=O KDXKERNSBIXSRK-RXMQYKEDSA-N 0.000 description 1
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 1
- 230000008836 DNA modification Effects 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 241000702421 Dependoparvovirus Species 0.000 description 1
- 101100297529 Drosophila melanogaster pho gene Proteins 0.000 description 1
- 108091005941 EBFP Proteins 0.000 description 1
- YQYJSBFKSSDGFO-UHFFFAOYSA-N Epihygromycin Natural products OC1C(O)C(C(=O)C)OC1OC(C(=C1)O)=CC=C1C=C(C)C(=O)NC1C(O)C(O)C2OCOC2C1O YQYJSBFKSSDGFO-UHFFFAOYSA-N 0.000 description 1
- 239000004593 Epoxy Substances 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- DNXHEGUUPJUMQT-CBZIJGRNSA-N Estrone Chemical compound OC1=CC=C2[C@H]3CC[C@](C)(C(CC4)=O)[C@@H]4[C@@H]3CCC2=C1 DNXHEGUUPJUMQT-CBZIJGRNSA-N 0.000 description 1
- 206010016262 Fatty liver alcoholic Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 101150094690 GAL1 gene Proteins 0.000 description 1
- 102100028501 Galanin peptides Human genes 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- KOSRFJWDECSPRO-WDSKDSINSA-N Glu-Glu Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(O)=O KOSRFJWDECSPRO-WDSKDSINSA-N 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 102100031181 Glyceraldehyde-3-phosphate dehydrogenase Human genes 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 241000700721 Hepatitis B virus Species 0.000 description 1
- 108091027305 Heteroduplex Proteins 0.000 description 1
- 241001272567 Hominoidea Species 0.000 description 1
- 101000744174 Homo sapiens DNA-3-methyladenine glycosylase Proteins 0.000 description 1
- 101000907855 Homo sapiens Estradiol 17-beta-dehydrogenase 11 Proteins 0.000 description 1
- 101100121078 Homo sapiens GAL gene Proteins 0.000 description 1
- 101001111984 Homo sapiens N-acylneuraminate-9-phosphatase Proteins 0.000 description 1
- 101001098868 Homo sapiens Proprotein convertase subtilisin/kexin type 9 Proteins 0.000 description 1
- 101000864393 Homo sapiens Protein BUD31 homolog Proteins 0.000 description 1
- 101000597918 Homo sapiens Transmembrane 6 superfamily member 2 Proteins 0.000 description 1
- 101000964421 Homo sapiens Zinc finger and BTB domain-containing protein 12 Proteins 0.000 description 1
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 1
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 1
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 1
- 101710203526 Integrase Proteins 0.000 description 1
- 108020004684 Internal Ribosome Entry Sites Proteins 0.000 description 1
- 241000235058 Komagataella pastoris Species 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- 235000019766 L-Lysine Nutrition 0.000 description 1
- PWKSKIMOESPYIA-BYPYZUCNSA-N L-N-acetyl-Cysteine Chemical compound CC(=O)N[C@@H](CS)C(O)=O PWKSKIMOESPYIA-BYPYZUCNSA-N 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- 125000000773 L-serino group Chemical group [H]OC(=O)[C@@]([H])(N([H])*)C([H])([H])O[H] 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 108010009254 Lysosomal-Associated Membrane Protein 1 Proteins 0.000 description 1
- 102100035133 Lysosome-associated membrane glycoprotein 1 Human genes 0.000 description 1
- 241000829100 Macaca mulatta polyomavirus 1 Species 0.000 description 1
- 108010006035 Metalloproteases Proteins 0.000 description 1
- 102000005741 Metalloproteases Human genes 0.000 description 1
- 108010006519 Molecular Chaperones Proteins 0.000 description 1
- 102100023906 N-acylneuraminate-9-phosphatase Human genes 0.000 description 1
- 125000001429 N-terminal alpha-amino-acid group Chemical group 0.000 description 1
- BAWFJGJZGIEFAR-NNYOXOHSSA-N NAD zwitterion Chemical compound NC(=O)C1=CC=C[N+]([C@H]2[C@@H]([C@H](O)[C@@H](COP([O-])(=O)OP(O)(=O)OC[C@@H]3[C@H]([C@@H](O)[C@@H](O3)N3C4=NC=NC(N)=C4N=C3)O)O2)O)=C1 BAWFJGJZGIEFAR-NNYOXOHSSA-N 0.000 description 1
- 241001045988 Neogene Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- NVNLLIYOARQCIX-MSHCCFNRSA-N Nisin Chemical compound N1C(=O)[C@@H](CC(C)C)NC(=O)C(=C)NC(=O)[C@@H]([C@H](C)CC)NC(=O)[C@@H](NC(=O)C(=C/C)/NC(=O)[C@H](N)[C@H](C)CC)CSC[C@@H]1C(=O)N[C@@H]1C(=O)N2CCC[C@@H]2C(=O)NCC(=O)N[C@@H](C(=O)N[C@H](CCCCN)C(=O)N[C@@H]2C(NCC(=O)N[C@H](C)C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCSC)C(=O)NCC(=O)N[C@H](CS[C@@H]2C)C(=O)N[C@H](CC(N)=O)C(=O)N[C@H](CCSC)C(=O)N[C@H](CCCCN)C(=O)N[C@@H]2C(N[C@H](C)C(=O)N[C@@H]3C(=O)N[C@@H](C(N[C@H](CC=4NC=NC=4)C(=O)N[C@H](CS[C@@H]3C)C(=O)N[C@H](CO)C(=O)N[C@H]([C@H](C)CC)C(=O)N[C@H](CC=3NC=NC=3)C(=O)N[C@H](C(C)C)C(=O)NC(=C)C(=O)N[C@H](CCCCN)C(O)=O)=O)CS[C@@H]2C)=O)=O)CS[C@@H]1C NVNLLIYOARQCIX-MSHCCFNRSA-N 0.000 description 1
- 108010053775 Nisin Proteins 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 1
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 1
- 229910004679 ONO2 Inorganic materials 0.000 description 1
- REYJJPSVUYRZGE-UHFFFAOYSA-N Octadecylamine Chemical compound CCCCCCCCCCCCCCCCCCN REYJJPSVUYRZGE-UHFFFAOYSA-N 0.000 description 1
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 1
- 101710195703 Oxygen-dependent coproporphyrinogen-III oxidase Proteins 0.000 description 1
- 102100036201 Oxygen-dependent coproporphyrinogen-III oxidase, mitochondrial Human genes 0.000 description 1
- 101710200437 Oxygen-dependent coproporphyrinogen-III oxidase, mitochondrial Proteins 0.000 description 1
- 102000002057 Patatin-like phospholipase domains Human genes 0.000 description 1
- 108050009491 Patatin-like phospholipase domains Proteins 0.000 description 1
- 108010088535 Pep-1 peptide Proteins 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 102000017794 Perilipin-2 Human genes 0.000 description 1
- 108010067163 Perilipin-2 Proteins 0.000 description 1
- 102000001486 Perilipin-3 Human genes 0.000 description 1
- 108010068633 Perilipin-3 Proteins 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- 241000235648 Pichia Species 0.000 description 1
- 239000004952 Polyamide Substances 0.000 description 1
- 239000002202 Polyethylene glycol Substances 0.000 description 1
- 101710182846 Polyhedrin Proteins 0.000 description 1
- 241001505332 Polyomavirus sp. Species 0.000 description 1
- 102100038955 Proprotein convertase subtilisin/kexin type 9 Human genes 0.000 description 1
- 229940096437 Protein S Drugs 0.000 description 1
- 240000004350 Prunus spinosa Species 0.000 description 1
- 235000010829 Prunus spinosa Nutrition 0.000 description 1
- 229930185560 Pseudouridine Natural products 0.000 description 1
- PTJWIQPHWPFNBW-UHFFFAOYSA-N Pseudouridine C Natural products OC1C(O)C(CO)OC1C1=CNC(=O)NC1=O PTJWIQPHWPFNBW-UHFFFAOYSA-N 0.000 description 1
- 102000009572 RNA Polymerase II Human genes 0.000 description 1
- 108010009460 RNA Polymerase II Proteins 0.000 description 1
- 230000007022 RNA scission Effects 0.000 description 1
- 230000006819 RNA synthesis Effects 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 241000700157 Rattus norvegicus Species 0.000 description 1
- 101001023863 Rattus norvegicus Glucocorticoid receptor Proteins 0.000 description 1
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 1
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 1
- 108020005091 Replication Origin Proteins 0.000 description 1
- 102000004389 Ribonucleoproteins Human genes 0.000 description 1
- 108010081734 Ribonucleoproteins Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 1
- 101710164442 S-(hydroxymethyl)glutathione dehydrogenase Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 241000700584 Simplexvirus Species 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 101100054666 Streptomyces halstedii sch3 gene Proteins 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 108700026226 TATA Box Proteins 0.000 description 1
- 101710192266 Tegument protein VP22 Proteins 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 241000723873 Tobacco mosaic virus Species 0.000 description 1
- 108091028113 Trans-activating crRNA Proteins 0.000 description 1
- 102000003929 Transaminases Human genes 0.000 description 1
- 108090000340 Transaminases Proteins 0.000 description 1
- 108700009124 Transcription Initiation Site Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 101710140337 Transmembrane 6 superfamily member 2 Proteins 0.000 description 1
- 241000545067 Venus Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 235000018936 Vitellaria paradoxa Nutrition 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- XVIYCJDWYLJQBG-UHFFFAOYSA-N acetic acid;adamantane Chemical compound CC(O)=O.C1C(C2)CC3CC1CC2C3 XVIYCJDWYLJQBG-UHFFFAOYSA-N 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 210000001789 adipocyte Anatomy 0.000 description 1
- 238000001042 affinity chromatography Methods 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 125000001931 aliphatic group Chemical group 0.000 description 1
- 150000001336 alkenes Chemical class 0.000 description 1
- 125000002877 alkyl aryl group Chemical group 0.000 description 1
- KOSRFJWDECSPRO-UHFFFAOYSA-N alpha-L-glutamyl-L-glutamic acid Natural products OC(=O)CCC(N)C(=O)NC(CCC(O)=O)C(O)=O KOSRFJWDECSPRO-UHFFFAOYSA-N 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 125000004103 aminoalkyl group Chemical group 0.000 description 1
- 125000005122 aminoalkylamino group Chemical group 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012863 analytical testing Methods 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- PYMYPHUHKUWMLA-WDCZJNDASA-N arabinose Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)C=O PYMYPHUHKUWMLA-WDCZJNDASA-N 0.000 description 1
- PYMYPHUHKUWMLA-UHFFFAOYSA-N arabinose Natural products OCC(O)C(O)C(O)C=O PYMYPHUHKUWMLA-UHFFFAOYSA-N 0.000 description 1
- 210000004436 artificial bacterial chromosome Anatomy 0.000 description 1
- 125000003710 aryl alkyl group Chemical group 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- SRBFZHDQGSBBOR-UHFFFAOYSA-N beta-D-Pyranose-Lyxose Natural products OC1COC(O)C(O)C1O SRBFZHDQGSBBOR-UHFFFAOYSA-N 0.000 description 1
- WGDUUQDYDIIBKT-UHFFFAOYSA-N beta-Pseudouridine Natural products OC1OC(CN2C=CC(=O)NC2=O)C(O)C1O WGDUUQDYDIIBKT-UHFFFAOYSA-N 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 239000013060 biological fluid Substances 0.000 description 1
- 239000012620 biological material Substances 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 108091005948 blue fluorescent proteins Proteins 0.000 description 1
- 210000002449 bone cell Anatomy 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 238000005885 boration reaction Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 101150038500 cas9 gene Proteins 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000010094 cellular senescence Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002738 chelating agent Substances 0.000 description 1
- 125000003636 chemical group Chemical group 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- BHQCQFFYRZLCQQ-OELDTZBJSA-N cholic acid Chemical compound C([C@H]1C[C@H]2O)[C@H](O)CC[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@H]([C@@H](CCC(O)=O)C)[C@@]2(C)[C@@H](O)C1 BHQCQFFYRZLCQQ-OELDTZBJSA-N 0.000 description 1
- 235000019416 cholic acid Nutrition 0.000 description 1
- 229960002471 cholic acid Drugs 0.000 description 1
- 238000006482 condensation reaction Methods 0.000 description 1
- 210000002808 connective tissue Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 108010082025 cyan fluorescent protein Proteins 0.000 description 1
- 125000001995 cyclobutyl group Chemical group [H]C1([H])C([H])([H])C([H])(*)C1([H])[H] 0.000 description 1
- 210000002726 cyst fluid Anatomy 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- 125000000151 cysteine group Chemical group N[C@@H](CS)C(=O)* 0.000 description 1
- 230000003436 cytoskeletal effect Effects 0.000 description 1
- 230000001086 cytosolic effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- KXGVEGMKQFWNSR-UHFFFAOYSA-N deoxycholic acid Natural products C1CC2CC(O)CCC2(C)C2C1C1CCC(C(CCC(O)=O)C)C1(C)C(O)C2 KXGVEGMKQFWNSR-UHFFFAOYSA-N 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 239000005546 dideoxynucleotide Substances 0.000 description 1
- 238000006471 dimerization reaction Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- NAGJZTKCGNOGPW-UHFFFAOYSA-N dithiophosphoric acid Chemical class OP(O)(S)=S NAGJZTKCGNOGPW-UHFFFAOYSA-N 0.000 description 1
- GTZOYNFRVVHLDZ-UHFFFAOYSA-N dodecane-1,1-diol Chemical group CCCCCCCCCCCC(O)O GTZOYNFRVVHLDZ-UHFFFAOYSA-N 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 108010057988 ecdysone receptor Proteins 0.000 description 1
- 210000003981 ectoderm Anatomy 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 210000001900 endoderm Anatomy 0.000 description 1
- 210000002472 endoplasmic reticulum Anatomy 0.000 description 1
- 108010048367 enhanced green fluorescent protein Proteins 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 125000003700 epoxy group Chemical group 0.000 description 1
- 102000015694 estrogen receptors Human genes 0.000 description 1
- 108010038795 estrogen receptors Proteins 0.000 description 1
- 229960003399 estrone Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- MUJOIMFVNIBMKC-UHFFFAOYSA-N fludioxonil Chemical compound C=12OC(F)(F)OC2=CC=CC=1C1=CNC=C1C#N MUJOIMFVNIBMKC-UHFFFAOYSA-N 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 125000002485 formyl group Chemical group [H]C(*)=O 0.000 description 1
- 210000000973 gametocyte Anatomy 0.000 description 1
- 229960003692 gamma aminobutyric acid Drugs 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 210000001654 germ layer Anatomy 0.000 description 1
- 230000002518 glial effect Effects 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- 108010055341 glutamyl-glutamic acid Proteins 0.000 description 1
- 125000003827 glycol group Chemical group 0.000 description 1
- 210000002064 heart cell Anatomy 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 208000010710 hepatitis C virus infection Diseases 0.000 description 1
- 125000001072 heteroaryl group Chemical group 0.000 description 1
- 125000005842 heteroatom Chemical group 0.000 description 1
- 125000000623 heterocyclic group Chemical group 0.000 description 1
- 125000000592 heterocycloalkyl group Chemical group 0.000 description 1
- 238000011141 high resolution liquid chromatography Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000001990 intravenous administration Methods 0.000 description 1
- 125000001449 isopropyl group Chemical group [H]C([H])([H])C([H])(*)C([H])([H])[H] 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 210000002510 keratinocyte Anatomy 0.000 description 1
- VNYSSYRCGWBHLG-AMOLWHMGSA-N leukotriene B4 Chemical compound CCCCC\C=C/C[C@@H](O)\C=C\C=C\C=C/[C@@H](O)CCCC(O)=O VNYSSYRCGWBHLG-AMOLWHMGSA-N 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 125000003473 lipid group Chemical group 0.000 description 1
- 230000037356 lipid metabolism Effects 0.000 description 1
- 238000012317 liver biopsy Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 210000003712 lysosome Anatomy 0.000 description 1
- 230000001868 lysosomic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002609 medium Substances 0.000 description 1
- 210000002752 melanocyte Anatomy 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 210000004379 membrane Anatomy 0.000 description 1
- 210000003716 mesoderm Anatomy 0.000 description 1
- 238000010197 meta-analysis Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 108091005601 modified peptides Proteins 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 125000004573 morpholin-4-yl group Chemical group N1(CCOCC1)* 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000000663 muscle cell Anatomy 0.000 description 1
- UPSFMJHZUCSEHU-JYGUBCOQSA-N n-[(2s,3r,4r,5s,6r)-2-[(2r,3s,4r,5r,6s)-5-acetamido-4-hydroxy-2-(hydroxymethyl)-6-(4-methyl-2-oxochromen-7-yl)oxyoxan-3-yl]oxy-4,5-dihydroxy-6-(hydroxymethyl)oxan-3-yl]acetamide Chemical compound CC(=O)N[C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@H]1O[C@H]1[C@H](O)[C@@H](NC(C)=O)[C@H](OC=2C=C3OC(=O)C=C(C)C3=CC=2)O[C@@H]1CO UPSFMJHZUCSEHU-JYGUBCOQSA-N 0.000 description 1
- 229950006238 nadide Drugs 0.000 description 1
- 101150091879 neo gene Proteins 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000004498 neuroglial cell Anatomy 0.000 description 1
- 239000004309 nisin Substances 0.000 description 1
- 235000010297 nisin Nutrition 0.000 description 1
- 125000001893 nitrooxy group Chemical group [O-][N+](=O)O* 0.000 description 1
- 230000037434 nonsense mutation Effects 0.000 description 1
- 210000000299 nuclear matrix Anatomy 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 125000000371 nucleobase group Chemical group 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 229940127073 nucleoside analogue Drugs 0.000 description 1
- 150000003833 nucleoside derivatives Chemical class 0.000 description 1
- JRZJOMJEPLMPRA-UHFFFAOYSA-N olefin Natural products CCCCCCCC=C JRZJOMJEPLMPRA-UHFFFAOYSA-N 0.000 description 1
- 239000002751 oligonucleotide probe Substances 0.000 description 1
- 125000001181 organosilyl group Chemical group [SiH3]* 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 125000000913 palmityl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- ONTNXMBMXUNDBF-UHFFFAOYSA-N pentatriacontane-17,18,19-triol Chemical compound CCCCCCCCCCCCCCCCC(O)C(O)C(O)CCCCCCCCCCCCCCCC ONTNXMBMXUNDBF-UHFFFAOYSA-N 0.000 description 1
- 238000010647 peptide synthesis reaction Methods 0.000 description 1
- 230000003285 pharmacodynamic effect Effects 0.000 description 1
- 150000003904 phospholipids Chemical class 0.000 description 1
- XRBCRPZXSCBRTK-UHFFFAOYSA-N phosphonous acid Chemical class OPO XRBCRPZXSCBRTK-UHFFFAOYSA-N 0.000 description 1
- 150000003014 phosphoric acid esters Chemical class 0.000 description 1
- 125000004437 phosphorous atom Chemical group 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 229920002647 polyamide Polymers 0.000 description 1
- 229920000768 polyamine Polymers 0.000 description 1
- 108010011110 polyarginine Proteins 0.000 description 1
- 238000006068 polycondensation reaction Methods 0.000 description 1
- 229920000647 polyepoxide Polymers 0.000 description 1
- 229920002704 polyhistidine Polymers 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 description 1
- 210000000229 preadipocyte Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 210000001236 prokaryotic cell Anatomy 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 235000019833 protease Nutrition 0.000 description 1
- 238000001742 protein purification Methods 0.000 description 1
- 238000001273 protein sequence alignment Methods 0.000 description 1
- PTJWIQPHWPFNBW-GBNDHIKLSA-N pseudouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1C1=CNC(=O)NC1=O PTJWIQPHWPFNBW-GBNDHIKLSA-N 0.000 description 1
- 150000003212 purines Chemical class 0.000 description 1
- 238000003762 quantitative reverse transcription PCR Methods 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 125000006853 reporter group Chemical group 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001177 retroviral effect Effects 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- PYWVYCXTNDRMGF-UHFFFAOYSA-N rhodamine B Chemical compound [Cl-].C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=CC=C1C(O)=O PYWVYCXTNDRMGF-UHFFFAOYSA-N 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 229910052594 sapphire Inorganic materials 0.000 description 1
- 239000010980 sapphire Substances 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000001542 size-exclusion chromatography Methods 0.000 description 1
- 210000004683 skeletal myoblast Anatomy 0.000 description 1
- 210000000329 smooth muscle myocyte Anatomy 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000002798 spectrophotometry method Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000004960 subcellular localization Effects 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- IIACRCGMVDHOTQ-UHFFFAOYSA-N sulfamic acid Chemical group NS(O)(=O)=O IIACRCGMVDHOTQ-UHFFFAOYSA-N 0.000 description 1
- 150000003456 sulfonamides Chemical group 0.000 description 1
- BDHFUVZGWQCTTF-UHFFFAOYSA-M sulfonate Chemical compound [O-]S(=O)=O BDHFUVZGWQCTTF-UHFFFAOYSA-M 0.000 description 1
- 150000003457 sulfones Chemical group 0.000 description 1
- 150000003462 sulfoxides Chemical group 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 229920003002 synthetic resin Polymers 0.000 description 1
- 239000000057 synthetic resin Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 101150024821 tetO gene Proteins 0.000 description 1
- ABZLKHKQJHEPAX-UHFFFAOYSA-N tetramethylrhodamine Chemical compound C=12C=CC(N(C)C)=CC2=[O+]C2=CC(N(C)C)=CC=C2C=1C1=CC=CC=C1C([O-])=O ABZLKHKQJHEPAX-UHFFFAOYSA-N 0.000 description 1
- MPLHNVLQVRSVEE-UHFFFAOYSA-N texas red Chemical compound [O-]S(=O)(=O)C1=CC(S(Cl)(=O)=O)=CC=C1C(C1=CC=2CCCN3CCCC(C=23)=C1O1)=C2C1=C(CCC1)C3=[N+]1CCCC3=C2 MPLHNVLQVRSVEE-UHFFFAOYSA-N 0.000 description 1
- 150000007970 thio esters Chemical class 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 108091008023 transcriptional regulators Proteins 0.000 description 1
- 230000037426 transcriptional repression Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- GWBUNZLLLLDXMD-UHFFFAOYSA-H tricopper;dicarbonate;dihydroxide Chemical compound [OH-].[OH-].[Cu+2].[Cu+2].[Cu+2].[O-]C([O-])=O.[O-]C([O-])=O GWBUNZLLLLDXMD-UHFFFAOYSA-H 0.000 description 1
- ZMANZCXQSJIPKH-UHFFFAOYSA-O triethylammonium ion Chemical compound CC[NH+](CC)CC ZMANZCXQSJIPKH-UHFFFAOYSA-O 0.000 description 1
- 125000000876 trifluoromethoxy group Chemical group FC(F)(F)O* 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 125000002948 undecyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 229940075420 xanthine Drugs 0.000 description 1
Abstract
本文提供与HSD17B13变体相关的组合物,该组合物包含与HSD17B13的变体相关的分离的核酸和蛋白质,本文还提供包含所述核酸和蛋白质的细胞。本文进一步提供与HSD17B13变体相关的方法。这些方法包括通过使用核酸酶试剂,外源供体序列,转录活化剂,转录抑制剂和表达重组HSD17B13基因或编码HSD17B13蛋白质的核酸的表达载体的任何组合修饰细胞的方法。本文还提供用于治疗患有慢性肝病或有发展为慢性肝病的风险的受治者的治疗性方法和预防性方法。
Description
分案申请说明
本申请是申请日为2018年01月19日,申请号为201880019830.5,发明名称为“HSD17B13变体及其应用”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求2017年1月23日提交的美国申请US62/449,335的权益,2017年3月17日提交的美国申请US62/472,972的权益以及2017年11月6日提交的美国申请US62/581,918的权益,上述美国申请中的每一个的全部内容通过引用并入本文。
文本格式文件的序列表通过EFS网站提交作为参考
文件名为507242SEQLIST.xml的序列表的大小为2439千字节,创建于2024年4月2日(实际序列内容创建于2018年1月19日),并且通过引用并入本文。
背景技术
在美国,慢性肝病和肝硬化是导致较高的发病率和死亡率的主要原因,2014年统计有38,170例死亡(占总死亡人数的1.5%)(Kochanek等人,(2016)Natl Vital Stat Rep65:1-122,该参考文献的全部内容通过引用并入本文)。在美国,肝硬化的最常见的病因是酒精性肝病,慢性丙型肝炎和非酒精性脂肪肝(NAFLD),从2004年至2013年,共计有约80%的患者等待进行肝移植(Wong等人,(2015)Gastroenterology 148:547-555,该参考文献的全部内容通过引用并入本文)。在美国,估计NAFLD的患病率为19%至46%(Browning等人,(2004)Hepatology 40:1387-1395;Lazo等人,(2013)Am JEpidemiol 178:38-45;和Williams等人,(2011)Gastroenterology 140:124-131,这些参考文献中的每一个的全部内容通过引用并入本文),并且该患病率逐年递增(Younossi等人,(2011)ClinGastroenterol Hepatol 9:524-530e1;quiz e60(2011),该参考文献的全部内容通过引用并入本文),NAFLD逐年递增的患病率看起来与肥胖率的增加相关联,肥胖成为了NAFLD的主要风险因素(Cohen等人,(2011)Science 332:1519-1523,该参考文献的全部内容通过引用并入本文)。虽然在治疗丙型肝炎方面已取得了显著进展(Morgan等人,(2013)Ann InternMed 158:329-337和van der Meer等人,(2012)JAMA 308:2584-2593,该参考文献中的每一个的全部内容通过引用并入本文),但是目前尚无用于酒精性或非酒精性肝病和肝硬化的循证治疗方法。
先前的全基因组关联分析(GWAS)已识别出了有限数量的与慢性肝病相关的基因和变体。迄今为止,最有效的已确认的基因关联是包含三个基因(PNPLA3 p.Ile148Met,rs738409)的patatin样磷脂酶结构域中的常见错义变体,最初发现该错义变体与非酒精性脂肪肝(NAFLD)的风险提高相关联(Romeo等人,(2008)Nat.Genet.40:1461-1465andSpeliotes等人,(2011)PLoS Genet.7:e1001324,该参考文献中的每一个的全部内容通过引用并入本文),并且随后发现该错义变体与疾病的严重性(Rotman等人,(2010)Hepatology52:894-903and Sookoian等人,(2009)J.Lipid Res.50:2111-2116,该参考文献中的每一个的全部内容通过引用并入本文)和疾病的进展(Trepo等人,(2016)J.Hepatol.doi:10.1016/j.jhep.2016.03.011,该参考文献的全部内容通过引用并入本文)相关联。跨膜6超家族成员2(TM6SF2)基因的改变也已显示出引起NAFLD的风险增加(Kozlitina等人,(2014)Nat.Genet.46:352-356;Liu等人,(2014)Nat.Commun.5:4309;和Sookoian等人,(2015)Hepatology 61:515-525,该参考文献中的每一个的全部内容通过引用并入本文)。虽然这两种蛋白质已被指出涉及肝细胞脂质代谢,但是这两种蛋白质的常规功能并未被完全理解。PNPLA3和TM6SF2中的变体如何引起肝脏疾病的风险增加尚未被阐明。GWAS已经识别出了若干个与血清丙氨酸转氨酶(ALT)和天冬氨酸转氨酶(AST)相关联的基因因子(Chambers等人,(2011)Nat.Genet.43:131-1138和Yuan等人,(2008)Am.J.Hum.Genet.83:520-528,这些参考文献中的每一个的全部内容通过引用并入本文),临床上经常测量这两种转氨酶的水平,将其作为肝细胞损伤和肝脂肪累积的定量标记物。迄今为止尚未描述过慢性肝病的防护性基因变体。诸如能够降低心血管疾病的风险的PCSK9中的功能缺失变体之类的其他情况下的防护性基因变体的发现促进了新的类别的治疗剂的研发。
对慢性肝病的发展和恶化的潜在基因因子的认识可改善风险分层并为新的治疗策略提供基石。本领域需要对潜在的基因因子具有更好的理解以改善风险分层并产生新的肝病治疗剂。
发明内容
本文提供涉及HSD17B13 rs72613567变体基因,变体HSD17B13转录体和变体HSD17B13蛋白质亚型的方法和组合物。
一方面,本发明提供分离的核酸,其包含来自HSD17B13rs72613567变体基因的突变残基。该分离的核酸可包含HSD17B13基因的至少15个连续核苷酸并且具有在与SEQ IDNO:1最佳比对时插入在对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。任选地,在与SEQ ID NO:2最佳比对时,所述连续的核苷酸与包括SEQ ID NO:2的位置12666的SEQ ID NO:2中的对应序列具有至少90%的一致性,至少95%的一致性,至少96%的一致性,至少97%的一致性,至少98%的一致性或至少99%的一致性。任选地,HSD17B13基因是人HSD17B13基因。任选地,分离的核酸包含SEQ ID NO:2中的至少15个连续核苷酸,至少20个连续核苷酸,至少25个连续核苷酸,至少30个连续核苷酸,至少35个连续核苷酸,至少40个连续核苷酸,至少45个连续核苷酸,至少50个连续核苷酸,至少60个连续核苷酸,至少70个连续核苷酸,至少80个连续核苷酸,至少90个连续核苷酸,至少100个连续核苷酸,至少200个连续核苷酸,至少300个连续核苷酸,至少400个连续核苷酸,至少500个连续核苷酸,至少600个连续核苷酸,至少700个连续核苷酸,至少800个连续核苷酸,至少900个连续核苷酸,至少1000个连续核苷酸,至少2000个连续核苷酸,至少3000个连续核苷酸,至少4000个连续核苷酸,至少5000个连续核苷酸,至少6000个连续核苷酸,至少7000个连续核苷酸,至少8000个连续核苷酸,至少9000个连续核苷酸,至少10000个连续核苷酸,至少11000个连续核苷酸,至少12000个连续核苷酸,至少13000个连续核苷酸,至少14000个连续核苷酸,至少15000个连续核苷酸,至少16000个连续核苷酸,至少17000个连续核苷酸,至少18000个连续核苷酸,或至少19000个连续核苷酸。
一些这样的分离的核酸包含HSD17B13微小基因,相对于对应的野生型HSD17B13基因,在该微小基因中,基因的一个或多个非必需片段已经被删除。任选地,已删除的片段包括一个或多个内含子序列。任选地,分离的核酸还包含在与SEQ ID NO:2进行最佳比对时对应于SEQ ID NO:2的内含子6的内含子。任选地,所述内含子是SEQ ID NO:2的内含子6。
另一方面,本文提供对应于不同的HSD17B13 mRNA转录体或cDNA的分离的核酸。一些这样的分离的核酸包含编码全部HSD17B13蛋白质或编码HSD17B13蛋白质的一部分的至少15个连续核苷酸,其中,所述连续核酸包含与如下片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段,所述片段为:存在于SEQ ID NO:7(HSD17B13转录体D)中,SEQ ID NO:10(HSD17B13转录体G)中和SEQ ID NO:11(HSD17B13转录体H)中但不存在于SEQ ID NO:4中(HSD17B13转录体A)的片段。任选地,所述连续的核苷酸还包含与存在于SEQ ID NO:7(HSD17B13转录体D)中但不存在于SEQ ID NO:11(HSD17B13转录体H)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段,并且,其中,所述连续的核苷酸还包含与存在于SEQ ID NO:7(HSD17B13转录体D)中而不存在于SEQ ID NO:10(HSD17B13转录体G)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。任选地,所述连续的核苷酸还包含与存在于SEQ ID NO:11(HSD17B13转录体H)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。任选地,所述连续的核苷酸还包含与存在于SEQ ID NO:10(HSD17B13转录体G)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。
一些这样的分离的核酸包含编码全部HSD17B13蛋白质或编码HSD17B13蛋白质的一部分的至少15个连续核苷酸,其中,所述连续的核苷酸包含与存在于SEQ ID NO:8(HSD17B13转录体E)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。任选地,所述连续的核苷酸还包含与存在于SEQ ID NO:8(HSD17B13转录体E)中而不存在于SEQ ID NO:11(HSD17B13转录体H)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。
一些这样的分离的核酸包含编码全部HSD17B13蛋白质或编码HSD17B13蛋白质的一部分的至少15个连续核苷酸,其中,所述连续的核苷酸包含与存在于SEQ ID NO:9(HSD17B13转录体F)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。
一些这样的分离的核酸包含编码全部HSD17B13蛋白质或编码HSD17B13蛋白质的一部分的至少15个连续核苷酸,其中,所述连续的核苷酸包含与存在于SEQ ID NO:6(HSD17B13转录体C)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%一致性、至少95%一致性、至少96%一致性、至少97%一致性、至少98%一致性、至少99%一致性或100%一致性的片段。
任选地,HSD17B13蛋白质是人HSD17B13蛋白质。任选地,分离的核酸包含编码全部HSD17B13蛋白质或编码HSD17B13蛋白质的一部分的至少20个连续核苷酸、至少25个连续核苷酸、至少30个连续核苷酸、至少35个连续核苷酸、至少40个连续核苷酸、至少45个连续核苷酸、至少50个连续核苷酸、至少60个连续核苷酸、至少70个连续核苷酸、至少80个连续核苷酸、至少90个连续核苷酸、至少100个连续核苷酸、至少200个连续核苷酸、至少300个连续核苷酸、至少400个连续核苷酸、至少500个连续核苷酸、至少600个连续核苷酸、至少700个连续核苷酸、至少800个连续核苷酸、至少900个连续核苷酸、至少1000个连续核苷酸或至少2000个连续核苷酸。
一些这样的分离的核酸包含与SEQ ID NO:6,7,8,9,10或11(HSD17B13转录体C,D,E,F,G或H)中列出的并且编码HSD17B13蛋白质的序列具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%一致性的序列,所述HSD17B13蛋白质包含在SEQ IDNO:14,15,16,17,18或19(HSD17B13亚型C,D,E,F,G或H)中分别列出的序列。
在上述核酸中的任一种中,所述连续的核苷酸可任选地包含HSD17B13基因的至少两个不同的外显子的序列,而不会干扰内含子。
另一方面,本文提供由上述分离的核酸中的任一种编码的蛋白质。
另一方面,本文提供与HSD17B13 rs72613567变体基因中的突变残基杂交的或接近HSD17B13 rs72613567变体基因中的突变残基的分离的核酸。所述分离的核酸可包含在如下片段处与HSD17B13基因杂交的至少15个连续核苷酸,所述片段包括在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2中的位置12666的位置的1000个核苷酸、500个核苷酸、400个核苷酸、300个核苷酸、200个核苷酸、100个核苷酸、50个核苷酸、45个核苷酸、40个核苷酸、35个核苷酸、30个核苷酸、25个核苷酸、20个核苷酸、15个核苷酸、10个核苷酸或5个核苷酸或所述片段位于在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2中的位置12666的位置的1000个核苷酸之内、500个核苷酸之内、400个核苷酸之内、300个核苷酸之内、200个核苷酸之内、100个核苷酸之内、50个核苷酸之内、45个核苷酸之内、40个核苷酸之内、35个核苷酸之内、30个核苷酸之内、25个核苷酸之内、20个核苷酸之内、15个核苷酸之内、10个核苷酸之内或5个核苷酸之内。任选地,所述片段是在与SEQ ID NO:2最佳比对时与SEQ ID NO:2中的对应序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%一致性的序列。任选地,所述片段包含SEQ ID NO:2的至少20个连续核苷酸、至少25个连续核苷酸、至少30个连续核苷酸、至少35个连续核苷酸、至少40个连续核苷酸、至少45个连续核苷酸、至少50个连续核苷酸、至少60个连续核苷酸、至少70个连续核苷酸、至少80个连续核苷酸、至少90个连续核苷酸、至少100个连续核苷酸、至少200个连续核苷酸、至少300个连续核苷酸、至少400个连续核苷酸、至少500个连续核苷酸、至少600个连续核苷酸、至少700个连续核苷酸、至少800个连续核苷酸、至少900个连续核苷酸、至少1000个连续核苷酸或至少2000个连续核苷酸。任选地,所述片段包括在与SEQ ID NO:2最佳比对时SEQ ID NO:2中的位置12666或对应于SEQ ID NO:2的位置12666的位置。任选地,HSD17B13基因是人HSD17B13基因。任选地,分离的核酸的长度高达约30个核苷酸、40个核苷酸、50个核苷酸、100个核苷酸、200个核苷酸、300个核苷酸、400个核苷酸、500个核苷酸、600个核苷酸、700个核苷酸、800个核苷酸、900个核苷酸或1000个核苷酸。任选地,分离的核酸连接至异源核酸或包含异源标签。任选地,所述异源标签是荧光标签。
另一方面,本文提供与不同的HSD17B13 mRNA转录体或cDNA杂交的分离的核酸。一些这样的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交,其中,所述连续的核苷酸包含与存在于SEQ ID NO:7(HSD17B13转录体D),SEQ ID NO:10(HSD17B13转录体G)和SEQ ID NO:11(HSD17B13转录体H)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%一致性的片段。
一些这样的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交,其中,所述连续的核苷酸包含与存在于SEQ ID NO:8(HSD17B13转录体E)和SEQ ID NO:11(HSD17B13转录体H)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%一致性的片段。
一些这样的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交,其中,所述连续的核苷酸包含与存在于SEQ ID NO:9(HSD17B13转录体F)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%一致性的片段。
一些这样的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交,其中,所述连续的核苷酸包含与存在于SEQ ID NO:6(HSD17B13转录体C)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的片段具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%一致性的片段。
任选地,HSD17B13蛋白质是人HSD17B13蛋白质。任选地,分离的核酸的长度高达约30个核苷酸、40个核苷酸、50个核苷酸、100个核苷酸、200个核苷酸、300个核苷酸、400个核苷酸、500个核苷酸、600个核苷酸、700个核苷酸、800个核苷酸、900个核苷酸或1000个核苷酸。任选地,所述分离的核酸连接至异源核酸或包含异源标签。任选地,所述异源标签是荧光标签。
任选地,上述分离的核酸中的任一种包含DNA。任选地,上述分离的核酸中的任一种包含RNA。任选地,上述分离的核酸中的任一种是反义RNA,短发夹RNA或小干扰RNA。任选地,上述分离的核酸中的任一种可包括非天然核苷酸。
另一方面,本文提供包含上述分离的核酸中的任一种和异源核酸序列的载体和外源供体序列。
另一方面,本文提供上述分离的核酸、载体或外源供体序列中的任一种在如下方法中的应用:检测受治者体内的HSD17B13 rs72613567的方法、检测受治者中存在HSD17B13转录体C,D,E,F,G或H的方法、确定受治者易于患上慢性肝病的方法、诊断患有脂肪肝的受治者的方法或修饰细胞中的HSD17B13基因的方法,改变细胞中HSD17B13基因的表达的方法。
另一方面,本文提供靶向HSD17B13基因的向导RNA。该向导RNA可有效地使Cas酶定向结合HSD17B13基因或裂解HSD17B13基因,其中,向导RNA包含DNA靶向片段,其与HSD17B13基因中的向导RNA识别序列杂交。也就是说,该向导RNA可有效地使Cas酶定向结合或裂解HSD17B13基因,其中,向导RNA包含DNA靶向片段,其靶向HSD17B13基因内的向导RNA靶向序列。该向导RNA可有效地使Cas酶定向结合或裂解HSD17B13基因,其中,所述向导RNA包含DNA靶向片段,其靶定HSD17B13基因内的向导RNA靶向序列,该HSD17B13基因包括或接近在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置。任选地,所述向导RAN靶向序列包含SEQ ID NO:226-239和264-268中的任一个序列,基本由SEQ IDNO:226-239和264-268中的任一个序列构成或由SEQ ID NO:226-239和264-268中的任一个序列构成。任选地,所述DNA靶向片段包含SEQ ID NO:1629-1642和1648-1652中的任一个序列,基本由SEQ ID NO:1629-1642和1648-1652中的任一个序列构成或由SEQ ID NO:1629-1642和1648-1652中的任一个序列构成。任选地,所述向导RNA包含SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个序列,基本由SEQ ID NO:1629-1642和1648-1652中的任一个序列构成,或由SEQ ID NO:1629-1642和1648-1652中的任一个序列构成。任选地,所述向导RNA包含SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个序列,基本由SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个序列构成,或由SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个序列构成。任选地,所述向导RNA靶向序列选自SEQ ID NO:226-239或SEQ ID NO:230和231。任选地,所述向导RNA靶向序列选自:SEQ ID NO:226-230和264-268。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6的区域中。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6和/或外显子7的区域中。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置的约1000个核苷酸内、500个核苷酸内、400个核苷酸内、300个核苷酸内、200个核苷酸内、100个核苷酸内、50个核苷酸内、45个核苷酸内、40个核苷酸内、35个核苷酸内、30个核苷酸内、25个核苷酸内、20个核苷酸内、15个核苷酸内、10个核苷酸内或5个核苷酸内。任选地,所述向导RNA靶向序列包括在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置。
这些向导RNA可有效地使Cas酶定向结合至或裂解HSD17B13基因,其中,所述向导RNA包含DNA靶向片段,其靶定HSD17B13基因内的向导RNA靶向序列,所述HSD17B13基因包括或接近HSD17B13基因的起始密码子。任选地,向导RNA靶向序列包含SEQ ID NO:20-81和259-263中的任一个,基本由SEQ ID NO:20-81和259-263中的任一个构成或由SEQ ID NO:20-81和259-263中的任一个构成。任选地,DNA靶定片段包含SEQ ID NO:1423-1484和1643-1647中的任一个,基本由SEQ ID NO:1423-1484和1643-1647中的任一个构成或由SEQ IDNO:1423-1484和1643-1647中的任一个构成。任选地,向导RNA包含SEQ ID NO:500-561,730-791,960-1021,1190-1251,720-724,950-954,1180-1184和1410-1414中的任一个,基本由SEQ ID NO:500-561,730-791,960-1021,1190-1251,720-724,950-954,1180-1184和1410-1414中的任一个构成或由SEQ ID NO:500-561,730-791,960-1021,1190-1251,720-724,950-954,1180-1184和1410-1414中的任一个构成。任选地,向导RNA靶向序列选自:SEQID NO:20-81和259-263。任选地,向导RNA靶向序列选自:SEQ ID NO:21-23,33和35。任选地,向导RNA靶向序列选自SEQ ID NO:33和35。任选地,向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子1的区域内。任选地,向导RNA靶向序列位于起始密码子的约1000个核苷酸内、约500个核苷酸内、约400个核苷酸内、约300个核苷酸内、约200个核苷酸内、约100个核苷酸内、约50个核苷酸内、约45个核苷酸内、约40个核苷酸内、约35个核苷酸内、约30个核苷酸内、约25个核苷酸内、约20个核苷酸内、约15个核苷酸内、约10个核苷酸内或约5个核苷酸内。
所述向导RNA可有效地使Cas酶定向结合至或裂解HSD17B13基因,其中,所述向导RNA包含DNA靶向片段,其靶向HSD17B13基因内的向导RNA靶向序列,所述HSD17B13基因包括或接近HSD17B13基因的终止密码子。任选地,所述向导RNA靶向序列包含SEQ ID NO:82-225中的任一个,基本由SEQ ID NO:82-225中的任一个构成或由SEQ ID NO:82-225中的任一个构成。任选地,所述DNA靶向片段包含SEQ ID NO:1485-1628中的任一个,基本由SEQ ID NO:1485-1628中的任一个构成或由SEQ ID NO:1485-1628中的任一个构成。任选地,所述向导RNA包含SEQ ID NO:562-705,792-935,1022-1165和1252-1395中的任一个,基本由SEQ IDNO:562-705,792-935,1022-1165和1252-1395中的任一个构成或由SEQ ID NO:562-705,792-935,1022-1165和1252-1395中的任一个构成。任选地,所述向导RNA靶向序列选自SEQID NO:82-225。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子7的区域内。任选地,所述向导RNA靶向序列位于终止密码子的约1000个核苷酸内、约500个核苷酸内、约400个核苷酸内、约300个核苷酸内、约200个核苷酸内、约100个核苷酸内、约50个核苷酸内、约45个核苷酸内、约40个核苷酸内、约35个核苷酸内、约30个核苷酸内、约25个核苷酸内、约20个核苷酸内、约15个核苷酸内、约10个核苷酸内或约5个核苷酸内。
任选地,HSD17B13基因是人HSD17B13基因。任选地,HSD17B13基因包含SEQ ID NO:2。
一些这样的向导RNA包含成簇的规律间隔的短回文重复序列(ClusteredRegularly Interspaced Short Palindromic Repeat(CRISPR))RNA(crRNA),其包含DNA靶向片段和反式激活CRISPR RNA(tracrRNA)。任选地,所述向导RNA是模块化的(modular)向导RNA,其中,crRNA和tracrRNA是彼此杂交的独立的分子。任选地,crRNA包含SEQ ID NO:1421中列出的序列,基本由SEQ ID NO:1421中列出的序列构成或由SEQ ID NO:1421中列出的序列构成,并且,tracrRNA包含SEQ ID NO:1422中列出的序列,基本由SEQ ID NO:1422中列出的序列构成或由SEQ ID NO:1422中列出的序列构成。任选地,向导RNA是单个向导RNA,其中,crRNA经由连接体与tracrRNA融合。任选地,所述单个向导RNA包含SEQ ID NO:1420和256-258中的任一个中列出的序列,基本由SEQ ID NO:1420和256-258中的任一个中列出的序列构成或由SEQ ID NO:1420和256-258中的任一个中列出的序列构成。
另一方面,本文提供与本文公开的HSD17B13转录体中的序列杂交的反义RNA,siRNA或shRNA。一些这样的反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)中的序列杂交。任选地,所述反义RNA,siRAN或shRNA可降低细胞中HSD17B13转录体A的表达。任选地,所述反义RNA,siRNA或shRNA与存在于SEQ ID NO:4(HSD17B13转录体A)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的序列杂交。任选地,所述反义RNA,siRNA或shRNA与SEQID NO:4(HSD17B13转录体A)的外显子7内的序列杂交或横跨SEQ ID NO:4(HSD17B13转录体A)的外显子6-外显子7的边界的序列杂交。一些这样的反义RNA,siRNA或shRNA与SEQ IDNO:7(HSD17B13转录体D)内的序列杂交。任选地,所述反义RNA,siRNA或shRNA可降低细胞中HSD17B13转录体D的表达。任选地,所述反义RNA,siRNA或shRNA与存在于SEQ ID NO:7(HSD17B13转录体D)中而不存在于SEQ ID NO:4(HSD17B13转录体A)中的序列杂交。任选地,所述反义RNA,siRNA或shRNA与SEQ ID NO:7(HSD17B13转录体D)的外显子7内的序列杂交或横跨SEQ ID NO:7(HSD17B13转录体D)的外显子6-外显子7的边界的序列杂交。
另一方面,本文提供编码上述向导RNA,反义RNA,siRNA或shRNA中的任一种的DNA。另一方面,本文提供包含编码上述向导RNA,反义RNA,siRNA或shRNA中的任一种的DNA以及外源核酸的载体。另一方面,本文提供上述向导RNA,反义RNA,siRNA或shRNA中的任一种、编码向导RNA,反义RNA,siRNA或shRNA的DNA或包含编码向导RNA,反义RNA,siRNA或shRNA的DNA的载体在修饰细胞中的HSD17B13基因的方法中的应用或在改变细胞中HSD17B13基因的表达的方法中的应用。
另一方面,本文提供包含上述分离的核酸中的任一种,上述向导RNA中的任一种,上述分离的多肽中的任一种,上述反义RNA,siRNA或shRNA中的任一种,上述载体中的任一种,或上述外源供体序列中的任一种的组合物。任选地,所述组合物包含上述向导RNA中的任一种和诸如Cas9蛋白质之类的Cas蛋白质。任选地,这种组合物包含提高所述分离的多肽的稳定性,所述向导RNA的稳定性,所述反义RNA的稳定性,所述siRNA的稳定性,所述shRNA的稳定性,所述分离的核酸的稳定性,所述载体的稳定性或所述外源供体序列的稳定性的载体。任选地,所述载体包含聚(乳酸)(PLA)微球,聚(D,L-乳酸-羟基乙酸共聚物)(PLGA)微球,脂质体,胶束,反向胶束,脂质卷(lipid cochleate)或脂质微管。
本文还提供包含上述分离的核酸中的任一种,上述向导RNA中的任一种,上述反义RNA,siRNA或shRNA中的任一种,上述分离的多肽中的一种,或上述载体中的任一种的细胞。任选地,所述细胞是人细胞,啮齿动物细胞,小鼠细胞,或大鼠细胞。任选地,上述细胞中的任一种是肝细胞或多能细胞。
本文还提供上述向导RNA中的任一种在修饰细胞中HSD17B13基因的方法中的应用或在改变细胞中HSD17B13基因的表达的方法中的应用。本文还提供上述反义RNA,siRNA或shRNA在改变细胞中HSD17B13的表达的方法中的应用。
本文还提供修饰细胞的方法,修饰HSD17B13基因的方法,或改变HSD17B13基因的表达的方法。一些这样的方法是用于修饰细胞中的HSD17B13基因,该方法包括使细胞基因组与(a)Cas蛋白质和(b)向导RNA接触,所述向导RNA与Cas蛋白质形成复合物并且靶定HSD17B13基因中的向导RNA靶向序列,其中,所述向导RNA靶向序列包括或接近在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置,其中,Cas蛋白质裂解HSD17B13基因。任选地,Cas蛋白质是Cas9蛋白质。任选地,所述向导RNA靶向序列包含SEQ ID NO:226-239和264-268中的任一个,基本由SEQ ID NO:226-239和264-268中的任一个构成或由SEQ ID NO:226-239和264-268中的任一个构成。任选地,DNA-靶向片段包括SEQ ID NO:1629-1642和1648-1652中的任一个,基本由SEQ ID NO:1629-1642和1648-1652中的任一个构成或由SEQ ID NO:1629-1642和1648-1652中的任一个构成。任选地,所述向导RNA包括SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个,基本由SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个构成或由SEQ ID NO:706-719,936-949,1166-1179,1396-1409,725-729,955-959,1185-1189和1415-1419中的任一个构成。任选地,向导RNA靶向序列选自:SEQ ID NO:226-239,或其中,所述向导RNA靶向序列选自:SEQ ID NO:230和231。任选地,向导RNA靶向序列选自:SEQ ID NO:226-239和264-268,或者选自:SEQ ID NO:264-268。任选地,向导RNA靶向序列位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6的区域内。任选地,向导RNA靶向序列位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6和/或外显子7的区域内。任选地,向导RNA靶向序列位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置的约1000个核苷酸内、500个核苷酸内、400个核苷酸内、300个核苷酸内、200个核苷酸内、100个核苷酸内、50个核苷酸内、45个核苷酸内、40个核苷酸内、35个核苷酸内、30个核苷酸内、25个核苷酸内、20个核苷酸内、15个核苷酸内、10个核苷酸内或5个核苷酸内。任选地,向导RNA靶向序列包括在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置。
一些这样的方法还包括使基因组与包含5’同源臂和3’同源臂的外源供体序列接触,所述5’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列5’杂交,所述3’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列3’杂交,其中,所述外源供体序列与HSD17B13基因重组。任选地,所述外源供体序列还包含位于所述5’同源臂和3’同源臂的侧面的核酸插入子。任选地,所述核酸插入子包含胸腺嘧啶,并且,其中,在外源供体序列与HSD17B13基因重组之后,所述胸腺嘧啶插入在当HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间。任选地,所述外源供体序列的长度为约50个核苷酸至约1kb,或约80个核苷酸至约200个核苷酸。任选地,所述外源供体序列是单链寡脱氧核苷酸。
一些这样的方法是用于修饰细胞内的HSD17B13基因,该方法包括使所述细胞的基因组与(a)Cas蛋白质和(b)第一向导RNA接触,所述第一向导RNA与Cas蛋白质形成复合物并且靶向HSD17B13基因内的第一向导RNA靶向序列,其中,所述第一向导RNA靶向序列包含HSD17B13基因的起始密码子或位于所述起始密码子的约10个核苷酸内、20个核苷酸内、30个核苷酸内、40个核苷酸内、50个核苷酸内、100个核苷酸内、200个核苷酸内、300个核苷酸内、400个核苷酸内、500个核苷酸内、或1000个核苷酸内或选自:SEQ ID NO:20-81或选自SEQ ID NO:20-81和259-263,其中,Cas蛋白质裂解或改变HSD17B13基因的表达。任选地,所述第一向导RNA靶向序列包含SEQ ID NO:20-81和259-263中的任一个,基本由SEQ ID NO:20-81和259-263中的任一个构成或由SEQ ID NO:20-81和259-263中的任一个构成。任选地,所述第一向导RNA靶向序列包含SEQ ID NO:20-41中的任一个,SEQ ID NO:21-23,33和35中的任一个,或SEQ ID NO:33和35中的任一个;或者基本由SEQ ID NO:20-41中的任一个,SEQ ID NO:21-23,33和35中的任一个,或SEQ ID NO:33和35中的任一个构成;或者由SEQ ID NO:20-41中的任一个,SEQ ID NO:21-23,33和35中的任一个,或SEQ ID NO:33和35中的任一个构成。任选地,所述第一向导RNA包含SEQ ID NO:1423-1484和1643-1647中的任一个,基本由SEQ ID NO:1423-1484和1643-1647中的任一个构成或由SEQ ID NO:1423-1484和1643-1647中的任一个构成。任选地,所述第一向导RNA包含DNA靶向片段,基本由DNA靶向片段构成或由DNA靶向片段构成,所述DNA靶向片段包含SEQ ID NO:1447-1468中的任一个,SEQ ID NO:1448-1450,1460和1462中的任一个或SEQ ID NO:1460和1462中的任一个。任选地,所述第一向导RNA包含SEQ ID NO:500-561,730-791,960-1021,1190-1251,720-724,950-954,1180-1184,和1410-1414中的任一个,基本由SEQ ID NO:500-561,730-791,960-1021,1190-1251,720-724,950-954,1180-1184,和1410-1414中的任一个构成或由SEQ ID NO:500-561,730-791,960-1021,1190-1251,720-724,950-954,1180-1184,和1410-1414中的任一个构成。任选地,所述第一向导RNA包含SEQ ID NOS:524-545,754-775,984-1005,和1214-1235中的任一个,或SEQ ID NOS:295-297,525-527,755-757,985-987,1215-1217,307,309,537,539,767,769,997,999,1227,和1229中的任一个,或SEQ ID NOS:307,309,537,539,767,769,997,999,1227,和1229中的任一个;或者基本由SEQ ID NOS:524-545,754-775,984-1005,和1214-1235中的任一个,或SEQ ID NOS:295-297,525-527,755-757,985-987,1215-1217,307,309,537,539,767,769,997,999,1227,和1229中的任一个,或SEQ ID NOS:307,309,537,539,767,769,997,999,1227,和1229中的任一个构成;或者由SEQ ID NOS:524-545,754-775,984-1005,和1214-1235中的任一个,或SEQ ID NOS:295-297,525-527,755-757,985-987,1215-1217,307,309,537,539,767,769,997,999,1227,和1229中的任一个,或SEQ ID NOS:307,309,537,539,767,769,997,999,1227,和1229中的任一个构成。任选地,所述第一向导RNA靶向序列选自:SEQ ID NO:20-41,或选自:SEQ ID NO:21-23,33和35,或选自:SEQ ID NO:33和35。任选地,Cas蛋白质是Cas9蛋白质。任选地,Cas蛋白质是核酸酶活性Cas蛋白质。任选地,Cas蛋白质是融合至转录活化结构域的核酸酶惰性Cas蛋白质或融合至转录抑制结构域的核酸酶惰性Cas蛋白质。
一些这样的方法还包括使细胞的基因组与第二向导RNA接触,所述第二向导RNA与Cas蛋白质形成复合物并且靶定HSD17B13基因中的第二向导RNA靶向序列,其中,所述第二向导RNA靶向序列包含HSD17B13基因的终止密码子或位于所述终止密码子的约10个核苷酸内、20个核苷酸内、30个核苷酸内、40个核苷酸内、50个核苷酸内、100个核苷酸内、200个核苷酸内、300个核苷酸内、400个核苷酸内、500个核苷酸内、或1000个核苷酸内,或选自:SEQID NO:82-225,其中,所述细胞被修饰为包含位于所述第一向导RNA靶向序列和所述第二向导RNA靶向序列之间的删除。任选地,所述第二向导RNA靶向序列包含SEQ ID NO:82-225中的任一个,基本由SEQ ID NO:82-225中的任一个构成,或由SEQ ID NO:82-225中的任一个构成。任选地,所述第二向导RNA包含DNA靶向片段,基本由DNA靶向片段构成或由DNA靶向片段构成,所述DNA靶向片段包含SEQ ID NO:1482-1628中的任一个。任选地,所述第二向导RNA包含SEQ ID NOS:562-705,792-935,1022-1165,和1252-1395中的任一个,基本由SEQID NOS:562-705,792-935,1022-1165,和1252-1395中的任一个构成,或由SEQ ID NOS:562-705,792-935,1022-1165,和1252-1395中的任一个构成。
一些这样的方法是用于降低细胞中HSD17B13基因的表达或降低细胞中特定HSD17B13转录体(例如,转录体A或转录体D)的表达。一些这样的方法是用于降低细胞中HSD17B13基因的表达,其包括使所述细胞的基因组与反义RNA,siRNA或shRNA接触,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)的外显子7内的序列杂交并降低HSD17B13转录体A的表达。一些这样的方法是用于降低细胞中HSD17B13基因的表达,其包括使所述细胞的基因组与反义RNA,siRNA或shRNA接触,所述反义RNA,siRNA或shRNA与本文公开的HSD17B13的转录体内的序列杂交。在一些这样的方法中,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)中的序列杂交。任选地,所述反义RNA,siRNA或shRNA可降低细胞中HSD17B13转录体A的表达。任选地,所述反义RNA,siRNA或shRNA与存在于SEQ IDNO:4(HSD17B13转录体A)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的序列杂交。任选地,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)的外显子7内的序列杂交或与横跨SEQ ID NO:4(HSD17B13转录体)的外显子6-外显子7边界的序列杂交。在一些这样的方法中,所述反义RNA,siRNA或shRNA与SEQ ID NO:7(HSD17B13转录体D)内的序列杂交。任选地,所述反义RNA,siRNA或shRNA可降低细胞中HSD17B13转录体D的表达。任选地,所述反义RNA,siRNA或shRNA与存在于SEQ ID NO:7(HSD17B13转录体D)中而不存在于SEQ IDNO:4(HSD17B13转录体A)中的序列杂交。任选地,所述反义RNA,siRNA,或shRNA与SEQ IDNO:7(HSD17B13转录体D)的外显子7内的序列杂交或与横跨SEQ ID NO:7(HSD17B13转录体D)的外显子6-外显子7边界的序列杂交。
在上述用于修饰HSD17B13基因的方法中的任一种或用于改变HSD17B13基因的表达的方法中的任一种中,所述方法还可包括将表达载体引入所述细胞中,其中,所述表达载体包括重组HSD17B13基因,该重组HSD17B13基因包含插入在将重组的HSD17B13基因与SEQID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。任选地,所述重组HSD17B13基因是人基因。任选地,所述重组HSD17B13基因是HSD17B13微小基因,在所述微小基因中,相对于野生型HSD17B13基因,所述基因中的一个或多个非必需片段被删除。任选地,删除的片段包含一个或多个内含子序列。任选地,所述HSD17B13微小基因包含在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的内含子6的内含子。
在上述用于修饰HSD17B13基因的方法中的任一种或用于改变HSD17B13基因的表达的方法中的任一种中,所述方法可还包括将表达载体引入所述细胞中,其中,所述表达载体包括编码HSD17B13蛋白质的核酸,所述HSD17B13蛋白质与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%一致性。任选地,编码HSD17B13蛋白质的核酸在与SEQ ID NO:7最佳比对时与SEQ ID NO:7(HSD17B13转录体D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%一致性。
在上述用于修饰HSD17B13基因的方法中的任一种或用于改变HSD17B13基因的表达的方法中的任一种中,所述方法可还包括将HSD17B13蛋白质或其片段引入所述细胞中。任选地,所述HSD17B13蛋白质或其片段与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%一致性。
一些这样的方法是用于修饰细胞,所述方法包括将表达载体引入所述细胞中,其中,所述表达载体包含重组HSD17B13基因,该重组HSD17B13基因包含插入于将重组HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。任选地,所述重组HSD17B13基因是人基因。任选地,所述重组HSD17B13基因是HSD17B13微小基因,其中,相对于对应的野生型HSD17B13基因,所述基因中的一个或多个非必需片段被删除。任选地,所删除的片段包含一个或多个内含子序列。任选地,HSD17B13微小基因包含在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的内含子6的内含子。
一些这样的方法是用于修饰细胞,所述方法包括将表达载体引入细胞中,其中,所述表达载体包含编码HSD17B13蛋白质的核酸,所述HSD17B13蛋白质与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。任选地,所述编码HSD17B13蛋白质的核酸在与SEQ ID NO:7最佳比对时与SEQ ID NO:7(HSD17B13转录体D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
一些这样的方法是用于修饰细胞,所述方法包括将HSD17B13蛋白质或其片段引入细胞中。任选地,HSD17B13蛋白质或其片段与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
在上述修饰细胞、修饰HSD17B13基因或改变HSD17B13基因的表达的方法中的任一种中,所述细胞是人细胞、啮齿动物细胞、小鼠细胞或大鼠细胞。所述细胞中的任一种可以是多能细胞或分化的细胞。所述细胞中的任一种可以是肝细胞。在上述修饰细胞、修饰HSD17B13基因或改变HSD17B13基因的表达的方法中的任一种中,所述方法或所述细胞可以是离体的或体内的。在上述方法中的任一种中使用的向导RNA可以是模块化向导RNA,其包含彼此杂交的独立的crRNA和tracrRNA分子或crRNA蛋白质融合(例如通过连接体)至tracrRNA蛋白质的单个向导RNA。
另一方面,本文提供用于治疗患有或易患上慢性肝病的受治者的方法。另一方面,本文提供用于治疗患有或易患上酒精性或非酒精性肝病的受治者的方法。所述受治者可以是,例如,非HSD17B13 rs72613567变体的携带者,或非HSD17B13 rs72613567变体的纯合携带者。一些这样的方法包括治疗非HSD17B13 rs72613567变体携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括向受治者体内引入(a)Cas蛋白质或编码Cas蛋白质的核酸;(b)向导RNA或编码所述向导RNA的核酸和(c)外源供体序列,其中,所述向导RNA和Cas蛋白质形成复合物并且靶向HSD17B13基因内的向导RNA靶向序列,其中,所述向导RNA靶向序列包括或接近在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置,所述外源供体序列包括与对应于SEQ ID NO:2的位置12666的位置的靶向序列5’杂交的5’同源臂,与对应于SEQ ID NO:2的位置12666的位置的靶向序列3’杂交的3’同源臂,以及包含位于5’同源臂和3’同源臂侧面的胸腺嘧啶的核酸插入子,其中,所述Cas蛋白质裂解受治者的肝细胞中的HSD17B13基因并且所述外源供体序列与肝细胞中的HSD17B13基因重组,其中,在外源供体序列与HSD17B13基因重组之后,胸腺嘧啶插入于在HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间。
任选地,所述向导RNA靶向序列选自:SEQ ID NO:226-239,或其中,所述向导RNA靶向序列选自:SEQ ID NO:230和231。任选地,所述向导RNA靶向序列选自:SEQ ID NO:226-239和264-268。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6的区域内。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6和/或外显子7的区域内。任选地,所述向导RNA靶向序列位于在HSD17B13基因与SEQ IDNO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置的约1000个核苷酸内、500个核苷酸内、400个核苷酸内、300个核苷酸内、200个核苷酸内、100个核苷酸内、50个核苷酸内、45个核苷酸内、40个核苷酸内、35个核苷酸内、30个核苷酸内、25个核苷酸内、20个核苷酸内、15个核苷酸内、10个核苷酸内或5个核苷酸内。任选地,所述向导RNA靶向序列包括在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置。
任选地,所述外源供体序列的长度为约50个核苷酸至约1kb。任选地,所述外源供体序列的长度为约80个核苷酸至约200个核苷酸。任选地,所述外源供体序列是单链寡脱氧核苷酸。
一些这样的方法包括治疗非HSD17B13 rs72613567变体的并且患有或易患上慢性肝病的受治者的方法,所述方法包括向所述受治者体内引入(a)Cas蛋白质或编码Cas蛋白质的核酸,(b)第一向导RNA或编码第一向导RNA的核酸,和(c)包含重组HSD17B13基因的表达载体,其中,所述第一向导RNA与Cas蛋白质形成复合物并靶向HSD17B13基因内的第一向导RNA靶向序列,其中,所述第一向导RNA靶向序列包含HSD17B13基因的起始密码子或位于起始密码子的约10个核苷酸内、20个核苷酸内、30个核苷酸内、40个核苷酸内、50个核苷酸内、100个核苷酸内、200个核苷酸内、300个核苷酸内、400个核苷酸内、500个核苷酸内或1000个核苷酸内,或者选自:SEQ ID NO:20-81,或选自SEQ ID NO:20-81和259-263,其中,所述重组HSD17B13基因包含插入于在重组HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶,其中,Cas蛋白质裂解或改变所述受治者的肝细胞内的HSD17B13基因的表达,并且,所述表达载体表达所述受治者体内的肝细胞内的重组HSD17B13基因。一些这样的方法包括治疗非HSD17B13 rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括向所述受治者体内引入(a)Cas蛋白质或编码Cas蛋白质的核酸,(b)第一向导RNA或编码所述第一向导RNA的核酸,和(c)表达载体,其中,所述第一向导RNA和Cas蛋白质形成复合物并且靶向HSD17B13基因内的第一向导RNA靶向序列,其中,所述第一向导RNA靶向序列包含HSD17B13基因的起始密码子或位于起始密码子的约10个核苷酸内、20个核苷酸内、30个核苷酸内、40个核苷酸内、50个核苷酸内、100个核苷酸内、200个核苷酸内、300个核苷酸内、400个核苷酸内、500个核苷酸内或1000个核苷酸内,或者选自:SEQ ID NO:20-81,或选自SEQ ID NO:20-81和259-263,所述表达载体包含重组HSD17B13基因,所述重组HSD17B13基因包含插入于在重组HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶,其中,Cas蛋白质裂解或改变所述受治者的肝细胞内的HSD17B13基因的表达,并且,所述表达载体表达所述受治者体内的肝细胞内的重组HSD17B13基因。
任选地,所述第一向导RNA靶向序列选自:SEQ ID NO:20-41,选自:SEQ ID NO:21-23,33和35,或选自:SEQ ID NO:33和35。任选地,所述Cas蛋白质是核酸酶活性Cas蛋白质。任选地,所述Cas蛋白质是融合至转录抑制结构域的核酸酶惰性Cas蛋白质。
这些方法可还包括向所述受治者体内引入第二向导RNA,其中,所述第二向导RNA与所述Cas蛋白质形成复合物并且靶向HSD17B13基因中的第二向导RNA靶向序列,其中,所述第二向导RNA靶向序列包括HSD17B13基因的终止密码子或位于终止密码子的约10个核苷酸内、20个核苷酸内、30个核苷酸内、40个核苷酸内、50个核苷酸内、100个核苷酸内、200个核苷酸内、300个核苷酸内、400个核苷酸内、500个核苷酸内或1000个核苷酸内或选自:SEQID NO:82-225,其中,在第一向导RNA靶向序列和第二向导RNA靶向序列内,所述Cas蛋白质裂解肝细胞内的HSD17B13基因,其中,所述肝细胞被修饰为包含位于所述第一向导RNA靶向序列和所述第二向导RNA靶向序列之间的删除。
任选地,所述重组HSD17B13基因是HSD17B13微小基因,其中,相对于野生型HSD17B13基因,所述基因中的一个或多个非必需片段已被删除。任选地,所删除的片段包含一个或多个内含子序列。任选地,HSD17B13微小基因包含在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的内含子6的内含子。
在上述治疗或预防方法中的任一种中,所述Cas蛋白质可以是Cas9蛋白质。在上述治疗或预防方法中的任一种中,所述受治者可以是人类。在上述治疗或预防方法中的任一种中,所述慢性肝病可以是脂肪肝,非酒精性脂肪肝(NAFLD),酒精性脂肪肝,肝硬化,或肝细胞癌。类似地,在上述方法中的任一种中,所述治疗或预防方法可以用于酒精性肝病或非酒精性肝病的肝病。
一些这样的方法包括用于治疗非HSD17B13 rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括向所述受治者体内引入反义RNA,siRNA或shRNA,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)的外显子7内的序列杂交或与横跨SEQ ID NO:4(HSD17B13转录体A)的外显子6-外显子7的边界的序列杂交并且降低受治者肝细胞内的HSD17B13转录体A的表达。一些这样的方法包括治疗非HSD17B13rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括向所述受治者体内引入反义RNA,siRNA或shRNA,所述反义RNA,siRNA或shRNA与本文所述的HSD17B13转录体内的序列杂交。任选地,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)内的序列杂交。任选地,所述反义RNA,siRNA或shRNA可降低细胞内HSD17B13转录体A的表达。任选地,所述反义RNA,siRNA或shRNA与存在于SEQ ID NO:4(HSD17B13转录体A)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的序列杂交。任选地,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)的外显子7内的序列杂交或与横跨SEQ ID NO:4(HSD17B13转录体A)的外显子6-外显子7的边界的序列杂交。
任选地,这些方法还包括将表达载体引入受治者体内,其中,所述表达载体包含重组HSD17B13基因,所述重组HSD17B13基因包含插入于在所述重组HSD17B13基因与SEQ IDNO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶,其中,所述表达载体表达受治者体内肝细胞中的重组HSD17B13基因。
任选地,这些方法还包括将表达载体引入至受治者体内,其中,所述表达载体包含编码HSD17B13蛋白质的核酸,所述HSD17B13蛋白质与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性,其中,所述表达载体表达编码所述受治者体内的肝细胞中的编码HSD17B13蛋白质的核酸。任选地,所述编码HSD17B13蛋白质的核酸在与SEQ ID NO:7最佳比对时与SEQ ID NO:7(HSD17B13转录体D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
任选地,这些方法还包括将信使RNA引入受治者体内,其中,所述信使RNA编码HSD17B13蛋白质,所述HSD17B13蛋白质与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性,其中,mRNA表达受治者体内肝细胞中的HSD17B13蛋白质。任选地,从所述信使RNA逆转录的互补DNA在与SEQ IDNO:7最佳比对时与SEQ ID NO:7(HSD17B13转录体D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
任选地,这些方法还包括将HSD17B13蛋白质或其片段引入受治者体内。任选地,HSD17B13蛋白质或其片段与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
一些这样的方法包括用于治疗非HSD17B13 rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括向所述受治者体内引入表达载体,其中,所述表达载体包含重组HSD17B13基因,所述重组HSD17B13基因包含插入于在所述重组HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶,其中,所述表达载体表达所述受治者体内的肝细胞中的重组HSD17B13基因。
在上述方法中的任一种中,所述重组HSD17B13基因可以是人基因。在上述方法中的任一种中,所述重组HSD17B13基因可以是在与SEQ ID NO:2最佳比对时与SEQ ID NO:2具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。在上述方法中的任一种中,所述重组HSD17B13基因可以是HSD17B13微小基因,其中,相对于野生型HSD17B13基因,所述基因中的一个或多个非必需片段已被删除。任选地,所删除的片段包含一个或多个内含子序列。任选地,HSD17B13微小基因包含在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的内含子6的内含子。
一些这样的方法包括用于治疗非HSD17B13 rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括将表达载体引入所述受治者体内,其中,所述表达载体包含编码HSD17B13蛋白质的核酸,所述HSD17B13蛋白质与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性,其中,所述表达载体表达编码所述受治者体内肝细胞中的HSD17B13蛋白质的核酸。任选地,所述编码HSD17B13蛋白质的核酸在与SEQ ID NO:7最佳比对时与SEQ IDNO:7(HSD17B13转录体D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
一些这样的方法包括用于治疗非HSD17B13 rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括将信使RNA引入所述受治者体内,其中,所述信使RNA编码与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的HSD17B13蛋白质,其中,所述mRNA表达所述受治者体内肝细胞中的HSD17B13蛋白质。任选地,从所述信使RNA逆转录的互补DNA在与SEQID NO:7最佳比对时与SEQ ID NO:7(HSD17B13转录体D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
一些这样的方法包括用于治疗非HSD17B13 rs72613567变体的携带者的并且患有或易患上慢性肝病的受治者的方法,所述方法包括将HSD17B13蛋白质或其片段引入受治者的肝脏。任选地,所述HSD17B13蛋白质或其片段与SEQ ID NO:15(HSD17B13亚型D)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
在上述方法中的任一种中,所述受治者是人类。在上述方法中的任一种中,所述慢性肝病可以是非酒精性脂肪肝(NAFLD),酒精性脂肪肝,肝硬化或肝细胞癌。类似地,在上述方法中的任一种中,所述治疗或预防方法可以是用于酒精性肝病或非酒精性肝病的肝病。在上述方法中的任一种中,所述引入受治者体内可包括水力递送,病毒介导的递送,脂质纳米颗粒介导的递送,或静脉内输注。
附图说明
图1A和图1B显示了与GHS发现群组中的中位丙氨酸转氨酶(ALT,图1A)和天冬氨酸转氨酶(AST,图1B)水平相关联的单个核苷酸变体的曼哈顿图(左图)和分位-分位图(右图)。图1A显示了与ALT水平显著关联的16个基因中的31个变体(N=41,414,P<1.0x10-7)。图1B显示了与AST水平显著关联的10个基因中的12个变体(N=40,753,P<1.0x10-7)。所有显著关联在表2中显示。在三个独立的欧洲血统群组的重复meta分析中,包括HSD17B13在内的九个基因(本文以其名称显示)中的13个变体依然与ALT或AST显著关联(表3)。关联测试已被完全校正,如由全外显子组分位-分位图和基因组对照lambda值所示(图1A和图1B)。
图2A和图2B显示了HSD17B13 rs72613567:TA与发现群组中的酒精性肝病和非酒精性肝病表型的风险降低相关联(图2A)并且与肥胖症治疗手术群组中的单纯脂肪变性进展至脂肪性肝炎和纤维化的风险降低相关联(图2B)。使用逻辑回归计算发病率并根据年龄,年龄2,性别,BMI和血统的主成分进行调节。还显示了杂合体(Het OR)携带者和纯合体(Hom OR)携带者的基因分型发病率。在图2A的GHS发现群组中,变体HSD17B13以等位基因剂量依赖的方式与非酒精性肝病和酒精性肝病,肝硬化和肝细胞癌的风险显著降低相关联。在图2B的GHS肥胖症治疗手术群组中,HSD17B13 rs72613567与杂合体和纯合体TA携带者中非酒精性脂肪性肝炎(NASH)的13%和52%的低发病率以及纤维化的13%和61%的低发病率相关联。
图3A至图3D显示了HSD17B13 rs72613567剪接变体的纯合参比(T/T),杂合体(T/TA)以及纯合可变(TA/TA)携带者体内的四种HSD17B13转录体(A-D)的表达。采用相应的基因模型来举例说明每种转录体。基因模型中的编码区域以条纹盒形式显示,非翻译区域以黑色盒显示。图3A显示了转录体A的代表和转录体A的表达数据。图3B显示了转录体B的代表和转录体B的表达数据。在转录体B中,缺少外显子2。图3C显示了转录体C的代表和转录体C的表达数据。在转录体C中,缺少外显子6。图3D显示了转录体D的代表和转录体D的表达数据。转录体D中的星号表示在外显子6的3’端插入来自rs72613567的G,这导致蛋白质提前截短。转录体D是HSD17B13剪接变体的纯合体携带者体内的主要转录体。以FPKM(片段/千碱基转录体/百万绘制的读长)单位显示基因表达。图3B和图3C中的内插图是放大图。
图4显示人肝脏RNA-Seq研究揭示了包括六种新的HSD17B13转录体(转录体C-H)在内的八种HSD17B13转录体。转录体的表达以FPKM(片段/千碱基转录体/百万绘制的读长)单位显示。转录体的结构在图右侧提供。
图5A和图5B显示了GHS发现群组中ALT和AST的HSD17B13的基因座放大绘图(在围绕HSD17B13的区域中的区域关联绘图)。在整个区域中没有观察到显著重组。菱形代表剪接变体rs72613567。每个圆形代表单个核苷酸变体,其中,圆形的颜色表示变体和rs72613567之间的连锁不平衡(DiscovEHR群组中计算的r2)。线条表示HapMap中估算的重组率。下部小图显示了基因座中的每个基因的相对位置和被转录的链。ALT或AST与邻近基因HSD17B11中的编码区域变体或剪接区域变体没有显著关联(ALT和AST的最大显著性P值分别为1.4x10-1和4.3x10-2)。
图6A至图6D显示了HSD17B13剪接变体的纯合参比(T/T),杂合体(T/TA)和纯合可变(TA/TA)携带者中的四种额外的新的HSD17B13转录体的mRNA表达。每种转录体采用对应的基因模型举例说明。基因模型中的编码区域以条纹盒表示,非翻译区域以黑色盒表示。图6A和图6D显示了转录体E和H包含位于外显子3和外显子4之间的额外的外显子。图6B显示了转录体F涉及从外显子6至内含子6的通读(read through)。图6C显示了转录体G缺少外显子2。转录体G和H中的星号(分别见图6C和图6D)代表在外显子6的3’端插入来自rs72613567的G,这导致蛋白质提前截短。如盒形图所示,转录体根据HSD17B13的基因分型进行不同地表达。mRNA表达以FPKM(片段/千碱基转录体/百万绘制的读长)单位来显示。
图7A至图7B显示了HSD17B13蛋白质亚型A-H的蛋白质序列比对。
图8显示了HSD17B13 rs72613567:TA与酒精性肝病和非酒精性的表型的风险降低相关联。具体而言,图8显示了达拉斯肝脏研究中,HSD17B13rs72613567以等位基因剂量依赖的方式与任何肝病的低发病率相关联。类似的等位基因剂量依赖作用在整个肝病亚型中均观察到。发病率采用逻辑回归来计算并根据年龄、年龄2,性别,BMI和自己报告的种族进行调节。
图9显示了HSD17B13 rs72613567与单纯脂肪变性进展至脂肪性肝炎和纤维化的风险降低相关联。具体而言,图9显示了根据带有来自GHS肥胖症治疗手术群组的肝脏活检样本的2,391位个体中的HSD17B13 rs72613567基因分型的组织病理学表征的肝病的发病率。正常肝脏的患病率没有显示出因基因分型而不同(P=0.5,比例趋势的方差分析测试),但是带有每种TA等位基因的NASH的患病率降低(P=1.6x10-4)并且带有每种TA等位基因的单纯脂肪变性的患病率提高(P=1.1x10-3)。
图10A至图10E显示了新的HSD17B13转录体的表达,亚细胞定位和酶活性。图10A显示了过表达HSD17B13转录体A和D的HepG2细胞的western印迹分析并且显示了HSD17B13转录体D相比于HSD17B13转录体A被翻译为具有较低分子量的截短的蛋白质。图10B显示了新鲜冷冻的人肝脏和HEK293细胞样本的HSD17B13western印迹分析。人肝脏样本来自于HSD17B13 rs72613567剪接变体的纯合参比(T/T),杂合体(T/TA)和纯合可变携带者(TA/TA)。细胞样本来自于过表达未标记的HSD17B13转录体A和D的HEK293细胞。HSD17B13转录体D被翻译为分子量低于HSD17B13 IsoA的截短的蛋白质Iso D。图10C显示了来自人肝脏(左图)和细胞(右图)样本的HSD17B13 IsoD蛋白质水平低于IsoA蛋白质水平。在柱状图中显示了标准化至肌动蛋白的蛋白质水平,**P<0.001,*P<0.05。图10D显示了HSD17B13亚型A和D对17β雌二醇(雌二醇),白三烯B4(LTB4)和13-羟基十八二烯酸(13(S)-HODE)的催化活性。HSD17B13亚型D显示出酶活性小于亚型A的对应值的10%。图10E显示了当在培养基中进行测量时,HSD17B13亚型D在HEK293细胞中过表达时没有显示出将雌二醇(底物)更多地转化为雌酮(产物),而过表达的HSD17B13亚型A显示出有效转化。
图11A至图11C显示出HSD17B13亚型D蛋白质具有较低的分子量并且在HEK293细胞中过表达时不稳定。图11A显示了来自过表达HSD17B13转录体A(IsoA)和转录体D(IsoD)的HEK293细胞的HSD17B13的RT-PCR,其表明HSD17B13 IsoD RNA水平高于IsoA RNA水平。图11B显示了相同细胞系的western印迹分析,其表明HSD17B13转录体D相比于HSD17B13转录体A被翻译为具有较低分子量的截短的蛋白质。图11C显示了HSD17B13 IsoD蛋白质水平低于IsoA蛋白质水平,虽然HSD17B13 IsoD RNA水平较高。HSD17B13蛋白质水平被标准化为肌动蛋白,*P<0.05。
图12显示了HSD17B13亚型A和亚型D在衍生自HepG2稳定细胞系的分离的脂质液滴(LD)上的类似的定位模式。ADRP和TIP47被用作脂质液滴标志物。LAMP1,钙网蛋白和COX IV被分别用作溶酶体、内质网和线粒体腔室的标志物。GAPDH作为细胞溶质标志物被包括在内,并且肌动蛋白用作细胞骨架标志物。该实验在HepG2细胞中重复两次,两次测试均具有代表性。PNS=核后碎片;TM=总膜。
图13A至图13D显示了油酸使甘油三酯含量在过表达HSD17B13转录体A或转录体D的HepG2细胞中提高。图13A显示了在对照(过表达GFP的细胞)和HSD17B13转录体A和转录体D细胞系中采用递增浓度的油酸进行处理使甘油三酯(TG)含量增加至类似程度。图13B显示了细胞系中HSD17B13转录体A和转录体D的RNA水平类似。RNA水平显示为读长/转录体千碱基/百万绘制的读长(RPKM)。图13C显示了过表达HSD17B13转录体A和转录体D的HepG2细胞的western印迹分析。HSD17B13转录体D相比于HSD17B13转录体A被翻译成具有较低分子量的截短的蛋白质。图13D显示了HSD17B13 IsoD蛋白质水平低于IsoA蛋白质水平。蛋白质水平被标准化为肌动蛋白,**P<0.01。
图14显示了使用纯化的重组HSD17B13蛋白质的雌二醇的Km和V最大值。对于Km和V最大值的测定而言,在17β-雌二醇的剂量范围为0.2μM至200μM条件下,在5分钟至180分钟的时间点,使用500μM NAD+和228nM HSD17B13进行分析测试。随后使用Michaelis-Menten模型和Prism软件(GraphPad软件,USA)确定V最大值和Km。
图15显示了在从杂交的野生型小鼠(75% C57BL/6NTac 25%129S6/SvEvTac)中分离的初级肝细胞中通过第二代测序技术(NGS)确定的小鼠Hsd17b13基因座处的基因组编辑百分比(在溶解的细胞池中的PCR反应中总的序列读长数上位于Cas9-诱导的DNA断裂的任一侧的20个碱基对窗口中的插入或删除的总数)。所测试的样本包括采用核糖核蛋白复合物处理的肝细胞,所述核糖核蛋白复合物包含Cas9和设计为靶向小鼠Hsd17b13基因座的向导RNA。
图16显示了在从注射AAV8三周后的小鼠肝脏中分离的样本中通过第二代测序技术(NGS)确定的位于小鼠Hsd17b13基因座处的基因组编辑百分数(在溶解的细胞池中的PCR反应中总的序列读长数上位于Cas9-诱导的DNA断裂的任一侧的20个碱基对窗口中的插入或删除的总数),其中,AAV8包含设计为靶向Cas9-ready小鼠中的小鼠Hsd17b13的sgRNA表达盒。包含所有sgRNA表达盒的AAV8注射至不表达任何Cas9的野生型小鼠,该野生型小鼠用作阴性对照。
图17A和图17B显示了在来自Cas9-ready小鼠的肝样本中通过RT-qPCR分别确定的小鼠Hsd17b13和非靶向HSD家族成员的相对mRNA表达,其中,所述Cas9-ready小鼠由带有向导RNA表达盒的AAV8进行治疗,所述向导RNA表达盒被设计为靶向小鼠Hsd17b13。不表达任何Cas9的野生型小鼠注射有AAV8,其中,AAV8携带有用于所有向导RNA的向导RNA表达盒,所述野生型小鼠作为阴性对照。
具体实施方式
释义
本文中可互换使用的术语“蛋白质”、“多肽”和“肽”包括任何长度的氨基酸的聚合形式,包括编码的和非编码的氨基酸以及化学或生物化学修饰或衍生得到的氨基酸。上述术语还包括已经被修饰的聚合物,例如,具有修饰的肽骨架的多肽。
蛋白质被描述为具有“N-末端”和“C-末端”。术语“N-末端”涉及蛋白质或多肽的起始点,其以具有游离胺基(-NH2)的氨基酸为终点。术语“C-末端”涉及氨基酸链(蛋白质或多肽)的终点,其以游离羧基(-COOH)为终点。
本文中可互换使用的术语“核酸”和“多核苷酸”包括任何长度的核苷酸的聚合形式,包括核糖核苷酸,脱氧核糖核苷酸或其类似物或修饰的形式。它们包括单链DNA或RNA,双链DNA或RNA和多链DNA或RNA,基因组DNA,cDNA,DNA-RNA杂合体以及包含嘌呤碱基,嘧啶碱基或其他天然的、化学修饰的、生物化学修饰的、非天然的或衍生得到的核苷酸碱基的聚合物。
核酸被描述为具有“5’端”和“3’端”,因为单核苷酸以使一个单核苷酸戊糖环的5’磷酸酯在一个方向上通过磷酸二酯键连接至相邻的单核苷酸戊糖环的3’氧的方式发生反应形成寡核苷酸。若寡核苷酸的5’磷酸酯没有与单核苷酸戊糖环的3’氧连接,那么寡核苷酸的这一端被称为5’端。如果寡核苷酸的3’氧没有与另一单核苷酸戊糖环的5’磷酸酯连接,那么寡核苷酸的这一端被称为3’端。即便核酸序列内部形成较大的寡核苷酸,那么核酸也可被描述为具有5’端和3’端。在线性或环形DNA分子中,离散元件被称为位于5’端上游或3’端下游。
术语“野生型”包括具有在正常(与突变、患病、发生改变等相反的)状态或情况中发现的结构和/或活性的实体。野生型基因和多肽通常以多种不同的形式(例如,等位基因)存在。
与蛋白质和核酸相关的术语“分离的”包括相对于通常可能原位存在的其他细菌、病毒或细胞成分而相对地进行纯化的蛋白质和核酸,相当于并且包括蛋白质和多核苷酸的基本纯的制剂。术语“分离的”还包括不具有天然生成的相应成分、已化学合成的并因此基本未被其他蛋白质或核酸污染的,或已从大部分其他天然伴生的细胞成分(例如,其他细胞蛋白质、多核苷酸或细胞成分)中分离或纯化的蛋白质和核酸。
“外源”分子或序列包括通常不存在于细胞中的外源形式的分子或序列。通常存在包括相对于细胞的特定发育阶段和环境条件的存在。例如,外源分子或序列可包括对应于细胞内的内源序列的突变形式或可包括对应于细胞内的内源序列的不同形式的(即,不存在于染色体内)序列。相反,内源分子或序列包括通常以内源形式存在于特定细胞中的处于特定环境条件下的特定发育阶段的分子或序列。
本文中在涉及核酸或蛋白质时使用的术语“异源”表明核酸或蛋白质包括至少两个不会天然地一同产生的部分。类似地,本文中在涉及可操作地连接至编码蛋白质的核酸的启动子时使用的术语“异源”表明所述启动子和编码所述蛋白质的核酸不会天然地一同产生(即,不会天然地可操作地连接)。例如,在涉及核酸的一部分或蛋白质的一部分时使用的术语“异源”表明所述核酸或蛋白质包括两个或多个子序列,所述子序列本质上不会在彼此相同的关系(例如,连接在一起)中找到。作为一个实例,核酸载体的“异源”区域是另一核酸分子内的或与另一核酸分子连接的核酸的片段,所述另一核酸分子本质上没有被发现与其他分子相关联。例如,核酸载体的异源区域可包括位于如下序列侧面的编码序列,所述序列本质上没有被发现与所述编码序列相关联。类似地,蛋白质的“异源”区域是另一肽分子内的或与另一肽分子连接的氨基酸的片段,所述另一肽分子本质上没有被发现与其他肽分子(例如,融合蛋白质或带有标签的蛋白质)相关联。类似地,核酸或蛋白质可包括异源标签或异源分泌或定位序列。
术语“标签”是指当连接于目标化合物时可直接或间接检测(例如,由于其光谱性质,构象或活性而可直接或间接检测)的化学基团或蛋白质。所述标签可直接检测(荧光)或间接检测(半抗原,酶或荧光淬灭剂)。这些标签可通过光谱学方法、光化学方法、生物化学方法、免疫化学方法或化学方法检测。这些标签包括例如,可由辐射计量设备测量的放射性标记;可由视觉观察或分光光度计测量的色素,染料或其他色素原;可由电子自旋标签分析仪测量的电子自旋标签;以及荧光标签(荧光团),在所述荧光标签中,输出信号由合适的分子加合物的激发产生,并且,所述荧光标签可通过光激发而可见,所述光可被染料吸收或可由标准荧光仪或成像系统测量。所述标签还可以是例如,化学发光物质,其中,输出信号由信号化合物的化学修饰产生;或者是含有金属的物质;或者是酶,其中发生依赖酶的信号的二次产生,例如,由无色底物形成有色产物。术语“标签”还可涉及“标记”或半抗原,所述“标记”或半抗原可选择性地结合至偶联的分子,这样当后续添加底物时所述偶联的分子用于产生可检测的信号。例如,一种标签可使用生物素作为标记并随后使用辣根过氧化物酶(HRP)的亲和素或链霉亲和素偶联物结合至标记,接着使用量热底物(例如,四甲基联苯胺(TMB))或荧光底物检测HRP的存在。术语“标签”还可涉及可用于例如促进纯化的标记。这种标记的非限定性实例包括myc,HA,FLAG或3XFLAG,6XHis或聚组氨酸,谷胱甘肽-S-转移酶(GST),麦芽糖结合蛋白,表位标记或免疫球蛋白的Fc部分。本领域已知多种标签,其包括例如,颗粒,荧光团,半抗原,酶及其量热底物、荧光底物和化学发光底物以及其他标签。
“密码子优化”利用密码子的简并性,如指定氨基酸的三碱基对密码子组合的多样性所展现的那样,并且,所述密码子优化总体上包括通过由宿主细胞基因中更加频繁使用的或最频繁使用的密码子取代天然序列中的至少一个密码子被并同时保留天然氨基酸序列来修饰核酸序列以提高其在特定宿主细胞中的表达的过程。例如,编码Cas9蛋白质的多核苷酸可被修饰为与天然生成的核酸序列相比取代了给定的原核细胞或真核细胞中具有较高使用频率的密码子,所述原核细胞或真核细胞包括细菌细胞、酵母细胞、人细胞、非人细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞或任何其他宿主细胞。密码子使用表格易于获取自例如,在“密码子使用数据库(Codon Usage Database)”。这些表格可以多种方式进行调节。参见,Nakamura等人,(2000)Nucleic Acids Research 28:292,该参考文献的全部内容通过引用并入本文。用于在特定宿主中进行表达的特定序列的密码子的优化的计算机算法也是可获得的(参见例如,Gene Forge)。
术语“基因座”是指基因(或有效序列)、DNA序列、编码多肽的序列的特定位置或生物体的基因组的染色体上的位置。例如,“HSD17B13基因座”可指HSD17B13基因、HSD17B13DNA序列、编码HSD17B13的序列的特定位置或已识别出其上留存有这样的序列的生物体的基因组的染色体上的HSD17B13位置。“HSD17B13基因座”可包括HSD17B13基因的调节性元件,包括例如,增强子、启动子、5’和/或3’UTR,或其组合。
术语“基因”是指编码产物(例如,RNA产物和/或多肽产物)的染色体中的DNA序列,并且所述染色体包括插入有一个或多个非编码内含子的编码区域和在5’端和3’端接近所述编码区域的序列,这样,所述基因对应于全长mRNA(包括5’和3’非翻译序列)。术语“基因”还包括其他非编码序列,所述其他非编码序列包括调节性序列(例如,启动子、增强子和转录因子结合位点),聚腺苷酸化信号,内部核糖体进入位点,沉默子,绝缘序列以及核基质附着区域。这些序列可能靠近基因的编码区域(例如,位于10kb内)或位于较远的位点,并且它们影响基因的转录水平或转录速度以及翻译水平或翻译速度。术语“基因”还包括“微小基因”。
术语“微小基因”是指相对于对应的天然生成的种系基因已删除了基因的一个或多个非必需片段但保留其中的至少一个内含子的基因。所删除的片段可以是内含子序列。例如,所删除的片段可以是至少约500个碱基对至数千碱基的内含子序列。典型地,不包含必需调节性元件的内含子序列可以被删除。包含微小基因的基因片段通常以与存在于种系基因相同的线性顺序排布,但是实例不总是这样。一些理想的调节性元件(例如,增强子,沉默子)可以是相对位置不敏感的,这样,即便所调节性元件在微小基因中的位置与对应的种系基因中的位置不同,所述调节性元件可准确地发挥作用。例如,增强子可能位于距离启动子不同距离的位置、不同方向的位置和/或不同线性顺序的位置。例如,在种系结构中位于3’至启动子位置的增强子可能在微小基因中位于5’至启动子的位置。类似地,一些基因可具有在RNA水平上进行可选地剪接的外显子。因此,微小基因可能具有更少的外显子和/或可具有在与对应的种系基因不同的线性顺序上的外显子并且仍然编码功能基因产物。编码基因产物的cDNA也可用于构建微小基因(例如,杂交cDNA-基因组融合)。
术语“等位基因”是指基因的变体形式。一些基因具有多种不同的形式,其位于染色体上的相同的位置或相同基因座上。双倍体生物体在每个基因座上具有两个等位基因。每对等位基因代表特定基因座的基因分型。如果在特定基因座处具有两个相同的等位基因,那么基因分型被描述为纯合的,如果两个等位基因是不同的,那么基因分型被描述为杂合的。
术语“变体”或“遗传变异”是指不同于种群中最普遍的序列的核苷酸序列(例如,一个核苷酸差异)。例如,核苷酸序列中的一些改变或取代改变了密码子,这样,编码不同的氨基酸而得到遗传变异多肽。术语“变体”还可指在如下位置在序列上不同于种群中最普遍的序列的基因,所述位置不改变所编码的多肽的氨基酸序列(即,保守性改变)。遗传变异可与风险相关、与保护相关,或者可以是中性的。
“启动子”是DNA的调节性区域,其通常包括能够指向RNA聚合酶II以在特定的多核苷酸序列的合适的转录起始位点启动RNA合成的TATA盒。启动子还可包括影响转录启动速度的其他区域。本文公开的启动子序列调节可操作地连接的多核苷酸的转录。启动子在本文公开的一种或多种细胞类型(例如,真核细胞、非人类哺乳动物细胞、人类细胞、啮齿动物细胞、多能细胞、分化的细胞或其组合)中可以是活性的。例如,启动子可以是组成性活性启动子、条件性启动子、可诱导的启动子、暂时限制的启动子(例如,发育调节的启动子)或空间限制的启动子(例如,细胞特异性或组织特异性启动子)。启动子的实例可在例如WO2013/176772中找到,该参考文献的全部内容通过引入并入本文。
可诱导的启动子的实例包括例如:化学调节启动子和物理调节启动子。化学调节启动子包括例如:乙醇调节的启动子(例如,乙醇脱氢酶(alcA)基因启动子),四环素调节的启动子(例如,四环素响应的启动子,四环素操作子序列(tetO),tet-On启动子或tet-Off启动子),类固醇调节的启动子(例如,大鼠糖皮质激素受体,雌激素受体的启动子,或蜕皮素受体的启动子),或金属调节的启动子(例如,金属蛋白启动子)。物理调节的启动子包括例如:温度调节的启动子(例如,热休克启动子)和光调节的启动子(例如,光诱导的启动子或光抑制的启动子)。
组织特异性启动子可以是例如:神经元特异性启动子,神经胶质特异性启动子,肌肉细胞特异性启动子,心脏细胞特异性启动子,肾细胞特异性启动子,骨细胞特异性启动子,内皮细胞特异性启动子或免疫细胞特异性启动子(例如,B细胞启动子或T细胞启动子)。
发育调节的启动子包括例如:仅在发育的胚胎阶段具有活性的启动子或仅在成人细胞中具有活性的启动子。
“可操作地连接”或“被可操作地连接的”包括两个或多个成分(例如,启动子和另一序列元件)并列在一起,使这两个成分正常发挥作用并使得所述成分中的至少一个能够介导在其他成分中的至少一个之后发挥功能。例如,如果启动子响应一个或多个转录调节因子的存在或不存在控制编码序列的转录水平,那么所述启动子可以可操作地连接至所述编码序列。可操作的连接可包括彼此邻近的序列或反向作用的序列(例如,调节序列可远距离发挥作用以控制所述编码序列的转录)。
术语“引物”是指在催化与多核苷酸互补的引物延伸产物合成的条件下能够作为多核苷酸沿着互补链合成的起始点发挥作用的寡核苷酸。所述条件包括在合适的缓冲条件(包括作为共因子的替代物或影响pH、离子强度等的替代物)和合适的温度条件下存在四个不同的核苷酸三磷酸酯或核苷类似物以及一个或多个聚合试剂(例如,DNA聚合酶和/或逆转录酶)。以序列特异性方式延伸引物可包括例如:PCR方法,DNA测序,DNA延伸,DNA聚合,RNA转录或逆转录。引物必须足够长以在聚合酶试剂存在的条件下启动延伸产物的合成。典型的引物为序列长度与目标序列基本互补的至少约5个核苷酸,但是更长的引物是优选的。典型地,引物的长度为约15个至30个核苷酸,但是还可使用更长的引物。引物序列无需与模板或目标序列完全互补,但是必须足以与模板或目标序列杂交而互补。术语“引物对”是指包括与待扩增的DNA序列的5’端杂交的5’上游引物和与待扩增的序列的3’端的互补体杂交的3’下游引物的一组引物。引物对可用于扩增目标多核苷酸(例如,通过聚合酶链反应(PCR)或其他常规核酸扩增方法)。“PCR”或“聚合酶链反应”是用于扩增特定DNA片段的技术(参见美国转录US4,683,195和US4,800,159,这两篇美国专利中的每一篇的全部内容通过引用并入本文)。
术语“探针”是指可检测地区分结构上不同的目标分子的分子。检测可根据所使用的探针的类型和目标分子的类型以各种不同的方式完成。因此,例如,检测可基于目标分子的活性水平的差异,但优选地,检测可基于对特异性结合的检测。这样的特异性结合的实例包括抗体结合和核酸探针杂交。因此,探针可包括例如:酶底物,抗体和抗体片段,以及核酸杂交探针。例如,探针可以是分离的连接至常规可检测标签或报告体分子的多核苷酸,例如,放射性同位素,配体,化学发光试剂,酶等等。这样的探针与目标多核苷酸链互补,例如,包含HSD17B13 rs72613567变体或特定的HSD17B13 mRNA转录体的多核苷酸。脱氧核糖核酸探针可包括通过使用HSD17B13-mRNA/cDNA-特异性引物或HSD17B13-rs72613567特异性引物产生的那些探针,体外合成的寡核苷酸探针,或从细菌人工染色体、福斯质粒或粘粒文库获得的DNA。探针不仅仅包括脱氧核糖核酸或核糖核酸,而且还包括可特异性检测目标DNA序列的存在的聚酰胺和其他探针材料。对于核酸探针而言,检测试剂可包括例如:放射性标记的探针,酶标记的探针(例如,辣根过氧化物酶和碱性磷酸酶),亲和性标记的探针(例如,生物素,亲和素和链霉亲和素)以及荧光标记的探针(例如,6-FAM,VIC,TAMRA,MGB,荧光素,罗丹明和德克萨斯红)。本文描述的核酸探针可易于合并至本领域熟知的已有试剂盒形式中的一种。
术语“反义RNA”是指与在细胞中进行转录的信使RNA链互补的单链RNA。
术语“小干扰RNA(siRNA)”是指诱导RNA干扰(RNAi)通路的典型的双链RNA分子。这些分子的长度可发生改变(通常为18个碱基对至30个碱基对)并且这些分子包含对反义链中的目标mRNA不同程度的互补性。一些但不是全部siRNA在正义链和/或反义链的5’端或3’端上具有未配对的悬挂碱基。术语“siRNA”包括两个分离的链的二聚体以及可形成包括二聚区域的发夹结构的单链。双链结构的长度可以是例如:少于20个核苷酸,少于25个核苷酸,少于30个核苷酸,少于35个核苷酸,少于40个核苷酸,少于45个核苷酸或少于50个核苷酸。例如,双链结构的长度可以为约21个核苷酸至23个核苷酸,约19个核苷酸至25个核苷酸或约19个核苷酸至23个核苷酸。
术语“短发夹RNA(shRNA)”是指在发夹结构中自杂交的且在加工之后可诱导RNA干扰(RNAi)通路的单链RNA碱基。这些分子的长度可发生改变(通常长度为约50个核苷酸至90个核苷酸,或在一些情况下,例如,对于微小RNA调节的shRNA而言,长度可高达大于250个核苷酸)。shRNA分子在细胞内进行加工以形成siRNA,其进而可敲除基因表达。shRNA可合并至载体中。术语“shRNA”也是指DNA分子,由该DNA分子可转录得到短发夹RNA分子。
核酸的“互补”是指一个核酸链中的核苷酸序列由于其核碱基组的方向而在相对的核酸链上形成与另一序列的氢键合。DNA中的互补碱基通常为A与T以及C与G。在RNA中,互补的碱基通常为C与G和U与A。互补可以是完全的或大量的/充分的。两个核酸之间的完全互补是指两个核酸可形成如下二聚体,在所述二聚体中,每个碱基通过Watson-Crick碱基配对结合至互补碱基。“大量的”或“足够的”互补是指一个链中的序列不全部和/或不完全与相对链中的序列互补,但是两个链上的碱基之间产生足够互补以在一套杂交条件(例如,盐浓度和温度)下形成稳定的杂交复合物。这样的条件可使用序列和标准数学计算来预测以预测杂交的链的Tm(熔融温度),或使用常规方法通过经验确定Tm。Tm包括两个核酸链之间形成的杂交复合物群发生50%变性(即,双链核酸分子群一半解离为单链)时的温度。在低于Tm的温度条件下,有利于形成杂交复合物,而在高于Tm的温度条件下,有利于杂交复合物中的链的融合或分离。可使用例如Tm=81.5+0.41(%G+C)估算1M NaCl水溶液中具有已知G+C含量的核酸的Tm,虽然其他已知的Tm计算方法考虑核酸结构特征。
“杂交条件”包括通过互补链相互作用和氢键合将一个核酸链连接至另一核酸链以形成杂交复合物的累积环境。这些条件包括含有核酸的水溶液或有机溶液的化学成分及其浓度(例如,盐、螯合剂、甲酰胺)以及混合物的温度。诸如孵育时间的长度或反应腔室的尺寸之类的其他因素可有助于所述环境。参见,例如,Sambrook等人,Molecular Cloning,ALaboratory Manual,2.sup.nd ed.,pp.1.90-1.91,9.47-9.51,1 1.47-11.57(ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,1989),该参考文献的全部内容通过引用并入本文。
虽然在碱基之间可能会发生错配,但是,杂交要求两个核酸包含互补的序列。适于在两个核酸之间发生杂交的条件取决于核酸的长度和互补的程度,本领域熟知其是可变的。两个核苷酸序列之间的互补程度越大,具有那些序列的核酸的杂交体的熔融温度(Tm)的数值越大。对于具有较短的互补片段(例如,35个核苷酸或更少的核苷酸互补,30个核苷酸或更少的核苷酸互补,25个核苷酸或更少的核苷酸互补,22个核苷酸或更少的核苷酸互补,20个核苷酸或更少的核苷酸互补,或18个核苷酸或更少的核苷酸互补)的核酸之间的杂交而言,错配位置变得非常重要(参见上述Sambrook等人,11.7-11.8)。通常,可杂交的核酸的长度为至少约10个核苷酸。可杂交的核酸的示例性的最小长度包括至少约15个核苷酸,至少约20个核苷酸,至少约22个核苷酸,至少约25个核苷酸,以及至少约30个核苷酸。而且,温度和洗涤溶液的盐浓度可根据诸如互补区域的长度和互补程度之类的因素进行必要地调节。
多核苷酸的序列不需要与其靶向的待进行特异性杂交的核酸的序列100%互补。而且,多核苷酸可在一个或多个片段上进行杂交,使得中间的片段或邻近片段不涉及杂交事件(例如,环结构或发夹结构)。多核苷酸(例如,gRNA)可包括与其所靶定的目标核酸序列内的目标区域具有至少70%序列互补性,至少80%序列互补性,至少90%序列互补性,至少95%序列互补性,至少99%序列互补性或100%序列互补性。例如,18个至20个核苷酸与目标区域互补并且因此进行特异性杂交的gRNA可存在90%的互补性。在该实例中,剩余的非互补性核苷酸可以是成簇的或穿插在互补核苷酸之间并且无需彼此相邻或与互补的核苷酸相邻。
核酸内核酸序列的特定片段的之间的互补百分比可使用BLAST(碱基局部比对检索工具,basic local alignment search tool)程序和PowerBLAST程序(Altschul等人,(1990)J.Mol.Biol.215:403-410;Zhang and Madden(1997)Genome Res.7:649-656)进行常规确定或通过使用Gap程序(Wisconsin Sequence Analysis Package,Version 8forUnix,Genetics Computer Group,University Research Park,Madison Wis.),使用默认设置进行常规确定,所述Gap程序使用Smith和Waterman算法(Adv.Appl.Math.,1981,2,482-489)。
本文提供的方法和组合物使用多种不同的成分。本文中描述的一些成分可具有活性变体和片段。这些成分包括例如,Cas9蛋白质,CRISPR RNA,tracrRNA和向导RNA。这些成分中的每一个的生物活性在本文中进行描述。
涉及两个多核苷酸或多肽序列的“序列一致性”或“一致性”涉及在特定比对窗口上进行最大一致性比对时两个序列中的相同残基。当针对蛋白质使用序列一致性的百分比时,不一致的残基位置通常由于保守氨基酸的取代而不同,其中,氨基酸残基被具有类似化学性质(例如,电荷或疏水性)的其他氨基酸残基取代并且因此不会改变分子的功能特性。当序列的不同之处在于保守取代时,序列一致性百分比可向上调节以校正取代的保守性。这种保守取代不同的序列被称为具有“序列类似性”或“类似性”。用于进行这种调节的方法是本领域熟知的。通常,这涉及将保守取代记为部分错配而非完全错配,从而增加序列一致性百分比。因此,例如,在等同氨基酸计分为1并且非保守取代计分为0的条件下,保守取代的计分为0和1之间。例如,如在程序PC/GENE(Intelligenetics,Mountain View,California)中所实施的,计算保守取代的计分。
“序列一致性的百分比”包括通过在比较窗口上比较两个最佳比对的序列(完全匹配的残基的最大数目)所确定的数值,其中,对于两个序列的最佳比对而言,比较窗口中的多核苷酸序列的一部分可包括相比于参比序列(其不包括添加或删除)的添加或删除(即,空隙)。百分比如下进行计算:确定两个序列中出现等同的核酸碱基或氨基酸残基的位置数目以获得匹配的位置数目,匹配的位置数目除以比较窗口中的总位置数目并乘以100以得到序列一致性百分数。除非另有说明(例如,较短的序列包括连接的异源序列),比较窗口是全长的进行比较的两个较短的序列。
除非另有说明,序列一致性/类似性数值包括通过使用如下参数的GAP版本10而获得的数值,所述参数为:对于核苷酸序列的%一致性和%相似性使用50的GAP权重和3的长度权重以及nwsgapdna.cmp计分矩阵,对于氨基酸序列的%一致性和%相似性使用8的GAP权重和2的长度权重以及BLOSUM62计分矩阵,或其任何等同程序。“等同程序”包括任何序列比较程序,对于所考虑的任何两个序列而言,当与GAP版本10生成的相应比对比较时,所述序列比较程序产生具有等同的核苷酸或氨基酸残基匹配和序列一致性等同百分比的比对。
术语“保守氨基酸取代”是指使用类似尺寸、电荷或极性的不同氨基酸取代通常存在于序列中的氨基酸。保守取代的实例包括将非极性(疏水)残基(例如,异亮氨酸、缬氨酸或亮氨酸)取代为另一非极性残基。类似地,保守取代的实例包括将一个极性(亲水性)残基取代为另一极性残基,例如,精氨酸和赖氨酸之间的取代,谷氨酰胺和天冬酰胺之间的取代,或甘氨酸和丝氨酸之间的取代。此外,将碱性残基(例如,赖氨酸、精氨酸或组氨酸)取代为另一碱性残基或将一个酸性残基(例如,天冬氨酸或谷氨酰胺)取代为另一酸性残基是保守取代的其他实例。非保守取代的实例包括将非极性(疏水)氨基酸残基(例如,异亮氨酸、缬氨酸、亮氨酸、丙氨酸或甲硫氨酸)取代为极性(亲水)残基(例如,半胱氨酸、谷氨酰胺、谷氨酸或赖氨酸)和/或将极性残基取代为非极性残基。典型的氨基酸分类在下表中予以总结。
当诸如引物或向导RNA之类的核酸位于特定核苷酸位置的约1000个核苷酸内、500个核苷酸内、400个核苷酸内、300个核苷酸内、200个核苷酸内、100个核苷酸内、50个核苷酸内、45个核苷酸内、40个核苷酸内、35个核苷酸内、30个核苷酸内、25个核苷酸内、20个核苷酸内、15个核苷酸内、10个核苷酸内或5个核苷酸内时,所述诸如引物或向导RNA之类的核酸杂交或靶向或包括接近参比核酸中的特定核苷酸位置的位置。
术语“生物样本”是指受治者体内的或获自受治者的生物材料的样本,从所述受治者体内可回收核酸或蛋白质。术语“生物样本”还可包括通过加工诸如细胞或其子代之类的样本而衍生得到的任何材料。对生物样本的加工可涉及过滤、蒸馏、萃取、浓缩、固定、对干扰成分的灭活等中的一种或多种。在一些实施方式中,生物样本包括核酸,例如,遗传性DNA,cDNA或mRNA。在一些实施方式中,生物样本包括蛋白质。受治者可以是任何生物体,包括,例如,人类、非人类哺乳动物、啮齿动物、小鼠或大鼠。生物样本可由来自所述受治者的任何细胞、组织或生物流体衍生得到。所述样本可包括任何临床相关组织,例如,骨髓样本、肿瘤活检样本、细针抽出物或体液样本(例如,血液、血浆、血清、淋巴液、腹水、囊液或尿液)。在一些情况下,样本包括口腔擦拭物。在本文公开的方法中使用的样本可基于分析形式、检测方法的性质和用作样本的组织、细胞或提取物而发生改变。
术语“对照样本”是指获自不具有HSD17B13 rs72613567变体的受治者的样本,其优选为HSD17B13基因的野生型等位基因的纯合体。这样的样本可与生物样本同时获得或在不同的情况下获得。生物样本和对照样本均可获自相同的组织或体液。
“同源”序列(例如,核酸序列)包括与已知的参比序列等同的或基本类似的序列,例如,与已知的参比序列具有至少50%,至少55%,至少60%,至少65%,至少70%,至少75%,至少80%,至少85%,至少90%,至少95%,至少96%,至少97%,至少98%,至少99%,或100%的一致性。同源序列可包括例如:直系同源序列和旁系同源序列。例如,同源基因通常通过物种形成事件(直系同源基因)或基因复制事件(旁系同源基因)遗传自常见祖DNA序列。“直系同源”基因包括通过物种形成自常见祖基因进化得到的不同物种中的基因。直系同源通常在进化过程中保留了相同的功能。“旁系同源”基因包括基因组中通过复制得到的相关基因。旁系同源可在进化过程中进化得到新的功能。
术语“体外”包括人工环境以及在人工环境(例如,试管)中发生的加工或反应。术语“体内”包括天然环境(例如,细胞或生物体或人体,例如,生物体或人体内的细胞)以及在天然环境中发生的加工或反应。术语“离体”包括已从个体体内取出的细胞以及在该细胞中发生的加工或反应。
组合物或方法“包含”或“包括”一种或多种已记载的要素,可能还包括其他没有明确记载的要素。例如,“包含”或“包括”蛋白质的组合物可能只包含蛋白质或还包含其他成分。连接词“基本由…构成”是指权利要求的范围被解释为包含权利要求中所记载的特定要素以及本质上不影响要求保护的发明的基本特性和新特性的那些要素。因此,当在本发明的权利要求中使用术语“基本由…构成”时无意承认其等同于“包含”。
“任选的”或“任选地”是指其后描述的事件或情况可能发生或者可能不发生并且该描述包括所述事件或情况发生的实例和所述事件或所述情况不发生的实例。
数值范围的指定包括所述范围内的或所述范围所限定的所有整数以及该范围内由整数限定的所有子范围。
除非另有明确说明,术语“约”包括所述值的测量误差的标准偏差(例如,SEM)范围内的值。
术语“和/或”是指并且包括所列出的相关项目中的一个或多个中的任何一个可能的组合或所有可能的组合并且当使用可选术语“或”时包括缺少某些组合。
术语“或”是指具体列表中的任何一个成员并且还包括所列出的成员中的任何组合。
除非另有明确说明,单数形式的冠词“a”,“an”以及“the”包括复数指代物。例如,术语“单数形式的Cas9蛋白质”或“至少一个Cas9蛋白质”可包括多个Cas蛋白质,包括其混合物。
统计学上显著的是指p≤0.05。
I.概述
本文提供HSD17B13变体,其被发现与丙氨酸转氨酶和天冬氨酸转氨酶水平的降低有关,与包括非酒精性和酒精性脂肪肝在内的慢性肝病、肝硬化和肝细胞癌的风险的降低有关,并且与从单纯脂肪变性至慢性肝病的临床晚期阶段的进展减缓有关。本文还提供先前未识别的与所述变体相关的HSD17B13基因的转录体。
本文提供与HSD17B13的变体相关的分离的核酸和蛋白质以及包括那些核酸和蛋白质的细胞。本文还提供通过使用核酸试剂、外源供体序列、转录活化剂、转录抑制剂以及用于表达重组HSD17B13基因或编码HSD17B13蛋白质的核酸的表达载体的任何组合修饰细胞的方法。
II.HSD17B13变体
本文提供与HSD17B13(也称为羟类固醇17-β脱氢酶13,17-β-羟类固醇脱氢酶13,17β羟类固醇脱氢酶-13,17β-HSD13,短链脱氢酶/还原酶9,SCDR9,HMFN0376,NIIL497,和SDR16C3)的变体相关的分离的核酸和蛋白质。人HSD17B13基因的长度大约为19kb并且包括七个外显子和位于基因组中的4q22.1的六个内含子。示例性的人HSD17B13蛋白质序列被指定为UniProt登录号:Q7Z5P4(Q7Z5P4-1和Q7Z5P4-2分别为SEQ ID NOS:240和241;)以及NCBI参比序列号NP_835236和NP_001129702(分别为SEQ ID NOS:242和243)。示例性的人HSD17B13mRNA被指定为NCBI参比序列NM_178135和NM_001136230(分别为SEQ ID NOS:244和245)。
具体而言,本文提供HSD17B13(rs72613567)的剪接变体,其在邻近内含子6中的供体剪接位点处具有腺嘌呤插入。腺嘌呤是染色体的正义链(+)上的插入,其对应于在染色体的反义链(-)上插入的胸腺嘧啶。由于人HSD17B13基因在反义方向上被转录,因此,该核苷酸插入反映为相对于SEQ ID NO:1提供的示例性的野生型HSD17B13基因序列在SEQ ID NO:2提供的示例性HSD17B13 rs72613567变体中插入的胸腺嘧啶。因此,所述插入在本文中被称为插入于SEQ ID NO:1的位置12665和12666之间的胸腺嘧啶或插入于SEQ ID NO:2的位置12666的胸腺嘧啶。
先前已识别出两个mRNA转录体(A和B,分别为SEQ ID NO:4和5)在具有野生型HSD17B13基因的受治者体内表达。转录体A包括HSD17B13基因的全部七个外显子,而转录体B中缺少外显子2。转录体A是野生型受治者体内的显性转录体。然而,本文提供六个额外的先前未被识别的表达的HSD17B13转录体(C-H,SEQ ID NO:6-11)。这些转录体在图4中显示。在转录体C中,相对于转录体A缺少外显子6。在转录体D中,具有外显子6的鸟嘌呤3’的插入,这导致相对于转录体A外显子7发生位移并提前截短。在转录体E中,相对于转录体A在外显子3和外显子4之间具有额外的外显子。在转录体F中,该转录体仅仅在HSD17B13rs72613567变体携带者中表达,相对于转录体A具有从外显子6至内含子6的通读。在转录体G中,缺乏外显子2,并且具有外显子6的鸟嘌呤3’的插入,这导致相对于转录体A外显子7发生位移并提前截短。在转录体H中,在外显子3和外显子4之间具有额外的外显子并且具有外显子6的鸟嘌呤3’的插入,这导致相对于转录体A外显子7发生位移并提前截短。转录体C,D,F,G和H在HSD17B13 rs72613567变体携带者中是主要转录体,其中,在HSD17B13rs72613567变体的携带者中,转录体D是丰度最大的转录体。本文还提供一种额外的先前未被识别的以低水平表达的HSD17B13转录体(F’,SEQ ID NO:246)。与转录体F类似,转录体F’还包括相对于转录体A从外显子6至内含子6的通读,但是,与转录体F形成鲜明对照的是,该通读不包括HSD17B13 rs72613567变体基因中存在的插入的胸腺嘧啶。每个转录体的HSD17B13基因中的外显子的核苷酸位置在下表中提供。
受治者(野生型HSD17B13基因的纯合子)中更加普遍的HSD17B13转录体的外显子在SEQ ID NO:1中的核苷酸位置
转录体A | 转录体B | 转录体E | 转录体F’ | |
外显子1 | 1-275 | 1-275 | 1-275 | 1-275 |
外显子2 | 4471-4578 | 缺乏 | 4471-4578 | 4471-4578 |
外显子3 | 5684-5815 | 5684-5815 | 5684-5815 | 5684-5815 |
外显子3’ | 不存在 | 不存在 | 6210-6281 | 不存在 |
外显子4 | 7308-7414 | 7308-7414 | 7308-7414 | 7308-7414 |
外显子5 | 8947-9084 | 8947-9084 | 8947-9084 | 8947-9084 |
外显子6 | 12548-12664 | 12548-12664 | 12548-12664 | 12548-13501* |
外显子7 | 17599-19118 | 17599-19118 | 17599-19118 | 缺乏 |
*包括从外显子6至内含子6的通读;通读=位置12665-13501
受治者(rs72613567HSD17B13变体基因(在位置12666插入T)的纯合体)中更加普遍的HSD17B13转录体的外显子在SEQ ID NO:2中的核苷酸位置
转录体C | 转录体D | 转录体F | 转录体G | 转录体H | |
外显子1 | 1-275 | 1-275 | 1-275 | 1-275 | 1-275 |
外显子2 | 4471-4578 | 4471-4578 | 4471-4578 | 缺乏 | 4471-4578 |
外显子3 | 5684-5815 | 5684-5815 | 5684-5815 | 5684-5815 | 5684-5815 |
外显子3’ | 不存在 | 不存在 | 不存在 | 不存在 | 6210-6281 |
外显子4 | 7308-7414 | 7308-7414 | 7308-7414 | 7308-7414 | 7308-7414 |
外显子5 | 8947-9084 | 8947-9084 | 8947-9084 | 8947-9084 | 8947-9084 |
外显子6 | 缺乏 | 12548-12665^ | 12548-13502* | 12548-12665^ | 12548-12665^ |
外显子7 | 17600-19119 | 17600-19119 | 缺乏 | 17600-19119 | 17600-19119 |
^相对于转录体A包括位于3’端的额外的残基12665
*包括从外显子6至内含子6的通读,通读=位置12665-13502
如本文其他部分更加详细解释的,HSD17B13 rs72613567变体与丙氨酸转氨酶和天冬氨酸转氨酶水平的降低相关联并且与包括非酒精性和酒精性脂肪肝在内的慢性肝病、肝硬化和肝细胞癌的风险的降低相关联。HSD17B13rs72613567变体还与从单纯脂肪变性至慢性肝病的临床晚期阶段的进展减缓相关联。
A.核酸
本文公开了与HSD17B13变体相关的分离的核酸以及变体HSD17B13转录体。本文还公开了在严格条件下或中等严格条件下与本文所述的核酸中的任一种杂交的分离的核酸。这些核酸可用于,例如,表达HSD17B13变体蛋白质或可作为引物、探针、外源供体序列、向导RNA、反义RNA、shRNA和siRNA,其中的每一个在本文中更加详细地描述。
本文还公开了可与本文公开的多核苷酸发生反应的功能性核酸。功能性核酸是具有特定功能(例如,结合目标分子或催化特定的反应)的核酸分子。功能性核酸的实例包括反义分子、适体、核糖酶、三重形成分子和外部向导序列。所述功能性核酸分子可作为目标细胞所具有特定活性的效应子、抑制剂、调节剂和激活剂,或者所述功能性核酸分子可具有独立于任何其他分子的新的活性。
反义分子被设计为通过常规或非常规碱基配对与目标核酸分子发生相互作用。反义分子与目标分子的相互作用被设计为通过例如RNase-H介导的RNA-DNA杂交降解促进目标分子的破坏。可选地,反义分子被设计为干扰通常在目标分子上发生的诸如转录或复制之类的加工功能。反义分子基于目标分子的序列进行设计。本领域已存在通过找到目标分子的最易接近区域优化反义效率的多种方法。示例性的方法可以是体外选择实验和使用DMS和DEPC的DNA修饰研究。反义分子通常以小于或等于10-6,10-8,10-10,或10-12的解离常数(kd)结合目标分子。有助于设计和使用反义分子的方法和技术的代表性实例可在下面非限定性地列出的美国专利中找到:US5,135,917;US 5,294,533;US 5,627,158;US 5,641,754;US5,691,317;US5,780,607;US5,786,138;US5,849,903;US5,856,103;US5,919,772;US5,955,590;US5,990,088;US5,994,320;US5,998,602;US6,005,095;US6,007,995;US6,013,522;US6,017,898;US6,018,042;US6,025,198;US6,033,910;US6,040,296;US6,046,004;US6,046,319;和US6,057,437,上述美国专利中的每一个的全部内容通过引用并入本文。反义分子的实例包括反义RNA,小干扰RNA(siRNA)和短发夹RNA(shRNA),其在本文中更加详细地描述。
本文公开的分离的核酸可包括RNA,DNA或RNA和DNA这两者。分离的核酸还可连接至或融合至异源核酸序列(例如,载体中的异源核酸序列)或异源标签。例如,本文公开的分离的核酸可存在于包含所述分离的核酸和异源核酸序列的载体或外源供体序列中。所述分离的核酸还可连接至或融合至异源标签,例如,荧光标签。本文还公开了标签的其他实例。
本文公开的核酸分子可由例如核苷酸或非天然或修饰的核苷酸(例如,核苷酸类似物或核苷酸取代物)制成。这些核苷酸包括包含修饰的碱基、糖或磷酸酯基团的核苷酸或在其结构中合并有非天然基团的核苷酸。非天然核苷酸的实例包括二脱氧核苷酸,生物素化的、胺化的、脱氨基的、烷基化的、苄基化的和荧光体标记的核苷酸。
本文公开的核酸分子可包括一个或多个核苷酸类似物或取代。核苷酸类似物是包含对碱基、糖或磷酸酯基团的一些类型的修饰的核苷酸。对碱基的修饰可包括A,C,G,和T/U的天然修饰和合成修饰以及不同嘌呤碱基或嘧啶碱基(例如,假尿嘧啶核苷、尿嘧啶-5-基、次黄嘌呤-9-基(hypoxanthin-9-yl)(I)和2-氨基腺嘌呤-9-基)的天然修饰和合成修饰。修饰后的碱基包括例如:5-甲基胞嘧啶(5-me-C),5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,2-氨基腺嘌呤,腺嘌呤和鸟嘌呤的6-甲基和其他烷基衍生物,腺嘌呤和鸟嘌呤的2-丙基和其他烷基衍生物,2-硫脲嘧啶,2-硫胸腺嘧啶和2-硫胞嘧啶,5-卤代尿嘧啶和5-卤代胞嘧啶,5-丙炔基尿嘧啶和5-丙炔基胞嘧啶,6-偶氮尿嘧啶,6-偶氮胞嘧啶和6-偶氮胸腺嘧啶,5-尿嘧啶(假尿嘧啶),4-硫尿嘧啶,8-卤代腺嘌呤和鸟嘌呤,8-氨基腺嘌呤和鸟嘌呤,8-硫代腺嘌呤和鸟嘌呤,8-硫代烷基腺嘌呤和鸟嘌呤,8-羟基腺嘌呤和鸟嘌呤和其他8-取代的腺嘌呤和鸟嘌呤,5-卤代尿嘧啶和胞嘧啶,特别是5-溴代尿嘧啶和胞嘧啶,5-三氟代甲基尿嘧啶和胞嘧啶和其他5-取代的尿嘧啶和胞嘧啶,7-甲基鸟嘌呤和7-甲基腺嘌呤,8-氮杂鸟嘌呤和8-氮杂腺嘌呤,7-脱氮鸟嘌呤和7-脱氮腺嘌呤和3-脱氮鸟嘌呤和3-脱氮腺嘌呤。其他碱基修饰可在例如美国专利US3,687,808,Englisch等人,(1991)Angewandte Chemie,International Edition 30:613;以及Sanghvi,Y.S.,Chapter 15,Antisense Researchand Applications,pages 289-302,Crooke,S.T.and Lebleu,B.ed.,CRC Press,1993中找到,上述参考文献中的每一个的全部内容通过引用并入本文。一些核苷酸类似物(例如,5-取代的嘧啶,6-氮杂嘧啶和N-2,N-6和O-6取代的嘌呤,包括,2-氨基丙基腺嘌呤,5-丙炔基尿嘧啶,5-丙炔基胞嘧啶和5-甲基胞嘧啶)可增加二聚体形成的稳定性。通常,碱基修饰可与例如糖修饰(例如,2’-O-甲氧基乙基)结合以实现诸如二聚体稳定性增加之类的独一无二的性质。下列美国专利详细描述了多种碱基修饰,例如:US4,845,205;US5,130,302;US5,134,066;US 5,175,273;US5,367,066;US5,432,272;US5,457,187;US5,459,255;US5,484,908;US5,502,177;US5,525,711;US5,552,540;US5,587,469;US5,594,121,US5,596,091;US5,614,617;和US5,681,941这些美国专利中的每一个的全部内容通过引用并入本文。
核苷酸类似物还可包括对糖基团的修饰。对糖基团的修饰可包括例如:对核糖和脱氧核糖的天然修饰以及合成修饰。糖修饰包括例如:在2’位置的下列修饰:OH;F;O-,S-,或N-烷基;O-,S-,或N-烯基;O-,S-或N-炔基;或O-烷基-O-烷基,其中,烷基,烯基和炔基可以是取代的或未取代的C1至C10烷基或C2至C10烯基和炔基。示例性的2’糖修饰还包括例如:-O[(CH2)n O]mCH3,-O(CH2)nOCH3,-O(CH2)n NH2,-O(CH2)n CH3,-O(CH2)n-ONH2,和-O(CH2)nON[(CH2)nCH3]]2,其中,n和m是1至约10。
2’位置的其他修饰包括例如:C1至C10低级烷基,取代的低级烷基,烷芳基,芳烷基,O-烷芳基或O-芳烷基,SH,SCH3,OCN,Cl,Br,CN,CF3,OCF3,SOCH3,SO2CH3,ONO2,NO2,N3,NH2,杂环烷基,杂环烷芳基,氨基烷基氨基,聚烷基氨基,取代的甲硅烷基,RNA裂解基团,报告体基团,嵌入剂,用于改善寡核苷酸的药代动力学性质的基团,或用于改善寡核苷酸的药效学性质的基团,以及其他具有类似性质的取代基。类似的修饰还可出现在糖的其他位置,尤其是3’末端核苷酸上的糖的3’位置或2’-5’连接的寡核苷酸以及5’末端核苷酸的5’位置。修饰的糖还可包括那些包含在桥接环氧处(例如,CH2和S)进行修饰的糖。核苷酸糖类似物还可具有糖模拟物,例如,戊呋喃糖中的环丁基基团。本领域中,多个美国专利教导了这样修饰的糖结构的制备方法,例如美国专利US4,981,957;US5,118,800;US5,319,080;US5,359,044;US5,393,878;US5,446,137;US5,466,786;US5,514,785;US5,519,134;US5,567,811;US5,576,427;US5,591,722;US5,597,909;US5,610,300;US5,627,053;US5,639,873;US5,646,265;US5,658,873;US5,670,633;和US5,700,920,这些美国专利中的每一个的全部内容通过引用并入本文。
核苷酸类似物还可以在磷酸酯基团处被修饰。修饰的磷酸酯基团包括例如:可修饰为使两个核苷酸之间的化学键包含硫代磷酸酯,手性硫代磷酸酯,二硫代磷酸酯,磷酸三酯,氨基烷基磷酸三酯,包括3’-亚烷基磷酸酯和手性磷酸酯在内的甲基和其他烷基磷酸酯,亚膦酸盐,包括3’氨基氨基磷酸酯和氨基烷基氨基磷酸酯在内的氨基磷酸酯,硫代氨基磷酸酯,硫代烷基磷酸酯,硫代烷基磷酸三酯和硼烷化磷酸酯的那些修饰的磷酸酯。两个核苷酸之间的这些磷酸酯化学键或修饰的磷酸酯化学键可通过3’-5’键合或2’-5’键合,并且,化学键可包含诸如3’-5’至5’-3’或2’-5’至5’-2’之类的反向极性。本文也包括各种不同的盐、混合的盐和游离酸形式。下列美国专利中教导了如何制备和使用包含修饰的磷酸酯的核苷酸,例如,US3,687,808;US4,469,863;US4,476,301;US5,023,243;US5,177,196;US5,188,897;US5,264,423;US5,276,019;US5,278,302;US5,286,717;US5,321,131;US5,399,676;US5,405,939;US5,453,496;US5,455,233;US5,466,677;US5,476,925;US5,519,126;US5,536,821;US5,541,306;US5,550,111;US5,563,253;US5,571,799;US5,587,361;和US5,625,050,这些美国专利中的每一个的全部内容通过引用并入本文。
核苷酸取代物包括具有与核苷酸类似的功能性质的分子,但是其不包含磷酸酯基团,例如,肽核酸(PNA)。核苷酸取代物包括将会以Watson-Crick或Hoogsteen方式识别出核酸的分子,但是,所述核苷酸取代物通过不同于磷酸酯基团的基团连接在一起。当核苷酸取代物与合适的目标核酸发生相互作用时,核苷酸取代物能够符合双螺旋结构。
核苷酸取代物还包括磷酸酯基团或糖基团已被取代的核苷酸或核苷酸类似物。核苷酸取代物可不包含标准磷原子。磷酸酯的取代物可以是例如短链烷基或环烷基核苷间键合,混合的杂原子和烷基或环烷基核苷间键合,或一种或多种短链杂芳基或杂环基核苷间键合。这些核苷酸取代物包括具有吗啉基键合(部分由核苷的糖部分形成)的那些键合,硅氧烷骨架,硫化物的骨架,亚砜的骨架和砜的骨架,甲酰基(formacetyl)和硫代甲酰基骨架,亚甲基甲酰基和硫代甲酰基骨架,含有烯烃的骨架,氨基磺酸盐骨架,亚甲基亚氨基和亚甲基肼基骨架,磺酸酯和磺酰胺骨架,酰胺骨架和其他具有混合的N,O,S和CH2成分的骨架。许多美国专利公开了如何制备和使用这些类型的磷酸酯取代,这些美国专利包括但不限于:5,034,506;5,166,315;5,185,444;5,214,134;5,216,141;5,235,033;5,264,562;5,264,564;5,405,938;5,434,257;5,466,677;5,470,967;5,489,677;5,541,307;5,561,225;5,596,086;5,602,240;5,610,289;5,602,240;5,608,046;5,610,289;5,618,704;5,623,070;5,663,312;5,633,360;5,677,437;and 5,677,439,这些美国专利中的每一个的全部内容通过引用并入本文。
还可以理解的是,在核苷酸取代中,核苷酸的糖和磷酸酯基团均可被例如酰胺类连接键(氨基乙基甘氨酸(PNA))取代。美国专利US5,539,082;US5,714,331;和US5,719,262教导了如何制备和使用PNA分子,上述美国专利中的每一个的全部内容通过引用并入本文。还可参考Nielsen等人,(1991)Science 254:1497-1500,其全部内容通过引用并入本文。
其他类型的分子(偶联物)也可连接至核苷酸或核苷酸类似物以提高例如分子摄取。偶联物可化学连接至核苷酸或核苷酸类似物。这些偶联物包括例如脂质基团,例如胆固醇基团(Letsinger等人,(1989)Proc.Natl.Acad.Sci.USA 86:6553-6556,其全部内容通过引用并入本文),胆酸(Manoharan等人,(1994)Bioorg.Med.Chem.Let.4:1053-1060,其全部内容通过引用并入本文),诸如己基-S-三苯甲硫醇之类的硫醚(Manoharan等人,(1992)Ann.N.Y.Acad.Sci.660:306-309;Manoharan等人,(1993)Bioorg.Med.Chem.Let.3:2765-2770,其全部内容通过引用并入本文),硫代胆固醇(Oberhauser等人,(1992)Nucl.AcidsRes.20:533-538,其全部内容通过引用并入本文),诸如十二烷二醇或十一烷基残基之类的脂肪族链(Saison-Behmoaras等人,(1991)EMBO J.10:1111-1118;Kabanov等人,(1990)FEBS Lett.259:327-330;Svinarchuk等人,(1993)Biochimie75:49-54,它们的全部内容通过引用并入本文),诸如二-十六烷基-rac-丙三醇或三乙基铵1,2-二-O-十六烷基-rac-丙三醇-3-H-磷酸酯之类的磷脂(Manoharan等人,(1995)Tetrahedron Lett.36:3651-3654;Shea等人,(1990)Nucl.Acids Res.18:3777-3783,其全部内容通过引用并入本文),聚胺或聚乙二醇链(Manoharan等人,(1995)Nucleosides&Nucleotides 14:969-973,其全部内容通过引用并入本文),或金刚烷乙酸(Manoharan等人,(1995)Tetrahedron Lett.36:3651-3654,其全部内容通过引用并入本文),棕榈基(Mishra等人,(1995)Biochim.Biophys.Acta1264:229-237),或十八烷基胺或己基氨基-羰基-氧胆固醇基团(Crooke等人,(1996)J.Pharmacol.Exp.Ther.277:923-937,其全部内容通过引用并入本文)。许多美国专利教导了制备这些偶联物的方法,这些美国专利包括例如:US4,828,979;4,948,882;5,218,105;5,525,465;5,541,313;5,545,730;5,552,538;5,578,717,5,580,731;5,580,731;5,591,584;5,109,124;5,118,802;5,138,045;5,414,077;5,486,603;5,512,439;5,578,718;5,608,046;4,587,044;4,605,735;4,667,025;4,762,779;4,789,737;4,824,941;4,835,263;4,876,335;4,904,582;4,958,013;5,082,830;5,112,963;5,214,136;5,082,830;5,112,963;5,214,136;5,245,022;5,254,469;5,258,506;5,262,536;5,272,250;5,292,873;5,317,098;5,371,241,5,391,723;5,416,203,5,451,463;5,510,475;5,512,667;5,514,785;5,565,552;5,567,810;5,574,142;5,585,481;5,587,371;5,595,726;5,597,696;5,599,923;5,599,928和5,688,941,上述美国专利中的每一个的全部内容通过引用并入本文。
本文公开的分离的核酸包括天然生成的HSD17B13基因或mRNA转录体的核苷酸序列,或可包含非天然生成的序列。在一个实例中,非天然生成的序列可因为不影响编码的HSD17B13蛋白质的同义突变或突变而彼此不同。例如,除了不影响编码的HSD17B13蛋白质的同义突变或突变之外,序列可以是相同的。同义突变或取代是在编码蛋白质的基因的外显子内由一个核苷酸取代另一个核苷酸,使生成的氨基酸序列不被修饰。这可能是因为遗传密码的简并,其中,一些氨基酸编码多于一个三碱基对密码子。例如,同义取代用于密码子的优化过程。
本文还公开由本文公开的核酸编码的蛋白质和包含本文公开的分离的核酸或蛋白质以及增加所述分离的核酸或蛋白质的稳定性(例如,在给定的存储条件(例如,-20℃,4℃,或室温)下延长维持产物的降解在某一阈值(例如,起始核酸或蛋白质的0.5wt%)之下的时间段或增加体内稳定性)的载体的组合物。这些载体的非限定性实例包括聚(乳酸)(PLA)微球,聚(D,L-乳酸-羟基乙酸)(PLGA)微球,脂质体,胶束,反相胶束,脂质卷和脂质微管。
(1)包括HSD17B13 rs72613567变体的突变残基的核酸
本文公开了一种分离的核酸,其包含HSD17B13基因的至少15个连续核苷酸并且具有在与HSD17B13 rs72613567变体最佳比对时位于对应于HSD17B13 rs72613567变体(SEQID NO:2)的位置12666的位置处的胸腺嘧啶(或者位于对应于位置12666和12667的位置处的胸腺嘧啶)。也就是说,本文公开的分离的核酸包含HSD17B13基因的至少15个连续核苷酸并且具有插入于在与野生型HSD17B13基因最佳比对时对应于野生型HSD17B13基因(SEQ IDNO:1)的位置12665和12666的核苷酸之间的胸腺嘧啶。这些分离的核酸可用于例如,表达HSD17B13变体转录体和蛋白质或作为外源供体序列。这些分离的核酸还可用作例如,向导RNA,引物和探针。
HSD17B13基因可以是来自任何生物体的HSD17B13基因。例如,HSD17B13基因可以是人HSD17B13或来自另一生物体(例如,非人类哺乳动物,啮齿类动物,小鼠或大鼠)的直系同源基因。
可以理解的是,种群中的基因序列可由于诸如单个核苷酸的多态性之类的多态性而发生改变。本文提供的实例仅仅是示例性的序列。其他序列也是可能的。作为一个实例,所述至少15个连续核苷酸可以与HSD17B13rs72613567变体(SEQ ID NO:2)中的对应序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性,所述HSD17B13rs72613567变体包括在与SEQ ID NO:2最佳比对时的SEQ ID NO:2的位置12666或位置12666和12667。任选地,所述分离的核酸包含包括SEQ ID NO:2的位置12666或位置12666和位置12667的SEQ ID NO:2的至少15个连续核苷酸。作为另一实例,所述至少15个连续核苷酸可以与野生型HSD17B13基因(SEQ ID NO:1)中的对应序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性,所述野生型HSD17B13基因包括在与SEQ ID NO:1最佳比对时的SEQ ID NO:1的位置12665和位置12666,其中,胸腺嘧啶存在于对应于SEQ ID NO:1的位置12665和12666的位置之间。任选地,分离的核酸包含包括SEQ ID NO:1的位置12665和12666的SEQ ID NO:1的至少15个连续核苷酸,其中,胸腺嘧啶存在于对应于SEQ ID NO:1的位置12665和12666的位置之间。
所述分离的核酸可包含例如,HSD17B13基因的至少20个连续核苷酸,至少25个连续核苷酸,至少30个连续核苷酸,至少35个连续核苷酸,至少40个连续核苷酸,至少45个连续核苷酸,至少50个连续核苷酸,至少60个连续核苷酸,至少70个连续核苷酸,至少80个连续核苷酸,至少90个连续核苷酸,至少100个连续核苷酸,至少200个连续核苷酸,至少300个连续核苷酸,至少400个连续核苷酸,至少500个连续核苷酸,至少600个连续核苷酸,至少700个连续核苷酸,至少800个连续核苷酸,至少900个连续核苷酸,或至少1000个连续核苷酸。可选地,所述分离的核酸可包含例如,HSD17B13基因的至少1000个连续核苷酸,至少2000个连续核苷酸,至少3000个连续核苷酸,至少4000个连续核苷酸,至少5000个连续核苷酸,至少6000个连续核苷酸,至少7000个连续核苷酸,至少8000个连续核苷酸,至少9000个连续核苷酸,10000个连续核苷酸,11000个连续核苷酸,至少12000个连续核苷酸,至少13000个连续核苷酸,至少14000个连续核苷酸,至少15000个连续核苷酸,至少16000个连续核苷酸,至少17000个连续核苷酸,至少18000个连续核苷酸,或至少19000个连续核苷酸。
在一些情况下,所述分离的核酸可包含HSD17B13微小基因,其中,相对于对应的的野生型HSD17B13基因,该基因的一个或多个非必需片段已被删除。作为一个实例,删除的片段包括一个或多个内含子序列。这样的HSD17B13微小基因可包含例如,与SEQ ID NO:2最佳比对时对应于HSD17B13转录体D的外显子1-7的外显子以及对应于SEQ ID NO:2中的内含子6的内含子。微小基因在本文中的其他地方更加详细地描述。
(2)与接近或包括HSD17B13 rs72613567变体的突变残基的序列杂交的核酸
本文还公开了一种包含如下至少15个连续核苷酸的分离的核酸,所述至少15个连续核苷酸与HSD17B13基因(例如,HSD17B13微小基因)在如下片段处杂交,所述片段包括在与HSD17B13 rs72613567变体(SEQ ID NO:2)最佳比对时对应于HSD17B13 rs72613567变体(SEQ ID NO:2)的位置12666或位置12666和12667的位置的1000个核苷酸,500个核苷酸,400个核苷酸,300个核苷酸,200个核苷酸,100个核苷酸,50个核苷酸,45个核苷酸,40个核苷酸,35个核苷酸,30个核苷酸,25个核苷酸,20个核苷酸,15个核苷酸,10个核苷酸,或5个核苷酸或者位于在与HSD17B13 rs72613567变体(SEQ ID NO:2)最佳比对时对应于HSD17B13 rs72613567变体(SEQ ID NO:2)的位置12666或位置12666和12667的位置的1000个核苷酸之内,500个核苷酸之内,400个核苷酸之内,300个核苷酸之内,200个核苷酸之内,100个核苷酸之内,50个核苷酸之内,45个核苷酸之内,40个核苷酸之内,35个核苷酸之内,30个核苷酸之内,25个核苷酸之内,20个核苷酸之内,15个核苷酸之内,10个核苷酸之内,或5个核苷酸之内。这些分离的核酸可用作例如,向导RNA,引物,探针或外源供体序列。
HSD17B13基因可以是来自任何生物体的HSD17B13基因。例如,HSD17B13基因可以是人HSD17B13基因或来自另一生物体(例如,非人类哺乳动物,小鼠或大鼠)的直系同源基因。
作为一个实例,所述至少15个连续核苷酸可与HSD17B13基因或HSD17B13微小基因的片段杂交,所述片段在与SEQ ID NO:2最佳比对时与HSD17B13 rs72613567变体(SEQ IDNO:2)中的对应序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。任选地,所述分离的核酸可与SEQ ID NO:2的至少15个连续核苷酸杂交。任选地,所述分离的核酸与如下片段杂交,所述片段包括SEQ ID NO:2中的位置12666或位置12666和12667或者包括在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666或位置12666和12667的位置。
可与所述分离的核酸杂交的片段可包含例如,HSD17B13基因的至少20个连续核苷酸,至少25个连续核苷酸,至少30个连续核苷酸,至少35个连续核苷酸,至少40个连续核苷酸,至少45个连续核苷酸,至少50个连续核苷酸,至少55个连续核苷酸,至少60个连续核苷酸,至少65个连续核苷酸,至少70个连续核苷酸,至少75个连续核苷酸,至少80个连续核苷酸,至少85个连续核苷酸,至少90个连续核苷酸,至少95个连续核苷酸,至少100个连续核苷酸,至少200个连续核苷酸,至少300个连续核苷酸,至少400个连续核苷酸,至少500个连续核苷酸,至少600个连续核苷酸,至少700个连续核苷酸,至少800个连续核苷酸,至少900个连续核苷酸,或至少1000个连续核苷酸。可选地,所述分离的核酸可包含例如,HSD17B13基因的至少1000个连续核苷酸,至少2000个连续核苷酸,至少3000个连续核苷酸,至少4000个连续核苷酸,至少5000个连续核苷酸,至少6000个连续核苷酸,至少7000个连续核苷酸,至少8000个连续核苷酸,至少9000个连续核苷酸,10000个连续核苷酸,11000个连续核苷酸,至少12000个连续核苷酸,至少13000个连续核苷酸,至少14000个连续核苷酸,至少15000个连续核苷酸,至少16000个连续核苷酸,至少17000个连续核苷酸,至少18000个连续核苷酸,或至少19000个连续核苷酸。可选地,可与所述分离的核酸杂交的片段可以是HSD17B13基因的多达20个连续核苷酸,25个连续核苷酸,30个连续核苷酸,35个连续核苷酸,40个连续核苷酸,45个连续核苷酸,50个连续核苷酸,55个连续核苷酸,60个连续核苷酸,65个连续核苷酸,70个连续核苷酸,75个连续核苷酸,80个连续核苷酸,85个连续核苷酸,90个连续核苷酸,95个连续核苷酸,100个连续核苷酸,200个连续核苷酸,300个连续核苷酸,400个连续核苷酸,500个连续核苷酸,600个连续核苷酸,700个连续核苷酸,800个连续核苷酸,900个连续核苷酸,或1000个连续核苷酸。例如,所述片段的长度可以是约15个核苷酸至100个核苷酸或约15个核苷酸至35个核苷酸。
(3)由HSD17B13 rs72613567变体生成的cDNA和变体转录体
本文还提供对应于全部或mRNA转录体或cDNA的核酸或对应于mRNA转录体或cDNA的一部分的核酸,在与转录体A-H中的任一个最佳对比时,mRNA转录体或cDNA对应于转录体A-H(分别为SEQ ID NO:4-11)中的任一个,尤其是转录体C-H。应当理解的是,种群中的基因序列和从这些基因转录得到的mRNA序列由于诸如单个核苷酸多态性之类的多态性可发生改变。本文提供的每个转录体的序列仅仅是示例性的序列。其他序列也是可能的。下文提供具体的非限定性实例。这些分离的核酸可用于例如表达HSD17B13变体转录体和蛋白质。
分离的核酸可以是任意长度。例如,所述分离的核酸可包含编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分的至少10个连续核苷酸,至少15个连续核苷酸,至少20个连续核苷酸,至少25个连续核苷酸,至少30个连续核苷酸,至少35个连续核苷酸,至少40个连续核苷酸,至少45个连续核苷酸,至少50个连续核苷酸,至少60个连续核苷酸,至少70个连续核苷酸,至少80个连续核苷酸,至少90个连续核苷酸,至少100个连续核苷酸,至少200个连续核苷酸,至少300个连续核苷酸,至少400个连续核苷酸,至少500个连续核苷酸,至少600个连续核苷酸,至少700个连续核苷酸,至少800个连续核苷酸,至少900个连续核苷酸,至少1000个连续核苷酸或至少2000个连续核苷酸。在一些情况下,所述分离的核酸包含编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分的连续核苷酸,其中,所述连续的核苷酸包含来自HSD17B13基因的至少两个不同的外显子的序列(例如,横跨HSD17B13基因的至少一个外显子-外显子边界而不会干扰内含子)。
HSD17B13转录体D(SEQ ID NO:7),转录体G(SEQ ID NO:10)和转录体H(SEQ IDNO:11)包括在外显子6的3’端插入鸟嘌呤,这引起相对于转录体A由外显子7编码的HSD17B13蛋白质的区域发生外显子7移位和提前截短。因此,本文提供的分离的核酸包含存在于转录体D,G和H(或其片段或同系物)中而不存在于转录体A(或其片段或同系物)中的片段(例如,至少15个连续核苷酸)。这样的区域可易于通过比较转录体的序列来识别。例如,本文提供的分离的核酸包含编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,在分别与SEQID NO:7,10或11最佳比对时,所述连续核苷酸的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)与横跨SEQ ID NO:7(HSD17B13转录体D),SEQ ID NO:10(HSD17B13转录体G)或SEQ ID NO:11(HSD17B13转录体H)中的外显子6-外显子7边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性,并且,所述片段包括位于对应于SEQ ID NO:7的外显子6的3’端的残基878的残基处的鸟嘌呤(即,除了位于外显子7的起始的鸟嘌呤之外,相对于转录体A还在外显子6的3’端插入鸟嘌呤),位于对应于SEQ ID NO:10的外显子6的3‘端的残基770的残基处的鸟嘌呤(即,除了除了位于外显子7的起始的鸟嘌呤之外,相对于转录体B还在外显子6的3’端插入鸟嘌呤),或位于对应于SEQ ID NO:11的外显子6的3’端的残基950的残基处的鸟嘌呤(即,除了位于外显子7的起始的鸟嘌呤之外,相对于转录体E还在外显子6的3’端插入鸟嘌呤)。应当理解的是,这样的核酸可在外显子6和7中均包含足够数量的核苷酸以区别插入的鸟嘌呤和HSD17B13转录体中的其他特征(例如,以和外显子7的起始的鸟嘌呤相区别,和转录体F中的内含子6中的通读相区别,或和转录体C中删除的外显子6相区别)。
作为一个实例,所述分离的核酸可包含SEQ ID NO:7的横跨外显子6-外显子7边界的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),任选地,包含SEQ ID NO:7的外显子6和7,和任选地,包含SEQ ID NO:7的整个序列。
任选地,所述分离的核酸进一步包含存在于转录体D(其片段或同系物)中但不存在于转录体G(其片段或同系物)中的片段,并且所述分离的核酸还包含存在于转录体D(其片段或同系物)中但不存在于转录体H(其片段或同系物)中的片段。这些区域可易于通过比较转录体的序列而被识别。例如,这些分离的核酸可包含连续核苷酸(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)的片段,该片段在与SEQ ID NO:7最佳比对以与转录体H相区别时与横跨SEQ ID NO:7(HSD17B13转录体D)的外显子3和4的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。类似地,所述分离的核酸可包含如下连续核苷酸(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)的片段,该片段在与SEQ ID NO:7最佳比对以与转录体G相区别时与SEQ ID NO:7(HSD17B13转录体D)的外显子2中的区域,横跨SEQ ID NO:7的外显子1-外显子2边界的区域或横跨SEQ ID NO:7的外显子2-外显子3边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。任选地,分离的核酸包含与SEQID NO:7(HSD17B13转录体D)列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:15(HSD17B13亚型D)列出的序列的HSD17B13蛋白质。类似于转录体D,转录体H(SEQ ID NO:11)相比于转录体A包括外显子6的鸟嘌呤3’的插入。转录体H相比于转录体A和转录体D还包括位于外显子3和外显子4之间的额外的外显子(外显子3’)。因此,本文提供的上文所述的分离的核酸包含存在于转录体D,G和H(或其片段或类似物)中但不存在于转录体A(或其片段或类似物)中的片段,但还包含不存在于转录体D(或其片段或类似物)中的转录体H(或其片段或类似物)的片段(例如,至少15个连续核苷酸)。这样的区域可易于通过比较转录体的序列而被识别。例如,本文提供关于转录体D所描述的分离的核酸,其中,连续的核苷酸片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:11最佳比对时与SEQ ID NO:11(HSD17B13转录体H)的外显子3’内的区域、横跨SEQ ID NO:11的外显子3-外显子3’的边界的区域或横跨SEQ ID NO:11的外显子3’-外显子4的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸在各外显子3和3’中或各外显子3’和4中包括足够的数量的核苷酸,以与HSD17B13转录体中的其他特性相区别(例如,与外显子3和4的边界相区别)。例如,外显子3’的区域可包含整个外显子3’。任选地,分离的核酸包含与SEQ ID NO:11(HSD17B13转录体H)中列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:19(HSD17B13亚型H)中列出的序列的HSD17B13蛋白质。
作为一个实例,所述分离的核酸可包含SEQ ID NO:11的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,SEQ ID NO:11的至少15个连续核苷酸包括外显子3’内的区域,横跨外显子3-外显子3’边界的区域,或横跨外显子3’-外显子4边界的区域,任选地包含SEQ ID NO:11的整个外显子3’并且任选地包括SEQ ID NO:11的整个序列。
类似于转录体D,转录体G(SEQ ID NO:10)相比于转录体A包括外显子6的鸟嘌呤3’的插入。然而,此外,转录体G相比于转录体A和转录体D缺少外显子2(即,转录体G包括不存在于转录体A和转录体D中的外显子1-外显子3边界)。因此,本文提供的上文所述的分离的核酸包含存在于转录体D,G和H(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的片段,但是还包含不存在于转录体D(或其片段或类似物)中的来自于转录体G(或其片段或类似物)的片段(例如,至少15个连续核苷酸)。这样的区域可易于通过比较转录体的序列而识别。例如,本文提供上文关于转录体D的分离的核酸,其中,连续核苷酸的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:10最佳比对时与横跨SEQ ID NO:10(HSD17B13转录体G)中的外显子1-外显子3边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸可在各个外显子1和外显子3中包括足够数量的核苷酸以与HSD17B13转录体中的其他特性(例如,外显子1和2的边界或外显子2和3的边界)相区别。例如,所述区域可包含SEQ ID NO:10中的整个外显子1和3。任选地,所述分离的核酸包含与SEQ ID NO:10(HSD17B13转录体G)中列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:18(HSD17B13亚型G)中列出的序列的HSD17B13蛋白质。
作为一个实例,所述分离的核酸可包含SEQ ID NO:10的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,SEQ ID NO:10的至少15个连续核苷酸包括横跨外显子1-外显子3边界的区域,任选地包含SEQ ID NO:10的外显子1和外显子3,并且任选地包含SEQ ID NO:10的整个序列。
本文还提供包含存在于转录体E(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的片段的分离的核酸。这些区域可易于通过比较转录体的序列而被识别。转录体E(SEQ ID NO:8)相比于转录体A包括位于外显子3和外显子4之间的额外的外显子。因此,本文提供的分离的核酸包含至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分,其中,连续核苷酸的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:8最佳比对时与SEQ ID NO:8(HSD17B13转录体E)的外显子3’中的区域,横跨SEQID NO:8的外显子3-外显子3’边界的区域或横跨SEQ ID NO:8的外显子3’-外显子4边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸可在各外显子3和3’中或各外显子3’和4中包括足够数量的核苷酸以与HSD17B13转录体中的其他特性相区别(例如,与外显子3和4的边界相区别)。例如,外显子3’的区域可包含整个外显子3’。任选地,分离的核酸还包含来自转录体E(或其片段或类似物)的但不存在于转录体H(或其片段或类似物)中的片段(例如,至少15个连续核苷酸)。这样的区域可易于通过比较转录体的序列而被识别。例如,本文提供上文所述的分离的核酸,其中,连续核苷酸的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:8最佳比对时与横跨SEQ ID NO:8(HSD17B13转录体E)中的外显子6-外显子7的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸可在各外显子6和外显子7中包括足够数量的核苷酸以与HSD17B13转录体中的其他特性(具体而言,位于转录体H中的外显子6的3’端的额外的鸟嘌呤)相区别。例如,所述区域可包含SEQ ID NO:8中的整个外显子6和外显子7。任选地,分离的核酸包含与SEQ ID NO:8中列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:16(HSD17B13亚型E)中列出的序列的HSD17B13蛋白质。
作为一个实例,所述分离的核酸可包含SEQ ID NO:8的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,SEQ ID NO:8的至少15个连续核苷酸包括外显子3’中的区域,横跨外显子3-外显子3’边界的区域,或横跨外显子3’-外显子4边界的区域,任选地包含SEQ ID NO:8的整个外显子3’,并且任选地包含SEQ ID NO:8的整个序列。
本文还提供包含存在于转录体F(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的片段(例如,至少15个连续核苷酸)的分离的核酸。这些区域可易于通过比较转录体的序列而识别。转录体F(SEQ ID NO:9)相比于转录体A包括从外显子6至内含子6的通读并且所述通读包括存在于HSD17B13 rs72613567变体基因中的插入的胸腺嘧啶。因此,本文提供的分离的核酸包含至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分,其中,所述连续核苷酸(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)的片段在与SEQ ID NO:9最佳比对时与SEQ ID NO:9(HSD17B13转录体F)的内含子6中的通读内的区域或横跨内含子6内的通读和外显子6的其余部分之间的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸在通读中可包括足够数量的核苷酸以使得所述通读与HSD17B13转录体的其他特性相区别(例如,与其他HSD17B13转录体中的外显子6和7的边界相区别)。任选地,所述连续核苷酸包含存在于转录体F(即,插入的胸腺嘧啶)中但不存在于转录体F’(SEQ ID NO:246)中的序列。转录体F’相比于转录体A还包括从外显子6至内含子6的通读,但是该通读不包括存在于HSD17B13 rs72613567变体基因中的插入的胸腺嘧啶。例如,所述区域可以是SEQ ID NO:9的内含子6中的整个通读。任选地,所述分离的核酸包括与SEQ ID NO:9(HSD17B13转录体F)中列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:17(HSD17B13亚型F)中列出的序列的HSD17B13蛋白质。
作为一个实例,所述分离的核酸可包含SEQ ID NO:9的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,SEQ ID NO:9的至少15个连续核苷酸包括内含子6中的通读内的区域或横跨内含子6中的通读和外显子6的其余部分之间的边界的区域,任选地包含内含子6中的整个通读,并且任选地包含SEQ ID NO:9的整个序列。
本文还提供包含存在于转录体F’(或其片段或类似物)中但不存在于转录体A(或其片段或类似物)中的片段的分离的核酸。这些区域可易于通过比较转录体的序列而被识别。转录体F’(SEQ ID NO:246)相比于转录体A包括从外显子6至内含子6的通读,并且所述通读不包括存在于HSD17B13rs72613567变体基因中的插入的胸腺嘧啶。因此,本文提供的分离的核酸包含编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,所述连续核苷酸的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:246最佳比对时与SEQ ID NO:246(HSD17B13转录体F’)的内含子6中的通读内的区域或横跨SEQ ID NO:246的内含子6中的通读和外显子6的其余部分之间的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸在所述通读中包括足够数量的核苷酸以使所述通读与HSD17B13转录体的其他特性相区别(例如,与其他HSD17B13转录体中的外显子6和7的边界相区别)。任选地,所述连续核苷酸包含存在于转录体F’中但不存在于转录体F(SEQ ID NO:9)中的序列。转录体F中的通读包括存在于HSD17B13 rs72613567变体基因中的插入的胸腺嘧啶,而转录体F’中的通读并不包括该插入的胸腺嘧啶。例如,所述区域可以是SEQ ID NO:246的内含子6内的整个通读。任选地,所述分离的核酸包含与SEQ ID NO:246中列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:247(HSD17B13亚型F’)中列出的序列,基本由该序列构成或由该序列构成的HSD17B13蛋白质。
作为一个实例,所述分离的核酸可包含SEQ ID NO:246的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),其中,SEQ ID NO:246的至少15个连续核苷酸包括内含子6中的通读内的区域或横跨内含子6中的通读与外显子6的其余部分之间的边界的区域,任选地包含内含子6中的整个通读,并且任选地包含SEQ ID NO:246的整个序列。
本文还提供包含如下片段(例如,至少15个连续核苷酸)的分离的核酸,所述片段存在于转录体C(或其片段或类似物)中但不存在于转录体A(或其片段或类似物)中。这些区域可易于通过比较转录体的序列而被识别。转录体C(SEQ ID NO:6)相比于转录体A缺少外显子6(即,转录体C包括不存在于转录体A中的外显子5-外显子7边界)。因此,本文提供包含至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸)的分离的核酸,所述至少15个连续核苷酸编码全部HSD17B13蛋白质或HSD17B13蛋白质的一部分,其中,所述连续核苷酸的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:6最佳比对时与横跨SEQ ID NO:6中的外显子5-外显子7边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性。应当理解的是,这样的核酸在各外显子5和外显子7中可包括足够数量的核苷酸以与HSD17B13转录体中的其他特性相区别(例如,与其他HSD17B13转录体中的外显子5和6的边界或外显子6和7的边界)。例如,所述区域可包含SEQ ID NO:6中的整个外显子5和外显子7。任选地,所述分离的核酸包含与SEQ ID NO:6(HSD17B13转录体C)中列出的序列具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的序列并且编码包含SEQ ID NO:14(HSD17B13亚型C)中列出的序列的HSD17B13蛋白质。
作为一个实例,所述分离的核酸可包括SEQ ID NO:6的至少15个连续核苷酸(例如,至少20个连续核苷酸或至少30个连续核苷酸),所述SEQ ID NO:6的至少15个连续核苷酸包括横跨外显子5-外显子7边界的区域,任选地包含SEQ ID NO:6的整个外显子5和外显子7,并且任选地包含SEQ ID NO:6的整个序列。
(4)与cDNA和变体HSD17B13转录体杂交的核酸
本文还提供与对应于转录体A至H(分别为SEQ ID NO:4-11)中的任一个的mRNA转录体或cDNA的片段杂交的核酸,并且,具体而言,在与转录体A-H中的任一个最佳比对时,本文提供与转录体C-H中的任一个对应的mRNA转录体或cDNA的片段杂交的核酸。下文提供非限定性具体实例。这些分离的核酸可以是有用的例如,引物、探针、反义RNA,siRNA或shRNA。
可与所述分离的核酸杂交的片段可包括例如,编码HSD17B13蛋白质的核酸的至少5个连续核苷酸、至少10个连续核苷酸或至少15个连续核苷酸。可与所述分离的核酸杂交的片段可包括例如,编码HSD17B13蛋白质的核酸的至少20个连续核苷酸,至少25个连续核苷酸,至少30个连续核苷酸,至少35个连续核苷酸,至少40个连续核苷酸,至少45个连续核苷酸,至少50个连续核苷酸,至少55个连续核苷酸,至少60个连续核苷酸,至少65个连续核苷酸,至少70个连续核苷酸,至少75个连续核苷酸,至少80个连续核苷酸,至少85个连续核苷酸,至少90个连续核苷酸,至少95个连续核苷酸,至少100个连续核苷酸,至少200个连续核苷酸,至少300个连续核苷酸,至少400个连续核苷酸,至少500个连续核苷酸,至少600个连续核苷酸,至少700个连续核苷酸,至少800个连续核苷酸,至少900个连续核苷酸,或至少1000个连续核苷酸。可选地,可与所述分离的核酸杂交的片段可以是例如编码HSD17B13蛋白质的核酸的多达20个连续核苷酸,25个连续核苷酸,30个连续核苷酸,35个连续核苷酸,40个连续核苷酸,45个连续核苷酸,50个连续核苷酸,55个连续核苷酸,60个连续核苷酸,65个连续核苷酸,70个连续核苷酸,75个连续核苷酸,80个连续核苷酸,85个连续核苷酸,90个连续核苷酸,95个连续核苷酸,100个连续核苷酸,200个连续核苷酸,300个连续核苷酸,400个连续核苷酸,500个连续核苷酸,600个连续核苷酸,700个连续核苷酸,800个连续核苷酸,900个连续核苷酸,或1000个连续核苷酸。例如,所述片段的长度可以是约15个核苷酸至100个核苷酸或约15个核苷酸至35个核苷酸。
HSD17B13转录体D(SEQ ID NO:7),转录体G(SEQ ID NO:10)和转录体H(SEQ IDNO:11)包括外显子6的3’端的鸟嘌呤插入,这导致相比于转录体A外显子7移位并提前截短。因此,本文提供包含如下区域(例如,至少15个连续核苷酸)的分离的核酸,所述区域与存在于转录体D,G和H(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的片段杂交。这些区域可易于通过比较转录体的序列而被识别。例如,本文提供与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的分离的核酸,其中,连续核苷酸包含如下片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸),其与SEQ ID NO:7最佳比对时与横跨SEQ ID NO:7(HSD17B13转录体D)中的外显子6-外显子7边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性,并且所述片段包括在对应于SEQ ID NO:7的外显子6的3’端的残基878的残基处的鸟嘌呤(即,除了外显子7的起始处的鸟嘌呤之外,相对于转录体A在外显子6的3’端具有鸟嘌呤插入)。可选地,本文提供与编码HSD17B13蛋白质的核酸的片段的至少15个连续核苷酸杂交的分离的核酸,其中,所述连续核苷酸包含在与SEQ ID NO:10最佳比对时与横跨SEQ ID NO:10(HSD17B13转录体G)中的外显子6-外显子7边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸),并且,所述片段包括在对应于SEQ ID NO:10的外显子6的3’端的残基770的残基处的鸟嘌呤(即,除了外显子7的起始处的鸟嘌呤之外,相对于转录体B在外显子6的3’端具有鸟嘌呤插入)。可选地,本文提供包含与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的片段的分离的核酸,其中,所述连续核苷酸包含在与SEQ IDNO:11最佳比对时与横跨SEQ ID NO:11(HSD17B13转录体H)的外显子6-外显子7边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸),并且所述片段包括位于对应于SEQ ID NO:11的外显子6的3’端的残基950的残基处的鸟嘌呤(即,除了外显子7的起始处的鸟嘌呤之外,相对于转录体E在外显子6的3’端具有鸟嘌呤插入)。应当理解的是,这些核酸可以被设计为与各外显子6和外显子7中的足够数量的核苷酸杂交以使插入的鸟嘌呤与HSD17B13转录体中的其他特性相区别(例如,与转录体F的内含子6中的通读相区别或与转录体C中删除的外显子6相区别)。
作为一个实例,所述片段可包含横跨外显子6-外显子7边界的SEQ ID NO:7的区域(即,包括位于SEQ ID NO:7的残基878处的鸟嘌呤)。作为另一实例,所述片段可包含横跨外显子6-外显子7边界的SEQ ID NO:10的区域(即,包括位于SEQ ID NO:10的残基770处的鸟嘌呤)。作为另一实例,所述片段可包含横跨外显子6-外显子7的边界的SEQ ID NO:11的区域(即,包括位于SEQ ID NO:11的残基950处的鸟嘌呤)。
任选地,分离的核酸还包括与存在于转录体D(或其片段或类似物)中而不存在于转录体G(或其片段或类似物)中的片段杂交的区域(例如,15个连续核苷酸),并且所述分离的核酸还包括与存在于转录体D(或其片段或类似物)中而不存在于转录体H(或其片段或类似物)中的片段杂交的区域。这些片段可易于通过比较转录体的序列而被识别。例如,存在于转录体D(或其片段或类似物)中而不存在于转录体H(或其片段或类似物)中的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)可在与SEQ ID NO:7最佳比对时与横跨SEQ ID NO:7(HSD17B13转录体D)的外显子3和外显子4的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性以与转录体H相区别。类似地,存在于转录体D(或其片段或类似物)中而不存在于转录体G(或其片段或类似物)中的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)可在与SEQ ID NO:7最佳比对时与SEQ ID NO:7(HSD17B13转录体D)的外显子2中的区域、横跨SEQ ID NO:7的外显子1-外显子2的边界的区域或横跨SEQ ID NO:7的外显子2-外显子3的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性以与转录体G相区别。
类似于转录体D,转录体H(SEQ ID NO:11)相比于转录体A包括位于外显子6的3’端的鸟嘌呤插入。转录体H相比于转录体A和转录体D还包括位于外显子3和外显子4之间的额外的外显子。因此,本文提供的上述分离的核酸包含与存在于转录体D,G和H(或其片段或类似物)中但不存在于转录体A(或其片段或类似物)中的片段杂交的区域,而且还包括与存在于转录体H(或其片段或类似物)中但不存在于转录体D(或其片段或类似物)中的片段杂交的区域(例如,至少15个连续核苷酸)。这些区域可易于通过比较转录体的序列而被识别。例如,所述片段可在与SEQ ID NO:11(HSD17B13转录体H)最佳比对时与SEQ ID NO:11的外显子3内的区域(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)、横跨SEQ ID NO:11的外显子3-外显子3’边界的区域或横跨SEQ ID NO:11的外显子3’-外显子4的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%至少99%或100%的一致性。应当理解的是,这样的核酸可被设计为与各外显子3和3’或各外显子3’和4中的足够数量的核苷酸杂交以与HSD17B13转录体中的其他特性相区别(例如,与外显子3和外显子4的边界相区别)。
作为一个实例,所述片段可包括外显子3’内的SEQ ID NO:11的区域,横跨外显子3-外显子3’边界的区域或横跨外显子3’-外显子4边界的区域。
类似于转录体D,转录体G(SEQ ID NO:10)相比于转录体A包括位于外显子6的3’端的鸟嘌呤插入。然而,此外,转录体G相比于转录体A和转录体D缺少外显子2(即,转录体G包括不存在于转录体A和转录体D中的外显子1-外显子3的边界)。因此,本文提供的上述分离的核酸包括与存在于转录体D,G和H(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的片段杂交的区域,而且还包括与存在于转录体G(或其片段或类似物)中而不存在于转录体D(或其片段或类似物)中的片段杂交的区域(例如,至少15个连续核苷酸)。这些区域可易于通过比较转录体的序列而被识别。例如,所述片段可在与SEQ ID NO:10最佳比对时与横跨SEQ ID NO:10(HSD17B13转录体G)中的外显子1-外显子3边界的区域(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。应当理解的是,这样的核酸可被设计为与各外显子1和外显子3中的足够数量的核苷酸杂交以与HSD17B13转录体中的其他特性相区别(例如,外显子1和外显子2的边界或外显子2和外显子3的边界)。
作为一个实例,所述片段可包括横跨外显子1-外显子3边界的SEQ ID NO:10的区域。
本文还提供如下分离的核酸,其包含与编码存在于转录体E(或其片段或类似物)中但不存在于转录体A(或其片段或类似物)中的HSD17B13蛋白质的核酸的片段杂交的区域(例如,至少15个连续核苷酸)。这些区域可易于通过比较转录体的序列而被识别。转录体E(SEQ ID NO:8)相比于转录体A包括位于外显子3和外显子4之间的额外的外显子。因此,本文提供的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交,其中,所述连续核苷酸包括如下片段,其在与SEQ ID NO:8最佳比对时与SEQ ID NO:8(HSD17B13转录体E)的外显子3’内的区域(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)、横跨SEQ ID NO:8的外显子3-外显子3’边界的区域或横跨SEQ ID NO:8的外显子3’-外显子4边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。应当理解的是,这样的核酸可被设计为与各外显子3和外显子3’或各外显子3’和外显子4中的足够数量的核苷酸杂交以与HSD17B13转录体中的其他特性相区别(例如,与外显子3和外显子4的边界相区别)。
作为一个实例,所述片段可包含外显子3’内的SEQ ID NO:8的区域,横跨SEQ IDNO:8的外显子3-外显子3’边界的区域或横跨外显子3’-外显子4边界的区域。
任选地,所述分离的核酸还包含与存在于转录体E(或其片段或类似物)中而不存在于转录体H(或其片段或类似物)中的片段杂交的区域(例如,15个连续核苷酸)。这些片段可易于通过比较转录体的序列而被识别。例如,存在于转录体H(或其片段或类似物)中而不存在于转录体H(或其片段或类似物)中的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)可在与SEQ ID NO:8最佳比对时与横跨SEQ ID NO:8(HSD17B13转录体E)的外显子6和外显子7的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性以与转录体G相区别。应当理解的是,这样的核酸可被设计为与各外显子6和外显子7中的足够数量的核苷酸杂交以与HSD17B13转录体中的其他特性相区别(具体而言,转录体H中的外显子6的3’端的额外的鸟嘌呤)。
本文还提供包含如下区域的分离的核酸,所述区域(例如,至少15个连续核苷酸)与编码存在于转录体F(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的HSD17B13蛋白质的核酸的片段杂交。这些区域可易于通过比较转录体的序列而被识别。转录体F(SEQ ID NO:9)相比于转录体A包括从外显子6至内含子6的通读。因此,本文提供与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的分离的核酸,其中,所述连续核苷酸包括如下片段,所述片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:9最佳比对时与SEQ ID NO:9(HSD17B13转录体F)的内含子6中的通读内的区域或横跨位于SEQ ID NO:9的内含子内的通读和外显子6的其余部分之间的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。应当理解的是,这样的核酸可被设计为与通读内的足够数量的核苷酸杂交以使得所述通读与HSD17B13转录体中的其他特性相区别(例如,与其他HSD17B13转录体中的外显子6和外显子7的边界相区别)。任选地,所述连续核苷酸包括存在于转录体F(即,插入的胸腺嘧啶)中而不存在于转录体F’(SEQ ID NO:246)中的序列。转录体F’相比于转录体A还包括从外显子6至内含子6的通读,但是该通读不包括存在于HSD17B13 rs72613567变体基因中的插入的胸腺嘧啶。
作为一个实例,所述片段可包含内含子6内的通读中的SEQ ID NO:9的区域或横跨内含子6中的通读和外显子6的其余部分之间的边界的区域。
本文还提供包含如下区域的分离的核酸,所述区域(例如,至少15个连续核苷酸)与编码存在于转录体F’(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的HSD17B13蛋白质的核酸的片段杂交。这些区域可易于通过比较转录体的序列而被识别。转录体F’(SEQ ID NO:246)相比于转录体A包括从外显子6至内含子6的通读。因此,本文提供与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的分离的核酸,其中,所述连续核苷酸包含如下片段,所述片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:246(HSD17B13转录体F’)最佳比对时与SEQ ID NO:246中的内含子6内的通读内的区域或横跨位于SEQ ID NO:246中的内含子6中的通读和外显子6的其余部分之间的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。应当理解的是,这样的核酸可被设计为与通读内的足够数量的核苷酸杂交以使得所述通读与HSD17B13转录体中的其他特性相区别(例如,与其他HSD17B13转录体中的外显子6和外显子7的边界相区别)。任选地,所述连续核苷酸包含存在于转录体F’中而不存在于转录体F(SEQ ID NO:9)中的序列。转录体F中的通读包括存在于HSD17B13rs72613567变体基因中的插入的胸腺嘧啶,而转录体F’不包括所述通读。
作为一个实例,所述片段包含内含子6中的通读内的SEQ ID NO:246的区域或横跨位于内含子6中的通读和外显子6的其余部分之间的边界的区域。
本文还提供包含如下区域的分离的核酸,所述区域(例如,至少15个连续核苷酸)与编码存在于转录体C(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的HSD17B13蛋白质的核酸的片段杂交。这些区域可易于通过比较转录体的序列而被识别。转录体C(SEQ ID NO:6)相比于转录体A缺乏外显子6(即,转录体C包括不存在于转录体A中的外显子5-外显子7的边界)。因此,本文提供的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷杂交,其中,所述连续核苷酸包含如下片段,所述片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)在与SEQ ID NO:6(HSD17B13转录体C)最佳比对时与横跨SEQ ID NO:6中的外显子5-外显子7的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。应当理解的是,这样的核酸可设计为与外显子5和外显子7中的足够数量的核苷酸杂交以与HSD17B13转录体中的其他特性相区别(例如,与其他HSD17B13转录体中的外显子5和外显子6的边界或外显子6和外显子7的边界相区别)。
作为一个实例,所述片段可包括横跨外显子5-外显子7的边界的SEQ ID NO:6的区域。
本文还提供与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的分离的核酸(例如,反义RNA,siRNA或shRNA),其中,所述连续核苷酸包含与HSD17B13转录体D(SEQID NO:7)的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)。所述分离的核酸可包含与存在于转录体D(或其片段或类似物)中而不存在于转录体A(或其片段或类似物)中的片段杂交的区域(例如,至少15个连续核苷酸)。这些区域可易于通过比较转录体的序列而识别。HSD17B13转录体D(SEQ ID NO:7)包括位于外显子6的3’端的鸟嘌呤插入,这导致相比于转录体A(SEQ ID NO:4)发生外显子7的移位和提前截短。例如,本文提供的分离的核酸与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交,其中,所述连续核苷酸包含在与SEQ ID NO:7最佳比对时与横跨SEQ ID NO:7(HSD17B13转录体D)中的外显子6-外显子7的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)。所述片段可包括位于对应于SEQ ID NO:7的外显子6的3’端的残基878的残基处的鸟嘌呤(即,除了位于外显子7起始处的鸟嘌呤之外,相对于转录体A在外显子6的3’端具有插入的鸟嘌呤)。应当理解的是,这些核酸可被设计为与各外显子6和外显子7中的足够数量的核苷酸杂交以使得插入的鸟嘌呤与HSD17B13转录体中的其他特性相区别(例如,与转录体F中的内含子的通读相区别或与转录体C中的删除的外显子6相区别)。
本文还提供与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的分离的核酸(例如,反义RNA,siRNA或shRNA),其中,所述连续核苷酸包含与HSD17B13转录体A(SEQID NO:4)的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)。所述分离的核酸可包含与存在于转录体A(或其片段或类似物)中而不存在于转录体D(或其片段或类似物)中的片段杂交的区域(例如,至少15个连续核苷酸)。这些区域可易于通过比较转录体的序列而被识别。HSD17B13转录体D(SEQ ID NO:7)包括位于外显子6的3’端的鸟嘌呤插入,这导致相比于转录体A(SEQ ID NO:4)外显子7发生移位和提前截短。例如,本文提供与编码HSD17B13蛋白质的核酸的至少15个连续核苷酸杂交的分离的核酸,其中,所述连续核苷酸包含在与SEQ ID NO:4(HSD17B13转录体A)最佳比对时与横跨SEQ IDNO:4的外显子6-外显子7的边界的区域具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的片段(例如,至少5个连续核苷酸,至少10个连续核苷酸或至少15个连续核苷酸)。
(5)载体
本文还提供包含本文公开的核酸中的任何一种以及外源核酸的载体。所述载体可以是能够运送核酸的病毒载体或非病毒载体。在一些情况下,载体可以是质粒(例如,其中可连接有额外的DNA片段的圆形双链DNA)。在一些情况下,载体可以是病毒载体,其中,额外的DNA片段可连接至病毒基因组。在一些情况下,载体可在将其引入其中的宿主细胞中自动复制(例如,具有细菌复制来源的细菌载体和附加型哺乳动物载体)。在其他情况下,载体(例如,非附加型哺乳动物载体)可在引入宿主细胞中之后整合进入宿主细胞的基因组中,从而沿着宿主基因组复制。而且,一些载体可指向其可操作地连接的基因的表达。这些载体可称为“重组表达载体”或“表达载体”。这些载体还可以是本文公开的靶向载体(即,外源供体序列)。
在一些情况下,由本文公开的基因变体编码的蛋白质通过将编码本文公开的基因变体的核酸插入表达载体中而被表达,这样,基因可操作地连接至诸如转录控制序列和翻译控制序列之类的必需表达控制序列。表达载体可包括例如:质粒,逆转录病毒,腺病毒,腺相关病毒(AAV),诸如花椰菜花叶病毒,烟草花叶病毒之类的植物病毒,粘粒,YAC,EBV衍生的游离体等等。在一些情况下,包含本文公开的基因变体的核酸可连接至载体,这样,载体内的转录和翻译控制序列使用其期望的功能来它调节所述基因变体的转录和翻译。所述表达载体和表达控制序列被选择为与所使用的表达宿主细胞相容。包含本文公开的基因变体的核酸序列可插入不同的载体中或可插入相同的表达载体中。包含本文公开的基因变体的核酸序列可通过标准方法(例如,如果没有限制位点的话,将包含本文公开的基因变体的核酸上的互补性限制位点与载体连接或平端连接)插入表达载体中。
除了包含本文公开的基因变体的核酸序列之外,重组表达载体还可带有控制宿主细胞中的基因变体的表达的调节性序列。包括选择调节性序列在内的对表达载体的设计可取决于如下因素:待转化的宿主细胞的选择,所期望的蛋白质的表达水平等等。优选的用于哺乳动物宿主细胞表达的调节性序列可包括例如:指向哺乳动物中高水平蛋白质表达的病毒元件,例如,衍生自逆转录病毒LTR的启动子和/或增强子,衍生自巨细胞病毒(CMV)的启动子和/或增强子(例如,CMV启动子/增强子),衍生自猿猴病毒40(SV40)的启动子和/或增强子(SV40启动子和/或增强子),衍生自腺病毒的启动子和/或增强子(例如,腺病毒主要晚期启动子(AdMLP)),多瘤病毒和强哺乳动物启动子(例如,天然免疫球蛋白和肌动蛋白启动子)。对病毒调节性元件及其序列的进一步描述在美国专利US5,168,062;US4,510,245;和US4,968,615中提供,这些美国专利中的每一个的全部内容通过引用并入本文。在细菌细胞或真菌细胞(例如,酵母细胞)中表达多肽的方法也是本领域熟知的。
除了包含本文公开的基因变体和调节性序列的核酸序列之外,重组表达载体还可带有额外的序列,例如,调节宿主细胞中载体的复制的序列(例如,复制的起源)和可选择的标志物基因。可选择的标志物基因可有利于其中已引入了载体的宿主细胞的选择(参见,例如,US4,399,216;US4,634,665;和US5,179,017,这些美国专利中的每一个的全部内容通过引用并入本文)。例如,可选择的标志物基因可在已向其中引入了载体的宿主细胞上赋予对药物(例如,G418,潮霉素或甲氨蝶呤)的耐受性。示例性的可选择的标志物基因包括二氢叶酸还原酶(DHFR)基因(用于带有甲氨蝶呤选择/扩增的dhfr宿主细胞),neo基因(用于G418选择)和谷氨酸合成酶(GS)基因。
B.蛋白质
本文公开了分离的HSD17B13蛋白质及其片段,具体而言,本文公开了由HSD17B13rs72613567变体生成的HSD17B13蛋白质及其片段。
本文公开的分离的蛋白质可包含天然生成的HSD17B13蛋白质的氨基酸序列,或可包含非天然生成的序列。在一个实例中,所述非天然生成的序列可由于保守氨基酸取代而彼此相异。例如,除了保守氨基酸取代之外,序列可以是相同的。
本文公开的分离的蛋白质可连接至或融合至外源多肽或外源分子或标签,所述外源多肽或外源分子或标签的多个实例在本文中公开。例如,蛋白质可融合至提供增加的或降低的稳定性的外源多肽。融合的结构域或外源多肽可位于N-末端,C-末端或蛋白质内部。例如,融合伴侣可有助于提供T辅助表位(免疫融合伴侣)或可有助于以高于天然重组蛋白的产率表达蛋白质(表达增强子)。一些融合伴侣是免疫增强融合伴侣和表达增强融合伴侣。可选择其他融合伴侣以增强多肽的稳定性或使得所述多肽靶向期望的细胞内腔室。其他融合伴侣包括亲和性标记,其有利于多肽的纯化。
融合蛋白可与异源分子直接融合或可通过诸如肽连接体之类的连接体连接至外源分子。合适的肽连接体序列可例如基于如下因素进行选择:(1)能够采用柔性延伸构象,(2)无法采用可与第一和第二多肽上的功能表位发生相互作用的第二结构,以及(3)缺少可能与多肽功能性表位发生相互作用的疏水或带电荷的残基。例如,肽连接体序列可包含Gly,Asn和Ser残基。在连接体序列中也可使用其他类似的中性氨基酸,例如,Thr和Ala。可用作连接体的氨基酸序列包括Maratea等人(1985)Gene 40:39-46;Murphy等人,(1986)Proc.Natl.Acad.Sci.USA 83:8258-8262;美国专利US4,935,233;和美国专利US4,751,180中公开的那些氨基酸序列,上述参考文献中的每一个的全部内容通过引用并入本文。例如,连接体序列的长度通常可以是1至约50个氨基酸。当第一和第二多肽具有可用于分隔功能结构域并防止空间干扰的非必需N-末端氨基酸区域时,通常不需要连接体序列。
蛋白质还可以可操作地连接至细胞渗透结构域。例如,所述细胞渗透结构域可衍生自HIV-1TAT蛋白质,来自人乙型肝炎病毒的TLM细胞渗透基序,MPG,Pep-1,VP22,来自单纯性疱疹病毒的细胞渗透肽或聚精氨酸肽序列。参见,例如,WO2014/089290,其全部内容通过引用并入本文。所述细胞渗透结构域可位于蛋白质内的N-末端,C-末端或任何其他地方。
为了便于跟踪或纯化,蛋白质还可以可操作地连接至外源多肽,例如,荧光蛋白质,纯化标记或表位标记。荧光蛋白的实例包括绿色荧光蛋白(例如,GFP,GFP-2,标记GFP,turboGFP,eGFP,Emerald,Azami Green,单体Azami Green,CopGFP,AceGFP,ZsGreenl),黄色荧光蛋白(例如,YFP,eYFP,柠檬黄,Venus,YPet,PhiYFP,ZsYellowl),蓝色荧光蛋白(例如,eBFP,eBFP2,Azurite,mKalamal,GFPuv,Sapphire,T-sapphire),青色荧光蛋白(例如,eCFP,Cerulean,CyPet,AmCyanl,Midoriishi-Cyan),红色荧光蛋白(例如,mKate,mKate2,mPlum,DsRed monomer,mCherry,mRFP1,DsRed-Express,DsRed2,DsRed-Monomer,HcRed-Tandem,HcRedl,AsRed2,eqFP611,mRaspberry,mStrawberry,Jred),橙色荧光蛋白(例如,mOrange,mKO,Kusabira-Orange,Monomeric Kusabira-Orange,mTangerine,tdTomato),以及任何其他合适的荧光蛋白。标签的实例包括谷胱甘肽-S-转移酶(GST),甲壳素结合蛋白(CBP),麦芽糖结合蛋白,硫氧还蛋白(TRX),聚(NANP),串联亲和纯化(TAP)标签,myc,AcV5,AU1,AU5,E,ECS,E2,FLAG,血球凝集素(HA),nus,Softag 1,Softag 3,Strep,SBP,Glu-Glu,HSV,KT3,S,S1,T7,V5,VSV-G,组氨酸(His),生物素羧基载体蛋白(BCCP)和钙调蛋白。
本文的分离的蛋白质还可包括非天然的或修饰的氨基酸或肽类似物。例如,本领域具有多种D氨基酸或相对于天然生成的氨基酸具有不同功能取代基的氨基酸。本文公开了天然生成的肽的相反的立体异构体以及肽类似物的立体异构体。这些氨基酸可易于通过使tRNA分子带有选择的氨基酸和工程化基因构建体而合并至多肽链中,所述工程化基因构建体使用例如琥珀密码子将类似氨基酸以位点特异性方式插入肽链中(Thorson等人,(1991)Methods Molec.Biol.77:43-73;Zoller(1992)Current Opinion inBiotechnology 3:348-354;Ibba,(1995)Biotechnology&Genetic Engineering Reviews13:197-216;Cahill等人,(1989)TIBS14(10):400-403;Benner(1993)TIB Tech 12:158-163;and Ibba and Hennecke(1994)Biotechnology 12:678-682,上述参考文献中的每一个的全部内容通过引用并入本文)。
可生成类似于肽的分子,但是不通过天然肽连接键连接。例如,氨基酸或氨基酸类似物的连接键可包括CH2NH--,--CH2S--,--CH2----,--CH=CH--(顺式和反式),--COCH2--,--CH(OH)CH2--,和--CHH2SO--(参见,例如,Spatola,A.F.in Chemistry andBiochemistry of Amino Acids,Peptides,and蛋白质s,B.Weinstein,eds.,MarcelDekker,New York,p.267(1983);Spatola,A.F.,Vega Data(March 1983),Vol.1,Issue 3,Peptide Backbone Modifications(general review);Morley(1994)Trends Pharm Sci15(12):463-468;Hudson等人,(1979)Int J Pept Prot Res 14:177-185;Spatola等人,(1986)Life Sci 38:1243-1249;Hann(1982)Chem.Soc Perkin Trans.I 307-314;Almquist等人,(1980)J.Med.Chem.23:1392-1398;Jennings-White等人,(1982)Tetrahedron Lett 23:2533);Szelke等人,European Appln,EP 45665CA(1982):97:39405(1982);Holladay等人,(1983)Tetrahedron.Lett 24:4401-4404;and Hruby(1982)LifeSci 31:189-199,上述参考文献中的每一个的全部内容通过引用并入本文)。肽类似物可在键合原子之间具有多于一个原子,例如,b-丙氨酸,γ-氨基丁酸等等。
氨基酸类似物和肽类似物通常具有提高的或期望的性质,例如,更加经济的生产方式,更好的化学稳定性,提高的药代动力学性质(半衰期,吸收,效力,疗效等等),可变的特异性(例如,多种生物活性),抗原性降低以及其他理想的性质。
D-氨基酸可用于生成更加稳定的肽,因为D氨基酸不被肽酶等识别。带有相同类型的D-氨基酸的共有序列中的一个或多个氨基酸的系统取代(例如,D-赖氨酸取代L-赖氨酸)可用于生成更加稳定的肽。半胱氨酸残基可用于环化或连接两个或多个肽在一起。这可有益于将肽限制在特定的构象中(参见,例如,Rizo and Gierasch(1992)Ann.Rev.Biochem.61:387,其全部内容通过引用并入本文)。
本文还公开了编码本文公开的蛋白质中的任一种的核酸。这包括与特定多肽序列相关的所有简并序列(即,具有编码一个特定多肽序列的序列的所有核酸以及包括简并核酸的编码本文公开的蛋白质序列的变体和衍生物的所有核酸)。因此,在本文没有记载每个特定核酸序列的情况下,通过本文公开的多肽序列,本文事实上公开并描述了每一个序列。
本文还公开包括本文公开的分离的多肽或蛋白质以及增加所述分离的多肽的稳定性的载体的组合物。这些载体的非限定性实例包括聚(乳酸)(PLA)微球,聚(D,L-乳酸-羟基乙酸共聚物)(PLGA)微球,脂质体,胶束,反相胶束,脂质卷和脂质微管。
(1)HSD17B13蛋白质和片段
本文公开了分离的HSD17B13蛋白质及其片段,具体而言,本文公开了由HSD17B13rs72613567变体生成的HSD17B13蛋白质及其片段,或者,具体公开了HSD17B13亚型C,D,E,F,F’,G和H。这些蛋白质可包括例如,包含HSD17B13亚型C,D,E,F,F’,G或H或其片段的至少5个连续氨基酸,至少6个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸,至少12个连续氨基酸,至少14个连续氨基酸,至少15个连续氨基酸,至少16个连续氨基酸,至少18个连续氨基酸,至少20个连续氨基酸,至少22个连续氨基酸,至少24个连续氨基酸,至少25个连续氨基酸,至少30个连续氨基酸,至少35个连续氨基酸,至少40个连续氨基酸,至少45个连续氨基酸,至少50个连续氨基酸,至少60个连续氨基酸,至少70个连续氨基酸,至少80个连续氨基酸,至少90个连续氨基酸,至少100个连续氨基酸,至少150个连续氨基酸,至少200个连续氨基酸,至少250个连续氨基酸,或至少300个连续氨基酸的分离的多肽。应当理解的是,由这些基因编码的种群和蛋白质内的基因序列可由于诸如单个核苷酸多态性之类的多态性而发生改变。本文提供的每个HSD17B13亚型的序列仅仅是示例性的序列。其他序列也是有可能的。例如,分离的多肽包含在分别与亚型C,D,E,F,F’,G或H最佳比对时与HSD17B13亚型C,D,E,F,F’,G或H具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性的氨基酸序列(例如,连续氨基酸的序列)。任选地,分离的多肽包含与HSD17B13亚型C,D,E,F,F’,G或H相同的序列。
作为一个实例,分离的多肽可包含存在于亚型D,G和H(或其片段或类似物)中而不存在于亚型A(或其片段或类似物)中的片段(例如,至少8个连续氨基酸)。这些区域可易于通过比较亚型的序列而被识别。由亚型D,G和H中的外显子7编码的区域相比于由亚型A中的外显子7编码的区域发生移位和截短。因此,这样的分离的多肽可包括HSD17B13蛋白质的至少5个连续氨基酸,至少6个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸,至少12个连续氨基酸,至少14个连续氨基酸,至少15个连续氨基酸,至少16个连续氨基酸,至少18个连续氨基酸,至少20个连续氨基酸,至少22个连续氨基酸,至少24个连续氨基酸,至少25个连续氨基酸,至少30个连续氨基酸,至少35个连续氨基酸,至少40个连续氨基酸,至少45个连续氨基酸,至少50个连续氨基酸,至少60个连续氨基酸,至少70个连续氨基酸,至少80个连续氨基酸,至少90个连续氨基酸,至少100个连续氨基酸,至少150个连续氨基酸或至少200个连续氨基酸(例如,HSD17B13蛋白质的至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸),其中,在所述分离的多肽分别与SEQ ID NO:15,18或19最佳比对时,所述连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸)与包括SEQ ID NO:15(HSD17B13亚型D),SEQ ID NO:18(HSD17B13亚型G)或SEQ ID NO:19(HSD17B13亚型H)中的外显子7编码的区域的至少一部分的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
这些分离的多肽还可包含存在于亚型D(或其片段或类似物)中而不存在于亚型G(或其片段或类似物)中的片段,并且还可包含存在于亚型D(或其片段或类似物)中而不存在于亚型H(或其片段或类似物)中的片段。这些区域可易于通过比较亚型的序列而被识别。例如,这些分离的多肽可包含在与SEQ ID NO:15最佳比对时与横跨由SEQ ID NO:15(HSD17B13亚型D)的外显子3和外显子4编码的区域的边界的片段具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性的连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸)以与亚型H相区别。类似地,这些分离的多肽可包含如下连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸),其在与SEQ ID NO:15最佳比对时与由SEQ ID NO:15(HSD17B13亚型D)中的外显子2编码的区域中的片段,横跨由SEQ ID NO:15中的外显子1和外显子2编码的区域的边界的片段,或横跨由SEQ ID NO:15中的外显子2和外显子3编码的区域的边界的片段具有至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的一致性以与亚型G相区别。
类似于亚型D,相比于亚型A,由亚型H(SEQ ID NO:19)中的外显子7编码的区域发生移位和截短。然而,此外,相比于亚型A和D,亚型H包括由位于外显子3和外显子4之间的额外的外显子(外显子3’)编码的区域。因此,这样的分离的多肽可以是如上所描述的,包含存在于亚型D,G和H(或其片段或类似物)中而不存在于亚型A(或其片段或类似物)中的片段,而且其还包含不存在于亚型D(或其片段或类似物)中的来自亚型H(或其片段或类似物)的片段(例如,至少8个连续氨基酸)。这些区域可易于通过比较亚型的序列而被识别。例如,在所述分离的多肽与SEQ ID NO:19最佳比对时,这样的分离的多肽可还包括如下连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸),所述连续氨基酸、与包括由SEQ ID NO:19(HSD17B13亚型H)中的外显子3’编码的区域的至少一部分的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
类似于亚型D,相比于亚型A,由亚型G(SEQ ID NO:18)中的外显子7编码的区域发生移位和截短。然而,此外,相比于亚型A和D,亚型D缺乏由外显子2编码的区域,并且因此包括不存在于亚型A和D中的外显子1-外显子3边界。因此,这样的分离的多肽可以是本文如上所描述的,其包含存在于亚型D,G和H(或其片段或类似物)中而不存在于亚型A(或其片段或类似物)中的片段,但是其还包含不存在于亚型D(或其片段或类似物)中的来自亚型G(或其片段或类似物)的片段(例如,至少8个连续氨基酸)。这些区域可易于通过比较亚型的序列而被识别。例如,在将所述分离的多肽与SEQ ID NO:18最佳比对时,这样的分离的多肽可进一步包含如下连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸,或至少15个连续氨基酸),所述连续氨基酸与横跨由SEQID NO:18(HSD17B13亚型G)中的外显子1和外显子3编码的区域的边界的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
本文还提供包含存在于亚型E(或其片段或类似物)中而不存在于亚型A(或其片段或类似物)中的片段(例如,至少8个连续氨基酸)的分离的多肽。亚型E包括由不存在于亚型A中的外显子3和外显子4之间的额外的外显子(外显子3’)编码的区域。这些区域可易于通过比较亚型的序列而被识别。因此,所述分离的多肽可包含HSD17B13蛋白质的至少5个连续氨基酸,至少6个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸,至少12个连续氨基酸,至少14个连续氨基酸,至少15个连续氨基酸,至少16个连续氨基酸,至少18个连续氨基酸,至少20个连续氨基酸,至少22个连续氨基酸,至少24个连续氨基酸,至少25个连续氨基酸,至少30个连续氨基酸,至少35个连续氨基酸,至少40个连续氨基酸,至少45个连续氨基酸,至少50个连续氨基酸,至少60个连续氨基酸,至少70个连续氨基酸,至少80个连续氨基酸,至少90个连续氨基酸,至少100个连续氨基酸,至少150个连续氨基酸或至少200个连续氨基酸(例如,至少8个连续氨基酸,至少10个连续氨基酸,或至少15个连续氨基酸),其中,在将所述分离的多肽分别与SEQ ID NO:16或19最佳比对时,所述连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸)与包括由SEQ ID NO:16(HSD17B13亚型E)或SEQ ID NO:19(HSD17B13亚型H)中的外显子3’编码的区域的至少一部分的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。任选地,这样的分离的多肽还可包含不存在于亚型H(或其片段或类似物)中的来自亚型E(或其片段或类似物)的片段(例如,至少8个连续氨基酸)。这些区域可易于通过比较亚型的序列而被识别。例如,这样的分离的多肽还可包含如下连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸),在将所述分离的多肽与SEQ IDNO:16最佳比对时,所述连续氨基酸与横跨由SEQ ID NO:16(HSD17B13亚型E)中的外显子6和外显子7编码的区域的边界的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
本文还公开了包含存在于亚型F(或其片段或类似物)中而不存在于亚型A(或其片段或类似物)中的片段(例如,至少8个连续氨基酸)的分离的多肽。亚型F包括由不存在于亚型A中的外显子6至内含子6的通读编码的区域。这些区域可易于通过比较亚型的序列而被识别。因此,所述分离的多肽可包含HSD17B13蛋白质的至少5个连续氨基酸,至少6个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸,至少12个连续氨基酸,至少14个连续氨基酸,至少15个连续氨基酸,至少16个连续氨基酸,至少18个连续氨基酸,至少20个连续氨基酸,至少22个连续氨基酸,至少24个连续氨基酸,至少25个连续氨基酸,至少30个连续氨基酸,至少35个连续氨基酸,至少40个连续氨基酸,至少45个连续氨基酸,至少50个连续氨基酸,至少60个连续氨基酸,至少70个连续氨基酸,至少80个连续氨基酸,至少90个连续氨基酸,至少100个连续氨基酸,至少150个连续氨基酸或至少200个连续氨基酸(例如,至少8个连续氨基酸,至少10个连续氨基酸,或至少15个连续氨基酸),其中,在将所述分离的多肽与SEQ ID NO:17最佳比对时,所述连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸)与包括由SEQID NO:17(HSD17B13亚型F)中的内含子6内的通读编码的区域的至少一部分的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
本文还提供包含存在于亚型C(或其片段或类似物)中而不存在于亚型A(或其片段或类似物)中的片段(例如,至少8个连续氨基酸)的分离的多肽。相比于亚型A,亚型C缺乏外显子6编码的区域并且包括不存在于亚型A中的外显子5-外显子7边界。这些区域可易于通过比较亚型的序列而被识别。因此,分离的多肽可包含HSD17B13蛋白质的至少5个连续氨基酸,至少6个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸,至少12个连续氨基酸,至少14个连续氨基酸,至少15个连续氨基酸,至少16个连续氨基酸,至少18个连续氨基酸,至少20个连续氨基酸,至少22个连续氨基酸,至少24个连续氨基酸,至少25个连续氨基酸,至少30个连续氨基酸,至少35个连续氨基酸,至少40个连续氨基酸,至少45个连续氨基酸,至少50个连续氨基酸,至少60个连续氨基酸,至少70个连续氨基酸,至少80个连续氨基酸,至少90个连续氨基酸,至少100个连续氨基酸,至少150个连续氨基酸或至少200个连续氨基酸(例如,至少8个连续氨基酸,至少10个连续氨基酸,或至少15个连续氨基酸),其中,在将所述分离的多肽与SEQ ID NO:14最佳比对时,所述连续氨基酸的片段(例如,至少3个连续氨基酸,至少5个连续氨基酸,至少8个连续氨基酸,至少10个连续氨基酸或至少15个连续氨基酸)与横跨由SEQ ID NO:14(HSD17B13亚型C)中的外显子5和外显子7编码的区域的边界的片段具有至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的一致性。
本文公开的分离的多肽中的任一种可连接至异源分子或异源标记。这些异源分子或标记的实例在本文其他地方公开。例如,所述异源分子可以是免疫球蛋白Fc结构域,本文其他地方公开的肽标签,聚(乙二醇),多唾液酸或乙醇酸。
(2)生成HSD17B13蛋白质或片段的方法
本文还公开了生成本文公开的HSD17B13蛋白质或其片段中的任一种的方法。这些HSD17B13蛋白质或其片段可由任何合适的方法生成。例如,HSD17B13蛋白质或其片段可由包含编码这些HSD17B13蛋白质或其片段的核酸(例如,重组表达载体)的宿主细胞生成。这些方法可包括培养包含编码HSD17B13蛋白质或其片段的核酸(例如,重组表达载体)的宿主细胞,从而生成HSD17B13蛋白质或其片段。所述核酸可以可操作地连接至在宿主细胞中具有活性的启动子,并且所述培养可在表达所述核酸的条件下进行。这些方法可还包括回收表达的HSD17B13蛋白质或其片段。所述回收可还包括纯化HSD17B13蛋白质或其片段。
用于蛋白质表达的合适的系统的实例包括细菌细胞表达系统(例如,大肠杆菌,乳酸乳球菌),酵母细胞表达系统(例如,酿酒酵母,毕赤酵母),完整的细胞表达系统(例如,杆状病毒介导的蛋白质表达)和哺乳动物细胞表达系统。
编码HSD17B13蛋白质或其片段的核酸的实例在本文的其他地方更加详细地公开。任选地,这些核酸是优化了在宿主细胞中的表达的密码子。任选地,这些核酸可操作地连接至在宿主细胞中具有活性的启动子。所述启动子可以是异源启动子(即,不是天然生成的HSD17B13启动子的启动子)。适于大肠杆菌的启动子的实例包括阿拉伯糖,lac,tac和T7启动子。适于乳酸乳球菌的启动子的实例包括P170和乳酸链球菌素启动子。适于酿酒酵母的启动子的实例包括诸如乙醇脱氢酶(ADHI)或烯醇酶(ENO)之类的保守启动子或诸如PHO,CUP1,GAL1和G10之类的可诱导启动子。适于毕赤酵母的启动子的实例包括乙醇氧化酶I(AOX I)启动子,甘油醛3磷酸酯脱氢酶(GAP)启动子,以及谷胱甘肽依赖甲醛脱氢酶(FLDI)启动子。适于杆状病毒介导的系统的启动子的实例是晚期病毒强多角体启动子(lateviral strong polyhedron promoter)。
任选地,核酸还编码带有HSD17B13蛋白质或其片段的框架中的标签以促进蛋白质纯化。本文的其他地方公开了标签的实例。这些标签可例如结合至伴侣配体(例如,固定在树脂上),这样标记的蛋白质可从所有其他蛋白质(例如,宿主细胞蛋白质)中分离出来。亲和性色谱分析,高分辨液相色谱分析和尺寸排阻色谱分析是可用于改善所表达的蛋白质的纯度的方法的实例。
其他方法也可用于生成HSD17B13蛋白质或其片段。例如,两个或多个肽或多肽可通过蛋白质化学技术连接在一起。例如,肽或多肽可使用Fmoc(9-芴基甲氧基羰基)或Boc(叔丁基氧羰基)化学进行化学合成制备。这些肽或多肽可通过标准化学反应进行合成。例如,肽或多肽可进行合成制备但不从其合成树脂上解离下来,而肽或蛋白质的其他片段可进行合成并随后从树脂上解离下来,从而暴露在另一片段上被功能上阻断的末端基团。通过肽缩合反应,这两个片段可分别通过位于其羧基和氨基末端的肽键共价连接在一起(Grant GA(1992)Synthetic Peptides:A User Guide.W.H.Freeman and Co.,N.Y.(1992);and Bodansky M and Trost B.,Ed.(1993)Principles of PeptideSynthesis.Springer-Verlag Inc.,NY,上述参考文献中的每一个的全部内容通过引用并入本文)。可选地,肽或多肽可如本文所述的在体内独立地合成。一旦被分离,这些独立的肽或多肽可被连接以通过类似的肽缩聚反应形成肽或其片段。
例如,克隆的或合成的肽片段的酶连接使得相对较短的肽片段被连接在一起以生成较大的肽片段,多肽或整个蛋白质结构域(Abrahmsen L等人,(1991)Biochemistry 30:4151,其全部内容通过引用并入本文)。可选地,合成的肽的天然化学连接可用于由较短的肽片段以合成的方式构建较大的肽或多肽。该方法可由两步化学反应构成(Dawson等人,(1994)Science 266:776-779,其全部内容通过引用并入本文)。第一步可以是未保护的合成的肽-硫酯与包含氨基末端Cys残基的另一未保护的肽片段的化学选择反应以生成硫酯连接的中间体作为初始共价产物。在不改变反应条件的情况下,该中间体可经历自发的快速分子内反应以在连接位点形成天然的肽键(Baggiolini等人,(1992)FEBS Lett307:97-101;Clark-Lewis等人,(1994)J Biol Chem 269:16075;Clark-Lewis等人,(1991)Biochemistry 30:3128;and Rajarathnam等人,(1994)Biochemistry 33:6623-6630,上述参考文献中的每一个的全部内容通过引用并入本文)。
可选地,未保护的肽片段可通过化学方法连接,其中,由于化学连接而在肽片段之间形成的键是非天然(非肽)键(Schnolzer等人,(1992)Science 256:221,其全部内容通过引用并入本文)。该技术已被用于合成蛋白质结构域的类似物以及大量具有完全生物活性的相对纯的蛋白质(deLisle Milton RC等人,Techniques in Protein ChemistryIV.Academic Press,New York,pp.257-267(1992),这些参考文献中的每一个全部内容通过引用并入本文)。
C.细胞
本文还提供包含本文公开的核酸和蛋白质中的任一种的细胞(例如,重组宿主细胞)。所述细胞可以是体外的,离体的或体内的。核酸可连接至启动子或其他调节性序列,因此,所述核酸被表达而生成编码的蛋白质。本文提供所有类型的细胞。
所述细胞可以是例如:全能细胞或多能细胞(例如,胚胎干(ES)细胞,例如,啮齿动物ES细胞,小鼠ES细胞或大鼠ES细胞)。全能细胞包括可产生任何细胞类型的未分化的细胞和包括未分化的细胞的多能细胞,所述未分化的细胞能够发育成多于一种分化的细胞类型。这些多能细胞和/或全能细胞可以是例如:ES细胞或类ES细胞,例如,诱导多能性干(iPS)细胞。ES细胞包括胚胎衍生的全能细胞或多能细胞,所述多能细胞能够在引入胚胎中之后有助于胚胎发育成任何组织。ES细胞可衍生自囊胚的内细胞团并且能够分化成三个脊椎动物胚层(内胚层,外胚层和中胚层)中的任一胚层的细胞。
细胞还可以是初始体细胞或不是初始体细胞的细胞。体细胞可包括不是配子,生殖细胞,配子母细胞或未分化的干细胞的细胞。所述细胞还可以是初始细胞。初始细胞包括细胞或细胞培养物,所述细胞或细胞培养物已从生物体、器官或组织中直接分离出来。初始细胞包括既未转化也非永生的细胞。它们包括获自生物体、器官或组织的先前未经过组织培养或已经经过组织培养但无法在组织培养物中无限传代的任何细胞。这些细胞可通过传统技术进行分离并且包括例如:体细胞,造血细胞,内皮细胞,上皮细胞,成纤维细胞,间充质细胞,角化细胞,黑素细胞,单核细胞,单核细胞,脂肪细胞,前脂肪细胞,神经元,胶质细胞,肝细胞,骨骼肌成肌细胞,和平滑肌细胞。例如,初始细胞可衍生自结缔组织,肌肉组织,神经系统组织或上皮组织。
这些细胞还包括通常不会无限增殖但是由于突变或改变而逃避正常细胞衰老的细胞,并且其可保持分化。这些突变或改变可天然发生或有意诱导发生。永生化的细胞的实例包括中国仓鼠卵巢(CHO)细胞,人胚胎肾细胞(例如,HEK293细胞)和小鼠胚胎成纤维细胞(例如,3T3细胞)。本领域已熟知多种类型的永生化的细胞。永生化的细胞或初始细胞包括通常用于培养或表达重组基因或蛋白质的细胞。
所述细胞可以是分化的细胞,例如肝细胞(例如,人肝细胞)。
所述细胞可以获自任何来源。例如,所述细胞可以是真核细胞,动物细胞,植物细胞或真菌(例如,酵母)细胞。这些细胞可以是鱼细胞或鸟细胞,或者这些细胞可以是哺乳动物细胞,例如,人细胞,非人类哺乳动物细胞,啮齿动物细胞,小鼠细胞或大鼠细胞。哺乳动物包括例如:人类,非人类灵长类动物,猴,猿,猫,狗,马,公牛,鹿,欧洲野牛,绵羊,啮齿动物(例如,小鼠,大鼠,仓鼠,豚鼠),牲畜(例如,牛科动物,例如,奶牛,阉牛等等;绵羊类物种,例如,绵羊,山羊等,以及猪类物种,例如,猪和野猪)。鸟类包括例如:鸡,火鸡,鸵鸟,鹅,鸭子等等。本文还包括家养动物和农用动物。术语“非人类动物”排除了人类。
对于小鼠细胞而言,小鼠可以是任何种系,包括例如,来自129种系,C57BL/6种系,BALB/c种系,Swiss Webster种系,129种系和C57BL/6种系的混合,BALB/c种系和C57BL/6种系的混合,129种系和BALB/c种系的混合,以及BALB/c,C57BL/6和129种系的混合。例如,小鼠可以至少部分来自于BALB/c种系(例如,至少约25%,至少约50%,至少约75%衍生自BALB/c种系,或约25%,约50%,约75%或约100%衍生自BALB/c种系)。在一个实例中,小鼠是包含50% BALB/c,25% C57BL/6以及25%129的种系。可选地,小鼠包含排除BALB/c的种系或种系组合。
129种系的实例包括129P1,129P2,129P3,129X1,129S1(例如,129S1/SV,129S1/Svlm),129S2,129S4,129S5,129S9/SvEvH,129S6(129/SvEvTac),129S7,129S8,129T1,和129T2。参见,例如,Festing等人,(1999)Mammalian Genome 10(8):836,其全部内容通过引用并入本文。C57BL种系的实例包括C57BL/A,C57BL/An,C57BL/GrFa,C57BL/Kal_wN,C57BL/6,C57BL/6J,C57BL/6ByJ,C57BL/6NJ,C57BL/10,C57BL/10ScSn,C57BL/10Cr,和C57BL/Ola。小鼠细胞还可获自前述129种系和前述C57BL/6种系的混合(例如,50%129和50%C57B/6)。类似地,小鼠细胞可获自前述129种系的混合或前述BL/6种系的混合(例如,129S6(129/SvEvTac)种系)。
对于大鼠细胞而言,大鼠可以是任何大鼠种系,包括例如:ACI大鼠种系,DarkAgouti(DA)大鼠种系,Wistar大鼠种系,LEA大鼠种系,Sprague Dawley(SD)大鼠种系或Fischer大鼠种系(例如,Fisher F344或Fisher F6)。大鼠还可获自衍生自上述两种或多种种系的混合的种系。例如,大鼠可获自DA种系或ACI种系。ACI大鼠种系被表征为具有黑色刺豚鼠,其具有白色腹部和足部以及RT1av1单体型。这些种系可获自包括Harlan实验室在内的多种不同的来源。Dark Agouti(DA)大鼠种系被表征为具有刺豚鼠外表和RT1av1单体型。这些大鼠获自包括Charles River和Harlan实验室在内的多种不同的来源。在一些情况下,所述大鼠来自同系交配大鼠种系。参见例如,US2014/0235933 A1,其全部内容通过引用并入本文。
III.用于修饰或改变HSD17B13的表达的方法
本文提供通过使用核酸酶试剂、外源供体序列、转录活化剂、转录抑制剂、反义分子(例如反义RNA,siRNA和shRNA)、HSD17B13蛋白质或其片段以及用于表达重组HSD17B13基因的表达载体或编码HSD17B13蛋白质的核酸的任何组合来修饰细胞的各种不同的方法。所述方法可在体外发生、离体发生或在体内发生。核酸酶试剂、外源供体序列、转录活化剂、转录抑制剂、反义分子(例如反义RNA,siRNA和shRNA)、HSD17B13蛋白质或其片段以及表达载体可以任何形式并通过本文所述的任何方式引入细胞内,并且所有核酸酶试剂、外源供体序列、转录活化剂、转录抑制剂、反义分子(例如反义RNA,siRNA和shRNA)、HSD17B13蛋白质或其片段以及表达载体或其中一些可以任何组合同时引入细胞内或按顺序引入细胞内。一些方法涉及仅改变细胞内内源HSD17B13基因。一些方法涉及通过使用转录活化剂或抑制剂或通过使用反义分子(例如反义RNA,siRNA或shRNA)仅改变内源HSD17B13基因的表达。一些方法涉及向细胞内仅引入重组HSD17B13基因或编码HSD17B13蛋白质或其片段的核酸。一些方法涉及向细胞内仅引入HSD17B13蛋白质或其片段(例如,本文公开的HSD17B13蛋白质或其片段中的任一种或任何组合或者本文公开的HSD17B13亚型A-H或其片段中的任一种或任何组合)。例如,这些方法可涉及将HSD17B13亚型C,D,F,G和H(或其片段)中的一种或多种引入细胞内或将HSD17B13亚型D(或其片段)引入细胞内。可选地,这些方法可涉及将HSD17B13亚型A,B和E或亚型A,B,E和F’(或其片段)中的一种或多种引入细胞内或将HSD17B13亚型A(或其片段)引入细胞内。其他方法可涉及改变细胞内的内源HSD17B13基因以及将HSD17B13蛋白质或其片段或者重组HSD17B13基因或编码HSD17B13蛋白质或其片段的核酸引入细胞内。其他方法可涉及改变细胞内内源HSD17B13基因的表达以及将HSD17B13蛋白质或其片段或者重组HSD17B13基因或者编码HSD17B13蛋白质或其片段的核酸引入细胞内。
A.修饰HSD17B13核酸的方法
本文提供通过使用核酸酶试剂和/或外源供体序列修饰细胞(例如,多能细胞或诸如肝细胞之类的分化的细胞)的基因组内的HSD17B13基因的各种不同的方法。所述方法可在体外发生,离体发生或体内发生。核酸酶试剂可单独使用或与外源供体序列联合使用。可选地,外源供体序列可单独使用或可与核酸酶试剂联合使用。
响应双链断裂(DSB)的修复主要通过两种保守DNA修复通路:非同源性末端结合(NHEJ)和同源重组(HR)而发生。参见,Kasparek&Humphrey(2011)Seminars in Cell&Dev.Biol.22:886-897,其全部内容通过引用并入本文。NHEJ包括通过将断裂末端彼此直接连接或直接连接至外源序列来修复核酸中的双链断裂,而无需同源模板。通过NHEJ连接非连续序列通常可导致在双链断裂位点的附近发生删除、插入或移位。
由外源供体序列介导的目标核酸(例如,HSD17B13基因)的修复可包括交换两个多核苷酸之间的遗传信息的任何过程。例如,NHEJ还可通过将断裂末端直接连接至外源供体序列的末端(即,基于NHEJ的捕获)发生外源供体序列的定向整合。在同源定向修复(HDR)通路不易使用(例如,在未分化的细胞、初始细胞和难以进行同源DNA修复的细胞中)时,这种NHEJ介导的定向整合对于插入外源供体序列而言可以是优选的。此外,与同源定向修复形成鲜明对比的是,不太需要涉及裂解位点(超出由Cas介导的裂解产生的悬挂)侧面较大区域的序列一致性的知识,这些知识在尝试向具有对其基因组序列不太了解的基因组的生物体内进行定向插入时是有益的。整合可通过将外源供体序列和裂解的基因组序列之间的平端进行连接或通过使用外源供体序列连接粘性末端(即,具有5’或3’的悬挂)来进行,其中,所述外源供体序列位于与由裂解的基因组序列中的Cas蛋白质生成的那些悬挂相容的悬挂的侧面。参见例如,US2011/020722,WO 2014/033644,WO 2014/089290,and Maresca等人,(2013)GenomeRes.23(3):539-546,这些参考文献中的每一个的全部内容通过引用并入本文。如果平端被连接,那么可能需要靶点切除和/或供体切除以生成片段连接所需的微同源区域,靶点切除和/或供体切除可能会在靶向序列中产生不想要的改变。
修复还可通过同源定向修复(HDR)或同源重组(HR)而发生。HDR或HR包括可能需要核苷酸序列同源性的核酸修复形式,使用作为用于修复“目标”分子(即,经历了双链断裂的分子)的模板的“供体”分子并且引起遗传信息从供体转移至靶标。在不受任何特定理论的限制的条件下,这些转移可能会涉及断裂靶标和供体之间形成的异源双链DNA的错配校正和/或合成依赖的链退火和/或相关过程,其中,所述供体用于再合成将会成为靶标的一部分的遗传信息。在一些情况下,供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分整合进入靶标DNA。参见,Wang等人,(2013)Cell 153:910-918;Mandalos等人,(2012)PLOS ONE 7:e45768:1-9;and Wang等人,(2013)NatBiotechnol.31:530-532,这些参考文献中的每一个的全部内容通过引用并入本文。
基因组中对HSD17B13基因的靶向基因修饰可通过使细胞与包含5’同源臂和3’同源臂的外源供体序列接触而产生,所述5’同源臂与HSD17B13基因中的靶标基因组基因座处的5’靶向序列杂交,所述3’同源臂与HSD17B13基因中的靶标基因组基因座处的3’靶向序列杂交。外源供体序列可与靶标基因组基因座重组以产生对HSD17B13基因的靶向基因修饰。作为一个实例,在将HSD17B13基因与SEQ ID NO:2最佳比对时,所述5’同源臂可与对应于SEQ ID NO:2的位置12666的位置的靶标序列5’杂交,并且3’同源臂可与对应于SEQ ID NO:2的位置12666的位置的靶标序列3’杂交。这些方法可产生例如如下HSD17B13基因,在将该HSD17B13基因与SEQ ID NO:1最佳比对时,在该基因中在对应于SEQ ID NO:1的位置12665和12666的核苷酸之间插入胸腺嘧啶(或在相对链的对应位置插入有腺嘌呤)。作为另一实例,在将HSD17B13基因与SEQ ID NO:1最佳比对时,5’同源臂和3’同源臂可在对应于SEQ IDNO:1的那些侧面外显子6的位置分别与5’靶向序列和3’靶向序列杂交。这些方法可产生例如如下HSD17B13基因,在将该HSD17B13基因与SEQ ID NO:1最佳比对时,在该基因中对应于SEQ ID NO:1的外显子6的序列已被删除。作为另一实例,在将HSD17B13基因与SEQ ID NO:1最佳比对时,5’同源臂和3’同源臂可在对应于SEQ ID NO:1的那些侧面外显子2的位置分别与5’靶向序列和3’靶向序列杂交。这些方法可产生例如如下HSD17B13基因,在该基因中,在将HSD17B13基因与SEQ ID NO:1最佳比对时,对应于SEQ ID NO:1的外显子2的序列已被删除。作为另一实例,在将HSD17B13基因与SEQ ID NO:1最佳比对时,5’同源臂和3’同源臂可在对应于SEQ ID NO:1的外显子6/内含子6边界的位置上分别与5’靶向序列和3’靶向序列杂交。作为另一实例,在将HSD17B13基因与SEQ ID NO:1最佳比对时,5’同源臂和3’同源臂可在对应于SEQ ID NO:1的外显子6和外显子7的位置分别与5’靶向序列和3’靶向序列杂交。这些方法可产生例如如下HSD17B13基因,在该基因中,在HSD17B13基因与SEQ ID NO:1最佳比对时,在对应于SEQ ID NO:1的位置12665和12666的核苷酸之间插入有胸腺嘧啶(或在相对链的对应位置插入有腺嘌呤)。作为另一实例,5’同源臂和3’同源臂可在对应于SEQID NO:1的那些侧面位点的位置或对应于SEQ ID NO:1的内含子6中的供体剪接位点的区域(即,SEQ ID NO:1中内含子6的5’端的区域)内分别与5’靶向序列和3’靶向序列杂交。这些方法可产生例如如下HSD17B13基因,在该基因中内含子6中的供体剪接位点被中断。外源供体序列的实例在本文的其他地方公开。
对基因组中的HSD17B13基因进行定向基因组修饰还可通过使细胞与诱导HSD17B13基因中的靶标基因组基因座处的目标序列的一个或多个切口或双链断裂的核酸酶试剂接触而产生。这些方法可产生例如如下HSD17B13基因,在该基因中,对应于SEQ IDNO:1的内含子6中的供体剪接位点的区域(即,SEQ ID NO:1中的内含子6的5’端的区域)被中断。可用于这些方法中的核酸酶试剂的实例和各种改变在本文中的其他地方公开。
例如,对基因组中的HSD17B13基因进行定向基因修饰可通过使细胞或细胞的基因组与Cas蛋白质和一个或多个向导RNA接触而产生,所述向导RNA与HSD17B13基因中的靶标基因组基因座中的一个或多个向导RNA识别序列杂交。即,对基因组中的HSD17B13基因的定向基因组修饰可通过使细胞或细胞的基因组与Cas蛋白质和一个或多个向导RNA接触而产生,所述向导RNA靶向HSD17B13基因中的靶标基因组基因座内的一个或多个向导RNA靶向序列杂交。例如,这些方法可包括使细胞与Cas蛋白质和靶向HSD17B13基因内的向导RNA靶向序列的向导RNA接触。作为一个实例,向导RNA靶向序列位于在将HSD17B13基因与SEQ IDNO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6的区域内。作为一个实例,向导RNA靶向序列位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6和/或外显子7(例如,外显子6和/或内含子7,或者外显子6和/或外显子7)的区域内。作为另一实例,向导RNA靶向序列可包括或者接近在将HSD17B13基因与SEQ IDNO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置。例如,向导RNA靶向序列可以位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置的约1000个核苷酸之内,500个核苷酸之内,400个核苷酸之内,300个核苷酸之内,200个核苷酸之内,100个核苷酸之内,50个核苷酸之内,45个核苷酸之内,40个核苷酸之内,35个核苷酸之内,30个核苷酸之内,25个核苷酸之内,20个核苷酸之内,15个核苷酸之内,10个核苷酸之内,或5个核苷酸之内。作为又一实例,向导RNA靶向序列可包括或接近HSD17B13基因的起始密码子或HSD17B13基因的终止密码子。例如,向导RNA靶向序列可在起始密码子或终止密码子的约10个核苷酸之内,20个核苷酸之内,30个核苷酸之内,40个核苷酸之内,50个核苷酸之内,100个核苷酸之内,200个核苷酸之内,300个核苷酸之内,400个核苷酸之内,500个核苷酸之内,或1,000个核苷酸之内。Cas蛋白质和向导RNA形成复合物并且Cas蛋白质裂解向导RNA靶向序列。由Cas蛋白质进行的裂解可产生双链断裂或单链断裂(即,如果Cas蛋白质是切口酶的话)。这些方法可产生例如如下HSD17B13基因,在该基因中,对应于SEQ ID NO:1的内含子6中的供体剪接位点的区域被中断(即,SEQ ID NO:1中的内含子6的5’端的区域),起始密码子被中断,终止密码子被中断或编码序列被删除。可用于这些方法中的Cas(例如,Cas9)蛋白质和向导RNA的实例和各种改变在本文的其他地方公开。
在一些方法中,使用两个或多个核酸酶试剂。例如,可使用两个核酸酶试剂,每个核酸酶试剂靶向在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6,或者外显子6和/或外显子7的区域内的核酸酶靶向序列,或者在将HSD17B13基因与SEQ ID NO:2最佳比对时,每个核酸酶试剂包括或接近对应于SEQ ID NO:2的位置12666的位置(例如,在将HSD17B13基因与SEQ ID NO:2最佳比对时,在对应于SEQ IDNO:2的位置12666的位置的约1000个核苷酸之内,500个核苷酸之内,400个核苷酸之内,300个核苷酸之内,200个核苷酸之内,100个核苷酸之内,50个核苷酸之内,45个核苷酸之内,40个核苷酸之内,35个核苷酸之内,30个核苷酸之内,25个核苷酸之内,20个核苷酸之内,15个核苷酸之内,10个核苷酸之内,或5个核苷酸之内)。例如,可使用两个核酸酶试剂,每个核酸酶试剂靶向在将HSD17B13基因与SEQ ID NO:2最佳比对时位于对应于SEQ ID NO:2的外显子6和/或内含子6和/或外显子7的区域内的核酸酶靶向序列。作为另一实例,可使用两个或多个核酸酶试剂,每个核酸酶试剂靶向包括或接近起始密码子的核酸酶靶向序列。作为另一实例,可使用两个核酸酶试剂,一个核酸酶试剂靶向包括或接近起始密码子的核酸酶靶向序列,并且另一核酸酶试剂靶向包括或接近终止密码子的核酸酶靶向序列,其中,由核酸酶试剂进行的裂解可导致两个核酸酶靶向序列之间的编码区域删除。作为又一实例,可使用三个或多个核酸酶试剂,其中,一个或多个(例如两个)核酸酶试剂靶向包括或接近起始密码子的核酸酶靶向序列,并且一个或多个(例如两个)靶向核酸酶试剂靶向包括或接近终止密码子的核酸酶靶向序列,其中,所述核酸酶试剂产生的裂解可导致包括或接近起始密码子的核酸酶靶向序列与包括或接近终止密码子的核酸酶靶向序列之间的编码区域删除。
任选地,细胞还可与靶向HSD17B13基因中的靶标基因组基因座内的额外的向导RNA靶向序列的一个或多个额外的向导RNA接触。通过使细胞与一个或多个额外的向导RNA(例如,靶向第二向导RNA靶向序列的第二向导RNA)接触,Cas蛋白质产生的裂解可产生两个或多个双链断裂或两个或多个单链断裂(例如,如果Cas蛋白质是切口酶的话)。
任选地,细胞可再与一个或多个外源供体序列接触,所述外源供体序列与HSD17B13基因中的靶标基因组基因座重组以产生定向基因修饰。可用于这些方法中的外源供体序列的实例和多种改变在本文的其他地方公开。
Cas蛋白质,向导RNA和外源供体序列可以任何形式并通过本文公开的任何方式被引入细胞中,并且所有Cas蛋白质,向导RNA和外源供体序列或其中的一些可以任何组合同时引入细胞中或按顺序引入细胞中。
在一些这样的方法中,由外源供体序列对靶标核酸(例如,HSD17B13基因)的修复通过同源定向修复(HDR)进行。同源定向修复可在Cas蛋白质裂解HSD17B13基因中的DNA双链以产生双链断裂时而发生,在Cas蛋白质是裂解靶标核酸中的DNA的一个链的切口酶以产生单链断裂时而发生,或在Cas切口酶用于产生由两个补偿切口形成的双链断裂时而发生。在这些方法中,外源供体序列包含对应于5’和3’靶向序列的5’和3’同源臂。向导RNA靶向序列或裂解位点可接近5’靶向序列,接近3’靶向序列,接近5’靶向序列和3’靶向序列这两者,或者既不接近5’靶向序列也不接近3’靶向序列。任选地,外源供体序列可还包含位于5’和3’同源臂的侧面的核酸插入体,所述核酸插入体插入于5’和3’靶向序列之间。如果不存在核酸插入体,所述外源供体序列可发挥删除5’和3’靶向序列之间的基因组序列的功能。本文的其他地方公开了外源供体序列的实例。
可选地,由外源供体序列介导的HSD17B13基因的修复可通过非同源末端连接(NHEJ)介导的连接而发生。在这些方法中,外源供体序列中的至少一个末端包含与HSD17B13基因中的Cas介导的裂解产生的至少一个悬挂互补的较短的单链区域。外源供体序列中的互补末端可位于核酸插入体的侧面。例如,外源供体序列的每个末端可包含与HSD17B13基因中的Cas-介导的裂解产生的悬挂互补的较短的单链区域,并且,外源供体序列中的这些互补区域可位于核酸插入体的侧面。
悬挂(即,交错末端)可通过由Cas介导的裂解产生的双链断裂的平末端的切除而产生。这样的切除可产生片段连接所需的微同源性区域,但是这可在HSD17B13基因中产生不想要的或不可控的改变。可选地,这些悬挂可通过使用匹配的Cas切口酶来产生。例如,细胞可与裂解DNA的相对链的第一和第二切口酶接触,由此通过双切口来修饰基因组。这可通过使细胞接触第一Cas蛋白质切口酶,靶向HSD17B13基因中的靶标基因组基因座内的第一向导RNA靶向序列的第一向导RNA,第二Cas蛋白质切口酶以及靶向HSD17B13基因中的靶标基因组基因座内的第二向导RNA靶向序列的第二向导RNA而完成。所述第一Cas蛋白质和第一向导RNA形成第一复合物,并且所述第二Cas蛋白质和第二向导RNA形成第二复合物。所述第一Cas蛋白质切口酶裂解第一向导RNA靶向序列内的基因组DNA的第一链,所述第二Cas蛋白质切口酶裂解第二向导RNA靶向序列内的基因组RNA的第二链,并且任选地,外源供体序列与HSD17B13基因中的靶标基因组基因座重组以产生定向基因修饰。
所述第一切口酶可裂解基因组DNA的第一链(即,互补链)并且所述第二切口酶可裂解基因组DNA的第二链(即,非互补链)。所述第一和第二切口酶可通过例如使Cas9的RuvC结构域(例如,本文其他地方所公开的D10A突变)中的催化残基进行突变或使Cas9的HNH结构域(例如,本文其他地方所公开的H840A突变)中的催化残基进行突变而产生。在这些方法中,双切口可用于产生具有交错末端(即,悬挂)的双链断裂。第一和第二向导RNA靶向序列可位于产生裂解位点的位置,这样,由DNA的第一和第二链上的第一和第二切口酶产生的切口产生双链断裂。在第一和第二CRISPR RNA靶向序列中的切口相互补偿时产生悬挂。补偿窗口可以是例如至少约5bp,10bp,20bp,30bp,40bp,50bp,60bp,70bp,80bp,90bp,100bp或更大。参见例如,Ran等人,(2013)Cell 154:1380-1389;Mali等人,(2013)Nat.Biotech.31:833-838;以及Shen等人,(2014)Nat.Methods 11:399-404,这些参考文献中的每一个的全部内容通过引用并入本文。
(1)定向基因修饰的类型
可使用本文公开的方法引入各种不同类型的定向基因修饰。这些定向修饰可包括例如,一个或多个核苷酸的添加,一个或多个核苷酸的删除,一个或多个核苷酸的取代,点突变或其组合。例如,至少1个,2个,3个,4个,5个,7个,8个,9个,10个或更多个核苷酸可被改变(例如,删除,插入或取代)以形成定向基因组修饰。如本文其他地方所公开的,删除,插入或取代可以是任何尺寸。参见,例如,Wang等人,(2013)Cell 153:910-918;Mandalos等人,(2012)PLOS ONE 7:e45768:1-9;以及Wang等人,(2013)Nat Biotechnol.31:530-532,上述参考文献中的任一个通过引用并入本文。
这些定向基因修饰可导致靶标基因组基因座的中断。中断可包括调节性元件(例如,启动子或增强子)的改变,错义突变,无义突变,移位突变,截短突变,无效突变或少量核苷酸的插入或删除(例如,导致移位突变),并且所述中断可导致等位基因的失活(即,功能丧失)或缺失。例如,定向修饰可包括HSD17B13基因的起始密码子的中断,这使得起始密码子不再是功能性的。
在特定实施例中,定向修饰可包含在第一和第二向导RNA靶向序列或Cas裂解位点之间发生删除。如果使用外源供体序列(例如,修复模板或目标载体),所述修饰可包含第一和第二向导RNA靶向序列或Cas裂解位点之间发生的删除以及在5’和3’靶向序列之间插入核酸插入体。
可选地,如果单独使用外源供体序列或联合使用外源供体序列和核酸酶试剂,所述修饰可包含在5’和3’靶向序列之间的删除以及在第一和第二同源染色体对的5’和3’靶向序列之间插入核酸插入体,从而产生纯合修饰的基因组。可选地,如果外源供体序列包含5’和3’同源臂而不包含核酸插入体,所述修饰可包含在5’和3’靶向序列之间的删除。
在第一和第二向导RNA靶向序列之间的删除或在5’和3’靶向序列之间的删除可以是精确删除,其中,所删除的核酸仅由第一和第二核酸酶裂解位点之间的核酸序列构成或仅由5’和3’靶向序列之间的核酸序列构成,这样,在修饰的基因组目标基因座处没有额外的删除或插入。在第一和第二向导RNA靶向序列之间的删除还可以是非精确删除,其延伸超过第一和第二核酸酶裂解位点,与非同源末端连接(NHEJ)的非精确配对一致,这导致在修饰的基因组目标基因座处产生额外的删除和/或插入。例如,删除可延伸超过第一和第二Cas蛋白质裂解位点约1bp,约2bp,约3bp,约4bp,约5bp,约10bp,约20bp,约30bp,约40bp,约50bp,约100bp,约200bp,约300bp,约400bp,约500bp或更长。类似地,修饰的基因组位点可包含与NHEJ的非精确配对一致的额外的插入,例如,插入约1bp,约2bp,约3bp,约4bp,约5bp,约10bp,约20bp,约30bp,约40bp,约50bp,约100bp,约200bp,约300bp,约400bp,约500bp或更长。
定向基因修饰可以是例如,双等位基因修饰或单等位基因修饰。双等位基因修饰包括对对应的同源染色体(例如,二倍体细胞内)上的相同的基因座进行的相同修饰或对对应的同源染色体上的相同位点进行的不同修饰。在一些方法中,定向基因修饰是单等位基因修饰。单等位基因修饰包括仅对一个等位基因进行的修饰(即,仅对两个同源染色体中的一个中的HSD17B13基因进行修饰)。同源染色体包括在相同的基因座处具有相同的基因的染色体,但是可能是不同的等位基因(例如,在减数分裂期间配对的染色体)。术语等位基因包括基因序列的一个或多个可选形式中的任一种。在二倍体细胞或生物体中,给定序列的两个等位基因通常占据同源染色体对上的对应基因座。
单等位基因突变可产生用于定向HSD17B13修饰的杂合的细胞。杂合性包括HSD17B13基因(即,两个同源染色体上的对应的等位基因)中的仅仅一个等位基因具有定向修饰的情况。
双等位基因修饰可产生用于定向修饰的纯合性。纯合性包括HSD17B13基因(即,两个同源染色体上的对应等位基因)中的两个等位基因均具有定向修饰的情况。可选地,双等位基因修饰可产生用于定向修饰的复合的杂合性(例如,半合子状态)。复合的杂合性包括目标基因座的两个等位基因(即,两个同源染色体上的等位基因)已被修饰的情况,但是这两个等位基因以不同方式被修饰(例如,一个等位基因中发生定向修饰而另一等位基因失活或中断)。例如,在没有定向修饰的等位基因中,由Cas蛋白质产生的双链断裂可能已通过非同源末端连接(NHEJ)介导的DNA配对而发生配对,这产生了突变的等位基因,其包含核酸序列的插入或删除,从而导致基因组基因座的中断。例如,如果细胞具有一个定向修饰的等位基因和无法进行表达的另一等位基因,那么,双等位基因修饰可产生复合的杂合性。复合的杂合性包括半合子状态。半合子状态包括目标基因座只有一个等位基因(即,两个同源染色体中的一个上的等位基因)的情况。例如,如果定向修饰发生在带有对应的另一等位基因损失或删除的一个等位基因中,那么双等位基因修饰可产生用于定向修饰的半合子状态。
(2)识别带有定向基因修饰的细胞
本文公开的方法可还包括识别具有修饰的HSD17B13基因的细胞。各种不同的方法可用于识别具有定向基因修饰(例如删除或插入)的细胞。这些方法可包括识别具有在HSD17B13基因中的定向基因修饰的一个细胞。可进行筛选以识别具有修饰的基因位点的细胞。
筛选步骤可包括评价母体染色体的等位基因(MOA)的修饰的定量分析方法(例如,失去等位基因(LOA)和/或获得等位基因(GOA)分析方法)。例如,定量分析方法可通过定量PCR(例如,实时PCR(qPCR))来实施。实时PCR可使用识别目标基因基因座的第一引物组和识别非目标参比基因座的第二引物组。所述引物组可包含识别扩增的序列的荧光探针。失去等位基因(LOA)分析方法转化传统筛选逻辑并对向其引入突变的固有基因座的拷贝数量进行定量。在准确靶定的细胞克隆中,LOA分析方法检测两个固有等位基因中的一个(不在X或Y染色体上的基因),另一个等位基因被定向修饰中断。相同的原理可反过来作为获得等位基因(GOA)分析方法,将其用于对插入的靶定载体的拷贝数量进行定量。例如,因为缺失了固有靶向基因中的一个拷贝并且获得了耐药性基因的一个拷贝或其他插入的标志物,联合使用GOA和LOA分析方法将会揭示准确靶定的杂合性克隆。
作为实例,定量聚合酶链反应(qPCR)可用作等位基因的定量方法,但是可以可靠地区分目标基因的0个拷贝,一个拷贝和两个拷贝之间的区别或核酸插入体的0个拷贝,一个拷贝和两个拷贝之间的区别的任何方法可用于研发MOA分析方法。例如,可用于对基因组DNA样本中的DNA模板的拷贝数进行定量,尤其是通过与参比基因进行比较(参见,例如,US 6,596,541,其全部内容通过引用并入本文)。对作为目标基因或基因座的相同基因组DNA中的参比基因进行定量。因此,执行两个扩增(其每一个具有其各自的探针)。一个探针确定参比基因的“Ct(阈值循环)”,而其他探针确定目标基因或基因座区域的Ct,所述目标基因或基因座由成功靶定(即,LOA分析)来替代。Ct是反映探针中的每一个的起始DNA的数量的量,即,较低丰度序列需要更多的PCR循环来达到阈值循环。通过使反应的模板序列的拷贝数量减半可导致增加大约1个Ct单元。当与非目标细胞中的DNA进行比较时,目标基因或位点中的一个等位基因被同源重组代替的细胞中的反应将会导致目标反应增加一个Ct,而不会增加参比基因的Ct。对于GOA分析而言,另一探针可用于确定核酸插入体的Ct,该核酸插入体通过成功靶定而取代目标基因或基因座。
合适的定量分析方法的其他实例包括荧光介导的原位杂交(FISH),对比基因组杂交,等温DNA扩增,与非固定探针,探针,分子信标探针的定量杂交,或ECLIPSETM探针技术(参见例如,US2005/0144655,其全部内容通过引用并入本文)。还可使用用于筛选定向修饰的传统分析方法(例如,长片段PCR,Southern印迹或桑格测序)。这些分析方法通常用于获取位于插入的靶向载体和目标基因基因座之间的键合的证据。例如,对于长片段PCR分析方法而言,一个引物可识别插入的DNA内的序列,而另一引物可识别超过靶向载体的同源臂的末端的目标基因基因座序列。
还可使用二代测序(NGS)进行筛选。二代测序也可被称为“NGS”或“大规模平行测序”或“高通量测序”。在本文公开的方法中,不必须使用选择标志物来筛选目标细胞。例如,可依赖于本文描述的MOA和NGS分析方法,而无需使用选择盒。
B.改变HSD17B13核酸的表达的方法
本文提供用于改变编码HSD17B13蛋白质的核酸的表达的各种不同的方法。在一些方法中,如本文其他地方进一步详细描述的,通过使用核酸酶试剂进行裂解以导致编码HSD17B13蛋白质的核酸中断而使表达发生改变。在一些方法中,通过使用融合至或连接至转录活化结构域或转录抑制结构域的DNA结合蛋白质而使表达发生改变。在一些方法中,通过使用诸如反义RNA,shRNA或siRNA之类的RNA干扰组合物而使表达发生改变。
在一个实例中,HSD17B13基因的表达或编码HSD17B13蛋白质的核酸的表达可通过使细胞或细胞内的基因组与核酸酶试剂接触而被修饰,所述核酸酶试剂诱导HSD17B13基因或编码HSD17B13蛋白质的核酸内的目标基因组基因座处目标序列的一个或多个切口或双链断裂。这样的裂解可导致HSD17B13基因的表达发生中断或编码HSD17B13蛋白质的核酸的表达中断。例如,核酸酶靶向序列可包括或接近HSD17B13基因的起始密码子。例如,目标序列可以位于起始密码子的约10个核苷酸之内,20个核苷酸之内,30个核苷酸之内,40个核苷酸之内,50个核苷酸之内,100个核苷酸之内,200个核苷酸之内,300个核苷酸之内,400个核苷酸之内,500个核苷酸之内,或1,000个核苷酸之内,并且由核酸酶试剂产生的裂解可中断起始密码子。作为另一实例,可使用两个或多个核酸酶试剂,其每一个靶向包括或接近起始密码子的核酸酶靶向序列。作为另一实例,可使用两个核酸酶试剂,一个靶向包括或接近起始密码子的核酸酶靶向序列,并且一个靶向包括或接近终止密码子的核酸酶靶向序列,其中,由核酸酶试剂产生的裂解可导致两个核酸酶靶向序列之间的编码区域的删除。作为又一实例,可使用三个或多个核酸酶试剂,其中,一个或多个(例如,两个)靶向包括或接近起始密码子的核酸酶靶向序列,并且一个或多个(例如两个)靶向包括或接近终止密码子的核酸酶靶向序列,其中,核酸酶试剂产生的裂解可导致包括或接近起始密码子的核酸酶靶向序列和包括或接近终止密码子的核酸酶靶向序列之间的编码区域的删除。修饰HSD17B13基因或编码HSD17B13蛋白质的核酸的其他实例在本文的其他地方公开。
在另一实例中,HSD17B13基因的表达或编码HSD17B13蛋白质的核酸的表达可通过使细胞或细胞内的基因组接触结合至HSD17B13基因内的靶向基因组基因座的DNA-结合蛋白而被修饰。所述DNA-结合蛋白可以是例如,融合至转录活化结构域或转录抑制结构域的核酸酶惰性Cas蛋白质。DNA结合蛋白质的其他实例包括融合至转录活化结构域或转录抑制结构域的锌手指蛋白,或融合至转录活化结构域或转录抑制结构域的类转录活化效应因子(TALE)蛋白。这些蛋白质的实例在本文的其他地方公开。例如,在一些方法中,转录抑制剂可用于降低野生型HSD17B13基因的表达或非rs72613567变体的HSD17B13基因的表达(例如,降低HSD17B13转录体或亚型A的表达)。类似地,在一些方法中,转录活化剂可用于增加HSD17B13基因rs72613567变体基因的表达(例如,增加HSD17B13转录体或亚型D的表达)。
DNA结合蛋白质的靶向序列(例如,向导RNA靶向序列)可位于HSD17B13基因内的任何位置或可以是适于改变表达的编码HSD17B13蛋白质的核酸。作为一个实例,靶向序列可以位于诸如增强子或启动子之类的调节性元件内或者可以靠近调节性元件。例如,靶向序列可以报考或接近HS17B13基因的起始密码子。例如,靶向序列可以位于起始密码子的约10个核苷酸之内,20个核苷酸之内,30个核苷酸之内,40个核苷酸之内,50个核苷酸之内,100个核苷酸之内,200个核苷酸之内,300个核苷酸之内,400个核苷酸之内,500个核苷酸之内,或1,000个核苷酸之内。
在另一实例中,反义分子可用于改变HSD17B13基因的表达或编码HSD17B13蛋白质的核酸的表达。反义分子的实例包括反义RNA,小干扰RNA(siRNA)和短发夹RNA(shRNA)。这些反义RNA,siRNA或shRNA可设计为靶向mRNA的任何区域。例如,反义RNA,siRNA或shRNA可被设计为靶向对于本文公开的HSD17B13转录体中的一个或多个而言独特的区域,或本文公开的HSD17B13转录体中的一个或多个共有的区域。与cDNA和变体HSD17B13转录体杂交的核酸的实例在本文的其他地方更加详细地公开。例如,反义RNA,siRNA或shRNA可与SEQ IDNO:4(HSD17B13转录体A)内的序列杂交。任选地,反义RNA,siRNA或shRNA可降低细胞内HSD17B13转录体A的表达。任选地,反义RNA,siRNA或shRNA与存在于SEQ ID NO:4(HSD17B13转录体A)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的序列杂交。任选地,反义RNA,siRNA或shRAN与SEQ ID NO:4(HSD17B13转录体A)的外显子7内的序列或横跨SEQ ID NO:4的外显子6-外显子7边界的序列杂交。
作为另一实例,反义RNA,siRNA或shRNA可与SEQ ID NO:7(HSD17B13转录体D)内的序列杂交。任选地,反义RNA,siRNA或shRNA可降低细胞内HSD17B13转录体D的表达。任选地,反义RNA,siRNA或shRNA与存在于SEQ ID NO:7(HSD17B13转录体D)中而不存在于SEQ IDNO:4(HSD17B13转录体A)中的序列杂交。任选地,反义RNA,siRNA或shRNA与SEQ ID NO:7(HSD17B13转录体D)的外显子7内的序列或横跨SEQ ID NO:7(HSD17B13转录体D)的外显子6-外显子7边界的序列杂交。
C.将核酸和蛋白质引入细胞内
本文公开的核酸和蛋白质可以任何方式引入细胞内。“引入”包括以使序列接近细胞内部的方式向细胞呈递核酸或蛋白质。所述引入可通过任何方式完成,并且多种成分中的一种或多种(例如,多种成分中的两种或所有成分)可以任何组合同时或按顺序引入细胞内。例如,外源供体序列可在引入核酸酶试剂之前引入,或其可在引入核酸酶试剂之后引入(例如,可在引入核酸酶试剂之前或之后的约1小时,2小时,3小时,4小时,8小时,12小时,24小时,36小时,48小时或72小时给药外源供体序列)。参见例如,US2015/0240263和US2015/0110762,这两篇美国专利中的每一个的全部内容通过引用并入本文。使细胞的基因组接触核酸酶试剂或外源供体序列可包括向细胞内引入一个或多个核酸酶试剂或编码核酸酶试剂的核酸(例如,一种或多种Cas蛋白质或编码一种或多种Cas蛋白质的核酸以及一种或多种向导RNA或编码一种或多种向导RNA的核酸(即,一种或多种CRISPR RNA和一种或多种tracrRNA))和/或一种或多种外源供体序列。接触细胞的基因组(即,接触细胞)可包括向细胞内仅引入上述成分中的一个,引入上述成分中的一个或多个或者引入全部上述成分。
核酸酶试剂可以蛋白质的形式或编码核酸酶试剂的核酸的形式(例如,RNA(例如,信使RNA(mRNA))或DNA)引入细胞中。当以DNA的形式引入时,DNA可以可操作地连接至细胞中的活性启动子。这样的DNA可以存在于一种或多种表达构建体中。
例如,Cas蛋白质可以蛋白质的形式(例如,与gRNA复合的Cas蛋白质)或编码Cas蛋白质的核酸的形式(例如,RNA(例如,信使RNA(mRNA))或DNA)引入细胞中。向导RNA可以RNA的形式或编码向导RNA的DNA的形式引入细胞中。当以DNA的形式引入时,编码Cas蛋白质和/或向导RNA的DNA可以可操作地连接至细胞中的活性启动子。这样的DNA可以在一个或多个表达构建体中。例如,这些表达构建体可以是单个核酸分子的成分。可选地,它们可以任何组合分开在两个或多个核酸分子中(例如,编码一种或多个CRISPR RNA的DNA,编码一种或多个tracrRNA的DNA和编码Cas蛋白质的DNA可以是不同的核酸分子的成分)。
在一些方法中,编码核酸酶试剂(例如,Cas蛋白质和向导RNA)的DNA和/或编码外源供体序列的DNA可通过DNA微环引入细胞中。参见例如,WO 2014/182700,其全部内容通过引用并入本文。DNA微环是超螺旋的DNA分子,其可用于非病毒基因转移,该非病毒基因转移既不具有复制来源也不具有抗生素选择标志物。因此,DNA微环的尺寸通常小于质粒载体的尺寸。这些DNA缺乏细菌DNA,因此在细菌DNA中缺少非甲基化的CpG基序。
本文提供的方法不依赖于用于将核酸或蛋白质引入细胞中的具体方法,所述具体方法仅仅是使核酸或蛋白质接近至少一个细胞的内部。本领域已知将核酸和蛋白质引入各种不同类型的细胞中的方法并且包括例如,稳定转染方法,瞬时转染方法和病毒介导方法。
转染规程以及将核酸或蛋白质引入细胞内的规程可能各不相同。非限定性的转染方法包括使用脂质体,纳米颗粒,磷酸钙的基于化学的转染方法(Graham等人,(1973)Virology 52(2):456-67,Bacchetti等人,(1977)Proc.Natl.Acad.Sci.USA 74(4):1590-4,以及Kriegler,M(1991).Transfer and Expression:A Laboratory Manual.New York:W.H.Freeman and Company.pp.96-97);树枝状聚合物;或诸如DEAE-葡聚糖或聚乙烯亚胺之类的阳离子聚合物。非化学方法包括电穿孔,Sono-穿孔,和光转染。基于颗粒的转染包括使用基因枪或磁性辅助转染(Bertram(2006)Current Pharmaceutical Biotechnology 7,277-28)。病毒方法也可用于转染。
将核酸或蛋白质引入细胞内还可以由电穿孔介导,由胞质内注射介导,由病毒感染介导,由腺病毒介导,由腺相关病毒介导,由慢病毒介导,由逆转录病毒介导,由转染介导,由脂质介导的转染介导,或由核转染(nucleofection)介导。核转染是一种改进的电穿孔技术,其不仅能够将核酸底物递送至细胞质而且还可以通过核膜将核酸底物递送至细胞核内。此外,在本文公开的方法中使用核转染相对于常规电穿孔需要少得多的细胞(例如,相对于常规电穿孔需要7百万个细胞,其仅需要约2百万个细胞)。在一个实例中,核转染使用NUCLEOFECTORTM系统进行。
将核酸或蛋白质引入细胞内还可通过显微注射完成。mRNA的显微注射优选进入细胞质内(例如,将mRNA直接递送至翻译装置),而蛋白质或编码Cas蛋白质的DNA的显微注射优选进入细胞核内。可选地,显微注射可通过注射进入细胞核和细胞质这两者来实施:首先可将针头引入细胞核内并注射第一量,并且在将所述针头从细胞中移出时,向细胞质中注射第二量。如果将核酸酶试剂蛋白质注射进入细胞质中,那么优选地,所述蛋白质包含细胞核定位信号以确保递送至细胞核/原核。实施显微注射的方法是本领域熟知的。参见例如,Nagy等人,(Nagy A,Gertsenstein M,Vintersten K,Behringer R.,2003,Manipulatingthe Mouse Embryo.Cold Spring Harbor,New York:Cold Spring Harbor LaboratoryPress);Meyer等人,(2010)Proc.Natl.Acad.Sci.USA 107:15022-15026以及Meyer等人,(2012)Proc.Natl.Acad.Sci.USA 109:9354-9359。
用于将核酸或蛋白质引入细胞内的其他方法可包括例如,载体递送,颗粒介导的递送,核外体介导的递送,脂质纳米颗粒介导的递送,细胞渗透肽介导的递送,或可植入设备介导的递送。将核酸或蛋白质给药于受治者以在体内修饰细胞的方法在本文其他地方公开。
将核酸和蛋白质引入细胞内还可通过流体力学递送(HDD)完成。流体力学递送作为一种近乎完美的体内细胞内DNA递送的方法而出现。对于将基因递送至实质细胞而言,只需要将必需DNA序列通过所选择的血管进行注射,这消除了与目前的病毒和合成载体相关的安全顾虑。当将DNA注射至血流中时,DNA能够到达接近血液的不同组织中的细胞。流体力学递送使用将大量溶液快速注射进入循环中的不可压缩的血液中产生的力以克服内皮的物理障碍和细胞膜的物理障碍,所述细胞膜防止较大的且细胞膜不可渗透的化合物进入实质细胞。除了DNA的递送之外,该方法可用于体内有效细胞内递送RNA,蛋白质和其他小化合物。参见,例如,Bonamassa等人,(2011)Pharm.Res.28(4):694-701,其全部内容通过引用并入本文。
用于将核酸或蛋白质引入细胞内的其他方法可包括例如:载体递送,颗粒介导的递送,核外体介导的递送,脂质纳米颗粒介导的递送,细胞渗透肽介导的递送,或可植入装置介导的递送。作为特定的实例,核酸或蛋白质可在载体中被引入细胞内,所述载体例如:聚(乳酸)(PLA)微球,聚(D,L-乳酸-羟基乙酸共聚物)(PLGA)微球,脂质体,胶束,反相胶束,脂质卷或脂质微管。
将核酸或蛋白质引入细胞内可在一段时间段内进行一次或多次。例如,所述引入可在一段时间段内进行至少2次,在一段时间段内进行至少3次,在一段时间段内进行至少4次,在一段时间段内进行至少5次,在一段时间段内进行至少6次,在一段时间段内进行至少7次,在一段时间段内进行至少8次,在一段时间段内进行至少9次,在一段时间段内进行至少10次,在一段时间段内进行至少11次,在一段时间段内进行至少12次,在一段时间段内进行至少13次,在一段时间段内进行至少14次,在一段时间段内进行至少15次,在一段时间段内进行至少16次,在一段时间段内进行至少17次,在一段时间段内进行至少18次,在一段时间段内进行至少19次,或在一段时间段内进行至少20次。
在一些情况下,在所述方法和组合物中使用的细胞具有稳定地并入其基因组中的DNA构建体。在这种情况下,所述接触可包括提供带有已稳定地并入其基因组中的构建体的细胞。例如,在本文公开的方法中使用的细胞可具有先前已存在的稳定地并入其基因组中的Cas编码基因(即,Cas就绪细胞(Cas-ready cell))。“稳定地并入”或“稳定地引入”或“稳定地整合”包括将多核苷酸引入细胞内,这样核苷酸序列整合进入细胞的基因组中并能够由其子代遗传。可使用用于稳定并入DNA构建体或目标基因组整个系统的各种不同的成分的任何规程。
D.核酸酶试剂和DNA结合蛋白质
诱导切口或诱导双链断裂为期望的目标序列或结合至期望的目标序列的DNA-结合蛋白的任何核酸酶试剂可在本文公开的方法和组合物中使用。只要核酸酶试剂在期望的目标序列中诱导切口或双链断裂,可使用天然生成的核酸酶试剂或原生的核酸酶试剂。类似地,只要DNA-结合蛋白结合至期望的目标序列,可使用天然生成的DNA-结合蛋白或原生DNA-结合蛋白。可选地,可使用修饰的或工程化的核酸酶试剂或DNA-结合蛋白。“工程化的核酸酶试剂”或“DNA-结合蛋白”包括从其原生形式被工程化(修饰或衍生)为特异性识别期望的目标序列的核酸酶试剂或DNA-结合蛋白。因此,工程化的核酸酶试剂或DNA-结合蛋白可衍生自原生的、天然生成的核酸酶试剂或DNA-结合蛋白或其可人工产生或合成。工程化的核酸酶试剂或DNA-结合蛋白可识别目标序列,例如,其中,所述目标序列不是被原生(非工程化的或非修饰的)核酸酶试剂或DNA-结合蛋白识别的序列。核酸酶试剂或DNA-结合蛋白的修饰可以是蛋白质裂解试剂中的仅仅一个氨基酸或核酸裂解试剂中的一个核苷酸。在本文中,在目标序列或其他DNA中生成切口或双链断裂可称为“切断”或“裂解”目标序列或其他DNA。
本文还提供核酸酶试剂或DNA-结合蛋白(即,工程化的核酸酶试剂或DNA-结合蛋白)的活性变体和片段。这些活性变体可包括与原生核酸酶试剂或DNA-结合蛋白具有至少65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%或更高的序列一致性,其中,所述活性变体保留了在期望的目标序列进行切断的能力并且因此保留了切口或双链断裂诱导能力或保留了结合期望的目标序列的能力。例如,本文所述的核酸酶试剂中的任一种可由原生核酸内切酶序列修饰得到并且被设计为识别和诱导目标序列中的切口或双链断裂,所述目标序列无法被原生核酸酶试剂识别。因此,一些工程化的核酸酶具有诱导目标序列中的切口或双链断裂的特异性,所述目标序列不同于对应的原生核酸酶试剂靶向序列。对切口或双链断裂诱导活性的分析方法是本领域已知的并且通常测量包含目标序列的DNA底物上的核酸内切酶的总体活性和特异性。
术语“核酸酶试剂的靶向序列”包括其中由核酸酶试剂诱导产生了切口或双链断裂的DNA序列。类似地,术语“DNA-结合蛋白的靶向序列”包括其上将结合DNA-结合蛋白的DNA序列。靶向序列可以是细胞内源性的(或原生的)或者靶向序列可以是细胞外源性的。细胞外源性靶向序列不是在细胞基因组内天然生成的。所述靶向序列还可以是目标多核苷酸外源性的,所述目标多核苷酸期望位于目标位点。在一些情况下,靶向序列仅仅存在于宿主细胞基因组中。
本文还提供示例性的靶向序列的活性变体和片段。这些活性变体可包含与给定的目标序列具有至少65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%或更高的序列一致性,其中,所述活性变体保留了生物活性并且因此能够以序列特异性方式被核酸酶试剂识别和裂解。本领域已知由核酸酶试剂测量目标序列的双链断裂的方法(例如,qPCR分析方法,Frendewey等人,(2010)Methods inEnzymology 476:295-307,其全部内容通过引用并入本文)。
目标序列的长度可以发生改变,并且包括例如,用于锌手指蛋白或锌手指核酸酶(ZFN)对(即,每个ZFN约15-18bp)的约30-36bp的目标序列,用于类转录活化效应因子(TALE)蛋白或类转录活化效应因子核酸酶(TALEN)的约36bp的目标序列,或用于CRISPR/Cas9向导RNA的约20bp的目标序列。
DNA-结合蛋白或核酸酶试剂的靶向序列可位于目标基因基因座中的任何位置或靠近目标基因基因座的任何位置。所述靶向序列可位于基因(例如,HSD17B13基因)的编码区域中,或影响基因表达的调节性区域中。DNA-结合蛋白或核酸酶试剂的靶向序列可位于内含子中、外显子中、启动子中、增强子中、调节性区域中或任何非蛋白编码区域中。
可在本文公开的各种不同的方法和组合物中使用的一种类型的DNA-结合蛋白是类转录活化效应因子(TLAE)。例如,TALE可融合至或连接至表观遗传修饰结构域,转录活化结构域或转录抑制结构域。这些结构域的实例相对于Cas蛋白质进行描述并且还可在WO2011/145121中找到,其全部内容通过引用并入本文。因此,可在本文公开的各种不同的方法和组合物中使用的一种类型的核酸酶试剂是类转录活化效应因子核酸酶(TALEN)。TAL效应因子核酸酶是一类序列特异性核酸酶,其可用于在原核或真核生物体的基因组中的特定目标序列上产生双链断裂。TAL效应因子核酸酶通过将原生或工程化类转录活化(TAL)效应因子或其功能部分融合至诸如FokI之类的核酸内切酶的催化结构域生成。独特的模块TAL效应因子DNA结合结构域能够设计出带有潜在的任何给定DNA识别特异性的蛋白质。因此,TAL效应因子核酸酶的DNA-结合结构域可被工程化为识别特定DNA目标位点并且因此用于在期望的目标序列中产生双链断裂。参见,WO 2010/079430;Morbitzer等人,(2010)Proc.Natl.Acad.Sci.U.S.A.107(50:21617-21622;Scholze&Boch(2010)Virulence1:428-432;Christian等人,(2010)Genetics 186:757-761;Li等人,(2011)Nucleic AcidsRes.39(1):359-372;和Miller等人,(2011)Nature Biotechnology 29:143-148,这些参考文献中的每一个的全部内容通过引用并入本文。
合适的TAL核酸酶的实例以及制备合适的TAL核酸酶的方法的实例在如下美国专利申请中公开,US 2011/0239315 A1,US 2011/0269234 A1,US 2011/0145940 A1,US2003/0232410 A1,US 2005/0208489 A1,US 2005/0026157 A1,US 2005/0064474 A1,US2006/0188987 A1,and US 2006/0063231 A1,上述美国专利申请中的每一个的全部内容通过引用并入本文。在各种不同的实施方式中,TAL效应因子核酸酶被工程化为在例如目标基因基因座中的目标核酸序列中或目标核酸序列附近进行切断,其中,所述目标核酸序列位于或靠近待由外源供体序列修饰的序列。适用于本文提供的各种不同的方法和组合物的TAL核酸酶包括特异性设计为在外源供体序列(本文其他地方描述的)修饰的目标核酸序列处或附近结合的那些核酸酶。
在一些TALEN中,TALEN的每个单体包含33-35个TAL复制,其通过两个高变残基识别单个碱基对。在一些TALEN中,核酸酶试剂是包含可操作地连接至诸如FokI核酸内切酶之类的独立的核酸酶的基于TAL-复制的DNA结合结构域的嵌合蛋白。例如,核酸酶试剂可包含第一基于TAL-复制的DNA结合结构域和第二基于TAL-复制的DNA结合结构域,其中,所述第一和第二基于TAL-复制的DNA结合结构域中的每一个可操作地连接至FokI核酸酶,其中,所述第一和第二基于TAL-复制的DNA结合结构域识别由不同长度(12-20bp)的分隔序列分离的目标DNA序列的每个链中的两个连续目标DNA序列,并且其中,FokI核酸酶亚单位二聚生成在目标序列中产生双链断裂的活性核酸酶。
DNA结合蛋白的另一实例是锌手指蛋白。这样的锌手指蛋白可连接至或融合至例如表观遗传修饰结构域,转录活化结构域,或转录抑制结构域。这些结构域的实例在下文中相对于Cas蛋白质进行描述并且可在例如WO2011/145121中找到,其全部内容通过引用并入本文。因此,可用于本文公开的各种不同的方法和组合物中的核酸酶试剂的另一实例是锌手指核酸酶(ZFN)。在一些ZFN中,ZFN中的每个单体包含三个或多个锌手指DNA结合结构域,其中,每个锌手指DNA结合结构域结合至3bp亚位点。在其他ZFN中,ZFN是包含可操作地连接至诸如FokI核酸内切酶之类的独立的核酸酶的锌手指DNA结合结构域的嵌合蛋白。例如,所述核酸酶试剂可包含第一ZFN和第二ZFN,其中,第一ZFN和第二ZFN中的每一个可操作地连接至FokI核酸酶亚单位,其中,第一和第二ZFN识别由约5-7bp分隔体分离的目标DNA序列的每个链中的两个连续目标DNA序列,并且其中,FokI核酸酶亚单位二聚生成产生双链断裂的活性核酸酶。参见,例如,US2006/0246567;US 2008/0182332;US2002/0081614;US2003/0021776;WO 2002/057308 A2;US 2013/0123484;US2010/0291048;WO 2011/017293 A2;和Gaj等人,(2013)Trends in Biotechnology 31(7):397-405,上述参考文献中的每一个全部内容通过引用并入本文。
在本文公开的方法和组合物中使用的其他合适的DNA-结合蛋白和核酸酶试剂包括CRISPR-Cas系统,其在本文的其他地方描述。
DNA结合蛋白或核酸酶试剂可通过任何已知的方式引入细胞内。编码DNA-结合蛋白或核酸酶试剂的多肽可被直接引入细胞内。可选地,编码DNA-结合蛋白或核酸酶试剂的多核苷酸可被引入细胞内。当编码DNA-结合蛋白或核酸酶试剂的多核苷酸被引入细胞内时,所述DNA结合蛋白或核酸酶试剂可在细胞内瞬间表达、有条件地表达或组成性表达。例如,编码DNA-结合蛋白或核酸酶试剂的多核苷酸可被包含在表达盒内并且可操作地连接至条件性启动子、可诱导启动子、组成性启动子或组织特异性启动子。这些启动子在本文的其他地方进一步详细讨论。可选地,DNA-结合蛋白或核酸酶试剂可作为编码DNA结合蛋白或核酸酶试剂的mRNA引入细胞内。
编码DNA-结合蛋白或核酸酶试剂的多核苷酸可稳定地整合在细胞的基因组内并且可操作地连接至细胞内的活性启动子。可选地,编码DNA-结合蛋白或核酸酶试剂的多核苷酸可位于靶向载体中或载体中或与包含插入体多核苷酸的靶向载体不同的质粒中。
当通过引入编码DNA-结合蛋白或核酸酶试剂的多核苷酸向细胞提供DNA-结合蛋白或核酸酶试剂时,这样的编码DNA-结合蛋白或核酸酶试剂的多核苷酸相对于天然生成的编码DNA-结合蛋白或核酸酶试剂的多核苷酸序列可被修饰为取代目标细胞中使用频率较高的密码子。例如,编码DNA结合蛋白或核酸酶试剂的多核苷酸可被修饰为相对于天然生成的多核苷酸序列取代给定的目标原核细胞或真核细胞中使用频率较高的密码子,所述原核或真核细胞包括细菌细胞、酵母细胞、人细胞、非人类细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其他目标宿主细胞。
E.CRISPR-Cas系统
本文公开的方法可使用成簇的规律间隔的短回文重复序列(CRISPR)/CRISPR相关(Cas)系统或这些系统的组分修饰细胞内的基因组。CRISPR-Cas系统包括涉及Cas基因的表达或指向Cas基因的活性的转录体和其他元件。CRISPR-Cas系统可以是I型、II型或III型系统。可选地,CRISPR/Cas系统可以是例如V型系统(例如亚型V-A或亚型V-B)。本文公开的方法和组合物可通过利用CRISPR复合物(包含与Cas蛋白质复合的向导RNA(gRNA))使用CRISPR-Cas系统以位点定向裂解核酸。
本文公开的方法中使用的CRISPR-Cas系统可以是非天然生成的。“非天然生成的”系统包括任何显示出人工参与的系统,例如,从系统的天然生成的状态改变或突变而来的系统中的一个或多个成分,至少基本上不含与系统本质上天然相关的至少一种其他成分,或与系统非天然相关的至少一种其他成分相关联。例如,非天然生成的CRISPR/Cas系统可使用包含非天然一同出现的gRNA和Cas蛋白质的CRISPR复合物,非天然出现的Cas蛋白质或非天然出现的gRNA。
(1)Cas蛋白质和编码Cas蛋白质的多核苷酸
Cas蛋白质通常包含可与向导RNA(gRNA,下文中详细描述)发生反应的至少一个RNA识别结构域或至少一个RNA结合结构域。Cas蛋白质可还包含核酸酶结构域(例如,DNase或RNase结构域),DNA结合结构域,解旋酶结构域,蛋白质-蛋白质相互作用结构域,二聚化结构域和其他结构域。核酸酶结构域具有对核酸裂解的催化活性,所述核酸裂解包括核酸分子的共价键的断裂。裂解可产生平末端或交错末端,并且其可以是单链或双链裂解。例如,野生型Cas9蛋白质通常会产生平端裂解产物。可选地,野生型Cpf1蛋白质(例如,FnCpf1)可产生带有5-核苷酸5’悬挂的裂解产物,其中,裂解发生在非目标链上的PAM序列的第18个碱基对之后以及目标链上的第23个碱基之后。Cas蛋白质可具有完全裂解活性以在HSD17B13基因中产生双链断裂(例如,带有平末端的双链断裂),或者Cas蛋白质可以是在HSD17B13基因中产生单链断裂的切口酶。
Cas蛋白质的实例包括Cas1,Cas1B,Cas2,Cas3,Cas4,Cas5,Cas5e(CasD),Cas6,Cas6e,Cas6f,Cas7,Cas8a1,Cas8a2,Cas8b,Cas8c,Cas9(Csn1 or Csx12),Cas10,Cas10d,CasF,CasG,CasH,Csy1,Csy2,Csy3,Cse1(CasA),Cse2(CasB),Cse3(CasE),Cse4(CasC),Csc1,Csc2,Csa5,Csn2,Csm2,Csm3,Csm4,Csm5,Csm6,Cmr1,Cmr3,Cmr4,Cmr5,Cmr6,Csb1,Csb2,Csb3,Csx17,Csx14,Csx10,Csx16,CsaX,Csx3,Csx1,Csx15,Csf1,Csf2,Csf3,Csf4,和Cu1966及其同系物或修饰的版本。
示例性的Cas蛋白质是Cas9蛋白质或从II型CRISPR/Cas系统中的Cas9蛋白质衍生得到的蛋白质。Cas9蛋白质获自II型CRISPR/Cas系统并且通常与保守结构共享四个关键基序。基序1,2和4是类RuvC基序,并且基序3是HNH基序。示例性的Cas9蛋白质来自产脓链球菌(Streptococcus pyogenes),嗜热链球菌(Streptococcus thermophilus),链球菌属(Streptococcus sp.),金黄色葡萄球菌(Staphylococcus aureus),拟诺卡氏菌(Nocardiopsis dassonvillei),始旋链霉素(Streptomyces pristinaespiralis),绿色产色链霉菌(Streptomyces viridochromogenes),绿色产色链霉菌(Streptomycesviridochromogenes),玫瑰链孢囊菌(Streptosporangium roseum),玫瑰链孢囊菌(Streptosporangium roseum),酯环酸芽孢杆菌(Alicyclobacillus acidocaldarius),假真菌样芽孢杆菌(Bacillus pseudomycoides),还原砸酸盐芽孢杆菌(Bacillusselenitireducens),Exiguobacterium sibiricum,保加利亚乳杆菌(Lactobacillusdelbrueckii),唾液乳杆菌(Lactobacillus salivarius),海洋微颤菌(Microscillamarina),伯克氏菌目(Burkholderiales bacterium),Polaromonas naphthalenivorans,极单胞菌(Polaromonas sp.),海洋固氮蓝藻(Crocosphaera watsonii),蓝杆藻(Cyanothece sp.),铜绿微囊藻(Microcystis aeruginosa),聚球藻(Synechococcussp.),阿拉伯糖醋盐杆菌(Acetohalobium arabaticum),Ammonifex degensii,嗜热厌氧菌(Caldicelulosiruptor becscii),Candidatus Desulforudis,肉毒杆菌(Clostridiumbotulinum),艰难梭菌(Clostridium difficile),大芬戈尔德菌(Finegoldia magna),嗜热盐碱厌氧菌(Natranaerobius thermophilus),Pelotomaculum thermopropionicum,Acidithiobacillus caldus,嗜酸氧化亚铁硫杆菌(Acidithiobacillus ferrooxidans),Allochromatium vinosum,海杆状菌(Marinobactersp.),嗜盐亚硝化球菌(Nitrosococcushalophilus),瓦氏亚硝化球菌(Nitrosococcuswatsoni),河豚毒素假交替单胞菌(Pseudoalteromonashaloplanktis),成簇细枝菌(Ktedonobacterracemifer),调查甲烷盐菌(Methanohalobiumevestigatum),多变鱼腥藻(Anabaenavariabilis),泡沫节球菌(Nodularia spumigena),Nostoc sp.,极大节螺藻(Arthrospira最大值ima),钝顶节螺藻(Arthrospira platensis),节旋藻(Arthrospira sp.),鞘丝藻(Lyngbya sp.),原型微鞘藻(Microcoleus chthonoplastes),颤藻(Oscillatoria sp.),Petrotoga mobilis,Thermosipho africanus,或Acaryochloris marina。Cas9家族成员中的其他实例在WO2014/131833中描述,其全部内容通过引用并入本文。来自化脓性链球菌(S.pyogenes)的Cas9(SpCas9)(SwissProt登录号:Q99ZW2)是示例性的Cas9蛋白质。来自金黄色葡萄糖球菌(S.aureus)的Cas9(SaCas9)(SwissProt登录号:J7RUA5)是另一示例性的Cas9蛋白质。
Cas蛋白质的另一实例是Cpf1(来自普氏菌属(Prevotella)和弗浪西斯氏菌1(Francisella 1)的CRISPR)蛋白质。Cpf1是包含与Cas9的对应结构域具有同源性的类RuvC核酸酶结构域以及Cas9的特有的富精氨酸簇的对应物的较大的蛋白质(约1300个氨基酸)。然而,Cpf1缺乏存在于Cas9蛋白质中的HNH核酸酶结构域,并且类Ruv-C结构域在Cpf1序列中是连续的,这与Cas9形成鲜明对照,Ruv-C结构域包含包括HNH结构域在内的较长的插入体。参见例如,Zetsche等人,(2015)Cell 163(3):759-771,其全部内容通过引用并入本文。示例性的Cpf1蛋白质来自土拉弗朗西斯菌1(Francisella tularensis 1),土拉弗朗西斯菌亚种novicida(Francisella tularensis subsp.novicida),Prevotella albensis,毛螺旋菌科细菌MC2017 1(Lachnospiraceae bacterium MC2017 1),丁酸弧菌(Butyrivibrio proteoclasticus),佩莱格里尼菌科细菌GW2011_GWA2_33_10(Peregrinibacteria bacterium GW2011_GWA2_33_10),Parcubacteria细菌GW2011_GWC2_44_17(Parcubacteria bacterium GW2011_GWC2_44_17),Smithella sp.SCADC,氨基酸球菌属BV3L6(Acidaminococcus sp.BV3L6),毛螺菌科细菌MA2020(Lachnospiraceaebacterium MA2020),Candidatus Methanoplasma termitum,挑剔真杆菌(Eubacteriumeligens),牛眼莫拉氏菌237(Moraxella bovoculi 237),Leptospira inadai,毛螺菌科细菌ND2006(Lachnospiraceae bacterium ND2006),狗口腔红棕色单胞菌3(Porphyromonascrevioricanis 3),解糖胨普雷沃菌(Prevotella disiens),以及猕猴卟啉单胞菌(Porphyromonas macacae)。来自新泽西弗朗西斯菌U112(Francisella novicida U112)的Cpf1(FnCpf1,UniProt登录号:A0Q7Q2)是示例性的Cpf1蛋白质。
Cas蛋白质是野生型蛋白质(即,天然生成的那些),修饰的Cas蛋白质(即,Cas蛋白质变体)或者野生型或修饰的Cas蛋白质的片段。Cas蛋白质可以是针对野生型或修饰的Cas蛋白质的催化活性的活性变体或片段。针对催化活性的活性变体或片段可包含与野生型或修饰的Cas蛋白质或其部分具有至少80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%或更高的序列一致性,其中,活性变体保留了在期望的裂解位点进行切断的能力并且因此保留了切口诱导活性或双链断裂诱导活性。切口诱导活性或双链断裂诱导活性的分析方法是本领域已知的并且通常测量在包含裂解位点的DNA底物上的Cas蛋白质的整体活性和特异性。
Cas蛋白质可被修饰为提高或降低核酸结合亲和性,核酸结合特异性和酶活性中的一种或多种。Cas蛋白质可还被修饰为改变蛋白质的任何其他活性或性质,例如稳定性。例如,Cas蛋白质的一个或多个核酸酶结构域可以被修饰、删除或灭活,或者Cas蛋白质可被截短以除去对蛋白质功能非必需的结构域或优化(例如,提高或降低)Cas蛋白质的活性。
Cas蛋白质可包含至少一个核酸酶结构域,例如DNase结构域。例如,野生型Cpf1蛋白质通常包含类RuvC结构域,其裂解可能在二聚结构中的目标DNA的两个链。Cas蛋白质可还包含至少两个核酸酶结构域,例如,DNase结构域。例如,野生型Cas9蛋白质通常包含类RuvC核酸酶结构域和类HNH核酸酶结构域。RuvC和HNH结构域可分别切断双链DNA的不同链以在DNA中产生双链断裂。参见,例如,Jinek等人,(2012)Science 337:816-821,其全部内容通过引用并入本文。
核酸酶结构域中的一个或多个可被删除或发生突变,这样它们不再是功能性的或具有降低的核酸酶活性。例如,如果Cas9蛋白质中的核酸酶结构域中的一个被删除或发生突变,得到的Cas9蛋白质可被称为切口酶并且可在双链DNA中的向导RNA靶向序列处产生单链断裂,但不会产生双链断裂(即,它可裂解互补链或非互补链,但不会裂解这两者)。如果两个核酸酶结构域均被删除或发生突变,那么得到的Cas蛋白质(例如,Cas9)的裂解双链DNA的双链(例如,缺乏核酸酶或核酸酶失活的Cas蛋白质或催化灭活的Cas蛋白质(dCas))的能力降低。将Cas9转化成切口酶的突变的实例是在来自化脓性链球菌的Cas9的RuvC结构域中的D10A(在Cas9的位置10将天冬氨酸盐突变为丙氨酸)突变。类似地,来自化脓性链球菌的Cas9的HNH结构域中的H939A(氨基酸位置839处组氨酸突变为丙氨酸)或H840A(氨基酸位置840处组氨酸突变为丙氨酸)可将Cas9转化为切口酶。将Cas9转化为切口酶的突变的其他实例包括对来自嗜热链球菌(S.thermophilus)的Cas9进行的相应突变。参见,例如,Sapranauskas等人,(2011)Nucleic Acids Research 39:9275-9282和WO 2013/141680,其中的每一个的全部内容通过引用并入本文。这些突变可使用诸如位点定向突变形成,PCR介导的突变形成,或总基因合成之类的方法产生。产生切口酶的其他突变的实例可在例如WO2013/176772和WO 2013/142578中找到,其中的每一个的全部内容通过引用并入本文。
Cas蛋白质(例如,核酸酶活性Cas蛋白质或核酸酶灭活Cas蛋白质)也可可操作地连接至作为融合蛋白的异源多肽。例如,Cas蛋白质可融合至裂解结构域,表观遗传修饰结构域,转录活化结构域或转录抑制结构域。参见,WO2014/089290,其全部内容通过引用并入本文。转录活化结构域的实例包括单纯性疱疹病毒VP16活化结构域,VP64(其是VP16的四聚衍生物),NFκB p65活化结构域,p53活化结构域1和2,CREB(cAMP响应元件结合蛋白)活化结构域,E2A活化结构域,和NFAT(活化的T细胞的核因子)活化结构域。其他实例包括来自Oct1,Oct-2A,SP1,AP-2,CTF1,P300,CBP,PCAF,SRC1,PvALF,ERF-2,OsGAI,HALF-1,C1,AP1,ARF-5,ARF-6,ARF-7,ARF-8,CPRF1,CPRF4,MYC-RP/GP,TRAB1PC4,和HSF1的活化结构域。参见,例如,US2016/0237456,EP3045537和WO2011/145121,其中的每一个的全部内容通过引用并入本文。在一些情况下,可使用包含与MS2-p65-HSF1配对的dCas9-VP64融合蛋白的转录活化系统。这些系统中的向导RNA可使用添加至sgRNA四环的适体序列和设计为结合二聚化的MS2噬菌体包被蛋白质的茎环2来设计。参见,例如,Konermann等人,(2015)Nature 517(7536):583-588,其全部内容通过引用并入本文。转录抑制结构域的实例包括可诱导的cAMP早期抑制(ICER)结构域,Kruppel相关盒A(KRAB-A)抑制结构域,YY1富赖氨酸抑制结构域,类Sp1抑制剂,E(sp1)抑制剂,ΙκΒ抑制剂以及MeCP2。其他实例包括来自A/B,KOX,TGF-β可诱导早期基因(TIEG),v-erbA,SID,SID4X,MBD2,MBD3,DNMT1,DNMG3A,DNMT3B,Rb,ROM2的转录抑制结构域,参见,例如,EP3045537和WO 2011/145121,其中的每一个的全部内容通过引用并入本文。Cas蛋白质还可融合至提供提高的稳定性或降低的稳定性的异源多肽。融合的结构域或异源多肽可位于Cas蛋白质的N-端,C端或内部。
作为一个实例,Cas蛋白质可融合至提供亚细胞定位的异源多肽。这些异源多肽可包括例如:一个或多个核定位信号(NLS),例如,用于靶向细胞核的SV40 NLS,用于靶向线粒体的线粒体定位信号,ER滞留信号,等等。参见,例如,Lange等人,(2007)J.Biol.Chem.282:5101-5105,其全部内容通过引用并入本文。这些亚细胞定位信号可位于Cas蛋白质的N-端,C-端或任何其他地方。NLS可包含碱性氨基酸的延伸并且可以是单组分序列或双组分序列。
Cas蛋白质还可以可操作地连接至细胞渗透结构域。例如,所述细胞渗透结构域可衍生自HIV-1TAT蛋白质,来自人乙型肝炎病毒的TLM细胞渗透基序,MPG,Pep-1,VP22,来自单纯性疱疹病毒的细胞渗透肽或聚精氨酸肽序列。参见,例如,WO2014/089290,其全部内容通过引用并入本文。所述细胞渗透结构域可位于Cas蛋白质的N-末端,C-末端或任何其他地方。
Cas蛋白质还可以可操作地连接至易于跟踪或纯化的异源多肽,例如,荧光蛋白,纯化标签或表位标签。荧光蛋白的实例包括绿色荧光蛋白(例如,GFP,GFP-2,tagGFP,turboGFP,eGFP,Emerald,Azami Green,Monomeric Azami Green,CopGFP,AceGFP,ZsGreenl),黄色荧光蛋白(例如,YFP,eYFP,Citrine,Venus,YPet,PhiYFP,ZsYellowl),蓝色荧光蛋白(eBFP,eBFP2,Azurite,mKalamal,GFPuv,Sapphire,T-sapphire),青色荧光蛋白(例如,eCFP,Cerulean,CyPet,AmCyanl,Midoriishi-Cyan),红色荧光蛋白(例如,mKate,mKate2,mPlum,DsRed monomer,mCherry,mRFP1,DsRed-Express,DsRed2,DsRed-Monomer,HcRed-Tandem,HcRedl,AsRed2,eqFP611,mRaspberry,mStrawberry,Jred),橙色荧光蛋白(例如,mOrange,mKO,Kusabira-Orange,Monomeric Kusabira-Orange,mTangerine,tdTomato)和任何其他合适的荧光蛋白。标签的实例包括谷胱甘肽-S-转移酶(GST),甲壳素结合蛋白(CBP),麦芽糖结合蛋白,硫氧还蛋白(TRX),聚(NANP),串联亲和纯化(TAP)标签,myc,AcV5,AU1,AU5,E,ECS,E2,FLAG,血球凝集素(HA),nus,Softag1,Softag 3,Strep,SBP,Glu-Glu,HSV,KT3,S,S1,T7,V5,VSV-G,组氨酸(His),生物素羟基载体蛋白(BCCP)和钙调蛋白。
Cas蛋白质还可栓系至外源供体序列或标记的核酸。这样的栓系(即,物理连接)可通过共价相互作用或非共价相互作用来实现,并且所述栓系可以是直接的(例如通过直接融合或化学偶联,其可通过对蛋白质的半胱氨酸或赖氨酸残基的修饰或内含肽修饰来实现),或可通过一个或多个诸如链霉亲和素或适体之类的介入连接体或适体分子来实现。参见,例如,Pierce等人,(2005)Mini Rev.Med.Chem.5(1):41-55;Duckworth等人,(2007)Angew.Chem.Int.Ed.Engl.46(46):8819-8822;Schaeffer and Dixon(2009)AustralianJ.Chem.62(10):1328-1332;Goodman等人,(2009)Chembiochem.10(9):1551-1557;以及Khatwani等人,(2012)Bioorg.Med.Chem.20(14):4532-4539,上述参考文献中的每一个的全部内容通过引用并入本文。合成蛋白质-核酸偶联物的非共价策略包括生物素-链霉亲和素和镍-组氨酸方法。共价蛋白质-核酸偶联物可通过使用各种不同的化学试剂将适当功能化的核酸和蛋白质连接而合成。这些化学试剂中的一些涉及将寡肽连直接连接至蛋白质表面上的氨基酸残基(例如,赖氨酸胺或半胱氨酸硫醇),而其他更多的复杂方案需要对蛋白质进行转录后修饰或涉及催化或反应性蛋白质结构域。蛋白质和核酸的共价连接方法可包括例如:寡肽和蛋白质赖氨酸或半胱氨酸残基的化学交联,表达的蛋白质连接,化学酶方法以及使用光适体。外源供体序列或标记的核酸可栓系于Cas蛋白质的C-末端,N-末端或内部区域。优选地,外源供体序列或标记的核酸栓系至Cas蛋白质的C末端或N末端。类似地,Cas蛋白质可栓系于外源供体序列或标记的核酸内部的5’端,3’端或内部区域。也就是说,外源供体序列或标记的核酸可栓系在任何方向上和极性上。优选地,Cas蛋白质栓系于外源供体序列或标记的核酸的5’端或3’端。
Cas蛋白质可以任何形式提供。例如,Cas蛋白质可以以蛋白质的形式(例如,与gRNA复合的Cas蛋白质)提供。可选地,Cas蛋白质可以以编码Cas蛋白质的核酸(例如,RNA(例如,信使RNA(mRNA))或DNA)的形式提供。任选地,编码Cas蛋白质的核酸可以是被优化为在特定细胞或生物体中有效翻译为蛋白质的密码子。例如,编码Cas蛋白质的核酸可被修饰为取代在细菌细胞、酵母细胞、人细胞、非人类细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其他目标宿主细胞中相对于天然生成的多核苷酸序列具有更高的使用频率的密码子。当编码Cas蛋白质的核酸被引入细胞内时,Cas蛋白质可在细胞中瞬时表达、有条件地表达或组成性地表达。
编码Cas蛋白质的核酸可稳定地整合在细胞的基因组中并且可操作地连接至细胞中的活性启动子。可选地,编码Cas蛋白质的核酸可以可操作地连接至表达构建体中的启动子。表达构建体包括能够指向目标基因的表达或其他目标核酸序列(例如,Cas基因)的表达的任何核酸构建体,并且所述构建体可将这一目标核酸序列转移至目标细胞。例如,编码Cas蛋白质的核酸可位于包含核酸插入体和/或载体的靶向载体内,所述核酸插入体和/或载体包含编码gRNA的DNA。可选地,所述编码Cas蛋白质的核酸可以位于载体或质粒中,所述载体或质粒不同于包含核酸插入体的靶向载体和/或不同于包含编码gRNA的DNA的载体。可在表达构建体中使用的启动子包括例如在真核细胞,人细胞,非人类细胞,哺乳动物细胞,非人类哺乳动物细胞,啮齿动物细胞,小鼠细胞,大鼠细胞,仓鼠细胞,兔细胞,多能细胞,胚胎干(ES)细胞或接合子中的一种或多种中具有活性的启动子。例如,这些启动子可以是条件性启动子,可诱导启动子,组成性启动子或组织特异性启动子。任选地,启动子可以是驱动Cas蛋白质在一个方向表达以及向导RNA在另一方向上表达的双向启动子。这样的双向启动子可由(1)包含如下三个外部控制元件的完整的传统单向Pol III启动子:远端序列元件(DSE),近端序列元件(PSE)和TATA盒;和(2)包含PSE和在反方向上融合至DSE的5’末端的TATA盒的第二碱性Pol III启动子构成。例如,在H1启动子中,DSE接近PSE和TATA盒并且所述启动子可通过产生杂交启动子在双向上产生,在所述杂交启动子中,反向转录通过添加源自U6启动子的PSE和TATA盒来控制。参见,例如,US2016/0074535,其全部内容通过引用并入本文。使用双向启动子表达同时编码Cas蛋白质和向导RNA的基因能够产生紧凑表达盒以促进递送。
(2)向导RNA
“向导RNA”或“gRNA”是结合至Cas蛋白质(例如,Cas9蛋白质)和靶向Cas蛋白质至目标DNA(例如,HSD17B13基因)内的特定位点的RNA分子。具体而言,本文公开了有效地将Cas酶定向结合至或定向裂解HSD17B13基因座或HSD17B13基因的向导RNA。一种示例性的向导RNA是有效地将Cas酶定向结合至或定向裂解HSD17B13基因的向导RNA,其中,向导RNA包含与HSD17B13基因中的向导RNA识别序列(即,靶向向导RNA靶向序列)杂交的DNA靶向片段,所述HSD17B13基因包括或接近在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ IDNO:2的位置12666的位置。对于靶向而言,向导RNA靶向序列是指与互补链序列杂交,所述互补链序列是非互补链上的向导RNA靶向序列的反向互补序列。例如,向导RNA靶向序列可以位于在将HSD17B13基因与SEQ ID NO:2最佳比对时的对应于SEQ ID NO:2的位置12666的位置的约5个核苷酸之内,约10个核苷酸之内,约15个核苷酸之内,约20个核苷酸之内,约25个核苷酸之内,约30个核苷酸之内,约35个核苷酸之内,约40个核苷酸之内,约45个核苷酸之内,约50个核苷酸之内,约100个核苷酸之内,约200个核苷酸之内,约300个核苷酸之内,约400个核苷酸之内,约500个核苷酸之内,或约1,000个核苷酸之内。其他示例性的向导RNA包含靶向HSD17B13基因内的向导RNA靶向序列的DNA靶向片段,所述HSD17B13基因位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6的区域内。其他示例性的向导RNA包含靶向HSD17B13基因内的向导RNA靶向序列的DNA靶向片段,所述HSD17B13基因位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6和/或外显子7的区域内。其他示例性的向导RNA包含与HSD17B13基因内的向导RNA识别序列(即,靶向向导RNA靶向序列)杂交的DNA靶向片段,所述HSD17B13基因包括或接近HSD17B13基因的起始密码子或者包括或接近HSD17B13基因的终止密码子。例如,向导RNA靶向序列可以位于起始密码子的约5个核苷酸之内,约10个核苷酸之内,约15个核苷酸之内,约20个核苷酸之内,约25个核苷酸之内,约30个核苷酸之内,约35个核苷酸之内,约40个核苷酸之内,约45个核苷酸之内,约50个核苷酸之内,约100个核苷酸之内,约200个核苷酸之内,约300个核苷酸之内,约400个核苷酸之内,约500个核苷酸之内,或约1,000个核苷酸之内或者位于终止密码子的约5个核苷酸之内,约10个核苷酸之内,约15个核苷酸之内,约20个核苷酸之内,约25个核苷酸之内,约30个核苷酸之内,约35个核苷酸之内,约40个核苷酸之内,约45个核苷酸之内,约50个核苷酸之内,约100个核苷酸之内,约200个核苷酸之内,约300个核苷酸之内,约400个核苷酸之内,约500个核苷酸之内,或约1,000个核苷酸之内。例如,向导RNA靶向序列可以位于在将HSD17B13基因与SEQ ID NO:1或2最佳比对时对应于SEQ ID NO:1或2的外显子1的区域内。类似地,向导RNA靶向序列可以位于在将HSD17B13基因与SEQ ID NO:1或2最佳比对时对应于SEQ ID NO:1或2的外显子7的区域内。HSD17B13基因可以是来自任何生物体的HSD17B13基因。例如,HSD17B13基因可以是人HSD17B13基因或来自另一生物体(例如,非人类哺乳动物,啮齿动物,小鼠或大鼠)的直系同源基因。
位于人HSD17B13基因的5’端的向导RNA靶向序列的实例包括SEQ ID NO:20-81中列出的序列,基本由SEQ ID NO:20-81中列出的序列构成或由SEQ ID NO:20-81中列出的序列构成,并且在下表中列出。对应于SEQ ID NO:20-81的向导RNA DNA靶向片段的实例在下表中列出,并且,除了由尿嘧啶取代了胸腺嘧啶之外,对应于SEQ ID NO:20-81的向导RNADNA靶向片段等同于SEQ ID NO:20-81。向导RNA DNA靶向片段可包含下表中列出的任何DNA靶向片段序列,基本由下表中列出的任何DNA靶向片段序列构成或由下表中列出的任何DNA靶向片段序列构成。邻近人HSD17B13基因的转录起始位点(TSS)的向导RNA靶向序列的实例包含SEQ ID NO:20-41中列出的序列,基本由SEQ ID NO:20-41中列出的序列构成或由SEQID NO:20-41中列出的序列构成并且在下表中列出。邻近TSS的示例性的向导RNA靶向序列包括SEQ ID NO:21-23,33和35。SEQ ID NO:33和35最接近TSS。对应于人HSD17B13基因的5’端的向导RNA靶向序列的示例性crRNA和sgRNA(包含骨架版本1,2,3或4)包含下表中列出的序列中任一种,基本由下表中列出的序列中任一种构成或由下表中列出的序列中任一种构成。
人HSD17B13基因的5’端的向导RNA靶向序列
人HSD17B13基因的3’端的向导RNA靶向序列的实例包含SEQ ID NO:82-225中列出的序列,基本由SEQ ID NO:82-225中列出的序列构成或由SEQ ID NO:82-225中列出的序列构成并且在下表中列出。对应于SEQ ID NO:82-225的向导RNA DNA靶向片段的实例分别在SEQ ID NO:1485-1628中列出,除了由尿嘧啶替代了胸腺嘧啶之外,其与SEQ ID NO:82-225等同。向导RNA DNA靶向片段可包含SEQ ID NO:1485-1628中列出的序列,基本由SEQ IDNO:1485-1628中列出的序列构成,或由SEQ ID NO:1485-1628中列出的序列构成。对应于人HSD17B13基因的3’端的向导RNA靶向序列的示例性的crRNA和sgRNA(包含骨架版本1,2,3或4)包含下表中列出的序列,基本由下表中列出的序列构成或由下表中列出的序列构成。
人HSD17B13基因的3’端的向导RNA靶向序列
靠近对应于SEQ ID NO:2的位置12666的位置的向导RNA靶向序列的实例包含SEQID NO:226-239中列出的序列,基本由SEQ ID NO:226-239中列出的序列构成或由SEQ IDNO:226-239中列出的序列构成并且在下表中列出。对应于SEQ ID NO:226-239的向导RNADNA靶向片段的实例分别在SEQ ID NO:1629-1642中列出,其除了由尿嘧啶替代了胸腺嘧啶之外等同于SEQ ID NO:226-239。向导RNA DNA靶向片段可包含SEQ ID NO:1629-1642中列出的任何序列,基本由SEQ ID NO:1629-1642中列出的任何序列构成或由SEQ ID NO:1629-1642中列出的任何序列构成。靠近对应于SEQ ID NO:2的位置12666的位置的示例性的向导RNA靶向序列包括SEQ ID NO:230和231。对应于靠近SEQ ID NO:2的位置12666的位置的向导RNA靶向序列的示例性的crRNA和sgRNA9(包含骨架版本1,2,3或4)包含下表中列出的序列中的任何一种,基本由下表中列出的序列中的任何一种构成,或由下表中列出的序列中的任何一种构成。
靠近rs72613567变体的向导RNA靶向序列
在将小鼠Hsd17b13基因与SEQ ID NO:2最佳比对时,靠近对应于SEQ ID NO:2的位置12666的位置的小鼠Hsd17b13基因中的向导RNA靶向序列的实例包含实施例4的表12中列出的序列,基本由实施例4的表12中列出的序列构成或由实施例4的表12中列出的序列构成。小鼠Hsd17b13基因的5’端的向导RNA靶向序列的实例包含实施例4的表12中列出的序列,基本由实施例4的表12中列出的序列构成或由实施例4的表12中列出的序列构成。对应于上述那些向导RNA靶向序列的向导RNA DNA靶向片段的实例在实施例4的表12中列出。向导RNA DNA靶向片段可包含任何上述序列,基本由任何上述序列构成或由任何上述序列构成。对应于实施例4的表12中的向导RNA靶向序列的示例性的crRNA和sgRNA(包含骨架版本1,2,3或4)可包含实施例4的表12中列出的crRNA或sgRNA序列中任一种,基本由实施例4的表12中列出的crRNA或sgRNA序列中任一种构成,或由实施例4的表12中列出的crRNA或sgRNA序列中任一种构成。
向导RNA可包含如下两个片段:“DNA靶向片段”和“蛋白质结合片段”。“片段”包括分子的一部分或区域,例如,RNA中的核苷酸的连续伸长片段。诸如Cas9的gRNA之类的一些gRNA可包含如下两个不同的RNA分子:“活化RNA”(例如,tracrRNA)和“靶向RNA”(例如CRISPR RNA或crRNA)。其他gRNA是单个RNA分子(单个RNA多核苷酸),其还可称为“单分子gRNA”,“单个向导RNA”或“sgRNA”。参见,例如,WO 2013/176772,WO 2014/065596,WO 2014/089290,WO 2014/093622,WO 2014/099750,WO 2013/142578,和WO 2014/131833,其中的每一个的全部内容通过引用并入本文。对于Cas9而言,例如,单个向导RNA可包含(例如通过连接体)融合至tracrRNA的crRNA。对于Cpf1而言,例如,只需要crRNA就可实现与目标序列的结合和/或裂解目标序列。术语“向导RNA”和“gRNA”包括双分子(即,模块化)gRNA和单分子gRNA。
示例性的双分子gRNA包含类crRNA(“CRISPR RNA”或“靶向RNA”或“crRNA”或“crRNA重复序列”)分子和对应的类tracrRNA(“反式激活CRISPR RNA”,或“活化RNA”或“tracrRNA”)分子。crRNA包含gRNA的DNA靶向片段(单链)和形成gRNA的蛋白质结合片段的dsRNA双链的一半的核苷酸伸长序列(即,crRNA尾部)。位于DNA靶向片段的下游(3’)的crRNA尾部的实例包含GUUUUAGAGCUAUGCU(SEQ ID NO:1421),基本由GUUUUAGAGCUAUGCU(SEQ ID NO:1421)构成或由GUUUUAGAGCUAUGCU(SEQ ID NO:1421)构成。本文公开的DNA靶向片段中的任一个可连接至SEQ ID NO:1421的5’端以形成crRNA。
对应的tracrRNA(活化RNA)包含形成gRNA的蛋白质结合片段的dsRNA双链的另一半的核苷酸伸长序列。crRNA的核苷酸伸长序列与tracrRNA的核苷酸伸长序列互补并杂交以形成gRNA的蛋白质结合片段的dsRNA双链。这样,每个crRNA可被认为具有对应的tracrRNA。tracrRNA序列的实例包含
AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU(SEQ ID NO:1422),基本由
AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU(SEQ ID NO:1422)构成或由
AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU(SEQ ID NO:1422)构成。
在既需要crRNA也需要tracrRNA的系统中,crRNA和对应的tracrRNA杂交以形成gRNA。在仅仅需要crRNA的系统中,crRNA可以是gRNA。crRNA还提供单链DNA靶向片段,该片段通过与相对链(即,互补链)杂交而靶向向导RNA靶向序列。如果用于细胞内的修饰,给定的crRNA或tracrRNA的确切序列可被设计为对其中使用了RNA分子的物种具有特异性。参见,例如,Mali等人,(2013)Science 339:823-826;Jinek等人,(2012)Science337:816-821;Hwang等人,(2013)Nat.Biotechnol.31:227-229;Jiang等人,(2013)Nat.Biotechnol.31:233-239;和Cong等人,(2013)Science 339:819-823,上述参考文献中的每一个的全部内容通过引用并入本文。
给定的gRNA的DNA靶向片段(crRNA)包含与目标DNA中的序列(即,向导RNA靶向序列的相对链上的向导RNA识别序列的互补链)互补的核苷酸序列。gRNA的DNA靶向片段以序列特异性的方法通过杂交(即,碱基配对)与目标DNA(例如,HSD17B13基因)发生相互作用。这样,DNA靶向片段的核苷酸序列可发生改变并且确定了目标DNA中的位置,gRNA和靶向DNA将会与所述目标DNA发生相互作用。目标gRNA的DNA靶向片段可被修饰为与目标DNA内的任何期望的序列杂交。天然生成的crRNA是基于CRISPR/Cas系统和生物体的不同而不同,但是通常包含长度为21至72个核苷酸的靶向片段,其侧面具有长度为21至46个核苷酸的两个定向重复序列(DR)(参见,例如,WO 2014/131833,其全部内容通过引用并入本文)。在使用化脓性链球菌(S.pyogenes)的情况下,DR的长度为36个核苷酸并且靶向片段的长度为30个核苷酸。3’定位的DR与对应的tracrRNA互补并杂交,其进而结合至Cas蛋白质。
DNA靶向片段的长度可以为至少约12个核苷酸,至少约15个核苷酸,至少约17个核苷酸,至少约18个核苷酸,至少约19个核苷酸,至少约20个核苷酸,至少约25个核苷酸,至少约30个核苷酸,至少约35个核苷酸,或至少约40个核苷酸。这样的DNA靶向片段的长度可以为约12个核苷酸至约100个核苷酸,约12个核苷酸至约80个核苷酸,约12个核苷酸至约50个核苷酸,约12个核苷酸至约40个核苷酸,约12个核苷酸至约30个核苷酸,约12个核苷酸至约25个核苷酸,约12个核苷酸至约20个核苷酸。例如,DNA靶向片段可以是约15个核苷酸至约25个核苷酸(例如,约17个核苷酸至约20个核苷酸,或约17个核苷酸,约18个核苷酸,约19个核苷酸,或约20个核苷酸)。参见例如,US2016/0024523,其全部内容通过引用并入本文。对于来自化脓性链球菌的Cas9而言,典型的DNA靶向片段的长度为16个核苷酸至20个核苷酸或17个核苷酸至20个核苷酸。对于来自金黄色葡萄球菌的Cas9而言,典型的DNA靶向片段的长度为21个核苷酸至23个核苷酸。对于Cpf1而言,典型的DNA靶向片段的长度为至少16个核苷酸或至少18个核苷酸。
tracrRNA可以是任何形式(例如,全长tracrRNA或部分活性tracrRNA)并且具有不同长度。它们可包括初级转录体或加工过的形式。例如,tracrRNA(作为单个向导RNA的一部分或作为双分子gRNA的一部分的单独的分子)可包含全部野生型tracrRNA序列或野生型tracrRNA的一部分或由全部野生型tracrRNA序列或野生型tracrRNA的一部分构成(例如,约为或大于野生型tracrRNA序列的约20个核苷酸,26个核苷酸,32个核苷酸,45个核苷酸,48个核苷酸,54个核苷酸,63个核苷酸,67个核苷酸,85个核苷酸或更多个核苷酸)。来自化脓性链球菌的野生型tracrRNA序列的实例包括171个核苷酸,89个核苷酸,75个核苷酸和65个核苷酸版本。参见例如,Deltcheva等人,(2011)Nature 471:602-607;WO 2014/093661,其中每一个的全部内容通过引用并入本文。单个向导RNA(sgRNA)中的tracrRNA的实例包括在sgRNA的+48版本,+54版本,+67版本和+85版本中找到的tracrRNA片段,其中,“+n”表示sgRNA包括野生型tracrRNA的高达+n个核苷酸。参见,US8,697,359,其全部内容通过引用并入本文。
DNA靶向序列和目标DNA中的向导RNA识别序列的互补链之间的互补百分比可以为至少60%(例如,至少65%,至少70%,至少75%,至少80%,至少85%,至少90%,至少95%,至少97%,至少98%,至少99%,或100%)。在约20个连续核苷酸上,DNA靶向序列和目标DNA中的向导RNA识别序列的互补链之间的互补百分比可以是至少60%。作为实例,在目标DNA的互补链中的向导RNA识别序列的互补链的5’端的14个连续核苷酸上,DNA靶向序列和目标DNA中的向导RNA识别序列的互补链之间的互补百分比为100%,并且在剩余序列上的互补百分比可以如0%这么低。在这样的情况下,DNA靶向序列可被认为长度为14个核苷酸。作为另一实例,在目标DNA的互补链中的向导RNA识别序列的互补链的5’端的7个连续核苷酸上,DNA靶向序列和目标DNA内的向导RNA识别序列的互补链之间的互补百分比为100%,并且在剩余序列上的互补百分比如0%这么低。在这样的情况下,DNA靶向序列可被认为长度为7个核苷酸。在一些向导RNA中,DNA靶向序列中的至少17个核苷酸与目标DNA互补。例如,DNA靶向序列的长度可以是20个核苷酸并且可包括向导RNA识别序列的互补链的1,2或3个错配。优选地,所述错配不接近前间区序列邻近基序(PAM)序列(例如,所述错配位于DNA靶向序列的5’端中或所述错配与PAM序列距离至少2个碱基对,至少3个碱基对,至少4个碱基对,至少5个碱基对,至少6个碱基对,至少7个碱基对,至少8个碱基对,至少9个碱基对,至少10个碱基对,至少11个碱基对,至少12个碱基对,至少13个碱基对,至少14个碱基对,至少15个碱基对,至少16个碱基对,至少17个碱基对,至少18个碱基对,或至少19个碱基对)。
gRNA的蛋白结合片段可包含两个彼此互补的核苷酸伸长序列。所述蛋白结合片段的互补核苷酸杂交形成双链RNA双倍体(dsRNA)。目标gRNA的蛋白结合片段与Cas蛋白质发生相互作用并且gRNA通过DNA靶向片段将所结合的Cas蛋白质定向至目标DNA内的特定核苷酸序列。
单个向导RNA具有DNA靶向片段和支架序列(即,向导RNA的蛋白结合或Cas结合序列)。例如,这样的向导RNA具有5’DNA靶向片段和3’支架序列。示例性的支架序列包含如下序列,基本由如下序列构成或由如下序列构成:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCU(版本1;SEQ ID NO:1420);GUUGGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(版本2;SEQ ID NO:256);
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(版本3;SEQ ID NO:257);和GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(版本4;SEQ ID NO:258)。靶向本文公开的向导RNA靶向序列中的任一种的向导RNA(例如,SEQ ID NO:20-239和259-268)可包括,例如,与向导RNA的3’端上的示例性的向导RNA支架序列中的任一种融合的向导RNA5’端上的DNA靶向片段。也就是说,本文公开的DNA靶向片段中的任一种可连接至SEQ ID NO:1420,256,257或258中的任一种的5’端以形成单个向导RNA(嵌合向导RNA)。本文其他地方公开的向导RNA版本1,2,3和4分别是指与支架版本1,2,3和4连接的DNA靶向片段。
向导RNA可包括提供其他理想的特性(例如,改良的或调节的稳定性;亚细胞靶点;荧光标记跟踪;蛋白质或蛋白复合物的结合位点,等等)的修饰或序列。这些修饰的实例包括例如:5’帽(例如,7-甲基鸟苷酸帽(m7G));3’聚腺苷酸化尾(即,3’聚(A)尾);核糖开关序列(例如,允许由蛋白质和/或蛋白质复合物调节稳定性和/或调节可及性);稳定性控制序列,形成dsRNA双倍体的序列(即,发夹),将RNA定向至亚细胞位置(例如,细胞核,线粒体,叶绿体,等等)的修饰或序列;提供跟踪的修饰或序列(例如,直接偶联至荧光分子、偶联至有利于荧光检测的基团、允许进行荧光检测的序列,等等);为蛋白质提供结合位点的修饰或序列(例如,作用于DNA上的蛋白质,包括转录活化剂,转录抑制剂,DNA甲基转移酶,DNA脱甲基酶,组蛋白乙酰转移酶,组蛋白脱乙酰酶,等等),以及它们的组合。修饰的其他实例包括工程化的茎环双倍体结构,工程化的凸出区域,茎环双倍体结构的工程化的发夹3’,或其任何组合。参见例如,US2015/0376586,其全部内容通过引用并入本文。凸出部分可以是由类crRNA区域和最小的类tracrRNA区域构成的双倍体内的核苷酸的未配对区域。在双倍体的一侧,凸出部分可包括未配对的5’-XXY-3’,其中,X是任何嘌呤并且Y可以是可与相对链上的核苷酸形成摇摆碱基对的核苷酸,在双倍体的另一侧,凸出部分可包含未配对的核苷酸区域。
在一些情况下,可使用转录活化系统,其包含与MS2-p65-HSF1配对的dCas9-VP64融合蛋白。该系统中的向导RNA可采用适体序列来设计,所述适体序列添加至设计为结合二聚化的MS2噬菌体外壳蛋白的sgRNA四环和茎环2。参见例如,Konermann等人,(2015)Nature517(7536):583-588,其全部内容通过引用并入本文。
向导RNA可以任何形式提供。例如,gRNA可以RNA的形式作为两个分子(分开的crRNA和tracrRNA)或作为一个分子(sgRNA)来提供,任选地,以与Cas蛋白质的复合物的形式来提供。例如,gRNA可通过体外转录,使用T7 RNA聚合酶来制备(参考例如,WO 2014/089290和WO 2014/065596,其全部内容通过引用并入本文)。向导RNA还可通过化学合成来制备。
gRNA还可以编码gRNA的DNA的形式提供。所述编码gRNA的DNA可编码单个RNA分子(sgRNA)或不同的RNA分子(例如,不同的crRNA和tracrRNA)。在后一种情况下,编码gRNA的DNA可作为一个DNA分子或作为编码crRNA和tracrRNA的不同的DNA分子来分别提供。
当以DNA的形式提供gRNA时,gRNA可以在细胞中瞬时表达,有条件地表达或组成性表达。编码gRNA的DNA可以稳定地整合至细胞的基因组中并可操作地连接至细胞内具有活性的启动子。可选地,编码gRNA的DNA可以可操作地连接至表达构建体中的启动子。例如,编码gRNA的DNA可以是包含异源核酸的载体。所述载体可还包含外源供体序列和/或所述载体可还包含编码Cas蛋白质的核酸。可选地,编码gRNA的DNA可以位于载体中或质粒中,所述载体或质粒从包含外源供体序列的载体和/或包含编码Cas蛋白质的核酸的载体中分离出来。可用于这种表达构建体的启动子包括例如,在真核细胞、人细胞、非人类细胞、哺乳动物细胞、非人类哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞、兔细胞、多能细胞、胚胎干(ES)细胞、成人干细胞、发育受限的祖细胞、诱导多能干(iPS)细胞或1-细胞期胚胎中的一种或多种细胞中具有活性的启动子。这些启动子可以是例如,条件性启动子,可诱导启动子,组成性启动子或组织特异性启动子。这些启动子还可以是例如,双向启动子。合适的启动子的特定实例包括RNA聚合酶III启动子,例如,人U6启动子,大鼠U6聚合酶III启动子或小鼠U6聚合酶III启动子。
本文还公开了包含本文公开的一种或多种向导RNA(例如,一种,两种,三种,四种或更多种向导RNA)和增加分离的核酸或蛋白质的稳定性(例如,延长给定的存储条件下(例如,-20℃,4℃或室温)使所述分离的核酸或蛋白质的降解产物维持在某一阈值(例如,低于初始核酸或蛋白质的0.5wt%)以下时间段或增加体内稳定性)的载体。这些载体的非限定性实例包括聚(乳酸)(PLA)微球,聚(D,L-乳酸-羟基乙酸共聚物)(PLGA)微球,脂质体,胶束,反相胶束,脂质卷,和脂质微管。这些组合物可还包含诸如Cas9蛋白质之类的Cas蛋白质或编码Cas蛋白质的核酸。这些组合物可还包含本文公开的一种或多种(例如,一种,两种,三种,四种或更多种)外源供体序列和/或一种或多种(例如,一种,两种,三种,四种或更多种)靶向载体和/或一种或多种(例如,一种,两种,三种,四种或更多种)表达载体。
(3)向导RNA识别序列和向导RNA靶向序列
术语“向导RNA识别序列”包括存在于如下目标DNA(例如HSD17B13基因)中的核酸序列,对于所述目标DNA而言,只要存在足够的结合条件其就可结合gRNA的DNA靶向片段。本文使用的术语向导RNA识别序列包含靶向双链DNA的两个链(即,与向导RNA杂交的互补链上的序列以及与前间区序列毗邻基序(PAM)邻近的非互补链上的对应序列)。本文使用的术语“向导RNA靶向序列”具体地是指与PAM邻近的非互补链上的序列(即,PAM的上游或5’)。也就是说,向导RNA靶向序列是指与在互补链上与向导RNA杂交的序列对应的非互补链上的序列。向导RNA靶向序列等同于向导RNA的DNA靶向片段,但是由胸腺嘧啶替代了尿嘧啶。作为一个实例,Cas9酶的向导RNA靶向序列是指在与5’-NGG-3’PAM邻近的非互补链上的序列。向导RNA识别序列包括设计为与向导RNA具有互补性的序列,其中,向导RNA识别序列的互补链和向导RNA的DNA靶向序列之间的杂交促进CRISPR复合物的形成。只要具有足以导致杂交并促进CRISPR复合物的形成的互补性,就不必要求具有完全互补。向导RNA识别序列或向导RNA靶向序列还包括Cas蛋白质的裂解位点,其在下文中详细描述。向导RNA识别序列或向导RNA靶向序列可包含任何多核苷酸,其可位于例如细胞的细胞核内或细胞质内或位于细胞的细胞器(例如线粒体或叶绿体)内。
目标DNA内的向导RNA识别序列可被Cas蛋白质或gRNA靶定(即,与Cas蛋白质或gRNA结合,或与Cas蛋白质或gRNA杂交或与Cas蛋白质或gRNA互补)。合适的DNA/RNA结合条件包括通常存在于细胞中的生理条件。本领域已知其他合适的DNA/RNA结合条件(例如,无细胞系统中的条件)(参见,例如,Molecular Cloning:A Laboratory Manual,3rd Ed.(Sambrook等人,Harbor Laboratory Press 2001),其全部内容通过引用并入本文)。与Cas蛋白或gRNA互补并杂交的目标DNA的链可被称为“互补链”,并且与“互补链”互补的目标DNA的链(因此,其是不与Cas蛋白质或gRNA互补链)可被称为“非互补链”或“模板链”。
Cas蛋白质可在目标DNA中存在的待与gRNA的DNA靶向片段结合的核酸序列的内部或外部的位点处裂解核酸。“裂解位点”包括Cas蛋白质产生单链断裂或双链断裂处的核酸位置。例如,CRISPR复合物(包含与向导RNA识别序列的互补链杂交并与Cas蛋白复合的gRNA)的形成可导致在存在于目标DNA中的待与gRNA的DNA靶向片段结合的核酸序列中或附近(例如,距离所述核酸序列的1个,2个,3个,4个,5个,6个,7个,8个,9个,10个,20个,50个或更多个碱基对内)发生一个链的断裂或两个链的断裂。如果裂解位点位于待与gRNA的DNA结合片段结合的核酸序列外部,那么,裂解位点仍被认为位于“向导RNA识别序列”内或“向导RNA靶向序列”内。裂解位点可仅位于核酸的一个链上或位于核酸的两个链上。裂解位点可位于核酸的两个链上的相同位置(产生平末端)或位于每个链上的不同位点(产生交错端(即,悬挂))。例如,可通过使用两个Cas蛋白产生交错端,每个Cas蛋白在不同链上的不同裂解位点产生单个链断裂,从而产生双链断裂。例如,第一切口酶可在双链DNA(dsDNA)的第一链上产生单链断裂并且第二切口酶可在dsDNA的第二链上产生单链断裂,这就产生了悬挂序列。在一些情况下,第一链上的切口酶的向导RNA识别序列或向导RNA靶向序列与第二链上的切口酶的向导RNA识别序列或向导RNA靶向分隔开至少2个碱基对,至少3个碱基对,至少4个碱基对,至少5个碱基对,至少6个碱基对,至少7个碱基对,至少8个碱基对,至少9个碱基对,至少10个碱基对,至少15个碱基对,至少20个碱基对,至少25个碱基对,至少30个碱基对,至少40个碱基对,至少50个碱基对,至少75个碱基对,至少100个碱基对,至少250个碱基对,至少500个碱基对,或至少1,000个碱基对。
Cas蛋白对目标DNA的位点特异性结合和/或裂解可发生在不同的位置,这由(i)gRNA和目标DNA之间的碱基对互补性和(ii)目标DNA中的被称为前间区序列毗邻基序(PAM)的短基序确定。PAM可位于与向导RNA杂交的链相对的非互补链上的向导RNA靶向序列的侧面。任选地,向导RNA靶向序列可位于PAM的3’端的侧面。可选地,向导RNA靶向序列可位于PAM的5’端的侧面。例如,Cas蛋白质的裂解位点可位于PAM序列的上游或下游约1个碱基对至约10个碱基对或约2个碱基对至约5碱基对(例如,3个碱基对)的位置。在一些情况下(例如,当使用来自化脓性链球菌的Cas或使用紧密相关的Cas9时),非互补链的PAM序列可以是5’-N1GG-3’,其中N1是任何DNA核苷酸并且就是目标DNA的非互补链的向导RNA识别序列的3’(即,就是向导RNA靶向序列的3’)。这样,互补链的PAM序列可以是5’-CCN2-3’,其中,N2是任何DNA核苷酸并且就是目标DNA的互补链的向导RNA识别序列的5’。这一些这样的情况下,N1和N2可以是互补的并且N1-N2碱基对可以是任何碱基对(例如,N1=C并且N2=G,N1=G并N2=C;N1=A并且N2=T;或N1=T,并且N2=A)。在Cas9来自金黄色葡萄糖球菌的情况下,PAM可以是NNGRRT或NNGRR,其中,N可以是A,G,C,或T,并且R可以是G或A。在一些情况(例如,对于FnCpf1而言)下,PAM序列可以是5’端的上游并且具有序列5’-TTN-3’。
除了PAM序列之外,下文还提供向导RNA靶向序列的实例。例如,向导RNA靶向序列可以是就在由Cas9蛋白质识别的NGG基序之前的20个核苷酸的DNA序列。这些向导RNA靶向序列连同PAM序列的实例是GN19NGG(SEQ ID NO:248)或N20NGG(SEQ ID NO:249)。参见,例如,WO2014/165825,其全部内容通过引用并入本文。5’端的鸟嘌呤可通过RNA聚合酶促进细胞内的转录。向导RNA靶向序列连同PAM序列的其他实例可包括5’端的两个鸟嘌呤核苷酸(例如,GGN20NGG,SEQ ID NO:250)以通过T7聚合酶促进体外有效转录。参见,例如,WO2014/065596,其全部内容通过引用并入本文。其他向导RNA靶向序列连同PAM序列的长度可为SEQID NO:248-250的4个核苷酸至22个核苷酸,其包括5’G或GG以及3’GG或NGG。其他向导RNA靶向序列的长度为SEQ ID NO:248-250的14个核苷酸至20个核苷酸。
向导RNA识别序列或向导RNA靶向序列可以是细胞的内源的或外源性的任何核酸序列。向导RNA识别序列或向导RNA靶向序列可以是编码基因产物(例如蛋白质)的序列或非编码序列(例如,调节性序列)或可包括这两者。
作为一个实例,向导RNA识别序列或向导RNA靶向序列可位于在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的外显子6和/或内含子6,外显子6和/或外显子7,或外显子6和/或内含子6和/或外显子7的区域内。作为另一实例,向导RNA识别序列或向导RNA靶向序列可包括或接近在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ IDNO:2的位置12666的位置。例如,向导RNA识别序列或向导RNA靶向序列可位于在HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置的约1000个核苷酸内,约500个核苷酸内,约400个核苷酸内,约300个核苷酸内,约200个核苷酸内,约100个核苷酸内,约50个核苷酸内,约45个核苷酸内,约40个核苷酸内,约35个核苷酸内,约30个核苷酸内,约25个核苷酸内,约20个核苷酸内,约15个核苷酸内,约10个核苷酸内,或约5个核苷酸内。作为又一实例,向导RNA识别序列或向导RNA靶向序列可包括或接近HSD17B13基因的起始密码子或HSD17B13基因的终止密码子。例如,向导RNA识别序列或向导RNA靶向序列可以位于起始密码子或终止密码子的约10个核苷酸内,约20个核苷酸内,约30个核苷酸内,约40个核苷酸内,约50个核苷酸内,约100个核苷酸内,约200个核苷酸内,约300个核苷酸内,约400个核苷酸内,约500个核苷酸内,或约1,000个核苷酸内。这些向导RNA靶向序列的实例和靶向这些向导RNA靶向序列的向导RNA的实例在本文的其他地方公开。
F.外源供体序列或靶向载体
本文公开的方法和组合物可使用外源供体序列(例如,靶向载体或修复模板)在不裂解HSD17B13基因的条件下或在用核酸酶试剂裂解HSD17B13基因之后修饰HSD17B13基因。外源供体序列是指包括与目标序列进行位点特异性重组所需的元件的任何核酸或载体。联合使用外源供体序列和核酸酶试剂可通过促进同源定向修复而更加精确地修饰HSD17B13基因。
在这种方法中,核酸酶试剂裂解HSD17B13基因产生单链断裂(切口)或双链断裂,并且外源供体序列通过非同源性末端连接(NHEJ)介导的连接或通过同源定向修复事件重组HSD17B13基因。任选地,采用外源供体序列进行修复除去了或破坏了核酸酶裂解位点,从而使已被靶定的等位基因被核酸酶试剂再次靶定。
外源供体序列可包括脱氧核糖核酸(DNA)或核糖核酸(RNA),它们可以是单链或双链,并且它们可以是线性的形式或环状形式。例如,外源供体序列可以是单链寡脱氧核苷酸(ssODN)。参见,例如,Yoshimi等人,(2016)Nat.Commun.7:10431,其全部内容通过引用并入本文。示例性的外源供体序列的长度为约50个核苷酸至约5kb,约50个核苷酸至约3kb,或约50个核苷酸至约1,000个核苷酸。其他示例性的外源供体序列的长度为约40个核苷酸至约200个核苷酸。例如,外源供体序列的长度可以是约50个核苷酸至约60个核苷酸,约60个核苷酸至约70个核苷酸,约70个核苷酸至约80个核苷酸,约80个核苷酸至约90个核苷酸,约90个核苷酸至约100个核苷酸,约100个核苷酸至约110个核苷酸,约110个核苷酸至约120个核苷酸,约120个核苷酸至约130个核苷酸,约130个核苷酸至约140个核苷酸,约140个核苷酸至约150个核苷酸,约150个核苷酸至约160个核苷酸,约160个核苷酸至约170个核苷酸,约170个核苷酸至约180个核苷酸,约180个核苷酸至约190个核苷酸,约190个核苷酸至约200个核苷酸。可选地,外源供体序列的长度可以是约50个核苷酸至约100个核苷酸,约100个核苷酸至约200个核苷酸,约200个核苷酸至约300个核苷酸,约300个核苷酸至约400个核苷酸,约400个核苷酸至约500个核苷酸,约500个核苷酸至约600个核苷酸,约600个核苷酸至约700个核苷酸,约700个核苷酸至约800个核苷酸,约800个核苷酸至约900个核苷酸,约900个核苷酸至约1,000个核苷酸。可选地,外源供体序列的长度可以是约1kb至约1.5kb,约1.5kb至约2kb,约2kb至约2.5kb,约2.5kb至约3kb,约3kb至约3.5kb,约3.5kb至约4kb,约4kb至约4.5kb,或约4.5kb至约5kb。可选地,外源供体序列的长度可以是例如不超过5kb,4.5kb,4kb,3.5kb,3kb,2.5kb,2kb,1.5kb,1kb,900个核苷酸,800个核苷酸,700个核苷酸,600个核苷酸,500个核苷酸,400个核苷酸,300个核苷酸,200个核苷酸,100个核苷酸,或50个核苷酸。
在一个实例中,外源供体序列是长度为约80个核苷酸至约200个核苷酸(例如,长度为约120个核苷酸)的ssODN。在另一实例中,外源供体序列是长度为约80个核苷酸至约3kb的ssODN。这种ssODN可以具有如下同源臂,例如,每个臂的长度为约40个核苷酸至约60个核苷酸。这种ssODN还可具有如下同源臂,例如,每个臂的长度为约30个核苷酸至100个核苷酸。所述同源臂可以是对称的(例如,每个臂的长度为40个核苷酸或60个核苷酸),或者所述同源臂可以是非对称的(例如,一个同源臂的长度为36个核苷酸,另一个同源臂的长度为91个核苷酸)。
外源供体序列可包括提供额外的理想特性(例如,改良的或调节的稳定性,采用荧光标记跟踪或检测,用于蛋白质或蛋白质复合物的结合位点,等等)的修饰或序列。外源供体序列可包含一个或多个荧光标记,纯化标签,表位标签或其组合。例如,外源供体序列可包含一个或多个荧光标记(例如,荧光蛋白或其他荧光团或染料),例如,至少一个荧光标记,至少2个荧光标记,至少3个荧光标记,至少4个荧光标记或至少5个荧光标记。示例性的荧光标记包括诸如荧光素(例如,6-羧基荧光素(6-FAM))之类的荧光团,德克萨斯红,HEX,Cy3,Cy5,Cy5.5,Pacific Blue,5-(和6-)-羧基四甲基罗丹明(TAMRA)和Cy7。用于标记寡核苷酸的多种荧光染料是商业上可获得的(例如,可获自Integrated DNA Technologies)。这些荧光标记(例如,内部荧光标记)可用于例如检测外源供体序列,所述外源供体序列已直接整合至具有与外源供体序列的末端相容的凸出端的裂解的HSD17B13基因中。标记或标签可位于外源供体序列5’端,3’端或位于外源供体序列内部。例如,外源供体序列可以在5’端与来自Integrated DNA Technologies的IR700荧光团(5’700)偶联。
外源供体序列可还包含待整合至HSD17B13基因中的DNA片段的核酸插入体。核酸插入体在HSD17B13基因内的整合可导致在HSD17B13基因中添加目标核酸序列,在HSD17B13基因中删除目标核酸序列或在HSD17B13基因中取代目标核酸序列(即,删除和插入)。一些外源供体序列被设计为在HSD17B13基因中不发生任何对应的删除的条件下在HSD17B13基因中插入核酸插入体。其他外源供体序列被设计为在不发生任何相应的核酸插入体的插入的条件下删除HSD17B13基因中的目标核酸序列。又一外源供体序列被设计为删除HSD17B13基因中的目标核酸序列并由核酸插入体取代该目标核酸序列。
在HSD17B13基因中删除和/或取代的核酸插入体或对应的核酸可具有不同的长度。HSD17B13基因中删除和/或取代的示例性的核酸插入体或对应的核酸的长度为约1个核苷酸至约5kb或约1个核苷酸至约1,000个核苷酸。例如,HSD17B13基因中删除和/或取代的核酸插入体或对应的核酸的长度可以是约1个核苷酸至约10个核苷酸,约10个核苷酸至约20个核苷酸,约20个核苷酸至约30个核苷酸,约30个核苷酸至约40个核苷酸,约40个核苷酸至约50个核苷酸,约50个核苷酸至约60个核苷酸,约60个核苷酸至约70个核苷酸,约70个核苷酸至约80个核苷酸,约80个核苷酸至约90个核苷酸,约90个核苷酸至约100个核苷酸,约100个核苷酸至约110个核苷酸,约110个核苷酸至约120个核苷酸,约120个核苷酸至约130个核苷酸,约130个核苷酸至约140个核苷酸,约140个核苷酸至约150个核苷酸,约150个核苷酸至约160个核苷酸,约160个核苷酸至约170个核苷酸,约170个核苷酸至约180个核苷酸,约180个核苷酸至约190个核苷酸,约190个核苷酸至约200个核苷酸。类似地,HSD17B13基因中删除和/或取代的核酸插入体或对应的核酸的长度可以是约1个核苷酸至约100个核苷酸,约100个核苷酸至约200个核苷酸,约200个核苷酸至约300个核苷酸,约300个核苷酸至约400个核苷酸,约400个核苷酸至约500个核苷酸,约500个核苷酸至约600个核苷酸,约600个核苷酸至约700个核苷酸,约700个核苷酸至约800个核苷酸,约800个核苷酸至约900个核苷酸,约900个核苷酸至约1,000个核苷酸。类似地,HSD17B13基因中删除和/或取代的核酸插入体或对应的核酸的长度可以是约1kb至约1.5kb,约1.5kb至约2kb,约2kb至约2.5kb,约2.5kb至约3kb,约3kb至约3.5kb,约3.5kb至约4kb,约4kb至约4.5kb,或约4.5kb至约5kb。
核酸插入体可包含基因组DNA或任何其他类型的DNA。例如,核酸插入体可包含cDNA。
核酸插入体可包含与全部HSD17B13基因同源的或与部分HSD17B13基因(例如,编码HSD17B13蛋白质的特定基序或区域的基因的一部分)同源的序列。例如,核酸插入体可包含如下序列,所述序列相对于HSD17B13基因中被靶定进行取代的序列包含一个或多个点突变(例如,1个,2个,3个,4个,5个或更多个)或一个或多个核苷酸插入或删除。
HSD17B13基因中被删除和/或取代的核酸插入体或对应的核酸可以是编码区域(例如外显子),非编码区域(例如,内含子),非翻译区域,或调节性区域(例如,启动子,增强子或转录抑制结合元件)或它们的任何组合。
核酸插入体可还包含条件性等位基因。所述条件性等位基因可以是多功能等位基因,如US2011/0104799中所公开的,其全部内容通过引用并入本文。例如,条件性等位基因可包含:(a)相对于目标基因的转录有义方向上的启动序列;(b)正义或反义方向上的药物选择盒(DSC);(c)反义方向上的目标核苷酸序列;以及(d)反方向上的条件性反向模块(conditional by inversion module,COIN,其利用外显子分裂的内含子和可逆的类基因捕获模块)。参见,例如,US2011/0104799。所述条件性等位基因可还包含可重组的单元,其在暴露于第一重组酶之后进行重组形成条件性等位基因,该等位基因(i)缺乏启动序列和DSC并且(ii)包含有义方向上的NSI和反义方向上的COIN。参见,例如,US2011/0104799。
核酸插入体可还包含编码选择标志物的多核苷酸。可选地,所述核酸插入体可缺乏编码选择标志物的多核苷酸。所述选择标志物可包含在选择盒内。任选地,所述选择盒可以是自删除盒。参见,例如,US 8,697,851和US 2013/0312129,其全部内容通过引用并入本文。作为实例,自删除盒可包含可操作地连接至小鼠Prm1启动子的Crei基因(其包含编码Cre重组酶的两个外显子,这两个外显子由内含子隔开)以及可操作地连接至人泛素启动子的新霉素耐受基因。示例性的选择标志物包括新霉素磷酸转移酶(neor),潮霉素B磷酸转移酶(hygr),嘌呤霉素-N-乙酰基转移酶(puror),灭瘟素S脱氨酶(bsrr),黄嘌呤/鸟嘌呤磷酸核糖转移酶(gpt)或单纯疱疹病毒胸苷激酶(HSV-k)或其组合。编码选择标志物的多核苷酸可以可操作地连接至在靶向的细胞内具有活性的启动子。启动子的实例在本文的其他地方描述。
核酸插入体可还包含报告体基因。示例性的报告体基因包括编码荧光素酶,β-半乳糖苷酶,绿色荧光蛋白(GFP),提高的绿色荧光蛋白(eGFP),青色荧光蛋白(CFP),黄色荧光蛋白(YFP),提高的黄色荧光蛋白(eYFP),蓝色荧光蛋白(BFP),提高的蓝色荧光蛋白(eBFP),DsRed,ZsGreen,MmGFP,mPlum,mCherry,tdTomato,mStrawberry,J-Red,mOrange,mKO,mCitrine,Venus,YPet,Emerald,CyPet,Cerulean,T-Sapphire,和碱性磷酸酶的那些报告体基因。这些报告体基因可以可操作地连接至在靶向的细胞内具有活性的启动子。启动子的实例在本文的其他地方公开。
核酸插入体可还包含一种或多种表达盒或删除盒。给定的盒可包含目标核苷酸序列、编码选择标志物的多核苷酸和报告体基因中的一种或多种以及影响表达的各种不同的调节性成分。可包括的可选择的标志物和报告体基因的实例在本文的其他地方公开。
核酸插入体可包含位于位点特异性重组靶向序列侧面的核酸。可选地,所述核酸插入体可包含一种或多种位点特异性重组靶向序列。虽然整个核酸插入体可位于这样的位点特异性重组靶向序列的侧面,但是位于所述核酸插入体内的目标多核苷酸的任何区域或单个目标多核苷酸也可位于这样的位点的侧面。可使核酸插入体或核酸插入体内的任何目标多核苷酸位于其侧面的位点特异性重组靶向序列可包括例如:loxP,lox511,lox2272,lox66,lox71,loxM2,lox5171,FRT,FRT11,FRT71,attp,att,FRT,rox,或其组合。在一个实例中,位点特异性重组位点侧面具有编码选择标志物的多核苷酸和/或包含在所述核酸插入体内的报告体基因。在将核酸插入体整合至HSD17B13基因中之后,可除去位于位点特异性重组位点之间的序列。任选地,可使用两个外源供体序列,其中一个具有包含位点特异性重组位点的核酸插入体。所述外源供体序列可靶向位于目标核酸侧面的5’区域和3’区域。在将两个核酸插入体整合至目标基因基因座之后,可除去两个插入的位点特异性重组位点之间的目标核酸。
核酸插入体可还包含用于限制核酸内切酶(即,限制性酶)的一个或多个限制位点,所述核酸内切酶包括I型、II型、III型和IV型核酸内切酶。I型和III型限制核酸内切酶识别特异性识别序列,但是其通常在距离核酸酶结合位点的不同的位置进行裂解,所述不同的位置可以是距离裂解位点(识别序列)数百碱基对的位置。在II型系统中,限制性活性不依赖于任何甲基化酶的活性,并且裂解通常发生在结合位点内或接近结合位点的特定位点。大多数II型酶切断回文序列,然而,IIa型酶识别非回文识别序列并在识别序列的外部进行裂解,IIb型酶在位于识别序列的外部的两个位点对进行序列两次切断并且IIs型酶识别非对称识别序列并在一个侧面且距离识别序列约1-20个核苷酸的限定距离上进行裂解。IV型限制酶靶向甲基化DNA。限制酶在例如REBASE数据库(rebase.neb.com上的网页;Roberts等人,(2003)Nucleic Acids Res.31:418-420;Roberts等人,(2003)NucleicAcids Res.31:1805-1812;和Belfort等人,(2002)in Mobile DNA II,pp.761-783,Eds.Craigie等人,(ASM Press,Washington,DC))中进行进一步描述和分类。
(1)用于非同源末端连接介导的插入的供体序列
一些外源供体序列在5’端和/或3’端具有如下短单链区域,所述短单链区域与由核酸酶介导的或Cas蛋白质介导的在靶向基因基因座处(例如,HSD17B13基因内)进行的裂解产生的一个或多个悬挂互补。这些悬挂也可以称为5’和3’同源臂。例如,一些外源供体序列在5’端和/或3’端具有如下短单链区域,所述短单链区域与由Cas蛋白质介导的在靶向基因基因座的5’和/或3’靶向序列处进行的裂解而产生的一个或多个悬挂互补。一些这样的外源供体序列仅在5’端或仅在3’端具有互补区域。例如,一些这样的外源供体序列仅在5’端具有与在靶向基因基因座的5’靶向序列处产生的悬挂互补的互补区域或者仅在3’段具有与在靶向基因基因座的3’靶向序列处产生的悬挂互补的互补区域。其他这样的外源供体序列在5’端和3’端均具有互补区域。例如,其他这样的外源供体序列在5’端和3’端均具有互补区域,例如,与由靶向基因基因座处Cas介导的裂解产生的第一悬挂和第二悬挂分别互补。例如,如果外源供体序列是双链的,那么单链互补区域可从供体序列的顶部链的5’端和供体序列的底部链的5’端延伸出来,从而在每一端产生5’悬挂。可选地,单链互补区域可从供体序列的顶部链的3’端和模板的底部链的3’端延伸出来,产生3’悬挂。
互补区域可具有任何足以促进外源供体序列和HSD17B13基因之间的连接的长度。示例性的互补区域的长度为约1个核苷酸至约5个核苷酸,约1个核苷酸至约25个核苷酸或约5个核苷酸至约150个核苷酸。例如,互补区域的长度可以是至少约1个核苷酸,至少约2个核苷酸,至少约3个核苷酸,至少约4个核苷酸,至少约5个核苷酸,至少约6个核苷酸,至少约7个核苷酸,至少约8个核苷酸,至少约9个核苷酸,至少约10个核苷酸,至少约11个核苷酸,至少约12个核苷酸,至少约13个核苷酸,至少约14个核苷酸,至少约15个核苷酸,至少约16个核苷酸,至少约17个核苷酸,至少约18个核苷酸,至少约19个核苷酸,至少约20个核苷酸,至少约21个核苷酸,至少约22个核苷酸,至少约23个核苷酸,至少约24个核苷酸,或至少约25个核苷酸。可选地,互补区域的长度可以是约5核苷酸至约10个核苷酸,约10个核苷酸至约20个核苷酸,约20个核苷酸至约30个核苷酸,约30个核苷酸至约40个核苷酸,约40个核苷酸至约50个核苷酸,约50个核苷酸至约60个核苷酸,约60个核苷酸至约70个核苷酸,约70个核苷酸至约80个核苷酸,约80个核苷酸至约90个核苷酸,约90个核苷酸至约100个核苷酸,约100个核苷酸至约110个核苷酸,约110个核苷酸至约120个核苷酸,约120个核苷酸至约130个核苷酸,约130个核苷酸至约140个核苷酸,约140个核苷酸至约150个核苷酸或更长。
这些互补区域可与由两对切口酶产生的悬挂互补。具有交错末端的两个双链断裂可通过使用如下第一和第二切口酶以及第三和第四切口酶来产生,所述第一和第二切口酶裂解DNA的相对链以产生第一双链断裂,所述第三和第四切口酶裂解DNA的相对链产生第二双链断裂。例如,Cas蛋白可用于在与第一、第二、第三和第四向导RNA对应的第一、第二、第三和第四向导RNA靶向序列上产生切口。所述第一和第二向导RNA靶向序列可位于产生第一裂解的位置,这样由第一和第二切口酶在DNA的第一和第二链上产生的切口产生了双链断裂(即,第一裂解位点包含位于第一和第二向导RNA靶向序列中的切口)。类似地,第三和第四向导RNA靶向序列可位于产生第二裂解位点的位置,这样,由第三和第四切口酶在DNA的第一和第二链上产生的切口产生了双链断裂(即,第二裂解位点包含位于第三和第四向导RNA靶向序列内的切口)。优选地,位于第一和第二向导RNA向导序列和/或第三和第四向导RNA靶向序列内的切口可以是产生悬挂的偏置切口。偏置窗口可以是例如至少约5bp,10bp,20bp,30bp,40bp,50bp,60bp,70bp,80bp,90bp,100bp或更大。参见,Ran等人,(2013)Cell154:1380-1389;Mali等人,(2013)Nat.Biotech.31:833-838;和Shen等人,(2014)Nat.Methods 11:399-404,其全部内容通过引用并入本文。在这些情况下,双链外源供体序列可使用如下单链互补区域设计,所述单链互补区域与由第一和第二向导RNA靶向序列内的切口产生的悬挂以及由第三和第四向导RNA靶向序列内的切口产生的悬挂互补。这样的外源供体序列随后可通过非同源末端连接介导的连接插入。
(2)用于通过同源定向修复进行插入的供体序列
一些外源供体序列(例如,靶向载体)包含同源臂。如果外源供体序列还包含核酸插入体,那么所述同源臂可位于所述核酸插入体的侧面。为了便于参考,本文中的同源臂被称为5’和3’(即,上游和下游)同源臂。该术语涉及同源臂与外源供体序列内的核酸插入体的相对位置。5’和3’同源臂对应于HSD17B13基因内的区域,该区域在本文中被分别称为“5’靶向序列”和“3’靶向序列”。
当两个区域彼此之间共享足够水平的序列一致性时,同源臂和靶向序列彼此之间“对应”以作为同源重组反应的底物。术语“同源”包括与对应序列等同或与对应序列共享序列一致性的DNA序列。给定的靶向序列和在外源供体序列中发现的对应的同源臂之间的序列一致性可以是任何程度的序列一致性,该序列一致性允许同源性重组发生。例如,外源供体序列(或其片段)的同源臂和靶向序列(或其片段)共享的序列一致性的量可以是至少50%,55%,60%,65%,70%,75%,80%,81%,82%,83%,84%,85%,86%,87%,88%,89%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%或100%序列一致性,从而所述序列经历同源性重组。而且,同源臂和对应的靶向序列之间的具有同源性的对应区域可具有任何足以促进同源重组的长度。示例性的同源臂的长度为约25个核苷酸至约2.5kb,约25个核苷酸至约1.5kb或约25个核苷酸至约500个核苷酸。例如,给定的同源臂(或同源臂中的每一个)和/或对应的靶向序列可包含长度为约25个核苷酸至约30个核苷酸,约30个核苷酸至约40个核苷酸,约40个核苷酸至约50个核苷酸,约50个核苷酸至约60个核苷酸,约60个核苷酸至约70个核苷酸,约70个核苷酸至约80个核苷酸,约80个核苷酸至约90个核苷酸,约90个核苷酸至约100个核苷酸,约100个核苷酸至约150个核苷酸,约150个核苷酸至约200个核苷酸,约200个核苷酸至约250个核苷酸,约250个核苷酸至约300个核苷酸,约300个核苷酸至约350个核苷酸,约350个核苷酸至约400个核苷酸,约400个核苷酸至约450个核苷酸,约450个核苷酸至约500个核苷酸的具有同源性的对应区域,这样,同源臂具有足以与HSD17B13基因内的对应的靶向序列进行同源重组的同源性。可选地,给定的同源臂(或每个同源臂)和/或对应的靶向序列可包含长度为约0.5kb至约1kb,约1kb至约1.5kb,约1.5kb至约2kb,或约2kb至约2.5kb的同源性对应区域。例如,同源臂中的每一个的长度可为约750个核苷酸。同源臂可以是对称的(每个同源臂具有大约相同的长度)或可以是非对称的(一个同源臂比另一个长)。
同源臂可对应于细胞本身的基因座(例如,靶向基因座)。可选地,例如,同源臂可对应于整合至细胞基因组内的DNA的异源或外源片段的区域,包括,例如:转基因,表达盒或DNA的异源或外源区域。可选地,靶向载体的同源臂可对应于酵母人工染色体(YAC),细菌人工染色体(BAC),人人工染色体的区域或任何其他包含在合适的宿主细胞内的工程化区域。进一步而言,靶向载体的同源臂可对应于或源自BAC文库、粘粒文库或P1噬菌体文库的区域或可源自合成的DNA。
当核酸酶试剂与外源供体序列联合使用时,5’和3’靶向序列优选地位于与核酸酶裂解位点足够近的位置,从而在核酸酶裂解位点处进行单链断裂(切口)或双链断裂之后促进靶向序列和同源臂之间发生同源重组事件。术语“核酸酶裂解位点”包括如下DNA序列,在该DNA序列中,由核酸酶试剂(例如,与向导RNA复合的Cas蛋白质)产生切口或双链断裂。如果在核酸酶裂解位点处进行单链断裂或双链断裂之后,HSD17B13基因中与外源供体序列的5’和3’同源臂对应的靶向序列与核酸酶裂解位点的距离促进5’和3’靶向序列和同源臂之间发生同源重组事件,那么,HSD17B13基因中与外源供体序列的5’和3’同源臂对应的靶向序列位于与核酸酶裂解位点“足够近的位置”。因此,对应于外源供体序列的5’和/或3’同源臂的靶向序列可以例如位于给定的核酸酶裂解位点的至少1个核苷酸内或位于给定的核酸酶裂解位点的至少10个核苷酸至约1,000个核苷酸内。作为实例,核酸酶裂解位点可以就在靶向序列中的至少一个或两个的附近。
对应于外源供体序列的同源臂的靶向序列和核酸酶裂解位点之间的空间关系可发生改变。例如,靶向序列可位于核酸酶裂解位点的5’端,靶向序列可位于核酸酶裂解位点的3’端,或靶向序列可位于核酸酶裂解位点的侧面。
IV.治疗和预防应用
本文还提供治疗性方法以及使用本文公开的用于修饰或改变内源HSD17B13基因的表达的方法治疗或预防患有慢性肝病或有风险患上慢性肝病的受治者的慢性肝病的方法。本文还提供治疗性方法以及使用本文公开的用于修饰或改变内源HSD17B13基因的表达的方法治疗或预防患有肝病或有风险患上肝病的受治者的诸如酒精性肝病或非酒精性肝病之类的肝病的方法。本文还提供治疗性方法和使用降低HSD17B13 mRNA转录体的表达的方法或使用用于向受治者提供编码HSD17B13蛋白质的重组核酸,提供编码HSD17B13蛋白质的mRNA或提供HSD17B13蛋白质的方法治疗或预防患有慢性肝病或有风险患上慢性肝病的受治者的慢性肝病的方法。本文提供治疗性方法以及使用降低HSD17B13 mRNA转录体的表达的方法或使用向受治者提供编码HSD17B13蛋白质的重组核酸,提供编码HSD17B13蛋白质的mRNA,或提供HSD17B13蛋白质的方法治疗或预防患有肝病或有风险患上肝病的受治者的诸如酒精性肝病或非酒精性肝病之类的肝病的方法。所述方法可包括将一种或多种核酸或蛋白质引入受治者体内、引入受治者的肝脏内或受治者的细胞(例如,肝细胞)内(例如,体内或体外)。
慢性肝病包括持续超过六个月的肝脏疾病并且可包括例如:涉及可导致纤维化和肝硬化的肝脏薄壁组织的进行性破坏和再生的肝脏疾病。慢性肝病可以是酒精性肝病或非酒精性肝病。慢性肝病所涵盖的肝脏病理学可包括例如:炎症(例如,慢性肝炎),肝硬化和肝细胞癌。慢性肝病的类型在本文的其他地方公开并且包括例如:脂肪肝,非酒精性脂肪肝,酒精性脂肪肝,肝硬化和肝细胞癌。慢性肝病的症状和征象是本领域已知的并且可包括例如:肝脏增大,疲劳,上右腹部疼痛,腹部肿胀(腹水),仅皮肤表面下的血管增大,男性乳房增大,脾脏增大,红掌,皮肤和眼睛发黄(黄疸)。对慢性肝病的测试可涉及血液测试,肝脏成像,以及肝脏活检。如果受治者具有至少一个已知的风险因素(例如,基因因素,例如引起疾病的突变),那么个体处于慢性肝病的风险增加,其中,所述风险因素是使得个体具有比不具有该风险因素的个体显著的更高的发展疾病的风险的风险因素。慢性肝病的风险因素也是本领域熟知的并且可包括例如:过量使用酒精,肥胖,高胆固醇,血液中高水平甘油三酯,多囊卵巢综合征,睡眠呼吸暂停,2型糖尿病,甲状腺功能减退(甲状腺功能减退),垂体功能减退以及包括血脂水平升高在内的代谢综合症。
术语“受治者”包括接受预防治疗或治疗性治疗的人类和其他哺乳动物受治者(例如,猫科动物、犬科动物、啮齿动物、小鼠或大鼠)或非哺乳动物受治者(例如,家禽)。这些受治者可以是例如:非HSD17B13 rs72613567变体的携带者的受治者(例如,人类)(或只是HSD17B13 rs72613567变体的杂合携带者),并且该受治者患有或易于患上慢性肝病。各种不同的方法可用于检测生物样本中是否存在HSD17B13 rs72613567变体,所述生物样本包括基因组DNA,其用于检测HSD17B13转录体C,D,E,F,F’,G和H中的任一种或它们的组合的是否存在或其水平,具体而言,对于HSD17B13转录体D而言,各种不同的方法可用于检测在包含mRNA或cDNA的生物样本中是否存在HSD17B13 rs72613567变体,或者,各种不同的方法可用于检测HSD17B13蛋白质亚型C,D,E,F,F’,G或H中的任一种或其组合是否存在或其水平,具体而言,对于HSD17B13蛋白质亚型D而言,各种不同的方法可用于检测包含蛋白质的生物样本中是否存在HSD17B13 rs72613567变体。用于检测基因组DNA中的序列是否存在并且用于检测特定mRNA转录体或蛋白质亚型是否存在的方法是本领域熟知的。应当理解的是,种群中的基因序列以及由该基因编码的mRNA和蛋白质可由于诸如单个核苷酸多态性之类的多态性而发生改变。本文提供的HSD17B13基因和每个HSD17B13转录体以及HSD17B13亚型的这些序列仅仅是HSD17B13基因和每个HSD17B13转录体和HSD17B13亚型的示例性的序列。HSD17B13基因和每个HSD17B13转录体以及HSD17B13亚型的其他序列也是有可能的。
例如,用于检测细胞或诸如人受治者之类的受治者体内的HSD17B13 rs72613567变体的方法可包括例如,从包括HSD17B13基因的受治者体内获取生物样本,并且对所述生物样本进行分析,所述分析确定了在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQID NO:2的位置12666的HSD17B13基因的位置被胸腺嘧啶占据或确定了胸腺嘧啶插入在将HSD17B13基因与SEQ ID NO:1最佳比对时对应于位置12665和12666的位置之间。应当理解的是,在将HSD17B13基因和SEQ ID NO:2最佳比对时确定对应于SEQ ID NO:2的位置12666的HSD17B13基因的位置被胸腺嘧啶占据是指确定位于对应于SEQ ID NO:1的位置12665和12666的位置的侧面的位置内的足够数量的核苷酸的一致性,这确定了在对应于SEQ IDNO:1的位置12665和12666的位置之间插入胸腺嘧啶。这些分析可包含例如:在将HSD17B13基因和SEQ ID NO:2(或SEQ ID NO:1)最佳比对时,确定对应于SEQ ID NO:2的位置12666(或SEQ ID NO:1的位置12665和12666)的HSD17B13基因的位置的一致性以及一个或多个周围位置(例如,SEQ ID NO:2的位置12666的一侧或每一侧或SEQ ID NO:1的位置12665和12666的一侧或每一侧的至少一个位置,至少两个位置,至少三个位置,至少四个位置,至少五个位置,至少六个位置,至少七个位置,至少八个位置,至少九个位置或至少是个位置)。这样的方法中进行的分析可包括例如:在将HSD17B13基因和SEQ ID NO:2最佳比对时,对包括对应于SEQ ID NO:2的位置12666或位置12666和12667的位置在内的HSD17B13基因的一部分进行测序。类似地,所述分析可包括:在将HSD17B13基因和SEQ ID NO:1最佳比对时,对包括对应于SEQ ID NO:1的位置12665和12666的位置在内的HSD17B13基因的一部分进行测序。可选地,在这种方法中进行的分析可包括使生物样本与引物或探针接触,所述引物或探针与HSD17B13 rs72613567变体而非对应的野生型HSD17B13序列特异性杂交(例如,在严格条件下),以及确定是否发生杂交。
这些方法可包括基因组编辑或基因疗法。例如,非HSD17B13 rs72613567变体的内源HSD17B13基因可被修饰为包含与HSD17B13 rs72613567变体相关的改变(即,在将HSD17B13基因与SEQ ID NO:1最佳比对时在对应于SEQ ID NO:1的位置12665和12666的核苷酸之间插入胸腺嘧啶,或在相对链的对应位置上插入腺嘌呤)。作为另一实例,非HSD17B13rs72613567变体的内源HSD17B13基因可被敲除或惰化。类似地,非HSD17B13rs72613567变体的内源HSD17B13基因可被敲除或惰化,并且可引入或表达包含与HSD17B13rs72613567变体(例如,完全HSD17B13 rs72613567变体或包含修饰的微小基因)相关的修饰的HSD17B13基因。类似地,非HSD17B13 rs72613567变体的内源HSD17B13基因可被敲除或惰化,并且可引入并表达编码HSD17B13亚型C,D,F,G和H(或其片段)中的任一种或其任何组合的重组DNA,可引入或表达编码HSD17B13亚型C,D,F,G和H(或其片段)中的任一种或其任何组合的mRNA(例如,细胞内蛋白替代疗法),或可引入HSD17B13亚型C,D,F,G和H(或其片段)中的任一种或其任何组合(例如,蛋白替代疗法)。在具体的实施方式中,HSD17B13亚型(或编码的DNA或mRNA)的组合是包含HSD17B13亚型D(例如,D,DC,DF,DG,DH,DCF,DCG,DCH,DFG,DFH,DGH,DCFG,DCFH,DCGH,DFGH,或DCFGH)的组合。
其他这样的方法可包括引入和表达包含与HSD17B13 rs72613567变体相关的修饰的重组HSD17B13基因(例如,完全HSD17B13 rs72613567变体或包含修饰的微小基因),引入和表达编码HSD17B13亚型C,D,F,G和H或其片段中的任一种或其任何组合的重组核酸(例如,DNA),引入和表达编码HSD17B13亚型C,D,F,G和H或其片段中的任一种或其任何组合的一种或多种mRNA(例如,细胞内蛋白替代疗法),或引入HSD17B13亚型C,D,F,G和H或其片段中的任一种或其任何组合(例如,蛋白替代疗法),无需敲除或惰化非HSD17B13 rs72613567变体的内源性HSD17B13基因。在具体的实施方式中,HSD17B13亚型(或编码的DNA或mRNA)的组合是包含HSD17B13亚型D的组合(例如,D,DC,DF,DG,DH,DCF,DCG,DCH,DFG,DFH,DGH,DCFG,DCFH,DCGH,DFGH,或DCFGH)。任选地,这些方法还可与使HSD17B13 rs72613567变体(例如,转录体A,B,E和F’)的携带者体内HSD17B13转录体的表达降低的方法联合进行,其中,HSD17B13转录体被靶向表达降低,例如,通过使用反义RNA,siRNA或shRNA。在具体的实施方式中,靶向表达降低的HSD17B13转录体是包含转录体A(例如,A,AB,AE,AF’,ABE,ABF’,AEF’,或ABEF’)的组合。
HSD17B13基因或微小基因或编码HSD17B13亚型C,D,F,G和H或其片段中的任一种或其任何组合的DNA可以不修饰基因组的表达载体的形式被引入和表达,其可以靶向载体的形式被引入,从而将其以基因组的方式整合至HSD17B13基因座,或者可引入HSD17B13基因或微小基因或编码HSD17B13亚型C,D,F,G和H或其片段中的任一种或其任何组合的DNA,使其以基因组的方式整合至非HSD17B13基因座的基因座(例如,安全锚定基因座)。以基因组的方式整合的HSD17B13基因可以可操作地连接至HSD17B13启动子或另一启动子,例如,整合位点处的内源启动子。安全锚定位点是染色体位点,在该位点,转基因可被稳定地且可靠地在所有目标组织中表达,而不会不利地影响基因结构或表达。安全锚定位点可具有例如下列特性中的一个或多个或所有下列特性:(1)距离任何基因的5’端的距离超过50kb;距离任何癌症相关基因的距离超过300kb;距离任何微小RNA的距离超过300kb;位于基因转录单元外部并且位于超保守区域的外部。合适的安全锚定位点的实例包括腺相关病毒位点1(AAVS1),趋化因子(CC基序)受体5(CCR5)基因基因座,以及小鼠ROSA26基因座的人直系同源基因座。
可被引入并进行表达的HSD17B13蛋白质亚型的组合或编码HSD17B13蛋白质亚型的核酸的组合包括例如:C,D,F,G,H,CD,CF,CG,CH,DF,DG,DH,FG,FH,GH,CDF,CDG,CDH,CFG,CFH,CGH,DFG,DFH,DGH,FGH,CDFG,CDFH,CFGH,DFGH,和CDFGH。在具体方法中,引入或表达HSD17B13亚型D或编码该亚型D的核酸(单独或与其他亚型组合)。这些亚型和转录体中的每一个的示例性的序列在本文的其他地方提供。然而,应当理解的是,基因序列和种群中从该基因转录而来的mRNA序列以及从该mRNA翻译得到的蛋白质可由于诸如单个核苷酸的多态性之类的多态性而发生改变。本文提供的每个转录体和亚型的序列仅仅是示例性的序列。其他序列也是可能的。
通过反义RNA,shRNA或siRNA靶向其表达降低的HSD17B13转录体的组合包括例如:A,B,E,F’,AB,AE,AF’,BE,BF’,ABE,ABF’,AEF’,BEF’,和ABEF’。在具体方法中,靶向HSD17B13转录体A(单个的或与其他转录体组合)。例如,反义RNA,siRNA或shRNA可与SEQ IDNO:4(HSD17B13转录体A)中的序列杂交。任选地,反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)中存在的而不存在于SEQ ID NO:7(HSD17B13转录体D)中的序列杂交。任选地,反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)的外显子7中的序列或横跨SEQ ID NO:4的外显子6-外显子7的边界的序列杂交。
例如,一些这样的方法包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者或所述受治者的肝细胞内引入:(a)与HSD17B13基因中的核酸酶靶向序列结合的核酸酶试剂(或编码的核酸),其中,所述核酸酶靶向序列包括或接近在将HSD17B13基因与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的位置12666的位置;(b)包含如下5’同源臂,3’同源臂和核酸插入体的外源供体序列,所述5’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列5’杂交,所述3’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列3’杂交,所述核酸插入体包含位于5’同源臂和3’同源臂的侧面的胸腺嘧啶。核酸酶试剂可裂解受治者的肝细胞中的HSD17B13基因,并且外源供体序列可与肝细胞中的HSD17B13基因重组,其中,在外源供体序列与HSD17B13基因重组之后,胸腺嘧啶被插入在将HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ IDNO:1的位置12665和12666的核苷酸之间。可在这些方法中使用的核酸酶试剂的实例(例如,Cas9蛋白质和向导RNA)在本文的其他地方公开。合适的向导RNA和向导RNA靶向序列的实例在本文的其他地方公开。可在这些方法中使用的外源供体序列的实例在本文的其他地方公开。
作为另一实例,一些这样的方法包括治疗非HSD17B13 rs72613567变体的携带者的受治者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的方法,所述受治者患有或易于患上慢性肝病,所述方法包括向所述受治者体内或所述受治者的肝细胞内引入外源供体序列,所述外源供体序列包含5’同源臂,3’同源臂和核酸插入体,所述5’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列5’杂交,所述3’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列3’杂交,所述核酸插入体包含位于所述5’同源臂和3’同源臂的侧面的胸腺嘧啶。外源供体序列可与肝细胞内的HSD17B13基因重组,其中,在外源供体序列和HSD17B13基因重组之后,胸腺嘧啶插入在将HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间。可在这些方法中使用的外源供体序列的实例在本文的其他地方公开。
一些这样的方法包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者体内引入或向所述受治者的肝细胞内引入:(a)与HSD17B13基因中的核酸酶靶向序列结合的核酸酶试剂(或编码的核酸),其中,所述核酸酶靶向序列包含HSD17B13基因的起始密码子或位于起始密码子的约10个核苷酸内,约20个核苷酸内,约30个核苷酸内,约40个核苷酸内,约50个核苷酸内,约100个核苷酸内,约200个核苷酸内,约300个核苷酸内,约400个核苷酸内,约500个核苷酸内,约或1,000个核苷酸内或选自SEQ ID NO:20-81。核酸酶试剂可裂解并中断受治者的肝细胞内HSD17B13基因的表达。一些这样的方法包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者体内引入或向所述受治者的肝细胞内引入:(a)与HSD17B13基因内的核酸酶靶向序列结合的核酸酶试剂(或编码的核酸),其中,所述核酸酶靶向序列包含HSD17B13基因的起始密码子或位于起始密码子的约10个核苷酸内,约20个核苷酸内,约30个核苷酸内,约40个核苷酸内,约50个核苷酸内,约100个核苷酸内,约200个核苷酸内,约300个核苷酸内,约400个核苷酸内,约500个核苷酸内,约或1,000个核苷酸内或选自SEQ ID NO:20-81;以及(b)包含重组HSD17B13基因的表达载体,所述重组HSD17B13基因包含插入在将重组HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。所述表达载体可以是未以基因组的方式整合的载体。可选地,可引入靶向载体(即,外源供体序列),其包含重组HSD17B13基因,所述重组HSD17B13基因包含插入在将重组HSD17B13基因与SEQ ID NO:1最佳比对时对应于SEQ IDNO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。所述核酸酶试剂可裂解并中断受治者的肝细胞中HSD17B13基因的表达并且表达载体可在受治者的肝细胞内表达重组HSD17B13基因。可选地,基因组方式整合的重组HSD17B13基因可在受治者的肝细胞中表达。可在这些方法中使用的核酸酶试剂的实例(例如,核酸酶活性Cas蛋白质和向导RNA)在本文的其他地方公开。可选地,步骤(b)可包括引入表达载体或靶向载体,所述表达载体或靶向载体包含编码HSD17B13蛋白质的核酸(例如,DNA),所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述表达载体或靶向载体包含与HSD17B13转录体C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的序列。类似地,步骤(b)可以可选地包括引入编码HSD17B13蛋白质的mRNA,所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,mRNA具有与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的互补DNA(或其一部分)。类似地,步骤(b)可以可选地包括引入如下蛋白质,所述蛋白质包含与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的序列。在特定的方法中,转录体可以是HSD17B13转录体D(例如,SEQ ID NO:7),或者亚型可以是HSD17B13亚型D(例如,SEQ ID NO:15)。在其他特定的方法中,可引入HSD17B13亚型的组合或编码HSD17B13亚型的组合的表达载体或靶向载体,或编码HSD17B13亚型的组合的mRNA(例如,D,DC,DF,DG,DH,DCF,DCG,DCH,DFG,DFH,DGH,DCFG,DCFH,DCGH,DFGH,或DCFGH)。
在一些这样的方法中,第二核酸酶试剂也可被引入受治者体内或受治者的肝细胞内,其中,所述第二核酸酶试剂结合HSD17B13基因内的第二核酸酶靶向序列,其中,所述第二核酸酶靶向序列包含HSD17B13基因的终止密码子或位于终止密码子的约10个核苷酸内,约20个核苷酸内,约30个核苷酸内,约40个核苷酸内,约50个核苷酸内,约100个核苷酸内,约200个核苷酸内,约300个核苷酸内,约400个核苷酸内,约500个核苷酸内,约或1,000个核苷酸内或选自SEQ ID NO:82-225,其中,在所述第一核酸酶靶向序列和所述第二核酸酶靶向序列这两者内,所述核酸酶试剂裂解肝细胞中的HSD17B13基因,其中,所述肝细胞被修饰为包含所述第一核酸酶靶向序列和所述第二核酸酶靶向序列之间的删除。例如,所述第二核酸酶试剂可以是Cas9蛋白质和向导RNA。接近终止密码子的合适的向导RNA和向导RNA靶向序列在本文的其他地方公开。
这些方法还可包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者体内引入或向所述受治者的肝细胞内引入:(a)与HSD17B13基因中的DNA-结合蛋白靶向序列结合的DNA结合蛋白(或编码核酸),其中,所述DNA-结合蛋白靶向序列包含HSD17B13基因的起始密码子或位于起始密码子的约10个核苷酸内,约20个核苷酸内,约30个核苷酸内,约40个核苷酸内,约50个核苷酸内,约100个核苷酸内,约200个核苷酸内,约300个核苷酸内,约400个核苷酸内,约500个核苷酸内,约或1,000个核苷酸内或选自SEQ ID NO:20-81。所述DNA-结合蛋白可改变受治者的肝细胞内的HSD17B13基因的表达(例如,降低)。这些方法可还包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者体内引入或向所述受治者的肝细胞内引入:(a)与HSD17B13基因中的DNA-结合蛋白靶向序列结合的DNA结合蛋白(或编码核酸),其中,所述DNA-结合蛋白靶向序列包含HSD17B13基因的起始密码子或位于起始密码子的约10个核苷酸内,约20个核苷酸内,约30个核苷酸内,约40个核苷酸内,约50个核苷酸内,约100个核苷酸内,约200个核苷酸内,约300个核苷酸内,约400个核苷酸内,约500个核苷酸内,约或1,000个核苷酸内或选自SEQ ID NO:20-81;以及(b)包含重组HSD17B13基因的表达载体,所述重组HSD17B13基因包含在将重组HSD17B13基因与SEQ ID NO:1最佳比对时插入对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。所述表达载体可以是未以基因组的方式整合的载体。可选地,可引入靶向载体(即,外源供体序列),所述靶向载体包括在将重组HSD17B13基因与SEQ ID NO:1最佳比对时插入对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。DNA-结合蛋白可改变受治者的肝细胞内的HSD17B13基因的表达(例如,降低),并且所述表达载体可在受治者的肝细胞内表达重组HSD17B13基因。可选地,以基因组的方式整合的重组HSD17B13基因可在受治者的肝细胞中表达。适用于这些方法的DNA-结合蛋白的实例在本文的其他地方公开。这些DNA-结合蛋白(例如,Cas9蛋白和向导RNA)可融合至或可操作地连接至转录抑制结构域。例如,DNA-结合蛋白可以是融合至转录抑制结构域的催化惰性Cas蛋白质。这样的融合至转录抑制结构域的DNA-结合蛋白可用于例如降低野生型HSD17B13基因的表达或非rs72613567变体的HSD17B13基因的表达(例如,降低HSD17B13转录体或亚型A的表达)。合适的向导RNA和向导RNA靶向序列的实例在本文的其他地方公开。可选地,步骤(b)可包括引入如下表达载体或靶向载体,所述表达载体或靶向载体包含编码HSD17B13蛋白质的核酸(例如,DNA),所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述表达载体或靶向载体包含与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的序列。类似地,步骤(b)可选地可包括引入编码HSD17B13蛋白质的mRNA,所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述mRNA具有与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的互补DNA(或其一部分)。类似地,步骤(b)可选地可包括引入包含如下序列的蛋白质,所述序列与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性。在特定的方法中,转录体可以是HSD17B13转录体D(例如,SEQ ID NO:7)或亚型可以是HSD17B13亚型D(例如,SEQ ID NO:15)。在其他特定的方法中,可引入HSD17B13亚型的组合,或编码HSD17B13亚型的组合的表达载体或靶向载体,或编码HSD17B13亚型的组合的mRNA(例如,D,DC,DF,DG,DH,DCF,DCG,DCH,DFG,DFH,DGH,DCFG,DCFH,DCGH,DFGH,或DCFGH)。
这些方法可还包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者体内引入或向所述受治者的肝细胞内引入:反义RNA,siRNA或shRNA,所述反义RNA,siRNA或shRNA与HSD17B13转录体A,B,E和F’(并且特别是转录体A)中的一个或多个的区域内并且任选地不存在于一个或多个HSD17B13转录体C,D,F,G和H中的序列杂交(特别是转录体D)。任选地,所述反义RNA,siRNA或shRNA与SEQ IDNO:4(HSD17B13转录体A)内的序列杂交,并且所述反义RNA,siRNA或shRNA可降低细胞内HSD17B13转录体A的表达。任选地,所述反义RNA,siRNA或shRNA与存在于SEQ ID NO:4(HSD17B13转录体A)中而不存在于SEQ ID NO:7(HSD17B13转录体D)中的序列杂交。任选地,所述反义RNA,siRNA或shRNA与SEQ ID NO:4(HSD17B13转录体A)的外显子7内的序列或横跨SEQ ID NO:4(HSD17B13转录体A)的外显子6-外显子7边界的序列杂交。例如,所述反义RNA,siRNA或shRNA可与SEQ ID NO:4(HSD17B13转录体A)的外显子中的区域内的序列或横跨SEQID NO:4(HSD17B13转录体A)的外显子6-外显子7边界的区域内的序列杂交并降低受治者体内肝细胞中HSD17B13转录体A的表达。任选地,这些方法可还包括向受治者体内引入包含重组HSD17B13基因的表达载体,所述重组HSD17B13基因包含在将重组HSD17B13基因与SEQ IDNO:1最佳比对时插入对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。所述表达载体可以是未以基因组的方式整合的载体。可选地,可引入包含重组HSD17B13基因的靶向载体(即,外源供体序列),所述重组HSD17B13基因包含在将重组HSD17B13基因与SEQ ID NO:1最佳比对时插入对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。在使用表达载体的方法中,所述表达载体可表达受治者体内肝细胞中的重组HSD17B13基因。可选地,在重组HSD17B13基因以基因组的方法整合的方法中,所述重组HSD17B13基因可在受治者体内的肝细胞中表达。可选地,这些方法可包括引入表达载体或靶向载体,所述表达载体或靶向载体包含编码HSD17B13蛋白质的核酸(例如,DNA),所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述表达载体或靶向载体包含与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的序列。类似地,这些方法可以可选地包括引入编码HSD17B13蛋白质的mRNA,所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述mRNA具有与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的互补DNA(或其一部分)。类似地,这些方法可以可选地包括引入包含与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的序列的蛋白质。在特定的方法中,转录体可以是HSD17B13转录体D(例如,SEQ ID NO:7)或亚型可以是HSD17B13亚型D(例如,SEQ ID NO:15)。在其他特定方法中,可引入HSD17B13亚型的组合,或编码HSD17B13亚型的组合的表达载体或靶向载体,或编码HSD17B13亚型的组合的mRNA(例如,D,DC,DF,DG,DH,DCF,DCG,DCH,DFG,DFH,DGH,DCFG,DCFH,DCGH,DFGH,或DCFGH)。
其他这样的方法可包括治疗非HSD17B13 rs72613567变体的携带者(或仅仅是HSD17B13 rs72613567变体的杂合携带者)的受治者的方法,所述受治者患有慢性肝病或易于患上慢性肝病,所述方法包括向所述受治者体内引入或向所述受治者的肝细胞内引入表达载体,其中,所述表达载体包含重组HSD17B13基因,该基因包含在将重组HSD17B13基因与SEQ ID NO:1最佳比对时插入对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶,其中,所述表达载体在受治者的肝细胞中表达重组HSD17B13基因。所述表达载体可以是未以基因组的方式整合的载体。可选地,可引入靶向载体(即,外源供体序列),该载体包含重组HSD17B13基因,该重组HSD17B13基因包含在将重组HSD17B13基因与SEQ ID NO:1最佳比对时插入对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。在使用表达载体的方法中,所述表达载体可表达受治者的肝细胞中的重组HSD17B13基因。可选地,在重组HSD17B13基因以基因组的方式整合的方法中,重组HSD17B13基因可在受治者的肝细胞中表达。这些方法可以可选地包括引入包含编码HSD17B13蛋白质的核酸(例如,DNA)的表达载体或靶向载体,其中,所述HSD17B13蛋白质与与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述表达载体或靶向载体包含与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的序列。类似地,这些方法可以可选地包括引入编码HSD17B13蛋白质的mRNA,所述HSD17B13蛋白质与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性,和/或,所述mRNA具有与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性的互补DNA(或其一部分)。类似地,这些方法可以可选地包括引入包含如下序列的蛋白质,所述序列与HSD17B13亚型C,D,F,G或H或其片段具有至少90%,至少95%,至少96%,至少97%,至少98%,至少99%或100%的一致性。在特定的方法中,转录体可以是HSD17B13转录体D(例如,SEQ ID NO:7),或者所述亚型可以是HSD17B13亚型D(例如,SEQ ID NO:15)。在其他特定方法中,可引入HSD17B13亚型的组合,或编码HSD17B13亚型的组合的表达载体或靶向载体,或编码HSD17B13亚型的组合的mRNA(例如,D,DC,DF,DG,DH,DCF,DCG,DCH,DFG,DFH,DGH,DCFG,DCFH,DCGH,DFGH,或DCFGH)。
在上述方法中的任一种中使用的合适的表达载体和重组HSD17B13基因在本文的其他地方公开。例如,重组HSD17B13基因可以是完全rs72613567变体基因或可以是HSD17B13微小基因,在所述微小基因中,相对于野生型HSD17B13基因,所述微小基因的一个或多个非必需片段已被删除。作为实例,已删除的片段可包含一个或多个内含子序列,并且所述微小基因可包含在与SEQ ID NO:2最佳比对时对应于SEQ ID NO:2的内含子6的内含子。完全rs72613567变体基因的实例是在与SEQ ID NO:2最佳比对时与SEQ ID NO:2具有至少90%,至少95%,至少96%,至少97%,至少98%,或至少99%的一致性的基因。
一些这样的方法包括修饰患有慢性肝病或易于患上慢性肝病的受治者的细胞(例如,肝细胞)的方法。在这样的方法中,核酸酶试剂和/或外源供体序列和/或重组表达载体可通过有效给药方案引入细胞内,所述有效给药方案是指延迟正在治疗的慢性肝病的发作、降低正在治疗的慢性肝病的严重性、抑制正在治疗的慢性肝病进一步恶化和/或缓解正在治疗的慢性肝病的至少一种征象或症状的给药剂量、给药途径和给药频率。术语“症状”是指受治者感知到的疾病的客观证据,并且“征象”是指医师观察到的疾病的客观证据。如果受治者已经患上疾病,那么给药方案可被称为治疗有效给药方案。如果受治者相对于普通人群处于患上疾病的高风险中但尚未经历疾病症状,所述给药方案可被称为预防有效给药方案。在一些情况下,治疗或预防效果可相对于历史对照或相同受治者过去的经历在个体患者中观察到。在其他情况下,治疗或预防效果可在被治疗的受治者群的预临床或临床试验中相对于未被治疗的受治者的对照群而被证实。
递送可以是任何合适的方案,如在本文其他地方所公开的。例如,核酸酶试剂或外源供体序列或重组表达载体可通过载体递送,病毒递送,颗粒介导的递送,纳米颗粒介导的递送,脂质体介导的递送,外来体介导的递送,脂质介导的递送,脂质纳米颗粒介导的递送,细胞渗透肽介导的递送或可植入设备介导的递送来进行递送。一些特定的实例包括流体力学递送,病毒介导的递送和脂质纳米颗粒介导的递送。
给药可通过任何合适的途径进行,包括例如:肠胃外给药,静脉内给药,口服给药,皮下给药,动脉内给药,颅内给药,鞘内给药,腹膜内给药,局部给药,鼻内给药或肌肉内给药。通常用于例如蛋白质替代疗法的特定实例是静脉内输注。给药的频率和所给药的剂数可取决于其他因素中的核酸酶试剂或外源供体序列或重组表达载体的半衰期,受治者的病症以及给药途径。用于给药的药物组合物优选地为无菌的并且基本上是等渗的,并在GMP条件下制备。药物组合物可以单位剂量的形式(即,单次给药的剂型)提供。药物组合物可使用一种或多种生理学上和药学上可接受的载体、稀释剂、赋形剂或辅剂配制。剂型取决于所选择的给药途径。术语“药学上可接受的”是指载体、稀释剂、赋形剂或辅剂是与剂型中的其他成分相容的并且基本上不会对其接受者有害。
其他这样的方法包括来自患有慢性肝病或易于患上慢性肝病的受治者的细胞中的离体方法。具有定向基因修饰的细胞随后可被移植回到受治者体内。
本文公开的治疗方法或预防方法中的任一种可还包括给药定制的以预防或缓解与进展至慢性肝病的临床晚期相关的一种或多种症状(例如,从单纯脂肪变性进展至慢性肝病的临床晚期,或从单纯脂肪变性进展至脂肪性肝炎、纤维化、肝硬化和肝细胞癌中的一种或多种)的治疗剂。例如,这些治疗方法可重点在于预防或降低炎症或者预防或降低纤维化。正在研发的这些治疗剂的实例在下表中列出。
上文或下文中引用的所有专利申请、网页、其他公开出版物、登录号等等的全部内容通过引用并入本文,其与单独将这些参考文献分别通过引用并入本文一样。如果序列的不同版本与不同时间的登录号相关,这是指与本申请的有效申请日时的登录号相关的版本。有效申请日是指早于实际申请日或涉及登录号的在先申请的申请日(如果适用的话)。类似地,如果在不同的时间公布了不同版本的出版物、网页等等,除非另有说明,其是指在申请的有效申请日公开的最近版本。本发明的任何特性、步骤、要素、实施方式或方面可与任何其他特性、步骤、要素、实施方式或方面联合使用,除非另有明确说明。虽然为了清楚起见和便于理解,本发明已通过举例说明的方式和实施例的方式描述了一些细节,但是对于本领域技术人员明显的是,在所附的权利要求的范围内可以实施一些改变和修饰。
序列的简要描述
使用核苷酸碱基标准字母缩写和氨基酸的三字母编码显示所附的序列表中列出的核苷酸和氨基酸序列。核苷酸序列遵循在序列的5’端开始并向前延续至3’端的标准惯例(即,每行从左至右)。仅仅显示了每个核苷酸的一个链,但是,应当理解的是,通过参考所显示的链,将互补链也包括在序列表中。氨基酸序列遵循在序列的氨基末端开始并向前延续至羧基末端的标准惯例(即,每行从左至右)。
实施例
实施例1.变体17β-羟基类固醇脱氢酶13预防慢性肝病
在美国,慢性肝病和肝硬化是引起较高的致死率和致病率的主要原因(Kochanek等人,(2016)Natl Vital Stat Rep 65:1-122,其全部内容通过引用并入本文)。肝硬化最常见的病因是酒精性肝病,慢性丙型肝炎和非酒精性脂肪肝(NAFLD),这导致大约80%的患者正在等待肝移植(Wong等人,(2015)Gastroenterology 148:547-555,其全部内容通过引用并入本文)。值得注意的是,在美国,估计NAFLD的患病率达到19%至46%(Browning等人,(2004)Hepatology 40:1387-1395;Lazo等人,(2013)Am J Epidemiol 178:38-45;以及Williams等人,(2011)Gastroenterology 140:124-131,其全部内容通过引用并入本文)并且逐年增加(Younossi等人,(2011)Clin Gastroenterol Hepatol 9:524-530e1;quiz e60(2011),其全部内容通过引用并入本文),这似乎与肥胖率的增加一致。迄今为止,NAFLD的进展和结果中仍然还有许多与个体间差异有关的不确定性,对基础基因因素的了解可改善风险分层并且为新的治疗策略提供基础。在此,我们显示出HSD17B13中的剪接变体(编码羟基类固醇-17-β脱氢酶13)的携带者具有降低的患上酒精性和非酒精性肝病的风险并且具有降低的NAFLD进展风险。与来自DiscovEHR研究的46,544位欧洲血统参与者的电子健康记录相关的全外显子组序列数据的相关研究识别了与丙氨酸转氨酶和天冬氨酸转氨酶水平降低相关的HSD17B13(rs72613567)中的剪接变体;这些发现在包括12,528个个体的三个单独的群组中被重复。在发现群组中,变体HSD17B13与酒精性和非酒精性肝病,肝硬化和肝细胞癌的风险降低相关联。在肥胖症治疗手术群组中,该变体与患有脂肪变性的个体体内的组织病理学上的脂肪性肝炎的风险降低相关联。来自肥胖症治疗手术群组的人肝脏样本的RNA测序揭示了剪接变体的纯合携带者主要表达编码截短的HSD17B13亚型的新的转录体。这些发现为HSD17B13在促进肝病恶化方面的作用及其作为脂肪性肝炎和肝硬化的治疗靶点的潜在作用提供了新的启示。
先前的全基因组关联分析(GWAS)已识别了与慢性肝病相关联的有限个的基因。迄今为止,最有力的有效基因关联是在包含3个基因(PNPLA3p.Ile148Met,rs738409)的patatin样磷酸酶结构域中常见的错义变体,最先发现错义变体与非酒精性脂肪肝(NAFLD)的风险增加有关(Romeo等人,(2008)Nat Genet 40:1461-1465and Speliotes等人,(2011)PLoS Genet 7:e1001324,其全部内容通过引用并入本文),随后发现错义变体与疾病的严重性(Rotman等人,(2010)Hepatology 52:894-903and Sookoian等人,(2009)J Lipid Res50:2111-2116,其全部内容通过引用并入本文)和进展(Trepo等人,(2016)J Hepatol doi:10.1016/j.jhep.2016.03.011,其全部内容通过引用并入本文)相关。跨膜6超家族成员2(TM6SF2)基因中的变异也已显示出导致NAFLD的风险增加(Kozlitina等人,(2014)NatGenet 46:352-356,Liu等人,(2014)Nat Commun5:4309,以及Sookoian等人,(2015)Hepatology 61:515-525,其全部内容通过引用并入本文)。虽然已假设这两种蛋白质参与肝细胞脂质代谢,但是,这两种蛋白质的正常功能尚未被完全理解。PNPLA3和TM6SF2中的变体如何有助于肝病风险的增加尚未阐明。GWAS也已识别了与血清丙氨酸转氨酶(ALT)和天冬氨酸转氨酶(AST)相关的若干基因因素(Chambers等人,(2011)Nat Genet43:1131-1138and Yuan等人,(2008)Am J Hum Genet 83:520-528,其全部内容通过引用并入本文),所述血清丙氨酸转氨酶(ALT)和天冬氨酸转氨酶(AST)是临床上通常测量的肝细胞损伤和肝脂肪累积的定量标志物。迄今为止,本领域没有描述过慢性肝病的保护性基因变体。其他情况下的保护性基因变体(例如,降低心血管疾病的风险的PCSK9中的功能丧失变体)的发现促进了新的治疗类型的研发。
Regeneron Genetics Center和Geisinger Health System(GHS)之间的DiscovEHR联合研究将外显子组测序与去识别(de-identified)的电子健康记录(EHR)数据结合在一起启动基因发现和精准医疗(Dewey等人,(2016)Science 354(6319)doi:10.1126/science.aaf6814,其全部内容通过引用并入本文)DiscovEHR群组由从GHS整合的医疗保健系统中的初级医疗保健群组和专科医疗保健群组中招募的患者构成,包括带有肝脏活检样本的肥胖症治疗手术患者(Gorden等人,(2013)Hum Hered 75:34-43,其全部内容通过引用并入本文)。在该研究中,我们进行了全面的功能基因组学方式以评价外显子组序列的改变对与来自DiscovEHR群组的49,188位欧洲裔个体的慢性肝病和肝硬化相关的定量特性,疾病诊断和组织病理学表型的贡献,后续的研究使用9,883位欧洲血统个体的全外显子组测序。
使用与源自HER的表型相关联的全外显子组序列数据,我们首先在来自DiscovEHR群组(“GHS发现群组”)的46,544位欧洲裔个体体内进行了血清ALT和AST测量结果的关联研究。群组的临床特征在表1A中进行描述。41,908位个体进行了EHR记录的转氨酶测量结果(包括进行了ALT测量和AST测量这两者的40,561位个体)。我们使用线性混合模型(Yang等人,(2011)Am J Hum Genet 88:76-82,其全部内容通过引用并入本文)来检测log10-转化的ALT和AST中间水平(根据性别、年龄、年龄2、身高体重指数(BMI)以及血统的前四个主成分进行调节)和具有超过0.1%的次要等位基因频率的502,219个双等位基因单个变体之间的关联。使用全外显子组显著性阈值P<1.0x10-7,我们识别了与ALT或AST显著相关的19个基因中的35个变体,包括与ALT和AST这两者相关的七个基因中的八个变体(图1和表2)。
表1A.发现群组和重复群组中的进行了测序的欧洲血统个体的人口统计和临床特征
表1B.达拉斯肝脏研究和儿科肝脏研究中的基因分型的多种族病例和对照的人口统计和临床特征
为了重复这些关联,我们分析了通过如下三个不同的欧洲血缘群组中的全外显子组测序分析确定的35个AST或ALT关联变体:来自DiscovEHR的2,644位肥胖症治疗手术患者(“GHS肥胖症治疗手术群体”),来自达拉斯心脏研究的1,357位个体以及来自Penn医药生物库的8,526位个体(表1A)。在重复群组的meta分析中,九个基因中的十三个变体与ALT或AST显著相关(Bonferroni显著性阈值P<1.43x10-3)(表3)。这些变体包括先前报道的肝病相关基因和变体,例如PNPLA3 p.Ile148Met(Romeo等人,(2008)Nat Genet 40:1461-1465,其全部内容通过引用并入本文),TM6SF2 p.Glu167Lys(Kozlitina等人,(2014)Nat Genet 46:352-356,)以及SERPINA1 p.Glu366Lys(与α-1-抗胰蛋白酶缺陷相关的Z等位基因)(Brantly等人,(1988)Am J Med 84:13-31,其全部内容通过引用并入本文),SAMM50,和ERLIN1。SERPINA1编码α-1-抗胰蛋白酶,已知其功能缺陷引起遗传性肝病,与SAMM50的关联可通过带有PNPLA3中的变异的连锁不平衡介导,并且ERLIN1已被发现在肝脂肪中沉积。GPT和GOT1中的若干变体(编码ALT和AST的基因)分别于ALT或AST水平显著相关,但是先前并未报道这与肝病相关。SLC39A12先前未与转氨酶或肝病关联。Meta分析还重复了我们的发现群组中ALT(β(SE)-0.009(0.001);P=4.16x10-12)和AST(β(SE)-0.005(0.001);P=6.24x10-10)的水平降低与HSD17B13中的剪接变体(编码羟基类固醇17β-脱氢酶13的基因,17-β羟基类固醇脱氢酶家族中未被识别的成员)之间的新的关联。该变体(rs72613567)对应于邻近供体剪接位点(TA等位基因)的A核苷酸的插入。这些关联的重复meta分析P值是3.85x10-5和9.38x10-5,对于ALT和AST而言,关联的meta分析P值分别为1.17x10-15和6.82x10-13(表3)。先前GWAS识别了与ALT水平相关联的位于4q22(rs6834314)附近的基因座(Chambers等人,(2011)Nat Genet 43:1131-1138,其全部内容通过引用并入本文),据我们所知,先前的研究均未描述与rs72613567的任何关联。
HSD17B13是HSD17B11上游的30kb,其是与HSD17B11相同基因家族的成员,并且在欧洲人群中,这两个基因均存在于单个大单倍体区块中。我们没有观察到HSD17B11中的编码变体或剪接变体与发现群组中的转氨酶水平之间的任何关联(图5A和图5B,ALT的最显著发现P阈值为1.36x10-1并且AST的最显著发现P阈值为4.32x10-2),或者,我们没有观察到HSD17B11中的编码变体或剪接变体与发现群组中的关联meta分析和三个重复群组(ALT和AST的最显著的P值分别为6.25x10-3和1.17x10-5)中的转氨酶水平之间任何关联。而且,rs72613567与HSD17B11的连锁不平衡是所有血统群中最适度的,所述血统群包括主要包括我们的发现群组的欧洲裔美国人,并且还包括在西班牙裔美国人和非裔美国人,其为达拉斯心脏研究中的代表(r2<0.4,所有血统群组中HSD17B11中的所有确定的变体,数据未显示)。总体来说,这些发现说明作为基因组区域中的基因的HSD17B13最有可能在功能上与转氨酶水平相关。
接着,我们想要建立与ALT或AST水平相关联的变体是否也与慢性肝病相关联。在发现群组中,我们使用EHR诊断编码来从广义上界定酒精性和非酒精性(非病毒性)肝病的病例,以及如下疾病后遗症:酒精性肝硬化,非酒精性肝硬化,和肝细胞癌(HCC)。常用的对照组(“没有肝病”)被定义为没有任何类型的肝病(表1)的诊断编码的个体。我们测试了十二个来自发现群组和重复群组的转氨酶关联变体以与慢性肝病相关联,使用Bonferroni显著性阈值P<0.05/24(P<2.08x10-3)来计算所测试的十三个变体和两个广义慢性肝病分类(酒精性和非酒精性)(表4)。总体上,我们发现五个基因(HSD17B13,SERPINA1,TM6SF2,PNPLA3,和SAMM50)中的六个变体与慢性肝病表型显著相关。SERPINA1,TM6SF2,PNPLA3,和SAMM50的关联确定了先前报道的关联。GPT,GOT1,ERLIN1和SLC39A12中的变体并未与任何肝病表型显著相关。本文所报道的与肝病相关的HSD17B13是所描述的新的且第一个潜在的保护性基因变体。
相比于患有所评估的慢性肝病表型中的任一种的参与者,在对照中以较高频率观察到HSD17B13 rs72613567的可变(TA)等位基因(图2A和表5)。在根据年龄,年龄2,性别,BMI和血统进行调节之后,我们观察到每个TA等位基因中38%的较低的酒精性肝病发病率(比值比[OR]0.62;95%置信区间[CI]0.48-0.81,P=1.8x10-4)和16%的较低的非酒精性(非病毒性)肝病发病率(OR 0.84,95% CI 0.78-0.91,P=1.3x10-5)。当仅涉及肝硬化病例时,TA等位基因与44%的较低酒精性肝硬化发病率(OR 0.56,95%CI 0.41-0.78,P=3.4x10-4)和26%的较低的非酒精性(OR 0.74,95% CI 0.62-0.88,P=4.5x10-4)肝硬化发病率相关联。TA等位基因名义上与每个等位基因中33%的较低的HCC发病率(OR 0.67,95%CI 0.45-1.00,P=4.7x10-2)相关联。未调节的基因型OR表现出了共显性作用,例如,对于酒精性肝硬化而言,杂合T/TA携带者的OR为0.59(95% CI 0.40-0.86)并且纯合TA/TA携带者的OR为0.26(95% CI 0.08-0.82),并且,对于非酒精性肝硬化而言,杂合携带者的OR为0.75(95% CI 0.61-0.93)和纯合携带者的OR为0.55(95% CI 0.34-0.91)。
因此,在发现群组中,HSD17B13 rs72613567的可变(TA)等位基因与所评估的所有EHR衍生的慢性肝病的较低的发病率相关联,这与等位基因的剂量依赖方式一致(图2A):所有类型的酒精性肝病,杂合比值比(ORhet)[95%置信区间]0.58[0.42-0.79],纯合OR(ORhom)0.46[0.23-0.94],等位基因OR(OR等位基因)0.62[0.48-0.81],P=1.82x10-4;所有类型的非酒精性肝病,ORhet 0.84[0.76-0.92],ORhom 0.73[0.59-0.89],OR等位基因0.84[0.78-0.91],P=1.31x10-5。TA等位基因还与这些慢性肝病的晚期的形式(由EHR衍生的诊断编码界定,即酒精性肝硬化和非酒精性肝硬化和HCC)的较低的发病率相关联。对于杂合体和纯合体而言,TA等位基因分别与酒精性肝硬化的42%和73%的较低的发病率相关联(ORhet 0.59[0.40-0.86],ORhom 0.26[0.08-0.82],OR等位基因0.56[0.41-0.78],P=3.35x10-4),对于杂合体和纯合体而言,TA等位基因分别与非酒精性肝硬化的26%和49%的较低的发病率相关联(ORhet0.75[0.61-0.93],ORhom 0.55[0.34-0.91],OR等位基因 0.74[0.62-0.88],P=4.48x10-4)。TA等位基因还在名义上与HCC的较低的发病率相关联。
接着,我们想要在多种族达拉斯肝脏研究(DLS)和达拉斯儿科肝脏研究(DPLS)中确认和延伸这些发现,多种族包括非裔美国人,欧洲裔美国人和西班牙裔美国成人和儿童(表1B)。在DLS中,TA等位基因以等位基因剂量依赖的方式与任何肝病的较低的发病率相关联(ORhet 0.74[0.57-0.97],ORhom 0.41[0.21-0.83],OR等位基因 0.70[0.5-0.88],P=1.77x10-3,图8)。类似的等位基因剂量依赖作用在整个EHR衍生的肝脏疾病亚型中观察到,包括与酒精性(OR等位基因0.72[0.53-0.99],P=4.37x10-2)和非酒精性(OR等位基因 0.65[0.40-1.07],P=8.96x10-2)肝病的晚期肝硬化形式的保护性关联。在根据自身报告的种族分组的个体的亚组分析研究中,西班牙裔美国人中仍然保留与肝病的显著关联,具体而言,因为在该亚群(n=326个病例和722个对照,OR等位基因 0.51[0.35-0.74],P=3.98x10-4)中肝病发病率较高,因此,在DLS的非裔美国人(n=33个病例和2,291个对照,OR等位基因0.74[0.25-2.47],P=0.67)和欧洲裔美国人(n=158个病例和1,266个对照,OR等位基因 0.87[0.65-1.15],P=0.32)亚群中也注意到类似的数字趋势(没有达到统计学上的显著性)。在DPLS中,西班牙裔美国人儿科肝病患者和肥胖对照的单独的研究中(表1B),TA等位基因也与肝病的较低的发病率相关联(OR等位基因 0.59[0.36-0.97],P=3.6x10-2)。因此,在三个独立的人群的成人和儿童中,HSD17B13 rs72613567:TA等位基因与包括肝硬化在内的多种形式的慢性肝病的发病率降低相关联。
NAFLD描述了从没有显著炎症指症的脂肪肝(在进行组织病理学检验之后被称为“单纯脂肪变性”)至带有更多临床上有影响的表现(被称为“非酒精性脂肪肝炎(NASH)”,组织病理学证据为小叶性炎症,肝细胞气球样变性和/或纤维化)的多种疾病。为了便于理解HSD17B13 TA等位基因和组织学上定义的NAFLD和NASH之间的关系,我们对来自GHS肥胖症治疗手术群组的带有肝活检样本的2,391位全外显子组测序的个体进行了rs72613567关联测试。在这些个体中,555位(23%)个体没有脂肪变性、脂肪性肝炎或纤维化的指症(“正常”),830位(35%)个体患有单纯脂肪变性,1006位(42%)个体患有NASH(即,带有小叶性炎症,肝细胞气球样变性或纤维化的指症)。相比于正常肝脏,HSD17B13 TA等位基因与单纯脂肪变性(OR 1.11,95% CI 0.94-1.32,P=0.21)或NASH(OR 0.86,95% CI 0.72-1.02,P=0.09)没有显著关联(图2B和表5)。当与基因分型的正常肝脏、单纯脂肪变性和NASH的发病率相比时,观察到正常肝脏的发病率并没有表现出因基因分型而不同(T/T携带者为23%,T/TA携带者为24%,并且TA/TA携带者为23%,由比例趋势的卡方检验得到P=0.5),但是均带有TA等位基因的NASH的发病率降低(T/T携带者为45%,T/TA携带者为40%,并且TA/TA携带者为31%,P=1.6x10-4)并且单纯脂肪变性的发病率提高(T/T携带者为33%,T/TA携带者为35%,并且TA/TA携带者为47%,P=1.1x10-3)。在带有脂肪变性的个体中,相比于单纯脂肪变性而言,TA等位基因以等位基因剂量依赖的方式与NASH的发病率在统计学上的显著降低相关联。在单纯脂肪变性的情况下,TA等位基因与23%的较低的NASH发病率相关联(OR0.77,95% CI 0.66-0.90,P=6.5x10-4),这说明HSD17B13在介导NAFLD进展至NASH的更晚期的阶段和纤维化方面发挥作用。基因分型的关联结果与共显性作用一致,在NASH与单纯脂肪变性的比较中,杂合T/TA携带者的OR为0.84(95% CI 0.69-1.02),纯合TA/TA携带者的OR为0.48(95% CI 0.34-0.68)。
接着,我们想要理解HSD17B13等位基因如何影响基因的已知的和新的转录体的表达。我们使用RNA测序来评价来自HSD17B13rs72613567剪接变体的22个纯合参比(T/T),30个杂合(T/TA)可变携带者和17个纯合(TA/TA)可变携带者的组织学上正常的肝脏样本中HSD17B13 mRNA的表达(图3)。除了两种已知的HSD17B13转录体A和B之外,还识别了两种新的转录体:缺少外显子6的转录体C和特征为在外显子6的3’端插入G核苷酸而导致蛋白质提前截短的转录体D。新的转录体通过RT-PCR进行验证,并且转录体D还通过长读长的cDNA测序来验证。这些转录体的表达水平根据HSD17B13 rs72613567的基因分型而发生改变,转录体A和B的表达水平较低,而在T/TA杂合体和TA/TA纯合体中,转录体C和D的表达水平以等位基因剂量依赖的方式增加(图3)。编码300个氨基酸蛋白质的转录体A是T/T纯合体中的主要转录体(图3A),而编码提前截短的蛋白质的转录体D是TA/TA纯合体中的主要转录体(图3D)。这些表达模式表明了HSD17B13 rs72613567在确定HSD17B13亚型表达方面的功能作用。还识别了表达水平非常低的四个额外的转录体(E-H)(图6A至图6D)。所有识别的HSD17B13亚型的蛋白质序列比对在图7A至图7B中显示。
HSD17B13先前已被描述为人肝细胞内的脂质液滴相关蛋白质(Su等人,(2014)Proc Natl Acad Sci USA 111:11437-11442,其全部内容通过引用并入本文)。我们评估了由表达已知的或新的HSD17B13的亚型A-D的慢病毒稳定转导的永久性人肝细胞系(HepG2肝癌细胞)中蛋白质亚型的表达和定位。HSD17B13亚型A定位至未处理的和油酸处理的细胞中的脂质液滴。在围绕BODIPY标记的脂质液滴的膜上主要检测到亚型A,并且该亚型A与脂质液滴包被蛋白质perilipin(PLIN)共定位。HSD17B13亚型D也观察到在脂质液体表面的具有类似的亚细胞定位,然而,在油酸处理之后,脂质液滴表现出变大。相反,亚型B和C与内质网标志物钙联蛋白共定位。
综上,使用与来自DiscovEHR研究群体的49,188位个体的EHR和肝脏活检数据相关联的外显子组测序数据以及后续研究中进行了ALT和AST测量的额外的9,883位个体的外显子组测序数据,我们发现了HSD17B13中的剪接变体,转氨酶水平和慢性肝病表型之间的新的关联。在我们的研究中,变体HSD17B13降低了非酒精性和酒精性肝病以及肝硬化的风险。据我们所知,这是首次报道了外显子变体与慢性肝病表型的保护性关联。HSD17B13 TA等位基因与单纯脂肪变性无关,但是与患有脂肪变性的个体体内的组织病理学脂肪肝炎的风险降低有关,这说明HSD17B13在脂肪变性进展至慢性肝病的临床晚期阶段中发挥作用。若干不同的肝病分类中的四个独立的研究群组(GHS发现群组,GHS肥胖症治疗手术群组,DLS,和DPLS)中的保护性关联的一致性使用EHR诊断编码以及肝病的组织病理学定义连同关联性的显著等位基因剂量依赖性来表征,这支持了所报道的HSD17B13变体防止脂肪变性进展至慢性肝病的临床晚期阶段。所观察到的等位基因剂量依赖性还说明了HSD17B13的明显的调节功能可对疾病风险和进展发挥更加明显的作用。
其他17β-羟基类固醇脱氧酶家族成员还已知涉及性类固醇和脂肪酸代谢(Moeller and Adamski(2009)Mol Cell Endocrinol 301:7-19,其全部内容通过引用并入本文),但是对HSD17B13的功能知之甚少。HSD17B13主要在肝脏中表达(Liu等人,(2007)Acta Biochim Pol 54:213-218,其全部内容通过引用并入本文),在肝脏中,HSD17B13定位于脂质液滴中(Su等人,(2014)Proc Natl Acad Sci USA 111:11437-11442,其全部内容通过引用并入本文),这与HSD17B13在脂肪肝的发病机理中发挥的作用一致。我们的数据与近期发现的HSD17B13的过表达提高小鼠肝脏的脂肪生成以及使培养的肝细胞中的脂质液滴的数量和尺寸增加一致(Su等人,(2014)Proc Natl Acad Sci USA 111:11437-11442,其全部内容通过引用并入本文)。两个先前的研究还显示出HSD17B13蛋白质的肝细胞表达在具有脂肪性肝脏的患者体内增加(Su等人,(2014)Proc Natl Acad Sci USA 111:11437-11442以及Kampf等人,(2014)FASEB J 28:2901-2914,其全部内容通过引用并入本文)。已报道的与肝病风险增加的两种基因变体(PNPLA3和TM6SF2)也在肝细胞脂质代谢中发挥生理学作用。我们在本文中所描述的HSD17B13的变体是用于肝病的首个保护性变体,并且可为靶向慢性肝病的新的治疗方案提供思路,这类似于其他领域中基因变体为新的治疗方案提供思路。
总体而言,我们的数据支持了HSD17B13作为新的治疗靶点来降低人体内慢性肝病的风险。重要地是,我们的数据说明了靶向HSD17B13可减慢从NAFLD发展至NASH的晚期阶段,纤维化和肝硬化,这与显著的致病率和致死率相关联,对于从NAFLD发展至NASH的晚期阶段,纤维化和肝硬化,目前尚未有效治疗方法。
方法
研究参与者。人基因研究作为Regeneron Genetics Center和Geisinger HealthSystem(GHS)的DiscovEHR协同工作的一部分进行。该研究由GHS研究所审查委员会批准。两个DiscovEHR的研究人群(发现群组和肥胖症治疗手术群组)主要来自50,726位18岁以上的同意进行研究的参与者,这些参与者来自于GHS的社区健康组织(Dewey等人,(2016)Science 354(6319)doi:10.1126/science.aaf6814,其通过引用并入本文)。GHS发现群组由从2007年至2016年从门诊初级医疗保健机构和专科诊所招募的46,544位欧洲人构成,这不包括所招募的肥胖症治疗手术群组的那些个体。GHS肥胖症治疗手术群组由参与了肥胖症治疗手术的2,644位欧洲人构成。
重复研究包括1,357位来自达拉斯心脏研究的欧洲人和来自Penn医药生物库的8,527位欧洲人。达拉斯心脏研究是达拉斯郡30岁至65岁的居民的随机群组(Victor等人,(2004)Am J Cardiol 93:1473-1480,其全部内容通过引用并入本文)。Penn医药生物库包括从宾夕法尼亚州大学健康系统招募的并且同意进行生物样品存储、访问EHR数据以及允许进行再接触的参与者。
与慢性肝病相关的重复研究包括来自达拉斯肝脏研究(DLS)的517位个体和来自达拉斯儿科肝脏研究(DPLS)的447位个体。DLS是患有非病毒病原学的肝病的患者的生物库。患者的招募从2015年开始并一直持续至今。参与者从UT西南的肝脏诊所和达拉斯的Parkland健康和医院系统中招募。所述生物库由UT西南研究所审查委员会批准。向参与者提供了书面知情同意书。参与者完成了关于种族/人种背景、医疗历史,生活方式因素和肝脏疾病以及其他疾病的家族史的问卷调查。其他临床信息由受到训练的技术人员提取自医疗记录。我们的研究包括了目前可获取其DNA的所有非洲裔美国人、欧洲裔美国人和西班牙裔美国人患者(n=517)。DPLS是从UT西南的儿科肝脏诊所和达拉斯Parkland健康和医院系统招募的儿童的生物库,以及招募自达拉斯儿童医学中心的肥胖诊所的儿童的生物库。该生物库由UT西南研究所审查委员会批准。向参与者的法律监护人提供了书面知情同意书。临床信息由受到训练的技术人员提取自医疗记录。因为超过95%的患者是西班牙裔美国人,所以我们在目前的研究中仅仅包括了西班牙裔美国人患者和对照(n=203位患者和244位对照)。
样本准备和测序。样本制备和全外显子组测序如先前所描述的在RegeneronGenetics Center进行(Dewey等人,(2016)Science 354(6319)doi:10.1126/science.aaf6814,其全部内容通过引用并入本文)。简言之,根据厂商(Roche NimbleGen)推荐的规程使用NimbleGen探针进行外显子组捕获。所捕获的DNA通过qRT-PCR进行PCR扩增和定量(Kapa Biosystems)。多路复用样本使用75bp末端配对测序在Illumina v4HiSeq2500上进行测序以覆盖足以为96%的样本中的超过85%的目标碱基提供高于20x单倍体阅读深度的深度(大约是目标碱基的80x平均单倍体阅读深度)。来自每轮IlluminaHiseq 2500运行的原始测序数据上传至DNAnexus平台(Reid等人,(2014)BMCBioinformatics 15,30doi:10.1186/1471-2105-15-30)用于序列阅读比对和变体识别。简言之,原始测序数据从BCL文件转化至样本特异性FASTQ文件,其与带有BWA-mem的人参比构建GRCh37.p13比对(Li and Durbin(2009)Bioinformatics 25:1754-1760,其全部内容通过引用并入本文)。单个核苷酸变体(SNV)和插入/删除(indel)序列的变体使用基因组分析工具试剂盒(Genome Analysis Toolkit)进行识别(McKenna等人,(2010)Genome Res 20:1297-1303,其全部内容通过引用并入本文)。
达拉斯肝脏研究和达拉斯儿科肝脏研究中的rs72613567的靶向基因分型。在达拉斯肝脏研究和达拉斯儿科肝脏研究中通过分析进行HSD17B13 rs72613567基因分型并且在达拉斯心脏研究中通过外显子组测序进行HSD17B13 rs72613567基因分型。调用(calls)通过分别带有基因分型的五位个体的Sanger测序进行验证。
发现群组中的临床测量结果和慢性肝病的定义。ALT和AST的临床实验测量结果提取自GHS发现群组和肥胖症治疗手术群组的参与者的EHR。使用两个或多个测量结果计算所有参与者的ALT和AST的中位值并且将其以log10的方式进行转化以在关联分析之前进行分布标准化。
疾病的国际分类,第九次修订的(ICD-9)疾病编码提取自EHR并且分解至用于非病毒非酒精性肝病(ICD-9 571.40,571.41,571.49,571.5,571.8,571.9)病例定义或酒精性肝病(ICD-9 571.0,571.1,571.2,571.3)病例定义的临床疾病分类。基于单次诊断编码的其他病例的定义包括:酒精性肝硬化(ICD-9 571.2),非酒精性肝硬化(ICD-9 571.5),和HCC(ICD-9 155.0)。对于这些病例定义而言,未患有肝病的常见对照组被定义为如下参与者,该参与者不具有表明任何类型的肝病的病例标准或单次遇见(single-encounter)或问题列表诊断编码(problem-list diagnosis code)。
肥胖症治疗手术群组中肝脏组织病理学表型定义。GHS肥胖症治疗手术群组由欧洲血统的2,644位个体构成,这些个体中的2,391位个体带有手术中获取的肝脏活检样本。肝脏活检样本由福尔马林固定并且由用于常规组织学的苏木精和曙红进行染色,并且,如先前所述,马森三色染色法用于评价纤维化(Gerhard等人,(2011)Patient Saf Surg 5,1,doi:10.1186/1754-9493-5-1,其全部内容通过引用并入本文)。组织学诊断使用先前建立的标准由组织病理学医师进行确定(Brunt等人,(1999)Am J Gastroenterol 94:2467-2474,其全部内容通过引用并入本文)。组织病理学诊断用于界定下述表型:1)正常:没有脂肪变性,NASH,或纤维化的证据;2)单纯脂肪变性:没有NASH或纤维化的证据(无论何种程度)的脂肪变性;3)NASH/纤维化:存在任何小叶性炎症或肝细胞气球样变性(无论何种程度),或存在任何纤维化(无论何种程度);4)纤维化:存在任何纤维化(无论何种程度)。
肝脏酶的全外显子组关联分析。在GHS发现群组中,我们测试了502,219个双等位基因变体,缺失数据率小于1%,Hardy-Weiberg平衡p值>1.0x10-6,并且与转氨酶水平关联的次等位基因频率为>0.1%。Log10转化的ALT和AST中位值根据年龄,年龄2,性别,BMI和血统的前四个主成分进行调节。为了计算研究参与者之间的关联性,我们还将基因关联矩阵调节为随机效应协变量。主要成分和基因关联矩阵由近似连锁平衡中的39,858个非-MHC标志物构建并且次等位基因频率>0.1%。当在GCTA数据包中实施时,我们使用线性混合模型(Yang等人,(2011)Am J Hum Genet 88:76-82,其全部内容通过引用并入本文)来测试特性残基和单个核苷酸变体之间的关联。如通过全外显子组分位数-分位数图和基因组对照lambda值所显示的(图1),这些测试是完全校准的。
肝脏酶关联的重复Meta分析。我们试图重复如下三个独立的欧洲血统群组中GHS发现群组中的关联:GHS肥胖症治疗手术群组,达拉斯心脏研究和Penn医药生物库(如上所述)。GHS肥胖症治疗手术群组和来自Penn医药生物库的ALT和AST测量结果是log10转化的并且根据年龄,年龄2,性别,BMI和血统的前四个主要成分进行调节。基因关联矩阵作为随机效应协变量被包括在内并且使用GCTA中的线性混合模型进行分析。在达拉斯心脏研究中,log10转化的ALT和AST测量结果根据年龄、年龄2、性别和血统的前十个主成分进行调节,并且使用PLINK中执行的线性回归进行分析。使用METAL(重复meta分析)对三个重复的群组的简略统计数据进行meta分析(Willer等人,(2010)Bioinformatics 26:2190-2191,其全部内容通过引用并入本文)。类似地,对发现群组和三个重复群组的简略统计数据进行meta分析(联合meta-分析)。
慢性肝病表型关联分析。我们分析了来自肝脏酶ExWAS的九个明显的和重复的单个核苷酸变体与上述GHS发现群体定义的二元肝病表型的关联。我们使用Bonferroni显著性阈值P<0.05/26(P<1.92x10-3)以解释所测试的十三个变体和两个广泛的慢性肝病(酒精性和非酒精性)类别。进一步测试了变体HSD17B13与上述GHS肥胖症治疗手术群组的组织病理学定义的肝脏表型的关联。在根据年龄、年龄2、性别、BMI和血统的前四个主成分进行调节之后,使用逻辑回归的Firth惩罚似然方法评估发病率。也估算了HSD17B13 rs72613567的未调节的基因分型发病率。
在根据年龄、年龄2、性别、BMI和自身报告的种族进行调节之后,DLS中的肝病发病率通过逻辑回归来评估。达拉斯心脏研究中的带有可用rs72613567基因分型的参与者用作常规对照(n=4,279)。DPLS中的发病率通过逻辑回归来评估。
软件。基因关联分析使用GCTA软件1.25.0版本(Yang等人,(2011)Am J Hum Genet88:76-82,其全部内容通过引用并入本文)和PLINK1.9.0版本进行。分位-分位图和曼哈顿(Manhattan)图使用R软件3.2.1版本(R Project for Statistical Computing)产生。区域性关联图使用LocusZoom(Pruim等人,(2010)Bioinformatics 26:2336-2337,其全部内容通过引用并入本文)产生。
RNA测序研究。RNA定性和浓度通过在Agilent RNA Nano生物分析仪芯片上运行总RNA来评估,全部样本具有大于8的RNA完整数目(RNA integrity number,RIN)。多腺苷酸化的RNA转录体使用两轮富集寡(dT)25小珠进行分离(Thermo Fisher Scientific)。使用RNA清洁XP小珠(Beckman Coulter)对样本进行纯化和浓缩并将样本热分解为大约140个碱基对。由SuperScript III逆转录酶(Thermo Fisher Scientific)使用随机六聚体完成第一链合成;在第二链合成过程中由dUTP代替dTTP。根据我们的用于外显子组的上述标准DNA文库制备方法,通过添加尿嘧啶DNA-糖苷酶的步骤对样本进行加工以产生链特异性测序文库。在Illumina v4 HiSeq 2500上使用75bp末端配对测序对样本进行测序和合并。
识别新的HSD17B13转录体。使用允许两种错配的软件(Cary,NC)将读长绘制至人B38(Human.B38)。两种方式被用于识别新的HSD17B13转录体。基于Gencode v24发现了新的外显子连接。在默认设定中使用Trinity(v2.2.0)运行从头测序转录体组装(de novo transcript assembly)。建立了定制基因模型以合并HSD17B13的新转录体并且通过对定制基因模型的读长比对评估转录体定量。所有识别的HSD17B13亚型的蛋白质序列比对在图7A和图7B中显示。
新转录体的RT-PCR确认。使用SUPERSCRIPTTM One-Step RT-PCR系统由铂TM TaqDNA聚合酶(Thermofisher)在来自人肝脏样本的总RNA上进行RT-PCR。每50μL RT-PCR反应包含1X反应混合物,500nM正向引物和500nM反向引物(PST516:ATGAACATCATCCTAGAAATCCTTC(SEQ ID NO:251)and PST517:ATCATGCATACATCTCTGGCTGGAG(SEQ ID NO:252)),1μL RT/铂Taq和75ng RNA。循环条件为:45℃下一个循环持续30分钟,94℃下一个循环持续2分钟,94℃下40个循环持续20秒,53℃下持续30秒,72℃持续90秒,72℃下一个循环持续5分钟;随后保持在10℃。使用QIA快速PCR纯化试剂盒(Qiagen)对产品进行纯化并使用引物DE002(ATCAGAACTTCAGGCCTTGG(SEQ ID NO:253))提交产品用于直接Sanger测序。为了识别B转录体和C转录体,RT-PCR产品在用SYBRGold核酸凝胶染色(Thermofisher)的2%琼脂凝胶上运行并且使用QIA快速凝胶提取试剂盒(Qiagen)分离并纯化预期分子量的条带,随后采用TA克隆试剂盒(Thermofisher)进行克隆。TOPO克隆的测序使用M13F和M13R测序引物进行。使用Sequencher DNA分析软件(Gene Codes Corporation)进行测序分析。
新转录体的PacBio效用。全长HSD17B13转录体使用带有Platinum Taq HighFidelity的SuperScript III一部RT-PCR系统直接从50ng总RNA中进行扩增,首先使用基因特异性引物(GCAAAGCCATGAACATCATCC(SEQ ID NO:254))并最后使用外显子((TCTTGATGTAGTGGGAGTCGGATT(SEQ ID NO:255))以产生~2.2kb的扩增子(预期的最大尺寸转录体)。扩增子在Agilent生物分析仪上进行验证。PacBio-相容性条形码适体与扩增子进行连接并由PacBio PB小珠(Pacific Biosciences)进行清洁。以等量合并文库并在PacBio RSII平台上对一个SMRT细胞进行测序持续180分钟。使用PacBio软件smrtanalysisv2.3工具labelzmw对数据进行多路分解并随后使用ConsensusTools扩增子分析进行分析。得到的扩增子与HSD17B13 RefSeq基因进行比较以确定亚型和基因分型状态。
HSD17B13亚型的亚细胞定位。在补充有10%胎牛血清的Eagle最小必需培养基中培养HepG2细胞。HSD17B13转录体A,B,C和D被亚克隆至Myc-DDK骨架慢病毒构建体并产生慢病毒。HepG2细胞被带有各种不同的HSD17B13转录体的慢病毒感染。表达这些HSD17B13转录体的稳定的细胞系由完全培养基中的1-3mg/ml的遗传霉素G-418硫酸盐进行选择,持续两周。所选择的HepG2细胞用200μM油酸处理过夜并随后固定或者不用200μM油酸处理过夜随后固定。HSD17B13亚型由小鼠抗-Myc抗体标记。脂质液滴由BODIPY FL染料(Sigma)进行标记。脂质包被蛋白质和内质网分别由兔-抗PLIN抗体(Sigma)和兔-抗钙联蛋白抗体(CellSignaling Technology)标记。用于免疫荧光的二抗是Alexa Fluor 488驴抗-兔IgG和Alexa Fluor 594驴抗体-小鼠IgG(Jackson ImmunoResearch)。
实施例2.rs72613567:TA在HSD17B13 mRNA和HSD17B13蛋白质表达中的作用
本实施例检测了HSD17B13 rs72613567:TA等位基因对该基因的已知的和新的转录体的表达的作用。RNA测序用于评价HSD17B13 mRNA在来自HSD17B13 rs72613567剪接变体的22个T/T纯合体,30个T/TA杂合体和17个TA/TA纯合体携带者的组织学正常的肝脏样本中的表达。除了两个已知的HSD17B13转录体A和B之外,还识别出了缺乏外显子6的转录体C和包含位于外显子6的3’端的鸟嘌呤核苷酸的插入的转录体D,鸟嘌呤核苷酸的插入可被预期会导致蛋白质的提前截短。通过RT-PCR和Sanger测序(数据未显示)来验证转录体。还使用长读长cDNA测序来验证D转录体。这些转录体的表达水平根据HSD17B13 rs72613567的基因分型而不同,转录体A的表达水平降低,而转录体D的表达水平以每个TA等位基因的等位基因剂量依赖的方式增加(参见,图3A,图3D和图10B)。编码全长300个氨基酸蛋白质的转录体A是T/T纯合体中的主要转录体,而编码提前截短的蛋白质的转录体D是TA/TA纯合体中的主要转录体。在人肝脏活检组织中,截短的亚型D蛋白质最小化地存在于杂合体中和TA/TA纯合体中,并且亚型A蛋白质的丰度以等位基因剂量依赖的方式降低(参见图10B和图10C)。这些数据与HSD17B13 rs72613567改变mRNA剪接一致,其导致在人肝脏中的表达显著降低的蛋白质的截短形式的合成。
参见图10A至图10E,其显示了新的HSD17B13转录体的表达、亚细胞定位和酶活性。HSD17B13转录体A和D在HSD17B13 rs72613567剪接变体的纯合参比(T/T),杂合体(T/TA)和纯化可变(TA/TA)携带者中的表达在图3A和图3D中显示。基因模型中的编码区域在条纹盒和黑色盒中的未翻译区域中显示。转录体D中的星号显示在外显子6的3’端插入rs72613567的G,这导致蛋白质的提前截短。mRNA的表达以FPKM单位(每百万绘制读长的每转录体的千碱基中的片段)显示。HepG2细胞过表达HSD17B13转录体A和D的Western印迹显示了相比于HSD17B13转录体A,HSD17B13转录体D被翻译为低分子量的截短的蛋白质(参见图10A)。类似的结果在新鲜冷冻的人肝脏和HEK293细胞样本的HSD17B13 western印迹中观察到(参见图10B)。人肝脏样本来自HSD17B13 rs72613567剪接变体的纯合参比(T/T),杂合体(T/TA)和纯化可变携带者(TA/TA)。细胞样本来自过表达未标记的HSD17B13转录体A和D的HEK293细胞。HSD17B13转录体D被翻译为分子量低于HSD17B13 IsoA的截短的蛋白质IsoD。HSD17B13IsoD蛋白质水平低于来自人肝脏(左)和细胞样本(右)IsoA蛋白质水平(参见图10C)。以肌动蛋白归一化的蛋白质水平在图10C中的柱状图中的显示,**P<0.001,*P<0.05。HSD17B13亚型A和D均位于稳定过表达HSD17B13转录体A或D的HepG2中的脂质液滴膜上,HSD17B13转录体A或D由BODIPY标记以显示脂质液滴和抗-Myc,从而显示HSD17B13定位(数据未显示)。本实施例还评价了HSD17B13亚型A和D对17-β雌二醇(雌二醇),白三烯B4(LTB4)和13-羟基十八碳二烯酸的酶活性(参见图10D)。HSD17B13亚型D显示出其酶活性小于亚型A的酶活性对应值的10%。当在培养基中测量时,HSD17B13亚型D在HEK293细胞中过表达时没有显示出将雌二醇(底物)大量转化为雌酮(产物),而过表达的HSD17B13亚型A显示出有效转化(参见图10E)。
HSD17B13主要在肝脏中表达(Liu等人,Acta Biochim.Pol.,2007,54,213-8,其全部内容通过引用并入本文),其中,HSD17B13定位于脂质液滴(Su等人,Proc.Natl.Acad.Sci.USA,2014,111,11437-42,其全部内容通过引用并入本文),这与其在脂肪肝的致病病因上的作用一致。HSD17B13的过表达及其定位在由表达HSD17B13转录体A和D的慢病毒稳定转导的非永生人肝细胞中进行评估。HSD17B13亚型A主要在围绕BODIPY标记的脂质液滴的膜上被检测到(数据未显示)。在脂质液滴的表面观察到HSD17B13亚型D的类似亚细胞定位(参见图10D)。
为了理解HSD17B13蛋白质由于rs72613567:TA而发生的提前截短的功能上的后果,使用重组蛋白在体外对亚型A和D的酶活性进行评估。检测了超过300个假定的底物,由HSD17B13酶转化这些底物中的雌二醇、白三烯B4和13-羟基十八碳二烯酸,使得羟基被氧化为酮基团。HSD17B13亚型D显示出对三个底物的活性的显著降低。
与GFP对照相比,过表达细胞的HSD17B13转录体A在细胞培养基中具有较低的雌二醇浓度以及较高的雌酮浓度,这说明了针对雌二醇具有酶活性(参见图10E)。过表达细胞的HSD17B13转录体D相对于GFP对照细胞具有类似的雌酮/雌二醇比例,这说明HSD17B13转录体D具有明显的功能损失。质谱分析揭示了雌酮向羟雌酮以及相对于消耗的雌二醇的低累积的雌酮的其他产物的快速转化。
通过大量外显子组测序识别出了HSD17B13中的剪接变体与血清转氨酶水平降低之间的新的关联以及和肝病的非酒精性和酒精性形式(包括肝病的晚期肝硬化形式和HCC)的风险降低之间的新的关联。据我们所知,这是首次报道了与肝病具有保护性关联的蛋白质可变变体。HSD17B13rs72613567:TA等位基因与单纯脂肪变性没有关联,但是与进展至NASH的风险降低相关联。覆盖多种不同的肝病类型和种族的在四个独立的群组中(DiscovEHR,DiscovEHR中独立的肥胖症治疗手术群组,DLS和DPLS)的剂量依赖保护性关联的一致性支持了如下观点:所报道的HSD17B13变体防止进展至慢性肝病的临床晚期阶段。所观察到的等位基因剂量依赖性也表明了HSD17B13的更加显著的调节功能可能会对疾病风险和进展产生更加显著的作用。
本文描述的关联性的发现结果主要基于具有较高的BMI的欧洲裔美国人和西班牙裔美国人中的观察结果。HSD17B13非常接近HSD17B11(其是相同基因家族的成员,与HSD17B13具有高序列类似性,但是具有更广泛的组织分布)。总体而言,本文所显示的数据支持了HSD17B13是用于预防和治疗人脂肪肝的潜在治疗靶点。本文所显示的数据说明了靶向HSD17B13可降低肝病从脂肪变性至NASH的晚期阶段和肝硬化的进展,该进展与显著的致病率和致死率相关并且目前尚未对NASH的晚期阶段和肝硬化的有效治疗方法。
实施例3.变体17β羟基类固醇脱氢酶13预防慢性肝病
为了识别对慢性肝病有贡献的基因因素,我们使用了外显子组序列数据以及来自DiscovEHR人基因研究中的46,544位参与者的电子健康记录。我们识别了与已知的肝损伤生物标志物(血清丙氨酸转氨酶(ALT)和天冬氨酸转氨酶(AST))相关联的基因变体以指定可能与慢性肝病相关的候选变体。随后,评估了三个额外的群组(12,527位个体)中重复的候选变体与在DiscovEHR和两个独立的群组(总共37,892位个体)中慢性肝病的临床诊断的关联性。我们还在独立的肥胖症治疗手术群组(n=2,391个人肝脏样本)中检测与肝病的组织病理学上的严重性的关联。
编码肝脂质液滴蛋白质17-β羟基类固醇脱氢酶13的HSD17B13中的剪接变体(rs72613567:TA)重现了与ALT(P=4.2x10-12)和AST(P=6.2x10-10)水平的降低相关联。在DiscovEHR中,该变体与酒精性和非酒精性肝病的风险降低相关联(对于每个rs72613567:TA等位基因,分别降低了38%(95%置信区间(CI)19%-52%)和16%(95% CI 9%-22%))并且以等位基因剂量依赖的方式与肝硬化风险降低相关联(对于每个rs72613567:TA等位基因,酒精性肝硬化的风险降低了44%,95% CI 22-59%;并且非酒精性肝硬化的风险降低了26%,95% CI 12%-38%)。关联性在两个独立的群组中得到了确认。rs72613567:TA与非酒精性脂肪变性肝炎(NASH)的组织学特性的严重性的降低相关联(在所有患有脂肪肝的个体中,对于每个rs72613567:TA,严重性降低了23%,95% CI 10%-34%)。rs72613567:TA产生针对类固醇底物的催化活性降低的不稳定的且截短的蛋白质。
HSD17B13中功能丧失的变体与酒精性和非酒精性肝病的风险降低以及从脂肪变性进展至NASH的风险减低相关联。
研究设计和参与者
人基因研究作为Regeneron遗传学中心(Regeneron Genetics Center)和Geisinger健康系统(Geisinger Health System,GHS)的DiscovEHR联合工作的一部分进行。两组DiscovEHR研究人群(发现群组和肥胖症治疗手术群组)源自最先的50,726位知情同意的年龄大于等于18岁的参与者,这些参与者来自GHS的社区健康协会。GHS发现群组由46,566位从2007年至2016年从门诊初级医疗保健机构和专科门诊招募的欧洲裔个体,不包括招募至肥胖症治疗手术群组的所有那些个体。GHS肥胖症治疗手术群组由被建议进行肥胖症治疗手术的2,644位欧洲裔个体。
肝脏转氨酶关联重复研究包括来自达拉斯心脏研究的1,357位欧洲裔个体和来自Penn医药生物库的8,527位欧洲裔个体。达拉斯心脏研究是年龄为30至65岁的达拉斯郡居民的随机人群群组研究(Victor等人,Am.J.Cardiol.,2004;93,1473-80,其全部内容通过引用并入本文)。Penn医药生物库包括从宾夕法尼亚州大学健康系统招募的参与者,这些参与者同意进行生物样本存储,访问HER数据并允许进行再次接触。
慢性肝病关联重复研究包括来自达拉斯肝脏研究(DLS)的517位个体和来自达拉斯儿科肝脏研究(DPLS)的477位个体。DLS是患有非病毒病原性肝病的患者的生物库。招募从2015年1月开始并一直持续至今。参与者招募自达拉斯UT西南和Parkland健康和医院系统的肝脏门诊。参与者完成了关于血统/种族背景,医疗历史,生活方式因素以及肝病和其他疾病的家族历史的问卷调查。其他临床信息由受过训练的技术人员提取自医疗记录。我们包括了在目前进行研究时可获取其DNA的所有非洲裔美国人,欧洲裔美国人和西班牙裔美国人(n=517),其中对照来自达拉斯心脏研究。DPLS是从达拉斯UT西南和Parkland健康和医院系统的儿科肝脏诊所招募的西班牙裔儿童和从达拉斯儿童医学中心的肥胖诊所招募的西班牙裔儿童的生物库。临床信息由受过训练的技术人员提取自医疗记录。因为超过95%的患者是西班牙裔美国人,所以在目前的研究中我们仅仅包括了西班牙裔美国人患者和对照(n=205位患者和234位对照)。
发现群组中的临床测量结果和慢性肝病定义
ALT和AST的临床实验室测量结果提取自GHS发现群组和肥胖症治疗手术群组的参与者的EHR。所有参与者的ALT和AST的中位值由两个或多个测量结果来计算并且进行log10转化以在关联分析之前对分布进行归一化。
疾病的国际分类,第九次修订的(ICD-9)疾病诊断编码提取自EHR并且分解至用于非病毒非酒精性肝病(ICD-9 571.40,571.41,571.49,571.5,571.8,571.9)病例定义或酒精性肝病(ICD-9 571.0,571.1,571.2,571.3)病例定义的临床疾病分类。基于单次诊断编码的其他病例的定义包括酒精性肝硬化(ICD-9 571.2),非酒精性肝硬化(ICD-9 571.5),和HCC(ICD-9155.0)。对于这些病例定义而言,未患有肝病(无肝病)的常见对照组被定义为如下参与者,该参与者不具有表明任何类型的肝病的病例标准或单次遇见或问题列表诊断编码。
肥胖症治疗手术群组中的肝脏组织病理学表型定义
GHS肥胖症治疗手术群组由2,644位欧洲裔个体构成。肝脏的楔形活检样本在肥胖症治疗手术过程中术中获自这些个体中的2,391位个体。在进行任何肝脏切除或胃部手术之前,统一地从镰状韧带的左边10cm处获取活检样本。将活检样本分为多个部分,其中,主要部分送至临床病理学家进行肝脏组织学检测(在10%中心缓冲福尔马林中固定并用苏木精和曙红染色进行常规组织学检测并进行马森三色染色法以评价纤维化),剩余的部分储存在研究生物库中(在RNAlater和/或液氮中冷冻)。肝脏组织学检测由有经验的病理学家进行并随后由另一位有经验的病理学家使用如下NASH临床研究网络评分系统(Kleiner等人,Hepatology,2005,41,1313-21,其全部内容通过引用并入本文)进行重复评估:脂肪变性级别0(<5%,涉及薄壁组织),1(5%至33%),2(34%至<66%),3(>67%);小叶性炎症级别0(没有斑块),级别1(轻度,<2斑块/200X视野),级别2(中度,2-4斑块/200X视野),级别3(严重,>4斑块/200X视野);纤维化阶段0(无纤维化),阶段1(窦周纤维化或门静脉周纤维化),阶段2(窦周纤维化和门静脉周纤维化),阶段3(桥接纤维化),阶段4(肝硬化)。这些组织学诊断被用于定义如下表型:1)正常:没有脂肪变性、NASH或纤维化证据;2)单纯脂肪变性:脂肪变性(无论程度如何)但没有NASH或纤维化的证据;3)NASH:存在任何小叶性炎症或肝细胞气球样变性(无论程度如何),或存在任何纤维化(无论程度如何);4)纤维化,存在任何纤维化(无论程度如何)。
样本制备,测序和基因分型
DiscovEHR研究,达拉斯心脏研究和Penn医药生物库中的参与者的DNA样本的制备和全外显子组的测序在Regeneron遗传进行(Dewey等人,Science In Press,2016,其全部内容通过引用并入本文)。HSD17B13rs72613567通过达拉斯肝脏研究和达拉斯儿科肝脏研究中的Taqman分析进行基因分型(并通过Sanger测序在每种基因分型的5位个体中进行验证)。
具体而言,根据生产厂商(Roche NimbleGen)推荐的规程使用NimbleGen探针进行外显子组捕获。捕获的DNA进行PCR扩增并通过qRT-PCR(Kapa Biosystems)进行定量。多路复用的样本使用Illumina v4 HiSeq2500上的75bp末端配对测序进行测序以覆盖足以在96%的样本中提供超过85%的靶碱基的20x单倍体读长深度的深度(靶碱基的大约80x平均单倍体读长深度)。将每轮Illumina Hiseq 2500运行的原始测序数据上传至DNAnexus平台(Reid等人,BMC Bioinformatics,2014,15,30,其全部内容通过引用并入本文),用于序列读长比对和变体识别。简言之,将原始测序数据从BCL文件转换至样本特异性FASTQ文件,该文件与具有BWA-mem的人参比build GRCh37.p13进行比对(Li等人,Bioinformatics,2009,25,1754-60,其全部内容通过引用并入本文)。单个核苷酸变体(SNV)和插入/删除(indel)序列的变体使用基因组分析工具试剂盒进行识别(McKenna等人,Genome Res.,2010,20,1297-303,其全部内容通过引用并入本文)。
肝脏酶和慢性肝病表型的全外显子组关联分析
我们使用线性混合模型测试了502,219个双等位基因变体,具有<1%的缺失数据率,Hardy-Weinberg平衡P值>1.0x10-6,并且与转氨酶水平关联的次等位基因频率>0.1%。对于GHS发现群组中的具有全外显子组显著关联的变体而言(P<1x10-7),在上述欧洲血统重复研究中,我们进行了关联分析和meta分析。我们使用了由所测试的变体数量确定的Bonferroni显著性阈值以界定重复关联。还对发现研究和重复研究进行了meta分析。本文中所报道的所有P值对应于等位基因模型。
随后,我们测试了与慢性肝病表型相关联的转氨酶相关单个核苷酸变体。我们使用了由变体数量和测试的多种慢性肝病的类别确定的Bonferroni显著性阈值以确定关联的显著性。我们进一步测试了与来自GHS肥胖症治疗手术群组的病理学界定的肝病表型相关联的重复的新变体。我们还进行了重复的新变体与405个定量临床测量结果和3,168个临床诊断之间的关联性的广泛现象研究。
具体而言,我们测试了502,219个双等位基因变体,具有<1%的缺失数据率,Hardy-Weinberg平衡P值>1.0x10-6,并且与转氨酶水平关联的次等位基因频率>0.1%。log10转化的中位ALT和AST根据年龄,年龄2,性别,BMI和血统的前四个主成分进行调节。为了说明研究参与者之间的关联性,我们还拟合了基因关联性矩阵作为随机作用协变量。主成分和基因关联性矩阵由近似连锁平衡中的39,858个非MHC标志物构建,其中,微小等位基因频率>0.1%。我们使用GCTA数据包中实施的线性混合模型(Yang等人,Am.J.Hum.Genet.,2011,88,76-82)来测试特性残基和单个核苷酸变体之间的关联。本文中所报道的所有P值对应于等位基因模型。
我们尝试在如下三个独立的欧洲血统群组中的GHS发现群组中重复关联:GHS肥胖症治疗手术群组,达拉斯心脏研究和Penn医药生物库(如上所述)。将GHS肥胖症治疗手术群组和Penn医药生物库的ALT和AST测量结果进行log10转化并根据年龄,年龄2,性别,BMI和血统的前四个主成分进行调节。基因关联性矩阵作为随机作用协变量被包括在内并且在GCTA中使用线性混合模型进行分析。在达拉斯心脏研究中,log10转化的ALT和AST测量结果根据年龄,年龄2,BMI和血统的前十个主成分进行调节并使用PLINK中实施的线性回归进行分析。三个重复群组的简要统计学结果使用METAL进行meta分析(Willer等人,Bioinformatics,2010,26,2190-1,其全部内容通过引用并入本文)(重复meta分析)。发现群组和三个重复群组的简要统计学结果也类似地进行meta分析(关联meta分析)。
与慢性肝病表型的关联分析
我们分析了来自肝脏酶ExWAS的十三个显著的且重复的单个核苷酸变体与上述GHS发现群组界定的慢性肝病表型的关联。我们使用Bonferroni显著性阈值P<0.05/26(P<1.92x10-3)来说明十三个变体和所测试的两大类慢性肝病分类(酒精性和非酒精性)。进一步测试了HSD17B13 rs72613567变体与上述GHS肥胖症治疗手术群组中的组织病理学定义的肝脏表型的关联。在根据年龄,年龄2,性别,BMI和血统的前四个主成分进行调节之后,使用逻辑回归的Firth惩罚似然法来估算发病率。使用相同的协变量估算HSD17B13rs72613567的基因分型发病率。
DLS中的肝病发病率通过逻辑回归进行估算,根据年龄,年龄2,性别,身高体重指数和自身报道的种族进行调节。来自达拉斯心脏研究的具有可获得的rs72613567基因分型的参与者用作正常对照(n=4,279)。通过逻辑回归估算DPLS中的发病率。
HSD17B13 rs72613567的全表型组关联研究
我们进行了HSD17B13 rs72613567与405个定量的EHR衍生的人体测量的生命体征测量结果,实验室测量结果,心电图测量结果,超声心动图测量结果和骨密度测量结果的关联的全表型组研究,并且我们进行了HSD17B13 rs72613567与3,168个EHR衍生的临床诊断结果的关联的全表型组研究。带有连续门诊测量结果的个体的中位实验室值在除去可能的虚拟值之后进行计算,所述虚拟值大于个体内中位值的三个标准偏差,还计算了最大值和最小值。我们在根据年龄,年龄2,性别和血统的前十个主成分进行调节之后计算了所有实验室特性的特性残基并进行合适的转化,随后进行关联分析。ICD-9诊断编码使用Denny等人提议的分组的修改版本被分为若干分级临床疾病组和对应的对照(Denny等人,NatureBiotechnology,2013,31,1102-10和Denny等人,Bioinformatics,2010,26,1205-10,其全部内容通过引用并入本文)。ICD-9诊断需要下列中的一个或多个:引入诊断编码的问题列表或在不同日临床上两次独立遇到的遇见诊断编码。
与转化的定量临床测量结果的剩余结果的关联分析使用线性回归进行并且与临床诊断的关联分析使用根据年龄,年龄2,性别和前四个主成分调节的逻辑回归进行。使用加合模型(0是指等位基因纯合体,1是指杂合体,2是指可选等位基因纯合体)和隐性模型(0是指等位基因纯合体和杂合体,1是指可选等位基因纯合体)编码等位基因。
软件
基因关联分析使用GCTA软件版本1.25.07和PLINK版本1.9.0进行。分位-分位图和曼哈顿图使用R软件版本3.2.1(用于统计学计算的R程序)产生。区域关联图使用LocusZoom产生(Pruim等人,Bioinformatics,2010,26,2336-7,其全部内容通过引用并入本文)。
RNA测序研究
RNA质量和浓度通过在Agilent RNA纳米生物分析仪芯片上运行总RNA来估算,所有样品具有大于8的RNA完整性数量。多腺苷酸化的RNA转录体使用两轮富集寡(dT)25小珠(Thermo Fisher Scientific)来分离。使用RNAclean XP小珠(Beckman Coulter)纯化并浓缩样本并将样本热分解为大约140个碱基对。第一链合成使用随机六聚体,采用SuperScript III逆转录酶(Thermo Fisher Scientific)来完成,在第二链合成过程中由dUTP替代dTTP。根据上述用于外显子组的我们的标准DNA实验室制备方法以及加入尿嘧啶DNA糖基酶的步骤来处理样本以产生链特异性测序文库。
新的HSD17B13转录体的识别和确认
使用允许两个错配的软件(,Cary,NC)将读长绘制至人B38(Human.B38)。使用两种方法来识别新的HSD17B13转录体。使用ArrayStudio基于基因编码v24发现了新的外显子连接。在默认设置下使用Trinity(v2.2.0)进行重新转录体组装。建立个性化基因模型以合并HSD17B13的新转录体并且通过与个性化基因模型的读长比对估算转录体定量。所有识别的HSD17B13亚型的蛋白质序列对比在图7A和图7B中显示。对来自人肝脏样本的总RNA所进行的RT-PCR使用带有铂TM Taq DNA聚合酶(Thermo Fisher)的SuperScriptTM一步RT-PCR系统进行。每50μL RT-PCR反应物包含1X反应混合物,500nM正义引物和500nM反义引物(PST516:ATGAACATCATCCTAGAAATCCTTC(SEQ ID NO:251)和PST517:ATCATGCATACATCTCTGGCTGGAG(SEQ ID NO:252)),1μL RT/铂Taq,以及75ng RNA。循环条件为:45℃下一个循环持续30分钟,94℃下一个循环持续2分钟,94℃下40个循环持续20秒,53℃下持续30秒,以及72℃下持续90秒,72℃下一个循环持续5分钟,随后维持在10℃。使用QIAquick PCR纯化试剂盒(Qiagen)纯化产物并使用引物DE002(ATCAGAACTTCAGGCCTTGG(SEQ ID NO:253))提交产物用于直接Sanger测序。为了识别B和C转录体,在由SYBR金色核酸凝胶染色剂(ThermoFisher)染色的2%琼脂凝胶上检测RT-PCR产物,切取期望的分子量的条带并使用QIAquick凝胶提取试剂盒(Qiagen)进行纯化,随后采用TA克隆试剂盒(ThermoFisher)进行克隆。TOPO克隆的测序使用M13F和M13R测序引物进行。使用Sequencher DNA分析软件(Gene Codes Corporation)进行序列分析。在第一外显子(GCAAAGCCATGAACATCATCC(SEQ ID NO:254))和最后外显子(TCTTGATGTAGTGGGAGTCGGATT(SEQ ID NO:255))中使用基因特异性引物,使用带有铂Taq高保真的SuperScript III一步RT-PCR系统(ThermoFisher Scientific)由50ng总RNA直接扩增全长HSD17B13转录体以产生约2.2kb的扩增子(预计的最大转录体尺寸)。在Agilent生物分析仪上确认扩增子。Pac生物相容性条码适体与扩增子连接并且采用PacBio PB小珠(Pacific Biosciences)进行清洁。以等量合并文库并在PacBio RSII平台上在一个SMRT细胞上进行测序持续180分钟。使用PacBio软件smrt分析v2.3工具labelzmw对数据进行解复用并随后使用Consensus工具扩增子分析来分析数据。得到的扩增子与HSD17B13参比序列基因比较以确定亚型和基因分型状态。
HSD17B13亚型的亚细胞定位
在补充有10%胎牛血清的Eagle最小必需培养基中培养HepG2细胞。将HSD17B13转录体A和D亚克隆至Myc-DDK骨架慢病毒构建体并生成慢病毒。使用携带有HSD17B13转录体的慢病毒感染HepG2细胞。在完全培养基中使用1-3mg/ml遗传霉素G-418硫酸盐持续两周选择表达每种HSD17B13转录体的稳定的细胞系。固定之后,使用小鼠抗-Myc抗体检测HSD17B13亚型。使用BODIPY FL染料(Sigma)标记脂质液滴。用于免疫荧光的二抗是AlexaFluor 488驴抗-兔IgG和Alexa Fluor 594驴抗-小鼠IgG(Jackson ImmunoResearch)。
HSD17B13蛋白质在人肝脏活检组织和稳定细胞系中的表达定量
在存在蛋白酶和磷酸酶抑制剂混合物(ThermoFisher)的条件下,在冰冷的1xRIPA细胞溶解缓冲液(EMD Millipore)中匀化人肝脏和细胞小粒样本。收集上清液并用于使用BCA蛋白质分析(ThermoFisher)的蛋白质浓缩。人组织和细胞溶解产物被加载在SDS/PAGE凝胶(Bio-Rad)上并在SDS/PAGE凝胶上进行分离,并且转移至PVDF膜(Bio-Rad)。使用5%(wt/vol)牛奶在补充有0.1%吐温20(Bio-Rad)的1x TBS中封闭膜持续1小时。使用针对HSD17B13(1:200,Thermo-Fisher)和B-肌动蛋白(1:500,Cell Signaling Technology)的抗体在4℃下过夜孵育膜。使用HRP-偶联的抗兔抗体(1:10,000,Jackson ImmunoResearch)检测结合抗体并且使用化学发光试剂(ThermoFisher)加强结合抗体。条带强度使用ImageJ软件进行定量。
实时半定量PCR
使用(Invitrogen,Carlsbad,CA)从细胞中提取RNA。第一链cDNA使用Superscript III RT(Invitrogen)合成并基于横跨内含子的引物将第一链cDNA用于半定量PCR。QuantStudio 6Flex实时PCR系统用于测量转录体的表达水平。HSD17B13和TBP的引物从IDT(Integrated DNA Technologies)订购。相对表达水平使用ΔΔCt方法进行分析,提供归一化至管家基因TBP(ΔCt)的表达的倍数变化。
由Western印迹分离和表征脂质液滴
如先前所报道的(Brasaemle DL,Wolins NE.Isolation of lipid dropletsfrom cells by density gradient centrifugation,Current protocols in cellbiology 2006;Chapter 3:Unit 3 15和Ding等人,Nature Protocols,2013,8,43-51,其全部内容通过引用并入本文)那样,由稳定表达HSD17B13转录体A(IsoA)或转录体D(IsoD)的HepG2细胞制备脂质液滴。简言之,稳定表达HSD17B13 IsoA,IsoD或母代细胞系的HepG2细胞由1mM油酸孵育过夜。随后细胞装载至脂质中,将细胞进行刮片处理并在补充有1XHaltTM蛋白酶/磷酸酶抑制剂(Thermo)的低渗细胞溶解缓冲液(20mM Tris,pH 7.5,1mMEDTA)中重悬,在50巴(bar)条件下通过空化作用进行细胞溶解持续8分钟。将细胞溶解物在1000g/4℃下离心处理持续10分钟,并将核后上清液(PNS)与蔗糖在超离心管中混合至最终体积为2mL,浓度为20%。随后,将1.5mL 5%的蔗糖和1.5mL低渗细胞溶解缓冲液层叠于细胞溶解产物顶部。在182,000g/4℃下离心处理各个管持续40分钟,并将脂质液滴(LD)层转移至新的管。吸出管中剩余的体积并将小粒(总膜,TM)重悬于0.5mL低渗细胞溶解缓冲液。PNS,LD和TM的各个部分与1x放射免疫沉淀(RIPA)缓冲液(EMD)+NuPAGETM LDS样本缓冲液(Thermo)和β-巯基乙醇混合并在37℃下超声处理持续3小时。TM细胞溶解产物被稀释2.5倍以标准化至PNS。在4-20% SDS-PAGE凝胶(Biorad)分离处理细胞溶解产物,使用Trans-Blot(Biorad)将其转移至低荧光PVDF膜,并在Odyssey TBS封闭缓冲液中进行封闭。采用下列抗体过夜孵育膜:α-HSD17B13(Abgent,cat#
AP5729a 1:500);LD标志物:α-ADRP(Proteintech,152-94-1-AP,1:2500);LD-标志物:α-TIP47(Proteintech,10694 1:2000);溶酶体标志物:α-LAMP1(Novus,NBP2-25183,1:1000);细胞溶质标志物:α-GAPDH(Proteintech,60004-1-Ig,1:2000);内质网标志物:α-钙网蛋白(Abcam,ab92516,1:1000);线粒体标志物:α-COX IV(Abcam,ab33985,1:500);细胞骨架标志物:α-肌动蛋白(Sigma,A5441,1:4000)。第二天用Tris缓冲盐水+0.1%吐温洗涤膜四次,随后在室温下采用含有α-兔(800CW)和α-小鼠(680RD)二抗(Li-Cor)的封闭缓冲液分别以1:5,000和1:10,000稀释孵育膜1小时。再次采用TBST洗涤凝胶并使用Odyssey进行成像。
细胞内甘油三酯的含量的定量
稳定的细胞中的甘油三酯(TG)含量使用TG定量试剂盒(Abcam)确定。在该分析测试中,TG转化为游离脂肪酸和甘油。随后,甘油被氧化以产生被定量的产物(λ=570nm下分光光度法)。
针对纯化的重组HSD17B13对类固醇和生物活性脂质文库进行底物筛选
在最终体积为40μL的分析缓冲液(0.2M Tris-HCl,pH 7.5)中进行反应,所述缓冲液包含500μM NAD+,5μM生物活性脂质或50μM类固醇(所有成分均溶解于最终浓度为5%的DMSO),以及100ng重组人HSD17B13。将反应在23℃下孵育3小时,随后,加入相等体积的NADH-Glo检测试剂。在23℃下孵育1小时之后,在Envision平板读取器(Perkin Elmer)上测量相对光单位(RLU)。使用如下方程式,将原始RLU值标准化为减去阴性对照(5% DMSO)之后的对照(50μM雌二醇)百分比:对照百分比(POC)=100x(样本(RLU)-阴性CTRL平均值)/(阳性CTRL平均值-阴性CTRL平均值)。
体外和细胞表征HSD17B13酶活性
由锚定HSD17B13转录体A或转录体D的质粒DNA转化的大肠杆菌(Genscript)纯化重组人HSD17B13蛋白质。HSD17B13变体在其C末端包含10xHis标签并且使用Ni2+亲和性纯化由可溶性部分纯化HSD17B13变体。使用NAD(P)H-Glo检测系统(Promega)通过测量NADH产量来确定酶活性。在最终体积为100μL的pH为7.5的0.2M Tris-HCl,0.5mM NAD+,75μM的底物(Sigma)和500ng纯化的酶中,在25℃下进行反应持续3小时。孵育之后,20μL反应物与20μL荧光素酶试剂(Promega)混合,在室温下孵育1小时并在Envision平板读取器(PerkinElmer)上进行读取。
过表达HSD17B13转录体A,转录体D或绿色荧光蛋白(GFP对照)的HEK293细胞用于在基于细胞的分析中检测HSD17B13针对雌二醇的活性。将雌二醇(1μM)供给于每种类型的细胞。48小时之后,收集培养基并通过LC-MS识别和定量雌二醇的浓度及其转化的产物雌酮的浓度。
外显子变体与天冬氨酸转氨酶和丙氨酸转氨酶的关联
我们测试了502,219个双等位基因单个基因变体与来自DiscovEHR研究(“GHS发现群组”,基本人口统计数据见表6)的46,544位欧洲血统个体体内的血清ALT或AST水平的关联。19个基因中的总共35个变体被发现与ALT或AST相关,其中P<1.0x10-7(图1A和1B,以及表7)。我们在如下三个欧洲血统个体的群组中进行了重复研究:1)来自DiscovEHR(“GHS肥胖症治疗手术群组”)的肥胖症治疗手术患者(n=2,644);2)来自达拉斯心脏研究的1,357位个体;以及3)来自Penn医药生物库的8,526位个体。在重复群组的meta分析中,九个基因中的13个变体与血清ALT或AST水平显著相关(Bonferroni显著性阈值对于35个所测试的变体为P<1.43x10-3,表8)。这些变体包括了先前所报道的与转氨酶水平升高相关联的变体,例如,PNPLA37,TM6SF211,SERPINA122,SAMM5023,和ERLIN124。SERPINA1编码α-1-抗胰蛋白酶,该抗胰蛋白酶的功能缺损导致肝病,与SAMM50的关联通过连锁不平衡介导,其中,PNPLA3发生改变,并且ERLIN1已被发现存在于肝脏脂肪沉积中。我们还识别了先前没有报道过的与肝病相关联的变体。这些变体包括GPT和GOT1中的若干变体(其为分别编码ALT和AST的基因)以及编码溶质特运(solute carrier)家族39成员12的SLC39A12。
我们还识别了HSD17B13中的变体(编码羟基类固醇17β-脱氢酶13的基因,其是17β-羟基类固醇脱氢酶家族中的未识别的成员)与ALT(发现P=4.2x10-12,重复P=1.7x10-4)和AST(发现P=6.2x10-10,重复P=1.7x10-4,表8)水平降低之间的可重现的关联性。关联的变体rs72613567是外显子6(TA等位基因)的供体剪接位点附近的腺嘌呤的插入并且在GHS发现群组中具有26.0%的等位基因频率。之前,Chambers等人识别了与ALT水平相关联的位于4q22(rs6834314)的邻近基因座(Chambers等人,Nat.Genet.,2011,43,1131-1138,doi:10.1038/ng.970,其全部内容通过引用并入本文),迄今为止,尚未报道rs72613567与转氨酶水平相关联。HSD17B13是HSD17B11上游30kb,其是相同基因家族中的另一成员。我们在发现群组(图5A和图5B)中或在发现群组和三个重复群组的联合meta分析中没有观察到HSD17B11中的编码变体或剪接变体与转氨酶水平之间的全外显子组显著关联。而且,rs72613567与HSD17B11中的变体的连锁不平衡最适当地覆盖整个血统组(在所有血统组中HSD17B11中的确认的变体的r2<0.4)。总而言之,这些发现表明作为基因组区域中的基因的HSD17B13最有可能在功能上与转氨酶水平相关联。
表6.发现群组和重复群组中的测序的欧洲血统个体的人口统计特征和临床特征
表7.在发现群组中与血清转氨酶水平以P<1.0x10-7相关联的单个核苷酸变体
表7(续)
*表明与ALT和AST这两者具有全外显子组显著关联的变体缩写:AFF,可变等位基因频率;Alt,可变等位基因;ALT,丙氨酸转氨酶;AST,天冬氨酸转氨酶;Ref,参比等位基因;SE,标准偏差。
表8.三个独立的欧洲血统群组中的发现群组的35个全外显子组显著性单个核苷酸变体的重复meta分析和联合meta分析。
表8(续)
表8(续)
*说明符合Bonferroni显著性阈值P<1.43x10-3的P值,
**重复meta分析包括三个重复群组:GHS肥胖症治疗手术群组,达拉斯心脏研究,以及Penn医药生物库,
***联合meta-分析包括发现群组和三个重复群组:GHS发现群组,GHS肥胖症治疗手术群组,达拉斯心脏研究以及Penn医药生物库,
缩写:AAF,可变等位基因频率;Alt,可变等位基因;ALT,丙氨酸转氨酶;AST,天冬氨酸转氨酶;Ref,参比等位基因;SE,标准偏差;ann,释义;mis,错义;syn,同义突变;spl,剪接供体;stop,stop gained;fs,移位;inf,inframe indel。
外显子变体与慢性肝病的临床诊断之间的关联
接着,我们分析了在发现群组和重复群组中发现的九个基因中的十三个转氨酶相关变体与慢性肝病(包括酒精性和非酒精性(非病毒)肝病以及慢性肝病的晚期形式:酒精性肝硬化、非酒精性肝硬化和肝细胞癌(HCC))之间的关系。使用所测试的十三个变体的Bonferroni显著性阈值P<1.92x10-3,我们发现了五个基因(HSD17B13,SERPINA1,TM6SF2,PNPLA3,和SAMM50)中的六个变体与慢性肝病表型之间的显著性关联(表9)。SERPINA1,TM6SF2,PNPLA3,以及SAMM50关联确认了先前报道的关联。在发现群组中,HSD17B13rs72613567:TA以等位基因剂量依赖的方式与酒精性肝病和非酒精性肝病的所有EHR衍生类别的较低的发病率相关联:所有类型的酒精性肝病,杂合体发病率(ORhet)(95%置信区间)为0.58(0.42-0.80),纯合体OR(ORhom)为0.47(0.23-0.97),等位基因OR(OR等位基因)为0.62(0.48-0.81),P=1.8x10-4;所有类别的非酒精性肝病,ORhet为0.83(0.75-0.92),ORhom为0.70(0.57-0.87),OR等位基因为0.84(0.78-0.91),P=1.3x10-5。HSD17B13 rs72613567:TA还与酒精性肝硬化和非酒精性肝硬化的低发病率相关联,其中,对于杂合体和纯合体而言,酒精性肝硬化的发病率分别为42%和73%(ORhet 0.58(0.39-0.86),ORhom 0.27(0.09-0.85),OR等位基因 0.56(0.41-0.78),P=3.4x10-4),并且对于杂合体和纯合体而言,非酒精性肝硬化的发病率分别为26%和49%(ORhet 0.74(0.60-0.93),ORhom 0.51(0.31-0.85),OR等位基因0.74(0.62-0.88),P=4.5x10-4)。HSD17B13 rs72613567:TA还在名义上与HCC的低发病率相关联。
我们想要确认和延伸多种族达拉斯肝脏研究(DLS)和达拉斯儿科肝脏研究(DPLS,表10)中的这些发现。在DLS中,TA等位基因以等位基因剂量依赖的方式与任何肝病的低发病率相关联(ORhet 0.74(0.57-0.97),ORhom 0.41(0.21-0.83),OR等位基因0.70(0.5-0.88),P=1.8x10-3,图8)。类似的效果在整个EHR衍生的肝病亚型中观察到,包括与酒精性肝病(OR等位基因0.72(0.53-0.99),P=4.4x10-2)和非酒精性肝病(OR等位基因0.65(0.40-1.07),P=9.0x10-2)的晚期肝硬化形式的保护性关联。在由自己报告的种族分组的个体的亚组分析中,在西班牙裔美国人中,与肝病的关联是显著的(n=326cases and 722controls,ORallelic 0.51(0.35-0.74),P=4.0x10-4),类似的数据趋势(没有达到统计学上的显著性)也在DLS的非洲裔美国人亚组(n=33个病例以及2,291个对照,OR等位基因0.74(0.25-2.47),P=0.67)和欧洲裔美国人亚组(n=158个病例以及1,266个对照,OR等位基因0.87(0.65-1.15),P=0.32)中观察到。在DPLS(西班牙裔美国人儿科肝病患者和肥胖症对照)中,TA等位基因也与肝病的低发病率相关联(ORallelic 0.61(0.37-0.99),P=4.6x10-2)。因此,HSD17B13rs72613567:TA与多种形式的慢性肝病(包括三个独立的人群中的成人和儿童的肝硬化)的发病率降低相关联。
表9.十二个全外显子组显著的且可重复的单个核苷酸变体与发现群组中的肝病表型的关联
*表明P值符合Bonferroni显著性阈值P<2.08x10-3.
表9(续)
表10.来自达拉斯肝脏研究和达拉斯儿科肝脏研究的基因分型的多种族病例和对照的人口统计学特征和临床特征
HSD17B13 rs72613567:TA与肝脏病理学的关联
NAFLD描述了从没有显著炎症迹象的肝脏脂肪累积(单纯脂肪变性)到临床上更有影响的NASH的疾病谱。为了确认HSD17B13
rs72613567:TA和EHR衍生的肝脏疾病诊断编码之间的关联并且为了进一步理解HSD17B13 rs72613567:TA与脂肪变性至NASH的组织病理学进展的关联,我们在GHS肥胖症治疗手术群组中进行了关联测试。在进行肥胖症治疗手术时进行了肝脏活检的全外显子组测序的2,391位个体的这个群组中,总共555(23%)位个体没有脂肪变性、脂肪性肝炎或纤维化的证据,830(35%)位个体患有单纯脂肪变性,并且1006(42%)位个体患有NASH。当通过基因分型比较正常肝脏的患病率、单纯脂肪变性的患病率和NASH的患病率时,正常肝脏的患病率似乎没有因基因分型而区分开来(T/T,T/TA,和TA/TA携带者分别为23%,24%,和23%,P=0.5比例趋势的卡方检验),但是带有TA等位基因的NASH的患病率降低(T/T,T/TA,和TA/TA携带者的患病率分别为45%,40%,和31%,P=1.6x10-4),并且,带有TA等位基因的单纯脂肪变性的患病率提高(T/T,T/TA,和TA/TA携带者的患病率分别为33%,35%,和47%,P=1.1x10-3)(图9)。在患有脂肪变性的个体中,与单纯脂肪变性相比,TA等位基因以等位基因剂量依赖的方式与NASH和纤维化的统计学上显著较低的发病率相关联(对于NASH,OR等位基因0.77(0.66-0.90),P=6.5x10-4;对于纤维化,OR等位基因0.74(0.62-0.88),P=4.15x10-4;图2B)。总之,这些数据说明了HSD17B13在介导NAFLD从单纯脂肪变性进展至NASH的晚期阶段和纤维化方面发挥作用。
HSD17B13 rs72613567:TA与临床定量特性和诊断的关联
为了更加深入地检测HSD17B13剪接变体的临床结果,我们对HSD17B13rs72613567:TA进行了全表型组研究,得到405个定量EHR衍生的人体测量结果、生命体征、实验室测量结果、心电图测量结果、超声心动图测量结果和骨密度测量结果,还得到3,168个EHR衍生的临床诊断结果。使用1.23x10-4和1.58x10-5分别作为与定量临床测量结果和临床诊断结果关联的Bonferroni显著性阈值,我们识别了HSD17B13 rs72613567:TA等位基因除了与肝转氨酶关联之外,与较高的血小板计数具有统计学上的显著关联(表11)。除了慢性肝病之外,HSD17B13 rs72613567:TA等位基因与临床诊断结果没有统计学上的显著关联(OR(95% CI)=0.88(0.84-0.93);P=9.14x10-6;AAF=0.263;总病例N=4031,T/T=2331,T/TA=1449,TA/TA=251;总对照N=35701,T/T=19238,T/TA=13984,TA/TA=2479)。
表11.HSD17B13 rs72613567:TA与定量临床测量结果的关联的全表型组研究
HSD17B13 rs72613567:TA对HSD17B13 mRNA和HSD17B13蛋白质的表达的作用
接下来,我们检测了HSD17B13 rs72613567:TA等位基因对基因的已知的和新的转录体的表达的作用。我们使用了RNA测序来评价HSD17B13 mRNA在来自HSD17B13rs72613567剪接变体的22个T/T纯合体,30个T/TA个杂合体和17个TA/TA纯合体携带者的组织学正常的肝脏样本中的表达。除了两个已知的HSD17B13转录体A和B之外,还识别了两个新的转录体:缺乏外显子6的转录体C,和包含在外显子6的3’端的鸟嘌呤核苷酸的插入的转录体D,该插入可被预见到导致蛋白质的提前截短。四个其他转录体(E-H)以非常低的水平表达(图3A至3D和图6A至6D)。通过RT-PCR和Sanger测序来确认转录体。还使用长读长cDNA测序来确认D转录体。所有识别的HSD17B13亚型(A-H)的蛋白质序列比对在图7A和图7B中显示。这些转录体的表达水平根据HSD17B13 rs72613567的基因分型而不同,转录体A和B的表达水平降低,而转录体C和D的表达水平以每个TA等位基因的等位基因剂量依赖的方式提高(图3A至图3D)。编码全长300个氨基酸蛋白质的转录体A是T/T纯合体中的主要转录体,而编码提前截短的蛋白质的转录体D是TA/TA纯合体中的主要转录体。在人肝脏活检组织中,截短亚型的D蛋白质以最小量存在于杂合体和TA/TA纯合体中,并且亚型A蛋白质丰度以等位基因剂量依赖的方式降低(图10B和图10C)。HEK239细胞中的亚型A和D的异源表达说明亚型D的丰度相对于mRNA表达而降低,这说明与亚型A相比,亚型D不稳定(图11A至图11C)。这些数据与HSD17B13 rs72613567可变mRNA剪接一致,这导致截短形式的蛋白质的合成,其在人肝脏中的表达显著降低。
HSD17B13在人肝细胞中的表达
HSD17B13主要在肝脏中表达(Liu等人,Acta Biochim.Pol.2007,54,213-218,其全部内容通过引用并入本文),其中,HSD17B13定位至脂质液滴(Su等人,Proc.Natl.Acad.Sci.USA,2014,111,11437-11442,doi:10.1073/pnas.1410741111,其全部内容通过引用并入本文),这与脂质液滴在脂肪肝的发病机制所发挥的作用一致。我们评价了HSD17B13在由表达HSD17B13转录体A或D的慢病毒转导的非永生的人肝细胞系中的表达及其定位。HSD17B13亚型A主要在围绕BODIPY标记的脂质液滴的膜上被检测到(数据未显示)。在脂质液滴的表面观察到HSD17B13亚型D的类似的亚细胞定位(数据未显示以及图12)。在过表达GFP对照的油酸处理的细胞系中或过表达HSD17B13亚型A或D的油酸处理的细胞系中没有观察到细胞内甘油三酯含量的区别(图13A至图13D)。
rs72613567:TA在体外和细胞模型中对HSD17B13活性的影响
为了理解HSD17B13蛋白质由于rs72613567:TA而发生的提前截短的功能结果,我们使用重组蛋白质和作为共因子的烟酰胺腺苷二核苷酸体外评估了亚型A和D的酶活性。我们测试了265个独立的假定底物并且识别了作为HS17B13的酶底物的类固醇底物和生物活性脂质(例如,白三烯B4)。我们随后研究了HSD17B13在雌二醇的酶转化方面的酶活性特征(图14显示了V最大值和Km值),雌二醇的酶转化导致羟基氧化形成酮基团。与HSD17B13亚型A相比,HSD17B13亚型D在体外(图10D)和细胞酶转化分析中(图10E)显示出对雌二醇显著降低的活性。
通过将大规模外显子组测序与EHR衍生的临床表型联系起来,我们识别了HSD17B13中的剪接变体与血清转氨酶水平降低之间的新的关联以及HSD17B13中的剪接变体与肝病的非酒精形式和酒精形式的风险降低之间的新的关联。在四个独立的群组中以及若干不同类型的肝病中(包括肝病的晚期肝硬化形式和HCC)均恒定地观察到这种关联。HSD17B13rs72613567:TA等位基因与单纯脂肪变性没有关联,但是与NASH和纤维化的风险降低有关联,这说明这种变体等位基因预防单纯脂肪变性进展至慢性肝病的临床晚期阶段。在全表型组关联研究中,HSD17B13 rs72613567:TA与慢性肝病和相关临床测量结果(肝转氨酶和血小板计数)之外的临床诊断结果或临床测量结果没有显著关联,这说明变体等位基因的临床作用对慢性肝病可能是特异性的。
在性类固醇和脂肪酸代谢中还涉及其他羟基类固醇17-β脱氢酶家族成员(Moeller,Mol.Cell.Endocrinol.,2009,301,7-19,doi:10.1016/j.mce.2008.10.040,其全部内容通过引用并入本文),但是对HSD17B13的功能知之甚少。在先前的报道中,HSD17B13的过表达显示出使小鼠肝脏中的脂肪生成增加,并且使培养的肝细胞中的脂质液滴的数量和尺寸增加(Su等人,Proc.Natl.Acad.Sci.USA,2014,111,11437-11442,doi:10.1073/pnas.1410741111,其全部内容通过引用并入本文)。两个先前的研究还显示出HSD17B13蛋白质的肝表达在患有脂肪肝的患者中提高(Su等人,Proc.Natl.Acad.Sci.USA,2014,111,11437-11442,doi:10.1073/pnas.1410741111和Kampf等人,FASEB J.,2014,28,2901-2914,doi:10.1096/fj.14-250555,其全部内容通过引用并入本文)。我们的数据说明HSD17B13的两种亚型在脂质液滴膜上表达但是看起来没有调节细胞内中性脂肪含量,这一发现反映了HSD17B13 rs72613567:TA与人体内的单纯脂肪变性之间缺乏关联。虽然目前尚未知HSD17B13的生理学底物,但是酶研究表明由HSD17B13 rs72613567:TA等位基因编码的HSD17B13亚型对雌二醇在酶催化上具有缺陷。同时,尚不清楚所测试的底物中的任何一种是否对肝病而言是至关重要的,因此,本领域仍有兴趣研究HSD17B13对先前报道的脂质介导的炎症中所涉及的若干种生物活性脂质物质(例如,白三烯B4)具有酶活性(Li等人,Nature Medicine,2015,21,239-247,doi:10.1038/nm.3800,其全部内容通过引用并入本文)。
该HSD17B13变体可为新的靶向慢性肝病的治疗策略提供思路,这类似于其他领域中基因变体为新的治疗方法提供思路。我们的数据表明HSD17B13调节肝病从脂肪变性至NASH的晚期阶段,纤维化和肝硬化的进展,NASH,纤维化和肝硬化与显著的致病率和致死率相关联,并且本领域目前尚无有效的治疗方法用于NASH,纤维化和肝硬化。
实施例4.使用CRISPR/Cas9对小鼠Hsd17b13基因座进行离体和体内修饰
作为使用CRISPR/Cas9系统靶向Hsd17b13这一概念的证据,我们测试了靶向小鼠Hsd17b13基因座的外显子1区域或外显子6/7区域的小鼠Hsd17b13向导RNA。该向导RNA靶向序列在表12中提供。对应于SEQ ID NO:259-268的向导RNA DNA靶向片段分别在SEQ ID NO:1643-1652中列出,其等同于SEQ ID NO:259-268,除了由尿嘧啶取代了胸腺嘧啶。小鼠Hsd17b13(羟基类固醇(17-β)脱氢酶13)的NCBI基因ID为243168(SEQ ID NO:269)。小鼠基因基因座位于染色体5,NC_000071.6
(103955442..103977388,补体)。
表12.小鼠的向导RNA靶向序列
首先,在从杂交的野生型小鼠(75% C57BL/6NTac 25%129S6/SvEvTac)中分离的初级小鼠肝细胞中测试了向导RNA。向小鼠肝脏灌注50mL含有1X PenStrep的肝脏灌注介质,随后灌注50mL肝脏消化介质(HBSS,100mM CaCl2,500mM HEPES,胶原蛋白酶)。一旦肝脏表现出被消化,就将肝脏放置于含有1X PenStrep和L-谷氨酰胺的洗涤介质中。将肝脏撕开以通过轻微晃动使肝细胞从肝脏中释放出来。一旦细胞被释放,就使细胞通过70μm的筛网过滤器并在4℃、50g的条件下进行旋转持续4分钟。使用2X洗涤缓冲液洗涤细胞小粒。随后将细胞小粒重悬于20mL 38-40%的Percoll并在4℃、200g条件下旋转10分钟。使用2X洗涤缓冲液洗涤细胞小粒并重悬于接种培养基中(Williams E培养基,1X Penstrep,1X L-谷氨酰胺,5%FBS)。细胞以300,000个细胞/孔的密度接种于24孔胶原蛋白包被的组织培养平板中。在使细胞贴壁6-18小时之后,使用不含FBS的培养基更换接种培养基。表13中显示了所使用的试剂。
表13.用于初级肝细胞分离的试剂
材料 | 批号 |
肝脏灌注介质 | Gibco[17701-038] |
HBSS(1x) | Gibco[14175-079] |
肝细胞洗涤介质 | Gibco[17704-024] |
Williams E培养基 | Gibco[A12176-01] |
Penstrep(100x) | Gibco[15140163] |
L-谷氨酰胺(200mM) | Gibco[25030081] |
FBS补充剂 | Gibco[A13450] |
HEPES | Gibco[15630080] |
胶原蛋白 | Gibco[A1048301] |
乙酸 | Sigma[A6283] |
Liberase TM | Roche[TM05401119001] |
初级肝细胞解冻和接种补充剂 | Gibco[CM3000] |
初级肝细胞维持补充剂 | Gibco[CM4000] |
Percoll | GE[17-0891-01] |
将含有Cas9和小鼠Hsd17b13 gRNA的核糖核蛋白复合物加至新鲜分离的初级小鼠肝细胞中。对于初级小鼠肝细胞中的离体实验而言,使用具有单独的crRNA和tracrRNA的模块向导RNA。crRNA的SEQ ID NO在表12中列出,tracrRNA的序列在SEQ ID NO:1422中列出。每种Cas9/gRNA复合物使用CRISPRMAXTM以最终浓度为2nM进行转染。48小时后,由细胞制备DNA细胞溶解产物并对每个测试的向导RNA进行第二代测序以确定在预计的切断位点上的插入/删除(indel)频率。
图15显示了在具有初级小鼠肝细胞中的向导RNA中的每一种的小鼠Hsd17b13基因中的编辑水平(带有indel的读长%),所述向导RNA包括靶向外显子1区域的五种向导RNA中的每一种以及靶向外显子6/7区域的五种向导RNA中的每一种。编辑效率是指由第二代测序确定的从溶解的细胞池中的PCR反应中的总序列读长数上观察到的插入或删除的总数量。几乎全部向导RNA显示出至少20%的编辑效率。
接下来,在具有基因组整合的Cas9基因(Cas9-就绪小鼠)的小鼠体内测试了五种小鼠Hsd17b13向导RNA。对于小鼠体内实验而言,使用嵌合的单个向导RNA。每个向导RNA的DNA靶向序列等同于表12中列出的向导RNA靶向序列,除了由尿嘧啶取代了胸腺嘧啶。每种单个向导RNA包括SEQ ID NO:1420列出的gRNA骨架上游(5’)的DNA靶向序列。sgRNA SEQ IDNO在表12中列出(sgRNA v1列)。使用不同向导RNA骨架的其他sgRNA变体也包括在表12中,但是没有进行测试。对于每个向导RNA而言,向每组中三只Cas9-就绪雄性小鼠给药。通过携带了sgRNA表达盒的腺相关病毒(AAV8),通过尾静脉注射(100μL PBS中的1E11/小鼠)引入向导RNA。不表达任何Cas9的野生型小鼠给药所有五种向导RNA作为阴性对照。注射后三周,对动物实施安乐死,收获血清以及肝脏和其他组织。将组织处理为DNA细胞溶解产物,并随后通过NGS测序进行分析。
如图16所示,NGS测序显示了所有五种向导RNA在肝脏中的显著编辑(每种向导RNA的编辑百分比为至少20%)。编辑效率是指在溶解的细胞池中的PCR反应中的总序列读长数上观察到的总插入或删除数量。在其他组织中观察到最低的或没有统计学上的显著水平的基因编辑(数据未显示)。
对肝脏酶ALT,AST,甘油三酯,总胆固醇,HDL,LDL,未酯化的脂肪酸(NEFA)和白蛋白的血清化学分析显示出各种不同的治疗组之间几乎没有区别(数据未显示)。
Hsd17b13的表达由RT-qPCR通过评估肝脏中相等质量的RNA的量来评估。基因组DNA发生降解,这样其不会计入qPCR反应中。RNA进行逆转录并随后使用对Cas9具有特异性的分析来检测Cas9转录体。每个独立的Hsd17b13向导RNA显示出Hsd17b13 mRNA表达下降了50%。参见图17A。与此形成鲜明对照的是,在非靶向HSD家族成员的表达中没有观察到显著下降。参见图17B。
Claims (70)
1.一种组合物,其用于修饰细胞中HSD17B13基因的方法,所述组合物包含Cas9蛋白或编码所述Cas9蛋白的核酸、和向导RNA或编码所述向导RNA的DNA,
其中所述细胞包括已引入所述组合物的细胞,
其中所述向导RNA包括CRISPR RNA(crRNA)部分和反式激活CRISPR RNA(tracrRNA)部分,并靶向所述HSD17B13基因内的向导RNA靶向序列,
其中所述向导RNA与所述Cas9蛋白形成复合物,并靶向所述向导RNA靶向序列,以及
其中所述Cas9蛋白裂解所述向导RNA靶向序列以在所述HSD17B13基因中产生靶向基因修饰,
其中所述方法导致所述HSD17B13基因的功能丧失,以及
其中所述细胞是肝细胞。
2.根据权利要求1所述的组合物,其中:
(a)所述向导RNA靶向序列包括SEQ ID NO:20-239和259-268中的任意一个;和/或
(b)所述向导RNA包括DNA靶向片段,所述DNA靶向片段包括SEQ ID NO:1423-1652中的任意一个;和/或
(c)所述向导RNA包括SEQ ID NO:500-1419中的任意一个。
3.根据权利要求2所述的组合物,其中所述细胞是人细胞,并且其中:
(a)所述向导RNA靶向序列包括SEQ ID NO:20-239中的任意一个;和/或
(b)所述DNA靶向片段包括SEQ ID NO:1423-1642中的任意一个;和/或
(c)所述向导RNA包括SEQ ID NO:500-719、730-949、960-1179、和1190-1409中的任意一个。
4.根据权利要求2所述的组合物,其中所述细胞是小鼠细胞,并且其中:
(a)所述向导RNA靶向序列包括SEQ ID NO:259-268中的任意一个;和/或
(b)所述DNA靶向片段包括SEQ ID NO:1643-1652中的任意一个;和/或
(c)所述向导RNA包括SEQ ID NO:720-729、950-959、1180-1189、和1410-1419中的任意一个。
5.根据权利要求1-4中任一项所述的组合物,其中所述组合物进一步包含一个或多个额外的向导RNA、或一个或多个编码所述一个或多个额外的向导RNA的DNA,其中所述一个或多个额外的向导RNA靶向所述HSD17B13基因内的一个或多个额外的向导RNA靶向序列,并且
其中所述一个或多个额外的向导RNA与所述Cas9蛋白形成一个或多个复合物,并靶向所述一个或多个额外的向导RNA靶向序列。
6.根据权利要求1-5中任一项所述的组合物,其中所述靶向基因修饰是通过非同源末端结合修复已裂解的向导RNA靶向序列产生的。
7.根据权利要求1-6中任一项所述的组合物,其中所述组合物进一步包含外源供体序列,
其中所述外源供体序列与所述HSD17B13基因中的靶标基因组基因座重组以产生所述靶向基因修饰。
8.根据权利要求7所述的组合物,其中所述外源供体序列通过非同源末端结合介导的插入对所述HSD17B13基因进行修复。
9.根据权利要求7所述的组合物,其中所述外源供体序列通过同源定向修复对所述HSD17B13基因进行修复。
10.根据权利要求9所述的组合物,其中所述外源供体序列包括与所述HSD17B13基因内的5'靶向序列杂交的5'同源臂和与所述HSD17B13基因内的3'靶向序列杂交的3'同源臂,其中所述外源供体序列与所述HSD17B13基因重组。
11.根据权利要求10所述的组合物,其中所述外源供体序列进一步包括位于所述5’同源臂和3’同源臂的侧面的核酸插入体。
12.根据权利要求11所述的组合物,其中所述核酸插入体包括胸腺嘧啶,并且,其中在所述外源供体序列与所述HSD17B13基因重组之后,所述胸腺嘧啶插入在当所述HSD17B13基因与SEQ ID NO:1比对时对应于SEQ IDNO:1的位置12665和12666的核苷酸之间。
13.根据权利要求7-12中任一项所述的组合物,其中所述外源供体序列的长度为约50个核苷酸至约1kb。
14.根据权利要求13所述的组合物,其中所述外源供体序列的长度为约80个核苷酸至约200个核苷酸。
15.根据权利要求7-14中任一项所述的组合物,所述外源供体序列是单链寡脱氧核苷酸。
16.根据权利要求1-15中任一项所述的组合物,其中所述组合物包含所述编码所述Cas9蛋白的核酸。
17.根据权利要求16所述的组合物,其中所述编码所述Cas9蛋白的核酸包括DNA。
18.根据权利要求16所述的组合物,其中所述编码所述Cas9蛋白的核酸包括RNA。
19.根据权利要求1-18中任一项所述的组合物,其中所述组合物包含RNA形式的向导RNA。
20.根据权利要求1-18中任一项所述的组合物,其中所述组合物包含所述编码所述向导RNA的DNA。
21.根据权利要求1-20中任一项所述的组合物,其中所述Cas9蛋白或所述编码Cas9蛋白的核酸和/或所述向导RNA或所述编码向导RNA的DNA位于脂质纳米颗粒中。
22.根据权利要求1-20中任一项所述的组合物,其中所述编码Cas9蛋白的核酸和/或所述编码向导RNA的DNA位于腺相关病毒载体中。
23.根据权利要求1-22中任一项所述的组合物,其中所述向导RNA是单分子向导RNA,其中所述crRNA部分与所述tracrRNA部分相连。
24.根据权利要求23所述的组合物,其中所述向导RNA包括如SEQ IDNO:1420、256、257、或258所示的序列。
25.根据权利要求1-22中任一项所述的组合物,其中所述crRNA部分和所述tracrRNA部分是不同的RNA分子。
26.根据权利要求25所述的组合物,其中所述crRNA部分包括如SEQID NO:1421所示的序列和/或所述tracrRNA部分包括如SEQ ID NO:1422所示的序列。
27.根据权利要求1-26中任一项所述的组合物,其中所述向导RNA包含提供改良稳定性或调节稳定性的修饰。
28.根据权利要求1-27中任一项所述的组合物,其中所述细胞是体内细胞。
29.根据权利要求1-28中任一项所述的组合物,其中所述细胞为人肝细胞或小鼠肝细胞。
30.根据权利要求29所述的组合物,其中所述细胞为人肝细胞。
31.根据权利要求30所述的组合物,其中所述人肝细胞是体内细胞。
32.根据权利要求31所述的组合物,其中所述人肝细胞在患有或易于患上慢性肝病的受治者中。
33.一种组合物,其用于修饰细胞中HSD17B13基因的方法,所述组合物包含Cas9蛋白或编码所述Cas9蛋白的核酸、和向导RNA或编码所述向导RNA的DNA,
其中所述细胞包括已引入所述组合物的细胞,
其中所述向导RNA包括CRISPR RNA(crRNA)部分和反式激活CRISPR RNA(tracrRNA)部分,并靶向所述HSD17B13基因内的向导RNA靶向序列,所述向导RNA靶向序列包括在所述HSD17B13基因与SEQ IDNO:2比对时对应于SEQ ID NO:2的位置12666的位置的1000个核苷酸、或位于在所述HSD17B13基因与SEQ ID NO:2比对时对应于SEQ ID NO:2的位置12666的位置的1000个核苷酸内,以及
其中所述向导RNA与所述Cas9蛋白形成复合物并靶向所述向导RNA靶向序列,且其中所述Cas9蛋白裂解所述向导RNA靶向序列以在所述HSD17B13基因中产生靶向基因修饰。
34.根据权利要求33所述的组合物,其中所述HSD17B13基因没有插入在将所述HSD17B13基因与SEQ ID NO:1比对时对应于SEQ ID NO:1的位置12665和12666的核苷酸之间的胸腺嘧啶。
35.根据权利要求33或34所述的组合物,其中:
(a)所述向导RNA靶向序列包括SEQ ID NO:226-239和264-268中的任意一个;和/或
(b)所述向导RNA包括DNA靶向片段,所述DNA靶向片段包括SEQ ID NO:1629-1642和1648-1652中的任意一个;和/或
(c)所述向导RNA包括SEQ ID NO:706-719、936-949、1166-1179、1396-1409、725-729、955-959、1185-1189、和1415-1419中的任意一个。
36.根据权利要求33-35中任一项所述的组合物,其中所述向导RNA靶向序列位于在将所述HSD17B13基因与SEQ ID NO:2比对时对应于SEQ IDNO:2的外显子6和/或内含子6的区域内,或位于在将所述HSD17B13基因与SEQ ID NO:2比对时对应于SEQ ID NO:2的内含子6和/或外显子7的区域内。
37.根据权利要求33-36中任一项所述的组合物,其中所述向导RNA靶向序列位于在将所述HSD17B13基因与SEQ ID NO:2比对时对应于SEQ IDNO:2的位置12666的位置的约50个核苷酸内。
38.根据权利要求33-37中任一项所述的组合物,其中所述向导RNA靶向序列包括在将所述HSD17B13基因与SEQ ID NO:2比对时对应于SEQ IDNO:2的位置12666的位置。
39.根据权利要求33-38中任一项所述的组合物,其中所述的组合物进一步包含一个或多个额外的向导RNA或编码所述一个或多个额外的向导RNA的一个或多个DNA,其中所述一个或多个额外的向导RNA靶向所述的HSD17B13基因内的一个或多个额外的向导RNA靶向序列,以及
其中所述一个或多个额外的向导RNA与所述Cas9蛋白形成一个或多个复合物,并靶向所述一个或多个额外的向导RNA靶向序列,以及
其中所述Cas9蛋白裂解所述一个或多个额外的向导RNA靶向序列。
40.根据权利要求33-39中任一项所述的组合物,其中所述方法导致所述HSD17B13基因的内含子6中的供体剪接位点被中断。
41.根据权利要求33-40中任一项所述的组合物,其中所述方法导致所述HSD17B13基因的功能丧失。
42.根据权利要求33-41中任一项所述的组合物,其中所述靶向基因修饰是通过非同源末端结合修复已裂解的向导RNA靶向序列产生的。
43.根据权利要求33-42中任一项所述的组合物,其中所述组合物进一步包含外源供体序列,并且
其中所述外源供体序列与所述HSD17B13基因中的靶标基因组基因座重组以产生所述靶向基因修饰。
44.根据权利要求43所述的组合物,其中所述外源供体序列通过非同源末端结合介导的插入对所述HSD17B13基因进行修复。
45.根据权利要求43所述的组合物,其中所述外源供体序列通过同源定向修复对所述HSD17B13基因进行修复。
46.根据权利要求45所述的组合物,其中所述外源供体序列包含5’同源臂和3’同源臂,所述5’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列5’杂交,所述3’同源臂与对应于SEQ ID NO:2的位置12666的位置的靶向序列3’杂交,其中所述外源供体序列与所述HSD17B13基因重组。
47.根据权利要求46所述的组合物,其中所述外源供体序列还包含位于所述5’同源臂和3’同源臂的侧面的核酸插入体。
48.根据权利要求47所述的组合物,其中所述核酸插入体包含胸腺嘧啶,并且,其中在所述外源供体序列与所述HSD17B13基因重组之后,所述胸腺嘧啶插入在当所述HSD17B13基因与SEQ ID NO:1比对时对应于SEQ IDNO:1的位置12665和12666的核苷酸之间。
49.根据权利要求43-48中任一项所述的组合物,其中所述外源供体序列的长度为约50个核苷酸至约1kb。
50.根据权利要求49所述的组合物,其中所述外源供体序列的长度为约80个核苷酸至约200个核苷酸。
51.根据权利要求43-50中任一项所述的组合物,其中所述外源供体序列是单链寡脱氧核苷酸。
52.根据权利要求33-51中任一项所述的组合物,其中所述组合物包含所述编码Cas9蛋白的核酸。
53.根据权利要求52所述的组合物,其中所述编码所述Cas9蛋白的核酸包括DNA。
54.根据权利要求52所述的组合物,其中所述编码所述Cas9蛋白的核酸包括RNA。
55.根据权利要求33-54中任一项所述的组合物,其中所述组合物包含RNA形式的所述向导RNA。
56.根据权利要求33-54中任一项所述的组合物,其中所述组合物包含所述编码所述向导RNA的DNA。
57.根据权利要求33-56中任一项所述的组合物,其中所述Cas9蛋白或所述编码所述Cas9蛋白的核酸和/或所述向导RNA或所述编码所述向导RNA的DNA是脂质纳米颗粒。
58.根据权利要求33-56中任一项所述的组合物,其中所述编码所述Cas9蛋白的核酸和/或所述编码所述向导RNA的DNA位于腺相关病毒载体中。
59.根据权利要求33-58中任一项所述的组合物,其中所述向导RNA是单分子向导RNA,其中所述crRNA部分与所述tracrRNA部分相连。
60.根据权利要求59所述的组合物,其中所述向导RNA包括如SEQ IDNO:1420、256、257、或258所示的序列。
61.根据权利要求33-58中任一项所述的组合物,其中所述crRNA部分和所述tracrRNA部分是不同的RNA分子。
62.根据权利要求61所述的组合物,其中所述crRNA部分包括如SEQID NO:1421所示的序列和/或所述tracrRNA部分包括如SEQ ID NO:1422所示的序列。
63.根据权利要求33-62中任一项所述的组合物,其中所述向导RNA包含提供改良稳定性或调节稳定性的修饰。
64.根据权利要求33-63中任一项所述的组合物,其中所述细胞是离体细胞或体内细胞。
65.根据权利要求33-64中任一项所述的组合物,其中的细胞是小鼠细胞、大鼠细胞或人细胞。
66.根据权利要求33-65中任一项所述的组合物,其中所述细胞是人肝细胞、小鼠肝细胞、小鼠多能细胞、或大鼠多能细胞。
67.根据权利要求66所述的组合物,其中所述细胞是人肝细胞。
68.根据权利要求67所述的组合物,其中所述细胞是体内细胞。
69.根据权利要求33-68中任一项所述的组合物,其中所述细胞是人细胞,并且其中:
(a)所述向导RNA靶向序列包括SEQ ID NO:226-239中的任意一个;和/或
(b)所述DNA靶向片段包括SEQ ID NO:1629-1642中的任意一个;和/或
(c)所述向导RNA包括SEQ ID NO:706-719、936-949、1166-1179、和1396-1409中的任意一个。
70.根据权利要求33-66中任一项所述的组合物,其中所述细胞是小鼠细胞,并且其中:
(a)所述向导RNA靶向序列包括SEQ ID NO:264-268中的任意一个;和/或
(b)所述DNA靶向片段包括SEQ ID NO:1648-1652中的任意一个;和/或
(c)所述向导RNA包括SEQ ID NO:725-729、955-959、1185-1189、和1415-1419中的任意一个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62/449,335 | 2017-01-23 | ||
US62/472,972 | 2017-03-17 | ||
US62/581,918 | 2017-11-06 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880019830.5A Division CN110446785B (zh) | 2017-01-23 | 2018-01-19 | Hsd17b13变体及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118325899A true CN118325899A (zh) | 2024-07-12 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110446785B (zh) | Hsd17b13变体及其应用 | |
US10767195B2 (en) | Methods and products for expressing proteins in cells | |
US20200399617A1 (en) | B4GALT1 Variants And Uses Thereof | |
CN118325899A (zh) | Hsd17b13变体及其应用 | |
NZ796466A (en) | Hsd17b13 variants and uses thereof | |
NZ796465A (en) | Hsd17b13 variants and uses thereof | |
NZ785361A (en) | Hsd17b13 variants and uses thereof | |
NZ755715B2 (en) | Hsd17b13 variants and uses thereof | |
Kim | Role of GTPase MTG1 in Mitochondrial Translation and heart Physiology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication |