CN113164623A

CN113164623A - 基于arc的衣壳及其用途

Info

Publication number: CN113164623A
Application number: CN201980075900.3A
Authority: CN
Inventors: 柯林·马隆; 伊恩·佩孔; 扎克·吉尔伯特; 安德雷·比萨列夫; 亚当·福莱特斯; 杰西卡·克里斯普
Original assignee: Venvenuc Co
Current assignee: Venvenuc Co; VNV Newco Inc
Priority date: 2018-09-18
Filing date: 2019-09-18
Publication date: 2021-07-23
Also published as: US11447527B2; US20220088224A1; EP3852813A4; AU2019343045A1; JP2024007554A; CA3113095A1; US20210347829A1; WO2020061229A2; KR20240093924A; US11505578B2; KR20210070305A; WO2020061229A3; US20220002358A1; JP7344300B2; EP3852813A2; JP2022502077A

Abstract

在某些实施方案中，本文公开了重组Arc和内源性Gag多肽，以及使用重组Arc和内源性Gag多肽的方法。

Description

基于ARC的衣壳及其用途

交叉引用

本申请要求于2018年9月18日提交的美国临时专利申请号 62/733,015的权益，其通过引用整体并入本文。

发明内容

在某些实施方案中，本文公开了重组和工程化的Arc多肽以及重组和工程化的内源性Gag(endo-Gag)多肽。在一些实施方案中，还包括基于Arc的衣壳和基于endo-Gag的衣壳(已装载或空的)，以及制备该衣壳的方法。还包括将基于Arc的衣壳和基于endo-Gag的衣壳递送至目标部位的方法。

在某些实施方案中，本文公开了一种衣壳，其包含重组Arc多肽或重组内源性Gag多肽以及治疗剂。在一些实施方案中，所述治疗剂是核酸。在一些实施方案中，所述核酸是RNA。在一些实施方案中，所述重组Arc多肽是包含氨基酸序列SEQ ID NO:1或与所述SEQ IDNO:1呈至少90％同一性的氨基酸序列的人Arc多肽。在一些实施方案中，所述重组Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b) 氨基酸序列SEQ ID NO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4 呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ ID NO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列 SEQ ID NO:6或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQ ID NO:9 或与所述SEQ ID NO:9呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQID NO:11或与所述SEQ ID NO: 11呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQID NO: 12或与所述SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者l) 氨基酸序列SEQ ID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQ ID NO:15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是人内源性Gag多肽。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性 Gag多肽：a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:17或与所述SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:19或与所述SEQ ID NO:19 呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者g)氨基酸序列SEQ ID NO:22或与所述SEQ ID NO: 22呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ ID NO: 23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i) 氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:25或与所述SEQ ID NO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:26或与所述SEQ ID NO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO:27或与所述SEQ ID NO:27呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:28或与所述 SEQ ID NO:28呈至少90％同一性的氨基酸序列。

在某些实施方案中，本文公开了一种衣壳，其包含重组Arc多肽或重组内源性Gag多肽，其中所述重组Arc多肽不是大鼠Arc多肽或人Arc多肽。在一些实施方案中，所述衣壳还包含负载物。在一些实施方案中，所述负载物是核酸。在一些实施方案中，所述负载物是RNA。在一些实施方案中，所述负载物是治疗剂。在一些实施方案中，所述重组Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO: 2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述 SEQ ID NO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:6或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；f) 氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8 呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQID NO:9或与所述SEQ ID NO:9呈至少90％同一性的氨基酸序列；i)氨基酸序列 SEQ IDNO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ IDNO:11或与所述SEQ ID NO:11 呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ IDNO:12 或与所述SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者l) 氨基酸序列SEQID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQID NO:14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQID NO:15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性 Gag多肽：a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16 呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:17或与所述SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQID NO:18呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:19或与所述SEQ IDNO:19 呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者g)氨基酸序列SEQ ID NO:22或与所述SEQ ID NO: 22呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ ID NO: 23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i) 氨基酸序列SEQ ID NO:24或与所述SEQ IDNO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:25或与所述SEQ IDNO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:26或与所述SEQ IDNO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO:27或与所述SEQ IDNO:27呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:28或与所述 SEQ IDNO:28呈至少90％同一性的氨基酸序列。

在某些实施方案中，本文公开了一种载体，其包含编码重组Arc 多肽或重组内源性Gag多肽的DNA。在一些实施方案中，所述载体还编码治疗剂。在一些实施方案中，所述治疗剂是核酸。在一些实施方案中，所述核酸是RNA。在一些实施方案中，所述重组Arc多肽是包含氨基酸序列SEQ ID NO:1或与所述SEQ ID NO:1呈至少90％同一性的氨基酸序列的人Arc多肽。在一些实施方案中，所述重组 Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列 SEQ IDNO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ ID NO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:6 或与所述SEQID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQ ID NO:9或与所述 SEQ ID NO:9呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQ ID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:11或与所述SEQ ID NO:11呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:12或与所述 SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者l)氨基酸序列 SEQ ID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14 呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQ ID NO:15 或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是人内源性Gag多肽。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性Gag多肽：a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少 90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:17或与所述 SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列； d)氨基酸序列SEQ ID NO:19或与所述SEQ ID NO:19呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQID NO: 21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者g) 氨基酸序列SEQ ID NO:22或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ ID NO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i)氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:25或与所述SEQ ID NO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:26或与所述 SEQ ID NO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列 SEQ ID NO:27或与所述SEQ ID NO:27呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:28或与所述SEQ ID NO:28 呈至少90％同一性的氨基酸序列。

在某些实施方案中，本文公开了一种载体，其包含编码重组Arc 多肽或重组内源性Gag多肽的DNA，其中所述重组Arc多肽不是大鼠Arc多肽或人Arc多肽。在一些实施方案中，所述载体还编码负载物。在一些实施方案中，所述负载物是核酸。在一些实施方案中，所述负载物是RNA。在一些实施方案中，所述负载物是治疗剂。在一些实施方案中，所述重组Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ ID NO:5呈至少90％同一性的氨基酸序列；e) 氨基酸序列SEQ ID NO:6或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7 呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列 SEQ ID NO:9或与所述SEQ ID NO:9呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQID NO:10或与所述SEQ ID NO:10呈至少 90％同一性的氨基酸序列；或者j)氨基酸序列SEQID NO:11或与所述SEQ ID NO:11呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQID NO:12或与所述SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQID NO:13或与所述SEQ ID NO: 13呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQID NO: 14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；或者n) 氨基酸序列SEQ ID NO:15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性Gag多肽：a)氨基酸序列SEQ ID NO:16或与所述 SEQ ID NO:16呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:17或与所述SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:19或与所述SEQID NO:19呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO: 20或与所述SEQ IDNO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者g)氨基酸序列SEQ ID NO:22或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ ID NO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i)氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:25或与所述 SEQ IDNO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:26或与所述SEQ IDNO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO:27或与所述SEQ IDNO:27 呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:28 或与所述SEQID NO:28呈至少90％同一性的氨基酸序列。

在某些实施方案中，本文公开了一种向细胞递送负载物的方法，其包括向所述细胞施用包含重组Arc多肽或重组内源性Gag多肽以及治疗剂的衣壳。在一些实施方案中，所述治疗剂是核酸。在一些实施方案中，所述核酸是RNA。在一些实施方案中，所述重组Arc多肽是包含氨基酸序列SEQ ID NO:1或与所述SEQ ID NO:1呈至少90％同一性的氨基酸序列的人Arc多肽。在一些实施方案中，所述重组 Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列 SEQID NO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ ID NO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:6 或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ IDNO:7呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQ ID NO:9或与所述 SEQ ID NO:9呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQ ID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:11或与所述SEQ ID NO:11呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:12或与所述 SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者l)氨基酸序列 SEQ ID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14 呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQ ID NO:15 或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是人内源性Gag多肽。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性Gag多肽：a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少 90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:17或与所述 SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列； d)氨基酸序列SEQ ID NO:19或与所述SEQ ID NO:19呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQID NO: 21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者g) 氨基酸序列SEQ ID NO:22或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ ID NO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i)氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:25或与所述SEQ ID NO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:26或与所述 SEQ ID NO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列 SEQ ID NO:27或与所述SEQ ID NO:27呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:28或与所述SEQ ID NO:28 呈至少90％同一性的氨基酸序列。在一些实施方案中，所述细胞是真核细胞。在一些实施方案中，所述细胞是脊椎动物细胞。在一些实施方案中，所述细胞是哺乳动物细胞。在一些实施方案中，所述细胞是人细胞。在一些实施方案中，所述负载物是核酸。在一些实施方案中，所述细胞表达由所述核酸编码的基因。在一些实施方案中，所述负载物是治疗剂。

在某些实施方案中，本文公开了一种向细胞递送负载物的方法，包括向所述细胞施用包含重组Arc多肽或重组内源性Gag多肽的衣壳，其中所述重组Arc多肽不是大鼠Arc多肽或人Arc多肽。在一些实施方案中，所述衣壳还包含负载物。在一些实施方案中，所述负载物是核酸。在一些实施方案中，所述负载物是RNA。在一些实施方案中，所述负载物是治疗剂。在一些实施方案中，所述重组Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO: 3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ IDNO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:6或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；g) 氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQ ID NO:9或与所述SEQ ID NO:9 呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQ ID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:11或与所述SEQ ID NO:11呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:12或与所述SEQ ID NO: 12呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO: 13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m) 氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQ ID NO:15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性Gag多肽：a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少90％同一性的氨基酸序列； b)氨基酸序列SEQ ID NO:17或与所述SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO: 19或与所述SEQ ID NO:19呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21 呈至少90％同一性的氨基酸序列；或者g)氨基酸序列SEQ ID NO:22 或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列；或者h) 氨基酸序列SEQ ID NO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i)氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:25或与所述SEQ ID NO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:26或与所述SEQ ID NO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO:27或与所述 SEQ ID NO:27呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:28或与所述SEQ ID NO:28呈至少90％同一性的氨基酸序列。在一些实施方案中，所述细胞是真核细胞。在一些实施方案中，所述细胞是脊椎动物细胞。在一些实施方案中，所述细胞是哺乳动物细胞。在一些实施方案中，所述细胞是人细胞。在一些实施方案中，所述负载物是核酸。在一些实施方案中，所述细胞表达由所述核酸编码的基因。在一些实施方案中，所述负载物是治疗剂。

在某些实施方案中，本文公开了一种将核酸转染到细胞中的方法，包括向所述细胞施用包含重组Arc多肽或重组内源性Gag多肽以及治疗剂的衣壳。在一些实施方案中，所述治疗剂是核酸。在一些实施方案中，所述核酸是RNA。在一些实施方案中，所述重组Arc多肽是包含氨基酸序列SEQ ID NO:1或与所述SEQ ID NO:1呈至少 90％同一性的氨基酸序列的人Arc多肽。在一些实施方案中，所述重组Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ IDNO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少 90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ ID NO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO: 6或与所述SEQID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQ ID NO:9或与所述SEQ ID NO:9呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQ ID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:11或与所述SEQ ID NO:11呈至少 90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:12或与所述SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQ ID NO:14或与所述SEQ ID NO: 14呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQ ID NO: 15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是人内源性Gag多肽。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性Gag 多肽：a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少 90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO:17或与所述 SEQ ID NO:17呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列； d)氨基酸序列SEQID NO:19或与所述SEQ ID NO:19呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ IDNO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者g) 氨基酸序列SEQ IDNO:22或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ IDNO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者i)氨基酸序列SEQ IDNO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ IDNO:25或与所述SEQ ID NO:25呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ IDNO:26或与所述 SEQ ID NO:26呈至少90％同一性的氨基酸序列；或者l)氨基酸序列 SEQID NO:27或与所述SEQ ID NO:27呈至少90％同一性的氨基酸序列；或者m)氨基酸序列SEQID NO:28或与所述SEQ ID NO:28 呈至少90％同一性的氨基酸序列。

在某些实施方案中，本文公开了一种将核酸转染到细胞中的方法，包括向所述细胞施用包含重组Arc多肽或重组内源性Gag多肽的衣壳，其中所述重组Arc多肽不是大鼠Arc多肽或人Arc多肽。在一些实施方案中，所述衣壳还包含负载物。在一些实施方案中，所述负载物是核酸。在一些实施方案中，所述负载物是RNA。在一些实施方案中，所述负载物是治疗剂。在一些实施方案中，所述重组Arc多肽是包含以下的Arc多肽：a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；b)氨基酸序列SEQ ID NO: 3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO:5或与所述SEQ IDNO:5呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:6或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；g) 氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；h)氨基酸序列SEQ ID NO:9或与所述SEQ ID NO:9 呈至少90％同一性的氨基酸序列；i)氨基酸序列SEQ ID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者j)氨基酸序列SEQ ID NO:11或与所述SEQ ID NO:11呈至少90％同一性的氨基酸序列；或者k)氨基酸序列SEQ ID NO:12或与所述SEQ ID NO: 12呈至少90％同一性的氨基酸序列；或者l)氨基酸序列SEQ ID NO: 13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者m) 氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；或者n)氨基酸序列SEQ ID NO:15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。在一些实施方案中，所述重组内源性Gag多肽是包含以下的内源性Gag多肽：a)氨基酸序列SEQ ID NO:12或与所述SEQ ID NO:12呈至少90％同一性的氨基酸序列； b)氨基酸序列SEQ ID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；c)氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；d)氨基酸序列SEQ ID NO: 15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列；e)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少90％同一性的氨基酸序列；f)氨基酸序列SEQ ID NO:17或与所述SEQ ID NO:17 呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQID NO:19或与所述SEQ ID NO:19呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ IDNO:20或与所述SEQ ID NO:20 呈至少90％同一性的氨基酸序列；g)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者h)氨基酸序列SEQ ID NO:22或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列。

在某些实施方案中，本文公开了一种工程化的Arc或endo-Gag 多肽，其包含负载物结合结构域和来自Arc或endo-Gag多肽的至少一个衣壳形成亚基。在一些实施方案中，该负载物结合结构域包括核酸结合结构域。在一些实施方案中，该负载物结合结构域包括结合至小分子的多肽。在一些实施方案中，该负载物结合结构域包括结合至蛋白质、肽或抗体或其结合片段的多肽。在一些实施方案中，该负载物结合结构域包括结合至拟肽或拟核苷酸的多肽。在一些实施方案中，该至少一个衣壳形成亚基包括对应于SEQ ID NO：1的CA N端半段结构(N-lobe)和/或CA C端半段结构(C-lobe)的多肽。在一些实施方案中，该工程化的Arc或endo-Gag多肽还包含来自Arc或 endo-Gag多肽的不同物种的第二衣壳形成亚基。在一些实施方案中，该第二衣壳形成亚基包括对应于SEQ ID NO：1的N端半段结构和/ 或C端半段结构的多肽。在一些实施方案中，该至少一个衣壳形成亚基和该第二衣壳形成亚基各自独立地选自Arc或endo-Gag物种，这些Arc或endo-Gag物种选自哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。在一些实施方案中，该至少一个衣壳形成亚基和该第二衣壳形成亚基来自两个不同的物种。在一些实施方案中，该负载物结合结构域直接或通过接头与该至少一个衣壳形成亚基的C末端融合。在一些实施方案中，该负载物结合结构域直接或通过接头与该至少一个衣壳形成亚基的N末端融合。在一些实施方案中，该第二衣壳形成亚基直接或通过接头与该至少一个衣壳形成亚基的C 末端融合。在一些实施方案中，该第二衣壳形成亚基直接或通过接头与该至少一个衣壳形成亚基的N末端融合。在一些实施方案中，该负载物结合结构域直接或通过接头与该至少一个衣壳形成亚基的N末端融合，并且该第二衣壳形成亚基直接或通过接头与该至少一个衣壳形成亚基的C末端融合。在一些实施方案中，该负载物结合结构域直接或通过接头与该至少一个衣壳形成亚基的C末端融合，并且该第二衣壳形成亚基直接或通过接头与该至少一个衣壳形成亚基的N末端融合。在一些实施方案中，该工程化的Arc或endo-Gag多肽还包含第二多肽。在一些实施方案中，该第二多肽直接或通过接头与该至少一个衣壳形成亚基融合。在一些实施方案中，该第二多肽直接或通过接头与该负载物结合结构域融合。在一些实施方案中，该第二多肽是蛋白质或抗体或其结合片段。在一些实施方案中，该蛋白质是人蛋白质或病毒蛋白质。在一些实施方案中，该蛋白质是人Gag样蛋白。在一些实施方案中，该蛋白质是设计用于结合至目标靶受体的从头(de novo)工程化蛋白。在一些实施方案中，第二多肽引导由工程化的 Arc或endo-Gag多肽形成的衣壳向目标靶位点的递送。

在某些实施方案中，本文公开了一种截短的Arc或endo-Gag多肽，其中除去了不涉及衣壳形成、核酸结合或递送的部分。在一些实施方案中，该部分包括基质(MA)结构域、逆转录酶(RT)结构域、核苷酸结合结构域或其组合，条件是该核苷酸结合结构域不是人ArcRNA结合结构域。在一些实施方案中，该部分包括CA C端半段结构域。在一些实施方案中，该部分包括N末端缺失、C末端缺失或其组合。在一些实施方案中，该N末端缺失包括缺失至多10个氨基酸、 20个氨基酸、30个氨基酸或50个氨基酸。在一些实施方案中，该C 末端缺失包括缺失至多10个氨基酸、20个氨基酸、30个氨基酸或50 个氨基酸。

在某些实施方案中，本文公开了一种基于Arc或endo-Gag的衣壳，其包含工程化的Arc或endo-Gag多肽(其可以是截短的Arc或 endo-Gag多肽)以及由该工程化的Arc或endo-Gag多肽所形成的衣壳包封的负载物。在一些实施方案中，该负载物是核酸分子。在一些实施方案中，该核酸分子是DNA、RNA或DNA和RNA的混合。在一些实施方案中，该DNA和该RNA各自独立地为单链、双链或单链和双链的混合。在一些实施方案中，该负载物是小分子。在一些实施方案中，该负载物是蛋白质。在一些实施方案中，该负载物是肽。在一些实施方案中，该负载物是抗体或其结合片段。在一些实施方案中，该负载物是拟肽或拟核苷酸。在一些实施方案中，该基于Arc或 endo-Gag的衣壳包含来自与工程化的Arc或endo-Gag多肽不同的一种或多种Arc或endo-Gag蛋白的一个或多个另外的衣壳亚基。在一些实施方案中，该基于Arc或基于endo-Gag的衣壳包含来自非Arc 蛋白的一个或多个另外的衣壳亚基。在一些实施方案中，该一个或多个另外的衣壳亚基包括Copia蛋白、ASPRV1蛋白、来自SCAN结构域家族的蛋白质、由副肿瘤Ma抗原家族编码的蛋白质(例如， PNMA5、PNMA6、PNMA6A和PNMA6B)、来自逆转录转座子Gag 样家族的蛋白质(例如，RTL3、RTL6、RTL8A、RTL8B)或其组合。在一些实施方案中，该一个或多个另外的衣壳亚基包括BOP、LDOC1、 MOAP1、PEG10、PNMA3、PNMA5、PNMA6A、PNMA6B、RTL3、 RTL6、RTL8A、RTL8B和ZNF18。在一些实施方案中，该衣壳具有至少1nm、2nm、3nm、4nm、5nm、10nm、15nm、20nm、25nm、 30nm、50nm、80nm、100nm、120nm、150nm、200nm、250nm、300nm、 500nm、600nm或更大的直径。在一些实施方案中，该衣壳具有约1nm至约600nm、约1nm至约500nm、约1nm至约200nm、约1nm至约 100nm、约1nm至约50nm或约1nm至约30nm的直径。在一些实施方案中，该衣壳具有降低的脱靶效应。在一些实施方案中，该衣壳不具有脱靶效应。在一些实施方案中，该衣壳离体(ex-vivo)形成。在一些实施方案中，该衣壳在体外(in-vitro)形成。

在某些实施方案中，本文公开了一种核酸聚合物，其编码本文所述的重组或工程化的Arc多肽或重组或工程化的内源性Gag多肽。

在某些实施方案中，本文公开了一种包含核酸聚合物的载体，该核酸聚合物编码本文所述的重组或工程化的Arc多肽或重组或工程化的内源性Gag多肽。

在某些实施方案中，本文公开了一种制备装载的基于Arc或基于 endo-Gag的衣壳的方法，包括：在溶液中将多个重组或工程化的Arc 多肽或多个重组或工程化的endo-Gag多肽与负载物一起温育足以产生装载的衣壳的时间。在一些实施方案中，该方法还包括在与负载物一起温育之前，将包含多个工程化的Arc或endo-Gag多肽的溶液与多个非Arc或非endo-Gag衣壳形成亚基混合。在一些实施方案中，以1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1或10:1的比例将该多个非Arc或非endo-Gag衣壳形成亚基与该多个重组或工程化的Arc或endo-Gag多肽混合。在一些实施方案中，以1:2、1:3、1:4、1:5、 1:6、1:7、1:8、1:9或1:10的比例将该多个非Arc或非endo-Gag衣壳形成亚基与该多个工程化的Arc或endo-Gag多肽混合。在一些实施方案中，该方法还包括在与负载物一起温育之前，将包含多个截短的的Arc或endo-Gag多肽的溶液与多个非Arc或endo-Gag衣壳形成亚基混合。在一些实施方案中，以1:1、2:1、3:1、4:1、5:1、6:1、7:1、 8:1、9:1或10:1的比例将该多个非Arc或endo-Gag衣壳形成亚基与该多个截短的Arc或endo-Gag多肽混合。在一些实施方案中，以1:2、 1:3、1:4、1:5、1:6、1:7、1:8、1:9或1:10的比例将该多个非Arc或非endo-Gag衣壳形成亚基与该多个截短的Arc或endo-Gag多肽混合。在一些实施方案中，该多个工程化的Arc或endo-Gag多肽获自细菌细胞系统、昆虫细胞系统或哺乳动物细胞系统。在一些实施方案中，该多个工程化的Arc或endo-Gag多肽获自无细胞系统。在一些实施方案中，该多个截短的Arc或endo-Gag多肽获自细菌细胞系统、昆虫细胞系统或哺乳动物细胞系统。在一些实施方案中，该多个截短的 Arc或endo-Gag多肽获自无细胞系统。在一些实施方案中，该装载的基于Arc或基于endo-Gag的衣壳被配制用于全身施用。在一些实施方案中，该装载的基于Arc或endo-Gag的衣壳被配制用于局部施用。在一些实施方案中，该装载的基于Arc或endo-Gag的衣壳被配制用于肠胃外施用。在一些实施方案中，该装载的基于Arc或endo-Gag 的衣壳被配制用于口服施用。在一些实施方案中，该装载的基于Arc 或endo-Gag的衣壳被配制用于局部施用。在一些实施方案中，该装载的基于Arc或endo-Gag的衣壳被配制用于舌下或气雾剂施用。

在某些实施方案中，本文公开了一种工程化的或重组的基于Arc 或基于endo-Gag的衣壳用于将负载物递送至目标部位的用途，包括使目标部位的细胞与基于Arc或基于endo-Gag的衣壳接触足以促进细胞摄取衣壳的时间。在一些实施方案中，该细胞是肿瘤细胞。在一些实施方案中，该肿瘤细胞是实体瘤细胞。在一些实施方案中，该实体瘤细胞是来自膀胱癌、乳腺癌、脑癌、结肠直肠癌、肾癌、肝癌、肺癌、胰腺癌、前列腺癌、皮肤癌、胃癌或甲状腺癌的细胞。在一些实施方案中，该肿瘤细胞来自血液系统恶性肿瘤。在一些实施方案中，该血液系统恶性肿瘤是B细胞恶性肿瘤或T细胞恶性肿瘤。在一些实施方案中，该血液系统恶性肿瘤是慢性淋巴细胞白血病(CLL)、小淋巴细胞性淋巴瘤(SLL)、弥漫大B细胞淋巴瘤(DLBCL)、滤泡淋巴瘤、套细胞淋巴瘤、伯基特淋巴瘤、皮肤T细胞淋巴瘤或外周T 细胞淋巴瘤。在一些实施方案中，该细胞是体细胞。在一些实施方案中，该细胞是干细胞或祖细胞。在一些实施方案中，该细胞是间充质干细胞或祖细胞。在一些实施方案中，该细胞是造血干细胞或祖细胞。在一些实施方案中，该细胞是肌肉细胞、皮肤细胞、血细胞或免疫细胞。在一些实施方案中，靶蛋白在该细胞中过度表达或缺失。在一些实施方案中，该细胞中的靶基因具有一个或多个突变。在一些实施方案中，该细胞包含受损的剪接机构。在一些实施方案中，该用途是体内(in vivo)用途。在一些实施方案中，将该基于Arc的衣壳全身性地施用于受试者。在一些实施方案中，将该基于Arc或基于endo-Gag 的衣壳通过局部施用而施用于受试者。在一些实施方案中，将该基于 Arc或基于endo-Gag的衣壳经肠胃外施用于受试者。在一些实施方案中，将该基于Arc的衣壳经口服施用于受试者。在一些实施方案中，将该基于Arc或基于endo-Gag的衣壳局部施用于受试者。在一些实施方案中，将该基于Arc或基于endo-Gag的衣壳通过舌下或气雾剂给药施用于受试者。在一些实施方案中，该用途是体外或离体用途。

在某些实施方案中，本文公开了一种试剂盒，其包含工程化的 Arc或endo-Gag多肽、截短的Arc或endo-Gag多肽、编码重组或工程化的Arc或endo-Gag多肽的载体或者基于Arc或基于endo-Gag的衣壳。

附图说明

在所附权利要求书中具体阐述了本公开内容的各个方面。通过参考以下对利用本公开内容原理的说明性实施方案加以阐述的详细描述和附图，将会获得对本公开内容的特征和优点的更好的理解。

图1是示例性Arc多肽的图示。

图2是示例性工程化Arc多肽的图示。

图3图示了对Arc多肽进行工程化以(A)携带特定负载物(例如，RNA有效载荷)或(B)去除脱功能(off-function)效应的示例性方法。

图4A示出了通过从HisTrap柱以咪唑梯度洗脱而分离6xHis标签化的人Arc。

图4B示出了在mono Q柱上以NaCl梯度洗脱而将6xHis标签化的人Arc与残余的核酸分离。

图5示出了负染色的人Arc衣壳的透射电子显微镜图像。

图6示出了由重组表达的Arc直系同源物形成的负染色衣壳的透射电子显微镜图像。

图7示出了由重组表达的endo-Gag蛋白形成的负染色衣壳的透射电子显微镜图像。

图8示出了HeLa细胞对Alexa594标记的Arc衣壳的选择性内化。

图9示出了通过Arc衣壳将Cre RNA递送至HeLa细胞。

图10示出了用于筛选Arc和endo-Gag基因候选物传递异源RNA 有效载荷的能力的方法。

具体实施方式

精确地将诊断剂或治疗剂施用至目标部位呈现出持续的挑战。将核酸递送至细胞的可用方法有众多局限性。例如，通常用于基因治疗的AAV病毒载体具有免疫原性，具有<3kb的有限的有效载荷容量，生物分布性不佳，只能通过直接注射施用，并且存在通过整合破坏宿主基因的风险。非病毒方法具有不同的局限性。脂质体主要被递送至肝脏。细胞外囊泡具有<1kb的有限的有效载荷容量、有限的可扩展性且纯化困难。因此，认识到需要新的方法来递送治疗有效载荷。

大多数分子在体内不具有固有的亲和力。在其他情况下，所施用的试剂会积聚在肝脏和肾脏中以进行清除，或积聚在非预期的组织或细胞类型中。改善递送的方法包括用疏水性化合物或聚合物涂覆选择的试剂。这种方法增加了所述试剂在循环中的持续时间，并且对于细胞摄取增强了疏水性。另一方面，这种方法不能有效地将负载物引导到目标部位以进行递送。

为了特异性地靶向需要治疗的部位，任选地将治疗化合物与识别并结合至呈现在所靶向的细胞表面上的受体的部分(诸如配体、抗体和适体)融合。到达目标细胞后，任选地将治疗化合物进一步递送至细胞内靶点。例如，如果治疗性RNA与细胞的细胞质中的核糖体接触，则它可被翻译为蛋白质。

Arc(活性调节性细胞骨架相关蛋白)调节α-氨基-3-羟基-5-甲基异恶唑-4-丙酸(AMPA)型谷氨酸受体的内吞运输。Arc活性与突触强度和神经元可塑性有关。实验小鼠模型中Arc丢失的表现型包括长期记忆的缺陷形成和降低的神经元活性和可塑性。

Arc展现与逆转录病毒Gag蛋白相似的分子特性。Arc基因可来源于Ty3/gypsy逆转录转座子。内源性Gag(endo-Gag)蛋白是真核生物内源性的任何蛋白(包括Arc)，其已经预测并解释了与病毒Gag 蛋白的相似性。Campillos M,Doerks T,Shah PK和Bork P,Computational characterization of multiple Gag-like human proteins, TrendsGenet.2006年11月；22(11):585-9中公开了示例性的endo-Gag 蛋白。endo-Gag蛋白任选地由任何宿主细胞重组表达，宿主细胞包括原核或真核细胞或者细菌、酵母、昆虫、脊椎动物、哺乳动物或人细胞。如本文所述，在一些实施方案中，endo-Gag蛋白组装成endo-Gag 衣壳。

在某些实施方案中，本文公开了Arc和enda-Gag多肽，其组装成衣壳以用于递送目标负载物。在一些实施方案中，本文还公开了工程化的Arc和enda-Gag多肽，其组装成衣壳以用于递送目标负载物。在另外的实施方案中，本文公开了衣壳(例如，基于Arc或基于endo-Gag的衣壳)，其用于递送目标负载物。

Arc多肽和内源性Gag多肽

在某些实施方案中，本文公开了一种Arc多肽。在某些实施方案中，本文公开了一种endo-Gag多肽。应当理解，endo-Gag序列是Arc 序列的任选替代品，用于形成本节中描述的任何类型的工程化Arc多肽。

在一些情况下，Arc是非人Arc多肽。在一些情况下，Arc多肽包括全长的Arc多肽(例如，全长的非人Arc多肽)。在其他情况下， Arc多肽包括非人Arc的片段，诸如参与衣壳的形成的截短的Arc多肽。在另外的情况下，Arc多肽包含非人Arc多肽的一个或多个结构域，其中结构域中的至少一个参与衣壳的形成。在进一步的情况下， Arc多肽是重组Arc多肽。

在一些情况下，endo-Gag是非人endo-Gag多肽。在一些情况下， endo-Gag多肽包括全长的endo-Gag多肽(例如，全长的非人endo-Gag 多肽)。在其他情况下，endo-Gag多肽包括非人endo-Gag的片段，诸如参与衣壳的形成的截短的endo-Gag多肽。在另外的情况下，endo-Gag多肽包含非人endo-Gag多肽的一个或多个结构域，其中结构域中的至少一个参与衣壳的形成。在进一步的情况下，endo-Gag 多肽是重组endo-Gag多肽。

在一些实施方案中，Arc是人Arc多肽，其中至少其RNA结合结构域被修饰以结合至不来源于人Arc的负载物。在一些情况下，Arc 多肽包括全长的人Arc多肽，其中至少其RNA结合结构域被修饰以结合至不来源于人Arc蛋白的负载物。在其他情况下，Arc多肽包括人Arc片段，所述人Arc片段至少在其RNA结合结构域中包含修饰。在另外的情况下，Arc多肽包含人Arc多肽的一个或多个结构域，其中结构域中的至少一个参与衣壳的形成，并且其RNA结合结构域被修饰以结合至天然人Arc蛋白不结合的负载物。在进一步的情况下， Arc多肽是重组人Arc多肽，其中至少RNA结合结构域被修饰以能够装载不来源于人Arc蛋白的负载物。

在一些实施方案中，Endo-Gag是人Endo-Gag多肽，其中至少其RNA结合结构域被修饰以结合至不来源于人endo-Gag的负载物。在一些情况下，endo-Gag多肽包括全长的人endo-Gag多肽，其中至少其RNA结合结构域被修饰以结合至不来源于人endo-Gag蛋白的负载物。在其他情况下，endo-Gag多肽包括人endo-Gag片段，该人 endo-Gag片段至少在其RNA结合结构域中包含修饰以结合至天然人 endo-Gag蛋白不结合的负载物。在另外的情况下，endo-Gag多肽包含人endo-Gag多肽的一个或多个结构域，其中结构域中的至少一个参与衣壳的形成，并且其中RNA结合结构域被修饰以结合至不来源于人endo-Gag蛋白的负载物。在进一步的情况下，endo-Gag多肽是重组人endo-Gag多肽，其中至少RNA结合结构域被修饰以能够装载不来源于人endo-Gag蛋白的负载物。

在一些情况下，Arc或endo-Gag多肽是工程化的Arc或endo-Gag 多肽。如本文所用，工程化的多肽是重组多肽，其序列与全长的野生型多肽不具有同一性。在一些情况下，工程化的Arc或endo-Gag多肽包含来自第一物种的Arc或endo-Gag多肽的片段和来自第二物种的Arc或endo-Gag多肽的至少另外的片段。在一些情况下，第一Arc 或endo-Gag多肽选自动物界、植物界、真菌界或原生生物界的成员。在一些情况下，第一物种选自哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、脊椎动物、真核生物、昆虫、真菌或植物。在一些情况下，第二Arc多肽选自动物界、植物界、真菌界或原生生物界的与第一Arc 或endo-Gag多肽相同或不同的成员。在一些情况下，第二物种选自与第一物种不同的哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、脊椎动物、真核生物、昆虫、真菌或植物。

在一些实施方案中，用于表达为重组或工程化的Arc多肽的示例性哺乳动物Arc或endo-Gag蛋白来自智人(homo sapiens)物种。用于表达为重组或工程化的Arc多肽的灵长类动物Arc或endo-Gag蛋白的其他示例性物种包括：大猩猩(gorilla)、苏门答腊猩猩(pongo abelii)、倭黑猩猩(pan paniscus)、豚尾猕猴(macaca nemestrina)、绿猴(chlorocebus sabaeus)、东非狒狒(papio anubis)、川金丝猴(rhinopithecusroxellana)、食蟹猕猴(macaca fascicularis)、白颊长臂猿(nomascus leucogenys)、普通狨(callithrix jacchus)、秘鲁夜猴(aotus nancymaae)、巴拿马白面卷尾猴(cebuscapucinus imitator)、亚马逊松鼠猴(saimiri boliviensis boliviensis)、小耳大婴猴(otolemur garnettii)、猕猴(macaca mulatta)和食蟹猕猴。

用于表达为重组或工程化的Arc或endo-Gag多肽的啮齿动物Arc 或endo-Gag蛋白的示例性物种列表包括：达马拉兰鼹鼠(fukomys damarensis)、倭狐猴(microcebusmurinus)、裸鼹鼠(heterocephalus glaber)、克氏冕狐猴(propithecus coquereli)、阿尔卑斯旱獭(marmota marmota marmota)、斑鼯猴(galeopterus variegatus)、豚鼠(caviaporcellus)、奥氏更格卢鼠(dipodomys ordii)、智利八齿鼠(octodon degus)、美洲河狸(castor canadensis)、以色列鼹鼠(nannospalax galili)、菲律宾眼镜猴(carlitosyrichta)、绒毛丝鼠(chinchilla lanigera)、小家鼠(mus musculus)、多纹黄鼠(ictidomys tridecemlineatus)、褐家鼠(rattus norvegicus)、草原田鼠(microtusochrogaster)、小耳大婴猴、长爪沙鼠(meriones unguiculatus)、中国地鼠(cricetulusgriseus)、褐家鼠、沙漠林鼠(neotoma lepida)、非洲跳鼠(jaculus jaculus)、雪貂(mustela putorius furo)、金黄地鼠(mesocricetus auratus)、树鼩滇西亚种(tupaiachinensis)、中国地鼠、金毛鼹(chrysochloris asiatica)、埃氏象鼩(elephantulusedwardii)、普通刺猬(erinaceus europaeus)、北美鼠兔(ochotona princeps)、鼩鼱(sorex araneus)、灰短尾负鼠(monodelphis domestica)、小马岛猬(echinops telfairi)和星鼻鼹(condylura cristata)。

用于表达为重组或工程化的Arc或endo-Gag多肽的Arc或 endo-Gag蛋白的示例性物种列表包括：赤狐(vulpes vulpes)、澳洲野犬(canis lupus dingo)、家猫(feliscatus)、花豹(panthera pardus)、北海狗(callorhinus ursinus)、太平洋海象(odobenusrosmarus divergens)、驴(equus asinus)、欧亚野猪(sus scrofa)、马来亚穿山甲(manisjavanica)、南白犀(ceratotherium simum simum)、韦德尔氏海豹(leptonychotesweddellii)、阿拉斯加海獭(enhydra lutris kenyoni)、白暨豚(lipotes vexillifer)、家牦牛(bos grunniens)、水牛(bubalus bubalis)、单峰驼(camelus dromedarius)、羊驼(vicugna pacos)、虎鲸(orcinus orca)、夏威夷僧海豹(neomonachus schauinslandi)、宽吻海豚(tursiops truncatus)、牛(bos taurus)、山羊(capra hircus)、白鲸(delphinapterus leucas)、摩弗伦羊(ovis aries musimon)、北太平洋小须鲸(balaenoptera acutorostrata scammoni)、长江江豚(neophocaena asiaeorientalisasiaeorientalis)、纳塔尔长指蝙蝠(miniopterus natalensis)、黑妖狐蝠(pteropusalecto)、抹香鲸(physeter catodon)、非洲草原象(loxodonta africana)、土豚(orycteropus afer afer)、野牦牛(bos mutus)、吸血蝠(desmodus rotundus)、大马蹄蝠(hipposideros armiger)、大熊猫(ailuropoda melanoleuca)、佛罗里达海牛(trichechusmanatus latirostris)、果蝠 (rousettus latirostris)、北非果蝠(rousettusaegyptiacus)、大棕蝠 (eptesicus fuscus)、中华菊头蝠(rhinolophus sinicus)、东欧马鹿 (cervus elaphus hippelaphus)、白尾鹿德克萨斯亚种(odocoileus virginianustexanus)、藏羚羊(pantholops hodgsonii)、双峰驼(camelus bactrianus)、袋獾(sarcophilus harrisii)、树袋熊(phascolarctos cinereus)和鸭嘴兽(ornithorhynchusanatinus)。

用于表达为重组或工程化的Arc或endo-Gag多肽的鸟类Arc或endo-Gag蛋白的示例性物种列表包括：原鸡(gallus gallus)、冠小嘴乌鸦(corvus cornix)、冠鸦(cornix)、大山雀(parus major)、美洲乌鸦(corvus brachyrhynchos)、鸸鹋(dromaiusnovaehollandiae) 和奥卡里托褐几维鸟(apteryx rowi)。

用于表达为重组或工程化的Arc或endo-Gag多肽的爬行动物Arc 蛋白的示例性物种列表包括：缅甸蟒(python bivittatus)、鬃狮蜥 (pogona vitticeps)、安乐蜥(anoliscarolinensis)、原矛头蝮

(protobothrops mucrosquamatus)、扬子鳄(alligator sinensis)、湾鳄(crocodylus porosus)、恒河鳄(gavialis gangeticus)、美国短吻鳄(alligatormississippiensis)、中华鳖(pelodiscus sinensis)、三趾箱龟(terrapene mexicanatriunguis)、西部锦龟(chrysemys picta bellii)、绿海龟(chelonia mydas)、高山蛙(nanorana parkeri)、热带爪蟾 (xenopus tropicalis)、非洲爪蟾(xenopus laevis)和矛尾鱼(latimeria chalumnae)。

用于表达为重组或工程化的Arc或endo-Gag多肽的鱼类Arc蛋白的示例性物种列表包括：虹鳟(oncorhynchus mykiss)、多棘雀鲷 (acanthochromis polyacanthus)、银大麻哈鱼(oncorhynchus kisutch)、鲫鱼(carassius auratus)和林奈氏澳鳉(austrofundulus limnaeus)。

用于表达为重组或工程化的Arc或endo-Gag多肽的昆虫Arc或 endo-Gag蛋白的示例性物种列表包括：雄性果蝇(drosophila serrata)、双栉果蝇(drosophilabipectinata)、红火蚁(solenopsis invicta)、切胸蚁(temnothorax curvispinosus)、黑腹果蝇(drosophila melanogaster)、白蜡窄吉丁(agrilus planipennis)、佛罗里达弓背蚁 (camponotus floridanus)、红胡须蚁(pogonomyrmex barbatus)、褐飞虱(nilaparvatalugens)、家蚕(bombyx mori)、赤拟谷盗(tribolium castaneum)和马铃薯甲虫(leptinotarsa decemlineata)。

用于表达为重组或工程化的Arc或endo-Gag多肽的植物Arc或 endo-Gag蛋白的示例性物种列表包括菠菜(spinacia oleracea)和斑点猴面花(erythranthe guttata)。

用于表达为重组或工程化的Arc或endo-Gag多肽的真菌蛋白的示例性物种列表包括：酿酒酵母(saccharomyces cerevisiae)、德氏根霉(rhizopus delemar)、尖孢镰刀菌(fusarium oxysporum)、新型隐球菌(cryptococcus neoformans)、根内球囊霉(rhizophagus irregularis)、水稻恶苗病菌(fusarium fujikuroi)、白色假丝酵母(candida albicans)、红色毛癣菌(trichophyton rubrum)、偃麦草核腔菌(pyrenophoratritici-repentis)、小孢根霉(rhizopus microsporus)、立枯丝核菌(rhizoctoniasolani)、黄曲霉(aspergillus flavus)、大丽轮枝菌(verticillium dahliae)、轮枝镰孢菌(fusarium verticillioides)、黑曲霉(aspergillus niger)、禾谷镰刀菌(fusariumgraminearum)、烟曲霉(aspergillus fumigatus)、小麦叶枯病菌(zymoseptoria tritici)和哈茨木霉(trichoderma harzianum)。

用于表达为重组或工程化的Arc或endo-Gag多肽的原生生物Arc 或endo-Gag蛋白的示例性物种列表包括：溶组织内阿米巴(entamoeba histolytica)、微孔宝琳虫(paulinella micropora)、蓝隐藻(guillardia theta)、海洋尖尾藻(oxyrrhis marina)、底栖硅藻(seminavis robusta)、长型眼虫(euglena longa)、尾刺耐格里原虫(naegleriagruberi)和阴道毛滴虫(trichomonas vaginalis)。

在一些情况下，Arc或endo-Gag包含衣壳组装/形成(CA)结构域、负载物结合结构域(例如，RNA结合结构域)以及任选的基质 (MA)结构域、逆转录酶(RT)结构域或其组合。在一些实施方案中，CA域还分为N端半段结构域和C端半段结构域。在一些情况下，负载物结合结构域包括RNA结合结构域、DNA结合结构域、蛋白质结合结构域、肽结合结构域、抗体结合结构域、小分子结合结构域或拟肽/拟核苷酸结合结构域。示例性的负载物结合结构域包括但不限于来自GPCR、抗体或其结合片段、脂蛋白、整联蛋白、酪氨酸激酶、 DNA结合蛋白、RNA结合蛋白、核酸酶、连接酶、蛋白酶、整合酶、异构酶、磷酸酶、GTP酶、芳香酶、酯酶，衔接蛋白、G蛋白、GEF、细胞因子、白介素、白介素受体、干扰素、干扰素受体、半胱天冬酶、转录因子、神经营养因子及其受体、生长因子及其受体、信号识别颗粒和受体成分、细胞外基质蛋白、膜的组成成分、核糖体蛋白、翻译延伸因子、翻译起始因子、GPI锚定蛋白、组织因子、抗肌萎缩蛋白、抗肌萎缩蛋白相关蛋白(utrophin)、小肌营养蛋白(dystrobrevin) 的结构域，其任何融合、组合、亚基、衍生物或结构域。

在一些实施方案中，将不涉及衣壳形成或核酸结合的一个或多个非必需区域从Arc或endo-Gag蛋白中去除以生成Arc或endo-Gag多肽。在这样的情况下，将例如N末端区域(例如，至多10个氨基酸、至多20个氨基酸、至多30个氨基酸或至多50个氨基酸)、C末端区域(例如，至多10个氨基酸、至多20个氨基酸、至多30个氨基酸或至多50个氨基酸)、RT结构域、MA结构域或其组合的一个或多个非必需区域从Arc或endo-Gag蛋白中删除以生成Arc或endo-Gag 多肽。在一些情况下，在Arc或endo-Gag多肽中仅保留涉及衣壳组装/形成和负载物结合的必需区域。在另外的情况下，在Arc多肽中仅保留涉及衣壳组装/形成(例如，N端半段结构和/或C端半段结构) 的必需区域。

在某些实施方案中，将RT结构域、MA结构域和/或内源性RNA 结合结构域替换为其他负载物结合结构域：例如替换为DNA结合结构域、蛋白质结合结构域、肽结合结构域、抗体结合结构域、小分子结合结构域、拟肽结合结构域或拟核苷酸结合结构域。在一些实施方案中，Arc或endo-Gag多肽包括涉及衣壳形成、核酸结合或递送的结构域的截短或修饰。

在一些实施方案中，Arc或endo-Gag多肽包含MA结构域、CA N 端半段结构、CA C端半段结构、负载物结合结构域和RT结构域。在一些情况下，Arc多肽从N末端至C末端包含以下结构域：MA结构域、CA N端半段结构、CA C端半段结构、RT结构域和负载物结合结构域。在一些情况下，Arc或endo-Gag多肽从N末端至C末端包含以下结构域：MA结构域、RT结构域、负载物结合结构域、CA N 端半段结构和CA C端半段结构。在一些情况下，Arc或endo-Gag多肽从N末端至C末端包含以下结构域：负载物结合结构域、MA结构域、RT结构域、CA N端半段结构和CA C端半段结构。在一些情况下，结构域以不妨碍衣壳组装和负载物结合的顺序排列。在一些情况下，结构域中的每个直接或间接地融合至各自两侧的结构域上。

在一些实施方案中，Arc或endo-Gag多肽包含MA结构域、CA N 端半段结构、CA C端半段结构和负载物结合结构域。在一些情况下， Arc或endo-Gag多肽从N末端至C末端包含以下结构域：MA结构域、CA N端半段结构、CA C端半段结构和负载物结合结构域。在一些情况下，Arc多肽从N末端至C末端包含以下结构域：MA结构域、负载物结合结构域、CA N端半段结构和CA C端半段结构。在一些情况下，Arc或endo-Gag多肽从N末端至C末端包含以下结构域：负载物结合结构域、MA结构域、CA N端半段结构和CA C端半段结构。在一些情况下，结构域以不妨碍衣壳组装和负载物结合的顺序排列。在一些情况下，结构域中的每个直接或间接地融合至各自两侧的结构域上。

在一些实施方案中，Arc或endo-Gag多肽包含CA N端半段结构、 CA C端半段结构和负载物结合结构域。在一些情况下，Arc或 endo-Gag多肽从N末端至C末端包含以下结构域：CA N端半段结构、 CA C端半段结构和负载物结合结构域。在一些情况下，Arc或 endo-Gag多肽从N末端至C末端包含以下结构域：负载物结合结构域、CA N端半段结构和CA C端半段结构。在一些情况下，结构域以不妨碍衣壳组装和负载物结合的顺序排列。在一些情况下，结构域中的每个直接或间接地融合至各自两侧的结构域上。

在一些实施方案中，Arc或endo-Gag多肽包含CA N端半段结构和负载物结合结构域。在一些情况下，Arc或endo-Gag多肽从N末端至C末端包含以下结构域：CA N端半段结构和负载物结合结构域。在一些情况下，Arc或endo-Gag多肽从N末端至C末端包含以下结构域：负载物结合结构域和CA N端半段结构。在一些情况下，结构域以不妨碍衣壳组装和负载物结合的顺序排列。在一些情况下，这两个结构域直接或间接地融合至彼此。

在一些情况下，对Arc或endo-Gag多肽进行工程化以包含来自一个或多个另外物种的负载物结合结构域、CA结构域、MA结构域或RT结构域，从而生成工程化的Arc多肽。例如，工程化的Arc或 endo-Gag多肽包含来自第一物种的负载物结合结构域、CA结构域、 MA结构域或RT结构域以及来自第二物种的负载物结合结构域、CA 结构域、MA结构域或RT结构域。在一些情况下，第一物种选自真核生物、脊椎动物、人、哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。在一些情况下，第二物种选自与第一物种不同的真核生物、脊椎动物、人、哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。

在一些情况下，工程化的Arc或endo-Gag多肽包含来自第一物种的负载物结合结构域和来自第二物种的CA结构域(例如，CA N 端半段结构以及任选的CA C端半段结构)。工程化的Arc或endo-Gag 多肽任选地包含来自第一物种或第二物种的MA结构域和RT结构域。在一些情况下，第一物种选自真核生物、脊椎动物、人、哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。在一些情况下，第二物种选自与第一物种不同的真核生物、脊椎动物、人、哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。

在一些情况下，工程化的Arc或endo-Gag多肽包含负载物结合结构域、第一CA结构域、第二CA结构域以及任选的MA结构域和 /或RT结构域。在一些情况下，负载物结合结构域、第一CA结构域以及任选的MA结构域和/或RT结构域来自第一物种，并且第二CA 结构域来自第二物种。在一些情况下，第一CA结构域来自第一物种，并且负载物结合结构域、第二CA结构域以及任选的MA结构域和/ 或RT结构域来自第二物种。在一些情况下，结构域以不妨碍衣壳组装和负载物结合的顺序排列。在一些情况下，结构域中的每个直接或间接地融合至各自两个相邻的结构域上。

在一些情况下，工程化的Arc或endo-Gag多肽包含负载物结合结构域、第一CA结构域和第二CA结构域。在一些情况下，负载物结合结构域和第一CA结构域来自第一物种，并且第二CA结构域来自第二物种。在一些情况下，第一CA结构域来自第一物种，并且负载物结合结构域和第二CA结构域来自第二物种。在这样的情况下，工程化的Arc或endo-Gag多肽从N末端至C末端包含以下结构域：负载物结合结构域、第一CA结构域和第二CA结构域。在这样的情况下，工程化的Arc或endo-Gag多肽从N末端至C末端包含以下结构域：第一CA结构域、负载物结合结构域和第二CA结构域。在这样的情况下，工程化的Arc或endo-Gag多肽从N末端至C末端包含以下结构域：第一CA结构域、第二CA结构域和负载物结合结构域。在一些情况下，结构域以不妨碍衣壳组装和负载物结合的顺序排列。在一些情况下，结构域中的每个直接或间接地融合至各自两侧的结构域上。

在一些情况下，工程化的Arc或endo-Gag多肽还包含第二多肽。在一些情况下，第二多肽直接或通过接头间接融合至以下中的一个或多个：负载物结合结构域、第一CA结构域、第二CA结构域、MA 结构域(如果存在)或RT结构域(如果存在)。在一些情况下，第二多肽是蛋白质(例如，人蛋白质)、抗体或其结合片段、病毒蛋白质、Gag样蛋白(例如，人Gag样蛋白)或被设计用于结合至目标靶受体的从头工程化蛋白。在一些情况下，抗体或其结合片段包括人源化抗体或其结合片段、鼠科动物抗体或其结合片段、嵌合抗体或其结合片段、单克隆抗体或其结合片段、多特异性抗体或其结合片段、双特异性抗体或其结合片段、一价Fab’、二价Fab₂、F(ab)'₃片段、单链可变区片段(scFv)、双-scFv、(scFv)₂、双链抗体、微型抗体、纳米抗体、三链抗体、四链抗体、二硫键稳定化Fv蛋白(dsFv)、单结构域抗体(sdAb)、IgNAR、骆驼科动物抗体或其结合片段，或其化学修饰的衍生物。在一些情况下，第二多肽引导由工程化的Arc多肽形成的衣壳向目标靶位点的递送。

在一些实施方案中，本公开内容的核酸序列或氨基酸序列(例如，编码Arc多肽或endo-Gag多肽)与本文提供的氨基酸序列具有至少 70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少 76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少 88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少 94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少 99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％或至少99.99％的同源性。使用各种方法和软件程序，诸如NCBI BLAST、Clustal W、MAFFT、Clustal Omega、AlignMe、Praline或其他合适的方法或算法来确定两个或序列之间的同源性。

在某些实施方案中，Arc多肽是人多肽，其具有氨基酸序列SEQ ID NO:1或与SEQID NO:1呈至少90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是虎鲸多肽，其具有氨基酸序列SEQ ID NO:2或与SEQID NO:2呈至少90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是白尾鹿多肽，其具有氨基酸序列 SEQ ID NO:3或与SEQ ID NO:3呈至少90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是鸭嘴兽多肽，其具有氨基酸序列 SEQ ID NO:4或与SEQ ID NO:4呈至少90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是家鹅多肽，其具有氨基酸序列SEQ ID NO:5或与SEQID NO:5呈至少90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是卷羽鹈鹕(Dalmatian pelican)多肽，其具有氨基酸序列SEQ ID NO:6或与SEQ ID NO:6呈至少90％、 91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是白尾海雕多肽，其具有氨基酸序列SEQ ID NO:7或与SEQ ID NO:7呈至少90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是眼镜王蛇多肽，其具有氨基酸序列SEQ ID NO:8或与SEQ ID NO:8呈至少90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是辐鳍鱼(ray finned fish)多肽，其具有氨基酸序列SEQ ID NO:9或与SEQ ID NO:9呈至少90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是抹香鲸多肽，其具有氨基酸序列 SEQ ID NO:10或与SEQ ID NO:10呈至少90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是火鸡多肽，其具有氨基酸序列SEQ ID NO:11或与SEQ ID NO:11呈至少90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是鬃狮蜥多肽，其具有氨基酸序列 SEQ ID NO:12或与SEQ ID NO:12呈至少90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是扬子鳄多肽，其具有氨基酸序列 SEQ ID NO:13或与SEQ ID NO:13呈至少90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是美国短吻鳄多肽，其具有氨基酸序列SEQ ID NO:14或与SEQ ID NO:14呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，Arc多肽是日本壁虎多肽，其具有氨基酸序列SEQ ID NO:15或与SEQ ID NO:15呈至少90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人PNMA3多肽，其具有氨基酸序列SEQ ID NO:16或与SEQ ID NO:16呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人PNMA5多肽，其具有氨基酸序列SEQ ID NO:17或与SEQ ID NO:17呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人PNMA6A多肽，其具有氨基酸序列SEQ IDNO:18或与SEQ ID NO:18呈至少90％、91％、 92％、93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人PNMA6B多肽，其具有氨基酸序列SEQ IDNO:19或与SEQ ID NO:19呈至少90％、91％、 92％、93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人RTL3多肽，其具有氨基酸序列SEQ ID NO:20或与SEQ ID NO:20呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人RTL6多肽，其具有氨基酸序列SEQ ID NO:21或与SEQ ID NO:21呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人RTL8A多肽，其具有氨基酸序列SEQ ID NO:22或与SEQ ID NO:22呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人RTL8B多肽，其具有氨基酸序列SEQ ID NO:23或与SEQ ID NO:23呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人BOP多肽，其具有氨基酸序列SEQ ID NO:24或与SEQ ID NO:24呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人LDOC1多肽，其具有氨基酸序列SEQ ID NO:25或与SEQ ID NO:25呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人ZNF18多肽，其具有氨基酸序列SEQ ID NO:26或与SEQ ID NO:26呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人MOAP1多肽，其具有氨基酸序列SEQ ID NO:27或与SEQ ID NO:27呈至少90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％同一性的序列。

在某些实施方案中，endo-Gag多肽是人PEG10多肽，其具有氨基酸序列SEQ ID NO:28或与SEQ ID NO:28呈至少90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的序列。

在一些情况下，重组Arc或endo-Gag多肽是图1所示的Arc多肽。

在一些情况下，工程化的Arc或endo-Gag多肽是图2所示的工程化的Arc多肽。

接头

在某些实施方案中，本公开内容的多肽包含接头。在一些实施方案中，接头是肽接头。在一些情况下，接头是刚性接头。在其他情况下，接头是柔性接头。在一些情况下，接头是不可切割的接头。在其他情况下，接头是可切割的接头。在另外的情况下，接头包含线性结构或非线性结构(例如，环状结构)。

在某些实施方案中，不可切割的接头包括可变长度的短肽。示例性的不可切割接头包含(EAAAK)n(SEQ ID NO:70)或(EAAAR)n (SEQ ID NO:71)(其中n为1至5)，以及至多30个谷氨酸-脯氨酸或赖氨酸-脯氨酸残基重复序列。在一些实施方案中，不可切割的接头包含(GGGGS)n(SEQ ID NO:72)或(GGGS)n(SEQ ID NO:73) (其中n为1至10)；KESGSVSSEQLAQFRSLD(SEQ ID NO:74)；或EGKSSGSGSESKST(SEQ ID NO:75)。在一些实施方案中，不可切割的接头包含聚Gly/Ala聚合物。

在某些实施方案中，接头是可切割接头，例如细胞外可切割接头或细胞内可切割接头。在一些情况下，接头被设计用于在存在特定条件下或特定环境中(例如，在生理条件下)切割。例如，将接头设计为通过特定条件(例如，通过特定的酶)切割允许将细胞摄取靶向到特定位置。

在一些实施方案中，接头是pH敏感性接头。在一个情况下，接头在碱性pH条件下切割。在其他情况下，接头在酸性pH条件下切割。

在一些实施方案中，接头在体内被内源酶(例如，蛋白酶)切割，内源酶诸如丝氨酸蛋白酶，包括但不限于凝血酶、金属蛋白酶、弗林蛋白酶、组织蛋白酶B、坏死酶(例如，钙蛋白酶)等。示例性的可切割接头包括但不限于GGAANLVRGG(SEQ ID NO:76)； SGRIGFLRTA(SEQ ID NO:77)；SGRSA(SEQ ID NO:78)；GFLG (SEQ ID NO:79)；ALAL(SEQ ID NO:80)；FK；PIC(Et)F-F(SEQ ID NO:81)，其中C(Et)表示S-乙基半胱氨酸；PR(S/T)(L/I)(S/T)(SEQ IDNO:82)；DEVD(SEQ ID NO:83)；GWEHDG(SEQ ID NO:84)； RPLALWRS(SEQ ID NO:85)；或其组合。

衣壳

在一些实施方案中，本文公开了一种衣壳。在一些情况下，衣壳包含Arc多肽和/或endo-Gag多肽，诸如Copia蛋白、ASPRV1蛋白、来自SCAN结构域家族的蛋白质、由副肿瘤Ma抗原家族编码的蛋白质、选自逆转录转座子Gag样家族的蛋白质或蛋白质组合，或其组合。示例性的endo-Gag多肽为BOP、LDOC1、MOAP1、PEG10、PNMA3、 PNMA5、PNMA6A、PNMA6B、RTL3、RTL6、RTL8A、RTL8B和 ZNF18。在一些情况下，Arc多肽、Copia蛋白、ASPRV1蛋白、来自 SCAN结构域家族的蛋白质、由副肿瘤Ma抗原家族编码的蛋白质、以及选自逆转录转座子Gag样家族的蛋白质或蛋白质组合各自独立地为全长的多肽。在其他情况下，Arc多肽、Copia蛋白、ASPRV1 蛋白、来自SCAN结构域家族的蛋白质、由副肿瘤Ma抗原家族编码的蛋白质、选自逆转录转座子Gag样家族的蛋白质或蛋白质组合各自独立地为其功能性片段，例如，其能够形成衣壳的亚基。

基于Arc的衣壳和基于endo-Gag的衣壳

在一些实施方案中，衣壳包括基于Arc的衣壳。在一些实施方案中，衣壳包括基于endo-Gag的衣壳。在一些情况下，基于Arc和/或基于endo-Gag的衣壳包含多个以上所述的重组Arc多肽和/或 endo-Gag多肽、多个以上所述的工程化的Arc多肽和/或endo-Gag多肽或其组合。在一些情况下，基于Arc的衣壳包含多个重组Arc多肽。在其他情况下，基于Arc的衣壳包含多个工程化的Arc多肽。在一些情况下，基于endo-Gag的衣壳包含多个重组endo-Gag多肽。在其他情况下，基于endo-Gag的衣壳包含多个工程化的endo-Gag多肽。

在一些实施方案中，基于Arc或基于endo-Gag的衣壳包含来自第一物种的第一多个Arc和/或endo-Gag多肽以及来自至少第二物种的第二多个Arc和/或endo-Gag多肽。在一些情况下，第一物种选自真核生物、脊椎动物、人、哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。在一些情况下，第二物种选自与第一物种不同的真核生物、脊椎动物、人、哺乳动物、啮齿动物、鸟类、爬行动物、鱼类、昆虫、真菌或植物。

在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc 或endo-Gag多肽的比例为1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、 9:1、10:1、20:1、50:1或100:1。在一些情况下，第一多个Arc或endo-Gag 多肽与第二多个Arc或endo-Gag多肽的比例为1:1。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为2:1。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个 Arc或endo-Gag多肽的比例为4:1。在一些情况下，第一多个Arc或 endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为5:1。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag 多肽的比例为8:1。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc多肽的比例为10:1。在一些情况下，第一多个Arc或 endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为20:1。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag 多肽的比例为50:1。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为100:1。在一些情况下，该比例为摩尔浓度的比较。在一些情况下，该比例为衣壳形成亚基的数目的比较(例如，工程化的Arc多肽中的每个形成衣壳亚基)。

在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc 或endo-Gag多肽的比例为1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、 1:10、1:20或1:50。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为1:2。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为1:5。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或 endo-Gag多肽的比例为1:8。在一些情况下，第一多个Arc或endo-Gag 多肽与第二多个Arc或endo-Gag多肽的比例为1:10。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为1:20。在一些情况下，第一多个Arc或endo-Gag多肽与第二多个Arc或endo-Gag多肽的比例为1:50。在一些情况下，该比例为摩尔浓度的比较。在一些情况下，该比例为衣壳形成亚基的数目的比较 (例如，重组或工程化的Arc或endo-Gag多肽中的每个形成衣壳亚基)。

在一些实施方案中，基于Arc的衣壳或基于endo-Gag的衣壳包含多个重组或工程化的Arc多肽和多个非Arc蛋白。非Arc蛋白的示例性种类包括但不限于Copia、ASPRV1、选自SCAN结构域家族的蛋白质或蛋白质组合、选自副肿瘤Ma抗原家族的蛋白质或蛋白质组合以及选自逆转录转座子Gag样家族的蛋白质或蛋白质组合。非Arc 蛋白的示例性种类包括BOP、LDOC1、MOAP1、PEG10、PNMA3、 PNMA5、PNMA6A、PNMA6B、RTL3、RTL6、RTL8A、RTL8B和ZNF18。

在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、 50:1或100:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:1。在一些情况下，多个重组或工程化的Arc 多肽与多个非Arc蛋白的比例为2:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为4:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为5:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为8:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为10:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为20:1。在一些情况下，多个重组或工程化的Arc 多肽与多个非Arc蛋白的比例为50:1。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为100:1。在一些情况下，该比例为摩尔浓度的比较。在一些情况下，该比例为衣壳形成亚基的数目的比较(例如，重组或工程化的Arc多肽中的每个形成衣壳亚基)。

在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、1:10、1:20或1:50。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:2。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc 蛋白的比例为1:5。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:8。在一些情况下，多个重组或工程化的 Arc多肽与多个非Arc蛋白的比例为1:10。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:20。在一些情况下，多个重组或工程化的Arc多肽与多个非Arc蛋白的比例为1:50。在一些情况下，该比例为摩尔浓度的比较。在一些情况下，该比例为衣壳形成亚基的数目的比较(例如，重组或工程化的Arc多肽中的每个形成衣壳亚基)。

在一些实施方案中，衣壳具有至少1nm或更大的直径。在一些情况下，衣壳具有至少2nm、3nm、4nm、5nm、10nm、15nm、20nm、 25nm、30nm、40nm、50nm、60nm、70nm、80nm、90nm、100nm、 150nm、200nm、300nm、400nm、500nm、600nm或更大的直径。在一些情况下，衣壳具有至少5nm或更大的直径。在一些情况下，衣壳具有至少10nm或更大的直径。在一些情况下，衣壳具有至少20nm 或更大的直径。在一些情况下，衣壳具有至少30nm或更大的直径。在一些情况下，衣壳具有至少40nm或更大的直径。在一些情况下，衣壳具有至少50nm或更大的直径。在一些情况下，衣壳具有至少 80nm或更大的直径。在一些情况下，衣壳具有至少100nm或更大的直径。在一些情况下，衣壳具有至少200nm或更大的直径。在一些情况下，衣壳具有至少300nm或更大的直径。在一些情况下，衣壳具有至少400nm或更大的直径。在一些情况下，衣壳具有至少500nm或更大的直径。在一些情况下，衣壳具有至少600nm或更大的直径。

在一些实施方案中，衣壳具有至多1nm或更小的直径。在一些情况下，衣壳具有至多2nm、3nm、4nm、5nm、10nm、15nm、20nm、 25nm、30nm、40nm、50nm、60nm、70nm、80nm、90nm、100nm、 150nm、200nm、300nm、400nm、500nm、600nm或更小的直径。在一些情况下，衣壳具有至多5nm或更小的直径。在一些情况下，衣壳具有至多10nm或更小的直径。在一些情况下，衣壳具有至多20nm 或更小的直径。在一些情况下，衣壳具有至多30nm或更小的直径。在一些情况下，衣壳具有至少40nm或更小的直径。在一些情况下，衣壳具有至少50nm或更小的直径。在一些情况下，衣壳具有至少 80nm或更小的直径。在一些情况下，衣壳具有至少100nm或更小的直径。在一些情况下，衣壳具有至少200nm或更小的直径。在一些情况下，衣壳具有至少300nm或更小的直径。在一些情况下，衣壳具有至少400nm或更小的直径。在一些情况下，衣壳具有至少500nm或更小的直径。在一些情况下，衣壳具有至少600nm或更小的直径。

在一些实施方案中，衣壳具有约1nm、2nm、3nm、4nm、5nm、 10nm、15nm、20nm、25nm、30nm、40nm、50nm、60nm、70nm、 80nm、90nm、100nm、150nm、200nm、300nm、400nm、500nm或600nm的直径。在一些情况下，衣壳具有约5nm的直径。在一些情况下，衣壳具有约10nm的直径。在一些情况下，衣壳具有约20nm的直径。在一些情况下，衣壳具有约30nm的直径。在一些情况下，衣壳具有约40nm的直径。在一些情况下，衣壳具有约50nm的直径。在一些情况下，衣壳具有约80nm的直径。在一些情况下，衣壳具有约100nm的直径。在一些情况下，衣壳具有约200nm的直径。在一些情况下，衣壳具有约300nm的直径。在一些情况下，衣壳具有约 400nm的直径。在一些情况下，衣壳具有约500nm的直径。在一些情况下，衣壳具有约600nm的直径。

在一些实施方案中，衣壳具有约1nm至约600nm的直径。在一些情况下，衣壳具有约2nm至约500nm、约2nm至约400nm、约2nm 至约300nm、约2nm至约200nm、约2nm至约100nm、约2nm至约 50nm、约2nm至约30nm、约20nm至约400nm、约20nm至约300nm、约20nm至约200nm、约20nm至约100nm、约20nm至约50nm、约 20nm至约30nm、约30nm至约500nm、约30nm至约400nm、约30nm 至约300nm、约30nm至约200nm、约30nm至约100nm、约30nm 至约50nm、约50nm至约300nm、约50nm至约200nm、约50nm至约100nm、约2nm至约25nm、约2nm至约20nm、约2nm至约10nm、约5nm至约25nm、约5nm至约20nm、约5nm至约10nm、约10nm 至约25nm或约10nm至约20nm的直径。

在一些实施方案中，衣壳具有降低的脱靶效应。在一些情况下，脱靶效应低于10％、5％、4％、3％、2％、1％或0.5％。在一些情况下，脱靶效应不超过10％、5％、4％、3％、2％、1％或0.5％。

在一些情况下，衣壳不具有脱靶效应。

在某些实施方案中，基于Arc和/或endo-Gag的衣壳的形成离体或在体外发生。

在一些情况下，基于Arc和/或endo-Gag的衣壳在体内组装。

在一些情况下，基于Arc和/或endo-Gag的衣壳在室温下是稳定的。在一些情况下，基于Arc和/或endo-Gag的衣壳是空的。在其他情况下，基于Arc和/或endo-Gag的衣壳是装载的(例如，装载有负载物和/或治疗剂，例如DNA或RNA)。

在一些情况下，基于Arc和/或endo-Gag的衣壳在约2℃至约37℃的温度下是稳定的。在一些情况下，基于Arc和/或endo-Gag的衣壳在约2℃至约8℃、约2℃至约4℃、约20℃至约37℃、约25℃至约37℃、约20℃至约30℃、约25℃至约30℃或约30℃至约37℃的温度下是稳定的。在一些情况下，基于Arc和/或endo-Gag的衣壳是空的。在其他情况下，基于Arc和/或endo-Gag的衣壳是装载的(例如，装载有负载物和/或治疗剂，例如DNA或RNA)。

在一些情况下，基于Arc和/或endo-Gag的衣壳至少稳定约1天、 2天、4天、5天、7天、14天、28天、30天、60天、2个月、3个月、4个月、5个月、6个月、12个月、18个月、24个月、3年、5 年或更长时间。在一些情况下，基于Arc和/或endo-Gag的衣壳具有最低程度的降解，例如，基于总数小于约10％、5％、4％、3％、2％、 1％、0.5％的Arc和/或endo-Gag的衣壳被降解。在一些情况下，基于 Arc和/或endo-Gag的衣壳是空的。在其他情况下，基于Arc和/或endo-Gag的衣壳是装载的(例如，装载有治疗剂，例如DNA或RNA)。

另外的衣壳

在一些实施方案中，衣壳包含Copia蛋白。在一些情况下，Copia 蛋白来自黑腹果蝇(UniProtKB–P04146)、地中海实蝇(Ceratitis capitate)(UniProtKB–W8BHY5)或拟果蝇(Drosophila simulans) (UniProtKB–Q08461)。

在一些实施方案中，衣壳包含ASPRV1蛋白。ASPRV1蛋白是参与皮肤屏障的形成和维持的结构蛋白。在一些情况下，ASPRV1蛋白来自智人(UniProtKB–Q53RT3)。

在一些实施方案中，衣壳包含来自SCAN结构域家族的蛋白质。 SCAN结构域是锌指转录因子的超家族。SCAN结构域也称为亮氨酸富集区(LeR)并起到蛋白质相互作用结构域的功能，其介导自缔合或与其他蛋白质选择性缔合。

在一些实施方案中，衣壳包含来自副肿瘤Ma抗原家族的蛋白质。副肿瘤Ma抗原家族包含神经特异性蛋白和睾丸特异性蛋白中的约14 个成员。

在一些实施方案中，衣壳包含由逆转录转座子Gag样基因编码的蛋白质。

在一些实施方案中，衣壳包含BOP、LDOC1、MOAP1、PEG10、 PNMA3、PNMA5、PNMA6A、PNMA6B、RTL3、RTL6、RTL8A、RTL8B和/或ZNF18。

负载物

在一些实施方案中，本公开内容的组合物(例如，衣壳)包含负载物。在一些实施方案中，负载物是治疗剂。在一些实施方案中，负载物是核酸分子、小分子、蛋白质、肽、抗体或其结合片段、拟肽或拟核苷酸。在一些情况下，负载物是治疗性负载物，包括例如一种或多种药物。在一些情况下，负载物包括用于对例如一个或多个标志物 (诸如与一种或多种疾病表现型相关的标志物)进行剖析的诊断工具。在另外的情况下，负载物包括成像工具。

在一些情况下，负载物是核酸分子。示例性的核酸分子包括DNA、 RNA或DNA和RNA的混合。在一些情况下，核酸分子是DNA聚合物。在一些情况下，DNA是单链DNA聚合物。在其他情况下，DNA 是双链DNA聚合物。在另外的情况下，DNA是单链和双链DNA聚合物的混合物。

在一些实施方案中，核酸分子是RNA聚合物，例如单链RNA聚合物、双链RNA聚合物或单链和双链RNA聚合物的混合物。在一些情况下，RNA包括和/或编码反义寡核糖核苷酸、siRNA、mRNA、 tRNA、rRNA、snRNA、shRNA、微小RNA或非编码RNA。

在一些实施方案中，核酸分子包括DNA和RNA的混合物。

在一些实施方案中，核酸分子是反义寡核苷酸，任选地包括DNA、 RNA或DNA和RNA的混合物。

在一些情况下，核酸分子包括和/或编码mRNA分子。

在一些实施方案中，核酸分子包括和/或编码RNAi分子。在一些情况下，RNAi分子是微小RNA(miRNA)分子。在其他情况下，RNAi 分子是siRNA分子。miRNA和/或siRNA任选地为双链或发夹状，并且进一步任选地被封装为前体分子。

在一些实施方案中，核酸分子用于基于核酸的疗法。在一些情况下，核酸分子用于调节基因表达(例如，调节mRNA翻译或降解)、调节RNA剪接或RNA干扰。在一些情况下，核酸分子包括和/或编码反义寡核苷酸、微小RNA分子、siRNA分子、mRNA分子，以用于调节基因表达、调节RNA剪接或RNA干扰。

在一些情况下，核酸分子用于基因编辑。示例性的基因编辑系统包括但不限于CRISPR-Cas系统、锌指核酸酶(ZFN)系统和转录激活因子样效应物核酸酶(TALEN)系统。在一些情况下，核酸分子包括和/或编码涉及CRISPR-Cas系统、ZFN系统或TALEN系统的成分。

在一些情况下，核酸分子用于抗原生产以用于治疗性和/或预防性疫苗生产。例如，核酸分子编码被表达并引发所需免疫应答(例如，促炎性免疫应答、抗炎性免疫应答、B细胞应答、抗体应答、T细胞应答、CD4+T细胞应答、CD8+T细胞应答、Th1免疫应答、Th2免疫应答、Th17免疫应答、Treg免疫应答或其组合)的抗原。

在一些情况下，核酸分子包括核酸酶。核酸酶是具有催化活性的 RNA分子(例如，核酶)或DNA分子(例如，脱氧核酶)。在一些情况下，核酸分子是核酶。在其他情况下，核酸分子是脱氧核酶。在一些情况下，核酸分子是MNAzyme(多组分核酸酶)，其用作生物传感器和/或分子开关(参见例如，Mokany等人,“MNAzymes,a versatile new class of nucleicacid enzymes that can function as biosensors and molecular switches,”JACS 132(2):1051-1059(2010))。

在一些情况下，核酸分子的示例性靶标包括但不限于UL123(人巨细胞病毒)、APOB、AR(雄激素受体)基因、KRAS、PCSK9、CFTR 和SMN(例如，SMN2)。

在一些实施方案中，核酸分子的长度为至少5个核苷酸或更长。在一些情况下，核酸分子的长度为至少6、7、8、9、10、11、12、13、 14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、 29、30、35、40、50、60、70、80、90、100、150、200、250、300、 400、500、1000、1500、2000、3000、4000、5000、6000、7000、8000、 9000个核苷酸或更长。在一些情况下，核酸分子的长度为至少10个核苷酸或更长。在一些情况下，核酸分子的长度为至少12个核苷酸或更长。在一些情况下，核酸分子的长度为至少15个核苷酸或更长。在一些情况下，核酸分子的长度为至少18个核苷酸或更长。在一些情况下，核酸分子的长度为至少19个核苷酸或更长。在一些情况下，核酸分子的长度为至少20个核苷酸或更长。在一些情况下，核酸分子的长度为至少21个核苷酸或更长。在一些情况下，核酸分子的长度为至少22个核苷酸或更长。在一些情况下，核酸分子的长度为至少23个核苷酸或更长。在一些情况下，核酸分子的长度为至少24个核苷酸或更长。在一些情况下，核酸分子的长度为至少25个核苷酸或更长。在一些情况下，核酸分子的长度为至少26个核苷酸或更长。在一些情况下，核酸分子的长度为至少27个核苷酸或更长。在一些情况下，核酸分子的长度为至少28个核苷酸或更长。在一些情况下，核酸分子的长度为至少29个核苷酸或更长。在一些情况下，核酸分子的长度为至少30个核苷酸或更长。在一些情况下，核酸分子的长度为至少40个核苷酸或更长。在一些情况下，核酸分子的长度为至少50个核苷酸或更长。在一些情况下，核酸分子的长度为至少100 个核苷酸或更长。在一些情况下，核酸分子的长度为至少200个核苷酸或更长。在一些情况下，核酸分子的长度为至少300个核苷酸或更长。在一些情况下，核酸分子的长度为至少500个核苷酸或更长。在一些情况下，核酸分子的长度为至少1000个核苷酸或更长。在一些情况下，核酸分子的长度为至少2000个核苷酸或更长。在一些情况下，核酸分子的长度为至少3000个核苷酸或更长。在一些情况下，核酸分子的长度为至少4000个核苷酸或更长。在一些情况下，核酸分子的长度为至少5000个核苷酸或更长。在一些情况下，核酸分子的长度为至少8000个核苷酸或更长。

在一些实施方案中，核酸分子的长度为至多12个核苷酸或更短。在一些情况下，核酸分子的长度为至多13、14、15、16、17、18、19、 20、21、22、23、24、25、26、27、28、29、30、35、40、50、60、 70、80、90、100、150、200、250、300、400、500、1000、1500、 2000、3000、4000、5000、6000、7000、8000、9000个核苷酸或更短。在一些情况下，核酸分子的长度为至多15个核苷酸或更短。在一些情况下，核酸分子的长度为至多18个核苷酸或更短。在一些情况下，核酸分子的长度为至多19个核苷酸或更短。在一些情况下，核酸分子的长度为至多20个核苷酸或更短。在一些情况下，核酸分子的长度为至多21个核苷酸或更短。在一些情况下，核酸分子的长度为至多22个核苷酸或更短。在一些情况下，核酸分子的长度为至多23个核苷酸或更短。在一些情况下，核酸分子的长度为至多24个核苷酸或更短。在一些情况下，核酸分子的长度为至多25个核苷酸或更短。在一些情况下，核酸分子的长度为至多26个核苷酸或更短。在一些情况下，核酸分子的长度为至多27个核苷酸或更短。在一些情况下，核酸分子的长度为至多28个核苷酸或更短。在一些情况下，核酸分子的长度为至多29个核苷酸或更短。在一些情况下，核酸分子的长度为至多30个核苷酸或更短。在一些情况下，核酸分子的长度为至多40个核苷酸或更短。在一些情况下，核酸分子的长度为至多50个核苷酸或更短。在一些情况下，核酸分子的长度为至多100个核苷酸或更短。在一些情况下，核酸分子的长度为至多200个核苷酸或更短。在一些情况下，核酸分子的长度为至多300个核苷酸或更短。在一些情况下，核酸分子的长度为至多500个核苷酸或更短。在一些情况下，核酸分子的长度为至多1000个核苷酸或更短。在一些情况下，核酸分子的长度为至多2000个核苷酸或更短。在一些情况下，核酸分子的长度为至多3000个核苷酸或更短。在一些情况下，核酸分子的长度为至多4000个核苷酸或更短。在一些情况下，核酸分子的长度为至多5000个核苷酸或更短。在一些情况下，核酸分子的长度为至多 8000个核苷酸或更短。

在一些实施方案中，核酸分子的长度为约5个核苷酸。在一些情况下，核酸分子的长度为约6、7、8、9、10、11、12、13、14、15、 16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、 35、40、50、60、70、80、90、100、150、200、250、300、400、500、 1000、1500、2000、3000、4000、5000、6000、7000、8000、9000 个核苷酸。在一些情况下，核酸分子的长度为约10个核苷酸。在一些情况下，核酸分子的长度为约12个核苷酸。在一些情况下，核酸分子的长度为约15个核苷酸。在一些情况下，核酸分子的长度为约 18个核苷酸。在一些情况下，核酸分子的长度为约19个核苷酸。在一些情况下，核酸分子的长度为约20个核苷酸。在一些情况下，核酸分子的长度为约21个核苷酸。在一些情况下，核酸分子的长度为约22个核苷酸。在一些情况下，核酸分子的长度为约23个核苷酸。在一些情况下，核酸分子的长度为约24个核苷酸。在一些情况下，核酸分子的长度为约25个核苷酸。在一些情况下，核酸分子的长度为约26个核苷酸。在一些情况下，核酸分子的长度为约27个核苷酸。在一些情况下，核酸分子的长度为约28个核苷酸。在一些情况下，核酸分子的长度为约29个核苷酸。在一些情况下，核酸分子的长度为约30个核苷酸。在一些情况下，核酸分子的长度为约40个核苷酸。在一些情况下，核酸分子的长度为约50个核苷酸。在一些情况下，核酸分子的长度为约100个核苷酸。在一些情况下，核酸分子的长度为约200个核苷酸。在一些情况下，核酸分子的长度为约300个核苷酸。在一些情况下，核酸分子的长度为约500个核苷酸。在一些情况下，核酸分子的长度为约1000个核苷酸。在一些情况下，核酸分子的长度为约2000个核苷酸。在一些情况下，核酸分子的长度为约3000 个核苷酸。在一些情况下，核酸分子的长度为约4000个核苷酸。在一些情况下，核酸分子的长度为约5000个核苷酸。在一些情况下，核酸分子的长度为约8000个核苷酸。

在一些实施方案中，核酸分子的长度为约5至约10,000个核苷酸。在一些情况下，核酸分子的长度为约5至约9000个核苷酸、约5至约8000个核苷酸、约5至约7000个核苷酸、约5至约6000个核苷酸、约5至约5000个核苷酸、约5至约4000个核苷酸、约5至约3000 个核苷酸、约5至约2000个核苷酸、约5至约1000个核苷酸、约5 至约500个核苷酸、约5至约100个核苷酸、约5至约50个核苷酸、约5至约40个核苷酸、约5至约30个核苷酸、约5至约25个核苷酸、约5至约20个核苷酸、约10至约8000个核苷酸、约10至约7000 个核苷酸、约10至约6000个核苷酸、约10至约5000个核苷酸、约 10至约4000个核苷酸、约10至约3000个核苷酸、约10至约2000 个核苷酸、约10至约1000个核苷酸、约10至约500个核苷酸、约 10至约100个核苷酸、约10至约50个核苷酸、约10至约40个核苷酸、约10至约30个核苷酸、约10至约25个核苷酸、约10至约20 个核苷酸、约18至约8000个核苷酸、约18至约7000个核苷酸、约 18至约6000个核苷酸、约18至约5000个核苷酸、约18至约4000 个核苷酸、约18至约3000个核苷酸、约18至约2000个核苷酸、约 18至约1000个核苷酸、约18至约500个核苷酸、约18至约100个核苷酸、约18至约50个核苷酸、约18至约40个核苷酸、约18至约30个核苷酸、约18至约25个核苷酸、约12至约50个核苷酸、约20至约40个核苷酸、约20至约30个核苷酸或约25至约30个核苷酸。

在一些实施方案中，核酸分子包含天然、合成或人工核苷酸类似物或碱基。在一些情况下，核酸分子包括DNA、RNA和/或核苷酸类似物的组合。在一些情况下，合成或人工核苷酸类似物或碱基在核糖部分、磷酸部分、核苷部分或其组合的一个或多个处包含修饰。

在一些实施方案中，上述核苷酸类似物或人工核苷酸碱基包括在核糖部分的2’羟基处具有修饰的核酸。在一些情况下，修饰包括H、 OR、R、卤代、SH、SR、NH2、NHR、NR2或CN，其中R是烷基部分。示例性的烷基部分包括但不限于卤素、硫、硫醇、硫醚、硫酯、胺(伯胺、仲胺或叔胺)、酰胺、醚、酯、醇和氧。在一些情况下，烷基部分还包含修饰。在一些情况下，修饰包括偶氮基、酮基、醛基、羧基、硝基、亚硝基、腈基、杂环基(例如，咪唑、肼基或羟氨基)、异氰酸酯基或氰酸酯基或含硫基团(例如，亚砜、砜、硫化物或二硫化物)。在一些情况下，烷基部分还包含杂取代。在一些情况下，杂环基团的碳被氮、氧或硫取代。在一些情况下，杂环取代包括但不限于吗啉基、咪唑和吡咯烷基。

在一些情况下，在2’羟基处的修饰为2’-O-甲基修饰或2’-O-甲氧基乙基(2’-O-MOE)修饰。在一些情况下，2'-O-甲基修饰将甲基添加到核糖部分的2'羟基上，而2'-O-甲氧基乙基修饰将甲氧基乙基添加到核糖部分的2'羟基上。

在一些情况下，在2'羟基处的修饰为2'-O-氨基丙基修饰，其中包含丙基接头的延伸胺基将胺基与2'氧结合。在一些情况下，该修饰通过对于每个糖从胺基引入一个正电荷来中和寡核苷酸分子的源自磷酸盐的总负电荷，并且由于其两性离子特性而改善了细胞摄取特性。

在一些情况下，在2’羟基处的修饰为锁定核糖或桥接核糖修饰 (例如，锁定核酸或LNA)，其中结合在2'碳处的氧分子通过亚甲基与4'碳相连，从而形成2′-C,4′-C-氧-亚甲基连接的双环核糖核苷酸单体。

在一些实施方案中，在2’羟基处的附加修饰包括2'-脱氧、T-脱氧 -2'-氟、2'-O-氨基丙基(2'-O-AP)、2'-O-二甲基氨基乙基 (2'-O-DMAOE)、2'-O-二甲基氨基丙基(2'-O-DMAP)、T-O-二甲基氨基乙氧基乙基(2'-O-DMAEOE)或2'-O-N-甲基乙酰胺基 (2'-O-NMA)。

在一些实施方案中，核苷酸类似物包含修饰的碱基，诸如但不限于5-丙炔基尿苷、5-丙炔基胞苷、6-甲基腺嘌呤、6-甲基鸟嘌呤、N,N, -二甲基腺嘌呤、2-丙基腺嘌呤、2丙基鸟嘌呤、2-氨基腺嘌呤、1-甲基肌苷、3-甲基尿苷、5-甲基胞苷、5-甲基尿苷以及在5位置处具有修饰的其他核苷酸、5-(2-氨基)丙基尿苷、5-卤代胞苷、5-卤代尿苷、4-乙酰基胞苷、1-甲基腺苷、2-甲基腺苷、3-甲基胞苷、6-甲基尿苷、2-甲基鸟苷、7-甲基鸟苷、2,2-二甲基鸟苷、5-甲基氨基乙基尿苷、 5-甲氧基尿苷、脱氮核苷酸(诸如7-脱氮-腺苷、6-偶氮尿苷、6-偶氮胞苷或6-偶氮胸苷)、5-甲基-2-硫代尿苷、其他硫代碱基(诸如2- 硫代尿苷、4-硫代尿苷和2-硫代胞苷)、二氢尿苷、假尿苷、辫苷、古嘌苷、萘基和取代的萘基、任何O-烷基化和N-烷基化的嘌呤和嘧啶(诸如N6-甲基腺苷、5-甲基羰基甲基尿苷、尿苷5-羟乙酸、吡啶-4-酮或吡啶-2-酮)、苯基和修饰的苯基(诸如氨基苯酚或2,4,6-三甲氧基苯)、修饰的胞嘧啶(作为G-clamp核苷酸)、8-取代的腺嘌呤和鸟嘌呤、5-取代的尿嘧啶和胸腺嘧啶、氮杂嘧啶、羧基羟基烷基核苷酸、羧基烷基氨基烷基核苷酸和烷基羰基烷基化核苷酸。修饰的核苷酸还包括相对于糖部分被修饰的核苷酸，以及具有不是核糖基的糖或其类似物的核苷酸。例如，在某些情况下，糖部分是或基于甘露糖、阿拉伯糖、吡喃葡萄糖、吡喃半乳糖、4'-硫代核糖和其他糖、杂环或碳环。术语核苷酸还包括通用碱基。举例来说，通用碱基包括但不限于3-硝基吡咯、5-硝基吲哚或水粉蕈素(nebularine)。

在一些实施方案中，核苷酸类似物还包括吗啉代、肽核酸(PNA)、甲基膦酸酯核苷酸、硫代膦酸酯核苷酸、2'-氟N3-P5'-亚磷酰胺或1'， 5'-脱水己糖醇核酸(HNA)。吗啉代或磷酰二胺吗啉代寡核苷酸 (PMO)包含合成的分子，其结构模仿天然核酸结构，但与正常的糖和磷酸盐结构不同。在一些情况下，该五元核糖环被含有四个碳、一个氮和一个氧的六元吗啉代环取代。在一些情况下，核糖单体通过磷酰二胺基而不是磷酸酯基连接。在这样的情况下，主链的改变消除了所有正电荷和负电荷，从而使吗啉代中性分子能够在不借助细胞递送剂(诸如带电寡核苷酸使用的那些细胞递送剂)的情况下穿过细胞膜。

在一些实施方案中，肽核酸(PNA)不包含糖环或磷酸酯键，并且碱基通过寡甘氨酸样分子连接并适当间隔开，因此消除了主链电荷。

在一些实施方案中，一个或多个修饰任选地发生在核苷酸间的键处。在一些情况下，修饰的核苷酸间键包括但不限于硫代磷酸酯；二硫代磷酸酯；磷酸甲酯；5'-亚烷基磷酸酯；5'-甲基磷酸酯；3'-亚烷基磷酸酯；三氟硼酸酯(borontrifluoridate)；3'-5'键或2'-5'键的硼烷磷酸酯(borano phosphate ester)和硒代磷酸酯；磷酸三酯；硫羰基烷基磷酸三酯(thionoalkylphosphotriester)；氢磷酸酯键；烷基磷酸酯；烷基硫代磷酸酯(alkylphosphonothioate)；芳基硫代磷酸酯 (arylphosphonothioate)；硒代磷酸酯；二硒代磷酸酯；次膦酸酯；磷酰胺酯；3′-烷基磷酰胺酯；氨基烷基磷酰胺酯；硫羰基磷酰胺酯；哌嗪磷酸酯(phosphoropiperazidate)；phosphoroanilothioate；

phosphoroanilidate；酮；砜；磺胺；碳酸酯；氨基甲酸酯；亚甲基腙(methylenehydrazo)；亚甲基二甲基腙(methylenedimethylhydrazo)；甲缩醛(formacetal)；硫代甲缩醛(thioformacetal)；肟；亚甲基亚氨基(methyleneimino)；亚甲基甲基亚氨基(methylenemethylimino)；硫代酰胺化物(thioamidate)；与核糖乙酰基(riboacetyl)形成的键；氨基乙基甘氨酸；甲硅烷基或硅氧烷键；具有或不具有饱和或不饱和的和/或取代的和/或含有杂原子的例如1至10个碳的杂原子的烷基或环烷基键；与吗啉代结构、酰胺或聚酰胺的键(其中碱基直接或间接连接到主链氮杂氮上)；以及其组合。

在一些实施方案中，一个或多个修饰包括修饰的磷酸酯主链，其中该修饰产生中性或不带电荷的主链。在一些情况下，磷酸酯主链通过烷基化作用修饰以生成不带电荷或中性的磷酸酯主链。如本文所用，烷基化包括甲基化、乙基化和丙基化。在一些情况下，如本文在烷基化的上下文中所用，烷基是指含有1至6个碳原子的直链或支链饱和烃。在一些情况下，示例性的烷基包括但不限于甲基、乙基、正丙基、异丙基、正丁基、异丁基、仲丁基、叔丁基、正戊基、异戊基、新戊基、己基、异己基、1,1-二甲基丁基、2,2-二甲基丁基、3,3-二甲基丁基和2-乙基丁基。在一些情况下，修饰的磷酸酯是美国专利号 9481905中所述的磷酸酯基团。

在一些实施方案中，附加的修饰的磷酸酯主链包括甲基磷酸酯、乙基磷酸酯、甲基硫代磷酸酯或甲氧基磷酸酯。在一些情况下，修饰的磷酸酯是甲基磷酸酯。在一些情况下，修饰的磷酸酯是乙基磷酸酯。在一些情况下，修饰的磷酸酯是甲基硫代磷酸酯。在一些情况下，修饰的磷酸酯是甲氧基磷酸酯。

在一些实施方案中，一个或多个修饰任选地还包括核糖部分、磷酸酯主链和核苷的修饰或者核苷酸类似物在3’或5’末端的修饰。例如，3’末端任选地包含3’阳离子基团，或者通过3'-3'键合使核苷在3' 末端反置。在另一备选方案中，3’末端任选地与氨基烷基基团(例如， 3’C5-氨基烷基dT)缀合。在另外的备选方案中，3'末端任选地与无碱基位点(例如，无嘌呤或无嘧啶位点)缀合。在一些情况下，5’末端与氨基烷基基团(例如，5’-O-烷基氨基取代基)缀合。在一些情况下，5'末端与无碱基位点(例如，无嘌呤或无嘧啶位点)缀合。

在一些实施方案中，示例性的核酸负载物包括但不限于福米韦生、米泊美生、AZD5312(AstraZeneca)、诺西那生和SB010(Sterna Biologicals)。

小分子

在一些实施方案中，负载物是小分子。在一些情况下，小分子是抑制剂(例如，pan抑制剂或选择性抑制剂)。在其他情况下，小分子是活化剂。在另外的情况下，小分子是激动剂、拮抗剂、部分激动剂、混合激动剂/拮抗剂或竞争性拮抗剂。

在一些实施方案中，小分子是属于以下分类的药物：镇痛药、抗焦虑药、抗心律失常药、抗菌药、抗生素、抗凝血药和溶栓药、抗惊厥药、抗抑郁药、止泻药、止吐药、抗真菌药、抗组胺药、抗高血压药、抗炎药、抗肿瘤药、抗精神病药、退烧药、抗病毒药、巴比妥类药物、β受体阻滞药、支气管扩张药、感冒药、皮质类固醇、止咳药、细胞毒素、减充血药、利尿药、祛痰药、激素、降糖药、免疫抑制药、泻药、肌肉松弛药、性激素、安眠药或镇静剂。

在一些实施方案中，小分子是抑制剂，例如激酶途径(诸如酪氨酸激酶途径或丝氨酸/苏氨酸激酶途径)的抑制剂。在一些情况下，小分子是双蛋白激酶抑制剂。在一些情况下，小分子是脂质激酶抑制剂。

在一些情况下，小分子神经氨酸酶抑制剂。

在一些情况下，小分子是碳酸酐酶抑制剂。

在一些实施方案中，小分子的示例性靶标包括但不限于血管内皮生长因子受体1(VEGFR1)、血管内皮生长因子受体2(VEGFR2)、血管内皮生长因子受体3(VEGFR3)、成纤维细胞生长因子受体1 (FGFR1)、成纤维细胞生长因子受体2(FGFR2)、成纤维细胞生长因子受体3(FGFR3)、成纤维细胞生长因子受体4(FGFR4)、细胞周期蛋白依赖性激酶4(CDK4)、细胞周期蛋白依赖性激酶6 (CDK6)、受体酪氨酸激酶、磷酸肌醇3-激酶(PI3K)同种型(例如，PI3Kδ，也称为p110δ)、Janus激酶1(JAK1)、Janus激酶3 (JAK3)、来自血小板衍生生长因子受体(PDFG-R)家族的受体以及碳酸酐酶(例如，碳酸酐酶I)。

在一些实施方案中，小分子靶向病毒蛋白，例如病毒包膜蛋白。在一些实施方案中，小分子减少病毒对宿主细胞的吸附。在一些实施方案中，小分子减少病毒进入宿主细胞。在一些实施方案中，小分子减少宿主或宿主细胞中的病毒复制。在一些实施方案中，小分子减少病毒组装。

在一些实施方案中，示例性的小分子负载物包括但不限于乐伐替尼、帕博西尼、瑞戈非尼、艾代拉里斯、托法替尼、尼达尼布、扎那米韦、依索唑胺和青蒿素。

蛋白质

在一些实施方案中，负载物是蛋白质。在一些情况下，蛋白质是全长蛋白质。在其他情况下，蛋白质是片段，例如功能性片段。在一些情况下，蛋白质是天然存在的蛋白质。在另外的情况下，蛋白质是从头工程化的蛋白质。在进一步的情况下，蛋白质是融合蛋白。在进一步的情况下，蛋白质是重组蛋白。示例性的蛋白质包括但不限于Fc 融合蛋白、抗凝血剂、血液因子、骨形态发生蛋白、酶、生长因子、激素、干扰素、白介素和溶栓剂。

在一些情况下，蛋白质用于酶替代疗法。

在一些情况下，蛋白质用于抗原生产以用于治疗性和/或预防性疫苗生产。例如，蛋白质包含引发所需免疫应答(例如，促炎性免疫应答、抗炎性免疫应答、B细胞应答、抗体应答、T细胞应答、CD4+T 细胞应答、CD8+T细胞应答、Th1免疫应答、Th2免疫应答、Th17 免疫应答、Treg免疫应答或其组合)的抗原。

在一些情况下，示例性的蛋白质负载物包括但不限于罗米司亭、利拉鲁肽、人生长激素(rHGH)、人胰岛素(BHI)、促卵泡激素(FSH)、因子VIII、促红细胞生成素(EPO)、粒细胞集落刺激因子(G-CSF)、α-半乳糖苷酶A、α-L-艾杜糖醛酸酶、N-乙酰基半乳糖胺-4-硫酸酯酶、阿法链道酶、组织纤溶酶原激活物(TPA)、葡糖脑苷脂酶、干扰素 -β-1a、胰岛素样生长因子1(IGF-1)或拉布立酶。

肽

在一些实施方案中，负载物是肽。在一些情况下，肽是天然存在的肽。在其他情况下，肽是人工的工程化肽或重组肽。在一些情况下，肽靶向G蛋白偶联受体、离子通道、微生物、抗微生物靶标、受体的催化或其他Ig家族、细胞内靶标、膜锚定靶标或细胞外靶标。

在一些情况下，肽包含至少2个氨基酸。在一些情况下，肽包含至少3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、 60、70、80、90、100个氨基酸。在一些情况下，肽包含至少10个氨基酸。在一些情况下，肽包含至少15个氨基酸。在一些情况下，肽包含至少20个氨基酸。在一些情况下，肽包含至少30个氨基酸。在一些情况下，肽包含至少40个氨基酸。在一些情况下，肽包含至少 50个氨基酸。在一些情况下，肽包含至少60个氨基酸。在一些情况下，肽包含至少70个氨基酸。在一些情况下，肽包含至少80个氨基酸。在一些情况下，肽包含至少90个氨基酸。在一些情况下，肽包含至少100个氨基酸。

在一些情况下，肽包含至多3个氨基酸。在一些情况下，肽包含至多3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、 60、70、80、90、100个氨基酸。在一些情况下，肽包含至多10个氨基酸。在一些情况下，肽包含至多15个氨基酸。在一些情况下，肽包含至多20个氨基酸。在一些情况下，肽包含至多30个氨基酸。在一些情况下，肽包含至多40个氨基酸。在一些情况下，肽包含至多50个氨基酸。在一些情况下，肽包含至多60个氨基酸。在一些情况下，肽包含至多70个氨基酸。在一些情况下，肽包含至多80个氨基酸。在一些情况下，肽包含至多90个氨基酸。在一些情况下，肽包含至多100个氨基酸。

在一些情况下，肽具有约1至约10kDa。在一些情况下，肽具有约1至约9kDa、约1至约6kDa、约1至约5kDa、约1至约4kDa、约1至约3kDa、约2至约8kDa、约2至约6kDa、约2至约4kDa、约1.2至约2.8kDa、约1.5至约2.5kDa或约1.5至约2kDa。

在一些实施方案中，肽是环肽。在一些实施方案中，肽是大环肽。在其他实施方案中，环肽是约束肽。环肽以各种连接方式组装，例如头对尾、头对侧链、侧链对尾和侧链对侧链连接方式。在一些情况下，环肽(例如，大环肽或约束肽)具有约500道尔顿至约2000道尔顿的分子量。在其他情况下，环肽(例如，大环肽或约束肽)具有约10 个氨基酸至约100个氨基酸、约10个氨基酸至约70个氨基酸或约10 个氨基酸至约50个氨基酸的范围。

在一些情况下，肽用于抗原生产以用于治疗性和/或预防性疫苗生产。例如，肽包含引发所需免疫应答(例如，促炎性免疫应答、抗炎性免疫应答、B细胞应答、抗体应答、T细胞应答、CD4+T细胞应答、CD8+T细胞应答、Th1免疫应答、Th2免疫应答、Th17免疫应答、Treg免疫应答或其组合)的抗原。

在一些实施方案中，肽包含天然氨基酸、非天然氨基酸或其组合。在一些情况下，氨基酸残基是指含有氨基和羧基两者的分子。合适的氨基酸包括但不限于天然存在的氨基酸的D-异构体和L-异构体，以及通过有机合成或其他代谢途径制备的非天然存在的氨基酸。如本文所用，术语氨基酸包括但不限于α-氨基酸、天然氨基酸、非天然氨基酸和氨基酸类似物。

在一些情况下，α-氨基酸是指含有氨基和羧基两者的分子，该分子与被称为α-碳的碳键合。

在一些情况下，β-氨基酸是指含有氨基和羧基两者的呈β构型的分子。

在一些实施方案中，氨基酸类似物是外消旋混合物。在一些情况下，使用氨基酸类似物的D异构体。在一些情况下，使用氨基酸类似物的L异构体。在一些情况下，氨基酸类似物包含呈R或S构型的手性中心。

在一些实施方案中，示例性的肽负载物包括但不限于培尼沙肽 (Peginesatide)、胰岛素、促肾上腺皮质激素(ACTH)、降钙素、催产素、血管加压素、奥曲肽(octreolide)和亮丙瑞林。

在一些实施方案中，示例性的肽负载物包括但不限于替拉万星、达巴万星、奥利万星、阿尼芬净、兰瑞肽、帕瑞肽、罗米地辛、利那洛肽和培尼沙肽。

抗体

在一些实施方案中，负载物是抗体或其结合片段。在一些情况下，抗体或其结合片段包括人源化抗体或其结合片段、鼠科动物抗体或其结合片段、嵌合抗体或其结合片段、单克隆抗体或其结合片段、双特异性抗体或其结合片段、一价Fab’、二价Fab₂、F(ab)'₃片段、单链可变区片段(scFv)、双-scFv、(scFv)₂、双链抗体、微型抗体、纳米抗体、三链抗体、四链抗体、二硫键稳定化Fv蛋白(dsFv)、单结构域抗体(sdAb)、Ig NAR、骆驼科动物抗体或其结合片段，或其化学修饰的衍生物。

在一些情况下，抗体或其结合片段识别细胞表面蛋白。在一些情况下，细胞表面蛋白是癌细胞表达的抗原。在一些情况下，细胞表面蛋白是新表位(neoepitope)。在一些情况下，与野生型蛋白相比，细胞表面蛋白包含一个或多个突变。示例性的癌症抗原包括但不限于α甲胎蛋白、ASLG659、B7-H3、BAFF-R、短蛋白聚糖(Brevican)、 CA125(MUC16)、CA15-3、CA19-9、癌胚抗原(CEA)、CA242、 CRIPTO(CR、CR1、CRGF、CRIPTO、TDGF1、畸胎瘤衍生生长因子)、CTLA-4、CXCR5、E16(LAT1、SLC7A5)、FcRH2(IFGP4、IRTA4、SPAP1A(含SH2结构域的磷酸酶锚定蛋白1a)、SPAP1B、 SPAP1C)、表皮生长因子、ETBR、Fc受体样蛋白1(FCRH1)、 GEDA、HLA-DOB(MHC II类分子的β亚基(Ia抗原)、人绒毛膜促性腺激素、ICOS、IL-2受体、IL20Rα、易位相关免疫球蛋白超家族受体2(IRTA2)、L6、Lewis Y、Lewis X、MAGE-1、MAGE-2、 MAGE-3、MAGE4、MART1、间皮素、MDP、MPF(SMR、MSLN)、 MCP1(CCL2)、巨噬细胞抑制因子(MIF)、MPG、MSG783、粘蛋白、MUC1-KLH、Napi3b(SLC34A2)、粘连蛋白-4、Neu癌基因产物、NCA、胎盘碱性磷酸酶、前列腺特异膜抗原(PMSA)、前列腺酸性磷酸酶、PSCAhlg、抗转铁蛋白受体、p97、嘌呤能受体P2X 配体门控离子通道5(P2X5)、LY64(淋巴细胞抗原64(RP105)、 gp100、P21、前列腺六次跨膜上皮抗原(STEAP1)、STEAP2、Sema 5b、肿瘤相关性糖蛋白72(TAG-72)、TrpM4(BR22450、FLJ20041、 TRPM4、TRPM4B、瞬时受体电位阳离子通道、M亚家族、成员4) 等。

在一些情况下，细胞表面蛋白包含分化簇(CD)细胞表面标志物。示例性的CD细胞表面标志物包括但不限于CD1、CD2、CD3、CD4、 CD5、CD6、CD7、CD8、CD9、CD10、CD11a、CD11b、CD11c、 CD11d、CDw12、CD13、CD14、CD15、CD15s、CD16、CDw17、 CD18、CD19、CD20、CD21、CD22、CD23、CD24、CD25、CD26、 CD27、CD28、CD29、CD30、CD31、CD32、CD33、CD34、CD35、 CD36、CD37、CD38、CD39、CD40、CD41、CD42、CD43、CD44、 CD45、CD45RO、CD45RA、CD45RB、CD46、CD47、CD48、CD49a、 CD49b、CD49c、CD49d、CD49e、CD49f、CD50、CD51、CD52、 CD53、CD54、CD55、CD56、CD57、CD58、CD59、CDw60、CD61、 CD62E、CD62L(L-选择素)、CD62P、CD63、CD64、CD65、CD66a、CD66b、CD66c、CD66d、CD66e、CD71、CD79(例如，CD79a、CD79b)、 CD90、CD95(Fas)、CD103、CD104、CD125(IL5RA)、CD134 (OX40)、CD137(4-1BB)、CD152(CTLA-4)、CD221、CD274、CD279(PD-1)、CD319(SLAMF7)、CD326(EpCAM)等。

在一些实施方案中，示例性的抗体或其结合片段包括但不限于，扎鲁木单抗(zalutumumab)(HuMax-EFGr,Genmab)、阿巴伏单抗 (abagovomab)(Menarini)、阿比妥珠单抗(abituzumab)(Merck)、阿德木单抗(adecatumumab)(MT201)、培化阿珠单抗(alacizumabpegol)、阿仑单抗(alemtuzumab)(

MabCampath,或 Campath-1H；Leukosite)、AlloMune(BioTransplant)、阿麦妥单抗 (amatuximab)(Morphotek,Inc.)、抗-VEGF(Genetech)、麻安莫单抗(anatumomab mafenatox)、阿泊珠单抗(apolizumab)(hu1D10)、阿伐苏单抗(ascrinvacumab)(Pfizer Inc.)、阿特珠单抗(atezolizumab) (MPDL3280A；Genentech/Roche)、B43.13(OvaRex,AltaRex Corporation)、巴利昔单抗(basiliximab)(

Novartis)、贝利木单抗(belimumab)(

GlaxoSmithKline)、贝伐单抗(bevacizumab)(

Genentech)、博纳吐单抗(blinatumomab) (Blincyto,AMG103；Amgen)、BEC2(ImGlone Systems Inc.)、卡芦单抗(carlumab)(Janssen Biotech)、卡妥索单抗(catumaxomab) (Removab,Trion Pharma)、CEAcide(Immunomedics)、西妥昔单抗(Cetuximab)(

ImClone)、泊西他珠单抗(citatuzumab bogatox)(VB6-845)、西妥木单抗(cixutumumab)(IMC-A12,ImClone Systems Inc.)、可那木单抗(conatumumab)(AMG 655,Amgen)、达西珠单抗(dacetuzumab)(SGN-40,huS2C6；Seattle Genetics,Inc.)、达雷木单抗(daratumumab)(

Janssen Biotech)、地莫单抗(detumomab)、曲齐妥单抗(drozitumab)(Genentech)、德瓦鲁单抗(durvalumab)(MedImmune)、度司妥单抗(dusigitumab) (MedImmune)、依决洛单抗(edrecolomab)(MAb17-1A,Panorex, GlaxoWellcome)、埃罗妥珠单抗(elotuzumab)(Empliciti^TM, Bristol-Myers Squibb)、依玛妥珠单抗(emibetuzumab)(Eli Lilly)、依那妥组单抗(enavatuzumab)(Facet BiotechCorp.)、维汀-恩弗妥单抗(enfortumab vedotin)(Seattle Genetics,Inc.)、恩比利珠单抗(enoblituzumab)(MGA271,MacroGenics,Inc.)、恩昔妥昔单抗 (ensituxumab)(Neogenix Oncology,Inc.)、依帕珠单抗(epratuzumab) (LymphoCide,Immunomedics,Inc.)、厄妥索单抗(ertumaxomab) (

Trion Pharma)、伊瑞西珠单抗(etaracizumab)(Abegrin, MedImmune)、法妥组单抗(farletuzumab)(MORAb-003,Morphotek, Inc)、FBTA05(Lymphomun,Trion Pharma)、非拉妥组单抗 (ficlatuzumab)(AVEO Pharmaceuticals)、芬妥木单抗(figitumumab) (CP-751871,Pfizer)、法兰妥单抗(flanvotumab)(ImClone Systems)、非苏木单抗(fresolimumab)(GC1008,Aanofi-Aventis)、伏妥昔单抗(futuximab)、glaximab、加尼妥单抗(ganitumab)(Amgen)、吉妥昔单抗(girentuximab)(

Wilex AG)、IMAB362(克劳地昔单抗(Claudiximab),Ganymed Pharmaceuticals AG)、伊玛鲁单抗(imalumab)(Baxalta)、IMC-1C11(ImCloneSystems)、IMC-C225 (Imclone Systems Inc.)、伊马曲单抗(imgatuzumab) (Genentech/Roche)、英妥木单抗(intetumumab)(Centocor,Inc.)、伊匹单抗(ipilimumab)(

Bristol-Myers Squibb)、伊妥木单抗(iratumumab)(Medarex,Inc.)、伊沙妥昔单抗(isatuximab) (SAR650984,Sanofi-Aventis)、拉贝珠单抗(labetuzumab)(CEA-CIDE, Immunomedics)、来沙木单抗(lexatumumab)(ETR2-ST01,Cambridge AntibodyTechnology)、林妥珠单抗(lintuzumab)(SGN-33,Seattle Genetics)、卢卡木单抗(lucatumumab)(Novartis)、鲁昔单抗 (lumiliximab)、马帕木单抗(mapatumumab)(HGS-ETR1,Human Genome Sciences)、马妥珠单抗(matuzumab)(EMD 72000,Merck)、米拉组单抗(milatuzumab)(hLL1,Immunomedics,Inc.)、米妥莫单抗(mitumomab)(BEC-2,ImCloneSystems)、纳那妥单抗(narnatumab) (ImClone Systems)、耐昔妥珠necitumumab)(Portrazza^TM,Eli Lilly)、奈伐苏单抗(nesvacumab)(Regeneron Pharmaceuticals)、尼妥珠单抗(nimotuzumab)(h-R3,BIOMAb EGFR,TheraCIM,Theraloc,或 CIMAher；BiotechPharmaceutical Co.)、纳武单抗(nivolumab) (

Bristol-Myers Squibb)、阿托珠单抗(obinutuzumab) (Gazyva或Gazyvaro；Hoffmann-La Roche)、奥卡妥珠单抗(ocaratuzumab)(AME-133v,LY2469298；Mentrik Biotech,LLC)、奥法木单抗(ofatumumab)(

Genmab)、奥那妥组单抗 (onartuzumab)(Genentech)、昂妥昔珠单抗(Ontuxizumab) (Morphotek,Inc.)、奥戈伏单抗(oregovomab)(

AltaRexCorp.)、奥乐妥珠单抗(otlertuzumab)(Emergent BioSolutions)、帕尼单抗(panitumumab)(ABX-EGF,Amgen)、潘科曼单抗 (pankomab)(Glycotope GMBH)、帕萨妥珠单抗(parsatuzumab) (Genentech)、帕曲妥单抗(patritumab)、帕博利珠单抗(pembrolizumab)(

Merck)、佩姆图单抗(pemtumomab) (Theragyn,Antisoma)、帕妥珠单抗(pertuzumab)(Perjeta, Genentech)、匹地利珠单抗(pidilizumab)(CT-011,Medivation)、泊洛妥珠单抗维多丁(polatuzumab vedotin)(Genentech/Roche)、普利木单抗(pritumumab)、雷妥莫单抗(racotumomab)(

Recombio)、雷莫芦单抗(ramucirumab)(

ImClone Systems Inc.)、利妥昔单抗(rituximab)(

Genentech)、罗妥木单抗(robatumumab)(Schering-Plough)、瑟瑞妥单抗(Seribantumab) (Sanofi/Merrimack Pharmaceuticals,Inc.)、西罗珠单抗(sibrotuzumab)、司妥昔单抗(siltuximab)(Sylvant^TM,Janssen Biotech)、Smart MI95(Protein Design Labs,Inc.)、Smart ID10(Protein Design Labs,Inc.)、他贝芦单抗(tabalumab)(LY2127399,Eli Lilly)、帕他莫单抗(taplitumomab paptox)、替妥莫单抗(tenatumomab)、替妥木单抗(teprotumumab)(Roche)、特托单抗(tetulomab)、 TGN1412(CD28-SuperMAB或TAB08)、替加组单抗(tigatuzumab) (CD-1008,Daiichi Sankyo)、托西莫单抗(tositumomab)、曲妥珠单抗(trastuzumab)

曲美木单抗(tremelimumab) (CP-672,206；Pfizer)、西莫白介素单抗(tucotuzumab celmoleukin)(EMD Pharmaceuticals)、乌妥昔单抗(ublituximab)、乌瑞芦单抗(urelumab)(BMS-663513,Bristol-Myers Squibb)、伏洛昔单抗 (volociximab)(M200,Biogen Idec)和扎土希单抗(zatuximab)。

在一些情况下，抗体或其结合片段是抗体-药物偶联物(ADC)。在一些情况下，ADC的有效载荷包括但不限于例如澳瑞他汀衍生物、美登素、美登素类化合物、紫杉烷、卡奇霉素、西马多丁、倍癌霉素、吡咯并苯并二氮杂卓(PDB)或微管溶素(tubulysin)。在一些情况下，有效载荷包括一甲基澳瑞他汀E(MMAE)或一甲基澳瑞他汀F (MMAF)。在一些情况下，有效载荷包括DM2(美登素)或DM4。在一些情况下，有效载荷包括吡咯并苯并二氮杂卓二聚体。

另外的负载物

在一些实施方案中，负载物是拟肽。拟肽是设计成模仿肽的小蛋白质样聚合物。在一些情况下，拟肽包括D肽。在其他情况下，拟肽包括L肽。示例性的拟肽包括类肽和β肽。

在一些实施方案中，负载物是拟核苷酸。

载体和表达系统

在某些实施方案中，前述Arc多肽、endo-Gag多肽、工程化Arc 和工程化endo-Gag多肽由质粒载体编码。在一些实施方案中，载体包括源自真核或原核来源的任何合适的载体。在一些情况下，载体获自细菌(例如，大肠杆菌(E.coli))、昆虫、酵母(例如，毕赤酵母(Pichia pastoris))、藻类或哺乳动物来源。

示例性的细菌载体包括pACYC177、pASK75、pBAD载体系列、 pBADM载体系列、pET载体系列、pETM载体系列、pGEX载体系列、 pHAT、pHAT2、pMal-c2、pMal-p2、pQE载体系列、pRSET A、pRSET B、pRSET C、pTrcHis2系列、pZA31-Luc、pZE21-MCS-1、pFLAG ATS、 pFLAGCTS、pFLAG MAC、pFLAG Shift-12c、pTAC-MAT-1、 pFLAGCTC或pTAC-MAT-2。

示例性的昆虫载体包括pFastBac1、pFastBac DUAL、pFastBac ET、pFastBac HTa、pFastBac HTb、pFastBac HTc、pFastBac M30a、pFastBact M30b、pFastBac、M30c、pVL1392、pVL1393、pVL1393 M10、pVL1393 M11、pVL1393 M12、FLAG载体(诸如pPolh-FLAG1或pPolh-MAT 2)或MAT载体(诸如pPolh-MAT1或pPolh-MAT2)。

在一些情况下，酵母载体包括

pDEST^TM14载体、

pDEST^TM15载体、

pDEST^TM17载体、

pDEST^TM24载体、

pYES-DEST52载体、pBAD-DEST49

目标载体、pAO815毕赤酵母属载体、pFLD1毕赤酵母载体、pGAPZA,B,&C毕赤酵母载体、pPIC3.5K毕赤酵母属载体、pPIC6 A, B,&C毕赤酵母属载体、pPIC9K毕赤酵母属载体、pTEF1/Zeo、 pYES2酵母载体、pYES2/CT酵母载体、pYES2/NT A,B,&C酵母载体或pYES3/CT酵母载体。

示例性的藻类载体包括pChlamy-4载体或MCS载体。

示例性的哺乳动物载体包括瞬时表达载体或稳定表达载体。哺乳动物瞬时表达载体包括p3xFLAG-CMV 8、pFLAG-Myc-CMV 19、 pFLAG-Myc-CMV 23、pFLAG-CMV 2、pFLAG-CMV6a,b,c、 pFLAG-CMV 5.1、pFLAG-CMV 5a,b,c、p3xFLAG-CMV 7.1、 pFLAG-CMV 20、p3xFLAG-Myc-CMV 24、pCMV-FLAG-MAT1、 pCMV-FLAG-MAT2、pBICEP-CMV 3或pBICEP-CMV 4。哺乳动物稳定表达载体包括pFLAG-CMV 3、p3xFLAG-CMV 9、p3xFLAG-CMV 13、pFLAG-Myc-CMV 21、p3xFLAG-Myc-CMV 25、pFLAG-CMV 4、 p3xFLAG-CMV 10、p3xFLAG-CMV 14、pFLAG-Myc-CMV22、 p3xFLAG-Myc-CMV 26、pBICEP-CMV 1或pBICEP-CMV 2。

在一些情况下，无细胞系统是来自细胞的细胞质和/或核成分的混合物，用于体外核酸合成。在一些情况下，无细胞系统利用原核细胞成分或真核细胞成分。有时，在基于例如果蝇细胞、非洲爪蟾卵或 HeLa细胞(

CCL-2^TM)的无细胞系统中获得核酸合成。示例性的无细胞系统包括但不限于大肠杆菌S30提取物系统、大肠杆菌 T7 S30系统或

宿主细胞

在一些实施方案中，宿主细胞包括任何合适的细胞，诸如天然来源的细胞或遗传修饰的细胞。在一些情况下，宿主细胞是生产宿主细胞。在一些情况下，宿主细胞是真核细胞。在其他情况下，宿主细胞是原核细胞。在一些情况下，真核细胞包括真菌(例如，酵母细胞)、动物细胞或植物细胞。在一些情况下，原核细胞是细菌细胞。细菌细胞的示例包括革兰氏阳性细菌或革兰氏阴性细菌。在一些实施方案中，革兰氏阴性细菌是厌氧的、杆状的或厌氧且杆状的。

在一些情况下，革兰氏阳性细菌包括放线菌门(Actinobacteria)、厚壁菌门(Firmicutes)或软壁菌门(Tenericutes)。在一些情况下，革兰氏阴性细菌包括产水菌门(Aquificae)、异常球菌-栖热菌门 (Deinococcus-Thermus)、纤维杆菌门-绿菌门/拟杆菌门 (Fibrobacteres–Chlorobi/Bacteroidetes)(FCB群)、梭杆菌门 (Fusobacteria)、芽单胞菌门(Gemmatimonadetes)、硝化螺旋菌门 (Nitrospirae)、浮霉菌门-疣微菌门/衣原体门 (Planctomycetes–Verrucomicrobia/Chlamydiae)(PVC群)、变形菌门(Proteobacteria)、螺旋体门(Spirochaetes)或互养菌门 (Synergistetes)。在一些实施方案中，细菌是酸杆菌门 (Acidobacteria)、绿弯菌门(Chloroflexi)、产金菌门(Chrysiogenetes)、蓝细菌门(Cyanobacteria)、脱铁杆菌门(Deferribacteres)、网团菌门(Dictyoglomi)、热脱硫杆菌门(Thermodesulfobacteria)或热袍菌门(Thermotogae)。在一些实施方案中，细菌细胞是大肠杆菌 (Escherichia coli)、肉毒杆菌(Clostridiumbotulinum)或Coli bacilli。

示例性的原核宿主细胞包括但不限于BL21、Mach1^TM、DH10B^TM、 TOP10、DH5α、DH10Bac^TM、OmniMax^TM、MegaX^TM、DH12S^TM、 INV110、TOP10F’、INVαF、TOP10/P3、ccdBSurvival、PIR1、PIR2、 Stbl2^TM、Stbl3^TM或Stbl4^TM。

在一些情况下，动物细胞包括来自脊椎动物或来自无脊椎动物的细胞。在一些情况下，动物细胞包括来自海洋无脊椎动物、鱼类、昆虫、两栖动物、爬行动物、哺乳动物或人的细胞。在一些情况下，真菌细胞包括酵母细胞，诸如啤酒酵母、面包酵母或葡萄酒酵母。

真菌包括子囊菌，诸如酵母、霉菌、丝状真菌、担子菌或接合菌。在一些情况下，酵母包括子囊菌门(Ascomycota)或担子菌门 (Basidiomycota)。在一些情况下，子囊菌门包括酵母亚门 (Saccharomycotina)(真酵母，例如酿酒酵母(Saccharomyces cerevisiae)(面包酵母))或外囊菌亚门(例如，裂殖酵母纲 (Schizosaccharomycetes)(裂殖酵母))。在一些情况下，担子菌门包括伞菌亚门(Agaricomycotina)(例如，银耳纲(Tremellomycetes)) 或柄锈菌亚门(Pucciniomycotina)(例如，微球黑粉菌纲(Microbotryomycetes))。

示例性的酵母或丝状真菌包括例如以下属：酵母属 (Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、假丝酵母属(Candida)、毕赤酵母属(Pichia)、汉逊酵母属(Hansenula)、克鲁维酵母属(Kluyveromyces)、接合酵母属(Zygosaccharomyces)、耶氏酵母菌属(Yarrowia)、毛孢子菌属(Trichosporon)、红冬孢酵母属(Rhodosporidi)、曲霉属(Aspergillus)、镰刀菌属(Fusarium)、或木霉属(Trichoderma)。示例性的酵母或丝状真菌包括例如以下物种：酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母(Schizosaccharomyces pombe)、产朊假丝酵母(Candida utilis)、博伊丁假丝酵母(Candida boidini)、白色假丝酵母(Candida albicans)、热带假丝酵母(Candidatropicalis)、类星形假丝酵母(Candida stellatoidea)、光滑假丝酵母(Candidaglabrata)、克鲁斯假丝酵母 (Candida krusei)、近平滑假丝酵母(Candidaparapsilosis)、季也蒙假丝酵母(Candida guilliermondii)、维斯假丝酵母(Candidaviswanathii)、葡萄牙假丝酵母(Candida lusitaniae)、胶红酵母 (Rhodotorulamucilaginosa)、甲醇毕赤酵母(Pichia metanolica)、安格斯毕赤酵母(Pichia angusta)、巴斯德毕赤酵母(Pichia pastoris)、异常毕赤酵母(Pichia anomala)、多形汉逊酵母(Hansenula polymorpha)、乳酸克鲁维酵母(Kluyveromyces lactis)、鲁氏接合酵母(Zygosaccharomyces rouxii)、解脂耶氏酵母(Yarrowia lipolytica)、出芽毛孢子菌(Trichosporon pullulans)、圆红冬孢酵母-黑曲霉

(Rhodosporidium toru-Aspergillus niger)、构巢曲霉(Aspergillusnidulans)、泡盛曲霉(Aspergillus awamori)、米曲霉(Aspergillus oryzae)、里氏木霉(Trichoderma reesei)、解脂耶氏酵母、布鲁塞尔酒香酵母(Brettanomycesbruxellensis)、星形假丝酵母(Candida stellata)、粟酒裂殖酵母(Schizosaccharomycespombe)、戴尔凯氏有孢圆酵母(Torulaspora delbrueckii)、拜耳接合酵母(Zygosaccharomyces bailii)、新型隐球菌(Cryptococcus neoformans)、加特隐球酵母(Cryptococcus gattii)或布拉酵母(Saccharomyces boulardii)。

示例性的酵母宿主细胞包括但不限于毕赤酵母菌株(诸如GS115、KM71H、SMD1168、SMD1168H和X-33)和酿酒酵母菌株 (诸如INVSc1)。

在一些情况下，另外的动物细胞包括获自软体动物、节肢动物、环节动物或多孔动物的细胞。在一些情况下，另外的动物细胞是哺乳动物细胞，例如来自人、灵长类动物、猿、马、牛、猪、犬、猫或啮齿动物。在一些情况下，啮齿动物包括小鼠、大鼠、仓鼠、沙鼠、仓鼠、毛丝鼠、花枝鼠或豚鼠。

示例性的哺乳动物宿主细胞包括但不限于293A细胞系、293FT 细胞系、293F细胞、293H细胞、CHO DG44细胞、CHO-S细胞、CHO-K1 细胞、Expi293F^TM细胞、Flp-In^TMT-REx^TM293细胞系、Flp-In^TM-293 细胞系、Flp-In^TM-3T3细胞系、Flp-In^TM-BHK细胞系、Flp-In^TM-CHO 细胞系、Flp-In^TM-CV-1细胞系、Flp-In^TM-Jurkat细胞系、FreeStyle^TM 293-F细胞、FreeStyle^TMCHO-S细胞、GripTite^TM293MSR细胞系、 GS-CHO细胞系、HepaRG^TM细胞、T-REx^TMJurkat细胞系、Per.C6细胞、T-REx^TM-293细胞系、T-REx^TM-CHO细胞系和T-REx^TM-HeLa细胞系。

在一些情况下，哺乳动物宿主细胞是原代细胞。在一些情况下，哺乳动物宿主细胞是稳定细胞系，或者是已将目标遗传物质并入其自身基因组并且在经过多代细胞分裂后具有表达遗传物质产物的能力的细胞系。在一些情况下，哺乳动物宿主细胞是瞬时细胞系，或者是未已将目标遗传物质并入其自身基因组并且在经过多代细胞分裂后不具有表达遗传物质产物的能力的细胞系。

示例性的昆虫宿主细胞包括但不限于果蝇S2细胞、Sf9细胞、Sf21 细胞、HighFive^TM细胞和

细胞。

在一些情况下，植物细胞包括来自藻类的细胞。示例性的昆虫细胞系包括但不限于来自莱茵衣藻(Chlamydomonas reinhardtii)137c 或细长聚球藻(Synechococcuselongatus)PPC 7942的菌株。

使用方法

在某些实施方案中，本文公开了制备封装负载物的衣壳的方法。在一些实施方案中，该方法包括将多个Arc或endo-Gag多肽、工程化Arc或endo-Gag多肽和/或重组Arc或endo-Gag多肽与负载物在溶液中温育足以产生装载的基于Arc或基于endo-Gag的衣壳的时间。

在一些情况下，该方法包括在与负载物一起温育之前，将包含多个工程化和/或重组Arc多肽的溶液与多个非Arc衣壳形成亚基混合。在一些情况下，以1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1或 10:1的比例将多个非Arc衣壳形成亚基与多个工程化和/或重组Arc多肽混合。在其他情况下，以1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9 或1:10的比例将多个非Arc衣壳形成亚基与多个工程化和/或重组Arc 多肽混合。

在一些情况下，足以产生装载的基于Arc或基于endo-Gag的衣壳的时间为至少约5分钟、至少约10分钟、至少约20分钟、至少约 30分钟、至少约1小时、至少约2小时、至少约4小时、至少约6 小时、至少约10小时、至少约12小时、至少约24小时或更长时间。

在一些实施方案中，在约2℃至约37℃的温度下制备基于Arc 或基于endo-Gag的衣壳。在一些情况下，在约2℃至约8℃、约2℃至约4℃、约20℃至约37℃、约25℃至约37℃、约20℃至约30℃、约25℃至约30℃或约30℃至约37℃的温度下制备基于Arc或基于 endo-Gag的衣壳。

在一些情况下，在室温下制备基于Arc或基于endo-Gag的衣壳。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳被进一步配制用于全身施用。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳被进一步配制用于局部施用。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳被进一步配制用于经肠胃外(例如，动脉内、关节内、皮内、病灶内、肌肉内、眼内、骨内输注、腹膜内、鞘内、静脉内、玻璃体内或皮下)施用。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳被进一步配制用于口服施用。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳被进一步配制用于舌下施用。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳被进一步配制用于经气雾剂施用。

在某些实施方案中，本文还描述了基于Arc的衣壳或基于 endo-Gag的衣壳用于将负载物递送至目标部位的用途。在一些情况下，该方法包括使目标部位的细胞与基于Arc的衣壳或基于endo-Gag 的衣壳接触足以促进细胞摄取衣壳的时间。

在一些情况下，细胞是肌肉细胞、皮肤细胞、血细胞或免疫细胞 (例如，T细胞或B细胞)。

在一些情况下，细胞是肿瘤细胞，例如实体瘤细胞或来自血液系统恶性肿瘤的细胞。在一些情况下，实体瘤细胞是来自膀胱癌、乳腺癌、脑癌、结肠直肠癌、肾癌、肝癌、肺癌、胰腺癌、前列腺癌、皮肤癌、胃癌或甲状腺癌的细胞。在一些情况下，来自血液系统恶性肿瘤的细胞来自于B细胞恶性肿瘤或T细胞恶性肿瘤。在一些情况下，细胞来自白血病、淋巴瘤、骨髓瘤、慢性淋巴细胞白血病(CLL)、小淋巴细胞性淋巴瘤(SLL)、弥漫性大B细胞淋巴瘤(DLBCL)、滤泡淋巴瘤、套细胞淋巴瘤、伯基特淋巴瘤、皮肤T细胞淋巴瘤、外周血T细胞淋巴瘤、多发性骨髓瘤、浆细胞瘤、急性淋巴细胞白血病 (ALL)、急性髓性白血病(AML)或慢性髓性白血病(CML)。

在一些实施方案中，细胞是体细胞。在一些情况下，细胞是血细胞、皮肤细胞、结缔组织细胞、骨细胞、肌肉细胞或来自器官的细胞。

在一些实施方案中，细胞是上皮细胞、结缔组织细胞、肌肉细胞或神经元。

在一些情况下，细胞是内胚层细胞、中胚层细胞或外胚层细胞。在一些情况下，内胚层包括呼吸系统、肠、肝脏、胆囊、胰腺、胰岛、甲状腺或后肠的细胞。在一些情况下，中胚层包括骨软骨前体细胞 (osteochondroprogenitor cell)、肌细胞、来自消化系统的细胞、肾干细胞、来自生殖系统的细胞、来自循环系统细胞(诸如内皮细胞)。来自外胚层的示例性细胞包括上皮细胞、垂体前叶的细胞、周围神经系统的细胞、神经内分泌系统的细胞、眼睛的细胞、中枢神经系统的细胞、室管膜的细胞或松果腺的细胞。在一些情况下，来自中枢和外周神经系统的细胞包括神经元、施万细胞、卫星神经胶质细胞、少突胶质细胞或星形胶质细胞。在一些情况下，神经元还包括中间神经元、锥体神经元、γ-氨基丁酸能神经元、多巴胺能神经元、5-羟色胺能神经元、谷氨酸能神经元、来自脊髓的运动神经元或抑制性脊髓神经元。

在一些实施方案中，细胞是干细胞或祖细胞。在一些情况下，细胞是间充质干细胞或祖细胞。在其他情况下，细胞是造血干细胞或祖细胞。

在一些情况下，靶蛋白在细胞中过度表达或缺失。在一些情况下，靶蛋白在细胞中过度表达。在另外的情况下，靶蛋白在细胞中缺失。

在一些情况下，细胞中的靶基因具有一个或多个突变。

在一些情况下，细胞包含受损的剪接机构。

在一些情况下，将基于Arc的衣壳全身施用于有其需要的受试者。

在其他情况下，将基于Arc的衣壳或基于endo-Gag的衣壳局部施用于有其需要的受试者。

在一些实施方案中，将基于Arc的衣壳或基于endo-Gag的衣壳经肠胃外、口服、局部、通过舌下或气雾剂施用于有其需要的受试者。在一些情况下，将基于Arc的衣壳或基于endo-Gag的衣壳经肠胃外施用于有其需要的受试者。在其他情况下，将基于Arc的衣壳或基于 endo-Gag的衣壳经口服施用于有其需要的受试者。在另外的情况下，将基于Arc的衣壳或基于endo-Gag的衣壳经局部、通过舌下或通过气雾剂施用于有其需要的受试者。

在一些实施方案中，将递送组分与基于Arc的衣壳或基于 endo-Gag的衣壳结合在一起以用于靶向递送至目标部位。在一些情况下，递送组分包括载体，例如细胞外囊泡(诸如胶束、脂质体或微囊泡)或病毒包膜。

在一些情况下，递送组分用作基于Arc的衣壳或基于endo-Gag 的衣壳(其不包含其自身的递送组分(例如，其中不存在第二多肽)) 的主要递送载体。在这样的情况下，递送组分将基于Arc的衣壳或基于endo-Gag的衣壳引导至目标靶部位并任选地促进细胞内摄取。

在其他情况下，递送组分可增强基于Arc的衣壳的第二多肽的靶标特异性和/或敏感性。在这样的情况下，递送组分可增强基于Arc 的衣壳或基于endo-Gag的衣壳对靶部位的特异性和/或亲和力。在另外的情况下，递送组分使特异性和/或亲和力增强约2倍、3倍、4倍、 5倍、6倍、7倍、8倍、9倍、10倍、20倍、30倍、50倍、100倍、 200倍、500倍或更多。在进一步的情况下，递送组分使特异性和/或亲和力增强约10％、20％、30％、40％、50％、60％、70％、80％、90％、 100％、200％、500％或更多。更进一步地，递送组分任选地使脱靶效应最小化约2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、 20倍、30倍、50倍、100倍、200倍、500倍或更多。更进一步地，递送组分任选地使脱靶效应最小化约10％、20％、30％、40％、50％、 60％、70％、80％、90％、100％、200％、500％或更多。

在另外的情况下，递送组分用作将基于Arc的衣壳运输到总体靶区域(例如，肿瘤微环境)的第一载体，并且基于Arc或基于endo-Gag 的衣壳的第二多肽用作将基于Arc的衣壳或基于endo-Gag的衣壳驱动到特定靶部位并任选地促进细胞内摄取的第二递送分子。在这样的情况下，递送组分使脱靶效应最小化约2倍、3倍、4倍、5倍、6倍、 7倍、8倍、9倍、10倍、20倍、30倍、50倍、100倍、200倍、500 倍或更多。在这样的情况下，递送组分使脱靶效应最小化约10％、20％、 30％、40％、50％、60％、70％、80％、90％、100％、200％、500％或更多。

在进一步的情况下，递送组分用作将基于Arc的衣壳运输到目标靶部位的第一载体，并且基于Arc或基于endo-Gag的衣壳的第二多肽用作促进细胞内摄取的第二递送分子。

在一些实施方案中，递送组分包括细胞外囊泡。在一些情况下，细胞外囊泡包括微囊泡、脂质体或胶束。在一些情况下，细胞外囊泡具有约10nm至约2000nm、约10nm至约1000nm、约10nm至约 800nm、约20nm至约600nm、约30nm至约500nm、约50nm至约 200nm或约80nm至约100nm的直径。

在一些实施方案中，递送组分包括微囊泡。微囊泡也称为循环微囊泡或微粒，微囊泡是包含磷脂的膜结合囊泡。在一些情况下，微囊泡具有约50nm至约1000nm、约100nm至约800nm、约200nm至约 500nm或约50nm至约400nm的直径。

在一些情况下，微囊泡来源于细胞膜倒置、胞吐、脱落、起泡或出芽。在一些情况下，微囊泡由分化的细胞生成。在其他情况下，微囊泡由未分化的细胞(例如，胚细胞、祖细胞或干细胞)生成。

在一些实施方案中，递送组分包括脂质体。在一些情况下，脂质体包含多个脂肽，其存在于脂质体的表面上，用于靶向递送至目标部位或区域。在一些情况下，脂质体与靶细胞融合，从而将脂质体的内容物注入到靶细胞中。在一些情况下，脂质体被具有吞噬作用的细胞胞吞。胞吞作用后，脂质体脂质在溶酶体内降解并且释放封装的试剂。

适合合并的示例性脂质体包括但不限于多层囊泡(MLV)，寡层囊泡(OLV)、单层囊泡(UV)、小单层囊泡(SUV)、中等单层囊泡(MUV)、大单层囊泡(LUV)、巨大单层囊泡(GUV)、多囊囊泡(MVV)、通过反相蒸发法(REV)制备的单层或寡层囊泡、通过反相蒸发法制备的多层囊泡(MLV-REV)、稳定多层囊泡 (SPLV)、冷冻和解冻的MLV(FATMLV)、通过挤压法制备的囊泡(VET)、通过弗氏压碎器制备的囊泡(FPV)、通过融合制备的囊泡(FUV)、脱水-再水合囊泡(DRV)和泡体(bubblesome)(BSV)。在一些实施方案中，脂质体包括Amphipol(A8-35)。用于制备脂质体的技术在例如COLLOIDAL DRUG DELIVERY SYSTEMS,第66 卷(J.Kreuter ed.,Marcel Dekker,Inc.(1994))中描述。

取决于制备方法，脂质体是单层或多层的，并且大小可变化，其中直径范围为约20nm至大于约1000nm。

在一些情况下，本文提供的脂质体还包括载体脂质。在一些实施方案中，载体脂质是磷脂。能够形成脂质体的载体脂质包括但不限于二棕榈酰磷脂酰胆碱(DPPC)、磷脂酰胆碱(PC、卵磷脂)、磷脂酸(PA)、磷脂酰甘油(PG)、磷脂酰乙醇胺(PE)或磷脂酰丝氨酸(PS)。其他合适的磷脂还包括二硬脂酰磷脂酰胆碱(DSPC)、二肉豆蔻酰磷脂酰胆碱(DMPC)、二棕榈酰磷脂酰甘油(DPPG)、二硬脂酰磷脂酰甘油(DSPG)、二肉豆蔻酰磷脂酰甘油(DMPG)、二棕榈酰磷脂酸(DPPA)；二肉豆蔻酰基磷脂酸(DMPA)、二硬脂酰磷脂酸(DSPA)、二棕榈酰磷脂酰丝氨酸(DPPS)、二肉豆蔻酰基磷脂酰丝氨酸(DMPS)、二硬脂酰基磷脂酰丝氨酸(DSPS)、二棕榈酰磷脂酰乙醇胺(DPPE)、二肉豆蔻酰基磷脂酰乙醇胺(DMPE)、二硬脂酰基磷脂酰乙醇胺(DSPE)等或其组合。在一些实施方案中，脂质体还包含调节脂质体形成的固醇(例如，胆固醇)。载体脂质任选地是任何非磷酸酯极性脂质。

在一些实施方案中，递送组分包括胶束。在一些情况下，胶束具有约2nm至约250nm、约20nm至约200nm、约20nm至约100nm或约50至约100nm的直径。

在一些情况下，胶束是聚合胶束，其特征为核壳结构，其中疏水核被亲水壳包围。在一些情况下，亲水壳还包含亲水聚合物或共聚物以及pH敏感性组分。

示例性的亲水聚合物或共聚物包括但不限于聚(N-取代的丙烯酰胺)、聚(N-丙烯酰基吡咯烷)、聚(N-丙烯酰基哌啶)、聚(N- 丙烯醛基-L-氨基酸酰胺)、聚(乙基恶唑啉)、甲基纤维素、丙烯酸羟丙酯、羟烷基纤维素衍生物和聚(乙烯醇)、聚(N-异丙基丙烯酰胺)、聚(N-乙烯基-2-吡咯烷酮)、聚乙二醇衍生物及其组合。

pH敏感性部分包括但不限于烷基丙烯酸(诸如甲基丙烯酸、乙基丙烯酸、丙基丙烯酸和丁基丙烯酸)或氨基酸(诸如谷氨酸)。

在一些情况下，疏水部分构成胶束的核，并且包括例如单烷基链 (诸如丙烯酸十八烷基酯)或双链烷基化合物(诸如磷脂酰乙醇胺或双十八烷基胺)。在一些情况下，疏水部分任选地为水不溶性聚合物，诸如聚(乳酸)或聚(ε-己内酯)。

还考虑表现出pH敏感性质的聚合物胶束，其例如通过使用pH 敏感性聚合物形成，pH敏感性聚合物包括但不限于甲基丙烯酸、甲基丙烯酸酯和丙烯酸酯的共聚物；聚醋酸乙烯邻苯二甲酸酯，羟丙基甲基纤维素邻苯二甲酸酯，邻苯二甲酸醋酸纤维素或偏苯三酸醋酸纤维素。

在一些实施方案中，递送组分包括病毒包膜。病毒包膜包含糖蛋白、磷脂和获自宿主的另外的蛋白质。在一些情况下，病毒包膜受纳于广泛的靶细胞。在其他情况下，病毒包膜是非受纳的，并且特异于目标靶细胞。在一些情况下，病毒包膜包含细胞特异性结合蛋白和任选的促融合分子，该促融合分子有助于将负载物融合到靶细胞中。在一些情况下，病毒包膜包括内源性病毒包膜。在其他情况下，病毒包膜是修饰的包膜，包含一种或多种外源蛋白质。

在一些情况下，病毒包膜来源于DNA病毒。示例性的包膜DNA 病毒包括来自疱疹病毒科(Herpesviridae)、痘病毒科(Poxviridae) 和嗜肝病毒科(Hepadnavirdae)的病毒。

在其他情况下，病毒包膜来源于RNA病毒。示例性的包膜RNA 病毒包括来自布尼亚病毒科(Bunyaviridae)、冠状病毒科 (Coronaviridae)、丝状病毒科(Filoviridae)、黄病毒科(Flaviviridae)、正粘病毒科(Orthomyxoviridae)、副粘病毒科(Paramyxoviridae)、弹状病毒科(Rhabdoviridae)和披膜病毒科(Togaviridae)的病毒。

在另外的情况下，病毒包膜来源于来自逆转录病毒科 (Retroviridae)的病毒。

在一些实施方案中，病毒包膜来自溶瘤病毒，诸如来自疱疹病毒科(例如，HSV1)或痘病毒科(例如，牛痘病毒和粘液瘤病毒)的溶瘤DNA病毒或者来自弹状病毒科(例如，VSV)或副粘病毒科(例如，MV和NDV)的溶瘤RNA病毒。

在一些情况下，病毒包膜还包含结合至抗原或细胞表面分子的外源或工程化蛋白质。用于靶向的示例性抗原或细胞表面分子包括但不限于P-糖蛋白、Her2/Neu、促红细胞生成素(EPO)、表皮生长因子受体(EGFR)、血管内皮生长因子受体(VEGF-R)、钙黏着蛋白、癌胚抗原(CEA)、CD4、CD8、CD19、CD20、CD33、CD34、CD45、 CD117(c-试剂盒)、CD133、HLA-A、HLA-B、HLA-C、趋化因子受体5(CCRS)、干细胞标志物ABCG2转运蛋白、卵巢癌抗原CA125、免疫球蛋白、整联蛋白、前列腺特异性抗原(PSA)、前列腺干细胞抗原(PSCA)、树突状细胞特异性细胞间粘附分子3-捕获非整联蛋白(DC-SIGN)、甲状腺球蛋白、粒细胞-巨噬细胞集落刺激因子 (GM-CSF)、成肌分化促进因子-1(MyoD-1)、Leu-7(CD57)、 LeuM-1、单克隆抗体Ki-67(Ki-67)定义的与细胞增殖相关的人类核抗原、病毒包膜蛋白，HIV gp120或转铁蛋白受体。

在一些实施方案中，基于Arc的衣壳或基于endo-Gag的衣壳用于体外用途。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳用于离体用途。

在一些情况下，基于Arc的衣壳或基于endo-Gag的衣壳用于体内用途。

试剂盒/制品

在某些实施方案中，本文公开了用于与本文所述的一种或多种方法一起使用的试剂盒和制品。这样的试剂盒包括载体、包装或被分隔开以容纳一个或多个容器(诸如小瓶、管等)的容器。这些容器中的每个包含将在本文所述的方法中使用的分离要素之一。合适的容器包括例如瓶、小瓶、注射器和试管。在一个实施方案中，容器由多种材料(诸如玻璃或塑料)制成。

例如，容器包含上述重组或工程化Arc或endo-Gag多肽。这样的试剂盒任选地包含与其在本文所述的方法中的用途有关的识别性描述或标签或说明。例如，试剂盒通常包含列出内容物和/或使用说明的标签，以及带有使用说明的包装插页。通常还将包括一套说明。

某些术语

除非另有定义，否则本文所用的所有技术和科学术语均具有与通常理解的相同的含义。应当理解，具体描述仅是示例性和说明性的，并且不限制所要求保护的任何主题。在本申请中，除非另有明确说明，否则单数的使用包括复数。必须注意，除非上下文另外明确指出，否则在说明书中使用的单数形式“一个(a)”、“一种(an)”和“该(the)”包含复数指代。在本申请中，除非另有说明，否则“或”的使用表示“和 /或”。此外，术语“包括”以及其他形式的使用不是限制性的。

尽管可在单个实施方案的上下文中描述本发明的各种特征，但是这些特征也可以单独地或以任何合适的组合来提供。相反地，尽管为了清楚起见，本发明可以在单独的实施方案的上下文中描述，但是本发明也可以在单个实施方案中实现。

说明书中对“一些实施方案”，“一个实施方案”，或“其他实施方案”的具体说明是指结合这些实施方案描述的特定特征、结构或特性包括在至少一些实施方案中，但不一定包括在本发明的所有实施方案中。

如本文所用，范围和量可以表示为“约”特定值或范围。约还包括确切的量。因此，“约5μL”是指“约5μL”以及“5μL”。通常，术语“约”包括预期在实验误差内的量。

本文使用的章节标题仅用于组织目的，而不应被解释为限制所描述的主题。

如本文所用，本文所述的CA N端半段结构的序列对应于人CA N 端半段结构。在一些情况下，人CA N端半段结构包含SEQ ID NO:1 的残基207-278。在一些情况下，本文所述的CA N端半段结构与SEQ ID NO:1的残基207-278呈约30％、40％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性。在一些情况下，本文所述的CA N端半段结构与人CA N 端半段结构具有结构相似性。例如，本文所述的CA N端半段结构与人CA N端半段结构具有约80％、85％、90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％的结构相似性。在一些情况下，CA N 端半段结构具有高的结构相似性(例如，80％、90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％的结构相似性)但不具有高的序列同一性(例如，序列同一性低于80％、低于70％、低于60％、低于 50％、低于40％或低于30％)。在一些情况下，CA N端半段结构包含SEQ ID NO:1的残基207-278。

如本文所用，本文所述的CA C端半段结构的序列对应于人CA C 端半段结构。在一些情况下，人CA C端半段结构包含SEQ ID NO:1 的残基278-370。在一些情况下，本文所述的CA C端半段结构与SEQ ID NO:1的残基278-370呈约30％、40％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的序列同一性。在一些情况下，本文所述的CA C端半段结构与人CA C 端半段结构具有结构相似性。例如，本文所述的CA C端半段结构与人CA C端半段结构具有约80％、85％、90％、91％、92％、93％、94％、 95％、96％、97％、98％或99％的结构相似性。在一些情况下，CA C 端半段结构具有高的结构相似性(例如，80％、90％、91％、92％、93％、 94％、95％、96％、97％、98％或99％的结构相似性)但不具有高的序列同一性(例如，序列同一性低于80％、低于70％、低于60％、低于 50％、低于40％或低于30％)。在一些情况下，CA C端半段结构包含SEQ ID NO:1的残基278-370。

如本文所用，术语“个体”，“受试者”和“患者”是指任何哺乳动物。在一些实施方案中，哺乳动物是人。在一些实施方案中，哺乳动物是非人类。这些术语均不要求或不限于以保健人员(例如，医生、注册护士、执业护士、医生助理、护理员或临终关怀人员)的监督(例如，持续或间断)为特征的情况。

实施例

提供这些实施例仅出于说明目的，并且不限制本文提供的权利要求的范围。

实施例1-编码重组Arc蛋白和工程化Arc蛋白的DNA载体的构建

为了构建用于Arc表达的重组DNA载体，将不包含起始蛋氨酸的全长cDNA开放阅读框插入克隆载体中，然后根据标准方法将其转移至表达载体中。使用相同的方法来构建用于表达endo-Gag蛋白的重组DNA载体。人Arc cDNA包含注解的基质结构域(MA)和衣壳结构域。衣壳结构域具有N端半段结构(NTD)和C端半段结构 (CTD)。图1图示了人Arc蛋白的结构以及蟒蛇、鸭嘴兽和虎鲸的预测的Arc结构。

通过以下任选地生成编码工程化Arc蛋白的cDNA：通过重组来自不同物种的Arc序列(图2)，通过将来自其他蛋白质的功能性结构域插入Arc蛋白中(图3A)，通过修饰Arc蛋白的序列(图3B)，和/或通过图2-3中例示的方法的任何组合。同样地，通过以下生成编码工程化endo-Gag蛋白的cDNA：通过重组来自不同物种的endo-Gag 序列，通过将来自其他蛋白质的功能性结构域插入endo-Gag蛋白中，通过修饰endo-Gag蛋白的序列，和/或通过这些方法的任何组合。此外，工程化endo-Gag蛋白任选地包含Arc序列，并且工程化Arc蛋白任选地包含endo-Gag序列。工程化Arc和endo-Gag蛋白单体组装成衣壳。

将编码表1的Arc和endo-Gag蛋白的cDNA插入来源于pET-41 a(+)(EMD Millipore(Novagen)目录号70566)的表达载体中。去除 pET-41a(+)的整个克隆位点并替换为具有核苷酸序列SEQ ID NO：57 的DNA，其编码替代N末端标签，该替代N末端标签具有氨基酸序列SEQ ID NO:58的并且包含6xHis标签(SEQ ID NO:59)、6个氨基酸的间隔子(SEQ ID NO:60)以及AcTEV^TM切割位点(SEQ ID NO: 61)。通过Gibson组装在AcTEV^TM切割位点后插入Arc和endo-Gag 开放阅读框(不含其起始蛋氨酸密码子)。Gibson DG,Young L,Chuang RY,Venter JC,Hutchison CA 3rd,Smith HO(2009).“Enzymatic assembly of DNAmolecules up to several hundred kilobases”.Nature Methods.6(5):343–345。表达和AcTEV^TM切割后，所得Arc或 endo-Gag蛋白的N末端具有来自AcTEV^TM切割位点的单个残留甘氨酸。

SEQ ID NO:57

ATGCATCACCATCACCATCACGGCTCAGGGTCTGGTAGCGAAA ATCTGT ACTTCCAGGGG

SEQ ID NO:58MHHHHHHGSGSGSENLYFQG

SEQ ID NO:59HHHHHH

SEQ ID NO:60GSGSGS

SEQ ID NO:61ENLYFQG

表1：Arc或endo-Gag多肽和核酸的序列

实施例2-Arc和endo-Gag蛋白的表达和纯化

将包含Arc和endo-Gag开放阅读框的表达载体构建体转化入 Rosetta 2(DE3)pLysS大肠杆菌菌株(Millipore Sigma，目录号71403) 中。用0.1mM IPTG诱导Arc或endo-Gag表达，然后在16℃下温育 16小时。通过在20mM磷酸钠(pH 7.4)、0.1M NaCl、40mM咪唑、1mM DTT和10％甘油中进行超声处理而裂解细胞沉淀。用过量的 TURBO DNase(ThermoFisher Scientific,目录号AM2238)、RNase Cocktail(Thermo Fisher Scientific,目录号AM2286)和Benzonase Nuclease(Millipore Sigma,目录号71205)处理裂解物以消除核酸。将NaCl添加到裂解物中以将NaCl浓度调节至0.5M，然后离心并过滤以去除细胞碎片。将6xHis标签化的重组蛋白装载到HisTrap HP柱 (GE Healthcare,目录号17-5247-01)，用缓冲液A(20mM磷酸钠 (pH 7.4)、0.5M NaCl、40mM咪唑和10％甘油)洗涤，并用缓冲液B(20mM磷酸钠(pH 7.4)、0.5M NaCl、500mM咪唑和10％甘油)进行线性梯度洗脱。收集管中预先补充有每1ml洗脱物10μl的 0.5M EDTA(pH 8.0)。如SDS-PAGE分析所显示，所得的Arc或endo-Gag蛋白的纯度通常超过95％，其中每1L细菌培养物的产量高达50mg。图4A。

通过阴离子交换色谱法在mono Q 5/50GL柱(GE Healthcare,目录号17516601)上去除残留的核酸。在装载到柱上之前，根据生产商的规程，使用“Pierce ProteinConcentrator PES,10K MWCO,5-20ml” (Thermo Scientific,目录号88528)将重组蛋白缓冲交换至缓冲液C (20mM Tris-HCl(pH 8.0)、100mM NaCl和10％甘油)。装载后，用2ml缓冲液C洗涤mono Q树脂。使用缓冲液D(20mM Tris-HCl (pH 8.0)、500mM NaCl和10％甘油)线性梯度洗脱Arc和endo-Gag 蛋白。将RNA有效地从Arc中分离出来，并在600mM NaCl中洗脱(图4B)。

使用10kDa MWCO PES浓缩器将N末端6xHis标签和间隔子从 mono Q纯化Arc的浓缩峰级分中去除，然后用10％v/v的AcTEV^TM Protease(Invitrogen^TM#12575023)处理。如通过SDS-PAGE测定所显示，切割效率高于99％。然后将蛋白质稀释到HisTrap缓冲液A中，并用HisTrap HP树脂清洗。所得纯化的Arc具有N末端甘氨酸残基，并且不包含起始蛋氨酸。

实施例3-衣壳组装

将切割后的Arc蛋白(1mg/mL)装载到20kDa MWCO透析盒中，并在室温下于1M磷酸钠(pH 7.5)中透析过夜。第二天，将溶液从盒中取出，转移至微量离心管中，并在台式离心机中以最大速度旋转 5分钟。将上清液转移至100kDa MWCO再生纤维素Amicon超滤离心浓缩器中。将缓冲液更换为PBS(pH 7.5)，并使体积减小20倍。

通过透射电子显微镜法测定衣壳组装物。通过辉光放电制备EM 栅格(碳支撑膜、正方形栅格、400目、5-6nm、铜、CF400-Cu-UL)。将5μL纯化Arc样品施加到栅格上20秒，然后用滤纸芯吸掉。然后用MilliQ H₂O洗涤栅格，用5μL的在水中的1％乙酸铀酰染色30秒，然后风干1分钟。使用配备Gatan 4k x 4k OneView摄像机的FEI Talos L120C TEM获取衣壳的图像。图5示出了浓缩的人Arc衣壳。图6 示出了由来自其他脊椎动物物种的重组表达的Arc直系同源物形成的衣壳。图7示出了由来自其他脊椎动物物种的重组表达endo-Gag基因形成的衣壳。

实施例4-Arc衣壳的选择性细胞内化

通过在PBS(pH 8.5)中与50摩尔过量的NHS酯Alexa Fluor^TM 594-NHS染料(Invitrogen^TM#A20004)(溶解于DMSO)反应，对由分离的重组人Arc蛋白(0.5mg/ml)组装的衣壳进行荧光标记。使反应在黑暗中进行2小时。然后将Alexa594标记的衣壳在室温下于黑暗中用PBS(pH 7.5)透析过夜，其中进行至少两次缓冲液交换以去除任何未标记的染料。

实验前24小时，在计数下将HeLa细胞(

CCL-2^TM)接种到96孔板中，使其达到约80％合流以用于处理。然后将标记的衣壳加入完全的组织培养基中，至最终衣壳浓度为0.05mg/ml。处理在 37℃下进行4小时，然后将细胞用含有10ug/ml Hoechst核染色剂的成像介质(DMEM，无酚红，具有10％FBS和20mM HEPES)洗涤 3次，然后进行成像。荧光显微镜显示点状染色图案，表明Arc衣壳被HeLa细胞内化(图8)。在相同条件下施用AlexaFluor^TM594标记的牛血清白蛋白(BSA)(最终浓度为0.05mg/ml)或45.6μM AlexaFluor^TM594后，几乎没有或没有观察到细胞内染色。

实施例5-通过Arc衣壳进行异源RNA递送

通过在衣壳形成过程中加入过量的RNA(通过透析到1M磷酸钠中)，用Cre RNA装载人Arc衣壳。在37℃下，以0.05mg/ml的最终衣壳浓度将装载有Cre RNA的衣壳以重复三次的生物学方式施用于HeLa细胞4小时。然后将细胞用冰冷的1xPBS洗涤3次，然后进行RNA提取(Invitrogen^TMTRIzol^TM试剂号15596026)。通过qPCR 对与纯化的细胞相关的RNA进行重复三次技术定量，将值归一化为细胞GAPDH水平，并与可能从蛋白质纯化中遗留的大肠杆菌rrsA mRNA和Arc RNA进行比较。表2示出了用于PCR反应的引物。与未装载Cre RNA的对照衣壳相比，对于装载有Cre RNA的Arc衣壳检测到与细胞相关的Cre RNA的量为27倍高(图9)。

表2.用于对由Arc衣壳递送至HeLa细胞的RNA进行qPCR定量的引物

基因-引物	序列	SEQ ID NO:
			GAPDH-F	AAGCTCATTTCCTGGTATGACAACGA	62
GAPDH-R	AGGGTCTCTCTCTTCCTCTTGTGCT	63
			rrsA-F	GCTCAACCTGGGAACTGCATCTGAT	64
rrsA-R	TAATCCTGTTTGCTCCCCACGCTTT	65
			Arc CDS-F	GGCCCCTCAGCTCCAGTGATTC	66
Arc CDS-R	CCTGTTGTCACTCTCCTGGCTCTGA	67
			Cre CDS-F	GCCAAGACATAAGAAACCTCGCCT	68
Cre CDS-R	GTGAATCAACATCCTCCCTCCGTC	69

图10图示了证明通过Arc或endo-Gag衣壳递送异源RNA的备选方法。6xHis标记的Arc或endo-Gag基因在宿主细胞中表达。在衣壳形成条件下将所得的Arc单体与可翻译的Cre mRNA混合，以形成装载有Cre mRNA的衣壳。然后将装载有Cre的衣壳施用于LoxP-荧光素酶报告基因小鼠。将Cre mRNA成功递送至小鼠细胞中并随后翻译Cre重组酶蛋白后，报告基因的LoxP位点重组，导致萤光素酶表达，其可任选地在施用萤光素后通过生物发光成像进行检测。该方法用于测试候选Arc和endo-Gag基因的传送潜力。阳性的萤光素酶信号表明候选Arc或endo-Gag基因编码能够组装成衣壳的Arc或 endo-Gag蛋白，该衣壳包含异源负载物并将该负载物递送至靶细胞。

尽管已经在本文中示出和描述了本发明的优选实施方案，但是对于本领域技术人员而言显而易见的是，这些实施方案仅通过示例的方式提供。在不脱离本发明的情况下，本领域技术人员现在将想到许多变化、改变和替代。应当理解，本文所述的本发明的实施方案的各种替代方案可用于实施本发明。旨在通过以下权利要求限定本发明的范围，并由此涵盖这些权利要求范围内的方法和结构及其等同方案。

表3.Arc和endo-Gag氨基酸和核苷酸序列

SEQ ID NO:1

GELDHRTSGGLHAYPGPRGGQVAKPNVILQIGKCRAEMLEHVRRT HRHLLAEVSKQVERELKGLHRSVGKLESNLDGYVPTSDSQRWKK SIKACLCRCQETIANLERWVKREMHVWREVFYRLERWADRLEST GGKYPVGSESARHTVSVGVGGPESYCHEADGYDYTVSPYAITPPP AAGELPGQEPAEAQQYQPWVPGEDGQPSPGVDTQIFEDPREFLSHL EEYLRQVGGSEEYWLSQIQNHMNGPAKKWWEFKQGSVKNWVEF KKEFLQYSEGTLSREAIQRELDLPQKQGEPLDQFLWRKRDLYQTL YVDADEEEIIQYVVGTLQPKLKRFLRHPLPKTLEQLIQRGMEVQDD LEQAAEPAGPHLPVEDEAETLTPAPNSESVASDRTQPE

SEQ ID NO:2

GELDQRTTGGLHAYPAPRGGPVAKPNVILQIGKCRAEMLEHVRRT HRHLLTEVSKQVERELKGLHRSVGKLESNLDGYVPTGDSQRWRK SIKACLCRCQETIANLERWVKREMHVWREVFYRLERWADRLESM GGKYPVGSNPSRHTTSVGVGGPESYGHEADTYDYTVSPYAITPPPA AGELPGQEAVEAQQYPPWGLGEDGQPSPGVDTQIFEDPREFLSHLE EYLRQVGGSEEYWLSQIQNHMNGPAKKWWEYKQGSVKNWVEFK KEFLQYSEGALSREAVQRELDLPQKQGEPLDQFLWRKRDLYQTLY VDADEEEIIQYVVGTLQPKLKRFLRPPLPKTLEQLIQKGMEVEDGL EQVAEPASPHLPTEEESEALTPALTSESVASDRTQPE

SEQ ID NO:3

GELDHRTTGGLHAYPAPRGGPAAKPNVILQIGKCRAEMLEHVRRT HRHLLAEVSKQVERELKGLHRSVGKLESNLDGYVPTGDSQRWKK SIKACLSRCQETIANLERWVKREMHVWREVFYRLERWADRLESG GGKYPVGSDPARHTVSVGVGGPESYCQDADNYDYTVSPYAITPPP AAGQLPGQEEVEAQQYPPWAPGEDGQLSPGVDTQVFEDPREFLRH LEDYLRQVGGSEEYWLSQIQNHMNGPAKKWWEYKQGSVKNWVE FKKEFLQYSEGTLSREAIQRELDLPQKQGEPLDQFLWRKRDLYQTL YVDAEEEEIIQYVVGTLQPKLKRFLRPPLPKTLEQLIQKGMEVQDG LEQAAEPAAEEAEALTPALTNESVASDRTQPE

SEQ ID NO:4

GELDRLNPSSGLHPSSGLHPYPGLRGGATAKPNVILQIGKCRAEML EHVRKTHRHLLTEVSRQVERELKGLHKSVGKLESNLDGYVPSSDS QRWKKSIKACLSRCQETIAHLERWVKREMNVWREVFYRLERWAD RLEAMGGKYPAGEQARRTVSVGVGGPETCCPGDESYDCPISPYAV PPSTGESPESLDQGDQHYQQWFALPEESPVSPGVDTQIFEDPREFLR HLEKYLKQVGGTEEDWLSQIQNHMNGPAKKWWEYKQGSVKNW LEFKKEFLQYSEGTLTRDALKRELDLPQKQGEPLDQFLWRKRDLY QTLYVDADEEEIIQYVVGTLQPKLKRFLHHPLPKTLEQLIQRGQEV QNGLEPTDDPAGQRTQSEDNDESLTPAVTNESTASEGTLPE

SEQ ID NO:5

GQLDNVTNAGIHSFQGHRGVANKPNVILQIGKCRAEMLEHVRRTH RHLLSEVSKQVERELKGLQKSVGKLENNLEDHVPTDNQRWKKSIK ACLARCQETIAHLERWVKREMNVWKEVFFRLEKWADRLESMGG KYCPGEHGKQTVSVGVGGPEIRPSEGEIYDYALDMSQMYALTPPP GEMPSIPQAHDSYQWVSVSEDAPASPVETQVFEDPREFLSHLEEYL KQVGGTEEYWLSQIQNHMNGPAKKWWEYKQDSVKNWVEFKKEF LQYSEGTLTRDAIKRELDLPQKEGEPLDQFLWRKRDLYQTLYVDA DEEEIIQYVVGTLQPKLKRFLSYPLPKTLEQLIQRGKEVQGNMDHS DEPSPQRTPEIQSGDSVESMPPSTTASPVPSNGTQPEPPSPPATVI

SEQ ID NO:6

GQLDNVTNAGIHSFQGHRGVANKPNVILQIGKCRAEMLEHVRRTH RHLLSEVSKQVERELKGLQKSVGKLENNLEDHVPTDNQRWKKSIK ACLARCQETIAHLERWVKREMNVWKEVFFRLEKWADRLESMGG KYCPGEHGKQTVSVGVGGPEIRPSEGEIYDYALDMSQMYALTPPP GEVPSIPQAHDSYQWVSVSEDAPASPVETQVFEDPREFLSHLEEYL KQVGGTEEYWLSQIQNHMNGPAKKWWEYKQDSVKNWVEFKKEF LQYSEGTLTRDAIKRELDLPQKEGEPLDQFLWRKRDLYQTLYVDA DEEEIIQYVVGTLQPKLKRFLSYPLPKTLEQLIQRGKEVQGNMDHS EEPSPQRTPEIQSGDSVDSVPPSTTASPVPSNGTQPE

SEQ ID NO:7

GQLDNVTNAGIHSFQGHRGVANKPNVILQIGKCRAEMLEHVRRTH RHLLSEVSKQVERELKGLQKSVGKLENNLEDHVPTDNQRWKKSIK ACLARCQETIAHLERWVKREMNVWKEVFFRLEKWADRLESMGG KYCPGDHGKQTVSVGVGGPEIRPSEGEIYDYALDMSQMYALTPPP GEVPSIPQAHDSYQWVSTSEDAPASPVETQVFEDPREFLSHLEEYL KQVGGTEEYWLSQIQNHMNGPAKKWWEYKQDSVKNWVEFKKEF LQYSEGTLTRDAIKRELDLPQKEGEPLDQFLWRKRDLYQTLYVDA DEEEIIQYVVGTLQPKLKRFLSYPLPKTLEQLIQRGKEVQGNMDHS EEPSPQRTPEIQSGDSVDSVPPSTTASPVPSNGTQPE

SEQ ID NO:8

GSWGLQRHVADERRGLATPTYGAVCSIREKKASQLSGQSCLEKEL LGWKCTEAIVEMMQVDNFNHGNLHSCQGHRGMANHKPNVILQIG KCRAEMLDHVRRTHRHLLTEVSKQVERELKSLQKSVGKLENNLE DHVPSAAENQRWKKSIKACLARCQETIAHLERWVKREINVWKEV FFRLEKWADRLESGGGKYGPGDQSRQTVSVGVGAPEIQPRKEEIY DYALDMSQMYALTPPPMGEDPNVPQSHDSYQWITISDDSPPSPVET QIFEDPREFLTHLEDYLKQVGGTEEYWLSQIQNHMNGPAKKWWE YKQDSVKNWLEFKKEFLQYSEGTLTRDAIKQELDLPQKDGEPLDQ FLWRKRDLYQTLYIDAEEEEVIQYVVGTLQPKLKRFLSHPYPKTLE QLIQRGKEVEGNLDNSEEPSPQRSPKHQLGGSVESLPPSSTASPVAS DETHPDVSAPPVTVI

SEQ ID NO:9

GDGETQAENPSTSLNNTDEDILEQLKKIVMDQQHLYQKELKASFE QLSRKMFSQMEQMNSKQTDLLLEHQKQTVKHVDKRVEYLRAQF DASLGWRLKEQHADITTKIIPEIIQTVKEDISLCLSTLCSIAEDIQTSR ATTVTGHAAVQTHPVDLLGEHHLGTTGHPRLQSTRVGKPDDVPES PVSLFMQGEARSRIVGKSPIKLQFPTFGKANDSSDPLQYLERCEDFL ALNPLTDEELMATLRNVLHGTSRDWWDVARHKIQTWREFNKHFR AAFLSEDYEDELAERVRNRIQKEDESIRDFAYMYQSLCKRWNPAIC EGDVVKLILKNINPQLPSQLRSRVTTVDELVRLGQQLEKDRQNQLQYELRKSSGKIIQKSSSCETSALPNTKSTPNQQNPATSNRPPQVYC WRCKGHHAPASCPQWKADKHRAQPSRSSGPQTLTNLQAQDI

SEQ ID NO:10

GELDQRAAGGLRAYPAPRGGPVAKPSVILQIGKCRAEMLEHVRRT HRHLLTEVSKQVERELKGLHRSVGKLEGNLDGYVPTGDSQRWKK SIKACLCRCQETIANLERWVKREMHVWREVFYRLERWADRLESM GGKYPVGTNPSRHTVSVGVGGPEGYSHEADTYDYTVSPYAITPPP AAGELPGQEAVEAQQYPPWGLGEDGQPGPGVDTQIFEDPREFLSH LEEYLRQVGGSEEYWLSQIQNHMNGPAKKWWEFKQGSVKNWVE FKKEFLQYSEGTLSREAIQRELDLPQKQGEPLDQFLWRKRDLYQTL YVDAEEEEIIQYVVGTLQPKLKRFLRPPLPKTLEQLIQKGMEVQDG LEQAAEPASPRLPPEEESEALTPALTSESVASDRTQPE

SEQ ID NO:11

GQLDNVTNAGIHSFQGHRGVANKPNVILQIGKCRAEMLEHVRRTH RHLLSEVSKQVERELKGLQKSVGKLENNLEDHVPTDNQRWKKSIK ACLARCQETIAHLERWVKREMNVWKEVFFRLEKWADRLESMGG KYCPGEHGKQTVSVGVGGPEIRPSEGEIYDYALDMSQMYALTPGP GEVPSIPQAHDSYQWVSVSEDAPASPVETQIFEDPHEFLSHLEEYLK QVGGTEEYWLSQIQNHMNGPAKKWWEYKQDSVKNWVEFKKEFL QYSEGTLTRDAIKRELDLPQKEGEPLDQFLWRKRDLYQTLYVDAD EEEIIQYVVGTLQPKLKRFLSYPLPKTLEQLIQRGKEVQGNMDHSE EPSPQRTPEIQSGDSVESMPPSTTASPVPSNGTQPEPPSPPATVI

SEQ ID NO:12

GQLENINQGSLHAFQGHRGVVHNNKPNVILQIGKCRAEMLEHVRR THRHLLTEVSKQVERELKGLQKSVGKLENNLEDHVPSAAENQRW KKSIKACLARCQETIANLERWVKREMNVWKEVFFRLERWADRLE SGGGKYCHADQGRQTVSVGVGGPEVRPSEGEIYDYALDMSQMYA LTPPPMGDVPVIPQPHDSYQWVTDPEEAPPSPVETQIFEDPREFLTH LEDYLKQVGGTEEYWLSQIQNHMNGPAKKWWEYKQDSVKNWLE FKKEFLQYSEGTLTRDAIKQELDLPQKEGEPLDQFLWRKRDLYQT LYVEAEEEEVIQYVVGTLQPKLKRFLSHPYPKTLEQLIQRGKEVEG NLDNSEEPSPQRTPEHQLGDSVESLPPSTTASPAGSDKTQPEISLPPT TVI

SEQ ID NO:13

GQLDSVTNAGVHTYQGHRSVANKPNVILQIGKCRTEMLEHVRRT HRHLLTEVSKQVERELKGLQKSVGKLENNLEDHVPTDNQRWKKSI KACLARCQETIAHLERWVKREMNVWKEVFFRLERWADRLESMG GKYCPTDSARQTVSVGVGGPEIRPSEGEIYDYALDMSQMYALTPSP GELPSVPQPHDSYQWVTSPEDAPASPVETQVFEDPREFLCHLEEYL KQVGGTEEYWLSQIQNHMNGPAKKWWEYKQDTVKNWVEFKKE FLQYSEGTLTRDAIKRELDLPQKDGEPLDQFLWRKRDLYQTLYIDA DEEQIIQYVVGTLQPKLKRFLSYPLPKTLEQLIQKGKEVQGSLDHSE EPSPQRASEARTGDSVETLPPSTTTSPNTSSGTQPEAPSPPATVI

SEQ ID NO:14

GQLDSVTNAGVHTYQGHRGVANKPNVILQIGKCRTEMLEHVRRT HRHLLTEVSKQVERELKGLQKSVGKLENNLEDHVPTDNQRWKKSI KACLARCQETIAHLERWVKREMNVWKEVFFRLERWADRLESMG GKYCPTDSARQTVSVGVGGPEIRPSEGEIYDYALDMSQMYALTPSP GELPSIPQPHDSYQWVTSPEDAPASPVETQVFEDPREFLCHLEEYLK QVGGTEEYWLSQIQNHMNGPAKKWWEYKQDTVKNWVEFKKEFL QYSEGTLTRDAIKRELDLPQKDGEPLDQFLWRKRDLYQTLYIDAD EEQIIQYVVGTLQPKLKRFLSYPLPKTLEQLIQKGKEVQGSLDHSEE PSPQRASEARTGDSVESLPPSTTTSPNASSGTQPEAPSPPATVI

SEQ ID NO:15

GQLENVNHGNLHSFQGHRGGVANKPNVILQIGKCRAEMLDHVRR THRHLLTEVSKQVERELKGLQKSVGKLENNLEDHVPSAVENQRW KKSIKACLSRCQETIAHLERWVKREMNVWKEVFFRLERWADRLES GGGKYCHGDNHRQTVSVGVGGPEVRPSEGEIYDYALDMSQMYAL TPPSPGDVPVVSQPHDSYQWVTVPEDTPPSPVETQIFEDPREFLTHL EDYLKQVGGTEEYWLSQIQNHMNGPAKKWWEYKQDSVKNWLEF KKEFLQYSEGTLTRDAIKEELDLPQKDGEPLDQFLWRKRDLYQTL YVEADEEEVIQYVVGTLQPKLKRFLSHPYPKTLEQLIQRGKEVEGN LDNSEEPTPQRTPEHQLCGSVESLPPSSTVSPVASDGTQPETSPLPA TVI

SEQ ID NO:16

GPLTLLQDWCRGEHLNTRRCMLILGIPEDCGEDEFEETLQEACRHL GRYRVIGRMFRREENAQAILLELAQDIDYALLPREIPGKGGPWEVI VKPRNSDGEFLNRLNRFLEEERRTVSDMNRVLGSDTNCSAPRVTIS PEFWTWAQTLGAAVQPLLEQMLYRELRVFSGNTISIPGALAFDAW LEHTTEMLQMWQVPEGEKRRRLMECLRGPALQVVSGLRASNASI TVEECLAALQQVFGPVESHKIAQVKLCKAYQEAGEKVSSFVLRLE PLLQRAVENNVVSRRNVNQTRLKRVLSGATLPDKLRDKLKLMKQ RRKPPGFLALVKLLREEEEWEATLGPDRESLEGLEVAPRPPARITG VGAVPLPASGNSFDARPSQGYRRRRGRGQHRRGGVARAGSRGSR KRKRHTFCYSCGEDGHIRVQCINPSNLLLAKETKEILEGGEREAQT NSR

SEQ ID NO:17

GALTLLEDWCKGMDMDPRKALLIVGIPMECSEVEIQDTVKAGLQP LCAYRVLGRMFRREDNAKAVFIELADTVNYTTLPSHIPGKGGSWE VVVKPRNPDDEFLSRLNYFLKDEGRSMTDVARALGCCSLPAESLD AEVMPQVRSPPLEPPKESMWYRKLKVFSGTASPSPGEETFEDWLE QVTEIMPIWQVSEVEKRRRLLESLRGPALSIMRVLQANNDSITVEQ CLDALKQIFGDKEDFRASQFRFLQTSPKIGEKVSTFLLRLEPLLQKA VHKSPLSVRSTDMIRLKHLLARVAMTPALRGKLELLDQRGCPPNF LELMKLIRDEEEWENTEAVMKNKEKPSGRGRGASGRQARAEASV SAPQATVQARSFSDSSPQTIQGGLPPLVKRRRLLGSESTRGEDHGQ ATYPKAENQTPGREGPQAAGEELGNEAGAGAMSHPKPWET

SEQ ID NO:18

GAVTMLQDWCRWMGVNARRGLLILGIPEDCDDAEFQESLEAALR PMGHFTVLGKAFREEDNATAALVELDREVNYALVPREIPGTGGPW NVVFVPRCSGEEFLGLGRVFHFPEQEGQMVESVAGALGVGLRRVC WLRSIGQAVQPWVEAVRCQSLGVFSGRDQPAPGEESFEVWLDHTT EMLHVWQGVSERERRRRLLEGLRGTALQLVHALLAENPARTAQD CLAALAQVFGDNESQATIRVKCLTAQQQSGERLSAFVLRLEVLLQ KAMEKEALARASADRVRLRQMLTRAHLTEPLDEALRKLRMAGRS PSFLEMLGLVRESEAWEASLARSVRAQTQEGAGARAGAQAVARA STKVEAVPGGPGREPEGLLQAGGQEAEELLQEGLKPVLEECDN

SEQ ID NO:19

GAVTMLQDWCRWMGVNARRGLLILGIPEDCDDAEFQESLEAALR PMGHFTVLGKVFREEDNATAALVELDREVNYALVPREIPGTGGPW NVVFVPRCSGEEFLGLGRVFHFPEQEGQMVESVAGALGVGLRRVC WLRSIGQAVQPWVEAVRYQSLGVFSGRDQPAPGEESFEVWLDHT TEMLHVWQGVSERERRRRLLEGLRGTALQLVHALLAENPARTAQ DCLAALAQVFGDNESQATIRVKCLTAQQQSGERLSAFVLRLEVLL QKAMEKEALARASADRVRLRQMLTRAHLTEPLDEALRKLRMAGR SPSFLEMLGLVRESEAWEASLARSVRAQTQEGAGARAGAQAVAR ASTKVEAVPGGPGREPEGLRQAGGQEAEELLQEGLKPVLEECDN

SEQ ID NO:20

GVEDLAASYIVLKLENEIRQAQVQWLMEENAALQAQIPELQKSQA AKEYDLLRKSSEAKEPQKLPEHMNPPAAWEAQKTPEFKEPQKPPE PQDLLPWEPPAAWELQEAPAAPESLAPPATRESQKPPMAHEIPTVL EGQGPANTQDATIAQEPKNSEPQDPPNIEKPQEAPEYQETAAQLEF LELPPPQEPLEPSNAQEFLELSAAQESLEGLIVVETSAASEFPQAPIG LEATDFPLQYTLTFSGDSQKLPEFLVQLYSYMRVRGHLYPTEAAL VSFVGNCFSGRAGWWFQLLLDIQSPLLEQCESFIPVLQDTFDNPEN MKDANQCIHQLCQGEGHVATHFHLIAQELNWDESTLWIQFQEGLASSIQDELSHTSPATNLSDLITQCISLEEKPDPNPLGKSSSAEGDGPE SPPAENQPMQAAINCPHISEAEWVRWHKGRLCLYCGYPGHFARDC PVKPHQALQAGNIQACQ

SEQ ID NO:21

GVQPQTSKAESPALAASPNAQMDDVIDTLTSLRLTNSALRREASTL RAEKANLTNMLESVMAELTLLRTRARIPGALQITPPISSITSNGTRP MTTPPTSLPEPFSGDPGRLAGFLMQMDRFMIFQASRFPGEAERVAF LVSRLTGEAEKWAIPHMQPDSPLRNNYQGFLAELRRTYKSPLRHA RRAQIRKTSASNRAVRERQMLCRQLASAGTGPCPVHPASNGTSPA PALPARARNL

SEQ ID NO:22

GDGRVQLMKALLAGPLRPAARRWRNPIPFPETFDGDTDRLPEFIVQ TSSYMFVDENTFSNDALKVTFLITRLTGPALQWVIPYIRKESPLLND YRGFLAEMKRVFGWEEDEDF

SEQ ID NO:23

GEGRVQLMKALLARPLRPAARRWRNPIPFPETFDGDTDRLPEFIVQ TSSYMFVDENTFSNDALKVTFLITRLTGPALQWVIPYIKKESPLLSD YRGFLAEMKRVFGWEEDEDF

SEQ ID NO:24

GPRGRCRQQGPRIPIWAAANYANAHPWQQMDKASPGVAYTPLVD PWIERPCCGDTVCVRTTMEQKSTASGTCGGKPAERGPLAGHMPSS RPHRVDFCWVPGSDPGTFDGSPWLLDRFLAQLGDYMSFHFEHYQ DNISRVCEILRRLTGRAQAWAAPYLDGDLPLPDDYELFCQDLKEV VQDPNSFAEYHAVVTCPLPLASSQLPVAPQLPVVRQYLARFLEGL ALDMGTAPRSLPAAMATPAVSGSNSVSRSALFEQQLTKESTPGPKE PPVLPSSTCSSKPGPVEPASSQPEEAAPTPVPRLSESANPPAQRPDPA HPGGPKPQKTEEEVLETEGDQEVSLGTPQEVVEAPETPGEPPLSPGF

SEQ ID NO:25

GVDELVLLLHALLMRHRALSIENSQLMEQLRLLVCERASLLRQVR PPSCPVPFPETFNGESSRLPEFIVQTASYMLVNENRFCNDAMKVAF LISLLTGEAEEWVVPYIEMDSPILGDYRAFLDEMKQCFGWDDDEDDDDEEEEDDY

SEQ ID NO:26

GPVDLGQALGLLPSLAKAEDSQFSESDAALQEELSSPETARQLFRQ FRYQVMSGPHETLKQLRKLCFQWLQPEVHTKEQILEILMLEQFLTI LPGEIQMWVRKQCPGSGEEAVTLVESLKGDPQRLWQWISIQVLGQ DILSEKMESPSCQVGEVEPHLEVVPQELGLENSSSGPGELLSHIVKE ESDTEAELALAASQPARLEERLIRDQDLGASLLPAAPQEQWRQLDS TQKEQYWDLMLETYGKMVSGAGISHPKSDLTNSIEFGEELAGIYL HVNEKIPRPTCIGDRQENDKENLNLENHRDQELLHASCQASGEVPS QASLRGFFTEDEPGCFGEGENLPEALQNIQDEGTGEQLSPQERISEK QLGQHLPNPHSGEMSTMWLEEKRETSQKGQPRAPMAQKLPTCRE CGKTFYRNSQLIFHQRTHTGETYFQCTICKKAFLRSSDFVKHQRTH TGEKPCKCDYCGKGFSDFSGLRHHEKIHTGEKPYKCPICEKSFIQRS NFNRHQRVHTGEKPYKCSHCGKSFSWSSSLDKHQRSHLGKKPFQ

SEQ ID NO:27

GTLRLLEDWCRGMDMNPRKALLIAGISQSCSVAEIEEALQAGLAPL GEYRLLGRMFRRDENRKVALVGLTAETSHALVPKEIPGKGGIWRV IFKPPDPDNTFLSRLNEFLAGEGMTVGELSRALGHENGSLDPEQGM IPEMWAPMLAQALEALQPALQCLKYKKLRVFSGRESPEPGEEEFG RWMFHTTQMIKAWQVPDVEKRRRLLESLRGPALDVIRVLKINNPL ITVDECLQALEEVFGVTDNPRELQVKYLTTYHKDEEKLSAYVLRL EPLLQKLVQRGAIERDAVNQARLDQVIAGAVHKTIRRELNLPEDGP APGFLQLLVLIKDYEAAEEEEALLQAILEGNFT

SEQ ID NO:28

GTERRRDELSEEINNLREKVMKQSEENNNLQSQVQKLTEENTTLR EQVEPTPEDEDDDIELRGAAAAAAPPPPIEEECPEDLPEKFDGNPD MLAPFMAQCQIFMEKSTRDFSVDRVRVCFVTSMMTGRAARWASA KLERSHYLMHNYPAFMMEMKHVFEDPQRREVAKRKIRRLRQGM GSVIDYSNAFQMIAQDLDWNEPALIDQYHEGLSDHIQEELSHLEVA KSLSALIGQCIHIERRLARAAAARKPRSPPRALVLPHIASHHQVDPT EPVGGARMRLTQEEKERRRKLNLCLYCGTGGHYADNCPAKASKS SPAGKLPGPAVEGPSATGPEIIRSPQDDASSPHLQVMLQIHLPGRHT LFVRAMIDSGASGNFIDHEYVAQNGIPLRIKDWPILVEAIDGRPIAS GPVVHETHDLIVDLGDHREVLSFDVTQSPFFPVVLGVRWLSTHDP NITWSTRSIVFDSEYCRYHCRMYSPIPPSLPPPAPQPPLYYPVDGYR VYQPVRYYYVQNVYTPVDEHVYPDHRLVDPHIEMIPGAHSIPSGH VYSLSEPEMAALRDFVARNVKDGLITPTIAPNGAQVLQVKRGWKL QVSYDCRAPNNFTIQNQYPRLSIPNLEDQAHLATYTEFVPQIPGYQ TYPTYAAYPTYPVGFAWYPVGRDGQGRSLYVPVMITWNPHWYR QPPVPQYPPPQPPPPPPPPPPPPSYSTL

SEQ ID NO:29

GGGGAGCTGGACCACCGGACCAGCGGCGGGCTCCACGCCTACC CCGGGCCGCGGGGCGGGCAGGTGGCCAAGCCCAACGTGATCCT GCAGATCGGGAAGTGCCGGGCCGAGATGCTGGAGCACGTGCGG CGGACGCACCGGCACCTGCTGGCCGAGGTGTCCAAGCAGGTGG AGCGCGAGCTGAAGGGGCTGCACCGGTCGGTCGGGAAGCTGGAGAGCAACCTGGACGGCTACGTGCCCACGAGCGACTCGCAGCGC TGGAAGAAGTCCATCAAGGCCTGCCTGTGCCGCTGCCAGGAGA CCATCGCCAACCTGGAGCGCTGGGTCAAGCGCGAGATGCACGT GTGGCGCGAGGTGTTCTACCGCCTGGAGCGCTGGGCCGACCGC CTGGAGTCCACGGGCGGCAAGTACCCGGTGGGCAGCGAGTCAG CCCGCCACACCGTTTCCGTGGGCGTGGGGGGTCCCGAGAGCTAC TGCCACGAGGCAGACGGCTACGACTACACCGTCAGCCCCTACG CCATCACCCCGCCCCCAGCCGCTGGCGAGCTGCCCGGGCAGGA GCCCGCCGAGGCCCAGCAGTACCAGCCGTGGGTCCCCGGCGAG GACGGGCAGCCCAGCCCCGGCGTGGACACGCAGATCTTCGAGG ACCCTCGAGAGTTCCTGAGCCACCTAGAGGAGTACTTGCGGCA GGTGGGCGGCTCTGAGGAGTACTGGCTGTCCCAGATCCAGAAT CACATGAACGGGCCGGCCAAGAAGTGGTGGGAGTTCAAGCAGG GCTCCGTGAAGAACTGGGTGGAGTTCAAGAAGGAGTTCCTGCA GTACAGCGAGGGCACGCTGTCCCGAGAGGCCATCCAGCGCGAG CTGGACCTGCCGCAGAAGCAGGGCGAGCCGCTGGACCAGTTCC TGTGGCGCAAGCGGGACCTGTACCAGACGCTCTACGTGGACGC GGACGAGGAGGAGATCATCCAGTACGTGGTGGGCACCCTGCAG CCCAAGCTCAAGCGTTTCCTGCGCCACCCCCTGCCCAAGACCCTGGAGCAGCTCATCCAGAGGGGCATGGAGGTGCAGGATGACCTG GAGCAGGCGGCCGAGCCGGCCGGCCCCCACCTCCCGGTGGAGG ATGAGGCGGAGACCCTCACGCCCGCCCCCAACAGCGAGTCCGTGGCCAGTGACCGGACCCAGCCCGAG

SEQ ID NO:30

GGGGAATTGGATCAACGTACTACCGGTGGCCTTCACGCATACCC TGCACCACGCGGGGGCCCTGTCGCGAAGCCAAATGTCATCCTGC AGATTGGGAAGTGCCGGGCTGAGATGCTGGAGCACGTCCGTCG GACGCATCGTCATCTTCTTACTGAGGTGTCAAAACAGGTGGAGC GTGAACTCAAAGGCTTGCACCGCAGCGTTGGGAAACTTGAAAG CAACTTAGATGGCTATGTGCCGACTGGCGACAGCCAGCGTTGGC GTAAGTCCATCAAAGCATGTTTGTGTCGTTGCCAGGAAACGATT GCAAACCTGGAGCGTTGGGTCAAACGGGAGATGCATGTCTGGC GTGAAGTATTTTATCGTTTAGAGCGTTGGGCCGATCGTTTAGAG AGCATGGGTGGTAAGTACCCTGTGGGGAGCAACCCTTCTCGGC ATACGACGTCAGTCGGTGTTGGCGGGCCGGAGTCCTACGGTCAT GAAGCGGACACCTACGACTATACCGTAAGCCCTTATGCTATTAC CCCACCACCTGCGGCCGGCGAATTACCTGGCCAGGAAGCCGTT GAGGCTCAACAATACCCTCCTTGGGGGCTGGGCGAGGATGGTC AACCTAGCCCAGGGGTAGACACGCAAATCTTTGAGGACCCACG GGAGTTTCTTTCCCACCTGGAAGAATACCTGCGTCAGGTTGGTG GGAGCGAAGAATACTGGCTGTCACAAATTCAAAACCATATGAA TGGTCCTGCAAAAAAATGGTGGGAATATAAACAGGGTTCCGTG AAAAACTGGGTTGAGTTTAAAAAGGAGTTTCTTCAATATTCCGA GGGCGCCCTCAGTCGGGAGGCGGTCCAACGCGAGTTGGACTTG CCACAGAAACAGGGGGAACCACTCGATCAATTCCTTTGGCGGA AACGTGACCTTTACCAGACATTGTACGTGGATGCAGATGAGGA AGAAATTATCCAATATGTTGTGGGGACCCTGCAGCCGAAACTG AAACGTTTCCTTCGCCCGCCGCTGCCTAAAACGTTGGAACAACT TATTCAGAAAGGTATGGAGGTCGAGGATGGCTTAGAACAAGTC GCAGAGCCGGCCTCGCCACACTTGCCTACAGAGGAGGAATCGG AGGCGCTGACCCCAGCACTTACATCAGAGTCAGTGGCATCAGACCGGACACAACCAGAG

SEQ ID NO:31

GGGGAGTTAGATCACCGTACAACGGGGGGGTTGCACGCATACC CTGCTCCACGTGGCGGGCCGGCAGCTAAGCCAAACGTAATCCT GCAGATTGGGAAGTGCCGGGCAGAGATGTTGGAGCACGTCCGG CGGACCCACCGGCACCTCCTGGCTGAAGTGTCTAAACAAGTAG AACGGGAACTCAAAGGTCTTCATCGTAGCGTCGGGAAATTGGAATCGAATTTGGACGGGTATGTTCCTACAGGCGACTCACAGCGGT GGAAAAAGAGCATCAAGGCCTGCCTGAGTCGCTGCCAGGAGAC GATTGCTAACCTCGAACGCTGGGTTAAGCGGGAGATGCACGTTT GGCGCGAAGTCTTCTACCGGCTGGAGCGTTGGGCTGATCGGCTC GAATCTGGTGGGGGTAAGTATCCAGTTGGGTCCGACCCTGCTCG CCACACAGTCTCAGTTGGCGTAGGTGGGCCGGAGTCGTATTGCC AAGATGCGGACAACTATGATTATACAGTTTCCCCATACGCGATC ACACCACCGCCGGCAGCAGGGCAGCTGCCAGGTCAGGAAGAGG TTGAGGCCCAGCAGTATCCACCATGGGCCCCAGGGGAAGACGG CCAGCTTTCTCCTGGGGTGGACACTCAAGTTTTTGAAGATCCGC GTGAATTTCTGCGGCATTTAGAAGATTATCTCCGCCAGGTCGGG GGGTCTGAAGAGTATTGGTTAAGCCAAATTCAAAACCATATGA ACGGCCCGGCCAAGAAGTGGTGGGAGTACAAGCAAGGGTCTGT GAAAAATTGGGTGGAGTTTAAGAAAGAATTCTTGCAATATTCTG AGGGCACTCTTTCGCGTGAAGCCATCCAACGCGAACTCGACTTA CCGCAGAAACAAGGGGAACCTCTCGACCAATTTCTGTGGCGCA AACGCGACCTGTACCAGACTCTTTACGTCGATGCTGAGGAGGA AGAAATTATTCAATACGTAGTTGGCACACTGCAGCCTAAGCTTA AACGGTTTTTACGTCCACCATTGCCGAAGACGCTTGAACAACTC ATCCAGAAGGGTATGGAGGTTCAAGATGGTCTGGAACAGGCAG CGGAACCAGCGGCGGAGGAGGCAGAAGCCCTGACACCTGCGTT AACTAACGAGTCTGTCGCGAGCGACCGCACCCAGCCGGAA

SEQ ID NO:32

GGGGAATTAGACCGCCTGAACCCAAGCTCAGGCCTGCATCCAT CCTCTGGTTTGCATCCATACCCAGGTCTCCGGGGCGGGGCAACC GCGAAGCCTAATGTCATTTTGCAAATTGGCAAATGCCGTGCGGA AATGCTTGAACACGTCCGCAAAACTCACCGTCATCTCCTCACAG AAGTATCGCGCCAAGTAGAACGCGAGCTCAAAGGCCTTCACAA AAGTGTTGGCAAGTTGGAATCAAATCTTGATGGGTACGTACCGT CAAGCGACTCCCAACGCTGGAAGAAAAGCATTAAGGCGTGCTT ATCCCGTTGCCAAGAGACGATTGCGCATTTAGAACGCTGGGTTA AACGTGAAATGAATGTATGGCGTGAGGTGTTCTACCGTTTGGAA CGTTGGGCGGACCGTCTGGAGGCTATGGGCGGTAAGTATCCTGC CGGTGAGCAGGCCCGGCGTACAGTTTCAGTGGGCGTTGGGGGC CCTGAGACATGTTGTCCAGGGGATGAAAGTTATGATTGTCCGAT TTCTCCGTATGCAGTTCCACCTTCCACCGGCGAGTCTCCGGAAT CCTTAGACCAAGGGGATCAGCACTATCAGCAGTGGTTTGCCCTC CCGGAGGAGTCCCCTGTTAGCCCTGGGGTTGATACCCAGATCTT TGAAGATCCTCGCGAGTTTTTACGTCATCTGGAGAAGTACCTGA AACAAGTCGGCGGGACAGAGGAAGACTGGCTTTCTCAAATCCA GAATCACATGAATGGGCCGGCGAAGAAGTGGTGGGAGTACAAG CAAGGGAGTGTTAAGAATTGGCTTGAATTTAAGAAGGAATTTTT ACAGTATTCGGAGGGCACACTGACGCGGGACGCGTTGAAACGT GAACTGGATCTCCCACAGAAACAAGGCGAACCACTTGATCAAT TTTTATGGCGGAAGCGCGACTTATATCAGACACTCTACGTTGACGCCGATGAAGAGGAAATCATTCAGTACGTCGTGGGCACTCTTCA GCCGAAATTAAAACGCTTTCTCCATCACCCACTCCCTAAGACGC TTGAGCAGCTTATCCAACGGGGCCAAGAAGTTCAGAATGGTCT GGAGCCTACCGACGATCCTGCAGGCCAACGCACTCAATCGGAG GACAACGACGAAAGCCTTACCCCTGCCGTCACCAATGAGAGTACTGCAAGCGAGGGCACCCTGCCAGAG

SEQ ID NO:33

GGGCAGCTTGATAACGTTACAAACGCGGGCATCCACTCCTTCCA GGGGCATCGTGGCGTAGCGAATAAGCCAAATGTCATTCTGCAA ATTGGTAAATGTCGTGCGGAAATGCTGGAGCACGTTCGCCGCAC CCACCGCCATTTATTATCTGAAGTATCTAAGCAGGTAGAACGTG AGCTGAAAGGGCTGCAAAAGTCCGTGGGCAAGCTCGAGAATAA CTTGGAGGATCATGTCCCTACAGATAACCAACGCTGGAAGAAG TCCATTAAAGCGTGCTTGGCTCGTTGTCAAGAGACTATCGCGCA TTTAGAGCGTTGGGTGAAACGCGAAATGAACGTCTGGAAGGAG GTGTTTTTCCGGCTGGAAAAGTGGGCAGACCGGCTGGAGTCAAT GGGTGGCAAGTACTGCCCGGGCGAACACGGGAAACAAACCGTC AGTGTAGGCGTGGGGGGTCCTGAAATCCGGCCTTCGGAGGGGG AAATTTATGATTATGCTCTGGATATGAGCCAGATGTATGCACTC ACCCCACCTCCAGGCGAAATGCCATCAATCCCACAAGCCCATG ACAGCTATCAGTGGGTTAGTGTCTCAGAAGATGCCCCGGCGAG CCCTGTCGAAACCCAGGTATTTGAGGACCCTCGGGAATTCCTGT CTCACCTGGAGGAATACCTGAAGCAGGTAGGCGGCACGGAGGA GTATTGGTTGTCCCAGATCCAGAATCACATGAATGGTCCGGCAA AAAAATGGTGGGAATATAAACAGGACTCCGTTAAAAACTGGGT TGAGTTTAAAAAGGAATTCTTGCAATACTCTGAAGGTACTTTAA CTCGGGATGCTATTAAGCGTGAACTCGACTTGCCGCAAAAGGA AGGTGAACCTCTTGACCAATTCCTTTGGCGGAAGCGGGACCTCT ATCAGACACTTTACGTGGACGCGGATGAGGAGGAGATCATTCA GTATGTGGTCGGTACCCTGCAGCCGAAGCTCAAGCGTTTCCTGA GCTATCCTCTCCCAAAGACTTTAGAACAGCTCATCCAGCGCGGT AAAGAAGTGCAGGGTAACATGGATCACTCCGATGAGCCTTCGC CGCAGCGTACACCTGAAATTCAATCAGGTGACTCCGTAGAATCT ATGCCACCTTCAACAACGGCATCTCCGGTTCCATCTAATGGTAC CCAACCTGAGCCGCCGAGCCCGCCAGCCACCGTTATC

SEQ ID NO:34

GGGCAACTTGACAACGTAACAAACGCTGGGATTCACTCCTTTCA GGGCCACCGCGGTGTCGCCAACAAGCCAAACGTAATCTTGCAA ATTGGCAAATGCCGTGCGGAGATGTTGGAACACGTTCGTCGTAC ACATCGTCACTTGCTGTCGGAAGTCTCTAAACAAGTAGAACGTG AACTTAAAGGGCTTCAAAAGTCAGTCGGCAAATTGGAAAACAA CCTTGAAGACCATGTACCAACCGACAATCAGCGTTGGAAAAAG TCTATCAAAGCTTGCCTGGCCCGTTGTCAAGAGACGATTGCTCA CCTGGAGCGGTGGGTAAAGCGCGAGATGAATGTGTGGAAAGAG GTCTTCTTCCGCTTGGAAAAATGGGCCGACCGTTTGGAGTCCAT GGGCGGTAAATATTGTCCGGGTGAACATGGTAAGCAAACAGTC TCTGTGGGCGTTGGTGGGCCGGAGATTCGGCCTTCTGAAGGCGA GATTTACGATTATGCGCTCGACATGTCCCAGATGTATGCGCTTA CACCACCACCGGGCGAGGTACCAAGCATTCCTCAAGCGCATGA CAGTTATCAGTGGGTTAGCGTATCCGAAGACGCTCCTGCCTCGC CGGTAGAGACCCAGGTTTTTGAAGATCCTCGTGAATTTTTAAGC CACTTGGAGGAGTATTTGAAGCAGGTAGGGGGGACAGAGGAAT ATTGGCTGTCTCAGATCCAGAACCACATGAATGGCCCGGCTAAA AAGTGGTGGGAATACAAACAAGATTCGGTAAAGAATTGGGTAG AATTTAAAAAGGAGTTTTTACAGTACTCAGAGGGGACTCTCACG CGTGATGCGATCAAACGCGAGTTGGATCTTCCTCAAAAAGAGG GGGAGCCACTCGATCAGTTCCTCTGGCGCAAGCGGGATCTCTAC CAAACACTCTACGTAGACGCAGACGAAGAAGAGATCATCCAGTACGTGGTGGGTACGCTCCAGCCGAAACTCAAACGTTTCCTCAGC TACCCACTTCCTAAGACTCTGGAACAACTGATTCAGCGGGGCAA AGAGGTCCAGGGTAACATGGACCATTCAGAGGAACCTAGTCCG CAACGTACACCTGAGATCCAATCTGGGGATTCTGTCGATTCGGT TCCACCTTCTACAACAGCGTCTCCGGTGCCGTCAAATGGGACCCAACCAGAG

SEQ ID NO:35

GGGCAGCTTGATAATGTAACCAATGCAGGTATCCACTCTTTCCA GGGTCACCGCGGTGTGGCAAACAAGCCAAATGTTATTCTGCAA ATTGGTAAGTGTCGCGCTGAGATGTTAGAACACGTCCGGCGCAC GCATCGGCATCTCCTGTCAGAGGTTTCAAAGCAGGTAGAGCGTG AATTAAAGGGCCTCCAGAAGTCCGTAGGTAAACTCGAAAATAA TCTTGAAGACCACGTTCCTACCGATAATCAACGGTGGAAAAAGT CAATCAAGGCGTGCTTAGCACGGTGTCAGGAAACGATCGCGCA CCTCGAACGTTGGGTGAAGCGCGAAATGAATGTCTGGAAAGAA GTGTTCTTCCGGCTTGAGAAGTGGGCTGATCGGCTCGAATCCAT GGGTGGCAAATATTGTCCAGGTGATCATGGCAAGCAAACGGTC TCCGTCGGTGTTGGTGGTCCGGAAATCCGGCCGAGCGAGGGTG AAATCTATGACTACGCTCTTGATATGTCCCAGATGTATGCACTC ACTCCTCCGCCGGGTGAGGTCCCGTCGATCCCGCAGGCGCATGA CTCATACCAATGGGTGTCGACTAGCGAAGACGCACCAGCCTCCC CTGTTGAAACTCAAGTATTCGAGGACCCGCGTGAGTTCCTGAGC CATTTAGAGGAGTACCTTAAGCAGGTTGGTGGTACCGAGGAAT ACTGGTTGAGCCAGATTCAGAATCACATGAACGGGCCGGCTAA GAAATGGTGGGAATACAAGCAGGATTCAGTCAAGAATTGGGTC GAATTTAAGAAGGAGTTTTTGCAGTACAGTGAGGGGACGCTCA CACGCGACGCTATCAAACGGGAGCTGGACCTGCCACAAAAGGA GGGTGAACCGCTTGATCAGTTTCTTTGGCGCAAGCGTGATCTGT ATCAAACCCTGTATGTGGACGCTGACGAAGAAGAGATCATTCA GTACGTGGTTGGGACTCTGCAACCAAAGCTGAAGCGTTTTCTTT CTTATCCTCTCCCTAAGACACTGGAACAGTTAATCCAACGTGGC AAGGAGGTCCAGGGTAATATGGACCACTCTGAGGAACCGAGCC CGCAACGTACTCCTGAAATTCAGAGCGGGGATAGTGTCGACTC AGTTCCTCCAAGTACGACCGCATCCCCGGTCCCAAGTAACGGTACCCAACCAGAG

SEQ ID NO:36

GGGTCTTGGGGCTTGCAACGTCACGTGGCTGATGAACGTCGTGG CCTCGCTACGCCTACCTACGGCGCGGTTTGTTCCATTCGGGAGA AAAAAGCCTCCCAACTGAGCGGCCAGAGCTGTTTGGAGAAAGA GTTGCTTGGTTGGAAATGTACGGAGGCAATCGTGGAAATGATG CAAGTCGATAACTTTAACCACGGTAACTTACATAGCTGCCAAGG CCATCGGGGGATGGCAAATCACAAACCGAACGTAATCCTTCAA ATCGGGAAATGTCGCGCAGAAATGTTAGACCACGTGCGTCGCA CCCACCGCCATCTCTTGACGGAGGTTTCGAAGCAGGTAGAACGC GAATTGAAGTCTCTCCAAAAGTCGGTTGGCAAGCTCGAGAATA ATCTGGAAGACCACGTGCCATCGGCAGCGGAGAACCAACGTTG GAAGAAATCAATTAAAGCCTGCCTGGCCCGGTGCCAAGAAACA ATTGCTCACCTCGAACGCTGGGTTAAACGCGAAATCAACGTCTG GAAAGAAGTATTCTTTCGTCTGGAGAAGTGGGCGGACCGCCTTG AGTCGGGTGGGGGCAAGTATGGGCCTGGTGACCAAAGTCGTCA AACTGTAAGTGTCGGTGTTGGGGCCCCAGAAATCCAACCGCGG AAAGAAGAAATCTATGACTACGCTCTCGACATGTCGCAGATGT ATGCCTTAACACCACCGCCGATGGGTGAAGACCCAAACGTACCTCAATCCCACGATAGCTACCAGTGGATTACCATCTCAGACGATT CACCTCCGTCGCCAGTGGAAACTCAAATTTTCGAGGATCCACGC GAATTCCTTACCCATCTCGAGGATTATCTTAAGCAAGTGGGCGG GACTGAAGAATATTGGTTGAGTCAGATTCAAAATCATATGAAC GGTCCGGCCAAGAAATGGTGGGAGTACAAACAAGATTCCGTGA AAAACTGGTTGGAATTCAAGAAGGAATTCCTTCAATACTCTGAG GGTACTTTGACACGTGACGCAATTAAACAAGAACTTGACTTACC GCAGAAGGACGGCGAGCCATTGGATCAATTTCTTTGGCGGAAG CGGGACCTGTATCAGACGCTCTATATTGATGCAGAGGAGGAAG AAGTAATCCAATACGTTGTTGGCACACTCCAACCGAAATTAAAA CGTTTCCTTTCCCACCCGTATCCGAAAACTTTGGAACAGTTAAT CCAACGTGGGAAAGAGGTGGAAGGCAACCTCGATAACTCTGAG GAGCCTAGCCCGCAACGGAGTCCAAAGCACCAATTGGGTGGTA GCGTCGAGAGCCTCCCACCTTCGTCGACCGCAAGTCCTGTTGCG TCAGACGAGACTCACCCAGACGTGAGCGCACCTCCGGTAACGG TGATT

SEQ ID NO:37

GGGGACGGCGAGACTCAAGCTGAGAATCCATCTACCAGCTTGA ACAACACTGACGAAGATATCTTGGAACAGCTCAAGAAAATTGT CATGGATCAACAACACCTGTATCAGAAAGAATTAAAGGCATCT TTTGAACAACTCAGTCGCAAAATGTTTTCCCAGATGGAACAAAT GAATAGCAAGCAAACGGATCTGCTTTTAGAACATCAAAAACAGACTGTCAAACATGTAGACAAGCGCGTGGAGTATTTGCGGGCGC AATTCGATGCATCGTTAGGCTGGCGGTTGAAAGAGCAACACGC GGATATTACGACCAAAATCATTCCTGAGATCATCCAAACGGTGA AGGAAGATATTAGCCTGTGTCTTTCTACGCTCTGCAGTATCGCT GAAGATATCCAGACATCACGGGCTACCACTGTCACAGGGCATG CTGCCGTACAAACCCATCCTGTGGATCTTTTGGGTGAACACCAT TTAGGGACCACGGGGCACCCACGCTTACAGTCGACCCGTGTAG GGAAACCAGACGACGTACCTGAGTCGCCGGTAAGCCTGTTTAT GCAAGGTGAGGCGCGTTCCCGGATCGTTGGCAAGAGTCCGATT AAACTGCAATTTCCGACGTTCGGCAAAGCAAACGATTCTTCCGA CCCACTCCAATATCTGGAGCGGTGTGAGGACTTTCTTGCTCTTA ACCCTTTAACTGATGAGGAACTTATGGCTACTTTGCGGAATGTGTTACATGGCACCTCTCGGGATTGGTGGGATGTCGCACGTCATAA AATCCAAACTTGGCGTGAGTTTAATAAACACTTCCGGGCGGCTT TCCTCAGCGAGGATTATGAAGATGAGTTGGCTGAGCGCGTCCGT AACCGCATCCAAAAAGAAGATGAGTCTATCCGCGATTTCGCTTA TATGTATCAGTCCTTGTGCAAGCGGTGGAACCCTGCTATCTGCG AAGGTGATGTAGTAAAGCTCATCCTGAAGAACATCAATCCACA ACTGCCGTCTCAGTTACGCTCCCGGGTCACGACCGTGGATGAGC TTGTTCGCTTGGGCCAGCAGCTTGAAAAAGATCGTCAGAATCAG CTCCAATATGAGCTTCGGAAGAGTTCCGGCAAAATTATCCAAAA ATCTAGTTCGTGCGAAACTTCAGCGCTCCCGAACACGAAGAGTA CACCTAATCAACAAAACCCTGCTACCAGTAACCGTCCTCCACAG GTGTATTGCTGGCGGTGTAAGGGTCACCATGCCCCTGCCTCTTG TCCGCAATGGAAAGCTGATAAGCACCGTGCGCAACCTTCGCGG AGTTCTGGGCCACAAACTCTGACTAATCTCCAAGCTCAAGACAT C

SEQ ID NO:38

GGGGAATTGGATCAACGTGCGGCAGGGGGCTTGCGCGCGTACC CGGCGCCGCGTGGTGGTCCAGTTGCCAAACCGAGCGTAATTCTT CAGATTGGTAAGTGCCGCGCTGAGATGCTGGAACACGTCCGCC GCACGCATCGCCATCTTCTGACGGAGGTAAGTAAACAAGTGGA GCGCGAACTCAAGGGGTTACATCGGTCTGTCGGTAAGTTGGAGGGCAATTTAGACGGCTATGTGCCTACCGGTGATTCCCAACGCTG GAAAAAAAGTATCAAGGCGTGTCTCTGCCGGTGTCAGGAAACA ATTGCAAATCTCGAGCGTTGGGTGAAACGTGAGATGCATGTTTG GCGTGAGGTATTCTATCGTTTGGAACGGTGGGCAGACCGTTTGG AGTCTATGGGGGGCAAGTATCCGGTGGGCACTAACCCGTCGCG GCACACAGTAAGTGTCGGGGTAGGGGGCCCGGAAGGCTATTCT CATGAAGCGGATACTTATGACTACACGGTGTCTCCGTATGCTAT CACGCCACCGCCTGCCGCGGGTGAGTTGCCTGGTCAAGAGGCT GTCGAGGCACAACAGTACCCTCCATGGGGTCTGGGGGAGGACG GGCAACCAGGTCCGGGCGTGGACACGCAGATTTTTGAGGACCC TCGCGAATTTTTGAGCCACTTAGAGGAGTACCTGCGGCAAGTAG GGGGGAGTGAAGAGTACTGGTTATCGCAAATTCAAAATCATATGAATGGCCCTGCGAAGAAATGGTGGGAGTTCAAACAGGGGTCA GTCAAGAATTGGGTCGAGTTTAAGAAAGAATTTTTGCAATACAG TGAGGGTACGTTGAGTCGCGAGGCCATCCAACGTGAACTGGAC CTCCCTCAGAAGCAGGGGGAGCCGTTAGATCAATTTTTATGGCG GAAACGTGACTTATACCAAACCCTCTACGTTGACGCTGAGGAA GAAGAAATTATTCAATATGTTGTCGGTACGCTGCAGCCAAAGCT GAAGCGGTTCCTCCGTCCTCCACTCCCTAAAACCTTAGAACAAT TAATCCAAAAAGGCATGGAAGTTCAGGACGGGTTAGAACAAGC GGCCGAACCGGCCTCTCCGCGTCTGCCGCCGGAAGAGGAGAGT GAGGCTCTTACGCCTGCGCTCACGAGCGAATCAGTAGCCTCCGATCGGACACAGCCAGAG

SEQ ID NO:39

GGGCAGCTTGACAATGTGACGAACGCGGGGATTCACAGCTTTC AAGGGCACCGCGGCGTCGCCAACAAACCGAATGTCATTCTGCA AATCGGTAAATGTCGTGCTGAAATGCTTGAGCACGTTCGTCGTA CCCATCGTCACTTGCTTTCTGAAGTATCAAAACAAGTGGAGCGG GAACTCAAAGGCCTGCAAAAGTCAGTGGGTAAATTGGAGAATAACCTCGAAGACCATGTACCTACAGACAACCAGCGGTGGAAAAA ATCTATCAAGGCATGCCTCGCTCGTTGCCAGGAGACTATTGCCC ATCTTGAGCGGTGGGTGAAACGTGAAATGAACGTATGGAAGGA AGTATTTTTTCGCTTAGAGAAGTGGGCTGATCGTCTTGAATCGA TGGGCGGCAAGTACTGTCCTGGGGAACACGGCAAACAAACTGT ATCTGTCGGCGTGGGGGGCCCGGAGATCCGGCCATCGGAAGGG GAAATTTATGATTATGCTCTCGACATGTCCCAAATGTATGCTCT CACACCAGGGCCAGGGGAAGTACCGTCAATTCCGCAAGCACAC GACAGCTACCAATGGGTATCTGTGAGCGAGGACGCGCCTGCCT CTCCGGTTGAGACGCAAATCTTTGAGGACCCACATGAATTTTTG TCTCATCTTGAAGAATATCTCAAACAGGTTGGCGGCACAGAAG AATACTGGTTATCTCAGATCCAGAATCACATGAACGGCCCGGCTAAAAAGTGGTGGGAGTATAAGCAAGATTCCGTAAAGAACTGGG TCGAATTCAAGAAAGAGTTTCTTCAATACTCTGAGGGTACTCTG ACGCGCGATGCAATTAAGCGGGAGTTAGACCTTCCACAAAAAG AGGGGGAGCCTCTTGACCAGTTCCTGTGGCGTAAGCGCGACCTC TATCAGACACTTTACGTCGACGCTGATGAAGAAGAGATTATTCA ATATGTTGTGGGTACCCTGCAGCCAAAGCTTAAGCGTTTCCTTA GCTACCCACTTCCGAAAACTCTGGAGCAGCTCATTCAACGCGGT AAGGAAGTGCAGGGCAACATGGACCACTCTGAAGAGCCTAGCC CGCAGCGCACTCCTGAAATCCAATCAGGTGACAGTGTGGAGTC AATGCCGCCGTCAACCACCGCTTCTCCGGTACCTAGCAACGGGA CGCAACCAGAGCCTCCAAGCCCACCGGCTACAGTCATC

SEQ ID NO:40

GGGCAACTTGAGAATATTAACCAAGGTTCCCTGCACGCGTTTCA GGGTCATCGCGGCGTGGTCCATAACAACAAGCCTAACGTTATTC TCCAGATCGGGAAGTGCCGCGCCGAAATGCTGGAGCATGTGCG GCGCACCCATCGCCATTTGCTCACTGAAGTATCAAAACAGGTGG AGCGTGAGTTGAAGGGGTTGCAGAAAAGTGTAGGCAAACTTGA AAATAATTTAGAAGACCACGTACCAAGTGCGGCTGAGAACCAA CGCTGGAAGAAGTCGATTAAAGCCTGCTTAGCGCGTTGTCAGG AGACCATTGCGAACTTGGAACGCTGGGTTAAACGTGAGATGAA TGTTTGGAAGGAGGTCTTTTTCCGCTTAGAGCGCTGGGCAGATC GCCTCGAATCCGGGGGTGGCAAGTACTGCCATGCAGACCAGGG TCGCCAAACTGTCAGCGTAGGTGTTGGTGGTCCTGAAGTGCGTC CGTCTGAAGGTGAAATTTACGATTACGCGTTGGATATGAGCCAA ATGTACGCCTTGACTCCGCCGCCTATGGGTGATGTTCCAGTAAT TCCTCAGCCGCATGACAGTTATCAGTGGGTGACAGATCCGGAA GAAGCGCCACCAAGTCCGGTTGAGACACAAATTTTCGAGGACC CTCGGGAGTTTCTGACCCATCTTGAGGATTATTTAAAACAAGTC GGCGGGACAGAGGAATATTGGCTCTCACAGATCCAAAATCATA TGAATGGGCCAGCGAAAAAGTGGTGGGAATATAAACAGGATAG TGTGAAGAACTGGCTTGAGTTCAAAAAAGAATTCTTGCAGTACT CAGAAGGCACGTTAACGCGGGACGCTATTAAACAGGAACTTGA CCTTCCACAAAAAGAAGGGGAACCGCTGGATCAATTCCTCTGG CGCAAACGCGATTTGTACCAAACTCTCTACGTCGAGGCAGAAG AAGAGGAGGTCATCCAATATGTAGTTGGCACACTGCAACCAAA ACTGAAGCGGTTTCTTTCTCATCCGTACCCTAAAACCCTGGAGC AACTCATCCAGCGCGGGAAGGAAGTTGAGGGGAATTTGGACAA TAGTGAAGAACCGTCTCCACAGCGGACCCCAGAACATCAGCTG GGGGACAGTGTGGAATCTTTGCCGCCTAGTACTACGGCTTCGCC TGCCGGTTCGGATAAAACGCAACCTGAGATTAGCTTACCTCCAA CTACAGTCATT

SEQ ID NO:41

GGGCAATTAGATTCGGTAACCAATGCGGGCGTCCACACCTACC AGGGCCATCGGAGCGTCGCCAATAAACCTAACGTCATTCTTCAA ATCGGGAAATGTCGGACTGAGATGCTGGAGCATGTCCGTCGGA CTCATCGCCACCTGCTCACAGAAGTGTCAAAGCAAGTGGAACG TGAACTCAAGGGCTTACAGAAGAGCGTGGGCAAACTGGAAAACAATCTTGAAGACCATGTCCCAACTGACAATCAGCGGTGGAAGA AGTCAATCAAGGCATGTCTCGCGCGTTGCCAAGAGACCATTGCT CACCTTGAGCGGTGGGTGAAACGTGAAATGAACGTGTGGAAGG AGGTGTTCTTCCGGTTAGAACGCTGGGCCGACCGCCTTGAATCA ATGGGTGGTAAATACTGCCCGACGGACTCTGCACGTCAGACAG TTAGCGTTGGGGTGGGGGGCCCGGAAATTCGGCCTAGTGAAGG CGAAATCTATGACTACGCGCTCGATATGAGCCAAATGTACGCTC TTACGCCGTCACCGGGCGAATTGCCGTCCGTCCCTCAACCGCAT GATTCATACCAGTGGGTCACTAGTCCGGAAGACGCTCCGGCGTC ACCAGTTGAAACGCAGGTATTCGAGGATCCTCGGGAGTTCTTGT GTCATTTGGAAGAGTACCTGAAGCAGGTTGGCGGTACAGAGGA ATATTGGCTGAGCCAGATTCAGAATCATATGAATGGTCCTGCAA AAAAGTGGTGGGAATATAAACAAGACACGGTTAAGAATTGGGT GGAATTCAAGAAGGAGTTCTTACAATACAGTGAGGGTACACTT ACCCGTGATGCGATTAAGCGGGAATTAGACCTCCCGCAAAAGG ACGGTGAGCCTCTGGATCAATTTTTATGGCGTAAGCGTGACCTC TATCAGACATTATACATTGATGCCGATGAAGAACAGATCATTCA GTACGTCGTGGGGACATTGCAACCTAAACTCAAGCGGTTCTTGT CCTATCCACTTCCAAAAACTCTTGAACAATTAATCCAGAAAGGG AAGGAGGTGCAGGGTTCACTTGACCACAGCGAGGAGCCGAGTC CTCAACGTGCGAGCGAGGCTCGGACGGGCGATAGTGTGGAAAC CTTGCCGCCTTCTACCACTACATCACCAAATACGTCATCTGGTA CACAGCCAGAGGCACCATCGCCTCCAGCGACGGTAATC

SEQ ID NO:42

GGGCAGTTAGACAGTGTGACTAACGCCGGGGTGCATACGTACC AGGGGCACCGCGGGGTCGCCAATAAGCCAAATGTAATTCTCCA GATTGGGAAGTGTCGTACAGAGATGTTGGAACATGTCCGTCGC ACTCATCGCCACTTGCTCACCGAGGTCTCCAAACAAGTAGAACG CGAACTCAAGGGGCTCCAGAAGAGTGTTGGGAAGTTGGAGAATAACCTCGAAGACCACGTTCCGACAGATAACCAACGGTGGAAAA AGTCTATTAAAGCCTGTCTCGCCCGTTGTCAAGAGACAATCGCA CACTTGGAACGCTGGGTCAAACGGGAGATGAATGTGTGGAAGG AAGTCTTCTTCCGTCTCGAGCGGTGGGCGGATCGTTTAGAAAGT ATGGGCGGTAAATATTGCCCAACTGACTCGGCTCGTCAAACGGT GTCGGTTGGCGTAGGCGGCCCGGAAATTCGCCCTAGCGAGGGT GAGATCTATGACTATGCACTTGACATGAGTCAGATGTATGCGTT AACTCCGTCGCCAGGGGAGCTTCCAAGTATTCCACAGCCTCACG ATAGTTATCAATGGGTAACTTCTCCTGAAGACGCCCCAGCATCC CCAGTTGAGACACAAGTATTCGAGGACCCTCGTGAGTTTCTCTG TCACCTCGAGGAGTACCTTAAACAGGTAGGCGGGACCGAAGAG TACTGGTTATCGCAAATCCAAAACCATATGAATGGTCCTGCCAA AAAGTGGTGGGAGTATAAACAAGATACTGTGAAGAATTGGGTA GAGTTCAAGAAAGAGTTCTTACAGTACTCTGAGGGGACGTTAA CTCGTGATGCGATCAAGCGCGAATTGGATTTACCTCAGAAGGAC GGCGAGCCACTCGACCAGTTCTTATGGCGCAAGCGTGACTTGTA TCAAACCCTTTATATCGATGCTGACGAGGAACAAATTATCCAGT ACGTAGTCGGTACGTTGCAACCAAAACTTAAACGCTTTCTGAGC TACCCATTACCTAAAACGTTGGAGCAACTGATCCAGAAAGGTA AAGAGGTGCAAGGGAGCCTGGATCATAGTGAAGAACCGAGCCC TCAGCGGGCTTCTGAAGCTCGGACCGGTGATAGCGTCGAATCTT TACCACCTAGTACCACAACCAGCCCGAATGCGTCATCTGGTACC CAACCTGAAGCGCCTTCCCCACCTGCTACAGTCATT

SEQ ID NO:43

GGGCAGCTCGAGAATGTCAACCATGGGAACCTCCATTCTTTTCA AGGTCATCGCGGCGGCGTCGCCAACAAGCCAAACGTTATCTTGC AGATCGGTAAATGTCGTGCAGAGATGCTGGACCACGTCCGGCG GACCCACCGGCATTTACTGACAGAGGTATCGAAACAGGTTGAA CGTGAGTTGAAGGGGTTACAGAAATCAGTAGGGAAATTAGAAAATAACTTAGAAGACCATGTCCCTTCAGCCGTTGAAAACCAGCGT TGGAAAAAATCGATCAAGGCCTGCCTTTCCCGCTGCCAAGAGA CCATTGCCCACCTTGAGCGTTGGGTGAAGCGCGAGATGAACGT ATGGAAAGAGGTTTTCTTCCGCTTAGAGCGGTGGGCAGATCGGT TGGAATCTGGGGGCGGGAAATATTGTCACGGTGATAATCATCGT CAAACAGTATCAGTCGGTGTTGGCGGCCCTGAGGTACGTCCATC TGAAGGCGAAATTTACGATTACGCTCTCGACATGTCGCAAATGT ACGCTTTAACACCGCCTAGCCCAGGGGATGTGCCTGTAGTTAGC CAGCCGCACGACAGCTATCAGTGGGTTACGGTTCCGGAGGATA CCCCTCCATCCCCGGTGGAGACGCAAATCTTCGAGGACCCACGG GAGTTCTTGACCCACTTAGAGGATTACTTAAAGCAAGTGGGGG GTACAGAGGAATATTGGTTATCTCAGATCCAGAATCACATGAAC GGGCCAGCCAAGAAGTGGTGGGAGTATAAGCAAGACTCAGTAA AAAATTGGCTCGAGTTTAAGAAGGAATTCCTTCAGTATTCCGAG GGGACACTTACGCGCGACGCTATCAAGGAAGAACTTGACCTCC CGCAAAAGGACGGGGAACCTCTTGATCAGTTCCTGTGGCGCAA GCGCGACTTGTACCAGACCCTGTACGTGGAGGCGGATGAGGAG GAGGTGATCCAGTATGTTGTGGGGACTTTACAACCTAAATTAAA GCGTTTTCTCTCACACCCTTACCCGAAAACGTTAGAGCAACTTA TCCAACGGGGCAAAGAGGTGGAAGGGAACCTCGACAATTCAGA GGAACCAACACCTCAGCGTACTCCAGAACACCAACTGTGTGGTT CTGTAGAATCGCTGCCTCCTTCCTCTACCGTCAGTCCAGTGGCT AGCGATGGTACTCAACCTGAGACTTCGCCATTGCCAGCGACTGT

TATT

SEQ ID NO:44

GGGCCATTGACGTTGTTACAAGACTGGTGTCGTGGTGAACATTT AAACACCCGCCGGTGCATGTTGATCCTCGGTATCCCAGAAGATT GCGGCGAGGATGAGTTCGAAGAGACACTTCAGGAGGCGTGTCG CCATTTAGGGCGGTACCGCGTGATCGGCCGCATGTTCCGTCGTG AGGAAAATGCCCAAGCGATCCTCTTGGAATTGGCGCAGGATAT TGACTATGCCTTACTCCCTCGGGAAATCCCTGGGAAAGGCGGGC CTTGGGAGGTAATTGTGAAGCCGCGTAATTCCGACGGCGAATTC TTAAATCGGCTTAATCGCTTTCTTGAAGAGGAGCGCCGTACGGT CTCCGATATGAACCGTGTTTTGGGCTCGGATACTAACTGTTCAG CTCCTCGTGTCACCATTAGTCCTGAATTCTGGACTTGGGCACAGACGCTGGGCGCAGCTGTCCAACCATTGCTCGAACAGATGCTCTA CCGGGAGTTACGGGTCTTCAGTGGCAATACGATTTCCATCCCAG GTGCTCTCGCTTTTGACGCGTGGCTGGAGCATACCACGGAAATG CTTCAAATGTGGCAGGTGCCTGAAGGGGAGAAACGGCGGCGCT TGATGGAGTGTTTGCGGGGGCCAGCCCTGCAAGTCGTTAGTGGG TTACGTGCATCGAATGCCAGTATCACTGTCGAAGAGTGTCTTGC TGCACTGCAGCAGGTATTCGGTCCAGTGGAAAGTCATAAGATTG CCCAAGTAAAGTTATGCAAAGCTTACCAGGAGGCTGGGGAAAA AGTAAGCAGCTTCGTTTTGCGTTTGGAGCCACTGCTTCAGCGTG CTGTAGAAAACAACGTGGTCAGTCGCCGCAATGTCAACCAAAC ACGTCTTAAGCGTGTTCTGTCGGGCGCCACCCTTCCTGACAAGC TGCGTGATAAATTGAAGTTAATGAAACAGCGCCGTAAACCGCC GGGTTTCTTGGCGTTGGTTAAACTGTTACGTGAAGAGGAGGAGT GGGAGGCCACCTTAGGGCCAGACCGCGAGTCATTGGAGGGGTT AGAAGTGGCACCGCGCCCGCCAGCACGGATTACGGGTGTTGGC GCAGTACCTCTTCCGGCATCCGGGAATTCATTTGATGCCCGTCC TTCGCAAGGGTACCGGCGCCGTCGGGGTCGTGGTCAGCACCGTC GGGGCGGCGTTGCTCGTGCAGGCTCTCGTGGCTCTCGTAAGCGG AAACGGCACACCTTCTGCTATTCCTGTGGTGAGGATGGCCATAT TCGTGTCCAATGCATTAACCCTAGCAATCTCCTGTTGGCTAAGG AGACCAAAGAGATTTTGGAAGGGGGAGAACGTGAAGCGCAAA CGAATTCACGT

SEQ ID NO:45

GGGGCTCTTACGCTCTTAGAAGACTGGTGTAAGGGTATGGACAT GGACCCGCGGAAGGCTCTCCTGATTGTAGGTATTCCGATGGAAT GCAGTGAGGTGGAAATCCAGGATACAGTTAAAGCTGGTCTTCA ACCTCTGTGCGCTTATCGTGTACTCGGCCGTATGTTCCGGCGGG AGGATAATGCGAAGGCTGTTTTCATTGAGCTGGCAGACACCGTG AATTACACCACGTTACCGTCTCACATTCCGGGTAAAGGGGGTTC CTGGGAAGTCGTTGTTAAACCTCGGAACCCTGACGACGAGTTCC TTTCTCGGCTTAACTACTTCTTGAAAGATGAGGGCCGCTCGATG ACGGATGTCGCCCGGGCACTGGGGTGCTGTAGCTTACCTGCGGA ATCACTGGACGCGGAAGTAATGCCACAGGTCCGCTCCCCACCATTAGAACCTCCAAAAGAGAGTATGTGGTACCGTAAGTTAAAAGT GTTTAGTGGTACCGCGTCGCCTTCGCCGGGGGAGGAGACATTTG AGGACTGGTTAGAGCAAGTCACCGAGATCATGCCTATCTGGCA AGTATCTGAAGTTGAAAAGCGCCGTCGGTTACTGGAGTCACTCC GGGGCCCGGCACTCTCAATTATGCGCGTGTTACAAGCCAATAAC GATAGCATTACCGTTGAACAGTGTTTGGATGCATTAAAGCAGAT CTTTGGCGACAAGGAAGACTTCCGTGCCTCTCAATTTCGTTTTCT TCAAACGTCCCCTAAAATTGGGGAGAAGGTGAGTACGTTCCTGC TGCGTTTAGAGCCACTCTTGCAAAAGGCCGTTCACAAGAGCCCA CTTTCGGTACGTAGTACTGATATGATTCGGTTAAAGCACCTGTT GGCACGCGTAGCCATGACCCCGGCACTGCGTGGTAAACTCGAA TTACTCGACCAACGCGGGTGCCCACCTAATTTTCTTGAGCTGAT GAAGCTGATCCGGGATGAGGAAGAGTGGGAGAATACTGAAGCT GTGATGAAAAATAAAGAGAAACCTTCAGGTCGTGGCCGCGGTG CATCAGGCCGTCAAGCTCGCGCCGAGGCCAGTGTAAGTGCTCC GCAAGCAACAGTCCAAGCACGTAGCTTCTCTGATTCTAGCCCGC AGACGATTCAGGGGGGCTTACCACCTCTTGTCAAGCGTCGGCGCCTTTTGGGTTCGGAGAGCACACGTGGGGAAGACCACGGGCAAG CTACTTATCCGAAAGCAGAGAATCAGACTCCAGGGCGTGAGGG CCCGCAGGCGGCTGGGGAGGAACTTGGTAATGAGGCCGGGGCC GGCGCGATGTCCCACCCGAAACCGTGGGAAACC

SEQ ID NO:46

GGGGCTGTGACAATGCTCCAGGACTGGTGCCGTTGGATGGGCG TGAACGCTCGGCGGGGGCTGTTAATCTTAGGTATCCCTGAAGAC TGTGACGATGCAGAGTTCCAAGAGTCGTTAGAAGCTGCACTCCG TCCTATGGGTCACTTTACTGTACTCGGTAAGGCCTTCCGCGAGG AAGACAACGCTACCGCTGCGCTGGTGGAATTAGATCGCGAGGT TAATTACGCACTTGTTCCACGCGAAATTCCGGGCACCGGCGGGC CTTGGAACGTCGTGTTCGTTCCTCGGTGCTCCGGCGAGGAATTC CTGGGGTTAGGCCGCGTGTTCCACTTTCCTGAACAGGAGGGCCA AATGGTAGAATCGGTTGCGGGGGCACTGGGGGTAGGTCTGCGC CGCGTGTGTTGGTTACGCTCGATCGGGCAAGCTGTACAACCATG GGTAGAAGCTGTTCGCTGCCAAAGCTTAGGGGTATTTAGTGGTC GTGATCAACCTGCACCTGGTGAAGAAAGCTTCGAGGTCTGGTTG GATCATACGACCGAGATGTTGCATGTGTGGCAAGGCGTGTCGG AACGGGAACGGCGCCGTCGTCTGCTGGAAGGGCTGCGTGGCAC AGCCTTACAACTTGTACATGCCTTACTGGCAGAAAATCCGGCAC GGACAGCACAAGATTGCTTGGCTGCATTAGCCCAAGTTTTTGGT GATAACGAAAGCCAGGCAACGATTCGTGTTAAATGTTTGACAG CCCAACAGCAGAGTGGCGAACGCCTCTCTGCGTTCGTTCTCCGC TTAGAAGTACTTCTGCAAAAGGCTATGGAGAAGGAAGCATTGG CGCGCGCGTCAGCGGATCGGGTGCGTCTTCGTCAGATGCTGACA CGCGCACATCTCACAGAGCCGTTGGATGAAGCCTTACGGAAATT GCGTATGGCAGGGCGTTCTCCGTCTTTTTTGGAAATGCTCGGCT TAGTACGCGAGTCAGAGGCCTGGGAGGCAAGTCTGGCTCGGTC CGTCCGGGCGCAAACCCAGGAGGGTGCAGGGGCCCGGGCGGGG GCCCAAGCAGTTGCGCGTGCCAGCACTAAGGTTGAAGCTGTAC CTGGTGGCCCTGGCCGGGAGCCAGAAGGTCTCCTCCAAGCCGG GGGCCAAGAAGCGGAAGAACTTCTCCAAGAGGGCTTAAAGCCGGTTTTAGAGGAATGTGACAAT

SEQ ID NO:47

GGGGCGGTCACCATGTTGCAAGACTGGTGTCGGTGGATGGGCG TGAATGCTCGGCGGGGTTTATTGATCTTGGGTATCCCAGAAGAC TGTGACGACGCCGAGTTTCAGGAGTCGCTCGAGGCCGCCCTTCG TCCAATGGGGCATTTTACGGTTCTGGGCAAGGTGTTCCGTGAAG AGGATAACGCTACAGCAGCTCTTGTGGAGCTTGACCGTGAGGT GAATTATGCGTTAGTACCTCGCGAGATTCCAGGTACCGGTGGGC CATGGAACGTAGTCTTCGTCCCACGTTGCTCGGGGGAGGAATTT CTGGGGCTTGGGCGCGTATTCCACTTTCCAGAACAGGAAGGGC AGATGGTCGAAAGCGTAGCAGGCGCTCTTGGCGTTGGTCTCCGG CGCGTGTGCTGGTTACGCTCCATCGGCCAAGCAGTCCAACCATG GGTTGAAGCCGTACGCTATCAATCTTTAGGTGTCTTCTCAGGCC GTGACCAGCCGGCGCCTGGTGAGGAATCCTTCGAAGTCTGGCTC GATCATACAACTGAGATGCTGCATGTATGGCAAGGTGTCTCAGA GCGGGAACGGCGGCGGCGGTTATTAGAGGGGCTCCGTGGGACT GCGCTCCAATTAGTACATGCGCTTTTGGCCGAAAATCCAGCCCG TACTGCCCAAGATTGTCTGGCAGCACTCGCCCAAGTATTCGGCG ACAACGAATCGCAGGCAACAATCCGCGTAAAGTGTCTTACAGC ACAGCAGCAGTCAGGGGAACGTCTTAGTGCGTTCGTTCTGCGGC TGGAAGTGTTACTCCAGAAAGCCATGGAAAAGGAGGCATTGGC TCGCGCGAGCGCTGACCGTGTACGTCTGCGGCAAATGCTTACTC GCGCACATCTCACCGAGCCTCTCGATGAAGCACTGCGGAAACT GCGCATGGCAGGCCGCAGCCCGTCTTTCCTGGAAATGTTAGGCT TAGTCCGGGAGTCCGAAGCCTGGGAGGCCAGTCTGGCACGGTC AGTGCGGGCACAAACGCAAGAGGGTGCAGGGGCACGGGCGGG TGCACAAGCAGTTGCACGTGCCTCCACTAAAGTTGAGGCAGTGC CGGGTGGGCCAGGCCGTGAACCGGAGGGTTTGCGCCAAGCCGG CGGGCAGGAAGCCGAAGAATTACTCCAAGAAGGTTTAAAACCGGTTTTGGAGGAATGCGATAAC

SEQ ID NO:48

GGGGTGGAAGATTTGGCGGCATCTTACATCGTATTAAAGCTTGA GAACGAAATCCGGCAGGCGCAGGTCCAATGGTTAATGGAGGAA AACGCCGCCCTGCAGGCCCAGATCCCTGAACTTCAAAAGTCGC AAGCCGCGAAGGAGTATGATCTTCTGCGTAAATCTTCGGAGGC GAAGGAGCCGCAAAAACTGCCAGAACATATGAATCCACCGGCCGCTTGGGAAGCACAAAAGACTCCAGAGTTTAAGGAACCACAGA AACCTCCTGAACCACAGGATTTGCTTCCTTGGGAGCCGCCTGCT GCCTGGGAGTTGCAAGAAGCACCGGCTGCCCCTGAGTCACTGG CTCCGCCTGCAACCCGTGAGTCTCAGAAACCACCTATGGCGCAT GAAATCCCTACTGTATTGGAGGGGCAAGGGCCTGCCAACACAC AAGACGCTACGATTGCTCAAGAACCAAAGAATAGCGAGCCGCA AGACCCTCCAAATATCGAGAAACCTCAGGAAGCTCCGGAATAT CAAGAAACAGCGGCACAGTTGGAGTTTTTAGAACTTCCTCCACC TCAGGAGCCACTCGAACCGAGCAATGCGCAAGAATTTCTCGAG TTGTCGGCTGCCCAGGAGTCCTTAGAAGGCCTCATTGTAGTTGA AACGTCCGCGGCTTCGGAGTTCCCACAGGCTCCTATCGGGCTTG AAGCCACCGACTTTCCGCTGCAGTACACGCTTACCTTCTCTGGCGACAGCCAGAAGTTGCCAGAATTTTTGGTCCAACTCTACAGTTA TATGCGGGTACGTGGGCACTTATACCCTACCGAGGCGGCGTTAG TGTCGTTTGTAGGCAATTGTTTCTCAGGGCGCGCGGGCTGGTGG TTTCAGTTGCTTTTGGATATCCAGTCGCCTCTGTTAGAACAGTGT GAAAGTTTTATCCCGGTTCTCCAAGACACATTTGACAATCCGGA AAACATGAAGGACGCAAACCAATGCATCCACCAGCTTTGTCAG GGCGAGGGTCATGTGGCCACACACTTCCACCTCATTGCACAAGA GCTTAATTGGGATGAAAGCACGCTGTGGATCCAGTTCCAGGAA GGCCTGGCCTCATCCATCCAGGATGAACTTTCCCATACATCGCC TGCTACCAACCTGAGTGATCTGATTACTCAATGCATCTCATTAG AGGAAAAGCCTGACCCAAACCCGTTAGGGAAGTCCTCCTCGGC GGAGGGGGATGGCCCGGAAAGTCCGCCAGCAGAAAACCAACCT ATGCAAGCTGCGATCAATTGTCCTCACATTTCCGAAGCAGAGTG GGTTCGTTGGCACAAAGGCCGGCTTTGTCTCTATTGCGGCTATC CGGGTCACTTCGCACGTGATTGCCCAGTGAAGCCACACCAGGCGTTACAGGCAGGGAACATTCAGGCTTGCCAA

SEQ ID NO:49

GGGGTGCAGCCGCAGACTAGCAAAGCTGAATCGCCGGCTCTCG CTGCCTCACCGAACGCACAAATGGATGACGTTATTGATACATTA ACCTCCCTGCGTCTGACGAATTCGGCTCTGCGGCGGGAGGCTAG CACTCTTCGGGCCGAGAAAGCAAATTTAACTAATATGCTCGAGT CAGTGATGGCCGAGTTAACGCTGTTACGGACCCGTGCGCGGATT CCGGGGGCCCTGCAGATTACGCCACCAATTTCGTCTATTACTAG CAACGGTACTCGCCCGATGACGACTCCTCCAACTAGTTTACCTG AACCGTTTTCTGGCGATCCTGGCCGGTTAGCTGGTTTCCTTATGC AGATGGACCGTTTTATGATCTTTCAAGCTAGCCGGTTTCCAGGG GAGGCAGAGCGTGTTGCGTTCCTGGTGTCGCGCTTAACTGGCGAAGCAGAAAAATGGGCCATTCCTCACATGCAACCAGACTCTCCTT TGCGTAACAACTATCAAGGCTTCTTAGCAGAGTTACGGCGGACC TATAAGAGCCCGTTGCGTCACGCCCGGCGGGCGCAAATCCGGA AGACATCGGCCTCGAACCGGGCAGTCCGTGAACGCCAAATGCT TTGCCGGCAACTTGCATCAGCAGGTACAGGCCCATGCCCGGTAC ACCCTGCTAGTAACGGGACTTCCCCGGCACCGGCATTACCAGCA CGGGCGCGTAACTTA

SEQ ID NO:50

GGGGACGGTCGGGTACAGTTGATGAAGGCTTTATTGGCTGGCCC TTTACGTCCGGCGGCACGCCGTTGGCGGAATCCTATTCCATTTC CAGAGACTTTTGATGGGGATACTGATCGCCTCCCGGAGTTTATC GTCCAAACTTCGTCCTACATGTTCGTTGACGAAAATACTTTCTCT AACGACGCTCTGAAAGTGACATTTCTCATTACCCGGCTGACAGG TCCAGCCTTGCAATGGGTCATTCCGTACATTCGTAAAGAAAGCC CGCTTCTTAACGACTATCGGGGTTTCCTGGCCGAGATGAAGCGG GTTTTTGGGTGGGAAGAGGACGAGGACTTT

SEQ ID NO:51

GGGGAAGGTCGGGTGCAACTTATGAAAGCGTTGCTTGCCCGCC CGCTTCGTCCAGCAGCACGTCGCTGGCGGAATCCAATTCCTTTC CCGGAGACTTTTGACGGGGACACCGATCGGCTCCCAGAGTTCAT TGTGCAGACGTCAAGCTATATGTTCGTGGATGAGAACACGTTCT CTAACGACGCGTTGAAAGTGACTTTCTTAATTACGCGTTTGACT GGCCCGGCTTTACAATGGGTGATTCCATACATTAAGAAAGAGTC ACCGCTTCTCAGTGATTATCGCGGTTTTTTAGCCGAGATGAAGC GGGTCTTCGGGTGGGAAGAAGACGAAGACTTT

SEQ ID NO:52

GGGCCGCGTGGGCGTTGCCGTCAACAAGGTCCTCGGATTCCGAT TTGGGCAGCGGCCAACTATGCCAACGCCCACCCGTGGCAACAA ATGGATAAGGCTTCGCCAGGCGTTGCTTACACACCTTTGGTTGA TCCTTGGATTGAGCGGCCTTGTTGCGGTGACACGGTTTGTGTGC GCACCACAATGGAACAGAAGAGCACAGCGTCAGGCACTTGTGG TGGTAAGCCTGCTGAGCGTGGTCCTCTCGCGGGGCATATGCCGA GCTCACGCCCACATCGGGTTGATTTCTGTTGGGTTCCTGGTAGC GACCCAGGCACATTCGACGGCAGTCCATGGCTCTTAGATCGCTT TTTGGCGCAACTTGGTGATTACATGAGTTTTCACTTTGAACACT ACCAGGACAATATCAGCCGTGTCTGCGAGATTCTTCGTCGGTTAACGGGCCGCGCTCAGGCATGGGCTGCTCCTTACCTGGACGGGG ACCTTCCACTGCCAGACGACTACGAATTGTTTTGTCAAGACCTT AAGGAGGTAGTACAGGACCCTAACAGTTTCGCCGAGTATCACG CCGTGGTGACTTGTCCACTCCCTCTTGCTTCGTCCCAACTTCCTG TAGCTCCTCAGCTTCCGGTGGTACGCCAATACCTTGCGCGCTTC TTGGAGGGCCTTGCTTTGGATATGGGTACGGCGCCTCGGTCACT CCCGGCCGCTATGGCCACACCGGCAGTCTCCGGCTCGAACTCCG TTTCTCGTTCTGCCTTATTTGAACAACAACTCACAAAGGAATCC ACTCCAGGCCCGAAAGAGCCACCTGTTCTCCCTAGCTCGACTTG CTCTAGCAAACCGGGTCCTGTCGAACCAGCCAGTTCACAACCTG AAGAGGCTGCTCCTACCCCGGTGCCGCGTTTGTCAGAGTCGGCT AACCCACCGGCTCAGCGTCCAGACCCTGCTCACCCTGGTGGTCC TAAACCACAAAAAACCGAAGAGGAAGTTTTAGAAACTGAGGGG GACCAGGAAGTTAGCCTGGGGACGCCGCAGGAGGTCGTAGAAG CGCCGGAAACACCAGGTGAACCACCGCTCAGCCCTGGGTTC

SEQ ID NO:53

GGGGTTGATGAATTGGTGCTCTTGTTGCACGCGCTGTTAATGCG CCATCGGGCGCTTTCCATTGAAAATTCTCAGTTGATGGAGCAAC TTCGCTTGTTGGTCTGCGAACGGGCGAGCCTTCTTCGTCAGGTA CGTCCGCCGAGCTGTCCAGTGCCATTTCCTGAGACTTTTAACGG GGAGTCATCACGGTTACCTGAGTTCATCGTCCAAACCGCAAGCT ATATGTTAGTTAATGAAAATCGCTTTTGCAATGACGCAATGAAA GTCGCTTTTTTGATTAGCCTTCTTACTGGTGAAGCAGAAGAATG GGTCGTCCCATACATTGAGATGGATTCACCAATTCTTGGGGACT ACCGTGCGTTCTTGGATGAGATGAAGCAGTGTTTTGGGTGGGAC GATGATGAAGATGACGACGATGAGGAAGAGGAGGATGACTAT

SEQ ID NO:54

GGGCCTGTGGATTTAGGTCAGGCTTTGGGGTTGTTGCCATCCCT CGCTAAGGCCGAAGATTCCCAATTTAGCGAAAGCGATGCAGCT TTACAGGAGGAATTGTCTTCTCCGGAAACCGCACGGCAACTTTT TCGTCAATTTCGCTATCAAGTCATGTCGGGGCCTCATGAAACAC TGAAACAGTTACGGAAGTTATGTTTTCAGTGGCTGCAACCTGAA GTCCATACAAAGGAACAAATCCTCGAAATTCTGATGCTGGAAC AGTTCTTGACCATTCTGCCTGGTGAAATTCAGATGTGGGTCCGC AAGCAGTGCCCTGGTAGTGGGGAGGAGGCGGTTACGTTAGTAG AATCCCTGAAAGGTGATCCACAACGGCTCTGGCAATGGATCTCC ATCCAAGTCCTGGGTCAGGATATCCTGTCTGAGAAAATGGAGTC ACCTTCTTGCCAGGTGGGCGAAGTGGAGCCACACCTGGAAGTT GTACCTCAGGAACTGGGGTTAGAGAATTCATCTTCAGGGCCGG GGGAACTTCTTTCGCACATCGTGAAAGAGGAGTCTGACACTGA AGCAGAGTTGGCGTTAGCGGCATCCCAGCCAGCTCGTTTGGAA GAACGGCTGATTCGGGATCAGGACCTTGGGGCGTCCCTCCTCCC GGCAGCACCGCAGGAGCAATGGCGTCAATTAGACAGCACTCAA AAAGAACAATATTGGGACCTGATGCTGGAGACCTACGGCAAAA TGGTATCCGGCGCGGGTATCTCACACCCGAAGTCCGATTTAACG AACTCAATTGAGTTCGGTGAAGAGTTGGCAGGTATTTATTTACA TGTAAACGAAAAGATTCCGCGGCCTACCTGCATTGGTGACCGCC AAGAAAACGACAAAGAAAACCTTAATTTGGAAAACCATCGTGA CCAGGAATTATTACATGCCAGCTGCCAGGCCTCGGGCGAAGTG CCATCCCAGGCATCGTTACGTGGCTTCTTTACCGAGGACGAACC TGGTTGCTTCGGCGAAGGGGAGAACCTTCCTGAGGCACTTCAGA ATATCCAGGATGAGGGGACTGGCGAACAGCTGAGCCCGCAAGA ACGCATTAGTGAAAAACAGTTGGGTCAACATTTGCCAAATCCGC ACTCGGGGGAGATGTCGACGATGTGGCTTGAAGAAAAACGGGA GACCAGCCAGAAAGGCCAACCACGTGCACCAATGGCGCAGAAA TTGCCAACGTGCCGCGAATGTGGCAAAACGTTTTATCGCAATAG TCAACTTATCTTTCACCAACGCACACACACCGGTGAGACATATT TTCAATGCACCATCTGCAAAAAGGCGTTTCTCCGGTCATCTGAT TTCGTGAAACATCAGCGGACTCATACTGGCGAAAAACCTTGTAA ATGTGACTATTGTGGCAAGGGCTTTAGTGATTTTAGCGGGCTTC GGCATCACGAGAAGATCCATACCGGCGAGAAGCCATACAAGTG TCCAATCTGTGAGAAATCTTTCATCCAGCGCAGTAATTTTAACC GCCACCAACGGGTTCACACCGGTGAAAAGCCTTATAAATGCTC GCATTGTGGCAAGAGCTTCAGCTGGAGCTCCTCGCTCGATAAGC ATCAACGTTCACATCTGGGGAAGAAGCCGTTCCAA

SEQ ID NO:55

GGGACTCTCCGCTTACTTGAGGATTGGTGTCGGGGGATGGACAT GAACCCACGTAAGGCCCTTCTTATCGCCGGGATTTCCCAGTCAT GTTCAGTCGCCGAGATTGAAGAGGCGCTCCAAGCCGGGCTTGCT CCTTTAGGCGAGTATCGTCTCCTTGGGCGGATGTTTCGCCGCGA TGAAAATCGCAAAGTAGCGTTGGTTGGTCTCACAGCTGAAACTA GCCATGCGCTTGTACCTAAAGAAATTCCTGGTAAAGGCGGGATC TGGCGGGTTATTTTTAAACCACCGGACCCGGACAATACGTTTCT TTCTCGTTTGAATGAGTTCCTCGCGGGCGAGGGGATGACGGTGG GGGAACTTAGTCGTGCTCTTGGTCACGAAAATGGGTCATTAGAC CCTGAACAGGGTATGATTCCGGAAATGTGGGCGCCGATGCTGGCACAGGCTCTGGAGGCTCTCCAACCGGCTTTACAGTGCCTTAAG TACAAGAAGCTGCGCGTTTTTTCAGGGCGCGAGTCTCCAGAGCC GGGTGAGGAGGAATTCGGCCGTTGGATGTTCCATACCACCCAG ATGATCAAAGCGTGGCAGGTGCCGGATGTCGAGAAACGCCGCC GGCTGTTGGAATCACTCCGCGGGCCGGCACTTGACGTTATTCGG GTTCTGAAAATTAACAACCCGTTAATTACGGTAGATGAATGTTT GCAAGCACTTGAAGAGGTCTTTGGGGTGACTGACAATCCTCGG GAATTGCAAGTAAAATACTTAACGACCTACCATAAGGACGAGG AGAAATTATCAGCCTACGTACTGCGGCTGGAACCGCTGCTGCAG AAGCTCGTCCAGCGGGGGGCTATTGAACGGGACGCTGTTAATC AGGCTCGCCTGGATCAGGTAATCGCTGGGGCGGTACATAAAAC TATCCGCCGTGAGCTGAACCTGCCTGAAGACGGGCCGGCGCCAGGCTTTCTTCAACTCCTCGTTTTGATTAAGGATTACGAGGCAGC TGAAGAGGAGGAAGCATTACTTCAGGCCATTCTTGAAGGGAAC TTTACT

SEQ ID NO:56

GGGACAGAACGGCGTCGCGACGAATTAAGTGAAGAAATTAATA ATCTTCGTGAAAAGGTTATGAAACAGAGTGAGGAAAACAACAA TCTTCAATCCCAAGTCCAGAAACTCACTGAGGAGAATACTACAC TCCGTGAGCAAGTTGAACCTACACCTGAAGATGAAGATGACGA CATTGAGTTGCGGGGCGCAGCAGCCGCAGCCGCGCCTCCGCCGCCGATCGAGGAGGAATGCCCGGAGGATTTACCGGAAAAATTTG ATGGTAATCCGGACATGTTAGCGCCATTCATGGCCCAGTGCCAA ATTTTTATGGAAAAGTCTACGCGCGATTTTAGTGTAGATCGCGT ACGTGTATGTTTTGTGACGAGCATGATGACTGGTCGCGCAGCCC GTTGGGCGTCAGCGAAATTGGAGCGGTCGCACTACCTGATGCAT AATTACCCGGCGTTCATGATGGAGATGAAACACGTGTTTGAAG ACCCGCAGCGGCGGGAGGTGGCCAAACGCAAGATCCGGCGGTT GCGGCAGGGCATGGGCAGCGTAATTGATTATAGTAATGCGTTTC AAATGATTGCGCAGGATCTGGATTGGAATGAACCTGCTCTCATT GATCAATATCATGAAGGGCTTAGTGACCATATTCAAGAGGAAC TCTCTCACCTGGAAGTGGCTAAATCTCTCTCCGCCCTTATTGGCC AATGCATTCATATTGAGCGCCGTCTTGCACGTGCTGCTGCCGCT CGGAAACCGCGTAGTCCACCACGGGCTTTAGTGCTCCCACATAT CGCGTCACACCATCAAGTAGATCCTACTGAGCCAGTGGGGGGT GCACGCATGCGCTTAACCCAAGAAGAAAAGGAACGTCGTCGTA AGCTGAATTTATGCCTGTACTGCGGCACTGGTGGCCATTATGCC GATAACTGTCCTGCCAAAGCCAGTAAGTCAAGCCCGGCTGGGA AACTTCCAGGTCCTGCCGTCGAGGGCCCTTCTGCTACCGGCCCA GAGATTATCCGCTCCCCGCAAGACGATGCGTCGTCGCCTCATCT CCAGGTAATGCTCCAAATCCACCTCCCTGGCCGGCACACACTCT TTGTCCGGGCGATGATTGACTCTGGGGCGTCTGGTAATTTTATT GATCACGAGTATGTTGCTCAAAATGGTATCCCTCTCCGGATCAA AGACTGGCCTATTCTGGTTGAAGCCATCGATGGCCGTCCGATCG CGAGCGGTCCTGTGGTTCATGAAACGCATGACCTCATCGTTGAT CTGGGTGACCACCGTGAAGTATTATCCTTTGATGTGACTCAGTC ACCGTTTTTTCCAGTTGTTTTGGGCGTCCGTTGGCTTTCGACTCA CGATCCTAACATCACGTGGTCGACACGGTCGATTGTCTTCGATT CGGAATATTGTCGTTATCATTGCCGCATGTATTCACCAATTCCG CCGTCTCTCCCGCCGCCTGCGCCGCAACCTCCTCTGTATTACCC GGTGGACGGTTACCGTGTTTACCAGCCAGTTCGCTACTACTACG TACAAAACGTGTACACGCCTGTTGATGAACACGTGTACCCAGAT CACCGCCTGGTCGACCCTCATATTGAGATGATCCCGGGTGCGCA CTCGATCCCATCGGGCCATGTTTATTCCTTGTCTGAGCCAGAAA TGGCCGCCTTACGGGATTTTGTGGCCCGGAATGTCAAAGACGGC CTGATTACCCCGACAATTGCACCAAACGGTGCTCAGGTGTTGCA GGTGAAGCGGGGCTGGAAGTTGCAAGTCAGCTATGATTGTCGT GCGCCAAACAACTTCACTATTCAGAACCAATATCCACGTCTCAG CATCCCTAATCTCGAGGACCAGGCACATCTTGCAACATATACTG AATTTGTACCTCAGATTCCTGGCTATCAGACTTATCCTACGTATGCTGCCTACCCAACATACCCGGTAGGTTTCGCATGGTACCCAGT AGGCCGGGACGGGCAGGGCCGCTCTTTATATGTTCCTGTCATGA TTACATGGAACCCGCATTGGTACCGCCAGCCTCCGGTCCCACAG TACCCACCTCCTCAACCTCCACCACCTCCGCCGCCTCCTCCACC GCCACCTTCTTACTCGACATTA。

Claims

1.一种衣壳，包含重组Arc多肽或重组内源性Gag多肽以及治疗剂。

2.如权利要求1所述的衣壳，其中所述治疗剂是核酸。

3.如权利要求2所述的衣壳，其中所述核酸是RNA。

4.如权利要求1-3中任一项所述的衣壳，其中所述重组Arc多肽是包含氨基酸序列SEQID NO:1或与所述SEQ ID NO:1呈至少90％同一性的氨基酸序列的人Arc多肽。

5.如权利要求1-3中任一项所述的衣壳，其中所述重组Arc多肽是包含以下的Arc多肽：

a)氨基酸序列SEQ ID NO:2或与所述SEQ ID NO:2呈至少90％同一性的氨基酸序列；

b)氨基酸序列SEQ ID NO:3或与所述SEQ ID NO:3呈至少90％同一性的氨基酸序列；

c)氨基酸序列SEQ ID NO:4或与所述SEQ ID NO:4呈至少90％同一性的氨基酸序列；

d)氨基酸序列SEQ ID NO:5或与所述SEQ ID NO:5呈至少90％同一性的氨基酸序列；

e)氨基酸序列SEQ ID NO:6或与所述SEQ ID NO:6呈至少90％同一性的氨基酸序列；

f)氨基酸序列SEQ ID NO:7或与所述SEQ ID NO:7呈至少90％同一性的氨基酸序列；

g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；或者

h)氨基酸序列SEQ ID NO:9或与所述SEQ ID NO:9呈至少90％同一性的氨基酸序列；或者

i)氨基酸序列SEQ ID NO:10或与所述SEQ ID NO:10呈至少90％同一性的氨基酸序列；或者

j)氨基酸序列SEQ ID NO:11或与所述SEQ ID NO:11呈至少90％同一性的氨基酸序列；或者

k)氨基酸序列SEQ ID NO:12或与所述SEQ ID NO:12呈至少90％同一性的氨基酸序列；或者

l)氨基酸序列SEQ ID NO:13或与所述SEQ ID NO:13呈至少90％同一性的氨基酸序列；或者

m)氨基酸序列SEQ ID NO:14或与所述SEQ ID NO:14呈至少90％同一性的氨基酸序列；或者

n)氨基酸序列SEQ ID NO:15或与所述SEQ ID NO:15呈至少90％同一性的氨基酸序列。

6.如权利要求1-3中任一项所述的衣壳，其中所述重组内源性Gag多肽是人内源性Gag多肽。

7.如权利要求6所述的衣壳，其中所述重组人内源性Gag多肽是包含以下的内源性Gag多肽：

a)氨基酸序列SEQ ID NO:16或与所述SEQ ID NO:16呈至少90％同一性的氨基酸序列；

b)氨基酸序列SEQ ID NO:17或与所述SEQ ID NO:17呈至少90％同一性的氨基酸序列；

c)氨基酸序列SEQ ID NO:18或与所述SEQ ID NO:18呈至少90％同一性的氨基酸序列；

d)氨基酸序列SEQ ID NO:19或与所述SEQ ID NO:19呈至少90％同一性的氨基酸序列；

e)氨基酸序列SEQ ID NO:20或与所述SEQ ID NO:20呈至少90％同一性的氨基酸序列；

f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；

g)氨基酸序列SEQ ID NO:22或与所述SEQ ID NO:22呈至少90％同一性的氨基酸序列；

h)氨基酸序列SEQ ID NO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；

i)氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；

j)氨基酸序列SEQ ID NO:25或与所述SEQ ID NO:25呈至少90％同一性的氨基酸序列；或者

k)氨基酸序列SEQ ID NO:26或与所述SEQ ID NO:26呈至少90％同一性的氨基酸序列；或者

l)氨基酸序列SEQ ID NO:27或与所述SEQ ID NO:27呈至少90％同一性的氨基酸序列；或者

m)氨基酸序列SEQ ID NO:28或与所述SEQ ID NO:28呈至少90％同一性的氨基酸序列。

8.一种衣壳，包含重组Arc多肽或重组内源性Gag多肽，其中所述重组Arc多肽不是大鼠Arc多肽或人Arc多肽。

9.如权利要求8所述的衣壳，还包含负载物。

10.如权利要求9所述的衣壳，其中所述负载物是核酸。

11.如权利要求10所述的衣壳，其中所述负载物是RNA。

12.如权利要求9所述的衣壳，其中所述负载物是治疗剂。

13.如权利要求8-12中任一项所述的衣壳，其中所述重组Arc多肽是包含以下的Arc多肽：

g)氨基酸序列SEQ ID NO:8或与所述SEQ ID NO:8呈至少90％同一性的氨基酸序列；

h)氨基酸序列SEQ ID NO:9或与所述SEQ ID NO:9呈至少90％同一性的氨基酸序列；

14.如权利要求8-12中任一项所述的衣壳，其中所述重组内源性Gag多肽是包含以下的内源性Gag多肽：

f)氨基酸序列SEQ ID NO:21或与所述SEQ ID NO:21呈至少90％同一性的氨基酸序列；或者

h)氨基酸序列SEQ ID NO:23或与所述SEQ ID NO:23呈至少90％同一性的氨基酸序列；或者

i)氨基酸序列SEQ ID NO:24或与所述SEQ ID NO:24呈至少90％同一性的氨基酸序列；或者

15.一种载体，包含编码如权利要求1-14中任一项所述的重组Arc多肽或重组内源性Gag多肽的DNA。

16.一种向细胞递送负载物的方法，包括向所述细胞施用如权利要求1-14中任一项所述的衣壳。

17.如权利要求16所述的方法，其中所述细胞是真核细胞。

18.如权利要求16所述的方法，其中所述细胞是脊椎动物细胞。

19.如权利要求16所述的方法，其中所述细胞是哺乳动物细胞。

20.如权利要求16所述的方法，其中所述细胞是人细胞。

21.如权利要求16-20中任一项所述的方法，其中所述负载物是核酸。

22.如权利要求21所述的方法，其中所述细胞表达由所述核酸编码的基因。

23.如权利要求16-20中任一项所述的方法，其中所述负载物是治疗剂。

24.一种将核酸转染到细胞中的方法，包括向所述细胞施用如权利要求1-14中任一项所述的衣壳。