CN115768901A

CN115768901A - 腺病毒的大负载整合

Info

Publication number: CN115768901A
Application number: CN202180043133.5A
Authority: CN
Inventors: A·利伯; H-P·金; 汪宏杰
Original assignee: University of Washington; Fred Hutchinson Cancer Center
Current assignee: University of Washington; Fred Hutchinson Cancer Center
Priority date: 2020-04-13
Filing date: 2021-04-12
Publication date: 2023-03-07
Also published as: WO2021211454A1; JP2023521410A; EP4136244A4; AU2021256428A1; TW202204627A; KR20230002681A; BR112022020589A2; EP4136244A1; WO2021211454A9; CA3174414A1; US20230313224A1; MX2022012819A

Abstract

本公开提供了可容纳或含有大转位子负载、例如多达40kb的转位子负载的重组腺病毒载体和腺病毒基因组。所述腺病毒载体和基因组可递送所述大转位子负载到目标基因组中，例如用于基因疗法。

Description

腺病毒的大负载整合

相关申请的交叉引用

本申请要求2020年4月13日提交的美国临时申请第63/009,298号的在先提交日的优先权和益处，该临时申请以全文引用的方式并入本文中。

关于联邦政府资助研究或开发的陈述

本发明是在政府支持下在由美国国家卫生研究院(the National Institutes ofHealth)授予的授权号HL128288和HL136135下进行。在本发明中政府具有某些权利。

技术领域

本公开尤其提供了可容纳或含有大转位子负载、例如多达40kb的转位子负载的重组腺病毒载体和腺病毒基因组。腺病毒载体和基因组中的某些可递送大转位子负载到目标基因组中，例如用于基因疗法。

背景技术

基因疗法呈现许多挑战。病毒载体是基因疗法的一种手段。在一些情况下，用于基因疗法的病毒载体在研发中的各种挑战包括载体负载容量、转基因整合到目标细胞基因组中的效率、转基因表达的细胞类型特异性、转基因表达量和整合的位置效应。使用病毒载体的基因疗法的各种方法需要消耗资源的步骤——从受试者取出细胞和在向受试者投与细胞之前离体工程化和/或扩增细胞。至少出于这些原因，且尤其鉴于利用病毒载体的疗法的数目的增长，极需要改良的病毒载体设计。

血红蛋白病是全世界最普遍的遗传病症之一，值得注意地，不发达国家中出生的患者的生存率显著降低。血红蛋白病的实例包括镰状细胞病和地中海贫血。患者特异性血液干细胞/祖细胞(HSPC)基因疗法具有治疗血红蛋白病的极大潜力。

此外，世界卫生组织已经识别了超过80种原发性免疫缺陷疾病。这些疾病的特征在于免疫系统中的内在缺陷，其中在一些状况下，身体不能产生任何或足够的抵抗感染的抗体。在其它状况下，对抗感染的细胞防御不能恰当地工作。通常，原发性免疫缺陷是遗传性病症。

继发性或获得性免疫缺陷并不是遗传基因异常的结果，而是在免疫系统因免疫系统以外的因素而受损的个体中发生。实例包括创伤、病毒、化学疗法、毒素和污染。获得性免疫缺陷综合征(AIDS)是由病毒人类免疫缺陷病毒(HIV)引起的继发性免疫缺陷病症的实例，其中T淋巴细胞耗竭使得身体无法对抗感染。

X连锁严重联合免疫缺陷症(SCID-X1)是由共同的γ链基因(γC)的突变引起的细胞和体液免疫耗竭，其导致T和自然杀伤(NK)淋巴细胞的缺乏和非功能性B淋巴细胞的存在。SCID-X1在生命前两年是致命的，除非免疫系统例如通过骨髓移植(BMT)或基因疗法复原。

因为大部分个体缺乏BMT或非自体基因疗法的匹配供体，所以通常使用成熟T细胞耗竭的单倍体相合亲本骨髓；然而，并发症包括移植物抗宿主疾病(GVHD)；无法产生足够抗体，因此需要长期进行免疫球蛋白置换；由于不能植入造血干细胞和祖细胞(HSPC)而造成T细胞后期损失；慢性疣；和淋巴细胞失调。

范可尼贫血(Fanconi anemia，FA)是引起骨髓衰竭的遗传性血液病症。其部分特征是DNA修复机制缺陷。至少20％ FA患者出现例如急性骨髓白血病的癌症，和皮肤、肝脏、胃肠道和妇科系统的癌症。皮肤和胃肠道肿瘤通常是鳞状细胞癌。出现癌症的患者的平均年龄为白血病15岁，肝脏肿瘤16岁，和其它肿瘤23岁。

已经探索使用体内基因疗法进行治疗，其包括向患者直接递送病毒载体。体内基因疗法是简单而有吸引力的方法，因为其可能不需要任何基因毒性调节(或可能需要较少的基因毒性调节)或离体细胞加工，因此可在全世界许多机构，包括发展中国家中的机构采用，因为该疗法可通过注射投与，类似于在全世界已经进行的用于递送疫苗的方法。

腺病毒由于其基因组尺寸中等、易于操控、高滴度、目标细胞范围宽和高感染性而尤其适用作基因转移载体。病毒基因组的两端含有100至200个碱基对反向重复序列(ITR)，ITR是病毒DNA复制和包装所必需的顺式元件。基因组的早期(E)和晚期(L)区域含有不同的转录单元，所述单元由病毒DNA复制起点分隔。E1区域(E1A和E1B)编码负责病毒基因组和少数细胞基因的转录的调控的蛋白质。E2区域(E2A和E2B)的表达引起用于病毒DNA复制的蛋白质的合成。这些蛋白质参与DNA复制、晚期基因表达和宿主细胞关闭。晚期基因的产物，包括大部分病毒衣壳蛋白，只在大量加工由主要晚期启动子(MLP)发出的单一初级转录物之后才表达。MLP在感染晚期期间尤其有效，且由所述启动子发出的所有mRNA均具有5'-三联前导序列(TPL)序列，这使其成为翻译的优选mRNA。

对于成功的基因疗法，在没有整合的位置效应和转录沉默的情况下，转移基因必须在所需组织或细胞中表达量高。基因座控制区域(LCR)尤其适合于完成这一任务，因为LCR的特征在于其能够在异位染色体位点处以组织特异性和拷贝数依赖性方式增强连接的基因的表达到生理水平。LCR的组分通常共定位到表达细胞的染色质中的DNA水解酶I超敏(HS)位点。个别HS处的核心决定子由多个普遍存在和谱系特异性的转录因子结合位点的阵列构成。

发明内容

本公开尤其包括腺病毒载体和腺病毒基因组、包括两种或更多种本公开的腺病毒载体和/或腺病毒基因组的系统和这类腺病毒载体、腺病毒基因组和系统的用途。在某些实施例中，本发明包括包含例如1kb至40kb的转位子负载的腺病毒载体和/或腺病毒基因组。在本公开的某些实施例中，转位酶可引起例如多达40kb的转位子负载整合到目标细胞的基因组中。因此，本公开尤其包括能够将腺病毒供体载体中存在的多达40kb的负载.到目标细胞基因组中的载体、基因组和系统。如所属领域的技术人员将了解，载体在其中和本身整合的容量是基因疗法系统的一个非常重要的特征，这至少部分因为整合容量限制治疗负载的长度和/或复杂性。

本公开中识别的长和/或复杂核酸负载的某些实例包括包含长基因座控制区域的负载。由于其长度问题，长基因座控制区域在历史上不适合包括于腺病毒负载中，但包括但不限于包含长基因座控制区域的长和/或复杂核酸负载的长和/或复杂核酸负载可根据本文所公开的载体、基因组和系统整合到目标细胞基因组中。

因此，在一个实施例中，提供一种腺病毒供体载体，其包括：(a)腺病毒衣壳；和(b)线性双股DNA基因组，其包括：(i)至少10kb的转位子负载；(ii)侧接所述转位子负载的转位子反向重复序列(IR)；和(iii)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

另一实施例为一种腺病毒供体基因组，其包括：(a)至少10kb的转位子负载；(b)侧接所述转位子负载的转位子反向重复序列(IR)；和(c)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

还提供了一种腺病毒转位系统，其包括：(a)如本文所述的腺病毒供体载体；和(b)腺病毒支撑载体，其包括(i)腺病毒衣壳；和(ii)腺病毒支撑基因组，其包括编码转位酶的核酸序列。

又一实施例为一种腺病毒转位系统，其包括：(a)如本文所述的腺病毒供体基因组；和(b)腺病毒支撑基因组，其包括编码转位酶的核酸序列。

此外，提供了一种腺病毒产生系统，其包括：(a)包括如本文所述的腺病毒供体基因组的核酸；和(b)包括腺病毒辅助基因组的核酸，所述腺病毒辅助基因组包括条件性包装元件。

其它实施例为细胞(例如造血干细胞)，其包括根据本文所述的各种实施例中的任一者的载体、基因组或系统。

还描述了细胞(例如造血干细胞)，其在其基因组中包括本文所述的任何实施例的转位子负载，其中在所述细胞的基因组中存在的转位子负载被转位子反向重复序列侧接。

又一实施例为一种产生腺病毒的细胞，其包括根据本文所述的实施例中的任一者的腺病毒产生系统，任选地其中所述细胞为HEK293细胞。

一种修饰细胞的方法，所述方法包括使所述细胞与根据本文所述的实施例中的任一者的载体、基因组或系统接触。

一种修饰受试者的细胞的方法，所述方法包括向所述受试者投与根据本文所述的实施例中的任一者的载体、基因组或系统。

另一实施例为一种修饰受试者的细胞的方法，其在不从所述受试者分离细胞下进行，所述方法包括向所述受试者投与根据本文所述的实施例中的任一者的载体、基因组或系统。

还提供了治疗有需要的受试者的疾病或病状的方法，所述方法包括向所述受试者投与根据本文所述的实施例中的任一者的载体、基因组或系统。

在至少一个方面，本公开提供了一种腺病毒供体载体，其包括：(a)腺病毒衣壳；和(b)线性双股DNA基因组，其包括：(i)至少10kb的转位子负载；(ii)侧接所述转位子负载的转位子反向重复序列(IR)；和(iii)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

在至少一个方面，本公开提供了一种腺病毒供体基因组，其包括：(a)至少10kb的转位子负载；(b)侧接所述转位子负载的转位子反向重复序列(IR)；和(c)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

在至少一个方面，本公开提供了一种腺病毒转位系统，其包括：(a)实施例1的腺病毒供体载体；和(b)腺病毒支撑载体，其包括(i)腺病毒衣壳；和(ii)腺病毒支撑基因组，其包括编码转位酶的核酸序列。

在至少一个方面，本公开提供了一种腺病毒转位系统，其包括：(a)实施例2的腺病毒供体基因组；和(b)腺病毒支撑基因组，其包括编码转位酶的核酸序列。

在至少一个方面，本公开提供了一种腺病毒产生系统，其包括：(a)包括实施例2的腺病毒供体基因组的核酸；和(b)包括腺病毒辅助基因组的核酸，所述腺病毒辅助基因组包括条件性包装元件。

在各种实施例中，转位子负载包括长LCR，任选地其中所述长LCR为包括β-球蛋白LCR HS1至HS5的β-球蛋白长LCR。在各种实施例中，长LCR具有至少27kb的长度。在各种实施例中，转位子负载包括表1中所阐述的LCR。在各种实施例中，转位子负载具有至少15kb、至少16kb、至少17kb、至少18kb、至少19kb、至少20kb、至少21kb、至少22kb、至少23kb、至少24kb、至少25kb、至少30kb、至少35kb、至少38kb或至少40kb的长度。在各种实施例中，转位子负载具有10kb-35kb、10kb-30kb、15kb-35kb、15kb-30kb、20kb-35kb或20kb-30kb的长度。在各种实施例中，转位子负载具有10kb-32.4kb、15kb-32.4kb或20kb-32.4kb的长度。

在各种实施例中，转位子负载包括编码蛋白质的核酸序列，任选地其中所述蛋白质为治疗性蛋白质。在各种实施例中，蛋白质选自由β球蛋白替代蛋白和γ-球蛋白替代蛋白组成的群组。在各种实施例中，蛋白质为第八因子替代蛋白。在各种实施例中，编码所述蛋白质的核酸序列与启动子可操作地连接，任选地其中所述启动子为β球蛋白启动子。

在各种实施例中，转位子反向重复序列为睡美人(SB)反向重复序列，任选地其中所述SB反向重复序列为pT4反向重复序列。在各种实施例中，转位酶为睡美人(SB)转位酶，任选地其中所述转位酶为睡美人100x(SB100x)。在各种实施例中，重组酶正向重复序列为FRT位点。在各种实施例中，腺病毒支撑基因组包括编码重组酶的核酸。在各种实施例中，重组酶为FLP重组酶。在各种实施例中，转位子负载包括β-球蛋白长LCR，所述转位子负载包括与β-球蛋白启动子可操作地连接的编码β-球蛋白的核酸序列，所述反向重复序列为SB反向重复序列，且所述重组酶正向重复序列为FRT位点。

在各种实施例中，转位子负载包括选择盒，任选地其中所述选择盒包括编码mgmt^P140K的核酸序列。

在各种实施例中，腺病毒衣壳被修饰成对CD46的亲和力增加，任选地其中所述腺病毒衣壳为Ad35++衣壳。

在各种实施例中，腺病毒辅助基因组的条件性包装元件包括被重组酶正向重复序列侧接的包装序列。

在各种实施例中，侧接条件性包装元件的包装序列的重组酶正向重复序列为LoxP位点。

在各种实施例中，本公开提供了一种细胞，其包括根据本发明的载体、基因组或系统。

在各种实施例中，本公开提供了一种细胞，其在其基因组中包括根据本公开的转位子负载，其中在所述细胞的基因组中存在的转位子负载被转位子反向重复序列侧接。

在各种实施例中，细胞为造血干细胞。

在各种实施例中，本公开提供了一种产生腺病毒的细胞，其包括根据本公开的腺病毒产生系统，任选地其中所述细胞为HEK293细胞。

在各种实施例中，本公开提供了一种修饰细胞的方法，所述方法包括使细胞与根据本公开的载体、基因组或系统接触。

在各种实施例中，本公开提供了一种修饰受试者的细胞的方法，所述方法包括向所述受试者投与根据本开的载体、基因组或系统。

在各种实施例中，本公开提供了一种修饰受试者的细胞的方法，其在不从所述受试者分离细胞下进行，所述方法包括向所述受试者投与根据本公开的载体、基因组或系统。

在各种实施例中，本公开提供了一种治疗有需要的受试者的疾病或病状的方法，所述方法包括向所述受试者投与根据本公开的载体、基因组或系统。

在各种实施例中，腺病毒供体载体经静脉内投与到受试者。

在各种实施例中，所述方法包括向所述受试者投与动员剂，任选地其中所述动员剂包括粒细胞-集落刺激因子(G-CSF)、CXCR4拮抗剂和CXCR2激动剂中的一者或一者以上。在各种实施例中，CXCR4拮抗剂为AMD3100。在各种实施例中，CXCR2激动剂为GRO-β。

在各种实施例中，转位子负载包括选择盒且所述方法包括向受试者投与选择剂。在各种实施例中，选择盒编码mgmt^P140K且选择剂为O⁶BG/BCNU。

在各种实施例中，所述方法引起至少20％、30％、40％、50％、60％、70％、80％、90％或95％表达CD46的细胞中整合和/或表达转位子负载的至少一个拷贝。在各种实施例中，所述方法引起至少20％、30％、40％、50％、60％、70％、80％、90％或95％造血干细胞和/或红血球系Ter119⁺细胞中整合和/或表达转位子负载的至少一个拷贝。在各种实施例中，所述方法引起包括转位子负载的至少1个拷贝的细胞的基因组中整合转位子负载的平均至少2个拷贝。在各种实施例中，所述方法引起包括转位子负载的至少1个拷贝的细胞的基因组中整合转位子负载的平均至少2.5个拷贝。在各种实施例中，所述方法引起被转位子负载编码的蛋白质以参考量的至少约20％的量表达，任选地其中所述参考为内源性参考蛋白在所述受试者中或参考群体中的表达。在各种实施例中，所述方法引起被转位子负载编码的蛋白质以参考量的至少约25％的量表达，任选地其中所述参考为内源性参考蛋白在所述受试者中或参考群体中的表达。

在各种实施例中，受试者为罹患中间型地中海贫血的受试者，其中所述转位酶负载包括包含β球蛋白LCR HS1至HS5的β球蛋白长LCR和与β球蛋白启动子可操作地连接的编码β球蛋白替代蛋白和/或γ-球蛋白替代蛋白的核酸序列。在各种实施例中，受试者为罹患血友病的受试者，其中所述转位酶负载包括包含β球蛋白LCR HS1至HS5的β球蛋白长LCR和与β球蛋白启动子可操作地连接的编码第八因子替代蛋白的核酸序列。在各种实施例中，受试者中所述蛋白质的表达减少中间型地中海贫血的至少一种症状和/或治疗中间型地中海贫血。

定义

一个、一种、所述：如本文所用，“一个”、“一种”和“所述”是指一个或超过一个(即，至少一个)所述冠词的文法对象。借助于实例，“一种要素”公开正好一种要素的实施例和包括超过一种要素的实施例。

约：如本文所用，术语“约”当在提及一个值时使用时是指在上下文中与所提及的值类似的值。一般来说，在熟悉上下文的情况下，所属领域的技术人员应了解该上下文中由“约”所涵盖的相关变化程度。举例来说，在一些实施例中，术语“约”可涵盖在所提及的值的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小之内的一系列值。

投药/投与(Administration)：如本文所用，术语“投药/投与”通常是指向受试者或系统投与组合物以达成本身为所述组合物或包括于所述组合物中的药剂的递送。

过继性细胞疗法：如本文所用，“过继性细胞疗法”或“ACT”涉及具有治疗活性的细胞转移到受试者、例如需要治疗病状、病症或疾病的受试者中。在一些实施例中，ACT包括在细胞的离体和/或体外工程化和/或扩增之后转移到受试者的细胞中。

亲和力：如本文所用，“亲和力”是指特定结合剂(例如病毒载体)和/或其结合部分与结合目标(例如细胞)之间的非共价相互作用总和的强度。除非另外指示，否则如本文所用，“结合亲和力”是指结合剂与其结合目标(例如病毒载体与病毒载体的目标细胞)之间的1:1相互作用。所属领域的技术人员了解亲和力变化可通过与参考比较(例如相对于参考增加或减少)来描述，或可通过数值来描述。亲和力可以所属领域中已知的多种方式加以测量和/或表示，包括(但不限于)平衡解离常数(K_D)和/或平衡缔合常数(K_A)。K_D为k_解离/k_缔合的商，而K_A为k_缔合/k_解离的商，其中k_缔合是指例如病毒载体与目标细胞的缔合速率常数，且k_解离是指例如病毒载体从目标细胞的解离。可使用所属领域的技术人员已知的技术测定k_缔合和k_解离。

药剂：如本文所用，术语“药剂”可指任何化学实体，包括但不限于原子、分子、化合物、氨基酸、多肽、核苷酸、核酸、蛋白质、蛋白复合物、液体、溶液、糖、多糖、脂质或其组合或复合物中的任一者或一者以上。

同种异体：如本文所用，术语“同种异体”是指源自一个受试者的任何物质，接着将其引入到另一受试者中，例如同种异体T细胞移植。

之间或从：如本文所用，术语“之间”是指所指示上部边界与下部边界或第一边界与第二边界之间的内容，包括边界。类似地，当在值范围的上下文中使用时，术语“从”指示该范围包括属于所指示的上部边界与下部边界或第一边界与第二边界之间的内容，包括边界。

结合：如本文所用，术语“结合”是指两种或更多种试剂之间或之中的非共价缔合。“直接”结合涉及试剂之间的物理接触；间接结合涉及借助于与一种或一种以上中间试剂物理接触的物理相互作用。两种或更多种试剂之间的结合可在多种背景中的任一者下进行和/或评估，包括在相互作用的试剂以隔离形式或在更复杂系统的背景下(例如在与载体试剂共价或以其它方式缔合和/或在生物系统或细胞中时)研究的情况。

癌症：如本文所用，术语“癌症”是指细胞展现出相对异常、失控和/或自发的生长，使得其显示异常升高的增殖速率和/或特征为显著丧失对细胞增殖的控制的异常生长表型的病状、病症或疾病。在一些实施例中，癌症可包括一种或一种以上肿瘤。在一些实施例中，癌症可为或包括癌变前(例如良性)、恶性、转移前、转移性和/或非转移性细胞。在一些实施例中，癌症可为或包括实体瘤。在一些实施例中，癌症可为或包括血液肿瘤。

嵌合抗原受体：如本文所用，“嵌合抗原受体”或“CAR”是指一种工程化蛋白质，其包括(i)胞外结构域，其包括结合目标抗原的部分；(ii)跨膜结构域；和(iii)胞内信号传导结构域，其在CAR被细胞外结合部分与目标抗原的结合刺激时发送活化信号。已经基因工程化以表达嵌合抗原受体的T细胞可称为CAR T细胞。因此，举例来说，当某些CAR由T细胞表达时，CAR细胞外结合部分与目标抗原的结合可活化T细胞。CAR又称为嵌合T细胞受体或嵌合免疫受体。

组合疗法：如本文所用，术语“组合疗法”是指向受试者投与两种或更多种药剂或方案，使得两种或更多种药剂或方案一起治疗所述受试者的病状、病症或疾病。在一些实施例中，两种或更多种治疗剂或方案可同时、相继或以重叠给药方案投与。所属领域的技术人员应了解组合疗法包括但不需要两种药剂或方案一起以单一组合物形式和同时投与。

控制表达或活性：如本文所用，如果第二元件(例如蛋白质或编码例如蛋白质的药剂的核酸)的表达或活性完全或部分依赖于第一元件(例如蛋白质，例如转录因子，或核酸序列，例如启动子)在至少一组条件下的状态(例如存在、不存在、构象、化学修饰、相互作用或其它活性)，那么第一元件“控制”或“驱动”第二元件的表达或活性。表达或活性的控制可为实质控制或活性，例如其中在至少一组条件下第一元件的状态的变化可引起第二元件的表达或活性与参考对照相比变化至少10％(例如至少20％、30％、40％、50％、60％、70％、80％、90％、100％、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、100倍)。

对应于：如本文所用，术语“对应于”可用以通过与适当参考化合物或组合物比较来标明化合物或组合物中结构元素的位置/标识。举例来说，在一些实施例中，聚合物中的单体残基(例如多肽中的氨基酸残基或多核苷酸中的核酸残基)可识别为“对应于”适当参考聚合物中的残基。举例来说，所属领域的技术人员了解，所提供多肽或多核苷酸序列中的残基通常根据相关参考序列的方案命名(例如编号或标记)(即使例如这类名称不反映所提供序列的文字编号)。借助于说明，如果参考序列在位置100-110处包括特定氨基酸模体，且第二相关序列在位置110-120处包括相同模体，那么第二相关序列的模体位置可称为“对应于参考序列的位置100-110”。所属领域的技术人员了解，对应位置可容易例如通过序列比对来鉴别，且这类比对通常通过多种已知工具、策略和/或算法中的任一者实现，包括但不限于软件程序，例如BLAST、CS-BLAST、CUDASW++、DIAMOND、FASTA、GGSEARCH/GLSEARCH、Genoogle、HMMER、HHpred/HHsearch、IDF、Infernal、KLAST、USEARCH、parasail、PSI-BLAST、PSI-Search、ScalaBLAST、Sequilab、SAM、SSEARCH、SWAPHI、SWAPHI-LS、SWIMM或SWIPE。

给药方案：如本文所用，术语“给药方案”可指投与受试者的一种或一种以上相同或不同单位剂量的集合，通常包括多个单位剂量，每个单位剂量的投与与其它单位剂量的投与相隔一段时间。在各种实施例中，给药方案的一个或一个以上或所有单位剂量可相同或可变化(例如随时间推移增加、随时间推移减少或根据受试者和/或根据开业医生的决定调节)。在各种实施例中，每个剂量之间的一个或一个以上或所有时间段可相同或可变化(例如随时间推移增加、随时间推移减少或根据受试者和/或根据从医者的决定调节)。在一些实施例中，既定治疗剂具有推荐给药方案，其可涉及一次或一次以上剂量。通常，市售药物的至少一种推荐给药方案为所属领域的技术人员已知。在一些实施例中，给药方案在跨相关群体投与时引起所期望或有益结果(即为治疗方案)。

下游和上游：如本文所用，术语“下游”意指第一DNA区域相对于第二DNA区域更接近包括第一DNA区域和第二DNA区域的核酸的C端。如本文所用，术语“上游”意指第一DNA区域相对于第二DNA区域更接近包括第一DNA区域和第二DNA区域的核酸的N端。

工程化：如本文所用，术语“工程化”是指已经被人为操控的方面。举例来说，当两个或更多个不以自然界中的顺序连接在一起的序列被人为操控成在工程化的多核苷酸中彼此直接连接时，该多核苷酸视为“工程化”。所属领域的技术人员应了解，“工程化”的核酸或氨基酸序列可为重组核酸或氨基酸序列。在一些实施例中，工程化的多核苷酸包括在自然界中发现与第一序列可操作地连接但在自然界中未发现与第二序列可操作地连接，在工程化的多核苷酸中人为与第二序列可操作地连接的编码序列和/或调节序列。在一些实施例中，如果细胞或生物体被操控而使得其遗传信息发生改变(例如，例如通过转化、交配、体细胞杂交、转染、转导或其它机制引入先前不存在的新遗传物质，或例如通过取代、缺失或交配改变或去除先前存在的遗传物质)，那么认为其被“工程化”。作为惯例且如所属领域的技术人员所理解，工程化的多核苷酸或细胞的完全或不完全后代或拷贝通常仍被称为“工程化”的，即使直接操控是对先前实体进行的。

赋形剂：如本文所用，“赋形剂”是指可包括于药物组合物中例如以提供或促成所需稠度或稳定效果的非治疗剂。在一些实施例中，适合药物赋形剂可包括例如淀粉、葡萄糖、乳糖、蔗糖、明胶、麦芽、稻谷、面粉、白垩、硅胶、硬脂酸钠、单硬脂酸甘油酯、滑石、氯化钠、脱脂奶粉、甘油、丙二醇、水、乙醇等。

表达：如本文所用，“表达”是个别和/或累计指促使由例如蛋白质的编码的试剂的核酸序列产生的一种或一种以上生物过程。表达特别包括转录和翻译中的任一者或两者。

片段：如本文所用，“片段”是指包括参考试剂(有时称为“亲本”试剂)的离散部分和/或由参考试剂的离散部分组成的结构。在一些实施例中，片段缺乏一个或一个以上在参考试剂中发现的部分。在一些实施例中，片段包括一个或一个以上在参考试剂中发现的部分或由所述一个或一个以上部分组成。在一些实施例中，参考试剂为例如多核苷酸或多肽的聚合物。在一些实施例中，聚合物的片段包括参考聚合物的至少3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、210个、220个、230个、240个、250个、275个、300个、325个、350个、375个、400个、425个、450个、475个、500个或更多个单体单元(例如残基)或由所述单体单元组成。在一些实施例中，聚合物的片段包括至少约5％、10％、15％、20％、25％、30％、25％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更多在参考聚合物中发现的单体单元(例如残基)或由所述单体单元组成。参考聚合物的片段不一定与参考聚合物的对应部分一致。例如，参考聚合物的片段可为残基序列与参考聚合物至少约5％、10％、15％、20％、25％、30％、25％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更多一致的聚合物。片段可通过或可不通过参考试剂的物理片段化来产生。在一些情况下，片段通过参考试剂的物理片段化来产生。在一些情况下，片段不通过参考试剂的物理片段化来产生且可实际上例如通过重新合成或其它方式产生。

基因、转基因：如本文所用，术语“基因”是指为或包括编码序列(即，编码表达产物、例如RNA产物和/或多肽产物的DNA序列)，任选地连同控制编码序列表达的调控序列中的一些或全部的DNA序列。在一些实施例中，基因包括非编码序列，例如但不限于内含子。在一些实施例中，基因可包括编码(例如外显子)与非编码(例如内含子)序列。在一些实施例中，基因包括作为启动子的调控序列。在一些实施例中，基因包括以下中的一者或两者：(i)在例如源基因组的参考背景下在编码序列上游延伸预定数目个核苷酸的DNA核苷酸；和(ii)在例如源基因组的参考背景下在编码序列下游延伸预定数目个核苷酸的DNA核苷酸。在各种实施例中，核苷酸的预定数目可为500bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、75kb或100kb。如本文所用，“转基因”是指基因相对于存在该基因或可通过工程化放入了该基因的参考背景来说是非内源性或天然的。

基因产物或表达产物：如本文所用，术语“基因产物”或“表达产物”通常是指从基因(加工前和/或加工后)转录的RNA或由从基因转录的RNA编码的多肽(修饰前和/或修饰后)。

宿主细胞、目标细胞：如本文所用，“宿主细胞”是指引入外源性DNA(重组或以其它方式)、例如转基因的细胞。所属领域的技术人员应了解，“宿主细胞”可为最初引入外源性DNA的细胞和/或其完全或不完全的子代或拷贝。在一些实施例中，宿主细胞包括一种或一种以上病毒基因或转基因。在一些实施例中，预期或潜在宿主细胞可称为目标细胞。

一致性：如本文所用，术语“一致性”是指聚合分子之间，例如核酸分子(例如DNA分子和/或RNA分子)之间和/或多肽分子之间的整体相关性。用于计算两个所提供的序列之间的一致性百分比的方法是所属领域中已知的。举例来说，两个核酸或多肽序列的一致性百分比的计算可例如通过出于最佳比较目的比对两个序列(或一个或两个序列的互补序列)来进行(例如可将间隙引入第一和第二序列中的一个或两个中以便最佳比对，且出于比较目的可忽略非一致序列)。随后比较相应位置处的核苷酸或氨基酸。当第一序列中的一个位置被与第二序列中对应位置相同的残基(例如核苷酸或氨基酸)占据时，则分子在该位置处一致。两个序列之间的一致性百分比是所述序列共有的一致位置数目的函数，任选地考虑为了两个序列的最佳比对而可能需要引入的间隙的数目和每个间隙的长度。序列的比较和两个序列之间的一致性百分比的确定可使用计算算法，例如BLAST(碱基局部比对检索工具)实现。

“改善”、“增加”、“抑制”或“减少”：如本文所用，术语“改善”、“增加”、“抑制”和“减少”和其语法同等物指示相对于参考的定性或定量差异。

分离的：如本文所用，术语“分离的”是指如下物质和/或实体：(1)已经与最初产生时(无论在自然界中和/或在实验环境中)与其相关联的至少一些组分分离；和/或(2)人为设计、产生、制备和/或制造。分离的物质和/或实体可与约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或超过约99％的最初与其相关联的其它组分分离。在一些实施例中，分离的药剂为约80％、约85％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或超过约99％纯。如本文所用，如果物质基本上不含其它组分，则其为“纯的”。在一些实施例中，如所属领域的技术人员所了解，在与例如一种或一种以上载剂或赋形剂(例如缓冲剂、溶剂、水等)的某些其它组分组合后物质仍可视为“分离的”或甚至“纯的”；在这类实施例中，在不包括这类载剂或赋形剂下计算物质的分离百分比或纯度。仅给出一个实例，在一些实施例中，自然界中存在的生物聚合物(例如多肽或多核苷酸)，当a)借助于其衍生起源或来源，不与在自然界中在其天然状态中伴随其的组分中的一些或全部相关联；b)其基本上不含与在自然界中产生其的物种相同的物种的其它多肽或核酸；c)被来自不为在自然界中产生其的物种的细胞或其它表达系统的组分表达或另外与所述组分相关联时，视为“分离的”。因此，举例来说，在一些实施例中，化学合成或在与在自然界中产生其的系统不同的细胞系统中合成的多肽视为“分离”的多肽。或者或另外，在一些实施例中，已经历一种或一种以上纯化技术的多肽可在其已经与a)在自然界中与其相关联；和/或b)在最初产生时与其相关联的其它组分分离的程度上视为“分离”的多肽。

可操作地连接：如本文所用，“可操作地连接”是指至少第一元件与第二元件相关联，使得组成元件处于允许其以其预期方式起作用的关系。举例来说，如果调控序列和编码序列以允许通过调控序列控制编码序列的表达的方式相关联，那么核酸调控序列“可操作地连接”到核酸编码序列。在一些实施例中，“可操作地连接”的调控序列直接或间接地与编码序列共价相关联(例如在单个核酸中)。在一些实施例中，调控序列控制编码序列呈反式表达且在与编码序列相同的核酸中包括调控序列并非可操作连接的要求。

药学上可接受：如本文所用，应用于用于配制如本文所公开的组合物的一种或一种以上或所有组分的术语“药学上可接受”意指每种组分必须与组合物的其它成分相容且对其接受者无害。

药学上可接受的载剂：如本文所用，术语“药学上可接受的载剂”是指促进药剂(例如，医药剂)配制、改良药剂的生物利用率或促进药剂从受试者的一个器官或部分输送至另一个器官或部分的药学上可接受的物质、组合物或媒剂，例如液体或固体填充剂、稀释剂、赋形剂或溶剂囊封物质。可充当药学上可接受的载剂的物质的一些实例包括：糖，例如乳糖、葡萄糖和蔗糖；淀粉，例如玉米淀粉和马铃薯淀粉；纤维素和其衍生物，例如羧甲基纤维素钠、乙基纤维素和乙酸纤维素；粉末状黄蓍；麦芽；明胶；滑石；赋形剂，例如可可脂(cocoabutter)和栓剂蜡；油，例如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和大豆油；二醇，例如丙二醇；多元醇，例如丙三醇、山梨糖醇、甘露糖醇和聚乙二醇；酯，例如油酸乙酯和月桂酸乙酯；琼脂；缓冲剂，例如氢氧化镁和氢氧化铝；褐藻酸；无热原质水；等张生理盐水；林格氏溶液(Ringer's solution)；乙醇；pH缓冲溶液；聚酯、聚碳酸酯和/或聚酸酐；和医药配制物中所用的其它无毒相容物质。

药物组合物：如本文所用，术语“药物组合物”是指活性剂连同一种或一种以上药学上可接受的载剂一起配制的组合物。

启动子：如本文所用，“启动子”或“启动子序列”可为直接或间接(例如通过结合启动子的蛋白质或物质)参与编码序列的翻译起始和/或持续合成能力的DNA调控区。启动子可在适合条件下在一种或一种以上转录因子和/或调控部分与启动子结合后起始编码序列的翻译。参与编码序列转录起始的启动子“可操作地连接”到编码序列。在某些情况下，启动子可为或包括DNA调控区，其从翻译起始位点(在其3'端)延伸到上游(5'方向)位置，使得如此指定的序列包括起始翻译事件所必需的最小数目的碱基或元件中的一者或两者。启动子可为、包括例如增强子和抑制子序列的表达控制序列或可操作地与之相关联或可操作地连接。在一些实施例中，启动子可为诱导性的。在一些实施例中，启动子可为组成型启动子。在一些实施例中，条件型(例如诱导型)启动子可为单向或双向的。启动子可为或包括与已知在特定物种的基因组中出现的序列一致的序列。在一些实施例中，启动子可为或包括杂交启动子，其中含有转录调控区的序列可从一个来源获得且含有转录起始区的序列可从第二来源获得。用于连接控制元件到转基因内的编码序列的系统是所属领域中众所周知的(通用分子生物和重组DNA技术描述于山姆布鲁克(Sambrook),弗里奇(Fritsch),和马尼亚蒂斯(Maniatis),《分子克隆实验指南(Molecular Cloning:A Laboratory Manual)》,第二版,纽约冷泉港冷泉港实验室出版社(Cold Spring Harbor Laboratory Press,ColdSpring Harbor,NY,1989))。

参考：如本文所用，术语“参考”是指进行比较所相对于的标准或对照。例如，在一些实施例中，试剂、样品、序列、受试者、动物或个体、或其群体、或其量度或特征性代表与参考、试剂、样品、序列、受试者、动物或个体、或其群体、或其量度或特征性代表相比较。在一些实施例中，参考为测量值。在一些实施例中，参考为确立的标准或期望值。在一些实施例中，参考为历史参考。参考可为定量或定性的。通常，如所属领域的技术人员将理解，参考和与其比较的值表示在可比条件下的测量。所属领域的技术人员应了解何时存在足以证明依赖性和/或比较的相似性。在一些实施例中，适当参考可为试剂、样品、序列、受试者、动物或个体、或其群体，在所属领域的技术人员识别作为可比的条件下，例如以便评估一个或一个以上特定变量(例如存在或不存在药剂或条件)或其量度或特征性代表。

调控序列：如本文所用，在核酸编码序列表达的上下文中，调控序列为控制编码序列的表达的核酸序列。在一些实施例中，调控序列可控制或影响基因表达的一个或一个以上方面(例如，细胞类型特异性表达、诱导型表达等)。

受试者：如本文所用，术语“受试者”是指生物体，通常哺乳动物(例如人、大鼠或小鼠)。在一些实施例中，受试者患有相关疾病、病症或病状。在一些实施例中，受试者易患疾病、病症或病状。在一些实施例中，受试者呈现疾病、病症或病状的一个或一个以上症状或特征。在一些实施例中，受试者未罹患疾病、病症或病状。在一些实施例中，受试者未呈现疾病、病症或病状的任何症状或特征。在一些实施例中，受试者具有一个或一个以上特点，该一个或一个以上特点的特征在于易患疾病、病症或病状或具有罹患疾病、病症或病状的风险。在一些实施例中，受试者为已测得疾病、病症或病状和/或已投与疗法的受试者。在一些情况下，人类受试者可互换称为“患者”或“个体”。

治疗剂：如本文所用，术语“治疗剂”是指在向受试者投与时引发所需药理学作用的任何药剂。在一些实施例中，如果药剂在适当群体中展现出统计显著效果，那么其视为治疗剂。在一些实施例中，适当群体可为模型生物体群体或人类群体。在一些实施例中，适当群体可由各种标准定义，例如特定年龄组、性别、基因背景、先前存在的临床病状等。在一些实施例中，治疗剂为可用于治疗疾病、病症或病状的物质。在一些实施例中，治疗剂为在可出售以向人投与之前已经或需要由政府机构批准的药剂。在一些实施例中，治疗剂为医学处方所需要以用于向人投与的药剂。

治疗有效量：如本文所用，“治疗有效量”是指产生投与其所期望的作用的量。在一些实施例中，该术语是指当根据治疗给药方案向罹患或易患疾病、病症和/或病状的群体投与时足以治疗该疾病、病症和/或病状的量。在一些实施例中，治疗有效量为降低疾病、病症和/或病状的一种或一种以上症状的发生率和/或严重程度，和/或延迟其发作的量。所属领域的一般技术人员将了解术语“治疗有效量”实际上不需要在特定个体中实现成功治疗。确切来说，治疗有效量可为当向需要这类治疗的患者投与时在相当大数目的受试者中提供特定所期望的药理学反应的量。在一些实施例中，提及治疗有效量可为提及如在一个或一个以上具体组织(例如受疾病、病症或病状影响的组织)或流体(例如血液、唾液、血清、汗液、泪液、尿液等)中所测量的量。所属领域的一般技术人员将了解，在一些实施例中，治疗有效量的特定药剂或疗法可在单次给药中配制和/或投与。在一些实施例中，治疗有效的药剂可以多个剂量，例如作为给药方案的一部分配制和/或投与。

治疗：如本文所用，术语“治疗(treatment)”(又为“治疗(treat)”或“治疗(treating)”)是指投与部分或完全缓解、改善、减轻、抑制特定疾病、病症或病状的一种或一种以上症状、特点和/或病因、延迟其发作、降低其严重程度和/或降低其发病率或被投与以便实现任何这类结果的疗法。在一些实施例中，这类治疗可对不展现相关疾病、病症或病状的征象的受试者和/或仅展现疾病、病症或病状的早期征象的受试者进行。或者或另外，这类治疗可对展现相关疾病、病症和/或病状的一种或一种以上确立征象的受试者进行。在一些实施例中，治疗可对已诊断为罹患相关疾病、病症和/或病状的受试者进行。在一些实施例中，治疗可对已知具有一种或一种以上在统计学上与相关疾病、病症或病状发展风险增加相关的易感性因素的受试者进行。

单位剂量：如本文所用，术语“单位剂量”是指以单一剂量和/或以药物组合物的物理离散单元投与的量。在许多实施例中，单位剂量含有预定量的活性剂，例如预定病毒滴度(给定体积中病毒、病毒体或病毒颗粒的数目)。在一些实施例中，单位剂量含有整个单一剂量的药剂。在一些实施例中，投与超过一个单位剂量以达成总单一剂量。在一些实施例中，需要或者认为需要投与多个单位剂量，以便达成预期作用。单位剂量可为例如含有预定量的一种或一种以上治疗部分的一定体积的液体(例如可接受的载剂)、预定量的呈固体形式的一种或一种以上治疗部分、含有预定量的一种或一种以上治疗部分的持续释放配制物或药物递送装置等。应了解，单位剂量可以呈除治疗部分之外还包括各种组分中的任一者的配制物形式存在。举例来说，可包括可接受的载剂(例如药学上可接受的载剂)、稀释剂、稳定剂、缓冲剂、防腐剂等。所属领域的技术人员应了解，在多个实施例中，特定治疗剂的总适当日剂量可包括单位剂量的一部分或多个单位剂量，且可例如由开业医师根据合理的医学判断来决定。在一些实施例中，任何特定患者或生物体的特定有效剂量将视多种因素而定，所述因素包括所治疗的病症和病症的严重程度；所用特定化合物的活性；所用特定组合物；患者的年龄、体重、整体健康、性别和膳食；投与时间和所用特定活性化合物的排泄率；治疗持续时间；与所用特定化合物组合或同时使用的药物和/或额外疗法；和医学技术中众所周知的类似因素。

附图说明

本文中所提交的图中的一者或一者以上呈色彩可更好地理解。申请人考虑图式的彩色版本作为原始提交的部分且保留在稍后程序中呈现图式的彩色影像的权利。

图1A-1D.使用HDAd-长-LCR的离体HSPC转导研究。(图1A)载体结构。γ-球蛋白基因处于21.5kbβ-球蛋白LCR、1.6kbβ-球蛋白启动子和同样来源于β-球蛋白基因座的3'HS1区的控制下。为了使红血球系细胞中的RNA稳定，将β-球蛋白基因UTR连接于γ-球蛋白基因的3'末端。载体还含有mgmt^P140K的表达盒，允许转导的HSPC和HSPC子代的体内选择。γ-球蛋白与mgmt表达盒由鸡球蛋白HS4分离子(insulator)分隔开。32.4kb LCR-γ-球蛋白/mgtm转位子被反向重复序列(IR)侧接，所述反向重复序列被SB100x和ftr位点识别，允许转位子通过Flpe重组酶环化。(图1B)实验方案。来自CD46-转基因小鼠的骨髓Lin^-细胞被HDAd-长-LCR和HDAd-SB以每个细胞500vp的总MOI转导。在培养一天之后，将1×10⁶个转导细胞/小鼠移植到接受致死辐射的C57Bl/6小鼠中。第4周，开始O⁶BG/BCNU处理，且每两周重复四次。在每个周期下，BCNU浓度从5mg/kg增加到7.5mg/kg、到10mg/kg(两次)。第20周，处死小鼠。(图1C)通过流式细胞术测量的人γ-球蛋白阳性外周血红细胞(RBC)的百分比。每个符号为个别动物。(图1D)代表性流式细胞术数据，其展示在移植后第20周红血球系(Ter119⁺)骨髓细胞中人γ-球蛋白的表达(下图)。上图显示移植有模拟转导细胞的小鼠。

图2A-2C.在移植后第20周，对来自动物的骨髓细胞中的载体/染色体接点的iPCR分析。(图2A)iPCR分析的示意图。用SacI消化五微克基因组DNA，重新接合，且用所指示引物对其进行巢式反向PCR(参见材料与方法)。(图2B)含有整合接点的克隆质粒的琼脂糖凝胶电泳。切除所指示条带并测序。染色体整合位点展示在凝胶下方。(图2C)接合序列的实例：5'末端载体序列、睡美人IR/DR序列、整合接点(chr15，6805206)SEQ ID NO:1；5'末端载体序列、睡美人IR/DR序列、整合接点(chrX，16897322)SEQ ID NO:2；3'末端载体序列、睡美人IR/DR序列、整合接点(chr4，10207667)SEQ ID NO:3。载体和IR/DR序列分别以纯文字和下划线指定。染色体序列以粗体字指定。将IR与染色体DNA的接点处由SB100x使用的TA二核苷酸加括号。

图3A-3E.使用含有32.4kb转位子的HDAd-长-LCR和含有11.8kb转位子的HDAd-短-LCR的体内HSPC转导。(图3A)代替21.5kb HS1-HS5 LCR和3'HS1(图1A HDAd-短-LCR)，该载体含有4.3kb微型-LCR，包括DNA水解酶超敏感位点(HS)1至4的核心区。(图3B)治疗方案。将hCD46tg小鼠动员且IV注射HDAd-短-LCR+HDAd-SB或HDAd-长-LCR+HDAd-SB(两种病毒的1:1混合物各4×10¹⁰vp 2次)。五周后，开始O⁶BG/BCNU处理。在每个周期下，BCNU浓度从2.5mg/kg增加到7.5mg/kg和10mg/kg。所有三种处理中O⁶BG浓度均为30mg/kg。追踪小鼠直到第20周，此时处死动物用于分析，且将Lin^-细胞移植到二次接受者。接着追踪二次接受者16周。进行体内HSPC转导的动物接受免疫抑制(IS)药物以防止针对人γ-球蛋白和mgtm蛋白的免疫反应。(图3C)通过流式细胞术测量的外周血红细胞(RBC)中人γ-球蛋白阳性细胞的百分比。每个符号为个别动物。在模拟转导的小鼠中，小于0.1％的细胞为γ-球蛋白阳性的。(图3D)在体内HSPC转导之后第20周通过HPLC测量RBC中γ-球蛋白链的含量。展示人γ-球蛋白相对于小鼠α-球蛋白链的百分比。(图3E)在体内HSPC转导之后第20周通过qRT-PCR测量总血液中γ球mRNA的含量。展示人γ-球蛋白mRNA相对于小鼠α-球蛋白mRNA的百分比。

图4.在体内HSPC转导后第20周收获的骨髓MNC中的每个细胞的载体拷贝数。两组之间的差异不显著。

图5A-5D.在体内HSPC转导后第20周的血液参数。(图5A)白血球(WBC)、嗜中性粒细胞(NE)、白细胞(LY)、单核细胞(MO)、嗜酸性粒细胞(EO)和嗜碱性粒细胞(BA)。(图5B)红血球生成参数。RBC：红血球，Hb：血红蛋白，MCV：平均红血球体积，MCH：平均红血球血红蛋白，MCHC：平均红血球血红蛋白浓度，RDW：红血球分布宽度。三组之间的差异不显著。(图5C)细胞骨髓组成。(图5D)骨髓Lin^-细胞的集落形成潜能。图5A-5D中各组之间的差异不显著。图5各图中的数据显示，利用HDAd短-LCR和/或长-LCR载体的体内HSPC转导不影响骨髓中的血细胞生成和细胞分布。

图6.指示NheI和KpnI位点在HDAd-球蛋白载体中相对于睡美人反向重复序列(IR)的定位。这些酶接近但在SB IR/DR外部切割，且用于降低未整合载体的背景。将来自骨髓Lin^-细胞的剩余基因组DNA用NheI和KpnI消化，且在热失活之后进一步用NlaIII消化。NlaIII为4重切割剂且将建立小DNA片段。接着消化的DNA用具有已知序列和相容性末端的双股寡核苷酸接合到消化的NlaIII片段。在热失活和清除之后，连接子接合的产物用于线性扩增，这产生了从SB左臂引发的单股(ss)DNA群体。引物进行生物素标记，因此ssDNA可用链霉亲和素珠粒收集。在彻底洗涤之后，将ssDNA从珠粒溶离且通过两轮巢式PCR进行进一步扩增。对PCR扩增子进行凝胶纯化、克隆、测序和映射到小鼠基因组序列以标记整合位点。

图7A-7D.对HSPC中的载体整合位点的分析。在用HDAd-长-LCR+HDAd-SB体内转导之后第20周收获从骨髓Lin-细胞分离的基因组DNA。(图7A，两页上)整合位点的染色体分布。全基因组睡美人整合。整合位点通过竖直线标记。(图7B)接合序列的实例：睡美人IR/DR序列、整合接点(chr7，79796094)SEQ ID NO:4；睡美人IR/DR序列、整合接点(重复区域)SEQID NO:5。IR/DR序列通过下划线和粗体字指定。染色体序列以纯文字指定。将IR与染色体DNA的接点处的由SB100x使用的TA二核苷酸加粗。(图7C)参考RefSeq注释的全基因组睡美人整合。将整合位点映射到小鼠基因组并分析其相对于基因的位置。展示在转录起始位点上游1kb、外显子的3'UTR、蛋白质编码序列、内含子、3'UTR、3'UTR下游1kb和基因间发生的整合事件的百分比。(图7D)与随机对照相比的睡美人整合模式。小鼠基因组窗中的整合模式。比较与连续基因组窗和随机小鼠基因组窗和尺寸重叠的整合数目。这展示，整合模式在连续和随机窗中类似。任何给定窗中的最大整合数目不超过3；其中每个窗一个整合的发生率较高。值表示平均值±s.d.。图7的图中的数据展示接近随机的整合模式，对基因无偏好。

图8A-8E.对二次接受者的分析。将在第20周从体内转导的CD46tg小鼠收获的骨髓Lin^-细胞移植到接受致死辐射的C57Bl/6小鼠中。追踪二次接受者16周。(图8A)植入率基于CD46阳性PBMC的百分比。两组之间的差异不显著。(图8B)通过流式细胞术测量的表达γ-球蛋白的外周血RBC的百分比。两组之间的差异不显著。(图8C)通过HPLC分析二次接受者的RBC中的人γ-球蛋白链。展示在移植之后第4周、第8周、第12周和第16周人γ-球蛋白相对于成年小鼠α球蛋白的百分比。*p<0.0001。使用双向ANOVA进行统计分析。(图8D)总血细胞中的γ-球蛋白mRNA含量。展示人γ-球蛋白mRNA相对于小鼠α和β-主要球蛋白mRNA的百分比。(图8E)在移植之后第16周骨髓MNC中的γ-球蛋白mRNA含量。展示人γ-球蛋白m-RNA相对于小鼠α和β-主要球蛋白mRNA的百分比。图8和9的图个别或一起展示，“32.4”kb转位子的整合发生在长期再生细胞中；与具有短LCR的载体相比，γ-球蛋白从具有长LCR的载体表达的量随着时间推移增加，且具有长LCR的载体提供γ-球蛋白表达的更严格的红血球系特异性。

图9A-9C.二次接受者的骨髓中γ-球蛋白表达的红血球系特异性(在移植之后第16周)(图9A)所有骨髓MNC中表达γ-球蛋白的红血球系(Ter119⁺细胞)的百分比。(图9B)红血球系特异性。红血球系(Ter119⁺)和非红血球系(Ter119^-)细胞中的γ-球蛋白+细胞的百分比。(图9C)在体内HSPC转导后第20周收获的骨髓MNC中的每个细胞的载体拷贝数(VCN)。两组之间的差异不显著。

图10A-10D.在移植之后第16周二次接受者中的血液参数。(图10A)白血球。(图10B)红血球生成参数。RBC：红血球，Hb：血红蛋白，MCV：平均红血球体积，MCH：平均红血球血红蛋白，MCHC：平均红血球血红蛋白浓度，RDW：红血球分布宽度。三组之间的差异不显著。(图10C)细胞骨髓组成。(图10D)骨髓Lin^-细胞的集落形成潜能。

图11A-11C.利用人CD34+细胞的体外研究。(图11A)实验示意图。将CD34+细胞用HDAd-长-LCR+HD-SB或HDAd-短-LCR+HDAd-SB进行转导且进行红血球系分化(ED)。在ED第5天开始用O⁶BG-BCNU进行体外选择。第18天，通过流式细胞术(图11B)和HPLC(图11C)分析细胞。图11的图显示在人细胞系统中，HDAd长-LCR载体在转导的人HSC/CD34+细胞进行红血球系分化之后提供较高的γ-球蛋白表达。

图12A-12B.小鼠中载体hCD46tg中的体内HSC转导：“长”对比“短”载体LCR。(图12A)HDAd-长-LCR-γ-球蛋白/mgmt.载体和HDAd-短-LCR-γ-球蛋白/mgmt.载体。(图12B)小鼠中载体Hbb^th3/CD46的体内转导。第1组展示7只小鼠中HDAd-长-LCR-γ-球蛋白/mgmt+HDAd-SB/Flpe的体内转导。第2组展示3只小鼠中HDAd-短-LCRγ-球蛋白/mgmt+HDAd-SB/Flpe的体内转导。O⁶BG、BCNU仅需要三个选择周期。

图13.Thbb小鼠测试(W6)。所述图形结果显示，当对比短LCR载体用长LCR载体转导时小鼠中无差异且几乎无人γ-球蛋白表达。两页上。

图14.Thbb小鼠测试(W8)。所述图形结果显示，当对比短LCR载体用长LCR载体转导时小鼠中无差异，然而，不清楚短LCR病毒在小鼠中是否已经死亡。两页上。

图15.展示小鼠中表达人γ-球蛋白的RBC的百分比的图示。该图说明在仅仅三个体内选择周期之后100％标记。

图16.展示相对于小鼠HBA的人γ-球蛋白(第10周)的HPLC的图示。该图展示与短LCR相比，长LCR的γ-球蛋白含量显著较高。

图17.含有长LCR载体的小鼠#57的示例第10周血液HPLC的图示。

图18A-18D.用HDAd-短-LCR和HDAd-长-LCR对Hbb^th3/CD46小鼠进行体内HSC基因疗法之后的人γ-球蛋白表达。(图18A)治疗方案。与图3A-3E对比，图18A-18D展示地中海贫血Hbb^th3/CD46小鼠内的结果。(图18B)通过流式细胞术测量的外周血红细胞(RBC)中人γ-球蛋白阳性细胞的百分比。每个符号为个别动物。(图18C)在体内HSPC转导之后第18周通过HPLC测量RBC中γ-球蛋白链的含量。展示人γ-球蛋白相对于小鼠α-球蛋白链的百分比。(图18D)未处理Hbb^th3/CD46小鼠(左图)和在处理之后第21周的小鼠的代表性色谱图。指示小鼠α和β链以及所添加的人γ-球蛋白。图18的图中的数据显示，在长-LCR HDAd载体的情况下，100％ GRP标记可在较不密集和/或较少回合和/或较低剂量的体内选择下达成。γ-球蛋白表达量在预期提供有效疗法的范围内(处于或高于20％)。

图19.展示在处理前和长LCR处理之后第10周C57BL6(正常小鼠)和Townes SCA小鼠的正常化红血球形态的显微图。

图20.展示在处理前Townes小鼠和处理(长LCR)之后第10周Townes小鼠的正常化红血球生成(网织红细胞计数)的显微图。

图21A-21C.表型校正。(图21A、21B)血球形态，其中左图呈现用姬姆萨染色剂(Giemsa stain)染色的血液抹片，且右图呈现用迈格林华染色剂(May-Grünwald stain)染色的血液抹片。网织红细胞中细胞核和细胞质的残余物导致染成紫色。(图21A)之前与第14周比较。(图21B)CD46tg、的前的Hbb^th3/CD46小鼠、第18周利用HDAd-长-LCR的Hbb^th3/CD46小鼠和第21周利用HDAd-长-LCR的Hbb^th3/CD46小鼠的姬姆萨染色和网织红细胞的比较。(图21C)骨髓细胞离心涂片。看见红血球生成中往回移，在经处理中原成红细胞为主。比例尺为20μm。图21的图中的数据展示在用HDAd长-LCR载体进行体内HSC基因疗法之后血球形态正常化。

图22.在Hbb^th3/CD46⁺小鼠的体内HSC基因疗法之前和之后的血液参数。Hbb^th3/CD46⁺小鼠呈现中间型地中海贫血表型。用腺病毒供体载体处理小鼠，所述腺病毒供体载体包括可操作地连接于尤其长LCR或短LCR的γ-球蛋白核酸序列。在处理之后第1周和第10周，对小鼠取样。图22展示在第1周(上图)和第10周(下图)来自用长LCR载体处理的小鼠、用短LCR载体处理的小鼠和对照CD46tg的样品的WBC、RBC、Hb、HCT、MCV、MCH、MCHC和RDW的正常化红血球参数的图示。

图23A、23B.在Hbb^th3/CD46⁺小鼠的体内HSC基因疗法之前和之后的血液参数。Hbb^th3/CD46⁺小鼠呈现中间型地中海贫血表型。用腺病毒供体载体处理小鼠，所述腺病毒供体载体包括可操作地连接于尤其长LCR或短LCR的γ-球蛋白核酸序列。在处理之后第18周，处死小鼠且取样。对血液抹片上的网织红细胞百分比计数(图23A；网织红细胞计数)。在体内转导之后第18周的血液参数与其对照CD46tg对应物不可区分，这表明了完全表型校正，包括白血球和红血球计数以及红血球系细胞特征(Hb、HCT、MHCH和RDW)的正常化(图23B；血液参数)。

图24A、24B.脾和肝脏中髓外血细胞生成的表型校正。(图24A)处死时脾尺寸(第21周)上两个图展示代表性脾影像。下图为概述那些结果的点阵图。每个符号代表个别动物。数据呈现为平均值±平均值的标准误差(SEM)。*p≤0.05。使用单向ANOVA进行统计分析。(图24B)。通过肝脏和脾切片中苏木精/伊红染色的髓外血细胞生成。Hbb^th3/CD46小鼠的肝脏中的成红血细胞和脾中的巨核细胞的团簇由黑色箭头指示。比例尺为20μm。

图25.脾和肝脏中含铁血黄素沉积的表型校正。铁沉积通过普尔染色(Perl'sstaining)作为脾和肝脏切片中的含铁血黄素的细胞质蓝颜料展示。比例尺为20μm。(Exp：2.24ms，增量：4.1x，饱和度：1.50，γ：0.60)。

图26A-26C.处死时(第21周)的骨髓分析。在Hbb^th3/CD46tg小鼠的体内HSC转导之后第21周收获骨髓。(图26A)骨髓MNC中每个细胞的载体拷贝数。两组之间的差异不显著，但如果用较大的样品尺寸进行分析，那么可能变得显著。(图26B、26C)γ-球蛋白表达的红血球系特异性。(图26B)表达γ-球蛋白的红血球系(Ter119⁺)和非红血球系(Ter119^-)细胞的百分比。*p<0.05。使用双向ANOVA进行统计分析。

图27.投与腺病毒供体载体之前来自CD46tg和CD46^+/+/Hbb^th-3小鼠的肝脏和脾切片中通过苏木精/伊红染色的髓外血细胞生成。铁沉积通过普尔染色作为脾中的含铁血黄素的细胞质蓝颜料展示。

图28.比较使用不同反向重复序列(IR)的整合SB100x转位酶功效的实验设计的示意图。使用三种质粒，其中mgmt./GFP转位子负载被以下侧接：(i)pT0 ITR；(ii)pT2 ITR；或(iii)pT4 ITR，所述质粒其它方面一致。将293细胞用包括mgmt./GFP转位子负载的三种质粒转染，有或无编码pSB100x的支撑质粒。在有或无选择下培养细胞17天。对于未进行选择的细胞，在第3、12和17天，且对于通过在第3天单次添加50μM O⁶BG/BCNU进行选择的细胞，在第17天，吸取培养物样品。

图29.对于T0、T2和T4质粒中的每一者，在有或无SB100x质粒下培养的细胞在培养第12和17天表达GFP的293细胞的百分比。

图30.对于T0、T2和T4质粒中的每一者，在有或无SB100x质粒下培养的细胞在用O⁶BG/BCNU对细胞进行选择下在培养第17天表达GFP的293细胞的百分比。

图31.包括31.776kb转位子负载(整合盒)的核酸(pWEAd5-PT4-LCR-球蛋白-mgmt)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子IR(尤其睡美人IR)侧接，转位子IR(尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与β启动子、包括HS1-HS5的长LCR和3'HS1可操作地连接的γ-球蛋白编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

图32.包括31.772kb转位子负载(整合盒)的核酸(HDAd5-PT4-长LCR球蛋白-rhMGMT)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子IR(尤其睡美人IR)侧接，转位子IR(尤其睡美人IR)又被重组酶正向重复序列DR(尤其FRT DR)侧接。转位子包括：(i)与β启动子、包括HS1-HS5的长LCR和3'HS1可操作地连接的γ-球蛋白编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

图33.包括13.173kb转位子负载(整合盒)的核酸(HDAd-Ad5-PT4-LCR-hACE2/mgmt)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子IR(尤其睡美人IR)侧接，转位子IR(尤其睡美人IR)又被重组酶正向重复序列DR(尤其FRT DR)侧接。转位子包括：(i)与β启动子和包括HS1-HS4的长LCR可操作地连接的重组人类ACE2编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

图34.包括12.169kb转位子负载(整合盒)的核酸(pWEHCB-微LCR-球蛋白/mgmt)的示意图。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子IR(尤其睡美人IR)侧接，转位子IR(尤其睡美人IR)又被重组酶正向重复序列DR(尤其FRT DR)侧接。转位子包括：(i)与β启动子和包括HS1-HS4的长LCR可操作地连接的γ球蛋白编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

图35.包括9.382kb转位子负载(整合盒)的核酸(pWEHCA-Faconi-GFP)的示意图。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子IR(尤其睡美人IR)侧接，转位子IR(尤其睡美人IR)又被重组酶正向重复序列DR(尤其FRT DR)侧接。转位子包括：(i)与pgk启动子可操作地连接的FancA编码序列，和(ii)与Ef1a启动子可操作地连接的GFP编码序列。

图36.包括5.490kb转位子负载(整合盒)的核酸(pHCA-T4-rhMGMT-GFP)的示意图。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与PGK启动子可操作地连接的GFP编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

图37.包括3.797kb转位子负载(整合盒)的核酸的示意图。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)GFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

图38.包括3.709kb转位子负载(整合盒)的核酸(pBHCA-PT0-EF1a-mgmt/GFP)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)eGFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

图39.包括3.547kb转位子负载(整合盒)的核酸(pHCA(Ad35)-PT4-EF1a-mgmt/GFP)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)GFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

图40.包括3.543kb转位子负载(整合盒)的核酸((pHCA-Ad5-PT4-Ef1a-mgmt/GFP))的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)GFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

图41.包括2.781kb转位子负载(整合盒)的核酸(pHCA(Ad35)-PT4-EF1a-mgmt)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

图42.包括2.777kb转位子负载(整合盒)的核酸(pHCA-T4-Ef1a-rhMGMT)的示意图。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

图43.包括2.751kb转位子负载(整合盒)的核酸(pHCA-Ad5-PT4-Ef1a-mgmt)的示意图。示意图划分成两个重叠部分以便易于呈现，所述部分的关系对于所属领域的技术人员将为显而易见的。示意图提供环化质粒情形下的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

具体实施方式

本公开尤其包括腺病毒载体、腺病毒载体基因组和其组合和用途。本公开的腺病毒载体和腺病毒载体基因组可包括多达例如20、25、30或甚至超过30kb的转位子负载，且此外在各种实施例中，成功地将这类大转位子负载整合到宿主细胞的基因组中。如所属领域的技术人员将了解，载体在其中和本身整合的容量是基因疗法系统的一个非常重要的特征，这至少部分因为整合容量限制治疗负载的长度和/或复杂性。因此，本文所提供的方法和组合物尤其提供了一种使用腺病毒载体进行有效基因疗法的平台，该平台允许将例如20、25、30或甚至超过30kb的核酸负载转位整合到宿主细胞基因组中。如所属领域的技术人员将从本发明中了解且如本文中的各种实施例所例示，这类整合容量允许以相比各种先前系统可能的复杂度和多样性更大的复杂度和多样性对治疗负载进行工程化。

本公开的方法和组合物克服了先前所了解的对整合容量的某些限制。某些这类限制与病毒载体类型相关。举例来说，慢病毒载体负载容量为约9kb，逆转录病毒负载容量为约8kb，且腺相关病毒(AAV)负载容量为约5kb。先前了解到其它这类限制是转位所固有的。举例来说，研究显示，转位子整合依赖于长度，即，随着长度增加，转位能力迅速降低，这种现象在所属领域中有时称为“长度依赖性”。鉴于这些当前期望，本文所公开的组合物和方法打破了先前所了解的对腺病毒转位整合容量的限制的发现是本公开和本文所提供的实例所揭露的出人意料的结果。据本发明人了解，这一工作表示首次证明了如本文所提供的方法和组合物可整合本文所公开的各种特定尺寸的转位子负载。举例来说，这一发现如下例证：整合包括大调控区(基因座控制区域，或“LCR”)的转位子负载，以改良转基因表达。然而，为了避免任何疑义，所属领域的技术人员应了解这类例证代表了本文所提供的腺病毒组合物和方法的高转位整合容量的更普遍发现，和其在包括尤其基因疗法领域的各种领域中的意义。

现如下以更多的支持性细节描述本发明的方面：(I)病毒载体负载整合到目标细胞基因组中；(II)大负载的类型；(III)长LCR；(IV)与长LCR可操作地连接的编码序列；(V)转位酶；(VI)调控组件；(VII)载体；(VIII)配制物；(IX)应用；(X)示例性实施例；(XI)实验实例；和(XII)结束段落。

(I)病毒载体负载整合到目标细胞基因组中

基因疗法通常需要将所需核酸负载整合到目标细胞的基因组中。鉴于可通过各种基因疗法治疗的病状的多样性，已构想出用于设计核酸负载的许多策略。然而，实际上，治疗负载的递送在许多情况下因大负载难以整合到目标细胞基因组而受到限制。举例来说，慢病毒载体负载容量为约9kb，逆转录病毒负载容量为约8kb，且腺相关病毒(AAV)负载容量为约5kb。考虑到当前对能够表达大基因、利用大的人调控序列和/或表达多种基因的负载的关注，这些是相当大的限制。此外，如所属领域的技术人员所充分了解，每个病毒平台与各种不同特征相关联，这些特征使每个平台独特地更适合或更不适合于各种用途，所述因素可包括(不限于)接受者免疫反应(例如，发炎和/或与预先存在的抗体的相互作用)、载体产生困难、细胞转导功效、负载整合功效、转基因表达特征、靶向的细胞类型、基因毒性(例如致癌)的风险等等，其中任一个或所有因素均可由研究人员和开业医生在各种背景下独特地权衡。本发明认识到，在一个或一个以上系统中使用某些已知的组合物和方法进行的转位子负载整合的效率依赖于目标细胞类型、质粒骨架和/或转位子长度中的一者或一者以上，且在至少某些本公开的组合物和方法，例如包括腺病毒基因组的组合物和方法中某些这类依赖性降低或消除，所述腺病毒基因组包括被SB反向重复序列侧接的转位子负载(例如，例如在人类受试者细胞，例如造血干细胞中和/或体内疗法中，用于通过SB100x转位酶或另一SB转位酶转位)。

腺病毒载体属于最常用的基因疗法载体。举例来说，根据至少一些报告，腺病毒载体是最常用于癌症基因疗法的载体。实际上，超过400种基因疗法试验已使用人类Ad载体起始和/或完成，例如用于疫苗用途、治疗性转基因引入和/或癌症治疗。影响和/或至少部分负责基因疗法中的腺病毒载体的流行率的腺病毒载体的各种优点是所属领域中已知的。然而，即使在常用载体的情况下，基因疗法仍然是有困难的挑战，至少部分因为长期表型校正需要治疗性转基因的足够有效且足够稳定的整合和表达。

尽管已知一些腺病毒载体具有高达约36-37kb的高克隆容量，但物理上产生携带大负载的载体的能力并不反映出该载体有效介导负载整合到目标细胞基因组中的能力。实际上，通常为26-45kb的线性双股DNA基因组(例如对于Ad5为约36kb)的腺病毒载体基因组通常不会天然地整合到宿主细胞基因组中。相反地，腺病毒载体的特征在于病毒基因组在宿主细胞中的游离型维持。虽然游离型维持将插入效应的风险降到最低，但游离型基因组通常无法被目标细胞和目标细胞子代充分保留，这属于所属领域的技术人员已知的其它困难。至少出于这些原因，已努力产生不同于其天然对应物的腺病毒载体，其进行工程化以整合到宿主细胞基因组中。这些方法同样并非没有挑战。举例来说，某些整合腺病毒载体的一个问题为以基因毒性效应为特征的整合位点偏好。

对将负载整合到宿主细胞基因组中的腺病毒载体进行工程化的一种方式为产生整合病毒杂交载体。整合病毒杂交载体将有效转导目标细胞的载体的基因元件与稳定整合载体负载的载体的基因元件组合。例如与腺病毒载体组合使用的所关注的整合元件已包括噬菌体整合酶PHiC31、逆转录转位子、逆转录病毒(例如LTR介导或逆转录病毒整合酶介导)、锌指核酸酶、DNA结合结构域-逆转录病毒整合酶融合蛋白、AAV(例如AAV-ITR或AAV-Rep蛋白介导)和睡美人(SB)转位酶。

类似于载体本身，整合病毒杂交载体的整合系统具有其自身的独特优点和缺点，包括特征性位置整合模式和负载容量。举例来说，研究显示，转位子的整合依赖于长度；随着长度增加，转位能力迅速降低，这一现象在所属领域中有时称为“长度依赖性”。在SB转位酶的情况下，研究已显示，每添加1kb的转位子(负载)长度，SB转位子功效降低30％且高于约9kb时完全丧失。尽管一些研究指示保留一小部分SB转位子整合，多达到少约10kb，但证据表明，相对于较小对应物，较大SB转位子将无法有效地整合。被修饰成增强整合功效的某些SB系统也具有显著的长度依赖性效应，转位子整合水平大量降低(Turchiano等人,PLOSOne,9:e112712,2014)。

本公开尤其提供，本发明人意外地发现，多达到少约30kb至约35kb的转位子负载可整合到宿主细胞基因组中，具有足够用于治疗用途的功效。在各种实施例中，本公开提供了用于整合大负载(例如多达到少约30kb至约35kb)的载体、基因组和系统，其包括腺病毒基因组，所述腺病毒基因组包括被SB反向重复序列侧接的转位子负载，所述SB反向重复序列又被FRT重组位点侧接，使得包括转位子负载的基因组或其一部分在重组酶存在下环化，本发明人已发现其可在SB转位酶存在下将大转位子负载整合到目标细胞基因组中。本公开进一步提供，这类组合物足够有效地例如用于整合和转基因表达，从而实现体内疗法。这些显著的发现与长度依赖性和整合功效的先前概念形成鲜明对比，打开了先前认为无法实现的腺病毒载体的治疗和研究用途的大门。

(II)大负载的类型

在特定实施例中，本文所公开的本发明有助于大转位子负载的递送和整合。大负载包括连接于长LCR的编码序列，包括例如本文所述的那些编码序列。在特定实施例中，负载为至少10kb。在特定实施例中，负载为至少10kb、15kb、20kb、25kb、30kb、35kb、40kb或更多。在特定实施例中，负载具有10kb-35kb、10kb-30kb、15kb-35kb、15kb-30kb、20kb-35kb或20kb-30kb的长度。在特定实施例中，负载具有10kb-32.4kb、15kb-32.4kb或20kb-32.4kb的长度。在特定实施例中，负载编码单一长(大)蛋白质。在特定实施例中，负载编码多种蛋白质；例如两种或更多种蛋白质，例如两种、三种、四种或五种蛋白质或更多。在负载编码多种蛋白质的实施例中，所编码的任何个别蛋白质无需独立地视为“大”或“长”；而是应了解，腺病毒载体携带的整个负载为“大”即可，即使其含有大量较小的个别蛋白质编码序列。在特定实施例中，负载包括长LCR。

(III)长LCR

将大负载整合到宿主细胞基因组中的能力打开了整合先前认为太大而无法有效用于治疗用途的构建体的大门。除了能够整合大负载的当下显而易见的一般效用以外，一类大负载包括包含长基因座控制区域(或长LCR)的负载。在一些情况下，比由用于基因疗法的至少某些现有载体系统(例如慢病毒和AAV系统)调节的区域大的调控区可用于实现治疗有效转基因从负载表达和/或增加表达量(例如，在产生编码转基因表达产物的mRNA和/或由转基因编码的转基因表达产物的数目或频率方面)和/或表达特异性(例如，在表达时序和/或表达的细胞或组织特异性方面)。

不希望受任何特定科学理论束缚，人类基因组例如通过形成环而组织成三维结构，其包括调控区(例如转录因子结合位点和其控制表达的编码区)之间长距离的直接和/或间接相互作用。在许多情况下，这些长距离的相互作用在拓朴关联结构域(TAD)的情形下发生。TAD被视为染色体组织的功能单元，其可促进增强子与其它调控区的相互作用以控制转录。TAD由边界分界，认为所述边界限制增强子和启动子的搜寻空间并防止形成不合需要的调控接触点。在这些结构域的两侧的TAD边界在不同哺乳动物细胞类型之间，甚至在整个物种中保守。

由于其在基因组中的重要作用，尤其是其在组织影响基因和转基因表达的核酸序列和蛋白质方面的作用，因此TAD可用于增加基因疗法的安全性和/或功效。TAD自身太大而无法包括于任何现有的病毒载体中。TAD的中值尺寸为880kb。然而，已鉴别出在TAD内存在的捕捉TAD的基因或转基因表达效应中的一些或全部的某些功能元件且尺寸适合于包括于本文所公开的腺病毒载体中，但在许多情况下仍然太大而无法包括于例如慢病毒和AAV载体的某些其它载体中。在一些情况下，包括TAD的一个或一个以上核酸序列的调控序列可称为LCR。LCR已经被工程化成具有各种长度，例如在一些情况下具有相对较短的长度以包括于具有相对较小负载容量的载体中，例如慢病毒或AAV载体。然而，不希望受任何特定理论束缚，所属领域的技术人员了解，较长序列有较大容量来赋予相关基因或转基因对其全部或部分来源于或其序列全部或部分基于的内源性序列的有利表达效应。因此，一些LCR已经被工程化成具有相对较短的长度，例如5kb或更少、6kb或更少、7kb或更少、8kb或更少或9kb或更少。相比之下，本公开认识到长LCR(例如9kb或更多、10kb或更多、11kb或更多、12kb或更多、13kb或更多、14kb或更多、15kb或更多、20kb或更多、25kb或更多、或30kb或更多的调控序列)可使用本文所提供的载体、基因组和方法整合到宿主细胞基因组中。在各种实施例中，长LCR包括长度范围具有选自5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb和30kb中的任一者的下限和选自30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kb和40kb中的任一者的上限的调控序列。长LCR还可具有本文所提供的任何LCR的任何长度，这类长度在各种实施例中可视为下限或上限。

LCR的实例包括表1中所示的那些LCR。除非另有指示或如所属领域的技术人员将清楚，否则参考基因组为GRCh38参考基因组，例如GRCH38/hg38或GRCh38.p13。

表1：

LCR	示例性组织表达
		β-球蛋白LCR	红血球
免疫球蛋白重链LCR	B细胞
		T细胞受体α/δLCR	T细胞
腺苷脱氨酶LCR	富集于血液、肠和淋巴组织中
		载脂蛋白E/C-1LCR	肾上腺、肝脏
Th2细胞因子LCR	Th2细胞
		CD2 LCR	T细胞
S100βLCR	脑星形胶质细胞
		生长激素LCR	脑垂体
载脂蛋白B LCR	肠、肝脏
		β肌球蛋白重链LCR	心肌、骨骼肌
MHC I类HLA-B7 LCR	所有细胞
		角蛋白18LCR	上皮细胞
MHC I类HLA G LCR	所有细胞
		补体组分C4A/B LCR	肝脏
红绿视觉色素LCR(视蛋白LCR)	视锥细胞
		CD4 LCR	Cd4+t细胞
α-乳白蛋白LCR	乳腺
		肌间线蛋白LCR	心肌、骨骼肌、平滑肌
CYP19/芳香酶LCR	多种组织
		C-fes原癌基因LCR	骨髓细胞，包括巨噬细胞和嗜中性粒细胞
α-球蛋白基因座控制区域	红血球
		核因子红血球系2样1(NFE2L1)LCR	红血球

β-球蛋白LCR在至少几种方面示范至少一些LCR。举例来说，如同许多其它LCR，β-球蛋白LCR增强可操作地连接的基因或转基因的表达(例如增加转录、增加翻译和/或增加细胞或组织特异性)且包括所属领域的技术人员了解的介导LCR的表达效应的DNA水解酶超敏感(HS)区域。另外，如同许多其它LCR，β-球蛋白LCR可完整或部分地使用，例如其中其可用于包括β-球蛋白LCR序列的核酸中，所述β-球蛋白LCR序列包括所有β-球蛋白LCR HS区域(HS1-HS5)或包括β-球蛋白LCR HS区域的子集(例如HS1-HS4)。

关于染色体11上的智人β-球蛋白区域的一示例性核酸序列以GenBank登录号NG_000007提供。在一些情况下，β-球蛋白长LCR可为或包括位于基因座中的第一(胚胎)球蛋白基因5'的6kb至22kb的序列。β-球蛋白长LCR可包括5个DNA水解酶I超敏感位点，5'HS 1至5。李(Li)等人,《血液(Blood)》,100(9):3077-3086,2002。NG_000007提供了描绘基因座控制区域内的DNA水解酶I高敏感性位点HS1、HS2、HS3和HS4的限制位点(例如HS2的SnaBI和BstXI限制位点、HS3的HindIII和BamHI限制位点以及HS4的BamHI和BanII限制位点)的位置，并以全文引用的方式并入本文中，尤其是超敏感位点位置。HS1的序列和位置例如以下所描述：帕塞里(Pasceri)等人,《纽约科学院年鉴(Ann NY Acad.Sci.)》1998；850:377-381；帕塞里等人,《血液》92:653-663,1998；和米洛特(Milot)等人,《细胞(Cell.)》87:105-114,1996。在特定实施例中，HS2区从基因座控制区域的位置16,671延伸到17,058。HS2的SnaBI和BstXI限制位点分别位于位置17,093和16,240。HS3区从基因座控制区域的位置12,459延伸到13,097。HS3的BamHI和HindIII限制位点分别位于位置12,065和13,360。HS4区从基因座控制区域的位置9,048延伸到9,713。HS4的BamHI和BanII限制位点分别位于位置8,496和9,576。

本文所公开的特定实施例利用β-球蛋白LCR的微型部分。微型部分包括少于全部5个HS区，例如HS1、HS2、HS3、HS4和/或HS5，只要LCR不包括β-球蛋白LCR的全部5个区段即可。本公开的实例1中所利用的4.3kb HS1-HS4 LCR提供了微型LCR的一个实例。其它微型LCR可包括例如HS1、HS2和HS3；HS2、HS3和HS4；HS3、HS4和HS5；HS1、HS3和HS5；HS1、HS2和HS5；和HS1、HS4和HS5。关于微型LCR的额外实例，参见萨德拉恩(Sadelain)等人,《美国国家科学院院刊(Proc.Nat.Acad.Sci.(USA))》92:6728-6732,1995；和勒博路什(Lebouich)等人,《欧洲分子生物学学会杂志(EMBO J.)》13:3065-3076,1994。特定实施例可利用β-球蛋白LCR与β-球蛋白启动子的组合。在特定实施例中，这一组合产生5.9kb LCR-启动子组合。关于LCR，本文中可互换地使用“微型”与“微小”。

本文所公开的特定实施例利用基因座控制区域(LCR)的长部分。长β-球蛋白LCR可包括HS1、HS2、HS3、HS4和HS5。在特定实施例中，长LCR包括包含β-球蛋白LCR的HS1、HS2、HS3、HS4和HS5的大约21.5kb序列。长β-球蛋白LCR可与β-球蛋白启动子偶合以驱动高蛋白质表达量。

特定实施例可包括人类染色体11(SEQ ID NO:6)的位置5292319-5270789(21,531bp)作为长β-球蛋白LCR，如GRCH38/hg38中所列举。在各种实施例中，长LCR的总长度可等于或大于18kb、18.5kb、19kb、19.5kb、20kb、20.5kb、21kb、21.5kb或21.531kb。在各种实施例中，长LCR的总长度可等于或大于SEQ ID NO:6的长度的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。在各种实施例中，长LCR可以包括SEQID NO:6的至少18kb、18.5kb、19kb、19.5kb、20kb、20.5kb、21kb或21.5kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与SEQ ID NO:6的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。在各种实施例中，长LCR与天然基因组序列的不同之处可能在于其包括一个或一个以上限制位点，例如XhoI限制位点(参见例如SEQ ID NO:98，其中示例性XhoI位点(斜体)提供于位置10655-10661处)。在本文所提供的各种实施例中的任一者中，长LCR可包括HS1、HS2、HS3、HS4和HS5。

在各种实施例中，Ad35载体系统可包括例如包括如GRCh38中列举的人类染色体11(SEQ ID NO:7)的位置5228631-5227018(1614bp)的可转位转基因插入物作为β-球蛋白启动子。在各种实施例中，β-球蛋白启动子的总长度可等于或大于例如1.0kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、1.6kb或1.609kb。在各种实施例中，β-球蛋白启动子可包括SEQ IDNO:7的至少1.0kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、1.6kb或1.609kb。在各种实施例中，β-球蛋白启动子的总长度可等于或大于在表达受β-球蛋白LCR调控的基因(包括但不限于ε(HBE1)、G-γ(HBG2)、A-γ(HBG1)、δ(HBD)和β(HBB)球蛋白基因和/或血红蛋白β基因座(11:5,225,463-5,227,070，互补序列)中存在的一个或一个以上基因)上游，例如紧靠其第一编码核苷酸上游的核酸序列的例如100bp、200bp、300bp、400bp、500bp、1kb、1.5kb、2kb、2.5kb、3kb、4kb或5kb。在各种实施例中，β-球蛋白启动子的总长度可等于或大于在染色体11NC_000011.10位置5227021的上游，例如紧邻上游的核酸序列的例如100bp、200bp、300bp、400bp、500bp、1kb、1.5kb、2kb、2.5kb、3kb、4kb或5kb。在各种实施例中，β-球蛋白启动子的总长度可等于或大于SEQ ID NO:7的长度的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。在本文所提供的各种实施例中的任一者中，β-球蛋白启动子可为或包括具有与参考基因组中存在的β-球蛋白启动子序列的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的序列的核酸，任选地其中所述β-球蛋白启动子包括SEQ ID NO:7的序列。

在各种实施例中，β-球蛋白LCR，例如长β-球蛋白LCR引起红血球中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的β-球蛋白启动子可操作地连接。

免疫球蛋白重链基因座B细胞LCR为增强可操作地连接的编码序列的表达(例如增加转录、增加翻译和/或增加细胞或组织特异性)的示例性LCR。当与包括完整免疫球蛋白重链基因座B细胞LCR序列和/或包括其表达调控片段的免疫球蛋白重链基因座B细胞LCR可操作地连接时，编码序列的表达可得到增强。免疫球蛋白重链基因座B细胞LCR包括所属领域的技术人员了解的介导免疫球蛋白重链基因座B细胞LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。免疫球蛋白重链基因座B细胞LCR在免疫球蛋白重链(IgH)基因座的3'Cα区中包括四个DNA水解酶I超敏感位点(HS1、HS2、HS3和HS4)，充当增强型基因座控制区域(LCR)。因此，免疫球蛋白重链基因座B细胞LCR可为包括所有HS1-HS4的完整免疫球蛋白重链基因座B细胞LCR，或可为包括超敏感位点HS1-HS4的子集的其表达调控片段。这些HS位点映射到IgH C基因的约10-30kb且可在短暂转染分析中引起淋巴细胞特异性和发育调控的增强子元件。已经观察到，该核酸序列可在与伯基特淋巴瘤(Burkitt Lymphoma)和浆细胞瘤细胞系中的c-myc基因连接时引导类似表达模式。在伯基特淋巴瘤和浆细胞瘤中，出现B细胞LCR控制c-myc，因为出现了引起c-myc基因变得与IgH序列并置的特征性染色体易位，由此导致异常的c-myc转录。B细胞LCR的额外描述可见于例如麦迪逊(Madisen)等人,《分子细胞生物学(《分子细胞生物学》.)》18(11):6281-92,1998；贾尼尼(Giannini)等人,《免疫学杂志(J.Immunol.)》150:1772–1780,1993；麦迪逊和谷若丁(Groudine),《基因与发育(Genes Dev.)》8:2212–2226,1994；和迈克尔森(Michaelson)等人,《核酸研究(《核酸研究》.)》23:975-981,1995。

特定实施例可包括免疫球蛋白重链基因座B细胞LCR位置染色体14-NC_000014.9(105586437-106879844，互补序列)(1,293,408bp)或其表达调控片段。在各种实施例中，免疫球蛋白重链基因座B细胞LCR的总长度可等于或大于免疫球蛋白重链基因座B细胞LCR位置105586437-106879844的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，免疫球蛋白重链基因座B细胞LCR可包括免疫球蛋白重链基因座B细胞LCR位置105586437-106879844的至少10kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb或30kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与免疫球蛋白重链基因座B细胞LCR位置105586437-106879844的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括免疫球蛋白重链基因座B细胞LCR且任选地包括在人类基因组中通常与免疫球蛋白重链基因座B细胞LCR可操作地连接的基因的启动子的负载中包括如本文所提供的免疫球蛋白重链基因座B细胞LCR。在各种实施例中，与免疫球蛋白重链基因座B细胞LCR可操作地连接的基因为免疫球蛋白重链基因。在各种实施例中，免疫球蛋白重链基因启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，免疫球蛋白重链基因启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在免疫球蛋白重链基因上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与免疫球蛋白重链基因座B细胞LCR可操作地连接的基因的编码序列的第一编码核苷酸为免疫球蛋白重链基因的第一编码核苷酸。

在各种实施例中，免疫球蛋白重链基因座B细胞LCR(例如长免疫球蛋白重链基因座B细胞LCR)引起B细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的免疫球蛋白重链基因启动子可操作地连接。

另一示例性LCR为T细胞受体α/δ基因座的T细胞LCR，其增强可操作地连接的编码序列的表达。在T细胞受体(TCR)α/δ基因座中，LCR可调控有差异的组织和发育表达以及TCRα和δ基因的重排。当与包括T细胞受体α/δ基因座LCR序列的完整T细胞LCR和/或包括其表达调控片段的T细胞受体α/δ基因座LCR的T细胞LCR可操作地连接时，编码序列的表达可得到增强。T细胞受体α/δ基因座LCR的T细胞LCR包括所属领域的技术人员了解的介导T细胞受体α/δ基因座LCR的T细胞LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。T细胞LCR被鉴别为在TCRα/δ基因座的3'的包括八个T细胞特异性核酸酶超敏感结构域(HS1至HS8)的区域。因此，T细胞受体α/δ基因座LCR的T细胞LCR可为T细胞受体α/δ基因座LCR的完整T细胞LCR，包括所有HS1-HS8，或可为包括超敏感位点HS1-HS8的子集的其表达调控片段。在转基因小鼠中观察到，与该区域连接的TCRα基因表达量高，与整合位点无关，与基因拷贝数相关。该转基因在αβT细胞子集中表达，但不在γδT细胞子集中表达且在发育期间适当时间活化。LCR功能至少需要HS-2至HS-6。B细胞LCR的额外描述可见于例如迪亚兹(Diaz)等人,《免疫学(Immunity)》1(3):207-17,1994。

在各种实施例中，Ad35载体可例如在包括T细胞受体α/δ基因座LCR的T细胞LCR且任选地包括在人类基因组中通常与T细胞受体α/δ基因座LCR的T细胞LCR可操作地连接的基因的启动子的负载中包括如本文所提供的T细胞受体α/δ基因座LCR的T细胞LCR。在各种实施例中，与T细胞受体α/δ基因座LCR的T细胞LCR可操作地连接的基因为染色体14上的TCRα，NC_000014.9(21621904..22552132)，或染色体14上的TCRδ基因座，NC_000014.9(22422546..22466577)。在各种实施例中，TCRα或TCRδ启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，TCRα或TCRδ启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在TCRα或TCRδ上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与T细胞受体α/δ基因座LCR的T细胞LCR可操作地连接的基因的编码序列的第一编码核苷酸为TCRα或TCRδ的第一编码核苷酸。

在各种实施例中，T细胞受体α/δ基因座LCR的T细胞LCR(例如T细胞受体α/δ基因座LCR的长T细胞LCR)引起T细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的TCRα或TCRδ启动子可操作地连接。

腺苷脱氨酶LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整腺苷脱氨酶LCR序列和/或包括其表达调控片段的腺苷脱氨酶LCR可操作地连接时，编码序列的表达可得到增强。腺苷脱氨酶LCR包括所属领域的技术人员了解的介导腺苷脱氨酶LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。腺苷脱氨酶LCR包括超敏感位点1-6。因此，腺苷脱氨酶LCR可为完整的腺苷脱氨酶LCR，包括所有HS1-HS6，或可为包括超敏感位点HS1-HS6的子集的其表达调控片段。

特定实施例可包括人类染色体20的腺苷脱氨酶LCR位置NC_000020.1144629004-44651567(22,564bp)或其表达调控片段。在各种实施例中，腺苷脱氨酶LCR的总长度可等于或大于腺苷脱氨酶LCR位置44629004-44651567的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，腺苷脱氨酶LCR可包括腺苷脱氨酶LCR位置44629004-44651567的至少10kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb或22kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与腺苷脱氨酶LCR位置44629004-44651567的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括腺苷脱氨酶LCR且任选地包括在人类基因组中通常与腺苷脱氨酶LCR可操作地连接的基因的启动子的负载中包括如本文所提供的腺苷脱氨酶LCR。在各种实施例中，与腺苷脱氨酶LCR可操作地连接的基因为腺苷脱氨酶(20:44,619,518-44,651,757，互补序列)。在各种实施例中，腺苷脱氨酶启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，腺苷脱氨酶启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在腺苷脱氨酶上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与腺苷脱氨酶LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体20-NC_000020.11 44651607处腺苷脱氨酶的第一编码核苷酸。

在各种实施例中，腺苷脱氨酶LCR(例如长腺苷脱氨酶LCR)引起血液、肠和淋巴组织中的一者或一者以上中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的腺苷脱氨酶启动子可操作地连接。

载脂蛋白E/C LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整载脂蛋白E/C LCR序列和/或包括其表达调控片段的载脂蛋白E/C LCR可操作地连接时，编码序列的表达可得到增强。载脂蛋白E/C LCR包括所属领域的技术人员了解的介导载脂蛋白E/C LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。载脂蛋白E/CLCR包括超敏感位点1-6。因此，载脂蛋白E/C LCR可为完整的载脂蛋白E/C LCR，包括所有HS1-HS6，或可为包括超敏感位点HS1-HS6的子集的其表达调控片段。

在各种实施例中，Ad35载体可例如在包括载脂蛋白E/C LCR且任选地包括在人类基因组中通常与载脂蛋白E/C LCR可操作地连接的基因的启动子的负载中包括如本文所提供的载脂蛋白E/C LCR。在各种实施例中，与载脂蛋白E/C LCR可操作地连接的基因为载脂蛋白E(19:44,905,795-44,909,394)。在各种实施例中，载脂蛋白E启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，载脂蛋白E启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在载脂蛋白E上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与载脂蛋白E/C LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体19-NC_000019.10(44906625)处载脂蛋白E的第一编码核苷酸。

在各种实施例中，载脂蛋白E/C LCR，例如长载脂蛋白E/C LCR引起红血球中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的载脂蛋白E/C启动子可操作地连接。

Th2细胞因子LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整Th2细胞因子LCR序列和/或包括其表达调控片段的Th2细胞因子LCR可操作地连接时，编码序列的表达可得到增强。Th2细胞因子LCR包括所属领域的技术人员了解的介导Th2细胞因子LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。Th2细胞因子LCR包括超敏感位点RHS5-RHS7。因此，Th2细胞因子LCR可为完整的Th2细胞因子LCR，包括所有RHS5-RHS7，或可为包括超敏感位点RHS5-RHS7的子集的其表达调控片段。

特定实施例可包括人类染色体5的Th2细胞因子LCR位置NC_000005.10(132629263-132642195)(12,933bp)或其表达调控片段。在各种实施例中，Th2细胞因子LCR的总长度可等于或大于Th2细胞因子LCR位置132629263-132642195的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，Th2细胞因子LCR可包括Th2细胞因子LCR位置132629263-132642195的至少1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、11kb或12kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与Th2细胞因子LCR位置132629263-132642195的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括Th2细胞因子LCR且任选地包括在人类基因组中通常与Th2细胞因子LCR可操作地连接的基因的启动子的负载中包括如本文所提供的Th2细胞因子LCR。在各种实施例中，与Th2细胞因子LCR可操作地连接的基因为Th2细胞因子，例如IL-4、IL-13或IL-5。在各种实施例中，Th2细胞因子启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，Th2细胞因子启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在Th2细胞因子上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。

在各种实施例中，Th2细胞因子LCR，例如长Th2细胞因子LCR引起T细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的Th2细胞因子启动子可操作地连接。

CD2 LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整CD2 LCR序列和/或包括其表达调控片段的CD2 LCR可操作地连接时，编码序列的表达可得到增强。CD2 LCR包括所属领域的技术人员了解的介导CD2 LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。CD2 LCR包括超敏感位点1-3。因此，CD2 LCR可为完整的CD2 LCR，包括所有HS1-HS3，或可为包括超敏感位点HS1-HS3的子集的其表达调控片段。

特定实施例可包括人类染色体1的CD2 LCR位置NC_000001.11116769217-116774826(5,610bp)或其表达调控片段。在各种实施例中，CD2 LCR的总长度可等于或大于CD2 LCR位置116769217-116774826的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，CD2 LCR可包括CD2 LCR位置116769217-116774826的至少1kb、2kb、3kb、4kb或5kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与CD2 LCR位置116769217-116774826的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括CD2 LCR且任选地包括在人类基因组中通常与CD2 LCR可操作地连接的基因的启动子的负载中包括如本文所提供的CD2 LCR。在各种实施例中，与CD2 LCR可操作地连接的基因为CD2(1:116,754,429-116,769,228)。在各种实施例中，CD2启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，CD2启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在CD2上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与CD2 LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体1-NC_000001.11(116754493)处CD2的第一编码核苷酸。

在各种实施例中，CD2 LCR，例如长CD2 LCR引起T细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的CD2启动子可操作地连接。

S100βLCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整S100βLCR序列和/或包括其表达调控片段的S100βLCR可操作地连接时，编码序列的表达可得到增强。S100βLCR包括所属领域的技术人员了解的介导S100βLCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括S100βLCR且任选地包括在人类基因组中通常与S100βLCR可操作地连接的基因的启动子的负载中包括如本文所提供的S100βLCR。在各种实施例中，与S100βLCR可操作地连接的基因为S100β(21:46,598,603-46,605,242，互补序列)。在各种实施例中，S100β启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，S100β启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在S100β上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与S100βLCR可操作地连接的基因的编码序列的第一编码核苷酸为S100β的第一编码核苷酸(染色体21-NC_000021.9(46602415))。

在各种实施例中，S100βLCR，例如长S100βLCR引起脑星形胶质细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的S100β启动子可操作地连接。

生长激素LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整生长激素LCR序列和/或包括其表达调控片段的生长激素LCR可操作地连接时，编码序列的表达可得到增强。生长激素LCR包括所属领域的技术人员了解的介导生长激素LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。生长激素LCR包括超敏感位点1-5。因此，生长激素LCR可为完整的生长激素LCR，包括所有HS1-HS5，或可为包括超敏感位点HS1-HS5的子集的其表达调控片段。

特定实施例可包括人类染色体17的生长激素LCR位置NC_000017.11(63917193-63958852)(41,660bp)或其表达调控片段。在各种实施例中，生长激素LCR的总长度可等于或大于生长激素LCR位置63917193-63958852的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，生长激素LCR可包括生长激素LCR位置63917193-63958852的至少10kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb或30kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与生长激素LCR位置63917193-63958852的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括生长激素LCR且任选地包括在人类基因组中通常与生长激素LCR可操作地连接的基因的启动子的负载中包括如本文所提供的生长激素LCR。在各种实施例中，与生长激素LCR可操作地连接的基因为GH1(生长激素1)、CSHL1(绒毛膜生长催乳素激素样1)、CSH1(绒毛膜生长催乳素激素1(胎盘催乳激素))、GH2(生长激素2)或CSH2(绒毛膜生长催乳素激素2)。在各种实施例中，GH1、CSHL1、CSH1、GH2或CSH2启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，GH1、CSHL1、CSH1、GH2或CSH2启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在GH1、CSHL1、CSH1、GH2或CSH2上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与生长激素LCR可操作地连接的基因的编码序列的第一编码核苷酸为生长激素(17:63,917,202-63,918,838，互补序列)位置NC_000017.11(63918776)的第一编码核苷酸。

在各种实施例中，生长激素LCR，例如长生长激素LCR引起脑垂体中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的GH1、CSHL1、CSH1、GH2或CSH2启动子可操作地连接。

载脂蛋白B LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整载脂蛋白B LCR序列和/或包括其表达调控片段的载脂蛋白B LCR可操作地连接时，编码序列的表达可得到增强。载脂蛋白B LCR包括所属领域的技术人员了解的介导载脂蛋白BLCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括载脂蛋白B LCR且任选地包括在人类基因组中通常与载脂蛋白B LCR可操作地连接的基因的启动子的负载中包括如本文所提供的载脂蛋白B LCR。在各种实施例中，与载脂蛋白B LCR可操作地连接的基因为APOB(2:21,001,428-21,044,072，互补序列)。在各种实施例中，APOB启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，APOB启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在APOB上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，通常与人类基因组中的载脂蛋白BLCR可操作地连接的基因的编码序列的第一编码核苷酸为位置染色体2-NC_000002.12(21043945)处APOB的第一编码核苷酸。

在各种实施例中，载脂蛋白B LCR，例如长载脂蛋白B LCR引起肠和/或肝脏中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的APOB启动子可操作地连接。

β肌球蛋白重链LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整β肌球蛋白重链LCR序列和/或包括其表达调控片段的β肌球蛋白重链LCR可操作地连接时，编码序列的表达可得到增强。β肌球蛋白重链LCR包括所属领域的技术人员了解的介导β肌球蛋白重链LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。β肌球蛋白重链LCR包括超敏感位点1和2。因此，β肌球蛋白重链LCR可为包括HS1与HS2的完整β肌球蛋白重链LCR，或可为包括超敏感位点(HS1或HS2)的子集的其表达调控片段。

在各种实施例中，Ad35载体可例如在包括β肌球蛋白重链LCR且任选地包括在人类基因组中通常与β肌球蛋白重链LCR可操作地连接的基因的启动子的负载中包括如本文所提供的β肌球蛋白重链LCR。在各种实施例中，与β肌球蛋白重链LCR可操作地连接的基因为β肌球蛋白重链(14:23,412,739-23,435,676，互补序列)。在各种实施例中，β肌球蛋白重链启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，β肌球蛋白重链启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在β肌球蛋白重链上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与β肌球蛋白重链LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体14-NC_000014.9(23433732)处β肌球蛋白重链的第一编码核苷酸。

在各种实施例中，β肌球蛋白重链LCR，例如长β肌球蛋白重链LCR引起心肌和/或骨胳肌中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的β肌球蛋白重链启动子可操作地连接。

I类MHC HLA-B7 LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整I类MHC HLA-B7 LCR序列和/或包括其表达调控片段的I类MHC HLA-B7 LCR可操作地连接时，编码序列的表达可得到增强。I类MHC HLA-B7 LCR包括所属领域的技术人员了解的介导I类MHC HLA-B7 LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括I类MHC HLA-B7 LCR且任选地包括在人类基因组中通常与I类MHC HLA-B7 LCR可操作地连接的基因的启动子的负载中包括如本文所提供的I类MHC HLA-B7 LCR。在各种实施例中，与I类MHC HLA-B7 LCR可操作地连接的基因为I类MHC HLA-B7。在各种实施例中，I类MHC HLA-B7启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，I类MHC HLA-B7启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在I类MHC HLA-B7上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。

在各种实施例中，I类MHC HLA-B7 LCR，例如长I类MHC HLA-B7 LCR引起许多细胞类型中可操作地连接的编码序列的表达或广泛表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的I类MHC HLA-B7启动子可操作地连接。

I类MHC HLA-G LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整I类MHC HLA-G LCR序列和/或包括其表达调控片段的I类MHC HLA-G LCR可操作地连接时，编码序列的表达可得到增强。I类MHC HLA-G LCR包括所属领域的技术人员了解的介导I类MHC HLA-G LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括I类MHC HLA-G LCR且任选地包括在人类基因组中通常与I类MHC HLA-G LCR可操作地连接的基因的启动子的负载中包括如本文所提供的I类MHC HLA-G LCR。在各种实施例中，与I类MHC HLA-G LCR可操作地连接的基因为I类MHC HLA-G。在各种实施例中，I类MHC HLA-G启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，I类MHC HLA-G启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在I类MHC HLA-G上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。

在各种实施例中，I类MHC HLA-G LCR，例如长I类MHC HLA-G LCR引起许多细胞类型中可操作地连接的编码序列的表达或广泛表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的I类MHC HLA-G启动子可操作地连接。

角蛋白18LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整角蛋白18LCR序列和/或包括其表达调控片段的角蛋白18LCR可操作地连接时，编码序列的表达可得到增强。角蛋白18LCR包括所属领域的技术人员了解的介导角蛋白18LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。角蛋白18LCR包括超敏感位点1-4。因此，角蛋白18LCR可为完整的角蛋白18LCR，包括所有HS1-HS4，或可为包括超敏感位点HS1-HS4的子集的其表达调控片段。

特定实施例可包括人类染色体12的角蛋白18LCR位置NC_000012.12(52948039-52956706)(8,668bp)或其表达调控片段。在各种实施例中，角蛋白18LCR的总长度可等于或大于角蛋白18LCR位置52948039-52956706的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，角蛋白18LCR可包括角蛋白18LCR位置52948039-52956706的至少1kb、2kb、3kb、4kb、5kb、6kb、7kb或8kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与角蛋白18LCR位置52948039-52956706的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括角蛋白18LCR且任选地包括在人类基因组中通常与角蛋白18LCR可操作地连接的基因的启动子的负载中包括如本文所提供的角蛋白18LCR。在各种实施例中，与角蛋白18LCR可操作地连接的基因为角蛋白18(12:52,948,870-52,952,905)。在各种实施例中，角蛋白18启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，角蛋白18启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在角蛋白18上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与角蛋白18LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体12-NC_000012.12(52949174)处角蛋白18的第一编码核苷酸。

在各种实施例中，角蛋白18LCR，例如长角蛋白18LCR引起上皮细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的角蛋白18启动子可操作地连接。

补体组分C4A/B LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整补体组分C4A/B LCR序列和/或包括其表达调控片段的补体组分C4A/B LCR可操作地连接时，编码序列的表达可得到增强。补体组分C4A/B LCR包括所属领域的技术人员了解的介导补体组分C4A/B LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括补体组分C4A/B LCR且任选地包括在人类基因组中通常与补体组分C4A/B LCR可操作地连接的基因的启动子的负载中包括如本文所提供的补体组分C4A/B LCR。在各种实施例中，与补体组分C4A/B LCR可操作地连接的基因为C4A(6:31,982,056-32,002,680)。在各种实施例中，C4A启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，C4A启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在C4A上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与补体组分C4A/B LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体6-NC_000006.12(31982108)处C4A的第一编码核苷酸。

在各种实施例中，补体组分C4A/B LCR，例如长补体组分C4A/B LCR引起肝脏中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的C4A启动子可操作地连接。

红绿视觉色素(视蛋白)LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整红绿视觉色素(视蛋白)LCR序列和/或包括其表达调控片段的红绿视觉色素(视蛋白)LCR可操作地连接时，编码序列的表达可得到增强。红绿视觉色素(视蛋白)LCR包括所属领域的技术人员了解的介导红绿视觉色素(视蛋白)LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。红绿视觉色素(视蛋白)LCR包括超敏感位点1-3。因此，红绿视觉色素(视蛋白)LCR可为完整的红绿视觉色素(视蛋白)LCR，包括所有HS1-HS3，或可为包括超敏感位点HS1-HS3的子集的其表达调控片段。

特定实施例可包括人类染色体X的红绿视觉色素(视蛋白)LCR位置NC_000023.11(154137727-154144286)(6,560bp)或其表达调控片段。在各种实施例中，红绿视觉色素(视蛋白)LCR的总长度可等于或大于红绿视觉色素(视蛋白)LCR位置154137727-154144286的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，红绿视觉色素(视蛋白)LCR可包括红绿视觉色素(视蛋白)LCR位置154137727-154144286的至少1kb、2kb、3kb、4kb、5kb或6kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与红绿视觉色素(视蛋白)LCR位置154137727-154144286的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括红绿视觉色素(视蛋白)LCR且任选地包括在人类基因组中通常与红绿视觉色素(视蛋白)LCR可操作地连接的基因的启动子的负载中包括如本文所提供的红绿视觉色素(视蛋白)LCR。在各种实施例中，与红绿视觉色素(视蛋白)LCR可操作地连接的基因为长波敏感视蛋白1(X:154,144,242-154,159,031)(OPN1LW)、中波敏感视蛋白1(OPN1MW)、OPN1MW2或OPN1MW3。在各种实施例中，OPN1LW、OPN1MW、OPN1MW2或OPN1MW3启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，OPN1LW、OPN1MW、OPN1MW2或OPN1MW3启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在OPN1LW、OPN1MW、OPN1MW2或OPN1MW3上游(例如紧靠其第一编码核苷酸上游)的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与红绿视觉色素(视蛋白)LCR可操作地连接的基因的编码序列的第一编码核苷酸为在染色体X-NC_000023.11(154144284)处OPN1LW或在染色体X-NC_000023.11(154182678)处OPN1MW的第一编码核苷酸。

在各种实施例中，红绿视觉色素(视蛋白)LCR(例如长红绿视觉色素(视蛋白)LCR)引起视锥细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的OPN1LW、OPN1MW、OPN1MW2或OPN1MW3启动子可操作地连接。

α-球蛋白LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整α-球蛋白LCR序列和/或包括其表达调控片段的α-球蛋白LCR可操作地连接时，编码序列的表达可得到增强。α-球蛋白LCR包括所属领域的技术人员了解的介导α-球蛋白LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。α-球蛋白LCR包括超敏感位点MCS-R1至MCS-R4。因此，α-球蛋白LCR可为完整的α-球蛋白LCR，包括所有MCS-R1至MCS-R4，或可为包括超敏感位点MCS-R1至MCS-R4的子集的其表达调控片段。

特定实施例可包括人类染色体16的α-球蛋白LCR位置NC_000016.10(87808-152854)(65,047bp)或其表达调控片段。在各种实施例中，α-球蛋白LCR的总长度可等于或大于α-球蛋白LCR位置87808-152854的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，α-球蛋白LCR可包括α-球蛋白LCR位置87808-152854的至少10kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb或30kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与α-球蛋白LCR位置87808-152854的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括α-球蛋白LCR且任选地包括在人类基因组中通常与α-球蛋白LCR可操作地连接的基因的启动子的负载中包括如本文所提供的α-球蛋白LCR。在各种实施例中，与α-球蛋白LCR可操作地连接的基因为α-球蛋白基因簇(主要α-球蛋白基因座：16:172,875-173,709)内的HBZ(血红蛋白，ζ)、HBA2(血红蛋白，α2)、HBA1(血红蛋白，α1)或HBQ1(血红蛋白，θ1)。在各种实施例中，HBZ(血红蛋白，ζ)、HBA2(血红蛋白，α2)、HBA1(血红蛋白，α1)或HBQ1(血红蛋白，θ1)启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，HBZ(血红蛋白，ζ)、HBA2(血红蛋白，α2)、HBA1(血红蛋白，α1)或HBQ1(血红蛋白，θ1)启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在HBZ(血红蛋白，ζ)、HBA2(血红蛋白，α2)、HBA1(血红蛋白，α1)或HBQ1(血红蛋白，θ1)上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与α-球蛋白LCR可操作地连接的基因的编码序列的第一编码核苷酸为HBA1染色体16-NC_000016.10(176717)、HBA2染色体16-NC_000016.10(172913)、HBZ染色体16-NC_000016.10(152910)或HBQ1染色体16-NC_000016.10(180487)的第一编码核苷酸。

在各种实施例中，α-球蛋白LCR，例如长α-球蛋白LCR引起红血球中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的启动子可操作地连接。

肌间线蛋白LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整肌间线蛋白LCR序列和/或包括其表达调控片段的肌间线蛋白LCR可操作地连接时，编码序列的表达可得到增强。肌间线蛋白LCR包括所属领域的技术人员了解的介导肌间线蛋白LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。肌间线蛋白LCR包括超敏感位点1-5。因此，肌间线蛋白LCR可为完整的肌间线蛋白LCR，包括所有HS1-HS5，或可为包括超敏感位点HS1-HS5的子集的其表达调控片段。

特定实施例可包括人类染色体2的肌间线蛋白LCR位置NC_000002.12(219399709-219418452)(18,743bp)或其表达调控片段。在各种实施例中，肌间线蛋白LCR的总长度可等于或大于肌间线蛋白LCR位置219399709-219418452的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，肌间线蛋白LCR可包括肌间线蛋白LCR位置219399709-219418452的至少10kb、15kb、16kb、17kb或18kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与肌间线蛋白LCR位置219399709-219418452的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括肌间线蛋白LCR且任选地包括在人类基因组中通常与肌间线蛋白LCR可操作地连接的基因的启动子的负载中包括如本文所提供的肌间线蛋白LCR。在各种实施例中，与肌间线蛋白LCR可操作地连接的基因为肌间线蛋白(2:219,418,376-219,426,733)。在各种实施例中，肌间线蛋白启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，肌间线蛋白启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在肌间线蛋白上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与肌间线蛋白LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体2-NC_000002.12(21941863)处肌间线蛋白的第一编码核苷酸。

在各种实施例中，肌间线蛋白LCR，例如长肌间线蛋白LCR引起心肌、骨骼肌和/或平滑肌中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的肌间线蛋白启动子可操作地连接。

核因子红血球系2样1(NFE2L1)LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整NFE2L1 LCR序列和/或包括其表达调控片段的NFE2L1 LCR可操作地连接时，编码序列的表达可得到增强。NFE2L1 LCR包括所属领域的技术人员了解的介导NFE2L1 LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

特定实施例可包括人类染色体17的NFE2L1 LCR位置NC_000017.11(48048359-48061545)(13,186bp)或其表达调控片段。在各种实施例中，NFE2L1 LCR的总长度可等于或大于NFE2L1 LCR位置48048359-48061545的70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在各种实施例中，NFE2L1 LCR可包括NFE2L1LCR位置48048359-48061545的至少10kb、11kb、12kb或13kb。在本文所提供的各种实施例中的任一者中，长LCR可为或包括与NFE2L1 LCR位置48048359-48061545的对应连续部分具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的核酸。

在各种实施例中，Ad35载体可例如在包括NFE2L1 LCR且任选地包括在人类基因组中通常与NFE2L1 LCR可操作地连接的基因的启动子的负载中包括如本文所提供的NFE2L1LCR。在各种实施例中，与NFE2L1 LCR可操作地连接的基因为NFE2L1(17:48,048,358-48,061,544)。在各种实施例中，NFE2L1启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，NFE2L1启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在NFE2L1上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与NFE2L1 LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体17-NC_000017.11(48051119)处NFE2L1的第一编码核苷酸。

在各种实施例中，NFE2L1 LCR，例如长NFE2L1 LCR引起红血球中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的NFE2L1启动子可操作地连接。

CD4 LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整CD4 LCR序列和/或包括其表达调控片段的CD4 LCR可操作地连接时，编码序列的表达可得到增强。CD4 LCR包括所属领域的技术人员了解的介导CD4 LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。CD4 LCR包括多达17个超敏感位点DH1-DH17。因此，CD4LCR可为完整的CD4 LCR，包括所有DH1-DH17，或可为包括超敏感位点DH1-DH17的子集的其表达调控片段。

在各种实施例中，Ad35载体可例如在包括CD4 LCR且任选地包括在人类基因组中通常与CD4 LCR可操作地连接的基因的启动子的负载中包括如本文所提供的CD4 LCR。在各种实施例中，与CD4 LCR可操作地连接的基因为CD4(12:6,789,527-6,820,809)。在各种实施例中，CD4启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，CD4启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在CD4上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与CD4 LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体12-NC_000012.12(6800139)处CD4的第一编码核苷酸。

在各种实施例中，CD4 LCR，例如长CD4 LCR引起CD4+T细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的CD4启动子可操作地连接。

α-乳白蛋白LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整α-乳白蛋白LCR序列和/或包括其表达调控片段的α-乳白蛋白LCR可操作地连接时，编码序列的表达可得到增强。α-乳白蛋白LCR包括所属领域的技术人员了解的介导α-乳白蛋白LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括α-乳白蛋白LCR且任选地包括在人类基因组中通常与α-乳白蛋白LCR可操作地连接的基因的启动子的负载中包括如本文所提供的α-乳白蛋白LCR。在各种实施例中，与α-乳白蛋白LCR可操作地连接的基因为α-乳白蛋白(12:48,567,683-48,571,882)。在各种实施例中，α-乳白蛋白启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，α-乳白蛋白启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在α-乳白蛋白上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与α-乳白蛋白LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体12-NC_000012.12(48570020)处α-乳白蛋白的第一编码核苷酸。

在各种实施例中，α-乳白蛋白LCR，例如长α-乳白蛋白LCR引起乳腺中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的α-乳白蛋白启动子可操作地连接。

CYP19/芳香酶LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整CYP19/芳香酶LCR序列和/或包括其表达调控片段的CYP19/芳香酶LCR可操作地连接时，编码序列的表达可得到增强。CYP19/芳香酶LCR包括所属领域的技术人员了解的介导CYP19/芳香酶LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括CYP19/芳香酶LCR且任选地包括在人类基因组中通常与CYP19/芳香酶LCR可操作地连接的基因的启动子的负载中包括如本文所提供的CYP19/芳香酶LCR。在各种实施例中，与CYP19/芳香酶LCR可操作地连接的基因为CYP19A1(15:51,208,056-51,338,595)。在各种实施例中，CYP19A1启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，CYP19A1启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在CYP19A1上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与CYP19/芳香酶LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体15-NC_000015.10(51242912)处CYP19A1的第一编码核苷酸。

在各种实施例中，CYP19/芳香酶LCR，例如长CYP19/芳香酶LCR引起各种多种组织中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的CYP19A1启动子可操作地连接。

C-fes原癌基因LCR为增强可操作地连接的编码序列表达的一种示例性LCR。当与包括完整C-fes原癌基因LCR序列和/或包括其表达调控片段的C-fes原癌基因LCR可操作地连接时，编码序列的表达可得到增强。C-fes原癌基因LCR包括所属领域的技术人员了解的介导C-fes原癌基因LCR的表达增强效应中的至少一些的DNA水解酶超敏感位点(HS)。

在各种实施例中，Ad35载体可例如在包括C-fes原癌基因LCR且任选地包括在人类基因组中通常与C-fes原癌基因LCR可操作地连接的基因的启动子的负载中包括如本文所提供的C-fes原癌基因LCR。在各种实施例中，与C-fes原癌基因LCR可操作地连接的基因为FES(15:90,884,420-90,895,775)。在各种实施例中，FES启动子的总长度可等于或大于100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb。在各种实施例中，FES启动子包括至少100bp、200bp、300bp、400bp、500bp、1.0kb、1.5kb、2.0kb、2.5kb、3.0kb、4.0kb或5.0kb，与例如在参考基因组中在FES上游，例如紧靠其第一编码核苷酸上游的对应核酸序列具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性。在一些实施例中，在人类基因组中通常与C-fes原癌基因LCR可操作地连接的基因的编码序列的第一编码核苷酸为染色体15-NC_000015.10(90885046)处FES的第一编码核苷酸。

在各种实施例中，C-fes原癌基因LCR，例如长C-fes原癌基因LCR引起包括巨噬细胞和嗜中性粒细胞在内的骨髓细胞中可操作地连接的编码序列的表达。在各种实施例中，可操作地连接的编码序列还与如本文所阐述或所属领域中另外已知的FES启动子可操作地连接。

(IV)与长LCR可操作地连接的编码序列

(IV-b)蛋白质疗法，例如蛋白质/酶替代疗法

在特定实施例中，与长LCR可操作地连接的编码序列包括编码治疗性蛋白质的转基因。编码序列是指编码如本文所述的一种或一种以上治疗性蛋白质的核酸序列(可与多核苷酸或核苷酸序列互换使用)。这一定义包括各种序列多态性、突变和/或序列变体，其中这类改变基本上不会影响编码的一种或一种以上治疗性蛋白质的功能。编码序列或“基因”不仅可包括编码序列，还包括调控区，例如启动子、增强子和终止区。该术语进一步可包括所有内含子和从mRNA转录物剪接的其它DNA序列以及由替代性剪接位点产生的变体。编码分子的基因序列可为引导一种或一种以上治疗性蛋白质表达的DNA或RNA。这些核酸序列可为转录成RNA的DNA股序列或翻译成蛋白质的RNA序列。核酸序列包括全长核酸序列以及来源于全长蛋白质的非全长序列。序列还可包括可引入以在特定细胞类型中提供密码子偏好的天然序列的简并密码子。

编码一种或一种以上治疗性蛋白质的基因序列可容易地通过合成或重组方法由相关氨基酸序列制备。在特定实施例中，编码这些序列中的任一者的基因序列还可在编码序列的5'和/或3'末端具有一个或一个以上限制酶位点，以便容易切除编码序列的基因序列和用编码不同序列的另一基因序列进行置换。在特定实施例中，编码序列的基因序列可进行密码子优化以在哺乳动物细胞中表达。治疗性蛋白质的编码序列在本文中称为治疗性基因。

可对治疗性基因进行选择以提供针对在特定实施例中是遗传性的病状的治疗有效反应。在特定实施例中，病状可为格雷氏病(Grave's Disease)、类风湿性关节炎、恶性贫血、多发性硬化症(MS)、炎性肠病、系统性红斑狼疮(SLE)、腺苷脱氨酶缺乏症(ADA-SCID)或严重联合免疫缺陷病(SCID)、维斯科特-奥尔德里奇综合征(Wiskott-Aldrich syndrome，WAS)、慢性肉芽肿病(CGD)、范可尼贫血(FA)、巴腾病(Battens disease)、肾上腺脑白质营养不良(ALD)或异染性脑白质营养不良(MLD)、肌肉萎缩症、肺泡蛋白沉积症(PAP)、丙酮酸激酶缺乏症、施-戴-布三氏贫血(Schwachman-Diamond-Blackfan anemia)、先天性角化不良、囊肿性纤维化、帕金森病(Parkinson's disease)、阿尔茨海默病(Alzheimer'sdisease)或肌肉萎缩性侧索硬化(卢·贾里格氏病(Lou Gehrig's disease))。在特定实施例中，视病状而定，治疗性基因可为编码功能已中断的蛋白质的基因和/或功能已中断的基因。

示例性治疗性基因和基因产物包括：针对CD4、CD5、CD7、CD52等的抗体；抗体；针对IL1、IL2、IL6的抗体；针对在自身反应性T细胞上特异性存在的TCR的抗体；IL4；IL10；IL12；IL13；IL1Ra；sIL1RI；sIL1RII；针对TNF的抗体；ABCA3；ABCD1；ADA；AK2；APP；精氨酸酶；芳基硫酸酯酶A；A1AT；CD3D；CD3E；CD3G；CD3Z；CFTR；CHD7；嵌合抗原受体(CAR)；CIITA；CLN3；补体因子CORO1A；CTLA；C1抑制剂；C9ORF72；DCLRE1B；DCLRE1C；诱饵受体；DKC1；DRB1*1501/DQB1*0602；肌缩蛋白；酶；第八因子、FANC家族基因(FancA、FancB、FancC、FancD1(BRCA2)、FancD2、FancE、FancF、FancG、FancI、FancJ(BRIP1)、FancL、FancM、FancN(PALB2)、FancO(RAD51C)、FancP(SLX4)、FancQ(ERCC4)、FancR(RAD51)、FancS(BRCA1)、FancT(UBE2T)、FancU(XRCC2)、FancV(MAD2L2)和FancW(RFWD3))；Fas L；FUS；GATA1；球蛋白家族基因(即γ-球蛋白)；F8；谷氨酰胺酶；HBA1；HBA2；HBB；IL7RA；JAK3；LCK；LIG4；LRRK2；NHEJ1；NLX2.1；中和抗体；ORAI1；PARK2；PARK7；phox；PINK1；PNP；PRKDC；PSEN1；PSEN2；PTPN22；PTPRC；P53；丙酮酸激酶；RAG1；RAG2；RFXANK；RFXAP；RFX5；RMRP；核糖体蛋白基因；SFTPB；SFTPC；SOD1；可溶性CD40；STIM1；sTNFRI；sTNFRII；SLC46A1；SNCA；TDP43；TERT；TERC；TINF2；泛素2；WAS；WHN；ZAP70；γC；以及本文所述的其它治疗性基因。

治疗有效量可对免疫和其它血细胞和/或小神经胶质细胞提供功能，或视所治疗的病状而定，可抑制淋巴细胞活化，诱导淋巴细胞凋亡，消除淋巴细胞的多个子集，抑制T细胞活化，消除或抑制自身反应性T细胞，抑制Th-2或Th-1淋巴细胞活性，拮抗IL-1或TNF，减少发炎，诱导对刺激剂的选择性耐受性，减少或消除免疫介导的病状；和/或减少或消除免疫介导的病状的症状。治疗有效量还可提供功能性DNA修复机制；表面蛋白质表达；端粒维持；溶酶体功能；脂质或例如淀粉样蛋白的其它蛋白质的分解；允许核糖体功能；和/或允许如巨噬细胞、其它白血球类型等成熟血球谱系的发育，否则这些细胞将不发育。

作为另一实例，可选择提供针对与红血球和凝血相关的疾病的治疗有效反应的治疗性基因。在特定实施例中，疾病为血红蛋白病，如地中海贫血或镰状细胞病/特性。治疗性基因可为例如诱导或增加血红蛋白产生的基因；诱导或增加β-球蛋白、γ-球蛋白或α-球蛋白产生的基因；或增加体内细胞对氧的利用性的基因。治疗性基因可为例如HBB或CYB5R3。示例性有效治疗可例如增加血球计数、改善血球功能或增加患者细胞氧合。在另一特定实施例中，疾病为血友病。治疗性基因可为例如增加凝固/凝血第八因子或凝固/凝血因子IX产生、引起凝血第八因子或凝血因子IX的正常型式产生的基因、减少针对凝固/凝血第八因子或凝固/凝血因子IX的抗体产生的基因或引起血凝块适当形成的基因。示例性治疗性基因包括F8和F9。例示性有效治疗可例如增加或诱发产生凝固/凝血第八因子和IX产生，改善凝固/凝血第八因子和IX的作用，或减少受试者中的凝血时间。

以下参考文献描述了功能性球蛋白基因的特定示例性序列。参考文献1-4与α型球蛋白序列相关且参考文献4-12与β型球蛋白序列(包括β和γ球蛋白序列)相关：(1)GenBank登录号Z84721(1997年3月19日)；(2)GenBank登录号NM_000517(2000年10月31日)；(3)哈迪森(Hardison)等人,《分子生物学杂志(J.Mol.Biol.)》222(2):233-249,1991；(4)《人类血红蛋白变体的教学大纲(A Syllabus of Human Hemoglobin Variants)(1996),提图斯(Titus)等人,佐治亚州奥古斯塔镰状细胞贫血症基金会(The Sickle Cell AnemiaFoundation in Augusta,GA)出版(线上在globin.cse.psu.edu可得)；(5)GenBank登录号J00179(1993年8月26日)；(6)塔格莱(Tagle)等人,《基因组学(Genomics)》13(3):741-760,1992；(7)格罗斯费尔德(Grovsfeld)等人,《细胞(Cell)》51(6):975-985,1987；(8)李等人,《血液》93(7):2208-2216,1999；(9)戈尔曼(Gorman)等人,《生物化学杂志》.275(46):35914-35919,2000；(10)斯莱顿(Slightom)等人,《细胞》21(3):627-638,1980；(11)弗里奇等人,《细胞》19(4):959-972,1980；(12)马罗塔等人,《生物化学杂志》252(14):5040-5053,1977。关于编码球蛋白的基因的额外编码和非编码区域，参见例如马罗塔(Marotta)等人,《核酸研究和分子生物学进展》19,165-175,1976,劳恩(Lawn)等人,《细胞》21(3),647-651,1980,和萨德拉恩等人,《美国国家科学院院刊(PNAS.)》92:6728-6732,1995。

血红蛋白亚基β的一种示例性氨基酸序列提供于例如NCBI登录号P68871。β-球蛋白的一种示例性氨基酸序列提供于例如NCBI登录号NP_000509。

作为另一实例，可选择提供针对溶酶体贮积病的治疗有效反应的治疗性基因。在特定实施例中，溶酶体贮积病为I型粘多糖病(MPS)；MPS II或亨特综合征(HunterSyndrome)；MPS III或山菲立普综合征(Sanfilippo syndrome)；MPS IV或莫尔基奥氏综合征(Morquio syndrome)；MPS V；MPS VI或马-兰二氏综合征(Maroteaux-Lamy syndrome)；MPS VII或斯莱综合征(sly syndrome)；α-甘露糖苷贮积病；β-甘露糖苷贮积病；I型肝糖贮积病，又称为GSDI、方基盖氏病(von Gierke disease)或泰-萨克斯病(Tay Sachs)；庞贝症(Pompe disease)；戈谢病(Gaucher disease)；法布里病(Fabry disease)。治疗性基因可为例如编码酶或诱导酶产生，或以其它方式引起粘多糖在溶酶体中降解的基因。示例性治疗性基因包括IDUA或艾杜糖苷、IDS、GNS、HGSNAT、SGSH、NAGLU、GUSB、GALNS、GLB1、ARSB和HYAL1。溶酶体贮积病的示例性有效基因疗法可例如编码负责降解溶酶体中多种物质的酶或诱导其产生；减少、消除、预防或延迟多种器官，包括头部(例如头小畸形症)、肝脏、脾、舌或声带中的肿胀；减少脑中的流体；减少心瓣异常；预防或扩张呼吸道变窄和预防相关上呼吸道病状，如感染和睡眠呼吸暂停；减少、消除、预防或延迟神经元破坏和/或相关症状。

作为另一实例，可选择提供针对过度增生性疾病的治疗有效反应的治疗性基因。在特定实施例中，过度增生性疾病为癌症。治疗性基因可为例如肿瘤抑制基因、诱导细胞凋亡的基因、编码酶的基因、编码抗体的基因或编码激素的基因。示例性治疗性基因和基因产物包括(除本文中其它地方所列出的那些治疗性基因和基因产物外)101F6、123F2(RASSF1)、53BP2、abl、ABLI、ADP、aFGF、APC、ApoAI、ApoAIV、ApoE、ATM、BAI-1、BDNF、Beta*(BLU)、bFGF、BLC1、BLC6、BRCA1、BRCA2、CBFA1、CBL、C-CAM、CNTF、COX-1、CSFIR、CTS-1、胞嘧啶脱氨酶、DBCCR-1、DCC、Dp、DPC-4、E1A、E2F、EBRB2、erb、ERBA、ERBB、ETS1、ETS2、ETV6、Fab、FCC、FGF、FGR、FHIT、fms、FOX、FUS1、FYN、G-CSF、GDAIF、基因21(NPRL2)、基因26(CACNA2D2)、GM-CSF、GMF、gsp、HCR、HIC-1、HRAS、hst、IGF、IL-1、IL-2、IL-3、IL-5、IL-6、IL-7、IL-8、IL-9、IL-11、ING1、干扰素α、干扰素β、干扰素γ、IRF-1、JUN、KRAS、LUCA-1(HYAL1)、LUCA-2(HYAL2)、LYN、MADH4、MADR2、MCC、mda7、MDM2、MEN-I、MEN-II、MLL、MMAC1、MYB、MYC、MYCL1、MYCN、neu、NF-1、NF-2、NGF、NOEY1、NOEY2、NRAS、NT3、NT5、OVCA1、p16、p21、p27、p57、p73、p300、PGS、PIM1、PL6、PML、PTEN、raf、Rap1A、ras、Rb、RB1、RET、rks-3、ScFv、scFV ras、SEMA3、SRC、TALI、TCL3、TFPI、血小板反应蛋白、胸苷激酶、TNF、TP53、trk、T-VEC、VEGF、VHL、WT1、WT-1、YES和zac1。示例性有效基因疗法可抑制或消除肿瘤，使癌细胞数目减少，肿瘤尺寸减小，减缓或消除肿瘤生长，或缓解由肿瘤引起的症状。

作为另一实例，可选择提供针对感染性疾病的治疗有效反应的治疗性基因。在特定实施例中，感染性疾病为人类免疫缺陷病毒(HIV)。治疗性基因可为例如使免疫细胞对HIV感染具抗性或使免疫细胞能够经由免疫重建有效中和病毒的基因；编码由免疫细胞表达的蛋白质的基因的多态性；有利于对抗在患者中未表达的感染的基因；编码感染物、受体或共受体的基因；编码受体或共受体的配体的基因；病毒复制必需的病毒和细胞基因，包括；编码核糖核酸酶、反义RNA、小干扰RNA(siRNA)或诱饵RNA以阻断某些转录因子的作用的基因；编码显性阴性病毒蛋白、细胞内抗体、细胞内趋化因子的基因和自杀基因。示例性治疗性基因和基因产物包括α2β1；αvβ3；αvβ5；αvβ63；BOB/GPR15；Bonzo/STRL-33/TYMSTR；CCR2；CCR3；CCR5；CCR8；CD4；CD46；CD55；CXCR4；氨基肽酶-N；HHV-7；ICAM；ICAM-1；PRR2/HveB；HveA；α-肌营养不良蛋白聚糖；LDLR/α2MR/LRP；PVR；PRR1/HveC；以及层粘连蛋白受体。用于治疗HIV的治疗有效量例如可增加受试者对HIV的免疫性，改善与AIDS或HIV相关的症状，或诱导受试者中针对HIV的固有或适应性免疫反应。针对HIV的免疫反应可包括产生抗体且预防AIDS和/或改善受试者的AIDS或HIV感染的症状，或降低或消除HIV感染性和/或毒性。

(IV-c)抗体、CAR和TCR

除治疗性基因和/或基因产物之外，编码序列还可编码治疗性分子，例如抗体、对一种或一种以上癌症抗原具有特异性的嵌合抗原受体分子和/或对一种或一种以上癌症抗原具有特异性的T细胞受体。

已经在对免疫系统的T细胞进行基因工程化以靶向并杀死不合需要的细胞类型，例如癌细胞方面取得了显著的进展。许多这些T细胞已经被基因工程化成表达嵌合抗原受体(CAR)构建体。CAR是包括允许基因修饰的T细胞识别和杀死癌细胞的几种不同子组分的蛋白质。子组分包括至少一种细胞外组分和细胞内组分。

细胞外组分包括特异性结合在不合需要的细胞的表面上优先存在的标志物的结合结构域。当结合结构域结合这类标志物时，细胞内组分引导T细胞破坏所结合的癌细胞。结合结构域通常为来源于单克隆抗体(mAb)的单链可变片段(scFv)，但其可基于包括抗体样抗原结合位点的其它格式。

细胞内组分基于包括效应子结构域而提供活化信号。第一代CAR利用CD3ζ的细胞质区作为效应子结构域。第二代CAR利用CD3ζ与分化簇28(CD28)或4-1BB(CD137)组合，而第三代CAR在细胞内效应子结构域内利用CD3ζ与CD28和4-1BB组合。

CAR一般还包括一个或一个以上用于在分子内达成多种目的的连接子序列。举例来说，跨膜结构域可用于将CAR的细胞外组分连接到细胞内组分。柔性连接子序列通常称为间隔子区，其在结合结构域的膜近端，可用于在结合结构域与细胞膜之间建立额外距离。这可有益于基于与膜的接近度而降低结合的位阻。视目标细胞标志物而定，可使用更紧密的间隔子或更长的间隔子。其它潜在的CAR子组分更详细地描述于本文其它地方。CAR的组分现另外详细地描述如下：结合结构域；细胞内信号传导组分；连接子；跨膜结构域；接合氨基酸；和包括标签盒的控制特征。关于结合结构域的描述还与作为治疗性分子的抗体相关。

结合结构域.结合结构域包括与细胞标志物结合以形成复合物的任何物质。结合结构域的选择可取决于界定目标细胞的表面的细胞标志物类型和数目。结合结构域的实例包括细胞标志物配体、受体配体、抗体、肽、肽适体、受体(例如T细胞受体)、嵌合抗原受体(CAR)或其组合和工程化的片段或格式。

抗体为结合结构域的一个实例且包括完整抗体或抗体的结合片段，例如Fv、Fab、Fab'、F(ab')₂和单链(sc)形式和特异性结合于细胞标志物的其片段。抗体或抗原结合片段可包括多克隆抗体、单克隆抗体、人类抗体、人源化抗体、合成抗体、非人类抗体、重组抗体、嵌合抗体、双特异性抗体、微型抗体和线性抗体的全部或一部分。

抗体由两种基因(重链基因和轻链基因)产生。一般来说，抗体包括重链的两个相同拷贝和轻链的两个相同拷贝。在可变重链和可变轻链内，称为互补决定区(CDR)的区段指示表位结合。每条重链具有三个CDR(即，CDRH1、CDRH2和CDRH3)且每条轻链具有三个CDR(即，CDRL1、CDRL2和CDRL3)。CDR区由框架残基(FR)侧接。

在一些情况下，结合结构域宜来源于将最终使用其的相同物种。举例来说，对于用于人来说，抗原结合结构域宜包括人类抗体、人源化抗体或其片段或工程化形式。来自人类来源的抗体或人源化抗体在人中具有降低的免疫原性或无免疫原性且与非人类抗体相比具有较低数目的非免疫原性表位。抗体和其工程化片段一般经过选择，在人类受试者中具有降低程度的抗原性或无抗原性。

在特定实施例中，结合结构域包括人源化抗体或其工程化片段。在特定实施例中，非人类抗体被人源化，其中抗体的一个或一个以上氨基酸残基被修饰成增加与人中天然产生的抗体或其片段的相似性。这些非人类氨基酸残基通常称为“输入”残基，其通常取自“输入”可变结构域。如本文所提供，人源化抗体或抗体片段包括来自非人免疫球蛋白分子的一个或一个以上CDR，和其中构成框架的氨基酸残基完全或大部分来源于人类种系的框架区。在一个方面，抗原结合结构域被人源化。人源化抗体可使用所属领域中已知的多种技术产生，这些技术包括CDR移植(参见例如欧洲专利第EP 239,400号；WO 91/09967；以及US 5,225,539、US 5,530,101和US 5,585,089)、面饰(veneering)或表面再修饰(resurfacing)(参见例如EP 592,106和EP 519,596；帕德兰(Padlan),《分子免疫学》,28(4/5):489-498,1991；斯图尼卡(Studnicka)等人,《蛋白质工程(Protein Engineering)》,7(6):805-81,19944；和罗古斯卡(Roguska)等人,《美国国家科学院院刊》,91:969-973,1994)、链改组(参见例如美国专利第5,565,332号)和以下中所公开的技术：例如美国公开案第2005/0042664号、美国公开案第2005/0048617号、美国专利第6,407,213号、美国专利第5,766,886号、WO9317105；谭(Tan)等人,《免疫学杂志》,169:1119-25,2002；卡尔达斯(Caldas)等人,《蛋白质工程(Protein Eng.)》,13(5):353-60,2000；摩里亚(Morea)等人,《方法(Methods)》,20(3):267-79,2000；巴卡(Baca)等人,《生物化学杂志》,272(16):10678-84,1997；罗古斯卡等人,《蛋白质工程》,9(10):895-904,1996；科托(Couto)等人,《癌症研究(Cancer Res.)》,55(23增刊):5973s-5977s,1995；科托等人,《癌症研究》,55(8):1717-22,1995；桑德胡(Sandhu),《基因(Gene)》,150(2):409-10,1994；和佩德森(Pedersen)等人,《分子生物学杂志》,235(3):959-73,1994。通常，框架区中的框架残基将经来自CDR供体抗体的对应残基取代以改变，例如提高细胞标志物结合。这些框架取代通过所属领域中众所周知的方法鉴别，例如通过将CDR与框架残基的相互作用模型化以鉴别对细胞标志物结合来说重要的框架残基，并进行序列比较以鉴别特定位置上不寻常的框架残基。(参见例如美国专利第5,585,089号；和里克曼(Riechmann)等人,《自然(Nature)》,332:323,1988)。

具有特异性结合细胞标志物的结合结构域的抗体可使用以下方法制备：获得单克隆抗体的方法、噬菌体展示方法、产生人类或人源化抗体的方法或使用被工程化成产生如所属领域的一般技术人员已知的抗体的转基因动物或植物的方法(参见例如US6,291,161和US 6,291,158)。可利用部分或完整合成抗体的噬菌体展示库且可针对可结合于细胞标志物的抗体或其片段进行筛选。举例来说，结合结构域可通过针对特异性结合细胞标志物的Fab片段筛选Fab噬菌体库来鉴别(参见Hoet等人,《自然—生物技术(Nat.Biotechnol.)》23:344,2005)。还可利用人类抗体的噬菌体展示库。另外，在适宜系统(例如小鼠、HuMAb

(加利福尼亚州山景城的吉法姆国际公司(GenPharm Int'l.Inc.,MountainView,CA))、TC

(日本东京的麒麟医药有限公司(Kirin Pharma Co.Ltd.,Tokyo,JP))、

(新泽西州普林斯顿市的美达莱公司(Medarex,Inc.,Princeton,NJ))、骆马、鸡、大鼠、仓鼠、兔等)中使用细胞标志物作为免疫原发展融合瘤的传统策略可用于发展结合结构域。一旦鉴别，即可分离和/或测定抗体的氨基酸序列和编码该抗体的基因序列。

在一些情况下，scFv可根据所属领域中已知的方法制备(参见例如波德(Bird)等人,《科学(Science)》242:423-426 1988；和休斯顿(Huston)等人,《美国国家科学院院刊(《美国国家科学研究院院刊》USA)》85:5879-5883,1988)。可通过例如使用柔性多肽连接子将抗体的VH和VL区连接在一起产生ScFv分子。如果采用短的多肽连接子(例如5-10个氨基酸)，则防止链内折叠。还需要链间折叠使两个可变区连在一起以形成功能性表位结合位点。关于连接子取向和尺寸的实例，参见例如霍林格(Hollinger)等人,《美国国家科学院院刊(Proc Natl Acad.Sci.U.S.A.)》90:6444-6448,1993；美国公开案第2005/0100543号、美国公开案第2005/0175606号、美国公开案第2007/0014794号以及WO2006/020258和WO2007/024715。更具体来说，用于连接scFv的VL和VH的连接子序列的长度一般为五至35个氨基酸。在特定实施例中，VL-VH连接子包括五至35个、十至30个氨基酸或15至25个氨基酸。连接子长度的变化可保持或增强活性，从而在活性研究中产生优良功效。scFv通常用作CAR的结合结构域。

基于抗体的结合结构域格式的额外实例包括基于scFv的夺取抗体(grababody)和可溶性VH结构域抗体。这些抗体仅使用重链可变区形成结合区。参见例如杰斯珀(Jespers)等人,《自然—生物技术》22:1161,2004；科尔特斯-拉塔莫佐(Cortez-Retamozo)等人,《癌症研究》64:2853,2004；巴拉尔(Baral)等人,《自然·医学(《自然·医学》.)》12:580,2006；和巴塞勒米(Barthelemy)等人,《生物化学杂志》283:3639,2008。

在特定实施例中，本公开的结合结构域中的VL区来源于或基于已知单克隆抗体的VL且与已知单克隆抗体的VL相比，含有一个或一个以上(例如2、3、4、5、6、7、8、9、10个)插入、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)缺失、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)氨基酸取代(例如保守氨基酸取代)或上述变化的组合。插入、缺失或取代可在VL区中的任何地方，包括在该区域的氨基端或羧基端或两端，其限制条件为每个CDR包括零变化或至多一个、两个或三个变化且其限制条件为含有修饰的VL区的结合结构域仍可以类似于野生型结合结构域的亲和力特异性结合其目标。

在特定实施例中，本公开的结合结构域VH区可来源于或基于已知单克隆抗体的VH且与已知单克隆抗体的VH相比，含有一个或一个以上(例如2、3、4、5、6、7、8、9、10个)插入、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)缺失、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)氨基酸取代(例如保守氨基酸取代或非保守氨基酸取代)或上述变化的组合。插入、缺失或取代可在VH区中的任何地方，包括在该区域的氨基端或羧基端或两端，其限制条件为每个CDR包括零变化或至多一个、两个或三个变化且其限制条件为含有修饰的VH区的结合结构域仍可以类似于野生型结合结构域的亲和力特异性结合其目标。

在特定实施例中，结合结构域包括或为与轻链可变区(VL)或重链可变区(VH)或两者的氨基酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％或100％一致的序列，其中每个CDR相对于特异性结合于所关注的细胞标志物的单克隆抗体或其片段或衍生物包括零变化或最多一个、两个或三个变化。

结合结构域的一替代来源包括编码随机肽库的序列，或编码替代非抗体骨架的环区域中的多种工程化氨基酸的序列，例如单链(sc)T细胞受体(scTCR)(参见雷克(Lake)等人,《国际免疫学(Int.Immunol.)》11:745,1999；梅纳德(Maynard)等人,《免疫学杂志》《方法(Methods)》306:51,2005；US 8,361,794)、血纤维蛋白原结构域(参见例如韦塞尔(Weisel)等人,《科学(Science)》230:1388,1985)、孔尼兹结构域(Kunitz domain)(参见例如US 6,423,498)、设计的锚蛋白重复蛋白(DARPins；宾兹(Binz)等人,《分子生物学杂志》332:489,2003和宾兹等人,《自然—生物技术》22:575,2004)、纤维结合蛋白结合结构域(纤连蛋白或单功能抗体；理查兹(Richards)等人,《分子生物学杂志》326:1475,2003；派克(Parker)等人,《蛋白质工程设计与选择(Protein Eng.Des.Selec.)》18:435,2005和哈克尔(Hackel)等人,《分子生物学杂志》381:1238-1252,2008)、半胱氨酸结微蛋白(维塔(Vita)等人,《美国国家科学院院刊》92:6404-6408,1995；马丁(Martin)等人,《自然—生物技术》21:71,2002和黄(Huang)等人,《结构(Structure)》13:755,2005)、三十四肽重复结构域(梅因(Main)等人,《结构》11:497,2003和考塔加仁(Cortajarena)等人,《美国化学会生物化学》3:161,2008)、富含亮氨酸的重复结构域(斯达普(Stumpp)等人,《分子生物学杂志》332:471,2003)、脂质运载蛋白结构域(参见例如WO 2006/095164；贝思特(Beste)等人,《美国国家科学院院刊》96:1898,1999和舍恩菲尔德

等人,《美国国家科学院院刊》106:8198,2009)、V样结构域(参见例如US 2007/0065431)、C型凝集素结构域(泽连斯基(Zelensky)和格雷迪(Gready),《欧洲生物化学学会联合会杂志(FEBS J.)》272:6179,2005；比佛(Beavil)等人,《美国国家科学院院刊》89:753,1992和萨托(Sato)等人,《美国国家科学院院刊》100:7779,2003)、mAb2或具有抗原结合结构域的Fc区(Fcab^TM(英国剑桥的富斯塔生物技术公司(F-Star Biotechnology,Cambridge UK)；参见例如WO 2007/098934和WO 2006/072620)、犰狳重复蛋白(参见例如马拉他卡姆(Madhurantakam)等人,《蛋白质科学(Protein Sci.)》21:1015,2012；WO 2009/040338)、阿菲林(affilin)(埃伯斯巴赫(Ebersbach)等人,《分子生物学杂志》372:172,2007)、亲和抗体、高亲和性多聚体、打结素、非诺莫(fynomer)、阿曲聚体(atrimer)、细胞毒性T淋巴细胞相关蛋白-4(魏德勒(Weidle)等人,《癌症基因组学与蛋白质组学(Cancer Gen.Proteo.)》10:155,2013)等等(诺德(Nord)等人,《蛋白质工程》8:601,1995；诺德等人,《自然—生物技术》15:772,1997；诺德等人,《欧洲生物化学杂志(Euro.J.Biochem.)》268:4269,2001；宾兹等人,《自然—生物技术》23:1257,2005；布尔斯马(Boersma)和普鲁克斯(Plückthun),《生物技术近期述评(Curr.Opin.Biotechnol.)》22:849,2011)。

肽适体包括在两端附接到蛋白质骨架的肽环(其对细胞标志物具有特异性)。这一双重结构限制使肽适体的结合亲和力增加到与抗体相当的水平。可变环长度通常为8至20个氨基酸且骨架可为稳定、可溶、小且无毒的任何蛋白质。可使用不同系统，例如酵母双杂交系统(例如Gal4酵母双杂交系统)或LexA相互作用陷阱系统来进行肽适体选择。

在特定实施例中，结合结构域为包括Vα/β和Cα/β链(例如Vα-Cα、Vβ-Cβ、Vα-Vβ)或包括对细胞标志物肽-MHC复合物具有特异性的Vα-Cα、Vβ-Cβ、Vα-Vβ的sc T细胞受体(scTCR)。

在特定实施例中，工程化的结合结构域包括来源于或基于Vα、Vβ、Cα或Cβ的Vα、Vβ、Cα或Cβ区且与所提及的Vα、Vβ、Cα或Cβ相比，包括一个或一个以上(例如2、3、4、5、6、7、8、9、10个)插入、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)缺失、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)氨基酸取代(例如保守氨基酸取代或非保守氨基酸取代)或上述变化的组合。插入、缺失或取代可在V_L、V_H、Vα、Vβ、Cα或Cβ区中的任何地方，包括在这些区域的氨基端或羧基端或两端，其限制条件为每个CDR包括零变化或至多一个、两个或三个变化且其限制条件为含有修饰的Vα、Vβ、Cα或Cβ区的目标结合结构域仍可以类似于野生型的亲和力和作用特异性结合其目标。

在特定实施例中，工程化的结合结构域包括与已知或鉴别的结合结构域的氨基酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％或100％一致的序列，其中每个CDR相对于特异性结合于靶向的细胞标志物的已知或鉴别的结合结构域或其片段或衍生物包括零变化或最多一个、两个或三个变化。

所给定CDR或FR的确切氨基酸序列边界可容易使用多种众所周知方案中的任一者确定，包括以下文献中所述的方案：卡巴特(Kabat)等人(1991)《免疫学上关注的蛋白质序列(Sequences of Proteins of Immunological Interest)》,第5版马里兰州贝塞斯达市的美国国立卫生研究院公共卫生署(Public Health Service,National Institutes ofHealth,Bethesda,Md.)(卡巴特编号方案)；阿尔-拉兹卡尼(Al-Lazikani)等人,《分子生物学杂志(J Mol Biol)》273:927-948,1997(Chothia编号方案)；麦卡勒姆(Maccallum)等人,《分子生物学杂志》262:732-745,1996(接触编号方案)；马丁等人,《美国国家科学研究院院刊(Proc.Natl.Acad.Sci.)》,86:9268-9272,1989(AbM编号方案)；勒佛朗(Lefranc)等人,《发育与比较免疫学(Dev Comp Immunol)》27(1):55-77,2003(IMGT编号方案)；以及纳格(Honegger)和普拉克姆(Pluckthun),《分子生物学杂志》309(3):657-670,2001(“Aho”编号方案)。给定CDR或FR的边界可视鉴别所用的方案而变化。举例来说，卡巴特方案基于结构比对，而Chothia方案基于结构信息。卡巴特与Chothia两者方案的编号均基于最常见抗体区序列长度，其中在一些抗体中出现由插入字母(例如“30a”)表示的插入和缺失。两种方案将某些插入和删除(“插入删除”)置于不同的位置，从而产生不同的编号。接触方案基于对复杂晶体结构的分析，且在多个方面与Chothia编号方案类似。在特定实施例中，本文公开的抗体CDR序列是根据卡巴特编号。

CAR为被设计成结合于某些目标并引发反应的工程化受体。CAR包括几种不同子组分，当在细胞上表达时，这些子组分允许基因修饰的细胞识别和杀死不合需要的细胞，例如癌细胞或病毒感染的细胞。子组分包括至少一种细胞外组分和细胞内组分。细胞外组分包括特异性结合在不合需要的细胞的表面上优先存在的标志物的结合结构域。当结合结构域结合这类标志物时，细胞内组分活化基因修饰的细胞以破坏所结合的细胞。CAR另外包括使细胞外组分连接到细胞内组分的跨膜结构域和可增加CAR功能的其它子组分。举例来说，包括一个或一个以上连接子序列(例如间隔子区域)可允许CAR具有额外构象柔性，通常增加结合结构域结合目标细胞标志物的能力。

CAR的胞外结构域包括结合结构域。结合结构域如先前所论述且可包括抗体、scFv、配体、肽、肽适体或受体。

在特定实施例中，工程化的CAR包括与已知或鉴别的TCR Vα、Vβ、Cα或Cβ的氨基酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％或100％一致的序列，其中每个CDR相对于特异性结合于靶向的细胞标志物的TCR或其片段或衍生物包括零变化或最多一个、两个或三个变化。

在特定实施例中，工程化的CAR包括来源于或基于已知或鉴别的TCR(例如高亲和力TCR)的Vα、Vβ、Cα或Cβ的Vα、Vβ、Cα或Cβ区且与已知或鉴别的TCR的Vα、Vβ、Cα或Cβ相比，包括一个或一个以上(例如2、3、4、5、6、7、8、9、10个)插入、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)缺失、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)氨基酸取代(例如保守氨基酸取代或非保守氨基酸取代)或上述变化的组合。插入、缺失或取代可在Vα、Vβ、Cα或Cβ区中的任何地方，包括在这些区域的氨基端或羧基端或两端，其限制条件为每个CDR包括零变化或至多一个、两个或三个变化且其限制条件为含有修饰的Vα、Vβ、Cα或Cβ区的目标结合结构域仍可以类似于野生型的亲和力和作用特异性结合其目标。

在特定实施例中，CAR的结合结构域包括或为与轻链可变区(VL)或重链可变区(VH)或两者的氨基酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.5％或100％一致的序列，其中每个CDR相对于特异性结合于所关注的细胞标志物的单克隆抗体或其片段或衍生物包括零变化或最多一个、两个或三个变化。

在特定实施例中，本公开的CAR中的VL区来源于或基于已知单克隆抗体的VL且与已知单克隆抗体的VL相比，含有一个或一个以上(例如2、3、4、5、6、7、8、9、10个)插入、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)缺失、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)氨基酸取代(例如保守氨基酸取代)或上述变化的组合。插入、缺失或取代可在VL区中的任何地方，包括在该区域的氨基端或羧基端或两端，其限制条件为每个CDR包括零变化或至多一个、两个或三个变化且其限制条件为含有修饰的VL区的结合结构域仍可以类似于野生型结合结构域的亲和力特异性结合其目标。

在特定实施例中，本公开的CAR中的结合结构域VH区可来源于或基于已知单克隆抗体的VH且与已知单克隆抗体的VH相比，含有一个或一个以上(例如2、3、4、5、6、7、8、9、10个)插入、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)缺失、一个或一个以上(例如2、3、4、5、6、7、8、9、10个)氨基酸取代(例如保守氨基酸取代或非保守氨基酸取代)或上述变化的组合。插入、缺失或取代可在VH区中的任何地方，包括在该区域的氨基端或羧基端或两端，其限制条件为每个CDR包括零变化或至多一个、两个或三个变化且其限制条件为含有修饰的VH区的结合结构域仍可以类似于野生型结合结构域的亲和力特异性结合其目标。

与前列腺癌相关的特定细胞标志物包括PSMA、WT1、ProstateStem细胞抗原(PSCA)和SV40 T。与乳腺癌相关的特定细胞标志物包括HER2和ERBB2。与卵巢癌相关的特定细胞标志物包括L1-CAM、MUC16的胞外结构域(MUC-CD)、叶酸结合蛋白(叶酸受体)、Lewis Y、间皮素和WT-1。与胰腺癌相关的特定细胞标志物包括间皮素、CEA和CD24。与多发性骨髓瘤相关的特定细胞标志物包括BCMA、GPRC5D、CD38和CS1。与白血病和/或淋巴瘤相关的特定标志物包括CLL-1、CD123、CD33和PD-L1。

在特定实施例中，CAR的结合结构域结合细胞标志物Her2。在特定实施例中，结合HER2的结合结构域来源于曲妥珠单抗(trastuzumab)(Herceptin)。在特定实施例中，结合结构域包括可变轻链，其包含包括SEQ ID NO:8的CDRL1序列、包括SEQ ID NO:9的CDRL2序列和包括SEQ ID NO:10的CDRL3序列；和可变重链，其包含包括SEQ ID NO:11的CDRH1序列、包括SEQ ID NO:12的CDRH2序列和包括SEQ ID NO:13的CDRH3序列。

在特定实施例中，CAR的结合结构域结合细胞标志物PD-L1。在特定实施例中，结合PD-L1的结合结构域来源于派姆单抗(pembrolizumab)或FAZ053(Novartis)中的至少一者。在特定实施例中，结合结构域包括可变轻链，其包含包括SEQ ID NO:14的CDRL1序列、包括SEQ ID NO:15的CDRL2序列和包括SEQ ID NO:16的CDRL3序列；和可变重链，其包含包括SEQID NO:17的CDRH1序列、包括SEQ ID NO:18的CDRH2序列和包括SEQ ID NO:19的CDRH3序列。

PD-L1的一种示例性结合结构域可包括或来源于阿维鲁单抗(Avelumab)或阿特珠单抗(Atezolizumab)。在特定实施例中，阿维鲁单抗的可变重链包括SEQ ID NO:20。

在特定实施例中，阿维鲁单抗的可变轻链包括SEQ ID NO:21。

在特定实施例中，阿维鲁单抗的CDR区包括：CDRH1(SEQ ID NO:22)；CDRH2(SEQ IDNO:23)；CDRH3(SEQ ID NO:24)；CDRL1(SEQ ID NO:25)；CDRL2(SEQ ID NO:26)；和CDRL3(SEQ ID NO:27)。

在特定实施例中，阿特珠单抗的可变重链包括SEQ ID NO:28。在特定实施例中，阿特珠单抗的可变轻链包括SEQ ID NO:29。

在特定实施例中，阿特珠单抗的CDR区包括：CDRH1(SEQ ID NO:30)；CDRH2(SEQ IDNO:31)；CDRH3(SEQ ID NO:32)；CDRL1(SEQ ID NO:33)；CDRL2(SEQ ID NO:34)；和CDRL3(SEQ ID NO:35)。

在特定实施例中，CAR的结合结构域结合细胞标志物PSMA。在特定实施例中，结合结构域包括可变轻链，其包含包括SEQ ID NO:36的CDRL1序列、包括SEQ ID NO:37的CDRL2序列、包括SEQ ID NO:38的CDRL3序列。在特定实施例中，结合结构域包括可变重链，其包含包括SEQ ID NO:39的CDRH1序列、包括SEQ ID NO:40的CDRH2序列和包括SEQ ID NO:41的CDRH3序列。

在特定实施例中，CAR的结合结构域结合细胞标志物MUC16。在特定实施例中，结合结构域为人类或人源化的且包括可变轻链，其包含包括SEQ ID NO:42的CDRL1序列、包括GAS的CDRL2序列、包括SEQ ID NO:43的CDRL3序列。在特定实施例中，结合结构域为人类或人源化的且包括可变重链，其包含包括SEQ ID NO:44的CDRH1序列、包括SEQ ID NO:45的CDRH2序列和包括SEQ ID NO:46的CDRH3序列。

在特定实施例中，CAR的结合结构域结合细胞标志物FOLR。在特定实施例中，结合FOLR的结合结构域来源于法妥组单抗(farletuzumab)。在特定实施例中，结合结构域包括可变轻链，其包含包括SEQ ID NO:47的CDRL1序列、包括SEQ ID NO:48的CDRL2序列和包括SEQ ID NO:49的CDRL3序列；和可变重链，其包含包括SEQ ID NO:50的CDRH1序列、包括SEQID NO:51的CDRH2序列和包括SEQ ID NO:52的CDRH3序列。

间皮素的一种示例性结合结构域可包括或来源于阿麦妥单抗(Amatuximab)。

在特定实施例中，阿麦妥单抗的可变重链包括SEQ ID NO:53。在特定实施例中，阿麦妥单抗的可变轻链包括SEQ ID NO:54。

在特定实施例中，阿麦妥单抗的CDR区包括：CDRH1(SEQ ID NO:55)；CDRH2(SEQ IDNO:56)；CDRH3(SEQ ID NO:57)；CDRL1(SEQ ID NO:58)；CDRL2(SEQ ID NO:59)；和CDRL3(SEQ ID NO:60)。

还考虑例如通过结合于感染物抗原而对感染性疾病病原体具有特异性的结合结构域。这些包括例如由病毒感染细胞表达的病毒抗原或其它病毒标志物。示例性病毒包括腺病毒、沙粒状病毒、布尼亚病毒(bunyavirus)、冠状病毒、黄病毒、汉坦病毒(hantavirus)、肝炎病毒、疱疹病毒、乳突状瘤病毒、副粘病毒、微小病毒、小核糖核酸病毒、痘病毒、正粘液病毒、逆转录病毒、呼肠孤病毒、棒状病毒、轮状病毒、海绵状病毒或披衣病毒(togavirus)。在额外实施例中，病毒抗原标志物包括由CMV、感冒病毒、埃-巴二氏(Epstein-Barr)病毒、流感病毒、甲型、乙型和丙型肝炎病毒、单纯疱疹病毒、HIV病毒、流感病毒、日本脑炎病毒、麻疹病毒、脊髓灰质炎病毒、狂犬病病毒、呼吸道合胞病毒、风疹病毒、天花病毒、水痘带状疱疹病毒或西尼罗河病毒(West Nile virus)表达的肽。

作为进一步特定实例，巨细胞病毒抗原包括包膜糖蛋白B和CMV pp65；埃-巴二氏抗原包括EBV EBNAI、EBV P18和EBV P23；肝炎抗原包括HBV的S、M和L蛋白质、HBV的pre-S抗原、HBCAG DELTA、HBV HBE、丙型肝炎病毒RNA、HCV NS3和HCV NS4；单纯疱疹病毒抗原包括立即早期蛋白和糖蛋白D；HIV抗原包括gag、pol和env基因的基因产物，例如HIV gp32、HIVgp41、HIV gp120、HIV gp160、HIV P17/24、HIV P24、HIV P55 GAG、HIV P66 POL、HIV TAT、HIV GP36、Nef蛋白和逆转录酶；流感抗原包括红血球凝集素和神经氨糖酸苷酶；日本脑炎病毒抗原包括蛋白E、M-E、M-E-NS1、NS1、NS1-NS2A和80％ E；麻疹抗原包括麻疹病毒融合蛋白；狂犬病抗原包括狂犬病糖蛋白和狂犬病核蛋白；呼吸道合胞病毒抗原包括RSV融合蛋白和M2蛋白；轮状病毒抗原包括VP7sc；风疹抗原包括蛋白E1和E2；且水痘带状疱疹病毒抗原包括gpI和gpII。额外的特定示例性病毒抗原序列包括：Nef(66-97)(SEQ ID NO:61)；Nef(116-145)(SEQ ID NO:62)；Gag p17(17-35)(SEQ ID NO:63)；Gag p17-p24(253-284)(SEQID NO:64)；以及Pol 325-355(RT 158-188)(SEQ ID NO:65)。关于病毒抗原的额外实例，参见《基本病毒学(Fundamental Virology)》,第二版,编辑菲尔兹(Fields,B.N.)和奈普(Knipe,D.M.)(纽约雷文出版社(Raven Press,New York),1991)。

细胞内信号传导组分.CAR的细胞内或者细胞质信号传导组分负责表达CAR的细胞的活化。术语“细胞内信号传导组分”或“细胞内组分”因此意指包括足以转导活化信号的细胞内结构域的任何部分。所表达的CAR的细胞内组分可包括效应子结构域。效应子结构域为融合蛋白或受体的细胞内部分，其在接收适当信号时可直接或间接促进细胞中的生物或生理反应。在某些实施例中，效应子结构域为当结合时接收信号的蛋白质或蛋白质复合物的一部分，或其直接结合于目标分子，触发来自效应子结构域的信号。当效应子结构域含有一个或一个以上信号传导结构域或模体(例如免疫受体酪氨酸活化模体(ITAM))时，其可直接促进细胞反应。在其它实施例中，效应子结构域将通过与一种或一种以上直接促进细胞反应的其它蛋白质(例如协同刺激结构域)缔合而间接促进细胞反应。

效应子结构域可在结合于由癌细胞表达的细胞标志物后提供修饰的细胞的至少一种功能的活化。修饰的细胞的活化可包括分化、增殖和/或活化或其它效应功能中的一者或一者以上。在特定实施例中，效应子结构域可包括细胞内信号传导组分，包括T细胞受体和协同刺激结构域，其可包括来自共受体或协同刺激分子的细胞质序列。

效应子结构域可包括一个、两个、三个或更多个受体信号传导结构域、胞内信号传导组分(例如细胞质信号传导序列)、协同刺激结构域或其组合。示例性效应子结构域包括选自以下的信号传导和刺激结构域：4-1BB(CD137)、CARD11、CD3γ、CD3δ、CD3ε、CD3ζ、CD27、CD28、CD79A、CD79B、DAP10、FcRα、FcRβ(FcεR1b)、FcRγ、Fyn、HVEM(LIGHTR)、ICOS、LAG3、LAT、Lck、LRP、NKG2D、NOTCH1、pTα、PTCH2、OX40、ROR2、Ryk、SLAMF1、Slp76、TCRα、TCRβ、TRIM、Wnt、Zap70或其任何组合。在特定实施例中，示例性效应子结构域包括选自以下的信号传导和协同刺激结构域：CD86、FcγRIIa、DAP12、CD30、CD40、PD-1、淋巴细胞功能相关抗原-1(LFA-1)、CD2、CD7、LIGHT、NKG2C、B7-H3、与CD83特异性结合的配体、CDS、ICAM-1、GITR、BAFFR、SLAMF7、NKp80(KLRF1)、CD127、CD160、CD19、CD4、CD8α、CD8β、IL2Rβ、IL2Rγ、IL7Rα、ITGA4、VLA1、CD49a、IA4、CD49D、ITGA6、VLA-6、CD49f、ITGAD、CD11d、ITGAE、CD103、ITGAL、CD11a、ITGAM、CD11b、ITGAX、CD11c、ITGB1、CD29、ITGB2、CD18、ITGB7、TNFR2、TRANCE/RANKL、DNAM1(CD226)、SLAMF4(CD244、2B4)、CD84、CD96(触觉)、CEACAM1、CRTAM、Ly9(CD229)、PSGL1、CD100(SEMA4D)、CD69、SLAMF6(NTB-A、Ly108)、SLAM(CD150、IPO-3)、BLAME(SLAMF8)、SELPLG(CD162)、LTBR、GADS、PAG/Cbp、NKp44、NKp30或NKp46。

以刺激方式起作用的细胞内信号传导组分序列可包括iTAM。包括初级细胞质信号传导序列的iTAM的实例包括来源于CD3γ、CD3δ、CD3ε、CD3ζ、CD5、CD22、CD66d、CD79a、CD79b和常见FcRγ(FCER1G)、FcγRlla、FcRβ(FcεRib)、DAP10和DAP12的iTAM。在特定实施例中，CD3ζ的变体保留至少一个、两个、三个或所有ITAM区。

在特定实施例中，效应子结构域包括与细胞质信号传导蛋白缔合的细胞质部分，其中细胞质信号传导蛋白为淋巴细胞受体或其信号传导结构域、包括多个ITAM的蛋白质、协同刺激结构域或其任何组合。

细胞内信号传导组分的额外实例包括CD3ζ链的细胞质序列和/或协同作用以在结合结构域啮合之后起始信号转导的共受体。

协同刺激结构域是活化可能为对细胞标志物结合的有效淋巴细胞反应所需的结构域。一些分子可互换为细胞内信号传导组分或协同刺激结构域。协同刺激结构域的实例包括CD27、CD28、4-1BB(CD 137)、OX40、CD30、CD40、PD-1、ICOS、淋巴细胞功能相关抗原-1(LFA-1)、CD2、CD7、LIGHT、NKG2C、B7-H3和与CD83特异性结合的配体。举例来说，CD27协同刺激已证明可增强体外人CART细胞的扩增、效应功能和存活且增强体内人T细胞的持久性和抗癌活性(宋(Song)等人《血液》2012；119(3):696-706)。这类协同刺激结构域分子的进一步实例包括CDS、ICAM-1、GITR、BAFFR、HVEM(LIGHTR)、SLAMF7、NKp80(KLRF1)、NKp44、NKp30、NKp46、CD160、CD19、CD4、CD8α、CD8β、IL2Rβ、IL2Rγ、IL7Rα、ITGA4、VLA1、CD49a、ITGA4、IA4、CD49D、ITGA6、VLA-6、CD49f、ITGAD、CDlld、ITGAE、CD103、ITGAL、CDlla、ITGAM、CDl lb、ITGAX、CDllc、ITGBl、CD29、ITGB2、CD18、ITGB7、TNFR2、TRANCE/RANKL、DNAM1(CD226)、SLAMF4(CD244、2B4)、CD84、CD96(触觉)、NKG2D、CEACAM1、CRTAM、Ly9(CD229)、PSGL1、CD100(SEMA4D)、CD69、SLAMF6(NTB-A、Lyl08)、SLAM(SLAMF1、CD150、IPO-3)、BLAME(SLAMF8)、SELPLG(CD162)、LTBR、LAT、GADS、SLP-76、PAG/Cbp和CD19a。

在特定实施例中，细胞内信号传导组分的氨基酸序列包括CD3ζ的变体和4-1BB细胞内信号传导组分的一部分。

在特定实施例中，细胞内信号传导组分包括(i)CD3ζ的信号传导结构域所有或一部分，(ii)4-1BB的信号传导结构域所有或一部分，或(iii)CD3ζ和4-1BB的信号传导结构域所有或一部分。

细胞内组分还可包括以下蛋白质中的一者或一者以上：Wnt信号传导通路(例如LRP、Ryk或ROR2)、NOTCH信号传导通路(例如NOTCH1、NOTCH2、NOTCH3或NOTCH4)、刺猬信号传导通路(例如PTCH或SMO)、受体酪氨酸激酶(RTK)(例如表皮生长因子(EGF)受体家族、成纤维细胞生长因子(FGF)受体家族、肝细胞生长因子(HGF)受体家族、胰岛素受体(IR)家族、血小板衍生生长因子(PDGF)受体家族、血管内皮生长因子(VEGF)受体家族、原肌球蛋白受体激酶(Trk)受体家族、蝶素(Eph)受体家族、AXL受体家族、白血球酪氨酸激酶(LTK)受体家族、具有免疫球蛋白样和EGF样结构域1(TIE)的酪氨酸激酶的受体家族、受体酪氨酸激酶样孤儿(ROR)受体家族、盘状域(DDR)受体家族、转染期间重排(RET)受体家族、酪氨酸蛋白激酶样(PTK7)受体家族、与受体酪氨酸激酶(RYK)受体家族相关或肌肉特异性激酶(MuSK)受体家族)；G蛋白偶合受体GPCR(卷曲或平滑)；丝氨酸/苏氨酸激酶受体(BMPR或TGFR)；或细胞因子受体(IL1R、IL2R、IL7R或IL15R)。

连接子.如本文所用，连接子可以是用以连接分子的两种其它子组分的CAR分子的任何部分。一些连接子除了连接其它组分以外没有其它目的，而许多连接子提供额外的目的。上文描述了连接scFv的抗体衍生结合结构域的VL和VH的情形下的连接子。连接子还可包括间隔子区和接合氨基酸。

间隔子区是用于与其它连接组分建立适当距离和/或柔性的一种类型连接子区。在特定实施例中，间隔子区的长度可针对不合需要的细胞上的个别细胞标志物定制以优化不合需要的细胞的识别和破坏。间隔子的长度可使得细胞在抗原结合后的反应性与间隔子不存在的情况相比增加。在特定实施例中，间隔子区长度可基于以下来选择：细胞标志物表位的位置、结合结构域对表位的亲和力和/或对细胞标志物识别起反应，表达分子的修饰烦人细胞在体外和/或体内增殖的能力。间隔子区还可允许修饰的细胞中的高表达量。

在特定实施例中，间隔子区包括II型C-凝集素域间(茎)区或分化簇(CD)分子茎区的铰链区。如本文所用，“野生型免疫球蛋白铰链区”是指在抗体重链中发现的插入于CH1与CH2结构域之间且进行连接(对于IgG、IgA和IgD)或插入于CH1与CH3域之间且进行连接(对于IgE和IgM)的天然存在的上部和中间铰链氨基酸序列。

II型C-凝集素或CD分子的“茎区”是指位于C型凝集素样域(CTLD；例如类似于自然杀伤细胞受体的CTLD)与疏水性部分(跨膜结构域)之间的II型C-凝集素或CD分子的胞外结构域的部分。例如，人CD94的胞外结构域(GenBank登录号AAC50291.1)对应于氨基酸残基34-179，但CTLD对应于氨基酸残基61-176，因此人CD94分子的茎区包括氨基酸残基34-60，位于疏水性部分(跨膜结构域)与CTLD之间(参见博伊廷顿(Boyington)等人,《免疫学》10:15,1999；关于其它茎区的描述，还参见比佛等人,《美国国家科学院院刊》89:153,1992；和菲戈多(Figdor)等人,《自然免疫学综述(Nat.Rev.Immunol)》.2:11,2002)。这些II型C-凝集素或CD分子还可在茎区与跨膜区或CTLD之间具有接合氨基酸(下述)。在另一实例中，233个氨基酸的人NKG2A蛋白(GenBank登录号P26715.1)具有范围介于氨基酸71-93的疏水性部分(跨膜结构域)和范围介于氨基酸94-233的胞外结构域。CTLD包括氨基酸119-231且茎区包括氨基酸99-116，可由额外接合氨基酸侧接。其它II型C-凝集素或CD分子以及其细胞外配体结合结构域、茎区和CTLD是所属领域中已知的(关于人CD23、CD69、CD72、NKG2A和NKG2D的序列和其描述，分别参见例如GenBank登录号NP 001993.2；AAH07037.1；NP 001773.1；AAL65234.1；CAA04925.1)。

如关于间隔子区进一步描述，融合蛋白的细胞外组分任选地包括细胞外的非信号传导间隔子或连接子区，其例如可使结合结构域远离宿主细胞(例如T细胞)表面以使得能够进行适当细胞/细胞接触、抗原结合和活化(帕特尔(Patel)等人,《基因疗法》6:412-419,1999)。如所指示，融合结合蛋白的细胞外间隔子区通常位于疏水性部分或跨膜结构域与细胞外结合结构域之间，且间隔子区长度可基于所选的目标分子、所选的结合表位或抗原结合结构域尺寸和亲和力变化以最大化抗原识别(例如肿瘤识别)(参见例如格斯特(Guest)等人,《免疫治疗杂志》28:203-11,2005；PCT公开案第WO 2014/031687号)。在某些实施例中，间隔子区包括免疫球蛋白铰链区。免疫球蛋白铰链区可为野生型免疫球蛋白铰链区或改变的野生型免疫球蛋白铰链区。在某些实施例中，免疫球蛋白铰链区为人免疫球蛋白铰链区。免疫球蛋白铰链区可为IgG、IgA、IgD、IgE或IgM铰链区。IgG铰链区可为IgG1、IgG2、IgG3或IgG4铰链区。本文所述的融合结合蛋白中所用的铰链区的其它实例包括例如CD8α、CD4、CD28和CD7的可为野生型或其变体的1型膜蛋白的细胞外区域中存在的铰链区。

在某些实施例中，细胞外间隔子区包括选自以下的Fc结构域的全部或一部分：CH1结构域、CH2结构域、CH3结构域、CH4结构域或其任何组合。Fc结构域或其部分可为改变的野生型(例如减少抗体效应功能)。在某些实施例中，细胞外组分包括安置于结合结构域与疏水性部分之间的免疫球蛋白铰链区、CH2结构域、CH3结构域或其任何组合。

接合氨基酸可为当不需要和/或想要由间隔子提供的距离时，可用于连接CAR结构域的序列的连接子。接合氨基酸是可以用于连接协同刺激细胞内信号传导组分的短氨基酸序列。在特定实施例中，接合氨基酸为9个氨基酸或更少。

接合氨基酸可为短寡核苷酸或蛋白质连接子，优选长度介于2个氨基酸与9个氨基酸之间(例如2、3、4、5、6、7、8或9个氨基酸)，以形成连接子。在特定实施例中，甘氨酸-丝氨酸二联体可用作适合的接合氨基酸连接子。在特定实施例中，单一氨基酸，例如丙氨酸、甘氨酸可用作适合的接合氨基酸。

跨膜结构域.如所指示，CAR分子内的跨膜结构域通常用于经由细胞膜连接细胞外组分和细胞内组分。跨膜结构域可将所表达的分子锚定于经修饰的细胞膜中。

跨膜结构域可来源于天然来源和/或合成来源。在来源为天然来源时，跨膜结构域可来源于任何膜结合蛋白或跨膜蛋白。跨膜结构域可至少包括T细胞受体、CD28、CD27、CD3ε、CD45、CD4、CD5、CD8、CD9、CD16、CD22、CD33、CD37、CD64、CD80、CD86、CD134、CD137和CD154的α、β或ζ链的跨膜区。在特定实施例中，跨膜结构域可至少包括例如以下的跨膜区：KIRDS2、OX40、CD2、CD27、LFA-1(CD 11a、CD18)、ICOS(CD278)、4-1BB(CD137)、GITR、CD40、BAFFR、HVEM(LIGHTR)、SLAMF7、NKp80(KLRF1)、NKp44、NKp30、NKp46、CD160、CD19、IL2Rβ、IL2Rγ、IL7R a、ITGA1、VLA1、CD49a、ITGA4、IA4、CD49D、ITGA6、VLA-6、CD49f、ITGAD、CDlld、ITGAE、CD103、ITGAL、CDl la、ITGAM、CDl lb、ITGAX、CDl lc、ITGB1、CD29、ITGB2、CD18、ITGB7、TNFR2、DNAM1(CD226)、SLAMF4(CD244、2B4)、CD84、CD96(触觉)、CEACAM1、CRT AM、Ly9(CD229)、PSGL1、CD100(SEMA4D)、SLAMF6(NTB-A、Lyl08)、SLAM(SLAMF1、CD150、IPO-3)、BLAME(SLAMF8)、SELPLG(CD162)、LTBR、PAG/Cbp、NKG2D或NKG2C。

在特定实施例中，跨膜结构域具有三维结构，该三维结构在细胞膜中热力学上稳定，且长度通常在15至30个氨基酸范围内。跨膜结构域的结构可包括α螺旋、β桶状、β片状、β螺旋或其任何组合。

跨膜结构域可包括一个或一个以上邻近跨膜区的额外氨基酸，例如CAR的细胞外区域内的一个或一个以上氨基酸(例如，细胞外区域的至多15个氨基酸)和/或CAR的细胞内区域内的一个或一个以上额外氨基酸(例如，细胞内组分的至多15个氨基酸)。在一个方面，跨膜结构域可来自信号传导结构域、协同刺激结构域或铰链结构域所源自相同的蛋白质。在另一方面，跨膜结构域不来源于与CAR的任何其它结构域所源自相同的蛋白质。在一些情况下，可通过氨基酸取代来选择或修饰跨膜结构域，以避免这类结构域结合至相同或不同表面膜蛋白的跨膜结构域，从而使与受体复合物中的其它不期望成员的相互作用降到最低。在一个方面，跨膜结构域能够与表达CAR的细胞的细胞表面上的另一CAR均二聚。在不同方面，跨膜结构域的氨基酸序列可被修饰或被取代成使与相同的表达CAR的细胞中存在的天然结合搭配物的结合结构域的相互作用降到最低。在特定实施例中，跨膜结构域包括CD28跨膜结构域的氨基酸序列。

转导标志物可选自以下中的至少一者：截短的CD19(tCD19；参见布德(Budde)等人,《血液》122:1660,2013)；截短的人EGFR(tEGFR；参见王(Wang)等人,《血液》118:1255,2011)；人CD34的胞外结构域；和/或RQR8，其组合来自CD34(参见Fehse等人,《分子疗法(Mol.Therapy)》1(5Pt 1):448-456,2000)和CD20抗原(参见菲利普(Philip)等人,《血液》124:1277-1278,2014)的目标表位。

在特定实施例中，编码i凋亡蛋白酶9构建体(iCasp9)的多核苷酸可作为自杀开关插入到CAR核苷酸构建体中。

控制特征可存在于CAR中的多个拷贝中或可使用跳跃元件表达为不同分子。在特定实施例中，转导标志物包括tEGFR。示例性转导标志物和同源对描述于美国专利第8,802,374号中。

CAR中包括至少一个控制特征的一个优点是投与到受试者的表达CAR的细胞可使用针对控制特征的同源结合分子或通过使用表达CAR并对控制特征具有特异性的第二修饰的细胞来耗竭。修饰的细胞的消除可使用对控制特征具有特异性的耗竭剂来实现。

在某些实施例中，表达嵌合分子的修饰的细胞可通过使用以特异性结合于控制特征的抗体或通过其它特异性结合控制特征的同源结合分子在体内检测或追踪，控制特征的结合搭配物结合于荧光染料、放射性示踪剂、氧化铁纳米颗粒或所属领域中已知用于通过X射线、CT-扫描、MRI-扫描、PET-扫描、超声波、流式细胞术、近红外线成像系统或其它成像模态来检测的其它成像剂(参见例如余(Yu)等人,《治疗诊断学(Theranostics)》2:3,2012)。

因此，与无标签盒的修饰的细胞相比，在CAR下表达到少一个控制特征的修饰的细胞可例如更容易地鉴别、分离、分选、诱导进行增殖、追踪和/或消除。

T细胞受体(TCR)是在T细胞表面上发现的分子，其负责与主要组织相容性复合体(MHC)结合的肽的T细胞识别。

TCR是指天然存在的T细胞受体。HSC可在体内进行修饰以表达所选择的TCR。CAR/TCR杂交体是指具有TCR的元件和CAR的元件的蛋白质。举例来说，CAR/TCR杂交体可具有天然存在的TCR结合结构域与TCR结合结构域不天然相关联的效应子结构域。CAR/TCR杂交体可具有突变的TCR结合结构域和ITAM信号传导结构域。CAR/TCR杂交体可具有天然存在的TCR，该TCR具有插入的非天然存在的间隔子区或跨膜结构域。

特定CAR/TCR杂交体包括

(T细胞受体融合构建体)杂交体；马萨诸塞州剑桥市的TCR2治疗学公司(TCR2 Therapeutics,Cambridge,MA)。举例来说，TCR融合蛋白的产生描述于国际专利公开案WO 2018/026953和WO 2018/067993和申请公开案US2017/0166622中。

在特定实施例中，CAR/TCR杂交体包括“T细胞受体(TCR)融合蛋白”或“TFP”。TFP包括来源于各种多肽的包括TCR的重组多肽，该TCR一般能够i)与目标细胞上的表面抗原结合，和ii)通常当共位于T细胞的表面中或其表面上时，与完整TCR复合物的其它多肽组分相互作用。

(IV-d)CRISPR

CRISPR(成簇规律间隔短回文重复序列)/Cas(CRISPR相关蛋白)核酸酶系统是一种工程化的核酸酶系统，其用于基于细菌系统进行基因组工程化。它部分地基于许多细菌和古细菌的适应性免疫反应。当病毒或质粒侵入细菌时，侵入者的DNA区段通过细菌‘免疫’反应转化成CRISPR RNA(crRNA)。该crRNA接着通过部分互补区与称为tracrRNA的另一类型RNA缔合，以引导Cas核酸酶到与目标DNA中的crRNA同源的称为“原型间隔子”的区域。Cas核酸酶在由crRNA转录物内含有的20个核苷酸的互补股序列指定的位点处裂解DNA，以在双股断裂处产生平端。在一些情况下，Cas核酸酶需要crRNA和tracrRNA两者用于位点特异性DNA识别和裂解。

向导RNA(gRNA)为靶向元件的一个实例。在其最简单的形式中，gRNA提供基于互补性(例如crRNA)靶向基因组内的位点的序列。然而，如下文所解释，gRNA还可包括其它组分。举例来说，在特定实施例中，gRNA可包括靶向序列(例如crRNA)和将该靶向序列连接到切割元件的组分。该连接组分可为tracrRNA。在特定实施例中，如下文所述，包括crRNA和tracrRNA的gRNA可表达为称为单gRNA(sgRNA)的单一分子。gRNA还可通过其它机制，例如通过纳米颗粒或通过双重或多用途分子的表达或构建连接到切割元件。

在特定实施例中，靶向元件(例如gRNA)可包括一个或一个以上修饰(例如碱基修饰、主链修饰)以提供具有新的或增强的特征(例如改良稳定性)的核酸。被修饰的主链可包括主链将保留磷原子的那些主链和主链中不具有磷原子的那些主链。含有磷原子的合适的被修饰的主链可包括例如硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基膦酸酯和例如3'-亚烷基膦酸酯、5'-亚烷基膦酸酯的其它烷基膦酸酯、手性膦酸酯、亚膦酸酯、包括3'-氨基磷酸酯和氨基烷基氨基磷酸酯的氨基磷酸酯、二氨基磷酸酯、硫羰基氨基磷酸酯、硫羰基烷基膦酸酯、硫羰基烷基磷酸三酯、硒代磷酸酯和具有正常3'-5'键、2'-5'键类似物的硼烷磷酸酯，和具有反极性的其中一个或一个以上核苷酸间键为3'至3'、5'至5'或2'至2'键的那些磷酸酯。具有反极性的合适靶向元件可在3'-最大程度核苷酸间键处包括单个3'至3'键(即核碱基缺失或具有羟基代替其的单个反核苷残基)。还可包括各种盐(例如氯化钾或氯化钠)、混合盐和游离酸形式。

靶向元件可包括一个或一个以上硫代磷酸酯和/或杂原子核苷间键，尤其-CH₂-NH-O-CH₂-、-CH₂-N(CH₃)-O-CH₂-(即，亚甲基(甲基亚氨基)或MMI主链)、-CH₂-O-N(CH₃)-CH₂-、-CH₂-N(CH₃)-N(CH₃)-CH₂-和-O-N(CH₃)-CH₂-CH₂-(其中天然磷酸二酯核苷酸间键表示为-O-P(＝O)(OH)-O-CH₂-)。

在特定实施例中，靶向元件可包括N-吗啉基主链结构。举例来说，靶向元件可包括6元N-吗啉基环，而不是核糖环。在这些实施例中的一些中，二氨基磷酸酯或其它非磷酸二酯核苷间键代替磷酸二酯键。

在特定实施例中，靶向元件可包括一个或一个以上经取代的糖部分。合适的多核苷酸可包括选自以下的糖取代基：OH；F；O-、S-或N-烷基；O-、S-或N-烯基；O-、S-或N-炔基；或O-烷基-O-烷基，其中该烷基、烯基和炔基可为经取代或未取代的C1至C10烷基或C2至C10烯基和炔基。O((CH₂)_nO)mCH₃、O(CH2)_nOCH₃、O(CH₂)_nNH₂、O(CH₂)_nCH₃、O(CH₂)_nONH₂和O(CH₂)_nON((CH₂)_nCH₃)₂尤其适合，其中n和m独立地为1至10。

切割元件的实例包括核酸酶。CRISPR-Cas基因座具有超过50个基因家族且严格意义上无通用基因，这表明了基因座结构的快速进化和极端多样性。示例性Cas核酸酶包括Casl、CaslB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(又称为Csnl和Csxl2)、CaslO、Cpfl、C2c3、C2c2和C2clCsyl、Csy2、Csy3、Csel、Cse2、Cscl、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Cpfl、Csbl、Csb2、Csb3、Csxl7、Csxl4、CsxlO、Csxl6、CsaX、Csx3、Csxl、Csxl5、Csfl、Csf2、Csf3和Csf4。

存在三种主要类型的Cas核酸酶(I型、II型和III型)，和10种亚型，包括5种I型、3种II型和2种III型蛋白质(参见例如霍奇斯特拉塞尔(Hochstrasser)和道德纳(Doudna),《生物化学趋势(Trends Biochem Sci)》,40(l):58-66,2015)。II型Cas核酸酶包括Casl、Cas2、Csn2和Cas9。这些Cas核酸酶为所属领域的技术人员已知。举例来说，化脓性链球菌(Streptococcus pyogenes)野生型Cas9多肽的氨基酸序列阐述于例如NBCIRef.Seq.No.NP 269215中，且嗜热链球菌(Streptococcus thermophilus)野生型Cas9多肽的氨基酸序列阐述于例如NBCI Ref.Seq.No.WP_011681470中。

在特定实施例中，Cas9是指RNase引导的双股DNA结合核酸酶蛋白或切口酶蛋白。野生型Cas9核酸酶具有切割不同DNA股的两个功能结构域，例如RuvC和HNH。当两个功能结构域均具有活性时，Cas9可诱导基因组DNA(目标DNA)中的双股断裂。在一些实施例中，Cas9酶包括来源于例如以下的细菌的Cas9蛋白的一个或一个以上催化结构域：棒状杆菌属(Corynebacter)、萨特菌属(Sutterella)、军团菌属(Legionella)、螺旋体属(Treponema)、产丝菌属(Filif actor)、真杆菌属(Eubacterium)、链球菌属(Streptococcus)、乳杆菌属(Lactobacillus)、霉浆菌属(Mycoplasma)、拟杆菌属(Bacteroides)、黄沃拉菌属(Flaviivola)、黄杆菌属(Flavobacterium)、螺旋体属(Sphaerochaeta)、固氮螺旋菌属(Azospirillum)、葡糖醋杆菌属(Gluconacetobacter)、奈瑟氏菌属(Neisseria)、罗氏菌属(Roseburia)、细小棒状菌属(Parvibaculum)、葡萄球菌属(Staphylococcus)、硝化菌属(Nitratifractor)和曲状杆菌属(Campylobacter)。在一些实施例中，Cas9为融合蛋白，例如两个催化结构域来源于不同细菌物种。

如先前所指示，CRISPR/Cas系统已经进行工程化以使得在某些情况下crRNA和tracrRNA可组合成一个称为单一gRNA(sgRNA)的分子。在这一工程化的方法中，sgRNA引导Cas靶向任何所需序列。(参见例如金克(Jinek)等人,《科学》337:816-821,2012；金克等人,eLife 2:e00471,2013；西格尔(Segal),eLife 2:e00563,2013)。因此，CRISPR/Cas系统可被工程化成在细胞基因组中的所需目标处形成双股断裂，且利用细胞的内源性机制来修复由HDR或NHEJ引起的断裂。本文所述的特定实施例利用同源臂促进界定的整合位点处的HDR。

Cas9核酸酶的适用变体包括单一非活性催化结构域，例如RuvC或HNH酶或切口酶。Cas9切口酶仅具有一个活性功能结构域，且在一些实施例中，仅切割目标DNA的一股，由此形成单股断裂或切口。在一些实施例中，具有至少D10A突变的突变Cas9核酸酶为Cas9切口酶。在其它实施例中，具有至少H840A突变的突变Cas9核酸酶为Cas9切口酶。Cas9切口酶中存在的突变的其它实例包括N854A和N863A。如果使用靶向相对DNA股的至少两个靶向DNA的RNA，则使用Cas9切口酶引入双股断裂。双重切口诱发的双股断裂由HDR或NHEJ修复。这一基因编辑策略一般有利于HDR且降低脱靶DNA位点处发生插入缺失突变的频率。在一些实施例中，Cas9核酸酶或切口酶针对目标细胞或目标生物体进行密码子优化。

特定实施例可利用金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)。特定实施例可利用具有以下位置中的一者或一者以上处的突变的SaCas9：E782、N968和/或R1015。特定实施例可利用具有以下位置中的一者或一者以上处的突变的SaCas9：E735、E782、K929、N968、A1021、K1044和/或R1015。在一些实施例中，变异SaCas9蛋白包括以下突变中的一者或一者以上：R1015Q、R1015H、E782K、N968K、E735K、K929R、A1021T和/或K1044N。在一些实施例中，变异SaCas9蛋白包括D10A、D556A、H557A、N580A、例如D10A/H557A和/或D10A/D556A/H557A/N580A处的突变。在一些实施例中，变异SaCas9蛋白包括选自E735、E782、K929、N968、R1015、A1021和/或K1044的一个或一个以上突变。在一些实施例中，SaCas9变体可包括以下突变集合中的一者：E782K/N968K/R1015H(KKH变体)；E782K/K929R/R1015H(KRH变体)；或E782K/K929R/N968K/R1015H(KRKH变体)。

通过Cpf1例示的II类V型CRISPR-Cas类别已被蔡澈(Zetsche)等人,《细胞》163(3):759-771,2015鉴别出。具体地说，Cpf1核酸酶可借助于短的三碱基对识别序列(TTN)(称为原型间隔子相邻模体或PAM)增添目标位点选择的灵活性。Cpf1的切割位点与PAM序列相距至少18bp。此外，具有粘性末端的交错式DSB准许取向特异性的供体模板插入，这在非分裂细胞中为有利的。

特定实施例可利用工程化的Cpf1。举例来说，US 2018/0030425描述了具有改变且改善的目标特异性的来自毛螺科菌(Lachnospiraceae bacterium)ND2006和氨基酸球菌属(Acidaminococcus sp.)BV3L6的工程化的Cpf1核酸酶。特定变体包括毛螺科菌ND2006，例如至少包括在以下位置中的一者或一者以上处具有突变(即天然氨基酸经不同氨基酸，例如丙氨酸、甘氨酸或丝氨酸置换)的氨基酸19-1246：S202、N274、N278、K290、K367、K532、K609、K915、Q962、K963、K966、K1002和/或S1003。特定Cpf1变体还可包括氨基酸球菌属BV3L6 Cpf1(AsCpf1)，例如在以下位置中的一者或一者以上处具有突变(即天然氨基酸经不同氨基酸，例如丙氨酸、甘氨酸或丝氨酸置换(天然氨基酸为丝氨酸除外))：N178、S186、N278、N282、R301、T315、S376、N515、K523、K524、K603、K965、Q1013、Q1014和/或K1054。

其它Cpf1变体包括蔡澈等人(《细胞》163:759-771,2015)中所公开的Cpf1同源物和Cpf1多肽的异种同源物以及美国专利公开案第2016/0208243号中所公开的Cpf1多肽。其它工程化的Cpf1变体为所属领域的一般技术人员已知且包括于本公开的范围内(参见例如WO/2017/184768)。

如先前所指示，实施例利用同源臂以便于使用同源定向修复进行基因构建体的靶向插入。同源臂可为与裂解位点处的基因组序列具有足够同源性的任何长度，例如与侧接裂解位点，例如在裂解位点的50个碱基或更少碱基内，例如在30个碱基内、在15个碱基内、在10个碱基内、在5个碱基内或紧接裂解位点的核苷酸序列具有70％、80％、85％、90％、95％或100％同源性，以支持其与同源的基因组序列之间的HDR。同源臂一般与基因组序列，例如发生双股断裂(DSB)的基因组区域一致。然而，如所指示，不需要绝对一致。

特定实施例可利用具有25、50、100或200个或超过200个在同源定向修复模板与靶向基因组序列之间具有序列同源性的核苷酸(或10与200个核苷酸的间的任何整数值，或更多)的同源臂。在特定实施例中，同源臂的长度为40个核苷酸(nt)-1000nt。在特定实施例中，同源臂500-2500个碱基对、700-2000个碱基对或800-1800个碱基对。在特定实施例中，同源臂包括至少800个碱基对或至少850个碱基对。同源臂的长度还可为对称或不对称的。关于同源臂的其它信息，参见理查森(Richardson)等人,《自然—生物技术》,34(3):339-44,2016。

关于CRISPR-Cas系统和其组分的额外信息描述于US8697359、US8771945、US8795965、US8865406、US8871445、US8889356、US8889418、US8895308、US8906616、US8932814、US8945839、US8993233和US8999641；和与其相关的申请；以及WO2014/018423、WO2014/093595、WO2014/093622、WO2014/093635、WO2014/093655、WO2014/093661、WO2014/093694、WO2014/093701、WO2014/093709、WO2014/093712、WO2014/093718、WO2014/145599、WO2014/204723、WO2014/204724、WO2014/204725,WO2014/204726、WO2014/204727、WO2014/204728、WO2014/204729、WO2015/065964、WO2015/089351、WO2015/089354、WO2015/089364、WO2015/089419、WO2015/089427、WO2015/089462、WO2015/089465、WO2015/089473和WO2015/089486、WO2016/205711、WO2017/106657、WO2017/127807；和与其相关的申请。

(IV-e)碱基编辑系统

碱基编辑是指通过将基因组DNA或细胞RNA内的碱基或碱基对转化为不同碱基或碱基对来选择性修饰核酸序列(里斯(Rees)和刘(Liu),《自然综述遗传学(Nature ReviewsGenetics)》,19:770-788,2018)。存在两种一般类别的DNA碱基编辑器：(i)将鸟嘌呤-胞嘧啶碱基对转化为胸腺嘧啶-腺嘌呤碱基对的胞嘧啶碱基编辑器(CBC)，和(ii)将腺嘌呤-胸腺嘧啶碱基对转化为鸟嘌呤胞嘧啶碱基对的腺嘌呤碱基编辑器(ABE)。

DNA碱基编辑器可在未产生双股断裂的情况下在非分裂细胞中插入这类点突变。由于缺乏双股断裂，碱基编辑器不会导致过量的不合需要的编辑副产物，例如插入和缺失(插入缺失)。举例来说，相比于依赖于双股断裂的技术，碱基编辑器可产生少于10％、9％、8％、7％、6％、5.5％、5％、4.5％、4％、3.5％、3％、2.5％、2％、1.5％、1％、0.5％或0.1％的插入缺失。

大部分碱基编辑系统的组分包括(1)靶向DNA结合蛋白、(2)核碱基脱氨酶和(3)DNA糖苷酶抑制剂。

CRISPR系统的任何核酸酶都可失能且用于碱基编辑系统内。示例性Cas核酸酶包括Casl、CaslB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(又称为Csnl和Csxl2)、CaslO、Cpfl、C2c3、C2c2和C2clCsyl、Csy2、Csy3、Csel、Cse2、Cscl、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Cpfl、Csbl、Csb2、Csb3、Csxl7、Csxl4、CsxlO、Csxl6、CsaX、Csx3、Csxl、Csxl5、Csf1、Csf2、Csf3、Csf4和其突变。

还可使用来自其它基因编辑系统的核酸酶。举例来说，碱基编辑系统可利用锌指核酸酶(ZFN)(乌尔诺夫(Urnov)等人,《自然综述遗传学(Nat Rev Genet.)》,11(9):636-46,2010)和转录活化因子样效应物核酸酶(TALENs)(杨(Joung)等人,《自然评论分子细胞生物学(Nat Rev《分子细胞生物学》.)》14(1):49-55,2013)。关于DNA结合核酸酶的额外信息参见US2018/0312825A1。

在特定实施例中，核碱基脱氨酶包括胞苷脱氨酶结构域或腺嘌呤脱氨酶结构域。

在特定实施例中，利用胞苷脱氨酶结构域的CBE通过使胞嘧啶的外环胺脱氨以产生尿嘧啶而将胍-胞嘧啶碱基对转化成胸腺嘧啶-腺嘌呤碱基对。胞嘧啶脱氨酶的实例包括APOBEC1、APOBEC3A、APOBEC3G、CDA1和AID。APOBEC1特别接受单股(ss)DNA作为底物，但不能作用于双股(ds)DNA。

大部分碱基编辑系统还包括DNA糖苷酶抑制剂，其用以超越可以其它方式修复预期碱基编辑的天然DNA修复机制。在特定实施例中，DNA糖苷酶抑制剂包括尿嘧啶糖苷酶抑制剂，例如王(Wang)等人(《基因(Gene)》99,31-37,1991)中所述的尿嘧啶DNA糖苷酶抑制剂蛋白(UGI)。

碱基编辑器的组分可直接融合(例如通过直接共价键)或经由连接子融合。举例来说，催化失能的核酸酶可经由连接子融合到脱氨酶和/或糖苷酶抑制剂。多种糖苷酶抑制剂还可经由连接子融合。如所属领域的一般技术人员所了解，可使用连接子连接任何肽或其部分。

示例性连接子包括聚合物连接子(例如聚乙烯、聚乙二醇、聚酰胺、聚酯)；氨基酸连接子；碳-氮键酰胺连接子；环状或非环状、取代或未取代、分支或未分支的脂肪族或杂脂肪族连接子；单体、二聚或聚合物氨基烷酸连接子；氨基烷酸(例如甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸)连接子；单体、二聚或聚合物氨基己酸(Ahx)连接子；碳环部分(例如环戊烷、环己烷)连接子；芳基或杂芳基部分连接子；和苯环连接子。

连接子还可包括官能化部分以促进亲核试剂(例如硫醇、氨基)从肽附接到连接子。任何亲电试剂均可用作连接子的一部分。示例性亲电试剂包括活化酯、活化酰胺、迈克尔受体(Michael acceptor)、烷基卤化物、芳基卤化物、酰基卤化物和异硫氰酸酯。

在特定实施例中，连接子的长度在4-100个氨基酸范围内。在特定实施例中，连接子是4个氨基酸、9个氨基酸、14个氨基酸、16个氨基酸、32个氨基酸或100个氨基酸。

已经描述了许多通过将靶向DNA结合蛋白与胞苷脱氨酶和DNA糖苷酶抑制剂(例如UGI)连接而形成的碱基编辑(BE)系统。这些复合物包括例如BE1([APOBEC1-16氨基酸(aa)连接子-Sp dCas9(D10A,H840A)]科默尔(Komer)等人,《自然》,533,420-424,2016)、BE2([APOBEC1-16aa连接子-Sp dCas9(D10A,H840A)-4aa连接子-UGI]科默尔等人,2016上述)、BE3([APOBEC1-16aa连接子-Sp nCas9(D10A)-4aa连接子-UGI]科默尔等人,上述)、HF-BE3([APOBEC1-16aa连接子-HF nCas9(D10A)-4aa连接子-UGI]里斯等人,《自然·通讯(Nat.Commun.)》8,15790,2017)、BE4、BE4max([APOBEC1-32aa连接子-Sp nCas9(D10A)-9aa连接子-UGI-9aa连接子-UGI]科布兰(Koblan)等人,《自然—生物技术》10.1038/nbt.4172,2018；科默尔等人,《科学·进展(Sci.Adv.)》,3,eaao4774,2017)、BE4-GAM([Gam-16aa连接子-APOBEC1-32aa连接子-Sp nCas9(D10A)-9aa连接子-UGI-9aa连接子-UGI]科默尔等人,2017上述)、YE1-BE3([APOBEC1(W90Y,R126E)-16aa连接子-Sp nCas9(D10A)-4aa连接子-UGI]吉姆(Kim)等人,《自然—生物技术》35,475–480,2017)、EE-BE3([APOBEC1(R126E,R132E)-16aa连接子-Sp nCas9(D10A)-4aa连接子-UGI]吉姆等人,2017上述)、YE2-BE3([APOBEC1(W90Y,R132E)-16aa连接子-Sp nCas9(D10A)-4aa连接子-UGI]吉姆等人,2017上述)、YEE-BE3([APOBEC1(W90Y,R126E,R132E)-16aa连接子-Sp nCas9(D10A)-4aa连接子-UGI]吉姆等人,2017上述)、VQR-BE3([APOBEC1-16aa连接子-Sp VQR nCas9(D10A)-4aa连接子-UGI]吉姆等人,2017上述)、VRER-BE3([APOBEC1-16aa连接子-Sp VRER nCas9(D10A)-4aa连接子-UGI]吉姆等人,《自然—生物技术》35,475–480,2017)、Sa-BE3([APOBEC1-16aa连接子-Sa nCas9(D10A)-4aa连接子-UGI]吉姆等人,2017上述)、SA-BE4([APOBEC1-32aa连接子-Sa nCas9(D10A)-9aa连接子-UGI-9aa连接子-UGI]科默尔等人,2017上述)、SaBE4-Gam([Gam-16aa连接子-APOBEC1-32aa连接子-Sa nCas9(D10A)-9aa连接子-UGI-9aa连接子-UGI]科默尔等人,2017上述)、SaKKH-BE3([APOBEC1-16aa连接子-Sa KKH nCas9(D10A)-4aa连接子-UGI]吉姆等人,2017上述)、Cas12a-BE([APOBEC1-16aa连接子-dCas12a-14aa连接子-UGI]李等人,《自然—生物技术》36,324–327,2018)、目标-AID([Sp nCas9(D10A)-100aa连接子-CDA1-9aa连接子-UGI]西达(Nishida)等人,《科学》,353,10.1126/science.aaf8729,2016)、目标-AID-NG([Sp nCas9(D10A)-NG-100aa连接子-CDA1-9aa连接子-UGI]西增(Nishimasu)等人,《科学》,361(6408):1259-1262,2018)、xBE3([APOBEC1-16aa连接子-xCas9(D10A)-4aa连接子-UGI]胡(Hu)等人,《自然》,556,57–63,2018)、eA3A-BE3([APOBEC3A(N37G)-16aa连接子-Sp nCas9(D10A)-4aa连接子-UGI]给力克(Gerkhe)等人,《自然—生物技术》,10.1038/nbt.4199,2018)、A3A-BE3([hAPOBEC3A-16aa连接子-SpnCas9(D10A)-4aa连接子-UGI]王(Wang)等人,《自然—生物技术》10.1038/nbt.4198,2018)和BE-PLUS([10X GCN4-Sp nCas9(D10A)/ScFv-rAPOBEC1-UGI]江(Jiang)等人,《细胞研究(Cell.Res)》,10.1038/s41422-018-0052-4,2018)。对于BE复合物的其它实例，包括腺嘌呤脱氨酶碱基编辑器，参见里斯和刘《自然综述遗传学》2018年12月；19(12):770-788。

关于碱基编辑器的其它信息，参见US2018/0312825A1；WO2018/165629A；乌尔诺夫等人,《自然综述遗传学》2010；11(9):636-46；杨等人,《自然评论分子细胞生物学》2013；14(1):49-55；夏庞蒂埃(Charpentier)等人,《自然》；495(7439):50-1,2013；和里斯和刘,《自然综述遗传学》,19:770–788,2018。

(IV-f)小RNA

小RNA为在调控基因表达中起一定作用的短的非编码RNA分子。在特定实施例中，小RNA长度小于200个核苷酸。在特定实施例中，小RNA的长度小于100个核苷酸。在特定实施例中，小RNA的长度小于50个核苷酸。在特定实施例中，小RNA的长度小于20个核苷酸。小RNA包括但微RNA(miRNA、Piwi相互作用RNA(piRNA)、小干扰RNA(siRNA)、小核仁RNA(snoRNA)、tRNA衍生的小RNA(tsRNA)、小rDNA衍生的RNA(srRNA)和小核RNA。继续有待发现额外类别的小RNA。

在特定实施例中，与目标mRNA同源的干扰RNA分子可引起其降解，这是一种称为RNA干扰(RNAi)的过程(卡休(Carthew),《细胞生物学当前观点(Curr.Opin.Cell.Biol.)》13:244-248,2001)。RNAi天然出现在细胞中以去除外来RNA(例如病毒RNA)。天然RNAi经由从游离双股RNA(dsRNA)裂解的片段进行，其将降解机制引导到其它类似的RNA序列。或者，RNAi可被制造成例如使目标基因的表达沉默。示例性RNAi分子包括小发夹RNA(shRNA，又称为短发夹RNA)和小干扰RNA(siRNA)。

不限制本公开，且不受理论束缚，RNA干扰通常为两步过程。在起始步骤第一步骤中，输入dsRNA可能在切丁酶(dsRNA特异性核糖核酸酶的核糖核酸酶(RNA酶)III家族的一员)的作用下消化成21-23个核苷酸(nt)siRNA，这以ATP依赖性方式加工(裂解)dsRNA(直接或经由转基因或病毒引入)。连续的裂解事件使RNA降解成19-21个碱基对(bp)双螺旋体(siRNA)，每一者具有2个核苷酸的3'悬垂物(胡特瓦格纳(Hutvagner)和扎莫尔(Zamore),《当代遗传学与发育观点(Curr.Opin.Genet.Dev.)》12:225-232,2002；伯恩斯坦(Bernstein),《自然》409:363-366,2001)。

在效应子步骤中，siRNA双螺旋体结合于核酸酶复合物以形成RNA诱导的沉默复合物(RISC)。siRNA双螺旋体的ATP依赖性解开是RISC活化所需的。活性RISC随后通过碱基配对相互作用靶向同源转录物，且通常将mRNA从siRNA的3'端裂解成12个核苷酸的片段(胡特瓦格纳和扎莫尔,《当代遗传学与发育观点》12:225-232,2002；哈蒙德(Hammond)等人,《自然综述遗传学(Nat.Rev.Gen.)》2:110-119,2001；夏普(Sharp),《基因与发育》15:485-490,2001)。研究指示各RISC含有单一siRNA和RNA酶(胡特瓦格纳和扎莫尔,《当代遗传学与发育观点》12:225-232,2002)。

由于RNAi的效力显著，所以已提出RNAi通路内的扩增步骤。扩增可通过复制将产生更多siRNA的输入dsRNA或通过复制所形成的siRNA来进行。或者或另外，扩增可由RISC的多个转换事件实现(胡特瓦格纳和扎莫尔,《当代遗传学与发育观点》12:225-232,2002；哈蒙德等人,《自然综述遗传学》2:110-119,2001；夏普,《基因与发育(Genes.Dev.)》15:485-490,2001)。RNAi还描述了于涂许尔(Tuschl)(《化学与生物化学(Chem.Biochem.)》2:239-245,2001)；库伦(Cullen)(《自然-免疫学(Nat.Immunol.)》3:597-599,2002)；和布兰特尔(Brantl)(《生物化学与生物物理文献(Biochem.Biophys.Act.)》1575:15-25,2002)。

适用于本公开的RNAi分子的合成可如下进行。首先，可在靶向转基因的起始密码子下游扫描mRNA序列。每个AA和3'相邻19个核苷酸的出现记录为潜在的siRNA目标位点。在特定实施例中，siRNA目标位点可选自开放阅读框，因为未翻译区(UTR)在调控蛋白结合位点较丰富。UTR结合蛋白和/或翻译起始复合物可能干扰siRNA核酸内切酶复合物的结合(涂许尔,《化学与生物化学》2:239-245,2001)。然而，应了解，引导在未翻译区处的siRNA也是有效的，如针对甘油醛3-磷酸酯脱氢酶(GAPDH)所展现，其中引导在5'UTR的siRNA介导细胞GAPDH mRNA降低90％且完全消除蛋白质含量。其次，可使用任何序列比对软件，例如可获自国家生物技术信息中心(the National Center for Biotechnology Information，NCBI)服务器的碱基局部比对检索工具(BLAST)软件，将潜在的目标位点与适当基因组数据库相比较。可滤出展现与其它编码序列明显同源性的假定目标位点。

可选择鉴定的目标序列作为siRNA合成的模板。所选序列可包括具有低G/C含量的序列，因为已显示这些序列相比于具有高于55％的G/C含量的那些序列在介导基因沉默方面更有效。可沿着目标基因的长度选择几种目标位点以便进行评估。为了更好地评估所选siRNA，可使用阴性对照。阴性对照siRNA可包括与siRNA相同但与基因组缺乏显著同源性的核苷酸组成。因此，可使用siRNA的加扰核苷酸序列，限制条件为其不显示与其它基因的任何显著同源性。

基于所选部分的序列设计有义链。反义链通常与有义链长度相同且包括互补核苷酸。在特定实施例中，当对准或粘接时，股完全互补且形成平端。在其它实施例中，股对准或粘接以使得产生1个核苷酸、2个核苷酸或3个核苷酸的悬垂物，即有义链的3'末端比反义链的5'末端延伸远1、2或3个核苷酸，和/或反义链的3'末端比有义链的5'末端延伸远1、2或3个核苷酸。悬垂物可包括对应于目标基因序列(或其互补序列)的核苷酸。或者，悬垂物可包括脱氧核糖核苷酸，例如脱氧胸腺嘧啶(dT)或核苷酸类似物或其它适合的非核苷酸物质。

为了促进反义链进入RISC(且因此提高或改良目标裂解和沉默的效率)，有义链的5'末端与反义链的3'末端之间的碱基对强度可改变，例如减轻或减少。在特定实施例中，碱基对强度因第一或反义链的5'末端与第二或有义链的3'末端之间的G:C碱基对比第一或反义链的3'末端与第二或有义链的5'末端之间的G:C碱基对少而较小。在特定实施例中，碱基对强度因第一或反义链的5'末端与第二或有义链的3'末端之间的至少一个错配碱基对而较小。优选地，错配碱基对选自包括G:A、C:A、C:U、G:G、A:A、C:C和U:U的群组。在另一实施例中，碱基对强度因第一或反义链的5'末端与第二或有义链的3'末端之间的至少一个摆动碱基对(例如G:U)而较小。在另一实施例中，碱基对强度因至少一个包括例如肌苷(I)的罕见核苷酸的碱基对而较小。在特定实施例中，碱基对选自包括I:A、I:U和I:C的群组。在另一实施例中，碱基对强度因至少一个包括修饰的核苷酸的碱基对而较小。在特定实施例中，修饰的核苷酸选自例如2-氨基-G、2-氨基-A、2,6-二氨基-G和2,6-二氨基-A。

shRNA是具有发夹环结构的单股多核苷酸。该单股多核苷酸具有连接双股区域中的一股的3'末端和双股区域中的另一股的5'末端的环区段。双股区域由可与目标序列杂交的第一序列(例如编码转基因的多核苷酸)和与第一序列互补的第二序列形成，因此第一序列和第二序列形成连接序列连接末端以形成发夹环结构的双股区域。第一序列可与编码转基因的多核苷酸的任何部分杂交。shRNA的双股茎结构域可包括限制性核酸内切酶位点。

shRNA的转录在聚合酶III(Pol III)启动子处起始，且认为在4-5-胸腺嘧啶转录终止位点的位置2处终止。在表达时，认为shRNA折叠成具有3'UU-悬垂物的茎环结构；随后，加工这些shRNA的末端，将shRNA转化为21-23个核苷酸的siRNA样分子(布洛姆坎普(Brummelkamp)等人,《科学》.296(5567):550-553,2002；李(Lee)等人,《自然—生物技术》20(5):500-505,2002；宫岸(Miyagishi)和平氏(Taira),《自然—生物技术》20(5):497-500,2002；帕迪森(Paddison)等人,《基因与发育(Genes&Dev.)》16(8):948-958,2002；保罗(Paul)等人,《自然—生物技术》20(5):505-508,2002；隋(Sui),《美国国家科学院院刊》.99(6):5515-5520,2002；余(Yu)等人,《美国国家科学院院刊》.99(9):6047-6052,2002)。

shRNA的茎环结构可具有任选的核苷酸悬垂物，例如2-bp悬垂物，例如3'UU悬垂物。虽然可能存在变化，但茎通常在15至49、15至35、19至35、21至31bp或21至29bp范围内，且环可在4至30bp，例如4至23bp范围内。在特定实施例中，shRNA序列包括45-65bp；50-60bp；或51、52、53、54、55、56、57、58或59bp。在特定实施例中，shRNA序列包括52或55bp。在特定实施例中，siRNA具有15-25bp。在特定实施例中，siRNA具有16、17、18、19、20、21、22、23或24bp。在特定实施例中，siRNA具有19bp。然而，所属领域的技术人员应了解，长度小于16个核苷酸或大于24个核苷酸的siRNA也可用于介导RNAi。已证实较长RNAi剂在某些哺乳动物细胞中引起可能不合需要的干扰素或蛋白激酶R(PKR)反应。RNAi剂优选不引起PKR反应(即具有足够短的长度)。然而，较长RNAi剂适用于例如PKR反应已通过替代方式下调或减弱的情况。

小RNA还可用于活化基因表达。

(IV-g)特定编码序列与特定LCR的配对

本公开包括以下认识：LCR，例如长LCR可控制可操作地连接的编码核酸序列的表达(例如表达的量或细胞类型特异性)。表1中提供了与本公开的特定LCR相关的示例性表达模式(例如细胞类型和/或组织类型)。因此，在各种实施例中，转位子负载可包括与编码用于在已知LCR驱动表达的一种或一种以上细胞或组织类型中表达的产物的编码核酸序列可操作地连接的LCR，例如长LCR。仅举几个实例，本公开表达的转位子负载可包括：(i)β-球蛋白LCR，其与编码用于在红血球(例如造血干细胞)中表达的蛋白质的编码序列可操作地连接；(2)免疫球蛋白重链LCR，其与编码用于在B细胞中表达的蛋白质的编码序列可操作地连接；或(3)T细胞受体α/δLCR或CD2 LCR，其与编码用于在T细胞中表达的蛋白质的编码序列可操作地连接。举例来说，用于在造血干细胞中表达的蛋白质可为用于治疗选自地中海贫血、镰状细胞贫血症或血友病的病症的蛋白质；用于在B细胞中表达的蛋白质可为抗体，例如治疗性抗体；且用于在T细胞中表达的蛋白质可为T细胞受体(TCR)，例如工程化的TCR或嵌合抗原受体(CAR)。因此，本公开尤其包括：(i)β-球蛋白LCR，其与编码能够部分或完全功能上替换γ-球蛋白、β-球蛋白或第八因子的蛋白质的编码序列或用于校正引起镰状细胞贫血症的突变的基因编辑CRISPR-Cas可操作地连接；(2)免疫球蛋白重链LCR，其与编码抗体的编码序列可操作地连接；或(3)T细胞受体α/δLCR或CD2 LCR，其与编码TCR或CAR的编码序列可操作地连接。

(V)转位酶

转位酶是指作为能够转位且介导转位的功能性核酸-蛋白质复合物的组分的酶。转位酶还指来自逆转录转位子或逆转录病毒来源的整合酶。转位反应包括转位酶和转位酶或整合酶。在特定实施例中，整合效率、可整合的DNA序列的尺寸和可整合到基因组中的DNA序列的拷贝数目可通过使用这类可转位元件改良。转位子包括在DNA的较大区段上游和下游具有末端重复序列的短核酸序列。转位酶结合末端重复序列且催化转位子移动到基因组的另一部分。

(V-a)睡美人转位酶SB100x的使用

睡美人(SB)是源自鲑鱼的基因组的转位酶。SB描述于爱维斯(Ivics)等人,《细胞》91,501-510,1997；伊兹维克(Izsvak)等人,《分子生物学杂志》,93-102,302(1),2000；戈伊茨(Geurts)等人,《分子疗法(Molecular Therapy)》,8(1):108-117,2003；梅兹(Mates)等人,《自然·遗传学》41,753-761,2009；以及美国专利第6,489,458号；第7,148,203号；和第7,160,682号；美国公开案第2011/117072号；第2004/077572号；和第2006/252140号。

已进行系统突变诱发研究以增加SB转位酶的活性。举例来说，扬特等人进行SB转位酶的N端95AA与丙氨酸的系统交换(《分子细胞生物学》24:9239-9247,2004)。这些取代中的十个相比于作为参考的SB10引起200％-400％之间的过度活性。鲍斯(Baus)等人,《分子疗法》12:1148-1156,2005)中所述的SB16据报告与SB10相比活性增加16倍。额外的活性过高SB变体描述于扎耶德(Zayed)等人(《分子疗法》,9(2):292-304,2004)和美国专利第9,840,696号中。在筛选SB转位酶的几种变体之后，发现SB100X比第一代转位酶有效100倍。

SB转位子进行转位需要环化(扬特等人,《自然—生物技术》,20:999-1005,2002)。此外，对于1.9kb与7.2kb之间的转位子，在转位子的长度与转位频率之间存在反线性关系。换句话说，SB转位酶介导较大转位子的递送的效率低于较小转位子(戈伊茨等人,《分子疗法》,8(1):108-17,2003)。

(V-a-i)反向重复序列和位置

在特定实施例中，编码睡美人的IR(反向重复序列)/DR(正向重复序列)和染色体序列的序列包括SEQ ID NO:66。在特定实施例中，编码睡美人的IR/DR和染色体序列的序列包括SEQ ID NO:67。在特定实施例中，睡美人的IR/DR编码序列包括SEQ ID NO:68。在特定实施例中，编码睡美人的IR/DR和染色体序列的序列包括SEQ ID NO:69。在特定实施例中，编码睡美人的IR/DR和染色体序列的序列包括SEQ ID NO:70。在特定实施例中，编码睡美人的IR/DR的序列包括SEQ ID NO:71。在特定实施例中，编码睡美人的IR/DR和染色体序列的序列包括SEQ ID NO:72。在特定实施例中，编码睡美人的IR/DR的序列包括SEQ ID NO:73。

(V-a-ii)转位酶序列

在某些实施例中，睡美人转位酶具有序列SEQ ID NO:74。

在某些实施例中，过度活跃睡美人为SB100X。在特定实施例中，SB100X具有序列SEQ ID NO:75。

(V-b)其它转位酶

除SB以外，所属领域中已经描述了多种转位酶，其促进核酸插入脊椎动物(包括人)的基因组中。这类转位酶的实例包括piggyBac^TM(例如来源于鳞翅目(lepidopteran)细胞和/或小棕蝠(Myotis lucifugus))；mariner(例如来源于果蝇(Drosophila))；frogprince(例如来源于北美豹蛙(Rana pipiens))；Tol1；Tol2(例如来源于青鳉鱼(medakafish))；TcBuster^TM(例如来源于红粉甲虫赤拟谷盗(Tribolium castaneum))、Helraiser、Himar1、Passport、Minos、Ac/Ds、PIF、Harbinger、Harbinger3-DR、HSmar1和spinON。

(V-b-i)组分和序列

piggyBac^TM(PB)转位酶为例如以下中描述的紧凑型功能性转位酶蛋白：弗雷泽(Fraser)等人,《昆虫分子生物学》,5:141-51,1996；密特拉(Mitra)等人,《欧洲分子生物学学会杂志》27:1097-1109,2008；丁(Ding)等人,《细胞》,122:473-83,2005；以及美国专利第6,218,185号、第6,551,825号、第6,962,810号、第7,105,343号和第7,932,088号。过度活性piggyBac^TM转位酶描述于美国专利第10,131,885号中。

在特定实施例中，PB转位酶具有如SEQ ID NO:76(GenBank ABS12111.1)中所阐述的序列。

在特定实施例中，Frog Prince转位酶具有如SEQ ID NO；77(GenBank:AAP49009.1)中所阐述的序列。还参见US2005/0241007。

在特定实施例中，TcBuster转位酶具有如SEQ ID NO:78(GenBank:ABF20545.1)中所述的序列。

在特定实施例中，Tol2转位酶具有如SEQ ID NO:79(GenBank:BAA87039.1)中所述的序列。

关于DNA转位子的额外信息可见于例如穆尼奥斯-洛佩斯

和加西亚佩雷斯(García Pérez),《当代基因组学》,11(2):115-128,2010中。

(VI)调控组件

术语“调控组件”包括启动子、增强子、转录终止信号、聚腺苷酸化序列和其它表达控制序列。本发明中所提及的调控组件包括控制核酸序列宿主细胞的表达的那些调控组件。

(VI-a)启动子

启动子为非编码基因组DNA序列，通常在相关编码序列上游(5')，RNA聚合酶在起始转录之前结合其。这一结合将RNA聚合酶对准以使得转录将在特定转录起始位点起始。启动子的核苷酸序列决定酶和其它附接到其的相关蛋白质因子的性质和RNA合成速率。RNA进行加工以产生信使RNA (mRNA)，其充当用于将RNA序列翻译为所编码多肽的氨基酸序列的模板。5'未翻译的前导序列为可在mRNA起始和翻译中起一定作用的在编码区上游的mRNA区域。3'转录终止/聚腺苷酸化信号是在植物细胞中起作用以引起RNA合成终止和聚腺苷酸化核苷酸添加至3'末端的在编码区下游的未翻译区。

启动子可包括通用启动子、组织特异性启动子、细胞特异性启动子和/或对细胞质具有特异性的启动子。启动子可包括强启动子、弱启动子、组成性表达启动子和/或诱导性(条件性)启动子。诱导性启动子响应于某些条件、信号或细胞事件来控制表达。举例来说，启动子可为诱导性启动子，其需要特定配体、小分子、转录因子或激素蛋白来实现从启动子转录。启动子的特定实例包括AFP(α-胎蛋白)启动子、淀粉酶1C启动子、水孔蛋白-5(AP5)启动子、αl-抗胰蛋白酶启动子、β-act启动子、β-球蛋白启动子、β-Kin启动子、B29启动子、CCKAR启动子、CD14启动子、CD43启动子、CD45启动子、CD68启动子、CEA启动子、c-erbB2启动子、CMV(巨细胞病毒)启动子、minCMV启动子、COX-2启动子、CXCR4启动子、肌间线蛋白启动子、E2F-1启动子、EF1α(延伸因子lα)启动子、EGR1启动子、eIF4A1启动子、弹性蛋白酶-1启动子、内皮因子启动子、FerH启动子、FerL启动子、纤维结合蛋白启动子、Flt-1启动子、GAPDH启动子、GFAP启动子、GPIIb启动子、GRP78启动子、GRP94启动子、HE4启动子、hGR1/1启动子、hNIS启动子、Hsp68启动子、Hsp68最小启动子、HSP70启动子、HSV-1病毒TK基因启动子、hTERT启动子、ICAM-2启动子、胰舒血管素启动子、LP启动子、主要晚期启动子(MLP)、Mb启动子、ρ启动子、MT(金属硫蛋白)启动子、MUC1启动子、NphsI启动子、OG-2启动子、PGK(磷酸化甘油酸酯激酶)启动子、PGK-1启动子、聚合酶III(Pol III)启动子、PSA启动子、ROSA启动子、劳氏肉瘤病毒(RSV)长末端重复(LTR)启动子、SP-B启动子、存活素启动子、SV40(猿猴病毒40)启动子、SYN1启动子、SYT8基因启动子、TRP1启动子、Tyr启动子、泛素B启动子和WASP启动子。

(VI-a-i)启动子来源

启动子可呈天然启动子或复合启动子形式获得。天然启动子或最小启动子是指包括来自给定基因的5'区域的核苷酸序列的启动子。天然启动子包括核心启动子和其天然5'UTR。在特定实施例中，5'UTR包括内含子。复合启动子是指通过组合不同来源的启动子元件或通过组合远端增强子与相同或不同来源的最小启动子而得到的启动子。

(VI-a-ii)示例性启动子的序列和序列的变体

在特定实施例中，SV40启动子包括SEQ ID NO:80中所示的序列。在特定实施例中，dESV40启动子(缺失增强子区域的SV40启动子)包括SEQ ID NO:81中所示的序列。在特定实施例中，人端粒酶催化亚基(hTERT)启动子包括SEQ ID NO:82中所示的序列。在特定实施例中，来源于施密特-鲁平A株(Schmidt-Ruppin A strain)的RSV启动子包括SEQ ID NO:83中所示的序列。在特定实施例中，hNIS启动子包括SEQ ID NO:84中所示的序列。在特定实施例中，人糖皮质激素受体1A(hGR 1/Ap/e)启动子包括SEQ ID NO:85中所示的序列。

在特定实施例中，启动子包括野生型启动子序列和相对于野生型启动子在某些位置具有任选的变化(包括插入、点突变或缺失)的序列。在特定实施例中，启动子与天然存在的启动子的不同之处在于每20个核苷酸延伸段具有1个变化、每20个核苷酸延伸段具有2个变化、每20个核苷酸延伸段具有3个变化、每20个核苷酸延伸段具有4个变化或每20个核苷酸延伸段具有5个变化。在特定实施例中，天然序列将在1、2、3、4、5、6、7、8、9或10个碱基中改变。启动子的长度可变化，包括LTR序列的约50个核苷酸至LTR序列的100、200、250或350个核苷酸，具有或不具有其它病毒序列。

(VI-a-iii)启动子的表达模式

一些启动子对组织或细胞具有特异性且一些启动子对组织或细胞不具特异性。哺乳动物细胞中的每个基因具有其自身启动子且一些启动子只能在某些细胞类型中活化。非特异性启动子或普遍存在的启动子有助于起始在广泛范围的细胞、组织和细胞周期中与启动子序列可操作地连接的基因或核苷酸序列的转录。在特定实施例中，启动子为非特异性启动子。在特定实施例中，非特异性启动子包括CMV启动子、RSV启动子、SV40启动子、哺乳动物延伸因子1α(EF1α)启动子、β-act启动子、EGR1启动子、eIF4A1启动子、FerH启动子、FerL启动子、GAPDH启动子、GRP78启动子、GRP94启动子、HSP70启动子、β-Kin启动子、PGK-1启动子、ROSA启动子和/或泛素B启动子。

特异性启动子有助于与启动子序列可操作地连接的核苷酸序列的细胞特异性表达。在特定实施例中，特异性启动子在B细胞、单核细胞、白血球、巨噬细胞、胰腺腺泡细胞、内皮细胞、星形胶质细胞和/或任何其它细胞类型或细胞周期中具活性。在特定实施例中，启动子为特异性启动子。在特定实施例中，SYT8基因启动子调控人类胰岛中的基因表达(徐(Xu)等人,《自然-结构和分子生物学(Nat Struct Mol Biol.)》,2011,18:372-378)。在特定实施例中，胰舒血管素启动子调控导管细胞特异性唾液腺中的基因表达。在特定实施例中，淀粉酶1C启动子调控腺泡细胞中的基因表达。在特定实施例中，水孔蛋白-5(AP5)启动子调控腺泡细胞中的基因表达(郑(Zheng)和鲍姆(Baum),《分子生物学方法(《分子生物学方法》.)》,434:205-219,2008)。在特定实施例中，B29启动子调控B细胞中的基因表达。在特定实施例中，CD14启动子调控单核细胞中的基因表达。在特定实施例中，CD43启动子调控白血球和血小板中的基因表达。在特定实施例中，CD45启动子调控造血细胞中的基因表达。在特定实施例中，CD68启动子调控巨噬细胞中的基因表达。在特定实施例中，肌间线蛋白启动子调控肌肉细胞中的基因表达。在特定实施例中，弹性蛋白酶-1启动子调控胰腺腺泡细胞中的基因表达。在特定实施例中，内皮因子启动子调控内皮细胞中的基因表达。在特定实施例中，纤维结合蛋白启动子调控分化细胞或愈合组织中的基因表达。在特定实施例中，Flt-1启动子调控内皮细胞中的基因表达。在特定实施例中，GFAP启动子调控星形胶质细胞中的基因表达。在特定实施例中，GPIIb启动子调控巨核细胞中的基因表达。在特定实施例中，ICAM-2启动子调控内皮细胞中的基因表达。在特定实施例中，Mb启动子调控肌肉中的基因表达。在特定实施例中，NphsI启动子调控足细胞中的基因表达。在特定实施例中，OG-2启动子调控成骨细胞、生齿细胞中的基因表达。在特定实施例中，SP-B启动子调控肺细胞中的基因表达。在特定实施例中，SYN1启动子调控神经元中的基因表达。在特定实施例中，WASP启动子调控造血细胞中的基因表达。

在特定实施例中，启动子为肿瘤特异性启动子。在特定实施例中，AFP启动子调控肝细胞癌中的基因表达。在特定实施例中，CCKAR启动子调控胰腺癌中的基因表达。在特定实施例中，CEA启动子调控上皮细胞癌中的基因表达。在特定实施例中，c-erbB2启动子调控乳腺癌和胰腺癌中的基因表达。在特定实施例中，COX-2启动子调控肿瘤中的基因表达。在特定实施例中，CXCR4启动子调控肿瘤中的基因表达。在特定实施例中，E2F-1启动子调控肿瘤中的基因表达。在特定实施例中，HE4启动子调控肿瘤中的基因表达。在特定实施例中，LP启动子调控肿瘤中的基因表达。在特定实施例中，MUC1启动子调控癌细胞中的基因表达。在特定实施例中，PSA启动子调控前列腺和前列腺癌中的基因表达。在特定实施例中，存活素启动子调控肿瘤中的基因表达。在特定实施例中，TRP1启动子调控黑色素细胞和黑色素瘤中的基因表达。在特定实施例中，Tyr启动子调控黑色素细胞和黑色素瘤中的基因表达。

(VI-b)微RNA位点

在各种实施例中，微RNA控制系统可指其中基因表达由微RNA位点(例如微RNA可进行相互作用的核酸序列)的存在调控的方法或组合物。在特定实施例中，微RNA控制系统调控基因表达以使得基因只在目标细胞(例如HSPC，例如肿瘤浸润性HSPC)中表达。在一些实施例中，编码所关注蛋白质或核酸(例如抗癌剂，例如CAR、TCR、抗体和/或检查点抑制剂，例如作为检查点抑制剂的αPD-L1抗体(例如αPD-L1γ1抗体))的核酸(例如治疗性基因)包括一个微RNA位点、多个相同的微RNA位点或多个不同的微RNA位点，与之相关联，或可操作地与之连接。尽管所属领域的技术人员将熟悉使微RNA位点与具有编码所关注基因的序列的核酸或其部分相关联的手段和技术，但本文提供了某些非限制性实例。举例来说，所关注基因(例如编码αPD-L1γ1抗体的序列)可存在于核酸中，使得所关注基因的表达由一个或一个以上抑制在非肿瘤浸润白血球的细胞中表达但不抑制在肿瘤浸润性白血球中表达的微RNA位点的存在调控。在某些特定实例中，所关注基因(例如编码αPD-L1γ1抗体的序列)可存在于核酸中，使得所关注基因的表达由一个或一个以上抑制在非肿瘤浸润白血球的细胞中表达但不抑制在肿瘤浸润性白血球中表达的miR423-5p微RNA位点的存在调控。在各种实施例中，微RNA控制系统可包括包含一个或一个以上微RNA位点，例如1、2、3、4、5、6、7、8、9、10或更多个微RNA位点或其中所关注蛋白质或核酸的表达由该一个或一个以上微RNA位点调控的核酸。在各种实施例中，微RNA控制系统可包括包含一个或一个以上miR423-5p微RNA位点，例如1、2、3、4、5、6、7、8、9、10或更多个miR423-5p微RNA位点或其中所关注蛋白质或核酸的表达由该一个或一个以上miR423-5p微RNA位点调控的核酸。在一些特定实施例中，微RNA控制系统可包括编码αPD-L1γ1抗体且包括一个或一个以上miR423-5p微RNA位点，例如1、2、3、4、5、6、7、8、9、10或更多个miR423-5p微RNA位点，例如miR423-5p微RNA位点或其中αPD-L1γ1抗体的表达由该一个或一个以上miR423-5p微RNA位点调控的核酸。

(VI-c)特定调控组件、特定编码序列和/或特定长LCR的配对

本公开的转位子负载可包括与编码核酸序列(例如编码蛋白质的核酸序列)可操作地连接的LCR，例如长LCR，其中该编码核酸序列还与启动子可操作地连接。在各种实施例中，转位子负载包括与(i)LCR和(ii)在人类基因组中通常与LCR可操作地连接的启动子两者可操作地连接的编码核酸序列。换句话说，转位子负载可包括LCR以及其天然配对的启动子，其中两者一起驱动编码核酸序列的表达。在各种实施例中，与LCR天然配对的启动子为表2中所示的启动子。在各种实施例中，启动子为紧邻在人类基因组中与LCR天然配对的编码序列的起始密码子上游的核酸序列，例如包括例如在参考基因组中紧邻起始密码子上游的100bp、200bp、300bp、400bp、500bp、1,000bp、1,500bp、2,000bp、3,000bp、4,000bp、5,000bp或更多个核苷酸的核酸序列。在各种实施例中，启动子为一种核酸序列，其包括包含紧邻在人类基因组中与LCR天然配对的编码序列的起始密码子上游的例如100bp-5,000bp、100bp-4,000bp、100bp-3,000bp、100bp-2,000bp、100bp-1,000bp、1,000bp-5,000bp、1,000bp-4,000bp、1,000bp-3,000bp或1,000bp-2,000bp的核酸序列。在各种实施例中，在人类基因组中与LCR天然配对的编码序列为表1或表2中所示的编码序列。

在各种实施例中，转位子负载包括与(i)LCR和(ii)在人类基因组中通常不与LCR可操作地连接的启动子两者可操作地连接的编码核酸序列。本公开涵盖以下认识：LCR可能已经在特定情形下进化，但可用于控制其在人类基因组中通常不会可操作地连接的编码核酸序列的表达和/或驱动表达也由在人类基因组中LCR通常不相关联的启动子驱动的编码核酸序列的表达。因此，LCR可与其天然可操作地连接的启动子和/或基因配对(例如在包括与编码β-球蛋白或γ-球蛋白的编码核酸序列可操作地连接的β-球蛋白LCR以及β-球蛋白启动子的转位子负载中)，或可与其天然不可操作地连接的启动子和/或基因配对(例如，与编码第八因子替代、例如ET3的编码核酸序列可操作地连接的β-球蛋白LCR)。

表2

(VII)载体(VII-a)可进行最佳化以改良大负载整合的载体特征

腺病毒基因组是长度在26kb至45kb范围内的线性非分段双股DNA，视血清型而定。腺病毒DNA在两端由反向末端重复序列(ITR)侧接，所述反向末端重复序列充当自引物以促进非引发酶依赖性DNA合成且促进整合到宿主基因组中。腺病毒基因组还含有包装信号，其促进适当病毒转录物包装且位于基因组的左臂上。病毒转录物编码几种蛋白质，包括早期转录单元E1、E2、E3和E4，和编码Ad病毒体的结构性组分的晚期转录单元(李(Lee)等人,《基因疾病》,4(2):43-63,2017)。

腺病毒是大的二十面体非包膜病毒。病毒衣壳包括三种类型的蛋白质，包括基于纤维、五邻体和六邻体的蛋白质。六邻体构成病毒衣壳的大部分，形成20个三角形面。五邻体底部位于衣壳的12个顶点处且纤维(又称为鼓起纤维)从每个五邻体底部突出。这些蛋白质、五邻体和纤维在受体结合和内化方面尤为重要，因为其促进衣壳附接到宿主细胞(李等人,《基因疾病》,4(2):43-63,2017)。

腺病毒由于其稳定且安全的基因组而尤其适合于基因疗法。相比于单股DNA或RNA病毒，Ad载体的双股特征增加载体稳定性并减少遗传漂变(genetic shift)或偏移。为了减少DNA复制期间的误差，Ad载体使用校对DNA聚合酶。此外，Ad载体不将其DNA与宿主的基因组整合，而是将游离型DNA转移到宿主细胞的细胞核。

Ad载体还容易进行基因修饰且已经对修饰进行研究以进一步改良其在基因疗法中的用途。

(VII-b)血清型和假型

人类腺病毒(Ad)分为含有超过50种血清型的六个子组。所述组标记为A至F。组BAd包括Ad3、Ad7、Ad11、Ad14、Ad16、Ad21、Ad34、Ad 35和Ad50。Ad5分至C组。因为存在超过50种人类Ad血清型，Ad载体可被修饰成靶向所关注的不同宿主细胞。不同的Ad血清型结合于不同的细胞受体且使用不同的进入机制。

不同Ad血清型的感染性限于许多人细胞系。感染性研究显示，Ad5和Ad3尤其适用于感染和靶向内皮细胞或淋巴细胞，而Ad9、Ad11和Ad35高效地感染人骨髓细胞。因此，Ad9、Ad11和Ad35的纤维蛋白质的旋钮结构域是将Ad5载体再靶向到人骨髓细胞的极佳候选物。其它可能的血清型包括Ad7。

在特定实施例中，Ad载体为重组载体。在特定实施例中，Ad5/35为表达包括Ad5的纤维尾结构域和Ad35的纤维轴和旋钮结构域的修饰的纤维蛋白的重组Ad5载体。在特定实施例中，Ad载体选自Ad5、Ad35、Ad5/35、Ad5/35++或Ad35++。

在特定实施例中，Ad载体包括编码CD46结合腺病毒纤维多肽的核酸。纤维多肽是指包括以下的多肽：(a)N端尾结构域或其同等物，其与衣壳的五邻体底部蛋白相互作用且含有蛋白质转运到细胞核所需的信号；(b)一个或一个以上轴结构域或其同等物；和(c)C端旋钮结构域或其同等物，其含有用于受体结合的决定子。能够形成结合于CD46的同源三聚体的纤维多肽C端结构域称为纤维旋钮。纤维蛋白的C端部分可二聚且形成结合于CD46的纤维结构。CD46靶向仅需要纤维旋钮。因此，第二核酸模块编码包括一个或一个以上结合于CD46的人类腺病毒旋钮结构域或其同等物的腺病毒纤维。当编码多个旋钮结构域时，旋钮结构域可相同或不同，只要其各自结合于CD46即可。如本文所用，旋钮结构域“功能同等物”是具有一个或一个以上氨基酸缺失、取代或添加的保持结合于CD34+细胞表面上的CD46的旋钮结构域。

腺病毒纤维多肽还包括轴结构域。轴结构域对于CD46结合来说并非关键。在特定实施例中，轴结构域可包括一个或一个以上来自不同人类Ad血清型的轴结构域。在特定实施例中，轴结构域可包括允许纤维旋钮三聚的轴结构域的任何部分或其突变体。在特定实施例中，轴结构域选自Ad5轴结构域、Ad35轴结构域和其功能同等物。如本文所用，轴结构域的功能同等物为允许纤维旋钮三聚的轴结构域的任何部分或其突变体。在存在超过1个轴结构域或同等物时，每个轴结构域或同等物可为一致的，或轴结构域的一个或一个以上拷贝或同等物在单一重组多肽中可不同。

腺病毒纤维多肽还包括尾结构域。腺病毒尾结构域或其突变体与衣壳的基于五邻体的蛋白质(在辅助Ad病毒上)相互作用且含有将蛋白质转运到细胞核所需的信号。所用尾结构域是将与用于产生HD-Ad的辅助Ad病毒衣壳的基于五邻体的蛋白质相互作用的尾部域。因此，如果使用Ad5辅助病毒，那么尾结构域将来源于Ad5；如果使用Ad35辅助病毒，则尾结构域将来自Ad 35等。

在特定实施例中，Ad载体包括Ad5/35载体。在特定实施例中，Ad5/35载体为具有Ad35纤维旋钮和Ad5轴的嵌合Ad载体。

在特定实施例中，Ad载体包括Ad5/35++载体。在特定实施例中，Ad5/35++载体为具有突变Ad35纤维旋钮的嵌合Ad5/35载体。使载体发生突变以使对CD46的亲和力增加25倍且使细胞转导效率在较低感染倍率(MOI)下增加(李(Li)和利伯(Lieber),《欧洲生物化学会联合会快报(FEBS Letters)》,593(24):3623-3648,2019)。

在特定实施例中，Ad载体包括Ad35载体。在特定实施例中，Ad35载体为具有Ad35纤维旋钮和轴的B类Ad载体。

在特定实施例中，Ad载体包括Ad35++载体。在特定实施例中，Ad35++载体为具有增强的Ad35纤维旋钮和Ad35轴的Ad35载体。

在特定实施例中，Ad载体包括Ad3、Ad7、Ad11、Ad14、Ad16、Ad21、Ad34或Ad50。

(VII-c)组件

在特定实施例中，载体包括含有负载、调控组件、整合元件、选择盒和填充序列的组件。

(VII-c-i)负载

在特定实施例中，载体包括负载(例如，转位子负载)。在特定实施例中，负载编码所关注基因。在特定实施例中，负载可包括用于表达的其它元件，例如内含子序列、信号序列、核定位序列、转录终止序列或用于起始IRES类型翻译的位点。负载的额外描述可见于本文中。

(VII-c-ii)调控组件

在特定实施例中，载体包括调控组件。在章节VI中更详细地描述调控组件。调控组件可包括增强子、启动子和调控基因表达的其它序列。

在特定实施例中，调控组件促进将编码负载的序列转录成RNA和/或将mRNA翻译成蛋白质。合适启动子包括例如真核或病毒来源的启动子。合适启动子可为组成型或可调控型(例如诱导型)。合适启动子的实例包括例如AFP(α-胎蛋白)启动子、淀粉酶1C启动子、水孔蛋白-5(AP5)启动子、αl-抗胰蛋白酶启动子、β-act启动子、β-球蛋白启动子、β-Kin启动子、B29启动子、CCKAR启动子、CD14启动子、CD43启动子、CD45启动子、CD68启动子、CEA启动子、c-erbB2启动子、CMV(巨细胞病毒)启动子、COX-2启动子、CXCR4启动子、肌间线蛋白启动子、E2F-1启动子、EF1α(延伸因子lα)启动子、EGR1启动子、eIF4A1启动子、弹性蛋白酶-1启动子、内皮因子启动子、FerH启动子、FerL启动子、纤维结合蛋白启动子、Flt-1启动子、GAPDH启动子、GFAP启动子、GPIIb启动子、GRP78启动子、GRP94启动子、HE4启动子、hGR1/1启动子、hNIS启动子、Hsp68启动子、HSP70启动子、HSV-1病毒TK基因启动子、hTERT启动子、ICAM-2启动子、胰舒血管素启动子、LP启动子、主要晚期启动子(MLP)、Mb启动子、ρ启动子、MT(金属硫蛋白)启动子、MUC1启动子、NphsI启动子、OG-2启动子、PGK(磷酸化甘油酸酯激酶)启动子、PGK-1启动子、聚合酶III(Pol III)启动子、PSA启动子、ROSA启动子、劳氏肉瘤病毒(RSV)长末端重复(LTR)启动子、SP-B启动子、存活素启动子、SV40(猿猴病毒40)启动子、SYN1启动子、SYT8基因启动子、TRP1启动子、Tyr启动子、泛素B启动子和WASP启动子。

(VII-c-iii)整合元件

多种SB转位酶是所属领域中已知的。所属领域中已知的SB转位酶的实例包括(但不限于)SB、SB11、SB12、HSB1、HSB2、HSB3、HSB4、HSB5、HSB13、HSB14、HSB15、HSB16、HSB17、SB100x和SB150x。在特定实施例中，本公开利用SB100x转位酶。在一些实施例中，可使用SB100x或SB150x转位酶。在一些实施例中，可使用任何SB转位酶。

SB转位酶将位于SB反向末端重复序列(ITR)之间的核酸转位子负载转位。多种SBITR是所属领域中已知的。在一些实施例中，SB ITR为230bp序列，包括长度为32bp的用作转位酶的识别信号的不完全正向重复序列。工程化的SB ITR是所属领域中已知的，包括称为pT、pT2、pT3、pT2B和pT4的SB ITR。在一些实施例中，使用pT4 ITR例如侧接本公开的转位子负载，例如用于由SB100x转位酶转位。

(VII-c-iv)选择元件

在特定实施例中，载体包括选择元件，其包括选择盒。在特定实施例中，选择盒包括启动子、添加对选择剂的抗性的cDNA和能够阻止该独立转录元件转录的多聚A序列。

选择盒可编码如下蛋白质：(a)赋予对抗生素或其它毒素的抗性，(b)补体营养缺陷性不足，或(c)供应无法从复杂培养基中获得的关键营养物，例如编码杆菌的D-丙氨酸消旋酶的基因。许多选择系统可用于回收转化的细胞系。在特定实施例中，阳性选择盒包括针对新霉素(neomycin)、潮霉素(hygromycin)、氨比西林(ampicillin)、嘌呤霉素(puromycin)、腐草霉素(phleomycin)、佐霉素(zeomycin)、杀稻瘟菌素(blasticidin)、紫霉素(viomycin)的抗性基因。在特定实施例中，阳性选择盒包括提供对甲氨蝶呤(methotrexate)的抗性的DHFR(二氢叶酸还原酶)基因、负责对O⁶BG/BCNU的抗性的MGMTP140K基因、负责HAT选择培养基中存在的特定碱基(氨基蝶呤(aminopterin)、次黄嘌呤、胸苷)的转化的HPRT(次黄嘌呤磷酸核糖转移酶)基因和关于一些药物的解毒的其它基因。在特定实施例中，选择剂包括新霉素、潮霉素、嘌呤霉素、腐草霉素、佐霉素、杀稻瘟菌素、紫霉素、安比西林、O⁶BG/BCNU、甲氨蝶呤、四环素、氨基蝶呤、次黄嘌呤、胸苷激酶、DHFR、Gln合成酶或ADA。

在特定实施例中，阴性选择盒包括用于将培养基中存在的底物转化为对表达基因的细胞有毒的物质的基因。这些分子包括白喉毒素(DTA)的解毒基因(雅吉(Yagi)等人,《分析生物化学》214(1):77-86,1993；柳川(Yanagawa)等人,《转基因研究(Transgenic Res.)》8(3):215-221,1999)、对更昔洛韦(ganciclovir)或FIAU的存在敏感的疱疹病毒的激酶胸苷基因(HSV TK)。通过添加6-硫代鸟嘌呤(6TG)到培养基中，HPRT基因也可用作阴性选择，且对于所有阳性和阴性选择，多聚A转录终止序列来自不同来源，最经典来源于SV40多聚A或真核基因多聚A(牛生长激素、兔β-球蛋白等)。

在特定实施例中，选择盒包括如欧兹科(Olszko)等人(《基因疗法》22:591-595,2015)中所述的MGMT P140K。在特定元件中，选择剂包括O⁶BG/BCNU。

编码人烷基鸟嘌呤转移酶(hAGT)的耐药性基因MGMT是赋予对烷基化剂(例如亚硝基脲(nitrosourea)和替莫唑胺(temozolomide，TMZ))的细胞毒性作用抗性的DNA修复蛋白。6-苄基鸟嘌呤(6-BG)是增强亚硝基脲毒性的AGT抑制剂，且与TMZ共投与以增强该药剂的细胞毒性作用。编码AGT的变体的MGMT的几种突变形式对通过6-BG进行的失活具有高度抗性，但保留其修复DNA损伤的能力(梅斯(Maze)等人,《药理及实验治疗杂志(J.Pharmacol.Exp.Ther.)》290:1467-1474,1999)。已展示了基于P140K^MGMT的抗药性基因疗法赋予小鼠、犬科动物、恒河猴和人细胞，尤其造血细胞化学保护(齐尔斯克(Zielske)等人,《临床检查杂志(J.Clin.Invest.)》112:1561-1570,2003；波洛克(Pollok)等人,《人类基因治疗(Hum.Gene Ther.)》14:1703-1714,2003；格鲁尔(Gerull)等人,《人类基因治疗》18:451-456,2007；内夫(Neff)等人,《血液》105:997-1002,2005；拉罗谢尔(Larochelle)等人,《临床检查杂志》119:1952-1963,2009；泽井(Sawai)等人,《分子治疗(Mol.Ther.)》3:78-87,2001)。

在特定实施例中，与体内选择盒组合将是在无基因校正的细胞的选择性优势下针对疾病的关键组分。举例来说，在SCID和一些其它免疫缺陷症和FA中，校正的细胞具有优势且仅将治疗性基因转导到“少数”HSPC中足以用于治疗功效。对于细胞未展现竞争优势的其它疾病，如血红蛋白病(即镰状细胞病和地中海贫血)，体内选择基因校正的细胞，例如与体内选择盒(例如MGMT P140K)组合，将选择少数转导的HSPC，使得能够增加基因校正的细胞且以便达成治疗功效。这一方法还可通过在体内使得HSPC对HIV具有抗性而非离体基因修饰来应用于HIV。

(VII-c-v)填充序列

在特定实施例中，载体包括填充序列。在特定实施例中，可添加填充序列以使得载体基因组的尺寸接近野生型长度。填充是所属领域中一般公认的术语，其旨在定义意图延伸长度的功能惰性序列。

填充序列用于实现载体的有效包装和稳定性。在特定实施例中，填充序列用于使得载体基因组尺寸在野生型病毒尺寸的70％与110％之间。

填充序列可以是任何DNA，优选为哺乳动物来源。在本发明的一优选实施例中，填充序列是哺乳动物来源的非编码序列，例如内含子片段。

当用于将载体的尺寸保持为预定尺寸时，填充序列可为允许载体基因组在分裂或非分裂细胞中保持稳定的任何非编码的编码序列。这些序列可来源于其它病毒基因组(例如埃-巴二氏病毒(Epstein bar virus))或生物体(例如酵母)。举例来说，这些序列可为着丝点和/或端粒的功能部分。

(VII-d)辅助病毒依赖型腺病毒载体

辅助病毒依赖型腺病毒载体(HDAd)被工程化成缺乏所有病毒编码序列，有效转导各种细胞类型，且可介导长期转基因表达且慢性毒性可忽略。病毒编码序列的缺失和仅留下载体基因组复制(ITR)和衣壳化(ψ)所需的顺式作用元件，减少针对Ad载体的细胞免疫反应。HDAd载体具有高达37kb的大克隆容量，允许递送大负载。这些负载可包括大治疗性基因或甚至多种转基因和大调控组件以增强、延长和调控转基因表达。与其它腺病毒载体相同，HDAd基因组保持游离且不与宿主基因组整合(罗斯韦尔(Rosewell)等人,《遗传综合征与基因治疗杂志(J Genet Syndr Gene Ther.)》增刊5:001,2011)。

在一些HDAd载体系统中，一种病毒基因组(辅助)编码复制所需的所有蛋白质但在包装序列中具有条件性缺陷，使得其不大可能包装成病毒体。第二病毒基因组仅包括病毒反向末端重复序列(ITR)、治疗性负载和正常包装序列，这允许该第二病毒基因组选择性地包装到HDAd病毒载体中并从生产细胞分离。HDAd病毒载体可通过物理手段从辅助载体进一步纯化。一般来说，HDAd病毒载体和HDAd病毒载体配制物中辅助载体和/或辅助基因组的一些污染可能发生且是容许的。

在一些HDAd载体系统中，辅助基因组利用Cre/loxP系统。在某些这类HDAd载体系统中，HDAd供体载体基因组包括500bp非编码腺病毒DNA，其包括载体基因组复制所需的腺病毒ITR，和作为载体基因组衣壳化到衣壳中所需的包装序列的ψ。还观察到，当HDAd供体载体基因组的总长度为约27.7kb至约37kb时，其可最有效地包装，该长度可由例如治疗性负载和或“填充”序列构成。HDAd供体载体基因组可递送到细胞，例如表达Cre重组酶的293细胞，任选地其中该HDAd供体载体基因组以非病毒载体形式，例如细菌质粒形式递送到细胞(例如其中HDAd供体载体基因组被构建为细菌质粒(pHDAd)且通过限制酶消化释放)。相同细胞可经辅助基因组转导，该辅助基因组可包括带有侧接loxP位点的包装序列的E1缺失的Ad载体，使得在表达Cre重组酶的293细胞感染之后，通过loxP位点之间的Cre介导的位点特异性重组从辅助基因组切除包装序列。因此，HDAd供体载体基因组可转染到293细胞中，所述细胞表达Cre且经带有侧接loxP位点的包装信号(ψ)的辅助基因组转导，使得Cre介导的ψ切除致使辅助病毒基因组无法包装，但仍能够提供用于HDAd传播必需的所有反式作用因子。在切除包装序列之后，辅助基因组无法包装，但仍能够进行DNA复制，因此反式补充HDAd供体载体基因组的复制和衣壳化。在一些实施例中，为了防止因293细胞中存在的辅助与HDAd供体载体基因组之间的同源重组而产生复制胜任型Ad(RCA；E1⁺)，可将“填充”序列插入到E3区中以使得任何E1⁺重组体太大而不能包装。已经使用FLP(例如FLPe)/frt位点特异性重组开发类似的HDAd产生系统，其中针对表达FLP的293细胞中辅助基因组的衣壳化进行选择侧接辅助基因组的包装信号的frt位点之间的FLP介导的重组。已开发出针对辅助载体选择的替代性策略。

HDAd5/35载体为具有Ad35纤维旋钮和Ad5轴的辅助病毒依赖型嵌合Ad5/35载体。HDAd5/35++载体为具有突变Ad35纤维旋钮的辅助病毒依赖型嵌合Ad5/35载体。使载体突变以使对CD46的亲和力增加25倍且使细胞转导效率在较低感染倍率(MOI)下增加(李和利伯,《欧洲生物化学会联合会快报》,593(24):3623-3648,2019)。HDAd35载体为辅助病毒依赖型Ad35载体。HDAd35++载体是具有增强其与CD46的亲和力且增加细胞转导效率的突变Ad35纤维旋钮的辅助病毒依赖型Ad35载体。

(VII-e)载体靶向细胞类型(和载体分子目标)

(VII-e-i)HSC

在特定实施例中，载体靶向细胞类型包括造血干细胞(HSC)。HSC通过结合CD46而靶向以进行体内基因修饰。载体可包括增加CD46结合的特异性和/或强度的突变。HSC还可通过以下标志物概况鉴别：CD34+、Lin-CD34+CD38-CD45RA-CD90+CD49f+(HSC1)和CD34+CD38-CD45RA-CD90-CD49f+(HSC2)。人HSC1可通过以下概况鉴别：CD34+/CD38-/CD45RA-/CD90+或CD34+/CD45RA-/CD90+且小鼠LT-HSC可通过Lin-Sca1+ckit+CD150+CD48-Flt3-CD34-鉴别(其中Lin表示缺乏包括CD3、Cd4、CD8、CD11b、CD11c、NK1.1、Gr1和TER119的成熟细胞的任何标志物的表达)。在特定实施例中，HSC通过CD164+概况鉴别。在特定实施例中，HSC通过CD34+/CD164+概况鉴别。关于HSC标志物概况的额外信息，参见WO2017/218948。

(VII-e-ii)T细胞

已经发现了数个不同子集的T细胞，其各自具有独特功能。举例来说，大多数T细胞具有呈几种蛋白质的复合体存在的T细胞受体(TCR)。实际T细胞受体由两条分开的肽链构成，所述肽链由独立的T细胞受体α和β(TCRα和TCRβ)基因产生且称为α-和β-TCR链。

γδT细胞代表在表面上具有独特T细胞受体(TCR)的T细胞的较小子集。在γδT细胞中，TCR由一条γ-链和一条δ-链组成。该组T细胞不如αβT细胞常见(占总T细胞2％)。

CD3在所有成熟T细胞上表达。活化T细胞表达4-1BB(CD137)、CD69和CD25。CD5和运铁蛋白受体也在T细胞上表达。

T细胞可进一步分为辅助细胞(CD4+T细胞)和细胞毒性T细胞(CTL、CD8+T细胞)，包括细胞溶解T细胞。T辅助细胞在免疫过程中帮助其它白血球，尤其包括B细胞成熟为浆细胞和细胞毒性T细胞和巨噬细胞的活化。由于这些细胞在其表面上表达CD4蛋白，因此其又称为CD4+T细胞。当辅助T细胞通过在抗原呈递细胞(APC)的表面上表达的MHC II类分子呈递肽抗原时，其变得活化。在活化后，其快速分裂且分泌调控或帮助活性免疫反应的称为细胞因子的小型蛋白质。

细胞毒性T细胞破坏病毒感染细胞和肿瘤细胞，且还与移植排斥反应有关。由于这些细胞在其表面上表达CD8糖蛋白，因此其又称为CD8+T细胞。这些细胞通过结合于在身体几乎每个细胞的表面上存在的与MHC I类相关的抗原来识别其目标。

在特定实施例中，CAR进行基因修饰以在细胞毒性T细胞中表达。

如本文所用的“中心记忆”T细胞(或“TCM”)是指在其表面上表达CD62L或CCR7和CD45RO且与原始细胞相比不表达或具有降低的CD45RA表达的经历抗原的CTL。在特定实施例中，中心记忆细胞对CD62L、CCR7、CD25、CD127、CD45RO和CD95的表达呈阳性，且与原始细胞相比具有降低的CD45RA的表达。

如本文所用的“效应记忆”T细胞(或“TEM”)是指与中心记忆细胞相比在其表面上不表达或具有降低的CD62L表达且与原始细胞相比不表达或具有降低的CD45RA表达的经历抗原的T细胞。在特定实施例中，与原始细胞或中心记忆细胞相比，效应记忆细胞对于CD62L和CCR7的表达为阴性的，且具有CD28和CD45RA的可变表达。与记忆或原始T细胞相比，效应T细胞对于颗粒酶B和穿孔蛋白呈阳性。

如本文所用的“原始”T细胞是指与中央或效应记忆细胞相比，表达CD62L和CD45RA且不表达CD45RO的未经历抗原的T细胞。在特定实施例中，原始CD8+T淋巴细胞的特征在于原始T细胞的表型标志物的表达，包括CD62L、CCR7、CD28、CD127和CD45RA。

细胞或细胞群体对于或表达特定标志物呈“阳性”的表述是指特定标志物可检测地存在于细胞上或细胞内。在提及表面标志物时，该术语可指如通过流式细胞术，例如通过用与标志物特异性结合的抗体染色和检测该抗体检测到存在表面表达，其中该染色可通过流式细胞术在以下程度上检测到：基本上超过使用同型匹配对照在其它方面相同的条件下执行相同程序所检测到的染色的程度，和/或基本上类似于已知对标志物呈阳性的细胞的染色的程度，和/或基本上高于已知对标志物呈阴性的细胞的染色的程度。

细胞或细胞群体对于特定标志物呈“阴性”或缺乏标志物的表达的表述是指特定标志物在细胞上或细胞内的存在基本上不可检测。在提及表面标志物时，该术语可指如通过流式细胞术，例如通过用与标志物特异性结合的抗体染色和检测该抗体检测到缺乏表面表达，其中该染色可通过流式细胞术在以下程度上未检测到：基本上超过使用同型匹配对照在其它方面相同的条件下执行相同程序所检测到的染色的程度，和/或基本上低于已知对标志物呈阳性的细胞的染色的程度，和/或基本上类似于已知对标志物呈阴性的细胞的染色的程度。

(VII-e-iii)B细胞

B细胞是体液反应的介体，且负责产生和释放对抗原具有特异性的抗体。存在几种类型的B细胞，其可通过关键标志物表征。一般来说，不成熟B细胞表达CD19、CD20、CD34、CD38和CD45R，且当其成熟时，关键表达标志物为CD19和IgM。

(VII-e-iv)肿瘤

在特定实施例中，载体可靶向肿瘤。在特定实施例中，肿瘤被存在于肿瘤细胞上且不存在于健康细胞上的靶向受体靶向。肿瘤可通过结合αv整联蛋白而靶向以进行体内基因修饰。αv整联蛋白在血管生成中起重要作用。αvβ3和αvβ5整联蛋白在正常内皮细胞中不存在或表达量低，但在肿瘤的血管生成脉管中诱发(布鲁克斯(Brooks)等人,《细胞》,79:1157-1164,1994；哈姆斯(Hammes)等人,《自然·医学(Nature Med)》,2:529-533,1996)。最近已鉴别出氨基肽酶N/CD13为NGR模体的血管生成受体(伯格(Burg)等人,《癌症研究》,59:2869-74,1999)。氨基肽酶N/CD13在癌症的血管生成血管和其它血管生成组织中强烈表达。

在特定实施例中，载体可通过靶向癌细胞抗原的表位而靶向肿瘤。癌细胞抗原由癌细胞或肿瘤表达。

在特定实施例中，癌细胞抗原的表位优先由癌细胞表达。“优先表达”意指发现与其它细胞类型相比，癌细胞上癌细胞抗原的含量较高。在一些情况下，癌症抗原的表位仅由靶向的癌细胞类型表达。在其它情况下，靶向的癌细胞类型上的癌症抗原表达量比非靶向细胞多至少25％、35％、45％、55％、65％、75％、85％、95％、96％、97％、98％、99％或100％。

在特定实施例中，癌细胞抗原在癌性和健康组织上显著表达。在特定实施例中，显著表达意指基于癌外在靶毒性，在研发期间停止使用双特异性抗体。在特定实施例中，显著表达意指基于癌外在靶毒性，双特异性抗体的使用需要关于潜在不良副作用的警告。作为一个实例，西妥昔单抗(cetuximab)是与被认为由皮肤中的EGFR表达引起的重度皮疹有关的抗EGFR抗体。另一实例为Herceptin(曲妥珠单抗)，其为抗HER2(ERBB2)抗体。由于心脏中的目标表达，所以Herceptin引起心脏毒性。此外，由于肺中的癌外在靶表达，所以使用CAR-T细胞靶向Her2引起患者死亡。

表3提供了更可能在特定癌症类型中共表达的癌症抗原的实例。

表3：

在更特定实例中，癌细胞抗原包括：间皮素、MUC16、FOLR、PD-L1、ROR1、磷脂肌醇蛋白聚糖-2(GPC2)、双唾液酸神经节苷脂(GD2)、HER2、EGFR、EGFRvIII、CEA、CD56、CLL-1、CD19、CD20、CD123、CD30、CD33(全长)、CD33(δE2变体)、CD33(C端截短)、BCMA、IGFR、MUC1、VEGFR、PSMA、PSCA、IL13Ra2、FAP、EpCAM、CD44、CD133、Tro-2、CD200、FLT3、GCC和WT1。如所属领域的一般技术人员所了解，靶向抗原可缺乏信号肽。

CD56，又称为神经细胞粘附分子1(NCAM1)，是涉及细胞-细胞和细胞-基质粘附的I型膜糖蛋白。其胞外结构域在N端处具有五个IgG样结构域且在膜近区中具有两个纤维结合蛋白III型结构域。

双唾液酸神经节苷脂GalAcβ1-4(NeuAcα2-8NeuAcα2-3)Galβ1-4Glcβ1-1Cer(GD2)在各种肿瘤上表达，包括成神经细胞瘤。双唾液酸神经节苷脂抗原GD2包括由唾液酸和脂质残基侧接的寡糖主链。参见例如切瑞希(Cheresh)(《病理学研究的调查与综述(Surv.Synth.Pathol.Res.)》4:97,1987)和美国专利第5,653,977号。

EGFR变体III(EGFRvIII)(EGFR的一种肿瘤特异性突变体)是常与野生型EGFR基因扩增相关的基因组重排产物。EGFRvIII通过外显子2-7的同框缺失形成，导致267个氨基酸缺失和接合处的甘氨酸取代。截短的受体失去其结合配体的能力，但获得组成性激酶活性。有趣的是，EGFRvIII在相同肿瘤细胞中常与全长野生型EGFR共表达。此外，EGFRvIII表达细胞展现增加的增殖、侵入、血管生成和对细胞凋亡的抗性。

最常在多形性胶质母细胞瘤(GBM)中发现EGFRvIII。据估计，25-35％的GBM携带该截短受体。此外，其表达通常反映更具侵袭性的表型和不良预后。除GBM以外，还在其它实体瘤，例如非小细胞肺癌、头颈癌、乳腺癌、卵巢癌和前列腺癌中报告EGFRvIII的表达。相比之下，EGFRvIII未在健康组织中表达。

在特定实施例中，靶向的癌症抗原的表位可被靶向的癌细胞或肿瘤高表达或被靶向的癌细胞或肿瘤低表达。在特定实施例中，高表达和低表达可使用流式细胞术或荧光活化细胞分选术(FAC)来测定。如流式细胞术的所属领域的一般技术人员所理解，“hi”、“lo”、“+”和“-”是指相对于阴性或其它群体的信号强度。在特定实施例中，阳性表达(+)意指在细胞上使用流式细胞术可检测到标志物。在特定实施例中，阴性表达(-)意指在细胞上使用流式细胞术无法检测到标志物。在特定实施例中，“hi”意指如通过荧光(使用例如FACS)所测量，所关注标志物的阳性表达比表达也呈阳性的其它细胞更明亮。在这些实施例中，所属领域的一般技术人员认识到，亮度是基于检测阈值。一般来说，所属领域的技术人员将首先分析阴性对照管，且通过FSC和SSC设定所关注群体周围的门控(点阵图)且调节所需发射波长下的光电倍增管电压和荧光增益，使得在阴性对照下97％细胞对于荧光标志物呈现未染色。一旦建立这些参数，则分析染色细胞，且记录相对于未染色荧光细胞群体的荧光。在特定实施例中，且代表典型FACS图，hi意指最右侧(x线)或最高顶部线(右上方或左侧)，而lo意指在左下部象限内或在右侧象限与左侧象限之间的中间(但相对于阴性群体移位)。在特定实施例中，“hi”是指相对于+细胞，可检测荧光增加超过+的20倍，超过+的30倍、超过+的40倍、超过+的50倍、超过+的60倍、超过+的70倍、超过+的80倍、超过+的90倍、超过+的100倍或更多。相反地，“lo”可指定义为“hi”者的相反群体。

(VII-e-v)其它目标

除HSC、T细胞、B细胞和肿瘤(或癌细胞)以外，载体可靶向细菌和真菌的其它抗原。

靶向细菌的抗原可来源于例如以下各者：炭疽、革兰氏阴性杆菌、披衣菌、白喉、幽门螺旋杆菌(Helicobacter pylori)、结核分支杆菌(Mycobacterium tuberculosis)、百日咳毒素、肺炎球菌、立克次体(rickettsiae)、葡萄球菌、链球菌和破伤风。

作为细菌抗原标志物的特定实例，炭疽抗原包括炭疽保护性抗原；革兰氏阴性杆菌抗原包括脂多糖；白喉抗原包括白喉毒素；结核分支杆菌抗原包括分枝菌酸、热休克蛋白65(HSP65)、30kDa主要分泌蛋白和抗原85A；百日咳毒素抗原包括红血球凝集素、百日咳杆菌粘附素、FIM2、FIM3和腺苷酸环化酶；肺炎球菌抗原包括肺炎链球菌溶血素和肺炎球菌荚膜多糖；立克次体抗原包括rompA；链球菌抗原包括M蛋白质；且破伤风抗原包括破伤风毒素。

靶向真菌的抗原可来源于例如念珠菌、球孢子菌、隐球菌、组织浆菌、利什曼原虫、疟原虫、原生动物、寄生虫、血吸虫、皮霉菌、弓虫和克氏锥虫。

作为真菌抗原的特定实例，球孢子菌抗原包括球粒抗原；隐球菌抗原包括荚膜多糖；组织浆菌抗原包括热休克蛋白60(HSP60)；利什曼原虫抗原包括gp63和脂磷酸聚糖；恶性疟原虫抗原包括裂体性孢子表面抗原、子孢子表面抗原、环子孢子抗原、配子母细胞/配子表面抗原、原虫和其它寄生虫抗原，包括血液阶段抗原pf 155/RESA；血吸虫抗原，包括谷胱甘肽-S-转移酶和副肌球蛋白(paramyosin)；皮霉菌真菌抗原包括发癣菌素；弓虫抗原包括SAG-1和p30；且克氏锥虫抗原包括75-77kDa抗原和56kDa抗原。

(VII-f)示例载体

在特定实施例中，载体包括具有负载、LCR、调控组件、整合元件、选择盒和填充序列的HDAd5/35++载体。在特定实施例中，负载包括人γ-球蛋白基因。在特定实施例中，LCR包括β-球蛋白LCR。在特定实施例中，调控组件包括β-球蛋白启动子。在特定实施例中，整合元件包括睡美人100X转位酶。在特定实施例中，选择盒包括MGMT(P140K)。在特定实施例中，载体进一步包括EF1α启动子。

在各种实施例中，包括本公开的LCR(例如长LCR)的载体使可操作地连接的编码核酸序列例如在目标细胞类型或组织(例如其中LCR控制表达的细胞类型或组织，如表1中所示)中的表达增加。在各种实施例中，与不包括LCR的参考载体相比，包括本公开的LCR的载体使可操作地连接的编码核酸序列在例如目标细胞类型或组织中的表达增加。在各种实施例中，与不包括长LCR的参考载体，例如包括较短LCR、例如微型LCR的参考载体相比，包括本公开的LCR的载体使可操作地连接的编码核酸序列在例如目标细胞类型或组织中的表达增加。在各种实施例中，增加可为增加参考表达量的至少10％、15％、20％、30％、40％、50％、60％、70％、80％、90％或100％。在一些实施例中，包括本公开的LCR(例如长LCR)的载体引起可操作地连接的编码核酸序列的表达为参考内源性编码核酸序列在健康受试者中，例如在目标细胞类型或组织中的参考表达量的至少10％、15％、20％、30％、40％、50％、60％、70％、80％、90％或100％。

在一些实施例中，包括本公开的LCR(例如长LCR)的载体使可操作地连接的编码核酸序列在一种或一种以上非目标细胞类型或组织(例如并非表1中示为其中LCR控制表达的细胞类型或组织的细胞类型或组织的细胞类型或组织)中的表达减少。在各种实施例中，与不包括LCR的参考载体相比，包括本公开的LCR(例如长LCR)的载体使可操作地连接的编码核酸序列在一种或一种以上非目标细胞类型或组织中的表达减少。在各种实施例中，与不包括长LCR的参考载体，例如包括较短LCR、例如微型LCR的参考载体相比，包括本公开的LCR(例如长LCR)的载体使可操作地连接的编码核酸序列在一种或一种以上非目标细胞类型或组织中的表达减少。在各种实施例中，减少可为减少参考表达量的至少10％、15％、20％、30％、40％、50％、60％、70％、80％、90％或100％。例如，在特定实施例中，与不包括β-球蛋白长LCR的参考载体，例如包括较短LCR、例如β-球蛋白微型LCR的参考载体相比，β-球蛋白长LCR的使用使可操作地连接的编码核酸序列(例如编码γ-球蛋白或β-球蛋白的编码序列)在非红血球系细胞中的表达减少。

如所属领域的技术人员应了解，在目标细胞和/或组织中的表达增加(例如，由使用本公开的长LCR，例如长LCR引起)降低载体在基因疗法中的最小治疗有效剂量，因此降低最小治疗有效剂量的免疫毒性和/或免疫毒性风险。所属领域的技术人员将进一步了解，在非目标细胞和/或组织中的表达减少(例如，由使用本公开的长LCR，例如长LCR产生)降低免疫毒性和/或免疫毒性风险，在某些特定实例中，使用β-球蛋白长LCR增加可操作地连接的编码核酸序列在造血干细胞中的表达和/或减少可操作地连接的编码核酸序列在非红血球系细胞中的表达，由此降低基因疗法免疫毒性和/或其风险。在各种实施例中，在目标细胞中增加的从病毒载体转位子负载的表达和/或由于免疫毒性降低而递送较大剂量的病毒载体的能力提高可在接受基因疗法的受试者的目标细胞或组织中达成的被转位子负载编码的药剂的总表达。因此，与例如不包括LCR或不包括长LCR的参考载体的参考载体相比，包括本公开的LCR(例如长LCR)的载体可提供增加的治疗功效。

(VIII)配制物

本文所述的腺病毒供体载体、大负载腺病毒载体、腺病毒基因组和腺病毒系统可被配制用于投与受试者。配制物包括与治疗性基因(“活性成分”)相关的重组大负载腺病毒载体、腺病毒基因组和/或腺病毒系统和一种或一种以上药学上可接受的载剂。

在特定实施例中，配制物包括以下量的活性成分：至少配制物的0.1％w/v或w/w；至少配制物的1％w/v或w/w；至少配制物的10％w/v或w/w；至少配制物的20％w/v或w/w；至少配制物的30％w/v或w/w；至少配制物的40％w/v或w/w；至少配制物的50％w/v或w/w；至少配制物的60％w/v或w/w；至少配制物的70％w/v或w/w；至少配制物的80％w/v或w/w；至少配制物的90％w/v或w/w；至少配制物的95％w/v或w/w；或至少配制物的99％w/v或w/w。

示例性的常用药学上可接受的载剂包括任何和所有吸收延迟剂、抗氧化剂、粘合剂、缓冲剂、增积剂或填充剂、螯合剂、包衣、崩解剂、分散介质、凝胶、等张剂、润滑剂、防腐剂、盐、溶剂或共溶剂、稳定剂、表面活性剂和/或递送媒剂。

示例性抗氧化剂包括抗坏血酸、甲硫氨酸和维生素E。

示例性缓冲剂包括柠檬酸盐缓冲液、丁二酸盐缓冲液、酒石酸盐缓冲液、反丁烯二酸盐缓冲液、葡糖酸盐缓冲液、草酸盐缓冲液、乳酸盐缓冲液、乙酸盐缓冲液、磷酸盐缓冲液、组氨酸缓冲液和/或三甲胺盐。

一种示例性螯合剂为EDTA。

其它等张剂包括多羟基糖醇，包括三元醇或高级糖醇，例如甘油、赤藻糖醇、阿拉伯糖醇、木糖醇、山梨糖醇或甘露糖醇。

示例性防腐剂包括苯酚、苯甲醇、间甲酚、对羟基苯甲酸甲酯、对羟基苯甲酸丙酯、氯化十八烷基二甲基苯甲铵、卤化苯甲烃铵、氯化六羟季铵、对羟基苯甲酸烷基酯(例如对羟基苯甲酸甲酯或丙酯)、儿茶酚、间苯二酚、环己醇和3-戊醇。

稳定剂是指广泛类别的赋形剂，其功能可在增积剂至使活性成分溶解或有助于防止变性或粘附于容器壁上的添加剂的范围内。典型的稳定剂可包括多羟基糖醇；氨基酸，例如精氨酸、赖氨酸、甘氨酸、谷氨酰胺、天冬酰胺、组氨酸、丙氨酸、鸟氨酸、L-亮氨酸、2-苯丙氨酸、谷氨酸和苏氨酸；有机糖或糖醇，例如乳糖、海藻糖、水苏糖、甘露糖醇、山梨糖醇、木糖醇、核糖醇、肌肉肌醇、半乳糖醇、甘油和环醇，例如肌醇；PEG；氨基酸聚合物；含硫还原剂，例如脲、谷胱甘肽、硫辛酸、巯乙酸钠、硫代甘油、α-单硫代甘油和硫代硫酸钠；低分子量多肽(即，<10个残基)；蛋白质，例如人血清白蛋白、牛血清白蛋白、明胶或免疫球蛋白；亲水性聚合物，例如聚乙烯吡咯烷酮；单糖，例如木糖、甘露糖、果糖和葡萄糖；双糖，例如乳糖、麦芽糖和蔗糖；三糖，例如棉子糖；和多糖，例如聚葡萄糖。以治疗剂重量计，稳定剂通常以0.1至10,000重量份范围存在。

本文所公开的配制物可被配制用于通过例如注射投与。对于注射，配制物可被配制为水溶液，例如在包括汉克氏溶液(Hanks'solution)、林格氏溶液(Ringer's solution)或生理盐水的缓冲液中；或在培养基中，例如伊氏改良达尔伯克培养基(IMDM)。水溶液可包括配制剂，例如悬浮剂、稳定剂和/或分散剂。或者，配制物可呈在使用之前用适合媒剂(例如无菌无热原质水)复原的冻干和/或粉末形式。

本文所公开的任何配制物宜包括任何其它药学上可接受的载剂，包括不产生显著不良、过敏或超过投药益处的其它不良反应的载剂。示例性药学上可接受的载剂和配制物公开于《雷氏药学大全(Remington's Pharmaceutical Sciences)》,第18版.麦克印刷公司(Mack Printing Company),1990。此外，配制物可被制备成符合美国FDA生物学标准办公室(US FDA Office of Biological Standards)和/或其它相关外国管控机构所需要的无菌性、发热性、一般安全性和纯度标准。

(IX)应用

(IX-a)体内疗法

本文所公开的配制物可用于治疗受试者(人、兽医学动物(犬、猫、爬行动物、鸟类等)、家畜(马、牛、山羊、猪、鸡等)和研究用动物(猴、大鼠、小鼠、鱼等)。治疗受试者包括递送治疗有效量。治疗有效量包括提供有效量、防治性治疗和/或治疗性治疗的量。

本文所述的配制物可与HSPC动员共同投与。在特定实施例中，投与腺病毒供体载体与一种或一种以上动员因子同时发生。在特定实施例中，腺病毒供体载体的投与在投与一种或一种以上动员因子之后。在特定实施例中，腺病毒供体载体的投与在第一次一种或一种以上动员因子的投与之后且与第二次一种或一种以上动员因子的投与同时发生。

向特定受试者投与的腺病毒供体载体和在特定实施例中腺病毒供体载体和动员因子的实际剂量和量以及协同动员程序和时程可由医师、兽医或研究人员考虑例如物理和生理因素等参数来确定，所述因素包括例如目标；体重；病状类型；病状严重程度；当已知时即将出现的相关事件；先前或同时治疗干预；受试者的特发病；和投与途径。此外，体外和体内分析可任选地用于帮助鉴别最佳剂量范围。

与治疗性基因相关的腺病毒供体载体的治疗有效量可包括在例如1×10⁷至50×10⁸个感染单位(IU)或5×10⁷至20×10⁸IU范围内的剂量。在其它实例中，剂量可包括5×10⁷IU、6×10⁷IU、7×10⁷IU、8×10⁷IU、9×10⁷IU、1×10⁸IU、2×10⁸IU、3×10⁸IU、4×10⁸IU、5×10⁸IU、6×10⁸IU、7×10⁸IU、8×10⁸IU、9×10⁸IU、10×10⁸IU或更多。在特定实施例中，与治疗性基因相关的腺病毒供体载体的治疗有效量包括4×10⁸IU。在特定实施例中，治疗有效量的与治疗性基因相关的腺病毒供体载体可皮下或静脉内投与。在特定实施例中，治疗有效量的与治疗性基因相关的腺病毒供体载体可在投与一种或一种以上动员因子后投与。

在特定实施例中，G-CSF的治疗有效量包括0.1μg/kg至100μg/kg。在特定实施例中，G-CSF的治疗有效量包括0.5μg/kg至50μg/kg。在特定实施例中，G-CSF的治疗有效量包括0.5μg/kg、1μg/kg、2μg/kg、3μg/kg、4μg/kg、5μg/kg、6μg/kg、7μg/kg、8μg/kg、9μg/kg、10μg/kg、11μg/kg、12μg/kg、13μg/kg、14μg/kg、15μg/kg、16μg/kg、17μg/kg、18μg/kg、19μg/kg、20μg/kg或更多。在特定实施例中，G-CSF的治疗有效量包括5μg/kg。在特定实施例中，G-CSF可皮下或静脉内投与。在特定实施例中，G-CSF可投与1天、连续2天、连续3天、连续4天、连续5天或更长时间。在特定实施例中，G-CSF可投与连续4天。在特定实施例中，G-CSF可投与连续5天。在特定实施例中，作为单一药剂，G-CSF可以10μg/kg的剂量每日皮下使用，在腺病毒供体载体递送之前3、4、5、6、7或8天开始。在特定实施例中，G-CSF可作为单一药剂投与，随后同时投与另一动员因子。在特定实施例中，G-CSF可作为单一药剂投与，随后同时投与AMD3100。在特定实施例中，治疗方案包括5天治疗，其中可在第1天、第2天、第3天和第4天和第5天投与G-CSF，在腺病毒供体载体投与之前6至8小时投与G-CSF和AMD3100。

待投与的GM-CSF的治疗有效量可包括在例如0.1至50μg/kg或0.5至30μg/kg范围内的剂量。在特定实施例中，GM-CSF的投与剂量可包括0.5μg/kg、1μg/kg、2μg/kg、3μg/kg、4μg/kg、5μg/kg、6μg/kg、7μg/kg、8μg/kg、9μg/kg、10μg/kg、11μg/kg、12μg/kg、13μg/kg、14μg/kg、15μg/kg、16μg/kg、17μg/kg、18μg/kg、19μg/kg、20μg/kg或更多。在特定实施例中，GM-CSF可投与1天、连续2天、连续3天、连续4天、连续5天或更长时间。在特定实施例中，GM-CSF可皮下或静脉内投与。在特定实施例中，作为单一药剂，GM-CSF可以10μg/kg的剂量每日皮下使用，在腺病毒供体载体递送之前3、4、5、6、7或8天开始。在特定实施例中，GM-CSF可作为单一药剂投与，随后同时投与另一动员因子。在特定实施例中，GM-CSF可作为单一药剂投与，随后同时投与AMD3100。在特定实施例中，治疗方案包括5天治疗，其中可在第1天、第2天、第3天和第4天和第5天投与GM-CSF，在腺病毒供体载体投与之前6至8小时投与GM-CSF和AMD3100。沙格司亭(Sargramostim)(GM-CSF)的给药方案可包括200μg/m²、210μg/m²、220μg/m²、230μg/m²、240μg/m²、250μg/m²、260μg/m²、270μg/m²、280μg/m²、290μg/m²、300μg/m²或更多。在特定实施例中，沙格司亭可投与一天、连续两天、连续三天、连续四天、连续五天或更长时间。在特定实施例中，沙格司亭可皮下或静脉内投与。在特定实施例中，沙格司亭的给药方案可包括静脉内或皮下每天250μg/m²且可继续投与，直到外周血中达到目标细胞量或可继续5天。在特定实施例中，沙格司亭可作为单一药剂投与，随后同时投与另一动员因子。在特定实施例中，沙格司亭可作为单一药剂投与，随后同时投与AMD3100。在特定实施例中，治疗方案包括5天治疗，其中可在第1天、第2天、第3天和第4天和第5天投与沙格司亭，在腺病毒供体载体投与之前6至8小时投与沙格司亭和AMD3100。

在特定实施例中，AMD3100的治疗有效量包括0.1mg/kg至100mg/kg。在特定实施例中，AMD3100的治疗有效量包括0.5mg/kg至50mg/kg。在特定实施例中，AMD3100的治疗有效量包括0.5mg/kg、1mg/kg、2mg/kg、3mg/kg、4mg/kg、5mg/kg、6mg/kg、7mg/kg、8mg/kg、9mg/kg、10mg/kg、11mg/kg、12mg/kg、13mg/kg、14mg/kg、15mg/kg、16mg/kg、17mg/kg、18mg/kg、19mg/kg、20mg/kg或更多。在特定实施例中，AMD3100的治疗有效量包括4mg/kg。在特定实施例中，AMD3100的治疗有效量包括5mg/kg。在特定实施例中，AMD3100的治疗有效量包括10μg/kg至500μg/kg或50μg/kg至400μg/kg。在特定实施例中，AMD3100的治疗有效量包括100μg/kg、150μg/kg、200μg/kg、250μg/kg、300μg/kg、350μg/kg或更多。在特定实施例中，AMD3100可皮下或静脉内投与。在特定实施例中，AMD3100可在腺病毒供体载体递送之前6至11小时以160-240μg/kg皮下投与。在特定实施例中，治疗有效量的AMD3100可与另一动员因子的投与同时投与。在特定实施例中，可在投与另一动员因子后投与治疗有效量的AMD3100。在特定实施例中，治疗有效量的AMD3100可在投与G-CSF之后投与。在特定实施例中，治疗方案包括5天治疗，其中在第1天、第2天、第3天和第4天和第5天投与G-CSF，在腺病毒供体载体注射之前6至8小时投与G-CSF和AMD3100。

待投与的SCF的治疗有效量可包括在例如每天0.1至100μg/kg或每天0.5至50μg/kg范围内的剂量。在特定实施例中，SCF的投与剂量可包括每天0.5μg/kg、每天1μg/kg、每天2μg/kg、每天3μg/kg、每天4μg/kg、每天5μg/kg、每天6μg/kg、每天7μg/kg、每天8μg/kg、每天9μg/kg、每天10μg/kg、每天11μg/kg、每天12μg/kg、每天13μg/kg、每天14μg/kg、每天15μg/kg、每天16μg/kg、每天17μg/kg、每天18μg/kg、每天19μg/kg、每天20μg/kg、每天21μg/kg、每天22μg/kg、每天23μg/kg、每天24μg/kg、每天25μg/kg、每天26μg/kg、每天27μg/kg、每天28μg/kg、每天29μg/kg、每天30μg/kg或更多。在特定实施例中，SCF可投与1天、连续2天、连续3天、连续4天、连续5天或更长时间。在特定实施例中，SCF可皮下或静脉内投与。在特定实施例中，SCF可以每天20μg/kg皮下注射。在特定实施例中，SCF可作为单一药剂投与，随后同时投与另一动员因子。在特定实施例中，SCF可作为单一药剂投与，随后同时投与AMD3100。在特定实施例中，治疗方案包括5天治疗，其中可在第1天、第2天、第3天和第4天和第5天投与SCF，在腺病毒供体载体投与之前6至8小时投与SCF和AMD3100。

在特定实施例中，可投与生长因子GM-CSF和G-CSF以将骨髓小生境中的HSPC动员至周边循环血液，从而增加血液中循环的HSPC分数。在特定实施例中，动员可通过投与G-CSF/非格司亭(Filgrastim)(Amgen)和/或AMD3100(Sigma)实现。在特定实施例中，动员可通过投与GM-CSF/沙格司亭(Amgen)和/或AMD3100(Sigma)实现。在特定实施例中，动员可通过投与SCF/安西司亭(Ancestim)(Amgen)和/或AMD3100(Sigma)实现。在特定实施例中，G-CSF/非格司亭的投与在投与AMD3100之前。在特定实施例中，投与G-CSF/非格司亭与AMD3100的投与同时发生。在特定实施例中，G-CSF/非格司亭的投与在投与AMD3100之前，接着同时投与G-CSF/非格司亭和AMD3100。US20140193376描述了利用CXCR4拮抗剂与S1P受体1(S1PR1)调节剂的动员方案。US20110044997描述了利用CXCR4拮抗剂与血管内皮生长因子受体(VEGFR)激动剂的动员方案。

治疗性大负载腺病毒载体可在与投与类固醇、IL-1受体拮抗剂和/或IL-6受体拮抗剂同时或之后投与。这些方案可缓解潜在的治疗副作用。

已知IL-1受体拮抗剂且包括ADC-1001(瑞典隆德市的鳄鱼生物科学公司(Alligator Bioscience,Lund,Sweden))、FX-201(马萨诸塞州伯灵顿的福莱克逊制药公司(Flexion Therapeutics,Burlington,MA))、可从博欧斯技术公司(BioasisTechnologies)获得的融合蛋白(加拿大里士满(Richmond,Canada))、GQ-303(德国汉堡的基因客生物治疗技术公司(Genequine Biotherapeutics GmbH,Hamburg,Germany))、HL-2351(韩国首尔的韩德科公司(Handok,Inc.,Seoul,South Korea))、MBIL-1RA(麻萨诸塞州牛顿的普托沙公司(ProteoThera,Inc.,Newton,MA))、阿那白滞素(Anakinra)(加拿大温哥华的普仁药业公司(Pivor Pharmaceuticals,Vancouver,Canada))、人免疫球蛋白G或球蛋白S(韩国京畿道的绿十字制药公司(GC Pharma,Gyeonggi-do,South Korea))。IL-6受体拮抗剂也是所属领域中已知的且包括托珠单抗(tocilizumab)、BCD-089(俄罗斯博卡(Biocad,Russia))、HS-628(中国台州市浙江海正药业股份有限公司(Zhejiang HisunPharm,Taizhou City,China))和APX-007(加利福尼亚州圣卡洛斯的爱培生物医药公司(Apexigen,San Carlos,CA))。

在特定实施例中，可投与HSC富集剂，例如CD19免疫毒素或5-FU以富集HSPC。CD19免疫毒素可用于耗竭所有CD19谱系细胞，占骨髓细胞的30％。耗竭促进从骨髓离开。通过迫使HSPC增殖(不论经由CD19免疫毒素还是5-FU)，这刺激其分化且从骨髓离开并增加周边血细胞中的转基因标记。

治疗有效量可经由任何适当投与途径投与，例如通过注射、输注、灌注，且更具体来说通过骨髓、静脉内、皮内、动脉内、结节内、淋巴管内、腹膜内注射、输注或灌注中的一者或一者以上投与。

(IX-b)离体疗法和体外用途

本文所提供的方法和组合物至少部分地公开用于体内基因疗法。然而，为了避免疑问，本公开明确地包括本文所提供的组合物和方法用于体外工程化细胞和/或组织的用途，以及包括工程化细胞和/或组织以用于研究目的的体外用途。

(IX-c)治疗特定血液病症(例如血友病、地中海贫血)

在特定实施例中，本文所公开的方法和配制物可用于治疗血液病症。在特定实施例中，向受试者投与配制物以治疗血友病、重型β-地中海贫血、戴-布二氏贫血症(DiamondBlackfan anemia，DBA)、阵发性夜间血红蛋白尿症(PNH)、纯红细胞再生障碍(PRCA)、难治性贫血、重型再生障碍性贫血和/或血癌，例如白血病、淋巴瘤和骨髓瘤。

在特定实施例中，治疗有效的治疗诱导或增加HbF表达，诱导或增加血红蛋白产生和/或诱导或增加β-球蛋白产生。在特定实施例中，治疗有效的治疗改善血球功能，和/或增加细胞氧合。

在特定实施例中，本公开的方法可在有需要的受试者中恢复骨髓功能。在特定实施例中，恢复骨髓功能可包括与不投与本文所述的疗法的有需要的受试者相比，用基因校正细胞改善骨髓再生。用基因校正的细胞改善骨髓再生可包括增加基因校正的细胞的百分比。在特定实施例中，细胞选自白血球和骨髓衍生细胞。在特定实施例中，基因校正的细胞的百分比可使用选自定量实时PCR和流式细胞术的分析来测量。

在特定实施例中，本公开的方法可用于治疗FA。在特定实施例中，治疗功效可经由淋巴细胞复原、改良克隆多样性和胸腺产生、减少感染和/或改善患者结果来观察。还可经由以下中的一者或一者以上观察治疗功效：体重增加和生长、改善胃肠道功能(例如减少腹泻)、减少上呼吸道症状、减少口腔真菌感染(鹅口疮)、减少肺炎发生率和严重程度、减少脑膜炎和血流感染以及减少耳部感染。在特定实施例中，用本公开的方法治疗FA包括增加骨髓衍生细胞对丝裂霉素C(mitomycin C，MMC)的抗性。在特定实施例中，可通过甲基纤维素和MMC中的细胞存活分析测量骨髓衍生细胞对MMC的抗性。

(IX-c-i)用于治疗血液病症的LCR、启动子、编码序列和载体

在各种实施例中，本公开包括使用本公开的腺病毒供体载体治疗血液病症，该腺病毒供体载体包括β-球蛋白长LCR、β-球蛋白启动子和编码用于治疗血液病症的蛋白质或药剂的编码核酸序列。在各种实施例中，血液病症为地中海贫血且蛋白质为β-球蛋白或γ-球蛋白蛋白质，或在其它方面部分或完全在功能上替代β-球蛋白或γ-球蛋白的蛋白质。在各种实施例中，血液病症为血友病，且蛋白质为ET3或在其它方面部分或完全在功能上替代第八因子的蛋白质。在各种实施例中，血液病症是点突变疾病，例如镰状细胞贫血症，且药剂是基因编辑蛋白质。

ET3可具有以下氨基酸序列：SEQ ID NO 99。在各种实施例中，第八因子替代蛋白可具有与SEQ ID NO:99至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％一致的氨基酸序列。

β-球蛋白可具有以下氨基酸序列：SEQ ID NO 100。在各种实施例中，β-球蛋白替代蛋白可具有与SEQ ID NO:100至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％一致的氨基酸序列。

γ-球蛋白可具有以下氨基酸序列：SEQ ID NO 101。在各种实施例中，γ-球蛋白替代蛋白可具有与SEQ ID NO:101至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％一致的氨基酸序列。

(IX-c-ii)剂量和配制物

载体可被配制成使得向细胞或动物，例如向人投与其是药学上可接受的。载体可在体外、离体或体内投与。在各种情况下，载体可被配制成包括药学上可接受的载剂或赋形剂。药学上可接受的载剂的实例包括但不限于生理上相容的任何和所有溶剂、分散介质、包衣、抗细菌剂和抗真菌剂、等张剂和吸收延迟剂等。本发明的组合物可包括药学上可接受的盐，例如酸加成盐或碱加成盐。

在各种实施例中，包括如本文所述的载体(例如，注射用无菌配制物)的组合物可根据常规医药实践使用注射用蒸馏水作为媒剂来配制。举例来说，生理盐水或含有葡萄糖的等张溶液和其它补充剂(例如D-山梨糖醇、D-甘露糖、D-甘露糖醇和氯化钠)可用作注射水溶液，任选地与适合的增溶剂(例如醇，例如乙醇和多元醇，例如丙二醇或聚乙二醇)和非离子表面活性剂(例如聚山梨醇酯80^TM、HCO-50等)组合。

如本文所公开，载体可呈所属领域中已知的任何形式。这类形式包括例如液体、半固体和固体剂型，例如液体溶液(例如，可注射溶液和可输注溶液)、分散液或悬浮液、片剂、丸剂、散剂、脂质体和栓剂。

任何特定形式的选择或用途可部分地视预期投与模式和治疗应用而定。举例来说，含有意图全身性或局部递送的组成的组合物可呈可注射或可输注溶液形式。因此，载体可被配制成通过肠胃外模式(例如静脉内、皮下、腹膜内或肌肉内注射)投与。如本文所用，肠胃外投药是指通常通过注射的除肠和局部投药以外的投药模式，且包括(不限于)静脉内、鼻内、眼内、经肺、肌肉内、动脉内、鞘内、囊内、眶内、心内、皮内、肺内、腹膜内、经气管、皮下、表皮下、关节内、囊下、蛛膜下、脊柱内、硬膜外、大脑内、颅内、颈动脉内和脑池内注射和输注。肠胃外投药途径可为例如通过注射、经鼻投与、经肺投与或经皮投与来投与。投与可通过静脉内注射、肌肉内注射、腹膜内注射、皮下注射而为全身性或局部的。

在各种实施例中，本发明的载体可被配制为溶液、微乳液、分散液、脂质体或适合于以高浓度稳定储存的其它有序结构。无菌可注射溶液可通过将所需量的本文所述的组合物与上文所列举的成分之一或组合一起并入适当溶剂中，随后根据需要过滤灭菌来制备。一般来说，通过将本文所述的组合物并入无菌媒剂中来制备分散液，该无菌媒剂含有基础分散介质和来自上文所列举的成分的其它所需成分。在无菌粉末用于制备无菌可注射溶液的情况下，制备方法包括真空干燥和冷冻干燥，利用其预先无菌过滤的溶液产生本文所述的组合物加任何其它所需成分的粉末(参见下文)。可例如通过使用例如卵磷脂的包衣、在分散液的情况下通过维持所需粒度和通过使用表面活性剂来维持溶液的适当流动性。可注射组合物的延长吸收可通过在组合物中包括延迟吸收剂(例如单硬脂酸盐和明胶)来达成。

载体可呈可注射配制物形式肠胃外投与，该可注射配制物包括于水或另一药学上可接受的液体中的无菌溶液或悬浮液。举例来说，载体可通过适当地组合治疗性分子与药学上可接受的媒剂或介质来配制，所述媒剂或介质例如无菌水和生理盐水、植物油、乳化剂、悬浮剂、表面活性剂、稳定剂、调味赋形剂、稀释剂、媒剂、防腐剂、粘合剂，接着以一般接受的医药实践所需的单位剂型混合。医药制剂中所包括的载体的量使得提供指定范围内的适合剂量。油性液体的非限制性实例包括芝麻油和大豆油，且其可与苯甲酸苯甲酯或苯甲醇组合作为增溶剂。可包括的其它物品为缓冲剂，例如磷酸盐缓冲液或乙酸钠缓冲液；舒缓剂，例如普鲁卡因盐酸盐(procaine hydrochloride)；稳定剂，例如苄醇或苯酚；和抗氧化剂。配制的注射液可包括于适合的安瓿中。

在各种实施例中，皮下投药可借助于如下装置实现：注射器、预填充注射器、自动注射器(例如一次性或可再用)、笔式注射器、贴片注射器、可穿戴式注射器、具有皮下输液组的可走动式注射器输液泵或用于皮下注射的其它装置。

在一些实施例中，本文所述的载体在治疗时借助于局部投药而递送到受试者。如本文所用，“局部投药”或“局部递送”是指递送不依赖于经由血管系统输送载体到其预定目标组织或位点。举例来说，载体可通过注射或植入组合物或药剂或通过注射或植入含有组合物或药剂的装置来递送。在某些实施例中，在目标组织或位点附近局部投与后，组合物或药剂或其一种或一种以上组分可扩散到并非投与部位的预定目标组织或位点。

在一些实施例中，本文所提供的组合物以单位剂型存在，该单位剂型可适合于自我投药。这类单位剂型可提供于容器内，通常例如小瓶、药筒、预填充注射器或一次性笔。例如美国专利第6,302,855号中所描述的剂量仪装置的剂量仪也可(例如)与如本文所述的注射系统一起使用。

适合于注射的载体配制物的医药形式可包括无菌水溶液或分散液。配制物可为无菌的且必须为流体以允许适当流入和流出注射器。配制物在制造和储存条件下也是稳定的。载剂可为含有例如水和生理盐水或缓冲水溶液的溶剂或分散介质。优选地，等张剂，例如糖或氯化钠可用于配制物中。

此外，所属领域的技术人员还可涵盖额外递送方法，可经由电穿孔、超声波电渗法、骨内注射方法或通过使用基因枪。载体还可植入微芯片、纳米芯片或纳米颗粒中。

本文所述的载体的适合剂量可视多种因素而定，包括例如待治疗的受试者的年龄、性别和体重、待治疗的病状或疾病和所用特定载体。影响投与受试者的剂量的其它因素包括例如病状或疾病的类型或严重程度。其它因素可包括例如同时或先前影响受试者的其它医学病症、受试者的总体健康状况、受试者的遗传倾向、饮食、投药时间、排泄速率、药物组合和投与受试者的任何其它额外治疗剂。可基于待治疗的病状或疾病和受试者年龄和病状选择投与载体的适合方式。投与的剂量和方法可视患者的体重、年龄、病状等而变化，且可根据所属领域的技术人员的需要而适当地选择。任何特定受试者的特定剂量和治疗方案可基于开业医生的判断而调整。

载体溶液可包括治疗有效量的本文所述的组合物。这些有效量容易由所属领域的一般技术人员部分根据所投组合物的效应或组合物与一种或一种以上其它活性剂的组合效应(如果使用超过一种药剂)来确定。治疗有效量可为治疗有益作用超过组合物的任何毒性或有害作用的量。

(IX-d)治疗癌症类型

在特定实施例中，本文所公开的方法和配制物可用于治疗癌症。在特定实施例中，向受试者投与配制物以治疗急性成淋巴细胞性白血病(ALL)、急性骨髓性白血病(AML)、慢性淋巴细胞性白血病(CLL)、慢性骨髓性白血病(CML)、慢性骨髓单核细胞性白血病、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、霍奇金淋巴瘤(Hodgkin's lymphoma)、幼年型骨髓单核细胞性白血病、多发性骨髓瘤、骨髓发育不良和/或非霍奇金淋巴瘤。

可治疗的额外示例性癌症包括星形细胞瘤、非典型畸胎样/横纹肌样瘤、脑和中枢神经系统(CNS)癌症、乳腺癌、癌肉瘤、软骨肉瘤、脊索瘤、脉络丛癌、脉络丛乳头状瘤、软组织透明细胞肉瘤、弥漫性大B细胞淋巴瘤、室管膜瘤、上皮样肉瘤、性腺外生殖细胞瘤、肾外横纹肌样瘤、尤文氏肉瘤(Ewing sarcoma)、胃肠基质瘤、胶质母细胞瘤、HBV诱发的肝细胞癌、头颈癌、肾癌、肺癌、恶性横纹肌样瘤、髓母细胞瘤、黑色素瘤、脑膜瘤、间皮瘤、多发性骨髓瘤、神经胶质瘤、非特指型(NOS)肉瘤、寡树突星状胶质细胞瘤、寡树突星形细胞瘤、骨肉瘤、卵巢癌、卵巢透明细胞腺癌、卵巢子宫内膜样腺癌、卵巢浆液性腺癌、胰腺癌、胰管腺癌、胰腺内分泌肿瘤、松果体母细胞瘤、前列腺癌、肾细胞癌、肾神经管癌、横纹肌肉瘤、肉瘤、神经鞘瘤、皮肤鳞状细胞癌和干细胞癌。在各种特定实施例中，癌症为卵巢癌。在各种特定实施例中，癌症为乳腺癌。

(IX-d-i)用于治疗癌症类型的LCR、启动子、编码序列和载体

本文所述的腺病毒供体载体适用于治疗癌症。在这类腺病毒供体载体以及腺病毒供体基因组、转位系统和腺病毒产生系统的实施例中，所提供的长LCR可用于介导基因转移到适用于治疗癌症的目标细胞。所属领域的一般技术人员将认识到适用于治疗特定类型的癌症的合适启动子、编码序列和载体结构。另外，本文中描述了这些元件的实例。

在特定实施例中，腺病毒供体载体可包括表达癌症特异性或癌症靶向的治疗性基因的序列。这类癌症靶向的治疗性基因的实例包括结合癌症抗原(例如CD19、ROR1或其它，包括本文所述的癌症抗原)的抗体片段，其中抗体片段的序列与编码TCR亚基或其部分的核酸序列邻接且在相同阅读框中。这类TFP能够与一个或一个以上内源性(或者，一个或一个以上外源性或内源性与外源性组合)TCR亚基缔合，以便形成功能性TCR复合物。

在特定实施例中，治疗性基因可编码抗体或抗体的结合片段，例如Fab或scFv。可表达的示例性抗体(包括scFv)包括WO2014164553A1、US20170283504、US7083785B2、US10189906B2、US10174095B2、WO2005102387A2、US20110206701A1、WO2014179759A1、US20180037651A1、US20180118822A1、WO2008047242A2、WO1996016990A1、WO2005103083A2和WO1999062526A2中提供的那些抗体。还可使用本文中关于结合结构域所描述的抗体，以及阿特珠单抗、布林莫单抗(blinatumomab)、本妥昔单抗(brentuximab)、西妥昔单抗、瑟吐珠单抗(cirmtuzumab)、法妥组单抗(farletuzumab)、吉妥珠单抗(gemtuzumab)、OKT3、奥戈伏单抗(oregovomab)、普偌米昔单抗(promiximab)、派姆单抗(pembrolizumab)和曲妥珠单抗(trastuzumab)。

还可使用免疫检查点抑制剂。免疫检查点抑制剂是指抑制免疫抑制检查点蛋白的功能的化合物。抑制包括降低功能和完全阻断。优选免疫检查点抑制剂为特异性识别免疫检查点蛋白的抗体。在特定实施例中，免疫检查点抑制剂增强受试者的CD8+T细胞的增殖、迁移、持久性和/或细胞毒性活性，且特定地说，增强受试者的CD8+T细胞的肿瘤浸润。因此，本公开的示例性免疫检查点抑制剂包括αPD-L1γ1抗体(或者称为αPD-L1γ₁)。αPD-L1γ1进一步描述于英格兰(Engeland)等人2014《分子疗法》22(11):1949-1959。

PD-1和PD-L1抗体的实例描述于US 7,488,802；US 7,943,743；US 8,008,449；US8,168,757；US 8,217,149、WO03042402、WO2008156712、WO2010089411、WO2010036959、WO2011066342、WO2011159877、WO2011082400和WO2011161699。在一些实施例中，PD-1阻断剂包括抗PD-L1抗体。在其它实施例中，PD-1阻断剂包括抗PD-1抗体和类似结合蛋白，例如纳武单抗(nivolumab)(MDX 1106、BMS 936558、ONO 4538)、通过配体PD-L1和PD-L2结合于PD-1且阻断PD-1活化的完全人IgG4抗体；拉立珠单抗(lambrolizumab)(MK-3475或SCH900475)、针对PD-1的人源化单克隆IgG4抗体；CT-011，结合PD-1的人源化抗体；AMP-224，B7-DC的融合蛋白；抗体Fc部分；用于阻断PD-L1(B7-H1)的BMS-936559(MDX-1105-01)。

其它免疫检查点抑制剂包括淋巴细胞活化基因-3(LAG-3)抑制剂，例如IMP321(一种可溶性Ig融合蛋白)(布里尼奥内(Brignone)等人,2007,《免疫学杂志》179:4202-4211)。其它免疫检查点抑制剂包括B7抑制剂，例如B7-H3和B7-H4抑制剂。详言的，抗B7-H3抗体MGA271(卢(Loo)等人,2012,《临床癌症研究(Clin.Cancer Res.)》7月15日(18)3834)。还包括TIM3(T细胞免疫球蛋白结构域和粘蛋白结构域3)抑制剂(富尔卡德(Fourcade)等人,2010,《实验医学杂志(J.Exp.Med.)》207:2175-86和避石(Sakuishi)等人,2010,《实验医学杂志》207:2187-94)。如本文所用，术语“TIM-3”具有其在所属领域中的一般含义且是指T细胞免疫球蛋白和含粘蛋白结构域的分子3。TIM-3的天然配体为半乳糖凝集素9(Ga19)。因此，如本文所用的术语“TIM-3抑制剂”是指可抑制TIM-3的功能的化合物、物质或组合物。举例来说，抑制剂可抑制TIM-3的表达或活性，调节或阻断TIM-3信号传导通路和/或阻断TIM-3与半乳糖凝集素-9的结合。对TIM-3具有特异性的抗体是所属领域中众所周知的且通常为WO2011/155607、WO2013/006490和WO2010/117057中所述的抗体。

额外的特定免疫检查点抑制剂包括阿特珠单抗、BMS-936559、伊派利单抗(ipilimumab)、MEDI0680、MEDI4736、MSB0010718C、派姆单抗(pembrolizumab)、皮立珠单抗(pidilizumab)和曲美木单抗(tremelimumab)。还参见WO 1998/42752；WO 2000/37504；WO2001/014424；WO 2004/035607；US 2005/0201994；US 2002/0039581；US 2002/086014；US5,811,097；US 5,855,887；US 5,977,318；US 6,051,227；US 6,984,720；US 6,682,736；US6,207,156；US 6,682,736；US 7,109,003；US 7,132,281；EP1212422B1；赫尔维茨(Hurwitz)等人,《美国国家科学院院刊》,95(17):10067-10071(1998)；卡马乔(Camacho)等人,《临床肿瘤学杂志(J.Clin.Oncology)》,22(145):文摘号2505(2004)(抗体CP-675206)；和莫克(Mokyr)等人,《癌症研究》,58:5301-5304(1998)。

(IX-d-ii)剂量和配制物

在癌症的情形下，治疗有效量可减少肿瘤细胞数目，减少癌转移的数目，减小肿瘤体积，增加预期寿命，诱导癌细胞的细胞凋亡，诱导癌细胞死亡，诱导癌细胞中的化学或放射敏感性，抑制癌细胞附近的血管生成，抑制癌细胞增殖，抑制肿瘤生长，预防癌转移，延长受试者寿命，减少癌症相关疼痛，减少癌转移的数目，和/或减少癌症在治疗后复发或再发。

特定实施例，向受试者投与配制物以预防或延迟癌症复发或预防或延迟高风险种系突变携带者中的癌症发作。在特定实施例中，向受试者投与配制物以接受较高治疗剂量的替莫唑胺(TMZ)和苯甲基鸟嘌呤或BCNU。由于强骨髓抑制脱靶作用，因此将有效剂量的TMZ和苯甲基鸟嘌呤递送到肿瘤仍然是一种挑战。患者当前可接受TMZ和苯甲基鸟嘌呤以用于与以下相关的治疗：急性骨髓性白血病(AML)、食道癌、头颈癌、高级别神经胶质瘤、骨髓发育不良综合征、非小细胞肺癌、NSCLC；难治性AML、小细胞肺癌、多形性星形细胞瘤、脑肿瘤、乳腺癌(例如转移性)、大肠直肠癌(例如转移性)、弥漫性内源性脑干神经胶质瘤、尤文氏肉瘤、多形性胶质母细胞瘤(GBM)、恶性神经胶质瘤、黑色素瘤、转移性恶性黑色素瘤、复发性恶性黑色素瘤、鼻咽癌、转移性乳腺癌和儿科癌症。

具有表达MGMT的肿瘤的患者将受益于活性成分(例如CAR、TCR或抗体)与MGMTP140k体内选择盒组合的治疗性大负载腺病毒载体的投与。离体方法已展示该方法的适用性。在特定实施例中，投与治疗量的TMZ和苯甲基鸟嘌呤或BCNU以减小肿瘤负荷或体积。

(IX-e)治疗点突变病状(例如镰状细胞)

在特定实施例中，本文所公开的方法和配制物可用于治疗点突变病状。在特定实施例中，向受试者投与配制物以治疗镰状细胞病、囊肿性纤维化、泰-萨克斯病和/或苯酮尿症。在各种实施例中，本公开的转位子负载编码用于核酸病变的校正性编辑的CRISPR-Cas。在各种实施例中，本公开的转位子负载编码用于核酸病变的校正性编辑的碱基编辑器。

(IX-f)治疗特定酶缺乏症

在特定实施例中，本文所公开的方法和配制物可用于治疗特定酶缺乏症。在特定实施例中，向受试者投与配制物以治疗贺勒氏综合征(Hurler's syndrome)、选择性IgA缺乏症、高IgM、IgG子类缺乏症、尼曼-皮克病(Niemann-Pick disease)、泰-萨克斯病、戈谢病(Gaucher disease)、法布里病(Fabry disease)、克拉培病(Krabbe disease)、半乳糖血症、枫糖浆尿病、苯酮尿症、肝糖贮积病、弗里德赖希共济失调(Friedreich ataxia)、泽尔韦格综合征(Zellweger syndrome)、肾上腺脑白质营养不良、补体病症和/或粘多糖贮积症。

在特定实施例中，本公开的方法可使有需要的受试者中对免疫接种的初级和二级抗体反应正常化。对免疫接种的初级和二级抗体反应正常化可包括恢复在类别转换和对抗原的记忆反应中起作用的B细胞和/或T细胞细胞因子信号传导程序。对免疫接种的初级和二级抗体反应正常化可通过噬菌体免疫接种分析测量。在特定实施例中，可在用T细胞依赖性新抗原噬菌体ΨX174免疫接种之后分析B细胞和/或T细胞细胞因子信号传导程序的恢复。在特定实施例中，对免疫接种的初级和二级抗体反应正常化可包括使有需要的受试者中的IgA、IgM和/或IgG含量提高到与源自对照群体的参考含量相当的含量。在特定实施例中，对免疫接种的初级和二级抗体反应正常化可包括使有需要的受试者中的IgA、IgM和/或IgG的含量增加到超过未投与本文所述的基因疗法的有需要的受试者的含量的含量。IgA、IgM和/或IgG的含量可通过例如免疫球蛋白测试测量。在特定实施例中，免疫球蛋白测试包括结合IgG、IgA、IgM、κ轻链、λ轻链和/或重链的抗体。在特定实施例中，免疫球蛋白测试包括血清蛋白质电泳、免疫电泳、辐射状免疫扩散法、浊度测定法和比浊法。市售免疫球蛋白测试试剂盒包括MININEPH^TM(英国伯明翰的拜定赛公司(Binding site,Birmingham,UK))和来自达科(Dako)(丹麦(Denmark))和德灵(Dade Behring)(德国马尔堡(Marburg,Germany))的免疫球蛋白测试系统。在特定实施例中，可用于测量免疫球蛋白含量的样品包括血液样品、血浆样品、脑脊髓液样品和尿液样品。

在特定实施例中，本公开的方法可用于治疗SCID-X1。在特定实施例中，本公开的方法可用于治疗SCID(例如JAK 3激酶缺乏症SCID、嘌呤核苷磷酸化酶(PNP)缺乏症SCID、腺苷脱氨酶(ADA)缺乏症SCID、MHC II类缺乏症或重组酶活化基因(RAG)缺乏症SCID)。在特定实施例中，治疗功效可经由淋巴细胞复原、改良克隆多样性和胸腺产生、减少感染和/或改善患者结果来观察。还可经由以下中的一者或一者以上观察治疗功效：体重增加和生长、改善胃肠道功能(例如减少腹泻)、减少上呼吸道症状、减少口腔真菌感染(鹅口疮)、减少肺炎发生率和严重程度、减少脑膜炎和血流感染以及减少耳部感染。在特定实施例中，用本公开的方法治疗SCIDX-1包括恢复对γC依赖性信号传导通路的功能性。γC依赖性信号传导通路的功能性可通过在分别用IL-21和/或IL-2进行体外刺激之后测量效应分子STAT3和/或STAT5的酪氨酸磷酸化来分析。STAT3和/或STAT5的酪氨酸磷酸化可通过细胞内抗体染色测量。

(IX-i)其它用途

(IX-i-i)HIV(代表性感染物)

特定实施例包括治疗继发性或获得性免疫缺陷，例如由创伤、病毒、化学疗法、毒素和污染所导致的免疫缺陷。如前所指示，获得性免疫缺陷综合征(AIDS)为由病毒人类免疫缺陷病毒(HIV)引起的继发性免疫缺陷病症的实例，其中T淋巴细胞耗竭使得身体无法对抗感染。因此，作为另一实例，可选择提供针对感染性疾病的治疗有效反应的基因。在特定实施例中，感染性疾病为人类免疫缺陷病毒(HIV)。治疗性基因可为例如使免疫细胞对HIV感染具抗性或使免疫细胞能够经由免疫重建有效中和病毒的基因；编码由免疫细胞表达的蛋白质的基因的多态性；有利于对抗在患者中未表达的感染的基因；编码感染物、受体或共受体的基因；编码受体或共受体的配体的基因；病毒复制必需的病毒和细胞基因，包括；编码核糖核酸酶、反义RNA、小干扰RNA(siRNA)或诱饵RNA以阻断某些转录因子的作用的基因；编码显性阴性病毒蛋白、细胞内抗体、细胞内趋化因子的基因和自杀基因。示例性治疗性基因和基因产物包括α2β1；αvβ3；αvβ5；αvβ63；BOB/GPR15；Bonzo/STRL-33/TYMSTR；CCR2；CCR3；CCR5；CCR8；CD4；CD46；CD55；CXCR4；氨基肽酶-N；HHV-7；ICAM；ICAM-1；PRR2/HveB；HveA；α-肌营养不良蛋白聚糖；LDLR/α2MR/LRP；PVR；PRR1/HveC；和层粘连蛋白受体。用于治疗HIV的治疗有效量例如可增加受试者对HIV的免疫性，改善与AIDS或HIV相关的症状，或诱导受试者中针对HIV的固有或适应性免疫反应。针对HIV的免疫反应可包括产生抗体且预防AIDS和/或改善受试者的AIDS或HIV感染的症状，或降低或消除HIV感染性和/或毒性。

包括以下示例性实施例和实例以展示本公开的特定实施例。根据本公开，所属领域的一般技术人员应认识到，在不背离本公开的精神和范围的情况下可对所公开的特定实施例作出许多改变且仍获得相同或相似结果。

(X)示例性实施例.

1.一种腺病毒供体载体，其包括：(a)腺病毒衣壳；和(b)线性双股DNA基因组，其包括：(i)至少10kb的转位子负载；(ii)侧接所述转位子负载的转位子反向重复序列(IR)；和(iii)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

2.一种腺病毒供体基因组，其包括：(a)至少10kb的转位子负载；(b)侧接所述转位子负载的转位子反向重复序列(IR)；和(c)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

3.一种腺病毒转位系统，其包括：(a)实施例1的腺病毒供体载体；和

(b)腺病毒支撑载体，其包括：(i)腺病毒衣壳；和(ii)腺病毒支撑基因组，其包括编码转位酶的核酸序列。

4.一种腺病毒转位系统，其包括：(a)实施例2的腺病毒供体基因组；和(b)腺病毒支撑基因组，其包括编码转位酶的核酸序列。

5.一种腺病毒产生系统，其包括：(a)包括实施例2的腺病毒供体基因组的核酸；和(b)包括腺病毒辅助基因组的核酸，所述腺病毒辅助基因组包括条件性包装元件。

6.实施例1到5中任一项的载体、基因组或系统，其中所述转位子负载包括长LCR，任选地其中所述长LCR为包括β-球蛋白LCR HS1至HS5的β-球蛋白长LCR。

7.实施例6的载体、基因组或系统，其中所述长LCR具有至少27kb的长度。

8.实施例1到6中任一项的载体、基因组或系统，其中所述转位子负载包括表1中所阐述的LCR。

9.实施例1到6中任一项的载体、基因组或系统，其中所述转位子负载具有至少15kb、至少16kb、至少17kb、至少18kb、至少19kb、至少20kb、至少21kb、至少22kb、至少23kb、至少24kb、至少25kb、至少30kb、至少35kb、至少38kb或至少40kb的长度。

10.实施例1到6中任一项的载体、基因组或系统，其中所述转位子负载具有10kb-35kb、10kb-30kb、15kb-35kb、15kb-30kb、20kb-35kb或20kb-30kb的长度。

11.实施例1到6中任一项的载体、基因组或系统，其中所述转位子负载具有10kb-32.4kb、15kb-32.4kb或20kb-32.4kb的长度。

12.实施例1到11中任一项的载体、基因组或系统，其中所述转位子负载包括编码蛋白质的核酸序列，任选地其中所述蛋白质为治疗性蛋白质。

13.实施例12的载体、基因组或系统，其中所述蛋白质选自包括β球蛋白替代蛋白和γ-球蛋白替代蛋白的群组。

14.实施例12的载体、基因组或系统，其中所述蛋白质为第八因子替代蛋白。

15.实施例12或13的载体、基因组或系统，其中编码所述蛋白质的所述核酸序列与启动子可操作地连接，任选地其中所述启动子为β球蛋白启动子。

16.实施例1到15中任一项的载体、基因组或系统，其中所述转位子反向重复序列为睡美人(SB)反向重复序列，任选地其中所述SB反向重复序列为pT4反向重复序列。

17.实施例3到15中任一项的载体、基因组或系统，其中所述转位酶为睡美人(SB)转位酶，任选地其中所述转位酶为睡美人100x(SB100x)。

18.实施例1到17中任一项的载体、基因组或系统，其中所述重组酶正向重复序列为FRT位点。

19.实施例3到18中任一项的载体、基因组或系统，其中所述腺病毒支撑基因组包括编码重组酶的核酸。

20.实施例19的载体、基因组或系统，其中所述重组酶为FLP重组酶。

21.实施例1到20中任一项的载体、基因组或系统，其中所述转位子负载包括β-球蛋白长LCR，所述转位子负载包括与β-球蛋白启动子可操作地连接的编码β-球蛋白的核酸序列，所述反向重复序列为SB反向重复序列，且所述重组酶正向重复序列为FRT位点。

22.实施例1到21中任一项的载体、基因组或系统，其中在所述转位子负载中包括选择盒，任选地其中所述选择盒包括编码mgmt^P140K的核酸序列。

23.实施例1到22中任一项的载体、基因组或系统，其中所述腺病毒衣壳被修饰成对CD46的亲和力增加，任选地其中所述腺病毒衣壳为Ad35++衣壳。

24.实施例5到23中任一项的腺病毒产生系统，其中所述腺病毒辅助基因组的条件性包装元件包括被重组酶正向重复序列侧接的包装序列。

25.实施例24的腺病毒产生系统，其中侧接所述条件性包装元件的所述包装序列的所述重组酶正向重复序列为LoxP位点。

26.一种细胞，其包括实施例1到25中任一项的载体、基因组或系统。

27.一种细胞，其在其基因组中包括实施例1到25中任一项的转位子负载，其中在所述细胞的所述基因组中存在的所述转位子负载被所述转位子反向重复序列侧接。

28.实施例26或27的细胞，其中所述细胞为造血干细胞。

29.一种产生腺病毒的细胞，其包括实施例5至25中任一项的腺病毒产生系统，任选地其中所述细胞为HEK293细胞。

30.一种修饰细胞的方法，所述方法包括使所述细胞与实施例1到25中任一项的载体、基因组或系统接触。

31.一种修饰受试者的细胞的方法，所述方法包括向所述受试者投与实施例1到25中任一项的载体、基因组或系统。

32.一种修饰受试者的细胞的方法，其在不从所述受试者分离所述细胞下进行，所述方法包括向所述受试者投与实施例1到25中任一项的载体、基因组或系统。

33.一种治疗有需要受试者的疾病或病状的方法，所述方法包括向所述受试者投与实施例1到25中任一项的载体、基因组或系统。

34.实施例31到33中任一项的方法，其中所述腺病毒供体载体经静脉内投与到所述受试者。

35.实施例31到34中任一项的方法，其中所述方法包括向所述受试者投与动员剂，任选地其中所述动员剂包括粒细胞-集落刺激因子(G-CSF)、CXCR4拮抗剂和CXCR2激动剂中的一者或一者以上。

36.实施例35的方法，其中所述CXCR4拮抗剂为AMD3100。

37.实施例35或36的方法，其中所述CXCR2激动剂是GRO-β。

38.实施例31到37中任一项的方法，其中所述转位子负载包括选择盒且所述方法包括向所述受试者投与选择剂。

39.实施例38的方法，其中所述选择盒编码mgmt^P140K且所述选择剂为O⁶BG/BCNU。

40.实施例31到39中任一项的方法，其中所述方法引起至少20％、30％、40％、50％、60％、70％、80％、90％或95％表达CD46的细胞中整合和/或表达所述转位子负载的至少一个拷贝。

41.实施例31到39中任一项的方法，其中所述方法引起至少20％、30％、40％、50％、60％、70％、80％、90％或95％造血干细胞和/或红血球系Ter119⁺细胞中整合和/或表达所述转位子负载的至少一个拷贝。

42.实施例31到41中任一项的方法，其中所述方法引起包括所述转位子负载的至少1个拷贝的细胞的基因组中整合所述转位子负载的平均至少2个拷贝。

43.实施例31到42中任一项的方法，其中所述方法引起包括所述转位子负载的至少1个拷贝的细胞的基因组中整合所述转位子负载的平均至少2.5个拷贝。

44.实施例31到43中任一项的方法，其中所述方法引起由所述转位子负载编码的蛋白质以参考量的至少约20％的量表达，任选地其中所述参考为内源性参考蛋白在所述受试者中或参考群体中的表达。

45.实施例31到43中任一项的方法，其中所述方法引起由所述转位子负载编码的蛋白质以参考量的至少约25％的量表达，任选地其中所述参考为内源性参考蛋白在所述受试者中或参考群体中的表达。

46.实施例31到45中任一项的方法，其中所述受试者为罹患中间型地中海贫血的受试者，其中所述转位酶负载包含包括β-球蛋白LCR HS1至HS5的β-球蛋白长LCR和与β球蛋白启动子可操作地连接的编码β球蛋白替代蛋白和/或γ-球蛋白替代蛋白的核酸序列。

47.实施例31到45中任一项的方法，其中所述受试者为罹患血友病的受试者，其中所述转位酶负载包含包括β-球蛋白LCR HS1至HS5的β-球蛋白长LCR和与β球蛋白启动子可操作地连接的编码第八因子替代蛋白的核酸序列。

48.实施例47的方法，其中所述受试者中所述蛋白质的表达减少中间型地中海贫血的至少一种症状和/或治疗中间型地中海贫血。

(XI)实验实例

实例1.大负载腺病毒载体基因疗法.

引言.为了使血红蛋白病(例如重型地中海贫血和镰状细胞贫血症)的基因疗法成功，转移基因优选在红血球系细胞中表达量高，而无整合的位置效应和转录沉默。认为β-球蛋白基因座控制区域(LCR)有益于这类用途。对于基因疗法应用，含有HS1至HS5的β-球蛋白LCR已展示赋予转基因小鼠中顺式连接的基因高表达量(格罗斯维尔德(Grosveld)等人,《细胞》51:975-985,1987)。然而，该LCR型式太大而不能用于慢病毒载体(插入容量8kb)中，因此已开发出截短的“微型”或“微小”LCR型式。举例来说，在地中海贫血患者的持续临床试验中，使用含有2.7kb微型LCR(覆盖HS2-HS4)和266bpβ-球蛋白启动子的慢病毒(内格雷(Negre)等人,《当今基因疗法(Curr Gene Ther)》15:64-81,2015)。先前采用含有HS1至HS4和β-球蛋白启动子的5.9kbβ-球蛋白LCR型式，用于在CD46转基因小鼠或CD46/Hbb^th3地中海贫血小鼠中表达γ-球蛋白(王(Wang)等人,《临床检查杂志(J Clin Invest)》129:598-615,2019)。使用体内HSPC转导/选择方法，在接近100％外周血红血球中实现γ-球蛋白标记，而γ-球蛋白表达量为成年小鼠α-球蛋白的10％至15％，平均整合载体拷贝数(VCN)为2至3个拷贝/细胞。

对于完全治愈β₀/β₀地中海贫血或镰状细胞贫血症来说，通常认为红血球系细胞中需要20％的治疗性球蛋白(γ-或β-球蛋白)表达量(菲茨休(Fitzhugh)等人,《血液》130:1946-1948,2017)。达到这一水平的一种方式是通过提高HSPC转导或增加载体剂量来增加VCN。然而，至少部分地归因于所用载体系统的随机整合模式，在历史上已经在其它情形中观察到这些方法增加毒性风险。在本实例中，在CD46转基因小鼠的体内HSPC转导之后，使用较强转录元件，即较长LCR型式增加每个RBC的γ-球蛋白表达。

我们研发出不需要白血球清除术、骨髓清除和HSPC移植的新颖体内HSPC转导方法(里克特(Richter)等人,《血液》,128:2206-2217,2016)。所述方法涉及适用于体内HSPC转导，即辅助病毒依赖性的经衣壳改性的腺病毒载体(HDAd5/35++)的新载体平台。这些载体的特征包括CD46亲和力增强型纤维，其允许原始HSC的高效转导，同时避免在静脉内注射之后非造血组织的感染且插入容量高达30b。由于可接近性有限，所以位于骨髓中的HSPC无法通过静脉内注射载体(包括HDAd5/35++载体)转导，即使当载体靶向骨髓细胞上存在的受体时(倪(Ni)等人,《人类基因疗法(Hum Gene Ther)》,16:664-677,2005和倪等人,《癌症基因疗法》,13:1072-1081,2006)。粒细胞-集落刺激因子(G-CSF)与CXCR4拮抗剂AMD3100(Mozobil^TM、Plerixa^TM)的组合已展示在动物模型和人类中有效地动员原始祖细胞(弗吕霍夫(Fruehauf)等人,《细胞疗法(Cytotherapy)》,11:992-1001,2009和岩永(Yannaki)等人,《人类基因疗法》,24:852-860,2013)。使用G-CSF/AMD3100将HSPC从骨髓动员到外周血流中，随后静脉内注射HDAd5/35++载体。这在先前于人CD46转基因小鼠(里克特等人,《血液》,128:2206-2217,2016；李等人,《分子疗法-方法和临床发展(Mol Ther Methods ClinDev)》,9:390-401,2018；李等人,《血液》,131:2915-2928.2018；王等人,《临床检查杂志》,129:598-615.2019；王等人,《血液研究进展(Blood Adv)》,3:2883-2894,2019；以及王等人,《分子疗法-方法和临床发展》,8:52-64,2018)、人源化小鼠(里克特等人,《血液》,128:2206-2217,2016)和恒河猴(哈沃斯(Harworth)等人,《美国基因与细胞治疗学会第21届年会(ASCGT21th Annual meeting)》,2018,DOI:10.1016/j.ymthe.2018.05.001)中展示。在周边中转导的HSPC回到骨髓，在骨髓中其长期保留。在无增生优势的情况下，体内转导的HSPC不会有效离开骨髓且促进下游分化。用O⁶BG/BCNU对动物进行的短期治疗提供对经mgmt^P140K基因修饰的HSPC的增殖刺激且随后在>80％周边血细胞中转基因表达稳定(王等人,《分子疗法-方法和临床发展》,8:52-64,2018)。

HD-Ad5/35++基因组不整合到宿主细胞基因组中且在细胞分裂时损失。出于基因疗法的目的且为了长期追踪体内转导的HSPC，HD-Ad5/35++载体被修饰成允许转基因整合。这通过并入过度活跃睡美人转位酶系统(SB100)进行(张(Zhang)等人,《公共科学图书馆·综合(PLoS One)》,8:e75344,2013；豪斯尔(Hausl)等人,《分子疗法》,18:1896-1906,2010；和扬特等人,《自然—生物技术》,20:999-1005,2002)。所述转位酶，从第二载体以反式共表达，识别侧接转基因盒的特异性DNA序列(反向重复序列，“IR”)且触发整合到染色体DNA的TA二核苷酸中。不同于逆转录病毒整合，SB100x介导的整合不视靶向基因的转录状态而定(扬特等人,《分子细胞生物学(《分子细胞》Biol)》,25:2085-2094,2005)。几种研究已经证明SB100x介导的转基因整合为随机的且尚未与原癌基因的活化相关(里克特等人,《血液》,128:2206-2217,2016；王等人,《分子疗法-方法和临床发展》,8:52-64,2018；张等人,《公共科学图书馆·综合》,8:e75344,2013；豪斯尔等人,《分子疗法》,18:1896-1906,2010；和扬特等人,《自然—生物技术》,20:999-1005,2002)。基于SB100x的整合系统的优势在于其不视细胞的高效同源DNA修复机制而定。后者在显示低DNA修复和重组酶活性的HSPC中至关重要(比尔曼(Beerman)等人,《细胞干细胞(Cell Stem Cell)》,15:37-50,2014)。证明在CD46转基因小鼠(里克特等人,《血液》,128:2206-2217,2016；王等人,《临床检查杂志》,129:598-615.2019；李等人,《分子疗法》,27:2195-2212,2019；李等人,《分子疗法-方法和临床发展》,9:142-152,2018；以及王等人,《病毒学杂志(J Virol)》,79:10999-11013,2005)和人CD34+细胞(李等人,《分子疗法》,27:2195-2212,2019)中HDAd35++-转位子载体和SB100x/Flpe表达载体的体内HSC共感染引起2个转基因拷贝/细胞的随机转基因整合，对基因无偏好。

人类基因组通常通过形成环而组织成在调控区(即转录因子结合位点)之间具有长程相互作用的3D结构。大多数这些相互作用在拓朴关联结构域(TAD)的情形下发生。TAD被视为染色体组织的功能单元，其中增强子与其它调控区相互作用以控制转录。认为TAD/LCR边界隔绝限制增强子和启动子的搜寻空间且防止形成不合需要的调控接触点。在这些结构域的两侧的边界在不同哺乳动物细胞类型之间，甚至在整个物种中保守。

当前使用的慢病毒和rAAV基因转移载体只能容纳小的增强子/启动子，通常导致次佳的转基因表达量和组织特异性、转基因沉默和与载体整合位点周围的调控区非故意的相互作用。在最坏的情况下，后者会引起原癌基因的活化。

为了增加基因疗法的安全性和功效，TAD应用于基因添加策略。TAD的中值尺寸为880kb。随着高通量染色体构象捕获(3C)分析和其后续4C、5C和Hi-C方案以及fiber-Seq分析的进一步进展，调控基因组的询问将快速进行，且出于基因疗法目的，可递送仅含有关键核心元件的TAD。

b-球蛋白基因座控制区域(LCR)属于TAD的定义。人β-球蛋白基因簇位于染色体11中且跨越100kb。已提出β-球蛋白基因座形成由顺式调控元件和活性β-球蛋白基因构成的红血球特异性空间结构，称为活性染色质中心(ACH)(托哈尔斯(Tolhuis)等人,《分子细胞(Mol Cell)》,10:1453-1465,2002)。核心ACH为发育保守的，且包括上游5'DNA水解酶超敏感区1至5，称为球蛋白LCR，和下游3'HS1以及红血球特异性反式作用因子(吉姆等人,《分子细胞生物学》,27:4551-65,2007)。为了使血红蛋白病(例如重型地中海贫血和镰状细胞贫血症)的基因疗法成功，转移基因必须在红血球系细胞中表达量高，而无整合的位置效应和转录沉默。为达成这一点，认为需要β-球蛋白基因座控制区域(LCR)(埃利斯(Ellis)等人,《临床遗传学(Clin Genet)》,59:17-24,2001)。对于基因疗法应用，值得注意的是，含有HS1至HS5的23kbβ-球蛋白LCR赋予转基因小鼠中的顺式连接的基因高水平的红血球特异性非位置依赖性表达(格罗斯维尔德等人,《细胞》,51:975-985,1987)。然而，该LCR型式太大而不能用于慢病毒载体(插入容量8kb)中，因此已开发出截短的“微型”或“微小”LCR型式。举例来说，在地中海贫血患者的持续临床试验中，使用含有2.7kb微型LCR(覆盖HS2-HS4)和266bpβ-球蛋白启动子的慢病毒(内格雷等人,《当今基因疗法》,15:64-81,2015)。在先前体内HSPC转导研究中，采用含有HS1至HS4和β-球蛋白启动子的5.9kbβ-球蛋白LCR型式，用于在CD46转基因小鼠或CD46/Hbb^th3地中海贫血小鼠中表达γ-球蛋白(王等人,《临床检查杂志》,129:598-615.2019)。使用该体内HSPC转导/选择方法，在接近100％外周血红血球中实现γ-球蛋白标记，然而，γ-球蛋白表达量仅为成年小鼠α-球蛋白的10％至15％，平均整合载体拷贝数(VCN)为2-3个拷贝/细胞。对于治愈β₀/β₀地中海贫血或镰状细胞贫血症来说，通常认为红血球系细胞中需要水平为20％的治疗性球蛋白(γ-或β-球蛋白)(菲茨休等人,《血液》,130:1946-1948,2017)。达到这一点的一种方式是通过提高HSPC转导或增加载体剂量来增加VCN，然而，考虑到该载体系统的随机整合模式，这一方式具有增加基因毒性的风险。因此，聚焦于在CD46转基因小鼠和地中海贫血小鼠的体内HSPC转导之后，利用29kb LCR型式增加γ-球蛋白表达/RBC。

结果.作为静脉内注射HDAd5/35++载体的体内转导研究的模型，使用含有完整人CD46基因座且因此以与人类类似的模式和量表达hCD46的转基因小鼠(hCD46tg小鼠)(肯珀(Kemper)等人,(2001)《临床和实验免疫学》124:180-189)。

含有长β-球蛋白LCR的HDAd5/35++载体.在王等人(《临床检查杂志(J.ClinInvest.)》129(2):598-615,2019)中描述的研究中，使用HDAd5/35++载体，其在连接于1.6kbβ-球蛋白启动子的4.3kb微型LCR(涵盖HS1至HS4的核心元件；利索夫斯基(Lisowski)等人,《血液》110:4175-4178,2007)控制下表达γ-球蛋白(王等人,《临床检查杂志》129:598-615,2019；李等人,《分子疗法-方法和临床发展》9:142-152,2018)。在本实例中，构建含有以下元件以使γ-球蛋白基因表达最大化的HDAd5/35++载体：i)包括全长HS5至HS1区域的21.5kb LCR，ii)1.6kbβ-球蛋白启动子，iii)β-球蛋白3'UTR以使γ-球蛋白mRNA稳定，和iv)3'HS1区域。载体称为HDAd-长-LCR(图1A)。为了介导整合，LCR-载体与表达SB100x/Flpe的HDAd载体组合使用(图1A)。

在各种实施例中，3'HS1具有chr11位置5206867-5203839的以下核酸序列。在各种实施例中，3'HS1具有如SEQ ID NO:102中所示的以下核酸序列或与SEQ ID NO:102具有至少80％序列一致性的序列，例如与SEQ ID NO:102具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％一致性的序列。

离体HSPC转导/移植研究.HDAd-长-LCR含有32.4kb转位子。虽然SB系统已显示能够递送大货物(罗斯托夫斯卡亚(Rostovskaya)等人,《核酸研究》40:e150,2012)，但其是否可介导32.4kb转位子的染色体整合是未知的。因此，在可控制转导功效的环境中进行离体HSPC转导。CD46tg小鼠骨髓谱系阴性(Lin^-)细胞(HSPC富集的细胞部分)经HDAd-长-LCR+HDAd-SB离体转导(图1A、1B)。接着将离体转导的细胞移植于接受致死辐射的C57Bl/6小鼠中。基于CD46阳性PBMC，第4周的植入率>95％。载体中mgtm^P140K突变基因的存在允许用O⁶BG/BCNU在体内选择转导的细胞(王等人,《分子疗法-方法和临床发展》8:52-64,2018)。移植之后一个月，对小鼠进行四轮O⁶BG/BCNU处理以选择性扩增整合γ-球蛋白/mgmt转基因的祖细胞(图1A)。在每轮体内选择下，第20周(研究结束时)β-球蛋白阳性外周血红细胞(RBC)的百分比增加，达到>95％(图1C)。第20周，杀死动物且分析骨髓单核细胞(MNC)。通过qPCR测量的平均VCN为2.8个拷贝/细胞。通过流式细胞术，在85.46(+/-5.9)％的红血球系Ter119⁺细胞和14.54(+/-2.3)％非红血球系(Ter119^-)骨髓MNC中检测到γ-球蛋白表达(图1D)。

为了证明源自SB100x整合的转基因的γ-球蛋白表达，对来自移植后第20周收获的骨髓单核细胞(MNC)的基因组DNA进行反向PCR(iPCR)分析。iPCR方案涉及用SacI消化基因组DNA、重新接合/环化步骤、巢式PCR和载体/染色体接合点的测序(图2A)。(图2B)展示三种代表性PCR产物和整合位点在染色体4、15和X上的定位。产物的测序显示在载体IR/DR-染色体接合点处包括TA二核苷酸的SB100x介导的整合典型的载体/染色体接合点(图2C)。总之，在离体HSPC转导研究中，长球蛋白LCR赋予源自SB100x整合的转位子的高γ-球蛋白表达量。

在含有短对比长LCR的HDAd5/35++载体下CD46b转基因小鼠中的体内HSPC转导.对HDAd-长-LCR和先前使用的含有微型LCR的载体(王等人,《临床检查杂志》129:598-615,2019；李等人,《分子疗法-方法和临床发展》9:142-152,2018)(本文中称为“HDAd-短-LCR”)进行并列比较(图3A)。将CD46转基因小鼠用G-CSF/AMD3100动员且静脉内注射载体。在体内转导之后第5周开始四轮O⁶BG/BCNU选择，且追踪小鼠20周(图3B)。接着将第20周骨髓Lin^-细胞移植于接受致死辐射的C57Bl/6小鼠中且再监测二次接受者16周。与离体HSPC转导研究中一样，第20周，每轮体内选择达到两种载体>95％时，β-球蛋白阳性RBC的百分比增加(图3C)。在第20周样品的RBC溶解物上进行的HPLC显示HDAd-长-LCR载体显著更高的γ-球蛋白/成年小鼠α-球蛋白百分比(图3D)。这一差异也反映在mRNA含量上(图3E)。

第20周通过qPCR测量的骨髓MNC中的载体拷贝数为2.5-3个拷贝/细胞(图4)且所述载体之间的差异不显著。这表明了“短”11.8kb转位子的整合与“长”32.4kb转位子的整合一样有效。不管绝大部分红血球系细胞中的γ-球蛋白表达如何，用所述载体进行的体内HSPC转导不引起血液异常(第20周)(图5A-5B)。细胞骨髓的组成(图5C)和骨髓Lin^-细胞的集落形成潜力(图5D)在各组之间不显著。

在第20周收获的骨髓Lin^-细胞也用于使用线性扩增介导的PCR(LAM-PCR)进行全基因组整合分析，接着对整合接点进行测序(图6)。在从五只小鼠汇集的基因组DNA样品中，鉴别出总共76个独特的SB100x介导的整合位点(图7A，两页上)。IR/DR/染色体接合点含有TA二核苷酸(图7B)。绝大部分整合在基因间和内含子区域内，频率分别为82％和19％(图7C)。未发现原癌基因内或附近的整合。在整个小鼠基因组的任何给定窗中，整合为随机的，无优先整合(图7D)。

对二次接受者的分析.为了证明体内转导和SB100x介导的整合发生在长期再生HSPC中，将体内HSPC转导后第20周收获的骨髓Lin^-细胞移植到接受致死辐射的C57Bl/6小鼠(无hCD46转基因)中。经16周的时段评估移植的细胞驱动二次接受者中的多谱系复原的能力。基于PBMC中的hCD46表达的植入率为95％且保持稳定(图8A)。通过流式细胞术测量的RBC的γ-球蛋白标记在90％至95％范围内且稳定(图8B)。在两种载体之间γ-球蛋白⁺RBC的百分比不存在显著差异。在两种载体之间平均整合载体拷贝数也没有显著差异。为了测量γ-球蛋白表达量，使用HPLC(图8C)和qRT-PCR(图8D、8E)。在两种分析中，HDAd-长-LCR载体的γ-球蛋白与成年小鼠球蛋白链的百分比更大。该载体的γ-球蛋白含量在小鼠α-球蛋白的20％至25％范围内，这意味着其对血红蛋白病将有治愈性。除了赋予较高γ-球蛋白表达量以外，长LCR还提供了更严格的红血球特异性表达，如红血球系(Ter119⁺)部分对比非红血球系部分(Ter119^-)中显著较高百分比的表达γ-球蛋白的骨髓细胞所示(图9A、9B)。当体内HSPC转导后第16周收获时，在HDAd-短-LCR与HADad-长LCR之间骨髓MNC中的每个细胞的载体拷贝数无统计显著性(图9C)。与“初次”体内HSPC转导的小鼠中一样，在二次接受者中没有观察到高球蛋白表达量对骨髓的细胞组成或外周血中的血液参数的影响(图10A-10D)。

两种载体在人CD34+转导、体外选择和红血球系分化后的比较.由于在LCR内结合的转录因子缺乏保守，因此如小鼠红血球系细胞的异源系统中人β-球蛋白LCR的功能可能是次佳的。因此，在人细胞中进行体外研究(图11A)。以每个细胞4000vp的总MOI，即赋予大多数CD34+细胞转导的MOI，用HDAd-长-LCR+HDAd-SB或HDAd-短-LCR+HDAd-SB转导从GCSF动员的健康供体获得的人CD34+细胞(李等人,《分子疗法-方法和临床发展》9:390-401,2018)。随后转导的细胞进行红血球系分化(ED)且针对具有整合转基因的细胞进行O⁶BG/BCNU选择。在转导的细胞扩增18天期间，大部分游离型载体损失。在ED结束时，通过流式细胞术发现HDAd-长-LCR+HDAd-SB环境下γ-球蛋白+无核细胞(即损失细胞核的网织红细胞)的百分比显著较高(图11B)。HPLC分析也证实HDAd-长-LCR+HDAd-SB转导的细胞中γ-球蛋白链水平显著较高(图11C)。

示例性HDAd-长-LCR载体和HDAd-短-LCR载体的结构.在HDAd-长-LCR中，γ-球蛋白基因处于21.5kbβ-球蛋白LCR(chr11:5292319-5270789)、1.6kbβ-球蛋白启动子(chr11:5228631-5227023)和也来源于β-球蛋白基因座的3'HS1区域(chr11:5206867-5203839)的控制下。为了使红血球系细胞中的RNA稳定，将β-球蛋白基因UTR连接于g-球蛋白基因的3'末端。载体还含有mgmt^p140k的表达盒，允许转导的HSPC和HSPC子代的体内选择。γ-球蛋白与mgmt表达盒由鸡球蛋白HS4分离子分隔开。32.4kb LCR-γ-球蛋白/mgtm转位子被反向重复序列(IR)侧接，所述反向重复序列由SB100x和frt位点识别，允许转位子通过Flpe重组酶环化。在HDAd-短-LCR中，代替HDAd-长-LCR中存在的21.5kb HS1-HS5 LCR和3'HS1，该载体含有4.3kb微型-LCR，包括DNA水解酶超敏感位点(HS)1至4的核心区。转位子的长度为11.8kb。(图12A)将hCD46tg小鼠动员且IV注射HDAd-短-LCR+HDAd-SB或HDAd-长-LCR+HDAd-SB(两种病毒的1:1混合物4×10¹⁰vp)。五周后，开始O⁶BG/BCNU处理。在每个周期下，BCNU浓度从2.5mg/kg增加到7.5mg/kg和10mg/kg。所有三种处理中O⁶BG浓度均为30mg/kg。追踪小鼠，直到第20周，此时处死动物用于分析(图12B)。

中间型地中海贫血小鼠模型的研究：γ-球蛋白含量.对于这些研究，将(CD46+/+)小鼠与针对小鼠Hbb-β1和Hbb-β2基因缺失为异型接合的Hbb^th3小鼠交配(杨等人,《美国国家科学院院刊》,92:11608-11612,1995)。所得Hbb^th3/CD46^+/+小鼠具有中间型地中海贫血的典型表型(王等人,《临床检查杂志》,129:598-615.2019)。动员Hbb^th3/CD46^+/+小鼠且IV注射HDAd-长-LCR和HDAd-短LCR(图18A)。四周后，开始4轮O⁶BG/BCNU剂量递增的体内选择。外周血红细胞中的γ-球蛋白标记在第二个体内选择周期中已平均为40％且在经HDAd-长-LCR转导的小鼠的第三个体内选择周期之后在所有小鼠中达到100％(图18B)。对于经HDAd-短-LCR转导的小鼠，需要四个体内选择周期以使RBC中达到100％γ-球蛋白标记。在100％标记率下，人γ-球蛋白链对比成年小鼠α-球蛋白的百分比(通过HPLC测量)随时间推移增加(最可能归因于疾病背景)，到处理后第21周达到平均20％(图18C和18D)。这些数据通过以下证实HDAd-长-LCR的优越性：i)需要不太密集的体内选择和ii)达成理论上应在SCA和重型地中海贫血的患者中具有治愈性的γ-球蛋白表达量。

中间型地中海贫血小鼠模型中的研究：校正血液参数.展示不同时间点的表型校正。第14周，展示用姬姆萨染色剂和迈格林华染色剂染色的血球形态(图21A)。在处理后第21周，处死小鼠。低色素性、高度断裂和不均性红细胞异形的基线RBC置换为接近正常色素性的形状完好的RBC(图21B，左图)，表明经处理的CD46^+/+/Hbb^th3小鼠的外周血抹片中地中海贫血表型的逆转。第21周在来自用HDAd-长-LCR处理的地中海贫血和小鼠的血液抹片上计数网织红细胞(图21B，右图)。在骨髓细胞离心涂片中，相比于CD46^+/+/Hbb^th3小鼠的骨髓中的红血球系谱系成熟的阻断(由前成红血细胞和嗜碱性成红血细胞的发生率表示)，在来自对照和经处理的CD46^+/+/Hbb^th3小鼠的细胞离心涂片中，成熟成红血细胞占主导且由多色和正色成红血细胞表示(图21C)。展示用长LCR、短LCR和对照CD46tg载体转导的小鼠的正常化红血球参数(图22)。第18周在血液涂片上计数的网织红细胞百分比从地中海贫血小鼠中平均20％恢复到用HDAd-长-LCR处理的小鼠的正常值(5％)(图23A)。体内转导后第18周的血液参数与其对照CD46tg对应物不可区分，这表明了完全表型校正。这包括白血球和红血球计数以及红血球系细胞特征(Hb、HCT、MHCH和RDW)的正常化(图23B)。此外，第18周时正常、基线、长LCR和短LCR载体的间MCV和MCH细胞的差异不显著(图23B)。

中间型地中海贫血小鼠模型中的研究：校正髓外血细胞生成和含铁血黄素沉积.在用HDAd-长-LCR处理的动物中，脾尺寸(补偿性血细胞生成的可测量特征)减小到正常(图24A)。相比于Hbb^th3/CD46小鼠，在脾和肝脏切片中没有观察到髓外红血球生成的病灶(图24B)。在未处理的CD46^+/+/Hbb^th3小鼠中密集的实质含铁血黄素沉积突出，而在CD46 tg和经处理的CD46^+/+/Hbb^th3小鼠中只能检测到背景铁累积(图25)。

在Hbb^th3/CD46tg小鼠的体内HSC转导之后第21周收获骨髓。(图26A)骨髓MNC中每个细胞的载体拷贝数。两组之间的差异不显著，但如果用较大样品尺寸进行分析，那么可能变得显著。(图26B、26C)γ-球蛋白表达的红血球系特异性。(图26B)表达γ-球蛋白的红血球系(Ter119⁺)和非红血球系(Ter119^-)细胞的百分比。*p<0.05。使用双向ANOVA进行统计分析。

投与腺病毒供体载体之前来自CD46tg和CD46^+/+/Hbb^th-3小鼠的肝脏和脾切片中通过苏木精/伊红染色的髓外血细胞生成(图27)。铁沉积通过普尔染色作为脾中的含铁血黄素的细胞质蓝颜料展示。

概括地说，使用CD46转基因小鼠的体外和体内HSPC转导研究以及使用人HSPC的体外研究证实含有长LCR的载体的优越性。SB100x介导的整合频率不因长转位子而受损。除了赋予较高γ-球蛋白表达量以外，长LCR还提供了更严格的红血球特异性表达。重要的是，在用HDAd-长-LCR处理之后，为了实现中间型地中海贫血小鼠模型中完全治愈，需要不太密集的O⁶BG/BCNU选择。

材料与方法.

组件位置：HS5→HS1(21.5kb)：Chr11，5292319→5270789(SEQ ID NO：6)；β-启动子：chr11，5228631→5227018(SEQ ID NO：7)；和3'HS1：Chr11，5206867→5203839(SEQ IDNO：102)。

HDAd载体：先前已经描述了HDAd-SB和HDAd-短-LCR载体的产生(里克特等人,《血液》128:2206-2217,2016；李等人,《分子疗法-方法和临床发展》9:142-152,2018)。为了产生HDAd-长-LCR载体，相应穿梭质粒是基于粘质粒载体pWE15(加利福利亚州拉霍亚的斯曲杰公司(Stratagene,La Jolla,CA))。pWE.Ad5-SB-mgmt含有Ad5 5'ITR(核苷酸1至436)和3'ITR(核苷酸35741至35938)、来源于pBS-μLCR-γ-球蛋白-mgmt的人EF1α启动子-mgmt(p140k)-SV40pA-cHS4盒(王等人,(2019)《临床检查杂志》129:598-615)、SB100x特异性IR/DR位点和FRT位点。pAd.LCR-β-GFP(含有21.5-kb人β-球蛋白LCR(王等人,(2005)《病毒学杂志》79:10999-11013)中的GFP-BGHpA片段经人γ-球蛋白基因和其3'UTR区域(Chr 11:5,247,139→5,249,804)(pAd-长-LCR-β-γ-球蛋白)置换。质粒pAd-长-LCR-β-γ-球蛋白含有21.5kb人β-球蛋白LCR和3.0kb人β-球蛋白3'HS1。将含有LCR-β-γ-球蛋白-3'HS1的28.9kb片段插入到EF1α-mgmt-SV40pA-cHS4的盒下游，进入pWE.Ad5-SB-mgmt(pWE.Ad5-SB-长-LCR-γ-球蛋白/mgmt)。完整长-LCR-γ-球蛋白/mgmt盒被SB100x特异性IR/DR位点和FRT位点侧接。使用Gigapack III Plus包装提取物(加利福利亚州拉霍亚的斯曲杰公司)将所得质粒包装到噬菌体中且繁殖。为了产生HD-Ad-长-LCR-γ-球蛋白/mgmt病毒，病毒基因组通过I-CeuI消化从质粒释放以用于在116细胞中进行救援。人类群体中存在HBG1基因的两种已知变体，其具有单氨基酸变异(76-异亮氨酸或76-苏氨酸)。使用76-Ile HBG1变体，频率范围为欧洲人中13％至东亚人中73％。

为了产生HDAd病毒，病毒基因组通过FseI消化从质粒释放以用于通过Ad5/35++-Acr辅助病毒在116细胞(Palmer等人《分子疗法》8:846-852,2003)中进行救援。该辅助病毒为AdNG163-5/35++的衍生物，是含有由Ad5纤维尾、Ad35纤维轴和亲和力增强的Ad35++纤维旋钮构成的嵌合纤维的Ad5/35++辅助载体(里克特等人,(2016)《血液》128:2206-2217)。合成人类密码子最佳化的AcrIIA4-T2A-AcrIIA2序列，近来显示其抑制SpCas9活性(李等人,《分子疗法-方法和临床发展》9:390-401,2018)且将其克隆到穿梭质粒pBS-CMV-pA(pBS-CMV-Acr-pA)中。随后，2.0kb CMV-Acr-pA盒从pBS-CMV-Acr-pA扩增且通过In-Fusion HD克隆试剂盒(Takara)插入到pNG163-2-5/35++的SwaI位点中(里克特等人,《血液》128:2206-2217 2016)。接着通过PacI消化释放病毒基因组并在293细胞中救援Ad5/35++-Acr辅助病毒且繁殖。Ad5/35++-Acr辅助病毒含有由Ad5纤维尾、Ad35纤维轴和亲和力增强的Ad35++纤维旋钮构成的嵌合纤维(王等人,《病毒学杂志》82:10567-10579,2008)。先前已经描述了HDAd-SB的产生(里克特等人,《血液》128:2206-2217,2016)。辅助病毒污染水平低于0.05％。所有制剂均不含细菌内毒素。

CD34⁺细胞培养：由冷冻储备液回收来自G-CSF动员的成年供体的CD34⁺细胞且在补充有10％热失活FCS、1％ BSA 0.1mmol/l 2-巯基乙醇、4mmol/l谷氨酰胺和青霉素/链霉素、Flt3配体(Flt3L、25ng/ml)、白细胞介素3(10ng/ml)、血小板生成素(TPO)(2ng/ml)和干细胞因子(SCF)(25ng/ml)的伊氏改良达尔伯克培养基(IMDM)中培育过夜。流式细胞术证实>98％的细胞为CD34阳性。细胞因子和生长因子来自派普泰克(Peprotech)(新泽西州落基山(Rocky Hill,NJ))。在低附着12孔板中CD34⁺细胞经病毒转导。

红血球系体外分化：基于以下中所述的方案，使人HSPC分化成红血球系细胞：杜艾(Douay)等人,《分子生物学方法(Methods Mol Biol)》482:127-140,2009。简单地说，在步骤1中，将密度为10⁴个细胞/毫升的细胞在补充有5％人血浆、2IU/ml肝素、10μg/ml胰岛素、330μg/ml运铁蛋白、1μM氢皮质酮、100ng/ml SCF、5ng/ml IL-3、3U/ml红血球生成素(Epo)、谷氨酰胺和Pen-Strep的IMDM中培育7天。在步骤2中，将密度为1×10⁵个细胞/毫升的细胞在补充有5％人血浆、2IU/ml肝素、10μg/ml胰岛素、330μg/ml转铁蛋白、100ng/ml SCF、3U/ml Epo、谷氨酰胺和Pen/Strep的IMDM中培育3天。在步骤3中，将密度为1×10⁶个细胞/毫升细胞的细胞在补充有5％人血浆、2IU/ml肝素、10μg/ml胰岛素、330μg/ml运铁蛋白、3U/mlEpo、谷氨酰胺和Pen/Strep的IMDM中培育12天。

转导的CD34+细胞的体外选择：在体外分化方案的步骤1中，第3天用O⁶BG/BCNU选择转导的CD34+细胞。简单地说，将CD34+细胞与50μM O⁶BG一起培育一小时，随后与35μMBCNU一起再培育两小时。接着洗涤细胞两次且再悬浮于新鲜的步骤1培养基中。

Lin^-细胞培养：使用来自美天旎生物科技公司(Miltenyi Biotech)(德国贝尔吉施格拉德巴赫(Bergisch Gladbach,Germany))的谱系细胞耗竭试剂盒，通过MACS从总小鼠骨髓细胞分离谱系阴性细胞。将Lin^-细胞在补充有10％ FCS、10％ BSA、Pen-Strep、谷氨酰胺、10ng/ml人TPO、20ng/ml小鼠SCF和20ng/ml人Flt-3L的IMDM中培养。

球蛋白HPLC：在具有SPD-10AV二极管阵列检测器和LC-10AT二元泵的岛津(Shimadzu)Prominence仪器(日本京都的岛津公司(Shimadzu,Kyoto,Japan))上定量个别球蛋白链含量。使用Vydac C4反相柱(英国海克姆公司(Hichrom,UK))，以1mL/min的速率施加0.1％三氟乙酸于水/乙腈中的40％-60％梯度混合物。

流式细胞术：将细胞以1×10⁶个细胞/100微升再悬浮于补充有1％ FCS的PBS中且与FcR阻断试剂(加利福尼亚州奥本(Auburn CA)的美天旎生物科技公司)一起在冰上培育十分钟。随后，将染色抗体溶液添加于100μL/10⁶个细胞中，且在冰上在黑暗中培育30分钟。在培育之后，将细胞在FACS缓冲液(PBS、1％ FBS)中洗涤一次。对于二次染色，用二次染色溶液重复染色步骤。在洗涤之后，将细胞再悬浮于FACS缓冲液中且使用LSRII流式细胞仪(加利福尼亚州圣何塞的碧迪生物科学公司(BD Biosciences,San Jose,CA))进行分析。使用正向散射区域和侧向散射区域门排除碎片。接着使用正向散射高度和正向散射宽度门来门控单细胞。接着使用FlowJo(10.0.8版本,FlowJo有限公司)分析流式细胞术数据。对于LSK细胞的流动分析，将细胞用生物素结合的谱系检测混合液(目录号：130-092-613；加利福尼亚州圣迭哥的美天旎生物科技公司(Miltenyi Biotec,San Diego,CA))和针对c-Kit的抗体(目录号：12-1171-83)和Sca-1(目录号：25-5981-82)以及APC结合的链霉亲和素染色。来自亿生物科学公司(eBioscience)(加利福尼亚州圣迭哥(San Diego,CA))的其它抗体包括抗小鼠LY-6A/E(Sca-1)-PE-Cyanine7(克隆D7)、抗小鼠CD117(c-Kit)-PE(克隆2B8)、抗小鼠CD3-APC(克隆17A2；目录号：17-0032-82)、抗小鼠CD19-PE-Cyanine7(克隆eBio1D3；目录号：25-0193-82)和抗小鼠Ly-66(Gr-1)-PE(克隆RB6-8C5；目录号：12-5931-82)。抗小鼠Ter-119-APC(克隆：Ter-119；目录号：116211)来自生物传奇公司(Biolegend)(加利福尼亚州圣迭哥)。

关于检测人γ-球蛋白表达的细胞内流式细胞术和实时逆转录PCR方法，参见王等人(《临床检查杂志》129(2):598-615,2019)。

载体拷贝数的测量：使用Quick-DNA小型制备试剂盒(齐莫研究(Zymo Research))从骨髓细胞提取总DNA。将从HDAd-短LCR-γ-球蛋白/mgmt病毒提取的病毒DNA连续稀释且用于标准曲线。在StepOnePlus实时PCR系统(应用生物系统公司(Applied Biosystems))上使用power SYBR Green PCR主混合物一式三份地进行qPCR。10μL反应使用9.6ng DNA(9600pg/6pg/细胞＝1600个细胞)。使用以下引物对：人γ-球蛋白正向(SEQ ID NO:86)和反向(SEQ ID NO:87)。

整合位点分析(LAM-PCR)。关于数据的图形描绘参见图6。使用泊松回归插入模型(Poisson Regression Insertion Model，PRIM)计算沿着小鼠参考基因组(mm9)中每个染色体的长度非重叠的20千碱基窗的预期插入率来创建用于图7D的随机化数据。PRIM算法基于每个窗内TA二核苷酸的数目、窗所位于的染色体和独特插入的总数目生成统计模型。对于每个窗，计算预期插入数目且将其与所观察到的插入数目进行比较以产生p值。接着应用邦费罗尼校正(Bonferroni-correction)鉴别显示用于检测所插入转位子的富集的窗。接着产生含有TA的参考基因组的随机序列，使用Bowtie2定位且针对实际整合数据绘制。使用R中的ggplot2进行计算和制作曲线图。使用HOMER和ChIPseeker绘图。

整合位点分析(反向PCR).如其它地方所述，在进行修改下，通过反向PCR分析总骨髓细胞中的接合点(王等人,《病毒学杂志》79:10999-11013,2005)。简单地说，根据制造商说明书，通过Quick-DNA^TM小型制备试剂盒(齐莫研究)从骨髓细胞分离基因组DNA。用SacI消化5-10μg DNA且在促进分子内反应的条件下重新接合。用苯酚/氯仿萃取和乙醇沉淀纯化接合混合物，且随后使用KOD Hot Start DNA聚合酶用于巢式PCR(各30个循环)。使用以下引物：EF1αp1正向(SEQ ID NO:88)和反向(SEQ ID NO:89)；EF1αp2正向(SEQ ID NO:90)和反向(SEQ ID NO:91)；3'HS1 p1正向(SEQ ID NO:92)和反向(SEQ ID NO:93)；和3'HS1 p2正向(SEQ ID NO:94)和反向(SEQ ID NO:95)。

在上表中，带下划线的碱基用于下游克隆。对PCR扩增子进行凝胶纯化、克隆、测序和比对以鉴别整合位点。

动物：所有涉及动物的实验均根据控制机构准则且根据实验动物福利办公室(theOffice of Laboratory Animal Welfare，OLAW)公共卫生保障(Public HealthAssurance，PHS)政策、USDA动物福利法案和动物福利规则(动物福利法案和动物福利规则)、实验动物管理与使用指南(the Guide for the Care and Use of LaboratoryAnimals)和机构动物护理和使用委员会(the controlling Institutional Animal Careand Use Committee，IACUC)政策进行。

使用含有完整人CD46基因座的基于C57Bl/6的转基因小鼠模型(hCD46tg)进行离体和体内HSPC转导研究。这些小鼠以与人类类似的模式和量表达hCD46(肯珀等人,《临床和实验免疫学》124:180-189,2001)。

CD46+/+/Hbb^th3小鼠的培育和筛选：在三轮回交之后，关于CD46的Hbb^th3小鼠纯合性通过PCR在gDNA[使用CD46F(SEQ ID NO:96)和CD46R引物(SEQ ID NO:97)以及通过允许测量CD46 MFI的流式细胞术证实。

骨髓Lin^-细胞移植：接受者为雌性C57BL/6小鼠，6-8周龄。在移植当天，接受小鼠用1000Rad辐射。辐射之后四小时，经由尾静脉经静脉内注射1×10⁶个Lin^-细胞。该方案用于移植离体转导Lin^-细胞和用于移植到二次接受者中。

HSPC动员和体内转导：该程序如先前在里克特等人,《血液》128:2206-2217,2016中所述。在小鼠中，通过皮下注射人重组G-CSF(5μg/小鼠/天，4天)(加利福尼亚州千橡市的安进(Amgen Thousand Oaks,CA))，随后在第5天皮下注射AMD3100(5mg/kg)(西格玛奥德里奇(Sigma-Aldrich))来动员HSPC。此外，在注射病毒之前16小时和2小时，动物腹膜内接受地塞米松(10mg/kg)。在AMD3100之后三十分钟和60分钟，经由眶后丛，以每次注射每种病毒4×10¹⁰vp的剂量向动物静脉内注射HDAd载体。四周后，开始O⁶BG/BCNU的体内选择。

二次骨髓移植：接受者为雌性C57BL/6小鼠，6-8周龄，来自杰克逊实验室(theJackson Laboratory)。在移植当天，接受小鼠用1000Rad辐射。从体内转导的CD46tg小鼠无菌分离骨髓细胞且使用MACS分离谱系耗竭的细胞。辐射后四小时，以1×10⁶个细胞/小鼠静脉内注射细胞。第20周，处死二次接受者且通过MACS从血液、骨髓和脾分离CD46+细胞或进行动员和体内转导，如上所述。所有二次接受者在第4周开始接受免疫抑制。

血液分析：将血液样品收集到经EDTA涂布的试管中，且在HemaVet 950FS(德鲁科学公司)上进行分析。

组织分析：将2.5μm厚度的脾和肝脏组织切片固定于4％甲醛中至少24小时，脱水且包埋于石蜡中。使用苏木精-伊红染色以对髓外血细胞生成进行组织学评估。通过普尔普鲁士蓝染色在组织切片中检测到含铁血黄素。简单地说，用等体积(2％)的亚铁氰化钾和盐酸于蒸馏水中的混合物处理组织切片，随后用中性红对比染色。脾尺寸评定为脾重量(mg)/体重(g)的比率。

血液分析和骨髓细胞离心涂片：将血液样品收集到涂有EDTA的试管中且在HemaVet 950FS(康涅狄格州沃特伯里(Waterbury,CT)德鲁科学公司)或ProCyteDx^TM(缅因州韦斯特布鲁克的爱德士(IDEXX,Westbrook,Maine))机上进行分析。制备外周血抹片且分别用迈格林华/姬姆萨染色5和15分钟(德国达姆斯塔特的默克(Merck,Darmstadt,Germany))。使用细胞离心涂片装置将骨髓细胞的悬浮液离心到载片上且用迈格林华/姬姆萨染色。对血液抹片上的网织红细胞进行计数的研究人员对样品组分配不知情。仅动物编号出现在载片上(每只动物5个载片，5个随机1cm²切片)。

统计分析：数据呈现为平均值±平均值的标准误差(SEM)。对于多个组的比较，采用单向和双向变异数分析(ANOVA)与用于多重比较的邦费罗尼事后检验进行。一个分组变量的群组间差异通过未配对双尾史都登氏t-检验(Student's t-test)测定。对于非参数分析，使用克-瓦检验(Kruskal-Wallis test)。使用GraphPad Prism 6.01版本(加利福利亚州拉霍亚的格拉夫派得软件公司(GraphPad Software Inc.))进行统计分析。*p≤0.05，**p≤0.0002，***p≤0.00003。P值小于0.05视为显著的。

讨论.其中之一，人β-球蛋白基因簇位于染色体11中且跨越约100kb。已提出β-球蛋白基因座形成由顺式调控元件和活性β-球蛋白基因构成的红血球特异性空间结构，称为活性染色质中心(ACH)(图尔修斯(Tolhius)等人,《分子细胞(Mol Cell)》,10:1453-1465,2002)。核心ACH为发育保守的，且包括上游5'DNA水解酶超敏感区1至5，称为球蛋白LCR，和下游3'HS1以及红血球特异性反式作用因子(吉姆等人,《分子细胞生物学》,27:4551-65,2007)。对于基因疗法应用，值得注意的是，含有HS1至HS5的23kbβ-球蛋白LCR加3kb 3'HS1区域赋予转基因小鼠中的顺式连接的基因高水平的红血球特异性非位置依赖性表达(格罗斯维尔德,《细胞》,51:975-985,1987)。在此LCR控制下递送转基因的工具可用于30+kbHDAd载体。

许多遗传疾病的校正需要高水平和组织限制性的治疗性基因表达，这可以通过采用LCR实现(李等人,《血液》100:3077-3086,2002)。对于治愈重型β-地中海贫血或镰状细胞贫血症来说，认为需要HSPC中约20％基因标记和红血球系细胞中20％治疗性球蛋白链(β-或γ-球蛋白)产生(菲茨休等人,《血液》130:1946-1948,2017)。由于尺寸限制，仅β-球蛋白LCR的截短形式可用于慢病毒载体中，这使得难以满足校正性基因表达量的要求(苏加诺(Uchida)等人,《自然-通信》10:4479,2019)。在慢病毒介导的HSPC转导后增加表达量的策略是增加载体剂量且因此增加整合转基因拷贝的数目。然而，该方法增强基因毒性和致瘤性的风险。其它尝试集中于进一步最佳化球蛋白表达盒(苏加诺等人,《自然-通信》10:4479,2019)。具有30kb的插入容量的HDAd载体是产生后一概念的理想工具。在本实例中，产生携有29kbγ-球蛋白表达盒的HDAd5/35++载体，且在CD46转基因小鼠中的体外和体内HSPC转导之后测试。

在HDAd载体系统中，γ-球蛋白盒的整合由SB100x转位酶介导。使用SB/转位子系统的非病毒性基因转移在临床上用于CD19 CAR T细胞疗法(克布瑞艾(Kebriaei)等人,《临床检查杂志》126:3363-3376,2016)、年龄相关的黄斑变性(哈德塞克(Hudecek)等人,《生物化学与分子生物学评论(Crit Rev Biochem Mol Biol)》52:355-380,2017；图曼(Thumann)等人,《分子疗法-核酸(Mol Ther Nucleic Acids)》6:302-314,2017)和阿尔茨海默氏病(爱尤多图(Eyjolfsdottir)等人,《阿尔茨海默病研究与治疗(Alzheimers Res Ther)》8:30,2016)。HDAd介导的SB基因转移由凯(Kay)和埃拉尔特(Ehrhardt)小组开创。在其研究中，转位子相对较小；4kb-6kb(豪斯尔等人,《分子疗法》18:1896-1906,2010；扬特等人,《自然—生物技术》20:999-1005,2002)。当前实例第一次证明，基于可比VCN(2-3个拷贝/细胞)，SB100x能够以与11.8kb转位子的功效相当的功效整合32.4kb转位子。这一发现本身与以下观察结果矛盾：SBE介导的整合的功效与SB转位子的尺寸成反比(卡诗(Karsi)等人,《海洋生物技术(Mar Biotechnol)》(NY)3:241-245,2001)。该系统似乎打破了尺寸限制。首先，为了形成催化启动的转位子/转位酶复合物，转位子的两个末端必须保持在一起以与转位酶分子紧靠(哈德塞克等人,《生物化学与分子生物学评论》52:355-380,2017)。这一限制已通过将frt侧并入HDAd载体中，由共表达的Flpe重组酶识别，引起转位子的环化而解决(扬特等人,《自然—生物技术》20:999-1005,2002)。限制大构建体转位的第二机制为自杀转位机制，称为自体整合，即整合到转位子内部的TA二核苷酸中(王等人,《公共科学图书馆·遗传学(PLoS Genet)》10:e1004103,2014)。未看到的HDAd-短-LCR与HDAd-长-LCR之间的VCN差异可能与富集具有一定mgtm^P140K表达量的HSPC和祖细胞，即富集已达到临限VCN的细胞的体内选择相关。

由于O⁶BG/BCNU体内选择系统强大，所以几乎100％的外周血红血球均含有γ-球蛋白。虽然该体内选择方法不影响骨髓中的细胞组成，但其引起白血球减少症。因此努力集中于不涉及细胞毒性药物BCNU的替代方法上。值得注意的是，如由鼠类地中海贫血模型中的研究支持(王等人,《临床检查杂志》129:598-615,2019)，医药体内选择可能并非血红蛋白病的患者所必需的，因为经基因校正的HSPC将具有优于未经校正的细胞的增殖优势(姆巴佩(Perumbeti)等人,《血液》114:1174-1185,2009)。

鉴于初次动物和二次接受者中HDAd-短-LCR和HDAd-长-LCR的可比VCN，RBC和骨髓红血球系祖细胞中的γ-球蛋白含量(通过HPLC和qRT-PCR测量)显著高于含有长LCR的载体。有趣的是，两种载体之间的差异在二次接受者中更明显。这暗示了源自经转导的长期再生HSPC的RBC具有较高γ-球蛋白含量。此外，HDAd-长-LCR显示更强的红血球系特异性。这些效应可归因于HDAd-长-LCR中因LCR染色体打开能力而更好地接近转录因子的额外LCR元件(李等人,《血液》100:3077-3086,2002)，和/或促使γ-球蛋白基因转录增加的额外转录因子的结合。LCR的另一特征值得注意，即其能够充当自主调控单元，这意味着在随机整合之后相邻基因的反式活化较少。在此上下文中，使用更完整的LCR型式降低所述方法的潜在基因毒性。

总之，当前实例尤其描述一种载体，其在小鼠中的体内HSPC转导之后赋予γ-球蛋白含量，所述γ-球蛋白含量符合被视为可治愈重型地中海贫血和镰状细胞贫血的基因表达阈值。

实例2：SB转位酶ITR

本实例比较编码GFP和MGMT^P140K可选标志物的转位子负载对目标细胞的标记，其中所述转位子负载被三种不同SB ITR侧接。本实例包括三种质粒，其中mgmt/GFP转位子负载被以下侧接：(i)pT0 ITR；(ii)pT2 ITR；或(iii)pT4 ITR，所述质粒其它方面均一致。在本实例中，将293细胞用包括mgmt./GFP转位子负载的三种质粒转染，有或无编码pSB100x的支撑质粒。T2为Cooper lab研发的IR且目前在临床上用于CAR T细胞疗法(苏鲁尔(Srour)等人,《血液》235(11):862-865,2020；PMID 31961918)。T4为Izcvak lab研发的IR的另一型式(克布瑞艾等人,《遗传学趋势(Trends Genet.)》33(11)852-870,2017；PMID:28964527)。本发明人不了解T0、T2和T4的任何先前并列比较。

在有或无选择下培养细胞17天。对于未进行选择的细胞，在第3、12和17天，且对于通过在第3天单次添加50μM O⁶BG/BCNU进行选择的细胞，在第17天，吸取培养物样品(参见图28)。在一个系列中，细胞在第3、6和12天1:10继代以消除游离型质粒。GFP表达(在第17天分析)表示从整合转位子的表达。在另一系列中，包括O⁶BG/BCNU选择步骤以富集具有整合的mgmt的细胞。

通过流式细胞术分析细胞的GFP。在不存在SB100x的情况下，GFP表达来源于残余游离型质粒，且正如所料，没有观察到差异。图29展示对于T0、T2和T4质粒中的每一者，在有或无SB100x质粒下培养的细胞在培养第12和17天表达GFP的293细胞的百分比。在SB100x存在的情况下，发生整合。T0和T2的GFP+细胞百分比相当，但T4显著较高(p<0.01)。GFP MFI反映了GFP表达量，即每个细胞的整合转位子拷贝数目。同样，T4的MFI显著较高。T0与T2之间也存在显著差异。总之，虽然所有IR均适合用于本公开的方法和组合物中，包括基因疗法，但T4 IR在介导SB100x整合中是优良的。图30展示对于T0、T2和T4质粒中的每一者，在有或无SB100x质粒下培养的细胞在用O⁶BG/BCNU对细胞进行选择下在培养第17天表达GFP的293细胞的百分比。抗性细胞的相对数目。O⁶BG/BCNU选择杀死未进行转位子(GFP/mgtm)整合的细胞。无SB下存活细胞的背景可能归因于游离型载体。在SB存在下，T0与T2之间的差异以及T2与T4之间的差异为显著的，再次强调T4的优越性。正如所料，在所有经历O⁶BG/BCNU选择而存活的细胞中GFP表达应相当。

实例3：进行工程化以有效整合的转位子

本实例提供了可有效整合到目标细胞基因组中的示例性转位子负载。例示性转位子具有在2.8kb至31.8kb范围内的长度，且将在根据本发明的转位子长度的所提供范围内观察到高效整合。本实例的转位子被睡美人转位酶(包括但不限于SB100x)可靶向的睡美人IR侧接。在本实例中提供的转位子与本实例的较短转位子(或其它参考转位子)的比较将不证明长度依赖性，和/或基于整合的频率和/或效率，将证明长度依赖性程度低于所属领域的技术人员所预期。在各种实施例中，举例来说，整合的频率和/或效率可通过每个目标基因组的转位子整合事件数目和/或通过包括至少一个(或至少两个，或至少三个)转位子整合事件的目标基因组数目来测量。

多种示例性转位子负载提供于图31-43中。图中提供的某些表示包括呈环化质粒格式的转位子负载。所属领域的技术人员应了解，在其它情形下，例如在病毒载体基因组中，可使用分子生物学技术容易地利用转位子负载。

本实例包括一种在本文中称为PWEAd5-PT4LCR-球蛋白/mgmt或pWEAd5-PT4-LCR-球蛋白-mgmt的核酸，其包括长度为31.776kb的转位子(图31)。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与β启动子、包括HS1-HS5的长LCR和3'HS1可操作地连接的γ-球蛋白编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

本实例包括一种在本文中称为HDAd5-PT4-长LCR球蛋白-rhMGMT的核酸，其包括长度为31.772kb的转位子(图32)。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与β启动子、包括HS1-HS5的长LCR和3'HS1可操作地连接的γ-球蛋白编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

本实例包括一种在本文中称为HDAd-Ad5-PT4-LCR-hACE2/mgmt的核酸，其包括长度为13.173kb的转位子(图33)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRTDR)侧接。转位子包括：(i)与β启动子和包括HS1-HS4的LCR可操作地连接的重组人类ACE2编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

本实例包括一种在本文中称为pWEHCB-微LCR-球蛋白/mgmt的核酸，其包括长度为12.169kb的转位子(图34)。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与β启动子和包括HS1-HS4的微LCR可操作地连接的γ球蛋白编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与Ef1a启动子可操作地连接。

本实例包括一种在本文中称为pWEHCA-Faconi-GFP的核酸，其包括长度为9.382kb的转位子(图35)。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与pgk启动子可操作地连接的FancA编码序列，和(ii)与Ef1a启动子可操作地连接的GFP编码序列。

本实例包括一种在本文中称为pHCA-T4-rhMGMT-GFP的核酸，其包括长度为5.49kb的转位子(图36)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)与PGK启动子可操作地连接的GFP编码序列，和(ii)MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

本实例包括一种核酸，其包括长度为3.797kb的转位子(图37)。转位子负载被转位子反向重复序列(IR，尤其睡美人IR)侧接，转位子反向重复序列(IR，尤其睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)GFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

本实例包括一种在本文中称为pBHCA-PT0-EF1a-mgmt/GFP的核酸，其包括长度为3.709kb的转位子(图38)。转位子负载被转位子反向重复序列(IR，尤其pT0睡美人IR)侧接，转位子反向重复序列(IR，尤其pT0睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：(i)eGFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

本实例包括一种在本文中称为pHCA(Ad35)-PT4-EF1a-mgmt/GFP的核酸，其包括长度为3.547kb的转位子(图39)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRTDR)侧接。转位子包括：(i)GFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

本实例包括一种在本文中称为pHCA-Ad5-PT4-Ef1a-mgmt/GFP的核酸，其包括长度为3.543kb的转位子(图40)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRTDR)侧接。转位子包括：(i)GFP编码序列，和(ii)MGMT^P140K编码序列，其与EF1a启动子可操作地连接。

本实例包括一种在本文中称为pHCA(Ad35)-PT4-EF1a-mgmt的核酸，其包括长度为2.781kb的转位子(图41)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

本实例包括一种在本文中称为pHCA-T4-Ef1a-rhMGMT的核酸，其包括长度为2.777kb的转位子(图42)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

本实例包括一种在本文中称为的核酸，pHCA-Ad5-PT4-Ef1a-mgmt其包括长度为2.751kb的转位子(图43)。转位子负载被转位子反向重复序列(IR，尤其pT4睡美人IR)侧接，转位子反向重复序列(IR，尤其pT4睡美人IR)又被重组酶正向重复序列(DR，尤其FRT DR)侧接。转位子包括：MGMT^P140K选择盒，其中MGMT^P140K编码序列与EF1a启动子可操作地连接。

(XII)结尾段.

如所属领域的一般技术人员将理解，本文所公开的每个实施例可包括其具体陈述的要素、步骤、成分或组分、基本上由其组成或由其组成。因此，术语“包括(include)”或“包括(including)”应解释为引用：“包含、由……组成或基本上由……组成”。过渡术语“包括(comprise)”或“包括(comprises)”意指“包括(但不限于)”且允许包括未指定要素、步骤、成分或组分，甚至是大量的。过渡片语“由……组成”排除未指定的任何要素、步骤、成分或组分。过渡片语“基本上由…组成”将实施例的范围限制为指定的要素、步骤、成分或组分以及不实质上影响实施例的那些要素、步骤、成分或组分。在这种情形下，实质影响是降低腺病毒载体携带大转位子负载和/或将大负载整合到目标基因组中的能力的组合物或方法的任何变化。

除非另外指出，否则说明书和权利要求书中所使用的表示成分的量，例如分子量、反应条件等的特性的所有数字应理解为在所有情况下均由术语“约”修饰。因此，除非相反指示，否则本说明书和所附权利要求书中所阐述的数值参数为近似值，其可视本发明设法获得的所要特性而变化而定。至少，且不试图将均等论的应用限于权利要求书的范围，每个数值参数至少应根据所报告的有效数位的个数且通过应用普通舍入技术来解释。当进一步要求清晰时，在结合所陈述数值或范围使用时，术语“约”具有由所属领域的技术人员合理地归属于其的含义，即表示比所陈述值或范围略多或略少，在所陈述值±20％的范围内；所陈述值±19的范围内；所陈述值±18％的范围内、所陈述值±17％的范围内；所陈述值±16％的范围内；所陈述值±15％的范围内；所陈述值±14％的范围内；所陈述值±13％的范围内；所陈述值±12％的范围内；所陈述值±11％的范围内；所陈述值±10％的范围内；所陈述值±9％的范围内；所陈述值±8％的范围内；所陈述值±7％的范围内；所陈述值±6％的范围内；所陈述值±5％的范围内；所陈述值±4％的范围内；所陈述值±3％的范围内；所陈述值±2％的范围内或所陈述值±1％的范围内。

尽管阐述本发明的广泛范围的数值范围和参数是近似值，但特定实施例中所阐述的数值应尽可能精确地报告。然而，任何数值均固有地含有因其对应测试测量值中发现的标准差所必然引起的某些误差。

本文中值的范围的叙述仅仅意图充当个别地提及处于该范围内的每一单独值的简写方法。除非本文中另外指示，否则将每一个别值并入到本说明书中，如同其在本文中个别地叙述一般。除非本文另外指示或另外与上下文明显矛盾，否则本文所述的所有方法均可以任何适合的顺序进行。除非另外要求，否则使用本文所提供的任何和所有实例或示例性语言(例如，“例如”)仅意图更好地阐明本发明而不对本发明的范围造成限制。本说明书中没有语言应解释为指示实施本发明所必需的任何未要求要素。

本文中所公开的本发明的替代性要素或实施例的分组不应理解为限制。可个别地或以与群组的其它成员或本文中所发现的其它要素的任何组合来提及和要求每个群组成员。预期群组中的一个或一个以上成员可出于便利性和/或专利性原因而包括于群组中或从群组中删除。当任何这类包括或删除发生时，本说明书被认为含有如所修改的群组，因此满足所附权利要求书中所使用的所有马库什群组(Markush group)的书面描述。

本文中描述了本发明的某些实施例，包括本发明人已知的进行本发明的最佳模式。当然，这些所描述实施例的变化在所属领域的一般技术人员阅读前述描述后将变得显而易见。本发明人期望所属领域的技术人员适当时采用这些变化，且本发明人意图以不同于本文中特定描述的方式来实践本发明。因此，如果适用法律允许，那么本发明包括随附于本文的权利要求书中所述的主题的所有修改和同等物。此外，除非本文另外指出或另外与上下文明显矛盾，否则本发明涵盖上述要素在其所有可能变体中的任何组合。

此外，在整个本说明书(本文中所提及的材料)中，已大量提及专利、印刷的公开案、期刊文章和其它书面文字。所提及的材料中的每一者针对其所提及的教示内容以全文引用的方式个别并入本文中。

应了解，本文中所公开的本发明的实施例说明了本发明的原理。可使用的其它修改在本发明的范围内。因此，作为实例而非限制，可根据本文中的教示利用本发明的替代性配置。因此，本发明不限于如所准确展示和描述的内容。

本文中所展示的细节仅作为实例且出于例示性论述本发明的优选实施例的目的，且为了提供被认为是本发明的各种实施例的原理和概念方面的最有用且易于理解的描述而呈现。就此来说，不会试图比基本理解本发明所需要的内容更详细地来展示本发明的结构性细节，结合图式和/或实例的描述使所属领域的技术人员显而易见如何在实际中体现本发明的几种形式。

除非在实例中清晰且明确地修改，或当含义的应用致使任何构造无意义或基本上无意义时，本发明中所用的定义和解释意指且意图在任何未来构造中为主。在术语的构造将显致使其无意义或基本上无意义的状况下，定义应取自《韦氏词(Webster'sDictionary)典》(第3版)或所属领域的一般技术人员已知的辞典，例如牛津生物化学和分子生物学词典(the Oxford Dictionary of Biochemistry and Molecular Biology)(编辑安东尼·史密斯(Anthony Smith),牛津的牛津大学出版社(Oxford University Press,Oxford),2004)。

序列表概述

本文所述的核酸和/或氨基酸序列使用标准字母缩写显示，如37C.F.R.§1.822中所定义。虽然只展示每个核酸序列的一个股，但互补股应理解为包括在其适合的实施例中。具有136KB的文档大小的于或约于2021年4月9日创建的题为“F053-0126PCT_SeqList.txt(Sequence Listing.txt)”的电脑可读文本文档含有本申请的序列表且以全文引用的方式并入本文中。在随附序列表中：

SEQ ID NO:1为5'末端载体序列、睡美人IR/DR序列、整合接点(chr15，6805206)的核苷酸序列，图2C中所示。

SEQ ID NO:2为5'末端载体序列、睡美人IR/DR序列、整合接点(chrX，16897322)的核苷酸序列，图2C中所示。

SEQ ID NO:3为3'末端载体序列、睡美人IR/DR序列、整合接点(chr4，10207667)的核苷酸序列，图2C中所示。

SEQ ID NO:4为睡美人IR/DR序列、整合接点(chr7，79796094)的核苷酸序列，图7B中所示。

SEQ ID NO:5为睡美人IR/DR序列、整合接点(重复区域)的核苷酸序列，图7B中所示。

SEQ ID NO:6为人类染色体11的位置5292319-5270789(21,531bp)的长β-球蛋白LCR的核苷酸序列：

SEQ ID NO:7为包括人类染色体11的位置5228631-5227018(1614bp)的可转位转基因插入物的核苷酸序列：

SEQ ID NO:8为Her2特异性CDRL1的氨基酸序列：KASQDVSIGVA

SEQ ID NO:9为Her2特异性CDRL2的氨基酸序列：ASYRYT

SEQ ID NO:10为Her2特异性CDRL3的氨基酸序列：QQYYIYPYT

SEQ ID NO:11为Her2特异性CDRH1的氨基酸序列：GFTFTDYTMD

SEQ ID NO:12为Her2特异性CDRH2的氨基酸序列：DVNPNSGGSIYNQRFK

SEQ ID NO:13为Her2特异性CDRH3的氨基酸序列：LGPSFYFDY

SEQ ID NO:14为PD-L1特异性CDRL1的氨基酸序列：RASKGVSTSGYSYLH

SEQ ID NO:15为PD-L1特异性CDRL2的氨基酸序列：LASYLES

SEQ ID NO:16为PD-L1特异性CDRL3的氨基酸序列：QHSRDLPLT

SEQ ID NO:17为PD-L1特异性CDRH1的氨基酸序列：NYYMY

SEQ ID NO:18为PD-L1特异性CDRH2的氨基酸序列：GINPSNGGTNFNEKFKN

SEQ ID NO:19为PD-L1特异性CDRH3的氨基酸序列：RDYRFDMGFDY

SEQ ID NO:20为阿维鲁单抗特异性可变重链的氨基酸序列：

SEQ ID NO:21为阿维鲁单抗特异性可变轻链的氨基酸序列：

SEQ ID NO:22为阿维鲁单抗特异性CDRH1的氨基酸序列：SGFTFSSYIMM

SEQ ID NO:23为阿维鲁单抗特异性CDRH2的氨基酸序列：SIYPSGGITFYADTVKG

SEQ ID NO:24为阿维鲁单抗特异性CDRH3的氨基酸序列：IKLGTVTTVDY

SEQ ID NO:25为阿维鲁单抗特异性CDRL1的氨基酸序列：TGTSSDVGGYNYVS

SEQ ID NO:26为阿维鲁单抗特异性CDRL2的氨基酸序列：DVSNRPS

SEQ ID NO:27为阿维鲁单抗特异性CDRL3的氨基酸序列：SSYTSSSTRV

SEQ ID NO:28为阿特珠单抗特异性可变重链的氨基酸序列，包括

SEQ ID NO:29为阿特珠单抗特异性可变轻链的氨基酸序列：

SEQ ID NO:30为阿特珠单抗特异性CDRH1的氨基酸序列：SGFTFSDSWIH

SEQ ID NO:31为阿特珠单抗特异性CDRH2的氨基酸序列：WISPYGGSTYYADSVKG

SEQ ID NO:32为阿特珠单抗特异性CDRH3的氨基酸序列：RHWPGGFDY

SEQ ID NO:33为阿特珠单抗特异性CDRL1的氨基酸序列：RASQDVSTAVA

SEQ ID NO:34为阿特珠单抗特异性CDRL2的氨基酸序列：SASFLYS

SEQ ID NO:35为阿特珠单抗特异性CDRL3的氨基酸序列：QQYLYHPAT

SEQ ID NO:36为PSMA特异性特异性CDRL1的氨基酸序列：KASQDVGTAVD

SEQ ID NO:37为PSMA特异性CDRL2的氨基酸序列：WASTRHT

SEQ ID NO:38为PSMA特异性CDRL3的氨基酸序列：QQYNSYPLT

SEQ ID NO:39为PSMA特异性CDRH1的氨基酸序列：GYTFTEYTIH

SEQ ID NO:40为PSMA特异性CDRH2的氨基酸序列：NINPNNGGTTYNQKFED

SEQ ID NO:41为PSMA特异性CDRH3的氨基酸序列：GWNFDY

SEQ ID NO:42为MUC16特异性CDRL1的氨基酸序列：SEDIYSG

SEQ ID NO:43为MUC16特异性CDRL3的氨基酸序列：GYSYSSTL

SEQ ID NO:44为MUC16特异性CDRH1的氨基酸序列：TLGMGVG

SEQ ID NO:45为MUC16特异性CDRH2的氨基酸序列：HIWWDDDKYYNPALKS

SEQ ID NO:46为MUC16特异性CDRH3的氨基酸序列：IGTAQATDALDY

SEQ ID NO:47为FOLR特异性CDRL1的氨基酸序列：KASQSVSFAGTSLMH

SEQ ID NO:48为FOLR特异性CDRL2的氨基酸序列：RASNLEA

SEQ ID NO:49为FOLR特异性CDRL3的氨基酸序列：QQSREYPYT

SEQ ID NO:50为FOLR特异性CDRH1的氨基酸序列：GYFMN

SEQ ID NO:51为FOLR特异性CDRH2的氨基酸序列：RIHPYDGDTFYNQKFQG

SEQ ID NO:52为FOLR特异性CDRH3的氨基酸序列：YDGSRAMDY

SEQ ID NO:53为阿麦妥单抗特异性可变重链的氨基酸序列：

SEQ ID NO:54为阿麦妥单抗特异性可变轻链的氨基酸序列：

SEQ ID NO:55为阿麦妥单抗特异性CDRH1的氨基酸序列：GYSFTGYTMN

SEQ ID NO:56为阿麦妥单抗特异性CDRH2的氨基酸序列：LITPYNGASSYNQ

SEQ ID NO:57为阿麦妥单抗特异性CDRH3的氨基酸序列：GGYDGRGFDY

SEQ ID NO:58为阿麦妥单抗特异性CDRL1的氨基酸序列：SASSSVSYMH

SEQ ID NO:59为阿麦妥单抗特异性CDRL2的氨基酸序列：DTSKLAS

SEQ ID NO:60为阿麦妥单抗特异性CDRL3的氨基酸序列：QQWSKHPLT

SEQ ID NO:61为Nef(66-97)的氨基酸序列：

SEQ ID NO:62为Nef(116-145)的氨基酸序列：

SEQ ID NO:63为Gag p17(17-35)的氨基酸序列：

SEQ ID NO:64为Gag p17-p24(253-284)的氨基酸序列：

SEQ ID NO:65为Pol 325-355(RT 158-188)：

SEQ ID NO:66为编码睡美人的IR/DR和染色体序列的序列的核苷酸序列：

SEQ ID NO:67为编码睡美人的IR/DR和染色体序列的序列的核苷酸序列：

SEQ ID NO:68为睡美人的IR/DR编码序列的核苷酸序列：ACTTAAGTGTATGTAAACTTCCGACTTCAACTG

SEQ ID NO:69为编码睡美人的IR/DR和染色体序列的序列的核苷酸序列：

SEQ ID NO:70为编码睡美人的IR/DR和染色体序列的序列的核苷酸序列：

SEQ ID NO:71为编码睡美人的IR/DR的序列：

SEQ ID NO:72为编码睡美人的IR/DR和染色体序列的序列的核苷酸序列：

SEQ ID NO:73为编码睡美人的IR/DR的序列的核苷酸序列：

SEQ ID NO:74为睡美人转位酶：

SEQ ID NO:75为过度活跃睡美人SB100X的氨基酸序列：

SEQ ID NO:76为piggyBac^TM(PB)转位酶的氨基酸序列：

SEQ ID NO:77为Frog Prince转位酶的氨基酸序列：

SEQ ID NO:78为TcBuster转位酶的氨基酸序列：

SEQ ID NO:79为Tol2转位酶的氨基酸序列：

SEQ ID NO:80为SV40启动子的核苷酸序列：

SEQ ID NO:81为dESV40启动子的核苷酸序列：

SEQ ID NO:82为人端粒酶催化亚基(hTERT)启动子的核苷酸序列：

SEQ ID NO:83为来源于施密特-鲁平A株的RSV启动子的核苷酸序列：

SEQ ID NO:84为hNIS启动子的核苷酸序列：

SEQ ID NO:85为人糖皮质激素受体1A(hGR 1/Ap/e)启动子的核苷酸序列：

SEQ ID NO:86为人γ-球蛋白正向引物的核苷酸序列：

SEQ ID NO:87为人γ-球蛋白反向引物的核苷酸序列：

SEQ ID NO:88为EF1αp1正向引物的核苷酸序列：

SEQ ID NO:89为EF1αp1反向引物的核苷酸序列：

SEQ ID NO:90为EF1αp2正向引物的核苷酸序列：

SEQ ID NO:91为EF1αp2反向引物的核苷酸序列：

SEQ ID NO:92为3'HS1 p1正向引物的核苷酸序列：

SEQ ID NO:93为3'HS1 p1反向引物的核苷酸序列：

SEQ ID NO:94为3'HS1 p2正向引物的核苷酸序列

SEQ ID NO:95为3'HS1 p2反向引物的核苷酸序列：

SEQ ID NO:96为CD46F引物的核苷酸序列：5'-AAAGGGCAAATACCTTAAGGGGTG-3'

SEQ ID NO:97为CD46R引物的核苷酸序列：

5'-AGCACTTCGACCTAAAAATAGAGAT-3'

SEQ ID NO:98–具有插入的XhoI位点(位置10655-10661)的长β-球蛋白LCR：

SEQ ID NO:99(示例性ET3序列)

SEQ ID NO:100(示例性β-球蛋白序列)

SEQ ID NO:101(示例性γ-球蛋白序列)

SEQ ID NO:102(示例性3'HS1核酸序列)

序列表

<110> 弗莱德哈钦森癌症中心(Fred Hutchinson Cancer Center)

华盛顿大学(University of Washington)

<120> 腺病毒的大负载整合

<130> F053-0126PCT / 20-148-WO-PCT

<150> US 63/009,298

<151> 2020-04-13

<160> 102

<170> PatentIn version 3.5

<210> 1

<211> 720

<212> DNA

<213> 人工序列

<220>

<223> 5末端载体序列、睡美人IR/DR序列、整合接点(chr15，6805206)

<400> 1

ccctgggatt ccccaaggca ggggcgagtc cttttgtatg aattactcaa atcgataact 60

agaaacttaa ttaacaacga gatcttataa tttgcatact tctgcctgct ggggactttc 120

cacaccctag ctgacacaag aatttgaaat acatccacag gtacacctcc aattgactca 180

aatgatgtca attagtctat cataatcttc taaagccatg acatcatttt aactggaatt 240

ttccaagctg tttaaaggca cagtcaactt agtgtatgta aacttctgac ccactggaat 300

tgtgatacag tgaattataa gtgaaataat ctgtctgtaa acaattgttg gaaaaatgac 360

ttgtgtcatg cacaaagtag atgtcctaac tgacttgcca aaactattgt ttgttaacaa 420

gaaatttgtg gagtagttga aaaacgagtt ttaatgactc caacttaagt gtatgtaaac 480

ttccgacttc aactgtaaga atggcccatt catctatagt agcacacaat atttgcattt 540

gtgcgacagt ataagggaca attatgctat caggcatttt tccaaagtga gtaatcgaag 600

tttttatacc tttgtgtgcc atgtttgcta ccatggtggg ataatcttac acgcgttctc 660

gcgaccggcc aggaaagacg caacaaaccg gaatcttctg cggcaaaagc tttattgctt 720

<210> 2

<211> 607

<212> DNA

<213> 人工序列

<220>

<223> 5末端载体序列、睡美人IR/DR序列、整合接点(chrX，16897322)

<220>

<221> misc_feature

<222> (594)..(594)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (596)..(597)

<223> n为a、c、g或t

<220>

<221> misc_feature

<222> (602)..(602)

<223> n为a、c、g或t

<400> 2

tagaaactta attaacaacg agatcttata atttgcatac ttctgcctgc tggggacttt 60

ccacacccta gctgacacaa gaatttgaaa tacatccaca ggtacacctc caattgactc 120

aaatgatgtc aattagtcta tcataatctt ctaaagccat gacatcattt taactggaat 180

tttccaagct gtttaaaggc acagtcaact tagtgtatgt aaacttctga cccactggaa 240

ttgtgataca gtgaattata agtgaaataa tctgtctgta aacaattgtt ggaaaaatga 300

cttgtgtcat gcaaagtaga tgtcctaact gacttgccaa aactattgtt tgttaacaag 360

aaatttgtgg agtagttgaa aaacgagttt taatgactcc aacttaagtg tatgtaaact 420

tccgacttca actgtacaag tagaccaaat atccatatac ataaaagaaa aaaatagaaa 480

aaatttctag tgacagaaaa atgacaaaga acatactgtt tattactact attaagatgt 540

ttgcttccat tacactcata tgagtcatga tattttttct tcattttttt ctantnncac 600

tngaaat 607

<210> 3

<211> 520

<212> DNA

<213> 人工序列

<220>

<223> 3末端载体序列、睡美人IR/DR序列、整合接点(chr4，10207667)

<400> 3

gttgctagga atgagccaaa ttcatctgta ttaaacagtg ggagcttgtg gaaggctact 60

cgaaatgttt gacccaagtt aaacaattta aaggcaatgc taccaaatac taattgagtg 120

tatgttaact tctgacccac tgggaatgtg atgaaagaaa taaaagctga aatgaatcat 180

tctctctact attattctga tatttcacat tcttaaaata aagtggtgat cctaactgac 240

cttaagacag ggaatcttta ctcggattaa atgtcaggaa ttgtgaaaaa gtgagtttaa 300

atgtatttgg ctaaggtgta tgtaaacttc cgacttcaac tgtatatcct ccccgttgca 360

ccctcttgat gatgctgaga tgaacacaga tgctcactcc ttgagggctc taagcttatg 420

ctgacacaga cacaggtgct cacttctatg aatggcctaa gatttgagga catcatgagg 480

acaagtgtga taaaatcttg gaacaacctc ccagaggtct 520

<210> 4

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 睡美人IR/DR序列、整合接点(chr7，79796094)

<400> 4

acttaagtgt atgtaaactt ccgacttcaa ctgtagggta cctgattctc tgggcatctc 60

tgcccactac catg 74

<210> 5

<211> 75

<212> DNA

<213> 人工序列

<220>

<223> 睡美人IR/DR序列、整合接点(重复区域)

<400> 5

acttaagtgt atgtaaactt ccgacttcaa ctgtaaattt tccacctttt tcagttttcc 60

tcgccatatt tcatg 75

<210> 6

<211> 21531

<212> DNA

<213> 智人

<400> 6

gatctctatc ccctcctgtt ttctctacgt tatttatatg ggtatcatca ccatcctgga 60

caacatcagg acagatatcc ctcaccaagc caatgttcct ctctatgttg gctcaaatgt 120

ccttgaactt tcctttcacc accctttcca cagtcaaaag gatattgtag tttaatgcct 180

cagagttcag cttttaagct tctgacaaat tattcttcct ctttaggttc tcctttatgg 240

aatcttctgt actgatggcc atgtccttta actactatgt agatatctgc tactacctgt 300

attatgcctc tacctttatt agcagagtta tctgtactgt tggcatgaca atcatttgtt 360

aatatgactt gcctttcctt tttctgctat tcttgatcaa atggctcctc tttcttgctc 420

ctctcatttc tcctgccttc acttggacgt gcttcacgta gtctgtgctt atgactggat 480

taaaaattga tatggactta tcctaatgtt gttcgtcata atatgggttt tatggtccat 540

tattatttcc tatgcattga tctggagaag gcttcaatcc ttttactctt tgtggaaaat 600

atctgtaaac cttctggttc actctgctat agcaatttca gtttaggcta gtaagcatga 660

ggatgcctcc ttctctgatt tttcccacag tctgttggtc acagaataac ctgagtgatt 720

actgatgaaa gagtgagaat gttattgata gtcacaatga caaaaaacaa acaactacag 780

tcaaaatgtt tctcttttta ttagtggatt atatttcctg acctatatct ggcaggactc 840

tttagagagg tagctgaagc tgctgttatg accactagag ggaagaagat acctgtggag 900

ctaatggtcc aagatggtgg agccccaagc aaggaagttg ttaaggagcc cttttgattg 960

aaggtgggtg cccccacctt acagggacag gacatctgga tactcctccc agtttctcca 1020

gtttcccttt ttcctaatat atctcctgat aaaatgtcta tactcacttc cccatttcta 1080

ataataaagc aaaggctagt tagtaagaca tcaccttgca ttttgaaaat gccatagact 1140

ttcaaaatta tttcatacat cggtctttct ttatttcaag agtccagaaa tggcaacatt 1200

acctttgatt caatgtaatg gaaagagctc tttcaagaga cagagaaaag aataatttaa 1260

tttctttccc cacacctcct tccctgtctc ttaccctatc ttccttcctt ctaccctccc 1320

catttctctc tctcatttct cagaagtata ttttgaaagg attcatagca gacagctaag 1380

gctggttttt tctaagtgaa gaagtgatat tgagaaggta gggttgcatg agccctttca 1440

gttttttagt ttatatacat ctgtattgtt agaatgtttt ataatataaa taaaattatt 1500

tctcagttat atactagcta tgtaacctgt ggatatttcc ttaagtatta caagctatac 1560

ttaactcact tggaaaactc aaataaatac ctgcttcata gttattaata aggattaagt 1620

gagataatgc ccataagatt cctattaata acagataaat acatacacac acacacacat 1680

tgaaaggatt cttactttgt gctaggaact ataataagtt cattgatgca ttatatcatt 1740

aagttctaat ttcaacacta gaaggcaggt attatctaaa tttcatactg gatacctcca 1800

aactcataaa gataattaaa ttgccttttg tcatatattt attcaaaagg gtaaactcaa 1860

actatggctt gtctaatttt atatatcacc ctactgaaca tgaccctatt gtgatatttt 1920

ataaaattat tctcaagtta ttatgaggat gttgaaagac agagaggatg gggtgctatg 1980

ccccaaatca gcctcacaat taagctaagc agctaagagt cttgcagggt agtgtaggga 2040

ccacagggtt aagggggcag tagaattata ctcccacttt agtttcattt caaacaatcc 2100

atacacacac agccctgagc acttacaaat tatactacgc tctatacttt ttgtttaaat 2160

gtataaataa gtggatgaaa gaatagatag atagatagac agatagatga tagatagaat 2220

aaatgcttgc cttcatagct gtctccctac cttgttcaaa atgttcctgt ccagaccaaa 2280

gtaccttgcc ttcacttaag taatcaattc ctaggttata ttctgatgtc aaaggaagtc 2340

aaaagatgtg aaaaacaatt tctgacccac aactcatgct ttgtagatga ctagatcaaa 2400

aaatttcagc catatcttaa cagtgagtga acaggaaatc tcctcttttc cctacatctg 2460

agatcccagc ttctaagacc ttcaattctc actcttgatg caacagacct tggaagcata 2520

caggagagct gaacttggtc aacaaaggag aaaagtttgt tggcctccaa aggcacagct 2580

caaacttttc aagccttctc taatcttaaa ggtaaacaag ggtctcattt ctttgagaac 2640

ttcagggaaa atagacaagg acttgcctgg tgcttttggt aggggagctt gcactttccc 2700

cctttctgga ggaaatattt atccccaggt agttcccttt ttgcaccagt ggttctttga 2760

agagacttcc acctgggaac agttaaacag caactacagg gccttgaact gcacactttc 2820

agtccggtcc tcacagttga aaagacctaa gcttgtgcct gatttaagcc tttttggtca 2880

taaaacattg aattctaatc tccctctcaa ccctacagtc acccatttgg tatattaaag 2940

atgtgttgtc tactgtctag tatccctcaa gtagtgtcag gaattagtca tttaaatagt 3000

ctgcaagcca ggagtggtgg ctcatgtctg taattccagc acttgagagg tagaagtggg 3060

aggactgctt gagctcaaga gtttgatatt atcctggaca acatagcaag acctcgtctc 3120

tacttaaaaa aaaaaaaaaa attagccagg catgtgatgt acacctgtag tcccagctac 3180

tcaggaggcc gaaatgggag gatcccttga gctcaggagg tcaaggctgc agtgagacat 3240

gatcttgcca ctgcactcca gcctggacag cagagtgaaa ccttgcctca cgaaacagaa 3300

tacaaaaaca aacaaacaaa aaactgctcc gcaatgcgct tccttgatgc tctaccacat 3360

aggtctgggt actttgtaca cattatctca ttgctgttca taattgttag attaattttg 3420

taatattgat attattccta gaaagctgag gcctcaagat gataactttt attttctgga 3480

cttgtaatag ctttctcttg tattcaccat gttgtaactt tcttagagta gtaacaatat 3540

aaagttattg tgagtttttg caaacacagc aaacacaacg acccatatag acattgatgt 3600

gaaattgtct attgtcaatt tatgggaaaa caagtatgta ctttttctac taagccattg 3660

aaacaggaat aacagaacaa gattgaaaga atacattttc cgaaattact tgagtattat 3720

acaaagacaa gcacgtggac ctgggaggag ggttattgtc catgactggt gtgtggagac 3780

aaatgcaggt ttataataga tgggatggca tctagcgcaa tgactttgcc atcactttta 3840

gagagctctt ggggacccca gtacacaaga ggggacgcag ggtatatgta gacatctcat 3900

tctttttctt agtgtgagaa taagaatagc catgacctga gtttatagac aatgagccct 3960

tttctctctc ccactcagca gctatgagat ggcttgccct gcctctctac taggctgact 4020

cactccaagg cccagcaatg ggcagggctc tgtcagggct ttgatagcac tatctgcaga 4080

gccagggccg agaaggggtg gactccagag actctccctc ccattcccga gcagggtttg 4140

cttatttatg catttaaatg atatatttat tttaaaagaa ataacaggag actgcccagc 4200

cctggctgtg acatggaaac tatgtagaat attttgggtt ccattttttt ttccttcttt 4260

cagttagagg aaaaggggct cactgcacat acactagaca gaaagtcagg agctttgaat 4320

ccaagcctga tcatttccat gtcatactga gaaagtcccc acccttctct gagcctcagt 4380

ttctcttttt ataagtagga gtctggagta aatgatttcc aatggctctc atttcaatac 4440

aaaatttccg tttattaaat gcatgagctt ctgttactcc aagactgaga aggaaattga 4500

acctgagact cattgactgg caagatgtcc ccagaggctc tcattcagca ataaaattct 4560

caccttcacc caggcccact gagtgtcaga tttgcatgca ctagttcacg tgtgtaaaaa 4620

ggaggatgct tctttccttt gtattctcac atacctttag gaaagaactt agcacccttc 4680

ccacacagcc atcccaataa ctcatttcag tgactcaacc cttgacttta taaaagtctt 4740

gggcagtata gagcagagat taagagtaca gatgctggag ccagaccacc tgagtgatta 4800

gtgactcagt ttctcttagt agttgtatga ctcagtttct tcatctgtaa aatggagggt 4860

tttttaatta gtttgttttt gagaaagggt ctcactctgt cacccaaatg ggagtgtagt 4920

ggcaaaatct cggctcactg caacttgcac ttcccaggct caagcggtcc tcccacctca 4980

acatcctgag tagctggaac cacaggtaca caccaccata cctcgctaat tttttgtatt 5040

tttggtagag atggggtttc acatgttaca caggatggtc tcagactccg gagctcaagc 5100

aatctgccca cctcagcctt ccaaagtgct gggattataa gcatgattac aggagtttta 5160

acaggctcat aagattgttc tgcagcccga gtgagttaat acatgcaaag agtttaaagc 5220

agtgacttat aaatgctaac tactctagaa atgtttgcta gtattttttg tttaactgca 5280

atcattcttg ctgcaggtga aaactagtgt tctgtacttt atgcccattc atctttaact 5340

gtaataataa aaataactga catttattga aggctatcag agactgtaat tagtgctttg 5400

cataattaat catatttaat actcttggat tctttcaggt agatactatt attatcccca 5460

ttttactaca gttaaaaaaa ctacctctca acttgctcaa gcatacactc tcacacacac 5520

aaacataaac tactagcaaa tagtagaatt gagatttggt cctaattatg tctttgctca 5580

ctatccaata aatatttatt gacatgtact tcttggcagt ctgtatgctg gatgctgggg 5640

atacaaagat gtttaaattt aagctccagt ctctgcttcc aaaggcctcc caggccaagt 5700

tatccattca gaaagcattt tttactcttt gcattccact gtttttccta agtgactaaa 5760

aaattacact ttattcgtct gtgtcctgct ctgggatgat agtctgactt tcctaacctg 5820

agcctaacat ccctgacatc aggaaagact acaccatgtg gagaaggggt ggtggttttg 5880

attgctgctg tcttcagtta gatggttaac tttgtgaagt tgaaaactgt ggctctctgg 5940

ttgactgtta gagttctggc acttgtcact atgcctatta tttaacaaat gcatgaatgc 6000

ttcagaatat gggaatatta tcttctggaa tagggaatca agttatatta tgtaacccag 6060

gattagaaga ttcttctgtg tgtaagaatt tcataaacat taagctgtct agcaaaagca 6120

agggcttgga aaatctgtga gctcctcacc atatagaaag cttttaaccc atcattgaat 6180

aaatccctat aggggatttc taccctgagc aaaaggctgg tcttgattaa ttcccaaact 6240

catatagctc tgagaaagtc tatgctgtta acgttttctt gtctgctacc ccatcatatg 6300

cacaacaata aatgcaggcc taggcatgac tgaaggctct ctcataattc ttggttgcat 6360

gaatcagatt atcaacagaa atgttgagac aaactatggg gaagcagggt atgaaagagc 6420

tctgaatgaa atggaaaccg caatgcttcc tgcccattca gggctccagc atgtagaaat 6480

ctggggcttt gtgaagactg gcttaaaatc agaagcccca ttggataaga gtagggaaga 6540

acctagagcc tacgctgagc aggtttcctt catgtgacag ggagcctcct gccccgaact 6600

tccagggatc ctctcttaag tgtttcctgc tggaatctcc tcacttctat ctggaaatgg 6660

tttctccaca gtccagcccc tggctagttg aaagagttac ccatgcagag gccctcctag 6720

catccagaga ctagtgctta gattcctact ttcagcgttg gacaacctgg atccacttgc 6780

ccagtgttct tccttagttc ctaccttcga ccttgatcct cctttatctt cctgaaccct 6840

gctgagatga tctatgtggg gagaatggct tctttgagaa acatcttctt cgttagtggc 6900

ctgcccctca ttcccacttt aatatccaga atcactataa gaagaatata ataagaggaa 6960

taactcttat tataggtaag ggaaaattaa gaggcatacg tgatgggatg agtaagagag 7020

gagagggaag gattaatgga cgataaaatc tactactatt tgttgagacc ttttatagtc 7080

taatcaattt tgctattgtt ttccatcctc acgctaactc cataaaaaaa cactattatt 7140

atctttattt tgccatgaca agactgagct cagaagagtc aagcatttgc ctaaggtcgg 7200

acatgtcaga ggcagtgcca gacctatgtg agactctgca gctactgctc atgggccctg 7260

tgctgcactg atgaggagga tcagatggat ggggcaatga agcaaaggaa tcattctgtg 7320

gataaaggag acagccatga agaagtctat gactgtaaat ttgggagcag gagtctctaa 7380

ggacttggat ttcaaggaat tttgactcag caaacacaag accctcacgg tgactttgcg 7440

agctggtgtg ccagatgtgt ctatcagagg ttccagggag ggtggggtgg ggtcagggct 7500

ggccaccagc tatcagggcc cagatgggtt ataggctggc aggctcagat aggtggttag 7560

gtcaggttgg tggtgctggg tggagtccat gactcccagg agccaggaga gatagaccat 7620

gagtagaggg cagacatggg aaaggtgggg gaggcacagc atagcagcat ttttcattct 7680

actactacat gggactgctc ccctataccc ccagctaggg gcaagtgcct tgactcctat 7740

gttttcagga tcatcatcta taaagtaaga gtaataattg tgtctatctc atagggttat 7800

tatgaggatc aaaggagatg cacactctct ggaccagtgg cctaacagtt caggacagag 7860

ctatgggctt cctatgtatg ggtcagtggt ctcaatgtag caggcaagtt ccagaagata 7920

gcatcaacca ctgttagaga tatactgcca gtctcagagc ctgatgttaa tttagcaatg 7980

ggctgggacc ctcctccagt agaaccttct aaccagctgc tgcagtcaaa gtcgaatgca 8040

gctggttaga ctttttttaa tgaaagctta gctttcatta aagattaagc tcctaagcag 8100

ggcacagatg aaattgtcta acagcaactt tgccatctaa aaaaatctga cttcactgga 8160

aacatggaag cccaaggttc tgaacatgag aaatttttag gaatctgcac aggagttgag 8220

agggaaacaa gatggtgaag ggactagaaa ccacatgaga gacacgagga aatagtgtag 8280

atttaggctg gaggtaaatg aaagagaagt gggaattaat acttactgaa atctttctat 8340

atgtcaggtg ccattttatg atatttaata atctcattac atatggtaat tctgtgagat 8400

atgtattatt gaacatacta taattaatac taatgataag taacacctct tgagtactta 8460

gtatatgcta gaatcaaatt taagtttatc atatgaggcc gggcacggtg gctcatatat 8520

gggattacat gcctgtaatc ccagcacttt gggaggccaa ggcaattgga tcacctgagg 8580

tcaggagttc cagaccagcc tggccaacat ggtgaaaccc cttctctact aaaaaataca 8640

aaaaatcagc caggtgtggt ggcacgcgtc tataatccca gctactcagg aggctgaggc 8700

aggagaatca cttgaaccca ggaggtggag gttgcagtga gctaagattg caccactgca 8760

ctccagccta ggcgacagag tgagactcca tctcaaaaaa aaaaaaagaa gtttattata 8820

tgaattaact tagttttact cacaccaata ctcagaagta gattattacc tcatttattg 8880

atgaggagcc caatgtactt gtagtgtaga tcaacttatt gaaagcacaa gctaataagt 8940

agacaattag taattagaag tcagatggtc tgagctctcc tactgtctac attacatgag 9000

ctcttattaa ctggggactc gaaaatcaaa gacatgaaat aatttgtcca agcttacaga 9060

accaccaagt agtaaggcta ggatgtagac ccagttctgc tacctctgaa gacagtgttt 9120

tttccacagc aaaacacaaa ctcagatatt gtggatgcga gaaattagaa gtagatattc 9180

ctgccctgtg gcccttgctt cttactttta cttcttgtcg attggaagtt gtggtccaag 9240

ccacagttgc agaccatact tcctcaacca taattgcatt tcttcaggaa agtttgaggg 9300

agaaaaaggt aaagaaaaat ttagaaacaa cttcagaata aagagatttt ctcttgggtt 9360

acagagattg tcatatgaca aattataagc agacacttga gaaaactgaa ggcccatgcc 9420

tgcccaaatt accctttgac cccttggtca agctgcaact ttggttaaag ggagtgttta 9480

tgtgttatag tgttcattta ctcttctggt ctaacccatt ggctccgtct tcatcctgca 9540

gtgacctcag tgcctcagaa acatacatat gtttgtctag tttaagtttg tgtgaaattc 9600

taactagcgt caagaactga gggccctaaa ctatgctagg aatagtgctg tggtgctgtg 9660

ataggtacac aagaaatgag aagaaactgc agattctctg catctccctt tgccgggtct 9720

gacaacaaag tttccccaaa ttttaccaat gcaagccatt tctccatatg ctaactactt 9780

taaaatcatt tggggcttca cattgtcttt ctcatctgta aaaagaatgg aagaactcat 9840

tcctacagaa ctccctatgt cttccctgat gggctagagt tcctctttct caaaaattag 9900

ccattattgt atttccttct aagccaaagc tcagaggtct tgtattgccc agtgacatgc 9960

acactggtca aaagtaggct aagtagaagg gtactttcac aggaacagag agcaaaagag 10020

gtgggtgaat gagagggtaa gtgagaaaag acaaatgaga agttacaaca tgatggcttg 10080

ttgtctaaat atctcctagg gaattattgt gagaggtctg aatagtgttg taaaataagc 10140

tgaatctgct gccaacatta acagtcaaga aatacctccg aataactgta cctccaatta 10200

ttctttaagg tagcatgcaa ctgtaatagt tgcatgtata tatttatcat aatactgtaa 10260

cagaaaacac ttactgaata tatactgtgt ccctagttct ttacacaata aactaatctc 10320

atcctcataa ttctattagc taatacatat tatcatccta tatttcagag acttcaagaa 10380

gttaagcaac ttgctcaaga tcatctaaga agtaggtggt atttctgggc tcatttggcc 10440

cctcctaatc tctcatggca acatggctgc ctaaagtgtt gattgcctta attcatcagg 10500

gatgggctca tactcactgc agaccttaac tggcatcctc ttttcttatg tgatctgcct 10560

gaccctagta gacttatgaa atttctgatg agaaaggaga gaggagaaag gcagagctga 10620

ctgtgatgag tgatgaaggt gccttctcat ctgggtacca gtggggcctc taagactaag 10680

tcactctgtc tcactgtgtc ttagccagtt ccttacagct tgccctgatg ggagatagag 10740

aatgggtatc ctccaacaaa aaaataaatt ttcatttctc aaggtccaac ttatgttttc 10800

ttaattttta aaaaaatctt gaccattctc cactctctaa aataatccac agtgagagaa 10860

acattctttt cccccatccc ataaatacct ctattaaata tggaaaatct gggcatggtg 10920

tctcacacct gtaatcccag cactttggga ggctgaggtg ggtggactgc ttggagctca 10980

ggagttcaag accatcttgg acaacatggt gataccctgc ctctacaaaa agtacaaaaa 11040

ttagcctggc atggtggtgt gcacctgtaa tcccagctat tagggtggct gaggcaggag 11100

aattgcttga acccgggagg cggaggttgc agtgagctga gatcgtgcca ctgcactcca 11160

gcctggggga cagagcacat tataattaac tgttattttt tacttggact cttgtgggga 11220

ataagataca tgttttattc ttatttatga ttcaagcact gaaaatagtg tttagcatcc 11280

agcaggtgct tcaaaaccat ttgctgaatg attactatac tttttacaag ctcagctccc 11340

tctatccctt ccagcatcct catctctgat taaataagct tcagtttttc cttagttcct 11400

gttacatttc tgtgtgtctc cattagtgac ctcccatagt ccaagcatga gcagttctgg 11460

ccaggcccct gtcggggtca gtgccccacc cccgccttct ggttctgtgt aaccttctaa 11520

gcaaaccttc tggctcaagc acagcaatgc tgagtcatga tgagtcatgc tgaggcttag 11580

ggtgtgtgcc cagatgttct cagcctagag tgatgactcc tatctgggtc cccagcagga 11640

tgcttacagg gcagatggca aaaaaaagga gaagctgacc acctgactaa aactccacct 11700

caaacggcat cataaagaaa atggatgcct gagacagaat gtgacatatt ctagaatata 11760

ttatttcctg aatatatata tatatataca catatacgta tatatatata tatatatata 11820

tttgttgtta tcaattgcca tagaatgatt agttattgtg aatcaaatat ttatcttgca 11880

ggtggcctct atacctagaa gcggcagaat caggctttat taatacatgt gtatagattt 11940

ttaggatcta tacacatgta ttaatatgaa acaaggatat ggaagaggaa ggcatgaaaa 12000

caggaaaaga aaacaaacct tgtttgccat tttaaggcac ccctggacag ctaggtggca 12060

aaaggcctgt gctgttagag gacacatgct cacatacggg gtcagatctg acttggggtg 12120

ctactgggaa gctctcatct taaggataca tctcaggcca gtcttggtgc attaggaaga 12180

tgtaggcaac tctgatcctg agaggaaaga aacattcctc caggagagct aaaagggttc 12240

acctgtgtgg gtaactgtga aggactacaa gaggatgaaa aacaatgaca gacagacata 12300

atgcttgtgg gagaaaaaac aggaggtcaa ggggatagag aaggcttcca gaagaatggc 12360

tttgaagctg gcttctgtag gagttcacag tggcaaagat gtttcagaaa tgtgacatga 12420

cttaaggaac tatacaaaaa ggaacaaatt taaggagagg cagataaatt agttcaacag 12480

acatgcaagg aattttcaga tgaatgttat gtctccactg agcttcttga ggttagcagc 12540

tgtgagggtt ttgcaggccc aggacccatt acaggacctc acgtatactt gacactgttt 12600

tttgtattca tttgtgaatg aatgacctct tgtcagtcta ctcggtttcg ctgtgaatga 12660

atgatgtctt gtcagcctac ttggtttcgc taagagcaca gagagaagat ttagtgatgc 12720

tatgtaaaaa cttccttttt ggttcaagtg tatgtttgtg atagaaatga agacaggcta 12780

catgatgcat atctaacata aacacaaaca ttaagaaagg aaatcaacct gaagagtatt 12840

tatacagata acaaaataca gagagtgagt taaatgtgta ataactgtgg cacaggctgg 12900

aatatgagcc atttaaatca caaattaatt agaaaaaaaa cagtggggaa aaaattccat 12960

ggatgggtct agaaagacta gcattgtttt aggttgagtg gcagtgttta aagggtgata 13020

tcagactaaa cttgaaatat gtggctaaat aactagaata ctctttattt tttcgtatca 13080

tgaatagcag atatagcttg atggccccat gcttggttta acatccttgc tgttcctgac 13140

atgaaatcct taatttttga caaaggggct attcattttc attttatatt gggcctagaa 13200

attatgtaga tggtcctgag gaaaagttta tagcttgtct atttctctct ctaacatagt 13260

tgtcagcaca atgcctaggc tataggaagt actcaaagct tgttaaattg aattctatcc 13320

ttcttattca attctacaca tggaggaaaa actcatcagg gatggaggca cgcctctaag 13380

gaaggcaggt gtggctctgc agtgtgattg ggtacttgca ggacgaaggg tggggtggga 13440

gtggctaacc ttccattcct agtgcagagg tcacagccta aacatcaaat tccttgaggt 13500

gcggtggctc actcctgtaa tcacagcagt ttgggacgcc aaggtgggca gatcacttga 13560

ggtcaggagt tggacaccag cccagccaac atagtgaaac ctggtctctg cttaaaaata 13620

taaaaattag ctggacgtgg tgacgggagc ctgtaatcca actacttggg aggctgaggc 13680

aggagaatcg cttgaaccgg ggaggtggag tttgcactga gcagagatca tgccattgca 13740

ctccagcctc cagagcgaga ctctgtctaa agaaaaacga aaacaaacaa acaaacaaac 13800

aaacaaaacc catcaaattc cctgaccgaa cagaattctg tctgattgtt ctctgactta 13860

tctaccattt tccctcctta aagaaactgt gaacttcctt cagctagagg ggcctggctc 13920

agaagcctct ggtcagcatc caagaaatac ttgatgtcac tttggctaaa ggtatgatgt 13980

gtagacaagc tccagagatg gtttctcatt tccatatcca cccacccagc tttccaattt 14040

taaagccaat tctgaggtag agactgtgat gaacaaacac cttgacaaaa ttcaacccaa 14100

agactcactt tgcctagctt caaaatcctt actctgacat atactcacag ccagaaatta 14160

gcatgcacta gagtgtgcat gagtgcaaca cacacacaca ccaattccat attctctgtc 14220

agaaaatcct gttggttttt cgtgaaagga tgttttcaga ggctgacccc ttgccttcac 14280

ctccaatgct accactctgg tctaagtcac tgtcaccacc acctaaatta tagctgttga 14340

ctcataacaa tcttcctgct tctaccactg ccccactaca atttcttccc aatatactat 14400

ccaaattagt cttttcaaaa tgtaagtcat atatggtcac ctctttgttc aaagtcttct 14460

gatagtttcc tatatcattt ataataaaac caaatcctta caattctcta caatagttgt 14520

tcatgcatat attatgttta ttacagatac atatatatag ctctcatata aataaatata 14580

tatatttatg tgtatgtgtg tagagtgttt tttcttacaa ctctatgatg taggtattat 14640

tagtgtccca aattttataa tttaggactt ctatgatctc atcttttatt ctccccttca 14700

ccgaatctca tcctacattg gccttattga tattccttga aaattctaag catcttacat 14760

ctttagggta tttacatttg ccattcccta tgccctaaat atttaatcat agtttcatat 14820

aaatgggttc ctcatcatct atgggtactc tctcaggtgt taactttata gtgaggactt 14880

tcctgccata ctacttaaag tagcgatacc ctttcaccct gtcctaatca cactctggcc 14940

ttcatttcag tttttttttt ttctccatag cacctaatct cattggtata taacatgttt 15000

catttgctta tttaatgtca agctctttcc actatcaagt ccatgaaaac aggaacttta 15060

ttcctctatt ctgtttttgt gctgtattct tagcaatttt acaattttga atgaatgaat 15120

gagcagtcaa acacatatac aactataatt aaaaggatgt atgctgacac atccactgct 15180

atgcacacac aaagaaatca gtggagtaga gctggaagtg ctaagcctgc atagagctag 15240

ttagccctcc gcaggcagag ccttgatggg attactgagt tctagaattg gactcatttg 15300

ttttgtaggc tgagatttgc tcttgaaaac ttgttctgac caaaataaaa ggctcaaaag 15360

atgaatatcg aaaccagggt gttttttaca ctggaattta taactagagc actcatgttt 15420

atgtaagcaa ttaattgttt catcagtcag gtaaaagtaa agaaaaactg tgccaaggca 15480

ggtagcctaa tgcaatatgc cactaaagta aacattattt cataggtgtc agatatggct 15540

tattcatcca tcttcatggg aaggatggcc ttggcctgga catcagtgtt atgtgaggtt 15600

caaaacacct ctaggctata aggcaacaga gctccttttt tttttttctg tgctttcctg 15660

gctgtccaaa tctctaatga taagcatact tctattcaat gagaatattc tgtaagatta 15720

tagttaagaa ttgtgggagc cattccgtct cttatagtta aatttgagct tcttttatga 15780

tcactgtttt tttaatatgc tttaagttct ggggtacatg tgccatggtg gtttgctgca 15840

cccatcaacc cgtcatctac attaggtatt tctcctaatg ctatccttcc cctagccccc 15900

cacccccaac aggccccagt gtgtgatgtt cccctccctg tgtccatgga tcactggttt 15960

ttttttgttt tttttttttt tttaaagtct cagttaaatt tttggaatgt aatttatttt 16020

cctggtatcc taggacttgc aagttatctg gtcactttag ccctcacgtt ttgatgataa 16080

tcacatattt gtaaacacaa cacacacaca cacacacaca cacatatata tatatataaa 16140

acatatatat acataaacac acataacata tttatcgggc atttctgagc aactaatcat 16200

gcaggactct caaacactaa cctatagcct tttctatgta tctacttgtg tagaaaccaa 16260

gcgtggggac tgagaaggca atagcaggag cattctgact ctcactgcct ttagctaggc 16320

ccctccctca tcacagctca gcatagtcct gagctcttat ctatatccac acacagtttc 16380

tgacgctgcc cagctatcac catcccaagt ctaaagaaaa aaataatggg tttgcccatc 16440

tctgttgatt agaaaacaaa acaaaataaa ataagcccct aagctcccag aaaacatgac 16500

taaaccagca agaagaagaa aatacaatag gtatatgagg agactggtga cactagtgtc 16560

tgaatgaggc ttgagtacag aaaagaggct ctagcagcat agtggtttag aggagatgtt 16620

tctttccttc acagatgcct tagcctcaat aagcttgcgg ttgtggaagt ttactttcag 16680

aacaaactcc tgtggggcta gaattattga tggctaaaag aagcccgggg gagggaaaaa 16740

tcattcagca tcctcaccct tagtgacaca aaacagaggg ggcctggttt tccatatttc 16800

ctcatgatgg atgatctcgt taatgaaggt ggtctgacga gatcattgct tcttccattt 16860

aagccttgct cacttgccaa tcctcagttt taaccttctc cagagaaata cacatttttt 16920

attcaggaaa catactatgt tatagtttca atactaaata atcaaagtac tgaagatagc 16980

atgcataggc aagaaaaagt ccttagcttt atgttgctgt tgtttcagaa tttaaaaaag 17040

atcaccaagt caaggacttc tcagttctag cactagaggt ggaatcttag catataatca 17100

gaggtttttc aaaatttcta gacataagat tcaaagccct gcacttaaaa tagtctcatt 17160

tgaattaact ctttatataa attgaaagca cattctgaac tacttcagag tattgtttta 17220

tttctatgtt cttagttcat aaatacatta ggcaatgcaa tttaattaaa aaaacccaag 17280

aatttcttag aattttaatc atgaaaataa atgaaggcat ctttacttac tcaaggtccc 17340

aaaaggtcaa agaaaccagg aaagtaaagc tatatttcag cggaaaatgg gatatttatg 17400

agttttctaa gttgacagac tcaagtttta accttcagtg cccatcatgt aggaaagtgt 17460

ggcataactg gctgattctg gctttctact cctttttccc attaaagatc cctcctgctt 17520

aattaacatt cacaagtaac tctggttgta ctttaggcac agtggctccc gaggtcagtc 17580

acacaatagg atgtctgtgc tccaagttgc cagagagaga gattactctt gagaatgagc 17640

ctcagccctg gctcaaactc acctgcaaac ttcgtgagag atgaggcaga ggtacactac 17700

gaaagcaaca gttagaagct aaatgatgag aacacatgga ctcatagagg gaaacaacgc 17760

atactggggc ctatcagagg gtggagggtg agagaaggag aggatcagga aaaatcacta 17820

atggatgcta agcgtaatac ctgagtgatg agatcatcta tacaacaaac ccccttgaca 17880

ttcatttatc tatgtaacaa acctgcacat cctgtacatg tacccctgaa cttaaaataa 17940

aagttgaaaa caagaaagca acagtttgaa cacttgttat ggtctattct ctcattcttt 18000

acaattacac tagaaaatag ccacaggctt cctgcaaggc agccacagaa tttatgactt 18060

gtgatatcca agtcattcct ggataatgca aaatctaaca caaaatctag tagaatcatt 18120

tgcttacatc tatttttgtt ctgagaatat agatttagat acataatgga agcagaataa 18180

tttaaaatct ggctaattta gaatcctaag cagctctttt cctatcagtg gtttacaagc 18240

cttgtttata tttttcctat tttaaaaata aaaataaagt aagttatttg tggtaaagaa 18300

tattcattaa agtatttatt tcttagataa taccatgaaa aacattcagt gaagtgaagg 18360

gcctacttta cttaacaaga atctaattta tataattttt catactaata gcatctaaga 18420

acagtacaat atttgactct tcaggttaaa catatgtcat aaattagcca gaaagattta 18480

agaaaatatt ggatgtttcc ttgtttaaat taggcatctt acagttttta gaatcctgca 18540

tagaacttaa gaaattacaa atgctaaagc aaacccaaac aggcaggaat taatcttcat 18600

cgaatttggg tgtttctttc taaaagtcct ttatacttaa atgtcttaag acatacatag 18660

attttatttt actaatttta attatataga caataaatga atattcttac tgattacttt 18720

ttctgactgt ctaatctttc tgatctatcc tggatggcca taacacttat ctctctgaac 18780

tttgggcttt taatatagga aagaaaagca ataatccatt tttcatggta tctcatatga 18840

taaacaaata aaatgcttaa aaatgagcag gtgaagcaat ttatcttgaa ccaacaagca 18900

tcgaagcaat aatgagactg cccgcagcct acctgacttc tgagtcagga tttataagcc 18960

ttgttactga gacacaaacc tgggcctttc aatgctataa cctttcttga agctcctccc 19020

taccaccttt agccataagg aaacatggaa tgggtcagat ccctggatgc aagccaggtc 19080

tggaaccata ggcagtaagg agagaagaaa atgtgggctc tgcaactggc tccgagggag 19140

caggagagga tcaaccccat actctgaatc taagagaaga ctggtgtcca tactctgaat 19200

gggaagaatg atgggattac ccatagggct tgttttaggg agaaacctgt tctccaaact 19260

cttggccttg agatacctgg tccttattcc ttggactttg gcaatgtctg accctcacat 19320

tcaagttctg aggaagggcc actgccttca tactgtggat ctgtagcaaa ttccccctga 19380

aaacccagag ctgtatctta attggttaaa aaaaattata ttatctcaac gactgttctt 19440

ctctgagtag ccaagctcag cttggttcaa gctacaagca gctgagctgc tttttgtcta 19500

gtcattgttc ttttatttca gtggatcaaa tacgttcttt ccaaacctag gatcttgtct 19560

tcctaggcta tatattttgt cccaggaagt cttaatctgg ggtccacaga acactagggg 19620

gctggtgaag tttatagaaa aaaaatctgt atttttactt acatgtaact gaaatttagc 19680

attttcttct actttgaatg caaaggacaa actagaatga catcatcagt acctattgca 19740

tagttataaa gagaaaccac agatattttc atactacacc ataggtattg cagatctttt 19800

tgtttttgtt tttgtttgag atggagtttc gctcttattg cccaggctgg agtgcagtgg 19860

catgatttcg gctcactgca acctcccctt cctgcattca agcaattctc ctgccttggc 19920

ctcctgagta gctggggatt acaggcacct gccaccatgc cagtctaatt tttgtatttt 19980

tagtagagat ggggtttcgc catgttggcc aggctggtct tgaactcctg acctcagatg 20040

atctgcccgc cttggcctcc tgaagtgctg ggattatagg tgtgagccac cacgcctggc 20100

ccattgcaga tatttttaat tcacatttat ctgcatcact acttggatct taaggtagct 20160

gtagacccaa tcctagatct aatgctttca taaagaagca aatataataa atactatacc 20220

acaaatgtaa tgtttgatgt ctgataatga tatttcagtg taattaaact tagcactcct 20280

atgtatatta tttgatgcaa taaaaacata tttttttagc acttacagtc tgccaaactg 20340

gcctgtgaca caaaaaaagt ttaggaattc ctggttttgt ctgtgttagc caatggttag 20400

aatatatgct cagaaagata ccattggtta atagctaaaa gaaaatggag tagaaattca 20460

gtggcctgga ataataacaa tttgggcagt cattaagtca ggtgaagact tctggaatca 20520

tgggagaaaa gcaagggaga cattcttact tgccacaagt gttttttttt tttttttttt 20580

ttatcacaaa cataagaaaa tataataaat aacaaagtca ggttatagaa gagagaaacg 20640

ctcttagtaa acttggaata tggaatcccc aaaggcactt gacttgggag acaggagcca 20700

tactgctaag tgaaaaagac gaagaacctc tagggcctga acatacagga aattgtagga 20760

acagaaattc ctagatctgg tggggcaagg ggagccatag gagaaagaaa tggtagaaat 20820

ggatggagac ggaggcagag gtgggcagat catgaggtca agagatcgag accatcctgg 20880

caaacatggt gaaatcccgt ctctactaaa aataaaaaaa ttagctgggc atggtggcat 20940

gcgcctgtag tcccagctgc tcgggaggct gaggcaggag aatcgtttga acccaggagg 21000

cgaaggttgc agtgagctga gatagtgcca ttgcactcca gtctggcaac agagtgagac 21060

tccgtctcaa aaaaaaaaaa aaaagaaaga aagaaaagaa aaagaaaaaa gaaaaaataa 21120

atggatgtag aacaagccag aaggaggaac tgggctgggg caatgagatt atggtgatgt 21180

aagggacttt tatagaatta acaatgctgg aatttgtgga actctgcttc tattattccc 21240

ccaatcatta cttctgtcac attgatagtt aaataatttc tgtgaattta ttccttgatt 21300

ctaaaatatg aggataatga caatggtatt ataagggcag attaagtgat atagcatgag 21360

caatattctt caggcacatg gatcgaattg aatacactgt aaatcccaac ttccagtttc 21420

agctctacca agtaaagagc tagcaagtca tcaaaatggg gacatacaga aaaaaaaaag 21480

gacactagag gaataatata ccctgactcc tagcctgatt aatatatcga t 21531

<210> 7

<211> 1614

<212> DNA

<213> 智人

<400> 7

gatctctatt tatttagcaa taatagagaa agcatttaag agaataaagc aatggaaata 60

agaaatttgt aaatttcctt ctgataacta gaaatagagg atccagtttc ttttggttaa 120

cctaaatttt atttcatttt attgttttat tttattttat tttattttat tttgtgtaat 180

cgtagtttca gagtgttaga gctgaaagga agaagtagga gaaacatgca aagtaaaagt 240

ataacacttt ccttactaaa ccgacatggg tttccaggta ggggcaggat tcaggatgac 300

tgacagggcc cttagggaac actgagaccc tacgctgacc tcataaatgc ttgctacctt 360

tgctgtttta attacatctt ttaatagcag gaagcagaac tctgcacttc aaaagttttt 420

cctcacctga ggagttaatt tagtacaagg ggaaaaagta cagggggatg ggagaaaggc 480

gatcacgttg ggaagctata gagaaagaag agtaaatttt agtaaaggag gtttaaacaa 540

acaaaatata aagagaaata ggaacttgaa tcaaggaaat gattttaaaa cgcagtattc 600

ttagtggact agaggaaaaa aataatctga gccaagtaga agaccttttc ccctcctacc 660

cctactttct aagtcacaga ggctttttgt tcccccagac actcttgcag attagtccag 720

gcagaaacag ttagatgtcc ccagttaacc tcctatttga caccactgat taccccattg 780

atagtcacac tttgggttgt aagtgacttt ttatttattt gtatttttga ctgcattaag 840

aggtctctag ttttttatct cttgtttccc aaaacctaat aagtaactaa tgcacagagc 900

acattgattt gtatttattc tatttttaga cataatttat tagcatgcat gagcaaatta 960

agaaaaacaa caacaaatga atgcatatat atgtatatgt atgtgtgtat atatacacac 1020

atatatatat atattttttc ttttcttacc agaaggtttt aatccaaata aggagaagat 1080

atgcttagaa ccgaggtaga gttttcatcc attctgtcct gtaagtattt tgcatattct 1140

ggagacgcag gaagagatcc atctacatat cccaaagctg aattatggta gacaaaactc 1200

ttccactttt agtgcatcaa cttcttattt gtgtaataag aaaattggga aaacgatctt 1260

caatatgctt accaagctgt gattccaaat attacgtaaa tacacttgca aaggaggatg 1320

tttttagtag caatttgtac tgatggtatg gggccaagag atatatctta gagggagggc 1380

tgagggtttg aagtccaact cctaagccag tgccagaaga gccaaggaca ggtacggctg 1440

tcatcactta gacctcaccc tgtggagcca caccctaggg ttggccaatc tactcccagg 1500

agcagggagg gcaggagcca gggctgggca taaaagtcag ggcagagcca tctattgctt 1560

acatttgctt ctgacacaac tgtgttcact agcaacctca aacagacacc atgg 1614

<210> 8

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> Her2特异性CDR

<400> 8

Lys Ala Ser Gln Asp Val Ser Ile Gly Val Ala

1 5 10

<210> 9

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> Her2特异性CDR

<400> 9

Ala Ser Tyr Arg Tyr Thr

1 5

<210> 10

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> Her2特异性CDR

<400> 10

Gln Gln Tyr Tyr Ile Tyr Pro Tyr Thr

1 5

<210> 11

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> Her2特异性CDR

<400> 11

Gly Phe Thr Phe Thr Asp Tyr Thr Met Asp

1 5 10

<210> 12

<211> 16

<212> PRT

<213> 人工序列

<220>

<223> Her2特异性CDR

<400> 12

Asp Val Asn Pro Asn Ser Gly Gly Ser Ile Tyr Asn Gln Arg Phe Lys

1 5 10 15

<210> 13

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> Her2特异性CDR

<400> 13

Leu Gly Pro Ser Phe Tyr Phe Asp Tyr

1 5

<210> 14

<211> 15

<212> PRT

<213> 人工序列

<220>

<223> PD-L1特异性CDR

<400> 14

Arg Ala Ser Lys Gly Val Ser Thr Ser Gly Tyr Ser Tyr Leu His

1 5 10 15

<210> 15

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> PD-L1特异性CDR

<400> 15

Leu Ala Ser Tyr Leu Glu Ser

1 5

<210> 16

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> PD-L1特异性CDR

<400> 16

Gln His Ser Arg Asp Leu Pro Leu Thr

1 5

<210> 17

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> PD-L1特异性CDR

<400> 17

Asn Tyr Tyr Met Tyr

1 5

<210> 18

<211> 17

<212> PRT

<213> 人工序列

<220>

<223> PD-L1特异性CDR

<400> 18

Gly Ile Asn Pro Ser Asn Gly Gly Thr Asn Phe Asn Glu Lys Phe Lys

1 5 10 15

Asn

<210> 19

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> PD-L1特异性CDR

<400> 19

Arg Asp Tyr Arg Phe Asp Met Gly Phe Asp Tyr

1 5 10

<210> 20

<211> 120

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性可变重链

<400> 20

Glu Val Gln Leu Leu Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Ser Tyr

20 25 30

Ile Met Met Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Ser Ser Ile Tyr Pro Ser Gly Gly Ile Thr Phe Tyr Ala Asp Thr Val

50 55 60

Lys Gly Arg Phe Thr Ile Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Arg Ile Lys Leu Gly Thr Val Thr Thr Val Asp Tyr Trp Gly Gln

100 105 110

Gly Thr Leu Val Thr Val Ser Ser

115 120

<210> 21

<211> 110

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性可变轻链

<400> 21

Gln Ser Ala Leu Thr Gln Pro Ala Ser Val Ser Gly Ser Pro Gly Gln

1 5 10 15

Ser Ile Thr Ile Ser Cys Thr Gly Thr Ser Ser Asp Val Gly Gly Tyr

20 25 30

Asn Tyr Val Ser Trp Tyr Gln Gln His Pro Gly Lys Ala Pro Lys Leu

35 40 45

Met Ile Tyr Asp Val Ser Asn Arg Pro Ser Gly Val Ser Asn Arg Phe

50 55 60

Ser Gly Ser Lys Ser Gly Asn Thr Ala Ser Leu Thr Ile Ser Gly Leu

65 70 75 80

Gln Ala Glu Asp Glu Ala Asp Tyr Tyr Cys Ser Ser Tyr Thr Ser Ser

85 90 95

Ser Thr Arg Val Phe Gly Thr Gly Thr Lys Val Thr Val Leu

100 105 110

<210> 22

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性CDR

<400> 22

Ser Gly Phe Thr Phe Ser Ser Tyr Ile Met Met

1 5 10

<210> 23

<211> 17

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性CDR

<400> 23

Ser Ile Tyr Pro Ser Gly Gly Ile Thr Phe Tyr Ala Asp Thr Val Lys

1 5 10 15

Gly

<210> 24

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性CDR

<400> 24

Ile Lys Leu Gly Thr Val Thr Thr Val Asp Tyr

1 5 10

<210> 25

<211> 14

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性CDR

<400> 25

Thr Gly Thr Ser Ser Asp Val Gly Gly Tyr Asn Tyr Val Ser

1 5 10

<210> 26

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性CDR

<400> 26

Asp Val Ser Asn Arg Pro Ser

1 5

<210> 27

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 阿维鲁单抗特异性CDR

<400> 27

Ser Ser Tyr Thr Ser Ser Ser Thr Arg Val

1 5 10

<210> 28

<211> 118

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性可变重链

<400> 28

Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Asp Ser

20 25 30

Trp Ile His Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Ala Trp Ile Ser Pro Tyr Gly Gly Ser Thr Tyr Tyr Ala Asp Ser Val

50 55 60

Lys Gly Arg Phe Thr Ile Ser Ala Asp Thr Ser Lys Asn Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Arg Arg His Trp Pro Gly Gly Phe Asp Tyr Trp Gly Gln Gly Thr

100 105 110

Leu Val Thr Val Ser Ser

115

<210> 29

<211> 107

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性可变轻链

<400> 29

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Arg Ala Ser Gln Asp Val Ser Thr Ala

20 25 30

Val Ala Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile

35 40 45

Tyr Ser Ala Ser Phe Leu Tyr Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Tyr Leu Tyr His Pro Ala

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys

100 105

<210> 30

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性CDR

<400> 30

Ser Gly Phe Thr Phe Ser Asp Ser Trp Ile His

1 5 10

<210> 31

<211> 17

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性CDR

<400> 31

Trp Ile Ser Pro Tyr Gly Gly Ser Thr Tyr Tyr Ala Asp Ser Val Lys

1 5 10 15

Gly

<210> 32

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性CDR

<400> 32

Arg His Trp Pro Gly Gly Phe Asp Tyr

1 5

<210> 33

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性CDR

<400> 33

Arg Ala Ser Gln Asp Val Ser Thr Ala Val Ala

1 5 10

<210> 34

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性CDR

<400> 34

Ser Ala Ser Phe Leu Tyr Ser

1 5

<210> 35

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> 阿特珠单抗特异性CDR

<400> 35

Gln Gln Tyr Leu Tyr His Pro Ala Thr

1 5

<210> 36

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> PSMA特异性CDR

<400> 36

Lys Ala Ser Gln Asp Val Gly Thr Ala Val Asp

1 5 10

<210> 37

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> PSMA特异性CDR

<400> 37

Trp Ala Ser Thr Arg His Thr

1 5

<210> 38

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> PSMA特异性CDR

<400> 38

Gln Gln Tyr Asn Ser Tyr Pro Leu Thr

1 5

<210> 39

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> PSMA特异性CDR

<400> 39

Gly Tyr Thr Phe Thr Glu Tyr Thr Ile His

1 5 10

<210> 40

<211> 17

<212> PRT

<213> 人工序列

<220>

<223> PSMA特异性CDR

<400> 40

Asn Ile Asn Pro Asn Asn Gly Gly Thr Thr Tyr Asn Gln Lys Phe Glu

1 5 10 15

Asp

<210> 41

<211> 6

<212> PRT

<213> 人工序列

<220>

<223> PSMA特异性CDR

<400> 41

Gly Trp Asn Phe Asp Tyr

1 5

<210> 42

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> MUC16特异性CDR

<400> 42

Ser Glu Asp Ile Tyr Ser Gly

1 5

<210> 43

<211> 8

<212> PRT

<213> 人工序列

<220>

<223> MUC16特异性CDR

<400> 43

Gly Tyr Ser Tyr Ser Ser Thr Leu

1 5

<210> 44

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> MUC16特异性CDR

<400> 44

Thr Leu Gly Met Gly Val Gly

1 5

<210> 45

<211> 16

<212> PRT

<213> 人工序列

<220>

<223> MUC16特异性CDR

<400> 45

His Ile Trp Trp Asp Asp Asp Lys Tyr Tyr Asn Pro Ala Leu Lys Ser

1 5 10 15

<210> 46

<211> 12

<212> PRT

<213> 人工序列

<220>

<223> MUC16特异性CDR

<400> 46

Ile Gly Thr Ala Gln Ala Thr Asp Ala Leu Asp Tyr

1 5 10

<210> 47

<211> 15

<212> PRT

<213> 人工序列

<220>

<223> FOLR特异性CDR

<400> 47

Lys Ala Ser Gln Ser Val Ser Phe Ala Gly Thr Ser Leu Met His

1 5 10 15

<210> 48

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> FOLR特异性CDR

<400> 48

Arg Ala Ser Asn Leu Glu Ala

1 5

<210> 49

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> FOLR特异性CDR

<400> 49

Gln Gln Ser Arg Glu Tyr Pro Tyr Thr

1 5

<210> 50

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> FOLR特异性CDR

<400> 50

Gly Tyr Phe Met Asn

1 5

<210> 51

<211> 17

<212> PRT

<213> 人工序列

<220>

<223> FOLR特异性CDR

<400> 51

Arg Ile His Pro Tyr Asp Gly Asp Thr Phe Tyr Asn Gln Lys Phe Gln

1 5 10 15

Gly

<210> 52

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> FOLR特异性CDR

<400> 52

Tyr Asp Gly Ser Arg Ala Met Asp Tyr

1 5

<210> 53

<211> 119

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性可变重链

<400> 53

Gln Val Gln Leu Gln Gln Ser Gly Pro Glu Leu Glu Lys Pro Gly Ala

1 5 10 15

Ser Val Lys Ile Ser Cys Lys Ala Ser Gly Tyr Ser Phe Thr Gly Tyr

20 25 30

Thr Met Asn Trp Val Lys Gln Ser His Gly Lys Ser Leu Glu Trp Ile

35 40 45

Gly Leu Ile Thr Pro Tyr Asn Gly Ala Ser Ser Tyr Asn Gln Lys Phe

50 55 60

Arg Gly Lys Ala Thr Leu Thr Val Asp Lys Ser Ser Ser Thr Ala Tyr

65 70 75 80

Met Asp Leu Leu Ser Leu Thr Ser Glu Asp Ser Ala Val Tyr Phe Cys

85 90 95

Ala Arg Gly Gly Tyr Asp Gly Arg Gly Phe Asp Tyr Trp Gly Ser Gly

100 105 110

Thr Pro Val Thr Val Ser Ser

115

<210> 54

<211> 106

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性可变轻链

<400> 54

Asp Ile Glu Leu Thr Gln Ser Pro Ala Ile Met Ser Ala Ser Pro Gly

1 5 10 15

Glu Lys Val Thr Met Thr Cys Ser Ala Ser Ser Ser Val Ser Tyr Met

20 25 30

His Trp Tyr Gln Gln Lys Ser Gly Thr Ser Pro Lys Arg Trp Ile Tyr

35 40 45

Asp Thr Ser Lys Leu Ala Ser Gly Val Pro Gly Arg Phe Ser Gly Ser

50 55 60

Gly Ser Gly Asn Ser Tyr Ser Leu Thr Ile Ser Ser Val Glu Ala Glu

65 70 75 80

Asp Asp Ala Thr Tyr Tyr Cys Gln Gln Trp Ser Lys His Pro Leu Thr

85 90 95

Phe Gly Ser Gly Thr Lys Val Glu Ile Lys

100 105

<210> 55

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性CDR

<400> 55

Gly Tyr Ser Phe Thr Gly Tyr Thr Met Asn

1 5 10

<210> 56

<211> 13

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性CDR

<400> 56

Leu Ile Thr Pro Tyr Asn Gly Ala Ser Ser Tyr Asn Gln

1 5 10

<210> 57

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性CDR

<400> 57

Gly Gly Tyr Asp Gly Arg Gly Phe Asp Tyr

1 5 10

<210> 58

<211> 10

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性CDR

<400> 58

Ser Ala Ser Ser Ser Val Ser Tyr Met His

1 5 10

<210> 59

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性CDR

<400> 59

Asp Thr Ser Lys Leu Ala Ser

1 5

<210> 60

<211> 9

<212> PRT

<213> 人工序列

<220>

<223> 阿麦妥单抗特异性CDR

<400> 60

Gln Gln Trp Ser Lys His Pro Leu Thr

1 5

<210> 61

<211> 32

<212> PRT

<213> 人工序列

<220>

<223> Nef

<400> 61

Val Gly Phe Pro Val Thr Pro Gln Val Pro Leu Arg Pro Met Thr Tyr

1 5 10 15

Lys Ala Ala Val Asp Leu Ser His Phe Leu Lys Glu Lys Gly Gly Leu

20 25 30

<210> 62

<211> 30

<212> PRT

<213> 人工序列

<220>

<223> Nef

<400> 62

His Thr Gln Gly Tyr Phe Pro Asp Trp Gln Asn Tyr Thr Pro Gly Pro

1 5 10 15

Gly Val Arg Tyr Pro Leu Thr Phe Gly Trp Leu Tyr Lys Leu

20 25 30

<210> 63

<211> 19

<212> PRT

<213> 人工序列

<220>

<223> Gag p17

<400> 63

Glu Lys Ile Arg Leu Arg Pro Gly Gly Lys Lys Lys Tyr Lys Leu Lys

1 5 10 15

His Ile Val

<210> 64

<211> 32

<212> PRT

<213> 人工序列

<220>

<223> Gag p17-p24

<400> 64

Asn Pro Pro Ile Pro Val Gly Glu Ile Tyr Lys Arg Trp Ile Ile Leu

1 5 10 15

Gly Leu Asn Lys Ile Val Arg Met Tyr Ser Pro Thr Ser Ile Leu Asp

20 25 30

<210> 65

<211> 31

<212> PRT

<213> 人工序列

<220>

<223> Pol

<400> 65

Ala Ile Phe Gln Ser Ser Met Thr Lys Ile Leu Glu Pro Phe Arg Lys

1 5 10 15

Gln Asn Pro Asp Ile Val Ile Tyr Gln Tyr Met Asp Asp Leu Tyr

20 25 30

<210> 66

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR和染色体序列

<400> 66

acttaagtgt atgtaaactt ccgacttcaa ctgtagggta cctgattctc tgggcatctc 60

tgcccactac catg 74

<210> 67

<211> 75

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR和染色体序列

<400> 67

acttaagtgt atgtaaactt ccgacttcaa ctgtaaattt tccacctttt tcagttttcc 60

tcgccatatt tcatg 75

<210> 68

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR和染色体序列

<400> 68

acttaagtgt atgtaaactt ccgacttcaa ctg 33

<210> 69

<211> 370

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR和染色体序列

<400> 69

cagtcaactt agtgtatgta aacttctgac ccactggaat tgtgatacag tgaattataa 60

gtgaaataat ctgtctgtaa acaattgttg gaaaaatgac ttgtgtcatg cacaaagtag 120

atgtcctaac tgacttgcca aaactattgt ttgttaacaa gaaatttgtg gagtagttga 180

aaaacgagtt ttaatgactc caacttaagt gtatgtaaac ttccgacttc aactgtaaga 240

atggcccatt catctatagt agcacacaat atttgcattt gtgcgacagt ataagggaca 300

attatgctat caggcatttt tccaaagtga gtaatcgaag tttttatacc tttgtgtgcc 360

atgtttgcta 370

<210> 70

<211> 369

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR和染色体序列

<400> 70

cagtcaactt agtgtatgta aacttctgac ccactggaat tgtgatacag tgaattataa 60

gtgaaataat ctgtctgtaa acaattgttg gaaaaatgac ttgtgtcatg cacaaagtag 120

atgtcctaac tgacttgcca aaactattgt ttgttaacaa gaaatttgtg gagtagttga 180

aaaacgagtt ttaatgactc caacttaagt gtatgtaaac ttccgacttc aactgtacaa 240

gtagaccaaa tatccatata cataaaagaa aaaaatagaa aaaatttcta gtgacagaaa 300

aatgacaaag aacatactgc tttattacta ctattaagat gtttgcttcc attacactca 360

tatgagtca 369

<210> 71

<211> 227

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR

<400> 71

ttagtgtatg taaacttctg acccactgga attgtgatac agtgaattat aagtgaaata 60

atctgtctgt aaacaattgt tggaaaaatg acttgtgtca tgcacaaagt agatgtccta 120

actgacttgc caaaactatt gtttgttaac aagaaatttg tggagtagtt gaaaaacgag 180

ttttaatgac tccaacttaa gtgtatgtaa acttccgact tcaactg 227

<210> 72

<211> 371

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR和染色体序列

<400> 72

caacttgagt gtatgttaac ttctgaccca ctgggaatgt gatgaaagaa ataaaagctg 60

aaatgaatca ttctctctac tattattctg atatttcaca ttcttaaaat aaagtggtga 120

tcctaactga ccttaagaca gggaatcttt actcggatta aatgtcagga attgtgaaaa 180

agtgagttta aatgtatttg gctaaggtgt atgtaaactt ccgacttcaa ctgtatatcc 240

tccccgttgc accctcttga tgatgctgag atgaacacag atgctcactc cttgagggct 300

ctaagcttat gctgacacag acacaggtgc tcacttctat gaatggccta agatttgagg 360

acatcatgag g 371

<210> 73

<211> 229

<212> DNA

<213> 人工序列

<220>

<223> 睡美人的IR/DR

<400> 73

ttgagtgtat gttaacttct gacccactgg gaatgtgatg aaagaaataa aagctgaaat 60

gaatcattct ctctactatt attctgatat ttcacattct taaaataaag tggtgatcct 120

aactgacctt aagacaggga atctttactc ggattaaatg tcaggaattg tgaaaaagtg 180

agtttaaatg tatttggcta aggtgtatgt aaacttccga cttcaactg 229

<210> 74

<211> 340

<212> PRT

<213> 人工序列

<220>

<223> 睡美人转位酶

<400> 74

Met Gly Lys Ser Lys Glu Ile Ser Gln Asp Leu Arg Lys Lys Ile Val

1 5 10 15

Asp Leu His Lys Ser Gly Ser Ser Leu Gly Ala Ile Ser Lys Arg Leu

20 25 30

Lys Val Pro Arg Ser Ser Val Gln Thr Ile Val Arg Lys Tyr Lys His

35 40 45

His Gly Thr Thr Gln Pro Ser Tyr Arg Ser Gly Arg Arg Arg Tyr Leu

50 55 60

Ser Pro Arg Asp Glu Arg Thr Leu Val Arg Lys Val Gln Ile Asn Pro

65 70 75 80

Arg Thr Thr Ala Lys Asp Leu Val Lys Met Leu Glu Glu Thr Gly Thr

85 90 95

Lys Val Ser Ile Ser Thr Val Lys Arg Val Leu Tyr Arg His Asn Leu

100 105 110

Lys Gly Arg Ser Ala Arg Lys Lys Pro Leu Leu Gln Asn Arg His Lys

115 120 125

Lys Ala Arg Leu Arg Phe Ala Thr Ala His Gly Asp Lys Asp Arg Thr

130 135 140

Phe Trp Arg Asn Val Leu Trp Ser Asp Glu Thr Lys Ile Glu Leu Phe

145 150 155 160

Gly His Asn Asp His Arg Tyr Val Trp Arg Lys Lys Gly Glu Ala Cys

165 170 175

Lys Pro Lys Asn Thr Ile Pro Thr Val Lys His Gly Gly Gly Ser Ile

180 185 190

Met Leu Trp Gly Cys Phe Ala Ala Gly Gly Thr Gly Ala Leu His Lys

195 200 205

Ile Asp Gly Ile Met Arg Lys Glu Asn Tyr Val Asp Ile Leu Lys Gln

210 215 220

His Leu Lys Thr Ser Val Arg Lys Leu Lys Leu Gly Arg Lys Trp Val

225 230 235 240

Phe Gln Met Asp Asn Asp Pro Lys His Thr Ser Lys Val Val Ala Lys

245 250 255

Trp Leu Lys Asp Asn Lys Val Lys Val Leu Glu Trp Pro Ser Gln Ser

260 265 270

Pro Asp Leu Asn Pro Ile Glu Asn Leu Trp Ala Glu Leu Lys Lys Arg

275 280 285

Val Arg Ala Arg Arg Pro Thr Asn Leu Thr Gln Leu His Gln Leu Cys

290 295 300

Gln Glu Glu Trp Ala Lys Ile His Pro Thr Tyr Cys Gly Lys Leu Val

305 310 315 320

Glu Gly Tyr Pro Lys Arg Leu Thr Gln Val Lys Gln Phe Lys Gly Asn

325 330 335

Ala Thr Lys Tyr

340

<210> 75

<211> 340

<212> PRT

<213> 人工序列

<220>

<223> 过度活跃睡美人为SB100X

<400> 75

Met Gly Lys Ser Lys Glu Ile Ser Gln Asp Leu Arg Lys Arg Ile Val

1 5 10 15

Asp Leu His Lys Ser Gly Ser Ser Leu Gly Ala Ile Ser Lys Arg Leu

20 25 30

Ala Val Pro Arg Ser Ser Val Gln Thr Ile Val Arg Lys Tyr Lys His

35 40 45

His Gly Thr Thr Gln Pro Ser Tyr Arg Ser Gly Arg Arg Arg Tyr Leu

50 55 60

Ser Pro Arg Asp Glu Arg Thr Leu Val Arg Lys Val Gln Ile Asn Pro

65 70 75 80

Arg Thr Thr Ala Lys Asp Leu Val Lys Met Leu Glu Glu Thr Gly Thr

85 90 95

Lys Val Ser Ile Ser Thr Val Lys Arg Val Leu Tyr Arg His Asn Leu

100 105 110

Lys Gly His Ser Ala Arg Lys Lys Pro Leu Leu Gln Asn Arg His Lys

115 120 125

Lys Ala Arg Leu Arg Phe Ala Thr Ala His Gly Asp Lys Asp Arg Thr

130 135 140

Phe Trp Arg Asn Val Leu Trp Ser Asp Glu Thr Lys Ile Glu Leu Phe

145 150 155 160

Gly His Asn Asp His Arg Tyr Val Trp Arg Lys Lys Gly Glu Ala Cys

165 170 175

Lys Pro Lys Asn Thr Ile Pro Thr Val Lys His Gly Gly Gly Ser Ile

180 185 190

Met Leu Trp Gly Cys Phe Ala Ala Gly Gly Thr Gly Ala Leu His Lys

195 200 205

Ile Asp Gly Ile Met Asp Ala Val Gln Tyr Val Asp Ile Leu Lys Gln

210 215 220

His Leu Lys Thr Ser Val Arg Lys Leu Lys Leu Gly Arg Lys Trp Val

225 230 235 240

Phe Gln His Asp Asn Asp Pro Lys His Thr Ser Lys Val Val Ala Lys

245 250 255

Trp Leu Lys Asp Asn Lys Val Lys Val Leu Glu Trp Pro Ser Gln Ser

260 265 270

Pro Asp Leu Asn Pro Ile Glu Asn Leu Trp Ala Glu Leu Lys Lys Arg

275 280 285

Val Arg Ala Arg Arg Pro Thr Asn Leu Thr Gln Leu His Gln Leu Cys

290 295 300

Gln Glu Glu Trp Ala Lys Ile His Pro Asn Tyr Cys Gly Lys Leu Val

305 310 315 320

Glu Gly Tyr Pro Lys Arg Leu Thr Gln Val Lys Gln Phe Lys Gly Asn

325 330 335

Ala Thr Lys Tyr

340

<210> 76

<211> 594

<212> PRT

<213> 粉纹夜蛾(Richoplusia ni)

<400> 76

Met Gly Ser Ser Leu Asp Asp Glu His Ile Leu Ser Ala Leu Leu Gln

1 5 10 15

Ser Asp Asp Glu Leu Val Gly Glu Asp Ser Asp Ser Glu Ile Ser Asp

20 25 30

His Val Ser Glu Asp Asp Val Gln Ser Asp Thr Glu Glu Ala Phe Ile

35 40 45

Asp Glu Val His Glu Val Gln Pro Thr Ser Ser Gly Ser Glu Ile Leu

50 55 60

Asp Glu Gln Asn Val Ile Glu Gln Pro Gly Ser Ser Leu Ala Ser Asn

65 70 75 80

Arg Ile Leu Thr Leu Pro Gln Arg Thr Ile Arg Gly Lys Asn Lys His

85 90 95

Cys Trp Ser Thr Ser Lys Ser Thr Arg Arg Ser Arg Val Ser Ala Leu

100 105 110

Asn Ile Val Arg Ser Gln Arg Gly Pro Thr Arg Met Cys Arg Asn Ile

115 120 125

Tyr Asp Pro Leu Leu Cys Phe Lys Leu Phe Phe Thr Asp Glu Ile Ile

130 135 140

Ser Glu Ile Val Lys Trp Thr Asn Ala Glu Ile Ser Leu Lys Arg Arg

145 150 155 160

Glu Ser Met Thr Gly Ala Thr Phe Arg Asp Thr Asn Glu Asp Glu Ile

165 170 175

Tyr Ala Phe Phe Gly Ile Leu Val Met Thr Ala Val Arg Lys Asp Asn

180 185 190

His Met Ser Thr Asp Asp Leu Phe Asp Arg Ser Leu Ser Met Val Tyr

195 200 205

Val Ser Val Met Ser Arg Asp Arg Phe Asp Phe Leu Ile Arg Cys Leu

210 215 220

Arg Met Asp Asp Lys Ser Ile Arg Pro Thr Leu Arg Glu Asn Asp Val

225 230 235 240

Phe Thr Pro Val Arg Lys Ile Trp Asp Leu Phe Ile His Gln Cys Ile

245 250 255

Gln Asn Tyr Thr Pro Gly Ala His Leu Thr Ile Asp Glu Gln Leu Leu

260 265 270

Gly Phe Arg Gly Arg Cys Pro Phe Arg Met Tyr Ile Pro Asn Lys Pro

275 280 285

Ser Lys Tyr Gly Ile Lys Ile Leu Met Met Cys Asp Ser Gly Thr Lys

290 295 300

Tyr Met Ile Asn Gly Met Pro Tyr Leu Gly Arg Gly Thr Gln Thr Asn

305 310 315 320

Gly Val Pro Leu Gly Glu Tyr Tyr Val Lys Glu Leu Ser Lys Pro Val

325 330 335

His Gly Ser Cys Arg Asn Ile Thr Cys Asp Asn Trp Phe Thr Ser Ile

340 345 350

Pro Leu Ala Lys Asn Leu Leu Gln Glu Pro Tyr Lys Leu Thr Ile Val

355 360 365

Gly Thr Val Arg Ser Asn Lys Arg Glu Ile Pro Glu Val Leu Lys Asn

370 375 380

Ser Arg Ser Arg Pro Val Gly Thr Ser Met Phe Cys Phe Asp Gly Pro

385 390 395 400

Leu Thr Leu Val Ser Tyr Lys Pro Lys Pro Ala Lys Met Val Tyr Leu

405 410 415

Leu Ser Ser Cys Asp Glu Asp Ala Ser Ile Asn Glu Ser Thr Gly Lys

420 425 430

Pro Gln Met Val Met Tyr Tyr Asn Gln Thr Lys Gly Gly Val Asp Thr

435 440 445

Leu Asp Gln Met Cys Ser Val Met Thr Cys Ser Arg Lys Thr Asn Arg

450 455 460

Trp Pro Met Ala Leu Leu Tyr Gly Met Ile Asn Ile Ala Cys Ile Asn

465 470 475 480

Ser Phe Ile Ile Tyr Ser His Asn Val Ser Ser Lys Gly Glu Lys Val

485 490 495

Gln Ser Arg Lys Lys Phe Met Arg Asn Leu Tyr Met Ser Leu Thr Ser

500 505 510

Ser Phe Met Arg Lys Arg Leu Glu Ala Pro Thr Leu Lys Arg Tyr Leu

515 520 525

Arg Asp Asn Ile Ser Asn Ile Leu Pro Asn Glu Val Pro Gly Thr Ser

530 535 540

Asp Asp Ser Thr Glu Glu Pro Val Met Lys Lys Arg Thr Tyr Cys Thr

545 550 555 560

Tyr Cys Pro Ser Lys Ile Arg Arg Lys Ala Asn Ala Ser Cys Lys Lys

565 570 575

Cys Lys Lys Val Ile Cys Arg Glu His Asn Ile Asp Met Cys Gln Ser

580 585 590

Cys Phe

<210> 77

<211> 340

<212> PRT

<213> 北美豹蛙(Rana pipiens)

<400> 77

Met Pro Arg Pro Lys Glu Ile Gln Glu Gln Leu Arg Lys Lys Val Ile

1 5 10 15

Glu Ile Tyr Gln Ser Gly Lys Gly Tyr Lys Ala Ile Ser Lys Ala Leu

20 25 30

Gly Ile Gln Arg Thr Thr Val Arg Ala Ile Ile His Lys Trp Arg Arg

35 40 45

His Gly Thr Val Val Asn Leu Pro Arg Ser Gly Arg Pro Pro Lys Ile

50 55 60

Thr Pro Arg Ala Gln Arg Arg Leu Ile Gln Glu Val Thr Lys Asp Pro

65 70 75 80

Thr Thr Thr Ser Lys Glu Leu Gln Ala Ser Leu Ala Ser Val Lys Val

85 90 95

Ser Val His Ala Ser Thr Ile Arg Lys Arg Leu Gly Lys Asn Gly Leu

100 105 110

His Gly Arg Val Pro Arg Arg Lys Pro Leu Leu Ser Lys Lys Asn Ile

115 120 125

Lys Ala Arg Leu Asn Phe Ser Thr Thr His Leu Asp Asp Pro Gln Asp

130 135 140

Phe Trp Asp Asn Ile Leu Trp Thr Asp Glu Thr Lys Val Glu Leu Phe

145 150 155 160

Gly Arg Cys Val Ser Lys Tyr Ile Trp Arg Arg Arg Asn Thr Ala Phe

165 170 175

His Lys Lys Asn Ile Ile Pro Thr Val Lys Tyr Gly Gly Gly Ser Val

180 185 190

Met Val Trp Gly Cys Phe Ala Ala Ser Gly Pro Gly Arg Leu Ala Val

195 200 205

Ile Lys Gly Thr Met Asn Ser Ala Val Tyr Gln Glu Ile Leu Lys Glu

210 215 220

Asn Val Arg Pro Ser Val Arg Val Leu Lys Leu Lys Arg Thr Trp Val

225 230 235 240

Leu Gln Gln Asp Asn Asp Pro Lys His Thr Ser Lys Ser Thr Thr Glu

245 250 255

Trp Leu Lys Lys Asn Lys Met Lys Thr Leu Glu Trp Pro Ser Gln Ser

260 265 270

Pro Asp Leu Asn Pro Ile Glu Met Leu Trp Tyr Asp Leu Lys Lys Ala

275 280 285

Val His Ala Arg Lys Pro Ser Asn Val Thr Glu Leu Gly Gln Phe Cys

290 295 300

Lys Asp Glu Trp Ala Lys Ile Pro Pro Gly Arg Cys Lys Ser Leu Ile

305 310 315 320

Ala Arg Tyr Arg Lys Arg Leu Val Ala Val Val Ala Ala Lys Gly Gly

325 330 335

Pro Thr Ser Tyr

340

<210> 78

<211> 636

<212> PRT

<213> 赤拟谷盗(Tribolium castaneum)

<400> 78

Met Met Leu Asn Trp Leu Lys Ser Gly Lys Leu Glu Ser Gln Ser Gln

1 5 10 15

Glu Gln Ser Ser Cys Tyr Leu Glu Asn Ser Asn Cys Leu Pro Pro Thr

20 25 30

Leu Asp Ser Thr Asp Ile Ile Gly Glu Glu Asn Lys Ala Gly Thr Thr

35 40 45

Ser Arg Lys Lys Arg Lys Tyr Asp Glu Asp Tyr Leu Asn Phe Gly Phe

50 55 60

Thr Trp Thr Gly Asp Lys Asp Glu Pro Asn Gly Leu Cys Val Ile Cys

65 70 75 80

Glu Gln Val Val Asn Asn Ser Ser Leu Asn Pro Ala Lys Leu Lys Arg

85 90 95

His Leu Asp Thr Lys His Pro Thr Leu Lys Gly Lys Ser Glu Tyr Phe

100 105 110

Lys Arg Lys Cys Asn Glu Leu Asn Gln Lys Lys His Thr Phe Glu Arg

115 120 125

Tyr Val Arg Asp Asp Asn Lys Asn Leu Leu Lys Ala Ser Tyr Leu Val

130 135 140

Ser Leu Arg Ile Ala Lys Gln Gly Glu Ala Tyr Thr Ile Ala Glu Lys

145 150 155 160

Leu Ile Lys Pro Cys Thr Lys Asp Leu Thr Thr Cys Val Phe Gly Glu

165 170 175

Lys Phe Ala Ser Lys Val Asp Leu Val Pro Leu Ser Asp Thr Thr Ile

180 185 190

Ser Arg Arg Ile Glu Asp Met Ser Tyr Phe Cys Glu Ala Val Leu Val

195 200 205

Asn Arg Leu Lys Asn Ala Lys Cys Gly Phe Thr Leu Gln Met Asp Glu

210 215 220

Ser Thr Asp Val Ala Gly Leu Ala Ile Leu Leu Val Phe Val Arg Tyr

225 230 235 240

Ile His Glu Ser Ser Phe Glu Glu Asp Met Leu Phe Cys Lys Ala Leu

245 250 255

Pro Thr Gln Thr Thr Gly Glu Glu Ile Phe Asn Leu Leu Asn Ala Tyr

260 265 270

Phe Glu Lys His Ser Ile Pro Trp Asn Leu Cys Tyr His Ile Cys Thr

275 280 285

Asp Gly Ala Lys Ala Met Val Gly Val Ile Lys Gly Val Ile Ala Arg

290 295 300

Ile Lys Lys Leu Val Pro Asp Ile Lys Ala Ser His Cys Cys Leu His

305 310 315 320

Arg His Ala Leu Ala Val Lys Arg Ile Pro Asn Ala Leu His Glu Val

325 330 335

Leu Asn Asp Ala Val Lys Met Ile Asn Phe Ile Lys Ser Arg Pro Leu

340 345 350

Asn Ala Arg Val Phe Ala Leu Leu Cys Asp Asp Leu Gly Ser Leu His

355 360 365

Lys Asn Leu Leu Leu His Thr Glu Val Arg Trp Leu Ser Arg Gly Lys

370 375 380

Val Leu Thr Arg Phe Trp Glu Leu Arg Asp Glu Ile Arg Ile Phe Phe

385 390 395 400

Asn Glu Arg Glu Phe Ala Gly Lys Leu Asn Asp Thr Ser Trp Leu Gln

405 410 415

Asn Leu Ala Tyr Ile Ala Asp Ile Phe Ser Tyr Leu Asn Glu Val Asn

420 425 430

Leu Ser Leu Gln Gly Pro Asn Ser Thr Ile Phe Lys Val Asn Ser Arg

435 440 445

Ile Asn Ser Ile Lys Ser Lys Leu Lys Leu Trp Glu Glu Cys Ile Thr

450 455 460

Lys Asn Asn Thr Glu Cys Phe Ala Asn Leu Asn Asp Phe Leu Glu Thr

465 470 475 480

Ser Asn Thr Ala Leu Asp Pro Asn Leu Lys Ser Asn Ile Leu Glu His

485 490 495

Leu Asn Gly Leu Lys Asn Thr Phe Leu Glu Tyr Phe Pro Pro Thr Cys

500 505 510

Asn Asn Ile Ser Trp Val Glu Asn Pro Phe Asn Glu Cys Gly Asn Val

515 520 525

Asp Thr Leu Pro Ile Lys Glu Arg Glu Gln Leu Ile Asp Ile Arg Thr

530 535 540

Asp Thr Thr Leu Lys Ser Ser Phe Val Pro Asp Gly Ile Gly Pro Phe

545 550 555 560

Trp Ile Lys Leu Met Asp Glu Phe Pro Glu Ile Ser Lys Arg Ala Val

565 570 575

Lys Glu Leu Met Pro Phe Val Thr Thr Tyr Leu Cys Glu Lys Ser Phe

580 585 590

Ser Val Tyr Val Ala Thr Lys Thr Lys Tyr Arg Asn Arg Leu Asp Ala

595 600 605

Glu Asp Asp Met Arg Leu Gln Leu Thr Thr Ile His Pro Asp Ile Asp

610 615 620

Asn Leu Cys Asn Asn Lys Gln Ala Gln Lys Ser His

625 630 635

<210> 79

<211> 649

<212> PRT

<213> 青鳉鱼(Oryzias latipes)

<400> 79

Met Glu Glu Val Cys Asp Ser Ser Ala Ala Ala Ser Ser Thr Val Gln

1 5 10 15

Asn Gln Pro Gln Asp Gln Glu His Pro Trp Pro Tyr Leu Arg Glu Phe

20 25 30

Phe Ser Leu Ser Gly Val Asn Lys Asp Ser Phe Lys Met Lys Cys Val

35 40 45

Leu Cys Leu Pro Leu Asn Lys Glu Ile Ser Ala Phe Lys Ser Ser Pro

50 55 60

Ser Asn Leu Arg Lys His Ile Glu Arg Met His Pro Asn Tyr Leu Lys

65 70 75 80

Asn Tyr Ser Lys Leu Thr Ala Gln Lys Arg Lys Ile Gly Thr Ser Thr

85 90 95

His Ala Ser Ser Ser Lys Gln Leu Lys Val Asp Ser Val Phe Pro Val

100 105 110

Lys His Val Ser Pro Val Thr Val Asn Lys Ala Ile Leu Arg Tyr Ile

115 120 125

Ile Gln Gly Leu His Pro Phe Ser Thr Val Asp Leu Pro Ser Phe Lys

130 135 140

Glu Leu Ile Ser Thr Leu Gln Pro Gly Ile Ser Val Ile Thr Arg Pro

145 150 155 160

Thr Leu Arg Ser Lys Ile Ala Glu Ala Ala Leu Ile Met Lys Gln Lys

165 170 175

Val Thr Ala Ala Met Ser Glu Val Glu Trp Ile Ala Thr Thr Thr Asp

180 185 190

Cys Trp Thr Ala Arg Arg Lys Ser Phe Ile Gly Val Thr Ala His Trp

195 200 205

Ile Asn Pro Gly Ser Leu Glu Arg His Ser Ala Ala Leu Ala Cys Lys

210 215 220

Arg Leu Met Gly Ser His Thr Phe Glu Val Leu Ala Ser Ala Met Asn

225 230 235 240

Asp Ile His Ser Glu Tyr Glu Ile Arg Asp Lys Val Val Cys Thr Thr

245 250 255

Thr Asp Ser Gly Ser Asn Phe Met Lys Ala Phe Arg Val Phe Gly Val

260 265 270

Glu Asn Asn Asp Ile Glu Thr Glu Ala Arg Arg Cys Glu Ser Asp Asp

275 280 285

Thr Asp Ser Glu Gly Cys Gly Glu Gly Ser Asp Gly Val Glu Phe Gln

290 295 300

Asp Ala Ser Arg Val Leu Asp Gln Asp Asp Gly Phe Glu Phe Gln Leu

305 310 315 320

Pro Lys His Gln Lys Cys Ala Cys His Leu Leu Asn Leu Val Ser Ser

325 330 335

Val Asp Ala Gln Lys Ala Leu Ser Asn Glu His Tyr Lys Lys Leu Tyr

340 345 350

Arg Ser Val Phe Gly Lys Cys Gln Ala Leu Trp Asn Lys Ser Ser Arg

355 360 365

Ser Ala Leu Ala Ala Glu Ala Val Glu Ser Glu Ser Arg Leu Gln Leu

370 375 380

Leu Arg Pro Asn Gln Thr Arg Trp Asn Ser Thr Phe Met Ala Val Asp

385 390 395 400

Arg Ile Leu Gln Ile Cys Lys Glu Ala Gly Glu Gly Ala Leu Arg Asn

405 410 415

Ile Cys Thr Ser Leu Glu Val Pro Met Phe Asn Pro Ala Glu Met Leu

420 425 430

Phe Leu Thr Glu Trp Ala Asn Thr Met Arg Pro Val Ala Lys Val Leu

435 440 445

Asp Ile Leu Gln Ala Glu Thr Asn Thr Gln Leu Gly Trp Leu Leu Pro

450 455 460

Ser Val His Gln Leu Ser Leu Lys Leu Gln Arg Leu His His Ser Leu

465 470 475 480

Arg Tyr Cys Asp Pro Leu Val Asp Ala Leu Gln Gln Gly Ile Gln Thr

485 490 495

Arg Phe Lys His Met Phe Glu Asp Pro Glu Ile Ile Ala Ala Ala Ile

500 505 510

Leu Leu Pro Lys Phe Arg Thr Ser Trp Thr Asn Asp Glu Thr Ile Ile

515 520 525

Lys Arg Gly Met Asp Tyr Ile Arg Val His Leu Glu Pro Leu Asp His

530 535 540

Lys Lys Glu Leu Ala Asn Ser Ser Ser Asp Asp Glu Asp Phe Phe Ala

545 550 555 560

Ser Leu Lys Pro Thr Thr His Glu Ala Ser Lys Glu Leu Asp Gly Tyr

565 570 575

Leu Ala Cys Val Ser Asp Thr Arg Glu Ser Leu Leu Thr Phe Pro Ala

580 585 590

Ile Cys Ser Leu Ser Ile Lys Thr Asn Thr Pro Leu Pro Ala Ser Ala

595 600 605

Ala Cys Glu Arg Leu Phe Ser Thr Ala Gly Leu Leu Phe Ser Pro Lys

610 615 620

Arg Ala Arg Leu Asp Thr Asn Asn Phe Glu Asn Gln Leu Leu Leu Lys

625 630 635 640

Leu Asn Leu Arg Phe Tyr Asn Phe Glu

645

<210> 80

<211> 348

<212> DNA

<213> 人工序列

<220>

<223> SV40启动子

<400> 80

ggtgtggaaa gtccccaggc tccccagcag gcagaagtat gcaaagcatg catctcaatt 60

agtcagcaac caggtgtgga aagtccccag gctccccagc aggcagaagt atgcaaagca 120

tgcatctcaa ttagtcagca accatagtcc cgcccctaac tccgcccatc ccgcccctaa 180

ctccgcccag ttccgcccat tctccgcccc atggctgact aatttttttt atttatgcag 240

aggccgaggc cgcctctgcc tctgagctat tccagaagta gtgaggaggc ttttttggag 300

gcctaggctt ttgcaaaaag ctcccgggag cttgtatatc cattttcg 348

<210> 81

<211> 206

<212> DNA

<213> 人工序列

<220>

<223> dESV40启动子

<400> 81

gcatgcatct caattagtca gcaaccatag tcccgcccct aactccgccc atcccgcccc 60

taactccgcc cagttccgcc cattctccgc cccatggctg actaattttt tttatttatg 120

cagaggccga ggccgcctcg gcctctgagc tattccagaa gtagtgagga ggcttttttg 180

gaggcctagg cttttgcaaa aagctt 206

<210> 82

<211> 463

<212> DNA

<213> 智人

<400> 82

ttggcccctc cctcgggtta ccccacagcc taggccgatt cgacctctct ccgctggggc 60

cctcgctggc gtccctgcac cctgggagcg cgagcggcgc gcgggcgggg aagcgcggcc 120

cagacccccg ggtccgcccg gagcagctgc gctgtcgggg ccaggccggg ctcccagtgg 180

attcgcgggc acagacgccc aggaccgcgc tccccacgtg gcggagggac tggggacccg 240

ggcacccgtc ctgccccttc accttccagc tccgcctcct ccgcgcggac cccgccccgt 300

cccgacccct cccgggtccc cggcccagcc ccctccgggc cctcccagcc cctccccttc 360

ctttaccgcg gccccgccct ctcctcgcgg cgcgagtttc aggcagcgct gcgtcctgct 420

gcgcacgtgg gaagccctgg ccccggccac ccccgccaga tct 463

<210> 83

<211> 648

<212> DNA

<213> 施密特-鲁平A株(Schmidt-Ruppin A strain)

<400> 83

acgcgtcatg tttgacagct tatcatcgca gatccgtatg gtgcactctc agtacaatct 60

gctctgatgc cgcatagtta agccagtatc tgctccctgc ttgtgtgttg gaggtcgctg 120

agtagtgcgc gagcaaaatt taagctacaa caaggcaagg cttgaccgac aattgcatga 180

agaatctgct tagggttagg cgttttgcgc tgcttcgcga tgtacgggcc agatattcgc 240

gtatctgagg ggactagggt gtgtttaggc gaaaagcggg gcttcggttg tacgcggtta 300

ggagtcccct caggatatag tagtttcgct tttgcatagg gagggggaaa tgtagtctta 360

tgcaatactc ttgtagtctt gcaacatggt aacgatgagt tagcaacatg ccttacaagg 420

agagaaaaag caccgtgcat gccgattggt ggaagtaagg tggtacgatc gtgccttatt 480

aggaaggcaa cagacgggtc tgacatggat tggacgaacc actaaattcc gcattgcaga 540

gatattgtat ttaagtgcct agctcgatac aataaacgcc atttgaccat tcaccacatt 600

ggtgtgcacc tccaagctgg gtaccagctg ctagcaagct tgagatct 648

<210> 84

<211> 1740

<212> DNA

<213> 智人

<400> 84

gagtagctgg gattacaggc atgtgccacc acgcctcgct aatattagta tttttcatac 60

agacaagatc tcactatgtt gctcagggta gtctcgaatt ctgggactca aatgatcctc 120

ccacttcagc ctcccaaagt gctgggatta caggcataag ccatcatgcc cggcctctga 180

cgctgtttct ttcaaccccc aggatttcag attccaccag cttatggaga agggaaccaa 240

gttcgagatg cgtgattgcc cagaaagttg gaggctgagc tgagacttga acccagagac 300

cagaacctcc agaggtcaaa gtcctcctcc tgggtccccc agagaagggc cctgagatga 360

cagctcgttg gtcctcatgg aagcgtgacc cccccagtag actttctccc acacccaacc 420

ttggtttcct catctatatg atagggacaa gccagactct acctccctgg tggtcatggt 480

ctccgcttat tcgggttcat aaccttaaag gcccctcgca ccacctcagt gagccattta 540

tgcctggcac agggccaact ctcagtgcat atctgcaaag gaaccaatga atgagtgaat 600

gaagtgacaa atgaataaag gaataaatga atgaggcact tatcatgtac caggctttcg 660

ttaccacgtc ccatttattc ctctgaggca gggtctattt tatccttgtt acagatgggg 720

aaactaaggc ccagggagga gcaaagtctt ccccaagtat gtacccactc agaacttgag 780

ctctgaatgt ctcccaccca gcttagccca agagcggggt tcagtgatgc ccacccccta 840

aggctctaga gaaagggggt aggcccacat gccagtttgg gggtggtaaa gccaggtaag 900

ttttctttat gggtcccctg aaaccctgaa agtgaacccc agtcctgcat gaaagtgagc 960

tccccatagc tcaaggtatt caagcacaat acggctttga gtgctgaagc aggctgtgca 1020

ggcttggata gtgacatgcc ctctctgagc ctcaatttcc ccacctgtca acagcagaca 1080

gtgacagctg tgatcagggg atcacagtgc atggggatgg gtgggtgcat ggggatggag 1140

gggcatttgg gagccctccc cgataccacc ccctgcagcc acccagatag cctgtcctgg 1200

cctgtctgtc ccagtccagg gctgaaaggg tgcgggtcct gcccgcccct aggtctggag 1260

gcggagtcgc ggtgacccgg gagcccaata aatctgcaac ccacaatcac gagctgctcc 1320

cgtaagcccc aaggcgacct ccagctgtca gcgctgagca cagcgcccag ggagagggac 1380

agacagccgg ctgcatggga cagcggaacc cagagtgaga ggggaggtgg caggacagac 1440

agacagcagg ggcggacgca gagacagaca gcggggacag ggaggccgac acggacatcg 1500

acagcccata gattcctaac ccagggagcc ccggcccctc tcgccgcttc ccaccccaga 1560

cggagcgggg acaggctgcc gagcatcctc ccacccgccc tccccgtcct gcctcctcgg 1620

cccctgccag cttcccccgc ttgagcacgc agggcgtccg aggacgcgct gggcctccgc 1680

acccgccctc atggaggccg tggagaccgg ggaacggccc accttcggag cctgggacta 1740

<210> 85

<211> 1075

<212> DNA

<213> 智人

<400> 85

attagagatt gtaaattggg ctctgagctt cctaccaaca aaagcacaaa ggaaaatatg 60

atcactggta ttaaaaaaaa acacctatgg tttccaaaag attaaaacaa accagcagtt 120

ttatagaagc taacactaaa atctaaagga actacgttct atggagccac ttaatatgga 180

taaacacttt gacaatattc tttcaacaac tacagtaaca agtttcttag agtccatttc 240

tttttacatc cataatgaat tgtaaatctt ttctacttct taagtaaaac atcaccactt 300

aattctggta acttttccat attaactttt tagaacaatt gcaaacgtac cataaatgat 360

tgttgtcaca gtggtaacta tttgaccctg actgttattt tgtatatagc agcttttaaa 420

ataaaaaggc aacaagtttc taggcgtaat ttccacagat cttttatgta aaacaatgac 480

atcctttgca acttctgcca tttaatctat ctcaagcaag ctctctggaa acaaatctat 540

ttgaaagatt ctattgtaat tagaaatcag ggtaactgaa tgcactagat gaaaaccttc 600

tgactggggc caatgaagtc aataaagtca aaactgctgt gaatgctcaa ctgtctgcag 660

atcagatgtc ttgggatgga atccgttctc gaggccacca tcattaatat caatttggcc 720

atgtaataca agcctcactt gttccactgt tacaaatgtg cttaaaactg agctcattta 780

caatccaaat acatatgtag gatggtaacc aaggcatcac actaatttag gtattatgtt 840

ttagggggaa caaaaggtat gttaatattt tattcatctc caaattaact ataaattgtg 900

cattcttgca tagatcctcc ttgggaatga gaaattagga aaatccagtt gttaaaatga 960

atgcctaaaa tcaaaataaa atttgttttt ctggcacctg cttgatgaca cagactaata 1020

accaatgaca aaattccctt gaacccaagt tttcatttcc tcctattgtg tggtc 1075

<210> 86

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 86

gtgcttgaag gggaacaact ac 22

<210> 87

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 87

cctggcctcc agataactac ac 22

<210> 88

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 88

ccccctcgag gtcgacatgg ctagagactt atcgaaagca 40

<210> 89

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 89

attcgatatc aagctccaag atctgcacac tggtattt 38

<210> 90

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 90

ccccctcgag gtcgacgtac acgacatcac tttcccagt 39

<210> 91

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 91

attcgatatc aagctcacac tggtatttcg gtttttg 37

<210> 92

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 92

ccccctcgag gtcgacctac actctcagtc agcctatgga 40

<210> 93

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 93

attcgatatc aagcttaatc ccaaaaggct gatagtctc 39

<210> 94

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 94

ccccctcgag gtcgacacat ctctcacttt ctcatcacca 40

<210> 95

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 95

attcgatatc aagctaagta actgggatta caggagcac 39

<210> 96

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 96

aaagggcaaa taccttaagg ggtg 24

<210> 97

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 97

agcacttcga cctaaaaata gagat 25

<210> 98

<211> 21538

<212> DNA

<213> 人工序列

<220>

<223> 具有插入的XhoI位点的长β-球蛋白LCR

<400> 98

gatctctatc ccctcctgtt ttctctacgt tatttatatg ggtatcatca ccatcctgga 60

caacatcagg acagatatcc ctcaccaagc caatgttcct ctctatgttg gctcaaatgt 120

ccttgaactt tcctttcacc accctttcca cagtcaaaag gatattgtag tttaatgcct 180

cagagttcag cttttaagct tctgacaaat tattcttcct ctttaggttc tcctttatgg 240

aatcttctgt actgatggcc atgtccttta actactatgt agatatctgc tactacctgt 300

attatgcctc tacctttatt agcagagtta tctgtactgt tggcatgaca atcatttgtt 360

aatatgactt gcctttcctt tttctgctat tcttgatcaa atggctcctc tttcttgctc 420

ctctcatttc tcctgccttc acttggacgt gcttcacgta gtctgtgctt atgactggat 480

taaaaattga tatggactta tcctaatgtt gttcgtcata atatgggttt tatggtccat 540

tattatttcc tatgcattga tctggagaag gcttcaatcc ttttactctt tgtggaaaat 600

atctgtaaac cttctggttc actctgctat agcaatttca gtttaggcta gtaagcatga 660

ggatgcctcc ttctctgatt tttcccacag tctgttggtc acagaataac ctgagtgatt 720

actgatgaaa gagtgagaat gttattgata gtcacaatga caaaaaacaa acaactacag 780

tcaaaatgtt tctcttttta ttagtggatt atatttcctg acctatatct ggcaggactc 840

tttagagagg tagctgaagc tgctgttatg accactagag ggaagaagat acctgtggag 900

ctaatggtcc aagatggtgg agccccaagc aaggaagttg ttaaggagcc cttttgattg 960

aaggtgggtg cccccacctt acagggacag gacatctgga tactcctccc agtttctcca 1020

gtttcccttt ttcctaatat atctcctgat aaaatgtcta tactcacttc cccatttcta 1080

ataataaagc aaaggctagt tagtaagaca tcaccttgca ttttgaaaat gccatagact 1140

ttcaaaatta tttcatacat cggtctttct ttatttcaag agtccagaaa tggcaacatt 1200

acctttgatt caatgtaatg gaaagagctc tttcaagaga cagagaaaag aataatttaa 1260

tttctttccc cacacctcct tccctgtctc ttaccctatc ttccttcctt ctaccctccc 1320

catttctctc tctcatttct cagaagtata ttttgaaagg attcatagca gacagctaag 1380

gctggttttt tctaagtgaa gaagtgatat tgagaaggta gggttgcatg agccctttca 1440

gttttttagt ttatatacat ctgtattgtt agaatgtttt ataatataaa taaaattatt 1500

tctcagttat atactagcta tgtaacctgt ggatatttcc ttaagtatta caagctatac 1560

ttaactcact tggaaaactc aaataaatac ctgcttcata gttattaata aggattaagt 1620

gagataatgc ccataagatt cctattaata acagataaat acatacacac acacacacat 1680

tgaaaggatt cttactttgt gctaggaact ataataagtt cattgatgca ttatatcatt 1740

aagttctaat ttcaacacta gaaggcaggt attatctaaa tttcatactg gatacctcca 1800

aactcataaa gataattaaa ttgccttttg tcatatattt attcaaaagg gtaaactcaa 1860

actatggctt gtctaatttt atatatcacc ctactgaaca tgaccctatt gtgatatttt 1920

ataaaattat tctcaagtta ttatgaggat gttgaaagac agagaggatg gggtgctatg 1980

ccccaaatca gcctcacaat taagctaagc agctaagagt cttgcagggt agtgtaggga 2040

ccacagggtt aagggggcag tagaattata ctcccacttt agtttcattt caaacaatcc 2100

atacacacac agccctgagc acttacaaat tatactacgc tctatacttt ttgtttaaat 2160

gtataaataa gtggatgaaa gaatagatag atagatagac agatagatga tagatagaat 2220

aaatgcttgc cttcatagct gtctccctac cttgttcaaa atgttcctgt ccagaccaaa 2280

gtaccttgcc ttcacttaag taatcaattc ctaggttata ttctgatgtc aaaggaagtc 2340

aaaagatgtg aaaaacaatt tctgacccac aactcatgct ttgtagatga ctagatcaaa 2400

aaatttcagc catatcttaa cagtgagtga acaggaaatc tcctcttttc cctacatctg 2460

agatcccagc ttctaagacc ttcaattctc actcttgatg caacagacct tggaagcata 2520

caggagagct gaacttggtc aacaaaggag aaaagtttgt tggcctccaa aggcacagct 2580

caaacttttc aagccttctc taatcttaaa ggtaaacaag ggtctcattt ctttgagaac 2640

ttcagggaaa atagacaagg acttgcctgg tgcttttggt aggggagctt gcactttccc 2700

cctttctgga ggaaatattt atccccaggt agttcccttt ttgcaccagt ggttctttga 2760

agagacttcc acctgggaac agttaaacag caactacagg gccttgaact gcacactttc 2820

agtccggtcc tcacagttga aaagacctaa gcttgtgcct gatttaagcc tttttggtca 2880

taaaacattg aattctaatc tccctctcaa ccctacagtc acccatttgg tatattaaag 2940

atgtgttgtc tactgtctag tatccctcaa gtagtgtcag gaattagtca tttaaatagt 3000

ctgcaagcca ggagtggtgg ctcatgtctg taattccagc acttgagagg tagaagtggg 3060

aggactgctt gagctcaaga gtttgatatt atcctggaca acatagcaag acctcgtctc 3120

tacttaaaaa aaaaaaaaaa attagccagg catgtgatgt acacctgtag tcccagctac 3180

tcaggaggcc gaaatgggag gatcccttga gctcaggagg tcaaggctgc agtgagacat 3240

gatcttgcca ctgcactcca gcctggacag cagagtgaaa ccttgcctca cgaaacagaa 3300

tacaaaaaca aacaaacaaa aaactgctcc gcaatgcgct tccttgatgc tctaccacat 3360

aggtctgggt actttgtaca cattatctca ttgctgttca taattgttag attaattttg 3420

taatattgat attattccta gaaagctgag gcctcaagat gataactttt attttctgga 3480

cttgtaatag ctttctcttg tattcaccat gttgtaactt tcttagagta gtaacaatat 3540

aaagttattg tgagtttttg caaacacagc aaacacaacg acccatatag acattgatgt 3600

gaaattgtct attgtcaatt tatgggaaaa caagtatgta ctttttctac taagccattg 3660

aaacaggaat aacagaacaa gattgaaaga atacattttc cgaaattact tgagtattat 3720

acaaagacaa gcacgtggac ctgggaggag ggttattgtc catgactggt gtgtggagac 3780

aaatgcaggt ttataataga tgggatggca tctagcgcaa tgactttgcc atcactttta 3840

gagagctctt ggggacccca gtacacaaga ggggacgcag ggtatatgta gacatctcat 3900

tctttttctt agtgtgagaa taagaatagc catgacctga gtttatagac aatgagccct 3960

tttctctctc ccactcagca gctatgagat ggcttgccct gcctctctac taggctgact 4020

cactccaagg cccagcaatg ggcagggctc tgtcagggct ttgatagcac tatctgcaga 4080

gccagggccg agaaggggtg gactccagag actctccctc ccattcccga gcagggtttg 4140

cttatttatg catttaaatg atatatttat tttaaaagaa ataacaggag actgcccagc 4200

cctggctgtg acatggaaac tatgtagaat attttgggtt ccattttttt ttccttcttt 4260

cagttagagg aaaaggggct cactgcacat acactagaca gaaagtcagg agctttgaat 4320

ccaagcctga tcatttccat gtcatactga gaaagtcccc acccttctct gagcctcagt 4380

ttctcttttt ataagtagga gtctggagta aatgatttcc aatggctctc atttcaatac 4440

aaaatttccg tttattaaat gcatgagctt ctgttactcc aagactgaga aggaaattga 4500

acctgagact cattgactgg caagatgtcc ccagaggctc tcattcagca ataaaattct 4560

caccttcacc caggcccact gagtgtcaga tttgcatgca ctagttcacg tgtgtaaaaa 4620

ggaggatgct tctttccttt gtattctcac atacctttag gaaagaactt agcacccttc 4680

ccacacagcc atcccaataa ctcatttcag tgactcaacc cttgacttta taaaagtctt 4740

gggcagtata gagcagagat taagagtaca gatgctggag ccagaccacc tgagtgatta 4800

gtgactcagt ttctcttagt agttgtatga ctcagtttct tcatctgtaa aatggagggt 4860

tttttaatta gtttgttttt gagaaagggt ctcactctgt cacccaaatg ggagtgtagt 4920

ggcaaaatct cggctcactg caacttgcac ttcccaggct caagcggtcc tcccacctca 4980

acatcctgag tagctggaac cacaggtaca caccaccata cctcgctaat tttttgtatt 5040

tttggtagag atggggtttc acatgttaca caggatggtc tcagactccg gagctcaagc 5100

aatctgccca cctcagcctt ccaaagtgct gggattataa gcatgattac aggagtttta 5160

acaggctcat aagattgttc tgcagcccga gtgagttaat acatgcaaag agtttaaagc 5220

agtgacttat aaatgctaac tactctagaa atgtttgcta gtattttttg tttaactgca 5280

atcattcttg ctgcaggtga aaactagtgt tctgtacttt atgcccattc atctttaact 5340

gtaataataa aaataactga catttattga aggctatcag agactgtaat tagtgctttg 5400

cataattaat catatttaat actcttggat tctttcaggt agatactatt attatcccca 5460

ttttactaca gttaaaaaaa ctacctctca acttgctcaa gcatacactc tcacacacac 5520

aaacataaac tactagcaaa tagtagaatt gagatttggt cctaattatg tctttgctca 5580

ctatccaata aatatttatt gacatgtact tcttggcagt ctgtatgctg gatgctgggg 5640

atacaaagat gtttaaattt aagctccagt ctctgcttcc aaaggcctcc caggccaagt 5700

tatccattca gaaagcattt tttactcttt gcattccact gtttttccta agtgactaaa 5760

aaattacact ttattcgtct gtgtcctgct ctgggatgat agtctgactt tcctaacctg 5820

agcctaacat ccctgacatc aggaaagact acaccatgtg gagaaggggt ggtggttttg 5880

attgctgctg tcttcagtta gatggttaac tttgtgaagt tgaaaactgt ggctctctgg 5940

ttgactgtta gagttctggc acttgtcact atgcctatta tttaacaaat gcatgaatgc 6000

ttcagaatat gggaatatta tcttctggaa tagggaatca agttatatta tgtaacccag 6060

gattagaaga ttcttctgtg tgtaagaatt tcataaacat taagctgtct agcaaaagca 6120

agggcttgga aaatctgtga gctcctcacc atatagaaag cttttaaccc atcattgaat 6180

aaatccctat aggggatttc taccctgagc aaaaggctgg tcttgattaa ttcccaaact 6240

catatagctc tgagaaagtc tatgctgtta acgttttctt gtctgctacc ccatcatatg 6300

cacaacaata aatgcaggcc taggcatgac tgaaggctct ctcataattc ttggttgcat 6360

gaatcagatt atcaacagaa atgttgagac aaactatggg gaagcagggt atgaaagagc 6420

tctgaatgaa atggaaaccg caatgcttcc tgcccattca gggctccagc atgtagaaat 6480

ctggggcttt gtgaagactg gcttaaaatc agaagcccca ttggataaga gtagggaaga 6540

acctagagcc tacgctgagc aggtttcctt catgtgacag ggagcctcct gccccgaact 6600

tccagggatc ctctcttaag tgtttcctgc tggaatctcc tcacttctat ctggaaatgg 6660

tttctccaca gtccagcccc tggctagttg aaagagttac ccatgcagag gccctcctag 6720

catccagaga ctagtgctta gattcctact ttcagcgttg gacaacctgg atccacttgc 6780

ccagtgttct tccttagttc ctaccttcga ccttgatcct cctttatctt cctgaaccct 6840

gctgagatga tctatgtggg gagaatggct tctttgagaa acatcttctt cgttagtggc 6900

ctgcccctca ttcccacttt aatatccaga atcactataa gaagaatata ataagaggaa 6960

taactcttat tataggtaag ggaaaattaa gaggcatacg tgatgggatg agtaagagag 7020

gagagggaag gattaatgga cgataaaatc tactactatt tgttgagacc ttttatagtc 7080

taatcaattt tgctattgtt ttccatcctc acgctaactc cataaaaaaa cactattatt 7140

atctttattt tgccatgaca agactgagct cagaagagtc aagcatttgc ctaaggtcgg 7200

acatgtcaga ggcagtgcca gacctatgtg agactctgca gctactgctc atgggccctg 7260

tgctgcactg atgaggagga tcagatggat ggggcaatga agcaaaggaa tcattctgtg 7320

gataaaggag acagccatga agaagtctat gactgtaaat ttgggagcag gagtctctaa 7380

ggacttggat ttcaaggaat tttgactcag caaacacaag accctcacgg tgactttgcg 7440

agctggtgtg ccagatgtgt ctatcagagg ttccagggag ggtggggtgg ggtcagggct 7500

ggccaccagc tatcagggcc cagatgggtt ataggctggc aggctcagat aggtggttag 7560

gtcaggttgg tggtgctggg tggagtccat gactcccagg agccaggaga gatagaccat 7620

gagtagaggg cagacatggg aaaggtgggg gaggcacagc atagcagcat ttttcattct 7680

actactacat gggactgctc ccctataccc ccagctaggg gcaagtgcct tgactcctat 7740

gttttcagga tcatcatcta taaagtaaga gtaataattg tgtctatctc atagggttat 7800

tatgaggatc aaaggagatg cacactctct ggaccagtgg cctaacagtt caggacagag 7860

ctatgggctt cctatgtatg ggtcagtggt ctcaatgtag caggcaagtt ccagaagata 7920

gcatcaacca ctgttagaga tatactgcca gtctcagagc ctgatgttaa tttagcaatg 7980

ggctgggacc ctcctccagt agaaccttct aaccagctgc tgcagtcaaa gtcgaatgca 8040

gctggttaga ctttttttaa tgaaagctta gctttcatta aagattaagc tcctaagcag 8100

ggcacagatg aaattgtcta acagcaactt tgccatctaa aaaaatctga cttcactgga 8160

aacatggaag cccaaggttc tgaacatgag aaatttttag gaatctgcac aggagttgag 8220

agggaaacaa gatggtgaag ggactagaaa ccacatgaga gacacgagga aatagtgtag 8280

atttaggctg gaggtaaatg aaagagaagt gggaattaat acttactgaa atctttctat 8340

atgtcaggtg ccattttatg atatttaata atctcattac atatggtaat tctgtgagat 8400

atgtattatt gaacatacta taattaatac taatgataag taacacctct tgagtactta 8460

gtatatgcta gaatcaaatt taagtttatc atatgaggcc gggcacggtg gctcatatat 8520

gggattacat gcctgtaatc ccagcacttt gggaggccaa ggcaattgga tcacctgagg 8580

tcaggagttc cagaccagcc tggccaacat ggtgaaaccc cttctctact aaaaaataca 8640

aaaaatcagc caggtgtggt ggcacgcgtc tataatccca gctactcagg aggctgaggc 8700

aggagaatca cttgaaccca ggaggtggag gttgcagtga gctaagattg caccactgca 8760

ctccagccta ggcgacagag tgagactcca tctcaaaaaa aaaaaaagaa gtttattata 8820

tgaattaact tagttttact cacaccaata ctcagaagta gattattacc tcatttattg 8880

atgaggagcc caatgtactt gtagtgtaga tcaacttatt gaaagcacaa gctaataagt 8940

agacaattag taattagaag tcagatggtc tgagctctcc tactgtctac attacatgag 9000

ctcttattaa ctggggactc gaaaatcaaa gacatgaaat aatttgtcca agcttacaga 9060

accaccaagt agtaaggcta ggatgtagac ccagttctgc tacctctgaa gacagtgttt 9120

tttccacagc aaaacacaaa ctcagatatt gtggatgcga gaaattagaa gtagatattc 9180

ctgccctgtg gcccttgctt cttactttta cttcttgtcg attggaagtt gtggtccaag 9240

ccacagttgc agaccatact tcctcaacca taattgcatt tcttcaggaa agtttgaggg 9300

agaaaaaggt aaagaaaaat ttagaaacaa cttcagaata aagagatttt ctcttgggtt 9360

acagagattg tcatatgaca aattataagc agacacttga gaaaactgaa ggcccatgcc 9420

tgcccaaatt accctttgac cccttggtca agctgcaact ttggttaaag ggagtgttta 9480

tgtgttatag tgttcattta ctcttctggt ctaacccatt ggctccgtct tcatcctgca 9540

gtgacctcag tgcctcagaa acatacatat gtttgtctag tttaagtttg tgtgaaattc 9600

taactagcgt caagaactga gggccctaaa ctatgctagg aatagtgctg tggtgctgtg 9660

ataggtacac aagaaatgag aagaaactgc agattctctg catctccctt tgccgggtct 9720

gacaacaaag tttccccaaa ttttaccaat gcaagccatt tctccatatg ctaactactt 9780

taaaatcatt tggggcttca cattgtcttt ctcatctgta aaaagaatgg aagaactcat 9840

tcctacagaa ctccctatgt cttccctgat gggctagagt tcctctttct caaaaattag 9900

ccattattgt atttccttct aagccaaagc tcagaggtct tgtattgccc agtgacatgc 9960

acactggtca aaagtaggct aagtagaagg gtactttcac aggaacagag agcaaaagag 10020

gtgggtgaat gagagggtaa gtgagaaaag acaaatgaga agttacaaca tgatggcttg 10080

ttgtctaaat atctcctagg gaattattgt gagaggtctg aatagtgttg taaaataagc 10140

tgaatctgct gccaacatta acagtcaaga aatacctccg aataactgta cctccaatta 10200

ttctttaagg tagcatgcaa ctgtaatagt tgcatgtata tatttatcat aatactgtaa 10260

cagaaaacac ttactgaata tatactgtgt ccctagttct ttacacaata aactaatctc 10320

atcctcataa ttctattagc taatacatat tatcatccta tatttcagag acttcaagaa 10380

gttaagcaac ttgctcaaga tcatctaaga agtaggtggt atttctgggc tcatttggcc 10440

cctcctaatc tctcatggca acatggctgc ctaaagtgtt gattgcctta attcatcagg 10500

gatgggctca tactcactgc agaccttaac tggcatcctc ttttcttatg tgatctgcct 10560

gaccctagta gacttatgaa atttctgatg agaaaggaga gaggagaaag gcagagctga 10620

ctgtgatgag tgatgaaggt gccttctcat ctggctcgag ggtaccagtg gggcctctaa 10680

gactaagtca ctctgtctca ctgtgtctta gccagttcct tacagcttgc cctgatggga 10740

gatagagaat gggtatcctc caacaaaaaa ataaattttc atttctcaag gtccaactta 10800

tgttttctta atttttaaaa aaatcttgac cattctccac tctctaaaat aatccacagt 10860

gagagaaaca ttcttttccc ccatcccata aatacctcta ttaaatatgg aaaatctggg 10920

catggtgtct cacacctgta atcccagcac tttgggaggc tgaggtgggt ggactgcttg 10980

gagctcagga gttcaagacc atcttggaca acatggtgat accctgcctc tacaaaaagt 11040

acaaaaatta gcctggcatg gtggtgtgca cctgtaatcc cagctattag ggtggctgag 11100

gcaggagaat tgcttgaacc cgggaggcgg aggttgcagt gagctgagat cgtgccactg 11160

cactccagcc tgggggacag agcacattat aattaactgt tattttttac ttggactctt 11220

gtggggaata agatacatgt tttattctta tttatgattc aagcactgaa aatagtgttt 11280

agcatccagc aggtgcttca aaaccatttg ctgaatgatt actatacttt ttacaagctc 11340

agctccctct atcccttcca gcatcctcat ctctgattaa ataagcttca gtttttcctt 11400

agttcctgtt acatttctgt gtgtctccat tagtgacctc ccatagtcca agcatgagca 11460

gttctggcca ggcccctgtc ggggtcagtg ccccaccccc gccttctggt tctgtgtaac 11520

cttctaagca aaccttctgg ctcaagcaca gcaatgctga gtcatgatga gtcatgctga 11580

ggcttagggt gtgtgcccag atgttctcag cctagagtga tgactcctat ctgggtcccc 11640

agcaggatgc ttacagggca gatggcaaaa aaaaggagaa gctgaccacc tgactaaaac 11700

tccacctcaa acggcatcat aaagaaaatg gatgcctgag acagaatgtg acatattcta 11760

gaatatatta tttcctgaat atatatatat atatacacat atacgtatat atatatatat 11820

atatatattt gttgttatca attgccatag aatgattagt tattgtgaat caaatattta 11880

tcttgcaggt ggcctctata cctagaagcg gcagaatcag gctttattaa tacatgtgta 11940

tagattttta ggatctatac acatgtatta atatgaaaca aggatatgga agaggaaggc 12000

atgaaaacag gaaaagaaaa caaaccttgt ttgccatttt aaggcacccc tggacagcta 12060

ggtggcaaaa ggcctgtgct gttagaggac acatgctcac atacggggtc agatctgact 12120

tggggtgcta ctgggaagct ctcatcttaa ggatacatct caggccagtc ttggtgcatt 12180

aggaagatgt aggcaactct gatcctgaga ggaaagaaac attcctccag gagagctaaa 12240

agggttcacc tgtgtgggta actgtgaagg actacaagag gatgaaaaac aatgacagac 12300

agacataatg cttgtgggag aaaaaacagg aggtcaaggg gatagagaag gcttccagaa 12360

gaatggcttt gaagctggct tctgtaggag ttcacagtgg caaagatgtt tcagaaatgt 12420

gacatgactt aaggaactat acaaaaagga acaaatttaa ggagaggcag ataaattagt 12480

tcaacagaca tgcaaggaat tttcagatga atgttatgtc tccactgagc ttcttgaggt 12540

tagcagctgt gagggttttg caggcccagg acccattaca ggacctcacg tatacttgac 12600

actgtttttt gtattcattt gtgaatgaat gacctcttgt cagtctactc ggtttcgctg 12660

tgaatgaatg atgtcttgtc agcctacttg gtttcgctaa gagcacagag agaagattta 12720

gtgatgctat gtaaaaactt cctttttggt tcaagtgtat gtttgtgata gaaatgaaga 12780

caggctacat gatgcatatc taacataaac acaaacatta agaaaggaaa tcaacctgaa 12840

gagtatttat acagataaca aaatacagag agtgagttaa atgtgtaata actgtggcac 12900

aggctggaat atgagccatt taaatcacaa attaattaga aaaaaaacag tggggaaaaa 12960

attccatgga tgggtctaga aagactagca ttgttttagg ttgagtggca gtgtttaaag 13020

ggtgatatca gactaaactt gaaatatgtg gctaaataac tagaatactc tttatttttt 13080

cgtatcatga atagcagata tagcttgatg gccccatgct tggtttaaca tccttgctgt 13140

tcctgacatg aaatccttaa tttttgacaa aggggctatt cattttcatt ttatattggg 13200

cctagaaatt atgtagatgg tcctgaggaa aagtttatag cttgtctatt tctctctcta 13260

acatagttgt cagcacaatg cctaggctat aggaagtact caaagcttgt taaattgaat 13320

tctatccttc ttattcaatt ctacacatgg aggaaaaact catcagggat ggaggcacgc 13380

ctctaaggaa ggcaggtgtg gctctgcagt gtgattgggt acttgcagga cgaagggtgg 13440

ggtgggagtg gctaaccttc cattcctagt gcagaggtca cagcctaaac atcaaattcc 13500

ttgaggtgcg gtggctcact cctgtaatca cagcagtttg ggacgccaag gtgggcagat 13560

cacttgaggt caggagttgg acaccagccc agccaacata gtgaaacctg gtctctgctt 13620

aaaaatataa aaattagctg gacgtggtga cgggagcctg taatccaact acttgggagg 13680

ctgaggcagg agaatcgctt gaaccgggga ggtggagttt gcactgagca gagatcatgc 13740

cattgcactc cagcctccag agcgagactc tgtctaaaga aaaacgaaaa caaacaaaca 13800

aacaaacaaa caaaacccat caaattccct gaccgaacag aattctgtct gattgttctc 13860

tgacttatct accattttcc ctccttaaag aaactgtgaa cttccttcag ctagaggggc 13920

ctggctcaga agcctctggt cagcatccaa gaaatacttg atgtcacttt ggctaaaggt 13980

atgatgtgta gacaagctcc agagatggtt tctcatttcc atatccaccc acccagcttt 14040

ccaattttaa agccaattct gaggtagaga ctgtgatgaa caaacacctt gacaaaattc 14100

aacccaaaga ctcactttgc ctagcttcaa aatccttact ctgacatata ctcacagcca 14160

gaaattagca tgcactagag tgtgcatgag tgcaacacac acacacacca attccatatt 14220

ctctgtcaga aaatcctgtt ggtttttcgt gaaaggatgt tttcagaggc tgaccccttg 14280

ccttcacctc caatgctacc actctggtct aagtcactgt caccaccacc taaattatag 14340

ctgttgactc ataacaatct tcctgcttct accactgccc cactacaatt tcttcccaat 14400

atactatcca aattagtctt ttcaaaatgt aagtcatata tggtcacctc tttgttcaaa 14460

gtcttctgat agtttcctat atcatttata ataaaaccaa atccttacaa ttctctacaa 14520

tagttgttca tgcatatatt atgtttatta cagatacata tatatagctc tcatataaat 14580

aaatatatat atttatgtgt atgtgtgtag agtgtttttt cttacaactc tatgatgtag 14640

gtattattag tgtcccaaat tttataattt aggacttcta tgatctcatc ttttattctc 14700

cccttcaccg aatctcatcc tacattggcc ttattgatat tccttgaaaa ttctaagcat 14760

cttacatctt tagggtattt acatttgcca ttccctatgc cctaaatatt taatcatagt 14820

ttcatataaa tgggttcctc atcatctatg ggtactctct caggtgttaa ctttatagtg 14880

aggactttcc tgccatacta cttaaagtag cgataccctt tcaccctgtc ctaatcacac 14940

tctggccttc atttcagttt tttttttttc tccatagcac ctaatctcat tggtatataa 15000

catgtttcat ttgcttattt aatgtcaagc tctttccact atcaagtcca tgaaaacagg 15060

aactttattc ctctattctg tttttgtgct gtattcttag caattttaca attttgaatg 15120

aatgaatgag cagtcaaaca catatacaac tataattaaa aggatgtatg ctgacacatc 15180

cactgctatg cacacacaaa gaaatcagtg gagtagagct ggaagtgcta agcctgcata 15240

gagctagtta gccctccgca ggcagagcct tgatgggatt actgagttct agaattggac 15300

tcatttgttt tgtaggctga gatttgctct tgaaaacttg ttctgaccaa aataaaaggc 15360

tcaaaagatg aatatcgaaa ccagggtgtt ttttacactg gaatttataa ctagagcact 15420

catgtttatg taagcaatta attgtttcat cagtcaggta aaagtaaaga aaaactgtgc 15480

caaggcaggt agcctaatgc aatatgccac taaagtaaac attatttcat aggtgtcaga 15540

tatggcttat tcatccatct tcatgggaag gatggccttg gcctggacat cagtgttatg 15600

tgaggttcaa aacacctcta ggctataagg caacagagct cctttttttt ttttctgtgc 15660

tttcctggct gtccaaatct ctaatgataa gcatacttct attcaatgag aatattctgt 15720

aagattatag ttaagaattg tgggagccat tccgtctctt atagttaaat ttgagcttct 15780

tttatgatca ctgttttttt aatatgcttt aagttctggg gtacatgtgc catggtggtt 15840

tgctgcaccc atcaacccgt catctacatt aggtatttct cctaatgcta tccttcccct 15900

agccccccac ccccaacagg ccccagtgtg tgatgttccc ctccctgtgt ccatggatca 15960

ctggtttttt tttgtttttt tttttttttt aaagtctcag ttaaattttt ggaatgtaat 16020

ttattttcct ggtatcctag gacttgcaag ttatctggtc actttagccc tcacgttttg 16080

atgataatca catatttgta aacacaacac acacacacac acacacacac atatatatat 16140

atataaaaca tatatataca taaacacaca taacatattt atcgggcatt tctgagcaac 16200

taatcatgca ggactctcaa acactaacct atagcctttt ctatgtatct acttgtgtag 16260

aaaccaagcg tggggactga gaaggcaata gcaggagcat tctgactctc actgccttta 16320

gctaggcccc tccctcatca cagctcagca tagtcctgag ctcttatcta tatccacaca 16380

cagtttctga cgctgcccag ctatcaccat cccaagtcta aagaaaaaaa taatgggttt 16440

gcccatctct gttgattaga aaacaaaaca aaataaaata agcccctaag ctcccagaaa 16500

acatgactaa accagcaaga agaagaaaat acaataggta tatgaggaga ctggtgacac 16560

tagtgtctga atgaggcttg agtacagaaa agaggctcta gcagcatagt ggtttagagg 16620

agatgtttct ttccttcaca gatgccttag cctcaataag cttgcggttg tggaagttta 16680

ctttcagaac aaactcctgt ggggctagaa ttattgatgg ctaaaagaag cccgggggag 16740

ggaaaaatca ttcagcatcc tcacccttag tgacacaaaa cagagggggc ctggttttcc 16800

atatttcctc atgatggatg atctcgttaa tgaaggtggt ctgacgagat cattgcttct 16860

tccatttaag ccttgctcac ttgccaatcc tcagttttaa ccttctccag agaaatacac 16920

attttttatt caggaaacat actatgttat agtttcaata ctaaataatc aaagtactga 16980

agatagcatg cataggcaag aaaaagtcct tagctttatg ttgctgttgt ttcagaattt 17040

aaaaaagatc accaagtcaa ggacttctca gttctagcac tagaggtgga atcttagcat 17100

ataatcagag gtttttcaaa atttctagac ataagattca aagccctgca cttaaaatag 17160

tctcatttga attaactctt tatataaatt gaaagcacat tctgaactac ttcagagtat 17220

tgttttattt ctatgttctt agttcataaa tacattaggc aatgcaattt aattaaaaaa 17280

acccaagaat ttcttagaat tttaatcatg aaaataaatg aaggcatctt tacttactca 17340

aggtcccaaa aggtcaaaga aaccaggaaa gtaaagctat atttcagcgg aaaatgggat 17400

atttatgagt tttctaagtt gacagactca agttttaacc ttcagtgccc atcatgtagg 17460

aaagtgtggc ataactggct gattctggct ttctactcct ttttcccatt aaagatccct 17520

cctgcttaat taacattcac aagtaactct ggttgtactt taggcacagt ggctcccgag 17580

gtcagtcaca caataggatg tctgtgctcc aagttgccag agagagagat tactcttgag 17640

aatgagcctc agccctggct caaactcacc tgcaaacttc gtgagagatg aggcagaggt 17700

acactacgaa agcaacagtt agaagctaaa tgatgagaac acatggactc atagagggaa 17760

acaacgcata ctggggccta tcagagggtg gagggtgaga gaaggagagg atcaggaaaa 17820

atcactaatg gatgctaagc gtaatacctg agtgatgaga tcatctatac aacaaacccc 17880

cttgacattc atttatctat gtaacaaacc tgcacatcct gtacatgtac ccctgaactt 17940

aaaataaaag ttgaaaacaa gaaagcaaca gtttgaacac ttgttatggt ctattctctc 18000

attctttaca attacactag aaaatagcca caggcttcct gcaaggcagc cacagaattt 18060

atgacttgtg atatccaagt cattcctgga taatgcaaaa tctaacacaa aatctagtag 18120

aatcatttgc ttacatctat ttttgttctg agaatataga tttagataca taatggaagc 18180

agaataattt aaaatctggc taatttagaa tcctaagcag ctcttttcct atcagtggtt 18240

tacaagcctt gtttatattt ttcctatttt aaaaataaaa ataaagtaag ttatttgtgg 18300

taaagaatat tcattaaagt atttatttct tagataatac catgaaaaac attcagtgaa 18360

gtgaagggcc tactttactt aacaagaatc taatttatat aatttttcat actaatagca 18420

tctaagaaca gtacaatatt tgactcttca ggttaaacat atgtcataaa ttagccagaa 18480

agatttaaga aaatattgga tgtttccttg tttaaattag gcatcttaca gtttttagaa 18540

tcctgcatag aacttaagaa attacaaatg ctaaagcaaa cccaaacagg caggaattaa 18600

tcttcatcga atttgggtgt ttctttctaa aagtccttta tacttaaatg tcttaagaca 18660

tacatagatt ttattttact aattttaatt atatagacaa taaatgaata ttcttactga 18720

ttactttttc tgactgtcta atctttctga tctatcctgg atggccataa cacttatctc 18780

tctgaacttt gggcttttaa tataggaaag aaaagcaata atccattttt catggtatct 18840

catatgataa acaaataaaa tgcttaaaaa tgagcaggtg aagcaattta tcttgaacca 18900

acaagcatcg aagcaataat gagactgccc gcagcctacc tgacttctga gtcaggattt 18960

ataagccttg ttactgagac acaaacctgg gcctttcaat gctataacct ttcttgaagc 19020

tcctccctac cacctttagc cataaggaaa catggaatgg gtcagatccc tggatgcaag 19080

ccaggtctgg aaccataggc agtaaggaga gaagaaaatg tgggctctgc aactggctcc 19140

gagggagcag gagaggatca accccatact ctgaatctaa gagaagactg gtgtccatac 19200

tctgaatggg aagaatgatg ggattaccca tagggcttgt tttagggaga aacctgttct 19260

ccaaactctt ggccttgaga tacctggtcc ttattccttg gactttggca atgtctgacc 19320

ctcacattca agttctgagg aagggccact gccttcatac tgtggatctg tagcaaattc 19380

cccctgaaaa cccagagctg tatcttaatt ggttaaaaaa aattatatta tctcaacgac 19440

tgttcttctc tgagtagcca agctcagctt ggttcaagct acaagcagct gagctgcttt 19500

ttgtctagtc attgttcttt tatttcagtg gatcaaatac gttctttcca aacctaggat 19560

cttgtcttcc taggctatat attttgtccc aggaagtctt aatctggggt ccacagaaca 19620

ctagggggct ggtgaagttt atagaaaaaa aatctgtatt tttacttaca tgtaactgaa 19680

atttagcatt ttcttctact ttgaatgcaa aggacaaact agaatgacat catcagtacc 19740

tattgcatag ttataaagag aaaccacaga tattttcata ctacaccata ggtattgcag 19800

atctttttgt ttttgttttt gtttgagatg gagtttcgct cttattgccc aggctggagt 19860

gcagtggcat gatttcggct cactgcaacc tccccttcct gcattcaagc aattctcctg 19920

ccttggcctc ctgagtagct ggggattaca ggcacctgcc accatgccag tctaattttt 19980

gtatttttag tagagatggg gtttcgccat gttggccagg ctggtcttga actcctgacc 20040

tcagatgatc tgcccgcctt ggcctcctga agtgctggga ttataggtgt gagccaccac 20100

gcctggccca ttgcagatat ttttaattca catttatctg catcactact tggatcttaa 20160

ggtagctgta gacccaatcc tagatctaat gctttcataa agaagcaaat ataataaata 20220

ctataccaca aatgtaatgt ttgatgtctg ataatgatat ttcagtgtaa ttaaacttag 20280

cactcctatg tatattattt gatgcaataa aaacatattt ttttagcact tacagtctgc 20340

caaactggcc tgtgacacaa aaaaagttta ggaattcctg gttttgtctg tgttagccaa 20400

tggttagaat atatgctcag aaagatacca ttggttaata gctaaaagaa aatggagtag 20460

aaattcagtg gcctggaata ataacaattt gggcagtcat taagtcaggt gaagacttct 20520

ggaatcatgg gagaaaagca agggagacat tcttacttgc cacaagtgtt tttttttttt 20580

ttttttttta tcacaaacat aagaaaatat aataaataac aaagtcaggt tatagaagag 20640

agaaacgctc ttagtaaact tggaatatgg aatccccaaa ggcacttgac ttgggagaca 20700

ggagccatac tgctaagtga aaaagacgaa gaacctctag ggcctgaaca tacaggaaat 20760

tgtaggaaca gaaattccta gatctggtgg ggcaagggga gccataggag aaagaaatgg 20820

tagaaatgga tggagacgga ggcagaggtg ggcagatcat gaggtcaaga gatcgagacc 20880

atcctggcaa acatggtgaa atcccgtctc tactaaaaat aaaaaaatta gctgggcatg 20940

gtggcatgcg cctgtagtcc cagctgctcg ggaggctgag gcaggagaat cgtttgaacc 21000

caggaggcga aggttgcagt gagctgagat agtgccattg cactccagtc tggcaacaga 21060

gtgagactcc gtctcaaaaa aaaaaaaaaa agaaagaaag aaaagaaaaa gaaaaaagaa 21120

aaaataaatg gatgtagaac aagccagaag gaggaactgg gctggggcaa tgagattatg 21180

gtgatgtaag ggacttttat agaattaaca atgctggaat ttgtggaact ctgcttctat 21240

tattccccca atcattactt ctgtcacatt gatagttaaa taatttctgt gaatttattc 21300

cttgattcta aaatatgagg ataatgacaa tggtattata agggcagatt aagtgatata 21360

gcatgagcaa tattcttcag gcacatggat cgaattgaat acactgtaaa tcccaacttc 21420

cagtttcagc tctaccaagt aaagagctag caagtcatca aaatggggac atacagaaaa 21480

aaaaaaggac actagaggaa taatataccc tgactcctag cctgattaat atatcgat 21538

<210> 99

<211> 1468

<212> PRT

<213> 人工序列

<220>

<223> ET3序列

<400> 99

Met Gln Leu Glu Leu Ser Thr Cys Val Phe Leu Cys Leu Leu Pro Leu

1 5 10 15

Gly Phe Ser Ala Ile Arg Arg Tyr Tyr Leu Gly Ala Val Glu Leu Ser

20 25 30

Trp Asp Tyr Arg Gln Ser Glu Leu Leu Arg Glu Leu His Val Asp Thr

35 40 45

Arg Phe Pro Ala Thr Ala Pro Gly Ala Leu Pro Leu Gly Pro Ser Val

50 55 60

Leu Tyr Lys Lys Thr Val Phe Val Glu Phe Thr Asp Gln Leu Phe Ser

65 70 75 80

Val Ala Arg Pro Arg Pro Pro Trp Met Gly Leu Leu Gly Pro Thr Ile

85 90 95

Gln Ala Glu Val Tyr Asp Thr Val Val Val Thr Leu Lys Asn Met Ala

100 105 110

Ser His Pro Val Ser Leu His Ala Val Gly Val Ser Phe Trp Lys Ser

115 120 125

Ser Glu Gly Ala Glu Tyr Glu Asp His Thr Ser Gln Arg Glu Lys Glu

130 135 140

Asp Asp Lys Val Leu Pro Gly Lys Ser Gln Thr Tyr Val Trp Gln Val

145 150 155 160

Leu Lys Glu Asn Gly Pro Thr Ala Ser Asp Pro Pro Cys Leu Thr Tyr

165 170 175

Ser Tyr Leu Ser His Val Asp Leu Val Lys Asp Leu Asn Ser Gly Leu

180 185 190

Ile Gly Ala Leu Leu Val Cys Arg Glu Gly Ser Leu Thr Arg Glu Arg

195 200 205

Thr Gln Asn Leu His Glu Phe Val Leu Leu Phe Ala Val Phe Asp Glu

210 215 220

Gly Lys Ser Trp His Ser Ala Arg Asn Asp Ser Trp Thr Arg Ala Met

225 230 235 240

Asp Pro Ala Pro Ala Arg Ala Gln Pro Ala Met His Thr Val Asn Gly

245 250 255

Tyr Val Asn Arg Ser Leu Pro Gly Leu Ile Gly Cys His Lys Lys Ser

260 265 270

Val Tyr Trp His Val Ile Gly Met Gly Thr Ser Pro Glu Val His Ser

275 280 285

Ile Phe Leu Glu Gly His Thr Phe Leu Val Arg His His Arg Gln Ala

290 295 300

Ser Leu Glu Ile Ser Pro Leu Thr Phe Leu Thr Ala Gln Thr Phe Leu

305 310 315 320

Met Asp Leu Gly Gln Phe Leu Leu Phe Cys His Ile Ser Ser His His

325 330 335

His Gly Gly Met Glu Ala His Val Arg Val Glu Ser Cys Ala Glu Glu

340 345 350

Pro Gln Leu Arg Arg Lys Ala Asp Glu Glu Glu Asp Tyr Asp Asp Asn

355 360 365

Leu Tyr Asp Ser Asp Met Asp Val Val Arg Leu Asp Gly Asp Asp Val

370 375 380

Ser Pro Phe Ile Gln Ile Arg Ser Val Ala Lys Lys His Pro Lys Thr

385 390 395 400

Trp Val His Tyr Ile Ala Ala Glu Glu Glu Asp Trp Asp Tyr Ala Pro

405 410 415

Leu Val Leu Ala Pro Asp Asp Arg Ser Tyr Lys Ser Gln Tyr Leu Asn

420 425 430

Asn Gly Pro Gln Arg Ile Gly Arg Lys Tyr Lys Lys Val Arg Phe Met

435 440 445

Ala Tyr Thr Asp Glu Thr Phe Lys Thr Arg Glu Ala Ile Gln His Glu

450 455 460

Ser Gly Ile Leu Gly Pro Leu Leu Tyr Gly Glu Val Gly Asp Thr Leu

465 470 475 480

Leu Ile Ile Phe Lys Asn Gln Ala Ser Arg Pro Tyr Asn Ile Tyr Pro

485 490 495

His Gly Ile Thr Asp Val Arg Pro Leu Tyr Ser Arg Arg Leu Pro Lys

500 505 510

Gly Val Lys His Leu Lys Asp Phe Pro Ile Leu Pro Gly Glu Ile Phe

515 520 525

Lys Tyr Lys Trp Thr Val Thr Val Glu Asp Gly Pro Thr Lys Ser Asp

530 535 540

Pro Arg Cys Leu Thr Arg Tyr Tyr Ser Ser Phe Val Asn Met Glu Arg

545 550 555 560

Asp Leu Ala Ser Gly Leu Ile Gly Pro Leu Leu Ile Cys Tyr Lys Glu

565 570 575

Ser Val Asp Gln Arg Gly Asn Gln Ile Met Ser Asp Lys Arg Asn Val

580 585 590

Ile Leu Phe Ser Val Phe Asp Glu Asn Arg Ser Trp Tyr Leu Thr Glu

595 600 605

Asn Ile Gln Arg Phe Leu Pro Asn Pro Ala Gly Val Gln Leu Glu Asp

610 615 620

Pro Glu Phe Gln Ala Ser Asn Ile Met His Ser Ile Asn Gly Tyr Val

625 630 635 640

Phe Asp Ser Leu Gln Leu Ser Val Cys Leu His Glu Val Ala Tyr Trp

645 650 655

Tyr Ile Leu Ser Ile Gly Ala Gln Thr Asp Phe Leu Ser Val Phe Phe

660 665 670

Ser Gly Tyr Thr Phe Lys His Lys Met Val Tyr Glu Asp Thr Leu Thr

675 680 685

Leu Phe Pro Phe Ser Gly Glu Thr Val Phe Met Ser Met Glu Asn Pro

690 695 700

Gly Leu Trp Ile Leu Gly Cys His Asn Ser Asp Phe Arg Asn Arg Gly

705 710 715 720

Met Thr Ala Leu Leu Lys Val Ser Ser Cys Asp Lys Asn Thr Gly Asp

725 730 735

Tyr Tyr Glu Asp Ser Tyr Glu Asp Ile Ser Ala Tyr Leu Leu Ser Lys

740 745 750

Asn Asn Ala Ile Glu Pro Arg Ser Phe Ala Gln Asn Ser Arg Pro Pro

755 760 765

Ser Ala Ser Ala Pro Lys Pro Pro Val Leu Arg Arg His Gln Arg Asp

770 775 780

Ile Ser Leu Pro Thr Phe Gln Pro Glu Glu Asp Lys Met Asp Tyr Asp

785 790 795 800

Asp Ile Phe Ser Thr Glu Thr Lys Gly Glu Asp Phe Asp Ile Tyr Gly

805 810 815

Glu Asp Glu Asn Gln Asp Pro Arg Ser Phe Gln Lys Arg Thr Arg His

820 825 830

Tyr Phe Ile Ala Ala Val Glu Gln Leu Trp Asp Tyr Gly Met Ser Glu

835 840 845

Ser Pro Arg Ala Leu Arg Asn Arg Ala Gln Asn Gly Glu Val Pro Arg

850 855 860

Phe Lys Lys Val Val Phe Arg Glu Phe Ala Asp Gly Ser Phe Thr Gln

865 870 875 880

Pro Ser Tyr Arg Gly Glu Leu Asn Lys His Leu Gly Leu Leu Gly Pro

885 890 895

Tyr Ile Arg Ala Glu Val Glu Asp Asn Ile Met Val Thr Phe Lys Asn

900 905 910

Gln Ala Ser Arg Pro Tyr Ser Phe Tyr Ser Ser Leu Ile Ser Tyr Pro

915 920 925

Asp Asp Gln Glu Gln Gly Ala Glu Pro Arg His Asn Phe Val Gln Pro

930 935 940

Asn Glu Thr Arg Thr Tyr Phe Trp Lys Val Gln His His Met Ala Pro

945 950 955 960

Thr Glu Asp Glu Phe Asp Cys Lys Ala Trp Ala Tyr Phe Ser Asp Val

965 970 975

Asp Leu Glu Lys Asp Val His Ser Gly Leu Ile Gly Pro Leu Leu Ile

980 985 990

Cys Arg Ala Asn Thr Leu Asn Ala Ala His Gly Arg Gln Val Thr Val

995 1000 1005

Gln Glu Phe Ala Leu Phe Phe Thr Ile Phe Asp Glu Thr Lys Ser

1010 1015 1020

Trp Tyr Phe Thr Glu Asn Val Glu Arg Asn Cys Arg Ala Pro Cys

1025 1030 1035

His Leu Gln Met Glu Asp Pro Thr Leu Lys Glu Asn Tyr Arg Phe

1040 1045 1050

His Ala Ile Asn Gly Tyr Val Met Asp Thr Leu Pro Gly Leu Val

1055 1060 1065

Met Ala Gln Asn Gln Arg Ile Arg Trp Tyr Leu Leu Ser Met Gly

1070 1075 1080

Ser Asn Glu Asn Ile His Ser Ile His Phe Ser Gly His Val Phe

1085 1090 1095

Ser Val Arg Lys Lys Glu Glu Tyr Lys Met Ala Val Tyr Asn Leu

1100 1105 1110

Tyr Pro Gly Val Phe Glu Thr Val Glu Met Leu Pro Ser Lys Val

1115 1120 1125

Gly Ile Trp Arg Ile Glu Cys Leu Ile Gly Glu His Leu Gln Ala

1130 1135 1140

Gly Met Ser Thr Thr Phe Leu Val Tyr Ser Lys Lys Cys Gln Thr

1145 1150 1155

Pro Leu Gly Met Ala Ser Gly His Ile Arg Asp Phe Gln Ile Thr

1160 1165 1170

Ala Ser Gly Gln Tyr Gly Gln Trp Ala Pro Lys Leu Ala Arg Leu

1175 1180 1185

His Tyr Ser Gly Ser Ile Asn Ala Trp Ser Thr Lys Glu Pro Phe

1190 1195 1200

Ser Trp Ile Lys Val Asp Leu Leu Ala Pro Met Ile Ile His Gly

1205 1210 1215

Ile Lys Thr Gln Gly Ala Arg Gln Lys Phe Ser Ser Leu Tyr Ile

1220 1225 1230

Ser Gln Phe Ile Ile Met Tyr Ser Leu Asp Gly Lys Lys Trp Gln

1235 1240 1245

Thr Tyr Arg Gly Asn Ser Thr Gly Thr Leu Met Val Phe Phe Gly

1250 1255 1260

Asn Val Asp Ser Ser Gly Ile Lys His Asn Ile Phe Asn Pro Pro

1265 1270 1275

Ile Ile Ala Arg Tyr Ile Arg Leu His Pro Thr His Tyr Ser Ile

1280 1285 1290

Arg Ser Thr Leu Arg Met Glu Leu Met Gly Cys Asp Leu Asn Ser

1295 1300 1305

Cys Ser Met Pro Leu Gly Met Glu Ser Lys Ala Ile Ser Asp Ala

1310 1315 1320

Gln Ile Thr Ala Ser Ser Tyr Phe Thr Asn Met Phe Ala Thr Trp

1325 1330 1335

Ser Pro Ser Lys Ala Arg Leu His Leu Gln Gly Arg Ser Asn Ala

1340 1345 1350

Trp Arg Pro Gln Val Asn Asn Pro Lys Glu Trp Leu Gln Val Asp

1355 1360 1365

Phe Gln Lys Thr Met Lys Val Thr Gly Val Thr Thr Gln Gly Val

1370 1375 1380

Lys Ser Leu Leu Thr Ser Met Tyr Val Lys Glu Phe Leu Ile Ser

1385 1390 1395

Ser Ser Gln Asp Gly His Gln Trp Thr Leu Phe Phe Gln Asn Gly

1400 1405 1410

Lys Val Lys Val Phe Gln Gly Asn Gln Asp Ser Phe Thr Pro Val

1415 1420 1425

Val Asn Ser Leu Asp Pro Pro Leu Leu Thr Arg Tyr Leu Arg Ile

1430 1435 1440

His Pro Gln Ser Trp Val His Gln Ile Ala Leu Arg Met Glu Val

1445 1450 1455

Leu Gly Cys Glu Ala Gln Asp Leu Tyr Val

1460 1465

<210> 100

<211> 147

<212> PRT

<213> 人工序列

<220>

<223> β-球蛋白

<400> 100

Met Val His Leu Thr Pro Glu Glu Lys Ser Ala Val Thr Ala Leu Trp

1 5 10 15

Gly Lys Val Asn Val Asp Glu Val Gly Gly Glu Ala Leu Gly Arg Leu

20 25 30

Leu Val Val Tyr Pro Trp Thr Gln Arg Phe Phe Glu Ser Phe Gly Asp

35 40 45

Leu Ser Thr Pro Asp Ala Val Met Gly Asn Pro Lys Val Lys Ala His

50 55 60

Gly Lys Lys Val Leu Gly Ala Phe Ser Asp Gly Leu Ala His Leu Asp

65 70 75 80

Asn Leu Lys Gly Thr Phe Ala Thr Leu Ser Glu Leu His Cys Asp Lys

85 90 95

Leu His Val Asp Pro Glu Asn Phe Arg Leu Leu Gly Asn Val Leu Val

100 105 110

Cys Val Leu Ala His His Phe Gly Lys Glu Phe Thr Pro Pro Val Gln

115 120 125

Ala Ala Tyr Gln Lys Val Val Ala Gly Val Ala Asn Ala Leu Ala His

130 135 140

Lys Tyr His

145

<210> 101

<211> 147

<212> PRT

<213> 人工序列

<220>

<223> γ球蛋白

<400> 101

Met Gly His Phe Thr Glu Glu Asp Lys Ala Thr Ile Thr Ser Leu Trp

1 5 10 15

Gly Lys Val Asn Val Glu Asp Ala Gly Gly Glu Thr Leu Gly Arg Leu

20 25 30

Leu Val Val Tyr Pro Trp Thr Gln Arg Phe Phe Asp Ser Phe Gly Asn

35 40 45

Leu Ser Ser Ala Ser Ala Ile Met Gly Asn Pro Lys Val Lys Ala His

50 55 60

Gly Lys Lys Val Leu Thr Ser Leu Gly Asp Ala Thr Lys His Leu Asp

65 70 75 80

Asp Leu Lys Gly Thr Phe Ala Gln Leu Ser Glu Leu His Cys Asp Lys

85 90 95

Leu His Val Asp Pro Glu Asn Phe Lys Leu Leu Gly Asn Val Leu Val

100 105 110

Thr Val Leu Ala Ile His Phe Gly Lys Glu Phe Thr Pro Glu Val Gln

115 120 125

Ala Ser Trp Gln Lys Met Val Thr Ala Val Ala Ser Ala Leu Ser Ser

130 135 140

Arg Tyr His

145

<210> 102

<211> 3030

<212> DNA

<213> 人工序列

<220>

<223> 3'HS1

<400> 102

ccaggctcca ttattgatat agtcatgatc tcctctgttg gggatgaagt aggcaaattt 60

gaggcactaa tttacttctc acattctttt cttgaacaga aagatagaac tggaaattaa 120

tagtagtata taaattcaaa attttagctt taataacatt taatcagaca taaataatta 180

tggtaatgtg aatttcaata aataaatttt agttctaata taagtgtaac tgtgtaatat 240

tcatactttt tctgaaggct ttactaattt gatatggcat tactttttta ttgctgccaa 300

aactattctt attccactgt gtggtgatga gaaagtgaga gatgttctgg agatggtgat 360

tatagatagc ttccctgaag ccatagtaac cccctggaga aaaattggac ctggagtcta 420

gcagcctagg tatgggtact cgatttctta gaaagccttt acaatttcct ttatcttaaa 480

aataagggta ttgaagtaga attctagaat tttcagagga caacttaaaa tatgtgtaat 540

agttttaatt atttatcctc ataaatttaa ctgttcattt taatatattt aaggatgaat 600

tttttaaaaa gttgatttca taaaaacggg aatagaaaga tggttccata ggctgactga 660

gagtgtagag gagggatggg aagggaaaga agttgatctt cagttagact agaggaataa 720

gttttagtga tctctcacac tgcatagtga acacagttaa taatatatta tgtatttaaa 780

ttaaaaattg ctaaaaaata aatattttat gttctcacca caaaaaaagt tggaaggtga 840

ttcatatgct aattagcttg atagactctc tctacaatgt atatatagat caaacatcac 900

attgtatccc ataacatatt atatatatta tatatttata ttatatatta ttattgtatc 960

cattaatata tgcacttatt atttgccagg caaataaaaa atgtttttaa aatataaatt 1020

tatttgtaac ctccttttac ttttctgctt ggttttcttc tttcattcag tgtttaccag 1080

tttcttatag ttaattttat tttaagctgt ctcacatttt ctgaagaaaa gggaacatat 1140

taaagccaac aaaacaaata cactatcttg catgagatga tttatgtcat ggtacaatca 1200

aatgctataa atcttataaa aacttctcaa atggttagat ggctacagtt gaacagatgg 1260

accatgtcat atatttttta taatgcttct aaggtatggc taatttttaa aaaatatttt 1320

agtaatgatg ggaatattat ttatagaaat cttataaaat atataatgaa atatgtaata 1380

aagtctagat aaatgtgtat atacataata tatatttatt acataatata taatatataa 1440

tgtatattta tatattacat gcattatata ttaaatataa tacattttat atattatata 1500

ttaaaatatg taataatatg ttattaaata tatacaataa tctattacat tttatgctta 1560

tataatatat aataaatata tagtatataa taaatataca ctatatattt gtatctatat 1620

atgtttataa agtcattcct ctaattaggt cataaccatt caggtaaact ggaaatttaa 1680

gcctacttca ggtttgtggt aaatagattc tctctgaact agcatattca gaatcattaa 1740

acagtcagtt ctttggacaa gtcttataga atgttcttac ctcttcagcc atcccaagac 1800

tcttgagggc ctgacctcgc ttacactaaa gcagatctgc cttatgcatc actgaagtag 1860

ggagggaaga aagtttgatg aactacttct gacccctagt ggtgtccaga aaagaccatt 1920

aaaggaatga cctttaaagg atggacatac aattttttgt ccaaggcagg acatgtgtgg 1980

gtgtctttca gtaattatgt tctaagaaca gcaaaaactc cactgccttg gcaaatagga 2040

atgttttagt tctatagaat tataaagaag ctgtctttta aacacaatat actttctcta 2100

tgtctttgga acaatgacta ttggtcatta ccctatttta aagtaagcaa gtaatcacac 2160

agggaattat tctgaaaaga cagaaaaaaa aaaaaaacca agagatttct gcatatgtag 2220

gtcagtttta atcagagggc atcagaaaag actcctgaaa gaatgacctg gttattataa 2280

tcacagattt gctttccaag tcaacattcc agacagtgct cagaggggat acgaaaaccc 2340

ttttatttct ccagactcaa attcactgct atttgtcttc tctatttatt ttattatagg 2400

cattgttctg gttgctggga actcagactg agataccata cactgactct cagatagcat 2460

aacacaacat gatgtcttgg aaaactgtaa atctttttgt tttttaaata caggtggagc 2520

atctggcaca cctgacatat tgatcttgtt tttctttaaa tcttcattta tttaccttat 2580

caaaactatg ctctttcatc ctacctttca aaacatattt taaaaaatcc tccaacatgt 2640

attttgctct ggtaatccca aaaggctgat agtctctatg gtggcaacat ggataatact 2700

gttccccatc tagatggtct catttcttct gtatctagtc tgaagaagcc tgaatgaaag 2760

tagattttta agctttgtag ctagtctgaa gcctttgtag tcagtctgaa gaaacctgca 2820

tgaaaataga tttttttttt cctttgggac agagtcttgc tctgtcgccc agactggagt 2880

gcaatggcgc gatctcggct cactgcaact tccacctccc aggatcaagc aattctcctg 2940

cctcagtctc ccaagtaact gggattacag gagcacactg ccatgcccag ctaattattt 3000

tttgtgtttt agtagagaca gggtttcacc 3030

Claims

1.一种腺病毒供体载体，其包含：

(a)腺病毒衣壳；和

(b)线性双股DNA基因组，其包含：

(i)至少10kb的转位子负载；

(ii)侧接所述转位子负载的转位子反向重复序列(IR)；和

(iii)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

2.一种腺病毒供体基因组，其包含：

(a)至少10kb的转位子负载；

(b)侧接所述转位子负载的转位子反向重复序列(IR)；和

(c)侧接所述转位子反向重复序列的重组酶正向重复序列(DR)。

3.一种腺病毒转位系统，其包含：

(a)根据权利要求1所述的腺病毒供体载体；和

(b)腺病毒支撑载体，其包含：

(i)腺病毒衣壳；和

(ii)腺病毒支撑基因组，其包含编码转位酶的核酸序列。

4.一种腺病毒转位系统，其包含：

(a)根据权利要求2所述的腺病毒供体基因组；和

(b)腺病毒支撑基因组，其包含编码转位酶的核酸序列。

5.一种腺病毒产生系统，其包含：

(a)包含根据权利要求2所述的腺病毒供体基因组的核酸；和

(b)包含腺病毒辅助基因组的核酸，所述腺病毒辅助基因组包含条件性包装元件。

6.根据权利要求1到5中任一权利要求所述的载体、基因组或系统，其中所述转位子负载包含长LCR，任选地其中所述长LCR为包含β-球蛋白LCR HS1至HS5的β-球蛋白长LCR。

7.根据权利要求6所述的载体、基因组或系统，其中所述长LCR具有至少27kb的长度。

8.根据权利要求1到6中任一权利要求所述的载体、基因组或系统，其中所述转位子负载包含表1中所阐述的LCR。

9.根据权利要求1到6中任一权利要求所述的载体、基因组或系统，其中所述转位子负载具有至少15kb、至少16kb、至少17kb、至少18kb、至少19kb、至少20kb、至少21kb、至少22kb、至少23kb、至少24kb、至少25kb、至少30kb、至少35kb、至少38kb或至少40kb的长度。

10.根据权利要求1到6中任一权利要求所述的载体、基因组或系统，其中所述转位子负载具有10kb-35kb、10kb-30kb、15kb-35kb、15kb-30kb、20kb-35kb或20kb-30kb的长度。

11.根据权利要求1到6中任一权利要求所述的载体、基因组或系统，其中所述转位子负载具有10kb-32.4kb、15kb-32.4kb或20kb-32.4kb的长度。

12.根据权利要求1到11中任一权利要求所述的载体、基因组或系统，其中所述转位子负载包含编码蛋白质的核酸序列，任选地其中所述蛋白质为治疗性蛋白质。

13.根据权利要求12所述的载体、基因组或系统，其中所述蛋白质选自由β球蛋白替代蛋白和γ-球蛋白替代蛋白组成的群组。

14.根据权利要求12所述的载体、基因组或系统，其中所述蛋白质为第八因子替代蛋白。

15.根据权利要求12或13所述的载体、基因组或系统，其中编码所述蛋白质的所述核酸序列与启动子可操作地连接，任选地其中所述启动子为β球蛋白启动子。

16.根据权利要求1到15中任一权利要求所述的载体、基因组或系统，其中所述转位子反向重复序列为睡美人(SB)反向重复序列，任选地其中所述SB反向重复序列为pT4反向重复序列。

17.根据权利要求3到15中任一权利要求所述的载体、基因组或系统，其中所述转位酶为睡美人(SB)转位酶，任选地其中所述转位酶为睡美人100x(SB100x)。

18.根据权利要求1到17中任一权利要求所述的载体、基因组或系统，其中所述重组酶正向重复序列为FRT位点。

19.根据权利要求3到18中任一权利要求所述的载体、基因组或系统，其中所述腺病毒支撑基因组包含编码重组酶的核酸。

20.根据权利要求19所述的载体、基因组或系统，其中所述重组酶为FLP重组酶。

21.根据权利要求1到20中任一权利要求所述的载体、基因组或系统，其中所述转位子负载包含β-球蛋白长LCR，所述转位子负载包含与β-球蛋白启动子可操作地连接的编码β-球蛋白的核酸序列，所述反向重复序列为SB反向重复序列，且所述重组酶正向重复序列为FRT位点。

22.根据权利要求1到21中任一权利要求所述的载体、基因组或系统，其中所述转位子负载包含选择盒，任选地其中所述选择盒包含编码mgmt^P140K的核酸序列。

23.根据权利要求1到22中任一权利要求所述的载体、基因组或系统，其中所述腺病毒衣壳被修饰成对CD46的亲和力增加，任选地其中所述腺病毒衣壳为Ad35++衣壳。

24.根据权利要求5到23中任一权利要求所述的腺病毒产生系统，其中所述腺病毒辅助基因组的条件性包装元件包含被重组酶正向重复序列侧接的包装序列。

25.根据权利要求24所述的腺病毒产生系统，其中侧接所述条件性包装元件的所述包装序列的所述重组酶正向重复序列为LoxP位点。

26.一种细胞，其包含根据权利要求1到25中任一权利要求所述的载体、基因组或系统。

27.一种细胞，其在其基因组中包含权利要求1到25中任一权利要求的转位子负载，其中在所述细胞的所述基因组中存在的所述转位子负载被所述转位子反向重复序列侧接。

28.根据权利要求26或27所述的细胞，其中所述细胞为造血干细胞。

29.一种产生腺病毒的细胞，其包含根据权利要求5到25中任一权利要求所述的腺病毒产生系统，任选地其中所述细胞为HEK293细胞。

30.一种修饰细胞的方法，所述方法包含使所述细胞与根据权利要求1到25中任一权利要求所述的载体、基因组或系统接触。

31.一种修饰受试者的细胞的方法，所述方法包含向所述受试者投与根据权利要求1到25中任一权利要求所述的载体、基因组或系统。

32.一种修饰受试者的细胞的方法，其在不从所述受试者分离所述细胞下进行，所述方法包含向所述受试者投与根据权利要求1到25中任一权利要求所述的载体、基因组或系统。

33.一种治疗有需要受试者的疾病或病状的方法，所述方法包含向所述受试者投与根据权利要求1到25中任一权利要求所述的载体、基因组或系统。

34.根据权利要求31到33中任一权利要求所述的方法，其中所述腺病毒供体载体经静脉内投与到所述受试者。

35.根据权利要求31到34中任一权利要求所述的方法，其中所述方法包含向所述受试者投与动员剂，任选地其中所述动员剂包含粒细胞-集落刺激因子(G-CSF)、CXCR4拮抗剂和CXCR2激动剂中的一者或一者以上。

36.根据权利要求35所述的方法，其中所述CXCR4拮抗剂为AMD3100。

37.根据权利要求35或36所述的方法，其中所述CXCR2激动剂是GRO-β。

38.根据权利要求31到37中任一权利要求所述的方法，其中所述转位子负载包含选择盒且所述方法包含向所述受试者投与选择剂。

39.根据权利要求38所述的方法，其中所述选择盒编码mgmt^P140K且所述选择剂为O⁶BG/BCNU。

40.根据权利要求31到39中任一权利要求所述的方法，其中所述方法引起至少20％、30％、40％、50％、60％、70％、80％、90％或95％表达CD46的细胞中整合和/或表达所述转位子负载的至少一个拷贝。

41.根据权利要求31到39中任一权利要求所述的方法，其中所述方法引起至少20％、30％、40％、50％、60％、70％、80％、90％或95％造血干细胞和/或红血球系Ter119⁺细胞中整合和/或表达所述转位子负载的至少一个拷贝。

42.根据权利要求31到41中任一权利要求所述的方法，其中所述方法引起包含所述转位子负载的至少1个拷贝的细胞的基因组中整合所述转位子负载的平均至少2个拷贝。

43.根据权利要求31到42中任一权利要求所述的方法，其中所述方法引起包含所述转位子负载的至少1个拷贝的细胞的基因组中整合所述转位子负载的平均至少2.5个拷贝。

44.根据权利要求31到43中任一权利要求所述的方法，其中所述方法引起被所述转位子负载编码的蛋白质以参考量的至少约20％的量表达，任选地其中所述参考为内源性参考蛋白在所述受试者中或参考群体中的表达。

45.根据权利要求31到43中任一权利要求所述的方法，其中所述方法引起被所述转位子负载编码的蛋白质以参考量的至少约25％的量表达，任选地其中所述参考为内源性参考蛋白在所述受试者中或参考群体中的表达。

46.根据权利要求31到45中任一权利要求所述的方法，其中所述受试者为罹患中间型地中海贫血的受试者，其中所述转位酶负载包括包含β-球蛋白LCR HS1至HS5的β-球蛋白长LCR，和与β球蛋白启动子可操作地连接的编码β球蛋白替代蛋白和/或γ-球蛋白替代蛋白的核酸序列。

47.根据权利要求31到45中任一权利要求所述的方法，其中所述受试者为罹患血友病的受试者，其中所述转位酶负载包括包含β-球蛋白LCR HS1至HS5的β-球蛋白长LCR，和与β球蛋白启动子可操作地连接的编码第八因子替代蛋白的核酸序列。

48.根据权利要求47所述的方法，其中所述受试者中所述蛋白质的表达减少中间型地中海贫血的至少一种症状和/或治疗中间型地中海贫血。