CN110651046A

CN110651046A - 包含基因编辑多位点的核酸构建体及其用途

Info

Publication number: CN110651046A
Application number: CN201880026672.6A
Authority: CN
Inventors: 西科·汉斯·波普马; 张迪
Original assignee: Aiou Bioscience Co
Current assignee: Aiou Bioscience Co
Priority date: 2017-02-22
Filing date: 2018-02-22
Publication date: 2020-01-03
Also published as: CA3054307A1; EP3585901A4; EP3585901A1; WO2018156818A1; AU2018225180B2; US20190381192A1; AU2018225180A1; IL268750A

Abstract

本文公开了多核苷酸构建体，其包含在多基因编辑位点的上游和下游的一个或多个初级内切核酸酶识别序列，所述初级内切核酸酶识别序列包含多个次级内切核酸酶识别序列。所述初级内切核酸酶识别序列有助于将多基因编辑位点插入到宿主细胞基因组中。所述次级内切核酸酶识别序列有助于将一个或多个外源供体基因插入宿主细胞中。

Description

包含基因编辑多位点的核酸构建体及其用途

交叉引用

本申请要求于2017年2月22日提交的美国临时申请号62/461,991、于2017年7月28日提交的美国临时申请号62/538,328、于2017年8月29日提交的美国临时申请号62/551,383和于2017年10月17日提交的美国临时申请号62/573,353的权益，上述临时申请中的每一个都通过引用以其全文并入。

序列表引用

本申请包括以ASCII格式电子提交的序列表，并且其通过引用以其全文并入本文。所述ASCII副本创建于2018年2月22日，命名为53407-701.601_SL.txt且大小为34,961字节。

背景技术

随着可广泛使用且不断改进的基因修饰技术的出现，细胞疗法进入了新时代。细胞的基因修饰允许以瞬时或永久方式删除、校正或添加遗传特性。例如，向患者的白细胞中添加嵌合抗原受体已经导致产生个性化的细胞疗法，其在免疫肿瘤学领域中特异性地杀死靶向的肿瘤细胞。几项概念研究的临床证据如今已经显示出这种治疗方法的有希望的结果。这些信息现在可用于创建符合更经典的药物和生物技术药物开发的细胞疗法，以及允许最大程度的患者获取的商业模型，为医疗服务提供者提供治疗选择，并为开发者提供商业价值。这些个性化的临床研究显示了该概念的可行性，但在其可以广泛地用于所有需要的患者之前面临着显著的可扩展性和商业挑战。仍然需要提供途径来将概念研究的证据转化为更广泛可用的系统，以用于更广泛的患者或针对于更广泛的条件。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同具体地和单独地指出每个单个的出版物、专利或专利申请均通过引用而并入。除非另有说明，否则本说明书中提及的出版物，专利和专利申请均通过引用以其全文并入本文。

发明内容

本文提供了用于在插入位点处插入基因组中的基因编辑多位点(GEMS)构建体，其中所述GEMS构建体包含：侧翼插入序列，其中所述侧翼插入序列中的每一个与所述插入位点处的基因组序列同源；以及所述侧翼插入序列之间的GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含指导靶序列和前间区序列邻近基序(PAM)序列，其中在所述GEMS构建体在所述插入位点处插入后，所述指导靶序列与指导多核苷酸结合。

在一些实施方案中，所述GEMS构建体与SEQ ID NO:2或84所示的序列至少95％相同。在一些实施方案中，所述GEMS构建体与所述SEQ ID NO:2或84的序列同一性通过BLASTN计算。在一些实施方案中，所述指导多核苷酸包含指导RNA。在一些实施方案中，所述多个核酸酶识别序列包括至少三个核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列包括至少五个核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列包括至少七个核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列包括至少十个核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列包括多于十个核酸酶识别序列。

在一些实施方案中，所述GEMS构建体包含序列，其中第一核酸酶识别序列指导靶序列的序列在所述第一核酸酶识别序列与所述第二核酸酶识别序列之间不同。在一些实施方案中，所述多个核酸酶识别序列中的每一个包含与所述多个核酸酶识别序列中的另一个不同的序列。在一些实施方案中，所述多个核酸酶识别序列中的所述指导靶序列中的每一个与所述多个核酸酶识别序列中的所述指导靶序列中的另一个不同。在一些实施方案中，所述指导靶序列的长度为约17至约24个核苷酸。在一些实施方案中，所述指导靶序列的长度为20个核苷酸。在一些实施方案中，所述指导靶序列富含GC。在一些实施方案中，所述指导靶序列具有约40％至约80％的G和C核苷酸。在一些实施方案中，所述指导靶序列具有少于40％的G和C核苷酸。在一些实施方案中，所述指导靶序列具有多于80％的G和C核苷酸。在一些实施方案中，所述多个核酸酶识别序列中的至少一个是Cas9核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列中的多个是Cas9核酸酶识别序列。在一些实施方案中，所述指导靶序列富含AT。在一些实施方案中，所述指导靶序列具有约40％至约80％的A和T核苷酸。在一些实施方案中，所述指导靶序列具有少于40％的A和T核苷酸。在一些实施方案中，所述指导靶序列具有多于80％的A和T核苷酸。

在一些实施方案中，所述GEMS构建体中的所述多个核酸酶识别序列中的至少一个是Cpf1核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列中的多个是Cpf1核酸酶识别序列。在一些实施方案中，所述多个核酸酶识别序列中的所述PAM序列中的每一个与所述多个核酸酶识别序列中的所述PAM序列中的另一个不同。在一些实施方案中，所述PAM序列独立地选自：CC、NG、YG、NGG、NAA、NAT、NAG、NAC、NTA、NTT、NTG、NTC、NGA、NGT、NGC、NCA、NCT、NCG、NCC、NRG、TGG、TGA、TCG、TCC、TCT、GGG、GAA、GAC、GTG、GAG、CAG、CAA、CAT、CCA、CCN、CTN、CGT、CGC、TAA、TAC、TAG、TGG、TTG、TCN、CTA、CTG、CTC、TTC、AAA、AAG、AGA、AGC、AAC、AAT、ATA、ATC、ATG、ATT、AWG、AGG、GTG、TTN、YTN、TTTV、TYCV、TATV、NGAN、NGNG、NGAG、NGCG、NGGNG、NGRRT、NGRRN、NNGRRT、NNAAAAN、NNNNGATT、NAAAAC、NNAAAAAW、NNAGAA、NNNNACA、GNNNCNNA、NNNNGATT、NNAGAAW、NNGRR、NNNNNNN、TGGAGAAT、AAAAW、GCAAA和TGAAA。

在一些实施方案中，所述GEMS序列进一步包含多核苷酸间隔区，其中所述多核苷酸间隔区将所述多个核酸酶识别序列中的至少一个与所述多个核酸酶识别序列中的邻近核酸酶识别序列间隔开。在一些实施方案中，所述多核苷酸间隔区的长度为约2至约10,000个核苷酸。在一些实施方案中，所述多核苷酸间隔区的长度为约25至约50个核苷酸。在一些实施方案中，所述多核苷酸间隔区是多个多核苷酸间隔区。在一些实施方案中，所述多个多核苷酸间隔区中的至少一个所述多核苷酸间隔区与所述多个多核苷酸间隔区中的另一个多核苷酸间隔区相同。在一些实施方案中，所述多核苷酸间隔区中的每一个与所述多个多核苷酸间隔区中的另一个不同。在一些实施方案中，所述侧翼插入序列中的至少一个具有至少12个核苷酸的长度。在一些实施方案中，所述侧翼插入序列中的至少一个具有至少18个核苷酸的长度。在一些实施方案中，所述侧翼插入序列中的至少一个具有至少50个核苷酸的长度。在一些实施方案中，所述侧翼插入序列中的至少一个具有至少100个核苷酸的长度。在一些实施方案中，所述侧翼插入序列中的至少一个具有至少500个核苷酸的长度。在一些实施方案中，所述侧翼插入序列包括侧翼插入序列对，并且所述侧翼插入序列对在所述GEMS序列的侧翼。

在一些实施方案中，所述GEMS构建体中的所述侧翼插入序列对中的至少一个侧翼插入序列包括与所述基因组的安全港位点的序列同源的插入序列。在一些实施方案中，所述安全港位点是腺伴随病毒位点1(AAVs1)位点。在一些实施方案中，所述安全港位点包括Rosa26位点。在一些实施方案中，所述安全港位点包括C-C基序受体5(CCR5)位点。在一些实施方案中，第一插入序列的序列不同于所述插入序列对的第二插入序列的序列。在一些实施方案中，所述插入所述基因组中是通过同源重组。在一些实施方案中，所述插入序列对中的至少一个插入序列包括大范围核酸酶识别序列。在一些实施方案中，所述大范围核酸酶识别序列包括I-SceI大范围核酸酶识别序列。

在一些实施方案中，所述GEMS构建体进一步包含报道基因。在一些实施方案中，所述报道基因编码荧光蛋白。在一些实施方案中，所述荧光蛋白是绿色荧光蛋白(GFP)。在一些实施方案中，所述报道基因受诱导型启动子调节。在一些实施方案中，所述诱导型启动子由诱导物诱导。在一些实施方案中，所述诱导物是多西环素、异丙基-β-硫代半乳吡喃糖苷(IPTG)、半乳糖、二价阳离子、乳糖、阿拉伯糖、木糖、N-酰基高丝氨酸内酯、四环素、类固醇、金属或醇。在一些实施方案中，所述诱导物是热或光。

本文提供了包含如本文提供的GEMS构建体的宿主细胞。在一些实施方案中，所述宿主细胞是真核细胞。在一些实施方案中，所述宿主细胞是哺乳动物细胞。在一些实施方案中，所述哺乳动物细胞是人细胞。在一些实施方案中，所述宿主细胞是干细胞。所述干细胞独立地选自成体干细胞、体干细胞、非胚胎干细胞、胚胎干细胞、造血干细胞、多能干细胞和滋养层干细胞。在一些实施方案中，所述滋养层干细胞是哺乳动物滋养层干细胞。在一些实施方案中，所述哺乳动物滋养层干细胞是人滋养层干细胞。在一些实施方案中，所述宿主细胞是非干细胞。在一些实施方案中，所述宿主细胞是T细胞。在一些实施方案中，所述T细胞独立地选自αβT细胞、NK T细胞、γδT细胞、调节T细胞、T辅助细胞和细胞毒性T细胞。

本文提供了制造如本文提供的宿主细胞的方法，其中所述方法包括将如本文提供的所述GEMS构建体引入细胞中。

本文提供了制造宿主细胞的方法，其包括：在插入位点处将用于插入基因组中的基因编辑多位点(GEMS)构建体引入细胞，其中所述GEMS构建体包含(i)侧翼插入序列，其中所述侧翼插入序列中的每一个与所述插入位点处的基因组序列同源；和(ii)所述侧翼插入序列之间的GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含指导靶序列和前间区序列邻近基序(PAM)序列，其中在所述GEMS构建体在所述插入位点处插入后，所述指导靶序列与指导多核苷酸结合。

在一些实施方案中，制造所述宿主细胞的方法进一步包括向所述细胞中引入用于介导所述GEMS构建体整合到所述基因组中的核酸酶。在一些实施方案中，所述核酸酶在与所述指导多核苷酸结合时识别所述多个核酸酶识别序列的所述核酸酶识别序列。在一些实施方案中，所述核酸酶是内切核酸酶。在一些实施方案中，所述内切核酸酶包括大范围核酸酶，其中所述侧翼插入序列中的至少一个包括所述大范围核酸酶的共有序列。在一些实施方案中，所述大范围核酸酶是I-SceI。在一些实施方案中，所述核酸酶包括CRISPR相关核酸酶。

在一些实施方案中，制造所述宿主细胞的方法进一步包括向所述细胞中引入用于介导所述GEMS构建体整合到所述基因组中的指导多核苷酸。在一些实施方案中，所述指导多核苷酸是指导RNA。在一些实施方案中，所述指导RNA识别所述插入位点处的所述基因组的序列。在一些实施方案中，所述插入位点在基因组的安全港位点处。在一些实施方案中，所述安全港位点包括AAVs1位点。在一些实施方案中，所述安全港位点是Rosa26位点。在一些实施方案中，所述安全港位点是C-C基序受体5(CCR5)位点。在一些实施方案中，所述GEMS构建体整合在所述插入位点处。

在一些实施方案中，制造所述宿主细胞的方法进一步包括将供体核酸序列引入所述宿主细胞中，以便在所述核酸酶识别序列处插入所述GEMS构建体中。在一些实施方案中，所述供体核酸序列整合在所述核酸酶识别序列处。在一些实施方案中，所述供体核酸序列编码治疗性蛋白。在一些实施方案中，所述治疗性蛋白包括嵌合抗原受体(CAR)。在一些实施方案中，所述CAR是CD19 CAR或其部分。在一些实施方案中，所述治疗性蛋白包括多巴胺或其部分。在一些实施方案中，所述治疗性蛋白包括胰岛素、胰岛素原或其部分。

在一些实施方案中，制造所述宿主细胞的方法进一步包括向所述宿主细胞中引入(i)第二指导多核苷酸，其中所述指导多核苷酸识别所述多个核酸酶识别序列中的第二核酸酶识别序列；(ii)第二核酸酶，其中所述第二核酸酶在与所述第二指导多核苷酸结合时识别所述第二核酸酶识别序列；以及(iii)第二供体核酸序列，用于整合在所述第二核酸酶识别序列处。在一些实施方案中，所述方法进一步包括使所述宿主细胞繁殖。

本文提供了使基因组工程化以接收供体核酸序列的方法：向如本文所述的宿主细胞中引入：(i)识别所述指导靶序列的指导多核苷酸；(ii)在与所述指导多核苷酸结合时识别所述多个核酸酶识别序列的核酸酶识别序列的核酸酶；以及(iii)用于在所述核酸酶识别序列处整合到所述GEMS构建体中的供体核酸序列。在一些实施方案中，所述核酸酶在与所述指导多核苷酸结合时切割所述GEMS序列，以在所述GEMS序列中形成双链断裂。在一些实施方案中，所述供体核酸序列在所述双链断裂处整合到所述GEMS序列中。在一些实施方案中，所述供体核酸序列编码治疗性蛋白。在一些实施方案中，所述治疗性蛋白包括嵌合抗原受体(CAR)、T细胞受体(TCR)、B细胞受体(BCR)、αβ受体或γδT-受体。在一些实施方案中，所述CAR是CD19 CAR或其部分。在一些实施方案中，所述治疗性蛋白包括多巴胺或其部分。在一些实施方案中，所述治疗性蛋白包括胰岛素、胰岛素原或其部分。

在一些实施方案中，使基因组工程化的方法进一步包括向如本文所述宿主细胞中引入(i)第二指导多核苷酸，其中所述第二指导多核苷酸识别所述多个核酸酶识别序列中的第二核酸酶识别序列；(ii)第二核酸酶，其中所述第二核酸酶在与所述第二指导多核苷酸结合时识别所述第二核酸酶识别序列；以及(iii)第二供体核酸序列，用于整合在所述第二核酸酶识别序列内。在一些实施方案中，所述宿主细胞是真核细胞。在一些实施方案中，所述宿主细胞是干细胞。

在一些实施方案中，使基因组工程化的方法进一步包括使所述干细胞分化成T细胞。在一些实施方案中，所述T细胞独立地选自αβT细胞、NK T细胞、γδT细胞、调节T细胞、T辅助细胞和细胞毒性T细胞。在一些实施方案中，所述分化发生在所述将所述指导多核苷酸和所述核酸酶引入所述宿主细胞之前。在一些实施方案中，所述分化发生在所述将所述指导多核苷酸和所述核酸酶引入所述宿主细胞之后。在一些实施方案中，所述插入位点在所述基因组的安全港位点内。在一些实施方案中，所述安全港位点包括AAVs1位点。在一些实施方案中，所述安全港位点是Rosa26位点。在一些实施方案中，所述安全港位点是C-C基序受体5(CCR5)位点。

在一些实施方案中，使基因组工程化的方法包括PAM序列，其独立地选自：CC、NG、YG、NGG、NAA、NAT、NAG、NAC、NTA、NTT、NTG、NTC、NGA、NGT、NGC、NCA、NCT、NCG、NCC、NRG、TGG、TGA、TCG、TCC、TCT、GGG、GAA、GAC、GTG、GAG、CAG、CAA、CAT、CCA、CCN、CTN、CGT、CGC、TAA、TAC、TAG、TGG、TTG、TCN、CTA、CTG、CTC、TTC、AAA、AAG、AGA、AGC、AAC、AAT、ATA、ATC、ATG、ATT、AWG、AGG、GTG、TTN、YTN、TTTV、TYCV、TATV、NGAN、NGNG、NGAG、NGCG、NGGNG、NGRRT、NGRRN、NNGRRT、NNAAAAN、NNNNGATT、NAAAAC、NNAAAAAW、NNAGAA、NNNNACA、GNNNCNNA、NNNNGATT、NNAGAAW、NNGRR、NNNNNNN、TGGAGAAT、AAAAW、GCAAA和TGAAA。

在一些实施方案中，使基因组工程化的方法包括核酸酶。在一些实施方案中，所述核酸酶是CRISPR相关核酸酶。在一些实施方案中，所述CRISPR相关核酸酶是Cas9酶。在一些实施方案中，所述核酸酶是Cpf1酶。在一些实施方案中，所述整合不需要所述PAM序列。在一些实施方案中，所述核酸酶是Argonaute酶。在一些实施方案中，所述方法用于治疗疾病。例如，所述疾病可以是自身免疫病、癌症、糖尿病或帕金森病。在一些实施方案中，本文公开了通过本文所述的任何方法产生的宿主细胞。

附图说明

本公开内容的特征在所附权利要求书中具体阐述。通过参考对在其中利用到本公开内容原理的说明性实施方案加以阐述的以下详细描述和附图，将会获得对本公开内容的特征和优点的更好理解，在附图中：

图1示出了基因编辑多位点(GEMS)的图示，在GEMS的5'和3'的侧翼为CRISPR位点。所示的GEMS包括前间区序列邻近基序(PAM)，其与作为指导RNA的一部分的不同crRNA相容。

图2A示出了GEMS构建体的不同实施方案的表示。GEMS具有多种不同的crRNA序列，其与固定的Cas9核酸酶组合。图2B示出了GEMS构建体的不同实施方案的表示。GEMS具有不同的形状表示的多个不同的PAM序列，其与固定的crRNA序列组合。

图3示出了GEMS构建体的不同实施方案的表示。GEMS具有多个不同的PAM序列，但每个PAM序列作为一对提供，各自在不同的方向上定向。在实施方案中，该对中的第一个PAM序列以5'至3'方向定向，并且该对中的第二个PAM序列以3'至5'方向定向。

图4示出了来自GEMS构建体的单编辑位点的表示。染色体中的靶基因座包括约17-24个碱基的靶序列，其侧翼为PAM序列。具有与PAM序列互补的PAM识别位点的指导RNA(gRNA)可以与靶序列和PAM序列比对，然后募集Cas9酶。

图5示出了来自GEMS构建体的双重编辑位点的表示。染色体中的靶基因座包括约17-24个碱基的两个靶序列，其在染色体有义链和反义链上的侧翼分别是PAM序列。具有与PAM序列互补的PAM识别位点的指导RNA(gRNA)可以与靶序列和PAM序列比对，然后募集Cas9酶。

图6示出了示例性GEMS构建体的表示。GEMS的上游和下游的侧翼是插入位点，其中构建体将插入细胞的染色体中。

图7示出了示例性GEMS构建体的表示，其具有Tet-诱导型绿色荧光蛋白(GFP)标签以证实GEMS插入细胞的染色体中。

图8示出了示例性GEMS构建体的图示，其具有插入到靶序列之一的Tet-诱导型绿色荧光蛋白(GFP)标签。

图9示出了该实施方案中GEMS设计的实例，GEMS包含3个区域，每个区域允许使用不同的方法进行基因编辑。区域1，使用可变crRNA序列组合固定的PAM进行CRISPR编辑。区域2，使用可变PAM组合固定的crRNA序列进行CRISPR编辑。区域3，ZNF/TALEN编辑区。

图10A示出了五个示例性编辑载体，每个载体允许编辑GEMS上的特定位点。图10B是能够如何编辑GEMS以表达或分泌治疗性蛋白的示意图。在该实施方案中，指导RNA和Cas9在与供体核酸序列不同的载体中递送。

图11示出了构建体在干细胞中的潜在用途，其中GEMS构建体可以在分化之前或之后引入到干细胞中。

图12示出了使用GEMS构建体以期望的方式改变细胞表型的图示。如图所示，基因“Y”被插入到被分化成细胞毒性谱系的细胞中，其中分化的细胞表达编码的蛋白质并被克隆扩充。

图13是开发使用GEMS修饰的细胞表达供体DNA的基因编辑细胞的示例性过程的示意图。

图14是surveyor核酸酶测定的示意图，该测定是用于检测单碱基错配或者小插入或缺失(插入缺失)的酶错配切割测定。Surveyor核酸酶识别所有碱基置换和插入/缺失，并以高特异性切割两条DNA链中的错配位点。

图15是GEMS构建体转染到HEK293T细胞中的AAVs1位点的效率。用GFP质粒(绿色荧光)转染HEK203细胞以评估转染效率和转染后细胞的活力。将两种不同量的GEMS供体质粒(表达gRNA和Cas9mRNA的质粒)以及两种不同对照的组合转染到HEK293T细胞中。在转染后24小时通过荧光显微镜使转染细胞中GFP的表达可视化，并对细胞活力进行计数。通过两种条件产生具有39％-56％的细胞活力的高GFP阳性百分比的细胞，这表明成功转染。

图16A是surveyor核酸酶测定的示意图，该测定是用于检测单碱基错配或者小插入或缺失(插入缺失)的酶错配切割测定。Surveyor核酸识别所有碱基置换和插入/缺失，并以高特异性切割两条DNA链中的错配位点。图16B示出了转染的HEK293T细胞中在AAVs1位点处CRISPR/Cas9的切割效率。DNA条带强度的定量显示条件1和条件2的切割效率分别为24％和15％，这是CRISPR/Cas9活性的一般预期。

图17示出了在嘌呤霉素选择后富集的GFP阳性HEK293T细胞的流式细胞术分析。在转染后16天，通过流式细胞术分选细胞中的GFP阳性细胞。在条件1和条件2中，约30％-40％的细胞群是GFP阳性的。

图18A是PCR产物的凝胶电泳，示出了插入HEK293T细胞基因组中的GEMS序列。图18B示出了插入的GEM序列的PCR产物的测序。图18C示出了插入的GEMS盒和AAVs1位点的5'和3'连接位点的PCR产物的凝胶电泳。图18D示出了3'连接位点的PCR产物的测序。示出了AAV1位点和5'同源臂之间(上图)以及5'同源臂和GEMS靶向盒之间(下图)的正确连接。

图19A是PCR产物的凝胶电泳，示出了插入到单克隆GEMS修饰的HEK293T细胞系(9B1)的基因组中的GEMS序列的存在。图19B是凝胶电泳，示出了单克隆GEMS修饰的HEK293T细胞系(9B1)中的插入的GEMS盒和AAVs1位点的5'连接位点的PCR产物。图19C是凝胶电泳，示出了单克隆GEMS修饰的HEK293T细胞系(9B1)中的插入的GEMS盒和AAVs1位点的3'连接位点的PCR产物。图19D示出了来自单克隆GEMS修饰的HEK293T细胞系(9B1)的插入的GEM序列的PCR产物的测序。图19E示出了来自单克隆GEMS修饰的HEK293T细胞系(9B1)的插入的GEMS盒和AAVs1位点的5'连接位点的测序。示出了AAV1位点和5'同源臂之间(上图)以及5'同源臂和GEMS靶向盒之间(下图)的正确连接。图19F示出了来自单克隆GEMS修饰的HEK293T细胞系(9B1)的插入的GEMS盒和AAVs1位点的3'连接位点的测序。示出了GEMS靶向盒和3'同源臂之间(上图)以及3'同源臂和AAVs1位点之间(下图)的正确连接。

图20示出了体外核酸酶测定中设计的sgRNA的切割效率。在体外测定中测试了九种设计的sgRNA切割GEMS序列的能力。九种sgRNA中有七种切割了GEMS构建体。七种sgRNA中的五种具有10％至25％(优选范围)的切割效率。七种中的两种显示效率低于10％，并且两种未切割。

图21A示出了通过用Alexa Fluor 594缀合的山羊抗人IgG F(ab')2片段抗体对汇集的杀稻瘟素抗性细胞进行免疫染色来检测CD19 CAR分子的抗CD19 scFv部分的CD19 CAR表达细胞的阳性染色。图21B是PCR产物的凝胶电泳，示出了插入嘌呤霉素抗性GEMS修饰的HEK293T细胞的细胞基因组中的CD19 CAR序列。

图22示出了GEMS构建体在NK92细胞中的转染效率。用GFP质粒(绿色荧光)转染NK92细胞以评估转染效率和转染后细胞的活力。建立了最优条件，并产生60％-70％的转染效率，保持65％的活力。

图23示出了用GEMS-嘌呤霉素构建体转染的NK92细胞的嘌呤霉素敏感性。用包含GEMS和嘌呤霉素抗性基因的GEMS-嘌呤霉素构建体转染NK92细胞。在含有嘌呤霉素的培养基(0；0.5；1.0；2.0；2.5；5；和10ug/ml)中培养NK92细胞。NK92显示在含有2.0ug/ml或更多嘌呤霉素的培养物中不存在细胞活力。VCD：活细胞密度。

图24A是PCR产物的凝胶电泳，示出了插入到汇集的GFP阳性NK92细胞的基因组中的GEMS序列的存在。图24B示出了来自汇集的GFP阳性NK92细胞的插入的GEM序列的PCR产物的测序。图24C是凝胶电泳，示出了在汇集的GFP阳性NK92细胞中插入的GEMS盒和AAVs1位点的5'连接位点的PCR产物。图24D示出了来自汇集的GFP阳性NK92细胞的插入的GEMS盒和AAVs1位点的5'连接位点的测序。示出了AAV1位点和5'同源臂之间(上图)以及5'同源臂和GEMS靶向盒之间(下图)的正确连接。

图25示出了具有多基因编辑位点的示例性GEMS序列。

具体实施方式

以下描述和实例详细阐述了本公开内容的实施方案。应当理解，本公开内容不限于本文所述的特定实施方案，因此可以有所变化。本领域技术人员将意识到，本公开内容存在许多变化和修改，这些变化和修改均包含在本公开内容的范围内。

所有术语旨在理解为本领域技术人员将理解的含义。除非另有定义，否则本文使用的所有技术和科学术语均具有与本公开内容所属领域的普通技术人员通常所理解的含义相同的含义。

本文使用的章节标题仅用于组织的目的，而不解释为限制所描述的主题。

尽管可以在单个实施方案的上下文中描述本公开内容的各种特征，但是这些特征也可以单独提供或以任何合适的组合提供。相反，尽管为了清楚起见，本文可以在单独实施方案的上下文中描述本公开内容，但是本公开内容也可以在单个实施方案中实现。

以下定义是对本领域定义的补充，并且针对于本申请，并且不应归于任何相关或不相关的情况，例如，归于任何共同拥有的专利或申请。尽管任何与本文描述的那些相似或等同的方法和材料也可用于测试公开内容的实践，但是本文描述了优选的材料和方法。因此，本文所用的术语仅仅是为了描述具体实施方案的目的，而并非旨在限制。

定义

在本申请中，除非另有特别说明，否则单数的使用包括复数。应当注意，如在说明书中所使用的，除非上下文另外明确指出，否则单数形式“一个”、“一种”和“该”包括复数指代物。

除非另有说明，否则“或”的使用意指“和/或”。如本文所用，术语“和/或”和“其任意组合”及其语法等同项可互换使用。这些术语可表达任何组合均被具体考虑到。仅为了说明目的，以下短语“A、B和/或C”或“A、B、C或其任意组合”可意指“单独A；单独B；单独C；A和B；B和C；A和C；以及A、B和C”。除非上下文具体提及反义连接使用，否则术语“或”可以连接地或反义连接地使用。

此外，术语“包括(including)”以及其他形式(诸如“包括(include)”、“包括(includes)”和“包括(included)”的使用是非限制性的。

说明书中对“一些实施方案”、“实施方案”、“一个实施方案”或“其他实施方案”的提及意指结合实施方案描述的特定特征、结构或特性包括在至少一些实施方案中，但不必要包括在本公开内容的所有的实施方案内。

如在本说明书和权利要求中所使用的，词语“包含(comprising)”(和包含的任何形式，如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(和具有的任何形式，如“具有(have)”和“具有(has)”)、“包括(including)”(和包括的任何形式，如“包括(includes)”和“包括(include)”)或“含有(containing)”(和含有的任何形式，如“含有(contains)”和“含有(contain)”)是包含或开放式的，并且不排除另外的未列举的元素或方法步骤。考虑本说明书中讨论的任何实施方案可以关于本公开内容的任何方法或组合物实施，反之亦然。此外，本公开内容的组合物可用于实现本公开内容的方法。

如本文所用，关于参考数值的术语“约”及其语法等同项可包括该数值自身和该数值正或负10％的值的范围。

术语“约”或“大约”意指在本领域普通技术人员确定的特定值的可接受误差范围内，这将部分地取决于该值如何测量或确定，即测量系统的局限性。例如，根据本领域的实践，“约”可以意指在1个标准偏差内或者大于1个标准偏差。或者，“约”可以意指给定值的至多20％、至多10％、至多5％或至多1％的范围。在另一实例中，量“约10”包括10和从9到11的任何量。在又一实例中，关于参考数值的术语“约”还可包括该数值正或负10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的值的范围。或者，特别是对于生物系统或过程而言，术语“约”可以意指在数值的数量级以内，优选在数值的5倍以内，并且更优选在数值的2倍以内。在本申请和权利要求书中描述了特定值的情况下，除非另有说明，否则应当假定术语“约”意指在该特定值的可接受误差范围内。

术语“多基因编辑位点”和“基因编辑多位点(GEMS)”在本文中可互换使用。GEMS构建体可包含初级内切核酸酶识别位点和多基因编辑位点或基因编辑多位点。在一些实施方案中，一个或多个初级内切核酸酶识别位点位于多基因编辑位点的上游，并且一个或多个初级内切核酸酶识别位点位于多基因编辑位点的下游(图1、图2A-图2B和图3)。GEMS构建体可包含侧翼插入序列，其中所述侧翼插入序列中的每一个与所述插入位点处的基因组序列同源；以及邻近于所述侧翼插入序列的GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含指导靶序列和前间区序列邻近基序(PAM)序列，其中所述GEMS构建体在所述插入位点处插入后，所述指导靶序列与指导多核苷酸结合。在实施方案中，GEMS构建体可进一步包含多核苷酸间隔区，其将至少一个核酸酶识别序列与邻近的核酸酶识别序列间隔开。在一些实施方案中，GEMS构建体包含位于GEMS序列侧翼的一对同源臂。在一些实施方案中，该对同源臂的至少一个同源臂包含与宿主细胞基因组的安全港位点的序列同源的同源臂序列。在实施方案中，多个核酸酶识别序列是多个编辑位点(例如，多个PAM)，其各自包含次级内切核酸酶识别位点。多基因编辑位点上游和下游的初级内切核酸酶识别位点(例如，插入位点)便于将GEMS插入到宿主细胞的基因组中。因此，GEMS构建体可用于例如转染宿主细胞，并且一旦存在于宿主细胞中，上游和下游初级内切核酸酶识别位点便于将多基因编辑位点插入到染色体中。一旦将多基因编辑位点插入到染色体中，可以用插入到多基因编辑位点的一个或多个编辑位点中的供体核酸序列或供体基因或其部分进一步修饰宿主细胞。在一些实施方案中，将多基因编辑位点插入到染色体中是稳定整合到染色体中。

术语“侧翼插入序列”是指与插入位点处的基因组序列同源的核苷酸序列；其中邻近于侧翼插入序列的GEMS序列插入到插入位点处。侧翼插入序列可包含一对侧翼插入序列，并且所述侧翼插入序列对在所述GEMS序列的侧翼。在一些情况下，所述侧翼插入序列对的至少一个侧翼插入序列可包含与所述基因组的安全港位点(例如，AAV1、Rosa26、CCR5)的序列同源的插入序列。在一些情况下，侧翼插入序列被大范围核酸酶、锌指核酸酶、TALEN、CRISPR/Cas9、CRISPR/Cpf1和/或Argonaut识别。

术语“宿主细胞”是指包含一个或多个GEMS构建体并能够将一个或多个GEMS构建体整合到其基因组中的细胞。本文提供的GEMS构建体可以插入到任何合适的宿主细胞中。在一些情况下，GEMS构建体整合到安全港位点(例如，Rosa26、AAVS1、CCR5)中。在一些情况下，宿主细胞是干细胞。宿主细胞可以是原核或真核细胞。可以根据本领域适合的任何技术进行构建体的插入。例如，可以使用转染、脂质转染或临时膜破裂如电穿孔或变形来将构建体插入到宿主细胞中。在一些方面，病毒载体或非病毒载体可用于递送构建体。在实施方案中，宿主细胞可以是本文所述的任何内切核酸酶的感受态细胞。对内切核酸酶的感受态允许将多基因编辑位点整合到宿主细胞基因组中。宿主细胞可以是原代分离物，从受试者获得并且根据需要任选地进行修饰以使细胞是任何所需的内切核酸酶的感受态细胞。在一些方面，宿主细胞是细胞系。在一些方面，宿主细胞是原代分离物或其后代。在一些方面，宿主细胞是干细胞。干细胞可以是胚胎干细胞、非胚胎干细胞或成体干细胞。干细胞优选是多能的，并且尚未分化或开始分化过程。在一些方面，宿主细胞是完全分化的细胞。当用GEMS构建体转染的宿主细胞分裂时，构建体的多基因编辑位点可以与宿主细胞基因组整合，使得宿主细胞的后代可以携带多基因编辑位点。可以培养和扩充包含整合的多基因编辑位点的宿主细胞，以增加可用于接受供体基因序列的细胞的数目。稳定的整合确保后续几代细胞可具有多基因编辑位点。

术语“供体核酸序列”、“供体基因”或“感兴趣的供体基因”是指在多基因编辑位点处插入到宿主细胞基因组中的核酸序列或基因。供体核酸序列可以是DNA。供体核酸序列可在插入到宿主细胞的另外的质粒或其他合适的载体上提供。可使用转染、脂质转染或临时膜破裂如电穿孔或变形将包含供体核酸序列的载体插入到宿主细胞中。供体核酸序列可以是外源基因或其部分，包括工程化基因。供体核酸序列可编码用户期望宿主细胞表达的任何蛋白质或其部分。供体核酸序列(包括基因)可进一步包含可用于确认表达的报道基因。报道基因的表达产物可以是基本上惰性的，使得其与感兴趣的供体基因一起表达不会干扰供体基因表达产物的预期活性，或以其他方式干扰细胞中的其他天然过程，或以其他方式引起细胞中的有害作用。供体核酸序列还可包含允许供体基因受控表达的调节元件。例如，供体核酸序列可包含阻抑蛋白操纵子或诱导型操纵子。因此，供体核酸序列的表达可以在调节控制下，使得基因仅在受控条件下表达。在一些方面，供体核酸序列不包含调节元件，使得供体基因有效地组成型表达。在一些实施方案中，编码的供体核酸序列是四环素(Tet)诱导型启动子下的绿色荧光蛋白(GFP)(SEQ ID NO:12)(图7-图8)。

在一些实施方案中，供体核酸编码CAR构建体(例如，CD19 CAR)。在一些实施方案中，供体核苷酸序列包含SEQ ID NO:20的核苷酸序列。在一些实施方案中，供体核苷酸序列包含SEQ ID NO:21的核苷酸序列。在一些实施方案中，供体核苷酸序列包含SEQ ID NO:22的核苷酸序列。在一些实施方案中，供体核苷酸序列包含SEQ ID NO:23的核苷酸序列。在一些实施方案中，供体核酸序列包含与SEQ ID NO:20的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，供体核酸序列包含与SEQID NO:21的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，供体核酸序列包含与SEQ ID NO:22的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，供体核酸序列包含与SEQID NO:23的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

如本文所用的术语“分离”及其语法等同项是指将核酸从其天然环境移取。如本文所用的术语“纯化”及其语法等同项是指从自然移取的(包括基因组DNA和mRNA)或合成的(包括cDNA)，以及/或者在实验室条件下扩增的分子或组合物的纯度增加，其中“纯度”是相对术语，而不是“绝对纯度”。然而，应当理解，核酸和蛋白质可以与稀释剂或佐剂一起配制，但是对于实践目的仍然是分离的。例如，当用于引入细胞时，核酸通常与可接受的载体或稀释剂混合。如本文所用的术语“基本上纯的”及其语法等同项是指核酸序列、多肽、蛋白质或其他化合物基本上不含，即大于约50％不含、大于约70％不含、大于约90％不含该核酸、多肽、蛋白质或其他化合物与之天然相关的多核苷酸、蛋白质、多肽和其他分子。

如本文所用的“多核苷酸”、“寡核苷酸”、“核酸”、“核苷酸”、“多核酸”或任何语法等同项是指任何长度的核苷酸或核酸的聚合形式，无论是核糖核苷酸还是脱氧核糖核苷酸。该术语仅指分子的一级结构。因此，该术语包括双链和单链DNA、三链DNA以及双链和单链RNA。其还包括例如通过甲基化和/或通过加帽的修饰形式，以及多核苷酸的未修饰形式。该术语还意味着包括包含非天然存在的或合成的核苷酸以及核苷酸类似物的分子。可以通过例如转染、转化或转导将本文公开或考虑的核酸序列和载体引入到细胞中。

如本文所用的“转染”、“转化”或“转导”是指通过使用物理或化学方法将一种或多种外源多核苷酸引入到宿主细胞中。许多转染技术是本领域已知的，包括例如磷酸钙DNA共沉淀(参见，例如，Murray E.J.编著,Methods in Molecular Biology,第7卷,GeneTransfer and Expression Protocols,Humana Press(1991))；DEAE-葡聚糖；电穿孔；阳离子脂质体介导的转染；钨粒促进的微粒轰击(Johnston,Nature,346:776-777(1990))；和磷酸锶DNA共沉淀(Brash等人，Mol.Cell Biol.,7:2031-2034(1987))。在合适的包装细胞(其中许多可商购获得)中生长感染性颗粒后，可将噬菌体、病毒或非病毒载体引入到宿主细胞中。在一些实施方案中，脂质转染、核转染或临时膜破裂(例如，电穿孔或变形)可用于将一种或多种外源多核苷酸引入到宿主细胞中。

“安全港”区域或“安全港”位点是染色体的一部分，其中一个或多个供体基因(包括转基因)可以以基本上可预测的表达和功能进行整合，但不会对宿主细胞或生物体产生不利影响，包括但不限于，不扰乱内源基因活性或者促进癌症或其他有害病症。参见Sadelain等人(2012)Nat.Rev.Cancer 12:51-58。在实施方案中，安全港位点是腺伴随病毒位点1(AAVS1)，其为AAV病毒在染色体19上自然存在的整合位点。在实施方案中，安全港位点是趋化因子(C-C基序)受体5(CCR5)基因，是称为HIV-1共同受体的趋化因子受体基因。在实施方案中，安全港位点是小鼠Rosa26基因座的人直向同源物，小鼠Rosa26基因座是在用于插入遍在表达的转基因的鼠环境中广泛验证的基因座。举例而言，在人类中，在染色体19上存在安全港基因座(PPP1R12C)，其被称为AAVS1。在小鼠中，Rosa26基因座被称为安全港基因座。人AAVS1位点特别适用于在胚胎干细胞中接受转基因和用于多能干细胞。

如本文所用的“多肽”、“肽”及其语法等同项是指氨基酸残基的聚合物。“成熟蛋白质”是全长的蛋白质，其任选地在给定细胞环境中包括对蛋白质典型的糖基化或其他修饰。本文公开的多肽和蛋白质(包括其功能部分和功能变体)可包含代替一种或多种天然存在的氨基酸的合成氨基酸。此类合成氨基酸是本领域已知的，包括例如氨基环己烷羧酸、正亮氨酸、α-氨基正癸酸、高丝氨酸、S-乙酰氨基甲基-半胱氨酸、反式-3-羟基脯氨酸和反式-4-羟基脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯基丝氨酸、β-羟基苯丙氨酸、苯基甘氨酸、α-萘基丙氨酸、环己基丙氨酸、环己基甘氨酸、二氢吲哚-2-羧酸、1,2,3,4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸单酰胺、N'-苄基-N'-甲基-赖氨酸、N’,N’-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。本公开内容进一步考虑本文所述的多肽在工程化的细胞中的表达可与多肽构建体的一个或多个氨基酸的翻译后修饰相关。翻译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N连接和O连接的)、酰胺化、羟基化、烷基化(包括甲基化和乙基化)、遍在蛋白化、吡咯烷酮羧酸加成、形成二硫桥、硫酸化、豆蔻酰化、棕榈酰化、异戊二烯化、法尼基化(famesylation)、香叶基化(geranylation)、糖基磷脂酰肌醇化、脂化和碘化。

当核酸和/或核酸序列天然地或人工地衍生自共同的祖先核酸或核酸序列时，它们是“同源的”。当蛋白质和/或蛋白质序列的编码DNA天然地或人工地衍生自共同的祖先核酸或核酸序列衍生时，它们是“同源的”。同源分子可称为同源物。例如，如本文所述的任何天然存在的蛋白质可以通过任何可用的诱变方法进行修饰。该诱变的核酸在表达时编码与原始核酸编码的蛋白质同源的多肽。通常从两种或更多种核酸或蛋白质(或其序列)之间的序列同一性推断同源性。对于建立同源性有用的序列之间的同一性的精确百分比随所讨论的核酸和蛋白质而变化，但是通常使用至少25％的序列同一性来建立同源性。更高水平的序列同一性，例如30％、40％、50％、60％、70％、80％、90％、95％或99％或更高也可用于建立同源性。用于确定序列同一性百分比的方法(例如，使用默认参数的BLASTP和BLASTN)描述于本文并且是一般可用的。

如本文所用的术语“相同”及其语法等同项或在两个核酸序列或多肽的氨基酸序列的上下文中的“序列同一性”是指两个序列中的残基在指定的比较窗口进行比对以获得最大对应性时相同。如本文所用，“比较窗口”是指至少约20个连续位置，通常为约50至约200个，更通常为约100至约150个连续位置的区段，其中可以在两个序列最佳比对后将序列与相同数目的连续位置的参考序列进行比较。用于比较的序列的比对方法是本领域公知的。用于比较的序列的最佳比对可以通过以下方法进行：Smith和Waterman,Adv.Appl.Math.,2:482(1981)的局部同源性算法；Needleman和Wunsch,J.Mol.Biol.,48:443(1970)的比对算法；Pearson和Lipman,Proc.Nat.Acad.Sci U.S.A.,85:2444(1988)的相似方法搜索；这些算法的计算机实现(包括但不限于PC/Gene程序中的CLUSTAL，Intelligentics,Mountain View Calif.；Wisconsin遗传软件包中的GAP、BESTFIT、BLAST、FASTA和TFASTA，Genetics Computer Group(GCG),575Science Dr.,Madison,Wis.,U.S.A.)；CLUSTAL程序详细描述于Higgins和Sharp,Gene,73:237-244(1988)以及Higgins和Sharp,CABIOS,5:151-153(1989)；Corpet等人，Nucleic Acids Res.,16:10881-10890(1988)；Huang等人，Computer Applications in the Biosciences,8:155-165(1992)；以及Pearson等人Methods in Molecular Biology,24:307-331(1994)。通常还通过检查和手动比对来执行比对。在一类实施方案中，本文的多肽与参考多肽或其片段至少80％、85％、90％、98％、99％或100％相同，如通过BLASTP(或CLUSTAL。或任何其他可用的比对软件)使用默认参数所测量的。类似地，核酸还可以参考起始核酸来描述，例如，它们可以与参考核酸或其片段50％、60％、70％、75％、80％、85％、90％、98％、99％或100％相同，例如，如通过BLASTN(或CLUSTAL，或任何其他可用的比对软件)使用默认参数所测量的。当一个分子据称与较大分子具有一定百分比的序列同一性时，意味着当两个分子最佳比对时，较小分子中所述百分比的残基根据两个分子最佳比对的顺序在较大分子中找到匹配残基。

当应用于核酸或氨基酸序列时，术语“基本上相同”及其语法等同项意指使用上述程序(例如BLAST)使用标准参数，核酸或氨基酸序列包含与参考序列相比具有至少90％序列同一性或更高、至少95％，至少98％和至少99％序列同一性的序列。例如，BLASTN程序(对于核苷酸序列)使用字长(W)为11，期望值(E)为10，M＝5，N＝-4，以及两条链的比较作为默认值。对于氨基酸序列，BLASTP程序使用字长(W)为3，期望值(E)为10和BLOSUM62评分矩阵(参见Henikoff和Henikoff,Proc.Natl.Acad.Sci.USA 89:10915(1992))作为默认值。通过在比较窗口上比较两个最佳比对的序列来确定序列同一性的百分比，其中比较窗口中的多核苷酸序列的部分与用于两个序列最佳比对的参考序列(不包含添加或缺失)相比可包含添加或缺失(即，缺口)。通过确定在两个序列中均有出现的相同核酸碱基或氨基酸残基的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗口中的位置总数目并将结果乘以100来计算百分比，从而得到序列同一性的百分比。在实施方案中，在至少约100个残基的区域上，在长度为至少约50个残基的序列区域上存在较大同一性，并且在实施方案中，序列在至少约150个残基上基本相同。在实施方案中，序列在编码区的整个长度上基本相同。

“CD19”、分化簇19或B-淋巴细胞抗原CD19是人类中由CD19基因编码的蛋白质。CD19基因编码与B淋巴细胞的抗原受体组装的细胞表面分子，以降低抗原受体依赖性刺激的阈值。CD19在小结树突细胞和B细胞上表达。事实上，其从发育过程中最早可识别的B系细胞到B细胞母细胞期间存在于B细胞上，但在成熟为浆细胞时丢失。其主要结合CD21和CD81作为B细胞共受体。激活后，CD19的细胞质尾部被磷酸化，这导致Src家族激酶的结合和PI-3激酶的募集。与T细胞相同，几种表面分子形成抗原受体并在B淋巴细胞上形成复合体。(几乎是)B细胞特异性的CD19磷酸糖蛋白是这些分子中的一种。其他是CD21和CD81。这些表面免疫球蛋白(sIg)相关分子促进信号转导。在B细胞上，模拟外源抗原的抗免疫球蛋白抗体导致CD19与sIg结合并与其内在化。尚未证明有逆向过程，表明该受体复合体的形成是抗原诱导的。这种分子关联已经通过化学研究得到证实。

“表达载体”或“载体”是表现为细胞内多核苷酸复制的自主单元(即能够在其自身控制下复制)，或者通过插入到宿主细胞染色体与其另一个多核苷酸区段连接从而实现附接区段的复制和/或表达而能够进行复制的任何遗传元件，例如质粒、染色体、病毒、转座子。合适的载体包括但不限于质粒、转座子、细菌噬菌体和粘粒。载体可含有实现载体连接或插入到期望宿主细胞并实现附接区段的表达所必需的多核苷酸。此类序列根据宿主生物而不同；它们包含启动子序列以实现转录、增强子序列以增加转录、核糖体结合位点序列以及转录和翻译终止序列。或者，表达载体可以能够直接表达在其中编码的核酸序列产物，而不将载体连接或整合到宿主细胞DNA序列中。在一些实施方案中，载体是“附加型表达载体”或“附加体”，其能够在宿主细胞中复制，并且在适当的选择压力的存在下作为DNA的染色体外区段在宿主细胞内持续存在(参见，例如，Conese等人，Gene Therapy,11:1735-1742(2004))。代表性的市售附加型表达载体包括但不限于利用EB(Epstein Barr)核抗原1(EBNA1)和EB病毒(EBV)复制起点(oriP)的附加型质粒。来自Invitrogen(Carlsbad,Calif.)的载体pREP4、pCEP4、pREP7和pcDNA3.1以及来自Stratagene(La Jolla,Calif.)的pBK-CMV代表使用T抗原和SV40复制起点代替EBNA1和oriP的附加型载体的非限制性实例。载体还可包含选择标记基因。

如本文所用的术语“选择标记基因”是指允许细胞表达在相应的选择剂存在下特异性地选择或对抗的核酸序列的核酸序列。合适的选择标记基因是本领域已知的，并描述于例如国际专利申请公开WO1992/08796和WO 1994/28143；Wigler等人，Proc.Natl.Acad.Sci.USA,77:3567(1980)；O’Hare等人，Proc.Natl.Acad.Sci.USA,78:1527(1981)；Mulligan和Berg,Proc.Natl.Acad.Sci.USA,78:2072(1981)；Colberre-Garapin等人，J.Mol.Biol.,150:1(1981)；Santerre等人，Gene,30:147(1984)；Kent等人，Science,237:901-903(1987)；Wigler等人，Cell,11:223(1977)；Szybalska和Szybalski,Proc.Natl.Acad.Sci.USA,48:2026(1962)；Lowy等人，Cell,22:817(1980)；以及美国专利号5,122,464和5,770,359。

如本文所用的术语“编码序列”是指编码蛋白质的多核苷酸的区段。该区域或序列在5'端附近结合有起始密码子，并且在3'端附近结合终止密码子。编码序列也可以称为开放阅读框。

如本文所用的术语“可操作地连接”是指DNA区段与另一DNA区段的物理和/或功能连接，其连接方式使得允许区段以其预期的方式起作用。编码基因产物的DNA序列与调节序列可操作地连接，当与调节序列如启动子、增强子和/或沉默子连接时，其连接方式允许直接或间接地调节DNA序列的转录。例如，当DNA序列在关于转录起始位点的正确阅读框中相对于启动子的转录起始位点在下游连接到启动子时，DNA序列与启动子可操作地连接，并允许通过DNA序列进行转录延长。当增强子或沉默子以这样的方式与DNA序列连接时，增强子或沉默子与编码基因产物的DNA序列可操作地连接，以分别增加或减少DNA序列转录。增强子和沉默子可位于DNA序列的编码区的上游、下游或嵌入其中。如果信号序列表达为参与多肽分泌的前蛋白，则信号序列的DNA与编码多肽的DNA可操作地连接。DNA序列与调节序列的连接通常通过在合适的限制性位点处连接或经由使用本领域技术人员已知的限制性内切核酸酶插入序列中的衔接子或接头来完成。

如本文所用的术语“引起”、“诱导”及其语法等同项是指相对于一些基础转录水平，由转录调节因子引起的核酸序列转录、启动子活性和/或表达的增加。

术语“转录调节因子”是指在某些环境条件下(例如，抑制物或核抑制蛋白)起作用以阻止或抑制启动子驱动的DNA序列转录或者在某些环境条件下(例如，诱导物或增强子)允许或刺激启动子驱动的DNA序列的转录的生化元件。

如本文所用的术语“增强子”是指增加例如与之可操作地连接的核酸序列的转录的DNA序列。增强子可以位于距离核酸序列的编码区几千碱基处，并且可以介导调节因子的结合、DNA甲基化的模式或DNA结构的变化。来自各种不同来源的大量增强子是本领域公知的，并且可作为克隆多核苷酸(来自例如存储库如ATCC，以及其他商业或个体来源)获得或在克隆多核苷酸内获得。许多包含启动子(如常用的CMV启动子)的多核苷酸还包含增强子序列。增强子可位于编码序列的上游、内部或下游。术语“Ig增强子”是指衍生自映射到免疫球蛋白(Ig)基因座内的增强子区域的增强子元件(此类增强子包括例如重链(μ)5'增强子、轻链(κ)5'增强子、κ和μ内含增强子和3'增强子(一般参见Paul W.E.编著,FundamentalImmunology,第3版,Raven Press,New York(1993),353-363页；以及美国专利号5,885,827)。

术语“启动子”是指起始编码序列转录的多核苷酸区域。启动子位于基因的转录起始位点附近，位于DNA的同一链和上游(朝向有义链的5'区域)。一些启动子是组成型的，因为它们在细胞中的所有情况下都是活性的，而其他启动子被调节成响应于特定刺激而变成活性的(例如，诱导型启动子)。如本文所用的术语“启动子活性”及其语法等同项是指与正在测量其活性的启动子可操作地连接的核苷酸序列的表达程度。启动子活性可以通过确定产生的RNA转录物的量来直接测量，例如通过Northern印迹分析，或者通过确定由连接的核酸序列，如与启动子连接的报道核酸序列编码的产物的量间接测量。

如本文所用的“诱导型启动子”是指通过转录调节因子(例如，生物或非生物因子)的存在或不存在而诱导活性的启动子。诱导型启动子是有用的，因为可以在生物体的某些发育阶段或在特定组织中用诱导物打开或关闭与它们可操作地连接的基因的表达。诱导型启动子的非限制性实例包括醇调节的启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、发病机理调节的启动子、温度调节的启动子和光调节的启动子、异丙基-β-硫代半乳吡喃糖苷(IPTG)诱导型启动子。

如本文所用的术语“指导RNA”及其语法等同项可指可对靶DNA具有特异性并且可与Cas蛋白形成复合体的RNA。RNA/Cas复合体可协助将Cas蛋白“指导”至靶DNA。

术语“前间区序列邻近基序(PAM)”或PAM样基序是指紧跟在由CRISPR细菌适应性免疫系统中的Cas9核酸酶靶向的DNA序列之后的2-6碱基对DNA序列。在一些实施方案中，PAM可以是5'PAM(即，位于前间区序列的5'端的上游)。在其他实施方案中，PAM可以是3'PAM(即，位于前间区序列的5'端的下游)。

如本文所用的“T细胞”或“T淋巴细胞”是在细胞介导的免疫中起重要作用的淋巴细胞类型。通过细胞表面上T细胞受体(TCR)的存在，其可以与其他淋巴细胞如B细胞和自然杀伤细胞(NK细胞)区分开。

“T辅助细胞”(TH细胞)协助其他白细胞进行免疫过程，包括B细胞成熟为浆细胞和记忆B细胞，以及细胞毒性T细胞和巨噬细胞的活化。这些细胞也称为CD4+T细胞，因为它们在其表面上表达CD4糖蛋白。T辅助细胞在通过MHC II类分子呈递肽抗原时被激活，所述MHCII类分子在抗原呈递细胞(APC)的表面上表达。一旦被激活，它们迅速分裂并分泌称为细胞因子的小蛋白质，其调节或协助主动免疫应答。这些细胞可分化为几种亚型中的一种，这些亚型包括T_H1、T_H2、T_H3、T_H9、T_H17、T_H22或T_FH(T滤泡辅助细胞)，其分泌不同的细胞因子以促进不同类型的免疫应答。来自APC的信号传导引导T细胞成为特定亚型。

“细胞毒性T细胞”(TC细胞或CTL)或“细胞毒性T淋巴细胞”破坏病毒感染的细胞和肿瘤细胞，并且还涉及移植排斥。这些细胞也称为CD8+T细胞，因为它们在其表面上表达CD8糖蛋白。这些细胞通过与MHC I类分子相关的抗原结合来识别它们的靶标，所述MHC I类分子存在于所有有核细胞的表面上。通过IL-10、腺苷和调节性T细胞分泌的其他分子，CD8+细胞可以失活至无变应性状态，从而预防自身免疫病。

“记忆T细胞”是抗原特异性T细胞的子集，在感染消退后长期持续存在。它们在重新暴露于其同源抗原后迅速扩充至大量效应T细胞，从而为免疫系统提供针对过去感染的记忆。记忆T细胞包含三种亚型：中央记忆T细胞(T_CM细胞)和两种类型的效应记忆T细胞(T_EM细胞和T_EMRA细胞)。记忆细胞可以是CD4+或CD8+。记忆T细胞通常表达细胞表面蛋白CD45RO、CD45RA和/或CCR7。

“调节T细胞”(Treg细胞)，旧称抑制T细胞，在维持免疫耐受中起作用。它们的主要作用是关闭T细胞介导的免疫直到免疫反应结束，并抑制逃离胸腺中的负选择过程的自身反应性T细胞。

“自然杀伤细胞”或“NK细胞”是对先天免疫系统至关重要的细胞毒性淋巴细胞类型。NK细胞的作用类似于脊椎动物适应性免疫应答中的细胞毒性T细胞的作用。NK细胞对病毒感染的细胞提供快速应答，在感染后约3天起作用，并对肿瘤形成作出应答。通常，免疫细胞检测感染细胞表面上呈递的主要组织相容性复合体(MHC)，触发细胞因子释放，导致裂解或凋亡。然而，NK细胞是独特的，因为它们具有在不存在抗体和MHC的情况下识别受激细胞的能力，从而允许更快的免疫反应。它们被命名为“自然杀伤”，因为它们最初的概念是其不需要激活来杀死缺少MHC 1类“自身”标记的细胞。这一作用尤为重要，因为缺乏MHC I标记的有害细胞无法被其他免疫细胞(如T淋巴细胞)检测和破坏。NK细胞(属于先天淋巴细胞群组)被定义为大颗粒淋巴细胞(LGL)，并且构成了从产生B和T淋巴细胞的共同淋巴祖细胞中分化的第三种细胞。NK细胞已知在骨髓、淋巴结、脾、扁桃体和胸腺中分化和成熟，并随后在该处进入循环。NK细胞与自然杀伤T细胞(NKT)的表型、起源和各自的效应功能不同；通常，NKT细胞活性通过分泌干扰素γ来促进NK细胞活性。与NKT细胞不同，NK细胞不表达T细胞抗原受体(TCR)或泛T标记CD3或表面免疫球蛋白(Ig)B细胞受体，但它们通常在人类中表达表面标志物CD16(FcγRIII)和CD56，在C57BL/6小鼠中表达NK1.1或NK1.2。

“自然杀伤T细胞”(NKT细胞——勿与先天免疫系统的自然杀伤细胞混淆)将适应性免疫系统与先天免疫系统联系起来。与识别由主要组织相容性复合体(MHC)分子呈递的肽抗原的常规T细胞不同，NKT细胞识别由称为CD1d的分子呈递的糖脂抗原。一旦被激活，这些细胞可以执行归于T辅助细胞(T_H)和细胞毒性T细胞(TC)的功能(即，细胞因子的产生和细胞溶解/细胞杀伤分子的释放)。它们还能够识别并消除一些肿瘤细胞和感染疱疹病毒的细胞。

“过继T细胞转移”是指肿瘤特异性T细胞的分离和离体扩充，以获得比单独接种疫苗或患者的天然肿瘤反应所获得的更多数目的T细胞。然后将肿瘤特异性T细胞输注到患有癌症的患者体内，试图经由可以攻击和杀死癌症的T细胞使给予免疫系统制服剩余肿瘤的能力。有许多形式的过继T细胞疗法用于癌症治疗；培养肿瘤浸润淋巴细胞或TIL，分离和扩充一种特定的T细胞或克隆，乃至使用经过工程化的T细胞以有效识别和攻击肿瘤。

如本文所用的术语“抗体”包括IgG(包括IgG1、IgG2、IgG3和IgG4)、IgA(包括IgA1和IgA2)、IgD、IgE或IgM和IgY，并且意在包括完整抗体(包括单链完整抗体)及其抗原结合(Fab)片段。抗原结合抗体片段包括但不限于Fab、Fab'和F(ab')₂、Fd(由VH和CH1组成)、单链可变片段(scFv)、单链抗体、二硫化物连接的可变片段(dsFv)和包含VL或VH结构域的片段。抗体可来自任何动物来源。抗原结合抗体片段，包括单链抗体，可仅包含可变区，或者组合以下中的全部或部分：铰链区、CH1、CH2和CH3结构域。还包括可变区与铰链区、CH1、CH2和CH3结构域的任何组合。抗体可以是单克隆抗体、多克隆抗体、嵌合抗体、人源化抗体以及人单克隆抗体和多克隆抗体。如本文所用，术语“单克隆抗体”是指由B细胞的单个克隆产生并与相同表位结合的抗体。相反，“多克隆抗体”是指由不同B细胞产生并与相同抗原的不同表位结合的抗体群。完整抗体通常由四个多肽组成：重(H)链多肽的两个相同拷贝和轻(L)链多肽的两个相同拷贝。每条重链含有一个N末端可变区(VH)和三个C末端恒定区(CH1、CH2和CH3)，每条轻链含有一个N末端可变区(VL)和一个C末端恒定区(CL)。每对轻链和重链的可变区形成抗体的抗原结合位点。VH和VL区具有相似的一般结构，每个区域包含四个序列相对保守的框架区。框架区通过三个互补决定区(CDR)连接。被称为CDR1、CDR2和CDR3的三个CDR形成抗体的“高变区”，其负责抗原结合。

“抗体样分子”可以是例如能够选择性地结合配偶体的Ig超家族成员的蛋白质。MHC分子和T细胞受体都是这样的分子。在一个实施方案中，抗体样分子是TCR。在一个实施方案中，已经修饰TCR以增加其MHC结合亲和力。

术语“抗体的片段”，“抗体片段”，“抗体的功能片段”，“抗原结合部分”或其语法等同项在本文中可互换使用，意指保留与抗原特异性结合的能力的抗体的一个或多个片段或部分(一般参见，Holliger等人,Nat.Biotech.,23(9):1126-1129(2005))。抗体片段理想地包含例如一个或多个CDR、可变区(或其部分)，恒定区(或其部分)或其组合。抗体片段的非限制性实例包括(i)Fab片段，其是由VL、VH、CL和CH1结构域组成的单价片段；(ii)F(ab')2片段，其是包含在茎部区域通过二硫桥连接的两个Fab片段的二价片段，(iii)Fv片段，其由抗体的单臂的VL和VH结构域组成；(iv)单链Fv(scFv)，其是由通过合成接头连接的Fv片段的两个结构域(即VL和VH)组成的单价分子，该接头使得两个结构域能够作为单个多肽链合成(参见，例如，Bird等人，Science,242:423-426(1988)；Huston等人，Proc.Natl.Acad.Sci.USA,85:5879-5883(1988)；以及Osbourn等人，Nat.Biotechnol.,16:778(1998)))以及(v)双抗体，其是多肽链的二聚体，其中每个多肽链包含通过肽接头与VL连接的VH，所述肽接头太短而不允许相同多肽链上的VH和VL之间的配对，从而驱动不同VH-VL多肽链上的互补结构域之间的配对，以产生具有两个功能性抗原结合位点的二聚体分子。

如本文所用的“肿瘤抗原”是指在肿瘤细胞中产生或过表达的任何抗原物质。例如，其可以触发宿主中的免疫应答。或者，出于本公开内容的目的，肿瘤抗原可以是健康和肿瘤细胞都有表达的蛋白质，但是因为其鉴别某种肿瘤类型，所以可以是合适的治疗靶标。在一些实施方案中，肿瘤抗原是CD19、CD20、CD30、CD33、CD38、Her2/neu、ERBB2、CA125、MUC-1、前列腺特异性膜抗原(PSMA)、CD44表面粘附分子、间皮素、癌胚抗原(CEA)、表皮生长因子受体(EGFR)、EGFRvIII、血管内皮生长因子受体-2(VEGFR2)、高分子量-黑素瘤相关抗原(HMW-MAA)、MAGE-A1、IL-13R-a2、GD2或其任意组合。在一些实施方案中，肿瘤抗原是1p19q、ABL1、AKT1、ALK、APC、AR、ATM、BRAF、BRCA1、BRCA2、cKIT、cMET、CSF1R、CTNNB1、EGFR、EGFRvIII、ER、ERBB2(HER2)、FGFR1、FGFR2、FLT3、GNA11、GNAQ、GNAS、HER2、HRAS、IDH1、IDH2、JAK2、KDR(VEGFR2)、KRAS、MGMT、MGMT-Me、MLH1、MPL、NOTCH1、NRAS、PDGFRA、Pgp、PIK3CA、PR、PTEN、RET、RRM1、SMO、SPARC、TLE3、TOP2A、TOPO1、TP53、TS、TUBB3、VHL、CDH1、ERBB4、FBXW7、HNF1A、JAK3、NPM1、PTPN11、RB1、SMAD4、SMARCB1、STK1、MLH1、MSH2、MSH6、PMS2、微卫星不稳定性(MSI)、ROS1、ERCC1或其任意组合。

如本文所用的术语“嵌合抗原受体”(CAR)、“人工T细胞受体”、“嵌合T细胞受体”或“嵌合免疫受体”是指将任意特异性移植到免疫效应细胞上的工程化受体。CAR通常具有细胞外结构域(胞外域)(其包含抗原结合结构域)、跨膜结构域和细胞内结构域(胞内域)。在一些实施方案中，CAR实际上不识别整个抗原；相反；相反，其仅与抗原表面的一部分结合，该区域称为抗原决定簇或表位。

“表位”、“抗原决定簇”、“抗原识别部分”、“抗原识别结构域”及其语法等同项是指对例如抗体或受体与之特异性结合的分子或抗原的部分。在一个实施方案中，抗原识别部分在抗体、抗体样分子或其片段中，并且抗原是肿瘤抗原。

本文所用的蛋白质的“功能变体”是指与参考多肽具有大量或显著的序列同一性或相似性，并且保留其作为变体的参考多肽的生物活性的多肽或蛋白质。在一些实施方案中，功能变体例如包含参考蛋白质的氨基酸序列，具有至少或约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个保守氨基酸置换。功能变体包括例如本文所述的CAR(亲本CAR)的那些相对于亲本CAR以相似程度、相同程度或更高程度保留了识别靶细胞的能力的变体。关于编码亲本CAR的核酸序列，编码CAR的功能变体的核酸序列可以与编码亲本CAR的核酸序列约10％相同、约25％相同、约30％相同、约50％相同、约65％相同、约70％相同、约75％相同、约80％相同、约85％相同、约90％相同、约95％相同或约99％相同。

当用于提及CAR时，术语“功能部分”是指本文所述的CAR的任何部分或片段，该部分或片段保留其作为其一部分的CAR(亲本CAR)的生物活性。关于编码亲本CAR的核酸序列，编码CAR的功能部分的核酸序列可编码包含亲本CAR的例如约10％、25％、30％、50％、68％、80％、90％、95％或更多的蛋白质。

术语“保守氨基酸置换”或“保守突变”是指用另一个具有共同特性的氨基酸置换一个氨基酸。定义单个氨基酸之间共同特性的功能性方法是分析同源生物的相应蛋白质之间氨基酸变化的标准化频率(Schulz,G.E.和Schirmer,R.H.,Principles of ProteinStructure,Springer-Verlag,New York(1979))。根据这样的分析，可以定义氨基酸组，其中组内的氨基酸彼此优先交换，因此它们在对总体蛋白质结构的影响方面彼此最相似(Schulz,G.E.和Schirmer,R.H.，同上)。保守突变的实例包括上述亚组内氨基酸的氨基酸置换，例如赖氨酸置换精氨酸，反之亦然，从而可以维持正电荷；谷氨酸置换天冬氨酸，反之亦然，从而可以维持负电荷；丝氨酸置换苏氨酸，从而可以维持游离的-OH；以及谷氨酰胺置换天冬酰胺，从而可以维持游离-NH2。备选地或附加地，功能变体可包含参考蛋白质的氨基酸序列，具有至少一个非保守氨基酸置换。

术语“非保守突变”涉及不同组之间的氨基酸置换，例如，赖氨酸置换色氨酸，或苯丙氨酸置换丝氨酸等。在这种情况下，非保守氨基酸置换优选不干扰或抑制功能变体的生物活性。非保守氨基酸置换可增强功能变体的生物活性，使得功能变体的生物活性与亲本CAR相比有所增加。

如本文所提及的“增殖性疾病”意指一种统一的概念，即细胞的过度增殖和细胞基质的更新显著贡献于包括癌症在内的几种疾病的发病机理。

如本文所用的“患者”或“受试者”是指被诊断患有或疑似患有或发生增殖性疾病如癌症的哺乳动物受试者。在一些实施方案中，术语“患者”是指发生增殖性疾病如癌症的可能性高于平均值的哺乳动物受试者。示例性患者可以是人、非人灵长类动物、猫、狗、猪、牛、猫、马、山羊、绵羊、啮齿动物(例如，小鼠、兔、大鼠或豚鼠)和可以获益于如本文所述的治疗的其他哺乳动物。示例性的人类患者可以是男性和/或女性。

“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有或疑似患有疾病或病症的患者，该疾病或病症例如但不限于增殖性疾病，如癌症。在一些情况下，癌症是实体瘤或血液恶性肿瘤。在一些情况下，癌症是实体瘤。在一些情况下，癌症是血液恶性肿瘤。在一些情况下，癌症是转移癌。在一些情况下，癌症是复发性或难治性癌症。在一些情况下，癌症是实体瘤。示例性实体瘤包括但不限于肛门癌；阑尾癌；胆道癌(即胆管癌)；膀胱癌；脑肿瘤；乳腺癌；宫颈癌；结肠癌；未知原发癌(CUP)；食管癌；眼癌；输卵管癌；胃肠癌；肾癌；肝癌；肺癌；髓母细胞瘤；黑素瘤；口腔癌；卵巢癌；胰腺癌；甲状旁腺疾病；阴茎癌；垂体瘤；前列腺癌；直肠癌；皮肤癌；胃癌；睾丸癌；喉癌；甲状腺癌；子宫癌；阴道癌或外阴癌。在一些实施方案中，白血病可以是例如急性淋巴母细胞白血病(ALL)、急性髓样白血病(AML)、慢性淋巴细胞白血病(CLL)和慢性髓样白血病(CML)。

“施用”在本文是指向患者或受试者提供本文所述的一种或多种组合物。作为实例而非限制，组合物施用(例如注射)可通过静脉内(i.v.)注射、皮下(sc)注射、皮内(i.d.)注射、腹膜内(i.p.)注射或肌内(i.m.)注射进行。可以执行一种或多种这样的途径。肠胃外给药可以是例如，团注或随时间逐渐灌注。备选地，或同时地，可以通过口服途径施用。另外，还可以通过手术放置细胞的丸或团或者定位医疗装置来施用。在实施方案中，本公开内容的组合物可包含表达本文所述的核酸序列的工程化细胞或宿主细胞，或包含本文所述的至少一种核酸序列的载体，其量有效治疗或预防增殖性疾病。药物组合物可包含如本文所述的靶细胞群，结合一种或多种药学上或生理上可接受的载体、稀释剂或赋形剂。这样的组合物可包含缓冲液，如中性缓冲盐水、磷酸盐缓冲盐水等；碳水化合物，如葡萄糖、甘露糖、蔗糖或葡聚糖、甘露糖醇；蛋白质；多肽或氨基酸如甘氨酸；抗氧化剂；螯合剂如EDTA或谷胱甘肽；佐剂(例如氢氧化铝)；以及防腐剂。

如本文所用，术语“治疗”、“治疗处理”或其语法等同项是指获得期望的药理和/或生理作用。在实施方案中，该作用是治疗性的，即该作用部分或完全治愈疾病和/或由该疾病引起的不良症状。为此，本发明方法包括施用治疗有效量的组合物，其包含表达本发明核酸序列的宿主细胞或包含本发明核酸序列的载体。

术语“治疗有效量”、“治疗量”、“免疫有效量”、“抗肿瘤有效量”、“肿瘤抑制有效量”或其语法等同项是指在必要的剂量和时间段内有效实现期望的治疗结果的量。治疗有效量可根据诸如疾病状态、年龄、性别和个体体重等因素以及本文所述的组合物在一个或多个受试者中引发期望反应的能力而变化。待施用的本公开内容的组合物的精确量可以由医师在考虑到年龄、体重、肿瘤大小、感染或转移程度以及患者(受试者)的状况的个体差异的情况下确定。

或者，将本文所述的一种或多种组合物向患者或受试者施用的药理和/或生理作用可以是“预防性的”，即该作用完全或部分地预防疾病或其症状。“预防有效量”是指在必要的剂量和时间段内有效实现期望的预防结果(例如，预防疾病发作)的量。

全文公开的一些数值称为，例如，“X为至少或至少约100；或200[或任何数目]。”该数值包括该数目自身和下列所有：

i)X为至少100；

ii)X为至少200；

iii)X为至少约100；以及

iv)X为至少约200。

通过全文公开的数值考虑到所有这些不同组合。除非另有明确相反指示，否则所有公开的数值均应以此方式进行解释，无论该数值是指治疗剂的施用还是指天、月、年、重量、剂量等。

全文公开的范围有时称为，例如，“X在或在约第1天至第2天；或第2天至第3天[或任何数值范围]施用。”该范围包括该数目自身(例如，该范围的端点)和下列所有：

i)X在第1天与第2天之间施用；

ii)X在第2天与第3天之间施用；

iii)X在约第1天与第2天之间施用；

iv)X在约第2天与第3天之间施用；

v)X在第1天与约第2天之间施用；

vi)X在第2天与约第3天之间施用；

vii)X在约第1天与约第2天之间施用；以及

viii)X在约第2天与约第3天之间施用；

通过全文公开的范围考虑到所有这些不同组合。除非另有明确相反指示，否则所有公开的范围均应以此方式进行解释，无论该范围是指治疗剂的施用还是指天、月、年、重量、剂量等。

基因编辑多位点(GEMS)

基因修饰的细胞疗法正在迅速通过临床开发，并且是新的药物前沿。然而，这些疗法是个性化的解决方案，因此缺乏规模经济并且患者获取受到限制。这些挑战提供了创造可以支持规模经济，并使所有需要的患者都能获得治疗的解决方案的机会。一种解决方案可以是创造“现成”产品。这些产品衍生自供体，然后进行扩充以在许多接受者中使用。现成的产品需要克服一些挑战才能具有治疗和商业价值。这样的挑战包括克服排斥和敏化；提高基因修饰的可靠性以降低安全风险和成本；将治疗细胞扩充至较大数目(每次治疗～10⁹个细胞或更多)；增加剂量供体比率(每个供体产生的剂量)，这将降低开发和制造成本。

本文提供了包含用于促进基因编辑和基因工程化的多基因编辑位点或基因编辑多位点(GEMS)的核酸构建体。构建体包含DNA，并且可以是质粒的形式。术语“多基因编辑位点”和“基因编辑多位点”在本文可互换使用。GEMS系统可以提供显著的优势，诸如即插即用系统，降低开发成本；确切的已知基因插入位置，增强安全性；插入任何基因构建体的标准工具，允许定制；以及引入任何源细胞类型(优选自我更新源)中的可能性。在一些实施方案中，GEMS构建体包含真核核苷酸。在实施方案中，具有多个基因编辑位点的示例性GEMS序列如图25所示。在一些实施方案中，GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，GEMS构建体包含SEQ IDNO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，GEMS构建体包含含有SEQID NO:16的核苷酸序列的GEMS位点16 5’同源臂序列。在一些实施方案中，GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3’同源臂序列。

在一些情况下，GEMS构建体包含至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、至少500个核苷酸、至少600个核苷酸、至少700个核苷酸、至少800个核苷酸、至少900个核苷酸或至少1,000个核苷酸的至少一个同源臂。在一些实施方案中，该对同源臂的至少一个同源臂包含与宿主细胞基因组的安全港位点的序列同源的同源臂序列。在一些实施方案中，AAVs15’同源臂序列包含SEQ ID NO:7的核苷酸序列。在一些实施方案中，AAVs1 3’同源臂序列包含SEQ ID NO:8的核苷酸序列。

GEMS构建体包含初级内切核酸酶识别位点和多基因编辑位点。在一些实施方案中，一个或多个初级内切核酸酶识别位点定位在多基因编辑位点的上游，并且一个或多个初级内切核酸酶识别位点定位在多基因编辑位点的下游(图1、图2A-图2B和图3)。多基因编辑位点又包含多个编辑位点，每个编辑位点包含次级内切核酸酶识别位点。

多基因编辑位点上游和下游的初级内切核酸酶识别位点便于将多基因编辑位点插入到宿主细胞的基因组中。因此，构建体可用于例如转染接受者细胞，并且一旦在接受者细胞中，上游和下游初级内切核酸酶识别位点便于将多基因编辑位点插入到染色体中。一旦将多基因编辑位点插入到染色体中，就可以用插入到多基因编辑位点中的一个或多个编辑位点的供体基因或其部分进一步修饰细胞。在一些实施方案中，将多基因编辑位点插入到染色体中是稳定整合到染色体中。

在一些实施方案中，在多基因编辑位点内，多个次级内切核酸酶识别位点(例如，PAM)中的每一个可以与其他次级内切核酸酶识别位点(例如，PAM)邻接，但是每个次级内切核酸酶识别位点可以通过多核苷酸间隔区与邻近的识别位点间隔开(图4-图6)。该多核苷酸间隔区可包含任何合适数目的核苷酸。间隔区长度可以是约2个核苷酸(双链构建体中的碱基对)至约10,000个或更多个核苷酸。在一些实施方案中，间隔长度为约2至约5个核苷酸、约5至约10个核苷酸、约10至约20个核苷酸、约20至约30个核苷酸、约30至约40个核苷酸、约40至约50个核苷酸、约50至约100个核苷酸、约100至约200个核苷酸、约200至约300个核苷酸、约300至约400个核苷酸、约400至约500个核苷酸、约500至约1,000个核苷酸、约1,000至约2,000个核苷酸、约2,000至约5,000个核苷酸或约5,000至约10,000个核苷酸。在一些方面，间隔区长度为约5至约1000个核苷酸、约10至约100个核苷酸或约25至约50个核苷酸。

在实施方案中，GEMS构建体靶向并稳定整合到染色体的安全港区域(例如，Rosa26、AAVS1、CCR5)中。“安全港”区域是染色体的一部分，其中一个或多个供体基因(包括转基因)可以以基本上可预测的表达和功能进行整合，但不会对宿主细胞或生物体产生不利影响，包括但不限于，不扰乱内源基因活性或者促进癌症或其他有害病症。参见Sadelain等人(2012)Nat.Rev.Cancer 12:51-58。举例而言，在人类中，在染色体19上存在安全港基因座(PPP1R12C)，其被称为AAVS1。在小鼠中，Rosa26基因座被称为安全港基因座。人AAVS1位点特别适用于在胚胎干细胞中接受转基因和用于多能干细胞。对于根据构建体的一些方面的使用，优选人AAVS1位点。在一些实施方案中，AAVs1 5’同源臂序列包含SEQ ID NO:7的核苷酸序列。在一些实施方案中，AAVs1 3’同源臂序列包含SEQ ID NO:8的核苷酸序列。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:10的核苷酸序列。在一些实施方案中，AAVs1 CRISPR gRNA序列包含SEQ ID NO:10的核苷酸序列。

为了将构建体的多基因编辑位点插入安全港基因座(例如，Rosa26、AAVS1、CCR5)中，使用细胞中的内切核酸酶活性。在一些实施方案中，构建体包含一个或多个初级内切核酸酶识别序列，其允许构建体被细胞中的内切核酸酶切割，以产生包含多基因编辑位点的供体序列。然后可以将包含多基因编辑位点的该供体序列插入安全港基因座中。相容的内切核酸酶识别该识别序列，并相应地切割构建体。在一些实施方案中，初级内切核酸酶识别序列与存在于安全港基因座处的内切核酸酶识别序列相同。以这种方式，内切核酸酶可以切割安全港基因座，允许将游离的(从构建体切割下来的)多基因编辑位点供体序列插入到切割的安全港基因座中。该插入可以经由细胞中的同源或非同源末端连接(NHEJ)进行。因此，可为在构建体DNA和安全港基因座中的双链断裂位点处产生相容末端的核酸酶定制初级内切核酸酶识别序列。

本文所述的方法允许DNA构建体(例如，GEMS构建体、感兴趣的基因)通过例如磷酸钙/DNA共沉淀、DNA向细胞核中的显微注射、电穿孔、与完整细胞的细菌原生质体融合、转染、脂质转染、感染、粒子轰击、精子介导的基因转移或本领域技术人员已知的任何其他技术进入宿主细胞。

本文所述的方法可利用CRISPR/cas系统。例如，可使用CRISPR/Cas系统(例如，II型CRISPR/Cas系统)产生双链断裂(DSB)。本文公开的方法中所使用的Cas酶可以是催化DNA裂解的Cas9。衍生自酿脓链球菌(Streptococcus pyogenes)的Cas9或任何密切相关的Cas9的酶促作用可在靶位点序列处产生双链断裂，该靶位点序列与指导序列的20个核苷酸杂交，并且具有位于该靶序列的20个核苷酸之后的前间区序列邻近基序(PAM)。在一些实施方案中，多基因编辑位点中每个次级内切核酸酶识别位点的靶序列可以是相同的，但是在一些方面，每个次级内切核酸酶识别位点的靶序列可以与多基因编辑位点中的其他靶序列不同。靶序列可为长度约10至约30个核苷酸、长度约15至约25个核苷酸和长度约17至约24个核苷酸(图4-图6)。在一些方面，靶序列为长度约20个核苷酸。

在一些实施方案中，靶序列可以是富含GC的，使得至少约40％的靶序列由G或C核苷酸组成。靶序列的GC含量可为约40％至约80％，但可以使用小于约40％或大于约80％的GC含量。在一些实施方案中，靶序列可以是富含AT的，使得至少约40％的靶序列由A或T核苷酸组成。靶序列的AT含量可为约40％至约80％，但可以使用小于约40％或大于约80％的AT含量。

位点特异性修饰

本文公开的一个或多个GEMS构建体的插入可以是位点特异性的。例如，一个或多个转基因可插入到Rosa26、AAVS1或CCR5附近。在一些实施方案中，邻近于侧翼插入序列的GEMS序列插入到插入位点上。侧翼插入序列可包含侧翼插入序列对，并且所述侧翼插入序列对位于所述GEMS序列的侧翼。在一些情况下，所述侧翼插入序列对中的至少一个侧翼插入序列可包含与所述基因组的安全港位点(例如，AAV1、Rosa26、CCR5)的序列同源的插入序列。在一些情况下，侧翼插入序列被大范围核酸酶、锌指核酸酶、TALEN、CRISPR/Cas9、CRISPR/Cpf1和/或Argonaut识别。在一些情况下，侧翼序列具有约14至40个核苷酸的长度。在一些情况下，侧翼序列具有约18至36个核苷酸的长度。在一些情况下，侧翼序列具有约28至40个核苷酸的长度。在一些情况下，侧翼序列具有约19至22个核苷酸的长度。在一些情况下，侧翼序列具有至少18个核苷酸的长度。在一些情况下，侧翼序列具有至少50个核苷酸的长度。在一些情况下，侧翼序列具有至少100个核苷酸的长度。在一些情况下，侧翼序列具有至少500个核苷酸的长度。

可通过将DNA引入细胞中来产生细胞的靶基因座的修饰，其中该DNA与该靶基因座具有同源性。DNA可包含标记基因，从而允许对包含整合的构建体的细胞进行选择。靶载体中的同源DNA可与靶基因座上的染色体DNA进行重组。待插入的DNA构建体的两侧的侧翼可以是同源DNA序列、3’重组臂和5’重组臂。在一些实施方案中，GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，GEMS构建体包含SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5’同源臂序列。在一些实施方案中，GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3’同源臂序列。在一些实施方案中，AAVs1 3’同源臂序列包含SEQ ID NO:8的核苷酸序列。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:10的核苷酸序列。在一些实施方案中，AAVs1CRISPR gRNA序列包含SEQ ID NO:10的核苷酸序列。

多种酶可催化外来DNA向宿主基因组中的插入。例如，位点特异性重组酶可群集成具有不同生化性质的两个蛋白质家族，即酪氨酸重组酶(其中DNA与酪氨酸残基共价连接)和丝氨酸重组酶(其中共价连接发生在丝氨酸残基处)。在一些情况下，重组酶可包括Cre、fC31整合酶(衍生自链霉菌噬菌体fC31的丝氨酸重组酶)或细菌噬菌体衍生的位点特异性重组酶(包括Flp、λ整合酶、细菌噬菌体HK022重组酶、细菌噬菌体R4整合酶和噬菌体TP901-1整合酶)。

Cre/lox重组是酪氨酸家族位点特异性重组酶技术，用于在细胞DNA中的特定位点处执行缺失、插入、易位和倒位。其允许DNA修饰靶向于特定细胞类型或由特定外部刺激触发。其可以在真核和原核系统中实施。Cre/lox系统由Cre重组酶这一种酶组成，其重组一对称为Lox序列的短靶序列。该系统可在不插入任何额外的支持蛋白质或序列的情况下实施。Cre酶和称为LoxP序列的原始Lox位点衍生自细菌噬菌体P1。适当放置Lox序列允许基因被激活、被抑制或交换为其他基因。可在DNA水平上进行许多类型的操作。可控制Cre酶的活性，使其在特定细胞类型中表达或者由外部刺激如化学信号或热休克触发。

Flp/FRT重组是用于在体内受控条件下操纵生物体的DNA的定点重组技术。其类似于Cre/lox重组，但涉及通过衍生自面包用酵母，酿酒酵母(Saccharomyces cerevisiae)的2μm质粒的重组酶翻转酶(Flp)在短翻转酶识别靶标(FRT)位点之间进行序列重组。Flp蛋白是酪氨酸家族位点特异性重组酶。该重组酶家族经由IB型拓扑异构酶机制发挥其功能，引起两条独立DNA链的重组。通过重复的两步过程进行重组。第一步导致产生霍利迪(Holliday)连接中间体。第二步促进产生的两条互补链的重组。

CRISPR/Cas系统可用于进行位点特异性插入。例如，可通过CRISPR/Cas在基因组的插入位点上制作切口，以便于转基因在插入位点处的插入。

本文公开的某些方面可利用载体。可以使用任何质粒和载体，只要它们在选择的宿主中可复制并具有活力。可将本领域已知的载体和可商购的载体(及其变体或衍生物)工程化以包含用于该方法的一个或多个重组位点。可以使用的载体包括但不限于细菌表达载体(诸如pBs、pQE-9(Qiagen)、phagescript、PsiX174、pBluescript SK、pB5KS、pNH8a、pNH16a、pNH18a、pNH46a(Stratagene)、pTrc99A、pKK223-3、pKK233-3、pDR540、pRIT5(Pharmacia)及其变体或衍生物)、真核表达载体(诸如pFastBac、pFastBacHT、pFastBacDUAL、pSFV和pTet-Splice(Invitrogen)、pEUK-C1、pPUR、pMAM、pMAMneo、pBI101、pBI121、pDR2、pCMVEBNA、pYACneo(Clontech)、pSVK3、pSVL、pMSG、pCH110、pKK232-8(Pharmacia,Inc.)、p3'SS、pXT1、pSG5、pPbac、pMbac、pMClneo、pOG44(Stratagene,Inc.)、pYES2、pAC360、pBlueBa-cHis A、pBlueBa-cHis B和pBlueBa-cHis C、pVL1392、pBlueBac111、pCDM8、pcDNA1、pZeoSV、pcDNA3、pREP4、pCEP4、pEBVHis(Invitrogen,Corp.)、pWLneo、pSv2cat、pOG44、pXT1、pSG(Stratagene)、pSVK3、pBPv、pMSG、pSVL(Pharmiacia)及其变体或衍生物)以及在宿主细胞中可复制和存活的任意其他质粒和载体。

本领域已知的载体和可商购的载体(及其变体或衍生物)可以根据本公开内容工程化以包含用于本公开内容的方法的一个或多个重组位点。这些载体可用于表达基因，例如转基因，或感兴趣的基因部分。可通过使用已知的方法如基于限制酶的技术插入基因的一部分或基因。

可在引入靶载体(例如GEMS载体)之前、同时或之后将一种或多种重组酶引入宿主细胞中。重组酶可以作为蛋白质直接导入细胞，例如使用脂质体、包被颗粒或显微注射。或者，可使用合适的表达载体将编码重组酶的多核苷酸(DNA或信使RNA)引入到细胞中。靶向载体组分可用于构建含有编码感兴趣的重组酶的序列的表达盒。然而，重组酶的表达可以以其他方式调节，例如，通过将重组酶的表达置于可调节启动子(即可以选择性地诱导或抑制其表达的启动子)的控制下。

用于实践本公开内容的重组酶可以如前所述重组地产生或纯化。具有期望重组酶活性的多肽可通过本领域内已知的方法蛋白质硫酸铵沉淀、纯化来纯化至所需的纯度，包括但不限于大小分级、亲和色谱法、HPLC、离子交换色谱法、肝素琼脂糖亲和色谱法(例如，Thorpe和Smith,Proc.Nat.Acad.Sci.95:5505-5510,1998)。

在一个实施方案中，可以将重组酶引入真核细胞中，所述真核细胞含有通过任何合适的方法需要重组的重组附接位点。将功能性蛋白质引入(例如通过显微注射或其他方法)细胞的方法是本领域公知的。纯化的重组酶蛋白的引入确保了蛋白质及其功能的瞬时存在，这通常是优选的实施方案。或者，编码重组酶的基因可以包括在用于转化细胞的表达载体中，其中编码重组酶的多核苷酸与介导多核苷酸在真核细胞中的表达的启动子可操作地连接。还可以通过编码重组酶多肽的信使RNA将重组酶多肽引入真核细胞中。通常优选重组酶仅在将核酸片段插入到被修饰的基因组中所必需的这样的时间内存在。因此，与大多数表达载体相关的持久性的缺乏预计不会有害。可以在引入感兴趣的外源多核苷酸之前、之后或同时将重组酶基因引入细胞中。在一个实施方案中，重组酶基因存在于携带待插入的多核苷酸的载体内；重组酶基因甚至可以包括在多核苷酸内。在其他实施方案中，将重组酶基因引入转基因真核生物中。可以制备转基因细胞或动物，其组成性地或在细胞特异性、组织特异性、发育特异性、细胞器特异性或小分子诱导型或可抑制性启动子之下表达重组酶。重组酶还可表达为与其他肽、蛋白质、核定位信号肽、信号肽或细胞器特异性信号肽(例如，线粒体或叶绿体转运肽，以便于线粒体或叶绿体中的重组)的融合蛋白。

例如，重组酶可以来自整合酶或解离酶家族。重组酶的整合酶家族具有超过一百个成员，并且包括例如FLP、Cre和λ整合酶。整合酶家族也称为酪氨酸家族或λ整合酶家族，使用催化性酪氨酸的羟基基团对DNA的磷酸二酯键进行亲核攻击。通常，酪氨酸家族的成员最初切割DNA，DNA随后形成双链断裂。酪氨酸家族整合酶的实例包括Cre、FLP、SSV1和λ整合酶。在解离酶家族(也称为丝氨酸重组酶家族)中，保守丝氨酸残基与DNA靶位点形成共价连接(Grindley等人,(2006)Ann Rev Biochem 16:16)。

在一个实施方案中，重组酶是包含编码重组酶的核酸序列的多核苷酸序列，所述重组酶选自SPβc2重组酶、SF370.1重组酶、Bxb1重组酶、A118重组酶和ΦRv1重组酶。丝氨酸重组酶的实例详细描述于美国专利号9,034,652中，通过引用以其全文并入本文。

在一个实施方案中，用于位点特异性重组的方法包括提供第一重组位点和第二重组位点；使第一和第二重组位点与原核重组酶多肽接触，引起重组位点之间的重组，其中重组酶多肽可介导第一和第二重组位点之间的重组，第一重组位点是attP或attB，第二重组位点是attB或attP，并且重组酶选自单核细胞增生利斯特氏菌(Listeria monocytogenes)噬菌体重组酶、酿脓链球菌噬菌体重组酶、枯草芽孢杆菌(Bacillus subtilis)噬菌体重组酶、结核分枝杆菌(Mycobacterium tuberculosis)噬菌体重组酶和耻垢分枝杆菌(Mycobacterium smegmatis)噬菌体重组酶，条件是当第一重组附接位点是attB时，第二重组附接位点是attP，并且当第一重组附接位点是attP时，第二重组附接位点是attB。

进一步的实施方案提供将位点特异性重组酶引入到其基因组将被修饰的细胞中。一个实施方案涉及用于在真核细胞中获得位点特异性重组的方法，包括提供包含第一重组附接位点和第二重组附接位点的真核细胞；使第一和第二重组附接位点与原核重组酶多肽接触，引起重组附接位点之间的重组，其中重组酶多肽可介导第一和第二重组附接位点之间的重组，第一重组附接位点是噬菌体基因组重组附接位点(attP)或细菌基因组重组附接位点(attB)，第二重组附接位点是attB或attP，并且重组酶选自单核细胞增生利斯特氏菌噬菌体重组酶、酿脓链球菌噬菌体重组酶、枯草芽孢杆菌噬菌体重组酶、结核分枝杆菌噬菌体重组酶和耻垢分枝杆菌噬菌体重组酶，条件是当第一重组附接位点是attB时，第二重组附接位点是attP，并且当第一重组附接位点是attP时，第二重组附接位点是attB。在实施方案中，重组酶选自A118重组酶、SF370.1重组酶、SPβc2重组酶、φRv1重组酶和Bxb1重组酶。在一个实施方案中，重组导致整合。

核酸酶识别位点

在实施方案中，所述GEMS构建体包含多个核酸酶识别序列，其中多个核酸酶识别序列中的每一个包含与PAM序列连接的指导靶序列，其中所述指导靶序列在插入位点处插入GEMS构建体后与指导多核苷酸(例如，gRNA)结合。在实施方案中，所述核酸酶为内切核酸酶。术语“核酸酶识别位点”和“核酸酶识别序列”在本文可互换使用。在实施方案中，该GEMS构建体可进一步包含多核苷酸间隔区或多个多核苷酸间隔区，这些间隔区将至少一个核酸酶识别序列与相邻核酸酶识别序列间隔开。多核苷酸间隔的长度可以是约2至约10,000个核苷酸。多核苷酸间隔的长度可以是约25至约50个核苷酸。多核苷酸间隔的长度可以是约2个核苷酸、约5个核苷酸、约10个核苷酸、约15个核苷酸、约20个核苷酸、约25个核苷酸、约30个核苷酸、约35个核苷酸、约40个核苷酸、约45个核苷酸、约50个核苷酸、约60个核苷酸、约70个核苷酸、约80个核苷酸、约90个核苷酸、约100个核苷酸、约1,000个核苷酸、约2,000个核苷酸、约3,000个核苷酸、约4,000个核苷酸、约5,000个核苷酸、约6,000个核苷酸、约7,000个核苷酸、约8,000个核苷酸、约9,000个核苷酸和约10,000个核苷酸。在一些情况下，将核酸酶识别序列与邻近核酸酶识别序列间隔开的第一多核苷酸间隔区是与将该核酸酶识别序列与另一邻近核酸酶识别序列间隔开的第二多核苷酸间隔区相同的序列。在一些情况下，将核酸酶识别序列与邻近核酸酶识别序列间隔开的第一多核苷酸间隔区具有与将该核酸酶识别序列与另一邻近核酸酶识别序列间隔开的第二多核苷酸间隔区不同的序列。

在实施方案中，所述GEMS构建体包含用于在例如安全港区域(例如，Rosa26、AAVS1、CCR5)插入宿主细胞的染色体中的一个或多个初级核酸酶识别序列。在实施方案中，该构建体包含多基因编辑位点，该多基因编辑位点包含允许通过该多基因编辑位点而将一个或多个供体核酸序列在例如安全港区域插入染色体中的多个次级核酸酶识别序列。在一些实施方案中，该一个或多个供体核酸序列可包含编码任何感兴趣的多肽或其部分的基因或其部分。该基因可编码例如治疗性蛋白、或免疫蛋白、或信号蛋白、或从业者旨在在宿主细胞中进行表达的任何其他蛋白质。在一些实施方案中，该治疗性蛋白为CD19CAR。在一些实施方案中，该GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:81、SEQID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ IDNO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。在一些实施方案中，AAVs13′同源臂序列包含SEQ ID NO:8的核苷酸序列。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:10的核苷酸序列。在一些实施方案中，AAVs1 CRISPR gRNA序列包含SEQ IDNO:10的核苷酸序列。

所述多个次级核酸酶识别位点可包括锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)、规律成簇的间隔短回文重复(CRISPR)相关核酸酶(Cas)、来自激烈火球菌(Pyrococcus furiosus)(PfAgo)的Argonaute蛋白或其组合的多个识别序列。例如，多基因编辑位点可包含多个不同的次级核酸酶识别位点，这些次级核酸酶识别位点可在识别该位点的核酸酶(例如，ZFN、TALEN或Cas)类型方面有所不同，并且可在该识别位点序列自身之间有所不同。对于每种核酸酶类型存在许多识别序列，使得多基因编辑位点对于相同类型的内切核酸酶可包含不同识别序列。

在一些实施方案中，GEMS构建体中的一个或多个初级核酸酶识别序列可包括锌指核酸酶(ZFN)识别序列、转录激活因子样效应物核酸酶(TALEN)识别序列、规律成簇的间隔短回复重复(CRISPR)相关核酸酶或大范围核酸酶识别序列。ZFN和TALEN可与Fok1内切核酸酶融合。图1、图2A-图2B和图3示出了包含多基因编辑位点的构建体部分的非限制性实例，该多基因编辑位点的5'和3'端的侧翼为CRISPR识别序列(初级内切核酸酶识别序列)。

ZFN通常包含锌指DNA结合蛋白质和DNA切割域。如本文所用，“锌指DNA结合蛋白质”或“锌指DNA结合域”是蛋白质或者较大蛋白质内的结构域，其通过一个或多个锌指以序列特异性方式与DNA结合，锌指是结合域内的氨基酸序列的区域，其结构通过锌离子的配位而稳定。术语锌指DNA结合蛋白质通常缩写为锌指蛋白(ZFP)。锌指结合域可以经“工程化”以与预定核苷酸序列结合。用于工程化锌指蛋白的方法的非限制性实例是进行设计和选择。经设计的锌指蛋白是在不自然存在的蛋白质，其设计/组成结果主要来自合理标准。设计的合理标准包括应用置换规则和计算机化算法，用于处理存储现有ZFP设计和结合数据的信息的数据库中的信息。

如本文所用，术语“转录激活因子样效应物核酸酶”或“TAL效应物核酸酶”或“TALEN”是指通过将TAL效应物DNA结合域与DNA切割域进行融合而产生的人工限制性内切核酸酶类别。在一些实施方案中，该TALEN是单体TALEN，其可以在不借助于另一TALEN的情况下切割双链DNA。术语“TALEN”还用于指TALEN对的一个或两个成员，该TALEN对被工程化为共同作用以在相同位点切割DNA。参考DNA的利手，共同作用的TALEN可称为左TALEN和右TALEN。

大范围核酸酶是指具有较大寡核苷酸识别位点的双链内切核酸酶，该识别位点例如至少12个碱基对(bp)或者12bp至40bp的DNA序列。大范围核酸酶还可称为切点罕见的内切核酸酶或切点极其罕见的内切核酸酶。本公开内容的大范围核酸酶可以是单体的或二聚体的。大范围核酸酶可包括诸如回归内切核酸酶等任何天然大范围核酸酶，但还可包括被赋予高特异性的任何人工或人造的大范围核酸酶，它们衍生自I组内含子和内含肽的回归内切核酸酶，或者其他蛋白质如锌指蛋白或II组内含子蛋白质，或者化合物如与化学化合物融合的核酸。

在一些实施方案中，大范围核酸酶可以是基于高度保守氨基酸基序的四个单独家族之一，即LAGLIDADG家族、GIY-YIG家族、His-Cys框家族和HNH家族(Chevalier等人,2001,N.A.R,29,3757-3774)。根据一个实施方案，大范围核酸酶为I-Dmo I、PI-Sce I、I-SceI、PI-Pfu I、I-Cre I、I-Ppo I或被称为E-Dre I的杂交回归内切核酸酶I-Dmo I/I-Cre I(Chevalier等人,2001,Nat Struct Biol,8,312-316)。在一些情况下，大范围核酸酶为I-SceI大范围核酸酶，其识别核酸序列TAGGGATAACAGGGTAAT(SEQ ID NO:1)。在一些情况下，GEMS构建体在多基因编辑位点的上游、下游或者上游和下游两者包含I-SceI大范围核酸酶识别序列(初级内切核酸酶识别序列)。

在一些实施方案中，被转染了GEMS构建体的宿主细胞优选适应于识别初级内切核酸酶识别序列的内切核酸酶的感受态细胞(表达该内切核酸酶)。对于感受态，该细胞可以是天然表达识别构建体的初级识别序列的特定内切核酸酶的细胞，或者该细胞可用编码内切核酸酶的基因进行单独转染使得该细胞表达外源内切核酸酶。例如，当GEMS构建体包含ZFN识别序列作为初级内切核酸酶识别序列时，该细胞可以是锌指核酸酶的感受态细胞，该锌指核酸酶作为初级内切核酸酶来切割构建体以将多基因编辑位点插入染色体中。例如，当GEMS构建体包含TALEN识别序列作为初级内切核酸酶识别序列时，该细胞可以是转录激活因子样效应物核酸酶的感受态细胞，该转录激活因子样效应物核酸酶作为初级内切核酸酶来切割构建体以将多基因编辑位点插入染色体中。例如，当GEMS构建体包含大范围核酸酶识别序列作为初级内切核酸酶识别序列时，该细胞可以是大范围核酸酶的感受态细胞，该大范围核酸酶作为初级内切核酸酶来切割构建体以将多基因编辑位点插入染色体中。例如，当GEMS构建体包含I-SceI大范围核酸酶识别序列作为初级内切核酸酶识别序列时，该被转染了构建体的细胞可以是I-SceI大范围核酸酶感受态细胞，并且该I-SceI大范围核酸酶作为初级内切核酸酶，其作为初级内切核酸酶来切割构建体以将多基因编辑位点插入染色体中。

所述GEMS构建体中的核酸酶识别序列的数目可以不同。在实施方案中，该多基因编辑位点包含多个核酸酶识别位点。在实施方案中，该多个核酸酶识别位点是多个Cas核酸酶识别序列。该GEMS构建体可包含至少两个核酸酶识别位点。该GEMS构建体可包含至少三个核酸酶识别序列。该GEMS构建体可包含至少四个核酸酶识别序列。该GEMS构建体可包含至少五个核酸酶识别序列。该GEMS构建体可包含至少六个核酸酶识别序列。该GEMS构建体可包含至少七个核酸酶识别序列。该GEMS构建体可包含至少八个核酸酶识别序列。该GEMS构建体可包含至少九个核酸酶识别序列。该GEMS构建体可包含至少十个核酸酶识别序列。该GEMS构建体可包含超过十个核酸酶识别序列。该GEMS构建体可包含超过十五个核酸酶识别序列。该GEMS构建体可包含超过二十个核酸酶识别序列。该GEMS构建体可包含不同于第二核酸酶识别序列的序列的第一核酸酶识别序列。该GEMS构建体可包含多个核酸酶识别序列，其中每个核酸酶识别序列彼此不同。在一些实施方案中，该GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ IDNO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。

CRISPR/Cas9系统

规律成簇的间隔短回文重复(CRISPR)是细菌中的DNA序列家族。该序列包含来自攻击细菌的病毒的DNA片段。在随后的攻击中，这些片段被细菌用于检测和破坏来自类似病毒的DNA。这些序列在细菌防御系统中起关键作用，并且形成被称为CRISPR/Cas9的技术的基础，其有效地且特异性地改变生物体内的基因。

本文所述的方法可以利用CRISPR/Cas系统。例如，可以使用CRISPR/Cas系统(例如，II型CRISPR/Cas系统)来生成双链断裂(DSB)。本文公开的方法中使用的Cas酶可以是催化DNA切割的Cas9。衍生自酿脓链球菌的Cas9或任何密切相关Cas9的酶促作用可在靶位点序列上产生双链断裂，该靶位点序列与指导序列的20个核苷酸杂交，并且在靶序列的20个核苷酸之后具有前间区序列邻近基序(PAM)。

在一些实施方案中，多基因编辑位点中的每个次级内切核酸酶识别位点的靶序列可以是相同的，尽管在一些方面每个次级内切核酸酶识别位点的靶序列可以与所述多基因编辑位点中的其他靶序列不同。该靶序列可以是长度约10至约30个核苷酸、长度约15至约25个核苷酸以及长度约17至约24个核苷酸(图4-图6)。在一些方面，该靶序列可以是长度约20个核苷酸。

可用于本文的Cas蛋白包括1类和2类。Cas蛋白的非限制性实例包括：Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、C2c1、C2c2、C2c3、Cpf1、CARF、DinG、其同源物或其修饰形式。未修饰的CRISPR酶可具有DNA切割活性，如Cas9。CRISPR酶可引导切割靶序列上的一条或两条链，如在靶序列内和/或在靶序列的补体内。例如，CRISPR酶可引导切割在距靶序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个碱基对内的一条或两条链。

可以使用编码相对于相应的野生型酶经突变的CRISPR酶的载体，该突变使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。Cas9可以指与野生型示例性Cas9多肽(例如，源自酿脓链球菌的Cas9)具有至少或至少约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性和/或序列同源性的多肽。Cas9可以指与野生型示例性Cas9多肽(例如，源自酿脓链球菌的Cas9)具有至多或至多约50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的序列同一性和/或序列同源性的多肽。Cas9可以指Cas9蛋白的野生型或修饰形式，其可包含氨基酸改变如缺失、插入、置换、变体、突变、融合、嵌合体或其任意组合。

在一些实施方案中，本文所述的方法可利用工程化的CRISPR系统。工程化的CRISPR系统包含两种组分：指导RNA(gRNA或sgRNA)或指导多核苷酸；和CRISPR相关内切核酸酶(Cas蛋白)。gRNA是由Cas结合所必需的支架序列和用户定义的约20个核苷酸间隔区(定义了待修饰的基因组靶标)所组成的短的合成RNA。因此，熟练的技术人员可以改变该CRISPR特异性的基因组靶标，这部分地是由该gRNA靶向序列与基因组的其余部分相比对该基因组靶标的特异性程度来决定的。在一些实施方案中，sgRNA是SEQ ID NO:24-32(表6)中的任何一个序列。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:9的核苷酸序列。在一些实施方案中，AAVs1CRISPR gRNA序列包含SEQ ID NO:10的核苷酸序列。在一些实施方案中，GEMS序列靶向序列包含SEQ ID NO:14的核苷酸序列。在一些实施方案中，GEMS序列指导RNA序列包含SEQ ID NO:15的核苷酸序列。

Cas9核酸酶具有两个功能性内切核酸酶结构域：RuvC和HNH。在靶标结合时Cas9经历第二构象变化，从而将核酸酶结构域定位以切割靶DNA的相反链。Cas9介导的DNA切割的最终结果是在靶DNA(PAM序列的上游约3-4个核苷酸)内的双链断裂(DSB)。然后通过两种一般修复途径之一来修复所得DSB：(1)有效但易错的非同源末端连接(NHEJ)途径；或(2)效率较低但高保真的同源定向修复(HDR)途径。

非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何便利的方法来计算。例如，在一些情况下，效率可以以成功HDR的百分比的方式来表示。例如，可以使用测量核酸酶测定来生成切割产物，并且可使用产物与底物的比率来计算该百分比。例如，可以使用测量核酸酶，其直接切割含有新整合的限制性序列的DNA作为成功HDR的结果。更多切割的底物表示更高的HDR百分比(HDR的更高效率)。作为说明性实例，可以使用以下等式来计算HDR的分数(百分比)：[(切割产物)/(底物+切割产物)](例如，b+c/a+b+c)，其中“a”为DNA底物的条带强度，并且“b”和“c”为切割产物。

在一些情况下，效率可以以成功NHEJ的百分比的方式来表示。例如，T7内切核酸酶I测定可用于生成切割产物，并且可使用产物与底物的比率来计算NHEJ百分比。T7内切核酸酶I切割由野生型和突变DNA链的杂交所引起的错配的异源双链DNA(NHEJ在原始断裂位点生成小的随机插入或缺失(插入缺失))。更多切割表示更高的NHEJ百分比(更高的NHEJ效率)。作为说明性实例，可以使用以下等式来计算NHEJ的分数(百分比)：(1-(1-(b+c/a+b+c))^1/2)x 100，其中“a”为DNA底物的条带强度，并且“b”和“c”为切割产物(Ran等人,Cell.2013Sep.12；154(6):1380-9)。

所述NHEJ修复途径是最活跃的修复机制，并且其常常在DSB位点引起小核苷酸插入或缺失(插入缺失)。NHEJ介导的DSB修复的随机性具有重要的实践含义，因为表达Cas9和gRNA或指导多核苷酸的细胞群可产生突变的不同阵列。在大多数情况下，NHEJ在靶DNA中产生小的插入缺失，这导致氨基酸缺失、插入或移码突变，从而导致在靶基因的开放阅读框(ORF)内提前出现终止密码子。理想的最终结果为靶基因内的功能丧失突变。

虽然NHEJ介导的DSB修复经常破坏基因的开放阅读框，但同源定向修复(HDR)可用于生成特定的核苷酸变化，该变化范围从单核苷酸变化至大的插入(如添加荧光团或标签)。

为了利用HDR进行基因编辑，可以将含有期望序列的DNA修复模板与gRNA和Cas9或Cas9切口酶一起递送至感兴趣的细胞类型中。该修复模板可包含期望编辑以及紧邻靶标的上游和下游的另外的同源序列(称为左侧和右侧同源臂)。每个同源臂的长度可取决于所引入的变化的大小，其中较大的插入需要较长的同源臂。该修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。即使在表达Cas9、gRNA和外源修复模板的细胞中，HDR的效率通常也较低(修饰的等位基因的<10％)。通过同步化细胞可增强HDR的效率，因为HDR在细胞周期的S期和G2期发生。在化学或遗传上抑制参与NHEJ的基因也可增加HDR频率。

在一些实施方案中，Cas9为修饰的Cas9。在存在部分同源性的整个基因组中，给定gRNA靶向序列可具有另外的位点。这些位点被称为脱靶，并且在设计gRNA时需要进行考虑。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:9的核苷酸序列。在一些实施方案中，GEMS序列靶向序列包含SEQ ID NO:14的核苷酸序列。在一些实施方案中，GEMS位点指导RNA序列包含SEQ ID NO:15的核苷酸序列。除优化gRNA设计之外，还可通过对Cas9进行修饰来增加CRISPR特异性。Cas9通过两个核酸酶结构域(RuvC和HNH)的组合活性而生成双链断裂(DSB)。Cas9切口酶(SpCas9的D10A突变体)保留了一个核酸酶结构域并生成DNA缺口而非DSB。因此，需要靶向相反DNA链的两种切口酶以在靶DNA内生成DSB(通常称被为双切口或双重切口酶CRISPR系统)。这一要求极大地提高了靶标特异性，因为不可能在足够接近以产生DSB的距离内生成两个脱靶切口。该切口酶系统还可与用于特定基因编辑的HDR介导的基因编辑组合。

在一些实施方案中，修饰的Cas9为高保真Cas9酶。在一些实施方案中，该高保真Cas9酶为SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超精确Cas9变体(HypaCas9)。修饰的Cas9 eSpCas9(1.1)含有弱化HNH/RuvC沟与非靶标DNA链之间的相互作用的丙氨酸置换，从而防止链分离和在脱靶位点处的切割。类似地，SpCas9-HF1通过破坏Cas9与DNA磷酸骨架之间的相互作用的丙氨酸置换降低了脱靶编辑。HypaCas9在REC3结构域中包含突变(SpCas9 N692A/M694A/Q695A/H698A)，这增加了Cas9校正和靶标辨别。所有三种高保真酶相比于野生型Cas9生成更少的脱靶编辑。

在一些情况下，Cas9为变体Cas9蛋白。当与野生型Cas9蛋白的氨基酸序列进行比较时，变体Cas9多肽具有相差一个氨基酸的氨基酸序列(例如，具有缺失、插入、置换、融合)。在一些情况下，变体Cas9多肽具有降低该Cas9多肽的核酸酶活性的氨基酸变化(例如，缺失、插入或置换)。例如，在一些情况下，变体Cas9多肽具有小于50％、小于40％、小于30％、小于20％、小于10％、小于5％或小于1％的相应野生型Cas9蛋白的核酸酶活性。在一些情况下，变体Cas9蛋白没有实质的核酸酶活性。当主题Cas9蛋白是不具有实质的核酸酶活性的变体Cas9蛋白时，其可被称为“dCas9”。

在一些情况下，变体Cas9蛋白具有降低的核酸酶活性。例如，变体Cas9蛋白表现出少于约20％、少于约15％、少于约10％、少于约5％、少于约1％或少于约0.1％的野生型Cas9蛋白(例如野生型Cas9蛋白)的内切核酸酶活性。

在一些情况下，变体Cas9蛋白可切割指导靶序列的互补链，但具有降低的切割双链指导靶序列的非互补链的能力。例如，变体Cas9蛋白可具有降低RuvC结构域功能的突变(氨基酸置换)。在一些实施方案中，作为非限制性实例，变体Cas9蛋白具有D10A(在氨基酸位置10处天冬氨酸突变为丙氨酸)，并且由此可切割双链指导靶序列的互补链，但具有降低的切割双链指导靶序列的非互补链的能力(因此当该变体Cas9蛋白切割双链靶核酸时，导致出现单链断裂(SSB)而非双链断裂(DSB))(参见，例如，Jinek等人,Science.2012Aug.17；337(6096):816-21)。

在一些情况下，变体Cas9蛋白可切割双链指导靶序列的非互补链，但具有降低的切割指导靶序列的互补链的能力。例如，变体Cas9蛋白可具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸置换)。在一些实施方案中，作为非限制性实例，变体Cas9蛋白具有H840A(在氨基酸位置840处组氨酸突变为丙氨酸)突变，并且由此可切割指导靶序列的非互补链，但具有降低的切割指导靶序列的互补链的能力(因此当该变体Cas9蛋白切割双链指导靶序列时，导致出现SSB而非DSB)。这样的Cas9蛋白具有降低的切割指导靶序列(例如，单链指导靶序列)的能力，但保留与指导靶序列(例如，单链指导靶序列)结合的能力。

在一些情况下，变体Cas9蛋白具有降低的切割双链靶DNA的互补链和非互补链两者的能力。在一些情况下，作为非限制性实例，该变体Cas9蛋白携带D10A和H840A这两个突变，使得多肽具有降低的切割双链靶DNA的互补链和非互补链的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留与靶DNA(例如单链靶DNA)结合的能力。

在一些情况下，作为另一个非限制性实例，变体Cas9蛋白携带W476A和W1126A这两个突变，使得多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留与靶DNA(例如，单链靶DNA)结合的能力。

在一些情况下，作为另一个非限制性实例，变体Cas9蛋白携带P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留与靶DNA(例如，单链靶DNA)结合的能力。

在一些情况下，作为另一个非限制性实例，变体Cas9蛋白携带H840A、W476A和W1126A突变，使得多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留与靶DNA(例如，单链靶DNA)结合的能力。

在一些情况下，作为另一个非限制性实例，变体Cas9蛋白携带H840A、D10A、W476A和W1126A突变，使得多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留了与靶DNA(例如，单链靶DNA)结合的能力。

在一些情况下，作为另一个非限制性实例，该变体Cas9蛋白携带H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留与靶DNA(例如，单链靶DNA)结合的能力。

在一些情况下，作为另一个非限制性实例，变体Cas9蛋白携带D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变，使得多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白具有降低的切割靶DNA(例如，单链靶DNA)的能力，但保留与靶DNA(例如，单链靶DNA)结合的能力。

在一些情况下，当变体Cas9蛋白携带W476A和W1126A突变，或该变体Cas9蛋白携带P475A、W476A、N477A、D1125A、W1126A和D1127A突变时，该变体Cas9蛋白不与PAM序列有效地结合。因此，在一些这样的情况下，当这样的变体Cas9蛋白用于结合方法时，该方法不必包括PAM-mer。换言之，在一些情况下，当这样的变体Cas9蛋白用于结合方法时，该方法可包括指导RNA，但该方法可在不存在PAM-mer的情况下进行(因此，结合的特异性由所述指导RNA的靶向区段来提供)。

其他残基可经突变以达到上述效果(即，使一个或其他核酸酶部分失活)。作为非限制性实例，可改变(即，置换)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987。此外，除丙氨酸置换以外的突变也是合适的。

在一些实施方案中，变体Cas9蛋白具有降低的催化活性(例如，当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变，例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时)，只要变体Cas9蛋白保留与指导RNA相互作用的能力，其可以仍然以位点特异性方式与靶DNA结合(因为其仍然通过指导RNA引导至靶DNA序列)。

酿脓链球菌Cas9的替代物可包括来自在哺乳动物细胞中显示切割活性的Cpf1家族的RNA指导的内切核酸酶。来自普雷沃氏菌属(Prevotella)和弗朗西斯氏菌属(Francisella)1的CRISPR(CRISPR/Cpf1)是与CRISPR/Cas9系统类似的DNA编辑技术。Cpf1为II类CRISPR/Cas系统的RNA指导的内切核酸酶。这种获得性免疫机制存在于普雷沃氏菌属和弗朗西斯氏菌属细菌中。Cpf1基因与CRISPR基因座相关，编码使用指导RNA来发现和切割病毒DNA的内切核酸酶。Cpf1是比Cas9更小且更简单的内切核酸酶，克服了一些CRISPR/Cas9系统的限制。与Cas9核酸酶不同，Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可开发定向基因转移的可能性，类似于传统的限制酶克隆，这可提高基因编辑的效率。与上述Cas9变体和直向同源物相同，Cpf1还可扩充可被CRISPR靶向到的富含AT的区域或富含AT的基因组(缺乏SpCas9所偏爱的NGG PAM位点)的位点的数目。Cpf1基因座包含混合的α/β结构域、RuvC-I、之后是螺旋区、RuvC-II和锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样内切核酸酶结构域。此外，Cpf1不具有HNH内切核酸酶结构域，并且Cpf1的N末端不具有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构显示Cpf1在功能上是独特的，被归类为2类V型CRISPR系统。Cpf1基因座编码Cas1、Cas2和Cas4蛋白，这相比于II型系统与I型和III型更类似。功能性Cpf1不需要反式激活CRISPRRNA(tracrRNA)，因此仅需要CRISPR(crRNA)。这有利于基因组编辑，因为Cpf1不仅比Cas9更小，而且其还具有更小的sgRNA分子(核苷酸的数目约为Cas9的一半)。与Cas9靶向的富含G的PAM不同，该Cpf1-crRNA复合体通过鉴别前间区序列邻近基序5'-YTN-3'来切割靶DNA或RNA。在鉴别PAM后，Cpf1引入了4或5个核苷酸突出端的粘性末端样DNA双链断裂。

前间区序列邻近基序

前间区序列邻近基序(PAM)或PAM样基序是指在CRISPR细菌适应性免疫系统中紧邻由Cas9核酸酶靶向的DNA序列之后的2-6个碱基对DNA序列。在一些实施方案中，该PAM可以是5'PAM(即，位于前间区序列的5'端的上游)。在其他实施方案中，该PAM可以是3'PAM(即，位于前间区序列的5'末的下游)。PAM序列对于靶标结合至关重要，但确切序列则取决于Cas蛋白类型。Cas蛋白的非限制性实例包括：Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、C2c1、C2c2、C2c3、Cpf1、CARF、DinG、其同源物或其修饰形式。

在实施方案中，多基因编辑位点包含针对CRISPR相关内切核酸酶Cas9的多个次级内切核酸酶识别位点。在实施方案中，每个次级识别位点对于来自不同细菌物种的Cas9酶具有特异性。Cas9核酸酶识别位点可包含与核苷酸前间区序列邻近基序(PAM)序列偶联的靶向序列。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:9的核苷酸序列。在一些实施方案中，GEMS序列靶向序列包含SEQ ID NO:14的核苷酸序列。在一些实施方案中，GEMS序列指导RNA序列包含SEQ ID NO:15的核苷酸序列。不同的细菌物种编码不同的Cas9核酸酶蛋白，其识别不同的PAM序列。因此，为了便于Cas9促使将供体基因插入多基因编辑位点中，该多基因编辑位点可包含针对Cas9的多个次级内切核酸酶识别位点，其各自包含与PAM序列偶联的靶序列(图4-图6)。

每个Cas9核酸酶靶序列可与PAM序列偶联。在所述多基因编辑位点中的Cas9核酸酶识别位点中，每个PAM序列可与其他PAM序列不同(例如，可变PAM区和恒定crRNA区)(图2B)，即使Cas9核酸酶识别位点中的靶序列相同。在一些情况下，每个PAM序列可与其他PAM序列相同，虽然在这种情况下Cas9核酸酶识别位点中的靶序列可不同(例如，恒定PAM区和可变crRNA区)(图2A)。

所述PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于：CC、NG、YG、NGG、NAA、NAT、NAG、NAC、NTA、NTT、NTG、NTC、NGA、NGT、NGC、NCA、NCT、NCG、NCC、NRG、TGG、TGA、TCG、TCC、TCT、GGG、GAA、GAC、GTG、GAG、CAG、CAA、CAT、CCA、CCN、CTN、CGT、CGC、TAA、TAC、TAG、TGG、TTG、TCN、CTA、CTG、CTC、TTC、AAA、AAG、AGA、AGC、AAC、AAT、ATA、ATC、ATG、ATT、AWG、AGG、GTG、TTN、YTN、TTTV、TYCV、TATV、NGAN、NGNG、NGAG、NGCG、AAAAW、GCAAA、TGAAA、NGGNG、NGRRT、NGRRN、NNGRRT、NNAAAAN、NNNNGATT、NAAAAC、NNAAAAAW、NNAGAA、NNNNACA、GNNNCNNA、NNNNGATT、NNAGAAW、NNGRR、NNNNNNN和TGGAGAAT，及其任何变异。表1-表2中列出了由不同Cas9酶种类识别的不同PAM序列。

表1.Cas酶和PAM序列

*Y为嘧啶；N为任何核苷酸碱基；W为A或T。

表2.可变PAM

在一些实施方案中，所述PAM序列可以在有义链或反义链上(图2A、图2B、图3、图4和表3-表5)。PAM序列可以以任何方向定向。例如，多基因编辑位点中的包含靶序列和PAM序列的Cas9核酸酶识别位点(次级内切核酸酶识别位点)可在构建体的有义链或反义链中的任一者上，或在构建体的有义链和反义链两者上，并且可以以任何方向定向。在实施方案中，基因编辑位点crRNA序列可以是5'-NNNNNNNNNNNNNNNNNNNN-gRNA-3'(表3)。在实施方案中，基因编辑位点crRNA序列可以是3′-gRNA-NNNNNNNNNNNNNNNNNNNN-5′(表4)。

表3.GEMS编辑位点crRNA序列(5'至3'链；有义非模板链上的PAM)

SEQ ID NO	序列
		33	UGAAUUAGAUUUGCGUUACU
34	UCACAAUCACUCAAGAAGCA
		35	CUUUAGACACAGUAAGACAA
36	CCCGCAAUAGAGAGCUUUGA
		37	GAACGUATCUGCAUGUCUAG
38	CAUGCCUUUAGAAUUCAGUA
		39	UGUGUUAGCGCGCUGAUCUG
40	UACGAAGUCGAGAUAAAAUG
		41	GCAUAACCAGUACGCAAGAU
42	UUUUGCUACAUCUUGUAAUA
		43	AUUAUAAUAUUCAGUAGAAA
44	CAGCTACGAGUCACGAUGUA
		45	CAAUGACAAUAGCGAUAACG
46	GUUACGUUCGCGAAGCGUUG
		47	GCGUAACAACUUCUGAGUUG

*5′-NNNNNNNNNNNNNNNNNNNN-gRNA-3′

表4.GEMS编辑位点crRNA序列(3'至5'链；反义模板链上的PAM)

*3′-gRNA-NNNNNNNNNNNNNNNNNNNN-5′

表5.GEMS 2.0编辑位点crRNA序列

在实施方案中，酿脓链球菌Cas9(SpCas9)可用作CRISPR内切核酸酶而用于基因组工程化。然而，可使用其他Cas9。在一些情况下，可使用不同的内切核酸酶来靶向某些基因组靶标。在一些情况下，可使用具有非NGG PAM序列的合成SpCas9衍生的变体。另外，已鉴别出来自不同物种的其他Cas9直向同源物，并且这些“非SpCas9”可与同样可用于本公开内容的多种PAM序列结合。例如，相对大尺寸的SpCas9(大约4kb编码序列)可产生携带无法在细胞中有效表达的SpCas9 cDNA的质粒。相反，金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短大约1千碱基，这可允许其在细胞中有效表达。与SpCas9相类似，SaCas9内切核酸酶能够在哺乳动物细胞中体外地和在小鼠中体内地修饰靶基因。在一些情况下，Cas蛋白可靶向不同的PAM序列。例如，在一些情况下，靶基因可邻近于Cas9 PAM、5'-NGG。在其他情况下，其他Cas9直向同源物可具有不同的PAM需求。例如，其他PAM如嗜热链球菌的PAM(CRISPR1的5'-NNAGAA和CRISPR3的5'-NGGNG)和脑膜炎奈瑟氏球菌的PAM(5'-NNNNGATT)也可发现邻近于靶基因。本公开内容的转基因可插入邻近于来自任何Cas、或Cas衍生物、蛋白质的任何PAM序列。在一些情况下，在所述GEMS构建体中每8至12个碱基对或约每8至12个碱基对可见PAM。在该GEMS构建体中每1至15个碱基对处可见PAM。在该GEMS构建体中每5至20个碱基对处可见PAM。在一些情况下，在该GEMS构建体中每5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个碱基对处可见PAM。在实施方案中，在该GEMS构建体中每5-10、10-15、15-20、20-25、25-30、30-35、35-40、40-45、45-50、50-55、55-60、60-65、65-70、70-75、75-80、80-85、85-90、90-95或95-100个碱基对处或它们之间可见PAM。在实施方案中，在该GEMS构建体中大于100个碱基对、大于200个碱基对、大于300个碱基对、大于400个碱基对或大于500个碱基对处或它们之间可见PAM。在一些实施方案中，该GEMS构建体包含SEQ IDNO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％100％的同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ IDNO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。

在一些实施方案中，对于酿脓链球菌系统，靶基因序列可以在5'-NGG PAM之前(即，为5')，并且20-nt指导RNA序列可与互补链碱基配对以介导与邻近于PAM的Cas9切割。在一些情况下，邻近切口可在PAM上游3个碱基对处或可在PAM上游约3个碱基对处。在一些情况下，邻近切口可在PAM上游10个碱基对处或可在PAM上游约10个碱基对处。在一些情况下，邻近切口可在PAM上游0-20个碱基对处或可在PAM上游约0-20个碱基对处。例如，邻近切口可与PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对相邻。邻近切口还可在PAM下游1至30个碱基对处。

在实施方案中，所述GEMS构建体包含多个次级内切核酸酶识别位点。在实施方案中，多个次级内切核酸酶识别位点为多个PAM。多个PAM中的每一个PAM可处于任何方向(5′或3′)。该GEMS构建体中的PAM序列的数目可有所不同。在实施方案中，该GEMS构建体包含多个PAM。在实施方案中，该GEMS构建体可包含一个或多个PAM。在实施方案中，该GEMS构建体可包含两个或更多个PAM。在实施方案中，该GEMS构建体可包含三个或更多个PAM。在实施方案中，该GEMS构建体可包含四个或更多个PAM。在实施方案中，该GEMS构建体可包含五个或更多个PAM。在实施方案中，该GEMS构建体可包含六个或更多个PAM。在实施方案中，该GEMS构建体可包含七个或更多个PAM。在实施方案中，该GEMS构建体可包含八个或更多个PAM。在实施方案中，该GEMS构建体可包含九个或更多个PAM。在实施方案中，该GEMS构建体可包含十个或更多个PAM。在实施方案中，该GEMS构建体可包含十一个或更多个PAM。在实施方案中，该GEMS构建体可包含十二个或更多个PAM。在实施方案中，该GEMS构建体可包含十三个或更多个PAM。在实施方案中，该GEMS构建体可包含十四个或更多个PAM。在实施方案中，该GEMS构建体可包含十五个或更多个PAM。在实施方案中，该GEMS构建体可包含十六个或更多个PAM。在实施方案中，该GEMS构建体可包含十七个或更多个PAM。在实施方案中，该GEMS构建体可包含十八个或更多个PAM。在实施方案中，该GEMS构建体可包含十九个或更多个PAM。在实施方案中，该GEMS构建体可包含二十个或更多个PAM。在实施方案中，该GEMS构建体可包含三十个或更多个PAM。在实施方案中，该GEMS构建体可包含四十个或更多个PAM。

可使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如，可具有或具有约1、2、3、4、5、6、7、8、9、10个使用的NLS。CRISPR酶可包含在氨基末端处或其附近的NLS、在羧基末端处或附近的约或大于约1、2、3、4、5、6、7、8、9、10个NLS，或这些的任何组合(例如，在氨基末端处的一个或多个NLS，和在羧基末端处的一个或多个NLS)。当存在多于一个NLS时，可彼此独立地选择每一个NLS，使得单个NLS可存在于多于一个拷贝中和/或与一个或多个其他NLS组合存在于一个或多个拷贝中。

所述方法中使用的CRISPR酶可包含约6个NLS。当与NLS最接近的氨基酸在沿着多肽链距离N末端或C末端约50个氨基酸以内时，例如在1、2、3、4、5、10、15、20、25、30、40或50个氨基酸内时，认为NLS接近N末端或C末端。

指导多核苷酸

如本文所用，术语“指导多核苷酸”是指可对靶序列具有特异性并且可与Cas蛋白形成复合体的多核苷酸。在实施方案中，指导多核苷酸为指导RNA。如本文所用，术语“指导RNA(gRNA)”及其语法等同项可指可对靶DNA具有特异性并且可以与Cas蛋白形成复合体的RNA。RNA/Cas复合体可有助于将Cas蛋白“引导”至靶DNA。

本文公开的方法还可包括向宿主细胞中引入至少一种指导RNA或指导多核苷酸，例如编码至少一种指导RNA的DNA。指导RNA或指导多核苷酸可以与RNA指导的内切核酸酶相互作用以将该内切核酸酶引导至特定的靶位点，在该靶位点处指导RNA碱基对的5'端与染色体序列中的特定前间区序列配对。

指导RNA或指导多核苷酸可包含两种RNA，例如CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。指导RNA或指导多核苷酸有时可包含单链RNA，或包含通过将crRNA和tracrRNA的一部分(例如，功能部分)融合而形成的单指导RNA(sgRNA)。指导RNA或指导多核苷酸还可以是包含crRNA和tracrRNA的双RNA。此外，crRNA可与靶DNA杂交。在一些实施方案中，sgRNA是SEQ ID NO:24-32中的任一序列。在实施方案中，指导RNA可以是具有PAM变体的固定指导RNA。例如，GEMS构建体可被设计为包含crRNA序列5'-CUUACUACAUGUGCGUGUUC-(gRNA)-3'，其中PAM可以在有义非模板链上。例如，GEMS构建体可被设计为包含crRNA序列3'-(gRNA)AAAUGAGCAGCAUACUAACA-5'，其中PAM可以在反义模板链上。

在一些实施方案中，所述gRNA是SEQ ID NO:24-32中的任一序列(表6)。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:9的核苷酸序列。在一些实施方案中，AAVs1 CRISPR gRNA序列包含SEQ ID NO:10的核苷酸序列。在一些实施方案中，GEMS序列靶向序列包含SEQ ID NO:14的核苷酸序列。在一些实施方案中，GEMS序列指导RNA序列包含SEQ ID NO:15的核苷酸序列。

如上所述，指导RNA或指导多核苷酸可以是表达产物。例如，编码指导RNA的DNA可以是包含编码指导RNA的序列的载体。通过用分离的指导RNA或包含编码指导RNA的序列和启动子的质粒DNA来转染细胞，可将指导RNA或指导多核苷酸转移至细胞中。指导RNA或指导多核苷酸还可以以其他方式转移至细胞中，如使用病毒介导的基因递送。

指导RNA或指导多核苷酸可以是分离的。例如，指导RNA可以以分离RNA的形式被转染至细胞或生物体中。可使用本领域已知的任何体外转录系统通过体外转录来制备指导RNA。指导RNA可以以分离RNA的形式而不是以包含指导RNA的编码序列的质粒的形式被转移至细胞中。

指导RNA或指导多核苷酸可包含三个区域：可以与染色体序列中的靶位点互补的5'端处的第一区域、可以形成茎环结构的第二内部区域和可以是单链的第三3'区域。每个指导RNA的第一区域也可以是不同的，使得每个指导RNA将融合蛋白引导至特定靶位点。此外，在所有指导RNA中，每个指导RNA的第二和第三区域可以是相同的。

指导RNA或指导多核苷酸的第一区域可以与染色体序列中的靶位点处的序列互补，使得指导RNA的第一区域可以与靶位点碱基配对。在一些情况下，指导RNA的第一区域可包含或包含约10个核苷酸至25个核苷酸(即，10个核苷酸至核苷酸；或约10个核苷酸至约25个核苷酸；或10个核苷酸至约25个核苷酸；或约10个核苷酸至25个核苷酸)或更多。例如，在指导RNA的第一区域与染色体序列中的靶位点之间的碱基配对的区域的长度可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25个或更多个核苷酸。有时，指导RNA的第一区域的长度可以是或可以是约19、20或21个核苷酸。

指导RNA或指导多核苷酸还可包含形成二级结构的第二区域。例如，由指导RNA形成的二级结构可包含茎(或发夹)和环。环和茎的长度可以不同。例如，环的长度可以是或可以是约3至10个核苷酸的范围，并且茎的长度可以是或可以是约6至20个碱基对的范围。茎可包含1至10个或约10个核苷酸的一个或多个凸起。第二区域的总长度可以是或可以是约16至60个核苷酸的范围的长度。例如，环的长度可以是或可以是约4个核苷酸，并且茎可以是或可以是约12个碱基对。

指导RNA或指导多核苷酸还可包含可以是基本上单链的在3'端处的第三区域。例如，有时第三区域不与感兴趣细胞中的任何染色体序列互补，并且有时不与指导RNA的其余部分互补。此外，第三区域的长度可以不同。第三区域的长度可以是大于或大于约4个核苷酸。例如，第三区域的长度可以是或可以是约5至60个核苷酸范围的长度。

指导RNA或指导多核苷酸可靶向基因靶标的任何外显子或内含子。在一些情况下，指导RNA可靶向基因的外显子1或2；在其他情况下，指导RNA可靶向基因的外显子3或4。组合物可包含全部靶向相同外显子的多个指导RNA，或者在一些情况下可包含可靶向不同外显子的多个指导RNA。可靶向基因的外显子和内含子。

指导RNA或指导多核苷酸可靶向20个核苷酸或约20个核苷酸的核酸序列。靶核酸可以小于或小于约20个核苷酸。靶核酸的长度可以是至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30个核苷酸，或1-100个核苷酸之间的任何长度。靶核酸的长度可以是至多或至多约5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50个核苷酸，或1-100个核苷酸之间的任何长度。靶核酸序列可以是PAM的第一个核苷酸的紧邻5'的20个碱基或约20个碱基。指导RNA可靶向核酸序列。靶核酸可以是至少或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90个或1-100个核苷酸。

指导多核苷酸(例如指导RNA)可以指能够与另一核酸例如细胞基因组中的靶核酸或前间区序列杂交的核酸。指导多核苷酸可以是RNA。指导多核苷酸可以是DNA。可以对指导多核苷酸进行编程或设计，从而使其与核酸序列位点特异性地结合。指导多核苷酸可包含多核苷酸链，并且可被称为单指导多核苷酸。指导多核苷酸可包含两条多核苷酸链，并且可被称为双指导多核苷酸。指导RNA可作为RNA分子而被引入细胞或胚胎中。例如，RNA分子可以体外转录和/或可化学合成。RNA可以从合成DNA分子例如基因片段转录。然后指导RNA可作为RNA分子被引入细胞或胚胎中。指导RNA还可以以非RNA核酸分子(例如DNA分子)的形式被引入细胞或胚胎中。例如，编码指导RNA的DNA可以与启动子控制序列可操作地连接从而在感兴趣的细胞或胚胎中表达指导RNA。RNA编码序列可以与由RNA聚合酶III(Pol III)识别的启动子序列可操作地连接。可用于表达指导RNA的质粒载体包括但不限于px330载体和px333载体。在一些情况下，质粒载体(例如，px333载体)可包含至少两个编码指导RNA的DNA序列。

编码指导RNA或指导多核苷酸的DNA序列还可以是载体的一部分。此外，载体可包含另外的表达控制序列(例如，增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、选择标记序列(例如，GFP或诸如嘌呤霉素等抗生素抗性基因)、复制起点等。编码指导RNA的DNA分子也可以是线性的。编码指导RNA或指导多核苷酸的DNA分子还可以是环状的。

当编码RNA指导的内切核酸酶和指导RNA的DNA序列被引入细胞中时，每个DNA序列可以是单独分子的一部分(例如，一个载体含有RNA指导的内切核酸酶编码序列，第二载体含有指导RNA编码序列)，或者这两个DNA序列可以是相同分子的一部分(例如，一个载体含有RNA指导的内切核酸酶和指导RNA两者的编码(和调节)序列)。

指导多核苷酸可包含一种或多种修饰以提供具有新的或增强的特征的核酸。指导多核苷酸可包含核酸亲和标签。指导多核苷酸可包含合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。

在一些情况下，gRNA或指导多核苷酸可包含修饰。可以在gRNA或指导多核苷酸的任何位置进行修饰。可对单个gRNA或指导多核苷酸进行多于一次修饰。gRNA或指导多核苷酸可在修饰后进行质量控制。在一些情况下，质量控制可包括PAGE、HPLC、MS或其任意组合。

gRNA或指导多核苷酸的修饰可以是置换、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任意组合。

gRNA或指导多核苷酸还可通过5′腺苷酸、5′鸟苷三磷酸帽、5′N7-甲基鸟苷三磷酸帽、5′三磷酸帽、3′磷酸、3′硫代磷酸、5′磷酸、5′硫代磷酸、Cis-Syn胸苷二聚体、三聚体、C12间隔区、C3间隔区、C6间隔区、d间隔区、PC间隔区、r间隔区、间隔区18、间隔区9、3′-3′修饰、5′-5′修饰、脱碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3′DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基接头、硫醇接头、2′脱氧核糖核苷类似物嘌呤、2′脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2′-O-甲基核糖核苷类似物、糖修饰类似物、变偶碱基/通用碱基、荧光染料标签、2′氟代RNA、2′O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸DNA、硫代磷酸RNA、UNA、假尿苷-5′-三磷酸、5-甲基胞苷-5′-三磷酸或其任意组合来修饰。

在一些情况下，修饰是永久性。在其他情况下，修饰是暂时性。在一些情况下，对gRNA或指导多核苷酸进行多种修饰。gRNA或指导多核苷酸修饰可改变核苷酸的物理化学性质，诸如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任意组合。

修饰还可以是硫代磷酸酯置换。在一些情况下，天然磷酸二酯键可容易地被细胞核酸酶快速降解；并且使用硫代磷酸酯(PS)键置换的核苷酸间键合的修饰可以对于通过细胞降解的水解更稳定。修饰可增加gRNA或指导多核苷酸的稳定性。修饰还可增强生物活性。在一些情况下，硫代磷酸酯增强的RNA gRNA可抑制RNA酶A、RNA酶T1、小牛血清核酸酶或其任意组合。这些性质可允许使用PS-RNA gRNA来用于在体内或体外具有高度可能性暴露于核酸酶的应用中。例如，可以在gRNA的5'端或3'端处的最后3-5个核苷酸之间引入硫代磷酸酯(PS)键，这可抑制外切核酸酶降解。在一些情况下，可在全部整个gRNA上添加硫代磷酸酯键以减少受到内切核酸酶的攻击。

启动子

“启动子”是指启动编码序列的转录的多核苷酸区域。启动子位于基因的转录起始位点附近，在DNA相同链上的上游(朝向有义链的5'区)。一些启动子是组成型的，因为它们在细胞中在所有情况下都有活性，而其他启动子经调节响应于特定刺激变得有活性(例如，诱导型启动子)。而其他启动子是组织特异性的或活化的启动子，包括但不限于T细胞特异性启动子。

合适的启动子可衍生自病毒，并且因此可称为病毒启动子，或者它们可以衍生自包括原核生物体或真核生物体在内的任何生物体。合适的启动子可用于驱动通过任何RNA聚合酶(例如pol I、pol II、pol III)的表达。非限制性示例性启动子包括猿猴病毒40(SV40)早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子、人免疫缺陷病毒(HIV)长末端重复序列(LTR)启动子、腺病毒主要晚期启动子(Ad MLP)、单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子如CMV立即早期启动子区域(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)、增强的U6启动子、人H1启动子(H1)、小鼠乳腺瘤病毒(MMTV)、maloney鼠白血病病毒(MoMuLV)启动子、禽白血病病毒启动子、EB病毒立即早期启动子、肌动蛋白启动子、肌球蛋白启动子、延伸因子-1启动子、血红蛋白启动子、肌酸激酶启动子和Ovian白血病病毒启动子。U6启动子可用于在真核细胞中表达非编码RNA(例如，靶向剂RNA、激活剂-RNA、单指导RNA)。

本公开内容不应限于使用组成型启动子。诱导型启动子也考虑作为本公开内容的一部分。使用诱导型启动子提供分子开关，其能够在需要表达时开启其可操作地连接的多核苷酸序列的这样的表达，或者当不需要表达时关闭该表达。

如本文所使用的“诱导型启动子”是指通过存在或不存在转录调节因子(例如生物或非生物因子)来诱导其具有活性的启动子。诱导型启动子是有用的，因为与它们可操作地连接的基因的表达可以在生物体某些发育阶段或在特定组织中开启或关闭。诱导型启动子的实例为醇调节的启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、发病机理调节的启动子、温度调节的启动子和光调节的启动子。诱导型启动子允许使用一种或多种化学诱导物、生物诱导物和/或环境诱导物来控制表达。非限制性示例性诱导物包括多西环素、异丙基-β-硫代半乳吡喃糖苷(IPTG)、半乳糖、二价阳离子、乳糖、阿拉伯糖、木糖、N-酰基高丝氨酸内酯、四环素、类固醇、金属、醇、热或光。

诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-硫代半乳吡喃糖苷(IPTG)调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等等。因此，诱导型启动子可通过以下分子来调节，包括但不限于多西环素；RNA聚合酶，例如T7 RNA聚合酶；雌激素受体；雌激素受体融合等。

诱导型启动子利用配体来进行所述至少两种基因的表达的剂量调节控制。在一些情况下，配体可选自：蜕皮甾类、9-顺视黄酸、视黄酸的合成类似物、N,N’-二酰肼、噁二唑啉、二苯甲酰基烷基氰基肼、N-烷基-N,N’-二芳酰基肼、N-酰基-N-烷基羰基肼、N-芳酰基-N-烷基-N’-芳酰基肼、arnidoketone、3,5-二叔丁基-4-羟基-N-异丁基-苯甲酰胺、8-O-乙酰基哈帕苷、氧化甾醇、22(R)羟基胆固醇、24(S)羟基胆固醇、25-环氧胆固醇、T0901317、5-α-6-α-环氧胆固醇-3-硫酸酯(ECHS)、7-酮基胆固醇-3-硫酸酯、framesol、胆汁酸、1,1-二膦酸酯、保幼激素III、RG-115819(3,5-二甲基-苯甲酸N-(1-乙基-2,2-二甲基-丙基)-N’-(2-甲基-3-甲氧基-苯甲酰基)-酰肼)、RG-115932((R)-3,5-二甲基-苯甲酸N-(1-叔丁基-丁基)-N’-(2-乙基-3-甲氧基-苯甲酰基)-酰肼)和RG-115830(3,5-二甲基-苯甲酸N-(1-叔丁基-丁基)-N’-(2-乙基-3-甲氧基-苯甲酰基)-酰肼)及其任意组合。

还可在构建体中使用表达控制序列。例如，表达控制序列可包含组成型启动子，其在很多种细胞类型中表达。例如，在合适的强组成型启动子和/或增强子中的表达控制序列来自DNA病毒(例如，SV40、多瘤病毒、腺病毒、腺伴随病毒、痘病毒、CMV、HSV等)或来自逆转录病毒LTR。还可使用组织特异性启动子，并且该组织特异性启动子可用于引导特定细胞谱系的表达。

在一些实施方案中，启动子为诱导型启动子。在一些实施方案中，启动子为非诱导型启动子。在一些情况下，启动子可以是组织特异性启动子。本文“组织特异性”是指基因在组织或细胞类型的子集中的受调节的表达。在一些情况下，可以在空间上调节组织特异性启动子，使得启动子仅在生物体的某些组织或细胞类型中驱动表达。在其他情况下，可以在时间上调节组织特异性启动子，使得启动子随时间有差异地驱动细胞类型或组织中的表达，包括在生物体的发育期间。在一些情况下，组织特异性启动子在空间和时间上均受到调节。在某些实施方案中，组织特异性启动子在某些细胞类型中被组成性地激活或在细胞类型的特定时间或阶段被间歇性地激活。例如，组织特异性启动子可以是当诸如T细胞或NK细胞等特定细胞被激活时而被激活的启动子。T细胞可以多种方式被激活，例如当MHC II类分子呈递肽抗原时，或者当包含抗原结合多肽的工程化T细胞与抗原进行接合时。在一种情况下，这样的工程化T细胞或NK细胞表达嵌合抗原受体(CAR)或T细胞受体(TCR)。

在一些实施方案中，启动子是空间上受限的启动子(即，细胞类型特异性启动子、组织特异性启动子等)，使得在多细胞生物中，该启动子在特定细胞的子集中有活性(即“开启”)。空间上受限的启动子也可以被称为增强子、转录控制元件、控制序列等。可以使用任何便利的空间上受限的启动子，并且合适的启动子(例如，脑特异性启动子、驱动在神经元子集中表达的启动子、驱动在种系中表达的启动子、驱动在肺中表达的启动子、驱动在肌肉中表达的启动子、驱动在胰腺的胰岛细胞中表达的启动子等)的选择可取决于生物体。例如，已知植物、果蝇、蠕虫、哺乳动物、小鼠等的各种空间上受限的启动子。因此，取决于所述生物体，空间上受限的启动子可用于调节编码例如报道基因、治疗性蛋白或核酸酶的核酸在多种不同组织和细胞类型中的表达。一些空间上受限的启动子也在时间上受限，使得启动子在胚胎发育的特定阶段期间或在生物过程的特定阶段期间处于“开启”状态或“关闭”状态。

为了说明性目的，空间上受限的启动子的非限制性实例包括神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子或光感受器特异性启动子。神经元特异性空间上受限的启动子的非限制性实例包括：神经元特异性烯醇化酶(NSE)启动子(例如，EMBL HSENO2，X51956)；芳香氨基酸脱羧酶(AADC)启动子；神经丝启动子(例如，GenBank HUMNFL，L04147)；突触蛋白启动子(例如，GenBank HUMSYNIB，M55301)；thy-1启动子(例如，Chen等人(1987)Cell 51:7-19；和Llewellyn,等人(2010)Nat.Med.16(10):1161-1166)；5-羟色胺受体启动子(例如，GenBank S62283)；酪氨酸羟化酶启动子(TH)(例如，Oh等人(2009)Gene Ther 16:437；Sasaoka等人(1992)Mol.BrainRes.16:274；Boundy等人(1998)J.Neurosci.18:9989；和Kaneda等人(1991)Neuron 6:583-594)；GnRH启动子(例如，Radovick等人(1991)Proc.Natl.Acad.Sci.USA 88:3402-3406)；L7启动子(例如，Oberdick等人(1990)Science 248:223-226)；DNMT启动子(例如，Bartge等人(1988)Proc.Natl.Acad.Sci.USA 85:3648-3652)；脑啡肽启动子(例如，Comb等人(1988)EMBO J.17:3793-3805)；髓鞘碱性蛋白(MBP)启动子；Ca2+-钙调蛋白-依赖性蛋白激酶II-α(CamKII.α.)启动子(例如，Mayford等人(1996)Proc.Natl.Acad.Sci.USA 93:13250；和Casanova等人(2001)Genesis 31:37)；以及CMV增强子/血小板衍生生长因子β启动子(例如，Liu等人(2004)Gene Therapy 11:52-60)。

脂肪细胞特异性空间上受限的启动子的非限制性实例包括aP2基因启动子/增强子，例如人aP2基因的-5.4kb至+21bp的区域(例如，Tozzo等人(1997)Endocrinol.138:1604；Ross等人(1990)Proc.Natl.Acad.Sci.USA 87:9590；和Pavjani等人(2005)Nat.Med.11:797)；葡萄糖转运蛋白-4(GLUT4)启动子(例如，Knight等人(2003)Proc.Natl.Acad.Sci.USA 100:14725)；脂肪酸移位酶(FAT/CD36)启动子(例如，Kuriki等人(2002)Biol.Pharm.Bull.25:1476；和Sato等人(2002)J.Biol.Chem.277:15703)；硬脂酰CoA去饱和酶-1(SCD1)启动子(Tabor等人(1999)J.Biol.Chem.274:20603)；瘦蛋白启动子(例如，Mason等人(1998Endocrinol.139:1013；和Chen等人(1999)Biochem.Biophys.Res.Comm.262:187)；脂连蛋白启动子(例如，Kita等人(2005)Biochem.Biophys.Res.Comm.331:484；和Chakrabarti(2010)Endocrinol.151:2408)；降脂蛋白启动子(例如，Platt等人(1989)Proc.Natl.Acad.Sci.USA 86:7490)；以及抵抗素启动子(例如，Seo等人(2003)Molec.Endocrinol.17:1522)。

心肌细胞特异性空间上受限的启动子的非限制性实例包括衍生自以下基因的控制序列：肌球蛋白轻链-2、α-肌球蛋白重链、AE3、心肌肌钙蛋白C和心肌肌动蛋白(Franz等人(1997)Cardiovasc.Res.35:560-566；Robbins等人(1995)Ann.N.Y.Acad.Sci.752:492-505；Linn等人(1995)Circ.Res.76:584-591；Parmacek等人(1994)Mol.Cell.Biol.14:1870-1885；Hunter等人(1993)Hypertension 22:608-617；和Sartorelli等人(1992)Proc.Natl.Acad.Sci.USA 89:4047-4051)。

合适的启动子的一个实例是立即早期巨细胞病毒(CMV)启动子序列。该启动子序列是能够驱动与其可操作性地连接的任何多核苷酸序列的高水平表达的强组成型启动子序列。在实施方案中，CMV启动子序列包含SEQ ID NO:11的核苷酸序列。在一些实施方案中，CMV启动子包含与SEQ ID NO:11的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

合适的启动子的另一个实例是人延伸生长因子1α1(hEF1a1)。在实施方案中，包含本公开内容的CAR和/或TCR的载体构建体包含hEF1a1功能变体。在实施方案中，所述EF-1α启动子序列包含SEQ ID NO:18的核苷酸序列。在一些实施方案中，该EF-1α启动子包含与SEQ ID NO:18的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

报道系统

在一些方面，所述多基因编辑位点还包含报道基因，其证实了多基因编辑位点已成功插入宿主细胞基因组中。报道基因可编码蛋白质，该蛋白质不干扰供体基因的插入，或不干扰细胞中的其他自然过程，或以不其他方式引起细胞中的有害作用。报道基因可编码可检测的蛋白质如荧光蛋白，包括绿色荧光蛋白(GFP)(SEQ ID NO:12)或相关蛋白如黄色荧光蛋白、蓝色荧光蛋白或红色荧光蛋白。报道基因可处于诱导物(即诱导型启动子)的控制下。在实施方案中，该诱导物为醇、四环素、类固醇、金属或异丙基-β-硫代半乳吡喃糖苷(IPTG)。在实施方案中，诱导物为热或光。例如，如图7-图8所示，所述构建体的多基因编辑位点可包含编码GFP作为报道剂的基因，其中该GFP基因在四环素(Tet)启动子控制下，该启动子抑制GFP蛋白的表达直至细胞暴露于四环素。在实施方案中，GFP序列包含SEQ ID NO:12的核苷酸序列。在实施方案中，GFP序列包含与SEQ ID NO:12的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

为了评估GEMS插入和/或供体核苷酸序列(例如CAR或其部分)的表达，待引入细胞的表达载体还可包含选择标记基因或报道基因或者包含这两者，以便于从试图通过病毒载体来转染或感染的细胞群中鉴别和选择表达的细胞。在一些实施方案中，所述GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。

在其他方面，所述选择标记可在单独的DNA片段上携带并用于共转染程序。选择标记和报道基因均可以在适当的调节序列侧翼以使其能够在宿主细胞中表达。有用的选择标记包括例如抗生素抗性基因，如嘌呤霉素抗性基因(puro)、新霉素抗性基因(neo)(SEQ IDNO:13)、杀稻瘟素抗性基因(bla)(SEQ ID NO:19)和氨苄青霉素抗性基因等。在实施方案中，嘌呤霉素抗性基因序列包含SEQ ID NO:13的核苷酸序列。在一些实施方案中，嘌呤霉素抗性基因序列包含与SEQ ID NO:13的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在实施方案中，杀稻瘟素抗性基因序列包含SEQ ID NO:19的核苷酸序列。在一些实施方案中杀稻瘟素抗性基因序列包含与SEQ ID NO:19的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

报道基因可用于鉴别可能的转染细胞并且用于评价调节序列的功能。通常，报道基因是不存在于受体生物体或组织中或者不由受体生物体或组织表达的基因，并且该报道基因编码多肽，该多肽的表达通过一些易于检测的特性(例如酶活性)来显示。在将DNA引入接受者细胞后的适当时间测定报道基因的表达。合适的报道基因可包括编码萤光素酶、β-半乳糖苷酶、氯霉素乙酰转移酶、分泌型碱性磷酸酶的基因，或绿色荧光蛋白基因(例如，Ui-Tei等人,FEBS Letters 479:79-82(2000))。合适的表达系统是公知的，并且可使用已知技术来制备或可商购获得。通常，将具有显示出报道基因的最高表达水平的最小5'侧翼区的构建体确定为启动子。此类启动子区可以与报道基因连接，并且用于评价试剂的调节启动子驱动的转录的能力。

不论用于向宿主引入外源核酸的方法如何，为了确认宿主细胞中重组DNA序列的存在，可以进行多种测定。此类测定包括例如本领域技术人员公知的分子测定，如Southern和Northern印迹、RT-PCR和PCR；“生化”测定，如检测特定肽的存在或不存在，例如，通过免疫学方法(ELISA和Western印迹)或通过本文所述的测定，来鉴别落入本公开内容范围内的药剂。

宿主细胞

本文提供的GEMS构建体可插入任何合适的细胞中。如本文所用的术语“宿主细胞”是指体内或体外真核细胞(来自单细胞或多细胞生物体的细胞，例如，细胞系)，该体内或体外真核细胞可以用作或已经用作GEMS构建体以及其他插入该GEMS序列中的如本文所述的任何供体核酸序列(例如，编码治疗性蛋白)的接受者。术语“宿主细胞”包括已经被靶向(例如，用GEMS构建体、编码核酸酶和/或指导多核苷酸转染)的原始细胞的后代。应当理解，由于天然的、偶然的或有意的突变，单个细胞的后代不必要在形态上或在基因组上或在总DNA补体上与原始亲本完全相同。宿主细胞可以是具有可被Cas9靶向复合体靶向的DNA的任何真核细胞(例如，真核单细胞生物体、体细胞、生殖细胞、干细胞、植物细胞、藻细胞、动物细胞、无脊椎动物细胞、脊椎动物细胞、鱼细胞、蛙细胞、鸟细胞、哺乳动物细胞、猪细胞、牛细胞、山羊细胞、绵羊细胞、啮齿动物细胞、大鼠细胞、小鼠细胞、非人灵长类动物细胞或人细胞)。

可根据本领域中适合的任何技术来进行构建体的插入。例如，可使用转染、脂质转染或临时膜破裂(如电穿孔或变形)来将构建体插入宿主细胞中。在一些方面，可使用病毒载体或非病毒载体来递送构建体。在一些实施方案中，该GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。

在实施方案中，所述宿主细胞可以是非感受态的，并且核酸酶(例如内切核酸酶)可转染至宿主细胞中。在实施方案中，宿主细胞可以是至少初级内切核酸酶的感受态细胞，并且也可以是次级内切核酸酶的感受态细胞。针对初级内切核酸酶的感受态允许将多基因编辑位点整合到宿主细胞基因组中。宿主细胞可以是从受试者获得的原代分离物，并且任选地根据需要被修饰以使细胞对于初级内切核酸酶和次级内切核酸酶中的一种或两者呈感受态。

在一些方面，宿主细胞为细胞系。在一些方面，宿主细胞为其原代分离物或后代。在一些方面，宿主细胞为干细胞。该干细胞可以是胚胎干细胞或成体干细胞。该干细胞优选为多能的，并且尚未分化或开始分化过程。在一些方面，宿主细胞为完全分化的细胞。当用构建体转染的宿主细胞分裂时，该构建体的多基因编辑位点可以与宿主细胞基因组整合，使得宿主细胞的后代可携带多基因编辑位点。可以培养和扩充包含整合的多基因编辑位点的宿主细胞，以增加可用于接受供体基因序列的细胞的数目。稳定的整合确保后续几代细胞可具有多基因编辑位点。

可以在多基因编辑位点之外的位置进一步操作宿主细胞。例如，宿主细胞可以具有敲除的一个或多个基因，或者可以具有用siRNA、shRNA或其他适用于基因敲低的核酸来敲低的一个或多个基因。宿主细胞还可以具有或任选地具有通过任何合适的编辑技术进行编辑或改进的其他基因。这样的在多基因编辑位点之外的操作可允许例如在其他基因被敲除、敲低或以其他方式改变时评估供体核酸序列或其编码的蛋白对细胞的影响。

在一些实施方案中，所述多基因编辑位点外的宿主细胞操作以及借助于添加供体核酸序列的操作可有利地增强供体细胞的免疫原性谱。因此，例如，通过添加的供体核酸序列，宿主细胞可表达赋予与在治疗背景下宿主细胞所施用于的受试者的免疫系统的相容性的一种或多种标志物。或者，通过敲除或敲低操作，宿主细胞可能缺乏将导致细胞被在治疗背景下宿主细胞所施用于的受试者的免疫系统识别并破坏的一种或多种标志物的表达。

在一些实施方案中，所述宿主细胞可以是来自组织或器官的一个或多个细胞，该组织或器官包括脑、肺、肝、心脏、脾、胰、小肠、大肠、骨骼肌、平滑肌、皮肤、骨、脂肪组织、毛发、甲状腺、气管、胆囊、肾、输尿管、膀胱、主动脉、静脉、食管、隔膜、胃、直肠、肾上腺、支气管、耳、眼、视网膜、生殖器、下丘脑、喉、鼻、舌、脊髓或输尿管、子宫、卵巢和睾丸。例如，宿主细胞可以来自脑、心脏、肝、皮肤、肠、肺、肾、眼、小肠、胰或脾。

在一些实施方案中，所述宿主细胞可以是以下中的一种或多种：毛囊细胞(trichocyte)、角质形成细胞、促性腺激素细胞、促肾上腺皮质激素细胞、促甲状腺激素细胞、生长激素细胞、泌乳细胞、嗜铬细胞、滤泡旁细胞、球细胞、黑素细胞、痣细胞、梅克尔细胞、成牙本质细胞、成牙骨质细胞、角膜细胞、视网膜Muller细胞、视网膜色素上皮细胞、神经元、神经胶质细胞(例如、少突胶质细胞、星形胶质细胞)、室管膜细胞、松果体细胞、肺细胞(例如I型肺细胞和II型肺细胞)、克拉拉细胞、杯形细胞、G细胞、D细胞、ECL细胞、胃主细胞、壁细胞、凹细胞(foveolar cell)、K细胞、D细胞、I细胞、杯形细胞、帕内特细胞、肠细胞、小结相关上皮细胞、肝细胞、肝星状细胞(例如，来自中胚层的枯否细胞)、胆囊细胞、泡心细胞、胰腺星形细胞、胰腺α细胞、胰腺β细胞、胰腺δ细胞、胰腺F细胞(例如，PP细胞)、胰腺ε细胞、甲状腺(例如，滤泡细胞)、甲状旁腺(例如，甲状旁腺主细胞)、嗜酸细胞、尿道上皮细胞、成骨细胞、骨细胞、成软骨细胞、软骨细胞、成纤维细胞、纤维细胞、成肌细胞、肌细胞、肌卫星细胞、腱细胞、心肌细胞、脂肪母细胞、成脂细胞、cajal间质细胞、成血管细胞、内皮细胞、系膜细胞(例如，肾小球内系膜细胞和肾小球外系膜细胞)、肾小球旁细胞、致密斑细胞、基质细胞、间质细胞、终隔细胞、简单上皮细胞、足细胞、肾近端小管刷状缘细胞、支持细胞、间质细胞(leydig cell)、卵泡细胞、胚栓细胞(peg cell)、生殖细胞、精子、卵子、淋巴细胞、骨髓细胞、内皮祖细胞、内皮干细胞、成血管细胞、中成血管细胞(mesoangioblast)、周细胞、壁细胞、脾细胞(例如，T淋巴细胞、B淋巴细胞、树突细胞、小噬细胞、白细胞)、滋养层干细胞或其任意组合。

在一些情况下，所述宿主细胞为T细胞。在一些情况下，该T细胞为αβT细胞、NK T细胞、γδT细胞、调节T细胞、T辅助细胞或细胞毒性T细胞。

干细胞

在一些情况下，所述宿主细胞为干细胞。在一些情况下，该宿主细胞为成体干细胞。在一些情况下，该宿主细胞为胚胎干细胞。在一些情况下，该宿主细胞为非胚胎干细胞。在一些情况下，该宿主细胞衍生自非干细胞。在一些情况下，该宿主细胞源自干细胞(例如，胚胎干细胞、非胚胎干细胞、多能干细胞、胎盘干细胞、诱导多能干细胞、滋养层干细胞等)。

本文使用的术语“干细胞”指具有自我更新并且生成分化细胞类型的能力的细胞(例如，植物干细胞、脊椎动物干细胞)(Morrison等人(1997)Cell 88:287-298)。在细胞个体发育的背景下，形容词“分化的”或“分化”是相对术语。“分化细胞”是相比于与其进行比较的细胞在发育途径中进一步进展的细胞。因此，多能干细胞可分化成谱系限制的祖细胞(例如，中胚层干细胞)，该祖细胞转而可分化成进一步受限的细胞(例如，神经元祖细胞)，该细胞可分化成终末期细胞(即，终末分化细胞，例如神经元、心肌细胞等)，这些细胞在某些组织类型中发挥特征性作用，并且可保持或不可保持进一步增殖的能力。可以通过存在特定标志物(例如蛋白质、RNA等)和不存在特定标志物来表征干细胞。还可以通过体外和体内两方面的功能测定(特别是涉及干细胞产生各种分化后代的能力的测定)来鉴别干细胞。在实施方案中，所述宿主细胞为成体干细胞、体干细胞、非胚胎干细胞、胚胎干细胞、造血干细胞，并包括多能干细胞和滋养层干细胞。

感兴趣的干细胞包括多能干细胞(PSC)。本文使用的术语“多能干细胞”或“PSC”表示能够产生生物体的所有细胞类型的干细胞。因此，PSC可产生生物体的所有胚层(例如，脊椎动物的内胚层、中胚层和外胚层)的细胞。多能细胞能够形成畸胎瘤并且促成活生物体的外胚层、中胚层或内胚层组织。植物的多能干细胞能够产生植物的所有细胞类型(例如，根、茎、叶等的细胞)。

可以以多种不同方式得到动物的PSC。例如，胚胎干细胞(ESC)衍生自胚胎的内细胞团(Thomson等人,Science.1998Nov.6；282(5391):1145-7)，而诱导多能干细胞(iPSC)衍生自体细胞(Takahashi等人,Cell.2007Nov.30；131(5):861-72；Takahashi等人,NatProtoc.2007；2(12):3081-9；Yu等人,Science.2007Dec.21；318(5858):1917-20.Epub2007Nov.20)。因为术语PSC是指多能干细胞而不论其衍生如何，因此术语PSC涵盖术语ESC和iPSC，以及术语胚胎生殖干细胞(EGSC)，其为PSC的另一个实例。PSC可以是已建立的细胞系的形式，它们可以直接从原代胚胎组织获得，或者它们可以衍生自体细胞。

“胚胎干细胞”(ESC)是指从胚胎分离的PSC，其通常来自胚泡的内细胞团。在NIH人胚胎干细胞登记中列出了ESC系，例如hESBGN-01、hESBGN-02、hESBGN-03、hESBGN-04(BresaGen,Inc.)；HES-1、HES-2、HES-3、HES-4、HES-5、HES-6(ES Cell International)；Miz-hES1(MizMedi Hospital-Seoul National University)；HSF-1、HSF-6(Universityof California at San Francisco)；以及H1、H7、H9、H13、H14(Wisconsin AlumniResearch Foundation(WiCell Research Institute))。感兴趣的干细胞还包括来自其他灵长类动物的胚胎干细胞，如猕猴干细胞和狨猴干细胞。干细胞可以从任何哺乳动物物种中获得，例如，人、马、牛、猪、犬、猫、啮齿动物(例如，小鼠、大鼠、仓鼠)、灵长类动物等(Thomson等人(1998)Science 282:1145；Thomson等人(1995)Proc.Natl.Acad.Sci USA92:7844；Thomson等人(1996)Biol.Reprod.55:254；Shamblott等人,Proc.Natl.Acad.Sci.USA 95:13726,1998)。在培养中，ESC通常生长为具有较大的核质比、确定边界和突出的核的扁平状集落。此外，ESC表达SSEA-3、SSEA-4、TRA-1-60、TRA-1-81和碱性磷酸酶，但不表达SSEA-1。产生和表征ESC的方法的实例在例如美国专利号7,029,913、美国专利号5,843,780和美国专利号6,200,806中可见，这些专利各自以其全文并入本文。用于使未分化形式的hESC增殖的方法在WO 99/20741、WO 01/51616和WO03/020920中描述，其各自以其全文并入本文。

“胚胎生殖干细胞”(EGSC)或“胚胎生殖细胞”或“EG细胞”是指衍生自生殖细胞和/或生殖细胞祖细胞(例如，原始生殖细胞，即那些可以成为精子和卵子的细胞)的PSC。胚胎生殖细胞(EG细胞)被认为具有与如上所述的胚胎干细胞相类似的性质。产生和表征EG细胞的方法的实例在例如美国专利号7,153,684；Matsui,Y.,等人,(1992)Cell 70:841；Shamblott,M.,等人(2001)Proc.Natl.Acad.Sci.USA 98:113；Shamblott,M.,等人(1998)Proc.Natl.Acad.Sci.USA,95:13726；以及Koshimizu,U.,等人(1996)Development,122:1235中可见，其各自以其全文并入本文。

“诱导多能干细胞”或“iPSC”是指衍生自非PSC的细胞(即，来自相对于PSC已分化的细胞)的PSC。iPSC可衍生自多种不同的细胞类型，包括终末分化细胞。iPSC具有ES细胞样形态，其生长为具有大的核质比、确定边界和突出的核的扁平状集落。此外，iPSC表达本领域普通技术人员已知的一种或多种重关键多能性标志物，其包括但不限于碱性磷酸酶、SSEA3、SSEA4、Sox2、Oct3/4、Nanog、TRA160、TRA181、TDGF 1、Dnmt3b、FoxD3、GDF3、Cyp26a1、TERT和zfp42。产生和表征iPSC的方法的实例例如在美国专利公开号US20090047263、US20090068742、US20090191159、US20090227032、US20090246875和US20090304646中可见，这些专利各自以其全文并入本文。通常，为了产生iPSC，提供具有本领域已知的重编程因子(例如，Oct4、SOX2、KLF4、MYC、Nanog、Lin28等)的体细胞以使体细胞重编程而成为多能干细胞。

“体细胞”是指生物体中的任何细胞，其在无实验操作的情况下通常不会产生生物体中的所有细胞类型。换言之，体细胞是已经充分分化的细胞，它们不能自然地产生身体的所有三个胚层(即外胚层、中胚层和内胚层)的细胞。例如，体细胞可包括神经元和神经祖细胞两者，后者能够自然地产生中枢神经系统的所有或一些细胞类型，但无法产生中胚层或内胚层谱系的细胞。

滋养层干细胞

滋养层干细胞(TS细胞)是分化的胎盘细胞的前体。在一些情况下，TS细胞衍生自胚泡极性滋养外胚层(TE)或胚外外胚层(ExE)细胞。在一些情况下，TS能够在未分化的状态下在体外无限增殖，并且能够在体外维持潜在的多谱系分化能力。在一些情况下，TS细胞为哺乳动物TS细胞。示例性的哺乳动物包括小鼠、大鼠、兔、绵羊、牛、猫、狗、猴、雪貂、蝙蝠、袋鼠、海豹、海豚和人。在一些实施方案中，TS细胞为人TS(hTS)细胞。

在一些情况下，TS细胞从输卵管获得。输卵管是受精的部位，也是异位妊娠的常见部位，在该部位发生诸如内细胞团(ICM)和滋养外胚层之间的区分以及从全能性到多能性的转变(具有明显表观遗传变化)等生物学事件。在某些情况下，这些观察结果提供输卵管作为在植入前阶段收获胚泡相关干细胞的生态位库的支持。胚泡是早期植入前胚胎，并且包含随后形成为胚胎的ICM，并且外层被称为滋养层，其产生胎盘。

在一些实施方案中，TS细胞是用于产生祖细胞(例如肝细胞)的干细胞。在一些实施方案中，TS细胞源自异位妊娠。在一些实施方案中，TS细胞为人TS细胞。在一个实施方案中，源自异位妊娠的人TS细胞不涉及破坏人胚胎。在另一个实施方案中，源自异位妊娠的人TS细胞不涉及破坏存活人胚胎。在另一个实施方案中，该人TS细胞源自与非存活异位妊娠相关的滋养层组织。在另一个实施方案中，该异位妊娠无法挽救。在另一个实施方案中，该异位妊娠不会产生存活人胚胎。在另一个实施方案中，该异位妊娠威胁到母体生命。在另一个实施方案中，该异位妊娠为输卵管妊娠、腹腔妊娠、卵巢妊娠或宫颈妊娠。

在正常的胚泡发育期间，ICM接触本身或其衍生的可扩散“诱导物”在极性滋养外胚层中触发高速细胞增殖，这导致细胞在整个胚泡阶段向壁区域移动，并且甚至在滋养外胚层与ICM区分后仍可继续进行。覆盖ICM的壁滋养外胚层细胞能够保留ICM的“细胞记忆”。在植入开始时，由于来自子宫内膜的机械约束，与ICM相对的壁细胞停止分裂。然而，在其中胚胎位于输卵管内的异位妊娠中，在输卵管中不存在约束，这导致极性滋养外胚层细胞在停滞的胚泡中持续分裂以形成胚外外胚层(ExE)。在一些情况下，ExE衍生的TS细胞在增殖状态下存在至多20天。因此，在进行临床干预之前，该细胞过程可在植入前胚胎中产生不定数目的hTS细胞，并且此类细胞可保留来自ICM的细胞记忆。

在一些情况下，TS细胞具有ICM的特定基因(例如，OCT4、NANOG、SOX2、FGF4)和滋养外胚层的特定基因(例如，CDX2、Fgfr-2、Eomes、BMP4)，并且表达三种主要胚层(中胚层、外胚层和内胚层)的组分。在一些情况下，TS细胞表达胚胎干细胞(例如，人胚胎干细胞)相关的表面标志物(如特定阶段胚胎抗原(SSEA)-1、-3和-4)和间充质干细胞相关标志物(例如，CD 44、CD90、CK7和波形蛋白)。在其他情况下，不表达造血干细胞标志物(例如，CD34、CD45、α6-整联蛋白、E-钙粘蛋白和L-选择蛋白)。

哺乳动物滋养层干细胞

在一些实施方案中，所述宿主细胞可以是来自啮齿动物(例如，小鼠、大鼠、豚鼠、仓鼠、松鼠)、兔、牛、绵羊、猪、狗、猫、猴、猿(例如，黑猩猩、大猩猩、猩猩)或人类的哺乳动物滋养层干细胞。在一种情况下，本文的哺乳动物滋养层干细胞不来自灵长类动物(例如，猴、猿、人类)。在另一种情况下，本文的哺乳动物滋养层干细胞来自灵长类动物(例如，猴、猿、人类)。在另一种情况下，本文的哺乳动物滋养层干细胞为人的或人源化的。

本文的哺乳动物滋养层干细胞可在插入一个或多个GEMS构建体之前或之后被诱导分化成一种或多种类型的分化细胞。在一些实施方案中，该GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。

在一种情况下，所述分化的细胞为祖细胞，例如胰腺祖细胞。在一种情况下，该分化的细胞为多能干细胞。在一种情况下，该分化的细胞为内胚层、中胚层或外胚层祖细胞。在一种情况下，该分化的细胞为定形内胚层祖细胞。在一种情况下，该分化的细胞为胰腺内胚层祖细胞。在一种情况下，该分化的细胞为多能祖细胞。在一种情况下，该分化的细胞为寡能祖细胞。在一种情况下，该分化的细胞为单能、双能或三能祖细胞。在一种情况下，该分化的细胞为内分泌、外分泌或导管祖细胞，例如内分泌祖细胞。在一种情况下，该分化的细胞为β细胞。在一种情况下，该分化的细胞为胰岛素生成细胞。一种或多种分化的细胞可用于本文公开的任何方法中。

在一个方面，本文提供了包含一个或多个GEMS构建体的一种或多种分化的细胞。在一种情况下，分离的分化的细胞为人细胞。在一种情况下，该分离的分化的细胞具有正常核型。在一种情况下，该分离的分化细胞具有一种或多种免疫特权的特性，例如，CD33和/或CD133表达低或不表达。本文公开的一种或多种分离分化的细胞可用于本文公开的任何方法。

在另一方面，本文提供了分离的祖细胞，其表达一种或多种转录因子，包括Foxa2、Pdx1、Ngn3、Ptf1a、Nkx6.1或其任意组合。在一种情况下，该分离的祖细胞表达Foxa2、Pdx1、Ngn3、Ptf1a、Nkx6.1中的两种、三种或四种转录因子。在一种情况下，该分离的祖细胞表达Foxa2、Pdx1、Ngn3、Ptf1a和Nkx6.1。在一种情况下，该分离的祖细胞为诱导多能干细胞。在一种情况下，该分离的祖细胞衍生自哺乳动物滋养层干细胞，例如hTS细胞。在一种情况下，该分离的祖细胞为胰腺祖细胞。在一种情况下，该分离的祖细胞为内胚层、中胚层或外胚层祖细胞。在一种情况下，该分离的祖细胞为定形内胚层祖细胞。在一种情况下，该分离的祖细胞为胰腺内胚层祖细胞。在一种情况下，该分离的祖细胞为多能祖细胞。在一种情况下，该分离的祖细胞为寡能祖细胞。在一种情况下，该分离的祖细胞为单能、双能或三能祖细胞。在一种情况下，该分离的祖细胞为内分泌、外分泌或导管祖细胞，例如内分泌祖细胞。在一种情况下，该分离的祖细胞为β细胞。在一种情况下，该分离的祖细胞为胰岛素生成细胞。在一种情况下，该分离的祖细胞来自啮齿动物(例如，小鼠、大鼠、豚鼠、仓鼠、松鼠)、兔、牛、绵羊、猪、狗、猫、猴、猿(例如，黑猩猩、大猩猩、猩猩)或人。在一种情况下，该分离的祖细胞为人细胞。在一种情况下，该分离的祖细胞具有正常核型。在一种情况下，该分离的祖细胞具有一种或多种免疫特权的特性，例如，CD33和/或CD133表达低或不表达。本文公开的分离的祖细胞可用于本文公开的任何方法。

在另一方面，本文提供了表达betatrophin、betatrophin mRNA、C-肽和胰岛素的分离的祖细胞，其中该分离的祖细胞从哺乳动物滋养层干细胞分化。在一种情况下，该分离的祖细胞来自啮齿动物(例如，小鼠、大鼠、豚鼠、仓鼠、松鼠)、兔、牛、绵羊、猪、狗、猫、猴、猿(例如，黑猩猩、大猩猩、猩猩)或人。在一种情况下，该分离的祖细胞为胰腺祖细胞。在一种情况下，该分离的祖细胞为人细胞。在一种情况下，该分离的祖细胞具有正常核型。在一种情况下，该分离的祖细胞具有一种或多种免疫特权的特性，例如，CD33和/或CD133表达低或不表达。本文公开的一种或多种分离的祖细胞可用于本文公开的任何方法。在一种情况下，本文的分离的祖细胞为胰岛素生成细胞。本文的一种或多种分离的祖细胞可用于本文公开的任何方法。在一种情况下，本文的分化细胞为胰岛素生成细胞。在一种情况下，本文的分化细胞为神经递质生成细胞。

人滋养层干细胞

人输卵管是受精的部位，也是女性异位妊娠的常见部位，在该部位发生诸如内细胞团(ICM)和滋养外胚层之间的区分以及从全能性到多能性的转变(具有明显表观遗传变化)等各种生物学事件。这些观察结果提供输卵管作为在植入前阶段收获胚泡相关干细胞的生态位库的支持。异位妊娠在工业化国家占所有怀孕者的1％至2％，而在发展中国家则高得多。鉴于人胚胎干细胞(hES细胞)和胎儿脑组织的可用性不足，本文描述了使用源自异位妊娠的人滋养层干细胞(hTS细胞)来代替极难获得的hES细胞，以产生祖细胞。

在一些实施方案中，源自异位妊娠的hTS细胞不涉及破坏人胚胎。在另一种情况下，源自异位妊娠的hTS细胞不涉及破坏存活人胚胎。在另一种情况下，该hTS细胞源自与非存活异位妊娠相关的滋养层组织。在另一种情况下，该异位妊娠无法挽救。在另一种情况下，该异位妊娠不会产生存活人胚胎。在另一种情况下，该异位妊娠威胁到母体生命。在另一种情况下，该异位妊娠为输卵管妊娠、腹腔妊娠、卵巢妊娠或宫颈妊娠。

在一些实施方案中，在胚泡发育期间，ICM接触本身或其衍生的可扩散“诱导物”在极性滋养外胚层中触发高速细胞增殖，这导致细胞在整个胚泡阶段向壁区域移动，并且甚至在滋养外胚层与ICM区分后仍可继续进行。覆盖ICM的壁滋养外胚层细胞能够保留ICM的“细胞记忆”。通常，在植入开始时，由于来自子宫内膜的机械约束，与ICM相对的壁细胞停止分裂。然而，在输卵管中不存在这类约束，这导致极性滋养外胚层细胞在异位妊娠的停滞的胚泡中持续分裂以形成胚外外胚层(ExE)。在一些实施方案中，ExE衍生的TS细胞在增殖状态下存在至少4天的窗口，这取决于ICM分泌的成纤维细胞生长因子4(FGF4)及其受体成纤维细胞生长因子受体2(Fgfr2)的相互作用。在另一种情况下，ExE衍生的TS细胞在增殖状态下存在至少1天、至少2天、至少3天、至少4天、至少5天、至少6天、至少7天、至少8天、至少9天、至少10天、至少11天、至少12天、至少13天、至少14天、至少15天、至少16天、至少17天、至少18天、至少19天、至少20天的窗口。在进行临床干预之前，这些细胞过程可在植入前胚胎中产生不定数目的hTS细胞；此类细胞保留来自ICM的细胞记忆，这通过ICM相关基因的表达进行反映。

使宿主干细胞分化的方法

在实施方案中，所述宿主干细胞可在插入一个或多个GEMS构建体之前或之后发生分化。在一些实施方案中，该GEMS构建体包含SEQ ID NO:2的GEMS序列。在一些实施方案中，该GEMS构建体包含SEQ ID NO:84的GEMS序列。在一些实施方案中，该GEMS构建体包含与SEQID NO:2的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:84的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含SEQ IDNO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列。在一些实施方案中，该GEMS构建体包含与SEQ ID NO:81、SEQ ID NO:82和/或SEQ ID NO:83的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:16的核苷酸序列的GEMS位点16 5′同源臂序列。在一些实施方案中，该GEMS构建体包含含有SEQ ID NO:17的核苷酸序列的GEMS位点16 3′同源臂序列。

在许多方面中的一个方面，本文提供了使宿主干细胞分化的方法。在实施方案中，该宿主干细胞为哺乳动物滋养细胞干细胞。在一种情况下，该哺乳动物滋养层干细胞为人滋养层干细胞(hTS)。在一种情况下，该分化的细胞为多能干细胞。在一种情况下，该分化的细胞为祖细胞，例如胰腺祖细胞。在一种情况下，该分化的细胞为内胚层、中胚层或外胚层祖细胞，例如，定形内胚层祖细胞。在一种情况下，该分化的细胞为胰腺内胚层祖细胞。在一种情况下，该分化的细胞为多能祖细胞。在一种情况下，该分化的细胞为寡能祖细胞。在一种情况下，该分化的细胞为单能、双能或三能祖细胞。在一种情况下，该分化的细胞为内分泌、外分泌或导管祖细胞，例如内分泌祖细胞。在一种情况下，该分化的细胞为β细胞。在一种情况下，该分化的细胞为胰岛素生成细胞。一种或多种分化的细胞可用于本文公开的任何方法中。

在一些实施方案中，本文的哺乳动物滋养层干细胞来自啮齿动物(例如，小鼠、大鼠、豚鼠、仓鼠、松鼠)、兔、牛、绵羊、猪、狗、猫、猴、猿(例如，黑猩猩、大猩猩、猩猩)或人。

在一些实施方案中，所述使宿主干细胞分化的方法激活miR-124。在一种情况下，该使宿主干细胞分化的方法在定形内胚层阶段时空地(例如，约1小时至约8小时之间)激活miR-124。在一种情况下，该使宿主干细胞分化的方法提高miR-124表达。在一种情况下，该使宿主干细胞分化的方法使miR-124失活。在一种情况下，该使宿主干细胞分化的方法降低miR-124表达。在一种情况下，该使宿主干细胞分化的方法包括使哺乳动物滋养层干细胞与一种或多种药剂(例如，蛋白质或类固醇激素)接触。在一种情况下，该一种或多种药剂包括生长因子，例如成纤维细胞生长因子(FGF)。在一种情况下，该FGF是FGF1、FGF2、FGF3、FGF4、FGF5、FGF6、FGF7、FGF8、FGF9或FGF10中的一种或多种。在一种情况下，该一种或多种药剂包括FGF2(碱性成纤维细胞生长因子，bFGF)。在一种情况下，该使宿主干细胞分化的方法包括使该宿主干细胞与不大于约200ng/mL的FGF(例如，bFGF)，例如100至200ng/mL接触。在一种情况下，该使宿主干细胞分化的方法包括使该宿主干细胞与不大于约100ng/mL的FGF(例如，bFGF)，例如约0.1至1ng/mL；或约1至约100ng/mL的FGF(例如，bFGF)接触。在一种情况下，本文使用的FGF(例如，bFGF)的浓度为约0.1-1、1-10、10-20、20-30、30-40、40-50、50-60、50-70、80-90或90-100ng/mL。在一种情况下，本文使用的FGF(例如，bFGF)的浓度为约0.1、0.2、0.4、0.6、0.8、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80或90ng/mL。在一种情况下，该一种或多种药剂进一步包括抗氧化剂或还原剂(例如，2-巯基乙醇)。在一种情况下，该一种或多种药剂进一步包括维生素(例如，烟酰胺)。在一种情况下，该使宿主干细胞分化的方法包括使哺乳动物滋养层干细胞与FGF(例如，bFGF)、2-巯基乙醇和烟酰胺接触。在一种情况下，抗氧化剂/还原剂(例如，2-巯基乙醇)的浓度为不大于约10mmol/L，例如，约0.1至约10mmol/L。在一种情况下，抗氧化剂/还原剂(例如，2-巯基乙醇)的浓度为约0.1-1、1-2、2-3、3-4、4-5、5-6、6-7、7-8、8-9或9-10mmol/L。在一种情况下，抗氧化剂/还原剂(例如，2-巯基乙醇)的浓度为约0.2、0.5、1、1.5、2、3、4、5、6、7、8或9mmol/L。在一种情况下，抗氧化剂/还原剂(例如，2-巯基乙醇)的浓度为约1mmol/L。在一种情况下，维生素(例如，烟酰胺)的浓度为不大于约100mmol/L，例如，约1至约100mmol/L。在一种情况下，维生素(例如，烟酰胺)的浓度为约1-10、10-20、20-30、30-40、40-50、50-60、50-70、80-90或90-100mmol/L。在一种情况下，维生素(例如，烟酰胺)的浓度为约2、4、6、8、10、12、14、16、18、20、30、40、50、60、70、80或90mmol/L。在一种情况下，维生素(例如，烟酰胺)的浓度为约10mmol/L。

在一种情况下，所述使宿主干细胞分化的方法包括使宿主干细胞与一种或多种药剂接触以调节cAMP反应元件结合蛋白1(CREB1)的活性或表达水平。在一种情况下，该一种或多种药剂调节CREB1磷酸化。在一种情况下，该一种或多种药剂包括维生素代谢物，例如视黄酸。在一种情况下，该一种或多种药剂包括CREB1结合蛋白。在一种情况下，该一种或多种药剂调节一种或多种因子，包括mixl1、Cdx2、Oct4、Sox17、Foxa2或GSK3β。

在一种情况下，该一种或多种药剂包括外源性miR-124前体或外源性抗miR-124。在一种情况下，所述宿主干细胞用外源性miR-124前体或外源性抗miR-124转染。在一种情况下，调节miR-124的启动子的TGACGTCA的顺式调节元件(CRE)。在一些实施方案中，该miR-124为miR-124a、miR-124b、miR-124c、miR-124d或miR-124e。在一种情况下，该miR-124为miR-124a，例如，智人miR-124a(hsa-miR-124a)。

在一种情况下，所述宿主干细胞在分化开始后一天内分化成分化的细胞。在一些实施方案中，诱导该宿主干细胞分化包括在足以诱导分化的条件下(例如，12、24、48、76或96小时)在包含生长因子(例如，bFGF)的培养基中培养未分化的宿主干细胞。该培养基可进一步包含血清(例如，FBS)、碳水化合物(例如，葡萄糖)、抗氧化剂/还原剂(例如，β-巯基乙醇)和/或维生素(例如，烟酰胺)。测量该分化的细胞的产率，例如，胰岛素+/Ngn3+细胞或胰岛素+/胰高血糖素+细胞作为胰腺祖细胞的指示物。在一种情况下，在FGF(例如，bFGF)诱导期间FBS和胰岛素水平呈正相关，例如通过Western印迹分析所示。

在一些实施方案中，在细胞诱导(例如，通过bFGF)时，可以进行时程分析(例如，进行4、8、16、24、32、40或48小时)以监测转录因子的水平，从而鉴别细胞分化发展的级联阶段。在一些实施方案中，降低的Mixl1以及高水平的T和Gsc可意味着从宿主干细胞向中内胚层的转变。在一些实施方案中，在每个分化阶段的主导多能性转录因子包括对于中内胚层为Cdx2，对于DE为Oct4或Nanog，对于原肠内胚层为Cdx2或Nanog，或者对于胰腺祖细胞为Sox2。在一些实施方案中，FGF(例如，bFGF)通过在DE阶段上调Oct4、Sox17或Foxa2但是下调Smad4或Mix11来诱导miR-124a的多层面功能。

在一些实施方案中，在细胞分化期间，还通过时程分析(例如，进行4、8、16、24、32、40或48小时)来测量所述靶分化细胞所特有的蛋白质或激素水平。例如，对于胰腺祖细胞产生，使用例如qPCR分析来测量betatrophin、C-肽和胰岛素。

在一些实施方案中，使用生长因子来诱导宿主干细胞的分化。在一种情况下，该生长因子为FGF(例如，bFGF)、骨形态发生蛋白(BMP)或血管内皮生长因子(VEGF)。在一些实施方案中，生长因子的有效量为不大于约100ng/ml，例如，约1、2、5、10、15、20、25、30、35、40、45、50、60、70、80、90或100ng/mL。在一种情况下，该宿主干细胞为哺乳动物滋养层干细胞。在一种情况下，该哺乳动物滋养层干细胞为hTS细胞。

在一些实施方案中，用于使所述宿主干细胞分化的培养基可进一步包含有效量的第二药剂，其与第一药剂协同作用以诱导分化为中内胚层方向。在一些实施方案中，该第一药剂和第二药剂为不同的生长因子。在一些实施方案中，在向培养基添加第一药剂后添加第二药剂。在一些实施方案中，在向培养基添加第二药剂后添加第一药剂。在一种情况下，该第一药剂为FGF(例如，bFGF)。在一些实施方案中，该第二药剂为BMP，例如BMP2、BMP7或BMP4，该第二药剂在第一药剂之前或之后添加。在一些实施方案中，BMP的有效量为不大于约100ng/ml，例如约1、2、5、10、15、20、25、30、35、40、45、50、60、70、80、90或100ng/mL。在一种情况下，该宿主干细胞为哺乳动物滋养层干细胞。在一种情况下，该哺乳动物滋养层干细胞为hTS细胞。

在一些实施方案中，用于使所述宿主干细胞(例如，哺乳动物滋养层干细胞)分化的培养基可包含饲养细胞。饲养细胞是与另一类细胞共同培养的一类细胞，以提供第二类型的细胞可在其中生长的环境。在一些实施方案中，使用的培养基不含或基本上不含饲养细胞。在一些实施方案中，使用GSK-3抑制剂来该诱导宿主干细胞的分化。

制造宿主细胞的方法

本文提供了制造宿主细胞的方法，其包括：向所述宿主细胞中引入基因编辑多位点(GEMS)构建体元件以在插入位点处插入至基因组中，其中所述GEMS构建体元件包含(i)同源臂，其中所述同源臂包含与所述插入位点处的基因组序列同源的同源序列；和(ii)邻近于所述同源臂的GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含与前间区序列邻近基序(PAM)序列连接的指导靶序列，其中所述指导靶序列在所述GEMS构建体元件插入所述插入位点处后与指导多核苷酸结合。

在一些实施方案中，所述方法还包括向所述宿主细胞中引入内切核酸酶以介导所述GEMS构建体元件整合到所述基因组中。在一些实施方案中，所述核酸酶为内切核酸酶。在一些实施方案中，所述内切核酸酶包括大范围核酸酶，其中所述同源臂的所述同源序列包含所述大范围核酸酶的共有序列。在一些实施方案中，所述大范围核酸酶为I-SceI。在一些实施方案中，所述内切核酸酶包括CRISPR相关核酸酶。

在一些实施方案中，所述方法还包括向所述宿主细胞中引入指导RNA以介导所述GEMS构建体元件整合到所述基因组中。在一些实施方案中，所述指导RNA识别所述插入位点处的所述基因组的序列。在一些实施方案中，所述插入位点在基因组的安全港位点处。在一些实施方案中，所述安全港位点包括AAVs1位点、Rosa26位点或C-C基序受体5(CCR5)位点。在一些实施方案中，所述GEMS构建体元件整合在所述插入位点处。在一些实施方案中，所述方法进一步包括将所述指导多核苷酸引入所述宿主细胞中。在一些实施方案中，所述指导多核苷酸为指导RNA。在一些实施方案中，所述方法进一步包括将核酸酶引入所述宿主细胞中，其中所述核酸酶在与所述指导多核苷酸结合时识别所述多个核酸酶识别序列的所述核酸酶识别序列。在一些实施方案中，所述核酸酶为CRISPR相关核酸酶。在一些实施方案中，所述方法进一步包括将供体核酸序列引入所述宿主细胞中，以在所述核酸酶识别序列内插入所述GEMS构建体元件中。在一些实施方案中，所述供体核酸序列整合在所述核酸酶识别序列内。在一些实施方案中，所述供体核酸序列多核苷酸编码治疗性蛋白。在一些实施方案中，所述治疗性蛋白包括嵌合抗原受体(CAR)。在一些实施方案中，所述CAR为CD19CAR或其部分。在一些实施方案中，所述治疗性蛋白包括多巴胺或其部分。在一些实施方案中，所述治疗性蛋白包括胰岛素、胰岛素原或其部分。

在一些实施方案中，所述供体核酸序列包含SEQ ID NO:20的核苷酸序列。在一些实施方案中，该供体核酸序列包含SEQ ID NO:21的核苷酸序列。在一些实施方案中，该供体核酸序列包含SEQ ID NO:22的核苷酸序列。在一些实施方案中，该供体核酸序列包含SEQID NO:23的核苷酸序列。在一些实施方案中，该供体核酸序列包含与SEQ ID NO:20的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该供体核酸序列包含与SEQ ID NO:21的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该供体核酸序列包含与SEQ ID NO:22的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该供体核酸序列包含与SEQ ID NO:23的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

在一些实施方案中，所述方法进一步包括向所述宿主细胞中引入：(i)第二指导多核苷酸，其中所述指导多核苷酸识别所述多个核酸酶识别序列的第二核酸酶识别序列；(ii)第二核酸酶，其中所述第二核酸酶当与所述第二指导多核苷酸结合时识别所述第二核酸酶识别序列；和(iii)第二供体核酸序列，用于整合在所述第二核酸酶识别序列内。在一些实施方案中，所述方法还包括繁殖所述宿主细胞。

本文提供了编辑基因组的方法，其包括：获得宿主细胞，其包含在插入位点处插入所述宿主细胞的基因组中的基因编辑多位点(GEMS)构建体元件，其中所述GEMS构建体元件包含GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含与前间区序列邻近基序(PAM)序列连接的指导靶序列；以及向所述宿主细胞中引入：(i)识别所述指导靶序列的指导多核苷酸；和(ii)核酸酶，所述核酸酶在与所述指导多核苷酸结合时识别所述多个核酸酶识别序列的核酸酶识别序列。

在一些实施方案中，所述核酸酶在与所述指导多核苷酸结合时切割所述GEMS序列以在所述GEMS序列中形成双链断裂。在一些实施方案中，所述方法进一步包括向所述宿主细胞中引入供体核酸序列，其中所述供体核酸序列在所述双链断裂处整合至所述GEMS序列中。在一些实施方案中，所述供体核酸序列编码治疗性蛋白。在一些实施方案中，所述治疗性蛋白包括嵌合抗原受体(CAR)。在一些实施方案中，所述CAR为CD19 CAR或其部分。在一些实施方案中，所述治疗性蛋白包括多巴胺或其部分。在一些实施方案中，所述治疗性蛋白包括胰岛素、胰岛素原或其部分。

在一些实施方案中，所述编辑基因组的方法进一步包括向所述宿主细胞中引入：(i)第二指导多核苷酸，其中所述指导多核苷酸识别所述多个核酸酶识别序列的第二核酸酶识别序列；(ii)第二核酸酶，其中所述第二核酸酶当与所述第二指导多核苷酸结合时识别所述第二核酸酶识别序列；和(iii)第二供体核酸序列，用于整合在所述第二核酸酶识别序列内。在一些实施方案中，所述宿主细胞为干细胞。在一些实施方案中，所述方法进一步包括使所述干细胞分化成T细胞。在一些实施方案中，所述T细胞选自αβT细胞、NK T细胞、γδT细胞、调节T细胞、T辅助细胞和细胞毒性T细胞。在一些实施方案中，所述分化发生在所述将所述指导多核苷酸和所述核酸酶引入所述宿主细胞之前。在一些实施方案中，所述分化发生在所述将所述指导多核苷酸和所述核酸酶引入所述宿主细胞之后。在一些实施方案中，所述插入位点在所述基因组的所述安全港位点内。在一些实施方案中，所述安全港位点包括AAVs1位点、Rosa26位点或C-C基序受体5(CCR5)位点。

在一些实施方案中，所述PAM序列选自：CC、NG、YG、NGG、NAA、NAT、NAG、NAC、NTA、NTT、NTG、NTC、NGA、NGT、NGC、NCA、NCT、NCG、NCC、NRG、TGG、TGA、TCG、TCC、TCT、GGG、GAA、GAC、GTG、GAG、CAG、CAA、CAT、CCA、CCN、CTN、CGT、CGC、TAA、TAC、TAG、TGG、TTG、TCN、CTA、CTG、CTC、TTC、AAA、AAG、AGA、AGC、AAC、AAT、ATA、ATC、ATG、ATT、AWG、AGG、GTG、TTN、YTN、TTTV、TYCV、TATV、NGAN、NGNG、NGAG、NGCG、AAAAW、GCAAA、TGAAA、NGGNG、NGRRT、NGRRN、NNGRRT、NNAAAAN、NNNNGATT、NNAGAAW、NAAAAC、NNAAAAAW、NNAGAA、NAAAAC、NNNNACA、GNNNCNNA、NNNNGATT、NNAGAAW、NNGRR、NNNNNNN和TGGAGAAT。在一些实施方案中，所述核酸酶为CRISPR相关核酸酶。在一些实施方案中，所述CRISPR相关核酸酶为Cas9酶。

富集

在一些实施方案中，主题方法包括：(i)富集所述宿主细胞群的在细胞周期的期望阶段的细胞的步骤，和/或(ii)阻断在细胞周期的期望阶段的宿主细胞的步骤。该细胞周期是在细胞中发生的一系列事件，导致细胞的分裂和复制，产生两个子细胞。细胞周期的两个主要阶段为其中发生DNA复制的S期(DNA合成期)以及其中发生染色体分离和细胞分裂的M期(有丝分裂)。真核细胞周期在传统上分为四个连续阶段：G1、S、G2和M。G1、S和G2一起可被统称为“间期”。在某些条件下，细胞可延迟进展通过G1并且可进入被称为G0(G零)的特定休眠状态，其中它们可保持数天、数周或甚至数年，之后恢复增殖。从一个状态到另一个状态的转变期可以使用连字符来表示，例如G1/S、G2/M等。如本领域已知的，在整个细胞周期中存在各种检查点，在该检查点处细胞可监测状况以确定是否应当发生细胞周期进展。例如，G2/M DNA损伤检查点用于防止具有基因组DNA损伤的细胞进入有丝分裂(M期)。

富集真核细胞群的在细胞周期的期望阶段(例如，G1、S、G2、M、G1/S、G2/M、G0等或其任意组合)的细胞的步骤，并且该步骤可以使用任何便利的方法(例如，细胞分离方法和/或细胞同步化方法)来进行。

在一些情况下，所述方法包括富集宿主细胞群的在所述细胞周期的G0期的细胞的步骤。例如，在一些情况下，主题方法包括：(a)富集真核细胞群的在细胞周期的G0期的细胞；和(b)使所述GEMS构建体和/或所述供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导多核苷酸接触)。

在一些情况下，所述方法包括富集宿主细胞群的在细胞周期的G1期的细胞的步骤。例如，在一些情况下，该方法包括：(a)富集宿主细胞群的在细胞周期的G1期的细胞；和(b)使所述GEMS构建体和/或所述供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导RNA接触)。

在一些情况下，所述方法包括富集宿主细胞群的在细胞周期的G2期的细胞的步骤。例如，在一些情况下，该方法包括：(a)富集宿主细胞群的在细胞周期的G2期的细胞；和(b)使所述GEMS构建体和/或供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导RNA接触)。

在一些情况下，所述方法包括富集宿主细胞群的在细胞周期的S期的细胞的步骤。例如，在一些情况下，该方法包括：(a)富集宿主细胞群的在细胞周期的S期的细胞；和(b)使所述GEMS构建体和/或供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导RNA接触)。

在一些情况下，所述方法包括富集宿主细胞群的在细胞周期的M期的细胞的步骤。例如，在一些情况下，该方法包括：(a)富集宿主细胞群的在细胞周期的M期的细胞；和(b)使所述GEMS构建体和/或供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导RNA接触)。

在一些情况下，所述方法包括富集宿主细胞群的在细胞周期的G1/S转变中的细胞的步骤。例如，在一些情况下，该方法包括：(a)富集宿主细胞群的在细胞周期的G1/S转变中的细胞；和(b)使所述GEMS构建体和/或供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导RNA接触)。

在一些情况下，所述方法包括富集宿主细胞群的在细胞周期的G2/M转变中的细胞的步骤。例如，在一些情况下，该方法包括：(a)富集宿主细胞群的在细胞周期的G2/M转变中的细胞；和(b)使所述GEMS构建体和/或供体核酸序列与Cas9靶向复合体接触(例如，通过向宿主细胞中引入Cas9靶向复合体的至少一种组分)(例如，使该GEMS构建体和/或供体核酸序列与(i)Cas9蛋白；和(ii)指导RNA接触)。

“富集”意指增加所得细胞群中期望细胞的分数。例如，在一些情况下，富集包括从不期望的细胞(例如，不处于细胞周期的期望阶段的细胞)中选择期望的细胞(例如，处于细胞周期的期望阶段的细胞)，这可以导致更小的细胞群，但是所得细胞群的细胞的更大分数(即，更高百分比)将是期望的细胞(例如，处于细胞周期的期望阶段的细胞)。细胞分离方法可以作为该类型的富集的实例。在其他情况下，富集包括将不期望的细胞(例如，不处于细胞周期的期望阶段的细胞)转变成期望的细胞(例如，处于细胞周期的期望阶段的细胞)，这可以产生与起始群体相似大小的细胞群，但是这些细胞的更大分数可以是期望的细胞(例如，处于细胞周期的期望阶段的细胞)。细胞同步化方法可以作为该类型的富集的实例。在一些情况下，富集可以改变所得细胞群的总体大小(与起始群体的大小相比)并增加期望细胞的分数。例如，可以组合多种方法/技术(例如，以改善富集，以富集细胞周期的多于一种期望阶段的细胞)。

在一些情况下，富集包括细胞分离方法。可以使用任何便利的细胞分离方法来富集处于细胞周期的各个阶段的细胞。用于富集在细胞周期的特定阶段的细胞的合适的细胞分离技术包括但不限于：(i)有丝分裂摇落(M期；基于细胞粘附性质的机械分离，例如，在温和摇动、敲击或冲洗时，有丝分裂期的粘附细胞从表面脱离)；(ii)逆流离心淘析(CCE)(G1、S、G2/M和中间状态；基于细胞大小和密度的物理分离)；和(iii)流式细胞术和细胞分选(例如，G0、G1、S、G2/M；基于特定细胞内内容物(例如，DNA)以及细胞表面和/或大小性质的物理分离)。

有丝分裂摇落通常包括通过搅拌来移除低粘附性有丝分裂细胞(参见，例如，Beyrouthy等人,PLoS ONE 3,e3943(2008)；Schorl,C.&Sedivy,Methods 41,143-150(2007))。逆流离心淘析(CCE)通常包括根据细胞在重力场中的沉降速度来分离细胞，其中使含有该细胞的液体对抗离心力流动，其中细胞的沉降速率与它们的大小成比例(参见，例如，Grosse等人,Prep Biochem Biotechnol.2012；42(3):217-33；Banfalvi等人,Nat.Protoc.3,663-673(2008))。流式细胞术方法通常包括在流体动力学聚焦的液体流中根据抗体和/或配体和/或染料介导的荧光和散射光来表征细胞，随后进行静电分选、机械分选或流体转换分选(参见，例如，Coquelle等人,Biochem.Pharmacol.72,1396-1404(2006)；Juan等人,Cytometry 49,170-175(2002))。关于细胞分离技术的更多信息，参见，例如Rosner等人,Nat Protoc.2013March；8(3):602-26。

在一些情况下，富集包括细胞同步化方法(即，使细胞群的细胞同步)。细胞同步是这样的过程：通过该过程，细胞群(即，其中各种单个细胞处于周期的不同阶段的细胞群)内处于细胞周期的不同阶段的细胞进入相同阶段。可以在主题方法中使用任何便利的细胞同步化方法来富集处于细胞周期的期望阶段的细胞。例如，可通过阻断在细胞周期中的期望阶段的细胞来实现细胞同步话，这允许其他细胞进入周期直到它们到达所阻断的阶段。例如，适当的细胞同步话方法包括但不限于：(i)抑制DNA复制、DNA合成和/或有丝分裂纺锤体形成(例如，在本文有时称为使细胞与细胞周期阻断组合物进行接触)；(ii)促分裂原或生长因子撤除(G0、G1、G0/G1；通过例如血清饥饿和/或氨基酸饥饿的生长限制诱导的静止)；和(iii)密度抑制(G1；细胞与细胞接触诱导的特定转录程序的激活)(参见，例如，Rosner等人,Nat Protoc.2013March；8(3):602-26，其通过引用以其全文并入本文，并参见其中引用的参考文献)。

用于细胞同步化的各种方法是本领域普通技术人员已知的，并且可以使用任何便利的方法。对于细胞同步化的其他方法(例如，植物细胞的同步化)，参见，例如，Sharma,Methods in Cell Science,1999,Volume 21,Issue 2-3,73-78页("Synchronization inplant cells--an introduction")；Dolezel等人,Methods in Cell Science,1999,第21卷,第2-3期,95-107页("Cell cycle synchronization in plant root meristems")；Kumagai-Sano等人,Nat Protoc.2006；1(6):2621-7；和Cools等人,The Plant Journal(2010)64,705-714；以及Rosner等人,Nat Protoc.2013March；8(3):602-26；所有这些通过引用以其全文并入本文。

检查点抑制剂

在一些实施方案中，细胞(或细胞群的细胞)在细胞周期的期望阶段被阻断(例如，通过使细胞与周期阻断组合物如检查点抑制剂接触)。在一些实施方案中，细胞群的细胞是同步化的(例如，通过使细胞与细胞周期阻断组合物接触)。细胞周期阻断组合物(例如，检查点抑制剂)可包括一种或多种细胞周期阻断剂。术语“细胞周期阻断剂”和“检查点抑制剂”是指在细胞周期的特定点阻断(例如，可逆地阻断(暂停)、不可逆地阻断)细胞的试剂，从而使得细胞无法更进一步。合适的细胞周期阻断剂包括可逆细胞周期阻断剂。可逆细胞周期阻断剂不使细胞永久地被阻断。换言之，当从细胞培养基去除可逆细胞周期阻断剂时，该细胞能够自由地进行细胞周期。细胞周期阻断剂在本领域有时被称为细胞同步剂，这是因为当此类试剂接触细胞群(例如，具有处于细胞周期的不同阶段的细胞的群体)时，该群体的细胞被阻断在细胞周期的同一阶段，从而使细胞群相对于细胞周期的特定阶段同步化。当所使用的细胞周期阻断剂可逆时，细胞可以随后从细胞周期阻断中被“释放”。

合适的细胞周期阻断剂包括但不限于：诺考达唑(G2、M、G2/M；抑制微管聚合)；秋水仙碱(G2、M、G2/M；抑制微管聚合)；脱羰秋水仙碱(秋水仙酰胺)(G2、M、G2/M；抑制微管聚合)；羟基脲(G1、S、G1/S；抑制核糖核苷酸还原酶)；蚜栖菌素(G1、S、G1/S；抑制DNA聚合酶α和DNA聚合酶δ)；洛伐他汀(G1；抑制HMG-CoA还原酶/胆固醇合成和蛋白酶体)；含羞草素(G1、S、G1/S；抑制胸苷、核苷酸生物合成，抑制Ctf4/染色质结合)；胸苷(G1、S、G1/S；过量胸苷诱导的DNA复制反馈抑制)；红海海绵素A(M；延迟后期开始，肌动蛋白聚合抑制剂，破坏极间微管稳定性)；以及红海海绵素B(M；肌动蛋白聚合抑制剂)。

合适的细胞周期阻断剂可包括具有与上述药剂相同或相似功能的任何药剂(例如，抑制微管聚合的药剂、抑制核糖核苷酸还原酶的药剂、抑制DNA聚合酶α和/或DNA聚合酶δ的药剂、抑制HMG-CoA还原酶和/或胆固醇合成的药剂、抑制核苷酸生物合成的药剂、抑制DNA复制(即抑制DNA合成)的药剂、抑制DNA复制起始的药剂、抑制脱氧胞嘧啶合成的药剂、诱导过量胸苷诱导的DNA复制反馈抑制的药剂、以及破坏极间微管稳定性的药剂、抑制肌动蛋白聚合的药剂等)。合适的阻断G1的药剂可包括：星形孢菌素、二甲基亚砜(DMSO)、糖皮质激素和/或甲羟戊酸合成抑制剂。合适的阻断G2期的药剂可包括CDK1抑制剂，例如RO-3306。合适的阻断M的药剂可包括松胞菌素D。

合适的细胞周期阻断剂的非限制性实例包括：cobtorin；二硝基苯胺；氟草胺(benluralin)；地乐胺(butralin)；敌乐胺(dinitramine)；丁氟消草(ethalfluralin)；黄草消(oryzalin)；二甲戊灵(pendimethalin)；氟乐灵(trifluralin)；甲基胺草磷；抑草磷；氟硫草定；噻草定；戊炔草胺-拿草特-牧草胺DCPA(氯酞酸二甲酯)；茴香霉素；α鹅膏蕈碱；茉莉酮酸；脱落酸；甲萘醌；cryptogeine；过氧化氢；高锰酸钠；吲哚美辛；epoxomycin；lactacystein；icrf 193；奥罗莫星；roscovitine；bohemine；K252a；冈田酸；草多索；咖啡因；MG132；和cycline依赖性激酶抑制剂。关于细胞周期阻断剂的更多信息，参见Merrill GF,Methods Cell Biol.1998；57:229-49，其通过引用以其全文并入本文。

供体核酸序列

术语“供体核酸序列”、“供体基因”或“感兴趣的供体基因”是指在多基因编辑位点处插入宿主细胞基因组中的核酸序列或基因。在实施方案中，供体核酸序列编码感兴趣的嵌合基因(例如，CAR)。在实施方案中，供体核酸序列编码报道基因。在实施方案中，供体核酸序列编码转基因。在实施方案中，供体核酸序列编码多巴胺或其他神经递质。在实施方案中，供体核酸序列编码胰岛素或胰岛素前体形式或其他激素。

在一些实施方案中，一旦所述宿主细胞整合了多基因编辑位点，则该宿主细胞可以是感受态的以接受待进一步在多基因编辑位点处插入基因组中的供体核酸序列。供体核酸序列可以是DNA或RNA的形式，优选DNA。可以在另外的质粒或插入宿主细胞中的其他合适载体上提供该供体核酸序列。可以使用转染、脂质转染或临时膜破裂(如电穿孔或变形)将包含供体核酸序列的载体插入宿主细胞中。在一些方面，可使用病毒或非病毒载体递送供体核酸序列。包含供体核酸序列的载体或质粒可包含供体核酸序列上游和下游的内切核酸酶识别序列，使得该载体可被切割多基因编辑位点的相同内切核酸酶切割。

所述供体核酸序列可以是外源基因或其部分，其包括工程化基因。供体核酸序列可编码用户期望宿主细胞表达的任何蛋白质或其部分。供体核酸序列(包括基因)可进一步包含可用于证实表达的报道基因。该报道基因的表达产物可以基本上是惰性的，使得其与目标供体基因一起的表达不会干扰供体基因表达产物的预期活性，或以其他方式干扰细胞中的其他自然过程，或以其他方式引起细胞中的有害作用。

所述供体核酸序列还可包含允许供体基因受控表达的调节元件。例如，供体核酸序列可包含阻抑蛋白操纵子或诱导型操纵子。因此，供体核酸序列的表达可在调节控制下进行，使得基因仅在受控条件下表达。在一些方面，供体核酸序列不包含调节元件，使得该供体基因有效地组成型表达。

在一些实施方案中，所述供体核酸序列编码是在四环素(Tet)诱导型启动子下的绿色荧光蛋白(GFP)(SEQ ID NO:12)(图7-图8)。在实施方案中，报道基因(例如，GFP)和调节元件插入多基因编辑位点。在将例如GFP和Tet调节元件整合到细胞的多基因编辑位点后，将该细胞暴露于例如四环素可诱导例如GFP的表达，从而可以证实并测量该表达(图7-图8)。

可插入到所述多基因编辑位点中的供体核酸序列的数目可以有所变化。潜在供体核酸序列的数目可受到例如多基因编辑位点中的次级内切核酸酶识别位点的数目和/或细胞能够耐受其表达的供体核酸序列的数目的限制。

可插入到多基因编辑位点的任何给定供体核酸序列的大小可以有所变化。该大小可以受到插入到多基因编辑位点的供体核酸序列的数目和/或细胞能够耐受的供体核酸序列的数目或大小的限制。

在一些实施方案中，所述供体核酸序列可插入到多基因编辑位点中的任一个次级内切核酸酶识别位点中。可以通过特定次级内切核酸酶促进这种插入，该次级内切核酸酶切割多基因编辑位点中的次级内切核酸酶识别位点，并且还切割载体中的次级内切核酸酶识别位点。后一种切割释放了供体核酸序列以供插入切割的多基因编辑位点中。供体核酸序列的这种插入可通过细胞中的同源或NHEJ进行。因此，次级内切核酸酶识别序列可以适合于核酸酶，该核酸酶在载体DNA和多基因编辑位点中的双链断裂位点处产生相容的末端。可将多个供体核酸序列顺序插入多基因编辑位点(图9)。

所述次级内切核酸酶可以是ZFN、TALEN或CRISPR相关核酸酶(如Cas9核酸酶)。在一些方面，次级内切核酸酶可以是CRISPR相关核酸酶，使得使用CRISPR相关核酸酶将每个供体核酸插入多个基因编辑位点中。通过对多基因编辑位点中的给定次级内切核酸酶识别位点的靶序列和PAM序列组合具有特异性的指导RNA(gRNA)或指导多核苷酸进行通过CRISPR相关核酸酶如Cas9核酸酶进行的多基因编辑位点的切割。gRNA或指导多核苷酸包含与靶序列互补的前间区序列元件，并且包含CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)嵌合体。gRNA或指导多核苷酸募集Cas9核酸酶以形成复合体，这种复合体识别多基因编辑位点处的靶序列和PAM序列，并且之后该核酸酶切割多基因编辑位点。

在插入所述供体核酸序列后，可进一步操作宿主细胞，以便表达由该供体核酸序列编码的蛋白质，例如，在诱导物或阻抑蛋白的存在下进行培养(图10A和图10B)。还可以培养和繁殖该宿主细胞。在宿主细胞为干细胞的情况下，可在插入供体核酸序列后使细胞分化(图11)。可以培养和繁殖分化的干细胞。

嵌合抗原受体(CAR)

在实施方案中，所述供体核酸序列为嵌合抗原受体(CAR)。CAR为工程化受体或工程化受体构建体，其将外源特异性移植到免疫效应细胞上。在一些情况下，CAR包含含有靶标特异性结合元件(另外被称为抗原结合部分或抗原结合域)的细胞外结构域(胞外域)、茎区域、跨膜结构域和细胞内结构域(胞内域)。在一些实施方案中，CAR实际上不识别整个抗原；相反，其仅与该抗原表面的一部分结合，该部分被称为抗原决定簇或表位。在一些情况下，该细胞内结构域进一步包含一个或多个细胞内信号传导结构域或细胞质信号传导结构域。在一些情况下，该细胞内结构域进一步包含ζ链部分。在一些情况下，如本文所述的CAR进一步包含一个或多个用于T细胞活化的共刺激结构域和信号传导结构域。

在一些实施方案中，本文所述的CAR包含靶标特异性结合元件，另外被称为抗原结合部分、抗原结合结构域或预定的细胞表面蛋白。在实施方案中，通过使与肿瘤细胞上的抗原特异性结合的期望的抗原结合部分工程化的方式来将本文所述的CAR工程化为靶向感兴趣的肿瘤抗原。在本公开内容的上下文中，“肿瘤抗原”或“过度增殖性病症抗原”或“与过度增殖性病症相关的抗原”是指特定过度增殖性病症例如癌症中常见的抗原。

在一些实施方案中，本文所述的CAR的抗原结合部分对CD19具有特异性或与CD19结合。在实施方案中，该抗原结合结构域包含单链抗体片段(scFv)，其包含靶抗原特异性单克隆抗体的可变结构域轻链(VL)和可变结构域重链(VH)。在实施方案中，该scFv是人源化的。在一些实施方案中，该抗原结合部分可包含定向连接的VH和VL，例如从N至C末端，VH-接头-VL或VL-接头-VH。在一些情况下，该抗原结合结构域识别靶标的表位。在一些实施方案中，本文所述包括CAR或CAR-T细胞，其中抗原结合结构域包括F(ab′)2、Fab′、Fab、Fv或scFv。

在一些实施方案中，CD19 scFv由包含SEQ ID NO:20的核苷酸序列编码。在一些实施方案中，CD19 scFv由与SEQ ID NO:20的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列编码。在一些实施方案中，该CD19 CAR包含SEQ ID NO:20的核苷酸序列。在一些实施方案中，该CD19 CAR包含SEQ ID NO:21的核苷酸序列。在一些实施方案中，该CD19 CAR包含SEQ ID NO:22的核苷酸序列。在一些实施方案中，该CD19 CAR包含SEQ ID NO:23的核苷酸序列。在一些实施方案中，该CD19 CAR包含与SEQ ID NO:20的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该CD19 CAR包含与SEQ ID NO:21的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该CD19 CAR包含与SEQ ID NO:22的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。在一些实施方案中，该CD19 CAR包含与SEQ ID NO:23的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列。

在本文所述的实施方案中，CAR可包含用于靶标识别的细胞外抗体衍生的单链可变域(scFv)，其中该scFv可通过柔性接头与跨膜结构域和/或细胞内信号传导结构域(包括例如用于T细胞活化的CD3-ζ)连接。通常，当T细胞体内激活时，它们接受具有二级共刺激信号传导(来自CD28，其诱导细胞因子(例如IL-2和IL-21)的产生)的一级抗原诱导的TCR信号，该细胞因子然后以自分泌/旁分泌的方式反馈到信号环路中。考虑到这一点，CAR可包括信号传导结构域，例如CD28细胞质信号传导结构域或其他共刺激分子信号传导结构域(如4-1BB信号传导结构域)。嵌合CD28共刺激通过上调抗凋亡分子和产生IL-2以及扩充衍生自外周血单个核细胞(PBMC)的T细胞来改善T细胞持久性。在一个实施方案中，CAR是衍生自对乙型肝炎病毒抗原具有特异性的单克隆抗体的单链可变片段(scFv)的融合体。在另一个实施方案中，CAR与跨膜结构域和CD3-ζ胞内域融合。这样的分子导致ζ信号响应于由其靶标的scFv的识别进行的传递。

在CAR胞外域的一个实施方案中，例如，如果受体将被糖基化并锚定在细胞膜中，则信号肽将新生蛋白导向内质网。预计任何真核信号肽序列均是功能性的。通常，使用天然附接至氨基最末端组分的信号肽(例如，在具有定向轻链-接头-重链的scFv中，使用轻链的天然信号)。在实施方案中，该信号肽为GM-CSFRα或IgK。可以使用的其他信号肽包括来自CD8α和CD28的信号肽。

所述抗原识别结构域可以为scFv。然而，可以有其他选择。考虑来自天然T细胞受体(TCR)α和β单链的抗原识别结构域，因为它们具有简单的胞外域(例如，用于识别HIV感染的细胞的CD4胞外域)以及其他识别组分，诸如例如连接的细胞因子(导致识别携带细胞因子受体的细胞)。以高亲和力与给定靶标(例如，肿瘤相关抗原)结合的几乎任何物质均可用作抗原识别区域。

所述跨膜结构域可衍生自天然来源或合成来源。在天然来源的情况下，该结构域可衍生自任何膜结合或跨膜蛋白。合适的跨膜结构域可包括但不限于T细胞受体的α、β或ζ链的跨膜区；或者来自CD28、CD3ε、CD3-ζ、CD45、CD4、CD5、CD8α、CD9、CD16、CD22、CD33、CD37、CD64、CD80、CD86、CD134、CD137或CD154的跨膜区。或者，该跨膜结构域可以是合成的，并且可包含诸如亮氨酸和缬氨酸等疏水残基。在一些实施方案中，在合成跨膜结构域的一个或两个末端存在苯基丙氨酸、色氨酸和缬氨酸的三联体。在一些实施方案中，该跨膜结构域包括CD8α跨膜结构域或CD3-ζ跨膜结构域。在一些实施方案中，该跨膜结构域包括CD8α跨膜结构域。在其他实施方案中，该跨膜结构域包括CD3-ζ跨膜结构域。在一些实施方案中，CD8铰链和跨膜结构域由包含SEQ ID NO:21的核苷酸序列编码。在一些实施方案中，CD8铰链和跨膜结构域由与SEQ ID NO:21的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列编码。

本公开内容的CAR的细胞内信号传导结构域(也称为细胞质结构域)导致CAR已置于其中的免疫细胞的至少一种正常效应子功能的激活。术语“效应子功能”是指细胞的特化功能。例如，T细胞的效应子功能可以是细胞溶解活性或辅助活性，包括细胞因子分泌。因此，术语“细胞内信号传导结构域”是指蛋白质的一部分，其转导效应子功能信号并引导细胞执行特化功能。虽然通常可以采用整个细胞内信号传导结构域，但在许多情况下不必使用整个链。在使用细胞内信号传导结构域的截短部分的情况下，只要该截短部分转导效应子功能信号，就可以使用该截短部分来代替完整的链。因此，术语细胞内信号传导结构域意在包括足以转导效应子功能信号的细胞内信号传导结构域的任何截短部分。在一些实施方案中，细胞内结构域还包括用于T细胞活化的信号传导结构域。在一些情况下，用于T细胞活化的信号传导结构域包括衍生自TCRζ、FcRγ、FcRβ、CD3γ、CD3δ、CD3ε、CD5、CD22、CD79α、CD79β或CD66δ的结构域。在一些情况下，用于T细胞活化的信号传导结构域包括衍生自CD3-ζ的结构域。在一些情况下，细胞内结构域可包含一个或多个共刺激结构域。

所述细胞质结构域(也称为本文所述的CAR的细胞内信号传导结构域)导致CAR已置于其中的免疫细胞的至少一种正常效应子功能的激活。术语“效应子功能”是指细胞的特定功能。例如，T细胞的效应子功能可以是细胞溶解活性或辅助活性，包括细胞因子分泌。因此，术语“细胞内信号传导结构域”是指蛋白质的一部分，其转导效应子功能信号并引导细胞执行特化功能。虽然通常可以采用整个细胞内信号传导结构域，但在许多情况下不必使用整个链。在使用细胞内信号传导结构域的截短部分的情况下，只要该截短部分转导效应子功能信号，就可以使用该截短部分来代替完整的链。因此，术语细胞内信号传导结构域意在包括足以转导效应子功能信号的细胞内信号传导结构域的任何截短部分。

用于本文所述的CAR的细胞内信号传导结构域的实例可包括T细胞受体(TCR)的细胞质序列和共受体(其协同作用以在抗原受体接合后启动信号转导)，以及这些序列的任何衍生物或变体，和具有相同功能能力的任何合成序列。

仅通过TCR产生的信号通常不足以完全激活T细胞，并且还需要次级信号或共刺激信号。因此，T细胞活化可以说是由两种不同类别的细胞质信号传导序列介导的：通过TCR来启动抗原依赖性初级活化的那些细胞质信号序列(初级细胞质信号传导序列)和以非抗原依赖性方式起作用以提供次级或共刺激信号的那些细胞质信号序列(次级细胞质信号传导序列)。

初级细胞质信号传导序列以刺激方式或以抑制方式来调节TCR复合体的初级活化。以刺激方式起作用的初级细胞质信号传导序列可含有信号传导基序，其被称为基于免疫受体酪氨酸的活化基序或ITAM。在本公开内容中特别有用的含有ITAM的初级细胞质信号传导序列的实例包括但不限于衍生自TCRζ、FcRγ、FcRβ、CD3γ、CD3δ、CD3ε、CD5、CD22、CD79a、CD79b和CD66d的那些。在实施方案中，本文所述的CAR中的细胞质信号传导分子包括衍生自CD3ζ的细胞质信号传导序列。

在实施方案中，所述CAR的细胞质结构域可以被设计为自身包含CD3-ζ信号传导结构域，或者与在本文所述的CAR的背景中有用的任何其他期望的细胞质结构域组合。例如，CAR的细胞质结构域可包含CD3ζ链部分和共刺激信号传导区域。该共刺激信号传导区域是指包含共刺激分子的细胞内结构域的CAR部分。共刺激分子是除了抗原受体或它们的配体之外的细胞表面分子，其是淋巴细胞对抗原的有效应答所必需的。这类分子的实例包括CD27、CD28、4-1BB(CD137)、OX40、CD30、CD40、PD-1、ICOS、淋巴细胞功能相关抗原-1(LFA-1)、CD2、CD7、LIGHT、NKG2C、B7-H3和与CD83特异性结合的配体等。在实施方案中，共刺激分子可一起使用，例如CD28和4-1BB或CD28和OX40。因此，尽管本公开内容主要例示了4-1BBζ和CD8α作为共刺激信号传导元件，但其他共刺激元件也在本公开内容的范围内。在一些实施方案中，4-1BB胞内域由包含SEQ ID NO:22的核苷酸序列编码。在一些实施方案中，4-1BB胞内域由与SEQ ID NO:22的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列编码。

本文所述的CAR的细胞质信号传导部分内的细胞质信号传导序列可以以随机顺序或特定顺序彼此连接。在一个实施方案中，所述细胞质结构域包含CD3-ζ的信号传导结构域和CD28的信号传导结构域。在另一个实施方案中，该细胞质结构域包含CD3-ζ的信号传导结构域和4-1BB的信号传导结构域。在另一个实施方案中，该细胞质结构域包含CD3-ζ的信号传导结构域以及CD28和4-1BB的信号传导结构域。在一些实施方案中，CD3ζ结构域由包含SEQ ID NO:23的核苷酸序列编码。在一些实施方案中，4CD3ζ结构域由与SEQ ID NO:23的核苷酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或100％同一性的核苷酸序列编码。

所述共刺激信号传导区域是指包含共刺激分子的细胞内信号传导结构域的CAR部分。共刺激分子是除了抗原受体或其配体之外的细胞表面分子，其是淋巴细胞对抗原的有效应答所必需的。示例性共刺激结构域包括但不限于CD8、CD27、CD28、4-1BB(CD137)、ICOS、DAP10、DAP12、OX40(CD134)、CD3-ζ或其片段或组合。在一些情况下，本文所述的CAR包含选自CD8、CD27、CD28、4-1BB(CD137)、ICOS、DAP10、DAP12、OX40(CD134)或其片段或组合的一个或多个或者两个或更多个共刺激结构域。在一些情况下，本文所述的CAR包含选自CD27、CD28、4-1BB(CD137)、ICOS、OX40(CD134)或其片段或组合的一个或多个或者两个或更多个共刺激结构域。在一些情况下，本文所述的CAR包含选自CD8、CD28、4-1BB(CD137)、DAP10、DAP12或其片段或组合的一个或多个或者两个或更多个共刺激结构域。在一些情况下，本文所述的CAR包含选自CD28、4-1BB(CD137)或其片段或组合的一个或多个或者两个或更多个共刺激结构域。在一些情况下，本文所述的CAR包含共刺激结构域CD28和4-1BB(CD137)或其各自的片段。在一些情况下，本文所述的CAR包含共刺激结构域CD28和OX40(CD134)或其各自的片段。在一些情况下，本文所述的CAR包含共刺激结构域CD8和CD28或其各自的片段。在一些情况下，本文所述的CAR包含共刺激结构域CD28或其片段。在一些情况下，本文所述的CAR包含共刺激结构域4-1BB(CD137)或其片段。在一些情况下，本文所述的CAR包含共刺激结构域OX40(CD134)或其片段。在一些情况下，本文所述的CAR包含共刺激结构域CD8或其片段。在一些情况下，本文所述的CAR包含至少一个共刺激结构域DAP10或其片段。在一些情况下，本文所述的CAR包含至少一个共刺激结构域DAP12或其片段。

通常，CAR以二聚化形式存在，并且表达为融合蛋白，该融合蛋白连接细胞外scFv(VH连接至VL)区域、跨膜结构域和细胞内信号传导基序。第一代CAR的胞内域仅通过CD3-ζ信号传导来诱导T细胞活化。第二代CAR通过CD3-ζ和CD28或者其他胞内域如4-1BB或OX40来提供激活信号传导。第三代CAR通过含有CD3-ζ的三种信号基序的组合如CD28、4-1BB或OX40来激活T细胞。

在实施方案中，本文提供了编码嵌合抗原受体(CAR)的分离的核酸，其中该CAR包含：(a)CD结合结构域；(b)跨膜结构域；(c)包含4-1BBζ或CD28或者两者的共刺激信号传导结构域；和(d)CD3ζ信号传导结构域。

在实施方案中，所述CAR包含与CAR的细胞外结构域融合的跨膜结构域。在一个实施方案中，使用天然地与该CAR中的一个结构域相关联的跨膜结构域。在实施方案中，该跨膜结构域是跨膜的疏水α螺旋。

所述跨膜结构域可衍生自天然来源或合成来源。在天然来源的情况下，该结构域可衍生自任何膜结合或跨膜蛋白。在一些情况下，CAR包含：选自CD8α跨膜结构域或CD3ζ跨膜结构域的跨膜结构域；选自CD27、CD28、4-1BB(CD137)、ICOS、DAP10、OX40(CD134)或其片段或组合的一个或多个共刺激结构域；和来自CD3ζ的信号传导结构域。在本发明中特别有用的跨膜区域可衍生自(例如，包含其至少跨膜区域)：T细胞受体的α、β或ζ链，CD28，CD3ε，CD45，CD4，CD5，CD8α，CD9，CD16，CD22，CD33，CD37，CD64，CD80，CD86，CD134，CD137或CD154。或者，该跨膜结构域可以是合成的，在这种情况下其将主要包含疏水残基如亮氨酸和缬氨酸。在实施方案中，在合成跨膜结构域的每个端部将存在苯丙氨酸、色氨酸和缬氨酸的三联体。

本公开内容的范围内包括编码本文所述的CAR的功能部分的核酸序列。功能部分包括例如CAR保留了与亲本CAR相似程度、相同程度或更高程度的识别靶细胞的能力或者检测、治疗或预防疾病的能力的那些部分。

在实施方案中，本文所述的CAR在部分的氨基或羧基末端或者两个末端含有额外的氨基酸，这种额外的氨基酸在亲本CAR的氨基酸序列中不存在。理想地，这种额外的氨基酸不干扰该功能部分的生物学功能，例如识别靶细胞、检测癌症、治疗或预防癌症等。更理想地，与亲本CAR的生物活性相比，这种额外的氨基酸增强了CAR的生物活性。

在一些实施方案中，本文所述的CAR(包括其功能部分和功能变体)包括糖基化的、酰胺化的、羧化的、磷酸化的、酯化的、N-酰化的、环化的(通过例如二硫桥)、或转化成酸加成盐的、和/或任选地二聚化的或聚合的、或缀合的。

递送系统

本公开内容还提供了递送系统，如基于病毒的系统的，其中插入本文所述的核酸。代表性的病毒表达载体包括但不限于：腺伴随病毒载体、基于腺病毒的载体(例如，基于腺病毒的Per.C6系统可从Crucell,Inc.(Leiden,The Netherlands)获得)、基于慢病毒的载体(例如，基于慢病毒的pLPI，来自Life Technologies(Carlsbad,Calif.))、逆转录病毒载体(例如，pFB-ERV加pCFB-EGSH)和基于疱疹病毒的载体。在实施方案中，该病毒载体为慢病毒载体。衍生自逆转录病毒如慢病毒的载体是实现长期基因转移的合适工具，这是因为它们允许转基因的长期、稳定的整合及其在子细胞中的繁殖。慢病毒载体相对于衍生自肿瘤逆转录病毒如鼠白血病病毒的载体具有额外的优势，因为它们可转导非增殖细胞，如肝细胞。它们还具有低免疫原性的额外优势。在另一个实施方案中，该病毒载体为腺伴随病毒载体。在进一步的实施方案中，该病毒载体为逆转录病毒载体。通常，在实施方案中，合适的载体含有至少一种生物体中的复制功能的来源、启动子序列、便利的限制性内切核酸酶位点以及一种或多种选择标记。

本文公开的某些方面可利用载体。可使用任何质粒和载体，只要它们在所选宿主中可复制和存活即可。可将本领域已知的载体和可商购的载体(及其变体或衍生物)工程化为包括一个或多个重组位点以用于该方法的。可使用的载体包括但不限于：细菌表达载体(如pBs、pQE-9(Qiagen)、phagescript、PsiX174、pBluescript SK、pB5KS、pNH8a、pNH16a、pNH18a、pNH46a(Stratagene)、pTrc99A、pKK223-3、pKK233-3、pDR540、pRIT5(Pharmacia)及其变体或衍生物)、真核表达载体(如pFastBac、pFastBacHT、pFastBacDUAL、pSFV、和pTet-Splice(Invitrogen)、pEUK-C1、pPUR、pMAM、pMAMneo、pBI101、pBI121、pDR2、pCMVEBNA、pYACneo(Clontech)、pSVK3、pSVL、pMSG、pCH110、pKK232-8(Pharmacia,Inc.)、p3'SS、pXT1、pSG5、pPbac、pMbac、pMClneo、pOG44(Stratagene,Inc.)、pYES2、pAC360、pBlueBa-cHis A、B和C、pVL1392、pBlueBac111、pCDM8、pcDNA1、pZeoSV、pcDNA3、pREP4、pCEP4、pEBVHis(Invitrogen,Corp.)、pWLneo、pSv2cat、pOG44、pXT1、pSG(Stratagene)pSVK3、pBPv、pMSG、pSVL(Pharmiacia)及其变体或衍生物)以及在宿主细胞中可复制和存活的任何其他质粒和载体。

本领域已知的载体和可商购的载体(及其变体或衍生物)可根据本发明被工程化为包括一个或多个重组位点，用于在本公开内容的方法中使用。这样的载体可以例如从以下获得：Vector Laboratories Inc.、Invitrogen、Promega、Novagen、NEB、Clontech、Boehringer Mannheim、Pharmacia、EpiCenter、OriGenes Technologies Inc.、Stratagene、PerkinElmer、Pharmingen、Research Genetics和TransposagenPharmaceutical。其他载体包括：pUC18、pUC19、pBlueScript、pSPORT、粘粒、噬菌粒、YAC's(酵母人工染色体)、BAC's(细菌人工染色体)、P1(大肠杆菌噬菌体)、pQE70、pQE60、pQE9(quagan)、pBS载体、PhageScript载体、BlueScript载体、pNH8A、pNH16A、pNH18A、pNH46A(Stratagene)、pcDNA3(Invitrogen)、pGEX、pTrsfus、pTrc99A、pET-5、pET9、pKK223-3、pKK233-3、pDR540、pRIT5(Pharmacia)、pSPORT1、pSPORT2、pCMVSPORT2.0和pSY-SPORT1(Invitrogen)及其变体或衍生物。还可使用病毒载体，如慢病毒载体(参见，例如，WO 03/059923；Tiscornia等人PNAS 100:1844-1848(2003))。

其他感兴趣的载体包括：来自Invitrogen的pTrxFus、pThioHis、pLEX、pTrcHis、pTrcHis2、pRSET、pBlueBacHis2、pcDNA3.1/His、pcDNA3.1(-)/Myc-His、pSecTag、pEBVHi5、pPIC9K、pPIC3.5K、pAO81S、pPICZ、pPICZA、pPICZB、pPICZC、pGAPZA、pGAPZB、pGAPZC、pBlueBac4.5、pBlueBacHis2、pMelBac、pSinReps、pSinHis、pllD、pND(SP 1)、pVgRXR、pcDNA2.1、pYES2、pZErO1.1、pZErO-2.1、pCR-Blunt、pSE280、pSE380、pSE420、pVL1392、pVL1393、pCDM8、pcDNA1.1、pcDNA 1.1/Amp、pcDNA3.1、pcDNA3.1/Zeo、pSe、SV2、pRc/CMV2、pRc/RSV、pREP4、pREP7、pREP8、pREP9、pREP 10、pCEP4、pEBVHis、pCR3.1、pCR2.1、pCR3.1-Uni和pCRBac；来自Pharmacia的.lamda.、ExCell、.lamda.、gt11、pTrc99A、pKK223-3、pGEX-1λT、pGEX-2T、pGEX-2TK、pGEX-4T-1、pGEX-4T-2、pGEX-4T-3、pGEX-3X、pGEX-5X-1、pGEX-5X-2、pGEX-5X-3、pEZZ18、pRIT2T、pMC1871、pSVK3、pSVL、pMSG、pCH110、pKK232-8、pSL1180、pNEO和pUC4K；来自Novagen的pSCREEN-lb(+)、pT7Blue(R)、pT7Blue-2、pCITE-4abc(+)、pOCUS-2、pTAg、pET32L1C、pET-30LIC、pBAC-2cp LIC、pBACgus-2cp LIC、pT7Blue-2 LIC、pT7Blue-2、lamda SCREEN-1、lamda BlueSTAR、pET-3abcd、pET-7abc、pET9abcd、pET1labcd、pET12abc、pET-14b、pET-15b、pET-16b、pET-17b-pET-17xb、pET-19b、pET-20b(+)、pET-21abcd(+)、pET-22b(+)、pET-23abcd(+)、pET-24abcd(+)、pET-25b(+)、pET26b(+)、pET-27b(+)、pET-28abc(+)、pET-29abc(+)、pET-30abc(+)、pET-31b(+)、pET-32abc(+)、pET-33b(+)、pBAC-1、pBACgus-1、pBAC4x-1、pBACgus4x-1、pBAC-3cp、pBACgus-2cp、pBACsurf-1、plg、Signal plg、pYX、Selecta Vecta-Neo、Selecta VectaHyg和SelectaVecta-Gpt；来自Clontech的pLexA、pB42AD、pGBT9、pAS2-1、pGAD424、pACT2、pGAD GL、pGADGH、pGAD10、pGilda、pEZM3、pEGFP、pEGFP-1、pEGFP-N、pEGFP-C、pEBFP、pGFPuv、pGFP、p6xHis-GFP、pSEAP2Basic、pSEAP2-Contral、pSEAP2-Promoter、pSEAP2-Enhancer、pβgal-Basic、pβ-galControl、pβgal-Promoter、pβgal-Enhancer、pCMV、pTet-Off、pTet-On、pTK-Hyg、pRetro-Off、pRetro-On、pIRESlneo、pIRESihyg、pLXSN、pLNCX、pLAPSN、pMAMneo、pMAMneo-CAT、pMAMneo-LUC、pPUR、pSV2neo、pYEX4T-1/2/3、pYEX-S1、pBacPAK-His、pBacPAK8/9、pAcUW3 1、BacPAK6、pTriplEx、λgt10、λgt11、pWE15和λTriplEx；来自Stratagene的Lambda ZAP II、pBK-CMV、pBK-RSV、pBluescript II KS+/-、pBluescript IISK+/-、pAD-GAL4、pBD-GAL4 Cam、pSurfscript、Lambda FIX II、Lambda DASH、LambdaEMBL3、Lambda EMBL4、SuperCos、pCR-Scrigt Amp、pCR-Script Cam、pCR-Script Direct、pBS+/1-、pBC KS+/-、pBC SK+/-、Phagescript、pCAL-n-EK、pCAL-n、pCAL-c、pCAL-kc、pET-3abcd、pET-11abcd、pSPUTK、pESP-1、pCMVLacI、pOPRSVI/MCS、pOPI3 CAT、pXT1、pSG5、pPbac、pMbac、pMClneo、pMClneo Poly A、pOG44、pOG45、pFRTβGAL、pNEOβGAL、pRS403、pRS404、pRS405、pRS406、pRS413、pRS414、pRS415和pRS416。其他载体包括例如pPC86、pDBLeu、pDBTrp、pPC97、p2.5、pGAD1-3、pGAD10、pACt、pACT2、pGADGL、pGADGH、pAS2-1、pGAD424、pGBT8、pGBT9、pGAD-GAL4、pLexA、pBD-GAL4、pHISi、pHISi-1、placZi、pB42AD、pDG202、pJK202、pJG4-5、pNLexA、pYESTrp及其变体或衍生物。

这些载体可用于表达基因(例如转基因)，或感兴趣的基因的一部分。可以通过使用已知方法如基于限制酶的技术插入基因部分或基因。

其他合适的载体包括整合表达载体，其可以随机整合到宿主细胞的DNA中，或者可包括重组位点从而实现表达载体与宿主细胞染色体之间的特异性重组。这样的整合表达载体可利用宿主细胞染色体的内源表达控制序列来实现期望蛋白质的表达。以位点特异性方式整合的载体的实例包括例如来自Invitrogen(Carlsbad,Calif.)的flp-in系统的组分(例如，pcDNATM5/FRT)或cre-lox系统，诸如在来自Stratagene(La Jolla,Calif.)的pExchange-6核心载体中可见的。随机整合到宿主细胞染色体中的载体的实例包括例如来自Invitrogen(Carlsbad,Calif.)的pcDNA3.1(当在没有T-抗原的情况下引入时)，和来自Promega(Madison,Wis.)的pCI或pFN10A(ACT)FLEXITM。其他启动子元件(例如增强子)调节转录起始的频率。通常，这些启动子原件位于起始位点上游30-110bp的区域，但最近已经显示许多启动子也包含起始位点下游的功能元件。启动子元件之间的间隔通常是柔性的，使得当元件相对于彼此进行反转或移动时保持了启动子功能。在胸苷激酶(tk)启动子中，启动子元件之间的间隔可以增加至50bp，之后活性开始下降。似乎单个元件可协同地或独立地起作用以激活转录，这取决于启动子。

在一些实施方案中，所述载体包含驱动转基因表达的hEF1a1启动子、增强转录的牛生长激素多聚A序列、土拨鼠肝炎病毒转录后调控元件(WPRE)以及衍生自pFUGW质粒的LTR序列。

将基因引入和表达到细胞中的方法是本领域已知的。在表达载体的上下文中，通过本领域的任何方法可将载体容易地引入宿主细胞(例如哺乳动物细胞、细菌细胞、酵母细胞或昆虫细胞)中。例如，可以通过物理、化学或生物方式将表达载体转移到宿主细胞中。

用于将多核苷酸引入宿主细胞的物理方法包括磷酸钙沉淀、脂质转染、粒子轰击、显微注射、电穿孔等。用于产生包含载体和/或外源核酸的细胞的方法是本领域公知的。参见，例如Sambrook等人(Molecular Cloning:A Laboratory Manual,Cold Spring HarborLaboratory,New York(2001))。在实施方案中，用于将多核苷酸引入宿主细胞的方法为磷酸钙转染或聚乙烯亚胺(PEI)转染。

用于将感兴趣的多核苷酸引入宿主细胞的生物学方法包括使用DNA和RNA载体。病毒载体(尤其是逆转录病毒载体)已成为将基因插入哺乳动物(例如人)细胞中的最广泛使用的方法。其他病毒载体可衍生自慢病毒、痘病毒、单纯疱疹病毒I、腺病毒和腺伴随病毒等。参见，例如美国专利号5,350,674和5,585,362。

用于将多核苷酸引入宿主细胞的化学手段包括胶体分散系统，如大分子复合体、纳米胶囊、微球、珠子和基于脂质的系统，该系统包括水包油乳液、胶束、混合胶束和脂质体。用作体外和体内递送媒介物的示例性胶体系统为脂质体(例如，人造膜囊泡)。

在利用病毒递送系统的情况下，示例性递送媒介物为脂质体。考虑使用脂质制剂来将核酸引入宿主细胞(体外、离体或体内)。在另一方面，该核酸可与脂质相关联。与脂质相关联的核酸可包封在脂质体的水性内部，散布在脂质体的脂质双层中，通过与脂质体和寡核苷酸两者相关联的连接分子与脂质体附接，陷入脂质体中，与脂质体复合，分散在含有脂质的溶液中，与脂质混合，与脂质结合，作为悬浮液包含在脂质内，含有胶束或与胶束复合，或以其他方式与脂质相关联。脂质、脂质/DNA或脂质/表达载体相关的组合物不限于溶液中的任何特定结构。例如，它们可以以双层结构、胶束或伴随“坍缩”结构而存在。它们也可以简单地散布在溶液中，可能形成大小或形状不均匀的聚集体。脂质为脂肪物质，其可以是天然存在的或合成的脂质。例如，脂质包括天然存在于细胞质中的脂肪滴，以及包括含有长链脂肪烃及其衍生物(如脂肪酸、醇、胺、氨基醇和醛)的化合物类别。

适合于使用的脂质可从商业来源获得。例如，可从Sigma,St.Louis,Mo.获得二肉豆蔻基酰磷脂酰胆碱(“DMPC”)；可从K&K Laboratories(Plainview,N.Y.)获得双十六烷基磷酸(“DCP”)；可从Calbiochem-Behring获得胆固醇(“Choi”)；可从Avanti Polar Lipids,Inc.(Birmingham,Ala.)获得二肉豆蔻基酰磷脂酰甘油(“DMPG”)和其他脂质。脂质在氯仿或氯仿/甲醇中的储备溶液可以在约-20℃下储存。氯仿用作唯一的溶剂，这是因为它比甲醇更容易蒸发。“脂质体”是通用术语，其涵盖通过生成闭合的脂质双层或聚集体而形成的各种单层和多层脂质媒介物。脂质体可被表征为具有囊泡结构，该囊泡结构具有磷脂双层膜和内部水性介质。多层脂质体具有通过水性介质间隔开的多个脂质层。它们在磷脂悬浮于过量水溶液中时自发形成。脂质组分在形成封闭结构之前经历自我重排，并且在脂质双层之间包载水和溶解的溶质(Ghosh等人,Glycobiology 5:505-10(1991))。然而，还涵盖在溶液中具有与正常囊泡结构不同的结构的组合物。例如，脂质可假定为胶束结构或仅作为脂质分子的非均匀聚集体而存在。还考虑到脂质转染胺-核酸复合体。

治疗组合物

在一些方面，所述供体核酸序列编码治疗性蛋白，如抗体、细胞因子、神经递质或激素。因此，例如当宿主细胞表达治疗性蛋白时，该宿主细胞可用作治疗效应子细胞，或者可具有增强的免疫治疗潜力(图10B和图11-图13)。在实施方案中，包含构建体的多能干细胞接受编码细胞毒性蛋白(Y)的供体核酸序列，并且分化成细胞毒性细胞谱系并进行扩充，然后表达细胞毒性蛋白(图12)。在实施方案中，包含构建体的宿主细胞可用于治疗方式，并且可根据插入构建体的多基因编辑位点的供体核酸序列进行工程化。

在一些方面，所述细胞可分泌由供体核酸编码的蛋白质。因此，该细胞可具有作为表达宿主细胞的进一步用途，由此在细胞培养基中分泌蛋白质，并且随后进行收获和纯化。

包含多基因编辑位点的细胞可用于研究供体基因编码的蛋白质对细胞的影响，包括对信号途径的影响，或分化并仍然表达供体基因蛋白的能力。在临床上，该细胞可用于表达治疗性蛋白或为免疫细胞提供治疗支持。

在一些方面，可以从所述多基因编辑位点去除一个或多个供体序列。例如，当供体序列位于次级内切核酸酶识别位点之间时，此类位点可用于切割多基因编辑位点。

在一些方面，可以去除所述多基因编辑位点自身。多基因编辑位点的去除还可以去除插入其中的任何供体核酸序列。初级内切核酸酶识别位点可用于切割多基因编辑位点的外部区域以促进其从基因组中的去除，包括从安全港位点(例如，Rosa26、AAVS1、CCR5)中的去除。在一些实施方案中，AAVs1 3'同源臂序列包含SEQ ID NO:8的核苷酸序列。在一些实施方案中，AAVs1 CRISPR靶向序列包含SEQ ID NO:10的核苷酸序列。在一些实施方案中，AAVs1 CRISPR gRNA序列包含SEQ ID NO:10的核苷酸序列。

在一些实施方案中，在将多基因编辑位点插入宿主细胞后，该宿主细胞可以分化成神经谱系。该宿主细胞可以是原代分离干细胞或干细胞系。这种分化可以在将供体核酸序列插入干细胞宿主中的多基因编辑位点之前或之后发生。

在一些实施方案中，所述供体核酸序列可编码嵌合抗原受体。在将多基因编辑位点插入宿主细胞后，该宿主细胞可分化成细胞毒性T细胞谱系或自然杀伤(NK)细胞谱系。该宿主细胞可以是原代分离干细胞或干细胞系。这种分化可以在将供体核酸序列插入干细胞宿主中的多基因编辑位点之前或之后发生。该供体核酸序列可编码一种或多种靶向肿瘤的嵌合抗原受体(CAR)。然后可以将表达CAR的分化细胞施用于肿瘤细胞表达CAR靶标的癌症患者。不希望限制于任何特定理论或作用机制，认为表达CAR的细胞毒性细胞与表达CAR靶标的肿瘤细胞的相互作用可促进肿瘤细胞的杀伤。可首先将干细胞从癌症患者中分离，然后在修饰、分化和扩充后返回给患者。可首先将干细胞从健康供体中分离，然后在修饰、分化和扩充后施用于癌症患者。基于CAR靶标可将细胞引导至任何肿瘤，其中供体序列适合于由肿瘤表达的特定CAR。

在一些实施方案中，所述供体核酸序列可编码多巴胺或其他神经递质。编码多巴胺或其他神经递质的供体核酸序列可在调节控制元件下方，该调节控制元件根据摄入的影响调节控制元件的小分子(例如四环素对四环素操纵子)来调节多巴胺或神经递质表达的水平。然后可以将表达多巴胺的分化细胞施用于患有由多巴胺表达失调介导的病况如帕金森病的患者。不希望显示于任何特定的理论或作用机制，认为多巴胺的表达可以缓和多巴胺表达的失调或多巴胺的其他缺陷，从而治疗该病况。可首先将干细胞从患者(例如，帕金森病患者)中分离，然后在修饰、分化和扩充后返回给患者。可首先将干细胞从健康供体中分离，然后在修饰、分化和扩充后施用于患者(例如，帕金森病患者)。

在一些实施方案中，所述供体核酸序列可编码胰岛素或胰岛素的前体形式，或者其他激素。然后可将表达胰岛素或其前体形式的分化细胞施用于患有糖尿病(1型或2型)或患有由胰岛素失调介导的其他病况的患者。不希望限制于任何特定的理论或作用机制，认为胰岛素的表达可治疗糖尿病或其他胰岛素缺陷，从而治疗该病况。可首先将干细胞从患者(例如，糖尿病患者)中分离，然后在修饰、分化和扩充后返回给患者。可首先将干细胞从健康供体中分离，然后在修饰、分化和扩充后施用于患者(例如，糖尿病患者)。

本公开内容不限于以上描述和例示的实施方案，而是能够在所附权利要求的范围内进行变化和修改。

实施例

提供这些实施例仅仅为了说明性目的，而非限制本文提供的权利要求的范围。

实施例1：将GEMS序列工程化到HEK293T细胞的AAVs1位点中

构建GEMS供体质粒(aavs1_cmvGFPpuro)，其中GEMS序列(SEQ ID NO:2)和选择盒的侧翼为围绕切割位点的约500bp AAVS1序列作为5'和3'同源臂，以促进同源重组。该选择盒由嘌呤霉素选择标记和GFP编码序列组成，由CMV启动子驱动。该选择盒的侧翼为loxP位点序列以便于在需要时通过cre-loxP系统来切除盒。

使用来自Lonza的4D-Nucleofector^TM系统，通过电穿孔尝试使用两种不同的转染条件将GEMS供体质粒aavs1_cmvGFPpuro、表达Cas9和AAVS1靶向位点sgRNA的AAVS1CRISPR/Cas9单发(single shot)质粒以及Cas9 mRNA转染到HEK293T细胞中，并进行两种对照转染。

·条件1：2μg aavs1_cmvGFPpuro+4μg AAVs1 CRISPR/Cas9单发质粒+4μg Cas9 mRNA

·条件2：4μg aavs1_cmvGFPpuro+4μg AAVs1 CRISPR/Cas9单发质粒+4μg Cas9 mRNA

·对照1：pMax GFP作为阳性对照用于核转染效率

·对照2：SGK-001阳性对照用于cmvGFP表达

在每种核转染中使用1×10⁶个HEK293T细胞。在核转染后24小时通过荧光显微镜使在核转染细胞中GFP的表达可视化，并计数细胞活力。通过上述两种条件产生具有39％-56％细胞活力的高GFP阳性百分比的细胞，这表明成功转染(图15)。

进行Surveyor核酸酶测定来估算转染细胞中CRISPR/Cas9活性的效率(图14和图16A)。简言之，在核转染后5天收集所转染的细胞以制备基因组DNA。通过PCR来扩增来自转染细胞和参考的未转染细胞的AAVs1位点的序列。将PCR产物混合在一起并杂交以在修饰的DNA和参考的野生型DNA之间产生异源双链体。添加Surveyor核酸酶以识别并切割异源双链DNA中的错配。通过琼脂糖凝胶电泳来分析消化的DNA片段。对于这两种转染条件，除了通过PCR扩增的完整DNA片段之外，还观察到通过CRISPR活性对AAVS1位点的双链切割而产生的两种消化的DNA片段(图16B)。DNA条带强度的定量显示出条件1和条件2的切割效率分别为24％和15％，这是对CRISPR/Cas9活性的一般预期。

将转染的细胞在含有嘌呤霉素的培养基中培养，以选择嘌呤霉素抗性细胞并富集GFP阳性细胞。在转染后16天，通过流式细胞术针对GFP阳性细胞来分选细胞。在条件1和条件2中，约30-40％的细胞群是GFP阳性的，但观察到宽范围的GFP信号强度(图17)。

制备来自嘌呤霉素抗性的GFP阳性HEK293T细胞的基因组DNA。通过使用对GEMS序列具有特异性的引物的PCR，随后对PCR产物进行Sanger测序，从而评价整合到细胞基因组中的GEMS序列。对于条件1和条件2，使用对应于GEMS序列的引物(F2-1/R2-1)(SEQ ID NO:3-6)从细胞基因组DNA扩增PCR产物(728bp)，表明GEMS序列在细胞基因组中成功整合(图18A)。进一步对PCR产物进行测序以证实GEMS序列的同一性(图18B)。图18B示出了对插入的GEM序列的PCR产物进行的测序。

通过使用一种对AAVs1序列具有特异性的引物和另一种对插入的盒序列具有特异性的引物的PCR，随后对PCR产物进行Sanger测序(SEQ ID NO:3-6)，从而分析AAVs1位点和插入的盒之间的5′和3′连接位点来评估GEMS在AAVS1位点中的适当插入。通过具有正确的836bp条带的PCR(图18C)随后进行Sanger测序(图18D)来证实适当的3'连接，表明在GEMS序列在AAVs1位点中成功靶向整合。图18D示出了对3'连接位点的PCR产物进行的测序。显示出在AAV1位点和5'同源臂之间的正确连接(上图)以及在5'同源臂和GEMS靶向盒之间的正确连接(下图)。然而，5'连接位点通过PCR扩增了不正确的1kb条带(图18C)，其被证明是无关序列。

使汇集的嘌呤霉素抗性的GFP阳性细胞在96孔板中进行有限稀释以供单细胞克隆。成功建立了单克隆GEMS修饰的HEK293T细胞系(9B1)。通过PCR然后进行Sanger测序(图19A和图19D)来确认插入单克隆细胞系的细胞基因组中的GEMS序列的存在。通过具有正确的DNA条带的PCR随后进行Sanger测序(图19B、图19C、图19E和图19F)来证实适当的5'连接和3'连接。图19D示出了对来自单克隆GEMS修饰的HEK293T细胞系(9B1)的插入的GEM序列的PCR产物进行的测序。图19E示出了对来自单克隆GEMS修饰的HEK293T细胞系(9B1)的插入的GEMS盒和AAVs1位点的5'连接位点进行的测序。示出了在AAV1位点和5'同源臂之间的正确连接(上图)以及在5'同源臂和GEMS靶向盒之间的正确连接(下图)。图19F示出了对来自单克隆GEMS修饰的HEK293T细胞系(9B1)的插入的GEMS盒和AAVs1位点的3'连接位点进行的测序。示出了在GEMS靶向盒和3'同源臂之间的正确连接(上图)以及在3'同源臂和AAVs1位点之间的正确连接(下图)。

通过CRISPR将GEMS序列成功地工程化到HEK293T细胞的AAVs1位点中。这种概念验证研究有助于建立细胞转染、CRISPR活性评估、稳定的细胞系生成和位点特异性基因靶向验证的标准方案，其可以作为参考来使其他细胞类型工程化。所得GEMS修饰的HEK293T细胞系可用于进一步将CD19 CAR工程化到GEMS序列中。

实施例2：将CD19 CAR工程化到GEMS修饰的HEK293T细胞中

为了检查Cas9介导的CRISPR是否可切割所设计的GEMS序列(SEQ ID NO:2)并评估切割效率，进行了体外核酸酶测定。简言之，将GEMS DNA进行PCR扩增，纯化，并以约100ng/μl重悬浮于不含RNA酶的水中。将500ng的Cas9核酸酶与1500ng的对应于选择性GEMS靶向序列的每种指导RNA进行预先复合。然后将这种预先复合的RNP添加至600ng模板DNA，总反应体积为10μl，并在37℃下温育1小时，然后在70℃下灭活10分钟。随后在TAE琼脂糖凝胶上分析整个10μl反应体积。在Cel1 surveyor核酸酶测定中测试九种设计的sgRNA(表6；SEQ IDNO:24-32)的切割GEMS的能力。这九种sgRNA中有七种切割GEMS DNA。这七种中有五种具有10％至25％(优选范围)的切割效率。这七种中有两种显示效率低于10％，并且两种未切割(图20；表6)。体外核酸酶测定显示了所设计的sgRNA可切割所设计的GEMS DNA的实际证据。

表6.测试的sgRNA的切割效率

基于切割效率，选择显示了最高切割效率的GEMS序列的位点16(CCT-16；SEQ IDNO:24)作为将CD19 CAR工程化到GEMS修饰的HEK293T细胞中的位点作为概念验证研究。构建CD19 CAR供体质粒以表达在例如EF-1α启动子(SEQ ID NO:18)控制下的CD19CAR，该CD19CAR由针对CD19的单链Fv(scFv)(SEQ ID NO:20)、铰链和跨膜结构域、其后的4-1BB共刺激胞内域(SEQ ID NO:22)和CD3-ζ细胞内信号传导结构域(SEQ ID NO:23)组成。CD19-CAR表达序列连同杀稻瘟素选择标记例如CMV启动子(SEQ ID NO:11)侧接围绕切割位点(位点16)的GEMS序列作为5'和3'同源臂(SEQ ID NO:16-17)，以促进同源重组。

通过核转染将CD19 CAR供体质粒、Cas9表达质粒和GEMS位点16gRNA的组合转染到单克隆GEMS修饰的HEK293T细胞系(9B1)中。将核转染的细胞在含有杀稻瘟素的培养基中培养以选择杀稻瘟素抗性细胞。在核转染后16天将抗性细胞汇集在一起，并且它们能够在培养基中与40g/mL的杀稻瘟素一起存活，而亲本天然9B1细胞无法存活(表7)。用Alexa Fluor594缀合的山羊抗人IgG F(ab')2片段抗体对汇集的细胞进行免疫染色，以检测CD19 CAR分子的抗CD19 scFv部分。检测到阳性染色的细胞，这表明CD19 CAR在一些汇集的杀稻瘟素抗性细胞中的表达(图21A)。此外，通过PCR证实杀稻瘟素抗性细胞汇集中存在CD19 CAR序列(图21B)。

表7.具有CD19 CAR的GEMS修饰的HEK293T(9B1)细胞的细胞活力百分比

可通过流式细胞术针对CD19 CAR阳性细胞进一步分选所汇集的细胞。随后，可使CD19 CAR阳性细胞进行单细胞克隆。可通过PCR，然后对在插入的盒和位点16靶向位点之间的5'和3'连接位点进行sanger测序来验证CD19 CAR序列插入到GEMS序列的位点16中。

实施例3：将GEMS序列工程化到NK92细胞的AAVs1位点中

使用4D-Nucleofector^TM系统(Lonza)通过电穿孔用GFP质粒(绿色荧光)转染NK92细胞。评估核转染前后的活力，并评估通过成功转染GFP质粒而变成荧光的细胞的百分比。建立最佳条件，并且产生60-70％的转染效率，保持65％的活力(图22)。此外，测试NK92细胞的嘌呤霉素敏感性。将NK92细胞在含有嘌呤霉素的培养基(0；0.5；1.0；2.0；2.5；5.0；和10μg/ml)中培养。测量活力和细胞数。NK92显示在含有大于2.0μg/ml嘌呤霉素的培养物中没有细胞活力(图23)。

使用来自Lonza的4D-Nucleofector^TM系统，通过电穿孔尝试几种不同的转染条件将GEMS供体质粒aavs1_cmvGFPpuro、表达Cas9和AAVS1靶向位点sgRNA的AAVS1 CRISPR/Cas9单发质粒以及Cas9 mRNA转染到NK92细胞中。在每次核转染中使用1×10⁶个HEK293T细胞。将转染的细胞在含有嘌呤霉素的培养基中进行培养以选择嘌呤霉素抗性细胞，并富集GFP阳性细胞。在转染后20天，通过流式细胞术针对GFP阳性细胞分选细胞。

制备来自嘌呤霉素抗性的GFP阳性NK92细胞的基因组DNA。使用对GEMS序列具有特异性的引物，通过PCR随后对PCR产物进行Sanger测序来评价整合到细胞基因组中的GEMS序列(SEQ ID NO:2)。使用对应于GEMS序列的引物(F1-2/R2-2)由细胞基因组DNA扩增PCR产物(1147bp)，表明GEMS序列在细胞基因组中的成功整合(图24A)。进一步对PCR产物进行测序以证实GEMS序列的同一性(图24B)。图24B示出了对插入的GEM序列的PCR产物的测序。

通过使用一种对AAVs1序列具有特异性的引物和另一种对插入的盒序列(SEQ IDNO:3-6)具有特异性的引物的PCR，随后对PCR产物进行Sanger测序，从而分析AAVs1位点和插入的盒之间的5′和3′连接位点来评估GEMS在AAVS1位点中的适当插入。通过具有正确的776bp条带的PCR(图24C)随后进行Sanger测序(图24D)来证实适当的5'连接，表明GEMS序列在AAVs1位点中的成功靶向整合。图24D示出了来自汇集的GFP阳性NK92细胞的插入的GEMS盒和AAVs1位点的5'连接位点的测序。示出了在AAVs1位点和5'同源臂之间的正确连接(上图)以及在5'同源臂和GEMS靶向盒之间的正确连接(下图)。

实施例4：将GEMS序列工程化到人滋养层干细胞(hTSC)系的AAVs1位点中

建立人滋养层干细胞(hTSC)系

由健康供体的组织制备人滋养层干细胞。将细胞维持在含有专有生长因子的培养基中。评价hTSC特异性标志物的表达和hTSC的多能性。

针对CRISPR介导的基因组修饰构建供体质粒

为了将GEMS序列插入hTSC细胞基因组的AAVS1位点，构建供体质粒，其中GEMS序列和选择盒侧接围绕切割位点的约500bp AAVS1序列作为5'和3'同源臂，以便于同源重组。选择盒由嘌呤霉素选择标记和GFP编码序列组成，其表达由例如CMV启动子来驱动。选择盒侧接loxP位点序列，以便于在需要时通过cre-loxP系统来切除盒。

为了将肿瘤靶向嵌合抗原受体(CAR)插入GEMS序列，构建供体质粒以表达在例如EF-1α启动子的控制下的CD19 CAR，该CD19CAR由针对CD19的单链Fv(scFv)、铰链和跨膜结构域、其后的4-1BB共刺激胞内域和CD3-ζ细胞内信号传导结构域组成。CD19-CAR表达序列连同例如CMV启动子下方的杀稻瘟素选择标记侧接围绕切割位点的GEMS序列作为5'和3'同源臂，以促进同源重组。

建立GEMS-hTSC细胞系

使用来自Lonza的4D-Nucleofector^TM系统通过电穿孔将GEMS供体质粒和AAVS1CRISPR/Cas9单发质粒转染到hTSC细胞中。在转染后24小时评估核转染前后的活力以及变为GFP信号阳性的细胞的百分比。将转染的细胞在含有嘌呤霉素的培养基中进行培养，以选择对嘌呤霉素杀伤具有抗性的细胞。在转染后5天，收集转染的细胞以制备基因组DNA。进行Surveyor核酸酶测定来估计转染细胞中CRISPR/Cas9活性的效率。

在转染后大约两周，通过流式细胞术来分选嘌呤霉素抗性细胞以富集GFP阳性细胞。随后，将细胞接种在96孔板中并且进行单细胞克隆以产生单克隆GEMS修饰的hTSC细胞。通过使用对GEMS序列具有特异性的引物进行PCR，随后对PCR产物进行Sanger测序，从而评价整合到细胞基因组中的GEMS序列。通过使用一种对AAVS1序列具有特异性的引物和另一种对插入的盒序列具有特异性的引物进行PCR，随后对PCR产物进行Sanger测序，从而通过分析AAVs1位点和插入的盒之间的5'和3'连接位点来评价GEMS在AAVS1位点的正确插入。通过cre-loxP系统从建立的GEMS-hTSC细胞系的基因组中切除嘌呤霉素-GFP选择盒。对已建立的细胞系进行全基因组测序以评估中靶插入和脱靶插入。

实施例5：将CD19 CAR工程化到GEMS修饰的hTSC细胞的GEMS序列中

建立CD19 CAR-hTSC细胞系

使用4D-Nucleofector^TM系统通过电穿孔将CD19 CAR供体质粒、Cas9质粒和GEMS位点特异性sgRNA表达质粒转染到GEMS-hTSC细胞中。将转染的细胞在含有杀稻瘟素的培养基中培养，以选择对抗生素杀伤具有抗性的细胞。在转染后5天收集转染的细胞以制备基因组DNA。进行Surveyor核酸酶测定来估算转染细胞中CRISPR/Cas9活性的效率。

在转染后大约两周，用荧光标记的抗hIgG Fab对杀稻瘟素抗性细胞进行染色，并通过流式细胞术分选，以富集CD19-scFv阳性细胞。随后，将细胞接种在96孔板中并且进行单细胞克隆以产生单克隆CD19 CAR修饰的hTSC细胞。通过使用对CD19 CAR序列具有特异性的引物的PCR，随后对PCR产物进行Sanger测序，从而评价整合到细胞基因组中的CD19 CAR序列。通过使用一种对GEMS序列具有特异性的引物和另一种对插入的盒序列具有特异性的引物的PCR，随后对PCR产物进行Sanger测序，从而分析GEMS位点和插入的盒之间的5'和3'连接位点来评价CD19 CAR在特异性GEMS位点中的适当插入。对已建立的CAR-hTSC细胞系进行全基因组测序以评估中靶插入和脱靶插入。

使用识别CD19-scFv的抗hIgG Fab和识别4-1BB共刺激性内结构域和CD3-ζ细胞内信号传导结构域的抗体，通过Western印迹分析和免疫染色来评价建立的CAR-hTSC细胞系的CD19 CAR的表达。评价hTSC特异性标志物的表达和CAR-hTSC细胞的多能性。

诱导CD19 CAR-hTSC细胞分化为CD19 CAR-NKT细胞

在含有专有分化因子的培养基中诱导CD19 CAR-hTSC细胞分化为CD19 CAR-NKT细胞。通过流式分选来富集分化的CD19CAR-NKT细胞，并通过免疫染色和RT-PCR来验证NKT细胞特异性标志物的表达。

为了评估NKT细胞的功能活性，将分化细胞与K562靶细胞以各种效应细胞:靶细胞比进行共培养。评估响应于K562靶细胞刺激所产生的细胞因子(例如TNFα、IFNγ)和来自所分化的NKT细胞的CD107a脱粒。为了评估分化的NKT细胞的肿瘤细胞杀伤活性，通过荧光来标记K562细胞，并在细胞毒性测定中将该K562细胞与CAR-NKT细胞共培养。通过流式细胞术评估分化的NKT细胞对标记的K562细胞的杀伤。

或者，可在GEMS-hTSC细胞分化为NKT细胞后引入CD19CAR。

诱导CD19 CAR-hTSC细胞分化为CD19 CAR-NK细胞

还可在含有专有分化因子的培养基中诱导CD19 CAR-hTSC细胞分化为CD19 CAR-NK细胞。通过流式分选来富集分化的CD19CAR-NK细胞，并通过免疫染色和RT-PCR来验证NK细胞特异性标志物的表达。

或者，可在GEMS-hTSC细胞分化为NK细胞后引入CD19 CAR。

CD19 CAR-NKT细胞或CD19 CAR-NK细胞中CD19-CAR活性的体外功能评价

为了在体外评价分化的CAR-NKT细胞或CAR-NK细胞的CD19-CAR介导的肿瘤细胞杀伤活性，通过荧光标记表达CD19的Raji细胞，并在细胞毒性测定中将该Raji细胞与CAR-NKT细胞或CAR-NK细胞以不同的效应细胞:靶细胞比进行共培养。通过流式细胞术评价分化的NKT细胞或CAR-NK细胞对标记的Raji细胞的杀伤。除Raji细胞外，还可以用从患者分离的标记的CD19阳性原代白血病细胞作为靶细胞来建立细胞毒性测定。

在肿瘤细胞杀伤活性评价中，评价响应于Raji和原代白血病靶细胞刺激所产生的细胞因子(例如TNFα、IFNγ)和来自活化的CAR-NKT细胞或CAR-NK细胞的CD107a脱粒。针对CD19-CAR积累、细胞毒性颗粒积累和突触处微管组织中心的极化，通过共聚焦显微镜来评价在CAR-NKT细胞与Raji/白血病细胞之间的免疫突触形成。

CAR-NKT细胞或CAR-NK细胞中CD19-CAR活性的体内功能评价

在异种淋巴瘤模型中评价CAR-NKT细胞或CAR-NK细胞的体内抗肿瘤活性。为了建立疾病模型，通过用编码萤火虫萤光素酶的慢病毒载体的转导来标记Raji细胞。将标记的Raji细胞异种移植到NOD-SCID小鼠中。监测疾病进展以评价小鼠-人肿瘤模型的建立。

为了评价CAR-NKT或CAR-NK细胞的抗肿瘤作用，向异种移植了标记的Raji细胞的小鼠静脉内施用该细胞。通过生物发光成像来监测小鼠中萤火虫萤光素酶标记的Raji肿瘤细胞的生长。收集来自用CAR-NKT细胞或CAR-NK细胞处理的小鼠的血液和主要疾病相关器官(骨髓、肝、脾)。通过流式细胞术来定量这些组织中CAR-NKT细胞或CAR-NK细胞的扩增和Raji细胞的杀伤。可以在临床试验中进一步评价所建立的CAR-NKT细胞或CAR-NK细胞以治疗CD19阳性B细胞淋巴瘤。

序列

本文提供了包括在本文提供的实施方案中的某些序列的代表性列表。

表8.序列

序列表

<110> 艾欧生物科学公司

<120> 包含基因编辑多位点的核酸构建体及其用途

<130> 53407-701.601

<140>

<141>

<150> 62/573,353

<151> 2017-10-17

<150> 62/551,383

<151> 2017-08-28

<150> 62/538,328

<151> 2017-07-28

<150> 62/461,991

<151> 2017-02-22

<160> 84

<170> PatentIn version 3.5

<210> 1

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 1

tagggataac agggtaat 18

<210> 2

<211> 755

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 2

ccatcgtacg tcggaatacg gatctaatca actttctgcc gtactgtgat acacgcgaca 60

ggaactgtgc gaaatcgcca tagcgattta tcggagcgcc attacgtact cagcttatta 120

ccgatacgat acgaacaggt ctagcaaact gctgcctgac gacggttgcg cgtccgttaa 180

tacagcacaa aagtaatcgg ttgcgccgct cgggggatcg agtttaactc acctacgcta 240

cgctaacggg cgatcgttcg tacgcgagtt ttatttaccc cgcgcgaggt gggcgaaatt 300

atagtcgtcc aagaccgacg tacgatacaa ctctaaattt gcagaatagt attcgagtac 360

gcgtcgatgg aagtcatatc acgcgcccat cgacgcgtac tcgaatactg aactcgcgtt 420

cgacgcgtgc gatcgtaccg tgtacggact agcgtctgct tacctacgct acgctaacgg 480

gcgatcacag tttgtgtcat ccgcatggca atctacgcgc gaggattttt gtgctcaagc 540

cggatcgacc gggtcggttc actaacatca gacgcaaatt cttcgatacg gtacgaatag 600

gcgttttggt ccgcccccgg cgtacgcgtc ccatataaac tgttgtctaa ttcaaagagt 660

ggccgcgata atcgaaggac atttgttaca agacctaccg gttaccgcga ggattaatgt 720

atcttacacg taagagtggg cgcgaatatc gtagg 755

<210> 3

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

引物

<400> 3

ttccggagca cttccttct 19

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

引物

<400> 4

ccgataaaac acatgcgtca 20

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

引物

<400> 5

cacgcggtcg ttatagttca 20

<210> 6

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

引物

<400> 6

cggaggaata tgtcccagat 20

<210> 7

<211> 518

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 7

cgtcttcact cgctgggttc ccttttcctt ctccttctgg ggcctgtgcc atctctcgtt 60

tcttaggatg gccttctccg acggatgtct cccttgcgtc ccgcctcccc ttcttgtagg 120

cctgcatcat caccgttttt ctggacaacc ccaaagtacc ccgtctccct ggctttagcc 180

acctctccat cctcttgctt tctttgcctg gacaccccgt tctcctgtgg attcgggtca 240

cctctcactc ctttcatttg ggcagctccc ctacccccct tacctctcta gtctgtgcta 300

gctcttccag ccccctgtca tggcatcttc caggggtccg agagctcagc tagtcttctt 360

cctccaaccc gggcccctat gtccacttca ggacagcatg tttgctgcct ccagggatcc 420

tgtgtccccg agctgggacc accttatatt cccagggccg gttaatgtgg ctctggttct 480

gggtactttt atctgtcccc tccaccccac agtggggc 518

<210> 8

<211> 530

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 8

ggacaggatt ggtgacagaa aagccccatc cttaggcctc ctccttccta gtctcctgat 60

attgggtcta acccccacct cctgttaggc agattcctta tctggtgaca cacccccatt 120

tcctggagcc atctctctcc ttgccagaac ctctaaggtt tgcttacgat ggagccagag 180

aggatcctgg gagggagagc ttggcagggg gtgggaggga agggggggat gcgtgacctg 240

cccggttctc agtggccacc ctgcgctacc ctctcccaga acctgagctg ctctgacgcg 300

gccgtctggt gcgtttcact gatcctggtg ctgcagcttc cttacacttc ccaagaggag 360

aagcagtttg gaaaaacaaa atcagaataa gttggtcctg agttctaact ttggctcttc 420

acctttctag tccccaattt atattgttcc tccgtgcgtc agttttacct gtgagataag 480

gccagtagcc agccccgtcc tggcagggct gtggtgagga ggggggtgtc 530

<210> 9

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 9

ggggccacta gggacaggat tgg 23

<210> 10

<211> 102

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 10

ggggccacta gggacaggat gttttagagc tagaaatagc aagttaaaat aaggctagtc 60

cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt tt 102

<210> 11

<211> 616

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 11

acattgatta ttgactagtt attaatagta atcaattacg gggtcattag ttcatagccc 60

atatatggag ttccgcgtta cataacttac ggtaaatggc ccgcctggct gaccgcccaa 120

cgacccccgc ccattgacgt caataatgac gtatgttccc atagtaacgc caatagggac 180

tttccattga cgtcaatggg tggactattt acggtaaact gcccacttgg cagtacatca 240

agtgtatcat atgccaagta cgccccctat tgacgtcaat gacggtaaat ggcccgcctg 300

gcattatgcc cagtacatga ccttatggga ctttcctact tggcagtaca tctacgtatt 360

agtcatcgct attaccatgg tgatgcggtt ttggcagtac atcaatgggc gtggatagcg 420

gtttgactca cggggatttc caagtctcca ccccattgac gtcaatggga gtttgttttg 480

gcaccaaaat caacgggact ttccaaaatg tcgtaacaac tccgccccat tgacgcaaat 540

gggcggtagg cgtgtacggt gggaggtcta tataagcaga gctctctggc taactagaga 600

acccactgct tactgg 616

<210> 12

<211> 756

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 12

atggagagcg acgagagcgg cctgcccgcc atggagatcg agtgccgcat caccggcacc 60

ctgaacggcg tggagttcga gctggtgggc ggcggagagg gcacccccaa gcagggccgc 120

atgaccaaca agatgaagag caccaaaggc gccctgacct tcagccccta cctgctgagc 180

cacgtgatgg gctacggctt ctaccacttc ggcacctacc ccagcggcta cgagaacccc 240

ttcctgcacg ccatcaacaa cggcggctac accaacaccc gcatcgagaa gtacgaggac 300

ggcggcgtgc tgcacgtgag cttcagctac cgctacgagg ccggccgcgt gatcggcgac 360

ttcaaggtgg tgggcaccgg cttccccgag gacagcgtga tcttcaccga caagatcatc 420

cgcagcaacg ccaccgtgga gcacctgcac cccatgggcg ataacgtgct ggtgggcagc 480

ttcgcccgca ccttcagcct gcgcgacggc ggctactaca gcttcgtggt ggacagccac 540

atgcacttca agagcgccat ccaccccagc atcctgcaga acgggggccc catgttcgcc 600

ttccgccgcg tggaggagct gcacagcaac accgagctgg gcatcgtgga gtaccagcac 660

gccttcaaga cccccatcgc cttcgccaga tcccgcgctc agtcgtccaa ttctgccgtg 720

gacggcaccg ccggacccgg ctccaccgga tctcgc 756

<210> 13

<211> 597

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 13

atgaccgagt acaagcccac ggtgcgcctc gccacccgcg acgacgtccc cagggccgtc 60

cgcaccctcg ccgccgcgtt cgccgactac cccgccacgc gccacaccgt cgatccggac 120

cgccacatcg agcgggtcac cgagctgcaa gaactcttcc tcacgcgcgt cgggctcgac 180

atcggcaagg tgtgggtcgc ggacgacggc gccgcggtgg cggtctggac cacgccggag 240

agcgtcgaag cgggggcggt gttcgccgag atcggcccgc gcatggccga gttgagcggt 300

tcccggctgg ccgcgcagca acagatggaa ggcctcctgg cgccgcaccg gcccaaggag 360

cccgcgtggt tcctggccac cgtcggcgtc tcgcccgacc accagggcaa gggtctgggc 420

agcgccgtcg tgctccccgg agtggaggcg gccgagcgcg ccggggtgcc cgccttcctg 480

gagacctccg cgccccgcaa cctccccttc tacgagcggc tcggcttcac cgtcaccgcc 540

gacgtcgagg tgcccgaagg accgcgcacc tggtgcatga cccgcaagcc cggtgcc 597

<210> 14

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 14

tgcttgtgca tacataacaa cgg 23

<210> 15

<211> 96

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 15

tgcttgtgca tacataacaa gttttagagc tagaaatagc aagttaaaat aaggctagtc 60

cgttatcaac ttgaaaaagt ggcaccgagt cggtgc 96

<210> 16

<211> 383

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 16

gggacagccc ccccccaaag cccccaggga tgtaattacg tccctccccc gctagggggc 60

agcagcgagc cgcccggggc tccgctccgg tccggcgctc cccccgcatc cccgagccgg 120

cagcgtgcgg ggacagcccg ggcacgggga aggtggcacg ggatcgcttt cctctgaacg 180

cttctcgctg ctctttgagc ctgcagacac ctggggggat acggggaaaa ggcctccaag 240

gccagcttcc cacaataagt tgggtgaatt ttggctcatt cctcctttct ataggattga 300

ggtcagagct ttgtgatggg aattctgtgg aatgtgtgtc agttagggtg tggaaagtcc 360

cgcgatcgct cacgagcaag cga 383

<210> 17

<211> 600

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 17

gatatgttaa cgatgctgaa ttagatttgc gttactcgga actgtgcgaa atcgccgacg 60

tagcgttcga gtagcgcatt acgtactcag ctttcacaat cactcaagaa gcacggtcta 120

gcaaactgct gccgtcgcac aagcacagtc tcgttaatac agcacaaaag ctttagacac 180

agtaagacaa cggatcgagt ttaactcacc gagatgctct gcgcgctgca acgttcgtac 240

gcgagttccc gcaatagaga gctttgacgg cgaaattata gtcgtccgat gctatttatt 300

aacgcgtcat aacgtggaac gtatctgcat gtctagcgga cagagcgaaa tcttccgtta 360

attctaaagc aatcgaatct aaatttgcag aatcatgcct ttagaattca gtacggaagt 420

catatcacgc gccgttgtta cacgcgtact gtattgaact cgcgttcgac tgtgttagcg 480

cgctgatctg cggactagcg tctgcttacc gctgacgcgt tatgctaaat ccacagtttg 540

tgtcatctac gaagtcgaga taaaatgcgg atttttgtgc tcaagccgcg tcattgcaag 600

<210> 18

<211> 1184

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 18

cgtgaggctc cggtgcccgt cagtgggcag agcgcacatc gcccacagtc cccgagaagt 60

tggggggagg ggtcggcaat tgaaccggtg cctagagaag gtggcgcggg gtaaactggg 120

aaagtgatgt cgtgtactgg ctccgccttt ttcccgaggg tgggggagaa ccgtatataa 180

gtgcagtagt cgccgtgaac gttctttttc gcaacgggtt tgccgccaga acacaggtaa 240

gtgccgtgtg tggttcccgc gggcctggcc tctttacggg ttatggccct tgcgtgcctt 300

gaattacttc cacctggctg cagtacgtga ttcttgatcc cgagcttcgg gttggaagtg 360

ggtgggagag ttcgaggcct tgcgcttaag gagccccttc gcctcgtgct tgagttgagg 420

cctggcctgg gcgctggggc cgccgcgtgc gaatctggtg gcaccttcgc gcctgtctcg 480

ctgctttcga taagtctcta gccatttaaa atttttgatg acctgctgcg acgctttttt 540

tctggcaaga tagtcttgta aatgcgggcc aagatctgca cactggtatt tcggtttttg 600

gggccgcggg cggcgacggg gcccgtgcgt cccagcgcac atgttcggcg aggcggggcc 660

tgcgagcgcg gccaccgaga atcggacggg ggtagtctca agctggccgg cctgctctgg 720

tgcctggcct cgcgccgccg tgtatcgccc cgccctgggc ggcaaggctg gcccggtcgg 780

caccagttgc gtgagcggaa agatggccgc ttcccggccc tgctgcaggg agctcaaaat 840

ggaggacgcg gcgctcggga gagcgggcgg gtgagtcacc cacacaaagg aaaagggcct 900

ttccgtcctc agccgtcgct tcatgtgact ccacggagta ccgggcgccg tccaggcacc 960

tcgattagtt ctcgagcttt tggagtacgt cgtctttagg ttggggggag gggttttatg 1020

cgatggagtt tccccacact gagtgggtgg agactgaagt taggccagct tggcacttga 1080

tgtaattctc cttggaattt gccctttttg agtttggatc ttggttcatt ctcaagcctc 1140

agacagtggt tcaaagtttt tttcttccat ttcaggtgtc gtga 1184

<210> 19

<211> 396

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 19

atggccaagc ctttgtctca agaagaatcc accctcattg aaagagcaac ggctacaatc 60

aacagcatcc ccatctctga agactacagc gtcgccagcg cagctctctc tagcgacggc 120

cgcatcttca ctggtgtcaa tgtatatcat tttactgggg gaccttgtgc agaactcgtg 180

gtgctgggca ctgctgctgc tgcggcagct ggcaacctga cttgtatcgt cgcgatcgga 240

aatgagaaca ggggcatctt gagcccctgc ggacggtgcc gacaggtgct tctcgatctg 300

catcctggga tcaaagccat agtgaaggac agtgatggac agccgacggc agttgggatt 360

cgtgaattgc tgccctctgg ttatgtgtgg gagggc 396

<210> 20

<211> 726

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 20

gaaattgtga tgacccagtc acccgccact cttagccttt cacccggtga gcgcgcaacc 60

ctgtcttgca gagcctccca agacatctca aaatacctta attggtatca acagaagccc 120

ggacaggctc ctcgccttct gatctaccac accagccggc tccattctgg aatccctgcc 180

aggttcagcg gtagcggatc tgggaccgac tacaccctca ctatcagctc actgcagcca 240

gaggacttcg ctgtctattt ctgtcagcaa gggaacaccc tgccctacac ctttggacag 300

ggcaccaagc tcgagattaa aggtggaggt ggcagcggag gaggtgggtc cggcggtgga 360

ggaagccagg tccaactcca agaaagcgga ccgggtcttg tgaagccatc agaaactctt 420

tcactgactt gtactgtgag cggagtgtct ctccccgatt acggggtgtc ttggatcaga 480

cagccaccgg ggaagggtct ggaatggatt ggagtgattt ggggctctga gactacttac 540

tacaactcat ccctcaagtc acgcgtcacc atctcaaagg acaactctaa gaatcaggtg 600

tcactgaaac tgtcatctgt gaccgcagcc gacaccgccg tgtactattg cgctaagcat 660

tactattatg gcgggagcta cgcaatggat tactggggac agggtactct ggtcaccgtg 720

tccagc 726

<210> 21

<211> 207

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 21

accactaccc cagcaccgag gccacccacc ccggctccta ccatcgcctc ccagcctctg 60

tccctgcgtc cggaggcatg tagacccgca gctggtgggg ccgtgcatac ccggggtctt 120

gacttcgcct gcgatatcta catttgggcc cctctggctg gtacttgcgg ggtcctgctg 180

ctttcactcg tgatcactct ttactgt 207

<210> 22

<211> 126

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 22

aagcgcggtc ggaagaagct gctgtacatc tttaagcaac ccttcatgag gcctgtgcag 60

actactcaag aggaggacgg ctgttcatgc cggttcccag aggaggagga aggcggctgc 120

gaactg 126

<210> 23

<211> 336

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 23

cgcgtgaaat tcagccgcag cgcagatgct ccagcctaca agcaggggca gaaccagctc 60

tacaacgaac tcaatcttgg tcggagagag gagtacgacg tgctggacaa gcggagagga 120

cgggacccag aaatgggcgg gaagccgcgc agaaagaatc cccaagaggg cctgtacaac 180

gagctccaaa aggataagat ggcagaagcc tatagcgaga ttggtatgaa aggggaacgc 240

agaagaggca aaggccacga cggactgtac cagggactca gcaccgccac caaggacacc 300

tatgacgctc ttcacatgca ggccctgccg cctcgg 336

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 24

tgcttgtgca tacataacaa 20

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 25

cccgcaatag agagctttga 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 26

ttgcagcgcg cagagcatct 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 27

ttttgctaca tcttgtaata 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 28

atacagtacg cgtgtaacaa 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 29

tacgatgaga aagcaatcga 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 30

caatgacaat agcgataacg 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 31

tgaattagat ttgcgttact 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 32

tgtgttagcg cgctgatctg 20

<210> 33

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 33

ugaauuagau uugcguuacu 20

<210> 34

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 34

ucacaaucac ucaagaagca 20

<210> 35

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 35

cuuuagacac aguaagacaa 20

<210> 36

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 36

cccgcaauag agagcuuuga 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<220>

<223> 组合的DNA/RNA分子的描述：合成

寡核苷酸

<400> 37

gaacguatcu gcaugucuag 20

<210> 38

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 38

caugccuuua gaauucagua 20

<210> 39

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 39

uguguuagcg cgcugaucug 20

<210> 40

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 40

uacgaagucg agauaaaaug 20

<210> 41

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 41

gcauaaccag uacgcaagau 20

<210> 42

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 42

uuuugcuaca ucuuguaaua 20

<210> 43

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 43

auuauaauau ucaguagaaa 20

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<220>

<223> 组合的DNA/RNA分子的描述：合成

寡核苷酸

<400> 44

cagctacgag ucacgaugua 20

<210> 45

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 45

caaugacaau agcgauaacg 20

<210> 46

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 46

guuacguucg cgaagcguug 20

<210> 47

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 47

gcguaacaac uucugaguug 20

<210> 48

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 48

aacaauacau acguguucgu 20

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<220>

<223> 组合的DNA/RNA分子的描述：合成

寡核苷酸

<400> 49

ugcatcgcaa gctcaucgcg 20

<210> 50

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 50

agcguguucg ugucagagca 20

<210> 51

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 51

ucuacgagac gcgcgacguu 20

<210> 52

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 52

uacgauaaau aauugcgcag 20

<210> 53

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 53

aauuaagauu ucguuagcuu 20

<210> 54

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 54

aacaaugugc gcaugacaua 20

<210> 55

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 55

gacugcgcaa uacgauuuag 20

<210> 56

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 56

gcaguaacgu ucaucugcgc 20

<210> 57

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 57

agcuaacgaa agaguagcau 20

<210> 58

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 58

uagacgcucg cuaaaucuuu 20

<210> 59

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 59

ucgcacuguc gagcuaucac 20

<210> 60

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 60

gacuagcguc acguaagagu 20

<210> 61

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 61

agcuagcaug uaucuaggac 20

<210> 62

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 62

ugcgcgugcg ucgacauauu 20

<210> 63

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 63

auccguauuc cgacguacga 20

<210> 64

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 64

cguacuguga uacacgcgac 20

<210> 65

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 65

ggcgcuccga uaaaucgcua 20

<210> 66

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 66

auuaccgaua cgauacgaac 20

<210> 67

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 67

acggacgcgc aaccgucguc 20

<210> 68

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 68

uaaucgguug cgccgcucgg 20

<210> 69

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 69

uuauuuaccc cgcgcgaggu 20

<210> 70

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 70

guuguaucgu acgucggucu 20

<210> 71

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 71

aguauucgag uacgcgucga 20

<210> 72

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 72

guauucgagu acgcgucgau 20

<210> 73

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 73

gcgugcgauc guaccgugua 20

<210> 74

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 74

cgcauggcaa ucuacgcgcg 20

<210> 75

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 75

gugaaccgac ccggucgauc 20

<210> 76

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 76

uucuucgaua cgguacgaau 20

<210> 77

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 77

uuuauauggg acgcguacgc 20

<210> 78

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 78

agaguggccg cgauaaucga 20

<210> 79

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 79

uaauccucgc gguaaccggu 20

<210> 80

<211> 20

<212> RNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 80

agagugggcg cgaauaucgu 20

<210> 81

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 81

cgctcttgct ttcgtcaatg aaacgagttg cgtcattcga tgaacgttgt 50

<210> 82

<211> 1941

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 82

tcacgagcaa gcgaccgttg ttatgtatgc acaagcagat atgttaacga tgctgaatta 60

gatttgcgtt actcggaact gtgcgaaatc gccgacgtag cgttcgagta gcgcattacg 120

tactcagctt tcacaatcac tcaagaagca cggtctagca aactgctgcc gtcgcacaag 180

cacagtctcg ttaatacagc acaaaagctt tagacacagt aagacaacgg atcgagttta 240

actcaccgag atgctctgcg cgctgcaacg ttcgtacgcg agttcccgca atagagagct 300

ttgacggcga aattatagtc gtccgatgct atttattaac gcgtcataac gtggaacgta 360

tctgcatgtc tagcggacag agcgaaatct tccgttaatt ctaaagcaat cgaatctaaa 420

tttgcagaat catgccttta gaattcagta cggaagtcat atcacgcgcc gttgttacac 480

gcgtactgta ttgaactcgc gttcgactgt gttagcgcgc tgatctgcgg actagcgtct 540

gcttaccgct gacgcgttat gctaaatcca cagtttgtgt catctacgaa gtcgagataa 600

aatgcggatt tttgtgctca agccgcgtca ttgcaagtag acgcgtaaca tcagacgcaa 660

agcataacca gtacgcaaga tcggcgtttt ggtccgcccc cgtcgattgc tttctcatcg 720

tactgttgtc taattcaatt ttgctacatc ttgtaatacg gacatttgtt acaagaccga 780

tctgcgagcg atttagaaat accttatatt ataatattca gtagaaacgg cttcttttaa 840

acactccgag cgtgacagct cgatagtgat gtatcttaca cgtacagcta cgagtcacga 900

tgtacggttc ttcgtgcgca gtccgctgat cgcagtgcat tctcaagttt gctcgagcga 960

acaatgacaa tagcgataac gcggatgtgc tgtctcgaac cgccgatcgt acatagatcc 1020

tgatcatcta cgcatgtcgt tacgttcgcg aagcgttgcg gacttgcgat gtacatccga 1080

cgcgcacgca gctgtataac taatcaactt tctgcgcgta acaacttctg agttgcggat 1140

cagctgcact aacaaagagc acgtctagtt cgtttacaaa gtactcattt actcgtcgta 1200

tgattgtgat ctgagcgttc tagcttacta catgtgcgtg ttccgaatat gaatctttac 1260

tcgcgcgttt actcgtcgta tgattgtcat agcgcactct gcgcttacta catgtgcgtg 1320

ttccggagca agcgaaaacg cgaatcctag tttactcgtc gtatgattgt tcaatacgag 1380

ctaaagctta ctacatgtgc gtgttcgaaa acgcgtgcac tagcgagatt ctgctttact 1440

cgtcgtatga ttgttgcagt cacgcagtgt tcttactaca tgtgcgtgtt cgcaaagagc 1500

aaacgaaaat tttatttact cgtcgtatga ttgtgcgatc aacacgtaac cttactacat 1560

gtgcgtgttc tggagaatca taaaagagcc gcaatttttt tactcgtcgt atgattgtcg 1620

taacgctaag acgccttact acatgtgcgt gttcgagacc aacgaacgac agagcatatt 1680

tttcgtttac tcgtcgtatg attgtttcac ataatcgcac tcttactaca tgtgcgtgtt 1740

ctgaaagtat tttacgttag ccttgcacag agtgcgacaa ctctgtgcaa gagtttgcaa 1800

aatttccgca cgcgctttcg ttacaaagcg cgtgcgacaa acgatatttt cgttttacgc 1860

gagagaatgc tcgcgtaaaa cattcagaaa cgagcgcgca gtcagcacta ctgcgtgctg 1920

actgcgatct actagtgacg a 1941

<210> 83

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

寡核苷酸

<400> 83

cagcttcgct tttcgtcgag atgctttacg tagatgcaat gacgcacgta 50

<210> 84

<211> 1941

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成

多核苷酸

<400> 84

tcacgagcaa gcgaccgttg ttatgtatgc acaagcagat atgttaacga tgctgaatta 60

gatttgcgtt actcggaact gtgcgaaatc gccgacgtag cgttcgagta gcgcattacg 120

tactcagctt tcacaatcac tcaagaagca cggtctagca aactgctgcc gtcgcacaag 180

cacagtctcg ttaatacagc acaaaagctt tagacacagt aagacaacgg atcgagttta 240

actcaccgag atgctctgcg cgctgcaacg ttcgtacgcg agttcccgca atagagagct 300

ttgacggcga aattatagtc gtccgatgct atttattaac gcgtcataac gtggaacgta 360

tctgcatgtc tagcggacag agcgaaatct tccgttaatt ctaaagcaat cgaatctaaa 420

tttgcagaat catgccttta gaattcagta cggaagtcat atcacgcgcc gttgttacac 480

gcgtactgta ttgaactcgc gttcgactgt gttagcgcgc tgatctgcgg actagcgtct 540

gcttaccgct gacgcgttat gctaaatcca cagtttgtgt catctacgaa gtcgagataa 600

aatgcggatt tttgtgctca agccgcgtca ttgcaagtag acgcgtaaca tcagacgcaa 660

agcataacca gtacgcaaga tcggcgtttt ggtccgcccc cgtcgattgc tttctcatcg 720

tactgttgtc taattcaatt ttgctacatc ttgtaatacg gacatttgtt acaagaccga 780

tctgcgagcg atttagaaat accttatatt ataatattca gtagaaacgg cttcttttaa 840

acactccgag cgtgacagct cgatagtgat gtatcttaca cgtacagcta cgagtcacga 900

tgtacggttc ttcgtgcgca gtccgctgat cgcagtgcat tctcaagttt gctcgagcga 960

acaatgacaa tagcgataac gcggatgtgc tgtctcgaac cgccgatcgt acatagatcc 1020

tgatcatcta cgcatgtcgt tacgttcgcg aagcgttgcg gacttgcgat gtacatccga 1080

cgcgcacgca gctgtataac taatcaactt tctgcgcgta acaacttctg agttgcggat 1140

cagctgcact aacaaagagc acgtctagtt cgtttacaaa gtactcattt actcgtcgta 1200

tgattgtgat ctgagcgttc tagcttacta catgtgcgtg ttccgaatat gaatctttac 1260

tcgcgcgttt actcgtcgta tgattgtcat agcgcactct gcgcttacta catgtgcgtg 1320

ttccggagca agcgaaaacg cgaatcctag tttactcgtc gtatgattgt tcaatacgag 1380

ctaaagctta ctacatgtgc gtgttcgaaa acgcgtgcac tagcgagatt ctgctttact 1440

cgtcgtatga ttgttgcagt cacgcagtgt tcttactaca tgtgcgtgtt cgcaaagagc 1500

aaacgaaaat tttatttact cgtcgtatga ttgtgcgatc aacacgtaac cttactacat 1560

gtgcgtgttc tggagaatca taaaagagcc gcaatttttt tactcgtcgt atgattgtcg 1620

taacgctaag acgccttact acatgtgcgt gttcgagacc aacgaacgac agagcatatt 1680

tttcgtttac tcgtcgtatg attgtttcac ataatcgcac tcttactaca tgtgcgtgtt 1740

ctgaaagtat tttacgttag ccttgcacag agtgcgacaa ctctgtgcaa gagtttgcaa 1800

aatttccgca cgcgctttcg ttacaaagcg cgtgcgacaa acgatatttt cgttttacgc 1860

gagagaatgc tcgcgtaaaa cattcagaaa cgagcgcgca gtcagcacta ctgcgtgctg 1920

actgcgatct actagtgacg a 1941

Claims

1.一种用于在插入位点处插入基因组中的基因编辑多位点(GEMS)构建体，其中所述GEMS构建体包含：

侧翼插入序列，其中所述侧翼插入序列中的每一个与所述插入位点处的基因组序列同源；以及

所述侧翼插入序列之间的GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含指导靶序列和前间区序列邻近基序(PAM)序列，其中在所述GEMS构建体在所述插入位点处插入后，所述指导靶序列与指导多核苷酸结合。

2.如权利要求1所述的GEMS构建体，其中所述GEMS构建体与SEQ ID NO:2或84所示的序列至少95％相同。

3.如权利要求2所述的GEMS构建体，其中所述GEMS构建体与所述SEQ ID NO:2或84的序列同一性通过BLASTN计算。

4.如权利要求1所述的GEMS构建体，其中所述指导多核苷酸包含指导RNA。

5.如权利要求1所述的GEMS构建体，其中所述多个核酸酶识别序列包括至少三个核酸酶识别序列。

6.如权利要求1所述的GEMS构建体，其中所述多个核酸酶识别序列包括至少五个核酸酶识别序列。

7.如权利要求1所述的GEMS构建体，其中所述多个核酸酶识别序列包括至少七个核酸酶识别序列。

8.如权利要求1所述的GEMS构建体，其中所述多个核酸酶识别序列包括至少十个核酸酶识别序列。

9.如权利要求1所述的GEMS构建体，其中所述多个核酸酶识别序列包括多于十个核酸酶识别序列。

10.如权利要求1-9中任一项所述的GEMS构建体，其中第一核酸酶识别序列的序列不同于第二核酸酶识别序列的序列。

11.如权利要求10所述的GEMS构建体，其中所述指导靶序列在所述第一核酸酶识别序列与所述第二核酸酶识别序列之间不同。

12.如权利要求1-11中任一项所述的GEMS构建体，其中所述多个核酸酶识别序列中的每一个包含与所述多个核酸酶识别序列中的另一个不同的序列。

13.如权利要求1-12中任一项所述的GEMS构建体，其中所述多个核酸酶识别序列中的所述指导靶序列中的每一个与所述多个核酸酶识别序列中的所述指导靶序列中的另一个不同。

14.如权利要求1-13中任一项所述的GEMS构建体，其中所述指导靶序列的长度为约17至约24个核苷酸。

15.如权利要求14所述的GEMS构建体，其中所述指导靶序列的长度为20个核苷酸。

16.如权利要求1-15中任一项所述的GEMS构建体，其中所述指导靶序列富含GC。

17.如权利要求16所述的GEMS构建体，其中所述指导靶序列具有约40％至约80％的G和C核苷酸。

18.如权利要求1-15中任一项所述的GEMS构建体，其中所述指导靶序列具有少于40％的G和C核苷酸。

19.如权利要求16所述的GEMS构建体，其中所述指导靶序列具有多于80％的G和C核苷酸。

20.如权利要求1-19中任一项所述的GEMS构建体，其中所述多个核酸酶识别序列中的至少一个是Cas9核酸酶识别序列。

21.如权利要求20所述的GEMS构建体，其中所述多个核酸酶识别序列中的多个是Cas9核酸酶识别序列。

22.如权利要求1-15中任一项所述的GEMS构建体，其中所述指导靶序列富含AT。

23.如权利要求22所述的GEMS构建体，其中所述指导靶序列具有约40％至约80％的A和T核苷酸。

24.如权利要求1-15中任一项所述的GEMS构建体，其中所述指导靶序列具有少于40％的A和T核苷酸。

25.如权利要求22所述的GEMS构建体，其中所述指导靶序列具有多于80％的A和T核苷酸。

26.如权利要求1-25中任一项所述的GEMS构建体，其中所述多个核酸酶识别序列中的至少一个是Cpf1核酸酶识别序列。

27.如权利要求26所述的GEMS构建体，其中所述多个核酸酶识别序列中的多个是Cpf1核酸酶识别序列。

28.如权利要求1-27中任一项所述的GEMS构建体，其中所述多个核酸酶识别序列中的所述PAM序列中的每一个与所述多个核酸酶识别序列中的所述PAM序列中的另一个不同。

29.如权利要求1-28中任一项所述的GEMS构建体，其中所述PAM序列独立地选自：CC、NG、YG、NGG、NAA、NAT、NAG、NAC、NTA、NTT、NTG、NTC、NGA、NGT、NGC、NCA、NCT、NCG、NCC、NRG、TGG、TGA、TCG、TCC、TCT、GGG、GAA、GAC、GTG、GAG、CAG、CAA、CAT、CCA、CCN、CTN、CGT、CGC、TAA、TAC、TAG、TGG、TTG、TCN、CTA、CTG、CTC、TTC、AAA、AAG、AGA、AGC、AAC、AAT、ATA、ATC、ATG、ATT、AWG、AGG、GTG、TTN、YTN、TTTV、TYCV、TATV、NGAN、NGNG、NGAG、NGCG、NGGNG、NGRRT、NGRRN、NNGRRT、NNAAAAN、NNNNGATT、NAAAAC、NNAAAAAW、NNAGAA、NNNNACA、GNNNCNNA、NNNNGATT、NNAGAAW、NNGRR、NNNNNNN、TGGAGAAT、AAAAW、GCAAA和TGAAA。

30.如权利要求1-29中任一项所述的GEMS构建体，其中所述GEMS序列进一步包含多核苷酸间隔区，其中所述多核苷酸间隔区将所述多个核酸酶识别序列中的至少一个与所述多个核酸酶识别序列中的邻近核酸酶识别序列间隔开。

31.如权利要求30所述的GEMS构建体，其中所述多核苷酸间隔区的长度为约2至约10,000个核苷酸。

32.如权利要求30所述的GEMS构建体，其中所述多核苷酸间隔区的长度为约25至约50个核苷酸。

33.如权利要求30-32中任一项所述的GEMS构建体，其中所述多核苷酸间隔区是多个多核苷酸间隔区。

34.如权利要求33所述的GEMS构建体，其中所述多个多核苷酸间隔区中的至少一个所述多核苷酸间隔区与所述多个多核苷酸间隔区中的另一个多核苷酸间隔区相同。

35.如权利要求33所述的GEMS构建体，其中所述多核苷酸间隔区中的每一个与所述多个多核苷酸间隔区中的另一个不同。

36.如权利要求1-35中任一项所述的GEMS构建体，其中所述侧翼插入序列中的至少一个具有至少12个核苷酸的长度。

37.如权利要求36所述的GEMS构建体，其中所述侧翼插入序列中的至少一个具有至少18个核苷酸的长度。

38.如权利要求36所述的GEMS构建体，其中所述侧翼插入序列中的至少一个具有至少50个核苷酸的长度。

39.如权利要求36所述的GEMS构建体，其中所述侧翼插入序列中的至少一个具有至少100个核苷酸的长度。

40.如权利要求36所述的GEMS构建体，其中所述侧翼插入序列中的至少一个具有至少500个核苷酸的长度。

41.如权利要求1-40中任一项所述的GEMS构建体，其中所述侧翼插入序列包括侧翼插入序列对，并且所述侧翼插入序列对在所述GEMS序列的侧翼。

42.如权利要求40所述的GEMS构建体，其中所述侧翼插入序列对中的至少一个侧翼插入序列包括与所述基因组的安全港位点的序列同源的插入序列。

43.如权利要求42所述的GEMS构建体，其中所述安全港位点是腺伴随病毒位点1(AAVs1)位点。

44.如权利要求42所述的GEMS构建体，其中所述安全港位点包括Rosa26位点。

45.如权利要求42所述的GEMS构建体，其中所述安全港位点包括C-C基序受体5(CCR5)位点。

46.如权利要求41-45中任一项所述的GEMS构建体，其中第一插入序列的序列不同于所述插入序列对的第二插入序列的序列。

47.如权利要求46所述的GEMS构建体，其中所述插入所述基因组中是通过同源重组。

48.如权利要求41-47中任一项所述的GEMS构建体，其中所述插入序列对中的至少一个插入序列包括大范围核酸酶识别序列。

49.如权利要求48所述的GEMS构建体，其中所述大范围核酸酶识别序列包括I-SceI大范围核酸酶识别序列。

50.如权利要求1-49中任一项所述的GEMS构建体，其中所述GEMS构建体进一步包含报道基因。

51.如权利要求50所述的GEMS构建体，其中所述报道基因编码荧光蛋白。

52.如权利要求51所述的GEMS构建体，其中所述荧光蛋白质是绿色荧光蛋白(GFP)。

53.如权利要求50-52所述的GEMS构建体，其中所述报道基因由诱导型启动子调节。

54.如权利要求53所述的GEMS构建体，其中所述诱导型启动子由诱导物诱导。

55.如权利要求54所述的GEMS构建体，其中所述诱导物是多西环素、异丙基-β-硫代半乳吡喃糖苷(IPTG)、半乳糖、二价阳离子、乳糖、阿拉伯糖、木糖、N-酰基高丝氨酸内酯、四环素、类固醇、金属或醇。

56.如权利要求54所述的GEMS构建体，其中所述诱导物是热或光。

57.一种宿主细胞，其包含如权利要求1-56中任一项所述的GEMS构建体。

58.如权利要求57所述的宿主细胞，其中所述宿主细胞是真核细胞。

59.如权利要求57所述的宿主细胞，其中所述宿主细胞是哺乳动物细胞。

60.如权利要求58所述的宿主细胞，其中所述哺乳动物细胞是人细胞。

61.如权利要求57-60中任一项所述的宿主细胞，其中所述宿主细胞是干细胞。

62.如权利要求61所述的宿主细胞，其中所述干细胞独立地选自成体干细胞、体干细胞、非胚胎干细胞、胚胎干细胞、造血干细胞、多能干细胞和滋养层干细胞。

63.如权利要求62所述的宿主细胞，其中所述滋养层干细胞是哺乳动物滋养层干细胞。

64.如权利要求63所述的宿主细胞，其中所述哺乳动物滋养层干细胞是人滋养层干细胞。

65.如权利要求57-60中任一项所述的宿主细胞，其中所述宿主细胞是非干细胞。

66.如权利要求65所述的宿主细胞，其中所述宿主细胞是T细胞或NK细胞。

67.如权利要求66所述的宿主细胞，其中所述T细胞独立地选自αβT细胞、NK T细胞、γδT细胞、调节T细胞、T辅助细胞和细胞毒性T细胞。

68.一种制造如权利要求57-67中任一项所述的宿主细胞的方法，包括将权利要求1-56中任一项所述的GEMS构建体引入细胞。

69.一种制造宿主细胞的方法，其包括：

在插入位点处将用于插入基因组中的基因编辑多位点(GEMS)构建体引入细胞，其中所述GEMS构建体包含(i)侧翼插入序列，其中所述侧翼插入序列中的每一个与所述插入位点处的基因组序列同源；和(ii)所述侧翼插入序列之间的GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含指导靶序列和前间区序列邻近基序(PAM)序列，其中在所述GEMS构建体在所述插入位点处插入后，所述指导靶序列与指导多核苷酸结合。

70.如权利要求69所述的方法，进一步包括向所述细胞中引入用于介导所述GEMS构建体整合到所述基因组中的核酸酶。

71.如权利要求69所述的方法，其中所述核酸酶在与所述指导多核苷酸结合时识别所述多个核酸酶识别序列的所述核酸酶识别序列。

72.如权利要求69-71中任一项所述的方法，其中所述核酸酶是内切核酸酶。

73.如权利要求72所述的方法，其中所述内切核酸酶包括大范围核酸酶，其中所述侧翼插入序列中的至少一个包括所述大范围核酸酶的共有序列。

74.如权利要求73所述的方法，其中所述大范围核酸酶是I-SceI。

75.如权利要求69-71中任一项所述的方法，其中所述核酸酶包括CRISPR相关核酸酶。

76.如权利要求69所述的方法，进一步包括向所述细胞中引入用于介导所述GEMS构建体整合到所述基因组中的指导多核苷酸。

77.如权利要求76所述的方法，其中所述指导多核苷酸是指导RNA。

78.如权利要求77所述的方法，其中所述指导RNA识别所述插入位点处的所述基因组的序列。

79.如权利要求69-78中任一项所述的方法，其中所述插入位点在基因组的安全港位点处。

80.如权利要求79所述的方法，其中所述安全港位点包括AAVs1位点。

81.如权利要求79所述的方法，其中所述安全港位点是Rosa26位点。

82.如权利要求79所述的方法，其中所述安全港位点是C-C基序受体5(CCR5)位点。

83.如权利要求68-82中任一项所述的方法，其中所述GEMS构建体整合在所述插入位点处。

84.如权利要求69-83中任一项所述的方法，进一步包括将供体核酸序列引入所述宿主细胞中，以便在所述核酸酶识别序列处插入所述GEMS构建体中。

85.如权利要求84所述的方法，其中所述供体核酸序列整合在所述核酸酶识别序列处。

86.如权利要求85所述的方法，其中所述供体核酸序列编码治疗性蛋白。

87.如权利要求86所述的方法，其中所述治疗性蛋白包括嵌合抗原受体(CAR)。

88.如权利要求87所述的方法，其中所述CAR是CD19 CAR或其部分。

89.如权利要求86所述的方法，其中所述治疗性蛋白包括多巴胺或其部分。

90.如权利要求86所述的方法，其中所述治疗性蛋白包括胰岛素、胰岛素原或其部分。

91.如权利要求84-90中任一项所述的方法，进一步包括向所述宿主细胞中引入(i)第二指导多核苷酸，其中所述指导多核苷酸识别所述多个核酸酶识别序列中的第二核酸酶识别序列；(ii)第二核酸酶，其中所述第二核酸酶在与所述第二指导多核苷酸结合时识别所述第二核酸酶识别序列；以及(iii)第二供体核酸序列，用于整合在所述第二核酸酶识别序列处。

92.如权利要求84-91中任一项所述的方法，进一步包括使所述宿主细胞繁殖。

93.一种使基因组工程化以接收供体核酸序列的方法，包括：

将一个或多个多核苷酸插入宿主细胞中，其中所述宿主细胞包含在插入位点处插入到所述宿主细胞的基因组中的基因编辑多位点(GEMS)构建体，其中所述GEMS构建体包含GEMS序列，其中所述GEMS序列包含多个核酸酶识别序列，其中所述多个核酸酶识别序列中的每一个包含指导靶序列和前间区序列邻近基序(PAM)序列；

其中所述一个或多个多核苷酸包含：(i)识别所述指导靶序列的指导多核苷酸；(ii)编码核酸酶的多核苷酸，其中所述核酸酶在与所述指导多核苷酸结合时识别所述多个核酸酶识别序列中的核酸酶识别序列；以及(iii)供体核酸序列，用于在所述核酸酶识别序列处整合到所述GEMS构建体中。

94.如权利要求93所述的方法，其中所述核酸酶在与所述指导多核苷酸结合时切割所述GEMS序列，以在所述GEMS序列中形成双链断裂。

95.如权利要求94所述的方法，其中所述供体核酸序列在所述双链断裂处整合到所述GEMS序列中。

96.如权利要求93或94所述的方法，其中所述供体核酸序列编码治疗性蛋白。

97.如权利要求96所述的方法，其中所述治疗性蛋白选自：嵌合抗原受体(CAR)、T细胞受体(TCR)、B细胞受体(BCR)、αβ受体和γδT-受体。

98.如权利要求97所述的方法，其中所述治疗性蛋白是CAR，并且所述CAR是CD19-CAR或其部分。

99.如权利要求96所述的方法，其中所述治疗性蛋白包括多巴胺或其部分。

100.如权利要求96所述的方法，其中所述治疗性蛋白包括胰岛素、胰岛素原或其部分。

101.如权利要求93-100中任一项所述的方法，进一步包括向所述宿主细胞中引入(i)第二指导多核苷酸，其中所述第二指导多核苷酸识别所述多个核酸酶识别序列中的第二核酸酶识别序列；(ii)第二核酸酶，其中所述第二核酸酶在与所述第二指导多核苷酸结合时识别所述第二核酸酶识别序列；以及(iii)第二供体核酸序列，用于整合在所述第二核酸酶识别序列内。

102.如权利要求93-101中任一项所述的方法，其中所述宿主细胞是真核细胞。

103.如权利要求93-102中任一项所述的方法，其中所述宿主细胞是干细胞。

104.如权利要求103所述的方法，进一步包括使所述干细胞分化成T细胞或NK细胞。

105.如权利要求104所述的方法，其中所述T细胞独立地选自αβT细胞、NK T细胞、γδT细胞、调节T细胞、T辅助细胞和细胞毒性T细胞。

106.如权利要求105所述的方法，其中所述分化发生在所述将所述指导多核苷酸和所述核酸酶引入所述宿主细胞之前。

107.如权利要求106所述的方法，其中所述分化发生在所述将所述指导多核苷酸和所述核酸酶引入所述宿主细胞之后。

108.如权利要求93-107中任一项所述的方法，其中所述插入位点在所述基因组的安全港位点内。

109.如权利要求108所述的方法，其中所述安全港位点包括AAVs1位点。

110.如权利要求108所述的方法，其中所述安全港位点是Rosa26位点。

111.如权利要求108所述的方法，所述安全港位点是C-C基序受体5(CCR5)位点。

112.如权利要求93-111中任一项所述的方法，其中所述PAM序列独立地选自：CC、NG、YG、NGG、NAA、NAT、NAG、NAC、NTA、NTT、NTG、NTC、NGA、NGT、NGC、NCA、NCT、NCG、NCC、NRG、TGG、TGA、TCG、TCC、TCT、GGG、GAA、GAC、GTG、GAG、CAG、CAA、CAT、CCA、CCN、CTN、CGT、CGC、TAA、TAC、TAG、TGG、TTG、TCN、CTA、CTG、CTC、TTC、AAA、AAG、AGA、AGC、AAC、AAT、ATA、ATC、ATG、ATT、AWG、AGG、GTG、TTN、YTN、TTTV、TYCV、TATV、NGAN、NGNG、NGAG、NGCG、NGGNG、NGRRT、NGRRN、NNGRRT、NNAAAAN、NNNNGATT、NAAAAC、NNAAAAAW、NNAGAA、NNNNACA、GNNNCNNA、NNNNGATT、NNAGAAW、NNGRR、NNNNNNN、TGGAGAAT、AAAAW、GCAAA和TGAAA。

113.如权利要求93-112中任一项所述的方法，其中所述核酸酶是CRISPR相关核酸酶。

114.如权利要求113所述的方法，其中所述CRISPR相关核酸酶是Cas9酶。

115.如权利要求93-112中任一项所述的方法，其中所述核酸酶是Cpf1酶。

116.如权利要求93-112中任一项所述的方法，其中所述整合不需要所述PAM序列。

117.如权利要求93-112中任一项所述的方法，其中所述核酸酶是Argonaute酶。

118.如权利要求93-117中任一项所述的方法，其中所述方法用于治疗疾病。

119.如权利要求118所述的方法，其中所述疾病选自自身免疫病、癌症、糖尿病和帕金森病。

120.通过权利要求69-119中任一项所述的方法产生的宿主细胞。