CN117795078A

CN117795078A - 大尺寸染色体转移方法及使用该方法产生的经修饰的染色体和生物体

Info

Publication number: CN117795078A
Application number: CN202280053436.XA
Authority: CN
Inventors: 张继伟; 魏喻
Original assignee: Shanghai Yinuokang Biotechnology Co ltd
Current assignee: Shanghai Yinuokang Biotechnology Co ltd
Priority date: 2021-09-24
Filing date: 2022-09-23
Publication date: 2024-03-29
Also published as: TW202332770A; WO2023046038A9; WO2023046038A1; CA3222922A1; AU2022350732A1

Abstract

使用双链断裂修复途径和同源性定向修复在染色体之间转移大序列片段和产生染色体重排的方法。还涉及通过这些方法产生的染色体，以及包含这些染色体的细胞和转基因动物。

Description

大尺寸染色体转移方法及使用该方法产生的经修饰的染色体和生物体

通过引用并入序列表

本申请包含序列表，该序列表已通过EFS网站以ASCII格式提交，并据此通过引用以其整体并入。

背景技术

基因或染色体的大片段的操纵是用于基础和翻译研究以及疗法开发的有力工具。人基因的大小范围为数百个碱基至至少2,300千碱基(KB)，人染色体的大小范围为38兆碱基对(MB)至近250MB。因此，对大基因、跨越多个基因的区域和部分染色体的有效研究需要操作大的序列片段。然而，大片段操作仍然是基因编辑领域最重要的挑战之一。本公开提供了用于操作大序列的方法。

发明内容

本公开提供了产生工程化的染色体的方法，其包括：(a)提供细胞，其包含含有靶序列的靶染色体和含有模板序列的模板染色体；(b)使细胞与(i)第一核酸分子和(ii)第二核酸分子接触，所述第一核酸分子从5’至3’包含5’同源臂、至少一个第一标记和3’同源臂，所述5’同源臂含有靶序列5’末端上游的核苷酸序列，所述3’同源臂含有模板序列5’末端上游的核苷酸序列；所述第二核酸分子从5’至3’包含5’同源臂、至少一个第二标记和3’同源臂，所述5’同源臂含有模板序列3’末端下游的核苷酸序列，所述3’同源臂含有靶序列3’末端下游的核苷酸序列；(c)在靶序列处或其两侧，以及在模板序列的5’和3’末端产生双链断裂，从而将模板序列以及第一和第二标记插入靶染色体中；以及(d)选择表达第一和第二标记的一个或多个细胞。

在一些实施方案中，在插入模板序列后，第一标记位于模板序列的5’末端，第二标记位于模板序列的3’末端。

在一些实施方案中，第一和第二核酸分子的5’和3’同源臂的长度介于约20与2,000个碱基对(bp)之间，介于约50bp与1,500bp之间，介于约100bp与1,400bp之间，介于约150bp与1,300bp之间，介于约200bp与1,200bp之间，介于约300bp与1,100bp之间，介于约400bp与1,000bp之间，或介于约500bp与900bp之间，或介于约600bp与800bp之间。在一些实施方案中，第一和第二核酸分子的5’和3’同源臂的长度介于约400bp与1,500bp之间，介于约500bp与1,300bp之间，或介于约600bp与1,000bp之间。在一些实施方案中，第一和第二核酸分子的5’和3’同源臂的长度介于约600bp与1,000bp之间。

在一些实施方案中，模板序列的长度为至少25千碱基对(KB)、至少50KB、至少100KB、至少200KB、至少400KB、至少500KB、至少600KB、至少700KB、至少800KB、至少900KB、至少1兆碱基对(MB)、至少2MB、至少3MB、至少4MB、至少5MB、至少6MB、至少7MB、至少8MB、至少9MB、至少10MB、至少15MB、至少20MB、至少25MB、至少30MB、至少40MB、至少50MB、至少60MB、至少70MB、至少80MB、至少90MB、至少100MB、至少120MB、至少140MB、至少160MB、至少180MB、至少200MB、至少220MB或至少250MB。在一些实施方案中，模板序列的长度介于50KB与250MB之间、50KB与100MB之间、50KB与50MB之间、50KB与20MB之间、50KB与10MB之间、50KB与5MB之间、50KB与3MB之间、50KB与2MB之间、50KB与1MB之间、100KB与200MB之间、100KB与100MB之间、100KB与50MB之间、100KB与20MB之间、100KB与10MB之间、100KB与5MB之间、100KB与3MB之间、100KB与2MB之间、100KB与1MB之间、100KB与500KB之间、200KB与100MB之间、200KB与50MB之间、200KB与20MB之间、200KB与10MB之间、200KB与5MB之间、200KB与3MB之间、200KB与2MB之间、200KB与1MB之间、200KB与500KB之间、500KB与100MB之间、500KB与50MB之间、500KB与20MB之间、500KB与10MB之间、500KB与5MB之间、500KB与3MB之间、500KB与2MB之间、500KB与1MB之间、1MB与100MB之间、1MB与50MB之间、1MB与20MB之间、1MB与10MB之间、1MB与5MB之间、1MB与3MB之间、1MB与2MB之间、3MB与100MB之间、3MB与50MB之间、3MB与20MB之间、3MB与10MB之间、3MB与5MB之间、5MB与100MB之间、5MB与50MB之间、5MB与20MB之间、5MB与10MB之间、10MB与100MB之间、10MB与50MB之间或在10MB与20MB之间。在一些实施方案中，模板序列的长度介于200KB与50MB之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于3MB与20MB之间、介于3MB与10MB之间、介于3MB与7MB之间或介于3MB与5MB之间。

在一些实施方案中，在(c)处产生双链断裂包括使用CRISPR/Cas内切核酸酶和一种或多种引导核酸(gNA)、一种或多种锌指核酸酶、一种或多种转录激活子样效应因子核酸酶(TALEN)或一种或多种CRE重组酶来诱导双链断裂。在一些实施方案中，CRISPR/Cas内切核酸酶包括CasI、CasIB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、CasX、CasY、Cpf1(Cas12a)、Cas12b、Cas13a、CsyI、Csy2、Csy3、CseI、Cse2、CscI、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、CmrI、Cmr3、Cmr4、Cmr5、Cmr6、CsbI、Csb2、Csb3、Csx17、CsxI4、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、CsfI、Csf2、Csf3、Csf4、Cms1、C2c1、C2c2或C2c3或其同源物、直系同源物(orthologs)或经修饰的形式。在一些实施方案中，CRISPR/Cas内切核酸酶包括Cas9、Cpf1(Cas12a)、Cas12b、CasX、CasY、C2c1或C2c3或其同源物、直系同源物或经修饰的形式。在一些实施方案中，CRISPR/Cas内切核酸酶包括Cas9。在一些实施方案中，gNA包括单引导RNA(sgRNA)。

在一些实施方案中，靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、靶序列和第二核酸分子的3’同源臂序列。在一些实施方案中，模板染色体从5’至3’包含第一核酸分子的3’同源臂序列、模板序列和第二核酸分子的5’同源臂序列。

在一些实施方案中，靶序列包含至少1个基因、至少2个基因、至少3个基因、至少5个基因、至少10个基因、至少20个基因、至少30个基因、至少40个基因、至少50个基因、至少100个基因或至少200个基因。在一些实施方案中，靶序列包含与模板序列的一个或多个基因同源的一个或多个基因。

在一些实施方案中，模板序列包含天然存在的序列。在一些实施方案中，模板序列包含至少1个基因、至少2个基因、至少3个基因、至少5个基因、至少10个基因、至少20个基因、至少30个基因、至少40个基因、至少50个基因、至少100个基因或至少200个基因。在一些实施方案中，模板序列包含对天然存在的序列的一个或多个修饰。在一些实施方案中，模板序列包含人工序列。在一些实施方案中，人工序列包含编码一种或多种抗体或其抗原结合片段的序列。在一些实施方案中，一种或多种抗体或其抗原结合片段包含scFv、双特异性抗体或多特异性抗体。

在一些实施方案中，通过插入模板序列来删除靶序列。在一些实施方案中，(a)靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、第一sgRNA靶序列、靶序列、第二sgRNA靶序列和第二核酸分子的3’同源臂序列；以及(b)模板染色体从5’至3’包含第三sgRNA靶序列、第一种核酸分子的3’同源臂序列、模板序列、第二核酸分子的5’同源臂序列和第四sgRNA靶序列。在一些实施方案中，产生双链断裂包括将细胞与CRISPR/Cas内切核酸酶以及第一、第二、第三和第四sgRNA接触。在一些实施方案中，第一、第二、第三和第四sgRNA包含对第一、第二、第三和第四sgRNA靶序列特异的靶向序列。

在一些实施方案中，将细胞与CRISPR/Cas内切核酸酶和sgRNA接触包括用一种或多种编码CRISPR/Cas内切核酸酶和sgRNA的核酸分子转染细胞。

在一些实施方案中，插入模板序列包括删除极少靶序列的序列或不删除靶序列的序列。在一些实施方案中，插入模板序列破坏了靶序列的一种或多种功能。在一些实施方案中，插入模板序列破坏了靶序列中的基因。在一些实施方案中,(a)靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、第一sgRNA靶序列和第二核酸分子的3’同源臂序列；以及(b)模板染色体从5’至3’包含第二sgRNA靶序列、第一核酸分子的3’同源臂序列、模板序列、第二核酸分子的5’同源臂序列和第三sgRNA靶序列。在一些实施方案中，产生双链断裂包括将细胞与CRISPR/Cas内切核酸酶以及第一、第二和第三sgRNA接触。在一些实施方案中，第一、第二和第三sgRNA包含对第一、第二和第三sgRNA靶序列特异的靶向序列。在一些实施方案中，将细胞与CRISPR/Cas内切核酸酶和sgRNA接触包括用一种或多种编码CRISPR/Cas内切核酸酶和sgRNA的核酸分子转染细胞。

在一些实施方案中，第一或第二标记包含与能够在细胞中表达荧光蛋白的启动子可操作地连接的荧光蛋白。在一些实施方案中，荧光蛋白包括绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)、蓝色荧光蛋白(BFP)、dsRed、mCherry或tdTomato。在一些实施方案中，荧光蛋白包括GFP。在一些实施方案中，第一标记还包括选择标记。在一些实施方案中，第二标记还包括选择标记。在一些实施方案中，选择性标记选自由以下组成的组：二氢叶酸还原酶(DHFR)、谷氨酰胺合酶(GS)、嘌呤霉素乙酰转移酶、杀稻瘟素脱氨酶、组氨醇脱氢酶、潮霉素磷酸转移酶(hph)、博来霉素抗性基因和氨基糖苷磷酸转移酶(新霉素抗性)。在一些实施方案中，第一和第二标记不是相同的选择标记。在一些实施方案中，第一标记包含与能够在细胞中表达GFP的启动子和嘌呤霉素乙酰转移酶可操作地连接的GFP，并且第二标记包含潮霉素磷酸转移酶。

在一些实施方案中，该方法还包括(e)在步骤(d)之后删除第一或第二标记的全部或一部分。在一些实施方案中，删除第一或第二标记包括用CRISPR/Cas内切核酸酶和gNA诱导删除，所述gNA包含对编码标记的序列特异的靶向序列。

在一些实施方案中，细胞包括杂交细胞、胚胎杂交干细胞(EHS)或受精卵。在一些实施方案中，通过融合来自选自由以下组成的组的任何两个物种的ES细胞来产生EHS细胞：小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。在一些实施方案中，通过将人胚胎干细胞与来自非人物种的胚胎干细胞融合来产生EHS细胞。在一些实施方案中，非人物种是小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡或猴。在一些实施方案中，通过融合来自选自由以下组成的组的任何两种不同物种的EH细胞来产生EHS细胞：小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。在一些实施方案中，融合包括电融合、病毒诱导融合或化学诱导融合。

在一些实施方案中，细胞包括杂交细胞。在一些实施方案中，产生杂交细胞包括：(a)产生微核人细胞(micronucleated human cell)；和(b)将微核人细胞与来自非人物种的细胞融合，从而产生杂交细胞。在一些实施方案中，通过在足以诱导微核化的条件下将人细胞暴露于秋水仙胺(colcemid)并使用离心收集微核细胞来产生微核人细胞。在一些实施方案中，非人物种是小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡或猴。在一些实施方案中，来自非人物种的细胞是ES细胞，并且杂交细胞是EHS细胞。

在一些实施方案中，靶序列包含编码免疫球蛋白或T细胞受体亚单位的基因。在一些实施方案中，靶染色体包括小鼠第12号染色体，模板染色体包括人第14号染色体。在一些实施方案中，靶序列包含小鼠Igh可变区序列。在一些实施方案中，小鼠Igh可变区序列包含编码小鼠VH、DH和JH1-6基因区片段的序列和间插非编码序列。在一些实施方案中，模板序列包含人IGH可变区序列。在一些实施方案中，人IGH可变区序列包含编码人VH、DH和JH1-6基因区段的序列和间插非编码序列。在一些实施方案中，靶序列包含小鼠Igl可变区序列。在一些实施方案中，靶序列包含小鼠Igk可变区序列。在一些实施方案中，模板序列包含人IGL可变区序列。在一些实施方案中，模板序列包含人IGK可变区序列。在一些实施方案中，小鼠Igk可变区序列包含编码小鼠V_k和J_k1-5基因区段的序列和间插非编码序列。在一些实施方案中，模板序列包含人IGK可变区序列。在一些实施方案中，人IGK可变区序列包含编码人V_k和J_k1-5基因区段的序列和间插非编码序列。

在一些实施方案中，该方法还包括从步骤(d)中选择的细胞中回收工程化的染色体。在一些实施方案中，回收工程化的染色体包括在足以诱导微核化的条件下将细胞暴露于秋水仙胺，以及使用离心收集微核细胞。

在一些实施方案中，第一和第二核酸分子是质粒。

本公开提供了通过本公开的方法产生的工程化的染色体。

在一些实施方案中，工程化的染色体是包含替代小鼠Igh可变区的人IGH可变区的序列的小鼠第12号染色体。在一些实施方案中，小鼠Igh可变区包含VH、DH和JH1-6基因区段和间插非编码序列。在一些实施方案中，人IGH可变区包含VH、DH和JH1-6基因区段和间插非编码序列。在一些实施方案中，工程化的染色体是包含人IGK可变区的序列替代小鼠Igk可变区的小鼠第6号染色体。在一些实施方案中，小鼠Igk可变区序列包含编码小鼠V_k和J_k1-5基因区段的序列和间插非编码序列。在一些实施方案中，模板序列包含人IGK可变区序列。在一些实施方案中，人IGK可变区序列包含编码人V_k和J_k1-5基因区段的序列和间插非编码序列。

本公开提供了包含本公开的工程化的染色体的细胞。

在一些实施方案中，细胞能够与小鼠ES细胞杂交。在一些实施方案中，细胞是胚胎干(ES)细胞、胚胎杂交干(EHS)细胞或合子细胞。在一些实施方案中，EHS细胞是人与小鼠ES细胞的杂交体。在一些实施方案中，ES细胞是小鼠ES细胞。在一些实施方案中，细胞是微核细胞。

本公开提供了包括产生小鼠胚胎干细胞的方法，其包括：(a)将包含通过本公开的法中的任一方法产生的工程化的染色体的微核细胞与小鼠ES细胞融合，其中：(i)小鼠Es细胞包含与工程化的染色体同源的染色体，该同源染色体包含与能够在ES细胞中表达荧光蛋白的启动子可操作地连接的第一荧光蛋白，以及(ii)至少一个亚群的微核细胞包含工程化的染色体，并且其中工程化的染色体包含不同于第一荧光蛋白的第二荧光蛋白，第二荧光蛋白与能够在ES细胞中表达荧光蛋白的启动子可操作地连接；(b)选择表达第一和第二荧光蛋白的ES细胞；(c)培养步骤(c)中选择的ES细胞，直至至少一个亚群的ES细胞丢失同源染色体；以及(d)选择表达第二种荧光蛋白但不表达第一种荧光蛋白的ES细胞。

在一些实施方案中，在步骤(c)中培养细胞包括培养细胞至少5天、至少7天、至少10天或至少14天。在一些实施方案中，在步骤(b)和(d)中选择细胞包括荧光激活细胞分选(FACS)。

本公开提供了通过本公开的方法产生的小鼠ES细胞。

本公开提供了由本公开的小鼠ES细胞产生的转基因小鼠。

在一些实施方案中，产生转基因小鼠包括将ES细胞注射到二倍体胚泡中，从ES细胞向去核小鼠胚胎进行核转移，或四倍体胚胎互补。在一些实施方案中，小鼠第12号染色体包含替代小鼠Igh可变区的人IGH可变区的序列。在一些实施方案中，小鼠Igh可变区包含VH、DH和JH1-6基因区段和间插非编码序列。在一些实施方案中，人IGH可变区包含VH、DH和JH1-6基因区段和间插非编码序列。在一些实施方案中，小鼠第6号染色体包含替代小鼠Igk可变区的人IGK可变区的序列。在一些实施方案中，小鼠Igk可变区序列包含编码小鼠V_k和J_k1-5基因区段的序列和间插非编码序列。在一些实施方案中，模板序列包含人IGK可变区序列。在一些实施方案中，人IGK可变区序列包含编码人V_k和J_k1-5基因区段的序列和间插非编码序列。

本公开提供了产生抗体的方法，其包括：(a)用抗原攻击本公开转基因小鼠，由此转基因小鼠产生多种抗体，所述抗体包含来自人IGH可变区的人V、D和J区段；以及(b)分离对抗原特异的抗体。

本公开提供了产生抗体的方法，其包括：(a)用抗原攻击本发明的转基因小鼠，由此转基因小鼠产生多种抗体，所述抗体包含来自人IGK或IGL可变区的人V和J区段；以及(b)分离对抗原特异的抗体。

本公开提供了衍生自由本公开的转基因小鼠产生的抗体的抗体。在一些实施方案中，抗体包含单链可变区段(scFv)、双特异性抗体或多特异性抗体。

本公开提供了产生染色体重排的方法，其包括：(a)提供细胞，其包含含有靶位置的靶染色体和含有模板序列的模板染色体；(b)将细胞与核酸分子接触，所述核酸分子从5’至3’包含5’同源臂和3’同源臂，所述5’同源臂含有靶位置5’末端上游的核苷酸序列，所述3’同源臂含有模板序列5’末端上游的核苷酸序列；(c)在靶位置上和模板序列的5’末端产生双链断裂，从而将标记插入5’同源臂序列3’的靶染色体，随后插入模板序列，从而产生染色体重排；以及(d)选择表达该标记的一个或多个细胞。

在一些实施方案中，核酸分子的5’和3’同源臂的长度介于约20bp与2,000bp之间，介于约50bp与1,500bp之间，介于约100bp和1,400bp之间，介于约150bp和1,300bp之间，介于约200bp和1,200bp之间，介于约300bp和1,100bp之间，介于约400bp与1,000bp之间，或介于约500bp与900bp之间，或介于约600bp与800bp之间。在一些实施方案中，核酸分子的5’和3’同源臂的长度介于约400bp与1,500bp之间，长度介于约500bp与1,300bp之间，或长度介于约600b与1,000bp之间。在一些实施方案中，核酸分子的5’和3’同源臂的长度介于约600bp与1,000bp之间。

在一些实施方案中，在(c)中产生双链断裂包括使用CRISPR/Cas内切核酸酶和至少一种sgRNA、一种或多种锌指核酸酶、一种或多种转录激活子样效应因子核酸酶(TALEN)或一种或多种CRE重组酶来诱导双链断裂。在一些实施方案中，CRISPR/Cas内切核酸酶包括CasI、CasIB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、CasX、CasY、Cas12a(Cpf1)、Cas12b、Cas13a、CsyI、Csy2、Csy3、CseI、Cse2、CscI、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、CmrI、Cmr3、Cmr4、Cmr5、Cmr6、CsbI、Csb2、Csb3、Csx17、CsxI4、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、CsfI、Csf2、Csf3、Csf4、Cms1、C2c1、C2c2或C2c3或其同源物、直系同源物、或经修饰的形式。在一些实施方案中，CRISPR/Cas内切核酸酶包括Cas9、Cpf1、CasX、CasY、C2c1或C2c3或其同源物、直系同源物、或经修饰的形式。在一些实施方案中，CRISPR/Cas内切核酸酶包括Cas9。在一些实施方案中，产生双链断裂包括将细胞与CRISPR/Cas内切核酸酶、至少第一gNA和第二gNA接触，所述第一gNA包含对靶位置特异的靶向序列，使得CRISPR/Cas内切核酸酶切割靶位置，所述第二gNA包含对模板序列5’末端特异的靶向序列。在一些实施方案中，将细胞与CRISPR/Cas内切核酸酶和sgRNA接触包括用一种或多种编码CRISPR/Cas内切核酸酶和sgRNA的核酸分子转染细胞。在一些实施方案中，一种或多种核酸分子是质粒。

在一些实施方案中，标记包含与能够在细胞中表达荧光蛋白的启动子可操作连接的荧光蛋白。在一些实施方案中，荧光蛋白包括GFP、YFP、RFP、CFP、BFP、dsRed、mCherry或tdTomato。在一些实施方案中，标记还包括选择标记。在一些实施方案中，选择标记选自由以下组成的组：二氢叶酸还原酶(DHFR)、谷氨酰胺合酶(GS)、嘌呤霉素乙酰转移酶、杀稻瘟素脱氨酶、组氨醇脱氢酶、潮霉素磷酸转移酶(hph)、博来霉素抗性基因和氨基糖苷磷酸转移酶(新霉素抗性)。

在一些实施方案中，细胞包括胚胎干(ES)细胞。

在一些实施方案中，核酸分子是质粒。

本公开提供了包含通过本公开的方法产生的染色体重排的细胞。在一些实施方案中，细胞是小鼠ES细胞。

本公开提供了转基因小鼠，其来自通过本公开的方法产生的小鼠ES细胞。

附图说明

通过参考以下阐述说明性实施方案的详细描述和附图，将获得对本公开的特征和有利方面的更好理解，其中：

图1是从上至下显示小鼠免疫球蛋白重链复合物(Igh)、人Igh和其中可变结构域(V_H、D_H和J_H1-6)已经人源化的小鼠Igh的图解。Chro:染色体。

图2是显示工程化的小鼠与人胚胎干(ES)细胞通过电融合进行的杂交的图解。小鼠ES细胞表达标记新霉素，人ES细胞表达mCherry。胚胎杂交干细胞(杂交瘤细胞)对G418具有抗性，并对mCherry呈阳性。

图3A是显示三对PCR引物(如箭头所示)在人Igh基因V_H、D_H和J_H1-6区中的放置的图解，所述引物用于对胚胎杂交干细胞(EHS)进行基因分型。

图3B是显示12个胚胎杂交干细胞(EHS)克隆的PCR结果的示例性凝胶，所述克隆使用图3A所示的引物进行了基因分型。

图4A-图4B是显示通过HDR介导的染色体重排(HCMR)HDR：同源性定向修复在EHS细胞(图4A)中建立工程化的人源化染色体的流程的图解。用以下质粒共转染EHS细胞：5’HMCR质粒，其含有与小鼠Igh基因的5’同源的5’臂、与人Igh基因的5’同源的3’臂和pCMV-EGFP-polyA-PGK-嘌呤霉素-polyA盒；3’HMCR质粒，其含有与人Igh可变基因座的3’末端同源的5’臂、与小鼠Igh可变基因座的3’末端同源的3’臂和PGK-潮霉素-polyA盒；和4种含有靶向小鼠Igh和人Igh的5’和3’可变结构域的Cas9和sgRNA的质粒，如由所示的。或者(图4B)通过CRE-Loxp介导的染色体重排(CMCR)：四种质粒被设计成介导CMCR过程。小鼠Igh 5’(pCMV-GFP-BGH PolyA-Loxp)和3’(BGH polyA-Loxp-511-潮霉素-BGH polyA-PGK-BSD-BGHPolyA)质粒被设计成分别插入小鼠Igh可变基因座的5’和3’末端。同时，人IGH 5’(BGHpolyA-Loxp-Puro-BGH PolyA-PGK-新霉素-BGH polyA)和3’(pCMV-BGP-BGH polyA-PGK-Loxp-511)质粒被设计成分别插入人IGH可变基因座的5’和3’末端。Crewas被转染到成功整合的EHS细胞中用于CMCR。

图5A是显示用于验证工程化的人染色体的PCR引物(如箭头所示)的放置的图解。

图5B显示了使用图5A所示的4对引物的PCR结果。显示了192个单克隆的结果。

图6是显示在小鼠ES细胞中用工程化的人染色体替换小鼠染色体的图解。通过暴露于秋水仙胺对携带用GFP标记的工程化的人染色体的EHS细胞真行微粉，通过离心收集微细胞，并将其与小鼠ES细胞电融合，在所述小鼠ES细胞中相应的小鼠染色体已用mCherry标记。通过荧光激活细胞分选(FACS)分离GFP+mCherry+细胞。然后培养细胞，通过FACS分离已经丢失小鼠染色体的GFP+mCherry-细胞。

图7A显示了用于验证Igh人源化小鼠的PCR引物(如箭头所示)的放置。

图7B显示了使用图7A所示的7对引物对示例性Igh人源化小鼠的PCR结果。

图8A显示了Igh人源化小鼠的荧光原位杂交(FISH)结果。

图8B显示了Igh人源化小鼠的G-显带核型分析。

图9A显示了Igh人源化小鼠的IGH-V的全基因组测序(WGS)分析。显示了位于人Igh的V_H区的每个可变(V)基因区段的WGS序列的拷贝数。

图9B显示了Igh人源化小鼠的IGH-D和IGH-J的WGS分析。显示了位于人Igh的D_H和J_H1-6区上的每个多样性(D)基因区段和6个连接(J)区段的WGS序列的拷贝数。

图10显示了小鼠Igk基因的可变结构域的人源化。

图11A-图11B显示了Igk人源化小鼠的PCR验证结果。图11A显示了用于PCR实验的设计引物的位置。图11B，使用图A中列出的5对引物对于Igk人源化小鼠的PCR结果。

图12显示了Igk人源化小鼠的WGS分析结果。WGS序列中位于人IGK基因的V_K和J_k区段上的每个抗体基因的拷贝数。

具体实施方式

本公开提供了用于工程化染色体的方法，其包括在染色体之间转移大的序列片段。使用本文公开的方法，可将至少5兆对(MB)的序列从非无色体(achromosomal)模板转移到靶染色体上。本文公开的方法也可用于产生染色体重排，诸如倒位和易位。本文还提供了通过本公开的方法产生的工程化的染色体，以及包含这些工程化的染色体的细胞和动物，以及使用它们的方法。

操纵基因或染色体的大片段为基础和翻译研究以及疗法的发展带来了巨大的希望。遗传人源化是最流行的应用之一，其中模型生物诸如小鼠的基因被其人对应物所替代。例如，携带人源化Ig基因的小鼠为在小鼠背景中产生人抗体提供了强大的平台。然而，大片段操作仍然是基因编辑领域最重要的挑战之一，因为无法获得能够携带高达百万碱基对(MB)的染色体大片段的递送载体。常规递送载体，诸如腺相关病毒载体或其它病毒载体的有效载荷受到载体所源自的病毒基因组大小的限制。

本文公开的方法允许染色体间大序列的高效原位置换。这些方法被称为跨物种大规模片段原位替换技术(Massive fragment Across Species In situ ReplacementTechnolog)(MASIRT)，可用于在单个编辑步骤中替换大部分染色体，在某些情况下可替换高达兆碱基对(MB)的序列。这些方法可用于高效地在物种之间或单个物种的染色体之间转移大序列。在一个实例中，MASIRT用于获得针对小鼠Igh基因的可变结构域人源化的小鼠。人和小鼠在抗体基因的排列和表达方面表现出高度的相似性，并且在这些物种之间重链的基因组结构也是相似的。因此，使用MASIRT将约3MB的含有所有V_H、D_H和J_H基因区段的小鼠基因组序列替换为约1Mb的含有等同人基因片段的连续人基因组序列，获得了人源化小鼠Igh基因。

与仅作用于胚胎干细胞的其它方法不同，本公开的方法可有利地用于替换受精卵中的大序列。胚胎干细胞系通常不适用于除小鼠以外的物种。相反，许多哺乳动物可获得受精卵，因此本公开的方法可用于获得具有人源化的基因或基因片段的动物，诸如兔或牛。另外，本文公开的方法可用于一次替换大的序列片段，例如高达至少5MB的序列，约为本领域已知的其它方法所使用的方法的五倍。这提高了效率，并且减少了产生具有人源化基因的物所需的时间和成本。例如，仅用3轮替换就可产生Igh人源化小鼠。另一个有利方面是，当用于小鼠时，每次替换只需要1-3个月，这只是本领域已知的其它方法所需时间量的一半或三分之一。

定义

染色体是包含生物体的全部或部分遗传物质的长DNA分子。大多数真核生物染色体包括称为组蛋白的包装蛋白，其在伴侣蛋白的帮助下，与DNA分子结合并压缩其以保持其完整性。真核生物染色体由与蛋白质缔合的长线性DNA分子组成，形成称为染色质的蛋白质和DNA的紧密复合物。每条染色体都有一个着丝粒，着丝粒上伸出一条或两条臂。染色体的臂终止于端粒，所述端粒是与特化蛋白质缔合的重复核苷酸序列的区域，其保护染色体DNA的末端区域免于进行性降解，并通过防止DNA修复系统将DNA链的最末端误认为双链断裂来确保线性染色体的完整性。

“基因”包括编码基因产物(例如蛋白质或非编码RNA)的DNA区域，以及调控基因产物产生的所有DNA区域，无论此类调控序列是否与编码和/或转录序列相邻。因此，基因可包括调控元件序列，包括但不一定限于启动子序列、终止子、翻译调控序列诸如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、隔离子(insulator)、边界元件、复制起点、基质附着位点和基因座控制区。编码序列在转录或转录和翻译时编码基因产物。本公开的编码序列可包含片段，并且不需要包含全长开放阅读框架。基因可包括被转录的链以及含有反密码子的互补链。基因还可包括外显子(其可包括蛋白质编码序列和非翻译区)以及内含子(其通过剪接而被从最终的RNA产物中除去)。

本文使用的术语“启动子”可以指位于编码重组产物的DNA序列邻近的DNA序列。启动子优选与相邻的DNA序列有效连接。与不存在启动子时表达的量相比，启动子通常增加从DNA序列表达的蛋白质或RNA产物的量。来自一种生物体的启动子可用于增强从源自另一种生物体的DNA序列的蛋白质表达。例如，脊椎动物启动子可用于在脊椎动物中表达水母GFP。此外，一个启动子元件可增加串联连接的多个DNA序列表达的重组产物的量。因此，一个启动子元件可增强一种或多种重组产物的表达。多个启动子元件是本领域普通技术人员熟知的。

本文使用的术语“增强子”可指位于编码蛋白质或RNA产物的DNA序列邻近的DNA序列，或者位于编码蛋白质或RNA产物的DNA序列的远端的DNA序列。增强子元件通常位于启动子元件的上游，但也可位于编码DNA序列的下游或内部，诸如内含子内。在一些情况下，增强子可位于距离其所调控表达的基因数千碱基或甚至数十或数百千碱基处。增强子元件可使从DNA序列表达的蛋白质或RNA产物的量增加超过由启动子元件提供的增加的表达。本领域普通技术人员很容易获得多种增强子元件。

如本文中所用，术语“外源染色体”或“外源序列”是指相对于动物基因组的外来染色体或外来序列。例如，在小鼠细胞(其中除一条人染色体外，所有染色体都是小鼠染色体)中，人染色体是外源染色体。类似地，在其中一部分小鼠序列已被人序列替代的小鼠染色体中，人序列被称为外源序列。类似地，“内源的”是指源自生物体的染色体或序列，诸如上文所述的小鼠染色体或序列。

如本文中所用，术语“同源重组”是指一种类型的遗传重组，其中核苷酸序列在称为同源序列或同源臂的两个相似或相同的DNA分子之间交换。同源重组通常涉及以下基本步骤：在两条DNA链上发生双链断裂(DSB)后，DSB的5’末端周围的DNA区段在称为切除的过程中被切掉。在随后的链侵入步骤中，断裂的DNA分子的悬突3’端“侵入”未断裂的相似或相同(或同源)的DNA分子，例如同源臂。在链侵入后，进一步的事件顺序可以遵循两条途径-DSBR(双链断裂修复)途径或SDSA(合成依赖性链退火)途径中的任一途径。

如本文中所用，“DNA修复途径”是指允许细胞响应于DNA损伤，诸如DNA中的单链或双链断裂的检测而维持基因组完整性功能的细胞机制。取决于DNA损伤的类型和程度，以及细胞周期阶段，DNA修复途径可包括但不限于以下途径，诸如切除、规范同源定向修复(规范HDR)、同源重组(HR)、替代同源定向修复(alt-HDR)、双链断裂修复(DSBR)、单链退火(SSA)、合成依赖性链退火(SDSA)、断裂诱导的复制(BIR)、替代末端连接(alt-EJ)、微同源性介导的末端连接(MMEJ)、DNA合成依赖性微同源性介导的末端连接(SD-MMEJ)、非同源末端连接(NHEJ)途径，诸如规范非同源末端连接(C-NHEJ)修复、替代非同源末端连接(A-NHEJ)途径、跨损伤DNA合成(TLS)修复、碱基切除修复(BER)、核苷酸切除修复(NER)、错配修复(MMR)、DNA损伤应答(DDR)、平末端连接、单链断裂修复(SSBR)、链间交联修复(ICL)和范科尼贫血途径(Fanconi Anemia pathway)(FA)。

如本文中所用，同源定向修复(HDR)是指使用同源核酸(例如，姊妹染色单体或外源核酸)修复DNA损伤的过程。在正常细胞中，HDR通常涉及一系列步骤，诸如识别断裂、稳定断裂、切除、稳定单链DNA、形成DNA交叉中间体、拆分交叉中间体和连接。

如本文中所用，“同源物”是指执行相同生物学功能的一组蛋白质中的蛋白质，例如属于相同蛋白质家族并提供共同性状或执行相同或相似生物功能的蛋白质。同源物由同源基因表达。同源基因是编码与由第二基因编码的蛋白具有相同或相似生物功能的蛋白质的基因。同源基因可通过物种形成事件(直系同源物)或通过遗传复制事件(旁系同源物)产生。“直系同源物”是指不同物种中通过物种形成从共同的祖先基因进化而来的一组同源基因。正常情况下，直系同源物在进化过程中保持相同的功能。“旁系同源物”是指同一物种中由于基因复制而彼此趋异的一组同源基因。因此，同源基因可来自相同或不同的生物体。同源基因包括自然产生的等位基因和人工产生的变体。同源蛋白质之间的同一性百分比将取决于蛋白质的来源，以及蛋白质所源自的物种趋异的程度。来自亲缘关系更近的物种(例如，诸如人和小鼠的两种哺乳动物)的同源蛋白质通常比来自亲缘关系更远的物种(例如，鸡和小鼠)的蛋白质更相似。当最佳比对时，同源蛋白质在蛋白质全长上通常具有至少约40％的同一性、约50％的同一性、约60％的同一性，在某一情况下具有至少约70％，例如约80％，甚至至少约90％的同一性。在其它情况下，例如当比较来自高度趋异的物种的蛋白质时，同源蛋白质在保守蛋白质结构域(诸如DNA结合结构域)的长度上将具有至少约40％的同一性、约50％的同一性、约60％的同一性、约70％的同一性、约80的％同一性或约90％的同一性。

通过例如手动或通过使用基于计算机的工具比较DNA或氨基酸序列来鉴定同源基因或蛋白质，所述基于计算机的工具使用已知的基于同源性的搜索算法，诸如通常已知的并被称为BLAST、FASTA和Smith-Waterman的那些搜索算法。局部序列比对程序(例如BLAST)可用于搜索序列数据库以寻找相似的序列，并且汇总期望值(summary Expectationvalue)(E值)用于测量序列碱基相似性。因为对于特定生物体而言，具有最佳E值的蛋白质命中可能不一定是直系同源物，即具有相同的功能，或者是唯一的直系同源物，所以可使用互逆查询(reciprocal query)来过滤具有显著E值的命中序列，用于直系同源物鉴定。互逆查询需要针对来自基础生物的氨基酸序列数据库搜索与查询蛋白质序列相似的显著命中。当互逆查询的最佳命中是查询蛋白质本身或在物种形成后由复制的基因编码的蛋白质时，命中可以被识别为直系同源物。

如本文中所用，“同一性百分比”意指两个最佳比对的DNA或蛋白质区段在整个组分(例如核苷酸序列或氨基酸序列)的比对窗口中不变的程度。测试序列和参考序列的比对片段的“同一性分数”是两个比对区段的序列所共有的相同成分的数量除以比对窗口上参考区段中序列成分的总数，所述比对窗口是完整测试序列或完整参考序列中的较小者。“同一性百分比”(“同一性％”)是同一性分数乘以100。这种最佳比对被理解成被认为是DNA序列的局部比对。对于蛋白质比对，蛋白质序列的局部比对应该允许引入缺口以实现最佳比对。可在不包括由比对本身引入的缺口的比对长度上计算同一性百分比。

如本文中所用，“特异于”当用于指核苷酸序列诸如引导RNA的同源臂或靶向序列时，是指与另一核苷酸序列或另一核苷酸序列的反向互补序列相同或基本相同的序列。“特异于”另一序列的序列能够通过沃尔森-克里克碱基配对与另一序列或其反向互补序列杂交。因此，本领域技术人员将理解，对另一序列特异的序列与另一序列或其反向互补序列高度相似，但不需要完全相同。例如，与另一序列具有至少80％、至少85％、至少90％、至少95％、至少97％或至少99％同一性的序列，如果其能够与另一序列杂交，仍然对该序列具有特异性。作为另一个实例，根据靶向序列中错配的位置，引导核酸靶序列可包含1个、2个、3个或更多个与靶序列的错配，并且如果其能够将包含gNA和核酸内切酶的核糖核蛋白复合物靶向到靶序列，则其仍然对靶序列具有特异性。

如本文中所用，“选择”是指使用本领域已知的任何方法分开两个不同产物的群体。当其应用于细胞、染色体或序列时，可基于标记诸如选择标记进行选择。选择表达选择标记的细胞包括在选择性培养基中培养包括表达标记的细胞和不表达标记的细胞的混合细胞群，从而杀死不表达标记的细胞或抑制其生长。通过将包含标记的序列或染色体置于细胞内并应用选择性方案，可以类似地选择它们。类似地，可以基于检测标记(如荧光蛋白)进行选择。可使用本领域已知的方法，诸如荧光激活细胞分选术(FACS)，基于检测标记，从混合细胞群中物理去除表达检测标记的细胞。可选地，或者另外地，可选地，可以稀释混合细胞群，使得可以分离培养单细胞，并且测定源自分离的细胞的克隆的一种或多种性状诸如标记的存在。

如本文中所用，“源自”是指分子实体例如核酸或蛋白质的来源或起源。分子实体的来源可以是天然存在的、重组的、未纯化的或纯化的分子实体。例如，源自第二多肽的多肽可包含与第二蛋白质的氨基酸序列相同或基本相似，例如与其具有超过50％的同源性的氨基酸序列。所来源的分子实体，例如核酸或蛋白质，可包含一个或多个修饰，例如一个或多个氨基酸或核苷酸变化。

“分离自”是指从其来源或起源纯化、取出或分离的分子实体。

“天然存在的”序列是在自然界中存在的至少一种物种中发现的序列。

“人工序列”是指自然界中不存在的序列。人工序列可与天然序列类似，但相对于天然存在的序列含有一个或多个改变。可选地，人工序列可能与任何天然存在的序列几乎没有或没有相似性。嵌合或重组序列是一类人工序列，其中来自不同来源的两个序列，或从未发现彼此相邻的两个序列，被可操作地连接在一起。

“有效连接的(Operatively linked)”或“可操作地连接的(operably linked)”是指遗传元件的并置，其中元件处于允许它们以预期方式操作的关系中。例如，如果启动子有助于启动编码序列的转录，则启动子与编码区有效连接。只要保持这种功能关系，启动子与编码区之间可以存在间插残基。

本文使用以下分类来指代干细胞。就发育阶段而言，最具多能性和最早的是“胚胎干(ES)细胞”或“ES细胞”。ES细胞可以是新鲜来源的原代细胞，或来自ES细胞系。来自体细胞组织(除生殖细胞组织外的每种组织)的所有其它干细胞被概括地定义为“体细胞干细胞”，但通常可能被称为以下任何或所有细胞：“成体干细胞”、“成熟干细胞”、“祖细胞”、“祖干细胞”、“前体细胞”和“前体干细胞”。另一类非胚胎干细胞被定义为“生殖系干细胞”。最后，本文将非干细胞描述为“成熟细胞”，但也称为“分化细胞”、“成熟分化细胞”、“终末分化细胞”和“体细胞”。成熟细胞也可以是源自组织或永生细胞系或肿瘤来源细胞系的原代分离细胞。本发明还包括“成熟细胞的前体形式”，其包括不符合干细胞或成熟细胞的常用科学定义的所有细胞。可在体外长时间培养ES细胞，并且在将其插入/注射到正常胚泡的腔中之前，诱导其恢复胚胎发育的正常程序，以分化成成年动物的所有细胞类型，包括生殖细胞。

如本文中所用，“杂交细胞”是指含有来自两个基因组的元件的细胞。本领域技术人员将会理解，杂交细胞可包含来自不同来源的两个完整或接近完整的基因组。杂交细胞可含有来自不同来源的两个完整或接近完整的基因组。可选地，杂交细胞可含有一种来源的完整基因组，和来自第二来源的仅几条染色体、一条染色体或一条染色体的一部分。含有上述两个极端之间的两个基因组的元件的任何混合物的细胞仍被认为是杂交细胞。杂种中的两个基因组可来自不同的个体，同一物种的不同品系或不同的物种。杂交细胞可通过本领域已知的任何方法产生。这些技术包括但不限于细胞融合和微细胞介导的染色体转移(MMCT)，所述微细胞介导的染色体转移即将少量染色体从一个细胞转移到另一个细胞。

如本文中所用，“杂交胚胎干(EHS)”细胞是指具有胚胎干细胞特性的杂交细胞。EHS细胞可通过来自两个不同物种的ES细胞的融合产生，或者通过MMCT介导的染色体从一个物种的细胞到另一个物种的干细胞的染色体转移产生。

本文所用的“癌症”是指特征在于本领域已知的不受调控的细胞生长或复制的疾病、疾患、性状、基因型或表型。癌症包括实体瘤和液体瘤。示例性癌症包括但不限于白血病、乳腺癌、骨癌、脑癌、头颈癌、视网膜癌、食道癌、胃癌、多发性骨髓瘤、卵巢癌、子宫癌、甲状腺癌、睾丸癌、子宫内膜癌、黑色素瘤、结直肠癌、肺癌、膀胱癌、前列腺癌、肺癌(包括小细胞和非小细胞肺癌两者)、胰腺癌、肉瘤、宫颈癌、头颈癌和皮肤癌。

本说明书中提及的所有出版物、专利和专利申请通过引用并入本文，其程度如同每个单独出版物、专利或专利申请具体地和单独地表示为通过引用并入。

工程化染色体的方法

本公开提供了使用模板染色体、靶染色体、一种或多种核酸分子诸如载体或质粒以及同源定向修复来工程化染色体的方法。核酸酶用于产生双链断裂，其位于模板染色体中模板序列的侧翼，并位于靶序列的侧翼或靶染色体中的靶位置。一种或多种包含标记和同源臂的核酸分子用于指导用模板序列替换靶序列，在靶位置插入模板序列，或通过在双链断裂位点连接靶标与模板序列来产生染色体重排，所述同源臂包含靶染色体和模板染色体的序列。

在一些实施方案中，所述方法包括用模板序列替换靶序列，即通过插入模板序列来删除靶序列。

在一些实施方案中，该方法包括用模板序列替换靶序列。任何合适的模板序列和任何合适的靶序列都可用于本文所述的方法。例如，该方法可用于用同源人序列替换模式生物的部分染色体，从而使该部分模式生物的基因组人源化。或者，可在靶位置插入大序列，而几乎没有或没有靶序列的缺失。

在一些实施方案中，本公开提供了产生工程化的染色体的方法，其包括：(a)提供细胞，其包含含有靶序列的靶染色体和含有模板序列的模板染色体；(b)使细胞与(i)第一核酸分子和(ii)第二核酸分子接触，所述第一核酸分子从5’至3’包含5’同源臂、至少第一标记和3’同源臂，所述5’同源臂含有靶序列5’末端上游的核苷酸序列，所述3’同源臂含有模板序列5’末端上游的核苷酸序列；所述第二核酸分子从5’至3’包含5’同源臂、至少第二标记和3’同源臂，所述5’同源臂含有模板序列3’末端下游的核苷酸序列，所述3’同源臂含有靶序列3’末端下游的核苷酸序列；(c)在靶序列的任一侧或两侧以及模板序列的5’和3’末端产生双链断裂，从而将模板序列以及第一和第二标记插入靶染色体中；以及(d)选择表达第一和第二标记的一个或多个细胞。在一些实施方案中，第一和/或第二核酸分子是质粒。对于本文所述方法的一些实施方案，模板序列、靶序列以及第一和第二核酸分子的同源臂的排列如图4A-图4B所示。在一些实施方案中，在插入模板序列后，第一标记位于模板序列的5’末端，第二标记位于模板序列的3’末端。例如，通过本文所述方法产生的工程化的染色体在插入模板序列和删除靶序列后，从5’至3’包括靶序列上游的靶染色体序列、第一标记、模板序列、第二标记和靶序列下游的靶染色体序列。

熟练的技术人员将理解许多长度的模板序列适用于本文所述的方法。合适的模板序列可以小到数百个碱基对，或者包含染色体的大部分，因此长度可达数百兆对。在本文所述方法的一些实施方案中，模板序列的长度为至少25KB、至少50KB、至少100KB、至少200KB、至少400KB、至少500KB、至少600KB、至少700KB、至少800KB、至少900KB、至少1MB、至少2MB、至少3MB、至少4MB、至少5MB、至少10MB、至少15MB、至少20MB、至少50MB、至少100MB、至少150MB、至少200MB或至少250MB。在一些实施方案中，模板序列的长度介于在50KB与250MB之间、介于100KB与200MB之间、介于200KB与50MB之间、介于500KB与50MB之间、介于1MB与100MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于5MB与50MB之间、介于5MB与10MB之间、介于3MB与10MB之间或介于5MB与50MB之间。

在本文所述方法的一些实施方案中，模板染色体从5’至3’包含第一核酸分子的3’同源臂序列、模板序列和第二核酸分子的5’同源臂序列。在一些实施方案中，模板染色体从5’至3’包含第一核酸分子的3’同源臂序列、第三核酸内切酶位点、模板序列、第四核酸内切酶位点和第二核酸分子的5’同源臂序列。

熟练的技术人员将理解许多长度的靶序列适用于本文所述的方法。合适的靶序列可以小到用于产生双链断裂的核酸内切酶位点(靶位置)，或者包含染色体的大部分，因此长度可达数百兆对。在本文所述方法的一些实施方案中，靶序列的长度为至少25KB、至少50KB、至少100KB、至少200KB、至少400KB、至少500KB、至少600KB、至少700KB、至少800KB、至少900KB、至少1MB、至少2MB、至少3MB、至少4MB、至少5MB、至少10MB、至少15MB、至少20MB、至少50MB、至少100MB、至少150MB、至少200MB或至少250MB。在一些实施方案中，靶序列的长度介于50KB与250MB之间、100KB与200MB之间、200KB与50MB之间、500KB与50MB之间、1MB与100MB之间、1MB与10MB之间、1MB与5MB之间、1MB与3MB之间、5MB与50MB之间、5MB与10MB之间、3MB与10MB之间或5MB与50MB之间。

在本文所述方法的一些实施方案中，靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、靶序列和第二核酸分子的3’同源臂序列。在一些实施方案中，靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、第一核酸内切酶位点、靶序列、第二核酸内切酶位点和第二核酸分子的3’同源臂序列。

在一些实施方案中，本文所述方法中使用的核酸分子是DNA分子。在一些实施方案中，本文所述方法中使用的核酸分子是环状的，例如质粒。可选地，可使用另外的核酸内切酶位点来线性化本公开的核酸分子。示例性核酸内切酶位点包括但不限于限制性核酸内切酶，以及本文所述的CRISPR/Cas核酸内切酶、ZFN和TALEN。熟练的技术人员能够将合适的核酸内切酶位点掺入核酸分子中，例如邻近或靠近核酸分子的任一或两个同源臂。熟练的技术人员能够将合适的CRE重组酶位点整合到核酸分子中。

在一些实施方案中，通过插入模板序列删除靶序列，并且通过CRISPR/Cas核糖核蛋白在模板和靶序列的任一侧切割模板和靶染色体。在一些实施方案中，(a)靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、第一sgRNA靶序列、靶序列、第二sgRNA靶序列和第二核酸分子的3’同源臂序列，以及(b)模板染色体从5’至3’包含第三sgRNA靶序列、第一核酸分子的3’同源臂序列、模板序列、第二核酸分子的5’同源臂序列和第四个sgRNA靶序列。在一些实施方案中，第一、第二、第三和第四sgRNA包含不同的靶向序列。例如，第一sgRNA包含特异于靶染色体上的第一sgRNA靶序列的靶向序列，第二sgRNA包含特异于靶染色体上的第二sgRNA靶序列的靶向序列，第三sgRNA包含特异于模板染色体上的第三sgRNA靶序列的靶向序列，第四sgRNA包含特异于靶染色体上的第四sgRNA靶序列的靶向序列。可选地，一个或多个sgRNA靶序列和相应的sgRNA靶向序列可以是相同的序列。

在一些实施方案中，插入模板序列包括删除极少靶序列的序列或不删除靶序列的序列。本领域普通技术人员将理解，在双链断裂修复的许多机制中，涉及断裂末端的切除，因此将在本文所述的核酸内切酶位点周围产生缺失。例如，可通过本文所述的方法产生靶位置周围或靶序列侧翼的核酸内切酶位点周围约5bp、10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp或50bp的缺失。

在一些实施方案(例如，其中通过本文所述的方法几乎未删除靶序列或未删除靶序列的那些实施方案)中，(a)靶染色体从5'至3'包含第一核酸分子的5'同源臂序列、第一sgRNA靶序列和第二核酸分子的3'同源臂序列；以及(b)模板染色体从5'至3'包含第二sgRNA靶序列、第一核酸分子的3'同源臂序列、模板序列、第二核酸分子的5'同源臂序列和第三sgRNA靶序列。在一些实施方案中，第一、第二和第三sgRNA包含不同的靶向序列。例如，第一sgRNA包含对靶染色体上的第一sgRNA靶序列特异的靶向序列，第二sgRNA包含对靶染色体上的第二sgRNA靶序列特异的靶向序列，第三sgRNA包含对模板染色体上的第三sgRNA靶序列特异的靶向序列。

在一些实施方案中，插入模板序列破坏了靶序列的一种或多种功能。例如，将模板序列插入基因的编码序列可以通过产生过早终止密码子、蛋白质编码序列中的突变、异常剪接产物等来阻止正确基因产物的表达。类似地，将模板序列插入基因的调控序列，诸如增强子或启动子，可以阻止基因表达。

在一些实施方案中，本公开的方法包括在插入靶序列后删除第一和/或第二标记。可通过本领域已知的任何合适的方法删除标记例如，可将包含工程化的染色体的细胞与CRISPR/Cas核糖核蛋白接触，所述CRISPR/Cas核糖核蛋白包含对编码标记的序列特异的gNA靶向序列，从而诱导标记序列的全部或部分缺失。

本公开的方法可用于产生染色体重排，诸如倒位和易位。许多染色体重排在人疾病或病症诸如癌症中起作用。在模式生物(诸如小鼠)中重建此类重排可以促进对这些疾病或病症的研究。所涉及的染色体畸变为本领域技术人员所知，并描述于可在mitelmandatabase.isb-cgc.org/获得的Mitelman数据库中。关于与人疾病相关的染色体畸变的更多信息也可在rarediseases.info.nih.gov/diseases/diseases-by-category/36/chromosome-disorders上获得。

因此，本公开提供了产生染色体重排的方法，其包括：(a)提供细胞，其包含含有靶位置的靶染色体和含有模板序列的模板染色体；(b)将细胞与核酸分子接触，所述核酸分子从5’至3’包含5’同源臂和3’同源臂，所述5’同源臂包含靶位置5’末端上游的核苷酸序列，所述3’同源臂包含模板序列5’末端上游的核苷酸序列；(c)在靶位置上和模板序列的5’末端产生双链断裂，从而将标记插入5’同源臂序列3’的靶染色体，随后插入模板序列，从而产生染色体重排；以及(c)选择表达该标记的一个或多个细胞。可选地，所述方法包括(a)提供细胞，其包含含有靶位置的靶染色体和含有模板序列的模板染色体；(b)将细胞与核酸分子接触，所述核酸分子从5’至3’包含5’同源臂、标记和3’同源臂，所述5’同源臂包含模板序列3’末端下游核苷酸序列，所述3’同源臂包含靶序列3’末端下游核苷酸序列；(c)在靶位置上和模板序列的3’末端产生双链断裂，从而将标记插入5’同源臂序列3’的靶染色体，随后插入模板序列，从而产生染色体重排；以及(c)选择表达该标记的一个或多个细胞。在一些实施方案中，产生双链断裂包括将细胞与CRISPR/Cas内切核酸酶、至少第一gNA和第二gNA接触，所述第一gNA包含对靶位置特异的靶向序列，使得CRISPR/Cas内切核酸酶切割靶位置，所述第二gNA包含对模板序列5’末端特异的靶向序列。在一些实施方案中，产生双链断裂包括将细胞与CRISPR/Cas内切核酸酶、至少第一gNA和第二gNA接触，所述第一gNA包含对靶位置特异的靶向序列，使得CRISPR/Cas内切核酸酶切割靶位置，所述第二gNA包含对模板序列3’末端特异的靶向序列。在一些实施方案中，核酸分子包括DNA。在一些实施方案中，核酸分子包括质粒。

本领域已知的合适方法可用于在靶染色体和模板染色体中产生双链断裂。这尤其可通过选择用于指导HDR介导的染色体重排的核酸分子(例如，质粒)的同源臂序列来实现，所述核酸分子与靶染色体和模板染色体上的核酸内切酶位点重叠或包含所述核酸内切酶位点。在一些实施方案中，在(c)中产生双链断裂包括使用CRISPR/Cas核酸内切酶和一种或多种引导核酸(gNA)、一种或多种锌指核酸酶、一种或多种转录激活子样效应因子核酸酶(TALEN)或一种或多种CRE重组酶来诱导双链断裂。例如，Cre重组酶诱导两个LoxP位点之间的染色体区域的倒位，由此模板序列以及第一和第二标记被插入到靶染色体中。在一些实施方案中，CRISPR/Cas核酸内切酶包括CasI、CasIB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、CasX、CasY、Cas12a(Cpf1)、Cas13a、CsyI、Csy2、Csy3、CseI、Cse2、CscI、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、CmrI、Cmr3、Cmr4、Cmr5、Cmr6、CsbI、Csb2、Csb3、Csx17、CsxI4、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、CsfI、Csf2、Csf3、Csf4、Cms1、C2c1、C2c2或C2c3或其同源物、直系同源物或经修饰的形式。在一些实施方案中，CRISPR/Cas核酸内切酶包括Cas9、Cas12a(Cpf1)、Cas13a、CasX、CasY、C2c1或C2c3。在一些实施方案中，CRISPR/Cas内切核酸酶包括Cas9。在一些实施方案中，gNA包括单引导RNA(sgRNA)。

本领域已知的任何合适的方法都可用于将细胞与本文所述的核酸内切酶接触。例如，包含核酸内切酶和编码gRNA的序列(对于CRISPR/Cas核酸内切酶而言)的核酸分子(例如，质粒等)可用于转染细胞。可选地，可通过电穿孔、脂转染、转导等将核酸内切酶或编码核酸内切酶的核酸分子引入细胞。

用于实施本文所述方法的细胞可以是本领域已知的任何合适的细胞。在一些实施方案中，细胞包括胚胎干(ES)细胞。在一些实施方案中，细胞包括胚胎杂交干(EHS)干细胞。EHS细胞可通过融合来自两个不同物种(例如人和小鼠、人和大鼠，或小鼠和猴)的ES细胞来产生。本领域已知的所有融合方法都被设想为在本公开的范围内，包括但不限于电融合、病毒诱导融合和化学诱导融合。在一些实施方案中，该方法包括将人EH细胞与选自由以下组成的组的EH细胞融合：小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。在一些实施方案中，该方法包将来自任何两种不同物种的EH细胞融合，所述物种选自由以下组成的组：小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。

在一些实施方案中，细胞包括受精卵。如本文中所用，术语“受精卵”是指由两个配子(例如哺乳动物的卵子和精子)之间的受精事件形成的真核细胞。单细胞、2细胞、4细胞、8细胞或更进阶段的受精卵可适用于本文所述的方法。

如本文所述产生工程化的染色体后，可使用任何合适的方法来回收工程化的染色体。在一些实施方案中，回收本公开的工程化的染色体包括微细胞介导的染色体转移(MMCT)。通过将包含工程化的染色体的微核细胞与靶细胞诸如ES细胞融合，将回收的染色体转移到任何适合下游应用的细胞类型中。下面更详细地描述这些方法。

模板染色体

本公开提供了用于本文所述方法的包含模板序列的模板染色体。

如本文中所用，“模板染色体”是指含有“模板序列”的染色体。模板序列是指使用本公开的方法引入靶染色体或靶位置的序列。

模板染色体可从任何合适的来源分离或获得。在一些实施方案中，模板染色体来自真核生物。在一些实施方案中，真核生物是脊椎动物，诸如鸟类、爬行动物或哺乳动物。在一些实施方案中，模板染色体来自小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡。在一些实施方案中，模板染色体来自人。

在一些实施方案中，模板染色体是外源染色体，模板序列是外源序列。例如，靶染色体是小鼠染色体，模板染色体和相应的模板序列来自非小鼠物种，诸如人。

在一些实施方案中，模板染色体是内源染色体，模板序列是内源序列。例如，模板染色体是小鼠染色体，而靶染色体是第二不同的小鼠染色体。

在一些实施方案中，模板染色体是人工染色体。

在一些实施方案中，模板染色体是天然存在的染色体。

在一些实施方案中，模板染色体包含对天然存在的染色体的一个或多个修饰。修饰尤其包括序列的插入、缺失和重排。插入模板染色体的序列的实例尤其包括标记、启动子、cDNA序列、非编码序列等。

在一些实施方案中，模板染色体包含位于模板序列5’的核酸内切酶位点。在一些实施方案中，模板染色体包含位于模板序列3’的核酸内切酶位点。在一些实施方案中，核酸内切酶位点紧邻模板序列。在一些实施方案中，核酸内切酶位点位于模板序列附近。

在一些实施方案中，模板染色体在模板序列的任一侧包含核酸内切酶位点。例如，模板染色体包含位于模板序列5’的第一核酸内切酶位点和位于模板序列3’的第二核酸内切酶位点。在一些实施方案中，第一和第二核酸内切酶位点都被同一核酸内切酶识别和切割。例如，第一和第二核酸内切酶位点均包含相同的DNA序列，其被同一核酸内切酶识别。在一些实施方案中，第一核酸内切酶位点被第一核酸内切酶切割，第二核酸内切酶位点被第二核酸内切酶切割。例如，第一和第二内切核酸酶位点包含由两种不同的锌指核酸酶(ZFN)识别的不同DNA序列，或由包含含有不同靶向序列的引导核酸(gNA)的CRISPR/Cas核糖核蛋白复合物识别的两种不同的CRISPR/Cas靶序列。在一些实施方案中，第一和/或第二核酸内切酶位点紧邻模板序列。在一些实施方案中，第一和/或第二核酸内切酶位点位于模板序列附近。

在模板序列的5个碱基对(bp)内、10bp内、15bp内、20bp内、30bp内、40bp内、50bp内、70bp内、80bp内、90bp内、100bp内、120bp内、140bp内、160bp内、180bp内、200bp内、250bp内、300bp内、400bp内或500bp内的序列可被认为靠近模板序列。

在一些实施方案中，模板染色体包含用于促进同源定向修复的核酸分子的同源臂的一个或多个序列。在一些实施方案中，模板染色体包含位于模板序列5’末端或模板序列5’末端附近的同源臂序列。在一些实施方案中，同源臂位于模板序列的上游，即模板序列的5’。在一些实施方案中，模板染色体从5’至3’包含核酸内切酶位点、同源臂序列和模板序列。在一些实施方案中，模板染色体包含位于模板序列3’末端或模板序列5’末端附近的同源臂序列。在一些实施方案中，同源臂位于模板序列的下游，即模板序列的3’。在一些实施方案中，模板染色体从5’至3’包含模板序列、同源臂序列和核酸内切酶位点。在一些实施方案中，同源臂序列位于核酸内切酶位点与模板序列之间。

在一些实施方案中，模板染色体包含位于模板序列5’或其附近的第一同源臂序列，和位于模板序列3’或其附近的第二同源臂序列，即，模板染色体包含模板序列上游和下游的同源臂。在一些实施方案中，第一同源臂是第一核酸分子的3’同源臂，所述第一核酸分子从5’至3’包含含有靶序列的5'末端上游的核苷酸序列的5’同源臂、至少第一标记的序列和第一同源臂序列。在一些实施方案中，第二同源臂是第二核酸分子的5’同源臂，所述第二核酸分子从5’至3’包含第二同源臂序列、至少第二标记的序列和包含靶序列3’末端下游的核苷酸序列的3’同源臂。在一些实施方案中，模板染色体从5’至3’包含第一核酸内切酶位点、第一同源臂序列、模板序列、第二同源臂序列和第二核酸内切酶位点。

在一些实施方案中，第一和/或第二同源臂序列紧邻第一和/或第二核酸内切酶位点。在一些实施方案中，第一同源臂序列紧邻第一核酸内切酶位点，第二同源臂序列紧邻第二核酸内切酶位点，其中第一同源臂位于第一核酸内切酶位点与模板序列之间，第二同源臂位于模板序列与第二模板序列之间。在一些实施方案中，第一同源臂位于第一核酸内切酶位点与模板序列之间，第二同源臂位于模板序列与第二模板序列之间。

在一些实施方案中，第一和/或第二同源臂序列位于模板序列附近。在模板序列的0bp内、5个碱基对(bp)内、10bp内、15bp内、20bp内、30bp内、40bp内、50bp内、70bp内、80bp内、90bp内、100bp内、120bp内、140bp内、160bp内、180bp内、200bp内或250bp内的同源臂可被认为靠近模板序列。

在一些实施方案中，模板染色体从5’至3’包含第一核酸内切酶位点、第一同源臂、模板序列、第二同源臂和第二核酸内切酶位点。

在一些实施方案中，模板染色体的第一和/或第二同源序列的长度介于约20bp与2,000bp之间、介于约50bp与1,500bp之间、介于约100bp与1,400bp之间、介于约150bp与1,300bp之间、介于约200bp与1,200bp之间、介于约300bp与1,100bp之间、介于约400bp与1,000bp之间或介于约500bp与900bp之间，或介于约600bp bp与1,200bp之间。在一些实施方案中，模板染色体的同源序列长度介于约400bp与1,500bp之间。在一些实施方案中，模板染色体的同源序列长度介于约500bp与1,300bp之间。在一些实施方案中，模板染色体的同源序列长度介于约600bp与1,000bp之间。

模板序列

模板染色体包含模板序列，并且在本文所述的工程化的染色体和方法中充当模板序列的来源。模板序列可位于模板染色体上任何合适的位置。例如，不希望受理论所束缚，模板序列可位于模板染色体上以常染色质为特征的区域。

可从任何合适的来源分离或衍生模板序列。在一些实施方案中，模板序列包含内源序列，例如对于模板染色体是内源的序列，或对于产生靶染色体的物种是内源的序列。在一些实施方案中，模板序列是外源序列。例如，模板序列来自对于产生靶染色体的物种是外源的序列。在一些实施方案中，模板序列包含天然存在的序列。在一些实施方案中，模板序列包含对天然存在的序列的一个或多个修饰。修饰尤其包括序列诸如人工序列或标记的插入、缺失和重排。在一些实施方案中，模板序列包含人工序列。在一些实施方案中，模板序列包括天然存在的序列和人工序列。示例性人工序列尤其包括标记、cDNA序列、启动子和重组序列。示例性标记包括但不限于下表3中公开的选择标记，以及可检测的标记，诸如绿色荧光蛋白(GFP)、mCherry等。

在一些实施方案中，模板序列来自真核生物。在一些实施方案中，真核生物是脊椎动物，诸如鸟类、爬行动物或哺乳动物。在一些实施方案中，模板序列包含小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡序列。在一些实施方案中，模板序列包含人序列。

在一些实施方案中，模板序列的长度为至少25KB、至少50KB、至少100KB、至少200KB、至少400KB、至少500KB、至少600KB、至少700KB、至少800KB、至少900KB、至少1MB、至少2MB、至少3MB、至少4MB、至少5MB、至少6MB、至少7MB、至少8MB、至少9MB、至少10MB、至少15MB、至少20MB、至少25MB、至少30MB、至少40MB、至少50MB、至少60MB、至少70MB、至少80MB、至少90MB、至少100MB、至少120MB、至少140MB、至少160MB、至少180MB、至少200MB、至少220MB或至少250MB。在一些实施方案中，模板序列的长度为至少50KB、至少100KB、至少200KB、至少500KB、至少700KB、至少1MB、至少2MB、至少3MB、至少4MB、至少5MB、至少6MB、至少7MB、至少8MB、至少9MB、至少10MB、至少20MB、至少30MB、至少40MB或至少50MB。在一些实施方案中，模板序列的长度至少为1MB。在一些实施方案中，模板序列的长度至少为2MB。在一些实施方案中，模板序列的长度至少为3MB。在一些实施方案中，模板序列的长度至少为4MB。在一些实施方案中，模板序列的长度至少为5MB。在一些实施方案中，模板序列的长度至少为10MB。在一些实施方案中，模板序列的长度至少为20MB。

在一些实施方案中，模板序列的长度介于50KB与250MB之间、介于50KB与100MB之间、介于50KB与50MB之间、介于50KB与20MB之间、介于50KB与10MB之间、介于50KB与5MB之间、介于50KB与3MB之间、介于50KB与2MB之间、介于50KB与1MB之间、介于100KB与200MB之间、介于100KB与100MB之间、介于100KB与50MB之间、介于100KB与20MB之间、介于100KB与10MB之间、介于100KB与5MB之间、介于100KB与3MB之间、介于100KB与2MB之间、介于100KB与1MB之间、介于100KB与500KB之间、介于200KB与100MB之间、介于200KB与50MB之间、介于200KB与20MB之间、介于200KB与10MB之间、介于200KB与5MB之间、介于200KB与3MB之间、介于200KB与2MB之间、介于200KB与1MB之间、介于200KB与500KB之间、介于500KB与100MB之间、介于500KB与50MB之间、介于500KB与20MB之间、介于500KB与10MB之间、介于500KB与5MB之间、介于500KB与3MB之间、介于500KB与2MB之间、介于500KB与1MB之间、介于1MB与100MB之间、介于1MB与50MB之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于1MB与2MB之间、介于3MB与100MB之间、介于3MB与50MB之间、介于3MB与20MB之间、介于3MB与10MB之间、介于3MB与5MB之间、介于5MB与100MB之间、介于5MB与50MB之间、介于5MB与20MB之间、介于5MB与10MB之间、介于10MB与100MB之间、介于10MB与50MB之间或介于10MB与20Mb之间。在一些实施方案中，模板序列的长度介于50KB与250MB之间。在一些实施方案中，模板序列的长度介于500KB与200MB之间。在一些实施方案中，模板序列的长度介于200KB与50MB之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于3MB与20MB之间、介于3MB与10MB之间、介于3MB与7MB之间或介于3MB与5MB之间。在一些实施方案中，模板序列的长度介于1MB与10MB之间。在一些实施方案中，模板序列的长度介于1MB与5MB之间。在一些实施方案中，模板序列的长度介于3MB与5MB之间。

在一些实施方案中，模板序列包含一个或多个基因的序列。在一些实施方案中，模板序列包含多个基因的序列。在一些实施方案中，模板序列包含至少2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、60个、70个、80个、90个、100个、150个、200个、250个、300个、350个、400个、450个、500个、600个、700个、800个、900个、1000个、1500个或2000个基因的序列。

在一些实施方案中，模板序列包含人序列，诸如一个或多个人基因的序列。在一些实施方案中，模板序列包含人基因的子序列。在一些实施方案中，模板序列包含人基因的子序列和人工序列，诸如标记或融合蛋白。在一些实施方案中，模板序列包含一个或多个人基因的序列和人工序列。

在一些实施方案中，模板序列包含人基因的序列。设想所有人基因都在本公开的范围内。不希望受理论所束缚，将参与疾病发病机理的或作为潜在治疗靶标的人基因转移到模式生物诸如小鼠中，可以促进对疾病的研究和合适疗法的开发。

包含在模板序列中的示例性基因包括但不限于免疫球蛋白基因、T细胞受体(TCR)基因、免疫检验点基因、细胞因子、趋化因子、受体、转录因子、细胞骨架基因、细胞周期检查基因、癌基因以及与发育、免疫学或神经生物学相关的基因。示例性免疫检查点基因包括BTLA、CTLA-4、TIM-3、PD-1和PD-L1。示例性细胞因子包括白细胞介素(CTNF、IL-16、IL-1B、IL-6、IL-12、IL-17F、IL-2、IL-3、IL-9、IL-12B、IL18BP、IL-21、IL33、瘦素、IL-13、IL1A、IL-23、IL-4)、干扰素(IFNA10、IFN-α7、IFNa4Fc、IFNβ、IFNα4、IFNγ、IFNα5、IFNω)和肿瘤坏死因子(TNFs,例如BAFF,TNFβ、CD30配体、TNFα、CD40配体、TNFSF10、CD27配体)。示例性趋化因子包括CXC、CC CX3C和C家族趋化因子。示例性受体包括G蛋白偶联受体、配体门控离子通道(离子型受体)、激酶连接的受体和相关受体以及核受体。示例性转录因子包括但不限于螺旋-转角-螺旋转录因子(例如Oct-1)、螺旋-环-螺旋转录因子(例如E2A)、锌指转录因子(例如糖皮质激素受体、GATA蛋白)、碱性蛋白-亮氨酸拉链转录因子(例如环AMP应答元件结合因子(CREB)和激活蛋白-1(AP-1))和β-折叠基序转录因子(例如核因子-κB(NF-κB))。示例性细胞周期调节基因包括但不限于细胞周期蛋白、细胞周期蛋白依赖性激酶和细胞周期检查点基因。

在一些实施方案中，模板序列包含癌基因或肿瘤抑制基因。适合包含在模板序列中的示例性癌基因和肿瘤抑制基因列于下表1中。

表1.癌基因和肿瘤抑制因子

/>

在一些实施方案中，模板序列包含与遗传疾病或病症相关的人基因的序列。在一些实施方案中，模板序列包含与遗传疾病或病症相关的人染色体区域的序列。与疾病或病症相关的基因和染色体区域的非限制性实例示于下表2中。

表2.遗传疾病或病症，以及相关的基因或基因组区域

/>

在一些实施方案中，模板序列包含免疫球蛋白序列。表面免疫球蛋白和分泌型免疫球蛋白都被认为在本发明的范围内。免疫球蛋白识别外来抗原并启动免疫反应。在人中，每个免疫球蛋白分子由两条相同的重链和两条相同的轻链组成，所述重链由14号染色体上的IGH基因座编码，所述轻链由2号染色体上的免疫球蛋白κ基因座(IGK)和22号染色体上的免疫球蛋白λ基因座(IGL)编码。IGH基因座包括V(可变)区、D(多样性)区、J(连接)区和C(恒定)区。V、D和J区各自含有多个不同的基因区段，在本文中统称为IGH可变区。在B细胞发育期间，DNA水平上的重组事件将单个D区段与J区段连接；然后将这个部分重排的D-J区的融合D-J外显子与V区段连接。然后转录包含融合的V-D-J外显子的重排的V-D-J区，并通过RNA剪接将其与恒定区融合。该转录物编码μ重链。在发育晚期，B细胞产生V-D-J-Cμ-Cδ前信使RNA，其被选择性剪接成编码μ或δ重链。淋巴结中的成熟B细胞经历转换重组(switchrecombination)，使得融合的V-D-J基因区段接近IGHG、IGHA或IGHE基因区段之一，并且每个细胞表达γ、α或ε重链。许多不同的V区段与几个J区段的潜在重组提供了广泛的抗原识别。额外的多样性是通过连接多样性获得的，连接多样性是由末端脱氧核糖核苷转移酶随机添加核苷酸和体细胞超突变产生的。每个轻链由两个串联的免疫球蛋白结构域、恒定结构域(C_L)和可变结构域(V_L)组成。对于轻链，V结构域由两个独立的DNA区段编码。第一区段被称为V基因区段，因为其编码大部分V结构域。第二区段编码V结构域的剩余部分，并被称为连接或J基因区段。像重链一样，轻链经过重排将V区段连接到J基因区段，并使V基因靠近恒定区序列，然后仅由内含子分开。IGHV、IGHD、IGHJ、IGHG或IGHA中任一种的IGH序列，或其任意组合，被认为是在本公开的模板序列的范围内。IGK或IGL或其组合的轻链序列被认为在本公开的模板序列的范围内。

在一些实施方案中，工程化的染色体包括其中一个或多个非编码序列可能已被引入所述染色体的小鼠染色体。例如，一个或多个能够调节抗体产生、成熟和/或多样化的非编码序列可能已被引入所述染色体中。例如，一个或多个能够调节抗体多样化的非编码序列可能已被引入所述染色体中。例如，一个或多个能够调节抗体类别转换的非编码序列可能已被引入所述染色体。例如，转换区内的一个或多个非编码序列可能已被引入所述染色体中。例如，当一个或多个非编码序列已被引入所述染色体时，类别转换重组、体细胞超突变和/或激活诱导的胞苷脱氨酶可被调节。例如，当一个或多个非编码序列被引入所述染色体时，Ig序列库的多样性可被调节。例如，重链、κ轻链和λ轻链基因座上含有重排基因的约2kb的可变区，和/或重链基因座上含有大量富含G:C的DNA区段的约4kb的转换区可能已被引入所述染色体中。

在一些实施方案中，模板序列包含人IGH序列。人IGH跨越人基因组的GRCh38.p13装配体的14号染色体的核苷酸位置105,586,437至106,879,844。本领域技术人员将会理解，具有5’和3’边界的人IGH序列是合适的模板序列，所述边界偏离上文所述的那些例如至少100bp、500bp、1,000bp、2,000bp、5,000bp、10,000bp或更多。

在一些实施方案中，模板序列包含人IGH可变区序列。在一些实施方案中，人IGH可变区序列包含编码人V_H、D_H和J_H1-6基因区段的序列和间插非编码序列。在一些实施方案中，人IGH可变区序列包含人基因组的GRCh38.p13装配体的14号染色体的核苷酸位置105,862,994至106,811,028。在一些实施方案中，人IGH可变区序列包含人基因组的GRCh38.p13装配体的14号染色体的核苷酸位置105,862,994至106,811,028，从5’末端、3’末端或两端减去至少约50bp、100bp、500bp、1,000bp、2,000bp、5,000bp、7,000bp、10,000bp、15,000bp、20,000bp或50,000bp。在一些实施方案中，人IGH可变区序列包含人基因组的GRCh38.p13组装体的14号染色体的核苷酸位置105,862,994至106,811,028，以及在5’末端、3’末端或两端的至少约50bp、100bp、500bp、1,000bp、2,000bp、5,000bp、7,000bp、10,000bp、15,000bp、20,000bp或50,000bp的额外侧翼序列。在一些实施方案中，人IGH可变区序列包含人基因组的GRCh38.p13装配体的14号染色体的核苷酸位置105,862,994至106,811,028，以及对其的一个或多个修饰。示例性修饰包括但不限于缺失(诸如一个或多个V、D或J区段的缺失)、插入(诸如标记的插入)、重排或其组合。

在一些实施方案中，模板序列包含T细胞受体亚单位(TCR)的序列。T细胞受体(TCR)是在T细胞或T淋巴细胞表面发现的蛋白质复合物，[1]其负责将抗原片段识别为与主要组织相容性复合物(MHC)分子结合的肽。TCR包含二硫键连接的膜结合异二聚体蛋白，在大多数情况下其由高度可变的α和β链组成，所述α和β链作为与不变CD3链分子(CD3δ、CD3ε、CD3γ和CD3ζ)的复合物的一部分表达。表达这两条链的T细胞被称为α:β(或αβ)T细胞。少数T细胞表达由可变γ和σ链形成的替代受体，称为γσT细胞。TCR发育通过淋巴细胞特异性基因重组过程发生，所述过程从大量潜在区段组装成最终序列，这通过胸腺中的T细胞中的TCR基因区段的重组发生。TCRα基因座包含可变(V)和连接(J)基因区段(Vβ和Jβ)，而TCRβ基因座除了Vα和Jα区段之外还包含D基因区段。因此，α链由VJ重组产生，β链参与VDJ重组。这与γδTCR的开发类似，其中TCRγ链参与VJ重组，TCRδ基因由VDJ重组产生。TCRα链基因座由46个可变区段、8个连接区段和恒定区组成。TCRβ链基因座由48个可变区段、继之以两个多样性区段、12个连接区段和两个恒定区组成。包含本文所述的任何TCR亚单位的序列、其子序列或其组合的模板序列被认为在本公开的范围内。在一些实施方案中，模板序列包含TCRα链可变区序列(由T细胞受体α基因座或TRA编码)、TCRβ链可变区序列(由T细胞受体β基因座或TRB编码)、TCRγ可变区序列(由T细胞受体γ基因座或TRG编码)或TCRδ可变区序列(由T细胞受体δ基因座或TRD编码)。

在一些实施方案中，模板序列包含编码抗体或抗原结合片段的序列。

如本文中所用，术语“抗体”是指与特定抗原特异性结合或与特定抗原发生免疫反应的免疫球蛋白分子，包括多克隆抗体、单克隆抗体、基因工程抗体和以其它方式修饰的抗体形式，包括但不限于嵌合抗体、人源化抗体、杂缀合抗体(heteroconjugate antibody)(例如，双-三-和四-特异性抗体、双链抗体、三链抗体和四链抗体)，以及抗体的抗原结合片段，包括例如Fab′、F(ab′)₂、Fab、Fv、rlgG和scFv片段。除非另有说明，否则术语“单克隆抗体”(mAb)意味着包括完整分子，以及能够与靶蛋白特异性结合的抗体片段(包括，例如，Fab和F(ab′)₂片段)。如本文中所用，Fab和F(ab’)₂片段是指缺少完整抗体的Fc片段的抗体片段。本文描述了这些抗体片段的实例。

如本文中所用，术语“抗原结合片段”是指保留了与靶抗原特异性结合的能力的抗体的一个或多个片段。抗体的抗原结合功能可通过全长抗体的片段来实现。抗体片段可以是例如Fab、F(ab′)₂、scFv、双链抗体、三链抗体、亲和体(affibody)、纳米抗体、适体或结构域抗体。抗体的术语“抗原结合片段”所包含的结合片段的实例包括但不限于：(i)Fab片段，由VL、VH、CL和CH1结构域组成的单价片段；(ii)F(ab′)2片段，含有在铰链区通过二硫键连接两个Fab片段的二价片段；(iii)由VH和CH1结构域组成的Fd片段；(iv)由抗体单臂的VL和VH结构域组成的Fv片段，(v)包括VH和VL结构域的dAb；(vi)由VH结构域组成的dAb片段(参见，例如，Ward等人，Nature 341:544-546，1989)；(vii)由VH或VL域组成的dAb；(viii)分离的互补决定区(CDR)；和(ix)两个或更多个(例如，两个、三个、四个、五个或六个)分离的CDR的组合，所述CDR可以任选地通过合成接头连接。此外，尽管Fv片段的两个结构域VL和VH是由独立的基因编码的，但是它们可以使用重组方法通过接头连接，所述接头使它们能够成为单个蛋白链，其中VL和VH区配对形成单价分子(称为单链Fv(scFv))；参见，例如，Bird等人，Science 242:423-426,1988and Huston等人，Proc.Natl.Acad.Sci.USA 85:5879-5883,1988)。可使用本领域技术人员已知的常规技术获得这些抗体片段，并且可以以与完整抗体相同的方式筛选所述片段的实用性。抗原结合片段可通过重组DNA技术、对完整免疫球蛋白的酶促或化学切割，或者在某些情况下，通过本领域已知的化学肽合成方法来产生。

如本文中所用，术语“互补决定区”(CDR)是指在抗体的轻链和重链可变结构域中都存在的高变区。可变结构域的更高度保守的部分被称为框架区(FR)。描述抗体高变区的氨基酸位置可以变化，这取决于上下文和本领域已知的各种定义。可变结构域内的一些位置可被视为杂交高变位置，因为这些位置在一组标准下可被视为在高变区内，而在另一组标准下被视为在高变区外。这些位置中的一个或多个也可存在于延伸的高变区中。本文描述的抗体可在这些杂合高变位置上包含修饰。天然重链和轻链的可变结构域各自包含通过三个CDR连接的四个主要采用β-折叠构型的框架区，所述CDR形成连接β-折叠结构的环，在某些情况下形成β-折叠结构的一部分。每条链中的CDR通过框架区以FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4的顺序紧密结合在一起，并且与来自另一条抗体链的CDR一起促成抗体的靶结合部位的形成(参见Kabat等人，Sequences of Proteins of Immunological Interest,National Institute of Health,Bethesda,Md.,1987)。如本文中所用，除非另有说明，否则根据Kabat等人的免疫球蛋白氨基酸残基编号系统进行免疫球蛋白氨基酸残基的编号。

在一些实施方案中，抗体或抗原结合片段包括人抗体或抗原结合片段。在一些实施方案中，对抗体或抗原结合片段进行人源化。

本领域普通技术人员将理解，模板序列还可包括在特定组织、细胞类型或生物体中表达基因(诸如抗体)所必需的序列。此类序列包括但不限于启动子、增强子、非翻译序列诸如信使RNA(mRNA)的5’和3’非翻译区、多腺苷酸化(polyA)序列、内含子、内部核糖体进入位点(IRES)等。合适序列的选择对本领域普通技术人员来说是显而易见的。

在一些实施方案中，模板序列包含启动子。在一些实施方案中，启动子包含内源启动子，即启动子是通常与包含在模板序列中的基因相关的启动子。在一些实施方案中，启动子不是内源启动子，例如，从模板序列中与启动子可操作地连接的基因之外的另一个基因或生物中分离或衍生的启动子。例如，模板序列包含编码抗体或抗原结合片段的序列，该序列与不是免疫球蛋白启动子的启动子可操作地连接。在一些实施方案中，启动子是组成型启动子、诱导型启动子或组织特异性启动子。在一些实施方案中，启动子分离自或衍生自哺乳动物基因，例如在淋巴细胞中表达的基因。

可用于表达模板序列的基因的示例性启动子包括但不限于SV40早期启动子区、劳斯肉瘤病毒的3’长末端重复序列中包含的启动子、金属硫蛋白基因的调控序列、四环素(Tet)启动子、来自酵母或其它真菌的启动子元件诸如Gal启动子、ADC(乙醇脱氢酶)启动子、PGK(磷酸甘油激酶)启动子、碱性磷酸酶启动子和下列动物转录控制区，所述转录控制区表现出组织特异性并已被用于转基因动物：在胰腺腺泡细胞中有活性的弹性蛋白酶I基因控制区；在胰腺β细胞中有活性的胰岛素基因控制区、在淋巴样细胞中有活性的免疫球蛋白基因控制区、在睾丸细胞、乳腺细胞、淋巴样细胞和肥大细胞中有活性的小鼠乳腺肿瘤病毒控制区、在肝脏中有活性的白蛋白基因控制区、在肝脏中有活性的甲胎蛋白基因控制区、在肝脏中有活性的α1-抗胰蛋白酶基因控制区、在髓样细胞中有活性的β-珠蛋白基因控制区、在大脑少突胶质细胞中有活性的髓鞘碱性蛋白基因控制区、在骨骼肌中有活性的肌球蛋白轻链-2基因控制区、在神经元细胞中有活性的神经元特异性烯醇化酶(NSE)、在神经元细胞中有活性的脑源性神经营养因子(BDNF)基因控制区、在星形胶质细胞中有活性的神经胶质原纤维酸性蛋白质(GFAP)启动子，以及在下丘脑中有活性的促性腺激素激素基释放因控制区。

靶染色体

本公开提供了用于本文所述方法的包含靶序列的靶染色体。

如本文中所用，“靶染色体”是指含有“靶序列”的染色体，或者，在其中通过插入模板序列没有明显删除靶序列的情况下，是指“靶位置”。靶序列是指通过使用本文所述方法插入模板序列而删除的靶染色体序列。靶位置是指靶染色体中模板序列被插入(用于插入)或与其连接(用于染色体易位或重排)的位置。

靶染色体可从任何合适的来源分离或衍生。在一些实施方案中，靶染色体来自真核生物。在一些实施方案中，真核生物是脊椎动物，诸如鸟类、爬行动物或哺乳动物。在一些实施方案中，靶染色体来自小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡。在一些实施方案中，靶染色体来自小鼠。在一些实施方案中，靶染色体来自大鼠。在一些实施方案中，靶染色体来自猴子。

在一些实施方案中，模板染色体和靶染色体来自不同物种。例如，模板染色体来自人，靶染色体来自小鼠。在一些实施方案中，模板染色体和靶染色体来自同一物种。

在一些实施方案中，靶染色体是人工染色体。

在一些实施方案中，靶染色体是天然存在的染色体。

在一些实施方案中，靶染色体包含对天然存在的染色体的一个或多个修饰。修饰尤其包括序列的插入、缺失和重排。插入靶染色体中的序列的实例尤其包括标记、启动子、cDNA序列、非编码序列等。合适的标记包括选择标记，诸如表3中公开的那些，以及可检测的标记，诸如GFP、mCherry等。

在一些实施方案中，靶染色体包含位于模板序列5’的核酸内切酶位点。在一些实施方案中，靶染色体包含位于靶序列3’的核酸内切酶位点。在一些实施方案中，核酸内切酶位点紧邻靶序列。在一些实施方案中，核酸内切酶位点位于靶序列附近。

在一些实施方案中，靶染色体在靶序列的任一侧包含核酸内切酶位点。例如，靶染色体包含位于靶序列5’的第一核酸内切酶位点和位于靶序列3’的第二核酸内切酶位点。在一些实施方案中，第一和第二核酸内切酶位点都被同一核酸内切酶识别和切割。例如，第一和第二核酸内切酶位点均包含相同的DNA序列，其被同一核酸内切酶识别。在一些实施方案中，第一核酸内切酶位点被第一核酸内切酶切割，第二核酸内切酶位点被第二核酸内切酶切割。例如，第一和第二内切核酸酶位点包含由两种不同的锌指核酸酶(ZFN)识别的不同DNA序列，或由包含含有不同靶向序列的引导核酸(gNA)的CRISPR/Cas核糖核蛋白复合物识别的两种不同的CRISPR/Cas靶序列。在一些实施方案中，第一和/或第二核酸内切酶位点紧邻靶序列。在一些实施方案中，第一和/或第二核酸内切酶位点位于靶序列附近。

模板序列的5个碱基对(bp)内、10bp内、15bp内、20bp内、30bp内、40bp内、50bp内、70bp内、80bp内、90bp内、100bp内、120bp内、140bp内、160bp内、180bp内、200bp内、250bp内、300bp内、400bp内或500bp内的核酸内切酶位点被认为靠近靶序列。

在一些实施方案中，靶染色体包含用于促进同源定向修复的核酸分子同源臂的一个或多个序列。在一些实施方案中，靶染色体包含位于靶序列5’的同源臂序列。在一些实施方案中，靶染色体从5’至3’包含同源臂序列、核酸内切酶位点和靶序列。在一些实施方案中，靶染色体包含位于靶序列3’的同源臂序列。在一些实施方案中，靶染色体从5’至3’包含靶序列、核酸内切酶位点和同源臂序列。在一些实施方案中，核酸内切酶位点位于同源臂序列与靶序列之间。

在一些实施方案中，靶染色体包含靶序列的5’第一同源臂序列和靶序列的3’第二同源臂序列。即，靶染色体在靶序列的上游和下游都包含同源臂。在一些实施方案中，第一同源臂是第一核酸分子的5’同源臂，所述第一核酸分子从5’至3’包含第一同源臂、至少第一标记的序列和包含模板序列5’末端上游的核苷酸序列的3’同源臂。在一些实施方案中，第二同源臂是第二核酸分子的3’同源臂，所述第二核酸分子从5’至3’包含含有模板序列3’末端下游的核苷酸序列的5’同源臂、至少第二标记的序列和第二同源臂。在一些实施方案中，靶染色体从5’至3’包含第一同源臂序列、第一核酸内切酶位点、靶序列、第二核酸内切酶位点和第二同源臂序列。

在一些实施方案中，靶染色体的第一和/或第二同源臂序列紧邻第一和/或第二核酸内切酶位点。在一些实施方案中，第一同源臂序列紧邻第一核酸内切酶位点，第二同源臂序列紧邻第二核酸内切酶位点，其中第一核酸内切酶位点位于第一同源臂与靶序列之间，第二核酸内切酶位点位于靶序列与第二同源臂之间。

在一些实施方案中，第一和/或第二同源臂序列位于靶序列附近。位于靶序列的5bp内、10bp内、15bp内、20bp内、30bp内、40bp内、50bp内、70bp内、80bp内、90bp内、100bp内、120bp内、140bp内、160bp内、180bp内、200bp内或250bp内的核酸内切酶位点可被认为靠近靶序列。

在一些实施方案中，靶染色体从5’至3’包含第一同源臂、第一核酸内切酶位点、靶序列、第二核酸内切酶位点和第二同源臂。

在一些实施方案中，当插入模板序列时，几乎没有或没有靶染色体序列被删除，并且靶序列在本文中可互换地称为“靶位点”或“靶位置”。本领域普通技术人员将理解，在这些情况下，同源臂和核酸内切酶位点的排列类似于上文所述的那些排列，除了同源臂在靶位置处位于核酸内切酶位点的侧翼，而不是靶序列本身的侧翼为核酸内切酶位点。在一些实施方案中，靶染色体从5’至3’包含第一同源臂的序列、核酸内切酶位点和第二同源臂的序列。在一些实施方案中，第一同源臂是第一核酸分子的5’同源臂，所述第一核酸分子从5’至3’包含第一同源臂、至少第一标记的序列和包含模板序列5’末端上游的核苷酸序列的3’同源臂。在一些实施方案中，第二同源臂是第二核酸分子的3’同源臂，所述第二核酸分子从5’至3’包含含有模板序列3’末端下游的核苷酸序列的5’同源臂、至少第二标记的序列和第二同源臂。

在一些实施方案中，模板序列与靶序列连接产生染色体重排或易位。在一些实施方案中，靶染色体从5’至到3’包含靶染色体同源臂序列和核酸内切酶位点。在一些实施方案中，靶染色体同源臂包含核酸分子的5’同源臂，所述核酸分子从5’至3’包含靶序列同源臂、至少一个标记和包含模板序列5’末端上游的核苷酸序列的3’同源臂。在一些实施方案中，靶染色体从5’至3’包含核酸内切酶位点和靶染色体同源臂序列。在一些实施方案中，靶染色体同源臂包含核酸分子的3’同源臂，所述核酸分子从5’至3’包含含有模板序列3’末端下游的核苷酸序列的5’同源臂、至少第一标记和靶序列同源臂。

在一些实施方案中，靶染色体的第一和/或第二同源臂序列的长度介于约20bp与2,000bp之间、介于约50bp与1,500bp之间、介于约100bp与1,400bp之间、介于约150bp与1,300bp之间、介于约200bp与1,200bp之间、介于约300bp与1,100bp之间、介于约400bp与1,000bp之间或介于约500bp与900bp或介于约600bp与800bp之间。在一些实施方案中，靶染色体的同源序列的长度介于约400bp与1,500bp之间。在一些实施方案中，靶染色体的同源序列的长度介于约500bp与1,300bp之间。在一些实施方案中，靶染色体的同源序列的长度在约600bp与1,000bp之间。

靶序列或靶位置

靶染色体包含其中插入了模板序列的靶序列或位置，或通过本文所述方法将模板序列与其连接的靶序列或位置。靶序列可位于靶染色体上任何合适的位置。

靶序列可从任何合适的来源分离或衍生。在一些实施方案中，靶序列和模板序列来自不同的物种。例如，模板序列来自人，而靶序列来自小鼠。在一些实施方案中，靶序列和模板序列来自同一物种。

在一些实施方案中，靶序列包括天然存在的序列。在一些实施方案中，靶序列包含一个或多个对天然存在的序列的修饰。修饰尤其包括序列诸如人工序列或标记的插入、缺失和重排。在一些实施方案中，靶序列包括人工序列。在一些实施方案中，靶序列包括天然存在的序列和人工序列。示例性人工序列尤其包括标记、cDNA序列、启动子和重组序列。示例性标记包括但不限于下表3中公开的选择标记，以及可检测的标记，诸如绿色荧光蛋白(GFP)、mCherry等。

在一些实施方案中，靶序列来自真核生物。在一些实施方案中，真核生物是脊椎动物，诸如鸟类、爬行动物或哺乳动物。在一些实施方案中，模板序列包含小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡序列。在一些实施方案中，靶序列包含小鼠序列。在一些实施方案中，靶序列包含大鼠序列。在一些实施方案中，靶序列包含猴子序列。

在一些实施方案中，靶序列的长度为至少25KB、至少50KB、至少100KB、至少200KB、至少400KB、至少500KB、至少600KB、至少700KB、至少800KB、至少900KB、至少1MB、至少2MB、至少3MB、至少4MB、至少5MB、至少6MB、至少7MB、至少8MB、至少9MB、至少10MB、至少15MB、至少20MB、至少25MB、至少30MB、至少40MB、至少50MB、至少60MB、至少70MB、至少80MB、至少90MB、至少100MB、至少120MB、至少140MB、至少160MB、至少180MB、至少200MB、至少220MB或至少250MB。在一些实施方案中，靶序列的长度为至少50KB、至少100KB、至少200KB、至少500KB、至少700KB、至少1MB、至少2MB、至少3MB、至少4MB、至少5MB、至少6MB、至少7MB、至少8MB、至少9MB、至少10MB、至少20MB、至少30MB、至少40MB或至少50MB。在一些实施方案中，靶序列的长度为至少1MB。在一些实施方案中，靶序列的长度为至少2MB。在一些实施方案中，靶序列的长度为至少3MB。在一些实施方案中，靶序列的长度为至少4MB。在一些实施方案中，目标序列的长度至少为5MB。在一些实施方案中，靶序列的长度为至少10MB。在一些实施方案中，靶序列的长度为至少20MB。

在一些实施方案中，靶序列的长度介于50KB与250MB之间、介于50KB与100MB之间、介于50KB与50MB之间、介于50KB与20MB之间、介于50KB与10MB之间、介于50KB与5MB之间、介于50KB与3MB之间、介于50KB与2MB之间、介于50KB与1MB之间、介于100KB与200MB之间、介于100KB与100MB之间、介于100KB与50MB之间、介于100KB与20MB之间、介于100KB与10MB之间、介于100KB与5MB之间、介于100KB与3MB之间、介于100KB与2MB之间、介于100KB与1MB之间、介于100KB与500KB之间、介于200KB与100MB之间、介于200KB与50MB之间、介于200KB与20MB之间、介于200KB与10MB之间、介于200KB与5MB之间、介于200KB与3MB之间、介于200KB与2MB之间、介于200KB与1MB之间、介于200KB与500KB之间、介于500KB与100MB之间、介于500KB与50MB之间、介于500KB与20MB之间、介于500KB与10MB之间、介于500KB与5MB之间、介于500KB与3MB之间、介于500KB与2MB之间、介于500KB与1MB之间、介于1MB与100MB之间、介于1MB与50MB之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于1MB与2MB之间、介于3MB与100MB之间、介于3MB与50MB之间、介于3MB与20MB之间、介于3MB与10MB之间、介于3MB与5MB之间、介于5MB与100MB之间、介于5MB与50MB之间、介于5MB与20MB之间、介于5MB与10MB之间、介于10MB与100MB之间、介于10MB与50MB之间或介于10MB与20MB之间。在一些实施方案中，靶序列的长度介于200KB与50MB之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于3MB与20MB之间、介于3MB与10Mb之间、介于3MB与7MB之间或介于3MB与5MB之间。在一些实施方案中，靶序列的长度介于1MB与10MB之间。在一些实施方案中，靶序列的长度介于1MB与5MB之间。在一些实施方案中，靶序列的长度介于3MB与5MB之间。

在一些实施方案中，靶序列包含一个或多个基因的序列。在一些实施方案中，靶序列包含多个基因的序列。在一些实施方案中，靶序列包含至少2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、60个、70个、80个、90个、100个、150个、200个、250个、300个、350个、400个、450个、500个、600个、700个、800个、900个、1000个、1500个或2000个基因的序列。

在一些实施方案中，靶序列包含与模板序列同源的序列。例如，模板染色体是包含人模板序列的人染色体，所述人模板序列包含上文表1和表2中描述的一个或多个基因，而靶染色体是包含小鼠靶序列的小鼠染色体，并且小鼠靶序列包含与人模板序列同源的小鼠序列。作为另外的实例，模板染色体是包含人IGH序列的人染色体，而靶染色体是小鼠染色体，并且靶序列包含同源小鼠Igh序列。作为又一另外的实例，模板染色体是包含人TCR序列的人染色体，而靶染色体是小鼠染色体，并且靶序列包含同源小鼠TCR序列。

在一些实施方案中，靶染色体来自小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡，并且靶序列包含模板序列的小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡同源物。

在一些实施方案中，靶序列包含小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡基因的序列。所有小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡的基因都被认为在本公开的范围内。不希望受理论束缚，将参与疾病发病机理的或作为潜在治疗靶标的人基因转移到模式生物诸例如小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、猴或鸡，可以促进对疾病的研究和合适疗法的开发。在一些实施方案中，靶序列包含与人模板序列同源的小鼠序列。在一些实施方案中，靶序列包含与人模板序列同源的大鼠序列。在一些实施方案中，靶序列包含与人模板序列同源的猴序列。

在一些实施方案中，靶序列包含免疫球蛋白序列，诸如小鼠免疫球蛋白序列。在一些实施方案中，靶序列包含小鼠Igh序列。小鼠Igh跨越小鼠基因组的GRCm39装配体的12号染色体的核苷酸位置1112,947,269至116,248,693。本领域技术人员将会理解，具有5’和3’边界的小鼠Igh序列是合适的模板序列，所述边界偏离上文所述的那些，例如至少100bp、500bp、1,000bp、2,000bp、5,000bp、10,000bp或更多。

在一些实施方案中，靶序列包含小鼠Igh可变区序列。在一些实施方案中，小鼠Igh可变区序列包含编码V_H、D_H和J_H1-6基因区段的小鼠同源物的序列和间插非编码序列。在一些实施方案中，小鼠Igh可变区序列包含小鼠基因组的GRCm39装配体的12号染色体的核苷酸位置113,391,842至115,973,952。在一些实施方案中，小鼠Igh可变区序列包含小鼠基因组的GRCm39装配体的12号染色体的核苷酸位置113,391,842至115,973,952，从5’末端、3’末端或两端减去至少约50bp、100bp、500bp、1,000bp、2,000bp、5,000bp、7,000bp、10,000bp、15,000bp、20,000bp或50,000bp。在一些实施方案中，人IGH可变区序列包含小鼠基因组的GRCm39装配体的12号染色体的核苷酸位置113,391,842至115,973,952，以及在5’末端、3’末端或两端的至少约50bp、100bp、500bp、1,000bp、2,000bp、5,000bp、7,000bp、10,000bp、15,000bp、20,000bp或50,000bp的额外侧翼序列。在一些实施方案中，小鼠Igh可变区序列包含小鼠基因组的GRCm39装配体的12号染色体的核苷酸位置113,391,842至115,973,952，以及对其的一个或多个修饰。示例性修饰包括但不限于缺失(诸如一个或多个V、D或J区段的缺失)、插入(诸如标记的插入)、重排或其组合。在一些实施方案中，靶序列包含小鼠Igl可变区序列。在一些实施方案中，靶序列包含小鼠Igk可变区序列。在一些实施方案中，模板序列包含人IGL可变区序列。在一些实施方案中，模板序列包含人IGK可变区序列。

在一些实施方案(例如其中通过本文所述方法几乎不删除或不删除靶染色体序列的那些实施方案)中，靶染色体包含靶位置。靶位置是模板序列插入的位置，或者是模板序列与其连接的位置。靶染色体上的任何位置都可以是合适的位置。在一些实施方案中，靶位置包含用于在靶位置产生双链断裂的核酸内切酶位点。

工程化的染色体

本公开提供了通过本文所述方法产生的工程化的染色体。

在一些实施方案中，工程化的染色体包括含有一个或多个人源化序列的小鼠染色体。在一些实施方案中，人源化序列包含一个或多个与人的疾病或病症相关的基因，诸如与遗传疾病或病症相关的基因，或癌基因。在一些实施方案中，工程化的染色体包括含有一个或多个人源化序列的大鼠染色体。在一些实施方案中，工程化的染色体包括含有一个或多个人源化序列的猴染色体。

在一些实施方案中，工程化的染色体包括其中一个或多个免疫球蛋白序列已被人源化的小鼠染色体。在一些实施方案中，免疫球蛋白序列包含IGH序列，诸如IGH可变区。在一些实施方案中，工程化的染色体包含小鼠12号染色体，其中小鼠Igh可变区已被来自14号染色体的人IGH可变区替换。在一些实施方案中，小鼠Igh可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。在一些实施方案中，人IGH可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。在一些实施方案中，工程化的染色体包含小鼠12号染色体，其中大致包含小鼠基因组的GRCm39装配体的12号染色体的113,391,842至115,973,952的核苷酸序列的小鼠Igh可变区已被大致包含人基因组的GRCh38.p13装配体的14号染色体的105,862,994至106,811,028的核苷酸序列的人IGH可变区替换。在一些实施方案中，工程化的染色体是小鼠6号染色体，其包含替代小鼠Igk可变区的人IGK可变区的序列。在一些实施方案中，小鼠Igk可变区序列包含编码小鼠V_k和J_k1-5基因区段的序列和间插非编码序列。在一些实施方案中，模板序列包含人IGK可变区序列。在一些实施方案中，人IGK可变区序列包含编码人V_k和J_k1-5基因区段的序列和间插非编码序列。

核酸分子、质粒和载体

本公开提供了用于本文所述方法的核酸分子。核酸分子，有时被称为多核苷酸，是指组成单个分子的连接的核苷酸的链。本公开的核酸分子可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)。本发明的示例性核酸分子包含特异于或邻近靶序列和模板序列的同源臂，以便有利于模板序列插入靶序列，或通过双链断裂修复连接模板与靶序列。

本公开提供了包含对靶染色体和模板染色体特异的同源臂的核酸分子，其促进了本文所述的HDR介导的染色体重排。在一些实施方案中，核酸分子从5’至3’包含5’同源臂、至少第一标记和3’同源臂，所述5’同源臂含有靶序列5’末端上游的核苷酸序列，所述3’同源臂含有模板序列5’末端上游的核苷酸序列。在一些实施方案中，核酸分子从5’至3’包含5’同源臂、至少第二标记和3’同源臂，所述5’同源臂含有模板序列3’末端下游的核苷酸序列，所述3’同源臂含有靶序列3’末端下游的核苷酸序列。

本公开提供了包含本文所述核酸分子的载体。根据本公开，载体是能够转运与其连接的其它核酸的核酸分子。例如，质粒是一种类型的载体。载体序列尤其包括从宿主细胞诸如细菌中产生载体所必需的序列，诸如复制起点和选择标记。

在一些实施方案中，载体是质粒。在一些实施方案中，质粒从5’至3’包含5’同源臂、至少第一标记和3’同源臂，所述5’同源臂含有靶序列5’末端上游的核苷酸序列，所述3’同源臂包含模板序列5’末端上游的核苷酸序列。在一些实施方案中，质粒从5’至3’包含5’同源臂、至少第二种标记和3’同源臂，所述5’同源臂包含模板序列3’末端下游的核苷酸序列，所述3’同源臂包含靶序列3’末端下游的核苷酸序列。

在一些实施方案中，载体包含位于模板序列5’末端或其附近的同源臂序列。在一些实施方案中，同源臂位于模板序列的上游，即模板序列的5’。在一些实施方案中，载体包含位于模板序列3’末端或其附近的同源臂序列。在一些实施方案中，同源臂位于模板序列的下游，即模板序列的3’。在一些实施方案中，载体中模板同源臂的序列与模板序列中同源臂的序列相同或基本相同。

在一些实施方案中，载体包含位于靶序列或位置5’(即靶序列或位置的上游)的同源臂序列。在一些实施方案中，载体包含位于靶序列或位置3’(即靶序列或位置的下游)的同源臂序列。

熟练的技术人员将理解，在载体中的同源臂序列与模板染色体或靶染色体中的等同序列之间可存在一定程度的错配，并且载体仍将促进来自载体的模板染色体或靶染色体中双链断裂的修复。例如，与模板染色体中的等同序列具有至少95％同一性、至少96％同一性、至少97％同一性、至少98％同一性或至少99％同一性的载体同源臂序列将适用于本公开的方法。

在一些实施方案中，本文所述的核酸分子、质粒或载体包含一个或多个核酸内切酶位点。

在一些实施方案中，本公开提供了(i)第一核酸分子，其从5’至3’包含5’同源臂、至少第一标记和3’同源臂，所述5’同源臂含有靶序列5’末端上游的核苷酸序列，所述3’同源臂含有模板序列5’末端上游的核苷酸序列；和(ii)第二核酸分子，其从5’至3’包含5’同源臂、至少第二标记和3’同源臂，所述5’同源臂含有模板序列3’末端下游的核苷酸序列，所述3’同源臂含有靶序列3’末端下游的核苷酸序列。在一些实施方案中，第一和第二核酸分子是质粒。在一些实施方案中，第一核酸分子从5’至3’包含含有靶序列5’末端上游的核苷酸序列的5’同源臂、第一核酸内切酶位点、至少第一标记、第二核酸内切酶位点和含有模板序列5’末端上游的核苷酸序列的3’同源臂，其中第一和第二核酸内切酶位点与同源臂重叠，使得核酸分子上的第一和第二核酸内切酶位点以及模板染色体和靶染色体上的相应核酸内切酶位点被相同的核酸内切酶切割。在一些实施方案中，第二核酸分子从5’至3’包含含有模板序列3’末端下游的核苷酸序列的5’同源臂、第三核酸内切酶位点、至少第二标记、第四核酸内切酶位点、含有靶序列3’末端下游的核苷酸序列的3’同源臂，其中第二和第三核酸内切酶位点与同源臂重叠，使得核酸分子上的第三和第四核酸内切酶位点以及模板染色体和靶染色体上的相应核酸内切酶位点被相同的核酸内切酶切割。在一些实施方案中，第一和第二标记不是相同的标记。在一些实施方案中，第一核酸分子上的第一标记包括选择标记和可检测标记的组合。在一些实施方案中，第一标记包括eGFP和嘌呤霉素抗性。在一些实施方案中，第二标记包括选择标记。在一些实施方案中，第二标记包括潮霉素抗性。

在一些实施方案中，核酸分子上的同源臂序列对应于位于模板序列、靶序列或靶位置附近的序列。模板序列、靶序列或靶位置的0bp、5个碱基对(bp)内、10bp内、15bp内、20bp内、30bp内、40bp内、50bp内、70bp内、80bp内、90bp内、100bp内、120bp内、140bp内、160bp内、180bp内、200bp内或250bp内的同源臂可被认为是靠近所述序列。

在一些实施方案中，对应于模板或靶染色体序列的核酸分子同源序列的长度介于约20bp与2,000bp之间、介于约50bp与1,500bp之间、介于约100bp与1,400bp之间、介于约150bp与1,300bp之间、介于约200bp与1,200bp之间、介于约300bp与1,100bp之间、介于约400bp与1,000bp之间，或介于约500bp与900bp之间，或介于在约600bp与800bp之间。在一些实施方案中，核酸分子同源序列的长度介于约400bp与1,500bp之间。在一些实施方案中，核酸分子同源序列的长度介于约500bp与1,300bp之间。在一些实施方案中，核酸分子同源序列的长度介于约600bp与1,000bp之间。

在一些实施方案中，核酸分子包含适于在哺乳动物细胞中表达的标记。在一些实施方案中，标记位于核酸分子的同源臂之间，由此标记被插入到靶序列中。在一些实施方案中，标记是选择标记。合适的选定标记包括二氢叶酸还原酶(DHFR)、谷氨酰胺合酶(GS)、嘌呤霉素乙酰转移酶、杀稻瘟素脱氨酶、组氨醇脱氢酶、潮霉素磷酸转移酶(hph)、博来霉素抗性基因、氨基糖苷酶磷酸转移酶(新霉素抗性基因)，并在下表3中进一步详细描述。

在一些实施方案中，标记包括可检测的标记(或报告分子)。可检测标记包括但不限于介导发光反应的酶(luxA、luxB、luxAB、luc、rue、nluc)、介导比色反应的酶(lacZ、HRP)和荧光蛋白，诸如绿色荧光蛋白(GFP)、eGFP、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)、蓝色荧光蛋白(BFP)、dsRed、mCherry、tdTomato、近红外荧光蛋白等。合适的可检测标记的选择是本领域普通技术人员已知的。

可使用本领域已知的任何合适的启动子(包括但不限于巨细胞病毒早期(CMV)启动子、PGK启动子和EF1a启动子)来表达标记。

表3.选择标记

选择标记	选择试剂
		二氢叶酸还原酶(DHFR)	甲硫氨酸砜亚胺(MSX)
谷氨酰胺合酶(GS)	甲氨蝶呤(MTX)
		嘌呤霉素乙酰转移酶	嘌呤霉素
杀稻瘟菌素脱氨酶	杀稻瘟菌素
		组氨醇脱氢酶	组氨醇
潮霉素磷酸转移酶(hph)	潮霉素
		博莱霉素抗性基因	争光霉素
氨基糖苷酶磷酸转移酶	新霉素(G418)

在一些实施方案(例如其中使用两种核酸分子(具有第一标记的第一核酸分子和具有第二标记的第二核酸分子)的方法的那些实施方案)中，第一种或第二种标记包含与能够在细胞中表达荧光蛋白的启动子可操作地连接的荧光蛋白。在一些实施方案中，荧光蛋白包括绿色荧光蛋白(GFP)。在一些实施方案中，第一标记还包括选择标记。在一些实施方案中，第二标记还包括选择标记。在一些实施方案中，选择标记选自由以下组成的组：二氢叶酸还原酶(DHFR)、谷氨酰胺合酶(GS)、嘌呤霉素乙酰转移酶、杀稻瘟菌素脱氨酶、组氨醇脱氢酶、潮霉素磷酸转移酶(hph)、博来霉素抗性基因和氨基糖苷磷酸转移酶。在一些实施方案中，第一和第二标记不是相同的选择标记。在一些实施方案中，第一标记包含与能够在细胞中表达GFP的启动子和嘌呤霉素乙酰转移酶可操作地连接的GFP，并且第二种标记包含潮霉素磷酸转移酶。

产生双链断裂的方法

本文提供了在模板染色体和靶染色体中产生双链断裂的方法。本文提供的方法使用用于在细胞环境中进行双链断裂修复的修复途径来促进大序列在染色体之间的转移。

本领域已知的在DNA序列中产生双链断裂的任何方法，以及修复这些双链断裂的任何修复途径，都被认为在本公开的范围内。

在一些实施方案中，模板染色体和靶染色体中的双链断裂是使用一种或多种核酸内切酶产生的。在一些实施方案中，核酸内切酶还切割一种或多种包含本文所述方法中使用的同源臂的核酸分子。在一些实施方案中，一种或多种核酸内切酶选自由以下组成的组：CRISPR/Cas核酸内切酶和一种或多种引导核酸(gNA)、一种或多种锌指核酸酶(ZFN)或一种或多种转录激活子样效应因子核酸酶(TALEN)。在一些实施方案中，使用一种或多种CRE重组酶产生模板染色体和靶染色体中的双链断裂，以产生染色体重排。

不同的分子能够将双链和/或单链断裂引入基因组核酸。本公开的核酸酶包括但不限于归巢核酸内切酶、限制性内切酶、锌指核酸酶或锌指切口酶、大范围核酸酶或大范围切口酶(meganickases)、转录激活子样效应因子(TALE)核酸酶引导的，特别是核酸引导的核酸酶或切口酶，诸如RNA引导的核酸酶、DNA引导的核酸酶、megaTAL核酸酶、BurrH核酸酶、其修饰或嵌合形式或变体及其组合。RNA引导的核酸酶或RNA引导的切口酶任选地是基于CRISPR的系统的一部分。

核酸酶能够切割核酸的单体之间的磷酸二酯键。许多核酸酶通过识别损伤位点并将它们从周围的DNA上切割下来而参与DNA修复。这些酶可以是复合物的一部分。核酸内切酶是作用于靶分子中心区域的核酸酶。脱氧核糖核酸酶作用于DNA。许多参与DNA修复的核酸酶不是序列特异性的。然而，在本说明书中，序列特异性核酸酶是优选的。在一些实施方案中，一种或多种序列特异性核酸酶对靶基因组中相当大的核苷酸串(诸如10个或更多个核苷酸，或15个、20个、25个、30个、35个、40个、45个或甚至50个或更多个核苷酸)是特异性的，靶基因组中作为靶序列的5-50个、10-50个、15-50个、15-40个、15-30个的范围是优选的。这种“识别序列”越大，基因组中的靶位点就越少，核酸酶在基因组中形成的切割就越特异，因此切割变成位点特异性的。位点特异性核酸酶通常在基因组中具有少于10个、5个、4个、3个、2个或仅仅一个(1)靶位点。已被工程化用于改变一个或多个基因组核酸(包括通过切割特定的基因组靶序列)的核酸酶在本文中被称为工程化的核酸酶。基于CRISPR的系统是一种类型的工程化的核酸酶。然而，这种工程化的核酸酶可基于本文所述的任何核酸酶。

识别大于12个碱基对的序列的核酸内切酶被称为大范围核酸酶。大范围核酸酶/-切口酶是以大识别位点(例如12至40个碱基对，诸如20至40个或30至40个碱基对的双链DNA序列)为特征的内切脱氧核糖核酸酶；因此，这个位点在任何给定的基因组中可能只出现一次。

“归巢核酸内切酶”是大范围核酸酶的一种形式，是具有大的不对称识别位点和通常嵌入内含子或内含肽的编码序列的双链DNA酶。归巢核酸内切酶识别位点在基因组中极其罕见，使得它们在非常少的位置切割，有时在基因组中的单一位置切割(WO2004067736，也参见美国专利第8,697,395B2号)。

锌指核酸酶/-切口酶(ZFN)是通过将锌指DNA结合结构域与DNA切割结构域融合而产生的人工限制性内切酶。锌指结构域可被工程化以靶向特定的所需DNA序列。

RNA引导的核酸酶/-切口酶，特别是核酸内切酶包括例如Cas9或Cpf1。已对CRISPR系统进行了详细描述。任何基于CRISPR的系统都是本公开的一部分。在使用另外的一种或多种RNA引导的核酸内切酶的情况下，可使用合适的引导RNA、sgRNA或crRNA或其它合适的RNA序列，其与RNA引导的核酸内切酶相互作用并靶向基因组核酸中的基因组靶位点。

如本文中所用，术语“CRISPR相关蛋白”或“CRISPR/Cas”蛋白是指与在某些细菌(诸如化脓性链球菌(Streptococcus pyogenes)和其它细菌)中发现的CRISPR(成簇的规则间隔的短回文重复序列)II型适应性免疫系统相关的核酸引导的DNA核酸内切酶。CRISPR/Cas蛋白，诸如Cas9，不限于在细菌中发现的野生型(wt)蛋白。包含对野生型CRISPR/Cas序列的突变或其衍生物的CRISPR/Cas蛋白被认为在本公开的范围内。来自化脓性链球菌的原始II型CRISPR系统包含Cas9蛋白和由两种RNA：成熟CRISPR RNA(crRNA)和部分互补的反式作用RNA(tracrRNA)组成的引导RNA。Cas9将外源DNA解旋并检查与引导RNA的20个碱基对间隔区互补的位点。Cas9靶向已经被简化，并且大多数基于Cas的系统已被工程化成仅需要一个或两个嵌合引导RNA或单个引导RNA(chiRNA，通常也简称为引导RNA或gRNA或sgRNA)，其由crRNA和tracrRNA的融合产生。可以根据需要对间隔区进行工程化。

如本文中所用，术语“Cas9编码序列”是指能够被转录和/或翻译(根据在宿主细胞/宿主哺乳动物中有功能的遗传密码)以产生Cas9蛋白的多核苷酸。Cas9编码序列可以是DNA(诸如质粒)或RNA(诸如mRNA)。

如本文中所用，术语CRISPR/Cas核糖核蛋白是指由CRISPR/Cas蛋白和相关引导核酸组成的蛋白质/核酸复合物。例如，Cas9核糖核蛋白是指与其相关引导RNA复合的Cas9。

在一些实施方案中，核酸酶是RNA引导的核酸酶。用于本公开的RNA引导的核酸酶(包括核酸引导的核酸酶)的非限制性实例包括但不限于CasI、CasIB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、CasX、CasY、Cas12a(Cpf1)、Cas12b、Cas13a、CsyI、Csy2、Csy3、CseI、Cse2、CscI、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、CmrI、Cmr3、Cmr4、Cmr5、Cmr6、CsbI、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、CsfI、Csf2、Csf3、Csf4、Cms1、C2c1、C2c2、C2c3或其同源物、直系同源物或经修饰的形式。

“megaTAL核酸酶/-切口酶”是指包含工程化的TALE DNA结合结构域的工程化的核酸酶和工程化的大范围核酸酶或工程化的归巢核酸内切酶。TALE DNA结合结构域可被设计用于结合基因组中核酸序列的几乎任何基因座处的DNA，并且如果这种DNA结合结构域与工程化的大范围核酸酶融合，则切割靶序列。例如，megaTAL核酸酶的说明性实例和TALE DNA结合结构域的设计由Boissel等人(MegaTALs:a rare-cleaving nuclease architecturefor therapeutic genome engineering(2013),Nucleic Acids Research 42(4):2591-2601)和本文引用的参考文献公开，所有这些文献均通过引用以其整体并入本文。megaTAL核酸酶任选地包含一个或多个接头和/或额外的功能结构域，例如C末端结构域(CTD)多肽、N末端结构域(NTD)多肽、展示5-3’核酸外切酶或3-5’核酸外切酶的末端加工酶促结构域、或其它非核酸酶结构域，例如解旋酶结构域。

转录激活子样效应因子(TALE)核酸酶/-切口酶是限制性内切酶，其可被工程化以切割特定的DNA序列。转录激活子样效应因子(TALE)可被工程化以与几乎任何所需的DNA序列结合，因此当与DNA切割结构域结合时，DNA可在特定的位置被切割。

“TALE DNA结合结构域”是转录激活子样效应因子(TALE或TAL-效应子)的DNA结合部分，其模拟植物转录激活子来操纵植物转录组。在一些实施方案中考虑的TALE DNA结合结构域是从头工程化的或来自天然存在的TALE，包括但不限于来自野油菜黄单胞菌疮痂致病变种(Xanthomonas campestris pv.vesicatoria)、加得那黄单胞菌(Xanthomonasgardneri)、半透明黄单胞菌(Xanthomonas translucens)、地毯草黄单胞菌(Xanthomonasaxonopodis)、穿孔黄单胞菌(Xanthomonas perforans)、苜蓿叶斑病黄单胞菌(Xanthomonas alfalfa)、柑桔溃疡病菌(Xanthomonas citri)、辣椒疮痂病菌(Xanthomonas euvesicatoria)和水稻黄单胞菌(Xanthomonas oryzae)的AvrBs3、以及来自青枯雷尔氏菌(Ralstonia solanacearum)的brg11和hpx17。用于衍生和设计DNA结合结构域的TALE蛋白的说明性实例公开于美国专利第9,017,967号和其中引用的参考文献中，所有这些文献通过引用以其整体并入本文。

“BurrH-核酸酶”是指具有核酸酶活性的融合蛋白，其包含模块化碱基/碱基特异性核酸结合结构域(MBBBD)。这些结构域源自细菌胞内共生体发根伯克霍尔德菌(Burkholderia Rhizoxinica)的蛋白质或从海洋生物中鉴定的其它类似蛋白质。通过将这些结合结构域的不同模块组合在一起，模块化碱基/碱基结合结构域可被工程化为具有与特定核酸序列的结合特性，诸如DNA结合结构域。因此，可将这种工程化的MBBBD与核酸酶催化结构域融合，以在基因组中核酸序列的几乎任何位点切割DNA。在WO 2014/018601和US2015225465 A1以及其中引用的参考文献中公开了BurrH-核酸酶和MBBBD设计的说明性实例，所有这些文献通过引用以其整体并入本文。

本公开的相关方面提供了适合在细胞中产生CRISPR/Cas介导的双链断裂(DSB)的核酸分子，诸如载体。在一些实施方案中，载体包含编码CRISPR/Cas蛋白例如Cas9的序列和引导核酸(Cas9单一引导RNA，或sgRNA)的序列(其与适合它们在细胞中表达的启动子可操作地连接)以及诸如复制起点和选择标记等其它载体成分。在一些实施方案中，细胞是本文所述的胚胎干细胞或胚胎杂交干细胞。

根据本公开，通过由核酸内切酶产生的双链断裂(DSB)促进同源重组。在一些实施方案中，核酸内切酶包含CRISPR/Cas9和一种或多种单一指导RNA(简称“sgRNA”或“gRNA”)。本领域技术人员或普通技术人员将能够选择引导RNA，其具有靶位于模板序列和靶序列的侧翼，或位于靶位置上的靶向序列，如上文针对核酸内切酶位点所述。

在一些实施方案中，可通过引入核酸分子(诸如一种或多种编码CRISPR/Cas蛋白的载体或编码序列)以及一种或多种sgRNA来引入酶。在一些实施方案中，编码CRISPR/Cas蛋白的载体或编码序列是CRISPR/Cas mRNA。在一些实施方案中，编码CRISPR/Cas蛋白的载体或编码序列是载体诸如质粒，其包含编码CRISPR/Cas蛋白和gRNA的DNA序列。在一些实施方案中，CRISPR/Cas蛋白是Cas9。

在某些实施方案中，可将分离的CRISPR/Cas蛋白直接引入细胞(例如，受精卵或ES细胞，通过显微注射或电穿孔)。CRISPR/Cas蛋白可呈CRISPR/Cas核糖核蛋白的形式，其为CRISPR/Cas蛋白/gNA(引导核酸)复合物。或者CRISPR/Cas蛋白可以不含任何gNA，使得将CRISPR/Cas蛋白和一种或多种gNA共引入受精卵或ES细胞，以允许在细胞内原位形成CRISPR/Cas蛋白/gNA复合物。在一些实施方案中，CRISPR/Cas蛋白和gNA由载体编码，所述载体通过转染、电穿孔或转导引入细胞。在一些实施方案中，CRISPR/Cas蛋白是Cas9。

为了在本公开的方法中用作核酸内切酶，CRISPR/Cas蛋白需要与gRNA形成功能复合物。

根据一些实施方案，使用多个gNA，每个gNA靶向特定的CRISPR/Cas切割位点。例如，可使用四种gNA，两种具有对模板序列的任一侧上的gNA靶序列特异的靶向序列，两种具有对靶序列的任一侧上的gNA靶序列特异的靶向序列。可选地，可使用三种gNA，一种具有对靶位置上的gNA靶序列特异的靶向序列，两种具有对模板序列的任一侧上的gNA靶序列特异的靶向序列。作为又一个实例，可使用两种gNA，一种具有对与模板序列相邻的gNA靶序列特异性的靶向序列，一种具有对与靶序列相邻的gNA靶序列特异的靶向序列。

优选地，不依赖于用于产生DSB的gNA的数量，在某些实施方案中，基于它们与模板和靶序列的5’和3’末端或靶位置的接近程度，独立地选择每种gNA。

可使用公知的原则或在线工具，基于用户输入(诸如靶基因组和序列类型)进行gNA的选择和设计。一般来说，对于Cas9，gRNA是短的合成RNA，由Cas9结合所必需的“支架”序列和用户定义的约20个核苷酸的“间隔区”或“靶向”序列组成，所述间隔区或靶向序列定义了要被靶向序列结合或修饰的基因组靶标。为简单起见，“gRNA靶向Cas9切割位点”是指gRNA的间隔区或靶向序列被设计成与基因组靶序列结合并在切割位点切割其的事实。

根据本公开的引导核酸(包括gRNA和gDNA)的长度可以是10个核苷酸以上的任何多个核苷酸，包括10-50个核苷酸、10-40个、10-30个、10-20个、15-25个、16-24个、17-23个、18-22个、19-21个和20个核苷酸。

优选地，靶向序列足够独特，使得理论上其与独特的(与基因组的其余部分相比)基因组靶序列结合。靶标应该紧邻前间隔序列邻近基序(或“PAM”序列)的上游(或5’)存在。PAM序列对于靶结合是绝对必要的，确切的序列取决于Cas9的种类。在最广泛使用的化脓性链球菌Cas9中，PAM序列是5′-NGG-3′(“N”表示4种标准核苷酸中的任一种)。不同物种中其它Cas9的其它PAM序列是本领域已知的。参见下表4中列出的示例性PAM序列。

表4.PAM序列

Cas9的种类/变体	PAM序列
		化脓性链球菌(SP)；SpCas9	NGG
SpCas9 D1135E变体	NGG(减少的NAG结合)
		SpCas9 VRER变体	NGCG
SpCas9 EQR变体	NGAG
		SpCas9 VQR变体	NGAN或NGNG
金黄色葡萄球菌(SA)；SaCas9	NNGRRT或NNGRR(N)
		脑膜炎奈瑟菌(NM)	NNNNGATT
嗜热链球菌(ST)	NNAGAAW
		齿垢密螺旋体(TD)	NAAAAC

Cas9-gRNA复合物将结合具有PAM的任何靶基因组序列，但是如果在gRNA间隔区与靶基因组序列之间存在足够的同源性，则Cas9仅切割靶基因组序列。Cas9介导的DNA切割的最终结果是靶基因组序列内位于PAM序列上游约3-4个核苷酸的切割位点的双链断裂(DSB)。

在一些实施方案中，双链断裂在靶序列上或两侧产生。例如，在其中靶染色体包含靶位置(诸如在模板序列将被插入其中而几乎没有或没有靶染色体的缺失的位置)的那些实施方案中，那么双链断裂在靶位置上产生。示例性靶位置包含本文所述的任何核酸酶的切割位点。作为另外的实例，在其中靶染色体包含靶序列(诸如将因模板序列的插入而被替换或删除的序列)的那些实施方案中，那么双链断裂在靶序列的任一侧(即，靶序列的5’和3’)产生。

在某些实施方案中，任何选择的核酸内切酶的切割位点(例如gNA靶向序列)在靶序列或位置的约10bp、约20bp、约30bp、约50bp、约70bp、约100bp、约200bp、约300bp、约400bp或约500bp内。

在某些实施方案中，任何选择的核酸内切酶的切割位点(例如gNA靶向序列)在模板序列的约100bp、约200bp、约300bp、约400bp、约500bp、约600bp、约700bp、约800bp、约900bp、约1,000bp、约1,100bp、约1,200bp、约1,300bp、约1,400bp、约1,500bp、约1,600bp、约1,700bp、约1,800bp、约1,900bp或约2,000内。

在一些实施方案中，双链断裂通过至少一种DNA修复途径来修复，所述DNA修复途径选自由以下组成的组：切除、错配修复(MMR)、核苷酸切除修复(NER)、碱基切除修复(BER)、规范非同源末端连接(规范NHEJ)、替代非同源末端连接(ALT-NHEJ)、规范同源定向修复(规范HDR)、替代同源定向修复(ALT-HDR)、微同源性介导的末端连接(MMEJ)、平末端连接、合成依赖性微同源性介导的末端连接、单链退火(SSA)、霍利迪连接模型(Hollidayjunction model)或双链断裂修复(DSBR)、合成依赖性链退火(SDSA)、单链断裂修复(SSBR)、跨损伤合成修复(TLS)和链间交联修复(ICL)以及DNA/RNA加工。

工程化的染色体的回收

本公开提供了回收本文所述的工程化的染色体，并将所述工程化的染色体转移至适于下游应用的细胞环境中的方法。在一些实施方案中，回收本文所述的工程化的染色体包括微细胞介导的染色体转移(MMCT)。

微细胞介导的染色体转移(MMCT)是将从供体细胞制备的微细胞与受体细胞融合的技术。通过这种技术，供体细胞中的特定(外源)DNA(例如，染色体)可被转移到受体细胞中。通常通过用秋水仙胺处理供体细胞来制备微细胞，尽管也可以使用其它方法，并且所述方法也被认为在本公开的范围内。

示例性MMCT方案包括在足以诱导微核化的条件下，在包含至少一种微核诱导剂的细胞培养基中培养包含工程化的染色体的细胞，从而产生微核细胞，并收集微核细胞。示例性微核诱导剂包括但不限于微管聚合抑制剂、微管解聚抑制剂和纺锤体检查点抑制剂。本领域已知的示例性微核诱导剂包括但不限于秋水仙胺、秋水仙碱、长春新碱或其组合。例如，可用0.05μg/mL至0.25μg/mL处理细胞以诱导微核化。

微核细胞可使用本领域已知的任何合适的方法包括离心和过滤来回收。

因此，本公开提供了包括回收工程化的染色体的方法，所述方法包括在足以诱导微核化的条件下将细胞暴露于秋水仙胺，并使用离心收集微核细胞。

在一些实施方案中，工程化的染色体包含一种或多种标记，例如当用模板序列工程化染色体时引入的选择标记或可检测的标记。这些标记可用于追踪工程化的染色体，并在与上述微核细胞融合后选择包含工程化的染色体的细胞。

因此，本公开提供了产生胚胎干细胞的方法，其包括：(a)将包含通过本公开的方法产生的工程化的染色体的微核细胞与ES细胞融合，其中(i)Es细胞包含与工程化的染色体同源的染色体，所述同源染色体包含与能够在ES细胞中表达荧光蛋白的启动子可操作地连接的第一荧光蛋白，以及(ii)至少一个亚群的微核细胞包含工程化的染色体，并且其中所述工程化的染色体包含不同于第一荧光蛋白的第二荧光蛋白，第二荧光蛋白与能够在ES细胞中表达荧光蛋白的启动子可操作地连接；(b)选择表达第一和第二荧光蛋白两者的ES细胞；(c)培养步骤(c)中选择的ES细胞，直至至少一个亚群的ES细胞丢失同源染色体；以及(d)选择表达第二荧光蛋白但不表达第一种荧光蛋白的ES细胞。在一些实施方案中，ES细胞是小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡或猴ES细胞。在一些实施方案中，ES细胞是小鼠ES细胞。在一些实施方案中，ES细胞是大鼠ES细胞。在一些实施方案中，ES细胞是猴ES细胞。

虽然上文所述的产生胚胎干细胞的方法使用两种不同的荧光蛋白作为标记，但本领域普通技术人员将会理解，只要工程化的染色体和同源染色体上的标记不同，其它标记也可以是合适的。例如，可使用本文所述的两种不同的选择标记，以及两种不同的表面分子，所述表面分子可被标记的抗体识别，或者缀合于选择标记诸如金颗粒，这允许通过离心进行选择。作为另外的实例，除了作为标记的荧光蛋白之外，嘌呤霉素和潮霉素/胸苷激酶(TK)标记也可用于该步骤中的阳性-阴性选择。当胸苷激酶在特定的胸苷类似物存在的情况下表达时，这些类似物被转化为杀死细胞的毒性化合物。例如，将嘌呤霉素抗性标记和潮霉素/TK标记敲入两条染色体的相同位置，并通过在嘌呤霉素和潮霉素中培养来选择双阳性单克隆。培养几天后，使用嘌呤霉素和胸苷激酶来选择已丢失了一个染色体拷贝的克隆，所述染色体携带有潮霉素/TK标记。

在一些实施方案中，产生胚胎干细胞的方法包括(a)将包含通过本公开的方法产生的工程化的染色体的微核细胞与ES细胞融合，其中(i)Es细胞包含与工程化的染色体同源的染色体，所述同源染色体包含第一标记，以及(ii)至少一个亚群的微核细胞包含工程化的染色体，并且其中工程化的染色体包含不同于第一标记的第二标记；(b)选择表达第一和第二标记两者的ES细胞；(c)培养步骤(c)中选择的ES细胞，直至至少一个亚群的ES细胞丢失同源染色体；以及(d)选择表达第二标记但不表达第一标记的ES细胞。

可使用任何合适的方法将微核细胞与ES细胞融合。融合方法尤其包括电融合、病毒诱导融合和化学诱导融合，例如通过向细胞中加入PEG1000。

考虑到通过上述回收工程化的染色体的方法产生的三体性的固有不稳定性，培养通过与微核细胞融合产生的细胞至少5天、至少7天、至少10天或至少14天的时间可足以获得已经丢失了对应于工程化的染色体的同源染色体的细胞。或者，可使用采用负选择标记例如位于同源染色体上的标记的选择方案，当所述标记暴露于选择方案时，其表达杀死细胞。在一些实施方案中，在步骤(b)和(d)中选择细胞包括荧光激活细胞分选(FACS)。例如，细胞可以是FAC分选的细胞，其表达用于标记工程化的染色体的第二荧光蛋白，但不表达用于标记同源染色体的第一荧光蛋白。

细胞

本发明提供了用于本公开的方法的细胞。在一些实施方案中，细胞包括胚胎干(ES)细胞、杂交胚胎干(EHS)细胞或受精卵细胞。本公开还提供了包含通过本公开的方法产生的工程化的染色体的细胞。本公开提供了分离、融合和培养本文所述细胞的方法。

因此，本公开提供了融合细胞以产生本文所述的EHS细胞的方法。通过化学、生物学和物理手段，细胞融合已经成为可能。这些技术的实例分别包括聚乙二醇(PEG)融合、融合型病毒融合(fusagenic virus fusion)和电融合。

用于本公开的方法中的ES细胞可从多种来源获得，并且可以是原代分离的ES细胞或者人工或天然产生的ES细胞系。还可在细胞融合以产生本公开的EHS细胞之前或之后，或者在本文所述方法之前或之后，首先对ES细胞进行遗传修饰，以引入有用的性状，诸如一种或多种标记的表达。

一种常用的技术是使用例如PEG的化学融合。这项技术在产生杂交瘤方面特别成功。通过将细胞暴露在强电场中非常短的时间，可以提高融合概率。在暴露于电场之前，可以使用化学剂在悬浮液中实现所需类型的细胞对(即两种类型的EH细胞)的连合(linkage)和接近。

细胞的电融合包括将细胞紧密地聚集在一起，并将它们暴露在交变电场中。在适当的条件下，细胞被推到一起，细胞膜融合，然后形成融合细胞或杂交细胞。细胞的电融合和用于进行电融合的装置描述于例如美国专利第4,441,972号、第4,578,168号和第5,283,194号、国际专利申请第PCT/AU92/00473号中。通常，所述方法包括选择细胞并将它们放置在采用来用作细胞融合室的充满流体的室中。单个细胞对可参与融合过程，即单细胞融合，或者大量融合可在两个群体中发生，每个群体包含两个或多个细胞。大量融合(Bulkfusion)可以是其中涉及约2至约1000个细胞的小型大量融合(mini-bulk fusion)，或其中涉及超过约1000个细胞的大型大量融合(macro-bulk fusion)。可通过化学手段(诸如在PEG存在的情况下)、生物手段(诸如在融合病毒存在的情况下)或通过电手段(即电融合)来促进融合。融合也可包括这些技术的组合。还可用细胞因子诸如白细胞介素3(IL-3)处理细胞以促进融合。

细胞融合后，获得融合的细胞(融合细胞(fusate cell))或另外地称为杂合细胞，其包含至少两个细胞的细胞核，所述细胞核被包裹在来自参与融合的细胞的融合脂质双层中。细胞核融合，产生染色体数目异常的杂交细胞，其可能是四倍体或含有更少或更多的染色体。杂交细胞在适当的培养条件下具有分裂和增殖的能力。

在一些实施方案中，通过电融合产生EHS细胞。例如，人与小鼠、人与大鼠或人与猴的ES细胞可通过电融合来融合。在一些实施方案中，来自两个不同物种的两种EHS细胞经历电融合以产生EHS细胞，所述物种选自由以下组成的组：人、小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。

通常，一旦发生融合，在合适的富培养基中回收所得的杂交细胞，然后将其在培养中扩增用于本公开的方法。恢复培养基应包含允许在融合应激后细胞融合物恢复的因子。这种补充剂可包含高百分比(例如20％)的胎牛血清。

通过细胞融合产生的杂交细胞可包含独特的细胞表面标记，其可用于选择这些细胞、监测融合事件。

在一些实施方案中，本公开的细胞包含一种或多种遗传修饰，诸如本文所述的标记的引入。遗传修饰可通过本领域已知的任何合适的方法进行。例如，可通过转染、转导、电穿孔、脂转染等来修饰细胞。

本文所用的转染是指将核酸(包括裸核酸或纯化的核酸或携带特定核酸的载体)引入细胞，特别是真核细胞，包括哺乳动物细胞。在本公开的说明书中可以使用任何已知的转染方法。这些方法中的一些包括增强生物膜的通透性以将核酸带入细胞。突出的实例是电穿孔、微孔化(microporation)和脂转染。所述方法可单独使用，或者可由声能、电磁能和热能、化学渗透增强剂、压力等支持，用于选择性地提高核酸进入宿主细胞的流通率(fluxrate)。其它转染方法也在本公开的范围内，诸如基于载体的转染，包括脂转染或基于病毒(也称为转导)和化学的转染。然而，可使用任何将核酸带入细胞内的方法。瞬时转染的细胞将在短时间内携带/表达转染的RNA/DNA，并且不会将其传递下去。稳定转染的细胞将持续表达转染的DNA并将其传递下去：外源核酸已整合到细胞的基因组中。

许多病毒已被用作基因转移载体或作为制备基因转移载体的基础，包括乳多空病毒、腺病毒、痘苗病毒、腺相关病毒、慢病毒、辛德比斯和塞姆利基森林病毒以及禽源和人源的逆转录病毒。

基因转移的化学技术(包括磷酸钙共沉淀)、机械技术(例如显微注射)、通过脂质体的膜融合介导的转移和直接DNA摄取以及受体介导的DNA转移。病毒介导的基因转移可与使用脂质体递送的直接体内基因转移相结合，允许将病毒载体导向特定细胞。或者，可将逆转录病毒载体生产细胞系注射到特定组织中。生产细胞的注射将提供载体颗粒的连续来源。

本公开提供了培养本公开的细胞的方法。在本文所述的实施方案中设想了许多干细胞培养基培养或生长环境，包括成分明确的培养基、条件培养基、无饲养细胞培养基、无血清培养基等。如本文中所用，术语其“生长环境”等同物是未分化或分化的干细胞(例如，胚胎干细胞)将在其中进行体外增殖的环境。环境的特征包括在其中培养细胞的培养基和支持结构(诸如固体表面上的基质)(如果存在的话)。培养或维持细胞的方法也描述于PCT/US2007/062755、美国申请号11/993,399和美国申请号11/875,057中。

基础细胞培养基在本领域中是已知的，并且是可商购获得的。示例性基础细胞培养基包括但不限于基于DMEM、CMRL或RPMI的培养基。

本公开的细胞培养方法中使用的细胞培养基可含血清，或者不含血清。细胞培养基还可包含一种或多种补充剂或本领域已知的其它培养基组分，诸如B27补充剂、胰岛素、葡萄糖、诸如EGF和FGF等生长因子以及细胞因子。

术语“饲养细胞”是指在体外生长并向培养基中分泌至少一种因子的细胞培养物，其可用于在培养物中支持另一种目标细胞的生长。如本文中所用，“饲养细胞层”可与术语“饲养细胞”互换使用饲养细胞可包含单层，其中饲养细胞在生长在彼此顶部之前以完整的层覆盖培养皿的表面，或者可包含成簇的细胞。在优选实施方案中，饲养细胞包含贴壁单层。

类似地，其中在不使用饲养细胞的情况下，在确定的条件或培养系统中生长ES或EHS细胞培养物或聚集体悬浮培养物(aggregate suspension culture)的实施方案是“无饲养细胞的”。美国专利第6,800,480号中也描述了无饲养细胞方法。在一些实施方案中，可将ES或ESH细胞在二维或三维环境中培养。在美国专利第6,800,480号中，通过培养成纤维细胞，原位裂解成纤维细胞，然后洗涤裂解后剩余的部分来制备细胞外基质。可选地，在美国专利第6,800,480号中，细胞外基质也可从分离的基质组分或选自以下物质的组分的组合来制备：胶原蛋白、胎盘基质、纤连蛋白、层粘连蛋白、分区蛋白(merosin)、生腱蛋白、硫酸肝素、硫酸软骨素、硫酸皮肤素、聚集蛋白聚糖、双糖链蛋白聚糖(biglycan)、凝血酶敏感蛋白、玻连蛋白和核心蛋白聚糖。

在一些实施方案中，培养方法或培养系统不含动物来源的产品。在其它实施方案中，培养方法是无异源物(xeno-free)的。

本公开考虑将包含本文所述工程化的染色体的ES细胞分化成不同的细胞类型，以用于各种下游应用。可使用多种策略在体外诱导ES细胞分化成多种细胞类型，通常涉及用外源生物化学组合物补充细胞培养基，所述组合物指导重演内源发育细胞信号并指导细胞特异性分化。在Vazin和Freed,Restor Neurol Neurosci(2010)28(4):589-603(其内容通过引用并入本文)中论述了分化ES细胞的策略。

例如，可在某些补充生长因子存在的情况下进一步培养ES或EHS细胞群，以获得已经或将发育成不同细胞谱系，或者可被选择性逆转以能够发育成不同细胞谱系的细胞群。术语“补充生长因子”以其最广泛的含义使用，是指有效促进ES细胞生长、维持细胞存活、刺激细胞分化和/或刺激细胞分化逆转的物质。另外，补充生长因子可以是由饲养细胞分泌到其培养基中的物质。这些物质包括但不限于细胞因子、趋化因子、小分子、中和抗体和蛋白质。生长因子也可包括细胞间信号传导多肽，其控制细胞的发育和维持以及组织的形式和功能。在优选实施方案中，补充生长因子选自由以下组成的组：钢细胞因子(SCF)、制瘤素M(OSM)、睫状神经营养因子(CNTF)、与可溶性白细胞介素-6受体(IL-6R)组合的白细胞介素-6(IL-6)、成纤维细胞生长因子(FGF)、骨形态发生蛋白(BMP)、肿瘤坏死因子(TNF)和粒细胞巨噬细胞集落刺激因子(GM-CSF)。

干细胞向各种多能细胞和/或分化细胞的进展可通过确定特定细胞类型的特征性基因或基因标记相较于第二基因或对照基因(例如，管家基因)的表达的相对表达来监测。在一些过程中，通过检测标记的存在或不存在来确定某些标记的表达。可选地，某些标记的表达可通过测量标记在细胞培养物或细胞群的细胞中存在的水平来确定。在此类过程中，标记表达的测量可以是定性的或定量的。定量由标记基因产生的标记的表达的一种方法是通过使用定量PCR(Q-PCR)。进行Q-PCR的方法是本领域公知的。本领域已知的其它方法也可用于定量标记基因表达。例如，标记基因产物的表达可通过使用对目标标记基因产物特异的抗体来检测。

转基因动物

本公开提供了包含本公开的工程化的染色体的转基因动物(例如转基因小鼠)及其制备方法。

从包含本文所述的工程化的染色体的ES细胞或受精卵细胞制备转基因动物的合适方法的选择将取决于动物，并且是本领域技术人员已知的。

在示例性方法中，将包含工程化的染色体的ES细胞整合到胚泡发育阶段的胚胎中，然后将其植入怀孕或假孕的雌性中并足月分娩。结果是嵌合体动物。如果ES细胞产生生殖细胞，则动物的后代将是完全转基因的，并携带工程化的染色体。

在一些实施方案中，转基因动物是小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡或猴。

在一些实施方案中，转基因动物是小鼠。在一些实施方案中，产生转基因小鼠包括将ES细胞注射到二倍体胚泡中，从所述ES细胞核转移到去核小鼠胚胎，或四倍体胚胎互补。

在一些实施方案中，所述方法还包括将ES细胞或受精卵转移至假孕雌性体内。在小鼠中，通过将处于自然发情期的6-8周龄雌性小鼠与输精管切除的雄性小鼠交配，为假孕雌性小鼠做好准备。可从培养物中取出当天处理转移到假孕雌性的受精卵，并置于预温热的合适培养基(诸如M2培养基)中，并且通过输卵管转移至交配后0.5天的假孕雌性(例如9-11周龄)中。

一旦使用本公开的方法将工程化的染色体插入宿主哺乳动物，就可在所得的转基因动物(例如，小鼠)或其后代中验证工程化的染色体的存在。这种验证通常包括对可能携带工程化的染色体的动物的一次或多次基因分型、连接序列的聚合酶链式反应扩增、某些DNA片段(例如，模板序列)的直接测序和遗传作图。此类技术在本领域是公知的。

本公开提供了包含本公开的工程化的染色体的转基因小鼠。在一些实施方案中，转基因小鼠包含一种或多种已被人源化的基因，例如表1和表2中描述的基因中的任一种。在一些实施方案中，动物模型包含不止一种人源化基因(例如1个、2个、5个、10个、20个、50个、100个或更多个基因)。在一些实施方案中，转基因小鼠包含已被人源化的免疫球蛋白基因的全部或部分。在一些实施方案中，转基因小鼠包含已被人源化的TCR亚单位基因的全部或部分。

在本公开的转基因小鼠的一些实施方案中，小鼠12号染色体包含替代小鼠Igh可变区的人IGH可变区的序列。在一些实施方案中，小鼠Igh可变区包含V_H、D_H和JH1-6基因区段和间插非编码序列。在一些实施方案中，人IGH可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。在一些实施方案中，工程化的染色体是小鼠6号染色体，其包含替代小鼠Igk可变区的人IGK可变区序列。在一些实施方案中，小鼠Igk可变区序列包含编码小鼠V_k和J_k1-5基因区段的序列和间插非编码序列。在一些实施方案中，模板序列包含人IGK可变区序列。在一些实施方案中，人IGK可变区序列包含编码人V_k和J_k1-5基因区段的序列和间插非编码序列。

应用

包含本文所述的工程化的染色体的细胞和转基因动物的下游应用被认为在本公开的范围内。

示例性下游应用包括使用针对一种或多种人基因人源化的动物模型(例如，小鼠、大鼠或猴)对人疾病和病症的动物模型进行基础和应用研究。表1和表2中描述了示例性但非限制性的基因，可通过用人同源物替换模型动物同源物对所述基因进行人源化。与染色体异常(易位、倒位等)相关的人疾病的动物模型也可使用本文所述的方法来制备。任何需要对大于300kB的片段进行大规模染色体重排的动物模型，例如杜氏肉营养不良症(DMD)人源化小鼠疾病模型，或者需要大规模插入或替换多达数百个基因的阵列的动物模型都被认为在本公开的范围内。

在一些实施方案(例如其中动物的Igh可变区已被人源化的那些实施方案)中，本公开的转基因动物可用于产生人源化抗体。例如，此类动物可产生具有人抗体或人源化抗体的特定B细胞。在一些实施方案(例如其中动物的Igk或Igl可变区已被人源化的那些实施方案)中，本公开的转基因动物可用于产生人源化抗体。

在一些实施方案(例如其中包含抗体或其抗原片段的模板序列已被插入靶染色体的那些实施方案)中，本公开的转基因动物可用于产生抗体或抗原结合片段。例如，转基因动物可用于产生单链可变片段(scFv)、纳米抗体、双特异性抗体和多特异性抗体等。此类抗体可用于研究或治疗目的。

示例性下游应用包括其中工程化的染色体未被整合到转基因动物中的应用。相反，作为一个实例，包含工程化的染色体的ES细胞分化成另一种细胞类型，其可用于研究或治疗目的。

试剂盒

本公开提供了包含本文所述核酸分子的试剂盒。在一些实施方案中，核酸分子是载体，诸如质粒。

在本公开的试剂盒的一些实施方案中，试剂盒包括用于本文所述方法的细胞，例如已被冷冻保存的EHS细胞。在一些实施方案中，试剂盒包括核酸分子和任选的细胞的使用说明。

实施例

实施例1:胚胎杂交干(EHS)细胞的建立

这项研究的总体目标是获得针对Igh和Igk基因的可变结构域人源化的小鼠。人和小鼠在抗体基因的排列和表达方面表现出高度的相似性，并且重链的基因组组织在人和小鼠中也相似。因此，小鼠Igh或Igk基因可变结构域的人源化形式可通过将含有所有V_H、D_H和J_H基因区段的约3MB小鼠基因组序列替换为含有等同人基因片段的大约1MB的连续人基因组序列来获得(图1)。

产生人源化小鼠Igh基因的第一步是通过将小鼠胚胎干(ES)细胞与人ES细胞融合以产生具有小鼠和人Igh基因的细胞，来产生小鼠胚胎杂交干(EHS)细胞。

根据电融合仪器制造商提供的标准方法，通过电融合将在PGK启动子控制下表达新霉素抗性基因的工程化的小鼠细胞和与在CAG启动子控制下表达mCherry标记的工程化的人ES细胞融合。将杂交EHS细胞在含有G418的小鼠ES细胞培养基中培养7天，根据mCherry的表达水平通过荧光激活细胞分选术(FACS)分选存活的细胞(图2)。将阳性细胞在含有G418的小鼠ES细胞培养基中连续培养，并将单细胞克隆分离到单独的孔中用于生长。接下来，提取每个单细胞克隆的基因组DNA用于基因分型。具体而言，将人免疫球蛋白重链(IGH)的V、D、J区的三对引物(图3A)用于进行PCR以确认EHS克隆中存在靶向序列(图3B)。只有具有所有三个所需区域的克隆被保留用于进一步的实验。

实施例2:工程化人源化染色体

2.1.通过HDR介导的染色体重排(HMCR)建立EHC

为了获得针对其Igh基因的可变结构域人源化的小鼠胚胎杂交干(EHS)细胞，通过HDR介导的染色体重排(HMCR；图4A)用人4号染色体上的人IGH基因的约1MB可变结构域替换小鼠12号染色体上的Igh基因的约3MB可变结构域。

两种质粒被设计成介导HMCR过程，并示于图4A中。5’HMCR质粒被设计来介导用其人对应物替换小鼠Igh基因的5’末端，而3’HMCR质粒介导用其人对应物替换小鼠Igh基因的3’末端。5’HMCR质粒包含与小鼠Igh基因5’末端同源的5’臂、与人IGH基因5’同源的3’臂和插入两个同源臂之间的CMV-EGFP-polyA-PGK-嘌呤霉素-poly的盒。类似地，3’HMCR质粒包含与人IGH可变基因座的3’同源的5’臂、与小鼠Igh可变基因座的3’同源的3’臂和插入在两个同源臂之间的PGK-潮霉素-polyA盒(见图4A)。同源臂的长度介于600bp与1000bp之间。同时，还设计了四种质粒，所述质粒含有Cas9和靶向小鼠和人中的Igh可变结构域的5’和3’末端的sgRNA(见图4A，表7中提供了sgRNA靶向序列)。使用标准方法将这六种质粒作为环状质粒共转染到实施例1中获得的EHS细胞中，并将所得细胞在含有嘌呤霉素和潮霉素的小鼠ES细胞培养基中培养7天。挑选存活的GFP阳性单一克隆用于进一步培养。

进行基因分型以鉴定具有成功HMCR的所需单一克隆。为了进行基因分型，如图5A所示，设计了四对PCR引物。对于第一对引物，正向引物设计在小鼠Igh5’HMCR质粒的5’同源臂的上游，反向引物位于CMV启动子区域内(图5A)。对于第二对引物，正向引物在5’HMCR质粒的嘌呤霉素基因内，反向引物在人IGH的5’同源臂的下游，在人IGH序列内(图5A)。对于第三对引物，正向引物位于人IGH可变区3’的同源臂的上游，反向引物位于3’HMCR质粒的PGK启动子区中(图5A)。对于最后一对引物，正向引物位于3’HMCR质粒的潮霉素基因中，反向引物位于3’HMCR质粒的3’同源序列的下游，在小鼠Igh可变结构域内(图5A)。用每种引物对对每个克隆进行PCR扩增，并且只有对所有四个基因分型测试都显示阳性PCR产物的克隆被保留用于进一步的实验。在该步骤的196个分离的克隆中，6个被鉴定为对于所有4个PCR扩增子呈阳性(图5B)。

为了促进人IGH基因在具有成功HMCR的EHS细胞中的表达，通过同源定向修复(HDR)(图4A)将3’选择标记从阳性克隆的基因组中删除，尽管也可以使用非同源末端连接(NHEJ)、微同源性介导的末端连接(MMEJ)和同源介导的末端连接(HMEJ)方法。上述方法成功地建立了工程化的人源化染色体(EHC)，所述染色体在EHS细胞中通过HMCR用等价的人区域替换了小鼠12号染色体上的小鼠Igh基因的包含V_H、D_H和J_H1-6基因区段的可变结构域。

下面的表5和表6提供了用于介导HMCR过程的质粒序列。

表5.用于利用相应的人区域对小鼠Igh可变区进行HMCR介导的替换的示例性5’质粒序列

/>

表6.用于利用相应的人区域对小鼠Igh可变区进行HMCR介导的替换的示例性3’质粒序列

/>

表7.sgRNA序列

在表7中，提供了具有位于sgRNA靶向序列的非靶链3’的PAM序列(NGG)的sgRNA序列。不具有PAM的相应sgRNA靶向序列以SEQ ID NOS:14-17提供。

2.2.通过CRE-Loxp介导的染色体重排(CMCR)建立EHC

为了获得针对它们的Igh基因的可变结构域人源化的小鼠EHS细胞，通过CRE-Loxp介导的染色体重排(CMCR；图4B)用人14号染色体上的IGH基因的约1Mb可变结构域替换小鼠12号染色体上的Igh基因的约3MB可变结构域。设计了四种质粒来介导CMCR过程。小鼠Igh5’(pCMV-GFP-BGH PolyA-Loxp)和3’(BGH polyA-Loxp-511-潮霉素-BGH polyA-PGK-BSD-BGHPolyA)质粒被设计成分别插入小鼠Igh可变基因座的5’和3’末端。同时，人IGH 5’(BGHpolyA-Loxp-Puro-BGH PolyA-PGK-新霉素-BGH PolyA)和3’(pCMV-BGP-BGH PolyA-PGK-Loxp-511)质粒被设计成分别插入人IGH可变基因座的5’和3’末端(图5)。将转染后的EHS细胞在含有BSD和新霉素的小鼠ES细胞培养基中培养7天。挑选存活的GFP-和BFP-双阳性细胞用于进一步培养。进行基因分型以鉴定成功整合上述质粒的所需单个克隆。将Cre转染到成功整合的EHS细胞中以用于CMCR，并且成功重排的细胞可在含有嘌呤霉素和潮霉素的培养基中存活。然后将存活的细胞放在袋中进行基因分型。为了促进人IGH基因在具有成功的CMCR的EHS细胞中的表达，接着从基因组中删除3’选择标记(图5)。按照上述过程，通过在EHS细胞中进行CMCR，成功地建立了工程化的人源化染色体(EHC；针对它们的可变结构域对小鼠12号染色体的Igh基因进行了人源化)。

实施例3:通过微细胞介导的染色体转移在小鼠胚胎干细胞中进行染色体置换

如实施例1和2所述获得了具有工程化的人源化染色体(EHC)的EHS细胞，然后通过微细胞介导的染色体转移(MMCT)将EHC转移至小鼠ES细胞，以建立针对Igh基因可变结构域人源化的小鼠ES细胞。

将携带EHC的EHS细胞在37℃下用0.2μg/ml秋水仙胺处理48小时。延长的有丝分裂停滞诱导微细胞的形成，通过离心收集所述微细胞(图6)。同时，获得在12号染色体上表达mCherry荧光标记的小鼠ES细胞(图6)。是通过将CMV-mCherry-polyA的盒插入小鼠12号染色体的一个拷贝中获得了这些细胞。

接下来，通过电融合将微细胞与小鼠ES细胞杂交，并且通过FACS使用GFP+和mCherry+标记对所得细胞进行分选，以获得为GFP+和mCherry+的小鼠ES细胞。GFP+表明EHC被成功转移到小鼠ES细胞中，而mCherry+标记表明细胞也携带mCherry+12号染色体。将阳性细胞在小鼠ES细胞培养基中连续培养2周，通过FACS分选mCherry-和GFP+小鼠ES细胞(即丢失了标记有mCherry+的额外12号染色体的细胞)，并培养7天。将单个克隆分离到单独的孔中用于生长和核型分析，保留具有正确核型的克隆。结果是针对其Igh基因的可变区而人源化的小鼠ES细胞。

实施例4:产生Igh人源化小鼠

根据标准程序，将实施例3中获得的针对其Igh基因可变区人源化的小鼠ES细胞注射入B6D2F1(C57BL/6X DBA2)小鼠品系的胚泡中。或者，核移植或四倍体胚胎互补也可用于产生人源化小鼠。

在交配后2.5天(dpc)，将注射的胚泡转移到假孕ICR雌性的子宫中。通过荧光立体显微镜下GFP的表达水平鉴定Igh人源化小鼠，并进一步分析GFP+小鼠。

接下来，设计了一系列PCR实验来验证Igh人源化小鼠。第一组PCR实验被设计成验证人IGH可变区的完整性。设计了针对人IGH可变区的不同区域的五对引物(见图7A，箭头表示PCR引物1-10)。Igh人源化小鼠显示所有五个PCR引物对的阳性PCR产物(图7B)。我们还设计了人IGH可变区上游和下游的引物(图7A)，对于我们的Igh人源化小鼠的任一个PCR实验都未观察到产物，而HEK293T显示PCR产物的正确条带(图7B)。

从Igh人源化小鼠的尾部分离成纤维细胞，并将其用于进行荧光原位杂交(FISH)。FISH结果显示Igh人源化小鼠的12号染色体含有人14号染色体的片段(图8A)，表明人IGH基因的可变结构域成功地原位插入小鼠的12号染色体。

还进行了G-显带核型分析，以排除任何异常染色体(图8B)。

还提取了Igh人源化小鼠的基因组DNA，并对其进行全基因组测序(WGS)分析。将WGS序列映射到包含所有小鼠染色体和人14号染色体的参考基因组上。人IGH基因的所有可变结构域(V_H、D_H和J_H基因区段)都被全基因组序列读数覆盖。另外，在其它基因组区域中未发现脱靶编辑(图9A-图9B)。

实施例5:生产Igk人源化小鼠

应用MASIRT获得针对其Igk基因可变结构域人源化的小鼠(图10)。使用与上文针对Igh基因所述的方法相似的方法，我们也获得了Igk人源化小鼠。为了验证Igk人源化小鼠，我们首先进行PCR实验来验证人IGK可变区的完整性。在人IGK可变区的不同位基因座上设计了五对引物(图11A)，获得的Igk人源化小鼠在所有五次实验中都显示出阳性PCR产物(图11B)。还设计了人IGK可变区上游和下游的引物(图11A)，对于获得的Igk人源化小鼠的任一PCR实验都没有观察到产物，而HEK293T显示PCR产物的正确条带(图11B)。最后，还提取了Igk人源化小鼠的基因组DNA并进行全基因组测序(WGS)分析。

表8.用于利用相应的人区域对小鼠Igk可变区进行HMCR介导的替换的示例性5’质粒序列

/>

表9.用于利用相应的人区域对小鼠Igk可变区进行HMCR介导的替换的示例性3’质粒序列

/>

表10.用于利用相应的人区域替换小鼠Igk可变区的sgRNA序列

sgRNA	序列	SEQ ID NO
			具有PAM的小鼠igk 5’	agtctctgctgcctacagcaNGG	24
具有PAM的小鼠igk 3’	agtccttgacagacagctcaNGG	25
			具有PAM的人IGK 5'	gcctatgatattacccagccNGG	26
具有PAM的人IGK 3'	acccatgacctggccactgaNGG	27

在表10中，提供了具有位于sgRNA靶向序列的非靶链3’上的PAM序列(NGG)的sgRNA序列。不具有PAM的相应sgRNA靶向序列以SEQ ID NOS:28-31提供。

绘制了包含小鼠的所有染色体和人的2号染色体的参考基因组的全基因组序列。这表明人IGK基因的所有可变结构域(V_H和J_H基因区段)都被全基因组序列覆盖。此外，在其它基因组区域没有发现脱靶编辑(图12)。

Claims

1.一种产生工程化的染色体的方法，其包括：

a.提供包含含有靶序列的靶染色体和含有模板序列的模板染色体的细胞；

b.将所述细胞与以下接触：

i.第一核酸分子，其从5’至3’包含5’同源臂、至少一个第一标记和3’同源臂，所述5’同源臂含有所述靶序列5’末端上游的核苷酸序列，所述3’同源臂含有所述模板序列5’末端上游的核苷酸序列；和

ii.第二核酸分子，其从5’至3’包含5’同源臂、至少一个第二标记和3’同源臂，所述5’同源臂含有所述模板序列3’末端下游的核苷酸序列，所述3’同源臂含有所述靶序列3’末端下游的核苷酸序列；

c.在所述靶序列处或其两侧，以及在所述模板序列的5’和3’末端产生双链断裂，从而将所述模板序列和所述第一和第二标记插入所述靶染色体中；以及

d.选择表达所述第一和第二标记的一个或多个细胞。

2.如权利要求1所述的方法，其中在插入所述模板序列后，所述第一标记位于所述模板序列的5’末端，并且所述第二标记位于所述模板序列的3’末端。

3.如权利要求1或2所述的方法，其中所述第一和第二核酸分子的所述5’和3’同源臂的长度介于约20bp与2,000bp之间、介于约50bp与1,500bp之间、介于约100bp与1,400bp之间、介于约150bp与1,300bp之间、介于约200bp与1,200bp之间、介于约300bp与1,100bp之间、介于约400bp与1,000bp、或介于约500bp与900bp之间或介于约600bp与800bp之间。

4.如权利要求1或2所述的方法，其中所述第一和第二核酸分子的所述5’和3’同源臂的长度介于约400bp与1,500bp之间、介于约500和1,300bp之间或介于约600和1,000bp之间。

5.如权利要求1或2所述的方法，其中所述第一和第二核酸分子的所述5’和3’同源臂的长度介于约600bp与1,000bp之间。

6.如权利要求1-5中任一项所述的方法，其中所述模板序列的长度为至少25千碱基对(KB)、至少50KB、至少约100KB、至少约200KB、至少约400KB、至少约500

KB、至少约600KB、至少约700KB、至少约800KB、至少约900KB、至少约1兆碱基对(MB)、至少约2MB、至少约3MB、至少约4MB、至少约5MB、至少约6MB、至少约7MB、至少约8MB、至少约9MB、至少约10MB、至少约15MB、至少约20MB、至少约25MB、至少约30MB、至少约40MB、至少约50MB、至少约60MB、至少约70MB、至少约80MB、至少约90MB、至少约100MB、至少约120MB、至少约140MB、至少约160MB、至少约180MB、至少约200MB、至少约220MB或至少250MB。

7.如权利要求1-5中任一项所述的方法，其中所述模板序列的长度介于50KB与250MB

之间、介于50KB与100MB之间、介于50KB与50MB之间、介于50KB与20MB

之间、介于50KB与10MB之间、介于50KB与5MB之间、介于50KB与3MB之间、介于50KB与2MB之间、介于50KB与1MB之间、介于100KB与200MB之间、介于100KB与100MB之间、介于100KB与50MB之间、介于100KB与20MB之间、介于100KB与10MB之间、介于100KB与5MB之间、介于100KB与3MB之间、介于100KB与2MB之间、介于100KB与1MB之间、介于100KB与500KB之间、介于200KB与100MB之间、介于200KB与50MB之间、介于200KB与20

MB之间、介于200KB与10MB之间、介于200KB与5MB之间、介于200KB与3

MB之间、介于200KB与2MB之间、介于200KB与1MB之间、介于200KB与500KB之间、介于500KB与100MB之间、介于500KB与50MB之间、介于500KB与20MB之间、介于500KB与10MB之间、介于500KB与5MB之间、介于500KB与3MB之间、介于500KB与2MB之间、介于500KB与1MB之间、介于1MB与100

MB之间、介于1MB与50MB之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于1MB与2MB之间、介于3MB与100MB之间、介于3MB与50MB之间、介于3MB与20MB之间、介于3MB与10MB之间、介于3MB与5MB之间、介于5MB与100MB之间、介于5

MB与50MB之间、介于5MB与20MB之间、介于5MB与10MB之间、介于10

MB与100MB之间、介于10MB与50MB之间或介于10MB与20MB之间。

8.如权利要求1-5中任一项所述的方法，其中所述模板序列的长度介于200KB与50MB

之间、介于1MB与20MB之间、介于1MB与10MB之间、介于1MB与5MB之间、介于1MB与3MB之间、介于3MB与20MB之间、介于3MB与10MB之间、介于3MB与7MB之间或介于3MB与5MB之间。

9.如权利要求1-8中任一项所述的方法，其中在(c)中产生所述双链断裂包括使用

CRISPR/Cas核酸内切酶和一种或多种引导核酸(gNA)、一种或多种锌指核酸酶、一种或多种转录激活子样效应因子核酸酶(TALEN)或一种或多种CRE重组酶来诱导所述双链断裂。

10.如权利要求9所述的方法，其中所述CRISPR/Cas核酸内切酶包括CasI、CasIB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、CasX、CasY、Cas12a(Cpf1)、Cas12b、Cas13a、CsyI、Csy2、Csy3、CseI、Cse2、CscI、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、CmrI、Cmr3、Cmr4、Cmr5、Cmr6、CsbI、Csb2、

Csb3、Csx17、CsxI4、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、CsfI、Csf2、

Csf3、Csf4、Cms1、C2c1、C2c2或C2c3或其同源物、直系同源物或经修饰的形式。

11.如权利要求9所述的方法，其中所述CRISPR/Cas核酸内切酶包括Cas9、Cpf1、CasX、CasY、C2c1、C2c3或其同源物、直系同源物或经修饰的形式。

12.如权利要求9所述的方法，其中所述CRISPR/Cas核酸内切酶包括Cas9。

13.如权利要求10-12中任一项所述的方法，其中所述gNA包括单一引导RNA(sgRNA)。

14.如权利要求1-13中任一项所述的方法，其中所述靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、靶序列和第二核酸分子的3’同源臂序列。

15.如权利要求1-14中任一项所述的方法，其中所述模板染色体从5’至3’包含第一核酸分子的3’同源臂序列、模板序列和第二核酸分子的5’同源臂序列。

16.如权利要求1-15中任一项所述的方法，其中所述靶序列包含至少1个基因、至少2个基因、至少3个基因、至少5个基因、至少10个基因、至少20个基因、至少30个基因、至少40个基因、至少50个基因、至少100个基因或至少200个基因。

17.如权利要求1-16中任一项所述的方法，其中所述靶序列包含与所述模板序列的一个或多个基因同源的一个或多个基因。

18.如权利要求1-17中任一项所述的方法，其中所述模板序列包含天然存在的序列。

19.如权利要求18所述的方法，其中所述模板序列包含对所述天然存在的序列的一个或多个修饰。

20.如权利要求18所述的方法，其中所述模板序列包含至少1个基因、至少2个基因、至少3个基因、至少5个基因、至少10个基因、至少20个基因、至少30个基因、至少40个基因、至少50个基因、至少100个基因或至少200个基因。

21.如权利要求1-17中任一项所述的方法，其中所述模板序列包含人工序列。

22.如权利要求21所述的方法，其中所述人工序列包含编码一种或多种抗体或其抗原结合片段的序列。

23.如权利要求22所述的方法，其中所述一种或多种抗体或其抗原结合片段包括scFv、双特异性抗体或多特异性抗体。

24.如权利要求1-23中任一项所述的方法，其中通过插入所述模板序列来删除所述靶序列。

25.如权利要求24所述的方法，其中：

a.所述靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、第一sgRNA靶序列、所述靶序列、第二sgRNA靶序列和第二核酸分子的3’同源臂序列；以及

b.所述模板染色体从5’至3’包含第三种sgRNA靶序列、第一核酸分子的3’同源臂序列、所述模板序列、第二种核酸分子的5’同源臂序列和第四sgRNA靶序列。

26.如权利要求25所述的方法，其中产生所述双链断裂包括将所述细胞与CRISPR/Cas核酸内切酶以及所述第一、第二、第三和第四sgRNA接触。

27.如权利要求26所述的方法，其中所述第一、第二、第三和第四sgRNA包含对所述第一、第二、第三和第四sgRNA靶序列特异的靶向序列。

28.如权利要求26所述的方法，其中将所述细胞与CRISPR/Cas核酸内切酶和sgRNA接触包括用一种或多种编码所述CRISPR/Cas核酸内切酶和所述sgRNA的核酸分子转染所述细胞。

29.如权利要求1-23中任一项所述的方法，其中插入所述模板序列包括几乎不删除或不删除所述靶序列的序列。

30.如权利要求29所述的方法，其中插入所述模板序列破坏了所述靶序列的一种或多种功能。

31.如权利要求29或30所述的方法，其中插入所述模板序列破坏了所述靶序列中的基因。

32.如权利要求29-31中任一项所述的方法，其中

a.所述靶染色体从5’至3’包含第一核酸分子的5’同源臂序列、第一sgRNA靶序列和第二核酸分子的3’同源臂序列；以及

b.所述模板染色体从5’至3’包含第二sgRNA靶序列、第一核酸分子的3’同源臂序列、模板序列、第二核酸分子的5’同源臂序列和第三sgRNA靶序列。

33.如权利要求32所述的方法，其中产生所述双链断裂包括将所述细胞与CRISPR/Cas核酸内切酶以及第一、第二和第三sgRNA接触。

34.如权利要求33所述的方法，其中所述第一、第二和第三sgRNA包含对所述第一、第二和第三sgRNA靶序列特异的靶向序列。

35.如权利要求34或35所述的方法，其中使所述细胞与所述CRISPR/Cas核酸内切酶和所述sgRNA接触包括用编码所述CRISPR/Cas核酸内切酶和所述sgRNA的一种或多种核酸分子转染所述细胞。

36.如权利要求1-35中任一项所述的方法，其中所述第一或第二标记包括荧光蛋白，所述荧光蛋白与能够在所述细胞中表达所述荧光蛋白的启动子可操作地连接。

37.如权利要求36所述的方法，其中所述荧光蛋白包括绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)、蓝色荧光蛋白(BFP)、dsRed、

mCherry或tdTomato。

38.如权利要求36所述的方法，其中所述荧光蛋白包括GFP。

39.如权利要求1-38中任一项所述的方法，其中所述第一标记还包括选择标记。

40.如权利要求1-39中任一项所述的方法，其中所述第二标记还包括选择标记。

41.权利要求39或40所述的方法，其中所述选择标记选自由以下组成的组：二氢叶酸还原酶(DHFR)、谷氨酰胺合酶(GS)、嘌呤霉素乙酰转移酶、杀稻瘟素脱氨酶、组氨醇脱氢酶、潮霉素磷酸转移酶(hph)、博来霉素抗性基因和氨基糖苷磷酸转移酶(新霉素抗性)。

42.如权利要求39-41中任一项所述的方法，其中所述第一和第二标记不是相同的选择标记。

43.如权利要求1-42中任一项所述的方法，其中所述第一标记包含GFP和嘌呤霉素乙酰转移酶，所述GFP与能够在所述细胞中表达GFP的启动子可操作地连接，并且所述第二标记包含潮霉素磷酸转移酶。

44.如权利要求1到43中任一项所述的方法，所述方法还包括(e)在步骤(d)之后删除所述第一或第二标记的全部或部分。

45.如权利要求44所述的方法，其中删除所述第一或第二标记包括用CRISPR/Cas核酸内切酶和gNA诱导删除，所述gNA包含对编码所述标记的序列特异的靶向序列。

46.如权利要求1-45中任一项所述的方法，其中所述细胞包括杂交细胞、胚胎杂交干(EHS)细胞或受精卵。

47.如权利要求46所述的方法，其中通过融合来自任何两个物种的ES细胞来产生所述EHS细胞，所述物种选自由以下组成的组：小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。

48.如权利要求46所述的方法，其中通过将人胚胎干细胞与来自非人物种的胚胎干细胞融合来产生所述EHS细胞。

49.如权利要求48所述的方法，其中所述非人物种是小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡或猴。

50.如权利要求46所述的方法，其中通过融合来自任何两个不同物种的ES细胞来产生所述EHS细胞，所述物种选自由以下组成的组：小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡和猴。

51.如权利要求46所述的方法，其中产生所述杂交细胞包括：

a.产生微核人细胞；以及

b.将所述微核人细胞与来自非人物种的细胞融合，从而产生杂交细胞。

52.如权利要求51所述的方法，其中通过在足以诱导微核化的条件下将人细胞暴露于秋水仙胺，并使用离心收集所述微核细胞来产生所述微核人细胞。

53.如权利要求51或52所述的方法，其中所述非人物种是小鼠、大鼠、兔、豚鼠、仓鼠、绵羊、山羊、驴、牛、马、骆驼、鸡或猴。

54.如权利要求51-53中任一项所述的方法，其中来自所述非人物种的所述细胞为ES细胞，且所述杂交细胞为EHS细胞。

55.如权利要求47-50中任一项所述的方法，其中所述融合包括电融合、病毒诱导融合或化学诱导融合。

56.如权利要求1-55中任一项所述的方法，其中所述靶序列包含编码免疫球蛋白或T细胞受体亚单位的基因。

57.如权利要求1-56中任一项所述的方法，其中所述靶染色体包含小鼠12号染色体，且所述模板染色体包含人14号染色体，或其中所述靶染色体包含小鼠6号染色体，且所述模板染色体包含人2号染色体。

58.如权利要求57所述的方法，其中所述靶序列包含小鼠Igh可变区序列、小鼠Igk可变区序列和/或小鼠Igl可变区序列。

59.如权利要求58所述的方法，其中所述小鼠Igh可变区序列包含编码小鼠V_H、D_H和J_H1-6基因区段的序列和间插非编码序列。

60.如权利要求57-59中任一项所述的方法，其中所述模板序列包含人IGH可变区序列、人IGK可变区序列和/或人IGL可变区序列。

61.如权利要求60所述的方法，其中所述人IGH可变区序列包含编码人V_H、D_H和J_H1-6基因区段的序列和间插非编码序列。

62.如权利要求1-61中任一项所述的方法，所述方法还包括从在步骤(d)中选择的细胞回收所述工程化的染色体。

63.如权利要求62所述的方法，其中回收所述工程化的染色体包括在足以诱导微核化的条件下将所述细胞暴露于秋水仙胺，并使用离心收集微核细胞。

64.如权利要求1-63中任一项所述的方法，其中所述第一和第二核酸分子是质粒。

65.一种工程化的染色体，其通过权利要求1-64中任一项的方法产生。

66.如权利要求65所述的工程化的染色体，其中所述工程化的染色体是小鼠12号染色体，其包含替代小鼠Igh可变区的人IGH可变区序列，或其中所述工程化的染色体是小鼠6号染色体，其包含替代小鼠Igk可变区的人IGK可变区序列。

67.如权利要求66所述的工程化的染色体，其中所述小鼠Igh可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。

68.如权利要求66或67所述的工程化的染色体，其中所述人IGH可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。

69.一种细胞，其包含权利要求64-68中任一项的工程化的染色体。

70.如权利要求69所述的细胞，其中所述细胞能够与小鼠ES细胞杂交。

71.如权利要求69所述的细胞，其中所述细胞是胚胎干(ES)细胞、胚胎杂交干(EHS)细胞或受精卵。

72.如权利要求68所述的方法，其中所述细胞是微核细胞。

73.如权利要求72所述的细胞，其中所述EHS细胞是人与小鼠ES细胞的杂交体。

74.如权利要求72所述的细胞，其中所述ES细胞是小鼠ES细胞。

75.一种产生小鼠胚胎干细胞的方法，所述方法包括：

a.将包含通过权利要求1-64中任一项的方法产生的所述工程化的染色体的微核细胞与小鼠ES细胞融合，其中：

i.所述小鼠ES细胞包含与所述工程化的染色体同源的染色体，所述同源染色体包含与能够在所述ES细胞中表达所述荧光蛋白的启动子可操作地连接的第一荧光蛋白，以及

ii.至少一个亚群的所述微核细胞包含工程化的染色体，并且其中所述工程化的染色体包含不同于所述第一荧光蛋白的第二荧光蛋白，所述第二荧光蛋白与能够在所述ES细胞中表达所述荧光蛋白的启动子可操作地连接；

b.选择表达所述第一和第二荧光蛋白的ES细胞；

c.培养步骤(c)中选择的所述ES细胞，直至至少一个亚组的所述ES细胞丢失所述同源染色体；以及

d.选择表达所述第二荧光蛋白但不表达所述第一荧光蛋白的ES细胞。

76.如权利要求75所述的方法，其中在步骤(c)中培养所述细胞包括将所述细胞培养至少5

天、至少7天、至少10天或至少14天。

77.如权利要求75或76所述的方法，其中在步骤(b)和(d)选择所述细胞包括荧光激活细胞分选(FACS)。

78.一种小鼠ES细胞，其通过权利要求75-77中任一项的方法产生。

79.一种转基因小鼠，其由通过权利要求75-78中任一项的方法产生的小鼠ES细胞产生。

80.如权利要求79所述的转基因小鼠，其中产生所述转基因小鼠包括将所述ES细胞注射到二倍体胚泡中，从所述ES细胞核转移到去核小鼠胚胎，或四倍体胚胎互补。

81.如权利要求79或80所述的转基因小鼠，其中小鼠12号染色体包含替代小鼠Igh可变区的人IGH可变区序列，或者其中小鼠6号染色体包含替代小鼠Igk可变区的人IGK可变区序列。

82.如权利要求81所述的转基因小鼠，其中所述小鼠Igh可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。

83.如权利要求81或82所述的转基因小鼠，其中所述人IGH可变区包含V_H、D_H和J_H1-6基因区段和间插非编码序列。

84.一种产生抗体的方法，其包括：

a.用抗原攻击权利要求80-83中任一项的转基因小鼠，由此所述转基因小鼠产生多种抗体，所述抗体包含来自所述人IGH可变区的人V、D和J区段；以及

b.分离对抗原特异的抗体。

85.一种抗体，其源自通过权利要求84的方法产生的抗体。

86.如权利要求85所述的抗体，其中所述抗体包含单链可变片段(scFv)、双特异性抗体或多特异性抗体。

87.一种产生染色体重排的方法，所述方法包括：

a.提供细胞，其包含含有靶位置的靶染色体和含有模板序列的模板染色体；

b.将所述细胞与核酸分子接触，所述核酸分子从5’至3’包含含有所述靶位置5’末端上游的核苷酸序列的5’同源臂、标记和含有所述模板序列5’末端上游的核苷酸序列的3’同源臂；

c.在所述靶位置上和所述模板序列的5’末端产生双链断裂，从而将所述标记插入所述5’同源臂序列3’的所述靶染色体，随后插入所述模板序列，从而产生染色体重排；以及

d.选择表达所述标记的一个或多个细胞。

88.如权利要求87所述的方法，其中所述核酸分子的所述5’和3’同源臂的长度介于约20bp与2,000bp之间，介于约50bp与1,500bp之间，介于约100bp和1,400bp之间，介于约150bp和1,300bp之间，介于约200bp和1,200bp之间，介于约300bp和1,100bp

之间，介于约400bp与1,000bp之间，或介于约500bp与900bp之间，或介于约600bp与800bp之间。

89.如权利要求87所述的方法，其中所述核酸分子的所述5’和3’同源臂的长度介于约400bp与1,500bp之间，介于约500bp与1,300bp之间或介于约600bp与1,000bp之间。

90.如权利要求87所述的方法，其中所述核酸分子的所述5’和3’同源臂的长度介于约600bp与1,000bp之间。

91.如权利要求87-90中任一项所述的方法，其中在(c)中产生所述双链断裂包括使用

CRISPR/Cas核酸内切酶和至少一种sgRNA、一种或多种锌指核酸酶、一种或多种转录激活子样效应因子核酸酶(TALEN)或一种或多种CRE重组酶来诱导所述双链断裂。

92.如权利要求91所述的方法，其中所述CRISPR/Cas核酸内切酶包括CasI、CasIB、

Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、CasX、CasY、Cas12a(Cpf1)、Cas12b、Cas13a、CsyI、Csy2、Csy3、CseI、Cse2、CscI、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、CmrI、Cmr3、Cmr4、Cmr5、Cmr6、CsbI、

Csb2、Csb3、Csx17、CsxI4、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、CsfI、

Csf2、Csf3、Csf4、Cms1、C2c1、C2c2或C2c3或其同源物、直系同源物、或经修饰的形式。

93.如权利要求91所述的方法，其中所述CRISPR/Cas核酸内切酶包括Cas9、Cpf1、

CasX、CasY、C2c1、C2c3或其同源物、直系同源物或经修饰的形式。

94.如权利要求91所述的方法，其中所述CRISPR/Cas核酸内切酶包括Cas9。

95.如权利要求91-93中任一项所述的方法，其中产生所述双链断裂包括将所述细胞与

CRISPR/Cas核酸内切酶、至少第一gNA和第二gNA接触，所述第一gNA包含对所述靶位置特异的靶向序列，使得所述CRISPR/Cas核酸内切酶切割所述靶位置，所述第二gNA包含对所述模板序列5’末端特异的靶向序列。

96.如权利要求95所述的方法，其中将所述细胞与CRISPR/Cas核酸内切酶和sgRNA接触包括用一种或多种编码所述CRISPR/Cas核酸内切酶和所述sgRNA的核酸分子转染所述细胞。

97.如权利要求87-96中任一项所述的方法，其中所述标记包含与能够在所述细胞中表达所述荧光蛋白的启动子可操作地连接的荧光蛋白。

98.如权利要求97所述的方法，其中所述荧光蛋白包括GFP、YFP、RFP、CFP、BFP、dsRed、mCherry或tdTomato。

99.如权利要求87-98中任一项所述的方法，其中所述标记还包括选择标记。

100.如权利要求99所述的方法，其中所述选择标记选自由以下组成的组：二氢叶酸还原酶(DHFR)、谷氨酰胺合酶(GS)、嘌呤霉素乙酰转移酶、杀稻瘟素脱氨酶、组氨醇脱氢酶、潮霉素磷酸转移酶(hph)、博来霉素抗性基因和氨基糖苷磷酸转移酶(新霉素抗性)。

101.如权利要求87-100中任一项所述的方法，其中所述细胞包括胚胎干(ES)细胞。

102.如权利要求87-101中任一项所述的方法，其中所述核酸分子是质粒。

103.一种细胞，其包含权利要求87-101中任一项的染色体重排。

104.如权利要求103所述的细胞，其中所述细胞是小鼠ES细胞。

105.一种转基因小鼠，其来自由权利要求103或104的细胞产生的小鼠ES细胞。