CN105980395A

CN105980395A - 最优大豆座位

Info

Publication number: CN105980395A
Application number: CN201480060422.6A
Authority: CN
Inventors: L·萨斯特里-登特; Z·曹; S·斯利拉姆; S·R·韦伯; D·L·坎珀
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 2013-11-04
Filing date: 2014-11-03
Publication date: 2016-09-28
Also published as: US20190136265A1; WO2015066634A3; TWI659103B; US10233465B2; EP3066109A4; ZA201901730B; WO2015066634A2; US11149287B2; RU2016121862A3; IL245305B; IL252148A0; BR102014027436B1; EP3066109A2; BR102014027436A2; AU2014341925A1; CA2926822A1; UY35814A; IL245305A0; TW201518505A; MX2016005874A

Abstract

如本申请公开的，鉴定了大豆植物的最优天然基因组座位，它们代表了外源序列靶向插入的最佳位点。

Description

最优大豆座位

相关申请的交叉援引

本申请要求享受2013年11月4日递交的美国临时专利申请第61/899,566号和2013年11月4日递交的美国临时专利申请第61/889,587号在35U.S.C.§119(e)下的权益，将上述申请的内容全部通过并入本申请。

对电子提交的序列表的援引

序列表的正式拷贝作为ASCII格式的序列表通过EFS-Web电子递交，文件名为“74892232308seqlist.txt”，于2014年11月3日提交，大小为13.4兆字节，与说明书同时提交。该ASCII格式文档中包含的序列表是说明书的一部分，在此通过提述将其全文并入本申请。

对电子提交的表格列表的援引

表格列表的正式拷贝以.PDF格式的表格列表的形式通过EFS-Web电子提交，文件名为“Table3”，于2014年11月3日生成，大小为11.6兆字节，与说明书同时提交。该.PDF格式文档中包含的序列表是说明书的一部分，在此通过提述将其全文并入本申请。

背景

人们在1990年代早期即已成功地用转基因转化了多种类型的双子叶植物(例如大豆植物)的基因组。在过去的二十年内，人们已经开发了多种用于转化双子叶植物(如大豆)的基因组的方法学，其中转基因被稳定地整合到双子叶植物的基因组中。双子叶植物转化方法学的这种演变的结果是人们有能力成功地将包含农艺性状的转基因导入双子叶植物，例如大豆的基因组内。在1990年代晚期实现的双子叶植物内昆虫抗性和除草剂耐受性状的导入为生产者提供了一项新颖而方便的技术革新用于控制昆虫和广谱的杂草，这当时在种植农业方法中是无可匹敌的。目前，转基因双子叶植物在全世界都有市售，且新的转基因产品，例如Enlist^TM大豆，为日益严峻的杂草挑战提供了改进的解决方案。若非有转基因方法学的研发和改进，转基因双子叶植物在现代农艺学实践中的利用是不可能的。

然而，现有的转基因方法学依赖转基因在双子叶植物，例如大豆基因组中的随机插入。依赖基因在基因组中的随机插入有若干不利之处。转基因事件可能随机地整合在基因转录序列中，进而破坏内源性状的表达并改变植物的生长和发育。此外，转基因事件可能无差别地整合到基因组中容易受到基因沉默的位置内，以第一代或后续世代的转基因植物中转基因表达的减少或完全抑制告终。最后，转基因在植物基因组内的随机整合需要可观的工作量和成本来鉴定转基因事件的位置并选择如设计的那样表现、不对植物产生农艺学影响的转基因事件。需要持续开发新的测定法来为每种转基因事件，例如大豆转基因事件，确定整合的转基因的确切位置。植物转化方法学的随机性导致整合的转基因的“位置效应”，阻碍了转化方法学的有效性和效率。

植物的靶向基因组修饰已经成为应用研究和基础研究的一个长期未能达到且难以达到的目标。将基因和基因堆叠靶向到双子叶植物植物(例如玉米植物)基因组中的特定位置将会改善转基因事件的质量，降低产生转基因事件的相关成本，并提供制造转基因植物产品的新方法，例如顺序性基因堆叠。总的来说，将转基因靶向特定基因组位点很可能是商业上有利的。过去几年中，用于通过位点特异性核酸酶(例如锌指核酸酶(ZFN)、大范围核酸酶、转录激活物样效应物核酸酶(TALENS)、以及成簇规则间隔短回文重复/CRISPR-相关核酸酶(CRISPR/Cas)结合工程化crRNA/tracr RNA)靶向和切割基因组DNA，以诱导靶向突变、诱导细胞DNA的靶向删除、以及易化外源供体DNA多核苷酸在预定的基因组座位内的靶向重组的方法和组合物的开发已经取得了显著的进展。参见例如，美国专利公开号20030232410；20050208489；20050026157；20050064474；和20060188987，和国际专利公开号WO 2007/014275，将它们的公开通过提述并入本申请用于所有目的。美国专利公开号20080182332描述了非经典锌指核酸酶(ZFN)用于植物基因组的靶向修饰的用途，美国专利公开号20090205083描述了植物EPSP基因组座位的ZFN介导的靶向修饰。现有的外源DNA靶向插入的方法涉及用含有至少一种转基因的供体DNA多核苷酸与位点特异性核酸酶(例如ZFN)共转化植物组织，其中位点特异性核酸酶设计为结合并切割活跃转录的编码序列的特定基因组座位。这导致供体DNA多核苷酸稳定地插入被切割的基因组座位内，结果实现在包含活跃转录的编码序列的规定基因组座位处的靶向基因添加。

一种替代的途径是将转基因靶向到双子叶植物如大豆的预先选择的靶标非基因座位。近年来，已经开发出数种将转基因靶向投递到双子叶植物(例如大豆)的基因组中的技术，并在植物细胞中加以应用。然而，关于适合靶向的基因组位点的属性则知之甚少。过去历来用基因组中的非关键基因及病原体(病毒)整合位点作为靶向的座位。此类位点在基因组中的数目相当有限，因此有需要鉴定和表征能够用于靶向供体多核苷酸序列的最优可靶向基因组座位。除了易于靶向之外，预期最优基因组座位是中性位点，能够支持转基因表达和育种应用。需要组合物和方法来界定双子叶植物植物(例如大豆植物)基因组内供靶向转基因整合用的最优非基因座位的鉴定标准。

概要

本公开的一个实施方案涉及在双子叶植物基因组中，包括例如大豆基因组中鉴定用于插入外源序列的最优位点的方法。在文献中有记载提示植物染色体区域是可靶向的，并可支持表达。本申请人建立了一组标准，用于鉴定作为定点靶向插入(site-directedtargeted insertion)的最佳位点的天然大豆基因组序列区域。更具体地说，依照一个实施方案，最优基因座应该是非基因的(nongenic)、可靶向的(targetable)、支持基因表达的、农艺学中性的、并且具有重组的证据的。如本文中公开的，申请人已经在大豆基因组中发现了若干基因座，它们满足这些条件，因此是外源序列插入的最优位点。

依照一个实施方案，本申请公开了一种重组大豆序列，其中该重组序列包含至少1Kb的非基因大豆基因组序列，以及插入该非基因大豆基因组序列中的感兴趣的DNA，其中该非基因大豆基因组序列已经通过该感兴趣的DNA的插入而被修饰。在一个实施方案中，天然非基因大豆序列是低甲基化的、可表达的、例示(exemplify)重组的证据、并位于大豆基因组的基因区的邻近位置。在一个实施方案中，非基因序列的长度范围为约1Kb到约5.7Kb。在一个实施方案中，感兴趣的DNA包含外源DNA序列，包括例如调控序列、限制性切割位点、RNA编码区或蛋白质编码区。在一个实施方案中，感兴趣的DNA包含基因表达盒，基因表达盒包含一个或多个转基因。

依照一个实施方案，提供一种重组序列，其包含约1Kb到约5.7Kb的最优非基因大豆基因组序列，以及感兴趣的DNA，其中该非基因大豆基因组序列具有下述性质或特征中的1、2、3、4或5种：

a)在距所述大豆基因组序列40Kb之内具有已知的或预测的大豆编码序列；

b)在距所述大豆基因组序列之一端40Kb之内，具有包含已知大豆基因的上游2Kb和/或下游1Kb的序列；

c)在该序列之内不包含大于1％的DNA甲基化；

d)不含与大豆基因组内的任何其他序列具有大于40％序列同一性的1Kb序列；并且

e)以大于0.01574cM/Mb的重组频率例示重组的证据。

依照一个实施方案，提供了大豆植物、大豆植物部分或大豆植物细胞，其包含感兴趣的DNA，该感兴趣的DNA插入在该大豆植物、大豆植物部分或大豆植物细胞的被鉴定并被靶向的非基因大豆基因组序列中。在一个实施方案中，所述大豆植物、大豆植物部分或大豆植物细胞的非基因大豆基因组序列是低甲基化的、可表达的、例示重组的证据、并位于大豆基因组中基因区的邻近位置。在一个实施方案中，所述大豆植物、大豆植物部分或大豆植物细胞的非基因大豆基因组序列具有约1Kb到约5.7Kb的长度，是低甲基化的，并且具有下列性质或特征中的1、2、3或4种：

b)在距所述大豆基因组序列之一端40Kb之内，具有包含已知大豆基因的2Kb上游和/或1Kb下游的序列；

c)在该序列之内不包含大于1％的DNA甲基化；

e)以大于0.01574cM/Mb的重组频率例示重组的证据。

在一个实施方案中，提供了一种制造转基因植物细胞的方法，所述转基因植物细胞包含靶向到非基因大豆基因组序列的感兴趣的DNA，该方法包括：

a)选择最优非基因大豆基因组座位；

b)将位点特异性核酸酶导入植物细胞中，其中该位点特异性核酸酶切割所述非基因序列；

c)将感兴趣的DNA导入植物细胞中；

d)将感兴趣的DNA靶向到所述非基因序列中，其中所述非基因序列的切割刺激该多核苷酸序列整合到所述非基因序列中；和

e)选择包含靶向到所述非基因序列的感兴趣的DNA的转基因细胞。

依照一个实施方案，选定的非基因序列包括下述特征中的2、3、4、5、6、7或8种：

a)所述非基因序列不含甲基化的多核苷酸；

b)所述非基因序列展现0.01574到83.52cM/Mb的大豆基因组内重组率；

c)所述非基因序列展现0到0.494的大豆基因组核小体占据水平；

d)所述非基因序列与大豆基因组中所含的任何其他1Kb序列享有小于40％的序列同一性；

e)所述非基因序列的相对位置值为0到0.99682的与大豆染色体着丝粒的基因组距离之比；

f)所述非基因序列具有14.36％到45.9％的鸟嘌呤/胞嘧啶百分比含量范围；

g)所述非基因序列位于基因序列的邻近；并且，

h)包含所述非基因序列的大豆基因组序列的1Mb区域含有一个或多个非基因序列。

本公开的一个实施方案涉及鉴定非基因大豆基因组序列的方法，包括下述步骤：

a)鉴定长度至少1Kb、不含有大于1％的甲基化水平的大豆基因组序列，以生成第一池序列；

b)从第一池序列中淘汰任何编码大豆转录物的大豆基因组序列；

c)从第一池序列中淘汰任何不提供重组的证据的大豆基因组序列；

d)从第一池序列中淘汰任何这样的大豆基因组序列：其包含与大豆基因组中所含其他1Kb序列享有40％或更高序列同一性的1Kb序列；

e)从第一池序列中淘汰任何这样的大豆基因组序列：其在距鉴定出的序列40Kb内不具有已知的大豆基因；和

f)将序列池中剩余的大豆基因组序列鉴定为非基因大豆基因组序列。一旦序列被鉴定，可以利用重组技术操作它们，用以靶向插入在天然基因组中不见于该座位中的核酸序列。

依照一个实施方案，从非基因大豆基因组序列池中淘汰任何如下所述的大豆基因组序列：在距该大豆基因序列40Kb内不具有已知的大豆基因或已知基因的至少2Kb上游或1Kb下游序列。

依照一个实施方案，从非基因大豆基因组序列池中淘汰任何如下所述的大豆基因组序列：在距该大豆基因组序列40Kb内不具有表达大豆蛋白质的基因。

依照一个实施方案，本申请公开了一种纯化的大豆多核苷酸序列，其中该纯化的序列包含至少1Kb的非基因大豆基因组序列。在一个实施方案中，所述非基因大豆序列是低甲基化的、可表达的、例示重组的证据、且位于大豆基因组中基因区的邻近位置。在一个实施方案中，非基因序列具有范围在约1Kb到约5.7Kb的长度。在一个实施方案中，感兴趣的DNA包括外源DNA序列，包括例如调控序列、限制性切割位点、RNA编码区或蛋白质编码区。在一个实施方案中，感兴趣的DNA包含基因表达盒，基因表达盒包含一个或多个转基因。

依照一个实施方案，提供了一种纯化的大豆多核苷酸序列，其包含约1Kb至约5.7Kb的最优非基因大豆基因组序列，以及感兴趣的DNA，其中所述非基因大豆基因组序列具有下述性质或特征中的1、2、3、4或5种：

a)在距所述重组序列40Kb之内具有已知的或预测的大豆编码序列；

b)在距所述非基因之一端40Kb之内，具有包含已知大豆基因的2Kb上游和/或1Kb下游的序列；

c)不包含甲基化多核苷酸；

e)以大于0.01574cM/Mb的重组频率例示重组的证据。

依照一个实施方案，提供了一种纯化的大豆多核苷酸序列，其包含选定的非基因序列。所述选定的非基因序列包括下述特征中的2、3、4、5、6或8种：

a)所述非基因序列不含甲基化的多核苷酸；

b)所述非基因序列在大豆基因组内展现出0.01574到83.52cM/Mb的重组率；

c)所述非基因序列展现出0到0.494的大豆基因组核小体占据水平；

g)所述非基因序列位于基因序列的邻近；并且，

依照一个实施方案，从非基因大豆基因组序列池中淘汰任何如下所述的大豆基因组序列：其不以大于0.01574cM/Mb的重组频率提供重组的证据。

依照一个实施方案，选定的非基因序列包括下述特征：

a)该非基因序列在序列内不包含大于1％的DNA甲基化；

b)所述非基因序列的相对位置值为0.211到0.976的与大豆染色体着丝粒的基因组距离之比；

c)该非基因序列的鸟嘌呤/胞嘧啶百分比含量范围为25.62％到43.76％；知

d)该非基因序列的长度为约1Kb到约4.4Kb。

附图简要说明

图1显示一幅7,018个选定(select)基因组座位的三维图，这些座位聚类成32个类簇(cluster)。可以将这些类三维作图，并通过颜色或其他指示物区分。对每个类簇分配独特的标识以便可视化，其中具备相同标识的所有选定基因组座位属于相同的类簇。在聚类过程之后，从每个类簇选择出一个代表性的选定基因组座位。这是通过选择每个类簇之内与该类簇的重心最接近的选定基因组座位来进行的。

图2.提供了最优基因组座位的染色体分布的示意图，各最优基因组座位是根据分别与32个类簇中每一个的重心最接近而选择的。

图3.提供了为靶向验证而选择的最优基因组座位的大豆染色体位置的示意图。

图4.用于通过非同源末端连接(NHEJ)整合的通用供体多核苷酸序列的展示。提供了两种建议的载体，其中感兴趣的DNA(DNA X)包含位于该感兴趣的DNA的任意末端的一个或多个(即“1-N”)锌指结合位点(ZFN BS)。垂直箭头显示独特的限制性位点，水平箭头代表潜在的PCR引物位点。

图5.用于通过同源定向修复(HDR)的整合的通用供体多核苷酸序列的展示。感兴趣的DNA序列(DNA X)包含两个侧翼于感兴趣的DNA序列的同源序列(HA)区域，而锌指核酸酶结合位点(ZFN)包夹所述DNAX和HA序列。垂直的箭头显示独特的限制性位点，水平的箭头表示潜在的PCR引物位点。

图6.利用基于NHEJ的快速靶向分析(RTA)方法验证大豆选定的基因组座位靶标。

图7.pDAB124280(SEQ ID NO：7561)的质粒图。带数字的元件(即，GmPPL01ZF391R和GMPPL01ZF391L)对应于长度约20-36个碱基对、被相应的锌指核酸酶蛋白切割的锌指核酸酶结合序列。这些锌指结合序列和标注的“UZI序列”(100-150bp的模板区，含有限制位点和用于引物设计的DNA序列或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图8.pDAB124281(SEQ ID NO：7562)的质粒图。带数字的元件(即，GmPPL02ZF411R和GMPPL02ZF411L)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图9.pDAB121278(SEQ ID NO：7563)的质粒图。带数字的元件(即，GmPPL18_4和GMPPL18_3)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图10.pDAB123812(SEQ ID NO：7564)的质粒图。带数字的元件(即，ZF538R和ZF538L)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图11.pDAB121937(SEQ ID NO：7565)的质粒图。带数字的元件(即，GmPPL34ZF598L，GmPPL34ZF598R，GmPPL36ZF599L，GmPPL36ZF599R，GmPPL36ZF600L，和GmPPL36ZF600R)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图12.pDAB123811(SEQ ID NO：7566)的质粒图。带数字的元件(即，ZF 560L和ZF560R)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图13.pDAB124864(SEQ ID NO：7567)的质粒图。带数字的元件(即，ZF631L和ZF631R)对应于长度约20至35个碱基对的锌指核酸酶结合序列，其被相应的锌指核酸酶蛋白质识别并切割。这些锌指结合序列以及被标注的“UZI序列”(其为100-150bp的模板区，含有限制性位点和用于引物设计的DNA或编码序列)构成通用供体盒。该质粒设计还包含“104113重叠”，其是与质粒载体有同源性的序列，用于通用供体盒在质粒载体内的高通量组装(即通过Gibson组装)。

图14.pDAB7221(SEQ ID NO：7569)的质粒图。该质粒含有驱动GFP蛋白、且被土壤杆菌(Agrobacterium tumefaciens)(AtuORF 24 3’UTR)侧翼的木薯叶脉花叶病毒启动子(CsVMV)。

图15A-15C.鉴定出的最优非基因大豆座位的特征(长度、距座位40Kb以内的编码区的表达，以及重组频率)的直方图。图15A例示了最优基因组座位(OGL)的多核苷酸序列长度的分布。图15B例示了最优非基因玉米座位相对于它们的重组频率的分布。图15C例示了表达的核酸序列相对于它们与最优基因组座位(OGL)的接近度(log尺度)的分布。

详细说明

定义

在描述本发明并为本发明请求保护的过程中，下列术语将根据其在下文中给出的定义使用。

如本文使用的，术语“约”意指比言明的值或值的范围大或小10％，但并不意在将任何值或值的范围仅指向到该更宽泛的定义。术语“约”之后的任何值或值的范围也意在涵盖所言明的绝对值或值的范围的实施方案。

植物：如本文所使用的，术语“植物”包括整个植物及植物的任何后代、细胞、组织、或部分。术语“植物部分”包括植物的任何部分，包括，例如但不限于：种子(包括成熟种子和未成熟种子)；植物插条；植物细胞；植物细胞培养物；植物器官(如花粉、胚、花、果实、芽(shoot)、叶、根、茎、和外植体)。植物组织或植物器官可以是种子、愈伤组织、或者任何其他被组织成一定结构或功能单元的植物细胞群。植物细胞或组织培养物可能能够再生出具有该细胞或组织所来源的植物的生理学和形态学特征的植物，并且可能能够再生出与该植物具有基本上相同的基因型的植物。与之相反，一些植物细胞不能够再生产生植物。植物细胞或组织培养物中的可再生细胞可以是胚、原生质体、分生组织细胞、愈伤组织、花粉、叶、花药、根、根尖、须、花、果仁、穗、穗轴、壳、或茎。

植物部分包括可收获的部分和可用于繁殖后代植物的部分。可用于繁殖的植物部分包括，例如但不限于：种子；果实；插条；苗；块茎；和根砧木。植物的可收获部分可以是植物的任何有用部分，包括，例如但不限于：花；花粉；苗；块茎；叶；茎；果实；种子；和根。

植物细胞是植物的结构和生理的单位，植物细胞，如本文中使用的，包括原生质体和带有细胞壁的原生质体。植物细胞可以是分离的单细胞或细胞聚集体的形式(例如，松散型(friable)愈伤组织和培养细胞)，并且可以是更高级有组织单元的一部分(例如，植物组织、植物器官、和植物)。因此，植物细胞可以是原生质体、配子产生细胞、或可以再生成完整植物的细胞或细胞集合。因此，种子，因其包括多个植物细胞并能够再生为完整植物，在本文的实施方案中被认为是一种“植物部分”。

术语“原生质体”，如本文中使用的，是指细胞壁完全或部分被去除，其脂质双层膜裸露的细胞。典型地，原生质体是没有细胞壁的分离的植物细胞，其具有再生成为细胞培养物或全植物的能力。

如本文所使用的，术语“天然的”或“自然的”定义自然界中发现的状态。“天然DNA序列”是存在于自然界中的DNA序列，其通过自然手段或传统育种技术产生，而不是通过遗传工程(例如利用分子生物学/转化技术)生成。

如本文中使用的，“内源序列”定义多核苷酸、基因或多肽的在生物体中其自然位置或者生物体的基因组中的天然形式。

术语“分离的”，如本文中使用的，意指已经从其自然环境中移出。

如本文所使用的，术语“纯化的”是指分子或化合物以基本上没有在本身或自然环境下通常与该分子或化合物相关联的污染物的形式分离，并且意味着由于与原始组合物的其他组分分离而导致纯度增加。术语“纯化的核酸”在本文中用于描述这样的核酸序列：其与包括但不仅限于多肽、脂质和碳水化合物的其他化合物分离。

术语“多肽”、“肽”和“蛋白质”可互换使用，指氨基酸残基的聚合物。该术语还适用于这样的氨基酸聚合物，其中一个或多个氨基酸是相应的天然存在的氨基酸的化学类似物或修饰衍生物。

如本文中使用的，“最优双子叶植物基因组座位”、“最优非基因双子叶植物座位”、“最优非基因座位”或“最优基因组座位(OGL)”是在双子叶植物的核基因组中发现的天然DNA序列，其具有下列性质：非基因(nongenic)、低甲基化(hypomethylated)、可靶向(targetable)、且位于与基因区域(genic region)邻近的位置，其中最优双子叶植物基因组座位周围的基因组区域例示重组的证据。

如本文中使用的，术语“最优大豆基因组座位”、“最优非基因大豆座位”、“最优非基因座位”或“最优基因组座位(OGL)”可互换地用来指在双子叶植物的核基因组中发现的天然DNA序列，其具有下列性质：非基因、低甲基化、可靶向、且位于与基因区域邻近的位置，其中最优双子叶植物基因组座位周围的基因组区域例示重组的证据。

如本文中使用的，术语“非基因双子叶植物序列”或“非基因双子叶植物基因组序列”可互换地用来指在双子叶植物的核基因组中发现的天然DNA序列，长度至少为1Kb，且没有任何开放阅读框、基因序列、或基因调控序列。此外，非基因双子叶植物序列不包括任何内含子序列(即内含子被排除在“非基因”的定义之外)。非基因序列无法转录或翻译为蛋白质。许多植物基因组含有非基因区。基因组的多达95％可以是非基因的，且这些区域可能主要由重复DNA构成。

如本文中使用的，术语“非基因大豆序列”或“非基因大豆基因组序列”可互换地用来指在大豆植物的核基因组中发现的天然DNA序列，其长度至少为1Kb，且没有任何开放阅读框、基因序列、或基因调控序列。此外，非基因大豆序列不包含任何内含子序列(即内含子被排除在“非基因”的定义之外)。非基因序列无法转录或翻译为蛋白质。许多植物基因组含有非基因区。基因组的多达95％可以是非基因的，且这些区域可能主要由重复DNA构成。

如本文中使用的，“基因区”定义为包含编码RNA和/或多肽的开放阅读框的多核苷酸序列。基因区可能还涵盖涉及开放阅读框的表达调控的任何可识别的相邻5’和3’非编码核苷酸序列，直到编码区上游约2Kb及编码区下游1Kb，但可能更上游或更下游。基因区还包括基因区中可能存在的任何内含子。此外，基因区可包含单一基因序列，或多个基因序列，中间散在有非基因序列的短节段(少于1Kb)。

如本文中使用的，“感兴趣的核酸序列”、“感兴趣的DNA”、或“供体”定义为已被选择用来位点定向地、靶向地插入双子叶植物基因组，如大豆基因组的核酸/DNA序列。感兴趣的核酸可以是任何长度，例如长度为2到50,000(或之间或其上的任何整数值)个核苷酸，优选长度为约1,000到5,000(或之间的任何整数值)个核苷酸。感兴趣的核酸可包含一个或多个基因表达盒，所述基因表达盒进一步包含活跃转录和/或翻译的基因序列。反过来，感兴趣的核酸可包括这样的多核苷酸序列，其不包含功能性基因表达盒或完整基因(例如可仅包含调控序列，如启动子)，或者可能不包含任何可识别的基因表达元件或任何活跃转录的基因序列。感兴趣的核酸任选地还可含有分析域。一旦感兴趣的核酸插入双子叶植物(例如大豆)基因组，则将插入的序列称为“插入的感兴趣的DNA”。此外，感兴趣的核酸可以是DNA或RNA，可以是线性的或环状的，且可以是单链或双链的。它可以作为裸核酸、作为与一种或多种投递剂(例如脂质体、泊洛沙姆、用蛋白质包囊的T链，等等)的复合物，或包含在细菌或病毒投递载体，例如根癌土壤杆菌或腺病毒或腺伴随病毒(AAV)中投递到细胞中。

如本文中使用的，术语“分析域”限定含有这样的功能元件的核酸序列，所述功能元件帮助核酸序列的靶向插入。例如，分析域可含有特别设计的限制酶位点、锌指结合位点、工程化着陆台(landing pads)或工程化转基因整合平台，且可以包含也可以不包含基因调节元件或开放阅读框。参见，例如美国专利公开20110191899，通过提述将其整体并入本申请。

如本文中使用的，术语“选定的双子叶植物序列”限定这样的双子叶植物天然基因组DNA序列，该序列已被选定用于分析，以确定该序列是否适格为最优非基因双子叶植物基因组座位。

如本文中使用的，术语“选定的大豆序列”限定这样的大豆植物天然基因组DNA序列，该序列已被选定用于分析，以确定该序列是否适格为最优非基因大豆基因组座位。

如本文中使用的，术语“低甲基化”或“低甲基化的”，当指某个DNA序列时，定义给定的DNA序列中甲基化DNA核苷酸碱基的减少状态。通常，减少的甲基化涉及甲基化的腺嘌呤或胞嘧啶残基的数目，相对于双子叶植物植物(例如大豆植物)基因组中存在的非基因序列中所见的平均甲基化水平。

如本文中使用的，“可靶向的序列”是这样的多核苷酸序列，它在核基因组中足够独特，以容许感兴趣的核酸位点特异性地、靶向地插入一条具体的序列中。

如本文中使用的，术语“非重复的”(non-repeating)序列定义为长度至少1Kb、与双子叶植物(例如大豆)基因组内的任何其他序列有少于40％同一性的序列。序列同一性的计算可以使用本领域技术人员已知的任何标准技术来确定，包括例如，利用基于BLAST^TM的同源性搜索，针对双子叶植物基因组(例如大豆Williams82栽培种基因组)扫描选定的基因组序列，搜索使用NCBI BLAST^TM+软件(2.2.25版本)，用默认的参数设定运行该软件(Stephen F.Altschul et al(1997)，″Gapped BLAST and PSI-BLAST：a new generationof protein database search programs″，Nucleic Acids Res.25：3389-3402)。例如，当对选定的大豆序列(例如大豆栽培种Williams82基因组)进行分析时，从该搜索鉴定出的第一个BLAST^TM命中代表了双子叶植物序列(例如大豆栽培种Williams82序列)本身。为每个选定的大豆序列鉴定第二个BLAST^TM命中，并用该命中的比对覆盖度(以选定的大豆序列被BLAST^TM命中所覆盖的百分比表示)作为该选定的大豆序列在双子叶植物(例如大豆)的基因组内的独特性的量度。第二BLAST^TM命中的这些比对覆盖度值从最小0％至最大39.97％序列同一性不等。任何以更高的序列同一性水平比对的序列均不予考虑。

术语“位于与非基因区域邻近(处)的位置”当就某一非基因序列而言时，定义了该非基因序列与某个基因区的相对位置。具体而言，分析了40Kb邻近区域(即在距选定的最优大豆基因组座位序列的任意末端的40Kb之内)以内的基因区的数目。该分析通过评析基因注释信息和自单子叶植物基因组数据库(例如大豆基因组数据库(Soybean GenomicDatabase))提取的已知基因在已知双子叶植物(例如大豆)的基因组中的位置来完成。对于每个最优非基因大豆基因组座位，例如7018个最优非基因大豆基因组座位，定义一个围绕最优基因组座位序列的40Kb窗口，并计数具有与该窗口重叠的位置的已注释基因。基因区域的数目在40Kb的邻近区域内从最少1个基因到最大18个基因不等。

术语“已知的大豆编码序列”如本文使用的，涉及从任何双子叶植物基因组数据库，包括大豆基因组数据库(Soybean Genomic Database)(www.soybase.org，Shoemaker，R.C.et al.SoyBase，the USDA-ARS soybean genetics and genomics database.NucleicAcids Res.2010 Jan；38(Database issue)：D843-6)鉴定出的任何如下所述的多核苷酸序列：包含开放阅读框(在内含子序列加工之前或之后)，且当被置于合适的基因调控元件的控制之下时被转录成mRNA，且任选地翻译成蛋白质序列。已知的大豆编码序列可以是cDNA序列或基因组序列。在一些情况下，已知的大豆编码序列可以被注释为功能性蛋白质。在另一些情况下，已知的大豆编码序列可以是未注释的。

术语“预测的双子叶植物编码序列”，如本文中使用的，涉及在双子叶植物基因组数据库，例如大豆基因组数据库(Soybean Genomic Database)中描述的任何表达序列标签(EST)多核苷酸序列。EST是从利用寡聚(dT)引物引导反转录酶进行第一链合成而构建的cDNA文库中鉴定出来的。所得到的EST是少于500bp的单通过(single-pass)测序读段，自cDNA插入物的5’或3’末端获得。多个EST可以比对形成单一重叠群。鉴定出的EST序列被上传到双子叶植物基因组数据库，例如大豆基因组数据库(Soybean Genomic Database)，并可通过生物信息学方法检索，以预测相应的包含编码序列的基因组多核苷酸序列，编码序列当被置于合适的基因调控元件的控制之下时被转录成mRNA并任选地翻译成蛋白质序列。

术语“预测的大豆编码序列”，如本文中使用的，涉及在大豆的基因组数据库，例如大豆基因组数据库(Soybean Genomic Database)中描述的任何表达序列标签(EST)多核苷酸序列。EST是从利用寡聚(dT)引物引导反转录酶进行第一链合成而构建的cDNA文库中鉴定出来的。所得到的EST是少于500bp的单通过(single-pass)测序读段，自cDNA插入物的5’或3’末端获得。多个EST可以比对形成单一重叠群。鉴定出的EST序列被上传到大豆的基因组数据库，例如大豆基因组数据库(Soybean Genomic Database)，并可通过生物信息学方法检索，以预测相应的包含编码序列的基因组多核苷酸序列，编码序列当被置于合适的基因调控元件的控制之下时被转录成mRNA并任选地翻译成蛋白质序列。

术语“重组的证据”如本文中使用的，涉及任意成对的双子叶植物基因组标志物，例如大豆基因组标志物，在整个包含选定的大豆序列的染色体区域上的减数分裂重组频率。重组频率基于标志物之间的遗传距离(以厘摩(cM)计)与标志物之间的物理距离(以兆碱基(Mb)计)之比来计算。选定的大豆序列要具有重组的证据，其必须包含位于该选定的大豆序列侧翼的两个标志物之间的至少一个重组，如使用从多重定位群体产生的高分辨率标志物数据集所测得的。

如本文中使用的，术语“相对位置值”是一种计算值，其限定某个基因组座位与其相应的染色体着丝粒的距离。对于每个选定的大豆序列，测量从该选定的大豆序列的天然位置到该序列所在的染色体的着丝粒的基因组距离(以Bp计)。选定的大豆序列在染色体上的相对位置表示为该序列与着丝粒的基因组距离相对于该序列所在的具体染色体臂(以Bp计)的长度之比。可以为不同的双子叶植物生成最优非基因大豆基因组座位的这些相对位置值，大豆数据集的相对位置值的范围为从最小0到最大0.99682的基因组距离比值。

“外源DNA序列”，如本文中使用的，是任何这样的核酸序列，其已从其天然位置被移出并插入到新的位置，从而改变被移动的该核酸序列侧翼的序列。例如，外源DNA序列可包含来自其他物种的序列。

“结合”指大分子之间(例如蛋白质核酸之间)的序列特异性相互作用。并非结合相互作用的所有组成部分都需要是序列特异性的(例如与DNA骨架中的磷酸残基接触)，只要相互作用作为一个整体是序列特异性的即可。这样的相互作用通常用解离常数(Kd)来表征。“亲和力”是指结合的强度：增加的结合亲和力与较低的结合常数(Kd)相关联。

“结合蛋白”是一种能够结合另一分子的蛋白质。结合蛋白可以结合，例如，DNA分子(DNA结合蛋白)、RNA分子(RNA结合蛋白)、和/或蛋白质分子(蛋白质结合蛋白)。在蛋白质结合蛋白的情形下，它可结合自身(以形成同二聚体、同三聚体，等等)，和/或它能结合不同蛋白质(一种或多种)的一个或多个分子。结合蛋白可具有多于一种结合活性。例如，锌指蛋白具有DNA结合、RNA结合和蛋白质结合活性。

如本文中使用的，术语“锌指”限定DNA结合蛋白结合域内的氨基酸序列区域，其结构通过锌离子的配位而被稳定化。

“锌指DNA结合蛋白”(或结合域)是一种蛋白质，或某种更大的蛋白质中的域，其藉由一个或多个锌指以序列特异性的方式结合DNA，其中锌指是该结合域内的氨基酸序列区域，其结构通过锌离子的配位而被稳定化。术语“锌指DNA结合蛋白”常缩略为锌指蛋白或ZFP。锌指结合域可以被“工程化”而结合预定的核苷酸序列。工程化锌指蛋白的方法的非限定例子是设计和选择。设计的锌指蛋白是自然界中不存在的蛋白质，其设计/组成主要是通过合理标准得来的。设计的合理标准包括取代原则的应用和用于加工数据库中信息的计算机化算法，所述数据库存储现有ZFP设计和结合数据的信息。参见，例如，美国专利号6,140,081；6,453,242；6,534,261和6,794,136；另见WO 98/53058；WO 98/53059；WO 98/53060；WO02/016536和WO 03/016496。

“TALE DNA结合域”或“TALE”是包含一个或多个TALE重复域/单元的多肽。所述重复域参与TALE与其关联靶DNA序列的结合。单个“重复单元”(又称“重复”)典型地为33-35个氨基酸长，并与天然TALE蛋白内的其他TALE重复序列显示至少一些序列同源性。参见例如美国专利公开号20110301073，将其通过提述整体并入本申请。

CRISPR(成簇规律间隔短回文重复序列)/Cas(CRISPR相关)核酸酶系统。简而言之，“CRISPR DNA结合域”是一种短链RNA分子，其与CAS酶协同作用，可选择性地识别、结合和切割基因组DNA。CRISPR/Cas系统可以被工程化以在基因组的期望靶标处产生双链断裂(DSB)，且DSB的修复可被使用修复抑制物所影响，导致易错修复(error prone repair)的增加。参见例如Jinek et al(2012)Science 337，p.816-821，Jinek et al，(2013)，eLife2：e00471，and David Segal，(2013)eLife 2：e00563)。

锌指、CRISPR和TALE结合域可以被“工程化”从而结合预定的核苷酸序列，例如通过工程化天然存在的锌指的识别螺旋区(改变其一个或多个氨基酸)。类似地，可以将TALE“工程化”以结合预定的核苷酸序列，例如通过工程化DNA结合中涉及的氨基酸(重复可变二残基或RVD区)。因此，工程化的DNA结合蛋白(锌指或TALE)是非天然存在的蛋白质。用于工程化DNA结合蛋白的方法的非限制性实例是设计和选择。设计的DNA结合蛋白是在自然界不出现的蛋白质，其设计/组成主要是通过合理标准得来的。设计的合理标准包括取代原则的应用和用于加工数据库中信息的计算机化算法，所述数据库存储现有ZFP和/或TALE设计和结合数据的信息。参见例如，美国专利6,140,081；6,453,242；和6,534,261；另见WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536和WO 03/016496及美国公开号20110301073、20110239315和20119145940。

“选定的”锌指蛋白、CRISPR或TALE是自然界中不存在的蛋白质，其产生主要是经验性过程，例如噬菌体展示、相互作用陷阱(interaction trap)或杂交选择的结果。参见例如美国专利号5,789,538；US 5,925,523；US 6,007,988；US 6,013,453；US 6,200,759；WO95/19431；WO 96/06166；WO 98/53057；WO 98/54311；WO 00/27878；WO 01/60970WO 01/88197和WO 02/099084，以及美国公开号20110301073、20110239315和20119145940。

“重组”指两个多核苷酸之间遗传信息交换的过程，包括但不限于通过非同源末端连接(NHEJ)的供体捕捉和同源重组。为了本公开文本的目的，“同源重组(HR)”指例如细胞中经同源性指导修复机制的双链断裂修复期间发生的此类交换的特化形式。这种过程要求核苷酸序列同源性，使用“供体”分子作为“靶”分子(即经历双链断裂的核苷酸序列)修复的模板，而且有“非交叉基因转换”或“短束基因转换”等不同称谓，因为它引起遗传信息自供体转移至靶。不希望受任何特定理论束缚，此类转移可涉及断裂的靶和供体之间形成的异源双链体DNA的错配校正，和/或“合成依赖性链退火”，其中使用供体来再合成会变成靶一部分的遗传信息，和/或相关过程。此类特化的HR常常导致靶分子的序列改变，使得供体多核苷酸的部分或整个序列并入靶多核苷酸。对于HR指导的整合，供体分子含有至少2个长度为至少50-100个碱基对的与基因组具有同源性的区域(“同源臂”)。参见例如美国专利公开号20110281361。

在本公开文本的方法中，本文中描述的一种或多种靶向核酸酶在靶序列(例如细胞染色质)中在预定位点处创建双链断裂，而且可以将“供体”多核苷酸引入细胞，所述“供体”多核苷酸与断裂区域中的核苷酸序列具有同源性以便于HR介导的整合，或者与断裂区域中的核苷酸序列没有同源性以便于NHEJ介导的整合。双链断裂的存在已经显示出推动供体序列整合。供体序列可以物理整合，或者，供体多核苷酸作为模板用于经同源重组修复断裂，导致供体中的整个或部分核苷酸序列引入细胞染色质。如此，细胞染色质中的第一序列可以改变，而且，在某些实施方案中，可以转变成供体多核苷酸中存在的序列。如此，术语“替换”的使用可理解为表示一种核苷酸序列用另一种核苷酸序列替换，(即信息意义上的序列替换)，而且并非必然要求一种多核苷酸用另一种多核苷酸物理或化学替换。

在本文所述的任何方法中，可以使用额外的锌指蛋白、CRISPRS或TALEN，以便对细胞内额外的靶位点进行额外的双链切割。

本文中描述的任何方法均可用于插入任何大小的供体和/或通过靶向整合供体序列破坏感兴趣的基因的表达来导致细胞中一种或多种靶序列的部分或完全失活。还提供了具有部分或完全失活的基因的细胞系。

此外，如本文中描述的靶向整合方法还可以用于整合一种或多种外源序列。外源核酸序列可包含，例如，一个或多个基因或cDNA分子，或任何类型的编码或非编码序列，以及一种或多种控制元件(例如启动子)。此外，外源核酸序列(转基因)可产生一个或多个RNA分子(例如小发夹RNA(shRNA)、抑制性RNA(RNAi)、微小RNA(miRNA)，等等)或蛋白质。

“切割”如本文中使用的，定义DNA分子的磷酸-糖骨架的断裂。切割可以通过多种方式引发，包括但不限于磷酸二酯键的酶促或化学水解。单链切割和双链切割都是可能的，且双链切割可以作为两个迥异的单链切割事件的结果而发生。在特定的实施方案中，靶向双链DNA切割使用融合肽。“切割域”包含一个或多个具备DNA切割催化活性的多肽序列。且各域可包含在单一多肽链中，或者切割活性可以由两条(或更多条)多肽的缔合所导致。

“切割半域”是这样的多肽序列，其与第二多肽(相同或者不同的)一道形成具有切割活性(优选双链切割活性)的复合物。术语“第一和第二切割半域”、“+和-切割半域”，以及“右和左切割半域”可互换使用来指代成对的二聚体化的切割半域。

“工程化的切割半域”是这样的切割半域，其已经被修饰以与另一切割半域(例如另一工程化切割半域)形成专性异二聚体(obligate heterodimer)。参见例如美国专利公开2005/0064474，20070218528，2008/0131962和2011/020105，通过提述将它们整体并入本申请。

“靶位点”或“靶序列”指核酸中的部分，如果存在结合的充分条件，则结合分子将会结合该部分。

核酸包括DNA和RNA，可以是单链或双链的，可以是线性的、分支的或环状的，且可以是任何长度。核酸包括能够形成双链体者，也包括形成三链体的核酸。参见例如美国专利5,176,996和5,422,251。蛋白质包括，但不限于DNA结合蛋白、转录因子、染色体重塑因子、甲基化DNA结合蛋白、聚合酶、甲基化酶、去甲基化酶、乙酰化酶、去乙酰化酶、激酶、磷酸酶、整合酶、重组酶、连接酶、拓扑异构酶、促旋酶和螺旋酶。

“外源核酸的产物”包括多核苷酸产物和多肽产物二者，例如，转录产物(多核苷酸如RNA)和翻译产物(多肽)。

“融合”分子指其中有两个或更多个亚单位分子连接，例如共价连接的分子。亚单位分子可以是相同化学类型的分子，或者可以是不同化学类型的分子。第一类融合分子的例子包括但不限于融合蛋白(例如ZFP DNA结合域和切割域之间的融合物)和融合核酸(例如编码上文描述的融合蛋白的核酸)。第二类融合分子的例子包括但不限于三链体形成核酸和多肽之间的融合物，和小沟结合物和核酸之间的融合物。细胞中融合蛋白的表达可以是将融合蛋白投递到细胞中的结果，或者可以通过将编码融合蛋白的多核苷酸投递到细胞而实现，其中多核苷酸被转录，转录物被翻译以生成融合蛋白。细胞中蛋白质的表达还可以涉及反式剪接、多肽切割和多肽连接。在本公开内容中别处呈现了用于对细胞的多核苷酸和多肽投递的方法。

为本公开内容的目的，“基因”包括编码基因产物的DNA区(见下文)，及调节基因产物生成的所有DNA区，无论此类调控序列在编码和/或转录序列附近与否。因而，基因包括但不必限于启动子序列、终止子、翻译调控序列，诸如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和座位控制区。

“基因表达”指将基因中含有的信息转化成基因产物。基因产物可以是基因的直接转录产物(例如mRNA、tRNA、rRNA、反义RNA、干扰RNA、核酶、结构RNA或任何其它类型的RNA)或通过mRNA翻译生成的蛋白质。基因产物还包括通过诸如加帽、多聚腺苷酸化、甲基化和编辑等过程修饰的RNA，和经过修饰，例如甲基化、乙酰化、磷酸化、泛素化、ADP-核糖基化、豆蔻酰化、和糖基化修饰的蛋白质。

序列同一性：术语“序列同一性”或“同一性”，如在两个核酸或多肽序列的语境中使用的，指当两个序列被比对以在规定的比较窗口上实现最大对应时，两个序列中相同的残基数。

如本文中使用的，术语“序列同一性的百分比”是指通过在比较窗口上比较两个最优比对的序列(例如核酸序列和氨基酸序列)而确定的值，其中为了两个序列的最优比对，比较窗口中的序列部分与参照序列(其不包含添加或删除)相比可以包括添加或删除(即缺口)。百分比通过如下计算：确定在两个序列中均出现相同核苷酸或氨基酸残基的位置的数目，以产生匹配位置数，用匹配位置数除以比较窗口中的总位置数，将结果乘以100以产生序列同一性的百分比。

用于对齐序列以供比较的方法在本领域中是公知的。多种程序和比对算法记载于，例如：Smith and Waterman(1981)Adv.Appl.Math.2：482；Needleman and Wunsch(1970)J.Mol.Biol.48：443；Pearson and Lipman(1988)Proc.Natl.Acad.Sci.U.S.A.85：2444；Higgins and Sharp(1988)Gene 73：237-44；Higgins and Sharp(1989)CABIOS 5：151 3；Corpet et al.(1988)Nucleic Acids Res.16：10881-90；Huang et al.(1992)Comp.Appl.Biosci.8：155-65；Pearson et al.(1994)Methods Mol.Biol.24：307-31；Tatiana et al.(1999)FEMS Microbiol.Lett.174：247-50中。序列比对方法和同源性计算的详细讨论可以参见，例如，Altschul et al.(1990)J.Mol.Biol.215：403-10。美国国家生物技术信息中心(National Center for Biotechnology Information)(NCBI)基础本地比对搜索工具(Basic Local Alignment Search Tool)(BLAST^TM；Altschul等(1990))可从几个来源获得，包括美国国家生物技术信息中心(Bethesda，MD)和在互联网上，与几个序列分析程序联合使用。关于如何使用该程序来测定序列同一性的描述可在因特网上BLAST^TM的“帮助”部分获得。对于核酸序列的比较，可使用缺省参数来采用BLAST^TM(Blastn)程序的“Blast 2 sequences”函数。在通过此方法评估时，与参照序列具有越大的相似性的核酸序列将显示越高的序列同一性。

能够特异性杂交/能够特异性互补：如本文所使用的，术语“能够特异性杂交”和“能够特异性互补”是表明互补性的程度充分，使得在核酸分子和靶核酸分子之间产生稳定而特异的结合的术语。两个核酸分子之间的杂交涉及在两个核酸分子的核酸序列之间形成反平行对齐。两个分子随后能够与相对链的相应碱基形成氢键，从而形成一个二聚体分子，如果它足够稳定，则可以使用本领域众所周知的方法进行检测。核酸分子不需要与靶分子100％互补才能特异性杂交。然而，发生特异性杂交必须存在的序列互补性的量因杂交条件而变化。

导致特定程度的严格性的杂交条件会取决于所选杂交方法的性质和杂交核酸序列的组成及长度而变化。一般而言，杂交的温度和杂交缓冲液的离子强度(特别是Na⁺和/或Mg⁺⁺浓度)将确定杂交的严格性，尽管清洗次数也会影响严格性。获得特定程度的严格性所要求的杂交条件的计算方法是本领域普通技术人员已知的，例如，参见Sambrook et al.(ed.)Molecular Cloning：A Laboratory Manual，2^nd ed.，vol.1-3，Cold Spring HarborLaboratory Press，Cold Spring Harbor，NY，1989，chapters 9and 11；和Hames andHiggins(eds.)Nucleic Acid Hybridization，IRL Press，Oxford，1985。关于核酸杂交的更加详细的说明和指导可以参见，例如，Tijssen，“Overview of principles ofhybridization and the strategy of nucleic acid probe assays，”in LaboratoryTechniques in Biochemistry and Molecular Biology-Hybridization with NucleicAcid Probes，Part I，Chapter 2，Elsevier，NY，1993；和Ausubel et al.，Eds.，CurrentProtocols in Molecular Biology，Chapter 2，Greene Publishing and Wiley-Interscience，NY，1995。

如本文所使用的，“严格条件”包括在其中只有当杂交分子与靶核酸分子内的序列之间的错配小于20％时才发生杂交的条件。“严格条件”包括进一步特定水平的严格性。因此，如本文所使用的，“中等严格”条件是指在其中序列错配超过20％的分子将不会杂交的条件；“高严格”条件是指在其中序列错配超过10％的分子将不会杂交的条件；“极高严格”条件是指在其中序列错配超过5％的分子将不会杂交的条件。下面是代表性的、非限制的杂交条件：

高严格条件(检测具有至少90％序列同一性的序列)：在65℃的5x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中杂交16小时；在室温下用2x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)清洗2次，每次15分钟；和在65℃的0.5x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中清洗2次，每次20分钟。

中等严格条件(检测具有至少80％序列同一性的序列)：在65-70℃的5x-6x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中杂交16-20小时；在室温下用2x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)清洗2次，每次5-20分钟；和在55-70℃的1x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中清洗2次，每次30分钟。

非严格对照条件(检测具有至少50％序列同一性的序列)：在55℃的6x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)中杂交16-20小时；在室温至55℃下用2x-3x SSC缓冲液(其中SCC缓冲液含有去污剂如SDS，以及其他试剂如鲑精DNA，EDTA等等)清洗至少2次，每次20-30分钟。

如本文关于连续核酸序列所使用的，术语“基本上同源的”或“基本上同源”是指这样的连续核苷酸序列，其在严格条件下与参考核酸序列杂交。例如，与参考核酸序列基本上同源的核酸序列是如下的核酸序列，其在严格条件下(例如，上文示明的中等严格条件)与参考核酸序列杂交。基本上同源的序列可具有至少80％序列同一性。例如，基本上同源的序列可具有大约80％-100％的序列同一性，例如大约81％；大约82％；大约83％；大约84％；大约85％；大约86％；大约87％；大约88％；大约89％；大约90％；大约91％；大约92％；大约93％；大约94％；大约95％；大约96％；大约97％；大约98％；大约98.5％；大约99％；大约99.5％；和大约100％。基本上同源的性质与特异性杂交密切相关。例如，当具有充分程度的互补性，从而在期望特异性结合的条件下(例如严格杂交条件下)避免核酸与非靶序列的非特异性结合时，核酸分子是能够特异性杂交的。

在一些情况下“同源的”可用来指第一种基因和第二种基因自共同的祖先DNA序列下溯而来的关系。在这样的情况中，术语“同源物”(homolog)表示由物种形成事件(见直向同源物)分隔的基因之间的关系，或者由基因复制事件分隔的基因之间的关系(见旁系同源物)。在其他情况中，“同源的”可用来指一个或多个多核苷酸序列之间的序列同一性水平，在这样的情况下，所述一个或多个多核苷酸序列不一定从共同的祖先DNA序列下溯而来。本领域技术人员知晓术语“同源的”的可互换性，并能理解该术语的适宜应用。

如本文中使用的，术语“直向同源物”(或“直向同源的)指两个或更多个物种中由共同的祖先核苷酸序列演化而来的、且可以在该两个或更多个物种中保持相同功能的基因。

如本文中使用的，术语“旁系同源物”指通过在基因组内的复制而具有亲缘关系的基因。直向同源物在进化过程中保持相同的功能，而旁系同源物演化出新的功能，即使这些新功能与原来的基因功能无关。

如本文所使用的，对于两个核酸分子而言，当沿着5’-3’方向阅读的序列的每一个核苷酸均与沿着3’-5’方向阅读的另一个序列的每一个核苷酸互补时，则称这两个核酸分子显示“完全互补性”。与参考核苷酸序列互补的核苷酸序列将显示与参考核苷酸序列的反向互补序列相同的序列。这些术语和描述在本领域中有确切的定义，且本领域的普通技术人员容易理解。

在确定氨基酸序列之间的百分比序列同一性时，本领域技术人员周知，在不影响包含该对齐序列的多肽的期望性质的情况下，某个对齐所提供的给定位置上的氨基酸的同一性可以不同。在这些情况下，可以调整百分比序列同一性以解释被保守取代的氨基酸之间的相似性。这些调整是本领域技术人员众所周知并且普遍使用的。见，例如Myers andMiller(1988)，Computer Applications in Biosciences 4：11-7。统计学方法是本领域已知的，且可用于对鉴定的7018个最优基因组座位的分析中。

作为一个实施方案，鉴定出的最优基因组座位，它们包含7018个单独的最优基因组座位序列，可以通过F-分布检验来分析。在概率理论和统计学中，F-分布是一种连续概率分布。F-分布检验是具有F-分布的统计学显著性检验，当比较已经适配于数据集的多个统计学模型时使用来鉴定最佳适配的模型。F-分布是一种连续概率分布，又称Snedecor氏F-分布或Fisher-Snedecor分布。F-分布经常作为检验统计量的零分布出现，最显著的是在方差分析中。F-分布是一种右偏(right-skewed)分布。F-分布是不对称分布，最小值为0，但没有最大值。曲线在0右侧不远处达到峰值，然后随着F值变大逐渐接近水平轴。F-分布趋近但绝不完全接触水平轴。应当理解的是，在其他实施方案中，本领域技术人员能够得出并使用该等式的变化形式，或者乃至不同的等式，且它们可以应用于7018个单独的最优基因组座位序列的分析。

可操作连接：当第一核苷酸序列与第二核苷酸序列存在功能关系时，则该第一核苷酸序列与第二核苷酸序列“可操作连接”。例如，如果启动子影响编码序列的转录或表达，则启动子与该编码序列可操作地连接。如果可操作地连接的核苷酸序列是重组产生的，则这些核苷酸序列通常是连续的，并且在需要连接两个蛋白编码区时，这些核苷酸序列将共阅读框。然而，可操作地连接的核苷酸序列不一定连续的。

术语“可操作地连接的”，在用来指基因调控序列和编码序列时，其意思是调控序列影响所连接的编码序列的表达。“调控序列”、“调控元件”或“控制元件”是指影响转录的时机和水平/量，RNA加工或稳定性，或相关编码序列的翻译的核苷酸序列。调控序列可以包括启动子；翻译前导序列；内含子；增强子；茎环结构；阻遏物结合序列；终止序列；多聚腺苷酸化识别序列；等。特定的调控序列可位于与之可操作地连接的编码序列的上游和/或下游。此外，与编码序列可操作地连接的特定调控序列可位于双链核酸分子的相关互补链上。

当用来指两条或更多条氨基酸序列时，术语“可操作连接”意指第一氨基酸序列与至少一条其他氨基酸序列处于功能性关系中。

公开的方法和组合物包括融合蛋白，其包含与DNA结合域(例如ZFP)可操作连接的切割域，其中所述DNA结合域通过结合大豆最优基因组座位中的序列将该切割域的活性引导到所述序列的附近，由此在最优基因组座位中诱导双链断裂。如本公开文本中他处陈述的，锌指域可以被工程化从而结合几乎任何期望的序列。相应地，一个或多个DNA结合域可以被工程化从而结合最优基因组座位中的一个或多个序列。包含DNA结合域和切割域的融合蛋白在细胞中的表达导致靶位点处或附近的切割。

实施方案

将转基因和转基因堆叠靶向到双子叶植物植物(如大豆植物)的基因组中的特定位置，将改善转基因事件的质量、减少与转基因事件的产生相关的成本，并提供制造转基因植物产品的新方法，例如顺序基因堆叠。总的来说，将转基因靶向到特定的基因组位点可能是产业上有益的。最近几年，新的位点特异性核酸酶，如ZFN、CRISPR和TALEN的开发已经取得了显著的进展，这些位点特异性核酸酶能够易化供体多核苷酸对植物和其他基因组中预先选定的位点的添加。然而，关于适合靶向的基因组位点的属性则知之甚少。过去历来用基因组中的非关键基因及病原体(病毒)整合位点作为靶向的座位。此类位点在基因组中的数目相当有限，因此有需要鉴定和表征能够用于靶向供体多核苷酸序列的最优可靶向基因组座位。除了易于靶向之外，预期最优基因组座位是中性位点，能够支持转基因表达和育种应用。

申请人已经意识到更多的关于插入位点的标准是理想的，并且已经将这些标准合并起来以鉴定并选择双子叶植物基因组(例如大豆基因组)中最优的位点，用于插入外源序列。为了靶向的目的，选定的插入的位点需要是独特的，并且需要在双子叶植物(例如大豆植物)的基因组的非重复区中。类似地，供插入用的最优基因组位点应当具备最少的不良表型效应，并容易发生重组事件，以便于利用传统育种技术渗入农艺学上优良的品系。为了鉴定符合列出标准的基因组座位，利用定制的生物信息学途径和基因组规模数据集来扫描大豆植物的基因组，鉴定出了具备对于多核苷酸供体序列之整合及插入的编码序列之后续表达有利的特征的新基因组座位。

I.非基因大豆基因组座位的鉴定

依照一个实施方案，提供一种鉴定用于插入外源序列的最优非基因大豆基因组序列的方法。该方法包括下述步骤：首先鉴定长度至少1Kb的、低甲基化的大豆基因组序列。在一个实施方案中，低甲基化的基因组序列的长度为1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、10、11、12、13、14、15、16或17Kb。在一个实施方案中，低甲基化的基因组序列长度为约1至约5.7Kb，且在一个进一步的实施方案中，长度为约2Kb。如果某个序列内的DNA甲基化少于1％，则认为该序列是低甲基化的。在一个实施方案中，测量甲基化状态的基础是：选定的大豆序列内一个或多个CpG二核苷酸、CHG或CHH三核苷酸处的5-甲基胞嘧啶的存在，相对于在正常对照DNA样品内的相应CpG二核苷酸、CHG或CHH三核苷酸处发现的总胞嘧啶量。CHH甲基化表示5-甲基胞嘧啶后随两个可能不是鸟嘌呤的核苷酸，而CHG甲基化指5-甲基胞嘧啶后随腺嘌呤、胸腺嘧啶或胞嘧啶，然后是鸟嘌呤。更具体地，在一个实施方案中，选定的大豆序列在该选定的大豆序列中每500个核苷酸具有少于1个、2个或3个甲基化核苷酸。在一个实施方案中，选定的大豆序列在该选定的大豆序列中每500个核苷酸具有少于1个、2个或3个CpG二核苷酸处的5-甲基胞嘧啶。在一个实施方案中，选定的大豆序列长度为1-4Kb，且包含1Kb没有5-甲基胞嘧啶的序列。在一个诶中，选定的大豆序列长度为1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、或6Kb，且在其全长上含有1个或0个甲基化核苷酸。在一个实施方案中，选定的大豆序列长度为1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、或6Kb，且在其全长上在CpG二核苷酸处不含有5-甲基胞嘧啶。根据一个实施方案，选定的大豆序列的甲基化可基于来源组织而变化。在这样的实施方案中，用于确定序列是否为低甲基化的甲基化水平代表了从两种或更多种组织(例如从根和芽)分离的序列中的平均甲基化量。

除了最优基因组位点须为低甲基化这一要求之外，选定的大豆序列还必须是非基因的。相应地，对所有低甲基化的基因组序列进一步筛选以淘汰含有基因区的低甲基化序列。这包括任何开放阅读框，无论转录物是否编码蛋白质。将包含基因区一包括任何可识别的牵涉开放阅读框的表达调控的邻近5’和3’非编码核苷酸序列以及基因区中可能存在的任何内含子一的低甲基化基因组序列，排除在本公开的最优非基因大豆基因组座位之外。

最优非基因大豆基因组座位还必须是已表现了重组的证据的序列。在一个实施方案中，选定的大豆序列必须是其中在该选定的大豆序列侧翼的两个标志物之间已检测到至少一个重组事件，如利用从多重定位群体生成的高分辨标志物数据集所检测的。在一个实施方案中，使用位于包含选定的大豆序列的0.5、1、1.5Mb双子叶植物基因组序列(例如大豆基因组序列)的成对标志物来计算该选定的大豆序列的重组频率。每对标志物之间的重组频率(以厘摩(cM)量度)比该对标志物之间的基因组物理距离(以Mb计)必须大于0.0157cM/Mb。在一个实施方案中，包含选定的大豆序列的1Mb大豆基因组序列的重组频率在约0.01574cM/Mb至约83.52cM/Mb的范围。在一个实施方案中，最优基因组座位是在选定的大豆序列中已经检测到重组事件者。

最优非基因大豆基因组座位还会是可靶向的序列，即在大豆基因组中相对独特的序列，使得靶定选定的大豆序列的基因将会仅插入大豆基因组的一个位置。在一个实施方案中，最优基因组序列的全长与大豆基因组中包含的长度相似的其他序列享有的序列同一性小于30％、35％或40％。相应地，在一个实施方案中，选定的大豆序列不能包含与大豆基因组中包含的其他1Kb序列享有多于25％，30％，35％或40％序列同一性的1Kb序列。在一个进一步的实施方案中，选定的大豆序列不能包含与大豆基因组中包含的其他500bp序列享有多于30％，35％或40％序列同一性的500bp序列。在一个实施方案中，选定的大豆序列不能包含与某一双子叶植物植物(例如大豆植物)的基因组中包含的其他1Kb序列享有多于40％序列同一性的1Kb序列。

最优非基因大豆基因组座位还将邻近于基因区。更具体地说，选定的大豆序列必须位于基因区的附近(例如，如在天然基因组中所见的，基因区必须在侧翼于且邻接于选定大豆序列之任一末端的40Kb基因组序列之内)。在一个实施方案中，如在天然大豆基因组中所见的，基因区在邻接于选定大豆序列之任一末端的10、20、30或40Kb的基因组序列之内。在一个实施方案中，两个或更多个基因区位于选定大豆序列的两个末端侧翼的10、20、30或40Kb的邻接基因组序列之内。在一个实施方案中，1-18个基因区位于选定的大豆序列的两个末端侧翼的10、20、30或40Kb的邻接基因组序列之内。在一个实施方案中，两个或更多个基因区位于包含选定的大豆序列的20、30或40Kb基因组序列之内。在一个实施方案中，1-18个基因区位于包含选定的大豆序列的40Kb基因组序列之内。在一个实施方案中，位于选定的大豆序列侧翼的10、20、30或40Kb的邻接基因组序列之内的基因区包含某一双子叶植物植物(例如大豆植物)的基因组中的已知基因。

依照一个实施方案，提供修饰的非基因大豆基因组座位，其中该座位的长度为至少1Kb，是非基因的，不包含甲基化胞嘧啶残基，在涵盖大豆基因组座位的1Mb基因组区域上具有大于0.01574cM/Mb的重组频率，且该大豆基因组座位的1Kb序列与该双子叶植物基因组中包含的任何其他1Kb序列享有少于40％序列同一性，其中该非基因大豆基因组座位被该非基因大豆基因组座位中感兴趣的DNA序列的插入所修饰。

依照一个实施方案，提供了一种鉴定最优非基因双子叶植物基因组座位，包括例如大豆基因组座位的方法。在一个实施方案中，该方法首先包括筛选双子叶植物基因组以生成第一池的选定大豆序列，这些序列的最小长度为1Kb且是低甲基化的，任选地其中基因组序列具有少于1％甲基化，任选地其中该基因组序列没有任何甲基化的胞嘧啶残基。可以进一步筛选该第一池选定的大豆序列以淘汰不符合最优非基因大豆基因组座位的要求的座位。将编码双子叶植物转录物、与具有相似长度的其他序列享有大于40％或更高的序列同一性、不显示重组的证据、且在距该选定大豆序列40Kb以内不具有已知的开放阅读框的双子叶植物基因组序列，例如从大豆获得的那些，从第一池序列中淘汰，留下适格为最优非基因大豆作为的第二池序列。在一个实施方案中，从所述第一池序列中淘汰任何如下所述的选定大豆序列：其在距所述非基因序列的一端40Kb之内不具有已知的双子叶植物基因(例如大豆基因)亦不具有包含已知双子叶植物基因的2Kb上游和/或1Kb下游区的序列。在一个实施方案中，淘汰任何如下所述的选定大豆序列：其在距该选定的大豆序列40Kb之内不含有编码蛋白质的已知基因。在一个实施方案中，淘汰任何如下所述的选定大豆序列：其不具有大于0.01574cM/Mb的重组频率。

利用这些选择标准，申请人已经鉴定了可充当最优非基因大豆基因组座位的选定双子叶植物(例如大豆)最优基因组座位，它们的序列作为SEQ ID NO：1-SEQ ID NO：7,018公开。本公开内容还涵盖所鉴定的最优非基因大豆基因组座位的自然变体或修饰衍生物，其中所述变体或衍生座位包含与SEQ ID NO：1-SEQ ID NO：7,018的任何序列相差1、2、3、4、5、6、7、8、9或10个核苷酸的序列。在一个实施方案中，供依照本公开使用的最优非基因大豆基因组座位包含选自SEQ ID NO：1-SEQ ID NO：7,018的序列或者与选自SEQ ID NO：1-SEQID NO：7,018的序列享有90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。

在另一个实施方案中，供依照本公开使用的双子叶植物植物包括选自下组的任何植物：大豆植物、芥花(canola)植物、油菜植物、芸苔(Brassica)植物、棉花植物，和向日葵植物。可以使用的双子叶植物植物的例子包括，但不限于芥花、棉花、马铃薯、藜麦(quinoa)、苋(amaranth)、荞麦、红花、大豆、甜菜、向日葵、芥花、油菜、烟草、拟南芥(Arabidopsis)、芸苔(Brassica)和棉花。

在另一个实施方案中，供用于依照本公开使用的最优非基因大豆基因组座位包含选自大豆植物的序列。在一个进一步的实施方案中，供用于依照本公开使用的最优非基因大豆基因组座位包含选自大豆(Glycine max)近交物的序列。相应地，大豆近交物包括其农艺学优良品种。在一个接下来的实施方案中，供用于依照本公开使用的最优非基因大豆基因组座位包含选自可转化大豆系的序列。在一个实施方案中，代表性的可转化大豆系包括：Maverick，Williams82、Merrill JackPeking、Suzuyutaka、Fayette、Enrei、Mikawashima、WaseMidori、Jack、Leculus、Morocco、Serena、Maple prest、Thorne、Bert、Jungery、A3237、Williams、Williams79、AC Colibri、Hefeng 25、Dongnong 42、Hienong 37、Jilin 39、Jiyu58、A3237、Kentucky Wonder、Minidoka、及其衍生物。本领域技术人员会理解，作为系统发生趋异的结果，各种大豆品系不包含相同的基因组DNA序列，且在基因组序列内可存在多态性或等位基因变异。在一个实施方案中，本公开涵盖鉴定出的最优非基因大豆基因组座位的这样的多态性或等位基因变异，其中所述多态性或等位基因变包含与SEQ ID NO：1-SEQID NO：7,018中的任何序列相差1，2，3，4，5，6，7，8，9或10个核苷酸的序列。在一个进一步的实施方案中，本公开涵盖鉴定出的最优非基因大豆基因组座位的这样的多态性或等位基因变异，其中包含所述多态性或等位基因变异的序列与SEQ ID NO：1-SEQ ID NO：7,018的任何序列享有90％，91％，92％，93％，94％，95％，96％，97％，98％或99％序列同一性。

通过使用多元分析方法加以分析，可以将鉴定出的包含7,018个序列的最优基因组座位分类为不同亚群。任何多元分析统计程序的应用被用于发现一组变量的潜在结构(维度)。可以使用多种不同类型的多元算法，例如，可以用多元回归分析、逻辑斯蒂回归分析、判别分析、多元方差分析(MANOVA)、因子分析(包括共同因子分析和主成分分析二者)、聚类分析、多维量表法、对应分析、联合分析、典型分析(canonical analysis)、典型相关、以及结构等式建模(structural equation modeling)。

依照一个实施方案，使用多元数据分析，如主成分分析(PCA)对所述最优非基因大豆基因组座位进一步分析。这里只会简短说明，更多信息可见H.Martens，T.Naes，Multivariate Calibration，Wiley，N.Y.，1989。PCA评估数据的基础维度(潜在变量(latent variables))，并给出对数据中的优势模式和主要趋势的概览。在一个实施方案中，可以通过主成分分析(PCA)统计学方法将所述最优非基因大豆基因组座位分选为类簇。PCA是一种数学程序，利用正交变换将一组可能相关的变量的观察结果转变成一组线性非相关的变量(称为主成分)的值。主成分的数目少于或等于原始变量的数目。这种变换如此定义，使得第一个主成分具有最大的可能方差(即，尽可能多地解释数据中的变异性)，后续的每一个成分在其与在先组分正交(即与在先组分不相关)的约束条件下依次具有最高的可能方差。主成分分析保证是独立的，如果数据集是联合正态分布的。PCA对原始变量的相对比例敏感。利用PCA基于一组实体的特征对该组实体聚类的实例包括：Ciampitti，I.etal.，(2012)Crop Science，52(6)；2728-2742，Chemometrics：A Practical Guide，KennethR.Beebe，Randy J.Pell，and Mary Beth Seasholtz，Wiley-Interscience，1 edition，1998，美国专利号8,385,662，和欧洲专利号2,340,975。

依照一个实施方案，对7018个最优大豆基因组座位进行了主成分分析(PCA)，其中对于每个鉴定出的最优大豆基因组座位使用下面的10个特征：

1.最优大豆基因组座位(OGL)周围的低甲基化区域的长度

a.利用高通量全基因组测序途径构建从双子叶植物植物(例如大豆栽培种Williams82)分离的根和芽组织的DNA甲基化概貌。对提取出的DNA进行亚硫酸盐处理，亚硫酸盐处理将未甲基化的胞嘧啶转化为尿嘧啶，但不影响甲基化的胞嘧啶，然后用IlluminaHiSeq技术(Krueger，F.et al.DNA methylome analysis using short bisulfitesequencing data.Nature Methods 9，145-151(2012))测序。利用Bismark^TM定位软件(如Krueger F，Andrews SR(2011)Bismark：a flexible aligner and methylation callerfor Bisulfite-Seq applications.(Bioinformatics 27：1571-1572)中描述的)将原始测序读段定位到双子叶植物参照序列，例如大豆参照序列。利用描述的甲基化概貌来计算每个OGL周围低甲基化区域的长度。

2.OGL周围1MB区域中的重组率

a.对于每个OGL，鉴定位于该OGL的每一侧上1Mb窗口以内的一对标志物。基于标志物之间的遗传距离(以厘摩(cM)计)对标志物之间的基因组物理距离(以Mb计)计算在整个染色体上每对标志物之间的重组频率。

3.OGL序列独特性的水平

a.对于每个OGL，利用基于BLAST的同源性检索将OGL的核苷酸序列对双子叶植物植物的基因组(例如大豆栽培种Williams82基因组)扫描。由于这些OGL序列是从双子叶植物的基因组，例如大豆栽培种Williams82基因组鉴定出来的，通过此检索鉴定的第一个BLAST命中代表的是OGL序列本身。为每个OGL鉴定第二个BLAST命中，并使用该命中的比对覆盖度(alignment coverage)作为该OGL序列在双子叶植物基因组，例如大豆基因组中的独特性的量度。

4.从OGL到其相邻区域中的最接近基因的距离

a.从已知的双子叶植物基因组数据库，例如大豆基因组数据库(www.soybase.org)，提取基因注释信息和已知基因在双子叶植物基因组(例如大豆栽培种Williams82基因组)中的位置。对于每个OGL，鉴定其上游或下游附近的最接近的已注释基因，并测量OGL序列与该基因的距离(以bp计)。

5.OGL相邻区域中的GC％

a.对于每个OGL，分析核苷酸序列以估计存在的鸟嘌呤和胞嘧啶碱基的数目。该计数以占每个OGL的序列长度的百分比表示，且提供了GC％的量度。

6.OGL周围40Kb相邻区域中的基因数

a.从已知的双子叶植物基因组数据库，例如大豆基因组数据库(www.soybase.org)，提取基因注释信息和已知基因在双子叶植物基因组(例如大豆栽培种Williams82基因组)中的位置。对于每个OGL，定义OGL周围的一个40Kb窗口，计算具有与该窗口重叠的位置的已注释基因的数目。

7.OGL周围40Kb相邻区域中的平均基因表达

a.使用RNAseq技术，通过分析从双子叶植物植物芽组织(例如大豆栽培种Williams82根和芽组织)产生的转录组概貌数据来测量双子叶植物基因的转录物水平表达。对于每种OGL，鉴定在该双子叶植物基因组(例如大豆栽培种Williams82基因组)中该OGL周围40Kb相邻区域中存在的已注释基因。从前面的引文中描述的转录组概貌中提取每个基因的表达水平，并计算平均基因表达水平。

8.OGL周围的核小体占据水平

a.对特定核苷酸的核小体占据水平的辨析可提供关于染色体功能和序列的基因组环境的信息。NuPoP^TM统计学程序包提供了一种用户友好的软件工具，用于为任何大小的基因组序列预测核小体占据和最似然的核小体定位图(Xi，L.，Fondufe-Mittendor，Y.，Xia，L.，Flatow，J.，Widom，J.and Wang，J.-P.，Predicting nucleosome positioningusing a duration Hidden Markov Model，BMC Bioinformatics，2010，doi：10.1186/1471-2105-11-346)。对于每个OGL，将核苷酸序列提交给NuPoP^TM软件，计算核小体占据得分。

9.染色体内的相对位置(对着丝粒的接近度)

a.从双子叶植物基因组数据库，例如大豆基因组数据库(www.soybase.org)，提取关于着丝粒在每个双子叶植物染色体(例如大豆染色体)中的位置，以及染色体臂的长度的信息。对于每个OGL，测量从OGL序列到其所在的染色体的着丝粒的基因组距离(以bp计)。OGL在染色体内的相对位置表示为其到着丝粒的基因组距离相对于其所在的具体染色体臂的长度之比。

10.OGL周围1Mb区域中OGL的数目

a.对于每个OGL，定义OGL位置周围的1Mb基因组窗口，并统计该双子叶植物1KbOGL数据集中基因组位置与该窗口重叠的OGL的数目。

实施例2的表3中进一步描述了每个最优非基因大豆基因组座位的特征和属性的得分的结果或值。使用所得的数据集在PCA统计学方法中将7018个鉴定的最优非基因大豆基因组座位聚类为类簇。在聚类过程中，在估计了最优基因组座位的“p”主成分之后，将最优基因组座位指配到32个类簇之一的过程在“p”维欧几里得空间中进行。将每个“p”轴分解为“k”个区间。将被指配到相同区间的最优基因组座位组合到一起形成类簇。使用该分析，每个PCA轴被分为两个区间，根据关于实验验证所需的类簇数的事先信息加以选择。所有分析和对所得的类簇的可视化均使用来自Chemical Computing Group Inc.(Montreal，Quebec，Canada)的Molecular Operating Environment^TM(MOE)软件来实施。利用该PCA途径将7018个最优大豆基因组座位基于它们的特征值(如上所述)聚类成32个独特的类簇。

在PCA过程中，产生了5个主成分(PC)，其中最先3个PC含有数据集中总变异的约90％(表4)。用这3个PC在3维作图中图形化表现所述32个类簇(见图1)。在聚类过程完成之后，从每个类簇选择一个代表性的最优基因组座位。这通过用计算机方法选择每个类簇内与该类簇的形心最接近的选定最优基因组座位来实现(表4)。32个代表性的最优基因组座位的染色体位置在大豆染色体中分布均匀，如图2所示。

在一个实施方案中，提供了分离或纯化的最优非基因大豆基因组座位序列，其选自实施例2表6中描述的任何类簇。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇1的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇2的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇3的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇4的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇5的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇6的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇7的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇8的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇9的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇10的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇11的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇12的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇13的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇14的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇15的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇16的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇17的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇18的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇19的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇20的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇21的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇22的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇23的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇24的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇25的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇26的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇27的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇28的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇29的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇30的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇31的基因组序列。在一个实施方案中，所述分离或纯化的最优非基因大豆基因组座位序列是选自类簇32的基因组序列。

依照一个实施方案，提供修饰的最优非基因大豆基因组座位，其中该最优非基因大豆基因组座位已经被修饰，且包含一个或多个核苷酸取代、缺失或插入。在一个实施方案中，所述最优非基因大豆基因组座位通过感兴趣的DNA序列的插入而被修饰，任选地伴随基因组座位序列的进一步的核苷酸重复、缺失或倒位。

在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自实施例2表6的任何类簇的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇2的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇3的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇4的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇5的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇6的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇7的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇8的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇9的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇10的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇11的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇12的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇13的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇14的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇15的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇16的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇17的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇18的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇19的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇20的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇21的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇22的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇23的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇24的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇25的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇26的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇27的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇28的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇29的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇30的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇31的基因组序列。在一个实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇32的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30或31的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29或30的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28或29的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27或28的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26或27的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25或26的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24或25的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23或24的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22或23的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21或22的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20或21的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19或20的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18或19的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17或18的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16或17的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15或16的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14或15的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13或14的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12或13的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11或12的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10或11的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9或10的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8或9的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7或8的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6或7的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5或6的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4或5的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3或4的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2或3的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1或2的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30或32的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29或32的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，或32的基因组序列。

在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，或27的基因序列序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，9，10，11，12，18，19，20，21，22，23，24，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，15，16，17，18，25，26，27，28，29，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，21，22，23，24，30，31或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇2，4，6，8，10，12，14，16，18，20，22，24，26，28，30或32的基因组序列。在一个进一步的实施方案中，要修饰的最优非基因大豆基因组座位是选自类簇1，3，5，7，9，11，13，15，17，19，21，23，25，27，29或31的基因组序列。

在一个实施方案中，最优非基因大豆基因组座位选自基因组序列soy_ogl_2474(SEQ ID NO：1)，soy_ogl_768(SEQ ID NO：506)，soy_ogl_2063(SEQ ID NO：2063)，soy_ogl_1906(SEQ ID NO：1029)，soy_ogl_1112(SEQ ID NO：1112)，soy_ogl_3574(SEQ ID NO：1452)，soy_ogl_2581(SEQ ID NO：1662)，soy_ogl_3481(SEQ ID NO：1869)，soy_ogl_1016(SEQ ID NO：2071)，soy_ogl_937(SEQ ID NO：2481)，soy_ogl_6684(SEQ ID NO：2614)，soy_ogl_6801(SEQ ID NO：2874)，soy_ogl_6636(SEQ ID NO：2970)，soy_ogl_4665(SEQ IDNO：3508)，soy_ogl_3399(SEQ ID NO：3676)，soy_ogl_4222(SEQ ID NO：3993)，soy_ogl_2543(SEQ ID NO：4050)，soy_ogl_275(SEQ ID NO：4106)，soy_ogl_598(SEQ ID NO：4496)，soy_ogl_1894(SEQ ID NO：4622)，soy_ogl_5454(SEQ ID NO：4875)，soy_ogl_6838(SEQ IDNO：4888)，soy_ogl_4779(SEQ ID NO：5063)，soy_ogl_3333(SEQ ID NO：5122)，soy_ogl_2546(SEQ ID NO：5520)，soy_ogl_796(SEQ ID NO：5687)，soy_ogl_873(SEQ ID NO：6087)，soy_ogl_5475(SEQ ID NO：6321)，soy_ogl_2115(SEQ ID NO：6520)，soy_ogl_2518(SEQ IDNO：6574)，soy_ogl_5551(SEQ ID NO：6775)，和soy_ogl_4563(SEQ ID NO：6859)。

在一个实施方案中，最优非基因大豆基因组座位选自基因组序列soy_ogl_308(SEQ ID NO：43)，soy_ogl_307(SEQ ID NO：566)，soy_ogl_2063(SEQ ID NO：748)，soy_ogl_1906(SEQ ID NO：1029)，soy_ogl_262(SEQ ID NO：1376)，soy_ogl_5227(SEQ ID NO：1461)，soy_ogl_4074(SEQ ID NO：1867)，soy_ogl_3481(SEQ ID NO：1869)，soy_ogl_1016(SEQ ID NO：2071)，soy_ogl_937(SEQ ID NO：2481)，soy_ogl_5109(SEQ ID NO：2639)，soy_ogl_6801(SEQ ID NO：2874)，soy_ogl_6636(SEQ ID NO：2970)，soy_ogl_4665(SEQ IDNO：3508)，soy_ogl_6189(SEQ ID NO：3682)，soy_ogl_4222(SEQ ID NO：3993)，soy_ogl_2543(SEQ ID NO：4050)，soy_ogl_310(SEQ ID NO：4326)，soy_ogl_2353(SEQ ID NO：4593)，soy_ogl_1894(SEQ ID NO：4622)，soy_ogl_3669(SEQ ID NO：4879)，soy_ogl_3218(SEQ ID NO：4932)，soy_ogl_5689(SEQ ID NO：5102)，soy_ogl_3333(SEQ ID NO：5122)，soy_ogl_2546(SEQ ID NO：5520)，soy_ogl_1208(SEQ ID NO：5698)，soy_ogl_873(SEQ IDNO：6087)，soy_ogl_5957(SEQ ID NO：6515)，soy_ogl_4846(SEQ ID NO：6571)，soy_ogl_3818(SEQ ID NO：6586)，soy_ogl_5551(SEQ ID NO：6775)，soy_ogl_7(SEQ ID NO：6935)，soy_OGL_684(SEQ ID NO：47)，soy_OGL_682(SEQ ID NO：2101)，soy_OGL_685(SEQ ID NO：48)，soy_OGL_1423(SEQ ID NO：639)，soy_OGL_1434(SEQ ID NO：137)，soy_OGL_4625(SEQID NO：76)，和soy_OGL_6362(SEQ ID NO：440)。

在一个实施方案中，用感兴趣的DNA序列靶向所述最优非基因大豆基因组座位，其中该感兴趣的DNA序列整合到锌指核酸酶靶位点之内或附近。依照该实施方案，在表8中给出了最优玉米选定基因组座位的示例性锌指靶位点。依照一个实施方案，感兴趣的DNA序列的整合在下述示例性靶位点之内或附近发生：SEQ ID NO：7363和SEQ ID NO：7364，SEQ IDNO：7365和SEQ ID NO：7366，SEQ ID NO：7367和SEQ ID NO：7368，SEQ ID NO：7369和SEQ IDNO：7370，SEQ ID NO：7371和SEQ ID NO：7372，SEQ ID NO：7373和SEQ ID NO：7374，SEQ IDNO：7375和SEQ ID NO：7376，SEQ ID NO：7377和SEQ ID NO：7378，SEQ ID NO：7379和SEQ IDNO：7380，SEQ ID NO：7381和SEQ ID NO：7382，SEQ ID NO：7383和SEQ ID NO：7384，SEQ IDNO：7385和SEQ ID NO：7386，SEQ ID NO：7387和SEQ ID NO：7388，SEQ ID NO：7389和SEQ IDNO：7390，SEQ ID NO：7391和SEQ ID NO：7392，SEQ ID NO：7393和SEQ ID NO：7394，SEQ IDNO：7395和SEQ ID NO：7396，SEQ ID NO：7397和SEQ ID NO：7398，SEQ ID NO：7399和SEQ IDNO：7400，SEQ ID NO：7401和SEQ ID NO：7402，SEQ ID NO：7403和SEQ ID NO：7404，SEQ IDNO：7405和SEQ ID NO：7406，SEQ ID NO：7407和SEQ ID NO：7408，SEQ ID NO：7409和SEQ IDNO：7410，SEQ ID NO：7411和SEQ ID NO：7412，SEQ ID NO：7413和SEQ ID NO：7414，SEQ IDNO：7415和SEQ ID NO：7416，SEQ ID NO：7417和SEQ ID NO：7418，SEQ ID NO：7419和SEQ IDNO：7420，SEQ ID NO：7421和SEQ ID NO：7422，SEQ ID NO：7423和SEQ ID NO：7424，SEQ IDNO：7425和SEQ ID NO：7426。

依照一个实施方案，锌指核酸酶结合所述锌指靶位点并切割独特的大豆基因组多核苷酸靶位点，此时该感兴趣的DNA序列整合到大豆基因组多核苷酸靶位点之内或附近。在一个实施方案中，在锌指靶位点之内的感兴趣的DNA序列的整合可能导致重排。依照一个实施方案，重排可包括缺失、插入、倒位和重复。在一个实施方案中，感兴趣的DNA序列整合到锌指靶位点附近。根据该实施方案的一个方面，该DNA的整合发生在锌指靶位点的附近，且可以整合在距该锌指靶位点2Kb，1.75Kb，1.5Kb，1.25Kb，1.0Kb，0.75Kb，0.5Kb，或0.25Kb之内。插入锌指靶位点附近的基因组区域之内是本领域已知的，见美国专利公开号2010/0257638A1(通过提述将其整体并入本文)。

根据一个实施方案，选定的非基因序列包括下述特征：

a)该非基因序列在该序列内不含有多于1％DNA甲基化；

b)该非基因序列的相对位置值为0.211到0.976的距大豆染色体着丝粒的基因组距离比值；

c)该非基因序列具有25.62至43.76％的鸟嘌呤/胞嘧啶百分比含量范围；和

d)该非基因序列的长度为约1Kb至约4.4Kb。

II.鉴定出的最优非基因大豆基因组座位的重组衍生物

依照一个实施方案，在将双子叶植物植物(例如大豆植物)的基因组座位鉴定为插入多核苷酸供体序列的高度理想位置之后，可以将一个或多个感兴趣的核酸序列插入鉴定出的基因组座位。在一个实施方案中，感兴趣的核酸包含外源基因序列或其他理想的多核苷酸供体序列。在另一个实施方案中，在将双子叶植物植物(例如大豆植物)的基因组座位鉴定为插入多核苷酸供体序列的高度理想位置之后，可以任选地删除、切除或移除该最优非基因大豆基因组座位的一个或多个感兴趣的核酸，然后整合感兴趣的DNA序列到鉴定出的基因组座位中。在一个实施方案中，最优非基因大豆基因组座位中感兴趣的核酸的插入包括外源基因序列或其他理想的多核苷酸供体序列的移除、删除或切除。

本公开还涉及用于利用ZFN和多核苷酸供体构建体靶向整合到选定的大豆基因组座位中的方法和组合物。用于将感兴趣的核酸序列插入最优非基因大豆基因组座位的方法，除非另有说明，使用分子生物学、生物化学、染色质结构和分析、细胞培养、重组DNA和相关领域中的常规技术，如本领域技术人员能够实施的。这些技术在文献中有充分说明。参见例如，Sambrook et al.MOLECULAR CLONING：A LABORATORY MANUAL，Second edition，ColdSpring Harbor Laboratory Press，1989及Third edition，2001；Ausubel et al.，CURRENT PRO TOCOLS IN MOLECULAR BIOLOGY，John Wiley&Sons，New York，1987及定期更新；METHODS IN ENZYMOLOGY系列，Academic Press，San Diego；Wolfe，CHROMATINSTRUCTURE AND FUNCTION，Third edition，Academic Press，San Diego，1998；METHODS INENZYMOLOGY，Vol.304，″Chromatin″(P.M.Wassarman and A.P.Wolffe，eds.)，AcademicPress，San Diego，1999；和METHODS IN MOLECULAR BIOLOGY，Vol.119，″ChromatinProtocols″(P.B.Becker，ed.)Humana Press，Totowa，1999。

用于向大豆基因组中插入核酸的方法

任何公知的用于将多核苷酸供体序列和核酸酶作为DNA构建体导入宿主细胞中的规程均可根据本公开使用。这些包括使用磷酸钙转染、聚凝胺(polybrene)、原生质体融合、PEG、电穿孔、超声方法(例如声孔处理(sonoporation))、脂质体、显微注射、裸DNA、质粒载体、病毒载体(附加体和整合型两者)，和任何其它公知的用于将克隆基因组DNA、cDNA、合成DNA或其它外来遗传材料导入宿主细胞中的方法(参见例如Sambrook等.，见上文)。必需的仅是，使用的特定核酸插入规程能够将至少一种基因成功导入能够表达选择蛋白质的宿主细胞中。

如上文指出的，可以通过多种常规技术将DNA构建体导入期望植物物种的基因组中。关于此类技术的综述，参见例如Weissbach&Weissbach Methods for Plant MolecularBiology(1988，Academic Press，N.Y.)Section VIII，pp.421-463；及Grierson&Corey，Plant Molecular Biology(1988，2d Ed.)，Blackie，London，Ch.7-9。可以使用诸如电穿孔和显微注射植物细胞原生质体，通过用碳化硅显微搅拌(参见美国专利5,302,523和5,464,765)等技术将DNA构建体直接导入植物细胞的基因组DNA中，或者可以生物射弹法，诸如DNA颗粒轰击(参见例如Klein等.(1987)Nature 327：70-73)将DNA构建体直接导入植物组织中。或者，可以经由纳米颗粒转化(参见例如美国专利公开文本No.20090104700，其通过提及完整并入本文)将DNA构建体导入植物细胞中。或者，可以将DNA构建体与合适的T-DNA边界/侧翼区组合，并且导入常规的根癌土壤杆菌(Agrobacterium tumefaciens)宿主载体中。根癌土壤杆菌介导的转化技术(包括二元载体的卸甲(disarming)和使用)在科学文献中有充分描述。参见例如Horsch et al.(1984)Science 233：496-498和Fraley et al.(1983)Proc.Nat′l.Acad.Sci.USA 80：4803。

另外，可以使用非土壤杆菌细菌或病毒诸如根瘤菌(Rhizobium sp.)NGR234、苜蓿中华根瘤菌(Sinorhizoboium meliloti)、百脉根根瘤菌(Mesorhizobium loti)、马铃薯病毒X、花椰菜花叶病毒和木薯脉花叶病毒和/或烟草花叶病毒实现基因转移。参见例如Chunget al.(2006)Trends Plant Sci.11(1)：1-4。根癌土壤杆菌宿主的毒力功能会在使用二元T DNA载体(Bevan(1984)Nuc.Acid Res.12：8711-8721)或共培养规程(Horsch等(1985)Science227：1229-1231)通过细菌感染细胞时指导含有构建体和相邻标志物的T链插入植物细胞DNA中。一般地，使用土壤杆菌转化系统工程化改造双子叶植物(Bevan et al.(1982)Ann.Rev.Genet.16：357-384；Rogers et al.(1986)Methods Enzymol.118：627-641)。也可以使用土壤杆菌转化系统将DNA转化及转移到单子叶植物和植物细胞。参见美国专利5,591,616；Hernalsteen et al.(1984)EMBO J.3：3039-3041；Hooykass-VanSlogteren et al.(1984)Nature 311：763-764；Grimsley et al.(1987)Nature 325：1677-179；Boulton et al.(1989)Plant Mol.Biol.12：31-40；和Gould et al.(1991)Plant Physiol.95：426-434。

备选的基因转移和转化方法包括但不限于经由钙、聚乙二醇(PEG)或电穿孔介导的裸DNA摄取的原生质体转化(参见Paszkowski et al.(1984)EMBO J.3：2717-2722，Potrykus et al.(1985)Molec.Gen.Genet.199：169-177；Fromm et al.(1985)Proc.Nat.Acad.Sci.USA 82：5824-5828；和Shimamoto(1989)Nature338：274-276)和植物组织的电穿孔(D′Halluin et al.(1992)Plant Cell4：1495-1505)。用于植物细胞转化的其它方法包括显微注射、碳化硅介导的DNA摄取(Kaeppler et al.(1990)Plant CellReporter 9：415-418)、和微粒轰击(Klein et al.(1988)Proc.Nat.Acad.Sci.USA 85：4305-4309；and Gordon-Kamm et al.(1990)Plant Cell 2：603-618)。

在一个实施方案中，导入宿主细胞中用于靶向插入基因组的感兴趣的核酸在被靶向的感兴趣核酸的一个或两个末端包含同源侧翼序列。在这样的实施方案中，同源侧翼序列含有足够水平的与双子叶植物基因组序列(例如来自玉米的双子叶植物基因组序列)的序列同一性，以支持该序列与该序列有同源性的基因组序列之间的同源重组。供体与基因组序列之间大约25，50，100，200，500，750，1000，1500，或2000个核苷酸，或者更高的序列同一性，范围从70％至100％，(或者10与200个核苷酸之间的任何整数值，或更多)将支持二者之间的同源重组。

在另一个实施方案中，被靶向的感兴趣的核酸缺少同源侧翼序列，且被靶向的感兴趣的核酸与基因组序列享有低到极低水平的序列同一性。

在用于对细胞染色质中所关注的区域内的序列进行靶向重组和/或替换和/或改变的其他实施方案中，通过与外源“供体”核苷酸序列的同源重组来改变染色体序列。如果存在与断裂区域同源的序列，则细胞染色质中双链断裂的存在会刺激此类同源重组。细胞染色质中的双链断裂还可以刺激非同源末端连接的细胞机制。在本文所述的任何方法中，第一核苷酸序列(“供体序列”)可以含与所关注的区域中的基因组序列同源但不相同的序列，从而刺激同源重组以在所关注的区域中插入不相同序列。因此，在某些实施方案中，与所关注的区域中序列同源的供体序列的某些部分显示出与被替换基因组序列约80％，85，90，95，97.5，至99％(或其间任意整数)的序列相同性。在其它实施方案中，供体与基因组序列间的同源性高于99％，例如，如果在100个毗连碱基对上仅有I个核苷酸不同的话。

在某些情况下，供体序列的非同源部分能包含感兴趣区域中不存在的序列，从而将新序列引入感兴趣区域。这些情况下，所述非同源序列一般侧接有50-2,000个碱基对(或其间任何整数)或大于2,000的任何碱基对数目的序列，所述序列与感兴趣区域的序列同源或相同。在其他实施方式中，供体序列与感兴趣的区域不同源，并通过非同源重组机制插入基因组。

依照一个实施方案，使用锌指核酸酶(ZFN)来在被靶向的基因组座位中导入双链断裂以易化感兴趣的核酸的插入。例如，可以依照美国专利6,453,242中公开的方法实现选定的基因组座位中用于被锌指域结合的靶位点的选择，该专利的公开通过提述并入本文，其还公开了用于设计锌指蛋白(ZFP)以结合选定序列的方法。本领域技术人员会清楚的是，也可以使用对核苷酸序列的简单目测检查来选择靶位点。因而，用于靶位点选择的任何手段都可以在本文中描述的方法中使用。

对于ZFP DNA结合域，靶位点一般由多个相邻的靶亚位点构成。靶亚位点指被单个锌指结合的序列，通常是核苷酸三联体或核苷酸四联体，其可以与相邻的四联体有一个核苷酸重叠。参见例如WO 02/077227，将其公开内容通过提述并入本文。靶位点一般具有至少9个核苷酸的长度，且相应地被包含至少3个锌指的锌指结合域结合。然而，例如，4指结合域对12个核苷酸的靶位点、5指结合域对15个核苷酸的靶位点或6指结合域对18个核苷酸的靶位点的结合也是有可能的。容易想到的是，更大的结合域(例如7、8、9指和更多)对更长的靶位点的结合与本公开也是一致的。

依照一个实施方案，靶位点不必是多个三核苷酸。在发生交叉链相互作用的情况中参见例如美国专利6,453,242和WO 02/077227)，多指结合域的一个或多个锌指个体可以结合重叠的四联体亚位点。因此，三指蛋白质可以结合10个核苷酸的序列，其中第10个核苷酸是被末端指结合的四联体的部分，四指蛋白质可以结合13个核苷酸的序列，其中第13个核苷酸是被末端指结合的四联体的部分，等等。

多指结合域中锌指个体间的氨基酸接头序列的长度和性质也影响对靶序列的结合。例如，多指结合域中相邻锌指间所谓的″非规范接头″、″长接头″或″有结构的接头″的存在可以容许那些指结合不直接相邻的亚位点。此类接头的非限制性例子记载于例如美国专利No.6,479,626和WO 01/53480。因而，锌指结合域的靶位点中的一个或多个亚位点彼此可以相隔1、2、3、4、5或更多个核苷酸。一个非限定性实例可以是可结合13个核苷酸的靶位点的四指结合域，其在序列上包含两个连续的3核苷酸亚位点、1个居间核苷酸、和2个连续的三联体亚位点。

尽管从自然界中存在的蛋白质中鉴定的DNA结合多肽通常与离散的核苷酸序列或基序(例如，共有识别序列)结合，但是在本领域中存在并且知晓有方法来修饰许多这样的DNA结合多肽从而识别不同的核苷酸序列或基序。DNA结合多肽包括，例如但不仅限于：锌指DNA结合域；亮氨酸拉链；UPA DNA结合域；GAL4；TAL；LexA；Tet抑制子；LacR；和类固醇激素受体。

在一些实例中，DNA结合多肽是锌指。单独的锌指基序可以被设计成靶向并特异性结合多种多样的DNA位点中的任何种。规范的Cys₂His₂(以及非规范的Cys₃His)锌指多肽通过将α-螺旋插入到靶DNA双螺旋的大沟中来结合DNA。锌指识别DNA是模块性的；每个指主要与靶中的三个连续碱基对接触，并由多肽中的少数关键残基介导识别。通过在靶向性核酸内切酶中包含多个锌指DNA结合域，靶向性核酸内切酶的DNA结合特异性可以被进一步提高(因此，由其赋予的任何基因调节效应的特异性也被提高)。见例如Urnov et al.(2005)Nature 435：646-51。因此，可以工程构建并使用一个或多个锌指DNA结合多肽，使得引入到宿主细胞中的靶向性核酸内切酶与宿主细胞基因组内独特的DNA序列相互作用。优选地，锌指蛋白是非天然存在的，即其是被工程构建为结合所选的靶位点的。参见，例如Beerli etal.(2002)Nature Biotechnol.20：135-141；Pabo et al.(2001)Ann.Rev.Biochem.70：313-340；Isalan et al.(2001)Nature Biotechnol.19：656-660；Segal et al.(2001)Curr.Opin.Biotechnol.12：632-637；Choo et al.(2000)Curr.Opin.Struct.Biol.10：411-416；美国专利Nos.6,453,242；6,534,261；6,599,692；6,503,717；6,689,558；7,030,215；6,794,136；7,067,317；7,262,054；7,070,934；7,361,635；7,253,273；和美国专利公开Nos.2005/0064474；2007/0218528；2005/0267061，本文通过提述并入其全部内容。

与天然存在的锌指蛋白相比，工程化的锌指结合域可以具有新的结合特异性。工程化方法包括，但不仅限于，合理设计和各种类型的选择。合理设计包括，例如，使用包含三链体(或四链体)核苷酸序列和单个锌指氨基酸序列的数据库，其中每个三链体或四链体核苷酸序列与结合该特定三链体或四链体序列的一个或多个锌指氨基酸序列相关。参见，例如共同拥有的美国专利6,453,242和6,534,261，文通过提述并入其全部内容。

或者，DNA结合域可来源于核酸酶。例如，归巢内切核酸酶和大范围核酸酶如I-SceI，I-CeuI，PI-PspI，PI-Sce，I-SceIV，I-CsmI，I-PanI，I-SceII，I-PpoI，I-SceIII，I-CreI，I-TevI，I-TevII及I-TevIII的识别序列是已知的。另参见美国专利号5,420,032；美国专利号6,833,252；Belfort et al.(1997)Nucleic Acids Res.25：3379-3388；Dujon etal.(1989)Gene 82：115-118；Perler et al.(1994)Nucleic Acids Res.22，1125-1127；Jasin(1996)Trends Genet.12：224-228；Gimble et al.(1996)J.Mol.Biol.263：163-180；Argast et al.(1998)J.Mol.Biol.280：345-353，以及New England Biolabs目录。此外，归巢核酸酶和大范围核酸酶的DNA结合特异性可以被工程化，从而结合非天然靶位点。参见，例如，Chevalier et al.(2002)Molec.Cell 10：895-905；Epinat et al.(2003)NucleicAcids Res.31：2952-2962；Ashworth et al.(2006)Nature 441：656-659；Paques et al.(2007)Current Gene Therapy 7：49-66；美国专利公开号20070117128。

作为另一替代，DNA结合域可衍生自亮氨酸拉链蛋白。亮氨酸拉链是一类参与在多种真核生物调控蛋白(所述调控蛋白是与基因表达相关的重要转录因子)中蛋白-蛋白的相互作用的蛋白质。亮氨酸拉链指在这些跨越包括动物、植物、酵母等多个界的转录因子中共享的共同结构基序。亮氨酸拉链由两条多肽(同二聚体或异二聚体)形成，所述多肽以其中亮氨酸残基在α-螺旋中均匀地隔开，使得两条多肽的亮氨酸残基在螺旋的同一面上结束的方式结合特定的DNA序列。可在本文中公开的DNA结合域中利用所述亮氨酸拉链的DNA结合特异性。

在一些实施方案中，DNA结合域是来自衍生于植物病原菌黄单胞菌(Xanthomonas)的TAL效应子的工程化域(见Miller等人，(2011)Nature Biotechnology 29(2)：143-8；Boch等人，(2009)Science 29Oct 2009(10.1126/science.117881)和Moscou和Bogdanove，(2009)Science 29Oct 2009(10.1126/science.1178817；和美国专利公开号20110239315，20110145940和20110301073)。

CRISPR(间隔规律的成簇短回文重复)/Cas(CRISPR相关的)核酸酶系统是最近工程化的核酸酶系统，该系统基于能用于基因组工程的细菌系统。其基于多种细菌和古细菌的部分适应性免疫应答。当病毒或质粒入侵细菌时，入侵者DNA的片段通过“免疫”应答被转换成CRISPR RNA(crRNA)。这种crRNA之后通过部分互补区域与另一类称为tracrRNA的RNA相关联以引导Cas9核酸酶到与目标DNA中crRNA同源的区域中(称为“protospacer”)。Cas9切割DNA以在DSB中由包含于crRNA转录本中的20-核苷酸引导序列所指定的位点处产生平末端。Cas9需要crRNA和tracrRNA两者进行位点特定性的DNA识别和切割。该系统现在已经被工程化从而可以将crRNA和tracrRNA合并到一个分子内(“单一引导RNA”)，且所述单一引导RNA的crRNA等同部分可被工程化以引导Cas9核酸酶靶向任何期望序列(见Jinek等人(2012)Science 337，p.816-821，Jinek等人，(2013)，eLife2：e00471，和David Segal，(2013)eLife 2：e00563)。因此CRISPR/Cas系统可被工程化以在基因组的期望靶点处创建双链断裂(DSB)，以及可通过使用修复抑制剂影响DSB的修复以导致易错修复的增加。

在某些实施方案中，Cas蛋白可以是天然存在Cas蛋白的“功能性衍生物”。天然序列多肽的“功能性衍生物”指具有与天然序列多肽共同的定性生物学特性的化合物。“功能性衍生物”包括但不限于天然序列的片段和天然序列多肽及其片段的衍生物，前提是它们具有与相应天然序列多肽共同的生物学活性。本文中涵盖的生物学活性指功能性衍生物将DNA底物水解成片段的能力。术语“衍生物”涵盖多肽的氨基酸序列变体、共价修饰二者及其融合。Cas多肽或其片段的合适衍生物包括但不限于Cas蛋白或其片段的突变体、融合物、共价修饰。Cas蛋白(包括Cas蛋白或其片段)以及Cas蛋白或其片段的衍生物可得自细胞或化学合成或通过这两种规程的组合来获得。该细胞可以是天然生成Cas蛋白的细胞，或天然生成Cas蛋白且经遗传工程改造成以更高表达水平生成内源Cas蛋白或自外源引入的核酸(该核酸编码与内源Cas相同或不同的Cas)生成Cas蛋白的细胞。在一些情况中，该细胞并非天然生成Cas蛋白且经遗传工程改造成生成Cas蛋白。通过将Cas核酸酶与向导RNA共表达来将Cas蛋白部署在哺乳动物细胞中(且推定地，在植物细胞内)。可使用两种形式的向导RNA来易化Cas介导的基因组切割，如Le Cong，F.，et al.，(2013)Science 339(6121)：819-823中公开的。

在其他实施方案中，DNA结合域可与切割(核酸酶)域联合。例如，归巢内切核酸酶可以在其DNA结合特异性中修饰，并保留核酸酶功能。此外，锌指蛋白可同样与切割域融合以形成锌指核酸酶(ZFN)。本文中公开的融合蛋白的切割域部分可从任何核酸内切酶或核酸外切酶中获得。示例性的可衍生切割域的核酸内切酶包括，但不限于，限制性核酸内切酶和归巢核酸内切酶。见，例如2002-2003Catalogue New England Biolabs，MA；和Belfort等人，(1997)Nucleic Acids Res。其他的切割DNA的酶是已知的(如S1核酸酶；绿豆核酸酶；胰DNA酶I；微球菌核酸酶；酵母HO内切核酸酶；也参见Linn等人，(编)Nucleases，Cold SpringHarbor Laboratory Press，1993)).归巢内切核酸酶和大范围核酸酶的非限定的例子包括I-SceI、I-CeuI、PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、I-TevII和I-TevIII是已知的。还见美国专利号5,420,032；美国专利号：6,833,252；Belfort等人，(1997)Nucleie Acids Res.25：3379-3388；Dujon等人，(1989)Gene82：115-118；Perler等人，(1994)Nucleic Acids Res.22，1125-1127；Jasin(1996)TrendsGenet.12：224-228；Gimble等人，(1996)J Mol.Bioi.263：163-180；Argast等人，(1998)JMol.Biol.280：345-353和New England Biolabs catalogue。可将一种或多种的这些酶(或其功能性片段)用作切割域和切割半-域的来源。

限制性核酸内切酶(限制性酶)存在于许多物种中且能够序列特异性的结合DNA(在识别位点)，并在结合位点处或结合位点附近切割DNA。一些限制酶(如IIS型)在从识别位点移除的位点处切割DNA并具有可分开的结合与切割域。例如，IIS型酶FokI催化DNA的双链切割，切割在一条链上距离结合位点9个核苷酸，而在另一条链上距其识别位点13个核苷酸。参见，例如美国专利5,356,802；5,436,150和5,487,994；以及Li等人，(1992)Proc.Natl.Aead Sci.USA 89：4275-4279；Li等人，(1993)Proc.Natl.Acad.Sci.USA 90：2764-2768；Kim等人，(1994a)Proc.Natl.Aead Sci.USA 91：883-887；Kim等人，(1994b)J.Biol.Chem.269：31，978-31，982。因此，在一个实施方案中，融合蛋白包含来自至少一种IIS型限制酶的切割域(或切割半域)和一种或多种锌指结合域，其可以是工程化的或未工程化的。

一种示例性的切割域与结合域可分开的IIS型限制酶是FokI。这一特别的酶作为二聚体发挥活性。Bitinaite等人，(1998)Proc Natl.Acad.Sci.USA 95：10，570-10，575。因此，为本发明公开的目的，用在公开的融合蛋白中的FokI酶的部分被认为是切割的半域。因此，为了使用锌指-FokI融合进行靶向性双链切割和/或靶向性细胞序列的替换，两个融合蛋白(每个包含FokI切割半域)可被用于重构催化活性的切割域。或者，也可使用包含锌指结合域和两个FokI切割半域的单一多肽分子。使用锌指-FokI融合进行靶向性切割和靶向性序列变换(alteration)的参数在本公开的别处提供。

切割域或切割半域可以是蛋白的任何部分，其保留切割活性，或其保留多聚化(如二聚化)以形成有功能的切割域的能力。IIS型限制酶的例子描述于国际公开WO2007/014275中，通过引用将其全文纳入本文。

为了增强切割特异性，切割域还可以被修饰。在一些实施方案中，使用切割半域的变体，这些变体最小化或防止切割半域的同二聚化。这种修饰的切割半域的非限制性例子详细描述于WO2007/014275中，通过引用将其全文纳入本文。在一些实施方案中，切割域包括工程化的切割半域(也指二聚化域变体)，其最小化或阻止二聚化。这样的实施方案是本领域技术人员所知晓的，且在例如美国专利公开号20050064474；20060188987；20070305346和20080131962中有描述，通过提述将其全部内容纳入本文。位于FokI的446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538位的氨基酸残基均是用于影响FokI切割半域二聚化的靶点。

另外的工程化的FokI的切割半域(其形成专性异二聚体)同样可被用于描述于本文的ZFN中。示例性的工程化的形成专性异二聚体的FokI的切割半域包括一对切割半域，其中第一个切割半域包括在FokI位点490和538的氨基酸残基处的突变以及第二个切割半域包括在486和499位的氨基酸残基处的突变。

因此，在一个实施方案中，位于490位置的突变，将Glu(E)替换为Lys(K)；位于538位置的突变，将Iso(I)替换为Lys(K)；位于486位置的突变，将Gln(Q)替换为(Glu)(E)；以及位于499位置的突变，将Iso(I)替换为Lys(K)。特别是，本文描述的工程化的切割半域通过突变一个切割半域中的位置490(E→K)和538(I→K)以产生工程化的切割半域(命名为“E490K：I538K”)，以及通过突变在另一个切割半域中的位置486(Q→E)和499(I→L)以产生工程化的切割半域(命名为“Q486E：I499L”)。本文中描述的所述工程化的切割半域为专性异二聚体突变体，其中异常切割被最小化或被消除。例如，见美国专利公开号2008/0131962，通过引用整体将其全文纳入用于所有目的。在一些实施方案中，所述工程化的切割半域包括在486、499和496位置(相对于野生型FokI编号)的突变，例如在486位置处用Glu(E)残基替换野生型Gln(Q)残基、在499位置处用Leu(L)残基替换野生型Iso(I)残基，在496位置处用Asp(D)或Glu(E)残基替换野生型Asn(N)残基(亦分别称为“ELD”和“ELE”域)。在其他实施方案中，所述工程化的切割半域包括在位置490，538和537处的突变(相对于野生型FokI编号)，例如在490位置处用Lys(K)残基替换野生型Glu(E)残基、在538位置处用Lys(K)残基替换野生型Iso(I)残基以及在537位置处用Lys(K)或Arg(R)残基替换野生型His(H)残基(亦分别称为“KKK”和“KKR”域)。在其他实施方案中，所述工程化的切割半域包括在位置490和537处的突变(相对于野生型FokI编号)，例如在490位置处用Lys(K)残基替换野生型Glu(E)残基以及在537位置处用Lys(K)或Arg(R)残基替换野生型His(H)残基(亦分别称为“KIK”和“KIR”域)。(见美国专利公开号20110201055)。在其他实施方案中，所述工程化的切割半域包括“Sharkey”和/或“Sharkey’”突变(见Guo等人，(2010)J Mol.Biol.400(1)：96-107)。

可使用任何合适的方法来制备本文中公开的工程化的切割半域，例如通过描述于美国专利公开号20050064474；20080131962；和20110201055的对野生型切割半域(FokI)的定点诱变来制备。

或者，可使用所谓的“分裂-酶”技术在体内于核酸靶位点处组装核酸酶(参见例如，美国专利公开号20090068164)。这样的分裂酶的组分可以在分开的表达载体上表达，或可以被连接入一个开放阅读框中表达(其中例如由自切割2A肽或IRES序列分隔每个组分)。组分可以是单独锌指结合域或大范围核酸酶核酸结合域的域。

在使用前可(例如在基于酵母的染色体系统中(描述于WO 2009/042163和WO20090068164))筛选核酸酶的活性。可通过使用本领域已知方法容易地设计出核酸酶表达构建体。参见，例如美国专利公开20030232410；20050208489；20050026157；20050064474；20060188987；20060063231；和国际公开WO071014275。可以在组成型启动子或可诱导启动子(例如半乳糖激酶启动子，其在棉子糖和/或半乳糖的存在下被激活(去抑制)，在葡萄糖的存在下被抑制)的控制下表达核酸酶。

“靶位点之间的距离”指介于两个靶位点之间的核苷酸或核苷酸对的数目，从各序列最接近彼此的边缘测量。在切割依赖于两个锌指域/切割半域融合分子的结合来分隔各靶位点的特定实施方案中，两个靶位点可以位于相对的DNA链上。在其他实施方案中，两个靶位点位于同一DNA链上。为了靶向整合到最优基因组座位中，将一个或多个ZFP工程化，使之结合预定切割位点处或其附近的靶位点，并在细胞中表达包含该工程化DNA结合域和切割域的融合单标。当该融合蛋白的锌指蛋白部分结合到靶位点时，该切割域在靶位点附近切割DNA，优选介由双链断裂。

最优基因组座位中双链断裂的存在帮助外源序列通过同源重组的整合。因此，在一个实施方案中，包含要插入到被靶定的基因组座位的感兴趣的核酸序列的多核苷酸将包括一个或多个与被靶定的基因组座位具有同源性的区域，以帮助同源重组。

除了本文中描述的融合分子，对选定的基因组序列的靶向替换还涉及供体序列的导入。多核苷酸供体序列可以在融合蛋白的表达之前、同时、后之后导入细胞。在一个实施方案中，供体多核苷酸含有足够水平的与最优基因组座位的同源性，以支持该序列与该序列有同源性的最优基因组座位之间的同源重组。供体与基因组序列之间大约25，50，100，200，500，750，1000，1500，或2000个核苷酸，或者10与2000个核苷酸之间的任何整数值，或更多，将支持同源重组。在特定实施方案中，同源臂的长度小于1000个碱基对。在其他实施方案中，同源臂长度小于750个碱基对。在一个实施方案中，供体多核苷酸序列可包含载体分子，载体分子含有与细胞染色质中感兴趣的区域不同源的序列。供体多核苷酸分子可含有数个不连续的与细胞染色质具有同源性的区域。例如，为了靶向插入在感兴趣的区域中通常不存在的序列，所述序列可以存在于供体核酸分子中，被与感兴趣的区域有同源性的区域所侧翼包夹。供体多核苷酸可以是DNA或RNA，单链或双链，且可以呈线性或环状形式导入细胞。参见美国专利公开号20100047805，20110281361，20110207221和美国专利申请号13/889,162。如果是以线性形式导入的，供体序列的末端可以通过本领域技术人员知晓的方法加以保护(例如防止外切核酸水解降解)。例如，将一个或多个双脱氧核苷酸残基添加到线性分子的3’末端，和/或将自我互补的寡核苷酸连接到一个或两个末端。参见例如，Chang et al.(1987)Proc.Natl.Acad.Sci.USA 84：4959-4963；Nehls et al.(1996)Science 272：886-889。其他用于保护外源多核苷酸不受降解的方法包括，但不限于，添加末端氨基基团，以及使用修饰的核苷酸间连接，例如硫代磷酸酯、氨基磷酸酯、以及O-甲基核糖或脱氧核糖残基。

依照一个实施方案，提供一种方法用于制备转基因双子叶植物植物，例如大豆植物，其中感兴趣的DNA已经插入了最优非基因大豆基因组座位。该方法包括下述步骤：

a.选择最优非基因大豆座位作为插入感兴趣的核酸的靶标；

b.向双子叶植物植物细胞，例如大豆植物细胞中导入位点特异性核酸酶，其中位点特异性核酸酶切割所述非基因序列；

c.将感兴趣的DNA导入植物细胞，和

d.选择包含被靶向到所述非基因序列的感兴趣的DNA的转基因植物细胞。

依照一个实施方案，提供一种用于制备转基因双子叶植物原生质体细胞，如大豆原生质体细胞，其中感兴趣的DNA已经插入了最优非基因大豆基因组座位的方法。该方法包括下述步骤：

a.选择最优非基因大豆座位作为插入感兴趣的核酸的靶标；

b.向双子叶植物原生质体细胞，例如大豆原生质体细胞中导入位点特异性核酸酶，其中位点特异性核酸酶切割所述非基因序列；

c.将感兴趣的DNA导入原生质体细胞，如大豆原生质体细胞；和

d.选择包含被靶向到所述非基因序列的感兴趣的DNA的转基因原生质体细胞，如大豆原生质体细胞。

在一个实施方案中，位点特异性核酸酶选自锌指核酸酶、CRISPR核酸酶、TALEN核酸酶、或大范围核酸酶，且更具体地，在一个实施方案中，位点特异性核酸酶是锌指核酸酶。依照一个实施方案，感兴趣的DNA介由同源性引导修整合方法整合到所述非基因序列内。或者，在一些实施方案中感兴趣的DNA通过非同源末端连接整合法整合到所述非基因序列内。在其他实施方案中，感兴趣的DNA通过先前未有描述的方法整合到所述非基因序列内。在一个实施方案中，该方法包括选择用于该兴趣的DNA的靶向插入的最优非基因大豆基因组座位，其具有下述特征中的2、3、4、5、6、7或8种：

a.该非基因序列长度为至少1Kb，且该序列内不含有大于1％DNA甲基化，

b.在双子叶植物基因组，如大豆基因组内，该非基因序列显示0.01574至83.52cM/Mb的重组率；

c.在双子叶植物基因组，如大豆基因组内，该非基因序列显示0至0.494的核小体占据水平；

d.该非基因组序列与该双子叶植物基因组，如大豆基因组内的任何其他序列享有少于40％的序列同一性；

e.该非基因序列的相对位置值为0至0.99682的距双子叶植物(如大豆)染色体着丝点遗传距离比；

f.该非基因序列的鸟嘌呤/胞嘧啶百分比含量范围为14.4至45.9％；

g.该非基因序列位于基因序列附近；和

h.包含所述非基因序列的双子叶植物基因组序列，如大豆基因组序列的1Mb区域包含一个或多个其他非基因序列。在一个实施方案中，所述最优非基因大豆座位选自类簇1，2，3，4，5，6，7，8，9，10，11，2，3，4，5，6，7，8，9，20，21，22，23，24，25，26，27，28，29，30，31或32的座位。

投递

本申请中公开的供体分子通过靶向的同源性非依赖和/或同源性依赖方法整合到细胞的基因组中。对于这样的靶向整合，使用核酸酶，例如，DNA结合域(例如锌指结合域、CRISPR或TAL效应物域被工程化从而结合预定的切割位点处或附近的靶位点)和核酸酶域(例如切割域或切割半域)之间的融合物，在期望的位置(或多个位置)切割基因组。在特定的实施方案中，两个融合蛋白，每个融合蛋白包含DNA结合域和切割半域，在细胞中表达，并结合多个靶位点，这些靶位点以一定的方式被并置，从而重建出功能性切割域，且DNA在这些靶位点附近被切割。在一个实施方案中，切割在两个DNA结合域的靶位点之间发生。DNA结合域之一或者二者可以是工程化的。另外参见美国专利号7,888,121；美国专利公开号20050064474和国际专利公开号WO05/084190，WO05/014791和WO 03/080809。

如本文中描述的核酸酶可以作为多肽和/或多核苷酸导入。例如，可以将分别包含编码上述多肽之一的序列的两个多核苷酸导入细胞，且当这些多肽表达并分别结合于其靶序列时，在靶序列处或其附近发生切割。或者，将包含编码两个融合多肽的序列的一条多核苷酸导入细胞。多核苷酸可以是DNA、RNA或任何修饰的形式或类似物或DNA和/或RNA。

在将双链断裂引入感兴趣的区域中后，在对双链供体分子线性化后，将转基因以靶向的方式经由非同源性依赖的方法(例如，非同源末端连接(NHEJ))整合到感兴趣的区域中，如本文所描述的。优选地利用核酸酶在体内将双链供体进行线性化，例如，用于将双链断裂引入基因组中的一种或多种相同的或不同的核酸酶。染色体和供体在细胞中的同步切割可限制供体DNA降解(与在导入到细胞之前供体分子的线性化相比较)。用于使供体线性化的核酸酶靶位点优选地不破坏转基因序列。

可以以由核酸酶突出端的简单连接所预期的方向(命名为“正向”或“AB”方向)或以交替的方向(命名为“反向”或“BA”方向)将转基因整合到基因组中。在某些实施方案中，转基因在将供体和染色体突出端的正确连接之后整合。在另外的实施方案中，转基因以BA方向或AB方向的整合产生了若干核苷酸的缺失。

通过应用诸如这些技术的技术，可稳定转化几乎任何种类的细胞。在一些实施方案中，转化DNA整合到宿主细胞的基因组中。在多细胞种类的情况下，可将转基因细胞再生为转基因生物体。任何这些技术可用于产生转基因植物，例如，在转基因植物的基因组中包括一种或多种供体多核苷酸序列的转基因植物。

在本发明的实施方案中，可通过本领域技术人员已知的任何方法在将DNA、RNA、肽和/或蛋白或核酸和肽的组合递送植物细胞的方法中将核酸递送到植物细胞中，所述方法包括，例如，但不限于：通过转化原生质体(参见，美国专利5,508,184)；通过脱水(desiccation)/抑制介导的DNA摄入(参见，例如Potrykus等人(1985)Mol.Gen.Genet.199：183-8)；通过电穿孔(参见，例如，美国专利5,384,253)；通过利用碳化硅纤维振荡(参见，美国专利5,302,523和5,464,765)；通过土壤杆菌(Agrobacterium)介导的转化(参见，例如，美国专利5,563,055、5,591,616、5,693,512、5,824,877、5,981,840和6,384,301)；通过DNA包覆的颗粒的加速(参见，例如，美国专利5,015,580、5,550,318、5,538,880、6,160,208、6,399,861和6,403,865)和通过纳米颗粒、纳米载体和细胞穿透肽(WO201126644A2；WO2009046384A1；WO2008148223A1)。

最广泛应用的将表达载体导入到植物中的方法基于土壤杆菌的天然转化系统。根癌土壤杆菌(A.tumefaciens)和发根土壤杆菌(A.rhizogenes)是在遗传上转化植物细胞的植物病原性土壤细菌。根癌土壤杆菌和发根土壤杆菌各自的T_i和R_i携带负责植物的遗传转化的基因。T_i(肿瘤诱导性)质粒包含称作T-DNA的大区段，其转移到转化的植物中。T_i质粒的另一区段vir区负责T-DNA转移。T-DNA区以左手和右手边界为边界，每个边界由末端重复核苷酸序列组成。在一些修饰的二元载体中，肿瘤诱导基因已经是缺失的，且使用vir区的功能来转移以T-DNA边界序列为边界的外源DNA。T区域还可包含例如用于转基因植物和细胞的有效回收的可选择性标志物，和用于插入用于转移诸如编码本发明的融合蛋白的核酸的序列的多克隆位点。

因此，在一些实施方案中，植物转化载体源自根癌土壤杆菌的T_i质粒(参见，例如，美国专利第4,536,475号、第4,693,977号、第4,886,937号、和第5,501,967号；和欧洲专利EP 0 122 791)或发根土壤杆菌的R_i质粒。另外的植物转化载体包括，例如，但不限于，由以下中所描述的那些：Herrera-Estrella等人(1983)Nature 303：209-13；Bevan等人(1983)，同上；Klee等人(1985)Bio/Technol.3：637-42；和欧洲专利EP 0 120 516，和源自任何上述的那些。与植物天然相互作用的其他细菌诸如中华根瘤菌(Sinorhizobium)、根瘤菌(Rhizobium)和中慢生根瘤菌(Mesorhizobium)可经修饰以介导基因转移到大量的多种植物。这些植物相关的共生细菌可制备成有基因转移能力的，其通过获得卸甲(disarmed)T_i质粒和适宜的二元质粒二者进行。

感兴趣的核酸

用于双子叶植物，如大豆植物的基因组座位内靶向插入的多核苷酸供体序列的长度范围通常为约10至约5000个核苷酸。然而，可以使用显著更长的核苷酸，长达20,000个核苷酸，包括长度约5，6，7，8，9，10，11和12Kb的序列。另外，供体序列可以包含含有与替换区不同源的序列的载体分子。在一个实施方案中，感兴趣的核酸将包含一个或多个与被靶向的基因组座位享有同源性的区域。一般地，感兴趣的核酸序列的同源区会与期望与之重组的基因组序列具有至少50％序列同一性。在某些实施方案中，感兴趣的核酸的同源区与位于被靶向的基因组座位中的序列享有60％、70％、80％、90％、95％、98％、99％、或99.9％序列同一性。然而，任何1％与100％之间数值的序列同一性均可能存在，这取决于感兴趣的核酸的长度。

感兴趣的核酸可以含有几个不连续的与细胞染色质享有相对高序列同一性的区域。例如，为了靶向插入通常不存在于被靶向的基因组座位中的序列，这些独特的序列可以存在于供体核酸分子中，且其侧翼有与被靶向的基因组座位中的序列享有相对高序列同一性的区域。

也可以将感兴趣的核酸分子插入被靶向的基因组座位中以充当供以后使用的储备库。例如，可以在被靶向的基因组座位中插入第一核酸序列，其包含与双子叶植物植物(如大豆植物)的基因组的非基因区同源的序列，但包含感兴趣的核酸(任选地编码处于可诱导启动子控制之下的ZFN)。接着，向细胞中引入第二核酸序列以诱导感兴趣的DNA插入双子叶植物植物(如大豆植物)的最优非基因基因组座位。所述第一核酸序列包含对所述最优非基因大豆基因组座位特异性的ZFN，而所述第二核酸序列包含感兴趣的DNA序列，或反之。在一个实施方案中，ZFN会切割所述最优非基因大豆基因组座位和感兴趣的核酸二者。所产生的基因组中的双链断裂接下来可以变为自所述最优基因组座位释放的供体分子的整合位点。或者，可以在导入感兴趣的DNA之后诱导已经位于基因组中的ZFN的表达，以在基因组中诱导双链断裂，然后该断裂可以成为导入的感兴趣核酸的整合位点。这样，感兴趣的DNA在任何感兴趣区域处的靶向整合效率可以大大提高，因为方法不依赖于编码ZFN的核酸与感兴趣的DNA两者的同时摄取。

也可以将感兴趣的核酸插入最优非基因大豆基因组座位中以充当后续插入的靶位点。例如，可以将由含有其他ZFN设计的识别位点的DNA序列构成的感兴趣核酸插入该座位中。随后，可以生成其他ZFN设计，并在细胞中表达，使得原先的感兴趣核酸被切割，并且通过修复或同源重组修饰。这样，在双子叶植物植物(如大豆植物)的最优非基因基因组座位处可以发生感兴趣核酸的反复整合。

例示性的外源序列包括但不限于任何多肽编码序列(例如cDNA)、启动子、增强子和其它调控序列(例如干扰RNA序列、shRNA表达盒、附加表位、标志物基因、切割酶识别位点和各种类型的表达构建体)。此类序列可以容易地使用标准分子生物学技术(克隆、合成等)获得，和/或是商品化的。

为了表达ZFN，通常将编码融合蛋白的序列亚克隆入含有启动子以指导转录的表达载体中。合适的原核和真菌启动子是本领域中公知的，并且记载于例如Sambrook等，Molecular Cloning，A Laboratory Manual(2nd ed.1989；3.sup.rd ed，2001)；Kriegler，Gene Transfer and Expression：A Laboratory Manual(1990)；及Current Protocols inMolecular Biology(Ausubel等，见上文。用于表达ZFN的细菌表达系统在例如大肠杆菌(E.coli)、芽孢杆菌属物种(Bacillus sp.)、和沙门氏菌属(Salmonella)中可得到(Palva等，Gene 22：229-235(1983))。用于此类表达系统的试剂盒是商品化的。用于哺乳动物细胞、酵母和昆虫细胞的真核表达系统是本领域技术人员公知的，并且也是商品化的。

考虑融合蛋白的意图用途，例如在植物、动物、细菌、真菌、原生动物等中的表达，来选择用于将遗传材料转运到细胞中的特定表达载体(参见下文描述的表达载体)。标准的细菌和动物表达载体是本领域中已知的，并且详细记载于例如美国专利公开文本20050064474A1和国际专利公开文本W005/084190、W005/014791和W003/080809中。

可以使用标准转染方法来生成表达大量蛋白质的细菌、哺乳动物、酵母或昆虫细胞系，然后可以使用标准技术(参见例如Colley等，J.Biol.Chem.264：17619-17622(1989)；Guide to Protein Purification，收录于Methods in Enzymology，vol.182(Deutscher，ed.，1990))纯化所述蛋白质。依照标准技术(参见例如Morrison，J.Bact.132：349-351(1977)；Clark-Curtiss&Curtiss，Methods in Enzymology 101：347-362(Wu等编辑，1983)实施真核和原核细胞的转化。

公开的方法和组合物可以用于将多核苷酸供体序列插入预定的位置，例如最优非基因大豆基因组座位之一。这是有用的，因为导入大豆基因组的转基因的表达关键地取决于其整合位点。相应地，可以通过靶向重组来插入编码除草剂耐性、昆虫抗性、营养物、抗生素或治疗性分子的基因。

在一个实施方案中，感兴趣的核酸可以和基因编码序列组合或“叠加”，其中所述基因编码序列可提供针对草甘膦或其它除草剂的额外的耐受性或抗性，和/或提供对选定的昆虫或疾病的抗性，和/或提供营养强化，和/或提供改良的农艺特征，和/或可用于饲料、食物、工业、药物或其它用途的蛋白质或其它产物。植物基因组中两个或多个感兴趣的核酸序列的“叠加”可以通过例如下列手段来实现：使用两个或更多个事件的常规植物育种、用含有感兴趣的序列的构建体转化植物、转基因植物的再转化、或通过借助同源重组的导向整合来添加新的性状。

这样的感兴趣的多核苷酸供体核苷酸序列包括，但不限于下面给出的那些实例：

1.赋予害虫或疾病抗性的基因或编码序列(例如iRNA)

(A)植物疾病抗性基因。植物防御经常通过植物中疾病抗性基因(R)的产物与病原体中相应的无毒性(Avr)基因的产物的特异相互作用而被激活。可以用克隆的抗性基因转化植物品种，从而工程构建对特定病原体株有抗性的植物。这些基因的实例包括：提供黄枝孢霉(Cladosporium fulvum)抗性的番茄Cf-9基因(Jones et al.，1994Science 266：789)；，提供丁香假单胞杆菌番茄致病变种抗性的番茄Pto基因，其编码一种蛋白激酶(Martin et al.，1993 Science262：1432)，和提供丁香假单胞菌抗性的拟南芥RSSP2基因(Mindrinos et al.，1994Cell 78：1089)。

(B)苏云金芽孢杆菌蛋白质、其衍生物或以其为模本的人造多肽，例如Bt δ-内毒素基因的多核苷酸序列(Geiser et al.，1986 Gene 48：109)和植物杀虫(VIP)基因(见，例如，Estruch et al.(1996)Proc.Natl.Acad.Sci.93：5389-94)。此外，编码δ-内毒素基因的DNA分子可以从美国典型培养物保藏中心(Rockville，Md.)购得，ATCC登录号为40098，67136，31995和31998。

(C)植物凝集素，例如，多种君子兰(Clivia miniata)甘露糖结合性植物凝集素基因的核苷酸序列(Van Damme et al.，1994 Plant Molec.Biol.24：825)。

(D)维生素结合蛋白质，例如亲和素及亲和素同源物，其可用作针对昆虫类害虫的杀幼虫剂。见美国专利No.5,659,026。

(E)酶抑制剂，例如蛋白酶抑制剂或淀粉酶抑制剂。这些基因的实例包括水稻半胱氨酸蛋白质酶抑制剂(Abe et al.，1987 J.Biol.Chem.262：16793)，烟草蛋白酶抑制剂I(Huub et al.，1993 Plant Molec.Biol.21：985)，和α-淀粉酶抑制剂(Sumitani et al.，1993 Biosci.Biotech.Biochem.57：1243)。

(F)昆虫特异性激素或信息素，例如蜕皮激素和保幼激素或其变体、基于它们的模拟物，或其拮抗剂或激动剂，例如杆状病毒表达的克隆保幼激素酯酶，保幼激素的失活子(Hammock et al.，1990 Nature 344：458)。

(G)昆虫特异性肽或神经肽，其在表达时会扰乱受影响的害虫的生理机能(J.Biol.Chem.269：9)。这些基因的实例包括昆虫利尿激素受体(Regan，1994)，在太平洋折翅蠊(Diploptera punctata)中鉴定的咽侧体抑制素(allostatin)(Pratt，1989)，和昆虫特异性麻痹神经毒素(美国专利No.5,266,361)。

(H)在自然界中由蛇、马蜂等产生的昆虫特异性毒液，例如蝎子昆虫毒性肽(Pang，1992 Gene 116：165)。

(I)负责超富集单萜、倍半萜、甾体、异羟肟酸、苯丙烷衍生物或其它具有杀虫活性的非蛋白质分子的酶。

(J)参与生物活性分子修饰(包括翻译后修饰)的酶；例如糖酵解酶、蛋白质水解酶、脂肪分解酶、核酸酶、环化酶、转氨酶、酯酶、水解酶、磷酸酶、激酶、磷酸化酶、聚合酶、弹性蛋白酶、几丁质酶和葡聚糖酶，无论是天然的还是人造的。这些基因的实例包括马蹄莲(callas)基因(PCT公开的申请WO 93/02197)，几丁质酶编码序列(其可以从例如ATCC以登录号3999637和67152获得)，烟草钩虫几丁质酶(Kramer et al.，1993 InsectMolec.Biol.23：691)，和欧芹ubi4-2多聚泛素基因(Kawalleck et al.，1993 PlantMolec.Biol.21：673)。

(K)刺激信号转导的分子。这些分子的实例包括绿豆钙调蛋白cDNA克隆的核苷酸序列(Botella et al.，1994 Plant Molec.Biol.24：757)，和大豆钙调蛋白cDNA克隆的核苷酸序列(Griess et al.，1994 Plant Physiol.104：1467)。

(L)疏水矩肽(hydrophobic moment peptide)。见例如美国专利Nos.5,659,026和5,607,914，后者教导了赋予疾病抗性的人造抗微生物肽。

(M)膜透性酶，通道形成剂或通道阻断剂，例如杀菌肽-β裂解肽类似物(Jaynes etal.，1993 Plant Sci.89：43)，其使转基因烟草植物对青枯病有抗性。

(N)病毒侵袭性蛋白质或由其衍生的复杂毒素。例如，在经转化的植物细胞中，病毒衣壳蛋白的积累可赋予针对该衣壳蛋白所来源的病毒以及相关病毒所致的病毒感染和/或疾病发展的抗性。已经给转化植物赋予了衣壳蛋白介导的，针对苜蓿花叶病毒、黄瓜花叶病毒、烟草条纹病毒、马铃薯X病毒、马铃薯Y病毒、烟草蚀纹病毒、烟草脆裂病毒和烟草花叶病毒的抗性。参见，例如，Beachy et al.(1990)Ann.Rev.Phytopathol.28：451。

(O)昆虫特异性抗体或由其衍生的免疫毒素。因此，靶向昆虫肠道关键代谢功能的抗体可以使受影响的酶失活，杀死昆虫。例如，Taylor等人(1994)，在第七届国际分子植物-微生物相互作用研讨会(Seventh Int′l.Symposium on Molecular Plant MicrobeInteractions)上的第497号摘要显示了转基因烟草中通过产生单链抗体片段的酶失活。

(P)病毒特异性抗体。见例如Tavladoraki et al.(1993)Nature 266：469，其显示了表达重组抗体基因的转基因植物被保护免于病毒攻击。

(Q)由病原体或寄生物自然产生的发育阻滞(developmental-arrestive)蛋白质。因此，真菌内切α-1，4-D多聚半乳糖醛酸酶通过溶解植物细胞壁的均聚-α-1，4-D-半乳糖醛酸而促进真菌定殖和植物营养素释放(Lamb et al.，1992)Bio/Technology 10：1436。Toubart等(1992 Plant J.2：367)描述了豆类内切多聚半乳糖醛酸酶抑制蛋白的编码基因的克隆和表征。

(R)由植物自然产生的发育阻滞(developmental-arrestive)蛋白质，例如大麦核糖体失活基因，其提供了增加的针对真菌疾病的抗性(Longemann et al.，1992).Bio/Technology 10：3305。

(S)RNA干扰，其中用RNA分子抑制靶基因的表达。一个实施例中的RNA分子是部分或完全双链的，其触发沉默响应，导致dsRNA被切割成小的干扰RNA，它们随后被纳入到靶向复合体中，靶向复合体破坏同源的mRNA。见例如Fire等人，美国专利6,506,559；Graham等人，美国专利6,573,099。

2.赋予除草剂抗性的基因

(A)编码针对抑制生长点或分生组织的除草剂，例如咪唑啉酮类(imidazalinone)、磺酰苯胺类(sulfonanilide)或磺酰脲类除草剂的抗性或耐受性的基因。这类基因的实例编码一种突变的乙酰乳酸合酶(ALS)(Lee et al.，1988EMBOJ.7：1241)，也称乙酰羟酸合酶(AHAL)(Miki et al.，1990 Theor.Appl.Genet.80：449)。

(B)一种或多种额外的编码针对草甘膦抗性或耐受性的基因，所述抗性或耐受性是由突变体EPSP合酶和aroA基因赋予的，或者是通过一些基因如DGT-28、2mEPSPS、GAT(草甘膦乙酰转移酶)或GOX(草甘膦氧化酶)和其它膦酰基化合物，如草胺膦(pat、bar、和dsm-2基因)，和芳氧基苯氧基丙酸和环己二酮(ACC酶抑制剂编码基因)所致的代谢失活而获得的。见例如美国专利No.4,940,835，其公开了可赋予草甘膦抗性的EPSP形式的核苷酸序列。编码突变体aroA基因的DNA分子能够以ATCC登录号39256获得，突变体基因的核苷酸序列在美国专利No.4,769,061中公开。欧洲专利申请No.0333033和美国专利No.4,975,374公开了可赋予除草剂如L-草铵膦抗性的谷氨酰胺合酶基因的核苷酸序列。欧洲专利申请No.0 242246提供了草铵膦乙酰转移酶基因的核苷酸序列。De Greef et al.(1989)Bio/Technology7：61中描述了表达编码草铵膦乙酰转移酶活性的嵌合bar基因的转基因植物的产生。赋予针对芳氧基苯氧基丙酸和环己二酮如稀禾定和甲禾灵(haloxyfop)的抗性的示例性基因是Accl-S1，Accl-S2和Accl-S3基因，如Marshall et al.(1992)Theor.Appl.Genet.83：435所述。

(C)编码针对可抑制光合作用的除草剂例如三嗪(psbA和gs+基因)和苄腈(腈水解酶基因)的抗性的基因。Przibilla et al.(1991)Plant Cell 3：169描述了使用编码突变体psbA基因的质粒转化衣藻。在美国专利No.4,810,648中公开了腈水解酶基因的核苷酸序列，含有这些基因的DNA分子可以通过ATCC登录号53435、67441和67442获得。Hayes et al.(1992)Biochem.J.285：173中描述了编码谷胱甘肽S-转移酶的DNA的克隆和表达。

(D)编码针对可结合羟基苯基丙酮酸二加氧酶(HPPD)的除草剂的抗性基因，HPPD是催化对-羟基苯基丙酮酸(HPP)转化形成尿黑酸的反应的酶。这包括例如异噁唑(EP418175，EP470856，EP487352，EP527036，EP560482，EP682659，美国专利No.5,424,276)，特别是异噁唑草酮，其是大豆的选择性除草剂，二酮腈(diketonitrile)(EP496630，EP496631)，特别是2-氰基-3-环丙基-1-(2-SO2CH3-4-CF3苯基)丙烷-1，3-二酮和2-氰基-3-环丙基-1-(2-SO2CH3-4-2，3Cl2苯基)丙烷-1，3-二酮，三酮类(EP625505，EP625508，美国专利No.5,506,195)，特别是磺草酮、和pyrazolinate等除草剂。在植物中产生过量HPPD的基因能够提供针对这些除草剂的耐受性或抗性，包括例如美国专利Nos.6,268,549和6,245,968和美国专利申请公开No.20030066102中描述的基因。

(E)编码针对苯氧基生长素除草剂，如2，4-二氯苯氧基乙酸(2，4-D)的抗性或耐受性的基因，其也可以赋予针对芳氧基苯氧基丙酸类(AOPP)除草剂的抗性或耐受性。这些基因的实例包括α-酮戊二酸依赖性的双加氧酶(aad-1)基因，如美国专利No.7,838,733所述。

(F)编码针对苯氧基生长素除草剂如2，4-二氯苯氧基乙酸(2，4-D)的抗性或耐受性的基因，其也可以赋予针对吡啶基氧基生长素除草剂，如氟草烟或绿草定的抗性或耐受性。这些基因的实例包括α-酮戊二酸依赖性的双加氧酶(aad-12)基因，如WO2007/053482-A2所述。

(G)编码针对麦草畏的抗性或耐受性的基因(见例如美国专利公开No.20030135879)。

(H)编码针对抑制原卟啉原氧化酶(PPO)的除草剂的抗性或耐受性的基因(见美国专利No.5,767,373)。

(I)提供针对可结合光系统II反应中心(PS II)核心蛋白质的三嗪除草剂(例如莠去津)和尿素衍生物(如敌草隆)除草剂的抗性或耐受性的基因。见Brussian et al.，(1989)EMBO J.1989，8(4)：1237-1245。

3.可赋予或贡献数量叠加性状(Value Added Trait)的基因

(A)修饰的脂肪酸代谢，例如通过用反义基因或硬脂酰-ACP去饱和酶转化大豆或芸苔属植物从而增加植物的硬脂酸含量(Knultzon et al.，1992)Proc.Nat.Acad.Sci.USA89：2624。

(B)降低的植酸含量

(1)引入植酸酶编码基因，如黑曲霉植酸酶基因(Van Hartingsveldt et al.，1993 Gene 127：87)，提高植酸降解，向被转化植物添加更多游离磷酸盐。

(2)可引入降低植酸含量的基因。在双子叶植物中，这可以通过，例如，克隆然后重新导入如下所述的单个等位基因的相关DNA来实现：该单个等位基因导致以植酸水平低为特征的大豆突变体的原因(Raboy et al.，1990 Maydica 35：383)。

(C)改良的碳水化合物组成，例如通过用编码改变淀粉的分支模式的酶的基因转化植物而实现。这些酶的实例包括，粘液链球菌(Streptococcus mucus)果糖基转移酶基因(Shiroza et al.，1988)J.Bacteriol.170：810，枯草芽孢杆菌果聚糖蔗糖酶基因(Steinmetz et al.，1985 Mol.Gen.Genel.200：220)，地衣芽孢杆菌α-淀粉酶(Pen etal.，1992 Bio/Technology 10：292)，番茄转化酶基因(Elliot et al.，1993)，大麦淀粉酶基因(Sogaard et al.，1993 J.Biol.Chem.268：22480)，和大豆胚乳淀粉分支酶II(Fisheret al.，1993 Plant Physiol.102：10450)。

III.重组构建体

如本文中公开的，本公开提供了重组基因组序列，其包含至少1Kb的最优非基因大豆基因组序列和感兴趣的DNA，其中感兴趣的插入DNA被插入到所述非基因序列中。在一个实施方案中，感兴趣的DNA是分析域、赋予针对有害生物或疾病的抗性的基因或编码序列(例如iRNA)、赋予对除草剂抗性的基因、或赋予或贡献于增值性状的基因，且所述最优非基因大豆基因组序列包含下述特征中的1、2、3、4、5、6、7或8种：

a.该非基因序列长度为约1Kb至约5.7Kb，且不含有甲基化多核苷酸；

b.在双子叶植物(如大豆植物)的基因组内，该非基因序列显示0.01574至83.52cM/Mb的重组率；

e.该非基因序列的相对位置值为0至0.99682的距双子叶植物染色体着丝点(如大豆染色体中心)遗传距离比；

g.该非基因序列位于基因序列附近，基因序列包含已知的或预测的双子叶植物编码序列，例如大豆编码序列，位于包含该天然非基因序列的40Kb的毗连基因组DNA内；和

h.该非基因序列位于双子叶植物基因组序列，如大豆基因组序列的1Mb区域中，该区域包含至少第二非基因序列。

在一个实施方案中，所述最优非基因大豆基因组序列的进一步特征是具有这样的基因区，该基因区包含1-18个已知的或预测的大豆编码序列，在包含该天然非基因序列的40Kb的毗连基因组DNA内。在一个实施方案中，所述最优非基因大豆座位选自类簇1，2，3，4，5，6，7，8，9，10，11，2，3，4，5，6，7，8，9，20，21，22，23，24，25，26，27，28，29，30，31或32的座位。

IV.转基因植物

依照本公开的一个实施方案，还提供了包含重组的最优非基因大豆座位的转基因植物。此类转基因植物可以使用本领域技术人员知晓的技术来制备。

转化的双子叶植物细胞、愈伤组织、组织或植物(即大豆细胞、愈伤组织、组织或植物)可以通过选择和筛选工程化植物材料中由存在于转化DNA上的标记基因编码的性状而进行鉴定和分离。例如，选择可以通过在含有抑制量的抗生素或除草剂(转化基因构建体赋予对其的抗性)的培养基中生长工程化的植物材料而进行。进一步地，转化的细胞也可以通过筛选任何可见的标记基因(例如黄色荧光蛋白、绿色荧光蛋白、红色荧光蛋白、β-葡糖醛酸糖苷酶，萤光素酶，B或CI基因)的活性而鉴定，其中标记基因可以出现在重组核酸构建体上。这样的选择和筛选方法是本领域技术人员所公知的。

物理和生化方法也可以用于鉴定含有插入的基因构建体的植物或植物细胞转化体。这些方法包括但不限于：1)Southern分析或PCR扩增用于检测和测定重组DNA插入的结构；2)Northern印迹，S1核糖核酸酶保护(SI RNase protection)，引物延伸或逆转录PCR扩增用于检测或检查基因构建体的RNA转录本；3)检测酶或核酶活性的酶学分析，其中这类基因产物由基因构建体编码；4)蛋白凝胶电泳，Western印迹技术，免疫沉淀，或酶联免疫测定(ELISA)，其中基因构建体产物是蛋白质。其它的技术，例如原位杂交、酶染色和免疫染色，也可以用于检测特定植物器官或组织内重组构建体的存在或表达。用于实施所有这些测定的方法都是本领域技术人员所公知的。

使用本文公开的方法进行基因操作的效果可以通过例如对自感兴趣组织分离的RNA(例如mRNA)的northern印迹观察到。通常，如果mRNA出现或mRNA量增加，可以推定对应的转基因在进行表达。可以使用测量基因和/或编码的多肽活性的其它方法。根据所使用的底物和检测反应产品或副产物的增加或降低的方法，可以使用不同类型的酶学测定。此外，表达的多肽的水平可以通过免疫化学检测，即ELISA，RIA，EIA和其他本领域技术人员所知晓的基于抗体的检测，例如电泳检测方法(结合染色或western印迹)。作为一个非限制性例子，使用ELISA测定检测AAD-12(芳基氧基链烷酸双加氧酶，见WO2011/066360)和PAT(膦丝菌素-N-乙酰转移酶(PAT))蛋白记载于美国专利公开号20090093366，通过引用将其全文纳入本文。转基因可以在植物某些组织或某些发育阶段进行选择性的表达，或者转基因基本在所有的植物组织中表达，基本伴随其整个生命周期。但是，任何组合的表达模式也是可应用的。

本领域技术人员会认识到，在外源多核苷酸供体序列稳定掺入转基因植物并被确认有功能之后，它可以通过有性杂交导入其他植物中。多种育种技术中的任意种均可适用，取决于要杂交的物种。

本发明公开还包括如上面所记载的转基因植物的种子，其中种子具有所述转基因或基因构建体。本发明公开进一步包括如上面所述的转基因植物的后代、克隆、细胞系或细胞，其中所述的后代、克隆、细胞系或细胞具有插入到最优基因组座位中的所述转基因或基因构建体。

由上面任何一种转化技术所制备的转化植物细胞能培养并再生为具备转化的基因型和由此所期望的表型的完整植物。这样的再生技术依赖于对组织培养生长培养基中某些植物激素的操纵，典型地依赖于已与期望的核苷酸序列一起导入的生物杀灭剂和/或除草剂标志物。从培养的原生质体的植物再生记载于Evans等人，“Protoplasts Isolationand Culture”于Handbook of Plant Cell Culture，pp.124-176，Macmillian PublishingCompany，New York，1983；和Binding，Regeneration of Plants，Plant Protoplasts，pp.21-73，CRC Press，Boca Raton，1985中。再生还可以获自植物愈伤组织、外植体、器官、花粉、胚，或其部分。这样的再生技术常记载于Klee等人(1987)Ann.Rev.of PlantPhys.38：467-486中。

包含编码多肽的转基因植物或植物材料在某些实施方案中可显示下述的一项或多项特征：在该植物的细胞中表达所述多肽；在该植物的细胞的质体中表达该多肽的一部分；将该多肽从该植物的细胞的胞质溶胶导入到该细胞的质体中；该多肽在该植物的细胞中的质体特异性表达；和/或该多肽定位在该植物的细胞中。这样的植物除了表达该被编码的多肽之外可还具有一种或多种期望的性状。这样的性状可包括，例如：对昆虫、其他有害生物、或致病介质的抗性；对除草剂的耐性；强化的稳定性、产率或货架期；环境耐受性；药物生产；工业产物生产；以及营养强化。

依照一个实施方案，提供了转基因双子叶植物原生质体(即大豆原生质体)，其包含重组最优非基因大豆座位。更具体地，提供双子叶植物原生质体，例如大豆原生质体，其包含插入到该双子叶植物原生质体(例如大豆原生质体)的最优非基因大豆基因组座位的感兴趣的DNA，其中该非基因大豆基因组座位长度为约1Kb至约5.7Kb，且缺少任何甲基化核苷酸。在一个实施方案中，该转基因双子叶植物原生质体(例如转基因大豆原生质体)包含插入到所述最优非基因大豆基因组座位中的感兴趣的DNA，其中该感兴趣的DNA包含分析域和/或开放阅读框。在一个实施方案中，插入的感兴趣的DNA编码肽，在一个进一步的实施方案中，感兴趣的DNA包含至少一个包含转基因的基因表达盒。

依照一个实施方案，提供了包含重组最优非基因大豆座位的转基因双子叶植物、双子叶植物部分、或双子叶植物细胞(即，转基因大豆植物、大豆植物部分、或大豆植物细胞)。更具体地，提供了双子叶植物、双子叶植物部分、或双子叶植物细胞(即，大豆植物、大豆植物部分、或大豆植物细胞)，其包含插入到该双子叶植物、双子叶植物部分、或双子叶植物细胞(即，大豆植物、大豆植物部分、或大豆植物细胞)的最优非基因大豆基因组座位中的感兴趣的DNA，其中所述非基因大豆基因组座位长度为约1Kb至约5.7Kb，且缺少任何甲基化核苷酸。在一个实施方案中，该转基因双子叶植物、双子叶植物部分、或双子叶植物细胞(即，转基因大豆植物、大豆植物部分、或大豆植物细胞)包含插入到所述最优非基因大豆基因组座位中的感兴趣的DNA，其中该感兴趣的DNA包含分析域和/或开放阅读框。在一个实施方案中，插入的感兴趣的DNA编码肽，在一个进一步的实施方案中，感兴趣的DNA包含至少一个包含转基因的基因表达盒。

依照实施方案1，提供了一种重组序列，其中至少1Kb的非基因大豆基因组序列，所述非基因序列是低甲基化的、可靶向的、位于大豆基因组内基因区的邻近，且例示重组的证据，还包含插入到所述非基因序列中的感兴趣的DNA。依照实施方案2，实施方案1的重组序列具有下述特征：

a.所述非基因序列的甲基化水平为1％或更低；

b.所述非基因序列与大豆基因组中所含的任何其他序列享有少于40％的序列同一性；

c.所述非基因序列位于已知或预测的表达性大豆编码序列的40Kb区域内；和

d.所述非基因序列展示大于0.01574cM/Mb的大豆基因组内重组频率。依照实施方案3，提供实施方案1或2的重组序列，其中所述非基因序列包括5.73Kb的最大长度。依照实施方案4，提供实施方案1-3中任一项的重组序列，其中所述非基因序列包含1％或更少的核苷酸甲基化。依照实施方案5，提供实施方案1-4中任一项的重组序列，其中所述非基因序列长度为1Kb至5.73Kb且不含有甲基化的胞嘧啶残基。依照实施方案6，提供了实施方案1-5中任一项的重组序列，其中所述非基因序列不以大于40％序列同一性与大豆基因组内任何其他序列对齐。

依照实施方案7，提供了权利要求1-6中任一项的重组序列，其中所述非基因序列以大于0.01574cM/Mb的重组频率例示重组的证据。依照实施方案8，提供了权利要求1-7中任一项的重组序列，其中包含所述非基因序列的天然大豆基因组的40Kb区域亦包含至少一个已知的或预测的大豆编码序列，或者包含已知的大豆基因的2Kb上游和/或1Kb下游序列的序列。依照实施方案9，提供了权利要求1-8中任一项的重组序列，其中所述已知的或预测的大豆编码序列表达大豆蛋白质。依照实施方案10，提供了权利要求1-9中任一项的重组序列，其中所述非基因序列不包含甲基化的多核苷酸。依照实施方案11，提供了权利要求1-10中任一项的重组序列，其中所述非基因序列的一个末端距表达的内源基因40Kb以内。依照实施方案12，提供了权利要求1-11中任一项的重组序列，其中所述感兴趣的DNA包含分析域。依照实施方案13，提供了权利要求1-12中任一项的重组序列，其中所述感兴趣的DNA不编码肽。依照实施方案14，提供了权利要求1-12中任一项的重组序列，其中所述感兴趣的DNA编码肽，任选地编码杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、或选择标志物基因。依照实施方案16，提供了权利要求1-14中任一项的重组序列，其中所述重组序列包含下述特征：

a.该非基因序列含有少于1％DNA甲基化；

b.该非基因序列显示0.01574至83.52cM/Mb的大豆基因组内重组频率；

c.该非基因序列显示0至0.494的大豆基因组核小体占据水平；

d.该非基因组序列与大豆基因组内所含的任何其他序列享有少于40％的序列同一性；

e.该非基因序列的相对位置值为0至0.99682的距大豆染色体着丝点的遗传距离比；

f.该非基因序列的鸟嘌呤/胞嘧啶百分比含量范围为14.36至45.9％；

g.该非基因序列位于基因序列邻近；和

h.该非基因序列位于大豆基因组序列的1Mb区域中，该区域包含一个或多个其他非基因序列。

依照实施方案17，一种大豆植物、大豆植物部分或大豆植物细胞，包含实施方案1-14及16中任一项的重组序列。依照实施方案18，提供了实施方案17的大豆植物、大豆植物部分或大豆植物细胞，其中所述已知的或预测的大豆编码序列以0.000415到872.7198范围的水平表达。依照实施方案19，提供了权利要求1-14，16或17中任一项的重组序列，其中在所述感兴趣的DNA插入所述非基因序列的过程中该感兴趣的DNA和/或该非基因序列被修饰。

依照实施方案20，提供一种制造包含靶向到非基因大豆基因组序列的感兴趣DNA的转基因植物细胞的方法，其中该方法包括：

a)选择最优非基因大豆基因组座位；

b)将位点特异性核酸酶导入植物细胞中，其中该位点特异性核酸酶切割所述非基因大豆基因组序列；

c)将感兴趣的DNA导入植物细胞中；

d)将感兴趣的DNA靶向到所述非基因座位中，其中所述非基因序列的切割帮助该多核苷酸序列整合到所述非基因座位中；和

e)选择包含靶向到所述非基因座位的感兴趣DNA的转基因植物细胞。

实施例

实施例1：大豆中可靶向的座位座位的鉴定

利用生物信息学手段筛选大豆基因组，使用特定的标准来选择用于多核苷酸供体靶向的最优基因组座位。用于选择基因组座位的特定标准是应用下述各项开发的：为了转基因在植物基因组内的最优表达的考虑因素、为了位点特异性DNA结合蛋白与基因组DNA最优结合的考虑因素、以及转基因植物产物开发要求。为了鉴定和选择基因组座位，使用生物信息学手段扫描大豆基因组的基因组数据集和表基因组数据集，基因组的基因组数据集和表基因组数据集的扫描结果得到了符合下述标准的选定座位：1)低甲基化且长度大于1Kb；2)可通过多核苷酸供体的位点特异性核酸酶介导整合而靶向；3)农艺学上中性或非基因性；4)整合的转基因可以从其表达的区域；和5)在座位内/周围有重组的区域。相应地，使用这些特定的标准鉴定了共7018个基因组座位(SEQ ID NO：1-SEQ ID NO：7,018)。这些特定标准在下文中进一步详细描述。

低甲基化

扫描大豆基因组以选择DNA低甲基化的大于1Kb的最优基因组座位。使用一种高通量全基因组测序途径来构建从大豆栽培种Williams82分离的根和芽组织的DNA甲基化概貌图。对提取出的DNA进行亚硫酸盐处理，亚硫酸盐处理将未甲基化的胞嘧啶转化为尿嘧啶，但不影响甲基化的胞嘧啶，然后用Illumina HiSeq技术(Krueger，F.et al.DNA methylomeanalysis using short bisulfite sequencing data.Nature Methods 9，145-151(2012))测序。利用如Krueger F，Andrews SR(2011)Bismark：a flexible aligner andmethylation caller for Bisulfite-Seq applications.(Bioinformatics 27：1571-1572)中描述的Bismark^TM定位软件将原始测序读段收集并定位到大豆栽培种Williams82参照基因组。

由于在亚硫酸盐转化过程中DNA序列中甲基化的胞嘧啶不被转化为尿嘧啶，故测序数据中胞嘧啶碱基的存在表明DNA甲基化的存在。对定位到参照序列的读段进行分析以鉴定具有DNA甲基化支持的胞嘧啶残基的基因组位置。基因组中每个胞嘧啶的甲基化水平作为定位到特定胞嘧啶碱基位置的甲基化读段的数目占定位到该位置的读段的总数的百分比来计算。下面的假设情况解释了如何计算大豆基因组内的每个碱基的甲基化水平。例如，设想在大豆栽培种Williams82参照序列的染色体1中第100位上有一个胞嘧啶碱基。如果总共有20个读段定位到第100位的胞嘧啶碱基，且这些读段中10个是甲基化的，则估计染色体1中第100位的胞嘧啶碱基的甲基化水平为50％。相应地，计算了获自大豆的根和芽组织的所有基因组DNA碱基对的甲基化概貌。无法正确定位到大豆基因组中的独特位置的读段与大豆基因组中广泛分布的重复序列相符，已知这些读段大多是甲基化的。

使用上述的规程，测量了大豆栽培种Williams82基因组的甲基化水平。如此，大豆基因组中含有甲基化读段的区域表明大豆基因组的这些区域是甲基化的。反过来，大豆基因组的没有甲基化读段的区域表明大豆基因组的这些区域是非甲基化的。来自芽和根组织的大豆基因组中的非甲基化、且不含有任何甲基化读段的区域视为“低甲基化”区域。为了让根和芽甲基化概貌能够用于可视化，对每个大豆栽培种Williams82染色体生成了摆动作图(wiggle plots)(http：//useast.ensembl.org/info/website/unload/wig.html)。

在如上所述于根和芽组织中以单个碱基对的分辨率获得了甲基化水平之后，使用100bp窗口来筛选大豆基因组，以鉴定甲基化的基因组区。对于基因组中每个被筛选的窗口，通过计算该窗口中每个胞嘧啶碱基处的平均甲基化水平而得到DNA甲基化水平。将DNA甲基化水平大于1％的基因组窗口称为甲基化的基因组区域。将在根和芽概貌中鉴定的甲基化窗口合并以生成共有甲基化概貌(consensus methylation profile)。反过来，将基因组中不满足这些标准，且在共有概貌中不被鉴定为甲基化区域的区域称为低甲基化区域。表1总结了鉴定出的低甲基化区域。

表1.大豆栽培种Williams82基因组的低甲基化概貌

对大豆栽培种Williams82基因组的这些低甲基化区域进一步表征以鉴定并选择特定的基因组座位，因为这些区域的无甲基化的环境提示开放的染色质的存在。如此，所有后续的分析均对鉴定出的低甲基化区域进行。

可靶向性(targetability)

进一步分析在大豆栽培种Williams82中鉴定出的低甲基化位点，以确定哪些位点可通过位点特异性核酸酶介导的多核苷酸供体重组来靶向。大豆已知是一种古多倍体作物，它在其基因组历史上已经经历过基因组复制(Jackson et al Genome sequence ofthe palaeopolyploid soybean，Nature 463，178-183(2010))。本领域知晓大豆基因组含有大段的甲基化的高度重复DNA，且具有高水平的序列重复。从大豆基因组数据库(www.soybase.org，Shoemaker，R.C.et al.SoyBase，the USDA-ARS soybean genetics and genomics database.Nucleic Acids Res.2010 Jan；38(Database issue)：D843-6.)收集大豆基因组中已知的重复区域的注释信息。

相应地，对上文鉴定的低甲基化位点进行筛选，以去除任何与大豆基因组上已注释的已知重复区域对齐的位点。接下来利用基于BLAST^TM的大豆基因组数据库同源性检索对通过此初筛后剩余的低甲基化位点进行扫描，检索使用NCBI BLAST^TM+软件(2.2.25版本)以默认的参数设定来运行(Stephen F.Altschul et al(1997)Gapped BLAST and PSI-BLAST：a new generation of protein database search programs.Nucleic AcidsRes.25：3389-3402)。该BLAST^TM筛选的结果是，任何在基因组中别处有显著匹配，序列比对覆盖率超过40％的低甲基化位点均被从进一步研究除去。

农艺学中性或非基因性

进一步分析大豆栽培种Williams82中鉴定出的低甲基化位点以确定哪些位点是农艺学中性或非基因性的。如此，对上文描述的低甲基化位点进行了筛选，以去除与任何已知的或预测的大豆栽培种Williams82编码序列重叠、或含有任何已知的或预测的大豆栽培种Williams82编码序列的任何位点。为此目的，从“大豆基因组数据库”(www.soybase.org-使用1.1版本基因模型，Jackson et al Genome sequence of the palaeopolyploidsoybean Nature 463，178-183(2010))收集已知基因的注释数据和表达序列标签(EST)数据的定位信息。任何在某一开放阅读框的直接2Kb上游和1Kb下游的基因组区域也加以考虑。这些上游和下游区域可能含有已知的或未知的对基因功能必不可少的保守调控元件。对前面已描述的低甲基化位点分析已知基因(包括2Kb上游和1Kb下游区域)和EST的存在。将任何与已知基因(包括2Kb上游和1Kb下游区域)或EST对齐或重叠的低甲基化位点从下游分析中去除。

表达

进一步分析大豆栽培种Williams82中鉴定出的低甲基化位点以确定哪些位点处于表达的大豆基因的邻近。通过对利用RNAseq^TM技术从大豆栽培种Williams82根和芽组织产生的转录组概貌数据加以分析来测量大豆基因的转录物表达水平，RNAseq^TM技术如Mortazavi et al.，Mapping and quantifying mammalian transcriptomes by RNA-Seq.Nat Methods.2008；5(7)：621-628，及Shoemaker RC et al.，RNA-Seq Atlas ofGlycine max：a guide to the soybean Transcriptome.BMC Plant Biol.2010 Aug 5；10：160所述。对于每个低甲基化位点完成了分析，鉴定出在该低甲基化位点邻近40Kb区域内的任何已注释的基因，并鉴定位于该低甲基化位点邻近的已注释基因的平均表达水平。将与具有非零平均表达水平的已注释基因相距大于40Kb的低甲基化位点确定为不与表达的大豆基因邻近，将这些位点从进一步的分析移除。

重组

进一步分析大豆栽培种Williams82中鉴定出的低甲基化位点以确定哪些位点具有重组的证据，并能够帮助最优基因组座位通过常规育种向其他大豆品系中的渗入。在常规育种中为了开发含有具备农艺学意义的性状的、新的改良大豆品系，经常将多种多样的大豆基因型杂交。因此，通过植物介导的转基因转化而渗入到大豆品系中最优基因组座位内的农艺学性状应当能够通过常规植物育种中的减数分裂重组而进一步渗入到其他大豆品系，尤其是优良品系中。对上述的低甲基化位点进行了筛选，以鉴定并选择具备一定水平的减数分裂重组的位点。鉴定并去除被表征为重组“冷点”(cold-spots)的染色体区域内存在的任何低甲基化位点。在大豆中，这些冷点使用从重组近交定位群体(Williams 82 xPI479752)产生的标记物数据集来定义。该数据集由～16,600个能够被物理定位到大豆参照基因组序列上的SNP标记物组成。

基于标记物之间的遗传距离(以厘摩(cM)计)与标记物之间的物理距离(以兆碱基数(Mb)计)的比计算了整个染色体上任何成对的大豆基因组标记物之间的减数分裂重组频率。例如，如果一对标记物之间的遗传距离是1cM，且同一对标记物之间的物理距离是2Mb，则计算的重组频率确定为0.5cM/Mb。对于上面鉴定的每个低甲基化位点，选择一对分开至少1Mb的标记物，计算重组频率。利用这种方法的调用来计算低甲基化位点的重组频率。鉴定任何重组频率0cM/Mb的低甲基化位点，并将其从进一步的分析去除。选择剩下的包含大于0cM/Mb重组频率的低甲基化区域用于进一步分析。

最优基因组座位的鉴定

应用上文所述的选择标准的结果，从大豆基因组鉴定了总共90,325个最优基因组座位。表2总结了鉴定的最优基因组座位的长度。这些最优基因组座位具有下述特征：1)长度大于1Kb的低甲基化基因组座位；2)可通过多核苷酸供体的位点特异性核酸酶介导整合而靶向的基因组座位；3)农艺学上中性或非基因性的基因组座位；4)可以从其表达转基因的基因组座位；和5)该基因组座位内重组的证据。在表2中描述的所有最优基因组座位中，只有长度大于1Kb的最优基因组座位得到进一步分析并用于供体多核苷酸序列的靶向。这些最优基因组座位的序列作为SEQ ID NO：1-SEQ ID NO：7,018公开。总的来说，这些最优基因组座位是大豆基因组内能够用供体多核苷酸序列靶向的位置，如本文下面要进一步展示的。

表2列出了在大豆基因组中鉴定的低甲基化、显示重组的证据、可靶向、农艺学中性或非基因性、且位于表达的内源基因附近的最优基因组座位的大小范围。

大于100Bp的最优基因组座位数	90,325
		大于1Kb的最优基因组座位数	7,018
大于2Kb的最优基因组座位数	604
		大于4Kb的最优基因组座位数	9

实施例2：用于聚类来自大豆的最优基因组座位的F-分布和主成分分析

对7,018个鉴定的最优基因组座位(SEQ ID NO：1-SEQ ID NO：7,018)使用F-分布和主成分分析统计学方法进一步加以分析，以定义用于将这些最优基因组座位分组的代表性群体和类簇。

F-分布分析

使用连续概率分布统计学分析来对鉴定出的7,018个最优基因组座位进行统计学分析。作为连续概率分布统计学分析的一个实施方案，完成了F-分布检验来确定最优基因组座位的代表性数目。F-分布检验分析使用本领域技术人员知晓的等式和方法来完成。关于更多的指导，K.M Remund，D.Dixon，DL.Wright and LR.Holden.Statisticalconsiderations in seed purity testing for transgenic traits.Seed ScienceResearch(2001)11，101-119(通过提述将其并入本文)中描述的F-分布检验分析是F-分布检验的一个非限定性实例。F-分布检验假定对最优基因组座位的随机取样，使得任何无效的座位在全部7,018个最优基因组座位中均匀分布，且使得被取样的最优基因组座位数目是7,018个最优基因组座位群体总数的10％或更少。

F-分布分析表明7,018个最优基因组座位中的32个可提供该7,018个最优基因组座位的代表性数目，置信水平为95％。相应地，该F-分布分析显示，如果测试32个最优基因组座位且它们全部可用供体多核苷酸序列靶定，那么这些结果可说明该7,018个最优基因组座位中的91个或更多在95％置信水平上是阳性的。对7,018个最优基因组座位验证有效的总百分比的最佳估计是：如果32个受检验的最优基因组座位100％是可靶向的。相应地，91％真正是95％置信水平下验证有效的真实百分比的下边界。该下边界对95％置信水平而言是基于F-分布的0.95百分位(Remund K，Dixon D，Wright D，and Holden L.Statisticalconsiderations in seed purity testing for transgenic traits.Seed ScienceResearch(2001)11，101-119)。

主成分分析

接下来，完成了主成分分析(PCA)统计学方法，以进一步评估并可视化包含7,018个鉴定出的最优基因组座位的数据集的相似性和差异，以使得对多样性的座位取样用于靶向验证成为可能。PCA涉及一种数学算法，其将大数目的相关变量转换为较小数目的不相关变量，后者称为主成分。

如下所述对7,018个鉴定出的最优基因组座位完成PCA：产生一组能够用来描述该7,018个鉴定出的最优基因组座位的可计算的特征或者属性。每种特征都是可以数值计算的，并且专门加以定义以捕捉该7,018个鉴定出的最优基因组座位的基因组及表基因组环境。为每个大豆最优基因组座位鉴定了一组10个特征，它们在下文中更详细地描述。

1.最优基因组座位的长度

a.该数据集中最优基因组座位的长度范围从最小1,000Bp到最大5,713Bp。

2.最优基因组座位周围1MB区域中的重组频率

a.在大豆中，染色体位置的重组频率用从多重定位群体生成的内部高分辨率标记组数据集来定义。

b.整个染色体上任何成对标记物的重组频率基于标记物之间的遗传距离(以厘摩(cM)计)与标记物之间的物理距离(以Mb计)之比来计算。例如，如果一对标记物的遗传距离是1cM，且同一对标记物之间的物理距离是2Mb，则计算得到的遗传频率是0.5cM/Mb。对于每个最优基因组座位，选择分开至少1Mb的一对标记物，并以该方式计算重组频率。这些重组值的范围从最小0.01574cM/Mb到最大83.52cM/Mb不等。

3.最优基因组座位序列独特性的水平

a.对于每个最优基因组座位，利用基于BLAST^TM的同源性检索将该最优基因组座位的核苷酸序列对大豆栽培种Williams82基因组进行扫描，检索使用NCBI BLAST^TM+软件(2.2.25版本)以默认的参数设定来运行(Stephen F.Altschul et al(1997)，″GappedBLAST and PSI-BLAST：a new generation of protein database search programs″，Nucleic Acids Res.25：3389-3402)。因为这些最优基因组座位序列是从大豆栽培种Williams82基因组鉴定出来的，故通过该检索鉴定出来的第一个BLAST^TM命中代表大豆栽培种Williams82序列本身。鉴定出每个最优基因组座位的第二个BLAST^TM命中，并使用该命中的对齐覆盖度(用该最优基因组座位被该BLAST^TM命中所覆盖的百分比表示)作为该最优基因组座位在大豆基因组中独特性的量度。第二个BLAST^TM的这些对齐覆盖度值的范围是从最小0％到最大39.97％序列同一性。任何以更高的序列同一性水平对齐的序列均不予考虑。

4.最优基因组座位到其附近的最接近基因的距离

a.从大豆基因组数据库(可在www.soybase.org访问，使用版本1.1基因模型，Jackson et al Genome sequence of the palaeopolyploid soybean，Nature 463，178-183(2010))提取基因注释信息和大豆基因组中已知基因的位置。对于每个最优基因组座位，鉴定最接近的已注释基因，其中上游和下游位置均考虑在内，并测量最优基因组座位序列与该基因之间的距离(以Bp计)。例如，如果最优基因组座位位于染色体Gm01上从第2,500位到3,500位，且与该最优基因组座位最接近的基因位于染色体Gm01上从第5,000位到第6,000位，则从最优基因组座位到该最接近基因的距离算得为1500Bp。对于所有7,018个最优基因组座位数据集，这些值的范围从最小1,001Bp到最大39,482Bp。

5.最优基因组座位中的GC％

a.对于每个最优基因组座位，分析核苷酸序列以估计存在的鸟嘌呤和胞嘧啶碱基数。该计数表示为占每个最优基因组座位的序列长度的百分比，且提供了GC％的一个量度。大豆最优基因组座位数据集的这些GC％值的范围是14.4％至45.9％。

6.最优基因组座位序列周围40Kb附近区域中的基因数

a.从大豆基因组数据库提取基因注释信息和已知基因在大豆栽培种Williams82基因组中的位置。对于7,018个最优基因组座位中的每一个，定义最优基因组座位序列周围的一个40Kb窗口，计算具有与该窗口重叠的位置的已注释基因的数目。这些值的范围从在40Kb附近区域中最少1个基因到最多18个基因。

7.最优基因组座位周围40Kb附近区域的平均基因表达

a.使用RNAseq^TM技术，通过分析从大豆栽培种Williams82根和芽组织产生的转录组概貌数据来测量大豆基因的转录物表达水平。从大豆座位数据库提取基因注释信息和已知基因在大豆栽培种Williams82基因组中的位置。对于每个最优基因组座位，鉴定在大豆栽培种Williams82基因组中该最优基因组座位周围40Kb附近区域中存在的已注释基因。从前面的引文中描述的转录组概貌中提取这些基因中每一个的表达水平，并计算平均基因表达水平。所有基因在大豆的基因组中的表达值变化巨大。对于全部7,018个最优基因组座位数据集，平均表达值的范围从最小0.000415到最大872.7198。

8.最优基因组座位周围的核小体占据水平

a.对特定核苷酸序列的核小体占据水平的理解可提供关于染色体功能和该序列的基因组环境的信息。使用NuPoP^TM统计学程序包为任何大小的基因组序列预测核小体占据和最似然的核小体定位图(Xi，L.，Fondufe-Mittendor，Y.，Xia，L.，Flatow，J.，Widom，J.and Wang，J.-P.，Predicting nucleosome positioning using a duraion HiddenMarkov Model，BMC Bioinformatics，2010，doi：10.1186/1471-2105-11-346)。对于7,018个最优基因组座位中的每一个，将核苷酸序列提交供NuPoP^TM软件分析，计算核小体占据得分。最优基因组座位数据集的这些核小体占据得分的范围从最小0到最大0.494。

9.染色体内的相对位置(对着丝粒的接近度)

a.着丝粒是染色体上连接两个姐妹染色单体的区域。着丝粒每一侧的染色体部分被称为染色体臂。在已公布的大豆栽培种Williams82参照序列(Jackson et al Genomesequence of the palaeopolyploid soybean Nature 463，178-183(2010))中鉴定了全部20条大豆染色体上着丝粒的基因组位置。从大豆基因组数据库提取了关于着丝粒在每个大豆染色体中的位置，以及染色体臂的长度的信息。对于每个最优基因组座位，测量从最优基因组座位序列到其所在的染色体的着丝粒的基因组距离(以bp计)。最优基因组座位在染色体内的相对位置表示为其到着丝粒的基因组距离相对于其所在的具体染色体臂的长度之比。该大豆最优基因组座位数据集的这些相对位置值的范围从最小0到最大0.99682的基因组距离比。

10.最优基因组座位周围1Mb区域中最优基因组座位的数目

a.对于每个最优基因组座位，定义最优基因组座位位置周围的1Mb基因组窗口，并统计该区域内存在的或与该区域重叠的其他更多的最优基因组座位，包括在考虑中的最优基因组座位。1Mb中最优基因组座位的数目范围从最小1到最大49。

使用如上所述的特征和属性分析了全部7,018个最优基因组座位。表3(通过提述将其作为另行电子提交的文件并入)中进一步描述了每个最优基因组座位的特征和属性评分的结果或值。将所得的数据集用于PCA统计学方法以将该7,018个鉴定出的最优基因组座位聚类成类簇。在聚类过程中，在估计了最优基因组座位的“p”主成分之后，将最优基因组座位指配到32个类簇之一的过程在“p”维欧几里得空间中进行。将每个“p”轴分解为“k”个区间。将被指配到相同区间的最优基因组座位组合到一起形成类簇。使用该分析，每个PCA轴被分为两个区间，根据关于实验验证所需的类簇数的事先信息加以选择。所有分析和对所得的类簇的可视化均使用来自Chemical Computing Group Inc.(Montreal，Quebec，Canada)的Molecular Operating Environment^TM(MOE)软件来实施。

利用该PCA途径将7,018个最优大豆基因组座位基于它们的特征值(如上所述)聚类成32个独特的类簇。在PCA过程中，产生了5个主成分(PC)，其中最先3个PC含有数据集中总变异的约90％(表4)。用这3个PC在3维作图中图形化表现所述32个类簇(见图1)。在聚类过程完成之后，从每个类簇选择一个代表性的最优基因组座位。这通过用计算机方法选择每个类簇内与该类簇的形心最接近的选定最优基因组座位来进行(表4)。32个代表性的最优基因组座位的染色体位置在20个大豆染色体中分布均匀且不偏向任何特定的基因组位置，如图2所示。

表4.从PCA鉴定的32种大豆代表性最优基因组座位的描述

用于靶向多核苷酸供体多核苷酸序列的基因组座位的最终选择

从聚类成32个独特类簇的7,018个基因组座位中鉴定并选择了总共32个基因组座位，以用于供体多核苷酸序列的靶向。对于该32个类簇中的每一个，选择了代表性的基因组座位(与类簇的形心最近，如上文表4中所述)或与靶向系有同源性的其他座位。通过下述方式选择了其他最优基因组座位：首先用7,018个选定的最优基因组序列筛选一个全基因组数据库，该数据库由大豆栽培种Maverick(转化和靶向筛选系)和大豆栽培种Williams82(参照系)的基因组DNA序列数据构成，以确定覆盖度(有多少最优基因组座位在两种基因组中均存在)和来自这两个系的基因组中的序列同一性的百分比。选择具有100％覆盖度(最优座位的序列全长在两种基因组之间对齐)且在Williams82基因组数据库中有100％同一性的最优基因组座位用于靶向验证。其他标准，如基因组座位大小，独特性的程度，GC％含量和最优基因组座位的染色体分布，也在选择其他最优基因组座位时考虑。32个选定最优基因组座位的染色体位置以及每个大豆最优基因组座位的具体基因组构型分别示于图3和表5。

表5.表5.选用于靶向验证的32个选定大豆最优基因组座位的描述。在该表中列出的这些最优基因组座位中，对32个大豆最优基因组座位的切割和靶向的示例可以代表总共7018个经鉴定的大豆选定最优基因组座位。

使用精密基因组工程化技术(precision genome engineering technologies)在大豆基因组中鉴定了一大组7018个基因组位置，作为用供体多核苷酸序列靶向的最优基因组座位。利用统计学分析途径将选出的7018基因组座位分组成32个具有相似的基因组上下文的类簇，并鉴定出了能代表该7018个选定的基因组座位的集合的32个选定的基因组座位。通过用供体多核苷酸序列进行靶向，验证了这32个代表性座位是最优基因组座位。为前述的十组特征或属性生成了数值，对这些数值进行了PCA统计学分析，由此将这十种特征或属性计算成具有较少维数的PCA成分。如此，PCA成分被降低为可代表如上所述的十种特征或属性的5个维度(表6)。每个PCA成分等同于上述十种特征或属性的一个组合。从这些包含5个维度的PCA成分，如通过PCA统计学分析所计算的，确定出所述32个类簇。

实施例3：用于结合大豆中的基因组座位的锌指的设计

如前人所述设计针对鉴定出的代表性基因组座位的DNA序列的锌指蛋白。参见例如Umov et al.，(2005)Nature 435：646-551。示例性的靶序列和识别螺旋示于表7(识别螺旋区域设计)及表8(靶位点)。在表8中，靶位点中被ZFP识别螺旋所接触的核苷酸以大写字母表示，非接触的核苷酸以小写字母表示。对前述的所有32个选定的最优基因组座位设计了锌指核酸酶(ZFN)靶位点。开发并测试了许多ZFP设计并加以测试，以鉴定以最高水平的效率与如上所述在大豆中鉴定并选出的32种不同的代表性基因组座位靶位点结合的锌指。将与锌指识别序列以最高效率水平结合的特定ZFP识别螺旋(表7)用于供体序列在大豆基因组内的靶向和整合。

表7.针对大豆选定的基因组座位的锌指设计(N/A表示“不适用”)

表8.大豆选定的基因组座位的锌指蛋白靶位点

将大豆代表性基因组座位锌指设计组入到锌指表达载体中，该载体编码具有至少一个具有CCHC结构的指的蛋白。参见，美国专利公开号2008/0182332。具体地，每个蛋白的最后一个指具有用于识别螺旋的CCHC骨架。将编码非经典锌指的序列与IIS型限制酶FokI的核酸酶域(Wah et al.，(1998)Proc.Natl.Acad.Sci.USA 95：10564-10569的序列的氨基酸384-579)介由四个氨基酸的ZC接头及针对大豆优化过的opaque-2核定位信号融合，形成锌指核酸酶(ZFN)。参见美国专利7,888,121。选择针对各种功能域的锌指供体内使用。在设计、产生并测试对推定的基因组靶位点的结合的多种ZFN中，表8中所述的ZFN被鉴定为具有体内活性，并被定性为在植物体中能够高效地结合并切割独特的大豆基因组多核苷酸靶位点。

ZFN构建体组装

利用本领域公知的技术和工艺(参见例如Ausubel或Maniatis)设计并完成了含有ZFN基因表达构建体的质粒载体。将每个ZFN编码序列与编码opaque-2核定位信号的序列融合(Maddaloni et al.，(1989)Nuc.Acids Res.17：7532)，后者定位于锌指核酸酶的上游。非经典锌指编码序列融合于IIS型限制酶FokI的核酸酶域(Wah et al.(1998)Proc.Natl.Acad.Sci.USA95：10564-10569的序列的氨基酸384-579)。融合蛋白的表达由来自木薯叶脉花叶病毒的强组成型启动子驱动。该表达盒还包括来自根癌土壤杆菌ORF23的3’UTR。在克隆到该构建体内的两个锌指核酸酶融合蛋白之间添加来自明脉扁刺蛾(Thoseaasigna)病毒编码自水解性2A的核苷酸序列(Szymczak et al.，(2004)NatBiotechnol.22：760-760)。

使用IN-FUSION^TM Advantage Technology(Clontech，Mountain View，CA)组装质粒载体。限制性内切核酸酶获自New England BioLabs(Ipswich，MA)，DNA连接使用T4DNA连接酶(Invitrogen，Carlsbad，CA)。质粒的制备使用Plasmid Kit(Macherey-Nagel Inc.，Bethlehem，PA)或Plasmid Midi Kit(Qiagen)根据供应商的说明进行。在琼脂糖Tris-乙酸盐凝胶电泳后使用QIAquick Gel Extraction Kit^TM(Qiagen)分离DNA片段。所有连接反应的菌落通过小提DNA的限制酶消化来初步筛选。将选出的克隆的质粒DNA交由测序供应商(Eurofins MWG Operon，Huntsville，AL)测序。使用SEQUENCHER^TMsoftware(Gene Codes Corp.，Ann Arbor，MI)组合并分析序列数据。通过限制酶消化且通过DNA测序构建并验证质粒。

通过自动化工作流程的锌指克隆

锌指核酸酶载体的一个子集是通过自动化DNA构建管道来克隆的。总的来说，通过自动化管道构建的载体的ZFN构架与前文所述的相同。将每个锌指单体一其赋予ZFN的DNA结合特异性一在KPF氨基酸基序处分割为2-3个独特的序列。修饰ZFN片段的5’和3’末端以包含BsaI识别位点(GGTCTCN)以及衍生的突出端。突出端的分布使得包含6-8个部分的组装体只会产生期望的全长表达克隆。修饰的DNA片段从头合成(Synthetic GenomicsIncorporated，La Jolla，CA)。在所有大豆ZFN构建物中使用单一的双子叶植物骨架，pDAB118796。它含有木薯花叶病毒启动子以及Opaque2 NLS，还有来自根癌土壤杆菌的FokI域以及Orf23 3’UTR。在Opaque2 NLS和FokI域之间克隆有被BsaI侧翼的来自枯草杆菌的SacB基因。将推定的连接事件在含蔗糖的培养基上铺板之后，SacB盒充当减少或消除载体骨架污染的负选择剂。另一种在所有构建物中被重复使用的部分是pDAB117443。该载体含有第一单体Fok1域、T2A反向螺旋序列(stutter sequence)，以及第二单体Opaque2 NLS，它们都被BsaI位点侧翼。

使用这些材料作为ZFN DNA部分文库，由一台Freedom Evo(TECAN，Mannedorf，Switzerland)操作从带2D条形码的管向PCR平板中(ThermoFisher，Waltham，MA)添加75-100ng的每种DNA质粒或合成片段。向反应中加入补充有牛血清白蛋白(NEB，Ipswich，MA)及T4 DNA连接酶缓冲液(NEB，Ipswich，MA)的BsaI(NEB，Ipswich，MA)和T4 DNA连接酶(NEB，Ipswich，MA)。将反应置于C 1000Touch Thermo(BioRad，HerculesCA)中进行37℃温育3分钟和16℃4分钟的循环(25X)。连接后的材料在Top10(LifeTechnologies Carlsbad，CA)中通过手工或使用Qpix460菌落挑取器和LabChip(Perkin Elmer，Waltham，MA)进行转化和筛选。对正确消化的菌落进行序列验证并提供用于植物转化。

通用供体构建体组装

为了支持对大数目的靶座位的快速测试，设计并构建了一种新的、灵活的通用供体系统序列。该通用供体多核苷酸序列与高通量载体构建方法学及分析兼容。通用载体系统由至少三个模块域组成：一个可变的ZFN结合域，一个不可变的分析与用户定义特征域，以及一个用于载体规模放大的简单质粒骨架。非可变通用供体多核苷酸序列对所有供体是相同的，这样就能够设计可以在所有大豆靶位点中通用的有限的一组测定，从而为靶向评估提供均一性，并减少分析循环次数。这些域的模块性为高通量供体组装提供了条件。此外，通用供体多核苷酸序列有其他以简化下游分析和改善结果解释为目标的独特特征。它含有不对称的限制性位点序列，借助该序列可以将PCR产物消化到诊断性预测得出的大小。处于包含预期在PCR扩增中会出问题的二级结构的序列。通用供体多核苷酸序列的尺寸小(低于3.0Kb)。最后，将通用供体多核苷酸序列构建到高拷贝pUC19骨架上，这样可以及时地集聚大量的测试DNA。

作为一个实施方案，提供了pDAB124280(SEQ ID NO：7561和图7)作为包含通用供体多核苷酸序列的质粒的一个实例。在一个其他实施方案中，提供：pDAB124281，SEQ IDNO：7562，图8；pDAB121278，SEQ ID NO：7563，图9；pDAB123812，SEQ ID NO：7564，图10；pDAB121937，SEQ ID NO：7565，图11；pDAB123811，SEQ ID NO：7566，图12；和pDAB124864SEQ ID NO：7567，图13，作为通用供体多核苷酸序列。在另一个实施方案中，可以构建其他包含所述通用载体多核苷酸序列、具有功能性表达的编码序列或非功能性(无启动子)表达的编码序列的序列(表11)。

表11：提供了被转化到植物细胞原生质体中用于在大豆基因组内进行供体介导整合的不同通用域序列。用随附的SEQ ID NO中的碱基对位置来描述和识别通用域质粒系统中的不同元件。“N/A”表示不适用

通用供体多核苷酸序列是作为质粒被投递的一种2-3Kb的模块化小型供体系统。这是一种最小供体，包含1，2，3，4，5，6，7，8，9或更多个ZFN结合位点，称为“DNA X”或“UZI序列”(SEQ ID NO：7568)的短的100-150bp模板区域，其携带限制性位点和用于引物设计的DNA序列或编码序列，以及简单的质粒骨架(图4)。通过双链DNA在合适的ZFN结合位点断裂后的NHEJ插入整个质粒；ZFN结合位点可以依次一一组入。通用供体多核苷酸序列的这个实施方案对于靶位点和ZFN的快速筛选是最适合的，且最大程度地减少了供体中难于扩增的序列。还生成了没有“UZI”序列但携带一个或多个ZFN位点的通用供体。

在一个进一步的实施方案中，通用供体多核苷酸序列由至少4个模块组成，且携带ZFN结合位点、同源臂、DNA X以及仅约100bp的分析片断或编码序列。通用供体多核苷酸序列的这个实施方案适合用于用数种ZFN在多种不同的靶位点处查询HDR介导的基因插入(图5)。

通用供体多核苷酸序列可以与所有具有明确的DNA结合域的靶向性分子一起使用，靶向供体插入有两种模式(NHEJ/HDR)。如此，当通用供体多核苷酸序列与合适的ZFN表达构建体共投递时，供体载体和大豆基因组在一个特定的位置被切割，该位置由该具体的ZFN的结合所决定。一旦被线性化，供体就可以通过NHEJ或HDR组入到基因组中。然后可以利用载体设计中的不同分析考虑因素来确定将靶向整合的高效投递最大化的锌指。

实施例4：大豆转化程序

在投递到大豆Maverick原生质体之前，利用Pure Yield Plasmid Maxiprep(Promega Corporation，Madison，WI)或Plasmid Maxi(Qiagen，Valencia，CA)根据供应商的说明从大肠杆菌培养物制备每种ZFN构建体的质粒DNA。

原生质体分离

从自叶外植体产生的愈伤组织由来的Maverick悬浮培养物分离原生质体。悬浮液每7天在新鲜的LS培养基(Linsmaier和Skoog 1965)中亚培养一次，LS培养基含有3％(w/v)蔗糖、0.5mg/L 2，4-D和7g细菌用琼脂，pH 5.7。为了分离，将30毫升亚培养后7日的Maverick悬浮培养物转移到50ml锥形离心管中，200g离心3分钟，每管产生大约10ml沉降细胞体积(settled cell volume，SCV)。去除上清液，每4个SCV的悬浮细胞加入20毫升酶溶液(0.3％果胶裂解酶(320952；MP Biomedicals)，3％纤维素酶(“Onozuka”R10^TM；YakultPharmaceuticals，Japan)，溶于MMG溶液(4mM MES，0.6M甘露醇，15mM MgCl₂，pH 6.0)，用Parafilm^TM包住管。将管放置在平台式振荡器上过夜(约16-18小时)并取一等份消化细胞显微镜检以确保细胞壁消化充分。

原生质体纯化

开发了一种基于大豆(Glycine max c.v.Maverick)原生质体的转化方法，并用于大豆原生质体转化。从自叶外植体产生的愈伤组织由来的Maverick悬浮培养物分离原生质体。下面的技术描述了该方法。将大豆细胞悬浮液每7天通过在含3％(w/v)蔗糖、0.5mg/L2，4-D、以及7g细菌琼脂，pH5.7的LS培养基(Linsmaier and Skoog 1965)中1∶5稀释来亚培养。所有实验从亚培养后7天开始，按照下述的规程进行。

原生质体分离

将30毫升亚培养后7日的大豆栽培种Maverick悬浮培养物转移到50ml锥形离心管中，200g离心3分钟，每管产生大约10ml沉降细胞体积(settled cell volume，SCV)。在不扰动细胞沉淀的同时去除上清液。每4个SCV的悬浮细胞加入20毫升酶溶液(0.3％果胶裂解酶(320952；MP Biomedicals)，3％纤维素酶(“Onozuka”R10^TM；Yakult Pharmaceuticals，Japan)，溶于MMG溶液(4mM MES，0.6M甘露醇，15mM MgCl₂，pH 6.0)，用Parafilm^TM包住管。将管放置在平台式振荡器上过夜(约16-18小时)。次日早晨，取一等份消化细胞显微镜检以确保细胞壁消化充分。

原生质体纯化

将细胞/酶溶液缓慢过滤通过100μM细胞滤网。用10ml W5+培养基(1.82mM MES，192 mM NaCl，154mM CaCl₂，4.7mM KCl，pH 6.0)漂洗细胞滤网。过滤步骤用70μM筛重复。通过加入10ml W5+培养基将最终体积定为40ml。通过颠倒管混合细胞。将8ml缓冲垫溶液(500mM蔗糖，1mM CaCl₂，5mM MES-KOH，pH 6.0)加到含有细胞的50ml锥形离心管的底部来使原生质体缓慢地在缓冲垫溶液上成层。将离心管在翻斗式转头中350g离心15分钟。使用5ml移液器吸头缓慢地移出原生质体条带(约7-8ml)。然后将原生质体转移到50ml锥形管中，加入25ml的W5+洗涤液。将管缓慢颠倒，200g离心10分钟。移出上清液，加入10ml MMG溶液，并将管缓慢颠倒以重悬原生质体。使用血细胞计数仪或流式细胞仪确定原生质体密度。典型地，4PCV的细胞悬液产生大约2百万个原生质体。

使用PEG转化原生质体

用MMG将原生质体浓度调整至1.6百万个/ml。将300μl的原生质体等份(大约500,000个原生质体)转移2ml无菌管中。在将原生质体转移到管的过程中定期混合原生质体悬液。按照实验设计将质粒DNA加入原生质体等份中。将容纳原生质体管的架子缓慢颠倒3次，每次1分钟，以混合DNA和原生质体。将原生质体在室温温育5分钟。向原生质体中加入300微升聚乙二醇(PEG4000)溶液(40％乙二醇(81240-Sigma Aldrich)，0.3M甘露醇，0.4MCaCl₂)，将架上的管混合1分钟，温育1分钟，在温育过程中轻柔颠倒两次。向管中缓慢加入1毫升W5+，将架上的管颠倒15-20次。然后将管350g离心5分钟，在不扰动沉淀的同时移出上清液。向每个管中加入1毫升WI培养基(4mM MES 0.6M甘露醇，20mM KCl，pH 6.0)，将架子轻柔颠倒以重悬沉淀。用铝箔覆盖架子并使之侧卧，23℃温育过夜。

测量转化频率并收获原生质体

使用Quanta Flow Cytometer^TM(Beckman-Coulter Inc)实施原生质体定量和转化效率的测量。在转化后大约16-18小时，从每个重复取样100μl，置于96孔平板中，用WI溶液1∶1稀释。将各重复重悬3次，使用流式细胞术对100μl定量。将样品送去分析之前，将样品200g离心5min，去除上清液，并将样品在液氮中快速冷冻。然后将样品置于-80℃冰柜中直至对其处理用于分子分析。

ZFN和供体的转化

对于表5中每个选定的基因组座位，用包含绿色荧光蛋白(gfp)基因表达对照、单独的ZFN、单独的供体、以及ZFN与供体DNA的1∶10(重量)比的混合物的构建体转染大豆原生质体。用于转染0.5百万个原生质体的总DNA量为80μg。所有处理均以三个重复进行。所使用的gfp基因表达对照是pDAB7221(图14，SEQ ID NO：7569)，其含有木薯叶脉花叶病毒启动子-绿色荧光蛋白编码序列-根癌土壤杆菌ORF24 3’UTR基因表达盒。为了让每次转染的总DNA量一致，在需要时候用鲑精或含gfp基因的质粒作为填充物。在一个典型的靶向实验中，用4μg的ZFN单独或与36μg供体质粒一起转染，并添加合适量的鲑精或pUC19质粒DNA，以使DNA总量达到80μg的最终量。通过纳入gfp基因表达质粒作为填充物，可以在多个基因组和重复实验之间评估转染质量。

实施例5：借助锌指核酸酶在大豆中切割基因组座位

利用基于原生质体的快速靶定系统(RTA)，通过ZFN诱导的DNA切割和供体插入来证实在选定基因组座位处的靶向。对于每个大豆选定座位，生成最多达6种ZFN设计，并将它们单独或与通用供体多核苷酸一起转化到原生质体中，分别利用二代测序(NGS)或接点(内-外)PCR来测量ZFN介导的切割和插入。

在转染24小时后，将ZFN转染的大豆原生质体通过1600rpm离心收集在2mlEppendorf^TM管中，并彻底除去上清液。使用Qiagen Plant DNA Extraction Kit^TM(Qiagen，Valencia，CA)从原生质体离心沉淀中提取基因组DNA。将分离的DNA重悬浮在50μL水中，借助(Invitrogen，Grand Island，NY)确定浓度。通过在0.8％琼脂糖凝胶电泳上跑胶估算样品中DNA的完整性。将所有样品标准化(20-25ng/μL)用于PCR扩增，以产生用于测序的扩增子(Illumina，Inc.，SanDiego，CA)。设计用来从处理组和对照组样品扩增涵盖每个测试ZFN识别序列的区域的条形码引物并从IDT(Coralville，IA，HPLC纯化)购买。在23.5μL反应中使用0.2μM合适的条形码引物、ACCUPRIME PFX SUPERMIX^TM(Invitrogen，Carlsbad，CA)和100ng的基因组DNA模板，通过梯度PCR确定最佳扩增条件。循环参数为：在95℃预变性95℃(5min)，接着是35个循环的变性(95℃，15sec)，退火(55-72℃，30sec)，延伸(68℃，1min)，和最终延伸(68℃，7min)。扩增产物在用3.5％TAE琼脂糖凝胶上进行分析，确定每个引物组合的合适退火温度，并用于从对照和ZFN处理样品扩增扩增子，如上文所述。所有扩增子在3.5％琼脂糖凝胶上纯化，用水洗脱，并通过NANODROP^TM确定浓度。为了进行二代测序，收集100ng来自ZFN处理的大豆原生质体及相应的未处理对照的PCR扩增子，并使用Illumina二代测序(NGS)进行测序。

测定了合适的ZFN在每个大豆最优基因组座位的切割活性。从处理组和对照组原生质体的基因组DNA扩增了涵盖ZFN切割位点的短扩增子，并进行Illumina NGS。ZFN诱导切割或DNA双链断裂被细胞NHEJ修复途径通过在切割位点处插入或缺失核苷酸(indels)所消解，因此切割位点处插入缺失的存在是ZFN活性的量度，通过NGS加以确定。使用NGS分析软件估算每1百万个高品质序列中带有插入缺失的序列的数目，作为靶特异性ZFN的切割活性(专利公开2012-0173,153，DNA序列的数据分析)。对于大豆选定基因组座位靶点观察到了活性，这进一步被序列比对所证实，序列比对显示了每个ZFN切割位点处插入缺失的多样性足迹。这个数据表明，大豆选定基因组座位能够被ZFN切割。每个靶点的差异性活性反映了其染色质的状态和对切割的适应性，以及每种ZFN的表达效率。

实施例6：多核苷酸供体的整合的快速靶向分析

利用半高通量基于原生质体的快速靶向分析方法验证通用供体多核苷酸序列介由非同源末端连接(NHEJ)介导的供体插入在大豆选定基因组座位靶标内的靶向。对于每个大豆选定靶基因组座位，测试了3-6种左右的ZFN设计，并通过二代测序方法测量ZFN介导的切割和通过接点内-外PCR测量供体插入(图6)来对靶向进行评估。将在两个测定中均为阳性的大豆选定基因组座位鉴定为可靶向的座位。

ZFN供体插入快速靶向分析

为了确定大豆选定基因组座位靶点是否能够被靶向以用于供体插入，将ZFN构建体和通用供体多核苷酸构建体共投递到大豆原生质体中，温育24个小时，之后提取基因组DNA进行分析。如果表达的ZFN在大豆选定基因组座位靶标处和在供体中均能够切割靶结合位点，则线性化的供体会通过非同源末端连接(NHEJ)途径插入到大豆基因组中经切割的靶位点中。大豆选定基因组座位靶标处的靶向插入的确认根据“内-外”PCR策略完成，其中“内”引物识别天然最优基因组座位处的序列，“外”引物则结合供体DNA内的序列。引物的设计方式使得仅当供体DNA插入在大豆选定基因组座位靶标处时，PCR测定才会产生具有预期大小的扩增产物。在插入接点的5′-和3′-端均进行内-外PCR测定。用于分析被整合的多核苷酸供体序列的引物提供于表9中。

利用巢式“内-外”PCR将ZFN供体插入在靶座位

所有PCR扩增均使用TAKARA EX TAQ HS^TM试剂盒(Clonetech，Mountain View，CA)进行。第一轮内-外PCR在25μL最终反应体积中实施，其含有1X TaKaRa Ex Taq HS^TM缓冲液，0.2mM dNTP，0.2μM“外”引物，0.05μM“内”引物(根据上述的通用供体盒设计而得)，0.75单位TaKaRa Ex Taq HS^TM聚合酶和6ng提取的大豆原生质体DNA。然后使用如下组成的PCR程序完成行反应：94℃3min，14个循环的98℃12sec、60℃30sec和72℃21min，随后是72℃10min，并在4℃保持。最终的PCR产物与1KB PLUS DNA LADDER^TM(Life Technologies，GrandIsland，NY)一起跑琼脂糖凝胶，以便可视化观察。

巢式内-外PCR在25μL最终反应体积中进行，其含有1X TaKaRa Ex TAQ HS^TM缓冲液，0.2mM dNTP，0.2μM“外”引物(表9)，0.1μM“内”引物(根据上述的通用供体盒设计而得，表10)，0.75单位的TaKaRa Ex TAQ HS^TM聚合酶，和1μL第一PCR产物。然后使用如下组成的PCR程序完成反应：94℃3min，30个循环的98℃12sec，60℃30sec和72℃45sec，随后是72℃10min，并在4℃保持。最终的PCR产物与1KB PLUS DNA LADDER^TM(Life Technologies，GrandIsland，NY)一起跑琼脂糖凝胶，以便可视化观察。

表9.用于最优基因组座位的巢式内-外PCR分析的所有“外”引物的列表。

表10.用于最优基因组座位的巢式内-外PCR分析的所有“内”引物的列表。

在原生质体靶向系统中开展内-外PCR测定是特别具有挑战性的，因为转染要使用大量的质粒DNA，而大量DNA保留在原生质体靶向系统中，并随后与细胞基因组DNA一起被提取。残余的质粒DNA可能稀释基因组DNA的相对浓度，降低检测的总体灵敏度，并且还可能是非特异性异常PCR反应的重要原因。ZFN诱导的基于NHEJ的供体插入通常以正向或反向取向发生。对正向插入的DNA内-外PCR分析经常显示假阳性条带，这可能是由于靶和供体的ZFN结合位点附近具有同源区域，这会导致在扩增过程中非整合的供体DNA的引发和延伸。在探查反向插入产物的分析中没有见到假阳性，因此在RTA中进行的所有靶向供体整合分析均查询反向供体插入。为了进一步增加特异性和减少背景，还采用巢式PCR策略。巢式PCR策略使用第二PCR扩增反应来扩增第一PCR反应的第一扩增产物内的一个较短区域。通过使用不对称量的“内”和“外”引物进一步优化接点PCR，以便在选定的基因组座位实施快速靶向分析。

在琼脂糖凝胶上观察内-外PCR分析结果。对表12的所有大豆选定基因组座位，“ZFN+供体处理”在5′和3′端均产生了接近预期大小的条带。ZFN对照或单独供体处理在PCR中是阴性的，提示该方法对至少32种最优非基因大豆基因组座位的靶位点处的供体整合的评分是特异性的。所有处理均重复3-6次，并且利用在多次重复(在两端均≥2)中均有预期的PCR产物的存在来证实靶向。通过NHEJ的供体插入常常产生强度较低的副产物，此类产物的产生是由于靶标和/或供体ZFN位点处线性化末端的加工所导致。此外，观察发现，不同的ZFN产生的靶向整合的效率水平不同，其中一些ZFN产生一致高水平的供体整合，一些ZFN产生的供体整合水平的一致性较低，而其他ZFN则未导致整合。总体言之，证实了每个被测试的大豆选定基因组座位靶标，均可通过一个或多个ZFN靶向整合在大豆的代表性基因组座位靶标内，这证实了这些基因座的每一个均是可靶向的。而且，每一个大豆选定基因组座位靶标均适于进行精确基因转化。这些大豆选定基因组座位靶标的验证经过多次重复实验进行验证，得到了相似的结果，从而证实了包括质粒设计和构建、原生质体转化、样品处理、样本分析在内的确认过程的可重复性。

结论

将供体质粒和一个设计为特异性切割大豆选定基因组座位靶点的ZFN转染到大豆原生质体中，并在24小时后收集细胞。通过内-外接点PCR对从对照组、ZFN处理组、及ZFN与供体处理组的原生质体分离的DNA进行分析，结果显示由于ZFN切割基因组DNA所导致的通用供体多核苷酸靶向插入(表12)。这些研究表明，该通用供体多核苷酸系统可以用来评估内源位点处的靶向和用来筛选候选的ZFN。最后，该基于原生质体的快速靶向分析和新型通用供体多核苷酸序列系统提供了一种快捷的途径来筛选用于在植物中进行精确基因组工程化工作的基因组靶标和ZFN。该方法可以推广到在任何感兴趣的系统中使用任何可诱导DNA双链或单链断裂的核酸酶对位点特异性切割和供体插入进行评估。

依照如上所述的各种标准鉴定了超过7,018种选定基因组座位。利用基于10种用于定义选定基因组座位的参数进行了主成分分析，对选定的基因组座位进行了聚类。证明了这些类簇中的代表以及其他一些感兴趣的座位是可靶向的。

表12.说明该通用供体多核苷酸序列在大豆选定基因组座位靶标内的整合结果。如下面的*所示，OGL37内的供体插入仅通过5’和3’接点序列的PCR反应所确认。

Claims

1.一种重组序列，所述重组序列包含：

至少1Kb的非基因大豆基因组序列，所述非基因序列是低甲基化的、可靶向的、位于大豆基因组内基因区的邻近、且例示重组的证据；和

感兴趣的DNA，其中感兴趣的DNA插入在所述非基因序列中。

2.权利要求1的重组序列，其中所述非基因序列包括下述特征：

a.所述非基因序列的甲基化水平为1％或更低；

d.所述非基因序列展示大于0.01574cM/Mb的大豆基因组内重组频率。

3.权利要求1的重组序列，其中所述非基因序列包括5.73Kb的最大长度。

4.权利要求1的重组序列，其中所述非基因序列包含1％或更少的核苷酸甲基化。

5.权利要求4的重组序列，其中所述非基因序列长度为1Kb至5.73Kb且不含有甲基化的胞嘧啶残基。

6.权利要求5的重组序列，其中所述非基因序列不以大于40％序列同一性与大豆基因组内的任何其他序列对齐。

7.权利要求5的重组序列，其中所述非基因序列以大于0.01574cM/Mb的重组频率例示重组的证据。

8.权利要求5的重组序列，其中包含所述非基因序列的天然大豆基因组的40Kb区域亦包含至少一个已知的或预测的大豆编码序列，或者包含已知的大豆基因的2Kb上游和/或1Kb下游序列的序列。

9.权利要求8的重组序列，其中所述已知的或预测的大豆编码序列表达大豆蛋白质。

10.权利要求1的重组序列，其中所述非基因序列不包含甲基化的多核苷酸。

11.权利要求1的重组序列，其中所述非基因序列的一个末端距表达的内源基因40Kb以内。

12.权利要求1的重组序列，其中所述感兴趣的DNA包含分析域。

13.权利要求1的重组序列，其中所述感兴趣的DNA不编码肽。

14.权利要求1的重组序列，其中所述感兴趣的DNA编码肽。

15.权利要求1的重组序列，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含杀虫剂抗性基因、除草剂耐性基因、氮利用效率基因、水分利用效率基因、营养品质基因、DNA结合基因、和选择标志物基因。

16.权利要求1的重组序列，其中所述重组序列包括下述特征：

a.该非基因序列含有少于1％DNA甲基化；

c.该非基因序列显示0至0.494的大豆基因组核小体占据水平；

g.该非基因序列位于基因序列邻近；和

17.一种大豆植物、大豆植物部分或大豆植物细胞，包含权利要求1-16中任一项的重组序列。

18.权利要求17的大豆植物、大豆植物部分或大豆植物细胞，其中所述已知的或预测的大豆编码序列以0.000415到872.7198范围的水平表达。

19.权利要求1的重组序列，其中在所述感兴趣的DNA插入所述非基因序列的过程中该感兴趣的DNA和/或该非基因序列被修饰。

20.一种制造转基因植物细胞的方法，所述转基因植物细胞包含靶向到一个非基因大豆基因组序列的感兴趣的DNA，其中该方法包括：

a)选择最优非基因大豆基因组座位；

c)将感兴趣的DNA导入植物细胞中；

21.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA包含分析域。

22.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA不编码肽。

23.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA编码肽。

24.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA包含基因表达盒，所述基因表达盒包含转基因。

25.权利要求20的制造转基因植物细胞的方法，其中所述位点特异性核酸酶选自下组：锌指核酸酶、CRISPR核酸酶、TALEN、归巢内切核酸酶、或大范围核酸酶。

26.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA通过同源性指导修复整合法整合在所述非基因座位内。

27.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA通过非同源末端连接整合法整合到所述非基因座位内。

28.权利要求20的制造转基因植物细胞的方法，其中所述选定的非基因座位包括下述特征：

a.所述非基因座位在序列内具有少于1％DNA甲基化；

b.所述非基因座位展现0.001574到83.52cM/Mb的大豆基因组内重组率；

c.所述非基因座位展现0至0.494的大豆基因组核小体占据水平；

d.所述非基因座位与大豆基因组中所含的任何其他1Kb序列享有小于40％序列同一性；

e.所述非基因座位具有0至0.99682的自大豆染色体着丝粒基因组距离比的相对位置值；

f.所述非基因座位具有14.36至45.9％的鸟嘌呤/胞嘧啶百分比含量范围；

g.所述非基因座位位于基因序列的邻近；和

h.包含所述非基因座位的大豆基因组序列的1Mb区域包含至少一个第二非基因序列。

29.权利要求28的制造转基因植物细胞的方法，其中所述非基因座位的长度为至少1Kb。

30.权利要求29的制造转基因植物细胞的方法，其中已知的或预测的大豆编码序列，或包含已知基因的2Kb上游和1Kb下游区的序列，位于距所述非基因座位40Kb之内。

31.权利要求20的制造转基因植物细胞的方法，其中所述感兴趣的DNA和/或所述非基因座位在步骤(d)的所述多核苷酸序列整合到所述非基因座位的过程中被修饰。

32.一种重组可靶向非基因大豆基因组序列，包含：

至少1Kb的非基因序列，其选自下组：类簇1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32，或与选自类簇1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32的序列享有99％序列同一性的序列，及它们各自的互补物，

其中所述类簇是从包括表6中定义的PCA值的PCA统计学算法生成的；和

插入在所述非基因序列中的感兴趣的DNA。

33.权利要求32的可靶向非基因大豆基因组序列，其中所述感兴趣的DNA包含分析域。

34.权利要求32的可靶向非基因大豆基因组序列，其中所述感兴趣的DNA编码肽。

35.权利要求32的可靶向非基因大豆基因组序列，其中所述感兴趣的DNA包含基因表达盒，基因表达盒包含转基因。

36.权利要求32的可靶向非基因大豆基因组序列，其中所述感兴趣的DNA包含位点特异性切割位点。

37.权利要求36的可靶向非基因大豆基因组序列，其中所述位点特异性切割位点被核酸酶所切割。

38.权利要求37的可靶向非基因大豆基因组序列，其中所述核酸酶选自下组：锌指核酸酶、CRISPR核酸酶、TALEN、归巢内切核酸酶、或大范围核酸酶。

39.权利要求32的可靶向非基因大豆基因组序列，其中所述感兴趣的DNA插入所述非基因序列中导致所述感兴趣的DNA与所述非基因序列的修饰。

40.一种至少1Kb的纯化的非基因大豆基因组序列，该非基因序列是低甲基化的、可靶向的、位于大豆基因组内的基因区邻近、并例示重组的证据。

41.权利要求40的纯化序列，其中所述非基因序列包括下述特征：

a.所述非基因序列的甲基化水平为1％或更低；

42.权利要求40的纯化序列，其中所述非基因序列包括5.73Kb的最大长度。

43.权利要求40的纯化序列，其中所述序列包括下述特征：

a.该非基因序列在其天然位置含有少于1％DNA甲基化；

b.该非基因序列在其天然位置显示0.01574至83.52cM/Mb的大豆基因组内重组频率；

c.该非基因序列在其天然位置显示0至0.494的大豆基因组核小体占据水平；

d.该非基因组序列与大豆基因组中所含的任何其他序列享有少于40％的序列同一性；

e.该非基因序列在其天然位置的相对位置值为0至0.99682的距大豆染色体着丝点的基因组距离比；

g.该非基因序列在其天然位置距已知或预测的大豆编码序列、或包含已知基因的2Kb上游及1Kb下游区的序列40Kb以内；和

h.该非基因序列在其天然位置位于大豆基因组序列的1Mb区域中，该区域包含一个或多个其他非基因序列。