CN110741086A

CN110741086A - 具有用户定义的功能的哺乳动物启动子的计算机设计

Info

Publication number: CN110741086A
Application number: CN201880039487.0A
Authority: CN
Inventors: A.J.布朗; D.C.詹姆斯; S.J.吉布森; D.哈顿
Original assignee: Immune Medical Co Ltd
Current assignee: Immune Medical Co Ltd
Priority date: 2017-04-19
Filing date: 2018-04-19
Publication date: 2020-01-31
Anticipated expiration: 2038-04-19
Also published as: CN110741086B; JP2020517245A; EP3612628B1; EP3612628A1; US20210147951A1; WO2018193072A1; JP7200129B2; US11441197B2; ES2924261T3

Abstract

基因调控的简化模型是哺乳动物合成生物学的基本要求。然而，在转录水平上，这受到控制启动子活性动力学的复杂设计规则的阻碍，从而阻止了从头设计具有用户定义的功能的调控元件。如本文所证明，当复合转录因子结合位点不能协同作用时，可以根据简单的设计规则来构建哺乳动物启动子。对宿主细胞转录机制组件进行计算机分析，以鉴定具有所需表达动力学的转录因子。然后在同型和异型结构中全面测试同源结合位点，以评估模块性并确定每个位点的单个拷贝表现出的转录活性。当特异性选择元件以防止组合相互作用时，可以简单地根据组成结合位点拷贝数对异型启动子活性准确地建模。因为结合位点顺序、间距和取向对启动子活性的影响极小，因此可以根据情况特定的设计标准，在计算机上对区块进行最佳组合和排列。为了证明这一点，从头产生CHO细胞启动子，这些启动子在体外表现出设计的活性水平和长期表达稳定性。这些发现揭示了对真核转录调控机制的新见解，并为哺乳动物合成生物学提供了新的工具。

Description

具有用户定义的功能的哺乳动物启动子的计算机设计

背景技术

情况特定的启动子性能是启动子活性动力学、长期基因表达盒行为(例如沉默的倾向，与其他遗传组件的相容性(1))和启动子-细胞相互作用(例如对细胞过程的脱靶效应，例如通过隔离转录机制组件(2，3))的函数。鉴于自然进化序列的固有局限性，例如不期望的大小和不可预测的表达动力学，典型地对于大多数应用而言优选合成启动子。最简单的合成启动子构建方法涉及通过去除(4，5)、插入(6，7)或突变(8，9)序列元件来增强现有启动子的功能(有关合成启动子构建方法的全面综述，参见(10))。然而，虽然这种策略使得内源/病毒启动子性能逐步改善，但不太可能通过重组工程(re-engineering)针对功能对次优起始序列进行全面优化。相反，完全合成的构建体的自下而上构建使得启动子设计空间得以大规模扩展。

完全合成的系统包括合成转录因子(即锌指(11)、转录激活因子样效应子(12)、嵌合体(13)和CRISPR转录因子(14))，这些转录因子反式激活包含转录因子的同源结合位点(转录因子调控元件(TFRE))的合成启动子，这些完全合成的系统施加最小的宿主细胞-启动子相互作用。然而，相关的代谢负担和其他外源重组蛋白的引入可能会限制这些系统在某些应用中的吸引力，诸如基因疗法和生物制药生产。构建与宿主细胞的现有转录因子(TF)库相互作用的人工启动子消除了对辅助TF的需要，但是合成启动子-内源性TF-内源性启动子相互作用组(interactome)可能对合成和内源性启动子两者的活性动力学产生负面影响(2，3，15)。因此，使用当前可用的启动子构建方法，同时地优化启动子、表达盒和宿主细胞性能是具有挑战性的。这些相互关联的功能的并行优化只能通过计算机定制设计启动子(不需要互补的合成TF)来实现。实际上，面向遗传部件的从头合成设计是哺乳动物合成生物学的主要目标。

计算机启动子设计受到控制启动子活性的复杂规则的限制，这些规则包括复合TFRE的取向、空间定位和顺序，以及其同源TF的功能、表达水平和活性(16，17)。然而，Smith等人最近在成千上万的人工序列中系统性地测试了TFRE组织的规则，并发现启动子活性主要仅仅是相对TFRE拷贝数的函数(18)。这些发现支持TFRE组织的广告牌模型，其中在很大程度上可以忽略结合位点的间距、顺序和取向(19，20)。然而，在Smith等人(18)构建的启动子中，活性受到各个TFRE对之间的组合相互作用的影响。当复合TFRE能够进行协同和/或干扰相互作用时，TFRE相对顺序可能显著影响启动子活性，从而大大增加计算机启动子设计的复杂性。然而，研究已表明，TF之间的组合相互作用相对罕见(21)。而且，Smith等人仅在用于构建启动子的十二个TFRE中鉴定出八种(可能有六十六种)组合TFRE相互作用(18)。需要选择不协作作用的TFRE的方法，以便构建具有相对简单的设计规则的启动子。

发明内容

本文提供的方法证明，可以特异性地选择不协作作用的模块化TFRE的组合，并利用它们来构建具有相对简单的设计规则的启动子。鉴于TF浓度水平与同源结合位点活性密切相关(22，23)，所以假设可以通过以下方法实现计算机启动子设计：i)分析宿主细胞中的TF表达，ii)鉴定不协同作用的TFRE，和iii)测定异型元件内TF-TFRE相互作用的相对转录活性(即每个TFRE的单个拷贝所提供的对总体启动子活性的贡献)。通过应用这种测量-建模-操纵(measure-model-manipulate)范例，本研究首次报告了计算机合成启动子的模型指导设计，这些合成启动子在体外表现出设计的功能。异型启动子活性的简化模型实现了合成元件的从头设计，其中模块化TFRE区块的组成和顺序可以根据情况特定的需求进行优化，诸如长期表达稳定性和所需的活性动力学。通过证明启动子可以根据简单的设计规则进行合成设计，本研究揭示了对真核转录调控机制的新见解，并为哺乳动物合成生物学提供了关键的使能工具。

因此，本文提供了合成启动子。一方面，合成启动子包含(a)包含4至20个转录因子调控元件(TFRE)的核苷酸序列和(b)启动子核心，其中包含TRFE的核苷酸序列在启动子核心的上游，并且其中至少三分之一的TFRE单独地选自由抗氧化RE(ARE)、ETS结合位点1(EBS1)、内质网应激RE(ERSE)和二噁英RE(DRE)TFRE组成的组。一方面，核苷酸序列在TFRE之间包含间隔区，其中间隔区不超过50个核苷酸、不超过25个核苷酸或不超过12个核苷酸。一方面，间隔区为约6个核苷酸。一方面，核心启动子是CMV核心启动子，任选地其中CMV核心启动子包含SEQ ID NO：33的核苷酸序列。

如本文所提供的，合成启动子可包含SEQ ID NO：37-50中任一个的核苷酸序列。

本文还提供了设计合成启动子的方法。一方面，设计合成启动子的方法包括：(i)分析转录因子(TF)表达以选择TF，(ii)鉴定与在同型启动子中具有转录活性的选定TF相互作用的转录因子调控元件(TFRE)，以及(iii)测定异型启动子内TF-TFRE相互作用的相对转录活性。一方面，该方法进一步包括(iv)选择具有所需转录活性的TFRE。一方面，该方法进一步包括(v)产生合成启动子，该合成启动子包含(a)包含具有所需转录活性的选定TFRE的核苷酸序列和(b)启动子核心，其中包含TRFE的核苷酸序列在启动子核心的上游。

一方面，分析TF表达包括测定TF的丰度。一方面，测定TF的丰度包括测量TF的RNA或蛋白质水平。一方面，分析TF表达包括在至少两种细胞类型中分析TF表达。一方面，该至少两种细胞类型是哺乳动物细胞类型。一方面，该至少两种哺乳动物细胞类型是CHO细胞。一方面，该至少两种细胞系包括表达重组蛋白的细胞系及其亲本细胞系。一方面，该至少两种细胞类型是来自相同生物的两种细胞类型，任选地其中生物是人。

一方面，选择高度表达的TF。一方面，选择表达水平在前50％、45％、40％、35％、30％、25％、20％、15％或10％以内的TF。

一方面，分析TF表达包括测定TF在至少两种细胞类型、至少两个细胞培养阶段和/或至少两种培养条件中的稳定性。一方面，该方法进一步包括选择在该至少两种细胞类型、至少两个细胞培养阶段和/或至少两种培养条件中表达水平的最大倍数变化小于或等于2或1.5或1的TF。

一方面，分析TF表达包括在至少两个细胞培养阶段分析TF表达。一方面，该至少两个细胞培养阶段包括静止期和指数生长期。一方面，选择在预期宿主细胞中优先上调和/或在脱靶宿主细胞中优先下调的TF。一方面，选择在预期细胞周期阶段中优先上调和/或在脱靶细胞周期阶段中下调的TF。

一方面，分析至少100个TF的表达。

一方面，同型启动子包含2至20个TFRE拷贝。一方面，同型启动子包含4至10个TFRE拷贝。

一方面，测定相对转录活性包括根据TFRE拷贝数对异型启动子活性建模。一方面，异型启动子包含2至20个TFRE。

本文还提供了根据本文提供的方法产生的合成启动子。一方面，合成启动子包含：包含4至20个TFRE的核苷酸序列和启动子核心，其中包含TRFE的核苷酸序列在启动子核心的上游。一方面，至少一个TFRE选自由抗氧化RE(ARE)、ETS结合位点1(EBS1)、内质网应激RE(ERSE)和二噁英RE(DRE)TFRE组成的组。一方面，核苷酸序列在TFRE之间包含间隔区，其中间隔区不超过50个核苷酸、不超过25个核苷酸或不超过12个核苷酸。一方面，间隔区为约6个核苷酸。一方面，核心启动子是CMV核心启动子，任选地其中CMV核心启动子包含SEQ IDNO：33的核苷酸序列。

在本文提供的和/或根据本文提供的方法产生的启动子的一方面，包含TFRE的核苷酸序列包含不超过10个CpG二核苷酸。一方面，包含TFRE的核苷酸序列包含不超过5个CpG二核苷酸。一方面，包含TFRE的核苷酸序列不包含长度大于20个核苷酸的任何重复序列。一方面，包含TFRE的核苷酸序列不含任何EcoRI、BamHI、HindIII、TaqI、NotI、Smai、PvuI或PacI限制性核酸内切酶位点。一方面，包含TFRE的核苷酸序列不含任何EcoRI、BamHI、HindIII、TaqI、NotI、SmaI、PvuI、PacI、XhoI或KpnI限制性核酸内切酶位点。一方面，TFRE的顺序对合成启动子的活性无显著影响。

一方面，TFRE的取向对合成启动子的活性无显著影响。一方面，启动子的活性与每个TFRE的拷贝数相关。

一方面，合成启动子对细胞生长无显著影响。一方面，合成启动子对细胞活力无显著影响。一方面，合成启动子不含在异型启动子中无转录活性的TFRE。一方面，合成启动子不含在异型启动子中具转录抑制性的TFRE。

一方面，ARE TFRE包含SEQ ID NO：7的核苷酸序列。一方面，EBS1 TFRE包含SEQ IDNO：10的核苷酸序列。一方面，ERSE TFRE包含SEQ ID NO：15的核苷酸序列。一方面，DRETFRE包含SEQ ID NO：31的核苷酸序列。

一方面，合成启动子进一步包含附加CHO细胞TFRE。一方面，这些附加CHO细胞TFRE中的至少一个包含SEQ ID NO：6、9和23中任一个的核苷酸序列。

一方面，包含TFRE的核苷酸序列包含相同TRFE的至少2个拷贝。一方面，包含TFRE的核苷酸序列包含相同TRFE的至少3个拷贝。

一方面，合成启动子避免启动子沉默。一方面，合成启动子将对支持蛋白质产生的关键细胞过程的脱靶效应减到最小。

本文还提供了包含本文提供的合成启动子的载体。一方面，载体的合成启动子与编码蛋白质的基因可操作地连接。一方面，蛋白质是报告蛋白、治疗性蛋白或酶。

本文还提供了包含本文提供的合成启动子或本文提供的载体的细胞。一方面，细胞是哺乳动物细胞。一方面，哺乳动物细胞是CHO细胞。一方面，哺乳动物细胞是人细胞。

本文还提供了包含本文提供的合成启动子的文库。一方面，文库包含至少100个不同的合成启动子。

附图说明

图1A和图1B：结合相对丰富的宿主细胞组分的模块化转录活性TFRE的鉴定。图1A)对CHO细胞转录组的RNA序列分析测定了宿主细胞转录因子(TF)的相对表达水平。点表示在培养的指数期和静止期取样(n＝6)的三个离散CHO细胞系中每种TF的平均表达水平。插图示出了67种TF的表达水平，这些TF表现出高表达(TF mRNA表达水平排名前30％)和在不同CHO细胞系和生长阶段中的稳定表达(最大倍数变化＜1.5)。FPKM＝所作图的每百万个片段中每千碱基的转录物中的片段数。图1B)鉴定具有适当表达动力学的TF同源结合位点，并串联(6x拷贝)克隆在SEAP-报告基因载体中最小CMV核心启动子的上游。用每个TFRE-报告基因瞬时转染CHO细胞，并在转染后24小时测量SEAP活性。数据表示为最强同型启动子表现出的产量的百分比。条形表示各一式三份进行的三个独立实验的平均值+SD。

图2A和图2B：模块化TFRE区块的异型组装表现出跨越两个数量级的转录活性。图2A)以不同的组合将在同型结构中具有转录活性的TFRE(参见图1)组合在一起以构建异型启动子文库。每个文库中产生大约二十个构建体，其中复合TFRE的顺序、取向、空间定位和拷贝数是不同的。图2B)将异型元件插入SEAP报告基因载体中最小CMV核心启动子的上游，并瞬时转染到CHO细胞中。在转染后24小时量化SEAP表达。数据表示为最强异型启动子表现出的产量的百分比。对照hCMV-IE1-SEAP报告基因的SEAP产量显示为黑色水平线(“CMV”)。每个条形表示两次转染的平均值；对于每种启动子，观测到SEAP产量的变化小于10％。对SEAP转录物丰度的定量PCR(qPCR)分析证实，细胞培养上清液中的相对蛋白质活性与SEAPmRNA水平呈线性相关(参见图6)。

图3A、图3B和图3C。异型启动子结构中模块化TFRE区块的功能不依赖于结合位点的顺序和间距。图3A)异型元件内离散TFRE的功能可能受多个’规则’影响。我们使用TFRE拷贝数作为唯一的预测变量对异型启动子活性进行建模(参见图2)。图3B)使用留一法(leave-one-out)和五重交叉验证(CV)分析线性回归模型的预测能力。图3C)通过分析模型系数来测定异型启动子内每个模块化TFRE区块的单个拷贝的相对转录活性。

图4A和图4B。合成设计的启动子在体外表现出可预测的活性。图4A)用计算机设计具有相同TFRE组成但TFRE顺序不同的启动子。使用我们的异型启动子活性模型预测每个合成元件的体外活性(参见图3)。图4B)以化学方式合成合成启动子，将这些启动子插入SEAP报告基因载体中最小CMV核心元件的上游，并瞬时转染到CHO细胞中。在转染后24小时量化SEAP表达。数据表示为最强的体外构建的异型启动子IVC1所表现出的产量的百分比(相当于100个相对启动子单位(RPU)；参见图2)。值表示一式三份进行的三个独立实验的平均值+SD。

图5A、图5B、图5C和图5D。计算机设计的序列在体外表现出用户定义的功能。图5A)使用我们的异型元件活性模型在计算机上构建并测试数百万个TFRE组合(参见图3)。应用选择标准以鉴定对于在CHO细胞中产生生物药物而言最佳的组合。然后，将每个启动子内的组成TFRE进行特异性排列，以防止出现可能导致启动子沉默的序列特征。图5B)以化学方式合成具有不同设计活性的合成启动子，将这些启动子插入SEAP报告基因载体中最小CMV核心元件的上游，并瞬时转染到CHO细胞中。在转染后24小时量化SEAP表达。数据表示为最强启动子表现出的产量的百分比。图5C)用共表达谷氨酰胺合成酶选择标记基因的合成启动子-报告基因质粒稳定地转染CHO细胞。在含有蛋氨酸亚砜亚胺的培养基中选择后，在7天的批量生产过程中测量了启动子活性。在指数生长中期和静止期测定SEAP滴度和mRNA丰度。数据表示为最强启动子表现出的表达的百分比。图5D)将稳定库在选择培养基中传代培养六十代。在7天的批量生产过程结束时，量化SEAP表达。数据表示为每个库第十五代时表现出的产量的百分比。值表示一式三份进行的三个独立实验的平均值+SD。

图6：细胞培养上清液中的SEAP活性与SEAP mRNA水平线性相关。将体外构建的异型启动子插入SEAP报告基因载体中最小CMV核心启动子的上游，并瞬时转染到CHO细胞中(参见图2)。在转染后24小时量化SEAP表达。数据表示为最强异型启动子表现出的产量的百分比。条形表示各一式三份进行的三个独立实验的平均值+SD。

图7：瞬时转染滴度。示出了在CHO细胞中进行瞬时转染后，受各种启动子控制的免疫激活蛋白的表达水平。

图8：稳定库的滴度。示出了稳定的CHO库中受各种启动子控制的免疫激活蛋白的补料分批表达水平。

具体实施方式

I.定义

如本文所用的术语“启动子”定义了通过指导RNA聚合酶与DNA结合并引发RNA合成来介导转录起始的调控DNA序列。启动子通常位于基因的上游。启动子可以包含例如核心启动子和转录因子调控元件。

“合成启动子”是指包含转录因子调控元件的人工、工程化和/或组装的启动子。

“转录因子调控元件”(TFRE)是作为转录因子结合位点的核苷酸序列。表1中提供了示例性TFRE。

“转录因子”(TF)是与TFRE结合并影响基因转录速率(正向或负向)的蛋白质。

“核心启动子”是指是引发转录所需的启动子的最小部分的核苷酸序列。核心启动子序列可以源自原核或真核基因，包括例如CMV立即早期基因启动子或SV40。核心启动子可以包含例如TATA盒。核心启动子可以包含例如引发元件。核心启动子可以包含例如TATA盒和引发元件。

如本文所用，术语“增强子”定义了起到加强基因转录的作用，而与基因的同一性、序列相对于基因的位置以及序列的取向无关的核苷酸序列。

术语“功能性连接”和“可操作地连接”可互换使用，是指两个或多个DNA区段(例如，要表达的基因和控制该基因表达的序列)之间的功能关系。例如，如果启动子和/或增强子序列(包括顺式作用转录控制元件的任何组合)刺激或调节编码序列在适当宿主细胞或其他表达系统中的转录，则该启动子和/或增强子序列与该编码序列可操作地连接。与转录的基因序列可操作地连接的启动子调控序列与转录的序列在物理上邻接。

“取向”是指给定DNA序列中核苷酸的顺序。例如，一个DNA序列相对于另一DNA序列在相反方向上的取向是这样一种取向，其中与从中获得该序列的DNA中的参考点相比，该序列相对于另一序列的5’至3’顺序相反。此类参考点可以包括源DNA中其他指定DNA序列的转录方向和/或含有该序列的可复制载体的复制起点。

如本文所用，术语“表达载体”包括分离和纯化的DNA分子，该DNA分子在转染到适当宿主细胞中后提供重组基因产物在宿主细胞内的表达。除了编码重组体或基因产物的DNA序列外，表达载体还包含调控DNA序列，这些序列是在宿主细胞系中将DNA编码序列有效转录为mRNA以及任选地将mRNA有效翻译为蛋白质所需的。

如本文所用，术语“宿主细胞”或“宿主细胞系”包括能够在培养物中生长并表达所需的重组产物蛋白的任何细胞，尤其是哺乳动物细胞。

如本文所用，术语“CpG位点”包括沿其长度在碱基的线性序列中紧靠鸟嘌呤核苷酸出现胞嘧啶核苷酸的DNA区域。“CpG”是“-C-磷酸-G-”的简写，即胞嘧啶和鸟嘌呤仅被一个磷酸隔开；磷酸将DNA中的任两个核苷连接在一起。“CpG”符号用于将这种线性序列与胞嘧啶和鸟嘌呤的CG碱基配对区分开。

如本文所用，术语“表达盒”包括编码要表达的多肽的多核苷酸序列和控制其表达的序列，诸如启动子和任选增强子序列，包括顺式作用转录控制元件的任何组合。控制基因表达，即基因转录和转录产物的翻译的序列，通常称为调控单元。调控单元的大部分位于基因编码序列的上游，并与该编码序列可操作地连接。表达盒也可含有下游的3’-非翻译区，该非翻译区包含聚腺苷酸化位点。本发明的调控单元与要表达的基因(即转录单元)可操作地连接，或与要表达的基因由居间DNA(例如由异源基因的5’-非翻译区)隔开。优选地，表达盒侧接一个或多个合适的限制性位点，以便能够使表达盒插入载体和/或将其从载体中切除。因此，根据本发明的表达盒可以用于构建表达载体，尤其是哺乳动物表达载体。本发明的表达盒可以在启动子下游包含一个或多个，例如两个、三个或甚至更多个非翻译的基因组DNA序列。

术语“多核苷酸”和“核苷酸序列”包括可以从细胞中分离的天然存在的核酸分子或重组表达的核酸分子，以及可以例如通过化学合成方法或通过酶促方法诸如聚合酶链反应(PCR)制备的合成分子。

如本文所用，术语“编码多肽的多核苷酸序列”包括编码基因的DNA，该基因优选是表达该多肽的异源基因。

术语“异源编码序列”、“异源基因序列”、“异源基因”、“重组基因”或“基因”可互换使用。这些术语是指编码力图在宿主细胞中表达，优选在哺乳动物细胞中表达并收获的重组体，尤其是重组异源蛋白产物的DNA序列。该基因的产物可以是多肽。异源基因序列并非天然存在于宿主细胞中，它源自相同或不同物种的生物，并且可以遗传修饰。

术语“蛋白质”和“多肽”可互换使用，包括通过相邻残基的α-氨基和羧基之间的肽键彼此相连的一系列氨基酸残基。

II.制备合成启动子的方法

使用本文提供的方法，可以将启动子设计为具有特定功能，例如所需表达水平、在所需细胞生长阶段表达和/或在所需细胞类型中表达。设计启动子的方法可以包括(i)分析转录因子(TF)表达以选择TF，(ii)鉴定与在同型启动子中具有转录活性的选定TF相互作用的转录因子调控元件(TFRE)，以及(iii)测定异型启动子内TF-TFRE相互作用的相对转录活性。任选地，方法还可包括(iv)选择具有所需转录活性的TFRE，以及(v)产生包含选定TFRE的合成启动子。

分析TF表达可以通过实验(例如，通过培养细胞并测量TF RNA和/或蛋白质水平(例如，如本文实例1中所例示))来完成，或者可以通过查看TF表达模式的数据来完成。此类分析可以包括测定单种细胞类型、生长阶段或培养条件中TF(RNA或蛋白质)的量或丰度，和/或多种细胞类型、生长阶段或培养条件中TF(RNA或蛋白质)的量或丰度的变异性。因此，本文提供的方法可以包括通过比较至少两种细胞类型、至少两个生长阶段(例如，静止期和指数生长期)和/或至少两种培养条件中的表达来分析TF表达。本文提供的方法可以包括通过比较至少三种细胞类型、至少三个生长阶段和/或至少三种培养条件中的表达来分析TF表达。本文提供的方法可以包括通过比较处于至少两个生长阶段中的至少两种细胞类型或处于至少两种培养条件的至少两种细胞类型中的表达来分析TF表达。本文提供的方法可以包括通过比较处于至少两个生长阶段中的至少三种细胞类型或处于至少两种培养条件的至少三种细胞类型中的表达来分析TF表达。本文提供的方法可以包括通过比较处于至少三个生长阶段中的至少两种细胞类型或处于至少三种培养条件的至少两种细胞类型中的表达(例如，RNA或蛋白质表达水平，例如，如本文实例1中所例示)来分析TF表达。

如本文所证明的，可以在一种哺乳动物细胞类型或多种哺乳动物细胞类型中分析TF表达。可以在一种CHO细胞中或在多种CHO细胞类型(例如CHO-S、CHO-K1、CHO-DG44和/或CHO-DXB11细胞)中分析TF表达。可以在表达重组蛋白的细胞系及其亲本细胞系(即，不表达重组蛋白的细胞系)中分析TF表达。可以在来自同一生物的两种或更多种不同细胞类型中分析TF表达。

可以基于表达谱来选择TF以实现所需目标。例如，可以选择在特定细胞类型、生长阶段和/或培养条件中高度表达的TF。可以选择在多种细胞类型、生长阶段和/或培养条件中高度表达的TF。也可以选择在特定细胞类型、生长阶段和/或培养条件中以中等水平表达的TF。

根据本文提供的一些方法，选择在多种条件中(例如在多种细胞系和/或多种生长条件中)稳定表达的TF。可以通过测量在多种条件下表达水平(蛋白质或RNA(例如如本文实例1中所例示))的最大倍数变化(MFC)来测定表达稳定性。MFC是多种条件下最高表达水平与最低表达水平之间的比率。在某些方面，稳定表达的转录因子的MFC不超过3、不超过2.5、不超过2、不超过1.5、不超过1或不超过0.5。

替代性地，可以选择仅在特定的所需细胞类型、生长阶段和/或培养条件中高度表达的TF。因此，在一些方法中选择在预期宿主细胞中优先上调和/或在脱靶宿主细胞中优先下调的TF。在一些方法中，选择在预期细胞周期阶段中优先上调和/或在脱靶细胞周期阶段中下调的TF。

根据本文提供的方法，可以分析至少25个、至少50个、至少150个、至少200个、至少250个、至少500个或至少1000个TF的表达。

选定TF的同源结合位点(即与选定TF相互作用的转录因子调控元件(TFRE))可以例如通过查看公开的研究和在线数据库来确定。然后可以筛选与选定TF相互作用的TFRE，以选择在同型启动子中具有转录活性的TFRE。同型启动子包含串联的特定TFRE的重复拷贝。例如，同型启动子可以包含2至20个TFRE拷贝。同型启动子可以包含4至10个TFRE拷贝。同型启动子可以包含约5个、约6个、约7个或约8个TFRE拷贝。同型启动子可以包含5、6、7或8个TFRE拷贝。

同型启动子中的TFRE可被间隔区隔开。间隔区可以例如不超过50个核苷酸、不超过25个核苷酸或不超过12个核苷酸。间隔区可以是例如4至50个核苷酸、4至25个核苷酸或4至12个核苷酸。间隔区可为约6个核苷酸。间隔区可为6个核苷酸。同型启动子中的TFRE可以被相同间隔区隔开，也可以被不同间隔区隔开。

在同型启动子中具有转录活性的TFRE可以通过产生含有报告基因的构建体来进行鉴定，该报告基因与具有多个上游TFRE拷贝的核心启动子可操作地连接。可以例如在目标细胞(例如CHO细胞，诸如CHO-S、CHO-K1、CHO-DG44和/或CHO-DXB11细胞)中瞬时转染后，评估报告基因的表达水平(RNA或蛋白质)。报告基因的表达表明TFRE在同型启动子中有活性。

然后可以在异型启动子的情况下评价与选定TF相互作用并在同型启动子中有活性的TFRE的活性。异型启动子可以通过串联连接TFRE的组合来产生。

异型启动子可以包含例如总共2至20个TFRE，包含至少2个、至少3个或至少4个不同的TFRE。异型启动子可以包含例如总共2至20个TFRE，包含2至10个、3至9个或4至8个不同的TFRE。

异型启动子中的TFRE被间隔区隔开。间隔区可以例如不超过50个核苷酸、不超过25个核苷酸或不超过12个核苷酸。间隔区可以是例如4至50个核苷酸、4至25个核苷酸或4至12个核苷酸。间隔区可为约6个核苷酸。间隔区可为6个核苷酸。异型启动子中的TFRE可以被相同间隔区隔开，也可以被不同间隔区隔开。可以例如通过混合TFRE区块的组合，例如以不同的量或浓度混合来产生异型启动子。

可以例如通过根据TFRE拷贝数对异型启动子活性建模来测定在异型启动子中TFRE的相对转录活性(即，由每个TFRE的单个拷贝所提供的对总体启动子活性的贡献)。

然后可以例如，通过选择提供所需活性诸如特定表达水平(例如，在不同细胞类型、生长阶段和/或培养条件中或仅在特定细胞类型、生长阶段和/或培养条件中)的TFRE的组合来设计启动子。

然后可以例如通过化学合成，使用重组核苷酸技术或使用酶促方法诸如聚合酶链反应(PCR)来产生含有选定的TFRE组合的合成启动子。

III.合成启动子

如本文提供的，可以将启动子设计为具有特定功能，例如所需表达水平、在所需细胞生长阶段表达和/或在所需细胞类型中表达。

本文提供的启动子可以包含：包含转录因子调控元件(TFRE)的核苷酸序列，和启动子核心。包含TFRE的核苷酸序列可以在启动子核心的上游。

本文提供的启动子可以包含多个TFRE，例如2至20、2至18、2至16、2至15、2至14、3至20、3至18、3至16、3至15、3至14、4至20、4至18、4至16、4至15、4至14、5至20、5至18、5至16、5至15、5至14、6至20、6至18、6至16、6至15、或6至14个TFRE。

TFRE可以包含4至100个核苷酸、4至75个核苷酸、4至50个核苷酸、4至30个核苷酸、4至25个核苷酸、4至20个核苷酸、4至15个核苷酸、或4至12个核苷酸，基本上由其组成或由其组成。TFRE可以包含6至100个核苷酸、6至75个核苷酸、6至50个核苷酸、6至30个核苷酸、6至25个核苷酸、6至20个核苷酸、6至15个核苷酸、或6至12个核苷酸，基本上由其组成或由其组成。TFRE可以包含8至100个核苷酸、8至75个核苷酸、8至50个核苷酸、8至30个核苷酸、8至25个核苷酸、8至20个核苷酸、8至15个核苷酸、或8至12个核苷酸，基本上由其组成或由其组成。TFRE可以包含4至30个核苷酸，基本上由其组成或由其组成。

TFRE可以是哺乳动物TFRE。TFRE可以是CHO细胞TFRE。TFRE可以包含SEQ ID NO：1-32中任一个的核苷酸序列。TFRE可以选自由抗氧化RE(ARE)(任选地包含SEQ ID NO：7的核苷酸序列)、ETS结合位点1(EBS1)(任选地包含SEQ ID NO：10的核苷酸序列)、内质网应激RE(ERSE)(任选地包含SEQ ID NO：15的核苷酸序列)和二噁英RE(DRE)(任选地包含SEQ IDNO：31的核苷酸序列)TRFE组成的组。TFRE可以选自由抗氧化RE(ARE)、ETS结合位点1(EBS1)和二噁英RE(DRE)组成的组。任选地，本文提供的启动子可以另外包含核因子RE(NF1-RE)(任选地包含SEQ ID NO：6的核苷酸序列)、GC盒(任选地包含SEQ ID NO：9的核苷酸序列)和/或CCAAT-增强子结合RE(C/EBP-RE)(任选地包含SEQ ID NO：23的核苷酸序列)TFRE。

本文提供的某些启动子不包含内质网应激RE(ERSE)TFRE。

本文提供的某些启动子不包含核因子1RE(NF1-RE)TFRE。本文提供的某些启动子不包含GC盒TFRE。本文提供的某些启动子不包含CCAAT增强子结合蛋白RE(C/EBP-RE)TFRE。本文提供的某些启动子不包含NF1-RE、GC盒或C/EBP-RE TFRE。

如本文提供的，启动子可以包含含有TFRE的核苷酸序列，其中至少两个TFRE是相同的，例如其中至少两个TFRE是ARE TFRE，其中至少两个TFRE是EBS1 TFRE，至少两个TFRE是ERSE TFRE，和/或至少两个TFRE是DRE TFRE。如本文提供的，启动子可以包含含有TFRE的核苷酸序列，其中至少三个TFRE是相同的，例如其中至少三个TFRE是ARE TFRE，其中至少三个TFRE是EBS1 TFRE，至少三个TFRE是ERSE TFRE，和/或至少三个TFRE是DRE TFRE。

本文提供的启动子还可以例如在TFRE之间包含间隔区。间隔区可以例如不超过50个核苷酸、不超过25个核苷酸或不超过12个核苷酸。间隔区可以是例如4至50个核苷酸、4至25个核苷酸或4至12个核苷酸。间隔区可为约6个核苷酸。间隔区可为6个核苷酸。

本文提供的启动子可以包含相同间隔区(即，指定序列和长度的间隔区)的多个拷贝，或者可以包含不同间隔区(即，不同序列和/或不同长度的间隔区)的组合。因此，启动子可以在每个TFRE之间包含相同的间隔区，或者可以在TFRE之间包含不同的间隔区。

包含TRFE(且任选地包含间隔区)的核苷酸序列可以是最多1500个核苷酸、最多1000个核苷酸、最多750个核苷酸、最多500个核苷酸或最多250个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以是至少20个核苷酸。

包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中没有TFRE超过25个核苷酸，并且没有间隔区超过50个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中没有TFRE超过25个核苷酸，并且没有间隔区超过25个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中没有TFRE超过25个核苷酸，并且没有间隔区超过20个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中没有TFRE超过25个核苷酸，并且没有间隔区超过15个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中没有TFRE超过25个核苷酸，并且没有间隔区超过10个核苷酸。如本文提供的，此类核苷酸序列可以包含至少4个TRFE。

包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中每个TFRE均为6至20个核苷酸，并且每个间隔区均超过50个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中每个TFRE均为6至20个核苷酸，并且每个间隔区均超过25个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中每个TFRE均为6至20个核苷酸，并且每个间隔区均超过20个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中每个TFRE均为6至20个核苷酸，并且每个间隔区均超过15个核苷酸。包含TRFE(且任选地包含间隔区)的核苷酸序列可以包含TFRE，其中每个TFRE均为6至20个核苷酸，并且每个间隔区均超过10个核苷酸。如本文提供的，此类核苷酸序列可以包含至少4个TRFE。

如本文提供的核心启动子可以包含TATA盒和/或引发元件，任选地其中核心启动子为25-100个核苷酸。如本文提供的，核心启动子可以是围绕在细胞例如CHO细胞中高度表达的内源基因的转录起始位点的核苷酸序列。如本文提供的，核心启动子可以是CMV核心启动子。因此，核心启动子可以包含SEQ ID NO：33的核苷酸序列，基本上由其组成或由其组成。

可以设计本文提供的启动子以限制CpG二核苷酸的数量。CpG二核苷酸中的胞嘧啶甲基化可能产生不稳定性。因此，包含TFRE的核苷酸序列可以具有小于20个、小于15个、小于10个、小于9个、小于8个、小于7个或小于6个CpG二核苷酸。包含TFRE的核苷酸序列可以具有不超过20个、不超过15个、不超过10个、不超过9个、不超过8个、不超过7个、不超过6个或不超过5个CpG二核苷酸。类似地，本文提供的启动子可以具有小于20个、小于15个、小于10个、小于9个、小于8个、小于7个或小于6个CpG二核苷酸。本文提供的启动子可以具有不超过20个、不超过15个、不超过10个、不超过9个、不超过8个、不超过7个、不超过6个或不超过5个CpG二核苷酸。

可以设计本文提供的启动子以限制重复序列的数量。因此，包含TFRE的核苷酸序列不能具有超过20个核苷酸、超过25个核苷酸、超过30个核苷酸、超过35个核苷酸或超过40个核苷酸的重复序列。类似地，本文提供的启动子不能具有超过20个核苷酸、超过25个核苷酸、超过30个核苷酸、超过35个核苷酸或超过40个核苷酸的重复序列。包含TFRE的核苷酸序列不能具有超过一个重复序列，例如超过20个核苷酸、超过25个核苷酸、超过30个核苷酸、超过35个核苷酸或超过40个核苷酸的重复序列。本文提供的启动子不能具有超过一个重复序列，例如超过20个核苷酸、超过25个核苷酸、超过30个核苷酸、超过35个核苷酸或超过40个核苷酸的重复序列。

可以设计本文提供的启动子以限制限制性核酸内切酶位点的数量。例如，包含TFRE的核苷酸序列或本文提供的启动子可以缺少EcoRI、BamHI、HindIII、TaqI、NotI、SmaI、PvuI、PacI、KpnI和/或XhoI限制性核酸内切酶位点。例如，包含TFRE的核苷酸序列或本文提供的启动子可以缺少EcoRI、BamHI、HindIII、TaqI、NotI、SmaI、PvuI和/或PacI限制性核酸内切酶位点。在一些实施例中，包含TFRE的核苷酸序列或本文提供的启动子可在TFRE之间和/或在间隔区之间包含限制性位点(例如，KpnI或XhoI限制性位点)。

如本文所证明的，可以设计启动子，其中TFRE的顺序、间距和取向对启动子活性的影响极小。因此，启动子的活性可以与启动子内所含的每个TFRE的拷贝数相关。因此，可以基于启动子内所含的每个TFRE的拷贝数来预测启动子的活性。

如本文所证明的，也可以将启动子设计为避免对细胞生长和/或细胞活力的显著影响。本文提供的启动子可以避免启动子沉默和/或将对支持蛋白质产生的关键细胞过程的脱靶效应减到最小。

IV.载体、细胞和文库

本文还提供了包含本文提供的启动子的载体、细胞和文库。

载体可以包含例如本文提供的启动子，该启动子与要表达的基因或可转录的多核苷酸可操作地连接。要表达的基因可以是例如报告基因，诸如分泌型碱性磷酸酶(SEAP)、β-半乳糖苷酶(GAL)、荧光素酶(LUC)或绿色荧光蛋白(GFP)。要表达的基因也可以是治疗性蛋白质，诸如抗体(或抗体的重链或轻链，或抗体的重链可变区或轻链可变区)、抗体的抗原结合片段(例如，ScFv)或Fc融合蛋白。要表达的基因也可以是酶。可转录的多核苷酸可以是例如RNAi或shRNA。

细胞可以包含本文提供的启动子或本文提供的载体。该细胞可以是哺乳动物细胞，诸如中国仓鼠卵巢(CHO)细胞。CHO细胞可以是例如CHO-S、CHO-K1、CHO-DG44或CHO-DXB11细胞。该细胞可以是例如人细胞。该细胞还可以是例如非人细胞，例如非人哺乳动物细胞。包含本文提供的启动子或载体的细胞可以瞬时转染或稳定转染。

本文提供的细胞可以是分离的细胞(即，不是含于生物体中的细胞)或培养的细胞(即，培养物中的细胞)。

文库可以包含本文提供的启动子、本文提供的载体或本文提供的细胞。该文库可以包含至少50个、至少100个、至少150个、至少200个、至少250个或至少500个不同的启动子、载体或细胞。

V.工作实例

实例1：材料和方法

宿主细胞转录因子表达动力学的分析

在指数期和静止期使用RNAeasy小量提取试剂盒(英国克劳利，凯杰公司(Qiagen，Crawley，UK))从三个CHO-K1来源的细胞系(亲本宿主细胞系和表达谷氨酰胺合成酶(GS)或表达GS和IgG抗体的宿主)中提取总RNA。使用NanoDrop分光光度计(英国佩斯利，赛默飞世尔科技公司(Thermo Fisher Scientific，Paisley，UK))和2100生物分析仪(英国沃金厄姆，安捷伦科技公司(Agilent Technologies，Wokingham，UK))，确认RNA的纯度和完整性。使用TruSeq RNA文库制备试剂盒(英国埃塞克斯，依诺米那公司(Illumina，Essex，UK))制备RNA-seq文库，并使用依诺米那HiSeq 2000系统(依诺米那)进行测序。使用Tophat将序列读段映射到CHO-K1参考基因组(24，25)，并使用Cufflink计算每种转录物的相对丰度(26)。从TFcheckpoint中获得经过实验验证的小鼠转录因子(TF)的精选数据库(27，28)。测定在所有六种实验条件下每个TF基因的平均转录物丰度，并选择表达水平高于第70个百分位的基因进行进一步分析。通过计算所有转录组中转录物丰度的最大倍数变化(MFC)来测量基因表达的稳定性。从先前公开的研究和在线数据库中获得稳定表达的TF(MFC＜1.5)的同源结合位点((29)；参见表1)。

表1：转录因子调控元件共有序列。

同型和异型启动子的体外构建

最小CMV核心启动子(Genbank登录号M60321.1，核苷酸1109-1193：合成AGGTCTATATAAGCAGAGCTCGTTTAGTGAACCGTCAGATCGCCTAGATACGCCATCCACGCTGTTTTGACCTCCATAGAAGAC(SEQ ID NO：33))(英国普尔，西格玛公司(Sigma，Poole，UK))，并将其插入先前描述的无启动子的报告基因载体中的分泌型碱性磷酸酶(SEAP)基因的上游(30)。为了构建同型TFRE-报告基因，将包含特定TFRE的六个串联重复拷贝的合成寡核苷酸(参见表1)插入CMV核心启动子的上游。为了创建异型启动子文库，如先前所述构建含有离散TF结合序列的单个拷贝的TFRE构造区块(31)，并以不同的组合用T4 DNA连接酶(赛默飞世尔科技公司)连接在一起。在连接混合物中包括含有KpnI和XhoI限制性核酸内切酶位点的“克隆区块”，与TFRE区块的摩尔比为1∶20。将随机的TFRE区块组件用KpnI和XhoI(英国南安普敦普洛麦格公司(Promega，Southampton，UK))消化，进行凝胶提取(Qiaquick凝胶提取试剂盒，凯杰公司)，并插入SEAP报告基因载体中CMV核心启动子的上游。对质粒进行测序以确定每种体外构建的合成启动子的TFRE组成。

异型启动子活性的建模

根据组成TF结合位点拷贝数对体外构建的异型启动子活性建模。比较不同的建模方法(线性回归法、广义线性法、广义加性法、高斯法)确定所有模型都具有等效的预测能力。因此，为了最大限度降低复杂性，我们使用多元线性回归模型

其中

表示启动子活性，x₁-x₁₂是12个离散TFRE区块的拷贝数。分析回归系数(β₁-β₁₂；使用最小二乘估计计算，

以测定异型启动子结构内每个TFRE区块的单个拷贝的相对转录活性。使用留一法和五重交叉验证法评估该模型的预测能力以及过度拟合的可能性。

异型启动子的计算机设计

使用R中的“组合”函数，可以生成十二个离散TF结合位点的每个可能的1-14区块组合(n＝9,657,699)。使用我们体外构建的异型启动子活性模型测定每种TFRE组合的相对转录活性。通过应用连续过滤步骤(如实例2-5中所述)从文库中选择具有所需设计标准的TFRE组合。排列组成TFRE，以将CpG二核苷酸、重复序列和限制性核酸内切酶位点的出现减到最少。为了帮助该过程，结合位点用专门设计的6个碱基对(bp)的间隔区序列隔开。使用FAIR(http://bioserverl.physics.iisc.ernet.in/fair/)和Webcutter(http://rna.lundberg.gu.se/cutter2/)分析设计的启动子序列是否存在重复序列和核酸内切酶位点(32)。为了确认在TFRE-间隔区连接处尚未产生附加TF结合位点，使用MatInspector(https://www.genomatix.de/matinspector.html)和转录亲和力预测工具(TRAP：http://trap.molgen.mpg.de/cgi-bin/trap_form.cgi)对启动子进行分析(33，34)。合成设计的序列(德国雷根斯堡创基因(GeneArt，Regensburg，Germany))，并将其克隆到SEAP报告基因载体中最小CMV核心启动子的上游。

CHO细胞培养和转染

在37℃下于5％(v/v)CO₂中将中国仓鼠卵巢(CHO)细胞(CHO-K1来源)在通风锥形瓶(英国康宁(Corning，UK))中在CD-CHO培养基(赛默飞世尔科技公司)中边以140rpm振荡边培养，每3-4天以2×10⁵个细胞/ml的接种密度进行传代培养。使用Vi-Cell细胞活力分析仪(英国海威科姆，贝克曼库尔特公司(Beckman-Coulter，High Wycombe，UK))，通过自动台盼蓝拒染试验测定细胞浓度和活力。在瞬时转染前两个小时，将2×10⁵个来自指数生长中期培养的细胞接种到24孔板(英国斯塔福德，能肯公司(Nunc，Stafford，UK))的单个孔中。用按照制造商的说明制备的，含有DNA和Lipofectamine(赛默飞世尔科技公司)的DNA-脂质复合物转染细胞。每张板中均包含内部对照(hCMV-IE1-SEAP、SV40-SEAP、NFkB-RE-SEAP)，以确认可重现的转染性能并归一化合成启动子活性。将转染的细胞孵育24小时，之后使用Sensolyte pNPP SEAP比色报告基因测定试剂盒(英国剑桥，剑桥生物科学公司(CambridgeBiosciences，Cambridge，UK))对SEAP蛋白质表达进行量化。为了确认细胞培养上清液中的SEAP活性与SEAP mRNA水平相关，从选定的转染细胞中提取总RNA并通过定量PCR(qPCR)进行分析。

为了构建稳定库，通过使用Amaxa Nucleofector系统(英国斯劳，龙沙公司(Lonza，Slough，UK))进行电穿孔将共表达谷氨酰胺合成酶选择标记基因的合成启动子-SEAP报告基因质粒(5μg)转染到CHO细胞中(1×10⁷个；一式三份转染)。在50μM蛋氨酸亚砜亚胺(西格马)中选择稳定转染株。对于批量生产过程，将6×10⁶个来自指数生长中期培养的细胞接种到通风锥形瓶中的30mL CD-CHO培养基中。在指数(第4天)和静止(第7天)生长阶段期间测量细胞浓度、培养物活力和SEAP表达(在mRNA和蛋白质水平)。为了验证长期表达的稳定性，将高生产者和低生产者稳定库在含MSX的培养基中传代培养8周(60个细胞世代)后，重复7天的批量生产过程。

RNA提取、逆转录和qPCR分析

使用RNeasy小量提取试剂盒(英国凯杰公司)从细胞中提取总RNA。使用NanoDrop分光光度计(赛默飞世尔科技公司)和2100生物分析仪(安捷伦科技公司)，确认RNA的纯度和完整性。使用Quantitect逆转录试剂盒(凯杰公司)，根据制造商的说明将800ng提取的RNA进行逆转录(在此过程中消除了基因组DNA)。将cDNA在无核酸酶的水中进行1∶10稀释，之后使用7500快速实时PCR系统(英国柴郡，应用生物系统公司(Applied Biosystems，Cheshire，UK))进行qPCR分析。在MicroAmp快速光学96孔板(应用生物系统公司)中制备反应混合物，这些反应混合物含有12.5ul QuantiFast SYBR green PCR主混合物(凯杰公司)、2μl cDNA、2.5μl引物混合物(每种引物最终浓度为200nM)和8ul无核酸酶的水。扩增条件如下：在95℃下保持5分钟，接着在95℃下保持15秒和在60℃下保持60秒循环40次。在60-95℃下进行的解链曲线分析。Gnb1和Fkbp1a用作内部对照参考基因(Brown AJ等人Transcriptome-based identification of the optimal reference CHO genes fornormalisation of qPCR data[基于转录组鉴定用于qPCR数据归一化的最佳参考CHO基因].Biotechnology Journal[生物技术杂志]13：1700259(2017))。不含模板的反应混合物，或来自于在不存在逆转录酶的情况下进行的逆转录反应的产物用作阴性对照。所有样品一式三份，并将平均Ct值(循环阈值)用于进一步分析。表2中列出了引物序列。使用方程式E＝10(-1/斜率)，由标准曲线(汇合cDNA样品的10倍连续稀释物)测定扩增效率。

表2：qPCR引物序列和扩增效率。

实例2：对宿主细胞TF表达动力学的分析有助于鉴定具有情况特定的功能的模块化结合位点

为了证明定制启动子设计的过程，产生了序列以用于CHO细胞中，CHO细胞是生产生物药物的主要宿主。虽然先前已经在CHO细胞中证明了转录控制，但体外构建方法无法实现可定制的序列特征规格以防止启动子沉默并将对支持蛋白质产生的关键细胞过程的脱靶效应减到最小(31，35，36)。为了分析CHO细胞的TF库，在指数期和静止期取样的三个离散CHO细胞系(CHO-K1来源的亲本宿主细胞系，表达GS或表达GS和IgG抗体的宿主)中分析了TF表达水平。鉴于直接测量有效TF浓度(即经过适当修饰并位于细胞核中的TF)困难，因此在mRNA水平测定TF表达。虽然这无法精确量化活性TF水平，但确实提供了有关一般TF表达模式的信息(例如，无/低/高/差异表达)，从而实现了对具有相应活性动力学的同源TFRE的鉴定(22，23，37)。而且，这种方法容易适用于大多数哺乳动物细胞类型的启动子设计，对于这些哺乳动物细胞类型而言转录组数据集典型地是可用的(38)。

虽然估计哺乳动物基因组含有～2,000个TF编码基因，但这些基因中只有一小部分已通过实验验证为DNA结合TF(39，40)。因此，分析限于已证实既表现出序列特异性DNA结合又能调控RNA聚合酶II依赖性转录的774个TF(27)。测定了在所有六个实验条件下每种TF的平均表达水平。如图1所示，388/774 TF在CHO细胞中表达，表达水平跨越三个数量级。根据所需功能，可以将合成启动子设计成与可用宿主细胞TF部分的任何组合相互作用。例如，可以通过设计启动子来结合在预期宿主细胞中优先上调，特别是在不需要脱靶活性的细胞类型中下调的TF来实现细胞类型特异性。在这个实例中，将启动子设计为对支持蛋白质生产(例如增殖和细胞存活)的CHO细胞过程具有极小影响。因此，基于异源启动子可以与这些丰富的细胞组分相互作用而不会影响宿主细胞转录组的推理(即，如果这些TF的同源结合位点的核拷贝适度增加，这些TF不太可能成为限制)，靶向在CHO细胞中相对高度表达(TFmRNA表达水平排名前30％)的TF(41)。此外，通过集中搜索在所有六个CHO细胞转录组中均展示出高表达稳定性的TF(以最大倍数变化(最高和最低表达水平之间的比率)小于1.5来衡量)，将启动子设计为在不同CHO细胞系和生长阶段的情况下表现出稳定的活性。最后，为了将沉默风险降到最低，将启动子设计为不与主要起阻遏物作用的TF相互作用(42，43)。应用这些选择标准鉴定出67个具有必需表达谱和功能的CHO细胞TF(图1A)。

如图1B所示，由于结合位点冗余(重叠)，理论上鉴定出的67个TF与32个离散调控元件相互作用。在同型启动子的情况下具有转录活性的TFRE在异型结构中组合在一起时不太可能协同作用(18)。因此，为了鉴定不协作相互作用的模块化TFRE，我们产生了SEAP报告构建体，每个构建体均含有特定TFRE的六个串联重复拷贝，位于哺乳动物最小核心启动子(含有TATA盒和引发元件的hCMV-IE1核心；hCMV-IE1核心启动子和TFRE共有序列分别如SEQID NO：33和表1所示)的上游。在用每种TFRE-报告基因质粒瞬时转染CHO细胞后，SEAP报告基因产量的测量值显示12/32TFRE可以独立介导重组基因转录的激活(E-盒、CRE、AARE、NFkB-RE、ARE、GC-盒、EBS1、ERSE、C/EBP-RE、D-盒、HRE、DRE)。如图1B所示，相对TFRE活性与同源TF表达水平不成比例。这可以用mRNA表达水平和有效TF浓度之间缺乏相关性来解释。另外，为了驱动转录，某些TF可能需要组合相互作用，或在CHO细胞中不充分表达的共激活因子。

实例3：异型启动子结构中模块化TFRE区块的功能不依赖于结合位点的顺序和间距

为了检验以下假设：在异型结构的情况下组合在一起时，在同型启动子中具有转录活性的TFRE不会协同作用，构建了具有不同TFRE组成的启动子。对于鉴定为在同型启动子中有活性的12个TFRE，合成了含有TF结合序列单拷贝的寡核苷酸构建区块。连接TFRE区块以组装随机的TF结合位点串，将这些串插入SEAP报告基因质粒中最小CMV核心启动子的上游。如图2A所示，通过混合TFRE区块的不同组合构建了七个不同的启动子文库。设计文库TFRE组成，以测试每个TFRE在不同启动子(例如不同强度、不同TFRE组合)和结合位点(例如不同拷贝数、取向和空间定位)情况下的活性。用140个离散合成启动子-报告基因质粒转染CHO细胞后，SEAP产量的测量值示于图2B。这些数据表明启动子活性跨越两个数量级，其中活性最高的启动子表现出SEAP产量比来源于含有有效人巨细胞病毒立即早期1启动子(hCMV-IE1；GenBank登录号M60321.1，核苷酸517-1193)的对照载体的SEAP产量增加2.3倍。除文库5以外，每个文库中的启动子活性至少相差一个数量级，其中每个文库的平均活性范围为5.2-61.5个相对启动子单位(RPU)。为了检查细胞培养上清液中的SEAP活性与SEAPmRNA水平线性相关，从转染细胞中提取mRNA并通过qPCR进行分析。该分析证实，来自每种质粒的SEAP产量与相对启动子活性成正比(图6)。

鉴于TFRE是针对其在异型结构中的推定模块功能而专门选择的，因此假定启动子活性将仅仅是每个TF结合位点贡献的相对转录活性的函数，而与TFRE取向、间距或顺序无关(图3A)。为了检验这种假设并测定每个TFRE在异型结构中的活性，对启动子进行测序以揭示其TFRE组成，并根据TFRE拷贝数对启动子活性建模(启动子长度在4至18个TF结合位点之间变化(平均值＝9))。所得线性回归模型具有高预测能力，其中启动子活性的观测值和预测值高度相关(留一法交叉验证r²＝0.90)(图3B)。为了评估过度拟合的可能性，使用五重交叉验证对模型进行分析(图3B)。启动子活性观测值与预期值之间的相关性同样很高(r²＝0.87)，验证了该模型的预测能力。这些数据显示，启动子活性主要是组成TFRE的类型和量的函数。因此，构建的这些序列起到“广告牌启动子”的作用，其中复合TF结合位点的相对组织对启动子活性的影响极小(19，20)。因此，最初的假设得以证实，验证了我们用于鉴定不会组合相互作用的模块化TFRE的方法，并为简单的计算机启动子设计铺平了道路。

由于该模型中唯一的预测变量是每个TF结合位点的拷贝数，因此模型系数表示每个TFRE的单个拷贝对总体启动子活性的贡献。对模型系数的分析确定，在异型启动子的情况下，仅7/12TFRE具有转录活性(NFkB-RE、ARE、DRE、ERSE、GC-盒、C/EBP-RE、EBS1；p＝＜0.01)，其余五个无转录活性(AARE、HRE、E-盒)或具有转录抑制性(D-盒、CRE；p＝＜0.01)。如图3C所示，异型结构中的TFRE转录活性范围为-35-100个相对TFRE活性单位。因此，在同型启动子情况下的活性无法预测异型启动子中的TFRE活性。众所周知，TFRE可以表现出差异性功能，这取决于串联结合位点的数量(16，18，44，45)。鉴于TFRE在同型启动子中以6x重复拷贝出现，而在异型启动子中典型地以1x重复拷贝出现，不足为奇的是一些在前者中有活性，而在后者中无活性/具有抑制性。因此，虽然理想的是评估单位点-拷贝同型启动子中的TFRE活性，但单个TF结合位点的转录输出很少足以驱动可检测水平的重组基因表达(16，18)。因此，为了鉴定在单拷贝重复序列中具有转录活性的模块化TFRE，建议采用这里开发的两步筛选方法，由此i)产生多位点-拷贝同型启动子以鉴定不会组合相互作用的TFRE，以及ii)构建多个TFRE合成元件以测定每个TFRE在异型启动子中的相对活性。

实例4：具有情况特定的功能的启动子的计算机设计

鉴于启动子活性的模型具有高预测能力和简单的解释变量(即TFRE拷贝数)，因此假设有可能首次证明在体外表现出可预测活性的哺乳动物启动子的计算机设计。为了检验这一点，设计了七个启动子，这些启动子含有在异型结构中具有转录活性的每个TFRE的单个拷贝(NFkB-RE、ARE、DRE、ERSE、GC-盒、C/EBP-RE、EBS1)。为了进一步证实TFRE顺序和间距对启动子活性影响极小，在每个构建体中以完全不同的顺序排列七个组成TF结合位点(图4A)。根据模型，由于这些启动子共有相同的TFRE组成，因此它们表现出相同的体外活性水平(37.3RPU)。以化学方式合成合成启动子，并将这些启动子插入SEAP报告基因载体中最小CMV核心启动子的上游。用每种报告基因质粒瞬时转染CHO细胞后，SEAP产量的测量值显示，启动子活性范围为30.2-43.3RPU(变异系数＝9.8％)(图4B)。因此，设计的所有启动子的体外活性都在预测活性的7RPU之内，对应于±18％的误差范围，其中最强启动子与最弱启动子之间的表达差异仅1.4倍。先前已经显示，当组成结合位点表现出组合相互作用时，具有相同TFRE组成但TFRE顺序不同的启动子的活性差异可高达5倍(18)。因此，本文提供的数据进一步支持这样的结论：当在异型启动子中组合在一起时，针对推定模块功能(即在同型结构中具有转录活性)而专门选择的TFRE不会协作作用。而且，他们证实了最初的假设，即启动子可以合成设计为表现出可预测的活性。

能够按可定制的组合和顺序来组合TFRE，使得设计具有情况特定的功能的启动子成为可能。为了证明这一点，设计了专门优化为在CHO细胞中在产生重组蛋白的情况下起作用的启动子。启动子中可出现的TF结合位点总数限制为十四个，即最强的体外构建的异型启动子中所含的量。先前对CHO细胞中转录活性的研究表明，不可能使启动子活性显著增加高于100RPU(比hCMV-IE1高2.3倍(31))。因此，认为结合位点的量增加到十四个以上将对细胞机增加不必要的负担，从而增加对CHO细胞转录组的脱靶效应的可能性(2，3)。

利用十二个模块化TFRE部分，可以产生9,657,699种TFRE组合，其结合位点总拷贝数范围为1-14。使用异型启动子活性模型来测定相对合成启动子强度，对这些组合中的每一个进行计算机构建和测试。然后根据在CHO细胞中生产生物药物所需的特定启动子设计标准来选择组合。例如，为了将启动子沉默的风险减到最小，减少含有经证实在异型启动子中会表现出转录阻遏功能的TFRE(CRE、D-盒；图3C)的任何组合(42，43)。此外，鉴于CHO细胞中的重组蛋白过表达可以诱导未折叠蛋白反应(46)，因此也忽略了所有含有ER应激反应元件(ERSE)的启动子，以防止形成ER应激重组基因表达阳性反馈回路，该回路可抑制蛋白质稳态的恢复(47，48)。而且，为了减少合成元件对关键CHO细胞过程产生脱靶效应的可能性，i)减少含有在异型结构中无活性的TFRE(AARE、HRE、E-盒；图3C)的启动子以及ii)选择其中每个TFRE的拷贝数减到最小的组合(2，3，15)。关于后一种情况，假设对于每个TFRE而言，都有一个阈值位点拷贝数，高于该阈值位点拷贝数，添加更多拷贝将产生足以引起内源基因表达谱变化的TF隔离水平。然而，由于TFRE是根据其同源TF在CHO细胞中的高表达而专门选择的，因此有理由认为，每个结合位点的“最大量”都相对较高。因此，选择启动子以限制最丰富的组成-TFRE的拷贝数(例如，含有四个不同TFRE的一个拷贝的启动子比含有两个不同TFRE的两个拷贝的构建体优选)。最后，由于每个重组基因的最佳转录速率不同，取决于多肽特异性折叠和组装速率，因此选择了多个离散TFRE组合，以便实现多种不同的转录输出(5、10、20、40、60、80和100RPU)。例如，选择具有TFRE组成2xARE：1xC/EBP-RE：1xGC-盒：1xEBS1：1xDRE：1xNFkB-RE的启动子，这是因为它符合所有必需的设计标准，并且预测活性为40.2RPU。

当TFRE顺序、间距和取向对启动子活性的影响极小时，可以将组成TF结合位点进行最佳排列，以将不良序列特征的出现减到最少。而且，计算机构建利于并入间隔区序列，这些间隔区序列可用于进一步改善序列特征。因此，为了使重组基因表达稳定性增加到最大限度，将组成TFRE排列在每个启动子内，并用专门设计的6-bp间隔区隔开。例如，鉴于已经证实启动子甲基化介导的表观遗传沉默会导致在CHO细胞中的生产不稳定，因此将每个内的CpG二核苷酸的数量减到最少(35，49)。此外，由于基因沉默也可能是由于同源重组引起的DNA区段缺失引起的(50，51)，因此可以特异性地防止重复序列的出现。鉴于真核生物机制可以重组长度超过40bp的相同序列，因此有理由认为防止启动子内重复序列大于20bp，并且避免任两串TFRE区块(例如ARE-DRE)的重复，将会提供针对同源重组介导的沉默的防御(52)。而且，为在共同使用多个启动子时(例如单克隆抗体的表达)防止重组介导的基因缺失，专门排除了大于35bp的启动子间重复序列(53-55)。利用TFRE和间隔区的计算机排列，合成设计的启动子平均含5.2个CpG二核苷酸和0个＞20bp的启动子内重复序列。与体外构建的异型启动子(平均含20.7个CpG二核苷酸和3.8个＞20bp的启动子内重复序列)和hCMV-IE1启动子(34个CpG二核苷酸，1个＞20bp的重复序列)比较，强调了计算机启动子设计的优点。另外，为了利于克隆到各种表达载体中，将启动子设计为最小化限制性核酸内切酶位点的出现(263/308分析的限制性位点不出现在任何启动子中)。最后，为防止对启动子活性的不当调节，检查了所有序列，以确保在TFRE-间隔区连接处未产生附加的“偶然TF结合位点”。

实例5：定制设计的序列在体外表现出可预测的功能

对于每个所需的启动子活性水平，设计了两个具有不同TFRE组成的合成序列(表3)(图5A)。

表3：从头设计的合成启动子序列

以化学方式合成合成启动子，并将这些启动子插入SEAP报告基因载体中最小CMV核心启动子的上游。用每种报告基因质粒瞬时转染CHO细胞后，SEAP产量的测量值显示，设计和观测到的活性高度相关(r²＝0.92；图5B)。在极低-极高的转录水平下(5-60RPU)，所有启动子的体外活性都在预测活性的5RPU之内。然而，当转录输出极高(80-100RPU)时，观测活性与预测活性之间的差异变化10-22RPU(11-22％)。先前已经证实，转录噪声随启动子活性和TF结合位点拷贝数同时增加(56，57)。这可以解释四个最强启动子(具有最大的TFRE拷贝数)在观测活性与预测活性之间表现出最大偏差。然而，由于所有设计活性≥80的启动子在体外均表现出≥78的活性，因此推断可以在计算机上按常规产生非常强的启动子，但是在这个表达水平下，非常精确地控制转录可能很棘手。

为了在基因组内情况下测试设计的序列的功能，将CHO细胞用共表达谷氨酰胺合成酶选择标记基因的合成启动子-报告基因质粒进行稳定转染(58)。为了分析转录控制的全部范围，对具有5、10、20、80和100RPU活性的启动子进行评价。在含有蛋氨酸亚砜亚胺的培养基中选择稳定转染的CHO细胞库，并使其重新适应悬浮培养。为了评价在工业相关的生物生产情况下的启动子性能，在七天的批量生产过程中测量了启动子活性。如图5C所示，在瞬时表达系统中观测到的启动子活性在染色体环境中得以维持。对SEAP mRNA丰度的qPCR分析揭示，稳定表达系统中相对启动子强度的比率(100∶72∶28∶16∶8)与最初设计的启动子活性比率(100∶80∶20∶10∶5)非常相似。而且，相对启动子活性在指数生长期(第4天)和静止期(第7天)之间得以维持。这些数据证实了这样的假设，即可以通过将序列设计成与具有同步表达谱的TF结合来专门定制启动子活性动力学。此外，没有合成启动子对细胞生长或活力有显著影响(在第4天和第7天，所有细胞池之间的活性细胞浓度和培养物活性的变化小于20％；数据未示出)，从而验证了为将对细胞性能的脱靶效应减到最小而专门设计的TFRE组合的选择。最后，为了评估基因表达稳定性，将高生产者和低生产者稳定库在含MSX的培养基中传代培养六十代。如图5D所示，长期培养后SEAP产量并未显著降低，这证实已成功设计合成序列以防止启动子沉默。

实例6：结论

总而言之，已经首次证明了计算机模型指导的哺乳动物启动子的构建，该启动子在体外表现出定制设计的功能。可以应用所描述的设计过程为任何特定宿主细胞类型或基因表达环境产生优化的启动子序列。本文提供的解释异型元件活性的模型具有比任何先前公开的哺乳动物启动子活性模型更高的预测能力，并且提供了对真核转录调控机制的新见解。所描述的这种简化启动子调控模型，有助于在计算机上完全由‘OMICS数据集’设计启动子，从而避免了体外筛选的需求，例如，通过详细了解在异型结构的情况下有多少离散TF-TFRE相互作用起作用。实际上，用于异型启动子从头设计的模块化TFRE区块的组合在构建使用多个合成TF的遗传回路时可能特别适用。通过证明可以根据相对简单的设计规则在计算机上产生启动子，这项研究为哺乳动物合成生物学提供了新的工具。

实例7：合成启动子在稳定转染的细胞系中的重组蛋白质表达中表现出可预测的活性

构建表达载体，这些表达载体在含有GS选择标记的载体骨架中含有hCMV-IE1和具有三种不同设计活性水平(RPU100、PRU60和RPU10)的合成启动子。将启动子插入免疫激活蛋白的上游。测试每个构建体，一式三份，并且从三个重复中取生产率数据的平均值。在补料分批条件下比较瞬时转染(图7)和稳定库(图8)中的表达水平。免疫激活蛋白的定量通过Octet测定来测量。在瞬时转染实验中，与在hCMV-IE1的控制下相比，在RPU100启动子控制下的免疫激活蛋白的表达水平提高1.33倍。与在hCMV-IE1的控制下相比，在RPU60启动子控制下的表达水平没有改善，而在RPU10启动子控制下的表达水平降低6倍。在稳定库中，免疫激活蛋白的表达水平到第13天逐渐增加。在RPU100启动子的控制下，最大生产率为1.8g/L。与在hCMV-IE1的控制下相比，在RPU100启动子控制下的表达水平高1.1倍，而在RPU60和RPU10启动子的控制下与hCMV-IE1相比，表达水平分别降低2.8倍和18倍。这些结果证明，可以使用设计成具有不同强度的启动子来改变表达水平，并且在瞬时转染和稳定库中均显示出一致性。与hCMV-IE1相比，使用合成启动子RPU100时，第9天、第11天和第13天的滴度分别高1.51x、1.56x和1.1x。鉴于第9天和第11天滴度显著提高，RPU100启动子可以促进较短生产工艺的使用。

通过用以下TFRE在不同的宿主细胞CHO-S中测试合成启动子，证明了额外一致性：

100RPU构建体A：

(GC-盒)-(ARE)-(NFkB-RE)-(DRE)-(EBS1)-(ARE)-(DRE)-(NFkB-RE)-(GC-盒)-(NFkB-RE)-(ARE)

100RPU构建体B：

(NFkB-RE)-(DRE)-(GC-盒)-(ARE)-(NFkB-RE)-(C/EBP-RE)-(DRE)-(NFkB-RE)-(EBS1)-(NFkB-RE)-(ARE)

测试的启动子的活性在CHO-S细胞中得以维持。

在这种特定表达情况下，相对于hCMV-IE1，使用100RPU促进的生产率增益有所降低(与在SEAP产量中所见的效果相比)。这可能是由所利用的特定重组蛋白、生产工艺或载体引起的。实际上，通过合成启动子实现的生产率的相对增加(与hCMV-IE1相比)以及表达水平的确切比率在不同情况下会有所不同。然而，这些结果强调了合成启动子功能的稳健性，其中测试最少数量的构建体实现了产量的显著提高(与hCMV-IE1相比)，以及在实质上不同的表达情况下对蛋白质表达的可预测滴定控制。即使在合成启动子相对于hCMV-IE1不能提供显著的生产率增益的情况下，它们的使用仍然可能是优选的，因为i)已将合成启动子设计为将启动子沉默减到最少，并且ii)它们的尺寸大大减小。

参考文献

1.Mutalik，V.K.，Guimaraes，J.C.，Cambray，G.，Lam，C.，Christoffersen，M.J.，Mai，Q.-A.，Tran，A.B.，Paull，M.，Keasling，J.D.and Arkin，A.P.(2013)Precise andreliable gene expression via standard transcription and translationinitiation elements.Nat.Methods，10，354-360.

2.Brewster，R.C.，Weinert，F.M.，Garcia，H.G.，Song，D.，Rydenfelt，M.andPhillips，R.(2014)The transcription factor titration effect dictates level ofgene expression.Cell，156，1312-1323.

3.Karreth，F.A.，Tay，Y.and Pandolfi，P.P.(2014)Target competition：transeription factors enter the limelight.Genome Biol.，15，114.

4.Fan，L.，Kadura，I.，Krebs，L.E.，Larson，J.L.，Bowden，D.M.and Frye，C.C.(2013)Development of a highly-efficient CHO cell line generation system withengineered SV40E promoter.J.Biotechnol.，168，652-658.

5.Chen，J.，Haverty，J.，Deng，L.，Li，G.，Qiu，P.，Liu，Z.and Shi，S.(2013)Identification of a hovel endogenous regulatory element in Chinese hamsterovary cells by promoter trap.J.Biotechnol.，167，255-261.

6.Sumitomo，Y.，Higashitsuji，H.，Higashitsuji，H.，Liu，Y.，Fujita，T.，Sakurai，T.，Candeias，M.M.，Itoh，K.，Chiba，T.and Fujita，J.(2012)Identification ofa novel enhaneer that binds Sp1 and contributes to induction of cold-inducible RNA-binding protein(cirp)expression in mammalian cells.BMCBiotechnol.，12，72.

7.Mariati，Yeo，J.H.，Koh，E.Y.，Ho，S.C.and Yang，Y.(2014)Insertion of coreCpG island element into human CMV promoter for enhancing recombinant proteinexpression stability in CHO cells.Biotechnol.Prog.，30，523-534.

8.Ferreira，J.P.，Peacock，R.W.，Lawhorn，I.E.and Wang，C.L.(2011)Modulating ectopic gene expression levels by using retroviral vectorsequipped with synthetic promoters.Syst.Synth.Biol.，5，131-138.

9.Kwasnieski，J.C.，Mogno，I.，Myers，C.A.，Corbo，J.C.and Cohen，B.A.(2012)Complex effects of nucleotide variants in a mammalian cis-regulatoryelement.Proc.Natl.Acad.Sci.，109，19498-19503.

10.Brown，A.J.and James，D.C.(2015)Precision control of recombinantgene transcription for CHO cell synthetic biology.Biotechnol.Adv.，34(5)，492-503

11.Gaj，T.，Gersbach，C.A.and Barbas，C.F.(2013)ZFN，TALEN，and CRISPR/Cas-based methods for genome engineering.Trends Biotechnol.，31，397-405.

12.Perez-Pinera，P.，Ousterout，D.G.，Brunger，J.M.，Farin，A.M.，Glass，K.A.，Guilak，F.，Crawford，G.E.，Hartemink，A.J.and Gersbach，C.A.(2013)Synergistic andtunable human gene activation by combinations of synthetic transcriptionfactors.Nat.Methods，10，239-242.

13.

K.，Charpin-El-Hamri，G.and Fussenegger，M.(2014)Bile acid-controlled transgene expression in mammalian cells and mice.Metab.Eng.，21，81-90.

14.Chavez，A.，Scheiman，J.，Vora，S.，Pruitt，B.W.，Tuttle，M.，Iyer，E.P.，Lin，S.，Kiani，S.，Guzman，C.D.and Wiegand，D.J.(2015)Highly efficient Cas9-mediatedtranscriptional programming.Nat.Methods，12，326-328.

15.Hansen，A.S.and O’Shea，E.K.(2013)Promoter decoding of transcriptionfactor dynamics involves a trade-off between noise and control of geneexpression.Mol.Syst.Biol.，9，704.

16.Sharon，E.，Kalma，Y.，Sharp，A.，Raveh-Sadka，T.，Levo，M.，Zeevi，D.，Keren，L.，Yakhini，Z.，Weinberger，A.and Segal，E.(2012)Inferring gene regulatory logicfrom high-throughput measurements of thousands of systematically designedpromoters.Nat.Biotechnol.，30，521-530.

17.Weingarten-Gabbay，S.and Segal，E.(2014)The grammar oftranscriptional regulation.Hum.Genet.，133，701-711.

18.Smith，R.P.，Taher，L.，Patwardhan，R.P.，Kim，M.J.，Inoue，F.，Shendure，J.，Ovcharenko，I.and Ahituv，N.(2013)Massively parallel decoding of mammalianregulatory sequences supports a flexible organizational model.Nat.Genet.，45，1021-1028.

19.Arnosti，D.N.and Kulkarni，M.M.(2005)Transcriptional enhancers：Intelligent enhanceosomes or flexible billboards？J.Cell.Biochem.，94，890-898.

20.Rastegar，S.，Hess，I.，Dickmeis，T.，Nicod，J.C.，Ertzer，R.，Hadzhiev，Y.，Thies，W.-G.，Scherer，G.and

U.(2008)The words of the regulatory code arearranged in a variable manner in highly conserved enhancers.Dev.Biol.，318，366-377.

21.Ravasi，T.，Suzuki，H.，Cannistraci，C.V.，Katayama，S.，Bajic，V.B.，Tan，K.，Akalin，A.，Schmeier，S.，Kanamori-Katayama，M.and Bertin，N.(2010)An atlas ofcombinatorial transcriptional regulation in mouse and man.Cell，140，744-752.

22.Gertz，J.and Cohen，B.A.(2009)Environment-specific combinatorialcis-regulation in synthetic promoters.Mol.Syst.Biol.，5，244.

23.Segal，E.，Raveh-Sadka，T.，Schroeder，M.，Unnerstall，U.and Gaul，U.(2008)Predicting expression patterns from regulatory sequence in Drosophilasegmentation.Nature，451，535-540.

24.Trapnell，C.，Pachter，L.and Salzberg，S.L.(2009)TopHat：discoveringsplice junctions with RNA-Seq.Bioinformatics，25，1105-1111.

25.Xu，X.，Nagarajan，H.，Lewis，N.E.，Pan，S.，Cai，Z.，Liu，X.，Chen，W.，Xie，M.，Wang，W.and Hammond，S.(2011)The genomic sequence of the Chinese hamster ovary(CHO)-K1 cell line.Nat.Biotechnol.，29，735-741.

26.Trapnell，C.，Williams，B.A.，Pertea，G.，Mortazavi，A.，Kwan，G.，VanBaren，M.J.，Salzberg，S.L.，Wold，B.J.and Pachter，L.(2010)Transcript assembly andquantification by RNA-Seq reveals unannotated transcripts and isoformswitching during cell differentiation.Nat.Biotechnol.，28，511-515.

27.Chawla，K.，Tripathi，S.，Thommesen，L.，Laegreid，A.and Kuiper，M.(2013)TFcheckpoint：a curated compendium of specific DNA-binding RNA polymerase IItranscription factors.Bioinformatics，29(19)，2519-20.

28.Tripathi，S.，Vercruysse，S.，Chawla，K.，Christie，K.R.，Blake，J.A.，Huntley，R.P.，Orchard，S.，Hermjakob，H.，Thommesen，L.and

A.(2016)Generegulation knowledge commons：community action takes care of DNA bindingtranscription factors.Database，2016，baw088.

29.Mathelier，A.，Zhao，X.，Zhang，A.W.，Parcy，F.，Worsley-Hunt，R.，Arenillas，D.J.，Buchman，S.，Chen，C.-y.，Chou，A.and Ienasescu，H.(2013)JASPAR2014：an extensively expanded and updated open-access database oftranscription factor binding profiles.Nucleic Acids Res.，gkt997.

30.Brown，A.J.，Mainwaring，D.O.，Sweeney，B.and James，D.C.(2013)Blockdecoys：transcription-factor decoys designed for in vitro gene regulationstudies.Anal.Biochem.，443，205-210.

31.Brown，A.J.，Sweeney，B.，Mainwaring，D.O.and James，D.C.(2014)Syntheticpromoters for CHO cell engineering.Biotechnol.Bioeng.，111，1638-1647.

32.Senthilkumar，R.，Sabarinathan，R.，Hameed，B.S.，Banerjee，N.，Chidambarathanu，N.，Karthik，R.and Sekar，K.(2010)FAIR：A server for internalsequence repeats.Bioinformation，4，271.

33.Manke，T.，Roider，H.G.and Vingron，M.(2008)Statistical modeling oftranscription factor binding affinities predicts regulatory interactions.PLoSComput.Biol.，4，e1000039.

34.Cartharius，K.，Frech，K.，Grote，K.，Klocke，B.，Haltmeier，M.，Klingenhoff，A.，Frisch，M.，Bayerlein，M.and Werner，T.(2005)MatInspector andbeyond：promoter analysis based on transcription factor bindingsites.Bioinformatics，21，2933-2942.

35.Kim，M.，O’Callaghan，P.M.，Droms，K.A.and James，D.C.(2011)Amechanistic understanding of production instability in CHO cell linesexpressing recombinant monoclonal antibodies.Biotechnol.Bioeng.，108，2434-2446.

36.Dahodwala，H.and Sharfstein，S.T.(2014)Role of epigenetics inexpression of recombinant proteins from mammalian cells.Pharm.Bioprocess.，2，403-419.

37.Gertz，J.，Siggia，E.D.and Cohen，B.A.(2009)Analysis of combinatorialcis-regulation in synthetic and genomic promoters.Nature，457，215-218.

38.Sheng，X.，Wu，J.，Sun，Q.，Li，X.，Xian，F.，Sun，M.，Fang，W.，Chen，M.，Yu，J.and Xiao，J.(2016)MTD：a mammalian transcriptomic database to explore geneexpression and regulation.Brief.Bioinform.，18(1)，28-36.

39.Vaquerizas，J.M.，Kummerfeld，S.K.，Teichmann，S.A.and Luscombe，N.M.(2009)A census of human transcription factors：function，expression andevolution.Nat.Rev.Genet.，10，252-263.

40.Tripathi，S.，Christie，K.R.，Balakrishnan，R.，Huntley，R.，Hill，D.P.，Thommesen，L.，Blake，J.A.，Kuiper，M.and

A.(2013)Gene Ontology annotationof sequence-specific DNA binding transcription factors：setting the stage fora large-scale curation effort.Database，2013，bat062.

41.van Dijk，D.，Sharon，E.，Lotan-Pompan，M.，Weinberger，A.，Segal，E.andCarey，L.B.(2017)Large-scale mapping of gene regulatory logic reveals context-dependent repression by transcriptional activators.Genome Res.，27，87-94.

42.Wajapeyee，N.，Malonia，S.K.，Palakurthy，R.K.and Green，M.R.(2013)Oncogenic RAS directs silencing of tumor suppressor genes through orderedrecruitment of transcriptional repressors.Genes Dev.，27，2221-2226.

43.Smith，Z.D.and Meissner，A.(2013)DNA methylation：roles in mammaliandevelopment.Nat.Rev.Genet.，14，204-220.

44.Grskovic，M.，Chaivorapol，C.，Gaspar-Maia，A.，Li，H.and Ramalho-Santos，M.(2007)Systematic identification of cis-regulatory sequences active in mouseand human embryonic stem cells.PLoS Genet.，3，e145.

45.Giniger，E.and Ptashne，M.(1988)Cooperative DNA binding of the yeasttranscriptional activator GAL4.Proc.Natl.Acad.Sci.，85，382-386.

46.Hussain，H.，Maldonado-Agurto，R.and Dickson，A.J.(2014)Theendoplasmic reticulum and unfolded protein response in the control ofmammalian recombinant protein production.Biotechnol.Lett.，36，1581-1593.

47.Gorman，A.M.，Healy，S.J.，

R.and Samali，A.(2012)Stressmanagement at the ER：regulators of ER stress-inducedapoptosis.Pharmacol.Ther.，134，306-316.

48.Sano，R.and Reed，J.C.(2013)ER stress-induced cell deathmechanisms.BBA-Mol.Cell Res.，1833，3460-3470.

49.Yang，Y.，Chusainow，J.and Yap，M.G.(2010)DNA methylation contributesto loss in productivity of monoclonal antibody-producing CHO celllines.J.Biotechnol.，147，180-185.

50.Moynahan，M.E.and Jasin，M.(2010)Mitotic homologous recombinationmaintains genomic stability and suppresses tumorigenesis.Nat.rev.Mol.cellbiol.，11，196-207.

51.Jasin，M.and Rothstein，R.(2013)Repair of strand breaks byhomologous recombination.Cold Spring Harb.Perspect.Biol.，5，a012740.

52.Baudin，A.，Ozier-Kalogeropoulos，O.，Denouel，A.，Lacroute，F.andCullin，C.(1993)A simple and efficient method for direct gene deletion inSaccharomyces cerevisiae.Nucleic Acids Res.，21，3329.

53.Sleight，S.C.，Bartley，B.A.，Lieviant，J.A.and Sauro，H.M.(2010)Designing and engineering evolutionary robust genetic circuits.J.Biol.Eng.，4，12.

54.Lambert，S.，Saintigny，Y.，Delacote，F.，Amiot，F.，Chaput，B.，Lecomte，M.，Huck，S.，Bertrand，P.and Lopez，B.(1999)Analysis of intrachromosomal homologousrecombination in mammalian cell，using tandem repeat sequences.Mutat.Res.，DNARepair，433，159-168.

55.Read，L.R.，Raynard，S.J.，A.and Baker，M.D.(2004)Gene repeatexpansion and contraction by spontaneous intrachromosomal homologousrecombination in mammalian cells.Nucleic Acids Res.，32，1184-1196.

56.Sharon，E.，van Dijk，D.，Kalma，Y.，Keren，L.，Manor，O.，Yakhini，Z.andSegal，E.(2014)Probing the effect of promoters on noise in gene expressionusing thousands of designed sequences.Genome Res.，24，1698-1706.

57.Murphy，K.F.，Balázsi，G.and Collins，J.J.(2007)Combinatorial promoterdesign for engineering noisy gene expression.Proc.Natl.Acad.Sci.，104，12726-12731.

58.Cockett，M.，Bebbington，C.and Yarranton，G.(1990)High levelexpression of tissue inhibitor of metalloproteinases in Chinese hamster ovarycells using glutamine synthetase gene amplification.Nat.Biotechnol.，8，662-667.

Claims

1.一种合成启动子，该合成启动子包含(a)包含4至20个转录因子调控元件(TFRE)的核苷酸序列和(b)启动子核心，其中包含这些TRFE的该核苷酸序列在该启动子核心的上游，并且其中至少三分之一的这些TFRE单独地选自由抗氧化RE(ARE)、ETS结合位点1(EBS1)、内质网应激RE(ERSE)和二噁英RE(DRE)TFRE组成的组。

2.如权利要求1所述的合成启动子，其中该核苷酸序列在这些TFRE之间包含间隔区，其中这些间隔区不超过50个核苷酸。

3.如权利要求2所述的合成启动子，其中这些间隔区不超过25个核苷酸。

4.如权利要求3所述的合成启动子，其中这些间隔区不超过12个核苷酸。

5.如权利要求4所述的合成启动子，其中这些间隔区为约6个核苷酸。

6.如权利要求1-5中任一项所述的合成启动子，其中该核心启动子是CMV核心启动子，任选地，其中该CMV核心启动子包含SEQ ID NO：33的核苷酸序列。

7.如权利要求1所述的合成启动子，其中该合成启动子包含SEQ ID NO：37-50中任一个的核苷酸序列。

8.一种设计合成启动子的方法，该方法包括：(i)分析转录因子(TF)表达以选择TF，(ii)鉴定与在同型启动子中具有转录活性的选定TF相互作用的转录因子调控元件(TFRE)，以及(iii)测定异型启动子内TF-TFRE相互作用的相对转录活性。

9.如权利要求8所述的方法，该方法进一步包括(iv)选择具有所需转录活性的TFRE。

10.如权利要求9所述的方法，该方法进一步包括(v)产生合成启动子，该合成启动子包含(a)包含具有所需转录活性的选定TFRE的核苷酸序列和(b)启动子核心，其中包含这些TRFE的该核苷酸序列在该启动子核心的上游。

11.如权利要求8-10中任一项所述的方法，其中该分析TF表达包括测定这些TF的丰度。

12.如权利要求11所述的方法，其中该测定这些TF的丰度包括测量这些TF的RNA或蛋白质水平。

13.如权利要求8-12中任一项所述的方法，其中该分析TF表达包括在至少两种细胞类型中分析TF表达。

14.如权利要求13所述的方法，其中该至少两种细胞类型是哺乳动物细胞类型。

15.如权利要求14所述的方法，其中该至少两种哺乳动物细胞类型是CHO细胞。

16.如权利要求14或15所述的方法，其中该至少两种细胞系包括表达重组蛋白的细胞系及其亲本细胞系。

17.如权利要求13或14所述的方法，其中该至少两种细胞类型是来自相同生物的两种细胞类型，任选地其中该生物是人。

18.如权利要求8-17中任一项所述的方法，其中选择高度表达的TF。

19.如权利要求8-17中任一项所述的方法，其中选择表达水平在前50％、45％、40％、35％、30％、25％、20％、15％或10％以内的TF。

20.如权利要求8-19中任一项所述的方法，其中该分析TF表达包括测定TF在至少两种细胞类型、至少两个细胞培养阶段和/或至少两种培养条件中的稳定性。

21.如权利要求20所述的方法，其中该方法进一步包括选择在该至少两种细胞类型、至少两个细胞培养阶段和/或至少两种培养条件中表达水平的最大倍数变化小于或等于2或1.5或1的TF。

22.如权利要求8-21中任一项所述的方法，其中该分析TF表达包括在至少两个细胞培养阶段分析TF表达。

23.如权利要求22所述的方法，其中该至少两个细胞培养阶段包括静止期和指数生长期。

24.如权利要求8-23中任一项所述的方法，其中选择在预期宿主细胞中优先上调和/或在脱靶宿主细胞中优先下调的TF。

25.如权利要求8-23中任一项所述的方法，其中选择在预期细胞周期阶段中优先上调和/或在脱靶细胞周期阶段中下调的TF。

26.如权利要求8-25中任一项所述的方法，其中分析至少100个TF的表达。

27.如权利要求8-26中任一项所述的方法，其中该同型启动子包含2至20个TFRE拷贝。

28.如权利要求27所述的方法，其中该同型启动子包含4至10个TFRE拷贝。

29.如权利要求8-28中任一项所述的方法，其中该测定相对转录活性包括根据TFRE拷贝数对该异型启动子活性建模。

30.如权利要求8-29中任一项所述的方法，其中该异型启动子包含2至20个TFRE。

31.一种合成启动子，该合成启动子根据如权利要求8-30中任一项所述的方法产生。

32.如权利要求31所述的合成启动子，其中该合成启动子包含：包含4至20个TFRE的核苷酸序列和启动子核心，其中包含这些TRFE的该核苷酸序列在该启动子核心的上游。

33.如权利要求32所述的合成启动子，该合成启动子包含选自由抗氧化RE(ARE)、ETS结合位点1(EBS1)、内质网应激RE(ERSE)和二噁英RE(DRE)TFRE组成的组的至少一个TFRE。

34.如权利要求32或33所述的合成启动子，其中该核苷酸序列在这些TFRE之间包含间隔区，其中这些间隔区不超过50个核苷酸。

35.如权利要求34所述的合成启动子，其中这些间隔区不超过25个核苷酸。

36.如权利要求35所述的合成启动子，其中这些间隔区不超过12个核苷酸。

37.如权利要求36所述的合成启动子，其中这些间隔区为约6个核苷酸。

38.如权利要求32-37中任一项所述的合成启动子，其中该核心启动子是CMV核心启动子，任选地，其中该CMV核心启动子包含SEQ ID NO：33的核苷酸序列。

39.如权利要求1-6和32-38中任一项所述的合成启动子，其中包含这些TFRE的该核苷酸序列包含不超过10个CpG二核苷酸。

40.如权利要求39所述的合成启动子，其中包含这些TFRE的该核苷酸序列包含不超过5个CpG二核苷酸。

41.如权利要求1-6和32-40中任一项所述的合成启动子，其中包含这些TFRE的该核苷酸序列不含长度大于20个核苷酸的任何重复序列。

42.如权利要求1-6和32-41中任一项所述的合成启动子，其中包含这些TFRE的该核苷酸序列不含任何EcoRI、BamHI、HindIII、TaqI、NotI、SmaI、PvuI或PacI限制性核酸内切酶位点。

43.如权利要求1-6和32-42中任一项所述的合成启动子，其中这些TFRE的顺序对该合成启动子的活性无显著影响。

44.如权利要求1-6和32-43中任一项所述的合成启动子，其中这些TFRE的取向对该合成启动子的活性无显著影响。

45.如权利要求1-6和32-44中任一项所述的合成启动子，其中该启动子的活性与每个TFRE的拷贝数相关。

46.如权利要求1-6和31-45中任一项所述的合成启动子，其中该合成启动子对细胞生长无显著影响。

47.如权利要求1-6和31-46中任一项所述的合成启动子，其中该合成启动子对细胞活力无显著影响。

48.如权利要求1-6和31-47中任一项所述的合成启动子，其中该合成启动子不含在异型启动子中无转录活性的TFRE。

49.如权利要求1-6和31-48中任一项所述的合成启动子，其中该合成启动子不含在异型启动子中具转录抑制性的TFRE。

50.如权利要求1-6和33-49中任一项所述的合成启动子，其中该ARE TFRE包含SEQ IDNO：7的核苷酸序列。

51.如权利要求1-6和33-50中任一项所述的合成启动子，其中该EBS1 TFRE包含SEQ IDNO：10的核苷酸序列。

52.如权利要求1-6和33-50中任一项所述的合成启动子，其中该ERSE TFRE包含SEQ IDNO：15的核苷酸序列。

53.如权利要求1-6和33-50中任一项所述的合成启动子，其中该DRE TFRE包含SEQ IDNO：31的核苷酸序列。

54.如权利要求1-6和33-53中任一项所述的合成启动子，该合成启动子进一步包含附加CHO细胞TFRE。

55.如权利要求54所述的合成启动子，其中这些附加CHO细胞TFRE中的至少一个包含SEQ ID NO：6、9和23中任一个的核苷酸序列。

56.如权利要求1-6和32-55中任一项所述的合成启动子，其中包含TFRE的该核苷酸序列包含相同TRFE的至少2个拷贝。

57.如权利要求1-6和32-56中任一项所述的合成启动子，其中包含TFRE的该核苷酸序列包含相同TRFE的至少3个拷贝。

58.如权利要求1-6和31-57中任一项所述的合成启动子，其中该合成启动子避免启动子沉默。

59.如权利要求1-6和31-58中任一项所述的合成启动子，其中该合成启动子将对支持蛋白质产生的关键细胞过程的脱靶效应减到最小。

60.一种载体，该载体包含如权利要求1-7和31-59中任一项所述的合成启动子。

61.如权利要求50所述的载体，其中该合成启动子与编码蛋白质的基因可操作地连接。

62.如权利要求61所述的载体，其中该蛋白质是报告蛋白、治疗性蛋白或酶。

63.一种细胞，该细胞包含如权利要求1-7和31-59中任一项所述的合成启动子或如权利要求60-62中任一项所述的载体。

64.如权利要求63所述的细胞，其中该细胞是哺乳动物细胞。

65.如权利要求64所述的细胞，其中该哺乳动物细胞是CHO细胞。

66.如权利要求64所述的细胞，其中该哺乳动物细胞是人细胞。

67.一种文库，该文库包含如权利要求1-6和31-59中任一项所述的合成启动子。

68.如权利要求67所述的文库，该文库包含至少100种不同的合成启动子。