CN117355613A

CN117355613A - 产生以lnfp-i和2’-fl作为主要化合物的hmo共混物分布的方法

Info

Publication number: CN117355613A
Application number: CN202280035044.0A
Authority: CN
Inventors: M·帕帕扎基斯; T·约翰松; P·贝克尔
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2021-05-17
Filing date: 2022-05-17
Publication date: 2024-01-05

Abstract

本公开涉及一种用于产生以LNFP‑I和2’‑FL作为主要人乳寡糖(HMO)的HMO共混物的方法，该方法包括以下步骤：提供遗传工程细胞，其包含异源β‑1,3‑N‑乙酰基‑葡糖胺基转移酶蛋白、异源β‑1,3‑半乳糖基转移酶蛋白、异源α‑1,2‑岩藻糖基转移酶蛋白，且功能性表达荚膜异多糖酸基因簇，包含天然或异源调节元件或附加型元件，用于控制蛋白的表达并任选地表达异源糖转运蛋白，以及在合适的细胞培养基中培养细胞以表达所述蛋白并产生HMO共混物。

Description

产生以LNFP-I和2’-FL作为主要化合物的HMO共混物分布的方法

技术领域

本公开涉及一种产生具有独特的HMO共混物(blend)分布(profile)的各种人乳寡糖(HMO)的混合物的方法，该混合物主要由LNFP-I和2’-FL以及少量的其他HMO组成。较少量的HMO可以是LNT、LNT-II或DFL。实现特定HMO共混物的策略包括菌株工程和发酵方法。

背景技术

人乳是碳水化合物、脂肪、蛋白、维生素、矿物质和微量元素的复杂混合物。迄今为止最主要的部分是碳水化合物，它可以进一步分为乳糖和更复杂的寡糖(人乳寡糖，HMO)。虽然乳糖被用作能量来源，但复杂的寡糖不被婴儿代谢。复杂的寡糖的分数占总碳水化合物分数的至多1/10，并且可能由150多种不同的寡糖组成。这些复杂的寡糖的出现和浓度是人类特有的，因此在其他哺乳动物(例如驯养的乳用动物)的乳汁中不能大量发现。

迄今为止，至少115种HMO的结构已确定，而且人乳中可能存在更多的HMO。由于发现了HMO在人类发育中的重要功能，因此在过去十年中HMO引起了人们的极大兴趣。除了其益生元特性外，HMO还具有其他积极作用，这扩大了其应用领域。HMO的健康益处使其被批准用于食品(例如婴儿配方奶粉和食品)以及消费者保健产品。

为了克服与HMO化学合成相关的缺点，已经开发了几种酶促方法和发酵方法。通常，基于发酵的工艺是针对单个HMO开发的，例如2’-岩藻糖基乳糖(2’-FL)、3-岩藻糖基乳糖(3-FL)、乳-N-四糖(LNT)、乳-N-新四糖(LNnT)、3’-唾液酸乳糖(3’-SL)和6’-唾液酸乳糖(6’-SL)。基于发酵的工艺通常利用遗传工程细菌菌株，例如重组大肠杆菌(E.coli)。

HMO的生物技术生产(例如发酵工艺)是一种有价值的、具有成本效益的大规模HMO制造方法。它依赖于构建的遗传工程细菌，以表达合成期望寡糖所需的糖基转移酶，并利用细菌固有的核苷酸糖库作为HMO前体。目前，关于如何制备含有乳-N-岩藻五糖I(LNFP-I)的共混物组成以及如何通过遗传工程或调整发酵参数来微调所获得的共混物中不同HMO的水平的知识还不存在，因为用于HMO制造的商业发酵工艺参数通常是保密的，因此尚未描述例如发酵参数对LNFP-I共混物组成或任何其他HMO共混物的影响。

WO 2019/0011133描述了可以岩藻糖基化LNT或LNnT以产生LNFP-I、LNFP-II、LNFP-III和LNFP-VI的岩藻糖基转移酶的鉴定。具体地，描述了使用FucT岩藻糖基转移酶产生LNFP-I。然而，没有公开可以产生LNFP-I和2’-FL共混物的岩藻糖基转移酶。

WO 2019/123324描述了LNFP-I的形成，然而没有表明LNFP-I或2’FL在形成的HMO总量中所占的摩尔％。

发明内容

本公开的目标是HMO共混物的生物技术生产，而工业焦点通常是产生纯HMO，即，通常兴趣是最小化HMO副产物水平并在下游工艺中例如通过离心将其纯化掉。

本公开提供关于如何由遗传工程细胞，从广泛多样的可能的共混物组成中产生特定的HMO共混物(以LNFP-I和2’-FL作为主要HMO)，并为特定市场、客户和实现特定的生物学效果定制它们的详细和深入的知识，同时对特定HMO和HMO混合物的生物学活性和功能的了解正在迅速涌现。

直接的优点是，共混物是由一种生产菌株制造的，并作为HMO混合物进行纯化，因此，不是由几种生产菌株产生的单独纯化的HMO混合而成。这提供更可持续的制造工艺；有价值的HMO在纯化工艺中未被丢弃，因此在发酵中从碳源转化为HMO产物的总产率要高得多。

在其最广泛的方面，本公开涉及一种用于产生以LNFP-I和/或2’-FL作为主要人乳寡糖(HMO)的HMO共混物的方法，其中大于60摩尔％的所产生总人乳寡糖(HMO)为LNFP-I，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

i.包含如SEQ ID NO:1[lgtA]或2[PmnagT]或3[HD0466]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物；且

ii.包含如SEQ ID NO:4[galTK]或5[cvb3galT]所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；且

iii.包含如SEQ ID NO:6[futC]和7[mtun]和49[FucT54]中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6和7以及498具有至少80％同一性的功能同源物，且

iv.功能性表达荚膜异多糖酸(colanic acid)基因簇，且

v.包含用于控制i)-iv)中任一项的表达的天然或异源调节元件，和

b.在合适的细胞培养基中培养根据(a)的细胞以表达所述蛋白并产生HMO共混物；以及

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

v)中的调节元件，例如启动子，控制上述糖基转移酶(i-iii)和荚膜异多糖酸基因簇(iv)的表达，并且该调节元件应位于构建体的i、ii、iii和/或iv的编码序列之前(启动子/调节元件+编码序列)。构建体可以整合至基因组中，或者可以以质粒或另一种附加型元件的形式引入细胞中。

本文公开的另一方面涉及一种遗传工程细胞，其包含编码以下的重组核酸序列：

i.如SEQ ID NO:1或2或3所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物；和

ii.如SEQ ID NO:4或5所示的异源β-1,3-半乳糖基转移酶蛋白，其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；和

iii.如SEQ ID NO:6或7或49中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6、7或49中任一个具有至少80％同一性的功能同源物，和

iv.荚膜异多糖酸基因簇，和

v.用于控制i)-iv)中任一项的表达的天然或异源调节元件或附加型元件，和

vi.编码能够将2’FL和/或LNFP-I输出至细胞外的糖流出转运蛋白的重组核酸序列。

另一方面，本公开涉及一种核酸构建体，其包含编码选自以下的一种或多种蛋白的核酸序列：

i.如SEQ ID NO:1[lgtA]或SEQ ID NO:2[PmnagT]或SEQ ID NO:3[HD0466]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物；和

ii.如SEQ ID NO:4[galTK]或SEQ ID NO:5[cvb3galT]所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；和

iii.如SEQ ID NO:6[futC]或SEQ ID NO:7[mtun]或SEQ ID NO:49[fucT54]中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白或其氨基酸序列与SEQ ID NO:6、7或49中任一个具有至少80％同一性的功能同源物，和

iv.功能性表达荚膜异多糖酸基因簇(gmd、wcaG、wcaH、wcaI、manC、manB)，并且

所述核酸构建体还包含用于控制核酸构建体中存在的基因(即i)-iv)中的一种或多种)的表达的天然或异源调节元件。优选地，调节元件是源自lac操纵子或glp操纵子的启动子序列的重组启动子序列，并且i)至iv)的编码序列中的一个或多个与启动子序列可操作地连接。

另一方面，本公开涉及根据本公开的遗传工程细胞或核酸构建体用于生物合成产生一种或多种人乳寡糖(HMO)、特别是以LNFP-I和2’-FL作为主要人乳寡糖(HMO)的HMO共混物的用途。

具体实施方式

下文中在相关时参考附图和序列来描述各种示例性实施方式和细节。还应当注意的是，附图仅旨在便于描述实施方式。它们并不旨在作为本公开的详尽描述或作为对本公开的范围的限制。另外，所示实施方式不需要具有所示的所有方面或优点。结合特定实施方式描述的方面或优点不一定限于该实施方式，而是可以在任何其他实施方式中实践，即使没有如此示出或者如果没有如此明确地描述。

示例性方法

本公开将大肠杆菌宿主细胞转化为用于LNFP-I和2’-FL生产的遗传工程细胞工厂。遗传工程细胞属于应用合理遗传工程计划的重点领域，目的是

a)筛选不同的野生型α-1,2-岩藻糖基转移酶，这些酶对HMO产生工艺中的重要底物(即乳糖和LNT)显示出明显的特异性，

b)引入糖转运蛋白，例如主要促进子超家族(Major Facilitator Superfamily)(MFS)的糖转运蛋白，其能够将2’-FL和/或LNFP-I输出至细胞外，

c)增加基因拷贝数和/或编码直接参与LNFP-I和2’-FL生物合成通路(包括活化糖GDP-岩藻糖、UDP-GlcNAc和UDP-Gal(供体糖)的合成)的酶的基因的表达，和

d)乳糖、LNT-II和LNT(受体糖)的修饰，分别形成LNT-II、2’-FL、LNT和LNFP-I。

原则上，合理的工程策略(c)可以通过多种方式应用：

1)可以改变荚膜异多糖酸基因簇和/或编码参与2’-FL和/或LNFP-I合成的酶的任何糖基转移酶基因的拷贝数，以将这两种HMO的比率微调至所需水平，

2)通过在转录或翻译水平改变这些基因的单个拷贝的表达可以实现相同的效果。换句话说，驱动单基因拷贝表达的启动子的强度和/或限定相应mRNA的核糖体结合的Shine-Dalgarno序列的强度可以通过多种方式改变，以微调2’-FL和LNFP-I的比率至所需水平，

3)使HMO产生工艺中抑制关键基因表达的调节因子缺失是提高最终产生细胞中HMO滴度或者修改给定共混物中不同HMO的相对浓度的另一种途径。因此，消除GlpR对PglpF-驱动的催化不同HMO生物合成中的关键步骤的酶基因表达所施加的抑制，可以导致其mRNA水平增加，并可能导致其编码的酶水平增加。后者最终不仅导致更高的总HMO滴度，而且导致含LNFPI的HMO共混物中存在的不同HMO的相对浓度发生多重变化。

因此，公开了一种产生以LNFP-I和2’-FL作为主要人乳寡糖(HMO)的HMO共混物的方法。优选地，其中HMO共混物中2’-FL占总HMO的摩尔百分比为25％至70％，且LNFP-I为30％至60％。

该方法包括提供能够产生HMO共混物的遗传工程细胞。遗传工程细胞可包含如SEQID NO:1[lgtA基因]或SEQ ID NO:2[PmnagT]或SEQ ID NO:3[HD0466]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物。

遗传工程细胞还可以包含如SEQ ID NO:4[galTK基因]或SEQ ID NO:5[cvb3galT]所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物。

遗传工程细胞还可以包含如SEQ ID NO:6[futC]或SEQ ID NO:7[mtun]或SEQ IDNO:49[fucT54]或SEQ ID NO:8[smob]中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白或其氨基酸序列与SEQ ID NO:6、7、49或8中任一个具有至少80％同一性的功能同源物。

为了获得2’-FL占总HMO为25％至70％、且LNFP-I为30％至60％的摩尔百分比，优选使用SEQ ID NO:6[FutC]的异源α-1,2-岩藻糖基转移酶或其与之具有至少80％的氨基酸序列的功能同源物。

为了获得2’-FL占总HMO为40％至55％、且LNFP-I为40％至60％的摩尔百分比，优选使用SEQ ID NO:7[mtun]或SEQ ID NO:49[FucT54]的异源α-1,2-岩藻糖基转移酶或其与之具有至少80％的氨基酸序列的功能同源物。

根据本公开的方法的遗传工程细胞还可以从其天然基因组位点功能性地表达荚膜异多糖酸基因簇，例如但不限于gmd、wcaG、wcaH、wcaI、manC、manB。遗传工程细胞可包含用于控制来自其天然或细胞的任何其他基因组位点的荚膜多糖酸基因簇的表达的天然或异源调节元件。

遗传工程细胞可以在合适的细胞培养基中培养以表达所述蛋白并产生以LNFP-I和2’-FL作为主要HMO的HMO共混物。HMO共混物可以通过应用于人乳寡糖(HMO)产生的工业环境中的任何方式来收获。

lgtA/galTK/mtun

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

i.包含如SEQ ID NO:1[lgtA]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1具有至少80％同一性的功能同源物；且

ii.包含如SEQ ID NO:4[galTK]所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4具有至少80％同一性的功能同源物；且

iii.包含如SEQ ID NO:7[mtun]所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:7具有至少80％同一性的功能同源物，且

iv.功能性表达荚膜异多糖酸基因簇(gmd、wcaG、wcaH、wcaI、manC、manB)

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

PmnagT/galTK/mtun

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

i.包含如SEQ ID NO:2[PmnagT]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:2具有至少80％同一性的功能同源物；且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

HD0466/galTK/mtun

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

i.包含如SEQ ID NO:3[HD0466]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:3具有至少80％同一性的功能同源物；且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

HD0466/cvb3galT/mtun

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

ii.包含如SEQ ID NO:5[cvb3galT]所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:5具有至少80％同一性的功能同源物；且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

PmnagT/cvb3galT/mtun

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

lgtA/cvb3galT/mtun

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

lgtA/galTK/futC

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

iii.包含如SEQ ID NO:6[futC]所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6具有至少80％同一性的功能同源物，且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

PmnagT/galTK/futC

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

HD0466/galTK/futC

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

HD0466/cvb3galT/futC

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

PmnagT/cvb3galT/futC

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

lgtA/cvb3galT/futC

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

lgtA/galTK/futC/smob

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

iii.包含如SEQ ID NO:6[futC]和SEQ ID NO:8[smob]所示的两种异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列独立地与SEQ ID NO:6或SEQ ID NO:8具有至少80％同一性的功能同源物，且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

PmnagT/galTK/fucT54

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

iii.包含如SEQ ID NO:49[fucT54]所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:49具有至少80％同一性的功能同源物，且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

HD044949/galTK/fucT54

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

i.包含如SEQ ID NO:3[HD044949]所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:3具有至少80％同一性的功能同源物；且

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

HD044949/cvb3galT/fucT54

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

PmnagT/cvb3galT/fucT54

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

lgtA/cvb3galT/fucT54

在一种或多种示例性方法中，该方法包括以下步骤：

a.提供能够产生HMO的遗传工程细胞，其中所述细胞

v.包含用于控制i)-iv)的表达的天然或异源调节元件

c.收获步骤(b)中产生的人乳寡糖(HMO)共混物。

本公开提供几种菌株工程工具和发酵工艺调整以生成主要由2’-FL和LNFP-I组成的HMO共混物。这里介绍的方法不仅确保2’-FL和LNFP-I是所获得的共混物中的主要HMO，而且每种方法都有利于以独特的方式合成这两种HMO。

例如，主要由LNFP-I和2’-FL组成的共混物的合成，其中LNFP-I是最丰富的HMO，可以仅通过选择适当的α-1,2-岩藻糖基转移酶来实现，例如来自运动性硫曲霉菌(Sulfuriflexus mobilis)的Smob酶(GenBank ID：WP_126455392.1)。相反，如果期望共混物主要由LNFP-I和2’-FL组成且2’-FL是最丰富的HMO，则相应的生产菌株需要表达来自幽门螺杆菌(Helicobacter pylori)的FutC酶(GenBank ID：WP_080473865.1)以及选自本文公开的转运蛋白的异源MFS转运蛋白。

此外，可以以复杂的方式调整荚膜异多糖酸基因簇的表达水平，以使共混物中的任一HMO(2’-FL或LNFP-I)普遍存在，而不管生产菌株表达的糖基转移酶如何。例如，改变驱动荚膜异多糖酸基因簇从其天然基因位点表达的启动子的强度，是控制细胞内GDP-岩藻糖水平以及随后控制内化乳糖和新形成的LNT的岩藻糖基化程度的独特工具，其反过来又以生产菌株中表达的糖基转移酶或其他异源蛋白特有的方式影响2’-FL和LNFP-I的比率。

人乳寡糖(HMO)

在本公开的上下文中，术语“寡糖”是指含有多个单糖单元的糖聚合物。单糖单元的数量在3至15的范围内，例如在3至10的范围内，例如在3至6的范围内，例如在3至5的范围内。在一些实施方式中，优选的寡糖是由三个或四个单糖单元组成的糖聚合物，即三糖、四糖、五糖或六糖。本公开的优选寡糖是人乳寡糖(HMO)。

本上下文中的术语“人乳寡糖”或“HMO”是指人乳中发现的复杂碳水化合物。HMO具有核心结构，其在还原端包含乳糖单元，该乳糖单元可由一个或多个β-N-乙酰基-乳糖胺基和/或一个或多个β-乳-N-二糖基单元拉长，并且该核心结构可由α-L-岩藻吡喃基和/或a-N-乙酰基-神经氨酸基(唾液酸)部分取代。

在这方面，非酸性(或中性)HMO不含唾液酸残基，并且酸性HMO在其结构中具有至少一个唾液酸残基。非酸性(或中性)HMO可以是岩藻糖基化或非岩藻糖基化。此类中性非岩藻糖基化HMO的实例包括乳-N-三糖2(LNT-2)、乳-N-四糖(LNT)、乳-N-新四糖(LNnT)、乳-N-新六糖(LNnH)、对-乳-N-新六糖(pLNnH)、对-乳-N-六糖(pLNH)和乳-N-六糖(LNH)。中性岩藻糖基化HMO的实例包括2’-岩藻糖基乳糖(2’-FL)、乳-N-岩藻五糖I(LNFP-I)、乳-N-二岩藻六糖I(LNDFH-I)、3-岩藻糖基乳糖(3’-FL)、二岩藻糖基乳糖(DFL)、乳-N-岩藻五糖II(LNFP-II)、乳-N-岩藻五糖III(LNFP-III)、乳-N-二岩藻六糖III(LNDFH-III)、岩藻糖基-乳-N-六糖II(FLNH-II)、乳-N-岩藻五糖V(LNFP-V)、乳-N-二岩藻六糖II(LNDFH-II)、岩藻糖基-乳-N-六糖I(FLNH-I)、岩藻糖基-对-乳-N-六糖I(FpLNH-I)、岩藻糖基-对-乳-N-新六糖II(F-pLNnH II)和岩藻糖基-乳-N-新六糖(FLNnH)。酸性HMO的实例包括3’-唾液酸基乳糖(3’-SL)、6’-唾液酸基乳糖(6’-SL)、3-岩藻糖基-3’-唾液酸基乳糖(FSL)、3’-O-唾液酸基乳-N-四糖a(LST a)、岩藻糖基-LST a(FLST a)、6’-O-唾液酸基乳-N-四糖b(LST b)、岩藻糖基-LST b(FLST b)、6’-O-唾液酸基乳-N-新四糖(LST c)、岩藻糖基-LST c(FLST c)、3’-O-唾液酸基乳-N-新四糖(LST d)、岩藻糖基-LST d(FLST d)、唾液酸-乳-N-六糖(SLNH)、唾液酸-乳-N-新六糖I(SLNH-I)、唾液酸-乳-N-新六糖II(SLNH-II)和二唾液酸-乳-N-四糖(DSLNT)。

在本公开的上下文中，乳糖不被视为HMO种类。

人乳寡糖(HMO)共混物

术语“共混物”或“HMO共混物”是指两种或更多种HMO和/或HMO前体的混合物，例如但不限于选自LNT、LNnT、LNH、LNT-II、LNnH、对-LNH、对-LNnH、2’-FL、3FL、DFL、LNFP I、LNDFH-I、LNFP II、LNFP III、LNFP V、F-LNnH、DF-LNH I、DF-LNH II、DF-LNH I、DF-对-LNH、DF-对-LNnH、3’-SL、6’-SL、FSL、F-LST a、F-LST b、F-LST c、LST a、LST b、LST c和DS-LNT的HMO。本文所述的HMO共混物是在发酵结束时获得的，而不是通过混合纯化的HMO或由不同发酵批次产生的HMO而获得。HMO共混物是发酵期间或发酵结束时产生的HMO的组合物，发酵结束时的HMO共混物也可称为最终HMO共混物。HMO共混物可进行下游纯化，但目的是保持HMO共混物具有与发酵后获得的HMO共混物相似的比率。预计纯化后不会向混合物中添加额外的HMO。

在一个或多个示例性实施方式中，本文提及的“HMO共混物”涉及选自LNT、LNT-II、LNnH、对-LNH、2’-FL、DFL和LNFP I的两种或更多种HMO和/或HMO前体的混合物。优选地，HMO共混物或HMO共混物的主要组分产自单一生产菌株。

以LNFP-I和2’-FL作为主要HMO的共混物

本公开强调了实现以LNFP-I和2’-FL作为主要HMO的独特且多样化的HMO共混物的两种主要方式，即菌株工程策略和发酵工艺策略。实现这一目标的菌株工程策略包括操作HMO产生细胞的以下遗传性状

1.引入的α-1,2-岩藻糖基转移酶的选择

2.荚膜异多糖酸基因簇的表达程度

3.β-1,3-N-乙酰基-葡糖胺基转移酶的表达程度或拷贝数

4.主要促进子超家族(MFS)糖转运蛋白的引入

5.细胞调节环境的变化，例如glpR调节因子的缺失

本公开中的发酵工艺策略包括调节发酵液中的发酵温度和/或乳糖水平，以高度可预测的方式利用源自菌株工程的给定菌株实现特定的HMO共混物分布。

共混物比率

通过本文公开的方法产生的HMO产物也可以通过它们的比率来描述。本文所述的“比率”应理解为两种HMO的量之间的比率，例如但不限于一种量除以另一种量或一种量除以总量。

在本发明的一个实施方式中，用本文所述的菌株发酵后，HMO共混物中LNFP-I占总HMO的摩尔百分比为90％至30％，且2’-FL占总HMO的摩尔百分比为70％至10％，例如LNFP-I的摩尔百分比为90％至40％，且2’-FL为60％至10％，例如2’-FL的摩尔百分比为25％至70％，且LNFP-I的摩尔百分比为30％至60％。

由实施例中的发酵数据(温度调节)支持的摩尔百分比共混比率显示了示例性HMO共混物组成范围，其可以如下：当调节温度时，相对于所有HMO的总和，LNFP-I[47-63]、2’-FL[31-51]和LNT[1-5]，或在LNFP-I/2’-FL/LNT组合中为63/31/5至47/51/1(全部以摩尔％计)，例如但不限于，LNFP-I的摩尔百分比为80％至30％，且2’-FL为70％至20％。

在本发明的一些实施方式中，发酵在25℃至34℃、优选30℃至32℃之间进行，并且共混物中主要HMO(LNFP-I)的摩尔百分比为30％至60％，且2’-FL为40％至70％。

在本发明的一些实施方式中，发酵在25℃至28℃之间进行，并且共混物中的主要HMO(LNFP-I)的摩尔百分比为45％至55％，且2’-FL为45％至55％。

在本发明的一些实施方式中，发酵在28℃至34℃之间进行，共混物中的主要HMO(LNFP-I)的摩尔百分比为30％至45％，且2’-FL为55％至70％。

对于乳糖调节，实施例显示高乳糖工艺的示例性的以下范围(以摩尔％计)：LNFP-I/HMO[60-68]、LNT/HMO[21-27]、LNT-II/HMO[6-9]，2’-FL/HMO[4-6]。并且低乳糖工艺的范围如下(以摩尔％计)：LNFP-I/HMO[66-70]、2’-FL/HMO[25-30]、LNT/HMO[3-4]、LNT-II/HMO[1-1.5]。

在此，例如，低乳糖工艺支持以LNFP-I和2’-FL作为两种最丰富的HMO的共混物。

因此，在一个或多个示例性实施方式中，当调节乳糖时，LNFP-I的摩尔百分比可以为90％至40％，并且2’-FL为60％至10％。

因此，在一个或多个示例性实施方式中，当调节乳糖时，LNFP-I的摩尔百分比可以为90％至30％，并且2’-FL为70％至10％。

在一些实施方式中，发酵期间乳糖较低，例如低于20g/L，优选低于15g/L，例如0.5g/L至15g/L，优选低于10g/L，例如1g/L至10g/L，并且2’-FL占共混物中总HMO的摩尔百分比高于20％，优选高于30％。

在一个或多个示例性实施方式中，LNFP-I/2’-FL/LNT之间的比率可以是15:8:2、15:7:2、15:6:2或15:5:2。

以下比率基于调节批次产生的材料，因此是质量比，而不是摩尔比。

在一个或多个示例性实施方式中，LNFP-I/2’-FL/LNT之间的质量比可以是60:30:1、40:20:1、30:15:1、10:5:1、8:4:1、6:3:1。

本文描述的是，LNFP-I/2’-FL/LNT之间的质量比可以是80:40:1、80:30:1、80:20:1、80:15:1、80:10:1、80:5:1、80:4:1。

在一个或多个示例性实施方式中，LNFP-I/2’-FL/LNT之间的质量比可以是60:30:1、60:30:2、60:30:3、60:30:4、60:30:5。

在一个或多个示例性实施方式中，LNFP-I/2’-FL/LNT之间的质量比可以是60:15:1、60:15:2、60:15:3、60:15:4、60:15:5。

在一个或多个示例性实施方式中，LNFP-I/2’-FL/LNT之间的质量比可以在以下范围[80-50]:[25-15]:[0-5]内。

在一个或多个示例性实施方式中，(LNFP-I+2’-FL)/LNT之间的质量比可以在以下范围[95-75]:[0-5]内。

功能酶

几种遗传工程方法已应用于改变细胞产生的不同HMO的丰度，这些细胞过表达荚膜异多糖酸基因簇并表达选自异源β-1,3-N-乙酰基-葡糖胺基转移酶、β-1,3-半乳糖基转移酶和α-1,2-岩藻糖基转移酶的功能酶。

一般地，如下文的实施例所示，我们观察到大多数遗传操作影响LNFP-I和2’-FL之间的比率，并且在较小程度上影响最终的HMO共混物中前体糖(例如LNT和LNT-II)的相对丰度。最终的HMO共混物应理解为遗传修饰细胞在发酵结束时产生的HMO的混合物。

获得的最终的HMO共混物的LNFP-I与2’-FL比率的显著差异最初可以通过简单地引入来自不同细菌物种的不同异源α-1,2-岩藻糖基转移酶来获得。

对此类不同糖基转移酶的测试产生了各种最终的HMO共混物，其中LNFP-I和2’-FL是主要的HMO。异源α-1,2-岩藻糖基转移酶对乳糖和LNT的特异性主要决定了LNFP-I还是2’-FL是混合物中最丰富的HMO。

所引入功能酶的选择

例如，来自幽门螺杆菌的α-1,2-岩藻糖基转移酶FutC(GenBank ID：WP_080473865.1，但在C末端有两个额外的氨基酸(LG)，或SEQ ID NO:6)对乳糖的更高特异性产生HMO共混物，其中2’-FL是最丰富的HMO。

相反，来自运动性硫曲霉菌的α-1,2-岩藻糖基转移酶Smob酶(GenBank ID：WP_126455392.1或SEQ ID NO:8)产生共混物，其中LNFP-I是主要的HMO，2’-FL是第二最丰富的HMO，且LNT-II仅形成有限量。

还有一些酶导致LNFP-I和2’-FL几乎等摩尔浓度的HMO共混物，这表明它们对任一关键底物(即LNT和乳糖)具有几乎均等的特异性。

此类酶的实例是来自Sideroxydans lithotrophicus ES-11的α-1,2-岩藻糖基转移酶FucT54(GenBank ID：WP_013031010.1或SEQ ID NO:49)和来自Methylobactertundripaludum的Mtun(GenBank ID：WP_031437198.1或SEQ ID NO:7)。

除了α-1,2-岩藻糖基转移酶的选择之外，表达FutC的细胞的其他几种类型的遗传修饰也可特异性影响LNFP-I和2’-FL之间的比率。

因此，futC-表达细胞中的特定遗传变化可与给定的HMO共混物相关，其中LNFP-I或2’-FL是最丰富的HMO，并且2’-FL或LNFP-I分别是第二最丰富的HMO。

为了能够合成HMO共混物，重组细胞包含至少一种重组核酸，其编码具有糖基转移酶活性的功能酶。糖基化活性应理解为从内化的单糖或二糖通过连续的糖基化步骤合成寡糖所必需的酶活性，其中内化的受体例如乳糖，在第一糖基化步骤中被糖基化为三糖，然后该三糖在第二糖基化步骤中被糖基化为四糖，等等。糖基化步骤由各自的糖基转移酶介导。

在这方面，短语“能够将活化的糖核苷酸的糖基残基转移至从所述受体到所述寡糖的生物合成通路中的中间体的糖基转移酶”或“可以将活化的糖核苷酸的糖基残基转移至从所述受体到所述寡糖的生物合成通路中的中间体的糖基转移酶”是指第二、第三等糖基化步骤。与寡糖或更具体地HMO相关的术语“生物合成通路中的中间体”应理解为在产生所需寡糖或HMO所需的反应步骤中的中间寡糖或HMO。

例如，如果乳-N-四糖由乳糖制成，则第一糖基转移酶(β-1,3-N-乙酰基-葡糖胺基转移酶将UDP-GlcNAc的GlcNAc转移至内化乳糖以形成乳-N-三糖II(LNT-II)，然后第二个糖基转移酶(β-1,3-半乳糖基转移酶)将UDP-Gal的Gal转移至先前形成的LNT-II，形成乳-N-四糖(LNT)，并且第三个糖基转移酶(α-1,2-岩藻糖基转移酶)将GDP-Fuc中的Fuc转移至先前形成的LNT上，从而形成乳-N-岩藻五糖I(LNFP-I)。在这方面，LNT-II和LNT被认为是在从乳糖到LNFP-I的生物合成通路中的中间体(另参见图12)。相同或第二个糖基岩藻糖基转移酶可以将GDP-Fuc的Fuc转移至LNFP-I，形成乳-N-二岩藻六糖I(LNDFH-I)。

糖基转移酶基因可以整合至遗传工程细胞的基因组中(通过染色体整合)，或者可替代地，它可以包含在可以整合至遗传工程细胞的基因组中或插入至质粒DNA中的构建体中，并且表达为质粒携带的糖基转移酶。

如果需要两种或更多种糖基转移酶来产生HMO共混物，例如2’-FL或LNFP-I，编码具有糖基转移酶活性的不同酶的两种或更多种重组核酸可以整合至基因组中、包含在构建体中和/或从质粒表达，例如α-1,2-岩藻糖基转移酶(编码第一糖基转移酶的第一重组核酸)可能与β-1,3-N-乙酰基-葡糖胺基转移酶(编码第二糖基转移酶的第二重组核酸)和β-1,3-半乳糖基转移酶(编码第三糖基转移酶的第三重组核酸)组合用于产生2’-FL和/或LNFP-I，其中第一、第二和第三重组核酸可以彼此独立地整合至染色体上或在一种或多种构建体和/或质粒中。

在一个或多个示例性实施方式中，第一、第二和第三重组核酸均稳定整合至遗传工程细胞的染色体中。整合可以位于宿主细胞基因组中的一个或多个位点。如果整合在宿主细胞中的一个基因组位点，则重组核酸可以处于形成操纵子的单一调节元件的控制下或处于单独的调节元件的控制下。或者，重组核酸可以整合至宿主细胞基因组中的几个位置，在各个调节元件的控制下。

在另一个当前示例性实施方式中，第一、第二和第三糖基转移酶中的至少一个是质粒携带的。

异源表达

在本公开中，术语异源是指编码蛋白的核酸已被引入正常情况下不产生(即表达)该蛋白的细胞中，使得该细胞能够表达该蛋白并被称为遗传修饰细胞。因此，异源是指所表达的蛋白最初是从与受体/宿主细胞不同的细胞类型或物种克隆或衍生的。编码所需蛋白的核酸必须采用能够促进受体细胞将cDNA表达为蛋白的格式(即，将其放入表达载体中)。将外源遗传物质转移至受体细胞中的方法包括转染和转导以及crisper/cas。受体细胞类型的选择通常基于详细检查蛋白功能的实验需要，选择最常见的受体(称为异源表达系统)通常是因为它们很容易将DNA转移至其中，或者因为它们允许更简单地评估蛋白的功能。

如实施例中所示，最终共混物中第一和第二最丰富的HMO的丰度顺序可以从2’-FL>LNFP-I反转为LNFP-I>2’-FL，这通过同时增加futC-表达细胞中lgtA(编码β-1,3-N-乙酰基-葡糖胺基转移酶)和galTK(编码β-1,3-半乳糖基转移酶)基因的拷贝数实现。

异源β-1,3-N-乙酰基-葡糖胺基转移酶

异源β-1,3-N-乙酰基-葡糖胺基转移酶是包括将UDP-GlcNAc的GlcNAc转移至乳糖的能力的任何蛋白。本文使用的β-1,3-N-乙酰基-葡糖胺基转移酶并非起源于遗传工程细胞的物种，即编码β-1,3-半乳糖基转移酶的基因具有异源来源。异源β-1,3-N-乙酰基-葡糖胺基转移酶的实例是LgtA、PmnagT和HD0466，分别如SEQ ID NO:1、2和3中例示。

lgtA

lgtA基因是编码β-1,3-N-乙酰基-葡糖胺基-转移酶的基因，并且在多种细菌物种中发现了该基因的同源物，其中该基因参与细菌脂寡糖的乳-N-新-四糖结构元件的合成。

在一个或多个示例性实施方式中，lgtA基因如SEQ ID NO:40所示或是其核酸序列与SEQ ID NO:40具有至少70％同一性，例如与SEQ ID NO:40具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，lgtA基因编码SEQ ID NO:1的蛋白，或其氨基酸序列与SEQ ID NO:1具有至少70％同一性，例如与SEQ ID NO:1具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

PmnagT

在一个或多个示例性实施方式中，PmnagT基因如SEQ ID NO:41所示或是其核酸序列与SEQ ID NO:41具有至少70％同一性，例如与SEQ ID NO:41具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，PmnagT基因编码SEQ ID NO:2的蛋白，或其氨基酸序列与SEQ ID NO:2具有至少70％同一性，例如与SEQ ID NO:2具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

HD0466

在一个或多个示例性实施方式中，HD0466基因如SEQ ID NO:42所示或是其核酸序列与SEQ ID NO:42具有至少70％同一性，例如与SEQ ID NO:42具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，HD0466基因编码SEQ ID NO:3的蛋白，或其氨基酸序列与SEQ ID NO:3具有至少70％同一性，例如与SEQ ID NO:3具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，异源β-1,3-N-乙酰基-葡糖胺基转移酶和可以使用这些酶产生的HMO共混物显示在下表中。

异源β-1,3-半乳糖基转移酶

异源β-1,3-半乳糖基转移酶是具有将UDP-Gal的Gal转移至GlcNAc部分的能力的任何蛋白。本文使用的β-1,3-半乳糖基转移酶并非源自遗传工程细胞的物种，即编码β-1,3-半乳糖基转移酶的基因具有异源来源。

异源β-1,3-半乳糖基转移酶的实例是GalTK和Cvb3galT，分别如SEQ ID NO:4和5所示。

galTK

在一个或多个示例性实施方式中，galTK基因如SEQ ID NO:43所示或是其核酸序列与SEQ ID NO:43具有至少70％同一性，例如与SEQ ID NO:43具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，galTK基因编码SEQ ID NO:4的蛋白，或其氨基酸序列与SEQ ID NO:4具有至少70％同一性，例如与SEQ ID NO:4具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

cvb3galT

在一个或多个示例性实施方式中，cvb3galT基因如SEQ ID NO:44所示或是其核酸序列与SEQ ID NO:44具有至少70％同一性，例如与SEQ ID NO:44具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，cvb3galT基因编码SEQ ID NO:5的蛋白，或其氨基酸序列与SEQ ID NO:5具有至少70％同一性，例如与SEQ ID NO:5具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

异源β-1,3-半乳糖基转移酶的一些非限制性实施方式显示在下表中。

异源α-1,2-岩藻糖基转移酶

α-1,2-岩藻糖基转移酶负责通过α-1,2键将岩藻糖添加至O-抗原重复单元的半乳糖残基上。在一个或多个示例性实施方式中，异源α-1,2-岩藻糖基转移酶蛋白是SEQ IDNO:6或7或8中的任一个或其氨基酸序列与SEQ ID NO:6、7或8具有至少80％同一性，例如与SEQ ID NO:6、7或8具有至少85％、90％、95％、98％或100％同一性的功能同源物。

合适的异源α-1,2-岩藻糖基转移酶的实例及其对HMO共混物的影响如下表所示。

futC

在一个或多个示例性实施方式中，futC基因如SEQ ID NO:45所示或是其核酸序列与SEQ ID NO:45具有至少70％同一性，例如与SEQ ID NO:45具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，futC基因编码SEQ ID NO:6的蛋白，或其氨基酸序列与SEQ ID NO:6具有至少70％同一性，例如与SEQ ID NO:6具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

Mtun

在一个或多个示例性实施方式中，Mtun基因如SEQ ID NO:46所示或是其核酸序列与SEQ ID NO:46具有至少70％同一性，例如与SEQ ID NO:46具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，Mtun基因编码SEQ ID NO:7的蛋白，或其氨基酸序列与SEQ ID NO:7具有至少70％同一性，例如与SEQ ID NO:7具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

FucT54

在一个或多个示例性实施方式中，FucT54基因编码SEQ ID NO:49的蛋白，或其氨基酸序列与SEQ ID NO:49具有至少70％同一性，例如与SEQ ID NO:49具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在WO2019/008133中，FucT54已显示产生一些LNFP-I，但是尚未研究产生2’-FL的能力。

smob

在一个或多个示例性实施方式中，smob基因如SEQ ID NO:47所示或是其核酸序列与SEQ ID NO:47具有至少70％同一性，例如与SEQ ID NO:47具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

在一个或多个示例性实施方式中，smob基因编码SEQ ID NO:8的蛋白，或其氨基酸序列与SEQ ID NO:8具有至少70％同一性，例如与SEQ ID NO:8具有至少75％、80％、85％、90％、95％、98％或100％同一性的功能同源物。

异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:8[smob]。当需要更高水平的LNFP-I并且细胞可以最佳地还包含充当糖转运蛋白的基因产物时，这是特别有用的。

在一个或多个示例性实施方式中，异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:7[mtun]或SEQ ID NO:49[fucT54]。如果需要等摩尔浓度的LNFP-I和2’-FL，这些是特别有用的HMO共混物。

在一个或多个示例性实施方式中，异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6[futC]。当需要更高水平的2’FL并且细胞还包含充当糖转运蛋白的基因产物时，这是特别有用的。

荚膜异多糖酸基因簇

大肠杆菌K-12的荚膜异多糖酸基因簇负责产生细胞外多糖荚膜异多糖酸，这是细菌细胞壁的主要寡糖。荚膜异多糖酸(CA)基因簇由以下基因组成：gmd、wcaG、wcaH、wcaI、manB和manC，这些基因也参与GDP-岩藻糖生物合成通路，这对于HMO的生成非常重要，因为GDP-岩藻糖作为HMO中糖基单元岩藻糖基化的供体发挥作用。CA基因簇的实例示于SEQ IDNO:52中。

由于荚膜异多糖酸基因簇以及编码β-1,3-N-乙酰基-葡糖胺基转移酶、β-1,3-半乳糖基转移酶和α-1,2-岩藻糖基转移酶的异源基因以PglpF-驱动的表达盒的形式引入至本文使用的遗传修饰细胞中，glpR基因(其编码DNA-结合转录阻遏物(repressor)GlpR)的缺失可以消除细胞中GlpR对来自所有PglpF启动子的转录所施加的抑制，并且以这种方式增强来自所有基于PglpF的盒的基因表达。因此，最终共混物的HMO含量可受到多种方式的影响。在本公开的框架中，观察到从futC-表达细胞的遗传背景中缺失glpR基因可以增加最终HMO共混物中LNFP-I与2’-FL的比率。

在一个或多个示例性实施方式中，荚膜异多糖酸基因簇可以从其天然基因组位点表达以产生由该基因簇编码的功能性蛋白，从而有助于GDP-岩藻糖生物合成通路。该表达可以被主动调节。该表达可以通过用感兴趣的启动子交换天然启动子、和/或通过从另一个基因组位点表达基因簇来增加编码所述蛋白的荚膜异多糖酸基因的拷贝数、或附加型表达荚膜异多糖酸基因簇来调节。如实施例中所示，此类手段改善了例如异源α-1,2-岩藻糖基转移酶蛋白的功能，参见实施例2。

因此，在一个或多个示例性实施方式中，iv)中荚膜异多糖酸基因簇的表达通过用感兴趣的启动子交换天然启动子，和/或通过从另一个基因组位点表达基因簇来增加编码所述蛋白的荚膜异多糖酸基因的拷贝数、或附加型表达荚膜异多糖酸基因簇来调节。

在一个或多个示例性实施方式中，iv)中的荚膜异多糖酸基因簇基因簇可以功能性表达。

功能性表达

在本上下文中，与荚膜异多糖酸基因簇有关的术语“功能性表达”应理解如下：荚膜异多糖酸基因簇的表达应提供功能性GDP-岩藻糖生物合成通路所需的酶。

该表达可以通过用感兴趣的启动子交换天然启动子来调节。该表达还可以通过增加编码所述蛋白的荚膜异多糖酸基因的拷贝数来调节。附加型表达荚膜异多糖酸基因簇也影响表达。

因此，在一个或多个示例性实施方式中，v)中荚膜异多糖酸基因簇的表达通过用感兴趣的启动子交换天然启动子、和/或增加编码所述蛋白的荚膜异多糖酸基因的拷贝数、或附加型表达荚膜异多糖酸基因簇来调节。

在一个或多个示例性实施方式中，对荚膜异多糖酸基因簇的表达的控制通过用感兴趣的启动子交换天然启动子、和/或通过从染色体上的不同位点表达基因簇来增加编码所述蛋白的荚膜异多糖酸基因的拷贝数、或附加型表达荚膜异多糖酸基因簇来调节。

CA基因簇中的各个基因描述如下。

Gmd

gmd基因编码蛋白GDP-甘露糖-4,6-脱水酶(UniProt登录号P0AC88)，其催化GDP-D-甘露糖转化为GDP-4-脱氢-6-脱氧-D-甘露糖。该蛋白参与从GDP-α-D-甘露糖合成GDP-L-岩藻糖的反应。

在一个或多个示例性实施方式中，gmd基因过表达。

wcaG

wcaG基因，也称为fcl，编码蛋白GDP-L-岩藻糖合酶(EC 1.1.1.271，UniProt登录号P32055)，催化GDP-4-脱氢-6-脱氧-D-甘露糖转化为GDP-岩藻糖的两步NADP-依赖性转化，涉及差向异构酶和还原酶反应。

在一个或多个示例性实施方式中，wcaG基因过表达。

wcaH

wcaH基因编码蛋白GDP-甘露糖甘露糖基水解酶(EC 3.6.1.-，UniProt登录号P32056)，其水解GDP-甘露糖和GDP-葡萄糖。

在一个或多个示例性实施方式中，wcaH基因过表达。

wcaI

wcaI基因编码荚膜异多糖酸生物合成糖基转移酶WcaI(UniProt登录号P32057)，它催化未修饰的岩藻糖向UPP-Glc(α-D-吡喃葡萄糖基-二磷十一碳烯醇-葡萄糖)的转移。

在一个或多个示例性实施方式中，wcaI基因过表达。

manB

manB基因编码蛋白磷酸甘露糖变位酶(EC 5.4.2.8，UniProt登录号P24175)，其通过催化α-D-甘露糖-1-磷酸转化为D-甘露糖-6-磷酸参与GDP-甘露糖的生物合成。因此，manB的表达水平调节GDP-甘露糖的形成。

在一个或多个示例性实施方式中，manB基因过表达。

manC

manC基因编码蛋白甘露糖-1-磷酸鸟苷基转移酶(EC:2.7.7.13，UniProt登录号P24174)，其通过从GTP和α-D-甘露糖-1-磷酸合成GDP-甘露糖来参与GDP-甘露糖的生物合成。

在一个或多个示例性实施方式中，manC基因过表达。

天然基因组位点

关于本公开，与荚膜异多糖酸基因簇相关的术语“天然基因组位点”涉及遗传工程细胞的天然基因组中的基因簇的原始和天然位置。

序列同一性

在两个或更多个核酸或氨基酸序列的上下文中，术语“[某个]的序列同一性％”指当在比较窗口或指定的核酸或氨基酸序列上进行最大对应性比较和比对时，两个或更多个序列以给定的百分比具有共同的核苷酸或氨基酸残基(即序列具有至少百分之90(％)同一性)。核酸或氨基酸序列的同一性百分比可使用具有默认参数的BLAST 2.0序列比较算法，或者通过人工比对和目视检查来测量(参见例如http://www.ncbi.nlm.nih.gov/BLAST/)。该定义也适用于测试序列的互补序列和具有缺失和/或添加的序列，以及具有取代的序列。适用于确定百分比同一性、序列相似性和比对的算法示例是BLAST 2.2.20+算法，其描述于Altschul等人Nucl.Acids Res.25,3389(1997)中。BLAST 2.2.20+用于确定本公开核酸和蛋白的序列同一性百分比。用于进行BLAST分析的软件可通过国家生物技术信息中心(http://www.ncbi.nlm.nih.gov/)公开获得。常用的序列比对算法的实例是

CLUSTAL Omega(http://www.ebi.ac.uk/Tools/msa/clustalo/)、EMBOSS Needle(http://www.ebi.ac.uk/Tools/psa/emboss_needle/)、MAFFT(http://mafft.cbrc.jp/alignment/server/)或MUSCLE(http://www.ebi.ac.uk/Tools/msa/muscle/)。

优选地，两个氨基酸序列之间的序列同一性使用如在EMBOSS包(EMBOSS:TheEuropean Molecular Biology Open Software Suite,Rice等人,2000,Trends Genet.16:276-277)的Needle程序中实施的Needleman-Wunsch算法(Needleman and Wunsch,1970,J.Mo/.Biol.48:443-453)来确定，优选版本5.0.0或更高版本(可访问https://www.ebi.ac.uk/Tools/psa/emboss needle/)。使用的参数是空位开放罚分(gap openpenalty)10、空位扩展罚分(gap extension penalty)0.5和EBLOSUM62(30BLOSUM62的EMBOSS版本)替换矩阵(substitution matrix)。标记为“最长同一性”的Needle输出(使用-nobrief选项获得)用作同一性百分比，计算如下：(相同残基×100)/(比对长度-比对中空位总数)。

优选地，两个核苷酸序列之间的序列同一性使用如在EMBOSS包，10优选版本5.0.0或更高版本(EMBOSS:The European Molecular Biology Open Software Suite,Rice等人,2000,Trends Genet.16:276-277)的Needle程序中实施的Needleman-Wunsch算法(Needleman and Wunsch,1970如上文)来确定。使用的参数是空位开放罚分(gap openpenalty)10、空位扩展罚分(gap extension penalty)0.5和DNAFULL(NCBI NUC4.4的EMBOSS版本)替换矩阵。标记为“最长同一性”的Needle输出(使用-nobrief选项获得)用作同一性百分比，计算如下：(相同的脱氧核糖核苷酸×100)/(比对长度-比对中空位总数)。

功能同源物

本文所述的蛋白/核酸序列的功能同源物是遗传密码发生改变但保留其原始功能的蛋白/核酸序列。功能同源物可以通过突变获得。与蛋白/核酸序列的功能性相比，功能性同源物应具有至少50％、例如60％、70％、80％、90％或100％的剩余功能性。

所公开的氨基酸或核酸序列的任一个的功能同源物也可以具有更高的功能性。就HMO产量、纯度、生物质形成的减少、遗传工程细胞的活力、根据本公开的遗传工程细胞的稳健性、或消耗品的减少而言，SEQ ID NO:1-47中任一个的功能同源物应当理想地能够参与HMO产生。

控制表达

在本文中，术语“控制表达”涉及其中基因转录成mRNA及其随后翻译成蛋白的基因表达受到控制。基因表达主要在转录水平上受到控制，很大程度上是由于蛋白与DNA上特定位点(例如但不限于调节元件)结合的结果。

如上所述，工程策略可以通过以下多种方式应用：

1)拷贝数

2)在转录或翻译水平控制这些基因的任何拷贝的表达

3)使HMO生产工艺中抑制关键基因表达的调节因子缺失

4)过表达激活和/或增强HMO生产工艺中关键基因表达的调节因子

期望增加基因拷贝数和/或增强编码直接参与LNFP-I和2’-FL生物合成通路的酶的基因的表达，包括活化糖GDP-岩藻糖、UDP-GlcNAc和UDP-Gal(供体糖)的合成和乳糖、LNT-II、LNT和LNFP-I(受体糖)的修饰，以分别形成LNT-II、2’-FL、LNT、LNFP-I和LNDFH-I。

过表达

多种分子机制确保基因在与应用生产工艺相关的条件下以适当的水平表达。例如，转录的调节可归纳为以下影响途径：遗传(控制因子与感兴趣的基因的直接相互作用)、控制因子与转录机制的调节和/或相互作用以及表观遗传(影响转录的DNA结构的非序列变化)。

众所周知，任何基因的基因表达减少至低于临界阈值都会导致突变表型，因为这种缺陷本质上模拟了靶基因功能的部分或完全丧失，而天然基因的表达增加可以对细胞或生物体既有益又有害。

基因的过表达可以通过与关键基因调节序列结合以促进转录的转录激活子(activator)或构成积极影响转录的序列元件(也称为如下所述的调节元件)的增强子直接实现。类似地，基因的直接过表达可以通过以下方式来实现：简单地增加其在基因组中的拷贝数，或用更高强度的启动子替换其天然启动子，或甚至修饰控制相应mRNA与核糖体结合的序列，即存在于该基因编码序列上游的Shine-Dalgarno序列。

此外，基因的过表达也可以通过转录阻遏物的部分或完全失活来间接实现，转录阻遏物通常结合感兴趣的基因的编码序列周围的关键调节序列，从而抑制其转录。

因此，在一个或多个示例性实施方式中，本文所述方法中的步骤i)、ii)和iii)中异源β-1,3-N-乙酰基-葡糖胺基转移酶、β-1,3-半乳糖基转移酶和α-1,2-岩藻糖基转移酶蛋白的过表达，通过增加编码所述蛋白的基因的拷贝数和/或通过选择用于控制这些基因的表达的适当元件和/或灭活与编码所述蛋白的基因的编码序列周围的调节元件结合的阻遏物来提供。

增加拷贝数

拷贝数变异是一种结构变异：具体地，它是一种相当数量的碱基对的倍增，如果代表蛋白编码基因，将导致编码相同蛋白的基因数量增加。这种变异可以在许多物种中自然发生，但也可以通过对宿主细胞进行遗传修饰而引入。

在一个或多个示例性实施方式中，通过增加所需基因的拷贝数来控制表达。可以通过在细胞中引入具有高拷贝数的质粒或通过将基因的额外拷贝引入宿主细胞的基因组来增加拷贝数。

例如，参见实施例3，通过同时增加futC-表达细胞中的lgtA(编码β-1,3-N-乙酰基-葡糖胺基转移酶)和galTK(编码β-1,3-半乳糖基转移酶)基因的拷贝数，最终共混物可以由2’-FL>LNFP-I反转为LNFP-I>2’-FL。

因此，在一个或多个示例性实施方式中，目的是增加编码β-1,3-N-乙酰基-葡糖胺基转移酶和β-1,3-半乳糖基转移酶的基因(例示例如，lgtA和galTK)的拷贝数，与SEQ IDNO:6[FutC]或SEQ ID NO:7[mtun]或SEQ ID NO:49[FucT54]或其同源物的α-1,2-岩藻糖基转移酶组合。

调节元件

根据本文所述方法的遗传工程细胞可以包含能够控制内源或异源和/或合成核酸序列的过表达的调节元件。

术语“调节元件”包括启动子序列、信号序列、和/或影响与调节元件可操作地连接的核酸序列的转录和/或翻译的转录因子结合位点阵列。

在转录和转录后水平发现调节元件，并进一步在这些水平上启用分子网络。例如，在转录后水平，控制mRNA稳定性、翻译和亚细胞定位的生化信号由调节元件加工。RNA结合蛋白是另一类转录后调节元件，并进一步分类为序列元件或结构元件。可作为调节元件的特定序列基序也与mRNA修饰相关。多种DNA调节元件参与基因表达的调节，并依赖于涉及DNA、构成染色质的细胞蛋白、基因激活子和阻遏物以及转录因子的生化相互作用。

一般地，转录和翻译调节序列包括但不限于启动子序列、核糖体结合位点、转录起始和终止序列、翻译起始和终止序列、基因调节因子和增强子序列的结合位点。

启动子和增强子是基因表达的主要基因组调节元件。启动子是基因转录起始位点(TSS)1-2千碱基(kb)范围内的DNA区域；它们含有组装RNA聚合酶转录机制所必需的短调节元件(DNA基序)。在细菌和古细菌物种中，启动子下游通常有Shine-Dalgarno序列，通常距起始密码子约8个碱基。此外，位于TSS更远端的DNA调节元件可以显著促进转录。这些区域通常被称为增强子，是位置独立的DNA调节元件，它们与位点特异性转录因子相互作用，以建立细胞类型识别并调节基因表达。增强子可以通过称为成环(looping)的过程独立于其序列背景并在距其靶基因数个至数百kb的距离处发挥作用。由于这些特征，仅根据DNA序列很难识别合适的增强子并将其与其靶基因连接起来。

启动子与其他转录和翻译调节核酸序列(也称为“控制序列”)一起是表达给定基因或一组基因(操纵子)所必需的。

鉴定促进特定感兴趣的基因表达的合适启动子序列是一项繁琐的任务，在许多情况下需要费力的工作。关于本公开，调节元件可以是或可以不是翻译后调节因子，或者它可以是或可以不是翻译调节因子。

通过选择适当的调节元件(例如启动子、增强子和/或Shine-Dalgarno序列)，可以影响异源基因的表达。调节元件(例如启动子或Shine-Dalgarno序列)的强度可以使用lacZ酶测定进行评估，其中如前所述测定β-半乳糖苷酶活性(参见例如MillerJ.H.Experiments in molecular genetics,Cold spring Harbor Laboratory Press,NY,1972)。简而言之，将细胞在Z缓冲液中稀释并用十二烷基硫酸钠(0.1％)和氯仿进行透化。测定在30℃进行。预热样品，通过添加200μl邻硝基苯基-β-半乳糖苷酶(4mg/ml)启动测定，并在样品变成微黄色时通过添加500μl 1M Na₂CO₃停止测定。随后将邻硝基苯酚的释放确定为420nm处光密度的变化。具体活性以米勒单位(MU)[A420/(min*ml*A600)]报告。活性高于10000MU的调节元件被认为是强调节元件，而活性低于3000MU的调节元件被认为是弱调节元件，介于两者之间的调节元件具有中等强度。强调节元件的一个实例是具有大约14000MU活性的PglpF启动子，而弱启动子的一个实例是Plac，当用IPTG诱导时，其具有大约2300MU的活性。

因此，在本发明的一个实施方式中，调节元件包括一种或多种能够增强表达的元件，即例如根据本发明的一种或多种异源核酸序列的过表达。特别是，调节β-1,3-N-乙酰基-葡糖胺基转移酶和/或β-1,3-半乳糖基转移酶的表达水平可以影响2’-FL的形成。在一个实施方式中，大于10000MU、例如大于12000MU、例如大于15000MU的调节元件控制1,3-N-乙酰基-葡糖胺基转移酶和/或β-1,3-半乳糖基转移酶的表达。使用强启动子控制1,3-N-乙酰基-葡糖胺基转移酶和/或β-1,3-半乳糖基转移酶的表达将导致LNFP-I与2’-FL的比率增加，因为这将驱动通向LNFP-I的通路(见图12)。

在本发明的另一个实施方式中，调节元件包括允许适当控制根据本发明的一个或多个异源核酸序列的表达的一个或多个元件。特别是，调节β-1,3-N-乙酰基-葡糖胺基转移酶和/或β-1,3-半乳糖基转移酶的表达水平可以影响2’-FL的形成。在一个实施方式中，小于10000MU、例如小于8000MU、例如小于6000MU、例如小于4000MU、例如小于2000MU的调节元件控制1,3-N-乙酰基-葡糖胺基转移酶和/或β-1,3-半乳糖基转移酶的表达。使用中等或弱强度的启动子来控制1,3-N-乙酰基-葡糖胺基转移酶和/或β-1,3-半乳糖基转移酶的表达将导致LNFP-I与2’-FL的比率降低，因为这降低中间产物LNT-II和LNT的产生速率，从而允许系统中存在的乳糖产生更多的2’-FL(见图12)。

在这方面，调节编码一种或多种糖基转移酶和/或蔗糖水解酶、和/或PTS-依赖性蔗糖利用系统和/或根据本发明的一种或多种天然或异源MFS转运蛋白的核酸序列和/或基因的表达的调节元件，可以是启动子序列。

在进行本文所公开的方法时，可以使用不同或相同的启动子序列来驱动整合在宿主细胞基因组中或附加型DNA上的不同感兴趣的基因的转录。

天然的

关于本公开，术语“天然的”是指源自根据本发明的方法但在任何遗传修饰之前的原始遗传工程细胞的基因组的核酸序列。在这方面，如果核酸序列源自大肠杆菌K-12菌株，对于遗传工程细胞来说不是异源来源且不是重组核酸序列，则可以认为它是天然的。

异源调节元件

调节元件可以是内源的或异源的，和/或重组的和/或合成的核酸序列。在本文中，术语“异源调节元件”应理解为对于本文所述的原始遗传工程细胞来说不是内源性的调节元件。异源调节元件还可以是重组调节元件，其中两个或更多个非可操作连接的天然调节元件重组为异源和/或合成调节元件。可以使用本领域技术人员已知的方法将异源调节元件引入遗传工程细胞中。

启动子序列

调节基因和/或核酸序列的表达的一个或多个调节元件可以包括一个或多个启动子序列，其中启动子序列可操作地连接至感兴趣的基因的核酸序列，从这个意义上，调节感兴趣的基因的核酸序列的表达。

在一个或多个示例性实施方式中，异源调节元件是启动子序列。

一般地，启动子可以包含天然的、异源的和/或合成的核酸序列，并且可以是重组核酸序列，重组两个或更多个核酸序列或者如上所述的相同或不同来源，从而产生同源、异源或合成的核酸启动子序列，和/或同源、异源或合成的核酸调节元件。

在一个或多个示例性实施方式中，遗传工程细胞的基因和/或异源核酸序列的调节元件包括多于一个天然或异源启动子序列。

在一个或多个示例性实施方式中，遗传工程细胞的调节元件包括单一启动子序列。

在一个或多个示例性实施方式中，遗传工程细胞的基因和/或异源核酸序列的调节元件包括两个或更多个具有相同启动子序列的调节元件。

在一个或多个示例性实施方式中，遗传工程细胞的基因和/或异源核酸序列的调节元件包括两个或更多个具有不相同的启动子序列的调节元件。

调节架构，即转录因子结合位点的逐个基因分布以及结合这些位点的转录因子的识别，可以在多种不同的生长条件下使用，并且大肠杆菌基因组中有大于100个基因作为调节元件。因此，能够转录和/或调节编码本文所述的一种或多种蛋白的一种或多种异源或天然核酸序列的转录水平的任何启动子序列可以是合适的。

在一个或多个示例性实施方式中，调节元件选自：PBAD、Pxyl、PsacB、PxylA、PrpR、PnitA、PT7、Ptac、PL、PR、PnisA、Pb、Pscr、PgatY_70UTR、PglpF、PglpF_SD1、PglpF_SD10、PglpF_SD2、PglpF_SD3、PglpF_SD4、PglpF_SD5、PglpF_SD6、PglpF_SD7、PglpF_SD8、PglpF_SD9、PglpF_B28、PglpF_B29、Plac_16UTR、Plac、PmglB_70UTR和PmglB_70UTR_SD4。

WO2019123324和WO2020255054(并入本文以供参考)详细描述了衍生自PglpF、PlgpA、PlgpT、PgatY、PmglB和Plac启动子系统的多种启动子序列。

在一个或多个示例性实施方式中，调节元件是选自以下的启动子：SEQ ID NO:13(PglpF)、SEQ ID NO:12(PgatY_70UTR)、SEQ ID NO:27(Plac)、SEQ ID NO:9(PmglB_70UTR)、SEQ ID NO:11(Pscr)、或其变体。具体地，需要如WO2019123324中所述的PglpF或Plac的变体或如WO2020255054中所述的PmglB_70UTR的变体。

在一个或多个示例性实施方式中，其中异源β-1,3-N-乙酰基-葡糖胺基转移酶和/或异源β-1,3-半乳糖基转移酶的表达获自单拷贝，和/或用于异源β-1,3-N-乙酰基-葡糖胺基转移酶和/或异源β-1,3-半乳糖基转移酶表达的调节元件具有低或中等强度。中或低强度的调节元件可以选自：PglpF_SD9(SEQ ID NO:23)、PglpF_SD7(SEQ ID NO:21)、PglpF_SD6(SEQ ID NO:20)、PglpF_B28(SEQ ID NO:24)、PglpF_B29(SEQ ID NO:25)、Pscr(SEQ IDNO:11)和Plac(SEQ ID NO:27)。

在一个或多个示例性实施方式中，其中i)和/或ii)的表达获自两个或更多个拷贝和/或i)和/或ii)表达的调节元件具有高强度。具有高强度的调节元件可以选自：PglpF(SEQ ID NO:13)、PglpF_SD10(SEQ ID NO:15)、PglpF_SD8(SEQ ID NO:22)、PglpF_SD5(SEQID NO:19)、PglpF_SD4(SEQ ID NO:18)、PgatY_70UTR(SEQ ID NO:12)、PmglB_70UTR(SEQID NO:9)和PmglB_70UTR_SD4(SEQ ID NO:9)。

在一个或多个示例性实施方式中，调节元件选自：Pscr、PgatY_70UTR、PglpF、PglpF_SD1、PglpF_SD2、PglpF_SD3、PglpF_SD4、PglpF_SD5、PglpF_SD6、PglpF_SD7、PglpF_SD8、PglpF_SD9、PglpF_SD10、PglpF_B28、PglpF_B29、Plac和Plac_16UTR。在一个或多个示例性实施方式中，调节元件选自PglpF、Pscr、Plac、PglpF_B29和PglpF_B28。

在本发明的一个优选的示例性实施方式中，包括在用于调节遗传工程细胞的基因和/或异源核酸序列的表达的调节元件中的启动子序列，涵盖glpFKX操纵子启动子序列PglpF。

在一个或多个示例性实施方式中，调节元件选自：PglpF(SEQ ID NO:13)或其选自以下的变体：PglpF_SD10(SEQ ID NO:15)、PglpF_SD9(SEQ ID NO:23)、PglpF_SD8(SEQ IDNO:22)、PglpF_SD7(SEQ ID NO:21)、PglpF_SD6(SEQ ID NO:20)、PglpF_SD5(SEQ ID NO:19)、PglpF_SD4(SEQ ID NO:18)、PglpF_B28(SEQ ID NO:24)和PglpF_B29(SEQ ID NO:25)。

在一个或多个示例性实施方式中，包括在用于调节遗传工程细胞的基因和/或异源核酸序列的表达的调节元件中的启动子序列，涵盖lac操纵子启动子序列Plac。

在一个或多个示例性实施方式中，遗传工程细胞源自MDO菌株(参见“材料和方法”)并且通过在天然荚膜异多糖酸位点前的简单启动子交换、和/或在不同的基因组位点引入该基因簇的第二个拷贝[Plac(CA)::PglpF_B28(CA)]，来过表达编码荚膜异多糖酸基因簇的核酸。

在一个或多个示例性实施方式中，用于调节包含在本公开的构建体中的重组基因的表达的调节元件是mglBAC；半乳糖/甲基-半乳糖苷ABC转运蛋白周质结合蛋白启动子PmglB或其变体，例如但不限于SEQ ID NO:9的PmglB_70UTR或SEQ ID NO:10的PmglB_70UTR_SD4。另外的PmglB变体如WO2020255054中所述进行描述。

在一个或多个示例性实施方式中，用于调节包含在本公开的构建体中的重组基因的表达的调节元件是gatYZABCD；塔格糖-1,6-双P醛缩酶启动子PgatY或其变体。

Pscr

在一个或多个示例性实施方式中，异源调节元件是Pscr或其变体，例如但不限于SEQ ID NO:11。

PgatY_70UTR

在一个或多个示例性实施方式中，异源调节元件是PgatY_70UTR或其变体，例如但不限于SEQ ID NO:12。

PglpF

在一个或多个示例性实施方式中，异源调节元件是PglpF或其变体，例如但不限于SEQ ID NO:13。

PglpF_SD1

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD1或其变体，例如但不限于SEQ ID NO:14。

PglpF_SD10

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD10或其变体，例如但不限于SEQ ID NO:15。

PglpF_SD2

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD2或其变体，例如但不限于SEQ ID NO:16。

PglpF_SD3

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD3或其变体，例如但不限于SEQ ID NO:17。

PglpF_SD4

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD4或其变体，例如但不限于SEQ ID NO:18。

PglpF_SD5

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD5或其变体，例如但不限于SEQ ID NO:19。

PglpF_SD6

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD6或其变体，例如但不限于SEQ ID NO:20。

PglpF_SD7

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD7或其变体，例如但不限于SEQ ID NO:21。

PglpF_SD8

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD8或其变体，例如但不限于SEQ ID NO:22。

PglpF_SD9

在一个或多个示例性实施方式中，异源调节元件是PglpF_SD9或其变体，例如但不限于SEQ ID NO:23。

PglpF_B28

在一个或多个示例性实施方式中，异源调节元件是PglpF_B28或其变体，例如但不限于SEQ ID NO:24。

PglpF_B29

在一个或多个示例性实施方式中，异源调节元件是PglpF_B29或其变体，例如但不限于SEQ ID NO:25。

Plac_16UTR

在一个或多个示例性实施方式中，异源调节元件是Plac_16UTR或其变体，例如但不限于SEQ ID NO:26。

Plac

在一个或多个示例性实施方式中，异源调节元件是Plac或其变体，例如但不限于SEQ ID NO:27。

PmglB_70UTR

在一个或多个示例性实施方式中，异源调节元件是PmglB_70UTR或其变体，例如但不限于SEQ ID NO:9。

PmglB_70UTR_SD4

在一个或多个示例性实施方式中，异源调节元件是PmglB_70UTR_SD4或其变体，例如但不限于SEQ ID NO:10。

附加型元件

术语“附加型元件”是指染色体外核酸序列，其可以自主复制或整合至遗传工程细胞的基因组中。因此，附加型核酸序列可以是能够整合至遗传工程细胞的染色体中的质粒，即并非所有质粒都是附加型元件。

在一个或多个示例性实施方式中，附加型核酸序列可以是未整合至染色体中的质粒。在这些实施方式中，附加型元件是指携带感兴趣的表达盒的质粒DNA序列，该表达盒由启动子序列、感兴趣的基因的编码序列和终止子序列组成。

在一个或多个示例性实施方式中，附加型核酸序列可以是仅其一部分整合至染色体中的质粒。在这些实施方式中，表达盒类似于上述表达盒，但其还包含与待整合感兴趣的基因的位点上游和下游的DNA区域同源的两个DNA片段。

激活子

在一个或多个示例性实施方式中，本文公开的遗传工程细胞包含过表达的基因产物，其增强编码促进人乳寡糖(HMO)，例如但不限于LNFP-I、2’-FL、LNT II和LNT产生所需的酶的基因的表达。

在一个或多个示例性实施方式中，本公开的细胞可包含过表达的基因产物，其结合v)的调节元件或v)的调节元件上游的区域并增强i)至iii)的蛋白或iv)的荚膜异多糖酸基因簇的表达。

在一个或多个示例性实施方式中，本公开的细胞可包含过表达的基因产物，其结合v)的调节元件或v)的调节元件上游的区域并增强i)至iii)的蛋白或iv)的荚膜异多糖酸基因簇的表达，并且其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6。

CRP

在一个或多个示例性实施方式中，所述基因产物是cAMP DNA-结合转录双调节因子CRP。

CRP属于转录因子CRP-FNR超家族。CRP调节几种大肠杆菌基因的表达，其中许多基因参与次级碳源的分解代谢。由环磷酸腺苷(cAMP)激活后，CRP直接与特定的启动子序列结合，这种结合通过直接相互作用招募RNA聚合酶，进而激活启动子序列后的核酸序列的转录，从而导致感兴趣的基因的表达。因此，CRP的过表达可导致感兴趣的基因/核酸序列的表达增强。除其他功能外，CRP对PglpF启动子发挥其功能，与阻遏物GlpR相反，它激活PglpF家族的启动子序列。以此方式，CRP在本公开的遗传工程细胞中的过表达促进受PglpF家族启动子调节的基因的表达。

因此，在一个或多个示例性实施方式中，crp基因是过表达的。crp基因可以编码与GenBank登录ID NP_417816的氨基酸序列具有100％同一性的蛋白或其与GenBank登录IDNP_417816具有至少70％同一性，例如80％、例如90％、例如95％、例如98％同一性的功能同源物。

如本公开中所建议的，在2’-FL生产菌株中的GlpR和/或CRP的遗传工程有利于这些菌株的2’-FL的总体产生。

阻遏物

如实施例5所示，将编码DNA-结合转录阻遏物GlpR的glpR基因的缺失用作遗传工具以获得包含多达四种HMO的HMO混合物的特定目标组成，四种HMO包括LNFP-I、2’-FL、LNTII和LNT(按丰度排序)。

在一个或多个示例性实施方式中，根据本公开的方法包括细胞，其进一步包括结合v)的调节元件或v)的调节元件上游的区域并抑制i)至iii)的蛋白或iv)的荚膜异多糖酸基因簇的表达的非功能性(或缺乏)基因产物。

在一个或多个示例性实施方式中，根据本公开的方法包括细胞，其中结合v)的调节元件或v)的调节元件上游的区域并抑制i)、ii)或iii)的任一蛋白或iv)的荚膜异多糖酸基因簇的表达的基因产物已缺失或变成非功能性。

在一个或多个示例性优选实施方式中，根据本公开的方法包括细胞，其进一步包括结合v)的调节元件或v)的调节元件上游的区域并抑制i)至iii)的蛋白或iv)的荚膜异多糖酸基因簇的表达的非功能性(或缺乏)基因产物，并且其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6。

在一个或多个示例性实施方式中，所述基因产物是DNA-结合转录阻遏物GlpR。

GlpR

GlpR属于DeoR转录调节因子家族，并充当由不同的操纵子组成的甘油-3-磷酸调节子(regulon)的阻遏物。该调节因子是glpEGR操纵子的一部分，但它也可以组成型表达为独立(glpR)转录单元。此外，当大肠杆菌在诱导物、甘油或甘油-3-磷酸(G3P)存在且缺乏葡萄糖的情况下生长时，受调节的操纵子受到诱导。在没有诱导物的情况下，该阻遏物与由20个核酸长的DNA靶位点组成的反向重复序列串联结合。

与glpR基因相关的术语“非功能性或缺乏”是指通过从细菌基因组中完全或部分缺失相应的核酸序列(例如，SEQ ID NO:48或其编码能够下调glpF衍生的启动子的glpR的变体)而使glpR基因失活。还可以通过在编码序列中引入突变来使glpR基因失去功能，突变引入终止密码子、移码或影响DNA与调节元件结合的氨基酸突变。glpR基因编码DNA-结合转录阻遏物GlpR。以这种方式，由于阻遏物基因的缺失，PglpF家族的启动子序列在遗传工程细胞中上调，反之将下调PglpF启动子。

在一个或多个示例性实施方式中，glpR基因缺失。

糖流出转运蛋白

在过去的十年中，已经鉴定了几种新的、有效的糖流出转运蛋白，每种蛋白对不同的重组产生的HMO具有特异性，并且表达所述蛋白的重组细胞的开发有利于大规模工业HMO制造。糖转运涉及糖的转运，例如但不限于寡糖。

例如，通过引入几种选定的糖流出转运蛋白之一以及增加荚膜异多糖酸基因簇的表达水平来工程化futC-表达细胞，被证明是两种有效的遗传修饰，可以使最终HMO共混物中第一和第二最丰富的HMO的丰度顺序，从LNFP-I>2’-FL显著反转为2’-FL>LNFP-I。

因此，本文所述的遗传工程细胞还可以包含编码糖流出转运蛋白的重组核酸。糖流出转运蛋白可以例如在本文所述的方法中增强HMO的水平。

公开了一种/或多种HMO从本文所述的遗传工程细胞的细胞质或周质至生产培养基和/或从生产培养基至细胞质或周质的流入和/或流出转运。

在本文公开的遗传工程细胞中表达的多肽，能够将一种或多种HMO从遗传工程细胞的细胞质或周质转运至生产培养基和/或从生产培养基转运至遗传工程细胞的细胞质或周质，是能够糖转运的多肽。

因此，在本上下文中，糖转运可以指糖(例如但不限于HMO)的流出和/或流入转运。

因此，在一个或多个示例性实施方式中，根据本文描述的方法的遗传工程细胞还包含充当糖流出转运蛋白的基因产物。充当糖流出转运蛋白的基因产物可以由遗传工程细胞中表达的重组核酸序列编码。编码糖流出转运蛋白的重组核酸序列可以整合至遗传工程细胞的基因组中。它可以是质粒携带的，或者它可以是附加型表达元件的一部分。

MFS转运蛋白

示例性的糖流出转运蛋白是主要促进子超家族蛋白的一个亚种。MFS转运蛋白促进分子(例如但不限于糖，如寡糖)穿过细胞膜的转运。

术语“主要促进子超家族(MFS)”是指次级主动转运蛋白类的一个大且极其多样化的家族，其负责转运一系列不同的底物，包括糖、药物、疏水性分子、肽、有机离子等。

术语“MFS转运蛋白”在本上下文中指促进寡糖、优选HMO穿过细胞膜的转运，优选由本文所述的遗传工程细胞合成的HMO/寡糖从细胞质到细胞培养基的转运。另外或替代地，MFS转运蛋白还可以促进不被认为是HMO或寡糖的分子例如乳糖、葡萄糖、细胞代谢物和/或毒素的流出。

在实施例4中，证明了在futC-表达细胞的遗传背景中引入编码糖流出转运蛋白的选定异源基因如何能够显著反转最终HMO共混物中第一和第二最丰富的HMO的丰度顺序，从LNFP-I>2’-FL反转为2’-FL>LNFP-I。如表4所示，这些菌株之间的唯一区别是整合在宿主选定的基因组位点上的转运蛋白基因。据信此类异源基因的过表达会增强2’-FL和/或LNFP-I从细胞内部输出至细胞外环境，从而以多种方式影响HMO的产生。

在一个或多个示例性实施方式中，遗传工程细胞还包含编码一种或多种糖转运蛋白的重组核酸，如表5中所示。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白选自Bad、Nec、YberC、Fred、Vag和Marc。

在一个或多个本发明优选的示例性实施方式中，糖流出转运蛋白是Nec或YberC。

Bad

本文中可互换地标识为“Bad蛋白”或“Bad转运蛋白”或“Bad”的MFS转运蛋白的氨基酸序列为SEQ ID NO:28；本文中识别为SEQ ID NO:28的氨基酸序列是与GenBank登录IDWP_017489914.1的氨基酸序列具有100％同一性的氨基酸序列。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白是Bad。在另一个实施方式中，糖流出转运蛋白的氨基酸序列为SEQ ID NO:28或者是氨基酸序列与SEQID NO:28的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

Nec

氨基酸序列为SEQ ID NO:29的MFS转运蛋白在本文中可互换地标识为“Nec蛋白”或“Nec转运蛋白”或“Nec”；编码Nec蛋白的核酸序列在本文中标识为“Nec编码核酸/DNA”或“nec基因”或“nec”；本文中标识为SEQ ID NO:29的氨基酸序列是与GenBank登录ID WP_092672081.1的氨基酸序列具有100％同一性的氨基酸序列。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白是Nec。在另一个实施方式中，糖流出转运蛋白的氨基酸序列为SEQ ID NO:29，或者是氨基酸序列与SEQID NO:29的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

YberC

氨基酸序列为SEQ ID NO:30的MFS转运蛋白在本文中可互换地标识为“YberC蛋白”或“YberC转运蛋白”或“YberC”；编码YberC蛋白的核酸序列在本文中标识为“YberC编码核酸/DNA”或“yberC基因”或“yberC”；本文中标识为SEQ ID NO:30的氨基酸序列是与GenBank登录ID EEQ08298.1的氨基酸序列具有100％同一性的氨基酸序列。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白是YberC。在另一个实施方式中，糖流出转运蛋白的氨基酸序列为SEQ ID NO:30，或者是氨基酸序列与SEQ ID NO:30的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

Fred

氨基酸序列为SEQ ID NO:31的MFS转运蛋白在本文中可互换地标识为“Fred蛋白”或“Fred转运蛋白”或“Fred”；编码Fred蛋白的核酸序列在本文中标识为“Fred编码核酸/DNA”或“fred基因”或“fred”；本文中标识为SEQ ID NO:31的氨基酸序列是与GenBank登录ID WP_087817556.1的氨基酸序列具有100％同一性的氨基酸序列。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白是Fred。在另一个实施方式中，糖流出转运蛋白的氨基酸序列为SEQ ID NO:31，或者是氨基酸序列与SEQ ID NO:31的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

Vag

氨基酸序列为SEQ ID NO:32的MFS转运蛋白在本文中可互换地标识为“Vag蛋白”或“Vag转运蛋白”或“Vag”；编码Vag蛋白的核酸序列在本文中标识为“Vag编码核酸/DNA”或“vag基因”或“vag”；本文中标识为SEQ ID NO:32的氨基酸序列是与GenBank登录ID WP_048785139.1的氨基酸序列具有100％同一性的氨基酸序列。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白是Vag。在另一个实施方式中，糖流出转运蛋白的氨基酸序列为SEQ ID NO:32，或者是氨基酸序列与SEQID NO:32的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

Marc

氨基酸序列为SEQ ID NO:33的MFS转运蛋白在本文中可互换地标识为“Marc蛋白”或“Marc转运蛋白”或“Marc”；编码marc蛋白的核酸序列在本文中标识为“Marc编码核酸/DNA”或“marc基因”或“Marc”；本文中标识为SEQ ID NO:33的氨基酸序列是与GenBank登录ID WP_060448169.1的氨基酸序列具有100％同一性的氨基酸序列。

在一个或多个示例性实施方式中，糖流出转运蛋白和/或MFS转运蛋白是Marc。在另一个实施方式中，糖流出转运蛋白的氨基酸序列为SEQ ID NO:33，或者是氨基酸序列与SEQ ID NO:33的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

在一个或多个示例性实施方式中，选自Bad、Nec、YberC、Fred、Vag和Marc的糖流出转运蛋白和/或MFS转运蛋白可以是功能同源物。

在一个或多个示例性实施方式中，糖流出转运蛋白功能同源物的氨基酸序列与SEQ ID NO:28、29、30、31、32或33中的任一个具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性。

培养

在本文中，培养是指细胞在受控条件下生长的过程，通常在其自然环境之外，因此是用于培养、繁殖和生长大量细胞的方法。

细胞培养基

在本上下文中，生长培养基或培养基是设计用于支持微生物、细胞或小植物生长的液体或凝胶。培养基包含适当的能量源并且可以包含调节细胞周期的化合物。培养基可以是半限定的，即含有复杂的培养基化合物(例如酵母提取物、大豆蛋白胨、酪蛋白氨基酸等)，或者它可以是化学限定的，不含任何复杂的化合物。术语生长培养物、培养基和生产培养基可互换使用。实验实施例中提供了示例性的合适培养物。

在一个或多个示例性实施方式中，培养基是基本培养基。

在一个或多个示例性实施方式中，培养基补充有选自甘油、蔗糖、葡萄糖和果糖的一种或多种能量和碳源。

在一个或多个示例性实施方式中，培养基补充有选自甘油、蔗糖和葡萄糖的一种或多种能量和碳源。

在一个或多个示例性实施方式中，培养基补充有甘油、蔗糖和/或葡萄糖。

在一个或多个示例性实施方式中，培养基补充有甘油和/或葡萄糖。

在一个或多个示例性实施方式中，培养基补充有蔗糖和/或葡萄糖。

在一个或多个示例性实施方式中，培养基补充有甘油和/或蔗糖。

在一个或多个示例性实施方式中，培养基仅补充有蔗糖。

在一个或多个示例性实施方式中，培养基含有蔗糖作为唯一的碳源和能量源。

发酵温度

实施例6涉及公开了如何有利地使用发酵温度来调节由菌株MP21产生的HMO共混物的组成，并且公开了特定菌株，即MP21，显示该共混物中两种最丰富的HMO的摩尔比(LNFP-I:2’-FL)在例如1.5:1至2:1之间变化，而第三丰富的HMO(即LNT)在相同温度区间内可在总HMO混合物按摩尔计的约5％至1％之间变化。

在一个或多个示例性实施方式中，上述示例性方法中的步骤(b)中的遗传工程细胞培养期间的发酵温度可以固定为20℃、21℃、22℃、23℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃或40℃。

本文所述的发酵工艺还包括调节发酵液中的发酵温度和/或乳糖水平，以高度可预测的方式实现源自菌株工程的给定菌株的HMO共混物分布。因此，发酵温度在例如25℃与34℃之间、例如在25℃与32℃之间的变化允许调节LNFP-I/2’-FL/LNT共混物的组成。

因此，在一个或多个示例性实施方式中，调节上述示例性方法中步骤(b)中的遗传工程细胞培养期间的发酵温度。遗传工程细胞培养期间的温度调节可以在20℃和40℃之间，例如在20-39℃、20-38℃、20-37℃、20-36℃、20℃-35℃、20-34℃、20-33℃、20-32℃、20-31℃、20-30℃、21-40℃、22-40℃、23-40℃、24-40℃、25-40℃、26-40℃、27-40℃、28-40℃、29-40℃、30-40℃、21-39℃、22-38℃、23-37℃、24-36℃、25-35℃、25-34℃、25-33℃、25-32℃、25-31℃、25-30℃、26-30℃、27-30℃、28-30℃和29-30℃。

如实施例6所示，在葡萄糖进料开始后15分钟，发酵温度设定点从33℃降低至所研究的相应设定点，如表8和9所示。这些温度下降以大于3小时的线性斜坡进行。发酵结束时间约为95-98小时，此时HMO共混物和乳糖的目标组成已达到。图6描绘了MP21菌株在不同生产温度下发酵产生的三种主要HMO(即LNFP-I、2’-FL和LNT)以及受体乳糖的发展。在所有情况下，LNFP-I/HMOL比率均增加至约60％，2’-FL和LNT显示出高度依赖温度的行为，其中HMOL是HMO和乳糖的总和。因此，在发酵结束时，2’-FL/HMOL比率范围为15％至35％，而LNT/HMOL比率范围为1％至4％。此外，虽然2’-FL/HMOL在研究范围(25-32℃)内随温度成比例增加，但LNT/HMOL随温度成反比，即生产温度越低，LNT/HMOL比率越高。

在2’-FL和2’-FL/DFL产品的工艺开发研究中，我们观察到发酵温度和乳糖水平(以及碳源类型)对2’-FL生产菌株中DFL形成的影响。

在这种情况下，低温和低乳糖水平有利于较低的DFL形成，同时在这里更仔细地研究LNFP-I生产菌株的这些参数。一方面，由于LNFP-I生物合成所需的三种不同的糖基转移酶和糖核苷酸通路，与2’-FL菌株中仅一种糖基转移酶和糖核苷酸通路相比，任何LNFP-I生产菌株中的情况要复杂得多。然而，观察到了一些观察到的效果，这可能因为LNFP-I菌株和2’-FL菌株共享相同的α-1,2-岩藻糖基转移酶。

因此，在一个或多个示例性实施方式中，2’-FL/HMOL的比率显示随温度成比例增加。

因此，在一个或多个示例性实施方式中，LNT/HMOL的比率显示随温度成比例降低。

乳糖水平

如实施例7所示，发酵期间乳糖的水平显示对LNFP-I生产菌株的一个特定家族的4-HMO共混物的组成有非常大的影响。因此，在一个或多个示例性实施方式中，在上述示例性方法的步骤(b)中的遗传工程细胞培养期间，乳糖水平受到调节。

低水平的乳糖是指在发酵期间乳糖低于20g/L，优选低于15g/L，例如0.5至15g/L，优选低于10g/L，例如1至10g/L。

在发酵的前40小时内，高水平的乳糖在30-80g/L之间，在此之后，乳糖将被耗尽，以降低发酵结束时的乳糖水平，从而减少下游纯化的需要，如果需要的话，提供不含乳糖的产物。

如图7所示，两种发酵工艺在培养基组成、葡萄糖进料曲线和发酵工艺参数(例如温度、pH和溶解氧)方面均相同。然而，只有通过将乳糖水平从低(0.5-20g/L)变化到高(30-80g/L)，才能使第二和第三丰富的HMO的丰度顺序，从2’-FL>>LNT显著反转为LNT>>2’-FL。

高乳糖水平的HMO产物分布为LNFP-I>2’-FL>LNT>LNT-II

因此，在一个或多个示例性实施方式中，在遗传工程细胞培养期间将乳糖水平从低调节至高。

在一个或多个示例性实施方式中，高水平的乳糖水平涉及30-80g/L，例如但不限于30-40g/L、30-50g/L、30-60g/L、30-70g/L、40-50g/L、40-60g/L、40-70g/L、40-80g/L、50-60g/L、50-70g/L、50-80g/L、60-70g/L、60-80g/L、35-50g/L、35-60g/L、35-70g/L、35-75g/L、35-80g/L、45-55g/L、45-75g/L、55-65g/L、55-75g/L、55-80g/L、65-75g/L或65-80g/L。

因此，在一个或多个示例性实施方式中，低水平的乳糖水平涉及0-15g/L，例如但不限于0-5g/L、0-7.5g/L、0-10g/L、0-12.5g/L、2.5-5g/L、2.5-7.5g/L、2.5-10g/L、2.5-12.5g/L、2.5-15g/L、5-7.5g/L、5-10g/L、5-12.5g/L、5-15g/L、7.5-10g/L、7.5-12.5g/L、7.5-15g/L、10-12.5g/L、10-15g/L，或12.5-15g/L。

除了温度和乳糖浓度之外，没有发现其他发酵参数对LNFP-I生产菌株的HMO共混物组成有如此大的影响。

对于通过上述菌株工程策略衍生的许多LNFP-I生产菌株，令人惊讶地发现两个主要发酵参数以可预测和独特的方式显著影响所得HMO共混物的组成，使我们能够为共混物中所含的各种HMO提供具有狭窄范围内预先确定组成的分布。

因此，发酵温度在25℃至32℃之间的变化使我们能够调节LNFP-I/2’-FL/LNT共混物的组成。一项针对特定菌株(即MP21)的研究(参见实施例6)表明，对于LNFP-I:2’-FL，该共混物中两种最丰富的HMO的摩尔比在1.5:1至2:1之间变化，而第三丰富的HMO，即LNT，在相同的温度区间内，其摩尔含量可在总HMO混合物的约5％至1％之间变化。

蔗糖发酵

在一个或多个示例性实施方式中，遗传工程细胞可以包含PTS-依赖性蔗糖利用转运系统和/或编码能够将蔗糖水解成果糖和葡萄糖的异源多肽的重组核酸序列。

此类细胞能够利用蔗糖作为碳和能量源。例如，根据本文公开的方法的步骤b)的培养步骤包括两步蔗糖进料，在第二进料阶段中，向培养物中连续添加少于第一进料阶段连续添加量的蔗糖，以在高细胞密度培养中减缓细胞生长并增加细胞中产生的产物含量。

在第二进料阶段期间连续添加至细胞培养物的蔗糖的进料速率可以比在第一进料阶段期间连续添加的蔗糖的进料速率低约30-40％。

在两个进料阶段期间，可以连续添加乳糖，优选与蔗糖一起添加在同一进料溶液中，或依次添加。

任选地，当在第二阶段之后细胞外级分中剩余大量未使用的受体，培养还包括第三进料阶段。

然后继续添加蔗糖而不添加受体，优选以与第二进料阶段设定的大致相同的进料速率直至受体耗尽。

在一个或多个示例性实施方式中，遗传工程细胞可以包含编码一种或多种异源多肽的一种或多种异源核酸序列，该异源多肽使得能够利用蔗糖作为所述遗传工程细胞的唯一碳源和能量源。

在一个或多个示例性实施方式中，遗传工程细胞包含PTS-依赖性蔗糖利用系统，还包含scrYA和scrBR操纵子。

在一个或多个示例性实施方式中，由scrYA操纵子编码的多肽是氨基酸序列为根据SEQ ID NO:34或SEQ ID NO:35[分别为scrY和scrA]的多肽、或SEQ ID NO:34或SEQ IDNO:35[分别为scrY和scrA]中任一个的功能同源物，其氨基酸序列与SEQ ID NO:34或SEQID NO:35[分别为scrY和scrA]中的任一个具有至少80％同一性。

在一个或多个示例性实施方式中，由scrBR操纵子编码的多肽是氨基酸序列为根据SEQ ID NO:36或SEQ ID NO:37[分别为scrB和scrR]的多肽、或SEQ ID NO:36或SEQ IDNO:37[分别为scrB和scrR]中任一个的功能同源物，其氨基酸序列与SEQ ID NO:36或SEQID NO:37[分别为scrB和scrR]中的任一个具有至少80％同一性。关于PTS-依赖性蔗糖利用系统的进一步细节公开于WO2015/197082(并入本文以供参考)。

在一个或多个示例性实施方式中，能够将蔗糖水解成果糖和葡萄糖的多肽选自SEQ ID NO:38或SEQ ID NO:39[分别为SacC_Agal和Bff]、或SEQ ID NO:38或SEQ ID NO:39[分别为SacC_Agal和Bff]中任一个的功能同源物，其氨基酸序列与SEQ ID NO:38或SEQ IDNO:39[分别为SacC_Agal和Bff]中的任一个具有至少80％同一性。

收获

本上下文中的术语“收获”涉及在发酵终止后收集产生的HMO。在一个或多个示例性实施方式中，其可以包括收集包含在生物质(即宿主细胞)和培养基两者中的HMO，即在发酵液与生物质分离之前/不分离。在其他实施方式中，产生的HMO可以与生物质和发酵液分开收集，即在生物质与培养基(即发酵液)分离后/之后。

细胞与培养基的分离可以用本领域技术人员熟知的任何方法进行，例如任何合适类型的离心或过滤。细胞与培养基的分离可以在收获发酵液后立即进行，或者在适当条件下储存发酵液后的稍后阶段进行。从剩余生物质(或总发酵)中回收产生的HMO包括从生物质(即生产细胞)中提取HMO。

从发酵中回收后，HMO可用于进一步加工和纯化。

遗传工程细胞

本文所述的遗传工程细胞含有如上所述和实施例中所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶、β-1,3-半乳糖基转移酶和α-1,2-岩藻糖基转移酶。在一些实施方式中，异源β-1,3-N-乙酰基-葡糖胺基转移酶、β-1,3-半乳糖基转移酶和α-1,2-岩藻糖基转移酶中的一种或多种过表达。

本公开描述了用于产生寡糖的方法中的遗传工程细胞。所述遗传工程细胞已被遗传工程修饰以表达：

i.如SEQ ID NO:1或SEQ ID NO:2或SEQ ID NO:3所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物；和

ii.如SEQ ID NO:4或SEQ ID NO:5所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；和

iii.如SEQ ID NO:6或SEQ ID NO:7或SEQ ID NO:49或SEQ ID NO:8中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6、7、49或8中任一个具有至少80％同一性的功能同源物，和

iv.荚膜异多糖酸基因簇，和

v.用于控制i)、ii)和iii)的蛋白或iv)中荚膜异多糖酸的表达的天然或异源调节元件。

本发明的一个方面涉及一种遗传工程细胞，其包含编码以下的重组核酸序列：

iii.如SEQ ID NO:6或SEQ ID NO:7或SEQ ID NO:49中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6、7或49中任一个具有至少80％同一性的功能同源物，和

iv.荚膜异多糖酸基因簇，和

v.用于控制i)-iv)中任一项的表达的天然或异源调节元件或附加型元件。

优选地，遗传工程细胞还包含编码能够将2’FL和/或LNFP-I输出细胞的糖流出转运蛋白的重组核酸序列。

编码糖流出转运蛋白的重组核酸序列可以选自：

a.一种核酸序列，其编码SEQ ID NO:28或其氨基酸序列与SEQ ID NO:28具有至少70％同一性的功能同源物，

b.一种核酸序列，其编码SEQ ID NO:29或其氨基酸序列与SEQ ID NO:29具有至少70％同一性的功能同源物，

c.一种核酸序列，其编码SEQ ID NO:30或其氨基酸序列与SEQ ID NO:30具有至少70％同一性的功能同源物，

d.一种核酸序列，其编码SEQ ID NO:31或其氨基酸序列与SEQ ID NO:31具有至少70％同一性的功能同源物，

e.一种核酸序列，其编码SEQ ID NO:32或其氨基酸序列与SEQ ID NO:32具有至少70％同一性的功能同源物，和

f.一种核酸序列，其编码SEQ ID NO:33或其氨基酸序列与SEQ ID NO:33具有至少70％同一性的功能同源物。

优选地，遗传工程细胞通过增加拷贝数和/或通过选择合适的调节元件来过表达荚膜多糖酸基因簇。

“遗传修饰”或“遗传工程”细胞在本文中可互换使用，并且应理解为其遗传物质已通过使用遗传工程技术的人为干预而改变的细胞，此类技术例如但不限于转化或转染，例如，用异源多核苷酸序列，Crisper/Cas编辑或随机突变。在本上下文中，术语“遗传修饰细胞”或“宿主细胞”可互换使用。

在本发明中，“遗传修饰细胞”优选是已被外源多核苷酸序列转化或转染的宿主细胞。

在一个或多个示例性实施方式中，细胞能够产生一种或多种选自2’-FL、LNT-II、LNT、LNFP-I和DFL的HMO。

在一个或多个示例性实施方式中，遗传工程细胞能够产生一种或多种选自2’-FL、LNT-II、LNT和LNFP-I的HMO。

在一个或多个示例性实施方式中，由遗传工程细胞产生的主要HMO是LNFP-I和/或2’-FL。在一些实施方式中，产生的HMO总量的LNFP-I和/或2’-FL分数为至少70％，例如至少80％、例如至少85％、例如至少95％、例如至少98％。

在一个或多个示例性实施方式中，HMO共混物中2’-FL占细胞所产生的总HMO的摩尔百分比为25％至70％，且LNFP-I的摩尔百分比为30％至60％。

遗传工程细胞可以是可用于HMO生产的任何细胞，包括哺乳动物细胞系。优选地，宿主细胞是真核或原核来源的单细胞微生物。

可充当宿主细胞的合适的微生物细胞包括酵母细胞、细菌细胞、古细菌细胞、藻类细胞和真菌细胞。

遗传工程细胞(宿主细胞)可以是例如细菌或酵母细胞。在一个优选的实施方式中，遗传工程细胞优选是原核细胞，例如细菌细胞。

宿主细胞

对于细菌宿主细胞，原则上没有限制；它们可以是真细菌(革兰氏阳性或革兰氏阴性)或古细菌，只要它们允许进行基因操作以插入感兴趣的基因并且可以在制造规模上培养。优选地，宿主细胞具有允许培养至高细胞密度的特性。

适于重组工业产生根据本发明的HMO的细菌宿主细胞的非限制性实例可以是草生欧文氏菌(Erwinia herbicola)(成团泛菌(Pantoea agglomerans))、弗氏柠檬酸杆菌(Citrobacter freundii)、柠檬泛菌(Pantoea citrea)、胡萝卜软腐病果胶杆菌(Pectobacterium carotovorum)或野油菜黄单胞菌(Xanthomonas campestris)。也可以使用芽孢杆菌(Bacillus)属的细菌，包括枯草芽孢杆菌(Bacillus subtilis)、地衣芽孢杆菌(Bacillus licheniformis)、凝结芽孢杆菌(Bacillus coagulans)、嗜热芽孢杆菌(Bacillus thermophilus)、侧孢芽孢杆菌(Bacillus laterosporus)、巨大芽孢杆菌(Bacillus megaterium)、蕈状芽孢杆菌(Bacillus mycoides)、短小芽孢杆菌(Bacilluspumilus)、迟缓芽孢杆菌(Bacillus lentus)、蜡样芽孢杆菌(Bacillus cereus)和环状芽孢杆菌(Bacillus circulans)。类似地，可以使用本发明的方法工程化乳杆菌(Lactobacillus)属和乳球菌(Lactococcus)属的细菌，包括但不限于嗜酸乳杆菌(Lactobacillus acidophilus)、唾液酸基乳杆菌(Lactobacillus salivarius)、植物乳杆菌(Lactobacillus plantarum)、瑞士乳杆菌(Lactobacillus helveticus)、德氏乳杆菌(Lactobacillus delbrueckii)、鼠李糖乳杆菌(Lactobacillus rhamnosus)、保加利亚乳杆菌(Lactobacillus bulgaricus)、卷曲乳杆菌(Lactobacillus crispatus)、加氏乳杆菌(Lactobacillus gasseri)、干酪乳杆菌(Lactobacillus casei)、罗伊氏乳杆菌(Lactobacillus reuteri)、詹氏乳杆菌(Lactobacillus jensenii)和乳酸乳球菌(Lactococcus lactis)。嗜热链球菌(Streptococcus thermophiles)和费氏丙酸杆菌(Proprionibacterium freudenreichii)也是本文所述发明的合适细菌种类。作为本发明的一部分，还包括如本文所述工程化的菌株，其来自肠球菌(Enterococcus)属(例如，屎肠球菌(Enterococcus faecium)和嗜热肠球菌(Enterococcus thermophiles))、双歧杆菌(Bifidobacterium)属(例如，长双歧杆菌(Bifidobacterium longum)、婴儿双歧杆菌(Bifidobacteriuminfantis)和两岐双岐杆菌(Bifidobacterium bifidum))、芽孢乳杆菌(Sporolactobacillus spp.)、小单孢菌(Micromomospora spp.)、微球菌(Micrococcusspp.)、红球菌(Rhodococcus spp.)和假单胞菌(Pseudomonas)属(例如荧光假单胞菌(Pseudomonas fluorescens)和绿脓假单胞菌(Pseudomonas aeruginosa))

适于重组工业产生根据本发明的HMO的真菌宿主细胞的非限制性实例可以是酵母细胞，例如法夫驹形氏酵母(Komagataella phaffii)、乳酸克鲁维酵母(Kluyveromyceslactis)、解脂耶氏酵母(Yarrowia lipolytica)、巴斯德毕赤酵母(Pichia pastoris)和酿酒酵母(Saccharomyces cerevisiae)或丝状真菌，例如曲霉属(Aspargillus sp)、镰刀菌属(Fusarium sp)或木霉属(Thricoderma sp)，示例性物种为黑曲霉(A.niger)、构巢曲霉(A.nidulans)、米曲霉(A.oryzae)、茄病镰刀菌(F.solani)、禾谷镰刀菌(F.graminearum)和瑞氏木霉(T.reesei)。

在一个或多个示例性实施方式中，遗传工程细胞是酿酒酵母或巴斯德毕赤酵母。

在一个或多个示例性实施方式中，遗传工程细胞是巴斯德毕赤酵母。

在一个或多个示例性实施方式中，遗传工程细胞是酿酒酵母。

在一个或多个示例性实施方式中，遗传工程细胞选自大肠杆菌、谷氨酸棒杆菌(C.glutamicum)、乳酸乳球菌、枯草芽孢杆菌、变铅青链霉菌(S.lividans)、巴斯德毕赤酵母和酿酒酵母。

在一个或多个示例性实施方式中，遗传工程细胞选自枯草芽孢杆菌、酿酒酵母和大肠杆菌。

在一个或多个示例性实施方式中，遗传工程细胞是枯草芽孢杆菌。

在一个或多个示例性实施方式中，遗传工程细胞是大肠杆菌。

在一个或多个示例性实施方式中，本发明涉及一种遗传工程细胞，其中该细胞源自大肠杆菌K-12或DE3菌株。

核酸构建体

本公开描述了核酸构建体的提供，该核酸构建体包含编码选自以下的一种或多种蛋白的重组核酸序列：

iii.如SEQ ID NO:6或SEQ ID NO:7或SEQ ID NO:8中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6、7或8中任一个具有至少80％同一性的功能同源物，和

iv.荚膜异多糖酸基因簇，且

所述核酸构建体还包含至少一种用于控制核酸构建体中存在的基因(即i)-iv)中的一种或多种)的表达的天然或异源调节元件。

在本公开的方面，核酸构建体包含编码以下的重组核酸序列：

iii.如SEQ ID NO:6、SEQ ID NO:7或SEQ ID NO:49中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6、7或49中任一个具有至少80％同一性的功能同源物，和

iv.荚膜异多糖酸基因簇，和

v.用于控制i)-iv)任一项中的表达的天然或异源调节元件

核酸构建体可包含至少一种调节元件，其促进荚膜异多糖酸基因簇从其天然基因组位点的功能性表达。具体地，荚膜异多糖酸基因簇可通过增加拷贝数和/或通过选择合适的调节元件来过表达。

在一个实施方式中，调节元件是源自lac操纵子或glp操纵子的启动子序列的重组启动子序列，并且i)至iv)的编码序列中的一个或多个与启动子序列可操作地连接。

本发明的一个实施方式是一种核酸构建体，其包含编码选自以下的一种或多种蛋白的重组核酸序列：

i.如SEQ ID NO:1所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1具有至少80％同一性的功能同源物；和

ii.如SEQ ID NO:4所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4具有至少80％同一性的功能同源物；和

iii.如SEQ ID NO:8中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:8具有至少80％同一性的功能同源物，

iv.荚膜异多糖酸基因簇，且其中

核酸构建体还包含用于控制核酸构建体中存在的编码i)-iv)中的一项或多项的基因的表达的天然或异源调节元件或附加型元件。

核酸构建体可以是重组核酸序列。可互换使用的术语“重组核酸序列”、“编码......的重组基因/核酸/DNA”或“编码核酸序列”是指人工核酸序列(即，使用用于制备核酸序列的标准实验室方法在体外产生的)，其包括一组连续的、非重叠的三联体(密码子)，当在适当的控制序列(即启动子序列)的控制下时，这些三联体被转录成mRNA并翻译成蛋白。

编码序列的边界通常由恰好位于mRNA的5’端开放阅读框上游的核糖体结合位点、转录起始密码子(AUG、GUG或UUG)和翻译终止密码子(UAA、UGA或UAG)决定。编码序列可包括但不限于基因组DNA、cDNA、合成和重组的核酸序列。

术语“核酸”包括RNA、DNA和cDNA分子。应当理解，由于遗传密码的简并性，可以产生编码给定蛋白的大量核酸序列。

重组核酸序列

重组核酸序列可以是编码DNA序列例如基因，或非编码DNA序列例如调节DNA，例如启动子序列。

因此，在一个示例性实施方式中，本发明涉及一种核酸构建体，其包含编码核酸序列，即感兴趣的基因的重组DNA序列，例如岩藻糖基转移酶基因，和非编码调节DNA序列，例如启动子DNA序列，例如衍生自lac操纵子或glp操纵子的启动子序列的重组启动子序列，或衍生自另一基因组启动子DNA序列的启动子序列，或合成的启动子序列，其中编码序列和启动子序列可操作地连接。

术语“可操作地连接”是指两个或更多个核酸(例如，DNA)片段之间的功能关系。可操作地连接是指转录调节序列与转录序列的功能关系。例如，如果启动子序列刺激或调节编码序列在适当的宿主细胞或其他表达系统中的转录，则该启动子序列与编码序列可操作地连接。

一般地，可操作地连接至转录序列的启动子序列与转录序列物理上连续，即，它们是顺式作用的。

在一个示例性实施方式中，本发明的核酸构建体可以是载体DNA的一部分，在另一个实施方式中，该构建体是整合至宿主细胞基因组中的表达盒/盒。

因此，术语“核酸构建体”是指人工构建的核酸片段，特别是DNA片段，其旨在被“移植”至靶细胞，例如细菌细胞中，以修饰基因组的基因的表达，或表达可包含在构建体中的基因/编码DNA序列。

包含在构建体(表达盒)中的感兴趣的核酸构建体整合至细菌基因组中可以通过常规方法实现，例如，例如通过使用含有与染色体上特定位点同源的侧翼序列的线性盒，如针对attTn7位点所述(Waddell C.S.和Craig N.L.,Genes Dev.(1988)Feb；2(2):137-49.)；核酸序列的基因组整合方法，其中重组由噬菌体λ的Red重组酶功能或Rac原噬菌体的RecE/RecT重组酶功能介导(Murphy,J Bacteriol.(1998)；180(8):2063-7；Zhang等人,Nature Genetics(1998)20:123-128；Muyrers等人,EMBO Rep.(2000)1(3):239-243)；基于Red/ET重组的方法(Wenzel等人,Chem Biol.(2005),12(3):349-56.；Vetcher等人,ApplEnviron Microbiol.(2005)；71(4):1829-35)；或可以选择阳性克隆，即携带表达盒的克隆，可以例如通过标志物基因、或基因功能的丧失或获得。

遗传工程的用途

本公开还涉及本文所述的遗传工程细胞或核酸构建体的任何商业用途。

因此，在一个或多个示例性实施方式中，根据本发明的遗传工程细胞或核酸构建体用于制造一种或多种HMO。一种或多种HMO可以选自2’-FL、LNT-II、LNT、LNFP-I和DFL。在本发明优选的实施方式中，一种或多种HMO选自2’-FL、LNT-II、LNT和LNFP-I。

在一个或多个示例性实施方式中，遗传工程细胞和/或核酸构建体用于制造多于一种HMO，其中一种或多种HMO选自2’-FL、LNT和LNFP-I。

在另一个示例性实施方式中，根据本发明的遗传工程细胞和/或核酸构建体用于制造多于一种的HMO，其中HMO是2’-FL和LNFP-I。

在另一个示例性实施方式中，根据本发明的遗传工程细胞和/或核酸构建体用于制造多于一种HMO，其中主要HMO共混物中2’-FL占所产生的总HMO的摩尔百分比为25％至70％，且LNFP-I的摩尔百分比为30％至60％。

HMO的制造

为了产生一种或多种HMO，根据本领域已知的程序在合适的碳源例如葡萄糖、甘油、乳糖等存在下培养本文所述的遗传工程细胞，并从培养基和培养工艺期间形成的微生物生物质收获产生的HMO。此后，根据本领域已知的程序，例如WO2015/188834、WO2017/182965或WO2017/152918中描述的程序纯化HMO，并且将纯化的HMO用作营养制品、药物或用于任何其他目的，例如用于研究。

HMO的制造通常是通过进行大体积培养来完成的。术语“制造”和“制造规模”在本发明的含义中定义了最小体积为5L培养液的发酵。通常，“制造规模”工艺定义为能够处理大体积的含有感兴趣的产物的制剂并产生一定量的感兴趣的HMO产物，例如，在治疗化合物或组合物的情况下，满足临床试验的需求以及市场供应。除了大体积之外，与摇瓶培养等简单的实验室规模方法相比，制造规模方法的特点是使用生物反应器(发酵罐)的技术系统，该系统配备有搅拌、通气、营养进料、过程参数(pH、温度、溶解氧张力、背压等)的监测和控制的装置。在很大程度上，实验室规模方法中表达系统的行为，例如本公开实施例中描述的摇瓶、台式生物反应器或深孔形式，确实允许预测该系统在生物反应器的复杂环境中的行为。

对于发酵工艺中使用的合适的细胞培养基没有限制。培养基可以是半限定的，即含有复杂的培养基化合物(例如，酵母提取物、大豆蛋白胨、酪蛋白氨基酸等)，或者它可以是化学限定的，不含任何复杂的化合物。当蔗糖用作碳源和能量源时，基本培养基可能是优选的。

制造的产物

根据遗传工程细胞或核酸构建体的用途的术语“制造的产物”是指旨在作为一种或多种产物HMO的一种或多种HMO。上文描述了各种产物。

有利地，本文公开的方法提供副产物与产物的降低的比率和产物(和/或总共的HMO)的增加的总产率。与产物形成相关的副产物形成较少，有利于提高产物产量，并增加生产和产物回收工艺的效率，从而提供优异的HMO制造程序。

制造的产物可以是包含一种或多种HMO的粉末、组合物、悬浮液或凝胶。

表格

表1.菌株MP1、MP2、MP3和MP4的基因型

¹GlcNAcT：编码β-1,3-N-乙酰基-葡糖胺基转移酶(SEQ ID NO:1)的lgtA基因

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

³CA：在与天然位点不同的位点处的PglpF的控制下的额外的荚膜异多糖酸基因簇(gmd-wcaG-wcaH-wcaI-manC-manB SEQ ID NO:52)

⁴FutC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:4)的基因

⁵BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

本申请中的SEQ ID可以是公开参考文献的修饰序列，对于菌株构建，已经使用了SEQ ID NO中的序列。

表2.菌株MP5、MP6、MP7、MP8和MP9的基因型

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

⁴Plac(CA)：MDO平台菌株的天然CA基因簇(即Plac)前面的启动子。在菌株MP5和MP6中，Plac被PglpF_B28取代，而在菌株MP7和MP9中，它被PglpF_B29取代。MP5表达天然CA簇和额外的CA簇，而MP6、7和9只是在天然CA簇前面有一个更强的启动子

⁵futC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁶smob：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:8)的基因

⁷BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

表3.菌株MP10和MP11的基因型

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

⁴futC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁵BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

表4.菌株MP12、MP13、MP14、MP15、MP16、MP17和MP18的基因型

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

⁴Plac(CA)：MDO平台菌株的天然CA基因簇(即Plac)前面的启动子。在表4的所有菌株中，在天然CA位点的Plac启动子被PglpF_B28启动子取代

⁵futC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁶编码异源糖流出转运蛋白(MFS)(SEQ ID NO:28-33)的基因

⁷BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

表5.在上表4中的LNFP-I生产菌株MP12至MP18中引入的主要促进子超家族(MFS)的转运蛋白。

表6.菌株MP19和MP20的基因型

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

⁴futC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁵BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

⁶GlpR：glp阻遏物基因(SEQ ID NO:48)的缺失

表7.菌株MP21的基因型

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

⁴futC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁵BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

表8.发酵结束时(94.7小时-98.0小时)总发酵液样品中的HMO共混物组成。HMOL＝HMO总和，包括LNFP-I、2’-FL、LNT、LNTII、DFL和乳糖。所有比率均以摩尔％计。

表9.发酵结束时(94.7小时-98.0小时)总发酵液样品中的HMO共混物组成。

*HMO＝HMO总和，包括LNFP-I、2’-FL、LNT、LNT II、DFL，不含乳糖，假设可以在DSP操作中选择性去除乳糖和/或发酵工艺可以设计为以最少量的残留乳糖结束。所有比率均以摩尔％计。

表10.菌株MP19和MP22的基因型

²GalTK：编码β-1,3-半乳糖基转移酶(SEQ ID NO:4)的基因

³CA：在与天然位点不同的位点处的额外的荚膜异多糖酸基因簇(gmd-wcaG-wcaH-wcaI-manC-manB，SEQ ID NO:52)

⁴futC：编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁵BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

MP19和MP22的不同之处在于GlcNAcT第二个拷贝的基因组整合位点

表11.发酵时间点68.7小时的总发酵液样品中的HMO共混物组成。

*高/低乳糖分别是指高乳糖工艺L2F20的浓度范围为30-80g/L，低乳糖工艺L2F21的浓度范围为0-15g/L。HMO＝HMO的总和，包括LNFP-I、2’-FL、LNT、LNT-II和DFL。

表12.菌株MP8、MP23、MP24、MP25的基因型

¹GlcNAcT：β-1,3-N-乙酰基-葡糖胺基转移酶(SEQ ID NO:1)

²GalTK：β-1,3-半乳糖基转移酶(SEQ ID NO:4)

³CA：在与天然位点不同的位点处的PglpF启动子控制下的荚膜异多糖酸基因簇(gmd-wcaG-wcaH-wcaI-manC-manB SEQ ID NO:52)

⁴编码α-1,2-岩藻糖基转移酶(SEQ ID NO:6)的基因

⁵BD182026.1是编码US6974687中SEQ ID NO:1的核苷酸序列

⁶编码异源糖流出转运蛋白(MFS)(SEQ ID NO:29和30)的基因

通用

应当理解，上文讨论的与根据本公开的化合物相关的任何特征和/或方面通过类推适用于本文描述的方法。

术语乳-N-三糖、LNT-II、LNT II、LNT2和LNT 2可互换使用。

提供以下附图和实施例来说明本公开。它们旨在是说明性的并且不应解释为以任何方式进行限制。

附图说明

图1

由表达不同α-1,2-岩藻糖基转移酶的菌株产生的共混物：(a)共混物的HMO含量(以％mM计)，(b)总HMO形成(以mM计)。

图2

(a)smob-表达细胞和(b)futC-表达细胞中荚膜异多糖酸基因簇的不同表达水平的共混物的HMO含量(以mM％计)的变化，以及相应的共混物(c)中总HMO形成(以mM计)。

图3

LNT合成所需的糖基转移酶拷贝数对菌株(a)MP10和(b)MP11产生的最终共混物的HMO含量(以％mM计)的影响。

图4

表达不同异源MFS转运蛋白的菌株相对于不具有此类转运蛋白的菌株产生的最终共混物的总HMO、LNFP-I和2’-FL含量(以％mM计)的相对变化。

图5

glpR+/-表型对菌株(a)MP19和(b)MP20产生的最终共混物的HMO含量(以％mM计)的影响。

图6a-d

在25℃至32℃之间的六个不同温度下运行的整个发酵中，总发酵液样品中HMO共混物组成的时间曲线(profile)。HMOL＝HMO总和，包括LNFP-I、2’-FL、LNT、LNT-II、DFL和乳糖。DFL和LNT-II低于LNT，通常<1g/L，未显示。

图7

使用两种菌株MP19和MP22在高乳糖(工艺L2F20)或低乳糖(工艺L2F21)条件下进行的四次运行中发酵液中乳糖一水合物浓度的时间曲线。

图8

使用两种菌株MP19和MP22在高乳糖(工艺L2F20)或低乳糖(工艺L2F21)条件下进行的四次运行中发酵液中LNFP-I/HMO比率的时间曲线。HMO＝HMO的总和，包括LNFP-I、2’-FL、LNT、LNT-II和DFL。DFL小于0.3g/L。

图9a-c

使用两种菌株MP19和MP22在高乳糖(工艺L2F20)或低乳糖(工艺L2F21)条件下的四次运行中发酵液中2’-FL/HMO、LNT/HMO和LNT-II/HMO比率的时间曲线。HMO＝HMO的总和，包括LNFP-I、2’-FL、LNT、LNT-II和DFL。DFL小于0.3g/L。

图10

在不表达MFS转运蛋白的smob-表达细胞(菌株MP8)和带有nec(菌株MP23和MP25)或yberC(菌株MP24)基因的基因组拷贝的smob-表达细胞的培养物中，在上清液中检测到的LNFP-I分数(占总LNFP-I的百分比)。

图11

对于不表达MFS转运蛋白的smob-表达细胞(菌株MP8)和表达nec(菌株MP23和MP25)或yberC(菌株MP24)基因的基因组拷贝的细胞，最终HMO共混物中LNFP-I与2’-FL的比率。

图12

从乳糖分别产生LNFP-I和2’-FL的通路。2’FL是在酶α-1,2-岩藻糖基转移酶(α-1,2-ft)存在下，将岩藻糖加到乳糖，从乳糖一步产生的。LNFP-I的产生分为3步工艺，其中β-1,3-N-乙酰基-葡糖胺基转移酶(β-1,3-GlcNacT)将N-乙酰基葡糖胺加到乳糖，形成LNT-II，β-1,3-半乳糖基转移酶(β-1,3-GalT)将半乳糖添加至LNT-II，形成LNT，α-1,2-岩藻糖基转移酶(α-1,2-ft)将岩藻糖添加在LNT上，形成LNFP-I。如实施例1所示，不同的α-1,2-岩藻糖基转移酶可具有不同的底物特异性，即FutC似乎对乳糖具有更高的特异性，而smob似乎对LNT作为底物具有更高的特异性。

序列ID

本申请包含文本格式和电子格式的序列表，其并入本文以供参考，正如优先权申请DK PA 2021 70247中的校正序列表中列出的序列一样。下文是序列的总结。

序列ID NO 1[lgtA蛋白-β-1,3-N-乙酰基-葡糖胺基转移酶]

序列ID NO 2[PmnagT蛋白-β-1,3-N-乙酰基-葡糖胺基转移酶]

序列ID NO 3[HD0466-β-1,3-N-乙酰基-葡糖胺基转移酶]

序列ID NO 4[galTK-β-1,3-半乳糖基转移酶]

序列ID NO 5[cvb3galT-β-1,3-半乳糖基转移酶]

序列ID NO 6[futC-α-1,2-岩藻糖基转移酶]

序列ID NO 7[mtun-α-1,2-岩藻糖基转移酶]

序列ID NO 8[smob-α-1,2-岩藻糖基转移酶]

SEQ ID NO:9[pmglB_70UTR]

SEQ ID NO:10[pmglB_70UTR_SD4]

SEQ ID NO:11[Pscr]

SEQ ID NO:12[PgatY_70UTR]

SEQ ID NO:13[PglpF]

SEQ ID NO:14[PglpF_SD1]

SEQ ID NO:15[PglpF_SD10]

SEQ ID NO:16[PglpF_SD2]

SEQ ID NO:17[PglpF_SD3]

SEQ ID NO:18[PglpF_SD4]

SEQ ID NO:19[PglpF_SD5]

SEQ ID NO:20[PglpF_SD6]

SEQ ID NO:21[PglpF_SD7]

SEQ ID NO:22[PglpF_SD8]

SEQ ID NO:23[PglpF_SD9]

SEQ ID NO:24[PglpF_B28]

SEQ ID NO:25[PglpF_B29]

SEQ ID NO:26[Plac_16UTR]

SEQ ID NO:27[Plac]

SEQ ID NO:28[Bad]

SEQ ID NO:29[Nec]

SEQ ID NO:30[YberC]

SEQ ID NO:31[Fred]

SEQ ID NO:32[Vag]

SEQ ID NO:33[Marc]

SEQ ID NO:34[ScrY]

SEQ ID NO:35[ScrA]

SEQ ID NO:36[ScrB CAA47974.1]

SEQ ID NO:37[ScrR]

SEQ ID NO:38[SacC_AgaI]

SEQ ID NO:39[Bff]

SEQ ID NO:40[lgta基因]

SEQ ID NO:41[PmnagT基因]

SEQ ID NO:42[HD0466基因]

SEQ ID NO:43[galtk基因]

SEQ ID NO:44[cvb3galT]

SEQ ID NO:45[编码α-1,2-岩藻糖基转移酶的futC基因]

SEQ ID NO:46[编码α-1,2-岩藻糖基转移酶的mtun基因]

SEQ ID NO:47[编码α-1,2-岩藻糖基转移酶的smob基因]

SEQ ID NO:48[DNA-结合转录阻遏物GlpR]

SEQ ID NO:49[fucT54α-1,2-岩藻糖基转移酶]

SEQ ID NO:50寡核苷酸O48,galK正向

SEQ ID NO:51寡核苷酸O49,galK反向

SEQ ID NO:52CA基因簇

项目

1.一种用于产生以LNFP-I和2’-FL作为主要人乳寡糖(HMO)的HMO共混物的方法，该方法包括以下步骤：

a)提供能够产生HMO的遗传工程细胞，其中所述细胞

i)包含如SEQ ID NO:1或2或3所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1或2或3具有至少80％同一性的功能同源物；且

ii)包含如SEQ ID NO:4或5所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；且

iii)包含如SEQ ID NO:6或7或49或8中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6、7或49或8中任一个具有至少80％同一性的功能同源物，且

iv)功能性表达荚膜异多糖酸基因簇，且

v)包含用于控制i)-iv)中任一项的表达的天然或异源调节元件，

b)在合适的细胞培养基中培养根据(a)的细胞以表达所述蛋白并产生HMO共混物；以及

c)收获步骤(b)中产生的人乳寡糖(HMO)共混物。

2.根据项目1的方法，其中i)、ii)和iii)中的蛋白的过表达通过增加编码所述蛋白的基因的拷贝数和/或通过为iv)中荚膜异多糖酸基因簇选择合适的调节元件来提供。

3.根据前述项目中任一项的方法，其中iv)中荚膜异多糖酸基因簇的表达通过用感兴趣的启动子交换天然启动子、和/或通过从另一个基因组位点表达基因簇来增加编码所述蛋白的荚膜异多糖酸基因的拷贝数、或附加型表达荚膜异多糖酸基因簇来调节。

4.根据前述项目中任一项的方法，其中异源调节元件选自SEQ ID NO:13(PglpF)、SEQ ID NO:12(PgatY_70UTR)、SEQ ID NO:27(Plac)、SEQ ID NO:9(PmglB_70UTR)、SEQ IDNO:11(Pscr)、或其变体。

5.根据前述项目中任一项的方法，其中异源调节元件选自PBAD、Pxyl、PsacB、PxylA、PrpR、PnitA、PT7、Ptac、PL、PR、PnisA、Pb、Pscr、PgatY_70UTR、PglpF、PglpF_SD1、PglpF_SD10、PglpF_SD2、PglpF_SD3、PglpF_SD4、PglpF_SD5、PglpF_SD6、PglpF_SD7、PglpF_SD8、PglpF_SD9、PglpF_B28、Plac_16UTR、Plac、PmglB_70UTR和PmglB_70UTR_SD4。

6.根据前述项目中任一项的方法，其中异源调节元件选自PglpF、Pscr、Plac、PglpF_B29和PglpF_B28。

7.根据前述项目中任一项的方法，其中i)和ii)的表达获自单个拷贝和/或用于i)和ii)的表达的调节元件具有低或中等强度。

8.根据项目7的方法，其中调节元件选自PglpF_SD9(SEQ ID NO:23)、PglpF_SD7(SEQ ID NO:21)、PglpF_SD6(SEQ ID NO:20)、PglpF_B28(SEQ ID NO:24)、PglpF_B29(SEQID NO:25)、Pscr(SEQ ID NO:11)和Plac(SEQ ID NO:27)。

9.根据前述权利要求中任一项的方法，其中调节元件是强调节元件。

10.根据项目9的方法，其中调节元件选自PglpF(SEQ ID NO:13)、PglpF_SD10(SEQID NO:15)、PglpF_SD8(SEQ ID NO:22)、PglpF_SD5(SEQ ID NO:19)、PglpF_SD4(SEQ IDNO:18)、PgatY_70UTR(SEQ ID NO:12)、PmglB_70UTR(SEQ ID NO:9)和PmglB_70UTR_SD4(SEQ ID NO:9)。

11.根据前述项目中任一项的方法，其中异源β-1,3-N-乙酰基-半乳糖基转移酶蛋白是SEQ ID NO:1，或其氨基酸序列与SEQ ID NO:1具有至少80％同一性的功能同源物。

12.根据前述项目中任一项的方法，其中异源β-1,3-半乳糖基转移酶蛋白是SEQID NO:4，或其氨基酸序列与SEQ ID NO:4具有至少80％同一性的功能同源物。

13.根据前述项目中任一项的方法，其中荚膜异多糖酸基因的表达通过用感兴趣的启动子交换天然启动子，和/或通过从另一个基因组位点表达基因簇来增加编码所述蛋白的荚膜异多糖酸基因的拷贝数、或附加型表达荚膜异多糖酸基因簇来调节，并且其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6或8，或其氨基酸序列与SEQ ID NO:6或8中任一个具有至少80％同一性的功能同源物。

14.根据前述项目中任一项的方法，其中i)和ii)中的蛋白的过表达通过同时增加编码所述蛋白的基因的拷贝数来提供，并且其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ IDNO:6或其氨基酸序列与SEQ ID NO:6中任一个具有至少80％同一性的功能同源物。

15.根据前述项目中任一项的方法，其中HMO共混物中2’-FL的摩尔百分比为25％至70％，且LNFP-I为30％至60％。

16.根据项目13或14的方法，其中2’-FL占所产生的HMO共混物的摩尔百分比为30％至70％，例如40％至55％，例如50％至70％。

17.根据项目13或14的方法，其中LNFP-I的摩尔百分比为30％至60％，例如40％至55％，例如30％至45％。

18.根据项目1至12中任一项的方法，其中异源α-1,2-岩藻糖基转移酶蛋白是SEQID NO:7或49，或其氨基酸序列与SEQ ID NO:7或49中任一个具有至少80％同一性的功能同源物。

19.根据项目18的方法，其中2’-FL占所产生的HMO共混物的摩尔百分比为40％至60％，例如45％至55％。

20.根据项目18的方法，其中LNFP-I的摩尔百分比为40％至60％，例如40％至55％。

21.根据前述项目中任一项的方法，其中细胞中与v)结合或与v)的上游区域结合并抑制i)至iv)中任一项的表达的基因产物已缺失或变成非功能性，并且其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6。

22.根据项目21的方法，其中所述基因产物是DNA-结合转录阻遏物GlpR。

23.根据前述项目中任一项的方法，其中细胞还包含充当糖流出转运蛋白的基因产物。

24.根据项目23的方法，其中糖流出转运蛋白选自Bad、Nec、YberC、Fred、Vag和Marc。

25.根据项目24的方法，其中糖流出转运蛋白选自氨基酸序列，该氨基酸序列选自：

i)SEQ ID NO:28或其氨基酸序列与SEQ ID NO:28具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

ii)SEQ ID NO:29或其氨基酸序列与SEQ ID NO:29具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

iii)SEQ ID NO:30或其氨基酸序列与SEQ ID NO:30具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

iv)SEQ ID NO:31或其氨基酸序列与SEQ ID NO:31具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

v)SEQ ID NO:32或其氨基酸序列与SEQ ID NO:32具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，和

vi)SEQ ID NO:33或其氨基酸序列与SEQ ID NO:33具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

26.根据项目24或25的方法，其中糖流出转运蛋白优选是Nec或YberC。

27.根据项目26的方法，其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6[futC]和SEQ ID NO:7[mtun]和SEQ ID NO:49[FucT54]，或其氨基酸序列与SEQ ID NO:6、7或48中任一个具有至少80％同一性的功能同源物。

28.根据项目27的方法，其中2’-FL占所产生的HMO共混物的摩尔百分比为30％至70％，例如40％至55％，例如50％至60％。

29.根据前述项目中任一项的方法，其中调节步骤(b)中的遗传工程细胞培养期间的发酵温度。

30.根据项目29的方法，其中2’-FL/HMOL比率显示随着发酵温度升高成比例增加，其中发酵温度为25℃至34℃，优选30℃至32℃。

31.根据项目29的方法，其中步骤(b)中遗传工程细胞培养期间的发酵温度为25℃至34℃，并且其中2’-FL占所产生的HMO共混物的摩尔百分比为15％至40％。

32.根据项目30的方法，其中异源α-1,2-岩藻糖基转移酶蛋白是SEQ ID NO:6[futC]。

33.根据项目29或30的方法，其中LNT/HMOL比率显示随着发酵温度升高成比例降低。

34.根据前述项目中任一项的方法，其中调节步骤(b)中遗传工程细胞培养期间的乳糖水平。

35.根据项目34的方法，其中低乳糖水平下(例如低于20g/L，优选低于15g/L，例如0.5g/L至15g/L，优选低于10g/L，例如1g/L至10g/L)的HMO产物分布为LNFP-I>2’-FL>LNT>LNT-II。

36.根据项目34的方法，其中高乳糖水平下(例如在发酵的前40小时内30-80g/L之间)的HMO产物分布为LNFP-I>LNT>LNT-II>2’-FL。

37.根据前述项目中任一项的方法，其中所述遗传工程细胞包含编码一种或多种异源多肽的一种或多种异源核酸序列，该异源多肽使得能够利用蔗糖作为所述遗传工程细胞的唯一碳源和能量源。

38.根据项目37的方法，其中蔗糖利用系统是能够将蔗糖水解成葡萄糖和果糖的多肽，其选自SEQ ID NO:38[SacC_Agal，糖苷水解酶家族32蛋白，WP_103853210.19]和SEQID NO:39[Bff，β-呋喃果糖苷酶蛋白，BAD18121.1]，或SEQ ID NO:11和12中任一个的功能同源物，其氨基酸序列与SEQ ID NO:38或39中任一个具有至少80％同一性。

39.一种遗传工程细胞，其包含编码以下的重组核酸序列

i)如SEQ ID NO:1或2或3所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1-3具有至少80％同一性的功能同源物；和

ii)如SEQ ID NO:4或5所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4-5具有至少80％同一性的功能同源物；和

iii)如SEQ ID NO:6或7或8中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6-8中任一个具有至少80％同一性的功能同源物，和

iv)荚膜异多糖酸基因簇，和

v)用于控制i)-iv)中任一项的表达的天然或异源调节元件或附加型元件。

40.根据项目39的遗传工程细胞，其还包含编码能够将2’FL和/或LNFP-I输出至细胞外的糖流出转运蛋白的重组核酸序列。

41.根据项目40的遗传工程细胞，其中编码糖流出转运蛋白的重组核酸序列选自：

i)一种核酸序列，其编码SEQ ID NO:28或其氨基酸序列与SEQ ID NO:28具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

ii)一种核酸序列，其编码SEQ ID NO:29或其氨基酸序列与SEQ ID NO:29具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

iii)一种核酸序列，其编码SEQ ID NO:30或其氨基酸序列与SEQ ID NO:30具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

iv)一种核酸序列，其编码SEQ ID NO:31或其氨基酸序列与SEQ ID NO:31具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，

v)一种核酸序列，其编码SEQ ID NO:32或其氨基酸序列与SEQ ID NO:32具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物，和

vi)一种核酸序列，其编码SEQ ID NO:33或其氨基酸序列与SEQ ID NO:33具有至少70％同一性，例如至少80％同一性、例如至少85％同一性、例如至少90％同一性、例如至少95％同一性或例如至少99％同一性的功能同源物。

42.根据项目39至41的遗传工程细胞，其中荚膜异多糖酸基因簇通过增加拷贝数和/或通过选择合适的调节元件来过表达。

43.根据项目39或40的遗传工程细胞，其中异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白是SEQ ID NO:1，或其氨基酸序列与SEQ ID NO:1具有至少80％同一性的功能同源物。

44.根据项目39至43的遗传工程细胞，其中异源β-1,3-半乳糖基转移酶蛋白是SEQID NO:4，或其氨基酸序列与SEQ ID NO:4具有至少80％同一性的功能同源物。

45.根据项目39至44的遗传工程细胞，其中异源α-1,2-岩藻糖基转移酶蛋白如SEQID NO:6所示，或是其氨基酸序列与SEQ ID NO:6具有至少80％同一性的功能同源物。

46.根据项目39至44的遗传工程细胞，其中异源α-1,2-岩藻糖基转移酶蛋白如SEQID NO:7或49所示，或是其氨基酸序列与SEQ ID NO:7或49具有至少80％同一性的功能同源物。

47.一种核酸构建体，其包含编码一种或多种选自以下的蛋白的重组核酸序列：

iii)如SEQ ID NO:6或7或8中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6-8具有至少80％同一性的功能同源物，和

iv)荚膜异多糖酸基因簇，和

其中所述核酸构建体还包含至少一种用于控制核酸构建体中存在的基因(即i)-iv)中的一种或多种)的表达的天然或异源调节元件或附加型元件。

48.根据项目47的核酸构建体，其中调节元件是衍生自lac操纵子或glp操纵子的启动子序列的重组启动子序列，并且i)至iv)的编码序列中的一个或多个与启动子序列可操作地连接。

49.根据项目40至41中任一项的遗传工程细胞或根据项目47或48的核酸构建体在产生HMO共混物中的用途。

50.根据项目49的用途，其中HMO共混物包含选自2’-FL、LNT-II、LNT、LNFP-I和DFL的HMO。

51.根据项目49或50的用途，其中HMO共混物主要含有2’-FL和LNFP-I。

52.根据项目49-51中任一项的用途，其中HMO共混物中LNFP-I占总HMO的摩尔百分比为30至60％，且2’-FL的摩尔百分比为30至70％。

实施例

材料和方法

菌株构建

使用细菌菌株MDO作为下文实施例中使用的菌株的背景菌株。MDO由大肠杆菌K-12DH1构建。大肠杆菌K-12DH1基因型为：Fˉ、gyrA96、recA1、relA1、endA1、thi-1、hsdR17、supE44。除大肠杆菌K-12DH1基因型外，MDO还具有以下修饰：lacZ：缺失1.5kbp，lacA：缺失0.5kbp，nanKETA：缺失3.3kbp，melA：缺失0.9kbp，wcaJ：缺失0.5kbp，mdoH：缺失0.5kbp，并在gmd基因上游插入Plac启动子。

将感兴趣的基因插入大肠杆菌基因组的方法是本领域技术人员众所周知的。本申请所用菌株的基因型如表1、2、3、4、6、7、10和12所示。

作为一个实例，描述了通过替换GalK位点进行MFS转运蛋白的基因组插入。在大肠杆菌K-12DH1 MDO的染色体DNA中，含有启动子连接至fred基因并连接至T1转录终止子序列的表达盒，基本上按照Herring等人(Herring等人2003.Gene 311:153-163)的描述，通过基因吞噬(Gene Gorging)进行。简而言之，将供体质粒和辅助质粒共转化入MDO，并在含有0.2％葡萄糖、氨苄青霉素(100μg/mL)或卡那霉素(50mg/mL)和氯霉素(20μg/mL)的LB平板上进行选择。将单个菌落接种于含有氯霉素(20μg/mL)和10μL 20％L-阿拉伯糖的1mL LB中，并在37℃振荡孵育7至8小时。然后为了整合至galK位点中，将大肠杆菌细胞铺在M9-DOG平板上并在37℃孵育48小时。在MM-DOG平板上形成的单菌落在含有0.2％葡萄糖的LB平板上重新划线，并在37℃孵育24小时。在MacConkey-半乳糖琼脂平板上显示白色且对氨苄西林和氯霉素两者敏感的菌落预计已丢失供体和辅助质粒并在galK位点中包含插入。使用引物O48(SEQ ID NO:50)和O49(SEQ ID NO:51)通过菌落PCR鉴定galK位点中的插入，并通过测序(Eurofins Genomics，德国)验证插入的DNA。

可以使用基因吞噬用不同的选择标志物基因和不同的筛选方法以类似的方式将遗传盒插入至大肠杆菌染色体DNA中的其他位点(参见例如Herring和Blattner2004J.Bacteriol.186:2673-81和Warminget al2005Nucleic Acids Res.33(4):e36)。

用于菌株表征的深孔试验(assay)方案

使用4天方案在96个深孔板中筛选本实施例中公开的菌株。在最初的24小时内，将预培养物生长到高密度，然后转移至能够诱导基因表达和产物形成的培养基中。更具体地，在第1天期间，使用补充有硫酸镁、硫胺素和葡萄糖的基础基本培养基(basal minimalmedium)制备新鲜预培养物。将预培养物在34℃和1000rpm摇动下孵育24小时，然后进一步转移至新的基础基本培养基(BMM，pH 7.5)中，以便开始主培养。新的BMM补充了硫酸镁、硫胺素、一推(bolus)20％葡萄糖溶液(50μl/100mL)和一推10％乳糖溶液(5ml/100mL)。此外，提供50％的蔗糖溶液作为碳源，同时添加蔗糖水解酶(转化酶)，从而以适合C-限制生长的速率释放葡萄糖。将主培养物在28℃和1000rpm摇动下孵育72小时。

为了分析总发酵液，在100℃下将96孔板煮沸，随后离心，最后用HPLC分析上清液。对于上清液样品，首先离心微量滴定板，然后移除0.1mL上清液用于HPLC直接分析。对于沉淀样品，首先洗涤细胞，然后溶解在去离子水中并离心。离心后，再悬浮、煮沸、离心并分析最终上清液后，分析沉淀的细胞内部HMO含量。

根据报告的分析数据计算每个样品中检测到的HMO的毫摩尔含量(mM)，并根据共混物中总HMO(mM)浓度计算最终混合物中每种HMO的mM百分比(％)，以便轻松比较每种菌株产生的HMO共混物中的数量差异。

实施例1–通过测试不同的野生型α-1,2-岩藻糖基转移酶，生成LNFP-I、2’-FL和LNT的HMO共混物的变体

深孔试验中测试的MP1、MP2、MP3和MP4菌株基因型的描述

基于先前报道的平台菌株(“MDO”)，进行表1中总结的修饰，以获得本研究中使用的LNFP-I生产菌株MP1、MP2、MP3和MP4，均为全染色体菌株。该菌株可产生四糖HMO(LNT)，并进一步岩藻糖基化LNT，得到五糖HMO(LNFP-I)。可用于该反应的岩藻糖基转移酶有很多，但在本公开的框架中，我们选择了来自不同细菌物种的一小部分α-1,2-岩藻糖基转移酶来测试它们岩藻糖基化乳糖和LNT的能力。所选酶包括来自幽门螺杆菌的FutC(GenBank ID:WP_080473865.1，但在C端具有两个额外的氨基酸(LG)，SEQ ID NO:6)、来自运动性硫曲霉菌的Smob(GenBank ID:WP_126455392.1，SEQ ID NO:8)、来自Sideroxydans lithotropicusES-11的FucT54(GenBank ID:WP_013031010.1，SEQ ID NO:49)和来自Methylobactertundripaludum的Mtun(GenBank ID:WP_031437198.1，SEQ ID NO:7)。

在本实施例中，证明了如何可以将α-1,2-岩藻糖基转移酶的选择用作遗传工具来获得几乎完全由LNFP-I和2’-FL组成的HMO共混物的确定且多样化的目标组成。本公开证明了如何可以有利地使用α-1,2-岩藻糖基转移酶的选择来调节由菌株MP1、MP2、MP3和MP4产生的HMO共混物的组成。如表1所示，这些菌株之间的唯一区别是将α-1,2-岩藻糖基转移酶基因引入宿主的选定基因组位点，以驱动乳糖和LNT的体内修饰，以合成HMO，或其前体糖。不同的酶对乳糖和LNT显示出不同的特异性，这清楚地反映在获得的最终HMO共混物中LNFP-I和2’-FL的相对丰度上。

深孔试验结果

如“材料和方法部分”中所述，在深孔试验中对菌株进行表征。

如图1a所示，α-1,2-岩藻糖基转移酶的选择导致最终共混物的HMO丰度存在显著差异。与其他酶相比，FutC似乎对乳糖对LNT具有更高的特异性，这一事实导致其中2’-FL是最丰富HMO的HMO共混物。相反，Smob产生其中LNFP-I是主要的HMO且2’-FL是第二最丰富的糖、而LNT-II的形成量有限的共混物。Smob可以以非凡的特异性岩藻糖基化LNT，而其对乳糖的特异性似乎非常低。最后，FucT54和Mtun导致LNFP-I和2’-FL几乎等摩尔浓度的HMO共混物，这表明它们对LNT和乳糖的特异性几乎均等(图1a)。

所讨论的菌株产生的共混物中的总HMO浓度存在显著差异。高2’-FL和总HMO浓度之间存在很强的相关性，而最终HMO共混物中较高的LNFP-I含量伴随着较低的总HMO浓度(图1b)。

总之，α-1,2-岩藻糖基转移酶的选择(可以将其引入LNT生产菌株的遗传背景中以产生LNFP-I)可以显著改变混合物的相关HMO丰度，以这种方式最终共混物几乎完全由LNFP-I(MP2、Smob)组成，或主要由2’-FL(MP1、FutC)组成，或者LNFP-I和2’-FL的比率接近1:1(MP3、FucT54和MP4、Mtun)。

实施例2-通过增加荚膜异多糖酸基因簇的表达水平生成LNFP-I、2’-FL和LNT的HMO共混物的变体

深孔试验中菌株MP5、MP6、MP7、MP8和MP9基因型的描述

基于先前报道的平台菌株(“MDO”)，进行表2中总结的修饰，以获得本研究中使用的LNFP-I生产菌株MP5、MP6、MP7、MP8和MP9，均为全染色体菌株。该菌株可产生四糖HMO(LNT)，并进一步岩藻糖基化LNT，得到五糖HMO(LNFP-I)。用于该反应的岩藻糖基转移酶是Smob(MP8和MP9)或FutC(MP5、MP6和MP7)。如实施例1中所讨论的，两种酶对乳糖和LNT显示出不同的特异性，并产生LNFP-I或2’-FL作为最终共混物中的主要HMO。同样，其他HMO，例如LNT和LNT-II也存在于此类HMO共混物中，但仅为低浓度。

在本实施例中，证明了如何将增加荚膜异多糖酸基因簇的表达水平用作遗传工具来增加smob-表达细胞中LNFP-I与2’-FL的比率，或在futC-表达细胞中将总HMO共混物的第一和第二最丰富的HMO的丰度顺序从LNFP-I>2’-FL反转为2’-FL>LNFP-I。本公开证明了荚膜异多糖酸基因的表达的微调可以有利地用于调节由smob-表达细胞和futC-表达细胞产生的HMO共混物的组成。

深孔试验结果

如图2a-c所示，单一遗传修饰，即荚膜异多糖酸基因簇表达水平的增加，导致smob-表达细胞和futC-表达细胞获得的HMO共混物发生巨大变化。具体地，在smob-表达细胞中增加驱动荚膜异多糖酸基因表达的启动子的强度(即用PglpF启动子替换PglpF_B29)可以将HMO共混物的LNFP-I分数增加近25％，同时，LNT II+LNT分数减少了近30％(图2a)。因此，这个单一的在天然荚膜异多糖酸位点前面的简单启动子交换可以导致HMO共混物的生成，该共混物主要由LNFP-I(85％)组成，其中2’-FL是第二最丰富的HMO并且使得仅占共混物总HMO含量的10％。然而，值得注意的是，差异表达荚膜异多糖酸基因簇的smob-表达细胞产生的共混物中总HMO浓度存在显著差异。具体地，荚膜异多糖酸基因簇的较高水平表达似乎与较少的总HMO形成有关(图2c)：菌株MP9产生几乎5mM的HMO，而菌株MP8仅产生4mM的总糖。

此外，如图2b所示，futC-表达细胞中荚膜异多糖酸基因簇的启动子强度和/或拷贝数的逐渐增加(即PglpF_B29<PglpF_B28<PglpF+PglpF_B28)可以逐渐增加HMO共混物的2’-FL分数至多25％，同时逐渐减少共混物的LNFP-I分数类似的百分比(图2b)。详细地说，在futC-表达细胞中，在天然荚膜异多糖酸位点前面的简单启动子交换，并在不同的基因组位点处引入该基因簇的第二个拷贝(即PglpF_B29→PglpF_B28+PglpF)可以将最终HMO共混物中第一和第二最丰富的HMO的丰度顺序从LNFP-I>2’-FL反转为2’-FL>LNFP-I。值得注意的是，正在讨论的遗传修饰，即PglpF_B29→PglpF_B28+PglpF，也大大改善最终共混物中的总HMO浓度。具体地，菌株MP5(PglpF+PglpF_B28)中的遗传修饰导致总HMO含量比菌株MP7(PglpF_B29)中的总HMO含量高出近35％。

总之，增加荚膜异多糖酸基因簇的表达水平是一种很好的遗传工具，其可以增加smob-表达细胞中LNFP-I与2’-FL的比率，或者在futC-表达细胞中将最终HMO共混物中第一和第二最丰富的HMO的丰度顺序从LNFP-I>2’-FL反转为2’-FL>LNFP-I。

实施例3-通过增加参与LNT形成的糖基转移酶的拷贝数，生成LNFP-I、2’-FL和LNT的HMO共混物的变体

在深孔试验中测试的菌株MP10和MP11的基因型描述

基于先前报道的平台菌株(“MDO”)，进行了表3中总结的修饰，以获得本研究中使用的LNFP-I生产菌株MP10和MP11，这两种菌株都是全染色体菌株。菌株可以产生四糖HMO(LNT)并进一步岩藻糖基化LNT，从而获得五糖HMO(LNFP-I)。用于该反应的岩藻糖基转移酶是来自幽门螺杆菌的FutC酶(GenBank ID:WP_080473865.1，但在C端具有两个额外的氨基酸(LG)，SEQ ID NO:6)。

在本实施例中，证明了如何可以将编码参与LNT生物合成的糖基转移酶的基因的拷贝数的微调用作遗传工具，以在futC-表达细胞中将获得的共混物的第一和第二最丰富HMO的丰度顺序从2’-FL>LNFP-I反转为LNFP-I>2’-FL。本公开证明了如何在futC-表达细胞中同时改变lgtA(编码β-1,3-N-乙酰基-葡糖胺基转移酶)和galTK(编码β-1,3-半乳糖基转移酶)基因的拷贝数可以有利地用作调节菌株MP10和MP11产生的HMO共混物的组成的手段。如表3所示，与菌株MP10的背景相比，这两个菌株之间的唯一差异是在菌株MP11的遗传背景中存在额外的lgtA和galTK拷贝。据信MP11中lgtA和galTK基因的额外拷贝可以促进LNT的产生，从而增加LNFP-I和/或总HMO的产生。

深孔试验结果

如“材料和方法部分”中所述，在深孔中对菌株进行表征。

如图3所示，LNFP-I生产菌株MP10中lgtA和galTK拷贝数同时增加以产生菌株MP11，导致获得的HMO共混物发生显著变化。具体地，这种修饰能够反转最终共混物的两种主要HMO，即LNFP-I和2’-FL的丰度。具有较低基因拷贝数的菌株MP10产生了由58％2’-FL和40％LNFP-I组成的共混物，而具有较高基因拷贝数的菌株MP11提供了具有40％2’-FL和55％ LNFP-I的反转HMO分布的共混物。由这些菌株产生的最终HMO共混物中的总HMO浓度显著不同，菌株MP10(每个基因一个拷贝)产生的共混物的总HMO含量比菌株MP11(每个基因两个拷贝)产生的高15％。因此，所讨论的遗传修饰导致最终HMO共混物中LNFP-I和2’-FL分数的变化，但也导致获得的总HMO浓度的变化(数据未显示)。

总之，编码参与LNT生物合成的糖基转移酶的基因拷贝数的同时增加是一种有效的工具，可以在futC-表达细胞中，将所获得的HMO共混物中第一和第二最丰富的HMO的丰度顺序从2’-FL>LNFP-I反转为LNFP-I>2’-FL。

实施例4-通过引入主要促进子超家族(MFS)的糖流出转运蛋白，生成LNFP-I、2’-FL和LNT的HMO共混物的变体

深孔试验中测试的菌株MP12、MP13、MP14、MP15、MP16、MP17和MP18基因型的描述

基于先前报道的平台菌株(“MDO”)，进行表4中总结的修饰，以获得本研究中使用的LNFP-I生产菌株MP12、MP13、MP14、MP15、MP16、MP17和MP18，全部是全染色体菌株。该菌株可产生四糖HMO(LNT)，并进一步岩藻糖基化LNT，得到五糖HMO(LNFP-I)。用于该反应的岩藻糖基转移酶是来自幽门螺杆菌的FutC酶(GenBank ID:WP_080473865.1，但在C端具有两个额外的氨基酸(LG)，SEQ ID NO:6)。值得注意的是，其他HMO，例如LNT和LNT II也存在于上述菌株产生的最终HMO共混物中，但仅为最低浓度。

在本实施例中，证明了在futC-表达细胞的遗传背景中引入编码糖流出转运蛋白的选定异源基因(表5)如何能够将最终的HMO共混物的第一和第二最丰富的HMO的丰度顺序从LNFP-I>2’-FL显著反转为2’-FL>LNFP-I。在这方面，本文提出的遗传工具相当于上文实施例2中描述的工具，其中futC-表达细胞中荚膜异多糖酸基因簇的表达增加也显示出共混物中两种最丰富的HMO的分布从LNFP-I>2’-FL反转为2’-FL>LNFP-I。本文讨论的公开内容证明了编码选定异源糖流出转运蛋白的基因的引入如何可以有利地用于调节由菌株MP12、MP13、MP14、MP15、MP16、MP17和MP18产生的HMO共混物的组成。如表4所示，这些菌株之间的唯一区别是整合在宿主的选定基因组位点上的转运蛋白基因。据信此类异源基因的过表达增强2’-FL和/或LNFP-I从细胞内部输出至细胞外环境，从而以多种方式影响HMO的产生。

深孔试验结果

如图4所示，在futC-表达细胞的遗传背景中引入编码糖流出转运蛋白的选定异源基因(表5)，导致获得的HMO共混物发生巨大变化。值得注意的是，用于驱动带有这些转运蛋白基因的盒的表达的启动子是Plac或PglpF。然而，在本实施例中，仅显示了每种转运蛋白的基于Plac或PglpF的构建体的数据。详细地，对每种转运蛋白影响最显著的构建体包含在图4中示出的数据中。

一般地，如图4所示，任何选定的MFS转运蛋白基因的引入都明显减少了LNFP-I的形成，并大大增加了2’-FL的形成，大概是由于高效转运蛋白介导的2’-FL输出–但不是LNFP-I–到细胞外。转运蛋白表达细胞中2’-FL分数的大幅增加反映在获得的共混物的总HMO浓度上，相应的共混物显示出比没有MFS转运蛋白(MP12)的宿主菌株的共混物高35-70％的HMO含量(图4)。

根据引入生产宿主遗传背景的转运蛋白基因，所得共混物中的LNFP-I浓度相对于对照(宿主)菌株显著变化，分别表现为在不编码异源MFS转运蛋白的宿主细胞中形成90％、70％、60％、50％、或仅30％的LNFP-I。通过引入PglpF-yberC构建体，观察到最终共混物中LNFP-I浓度的最大降低(70％)，而通过引入Plac-nec构建体，观察到最终共混物中LNFP-I含量的轻微损失(10％)。

相反，与缺乏异源转运蛋白的细胞产生的共混物相比，在生产宿主中引入转运蛋白构建体产生的共混物显示2’-FL浓度增加了2.5至3.5倍。通过引入PglpF-fred构建体，获得2’-FL浓度的相对增加最高的共混物，而通过引入PglpF-vag构建体，相对增加最低(图4)。

如上所述，表达异源糖流出转运蛋白的菌株产生的HMO共混物中的总HMO浓度与宿主菌株的共混物相比显示出高35-70％的HMO含量。通过引入Plac-nec和PglpF-fred构建体，观察到HMO含量相对于宿主的最高增加，这些构建体也导致2’-FL浓度的一些最高相对增加(图4)。

总之，在futC-表达细胞的遗传背景中引入编码MFS超家族的糖流出转运蛋白的选定异源基因可以将最终HMO共混物的第一和第二最丰富的HMO的丰度顺序从LNFP-I>2’-FL显著反转为2’-FL>LNFP-I。这种遗传修饰还可以导致最终共混物中获得的总HMO浓度发生广泛变化，转运蛋白表达细胞中的总HMO含量增加至多70％，取决于LNFP-I生产宿主中引入的转运蛋白构建体。

实施例5–通过使抑制PglpF-驱动的基因表达的glpR基因缺失，生成LNFP-I、2’-FL和LNT的HMO共混物的变体

深孔试验中测试的菌株MP19和MP20基因型的描述

基于之前报道的平台菌株(“MDO”)，进行表6中总结的修饰，以获得本研究中使用的LNFP-I生产菌株MP19和MP20，两者都是全染色体菌株。该菌株能够产生四糖HMO(LNT)并进一步岩藻糖基化LNT，获得五糖HMO(LNFP-I)。用于该反应的岩藻糖基转移酶是来自幽门螺杆菌的FutC酶(GenBankID：WP_080473865.1，但在C端具有两个额外的氨基酸(LG)，SEQID NO:6)。值得注意的是，其他HMO，例如LNT和LNT II存在于上述菌株产生的最终HMO共混物中，但仅为低浓度。

在本实施例中，证明了如何将glpR基因的缺失用作遗传工具来获得包含至多四种HMO的HMO混合物的特定目标组成，四种HMO包括LNFP-I、2’-FL、LNT II和LNT(按丰度排序)。本公开证明了如何可以有利地使用glpR基因的缺失来调节由菌株MP19和MP20产生的HMO共混物的组成。如表6所示，两种菌株之间的唯一区别是glpR基因的敲除。glpR的基因产物是DNA-结合转录阻遏物GlpR，它充当甘油-3-磷酸调节子的阻遏物，其构成在不同的操纵子中。其靶标之一是PglpF启动子，其最初发现于天然大肠杆菌基因glpF的前面，该基因编码甘油促进子GlpF。由于荚膜异多糖酸基因簇和编码用于HMO合成的MFS转运蛋白或糖基转移酶的异源基因处于PglpF启动子的控制之下，因此glpR基因的缺失消除了细胞中GlpR对来自所有PglpF启动子的转录所施加的抑制。通过这种方式，它可以增强宿主基因组中存在的来自所有基于PglpF的盒的基因表达，从而以多种方式影响整体HMO产生。

深孔试验结果

如图5所示，单一遗传修饰，即glpR基因的缺失，导致获得的HMO共混物中HMO的分布发生显著变化。glpR基因的缺失显著改变了2’-FL、LNT和LNT-II的形成，而LNFP-I的形成受到轻微影响。具体地，glpR+菌株MP19产生了由50％ LNFP-I和44％2’-FL组成的共混物，而与MP19相比，glpR-菌株MP20提供的共混物中2’-FL减少了15％，仅增加了5％ LNFP-I。此外，glpR缺失似乎与最终HMO共混物中较高的LNT和LNT-II分数相关(图5)。

与菌株MP19产生的共混物相比，glpR基因的缺失导致菌株MP20获得的共混物中总HMO浓度略有损失(7％)，即菌株MP19产生5.7mM的总糖，而MP20菌株产生5.3mM的HMO(数据未显示)。

总之，glpR基因的缺失改变了所得混合物中的个体HMO丰度，以这种方式，LNFP-I与2’-FL的比率(MP20)高于glpR+细胞(MP19)共混物中的比率。这种基因修饰还增加了所得共混物中LNT II和LNT的丰度，但它们仍然是最终混合物中丰度最低的糖。

实施例6-通过发酵温度调节生成LNFP-I、2’-FL和LNT的HMO共混物的变体

发酵所用菌株基因型的描述

基于之前报道的平台菌株(“MDO”)，进行表7中总结的修饰，以获得本研究中使用的LNFP-I生产菌株，即全染色体菌株MP21。该菌株能够产生四糖HMO(LNT)并进一步岩藻糖基化LNT，获得五糖HMO(LNFP-I)。用于该反应的岩藻糖基转移酶，即FutC酶α-1,2-岩藻糖基转移酶，源自幽门螺杆菌(Gen Bank ID：WP_080473865.1，但在C端具有两个额外的氨基酸(LG)SEQ ID NO:6)，发现其能够将LNT和乳糖作为底物进行岩藻糖基化，分别产生LNFP-I和2’-FL作为该菌株的主要产物。LNT也会积累，但程度较小，留下由LNFP-I、2’-FL和LNT组成的HMO共混物。在甚至更小的程度上，DFL(＝2’,3-二岩藻糖基乳糖)也从2’-FL的岩藻糖基化中获得，但如果乳糖可用性有限，则只能获得相当的量(另参见实施例7)。

发酵工艺描述

发酵在2L发酵罐生物反应器(Sartorius，Biostat B)中进行，从900mL限定的矿物培养基开始，其由30g/kg碳源(葡萄糖)、MgSO4x 7H2O、KOH、H3PO4、微量元素溶液、柠檬酸、消泡剂和硫胺素组成。微量金属溶液(TMS)含有硫酸盐形式的Mn、Cu、Fe、Zn和柠檬酸。通过接种在限定的基本培养基中生长的2％(v/v)预培养物来开始发酵。在耗尽批次培养基中所含的碳源后，使用预定的非线性曲线以碳限制方式连续供给含有葡萄糖、MgSO4 x 7H2O、TMS和H3PO4的无菌进料溶液。在开始进料葡萄糖一小时后，在30分钟内添加乳糖一水合物，浓度为75g/kg。通过用28％ NH4OH溶液滴定将整个发酵过程的pH控制在6.8。使用空气以1vvm进行通气，并将溶解氧控制在大于空气饱和度的30％。在葡萄糖进料开始后15分钟，发酵温度设定点从33℃降低至所研究的相应设定点，如表8和9所示。这些温度下降是在3小时内以线性斜坡进行的。发酵结束时间约为95-98小时，此时HMO混合物和乳糖的目标组成已达到。

在整个发酵过程中，取样以使用HPLC测定LNFP-I、2’-FL、LNT、LNT II、DFL、乳糖和其他少量副产物的浓度。将总发酵液样品在去离子水中稀释三倍并煮沸20分钟。随后以17000g离心3分钟，然后通过HPLC分析所得上清液。上述测量用于准确计算每种HMO相对于含有乳糖的HMO总和(“HMOL”)和不含乳糖的HMO(“HMO”)的比率。

发酵运行结果

图6描绘了MP21菌株在不同生产温度下发酵产生的三种主要HMO(即LNFP-I、2’-FL和LNT)以及受体乳糖的发展。图表显示每种化合物除以所有HMO和乳糖的总和(“HMOL”)的摩尔比。令人惊讶的是，虽然在所有情况下LNFP-I/HMOL摩尔比均增加至约45％，但2’-FL和LNT显示出高度依赖温度的行为。因此，在发酵结束时，2’-FL/HMOL摩尔比范围为20％至50％，而LNT/HMOL摩尔比范围为略低于1％至3.54％。此外，虽然2’-FL/HMOL在研究范围(25-32℃)内随温度成比例增加，但LNT/HMOL与温度成反比，即产生温度越低，LNT/HMOL摩尔比越高。所有发酵终点摩尔比均显示在表8中。由于在发酵结束时乳糖相对于HMOL可高达近33％，并且较低的水平不导致任何HMO/HMOL比率的突然变化，我们可以假设，可以充分控制发酵工艺，以确保最终发酵样品中具有极低乳糖残留水平的所需组成。除了改进发酵工艺以尽可能降低残留乳糖水平结束之外，还可以应用DSP操作(例如膜工艺)来选择性地降低乳糖浓度。因此，获得具有表9所示组成范围的最终产物是可行的。因此，产物范围可以如下：相对于所有HMO的总和LNFP-I[47-63]、2’-FL[31-51]和LNT[1-5]，或在63/31/5至47/51/1的LNFP-I/2’-FL/LNT组合中(全部以摩尔％计)。

实施例7-通过发酵期间乳糖浓度调节生成LNFP-I、2’-FL和LNT的HMO共混物的变体

在高或低乳糖工艺发酵中测试的菌株MP19和MP22基因型的描述

基于先前报道的平台菌株(“MDO”)，进行表10中总结的修饰以获得本研究中使用的LNFP-I生产菌株MP19和MP22，两者均为全染色体菌株。该菌株能够产生四糖HMO(LNT)并进一步岩藻糖基化LNT，获得五糖HMO(LNFP-I)。用于该反应的岩藻糖基转移酶，即FutC酶α-1,2-岩藻糖基转移酶，源自幽门螺杆菌(GenBankID：WP_080473865.1，但在C端具有两个额外的氨基酸(LG)，SEQ ID NO:6)，发现其能够使LNT岩藻糖基化以产生LNFP-I作为这些菌株的主要产物。同样，也产生其他HMO，以2’-FL、LNT和LNT-II作为主要副产物，浓度各不相同，具体取决于发酵中的生长条件，特别是发酵期间受体乳糖的浓度。在实施例6中，证明了如何使用发酵期间乳糖水平的调节来获得以显著量的LNFP-I、2’-FL、LNT和LNT-II包含多达四种HMO的HMO混合物的特定目标组成。因此，本公开涉及发酵期间乳糖添加如何可以有利地用于调节由菌株MP19和MP22产生的HMO共混物的组成。两种菌株之间的唯一区别在于选择用于整合异源糖基转移酶的基因组位点。

高乳糖水平和低乳糖水平的发酵工艺的描述

发酵在200mL DasBox生物反应器(Eppendorf，德国)中进行，从100mL限定的矿物培养基开始，由30g/kg碳源(葡萄糖)、MgSO4x 7H2O、KOH、NaOH、NH4H2PO4、KH2PO4、微量元素溶液、柠檬酸、消泡剂和硫胺素组成。微量金属溶液(TMS)含有硫酸盐形式的Mn、Cu、Fe、Zn和柠檬酸。通过接种在限定的基本培养基中生长的2％(v/v)预培养物来开始发酵。在耗尽批次培养基中所含的碳源后，使用预定的线性曲线以碳限制方式连续供给含有葡萄糖、MgSO4x7H2O、TMS和H3PO4的无菌进料溶液。

乳糖添加以两种不同的方式进行，具体取决于选择高乳糖工艺还是低乳糖工艺。在高乳糖工艺(“L2F20”)中，乳糖一水合物溶液通过两次推注添加，第一次在进料开始后的10小时，第二次在约70小EFT时。在低乳糖工艺(“L2F21”)中，乳糖作为葡萄糖进料溶液的一部分连续进料。如图7所示，这导致了以下乳糖浓度范围：高乳糖工艺30-80g/L，低乳糖工艺0-15g/L。

通过用14％ NH4OH溶液滴定将整个发酵过程的pH控制在6.8。使用空气将通气控制在1vvm，并且通过搅拌器速率控制溶解氧保持在大于空气饱和度的23％。开始进料葡萄糖后15分钟，发酵温度设定值从33℃降低至25℃。这种温度下降是立即进行的，没有斜坡。进行发酵直至观察到过度起泡的不稳定。

在整个发酵过程中，取样以使用HPLC测定LNFP-I、2’-FL、LNT、LNT-II、DFL、乳糖和其他少量副产物的浓度。将总发酵液样品在去离子水中稀释三倍并煮沸20分钟。随后以17000g离心3分钟，然后通过HPLC分析所得上清液。上述测量用于准确计算每种HMO相对于HMO总和(“HMO”)的比率。

发酵运行结果

四次发酵稳定运行至少68.7小时。在三个实例中，发酵后期出现过度起泡，而GDF17265则以非常稳定的方式运行了138.3小时。为了进行比较，表11描述了时间点68.7小时时发酵样品中的HMO组成。这些数字代表单个HMO LNFP-I、2’-FL、LNT和LNT-II的比率，作为与这四种HMO(包括DFL)总和(“HMO”)的比率，以摩尔％计。未显示DFL数字，因为该HMO仅以不大于0.3g/L的微量出现。如图7所示，这两种工艺允许将高乳糖工艺L2F20的乳糖水平维持在30-80g/L，将低乳糖工艺L2F21的乳糖水平维持在0-15g/L。两种发酵工艺在培养基组成、葡萄糖进料曲线和发酵工艺参数(例如温度、pH值和溶解氧)方面均相同。

此外，如图8所示，所有发酵中主要的HMO产物是LNFP-I，占产生的总HMO的65％至80％。该水平在发酵早期(即大约40小时)就已达到，并且自始至终几乎保持不变。此外，LNFP-I/HMO比率几乎与乳糖水平无关，即，对于所测试的两种菌株来说，在低乳糖工艺中，LNFP-I/HMO比率仅略高。

最后，图9a-c描绘了四次运行发酵液中三种产物比率2’-FL/HMO、LNT/HMO和LNTII/HMO的时间曲线。数据揭示了两种主要产物组成，它们高度依赖于乳糖浓度。在高乳糖工艺(L2F20)中，HMO产物分布为(按降序排列)LNFP-I>2’-FL>LNT>LNT II。在低乳糖工艺(L2F21)中，HMO产物分布为LNFP-I>LNT>LNT-II>＝2’-FL。这同样适用于所研究的两种菌株。因此，如表11所示，对于高乳糖工艺可以发现以下范围(以摩尔％计)：相对于所有HMO的总和，LNFP-I[47-63]、2’-FL[31-51]和LNT[1-5]，或在63/31/5至47/51/1的LNFP-I/2’-FL/LNT的组合中(全部以摩尔％计)。并且对于低乳糖工艺发现以下范围(以摩尔％计)：LNFP-I/HMO[66-70]、2’-FL/HMO[25-30]、LNT/HMO[3-4]、LNT-II/HMO[1-1.5]。

因此，乳糖浓度可以成为强大的控制工具，在主要含有LNFP-I的HMO共混物的产生期间实现3-4种主要HMO的预定、所需分布。

实施例8-Smob酶异源MFS转运蛋白Nec或YberC的伴随表达增加LNFP-I形成

本实施例描述了一种优化的菌株工程方法，用于构建具有高的LNFP-I与2’-FL比率的菌株，并且在培养物上清液中发现相当一部分的产物。

菌株MP8、MP23、MP24和MP25的基因型的描述

基于先前报道的平台菌株(“MDO”)，进行表12中总结的修饰以获得全染色体菌株MP8、MP23、MP24和MP25。该菌株可产生五糖HMO LNFP-I。来自脑膜炎奈瑟菌(N.meningitidis)的糖基转移酶LgtA(β-1,3-N-乙酰基-葡糖胺基转移酶)、来自幽门螺杆菌的GalTK(β-1,3-半乳糖基转移酶)和来自运动性硫曲霉菌的Smob(α-1,2-岩藻糖基转移酶)存在于所有四种菌株中。此外，菌株MP6表达来自伯氏耶尔森菌的主要促进子超家族(MFS)YberC的异源转运蛋白，而菌株MP5和MP7表达来自Rosenbergiella nectarea的异源MFS转运蛋白Nec。后两种菌株之间的唯一区别在于驱动nec基因表达的启动子的强度，即菌株MP5中存在PglpF-驱动的nec拷贝，而菌株MP7则在Plac启动子的控制下表达nec基因。

深孔试验结果

如“材料和方法部分”中所述，在深孔试验中对菌株进行表征，变化为使用了20％乳糖溶液(10ml pr 75ml)。每个样品中检测到的HMO浓度用于计算测试菌株的HMO含量的％定量差异，即nec-表达细胞和yberC-表达细胞的HMO含量相对于不表达异源转运蛋白的细胞的HMO含量的百分比。

新形成的感兴趣的HMO需要输出至细胞外部，以减轻细胞受到HMO施加的渗透压。糖输出蛋白的识别及其表达的精细平衡可能是此类生产系统成功的关键。然而，这项任务可能充满挑战性，因为只有感兴趣的HMO，而不是其前体或延长版本，才应由所选糖输出蛋白绑定和输出。

在本实施例中，Nec和YberC糖转运蛋白已显示能够将LNFP-I产物输出至细胞外。详细地，对于不表达MFS转运蛋白(菌株MP8)的细胞，在上清液中仅检测到总LNFP-I的24％，而在表达Nec转运蛋白的细胞培养物的上清液中检测到大约38％的合成LNFP-I(图10)。

此外，在菌株中引入nec或YberC糖输出蛋白导致细胞产生的HMO共混物中LNFP-I与2’-FL的比率发生变化。具体地，在具有MFS转运蛋白的菌株中，与不表达糖转运蛋白的菌株(菌株MP8)相比，该比率从6.7增加到大约7.8(图11)。

按照此处描述的方法，除LNFP-I之外的HMO仅占工程细胞输送的总HMO共混物的一小部分。在本实施例的框架中，将异源基因smob和nec或yberC引入已经产生LNT的大肠杆菌DH1 K12菌株的基因组中，可以有利地采用高拷贝数的lgtA基因来递送具有上述有益特征的高效LNFP-I细胞工厂。

总之，β-1,3-N-乙酰基-葡糖胺基转移酶LgtA、β-1,3-半乳糖基转移酶GalTK、α-1,2-岩藻糖基转移酶Smob和任一MFS转运蛋白Nec或YberC的平衡表达构成了用于生成具有较高LNFP-I与2’FL比率的HMO共混物的有效菌株工程策略。

序列表

<110> 帝斯曼知识产权资产管理有限公司（DSM IP ASSETS B.V.）

<120> 产生以LNFP-I和2’-FL作为主要化合物的HMO共混物分布的方法

<130> 34030-WO-PCT2

<150> PA202170247

<151> 2021-05-17

<150> PA202170390

<151> 2021-07-21

<160> 52

<170> BiSSAP 1.3.6

<210> 1

<211> 332

<212> PRT

<213> Neisseria meningitidis

<220>

<223> lgtA, β-1,3-N-acetyl-glucosaminyltransferase, GeneBank ID:

WP_033911473.1

<400> 1

Met Gln Pro Leu Val Ser Val Leu Ile Cys Ala Tyr Asn Val Glu Lys

1 5 10 15

Tyr Phe Ala Gln Ser Leu Ala Ala Val Val Asn Gln Thr Trp Arg Asn

20 25 30

Leu Glu Ile Leu Ile Val Asp Asp Gly Ser Thr Asp Gly Thr Leu Ala

35 40 45

Ile Ala Lys Asp Phe Gln Lys Arg Asp Ser Arg Ile Lys Ile Leu Ala

50 55 60

Gln Ala Gln Asn Ser Gly Leu Ile Pro Ser Leu Asn Ile Gly Leu Asp

65 70 75 80

Glu Leu Ala Lys Ser Gly Met Gly Glu Tyr Ile Ala Arg Thr Asp Ala

85 90 95

Asp Asp Ile Ala Ala Pro Asp Trp Ile Glu Lys Ile Val Gly Glu Met

100 105 110

Glu Lys Asp Arg Ser Ile Ile Ala Met Gly Ala Trp Leu Glu Val Leu

115 120 125

Ser Glu Glu Lys Asp Gly Asn Arg Leu Ala Arg His His Arg His Gly

130 135 140

Lys Ile Trp Lys Lys Pro Thr Arg Pro Glu Asp Ile Ala Asp Phe Phe

145 150 155 160

Pro Phe Gly Asn Pro Ile His Asn Asn Thr Met Ile Met Arg Arg Ser

165 170 175

Val Ile Asp Gly Gly Leu Arg Tyr Asn Thr Glu Arg Asp Trp Ala Glu

180 185 190

Asp Tyr Gln Phe Trp Tyr Asp Val Ser Lys Leu Gly Arg Leu Ala Tyr

195 200 205

Tyr Pro Glu Ala Leu Val Lys Tyr Arg Leu His Ala Asn Gln Val Ser

210 215 220

Ser Lys Tyr Ser Ile Arg Gln His Glu Ile Ala Gln Gly Ile Gln Lys

225 230 235 240

Thr Ala Arg Asn Asp Phe Leu Gln Ser Met Gly Phe Lys Thr Arg Phe

245 250 255

Asp Ser Leu Glu Tyr Arg Gln Ile Lys Ala Val Ala Tyr Glu Leu Leu

260 265 270

Glu Lys His Leu Pro Glu Glu Asp Phe Glu Arg Ala Arg Arg Phe Leu

275 280 285

Tyr Gln Cys Phe Lys Arg Thr Asp Thr Leu Pro Ala Gly Ala Trp Leu

290 295 300

Asp Phe Ala Ala Asp Gly Arg Met Arg Arg Leu Phe Thr Leu Arg Gln

305 310 315 320

Tyr Phe Gly Ile Leu His Arg Leu Leu Lys Asn Arg

325 330

<210> 2

<211> 334

<212> PRT

<213> Pasteurella multocida

<220>

<223> pmnagT, β-1,3-N-acetylglucosaminyl-transferase, GeneBankID:

WP_014390683.1

<400> 2

Met Glu Asn Lys Pro Leu Val Ser Val Leu Ile Cys Ala Tyr Asn Val

1 5 10 15

Glu Lys Tyr Ile Glu Glu Cys Ile Asn Ala Val Ile Asn Gln Thr Tyr

20 25 30

Lys Asn Leu Glu Ile Ile Ile Val Asn Asp Gly Ser Ser Asp Asn Thr

35 40 45

Tyr Phe Leu Leu Lys Lys Leu Ala Glu Lys Asp Asn Arg Ile Lys Ile

50 55 60

Leu Asn Phe Asn Asn His Ile Gly Ile Ile Ser Ala Leu Asn Glu Gly

65 70 75 80

Leu Lys Glu Ile Ala Gly Glu Tyr Ile Ala Arg Thr Asp Ser Asp Asp

85 90 95

Ile Thr Lys Pro Asp Trp Ile Glu Lys Ile Leu Thr Cys Met Gln Asn

100 105 110

Asp Pro Lys Ile Ile Ala Met Gly Ser Tyr Leu Thr Val Leu Ser Glu

115 120 125

Glu Asn Asn Gly Ser Val Leu Ala Asn His His Lys Asn Lys Val Glu

130 135 140

Trp Lys Asn Pro Leu Glu His Lys Asp Ile Val Glu Lys Met Leu Phe

145 150 155 160

Gly Asn Pro Ile His Asn Asn Ser Met Val Met Arg Ser Glu Ile Tyr

165 170 175

Thr Lys Tyr His Leu Ile Tyr Asp Pro Asp Tyr His Tyr Ala Glu Asp

180 185 190

Tyr Lys Phe Trp Leu Glu Val Ser Arg Ile Gly Lys Leu Ala Asn Tyr

195 200 205

Pro Glu Ser Leu Val Tyr Tyr Arg Leu His Arg Asn Gln Thr Ser Ser

210 215 220

Ile His Asn Ser Gln Gln Glu Ile Asn Gly Lys Lys Leu Arg Leu Gln

225 230 235 240

Ala Leu Asn Tyr Tyr Leu Lys Asp Leu Gly Ile Asp Tyr Gln Leu Pro

245 250 255

Glu Lys Phe Leu Phe Lys Asp Ile Ala Leu Leu Gln Glu Ile Phe Tyr

260 265 270

Glu Arg Gly Met Phe Arg Glu Asn Ile Ile Arg Arg Ile Ile Tyr Glu

275 280 285

Cys Tyr Leu Ser Leu Gly Glu Tyr Asn Tyr Lys Asp Ile Tyr Tyr Phe

290 295 300

Leu Ile Asn Lys Asn Asn Phe Leu Ser Ile Lys Asp Lys Phe Lys Ile

305 310 315 320

Ile Lys Lys Tyr Leu Arg Pro Asp Lys Tyr Ser Ser Thr Tyr

325 330

<210> 3

<211> 330

<212> PRT

<213> Haemophilus ducreyi

<220>

<223> HD9466, glycosyltransferase family 2 protein, GeneBank ID:

WP_010944479.1

<400> 3

Met Thr Thr Leu Val Ser Val Leu Ile Cys Ala Tyr Asn Val Glu Lys

1 5 10 15

Tyr Ile Asp Glu Cys Leu Asn Ala Val Ile Ala Gln Thr Tyr Lys Asn

20 25 30

Leu Glu Ile Ile Val Val Asn Asp Gly Ser Thr Asp Gly Thr Leu Ala

35 40 45

Lys Leu Arg Gln Phe Glu Ala Lys Asp Pro Arg Val Lys Ile Ile Asp

50 55 60

Asn Ile Val Asn Gln Gly Thr Ser Lys Ser Leu Asn Ile Gly Ile Gln

65 70 75 80

Tyr Cys Gln Gly Glu Ile Ile Ala Arg Thr Asp Ser Asp Asp Ile Val

85 90 95

Asp Ile His Trp Ile Glu Thr Leu Met Arg Glu Leu Asp Asn Ser Pro

100 105 110

Glu Thr Ile Ala Ile Ser Ala Tyr Leu Glu Phe Leu Ala Glu Lys Gly

115 120 125

Asn Gly Ser Lys Leu Ser Arg Ser Arg Lys His Gly Lys Asn Ala Glu

130 135 140

Asn Pro Ile Ser Ser Glu Ala Ile Ser Gln Arg Met Leu Phe Gly Asn

145 150 155 160

Pro Val His Asn Asn Val Ala Leu Val Arg Arg Lys Val Phe Ser Glu

165 170 175

Tyr Gly Leu Arg Phe Asp Pro Asp Tyr Ile His Ala Glu Asp Tyr Lys

180 185 190

Phe Trp Phe Glu Val Ser Lys Leu Gly Lys Met Arg Thr Tyr Pro Lys

195 200 205

Ala Leu Val Lys Tyr Arg Leu His Ala Thr Gln Val Ser Ser Ala Tyr

210 215 220

Asn Gln Lys Gln Arg Ser Ile Ala Lys Lys Ile Lys Arg Glu Ala Ile

225 230 235 240

Ser His Tyr Leu Gln Gln Tyr Gly Ile Gln Leu Pro Glu Lys Leu Thr

245 250 255

Ile His Asp Leu Phe Ser Ile Phe Ser Pro Gln Ile Glu Leu Ser Leu

260 265 270

Thr Val Ala Asn Lys Gln Glu Leu Phe Trp Ser Leu Ala Thr Ser Leu

275 280 285

Ser Glu Tyr His Phe Arg Asp Leu Leu Lys Ile Tyr Ser Leu Asp Ile

290 295 300

Phe His Gln Leu Ser Phe Lys Tyr Lys Lys Arg Ile Phe Arg Lys Phe

305 310 315 320

Leu Leu Pro Asn Arg Tyr Pro Ser Val Ile

325 330

<210> 4

<211> 439

<212> PRT

<213> Artificial Sequence

<220>

<223> galTK, β-1,3-galactosyltransferase, homologous to GeneBank ID:

BD182026.1

<400> 4

Met Ile Ser Val Tyr Ile Ile Ser Leu Lys Glu Ser Gln Arg Arg Leu

1 5 10 15

Asp Thr Glu Lys Leu Val Leu Glu Ser Asn Glu Lys Phe Lys Gly Arg

20 25 30

Cys Val Phe Gln Ile Phe Asp Ala Ile Ser Pro Lys His Glu Asp Phe

35 40 45

Glu Lys Phe Val Gln Glu Leu Tyr Asp Ser Ser Ser Leu Leu Lys Ser

50 55 60

Asp Trp Phe His Ser Asp Tyr Cys Tyr Gln Glu Leu Leu Pro Gln Glu

65 70 75 80

Phe Gly Cys Tyr Leu Ser His Tyr Leu Leu Trp Lys Glu Cys Val Lys

85 90 95

Leu Asn Gln Pro Val Val Ile Leu Glu Asp Asp Val Ala Leu Glu Ser

100 105 110

Asn Phe Met Gln Ala Leu Glu Asp Cys Leu Lys Ser Pro Phe Asp Phe

115 120 125

Val Arg Leu Tyr Gly His Tyr Trp Gly Gly His Lys Thr Asn Leu Cys

130 135 140

Ala Leu Pro Val Tyr Thr Glu Thr Glu Glu Ala Glu Ala Ser Ile Glu

145 150 155 160

Lys Thr Pro Ile Glu Asn Tyr Glu Val Thr Ser Pro Pro Pro Pro Asn

165 170 175

Pro Thr Arg Asp Thr Gln Gln Asp Phe Ile Thr Glu Thr Gln Gln Asp

180 185 190

Pro Lys Glu Leu Ser Glu Pro Cys Lys Ile Ala Pro Gln Lys Ile Ser

195 200 205

Phe Asn Gln Val Val Phe Lys Lys Ile Lys Arg Lys Leu Asn Arg Phe

210 215 220

Ile Gly Ser Ile Leu Ala Arg Thr Glu Val Tyr Lys Asn Ile Val Ala

225 230 235 240

Lys Tyr Asp Asp Leu Thr Thr Lys Tyr Asp Asp Leu Thr Thr Lys Tyr

245 250 255

Asp Asp Leu Thr Thr Lys Tyr Asp Asp Leu Thr Thr Lys Tyr Asp Asp

260 265 270

Leu Asn Lys Asn Ile Ala Glu Lys Tyr Asp Glu Leu Met Gly Lys Tyr

275 280 285

Glu Ser Leu Leu Ala Lys Glu Val Asn Ile Lys Glu Thr Phe Trp Glu

290 295 300

Ser Arg Ala Asp Ser Glu Lys Glu Ala Leu Phe Leu Asp His Phe Tyr

305 310 315 320

Leu Thr Ser Val Tyr Val Ala Thr Thr Ala Gly Tyr Tyr Leu Thr Pro

325 330 335

Lys Gly Ala Lys Thr Phe Ile Glu Ala Thr Glu Arg Phe Lys Ile Ile

340 345 350

Glu Pro Val Asp Met Phe Ile Asn Asn Pro Thr Tyr His Asp Ile Ala

355 360 365

Asn Phe Thr Tyr Val Pro Cys Pro Val Ser Leu Asn Lys His Ala Phe

370 375 380

Asn Ser Thr Ile Gln Asn Ala Lys Lys Pro Asp Ile Ser Leu Lys Pro

385 390 395 400

Pro Lys Lys Ser Tyr Phe Asp Asn Leu Phe Tyr His Lys Phe Asn Ala

405 410 415

Arg Lys Cys Leu Lys Ala Phe Asn Lys Tyr Ser Lys Gln Tyr Ala Pro

420 425 430

Leu Lys Thr Pro Lys Glu Val

435

<210> 5

<211> 262

<212> PRT

<213> Chromobacterium violaceum

<220>

<223> cvb3galT, β-1,3-galactosyltransferase, GeneBank ID:

WP_080969100.1

<400> 5

Met Asp Thr Ile Met Ile Lys Arg Pro Leu Val Ser Val Ile Leu Pro

1 5 10 15

Val Asn Lys Asn Asn Pro His Leu Glu Glu Ala Ile Gln Ser Ile Lys

20 25 30

Asn Gln Thr Tyr Lys Glu Leu Glu Leu Ile Ile Ile Ala Asn Asn Cys

35 40 45

Glu Asp Asn Phe Tyr Ser Leu Leu Leu Lys Tyr Gln Asp Gln Lys Thr

50 55 60

Lys Ile Ile Arg Thr Ser Ile Lys Tyr Leu Pro Phe Ser Leu Asn Leu

65 70 75 80

Gly Val His Leu Ser Gln Gly Glu Tyr Ile Ala Arg Met Asp Ser Asp

85 90 95

Asp Ile Ser Val Leu Asp Arg Ile Glu Lys Gln Val Lys Arg Phe Leu

100 105 110

Asn Thr Pro Glu Leu Ser Ile Leu Gly Ser Asn Val Glu Tyr Ile Asn

115 120 125

Glu Ala Ser Glu Ser Ile Gly Tyr Ser Asn Tyr Pro Leu Asp His Ser

130 135 140

Ser Ile Val Asn Ser Phe Pro Phe Arg Cys Asn Leu Ala His Pro Thr

145 150 155 160

Ile Met Val Lys Lys Glu Val Ile Thr Thr Leu Gly Gly Tyr Met Tyr

165 170 175

Gly Ser Leu Ser Glu Asp Tyr Asp Leu Trp Ile Arg Ala Ser Arg His

180 185 190

Gly Asn Phe Lys Phe Ser Asn Ile Asp Glu Pro Leu Leu Lys Tyr Arg

195 200 205

Ile His Lys Gly Gln Ala Thr Asn Lys Ser Asn Ala Tyr Asn Ile Phe

210 215 220

Ala Phe Asp Ser Ser Leu Lys Ile Arg Glu Phe Leu Leu Asn Gly Asn

225 230 235 240

Val Gln Tyr Leu Leu Gly Ala Ala Arg Gly Phe Phe Ala Phe Leu Tyr

245 250 255

Val Arg Phe Ile Lys Lys

260

<210> 6

<211> 302

<212> PRT

<213> Artificial Sequence

<220>

<223> FutC, α-1,2-fucosyltransferase, homolouge to GeneBank ID:

WP_080473865.1

<400> 6

Met Ala Phe Lys Val Val Gln Ile Cys Gly Gly Leu Gly Asn Gln Met

1 5 10 15

Phe Gln Tyr Ala Phe Ala Lys Ser Leu Gln Lys His Ser Asn Thr Pro

20 25 30

Val Leu Leu Asp Ile Thr Ser Phe Asp Trp Ser Asp Arg Lys Met Gln

35 40 45

Leu Glu Leu Phe Pro Ile Asp Leu Pro Tyr Ala Ser Ala Lys Glu Ile

50 55 60

Ala Ile Ala Lys Met Gln His Leu Pro Lys Leu Val Arg Asp Ala Leu

65 70 75 80

Lys Cys Met Gly Phe Asp Arg Val Ser Gln Glu Ile Val Phe Glu Tyr

85 90 95

Glu Pro Lys Leu Leu Lys Pro Ser Arg Leu Thr Tyr Phe Phe Gly Tyr

100 105 110

Phe Gln Asp Pro Arg Tyr Phe Asp Ala Ile Ser Pro Leu Ile Lys Gln

115 120 125

Thr Phe Thr Leu Pro Pro Pro Pro Glu Asn Asn Lys Asn Asn Asn Lys

130 135 140

Lys Glu Glu Glu Tyr Gln Cys Lys Leu Ser Leu Ile Leu Ala Ala Lys

145 150 155 160

Asn Ser Val Phe Val His Ile Arg Arg Gly Asp Tyr Val Gly Ile Gly

165 170 175

Cys Gln Leu Gly Ile Asp Tyr Gln Lys Lys Ala Leu Glu Tyr Met Ala

180 185 190

Lys Arg Val Pro Asn Met Glu Leu Phe Val Phe Cys Glu Asp Leu Glu

195 200 205

Phe Thr Gln Asn Leu Asp Leu Gly Tyr Pro Phe Met Asp Met Thr Thr

210 215 220

Arg Asp Lys Glu Glu Glu Ala Tyr Trp Asp Met Leu Leu Met Gln Ser

225 230 235 240

Cys Gln His Gly Ile Ile Ala Asn Ser Thr Tyr Ser Trp Trp Ala Ala

245 250 255

Tyr Leu Ile Glu Asn Pro Glu Lys Ile Ile Ile Gly Pro Lys His Trp

260 265 270

Leu Phe Gly His Glu Asn Ile Leu Cys Lys Glu Trp Val Lys Ile Glu

275 280 285

Ser His Phe Glu Val Lys Ser Gln Lys Tyr Asn Ala Leu Gly

290 295 300

<210> 7

<211> 292

<212> PRT

<213> Methylobacter tundripaludum

<220>

<223> Mtun, α-1,2-fucosyltransferase, GeneBank ID: WP_031437198.1

<400> 7

Met Val Ile Thr His Leu Ile Gly Gly Leu Gly Asn Gln Met Phe Gln

1 5 10 15

Tyr Ala Ala Gly Arg Ala Val Ser Leu Glu Arg Gly Val Ser Leu Ser

20 25 30

Leu Asp Ile Ser Gly Phe Ala Asn Tyr Gly Leu His Gln Gly Phe Glu

35 40 45

Leu Gln Arg Ile Phe Asn Cys Thr Ala Glu Ile Ala Asn Glu Ala Asp

50 55 60

Val Arg Gly Ile Leu Gly Trp Gln Ser Ser Pro Arg Ile Arg Gln Leu

65 70 75 80

Leu Ser Arg Gln Asn Met Ala Ile Phe Arg Arg Glu Gly Phe Val Val

85 90 95

Glu Pro His Phe His Tyr Trp Gln Gly Ile Lys Ser Val Pro Arg Asp

100 105 110

Cys Tyr Leu Thr Gly Tyr Trp Gln Ser Glu Gln Tyr Phe Leu Glu Ala

115 120 125

Ala Ala Gln Ile Arg Ala Asp Phe Thr Phe Lys Leu Pro Leu Asp Asn

130 135 140

Gln Asn Ile Glu Leu Ala Lys Gln Ile Asn Ala Val Asn Ala Val Ser

145 150 155 160

Leu His Val Arg Arg Gly Asp Tyr Ala Asn Thr Pro Glu Thr Thr Ala

165 170 175

Thr His Gly Leu Cys Ser Leu Asp Tyr Tyr Arg Val Ala Ile Arg His

180 185 190

Ile Ala Glu Gln Val Gln Gln Pro His Phe Phe Val Phe Ser Asp Asp

195 200 205

Ile Ala Trp Val Lys Asn Asn Leu Ser Ile Asp Phe Pro Cys Gln Tyr

210 215 220

Val Asp His Asn Gln Gly Ala Glu Ser Tyr Asn Asp Met Arg Leu Met

225 230 235 240

Ser Met Cys Arg His His Ile Ile Ala Asn Ser Ser Phe Ser Trp Trp

245 250 255

Gly Ala Trp Leu Asn Pro Asn Val Asn Lys Ile Val Val Ala Pro Ser

260 265 270

Arg Trp Phe Ala Lys Gln Thr Asp Val Arg Asp Leu Leu Pro Gln Gly

275 280 285

Trp Ile Lys Gln

290

<210> 8

<211> 292

<212> PRT

<213> Sulfuriflexus mobilis

<220>

<223> Smob, α-1,2-fucosyltransferase, GeneBank ID: WP_126455392.1

<400> 8

Met Ile Ile Ser Gln Ile Ile Gly Gly Leu Gly Asn Gln Met Phe Gln

1 5 10 15

Tyr Ala Ala Gly Arg Ala Leu Ser Leu Val Arg Gly Gln Pro Leu Leu

20 25 30

Leu Asp Val Thr Gly Phe Ala Gly Tyr Gly Leu His Gln Gly Phe Glu

35 40 45

Leu Gln Arg Val Phe Asp Cys Pro Ile Gly Ile Ala Thr Glu Glu Asp

50 55 60

Val Arg Gly Ile Leu Gly Trp Gln Phe Ser Ala Gly Ile Arg Arg Ile

65 70 75 80

Val Ala Arg Pro Gly Met Ala Ala Phe Arg Arg Lys Gly Phe Ile Val

85 90 95

Glu Pro His Phe His Tyr Trp Pro Glu Ile Lys Asn Val Pro Arg Asp

100 105 110

Cys Tyr Leu Leu Gly Tyr Trp Gln Ser Glu Arg Tyr Phe Arg Ala Ala

115 120 125

Thr Ala Asp Ile Arg Ala Asp Phe Ser Phe Lys Ser Pro Leu Val Asn

130 135 140

Arg Asn Ala Glu Thr Ala Ala Gln Ile Asp Gln Val Asn Ala Ile Ser

145 150 155 160

Leu His Met Arg Arg Gly Asp Tyr Val Asn Asn Pro Lys Thr Ser Ala

165 170 175

Thr His Gly Leu Cys Ser Leu Asp Tyr Tyr Gln Ala Ala Ile Lys Phe

180 185 190

Val Ser Glu Arg Val Glu Glu Pro Phe Phe Phe Ile Phe Ser Asp Asp

195 200 205

Ile Ala Trp Val Lys Ala Asn Leu Lys Leu Asp Phe Pro Cys Gln Tyr

210 215 220

Val Asp His Asn His Gly Ala Glu Ser Phe Asn Asp Met His Leu Met

225 230 235 240

Ser Leu Cys Gln His His Ile Ile Ala Asn Ser Ser Phe Ser Trp Trp

245 250 255

Gly Ala Trp Leu Asn Ser Asp Pro Lys Lys Ile Val Leu Ala Pro Lys

260 265 270

Lys Trp Phe Ala Asn Lys Asn Asn Ile Lys Asp Leu Phe Pro Pro Gly

275 280 285

Trp Val Ser Leu

290

<210> 9

<211> 203

<212> DNA

<213> Artificial Sequence

<220>

<223> PmglB_70UTR, variant of E. coli promoter for mglBAC

galactose/methyl-galactosidade transporter

<400> 9

tgcgtcgcca ttctgtcgca acacgccaga atgcggcggc gatcactaac tcaacaaatc 60

aggcgatgta accgctttca atctgtgagt gatttcacag tatcttaaca atgtgatagc 120

tatgattgca ccgtgcctac aagcatcgtg gaggtccgtg actttcacgc atacaacaaa 180

cattaaccaa ggaggaaaca gct 203

<210> 10

<211> 203

<212> DNA

<213> Artificial Sequence

<220>

<223> PmglB_70UTR_SD4, variant of E. coli promoter for mglBAC;

galactose/methyl-galactosidade transporter

<400> 10

tgcgtcgcca ttctgtcgca acacgccaga atgcggcggc gatcactaac tcaacaaatc 60

aggcgatgta accgctttca atctgtgagt gatttcacag tatcttaaca atgtgatagc 120

tatgattgca ccgtgcctac aagcatcgtg gaggtccgtg actttcacgc atacaacaaa 180

cattaaccaa ctaggaaaca gct 203

<210> 11

<211> 152

<212> DNA

<213> Klebsiella pneumoniae

<220>

<223> Promoter for scrYA sucrose genes

<400> 11

ggttaacggc ccactttgct ggcgacatca caattcttaa accggtttag caatttttat 60

tttcaccgcg ttaccgacat gtttaccata tcaactaaac cggtttagca aacattagca 120

cactcactga tttacctttg gatgtcacca ac 152

<210> 12

<211> 291

<212> DNA

<213> Artificial Sequence

<220>

<223> PgatY_70UTR, variant of E. coli promoter for gatYZABCD;

tagatose-1,6-bisP aldolase

<400> 12

cggcaaccta tgcctgatgc gacgctgaag cgtcttatca tgcctacata gcactgccac 60

gtatgtttac accgcatccg gcataaaaac acgcgcactt tgctacggct tccctatcgg 120

gaggccgttt ttttgccttt cactcctcga ataattttca tattgtcgtt tttgtgatcg 180

ttatctcgat atttaaaaac aaataatttc attatatttt gtgcctacaa gcatcgtgga 240

ggtccgtgac tttcacgcat acaacaaaca ttaaccaagg aggaaacagc t 291

<210> 13

<211> 300

<212> DNA

<213> Escherichia coli

<220>

<223> PglpF, E. Coli promoter sequence of glpFKX operon

<400> 13

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagga ggaaacagct 300

<210> 14

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD1, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 14

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaaatt cgaaacagct 300

<210> 15

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD10, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 15

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaactg agaaacagct 300

<210> 16

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD2, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 16

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagcg caaaacagct 300

<210> 17

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD3 variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 17

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagaa caaaacagct 300

<210> 18

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD4, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 18

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaacta ggaaacagct 300

<210> 19

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD5, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 19

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaaccg agaaacagct 300

<210> 20

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD6, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 20

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagag ctaaacagct 300

<210> 21

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD7, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 21

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagag caaaacagct 300

<210> 22

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD8, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 22

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagag aaaaacagct 300

<210> 23

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_SD9, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 23

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgataa gtttacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaaagg aaaaacagct 300

<210> 24

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_B29, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 24

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgattt aattacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagga ggaaacagct 300

<210> 25

<211> 300

<212> DNA

<213> Artificial Sequence

<220>

<223> PglpF_B29, variant of PglpF E. Coli promoter sequence of glpFKX

operon

<400> 25

gcggcacgcc ttgcagatta cggtttgcca cacttttcat ccttctcctg gtgacataat 60

ccacatcaat cgaaaatgtt aataaatttg ttgcgcgaat gatctaacaa acatgcatca 120

tgtacaatca gatggaataa atggcgcgat aacgctcatt ttatgacgag gcacacacat 180

tttaagttcg atatttctcg tttttgctcg ttaacgatca gaatacagca tgcctacaag 240

catcgtggag gtccgtgact ttcacgcata caacaaacat taaccaagga ggaaacagct 300

<210> 26

<211> 107

<212> DNA

<213> Artificial Sequence

<220>

<223> Plac_16UTR, variant of E. coli lac operon promoter

<400> 26

tgtgagttag ctcactcatt aggcacccca ggctttacac tttatgcttc cggctcgtat 60

gttgtgtgga attgtgagcg gataacaatt tcaaggagga aacagct 107

<210> 27

<211> 107

<212> DNA

<213> Escherichia coli

<220>

<223> Plac, lac operon promoter

<400> 27

tgtgagttag ctcactcatt aggcacccca ggctttacac tttatgcttc cggctcgtat 60

gttgtgtgga attgtgagcg gataacaatt tcacacagga aacagct 107

<210> 28

<211> 387

<212> PRT

<213> Rouxiella badensis

<220>

<223> Bad MFS transporter, GeneBank ID: WP_017489914.1

<400> 28

Met Ser Ser Arg Arg Leu Ser Ile Ile Phe Ala Thr Phe Leu Leu Val

1 5 10 15

Ser Phe Leu Thr Gly Ile Ala Gly Ala Leu Gln Ala Pro Thr Leu Ser

20 25 30

Leu Phe Leu Thr Asn Glu Val Lys Val Arg Pro Leu Trp Val Gly Leu

35 40 45

Phe Tyr Thr Val Asn Ala Leu Gly Gly Ile Val Ile Ser Phe Leu Leu

50 55 60

Ala Asn Tyr Ser Asp Lys Lys Gly Asp Arg Arg Lys Leu Leu Phe Phe

65 70 75 80

Cys Thr Leu Met Ala Ile Gly Asn Ser Leu Ile Phe Ala Tyr Ser Arg

85 90 95

Asp Tyr Leu Val Leu Ile Ser Val Gly Val Leu Leu Ala Ala Ile Gly

100 105 110

Asn Ala Ser Met Pro Gln Leu Phe Ala Leu Ala Arg Glu Tyr Ala Asp

115 120 125

Arg Ser Ala His Glu Val Val Met Phe Ser Ser Met Met Arg Ala Thr

130 135 140

Leu Ser Leu Ala Trp Val Leu Gly Pro Pro Ile Ser Phe Thr Leu Ala

145 150 155 160

Leu Asn Tyr Gly Phe Thr Leu Met Tyr Leu Cys Ala Ala Gly Val Phe

165 170 175

Ile Phe Ser Ala Leu Met Val Trp Phe Phe Leu Pro Ser Val Gly Arg

180 185 190

Ile Glu Gln Pro Val Asp Lys Val Val Val His Val Ser Ala Trp Lys

195 200 205

Asn Arg Asp Val Arg Leu Leu Phe Phe Ala Ser Leu Leu Met Trp Thr

210 215 220

Cys Asn Ile Met Tyr Ile Ile Asp Met Pro Leu Tyr Ile Thr Ser Asp

225 230 235 240

Leu Gly Leu Pro Glu Gly Leu Ala Gly Leu Leu Met Gly Ala Ala Ala

245 250 255

Gly Leu Glu Ile Pro Val Met Leu Ile Ala Gly Tyr Leu Val Lys Arg

260 265 270

Thr Gly Lys Arg Arg Leu Met Leu Cys Ala Ala Val Phe Gly Ile Leu

275 280 285

Phe Tyr Leu Gly Leu Val Leu Phe Gln Phe Lys Ala Ala Leu Met Ile

290 295 300

Leu Gln Leu Phe Asn Ala Ile Phe Ile Gly Ile Ile Ala Gly Ile Gly

305 310 315 320

Met Leu Tyr Phe Gln Asp Leu Met Pro Gly Arg Ala Gly Ser Ala Thr

325 330 335

Thr Leu Phe Thr Asn Ser Ile Ser Thr Gly Ala Ile Leu Ala Gly Val

340 345 350

Ile Gln Gly Thr Ile Val Gln Asn Phe Gly His Tyr Gln Val Tyr Trp

355 360 365

Met Ala Leu Ala Leu Ala Val Gly Ala Leu Val Leu Met Thr Arg Val

370 375 380

Lys Asn Val

385

<210> 29

<211> 394

<212> PRT

<213> Rosenbergiella nectarea

<220>

<223> Nec MFS transporter, GeneBank ID: WP_092672081.1

<400> 29

Met Gln Ser Phe Thr Pro Pro Ala Pro Lys Gly Gly Asn Pro Val Phe

1 5 10 15

Met Met Phe Met Leu Val Thr Phe Phe Val Ser Ile Ala Gly Ala Leu

20 25 30

Gln Ala Pro Thr Leu Ser Leu Tyr Leu Ser Gln Glu Leu Ala Ala Lys

35 40 45

Pro Phe Met Val Gly Leu Phe Phe Thr Ile Asn Ala Val Thr Gly Ile

50 55 60

Ile Ile Ser Phe Ile Leu Ala Lys Arg Ser Asp Arg Lys Gly Asp Arg

65 70 75 80

Arg Arg Leu Leu Met Phe Cys Cys Ala Met Ala Ile Ala Asn Ala Leu

85 90 95

Met Phe Ala Phe Val Arg Gln Tyr Val Val Leu Ile Thr Leu Gly Leu

100 105 110

Ile Leu Ser Ala Leu Thr Ser Val Val Met Pro Gln Leu Phe Ala Leu

115 120 125

Ala Arg Glu Tyr Ala Asp Arg Thr Gly Arg Glu Val Val Met Phe Ser

130 135 140

Ser Val Met Arg Thr Gln Met Ser Leu Ala Trp Val Ile Gly Pro Pro

145 150 155 160

Ile Ser Phe Ala Leu Ala Leu Asn Tyr Gly Phe Ile Thr Leu Tyr Leu

165 170 175

Val Ala Ala Ala Leu Phe Leu Leu Ser Leu Ile Leu Ile Lys Thr Thr

180 185 190

Leu Pro Ser Val Pro Arg Leu Tyr Pro Ala Glu Asp Leu Ala Lys Ser

195 200 205

Ala Ala Ser Gly Trp Lys Arg Thr Asp Val Arg Phe Leu Phe Ala Ala

210 215 220

Ser Val Leu Met Trp Val Cys Asn Leu Met Tyr Ile Ile Asp Met Pro

225 230 235 240

Leu Tyr Ile Ser Lys Ser Leu Gly Met Pro Glu Ser Phe Ala Gly Val

245 250 255

Leu Met Gly Thr Ala Ala Gly Leu Glu Ile Pro Val Met Leu Leu Ala

260 265 270

Gly Tyr Leu Ala Lys Arg Val Gly Lys Arg Pro Leu Val Ile Val Ala

275 280 285

Ala Val Cys Gly Leu Ala Phe Tyr Pro Ala Met Leu Val Phe His Gln

290 295 300

Gln Thr Gly Leu Leu Ile Ile Gln Leu Leu Asn Ala Val Phe Ile Gly

305 310 315 320

Ile Val Ala Gly Leu Val Met Leu Trp Phe Gln Asp Leu Met Pro Gly

325 330 335

Lys Ala Gly Ala Ala Thr Thr Leu Phe Thr Asn Ser Val Ser Thr Gly

340 345 350

Met Ile Phe Ala Gly Leu Cys Gln Gly Leu Leu Ser Asp Leu Leu Gly

355 360 365

His Gln Ala Ile Tyr Val Leu Ala Thr Val Leu Met Val Ile Ala Leu

370 375 380

Leu Leu Leu Leu Arg Val Lys Glu Gln Ala

385 390

<210> 30

<211> 393

<212> PRT

<213> Yersinia bercovieri

<220>

<223> YberC MFS transporter, GeneBank ID: EEQ08298.1

<400> 30

Met Lys Ser Ala Leu Thr Phe Ser Arg Arg Ile Asn Pro Val Phe Leu

1 5 10 15

Ala Phe Phe Val Val Ala Phe Leu Ser Gly Ile Ala Gly Ala Leu Gln

20 25 30

Ala Pro Thr Leu Ser Leu Phe Leu Ser Thr Glu Val Lys Val Arg Pro

35 40 45

Leu Trp Val Gly Leu Phe Tyr Thr Val Asn Ala Ile Ala Gly Ile Thr

50 55 60

Val Ser Phe Ile Leu Ala Lys Arg Ser Asp Ser Arg Gly Asp Arg Arg

65 70 75 80

Lys Leu Ile Met Val Cys Tyr Leu Met Ala Val Gly Asn Cys Leu Leu

85 90 95

Phe Ala Phe Asn Arg Asp Tyr Leu Thr Leu Ile Thr Ala Gly Val Leu

100 105 110

Leu Ala Ser Val Ala Asn Thr Ala Met Pro Gln Ile Phe Ala Leu Ala

115 120 125

Arg Glu Tyr Ala Asp Ser Ser Ala Arg Glu Val Val Met Phe Ser Ser

130 135 140

Ile Met Arg Ala Gln Leu Ser Leu Ala Trp Val Ile Gly Pro Pro Leu

145 150 155 160

Ser Phe Met Leu Ala Leu Asn Tyr Gly Phe Thr Leu Met Phe Ser Ile

165 170 175

Ala Ala Gly Ile Phe Val Leu Ser Ala Leu Val Val Trp Phe Ile Leu

180 185 190

Pro Ser Val Pro Arg Ala Glu Pro Val Val Asp Ala Pro Val Val Val

195 200 205

Gln Gly Ser Leu Phe Ala Asp Lys Asn Val Leu Leu Leu Phe Ile Ala

210 215 220

Ser Met Leu Met Trp Thr Cys Asn Thr Met Tyr Ile Ile Asp Met Pro

225 230 235 240

Leu Tyr Ile Thr Ala Ser Leu Gly Leu Pro Glu Arg Leu Ala Gly Leu

245 250 255

Leu Met Gly Thr Ala Ala Gly Leu Glu Ile Pro Ile Met Leu Leu Ala

260 265 270

Gly Tyr Ser Val Arg Tyr Phe Gly Lys Arg Lys Ile Met Leu Phe Ala

275 280 285

Val Leu Ala Gly Val Leu Phe Tyr Thr Gly Leu Val Leu Phe Lys Phe

290 295 300

Lys Thr Ala Leu Met Leu Leu Gln Ile Phe Asn Ala Ile Phe Ile Gly

305 310 315 320

Ile Val Ala Gly Ile Gly Met Leu Tyr Phe Gln Asp Leu Met Pro Gly

325 330 335

Arg Ala Gly Ala Ala Thr Thr Leu Phe Thr Asn Ser Ile Ser Thr Gly

340 345 350

Val Ile Leu Ala Gly Val Leu Gln Gly Gly Leu Thr Glu Thr Trp Gly

355 360 365

His Asp Ser Val Tyr Val Met Ala Met Val Leu Ser Ile Leu Ala Leu

370 375 380

Ile Ile Cys Ala Arg Val Arg Glu Ala

385 390

<210> 31

<211> 393

<212> PRT

<213> Yersinia frederiksenii

<220>

<223> Fred MFS transporter, GeneBank ID: WP_087817556.1

<400> 31

Met Lys Ser Ala Leu Thr Phe Ser Arg Arg Ile Asn Pro Val Phe Leu

1 5 10 15

Ala Phe Phe Val Val Ala Phe Leu Ser Gly Ile Ala Gly Ala Leu Gln

20 25 30

Ala Pro Thr Leu Ser Leu Phe Leu Ser Thr Glu Val Lys Val Arg Pro

35 40 45

Leu Trp Val Gly Leu Phe Tyr Thr Val Asn Ala Ile Ala Gly Ile Thr

50 55 60

Val Ser Phe Val Leu Ala Lys Arg Ser Asp Leu Arg Gly Asp Arg Arg

65 70 75 80

Lys Leu Ile Leu Val Cys Tyr Leu Met Ala Val Gly Asn Cys Leu Leu

85 90 95

Phe Ala Phe Asn Arg Asp Tyr Leu Thr Leu Ile Thr Ala Gly Val Leu

100 105 110

Leu Ala Ala Val Ala Asn Thr Ala Met Pro Gln Ile Phe Ala Leu Ala

115 120 125

Arg Glu Tyr Ala Asp Asn Ser Ala Arg Glu Val Val Met Phe Ser Ser

130 135 140

Ile Met Arg Ala Gln Leu Ser Leu Ala Trp Val Ile Gly Pro Pro Leu

145 150 155 160

Ser Phe Met Leu Ala Leu Asn Tyr Gly Phe Thr Leu Met Phe Cys Ile

165 170 175

Ala Ala Gly Ile Phe Val Leu Ser Ala Leu Val Val Trp Phe Ile Leu

180 185 190

Pro Ser Val Gln Arg Ala Glu Pro Val Met Asp Ala Pro Thr Val Ala

195 200 205

Gln Gly Ser Leu Phe Ala Asp Lys Asp Val Leu Leu Leu Phe Ile Ala

210 215 220

Ser Met Leu Met Trp Thr Cys Asn Thr Met Tyr Ile Ile Asp Met Pro

225 230 235 240

Leu Tyr Ile Thr Ala Ser Leu Gly Leu Pro Glu Arg Leu Ala Gly Leu

245 250 255

Leu Met Gly Thr Ala Ala Gly Leu Glu Ile Pro Ile Met Leu Leu Ala

260 265 270

Gly Tyr Ser Val Arg Arg Phe Gly Lys Arg Lys Ile Met Leu Phe Ala

275 280 285

Val Leu Ala Gly Val Leu Phe Tyr Thr Gly Leu Val Leu Phe Lys Phe

290 295 300

Lys Ser Ala Leu Met Leu Leu Gln Ile Phe Asn Ala Ile Phe Ile Gly

305 310 315 320

Ile Val Ala Gly Ile Gly Met Leu Tyr Phe Gln Asp Leu Met Pro Gly

325 330 335

Arg Ala Gly Ala Ala Thr Thr Leu Phe Thr Asn Ser Ile Ser Thr Gly

340 345 350

Val Ile Leu Ala Gly Val Leu Gln Gly Val Leu Thr Glu Thr Trp Gly

355 360 365

His Asn Ser Val Tyr Val Met Ala Met Ile Leu Ala Ile Leu Ser Leu

370 375 380

Ile Ile Cys Ala Arg Val Arg Glu Ala

385 390

<210> 32

<211> 392

<212> PRT

<213> Pantoea vagans

<220>

<223> Vag MFS transporter, GeneBank ID: WP_048785139.1

<400> 32

Met Lys Ser Leu Leu Thr Arg Lys Arg Arg Ile Asn Pro Val Phe Leu

1 5 10 15

Ala Phe Met Ala Ala Ser Phe Met Ile Gly Val Ala Gly Ala Leu Gln

20 25 30

Ala Pro Thr Leu Ser Leu Phe Leu Thr Arg Glu Val Gln Ala Arg Pro

35 40 45

Leu Trp Val Gly Leu Phe Phe Thr Val Asn Ala Ile Ala Gly Ile Val

50 55 60

Val Ser Met Leu Val Ala Lys Arg Ser Asp Ser Arg Gly Asp Arg Arg

65 70 75 80

Thr Leu Ile Leu Phe Cys Cys Ala Met Ala Phe Cys Asn Ala Leu Leu

85 90 95

Phe Ala Phe Thr Arg His Tyr Leu Thr Leu Ile Thr Leu Gly Val Leu

100 105 110

Leu Ser Ala Leu Ala Ser Val Ser Met Pro Gln Ile Phe Ala Leu Ala

115 120 125

Arg Glu Tyr Ala Asp Gln Ser Ala Arg Glu Ala Val Met Phe Ser Ser

130 135 140

Val Met Arg Ala Gln Leu Ser Leu Ala Trp Val Ile Gly Pro Pro Leu

145 150 155 160

Ser Phe Ala Leu Ala Leu Asn Phe Gly Phe Val Thr Leu Phe Leu Val

165 170 175

Ala Ala Ala Leu Phe Leu Val Cys Ile Leu Leu Ile Lys Phe Thr Leu

180 185 190

Pro Ser Val Pro Arg Ala Glu Pro Leu Met Arg Ser Gly Gly Met Pro

195 200 205

Leu Ser Gly Trp Arg Asp Arg Asp Val Arg Leu Leu Phe Ile Ala Ser

210 215 220

Val Thr Met Trp Thr Cys Asn Thr Met Tyr Ile Ile Asp Met Pro Leu

225 230 235 240

Tyr Ile Ser Val Thr Leu Gly Leu Pro Glu Lys Leu Ala Gly Leu Leu

245 250 255

Met Gly Thr Ala Ala Gly Leu Glu Ile Pro Val Met Leu Leu Ala Gly

260 265 270

His Tyr Ala Lys Arg Val Gly Lys Arg Asn Leu Met Leu Ile Ala Val

275 280 285

Ala Ala Gly Val Leu Phe Tyr Ala Gly Leu Ala Met Phe Ala Ser Gln

290 295 300

Thr Ala Leu Met Ala Leu Gln Leu Phe Asn Ala Val Phe Ile Gly Ile

305 310 315 320

Ile Ala Gly Ile Gly Met Leu Trp Phe Gln Asp Leu Met Pro Gly Arg

325 330 335

Pro Gly Ala Ala Thr Thr Met Phe Thr Asn Ser Ile Ser Thr Gly Met

340 345 350

Ile Leu Ala Gly Val Ile Gln Gly Thr Leu Ser Glu Arg Phe Gly His

355 360 365

Ile Ala Val Tyr Trp Leu Ala Leu Gly Leu Ala Val Ala Ala Phe Ala

370 375 380

Met Ser Ala Arg Val Lys Asn Val

385 390

<210> 33

<211> 398

<212> PRT

<213> Serratia marcescens

<220>

<223> Marc MFS transporter, GeneBank ID: WP_060448169.1

<400> 33

Met Gln Arg Leu Ser Arg Leu Ser Leu Arg Ile Asn Pro Ile Phe Ala

1 5 10 15

Ala Phe Leu Leu Ile Ala Phe Leu Ser Gly Ile Ala Gly Ala Leu Leu

20 25 30

Thr Pro Thr Leu Ser Leu Phe Leu Thr Thr Glu Val Lys Val Arg Pro

35 40 45

Leu Trp Val Gly Leu Phe Tyr Thr Ala Asn Ala Val Ala Gly Ile Val

50 55 60

Val Ser Phe Leu Leu Ala Lys Arg Ser Asp Thr Arg Gly Asp Arg Arg

65 70 75 80

Arg Leu Ile Leu Leu Cys Cys Leu Met Ala Val Gly Asn Cys Leu Leu

85 90 95

Phe Ala Phe Asn Arg Asp Tyr Leu Thr Leu Ile Thr Ala Gly Val Leu

100 105 110

Met Ser Ala Val Ala Asn Thr Ala Met Pro Gln Ile Phe Ala Leu Ala

115 120 125

Arg Glu Tyr Ala Asp Ser Glu Ala Arg Glu Val Val Met Phe Ser Ser

130 135 140

Val Met Arg Ala Gln Leu Ser Leu Ala Trp Val Ile Gly Pro Pro Leu

145 150 155 160

Ser Phe Ala Leu Ala Leu Asn Tyr Gly Phe Thr Val Met Phe Leu Ile

165 170 175

Ala Ala Val Thr Phe Ala Val Cys Val Leu Leu Val Gly Phe Met Leu

180 185 190

Pro Ser Val Pro Arg Ala Ala Glu Asn Glu Gly Leu Gln Gly Gly Val

195 200 205

Ser Ala Pro Ile Ala Pro Ala Ser Ala Trp Arg Asn Arg Asp Val Arg

210 215 220

Leu Leu Phe Ile Ala Ser Met Leu Met Trp Thr Cys Asn Thr Leu Tyr

225 230 235 240

Ile Ile Asp Met Pro Leu Tyr Ile Thr Ala Asp Leu Gly Leu Pro Glu

245 250 255

Gly Leu Ala Gly Val Leu Met Gly Thr Ala Ala Gly Leu Glu Ile Pro

260 265 270

Ala Met Leu Leu Ala Gly Tyr Tyr Val Lys Arg Phe Gly Lys Arg Asn

275 280 285

Met Met Leu Leu Ala Val Val Ala Gly Val Leu Phe Tyr Leu Gly Leu

290 295 300

Thr Val Leu Glu Ser Lys Pro Ala Leu Ile Ala Leu Gln Leu Leu Asn

305 310 315 320

Ala Val Phe Ile Gly Ile Val Ala Gly Ile Gly Met Leu Tyr Phe Gln

325 330 335

Asp Leu Met Pro Gly Arg Pro Gly Ala Ala Thr Thr Leu Phe Thr Asn

340 345 350

Ser Ile Ser Thr Gly Val Ile Leu Ala Gly Val Leu Gln Gly Ala Leu

355 360 365

Val Glu Asn Leu Gly His Gly Ser Val Tyr Trp Met Ala Ala Leu Leu

370 375 380

Ala Leu Ala Ala Leu Gly Met Ser Ala Lys Val Arg Glu Val

385 390 395

<210> 34

<211> 505

<212> PRT

<213> Klebsiella pneumoniae

<220>

<223> ScrY, sucrose porin, GeneBank ID CAA40657.1

<400> 34

Met Tyr Lys Lys Arg Lys Leu Ala Ile Leu Ile Ala Leu Leu Thr Gly

1 5 10 15

Thr Ala Ala Ala His Gly Gln Thr Asp Leu Asn Ser Ile Glu Ala Arg

20 25 30

Leu Ala Ala Leu Glu Lys Arg Leu Gln Asp Ala Glu Thr Arg Ala Ser

35 40 45

Thr Ala Glu Ser Arg Ala Ala Ser Ala Glu Gln Lys Val Gln Gln Leu

50 55 60

Thr Gln Gln Gln Gln Gln Thr Gln Ala Thr Thr Gln Gln Val Ala Arg

65 70 75 80

Arg Thr Thr Gln Leu Glu Glu Lys Ala Glu Arg Pro Gly Gly Phe Glu

85 90 95

Phe His Gly Tyr Ala Arg Ser Gly Val Ile Met Asn Asp Ser Ala Ala

100 105 110

Ser Thr Lys Ser Gly Ala Tyr Met Thr Pro Ala Gly Glu Thr Gly Gly

115 120 125

Ala Ile Gly Arg Leu Gly Asn Gln Ala Asp Thr Tyr Val Glu Met Asn

130 135 140

Leu Glu His Lys Gln Thr Leu Asp Asn Gly Ala Thr Thr Arg Phe Lys

145 150 155 160

Val Met Val Ala Asp Gly Gln Thr Thr Tyr Asn Asp Trp Thr Ala Ser

165 170 175

Ser Ser Asp Leu Asn Val Arg Gln Ala Phe Val Glu Leu Gly Asn Leu

180 185 190

Pro Thr Phe Glu Gly Pro Phe Lys Gly Ser Thr Leu Trp Ala Gly Lys

195 200 205

Arg Phe Asp Arg Asp Asn Phe Asp Ile His Trp Ile Asp Ser Asp Val

210 215 220

Val Phe Leu Ala Gly Thr Gly Gly Gly Ile Tyr Asp Val Lys Trp Asn

225 230 235 240

Asp Ser Leu Arg Ser Asn Phe Ser Leu Tyr Gly Arg Asn Phe Gly Asp

245 250 255

Ile Ala Asp Ser Ser Asn Ser Val Gln Asn Tyr Ile Val Ser Met Asn

260 265 270

Asn Phe Ala Gly Pro Val Gln Met Met Val Ser Gly Met Arg Ala Lys

275 280 285

Asp Asn Asp Asp Arg Gln Asp Ala Asn Gly Asn Leu Val Lys Gly Asp

290 295 300

Ala Ala Asn Thr Gly Val His Ala Leu Leu Gly Leu His Asn Glu Ser

305 310 315 320

Phe Tyr Gly Leu Arg Asp Gly Thr Ser Lys Thr Ala Leu Leu Tyr Gly

325 330 335

His Gly Leu Gly Ala Glu Val Lys Gly Ile Gly Ser Asp Gly Ala Leu

340 345 350

Arg Pro Gly Ala Asn Thr Trp Arg Phe Ala Ser Tyr Gly Thr Thr Pro

355 360 365

Leu Ser Asp Arg Trp Phe Ile Ala Pro Ala Val Leu Ala Gln Ser Ser

370 375 380

Lys Asp Arg Tyr Val Asp Gly Asp Ser Tyr Gln Trp Ala Thr Leu Asn

385 390 395 400

Leu Arg Leu Ile Gln Glu Val Thr Gln Asn Phe Ala Leu Ala Trp Glu

405 410 415

Gly Ser Tyr Gln Tyr Met Asp Leu Gln Pro Glu Gly Tyr Asn Asp Arg

420 425 430

His Ala Val Asn Gly Ser Phe Tyr Lys Leu Thr Phe Ala Pro Thr Phe

435 440 445

Lys Val Gly Ser Ile Gly Asp Phe Phe Ser Arg Pro Glu Ile Arg Phe

450 455 460

Tyr Thr Ser Trp Met Asp Trp Ser Lys Lys Leu Asp Asn Tyr Ala Asn

465 470 475 480

Asp Asp Ala Leu Gly Ser Asn Gly Phe Lys Ser Gly Gly Glu Trp Ser

485 490 495

Phe Gly Met Gln Met Glu Thr Trp Phe

500 505

<210> 35

<211> 456

<212> PRT

<213> Klebsiella pneumoniae

<220>

<223> ScrA, sucrose-specific enzyme II, GeneBank ID: CAA40658.1

<400> 35

Met Asp Phe Glu Gln Ile Ser Arg Ser Leu Leu Pro Leu Leu Gly Gly

1 5 10 15

Lys Glu Asn Ile Ala Ser Ala Ala His Cys Ala Thr Arg Leu Arg Leu

20 25 30

Val Leu Val Asp Asp Ala Leu Ala Asp Gln Gln Ala Ile Gly Lys Ile

35 40 45

Asp Gly Val Lys Gly Cys Phe Arg Asn Ala Gly Gln Met Gln Ile Ile

50 55 60

Phe Gly Thr Gly Val Val Asn Lys Val Tyr Ala Ala Phe Ile Gln Ala

65 70 75 80

Ala Gly Ile Ser Glu Ser Ser Lys Ser Glu Ala Ala Asp Leu Ala Ala

85 90 95

Lys Lys Leu Asn Pro Phe Gln Arg Ile Ala Arg Leu Leu Ser Asn Ile

100 105 110

Phe Val Pro Ile Ile Pro Ala Ile Val Ala Ser Gly Leu Leu Met Gly

115 120 125

Leu Leu Gly Met Val Lys Thr Tyr Gly Trp Val Asp Pro Ser Asn Ala

130 135 140

Leu Tyr Ile Met Leu Asp Met Cys Ser Ser Ala Ala Phe Ile Ile Leu

145 150 155 160

Pro Ile Leu Ile Gly Phe Thr Ala Ala Arg Glu Phe Gly Gly Asn Pro

165 170 175

Tyr Leu Gly Ala Thr Leu Gly Gly Ile Leu Thr His Pro Ala Leu Thr

180 185 190

Asn Ala Trp Gly Val Ala Ala Gly Phe His Thr Met Asn Phe Phe Gly

195 200 205

Ile Glu Val Ala Met Ile Gly Tyr Gln Gly Thr Val Phe Pro Val Leu

210 215 220

Leu Ala Val Trp Phe Met Ser Met Val Glu Lys Arg Leu Arg Arg Val

225 230 235 240

Ile Pro Asp Ala Leu Asp Leu Ile Leu Thr Pro Phe Leu Thr Val Ile

245 250 255

Ile Ser Gly Phe Ile Ala Leu Leu Leu Ile Gly Pro Ala Gly Arg Ala

260 265 270

Leu Gly Asp Gly Ile Ser Phe Ile Leu Ser Thr Leu Ile Ser His Ala

275 280 285

Gly Trp Leu Ala Gly Leu Leu Phe Gly Gly Leu Tyr Ser Val Ile Val

290 295 300

Ile Thr Gly Ile His His Ser Phe His Ala Ile Glu Ala Gly Leu Leu

305 310 315 320

Gly Asn Pro Ser Ile Gly Val Asn Phe Leu Leu Pro Ile Trp Ala Met

325 330 335

Ala Asn Val Ala Gln Gly Gly Ala Cys Phe Ala Val Trp Phe Lys Thr

340 345 350

Lys Asp Ala Lys Ile Lys Ala Ile Thr Leu Pro Ser Ala Phe Ser Ala

355 360 365

Met Leu Gly Ile Thr Glu Ala Ala Ile Phe Gly Ile Asn Leu Arg Phe

370 375 380

Val Lys Pro Phe Ile Ala Ala Leu Val Gly Gly Ala Ala Gly Gly Ala

385 390 395 400

Trp Val Val Ser Met His Val Tyr Met Thr Ala Val Gly Leu Thr Ala

405 410 415

Ile Pro Gly Met Ala Ile Val Gln Ala Ser Ser Leu Leu Asn Tyr Ile

420 425 430

Ile Gly Met Ala Ile Ala Phe Ala Val Ala Phe Ala Leu Ser Leu Thr

435 440 445

Leu Lys Tyr Lys Thr Asp Ala Glu

450 455

<210> 36

<211> 466

<212> PRT

<213> Salmonella enterica subsp. enterica serovar Typhimurium

<220>

<223> ScrB, beta-fructofuranosidase, GeneBank ID: CAA47974.1

<400> 36

Met Ser Leu Pro Ser Arg Leu Pro Ala Ile Leu Gln Ala Val Met Gln

1 5 10 15

Gly Gln Pro Arg Ala Leu Ala Asp Ser His Tyr Pro Arg Trp His His

20 25 30

Ala Pro Val Thr Gly Leu Met Asn Asp Pro Asn Gly Phe Ile Glu Phe

35 40 45

Ala Gly Arg Tyr His Leu Phe Tyr Gln Trp Asn Pro Leu Ala Cys Asp

50 55 60

His Thr Phe Lys Cys Trp Ala His Trp Ser Ser Ile Asp Leu Leu His

65 70 75 80

Trp Gln His Glu Pro Ile Ala Leu Met Pro Asp Glu Glu Tyr Asp Arg

85 90 95

Asn Gly Cys Tyr Ser Gly Ser Ala Val Asp Asn Asn Gly Thr Leu Thr

100 105 110

Leu Cys Tyr Thr Gly Asn Val Lys Phe Ala Glu Gly Gly Arg Thr Ala

115 120 125

Trp Gln Cys Leu Ala Thr Glu Asn Ala Asp Gly Thr Phe Arg Lys Ile

130 135 140

Gly Pro Val Leu Pro Leu Pro Glu Gly Tyr Thr Gly His Val Arg Asp

145 150 155 160

Pro Lys Val Trp Arg His Glu Asp Leu Trp Tyr Met Val Leu Gly Ala

165 170 175

Gln Asp Arg Gln Lys Arg Gly Lys Val Leu Leu Phe Ser Ser Ala Asp

180 185 190

Leu His Gln Trp Thr Ser Met Gly Glu Ile Ala Gly His Gly Ile Asn

195 200 205

Gly Leu Asp Asp Val Gly Tyr Met Trp Glu Cys Pro Asp Leu Phe Pro

210 215 220

Leu Gly Asp Gln His Ile Leu Ile Cys Cys Pro Gln Gly Ile Ala Arg

225 230 235 240

Glu Glu Glu Cys Tyr Leu Asn Thr Tyr Pro Ala Val Trp Met Ala Gly

245 250 255

Glu Phe Asp Tyr Ala Ala Gly Ala Phe Arg His Gly Glu Leu His Glu

260 265 270

Leu Asp Ala Gly Phe Glu Phe Tyr Ala Pro Gln Thr Met Leu Thr Ser

275 280 285

Asp Gly Arg Arg Leu Leu Val Gly Trp Met Gly Val Pro Glu Gly Glu

290 295 300

Glu Met Leu Gln Pro Thr Leu Asn Asn Gly Trp Ile His Gln Met Thr

305 310 315 320

Cys Leu Arg Glu Leu Glu Phe Ile Asn Gly Gln Leu Tyr Gln Arg Pro

325 330 335

Leu Arg Glu Leu Ser Ala Leu Arg Gly Glu Ala Asn Gly Trp Ser Gly

340 345 350

Asn Ala Leu Pro Leu Ala Pro Met Glu Ile Asp Leu Gln Thr Arg Gly

355 360 365

Gly Asp Met Leu Ser Leu Asp Phe Gly Gly Val Leu Thr Leu Glu Cys

370 375 380

Asp Ala Ser Gly Leu Arg Leu Ala Arg Arg Ser Leu Ala Ser Asp Glu

385 390 395 400

Met His Tyr Arg Tyr Trp Arg Gly Asn Val Arg Ser Leu Arg Val Phe

405 410 415

Ile Asp Gln Ser Ser Val Glu Ile Phe Ile Asn Gly Gly Glu Gly Val

420 425 430

Met Ser Ser Arg Tyr Phe Pro Ala Cys Ser Gly Gln Leu Thr Phe Ser

435 440 445

Gly Ile Thr Pro Asp Ala Phe Cys Tyr Trp Pro Leu Arg Thr Cys Met

450 455 460

Val Glu

465

<210> 37

<211> 334

<212> PRT

<213> Salmonella enterica subsp. enterica serovar Typhimurium

<220>

<223> ScrR, sucrose repressor, GeneBank ID: CAA47975.1

<400> 37

Met Lys Thr Lys Arg Val Thr Ile Lys Asp Ile Ala Glu Gln Ala Gly

1 5 10 15

Val Ser Lys Ala Thr Ala Ser Leu Val Leu Asn Gly Arg Gly Lys Glu

20 25 30

Leu Arg Val Ala Gln Glu Thr Arg Glu Arg Val Leu Ser Ile Ala Arg

35 40 45

Lys His His Tyr Gln Pro Ser Ile His Ala Arg Ser Leu Arg Asn Asn

50 55 60

Arg Ser His Thr Ile Gly Leu Val Val Pro Glu Ile Thr Asn His Gly

65 70 75 80

Phe Ala Val Phe Ala His Glu Leu Glu Met Leu Cys Arg Glu Ala Gly

85 90 95

Val Gln Leu Leu Ile Ser Cys Thr Asp Glu Asn Pro Gly Gln Glu Ser

100 105 110

Val Val Val Asn Asn Met Ile Ala Arg Gln Val Asp Gly Met Ile Val

115 120 125

Ala Ser Cys Met His Asn Asp Ala Asp Tyr Leu Lys Leu Ser Gln Gln

130 135 140

Leu Pro Val Val Leu Phe Asp Arg Cys Pro Asn Glu Ser Ala Leu Pro

145 150 155 160

Leu Val Met Thr Asp Ser Ile Thr Pro Thr Ala Glu Leu Ile Ser Arg

165 170 175

Ile Ala Pro Gln His Ser Asp Glu Phe Trp Phe Leu Gly Gly Gln Ala

180 185 190

Arg Leu Ser Pro Ser Arg Asp Arg Leu Thr Gly Phe Thr Gln Gly Leu

195 200 205

Ala Gln Ala Gly Ile Ala Leu Arg Pro Glu Trp Val Ile Asn Gly Asn

210 215 220

Tyr His Pro Ser Ser Gly Tyr Glu Met Phe Ala Ala Leu Cys Ala Arg

225 230 235 240

Leu Gly Arg Pro Pro Lys Ala Leu Phe Thr Ala Ala Cys Gly Leu Leu

245 250 255

Glu Gly Val Leu Arg Tyr Met Ser Gln His His Leu Leu Asp Ser Asp

260 265 270

Ile His Leu Thr Ser Phe Asp Asp His Tyr Leu Tyr Asp Ser Leu Ser

275 280 285

Leu Arg Ile Asp Thr Val Gln Gln Asp Asn Arg Gln Leu Ala Trp His

290 295 300

Cys Tyr Asp Leu Ile Ser Gln Leu Ile Glu Gly Asp Thr Pro Glu Thr

305 310 315 320

Leu Gln Arg Tyr Leu Pro Ala Thr Leu Gln Phe Arg His Gln

325 330

<210> 38

<211> 483

<212> PRT

<213> Avibacterium gallinarum

<220>

<223> SacC_AgaI, glycoside hydrolase family 32 protein, GeneBank ID:

WP_103853210.1

<400> 38

Met Ile Ile Phe Asn Glu Gly Lys Tyr Lys Ser Leu Tyr Ala Ala Glu

1 5 10 15

Gln Gly Glu Leu Glu Lys Ile Ala Gln Thr Val Ala Gln Asp Gln Asp

20 25 30

Phe Arg Pro Val Tyr His Leu Ala Pro Pro Thr Gly Leu Leu Asn Asp

35 40 45

Pro Asn Gly Leu Ile Phe Asp Gly Glu Lys Tyr His Leu Phe Tyr Gln

50 55 60

Trp Tyr Pro Phe Asp Ala Leu His Gly Met Lys His Trp Gln His Phe

65 70 75 80

Ile Thr Gln Asp Phe Lys Gln Phe Ser Gln Ala Asp Leu Leu Val Pro

85 90 95

Cys Glu Leu Tyr Glu Ser His Gly Cys Tyr Ser Gly Gly Ala Val Lys

100 105 110

Ile Gly Asp Gln Ile Ala Val Phe Tyr Thr Gly Asn Thr Arg Arg Pro

115 120 125

Ser Asp Asn Gln Arg Val Pro Tyr Gln Asn Leu Ala Ile Phe Ser Lys

130 135 140

Asp Gly Lys Leu Leu Ser Lys Arg Pro Leu Ile Glu Gln Ala Pro Gln

145 150 155 160

Gly Tyr Thr Glu His Val Arg Asp Pro Lys Pro Phe Leu Thr Lys Asp

165 170 175

Gly Lys Ile Arg Phe Ile Cys Gly Ala Gln Arg Glu Asn Leu Thr Gly

180 185 190

Thr Ala Leu Val Phe Glu Met Asp Asn Leu Ala Asp Thr Pro Arg Leu

195 200 205

Leu Gly Glu Leu Ala Leu Pro Ala Phe Asp Asn Gln Gly Val Phe Met

210 215 220

Trp Glu Cys Pro Asp Leu Ser Gln Met Gly Asp Lys Ser Leu Phe Ile

225 230 235 240

Trp Ser Pro Gln Gly Lys Ala Arg Glu Leu Glu Gln Tyr Gln Asn Asn

245 250 255

Tyr His Ala Val Tyr Ala Leu Gly Glu Leu Ala Asp Arg Gln Phe His

260 265 270

Ala Glu Gln Ile Ala Glu Leu Asp Gln Gly Phe Asp Phe Tyr Ala Pro

275 280 285

Gln Thr Phe Ser Gly Thr Gln Thr Met Leu Leu Gly Trp Val Gly Leu

290 295 300

Pro Asp Leu Ser Tyr Pro Thr Asp Leu Tyr Lys Trp His Ser Met Leu

305 310 315 320

Ser Met Pro Arg Gln Leu Arg Leu Gln Asp Gly Lys Ile Tyr Gln Gln

325 330 335

Pro Ile Glu Asn Ile Tyr Lys Asn Leu Thr Ala Leu Gln Ser Ile Thr

340 345 350

Val Glu Lys Glu Ala Glu Ile Ala Asp Leu Asp Arg Ala Tyr Leu Lys

355 360 365

Phe Asp Ala Asn Ala Gln Pro Phe Ser Leu Lys Phe Phe Asn Asn Ala

370 375 380

Gln Asn Gln Arg Leu Ile Leu Ser Tyr Asp Gly Glu Met Leu Cys Leu

385 390 395 400

Asp Arg Ser Gln Thr Glu Gln Thr Asp Ser Met Lys Ser Phe Gly Asp

405 410 415

Lys Arg Tyr Cys Arg Ile Glu Asp Leu Arg Gln Val Glu Ile Phe Phe

420 425 430

Asp Arg Ser Val Ala Glu Ile Phe Leu Asn Gln Gly Glu Lys Ala Met

435 440 445

Thr Ser Arg Phe Phe Ile Cys Ala Arg Glu Asn Gln Leu Cys Thr Asp

450 455 460

Lys Pro Leu Thr Leu Gln Val Gly Tyr Pro Lys Lys Ile Glu Val Asp

465 470 475 480

Tyr Thr Lys

<210> 39

<211> 548

<212> PRT

<213> Arthrobacter globiformis

<220>

<223> Bff, beta-fructofuranosidase protein, GeneBank ID: BAD18121.1

<400> 39

Met Glu Arg Thr Cys Ile Thr Val Arg Ala Ile Val Arg Phe His Ile

1 5 10 15

Glu Gln Arg Gln Thr Ile Val Asn Lys Gln Arg Thr Lys Arg Gly Ile

20 25 30

Leu Thr Ala Ala Leu Ser Ile Gly Ala Leu Gly Ala Thr Leu Ile Ser

35 40 45

Gly Pro Ala Val Ala Ala Thr Asp Ala Ala Pro Gly Phe Pro Gln Pro

50 55 60

Thr Glu His Thr Gln Lys Ala Tyr Ser Pro Thr Asp Asn Phe Thr Ser

65 70 75 80

Arg Trp Thr Arg Ala Asp Ala Lys Gln Leu Lys Ala Met Ser Asp Pro

85 90 95

Asp Ala Gly Ser Arg Glu Asn Ser Met Pro Thr Glu Tyr Thr Met Pro

100 105 110

Thr Val Ser Gln Asp Phe Pro Asp Met Ser Asn Glu Lys Val Trp Val

115 120 125

Trp Asp Thr Trp Pro Leu Ile Asp Glu Asn Ala Asn Gln Tyr Ser Val

130 135 140

Asn Gly Gln Glu Ile Ile Phe Ser Leu Val Ala Asp Arg Lys Leu Gly

145 150 155 160

Phe Asp Glu Arg His Gln Tyr Ala Arg Ile Gly Tyr Phe Tyr Arg Pro

165 170 175

Ala Gly Ile Pro Ala Asp Glu Arg Pro Glu Asp Gly Gly Trp Thr Tyr

180 185 190

Gly Gly Gln Val Phe Asp Glu Gly Val Thr Gly Lys Ile Phe Glu Asp

195 200 205

Gln Ser Phe Thr His Gln Thr Gln Trp Ser Gly Ser Ala Arg Val Ser

210 215 220

Lys Asn Gly Glu Ile Lys Leu Phe Phe Thr Asp Val Ala Phe Tyr Arg

225 230 235 240

Asp Lys Asp Gly Gln Asp Val Lys Pro Tyr Asp Ser Arg Ile Ala Leu

245 250 255

Ser Val Gly His Val His Ser Asn Lys Lys Gly Val Lys Leu Thr Gly

260 265 270

Phe Asn Lys Val Lys Glu Leu Leu Gln Ala Asp Gly Lys Asn Tyr Gln

275 280 285

Asn Ala Ala Gln Asn Ser Tyr Tyr Asn Phe Arg Asp Pro Phe Thr Phe

290 295 300

Val Asp Pro Ala His Pro Gly Glu Thr Tyr Met Val Phe Glu Gly Asn

305 310 315 320

Ser Ala Met Asp Arg Asp Glu Ala Lys Cys Thr Ala Glu Asp Leu Gly

325 330 335

Tyr Arg Glu Gly Glu Thr Asn Gly Glu Thr Val Glu Gln Val Asn Asn

340 345 350

Ser Gly Ala Thr Tyr Gln Ile Gly Asn Val Gly Leu Ala Arg Ala Lys

355 360 365

Asn Lys Ala Leu Thr Glu Trp Glu Phe Leu Pro Pro Ile Leu Ser Ala

370 375 380

Asn Cys Val Thr Asp Gln Thr Glu Arg Pro Gln Ile Tyr Met Gln Asp

385 390 395 400

Gly Lys Tyr Tyr Leu Phe Thr Ile Ser His Arg Ser Thr Phe Ala Thr

405 410 415

Gly Ile Asp Gly Pro Glu Gly Val Tyr Gly Phe Val Gly Asn Gly Ile

420 425 430

Arg Ser Asp Tyr Gln Pro Leu Asn Arg Gly Ser Gly Leu Ala Leu Gly

435 440 445

Ser Pro Thr Asn Leu Asn Phe Ala Ala Gly Thr Pro Phe Ala Pro Asp

450 455 460

Tyr Asn Gln His Pro Gly Gln Phe Gln Ala Tyr Ser His Tyr Val Met

465 470 475 480

Pro Gly Gly Leu Val Gln Ser Phe Ile Asp Thr Ile Gly Thr Lys Asp

485 490 495

Asn Phe Val Arg Gly Gly Thr Leu Gly Pro Thr Val Lys Leu Asn Ile

500 505 510

Lys Gly Asp Ser Ala Thr Val Asp Tyr Asn Tyr Gly Asp Asn Gly Leu

515 520 525

Gly Gly Trp Ala Asp Ile Pro Ala Asn Arg Glu Leu Lys Asn Ser Lys

530 535 540

Ala Val Ala Lys

545

<210> 40

<211> 999

<212> DNA

<213> Artificial Sequence

<220>

<223> lgta coding nucleotide sequence

<400> 40

atgcaaccgc tggtctccgt gctgatctgt gcttacaatg tggaaaaata cttcgcccaa 60

tcgctggccg cagtcgtgaa tcaaacgtgg cgcaacctgg aaattctgat cgtggatgac 120

ggcagtaccg atggtacgct ggcgatcgcc aaagattttc agaaacgtga ctcccgcatt 180

aaaatcctgg cacaggctca aaacagtggc ctgattccgt ccctgaatat cggtctggat 240

gaactggcga aaagtggcat gggtgaatat atcgcacgca ccgatgctga tgacattgcg 300

gccccggact ggattgaaaa aatcgtcggc gaaatggaaa aagatcgtag cattatcgcg 360

atgggtgcct ggctggaagt gctgtctgaa gaaaaagatg gcaatcgtct ggcacgccat 420

caccgtcatg gtaaaatctg gaaaaaaccg acgcgtccgg aagatattgc cgactttttc 480

ccgtttggca acccgattca caacaatacc atgatcatgc gtcgctcagt tattgatggc 540

ggtctgcgct ataatacgga acgtgattgg gcggaagact atcagttctg gtacgatgtc 600

tcgaaactgg gtcgcctggc gtattacccg gaagccctgg tgaaatatcg tctgcatgcc 660

aaccaagtta gctctaaata ctctatccgc caacacgaaa ttgcacaggg catccaaaaa 720

accgctcgta atgattttct gcagtcaatg ggttttaaaa cgcgcttcga ctcgctggaa 780

tatcgtcaaa ttaaagcggt tgcctacgaa ctgctggaaa aacatctgcc ggaagaagat 840

tttgaacgcg cgcgtcgctt tctgtatcag tgcttcaaac gtaccgacac gctgccggca 900

ggtgcttggc tggatttcgc agctgacggt cgcatgcgtc gcctgtttac cctgcgtcaa 960

tacttcggca ttctgcaccg cctgctgaaa aaccgttaa 999

<210> 41

<211> 1005

<212> DNA

<213> Artificial Sequence

<220>

<223> pmnagT coding nucleotide sequence

<400> 41

atggaaaata aaccgctggt tagcgttctg atttgcgcct ataatgtgga aaaatacatc 60

gaagaatgca tcaacgccgt tattaaccag acctataaaa acctggaaat catcattgtg 120

aatgatggca gcagcgataa cacctatttt ctgctgaaaa aactggccga aaaagacaac 180

cgtatcaaga tcctgaactt caacaaccat attggcatta ttagcgcact gaatgaaggc 240

ctgaaagaaa ttgccggtga atatattgca cgtaccgatt cagatgatat caccaaaccg 300

gattggatcg aaaaaattct gacctgtatg cagaacgacc cgaaaattat cgcaatgggt 360

agctatctga ccgttctgag cgaagaaaat aatggtagcg tgctggccaa tcaccataaa 420

aacaaagtgg aatggaaaaa cccgctggaa cataaagata tcgtggaaaa aatgctgttt 480

ggcaacccga ttcataataa cagcatggtt atgcgcagcg agatctatac caaatatcac 540

ctgatttatg atccggatta tcattatgcc gaggactata aattctggct ggaagttagc 600

cgtattggta aactggcaaa ttatccggaa agcctggttt attatcgtct gcatcgtaat 660

cagaccagca gcattcataa ttcccagcaa gaaatcaacg gtaaaaaact gcgtctgcag 720

gcactgaact attatctgaa agatctgggc attgattatc agctgccgga aaaatttctg 780

ttcaaagata ttgcactgct gcaagagatc ttttatgaac gtggtatgtt ccgcgaaaac 840

attattcgtc gcattatcta tgagtgctat ctgagcctgg gcgagtataa ttacaaagat 900

atctactact tcctgatcaa caaaaacaac tttctgagca tcaaagacaa attcaaaatc 960

atcaaaaaat acctgcgtcc ggacaaatat agcagcacct attaa 1005

<210> 42

<211> 990

<212> DNA

<213> Artificial Sequence

<220>

<223> HD0466 coding nucleotide sequence

<400> 42

atgaccacac tggttagcgt tctgatttgt gcctataacg tggaaaaata catcgatgaa 60

tgtctgaatg cagttattgc ccagacctat aaaaacctgg aaattatcgt tgtgaatgat 120

ggtagcaccg atggcaccct ggcaaaactg cgtcagtttg aagcaaaaga tccgcgtgtt 180

aaaatcatcg ataacattgt taatcagggc accagcaaaa gcctgaatat tggtattcag 240

tattgtcagg gcgaaattat tgcacgtacc gattcagatg atatcgtgga tattcattgg 300

atcgaaaccc tgatgcgtga actggataat agtccggaaa ccattgcaat tagcgcctat 360

ctggaatttc tggccgaaaa aggtaatggt agcaaactga gccgtagccg taaacatggt 420

aaaaatgcag aaaatccgat tagcagcgaa gcaattagcc agcgtatgct gtttggtaat 480

ccggttcata acaatgtggc actggttcgt cgtaaagtgt ttagcgaata tggtctgcgt 540

tttgatccgg attatattca tgccgaggat tacaaatttt ggttcgaagt gagcaaactg 600

ggtaaaatgc gtacctatcc gaaagcgctg gttaaatatc gtctgcatgc aacccaggtt 660

agcagcgcat ataatcagaa acagcgtagc attgccaaaa aaatcaaacg tgaagccatc 720

agccattatc tgcagcagta tggcattcag ctgccggaaa aactgaccat tcatgacctg 780

tttagcattt ttagtccgca gattgaactg agcctgaccg ttgcaaataa acaagaactg 840

ttttggagcc tggcaaccag cctgagcgaa tatcattttc gtgatctgct gaaaatctac 900

agcctggata tttttcatca gctgagcttc aaatacaaaa agcgcatctt tcgcaaattt 960

ctgctgccga atcgttatcc gagcgttatt 990

<210> 43

<211> 1320

<212> DNA

<213> Artificial Sequence

<220>

<223> GalTK coding nucleotide

<400> 43

atgatctctg tctacatcat cagtctgaaa gaatcgcagc gtcgtctgga tacggaaaaa 60

ctggttctgg aatcgaacga aaaatttaaa ggccgttgtg tgtttcagat tttcgatgcg 120

atctctccga aacatgaaga cttcgaaaaa ttcgttcaag aactgtacga tagctctagt 180

ctgctgaaat cggattggtt ccatagcgac tattgctacc aggaactgct gccgcaagaa 240

tttggttgtt atctgagcca ctacctgctg tggaaagaat gcgttaaact gaatcagccg 300

gtggttattc tggaagatga cgtcgcgctg gaatctaact ttatgcaggc cctggaagat 360

tgtctgaaaa gtccgtttga cttcgtccgt ctgtatggcc attactgggg cggtcacaaa 420

accaatctgt gcgcgctgcc ggtttatacc gaaacggaag aagcggaagc ctccattgaa 480

aaaaccccga tcgaaaatta tgaagtgacc agcccgccgc cgccgaaccc gacccgcgat 540

acgcagcaag acttcatcac cgaaacgcag caagatccga aagaactgtc ggaaccgtgc 600

aaaattgccc cgcagaaaat cagcttcaac caagtcgtgt tcaagaaaat taaacgtaaa 660

ctgaaccgct tcatcggtag catcctggcg cgtaccgaag tctataaaaa tatcgtggcc 720

aaatacgatg acctgaccac gaaatatgac gatctgacca cgaaatatga tgatctgacg 780

accaaatatg acgacctgac gacgaaatac gatgacctga acaaaaacat cgcagaaaaa 840

tacgatgaac tgatgggcaa atacgaatcg ctgctggcta aagaagtgaa catcaaagaa 900

accttctggg aatcccgtgc ggattcagaa aaagaagccc tgtttctgga ccatttctat 960

ctgaccagcg tttacgtcgc aaccacggct ggctattacc tgaccccgaa aggtgcaaaa 1020

accttcattg aagctacgga acgctttaaa attatcgaac cggttgatat gttcattaac 1080

aatccgacct atcatgatat tgccaacttt acgtacgtgc cgtgtccggt ttccctgaac 1140

aaacacgcat tcaactcaac catccagaac gctaaaaaac cggatattag cctgaaaccg 1200

ccgaaaaaat cttacttcga taacctgttt tatcacaaat ttaacgcacg caaatgcctg 1260

aaagcattca ataaatacag taaacagtac gccccgctga aaaccccgaa agaagtctaa 1320

<210> 44

<211> 789

<212> DNA

<213> Artificial Sequence

<220>

<223> cvb3galT coding nucelotide sequence

<400> 44

atggacacca tcatgattaa acgtccgctg gttagcgtta ttctgccggt gaataaaaac 60

aatccgcatc tggaagaagc aatccagagc attaaaaacc agacctataa agagctggaa 120

ctgatcatta ttgccaacaa ctgcgaggat aacttttata gcctgctgct gaaatatcag 180

gaccagaaaa ccaaaattat ccgcaccagc atcaaatatc tgccgtttag cctgaatctg 240

ggtgttcatc tgagccaggg tgaatatatt gcacgtatgg attcagatga tatcagcgtt 300

ctggatcgca ttgaaaaaca ggttaaacgc tttctgaata caccggaact gagcattctg 360

ggtagcaatg ttgaatatat caatgaagcc agcgaaagca ttggctatag caactatccg 420

ctggatcata gcagcattgt taatagcttt ccgtttcgtt gtaatctggc acatccgacc 480

attatggtta aaaaagaagt gattaccacg cttggtggct atatgtatgg tagcctgagc 540

gaagattatg atctgtggat tcgtgcaagc cgtcatggca atttcaaatt tagcaatatt 600

gatgaaccgc tgctgaagta ccgtattcat aaaggtcagg caaccaataa aagcaacgcc 660

tataacatct ttgcctttga tagcagcctg aaaatccgtg aatttctgct gaatggtaat 720

gtgcagtatc tgctgggtgc agcacgtggt ttttttgcat ttctgtatgt gcgcttcatc 780

aaaaaatga 789

<210> 45

<211> 909

<212> DNA

<213> Artificial Sequence

<220>

<223> futC coding nuelcotide sequence

<400> 45

atggcgttca aagtggtcca aatctgcggt ggtctgggta atcaaatgtt ccaatatgcc 60

ttcgctaaat cgctgcaaaa acacagtaat accccggtcc tgctggatat tacgagtttt 120

gattggtccg accgtaaaat gcagctggaa ctgttcccga ttgatctgcc gtatgcgagc 180

gccaaagaaa tcgcaattgc taaaatgcag catctgccga aactggttcg tgatgcgctg 240

aaatgcatgg gctttgaccg cgtcagtcaa gaaatcgtgt tcgaatatga accgaaactg 300

ctgaaaccgt cccgtctgac ctatttcttt ggttactttc aggacccgcg ttacttcgac 360

gccatctctc cgctgattaa acaaaccttt acgctgccgc cgccgccgga aaacaacaaa 420

aacaacaaca aaaaagaaga agaatatcag tgcaaactga gcctgatcct ggcggccaaa 480

aactctgtgt ttgttcacat tcgtcgcggc gattacgtgg gcatcggttg tcagctgggt 540

attgactatc agaaaaaagc gctggaatac atggccaaac gtgttccgaa tatggaactg 600

tttgtcttct gcgaagatct ggaatttacc caaaacctgg acctgggcta tccgttcatg 660

gatatgacca cgcgcgacaa agaagaagaa gcgtattggg atatgctgct gatgcagagc 720

tgtcaacatg gtattatcgc taatagcacg tattcttggt gggcagctta cctgattgaa 780

aacccggaaa aaattatcat tggcccgaaa cattggctgt ttggtcacga aaatatcctg 840

tgtaaagaat gggtgaaaat cgaatcacac ttcgaagtta aatcgcagaa atataacgcg 900

ctgggctaa 909

<210> 46

<211> 879

<212> DNA

<213> Artificial Sequence

<220>

<223> mtun coding nucleotide sequence

<400> 46

atggtgatta cccatctgat tggtggtctg ggtaaccaga tgtttcagta tgcagcaggt 60

cgtgcagtta gcctggaacg tggtgttagc ctgagcctgg atattagcgg ttttgcaaat 120

tatggtctgc atcagggttt tgaactgcag cgtatcttta attgtaccgc agaaattgca 180

aatgaagccg atgttcgtgg tattttaggt tggcagagca gtccgcgtat tcgtcagctg 240

ctgagccgtc agaatatggc aatttttcgt cgtgaaggtt ttgttgtgga accgcatttt 300

cattattggc agggtattaa aagcgttccg cgtgattgtt atctgaccgg ctattggcag 360

agtgaacagt attttctgga agcagcagca cagattcgtg cagattttac ctttaaactg 420

ccgctggata accagaatat tgaactggcc aaacaaatca atgccgttaa tgcggttagc 480

ctgcatgttc gtcgtggtga ttatgcaaat acaccggaaa ccaccgcaac acatggtctg 540

tgtagtctgg attattatcg tgttgccatt cgtcatattg cagaacaggt tcagcagccg 600

catttttttg tttttagtga tgatattgcc tgggtgaaga acaacctgag tattgatttt 660

ccgtgccagt atgtggatca taatcagggt gcagaaagct ataatgatat gcgtctgatg 720

agcatgtgcc gtcatcatat tattgcaaac agcagcttta gttggtgggg tgcatggctg 780

aatccgaatg ttaacaaaat tgttgttgca ccgagccgtt ggtttgccaa acagaccgat 840

gtgcgtgatc tgctgccgca aggttggatt aaacagtaa 879

<210> 47

<211> 879

<212> DNA

<213> Artificial Sequence

<220>

<223> smob coding nucleotide sequence

<400> 47

atgatcatca gccagattat tggtggtctg ggtaatcaga tgtttcagta tgcagcaggt 60

cgtgcactga gcctggttcg tggtcagccg ctgctgctgg atgttaccgg ttttgcaggt 120

tatggtctgc atcagggttt tgaactgcag cgtgtttttg attgtccgat tggtattgca 180

accgaagaag atgttcgcgg tattttaggt tggcagttta gcgcaggtat tcgtcgtatt 240

gttgcacgtc ctggtatggc agcatttcgt cgtaaaggtt ttattgtgga accgcacttt 300

cattattggc ctgagattaa aaacgttccg cgtgattgtt atctgcttgg ttattggcag 360

agcgaacgtt attttcgtgc agcaaccgca gatattcgtg cagatttttc atttaaaagt 420

ccgctggtta atcgcaatgc cgaaaccgca gcacagattg atcaggttaa tgcaattagc 480

ctgcatatgc gtcgtggtga ttatgtgaat aatccgaaaa ccagcgcaac ccatggtctg 540

tgtagcctgg attattatca ggcagcaatc aaatttgtta gcgaacgtgt tgaagaaccg 600

tttttcttta tcttctccga tgatattgca tgggtgaaag caaatctgaa actggatttt 660

ccgtgccagt atgtggatca taatcatggt gcagaaagct tcaatgatat gcatctgatg 720

agcctgtgtc agcatcatat tattgcaaac agcagcttta gttggtgggg tgcatggctg 780

aatagcgatc cgaaaaaaat cgttctggca ccgaaaaaat ggttcgccaa caaaaacaac 840

atcaaagacc tgtttccgcc tggttgggtt agcctgtaa 879

<210> 48

<211> 730

<212> DNA

<213> Artificial Sequence

<220>

<223> DNA-binding transcriptional repressor GlpR

<400> 48

atgaaacaaa cacaacgtca caacggtatt atcgaactgg ttaaacagca gggttatgtc 60

agtaccgaag agctggtaga gcatttctcc gtcagcccgc agactattcg ccgcgacctc 120

aatgagctgg cggagcaaaa cctgatcctg gccatcatgg cggtgcggcg ctgccttcca 180

gttcggttaa cacgccgtgg cacgatcgca aggccaccca gaccgaagaa aaagagcgca 240

tcgcccgcaa agtggcggag caaatcccca atggctcgac gctgtttatc gatatcggca 300

ccacgccgga agcggtagcg cacgcactgc tcaatcacag caatttgcgc attgtcacca 360

acaatctcaa cgttgctaac acgttgatgg taaaagaaga ttttcgcatc attctcgccg 420

gtggcgaatt acgcagccgc gatggcggga tcattggcga agcgacgctc gattttatct 480

cccagttccg ccttgatttc ggcattctgg ggataagcgg catcgatagc gacggctcgc 540

tgctggagtt cgattaccac gaagttcgca ccaaacgcgc cattattgag aactcgcgcc 600

acgttatgct ggttgtcgat cactcgaaat ttggccgtaa cgcgatggtc aatatgggca 660

gcatcagcat ggtagatgcc gtctacaccg acgccccgcc gccagtaagc gtgatgcagg 720

tgctgacgga 730

<210> 49

<211> 292

<212> PRT

<213> Sideroxydans lithotrophicus

<220>

<223> fucT54 α-1,2-fucosyltransferas

<400> 49

Met Val Ile Ser Asn Ile Ile Gly Gly Leu Gly Asn Gln Met Phe Gln

1 5 10 15

Tyr Ala Ala Ala Arg Ala Leu Ser Leu Lys Leu Glu Val Pro Leu Lys

20 25 30

Leu Asp Ile Ser Gly Phe Thr Asn Tyr Ala Leu His Gln Gly Phe Glu

35 40 45

Leu Asp Arg Ile Phe Gly Cys Lys Ile Glu Ile Ala Ser Glu Ala Asp

50 55 60

Val His Glu Ile Leu Gly Trp Gln Ser Ala Ser Gly Ile Arg Arg Val

65 70 75 80

Val Ser Arg Pro Gly Met Ser Ile Phe Arg Arg Lys Gly Phe Val Val

85 90 95

Glu Pro His Phe Ser Tyr Trp Asn Gly Ile Arg Lys Ile Thr Gly Asp

100 105 110

Cys Tyr Leu Ala Gly Tyr Trp Gln Ser Glu Lys Tyr Phe Leu Asp Ala

115 120 125

Ala Val Glu Ile Arg Lys Asp Phe Ser Phe Lys Leu Pro Leu Asp Ser

130 135 140

His Asn Ala Glu Leu Ala Glu Lys Ile Asp Gln Glu Asn Ala Val Ser

145 150 155 160

Leu His Ile Arg Arg Gly Asp Tyr Ala Asn Asn Pro Leu Thr Ala Ala

165 170 175

Thr His Gly Leu Cys Ser Leu Asp Tyr Tyr Arg Lys Ser Ile Lys His

180 185 190

Ile Ala Gly Gln Val Arg Asn Pro Tyr Phe Phe Val Phe Ser Asp Asp

195 200 205

Ile Ala Trp Val Lys Asp Asn Leu Glu Ile Glu Phe Pro Ser Gln Tyr

210 215 220

Val Asp Tyr Asn His Gly Ser Met Ser Phe Asn Asp Met Arg Leu Met

225 230 235 240

Ser Leu Cys Lys His His Ile Ile Ala Asn Ser Ser Phe Ser Trp Trp

245 250 255

Gly Ala Trp Leu Asn Pro Asn Pro Glu Lys Val Val Ile Ala Pro Glu

260 265 270

Arg Trp Phe Ala Asn Arg Thr Asp Val Gln Asp Leu Leu Pro Pro Gly

275 280 285

Trp Val Lys Leu

290

<210> 50

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> Oligo O48, galK.for

<400> 50

cccagcgaga cctgaccgca gaac 24

<210> 51

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> Oligo O49, galK.rev

<400> 51

ccccagtcca tcagcgtgac tacc 24

<210> 52

<211> 6706

<212> DNA

<213> Escherichia coli

<220>

<223> CA gene cluster

<400> 52

atgtcaaaag tcgctctcat caccggtgta accggacaag acggttctta cctggcagag 60

tttctgctgg aaaaaggtta cgaggtgcat ggtattaagc gtcgcgcatc gtcattcaac 120

accgagcgcg tggatcacat ttatcaggat ccgcacacct gcaacccgaa attccatctg 180

cattatggcg acctgagtga tacctctaac ctgacgcgca ttttgcgtga agtacagccg 240

gatgaagtgt acaacctggg cgcaatgagc cacgttgcgg tctcttttga gtcaccagaa 300

tataccgctg acgtcgacgc gatgggtacg ctgcgcctgc tggaggcgat ccgcttcctc 360

ggtctggaaa agaaaactcg tttctatcag gcttccacct ctgaactgta tggtctggtg 420

caggaaattc cgcagaaaga gaccacgccg ttctacccgc gatctccgta tgcggtcgcc 480

aaactgtacg cctactggat caccgttaac taccgtgaat cctacggcat gtacgcctgt 540

aacggaattc tcttcaacca tgaatccccg cgccgcggcg aaaccttcgt tacccgcaaa 600

atcacccgcg caatcgccaa catcgcccag gggctggagt cgtgcctgta cctcggcaat 660

atggattccc tgcgtgactg gggccacgcc aaagactacg taaaaatgca gtggatgatg 720

ctgcagcagg aacagccgga agatttcgtt atcgcgaccg gcgttcagta ctccgtgcgt 780

cagttcgtgg aaatggcggc agcacagctg ggcatcaaac tgcgctttga aggcacgggc 840

gttgaagaga agggcattgt ggtttccgtc accgggcatg acgcgccggg cgttaaaccg 900

ggtgatgtga ttatcgctgt tgacccgcgt tacttccgtc cggctgaagt tgaaacgctg 960

ctcggcgacc cgaccaaagc gcacgaaaaa ctgggctgga aaccggaaat caccctcaga 1020

gagatggtgt ctgaaatggt ggctaatgac ctcgaagcgg cgaaaaaaca ctctctgctg 1080

aaatctcacg gctacgacgt ggcgatcgcg ctggagtcat aagcatgagt aaacaacgag 1140

tttttattgc tggtcatcgc gggatggtcg gttccgccat caggcggcag ctcgaacagc 1200

gcggtgatgt ggaactggta ttacgcaccc gcgacgagct gaacctgctg gacagccgcg 1260

ccgtgcatga tttctttgcc agcgaacgta ttgaccaggt ctatctggcg gcggcgaaag 1320

tgggcggcat tgttgccaac aacacctatc cggcggattt catctaccag aacatgatga 1380

ttgagagcaa catcattcac gccgcgcatc agaacgacgt gaacaaactg ctgtttctcg 1440

gatcgtcctg catctacccg aaactggcaa aacagccgat ggcagaaagc gagttgttgc 1500

agggcacgct ggagccgact aacgagcctt atgctattgc caaaatcgcc gggatcaaac 1560

tgtgcgaatc atacaaccgc cagtacggac gcgattaccg ctcagtcatg ccgaccaacc 1620

tgtacgggcc acacgacaac ttccacccga gtaattcgca tgtgatccca gcattgctgc 1680

gtcgcttcca cgaggcgacg gcacagaatg cgccggacgt ggtggtatgg ggcagcggta 1740

caccgatgcg cgaatttctg cacgtcgatg atatggcggc ggcgagcatt catgtcatgg 1800

agctggcgca tgaagtctgg ctggagaaca cccagccgat gttgtcgcac attaacgtcg 1860

gcacgggcgt tgactgcact atccgcgagc tggcgcaaac catcgccaaa gtggtgggtt 1920

acaaaggccg ggtggttttt gatgccagca aaccggatgg cacgccgcgc aaactgctgg 1980

atgtgacgcg cctgcatcag cttggctggt atcacgaaat ctcactggaa gcggggcttg 2040

ccagcactta ccagtggttc cttgagaatc aagaccgctt tcgggggtaa tgatgttttt 2100

acgtcaggaa gactttgcca cggtagtgcg ctccactccg cttgtctctc tcgactttat 2160

tgtcgagaac agtcgcggcg agtttctgct tggcaaaaga accaaccgcc cggcgcaggg 2220

ttactggttt gtgccgggag ggcgcgtgca gaaagacgaa acgctggaag ccgcatttga 2280

gcggctgacg atggcggaac tggggctgcg tttgccgata acagcaggcc agttttacgg 2340

tgtctggcag cacttttatg acgataactt ctctggcacg gatttcacca ctcactatgt 2400

ggtgctcggt tttcgcttca gagtatcgga agaagagctg ttactgccgg atgagcagca 2460

tgacgattac cgctggctga cgtcggacgc gctgctcgcc agtgataatg ttcatgctaa 2520

cagccgcgcc tattttctcg ctgagaagcg taccggagta cccggattat gaaaatactg 2580

gtctacggca ttaactactc gccggagtta accggcatcg gcaaatacac cggcgagatg 2640

gtggaatggc tggcggcaca aggtcatgag gtgcgggtca ttaccgcacc gccttactac 2700

ccgcaatggc aggtgggcga gaactattcc gcctggcgct acaaacgaga agagggggcc 2760

gccacggtgt ggcgctgccc gctgtatgtg ccaaaacagc cgagcaccct gaaacgcctg 2820

ttgcatctgg gcagttttgc cgtcagcagt ttctttccgc tgatggcgca acgtcgctgg 2880

aagccggatc gcattattgg cgtggtgcca acgctgtttt gcgcgccggg aatgcgcctg 2940

ctggcgaaac tctctggtgc gcgtaccgtg ctgcatattc aggattacga agtggacgcc 3000

atgctggggc tgggccttgc cggaaaaggc aaaggcggca aagtggcaca gctggcaacg 3060

gcgttcgaac gtagcggact gcataacgtc gataacgtct ccacgatttc gcgttcgatg 3120

atgaataaag ccatcgaaaa aggcgtggcg gcggaaaacg tcatcttctt ccccaactgg 3180

tcggaaattg cccgttttca gcatgttgca gatgccgatg ttgatgccct tcgtaaccag 3240

cttgacctgc cggataacaa aaaaatcatt ctttactccg gcaatattgg tgaaaagcag 3300

gggctggaaa acgttattga agctgccgat cgtctgcgcg atgaaccgct gatttttgcc 3360

attgtcgggc agggcggcgg caaagcgcgg ctggaaaaaa tggcgcagca gcgtggactg 3420

cgcaacatgc aatttttccc gctgcaatcg tatgacgctt tacccgcact gctgaagatg 3480

ggcgattgcc atctggtggt gcaaaaacgc ggcgcggcag atgccgtatt gccgtcgaaa 3540

ctgaccaata ttctggcagt aggcggtaac gcggtgatta ctgctgaagc ctacacagaa 3600

ctggggcagc tttgcgaaac ctttccgggc attgcggttt gcgttgaacc ggaatcggtc 3660

gaggcgctgg tggcggggat ccgtcaggcg ctcctgctgc ccaaacacaa cacggtggca 3720

cgtgaatatg ccgaacgcac gctcgataaa gagaacgtgt tacgtcaatt tataaatgat 3780

attcggggat aattatggcg cagtcgaaac tctatccagt tgtgatggca ggtggctccg 3840

gtagccgctt atggccgctt tcccgcgtac tttatcccaa gcagttttta tgcctgaaag 3900

gcgatctcac catgctgcaa accaccatct gccgcctgaa cggcgtggag tgcgaaagcc 3960

cggtggtgat ttgcaatgag cagcaccgct ttattgtcgc ggaacagctg cgtcaactga 4020

acaaacttac cgagaacatt attctcgaac cggcagggcg aaacacggca cctgccattg 4080

cgctggcggc gctggcggca aaacgtcata gcccggagag cgacccgtta atgctggtat 4140

tggcggcgga tcatgtgatt gccgatgaag acgcgttccg tgccgccgtg cgtaatgcca 4200

tgccatatgc cgaagcgggc aagctggtga ccttcggcat tgtgccggat ctaccagaaa 4260

ccggttatgg ctatattcgt cgcggtgaag tgtctgcggg tgagcaggat atggtggcct 4320

ttgaagtggc gcagtttgtc gaaaaaccga atctggaaac cgctcaggcc tatgtggcaa 4380

gcggcgaata ttactggaac agcggtatgt tcctgttccg cgccggacgc tatctcgaag 4440

aactgaaaaa atatcgcccg gatatcctcg atgcctgtga aaaagcgatg agcgccgtcg 4500

atccggatct caattttatt cgcgtggatg aagaagcgtt tctcgcctgc ccggaagagt 4560

cggtggatta cgcggtcatg gaacgtacgg cagatgctgt tgtggtgccg atggatgcgg 4620

gctggagcga tgttggctcc tggtcttcat tatgggagat cagcgcccac accgccgagg 4680

gcaacgtttg ccacggcgat gtgattaatc acaaaactga aaacagctat gtgtatgctg 4740

aatctggcct ggtcaccacc gtcggggtga aagatctggt agtggtgcag accaaagatg 4800

cggtgctgat tgccgaccgt aacgcggtac aggatgtgaa aaaagtggtc gagcagatca 4860

aagccgatgg tcgccatgag catcgggtgc atcgcgaagt gtatcgtccg tggggcaaat 4920

atgactctat cgacgcgggc gaccgctacc aggtgaaacg catcaccgtg aaaccgggcg 4980

agggcttgtc ggtacagatg caccatcacc gcgcggaaca ctgggtggtt gtcgcgggaa 5040

cggcaaaagt caccattgat ggtgatatca aactgcttgg tgaaaacgag tccatttata 5100

ttccgctggg ggcgacgcat tgcctggaaa acccggggaa aattccgctc gatttaattg 5160

aagtgcgctc cggctcttat ctcgaagagg atgatgtggt gcgtttcgcg gatcgctacg 5220

gacgggtgta aacgtcgcat caggcaatga atgcgaaacc gcggtgtaaa taacgacaaa 5280

aataaaattg gccgcttcgg tcagggccaa ctattgcctg aaaaagggta acgatatgaa 5340

aaaattaacc tgctttaaag cctatgatat tcgcgggaaa ttaggcgaag aactgaatga 5400

agatatcgcc tggcgcattg gtcgcgccta tggcgaattt ctcaaaccga aaaccattgt 5460

gttaggcggt gatgtccgcc tcaccagcga aaccttaaaa ctggcgctgg cgaaaggttt 5520

acaggatgcg ggcgttgacg tgctggatat tggtatgtcc ggcaccgaag agatctattt 5580

cgccacgttc catctcggcg tggatggcgg cattgaagtt accgccagcc ataatccgat 5640

ggattataac ggcatgaagc tggttcgcga gggggctcgc ccgatcagcg gagataccgg 5700

actgcgcgac gtccagcgtc tggctgaagc caacgacttt cctcccgtcg atgaaaccaa 5760

acgcggtcgc tatcagcaaa tcaacctgcg tgacgcttac gttgatcacc tgttcggtta 5820

tatcaatgtc aaaaacctca cgccgctcaa gctggtgatc aactccggga acggcgcagc 5880

gggtccggtg gtggacgcca ttgaagcccg ctttaaagcc ctcggcgcgc ccgtggaatt 5940

aatcaaagtg cacaacacgc cggacggcaa tttccccaac ggtattccta acccactact 6000

gccggaatgc cgcgacgaca cccgcaatgc ggtcatcaaa cacggcgcgg atatgggcat 6060

tgcttttgat ggcgattttg accgctgttt cctgtttgac gaaaaagggc agtttattga 6120

gggctactac attgtcggcc tgttggcaga agcattcctc gaaaaaaatc ccggcgcgaa 6180

gatcatccac gatccacgtc tctcctggaa caccgttgat gtggtgactg ccgcaggtgg 6240

cacgccggta atgtcgaaaa ccggacacgc ctttattaaa gaacgtatgc gcaaggaaga 6300

cgccatctat ggtggcgaaa tgagcgccca ccattacttc cgtgatttcg cttactgcga 6360

cagcggcatg atcccgtggc tgctggtcgc cgaactggtg tgcctgaaag ataaaacgct 6420

gggcgaactg gtacgcgacc ggatggcggc gtttccggca agcggtgaga tcaacagcaa 6480

actggcgcaa cccgttgagg cgattaaccg cgtggaacag cattttagcc gtgaggcgct 6540

ggcggtggat cgcaccgatg gcatcagcat gacctttgcc gactggcgct ttaacctgcg 6600

cacctccaat accgaaccgg tggtgcgcct gaatgtggaa tcgcgcggtg atgtgccgct 6660

gatggaagcg cgaacgcgaa ctctgctgac gttgctgaac gagtaa

Claims

1.一种用于产生以2’-FL和LNFP-I作为主要人乳寡糖(HMO)的HMO共混物的方法，所述方法包括以下步骤：

a.提供能够产生至少两种HMO的遗传工程细胞，其中所述细胞

i.包含如SEQ ID NO:1、2或3所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物；

ii.包含如SEQ ID NO:4或5所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；且

iii.包含如SEQ ID NO:6和7和49中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6或7或49中任一个具有至少80％同一性的功能同源物，

iv.功能性表达荚膜异多糖酸基因簇，且

v.包含用于控制i)-iv)中任一项的表达的天然或异源调节元件，

b.在合适的细胞培养基中培养根据(a)所述的细胞以表达所述蛋白并产生HMO共混物；以及

c.收获步骤(b)中产生的所述人乳寡糖(HMO)共混物。

2.根据权利要求1所述的方法，其中所述荚膜异多糖酸基因簇通过增加拷贝数和/或通过选择合适的元件作为用于控制表达的调节元件来过表达。

3.根据权利要求1或2所述的方法，其中所述异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白是SEQ ID NO:1，或其氨基酸序列与SEQ ID NO:1具有至少80％同一性的功能同源物。

4.根据权利要求1-3中任一项所述的方法，其中所述异源β-1,3-半乳糖基转移酶蛋白是SEQ ID NO:4，或其氨基酸序列与SEQ ID NO:4具有至少80％同一性的功能同源物。

5.根据前述权利要求中任一项所述的方法，其中i)和ⅱ)的表达通过增加拷贝数和/或通过为i)和ii)选择合适的调节元件来过表达。

6.根据前述权利要求中任一项所述的方法，其中i)和/或ii)的表达从单个拷贝获得，和/或用于i)和/或ii)表达的所述调节元件具有低强度或中等强度。

7.根据前述权利要求中任一项所述的方法，其中i)和/或ii)的表达从两个或更多个拷贝获得，和/或用于i)和/或ii)表达的所述调节元件具有高强度。

8.根据前述权利要求中任一项所述的方法，其中所述调节元件选自SEQ ID NO:13(PglpF)、SEQ ID NO:12(PgatY_70UTR)、SEQ ID NO:27(Plac)、SEQ ID NO:9(PmglB_70UTR)、SEQ ID NO:11(Pscr)、或其变体。

9.根据权利要求6所述的方法，其中所述调节元件选自PglpF_SD9(SEQ ID NO:23)、PglpF_SD7(SEQ ID NO:21)、PglpF_SD6(SEQ ID NO:20)、PglpF_B28(SEQ ID NO:24)、PglpF_B29(SEQ ID NO:25)、Pscr(SEQ ID NO:11)和Plac(SEQ ID NO:27)。

10.根据权利要求7所述的方法，其中所述调节元件选自PglpF(SEQ ID NO:13)、PglpF_SD10(SEQ ID NO:15)、PglpF_SD8(SEQ ID NO:22)、PglpF_SD5(SEQ ID NO:19)、PglpF_SD4(SEQ ID NO:18)、PgatY_70UTR(SEQ ID NO:12)、PmglB_70UTR(SEQ ID NO:9)和PmglB_70UTR_SD4(SEQ ID NO:9)。

11.根据前述权利要求中任一项所述的方法，其中与v)结合或与v)的上游区域结合并抑制i)、ii)、iii)或iv)中任一项的表达的基因产物在所述细胞内已缺失或变成非功能性。

12.根据权利要求11所述的方法，其中所述基因产物是DNA-结合转录阻遏物GlpR(SEQID NO:48)。

13.根据前述权利要求中任一项所述的方法，其中iii)的所述异源α-1,2-岩藻糖基转移酶蛋白是FutC(SEQ ID NO:6)。

14.根据前述权利要求中任一项所述的方法，其中所述细胞还包含在表达时充当糖流出转运蛋白的基因产物。

15.根据权利要求14所述的方法，其中所述糖流出转运蛋白选自氨基酸序列，所述氨基酸序列选自

i.SEQ ID NO:28或其氨基酸序列与SEQ ID NO:28具有至少70％同一性的功能同源物，

ii.SEQ ID NO:29或其氨基酸序列与SEQ ID NO:29具有至少70％同一性的功能同源物，

iii.SEQ ID NO:30或其氨基酸序列与SEQ ID NO:30具有至少70％同一性的功能同源物，

iv.SEQ ID NO:31或其氨基酸序列与SEQ ID NO:31具有至少70％同一性的功能同源物，

v.SEQ ID NO:32或其氨基酸序列与SEQ ID NO:32具有至少70％同一性的功能同源物，和

vi.SEQ ID NO:33或其氨基酸序列与SEQ ID NO:33具有至少70％同一性的功能同源物。

16.根据前述权利要求中任一项所述的方法，其中所述HMO共混物中2’-FL占总HMO的摩尔百分比为25％至70％，且LNFP-I的摩尔百分比为30％至60％。

17.根据前述权利要求中任一项所述的方法，其中在步骤(b)中培养所述遗传工程细胞期间的发酵温度在30℃至32℃，并且其中2’-FL占所产生的HMO共混物的摩尔百分比为30％至40％。

18.根据前述权利要求中任一项所述的方法，其中在步骤(b)中培养所述遗传工程细胞期间，发酵培养基中乳糖的水平低于20g/L，并且其中2’-FL占所产生的HMO共混物的摩尔百分比为25％至35％。

19.一种遗传工程细胞，其包含编码以下的重组核酸序列

ii.如SEQ ID NO:1或2或3所示的异源β-1,3-N-乙酰基-葡糖胺基转移酶蛋白，或其氨基酸序列与SEQ ID NO:1、2或3具有至少80％同一性的功能同源物；和

iii.如SEQ ID NO:4或5所示的异源β-1,3-半乳糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:4或5具有至少80％同一性的功能同源物；和

iv.如SEQ ID NO:6和7中任一个所示的异源α-1,2-岩藻糖基转移酶蛋白，或其氨基酸序列与SEQ ID NO:6或7或49中任一个具有至少80％同一性的功能同源物，和

v.荚膜异多糖酸基因簇，和

vi.用于控制i)-iv)中任一项的表达的天然或异源调节元件或附加型元件，和

vii.编码能够将2’FL和/或LNFP-I输出细胞外的糖流出转运蛋白的重组核酸序列。

20.根据权利要求19所述的遗传工程细胞，其中荚膜异多糖酸基因簇通过增加拷贝数和/或通过选择合适的调节元件来过表达。

21.根据权利要求19或20所述的遗传工程细胞，其中所述细胞选自大肠杆菌(E.coli)、谷氨酸棒杆菌(C.glutamicum)、乳酸乳球菌(L.lactis)、枯草芽孢杆菌(B.subtilis)、变铅青链霉菌(S.lividans)、巴斯德毕赤酵母(P.pastoris)和酿酒酵母(S.cerevisiae)。

22.根据权利要求19或20所述的遗传工程细胞在产生一种或多种HMO中的用途。

23.根据权利要求22所述的用途，其中所述一种或多种HMO是主要为2’-FL和LNFP-I的共混物。

24.根据权利要求22或23中任一项所述的用途，其中主要HMO共混物中2’-FL占总HMO的摩尔百分比为25％至70％，且LNFP-I的摩尔百分比为30％至60％。