CN116312766A

CN116312766A - 基于人工智能创制的高附加值代谢物底盘

Info

Publication number: CN116312766A
Application number: CN202111491850.2A
Authority: CN
Inventors: 罗小舟; 邓华祥; 邓艳午; 余函; 邱玉兰
Original assignee: Senris Biotechnology Shenzhen Co ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Senris Biotechnology Shenzhen Co ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-06-23

Abstract

基于人工智能创制的高附加值代谢物底盘，属于合成生物学与代谢工程技术领域。本发明提供了采用人工智能技术，通过小样本采样，实现设计‑构建‑测试‑学习闭环式、循环式学习启动子与目标代谢物产量数据，连续驯化高附加值核心代谢流关键性基因的启动子文库，优化目标核心代谢途径资源分配，得到高产高附加值代谢物底盘。本发明还提供了基于人工智能创制的高附加值代谢物底盘的创制方法及其应用。本发明可有效解决高附加值代谢物无高通量分子探针或者分子探针筛选不稳定的问题，减少人力成本，缩短微生物代谢调控时间，消除中间产物与终产物抑制效应，增强核心代谢通量，实现高附加值化合物高效合成。

Description

基于人工智能创制的高附加值代谢物底盘

技术领域

本发明属于合成生物学与代谢工程技术领域，具体涉及基于人工智能创制的高附加值代谢物底盘。

背景技术

萜类、生物碱、聚酮类化合物、黄酮类化合物等天然产物，具有抗菌抗癌抗病毒等生理活性，已广泛应用于食品、农业、医药行业。然而，由于环境条件复杂多变、提取成本高与纯度低等因素，严重阻碍这些高附加值代谢物的市场供给。这些化合物存在结构复杂，化学合成法也面临步骤冗长、合成效率低、副产物多等问题。相比植物提取与化学合成法，微生物合成法因发酵周期短、发酵成本低、环境友好等优势而被广泛关注。随着测序技术、基因编辑技术的跨越式发展，国内外研究者已系统性构建各类底盘(如大肠杆菌、酵母菌、放线菌)的分子操作工具，便于外源途径在微生物异源表达。

外源代谢流引入底盘微生物时，易诱发宿主内源代谢网络扰动，打破细胞氧化还原稳态，且外源途径各基因表达分配不平衡，易导致中间产物积累、代谢溢流等问题。因此，理性设计微生物内源代谢网络与外源途径，可有效扭转微生物目标代谢物产量低的现状。系统生物学技术如基因组代谢网络技术可全局分析微生物代谢网络，便于后期理性改造关键性节点，进而提高目标代谢物产量。例如， Fowler团队借助CiED模型预测全局代谢流，结合理性代谢改造关键性节点，实现柚皮素产量达到270mg/L。因此，智能分配微生物内源代谢资源为目标化合物高效合成的重要基石。

合成生物学成为微生物设计与改造的有效工具，保障高附加值代谢物高效合成。例如，Jae Kyung Sohng团队也系统性的阐释了利用合成生物学工具生产各类天然与非天然的黄酮类化合物。Luo等人借助合成生物学技术在酵母中实现天然与非天然大麻素的高效合成。微生物合成法可有效克服植物来源天然产物供应不足的技术瓶颈。值得注意的是，微生物内源代谢网络复杂，且代谢物合成的细胞生理环境实时变化。当外源高附加值化合物代谢流引入工程菌株，易诱发宿主内源代谢网络扰动，打破细胞氧化还原稳态，诱发毒理环境，限制细胞正常生理活动。此外，外源途径各基因表达分配不平衡，易导致中间产物积累、代谢溢流等问题。因此，需借助系统生物学技术，平衡细胞内源与外源代谢流的资源分配，但是系统生物学技术仅从全局水平提供可调控的关键性节点，后期仍需基因操作技术予以验证。

针对该瓶颈，近期崛起的系统基因组网络操作技术与合成生物学技术加速了微生物高附加值智能细胞工厂的进程。其中，合成生物学的人工智能技术，以“设计-构建-测试-学习”的循环式理念，革新了微生物代谢调控进程，理性平衡核心代谢流关键性基因表达平衡，可攻克核心代谢流不平衡、效能低等壁垒，智能分配生长代谢与目标代谢流资源，保障高效合成目标代谢物。实现从上游基因元件设计、组装与下游产物测试、再设计等迭代循环回路，有效增强合成生物学理性改造微生物代谢流的深度与广度，实现高附加值代谢物高效合成。目前，运用启动子工程策略为平衡高附加值物质代谢流的有效策略，但是启动子库容量宏大、且无高效、稳定的分子探针系统或化学方法，仅借助高效液相层析、液质联用等技术，难以短时间内攻坚代谢流资源分配平衡的难题。若能借助人工智能策略，即可实现载体构建、菌体培养、小样本采样、数据学习等迭代循环式操作流程，保障高附加值目标代谢通路基因表达水平的连续循环循环过程，解决无高通量筛选方法获取突变体的瓶颈性问题，同时可解放人力，减少人为错误与时间成本，最终，跨越式提升高附加值代谢物产量，满足其市场需求，提高国民生活品质。因此，借助人工智能技术，连续闭环式学习目标代谢通路关键性酶表达与产量数据，可有效平衡细胞生长与核心代谢物合成代谢的资源分配，减少代谢溢流，并理性强化目标代谢物通路，创制微生物智能细胞工厂，实现高附加值化合物高效合成。

植物中约有7000种黄酮类化合物(主要为柚皮素及其衍生物)被验证具有抗氧化活性，可延缓衰老，广泛应用于食品与护肤品行业；也具有抗菌消炎、抗癌症等生理活性，可缓解糖尿病、高血压、高血脂等病痛。综上所述，黄酮类化合物展现出极高的经济效益与医药战略价值。作为黄酮类基本骨架结构，柚皮素合成途径需要4个酶参与，包括酪氨酸氨裂解酶(tyrosine ammonia lyase，TAL)、 4-香豆酸CoA连接酶(4-coumarate:CoA ligase，4CL)、查尔酮合成酶(chalcone synthase，CHS)、查尔酮异构酶(chalcone isomerase，CHI)。因此，本发明以柚皮素代谢流为实例，借助人工智能技术连续驯化柚皮素代谢通路基因表达，解除其代谢屏障，实现黄酮类化合物高效合成。本发明可为其余各类高附加值代谢物核心代谢基因表达资源分配，提供理论支撑与技术保障；有效解决其市场供应，保障国民生活品质与健康水准。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于设计提供基于人工智能创制的高附加值代谢物底盘。本发明运用人工智能技术，连续驯化高附加值核心代谢流关键性基因的启动子文库，解除代谢屏障，优化目标核心代谢途径资源分配，平衡其代谢流，实现目标代谢物高效合成。

为了实现上述目的，本发明采用以下技术方案：

基于人工智能创制的高附加值代谢物底盘，其特征在于采用人工智能技术，通过小样本采样，实现设计-构建-测试-学习闭环式、循环式学习启动子与目标代谢物产量数据，连续驯化高附加值核心代谢流关键性基因的启动子文库，优化目标核心代谢途径资源分配，得到高产高附加值代谢物底盘。

所述的基于人工智能创制的高附加值代谢物底盘，其特征在于所述高附加值代谢物包括类黄酮化合物、类黄酮化合物衍生物、类黄酮化合物经修饰后的化合物，所述类黄酮化合物包括柚皮素、花青素、黄芩素或生松素。

所述的高附加值代谢物底盘的创制方法，其特征在于包括以下步骤：

(1)验证不同强度的启动子，建立目标代谢物的关键性基因不同表达水平的启动子文库，采用Golden gate酶切与连接技术，在抗生素平板上筛选关键性基因的启动子文库的工程菌株文库；

(2)挑取所述步骤(1)得到的工程菌株文库中的工程菌至深孔板，置于高速摇床，培养过夜，以0.5-3％接种量接种至发酵培养基中，培养1-3天，得到启动子工程菌；

(3)采用化学法或分子探针法，分别在紫外信号与荧光信号初步筛选所述步骤(2)得到的启动子工程菌的目标代谢物产量；

(4)采用Sanger测序技术测定不同工程菌的启动子序列，采用高效液相层析技术在紫外信号条件下，测定不同工程菌的目标代谢物产量；

(5)基于机器学习模型学习不同强度启动子的组合分布，得到产量最高的目标代谢物的启动子工程菌。

所述的创制方法，其特征在于所述步骤(1)中验证不同强度的启动子的方法为：以mKate2荧光蛋白为分子探针，在588/633nm紫外波长下检测不同启动子的荧光信号，分别以阿拉伯糖与T7启动子为弱与强的标准启动子，对上述启动子归类为低、中、高三种强度。

所述的创制方法，其特征在于所述步骤(1)中启动子文库的建立方法为：采用高保真、高亲和力的linker序列连接关键性基因的表达框，以ccdB基因和/ 或mKate2基因作为背景质粒，采用Golden gate酶切与连接技术，制备得到启动子文库。

所述的创制方法，其特征在于所述步骤(1)中Golden gate酶切与连接的条件为：以高保真、高亲和力的linker序列连接各表达框，以37℃5min，16℃5min， 50次循环为优化连接条件。

所述的创制方法，其特征在于所述步骤(2)采用自动化技术完成。

所述的创制方法，其特征在于所述步骤(3)中化学法包括Al³⁺化学法。

所述的创制方法，其特征在于所述步骤(5)的具体操作方法为：以关键性基因的不同强度的启动子作为模型输入，对应的目标代谢物产量作为模型的输出，基于机器学习模型学习二者的映射关系，对所有组合情况进行预测，产量从高到低排序，选取产量最高的样品实验验证，采用Golden gate技术组装样品，重复步骤(2)-(4)，验证机器学习样品数据，输入步骤(4)得到的数据，迭代机器学习，得到高产高附加值代谢物底盘。

所述的基于人工智能创制的高附加值代谢物底盘在高效合成黄酮类化合物上的应用。

人工智能策略循环式学习各类高附加值化合物关键性基因表达的普适性技术与方法：小样本采样不同代谢物产量的工程菌株，以不同强度的启动子作为模型的输入，对应的目标产物产量为模型的输出，基于机器学习模型学习它们之间的映射关系，预测所有可能的组合情况，从高到底排序，选取产量最高的样本进行验证；借助高效率组装技术、代谢物初筛技术、HPLC定量技术等验证机器学习样品数据；迭代学习以上所有数据，进而平衡各基因表达水平，增强高附加值代谢通量，实现代谢物高产。

机器学习策略平衡柚皮素关键性基因表达的普适性策略：小样本采样不同柚皮素产量的工程菌，以各工程菌株不同强度的启动子作为模型的输入信号，对应柚皮素产量为模型的输出信号，基于机器学习模型学习对应映射关系，并预测所有可能的组合情况，从高到底排序，选取产量最高的样本进行检验；借助高效率组装技术、代谢物初筛技术、HPLC定量技术等检验机器学习样品数据；迭代学习以上所有数据，进而平衡柚皮素各关键性基因表达水平，实现其高产。

与现有技术相比，本发明具有的有益效果：

(1)本发明借助人工智能技术，实现“设计-构建-测试-学习”四位一体的自主学习过程，为各类高附加值代谢物途径平衡，提供新思路，可有效解决高附加值代谢物无高通量分子探针或者分子探针筛选不稳定的问题，减少人力成本，缩短微生物代谢调控时间，消除中间产物与终产物抑制效应，增强核心代谢通量，实现高附加值化合物高效合成。

(2)本发明的机器学习技术，采用小样本采样及数据迭代训练的闭环式流程，平衡核心代谢流基因表达水平，高产目标代谢物，可有效减少样品采样，降低微生物法合成高附加值物质的人力与时间成本。

(3)本发明的闭环式学习策略可高产柚皮素等高附加值化合物，根本性解决黄酮类化合物市场供应不足的问题。

附图说明

图1为本发明流程图；

图2为黄酮类化合物基本骨架结构；

图3为柚皮素(Naringenin)合成路径；

图4为自动化技术连续进化核心代谢流关键性基因后代谢物产量结果图。

具体实施方式

以下将通过附图和实施例对本发明作进一步说明。

实施例1：

本发明旨在运用人工智能策略，闭环式学习核心代谢流基因启动子文库与产量数据，借以最优分配关键性基因资源，高效合成目标代谢物。通过小样本采样，实现“设计-构建-测试-学习”闭环式、循环式学习启动子与目标代谢物产量数据，借以平衡各类高附加值化合物代谢流关键性基因表达水平，增强核心代谢流通量，解除中间产物、终产物对关键性酶抑制等屏障，高效合成高附加值代谢物。

详细阐述机器学习闭环式、迭代式学习各关键性基因表达水平的普适性策略，流程图如图1所示，其具体技术方案如下所示：

(1)验证不同启动子表达强度。以mKate2荧光蛋白为分子探针，在 588/633nm，检测不同启动子荧光信号，并将备选启动子分为低、中、高三种不同强度。

(2)制备关键性基因不同表达水平的启动子文库。以高保真性、高亲和力的linker序列连接各关键性基因的表达框；背景质粒选取ccdB基因与mKate2基因；优化Golden gate酶切与连接条件，在相应抗生素平板筛选不同启动子工程菌文库。

(3)提供基因突变文库挑取与培养技术，即挑取克隆子至96深孔板，放置高速摇床培养过夜。以1％接种量，转移至发酵培养基，培养2天。

(4)提供小样本采样的初筛方法。借助化学法或分子探针法，根据特定荧光与紫外信号，筛选出不同产量的启动子工程菌。

(5)提供不同工程菌株各基因启动子与目标代谢物产量测定的方法。运用 Sanger测序技术测定不同工程菌株启动子序列信息；借助高效液相层析技术测定目标高附加值代谢物产量。

(6)基于机器学习模型学习不同强度启动子的组合分布，寻找高附加值物质代谢通路平衡最优解的方法。以各个关键性基因工程菌对应的不同强度的启动子作为模型的输入，对应的目标产物产量为模型的输出，基于机器学习模型学习它们之间的映射关系，并对所有可能的组合情况进行预测，从高到底排序，选取产量最高的样本实验验证。借助Goldengate技术组装各个样品，根据本发明第三到五方面培养及测定方法，验证机器学习样品数据。重新输入本发明第六方面数据，迭代机器学习，最终，增强高附加值代谢通量，实现代谢物高产。

实施例2：

以柚皮素高附加值代谢物为实例，举例说明人工智能技术闭环式、迭代式学习小样本来源的柚皮素关键性基因启动子文库与产量数据，借以平衡代谢流，最优分配柚皮素关键性基因表达水平，创制高产黄酮类化合物的底盘微生物。黄酮类化合物基本骨架结构如图2所示，柚皮素(Naringenin)合成路径如图3所示。

详细说明机器学习技术连续驯化各类关键性代谢流基因表达的普适性策略，以高附加值的黄酮类化合物(柚皮素)为实例，详实说明机器学习技术闭环式、迭代式学习核心代谢流基因表达文库的流程。

具体包括如下步骤：

(1)本发明提供柚皮素核心代谢流的4个关键性酶：Rhodotorula glutinis来源的酪氨酸氨裂解酶(tyrosine ammonia lyase，TAL；KF765779)，其核苷酸序列如SEQ ID NO.1所示；Petroselinum crispum来源的4-香豆酸CoA连接酶 (4-coumarate:CoA ligase，4CL；KF765780))，其核苷酸序列如SEQ ID NO.2 所示；Petunia X hybrida来源的查尔酮合成酶(chalcone synthase，CHS； KF765781)，其核苷酸序列如SEQ ID NO.3所示；Medicagosativa来源的查尔酮异构酶(chalcone isomerase，CHI；KF765782)，其核苷酸序列如SEQID NO.4 所示。

(2)制备柚皮素关键性基因不同表达水平的启动子文库。以高保真性、高亲和力的linker序列连接各关键性基因的表达框；背景质粒选取ccdB基因与 mKate2基因；运用Golden gate技术，制备启动子文库，并在相应抗生素平板筛选柚皮素关键性基因不同启动子工程菌株文库。

(3)提供基因突变文库挑取与培养技术，即挑取克隆子至96深孔板，并放置高速摇床培养过夜。以1％接种量，转移至发酵培养基，培养2天。

(4)提供小样本采样的初筛方法。借助Al³⁺化学法，分别在373nm紫外信号与382/505nm的荧光信号筛选不同柚皮素产量的启动子工程菌。

(5)提供不同工程菌株各基因启动子与目标代谢物产量测定的方法。运用 Sanger测序技术测定不同工程菌株启动子序列信息；借助高效液相层析技术，在 290nm紫外信号条件下，测定不同工程菌柚皮素产量。

(6)基于机器学习模型学习不同强度启动子的组合分布，寻找柚皮素代谢通路平衡最优解的方法。以柚皮素4个关键性基因工程菌对应的不同强度的启动子作为模型的输入，对应的目标产物产量为模型的输出，基于机器学习模型学习它们之间的映射关系，并对所有可能的组合情况进行预测，从高到底排序，选取产量最高的样本实验验证。借助Goldengate技术组装各个样品，根据本发明第九到十一方面培养及测定方法，验证机器学习样品数据。重新输入本发明第十二方面数据，迭代机器学习，最终，增强高附加值代谢通量，实现代谢物高产。

实验结果证明：人工智能技术，使得柚皮素产量提高至1.32g/L，如图4所示，为目前文献报道的最高水平。

SEQUENCE LISTING

<110> 中国科学院深圳先进技术研究院

森瑞斯生物科技（深圳）有限公司

<120> 基于人工智能创制的高附加值代谢物底盘

<130> CP121011123C

<160> 4

<170> PatentIn version 3.3

<210> 1

<211> 2082

<212> DNA

<213> TAL

<400> 1

atggcgccgc gcccgacttc tcaaagccag gcccgcactt gcccgaccac ccaggttacc 60

caagttgata tcgttgagaa aatgctggcg gctccgactg atagcaccct ggagctggac 120

ggttatagcc tgaacctggg tgatgttgtg agcgctgcgc gtaagggtcg tccggttcgt 180

gttaaagata gcgatgaaat ccgcagcaaa atcgacaaga gcgttgaatt tctgcgcagc 240

caactgagca tgtctgttta cggtgtgacc accggctttg gcggctccgc ggacacccgc 300

accgaggacg caattagcct gcaaaaggcg ctgctggaac accagctgtg tggtgtgctg 360

ccgagcagct tcgacagctt tcgcctgggt cgtggtctgg agaacagcct gccgctggaa 420

gttgttcgcg gtgcaatgac cattcgtgtg aactctctga cccgtggcca tagcgctgtt 480

cgtctggttg ttctggaagc actgaccaac tttctgaacc acggtattac cccgattgtt 540

ccgctgcgcg gtaccatctc cgcgagcggc gatctgtctc cactgtctta cattgcagcg 600

gcgattagcg gtcacccgga tagcaaagtt cacgtggttc atgaaggcaa agagaagatc 660

ctgtacgcgc gcgaagcgat ggcgctgttt aacctggagc cggtggttct gggtccgaag 720

gagggcctgg gtctggtgaa cggtaccgca gtttccgcga gcatggcaac cctggcactg 780

cacgacgcgc acatgctgag cctgctgagc caatctctga ccgcgatgac cgtggaggcg 840

atggttggtc acgcgggcag cttccatcca ttcctgcacg atgttacccg tccgcacccg 900

acccaaatcg aggttgcggg taacattcgc aaactgctgg agggctctcg cttcgcggtt 960

caccacgagg aagaggttaa ggttaaggat gatgaaggca ttctgcgtca ggatcgttat 1020

ccgctgcgca ccagcccgca atggctgggt ccgctggtgt ccgacctgat tcacgctcat 1080

gccgttctga ccatcgaagc gggtcaaagc accaccgata acccactgat cgatgttgag 1140

aacaagacca gccatcacgg tggcaacttt caagcggcag cggttgccaa cactatggaa 1200

aagacccgtc tgggcctggc ccaaatcggt aaactgaact tcacccagct gaccgagatg 1260

ctgaacgcgg gcatgaaccg tggcctgccg agctgcctgg cggctgaaga cccatccctg 1320

agctatcatt gcaaaggtct ggacattgcg gcggctgcat ataccagcga actgggccac 1380

ctggctaacc cggttaccac ccacgttcaa ccggctgaaa tggcaaacca ggcggtgaac 1440

agcctggcgc tgattagcgc acgtcgtacc accgaatcta acgacgttct gtccctgctg 1500

ctggcaaccc acctgtactg cgtgctgcag gcgatcgacc tgcgtgcgat tgagttcgag 1560

ttcaagaaac agtttggtcc ggccattgtt agcctgatcg accaacactt tggtagcgcg 1620

atgaccggta gcaacctgcg tgatgagctg gttgaaaagg ttaacaagac tctggccaag 1680

cgtctggagc aaaccaacag ctacgatctg gttccgcgct ggcacgacgc ttttagcttc 1740

gctgcaggca ctgttgttga ggttctgtcc agcaccagcc tgagcctggc ggccgtgaac 1800

gcatggaagg ttgcggcagc cgagagcgcg atctccctga cccgccaggt tcgtgaaacc 1860

ttttggtccg ctgcaagcac ctccagcccg gcgctgtctt acctgagccc gcgcacccag 1920

atcctgtacg catttgtgcg tgaggaactg ggtgttaaag cccgccgtgg tgacgttttc 1980

ctgggtaaac aagaagttac catcggcagc aacgttagca agatttacga agccatcaag 2040

agcggccgta tcaacaacgt tctgctgaag atgctggcat aa 2082

<210> 2

<211> 1635

<212> DNA

<213> 4CL

<400> 2

atgggtgact gcgttgcccc gaaagaggat ctgatcttcc gcagcaaact gccggacatt 60

tacattccaa agcatctgcc gctgcatacc tattgttttg agaacatcag caaggttggc 120

gacaagagct gtctgatcaa cggcgcaacc ggcgaaacct ttacctacag ccaggttgag 180

ctgctgtccc gtaaagttgc cagcggcctg aacaagctgg gcattcaaca aggtgatacc 240

attatgctgc tgctgccgaa ctccccggag tactttttcg ctttcctggg tgcgagctat 300

cgcggtgcaa tcagcactat ggcgaaccca ttctttacca gcgcagaagt gatcaagcaa 360

ctgaaagcga gccaagcgaa gctgattatc acccaggcat gctatgttga caaggttaag 420

gactacgcag cggagaaaaa catccagatc atttgtattg acgatgcacc gcaggattgc 480

ctgcacttta gcaagctgat ggaagcggat gagagcgaaa tgccggaagt ggttattaac 540

agcgatgatg tggtggcact gccgtacagc tctggcacca ccggcctgcc gaaaggcgtt 600

atgctgaccc acaagggtct ggttaccagc gttgcacaac aggtggatgg tgataacccg 660

aacctgtata tgcactccga ggatgttatg atctgcatcc tgccactgtt ccatatctat 720

agcctgaacg ctgttctgtg ttgtggtctg cgtgcgggcg ttaccattct gatcatgcaa 780

aagttcgaca ttgtgccgtt tctggagctg attcagaagt ataaggttac cattggtccg 840

tttgttccgc cgatcgtgct ggccatcgcg aaaagcccgg ttgttgacaa gtacgacctg 900

tctagcgtgc gcaccgttat gagcggtgca gcgccgctgg gtaaagagct ggaggacgct 960

gttcgtgcga aattcccgaa cgcgaagctg ggtcaaggct atggcatgac cgaagccggt 1020

ccggttctgg cgatgtgtct ggcgttcgcc aaagagccgt atgagattaa gtctggcgca 1080

tgcggtaccg ttgtgcgtaa cgccgagatg aaaatcgttg acccagaaac caacgcgtct 1140

ctgccgcgta accagcgtgg tgagatttgc atccgtggtg atcagattat gaaaggttac 1200

ctgaacgacc cggaaagcac ccgcaccacc atcgacgaag agggttggct gcacaccggt 1260

gacattggtt tcatcgacga tgacgatgaa ctgttcattg ttgatcgtct gaaagaaatc 1320

attaagtaca aaggttttca agttgctccg gcggagctgg aagcactgct gctgacccac 1380

ccgaccatca gcgatgccgc ggtggttccg atgattgacg agaaagcggg tgaagtgcca 1440

gtggcgtttg ttgtgcgtac caacggtttt accaccaccg aagaagaaat caaacaattt 1500

gtgagcaaac aggttgtgtt ctacaaacgt atcttccgcg ttttcttcgt tgacgctatt 1560

ccgaaatccc cgagcggcaa gattctgcgt aaggatctgc gcgctcgtat tgcgagcggc 1620

gacctgccga agtaa 1635

<210> 3

<211> 1170

<212> DNA

<213> CHS

<400> 3

atggttacgg tggaagaata ccgcaaagct caacgcgctg aaggcccggc gacggtgatg 60

gcgattggca cggcaacccc gacgaactgt gttgatcaga gcacctatcc ggactattac 120

tttcgtatca ccaactctga acataaaacg gatctgaaag aaaaattcaa acgtatgtgc 180

gaaaaaagca tgatcaaaaa acgctatatg cacctgaccg aagaaattct gaaagaaaat 240

ccgagcatgt gtgaatacat ggcaccgtct ctggatgctc gccaggacat tgtggttgtc 300

gaagtgccga aactgggtaa agaagcggcc cagaaagcga tcaaagaatg gggccaaccg 360

aaatcaaaaa ttacccatct ggtcttttgc accacgtcgg gtgtggatat gccgggttgt 420

gactatcaac tgacgaaact gctgggtctg cgtccgagcg tgaaacgcct gatgatgtac 480

cagcaaggct gcttcgcagg cggtaccgtt ctgcgtctgg cgaaagatct ggccgaaaac 540

aataaaggtg cgcgtgttct ggtggtgtgt agtgaaatca ccgctgttac gtttcgtggt 600

ccgaacgata cgcacctgga ctccctggtt ggccaggccc tgttcggtga tggtgcaggt 660

gccattatca ttggtagcga cccgattccg ggcgttgaac gtccgctgtt tgaactggtc 720

agcgcagctc aaaccctgct gccggatagc cacggcgcaa ttgacggtca cctgcgtgaa 780

gtcggtctga cgttccatct gctgaaagat gtgccgggcc tgatctcaaa aaacattgaa 840

aaaagcctgg aagaagcgtt tcgcccgctg agtatctccg attggaacag cctgttctgg 900

attgcacatc cgggcggccc ggcaatcctg gaccaggtcg aaattaaact gggtctgaaa 960

ccggaaaaac tgaaagcgac ccgtaatgtt ctgtcaaact acggcaatat gagctctgcc 1020

tgcgtcctgt ttattctgga tgaaatgcgc aaagcatcgg ctaaagaagg tctgggcacc 1080

acgggtgaag gcctggaatg gggcgtgctg ttcggctttg gtccgggtct gacggtggaa 1140

acggtggttc tgcatagtgt ggctacctaa 1170

<210> 4

<211> 669

<212> DNA

<213> CHI

<400> 4

atggcagcaa gcattacggc aatcacggtt gaaaatctgg aatatccggc ggtcgttacc 60

tctccggtca cgggcaaatc atactttctg ggcggtgccg gtgaacgtgg tctgaccatt 120

gagggtaact ttatcaaatt cacggcaatt ggcgtttatc tggaagatat cgcggtcgcc 180

tcactggcgg ccaaatggaa aggtaaaagc tctgaagaac tgctggaaac cctggatttt 240

taccgtgaca ttatctcagg cccgttcgaa aaactgatcc gtggttcgaa aattcgcgaa 300

ctgagcggcc cggaatattc tcgcaaagtc atggaaaact gcgtggctca tctgaaatcc 360

gtcggcacgt acggtgacgc agaagctgaa gcgatgcaga aatttgccga agcattcaaa 420

ccggtgaatt ttccgccggg tgccagtgtt ttctatcgtc aatccccgga tggcatcctg 480

ggtctgtcat tttcgccgga caccagcatc ccggaaaaag aagcagctct gattgaaaat 540

aaagctgtga gttccgcggt tctggaaacg atgattggcg aacacgcggt ttctccggat 600

ctgaaacgct gtctggctgc tcgcctgccg gctctgctga atgaaggtgc ctttaaaatc 660

ggtaactga 669

Claims

1.基于人工智能创制的高附加值代谢物底盘，其特征在于采用人工智能技术，通过小样本采样，实现设计-构建-测试-学习闭环式、循环式学习启动子与目标代谢物产量数据，连续驯化高附加值核心代谢流关键性基因的启动子文库，优化目标核心代谢途径资源分配，得到高产高附加值代谢物底盘。

2.如权利要求1所述的基于人工智能创制的高附加值代谢物底盘，其特征在于所述高附加值代谢物包括类黄酮化合物、类黄酮化合物衍生物、类黄酮化合物经修饰后的化合物，所述类黄酮化合物包括柚皮素、花青素、黄芩素或生松素。

3.如权利要求1或2所述的高附加值代谢物底盘的创制方法，其特征在于包括以下步骤：

4.如权利要求3所述的创制方法，其特征在于所述步骤(1)中验证不同强度的启动子的方法为：以mKate2荧光蛋白为分子探针，在588/633nm紫外波长下检测不同启动子的荧光信号，分别以阿拉伯糖与T7启动子为弱与强的标准启动子，对上述启动子归类为低、中、高三种强度。

5.如权利要求3所述的创制方法，其特征在于所述步骤(1)中启动子文库的建立方法为：采用高保真、高亲和力的linker序列连接关键性基因的表达框，以ccdB基因和/或mKate2基因作为背景质粒，采用Golden gate酶切与连接技术，制备得到启动子文库。

6.如权利要求3所述的创制方法，其特征在于所述步骤(1)中Golden gate酶切与连接的条件为：以高保真、高亲和力的linker序列连接启动子的表达框，以37℃5min，16℃5min，50次循环为优化连接条件。

7.如权利要求3所述的创制方法，其特征在于所述步骤(2)采用自动化技术完成。

8.如权利要求3所述的创制方法，其特征在于所述步骤(3)中化学法包括Al³⁺化学法。

9.如权利要求3所述的创制方法，其特征在于所述步骤(5)的具体操作方法为：以关键性基因的不同强度的启动子作为模型输入，对应的目标代谢物产量作为模型的输出，基于机器学习模型学习二者的映射关系，对所有组合情况进行预测，产量从高到低排序，选取产量最高的样品实验验证，采用Golden gate技术组装样品，重复步骤(2)-(4)，验证机器学习样品数据，输入步骤(4)得到的数据，迭代机器学习，得到高产高附加值代谢物底盘。

10.如权利要求1或2所述的基于人工智能创制的高附加值代谢物底盘在高效合成黄酮类化合物上的应用。