CN114121161A

CN114121161A - 一种基于迁移学习的培养基配方开发方法及系统

Info

Publication number: CN114121161A
Application number: CN202110622279.7A
Authority: CN
Inventors: 梁楚亨; 张祥涛; 陈亮; 买买提依明·哈斯木; 梁国龙
Original assignee: Dongguan Taili Biological Engineering Co ltd
Current assignee: Shenzhen Taili Biotechnology Co ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-03-01
Anticipated expiration: 2041-06-04
Also published as: CN114121161B

Abstract

本发明公开了一种基于迁移学习的培养基配方开发方法及系统。所述方法包括：(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集；(2)预训练模型迁移；(3)培养效果值回归预测：对于待预测的培养基配方，采用步骤(2)获得的最终模型进行培养效果值预测。本发明通过采用少量训练数据对培养基预训练模型进行迁移训练，大大压缩了针对特定细胞配方开发所需的训练数据量，极大的缩短培养基配方的开发时间，从4‑6个月压缩至1‑2个月，显著降低开发成本。

Description

一种基于迁移学习的培养基配方开发方法及系统

技术领域

本发明属于生物技术领域，更具体地，涉及一种基于迁移学习的培养基配方开发方法及系统。

背景技术

无血清无动物来源、化学成分限定培养基由碳源、氨基酸、维生素、微量金属离子、脂类、缓冲试剂和其他添加试剂组成，传统的培养基配方开发方式为以某一种或几种经典培养基为基础(比如DEME/F12)，通过添加多种不同成分，采用单因素试验或DOE筛选试验找到关键组分，然后再用响应曲面等多种DOE实验设计，优化各组分浓度，以获得最佳配方；或根据细胞代谢分析、基因组学分析和蛋白组学分析找到各组分在细胞生长过程中变化情况及对目标产物产量和质量的影响来优化配方。

现有传统技术需要进行多轮试验，每次试验不能包含所有成分，费时较长，需要掌握基础化学、生化与分子生物学、细胞生物学等较多专业理论知识，获得配方可能不是最优。

结合人工智能技术的细胞培养基开发技术，则通过生成大量培养基配方，然后进行细胞培养实验，获得数据形成培养基数据集，从而训练回归预测算法模型来预测最佳培养基配方，缩短培养基开发的周期。然而这种方法的准确性在很大程度上由先验经验决定，即用来训练回归预测算法模型的配方和实验数据其数量和质量起到了决定性的影响，为了能够预测出最佳培养基配方，需要采用大量人力物力获得大量配方实验数据。当用这种回归算法来预测新的细胞的最佳配方时，需要花费大量人力物力完成大量配方数据，然后才能预测最佳配方，针对新细胞配方开发时间成本较高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于迁移学习的培养基配方开发方法及系统，其目的在于，应用迁移学习技术，采用少量针对特定细胞的培养基配方训练数据，对由大量培养基配方训练获得的预训练模型，针对特定细胞进行迅速的迁移训练，从而减少培养基AI推荐系统开发所需要的训练数据量和AI系统训练时间，迅速获得预测准确性良好的AI模型，由此解决现有的培养基开发方法需要针对特定细胞进行大量培养实验的难题，解决收集足够的训练数据导致的AI模型的训练成本高、开发周期长、已有数据库不能利用的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于迁移学习的培养基配方开发方法，其包括以下步骤：

(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集；

(2)预训练模型迁移：一次或多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据集，按照越靠近输出端优先级越高的原则，更新所述预训练模型的部分神经层，获得待开发细胞的回归模型；

(3)培养效果值回归预测：对于待预测的培养基配方，采用步骤(2)获得的最终模型进行培养效果值预测。

优选地，所述基于迁移学习的培养基配方开发方法，其步骤(2)所述更新预训练模型的部分神经层具体为：

冻结不更新部分的神经层；

采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型；

使得未被冻结的网络层更新。

优选地，所述基于迁移学习的培养基配方开发方法，其步骤(2)当待开发细胞的训练用培养基配方数据集大小在50至500之间时，冻结所述预训练模型靠近输入端的5至10层神经层，更新其余神经层。

优选地，所述基于迁移学习的培养基配方开发方法，其所述培养基预训练模型，包括依次相连的多层神经层，按照数据输入输出顺序依次为输入层、隐藏层和输出层；所述培养基配方依次经过输入层、隐藏层以及输出层预测所述培养基配方相应的培养效果值。

优选地，所述基于迁移学习的培养基配方开发方法，其步骤(2)包括以下子步骤：

(2-1)输出层调整：冻结步骤(1)获取的预训练模型的输入层和隐藏层，采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型，使得所述预训练模型的输出层更新，获得中间训练模型；

(2-2)微调整：冻结步骤(2-1)获得的所述中间训练模型的靠近输入端的部分隐藏层，采用步骤(1)获取的待开发细胞的训练用培养基配方数据训练所述中间训练模型，使得所述中间训练模型的输出层和靠近输出端的部分隐藏层更新，获得待开发细胞的回归模型。

优选地，所述基于迁移学习的培养基配方开发方法，其所述培养基预训练模型，包括5至20层神经层，以配方各成分的添加浓度为输入特征，以培养效果值为输出特征，训练用数据量在1000以上。

优选地，所述基于迁移学习的培养基配方开发方法，其培养基预训练模型的输入特征优选经过特征选择步骤，选择贡献度大的特征，以保证预训练模型在迁移过程中具有良好的泛化能力和准确性。

优选地，所述基于迁移学习的培养基配方开发方法，其培养基预训练模型的训练数据对应的配方形成包括以下四种方法：随机生成配方、DOE实验设计配方、混合形成配方、以及历史AI推荐配方。

按照本发明的另一个方面提供了一种基于迁移学习的培养基配方开发系统，其待开发细胞的训练用培养基配方数据生成模块、培养基预训练模型迁移模块、以及培养效果值回归预测模块；

所述待开发细胞的训练用培养基配方数据生成模块，用于获取待开发细胞的训练用培养基配方数据集，并提交给所述培养基预训练模型迁移模块；

所述培养基预训练模型迁移模块，载入有培养基预训练模型，采用所述训练用培养基配方数据集，按照越靠近输出端优先级越高的原则更新所述预训练模型的部分神经层，获得待开发细胞的回归模型并提交给所述培养效果值回归预测模块；

所述培养效果值回归预测模块，用于采用所述待开发细胞的回归模型预测待预测的培养基配方的培养效果值。

按照本发明的另一个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，其所述计算机程序被处理器执行时实现本发明提供的基于迁移学习的培养基配方开发方法步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明通过采用少量训练数据对培养基预训练模型进行迁移训练，反复利用现有的实验验证配方数据库，大大压缩了针对特定细胞株所需的训练数据量，极大的减少配方收集成本，缩短配方的开发时间，从4-6个月压缩至1-2个月，显著降低开发成本。

由于本发明提供的培养基开发方法大幅缩减了培养基开发时间成本和经济成本，而预训练模型可以反复使用，因此对于同类型的细胞可以并行开发，同时为多个不同细胞株配方开发，进一步压缩时间成本。

附图说明

图1是本发明提供的基于迁移学习的培养基配方开发方法流程示意图；

图2是本发明实施例提供的预训练模型迁移输出层调整示意图；

图3是本发明实施例提供的预训练模型迁移微调整示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

回归分析是一种预测性的建模技术，它研究的是因变量(目标)和自变量(控制变量)之间的关系。通过回归分析，首先用现有的培养基配方实验数据建立培养基各个成分(自变量)和细胞蛋白表达量、细胞密度、细胞活率等(控制变量)之间的模型，然后用模型预测大量培养基配方的输出指标，也即预测大量培养基配方培养细胞后获得的蛋白表达量、活率、密度等指标。在培养基配方形成时，根据配方中各个成分的取值范围可以形成大量配方数据，人工准备的配方数据工作量较大，而自动形成的配方数据能够依据规则大量生成。从众多预测结果中选择满足各个指标的培养基配方，把它们作为推荐培养基配方。最后用推荐的培养基配方培养细胞，验证培养基配方。细胞培养验证实验中也满足符合筛选要求的推荐培养基配方，最终选择为最优培养基配方，这样大幅度减少细胞培养实验，节省人力、财力，同时缩短开发时间。

利用回归模型预测培养基配方的前提是要有一定量的训练数据。如果训练数据过少，模型学习到的信息过少，构造的模型的预测效率就不佳。为了建立较为准确的回归模型，需要大量的培养基配方培养数据。

不同的细胞需要的培养基配方不同，针对一个细胞株构建的培养基预测模型在预测另一个细胞株的培养基培养效果时，预测准确度通常不满足需要。另外在研发每一个细胞株的培养基预测模型时，首先都要做大量的细胞培养实验，然后用细胞培养数据构建培养基预测模型。这不能达到在开发新细胞的培养基配方时只进行少量实验的目的，也不能使用之前已开发培养基配方的细胞的数据，工作量大，数据库不能整合。

为了解决上述问题，本发明采用迁移学习来建立回归预测模型，迁移学习方法的原理是将一个预训练的模型被重新用在另一个任务中。迁移学习时一方面能够借助已有的先验知识更好地克服数据过拟合的现象，另一方面能够针对不同的目标，学习到原先的大量数据集所不具有的特征。利用迁移学习开发培养基配方时，把用大量数据训练的预测效率最佳的预训练模型中的神经层权值，迁移到用少量数据训练时的模型中。这样可以达到用少量数据快速开发新细胞的培养基配方的目的。

实施时可以在A细胞株的大量数据构建的预训练模型基础上，用B细胞株的少量数据做迁移学习，即可快速开发培养基配方，进一步减少B细胞株培养实验，节省人力、财力，同时缩短开发时间。

本发明提供的基于迁移学习的培养基配方开发方法，如图1所示，包括以下步骤：

一条训练用培养基配方数据，具体表示为：

(x₁,x₂,…,x_n)(y₁,y₂,...,y_m)

其中，(x₁,x₂,…,x_n)为培养基配方，其中x_i,i＝1,2,...,n是培养基配方的第i个成分的添加浓度，(y₁,y₂,...,y_m)为该培养基配方的培养效果值，例如细胞活率、细胞密度、蛋白表达量，又如葡萄糖、乳酸、氨等代谢产物浓度，y_j代表第j个培养效果值。

所述训练用培养基配方数据集，含有多条训练用培养基配方数据，由培养基配方矩阵X，以及所述配方相应的培养效果值矩阵Y组成；可表示为：

所述培养基预训练模型，包括依次相连的多层神经层，按照数据输入输出顺序依次为输入层、隐藏层和输出层；所述培养基配方依次经过输入层、隐藏层以及输出层预测所述培养基配方相应的培养效果值；优选为5到20层神经层，以配方各成分的添加浓度为输入特征，以培养效果值为输出特征，训练用数据量在1000以上。培养基预训练模型的输入特征优选经过特征选择步骤，选择贡献度大的特征，以保证预训练模型在迁移过程中具有良好的泛化能力和准确性。

培养基预训练模型的训练配方，优选包括但不限于以下四种方法：随机生成配方、DOE实验设计配方、混合形成配方、历史AI推荐配方；

所述随机生成配方，即对于培养基配方中的每一成分，在其搜索空间内随机取值，形成培养基样本配方；

所述DOE实验设计配方，包括以下步骤：

S1、对于培养基中的各成分的最低添加浓度进行聚类，获得多个添加量级；对于培养基中的各成分按照功能划分为功能类别，所述功能类别包括氨基酸、微量金属离子、维生素、脂类、缓冲剂等；

S2、将步骤S1获取的不同添加量级和功能类别组合形成DOE实验因子，采用空间填充DOE实验设计形成基础样本配方，所述空间填充DOE实验设计为球填充法、拉丁超立方法、均匀法和最低潜能法；优选拉丁超立方法设计配方。

所述混合形成配方，即对于已有的培养基样本配方进行筛选及组合，获得更新的培养基样本配方；优选地，按照以下方法对与已有的培养基样本配方进行筛选及组合；验证已有的培养基样本配方的培养效果，选择细胞活率较高、细胞密度较高、或蛋白表达较高的配方采用两两混合或三种以上配方按照随机或预设比例混合配制成新的配方。

所述历史AI推荐配方，包括基于人工智能模型开发得到的培养基配方。

所述待开发细胞的训练用培养基配方数据，可以是针对待开发细胞全新设计并进行细胞培养实验获取的，也可以来源于预训练模型的训练数据集，当预训练模型针对的细胞类型包含待开发细胞时，将预训练模型的训练数据集中的关于待开发细胞的数据用于迁移学习，可以强化回归模型对于待开发细胞的适应性，从而获得更好的预测准确性。所述待开发细胞的训练用培养基配方数据集，优选包含如培养效果差、一般、良好的配方，并且覆盖配方中各成分更宽的浓度范围，即配方中各个成分低、中、高浓度也均应包含，从而提高待开发细胞的训练用培养基配方数据集的代表性，更有利于迁移学习模型的构建。

(2)预训练模型迁移：一次或多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据集，按照越靠近输出端优先级越高的原则，更新所述预训练模型的部分神经层，获得待开发细胞的回归模型；所述更新预训练模型的部分神经层具体为：

冻结不更新部分的神经层，冻结的定义即不计算该神经层的梯度且保持该神经层权值不变；

采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型；优选采用梯度下降法进行训练；

使得未被冻结的网络层权值更新。

优选方案，当待开发细胞的训练用培养基配方数据集大小在50至500之间时，冻结所述预训练模型靠近输入端的5至10层神经层，更新其余神经层。

实验结果显示，对于训练数据集大小在1000以上训练数据集训练获得的预训练模型，采用大小在50至500之间的待开发细胞的训练用培养基配方数据集，冻结靠近输入端的神经层，进行靠近输出端的神经层权值更新，可以获得良好的迁移效果。采用多次更新预训练模型的部分神经层，优先更新最靠近输出端的神经层，在训练数据集大小相同的前提下，相对于一次迁移获得的待开发细胞的回归模型，多次不同神经层的迁移学习具有更好的预测准确性；另外在多次训练时采用相同的待开发细胞的训练用培养基配方数据，训练、验证、测试用的各组数据集不变。

优选预训练模型迁移步骤如下：

(2-1)输出层调整，如图2所示：冻结步骤(1)获取的预训练模型的输入层和隐藏层，采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型，使得所述预训练模型的输出层更新，获得中间训练模型；具体地：

冻结预训练模型的输入层和隐藏层，并把预训练模型的输出层权值更新，采用训练用培养基配方数据训练、验证、测试回归模型。具体实现时将数据按预设比例分成训练、验证、测试，并进行交叉实验，获得中间训练模型。

(2-2)微调整，如图3所示：冻结步骤(2-1)获得的所述中间训练模型的靠近输入端的部分隐藏层，采用步骤(1)获取的待开发细胞的训练用培养基配方数据训练所述中间训练模型，使得所述中间训练模型的输出层和靠近输出端的部分隐藏层更新，获得待开发细胞的回归模型；具体地：

冻结所述中间训练模型的输入层和靠近输入端的部分隐藏层，并把中间训练模型的输出层和靠近输出端的部分隐藏层权值更新，采用待开发细胞的训练用培养基配方数据训练、验证、测试回归模型。具体实现时同样将数据按预设比例分成训练、验证、测试，要进行交叉实验。

(3)培养效果值回归预测：对于待预测的培养基配方，采用步骤(2)获得的待开发细胞的回归预测模型进行培养效果值预测。

当预训练模型采用的训练数据和待开发细胞皆为动物细胞时，迁移效果良好，细胞株类型越接近，最终获得的待开发细胞的回归模型越准确。

本发明提供的基于迁移学习的培养基配方开发系统，其包括：待开发细胞的训练用培养基配方数据生成模块、培养基预训练模型迁移模块、以及培养效果值回归预测模块；

所述培养基预训练模型迁移模块，载入有培养基预训练模型，用于采用所述训练用培养基配方数据集按照越靠近输出端优先级越高的原则更新所述预训练模型的部分神经层，获得待开发细胞的回归模型并提交给所述培养效果值回归预测模块；

本发明提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明提供的基于迁移学习的培养基配方开发方法步骤。

以下为实施例：

本实施例针对中国仓鼠卵巢细胞(CHO细胞)，以及基础培养基开发为例，首先获取基础培养基预训练模型，对中国仓鼠卵巢细胞的子类别进行针对性的迁移训练获得相应待开发细胞的回归模型。该发明提供的基于迁移学习的培养基配方开发方法，当培养基预训练模型采用的实验细胞和待开发细胞具有相似的生理特性时，迁移学习效果良好，因此当实验细胞和待开发细胞为同类细胞时，更适合本发明。补料培养基预训练模型开发过程和迁移学习过程与基础培养基类似。

具体包括以下步骤：

预训练模型由中国仓鼠卵巢细胞(CHO细胞)培养实验获取，过程如下：

采用上述发明内容中四种方式形成的大量配方用于训练预训练模型，具体如下：

所述在各成分的搜索空间内进行搜索形成训练配方，包括以下四种方法：随机生成配方、DOE实验设计配方、混合形成配方、历史AI推荐配方；

本实施例采用的所述随机生成配方，即对于培养基配方中的每一成分，在其搜索空间内随机取值，形成培养基样本配方；

本实施例采用的所述DOE实验设计配方，具体如下：

将配方中少量不变的成分除外(比如葡萄糖)，其他所有组分按照氨基酸、微量金属离子、维生素、脂类、缓冲试剂等其他物质分成5大类，在每个大类中，每个成分以最大添加值为100％，最小值除以最大值为配方中最低添加百分比，选择最低添加百分比接近的成分组成新的一类，在5大类的基础上形成9个大类，即九个因子，采用空间填充DOE实验设计中拉丁超立方法设计出90个配方。

本实施例采用的所述混合形成配方，具体如下：验证已有的培养基样本配方的培养效果，选择细胞活率较高、细胞密度较高、或蛋白表达较高的配方采用两两混合或三种以上配方按照随机比例混合配制成新的配方，优选两种配方按照1：1比例混合形成新配方。

本实施例采用的所述历史AI推荐配方，包括按照本发明的配方优化方法基于人工智能优化得到的培养基配方。

本实施例最终建立的样本配方数据库包括2000培养基配方，其中包括DOE实验设计配方90个，随机配方200个，历史AI推荐配方100到500个，其余为混合配方，在1200个左右。

将以上配方进行批次培养，培养容器为50ml mini bioreactor，培养体积为10mL，接种理论密度为0.5E+06cells/mL，培养时间为7天，分别在第3天、第5天和第7天取样计数，并检测葡萄糖和乳酸含量，第7天增加检测蛋白表达量，将所有数据整理汇总后利用计算机进行学习，建立预训练模型。

建立培养基预测模型步骤如下：

组织培养基配方数据。其中，(x₁,x₂,…,x_n)为培养基配方，其中x_i,i＝1,2,...,n是培养基配方的第i个成分的添加浓度，(y₁,y₂,...,y_m)为该培养基配方的培养效果值。

本实例只针对7天批培养过程中细胞密度的最大值y₁进行解释。具体实现时也可对不同输出指标的不同阶段的值进行建模、验证、测试和预测。

培养基配方数据写入到Excel文件，每一行代表一个培养基相关的信息。模型训练、测试或预测配方时，直接从Excel文件中读入数据。为了处理方便，也可以把Excel文件的数据写入到CSV文件、数据库文件等其它文件中，形成相应的文件格式，如下所示。

归一化：因培养基配方各个成分和输出指标的各个值的衡量单位不同，直接使用会对模型的训练和验证产生影响，降低训练效率，所以对输入和输出数据要用归一化(normalization)等手段进行预处理。

特征选择：培养基中各个成分对输出指标的贡献不同，所以要判断哪种成分对输出指标的预测贡献较大，其目的是提高训练效率和模型的泛化能力，降低预测误差。

对实验数据进行预处理后，用相关特征选择、互信息特征选择等方法对各个特征进行评分。某一个成分的评分越高，它对输出指标的预测贡献越大。将成分按评分值从高到低进行排序，形成一个特征评分序列。

选择性能较好的两三种回归模型，从评分序列中，按不同比例选择评分值最高的成分(5，10，15，10，一直到全部)，进行回归模型训练、验证和测试实验。进行实验时选择十倍交叉实验，根据十倍交叉实验的平均值，如MSE，R²等回归模型指标，评价回归模型性能。

然后比较各个模型在不同成分数据下的性能，选择预测贡献度最大的成分。预测贡献度最大成分是指在模型中增加或减少成分时，模型性能降低或性能不变，此时相对应的成分序列就是预测性能最好的成分集。

训练、验证、测试预训练的回归模型。为保证实验的可靠性，具体实施时需进行多倍交叉实验，本实施例完成了十倍交叉实验，并用回归算法分别对不同的输出指标进行建模。用不同的回归算法均可实现培养基配方的预测，但预测效果不一样。为了确定哪一种回归算法对培养基配方预测效果好，用不同回归算法进行训练、验证，构造回归模型。用不同的回归模型对相同的测试数据进行配方预测实验，对比实验结果，判断哪种回归模型的培养基预测效率最好。本实施例从全连接神经网络、卷积神经网络、以及循环神经网络中，以R²作为回归模型评价指标，最终选择卷积神经网络。

获得待开发细胞的训练用培养基配方数据，步骤如下：

本实施例针对CHO细胞的子类别CHO-K1细胞进行培养基配方开发。迁移学习使用的数据集与预训练的数据集采用同样的数据预处理方式，而待开发细胞的训练用培养基配方数据200条，具体如下：

配方选择：待开发CHO-K1细胞批培养采用的配方来源于上述预训练模型中的配方，从中选择具有代表性的配方200个，保证预训练模型中培养效果差、一般、良好的配方均包含，配方中各个成分低、中、高浓度也均包含，从而更有利于迁移学习模型的构建。

培养数据获得：选择好配方后，采用上述预训练模型中获得数据集同样的细胞培养方法，获得待开发CHO-K1细胞训练用培养基配方数据。

(2)预训练模型迁移：多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据，按照越靠近输出端优先级越高的原则，更新所述预训练模型的部分神经层，获得待开发细胞的回归模型；具体为：

(2-1)输出层调整：冻结预训练模型的输入层和隐藏层，采用训练用培养基配方数据训练、验证、测试回归模型，并更新预训练模型的输出层权重获得中间训练模型。具体实现时将数据按8:1:1的比例将数据随机分成训练、验证、测试，要进行交叉实验；学习率优选为1E-1到1E-5。

(2-2)微调整：冻结中间训练模型的从输入层开始的前7个神经层，并把预训练模型的输出层和隐藏层替换成新的输出层和隐藏层，采用训练用培养基配方数据训练、验证、测试回归模型。具体实现时同样将数据按8:1:1比例讲数据重新随机分成训练、验证、测试，要进行交叉实验；学习率设置学习率优选为1E-2到1E-6。

根据多次选择不同神经层进行冻结，调整其他神经层的权值参数，即针对后续神经层进行迁移学习的训练，单独训练未冻结的神经层的权值参数。同样采用十倍交叉实验，对构建不同的神经层冻结方式，以及不同的学习率获得的待开发细胞的回归模型，根据预测效果的评价优劣，从预测准确度来看，优先更新输出层，总体而言冻结靠近输入端的7层神经网络最终获得的模型预测准确性最好。

(3)培养效果值回归预测：对于待预测的培养基配方，采用步骤(2)获得的最终模型进行效果值预测。

自动形成待预测的培养基配方：

根据生物团队提供的培养基配方各个成分的范围，对每一个成分形成长度为N的等差序列。例如，某一个培养基包含五个成分，它们的取值范围如表所示：

配方中各成分输出范围(单位mg/L)

成分	Max	Min
			X1	200	400
X2	100	300
			X3	40	72
X4	5	21
			X5	65	89

根据培养基配方的各个成分的取值范围形成等差序列，本实施例形成长度为5的等差序列，产生的结果如表所示。用户可以根据自己的实际情况形成长度为N的等差序列。

配方成分对应的等差序列(单位mg/L)

X1	200	250	300	350	400
						X2	100	150	200	250	300
X3	40	48	56	64	72
						X4	5	9	13	17	21
X5	65	71	77	83	89

对等差序列矩阵的内容按行进行乱排序，目的是形成不同的配方，乱排序后的矩阵如表所示。对乱排序后的矩阵进行转置得到M套新配方，其中M是等差序列的长度。对等差序列矩阵先后进行两次乱排序和转置后形成的配方如表所示，表中带下划线的部分是第二次进行乱排序和转置后形成的配方。经过N次乱排序和转置后能够形成N*M套配方。其中M是等差序列的长度。

每一个成分对应的等差序列进行一次乱排序后的结果(单位mg/L)

X1	350	250	200	400	300
						X2	150	250	300	200	100
X3	48	56	64	72	40
						X4	9	5	21	17	13
X5	89	77	83	65	71

乱排序和转置后得到的5套培养基配方(单位mg/L)

配方编号	X1	X2	X3	X4	X5
						配方1	350	150	48	9	89
配方2	250	250	56	5	77
						配方3	200	300	64	21	83
配方4	400	200	72	17	13
						配方5	300	100	40	65	71

等差序列矩阵先后进行2次乱排序、转置后得到的培养基配方(单位mg/L)

输出指标预测

1)按照上述方法获得大量的培养基配方后，用得到的最终模型预测配方的各个输出指标。本实施例用90万套培养基配方来预测输出指标，从预测结果中选择前N个输出指标最佳的配方作为推荐配方供生物部门验证。预测结果如表所示(表中只列出10种成分浓度)：

AI模型推荐的配方(单位mg/L)

2)将AI推荐的配方进行细胞培养实验，验证最优配方。实验结果如表所示：

AI推荐配方细胞培养结果

3)从细胞培养实验中选择输出指标满足要求的一批培养基配方，被确定为最优配方。选择上述表中编号为1，6，9等培养基配方为最优配方，培养结果如下表。

最优培养基配方培养结果

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于迁移学习的培养基配方开发方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于迁移学习的培养基配方开发方法，其特征在于，步骤(2)所述更新预训练模型的部分神经层具体为：

冻结不更新部分的神经层；

使得未被冻结的网络层更新。

3.如权利要求1所述的基于迁移学习的培养基配方开发方法，其特征在于，步骤(2)当待开发细胞的训练用培养基配方数据集大小在50至500之间时，冻结所述预训练模型靠近输入端的5至10层神经层，更新其他神经层。

4.如权利要求1所述的基于迁移学习的培养基配方开发方法，其特征在于，所述培养基预训练模型，包括依次相连的多层神经层，按照数据输入输出顺序依次为输入层、隐藏层和输出层；所述培养基配方依次经过输入层、隐藏层以及输出层预测所述培养基配方相应的培养效果值。

5.如权利要求4所述的基于迁移学习的培养基配方开发方法，其特征在于，步骤(2)包括以下子步骤：

6.如权利要求1所述的基于迁移学习的培养基配方开发方法，其特征在于，所述培养基预训练模型，包括5到20层神经层，以配方各成分的添加浓度为输入特征，以培养效果值为输出特征，训练用数据量在1000以上。

7.如权利要求1所述的基于迁移学习的培养基配方开发方法，其特征在于，培养基预训练模型的输入特征优选经过特征选择步骤，选择贡献度大的特征，以保证预训练模型在迁移过程中具有良好的泛化能力和准确性。

8.如权利要求1所述的基于迁移学习的培养基配方开发方法，其特征在于，培养基预训练模型的训练数据，其对应的配方形成包括以下四种方法：随机生成配方、DOE实验设计配方、混合形成配方、以及历史AI推荐配方。

9.一种基于迁移学习的培养基配方开发系统，其特征在于，包括：待开发细胞的训练用培养基配方数据生成模块、培养基预训练模型迁移模块、以及培养效果值回归预测模块；

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于迁移学习的培养基配方开发方法步骤。