CN114121163B

CN114121163B - 基于整合学习的培养基预测系统、训练及培养基预测方法

Info

Publication number: CN114121163B
Application number: CN202111461022.4A
Authority: CN
Inventors: 梁楚亨; 张祥涛; 陈亮; 黄贺声; 梁国龙
Original assignee: Shenzhen Taili Biotechnology Co ltd
Current assignee: Shenzhen Taili Biotechnology Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-10-27
Anticipated expiration: 2041-11-30
Also published as: CN114121163A

Abstract

本发明公开了一种基于整合学习的培养基预测系统，其特征在于，包括特征输入模块、细胞株特征向量获取模块、所述培养基成分特征向量获取模块、数据整合模块、和特征提取及回归模块。通过本发明所构思的以上技术方案与现有技术相比，由于该机器学习模型能够矢量化处理不同细胞株的信息，能够有效地提取蕴含在不同细胞株的规律，识别细胞株的相似度，获得泛化能力更强的模型。

Description

基于整合学习的培养基预测系统、训练及培养基预测方法

技术领域

本发明属于生物技术领域，更具体地，涉及一种基于整合学习的培养基预测系统、训练及培养基预测方法。

背景技术

无血清无动物来源、化学成分限定培养基由碳源、氨基酸、维生素、微量金属离子、脂类、缓冲试剂和其他添加试剂组成。

结合人工智能技术的细胞培养基开发技术，则通过生成大量培养基配方，然后进行细胞培养实验，获得数据形成培养基数据集，从而训练回归预测算法模型来预测最佳培养基配方，缩短培养基开发的周期。

然而为了获得回归预测算法模型的训练用配方数据和数据效果，需要大量的实验结果形成先验经验。而回归预测算法模型通常针对不同的细胞类型单独开发，难以兼顾准确性和泛化能力。导致在对多种细胞开发回归预测模型时，需要分别进行大规模的实验，获得相应类别的训练数据，开发成本高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于整合学习的培养基预测系统、训练及培养基预测方法，利用细胞株矢量化技术，整合多个细胞株信息，搭建更为通用的整合学习模型，其目的在于获取多个细胞株的特征，由此解决模型泛化能力不足，无法揽括多个细胞株的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于整合学习的培养基预测系统，其包括特征输入模块、细胞株特征向量获取模块、所述培养基成分特征向量获取模块、数据整合模块、和特征提取及回归模块；

所述特征输入模块，用于将输入的关联有细胞株编号的培养基配方数据，分别提取细胞株编号和培养基配方数据，并将所述细胞株编号输出到细胞株特征向量获取模块，将所述培养基配方数据输出到所述培养基成分特征向量获取模块；

所述细胞株特征向量获取模块，用于将所述细胞株编号进行矢量化，获得细胞株特征向量，形成细胞株特征向量集合提交给所述数据整合模块；

所述培养基成分特征向量获取模块，用于将所述培养基成分数据预处理为培养基成分特征向量，形成培养基成分特征向量集合并提交给数据整合模块；

所述数据整合模块，用于将所述细胞株特征向量集合和培养基成分特征向量集合进行整合获得输入特征矩阵，并将所述输入特征矩阵提交给特征提取回归模块；

所述特征提取回归模块，用于将所述输入特征矩阵采用深度学习神经网络进行特征映射，获得映射特征进行回归计算，输出细胞培养效果向量。

优选地，所述基于整合学习的培养基预测系统，其所述细胞株特征向量，包括先验特征和/或计算特征；所述先验特征，即根据先验知识确定的所述细胞株编号相应细胞株所具备的特征；所述计算特征，为采用智能算法为特定编号细胞株赋予的预设维度的向量值，优选采用带有embedding层的神经网络层训练方法获取。

优选地，所述基于整合学习的培养基预测系统，其将细胞株编号矢量化作为embedding层的权值，所述embedding层的权值定义方法包括但不限于以下方法中的一种或多种的组合：

其一：采用编码方法将细胞株编号进行编码作为embedding层的权值；所述编码方法包括但不限于独热编码、标签编码；

其二：采用细胞株先验特征作为embedding层的权值；

其三：细胞株的系列与类型特征的编码作为embedding层的权值。

其四：embedding层初始采用随机权值，采用端到端的方法训练embedding层的权值。

优选地，所述基于整合学习的培养基预测系统，其所述数据整合模块采用的数据整合方法，包括矩阵拼接，矩阵求和，矩阵点积，矩阵相乘；优选采用矩阵拼接。

优选地，所述基于整合学习的培养基预测系统，其所述特征提取回归模块采用的所述深度学习神经网络，包括用于提取N维特征的N个顺序相连的特征提取层；所述每个特征提取层用于实现注意力机制特征提取，优选包括一个或多个顺序连接的多头注意力模块以及全连接模块；所述多头注意力模块，优选包括多个顺序连接的多头注意力层，提取结果与输入进行特征相加及标准化作为多头注意力模块的输出。

优选地，所述基于整合学习的培养基预测系统，其所述细胞培养效果包括培养细胞的密度，培养细胞的活率，以及培养细胞的蛋白表达量。

按照本发明的另一个方面，提供了所述的整合学习的培养基预测系统的训练方法，包括以下步骤：

(1)获取针对不同细胞株获取总训练数据集；

(2)模型训练：采用步骤(1)获取的针对不同细胞株获取总训练数据集，对细胞株特征向量获取模块、特征提取回归模块进行联合训练，使得损失函数收敛，获得经训练的细胞株特征向量获取模块、特征提取回归模块。

(3)对于步骤(2)获得的细胞株特征向量获取模块、和特征提取回归模块对所有的细胞株分别进行性能评价，当对于所有种类的细胞株的预测性能满足要求时，结束训练并将此时的特征向量获取模块、特征提取回归模块作为训练结果输出；当目标细胞株训练结果不满足预测性能时，则增加相应细胞株的样本配方数据，重复步骤(1)至(3)，重新汇总训练数据集训练测试模型并进行测试；所述目标细胞株为所述基于整合学习的培养基预测系统所涵盖的细胞株中的一个或多个。

优选地，所述整合学习的培养基预测系统的训练方法，其步骤(1)优选包括以下子步骤：

(1-1)收集训练配方：在细胞株相应的各成分的添加范围内进行采样，得到涵盖多个的细胞株训练配方形成样本配方数据库，所述培养基配方关联有细胞株编号；所述样本配方数据库的样本总量在1000到50000个；

(1-2)获得培养指标数据：

对于步骤(1)中获得的样本配方数据库中存储的培养基样本配方，按照优化目的进行实验，获得关联有细胞株特征的培养基配方的培养效果；

(1-3)组织总训练数据集：将步骤(1-1)中获得的关联有细胞株编号的配方数据库与相应培养效果数据组合进行数据清洗后为总训练数据集；

步骤(2)采用的损失函数包括但不限于MSE均方误差(L2损失)，MAE平均绝对误差(L1损失)，Huber损失，Log-Cosh损失；优选MSE均方误差，更优选损失函数可附带L1或L2正则化项，优选L2正则化；

步骤(2)具体优选为：

将总训练数据集的关联有细胞株编号的配方数据库预处理后输入到特征输入模块，分别提取细胞株编号和培养基配方数据，并将所述细胞株编号输出到细胞株特征向量获取模块，将所述培养基配方数据输出到所述培养基成分特征向量获取模块；所述细胞株特征向量获取模块对细胞株编号进行矢量化，获得细胞株特征向量；所述培养基成分特征向量获取模块，用于将所述培养成分数据预处理为培养基成分特征向量；细胞株特征向量和培养基成分特征向量经过数据整合，输入到特征提取回归模块进行特征映射，获得映射特征并进行回归计算，根据回归计算输出的培养效果预测值与总训练数据集的培养效果值，计算损失值；采用梯度下降法进行训练模型。

按照本发明的另一个方面，提供了一种涵盖多类别细胞株的培养基预测方法，其应用本发明提供的于整合学习的培养基预测系统，包括以下步骤：

S1、对于所述基于整合学习的培养基预测系统所涵盖的特定类别的细胞株，在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索获得待预测的关联有细胞株编号的培养基配方数据集合；

S2、将步骤S1获得的培养基配方数据集合及其相应的细胞类别编码输入到本发明提供的基于整合学习的培养基预测系统，输出细胞培养效果向量。

优选地，所述涵盖多类别细胞株的培养基预测方法，其步骤S1采用全局优化算法或启发式算法在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索；

所述全局优化算法包括但不限于：牛顿法、拟牛顿法、共轭梯度法、以及梯度下降法；优选梯度下降法，所述梯度下降法优选为SGD、Momentum、Adagrad、RMSprop、Adam、Nadam。

所述启发式算法包括但不限于：遗传算法、贪心算法、退火算法、蚁群算法、粒子群算法、人工蜂群算法、人工鱼群算法、混洗蛙跳算法、烟花算法、细菌觅食优化算法、以及萤火虫算法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，由于该机器学习模型能够矢量化处理不同细胞株的信息，能够有效地提取蕴含在不同细胞株的规律，识别细胞株的相似度，获得泛化能力更强的模型。

附图说明

图1是本发明基于整合学习的培养基预测系统结构示意图；

图2是本发明实施例提供的特征提取层的结构示意图；

图3是本发明实施例提供的多头注意力模块结构示意图；

图4是本发明实施例提供的整合学习的培养基预测系统的训练及预测流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于整合学习的培养基预测系统，包括特征输入模块、细胞株特征向量获取模块、所述培养基成分特征向量获取模块、数据整合模块、和特征提取及回归模块；

所述细胞株特征向量获取模块，用于将所述细胞株编号进行矢量化，获得细胞株特征向量，形成细胞株特征向量集合提交给所述数据整合模块；所述细胞株特征向量，包括先验特征和/或计算特征；所述先验特征，即根据先验知识确定的所述细胞株编号相应细胞株所具备的特征，例如细胞体积、周长、不圆度、分泌物之类细胞特征；所述计算特征，为采用智能算法为特定编号细胞株赋予的预设维度的向量值，优选采用embedding等神经网络层训练方法获取。

所述细胞株编号，可以采用编码方法编制；将细胞株编号矢量化作为embedding层的权值，所述embedding层的权值定义方法包括但不限于以下方法中的一种或多种的组合：

其一：采用编码方法将细胞株编号进行编码作为embedding层的权值，所述编码方法包括但不限于独热编码、标签编码；如细胞株编码为0，1，2三种细胞株，它们的独热编码分别为(1，0，0)，(0，1，0)，(0，0，1)。

其二：采用细胞株先验特征作为embedding层的权值；所述细胞株先验特征包括但不限于细胞体积、周长、表达蛋白的各类氨基酸比率、表达蛋白的溶解度、表达蛋白对其他分子的亲和力。

其三：细胞株的系列与类型特征的编码作为embedding层的权值，细胞株的不同系列如CHO-k1，CHO-GS等，如同属于CHO-k1系列的细胞株编码为0，1的embedding层的权值都为(1，0)，而属于CHO-GS系列的细胞株编码为2的embedding层的权值为(0，1)。

前三种方法为冻结的权值，最后一种为未冻结的权值，未冻结的权值随着模型训练而优化。以上不同方法的权值定义方法可以单独或组合使用。

所述培养基成分特征向量获取模块，用于将所述培养成分数据预处理为培养基成分特征向量，形成培养基成分特征向量集合并提交给数据整合模块；

所述预处理方法包括但不限于：标准化、零均值中心化、min-max归一化；本发明优选标准化，实验显示相对其他预处理方法，标准化后模型预测准确性提高且训练收敛速度更快；而标准化包括但不限于Batch Norm，Layer Norm，Instance Norm，Group Norm等等。

所述数据整合模块，用于将所述细胞株特征向量集合和培养基成分特征向量集合进行整合获得输入特征矩阵，并将所述输入特征矩阵提交到特征提取回归模块；所述数据整合模块采用的数据整合方法，包括但不限于矩阵拼接，矩阵求和，矩阵点积，矩阵相乘；优选采用矩阵拼接，矩阵拼接之后的数据维度较小，利于训练收敛；

所述特征提取回归模块，用于将所述输入特征矩阵采用深度学习神经网络进行特征映射，获得映射特征进行回归计算，输出细胞培养效果向量；所述深度学习神经网络，如图1所示，包括用于提取N维特征的N个顺序相连的特征提取层；所述每个特征提取层用于实现注意力机制特征提取，如图2所示，优选包括一个或多个顺序连接的多头注意力模块以及全连接模块；所述多头注意力模块，如图3所示，包括多个顺序连接的多头注意力层，提取结果与输入进行特征相加及标准化作为多头注意力模块的输出。

注意力机制特征提取，将会以不同的权重组合不同类型的细胞株特征向量和培养基成分特征向量的元素，从而捕捉到不同细胞株敏感的培养基成分。

所述细胞培养效果包括但不限于培养细胞的密度，培养细胞的活率，以及培养细胞的蛋白表达量。

本发明提供的基于整合学习的培养基预测系统涉及多个超参数，具体为：特征提取层的层数1-6层，矢量化特征的维度2-32维，注意力机制的维度8-1024维，多头注意力的头数2-32头，以上都会影响整个模型的结构、优化参数的数目和模型的泛化能力。优选的学习率在1e-2到1e-5之间。

所述基于整合学习的培养基预测系统，其神经网络对输入的细胞株唯一编号进行编码，获得细胞株特征向量，将其与培养基成分特征向量进行拼接整合后经过深度神经网络特征提取与分析，由回归模型输出预测该细胞株编号在特定培养基浓度下的多种培养效果；通过特征向量拼接和特征提取，充分的利用了不同细胞株之间的共性信息和差异信息，与回归模型联合训练，一方面有效的提高了回归模型的准确性，另一方面较好的避免了数据的过拟合，提高了对不同细胞株的泛化能力；尤其重要的是，现有的培养基预测系统为了实现相应的预测能力而收集的总训练数据集大小数倍于本发明基于整合学习、针对不同细胞株的总训练数据集的大小，本发明提供的基于整合学习的培养基预测系统，大大降低了针对多种细胞株的培养基预测系统开发成本。

本发明提供的基于整合学习的培养基预测系统的训练方法，包括以下步骤：

(1)获取针对不同细胞株获取总训练数据集；具体包括以下子步骤：

(1-2)获得培养指标数据：

对于步骤(1)中获得的样本配方数据库中存储的培养基样本配方，按照优化目的进行实验，验证获得关联有细胞株特征的培养基配方的培养效果；

所述配方数据库优选经过清洗处理，所述清洗处理包括但不限于：缺失值处理、异常点处理、数据集均衡、数据降噪、和/或数据去重。

(2)模型训练：采用步骤(1)获取的针对不同细胞株获取总训练数据集，对细胞株特征向量获取模块、特征提取回归模块进行联合训练，使得损失函数收敛，获得经训练的细胞株特征向量获取模块、特征提取回归模块；其中：

采用的损失函数包括但不限于MSE均方误差(L2损失)，MAE平均绝对误差(L1损失)，Huber损失，Log-Cosh损失；优选MSE均方误差，更优选损失函数可附带L1或L2正则化项，优选L2正则化。

(3)对于步骤(2)获得的细胞株特征向量获取模块、和特征提取回归模块对所有的细胞株分别进行性能评价，当对于所有种类的细胞株的预测性能满足要求时，结束训练并将此时的特征向量获取模块、特征提取回归模块作为训练结果输出；当目标细胞株训练结果不满足预测性能时，则增加相应细胞株的样本配方数据，重复步骤(1)至(3)，重新汇总训练数据集训练测试模型并进行测试。所述目标细胞株为所述基于整合学习的培养基预测系统所涵盖的细胞株中的一个或多个。

所述基于整合学习的培养基预测系统的训练方法中，Dropout的比率0-0.5以及正则化的系数0-0.1。

一种涵盖多类别细胞株的培养基预测方法，应用本发明提供的基于整合学习的培养基预测系统，包括以下步骤：

S1、对于所述基于整合学习的培养基预测系统所涵盖的特定类别的细胞株，在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索获得待预测的关联有细胞株编号的培养基配方数据集合；优选采用全局优化算法或启发式算法在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索；

所述启发式算法包括但不限于：遗传算法、贪心算法、退火算法、蚁群算法、粒子群算法、人工蜂群算法、人工鱼群算法、混洗蛙跳算法、烟花算法、细菌觅食优化算法、以及萤火虫算法；

以下为实施例：

本实施例提供的基于整合学习的培养基预测系统架构如图1所示，为能够获取细胞株矢量特征的整合学习模型，组合一个或多个时间点，一个或多个细胞株，在模型数值模拟各个成分在不同含量下可能出现的多个培养效果；包括特征输入模块、细胞株特征向量获取模块、所述培养基成分特征向量获取模块、数据整合模块、和特征提取及回归模块；

所述细胞株特征向量获取模块，用于将所述细胞株编号进行矢量化，获得细胞株特征向量，提交给所述数据整合模块；所述细胞株特征向量，为采用embedding神经网络层为特定编号细胞株赋予的N维向量值。所述细胞株编号从0开始顺序编号，其涵盖细胞株的个数会直接影响模型定义的细胞株矢量特征的种类。以四个细胞编号为例，则有四种不同的矢量化特征。

将细胞株编号矢量化embedding层的权值定义方法采用细胞株的系列与类型特征的编码，细胞株的不同系列如CHO-k1，CHO-GS等，如同属于CHO-k1系列的细胞株编码为0，1的embedding层的权值都为(1，0)，而属于CHO-GS系列的细胞株编码为2的embedding层的权值为(0，1)。

所述培养基成分特征向量获取模块，用于将所述培养成分数据预处理为培养基成分特征向量，并提交给数据整合模块；

所述培养基成分特征向量的预处理方式采用标准化，所述培养基成分特征向量，为标准化之后的培养基各成分的含量，标准化值按照如下公式计算：

其中，x为原数据，μ为数据均值，σ为数据方差，x^*为标准化的输出。所述数据整合模块，用于将所述细胞株特征向量集合和培养基成分特征向量集合进行整合获得输入特征矩阵，并将所述输入特征矩阵提交到特征提取回归模块；所述数据整合方法，包括但不限于矩阵拼接，矩阵求和，矩阵点积，矩阵相乘；本实施例采用矩阵拼接，拼接后的输入特征矩阵，如下所示：

培养基成分特征向量集合采用矩阵X₁表示，由n个样本，m个培养基成分组成，细胞株特征向量集合采用矩阵X₂表示，由n个样本，p个矢量化特征组成。拼接形成X为n个样本，m+p维的特征矩阵，如下所示：

所述特征提取回归模块，用于将所述输入特征矩阵采用深度学习神经网络进行特征映射，获得映射特征进行回归计算，输出细胞培养效果向量；培养效果向量长度为1时表示单一指标预测输出，长度超过1时表示不同时间维度下，不同类型的指标，如下所示：

其中矩阵Y表示培养基培养效果，由n个样本，r个培养效果组成，例如同时预测第三天、第五天的活率和密度，总计4个培养效果组成培养效果向量。

所述特征提取回归模块，用于将所述输入特征矩阵采用深度学习神经网络进行特征映射，获得映射特征进行回归计算，输出细胞培养效果向量；所述深度学习神经网络，如图1所示，包括用于提取高维特征的N个顺序相连的特征提取层；

本实施例采用的特征提取层的结构如图2所示，如图2所示，包括顺序相连的第一与第二多头注意力模块、以及全连接模块，其中第一多头注意力模块深度为M，第二多头注意力模块深度为L。

所述多头注意力模块，如图3所示，包括多个顺序连接的多头注意力层，提取结果与输入进行特征相加及标准化作为多头注意力模块的输出。

输入特征，经过多头注意力模块以及全连接模型输出模型预测值。

本实施例中特征提取层层数为N、第一多头注意力模块维度为M，第二多头注意力模块维度为L，以及多头注意力的头数，Dropout的比率以及正则化的系数，为训练优化确定的超参数。以上超参数都会影响整个模型的优化参数的数目和模型的泛化能力。

本实施例提供的基于整合学习的培养基预测系统，如图4所示，按照如下方法进行训练：

(1-1)收集训练配方：在细胞株相应的各成分的添加范围内进行搜索涵盖多个的细胞株训练配方形成样本配方数据库，所述培养基配方关联有细胞株编号；所述样本配方数据库的样本总量在1000到50000个；具体地：

样本配方数据库的样本总量在1000到50000个，涵盖4个细胞株，分别是A细胞株、B细胞株、C细胞株、和D细胞株，其中编号A细胞株300到50000个，编号B细胞株50到3000个，编号C细胞株50到3000个，编号D细胞株50到3000个。

其中矩阵X₁表示培养基成分特征，由n个样本，m个培养基成分组成，培养基编码采用矩阵Z表示，共n个样本，培养基编码z_i∈(0，1，2，...，q)，其中q为细胞株个数减1，本实施例为3。

(1-2)获得培养指标数据：

对于步骤(1)中获得的样本配方数据库中存储的培养基样本配方，按照优化目的进行实验，获得关联有细胞株特征的培养基样本配方的培养效果，包括不同时间点下细胞活率，细胞密度以及蛋白质表达量。

其中矩阵Y表示培养基培养效果，由n个样本，r个培养效果组成，即第三天、第五天的活率和密度总计4个培养效果；本实施例以第五天细胞密度为例。

(1-3)组织总训练数据集：将步骤(1-1)中获得的关联有细胞株编号的配方数据库进行数据清洗后与相应培养效果数据组合为总训练数据集；

所述配方数据库优选经过清洗处理，所述清洗处理包括：缺失值处理、异常点处理、数据集均衡、数据降噪、和数据去重。

(2)模型训练：采用步骤(1)获取的针对不同细胞株获取总训练数据集，对细胞株特征向量获取模块、和特征提取回归模块进行联合训练，使得损失函数收敛，获得经训练的细胞株特征向量获取模块、和特征提取回归模块；其中：

采用的损失函数为带有L2正则化项的MSA损失函数；按照如下方法计算：

将总训练数据集的关联有细胞株编号的配方数据库预处理后输入到特征输入模块，分别提取细胞株编号和培养基配方数据，并将所述细胞株编号输出到细胞株特征向量获取模块，将所述培养基配方数据输出到所述培养基成分特征向量获取模块；所述细胞株特征向量获取模块对细胞株编号进行矢量化，获得细胞株特征向量；所述培养基成分特征向量获取模块，用于将所述培养基成分数据预处理为培养基成分特征向量；细胞株特征向量和培养基成分特征向量经过数据整合，输入到特征提取回归模块进行特征映射，获得映射特征并提交给所述回归模块，根据回归模块输出的培养效果预测值与总训练数据集的培养效果值，计算损失值；

本实施例模型优化涉及多个超参数，具体为：特征提取层的层数，矢量化特征的维度，注意力机制的维度，多头注意力的头数，Dropout的比率以及正则化的系数。以上都会影响整个模型的优化参数的数目和模型的泛化能力。

本实施例特征提取层数为8，第一多头注意力模块维度为64，第二多头注意力模块维度为64。

本实施例学习率在1e-2到1e-5之间。

优选的模型的参数，包括embedding层定义的维度，全连接层的权重等等，其数量范围在1e4到1e7之间。优选Dropout比率在0到0.5之间，正则化的系数在1e-2到1e-7之间。

模型训练采用梯度下降法，算法形式上有SGD，Momentum，Adagrad，RMSprop，Adam等；本实施例采用SGD算法。

(3)对于步骤(2)获得的细胞株特征向量获取模块、和特征提取回归模块对所有的细胞株分别进行性能评价，当对于所有种类的细胞株的预测性能满足要求时，结束训练并将此时的特征向量获取模块、特征提取回归模块作为训练结果输出；当存在目标细胞株训练结果不满足预测性能时，则增加相应细胞株的样本配方数据，重复步骤(1)至(3)，重新组织总训练数据集训练测试模型并进行测试。目标细胞株为本实施例所涵盖的细胞株中的一个或多个。

例如，某一个细胞株训练结果不符合标准，则相应增加该细胞株的样本配方数据，重新组织总训练数据集，并重新训练测试模型。

本实施例采用python语言，采用Pytorch框架，搭建深度学习模型，将细胞株矢量化，定制能够有效提取不同产品或不同类型细胞株信息的整合学习模型，同时训练模型神经层权值与细胞株矢量特征。采用模型可预测不同时间点下细胞活率，细胞密度以及蛋白质表达量等培养效果。具体地，本实施例采用模型预测：第五天细胞密度。

其中测试集中A细胞株第五天细胞密度的R平方约为0.85；B细胞株第五天细胞密度的R平方约为0.55；C细胞株第五天细胞密度的R平方约为0.92；D细胞株第五天细胞密度的R平方约为0.72；力求模型能够完美预测培养基配方的各个成分在不同含量下培养细胞的产量与质量。与单个细胞独立训练的效果相比，整合学习模型的R平方更高，可能是由于整合了针对不同细胞特别开发的培养基成分的培养效果信息，实现了信息差异化提取的原因。

采用本实施例提供的基于整合学习的培养基预测系统，对其涵盖的细胞株进行培养基预测，包括以下步骤：

S1、对于所述基于整合学习的培养基预测系统所涵盖的特定类别的细胞株，在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索获得待预测的关联有细胞株编号的培养基配方数据集合；优选采用全局优化算法或启发式算法在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索；本实施例具体地，对其所涵盖的细胞株相应的待优化的培养基配方中的每一成分的添加比例空间内，进行搜索获得待预测的关联有细胞株编号的培养基配方数据；

本实施例采用梯度下降法进行配方搜索；梯度即每个成分在特定含量增加一个单位对目标变量的变化影响，该梯度分为正负两种，正梯度表明提升该成分含量有利于目标变量，负梯度表明提升该成分不利于目标变量。基于以上模拟结果，逐步修正成分含量(正梯度就增加成分含量，负梯度则减少成分含量，增减成分的含量值与梯度值相关)，再重复模拟计算，然后根据梯度调整成分。重复以上过程，不断优化培养基配方成分浓度，可得到培养基配方为模型模拟下的针对该目标变量的优化后的培养基配方。上述梯度下降方法在算法上形式有SGD，Momentum，Adagrad，RMSprop，Adam等。本实施例具体采用了SGD算法实现梯度下降算法搜索培养基配方数据。

本实施例的输入数据包含细胞株编号，与培养基成分特征。细胞株编号输入到神经网络embedding层，获得细胞株矢量特征。将细胞株矢量特征与培养基成分特征进行数据整合，获得样本整体特征，进行深度学习提取隐藏特征，并预测一个或多个培养效果。

将关联有细胞株编号的培养基配方数据输入到特征输入模块，分别提取细胞株编号和培养基配方数据，并将所述细胞株编号输出到细胞株特征向量获取模块，将所述培养基配方数据输出到所述培养基成分特征向量获取模块；所述细胞株特征向量获取模块对细胞株编号进行矢量化，获得细胞株特征向量；所述培养基成分特征向量获取模块，用于将所述培养基成分数据预处理为培养基成分特征向量；细胞株特征向量和培养基成分特征向量经过数据整合，输入到特征提取回归模块进行特征映射，获得映射特征并提交给所述回归模块，针细胞活率，密度与表达量进行培养效果回归预测，获得预测的关联有细胞株编号的培养基配方数据的培养效果，最后根据预测的培养效果择优推荐同时满足一个或多个细胞株培养要求的培养基配方。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于整合学习的培养基预测系统，其特征在于，包括特征输入模块、细胞株特征向量获取模块、培养基成分特征向量获取模块、数据整合模块、和特征提取及回归模块；

2.如权利要求1所述的基于整合学习的培养基预测系统，其特征在于，所述细胞株特征向量，包括先验特征和/或计算特征；所述先验特征，即根据先验知识确定的所述细胞株编号相应细胞株所具备的特征；所述计算特征，为采用智能算法为特定编号细胞株赋予的预设维度的向量值，采用带有embedding层的神经网络层训练方法获取。

3.如权利要求2所述的基于整合学习的培养基预测系统，其特征在于，将细胞株编号矢量化作为embedding层的权值，所述embedding层的权值定义方法为以下方法中的一种或多种的组合：

其一：采用编码方法将细胞株编号进行编码作为embedding层的权值；所述编码方法包括但不限于独热编码、标签编码

其二：采用细胞株先验特征作为embedding层的权值；

其三：细胞株的系列与类型特征的编码作为embedding层的权值；

4.如权利要求1所述的基于整合学习的培养基预测系统，其特征在于，所述数据整合模块采用的数据整合方法，包括矩阵拼接，矩阵求和，矩阵点积，矩阵相乘。

5.如权利要求1所述的基于整合学习的培养基预测系统，其特征在于，所述特征提取回归模块采用的所述深度学习神经网络，包括用于提取N维特征的N个顺序相连的特征提取层。

6.如权利要求5所述的基于整合学习的培养基预测系统，其特征在于，所述每个特征提取层用于实现注意力机制特征提取，包括一个或多个顺序连接的多头注意力模块以及全连接模块；所述多头注意力模块，包括多个顺序连接的多头注意力层，提取结果与输入进行特征相加及标准化作为多头注意力模块的输出。

7.如权利要求1所述的基于整合学习的培养基预测系统，其特征在于，所述细胞培养效果包括培养细胞的密度，培养细胞的活率，以及培养基细胞的蛋白表达量。

8.如权利要求1至7任意一项所述的整合学习的培养基预测系统的训练方法，其特征在于，包括以下步骤：

（1）获取针对不同细胞株获取总训练数据集；

（2）模型训练：采用步骤（1）获取的针对不同细胞株获取总训练数据集，对细胞株特征向量获取模块、特征提取回归模块进行联合训练，使得损失函数收敛，获得经训练的细胞株特征向量获取模块、特征提取回归模块；

（3）对于步骤（2）获得的细胞株特征向量获取模块、和特征提取回归模块对所有的细胞株分别进行性能评价，当对于所有种类的细胞株的预测性能满足要求时，结束训练并将此时的特征向量获取模块、特征提取回归模块作为训练结果输出；当目标细胞株训练结果不满足预测性能时，则增加相应细胞株的样本配方数据，重复步骤（1）至（3），重新汇总训练数据集训练测试模型并进行测试；所述目标细胞株为所述基于整合学习的培养基预测系统所涵盖的细胞株中的一个或多个。

9.如权利要求8所述的整合学习的培养基预测系统的训练方法，其特征在于，步骤（1）包括以下子步骤：

（1-1）收集训练配方：在细胞株相应的各成分的添加范围内进行采样，得到涵盖多个的细胞株训练配方形成样本配方数据库，所述培养基配方关联有细胞株编号；所述样本配方数据库的样本总量在1000到50000个；

（1-2）获得培养指标数据：

对于步骤（1）中获得的样本配方数据库中存储的培养基样本配方，按照优化目的进行实验，获得关联有细胞株特征的培养基配方的培养效果；

（1-3）组织总训练数据集：将步骤（1-1）中获得的关联有细胞株编号的配方数据库与相应培养效果数据组合进行数据清洗后为总训练数据集；

步骤（2）采用的损失函数为MSE均方误差、MAE平均绝对误差、Huber损失、或Log-Cosh损失。

10.如权利要求9所述的整合学习的培养基预测系统的训练方法，其特征在于，步骤（2）采用的损失函数为MSE均方误差，所述损失函数附带L1或L2正则化项。

11.如权利要求10所述的整合学习的培养基预测系统的训练方法，其特征在于，步骤（2）具体为：

将总训练数据集的关联有细胞株编号的配方数据库预处理后输入到特征输入模块，分别提取细胞株编号和培养基配方数据，并将所述细胞株编号输出到细胞株特征向量获取模块，将所述培养集配方数据输出到所述培养基成分特征向量获取模块；所述细胞株特征向量获取模块对细胞株编号进行矢量化，获得细胞株特征向量；所述培养基成分特征向量获取模块，用于将所述培养基成分数据预处理为培养基成分特征向量；细胞株特征向量和培养基成分特征向量经过数据整合，输入到特征提取回归模块进行特征映射，获得映射特征并进行回归计算，根据回归计算输出的培养效果预测值与总训练数据集的培养效果值，计算损失值；采用梯度下降法进行模型训练。

12.一种涵盖多类别细胞株的培养基预测方法，其特征在于，应用如权利要求1至7任意一项所述的基于整合学习的培养基预测系统，包括以下步骤：

S2、将步骤S1获得的培养基配方数据集合及其相应的细胞类别编码输入到所述基于整合学习的培养基预测系统，输出细胞培养效果向量。

13.如权利要求12所述的涵盖多类别细胞株的培养基预测方法，其特征在于，步骤S1采用全局优化算法或启发式算法在其相应的待优化的培养基配方中的每一成分的添加比例空间内进行搜索。

14.如权利要求13所述的涵盖多类别细胞株的培养基预测方法，其特征在于，所述全局优化算法为：牛顿法、拟牛顿法、共轭梯度法、以及梯度下降法；

所述启发式算法为：遗传算法、贪心算法、退火算法、蚁群算法、粒子群算法、人工蜂群算法、人工鱼群算法、混洗蛙跳算法、烟花算法、细菌觅食优化算法、或萤火虫算法。

15.如权利要求14所述的涵盖多类别细胞株的培养基预测方法，其特征在于，所述全局优化算法为梯度下降法，所述梯度下降法为SGD、Momentum、Adagrad、RMSprop、Adam、或Nadam。