CN114121161A - 一种基于迁移学习的培养基配方开发方法及系统 - Google Patents
一种基于迁移学习的培养基配方开发方法及系统 Download PDFInfo
- Publication number
- CN114121161A CN114121161A CN202110622279.7A CN202110622279A CN114121161A CN 114121161 A CN114121161 A CN 114121161A CN 202110622279 A CN202110622279 A CN 202110622279A CN 114121161 A CN114121161 A CN 114121161A
- Authority
- CN
- China
- Prior art keywords
- culture medium
- training
- formula
- model
- cells
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开了一种基于迁移学习的培养基配方开发方法及系统。所述方法包括:(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集;(2)预训练模型迁移;(3)培养效果值回归预测:对于待预测的培养基配方,采用步骤(2)获得的最终模型进行培养效果值预测。本发明通过采用少量训练数据对培养基预训练模型进行迁移训练,大大压缩了针对特定细胞配方开发所需的训练数据量,极大的缩短培养基配方的开发时间,从4‑6个月压缩至1‑2个月,显著降低开发成本。
Description
技术领域
本发明属于生物技术领域,更具体地,涉及一种基于迁移学习的培养基配方开发方法及系统。
背景技术
无血清无动物来源、化学成分限定培养基由碳源、氨基酸、维生素、微量金属离子、脂类、缓冲试剂和其他添加试剂组成,传统的培养基配方开发方式为以某一种或几种经典培养基为基础(比如DEME/F12),通过添加多种不同成分,采用单因素试验或DOE筛选试验找到关键组分,然后再用响应曲面等多种DOE实验设计,优化各组分浓度,以获得最佳配方;或根据细胞代谢分析、基因组学分析和蛋白组学分析找到各组分在细胞生长过程中变化情况及对目标产物产量和质量的影响来优化配方。
现有传统技术需要进行多轮试验,每次试验不能包含所有成分,费时较长,需要掌握基础化学、生化与分子生物学、细胞生物学等较多专业理论知识,获得配方可能不是最优。
结合人工智能技术的细胞培养基开发技术,则通过生成大量培养基配方,然后进行细胞培养实验,获得数据形成培养基数据集,从而训练回归预测算法模型来预测最佳培养基配方,缩短培养基开发的周期。然而这种方法的准确性在很大程度上由先验经验决定,即用来训练回归预测算法模型的配方和实验数据其数量和质量起到了决定性的影响,为了能够预测出最佳培养基配方,需要采用大量人力物力获得大量配方实验数据。当用这种回归算法来预测新的细胞的最佳配方时,需要花费大量人力物力完成大量配方数据,然后才能预测最佳配方,针对新细胞配方开发时间成本较高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于迁移学习的培养基配方开发方法及系统,其目的在于,应用迁移学习技术,采用少量针对特定细胞的培养基配方训练数据,对由大量培养基配方训练获得的预训练模型,针对特定细胞进行迅速的迁移训练,从而减少培养基AI推荐系统开发所需要的训练数据量和AI系统训练时间,迅速获得预测准确性良好的AI模型,由此解决现有的培养基开发方法需要针对特定细胞进行大量培养实验的难题,解决收集足够的训练数据导致的AI模型的训练成本高、开发周期长、已有数据库不能利用的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于迁移学习的培养基配方开发方法,其包括以下步骤:
(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集;
(2)预训练模型迁移:一次或多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据集,按照越靠近输出端优先级越高的原则,更新所述预训练模型的部分神经层,获得待开发细胞的回归模型;
(3)培养效果值回归预测:对于待预测的培养基配方,采用步骤(2)获得的最终模型进行培养效果值预测。
优选地,所述基于迁移学习的培养基配方开发方法,其步骤(2)所述更新预训练模型的部分神经层具体为:
冻结不更新部分的神经层;
采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型;
使得未被冻结的网络层更新。
优选地,所述基于迁移学习的培养基配方开发方法,其步骤(2)当待开发细胞的训练用培养基配方数据集大小在50至500之间时,冻结所述预训练模型靠近输入端的5至10层神经层,更新其余神经层。
优选地,所述基于迁移学习的培养基配方开发方法,其所述培养基预训练模型,包括依次相连的多层神经层,按照数据输入输出顺序依次为输入层、隐藏层和输出层;所述培养基配方依次经过输入层、隐藏层以及输出层预测所述培养基配方相应的培养效果值。
优选地,所述基于迁移学习的培养基配方开发方法,其步骤(2)包括以下子步骤:
(2-1)输出层调整:冻结步骤(1)获取的预训练模型的输入层和隐藏层,采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型,使得所述预训练模型的输出层更新,获得中间训练模型;
(2-2)微调整:冻结步骤(2-1)获得的所述中间训练模型的靠近输入端的部分隐藏层,采用步骤(1)获取的待开发细胞的训练用培养基配方数据训练所述中间训练模型,使得所述中间训练模型的输出层和靠近输出端的部分隐藏层更新,获得待开发细胞的回归模型。
优选地,所述基于迁移学习的培养基配方开发方法,其所述培养基预训练模型,包括5至20层神经层,以配方各成分的添加浓度为输入特征,以培养效果值为输出特征,训练用数据量在1000以上。
优选地,所述基于迁移学习的培养基配方开发方法,其培养基预训练模型的输入特征优选经过特征选择步骤,选择贡献度大的特征,以保证预训练模型在迁移过程中具有良好的泛化能力和准确性。
优选地,所述基于迁移学习的培养基配方开发方法,其培养基预训练模型的训练数据对应的配方形成包括以下四种方法:随机生成配方、DOE实验设计配方、混合形成配方、以及历史AI推荐配方。
按照本发明的另一个方面提供了一种基于迁移学习的培养基配方开发系统,其待开发细胞的训练用培养基配方数据生成模块、培养基预训练模型迁移模块、以及培养效果值回归预测模块;
所述待开发细胞的训练用培养基配方数据生成模块,用于获取待开发细胞的训练用培养基配方数据集,并提交给所述培养基预训练模型迁移模块;
所述培养基预训练模型迁移模块,载入有培养基预训练模型,采用所述训练用培养基配方数据集,按照越靠近输出端优先级越高的原则更新所述预训练模型的部分神经层,获得待开发细胞的回归模型并提交给所述培养效果值回归预测模块;
所述培养效果值回归预测模块,用于采用所述待开发细胞的回归模型预测待预测的培养基配方的培养效果值。
按照本发明的另一个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其所述计算机程序被处理器执行时实现本发明提供的基于迁移学习的培养基配方开发方法步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明通过采用少量训练数据对培养基预训练模型进行迁移训练,反复利用现有的实验验证配方数据库,大大压缩了针对特定细胞株所需的训练数据量,极大的减少配方收集成本,缩短配方的开发时间,从4-6个月压缩至1-2个月,显著降低开发成本。
由于本发明提供的培养基开发方法大幅缩减了培养基开发时间成本和经济成本,而预训练模型可以反复使用,因此对于同类型的细胞可以并行开发,同时为多个不同细胞株配方开发,进一步压缩时间成本。
附图说明
图1是本发明提供的基于迁移学习的培养基配方开发方法流程示意图;
图2是本发明实施例提供的预训练模型迁移输出层调整示意图;
图3是本发明实施例提供的预训练模型迁移微调整示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(控制变量)之间的关系。通过回归分析,首先用现有的培养基配方实验数据建立培养基各个成分(自变量)和细胞蛋白表达量、细胞密度、细胞活率等(控制变量)之间的模型,然后用模型预测大量培养基配方的输出指标,也即预测大量培养基配方培养细胞后获得的蛋白表达量、活率、密度等指标。在培养基配方形成时,根据配方中各个成分的取值范围可以形成大量配方数据,人工准备的配方数据工作量较大,而自动形成的配方数据能够依据规则大量生成。从众多预测结果中选择满足各个指标的培养基配方,把它们作为推荐培养基配方。最后用推荐的培养基配方培养细胞,验证培养基配方。细胞培养验证实验中也满足符合筛选要求的推荐培养基配方,最终选择为最优培养基配方,这样大幅度减少细胞培养实验,节省人力、财力,同时缩短开发时间。
利用回归模型预测培养基配方的前提是要有一定量的训练数据。如果训练数据过少,模型学习到的信息过少,构造的模型的预测效率就不佳。为了建立较为准确的回归模型,需要大量的培养基配方培养数据。
不同的细胞需要的培养基配方不同,针对一个细胞株构建的培养基预测模型在预测另一个细胞株的培养基培养效果时,预测准确度通常不满足需要。另外在研发每一个细胞株的培养基预测模型时,首先都要做大量的细胞培养实验,然后用细胞培养数据构建培养基预测模型。这不能达到在开发新细胞的培养基配方时只进行少量实验的目的,也不能使用之前已开发培养基配方的细胞的数据,工作量大,数据库不能整合。
为了解决上述问题,本发明采用迁移学习来建立回归预测模型,迁移学习方法的原理是将一个预训练的模型被重新用在另一个任务中。迁移学习时一方面能够借助已有的先验知识更好地克服数据过拟合的现象,另一方面能够针对不同的目标,学习到原先的大量数据集所不具有的特征。利用迁移学习开发培养基配方时,把用大量数据训练的预测效率最佳的预训练模型中的神经层权值,迁移到用少量数据训练时的模型中。这样可以达到用少量数据快速开发新细胞的培养基配方的目的。
实施时可以在A细胞株的大量数据构建的预训练模型基础上,用B细胞株的少量数据做迁移学习,即可快速开发培养基配方,进一步减少B细胞株培养实验,节省人力、财力,同时缩短开发时间。
本发明提供的基于迁移学习的培养基配方开发方法,如图1所示,包括以下步骤:
(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集;
一条训练用培养基配方数据,具体表示为:
(x1,x2,…,xn)(y1,y2,...,ym)
其中,(x1,x2,…,xn)为培养基配方,其中xi,i=1,2,...,n是培养基配方的第i个成分的添加浓度,(y1,y2,...,ym)为该培养基配方的培养效果值,例如细胞活率、细胞密度、蛋白表达量,又如葡萄糖、乳酸、氨等代谢产物浓度,yj代表第j个培养效果值。
所述训练用培养基配方数据集,含有多条训练用培养基配方数据,由培养基配方矩阵X,以及所述配方相应的培养效果值矩阵Y组成;可表示为:
所述培养基预训练模型,包括依次相连的多层神经层,按照数据输入输出顺序依次为输入层、隐藏层和输出层;所述培养基配方依次经过输入层、隐藏层以及输出层预测所述培养基配方相应的培养效果值;优选为5到20层神经层,以配方各成分的添加浓度为输入特征,以培养效果值为输出特征,训练用数据量在1000以上。培养基预训练模型的输入特征优选经过特征选择步骤,选择贡献度大的特征,以保证预训练模型在迁移过程中具有良好的泛化能力和准确性。
培养基预训练模型的训练配方,优选包括但不限于以下四种方法:随机生成配方、DOE实验设计配方、混合形成配方、历史AI推荐配方;
所述随机生成配方,即对于培养基配方中的每一成分,在其搜索空间内随机取值,形成培养基样本配方;
所述DOE实验设计配方,包括以下步骤:
S1、对于培养基中的各成分的最低添加浓度进行聚类,获得多个添加量级;对于培养基中的各成分按照功能划分为功能类别,所述功能类别包括氨基酸、微量金属离子、维生素、脂类、缓冲剂等;
S2、将步骤S1获取的不同添加量级和功能类别组合形成DOE实验因子,采用空间填充DOE实验设计形成基础样本配方,所述空间填充DOE实验设计为球填充法、拉丁超立方法、均匀法和最低潜能法;优选拉丁超立方法设计配方。
所述混合形成配方,即对于已有的培养基样本配方进行筛选及组合,获得更新的培养基样本配方;优选地,按照以下方法对与已有的培养基样本配方进行筛选及组合;验证已有的培养基样本配方的培养效果,选择细胞活率较高、细胞密度较高、或蛋白表达较高的配方采用两两混合或三种以上配方按照随机或预设比例混合配制成新的配方。
所述历史AI推荐配方,包括基于人工智能模型开发得到的培养基配方。
所述待开发细胞的训练用培养基配方数据,可以是针对待开发细胞全新设计并进行细胞培养实验获取的,也可以来源于预训练模型的训练数据集,当预训练模型针对的细胞类型包含待开发细胞时,将预训练模型的训练数据集中的关于待开发细胞的数据用于迁移学习,可以强化回归模型对于待开发细胞的适应性,从而获得更好的预测准确性。所述待开发细胞的训练用培养基配方数据集,优选包含如培养效果差、一般、良好的配方,并且覆盖配方中各成分更宽的浓度范围,即配方中各个成分低、中、高浓度也均应包含,从而提高待开发细胞的训练用培养基配方数据集的代表性,更有利于迁移学习模型的构建。
(2)预训练模型迁移:一次或多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据集,按照越靠近输出端优先级越高的原则,更新所述预训练模型的部分神经层,获得待开发细胞的回归模型;所述更新预训练模型的部分神经层具体为:
冻结不更新部分的神经层,冻结的定义即不计算该神经层的梯度且保持该神经层权值不变;
采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型;优选采用梯度下降法进行训练;
使得未被冻结的网络层权值更新。
优选方案,当待开发细胞的训练用培养基配方数据集大小在50至500之间时,冻结所述预训练模型靠近输入端的5至10层神经层,更新其余神经层。
实验结果显示,对于训练数据集大小在1000以上训练数据集训练获得的预训练模型,采用大小在50至500之间的待开发细胞的训练用培养基配方数据集,冻结靠近输入端的神经层,进行靠近输出端的神经层权值更新,可以获得良好的迁移效果。采用多次更新预训练模型的部分神经层,优先更新最靠近输出端的神经层,在训练数据集大小相同的前提下,相对于一次迁移获得的待开发细胞的回归模型,多次不同神经层的迁移学习具有更好的预测准确性;另外在多次训练时采用相同的待开发细胞的训练用培养基配方数据,训练、验证、测试用的各组数据集不变。
优选预训练模型迁移步骤如下:
(2-1)输出层调整,如图2所示:冻结步骤(1)获取的预训练模型的输入层和隐藏层,采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型,使得所述预训练模型的输出层更新,获得中间训练模型;具体地:
冻结预训练模型的输入层和隐藏层,并把预训练模型的输出层权值更新,采用训练用培养基配方数据训练、验证、测试回归模型。具体实现时将数据按预设比例分成训练、验证、测试,并进行交叉实验,获得中间训练模型。
(2-2)微调整,如图3所示:冻结步骤(2-1)获得的所述中间训练模型的靠近输入端的部分隐藏层,采用步骤(1)获取的待开发细胞的训练用培养基配方数据训练所述中间训练模型,使得所述中间训练模型的输出层和靠近输出端的部分隐藏层更新,获得待开发细胞的回归模型;具体地:
冻结所述中间训练模型的输入层和靠近输入端的部分隐藏层,并把中间训练模型的输出层和靠近输出端的部分隐藏层权值更新,采用待开发细胞的训练用培养基配方数据训练、验证、测试回归模型。具体实现时同样将数据按预设比例分成训练、验证、测试,要进行交叉实验。
(3)培养效果值回归预测:对于待预测的培养基配方,采用步骤(2)获得的待开发细胞的回归预测模型进行培养效果值预测。
当预训练模型采用的训练数据和待开发细胞皆为动物细胞时,迁移效果良好,细胞株类型越接近,最终获得的待开发细胞的回归模型越准确。
本发明提供的基于迁移学习的培养基配方开发系统,其包括:待开发细胞的训练用培养基配方数据生成模块、培养基预训练模型迁移模块、以及培养效果值回归预测模块;
所述待开发细胞的训练用培养基配方数据生成模块,用于获取待开发细胞的训练用培养基配方数据集,并提交给所述培养基预训练模型迁移模块;
所述培养基预训练模型迁移模块,载入有培养基预训练模型,用于采用所述训练用培养基配方数据集按照越靠近输出端优先级越高的原则更新所述预训练模型的部分神经层,获得待开发细胞的回归模型并提交给所述培养效果值回归预测模块;
所述培养效果值回归预测模块,用于采用所述待开发细胞的回归模型预测待预测的培养基配方的培养效果值。
本发明提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明提供的基于迁移学习的培养基配方开发方法步骤。
以下为实施例:
本实施例针对中国仓鼠卵巢细胞(CHO细胞),以及基础培养基开发为例,首先获取基础培养基预训练模型,对中国仓鼠卵巢细胞的子类别进行针对性的迁移训练获得相应待开发细胞的回归模型。该发明提供的基于迁移学习的培养基配方开发方法,当培养基预训练模型采用的实验细胞和待开发细胞具有相似的生理特性时,迁移学习效果良好,因此当实验细胞和待开发细胞为同类细胞时,更适合本发明。补料培养基预训练模型开发过程和迁移学习过程与基础培养基类似。
具体包括以下步骤:
(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集;
预训练模型由中国仓鼠卵巢细胞(CHO细胞)培养实验获取,过程如下:
采用上述发明内容中四种方式形成的大量配方用于训练预训练模型,具体如下:
所述在各成分的搜索空间内进行搜索形成训练配方,包括以下四种方法:随机生成配方、DOE实验设计配方、混合形成配方、历史AI推荐配方;
本实施例采用的所述随机生成配方,即对于培养基配方中的每一成分,在其搜索空间内随机取值,形成培养基样本配方;
本实施例采用的所述DOE实验设计配方,具体如下:
将配方中少量不变的成分除外(比如葡萄糖),其他所有组分按照氨基酸、微量金属离子、维生素、脂类、缓冲试剂等其他物质分成5大类,在每个大类中,每个成分以最大添加值为100%,最小值除以最大值为配方中最低添加百分比,选择最低添加百分比接近的成分组成新的一类,在5大类的基础上形成9个大类,即九个因子,采用空间填充DOE实验设计中拉丁超立方法设计出90个配方。
本实施例采用的所述混合形成配方,具体如下:验证已有的培养基样本配方的培养效果,选择细胞活率较高、细胞密度较高、或蛋白表达较高的配方采用两两混合或三种以上配方按照随机比例混合配制成新的配方,优选两种配方按照1:1比例混合形成新配方。
本实施例采用的所述历史AI推荐配方,包括按照本发明的配方优化方法基于人工智能优化得到的培养基配方。
本实施例最终建立的样本配方数据库包括2000培养基配方,其中包括DOE实验设计配方90个,随机配方200个,历史AI推荐配方100到500个,其余为混合配方,在1200个左右。
将以上配方进行批次培养,培养容器为50ml mini bioreactor,培养体积为10mL,接种理论密度为0.5E+06cells/mL,培养时间为7天,分别在第3天、第5天和第7天取样计数,并检测葡萄糖和乳酸含量,第7天增加检测蛋白表达量,将所有数据整理汇总后利用计算机进行学习,建立预训练模型。
建立培养基预测模型步骤如下:
组织培养基配方数据。其中,(x1,x2,…,xn)为培养基配方,其中xi,i=1,2,...,n是培养基配方的第i个成分的添加浓度,(y1,y2,...,ym)为该培养基配方的培养效果值。
本实例只针对7天批培养过程中细胞密度的最大值y1进行解释。具体实现时也可对不同输出指标的不同阶段的值进行建模、验证、测试和预测。
培养基配方数据写入到Excel文件,每一行代表一个培养基相关的信息。模型训练、测试或预测配方时,直接从Excel文件中读入数据。为了处理方便,也可以把Excel文件的数据写入到CSV文件、数据库文件等其它文件中,形成相应的文件格式,如下所示。
归一化:因培养基配方各个成分和输出指标的各个值的衡量单位不同,直接使用会对模型的训练和验证产生影响,降低训练效率,所以对输入和输出数据要用归一化(normalization)等手段进行预处理。
特征选择:培养基中各个成分对输出指标的贡献不同,所以要判断哪种成分对输出指标的预测贡献较大,其目的是提高训练效率和模型的泛化能力,降低预测误差。
对实验数据进行预处理后,用相关特征选择、互信息特征选择等方法对各个特征进行评分。某一个成分的评分越高,它对输出指标的预测贡献越大。将成分按评分值从高到低进行排序,形成一个特征评分序列。
选择性能较好的两三种回归模型,从评分序列中,按不同比例选择评分值最高的成分(5,10,15,10,一直到全部),进行回归模型训练、验证和测试实验。进行实验时选择十倍交叉实验,根据十倍交叉实验的平均值,如MSE,R2等回归模型指标,评价回归模型性能。
然后比较各个模型在不同成分数据下的性能,选择预测贡献度最大的成分。预测贡献度最大成分是指在模型中增加或减少成分时,模型性能降低或性能不变,此时相对应的成分序列就是预测性能最好的成分集。
训练、验证、测试预训练的回归模型。为保证实验的可靠性,具体实施时需进行多倍交叉实验,本实施例完成了十倍交叉实验,并用回归算法分别对不同的输出指标进行建模。用不同的回归算法均可实现培养基配方的预测,但预测效果不一样。为了确定哪一种回归算法对培养基配方预测效果好,用不同回归算法进行训练、验证,构造回归模型。用不同的回归模型对相同的测试数据进行配方预测实验,对比实验结果,判断哪种回归模型的培养基预测效率最好。本实施例从全连接神经网络、卷积神经网络、以及循环神经网络中,以R2作为回归模型评价指标,最终选择卷积神经网络。
获得待开发细胞的训练用培养基配方数据,步骤如下:
本实施例针对CHO细胞的子类别CHO-K1细胞进行培养基配方开发。迁移学习使用的数据集与预训练的数据集采用同样的数据预处理方式,而待开发细胞的训练用培养基配方数据200条,具体如下:
配方选择:待开发CHO-K1细胞批培养采用的配方来源于上述预训练模型中的配方,从中选择具有代表性的配方200个,保证预训练模型中培养效果差、一般、良好的配方均包含,配方中各个成分低、中、高浓度也均包含,从而更有利于迁移学习模型的构建。
培养数据获得:选择好配方后,采用上述预训练模型中获得数据集同样的细胞培养方法,获得待开发CHO-K1细胞训练用培养基配方数据。
(2)预训练模型迁移:多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据,按照越靠近输出端优先级越高的原则,更新所述预训练模型的部分神经层,获得待开发细胞的回归模型;具体为:
(2-1)输出层调整:冻结预训练模型的输入层和隐藏层,采用训练用培养基配方数据训练、验证、测试回归模型,并更新预训练模型的输出层权重获得中间训练模型。具体实现时将数据按8:1:1的比例将数据随机分成训练、验证、测试,要进行交叉实验;学习率优选为1E-1到1E-5。
(2-2)微调整:冻结中间训练模型的从输入层开始的前7个神经层,并把预训练模型的输出层和隐藏层替换成新的输出层和隐藏层,采用训练用培养基配方数据训练、验证、测试回归模型。具体实现时同样将数据按8:1:1比例讲数据重新随机分成训练、验证、测试,要进行交叉实验;学习率设置学习率优选为1E-2到1E-6。
根据多次选择不同神经层进行冻结,调整其他神经层的权值参数,即针对后续神经层进行迁移学习的训练,单独训练未冻结的神经层的权值参数。同样采用十倍交叉实验,对构建不同的神经层冻结方式,以及不同的学习率获得的待开发细胞的回归模型,根据预测效果的评价优劣,从预测准确度来看,优先更新输出层,总体而言冻结靠近输入端的7层神经网络最终获得的模型预测准确性最好。
(3)培养效果值回归预测:对于待预测的培养基配方,采用步骤(2)获得的最终模型进行效果值预测。
自动形成待预测的培养基配方:
根据生物团队提供的培养基配方各个成分的范围,对每一个成分形成长度为N的等差序列。例如,某一个培养基包含五个成分,它们的取值范围如表所示:
配方中各成分输出范围(单位mg/L)
成分 | Max | Min |
X1 | 200 | 400 |
X2 | 100 | 300 |
X3 | 40 | 72 |
X4 | 5 | 21 |
X5 | 65 | 89 |
根据培养基配方的各个成分的取值范围形成等差序列,本实施例形成长度为5的等差序列,产生的结果如表所示。用户可以根据自己的实际情况形成长度为N的等差序列。
配方成分对应的等差序列(单位mg/L)
X1 | 200 | 250 | 300 | 350 | 400 |
X2 | 100 | 150 | 200 | 250 | 300 |
X3 | 40 | 48 | 56 | 64 | 72 |
X4 | 5 | 9 | 13 | 17 | 21 |
X5 | 65 | 71 | 77 | 83 | 89 |
对等差序列矩阵的内容按行进行乱排序,目的是形成不同的配方,乱排序后的矩阵如表所示。对乱排序后的矩阵进行转置得到M套新配方,其中M是等差序列的长度。对等差序列矩阵先后进行两次乱排序和转置后形成的配方如表所示,表中带下划线的部分是第二次进行乱排序和转置后形成的配方。经过N次乱排序和转置后能够形成N*M套配方。其中M是等差序列的长度。
每一个成分对应的等差序列进行一次乱排序后的结果(单位mg/L)
X1 | 350 | 250 | 200 | 400 | 300 |
X2 | 150 | 250 | 300 | 200 | 100 |
X3 | 48 | 56 | 64 | 72 | 40 |
X4 | 9 | 5 | 21 | 17 | 13 |
X5 | 89 | 77 | 83 | 65 | 71 |
乱排序和转置后得到的5套培养基配方(单位mg/L)
配方编号 | X1 | X2 | X3 | X4 | X5 |
配方1 | 350 | 150 | 48 | 9 | 89 |
配方2 | 250 | 250 | 56 | 5 | 77 |
配方3 | 200 | 300 | 64 | 21 | 83 |
配方4 | 400 | 200 | 72 | 17 | 13 |
配方5 | 300 | 100 | 40 | 65 | 71 |
等差序列矩阵先后进行2次乱排序、转置后得到的培养基配方(单位mg/L)
输出指标预测
1)按照上述方法获得大量的培养基配方后,用得到的最终模型预测配方的各个输出指标。本实施例用90万套培养基配方来预测输出指标,从预测结果中选择前N个输出指标最佳的配方作为推荐配方供生物部门验证。预测结果如表所示(表中只列出10种成分浓度):
AI模型推荐的配方(单位mg/L)
2)将AI推荐的配方进行细胞培养实验,验证最优配方。实验结果如表所示:
AI推荐配方细胞培养结果
3)从细胞培养实验中选择输出指标满足要求的一批培养基配方,被确定为最优配方。选择上述表中编号为1,6,9等培养基配方为最优配方,培养结果如下表。
最优培养基配方培养结果
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于迁移学习的培养基配方开发方法,其特征在于,包括以下步骤:
(1)获取以深度神经网络为基础的培养基预训练模型、以及待开发细胞的训练用培养基配方数据集;
(2)预训练模型迁移:一次或多次采用步骤(1)获取的待开发细胞的训练用培养基配方数据集,按照越靠近输出端优先级越高的原则,更新所述预训练模型的部分神经层,获得待开发细胞的回归模型;
(3)培养效果值回归预测:对于待预测的培养基配方,采用步骤(2)获得的最终模型进行培养效果值预测。
2.如权利要求1所述的基于迁移学习的培养基配方开发方法,其特征在于,步骤(2)所述更新预训练模型的部分神经层具体为:
冻结不更新部分的神经层;
采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型;
使得未被冻结的网络层更新。
3.如权利要求1所述的基于迁移学习的培养基配方开发方法,其特征在于,步骤(2)当待开发细胞的训练用培养基配方数据集大小在50至500之间时,冻结所述预训练模型靠近输入端的5至10层神经层,更新其他神经层。
4.如权利要求1所述的基于迁移学习的培养基配方开发方法,其特征在于,所述培养基预训练模型,包括依次相连的多层神经层,按照数据输入输出顺序依次为输入层、隐藏层和输出层;所述培养基配方依次经过输入层、隐藏层以及输出层预测所述培养基配方相应的培养效果值。
5.如权利要求4所述的基于迁移学习的培养基配方开发方法,其特征在于,步骤(2)包括以下子步骤:
(2-1)输出层调整:冻结步骤(1)获取的预训练模型的输入层和隐藏层,采用步骤(1)获取的待开发细胞的训练用培养基配方数据集训练所述预训练模型,使得所述预训练模型的输出层更新,获得中间训练模型;
(2-2)微调整:冻结步骤(2-1)获得的所述中间训练模型的靠近输入端的部分隐藏层,采用步骤(1)获取的待开发细胞的训练用培养基配方数据训练所述中间训练模型,使得所述中间训练模型的输出层和靠近输出端的部分隐藏层更新,获得待开发细胞的回归模型。
6.如权利要求1所述的基于迁移学习的培养基配方开发方法,其特征在于,所述培养基预训练模型,包括5到20层神经层,以配方各成分的添加浓度为输入特征,以培养效果值为输出特征,训练用数据量在1000以上。
7.如权利要求1所述的基于迁移学习的培养基配方开发方法,其特征在于,培养基预训练模型的输入特征优选经过特征选择步骤,选择贡献度大的特征,以保证预训练模型在迁移过程中具有良好的泛化能力和准确性。
8.如权利要求1所述的基于迁移学习的培养基配方开发方法,其特征在于,培养基预训练模型的训练数据,其对应的配方形成包括以下四种方法:随机生成配方、DOE实验设计配方、混合形成配方、以及历史AI推荐配方。
9.一种基于迁移学习的培养基配方开发系统,其特征在于,包括:待开发细胞的训练用培养基配方数据生成模块、培养基预训练模型迁移模块、以及培养效果值回归预测模块;
所述待开发细胞的训练用培养基配方数据生成模块,用于获取待开发细胞的训练用培养基配方数据集,并提交给所述培养基预训练模型迁移模块;
所述培养基预训练模型迁移模块,载入有培养基预训练模型,用于采用所述训练用培养基配方数据集按照越靠近输出端优先级越高的原则更新所述预训练模型的部分神经层,获得待开发细胞的回归模型并提交给所述培养效果值回归预测模块;
所述培养效果值回归预测模块,用于采用所述待开发细胞的回归模型预测待预测的培养基配方的培养效果值。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于迁移学习的培养基配方开发方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622279.7A CN114121161B (zh) | 2021-06-04 | 2021-06-04 | 一种基于迁移学习的培养基配方开发方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622279.7A CN114121161B (zh) | 2021-06-04 | 2021-06-04 | 一种基于迁移学习的培养基配方开发方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114121161A true CN114121161A (zh) | 2022-03-01 |
CN114121161B CN114121161B (zh) | 2022-08-05 |
Family
ID=80359360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110622279.7A Active CN114121161B (zh) | 2021-06-04 | 2021-06-04 | 一种基于迁移学习的培养基配方开发方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114121161B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690513A (zh) * | 2023-12-12 | 2024-03-12 | 上海倍谙基生物科技有限公司 | 一种基于自编码器的培养基配方稳定性分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104099271A (zh) * | 2014-07-08 | 2014-10-15 | 谢必峰 | 一种红色诺卡氏菌新的培养方法 |
CN109558942A (zh) * | 2018-11-20 | 2019-04-02 | 电子科技大学 | 一种基于浅度学习的神经网络迁移方法 |
CN109754068A (zh) * | 2018-12-04 | 2019-05-14 | 中科恒运股份有限公司 | 基于深度学习预训练模型的迁移学习方法及终端设备 |
CN111063391A (zh) * | 2019-12-20 | 2020-04-24 | 海南大学 | 一种基于生成式对抗网络原理的不可培养微生物筛选系统 |
CN111666895A (zh) * | 2020-06-08 | 2020-09-15 | 上海市同济医院 | 基于深度学习的神经干细胞分化方向预测系统及方法 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
WO2020224779A1 (en) * | 2019-05-08 | 2020-11-12 | Insilico Biotechnology Ag | Method and means for optimizing biotechnological production |
CN112104602A (zh) * | 2020-08-04 | 2020-12-18 | 广东工业大学 | 一种基于cnn迁移学习的网络入侵检测方法 |
-
2021
- 2021-06-04 CN CN202110622279.7A patent/CN114121161B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104099271A (zh) * | 2014-07-08 | 2014-10-15 | 谢必峰 | 一种红色诺卡氏菌新的培养方法 |
CN109558942A (zh) * | 2018-11-20 | 2019-04-02 | 电子科技大学 | 一种基于浅度学习的神经网络迁移方法 |
CN109754068A (zh) * | 2018-12-04 | 2019-05-14 | 中科恒运股份有限公司 | 基于深度学习预训练模型的迁移学习方法及终端设备 |
WO2020224779A1 (en) * | 2019-05-08 | 2020-11-12 | Insilico Biotechnology Ag | Method and means for optimizing biotechnological production |
CN111063391A (zh) * | 2019-12-20 | 2020-04-24 | 海南大学 | 一种基于生成式对抗网络原理的不可培养微生物筛选系统 |
CN111666895A (zh) * | 2020-06-08 | 2020-09-15 | 上海市同济医院 | 基于深度学习的神经干细胞分化方向预测系统及方法 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN112104602A (zh) * | 2020-08-04 | 2020-12-18 | 广东工业大学 | 一种基于cnn迁移学习的网络入侵检测方法 |
Non-Patent Citations (4)
Title |
---|
HIROMASA KANEKO 等: "Transfer learning and wavelength selection method in NIR", 《ANALYTICAL SCIENCE ADVANCES》 * |
大湾生物: "大湾生物智能化培养基开发平台AlfaMedX正式上线", 《百度》 * |
张安安等: "基于迁移学习优化的DCNN语音识别技术", 《现代电子技术》 * |
肖怀秋等: "微生物培养基优化方法研究进展", 《酿酒科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690513A (zh) * | 2023-12-12 | 2024-03-12 | 上海倍谙基生物科技有限公司 | 一种基于自编码器的培养基配方稳定性分析方法 |
CN117690513B (zh) * | 2023-12-12 | 2024-06-25 | 上海倍谙基生物科技有限公司 | 一种基于自编码器的培养基配方稳定性分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114121161B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113450882B (zh) | 一种基于人工智能的基础培养基配方开发方法及系统 | |
CN113450868B (zh) | 一种基于培养指标评价的基础培养基开发方法 | |
CN105844300A (zh) | 一种基于随机森林算法的优化分类方法及装置 | |
Chacón-Labella et al. | How to improve scaling from traits to ecosystem processes | |
CN114360652B (zh) | 细胞株相似性评价方法及相似细胞株培养基配方推荐方法 | |
CN104866863B (zh) | 一种生物标志物筛选方法 | |
CN111105045A (zh) | 一种基于改进的蝗虫优化算法构建预测模型的方法 | |
WO2022063341A1 (zh) | 基础培养基开发方法、基础培养基配方开发方法及系统 | |
CN114239400A (zh) | 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法 | |
CN110517510A (zh) | 基于改进Webster函数和遗传算法的交叉口信号灯配时优化方法 | |
CN114121161B (zh) | 一种基于迁移学习的培养基配方开发方法及系统 | |
Bolnick et al. | A multivariate view of the speciation continuum | |
CN103164631B (zh) | 一种智能协同表达基因分析仪 | |
Zhou et al. | CCEO: cultural cognitive evolution optimization algorithm | |
CN114678085A (zh) | 一种基于代谢参数的补料培养基开发方法及系统 | |
CN116401555A (zh) | 双胞识别模型的构建方法、系统及存储介质 | |
CN117497038B (zh) | 一种基于核方法的快速优化培养基配方的方法 | |
Poggiale et al. | Global production increased by spatial heterogeneity in a population dynamics model | |
CN109033753A (zh) | 一种基于二级结构片段组装的群体蛋白质结构预测方法 | |
CN115101118A (zh) | 基于机器学习预测无血清培养基组分浓度的方法 | |
CN109447231A (zh) | 蚁群算法求解共享经济背景下多属性双边匹配问题的方法 | |
CN114819151A (zh) | 基于改进代理辅助混洗蛙跳算法的生化路径规划方法 | |
US20240321404A1 (en) | Basal culture medium development method, basal culture medium formulation and development, and system thereof | |
Nie et al. | Getting back to the nature of the microbial world: from the description and inductive reasoning to deductive study after ‘meta‐omics’ | |
Wang et al. | Research on the construction of enterprise human resource allocation model based on multi-objective particle swarm optimisation algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220606 Address after: 518048 No. 323-m, third floor, comprehensive Xinxing phase I, No. 1, Haihong Road, Fubao community, Fubao street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Taili Biotechnology Co.,Ltd. Address before: 523576 building 3 and 4, gaobao green technology city, Tutang Industrial Zone, Changping Town, Dongguan City, Guangdong Province Applicant before: DONGGUAN TAILI BIOLOGICAL ENGINEERING CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |