CN114625193A

CN114625193A - 细胞培养腔室的温湿度控制方法和系统

Info

Publication number: CN114625193A
Application number: CN202110145889.2A
Authority: CN
Inventors: 张冀聪; 王海波
Original assignee: Hefei Innovation Research Institute of Beihang University
Current assignee: Hefei Innovation Research Institute of Beihang University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-06-14
Anticipated expiration: 2041-02-02
Also published as: CN114625193B; CN116126064A

Abstract

提供了一种细胞培养腔室的温湿度控制方法和系统，所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。本发明可有效解决温湿度控制强耦合问题且调控精度高，响应快，可在电能消耗最小化的同时快速达到目标温湿度，还可以在达到目标温湿度后使温湿度的波动范围减小。

Description

细胞培养腔室的温湿度控制方法和系统

技术领域

本发明涉及细胞培养装置，尤其涉及一种细胞培养腔室的温湿度控制方法和系统。

背景技术

细胞培养是指在体外模拟体内环境(无菌、适宜温度、酸碱度和一定营养条件等)，使之生存、生长、繁殖并维持主要结构和功能的一种方法。细胞培养技术可以由一个细胞经过大量培养成为简单的单细胞或极少分化的多细胞，这是克隆技术必不可少的环节，而且细胞培养本身就是细胞的克隆。细胞培养技术是细胞生物学研究方法中重要和常用技术，通过细胞培养既可以获得大量细胞，又可以借此研究细胞的信号转导、细胞的合成代谢、细胞的生长增殖等。

以胚胎细胞培养为例，胚胎的培养对环境温湿度要求十分严格。温度过低时，胚胎的代谢活力下降，生长分类缓慢甚至死亡使细胞凝固，温度过高时，引起酶的灭活，破坏类脂质与核分裂，产生凝固酶以及会使蛋白质变性。湿度过高时，容易冷凝成小水滴落入培养皿内，污染培养液，湿度过低时,培养液容易挥发，破坏细胞培养的内环境。因此适宜的温湿度环境对于细胞培养质量至关重要。

现有细胞培养环境温湿度联合控制采用常规的控制器，而常规控制器存在的时滞、强耦合等问题，具体表现在：加热管的加热会引起培养箱某指定区域温度的变化，同时经过加热后空气中的水蒸气含量也会发生相应改变。同理，加湿管虽只起到加湿作用，但同样会对箱内温度产生影响。现有技术具有以下缺陷：1)现有PID控制技术实际上是将温湿度看成两个独立无关联的不变系统，并没有考虑温湿度间的耦合性，因此很难达到较为理想的控制目的；2)此外PID控制超调量大，精度和波动都难以达到更高要求；3)环境建模十分困难，基于先验假定系统传递函数、状态函数都难以拟合复杂的环境。

因此，有必要研究一种细胞培养腔室的温湿度控制方法和系统来解决上述的一个或多个技术问题。

发明内容

为解决上述至少一个技术问题，根据本发明一方面，提供了一种细胞培养腔室的温湿度控制方法，该方法可快速响应各腔室环境温湿度需求，精度高，超调量小，且各个腔室微环境互不干扰，可以满足多用户培养需求。

所述细胞培养腔室的温湿度控制方法，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制，所述控制方法包括以下步骤：

a.设置深度强化学习模型的待优化目标函数和/或约束条件，该待优化目标函数如公式(1)所示，含义为最小化达到目标稳定状态消耗的电能以及使用的时间t₀，式中p_i表示实际参与工作的组件消耗的电能，λ是调和系数；所述约束条件如公式(2)所示，含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内，T_best、RH_best分别表示设置的目标温度和目标湿度；Δt、ΔRH分别表示温度和湿度波动范围，temp(t>t₀)表示达到目标稳定状态后的温度，RHumity(t>t₀)表示达到目标稳定状态后的湿度，t为当前时间；

b.训练深度强化学习模型

b1设置深度强化学习模型总的迭代次数N_e、每次迭代点的探索次数T、动作网络参数学习率η_a，策略网络参数学习率η_c；

b2采用服从0-1的高斯分布随机初始化Actor网络A(s；θ_a)和Critic网络C(s,a；θ_c)的参数，分别记为θ_a，θ_c，其中θ_a为Actor网络的参数，θ_c为Critic网络的参数，s为当前环境温湿度输入状态，a为执行动作且为一个行向量；

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

b3.2根据当前环境温湿度状态s^t，Actor网络将s^t作为输入，经过网络函数A(s；θ_a)|s＝s^t下产生一组执行动作a^t；

b3.3执行完a^t后，细胞培养腔室的环境状态发生了改变，温湿度检测点发现新状态为s^t+1，根据公式(5)得到一个及时奖励r^t，r^t为Reward(t)；

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子；

b3.4 a^t和当前环境温湿度状态s^t联合作为输入到Critic网络，经过C(s,a；θ_c)|s＝s^t,a＝a^t作用后产生一个评估C^t。

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

b3.6根据公式(9)计算Critic网络C(s,a；θ_c)中参数θ_c的梯度，并且更新参数θ_c，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

b5重新执行b3.1-b3.9和b4，直到K>N_e，完成深度强化学习模型

DRL的训练；

c.将训练好的深度强化学习模型置入所述智能控制单元，所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围，控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个，以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。

根据本发明又一方面，所述细胞培养腔室为多个，各细胞培养腔室相互独立且由单独的智能控制单元控制。

根据本发明又一方面，所述细胞培养腔室为多个，各细胞培养腔室相互独立，所述智能控制单元根据各细胞培养腔室的优先级来进行控制。

根据本发明又一方面，来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。

根据本发明又一方面，所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。

根据本发明又一方面，加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗p_i计算公式：

式中I_i(t)、u_i(t)分别表示各组件瞬时电流和瞬时电压。

根据本发明又一方面，Actor网络具有2个输入神经元、中间层和输出层，2个输入神经元用行向量s＝[s_t,s_h]表示，行向量中各个分量分别代表当前的环境状态的温度s_t和相对湿度s_h；

中间层有若干个隐藏层，采用全连接方式，各隐藏层含m_i个隐藏层神经元，其中i表示隐藏层序号，隐藏层神经元的激活函数形式为f(x)＝max(wx+b,0)，w表示神经网络层与层之间连接权重，x表示前一层输出，b表示当前层的神经元偏置；

输出层有8个神经元，总共分为两组，其中，第一组4个表示电磁阀开启标志神经元，激活函数为softmax，记为行向量[flag₁,flag₂]和[flag₃,flag₄]，分别表示加湿器、干燥器的电磁阀是否开启，以及制冷器、加热器的电磁阀是否开启；第二组4个神经元的激活函数是线性的y＝x，4个神经状态通过行向量time＝[time₁，time₂，time₃，time₄]表示，分别表示控制加湿器的电磁阀开启运行时间time₁、干燥器的电磁阀开启运行时间time₂、制冷器的电磁阀开启运行时间time₃、加热器的电磁阀开启运行时间time₄。

根据本发明又一方面，critic网络具有10个输入神经元、中间层和输出层，10个输入神经元分别为温度和相对湿度以及Actor网络的输出量，用行向量表示记为input＝[s_t,s_h,flag₁,flag₂,flag₃,flag₄,time₁,time₂,time₃,time₄]；

中间层有若干个隐藏层，采用全连接方式，各隐藏层含L_i个隐藏层神经元，其中i表示隐藏层序号，隐藏层神经元的激活函数形式为f(x)＝max(wx+b,0)，w表示神经网络层与层之间连接权重，x表示前一层输出，b表示当前层的神经元偏置；

输出层含有一个线性神经元，其激活函数为y＝x，评估Actor网络动作的价值。

根据本发明又一方面，还提供了一种细胞培养腔室的温湿度控制系统，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述控制系统包括内置深度强化学习模型的智能控制单元，所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围，控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个，以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间；

其中，所述深度强化学习模型通过以下方法获得：

a.设置深度强化学习模型的待优化目标函数和约束条件，该待优化目标函数如公式(1)所示，含义为最小化达到目标稳定状态消耗的电能以及使用的时间t₀，式中p_i表示实际参与工作的组件消耗的电能，λ是调和系数；所述约束条件如公式(2)所示，含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内，T_best、RH_best分别表示设置的目标温度和目标湿度；Δt、ΔRH分别表示温度和湿度波动范围，temp(t>t₀)表示达到目标稳定状态后的温度，RHumity(t>t₀)表示达到目标稳定状态后的湿度，t为当前时间；

b.训练深度强化学习模型

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子；

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

b5重新执行b3.1-b3.9和b4，直到K>N_e，完成深度强化学习模型

DRL的训练；

c.将训练好的深度强化学习模型置入所述智能控制单元。

输出层有8个神经元，总共分为两组，其中，第一组4个表示电磁阀开启标志神经元，激活函数为softmax，记为行向量[flag₁,flag₂]和[flag₃,flag₄]，分别表示加湿器、干燥器的电磁阀是否开启，以及制冷器、加热器的电磁阀是否开启；第二组4个神经元的激活函数是线性的y＝x，4个神经状态通过行向量time＝[time₁,time₂,time₃，time₄]表示，分别表示控制加湿器的电磁阀开启运行时间time₁、干燥器的电磁阀开启运行时间time₂、制冷器的电磁阀开启运行时间time₃、加热器的电磁阀开启运行时间time₄。

本发明可以获得以下一个或多个技术效果：

1.本发明设计的深度学习模型可根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围，有效解决温湿度控制强耦合问题，且调控精度高，响应快；

2.可在电能消耗最小化的同时快速达到目标温湿度；

3.在达到目标温湿度后可以使温湿度的波动范围减小或最小化；

4.独立的多腔室使得各个培养活动互不干扰，环境稳定，支持定值温湿度培养环境，更加灵活。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为根据本发明的一种优选实施例的细胞培养腔室的温湿度控制系统的示意图。

图2为根据本发明的一种优选实施例的细胞培养腔室的的气路流动图。

图3为根据本发明的一种优选实施例的功能组件与各培养腔室的气路图。

图4为根据本发明的一种优选实施例的深度学习模型的一种Actor网络结构图。

图5为根据本发明的一种优选实施例的深度学习模型的一种Critic网络结构图。

图6为根据本发明的一种优选实施例的深度学习模型的Critor网络和Actor网络关系图。

图7为根据本发明的一种优选实施例的深度学习模型的训练方法流程图。

具体实施方式

下面结合附图，通过优选实施例来描述本发明的最佳实施方式，这里的具体实施方式在于详细地说明本发明，而不应理解为对本发明的限制，在不脱离本发明的精神和实质范围的情况下，可以做出各种变形和修改，这些都应包含在本发明的保护范围之内。

实施例1

根据本发明一种优选实施方式，参见图1-7，提供了一种细胞培养腔室的温湿度控制方法，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤：

b.训练深度强化学习模型

b1如图7所示，设置深度强化学习模型总的迭代次数N_e、每次迭代点的探索次数T、动作网络参数学习率η_a，策略网络参数学习率η_c；

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子；

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

b5重新执行b3.1-b3.9和b4，直到K>N_e，完成深度强化学习模型

DRL的训练；

可以理解的是，达到目标稳定状态消耗的电能以及使用的时间t₀的最小化，可以实现在电能消耗最小化的同时快速达到目标温湿度。培养腔室(培养腔)在初始启用状态或者在打开腔室门放入待培养的胚胎的过程中，培养腔室的温湿度往往偏离目标温湿度。

优选地，多个培养腔室由独立控制管道和各个温湿度控制组件连接，有独立气路流通环境，因此可以做到各个培养腔室温湿度微环境独立。

优选地，智能控制单元可以接收来自主控系统预设的环境温湿度目标值，工作时实时接收温湿度检测点的环境参数信息，输出精准调控指令控制执行机构开启和断开以及工作时间参数。执行机构可控制温湿度控制组件的工作状态(开启或者断开)和工作时间，温湿度控制组件一般包括加热器、制冷器、加湿器、干燥器。

优选地，还可以设置主控系统，它是一类控制器，可实现系统逻辑控制和数据处理，比如ARM等。该主控系统可以选择待使用的培养腔室序号以及设置该腔室目标温湿度值，主控系统还可以设置多用户培养的优先级。

优选地，主控系统可以接受定制环境温湿度的培养需求，允许用户自行设置温湿度参数以及动态波动范围，因此更加灵活，且该培养箱每个腔室可以在不同温湿度情况下工作，可以培养不同类型的细胞，实现多用户培养需求。

根据本发明又一优选实施方式，当进行控制以最小化达到目标温湿度的电能消耗和使用时间时，可选择单独设置深度强化学习模型的待优化目标函数，相应地，Reward(t)＝-(M₂|temp(t)-T_best|+M₄|RHumity(t)-RH_best|)，从而可以提供一种控制细胞培养腔室快速节能地达到目标温湿度的方法；或者，当进行控制以减小达到稳定状态后的波动范围时，可选择设置深度强化学习模型的约束条件，从而可以提供一种控制细胞培养腔室的温湿度波动范围的方法。

具体地，提供一种控制细胞培养腔室快速节能地达到目标温湿度的方法，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤：

a.设置深度强化学习模型的待优化目标函数，该待优化目标函数如公式(1)所示，含义为最小化达到目标稳定状态消耗的电能以及使用的时间t₀，式中p_i表示实际参与工作的组件消耗的电能，λ是调和系数；

b.训练深度强化学习模型

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

Reward(t)＝-(M₂|temp(t)-T_best|+M₄|RHumity(t)-RH_best|) (5)

式中M₂、M₄分别为各项的惩罚因子,T_best、RH_best分别表示设置的目标温度和目标湿度；temp(t)表示当前温度，RHumity(t)表示当前湿度，t为当前时间；

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

b5重新执行b3.1-b3.9和b4，直到K>N_e，完成深度强化学习模型

DRL的训练；

c.将训练好的深度强化学习模型置入所述智能控制单元，所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度以及所述目标湿度，控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个，以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。

根据本发明又一优选实施方式，还提供一种控制细胞培养腔室的温湿度波动范围的方法，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤：

a.设置深度强化学习模型的约束条件，所述约束条件如公式(2)所示，含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内，T_best、RH_best分别表示设置的目标温度和目标湿度；Δt、ΔRH分别表示温度和湿度波动范围，temp(t>t₀)表示达到目标稳定状态后的温度，RHumity(t>t₀)表示达到目标稳定状态后的湿度，t为当前时间；

b.训练深度强化学习模型，具体方法可参见前述的细胞培养腔室的温湿度控制方法中的训练方法，在此省略。

根据本发明又一优选实施方式，参见图1，所述细胞培养腔室为多个，各细胞培养腔室相互独立且由单独的智能控制单元控制。

根据本发明又一优选实施方式，所述细胞培养腔室为多个，各细胞培养腔室相互独立，所述智能控制单元根据各细胞培养腔室的优先级来进行控制。

根据本发明又一优选实施方式，参见图2，来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。

优选地，当温湿度检测点的温湿度不满足设置的期望值，智能控制单元作出若干功能组件需要工作并且分别持续不同时间的决策。进气泵控制点、排气泵控制点和培养箱进气泵控制点打开，此时气体能够从进气泵分别进入若干功能组件，再从排气泵输出到混合腔室，再从混合腔室进入培养腔室中，培养腔室中的气体再进入进气泵，重复上述循环中，直到温湿度检测点浓度满足要求时，立刻关闭进气泵控制点、排气泵控制点和培养箱进气泵控制点。

优选地，多个用户需要同时使用培养腔室时，如果采用相同的温湿度环境，系统会将各个培养腔室的气路环境视为一个整体统一调控，各个进气泵控制点、排气泵控制点和培养箱进气泵控制点动作将一致，可以快速达到平衡状态。如果采用不相同的温湿度环境，根据优先级则微环境温湿度调节有先后顺序，优先级设置可以通过主控系统设置。当前培养腔室微环境温湿度一旦达到平衡时，当前进气泵控制点、排气泵控制点和培养箱进气泵控制点将关闭，开启下一个培养腔室微环境温湿度调整。

根据本发明又一优选实施方式，参见图3，所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。

根据本发明又一优选实施方式，加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗p_i计算公式：

式中I_i(t)、u_i(t)分别表示各组件瞬时电流和瞬时电压。

根据本发明又一优选实施方式，参见图4，Actor网络具有2个输入神经元、中间层和输出层，2个输入神经元用行向量s＝[s_t,s_h]表示，行向量中各个分量分别代表当前的环境状态的温度s_t和相对湿度s_h；

根据本发明又一优选实施方式，参见图5-6，critic网络具有10个输入神经元、中间层和输出层，10个输入神经元分别为温度和相对湿度以及Actor网络的输出量，用行向量表示记为input＝[s_t,s_h,flag₁,flag₂,flag₃,flag₄,time₁,time₂,time₃,time₄]；

根据本发明又一优选实施方式，还提供了一种细胞培养腔室的温湿度控制系统，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述控制系统包括内置深度强化学习模型的智能控制单元，所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围，控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个，以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间；

其中，所述深度强化学习模型通过以下方法获得：

b.训练深度强化学习模型

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子；

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

b5重新执行b3.1-b3.9和b4，直到K>N_e，完成深度强化学习模型

DRL的训练；

c.将训练好的深度强化学习模型置入所述智能控制单元。

根据本发明又一优选实施方式，所述细胞培养腔室为多个，各细胞培养腔室相互独立且由单独的智能控制单元控制。

根据本发明又一优选实施方式，来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。

根据本发明又一优选实施方式，所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。

根据本发明又一优选实施方式，Actor网络具有2个输入神经元、中间层和输出层，2个输入神经元用行向量s＝[s_t,s_h]表示，行向量中各个分量分别代表当前的环境状态的温度s_t和相对湿度s_h；

根据本发明又一优选实施方式，critic网络具有10个输入神经元、中间层和输出层，10个输入神经元分别为温度和相对湿度以及Actor网络的输出量，用行向量表示记为input＝[s_t,s_h,flag₁,flag₂,flag₃,flag₄,time₁,time₂,time₃,time₄]；

实施例2

本实施例在实施例1的基础上，进一步通过实例详细描述本发明。

本实施例提供了一种细胞培养腔室的温湿度控制系统，其分为4个部分，环境、智能控制单元、执行机构、主控系统。

1)环境是一种抽象概念，具体可以包括温湿度气体循环所经历的所有空间。

S11、如图1所示，从各培养腔室出发到温湿度环境监测点，再通过各进气泵进入温湿度控制组件，出来后进入培养腔室，气体这一路所经历的都是环境。

S12、各个培养腔室都有自己独立的环境，温湿度控制组件都有独立管道连接各个培养腔室。即使多个用户同时使用时，也不会产生环境融合，依然可以做到环境独立。

S13、各腔室的排气口设有温湿度检测点，用于检测环境参数值，作为重要信息，传递给智能控制单元。

S14、多个用户同时使用，且培养环境温湿度预设值一致情况下，各微环境环境才会融合，加速整体培养环境达到温湿度稳态。

2)智能控制单元，它是一个内置深度强化学习模型(DRL)的控制单元，固化在控制器中。该控制器具有最小运行系统，具有实现系统信息输入、逻辑控制，数据处理等功能，比如STM32单片机等。

S21、智能控制单元，它可以接收主控系统预设的培养环境浓度信息并将此作为调控最终目标，满足多样化场景培养需求；

S22、智能控制单元调节环境过程中要实时接收每次执行结构产生动作后环境中温湿度，内置DRL模型以此作为输入，DRL中Actor网络作出精准调控；

S23、多用户培养时，智能控制单元接受主控系统发起的控制时序指令，决定是否优先级排序轮到自己，如果是，开启温湿度调控，如果否，则继续等待下一个控制时序指令。

3)执行机构，它是智能控制单元每次环境评估后作出最佳决策的执行者，主要是通过继电器控制电磁阀，能够开启各控制节点的电磁阀以及调节温湿度功能组件的通断以及通断时间。

S31、调节温湿度的功能组件，一般包括加热器、制冷器、加湿器、干燥器。它们可以使分离组件也可以是集成组件。

S32、控制温度的功能组件电磁阀和温度进气泵控制点电磁阀动作同步，同样、控制湿度的功能组件电磁阀和湿度进气泵控制点电磁阀动作同步。

4)主控系统，它是一类控制器，包括最小运行系统，具有实现系统信息输入、逻辑控制，数据处理等功能，比如STM32单片机等。

S41、主控系统的控制器和智能控制单元内置深度强化学习模型的控制器通过总线连接，向智能控制单元传递设置的温湿度值。

S42、主控系统可以接受用户设置的待培养腔室的温湿度信息以及在多用户使用情况下各培养腔室的优先级。

S43、智能控制单元完成控制后会向主控系统传递信息，告知主控系统。在多用户使用情况下，依据此释放当前优先级，启动次优先培养腔室的环境调控任务。

优选地，参见图2，其为培养腔1的气路情况，当培养腔1中微环境温湿度没有达到预定目标，智能控制单元根据当前温湿度信息去作出相应决策，驱动控制执行机构，也就是各个功能组件。

S1、当温湿度均低于期望值，智能控制单元作出加热器和加湿器需要工作并且分别持续不同时间决策。控制点1、2和3打开，此时气体能够从进气泵进入加热和加湿功能组件，经过一定时间工作后从排气泵输出到混合腔室，再从混合腔室进入培养腔室1中，培养腔室1中的气体再进入这个循环中，直到温湿度检测达到预期，控制点1,2,3会被关闭，此时认为温湿度调节完成。

S2、当温湿度均高于期望值，智能控制单元作出制冷器和干燥器需要工作并且分别持续不同时间决策。控制点1、2和3打开，此时气体能够从进气泵进入制冷和干燥功能组件，经过一定时间工作后从排气泵输出到混合腔室，再从混合腔室进入培养腔室1中，培养腔室1中的气体再进入这个循环中，直到温湿度检测达到预期，控制点1,2,3会被关闭，此时认为温湿度调节完成。

S3、当温度高于、湿度低于期望值，智能控制单元作出制冷器和加湿器需要工作并且分别持续不同时间决策。控制点1、2和3打开，此时气体能够从进气泵进入制冷和加湿功能组件，经过一定时间工作后从排气泵输出到混合腔室，再从混合腔室进入培养腔室1中，培养腔室1中的气体再进入这个循环中，直到温湿度检测达到预期，控制点1,2,3会被关闭，此时认为温湿度调节完成。

S4、当温度低于、湿度高于期望值，智能控制单元作出加热器和干燥器需要工作并且分别持续不同时间决策。控制点1、2和3打开，此时气体能够从进气泵进入加热和干燥功能组件，经过一定时间工作后从排气泵输出到混合腔室，再从混合腔室进入培养腔室1中，培养腔室1中的气体再进入这个循环中，直到温湿度检测达到预期，控制点1,2,3会被关闭，此时认为温湿度调节完成。

优选地，各个智能控制单元内置深度强化学习模型，例如可以进行线下训练、线上环境温湿度控制。结合控制任务的具体需求，这里给出一个含有4个培养腔室的培养箱环境温湿度控制的一种深度强化学习模型DRL的案例。场景假设培养箱的温湿度控制组件共有4个，分别是加湿器、干燥器、制冷器、加热器。那么DRL模型的优化目标函数此时就变为公式(3)所示。

min p₁+p₂+p₃+p₄+λt₀ (1)

式中的p₁、p₂、p₃、p₄分别为上述组件从开启状态到稳定状态后所产生的电能消耗：

式中I(t)、u(t)分别表示各组件瞬时电流、电压。

DRL的反馈函数定义成公式(5)形式：

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子，衡量各项的权重。需要说明的是，当智能控制单元没有达到稳态时，对应的时间段也就是t<t₀，这时的Reward(t)＝-(M₂|temp(t)-T_best|+M₄|RHumity(t)-RH_best|)，目标是迫使环境尽快达到温湿度规定值，到达稳态附近后，不仅保证持续在稳态上，还要求波动范围也在合理范围。

DRL模型包括Actor网络和Critic网络。Actor网络的设计如下：

S1.1.1、参见图5，DRL模型中的Actor网络具有2个输入神经元，可以用行向量s＝[s_t,s_h]表示，行向量中各个分量分别代表当前的环境状态量温度s_t和相对湿度s_h。

S1.1.2、中间层有若干个隐藏层，可采用全连接方式，各层含m_i个隐藏层神经元，其中i表示隐藏层序号，其激活函数形式为f(x)＝max(wx+b,0)，w表示神经网络层与层之间连接权重，x表示前一层输出，b表示当前层的神经元偏置。

S1.1.3、输出层有8个神经元，总共分为两组。

S1.1.3.1第一组4个表示电磁阀开启标志神经元，激活函数为softmax，它们两个一小组，一组记为行向量[flag₁,flag₂]，行向量中各个分量分别表示加湿器、干燥器的电磁阀是否开启，另一组记为行向量[flag₃,flag₄]，行向量中各个分量分别表示制冷器、加热器的电磁阀是否开启。

S1.1.3.2另一组4个神经元的激活函数是线性的y＝x，4个神经状态可以通过行向量t＝[time₁,time₂,time₃,time₄]表示，行向量中各个分量分别表示控制加湿器的电磁阀开启运行时间time₁、干燥器的电磁阀开启运行时间time₂、制冷器的电磁阀开启运行时间time₃、加热器的电磁阀开启运行时间time₄。

参见图6，Critic网络设计如下：

S1.2.1、结合本任务critic网络需要具有10个输入神经元，分别为环境状态量温度和相对湿度以及Actor网络的输出量，用行向量表示记为input＝[s_t,s_h,flag₁,flag₂,flag₃,flag₄,time₁,time₂,time₃,time₄]。

S1.2.2、中间层有若干个隐藏层，可采用全连接方式，各层含L_i个隐藏层神经元，其中i表示隐藏层序号，其激活函数形式为f(x)＝max(wx+b,0)，w表示神经网络层与层之间连接权重，x表示前一层输出，b表示当前层的神经元偏置。

S1.2.3、输出层含有一个线性神经元，其激活函数为y＝x，评估Actor网络动作的价值。

优选地，参见图6，根据当前环境温湿度输入状态s^t，Actor通过网络映射函数A(s；θ_a)产生行为a，a一个行向量，其中θ_a表示Actor网络模型参数。Actor网络输出a和当前环境温湿度输入状态s^t一起作为Critic网络C(s,a；θ_c)的输入，其中θ_c为参数态，输出评价值。

进一步，Critic与Actor协同工作，通过求解下面的联合优化问题来获得最优确定性策略，DRL模型最优参数如公式(6)-(7)所获得。公式(7)中

为当前状态s和执行动作a的奖励。

是通过公式(5)计算得到。

Actor网络力求将Critic网络的评估最大化，而Critic则力求做出准确的评价。Actor网络和Critic网络的目标函数都是可微的，对公式(6)-(7)求导，并通过链式法则可以给出了它们的梯度，如公式(8)-(9)所示。

优选地，参见图7，DRL的训练流程具体如下：

S2.5.1设置模型总的迭代次数N_e、每次迭代点的探索次数T、动作网络参数学习率η_a，策略网络参数学习率η_c。

S2.5.2采用服从0-1的高斯分布随机初始化Actor网络A(s；θ_a)和Critic网络C(s,a；θ_c)的参数，分别记为θ_a，θ_c。

S2.5.3开启第一次迭代，并且计数K＝1。

S2.5.3.1开启第一次探索，并且计数n＝1。

S2.5.3.2根据当前环境温湿度状态s^t，Actor网络将s^t作为输入，经过网络函数A(s；θ_a)|s＝s^t下产生一组输出动作a^t。

S2.5.3.3执行机构执行完a^t后，环境状态发生了改变，温湿度检测点发现新状态为s^t+1，根据公式(5)得到一个及时奖励r^t。

S2.5.3.4a^t和当前环境温湿度状态s^t联合作为输入到Critic网络，经过C(s,a；θ_c)|s＝s^t,a＝a^t作用后产生一个评估C^t。

S2.5.3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度。并且更新参数θ_a，

S2.5.3.6根据公式(9)计算Critic网络C(s,a；θ_c)中参数θ_c的梯度。并且更新参数θ_c，

S2.5.3.7这时候环境状态完成更新s^t←s^t+1。

S2.5.3.8完成后，探索次数计数更新n←n+1。

S2.5.3.9重新执行过程S2.5.3.2-S2.5.3.8，直到n＞T，完成这次探索过程。

S2.5.4更新迭代计数，K←K+1。

S2.5.5重新执行S2.5.3.1-S2.5.3.9和S2.5.4，直到K>N_e，完成DRL训练。

优选地，DRL的实时控制如下：

S3.1一旦DRL模型完成训练，将模型结构和参数固化在智能控制单元的控制芯片上。

S3.2工作时，智能控制单元根据实时接收到的环境温湿度状态s，Actor网络会产生最优控制输出，如公式(10)所示。

a^*＝A(s；θ_a) (10)

S3.3如果控制使用“ε-贪婪策略”，在公式(10)基础上，增加一个如公式(12)的随机扰动，最终最优控制就如公式(11)所示。需要说明的是，公式(11)中的n代表随机噪声，式中P_max为可调边界，保证随机的强度。

a＝A(s；θ_a)+n (11)

本发明可以获得以下一个或多个技术效果：

2.可在电能消耗最小化的同时快速达到目标温湿度；

可以理解的是，上述各个实施例中的特征可以相互组合，产生新的实施例。

本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种细胞培养腔室的温湿度控制方法，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制，所述控制方法包括以下步骤：

b.训练深度强化学习模型

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

b3.2根据当前环境温湿度状态s^t，Actor网络将s^t作为输入，经过网络

函数A(s；θ_a)|s＝s^t下产生一组执行动作a^t；

b3.3执行完a^t后，细胞培养腔室的环境状态发生了改变，温湿度检测点发现新状态为s^t ⁺¹，根据公式(5)得到一个及时奖励r^t，r^t为Reward(t)；

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子；

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

b5重新执行b3.1-b3.9和b4，直到K>N_e，完成深度强化学习模型DRL的训练；

2.根据权利要求1所述的细胞培养腔室的温湿度控制方法，其特征在于所述细胞培养腔室为多个，各细胞培养腔室相互独立且由单独的智能控制单元控制。

3.根据权利要求1所述的细胞培养腔室的温湿度控制方法，其特征在于所述细胞培养腔室为多个，各细胞培养腔室相互独立，所述智能控制单元根据各细胞培养腔室的优先级来进行控制。

4.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法，其特征在于来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。

5.根据权利要求4所述的细胞培养腔室的温湿度控制方法，其特征在于所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。

6.根据权利要求1所述的细胞培养腔室的温湿度控制方法，其特征在于加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗p_i计算公式：

式中I_i(t)、u_i(t)分别表示各组件瞬时电流和瞬时电压。

7.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法，其特征在于Actor网络具有2个输入神经元、中间层和输出层，2个输入神经元用行向量s＝[s_t,s_h]表示，行向量中各个分量分别代表当前的环境状态的温度s_t和相对湿度s_h；

8.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法，其特征在于critic网络具有10个输入神经元、中间层和输出层，10个输入神经元分别为温度和相对湿度以及Actor网络的输出量，用行向量表示记为input＝[s_t,s_h,flag₁,flag₂,flag₃,flag₄,time₁,time₂,time₃,time₄]；

9.一种细胞培养腔室的温湿度控制系统，其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通，所述控制系统包括内置深度强化学习模型的智能控制单元，所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围，控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个，以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间；

其中，所述深度强化学习模型通过以下方法获得：

b.训练深度强化学习模型

b3开启第一次迭代，并且计数K＝1；

b3.1开启第一次探索，并且计数n＝1；

式中M₁,M₂,M₃,M₄分别为各项的惩罚因子；

b3.5根据公式(8)计算Actor网络A(s；θ_a)中参数θ_a的梯度

并且更新参数θ_a，

其中，

为Reward(t)，通过公式(5)计算得到；

b3.7环境状态完成更新s^t←s^t+1；

b3.8探索次数计数更新n←n+1；

b3.9重新执行过程b3.2-b3.8，直到n>T，完成这次探索过程；

b4更新迭代计数，K←K+1；

c.将训练好的深度强化学习模型置入所述智能控制单元。

10.根据权利要求9所述的细胞培养腔室的温湿度控制系统，其特征在于所述细胞培养腔室为多个，各细胞培养腔室相互独立且由单独的智能控制单元控制；

优选地，所述细胞培养腔室为多个，各细胞培养腔室相互独立，所述智能控制单元根据各细胞培养腔室的优先级来进行控制；

优选地，来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室；

优选地，所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室

优选地，Actor网络具有2个输入神经元、中间层和输出层，2个输入神经元用行向量s＝[s_t,s_h]表示，行向量中各个分量分别代表当前的环境状态的温度s_t和相对湿度s_h；

输出层有8个神经元，总共分为两组，其中，第一组4个表示电磁阀开启标志神经元，激活函数为softmax，记为行向量[flag₁,flag₂]和[flag₃,flag₄]，分别表示加湿器、干燥器的电磁阀是否开启，以及制冷器、加热器的电磁阀是否开启；第二组4个神经元的激活函数是线性的y＝x，4个神经状态通过行向量time＝[time₁，time₂，time₃，time₄]表示，分别表示控制加湿器的电磁阀开启运行时间time₁、干燥器的电磁阀开启运行时间time₂、制冷器的电磁阀开启运行时间time₃、加热器的电磁阀开启运行时间time₄；

优选地，critic网络具有10个输入神经元、中间层和输出层，10个输入神经元分别为温度和相对湿度以及Actor网络的输出量，用行向量表示记为input＝[s_t,s_h,flag₁,flag₂,flag₃,flag₄,time₁,time₂,time₃,time₄]；