CN114625193B - 细胞培养腔室的温湿度控制方法和系统 - Google Patents

细胞培养腔室的温湿度控制方法和系统 Download PDF

Info

Publication number
CN114625193B
CN114625193B CN202110145889.2A CN202110145889A CN114625193B CN 114625193 B CN114625193 B CN 114625193B CN 202110145889 A CN202110145889 A CN 202110145889A CN 114625193 B CN114625193 B CN 114625193B
Authority
CN
China
Prior art keywords
humidity
temperature
time
cell culture
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110145889.2A
Other languages
English (en)
Other versions
CN114625193A (zh
Inventor
张冀聪
王海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Innovation Research Institute of Beihang University
Original Assignee
Hefei Innovation Research Institute of Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Innovation Research Institute of Beihang University filed Critical Hefei Innovation Research Institute of Beihang University
Priority to CN202310190804.1A priority Critical patent/CN116126064A/zh
Priority to CN202110145889.2A priority patent/CN114625193B/zh
Publication of CN114625193A publication Critical patent/CN114625193A/zh
Application granted granted Critical
Publication of CN114625193B publication Critical patent/CN114625193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D27/00Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00
    • G05D27/02Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00 characterised by the use of electric means

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

提供了一种细胞培养腔室的温湿度控制方法和系统,所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。本发明可有效解决温湿度控制强耦合问题且调控精度高,响应快,可在电能消耗最小化的同时快速达到目标温湿度,还可以在达到目标温湿度后使温湿度的波动范围减小。

Description

细胞培养腔室的温湿度控制方法和系统
技术领域
本发明涉及细胞培养装置,尤其涉及一种细胞培养腔室的温湿度控制方法和系统。
背景技术
细胞培养是指在体外模拟体内环境(无菌、适宜温度、酸碱度和一定营养条件等),使之生存、生长、繁殖并维持主要结构和功能的一种方法。细胞培养技术可以由一个细胞经过大量培养成为简单的单细胞或极少分化的多细胞,这是克隆技术必不可少的环节,而且细胞培养本身就是细胞的克隆。细胞培养技术是细胞生物学研究方法中重要和常用技术,通过细胞培养既可以获得大量细胞,又可以借此研究细胞的信号转导、细胞的合成代谢、细胞的生长增殖等。
以胚胎细胞培养为例,胚胎的培养对环境温湿度要求十分严格。温度过低时,胚胎的代谢活力下降,生长分类缓慢甚至死亡使细胞凝固,温度过高时,引起酶的灭活,破坏类脂质与核分裂,产生凝固酶以及会使蛋白质变性。湿度过高时,容易冷凝成小水滴落入培养皿内,污染培养液,湿度过低时,培养液容易挥发,破坏细胞培养的内环境。因此适宜的温湿度环境对于细胞培养质量至关重要。
现有细胞培养环境温湿度联合控制采用常规的控制器,而常规控制器存在的时滞、强耦合等问题,具体表现在:加热管的加热会引起培养箱某指定区域温度的变化,同时经过加热后空气中的水蒸气含量也会发生相应改变。同理,加湿管虽只起到加湿作用,但同样会对箱内温度产生影响。现有技术具有以下缺陷:1)现有PID控制技术实际上是将温湿度看成两个独立无关联的不变系统,并没有考虑温湿度间的耦合性,因此很难达到较为理想的控制目的;2)此外PID控制超调量大,精度和波动都难以达到更高要求;3)环境建模十分困难,基于先验假定系统传递函数、状态函数都难以拟合复杂的环境。
因此,有必要研究一种细胞培养腔室的温湿度控制方法和系统来解决上述的一个或多个技术问题。
发明内容
为解决上述至少一个技术问题,根据本发明一方面,提供了一种细胞培养腔室的温湿度控制方法,该方法可快速响应各腔室环境温湿度需求,精度高,超调量小,且各个腔室微环境互不干扰,可以满足多用户培养需求。
所述细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制,所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数和/或约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
Figure BDA0002929801960000021
Figure BDA0002929801960000031
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
Figure BDA0002929801960000032
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
b3.5根据公式(8)计算Actor网络A(s;θa)中参数θa的梯度
Figure BDA0002929801960000033
并且更新参数θa
Figure BDA0002929801960000034
Figure BDA0002929801960000035
b3.6根据公式(9)计算Critic网络C(s,a;θc)中参数θc的梯度,并且更新参数θc
Figure BDA0002929801960000036
Figure BDA0002929801960000037
其中,
Figure BDA0002929801960000041
为Reward(t),通过公式(5)计算得到;
b3.7环境状态完成更新st←st+1
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一方面,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
根据本发明又一方面,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一方面,加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗pi计算公式:
Figure BDA0002929801960000042
式中Ii(t)、ui(t)分别表示各组件瞬时电流和瞬时电压。
根据本发明又一方面,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4
根据本发明又一方面,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
根据本发明又一方面,还提供了一种细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述控制系统包括内置深度强化学习模型的智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;
其中,所述深度强化学习模型通过以下方法获得:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
Figure BDA0002929801960000061
Figure BDA0002929801960000062
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
Figure BDA0002929801960000071
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
b3.5根据公式(8)计算Actor网络A(s;θa)中参数θa的梯度
Figure BDA0002929801960000072
并且更新参数θa,/>
Figure BDA0002929801960000073
Figure BDA0002929801960000074
b3.6根据公式(9)计算Critic网络C(s,a;θc)中参数θc的梯度,并且更新参数θc
Figure BDA0002929801960000075
Figure BDA0002929801960000076
其中,
Figure BDA0002929801960000077
为Reward(t),通过公式(5)计算得到;
b3.7环境状态完成更新st←st+1
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一方面,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
根据本发明又一方面,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一方面,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4
根据本发明又一方面,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
本发明可以获得以下一个或多个技术效果:
1.本发明设计的深度学习模型可根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,有效解决温湿度控制强耦合问题,且调控精度高,响应快;
2.可在电能消耗最小化的同时快速达到目标温湿度;
3.在达到目标温湿度后可以使温湿度的波动范围减小或最小化;
4.独立的多腔室使得各个培养活动互不干扰,环境稳定,支持定值温湿度培养环境,更加灵活。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为根据本发明的一种优选实施例的细胞培养腔室的温湿度控制系统的示意图。
图2为根据本发明的一种优选实施例的细胞培养腔室的的气路流动图。
图3为根据本发明的一种优选实施例的功能组件与各培养腔室的气路图。
图4为根据本发明的一种优选实施例的深度学习模型的一种Actor网络结构图。
图5为根据本发明的一种优选实施例的深度学习模型的一种Critic网络结构图。
图6为根据本发明的一种优选实施例的深度学习模型的Critor网络和Actor网络关系图。
图7为根据本发明的一种优选实施例的深度学习模型的训练方法流程图。
具体实施方式
下面结合附图,通过优选实施例来描述本发明的最佳实施方式,这里的具体实施方式在于详细地说明本发明,而不应理解为对本发明的限制,在不脱离本发明的精神和实质范围的情况下,可以做出各种变形和修改,这些都应包含在本发明的保护范围之内。
实施例1
根据本发明一种优选实施方式,参见图1-7,提供了一种细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数和/或约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
Figure BDA0002929801960000111
Figure BDA0002929801960000112
b.训练深度强化学习模型
b1如图7所示,设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
Figure BDA0002929801960000113
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
b3.5根据公式(8)计算Actor网络A(s;θa)中参数θa的梯度
Figure BDA0002929801960000121
并且更新参数θa
Figure BDA0002929801960000122
Figure BDA0002929801960000123
b3.6根据公式(9)计算Critic网络C(s,a;θc)中参数θc的梯度,并且更新参数θc
Figure BDA0002929801960000124
Figure BDA0002929801960000125
其中,
Figure BDA0002929801960000126
为Reward(t),通过公式(5)计算得到;
b3.7环境状态完成更新st←st+1
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
可以理解的是,达到目标稳定状态消耗的电能以及使用的时间t0的最小化,可以实现在电能消耗最小化的同时快速达到目标温湿度。培养腔室(培养腔)在初始启用状态或者在打开腔室门放入待培养的胚胎的过程中,培养腔室的温湿度往往偏离目标温湿度。
优选地,多个培养腔室由独立控制管道和各个温湿度控制组件连接,有独立气路流通环境,因此可以做到各个培养腔室温湿度微环境独立。
优选地,智能控制单元可以接收来自主控系统预设的环境温湿度目标值,工作时实时接收温湿度检测点的环境参数信息,输出精准调控指令控制执行机构开启和断开以及工作时间参数。执行机构可控制温湿度控制组件的工作状态(开启或者断开)和工作时间,温湿度控制组件一般包括加热器、制冷器、加湿器、干燥器。
优选地,还可以设置主控系统,它是一类控制器,可实现系统逻辑控制和数据处理,比如ARM等。该主控系统可以选择待使用的培养腔室序号以及设置该腔室目标温湿度值,主控系统还可以设置多用户培养的优先级。
优选地,主控系统可以接受定制环境温湿度的培养需求,允许用户自行设置温湿度参数以及动态波动范围,因此更加灵活,且该培养箱每个腔室可以在不同温湿度情况下工作,可以培养不同类型的细胞,实现多用户培养需求。
根据本发明又一优选实施方式,当进行控制以最小化达到目标温湿度的电能消耗和使用时间时,可选择单独设置深度强化学习模型的待优化目标函数,相应地,Reward(t)=-(M2|temp(t)-Tbest|+M4|RHumity(t)-RHbest|),从而可以提供一种控制细胞培养腔室快速节能地达到目标温湿度的方法;或者,当进行控制以减小达到稳定状态后的波动范围时,可选择设置深度强化学习模型的约束条件,从而可以提供一种控制细胞培养腔室的温湿度波动范围的方法。
具体地,提供一种控制细胞培养腔室快速节能地达到目标温湿度的方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;
Figure BDA0002929801960000131
b.训练深度强化学习模型
b1如图7所示,设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
Reward(t)=-(M2|temp(t)-Tbest|+M4|RHumity(t)-RHbest|) (5)
式中M2、M4分别为各项的惩罚因子,Tbest、RHbest分别表示设置的目标温度和目标湿度;temp(t)表示当前温度,RHumity(t)表示当前湿度,t为当前时间;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
b3.5根据公式(8)计算Actor网络A(s;θa)中参数θa的梯度
Figure BDA0002929801960000141
并且更新参数θa
Figure BDA0002929801960000142
Figure BDA0002929801960000143
b3.6根据公式(9)计算Critic网络C(s,a;θc)中参数θc的梯度,并且更新参数θc
Figure BDA0002929801960000144
Figure BDA0002929801960000145
其中,
Figure BDA0002929801960000146
为Reward(t),通过公式(5)计算得到;
b3.7环境状态完成更新st←st+1
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度以及所述目标湿度,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
根据本发明又一优选实施方式,还提供一种控制细胞培养腔室的温湿度波动范围的方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤:
a.设置深度强化学习模型的约束条件,所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
Figure BDA0002929801960000151
b.训练深度强化学习模型,具体方法可参见前述的细胞培养腔室的温湿度控制方法中的训练方法,在此省略。
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
根据本发明又一优选实施方式,参见图1,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一优选实施方式,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一优选实施方式,参见图2,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
优选地,当温湿度检测点的温湿度不满足设置的期望值,智能控制单元作出若干功能组件需要工作并且分别持续不同时间的决策。进气泵控制点、排气泵控制点和培养箱进气泵控制点打开,此时气体能够从进气泵分别进入若干功能组件,再从排气泵输出到混合腔室,再从混合腔室进入培养腔室中,培养腔室中的气体再进入进气泵,重复上述循环中,直到温湿度检测点浓度满足要求时,立刻关闭进气泵控制点、排气泵控制点和培养箱进气泵控制点。
优选地,多个用户需要同时使用培养腔室时,如果采用相同的温湿度环境,系统会将各个培养腔室的气路环境视为一个整体统一调控,各个进气泵控制点、排气泵控制点和培养箱进气泵控制点动作将一致,可以快速达到平衡状态。如果采用不相同的温湿度环境,根据优先级则微环境温湿度调节有先后顺序,优先级设置可以通过主控系统设置。当前培养腔室微环境温湿度一旦达到平衡时,当前进气泵控制点、排气泵控制点和培养箱进气泵控制点将关闭,开启下一个培养腔室微环境温湿度调整。
根据本发明又一优选实施方式,参见图3,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一优选实施方式,加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗pi计算公式:
Figure BDA0002929801960000171
式中Ii(t)、ui(t)分别表示各组件瞬时电流和瞬时电压。
根据本发明又一优选实施方式,参见图4,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4
根据本发明又一优选实施方式,参见图5-6,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
根据本发明又一优选实施方式,还提供了一种细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述控制系统包括内置深度强化学习模型的智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;
其中,所述深度强化学习模型通过以下方法获得:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
Figure BDA0002929801960000181
Figure BDA0002929801960000191
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
Figure BDA0002929801960000192
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
b3.5根据公式(8)计算Actor网络A(s;θa)中参数θa的梯度
Figure BDA0002929801960000193
并且更新参数θa
Figure BDA0002929801960000194
Figure BDA0002929801960000195
b3.6根据公式(9)计算Critic网络C(s,a;θc)中参数θc的梯度,并且更新参数θc
Figure BDA0002929801960000196
Figure BDA0002929801960000197
其中,
Figure BDA0002929801960000201
为Reward(t),通过公式(5)计算得到;
b3.7环境状态完成更新st←st+1
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元。
根据本发明又一优选实施方式,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一优选实施方式,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一优选实施方式,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
根据本发明又一优选实施方式,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一优选实施方式,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4
根据本发明又一优选实施方式,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
实施例2
本实施例在实施例1的基础上,进一步通过实例详细描述本发明。
本实施例提供了一种细胞培养腔室的温湿度控制系统,其分为4个部分,环境、智能控制单元、执行机构、主控系统。
1)环境是一种抽象概念,具体可以包括温湿度气体循环所经历的所有空间。
S11、如图1所示,从各培养腔室出发到温湿度环境监测点,再通过各进气泵进入温湿度控制组件,出来后进入培养腔室,气体这一路所经历的都是环境。
S12、各个培养腔室都有自己独立的环境,温湿度控制组件都有独立管道连接各个培养腔室。即使多个用户同时使用时,也不会产生环境融合,依然可以做到环境独立。
S13、各腔室的排气口设有温湿度检测点,用于检测环境参数值,作为重要信息,传递给智能控制单元。
S14、多个用户同时使用,且培养环境温湿度预设值一致情况下,各微环境环境才会融合,加速整体培养环境达到温湿度稳态。
2)智能控制单元,它是一个内置深度强化学习模型(DRL)的控制单元,固化在控制器中。该控制器具有最小运行系统,具有实现系统信息输入、逻辑控制,数据处理等功能,比如STM32单片机等。
S21、智能控制单元,它可以接收主控系统预设的培养环境浓度信息并将此作为调控最终目标,满足多样化场景培养需求;
S22、智能控制单元调节环境过程中要实时接收每次执行结构产生动作后环境中温湿度,内置DRL模型以此作为输入,DRL中Actor网络作出精准调控;
S23、多用户培养时,智能控制单元接受主控系统发起的控制时序指令,决定是否优先级排序轮到自己,如果是,开启温湿度调控,如果否,则继续等待下一个控制时序指令。
3)执行机构,它是智能控制单元每次环境评估后作出最佳决策的执行者,主要是通过继电器控制电磁阀,能够开启各控制节点的电磁阀以及调节温湿度功能组件的通断以及通断时间。
S31、调节温湿度的功能组件,一般包括加热器、制冷器、加湿器、干燥器。它们可以使分离组件也可以是集成组件。
S32、控制温度的功能组件电磁阀和温度进气泵控制点电磁阀动作同步,同样、控制湿度的功能组件电磁阀和湿度进气泵控制点电磁阀动作同步。
4)主控系统,它是一类控制器,包括最小运行系统,具有实现系统信息输入、逻辑控制,数据处理等功能,比如STM32单片机等。
S41、主控系统的控制器和智能控制单元内置深度强化学习模型的控制器通过总线连接,向智能控制单元传递设置的温湿度值。
S42、主控系统可以接受用户设置的待培养腔室的温湿度信息以及在多用户使用情况下各培养腔室的优先级。
S43、智能控制单元完成控制后会向主控系统传递信息,告知主控系统。在多用户使用情况下,依据此释放当前优先级,启动次优先培养腔室的环境调控任务。
优选地,参见图2,其为培养腔1的气路情况,当培养腔1中微环境温湿度没有达到预定目标,智能控制单元根据当前温湿度信息去作出相应决策,驱动控制执行机构,也就是各个功能组件。
S1、当温湿度均低于期望值,智能控制单元作出加热器和加湿器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入加热和加湿功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
S2、当温湿度均高于期望值,智能控制单元作出制冷器和干燥器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入制冷和干燥功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
S3、当温度高于、湿度低于期望值,智能控制单元作出制冷器和加湿器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入制冷和加湿功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
S4、当温度低于、湿度高于期望值,智能控制单元作出加热器和干燥器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入加热和干燥功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
优选地,各个智能控制单元内置深度强化学习模型,例如可以进行线下训练、线上环境温湿度控制。结合控制任务的具体需求,这里给出一个含有4个培养腔室的培养箱环境温湿度控制的一种深度强化学习模型DRL的案例。场景假设培养箱的温湿度控制组件共有4个,分别是加湿器、干燥器、制冷器、加热器。那么DRL模型的优化目标函数此时就变为公式(3)所示。
min p1+p2+p3+p4+λt0 (1)
式中的p1、p2、p3、p4分别为上述组件从开启状态到稳定状态后所产生的电能消耗:
Figure BDA0002929801960000241
式中I(t)、u(t)分别表示各组件瞬时电流、电压。
DRL的反馈函数定义成公式(5)形式:
Figure BDA0002929801960000242
式中M1,M2,M3,M4分别为各项的惩罚因子,衡量各项的权重。需要说明的是,当智能控制单元没有达到稳态时,对应的时间段也就是t<t0,这时的Reward(t)=-(M2|temp(t)-Tbest|+M4|RHumity(t)-RHbest|),目标是迫使环境尽快达到温湿度规定值,到达稳态附近后,不仅保证持续在稳态上,还要求波动范围也在合理范围。
DRL模型包括Actor网络和Critic网络。Actor网络的设计如下:
S1.1.1、参见图5,DRL模型中的Actor网络具有2个输入神经元,可以用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态量温度st和相对湿度sh
S1.1.2、中间层有若干个隐藏层,可采用全连接方式,各层含mi个隐藏层神经元,其中i表示隐藏层序号,其激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置。
S1.1.3、输出层有8个神经元,总共分为两组。
S1.1.3.1第一组4个表示电磁阀开启标志神经元,激活函数为softmax,它们两个一小组,一组记为行向量[flag1,flag2],行向量中各个分量分别表示加湿器、干燥器的电磁阀是否开启,另一组记为行向量[flag3,flag4],行向量中各个分量分别表示制冷器、加热器的电磁阀是否开启。
S1.1.3.2另一组4个神经元的激活函数是线性的y=x,4个神经状态可以通过行向量t=[time1,time2,time3,time4]表示,行向量中各个分量分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4
参见图6,Critic网络设计如下:
S1.2.1、结合本任务critic网络需要具有10个输入神经元,分别为环境状态量温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4]。
S1.2.2、中间层有若干个隐藏层,可采用全连接方式,各层含Li个隐藏层神经元,其中i表示隐藏层序号,其激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置。
S1.2.3、输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
优选地,参见图6,根据当前环境温湿度输入状态st,Actor通过网络映射函数A(s;θa)产生行为a,a一个行向量,其中θa表示Actor网络模型参数。Actor网络输出a和当前环境温湿度输入状态st一起作为Critic网络C(s,a;θc)的输入,其中θc为参数态,输出评价值。
进一步,Critic与Actor协同工作,通过求解下面的联合优化问题来获得最优确定性策略,DRL模型最优参数如公式(6)-(7)所获得。公式(7)中
Figure BDA0002929801960000271
为当前状态s和执行动作a的奖励。/>
Figure BDA0002929801960000272
是通过公式(5)计算得到。
Figure BDA0002929801960000273
Figure BDA0002929801960000274
Actor网络力求将Critic网络的评估最大化,而Critic则力求做出准确的评价。Actor网络和Critic网络的目标函数都是可微的,对公式(6)-(7)求导,并通过链式法则可以给出了它们的梯度,如公式(8)-(9)所示。
Figure BDA0002929801960000275
Figure BDA0002929801960000276
优选地,参见图7,DRL的训练流程具体如下:
S2.5.1设置模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
S2.5.2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc
S2.5.3开启第一次迭代,并且计数K=1。
S2.5.3.1开启第一次探索,并且计数n=1。
S2.5.3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组输出动作at
S2.5.3.3执行机构执行完at后,环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt
S2.5.3.4at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
S2.5.3.5根据公式(8)计算Actor网络A(s;θa)中参数θa的梯度。并且更新参数θa
Figure BDA0002929801960000277
S2.5.3.6根据公式(9)计算Critic网络C(s,a;θc)中参数θc的梯度。并且更新参数θc
Figure BDA0002929801960000281
S2.5.3.7这时候环境状态完成更新st←st+1
S2.5.3.8完成后,探索次数计数更新n←n+1。
S2.5.3.9重新执行过程S2.5.3.2-S2.5.3.8,直到n>T,完成这次探索过程。
S2.5.4更新迭代计数,K←K+1。
S2.5.5重新执行S2.5.3.1-S2.5.3.9和S2.5.4,直到K>Ne,完成DRL训练。
优选地,DRL的实时控制如下:
S3.1一旦DRL模型完成训练,将模型结构和参数固化在智能控制单元的控制芯片上。
S3.2工作时,智能控制单元根据实时接收到的环境温湿度状态s,Actor网络会产生最优控制输出,如公式(10)所示。
a*=A(s;θa) (10)
S3.3如果控制使用“ε-贪婪策略”,在公式(10)基础上,增加一个如公式(12)的随机扰动,最终最优控制就如公式(11)所示。需要说明的是,公式(11)中的n代表随机噪声,式中Pmax为可调边界,保证随机的强度。
a=A(s;θa)+n (11)
Figure BDA0002929801960000282
本发明可以获得以下一个或多个技术效果:
1.本发明设计的深度学习模型可根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,有效解决温湿度控制强耦合问题,且调控精度高,响应快;
2.可在电能消耗最小化的同时快速达到目标温湿度;
3.在达到目标温湿度后可以使温湿度的波动范围减小或最小化;
4.独立的多腔室使得各个培养活动互不干扰,环境稳定,支持定值温湿度培养环境,更加灵活。
可以理解的是,上述各个实施例中的特征可以相互组合,产生新的实施例。
本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制,所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
Figure FDA0003976626800000011
Figure FDA0003976626800000012
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络
函数A(s;θa)|s=st下产生一组执行动作at
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点
发现新状态为st+1,根据公式(3)得到一个及时奖励rt,rt为Reward(t);
Figure FDA0003976626800000021
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过
C(s,a;θc)|s=st,a=at作用后产生一个评估Ct
b3.5根据公式(4)计算Actor网络A(s;θa)中参数θa的梯度
Figure FDA0003976626800000027
并且更
新参数θa
Figure FDA0003976626800000022
Figure FDA0003976626800000023
b3.6根据公式(5)计算Critic网络C(s,a;θc)中参数θc的梯度,并且更新
参数θc
Figure FDA0003976626800000024
Figure FDA0003976626800000025
其中,
Figure FDA0003976626800000026
为Reward(t),通过公式(3)计算得到;
b3.7环境状态完成更新st←st+1
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
2.根据权利要求1所述的细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
3.根据权利要求1所述的细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
4.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法,其特征在于来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
5.根据权利要求4所述的细胞培养腔室的温湿度控制方法,其特征在于所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
6.根据权利要求1所述的细胞培养腔室的温湿度控制方法,其特征在于加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗pi计算公式:
Figure FDA0003976626800000031
式中Ii(t)、ui(t)分别表示各组件瞬时电流和瞬时电压。
7.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法,其特征在于Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4
8.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法,其特征在于critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
CN202110145889.2A 2021-02-02 2021-02-02 细胞培养腔室的温湿度控制方法和系统 Active CN114625193B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310190804.1A CN116126064A (zh) 2021-02-02 2021-02-02 用于温湿度控制的内置深度强化学习模型的智能控制单元
CN202110145889.2A CN114625193B (zh) 2021-02-02 2021-02-02 细胞培养腔室的温湿度控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110145889.2A CN114625193B (zh) 2021-02-02 2021-02-02 细胞培养腔室的温湿度控制方法和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310190804.1A Division CN116126064A (zh) 2021-02-02 2021-02-02 用于温湿度控制的内置深度强化学习模型的智能控制单元

Publications (2)

Publication Number Publication Date
CN114625193A CN114625193A (zh) 2022-06-14
CN114625193B true CN114625193B (zh) 2023-03-24

Family

ID=81896679

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110145889.2A Active CN114625193B (zh) 2021-02-02 2021-02-02 细胞培养腔室的温湿度控制方法和系统
CN202310190804.1A Pending CN116126064A (zh) 2021-02-02 2021-02-02 用于温湿度控制的内置深度强化学习模型的智能控制单元

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310190804.1A Pending CN116126064A (zh) 2021-02-02 2021-02-02 用于温湿度控制的内置深度强化学习模型的智能控制单元

Country Status (1)

Country Link
CN (2) CN114625193B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116617830B (zh) * 2023-06-25 2023-11-07 北京格瑞拓动力设备有限公司 车辆用空气干燥净化装置的智能预测处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206541215U (zh) * 2016-08-31 2017-10-03 福耀集团北京福通安全玻璃有限公司 一种固化室温湿度控制系统
CN208883900U (zh) * 2018-06-13 2019-05-21 铜仁职业技术学院 一种具有恒温调湿功能的细胞培养装置
CN211471438U (zh) * 2019-12-20 2020-09-11 广州海润康华生物科技有限公司 一种抗肿瘤免疫细胞培养仓
KR20200112034A (ko) * 2019-03-20 2020-10-05 주식회사 진성피엘티 항온항습장치 및 이를 이용한 항온항습장치 제어 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206541215U (zh) * 2016-08-31 2017-10-03 福耀集团北京福通安全玻璃有限公司 一种固化室温湿度控制系统
CN208883900U (zh) * 2018-06-13 2019-05-21 铜仁职业技术学院 一种具有恒温调湿功能的细胞培养装置
KR20200112034A (ko) * 2019-03-20 2020-10-05 주식회사 진성피엘티 항온항습장치 및 이를 이용한 항온항습장치 제어 방법
CN211471438U (zh) * 2019-12-20 2020-09-11 广州海润康华生物科技有限公司 一种抗肿瘤免疫细胞培养仓

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于智能解耦补偿的生化培养箱智能控制;罗伟;《电子制作》;20160315(第06期);第36页 *

Also Published As

Publication number Publication date
CN116126064A (zh) 2023-05-16
CN114625193A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN107272403A (zh) 一种基于改进粒子群算法的pid控制器参数整定算法
CN111351180B (zh) 一种运用人工智能实现数据中心节能温控的系统及方法
CN114625193B (zh) 细胞培养腔室的温湿度控制方法和系统
CN107632524B (zh) 一种通信机房温度模型预测控制方法和系统
CN106843172A (zh) 基于jy‑kpls的复杂工业过程在线质量预测方法
CN109695944A (zh) 一种基于多模型深度学习的涂装新风空调的控制方法
CN112947088B (zh) 一种基于密闭空间的温湿度系统的建模和控制方法
CN115494892B (zh) 高空模拟试车台进气环境模拟系统解耦控制方法
Hu et al. The design and optimization for light-algae bioreactor controller based on Artificial Neural Network-Model Predictive Control
CN108121208A (zh) 基于pso-abfo再热汽温pid控制器参数优化方法
CN102354119A (zh) 一种设施农业环境智能控制方法
Li et al. A fractional order PID controller using MACOA for indoor temperature in air-conditioning room
Zhang et al. Priori knowledge-based deep reinforcement learning control for fan coil unit system
CN117826910A (zh) 一种基于神经网络及遗传算法的仓库温湿度控制方法、装置及介质
Hu et al. Design and optimization of photo bioreactor for O2 regulation and control by system dynamics and computer simulation
CN116360266A (zh) 一种基于多目标优化算法的猪舍温度节能控制方法
Ito et al. Multipoint-measurement multipoint-heating greenhouse temperature control with wooden pellet fuel using an adaptive model predictive control approach with a genetic algorithm
CN114838452B (zh) 一种应用于变风量系统的智能风阀及系统和控制方法
Sargantanis et al. Multivariable iterative extended Kalman filter based adaptive control: case study of solid substrate fermentation
CN105259761A (zh) 一种基于特征模型的连续灭菌反复学习自适应控制器
CN115743504A (zh) 一种海洋平台多舱室通风多目标优化控制方法
Horta et al. Robust artificial intelligence tool for automatic start-up of the supplementary medium feeding in recombinant E. coli cultivations
Arpaia et al. Model predictive control strategy based on differential discrete particle swarm optimization
CN209857327U (zh) 一种室内温湿度控制系统
CN113983638A (zh) 一种基于改进型dqn的室内热舒适控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant