CN114625193A - 细胞培养腔室的温湿度控制方法和系统 - Google Patents
细胞培养腔室的温湿度控制方法和系统 Download PDFInfo
- Publication number
- CN114625193A CN114625193A CN202110145889.2A CN202110145889A CN114625193A CN 114625193 A CN114625193 A CN 114625193A CN 202110145889 A CN202110145889 A CN 202110145889A CN 114625193 A CN114625193 A CN 114625193A
- Authority
- CN
- China
- Prior art keywords
- humidity
- temperature
- time
- cell culture
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004113 cell culture Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims description 52
- 230000002787 reinforcement Effects 0.000 claims abstract description 54
- 210000002569 neuron Anatomy 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 73
- 230000009471 action Effects 0.000 claims description 42
- 230000004913 activation Effects 0.000 claims description 41
- 239000007789 gas Substances 0.000 claims description 29
- 210000002364 input neuron Anatomy 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 20
- 230000007613 environmental effect Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000001537 neural effect Effects 0.000 claims description 7
- 230000033228 biological regulation Effects 0.000 abstract description 9
- 230000008878 coupling Effects 0.000 abstract description 5
- 238000010168 coupling process Methods 0.000 abstract description 5
- 238000005859 coupling reaction Methods 0.000 abstract description 5
- 238000005265 energy consumption Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 13
- 230000001276 controlling effect Effects 0.000 description 12
- 238000013136 deep learning model Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 4
- 210000001161 mammalian embryo Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000012010 growth Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005057 refrigeration Methods 0.000 description 2
- 108010065152 Coagulase Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012832 cell culture technique Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004387 environmental modeling Methods 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D27/00—Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00
- G05D27/02—Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00 characterised by the use of electric means
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
提供了一种细胞培养腔室的温湿度控制方法和系统,所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。本发明可有效解决温湿度控制强耦合问题且调控精度高,响应快,可在电能消耗最小化的同时快速达到目标温湿度,还可以在达到目标温湿度后使温湿度的波动范围减小。
Description
技术领域
本发明涉及细胞培养装置,尤其涉及一种细胞培养腔室的温湿度控制方法和系统。
背景技术
细胞培养是指在体外模拟体内环境(无菌、适宜温度、酸碱度和一定营养条件等),使之生存、生长、繁殖并维持主要结构和功能的一种方法。细胞培养技术可以由一个细胞经过大量培养成为简单的单细胞或极少分化的多细胞,这是克隆技术必不可少的环节,而且细胞培养本身就是细胞的克隆。细胞培养技术是细胞生物学研究方法中重要和常用技术,通过细胞培养既可以获得大量细胞,又可以借此研究细胞的信号转导、细胞的合成代谢、细胞的生长增殖等。
以胚胎细胞培养为例,胚胎的培养对环境温湿度要求十分严格。温度过低时,胚胎的代谢活力下降,生长分类缓慢甚至死亡使细胞凝固,温度过高时,引起酶的灭活,破坏类脂质与核分裂,产生凝固酶以及会使蛋白质变性。湿度过高时,容易冷凝成小水滴落入培养皿内,污染培养液,湿度过低时,培养液容易挥发,破坏细胞培养的内环境。因此适宜的温湿度环境对于细胞培养质量至关重要。
现有细胞培养环境温湿度联合控制采用常规的控制器,而常规控制器存在的时滞、强耦合等问题,具体表现在:加热管的加热会引起培养箱某指定区域温度的变化,同时经过加热后空气中的水蒸气含量也会发生相应改变。同理,加湿管虽只起到加湿作用,但同样会对箱内温度产生影响。现有技术具有以下缺陷:1)现有PID控制技术实际上是将温湿度看成两个独立无关联的不变系统,并没有考虑温湿度间的耦合性,因此很难达到较为理想的控制目的;2)此外PID控制超调量大,精度和波动都难以达到更高要求;3)环境建模十分困难,基于先验假定系统传递函数、状态函数都难以拟合复杂的环境。
因此,有必要研究一种细胞培养腔室的温湿度控制方法和系统来解决上述的一个或多个技术问题。
发明内容
为解决上述至少一个技术问题,根据本发明一方面,提供了一种细胞培养腔室的温湿度控制方法,该方法可快速响应各腔室环境温湿度需求,精度高,超调量小,且各个腔室微环境互不干扰,可以满足多用户培养需求。
所述细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制,所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数和/或约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一方面,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
根据本发明又一方面,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一方面,加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗pi计算公式:
式中Ii(t)、ui(t)分别表示各组件瞬时电流和瞬时电压。
根据本发明又一方面,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh;
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。
根据本发明又一方面,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
根据本发明又一方面,还提供了一种细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述控制系统包括内置深度强化学习模型的智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;
其中,所述深度强化学习模型通过以下方法获得:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一方面,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
根据本发明又一方面,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一方面,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh;
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。
根据本发明又一方面,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
本发明可以获得以下一个或多个技术效果:
1.本发明设计的深度学习模型可根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,有效解决温湿度控制强耦合问题,且调控精度高,响应快;
2.可在电能消耗最小化的同时快速达到目标温湿度;
3.在达到目标温湿度后可以使温湿度的波动范围减小或最小化;
4.独立的多腔室使得各个培养活动互不干扰,环境稳定,支持定值温湿度培养环境,更加灵活。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为根据本发明的一种优选实施例的细胞培养腔室的温湿度控制系统的示意图。
图2为根据本发明的一种优选实施例的细胞培养腔室的的气路流动图。
图3为根据本发明的一种优选实施例的功能组件与各培养腔室的气路图。
图4为根据本发明的一种优选实施例的深度学习模型的一种Actor网络结构图。
图5为根据本发明的一种优选实施例的深度学习模型的一种Critic网络结构图。
图6为根据本发明的一种优选实施例的深度学习模型的Critor网络和Actor网络关系图。
图7为根据本发明的一种优选实施例的深度学习模型的训练方法流程图。
具体实施方式
下面结合附图,通过优选实施例来描述本发明的最佳实施方式,这里的具体实施方式在于详细地说明本发明,而不应理解为对本发明的限制,在不脱离本发明的精神和实质范围的情况下,可以做出各种变形和修改,这些都应包含在本发明的保护范围之内。
实施例1
根据本发明一种优选实施方式,参见图1-7,提供了一种细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数和/或约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型
b1如图7所示,设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
可以理解的是,达到目标稳定状态消耗的电能以及使用的时间t0的最小化,可以实现在电能消耗最小化的同时快速达到目标温湿度。培养腔室(培养腔)在初始启用状态或者在打开腔室门放入待培养的胚胎的过程中,培养腔室的温湿度往往偏离目标温湿度。
优选地,多个培养腔室由独立控制管道和各个温湿度控制组件连接,有独立气路流通环境,因此可以做到各个培养腔室温湿度微环境独立。
优选地,智能控制单元可以接收来自主控系统预设的环境温湿度目标值,工作时实时接收温湿度检测点的环境参数信息,输出精准调控指令控制执行机构开启和断开以及工作时间参数。执行机构可控制温湿度控制组件的工作状态(开启或者断开)和工作时间,温湿度控制组件一般包括加热器、制冷器、加湿器、干燥器。
优选地,还可以设置主控系统,它是一类控制器,可实现系统逻辑控制和数据处理,比如ARM等。该主控系统可以选择待使用的培养腔室序号以及设置该腔室目标温湿度值,主控系统还可以设置多用户培养的优先级。
优选地,主控系统可以接受定制环境温湿度的培养需求,允许用户自行设置温湿度参数以及动态波动范围,因此更加灵活,且该培养箱每个腔室可以在不同温湿度情况下工作,可以培养不同类型的细胞,实现多用户培养需求。
根据本发明又一优选实施方式,当进行控制以最小化达到目标温湿度的电能消耗和使用时间时,可选择单独设置深度强化学习模型的待优化目标函数,相应地,Reward(t)=-(M2|temp(t)-Tbest|+M4|RHumity(t)-RHbest|),从而可以提供一种控制细胞培养腔室快速节能地达到目标温湿度的方法;或者,当进行控制以减小达到稳定状态后的波动范围时,可选择设置深度强化学习模型的约束条件,从而可以提供一种控制细胞培养腔室的温湿度波动范围的方法。
具体地,提供一种控制细胞培养腔室快速节能地达到目标温湿度的方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;
b.训练深度强化学习模型
b1如图7所示,设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
Reward(t)=-(M2|temp(t)-Tbest|+M4|RHumity(t)-RHbest|) (5)
式中M2、M4分别为各项的惩罚因子,Tbest、RHbest分别表示设置的目标温度和目标湿度;temp(t)表示当前温度,RHumity(t)表示当前湿度,t为当前时间;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度以及所述目标湿度,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
根据本发明又一优选实施方式,还提供一种控制细胞培养腔室的温湿度波动范围的方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制。所述控制方法包括以下步骤:
a.设置深度强化学习模型的约束条件,所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型,具体方法可参见前述的细胞培养腔室的温湿度控制方法中的训练方法,在此省略。
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
根据本发明又一优选实施方式,参见图1,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一优选实施方式,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一优选实施方式,参见图2,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
优选地,当温湿度检测点的温湿度不满足设置的期望值,智能控制单元作出若干功能组件需要工作并且分别持续不同时间的决策。进气泵控制点、排气泵控制点和培养箱进气泵控制点打开,此时气体能够从进气泵分别进入若干功能组件,再从排气泵输出到混合腔室,再从混合腔室进入培养腔室中,培养腔室中的气体再进入进气泵,重复上述循环中,直到温湿度检测点浓度满足要求时,立刻关闭进气泵控制点、排气泵控制点和培养箱进气泵控制点。
优选地,多个用户需要同时使用培养腔室时,如果采用相同的温湿度环境,系统会将各个培养腔室的气路环境视为一个整体统一调控,各个进气泵控制点、排气泵控制点和培养箱进气泵控制点动作将一致,可以快速达到平衡状态。如果采用不相同的温湿度环境,根据优先级则微环境温湿度调节有先后顺序,优先级设置可以通过主控系统设置。当前培养腔室微环境温湿度一旦达到平衡时,当前进气泵控制点、排气泵控制点和培养箱进气泵控制点将关闭,开启下一个培养腔室微环境温湿度调整。
根据本发明又一优选实施方式,参见图3,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一优选实施方式,加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗pi计算公式:
式中Ii(t)、ui(t)分别表示各组件瞬时电流和瞬时电压。
根据本发明又一优选实施方式,参见图4,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh;
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。
根据本发明又一优选实施方式,参见图5-6,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
根据本发明又一优选实施方式,还提供了一种细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述控制系统包括内置深度强化学习模型的智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;
其中,所述深度强化学习模型通过以下方法获得:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型
DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元。
根据本发明又一优选实施方式,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
根据本发明又一优选实施方式,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
根据本发明又一优选实施方式,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
根据本发明又一优选实施方式,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
根据本发明又一优选实施方式,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh;
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。
根据本发明又一优选实施方式,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
实施例2
本实施例在实施例1的基础上,进一步通过实例详细描述本发明。
本实施例提供了一种细胞培养腔室的温湿度控制系统,其分为4个部分,环境、智能控制单元、执行机构、主控系统。
1)环境是一种抽象概念,具体可以包括温湿度气体循环所经历的所有空间。
S11、如图1所示,从各培养腔室出发到温湿度环境监测点,再通过各进气泵进入温湿度控制组件,出来后进入培养腔室,气体这一路所经历的都是环境。
S12、各个培养腔室都有自己独立的环境,温湿度控制组件都有独立管道连接各个培养腔室。即使多个用户同时使用时,也不会产生环境融合,依然可以做到环境独立。
S13、各腔室的排气口设有温湿度检测点,用于检测环境参数值,作为重要信息,传递给智能控制单元。
S14、多个用户同时使用,且培养环境温湿度预设值一致情况下,各微环境环境才会融合,加速整体培养环境达到温湿度稳态。
2)智能控制单元,它是一个内置深度强化学习模型(DRL)的控制单元,固化在控制器中。该控制器具有最小运行系统,具有实现系统信息输入、逻辑控制,数据处理等功能,比如STM32单片机等。
S21、智能控制单元,它可以接收主控系统预设的培养环境浓度信息并将此作为调控最终目标,满足多样化场景培养需求;
S22、智能控制单元调节环境过程中要实时接收每次执行结构产生动作后环境中温湿度,内置DRL模型以此作为输入,DRL中Actor网络作出精准调控;
S23、多用户培养时,智能控制单元接受主控系统发起的控制时序指令,决定是否优先级排序轮到自己,如果是,开启温湿度调控,如果否,则继续等待下一个控制时序指令。
3)执行机构,它是智能控制单元每次环境评估后作出最佳决策的执行者,主要是通过继电器控制电磁阀,能够开启各控制节点的电磁阀以及调节温湿度功能组件的通断以及通断时间。
S31、调节温湿度的功能组件,一般包括加热器、制冷器、加湿器、干燥器。它们可以使分离组件也可以是集成组件。
S32、控制温度的功能组件电磁阀和温度进气泵控制点电磁阀动作同步,同样、控制湿度的功能组件电磁阀和湿度进气泵控制点电磁阀动作同步。
4)主控系统,它是一类控制器,包括最小运行系统,具有实现系统信息输入、逻辑控制,数据处理等功能,比如STM32单片机等。
S41、主控系统的控制器和智能控制单元内置深度强化学习模型的控制器通过总线连接,向智能控制单元传递设置的温湿度值。
S42、主控系统可以接受用户设置的待培养腔室的温湿度信息以及在多用户使用情况下各培养腔室的优先级。
S43、智能控制单元完成控制后会向主控系统传递信息,告知主控系统。在多用户使用情况下,依据此释放当前优先级,启动次优先培养腔室的环境调控任务。
优选地,参见图2,其为培养腔1的气路情况,当培养腔1中微环境温湿度没有达到预定目标,智能控制单元根据当前温湿度信息去作出相应决策,驱动控制执行机构,也就是各个功能组件。
S1、当温湿度均低于期望值,智能控制单元作出加热器和加湿器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入加热和加湿功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
S2、当温湿度均高于期望值,智能控制单元作出制冷器和干燥器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入制冷和干燥功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
S3、当温度高于、湿度低于期望值,智能控制单元作出制冷器和加湿器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入制冷和加湿功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
S4、当温度低于、湿度高于期望值,智能控制单元作出加热器和干燥器需要工作并且分别持续不同时间决策。控制点1、2和3打开,此时气体能够从进气泵进入加热和干燥功能组件,经过一定时间工作后从排气泵输出到混合腔室,再从混合腔室进入培养腔室1中,培养腔室1中的气体再进入这个循环中,直到温湿度检测达到预期,控制点1,2,3会被关闭,此时认为温湿度调节完成。
优选地,各个智能控制单元内置深度强化学习模型,例如可以进行线下训练、线上环境温湿度控制。结合控制任务的具体需求,这里给出一个含有4个培养腔室的培养箱环境温湿度控制的一种深度强化学习模型DRL的案例。场景假设培养箱的温湿度控制组件共有4个,分别是加湿器、干燥器、制冷器、加热器。那么DRL模型的优化目标函数此时就变为公式(3)所示。
min p1+p2+p3+p4+λt0 (1)
式中的p1、p2、p3、p4分别为上述组件从开启状态到稳定状态后所产生的电能消耗:
式中I(t)、u(t)分别表示各组件瞬时电流、电压。
DRL的反馈函数定义成公式(5)形式:
式中M1,M2,M3,M4分别为各项的惩罚因子,衡量各项的权重。需要说明的是,当智能控制单元没有达到稳态时,对应的时间段也就是t<t0,这时的Reward(t)=-(M2|temp(t)-Tbest|+M4|RHumity(t)-RHbest|),目标是迫使环境尽快达到温湿度规定值,到达稳态附近后,不仅保证持续在稳态上,还要求波动范围也在合理范围。
DRL模型包括Actor网络和Critic网络。Actor网络的设计如下:
S1.1.1、参见图5,DRL模型中的Actor网络具有2个输入神经元,可以用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态量温度st和相对湿度sh。
S1.1.2、中间层有若干个隐藏层,可采用全连接方式,各层含mi个隐藏层神经元,其中i表示隐藏层序号,其激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置。
S1.1.3、输出层有8个神经元,总共分为两组。
S1.1.3.1第一组4个表示电磁阀开启标志神经元,激活函数为softmax,它们两个一小组,一组记为行向量[flag1,flag2],行向量中各个分量分别表示加湿器、干燥器的电磁阀是否开启,另一组记为行向量[flag3,flag4],行向量中各个分量分别表示制冷器、加热器的电磁阀是否开启。
S1.1.3.2另一组4个神经元的激活函数是线性的y=x,4个神经状态可以通过行向量t=[time1,time2,time3,time4]表示,行向量中各个分量分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。
参见图6,Critic网络设计如下:
S1.2.1、结合本任务critic网络需要具有10个输入神经元,分别为环境状态量温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4]。
S1.2.2、中间层有若干个隐藏层,可采用全连接方式,各层含Li个隐藏层神经元,其中i表示隐藏层序号,其激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置。
S1.2.3、输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
优选地,参见图6,根据当前环境温湿度输入状态st,Actor通过网络映射函数A(s;θa)产生行为a,a一个行向量,其中θa表示Actor网络模型参数。Actor网络输出a和当前环境温湿度输入状态st一起作为Critic网络C(s,a;θc)的输入,其中θc为参数态,输出评价值。
进一步,Critic与Actor协同工作,通过求解下面的联合优化问题来获得最优确定性策略,DRL模型最优参数如公式(6)-(7)所获得。公式(7)中为当前状态s和执行动作a的奖励。是通过公式(5)计算得到。
Actor网络力求将Critic网络的评估最大化,而Critic则力求做出准确的评价。Actor网络和Critic网络的目标函数都是可微的,对公式(6)-(7)求导,并通过链式法则可以给出了它们的梯度,如公式(8)-(9)所示。
优选地,参见图7,DRL的训练流程具体如下:
S2.5.1设置模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc。
S2.5.2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc。
S2.5.3开启第一次迭代,并且计数K=1。
S2.5.3.1开启第一次探索,并且计数n=1。
S2.5.3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组输出动作at。
S2.5.3.3执行机构执行完at后,环境状态发生了改变,温湿度检测点发现新状态为st+1,根据公式(5)得到一个及时奖励rt。
S2.5.3.4at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
S2.5.3.7这时候环境状态完成更新st←st+1。
S2.5.3.8完成后,探索次数计数更新n←n+1。
S2.5.3.9重新执行过程S2.5.3.2-S2.5.3.8,直到n>T,完成这次探索过程。
S2.5.4更新迭代计数,K←K+1。
S2.5.5重新执行S2.5.3.1-S2.5.3.9和S2.5.4,直到K>Ne,完成DRL训练。
优选地,DRL的实时控制如下:
S3.1一旦DRL模型完成训练,将模型结构和参数固化在智能控制单元的控制芯片上。
S3.2工作时,智能控制单元根据实时接收到的环境温湿度状态s,Actor网络会产生最优控制输出,如公式(10)所示。
a*=A(s;θa) (10)
S3.3如果控制使用“ε-贪婪策略”,在公式(10)基础上,增加一个如公式(12)的随机扰动,最终最优控制就如公式(11)所示。需要说明的是,公式(11)中的n代表随机噪声,式中Pmax为可调边界,保证随机的强度。
a=A(s;θa)+n (11)
本发明可以获得以下一个或多个技术效果:
1.本发明设计的深度学习模型可根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,有效解决温湿度控制强耦合问题,且调控精度高,响应快;
2.可在电能消耗最小化的同时快速达到目标温湿度;
3.在达到目标温湿度后可以使温湿度的波动范围减小或最小化;
4.独立的多腔室使得各个培养活动互不干扰,环境稳定,支持定值温湿度培养环境,更加灵活。
可以理解的是,上述各个实施例中的特征可以相互组合,产生新的实施例。
本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述加湿器、干燥器、制冷器以及加热器通过内置深度强化学习模型的智能控制单元进行控制,所述控制方法包括以下步骤:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络
函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st +1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。
2.根据权利要求1所述的细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
3.根据权利要求1所述的细胞培养腔室的温湿度控制方法,其特征在于所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
4.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法,其特征在于来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室。
5.根据权利要求4所述的细胞培养腔室的温湿度控制方法,其特征在于所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室。
7.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法,其特征在于Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh;
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。
8.根据权利要求1-3任一项所述的细胞培养腔室的温湿度控制方法,其特征在于critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
9.一种细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热器连通,所述控制系统包括内置深度强化学习模型的智能控制单元,所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、所述目标温度、所述目标湿度以及所述预定阈值范围,控制执行机构开启或断开加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;
其中,所述深度强化学习模型通过以下方法获得:
a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中pi表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,Tbest、RHbest分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
b.训练深度强化学习模型
b1设置深度强化学习模型总的迭代次数Ne、每次迭代点的探索次数T、动作网络参数学习率ηa,策略网络参数学习率ηc;
b2采用服从0-1的高斯分布随机初始化Actor网络A(s;θa)和Critic网络C(s,a;θc)的参数,分别记为θa,θc,其中θa为Actor网络的参数,θc为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
b3开启第一次迭代,并且计数K=1;
b3.1开启第一次探索,并且计数n=1;
b3.2根据当前环境温湿度状态st,Actor网络将st作为输入,经过网络函数A(s;θa)|s=st下产生一组执行动作at;
b3.3执行完at后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为st +1,根据公式(5)得到一个及时奖励rt,rt为Reward(t);
式中M1,M2,M3,M4分别为各项的惩罚因子;
b3.4 at和当前环境温湿度状态st联合作为输入到Critic网络,经过C(s,a;θc)|s=st,a=at作用后产生一个评估Ct。
b3.7环境状态完成更新st←st+1;
b3.8探索次数计数更新n←n+1;
b3.9重新执行过程b3.2-b3.8,直到n>T,完成这次探索过程;
b4更新迭代计数,K←K+1;
b5重新执行b3.1-b3.9和b4,直到K>Ne,完成深度强化学习模型DRL的训练;
c.将训练好的深度强化学习模型置入所述智能控制单元。
10.根据权利要求9所述的细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制;
优选地,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制;
优选地,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混合后输入所述一个或多个细胞培养腔室;
优选地,所述加湿器、干燥器、制冷器和加热器分别通过独立的管道连接各个细胞培养腔室
优选地,Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[st,sh]表示,行向量中各个分量分别代表当前的环境状态的温度st和相对湿度sh;
中间层有若干个隐藏层,采用全连接方式,各隐藏层含mi个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4;
优选地,critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[st,sh,flag1,flag2,flag3,flag4,time1,time2,time3,time4];
中间层有若干个隐藏层,采用全连接方式,各隐藏层含Li个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;
输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310190804.1A CN116126064A (zh) | 2021-02-02 | 2021-02-02 | 用于温湿度控制的内置深度强化学习模型的智能控制单元 |
CN202110145889.2A CN114625193B (zh) | 2021-02-02 | 2021-02-02 | 细胞培养腔室的温湿度控制方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110145889.2A CN114625193B (zh) | 2021-02-02 | 2021-02-02 | 细胞培养腔室的温湿度控制方法和系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310190804.1A Division CN116126064A (zh) | 2021-02-02 | 2021-02-02 | 用于温湿度控制的内置深度强化学习模型的智能控制单元 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114625193A true CN114625193A (zh) | 2022-06-14 |
CN114625193B CN114625193B (zh) | 2023-03-24 |
Family
ID=81896679
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110145889.2A Active CN114625193B (zh) | 2021-02-02 | 2021-02-02 | 细胞培养腔室的温湿度控制方法和系统 |
CN202310190804.1A Pending CN116126064A (zh) | 2021-02-02 | 2021-02-02 | 用于温湿度控制的内置深度强化学习模型的智能控制单元 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310190804.1A Pending CN116126064A (zh) | 2021-02-02 | 2021-02-02 | 用于温湿度控制的内置深度强化学习模型的智能控制单元 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114625193B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116617830B (zh) * | 2023-06-25 | 2023-11-07 | 北京格瑞拓动力设备有限公司 | 车辆用空气干燥净化装置的智能预测处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN206541215U (zh) * | 2016-08-31 | 2017-10-03 | 福耀集团北京福通安全玻璃有限公司 | 一种固化室温湿度控制系统 |
CN208883900U (zh) * | 2018-06-13 | 2019-05-21 | 铜仁职业技术学院 | 一种具有恒温调湿功能的细胞培养装置 |
CN211471438U (zh) * | 2019-12-20 | 2020-09-11 | 广州海润康华生物科技有限公司 | 一种抗肿瘤免疫细胞培养仓 |
KR20200112034A (ko) * | 2019-03-20 | 2020-10-05 | 주식회사 진성피엘티 | 항온항습장치 및 이를 이용한 항온항습장치 제어 방법 |
-
2021
- 2021-02-02 CN CN202110145889.2A patent/CN114625193B/zh active Active
- 2021-02-02 CN CN202310190804.1A patent/CN116126064A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN206541215U (zh) * | 2016-08-31 | 2017-10-03 | 福耀集团北京福通安全玻璃有限公司 | 一种固化室温湿度控制系统 |
CN208883900U (zh) * | 2018-06-13 | 2019-05-21 | 铜仁职业技术学院 | 一种具有恒温调湿功能的细胞培养装置 |
KR20200112034A (ko) * | 2019-03-20 | 2020-10-05 | 주식회사 진성피엘티 | 항온항습장치 및 이를 이용한 항온항습장치 제어 방법 |
CN211471438U (zh) * | 2019-12-20 | 2020-09-11 | 广州海润康华生物科技有限公司 | 一种抗肿瘤免疫细胞培养仓 |
Non-Patent Citations (1)
Title |
---|
罗伟: "基于智能解耦补偿的生化培养箱智能控制", 《电子制作》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114625193B (zh) | 2023-03-24 |
CN116126064A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107272403A (zh) | 一种基于改进粒子群算法的pid控制器参数整定算法 | |
CN111351180A (zh) | 一种运用人工智能实现数据中心节能温控的系统及方法 | |
CN106843172A (zh) | 基于jy‑kpls的复杂工业过程在线质量预测方法 | |
CN114625193B (zh) | 细胞培养腔室的温湿度控制方法和系统 | |
CN109695944A (zh) | 一种基于多模型深度学习的涂装新风空调的控制方法 | |
CN105487496A (zh) | 基于双目标并行island-hfc混合模型遗传编程算法的火电厂热工在线过程辨识及控制算法的优化方法 | |
CN107632524A (zh) | 一种通信机房温度模型预测控制方法和系统 | |
CN115494892B (zh) | 高空模拟试车台进气环境模拟系统解耦控制方法 | |
Li et al. | Model predictive control strategy using encoder-decoder recurrent neural networks for smart control of thermal environment | |
Hu et al. | The design and optimization for light-algae bioreactor controller based on Artificial Neural Network-Model Predictive Control | |
CN115408957A (zh) | 一种基于多智能体强化学习的数据中心制冷设备控制方法 | |
CN114110824B (zh) | 一种恒湿机智能控制方法及装置 | |
CN116045443A (zh) | 基于室内温度最优化控制的建筑空调能耗预测方法 | |
Wu et al. | Multidisciplinary optimization-based path planning for underwater gliders executing multi-point exploration missions | |
Li et al. | A fractional order PID controller using MACOA for indoor temperature in air-conditioning room | |
CN108089443B (zh) | 一种基于混合精英圈养优化的灵敏板温度智能建模方法 | |
Zhang et al. | Priori knowledge-based deep reinforcement learning control for fan coil unit system | |
Hu et al. | Design and optimization of photo bioreactor for O2 regulation and control by system dynamics and computer simulation | |
CN117826910A (zh) | 一种基于神经网络及遗传算法的仓库温湿度控制方法、装置及介质 | |
Ito et al. | Multipoint-measurement multipoint-heating greenhouse temperature control with wooden pellet fuel using an adaptive model predictive control approach with a genetic algorithm | |
CN116360266A (zh) | 一种基于多目标优化算法的猪舍温度节能控制方法 | |
CN115717758A (zh) | 一种室内空间温度和湿度调控方法及系统 | |
CN114838452A (zh) | 一种应用于变风量系统的智能风阀及系统和控制方法 | |
Arpaia et al. | Model predictive control strategy based on differential discrete particle swarm optimization | |
Cui et al. | An Online Reinforcement Learning Method for Multi-Zone Ventilation Control With Pre-Training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |