CN110134165A - 一种用于环境监测与控制的强化学习方法及系统 - Google Patents
一种用于环境监测与控制的强化学习方法及系统 Download PDFInfo
- Publication number
- CN110134165A CN110134165A CN201910393176.0A CN201910393176A CN110134165A CN 110134165 A CN110134165 A CN 110134165A CN 201910393176 A CN201910393176 A CN 201910393176A CN 110134165 A CN110134165 A CN 110134165A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- learning
- learning model
- control
- environmental monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000007613 environmental effect Effects 0.000 title claims abstract description 26
- 230000002787 reinforcement Effects 0.000 claims description 69
- 230000009471 action Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 27
- 230000001276 controlling effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D27/00—Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00
- G05D27/02—Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00 characterised by the use of electric means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Air Conditioning Control Device (AREA)
- Feedback Control In General (AREA)
Abstract
本发明实施例提供了一种用于环境监测与控制的强化学习方法及系统,方法包括:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及学习目标建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。本发明实施例提供的一种用于环境监测与控制的强化学习方法及系统,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
Description
技术领域
本发明涉及环境监测技术领域,尤其涉及一种用于环境监测与控制的强化学习方法及系统。
背景技术
在各行业的生产、仓储等过程中,存在着大量对环境参数监测与调控的需求,其中最常见也是最重要的需求就是对环境中温度和湿度的监测与调控。例如在药品生产与储存、博物馆馆藏文物展示、运输与储藏、茶叶生产与储存、图书馆与美术馆作品展示与储藏,以及银行金库钱币储藏等应用场景,都涉及到对环境中温湿度的监测和调控需求。
当前,环境中温湿度的监测与调控模型大概分为两种。第一种模型是单机调控,例如在调控空间内部署独立的除湿机、加湿机、恒湿机、电暖器或空调等。这种调控模型中,温湿度的感知由设备自带的温湿度传感器实现,设备通过比较设置的温湿度调节目标和传感器感知的环境参数,进行温湿度调节动作,达到预期目标。第二种模型是温湿度监测调控系统,这种模型下,通常采用监测与调控单元分布式部署的方式,系统由调控主机系统和各个目标空间的控制系统等组成,通过各个单独空间的调控目标值和传感器感知的环境参数,进行分布式环境调控。
但上述现有技术的方案一方面由于监测单元的位置和数量限制,使得调控单元接收到的环境实时状况不精确、不全面,另一方面,环境调控单元的决策系统由PLC或者单片机构成,增加或者减低温湿度的决策采用简单的比较操作,无法实现精准、均匀和绿色节能等指标,因此现在亟需一种用于环境监测与控制的强化学习方法来解决上述问题。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种用于环境监测与控制的强化学习方法及系统。
第一方面本发明实施例提供一种用于环境监测与控制的强化学习方法,包括:
将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
第二方面本发明实施例还提供一种用于环境监测与控制的强化学习系统,包括:
模型映射模块,用于将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
监测与控制模块,用于基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
第三方面本发明实施例提供了一种电子设备,包括:
处理器、存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述用于环境监测与控制的强化学习方法。
第四方面本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述用于环境监测与控制的强化学习方法。
本发明实施例提供的一种用于环境监测与控制的强化学习方法及系统,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用于环境监测与控制的强化学习方法流程示意图;
图2是本发明实施例提供的一种用于环境监测与控制的强化学习系统结构示意图;
图3是本发明实施例提供的一种电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种用于环境监测与控制的强化学习方法流程示意图,如图1所示,包括:
101、将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
102、基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的
需要说明的是,强化学习是人工智能的一个分支,也叫增强学习,是指一类从交互中不断学习一类问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标,例如取得最大奖励值。针对于强化学习的特点,本发明实施例将强化学习应用在环境的监测和控制中,可以理解的是,环境的监测和控制主要是对空间温湿度的监测和控制。
具体的,在步骤101中,可以理解的是,环境可能存在有多种场景,例如:博物馆环境、储藏室环境、美术馆环境等,本发明实施例针对不同的现场实际环境会将其映射为不同的学习模型。该学习模型在本发明实施例中也可以称为一般强化学习模型,以博物馆环境为例,本发明实施例会将博物馆环境中有监测控制权限的计算机看成一个智能体,将该智能体对应到学习模型中,从而对智能体的状态、动作、奖励定义,以完成对学习模型的映射。具体操作中本发明实施例会将有监测控制权限的计算机看成一个智能体,对应到Q学习中,智能体表示为agent:n,1≤n≤N,其中N表示智能体的总个数。状态表示为state:Tt,Ht,其中T表示监测到的温度,H表示检测到的湿度。动作表示为action:Tn,t,Hn,t,其中Tn,t表示t时刻温度的调节值,Hn,t表示t时刻湿度的调节值。学习奖励reward:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
进一步的,在步骤102中,当学习模型映射成功后,本发明实施例优选的采用了在线的全连接深度网络进行强化学习。具体的,本发明实施例在深度Q学习(DQN)中,值函数的更新是神经网络的参数θ,而不是Q值表,更新方法采用梯度下降算法,其值函数的更新为:
θt+1=θt+α[r+γma'x Q(st+1,at+1;θ-)-Q(st,at;θ)]▽Q(st,at;θ);
其中,表示的是时间差分目标,而Q(st,at;θ)表示的是指函数逼近的网络目标,▽Q(st,at;θ)则表示梯度。本发明实施例所提供的深度神经网络采用了dropout技术,增加网络泛化能力的同时,也降低了网络的方差,防止了过拟合的发生。为了加快网络的训练,在网络的反向传播过程中,采用AdamOptimizers优化器。其中,深度神经网络的损失函数如下式所示:
其中,qz表示Q学习的调节策略,oz表示神经网络的输出,c是惩罚因子,θ表示值函数的网络参数。
最后,通过强化学习后的学习模型,能够智能化与环境的不断交互自动调整网络参数,使智能体的获得大的reward值,从而获取最佳的控制策略,实现环境的监测与控制。
本发明实施例提供的一种用于环境监测与控制的强化学习方法,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
在上述实施例的基础上,所述学习模型为Q学习模型。由上述实施例的内容可知,本发明实施例将现场环境映射为学习模型,那么具体操作中可采用的学习模型类型有基于值函数的策略学习方法有动态规划方法、蒙特卡罗方法、时序差分学习方法、Q学习(Q-learning)方法等多种,优选的,本发明实施例中采用了Q学习方法。其中,所述Q学习模型的reward为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
回报函数为:
其中,Ta为储存该文物最适宜的温度,Ha为储存该文物最适宜的湿度,ΔTmax为一次温度最大调节值,ΔHmax为一次湿度最大调节值,以博物馆环境为例,则Ta相应的为储存该文物最适宜的温度,Ha相应的为储存该文物最适宜的湿度。
在上述实施例的基础上,所述基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,包括:
基于预设的动作选择策略,根据所述智能体的状态,选择所述智能体状态对应的动作。
具体的,根据展厅的环境不同分为不同智能体,假设有三类展厅,分别包含有展厅a、展厅b和展厅c,那么展厅a、展厅b和展厅c可以表示为na1,na2...,namax,nb1,nb2...,nbmax,nc1,nc2...,ncmax。
由于同一类展厅环境相似度较高,为了提高智能体训练效率和降低复杂度,本发明实施例为每一类展厅设置一个核心智能体,其余智能体可以在核心智能体参数基础上进行训练微调来更新其DQN权重,实时情况下,每个智能体使用训练好的DQN在在线和分布式方式下自主决策。
本发明实施例将观测时间间隔设为t,输入xn(t),得到的观测值为yn(t),所述动作选择策略为:
其中,α表示动作探索概率且α>0,β表示折扣因子,Q(a)为选择动作a的Q值。
在上述实施例的基础上,所述方法还包括:
按照预设频率更新所述学习模型的模型参数,直至达到预设的更新次数。
可以理解的是,在实际强化学习过程中,本发明实施例是一个不断更新的过程。具体实施时,本发明实施例首先初始化变量,包括智能体的个数,初始动作,初始温度、湿度,最大温湿度调控范围,时间间隔。初始化状态空间、动作空间、折扣率和学习率。然后初始化起始状态,根据状态的变化采用上述实施例中的动作策略选择相应的动作。执行动作后对环境进行观测得到奖励和新的状态。然后按照预设频率更新模型的参数,在本发明实施例中优选的可以设为每隔1步更新一次Q网络参数,每隔5步更新一次目标Q网络参数,反复进行上述更新过程直至强化学习达到预设的终止条件。
图2是本发明实施例提供的一种用于环境监测与控制的强化学习系统结构示意图,如图2所示,包括:模型映射模块201和监测与控制模块202,其中:
模型映射模块201用于将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
监测与控制模块202用于基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
具体的如何通过模型映射模块201和监测与控制模块202可用于执行图1所示的用于环境监测与控制的强化学习方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的一种用于环境监测与控制的强化学习系统,通过在线的全连接深度网络强化学习方法智能实时对环境进行监测与控制,满足不同环境下的不同需求,降低运行成本具有自适应和预测能力,可应对各种复杂的展厅环境。
在上述实施例的基础上,所述学习模型为Q学习模型在上述实施例的基础上,所述监测与控制模块用于:
基于预设的动作选择策略,根据所述智能体的状态,选择所述智能体状态对应的动作。
在上述实施例的基础上,所述动作选择策略为:
其中,α表示动作探索概率且α>0,β表示折扣因子,Q(a)为选择动作a的Q值。
在上述实施例的基础上,所述Q学习模型的奖励为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
回报函数为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,ΔTmax为一次温度最大调节值,ΔHmax为一次湿度最大调节值。
在上述实施例的基础上,所述系统还包括:
更新模块,用于按照预设频率更新所述学习模型的模型参数,直至达到预设的更新次数。
本发明实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
图3是本发明实施例提供的电子设备的结构框图,参照图3,所述电子设备,包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304,其中,处理器301,通信接口302,存储器303通过总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行如下方法:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行每个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种用于环境监测与控制的强化学习方法,其特征在于,包括:
将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
2.根据权利要求1所述的用于环境监测与控制的强化学习方法,所述学习模型为Q学习模型。
3.根据权利要求2所述的用于环境监测与控制的强化学习方法,其特征在于,所述基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,包括:
基于预设的动作选择策略,根据所述智能体的状态,选择所述智能体状态对应的动作。
4.根据权利要求3所述的用于环境监测与控制的强化学习方法,其特征在于,所述动作选择策略为:
其中,α表示动作探索概率且α>0,β表示折扣因子,Q(a)为选择动作a的Q值。
5.根据权利要求2所述的用于环境监测与控制的强化学习方法,其特征在于,所述Q学习模型的奖励为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,K1为温度调节所占比例,K2为湿度调节所占比例;
回报函数为:
其中,Ta为最适宜的温度,Ha为最适宜的湿度,ΔTmax为一次温度最大调节值,ΔHmax为一次湿度最大调节值。
6.根据权利要求1所述的用于环境监测与控制的强化学习方法,其特征在于,所述方法还包括:
按照预设频率更新所述学习模型的模型参数,直至达到预设的更新次数。
7.一种用于环境监测与控制的强化学习系统,其特征在于,包括:
模型映射模块,用于将现场实际环境映射为学习模型,所述学习模型是根据所述现场实际环境中智能体的状态、动作以及奖励建立的;
监测与控制模块,用于基于强化学习后的所述学习模型,对所述实际环境进行监测与控制,其中,所述强化学习后的所述学习模型是通过在线的全连接深度网络强化学习得到的。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述用于环境监测与控制的强化学习方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述用于环境监测与控制的强化学习方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910393176.0A CN110134165B (zh) | 2019-05-13 | 2019-05-13 | 一种用于环境监测与控制的强化学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910393176.0A CN110134165B (zh) | 2019-05-13 | 2019-05-13 | 一种用于环境监测与控制的强化学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134165A true CN110134165A (zh) | 2019-08-16 |
CN110134165B CN110134165B (zh) | 2020-12-25 |
Family
ID=67573470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910393176.0A Active CN110134165B (zh) | 2019-05-13 | 2019-05-13 | 一种用于环境监测与控制的强化学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134165B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110531681A (zh) * | 2019-09-17 | 2019-12-03 | 山东建筑大学 | 基于深度强化学习的室内照明数据采集控制系统及方法 |
CN110989735A (zh) * | 2019-11-12 | 2020-04-10 | 珠海格力电器股份有限公司 | 睡眠环境自适应调节方法、装置和电子设备 |
CN111126605A (zh) * | 2020-02-13 | 2020-05-08 | 创新奇智(重庆)科技有限公司 | 一种基于强化学习算法的数据中心机房控制方法及装置 |
CN111474965A (zh) * | 2020-04-02 | 2020-07-31 | 中国水利水电科学研究院 | 基于模糊神经网络的串联输水渠道水位预测与控制方法 |
CN112966431A (zh) * | 2021-02-04 | 2021-06-15 | 西安交通大学 | 一种数据中心能耗联合优化方法、系统、介质及设备 |
CN113126679A (zh) * | 2021-04-19 | 2021-07-16 | 广东电网有限责任公司计量中心 | 一种基于强化学习的电能计量检定环境控制方法和系统 |
CN114020079A (zh) * | 2021-11-03 | 2022-02-08 | 北京邮电大学 | 一种室内空间温度和湿度调控方法及装置 |
CN114110824A (zh) * | 2021-11-03 | 2022-03-01 | 北京邮电大学 | 一种恒湿机智能控制方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160223218A1 (en) * | 2015-01-30 | 2016-08-04 | Schneider Electric It Corporation | Automated control and parallel learning hvac apparatuses, methods and systems |
CN107065582A (zh) * | 2017-03-31 | 2017-08-18 | 苏州科技大学 | 一种基于环境的参数的室内空气智能调节系统和调节方法 |
CN108386971A (zh) * | 2018-01-28 | 2018-08-10 | 浙江博超节能科技有限公司 | 中央空调节能自控系统 |
CN109193075A (zh) * | 2018-09-28 | 2019-01-11 | 合肥工业大学 | 基于强化学习的纯电动汽车动力电池冷却系统控制方法 |
CN109255443A (zh) * | 2018-08-07 | 2019-01-22 | 阿里巴巴集团控股有限公司 | 训练深度强化学习模型的方法及装置 |
-
2019
- 2019-05-13 CN CN201910393176.0A patent/CN110134165B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160223218A1 (en) * | 2015-01-30 | 2016-08-04 | Schneider Electric It Corporation | Automated control and parallel learning hvac apparatuses, methods and systems |
CN107065582A (zh) * | 2017-03-31 | 2017-08-18 | 苏州科技大学 | 一种基于环境的参数的室内空气智能调节系统和调节方法 |
CN108386971A (zh) * | 2018-01-28 | 2018-08-10 | 浙江博超节能科技有限公司 | 中央空调节能自控系统 |
CN109255443A (zh) * | 2018-08-07 | 2019-01-22 | 阿里巴巴集团控股有限公司 | 训练深度强化学习模型的方法及装置 |
CN109193075A (zh) * | 2018-09-28 | 2019-01-11 | 合肥工业大学 | 基于强化学习的纯电动汽车动力电池冷却系统控制方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110531681A (zh) * | 2019-09-17 | 2019-12-03 | 山东建筑大学 | 基于深度强化学习的室内照明数据采集控制系统及方法 |
CN110989735A (zh) * | 2019-11-12 | 2020-04-10 | 珠海格力电器股份有限公司 | 睡眠环境自适应调节方法、装置和电子设备 |
CN111126605A (zh) * | 2020-02-13 | 2020-05-08 | 创新奇智(重庆)科技有限公司 | 一种基于强化学习算法的数据中心机房控制方法及装置 |
CN111126605B (zh) * | 2020-02-13 | 2023-06-20 | 创新奇智(重庆)科技有限公司 | 一种基于强化学习算法的数据中心机房控制方法及装置 |
CN111474965A (zh) * | 2020-04-02 | 2020-07-31 | 中国水利水电科学研究院 | 基于模糊神经网络的串联输水渠道水位预测与控制方法 |
CN112966431A (zh) * | 2021-02-04 | 2021-06-15 | 西安交通大学 | 一种数据中心能耗联合优化方法、系统、介质及设备 |
CN112966431B (zh) * | 2021-02-04 | 2023-04-28 | 西安交通大学 | 一种数据中心能耗联合优化方法、系统、介质及设备 |
CN113126679A (zh) * | 2021-04-19 | 2021-07-16 | 广东电网有限责任公司计量中心 | 一种基于强化学习的电能计量检定环境控制方法和系统 |
CN114020079A (zh) * | 2021-11-03 | 2022-02-08 | 北京邮电大学 | 一种室内空间温度和湿度调控方法及装置 |
CN114110824A (zh) * | 2021-11-03 | 2022-03-01 | 北京邮电大学 | 一种恒湿机智能控制方法及装置 |
CN114020079B (zh) * | 2021-11-03 | 2022-09-16 | 北京邮电大学 | 一种室内空间温度和湿度调控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110134165B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134165B (zh) | 一种用于环境监测与控制的强化学习方法及系统 | |
CN112329948B (zh) | 一种多智能体策略预测方法及装置 | |
CN108386971B (zh) | 中央空调节能自控系统 | |
CN105068515B (zh) | 一种基于自学习算法的智能家居设备语音控制方法 | |
CN105588274B (zh) | 一种自然风控制方法和装置 | |
Yang et al. | Extended PSO based collaborative searching for robotic swarms with practical constraints | |
CN110888317A (zh) | 一种pid控制器参数智能优化方法 | |
CN107703751A (zh) | 基于蜻蜓算法的pid控制器优化方法 | |
US20200379417A1 (en) | Techniques for using machine learning for control and predictive maintenance of buildings | |
Wei et al. | Learning control for air conditioning systems via human expressions | |
Zhang et al. | Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight | |
CN111144580A (zh) | 一种基于模仿学习的层级强化学习训练方法和装置 | |
CN111609534A (zh) | 温度控制方法、装置及中央温度控制系统 | |
CN115032897B (zh) | 基于麻雀搜索算法的线性自抗扰控制器的参数整定方法 | |
CN110097929A (zh) | 一种高炉铁水硅含量在线预测方法 | |
CN108683614A (zh) | 基于门限残差网络的虚拟现实设备集群带宽分配装置 | |
CN112016678B (zh) | 用于增强学习的策略生成网络的训练方法、装置和电子设备 | |
CN116520909A (zh) | 哈里斯鹰算法优化模糊pid参数的高值耗材柜温度控制方法 | |
CN117970782B (zh) | 一种基于鱼鳞进化gsom改进的模糊pid控制方法 | |
CN116449686A (zh) | 改进麻雀种群算法优化rbf神经网络的pid控制方法及装置 | |
CN112272074A (zh) | 一种基于神经网络的信息传输速率控制方法及系统 | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
CN114755926A (zh) | 一种基于强化学习的多智能体系统最优一致性的控制方法 | |
CN114384931A (zh) | 一种基于策略梯度的无人机多目标最优控制方法和设备 | |
CN117478538A (zh) | 一种基于深度强化学习的物联网设备探测与控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |