CN111781840A - 基于深度强化学习无模型自适应混水温度控制系统及方法 - Google Patents
基于深度强化学习无模型自适应混水温度控制系统及方法 Download PDFInfo
- Publication number
- CN111781840A CN111781840A CN202010818036.6A CN202010818036A CN111781840A CN 111781840 A CN111781840 A CN 111781840A CN 202010818036 A CN202010818036 A CN 202010818036A CN 111781840 A CN111781840 A CN 111781840A
- Authority
- CN
- China
- Prior art keywords
- water mixing
- network
- water
- action
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
基于深度强化学习无模型自适应混水温度控制系统及方法,属于冷热水混水温度控制领域。本发明解决了现有的混水装置手动调温具有调温困难,浪费水资源等问题。本发明包括动作网络模块和价值网络模块,本发明的具体方法步骤为:步骤一,自定义混水系统的状态空间和动作空间,建立动作网络和价值网络;步骤二,根据与混水环境交互产生的数据训练动作网络和价值网络,获得混水调温DDPG模型;步骤三,在混水设备部署该DDPG模型,并与云服务器实时通信,异步更新设备模型参数,实现自适应学习新混水环境。本发明的温度控制系统及方法可自适应使用环境,且对环境因素有很强的适应性,并且让混水系统可靠和精准。
Description
技术领域
本发明涉及一种基于深度强化学习无模型自适应混水温度控制系统及方法,属于冷热水混水温度控制领域。
背景技术
传统的混水装置中,大多采用手动调温的方式,具有调温困难、浪费水资源等问题,而市面上的一些混水智能恒温系统通常采用的是固定的算法,其问题在于不能适配不同的环境,存在可靠性差和精度差等问题。
大多数现有的控制研究工作是关于单变量PID控制的,有关它的理论及设计已经很好地建立、理解并且实际应用。但是整个多变量PID系统还不成功,而大多数的工业过程在本质上是多变量的。
传统经典PID算法需要手动调整PID参数,而传统混水设备在使用过程中面临水温水压等环境因素各不相同,无法根据不同设备自动调整PID参数。
针对无模型自适应学习,当前强化学习中的一个重要分支-深度确定性梯度下降(Deep Deterministic Policy Gradient,DDPG)提供了很好的解决方案,因此,本发明基于DDPG算法提出了一种基于深度强化学习的无模型自适应混水温度控制方法及系统。
发明内容
本发明解决了目前现有的混水装置手动调温具有调温困难、浪费水资源等问题,本发明公开了“基于深度强化学习无模型自适应混水温度控制系统及方法”。在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。
本发明的技术方案:
基于深度强化学习无模型自适应混水温度控制系统,包括动作网络模块和价值网络模块;
动作网络模块包括估计网络模块和评价目标网络模块;
动作网络模块用于定义混水系统的状态空间和动作空间;
价值网络模块用于判断评价网络环境;
动作网络模块和价值网络模块用于进行环境交互获得DDPG模型。
基于深度强化学习无模型自适应混水温度控制方法,是基于深度强化学习无模型自适应混水温度控制系统实现的,具体方法步骤如下:
步骤一,自定义混水系统的状态空间和动作空间,建立动作网络和价值网络;
步骤二,根据与混水环境交互产生的数据训练动作网络和价值网络,获得混水调温DDPG模型;
步骤三,在混水设备部署该DDPG模型,并与云服务器实时通信,异步更新设备模型参数,实现自适应学习新混水环境。
进一步的,步骤一中,所述的动作网络包括:动作网络、目标动作网络;所述的价值网络包括判断价值网络、目标价值网络混水系统的状态空间和动作空间,所述混水系统的动作空间为调整拨片的转动速度A∈[Vmax,Vmin],其中Vmax为调温最大转速,Vmin=-Vmax;
进一步的,步骤二中,根据与混水系统环境交互产生的数据[st,at,rt,st+1]训练动作网络和价值网络,采用软更新算法更新目标动作网络和目标价值网络,从而获得DDPG模型,其中st为t时刻的混水系统环境状态,at为在t时刻,混水系统环境状态为st时采用的调整拨片的转动速度,rt为状态为st时采用的调整拨片的转动速度at使状态变为st+1时收到的立即奖励,st+1为t+1时刻的混水环境状态。
进一步的,步骤二中,根据与混水系统环境交互产生的数据[st,at,rt,st+1]训练动作网络和价值网络包括:
基于与混水系统环境交互产生的数据[st,at,rt,st+1],根据评价损失函数更新价值网络;
基于与混水系统环境交互产生的数据[st,at,rt,st+1],根据策略梯度更新动作网络;
训练过程具体包括采用记忆库学习模式,定义记忆库大小:M,单步训练批数量:Mstep,
首先,初始化各种数据信息;
其次,执行决策部分,获取当前状态st,输入动作网络,其输出为决策信息,即在当前冷热水步进电机转速Vt;
再次,运行环境,执行动作,并利用回报函数计算利润rt,得到下一状态t+1,将[st,at,rt,st+1]作为回合记忆存入记忆库,当记忆库存满时,对记忆库进行随机抽样,取Mstep条回合记忆,并对每条回合记忆进行学习;最后,判断迭代次数是否满足要求,若不满足,则重复上述过程;
通过软更新算法更新目标动作网络和目标价值网络的计算公式为:
θQ′=τθQ+(1-τ)θQ′
θμ=τθμ+(1-τ)θμ
其中τ=0.001,θQ′代表目标价值网参数,θQ代表价值网络参数,θμ′代表目标动作网络参数,θμ代表动作网络参数。
进一步的,步骤二中,在将训练模型部署至设备时,为了使设备运行在低性能的移动设备上,进行以下处理:
使用FPGA定制并行加速芯片,也可运行在自带神经网络加速处理器的AI芯片上;
回合记忆存入记忆库存入记忆库时,实时上传至云服务器;
记忆库存满时,对记忆库进行随机抽样,将抽取样本在云服务器中进行训练,算法继续循环执行上述步骤;
服务器训练完成后,将训练完成的动作网络、评价网络参数异步更新至设备。
本发明的有益效果:
1.传统经典PID算法需要手动调整PID参数,而传统混水设备在使用过程中面临水温水压等环境因素各不相同的问题。本方法可自适应使用环境,且对环境因素有很强的适应性;
2.本发明可以可以充分地从数据中学习到冷热水混水后温度变化规律,可让混水系统可靠和精准,可以避免用户在使用热水时出现温度频繁变化、用户体验差等问题。并且可以在不同的环境中使用,并且能对当前环境进行学习实现无模型自适应,从而达到越用越智能的效果。
3.大多数现有的研究工作是关于单变量PID控制的,但是整个多变量PID系统还不成功,本发明可以充分利用温度、压强、水流量等多个变量的作用进行精准调温
附图说明
图1是基于深度强化学习无模型自适应混水温度控制系统框图;
图2是混水温度控制系统记忆库服务流程图;
图3是混水温度控制系统逻辑运算结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明的概念。
具体实施方式一:结合图1-图3说明本实施方式,本实施方式的基于深度强化学习无模型自适应混水温度控制系统,包括动作网络模块和价值网络模块;
动作网络模块包括估计网络模块和评价目标网络模块;
动作网络模块用于定义混水系统的状态空间和动作空间;
价值网络模块用于判断评价网络环境;
动作网络模块和价值网络模块用于进行环境交互获得DDPG模型。
具体实施方式二:结合图1-图3说明本实施方式,本实施方式的基于深度强化学习无模型自适应混水温度控制方法,具体方法步骤如下:
步骤一,自定义混水系统的状态空间和动作空间,建立动作网络和价值网络;
步骤二,根据与混水环境交互产生的数据训练动作网络和价值网络,获得混水调温DDPG模型;
步骤三,在混水设备部署该DDPG模型,并与云服务器实时通信,异步更新设备模型参数,实现自适应学习新混水环境。
具体实施方式三:结合图1-图3说明本实施方式,本实施方式的基于深度强化学习无模型自适应混水温度控制方法,步骤一中,所述的动作网络包括:动作网络、目标动作网络;所述的价值网络包括判断价值网络、目标价值网络混水系统的状态空间和动作空间,所述混水系统的动作空间为调整拨片的转动速度A∈[Vmax,Vmin],其中Vmax为调温最大转速,Vmin=-Vmax;
具体实施方式四:结合图1-图3说明本实施方式,本实施方式的基于深度强化学习无模型自适应混水温度控制方法,步骤二中,根据与混水系统环境交互产生的数据[st,at,rt,st+1]训练动作网络和价值网络,采用软更新算法更新目标动作网络和目标价值网络,从而获得DDPG模型,其中st为t时刻的混水系统环境状态,at为在t时刻,混水系统环境状态为st时采用的调整拨片的转动速度,rt为状态为st时采用的调整拨片的转动速度at使状态变为st+1时收到的立即奖励,st+1为t+1时刻的混水环境状态;
具体的,步骤二中,根据与混水系统环境交互产生的数据[st,at,rt,st+1]训练动作网络和价值网络包括:
基于与混水系统环境交互产生的数据[st,at,rt,st+1],根据评价损失函数更新价值网络;
基于与混水系统环境交互产生的数据[st,at,rt,st+1],根据策略梯度更新动作网络;
训练过程具体包括采用记忆库学习模式,定义记忆库大小:M,单步训练批数量:Mstep,
首先,初始化各种数据信息;
其次,执行决策部分,获取当前状态st,输入动作网络,其输出为决策信息,即在当前冷热水步进电机转速Vt;
再次,运行环境,执行动作,并利用回报函数计算利润rt,得到下一状态t+1,将[st,at,rt,st+1]作为回合记忆存入记忆库,当记忆库存满时,对记忆库进行随机抽样,取Mstep条回合记忆,并对每条回合记忆进行学习;最后,判断迭代次数是否满足要求,若不满足,则重复上述过程;
通过软更新算法更新目标动作网络和目标价值网络的计算公式为:
θQ′=τθQ+(1-τ)θQ′
θμ′=τθμ+(1-τ)θμ′
其中τ=0.001,θQ′代表目标价值网参数,θQ代表价值网络参数,θμ′代表目标动作网络参数,θμ代表动作网络参数;
具体的,步骤二中,在将训练模型部署至设备时,为了使设备运行在低性能的移动设备上,进行以下处理:
使用FPGA定制并行加速芯片,也可运行在自带神经网络加速处理器的AI芯片上;
回合记忆存入记忆库存入记忆库时,实时上传至云服务器;
记忆库存满时,对记忆库进行随机抽样,将抽取样本在云服务器中进行训练,算法继续循环执行上述步骤;
服务器训练完成后,将训练完成的动作网络、评价网络参数异步更新至设备。
具体实施方式五:结合图1-图3说明本实施方式,本实施方式的基于深度强化学习无模型自适应混水温度控制系统,其适用设备包括:
(1)使用电机控制阀芯组件作为调整冷热水比例的新型混水装置;
(2)使用电磁阀作为调整冷热水比例的新型混水装置。
其中包括但不限于:家用混水阀、大型洗浴恒温热水即时混水设备;
所适用情况包括:
(1)无需蓄水即时混水的使用场景;
(2)对温度变化范围要求较高的使用场景;
(3)环境可变化的使用场景。
本实施方式只是对本专利的示例性说明,并不限定它的保护范围,本领域技术人员还可以对其局部进行改变,只要没有超出本专利的精神实质,都在本专利的保护范围内。
Claims (6)
1.基于深度强化学习无模型自适应混水温度控制系统,其特征在于:该系统包括动作网络模块和价值网络模块;
动作网络模块包括估计网络模块和评价目标网络模块;
动作网络模块用于定义混水系统的状态空间和动作空间;
价值网络模块用于判断评价网络环境;
动作网络模块和价值网络模块用于进行环境交互获得DDPG模型。
2.基于深度强化学习无模型自适应混水温度控制方法,是根据权利要求1所述的系统实现的,其特征在于:具体方法步骤如下:
步骤一,自定义混水系统的状态空间和动作空间,建立动作网络和价值网络;
步骤二,根据与混水环境交互产生的数据训练动作网络和价值网络,获得混水调温DDPG模型;
步骤三,在混水设备部署该DDPG模型,并与云服务器实时通信,异步更新设备模型参数,实现自适应学习新混水环境。
4.根据权利要求2所述的基于深度强化学习无模型自适应混水温度控制方法,其特征在于:步骤二中,根据与混水系统环境交互产生的数据[st,at,rt,st+1]训练动作网络和价值网络,采用软更新算法更新目标动作网络和目标价值网络,从而获得DDPG模型,其中st为t时刻的混水系统环境状态,at为在t时刻,混水系统环境状态为st时采用的调整拨片的转动速度,rt为状态为st时采用的调整拨片的转动速度at使状态变为st+1时收到的立即奖励,st+1为t+1时刻的混水环境状态。
5.根据权利要求4所述的基于深度强化学习无模型自适应混水温度控制方法,其特征在于:步骤二中,根据与混水系统环境交互产生的数据[st,at,rt,st+1]训练动作网络和价值网络包括:
基于与混水系统环境交互产生的数据[st,at,rt,st+1],根据评价损失函数更新价值网络;
基于与混水系统环境交互产生的数据[st,at,rt,st+1],根据策略梯度更新动作网络;
训练过程具体包括采用记忆库学习模式,定义记忆库大小:M,单步训练批数量:Mstep,
首先,初始化各种数据信息;
其次,执行决策部分,获取当前状态st,输入动作网络,其输出为决策信息,即在当前冷热水步进电机转速Vt;
再次,运行环境,执行动作,并利用回报函数计算利润rt,得到下一状态t+1,将[st,at,rt,st+1]作为回合记忆存入记忆库,当记忆库存满时,对记忆库进行随机抽样,取Mstep条回合记忆,并对每条回合记忆进行学习;最后,判断迭代次数是否满足要求,若不满足,则重复上述过程;
通过软更新算法更新目标动作网络和目标价值网络的计算公式为:
θQ′=τθQ+(1-τ)θQ′
θμ′=τθμ+(1-τ)θμ′
其中τ=0.001,θQ′代表目标价值网参数,θQ代表价值网络参数,θμ′代表目标动作网络参数,θμ代表动作网络参数。
6.根据权利要求2所述的基于深度强化学习无模型自适应混水温度控制方法,其特征在于:步骤二中,在将训练模型部署至设备时,为了使设备运行在低性能的移动设备上,进行以下处理:
使用FPGA定制并行加速芯片,也可运行在自带神经网络加速处理器的AI芯片上;
回合记忆存入记忆库存入记忆库时,实时上传至云服务器;
记忆库存满时,对记忆库进行随机抽样,将抽取样本在云服务器中进行训练,算法继续循环执行上述步骤;
服务器训练完成后,将训练完成的动作网络、评价网络参数异步更新至设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010818036.6A CN111781840B (zh) | 2020-08-14 | 2020-08-14 | 基于深度强化学习无模型自适应混水温度控制系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010818036.6A CN111781840B (zh) | 2020-08-14 | 2020-08-14 | 基于深度强化学习无模型自适应混水温度控制系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111781840A true CN111781840A (zh) | 2020-10-16 |
CN111781840B CN111781840B (zh) | 2022-08-09 |
Family
ID=72762020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010818036.6A Active CN111781840B (zh) | 2020-08-14 | 2020-08-14 | 基于深度强化学习无模型自适应混水温度控制系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111781840B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101907898A (zh) * | 2009-06-07 | 2010-12-08 | 胡斌 | 变频智能混水装置 |
CN105929749A (zh) * | 2016-06-21 | 2016-09-07 | 苏州迈奇杰智能技术有限公司 | 一种基于微处理器人工智能控制智能饮水机器 |
CN107655212A (zh) * | 2017-09-29 | 2018-02-02 | 深圳和而泰智能控制股份有限公司 | 加热处理方法及装置 |
CN109099561A (zh) * | 2018-08-13 | 2018-12-28 | 广州致远电子有限公司 | 温度控制方法、装置及系统 |
CN110109356A (zh) * | 2019-05-15 | 2019-08-09 | 中南大学 | 锌电解过程无模型自适应学习型最优化控制方法及系统 |
-
2020
- 2020-08-14 CN CN202010818036.6A patent/CN111781840B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101907898A (zh) * | 2009-06-07 | 2010-12-08 | 胡斌 | 变频智能混水装置 |
CN105929749A (zh) * | 2016-06-21 | 2016-09-07 | 苏州迈奇杰智能技术有限公司 | 一种基于微处理器人工智能控制智能饮水机器 |
CN107655212A (zh) * | 2017-09-29 | 2018-02-02 | 深圳和而泰智能控制股份有限公司 | 加热处理方法及装置 |
CN109099561A (zh) * | 2018-08-13 | 2018-12-28 | 广州致远电子有限公司 | 温度控制方法、装置及系统 |
CN110109356A (zh) * | 2019-05-15 | 2019-08-09 | 中南大学 | 锌电解过程无模型自适应学习型最优化控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
郭代银: "无模型自适应控制参数整定方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2015 (2015-02-15), pages 140 - 684 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114527642A (zh) * | 2022-03-03 | 2022-05-24 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
CN114527642B (zh) * | 2022-03-03 | 2024-04-02 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111781840B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110023850B (zh) | 用于控制技术系统的方法和控制装置 | |
KR101961421B1 (ko) | 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품 | |
CN108229647A (zh) | 神经网络结构的生成方法和装置、电子设备、存储介质 | |
Han et al. | Knowledge-data-driven model predictive control for a class of nonlinear systems | |
Tyukin et al. | Feasibility of random basis function approximators for modeling and control | |
CN107615186A (zh) | 模型预测控制的方法和装置 | |
de Prada et al. | Developing grey-box dynamic process models | |
CN116726788B (zh) | 一种压裂用交联剂的制备方法 | |
CN113077052A (zh) | 用于稀疏奖励环境的强化学习方法、装置、设备及介质 | |
CN111781840B (zh) | 基于深度强化学习无模型自适应混水温度控制系统及方法 | |
CN113746696A (zh) | 网络流量预测方法、设备、存储介质及装置 | |
CN112272074A (zh) | 一种基于神经网络的信息传输速率控制方法及系统 | |
CN114556241A (zh) | 将人工智能(ai)集成到自动化中的可编程逻辑控制器(plc)程序中功能块的ai伴侣 | |
CN114510012A (zh) | 一种基于元动作序列强化学习的无人集群演进系统及方法 | |
KR20220154785A (ko) | 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션 | |
CN112163671A (zh) | 一种新能源场景生成方法及系统 | |
US20230120256A1 (en) | Training an artificial neural network, artificial neural network, use, computer program, storage medium and device | |
Peng et al. | Echo State Network ship motion modeling prediction based on Kalman filter | |
CN114219066A (zh) | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 | |
CN116562156A (zh) | 一种控制决策模型的训练方法、装置、设备及存储介质 | |
CN116859738A (zh) | 设备的控制方法及控制装置 | |
CN111856967A (zh) | 一种用于自持式剖面浮标的半实物仿真系统及方法 | |
CN116722541A (zh) | 一种基于卷积神经网络的电力系统负荷预测方法及装置 | |
CN110737260A (zh) | 基于大数据和人工智能的自动作业方法和机器人系统 | |
CN114545776A (zh) | 多智能体控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |