CN111781840A

CN111781840A - 基于深度强化学习无模型自适应混水温度控制系统及方法

Info

Publication number: CN111781840A
Application number: CN202010818036.6A
Authority: CN
Inventors: 黄文俊; 兰琦琦; 解泽宇
Original assignee: Harbin University of Commerce
Current assignee: Harbin University of Commerce
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-10-16
Anticipated expiration: 2040-08-14
Also published as: CN111781840B

Abstract

基于深度强化学习无模型自适应混水温度控制系统及方法，属于冷热水混水温度控制领域。本发明解决了现有的混水装置手动调温具有调温困难，浪费水资源等问题。本发明包括动作网络模块和价值网络模块，本发明的具体方法步骤为：步骤一，自定义混水系统的状态空间和动作空间，建立动作网络和价值网络；步骤二，根据与混水环境交互产生的数据训练动作网络和价值网络，获得混水调温DDPG模型；步骤三，在混水设备部署该DDPG模型，并与云服务器实时通信，异步更新设备模型参数，实现自适应学习新混水环境。本发明的温度控制系统及方法可自适应使用环境，且对环境因素有很强的适应性，并且让混水系统可靠和精准。

Description

基于深度强化学习无模型自适应混水温度控制系统及方法

技术领域

本发明涉及一种基于深度强化学习无模型自适应混水温度控制系统及方法，属于冷热水混水温度控制领域。

背景技术

传统的混水装置中，大多采用手动调温的方式，具有调温困难、浪费水资源等问题，而市面上的一些混水智能恒温系统通常采用的是固定的算法，其问题在于不能适配不同的环境，存在可靠性差和精度差等问题。

大多数现有的控制研究工作是关于单变量PID控制的，有关它的理论及设计已经很好地建立、理解并且实际应用。但是整个多变量PID系统还不成功，而大多数的工业过程在本质上是多变量的。

传统经典PID算法需要手动调整PID参数，而传统混水设备在使用过程中面临水温水压等环境因素各不相同，无法根据不同设备自动调整PID参数。

针对无模型自适应学习，当前强化学习中的一个重要分支-深度确定性梯度下降(Deep Deterministic Policy Gradient，DDPG)提供了很好的解决方案，因此，本发明基于DDPG算法提出了一种基于深度强化学习的无模型自适应混水温度控制方法及系统。

发明内容

本发明解决了目前现有的混水装置手动调温具有调温困难、浪费水资源等问题，本发明公开了“基于深度强化学习无模型自适应混水温度控制系统及方法”。在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。

本发明的技术方案：

基于深度强化学习无模型自适应混水温度控制系统，包括动作网络模块和价值网络模块；

动作网络模块包括估计网络模块和评价目标网络模块；

动作网络模块用于定义混水系统的状态空间和动作空间；

价值网络模块用于判断评价网络环境；

动作网络模块和价值网络模块用于进行环境交互获得DDPG模型。

基于深度强化学习无模型自适应混水温度控制方法，是基于深度强化学习无模型自适应混水温度控制系统实现的，具体方法步骤如下：

步骤一，自定义混水系统的状态空间和动作空间，建立动作网络和价值网络；

步骤二，根据与混水环境交互产生的数据训练动作网络和价值网络，获得混水调温DDPG模型；

步骤三，在混水设备部署该DDPG模型，并与云服务器实时通信，异步更新设备模型参数，实现自适应学习新混水环境。

进一步的，步骤一中，所述的动作网络包括：动作网络、目标动作网络；所述的价值网络包括判断价值网络、目标价值网络混水系统的状态空间和动作空间，所述混水系统的动作空间为调整拨片的转动速度A∈[V_max，V_min]，其中V_max为调温最大转速，V_min＝-V_max；

状态空间S具体为:

其中分别表示：混水前冷水端温度、混水前冷水端压强、混水前冷水端水流量、混水前热水端温度、混水前热水端压强、混水前热水端水流量、当前混水后温度，目标温度；

定义回报函数：

其中T_t+1为下一时刻混水后测量温度，

为用户设定温度。

进一步的，步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络，采用软更新算法更新目标动作网络和目标价值网络，从而获得DDPG模型，其中s_t为t时刻的混水系统环境状态，a_t为在t时刻，混水系统环境状态为s_t时采用的调整拨片的转动速度，r_t为状态为s_t时采用的调整拨片的转动速度a_t使状态变为s_t+1时收到的立即奖励，s_t+1为t+1时刻的混水环境状态。

进一步的，步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络包括:

基于与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]，根据评价损失函数更新价值网络；

基于与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]，根据策略梯度更新动作网络；

训练过程具体包括采用记忆库学习模式，定义记忆库大小：M，单步训练批数量：M_step，

首先，初始化各种数据信息；

其次，执行决策部分，获取当前状态s_t，输入动作网络，其输出为决策信息，即在当前冷热水步进电机转速V_t；

再次，运行环境，执行动作，并利用回报函数计算利润r_t，得到下一状态t+1，将[s_t，a_t，r_t，s_t+1]作为回合记忆存入记忆库，当记忆库存满时，对记忆库进行随机抽样，取M_step条回合记忆，并对每条回合记忆进行学习；最后，判断迭代次数是否满足要求，若不满足，则重复上述过程；

通过软更新算法更新目标动作网络和目标价值网络的计算公式为:

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^μ＝τθ^μ+(1-τ)θ^μ

其中τ＝0.001，θ^Q′代表目标价值网参数，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数，θ^μ代表动作网络参数。

进一步的，步骤二中，在将训练模型部署至设备时，为了使设备运行在低性能的移动设备上，进行以下处理：

使用FPGA定制并行加速芯片，也可运行在自带神经网络加速处理器的AI芯片上；

回合记忆存入记忆库存入记忆库时，实时上传至云服务器；

记忆库存满时，对记忆库进行随机抽样，将抽取样本在云服务器中进行训练，算法继续循环执行上述步骤；

服务器训练完成后，将训练完成的动作网络、评价网络参数异步更新至设备。

本发明的有益效果：

1.传统经典PID算法需要手动调整PID参数，而传统混水设备在使用过程中面临水温水压等环境因素各不相同的问题。本方法可自适应使用环境，且对环境因素有很强的适应性；

2.本发明可以可以充分地从数据中学习到冷热水混水后温度变化规律，可让混水系统可靠和精准，可以避免用户在使用热水时出现温度频繁变化、用户体验差等问题。并且可以在不同的环境中使用，并且能对当前环境进行学习实现无模型自适应，从而达到越用越智能的效果。

3.大多数现有的研究工作是关于单变量PID控制的,但是整个多变量PID系统还不成功，本发明可以充分利用温度、压强、水流量等多个变量的作用进行精准调温

附图说明

图1是基于深度强化学习无模型自适应混水温度控制系统框图；

图2是混水温度控制系统记忆库服务流程图；

图3是混水温度控制系统逻辑运算结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明的概念。

具体实施方式一：结合图1-图3说明本实施方式，本实施方式的基于深度强化学习无模型自适应混水温度控制系统，包括动作网络模块和价值网络模块；

动作网络模块包括估计网络模块和评价目标网络模块；

动作网络模块用于定义混水系统的状态空间和动作空间；

价值网络模块用于判断评价网络环境；

具体实施方式二：结合图1-图3说明本实施方式，本实施方式的基于深度强化学习无模型自适应混水温度控制方法，具体方法步骤如下：

具体实施方式三：结合图1-图3说明本实施方式，本实施方式的基于深度强化学习无模型自适应混水温度控制方法，步骤一中，所述的动作网络包括：动作网络、目标动作网络；所述的价值网络包括判断价值网络、目标价值网络混水系统的状态空间和动作空间，所述混水系统的动作空间为调整拨片的转动速度A∈[V_max，V_min]，其中V_max为调温最大转速，V_min＝-V_max；

状态空间S具体为:

定义回报函数：

其中T_t+1为下一时刻混水后测量温度，

为用户设定温度。

具体实施方式四：结合图1-图3说明本实施方式，本实施方式的基于深度强化学习无模型自适应混水温度控制方法，步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络，采用软更新算法更新目标动作网络和目标价值网络，从而获得DDPG模型，其中s_t为t时刻的混水系统环境状态，a_t为在t时刻，混水系统环境状态为s_t时采用的调整拨片的转动速度，r_t为状态为s_t时采用的调整拨片的转动速度a_t使状态变为s_t+1时收到的立即奖励，s_t+1为t+1时刻的混水环境状态；

具体的，步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络包括:

首先，初始化各种数据信息；

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^μ′＝τθ^μ+(1-τ)θ^μ′

其中τ＝0.001，θ^Q′代表目标价值网参数，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数，θ^μ代表动作网络参数；

具体的，步骤二中，在将训练模型部署至设备时，为了使设备运行在低性能的移动设备上，进行以下处理：

回合记忆存入记忆库存入记忆库时，实时上传至云服务器；

具体实施方式五：结合图1-图3说明本实施方式，本实施方式的基于深度强化学习无模型自适应混水温度控制系统，其适用设备包括：

(1)使用电机控制阀芯组件作为调整冷热水比例的新型混水装置；

(2)使用电磁阀作为调整冷热水比例的新型混水装置。

其中包括但不限于：家用混水阀、大型洗浴恒温热水即时混水设备；

所适用情况包括：

(1)无需蓄水即时混水的使用场景；

(2)对温度变化范围要求较高的使用场景；

(3)环境可变化的使用场景。

本实施方式只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围内。

Claims

1.基于深度强化学习无模型自适应混水温度控制系统，其特征在于：该系统包括动作网络模块和价值网络模块；

动作网络模块包括估计网络模块和评价目标网络模块；

动作网络模块用于定义混水系统的状态空间和动作空间；

价值网络模块用于判断评价网络环境；

2.基于深度强化学习无模型自适应混水温度控制方法，是根据权利要求1所述的系统实现的，其特征在于：具体方法步骤如下：

3.根据权利要求2所述的基于深度强化学习无模型自适应混水温度控制方法，其特征在于：步骤一中，所述的动作网络包括：动作网络、目标动作网络；所述的价值网络包括判断价值网络、目标价值网络混水系统的状态空间和动作空间，所述混水系统的动作空间为调整拨片的转动速度A∈[V_max，V_min]，其中V_max为调温最大转速，V_min＝-V_max；

状态空间S具体为:

定义回报函数：

其中T_t+1为下一时刻混水后测量温度，

为用户设定温度。

4.根据权利要求2所述的基于深度强化学习无模型自适应混水温度控制方法，其特征在于：步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络，采用软更新算法更新目标动作网络和目标价值网络，从而获得DDPG模型，其中s_t为t时刻的混水系统环境状态，a_t为在t时刻，混水系统环境状态为s_t时采用的调整拨片的转动速度，r_t为状态为s_t时采用的调整拨片的转动速度a_t使状态变为s_t+1时收到的立即奖励，s_t+1为t+1时刻的混水环境状态。

5.根据权利要求4所述的基于深度强化学习无模型自适应混水温度控制方法，其特征在于：步骤二中，根据与混水系统环境交互产生的数据[s_t，a_t，r_t，s_t+1]训练动作网络和价值网络包括:

首先，初始化各种数据信息；

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^μ′＝τθ^μ+(1-τ)θ^μ′

6.根据权利要求2所述的基于深度强化学习无模型自适应混水温度控制方法，其特征在于：步骤二中，在将训练模型部署至设备时，为了使设备运行在低性能的移动设备上，进行以下处理：

回合记忆存入记忆库存入记忆库时，实时上传至云服务器；