CN113126679A

CN113126679A - 一种基于强化学习的电能计量检定环境控制方法和系统

Info

Publication number: CN113126679A
Application number: CN202110421914.5A
Authority: CN
Inventors: 招景明; 赵炳辉; 黄友朋; 左右宇; 姚智聪; 彭龙; 李嘉杰
Original assignee: Measurement Center of Guangdong Power Grid Co Ltd
Current assignee: Measurement Center of Guangdong Power Grid Co Ltd; Metrology Center of Guangdong Power Grid Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-16

Abstract

本发明公开了一种基于强化学习的电能计量检定环境控制方法及系统，其中方法包括：设置期望的环境参数，其中，所述环境参数包括：温度、湿度和气压；根据所述期望的环境参数，通过环境参数控制器的调节参数，控制环境调节设备改变环境参数，其中，所述调节参数包括：温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作；获取实时环境参数，并根据预设的强化学习模型，获取下一步的调节参数，重复执行通过环境参数控制器的调节参数，控制环境调节设备改变环境参数，直到所述实时环境参数等于期望的环境参数。本发明能够解决的PID控制算法的缺陷，在提高控制精度的同时，还能获得更加稳定的控制效果。

Description

一种基于强化学习的电能计量检定环境控制方法和系统

技术领域

本发明涉及电能计量技术领域，特别是涉及一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和计算机可读存储介质。

背景技术

目前，在电能计量检定系统中，涉及各种类型高精度计量装置和计量检定设备，其中各种计量器具检定规程中，规定了检定器具时的温度、相对湿度等环境条件；当环境条件达不到规程要求时，将会对检定结果产生较大的影响，造成较大的检定误差，可能使计量器具的准确性达不到要求，检定结果可信度降低，甚至无法满足法定要求。因此，在检定中心，环境的温/湿度，气压等参数的可靠控制，显得尤为重要，是保障可靠检定结果的重要影响因素。

在目前环境参数控制系统中，不同的环境参数的控制回路之间是隔离的，比如环境温度控制回路，仅负责温度的控制，环境湿度的控制回路，只则负责环境湿度控制，无法实现控制回路之间的参数交互。且每一项环境参数的控制回路都是基于简单的PID算法实现。但是，PID的控制是一种基于误差的积微分的简单控制，对于多变化、多稠合的系统来说，容易引起超调和滞后，无法进行精确额控制；控制效果极度依赖于调试人员经验。

发明内容

本发明的目的是：提供一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和存储介质，能够解决的PID控制算法的缺陷，在提高控制精度的同时，还能获得更加稳定的控制效果。

为了实现上述目的，本发明提供了一种基于强化学习的电能计量检定环境控制方法，包括：

S101、设置期望的环境参数，其中，所述环境参数包括：温度、湿度和气压；

S102、根据所述期望的环境参数，通过环境参数控制器的调节参数，控制环境调节设备改变环境参数，其中，所述调节参数包括：温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作；

S103、获取实时环境参数，并根据预设的强化学习模型，获取下一步的调节参数，重复执行步骤S102－S103，直到所述实时环境参数等于期望的环境参数。

进一步地，所述预设的强化学习模型，包括：

通过设置学习速率和折扣因子，构建强化学习模型，公式如下：

Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*max_aQ(S',a)]

其中，Q(S,A)表示Q表中当前状态S和对应的动作A，α是学习速率，γ表示折扣因子，S'表示动作A执行完成后，系统环境到达的状态，Q(S',a)是表示在S'状态在所有动作下Q值的集合，max_aQ(S',a)表示在状态S'下最大的Q值，R是奖励值。

进一步地，所述奖励值，具体采用如下公式：

其中，W_T，W_H，W_P，表示环境参数权重，范围都是[0，1]，且满足sum(W_T,W_H,W_P)＝1，N，K，M分别表示温度传感器，湿度传感器，和压力传感器的个数，t_i表示第i个温度传感器的温度值，_i表示第i个湿度传感器的湿度值，p_i表示第i个压力传感器的气压值，T_sp，H_sp，P_sp分别表示系统设定的温度，湿度，气压值，ε是一个余项，防止除0操作。

进一步地，所述获取实时环境参数，包括：

通过传感器获取实时温度数据、湿度数据以及气压数据，将所述实时温度数据、湿度数据以及气压数据组成环境参数，其中，环境参数采用D＝{T,H,P}表示，其中T＝{t₀,t₁,...t_n}表示N个温度采样点采样的环境温度，其中t_n表示第n个传感器，H＝{h₀,h₁,...h_k}表示k个湿度采样点采样的环境湿度值，其中h_k表示第k个传感器，P＝{p₀,p₁,...p_m}表示m个气压采样点的环境气压，其中p_m表示第m个传感器；则环境当前的状态表示为

为各传感器采样值的均值。

本发明还提供一种基于强化学习的电能计量检定环境控制系统，包括：设置模块、调节模块和控制模块，其中，

所述设置模块，用于设置期望的环境参数、学习速率和折扣因子，其中，所述环境参数包括：温度、湿度和气压；

所述调节模块，用于根据所述期望的环境参数，通过环境参数控制器的调节参数，控制环境调节设备改变环境参数，其中，所述调节参数包括：温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作；

控制模块，用于获取实时环境参数，并根据预设的强化学习模型，获取下一步的调节参数，重复执行调用调节模块和控制模块，直到所述实时环境参数等于期望的环境参数。

进一步地，所述预设的强化学习模型，包括：

Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*max_aQ(S',a)]

进一步地，所述奖励值，具体采用如下公式：

其中，W_T，W_H，W_P，表示环境参数权重，范围都是[0，1]，且满足sum(W_T,W_H,W_P)＝1，N，K，M分别表示温度传感器，湿度传感器和压力传感器的个数，t_i表示第i个温度传感器的温度值，_i表示第i个湿度传感器的湿度值，p_i表示第i个压力传感器的气压值，T_sp，H_sp，P_sp分别表示系统设定的温度，湿度，气压值，ε是一个余项，防止除0操作。

进一步地，所述获取实时环境参数，包括：

通过传感器获取实时温度数据、湿度数据以及气压数据，将所述实时温度数据、湿度数据以及气压数据组成环境参数，其中，环境参数采用D＝{T,H,P}表示，其中T＝{t₀,t₁,...t_n}表示N个温度采样点采样的环境温度，其中tn表示第n个传感器，H＝{h₀,h₁,...h_k}表示k个湿度采样点采样的环境湿度值，其中hk表示第k个传感器，P＝{p₀,p₁,...p_m}表示m个气压采样点的环境气压，其中pm表示第m个传感器；则环境当前的状态表示为

为各传感器采样值的均值。

本发明还提供一种计算机终端设备，包括：一个或多个处理器；存储器，与所述处理器耦接，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。

本发明提供的一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和计算机可读存储介质与现有技术相比，其有益效果在于：

1.抛弃了传统的PID控制方法，改为学习型算法，解决的PID控制算法的缺陷，在提高控制精度的同时，还获得更加稳定的控制效果。

2.采用多个环境参数调节综合决策，相比于单一的调节简单的累加，控制效果更加准确。

附图说明

图1是本发明某一实施提供的一种基于强化学习的电能计量检定环境控制方法的流程示意图；

图2是本发明某一实施提供的一种基于强化学习的电能计量检定环境控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明的一种基于强化学习的电能计量检定环境控制方法，包括：

具体地，设置期望的环境参数，包括温度的设定值T_sp，湿度设定值H_sp和气压设定值P_sp；所述期望的环境参数是工作人员根据实际需求设定的。

具体地，根据所述期望的环境参数，通过环境参数控制器的调节参数，控制环境调节设备改变环境参数，其中，第一次调节参数是随机产生的，后续的调节参数依赖于步骤S103的获取的调节参数。

需要说明的是通过环境参数控制器的调节参数，控制环境调节设备改变环境参数是指，控制器在接收到的调节动作指令后，按照动作要求的调节量，来调节设备，比如空调制冷风机加大2％，除湿加速1％等；

需要说明的是，环境调节不是一次调节的结果，而是通过多次调节，获取的调节结果。

需要说明的是，所述预设的强化学习模型是指系统自启动以来维护更新的一个动态表格，称之为Q值表。表格中包含了环境状态，和该状态对应的执行的动作；

具体地，Q值表，这张数据表记录了决策模型自上线运行以来维护和更新历史的环境参数和决策动作，Q值表阐述了系统在何种状态下，执行何种动作，可以使系统收益(环境参数长时间稳定在期望值)最大。

在本发明的某一个实施例中，所述预设的强化学习模型，具体为：

Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*max_aQ(S',a)]

具体地，所述学习率和折扣因子是经验设定，但是不会对整个系统性能造成大的影响，学习率决定了系统达到收敛的速度，值越大，收敛越快；

具体地，所述折扣因子控制了系统的灵敏度，折扣因子γ越大，系统控制越缓慢，使决策模型更关注长期的稳定，长期“受益”；越小，调节越灵敏；

在本发明的某一个实施例中，所述奖励值，具体采用如下公式：

其中，W_T，W_H，W_P，表示环境参数权重，范围都是[0，1]，且满足sum(W_T,W_H,W_P)＝1，N，K，M分别表示温度传感器，湿度传感器和压力传感器的个数，t_i表示第i个温度传感器的温度值，i表示第i个湿度传感器的湿度值，p_i表示第i个压力传感器的气压值，T_sp，H_sp，P_sp分别表示系统设定的温度，湿度，气压值，ε是一个余项，防止除0操作。

在本发明的某一个实施例中，所述获取实时环境参数，具体为：

为各传感器采样值的均值。

本发明还提供的一种基于强化学习的电能计量检定环境控制方法与现有技术相比，其有益效果在于：

如图2所示，本发明还提供本发明还提供一种基于强化学习的电能计量检定环境控制系统200，包括：设置模块201、调节模块202和控制模块203，其中，

所述设置模块201，用于设置期望的环境参数、学习速率和折扣因子，其中，所述环境参数包括：温度、湿度和气压；

所述调节模块202，用于根据所述期望的环境参数，通过环境参数控制器的调节参数，控制环境调节设备改变环境参数，其中，所述调节参数包括：温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作；

控制模块203，用于获取实时环境参数，并根据预设的强化学习模型，获取下一步的调节参数，重复执行调用调节模块和控制模块，直到所述实时环境参数等于期望的环境参数。

在本发明的某一个实施例中，所述预设的强化学习模型，包括：

Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*max_aQ(S',a)]

在本发明的某一个实施例，所述奖励值，具体采用如下公式：

其中，W_T，W_H，W_P，表示环境参数权重，范围都是[0，1]，且满足sum(W_T,W_H,W_P)＝1，N，K，M分别表示温度传感器，湿度传感器和压力传感器的个数，t_i表示第i个温度传感器的温度值，i表示第i个湿度传感器的湿度值，p_i表示第i个压力传感器的气压值T_sp，H_sp，P_sp分别表示系统设定的温度，湿度，气压值，ε是一个余项，防止除0操作。

在本发明的某一个实施例，所述获取实时环境参数，包括：

为各传感器采样值的均值。

一种基于强化学习的电能计量检定环境控制系统与现有技术相比，其有益效果在于：

本发明还提供一种计算机终端设备，包括：一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。

需要说明的是，所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器也可以是任何常规的处理器，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(SmartMediaCard，SMC)、安全数字(SecureDigital，SD)卡和闪存卡(FlashCard)等，或所述存储器也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，上述终端设备仅仅是示例，并不构成对终端设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序)，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的电能计量检定环境控制方法，其特征在于，包括：

S103、获取实时环境参数，并根据预设的强化学习模型，获取下一步的调节参数，重复执行步骤S102-S103，直到所述实时环境参数等于期望的环境参数。

2.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法，其特征在于，所述预设的强化学习模型，包括：

Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*max_aQ(S',a)]

3.根据权利要求2所述的基于强化学习的电能计量检定环境控制方法，其特征在于，所述奖励值，具体采用如下公式：

其中，W_T，W_H，W_P，表示环境参数权重，范围都是[0，1]，且满足sum(W_T，W_H，W_P)＝1，N，K，M分别表示温度传感器，湿度传感器和压力传感器的个数，t_i表示第i个温度传感器的温度值，_i表示第i个湿度传感器的湿度值，p_i表示第i个压力传感器的气压值，T_sp，H_sp，P_sp分别表示系统设定的温度，湿度，气压值，ε是一个余项，防止除0操作。

4.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法，其特征在于，所述获取实时环境参数，包括：

通过传感器获取实时温度数据、湿度数据以及气压数据，将所述实时温度数据、湿度数据以及气压数据组成环境参数，其中，环境参数采用D＝{T，H，P}表示，其中T＝{t₀，t₁，...t_n}表示N个温度采样点采样的环境温度，其中t_n表示第n个传感器，H＝{h₀，h₁，...h_k}表示k个湿度采样点采样的环境湿度值，其中h_k表示第k个传感器，P＝{p₀，p₁，...p_m}表示m个气压采样点的环境气压，其中p_m表示第m个传感器；则环境当前的状态表示为

为各传感器采样值的均值。

5.一种基于强化学习的电能计量检定环境控制系统，其特征在于，包括：设置模块、调节模块和控制模块，其中，

6.根据权利要求5所述的基于强化学习的电能计量检定环境控制系统，其特征在于，所述预设的强化学习模型，包括：

Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*max_aQ(S',a)]

7.根据权利要求6所述的基于强化学习的电能计量检定环境控制系统，其特征在于，所述奖励值，具体采用如下公式：

8.根据权利要求6所述的基于强化学习的电能计量检定环境控制系统，其特征在于，所述获取实时环境参数，包括：

通过传感器获取实时温度数据、湿度数据以及气压数据，将所述实时温度数据、湿度数据以及气压数据组成环境参数，其中，环境参数采用D＝{T，H，P}表示，其中T＝{t₀，t₁...t_n}表示N个温度采样点采样的环境温度，其中tn表示第n个传感器，H＝{h₀，h₁，...h_k}表示k个湿度采样点采样的环境湿度值，其中hk表示第k个传感器，P＝{p₀，p₁，...p_m}表示m个气压采样点的环境气压，其中pm表示第m个传感器；则环境当前的状态表示为

为各传感器采样值的均值。

9.一种计算机终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4任一项所述的基于强化学习的电能计量检定环境控制方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于强化学习的电能计量检定环境控制方法。