CN113126679A - 一种基于强化学习的电能计量检定环境控制方法和系统 - Google Patents

一种基于强化学习的电能计量检定环境控制方法和系统 Download PDF

Info

Publication number
CN113126679A
CN113126679A CN202110421914.5A CN202110421914A CN113126679A CN 113126679 A CN113126679 A CN 113126679A CN 202110421914 A CN202110421914 A CN 202110421914A CN 113126679 A CN113126679 A CN 113126679A
Authority
CN
China
Prior art keywords
environment
adjusting
humidity
temperature
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110421914.5A
Other languages
English (en)
Inventor
招景明
赵炳辉
黄友朋
左右宇
姚智聪
彭龙
李嘉杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Measurement Center of Guangdong Power Grid Co Ltd
Metrology Center of Guangdong Power Grid Co Ltd
Original Assignee
Measurement Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Measurement Center of Guangdong Power Grid Co Ltd filed Critical Measurement Center of Guangdong Power Grid Co Ltd
Priority to CN202110421914.5A priority Critical patent/CN113126679A/zh
Publication of CN113126679A publication Critical patent/CN113126679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D27/00Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00
    • G05D27/02Simultaneous control of variables covered by two or more of main groups G05D1/00 - G05D25/00 characterised by the use of electric means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R35/00Testing or calibrating of apparatus covered by the other groups of this subclass
    • G01R35/04Testing or calibrating of apparatus covered by the other groups of this subclass of instruments for measuring time integral of power or current
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的电能计量检定环境控制方法及系统,其中方法包括:设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,直到所述实时环境参数等于期望的环境参数。本发明能够解决的PID控制算法的缺陷,在提高控制精度的同时,还能获得更加稳定的控制效果。

Description

一种基于强化学习的电能计量检定环境控制方法和系统
技术领域
本发明涉及电能计量技术领域,特别是涉及一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和计算机可读存储介质。
背景技术
目前,在电能计量检定系统中,涉及各种类型高精度计量装置和计量检定设备,其中各种计量器具检定规程中,规定了检定器具时的温度、相对湿度等环境条件;当环境条件达不到规程要求时,将会对检定结果产生较大的影响,造成较大的检定误差,可能使计量器具的准确性达不到要求,检定结果可信度降低,甚至无法满足法定要求。因此,在检定中心,环境的温/湿度,气压等参数的可靠控制,显得尤为重要,是保障可靠检定结果的重要影响因素。
在目前环境参数控制系统中,不同的环境参数的控制回路之间是隔离的,比如环境温度控制回路,仅负责温度的控制,环境湿度的控制回路,只则负责环境湿度控制,无法实现控制回路之间的参数交互。且每一项环境参数的控制回路都是基于简单的PID算法实现。但是,PID的控制是一种基于误差的积微分的简单控制,对于多变化、多稠合的系统来说,容易引起超调和滞后,无法进行精确额控制;控制效果极度依赖于调试人员经验。
发明内容
本发明的目的是:提供一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和存储介质,能够解决的PID控制算法的缺陷,在提高控制精度的同时,还能获得更加稳定的控制效果。
为了实现上述目的,本发明提供了一种基于强化学习的电能计量检定环境控制方法,包括:
S101、设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;
S102、根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
S103、获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行步骤S102-S103,直到所述实时环境参数等于期望的环境参数。
进一步地,所述预设的强化学习模型,包括:
通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,maxaQ(S',a)表示在状态S'下最大的Q值,R是奖励值。
进一步地,所述奖励值,具体采用如下公式:
Figure BDA0003027370100000021
其中,WT,WH,WP,表示环境参数权重,范围都是[0,1],且满足sum(WT,WH,WP)=1,N,K,M分别表示温度传感器,湿度传感器,和压力传感器的个数,ti表示第i个温度传感器的温度值,i表示第i个湿度传感器的湿度值,pi表示第i个压力传感器的气压值,Tsp,Hsp,Psp分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
进一步地,所述获取实时环境参数,包括:
通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...tn}表示N个温度采样点采样的环境温度,其中tn表示第n个传感器,H={h0,h1,...hk}表示k个湿度采样点采样的环境湿度值,其中hk表示第k个传感器,P={p0,p1,...pm}表示m个气压采样点的环境气压,其中pm表示第m个传感器;则环境当前的状态表示为
Figure BDA0003027370100000031
为各传感器采样值的均值。
本发明还提供一种基于强化学习的电能计量检定环境控制系统,包括:设置模块、调节模块和控制模块,其中,
所述设置模块,用于设置期望的环境参数、学习速率和折扣因子,其中,所述环境参数包括:温度、湿度和气压;
所述调节模块,用于根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
控制模块,用于获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行调用调节模块和控制模块,直到所述实时环境参数等于期望的环境参数。
进一步地,所述预设的强化学习模型,包括:
通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,maxaQ(S',a)表示在状态S'下最大的Q值,R是奖励值。
进一步地,所述奖励值,具体采用如下公式:
Figure BDA0003027370100000041
其中,WT,WH,WP,表示环境参数权重,范围都是[0,1],且满足sum(WT,WH,WP)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,ti表示第i个温度传感器的温度值,i表示第i个湿度传感器的湿度值,pi表示第i个压力传感器的气压值,Tsp,Hsp,Psp分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
进一步地,所述获取实时环境参数,包括:
通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...tn}表示N个温度采样点采样的环境温度,其中tn表示第n个传感器,H={h0,h1,...hk}表示k个湿度采样点采样的环境湿度值,其中hk表示第k个传感器,P={p0,p1,...pm}表示m个气压采样点的环境气压,其中pm表示第m个传感器;则环境当前的状态表示为
Figure BDA0003027370100000051
为各传感器采样值的均值。
本发明还提供一种计算机终端设备,包括:一个或多个处理器;存储器,与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。
本发明提供的一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和计算机可读存储介质与现有技术相比,其有益效果在于:
1.抛弃了传统的PID控制方法,改为学习型算法,解决的PID控制算法的缺陷,在提高控制精度的同时,还获得更加稳定的控制效果。
2.采用多个环境参数调节综合决策,相比于单一的调节简单的累加,控制效果更加准确。
附图说明
图1是本发明某一实施提供的一种基于强化学习的电能计量检定环境控制方法的流程示意图;
图2是本发明某一实施提供的一种基于强化学习的电能计量检定环境控制系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如图1所示,本发明的一种基于强化学习的电能计量检定环境控制方法,包括:
S101、设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;
具体地,设置期望的环境参数,包括温度的设定值Tsp,湿度设定值Hsp和气压设定值Psp;所述期望的环境参数是工作人员根据实际需求设定的。
S102、根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
具体地,根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,第一次调节参数是随机产生的,后续的调节参数依赖于步骤S103的获取的调节参数。
需要说明的是通过环境参数控制器的调节参数,控制环境调节设备改变环境参数是指,控制器在接收到的调节动作指令后,按照动作要求的调节量,来调节设备,比如空调制冷风机加大2%,除湿加速1%等;
S103、获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行步骤S102-S103,直到所述实时环境参数等于期望的环境参数。
需要说明的是,环境调节不是一次调节的结果,而是通过多次调节,获取的调节结果。
需要说明的是,所述预设的强化学习模型是指系统自启动以来维护更新的一个动态表格,称之为Q值表。表格中包含了环境状态,和该状态对应的执行的动作;
具体地,Q值表,这张数据表记录了决策模型自上线运行以来维护和更新历史的环境参数和决策动作,Q值表阐述了系统在何种状态下,执行何种动作,可以使系统收益(环境参数长时间稳定在期望值)最大。
在本发明的某一个实施例中,所述预设的强化学习模型,具体为:
通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,maxaQ(S',a)表示在状态S'下最大的Q值,R是奖励值。
具体地,所述学习率和折扣因子是经验设定,但是不会对整个系统性能造成大的影响,学习率决定了系统达到收敛的速度,值越大,收敛越快;
具体地,所述折扣因子控制了系统的灵敏度,折扣因子γ越大,系统控制越缓慢,使决策模型更关注长期的稳定,长期“受益”;越小,调节越灵敏;
在本发明的某一个实施例中,所述奖励值,具体采用如下公式:
Figure BDA0003027370100000081
其中,WT,WH,WP,表示环境参数权重,范围都是[0,1],且满足sum(WT,WH,WP)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,ti表示第i个温度传感器的温度值,i表示第i个湿度传感器的湿度值,pi表示第i个压力传感器的气压值,Tsp,Hsp,Psp分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
在本发明的某一个实施例中,所述获取实时环境参数,具体为:
通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...tn}表示N个温度采样点采样的环境温度,其中tn表示第n个传感器,H={h0,h1,...hk}表示k个湿度采样点采样的环境湿度值,其中hk表示第k个传感器,P={p0,p1,...pm}表示m个气压采样点的环境气压,其中pm表示第m个传感器;则环境当前的状态表示为
Figure BDA0003027370100000091
为各传感器采样值的均值。
本发明还提供的一种基于强化学习的电能计量检定环境控制方法与现有技术相比,其有益效果在于:
1.抛弃了传统的PID控制方法,改为学习型算法,解决的PID控制算法的缺陷,在提高控制精度的同时,还获得更加稳定的控制效果。
2.采用多个环境参数调节综合决策,相比于单一的调节简单的累加,控制效果更加准确。
如图2所示,本发明还提供本发明还提供一种基于强化学习的电能计量检定环境控制系统200,包括:设置模块201、调节模块202和控制模块203,其中,
所述设置模块201,用于设置期望的环境参数、学习速率和折扣因子,其中,所述环境参数包括:温度、湿度和气压;
所述调节模块202,用于根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
控制模块203,用于获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行调用调节模块和控制模块,直到所述实时环境参数等于期望的环境参数。
在本发明的某一个实施例中,所述预设的强化学习模型,包括:
通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,maxaQ(S',a)表示在状态S'下最大的Q值,R是奖励值。
在本发明的某一个实施例,所述奖励值,具体采用如下公式:
Figure BDA0003027370100000101
其中,WT,WH,WP,表示环境参数权重,范围都是[0,1],且满足sum(WT,WH,WP)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,ti表示第i个温度传感器的温度值,i表示第i个湿度传感器的湿度值,pi表示第i个压力传感器的气压值Tsp,Hsp,Psp分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
在本发明的某一个实施例,所述获取实时环境参数,包括:
通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...tn}表示N个温度采样点采样的环境温度,其中tn表示第n个传感器,H={h0,h1,...hk}表示k个湿度采样点采样的环境湿度值,其中hk表示第k个传感器,P={p0,p1,...pm}表示m个气压采样点的环境气压,其中pm表示第m个传感器;则环境当前的状态表示为
Figure BDA0003027370100000111
为各传感器采样值的均值。
一种基于强化学习的电能计量检定环境控制系统与现有技术相比,其有益效果在于:
1.抛弃了传统的PID控制方法,改为学习型算法,解决的PID控制算法的缺陷,在提高控制精度的同时,还获得更加稳定的控制效果。
2.采用多个环境参数调节综合决策,相比于单一的调节简单的累加,控制效果更加准确。
本发明还提供一种计算机终端设备,包括:一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。
需要说明的是,所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMediaCard,SMC)、安全数字(SecureDigital,SD)卡和闪存卡(FlashCard)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,上述终端设备仅仅是示例,并不构成对终端设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于强化学习的电能计量检定环境控制方法。
需要说明的是,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的电能计量检定环境控制方法,其特征在于,包括:
S101、设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;
S102、根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
S103、获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行步骤S102-S103,直到所述实时环境参数等于期望的环境参数。
2.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述预设的强化学习模型,包括:
通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,maxaQ(S',a)表示在状态S'下最大的Q值,R是奖励值。
3.根据权利要求2所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述奖励值,具体采用如下公式:
Figure FDA0003027370090000021
其中,WT,WH,WP,表示环境参数权重,范围都是[0,1],且满足sum(WT,WH,WP)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,ti表示第i个温度传感器的温度值,i表示第i个湿度传感器的湿度值,pi表示第i个压力传感器的气压值,Tsp,Hsp,Psp分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
4.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述获取实时环境参数,包括:
通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...tn}表示N个温度采样点采样的环境温度,其中tn表示第n个传感器,H={h0,h1,...hk}表示k个湿度采样点采样的环境湿度值,其中hk表示第k个传感器,P={p0,p1,...pm}表示m个气压采样点的环境气压,其中pm表示第m个传感器;则环境当前的状态表示为
Figure FDA0003027370090000022
为各传感器采样值的均值。
5.一种基于强化学习的电能计量检定环境控制系统,其特征在于,包括:设置模块、调节模块和控制模块,其中,
所述设置模块,用于设置期望的环境参数、学习速率和折扣因子,其中,所述环境参数包括:温度、湿度和气压;
所述调节模块,用于根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
控制模块,用于获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行调用调节模块和控制模块,直到所述实时环境参数等于期望的环境参数。
6.根据权利要求5所述的基于强化学习的电能计量检定环境控制系统,其特征在于,所述预设的强化学习模型,包括:
通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,maxaQ(S',a)表示在状态S'下最大的Q值,R是奖励值。
7.根据权利要求6所述的基于强化学习的电能计量检定环境控制系统,其特征在于,所述奖励值,具体采用如下公式:
Figure FDA0003027370090000041
其中,WT,WH,WP,表示环境参数权重,范围都是[0,1],且满足sum(WT,WH,WP)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,ti表示第i个温度传感器的温度值,i表示第i个湿度传感器的湿度值,pi表示第i个压力传感器的气压值,Tsp,Hsp,Psp分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
8.根据权利要求6所述的基于强化学习的电能计量检定环境控制系统,其特征在于,所述获取实时环境参数,包括:
通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1...tn}表示N个温度采样点采样的环境温度,其中tn表示第n个传感器,H={h0,h1,...hk}表示k个湿度采样点采样的环境湿度值,其中hk表示第k个传感器,P={p0,p1,...pm}表示m个气压采样点的环境气压,其中pm表示第m个传感器;则环境当前的状态表示为
Figure FDA0003027370090000042
为各传感器采样值的均值。
9.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至4任一项所述的基于强化学习的电能计量检定环境控制方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于强化学习的电能计量检定环境控制方法。
CN202110421914.5A 2021-04-19 2021-04-19 一种基于强化学习的电能计量检定环境控制方法和系统 Pending CN113126679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421914.5A CN113126679A (zh) 2021-04-19 2021-04-19 一种基于强化学习的电能计量检定环境控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421914.5A CN113126679A (zh) 2021-04-19 2021-04-19 一种基于强化学习的电能计量检定环境控制方法和系统

Publications (1)

Publication Number Publication Date
CN113126679A true CN113126679A (zh) 2021-07-16

Family

ID=76777831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421914.5A Pending CN113126679A (zh) 2021-04-19 2021-04-19 一种基于强化学习的电能计量检定环境控制方法和系统

Country Status (1)

Country Link
CN (1) CN113126679A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117903824A (zh) * 2024-03-13 2024-04-19 北京大学 一种基于智慧管理的有机质废料炭化处理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101144854A (zh) * 2007-08-10 2008-03-19 陕西银兴电力电子科技有限公司 电能计量自动检定综合管理平台系统
US20160161137A1 (en) * 2014-12-04 2016-06-09 Delta Electronics, Inc. Controlling system for environmental comfort degree and controlling method of the controlling system
CN107065582A (zh) * 2017-03-31 2017-08-18 苏州科技大学 一种基于环境的参数的室内空气智能调节系统和调节方法
US20180100662A1 (en) * 2016-10-11 2018-04-12 Mitsubishi Electric Research Laboratories, Inc. Method for Data-Driven Learning-based Control of HVAC Systems using High-Dimensional Sensory Observations
CN108519193A (zh) * 2018-06-08 2018-09-11 北京市计量检测科学研究院 一种压力计量器具检定环境试验装置
CN110134165A (zh) * 2019-05-13 2019-08-16 北京鹏通高科科技有限公司 一种用于环境监测与控制的强化学习方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101144854A (zh) * 2007-08-10 2008-03-19 陕西银兴电力电子科技有限公司 电能计量自动检定综合管理平台系统
US20160161137A1 (en) * 2014-12-04 2016-06-09 Delta Electronics, Inc. Controlling system for environmental comfort degree and controlling method of the controlling system
US20180100662A1 (en) * 2016-10-11 2018-04-12 Mitsubishi Electric Research Laboratories, Inc. Method for Data-Driven Learning-based Control of HVAC Systems using High-Dimensional Sensory Observations
CN107065582A (zh) * 2017-03-31 2017-08-18 苏州科技大学 一种基于环境的参数的室内空气智能调节系统和调节方法
CN108519193A (zh) * 2018-06-08 2018-09-11 北京市计量检测科学研究院 一种压力计量器具检定环境试验装置
CN110134165A (zh) * 2019-05-13 2019-08-16 北京鹏通高科科技有限公司 一种用于环境监测与控制的强化学习方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117903824A (zh) * 2024-03-13 2024-04-19 北京大学 一种基于智慧管理的有机质废料炭化处理系统
CN117903824B (zh) * 2024-03-13 2024-05-28 北京大学 一种基于智慧管理的有机质废料炭化处理系统

Similar Documents

Publication Publication Date Title
US20090051310A1 (en) Closed Loop Stepper Motor Control
CN113126679A (zh) 一种基于强化学习的电能计量检定环境控制方法和系统
CN114151373B (zh) 服务器风扇转速调控方法、系统、终端及存储介质
CN110850709B (zh) 用于pid参数的渐进式整定方法
CN107861404B (zh) 一种用于实验室管理系统的控制方法
CN111141034B (zh) 吹风机控制方法、装置及存储介质
EP3176662A1 (en) Velocity-based impedance controller
CN117242665A (zh) 使用测量数据的电力系统模型校准
CN111697901B (zh) 一种伺服电机的控制方法、控制设备及控制系统
CN111765015A (zh) 发动机转速的校准方法、装置、电子设备及可读存储介质
CN115422787B (zh) 发动机仿真模型的配平方法、装置、电子设备及存储介质
CN110133348A (zh) 一种电能表自热误差的补偿方法、系统及存储介质
DE102021105582A1 (de) Motorregler für elektrische gebläse
CN112388623B (zh) 舵机位置控制方法、装置、终端设备及介质
CN113641195A (zh) 压力调节方法、电子设备及存储介质
CN112596378A (zh) 涂布厚度控制方法及涂布厚度控制模型的训练方法、装置
CN117742136B (zh) 一种基于pid的飞行器自动控制方法
CN111801629A (zh) 用于确定在测量信号中发生的振荡的方法
CN117846721A (zh) 一种发动机转速控制方法、装置、计算机设备及存储介质
CN115220485A (zh) 一种湿度控制方法、装置、系统及存储介质
CN117369572B (zh) 一种用于恒温酒柜的智能加湿控制方法及其相关设备
CN113324320B (zh) 空调器及其控制方法
CN117888967A (zh) 一种发动机转速控制方法、装置、计算机设备及存储介质
CN115173758B (zh) 一种步进电机速度控制方法、装置、设备及存储介质
CN117289686B (zh) 一种参数标定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210716