CN115062871B - 基于多智能体强化学习的智能电表状态评估方法 - Google Patents

基于多智能体强化学习的智能电表状态评估方法 Download PDF

Info

Publication number
CN115062871B
CN115062871B CN202210963660.4A CN202210963660A CN115062871B CN 115062871 B CN115062871 B CN 115062871B CN 202210963660 A CN202210963660 A CN 202210963660A CN 115062871 B CN115062871 B CN 115062871B
Authority
CN
China
Prior art keywords
state
agent
intelligent electric
electric meter
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210963660.4A
Other languages
English (en)
Other versions
CN115062871A (zh
Inventor
申朝晖
郭浩
贾振华
范卫星
李文彪
徐梓皓
薛义飞
王星
张旭东
侯超航
王静瑶
阴欢文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Zhiyixingke Technology Co ltd
Original Assignee
Shanxi Virtual Reality Industry Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Virtual Reality Industry Technology Research Institute Co ltd filed Critical Shanxi Virtual Reality Industry Technology Research Institute Co ltd
Priority to CN202210963660.4A priority Critical patent/CN115062871B/zh
Publication of CN115062871A publication Critical patent/CN115062871A/zh
Application granted granted Critical
Publication of CN115062871B publication Critical patent/CN115062871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Algebra (AREA)
  • Water Supply & Treatment (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了基于多智能体强化学习的智能电表状态评估方法,属于电力系统状态评估技术领域;解决了传统智能电表状态评估不准确、模型泛用性差的问题;包括:对智能电表的数据进行预处理;构建多智能体强化学习模型:设置强化学习智能体,设置强化学习的状态、动作、决策,设置强化学习的奖惩函数;训练多智能体的强化学习模型:初始化决策矩阵,基于ε‑贪婪算法选择适当的动作,获得环境对智能体的奖惩反馈,通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略;将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据,将优化数据作为评价指标得到智能电表的状态评估结果;本发明应用于智能电表状态评估。

Description

基于多智能体强化学习的智能电表状态评估方法
技术领域
本发明属于电力系统状态评估技术领域,具体涉及一种基于多智能体强化学习的智能电表状态评估方法。
背景技术
近年来随着电网全覆盖建设,智能电能表的数量出现爆炸式增长,但如何保证智能电表状态评估的准确性已成为所有国家电网公司面临的问题。国家电网公司定期会用新智能电表替换已达到一定运行时间的旧智能电表,该方法将会更换一些仍能正常工作的智能电表,造成大量资源浪费。因此,国家电网公司迫切地需要一种能够快速准确评价智能电表运行状态的方法来对电表的检修和轮换计划提供指导,从而实现管理成本上的节约及更低的故障率。
近年来大多数智能电表状态评估的研究多为数据驱动方法,该方法利用多源信息融合技术及人工智能相关算法来整合智能电表运行过程中产生的数据,从而实现对智能电表运行状态评估的智能化。
然而通过数据驱动的方法对智能电表状态评估面临两个问题:①智能电表相关数据往往难以获得,因此如何在现有数据相对不充裕的前提下去尽可能多的挖掘数据内在信息为决策提供更多的依据,是一件具有现实价值的工作;②传统的监督机器学习方法往往是建立在大量数据符合同分布的前提之下,而这个前提使得在使用不同分布数据时会导致分类或预测结果较差,从而使不同地区评估模型泛用性较差,无法直接应用。
基于此,有必要发明一种全新的智能电表状态评估方法,以解决传统智能电表状态评估方法存在的上述问题。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种基于多智能体强化学习的智能电表状态评估方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:基于多智能体强化学习的智能电表状态评估方法,包括如下步骤:
S1:对智能电表的数据进行预处理;
S2:构建多智能体强化学习模型:设置强化学习智能体,设置强化学习的状态、动作、决策,设置强化学习的奖惩函数;
S3:训练多智能体的强化学习模型:初始化决策矩阵,基于ε-贪婪算法选择适当的动作,获得环境对智能体的奖惩反馈,通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略;
S4:将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据,将优化数据作为评价指标得到智能电表的状态评估结果。
所述步骤S1中对智能电表的数据进行预处理具体为:
对智能电表的电压、功率、电流谐波数据进行数据离散化和归一化预处理;
先将连续的智能电表数据的取值范围均匀划成n等份,每份的间距相等,再使用线性归一化函数将离散化的数据转换到[0,1]的范围。
所述步骤S2中设置的强化学习智能体包括电压智能体、功率智能体和电流谐波智能体,基于电压智能体、功率智能体和电流谐波智能体构造智能电表的状态变量,设智能电表状态S由有限个状态s组成,则
Figure 100002_DEST_PATH_IMAGE001
,其中S表示智能电表的状态,st表示智能电表t时刻的状态,
Figure 328885DEST_PATH_IMAGE002
表示自然数集;
t时刻的智能电表状态st由电压差、功率差、电流谐波差三个数据决定,具体公式如下:
Figure 100002_DEST_PATH_IMAGE003
上式中:
Figure 54526DEST_PATH_IMAGE004
表示智能电表t时刻与t-1时刻的电压差,
Figure 100002_DEST_PATH_IMAGE005
表示智能电表t时刻与t-1时刻的功率差,
Figure 471077DEST_PATH_IMAGE006
表示智能电表t时刻与t-1时刻的电流谐波差;ζ表示黎曼函数;
对每个智能体固定选取了五种不同的决策动作,具体公式如下:
Figure 100002_DEST_PATH_IMAGE007
上式中:A表示智能体可选决策动作,vt、pt和wt分别表示t时刻智能电表的电压、功率和电流谐波。
所述步骤S2中强化学习的奖惩函数R是基于智能体及智能体的状态S、决策动作A和决策矩阵Q得到的,奖励惩罚函数的计算公式为:
Figure 41997DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
Figure 332164DEST_PATH_IMAGE010
上式中:st+1表示智能电表在状态st下所选择操作后的状态;
Figure 100002_DEST_PATH_IMAGE011
Figure 180490DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE013
分别表示t时刻智能体在状态st下所选择操作的奖惩值;
Figure 572419DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 196298DEST_PATH_IMAGE016
分别表示智能电表的电压差、功率差和电流谐波差。
所述步骤S3中初始化决策矩阵具体步骤如下:
首先基于步骤S2所设的每个智能体,都要预设一个矩阵Q作为决策,决策矩阵Q包含了智能电表每个状态的每个决策动作的奖惩值,决策矩阵Q的初始值设置为零,随着学习过程的进展将逐渐更新,具体公式如下:
Figure DEST_PATH_IMAGE017
上式中:Q0表示初始化的决策矩阵,s表示智能电表状态,a表示决策动作。
所述步骤S3中基于ε-贪婪算法选择适当的动作的具体步骤如下:
基于步骤S1预处理后的数据,计算出智能电表的当前状态,再基于步骤S2的决策动作A使用ε-贪婪算法在当前状态的可用动作A中选择适当的操作,在当前状态st中,智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作,以概率1−ε在状态st随机选择一个动作。
所述步骤S3中获得环境对智能体的奖惩反馈的具体步骤如下:
将基于ε-贪婪算法所选动作作用于智能电表环境并立即获得其奖惩反馈,使用奖惩反馈值计算智能电表下一个状态,采用最大化折扣回报,智能体通过从环境中获得的奖惩值去计算折扣回报,用来衡量所选行动对环境的满意度,公式如下:
Figure 619933DEST_PATH_IMAGE018
上式中:Rt表示折扣回报,γ表示奖惩衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所选择操作的奖惩值。
所述步骤S3中通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略的具体步骤如下:
计算智能电表下一个状态时间,更新决策矩阵Q中的对应元素,具体公式如下:
Figure DEST_PATH_IMAGE019
Figure 812011DEST_PATH_IMAGE020
上式中:ΔQ表示决策矩阵Q的更新值,α表示衰减因子,取值范围为[0,1];rt表示t时刻智能体在状态st下所对相应智能体选择操作的奖惩值;γ表示奖惩衰减因子;st+1表示为t+1时刻智能电表的状态,at+1表示为t+1时刻的决策动作,Q(st+1,at+1)表示为t+1时刻的决策矩阵Q;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作,Q(st,at)表示为t时刻的决策矩阵Q;
将上述操作多次迭代直至全部情节被模拟完全,以此获得最优控制策略,具体公式如下:
Figure DEST_PATH_IMAGE021
上式中:
Figure 674925DEST_PATH_IMAGE022
表示在状态s下的最优控制策略,Eπ表示期望;γ表示衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所对相应智能体选择操作的奖惩值;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作。
本发明相对于现有技术具备的有益效果为:本发明公开一种基于多智能体强化学习的智能电表状态评估方法,通过在强化学习共享的环境下应用多个智能体时,使智能体的决策既取决于环境,又取决于其他智能体。使用此多智能体强化学习模型对智能电表相应数据进行优化处理,再以状态优化结果作为评价标准,对智能电表状态进行评价得到状态评估结果。本发明实现了对智能电表运行状态的有效评价以及对各项数据的优化具有重要的指导意义。且相较于传统的多源信息融合技术与监督学习方法,其可以用更少的数据完成智能电表状态评估,泛用性更强。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明方法的流程图;
图2为采用本发明方法与传统方法进行对比实验的的学习曲线对比折线图。
具体实施方式
如图1所示,本实施例提供一种基于多智能体强化学习的智能电表状态评估方法,该方法是采用如下步骤实现的:
步骤S1:选择智能电表电压、功率、电流谐波数据,对其进行数据离散化和归一化预处理。
步骤S2:设置三个智能体进行学习,其分别为电压智能体、功率智能体和电流谐波智能体。
步骤S3:基于步骤S2所设的智能体,定义多智能体强化学习的状态S、决策动作A与决策矩阵Q。
步骤S4:基于步骤S2所设的智能体和步骤S3所设的状态S、决策动作A和决策矩阵Q,设计多智能体强化学习的奖罚函数R。
步骤S5:基于步骤S1所得电压、功率、电流谐波的离散数据和步骤S2、S3、S4所述内容构建多智能体强化学习模型,通过智能体与环境的交互以提取最优控制策略。
步骤S6:基于步骤S1所得智能电表电压、功率、电流谐波数据和步骤S5训练的多智能体强化学习模型,将离散数据输入到多智能体强化学习模型中得到智能电表电压、功率、电流谐波优化数据,将该数据作为评价指标得到智能电表的状态评估结果。
所述步骤S1中,对智能电表电压、功率、电流谐波数据进行离散化和归一化预处理。先将连续的智能电表数据的取值范围均匀划成n等份,每份的间距相等。再使用线性归一化函数将离散化的数据转换到[0,1]的范围,归一化公式如下:
Figure DEST_PATH_IMAGE023
(1);
公式(1)中,Xmax表示所选取智能电表数据的最大值,Xmin表示所选取智能电表数据的最小值,Xt表示所选取智能电表数据t时刻的离散值,Xt,norm表示归一化后的所选取智能电表数据t时刻离散值。
离散化的目的是将智能电表连续的电压、功率、电流谐波数据性质离散为有限个状态;归一化则是将上述数据缩放到相同的数据区间,以减少规模、分布差异对模型的影响。
所述步骤S2中,设置三个智能体进行学习,其分别为电压智能体、功率智能体和电流谐波智能体,并通过三智能体强化学习来寻找当前智能电表的最优状态。在强化学习共享的环境下应用多个智能体时,一个智能体的最优策略不仅仅取决于环境,还取决于其他智能体的决策。
所述步骤S3中,基于步骤S2所设的智能体构造智能电表状态变量,设该智能电表状态S由有限个状态s组成,具体公式如下:
Figure 590578DEST_PATH_IMAGE001
(2);
公式(2)中,S表示智能电表的状态,st表示智能电表t时刻状态,
Figure 58600DEST_PATH_IMAGE002
表示自然数集。
t时刻的智能电表状态st由电压差、功率差、电流谐波差三个数据决定,具体公式如下:
Figure 483896DEST_PATH_IMAGE003
(3);
公式(3)中,st表示智能电表t时刻状态,
Figure 427581DEST_PATH_IMAGE004
表示智能电表t时刻与t-1时刻的电压差,
Figure 859175DEST_PATH_IMAGE005
表示智能电表t时刻与t-1时刻的功率差,
Figure 322648DEST_PATH_IMAGE006
表示智能电表t时刻与t-1时刻的电流谐波差;ζ表示黎曼函数。
确定不同状态的准确决策动作是一个相对复杂的问题,其本身没有具体的规律且更多的依赖于试错法,所以为了最大可能减少模型的学习时间以获得最优控制策略,该步骤对每个智能体固定选取了五种不同的决策动作,具体公式如下:
Figure 918846DEST_PATH_IMAGE007
(4);
公式(4)中,A表示智能体可选决策动作,vt、pt和wt分别表示t时刻智能电表的电压、功率和电流谐波。
所述步骤S4中,基于步骤S2所设的智能体和步骤S3所设的状态S、决策动作A和决策矩阵Q,设计多智能体强化学习的奖罚函数R。奖罚函数R是该方法受控环境依据总体目标评估前一状态下采取决策动作的满意度,以使其在当前状态下执行最佳操作。具体的奖励惩罚函数公式如下:
Figure 349827DEST_PATH_IMAGE008
(5);
Figure 791304DEST_PATH_IMAGE009
(6);
Figure 490708DEST_PATH_IMAGE010
(7);
公式(5)、(6)、(7)中,st+1表示智能电表在状态st下所选择操作后的状态;
Figure 133173DEST_PATH_IMAGE011
Figure 926817DEST_PATH_IMAGE012
Figure 827777DEST_PATH_IMAGE013
分别表示t时刻智能体在状态st下所选择操作的奖惩值;
Figure 265842DEST_PATH_IMAGE014
Figure 466492DEST_PATH_IMAGE015
Figure 872066DEST_PATH_IMAGE016
分别表示智能电表的电压差、功率差和电流谐波差。
基于该方法受控环境的反馈,智能体对(st,at)分配分数并更新决策矩阵Q的相应元素。如果奖惩值为正,在状态st执行动作a的概率增加,反之亦然。
所述步骤S5中,基于步骤S1所得电压、功率、电流谐波的离散数据和步骤S2、S3、S4所述内容构建多智能体强化学习模型,通过智能体与环境的交互以提取最优控制策略。如图1中强化学习模型训练阶段所示,模型训练需要初始化决策矩阵Q、基于ε-贪婪算法选择适当的动作、获得环境对智能体的奖惩反馈、使用奖惩反馈更新智能体状态和判断是否获得最优控制策略五个子步骤。
首先基于步骤S2所设的每个智能体,都要预设一个矩阵Q作为决策,该矩阵包含了智能电表每个状态的每个决策动作的奖惩值。智能代理会根据此矩阵的数据在不同状态下做出最适当的操作。该矩阵的初始值设置为零,随着学习过程的进展将逐渐更新,具体公式如下:
Figure 452083DEST_PATH_IMAGE017
(8);
公式(8)中,Q0表示初始化的决策矩阵,s表示智能电表状态,a表示决策动作。
之后基于步骤S1的预处理后的数据,计算出智能电表的当前状态。再基于步骤S4的决策动作A使用ε-贪婪算法(ε=0.01)在当前状态的可用动作A中选择适当的操作。在当前状态st中,智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作,以概率1−ε在状态st随机选择一个动作。ε的具体数值在模型的学习阶段与使用阶段略有不同。学习阶段ε应足够小,以允许智能体尽可能多的学习到新的经验去实现最优控制策略;模拟阶段则应选择较大的值,以便智能体在更新其决策矩阵Q的同时执行现有最优控制策略。
将上述所选动作作用于智能电表环境并立即获得其奖惩反馈,使用奖惩反馈值计算智能电表下一个状态,这一步需要用到最大化折扣回报这个概念,智能体会通过用从环境中获得的奖惩值去计算折扣回报,其用来衡量所选行动对环境的满意度,公式如下:
Figure 744655DEST_PATH_IMAGE018
(9);
公式(9)中,Rt表示折扣回报,γ表示奖惩衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所选择操作的奖惩值。
计算智能电表下一个状态时间,需要更新决策矩阵Q中的对应元素,具体公式如下:
Figure 119135DEST_PATH_IMAGE024
(10);
Figure DEST_PATH_IMAGE025
(11);
公式(10)和(11)中,ΔQ表示决策矩阵Q的更新值,α表示衰减因子,取值范围为[0,1];rt表示 t时刻智能体在状态st下所对相应智能体(具体为电压智能体、功率智能体和电流谐波智能体)选择操作的奖惩值;γ表示奖惩衰减因子;st+1表示为t+1时刻智能电表的状态,at+1表示为t+1时刻的决策动作,Q(st+1,at+1)表示为t+1时刻的决策矩阵Q;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作,Q(st,at)表示为t时刻的决策矩阵Q。
将上述操作多次迭代直至全部情节被模拟完全,以此获得最优控制策略,具体公式如下:
Figure 890301DEST_PATH_IMAGE021
(12);
公式(12)中,
Figure 883796DEST_PATH_IMAGE022
表示在状态s下的最优控制策略,Eπ表示期望;γ表示衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所对相应智能体(具体为电压智能体、功率智能体和电流谐波智能体)选择操作的奖惩值;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作。
所述步骤S6中,利用基于步骤S1所得智能电表电压、功率、电流谐波数据和步骤S5训练的多智能体强化学习模型,将离散数据输入到多智能体强化学习模型中得到智能电表电压、功率、电流谐波优化数据。通过将该数据与原输入数据的比对,判断当前智能电表的状态。根据上述电压和功率的对比结果,判断智能电表状态是否处于异常状态,以确定其计量装置是否为异常。根据上述电压和电流谐波的对比结果,判断智能电表是否会发生电流谐波异常等状况。
通过多智能体强化学习方法,实现了智能电表的状态评估,获得智能电表状态评估的同时,也获取到智能电表电压、功率和电流谐波的优化数据;如图2所示,本发明与传统强化学习方法做了对比实验,可以看出本发明学习速度高于传统强化学习方法,奖励回报更高;且相较于传统信息融合方法,强化学习数据所需量更低。本发明克服了现有的智能电表状态评估方法的不足之处,适用于智能电表状态的评估。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及,由上述技术特征带来的常规使用方法、可预期技术效果,除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容,或属于本领域常规技术、公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (2)

1.基于多智能体强化学习的智能电表状态评估方法,其特征在于:包括如下步骤:
S1:对智能电表的数据进行预处理;
S2:构建多智能体强化学习模型:设置强化学习智能体,设置强化学习的状态、动作、决策,设置强化学习的奖惩函数;
S3:训练多智能体的强化学习模型:初始化决策矩阵,基于ε-贪婪算法选择适当的动作,获得环境对智能体的奖惩反馈,通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略;
S4:将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据,将优化数据作为评价指标得到智能电表的状态评估结果;
所述步骤S2中设置的强化学习智能体包括电压智能体、功率智能体和电流谐波智能体,基于电压智能体、功率智能体和电流谐波智能体构造智能电表的状态变量,设智能电表状态S由有限个状态s组成,则
Figure DEST_PATH_IMAGE001
,其中S表示智能电表的状态,st表示智能电表t时刻的状态,
Figure 854489DEST_PATH_IMAGE002
表示自然数集;
t时刻的智能电表状态st由电压差、功率差、电流谐波差三个数据决定,具体公式如下:
Figure DEST_PATH_IMAGE003
上式中:
Figure 276024DEST_PATH_IMAGE004
表示智能电表t时刻与t-1时刻的电压差,
Figure DEST_PATH_IMAGE005
表示智能电表t时刻与t-1时刻的功率差,
Figure 478597DEST_PATH_IMAGE006
表示智能电表t时刻与t-1时刻的电流谐波差;ζ表示黎曼函数;
对每个智能体固定选取了五种不同的决策动作,具体公式如下:
Figure DEST_PATH_IMAGE007
上式中:A表示智能体可选决策动作,vt、pt和wt分别表示t时刻智能电表的电压、功率和电流谐波;
所述步骤S2中强化学习的奖惩函数R是基于智能体及智能体的状态S、决策动作A和决策矩阵Q得到的,奖励惩罚函数的计算公式为:
Figure 60757DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 560615DEST_PATH_IMAGE010
上式中:st+1表示智能电表在状态st下所选择操作后的状态;
Figure DEST_PATH_IMAGE011
Figure 71493DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别表示t时刻智能体在状态st下所选择操作的奖惩值;
Figure 41590DEST_PATH_IMAGE014
Figure 896283DEST_PATH_IMAGE015
Figure 96320DEST_PATH_IMAGE016
分别表示智能电表的电压差、功率差和电流谐波差;
所述步骤S3中初始化决策矩阵具体步骤如下:
首先基于步骤S2所设的每个智能体,都要预设一个矩阵Q作为决策,决策矩阵Q包含了智能电表每个状态的每个决策动作的奖惩值,决策矩阵Q的初始值设置为零,随着学习过程的进展将逐渐更新,具体公式如下:
Figure 246941DEST_PATH_IMAGE017
上式中:Q0表示初始化的决策矩阵,s表示智能电表状态,a表示决策动作;
所述步骤S3中基于ε-贪婪算法选择适当的动作的具体步骤如下:
基于步骤S1预处理后的数据,计算出智能电表的当前状态,再基于步骤S2的决策动作A使用ε-贪婪算法在当前状态的可用动作A中选择适当的操作,在当前状态st中,智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作,以概率1−ε在状态st随机选择一个动作;
所述步骤S3中获得环境对智能体的奖惩反馈的具体步骤如下:
将基于ε-贪婪算法所选动作作用于智能电表环境并立即获得其奖惩反馈,使用奖惩反馈值计算智能电表下一个状态,采用最大化折扣回报,智能体通过从环境中获得的奖惩值去计算折扣回报,用来衡量所选行动对环境的满意度,公式如下:
Figure DEST_PATH_IMAGE018
上式中:Rt表示折扣回报,γ表示奖惩衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所选择操作的奖惩值;
所述步骤S3中通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略的具体步骤如下:
计算智能电表下一个状态时间,更新决策矩阵Q中的对应元素,具体公式如下:
Figure 342548DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
上式中:ΔQ表示决策矩阵Q的更新值,α表示衰减因子,取值范围为[0,1];rt表示 t时刻智能体在状态st下所对相应智能体选择操作的奖惩值;γ表示奖惩衰减因子;st+1表示为t+1时刻智能电表的状态,at+1表示为t+1时刻的决策动作,Q(st+1,at+1)表示为t+1时刻的决策矩阵Q;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作,Q(st,at)表示为t时刻的决策矩阵Q;
将上述操作多次迭代直至全部情节被模拟完全,以此获得最优控制策略,具体公式如下:
Figure 583955DEST_PATH_IMAGE021
上式中:
Figure DEST_PATH_IMAGE022
表示在状态s下的最优控制策略,Eπ表示期望;γ表示奖惩衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所对相应智能体选择操作的奖惩值;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作。
2.根据权利要求1所述的基于多智能体强化学习的智能电表状态评估方法,其特征在于:所述步骤S1中对智能电表的数据进行预处理具体为:
对智能电表的电压、功率、电流谐波数据进行数据离散化和归一化预处理;
先将连续的智能电表数据的取值范围均匀划成n等份,每份的间距相等,再使用线性归一化函数将离散化的数据转换到[0,1]的范围。
CN202210963660.4A 2022-08-11 2022-08-11 基于多智能体强化学习的智能电表状态评估方法 Active CN115062871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210963660.4A CN115062871B (zh) 2022-08-11 2022-08-11 基于多智能体强化学习的智能电表状态评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210963660.4A CN115062871B (zh) 2022-08-11 2022-08-11 基于多智能体强化学习的智能电表状态评估方法

Publications (2)

Publication Number Publication Date
CN115062871A CN115062871A (zh) 2022-09-16
CN115062871B true CN115062871B (zh) 2022-11-29

Family

ID=83207616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210963660.4A Active CN115062871B (zh) 2022-08-11 2022-08-11 基于多智能体强化学习的智能电表状态评估方法

Country Status (1)

Country Link
CN (1) CN115062871B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
TWI763087B (zh) * 2020-10-21 2022-05-01 國立清華大學 基於強化學習的點對點能源共享方法及裝置
CN113363997B (zh) * 2021-05-28 2022-06-14 浙江大学 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN114444256A (zh) * 2021-12-13 2022-05-06 国网综合能源服务集团有限公司 一种基于大数据的虚拟电厂负荷预测方法及跟踪控制方法
CN114386331A (zh) * 2022-01-14 2022-04-22 国网浙江省电力有限公司信息通信分公司 基于多智能体宽大强化学习的电力安全经济调度方法
CN114519433A (zh) * 2022-02-18 2022-05-20 星环信息科技(上海)股份有限公司 多智能体强化学习、策略执行方法及计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法

Also Published As

Publication number Publication date
CN115062871A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN112508275B (zh) 一种基于聚类和趋势指标的配电网线路负荷预测方法和设备
Pan et al. A comparison of neural network backpropagation algorithms for electricity load forecasting
CN108520155B (zh) 基于神经网络的车辆行为模拟方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN109214708B (zh) 基于交叉熵理论优化支持向量机的电力系统风险评估方法
CN105631483A (zh) 一种短期用电负荷预测方法及装置
EP3938854A1 (en) Method of performing a process and optimizing control signals used in the process
CN110751318A (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN111898867B (zh) 一种基于深度神经网络的飞机总装生产线产能预测方法
CN114757104B (zh) 一种串联闸群调水工程水力实时调控模型的构建方法
CN114169639A (zh) 一种企业用电量预测方法
CN112085156A (zh) 一种分压线损率预测及降损潜力评估方法及系统
CN116526473A (zh) 基于粒子群优化lstm的电热负荷预测方法
CN114936742A (zh) 一种供水系统调度代理决策方法
CN111311026A (zh) 一种顾及数据特征、模型和校正的径流非线性预测方法
CN115062871B (zh) 基于多智能体强化学习的智能电表状态评估方法
CN111799820B (zh) 一种电力系统双层智能混合零星云储能对抗调控方法
CN109872252A (zh) 一种基于matlab算法的电力供应商综合评价方法
CN114648178B (zh) 一种基于ddpg算法的电能计量装置运维策略优化方法
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN115629576A (zh) 非侵入式柔性负荷聚合特性辨识与优化方法、装置及设备
Busoniu et al. Policy search with cross-entropy optimization of basis functions
CN112784480B (zh) 一种油液状态自学习量化表征方法、存储介质及设备
CN115674191B (zh) 一种基于数字孪生的机械臂控制方法及系统
Nia et al. Using linear Chouquet integral algorithm to design optimal time-cost model in large construction projects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221212

Address after: 030000 4402-335, Floor 4, Building 4, Shanxi Data Flow Ecological Park, No. 1 Huazhang North Street, Science and Technology Innovation City, Shanxi Transformation Comprehensive Reform Demonstration Zone, Taiyuan, Shanxi Province

Patentee after: Shanxi zhiyixingke Technology Co.,Ltd.

Address before: Room 4402-301, 4th Floor, Building 4, Shanxi Data Traffic Ecological Park, No. 1 Zhangbei Street, Huazhang North Street, Science and Technology Innovation City, Taiyuan City, Shanxi Province, 030006

Patentee before: Shanxi virtual reality Industry Technology Research Institute Co.,Ltd.