CN115062871B

CN115062871B - 基于多智能体强化学习的智能电表状态评估方法

Info

Publication number: CN115062871B
Application number: CN202210963660.4A
Authority: CN
Inventors: 申朝晖; 郭浩; 贾振华; 范卫星; 李文彪; 徐梓皓; 薛义飞; 王星; 张旭东; 侯超航; 王静瑶; 阴欢文
Original assignee: Shanxi Virtual Reality Industry Technology Research Institute Co ltd
Current assignee: Shanxi Zhiyixingke Technology Co ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-29
Anticipated expiration: 2042-08-11
Also published as: CN115062871A

Abstract

本发明提供了基于多智能体强化学习的智能电表状态评估方法，属于电力系统状态评估技术领域；解决了传统智能电表状态评估不准确、模型泛用性差的问题；包括：对智能电表的数据进行预处理；构建多智能体强化学习模型：设置强化学习智能体，设置强化学习的状态、动作、决策，设置强化学习的奖惩函数；训练多智能体的强化学习模型：初始化决策矩阵，基于ε‑贪婪算法选择适当的动作，获得环境对智能体的奖惩反馈，通过奖惩反馈更新智能体状态，判断多个智能体是否都获得最优控制策略；将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据，将优化数据作为评价指标得到智能电表的状态评估结果；本发明应用于智能电表状态评估。

Description

基于多智能体强化学习的智能电表状态评估方法

技术领域

本发明属于电力系统状态评估技术领域，具体涉及一种基于多智能体强化学习的智能电表状态评估方法。

背景技术

近年来随着电网全覆盖建设，智能电能表的数量出现爆炸式增长，但如何保证智能电表状态评估的准确性已成为所有国家电网公司面临的问题。国家电网公司定期会用新智能电表替换已达到一定运行时间的旧智能电表，该方法将会更换一些仍能正常工作的智能电表，造成大量资源浪费。因此，国家电网公司迫切地需要一种能够快速准确评价智能电表运行状态的方法来对电表的检修和轮换计划提供指导，从而实现管理成本上的节约及更低的故障率。

近年来大多数智能电表状态评估的研究多为数据驱动方法，该方法利用多源信息融合技术及人工智能相关算法来整合智能电表运行过程中产生的数据，从而实现对智能电表运行状态评估的智能化。

然而通过数据驱动的方法对智能电表状态评估面临两个问题：①智能电表相关数据往往难以获得，因此如何在现有数据相对不充裕的前提下去尽可能多的挖掘数据内在信息为决策提供更多的依据，是一件具有现实价值的工作；②传统的监督机器学习方法往往是建立在大量数据符合同分布的前提之下，而这个前提使得在使用不同分布数据时会导致分类或预测结果较差，从而使不同地区评估模型泛用性较差，无法直接应用。

基于此，有必要发明一种全新的智能电表状态评估方法，以解决传统智能电表状态评估方法存在的上述问题。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种基于多智能体强化学习的智能电表状态评估方法的改进。

为了解决上述技术问题，本发明采用的技术方案为：基于多智能体强化学习的智能电表状态评估方法，包括如下步骤：

S1：对智能电表的数据进行预处理；

S2：构建多智能体强化学习模型：设置强化学习智能体，设置强化学习的状态、动作、决策，设置强化学习的奖惩函数；

S3：训练多智能体的强化学习模型：初始化决策矩阵，基于ε-贪婪算法选择适当的动作，获得环境对智能体的奖惩反馈，通过奖惩反馈更新智能体状态，判断多个智能体是否都获得最优控制策略；

S4：将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据，将优化数据作为评价指标得到智能电表的状态评估结果。

所述步骤S1中对智能电表的数据进行预处理具体为：

对智能电表的电压、功率、电流谐波数据进行数据离散化和归一化预处理；

先将连续的智能电表数据的取值范围均匀划成n等份，每份的间距相等，再使用线性归一化函数将离散化的数据转换到[0，1]的范围。

所述步骤S2中设置的强化学习智能体包括电压智能体、功率智能体和电流谐波智能体，基于电压智能体、功率智能体和电流谐波智能体构造智能电表的状态变量，设智能电表状态S由有限个状态s组成，则

，其中S表示智能电表的状态，s_t表示智能电表t时刻的状态，

表示自然数集；

t时刻的智能电表状态s_t由电压差、功率差、电流谐波差三个数据决定，具体公式如下：

；

上式中：

表示智能电表t时刻与t-1时刻的电压差，

表示智能电表t时刻与t-1时刻的功率差，

表示智能电表t时刻与t-1时刻的电流谐波差；ζ表示黎曼函数；

对每个智能体固定选取了五种不同的决策动作，具体公式如下：

；

上式中：A表示智能体可选决策动作，v_t、p_t和w_t分别表示t时刻智能电表的电压、功率和电流谐波。

所述步骤S2中强化学习的奖惩函数R是基于智能体及智能体的状态S、决策动作A和决策矩阵Q得到的，奖励惩罚函数的计算公式为：

；

；

；

上式中：s_t+1表示智能电表在状态s_t下所选择操作后的状态；

、

和

分别表示t时刻智能体在状态s_t下所选择操作的奖惩值；

、

和

分别表示智能电表的电压差、功率差和电流谐波差。

所述步骤S3中初始化决策矩阵具体步骤如下：

首先基于步骤S2所设的每个智能体，都要预设一个矩阵Q作为决策，决策矩阵Q包含了智能电表每个状态的每个决策动作的奖惩值，决策矩阵Q的初始值设置为零，随着学习过程的进展将逐渐更新，具体公式如下：

；

上式中：Q₀表示初始化的决策矩阵，s表示智能电表状态，a表示决策动作。

所述步骤S3中基于ε-贪婪算法选择适当的动作的具体步骤如下：

基于步骤S1预处理后的数据，计算出智能电表的当前状态，再基于步骤S2的决策动作A使用ε-贪婪算法在当前状态的可用动作A中选择适当的操作，在当前状态s_t中，智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作，以概率1−ε在状态s_t随机选择一个动作。

所述步骤S3中获得环境对智能体的奖惩反馈的具体步骤如下：

将基于ε-贪婪算法所选动作作用于智能电表环境并立即获得其奖惩反馈，使用奖惩反馈值计算智能电表下一个状态，采用最大化折扣回报，智能体通过从环境中获得的奖惩值去计算折扣回报，用来衡量所选行动对环境的满意度，公式如下：

；

上式中：R_t表示折扣回报，γ表示奖惩衰减因子，r_t+k+1表示 t+k+1时刻智能体在状态s_t+k+1下所选择操作的奖惩值。

所述步骤S3中通过奖惩反馈更新智能体状态，判断多个智能体是否都获得最优控制策略的具体步骤如下：

计算智能电表下一个状态时间，更新决策矩阵Q中的对应元素，具体公式如下：

；

；

上式中：ΔQ表示决策矩阵Q的更新值，α表示衰减因子，取值范围为[0，1]；r_t表示t时刻智能体在状态s_t下所对相应智能体选择操作的奖惩值；γ表示奖惩衰减因子；s_t+1表示为t+1时刻智能电表的状态，a_t+1表示为t+1时刻的决策动作，Q(s_t+1，a_t+1)表示为t+1时刻的决策矩阵Q；s_t表示为t时刻智能电表的状态，a_t表示为t时刻的决策动作，Q(s_t，a_t)表示为t时刻的决策矩阵Q；

将上述操作多次迭代直至全部情节被模拟完全，以此获得最优控制策略，具体公式如下：

；

上式中：

表示在状态s下的最优控制策略，E_π表示期望；γ表示衰减因子，r_t+k+1表示 t+k+1时刻智能体在状态s_t+k+1下所对相应智能体选择操作的奖惩值；s_t表示为t时刻智能电表的状态，a_t表示为t时刻的决策动作。

本发明相对于现有技术具备的有益效果为：本发明公开一种基于多智能体强化学习的智能电表状态评估方法，通过在强化学习共享的环境下应用多个智能体时，使智能体的决策既取决于环境，又取决于其他智能体。使用此多智能体强化学习模型对智能电表相应数据进行优化处理，再以状态优化结果作为评价标准，对智能电表状态进行评价得到状态评估结果。本发明实现了对智能电表运行状态的有效评价以及对各项数据的优化具有重要的指导意义。且相较于传统的多源信息融合技术与监督学习方法，其可以用更少的数据完成智能电表状态评估，泛用性更强。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明方法的流程图；

图2为采用本发明方法与传统方法进行对比实验的的学习曲线对比折线图。

具体实施方式

如图1所示，本实施例提供一种基于多智能体强化学习的智能电表状态评估方法，该方法是采用如下步骤实现的：

步骤S1：选择智能电表电压、功率、电流谐波数据，对其进行数据离散化和归一化预处理。

步骤S2：设置三个智能体进行学习，其分别为电压智能体、功率智能体和电流谐波智能体。

步骤S3：基于步骤S2所设的智能体，定义多智能体强化学习的状态S、决策动作A与决策矩阵Q。

步骤S4：基于步骤S2所设的智能体和步骤S3所设的状态S、决策动作A和决策矩阵Q，设计多智能体强化学习的奖罚函数R。

步骤S5：基于步骤S1所得电压、功率、电流谐波的离散数据和步骤S2、S3、S4所述内容构建多智能体强化学习模型，通过智能体与环境的交互以提取最优控制策略。

步骤S6：基于步骤S1所得智能电表电压、功率、电流谐波数据和步骤S5训练的多智能体强化学习模型，将离散数据输入到多智能体强化学习模型中得到智能电表电压、功率、电流谐波优化数据，将该数据作为评价指标得到智能电表的状态评估结果。

所述步骤S1中，对智能电表电压、功率、电流谐波数据进行离散化和归一化预处理。先将连续的智能电表数据的取值范围均匀划成n等份，每份的间距相等。再使用线性归一化函数将离散化的数据转换到[0,1]的范围，归一化公式如下：

（1）；

公式（1）中，X_max表示所选取智能电表数据的最大值，X_min表示所选取智能电表数据的最小值，X_t表示所选取智能电表数据t时刻的离散值，X_t,norm表示归一化后的所选取智能电表数据t时刻离散值。

离散化的目的是将智能电表连续的电压、功率、电流谐波数据性质离散为有限个状态；归一化则是将上述数据缩放到相同的数据区间，以减少规模、分布差异对模型的影响。

所述步骤S2中，设置三个智能体进行学习，其分别为电压智能体、功率智能体和电流谐波智能体，并通过三智能体强化学习来寻找当前智能电表的最优状态。在强化学习共享的环境下应用多个智能体时，一个智能体的最优策略不仅仅取决于环境，还取决于其他智能体的决策。

所述步骤S3中，基于步骤S2所设的智能体构造智能电表状态变量，设该智能电表状态S由有限个状态s组成，具体公式如下：

（2）；

公式（2）中，S表示智能电表的状态，s_t表示智能电表t时刻状态，

表示自然数集。

（3）；

公式（3）中，s_t表示智能电表t时刻状态，

表示智能电表t时刻与t-1时刻的电压差，

表示智能电表t时刻与t-1时刻的功率差，

表示智能电表t时刻与t-1时刻的电流谐波差；ζ表示黎曼函数。

确定不同状态的准确决策动作是一个相对复杂的问题，其本身没有具体的规律且更多的依赖于试错法，所以为了最大可能减少模型的学习时间以获得最优控制策略，该步骤对每个智能体固定选取了五种不同的决策动作，具体公式如下：

（4）；

公式（4）中，A表示智能体可选决策动作，v_t、p_t和w_t分别表示t时刻智能电表的电压、功率和电流谐波。

所述步骤S4中，基于步骤S2所设的智能体和步骤S3所设的状态S、决策动作A和决策矩阵Q，设计多智能体强化学习的奖罚函数R。奖罚函数R是该方法受控环境依据总体目标评估前一状态下采取决策动作的满意度，以使其在当前状态下执行最佳操作。具体的奖励惩罚函数公式如下：

（5）；

（6）；

（7）；

公式（5）、（6）、（7）中，s_t+1表示智能电表在状态s_t下所选择操作后的状态；

、

和

分别表示t时刻智能体在状态s_t下所选择操作的奖惩值；

、

和

分别表示智能电表的电压差、功率差和电流谐波差。

基于该方法受控环境的反馈，智能体对(s_t，a_t)分配分数并更新决策矩阵Q的相应元素。如果奖惩值为正，在状态s_t执行动作a的概率增加，反之亦然。

所述步骤S5中，基于步骤S1所得电压、功率、电流谐波的离散数据和步骤S2、S3、S4所述内容构建多智能体强化学习模型，通过智能体与环境的交互以提取最优控制策略。如图1中强化学习模型训练阶段所示，模型训练需要初始化决策矩阵Q、基于ε-贪婪算法选择适当的动作、获得环境对智能体的奖惩反馈、使用奖惩反馈更新智能体状态和判断是否获得最优控制策略五个子步骤。

首先基于步骤S2所设的每个智能体，都要预设一个矩阵Q作为决策，该矩阵包含了智能电表每个状态的每个决策动作的奖惩值。智能代理会根据此矩阵的数据在不同状态下做出最适当的操作。该矩阵的初始值设置为零，随着学习过程的进展将逐渐更新，具体公式如下：

（8）；

公式（8）中，Q₀表示初始化的决策矩阵，s表示智能电表状态，a表示决策动作。

之后基于步骤S1的预处理后的数据，计算出智能电表的当前状态。再基于步骤S4的决策动作A使用ε-贪婪算法（ε=0.01）在当前状态的可用动作A中选择适当的操作。在当前状态s_t中，智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作，以概率1−ε在状态s_t随机选择一个动作。ε的具体数值在模型的学习阶段与使用阶段略有不同。学习阶段ε应足够小，以允许智能体尽可能多的学习到新的经验去实现最优控制策略；模拟阶段则应选择较大的值，以便智能体在更新其决策矩阵Q的同时执行现有最优控制策略。

将上述所选动作作用于智能电表环境并立即获得其奖惩反馈，使用奖惩反馈值计算智能电表下一个状态，这一步需要用到最大化折扣回报这个概念，智能体会通过用从环境中获得的奖惩值去计算折扣回报，其用来衡量所选行动对环境的满意度，公式如下：

（9）；

公式（9）中，R_t表示折扣回报，γ表示奖惩衰减因子，r_t+k+1表示 t+k+1时刻智能体在状态s_t+k+1下所选择操作的奖惩值。

计算智能电表下一个状态时间，需要更新决策矩阵Q中的对应元素，具体公式如下：

（10）；

（11）；

公式（10）和（11）中，ΔQ表示决策矩阵Q的更新值，α表示衰减因子，取值范围为[0，1]；r_t表示 t时刻智能体在状态s_t下所对相应智能体（具体为电压智能体、功率智能体和电流谐波智能体）选择操作的奖惩值；γ表示奖惩衰减因子；s_t+1表示为t+1时刻智能电表的状态，a_t+1表示为t+1时刻的决策动作，Q(s_t+1，a_t+1)表示为t+1时刻的决策矩阵Q；s_t表示为t时刻智能电表的状态，a_t表示为t时刻的决策动作，Q(s_t，a_t)表示为t时刻的决策矩阵Q。

（12）；

公式（12）中，

表示在状态s下的最优控制策略，E_π表示期望；γ表示衰减因子，r_t+k+1表示 t+k+1时刻智能体在状态s_t+k+1下所对相应智能体（具体为电压智能体、功率智能体和电流谐波智能体）选择操作的奖惩值；s_t表示为t时刻智能电表的状态，a_t表示为t时刻的决策动作。

所述步骤S6中，利用基于步骤S1所得智能电表电压、功率、电流谐波数据和步骤S5训练的多智能体强化学习模型，将离散数据输入到多智能体强化学习模型中得到智能电表电压、功率、电流谐波优化数据。通过将该数据与原输入数据的比对，判断当前智能电表的状态。根据上述电压和功率的对比结果，判断智能电表状态是否处于异常状态，以确定其计量装置是否为异常。根据上述电压和电流谐波的对比结果，判断智能电表是否会发生电流谐波异常等状况。

通过多智能体强化学习方法，实现了智能电表的状态评估，获得智能电表状态评估的同时，也获取到智能电表电压、功率和电流谐波的优化数据；如图2所示，本发明与传统强化学习方法做了对比实验，可以看出本发明学习速度高于传统强化学习方法，奖励回报更高；且相较于传统信息融合方法，强化学习数据所需量更低。本发明克服了现有的智能电表状态评估方法的不足之处，适用于智能电表状态的评估。

关于本发明具体结构需要说明的是，本发明采用的各部件模块相互之间的连接关系是确定的、可实现的，除实施例中特殊说明的以外，其特定的连接关系可以带来相应的技术效果，并基于不依赖相应软件程序执行的前提下，解决本发明提出的技术问题，本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及，由上述技术特征带来的常规使用方法、可预期技术效果，除具体说明的以外，均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容，或属于本领域常规技术、公知常识等现有技术，无需赘述，使得本案提供的技术方案是清楚、完整、可实现的，并能根据该技术手段重现或获得相应的实体产品。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于多智能体强化学习的智能电表状态评估方法，其特征在于：包括如下步骤：

S1：对智能电表的数据进行预处理；

S4：将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据，将优化数据作为评价指标得到智能电表的状态评估结果；

表示自然数集；

；

上式中：

表示智能电表t时刻与t-1时刻的电压差，

表示智能电表t时刻与t-1时刻的功率差，

；

上式中：A表示智能体可选决策动作，v_t、p_t和w_t分别表示t时刻智能电表的电压、功率和电流谐波；

；

；

；

、

和

分别表示t时刻智能体在状态s_t下所选择操作的奖惩值；

、

和

分别表示智能电表的电压差、功率差和电流谐波差；

所述步骤S3中初始化决策矩阵具体步骤如下：

；

上式中：Q₀表示初始化的决策矩阵，s表示智能电表状态，a表示决策动作；

基于步骤S1预处理后的数据，计算出智能电表的当前状态，再基于步骤S2的决策动作A使用ε-贪婪算法在当前状态的可用动作A中选择适当的操作，在当前状态s_t中，智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作，以概率1−ε在状态s_t随机选择一个动作；

；

上式中：R_t表示折扣回报，γ表示奖惩衰减因子，r_t+k+1表示 t+k+1时刻智能体在状态s_t+k+1下所选择操作的奖惩值；

；

；

上式中：ΔQ表示决策矩阵Q的更新值，α表示衰减因子，取值范围为[0，1]；r_t表示 t时刻智能体在状态s_t下所对相应智能体选择操作的奖惩值；γ表示奖惩衰减因子；s_t+1表示为t+1时刻智能电表的状态，a_t+1表示为t+1时刻的决策动作，Q(s_t+1，a_t+1)表示为t+1时刻的决策矩阵Q；s_t表示为t时刻智能电表的状态，a_t表示为t时刻的决策动作，Q(s_t，a_t)表示为t时刻的决策矩阵Q；

；

上式中：

表示在状态s下的最优控制策略，E_π表示期望；γ表示奖惩衰减因子，r_t+k+1表示 t+k+1时刻智能体在状态s_t+k+1下所对相应智能体选择操作的奖惩值；s_t表示为t时刻智能电表的状态，a_t表示为t时刻的决策动作。

2.根据权利要求1所述的基于多智能体强化学习的智能电表状态评估方法，其特征在于：所述步骤S1中对智能电表的数据进行预处理具体为：