发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种基于多智能体强化学习的智能电表状态评估方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:基于多智能体强化学习的智能电表状态评估方法,包括如下步骤:
S1:对智能电表的数据进行预处理;
S2:构建多智能体强化学习模型:设置强化学习智能体,设置强化学习的状态、动作、决策,设置强化学习的奖惩函数;
S3:训练多智能体的强化学习模型:初始化决策矩阵,基于ε-贪婪算法选择适当的动作,获得环境对智能体的奖惩反馈,通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略;
S4:将预处理后的数据输入到多智能体强化学习模型中得到智能电表的优化数据,将优化数据作为评价指标得到智能电表的状态评估结果。
所述步骤S1中对智能电表的数据进行预处理具体为:
对智能电表的电压、功率、电流谐波数据进行数据离散化和归一化预处理;
先将连续的智能电表数据的取值范围均匀划成n等份,每份的间距相等,再使用线性归一化函数将离散化的数据转换到[0,1]的范围。
所述步骤S2中设置的强化学习智能体包括电压智能体、功率智能体和电流谐波智能体,基于电压智能体、功率智能体和电流谐波智能体构造智能电表的状态变量,设智能电表状态S由有限个状态s组成,则
,其中S表示智能电表的状态,s
t表示智能电表t时刻的状态,
表示自然数集;
t时刻的智能电表状态st由电压差、功率差、电流谐波差三个数据决定,具体公式如下:
上式中:
表示智能电表t时刻与t-1时刻的电压差,
表示智能电表t时刻与t-1时刻的功率差,
表示智能电表t时刻与t-1时刻的电流谐波差;ζ表示黎曼函数;
对每个智能体固定选取了五种不同的决策动作,具体公式如下:
上式中:A表示智能体可选决策动作,vt、pt和wt分别表示t时刻智能电表的电压、功率和电流谐波。
所述步骤S2中强化学习的奖惩函数R是基于智能体及智能体的状态S、决策动作A和决策矩阵Q得到的,奖励惩罚函数的计算公式为:
上式中:s
t+1表示智能电表在状态s
t下所选择操作后的状态;
、
和
分别表示t时刻智能体在状态s
t下所选择操作的奖惩值;
、
和
分别表示智能电表的电压差、功率差和电流谐波差。
所述步骤S3中初始化决策矩阵具体步骤如下:
首先基于步骤S2所设的每个智能体,都要预设一个矩阵Q作为决策,决策矩阵Q包含了智能电表每个状态的每个决策动作的奖惩值,决策矩阵Q的初始值设置为零,随着学习过程的进展将逐渐更新,具体公式如下:
上式中:Q0表示初始化的决策矩阵,s表示智能电表状态,a表示决策动作。
所述步骤S3中基于ε-贪婪算法选择适当的动作的具体步骤如下:
基于步骤S1预处理后的数据,计算出智能电表的当前状态,再基于步骤S2的决策动作A使用ε-贪婪算法在当前状态的可用动作A中选择适当的操作,在当前状态st中,智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作,以概率1−ε在状态st随机选择一个动作。
所述步骤S3中获得环境对智能体的奖惩反馈的具体步骤如下:
将基于ε-贪婪算法所选动作作用于智能电表环境并立即获得其奖惩反馈,使用奖惩反馈值计算智能电表下一个状态,采用最大化折扣回报,智能体通过从环境中获得的奖惩值去计算折扣回报,用来衡量所选行动对环境的满意度,公式如下:
上式中:Rt表示折扣回报,γ表示奖惩衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所选择操作的奖惩值。
所述步骤S3中通过奖惩反馈更新智能体状态,判断多个智能体是否都获得最优控制策略的具体步骤如下:
计算智能电表下一个状态时间,更新决策矩阵Q中的对应元素,具体公式如下:
上式中:ΔQ表示决策矩阵Q的更新值,α表示衰减因子,取值范围为[0,1];rt表示t时刻智能体在状态st下所对相应智能体选择操作的奖惩值;γ表示奖惩衰减因子;st+1表示为t+1时刻智能电表的状态,at+1表示为t+1时刻的决策动作,Q(st+1,at+1)表示为t+1时刻的决策矩阵Q;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作,Q(st,at)表示为t时刻的决策矩阵Q;
将上述操作多次迭代直至全部情节被模拟完全,以此获得最优控制策略,具体公式如下:
上式中:
表示在状态s下的最优控制策略,E
π表示期望;γ表示衰减因子,r
t+k+1表示 t+k+1时刻智能体在状态s
t+k+1下所对相应智能体选择操作的奖惩值;s
t表示为t时刻智能电表的状态,a
t表示为t时刻的决策动作。
本发明相对于现有技术具备的有益效果为:本发明公开一种基于多智能体强化学习的智能电表状态评估方法,通过在强化学习共享的环境下应用多个智能体时,使智能体的决策既取决于环境,又取决于其他智能体。使用此多智能体强化学习模型对智能电表相应数据进行优化处理,再以状态优化结果作为评价标准,对智能电表状态进行评价得到状态评估结果。本发明实现了对智能电表运行状态的有效评价以及对各项数据的优化具有重要的指导意义。且相较于传统的多源信息融合技术与监督学习方法,其可以用更少的数据完成智能电表状态评估,泛用性更强。
具体实施方式
如图1所示,本实施例提供一种基于多智能体强化学习的智能电表状态评估方法,该方法是采用如下步骤实现的:
步骤S1:选择智能电表电压、功率、电流谐波数据,对其进行数据离散化和归一化预处理。
步骤S2:设置三个智能体进行学习,其分别为电压智能体、功率智能体和电流谐波智能体。
步骤S3:基于步骤S2所设的智能体,定义多智能体强化学习的状态S、决策动作A与决策矩阵Q。
步骤S4:基于步骤S2所设的智能体和步骤S3所设的状态S、决策动作A和决策矩阵Q,设计多智能体强化学习的奖罚函数R。
步骤S5:基于步骤S1所得电压、功率、电流谐波的离散数据和步骤S2、S3、S4所述内容构建多智能体强化学习模型,通过智能体与环境的交互以提取最优控制策略。
步骤S6:基于步骤S1所得智能电表电压、功率、电流谐波数据和步骤S5训练的多智能体强化学习模型,将离散数据输入到多智能体强化学习模型中得到智能电表电压、功率、电流谐波优化数据,将该数据作为评价指标得到智能电表的状态评估结果。
所述步骤S1中,对智能电表电压、功率、电流谐波数据进行离散化和归一化预处理。先将连续的智能电表数据的取值范围均匀划成n等份,每份的间距相等。再使用线性归一化函数将离散化的数据转换到[0,1]的范围,归一化公式如下:
公式(1)中,Xmax表示所选取智能电表数据的最大值,Xmin表示所选取智能电表数据的最小值,Xt表示所选取智能电表数据t时刻的离散值,Xt,norm表示归一化后的所选取智能电表数据t时刻离散值。
离散化的目的是将智能电表连续的电压、功率、电流谐波数据性质离散为有限个状态;归一化则是将上述数据缩放到相同的数据区间,以减少规模、分布差异对模型的影响。
所述步骤S2中,设置三个智能体进行学习,其分别为电压智能体、功率智能体和电流谐波智能体,并通过三智能体强化学习来寻找当前智能电表的最优状态。在强化学习共享的环境下应用多个智能体时,一个智能体的最优策略不仅仅取决于环境,还取决于其他智能体的决策。
所述步骤S3中,基于步骤S2所设的智能体构造智能电表状态变量,设该智能电表状态S由有限个状态s组成,具体公式如下:
公式(2)中,S表示智能电表的状态,s
t表示智能电表t时刻状态,
表示自然数集。
t时刻的智能电表状态st由电压差、功率差、电流谐波差三个数据决定,具体公式如下:
公式(3)中,s
t表示智能电表t时刻状态,
表示智能电表t时刻与t-1时刻的电压差,
表示智能电表t时刻与t-1时刻的功率差,
表示智能电表t时刻与t-1时刻的电流谐波差;ζ表示黎曼函数。
确定不同状态的准确决策动作是一个相对复杂的问题,其本身没有具体的规律且更多的依赖于试错法,所以为了最大可能减少模型的学习时间以获得最优控制策略,该步骤对每个智能体固定选取了五种不同的决策动作,具体公式如下:
公式(4)中,A表示智能体可选决策动作,vt、pt和wt分别表示t时刻智能电表的电压、功率和电流谐波。
所述步骤S4中,基于步骤S2所设的智能体和步骤S3所设的状态S、决策动作A和决策矩阵Q,设计多智能体强化学习的奖罚函数R。奖罚函数R是该方法受控环境依据总体目标评估前一状态下采取决策动作的满意度,以使其在当前状态下执行最佳操作。具体的奖励惩罚函数公式如下:
公式(5)、(6)、(7)中,s
t+1表示智能电表在状态s
t下所选择操作后的状态;
、
和
分别表示t时刻智能体在状态s
t下所选择操作的奖惩值;
、
和
分别表示智能电表的电压差、功率差和电流谐波差。
基于该方法受控环境的反馈,智能体对(st,at)分配分数并更新决策矩阵Q的相应元素。如果奖惩值为正,在状态st执行动作a的概率增加,反之亦然。
所述步骤S5中,基于步骤S1所得电压、功率、电流谐波的离散数据和步骤S2、S3、S4所述内容构建多智能体强化学习模型,通过智能体与环境的交互以提取最优控制策略。如图1中强化学习模型训练阶段所示,模型训练需要初始化决策矩阵Q、基于ε-贪婪算法选择适当的动作、获得环境对智能体的奖惩反馈、使用奖惩反馈更新智能体状态和判断是否获得最优控制策略五个子步骤。
首先基于步骤S2所设的每个智能体,都要预设一个矩阵Q作为决策,该矩阵包含了智能电表每个状态的每个决策动作的奖惩值。智能代理会根据此矩阵的数据在不同状态下做出最适当的操作。该矩阵的初始值设置为零,随着学习过程的进展将逐渐更新,具体公式如下:
公式(8)中,Q0表示初始化的决策矩阵,s表示智能电表状态,a表示决策动作。
之后基于步骤S1的预处理后的数据,计算出智能电表的当前状态。再基于步骤S4的决策动作A使用ε-贪婪算法(ε=0.01)在当前状态的可用动作A中选择适当的操作。在当前状态st中,智能体根据决策矩阵Q以概率ε在所有可用决策动作中选择最高值动作,以概率1−ε在状态st随机选择一个动作。ε的具体数值在模型的学习阶段与使用阶段略有不同。学习阶段ε应足够小,以允许智能体尽可能多的学习到新的经验去实现最优控制策略;模拟阶段则应选择较大的值,以便智能体在更新其决策矩阵Q的同时执行现有最优控制策略。
将上述所选动作作用于智能电表环境并立即获得其奖惩反馈,使用奖惩反馈值计算智能电表下一个状态,这一步需要用到最大化折扣回报这个概念,智能体会通过用从环境中获得的奖惩值去计算折扣回报,其用来衡量所选行动对环境的满意度,公式如下:
公式(9)中,Rt表示折扣回报,γ表示奖惩衰减因子,rt+k+1表示 t+k+1时刻智能体在状态st+k+1下所选择操作的奖惩值。
计算智能电表下一个状态时间,需要更新决策矩阵Q中的对应元素,具体公式如下:
公式(10)和(11)中,ΔQ表示决策矩阵Q的更新值,α表示衰减因子,取值范围为[0,1];rt表示 t时刻智能体在状态st下所对相应智能体(具体为电压智能体、功率智能体和电流谐波智能体)选择操作的奖惩值;γ表示奖惩衰减因子;st+1表示为t+1时刻智能电表的状态,at+1表示为t+1时刻的决策动作,Q(st+1,at+1)表示为t+1时刻的决策矩阵Q;st表示为t时刻智能电表的状态,at表示为t时刻的决策动作,Q(st,at)表示为t时刻的决策矩阵Q。
将上述操作多次迭代直至全部情节被模拟完全,以此获得最优控制策略,具体公式如下:
公式(12)中,
表示在状态s下的最优控制策略,E
π表示期望;γ表示衰减因子,r
t+k+1表示 t+k+1时刻智能体在状态s
t+k+1下所对相应智能体(具体为电压智能体、功率智能体和电流谐波智能体)选择操作的奖惩值;s
t表示为t时刻智能电表的状态,a
t表示为t时刻的决策动作。
所述步骤S6中,利用基于步骤S1所得智能电表电压、功率、电流谐波数据和步骤S5训练的多智能体强化学习模型,将离散数据输入到多智能体强化学习模型中得到智能电表电压、功率、电流谐波优化数据。通过将该数据与原输入数据的比对,判断当前智能电表的状态。根据上述电压和功率的对比结果,判断智能电表状态是否处于异常状态,以确定其计量装置是否为异常。根据上述电压和电流谐波的对比结果,判断智能电表是否会发生电流谐波异常等状况。
通过多智能体强化学习方法,实现了智能电表的状态评估,获得智能电表状态评估的同时,也获取到智能电表电压、功率和电流谐波的优化数据;如图2所示,本发明与传统强化学习方法做了对比实验,可以看出本发明学习速度高于传统强化学习方法,奖励回报更高;且相较于传统信息融合方法,强化学习数据所需量更低。本发明克服了现有的智能电表状态评估方法的不足之处,适用于智能电表状态的评估。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及,由上述技术特征带来的常规使用方法、可预期技术效果,除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容,或属于本领域常规技术、公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。