CN110363399A

CN110363399A - 一种混合深度对抗网络滚动强化学习博弈策略

Info

Publication number: CN110363399A
Application number: CN201910554358.1A
Authority: CN
Inventors: 殷林飞; 张斌; 罗仕逵; 高放; 谢佳兴; 吴云智
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-22

Abstract

本发明提供一种混合深度对抗网络滚动强化学习博弈策略，该策略能解决目前能源分布和市场供求失衡问题，最大限度地实现供需均衡。本发明提出的混合深度对抗网络滚动强化学习算法框架，以基于深度对抗网络算法的智能体与多个基于强化学习算法的智能体进行博弈，并在多区域互联的能源系统中进行测试。本发明提出一种混合深度对抗网络滚动强化学习算法来探索一种长期的价格动态引导策略，动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化。

Description

一种混合深度对抗网络滚动强化学习博弈策略

技术领域

本发明属于电力市场调度与优化领域，涉及一种多智能体系统的博弈算法，适用于电力市场调度与优化。

背景技术

随着能源的枯竭和环境的恶化，人类逐渐转变能源的利用方式。美国著名学者杰里米·里夫金在其著作《第三次工业革命》中第一次提出能源互联网。能源互联网以电力网络为核心，联合石油网络、天然气网络等能源节点，从而大规模利用和共享各种资源。但是，在实际的资源分配中，人们过于注重整体利益，从而极易出现效益分配不合理甚至导致区域利益牺牲，进而影响整个区域。

为解决区域能源分配不合理的问题，从而实现区域经济利益最大化，需采取合作博弈的方法。在多区域互联的系统中，能源产消者与能源服务商进行博弈，从而协调各决策主体平衡和优化各方利益。但是，实际区域往往注重于个体经济利益，无法找到纳什均衡解。

近年来，随着科技的进步，人工智能得到快速的发展，而生成对抗网络无疑是当前人工智能界最为重要的技术之一。因为生成对抗网络具有出色的生成能力，所以在各类图像和自然语言领域具有较大的优势。生成对抗网络由生成器与判别器构成，通过无监督学习的训练方式，生成器与判别器两者相互对抗共同提高。生成对抗网络训练的目的是为找到一个纳什均衡解，从而实现各方利益最大化。

深度学习算法与强化学习算法、蒙特卡罗树搜索算法结合的算法在围棋方面的应用受到了诸多学者的关注。深度学习能学习数据的输入和输出关系，并且速度较快，多智能体之间的博弈可通过机器学习算法解决，因此深度学习能被应用于电力系统的电力市场问题中。强化学习算法是一种无需模型的算法，且在外部的扰动下，能获得较高的控制性能指标，能适应于未知环境的控制。强化学习算法与博弈思想相结合，可使得各区域的智能体多能互补，实现区域的利益最大化。

为满足各个区域的控制策略最优，同时满足各区域的控制性能、经济性和环保等多方面最优，本发明引入了生成对抗网络思想，通过博弈的思想使得区域能源多能互补。但是，针对电力系统的多区域多能源博弈问题，传统的基于生成对抗网络的方法，难以找到纳什均衡点，或者生成的样本与真实数据相差甚大。为此，本发明提出一种混合深度对抗网络滚动强化学习博弈算法，以基于深度对抗网络算法的智能体与多个基于强化学习的智能体进行博弈，来探索一种长期的价格动态引导策略，动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化。

发明内容

本发明提出一种混合深度对抗网络滚动强化学习博弈策略。该策略是针对多智能系统的博弈方法，以基于深度对抗网络算法的智能体与多个基于强化学习算法的智能体进行博弈。

能够感知环境的自治智能体，可通过强化学习来选择其目标的最优动作。在预训练过程中，每个能源产消者都采用了各自的强化学习算法去训练属于自身的被动引导策略。其中，强化学习算法中强化矩阵Q和概率矩阵P的更新方式可如下表示：

式中，s表示能源产消者在系统环境所处的当前时刻，s′表示能源产消者在系统环境所处的下一时刻状态，α和β分别表示强化学习的学习率和概率分布因子，1/|A|表示概率矩阵P(s,a)中每个元素的初始值，在概率矩阵范围是P(s,a)∈[0,1]内，|A|为动作集A中动作的数量，γ为强化学习算法的折扣因子，R(s,s′,a)为在状态s的情况下给出动作a后转移到状态s′的立即奖励值。

强化学习算法是一种无需模型的算法，且在外部的扰动下，能获得较高的控制性能。强化学习算法与博弈思想相结合，可使得各区域的智能体多能互补，以实现各方利益最大化。

然而，当多个区域同时参与博弈时，某个区域会因为能源产消者的状态切换导致区域的能源分配不平衡。为使全社会福利最大化，提高能源利用效率，避免能源浪费。本发明提出深度对抗网络博弈算法。深度对抗网络博弈算法由生成器G和判别器D组成。

判别器D的参数可采用随机梯度下降方式更新：

式中，m为取出小批次样本Z⁽ⁱ⁾的个数，即是x⁽ⁱ⁾真实数据样本的数目。

生成器G的参数更新方式为：

深度对抗网络算法通过模拟其他区域能源产消者的策略，从而做出自身的策略动作。深度对抗网络算法的步骤：首先采集本区域多个历史状态、多个历史动作、多个历史奖励值和当前的动作值，然后输出未来的状态。最后生成器产生大量的数据，判断预测未来的状态，再判断整体动作的性能。

附图说明

图1是本发明策略的混合深度对抗网络滚动强化学习算法框架图。

图2是本发明策略的基于深度对抗网络算法的智能体与基于强化学习算法的智能体的博弈过程示意图。

图3是本发明策略的深度对抗网络博弈算法内部结构图。

具体实施方式

本发明提出的一种混合深度对抗网络滚动强化学习博弈策略，结合附图详细说明如下：

图1是本发明策略的混合深度对抗网络滚动强化学习算法框架图。能源互联网联合各种可再生能源，以电力网络为核心，通过互联网技术结合石油、交通和天然气等多种复杂网络系统，彼此相互融合。在多区域的能源系统中，能源产消者与能源服务商是独立的利益主体。每个能源产消者都采用了各自的强化学习算法去训练属于自身的被动引导策略，通过不断迭代更新强化Q值矩阵，且由于折扣因子和学习率的影响而积累了历史的Q值，从而对系统进行预测，获得更加准确的动作值，能源产消者再将动作值传给能源互联网中的任一智能体，从而实现多能互补。

图2是本发明策略的基于深度对抗网络算法的智能体与基于强化学习算法的智能体的博弈过程示意图。在多区域互联的能源系统中进行博弈测试时，每种类型的能源产消者都需要单独测试，整个系统的博弈过程可被描述为：设定某系统存在五种类型的能源产消者，每种类型的产消者个数设为1，从而在该系统中有5个能源产消者和1个灵活能源服务商；在博弈初期，该灵活能源服务商并不能以最优价格策略来引导多个能源产消者；该能源服务商需要通过仿真进行预训练；在预训练过程中，5个能源产消者则需要6个步骤来完成预训练；在前5个步骤中，灵活能源服务商依次对每个能源产消者的价格进行引导测试，未被测试的能源产消者采用固定的能源产消计划进行，最后将5个能源产消者同时采用价格引导测试；重复多次预训练，每次预训练时灵活能源服务商在上一次训练过的结果上继续训练；最终训练到相邻两次的能源产消者中的强化学习概率矩阵更新误差小于某个很小的正数为止。

图3是本发明策略的深度对抗网络博弈算法内部结构图。生成对抗网络由生成器G和判别器D两个模型构成，生成样本由随机噪声Z通过生成器生成，通过判别器D来判断输入样本是否为真实数据。在图3中，点线为真实数据分布，实线曲线为生成样本，对于模型的预测，Z到x表示通过生成器之后的分布的映射情况。博弈的思想是，生成样本逐渐逼近真实数据，以生成以假乱真的样本，从而模拟出真实的数据分布。在图3(a)中可看出，生成样本与真实数据的区别较大，判别器判别样本的概率不稳定，因此需先训练判别器以更好地分辨样本。判别器经多次训练可达到图3(b)的样本状态，此时，判别样本已区分得非常显著，继续对生成器进行训练。经过多次训练判别器，生成样本的状态如图3(c)所示，此时，生成样本已逐渐逼近真实数据。经多次反复训练迭代之后，出现以假乱真的现象，生成样本分布拟合于真实样本分布，达到图3(d)状态，达到训练的目的。

Claims

1.一种混合深度对抗网络滚动强化学习博弈策略，其特征在于，单个灵活能源服务商以能源全社会福利最大化为长期价格引导策略的目标，动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化；该策略在使用过程的主要步骤为：

(1)将单个灵活能源服务商与多个能源产消者互联；

(2)建立混合对抗网络滚动强化学习算法框架，单个灵活能源服务商(智能体)采用基于深度对抗网络算法作为博弈算法；

(3)对于每一个能源产消者(其他智能体)，采用强化学习算法作为博弈算法；

(4)基于深度对抗网络算法的智能体与基于强化学习算法的智能体进行博弈；

(5)在多区域互联的能源系统中进行测试，得到以全社会福利最大化为目标的动态价格引导策略。

2.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略，其特征在于，所述步骤(2)中深度对抗网络算法可获得较多的数据，使得对系统未来状态的预测能力增强，并通过博弈形式以提高学习效率。

3.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略，其特征在于，所述步骤(3)中强化学习算法作为一种无需模型的算法，且在外部的扰动下，能获得较高的控制性能，通过不断迭代更新Q值矩阵，可对系统进行预测，选择更为准确的动作值，实现多能互补。

4.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略，其特征在于，所述步骤(4)中多个能源产消者与单个灵活服务商博弈的情况下，构建了最优产销决策模型，得到最优策略，实现了能源产消者和能源服务商的利益最大化，提高能源利用效率，避免社会能源浪费。

5.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略，其特征在于，所述步骤(5)中一种长期的价格动态引导策略，能动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化。