CN110363399A - 一种混合深度对抗网络滚动强化学习博弈策略 - Google Patents
一种混合深度对抗网络滚动强化学习博弈策略 Download PDFInfo
- Publication number
- CN110363399A CN110363399A CN201910554358.1A CN201910554358A CN110363399A CN 110363399 A CN110363399 A CN 110363399A CN 201910554358 A CN201910554358 A CN 201910554358A CN 110363399 A CN110363399 A CN 110363399A
- Authority
- CN
- China
- Prior art keywords
- energy
- confrontation network
- supply
- depth confrontation
- game
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005096 rolling process Methods 0.000 title abstract description 3
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims abstract description 4
- 238000001816 cooling Methods 0.000 claims abstract description 4
- 239000007789 gas Substances 0.000 claims abstract description 4
- 238000010438 heat treatment Methods 0.000 claims abstract description 4
- 239000001257 hydrogen Substances 0.000 claims abstract description 4
- 229910052739 hydrogen Inorganic materials 0.000 claims abstract description 4
- 230000007774 longterm Effects 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 5
- 230000005611 electricity Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 239000002699 waste material Substances 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 abstract description 8
- 238000012549 training Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 208000001613 Gambling Diseases 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000003345 natural gas Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种混合深度对抗网络滚动强化学习博弈策略,该策略能解决目前能源分布和市场供求失衡问题,最大限度地实现供需均衡。本发明提出的混合深度对抗网络滚动强化学习算法框架,以基于深度对抗网络算法的智能体与多个基于强化学习算法的智能体进行博弈,并在多区域互联的能源系统中进行测试。本发明提出一种混合深度对抗网络滚动强化学习算法来探索一种长期的价格动态引导策略,动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化。
Description
技术领域
本发明属于电力市场调度与优化领域,涉及一种多智能体系统的博弈算法,适用于电力市场调度与优化。
背景技术
随着能源的枯竭和环境的恶化,人类逐渐转变能源的利用方式。美国著名学者杰里米·里夫金在其著作《第三次工业革命》中第一次提出能源互联网。能源互联网以电力网络为核心,联合石油网络、天然气网络等能源节点,从而大规模利用和共享各种资源。但是,在实际的资源分配中,人们过于注重整体利益,从而极易出现效益分配不合理甚至导致区域利益牺牲,进而影响整个区域。
为解决区域能源分配不合理的问题,从而实现区域经济利益最大化,需采取合作博弈的方法。在多区域互联的系统中,能源产消者与能源服务商进行博弈,从而协调各决策主体平衡和优化各方利益。但是,实际区域往往注重于个体经济利益,无法找到纳什均衡解。
近年来,随着科技的进步,人工智能得到快速的发展,而生成对抗网络无疑是当前人工智能界最为重要的技术之一。因为生成对抗网络具有出色的生成能力,所以在各类图像和自然语言领域具有较大的优势。生成对抗网络由生成器与判别器构成,通过无监督学习的训练方式,生成器与判别器两者相互对抗共同提高。生成对抗网络训练的目的是为找到一个纳什均衡解,从而实现各方利益最大化。
深度学习算法与强化学习算法、蒙特卡罗树搜索算法结合的算法在围棋方面的应用受到了诸多学者的关注。深度学习能学习数据的输入和输出关系,并且速度较快,多智能体之间的博弈可通过机器学习算法解决,因此深度学习能被应用于电力系统的电力市场问题中。强化学习算法是一种无需模型的算法,且在外部的扰动下,能获得较高的控制性能指标,能适应于未知环境的控制。强化学习算法与博弈思想相结合,可使得各区域的智能体多能互补,实现区域的利益最大化。
为满足各个区域的控制策略最优,同时满足各区域的控制性能、经济性和环保等多方面最优,本发明引入了生成对抗网络思想,通过博弈的思想使得区域能源多能互补。但是,针对电力系统的多区域多能源博弈问题,传统的基于生成对抗网络的方法,难以找到纳什均衡点,或者生成的样本与真实数据相差甚大。为此,本发明提出一种混合深度对抗网络滚动强化学习博弈算法,以基于深度对抗网络算法的智能体与多个基于强化学习的智能体进行博弈,来探索一种长期的价格动态引导策略,动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化。
发明内容
本发明提出一种混合深度对抗网络滚动强化学习博弈策略。该策略是针对多智能系统的博弈方法,以基于深度对抗网络算法的智能体与多个基于强化学习算法的智能体进行博弈。
能够感知环境的自治智能体,可通过强化学习来选择其目标的最优动作。在预训练过程中,每个能源产消者都采用了各自的强化学习算法去训练属于自身的被动引导策略。其中,强化学习算法中强化矩阵Q和概率矩阵P的更新方式可如下表示:
式中,s表示能源产消者在系统环境所处的当前时刻,s′表示能源产消者在系统环境所处的下一时刻状态,α和β分别表示强化学习的学习率和概率分布因子,1/|A|表示概率矩阵P(s,a)中每个元素的初始值,在概率矩阵范围是P(s,a)∈[0,1]内,|A|为动作集A中动作的数量,γ为强化学习算法的折扣因子,R(s,s′,a)为在状态s的情况下给出动作a后转移到状态s′的立即奖励值。
强化学习算法是一种无需模型的算法,且在外部的扰动下,能获得较高的控制性能。强化学习算法与博弈思想相结合,可使得各区域的智能体多能互补,以实现各方利益最大化。
然而,当多个区域同时参与博弈时,某个区域会因为能源产消者的状态切换导致区域的能源分配不平衡。为使全社会福利最大化,提高能源利用效率,避免能源浪费。本发明提出深度对抗网络博弈算法。深度对抗网络博弈算法由生成器G和判别器D组成。
判别器D的参数可采用随机梯度下降方式更新:
式中,m为取出小批次样本Z(i)的个数,即是x(i)真实数据样本的数目。
生成器G的参数更新方式为:
深度对抗网络算法通过模拟其他区域能源产消者的策略,从而做出自身的策略动作。深度对抗网络算法的步骤:首先采集本区域多个历史状态、多个历史动作、多个历史奖励值和当前的动作值,然后输出未来的状态。最后生成器产生大量的数据,判断预测未来的状态,再判断整体动作的性能。
附图说明
图1是本发明策略的混合深度对抗网络滚动强化学习算法框架图。
图2是本发明策略的基于深度对抗网络算法的智能体与基于强化学习算法的智能体的博弈过程示意图。
图3是本发明策略的深度对抗网络博弈算法内部结构图。
具体实施方式
本发明提出的一种混合深度对抗网络滚动强化学习博弈策略,结合附图详细说明如下:
图1是本发明策略的混合深度对抗网络滚动强化学习算法框架图。能源互联网联合各种可再生能源,以电力网络为核心,通过互联网技术结合石油、交通和天然气等多种复杂网络系统,彼此相互融合。在多区域的能源系统中,能源产消者与能源服务商是独立的利益主体。每个能源产消者都采用了各自的强化学习算法去训练属于自身的被动引导策略,通过不断迭代更新强化Q值矩阵,且由于折扣因子和学习率的影响而积累了历史的Q值,从而对系统进行预测,获得更加准确的动作值,能源产消者再将动作值传给能源互联网中的任一智能体,从而实现多能互补。
图2是本发明策略的基于深度对抗网络算法的智能体与基于强化学习算法的智能体的博弈过程示意图。在多区域互联的能源系统中进行博弈测试时,每种类型的能源产消者都需要单独测试,整个系统的博弈过程可被描述为:设定某系统存在五种类型的能源产消者,每种类型的产消者个数设为1,从而在该系统中有5个能源产消者和1个灵活能源服务商;在博弈初期,该灵活能源服务商并不能以最优价格策略来引导多个能源产消者;该能源服务商需要通过仿真进行预训练;在预训练过程中,5个能源产消者则需要6个步骤来完成预训练;在前5个步骤中,灵活能源服务商依次对每个能源产消者的价格进行引导测试,未被测试的能源产消者采用固定的能源产消计划进行,最后将5个能源产消者同时采用价格引导测试;重复多次预训练,每次预训练时灵活能源服务商在上一次训练过的结果上继续训练;最终训练到相邻两次的能源产消者中的强化学习概率矩阵更新误差小于某个很小的正数为止。
图3是本发明策略的深度对抗网络博弈算法内部结构图。生成对抗网络由生成器G和判别器D两个模型构成,生成样本由随机噪声Z通过生成器生成,通过判别器D来判断输入样本是否为真实数据。在图3中,点线为真实数据分布,实线曲线为生成样本,对于模型的预测,Z到x表示通过生成器之后的分布的映射情况。博弈的思想是,生成样本逐渐逼近真实数据,以生成以假乱真的样本,从而模拟出真实的数据分布。在图3(a)中可看出,生成样本与真实数据的区别较大,判别器判别样本的概率不稳定,因此需先训练判别器以更好地分辨样本。判别器经多次训练可达到图3(b)的样本状态,此时,判别样本已区分得非常显著,继续对生成器进行训练。经过多次训练判别器,生成样本的状态如图3(c)所示,此时,生成样本已逐渐逼近真实数据。经多次反复训练迭代之后,出现以假乱真的现象,生成样本分布拟合于真实样本分布,达到图3(d)状态,达到训练的目的。
Claims (5)
1.一种混合深度对抗网络滚动强化学习博弈策略,其特征在于,单个灵活能源服务商以能源全社会福利最大化为长期价格引导策略的目标,动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化;该策略在使用过程的主要步骤为:
(1)将单个灵活能源服务商与多个能源产消者互联;
(2)建立混合对抗网络滚动强化学习算法框架,单个灵活能源服务商(智能体)采用基于深度对抗网络算法作为博弈算法;
(3)对于每一个能源产消者(其他智能体),采用强化学习算法作为博弈算法;
(4)基于深度对抗网络算法的智能体与基于强化学习算法的智能体进行博弈;
(5)在多区域互联的能源系统中进行测试,得到以全社会福利最大化为目标的动态价格引导策略。
2.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略,其特征在于,所述步骤(2)中深度对抗网络算法可获得较多的数据,使得对系统未来状态的预测能力增强,并通过博弈形式以提高学习效率。
3.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略,其特征在于,所述步骤(3)中强化学习算法作为一种无需模型的算法,且在外部的扰动下,能获得较高的控制性能,通过不断迭代更新Q值矩阵,可对系统进行预测,选择更为准确的动作值,实现多能互补。
4.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略,其特征在于,所述步骤(4)中多个能源产消者与单个灵活服务商博弈的情况下,构建了最优产销决策模型,得到最优策略,实现了能源产消者和能源服务商的利益最大化,提高能源利用效率,避免社会能源浪费。
5.如权利要求1所述的基于混合深度对抗网络滚动强化学习的灵活能源服务商长期价格引导策略,其特征在于,所述步骤(5)中一种长期的价格动态引导策略,能动态地维持供电、供气、供暖、供冷、供氢和电气化交通等能源产消者之间的经济利益最大化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554358.1A CN110363399A (zh) | 2019-06-25 | 2019-06-25 | 一种混合深度对抗网络滚动强化学习博弈策略 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554358.1A CN110363399A (zh) | 2019-06-25 | 2019-06-25 | 一种混合深度对抗网络滚动强化学习博弈策略 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110363399A true CN110363399A (zh) | 2019-10-22 |
Family
ID=68216999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910554358.1A Pending CN110363399A (zh) | 2019-06-25 | 2019-06-25 | 一种混合深度对抗网络滚动强化学习博弈策略 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363399A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381271A (zh) * | 2020-10-30 | 2021-02-19 | 广西大学 | 一种快速对抗深度置信网络的分布式多目标优化加速方法 |
CN112467807A (zh) * | 2020-12-14 | 2021-03-09 | 东北电力大学 | 一种多能源电力系统日前优化调度方法及系统 |
CN113628699A (zh) * | 2021-07-05 | 2021-11-09 | 武汉大学 | 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置 |
-
2019
- 2019-06-25 CN CN201910554358.1A patent/CN110363399A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381271A (zh) * | 2020-10-30 | 2021-02-19 | 广西大学 | 一种快速对抗深度置信网络的分布式多目标优化加速方法 |
CN112467807A (zh) * | 2020-12-14 | 2021-03-09 | 东北电力大学 | 一种多能源电力系统日前优化调度方法及系统 |
CN112467807B (zh) * | 2020-12-14 | 2022-05-17 | 东北电力大学 | 一种多能源电力系统日前优化调度方法及系统 |
CN113628699A (zh) * | 2021-07-05 | 2021-11-09 | 武汉大学 | 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置 |
CN113628699B (zh) * | 2021-07-05 | 2023-03-17 | 武汉大学 | 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
James et al. | A social spider algorithm for solving the non-convex economic load dispatch problem | |
Andersen et al. | Innovation system foresight | |
Sachs et al. | An agent-based model for energy investment decisions in the residential sector | |
Jain et al. | Application of ANN for reservoir inflow prediction and operation | |
Sözen et al. | Prediction of net energy consumption based on economic indicators (GNP and GDP) in Turkey | |
CN107038477A (zh) | 一种非完备信息下的神经网络与q学习结合的估值方法 | |
CN110363399A (zh) | 一种混合深度对抗网络滚动强化学习博弈策略 | |
CN107798388A (zh) | 基于Multi‑Agent与DNN的测控资源调度分配的方法 | |
Ghaderi et al. | Behavioral simulation and optimization of generation companies in electricity markets by fuzzy cognitive map | |
CN109214565A (zh) | 一种适用于大电网分区调度的子区域系统负荷预测方法 | |
Abbasnia et al. | Time-cost trade-off problem in construction project management, based on fuzzy logic | |
Gladkykh et al. | When justice narratives meet energy system models: Exploring energy sufficiency, sustainability, and universal access in Sub-Saharan Africa | |
Han et al. | An autonomous control technology based on deep reinforcement learning for optimal active power dispatch | |
SeyedGarmroudi et al. | Improved Pelican optimization algorithm for solving load dispatch problems | |
Iraji et al. | Students classification with adaptive neuro fuzzy | |
Nachef et al. | Fuzzy modelling for Qatar knowledge-based economy and its characteristics | |
CN103995750B (zh) | 一种多Agent系统非对称分布式约束优化方法 | |
CN106600078A (zh) | 一种基于新能源发电预测的微网能量管理方案 | |
Sueyoshi | An agent-based approach with collaboration among agents: Estimation of wholesale electricity price on PJM and artificial data generated by a mean reverting model | |
Guseva et al. | Assessment of the public acceptance of the nuclear power plant construction plan on the territory of foreign country | |
Mason et al. | Watershed management using neuroevolution | |
Liu et al. | Grey Prediction and development path of the fusion of marine sports and tourism | |
Pillay et al. | Examination timetabling problems | |
Jiang et al. | Intelligent Optimization of curriculum system based on Washington accord graduate attribute | |
Qu | Mobile communication service income prediction method based on grey buffer operator theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191022 |