CN116599061B - 一种基于强化学习的电网运行控制方法 - Google Patents
一种基于强化学习的电网运行控制方法 Download PDFInfo
- Publication number
- CN116599061B CN116599061B CN202310879623.XA CN202310879623A CN116599061B CN 116599061 B CN116599061 B CN 116599061B CN 202310879623 A CN202310879623 A CN 202310879623A CN 116599061 B CN116599061 B CN 116599061B
- Authority
- CN
- China
- Prior art keywords
- power grid
- control
- reinforcement learning
- control action
- rewards
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000009471 action Effects 0.000 claims abstract description 242
- 230000007704 transition Effects 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 49
- 238000010248 power generation Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000001276 controlling effect Effects 0.000 description 13
- 238000012544 monitoring process Methods 0.000 description 10
- 238000011217 control strategy Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J1/00—Circuit arrangements for dc mains or dc distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Power Engineering (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种基于强化学习的电网运行控制方法,涉及电网控制领域,所述方法包括:获取电网在当前时刻的初始数据;对初始数据进行预处理,得到电网在当前时刻的运行数据;通过强化学习算法,得到电网的控制动作;将电网在当前时刻的运行数据和控制动作输入电网环境动力学模型,得到所述控制动作对应的电网的状态转移和控制动作对应的奖励;根据电网的状态转移和控制动作对应的奖励,通过强化学习算法,更新电网的控制动作;当控制动作对应的奖励连续预设次数均超过预设奖励阈值时,停止更新电网的控制动作,并根据最后一次更新的控制动作控制电网的控制单元运行。本发明可提高电网运行的准确性。
Description
技术领域
本发明涉及电网控制领域,具体而言,涉及一种基于强化学习的电网运行控制方法。
背景技术
在对电网进行运行控制过程中,通常会根据当前电网状态,即供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态等信息,通过强化学习对上述的当前信息进行分析,得到合适的控制动作后,按照该控制动作控制电网运行。
在现有技术中,电网运行若出现大量状态变动,导致当前电网状态出现较大波动,此时,电网运行环境则会因电网状态的突变而变得复杂,基于强化学习的电网运行控制方法在面对复杂的电网环境下,有可能无法做出准确控制动作。
发明内容
本发明解决的技术问题是如何提高基于强化学习的电网运行控制的准确性。
为解决上述问题,本发明提供一种基于强化学习的电网运行控制方法,包括:获取电网在当前时刻的初始数据;
对所述初始数据进行预处理,得到所述电网在所述当前时刻的运行数据,其中,所述运行数据包括所述电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态;
根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态,通过强化学习算法,得到所述电网的控制动作;
将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型,得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励,其中,所述电网的状态转移为所述电网收到所述控制动作后的动态变化,所述控制动作对应的所述奖励代表所述控制动作的好坏,每输入一个所述控制动作对应一个所述奖励;
根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法,更新所述电网的所述控制动作;当所述控制动作对应的所述奖励连续预设次数均超过所述预设奖励阈值时,停止更新所述电网的所述控制动作,并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。
可选地,所述根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态,通过强化学习算法,得到所述电网的控制动作,包括:
将所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态作为所述强化学习算法的状态,输入所述强化学习算法;
根据所述强化学习算法的输出,得到所述强化学习算法的动作;
根据所述强化学习算法的动作,得到所述电网的所述控制动作,其中,所述电网的所述控制动作包括调整发电容量和调整输电线路的功率分配。
可选地,所述将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型,得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励,包括:
根据所述电网在所述当前时刻的所述运行数据和所述电网的控制动作,通过所述电网环境动力学模型的状态转移函数,得到所述控制动作对应的所述电网的所述状态转移;
通过所述电网环境动力学模型的奖励函数,得到所述控制动作对应的所述奖励。
可选地,所述状态转移函数为:;
其中,s为所述电网在当前的所述运行数据,a为所述电网的控制动作,S'为所述控制动作对应的所述电网的所述状态转移,T代表状态转移函数;
所述奖励函数为:;
其中,表示在所述电网在当前的所述运行数据下采取所述电网的控制动
作所获得的奖励,是一个单一标量值,表示每一步中所获得的奖励。
可选地,所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法,更新所述电网的所述控制动作,包括:
根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法的值函数,更新所述电网的所述控制动作;
所述值函数为:;
其中,为值函数,α为学习率,γ为折扣因子,r为所述控制动作对应的所述
奖励,为所述控制动作对应的所述电网的所述状态转移的最大Q值。
可选地,在所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法的值函数,更新所述电网的所述控制动作之前,所述方法还包括:
初始化Q值函数表,使为零;
设置所述学习率以及折扣因子,使所述学习率在0至1的范围内,使所述折扣因子在0至1的范围内。
可选地,所述对所述初始数据进行预处理,得到所述电网在所述当前时刻的运行数据,包括:
通过预设数据清洗方法,对所述初始数据进行清洗,得到清洗后的所述初始数据;
通过预设特征转换原则,对清洗后的所述初始数据进行特征转换,得到具有特征表现形式的所述初始数据;
通过预设归一化方法,对具有特征表现形式的所述初始数据进行归一化处理,得到标准化的所述初始数据;
将所述标准化的所述初始数据作为所述电网在所述当前时刻的所述运行数据。
可选地,所述基于强化学习的电网运行控制方法还包括:
当所述控制动作对应的所述奖励没有在连续预设次数超过预设奖励阈值时,将更新后的所述控制动作输入所述电网环境动力学模型,重新获取所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励;
直至所述控制动作对应的所述奖励连续所述预设次数均超过所述预设奖励阈值时,停止更新所述电网的所述控制动作,并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。
可选地,所述基于强化学习的电网运行控制方法,还包括:构建所述电网环境动力学模型;
所述构建所述电网环境动力学模型包括:
获取数据集,其中,所述数据集包括所述电网的历史运行数据;
建立初始环境模型,并根据所述数据集对所述初始环境模型的参数进行优化,得到优化后的所述初始环境模型;
当所述优化后的所述初始环境模型的输出与所述电网的行为达到预设相似条件后,将所述优化后的所述初始环境模型作为所述电网环境动力学模型。
可选地,所述基于强化学习的电网运行控制方法,还包括:
通过分布式系统控制所述电网的所述控制单元,其中,一个所述电网包括多个所述控制单元;
其中,分布式系统包括多个节点,每个所述节点对应控制一个所述控制单元,同时每个所述节点对应一个所述电网环境动力学模型的镜像。
本发明的基于强化学习的电网运行控制方法,在基于强化学习的电网运行控制方法中,引入一个电网环境动力学模型,具有电网环境动力学模型模型的强化学习算法,可以预测每个控制动作所造成的电网的状态变化,即状态转移以及每个控制动作对应的奖励,再根据每个控制动作的奖励以及该控制动作对未来所产生的影响,通过深度学习算法对控制动作进行更新,直到满足停止更新控制动作的预设条件。利用电网环境动力学模型对电网环境进行建模,实现对不同控制动作在不同状态下的后果进行预测,即得到电网的状态转移,从而更好地规划控制动作,提高了控制动作的准确性,同时,由于针对每个控制动作进行电网对应的状态变化的预测,因此,则不受电网状态的突变的影响导致降低控制动作的精确度和准确性。
附图说明
图1为本发明实施例基于强化学习的电网运行控制方法的流程图之一;
图2为本发明实施例基于强化学习的电网运行控制方法的流程图之二。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
结合图1所示,本发明提供一种基于强化学习的电网运行控制方法,包括:获取电网在当前时刻的初始数据;
具体地,电网在当前时刻的初始数据即实时数据,包括各个发电站的发电量、负荷需求、输电线路的状态,通常电网的实时数据需要通过专业的电力系统监测设备和技术来获取。例如:电力系统监测设备,电网运营商会部署各种监测设备,如传感器、智能电表等,在电网的关键节点上收集数据;可以实时监测发电厂的发电情况、变电站的运行状态、负荷变化等,并将数据传输到中央监控系统中从而进行电网的实时数据的获取。或,能源管理系统,大型电网通常配备能源管理系统(EMS,energy management system),用于监控和控制电力系统的运行,EMS可以接收来自各个子系统的数据从而进行电网的实时数据的获取。或,网络监测平台,一些电力系统监测公司或独立的能源数据提供商可能提供在线的电力系统监测平台,可以通过该平台获取电网的实时数据。
对所述初始数据进行预处理,得到所述电网在所述当前时刻的运行数据,其中,所述运行数据包括所述电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态;根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态,通过强化学习算法,得到所述电网的控制动作;
具体地,在对初始数据进行预处理阶段,要将采集到的原始数据(电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态)进行整理、清洗、筛选,并进行必要的转换和特征提取,将处理好的初始数据通过强化学习算法进而得到电网的控制动作,其中,供电负荷可以根据时间进行分类(按小时或者按天进行分类),电压和频率可以进行统计分析以检测异常情况,发电容量可以与负荷需求进行比较,输电线路状态和变电站状态可以进行监测和记录;
将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型,得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励,其中,所述电网的状态转移为所述电网收到所述控制动作后的动态变化,所述控制动作对应的所述奖励代表所述控制动作的好坏,每输入一个所述控制动作对应一个所述奖励;
具体地,将电网在当前时刻的运行数据和控制动作作为电网环境动力学模型的输入,从而得到控制动作对应的电网的状态转移和控制动作对应的奖励,根据电网在接收到控制动作后所表现的动态变化给与相应的奖励,每输入一个控制动作给与一个相应的奖励,奖励代表控制动作的好坏,在本实施例中,可通过奖励函数判定该控制动作的好坏。
根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法,更新所述电网的所述控制动作;当所述控制动作对应的所述奖励连续预设次数均超过所述预设奖励阈值时,停止更新所述电网的所述控制动作,并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。
具体地,使用强化学习算法对电网进行控制动作的优化,其中,强化学习是一种机器学习方法,通过智能体(在本实施例中,智能体即电网的控制单元)与环境交互来学习最优策略,在每一个时间步骤,电网控制单元基于当前的运行数据选择一个控制动作,例如:调整发电机组的输出功率、调节变电站的开关状态。根据控制动作对应的状态转移和奖励,更新电网的控制动作,其中,状态转移指的是根据当前的控制动作和当前的运行数据,推算下一个时间步骤的电网状态;奖励是对当前控制动作的评价,用于判断其对电网运行的贡献程度。通过不断与环境交互,强化学习算法逐渐学习到最优的控制策略,以使电网能够稳定运行、优化供电质量和效率,控制动作更新与停止;根据预设的奖励阈值,其中,奖励阈值可人为设定,在本实施例中,不做限定,判断监测控制动作对应的奖励是否连续超过阈值,如果连续预设次数均超过预设奖励阈值,则停止更新电网的控制动作,这表示强化学习算法已经找到了满足预期要求的最优控制策略,在停止更新之后,根据最后一次更新的控制动作来控制电网的控制单元的运行,从而确保电网继续按照之前学习到的最优策略运行,以实现良好的控制效果。
本发明所述的基于强化学习的电网运行控制方法,在此方法中,引入一个电网环境动力学模型,具有电网环境动力学模型的强化学习算法,可以预测每个控制动作所造成的电网的状态变化,即状态转移以及每个控制动作对应的奖励,再根据每个控制动作的奖励以及该控制动作对未来所产生的影响,通过深度学习算法对控制动作进行更新,直到满足停止更新控制动作的预设条件。利用电网环境动力学模型对电网环境进行建模,实现对不同控制动作在不同状态下的后果进行预测,即得到电网的状态转移,从而更好地规划控制动作,提高了控制动作的准确性,同时,由于针对每个控制动作进行电网对应的状态变化的预测,因此,则不受电网状态的突变的影响导致降低控制动作的精确度和准确性。
可选地,所述根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态,通过强化学习算法,得到所述电网的控制动作,包括:
将所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态作为所述强化学习算法的状态,输入所述强化学习算法;
根据所述强化学习算法的输出,得到所述强化学习算法的动作;
根据所述强化学习算法的动作,得到所述电网的所述控制动作,其中,所述电网的所述控制动作包括调整发电容量和调整输电线路的功率分配。
在本实施例中,将供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态作为强化学习算法的状态输入,强化学习算法会根据当前的状态进行计算,并输出一个动作,根据强化学习算法的输出动作,来调整电网的控制动作,其中,控制动作包括调整发电容量和调整输电线路的功率分配。
在一些优选地实施例中,可通过不断重复以上步骤,持续使用强化学习算法输出的动作来控制电网,直到满足设定的条件或达到预设奖励阈值,从而有效地控制电网运行。
可选地,所述将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型,得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励,包括:
根据所述电网在所述当前时刻的所述运行数据和所述电网的控制动作,通过所述电网环境动力学模型的状态转移函数,得到所述控制动作对应的所述电网的所述状态转移;
通过所述电网环境动力学模型的奖励函数,得到所述控制动作对应的所述奖励。
具体地,在电网控制中,状态转移函数用于描述控制动作对电网状态的影响,从而体现电网在给定控制动作下的状态演变过程;奖励函数用于评估控制动作的好坏,在强化学习中起到引导学习的作用。
在一些优选地实施例中,奖励函数可以根据电网的运行目标进行设计,例如:最大化供电质量、降低能源损耗或提高系统稳定性,可根据具体情况,以设置不同的奖励信号来引导强化学习算法进行优化。
可选地,所述状态转移函数为:;
其中,s为所述电网在当前的所述运行数据,a为所述电网的控制动作,S'为所述控制动作对应的所述电网的所述状态转移,T代表状态转移函数;
所述奖励函数为:;
其中,表示在所述电网在当前的所述运行数据下采取所述电网的控制动
作所获得的奖励,是一个单一标量值,表示每一步中所获得的奖励。
在本实施例中,状态转移函数 T(s, a) 描述了环境在给定状态 s 下,采取动作
a 后将进入的下一个状态 s',通过所定义的状态转移函数得到控制动作对应的电网的状
态转移,再根据奖励函数得到控制动作对应的奖励;例如:将电网在当前的运行数据s和电
网的控制动作a代入状态转移函数得到控制动作对应的电网的状态转移S';通过每一步控
制动作的奖励得到电网在当前的运行数据下采取电网的控制动作所获得的奖励;以此定义的状态转移函数和奖励函数可以用于强化学习框架中,通过不断地选择
控制动作并观察环境状态的转移和获得的奖励,强化学习算法可以学习到最优的控制策
略,从而实现电网运行过程中各种目标的优化。
可选地,所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法,更新所述电网的所述控制动作,包括:
根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法的值函数,更新所述电网的所述控制动作;
所述值函数为:;
其中,为值函数,α为学习率,γ为折扣因子,r为所述控制动作对应的所述
奖励,为所述控制动作对应的所述电网的所述状态转移的最大Q值。
具体地,表示状态s下采取动作a的值函数,α在每次更新时控制新旧值的权
重,一般取值范围为 0 到 1,γ在计算未来奖励的累积效果时起作用,一般取值范围也是
0 到 1;r是采取动作a后获得的即时奖励,即控制动作对应的奖励,表示在状
态s'下所有可能动作a'对应的值函数中的最大值,即为控制动作对应的电网的状态转移的
最大Q值。
在本实施例中,通过强化学习算法的值函数,更新电网的控制动作,其中,值函数,可表示在本实施例中的更新规则,
该更新规则的作用是将当前状态下采取的动作的值函数 更新为当前奖励 r 加上
未来折扣考虑的最大值,通过不断地进行值函数的更新,强化学习算法可以逐步优化控制
策略,使电网系统在不同状态下能够选择最优的控制动作。
可选地,在所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法的值函数,更新所述电网的所述控制动作之前,所述方法还包括:
初始化Q值函数表,使为零;
设置所述学习率以及折扣因子,使所述学习率在0至1的范围内,使所述折扣因子在0至1的范围内。
具体地,在开始时,将所有状态-动作对的值函数都初始化为零,将学习率设置在0到1的范围内,表示每次更新时新旧值之间的权重比例。一般来说,较小的学习率可以使算法收敛得更稳定,而较大的学习率可以使算法更快地学习到新的信息。
在一些优选地实施例中,可根据具体情况,尝试不同的学习率来找到最合适的取值,将折扣因子设置在0到1的范围内,表示未来奖励对当前动作价值的影响程度;较接近1的折扣因子会更加关注长期回报,而较接近0的折扣因子则更注重即时奖励。根据电网系统的特性和目标,可以选择适当的折扣因子来平衡即时奖励和长期回报的重要性,可根据具体情况,进行试验调整从而找到最合适的学习率和折扣因子,以获得更好的的强化学习效果。
可选地,通过预设数据清洗方法,对所述初始数据进行清洗,得到清洗后的所述初始数据;
通过预设特征转换原则,对清洗后的所述初始数据进行特征转换,得到具有特征表现形式的所述初始数据;
通过预设归一化方法,对具有特征表现形式的所述初始数据进行归一化处理,得到标准化的所述初始数据;
将所述标准化的所述初始数据作为所述电网在所述当前时刻的所述运行数据。
具体地,通过预设的数据清洗方法对初始数据进行清洗,去除或修正其中的异常值、缺失值、重复值等问题,以得到清洗后的初始数据。根据预设特征转换原则,对清洗后的初始数据进行特征转换,其中,预设特征转换原则包括将原始数据进行编码、聚合、离散化、平滑处理操作,以提取出与之相关的有效特征,并将数据转换为具有特征表现形式的形式;根据预设归一化方法,对具有特征表现形式的初始数据进行归一化处理,其中,预设归一化方法可以为包最小-最大缩放或Z-Score标准化,以确保特征具有相同的尺度和范围,避免某些特征对建模和分析的影响过大,经过归一化处理后,将得到的标准化的初始数据视为电网在当前时刻的运行数据。
在本实施例中,通过数据清洗方法、特征转换原则和归一化方法对初始数据进行处理,以确保获得准确、可靠且易于处理的运行数据。
可选地,所述基于强化学习的电网运行控制方法还包括:
当所述控制动作对应的所述奖励没有在连续预设次数超过预设奖励阈值时,将更新后的所述控制动作输入所述电网环境动力学模型,重新获取所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励;
直至所述控制动作对应的所述奖励连续所述预设次数均超过所述预设奖励阈值时,停止更新所述电网的所述控制动作,并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。
具体地,首先进入程序初始化,开始时,设定预设奖励阈值和连续预设次数为0,并选择初始的控制动作,将当前的控制动作输入电网环境动力学模型,获取电网的状态转移和相应的奖励,如果该奖励没有连续预设次数超过预设奖励阈值,则执行以下步骤:步骤1:更新控制动作:根据当前状态和奖励,使用某种算法或策略调整控制动作的取值;步骤2:重复上述步骤:将更新后的控制动作再次输入电网环境动力学模型,得到新的状态转移和奖励;步骤3:判断停止条件:当控制动作对应的奖励连续预设次数都超过预设奖励阈值时,停止更新控制动作;步骤4:最后一次更新的控制动作:根据最后一次更新的控制动作,控制电网的控制单元运行。
在本实施例中,通过设置循环判断,直至控制动作对应的奖励连续预设次数均超过预设奖励阈值时,停止更新电网的控制动作,其中,预设次数和预设奖励阈值可根据实际情况进行设定,在此不做限定,最后,根据最后一次更新的控制动作控制电网的控制单元运行,从而确保电网继续按照之前学习到的最优策略运行,以实现良好的控制效果。
可选地,所述基于强化学习的电网运行控制方法,还包括:构建所述电网环境动力学模型;
所述构建所述电网环境动力学模型包括:
获取数据集,其中,所述数据集包括所述电网的历史运行数据;
建立初始环境模型,并根据所述数据集对所述初始环境模型的参数进行优化,得到优化后的所述初始环境模型;
当所述优化后的所述初始环境模型的输出与所述电网的行为达到预设相似条件后,将所述优化后的所述初始环境模型作为所述电网环境动力学模型。
在本实施例中,将历史运行数据作为初始环境模型的输入,对初始环境模型的参数进行优化从而得到优化后的初始环境模型,进而得到优化后的初始环境模型的输出,当优化后的初始环境模型的输出与电网的行为达到预设相似条件后,即代表该初始环境模型训练完成,将优化后的初始环境模型作为电网环境动力学模型,从而通过电网环境动力学模型预测每个控制动作所造成的电网的状态变化。
可选地,所述基于强化学习的电网运行控制方法,还包括:
通过分布式系统控制所述电网的所述控制单元,其中,一个所述电网包括多个所述控制单元;
其中,分布式系统包括多个节点,每个所述节点对应控制一个所述控制单元,同时每个所述节点对应一个所述电网环境动力学模型的镜像。
具体地,通过分布式系统控制电网,可以将每个控制单元对应一个节点,并为每个节点创建一个电网环境动力学模型的镜像,这些镜像电网环境动力学模型可以与真实电网环境保持同步更新,并由各个节点进行独立的控制决策;在分布式系统中,每个节点可以利用本地的电网环境动力学模型镜像进行控制策略的训练和优化,节点之间可以通过通信方式来共享信息和协调行动。
例如:分布式系统中的每个节点可通过以下步骤进行操作:步骤a:获取当前的电网状态信息;步骤b:基于本地的电网环境动力学模型镜像,预测电网未来的状态转移和奖励;步骤c:基于预测结果,制定控制策略或决策;步骤d:将控制指令发送到相应的控制单元执行,该控制单元属于当前节点所控制的范围;步骤e:监控电网响应,并更新本地的电网环境动力学模型镜像;步骤f:与其他节点进行信息交换和协调,以实现整体电网控制的目标。
在本实施例中,通过分布式系统控制电网,可以提高系统的鲁棒性、可扩展性和响应速度,使得控制决策更加灵活和高效。
结合图2所示,本发明所述的基于强化学习的电网运行控制方法,首先获取电网在
当前时刻的初始数据;通过预设数据清洗方法,对初始数据进行清洗,得到清洗后的初始数
据;再通过预设特征转换原则,对清洗后的初始数据进行特征转换,得到具有特征表现形式
的初始数据;通过预设归一化方法,对具有特征表现形式的初始数据进行归一化处理得到
标准化的初始数据;将标准化的初始数据作为电网在当前时刻的运行数据,其中,运行数据
包括电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态;将供电负荷、
电压、频率、发电容量、输电线路状态以及变电站状态作为强化学习算法的状态,输入强化
学习算法,根据强化学习算法的输出,得到强化学习算法的动作;再根据强化学习算法的动
作,得到电网的控制动作,其中,电网的控制动作包括调整发电容量和调整输电线路的功率
分配;根据电网在当前时刻的运行数据和电网的控制动作;通过电网环境动力学模型的状
态转移函数,得到控制动作对应的电网的状态转移;通过电网环境动力学模型的奖励函数,
得到控制动作对应的奖励,其中,建立电网环境动力学模型包括:获取数据集,其中,数据集
包括所述电网的历史运行数据,建立初始环境模型,并根据数据集对初始环境模型的参数
进行优化,得到优化后的初始环境模型,当优化后的初始环境模型的输出与电网的行为达
到预设相似条件后,将优化后的初始环境模型作为电网环境动力学模型;初始化Q值函数
表,使为零;设置所述学习率以及折扣因子,使所述学习率在0至1的范围内,使所述
折扣因子在0至1的范围内;根据电网的状态转移和控制动作对应的奖励,通过强化学习算
法的值函数,更新电网的控制动作;当控制动作对应的奖励连续预设次数均超过预设奖励
阈值时停止更新电网的控制动作,并根据最后一次更新的控制动作通过分布式系统控制电
网的所述控制单元运行;当控制动作对应的奖励没有在连续预设次数超过预设奖励阈值
时,将更新后的控制动作输入电网环境动力学模型,重新获取控制动作对应的电网的状态
转移和控制动作对应的奖励;直至控制动作对应的奖励连续预设次数均超过预设奖励阈值
时,停止更新电网的控制动作,并根据最后一次更新的控制动作通过分布式系统控制电网
的所述控制单元运行,本发明的基于强化学习的电网运行控制方法,在基于强化学习的电
网运行控制方法中,引入一个电网环境动力学模型,具有电网环境动力学模型模型的强化
学习算法,可以预测每个控制动作所造成的电网的状态变化,即状态转移以及每个控制动
作对应的奖励,再根据每个控制动作的奖励以及该控制动作对未来所产生的影响,通过深
度学习算法对控制动作进行更新,直到满足停止更新控制动作的预设条件。利用电网环境
动力学模型对电网环境进行建模,实现对不同控制动作在不同状态下的后果进行预测,即
得到电网的状态转移,从而更好地规划控制动作,提高了控制动作的准确性,同时,由于针
对每个控制动作进行电网对应的状态变化的预测,因此,则不受电网状态的突变的影响导
致降低控制动作的精确度和准确性。
虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (7)
1.一种基于强化学习的电网运行控制方法,其特征在于,包括:
S1:获取电网在当前时刻的初始数据;
S2:对所述初始数据进行预处理,得到所述电网在所述当前时刻的运行数据,其中,所述运行数据包括所述电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态;
S3:根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态,通过强化学习算法,得到所述电网的控制动作;
S3具体包括:S31:将所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态作为所述强化学习算法的状态,输入所述强化学习算法;
S32:根据所述强化学习算法的输出,得到所述强化学习算法的动作;
S33:根据所述强化学习算法的动作,得到所述电网的所述控制动作,其中,所述电网的所述控制动作包括调整发电容量和调整输电线路的功率分配;
S4:构建电网环境动力学模型;
所述构建所述电网环境动力学模型具体包括:
S41:获取数据集,其中,所述数据集包括所述电网的历史运行数据;
S42:建立初始环境模型,并根据所述数据集对所述初始环境模型的参数进行优化,得到优化后的所述初始环境模型;
S43:当所述优化后的所述初始环境模型的输出与所述电网的行为达到预设相似条件后,将所述优化后的所述初始环境模型作为所述电网环境动力学模型;
S5:将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型,得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励,其中,所述电网的状态转移为所述电网收到所述控制动作后的动态变化,所述控制动作对应的所述奖励代表所述控制动作的好坏,每输入一个所述控制动作对应一个所述奖励;
S6:根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法,更新所述电网的所述控制动作;
S7:当所述控制动作对应的所述奖励连续预设次数均超过预设奖励阈值时,停止更新所述电网的所述控制动作,并根据最后一次更新的所述控制动作控制所述电网的控制单元运行;
S8:通过分布式系统控制所述电网的所述控制单元,其中,一个所述电网包括多个所述控制单元;其中,分布式系统包括多个节点,每个所述节点对应控制一个所述控制单元,同时每个所述节点对应一个所述电网环境动力学模型的镜像。
2.根据权利要求1所述的基于强化学习的电网运行控制方法,其特征在于,所述将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型,得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励,包括:
根据所述电网在所述当前时刻的所述运行数据和所述电网的控制动作,通过所述电网环境动力学模型的状态转移函数,得到所述控制动作对应的所述电网的所述状态转移;
通过所述电网环境动力学模型的奖励函数,得到所述控制动作对应的所述奖励。
3.根据权利要求2所述的基于强化学习的电网运行控制方法,其特征在于,所述状态转移函数为:S' = T(s, a);
其中,s为所述电网在当前的所述运行数据,a为所述电网的控制动作,S'为所述控制动作对应的所述电网的所述状态转移;
所述奖励函数为:R(s, a) = r_step;
其中,R(s, a) 表示在所述电网在当前的所述运行数据下采取所述电网的控制动作所获得的奖励,r_step 是一个单一标量值,表示每一步中所获得的奖励。
4.根据权利要求3所述的基于强化学习的电网运行控制方法,其特征在于,所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法,更新所述电网的所述控制动作,包括:
根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法的值函数,更新所述电网的所述控制动作;
所述值函数为:Q(s, a) ← (1 - α) * Q(s, a) + α * [r + γ * max(Q(s',a'))];
其中,Q(s, a)为值函数,α为学习率,γ为折扣因子,r为所述控制动作对应的所述奖励,max(Q(s', a'))为所述控制动作对应的所述电网的所述状态转移的最大Q值。
5.根据权利要求4所述的基于强化学习的电网运行控制方法,其特征在于,在所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励,通过所述强化学习算法的值函数,更新所述电网的所述控制动作之前,所述方法还包括:
初始化Q值函数表,使Q(s, a)为零;
设置所述学习率以及折扣因子,使所述学习率在0至1的范围内,使所述折扣因子在0至1的范围内。
6.根据权利要求1所述的基于强化学习的电网运行控制方法,其特征在于,所述对所述初始数据进行预处理,得到所述电网在所述当前时刻的运行数据,包括:
通过预设数据清洗方法,对所述初始数据进行清洗,得到清洗后的所述初始数据;
通过预设特征转换原则,对清洗后的所述初始数据进行特征转换,得到具有特征表现形式的所述初始数据;
通过预设归一化方法,对具有特征表现形式的所述初始数据进行归一化处理,得到标准化的所述初始数据;
将所述标准化的所述初始数据作为所述电网在所述当前时刻的所述运行数据。
7.根据权利要求1所述的基于强化学习的电网运行控制方法,其特征在于,还包括:
当所述控制动作对应的所述奖励没有在连续预设次数超过预设奖励阈值时,将更新后的所述控制动作输入所述电网环境动力学模型,重新获取所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励;
直至所述控制动作对应的所述奖励连续所述预设次数均超过所述预设奖励阈值时,停止更新所述电网的所述控制动作,并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310879623.XA CN116599061B (zh) | 2023-07-18 | 2023-07-18 | 一种基于强化学习的电网运行控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310879623.XA CN116599061B (zh) | 2023-07-18 | 2023-07-18 | 一种基于强化学习的电网运行控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116599061A CN116599061A (zh) | 2023-08-15 |
CN116599061B true CN116599061B (zh) | 2023-10-24 |
Family
ID=87606640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310879623.XA Active CN116599061B (zh) | 2023-07-18 | 2023-07-18 | 一种基于强化学习的电网运行控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116599061B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9754221B1 (en) * | 2017-03-09 | 2017-09-05 | Alphaics Corporation | Processor for implementing reinforcement learning operations |
CN110945542A (zh) * | 2018-06-29 | 2020-03-31 | 东莞理工学院 | 一种基于智能电网的多智能体深度强化学习代理方法 |
CN111768028A (zh) * | 2020-06-05 | 2020-10-13 | 天津大学 | 一种基于深度强化学习的gwlf模型参数调节方法 |
CN112714074A (zh) * | 2020-12-29 | 2021-04-27 | 西安交通大学 | 智能tcp拥塞控制方法、系统、设备和存储介质 |
CN113110052A (zh) * | 2021-04-15 | 2021-07-13 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN114139778A (zh) * | 2021-11-15 | 2022-03-04 | 北京华能新锐控制技术有限公司 | 风电机组功率预测建模方法及装置 |
CN114400675A (zh) * | 2022-01-21 | 2022-04-26 | 合肥工业大学 | 基于权重均值深度双q网络的主动配电网电压控制方法 |
CN115441475A (zh) * | 2022-09-20 | 2022-12-06 | 国网江苏省电力有限公司经济技术研究院 | 一种电网输电线路功率紧急控制方法 |
CN116227579A (zh) * | 2023-03-13 | 2023-06-06 | 东北大学 | 一种对离散环境基于值的强化学习训练的优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200062887A (ko) * | 2018-11-27 | 2020-06-04 | 한국전자통신연구원 | 강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법 |
-
2023
- 2023-07-18 CN CN202310879623.XA patent/CN116599061B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9754221B1 (en) * | 2017-03-09 | 2017-09-05 | Alphaics Corporation | Processor for implementing reinforcement learning operations |
CN110945542A (zh) * | 2018-06-29 | 2020-03-31 | 东莞理工学院 | 一种基于智能电网的多智能体深度强化学习代理方法 |
CN111768028A (zh) * | 2020-06-05 | 2020-10-13 | 天津大学 | 一种基于深度强化学习的gwlf模型参数调节方法 |
CN112714074A (zh) * | 2020-12-29 | 2021-04-27 | 西安交通大学 | 智能tcp拥塞控制方法、系统、设备和存储介质 |
CN113110052A (zh) * | 2021-04-15 | 2021-07-13 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN114139778A (zh) * | 2021-11-15 | 2022-03-04 | 北京华能新锐控制技术有限公司 | 风电机组功率预测建模方法及装置 |
CN114400675A (zh) * | 2022-01-21 | 2022-04-26 | 合肥工业大学 | 基于权重均值深度双q网络的主动配电网电压控制方法 |
CN115441475A (zh) * | 2022-09-20 | 2022-12-06 | 国网江苏省电力有限公司经济技术研究院 | 一种电网输电线路功率紧急控制方法 |
CN116227579A (zh) * | 2023-03-13 | 2023-06-06 | 东北大学 | 一种对离散环境基于值的强化学习训练的优化方法 |
Non-Patent Citations (2)
Title |
---|
A Novel Group Recommendation Model With Two-Stage Deep Learning;Zhenhua Huang等;《IEEE TRANSACTIONS ON SYSTEMS》;全文 * |
基于智能体群组强化学习的电网无功电压调控方法;范士雄;刘幸蔚;魏智慧;刘瑞叶;王松岩;于继来;;电力工程技术(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116599061A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112615379B (zh) | 基于分布式多智能体强化学习的电网多断面功率控制方法 | |
CN106026084B (zh) | 一种基于虚拟发电部落的agc功率动态分配方法 | |
CN117093823B (zh) | 基于数据分析的工厂能源消耗管理方法 | |
CN116914751B (zh) | 一种智能配电控制系统 | |
CN107918368A (zh) | 钢铁企业煤气产生量与消耗量的动态预测方法及设备 | |
CN116599151A (zh) | 基于多源数据的源网储荷安全管理方法 | |
CN117273402A (zh) | 基于物联网技术的玻璃深加工生产线节能管理系统及方法 | |
CN115345380A (zh) | 一种基于人工智能的新能源消纳电力调度方法 | |
CN112923435B (zh) | 一种基于人工智能和优化算法的集中供热二次侧调控方法 | |
CN116599061B (zh) | 一种基于强化学习的电网运行控制方法 | |
CN117557047A (zh) | 一种基于深度强化学习的配电设备运维优化方法及系统 | |
CN108108837B (zh) | 一种地区新能源电源结构优化预测方法和系统 | |
CN113627533A (zh) | 一种基于强化学习的电力设备检修决策生成方法 | |
CN117277346A (zh) | 一种基于多智能体系统的储能调频方法、装置及设备 | |
CN116934050A (zh) | 一种基于强化学习的电力智能调度系统 | |
CN111489027A (zh) | 一种水电机组波形数据趋势预测方法及其系统 | |
CN112488367A (zh) | 一种基于量子遗传的用户相序降损方法及其系统 | |
EP3690758A1 (en) | Method and device for controlling a wastewater tank pumping system | |
CN115441475A (zh) | 一种电网输电线路功率紧急控制方法 | |
CN115481815A (zh) | 基于神经网络的火电厂负荷分配系统及方法 | |
CN115309908A (zh) | 一种基于人机协同结合逆强化学习的电网调控方法 | |
CN114298429A (zh) | 一种配电网动案辅助决策方法、系统、装置和存储介质 | |
CN113408795A (zh) | 一种基于灰色理论的电力负荷预测系统及其方法 | |
CN118521187B (zh) | 一种基于人工智能的工程技术支持与决策管理系统 | |
CN114414938B (zh) | 一种配电网故障的动态响应方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |