CN112541835A - 一种基于混合模型的风电场控制学习方法 - Google Patents
一种基于混合模型的风电场控制学习方法 Download PDFInfo
- Publication number
- CN112541835A CN112541835A CN202011424074.XA CN202011424074A CN112541835A CN 112541835 A CN112541835 A CN 112541835A CN 202011424074 A CN202011424074 A CN 202011424074A CN 112541835 A CN112541835 A CN 112541835A
- Authority
- CN
- China
- Prior art keywords
- model
- representing
- network
- parameters
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006399 behavior Effects 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 17
- 238000004088 simulation Methods 0.000 claims description 17
- 230000006698 induction Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 20
- 230000002787 reinforcement Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Wind Motors (AREA)
Abstract
本发明提供了一种基于混合模型的风电场控制学习方法,包括:S101:代理初始化模型回放缓冲、真实回放缓冲和知识驱动模型、数据驱动模型;S102:代理接收环境当前的状态参数,使用所述神经网络生成对应的行为并在环境中执行;S103:代理接收环境的奖励参数,并将所述奖励参数、状态参数、行为保存进真实回放缓冲,用于更新数据驱动模型;S104:代理随机选择一个状态参数及其对应的行为传入模型选择模块;S105:模型选择模块根据接收到的状态参数及行为,对所述知识驱动模型或数据驱动模型进行选择,并将选择结果发送至代理;S106:代理接收选择结果,并根据选择结果更新知识驱动模型或数据驱动模型的神经网络;S107:重复若干次步骤S104~S106,然后返回步骤S102。
Description
技术领域
本发明涉及风电场控制领域,尤其是指一种基于混合模型的风电场控制学习方法。
背景技术
风能是现代最重要的可再生能源之一,对于一个使用大量可再生能源的智能电网而言,提高风能发电的效率具有重要的经济价值。风电场是一种典型的能够提供风力资源的装置,出于经济原因,风力涡轮机一般安装于风电场附近。然而,由于尾流效应的存在,我们难以使用知识驱动的方法来准确并且快速地找到一个最优的控制策略。
强化学习是一种广泛应用于诸多领域的数据驱动的方法,代理可以通过与不断变化的环境交互来学习最佳策略。对于一个拥有庞大的状态空间和动作空间的问题,强化学习需要较长的学习过程,并且在现实实践中会产生大量的学习成本。
发明内容
针对现有技术的不足,本发明提供了一种基于混合模型的风电场控制学习方法,旨在解决现有模型训练时间长、成本高,难以对风电场进行精确控制的问题。
为了解决上述技术问题,本发明采用了如下技术方案:
提供了一种基于混合模型的风电场控制学习方法,包括:
S101:代理初始化构建其内部的模型回放缓冲、真实回放缓冲和外部的知识驱动模型、数据驱动模型;
S102:代理接收环境当前的状态参数,使用所述神经网络生成与所述状态参数对应的行为并在环境中执行;
S103:代理接收环境的奖励参数,并将所述奖励参数、状态参数、行为保存进真实回放缓冲,用于更新数据驱动模型;
S104:代理随机选择一个状态参数及其对应的行为传入模型选择模块;
S105:模型选择模块根据接收到的状态参数及行为,对所述知识驱动模型或数据驱动模型进行选择,并将选择结果发送至代理;
S106:代理接收选择结果,若所述选择结果为知识驱动模型,则使用所述知识驱动模型计算仿真奖励参数及仿真状态参数,将所述仿真奖励参数及仿真状态参数存入所述模型回放缓冲,并使用所述模型回放缓冲更新所述知识驱动模型的神经网络;若所述选择结果为数据驱动模型,则使用所述真实回放缓冲更新所述数据驱动模型的神经网络;
S107:重复若干次步骤S104~S106,然后返回步骤S102。
本发明的有益效果在于:
代理随机选择环境的状态参数及其对应的行为传入模型选择模块,并根据模型选择模块的选择结果更新知识驱动模型或数据驱动模型的神经网络,通过重复上述行为实现了混合模型神经网络的迭代更新,有效减少了训练时间和训练成本,实现了对风电场的精确控制。
附图说明
下面结合附图详述本发明的具体结构
图1为本发明实施例提供的基于混合模型的风电场控制学习方法的流程图;
图2为HM-DDPG算法与DDPG算法在三种情景下的对比图;
图3为HM-DDPG算法与DDPG算法在情景2下的对比图;
图4为HM-DDPG算法与M-DDPG算法在三种情景下的对比图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参考图1,图1为本发明实施例提供的基于混合模型的风电场控制学习方法的流程图。本发明提供了一种基于混合模型的风电场控制学习方法,包括:
S101:代理初始化构建其内部的模型回放缓冲、真实回放缓冲和外部的知识驱动模型、数据驱动模型;
具体地,所述知识驱动模型或数据驱动模型的神经网络包含Q网络及策略网络,知识驱动模型包括风机模型以及尾流模型,数据驱动模型为神经网络模型,所述模型回放缓冲或真实回放缓冲可以存储过去的环境状态参数、行为以及奖励参数。
其中,初始化构建Q网络的步骤包括:
接收环境状态参数中的风力值数据,用该风力值数据对应的行为与观察状态将所述Q网络进行初始化处理,得到初始代理状态,所述网络的表达式如下:
Q(a,s|θQ)
其中,a表示所述行为,s表示所述观察状态,θQ表示网络参数。
初始化构建策略网络μ的表达式如下:
μ(s|θa)
其中,s表示所述观察状态,θa表示策略网络参数;
所述代理决定行为所用计算公式如下:
at=μ(st|θa)+Nt
其中,at表示t时刻的代理行为,μ(st|θa)表示所述策略网络选择的代理行为,st表示l时刻的观察状态,θa表示策略网络参数,Nt表示高斯噪声。
在本实施例中,策略网络是六层全连接神经网络,Q网络是七层全连接神经网络,Q网络及策略网络的最后一层为隐藏层,两者都在最后一个隐藏层中使用线性激发函数,两者都在其余层中使用修正线性单元。为了减少所述初始化时的随机性的影响,不同神经网络的初始网络参数是相同的。
其中,所述风机模型的构建步骤包括:
基于轴向诱导因子确定所述风机模型的功率系数,并利用所述功率系数生成所述风机模型;
所述轴向诱导因子的计算公式如下:
其中,A表示所述轴向诱导因子,U∞表示恒定的原始风流速度,U1表示风机模型的风轮叶面的风速;
所述功率系数的计算公式如下:
Cp(A)=4A(cos(γy)-A)2
其中,Cp(A)表示功率系数,A表示所述轴向诱导因子,yy表示偏航角;
所述风机模型的输出功率计算公式如下:
其中,P表示所述风机模型的输出功率,Cp表示所述功率系数,ρ表示空气密度,Ar表示风机叶面扫过的面积,U∞表示恒定的原始风流速度;
基于所述轴向诱导因子确定风速变化参数,根据所述风速变化参数生成所述尾流模型,所述风机模型及所述尾流模型构成所述风场分析模型;
所述风速变化参数的公式如下:
其中,udecrease表示所述风速变化参数,所述风速变化参数为相对于原始风流速度Uoe的风速下降比例,A表示所述轴向诱导因子,D表示风机的涡轮叶片直径,k表示预设的粗糙系数;
所述尾流模型的公式如下:
U(x,y,A)=U∞(1-udecreas)
其中,U(x,y,A)表示所述尾流模型使用所述轴向诱导因子在(x,y)位置处的风速。
S102:代理接收环境当前的状态参数,使用所述神经网络生成与所述状态参数对应的行为并在环境中执行;
具体地,状态参数用于表示风场系统的环境状态,在代理获取风场系统的环境状态后,代理的神经网络根据此环境状态生成对应的行为。
S103:代理接收环境的奖励参数,并将所述奖励参数、状态参数、行为保存进真实回放缓冲,用于更新数据驱动模型;
具体地,所述奖励参数由代理接收行为执行后的引导奖励并根据此引导奖励的收益确定。
S104:代理随机选择一个状态参数及其对应的行为传入模型选择模块;
S105:模型选择模块根据接收到的状态参数及行为,对所述知识驱动模型或数据驱动模型进行选择,并将选择结果发送至代理;
具体地,所述模型选择模块是一个用于判断每次迭代中知识驱动模型和数据驱动模型的准确性,并且对比出一个更好的模型以用于更新策略网络和Q网络的模块。
可选地,模型选择模块通过比较环境当前的状态参数及对应的行为与所有的状态参数及对应的行为之间的距离,选择知识驱动模型和数据驱动模型中判定距离最小的。
S106:代理接收选择结果,若所述选择结果为知识驱动模型,则使用所述知识驱动模型计算仿真奖励参数及仿真状态参数,将所述仿真奖励参数及仿真状态参数存入所述模型回放缓冲,并使用所述模型回放缓冲更新所述知识驱动模型的神经网络;若所述选择结果为数据驱动模型,则使用所述真实回放缓冲更新所述数据驱动模型的神经网络;
进一步地,所述使用所述模型回放缓冲更新所述知识驱动模型的神经网络具体包括:
采样多个所述知识驱动模型的神经网络的更新系数,构建成神经网络更新函数,所述知识驱动模型的神经网络包括:Q网络及策略网络,所述神经网络更新函数的公式如下:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中,yi表示时刻i的神经网络更新函数值,ri表示第i次迭代的所述仿真奖励参数,γ表示折现因子,si+1表示时刻i+1的所述仿真状态参数,Q′(si+1,μ′(si+1|θμ′)|θQ′)表示更新的Q网络表达式,θQ′表示更新的Q网络参数,μ′(si+1|θμ′)表示更新的策略网络表达式,θμ′表示更新的策略网络参数;
利用所述神经网络更新函数对所述Q网络进行最小化损失更新,所述最小化损失更新的公式如下:
其中,L表示最小化损失更新的值,yi表示时刻i的神经网络更新函数值,si表示时刻i的观察环境状态,ai表示时刻i的代理行为,Q(si,ai|θQ)表示网络表达式,θQ表示更新的Q网络参数;
利用所述Q网络对所述策略网络进行策略梯度更新,所述策略梯度更新的公式如下:
其中,表示策略梯度更新,J表示累积折现奖励,θμ表示策略网络的参数,s表示观察状态,a表示行为,μ(s|θμ)表示所述策略网络选择的行为,θQ表示Q网络参数,表示在观察状态s及所述策略网络选择的行为条件下Q网络对行为a的偏导值,表示在观察状态s条件下所述策略网络μ对策略参数策略网络参数θμ的偏导值。
进一步地,所述使用所述真实回放缓冲更新所述数据驱动模型的神经网络具体包括:
采样多个所述数据驱动模型的神经网络的更新系数,构建成神经网络更新函数,所述数据驱动模型的神经网络包括:Q网络及策略网络,所述神经网络更新函数的公式如下:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中,yi表示时刻i的神经网络更新函数值,ri表示第i次迭代的所述仿真奖励参数,γ表示折现因子,si+1表示时刻i+1的所述仿真状态参数,Q′(si+1,μ′(si+1|θμ′)|θQ′)表示更新的Q网络表达式,θQ′表示更新的Q网络参数,μ′(si+1|θμ′)表示更新的策略网络表达式,θμ′表示更新的策略网络参数;
利用所述神经网络更新函数对所述Q网络进行最小化损失更新,所述最小化损失更新的公式如下:
其中,L表示最小化损失更新的值,yi表示时刻i的神经网络更新函数值,si表示时刻i的观察环境状态,ai表示时刻i的代理行为,Q(si,ai|θQ)表示网络表达式,θQ表示更新的Q网络参数;
利用所述Q网络对所述策略网络进行策略梯度更新,所述策略梯度更新的公式如下:
其中,表示策略梯度更新,J表示累积折现奖励,θμ表示策略网络的参数,s表示观察状态,a表示行为,μ(s|θμ)表示所述策略网络选择的行为,θQ表示Q网络参数,表示在观察状态s及所述策略网络选择的行为条件下Q网络对行为a的偏导值,表示在观察状态s条件下所述策略网络μ对策略参数策略网络参数θμ的偏导值。
S107:重复若干次步骤S104~S106,然后返回步骤S102。
在步骤S107中,重复的次数可人为进行设置。
下面通过实验将本发明所述方法使用的基于混合模型的算法(HM-DDPG)与传统强化学习的算法(DDPG)、基于模型的传统强化学习的算法(M-DDPG)进行对比,具体参数及情景设置如下:
在本实施例中,我们使用了以下的风场参数与神经网络参数设置:
参数 | 值 | 参数 | 值 |
功率系数 | 0.95 | 力度系数 | 1.5 |
空气密度 | 1.2 | k | 0.08 |
直径 | 100(m) | 批大小 | 32 |
轴向诱导因子范围 | [0,1/2] | 策略网络学习速率 | 0.0001 |
Q网络学习速率 | 0.001 | 目标网络超参数 | 0.001 |
具体地,使用7*直径作为列距离参数,5*直径作为行距离参数;
情景的设置如下:
情景 | 行数 | 线数 |
1 | 4 | 2 |
2 | 4 | 4 |
3 | 8 | 4 |
此外,使用威布尔分布随机生成风速,所述威布尔分布的参数设置为4.6与1.9;风角假设为0。
在图2至图4中,横坐标表示风电场的涡轮机数目,纵坐标表示奖励参数。
请参考图2,图2为HM-DDPG算法与DDPG算法在三种情景下的对比图。为了展现本发明提出的算法在减小学习成本上的有效性,对比了三种不同情境下HH-DDPG模型与DDPG模型的学习过程的差异,如图2所示,随着涡轮机数目的增加,两种算法的迭代时间都会增加。在所有三种情景下,与DDPG相比,HM-DDPG达到最佳回报所需的迭代次数都少得多,并且随着涡轮机数目的增加,这一差距也随之增加。尽管有些情况下HM-DDPG和DDPG都可以很快达到较高的奖励水平,但是稍后奖励水平会有些波动,直到完全收敛。随着维数的增加,这种现象变得更加明显。
请参考图3,图3为HM-DDPG算法与DDPG算法在情景2下的对比图。为了展现本发明提出的算法在减小学习成本上的泛用性,在情景2下重复实验了HH-DDPG模型与DDPG模型,并且计算了平均(Average Learning process)、最好(Best Learning process)、最差(Worst Learning process)的学习效率,如图3所示,在平均、最好、最差的情况下HH-DDPG都展现出了更好的学习效率,在最好的情况下,HM-DDPG甚至可以在不到100次的迭代中达到最佳回报;
请参考图4,图4为HM-DDPG算法与M-DDPG算法在三种情景下的对比图。为了展现本发明提出的算法对比于传统模型驱动的强化学习算法的优势,使用经验重播技术将HM-DDPG与M-DDPG进行了比较。图4显示了在情景1和情景2中HM-DDPG和M-DDPG的学习过程,当风场的规模较小时,HM-DDPG在学习过程中没有显示出很大的改进,有时候HM-DDPG的性能甚至比M-DDPG更差。但是,随着风场的范围的扩大,与M-DDPG相比,HM-DDPG有可能表现出更好的学习效率,并且这种效果的改善主要体现在早期学习过程中。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种基于混合模型的风电场控制学习方法,其特征在于,包括:
S101:代理初始化构建其内部的模型回放缓冲、真实回放缓冲和外部的知识驱动模型、数据驱动模型;
S102:代理接收环境当前的状态参数,使用所述神经网络生成与所述状态参数对应的行为并在环境中执行;
S103:代理接收环境的奖励参数,并将所述奖励参数、状态参数、行为保存进真实回放缓冲,用于更新数据驱动模型;
S104:代理随机选择一个状态参数及其对应的行为传入模型选择模块;
S105:模型选择模块根据接收到的状态参数及行为,对所述知识驱动模型或数据驱动模型进行选择,并将选择结果发送至代理;
S106:代理接收选择结果,若所述选择结果为知识驱动模型,则使用所述知识驱动模型计算仿真奖励参数及仿真状态参数,将所述仿真奖励参数及仿真状态参数存入所述模型回放缓冲,并使用所述模型回放缓冲更新所述知识驱动模型的神经网络;若所述选择结果为数据驱动模型,则使用所述真实回放缓冲更新所述数据驱动模型的神经网络;
S107:重复若干次步骤S104~S106,然后返回步骤S102。
2.如权利要求1所述的基于混合模型的风电场控制学习方法,其特征在于,所述知识驱动模型的神经网络或数据驱动模型的神经网络包括Q网络及策略网络Q;
其中,初始化构建Q网络的步骤包括:
接收环境状态参数中的风力值数据,用该风力值数据对应的行为与观察状态将所述Q网络进行初始化处理,得到初始代理状态,所述网络的表达式如下:
Q(a,s|θQ)
其中,a表示所述行为,s表示所述观察状态,θQ表示网络参数。
初始化构建策略网络μ的表达式如下:
μ(s|θμ)
其中,s表示所述观察状态,θμ表示策略网络参数;
所述代理决定行为所用计算公式如下:
at=μ(st|θμ)+Nt
其中,at表示t时刻的代理行为,μ(st|θμ)表示所述策略网络选择的代理行为,st表示t时刻的观察状态,θμ表示策略网络参数,Nt表示高斯噪声。
3.如权利要求1所述的基于混合模型的风电场控制学习方法,其特征在于,所述知识驱动模型包括风机模型及尾流模型;
其中,风机模型的构建步骤如下:
基于轴向诱导因子确定所述风机模型的功率系数,并利用所述功率系数生成所述风机模型;
所述轴向诱导因子的计算公式如下:
其中,A表示所述轴向诱导因子,U∞表示恒定的原始风流速度,U1表示风机模型的风轮叶面的风速;
所述功率系数的计算公式如下:
Cp(A)=4A(cos(γy)-A)2
其中,Cp(A)表示功率系数,A表示所述轴向诱导因子,γy表示偏航角;
所述风机模型的输出功率计算公式如下:
其中,P表示所述风机模型的输出功率,Cp表示所述功率系数,ρ表示空气密度,Ar表示风机叶面扫过的面积,U∞表示恒定的原始风流速度;
基于所述轴向诱导因子确定风速变化参数,根据所述风速变化参数生成所述尾流模型,所述风机模型及所述尾流模型构成所述风场分析模型;
所述风速变化参数的公式如下:
其中,udecrease表示所述风速变化参数,所述风速变化参数为相对于原始风流速度U∞的风速下降比例,A表示所述轴向诱导因子,D表示风机的涡轮叶片直径,k表示预设的粗糙系数;
所述尾流模型的公式如下:
U(x,y,A)=U∞(1-udecrease)
其中,U(x,y,A)表示所述尾流模型使用所述轴向诱导因子A在(x,y)位置处的风速。
4.如权利要求1所述的基于混合模型的大规模风电场控制学习方法,其特征在于,所述使用所述模型回放缓冲更新所述知识驱动模型的神经网络的步骤包括:
采样多个所述知识驱动模型的神经网络的更新系数,构建成神经网络更新函数,所述知识驱动模型的神经网络包括:Q网络及策略网络,所述神经网络更新函数的公式如下:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中,yi表示时刻i的神经网络更新函数值,ri表示第i次迭代的所述仿真奖励参数,γ表示折现因子,si+1表示时刻i+1的所述仿真状态参数,Q′(si+1,μ′(si+1|θμ′)|θQ′)表示更新的Q网络表达式,θQ′表示更新的Q网络参数,μ′(si+1|θμ′)表示更新的策略网络表达式,θμ′表示更新的策略网络参数;
利用所述神经网络更新函数对所述Q网络进行最小化损失更新,所述最小化损失更新的公式如下:
其中,L表示最小化损失更新的值,yi表示时刻i的神经网络更新函数值,si表示时刻i的观察环境状态,ai表示时刻i的代理行为,Q(si,ai|θQ)表示网络表达式,θQ表示更新的Q网络参数;
利用所述Q网络对所述策略网络进行策略梯度更新,所述策略梯度更新的公式如下:
其中,表示策略梯度更新,J表示累积折现奖励,θμ表示策略网络的参数,s表示观察状态,a表示行为,μ(s|θμ)表示所述策略网络选择的行为,θQ表示Q网络参数,表示在观察状态s及所述策略网络选择的行为条件下Q网络对行为a的偏导值,表示在观察状态s条件下所述策略网络μ对策略参数策略网络参数θμ的偏导值;
所述使用所述真实回放缓冲更新所述数据驱动模型的神经网络的步骤与所述使用所述模型回放缓冲更新所述知识驱动模型的神经网络的步骤类似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424074.XA CN112541835A (zh) | 2020-12-08 | 2020-12-08 | 一种基于混合模型的风电场控制学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424074.XA CN112541835A (zh) | 2020-12-08 | 2020-12-08 | 一种基于混合模型的风电场控制学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541835A true CN112541835A (zh) | 2021-03-23 |
Family
ID=75019531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424074.XA Pending CN112541835A (zh) | 2020-12-08 | 2020-12-08 | 一种基于混合模型的风电场控制学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541835A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018083671A1 (en) * | 2016-11-04 | 2018-05-11 | Deepmind Technologies Limited | Reinforcement learning with auxiliary tasks |
CN111245008A (zh) * | 2020-01-14 | 2020-06-05 | 香港中文大学(深圳) | 一种风场协同控制方法及装置 |
-
2020
- 2020-12-08 CN CN202011424074.XA patent/CN112541835A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018083671A1 (en) * | 2016-11-04 | 2018-05-11 | Deepmind Technologies Limited | Reinforcement learning with auxiliary tasks |
CN111245008A (zh) * | 2020-01-14 | 2020-06-05 | 香港中文大学(深圳) | 一种风场协同控制方法及装置 |
Non-Patent Citations (1)
Title |
---|
HUAN ZHAO 等: "Cooperative Wind Farm Control With Deep Reinforcement Learning and Knowledge-Assisted Learning", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan | A modification to particle swarm optimization algorithm | |
CN110082841A (zh) | 一种短期风速预测方法 | |
US20160063151A1 (en) | Method for Determining a Model of an Output Quantity of a Technical System | |
CN111079343B (zh) | 一种基于宽度学习的风电机组有效风速估计方法 | |
CN110807230A (zh) | 一种自主学习优化物联网拓扑结构鲁棒性的方法 | |
CN105426955A (zh) | 一种基于扰动的精英反向学习粒子群优化的实现方法 | |
CN113983646A (zh) | 基于生成对抗网络的空调互动末端能耗预测方法及空调 | |
CN112930541A (zh) | 通过最小化妄想影响来确定控制策略 | |
CN115270605A (zh) | 一种基于数据驱动的风电机组的疲劳载荷抑制方法 | |
CN111027229B (zh) | 基于稀疏异方差多样条回归的风功率曲线拟合的方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN111461443A (zh) | 风电场的优化设计方法、系统、电子设备和存储介质 | |
CN113236487B (zh) | 风电场噪声控制方法、系统、设备及可读存储介质 | |
CN112541835A (zh) | 一种基于混合模型的风电场控制学习方法 | |
CN117454939A (zh) | 一种基于NSABO-Gold算法优化BP神经网络的风电功率预测方法 | |
CN111245008B (zh) | 一种风场协同控制方法及装置 | |
CN117217374A (zh) | 基于dbo-elm的短期风电功率预测方法 | |
CN113048012B (zh) | 基于混合高斯模型的风电机组偏航角度识别方法和装置 | |
CN113294297B (zh) | 风电机组非线性模型预测转矩控制变权重调节方法 | |
CN111461282A (zh) | 一种基于改进量子行为粒子群算法的模型辨识方法 | |
Wu et al. | An Improved FOA to Optimize GRNN Method for Wind Turbine Fault Diagnosis. | |
CN117454456B (zh) | 基于蚁群算法的海上风电场排布优化仿真方法和系统 | |
CN117489528A (zh) | 一种风电场发电控制方法及装置 | |
CN115761850B (zh) | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 | |
He et al. | Application of ALO-ELM in Load Forecasting Based on Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210323 |