CN112541835A

CN112541835A - 一种基于混合模型的风电场控制学习方法

Info

Publication number: CN112541835A
Application number: CN202011424074.XA
Authority: CN
Inventors: 赵俊华; 赵焕; 樊刚; 梁高琪
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong Shenzhen; Chinese University of Hong Kong CUHK
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-23

Abstract

本发明提供了一种基于混合模型的风电场控制学习方法，包括：S101:代理初始化模型回放缓冲、真实回放缓冲和知识驱动模型、数据驱动模型；S102:代理接收环境当前的状态参数，使用所述神经网络生成对应的行为并在环境中执行；S103:代理接收环境的奖励参数，并将所述奖励参数、状态参数、行为保存进真实回放缓冲，用于更新数据驱动模型；S104:代理随机选择一个状态参数及其对应的行为传入模型选择模块；S105:模型选择模块根据接收到的状态参数及行为，对所述知识驱动模型或数据驱动模型进行选择，并将选择结果发送至代理；S106:代理接收选择结果，并根据选择结果更新知识驱动模型或数据驱动模型的神经网络；S107:重复若干次步骤S104～S106，然后返回步骤S102。

Description

一种基于混合模型的风电场控制学习方法

技术领域

本发明涉及风电场控制领域，尤其是指一种基于混合模型的风电场控制学习方法。

背景技术

风能是现代最重要的可再生能源之一，对于一个使用大量可再生能源的智能电网而言，提高风能发电的效率具有重要的经济价值。风电场是一种典型的能够提供风力资源的装置，出于经济原因，风力涡轮机一般安装于风电场附近。然而，由于尾流效应的存在，我们难以使用知识驱动的方法来准确并且快速地找到一个最优的控制策略。

强化学习是一种广泛应用于诸多领域的数据驱动的方法，代理可以通过与不断变化的环境交互来学习最佳策略。对于一个拥有庞大的状态空间和动作空间的问题，强化学习需要较长的学习过程，并且在现实实践中会产生大量的学习成本。

发明内容

针对现有技术的不足，本发明提供了一种基于混合模型的风电场控制学习方法，旨在解决现有模型训练时间长、成本高，难以对风电场进行精确控制的问题。

为了解决上述技术问题，本发明采用了如下技术方案：

提供了一种基于混合模型的风电场控制学习方法，包括：

S101:代理初始化构建其内部的模型回放缓冲、真实回放缓冲和外部的知识驱动模型、数据驱动模型；

S102:代理接收环境当前的状态参数，使用所述神经网络生成与所述状态参数对应的行为并在环境中执行；

S103:代理接收环境的奖励参数，并将所述奖励参数、状态参数、行为保存进真实回放缓冲，用于更新数据驱动模型；

S104:代理随机选择一个状态参数及其对应的行为传入模型选择模块；

S105:模型选择模块根据接收到的状态参数及行为，对所述知识驱动模型或数据驱动模型进行选择，并将选择结果发送至代理；

S106:代理接收选择结果，若所述选择结果为知识驱动模型，则使用所述知识驱动模型计算仿真奖励参数及仿真状态参数，将所述仿真奖励参数及仿真状态参数存入所述模型回放缓冲，并使用所述模型回放缓冲更新所述知识驱动模型的神经网络；若所述选择结果为数据驱动模型，则使用所述真实回放缓冲更新所述数据驱动模型的神经网络；

S107:重复若干次步骤S104～S106，然后返回步骤S102。

本发明的有益效果在于：

代理随机选择环境的状态参数及其对应的行为传入模型选择模块，并根据模型选择模块的选择结果更新知识驱动模型或数据驱动模型的神经网络，通过重复上述行为实现了混合模型神经网络的迭代更新，有效减少了训练时间和训练成本，实现了对风电场的精确控制。

附图说明

下面结合附图详述本发明的具体结构

图1为本发明实施例提供的基于混合模型的风电场控制学习方法的流程图；

图2为HM-DDPG算法与DDPG算法在三种情景下的对比图；

图3为HM-DDPG算法与DDPG算法在情景2下的对比图；

图4为HM-DDPG算法与M-DDPG算法在三种情景下的对比图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参考图1，图1为本发明实施例提供的基于混合模型的风电场控制学习方法的流程图。本发明提供了一种基于混合模型的风电场控制学习方法，包括：

S101：代理初始化构建其内部的模型回放缓冲、真实回放缓冲和外部的知识驱动模型、数据驱动模型；

具体地，所述知识驱动模型或数据驱动模型的神经网络包含Q网络及策略网络，知识驱动模型包括风机模型以及尾流模型，数据驱动模型为神经网络模型，所述模型回放缓冲或真实回放缓冲可以存储过去的环境状态参数、行为以及奖励参数。

其中，初始化构建Q网络的步骤包括：

接收环境状态参数中的风力值数据，用该风力值数据对应的行为与观察状态将所述Q网络进行初始化处理，得到初始代理状态，所述网络的表达式如下：

Q(a，s|θ^Q)

其中，a表示所述行为，s表示所述观察状态，θ^Q表示网络参数。

初始化构建策略网络μ的表达式如下：

μ(s|θ^a)

其中，s表示所述观察状态，θ^a表示策略网络参数；

所述代理决定行为所用计算公式如下：

a_t＝μ(s_t|θ^a)+N_t

其中，a_t表示t时刻的代理行为，μ(s_t|θ^a)表示所述策略网络选择的代理行为，s_t表示l时刻的观察状态，θ^a表示策略网络参数，N_t表示高斯噪声。

在本实施例中，策略网络是六层全连接神经网络，Q网络是七层全连接神经网络，Q网络及策略网络的最后一层为隐藏层，两者都在最后一个隐藏层中使用线性激发函数，两者都在其余层中使用修正线性单元。为了减少所述初始化时的随机性的影响，不同神经网络的初始网络参数是相同的。

其中，所述风机模型的构建步骤包括：

基于轴向诱导因子确定所述风机模型的功率系数，并利用所述功率系数生成所述风机模型；

所述轴向诱导因子的计算公式如下：

其中，A表示所述轴向诱导因子，U_∞表示恒定的原始风流速度，U₁表示风机模型的风轮叶面的风速；

所述功率系数的计算公式如下：

C_p(A)＝4A(cos(γ_y)-A)²

其中，C_p(A)表示功率系数，A表示所述轴向诱导因子，y_y表示偏航角；

所述风机模型的输出功率计算公式如下：

其中，P表示所述风机模型的输出功率，C_p表示所述功率系数，ρ表示空气密度，Ar表示风机叶面扫过的面积，U_∞表示恒定的原始风流速度；

基于所述轴向诱导因子确定风速变化参数，根据所述风速变化参数生成所述尾流模型，所述风机模型及所述尾流模型构成所述风场分析模型；

所述风速变化参数的公式如下：

其中，u_decrease表示所述风速变化参数，所述风速变化参数为相对于原始风流速度U_oe的风速下降比例，A表示所述轴向诱导因子，D表示风机的涡轮叶片直径，k表示预设的粗糙系数；

所述尾流模型的公式如下：

U(x，y，A)＝U_∞(1-u_decreas)

其中，U(x，y，A)表示所述尾流模型使用所述轴向诱导因子在(x，y)位置处的风速。

S102：代理接收环境当前的状态参数，使用所述神经网络生成与所述状态参数对应的行为并在环境中执行；

具体地，状态参数用于表示风场系统的环境状态，在代理获取风场系统的环境状态后，代理的神经网络根据此环境状态生成对应的行为。

S103：代理接收环境的奖励参数，并将所述奖励参数、状态参数、行为保存进真实回放缓冲，用于更新数据驱动模型；

具体地，所述奖励参数由代理接收行为执行后的引导奖励并根据此引导奖励的收益确定。

S104：代理随机选择一个状态参数及其对应的行为传入模型选择模块；

S105：模型选择模块根据接收到的状态参数及行为，对所述知识驱动模型或数据驱动模型进行选择，并将选择结果发送至代理；

具体地，所述模型选择模块是一个用于判断每次迭代中知识驱动模型和数据驱动模型的准确性，并且对比出一个更好的模型以用于更新策略网络和Q网络的模块。

可选地，模型选择模块通过比较环境当前的状态参数及对应的行为与所有的状态参数及对应的行为之间的距离，选择知识驱动模型和数据驱动模型中判定距离最小的。

S106：代理接收选择结果，若所述选择结果为知识驱动模型，则使用所述知识驱动模型计算仿真奖励参数及仿真状态参数，将所述仿真奖励参数及仿真状态参数存入所述模型回放缓冲，并使用所述模型回放缓冲更新所述知识驱动模型的神经网络；若所述选择结果为数据驱动模型，则使用所述真实回放缓冲更新所述数据驱动模型的神经网络；

进一步地，所述使用所述模型回放缓冲更新所述知识驱动模型的神经网络具体包括：

采样多个所述知识驱动模型的神经网络的更新系数，构建成神经网络更新函数，所述知识驱动模型的神经网络包括：Q网络及策略网络，所述神经网络更新函数的公式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中，y_i表示时刻i的神经网络更新函数值，r_i表示第i次迭代的所述仿真奖励参数，γ表示折现因子，s_i+1表示时刻i+1的所述仿真状态参数，Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)表示更新的Q网络表达式，θ^Q′表示更新的Q网络参数，μ′(s_i+1|θ^μ′)表示更新的策略网络表达式，θ^μ′表示更新的策略网络参数；

利用所述神经网络更新函数对所述Q网络进行最小化损失更新，所述最小化损失更新的公式如下：

其中，L表示最小化损失更新的值，y_i表示时刻i的神经网络更新函数值，s_i表示时刻i的观察环境状态，a_i表示时刻i的代理行为，Q(s_i，a_i|θ^Q)表示网络表达式，θ^Q表示更新的Q网络参数；

利用所述Q网络对所述策略网络进行策略梯度更新，所述策略梯度更新的公式如下：

其中，

表示策略梯度更新，J表示累积折现奖励，θ^μ表示策略网络的参数，s表示观察状态，a表示行为，μ(s|θ^μ)表示所述策略网络选择的行为，θ^Q表示Q网络参数，

表示在观察状态s及所述策略网络选择的行为条件下Q网络对行为a的偏导值，

表示在观察状态s条件下所述策略网络μ对策略参数策略网络参数θ^μ的偏导值。

进一步地，所述使用所述真实回放缓冲更新所述数据驱动模型的神经网络具体包括：

采样多个所述数据驱动模型的神经网络的更新系数，构建成神经网络更新函数，所述数据驱动模型的神经网络包括：Q网络及策略网络，所述神经网络更新函数的公式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中，

S107：重复若干次步骤S104～S106，然后返回步骤S102。

在步骤S107中，重复的次数可人为进行设置。

下面通过实验将本发明所述方法使用的基于混合模型的算法(HM-DDPG)与传统强化学习的算法(DDPG)、基于模型的传统强化学习的算法(M-DDPG)进行对比，具体参数及情景设置如下：

在本实施例中，我们使用了以下的风场参数与神经网络参数设置：

参数	值	参数	值
				功率系数	0.95	力度系数	1.5
空气密度	1.2	k	0.08
				直径	100(m)	批大小	32
轴向诱导因子范围	[0,1/2]	策略网络学习速率	0.0001
				Q网络学习速率	0.001	目标网络超参数	0.001

具体地，使用7*直径作为列距离参数，5*直径作为行距离参数；

情景的设置如下：

情景	行数	线数
			1	4	2
2	4	4
			3	8	4

此外，使用威布尔分布随机生成风速，所述威布尔分布的参数设置为4.6与1.9；风角假设为0。

在图2至图4中，横坐标表示风电场的涡轮机数目，纵坐标表示奖励参数。

请参考图2，图2为HM-DDPG算法与DDPG算法在三种情景下的对比图。为了展现本发明提出的算法在减小学习成本上的有效性，对比了三种不同情境下HH-DDPG模型与DDPG模型的学习过程的差异，如图2所示，随着涡轮机数目的增加，两种算法的迭代时间都会增加。在所有三种情景下，与DDPG相比，HM-DDPG达到最佳回报所需的迭代次数都少得多，并且随着涡轮机数目的增加，这一差距也随之增加。尽管有些情况下HM-DDPG和DDPG都可以很快达到较高的奖励水平，但是稍后奖励水平会有些波动，直到完全收敛。随着维数的增加，这种现象变得更加明显。

请参考图3，图3为HM-DDPG算法与DDPG算法在情景2下的对比图。为了展现本发明提出的算法在减小学习成本上的泛用性，在情景2下重复实验了HH-DDPG模型与DDPG模型，并且计算了平均(Average Learning process)、最好(Best Learning process)、最差(Worst Learning process)的学习效率，如图3所示，在平均、最好、最差的情况下HH-DDPG都展现出了更好的学习效率，在最好的情况下，HM-DDPG甚至可以在不到100次的迭代中达到最佳回报；

请参考图4，图4为HM-DDPG算法与M-DDPG算法在三种情景下的对比图。为了展现本发明提出的算法对比于传统模型驱动的强化学习算法的优势，使用经验重播技术将HM-DDPG与M-DDPG进行了比较。图4显示了在情景1和情景2中HM-DDPG和M-DDPG的学习过程，当风场的规模较小时，HM-DDPG在学习过程中没有显示出很大的改进，有时候HM-DDPG的性能甚至比M-DDPG更差。但是，随着风场的范围的扩大，与M-DDPG相比，HM-DDPG有可能表现出更好的学习效率，并且这种效果的改善主要体现在早期学习过程中。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。