CN111245008A

CN111245008A - 一种风场协同控制方法及装置

Info

Publication number: CN111245008A
Application number: CN202010035870.8A
Authority: CN
Inventors: 赵俊华; 赵焕; 梁高琪
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong Shenzhen; Chinese University of Hong Kong CUHK
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05
Anticipated expiration: 2040-01-14
Also published as: CN111245008B

Abstract

本发明公开了一种风场协同控制方法及装置，包括：接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为，初始代理行为为初始代理状态对应的行为；基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，并确定预执行行为的引导奖励；根据引导奖励的收益确定奖励参数，并根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛；根据执行行为生成控制行为信号，利用控制行为信号控制风场系统。本方案可持续基于上一次迭代的预执行行为及奖励参数更新神经网络单元，使得新的执行行为在收敛状态之前实现梯度学习，提高计算速度。

Description

一种风场协同控制方法及装置

技术领域

本发明涉及风场控制领域，尤其涉及一种风场协同控制方法及装置。

背景技术

出于对气候变化和环境污染的担忧，风能作为最重要的可再生能源之一，风能源发电的技术已经得到广泛的应用。然而，在风能应用技术中，在风场中的风能的利用率不高，无法通过风场的协同控制在尾流效应下最大化风场的能源出力。

在风场中，协同控制的主要目的在于通过调整尾流来最大化能源出力。现有技术中，风场控制方法都是基于风场信息对风场尾流和风机进行建模，通过优化控制操作以最大化功率输出。但是，通过建模实现控制存在及计算速度缓慢，导致计算成本过高的缺点。

因此，有必要提出一种新的风电场协同控制方法及装置。

发明内容

本申请提供了一种风电场协同控制方法及装置，可以解决现有技术中风场控制方法的计算速度缓慢，导致计算成本过高的技术问题。

本发明第一方面提供一种风场协同控制方法，所述控制方法包括以下步骤：

接收风场系统中神经网络单元发送的初始代理状态，及接收所述神经网络单元发送的初始代理行为，所述初始代理行为为所述初始代理状态对应的行为；

基于预设的风场分析模型，利用所述初始代理状态及所述初始代理行为确定预执行行为，并确定所述预执行行为的引导奖励；

根据所述引导奖励的收益确定奖励参数，并根据所述奖励参数及所述预执行行为更新所述神经网络单元，得到新的代理状态及新的代理行为，直至所述代理状态及所述代理行为确定的执行行为收敛；

根据所述执行行为生成控制行为信号，利用所述控制行为信号控制所述风场系统。

可选的，所述神经网络单元包含：Q网络及策略网络；

则所述所述接收风场系统中神经网络单元发送的初始代理状态，及接收所述神经网络单元发送的初始代理行为的步骤之前包括：

将所述Q网络进行初始化处理，得到初始代理状态，所述Q网络的表达式如下：

Q(a,s|θ^Q)

其中，a表示所述行为，s表示所述观察状态，θ^Q表示Q网络参数；

将所述策略网络进行初始化处理，得到初始代理行为，所述策略网络的表达式如下：

μ(s|θ^μ)

其中，s表示所述观察状态，θ^μ表示策略网络参数；

所述初始代理行为的计算公式如下：

a_o,t＝μ(s_t|θ^μ)+N_t

其中，a_o,t表示t时刻的代理行为，μ(s_t|θ^μ)表示所述策略网络选择的所述代理行为，s_t表示t时刻的观察状态，θ^μ表示策略网络参数，N_t表示高斯噪声。

可选的，所述风场分析模型包括：风机模型及尾流模型；

所述基于预设的风场分析模型的步骤之前包括：

基于轴向诱导因子确定所述风机模型的功率系数，并利用所述功率系数生成所述风机模型；

所述轴向诱导因子的计算公式如下：

其中，A表示所述轴向诱导因子，U_∞表示恒定的原始风流速度，U₁表示风机模型的风轮叶面的风速；

所述功率系数的计算公式如下：

C_p(A)＝4A(cos(γ_y)-A)²

其中，C_p(A)表示功率系数，A表示所述轴向诱导因子，γ_y表示偏航角；

及所述风机模型的输出功率计算公式如下：

其中，P表示所述风机模型的输出功率，C_p表示所述功率系数，ρ表示空气密度，Ar表示风机叶面扫过的面积，U_∞表示恒定的原始风流速度；

基于所述轴向诱导因子确定风速变化参数，根据所述风速变化参数生成所述尾流模型，所述风机模型及所述尾流模型构成所述风场分析模型；

所述风速变化参数的公式如下：

其中，u_decrease表示所述风速变化参数，所述风速变化参数为相对于原始风流速度U_∞的风速下降比例，A表示所述轴向诱导因子，D表示风机的涡轮叶片直径，k表示预设的粗糙系数；

所述尾流模型的公式如下：

U(x,y,A)＝U_∞(1-u_decrease)

其中，U(x,y,A)表示所述尾流模型使用所述轴向诱导因子A在(x,y)位置处的风速。

可选的，所述基于预设的风场分析模型，利用所述初始代理状态及所述初始代理行为确定预执行行为，及确定所述预执行行为的引导奖励的步骤包括：

基于所述风场分析模型获取所述初始代理状态对应的标准行为，依照所述标准行为将所述初始代理行为更新为所述预执行行为；

所述标准行为的公式如下：

a_c＝argmaxK(s_t,a_c,t)

其中，a_c表示所述标准行为，s_t表示t时刻的观察状态，a_c,t表示t时刻的所述标准行为，K表示所述风场分析模型函数；

所述预执行行为的计算公式如下：

a_e＝(1-γⁱ)·a_o+γⁱ·a_c

其中，a_e表示所述预执行行为，γ表示折现因子，i表示迭代次数，a_o表示所述代理行为，a_c表示所述标准行为；

基于所述风场分析模型确定所述预执行行为对应的引导奖励，所述引导奖励的计算公式如下：

r_g,t＝E(s_t,a_e,t)

其中，r_g,t表示t时刻的引导奖励，E表示用于评估的所述风场分析模型，s_t表示t时刻的观察状态，a_e,t表示t时刻的预执行行为。

可选的，所述基于预设的所述风场分析模型确定所述预执行行为对应的引导奖励的步骤包括：

利用预设的行为判断函数获取所述预执行行为的行为系数值，并将所述行为系数值与预设的行为系数阈值进行对比判断，所述行为系数值为所述预执行行为对风场的安全系数；

所述行为判断函数的表达式如下：

P_judge(K(a_e,t,s_t),r_g,t)

其中，P_judge表示判断方程，K表示所述风场分析模型函数，a_e,t表示t时刻的预执行行为，s_t表示t时刻的观察状态，r_g,t表示t时刻的引导奖励；

若所述行为系数值小于预设的行为系数阈值，则确定所述预执行行为不安全，基于所述风场分析模型确定所述预执行行为对应的引导奖励为负奖励；

若所述行为系数值大于预设的行为系数阈值，则确定所述预执行行为安全，基于所述风场分析模型确定所述预执行行为对应的引导奖励为正奖励。

可选的，所述根据所述引导奖励的收益确定奖励参数的步骤包括：

获取所述引导奖励对应的奖励收益，将所述奖励收益与预设的奖励收益阈值进行对比判断，所述奖励收益为执行所述引导奖励得到的效果系数；

若所述奖励收益大于或等于所述奖励收益阈值，则利用所述预执行行为生成观察奖励，并根据所述引导奖励及所述观察奖励确定奖励参数；

若所述奖励收益小于所述奖励收益阈值，则根据所述引导奖励确定奖励参数。

可选的，所述奖励参数包括：引导奖励及观察奖励，则所述根据所述奖励参数及所述预执行行为更新所述神经网络单元，得到新的代理状态及新的代理行为，直至所述代理状态及所述代理行为确定的执行行为收敛的步骤包括：

将所述预执行行为发送至预设的环境模型，生成观察奖励；

利用所述引导奖励及所述观察奖励生成奖励参数，所述奖励参数的计算公式如下：

r_u＝(1-γ^t)·r_o+γ^t·r_g

其中，r_u表示所述奖励参数，γ^t表示折现因子，t表示时间，r_o表示所述观察奖励，r_g表示所述引导奖励；

利用所述奖励参数及所述预执行行为转变为更新系数，所述更新系数的表达式如下：

(s_t,a_e,t,r_u,t,s_t+1)

其中，s_t表示t时刻的观察状态，a_e,t表示t时刻的所述预执行行为，r_u,t表示t时刻的所述奖励参数，s_t+1表示t+1时刻的观察状态；

利用所述更新系数更新所述神经网络单元，得到新的代理状态及新的代理行为，直至所述代理状态及所述代理行为确定的执行行为收敛。

可选的，所述利用所述更新系数更新所述神经网络单元的步骤包括：

采样多个所述更新系数，构建成神经网络单元更新函数，所述神经网络单元包括：Q网络及策略网络，所述神经网络单元更新函数的公式如下：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

其中，y_i表示第i次迭代的神经网络单元更新函数值，r_i表示第i次迭代的所述奖励参数，γ表示折现因子，s_i+1表示第i+1次迭代的观察状态，Q′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)表示更新的Q网络表达式，θ^Q′表示更新的Q网络参数，μ′(s_i+1|θ^μ′)表示更新的策略网络表达式，θ^μ′表示更新的策略网络参数；

利用所述神经网络单元更新函数对所述Q网络进行最小化损失更新，所述最小化损失更新的公式如下：

其中，L表示最小化损失更新的值，y_i表示第i次迭代的神经网络单元更新函数值，s_i表示第i次迭代的观察状态，a_i表示第i次迭代的代理行为，Q(s_i,a_i|θ^Q)表示Q网络表达式，θ^Q表示更新的Q网络参数；

及利用所述Q网络对所述策略网络进行策略梯度更新，所述策略梯度更新的公式如下：

其中，

表示策略梯度更新，J表示累积折现奖励，θ^μ表示策略网络参数，S表示观察状态，S_i表示第i次迭代的观察状态，a表示行为，μ(S_i)表示所述策略网络选择的行为，θ^Q表示Q网络参数，

表示在第i次迭代的观察状态及所述策略网络选择的行为条件下Q网络对a行为的偏导值，

表示在第i次迭代的观察状态条件下所述策略网络对策略参数策略网络参数θ^μ的偏导值，n∈[1,∞)。

可选的，所述直至所述代理状态及所述代理行为确定的执行行为收敛的步骤包括：

根据新的所述代理状态及新的代理行为确定新的执行行为；

确定所述执行行为与所述预执行行为的行为变化值，基于预设的行为变化阈值对所述行为变化值进行对比判断；

若所述行为变化值大于所述行为变化阈值，则获取所述执行行为的引导奖励，并执行所述确定所述预执行行为的引导奖励之后的步骤，直至所述行为变化值小于预设的行为变化阈值；

若所述行为变化值小于预设的行为变化阈值，则所述执行行为的状态为收敛状态。

本发明第二发明提供一种风场协同控制装置，包括：

接收模块，用于接收风场系统中神经网络单元发送的初始代理状态，及接收所述神经网络单元发送的初始代理行为，所述初始代理行为为所述初始代理状态对应的行为；

处理模块，用于基于预设的风场分析模型，利用所述初始代理状态及所述初始代理行为确定预执行行为，并确定所述预执行行为的引导奖励；

更新模块，用于根据所述引导奖励的收益确定奖励参数，并根据所述奖励参数及所述预执行行为更新所述神经网络单元，得到新的代理状态及新的代理行为，直至所述代理状态及所述代理行为确定的执行行为收敛；

控制模块，用于根据所述执行行为生成控制行为信号，利用所述控制行为信号控制所述风场系统。

本发明提供的一种风场协同控制方法，包括：接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为，初始代理行为为初始代理状态对应的行为；基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，并确定预执行行为的引导奖励；根据引导奖励的收益确定奖励参数，并根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛；根据执行行为生成控制行为信号，利用控制行为信号控制风场系统。本发明通过获取风场系统的初始代理状态及初始代理行为，然后，基于风场分析模型生成初始代理状态及初始代理行为对应的预执行行为，根据预执行行为生成引导奖励，接着，确定引导奖励的收益，根据奖励的收益确定反馈至神经单元的奖励参数类型，依据预执行行为及奖励参数进行对神经网络单元进行更新处理，完成一次迭代，得到新的代理状态及新的代理行为并确定新的执行行为，直到该确定的执行行为收敛，最后，根据收敛的执行行为得到具有最大化控制风场系统出力的控制行为信号；通过实施本技术方案，可使得每一次迭代过程都基于上一次迭代中的预执行行为及奖励参数进行更新神经网络单元，以使得新的执行行为在收敛状态之前实现梯度学习，避免了学习过程中的随机性，提高风场控制方法在计算收敛状态的执行行为时的速度，有效降低计算成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种风场协同控制方法的步骤流程图；

图2为本发明提供的一种风场协同控制装置的模块方框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中风场控制方法的计算速度缓慢，导致计算成本过高的技术问题。

为了解决上述技术问题，本发明第一方面提供一种风场协同控制方法，请参阅图1，图1为本发明提供的一种风场协同控制方法的步骤流程图，该控制方法包括以下步骤：

S101：接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为，初始代理行为为初始代理状态对应的行为；

在步骤S101中，风场系统中包括：神经网络单元；初始代理状态用于表示风场系统的环境状态，在神经网络单元获取风场系统的环境状态后，神经网络单元进行初始化处理，赋予神经网络单元一个初始代理状态，同时，神经网络单元根据初始代理状态生成对应的初始代理行为；风场系统中还包括：保护器，通过风场系统中的保护器接收神经网络单元发送的初始代理状态，及通过保护器接收神经网络发送的初始代理行为，以进行相关更新迭代处理。

S102：基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，并确定预执行行为的引导奖励；

在步骤S102中，风场系统还包括：风场分析模型；保护器接收到初始代理状态及初始代理行为后，利用初始代理状态基于风场分析模型得到标准行为，并将标准行为与初始代理行为组合，确定预执行行为，应当注意的是，预执行行为为未收敛之前得到的执行行为；进一步的，保护器利用预执行行为基于风场分析模型得到该预执行行为的引导奖励。应当注意的是，在基于风场分析模型计算预执行行为的引导奖励之前，保护器需要对该预执行行为的安全性进行判断，若预执行行为为安全状态，则基于风场分析模型得到正奖励，若预执行行为为不安全状态，则基于风场分析模型得到负奖励。

S103：根据引导奖励的收益确定奖励参数，并根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛；

在步骤S103中，保护器对引导奖励的收益进行判断，以确定反馈至神经网络单元的奖励参数；具体的，当引导奖励的收益大于预设的奖励收益阈值时，则执行预执行行为，得到观察奖励，将观察奖励及引导奖励作为奖励参数，并将奖励参数发送至神经网络单元，及若引导奖励的收益小于预设的奖励收益阈值时，将引导奖励作为奖励参数，并将奖励参数发送至神经网络单元；神经网络单元利用预执行行为及奖励参数进行更新处理，得到新的代理状态及代理行为，此时，保护器根据代理状态及代理行为确定的执行行为，根据该执行行为与上一次迭代的预执行行为计算行为变化差值，并依据该变化差值确定该执行行为是否处于收敛状态，若该执行行为还未处于收敛状态，则执行步骤S102-步骤S103，其中，步骤S102-步骤S103体现了基于知识辅助的深度确定性策略梯度下降算法进行在线策略学习，该学习过程包括：使用保护器拒绝执行坏行为、使用标准行为帮助生成预执行行为(或执行行为)、使用引导奖励帮助生成奖励参数；直到得到的执行行为收敛，则执行步骤S104。

S104：根据执行行为生成控制行为信号，利用控制行为信号控制风场系统。

在步骤S104中，在执行行为收敛时，获取该执行行为对应的控制行为信号，可控制风场系统达到最大化的输出功率，使得风场的风力能源得到最大化利用。

本发明提供的一种风场协同控制方法，包括：接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为，初始代理行为为初始代理状态对应的行为；基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，并确定预执行行为的引导奖励；根据引导奖励的收益确定奖励参数，并根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛；根据执行行为生成控制行为信号，利用控制行为信号控制风场系统。本发明通过获取风场系统的初始代理状态及初始代理行为，然后，基于风场分析模型生成初始代理状态及初始代理行为对应的预执行行为，根据预执行行为生成引导奖励，接着，确定引导奖励的收益，根据奖励的收益确定反馈至神经单元的奖励参数类型，依据预执行行为及奖励参数进行对神经网络单元进行更新处理，完成一次迭代，得到新的代理状态及新的代理行为并确定新的执行行为，直到该确定的执行行为收敛，最后，根据收敛的执行行为得到具有最大化控制风场系统出力的控制行为信号；通过实施本技术方案，可使得每一次迭代过程都基于上一次迭代中的预执行行为及奖励参数更新神经网络单元，以使得新的执行行为在收敛状态之前实现梯度学习，避免了学习过程中的随机性，提高风场控制方法在计算收敛状态的执行行为时的速度，有效降低计算成本。

进一步的，神经网络单元包含：Q网络及策略网络；

则步骤S101：接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为的步骤之前包括：

将Q网络进行初始化处理，得到初始代理状态，Q网络的表达式如下：

Q(a,s|θ^Q)

其中，Q(a,s|θ^Q)表示Q网络函数，a表示行为，s表示观察状态，θ^Q表示Q网络参数；

将策略网络进行初始化处理，得到初始代理行为，策略网络的表达式如下：

μ(s|θ^μ)

其中，μ(s|θ^μ)表示策略网络函数，s表示观察状态，θ^μ表示策略网络参数；

在本实施例中，观察状态是指风场系统中的风力值或风速的环境状态；对于从1至M的第一次迭代中，以第2次迭代为例，神经网络接受预执行行为及预执行行为的观察状态S₂，该观察状态S₂为表示在预执行行为的作用下的风场系统中的风力值(或自然状态下实时的风力值)环境状态，对Q网络及策略网络进行初始化处理，应当注意的是，第一次迭代时，不涉及行为a值的计算，仅是对Q网络参数θ^Q及策略网络参数θ^μ的计算；

对于时间t＝{1,2,......,∞}；

策略网络根据策略方程μ选择代理行为，以第一次迭代为例，策略网络根据策略方程μ选择初始代理行为，初始代理行为的计算公式如下：

a_o,t＝μ(s_t|θ^μ)+N_t

其中，a_o,t表示t时刻的代理行为，μ(s_t|θ^μ)表示策略网络选择的代理行为，s_t表示t时刻的观察状态，θ^μ表示策略网络参数，N_t表示高斯噪声，t∈(1,∞)。应当注意的是，上述的计算中，在第一次迭代中，观察状态S或表示任意t时刻的观察状态S_t都等于S₁，第二次迭代中，S_t＝S₂......；具体的，以S₂为例，在第一次迭代中，当预执行行为的引导奖励的收益符合相关的奖励收益阈值，则根据第一次迭代中的预执行行为生成对应的观察奖励S₂，该观察奖励S₂为第一次迭代中的预执行行为在环境中执行时的实际奖励。

在本实施例中，Q网络是七层全连接神经网络，策略网络是六层全连接神经网络，Q网络及策略网络的最后一层为隐藏层，两者都在最后一个隐藏层中使用线性激发函数，在其余层中使用修正线性单元。在神经网络单元中的Q网络获得初始代理状态及策略网络获得初始代理行为之后，将初始代理状态及初始代理行为发送至保护器，保护器即可接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为。

进一步的，风场分析模型包括：风机模型及尾流模型；

基于预设的风场分析模型的步骤之前包括：

基于轴向诱导因子确定风机模型的功率系数，并利用功率系数生成风机模型；

轴向诱导因子的计算公式如下：

其中，A表示轴向诱导因子，U_∞表示恒定的原始风流速度，U₁表示风机模型的风轮叶面的风速；

功率系数的计算公式如下：

C_p(A)＝4A(cos(γ_y)-A)²

其中，C_p(A)表示功率系数，A表示轴向诱导因子，γ_y表示偏航角；

及风机模型的输出功率计算公式如下：

其中，P表示风机模型的输出功率，C_p表示功率系数，ρ表示空气密度，Ar表示风机叶面扫过的面积，U_∞表示恒定的原始风流速度。

在本实施例中，该风机模型利用风机模型的叶面的出力状况，使用动量理论对理想叶面进行分析，以得到风机模型的出力或输出功率，该风机模型构建了风速、控制变量和出力之间的转换关系；具体的，主要涉及原始风流速度、风机模型的风轮叶面的风速、偏航角、空气密度、风机叶面扫过的面积等因素的参数，以得到风机模型的输出功率。

基于轴向诱导因子确定风速变化参数，根据风速变化参数生成尾流模型，风机模型及尾流模型构成风场分析模型；

风速变化参数的公式如下：

其中，u_decrease表示风速变化参数，风速变化参数为相对于原始风流速度U_∞的风速下降比例，A表示轴向诱导因子，D表示风机的涡轮叶片直径，k表示预设的粗糙系数；

尾流模型的公式如下：

U(x,y,A)＝U_∞(1-u_decrease)

其中，U(x,y,A)表示尾流模型使用轴向诱导因子A在(x,y)位置处的风速。

在本实施例中，为平衡计算效率和模型精度，选择基于不可压缩的二维纳维-斯托克斯动量方程构建中等保真度动态的尾流模型，作为风电场模拟器，模拟真实风场出力的环境状况，该尾流模型构建了风场内原始风流通过风轮后的风速变化关系；具体的，对尾流模型中风机的叶面建立二维坐标轴，该尾流模型涉及：由原始风流速度及风机模型的风轮叶面的风速得到的诱导因子、风机的涡轮叶片直径、预设的粗糙系数、二维坐标轴中坐标点位置等参数，以得到尾流模型中的在轴向诱导因子下的某一位置处的风速。

进一步的，步骤S102：基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，及确定预执行行为的引导奖励的步骤包括：

基于风场分析模型获取初始代理状态对应的标准行为，依照标准行为将初始代理行为更新为预执行行为；

在本发明的实施例中，使用标准行为帮助生成预执行行为(执行行为)体现如下：

在本发明的实施例中，标准行为是利用低保真度分析模型得到的理论最优行为，基于理论最优行为接近于实际最优行为的假设，与随机搜索相比，使用标准行为进行直接搜索可以加快学习过程，其中，标准行为方法的关键点在于在学习过程开始时利用标准行为来帮助代理生成代理行为，并在代理找到安全区域时取消这种帮助。具体的，标准行为是由代理状态基于风场分析模型得到的，该代理状态为初始代理状态，风场分析模型包括：风机模型及尾流模型，当风机模型及尾流模型在拥有最大输出时，即风机模型的输出功率最大及尾流模型的风速最大时可得到标准行为，该标准行为的公式如下：

a_c＝argmaxK(s_t,a_c,t)

其中，a_c表示标准行为，s_t表示t时刻的观察状态，a_c,t表示t时刻的标准行为，K表示风场分析模型函数；

在执行行为处于为收敛之前，迭代得到的执行行为皆称为预执行行为，以第一次迭代为例，根据标准行为及初始代理行为生成预执行行为，具体的，将初始代理行为及标准行为组合在一起，得到行为组合函数G_a，预执行行为的公式如下：

a_e,t＝G_a(a_o,t,a_c,t)

其中，a_e,t表示t时刻的预执行行为，a_o,t表示t时刻的代理行为，a_c,t表示t时刻的标准行为；应当注意的是，在迭代后收敛时，a_e,t表示t时刻得到收敛的执行行为；

在实际的计算过程中，也可通过以下公式计算预执行行为，具体的，预执行行为的计算公式如下：

a_e＝(1-γⁱ)·a_o+γⁱ·a_c

其中，a_e表示预执行行为，γ表示折现因子，i表示迭代次数，a_o表示代理行为，a_c表示标准行为；应该注意的是，经过多次迭代之后，得到收敛的执行行为，该执行行为也是根据公式：a_e＝(1-γⁱ)·a_o+γⁱ·a_c进行计算得到。

基于风场分析模型确定预执行行为对应的引导奖励，引导奖励的计算公式如下：

r_g,t＝E(s_t,a_e,t)

其中，r_g,t表示t时刻的引导奖励，E表示用于评估的风场分析模型，s_t表示t时刻的观察状态，a_e,t表示t时刻的预执行行为。

进一步的，基于预设的风场分析模型确定预执行行为对应的引导奖励的步骤包括：

利用预设的行为判断函数获取预执行行为的行为系数值，并将行为系数值与预设的行为系数阈值进行对比判断，行为系数值为预执行行为对风场的安全系数；

其中，在本实施例中，通过保护器拒绝执行坏行为的过程体现如下：

行为判断函数的表达式如下：

P_judge(K(a_e,t,s_t),r_g,t)

其中，P_judge表示判断方程，K表示风场分析模型函数，a_e,t表示t时刻的预执行行为，s_t表示t时刻的观察状态，r_g,t表示t时刻的引导奖励，K(a_e,t,s_t)表示行为系数值；

若行为系数值小于预设的行为系数阈值，即K(a_e,t,s_t)＜0，则确定预执行行为不安全，基于风场分析模型确定预执行行为对应的引导奖励为负奖励，以避免再次选择该行为；

若行为系数值大于预设的行为系数阈值，即K(a_e,t,s_t)＞0，则确定预执行行为安全，基于风场分析模型确定预执行行为对应的引导奖励为正奖励。

进一步的，在步骤S103中，根据引导奖励的收益确定奖励参数的步骤包括：

在本发明的实施例中，使用引导奖励帮忙生成奖励参数的过程如下：

获取引导奖励对应的奖励收益，将奖励收益与预设的奖励收益阈值进行对比判断，奖励收益为执行引导奖励得到的效果系数；

若奖励收益大于或等于奖励收益阈值，则利用预执行行为生成观察奖励，并根据引导奖励及观察奖励确定奖励参数；

若奖励收益小于奖励收益阈值，则根据引导奖励确定奖励参数。

进一步的，奖励参数包括：引导奖励及观察奖励，则在步骤S103中，根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛的步骤包括：

将预执行行为发送至预设的环境模型，生成观察奖励；

利用引导奖励及观察奖励生成奖励参数，奖励参数的计算公式如下：

r_u＝(1-γ^t)·r_o+γ^t·r_g

其中，r_u表示奖励参数，γ^t表示折现因子，t表示时间，r_o表示观察奖励，r_g表示引导奖励；

利用奖励参数及预执行行为转变为更新系数，更新系数的表达式如下：

(s_t,a_e,t,r_u,t,s_t+1)

其中，s_t表示t时刻的观察状态，a_e,t表示t时刻的预执行行为，r_u,t表示t时刻的奖励参数，s_t+1表示t+1时刻的观察状态；

利用更新系数更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛。

应当注意的是，在本发明的实施例中，当奖励参数包括：引导奖励，则根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛的步骤包括：

利用引导奖励生成奖励参数，奖励参数的计算公式如下：

r_u＝γ^t·r_g

其中，r_u表示奖励参数，γ^t表示折现因子，t表示时间，r_g表示引导奖励；

(s_t,a_e,t,r_u,t,s_t+1)

进一步的，利用更新系数更新神经网络单元的步骤包括：

采样多个更新系数，构建成神经网络单元更新函数，神经网络单元包括：Q网络及策略网络，神经网络单元更新函数的公式如下：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

其中，y_i表示第i次迭代的神经网络单元更新函数值，r_i表示第i次迭代的奖励参数，γ表示折现因子，s_i+1表示第i+1次迭代的观察状态，Q′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)表示更新的Q网络表达式，θ^Q′表示更新的Q网络参数，μ′(s_i+1|θ^μ′)表示更新的策略网络表达式，θ^μ′表示更新的策略网络参数；

利用神经网络单元更新函数对Q网络进行最小化损失更新，最小化损失更新的公式如下：

及利用Q网络对策略网络进行策略梯度更新，策略梯度更新的公式如下：

其中，

表示策略梯度更新，J表示累积折现奖励，θ^μ表示策略网络参数，S表示观察状态，S_i表示第i次迭代的观察状态，a表示行为，μ(S_i)表示策略网络选择的行为，θ^Q表示Q网络参数，

表示在第i次迭代的观察状态及策略网络选择的行为条件下Q网络对a行为的偏导值，

表示在第i次迭代的观察状态条件下策略网络对策略参数策略网络参数θ^μ的偏导值，n∈[1,∞)。

进一步的，直至代理状态及代理行为确定的执行行为收敛的步骤包括：

根据新的代理状态及新的代理行为确定新的执行行为；

确定执行行为与预执行行为的行为变化值，基于预设的行为变化阈值对行为变化值进行对比判断；

若行为变化值大于行为变化阈值，则获取执行行为的引导奖励，并执行确定预执行行为的引导奖励之后的步骤，直至行为变化值小于预设的行为变化阈值；

若行为变化值小于预设的行为变化阈值，则执行行为的状态为收敛状态。

本发明第二发明提供一种风场协同控制装置，请参阅图2，图2为本发明提供的一种风场协同控制装置的模块方框图，该控制装置包括：

接收模块201，用于接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为，初始代理行为为初始代理状态对应的行为；

处理模块202，用于基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，并确定预执行行为的引导奖励；

更新模块203，用于根据引导奖励的收益确定奖励参数，并根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛；

控制模块204，用于根据执行行为生成控制行为信号，利用控制行为信号控制风场系统。

在本发明的第二方面提供的一种风场协同控制装置，通过接收模块201接收风场系统中神经网络单元发送的初始代理状态，及接收神经网络单元发送的初始代理行为；然后，通过处理模块202基于预设的风场分析模型，利用初始代理状态及初始代理行为确定预执行行为，并确定预执行行为的引导奖励；进一步的，通过更新模块203根据引导奖励的收益确定奖励参数，并根据奖励参数及预执行行为更新神经网络单元，得到新的代理状态及新的代理行为，直至代理状态及代理行为确定的执行行为收敛；最后，通过控制模块204根据执行行为生成控制行为信号，利用控制行为信号控制风场系统。本发明通过获取风场系统的初始代理状态及初始代理行为，然后，基于风场分析模型生成初始代理状态及初始代理行为对应的预执行行为，根据预执行行为生成引导奖励，接着，确定引导奖励的收益，根据奖励的收益确定反馈至神经单元的奖励参数类型，依据预执行行为及奖励参数进行对神经网络单元进行更新处理，完成一次迭代，得到新的代理状态及新的代理行为并确定新的执行行为，直到该确定的执行行为收敛，最后，根据收敛的执行行为得到具有最大化控制风场系统出力的控制行为信号；通过实施本技术方案，可使得每一次迭代过程都基于上一次迭代中的预执行行为及奖励参数更新神经网络单元，以使得新的执行行为在收敛状态之前实现梯度学习，避免了学习过程中的随机性，提高风场控制方法在计算收敛状态的执行行为时的速度，有效降低计算成本。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种风场协同控制方法及装置的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。