CN114341489A

CN114341489A - 基于强化学习的风力涡轮机控制

Info

Publication number: CN114341489A
Application number: CN202080064914.8A
Authority: CN
Inventors: B·戈尔尼克
Original assignee: Siemens Gamesa Renewable Energy AS
Current assignee: Siemens Gamesa Renewable Energy AS
Priority date: 2019-09-16
Filing date: 2020-08-13
Publication date: 2022-04-12
Also published as: WO2021052686A1; EP3792483A1; EP3994353A1; US20220325696A1

Abstract

公开了用于基于强化学习的风力涡轮机控制的方法、系统和设备。该方法包括接收指示风力涡轮机的当前环境状态的数据，基于风力涡轮机的当前环境状态和增强学习算法来确定风力涡轮机的一个或多个控制动作，以及将所确定的一个或多个控制动作应用于风力涡轮机。

Description

基于强化学习的风力涡轮机控制

技术领域

本发明的各种实施例涉及用于通过利用强化学习算法来控制风力涡轮机的方法和设备。

背景技术

风力涡轮机作为更加环保的能源已经使用了很多年。取决于风速，风力涡轮机将产生或多或少的能量。通常，风力涡轮机在低于某一风速下操作是不可行的。

因此，通常，每个风力涡轮机具有预定义切入风速。每当例如由机舱风速计测量的实时风速超过切入风速时，风力涡轮机将启动以产生电力。对于低于切入风速的风速，风力涡轮机空转。

使用简单的预定义阈值作为切入风速的这样的技术面临某些局限和缺点。例如，有时启动风力涡轮机产生能量的可行性不仅取决于本地风速（通常取作轮毂高度上的点测量），而且还取决于其它环境参数。示例包括广域风场，尤其是（在风力涡轮机转子区域之上在垂直和水平二者上的）风切变。此外，垂直风切变主要由温度驱动。另外，湍流强度是风中动能的主要贡献者。温度和场地海拔影响空气密度，空气密度线性影响风场中的能量。

因此，在其中切入风速被本地定义的场景中，风力涡轮机不能被精确控制，并且因此风力涡轮机的电力输出不是最优的。

发明内容

因此，存在对于控制风力涡轮机的先进技术的需求。特别地，存在对于将各种环境参数考虑在内来控制风力涡轮机的需求。

独立权利要求的特征满足这一需求。从属权利要求的特征定义了实施例。

一种控制风力涡轮机的方法包括接收指示风力涡轮机的当前环境状态的数据。该方法还包括基于风力涡轮机的当前环境状态和强化学习算法来确定风力涡轮机的一个或多个控制动作。该方法进一步包括将所确定的一个或多个控制动作应用于风力涡轮机。

一种用于控制风力涡轮机的系统包括一个或多个计算机，所述一个或多个计算机被配置为接收指示风力涡轮机的当前环境状态的数据；基于风力涡轮机的当前环境状态和强化学习算法来确定风力涡轮机的一个或多个控制动作；以及将所确定的一个或多个控制动作应用于风力涡轮机。

一种用于控制风力涡轮机的设备，该设备包括一个或多个处理器，所述一个或多个处理器被配置为接收指示风力涡轮机的当前环境状态的数据；基于风力涡轮机的当前环境状态和强化学习算法来确定风力涡轮机的一个或多个控制动作；以及将所确定的一个或多个控制动作应用于风力涡轮机。

一种计算机程序产品或计算机程序或计算机可读存储介质包括程序代码。程序代码可以由至少一个处理器执行。执行程序代码使所述至少一个处理器施行控制风力涡轮机的方法。该方法包括接收指示风力涡轮机的当前环境状态的数据；基于风力涡轮机的当前环境状态和强化学习算法来确定风力涡轮机的一个或多个控制动作；以及将所确定的一个或多个控制动作应用于风力涡轮机。

应当理解，在不脱离本发明的范围的情况下，上面提到的特征和下面将要解释的特征不仅可以用在所指示的相应组合中，而且可以用在其它组合中或者单独使用。

附图说明

图1示意性地图示了风力涡轮机。

图2示意性地图示了根据各种示例的强化学习算法。

图3示意性地图示了结合强化学习算法的策略π的图解。

图4是用以示意性地图示在本申请的各种实施例中利用的强化学习算法的核心思想的示例状态树。

图5是用于响应于环境状态来控制风力涡轮机的示例方法的流程图。

图6示意性地图示了关于可以被配置为执行用于控制风力涡轮机的方法的系统的方面。

具体实施方式

在下文中，将参考附图详细描述本发明的实施例。应当理解，以下对实施例的描述不应以限制性意义被理解。本发明的范围不意图由下文中描述的实施例或附图来限制，这些实施例或附图仅被理解为说明性的。

附图应被认为是示意性表示和附图中图示的元件，其不一定按比例示出。而是，各种元件被表示为使得它们的功能和一般目的对于本领域技术人员来说变得显而易见。在附图中示出或在本文中描述的功能块、设备、组件或其它物理或功能单元之间的任何连接或耦合也可以通过间接连接或耦合来实现。组件之间的耦合也可以通过无线连接来建立。功能块可以以硬件、固件、软件或其组合来实现。

本文中描述的各种技术一般涉及控制风力涡轮机。更具体地，通过应用一个或多个相应的控制动作，可以控制风力涡轮机的一个或多个操作参数。作为一般规则，受制于控制的操作参数的种类和类型在本文中描述的各种示例中可以变化。例如，可以控制风力涡轮机的启动和空转。

当空转时，风力涡轮机叶片可以是固定的或惯性滑行的（freewheeling）。然而，风力涡轮机的发电机不连接到电网，即，风力涡轮机不将电传输到电网。然后，启动标志着转变到一种模式，在该模式中，能量由发电机生成并通过发电机和电网之间的连接传输到电网。叶片正在旋转并且由风来驱动。

图1示意性地图示了示例性风力涡轮机80。风力涡轮机80包括附接到轮毂82的叶片81。轮毂82连接到安装在塔架84上的机舱83。机舱83容纳发电机，该发电机与连同叶片81一起旋转的轮毂耦合。该连接可以经由轴和齿轮实现。

存在可以受制于控制动作的各种操作参数。示例包括：齿轮的配置；叶片81的螺距角（pitch angle）；启动和空转；机舱82的偏航角等。

与操作参数相关联的控制动作可以基于依赖于强化学习的某个逻辑来确定。

本文中描述的各种技术一般涉及强化学习。强化学习一般描述与采取适当动作（这里：如何将指示环境状态的一个或多个环境参数映射到风力涡轮机的一个或多个控制动作）相关联的机器学习过程，该机器学习过程使回报最大化（这里：存在各种选项，例如电力输出）。强化学习一般不同于监督学习：不需要经标记的训练数据；而是，强化学习使得能够通过监视回报在操作期间进行学习。

接收指示当前环境状态的数据，并确定一个或多个控制动作。

各种技术都基于这样的发现，即其中风力涡轮机具有预定义切入风速的参考技术面临某些局限和缺点。例如，电力输出通常不仅取决于风速，而且取决于完整风场（尤其是在转子区域之上在垂直和水平二者上的风切变），而不只是轮毂高度上的点测量。垂直风切变主要由温度驱动。风速计的安装可能负面地影响风速测量。参数的测量可能是错误的。湍流强度是风中动能的主要贡献者，但不是现有切入程序的一部分。温度和场地海拔驱动空气密度，空气密度线性影响风场中的能量。这些参数中没有一个是关于切入行为的当前控制方案的一部分。因此没有覆盖白天/夜晚或季节变化。

本文中描述的技术通过使用强化学习减轻了这些缺点。如上面所描述的所有这样的环境参数或状态可以与强化学习结合使用。这里，学习过程是永久持续的，并且挑战自我。

在已经确定了一个或多个控制动作之后，将所确定的一个或多个控制动作应用于风力涡轮机80。

图2示意性地图示了关于强化学习算法700的方面。

一般来说，强化学习是机器学习的一种类型，并且它不同于其它的机器学习技术。其固有组件是代理模块703、环境模块701、策略模块702和回报模块704。

强化学习算法700包括环境模块701。环境模块701被配置为接收指示风力涡轮机80的环境的一个或多个环境状态的数据。

可以用于本文中描述的各种示例中的风力涡轮机80的环境状态（或参数）的示例包括温度、叶片的旋转速度、包括经度和纬度的位置、气压、降水量、湿度、本地时间、风速、湍流强度、场地海拔、垂直风切变或水平风切变等。本文中描述的技术是灵活的，因为可以考虑更多或更少数量的环境状态（或参数）。

存在可用于获得指示环境状态的数据的各种选项。例如，指示环境状态的数据可以由一个或多个传感器测量。替代地或附加地，指示环境状态的数据也可以由一个或多个计算机程序模拟或生成，或者由专家输入。例如，指示环境状态的模拟数据可以是响应于从一个或多个传感器获得的测量数据的一个或多个输入的函数的一个或多个输出。例如，专家或工程师可以利用天气模型来模拟极端天气，并获得模拟的环境参数，诸如风速、湍流强度、垂直风切变和水平风切变等。该函数可以是由神经网络表示的线性函数或非线性函数。

强化学习算法700还包括包含一个或多个策略的策略模块702。策略模块702可以确定与从环境状态——从环境模块701获得——到当处于那些状态时要采取的控制动作的映射相关联的策略。对于一些示例，该策略可以是简单的函数或查找表，而在其它示例中，它可能涉及大量计算，诸如搜索过程。此外，该策略也可以是由执行监督学习算法的神经网络实现的非线性函数。

强化学习算法700还包括代理模块703。代理模块703被配置为基于策略模块702的输入来应用一个或多个控制动作。代理模块703与策略模块702协作，并且还与回报模块704协作。

强化算法700还包括回报模块704。回报模块704可以在施行每个确定的动作之后，即在环境状态没有任何改变的情况下，确定短期时间上下文中的回报值。回报模块704还可以确定长期回报值。代理模块703的目的是优化回报值。因此，回报值定义了在给定状态下要施行什么“好”和“坏”动作。回报值可以用于更改策略模块702的策略；如果基于该策略确定的控制动作之后是低回报，则那么该策略可能被改变，以未来在该情形中选择一些其它控制动作。一般而言，回报值可以是环境状态和所采取的控制动作的随机函数值。

接下来，将解释强化学习算法700的功能。

代理模块703与风力涡轮机80的环境交互。参见动作A _t。在该过程中，代理模块703与回报模块704协作，以获得用于确定适当控制动作的回报值。然后代理模块703可以基于先前的回报值确定下一个控制动作，并且以这种方式定义下一个控制动作，这然后将导致新的回报值，等等。因此这些术语——代理、环境、状态、动作（或控制动作）和回报是理解它最重要的术语。

在图2中，下标t指代当前时间步长，以及t + 1指代下一个时间步长。代理模块703处于与当前回报值R _t相关联的当前状态S _t。代理模块703然后应用所确定的控制动作A _t，并且因此也可以改变环境。作为结果，得到回报值R _t+1，其可以是正的或负的，并且状态改变，S _t+1。这由反馈分支710图示。

强化学习的该思想不同于其它机器学习技术。在监督学习中，目标变量是预先已知的，并且算法可以学习因变量和自变量之间的模式。在无监督学习中，没有目标变量是已知的。在强化学习中，新知识是随着时间“学习”的。在这方面，强化学习是无监督和有监督学习的混合。它最接近“人类”学习。

接下来，解释使用强化学习以用于控制风力涡轮机的实际示例，特别是启动和空转。环境状态由环境模块701监视。环境状态对应于现场静止的风力涡轮机80，并且在技术上能够尝试涡轮机启动。环境模块701与风力涡轮机的控制器通信，该控制器可能能够访问所有测量数据并将测量数据提供给环境模块701。代理模块703可以基于从回报模块704获得的参考回报值或预测回报值、风力涡轮机80的当前状态S _t、测量的回报值R _t和策略模块702的策略来应用控制动作。

基于风力涡轮机80的状态和回报，风力涡轮机80可以施行的可能动作是：不启动（保持空转）；启动涡轮机。

状态S _t由对涡轮机的切入有影响的一些或所有参数定义。这些当中的是：（通过机舱风速计）测量的风速；湍流强度；场地海拔；室外温度；垂直或水平风切变（如果这些中的任何一个从更复杂的测量设备或控制算法可获得）。

回报值被定义为风力涡轮机80产生的电力。

施行迭代学习过程，其中每个时间步长的涡轮机80测量其状态并决定动作（启动或不启动）。然后，它得到回报（启动之后产生的电力或静止时的电力）,并有新的状态，这是由它的条件测量定义的。

学习过程是连续的，因为该算法在涡轮机的完整寿命内重复运行，这与预先的一次性参数定义形成对比。

利用该设置，算法700学习适应其周围条件，并且可以每当最佳条件可用时启动风力涡轮机80。学习过程继续进行，因此涡轮机80学习适应新的状态，例如服务技术人员稍微改变风速计的安装并因此改变风速读数，或者它可以适应白天/夜晚改变、季节改变等。

接下来，结合图2解释关于策略模块702的策略的细节。

图3是策略π的图解，通过该策略π，从环境状态s到其可能的后续环境状态s ^'的前瞻。每个空心圆表示环境状态，并且每个实心圆表示状态-动作对（s，a）。从环境状态s（顶部处的根节点）开始，代理模块703可以基于其策略π采取某个动作集中的任何（图解中示出三个）。从这些动作中的每一个，环境模块701可以用若干下一个环境状态s ^'（图中示出两个）中的一个连同回报r来响应，这取决于由函数p给出的其动态。

价值函数指定什么从长远来看是好的。粗略地说，未来状态的值是代理模块703从当前状态开始，通过连续选择控制动作链，在未来可以累积的回报的预测总量。然而回报值确定环境状态的即时期望性，价值函数的值在将可能跟随的状态和那些状态中可用的回报考虑在内之后指示状态链的长期期望性。例如，状态可能总是产生低的回报值，但仍然具有价值函数的高值，因为它经常被产生高回报的其它状态跟随。

由策略模块702考虑的用于表示环境的模型是模仿环境行为的某物，或者更一般地，其允许关于环境将如何表现做出推断。例如，给定状态和动作，模型可以推断下一个状态和下一个回报。

在各种实施例中，求解强化学习任务粗略地意味着找到实现高回报值的策略，例如，对于固定的环境状态立即实现，或者对于变化的环境状态长期实现。如果最优策略的回报值或价值函数值针对所有状态都大于或等于任何其它策略的回报值或价值函数值，则该最优策略被定义为好于或等于任何其它策略。

图4是用以示意性地图示在本申请的各种实施例中利用的强化学习算法的各方面的示例状态树。

该状态树包括多个节点

以及多个边

。s _t指示在时间或步长t处的当前环境状态。s _t+1、s _t+2、s _t+k分别指示在步长或时间t+1，t+2和t+k处的三个未来环境状态。a _t 、a _t+1和a _t+k-1分别指示在状态s _t、s _t+1和s _t+k-1下采取的动作。

s _t、s _t+1、……和s _t+k中的每个环境状态可以是环境状态空间

的子集或全集的成员，其中n可以是有限的或无限的。环境状态空间S的每个成员表示代理已经或将要遇到的环境状态。a _t、a _t+1、……和a _t+k-1中的每个动作可以从动作空间

的子集或全集选择，其中m可以是有限的或无限的。动作空间的每个成员表示已经或将要由代理模块703施行的动作。

存在可用于确定一个或多个控制动作的各种选项。可以应用的两个选项是（i）动作-回报方法和（ii）动作-价值方法。

首先将解释（i）动作-回报方法。

假定在相应的环境状态下采取该相应的动作，每个动作可以与参考回报值相关联。例如，r _t是假定在s _t下采取a _t的情况下的参考回报值，并且r _t可以由a _t和s _t的函数来确定，例如，

，其可以包括线性函数或神经网络。因此，

的不同组合导致不同的参考回报值，并且在s _t下采取的不同动作对应于不同的参考回报值。例如，如果选择a ₈作为在s _t= s ₃下的动作a _t，则

。

例如，用于确定参考回报值的神经网络可以基于以环境状态的历史场地测量为基础的可用训练数据来训练。神经网络可以是卷积神经网络。

在当前状态s _t下，在一些情况下，通过将相应的参考回报值（例如r _t）考虑在内，可以基于作为动作空间A的子集的预定义动作集合（例如

）来确定一个动作（例如a _t）。例如，动作a _t可以被确定为在预定义动作集合中具有最大参考回报值的动作。替代地或附加地，可以使用任意选择（即，使用随机贡献）基于预定义动作集合（例如

）来确定动作a _t。

在一些其它情况下，在当前状态s _t下，可以分别基于更多预定义动作集合（例如

和

），通过将相应的参考回报值（例如r _t和r _t+1）考虑在内，来确定更多的动作（例如a _t和a _t+1）。例如，a _t和a _t+1二者可以分别被确定为在预定义动作集合中具有最大参考回报值的一个。替代地或附加地，可以基于预定义动作集合（例如

和

）使用任意选择（即使用随机贡献）来确定动作a _t和a _t+1。此外，更多预定义动作集合可以是相同的或不同的。

在应用所确定的一个或多个动作之后，强化学习算法将接收与当前回报值相关联的测量数据，所述当前回报值是真实的回报值（即，不是预定义参考回报值）。例如，该测量可以是发电机电力输出的电力测量。例如，在应用a _t或a _t和a _t+1之后，强化学习算法将分别在时间（或步长）t+1或t+2处接收当前回报值。然后，强化学习算法将在参考回报值和当前回报值之间施行比较。此后，基于该比较来训练强化学习算法。如将领会的，强化学习算法因此可以在不需要预定义标记训练数据的情况下被训练（例如，对于监督学习就将是该情况）。而是，在风力涡轮机操作期间，可以使用（在模型中预期的）参考回报值和由测量数据指示的实际回报值之间的比较来实现训练。

接下来，将解释用于确定适当控制动作的（ii）动作值方法。

在一些实施例中，在当前状态s _t下，基于强化学习算法的预定义价值函数，强化学习算法可以预测未来时间点——例如时间t+1或t+k（对于k > 1）——的回报值。价值函数可以包括线性函数或神经网络。因此，获得预测回报值。

例如，可以基于以环境状态的历史场地测量为基础的可用训练数据来训练神经网络。神经网络可以是卷积神经网络。

然后，通过将预测回报值考虑在内，基于对应的动作集合，分别确定一个动作a _t或从a _t到a _t+k-1的动作链。例如，动作a _t或从a _t到a _t+k-1的动作链可以被确定为具有最大预测回报值的动作或链。

在应用所确定的一个动作a _t或从a _t到a _t+k-1的动作链之后，强化学习算法将接收与当前聚合回报值相关联的测量数据。例如，在应用a _t或从a _t到a _t+k-1的动作链之后，强化学习算法将分别在时间（或步长）t+1或t+k处接收当前回报值。然后，强化学习算法将在预测回报值和当前聚合回报值之间施行比较。此后，基于该比较训练强化学习算法。

通过使用强化学习，可以对风力涡轮机的操作控制采取适当的控制动作，而不需要监督或完整的环境模型。强化学习还可以利用尽可能多的环境参数来精确地选择动作。此外，强化学习算法的学习过程在风力涡轮机的正常操作期间继续，因此，代理可以学习适应新的环境状态。因此，通过应用强化学习算法，可以实现最优的短期或长期目标。

图5是用于响应于环境状态来控制风力涡轮机（例如，图1的风力涡轮机80）的示例方法200的流程图。为了方便，该方法将被解释为由位于一个或多个位置中的一个或多个计算机的系统来施行。例如，运行上面提到的一个或多个强化学习算法的强化学习系统可以施行方法200。

图5的方法可以采用如上面结合前述各图所描述的一种或多种强化学习算法700。

在可选步骤201处，在实现增强学习算法来控制风力涡轮机之前，通过使用从其它风力涡轮机或专家知识获得的环境状态、控制动作和净电力输出的元组来预训练增强学习算法。

然后，对于以下步骤，应用（预训练的）强化学习算法。

在步骤202处，接收指示风力涡轮机的当前环境状态的数据。

风力涡轮机的当前环境状态指定以下参数中的至少一个的值：风速、湍流强度、场地海拔、温度、垂直风切变或水平风切变。一个或多个控制动作包括保持空转或启动中的至少一个。

在步骤204处，基于风力涡轮机的当前环境状态和增强学习算法（例如图2的增强学习算法700）来确定风力涡轮机的一个或多个控制动作。

强化学习算法可以利用上面提到的动作回报方法或动作价值方法中的任何一个。此外，强化学习算法还可以利用其它现有的强化学习算法，诸如Q学习、深度Q学习、双重深度Q学习、动态规划（DP）、时间差分（TD）学习、蒙特卡罗方法、策略梯度方法、利用近似的Onpolicy预测（Onpolicy Prediction with Approximation）等。

当确定一个或多个控制动作时，可能的是将一个或多个回报值考虑在内。例如，可以使用参考回报值或预测回报值。回报值特别地可以包括风力涡轮机的净电力输出。

在一些情况下，基于来自预定义集合的预定义控制动作集合（例如，通过适当的选择过程）来确定一个或多个控制动作，其中假定在当前环境状态下确定了该相应的控制动作，预定义控制动作集合中的每个控制动作与参考回报值相关联。

可以通过使用动作回报神经网络处理当前环境状态连同对应的控制动作，来分别生成预定义控制动作集合中的每个控制动作的相应参考回报。可以通过使用从经验获得的标记数据的监督学习来训练动作回报神经网络。替代地，可以搜索存储表示从（环境状态、动作）对到参考回报的映射的阵列或表的数据库。

在一些实现中，动作回报神经网络被配置为接收当前状态连同控制动作作为输入，并且处理当前状态连同控制动作以生成动作的相应参考回报。

基于将相应的参考回报值考虑在内的预定义控制动作集合来确定一个或多个控制动作。例如，一个或多个控制动作可以被确定为具有最大参考回报或最大参考回报总和的一个或多个控制动作。有时，为了平衡强化学习算法的探索和利用，使用任意选择基于预定义控制动作集合来确定一个或多个控制动作。例如，将可能的是以概率

从预定义控制动作集合随机或至少部分随机地选择（任意选择）一个或多个控制动作，并且以概率

选择具有最大参考回报或最大参考回报总和的一个或多个控制动作。优选设置

。

在一些其它情况下，可以基于强化学习算法的预定义价值函数来预测未来时间点的回报值，其中基于将预测回报值考虑在内的预定义控制动作集合来确定一个或多个控制动作。

价值函数用于预测长期回报，诸如若干小时、一整天、一周等等。在该时间尺度上，环境条件通常改变。另一方面，上面提到的参考回报用于估计短期回报，诸如环境条件被认为相当稳定的情况下的一分钟或若干分钟。

例如，将可能的是通过使用动作值神经网络处理当前环境状态连同对应的控制动作链，分别针对从预定义控制动作集合选择的每个可能的控制动作链预测未来时间点的相应回报值。动作值神经网络可以通过使用从经验获得的标记数据的监督学习来训练。替代地，价值函数可以是预定义线性函数。

在一些实现中，动作值神经网络被配置为接收当前状态连同控制动作链作为输入，并且处理当前状态连同控制动作链以生成控制动作链的未来点的相应回报值。

在生成从当前状态开始并在未来点结束的可能控制动作链的所有或部分的回报值之后，可能的是将具有最高预测回报值的控制动作链确定为要施行的一个或多个控制动作。

在步骤206处，所确定的一个或多个控制动作被应用于风力涡轮机。在通过强化学习算法确定一个或多个控制动作之后，可能的是应用一个或多个控制动作来控制风力涡轮机。

在一些情况下，对于动作回报方法，在应用所确定的一个或多个控制动作时，接收与当前回报值相关联的测量数据，并且施行参考回报值和当前回报值之间的比较，并且基于该比较来训练强化学习算法。

在一些其它情况下，对于动作值方法，在应用所确定的一个或多个控制动作时，可能的是接收与当前聚合回报值相关联的测量，施行预测回报值和当前聚合回报值之间的比较，并且基于该比较来训练强化学习算法。

此外，参考回报或预定义价值函数包括风力涡轮机的净电力输出或用于评估风力涡轮机性能的其它参数。

用于控制风力涡轮机的方法200可以通过增强学习算法从与环境的直接交互学习，而不需要示例性的监督或环境的完整模型。强化学习算法还可以利用尽可能多的环境参数来精确地选择风力涡轮机的控制动作。此外，强化学习算法的学习过程永不结束，因此，强化学习算法可以学习适应新的环境状态。因此，通过应用强化学习算法来控制风力涡轮机，可以实现最优的短期和/或长期目标，诸如风力涡轮机的净电力输出。

在各种实施例中，可以使用环境状态预测模型对风力涡轮机的未来环境状态施行预测。环境状态预测模型可以是神经网络。

环境状态预测神经网络被配置为接收当前天气信息和风力涡轮机的机械结构信息作为输入以生成未来环境状态，包括以下参数中的至少一个的预测：风速、湍流强度、场地海拔、温度、垂直风切变或水平风切变。当前天气信息包括由天气卫星或雷达捕获的各种图像和/或数据、由天气站处的装备或设备测量的数据。

此外，环境状态预测神经网络可以接收当前天气信息和风力涡轮机的机械结构信息，并且可以生成未来的环境状态。然后，可能的是不仅基于风力涡轮机的当前环境状态，而且基于风力涡轮机的未来环境状态和强化学习算法来确定风力涡轮机的一个或多个控制动作。通过进一步将未来环境状态考虑在内来预测短期回报和长期回报二者。

通过进一步将未来环境状态的预测考虑在内，用于控制风力涡轮机的方法200可以利用更多的环境信息来确定更精确和可靠的控制动作，并进一步获得更多的电力输出。

图6示意性地图示了关于设备400的方面。设备400包括一个或多个处理器410和存储器420。一个或多个处理器410可以从存储器420加载程序代码，并执行加载的程序代码。程序代码可以定义强化学习算法700和模块701-704（参见图2）。然后，一个或多个处理器410可以施行如本文中所描述的各种技术来控制风力涡轮机310。一个或多个处理器410可以包括CPU、GPU、TPU或任何其它神经网络处理器。

具体地，一个或多个处理器410被配置为接收风力涡轮机80的当前环境状态，基于风力涡轮机80的当前环境状态和增强学习算法来确定风力涡轮机80的一个或多个控制动作，并将所确定的一个或多个控制动作应用于风力涡轮机80。

风力涡轮机80因此可以包括通信接口71、一个或多个传感器72和控制单元73。

设备400包括通信接口430。例如，设备400可以经由通信接口430从与风力涡轮机80相关联的传感器72接收风力涡轮机80的当前环境状态。还将可能的是，设备400从属于气象中心的数据库340接收当前天气信息。此外，设备400可以经由通信接口430向风力涡轮机80的控制元件73发送包括一个或多个控制动作的控制信号。

设备400可以包括用户接口440，用于用户与设备400交互。例如，用户可以经由用户接口440将数据或信息输入到设备400中，所述数据或信息诸如从其它风力涡轮机或专家知识、风力涡轮机的机械结构信息获得的环境状态、控制动作和净电力输出的元组。

设备400可以用于分别执行上面提到的回报神经网络、价值神经网络和环境状态预测神经网络的程序代码。

总而言之，已经描述了基于强化学习来控制风力涡轮机的技术。这用于高效利用各种环境信息——包括但不限于风速——来控制风力涡轮机，从而实现风力涡轮机的最优电力输出。

Claims

1.一种控制风力涡轮机（80）的方法，包括：

接收（202）指示风力涡轮机（80）的当前环境状态的数据；

基于风力涡轮机（80）的当前环境状态和强化学习算法（700）来确定（204）风力涡轮机（80）的一个或多个控制动作；以及

将所确定的一个或多个控制动作应用（206）于风力涡轮机（80）。

2.根据权利要求1所述的方法，其中风力涡轮机（80）的当前环境状态指定以下中的一个或多个：风速、湍流强度、场地海拔、温度、垂直风切变或水平风切变。

3.根据权利要求1或2中任一项所述的方法，其中所述一个或多个控制动作包括保持空转或启动中的至少一个。

4.根据前述权利要求中任一项所述的方法，其中所述一个或多个控制动作是基于预定义控制动作集合来确定的，其中假定在当前环境状态下确定了该相应的控制动作，预定义控制动作集合中的每个控制动作与参考回报值相关联。

5.根据权利要求4所述的方法，其中所述一个或多个控制动作是基于将相应的参考回报值考虑在内的预定义控制动作集合来确定的。

6.根据权利要求4所述的方法，其中所述一个或多个控制动作是使用任意选择基于预定义控制动作集合来确定的。

7.根据权利要求4至6中任一项所述的方法，进一步包括：

在应用所确定的一个或多个控制动作时：接收与当前回报值相关联的测量数据；

施行参考回报值和当前回报值之间的比较；以及

基于所述比较来训练强化学习算法（700）。

8.根据权利要求1至3中任一项所述的方法，进一步包括：

基于强化学习算法（700）的预定义价值函数来预测未来时间点的回报值，其中基于将预测回报值考虑在内的预定义控制动作集合来确定所述一个或多个控制动作。

9.根据权利要求8所述的方法，其中所述价值函数包括线性函数或神经网络。

10.根据权利要求8或9中任一项所述的方法，进一步包括：

在应用所确定的一个或多个控制动作时：接收与当前聚合回报值相关联的测量数据；

施行预测回报值和当前聚合回报值之间的比较；以及

基于所述比较来训练强化学习算法（700）。

11.根据权利要求4至10中任一项所述的方法，其中所述回报值包括风力涡轮机（80）的净电力输出。

12.根据前述权利要求中任一项所述的方法，进一步包括：

通过使用从其它风力涡轮机（80）或专家知识获得的环境状态、控制动作和净电力输出的元组来预训练（201）强化学习算法（700）。

13.一种用于控制风力涡轮机（80）的设备，所述设备包括一个或多个处理器，所述一个或多个处理器被配置为：

接收指示风力涡轮机（80）的当前环境状态的数据；

基于风力涡轮机（80）的当前环境状态和强化学习算法（700）来确定风力涡轮机（80）的一个或多个控制动作；以及

将所确定的一个或多个控制动作应用于风力涡轮机（80）。

14.根据权利要求13所述的设备，其中所述一个或多个处理器被配置为施行权利要求1至12中任一项所述的方法。