CN114341488A

CN114341488A - 基于强化学习的风力涡轮机偏航偏移控制

Info

Publication number: CN114341488A
Application number: CN202080064813.0A
Authority: CN
Inventors: B·戈尔尼克
Original assignee: Siemens Gamesa Renewable Energy AS
Current assignee: Siemens Gamesa Renewable Energy AS
Priority date: 2019-09-16
Filing date: 2020-08-03
Publication date: 2022-04-12
Also published as: US20220307468A1; EP3792484A1; US12037981B2; EP3997335A1; WO2021052669A1

Abstract

公开了用于基于强化学习来控制上游风力涡轮机的偏航偏移的方法、系统和设备。所述方法包括接收指示第一风力涡轮机的当前状态和沿着风向在下游与第一风力涡轮机相邻的第二风力涡轮机的当前状态的数据，基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态和强化学习算法确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作，以及将所确定的一个或多个控制动作应用于第一风力涡轮机。

Description

基于强化学习的风力涡轮机偏航偏移控制

技术领域

本发明的各种实施例涉及通过利用强化学习来控制一个或多个风力涡轮机的偏航偏移的方法和设备。

背景技术

风力涡轮机作为一种更加环保的能源已经使用了很多年。世界各地建造了越来越多的陆上和海上风力涡轮机农场。目前，风电场以这样的方式操作，即风电场的每个风力涡轮机根据贝茨极限在其各自的最佳操作点操作。

使风电场的每个风力涡轮机在其各自的最佳操作点操作的这种技术面临某些限制和缺陷。与孤立的风力涡轮机的功率输出相比，风电场中附近的风力涡轮机之间的相互作用改变了功率输出。例如，沿着风向，上游风力涡轮机生成影响下游风力涡轮机的尾流。这样的影响会降低风电场的整体性能（例如，总功率输出）。

当风力涡轮机从风中提取能量时，尾流区域中的风速降低，并且下游风力涡轮机接收降低的风速。在大型风电场中，其中风力涡轮机成行成列地布置，下游风力涡轮机通常在上游风力涡轮机的尾流区域中操作。这导致下游风力涡轮机的功率输出降低。风电场的每个风力涡轮机在其最佳水平下的操作可能不会导致风电场的最大总/聚合功率输出。

研究风电场中尾流效应最常用的尾流模型之一是Park和Jensen模型。根据Park和Jensen模型，旋转风力涡轮机的机舱（偏航）会改变风力涡轮机后面尾流的方向，并导致偏航偏移。偏航偏移能够影响单个风力涡轮机的发电量。典型地，风力涡轮机的偏航偏移越大，风力涡轮机的发电量越少。偏航偏移是转子平面的轴线和来风方向之间围绕垂直于水平面的旋转轴的角度偏移。如果风力涡轮机以使得转子平面垂直面对风的方式操作，那么偏航偏移是零度。

风力涡轮机典型地以使得它们面对垂直于转子平面的风这样的方式操作。这是零偏航偏移的状态。风力涡轮机从该定位的任何旋转都将改变偏航偏移。从零度定位改变偏航偏移使风力涡轮机后面的尾流偏转，并进一步影响风力涡轮机的功率输出。

尽管上游风力涡轮机的尾流对下游风力涡轮机的影响可以通过设置上游风力涡轮机的偏航偏移来减轻甚至消除，但是上游风力涡轮机的发电量将同时降低。因此，通过调整风力涡轮机农场中的一些或所有风力涡轮机的偏航偏移来实现风电场的最佳（最大）总功率输出是具有挑战性且困难的。

发明内容

因此，需要控制风力涡轮机的偏航偏移的先进技术。

独立权利要求的特征满足了这一需求。从属权利要求的特征定义了实施例。

一种控制第一风力涡轮机（上游风力涡轮机）的偏航偏移的方法包括：接收指示第一风力涡轮机的当前状态和沿着风向在下游与第一风力涡轮机相邻的第二风力涡轮机（下游风力涡轮机）的当前状态的数据，基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态和强化学习算法确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作，并将所确定的一个或多个控制动作应用于第一风力涡轮机。

计算机程序或计算机程序产品或计算机可读存储介质包括可以由至少一个处理器执行的程序代码。执行程序代码使得所述至少一个处理器执行控制第一风力涡轮机（上游风力涡轮机）的偏航偏移的方法。该方法包括接收指示第一风力涡轮机的当前状态和沿着风向在下游与第一风力涡轮机相邻的第二风力涡轮机（下游风力涡轮机）的当前状态的数据。该方法还包括基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态和强化学习算法来确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作，并将所确定的一个或多个控制动作应用于第一风力涡轮机。

一种用于控制第一风力涡轮机的偏航偏移的设备包括一个或多个处理器。所述一个或多个处理器被配置为接收指示第一风力涡轮机的当前状态和在下游与第一风力涡轮机相邻的第二风力涡轮机的当前状态的数据，基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态和强化学习算法确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作，并将所确定的一个或多个控制动作应用于第一风力涡轮机。

一种控制沿风向按顺序布置的多个风力涡轮机的偏航偏移的方法，包括接收指示多个风力涡轮机中的每个风力涡轮机的相应当前状态的数据，基于多个风力涡轮机中的风力涡轮机的当前状态和强化学习算法确定与多个风力涡轮机的偏航偏移相关联的控制动作，以及将所确定的控制动作应用于多个风力涡轮机中的风力涡轮机。

计算机程序或计算机程序产品或计算机可读存储介质包括可以由至少一个处理器执行的程序代码。执行所述程序代码使得所述至少一个处理器执行控制沿风向按顺序布置的多个风力涡轮机的偏航偏移的方法。该方法包括接收指示多个风力涡轮机中的每个风力涡轮机的相应当前状态的数据，基于多个风力涡轮机中的风力涡轮机的当前状态和强化学习算法来确定与所述多个风力涡轮机的偏航偏移相关联的控制动作，以及将所确定的控制动作应用于所述多个风力涡轮机中的风力涡轮机。

一种用于控制沿风向按顺序布置的多个风力涡轮机的偏航偏移的设备包括一个或多个处理器。所述一个或多个处理器被配置为接收指示多个风力涡轮机中的每个风力涡轮机的相应当前状态的数据，基于多个风力涡轮机中的风力涡轮机的当前状态和强化学习算法确定与多个风力涡轮机的偏航偏移相关联的控制动作，并将控制动作应用于多个风力涡轮机中的风力涡轮机。

应当理解，在不脱离本发明的范围的情况下，上面提到的特征和下面将要解释的特征不仅可以用在所指示的相应组合中，还可以用在其他组合中或者单独使用。

附图说明

图1示意性地图示了风电场的一部分，其包括根据各种示例的4行4列风力涡轮机；

图2 - 4示意性地图示了三个相继的时间步的三个示例性场景，其指示上游风力涡轮机的偏航偏移对上游风力涡轮机和下游风力涡轮机的总功率输出的影响；

图5示意性地图示了示例性风力涡轮机；

图6示意性地图示了关于强化学习算法700的各方面；

图7是策略

的备份图；

图8是示例状态树，其示意性地图示了在本申请的各种实施例中利用的强化学习算法的核心思想；

图9是用于控制风力涡轮机对中的上游风力涡轮机的偏航偏移的示例方法的流程图；

图10是用于控制沿风向按顺序布置的多个风力涡轮机的偏航偏移的示例方法的流程图；

图11示意性地图示了关于用于控制风力涡轮机对中的上游风力涡轮机的偏航偏移的设备的方面；

图12示意性地图示了关于用于控制沿风向按顺序布置的多个风力涡轮机的偏航偏移的设备的各方面。

具体实施方式

在下文中，将参照附图详细描述本发明的实施例。应当理解，以下对实施例的描述不应被理解为限制性的。本发明的范围不旨在由下文描述的实施例或附图来限制，这些实施例或附图仅被认为是说明性的。

附图被认为是附图中图示的示意性表示和元件，其不一定按比例示出。相反，各种元件被表示为使得它们的功能和一般目的对于本领域技术人员来说变得显而易见。在附图中示出或在本文中描述的功能块、设备、组件或其他物理或功能单元之间的任何连接或耦合也可以通过间接连接或耦合来实现。组件之间的耦合也可以通过无线连接来建立。功能块可以用硬件、固件、软件或其组合来实现。

本文描述的各种技术总体上涉及控制风力涡轮机偏航偏移。更具体地，风电场中的一个或多个风力涡轮机的偏航偏移可以通过应用一个或多个控制动作来控制，例如，当一个或多个风力涡轮机正在启动时。因此，由一个或多个风力涡轮机生成的尾流可以以受控的方式转向，并且尾流对下游风力涡轮机的影响可以减小或减轻。因此，风电场可以提供更高的聚合功率输出或者甚至最大功率输出。

考虑包括多行多列的风力涡轮机的风电场200，图1示意性地图示了风电场200的一部分。风以箭头205所指示的方向吹动。风力涡轮机农场200的部分包括4行4列的风力涡轮机201a-201p。风力涡轮机农场200的每个风力涡轮机生成尾流。例如，风力涡轮机201e和201f在零偏航偏移的状态下操作，并且分别生成尾流210和211。因此，风力涡轮机201f和201g分别位于尾流210和211中，并且提供较少的个体功率输出。另一方面，风力涡轮机201i和201j在非零偏航偏移的状态下操作，并且分别生成尾流212和213。尾流212和213不会影响相应的下游风力涡轮机201j和201k。因此，风力涡轮机201k可以提供比风力涡轮机201g更高的个体功率输出。然而，由于非零偏航偏移，风力涡轮机201i提供比风力涡轮机201e更小的个体功率输出。

各种技术基于这样的发现，即难以控制上游风力涡轮机201e或201i的偏航偏移，以使上游风力涡轮机201e或201i和下游风力涡轮机201f或201j这两者均提供更高的功率输出。

例如，图2-4示意性地图示了三个相继的时间步的三个示例性场景，其示出了上游风力涡轮机（例如，风电场200的风力涡轮机201i）的偏航偏移800对上游风力涡轮机和下游风力涡轮机（例如，风电场200的风力涡轮机201j）的总功率输出的影响。

在图2中，上游风力涡轮机201i具有零度偏航偏移的状态，并且生成直接撞击下游风力涡轮机201j的尾流212。上游风力涡轮机201i可以生成其自身的1,000 kW的最佳功率输出。另一方面，由于尾流212的影响，下游风力涡轮机201j仅生成300 kW的功率输出。总的来说，两个风力涡轮机可以生成总和为1,300 kW的功率输出。

在将上游风力涡轮机201i的偏航偏移800设置为+10度之后，如图3所示，上游风力涡轮机201i进入具有+10度偏航偏移的新状态，并生成不会撞击下游风力涡轮机201j的新尾流212。上游风力涡轮机201i可以生成800 kW的功率输出，由于+10度的偏航偏移，这小于其最佳功率输出。另一方面，下游风力涡轮机201j可以生成700 kW的功率输出，因为尾流212对其自身没有影响。总的来说，两个风力涡轮机可以生成总和为1,500 kW的功率输出，这大于图2的功率输出。

通过进一步将上游风力涡轮机201i的偏航偏移800增加到+15度，如图4所示，上游风力涡轮机201i呈现具有+15度偏航偏移的另一状态，并且生成也不会撞击下游风力涡轮机201j的另一尾流212。上游风力涡轮机201i可以生成400 kW的功率输出，由于偏航偏移的增加，该功率输出小于其先前的功率输出。另一方面，下游风力涡轮机201j仍然可以生成700 kW的功率输出，因为尾流212仍然不影响下游风力涡轮机201j。总的来说，两个风力涡轮机可以生成总和为1,100 kW的功率输出，这在三个相继的时间步之中是最小的。

可以执行本文所述的各种技术来将上游风力涡轮机201i的偏航偏移800设置为一个角度，以获得上游风力涡轮机201i和下游风力涡轮机201j提供大的功率输出的状态。

图5示意性地图示了示例性风力涡轮机10，其可以是风电场200中的任何风力涡轮机，诸如风力涡轮机201a-201p。风力涡轮机10包括附接到转子12的叶片11。转子12连接到安装在塔架14上的机舱13。机舱13容纳发电机，该发电机与随叶片11一起旋转的转子12耦合。这种连接可以经由轴和齿轮。偏航偏移是转子12平面的轴线和来风方向（例如，图1的风向205）之间的角度偏移。

本发明的各种实施例提供了用于确定与一个或多个风力涡轮机的偏航偏移相关联的一个或多个控制动作以最大化类似风电场200的风电场的总功率输出的方法和设备。所述一个或多个控制动作可以基于依赖于强化学习的特定逻辑来确定。

本文描述的各种技术一般涉及强化学习。强化学习通常描述了与采取适当的动作相关联的机器学习过程（这里：如何将指示第一（或上游）风力涡轮机和与第一风力涡轮机相邻的第二（或下游）风力涡轮机的状态的一个或多个环境参数映射到与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作），所述动作使奖励（这里：存在各种选项，例如，第一风力涡轮机和第二风力涡轮机的总功率输出）最大化。强化学习一般不同于监督学习：不需要标记的训练数据；相反，强化学习使得能够通过监控奖励来在操作期间进行学习。

接收指示第一风力涡轮机201i的当前状态和沿着风向在下游与第一风力涡轮机201i相邻的第二风力涡轮机201j的当前状态的数据，并且使用该信息确定与第一风力涡轮机201i的偏航偏移800相关联的一个或多个控制动作。这种确定特别是基于强化学习。

各种技术基于这样的发现，即参考技术——其中风电场200的每个风力涡轮机在其各自的最佳操作点操作——面临某些限制和缺陷。例如，风力涡轮机农场200中附近的风力涡轮机之间的相互作用与其独立值相比修改了功率。沿着风向205，上游风力涡轮机201i生成尾流212，尾流212影响下游风力涡轮机201j并进一步降低风电场200的整体性能（例如，总发电量）。众所周知，如果下游涡轮机201j处于上游风力涡轮机201i的完全尾流中，则风电场200的整体性能不是最佳的。

本文描述的技术通过使用强化学习减轻了这些缺陷。指示本文描述的风力涡轮机的状态的各种种类和类型的环境参数可以与强化学习结合使用。在这里，学习过程是永久持续的，并且是自我挑战的。风电场200的每个风力涡轮机的偏航偏移的优化控制将通过使尾流（例如，210、211、212、213等）转向来提高每上游和下游风力涡轮机对（例如，201a和201b、201b和201c、201c和201d、201e和201f、201o和201p）的性能。本文所述的技术可有助于减少由于相邻风力涡轮机的干扰而导致的整个风电场200的性能损失。

在已经确定了与第一风力涡轮机201i的偏航偏移800相关联的一个或多个控制动作之后，将所确定的一个或多个控制动作应用于第一风力涡轮机201i。然后，用于控制偏航偏移800的相同方法或程序可以应用于相邻的一对风力涡轮机对201j和201k中的另一个风力涡轮机201j，例如，直到风电场200的所有风力涡轮机的偏航偏移800已经通过对应的控制动作被适当地设置。

图6示意性地图示了关于强化学习算法700的各方面。

一般来说，强化学习是机器学习的一种类型，并且它不同于其他的机器学习技术。其固有组件是智能体（agent）模块703、环境模块701、策略模块702和奖励模块704。

强化学习算法700包括环境模块701。环境模块701被配置为接收指示第一风力涡轮机201i的当前状态的数据和指示在下游与第一风力涡轮机201i相邻的第二风力涡轮机201j的当前状态的数据。

可以在本文描述的各种示例中使用的指示第一风力涡轮机201i和第二风力涡轮机201j的状态的数据的示例包括风向、风速或偏航偏移。数据的示例还可以包括尾流212的位置、温度、叶片11的转速、包括经度和纬度的风力涡轮机的位置、气压、降雨量、湿度、当地时间、湍流强度、场地海拔、垂直风切变或水平风切变等。尾流212的位置可以由第二风力涡轮机201j确定。本文描述的技术是灵活的，因为可以考虑更多或更少数量的状态（或参数）。

存在各种选项可用于获得指示第一风力涡轮机和第二风力涡轮机的状态的数据。例如，指示状态的数据可以由一个或多个传感器测量。可替代地或附加地，指示状态的数据也可以由一个或多个计算机程序模拟或生成，或者由专家输入。例如，指示状态的模拟数据可以是函数响应于从一个或多个传感器获得的测量数据的一个或多个输入的一个或多个输出。例如，专家或工程师可以利用天气模型来模拟极端天气，并获得模拟的环境参数，诸如风速、湍流强度、垂直风切变和水平风切变等。该函数可以是线性函数或由神经网络表示的非线性函数。

强化学习算法700还包括包含一个或多个策略的策略模块702。策略模块702可以确定与从环境模块701获得的第一风力涡轮机和第二风力涡轮机的状态到当处于这些状态时要采取的与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作的映射相关联的策略。对于一些示例，该策略可以是简单的函数或者存储所有或部分可能的状态-动作对的查找表，而在其他示例中，它可能涉及大量计算，诸如搜索过程。此外，该策略也可以是由执行有监督学习算法的神经网络实现的非线性函数。

强化学习算法700还包括智能体模块703。智能体模块703被配置为基于策略模块702的输入来应用一个或多个控制动作。智能体模块703与策略模块702协作，并且还与奖励模块704协作。

强化学习算法700还包括奖励模块704。奖励模块704可以在执行每个确定的动作之后确定短期时间上下文中——即，状态没有任何改变的情况下——的奖励值。奖励模块704还可以确定长期奖励值。智能体模块703的目的是优化奖励值。因此，奖励值定义了在给定状态下要执行的“好”和“坏”的控制动作。奖励值可以用于更改策略模块702的策略；如果基于该策略确定的控制行为之后是低奖励，则该策略可能会被改变，以在将来的情况下选择一些其他控制行为。通常，奖励值可以是第一风力涡轮机和第二风力涡轮机的状态以及所采取的控制动作的随机函数的值。

接下来，将解释强化学习算法700的功能。

智能体模块703与由环境模块701获得的第一风力涡轮机和第二风力涡轮机的状态相互作用。请参见动作A _t。在该过程中，智能体模块703与奖励模块704合作，以获得奖励值，用于确定适当的控制动作。那么智能体模块703可以基于先前的奖励值确定下一个控制动作，并且以这种方式定义下一个控制动作，这将导致新的奖励值，等等。所以这些术语，智能体、环境、状态、动作（或控制动作）和奖励，是理解它最重要的术语。

在图6中，下标t指代当前时间步，并且t+1指代下一个时间步。智能体模块703处于与当前奖励值R _t相关联的当前状态S _t。智能体模块703然后应用所确定的控制动作A _t，并且因此也可以改变环境（或状态）。结果，获得奖励值R _t+1，它可以是正的或负的，并且状态改变，S _t+1。这由反馈分支710图示。

这种强化学习的思想不同于其他机器学习技术。在有监督学习中，目标变量是预先已知的，算法可以学习因变量和自变量之间的模式。在无监督学习中，目标变量是未知的。在强化学习中，新知识是随着时间“学习”的。在这方面，强化学习是无监督学习和有监督学习的混合。它最接近于“人类”学习。

接下来，解释使用强化学习来控制第一风力涡轮机的偏航偏移800的实际示例。指示第一风力涡轮机和第二风力涡轮机的状态的数据由环境模块701监控。第一风力涡轮机和第二风力涡轮机的状态对应于风力涡轮机农场200中的上游和下游风力涡轮机对。环境模块701与第一风力涡轮机的控制器和第二风力涡轮机的控制器通信，第一风力涡轮机的控制器和第二风力涡轮机的控制器可以访问指示第一风力涡轮机和第二风力涡轮机的状态的所有数据，并将数据提供给环境模块701。智能体模块703可以基于从奖励模块704获得的预定义价值函数的参考奖励值或预测奖励值、第一风力涡轮机和第二风力涡轮机的当前状态S _t、测量的奖励值R _t以及策略模块702的策略来应用控制动作。

基于奖励以及第一风力涡轮机和第二风力涡轮机的状态，第一风力涡轮机可以执行的可能动作包括：将第一风力涡轮机的偏航偏移800设置在-45°和+45°的范围内。

状态S _t由对控制第一风力涡轮机的偏航偏移有影响的一些或所有参数来定义。其中包括：测量的风速（通过机舱风速计）；尾流的位置；湍流强度；场地海拔；室外温度；垂直或水平风切变（如果这些从更复杂的测量设备或控制算法中可获得的话）。

奖励值被定义为第一风力涡轮机和第二风力涡轮机的总发电量输出。

执行迭代学习过程，其中第一（上游）风力涡轮机和第二（下游）风力涡轮机针对每个时间步分别测量它们的状态，并且针对第一风力涡轮机确定动作（将第一风力涡轮机的偏航偏移设置在-45°和+45°的范围内）。然后，获得奖励（在设置第一风力涡轮机的偏航偏移之后，第一风力涡轮机和第二风力涡轮机的总功率输出），并且第一风力涡轮机和第二风力涡轮机分别得到新的状态，这分别由它们的状况测量来定义。

学习过程是连续的，因为算法在涡轮机的整个寿命期间重复运行，这与预先的一次性参数定义形成对比。

利用这种设置，算法700学会适应其环境状况，并且可以通过设置第一风力涡轮机的偏航偏移来实现第一风力涡轮机和第二风力涡轮机的最佳总功率输出。学习过程继续进行，因此第一风力涡轮机和第二风力涡轮机学习适应新的状态。

接下来，结合图7解释关于策略模块702的策略的细节。

图7是策略

的备份图，通过它图示了从状态s到其可能的后续状态s^.的前瞻。每个空心圆表示一个状态，并且每个实心圆表示一个状态-动作对（s, a）。从状态s（顶部的根节点）开始，智能体模块703可以基于它的策略

采取一些动作集——图中示出为三个动作集——中的任何一个。从这些动作集中的每一个，环境模块701可以利用几个下一状态s^.（图中示出为两个）中的一个以及奖励r来响应，这取决于由函数p给出的它的动态。

价值函数指定从长期来看什么是好的。粗略地说，未来状态的值是智能体模块703从当前状态开始，通过相继选择动作链，在未来可以累积的预测奖励总量。奖励确定了状态的即时合期望性，而价值函数的值指示了在考虑了可能跟随的状态和这些状态中可获得的奖励之后，状态链的长期合期望性。例如，状态可能总是产生低奖励值，但是仍然具有高的价值函数值，因为它经常被产生高奖励值的其他状态跟随。

由策略模块702考虑的用于表示环境的模型是模仿环境行为的某种模型，或者更一般地，其允许关于环境将如何表现做出推断。例如，给定一个状态和动作，模型可以推断下一个状态和下一个奖励。

在各种实施例中，解决强化学习任务粗略地意味着，找到实现高奖励值的策略，例如，对于固定状态立即实现高奖励值，或者对于变化状态长期实现高奖励值。如果针对所有状态，一个最佳策略的即时奖励值或价值函数值大于或等于任何其他策略，则该策略被定义为优于或等于任何其他策略。

图8是示例状态树，用于示意性地图示在本申请的各种实施例中使用的强化学习算法的各方面。该状态树包括多个节点（s _t , s _t+1 , ......, s _t+k），以及多条边（a _t , a _t+1 , ......, a _t+k-1）。s _t指示在时间或步t处的当前状态。s _t+1、s _t+2、s _t+k分别指示在步或时间t+1、t+2和t+k处的三个未来状态。a _t 、a _t+1和a _t+k-1分别指示在状态s _t、s _t+1和s _t+k-1处采取的动作。

s _t , s _t+1 , ......, 和s _t+k中的每个状态可以是状态空间S = {s ₁ , s ₂ , ..., s _n-1 , s _n}的子集或全集的成员，其中n可以是有限的或者是无限的。状态空间S的每个成员表示智能体模块703已经遇到或将要遇到的状态。a _t , a _t+1 , ......, 和a _t+k-1中的每个动作可以选自动作空间A ={a ₁ , a ₂ , ..., a _m}的子集或全集，其中m可以是有限的或者是无限的。动作空间的每个成员表示已经或将要由智能体模块703执行的动作。

存在各种选项可用于确定一个或多个控制动作。可以应用的两个选项是（i）动作-奖励方法和（ii）动作-价值方法。

首先（i）将解释动作-奖励方法。每个动作可以与假定在相应的状态下采取相应的动作的参考奖励值相关联。例如，r _t是假定在s _t处采取a _t的参考奖励值，并且r _t可以由a _t和s _t的函数来确定，例如，r _t =f (s _t, a _t)，其可以包括线性函数或神经网络。因此，（s _t, a _t）的不同组合导致不同的参考奖励值，并且在s _t处采取的不同动作对应于不同的参考奖励值。例如，r _t =f(s ₃,a ₈)，如果选择a ₈作为在s _t = s ₃处时的动作。

例如，用于确定参考奖励值的神经网络可以基于可基于状态的历史现场测量获得的训练数据来训练。神经网络可以是卷积神经网络。

在当前状态s _t处，在一些情况下，通过考虑相应的参考奖励值，例如r _t，可以基于作为动作空间A的子集的预定义的动作集，例如{a ₁, a ₃, a ₈, ... a _m-1}，来确定一个动作，例如a _t。例如，动作a _t可以被确定为预定义动作集中具有最大参考奖励值的动作。可替代地或附加地，可以使用任意选择（即，使用随机贡献）基于预定义动作集，例如{a ₁, a ₃, a ₈, ...a _m-1}，来确定动作a _t。

在一些其他情况下，在当前状态s _t处，可以基于更多预定义动作集，例如分别是{a ₁, a ₃, a ₈, ... a _m-1}和{a ₂, a ₅, a ₁₆, ... a _m-10}，通过考虑相应的参考奖励值，例如r _t和r _t+1，来确定更多动作，例如a _t和a _t+1。例如，a _t和a _t+1这两者可以分别被确定为在预定义动作集中具有最大参考奖励值的一个动作。可替代地或附加地，可以基于预定义动作集，例如{a ₁, a ₃, a ₈, ... a _m-1}和{a ₂, a ₅, a ₁₆, ... a _m-10}，使用任意选择（即，使用随机贡献），来确定动作a _t和a _t+1。此外，更多预定义动作集可以是相同的或不同的。

在应用所确定的一个或多个动作之后，强化学习算法将接收与当前奖励值相关联的测量数据，当前奖励值是真实的奖励值（即，不是预定义的参考奖励值）。例如，该测量可以是第一风力涡轮机的发电机和第二风力涡轮机的发电机的功率输出的功率测量。例如，在应用a _t或a _t和a _t+1之后，强化学习算法将分别在时间（或步）t+1或t+2处接收当前奖励值。然后，强化学习算法将在参考奖励值和当前奖励值之间执行比较。然后，基于所述比较来训练强化学习算法。如应当领会的那样，强化学习算法因此可以在不需要预定义的标记训练数据（例如，对于有监督学习，则需要预定义的标记训练数据）的情况下被训练。相反，在风力涡轮机的操作期间，可以使用参考奖励值（在模型中预期的）和由测量数据指示的实际奖励值之间的比较来实现训练。

接下来，将解释（ii）用于确定适当控制动作的动作-价值方法。

在一些实施例中，在当前状态s _t处，基于强化学习算法的预定义价值函数，强化学习算法可以预测未来时间点——例如时间t+ 1或t+k，k > 1——处的奖励值。价值函数可以包括线性函数或神经网络。因此，获得了预测的奖励值。

例如，神经网络可以基于可基于状态的历史现场测量获得的训练数据来训练。神经网络可以是卷积神经网络。

然后，通过考虑预测的奖励值，基于对应的动作集，相应地确定一个动作a _t或从a _t到a _t+k-1的动作链。例如，动作a _t或从a _t到a _t+k-1的动作链可以被确定为具有最大预测奖励值的动作或动作链。

在应用所确定的一个动作a _t或从a _t到a _t+k-1的动作链之后，强化学习算法将接收与当前聚合奖励值相关联的测量数据。例如，在应用a _t或从a _t到a _t+k-1的动作链之后，强化学习算法将分别在时间（或步）t+1或t+k处接收当前奖励值。然后，强化学习算法将执行预测奖励值和当前聚合奖励值之间的比较。然后，基于该比较训练强化学习算法。

在各种实施例中，可以通过使用先验信息或知识来预训练强化学习算法。强化学习算法可以具有模拟环境行为的模型。

通过使用强化学习，可以采取适当的控制动作用于上游风力涡轮机的偏航偏移的操作控制，而不需要示例性监督或环境的完整模型。强化学习算法还可以利用尽可能多的指示风力涡轮机状态的环境参数来精确地选择动作。此外，强化学习算法的学习过程在风力涡轮机的正常操作期间继续，因此，智能体模块703可以学习适应新的状态。因此，通过应用强化学习算法，可以实现最佳的短期或长期目标。

再次参考图1，风力涡轮机农场200的每个风力涡轮机的偏航偏移800可以通过利用上述强化学习算法来控制。

在一些情况下，风电场200中的所有风力涡轮机被分成包括沿着风向的两个相邻风力涡轮机的对，诸如图1中的风力涡轮机对201a和201b、201b和201c以及201c和201d。然后，基于每对中的两个风力涡轮机的当前状态和强化学习算法700来控制每对中的上游风力涡轮机的偏航偏移。最后，通过迭代地执行基于强化学习（例如，强化学习算法700）的方法来优化风力涡轮机农场200的所有风力涡轮机的偏航偏移。

图9是用于控制风力涡轮机农场200的每个风力涡轮机对中的上游风力涡轮机的偏航偏移的示例方法400的流程图。为了方便起见，该方法将被解释为由位于一个或多个位置的一个或多个计算机的系统来执行。例如，运行上面提及的一个或多个强化学习算法700的强化学习系统可以执行方法400。包括控制电路的其他设备可以实现图9的方法。该方法可以由处理器在加载例如由计算机可读存储介质、计算机程序或计算机程序产品提供的程序代码时执行。

图9的方法可以采用如上面结合图1 – 8描述的一个或多个强化学习算法700。

在可选步骤401，通过使用以下数据的元组来预训练强化学习算法700：风向、风速、偏航偏移以及功率输出的总和，其中在实施强化学习算法以控制第一风力涡轮机（风力涡轮机对中的上游风力涡轮机）的偏航偏移之前，所有数据都是从沿着风向彼此相邻的任何两个风力涡轮机或专家知识获得的。

例如，通过参考图1，用于风力涡轮机农场的风力涡轮机中的全部或一部分的通用强化学习算法可以通过使用从风力涡轮机农场的任何风力涡轮机对——诸如201a和201b、201b和201c、201c和201d、201e和201f，......，201o和201p——获得的数据来预训练。可替代地或附加地，风力涡轮机农场200的每个风力涡轮机的特定强化学习算法也可以通过使用从风电场的任何风力涡轮机对——诸如201a和201b、201b和201c、201c和201d、201e和201f，......，201o和201p——获得的数据来预训练。

然后，对于以下步骤，应用（预训练的）强化学习算法。

在可选步骤481，检查另一风力涡轮机对是否仍受控制。在步骤481的初始迭代489，将会是这种情况。

因此，执行步骤482；这里，当前的风力涡轮机对是所有从仍受控制的风力涡轮机对中选择的。这是活动的风力涡轮机对；并且这些风力涡轮机被标示为第一风力涡轮机和第二风力涡轮机。第二风力涡轮机在风向上位于第一风力涡轮机的下游。

在步骤402，接收指示活动对的第一风力涡轮机的当前状态和第二风力涡轮机的当前状态的数据。

第一风力涡轮机和第二风力涡轮机的当前状态指定以下参数中的至少一个的值：风向、风速或偏航偏移。当前状态还可以指定由第一风力涡轮机生成的尾流的位置。所述一个或多个控制动作包括将偏航偏移设置在-45°和+45°的范围内。

在步骤404，基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态和强化学习算法（例如图6的强化学习算法700），确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作。

强化学习算法可以利用上面提及的动作-奖励方法或动作-价值方法中的任何一种。此外，强化学习算法还可以利用其他现有的强化学习算法，诸如Q学习、深度Q学习、双重深度Q学习、动态规划（DP）、时间差分（TD）学习、蒙特卡罗方法、策略梯度方法、利用近似的同策略（on-policy）预测等。

当确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作时，可能的是考虑一个或多个奖励值。例如，可以使用预定义价值函数的参考奖励值或预测奖励值。特别地，奖励值可以包括第一风力涡轮机和第二风力涡轮机这两者的功率输出的总和。

在一些情况下，所述一个或多个控制动作是基于预定义控制动作集来确定的（例如，通过从预定义集的适当选择过程），其中，预定义控制动作集中的每个控制动作与假定在第一风力涡轮机和第二风力涡轮机的当前状态下确定相应的控制动作的参考奖励值相关联。

通过使用动作奖励神经网络处理第一风力涡轮机和第二风力涡轮机的当前状态以及对应的控制动作，可以分别生成预定义的控制动作集合中的每个控制动作的相应参考奖励。可以通过使用从经验中获得的标记数据的有监督学习来训练动作奖励神经网络。可替代地，可以搜索存储表示从（第一风力涡轮机和第二风力涡轮机的当前状态，动作）对到参考奖励的映射的数组或表的数据库。

在一些实现中，动作奖励神经网络被配置为接收第一风力涡轮机和第二风力涡轮机的当前状态以及控制动作作为输入，并且处理第一风力涡轮机和第二风力涡轮机的当前状态以及控制动作，以生成动作的相应参考奖励。

一个或多个控制动作是在考虑了相应的参考奖励值的情况下基于预定义控制动作集来确定。例如，所述一个或多个控制动作可以被确定为具有最大参考奖励或最大参考奖励总和的一个或多个控制动作。有时，为了平衡强化学习算法的探索和利用，使用任意选择基于预定义控制动作集来确定一个或多个控制动作。例如，可能的是以概率

1）从预定义控制动作集中随机或至少部分随机地选择（任意选择）一个或多个随机控制动作，并以概率

选择具有最大参考奖励或最大参考奖励总和的一个或多个控制动作。优选设置

。

在一些其他情况下，在基于强化学习算法的预定义价值函数确定的一个或多个控制动作的所述应用的多次迭代之后，可以预测未来时间点的奖励值，其中所述一个或多个控制动作是在考虑了预测的奖励值的情况下基于预定义控制动作集来确定的。

价值函数用于预测长期奖励，诸如几个小时、一整天、一周等等。在这个时间尺度上，环境条件典型地会发生改变。另一方面，上面提及的参考奖励用于估计短期奖励，诸如环境状况在其中被认为相当稳定的一分钟或几分钟。

例如，可能的是通过使用动作价值神经网络处理当前对中的第一风力涡轮机和第二风力涡轮机的当前状态以及对应的控制动作链，分别为从预定义控制动作集中选择的每个可能的控制动作链预测未来时间点处的相应奖励值。动作价值神经网络可以通过使用从经验获得的标记数据的有监督学习来训练。可替代地，价值函数可以是预定义的线性函数。

在一些实现中，动作价值神经网络被配置为接收第一风力涡轮机和第二风力涡轮机的当前状态以及控制动作链作为输入，并且处理第一风力涡轮机和第二风力涡轮机的当前状态以及控制动作链，以针对可能的控制动作链生成未来点的相应奖励值。

在生成从当前状态开始并在未来点处结束的可能控制动作链中的所有或部分的奖励值之后，可能的是将具有最高预测奖励值的控制动作链确定为要执行的一个或多个控制动作。

在步骤406，所确定的一个或多个控制动作被应用于第一风力涡轮机。在通过强化学习算法确定所述一个或多个控制动作之后，可能的是应用所述一个或多个控制动作来控制第一风力涡轮机的偏航偏移。

在一些情况下，对于动作-奖励方法，在应用所确定的一个或多个控制动作时，接收与当前奖励值相关联的测量数据，并且执行参考奖励值和当前奖励值之间的比较，并且基于该比较来训练强化学习算法。

在一些其他情况下，对于动作-价值方法，在所确定的一个或多个控制动作的所述应用的多次迭代之后，可能的是接收与跨多个迭代的当前聚合奖励值相关联的测量，执行预测奖励值和当前聚合奖励值之间的比较，并且基于该比较来训练强化学习算法。

此外，参考奖励或预定义价值函数包括第一风力涡轮机和第二风力涡轮机这两者的功率输出总和或者用于评估这两个风力涡轮机的性能的其他参数。

接下来，执行步骤481的进一步迭代489：在各种实施例中，可以执行基于方法400的通用强化学习算法，以用于控制风力涡轮机农场200中的所有风力涡轮机的偏航偏移。这可以通过切换各个相邻风力涡轮机对来实现。

存在各种选项可用于实现步骤482的选择逻辑。例如，在完成对初始活动对中的第一风力涡轮机的偏航偏移的控制之后，在步骤482的下一次迭代489中选择的下一对可以包括初始活动对中的第二风力涡轮机作为另一个下游风力涡轮机的上游风力涡轮机。这意味着：第一迭代489的初始活动对中的第二风力涡轮机是后续第二迭代489的后续活动对中的第一风力涡轮机。这样的场景对应于沿着风向移动通过风电场的风力涡轮机对。

用于控制风力涡轮机的偏航偏移的方法400可以通过强化学习算法从与环境的直接交互中学习，而不需要示例性监督或环境的完整模型。强化学习算法还可以利用各种环境参数来精确地选择风力涡轮机的偏航偏移的控制动作。此外，强化学习算法的学习过程在风力涡轮机的正常操作期间继续，因此，强化学习算法可以学习以适应新的状态。因此，通过应用强化学习算法来控制风力涡轮机，可以实现最佳的短期或长期目标，诸如第一风力涡轮机和第二风力涡轮机的功率输出的总和。

此外，方法400易于实现，并且不需要高性能计算资源或设备，因为方法400在确定与偏航偏移相关联的控制动作时考虑了风力涡轮机对。

虽然已经结合在步骤482选择风力涡轮机对的场景解释了方法400，但是通常可以在步骤482选择包括多于两个风力涡轮机、例如三个或四个风力涡轮机的风电场的所有风力涡轮机的子组。子组的风力涡轮机可以沿着风向按顺序布置。这里，可以取决于子组中剩余风力涡轮机的当前状态来确定沿风向在上游的第一风力涡轮机的偏航偏移的控制动作。

从上面可以理解，方法400可以被标记为用于设置偏航偏移的自下而上的方法。这是因为存在多次迭代489，每次迭代489与相应的风力涡轮机相关联。在其他示例中，自上而下的方法是可能的，其中强化学习算法用于同时设置多个风力涡轮机的偏航偏移。结合图10解释了这样的场景。

图10是用于控制多个风力涡轮机的偏航偏移的示例方法500的流程图。多个风力涡轮机沿着风向205按顺序布置。多个风力涡轮机可以形成风电场的所有风力涡轮机的子组。为了方便起见，方法500将被解释为由位于一个或多个位置的一个或多个计算机的系统来执行。例如，运行本申请中公开的一个或多个强化学习算法的强化学习系统可以执行方法500。包括控制电路的其他设备可以实现图10的方法。该方法可以由处理器在加载例如由计算机可读存储介质、计算机程序或计算机程序产品提供的程序代码时执行。

图10的方法可以采用一种或多种强化学习算法700，如上面结合前面的图1 - 8所描述的。

在可选步骤501，通过使用以下数据的元组来预训练强化学习算法：风向、风速、偏航偏移和功率输出的总和，其中所有数据都是从沿着风向按顺序布置的任意多个风力涡轮机或专家知识获得的。该数据可以包括由多个风力涡轮机中的每个风力涡轮机生成的尾流的位置。

例如，通过参考图1，通过使用从风力涡轮机农场200的任何风力涡轮机序列获得的数据，诸如分别从201a、201e、201i和201m开始的风力涡轮机序列，可以训练针对风力涡轮机农场200中的所有或部分风力涡轮机的通用强化学习算法。可替代地或附加地，用于每个风力涡轮机序列的特定强化学习算法也可以通过使用从风力涡轮机农场200的任何风力涡轮机序列获得的数据来训练。

在步骤502，对于多个风力涡轮机中的每个风力涡轮机，接收指示相应当前状态的数据。多个风力涡轮机可以沿着风电场200的风向205按顺序布置。多个风力涡轮机中的每个风力涡轮机的相应当前状态指定了以下一个或多个：风向、风速或偏航偏移。控制动作包括将偏航偏移设置在-45°和+45°的范围内。相应的当前状态也可指定由多个风力涡轮机中的每个风力涡轮机生成的尾流的位置。

在步骤504，基于多个风力涡轮机中的风力涡轮机的当前状态和强化学习算法，例如图5的强化学习算法700，确定与多个风力涡轮机的偏航偏移相关联的控制动作。这以组合的方式发生。这意味着强化学习算法被训练成在一次运行中为多个风力涡轮机中的所有风力涡轮机确定与多个偏航偏移相关联的控制动作。这可以称为自上而下的方法。

强化学习算法可以利用上述动作-奖励方法或动作-价值方法中的任何一种。此外，强化学习算法还可以利用其他现有的强化学习算法，例如Q学习、深度Q学习、双重深度Q学习、动态规划（DP）、时间差分（TD）学习、蒙特卡罗方法、策略梯度方法、利用近似的同策略预测等。

当确定与多个风力涡轮机的偏航偏移相关联的控制动作时，可以考虑一个或多个奖励值。例如，可以使用预定义价值函数的参考奖励值或预测奖励值。具体而言，奖励值可以包括多个风力涡轮机中的所有风力涡轮机的功率输出的总和。

在一些情况下，基于来自预定义集合的预定义控制动作集合（例如，通过适当的选择过程）来确定控制动作，其中，预定义控制动作集合中的每个控制动作与假定在当前状态下确定相应的控制动作的参考奖励值相关联。

可以通过使用动作奖励神经网络处理多个风力涡轮机中的风力涡轮机的当前状态以及多个风力涡轮机中的所有风力涡轮机的对应控制动作，来分别生成预定义控制动作集合中的每个控制动作的相关联的参考奖励。可以通过使用从经验中获得的标记数据的有监督学习来训练动作奖励神经网络。可替代地，可以搜索存储表示从（多个风力涡轮机中的风力涡轮机的当前状态、动作）对到参考奖励的映射的数组或表的数据库。

在一些实现中，动作奖励神经网络被配置为接收多个风力涡轮机中的风力涡轮机的当前状态以及多个风力涡轮机中的所有风力涡轮机的对应控制动作作为输入，并且处理多个风力涡轮机中的风力涡轮机的当前状态以及多个风力涡轮机中的所有风力涡轮机的对应控制动作，以生成针对动作的相应参考奖励。

考虑到相应的参考奖励值，基于预定义控制动作集来确定控制动作。例如，控制动作可以通过选择具有最大参考奖励或最大参考奖励总和的控制动作来确定。有时，为了平衡强化学习算法的探索和利用，使用任意选择基于预定义控制动作集来确定控制动作。例如，有可能以概率

从预定义控制动作集中随机或至少部分随机地选择（任意选择）控制动作，并以概率

选择具有最大参考奖励或最大参考奖励总和的控制动作。优选设置

。

在一些其他情况下，可以基于强化学习算法的预定义价值函数来预测未来时间点处的奖励值，其中考虑到预测的奖励值，基于预定义控制动作集来确定控制动作。

价值函数用于预测长期奖励，诸如几个小时、一整天、一周等等。在这个时间尺度上，环境条件典型地会发生改变。另一方面，上述参考奖励用于估计短期奖励，诸如环境条件被认为相当稳定的一分钟或几分钟。价值函数可以包括线性函数或神经网络。

例如，可能的是通过使用动作价值神经网络处理多个风力涡轮机中的风力涡轮机的当前状态以及多个风力涡轮机中的所有风力涡轮机的对应控制动作，分别为从预定义的控制动作集合中选择的每个可能的控制动作链预测未来时间点处的相应奖励值。动作价值神经网络可以通过使用从经验获得的标记数据的有监督学习来训练。可替代地，价值函数可以是预定义的线性函数。

在一些实现中，动作价值神经网络被配置为接收多个风力涡轮机中的风力涡轮机的当前状态以及多个风力涡轮机中的所有风力涡轮机的对应控制动作作为输入，并且处理多个风力涡轮机中的风力涡轮机的当前状态以及多个风力涡轮机中的所有风力涡轮机的对应控制动作，以生成控制动作链的未来点处的相应奖励值。

在为从当前状态开始并在未来点处结束的所有或部分可能控制动作链的未来点生成奖励值之后，可能的是将具有最高预测奖励值的控制动作链确定为与要执行的多个风力涡轮机的偏航偏移相关联的控制动作。

在步骤506，所确定的控制动作分别应用于多个风力涡轮机中的风力涡轮机。在通过强化学习算法确定了与多个风力涡轮机的偏航偏移相关联的控制动作之后，可以应用所确定的控制动作来控制多个风力涡轮机的偏航偏移。

在一些情况下，对于动作-奖励方法，在应用所确定的控制动作时，接收与当前奖励值相关联的测量数据，并且执行参考奖励值和当前奖励值之间的比较，并且基于该比较来训练强化学习算法。

在一些其他情况下，对于动作-价值方法，在应用所确定的控制动作时，可能的是接收与当前聚合奖励值相关联的测量，执行预测奖励值和当前聚合奖励值之间的比较，并且基于该比较来训练强化学习算法。

此外，参考奖励或预定价值函数包括多个风力涡轮机中的所有风力涡轮机的功率输出总和，或用于评估所有风力涡轮机的性能的其他参数。

在各种实施例中，可以执行基于方法500的通用强化学习算法来控制诸如风力涡轮机农场200的风力涡轮机农场中的所有风力涡轮机的偏航偏移。可替代地，风电场的每个风力涡轮机序列可以具有其自己的强化学习算法，以用于基于方法500控制相应序列的所有风力涡轮机的偏航偏移。

用于控制沿风向按顺序布置的所有风力涡轮机的偏航偏移的方法500可以通过强化学习算法从与环境的直接交互中学习，而不需要示例性的监督或环境的完整模型。强化学习算法还可以利用尽可能多的指示风力涡轮机状态的环境参数来精确地选择所有风力涡轮机的偏航偏移的控制动作。此外，强化学习算法的学习过程在风力涡轮机的正常操作期间继续，因此，强化学习算法可以学习以适应新的状态。因此，通过应用强化学习算法来同时控制每个序列的所有风力涡轮机的偏航偏移，可以实现最佳的短期或长期目标，例如整个风力涡轮机农场的功率输出。

在本文所述的各种实施例中，风力涡轮机农场中的一个或多个风力涡轮机的未来状态的预测可以通过使用状态预测模型来执行。状态预测模型可以是神经网络。

状态预测神经网络被配置为接收当前天气信息和一个或多个风力涡轮机的机械结构信息作为输入，以生成一个或多个风力涡轮机的未来状态，包括对以下参数中的至少一个的预测：风速、湍流强度、场地海拔、温度、垂直风切变、所生成的尾流的位置或水平风切变。当前天气信息包括由气象卫星或雷达捕获的各种图像和/或数据、由气象站的设备或装置测量的数据。

此外，可以接收一个或多个风力涡轮机的当前天气信息和机械结构信息，并且可以通过状态预测神经网络生成一个或多个风力涡轮机的未来状态。然后，可能的是不仅基于一个或多个风力涡轮机的当前状态，而且还基于一个或多个风力涡轮机的未来状态和强化学习算法来确定所述一个或多个风力涡轮机的一个或多个控制动作。通过进一步考虑未来的环境状态来预测短期奖励和长期奖励这两者。

例如，对于图9的方法400，可以基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态、第一风力涡轮机和第二风力涡轮机的预测未来状态以及强化学习算法来确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作。

对于图10的方法500，可以基于多个风力涡轮机中的风力涡轮机的当前状态、多个风力涡轮机中的风力涡轮机的预测未来状态和强化学习算法来确定与多个风力涡轮机的偏航偏移相关联的控制动作。

通过进一步考虑未来状态的预测，用于控制一个或多个风力涡轮机的偏航偏移的方法400和方法500这两者都可以利用更多的环境信息（诸如，天气信息）来确定更精确和可靠的控制动作，并且进一步获得风电场的更多功率输出。

此外，在执行方法400或500之前，对于风电场的每个风力涡轮机，可以存在确定由上游风力涡轮机生成的尾流是否会影响下游风力涡轮机的步骤或过程。该确定可以通过考虑风向和上游风力涡轮机与下游风力涡轮机之间的距离的某种算法来执行。如果存在影响，则将执行方法400或500。

图11示意性地图示了关于设备800的各方面。设备800包括一个或多个处理器810和存储器820。所述一个或多个处理器810可以从存储器820加载程序代码，并执行加载的程序代码。程序代码可以定义强化学习算法700和模块701-704（参见图6）。然后，所述一个或多个处理器810可以执行如本文所述的各种技术来控制风电场的风力涡轮机对中的上游风力涡轮机的偏航偏移（例如，方法400）。所述一个或多个处理器810可以包括CPU、GPU、TPU或任何其他神经网络处理器。

具体而言，所述一个或多个处理器810被配置为接收指示第一风力涡轮机的当前状态和在下游与第一风力涡轮机相邻的第二风力涡轮机的当前状态的数据，基于第一风力涡轮机的当前状态、第二风力涡轮机的当前状态和强化学习算法700来确定与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作，并将所确定的一个或多个控制动作应用于第一风力涡轮机。

因此，第一风力涡轮机和第二风力涡轮机都可以分别包括通信接口81、一个或多个传感器82和控制单元83。

设备800包括通信接口830。例如，设备800可以经由通信接口830从相应地与第一风力涡轮机和第二风力涡轮机相关联的传感器82接收指示第一风力涡轮机的当前状态和在下游邻近第一风力涡轮机的第二风力涡轮机的当前状态的数据。设备800从属于气象中心的数据库840接收当前天气信息也是可能的。此外，设备800可以经由通信接口830向第一风力涡轮机的控制元件83发送控制信号，该控制信号包括与第一风力涡轮机的偏航偏移相关联的一个或多个控制动作。

设备800可以包括用户接口850，用于用户与设备800交互。例如，用户可以经由用户接口850将数据或信息输入到设备800中，诸如以下数据的元组：风向、风速、偏航偏移、控制动作和功率输出的总和，其中所有数据都是从沿着风向彼此相邻的任意两个风力涡轮机或专家知识以及第一风力涡轮机和第二风力涡轮机这两者的机械结构信息中获得的。

设备800可以用于分别执行上述奖励神经网络、价值神经网络和状态预测神经网络的程序代码。

图12示意性地图示了关于与设备800相似的设备900的各方面。设备900包括一个或多个处理器910和存储器920。所述一个或多个处理器910可以从存储器920加载程序代码，并执行加载的程序代码。程序代码可以定义强化学习算法700和模块701-704（参见图6）。然后，所述一个或多个处理器910还可以执行如本文所述的各种技术，以控制风力涡轮机农场200中沿风向205按顺序布置的多个风力涡轮机的偏航偏移（例如，方法500）。所述一个或多个处理器910可以包括CPU、GPU、TPU或任何其他神经网络处理器。

具体而言，所述一个或多个处理器910被配置为接收指示多个风力涡轮机中的每个风力涡轮机的相应当前状态的数据，基于多个风力涡轮机中的风力涡轮机的当前状态和强化学习算法700来确定与多个风力涡轮机的偏航偏移相关联的控制动作，并将所确定的控制动作应用于多个风力涡轮机中的风力涡轮机。

因此，所述多个风力涡轮机中的每个风力涡轮机可以相应地包括通信接口81、一个或多个传感器82和控制单元83。

设备900包括通信接口930。例如，设备900可以经由通信接口930从分别与多个风力涡轮机中的每个风力涡轮机相关联的传感器82接收指示多个风力涡轮机中的每个风力涡轮机的相应当前状态的数据。设备900从属于气象中心的数据库840接收当前天气信息也是可能的。此外，设备900可以经由通信接口930分别向多个风力涡轮机中的每个风力涡轮机的控制元件83发送对应的控制信号，包括与对应风力涡轮机的偏航偏移相关联的对应控制动作。

设备900可以包括用户接口940，用于用户与设备900交互。例如，用户可以经由用户接口940将数据或信息输入到设备900中，诸如以下数据的元组：风向、风速、偏航偏移和功率输出的总和，其中所有数据都是从沿着风向按顺序布置的任意多个风力涡轮机或专家知识以及多个风力涡轮机中的每个风力涡轮机的机械结构信息中获得的。

设备900可以用于分别执行上述奖励神经网络、价值神经网络和状态预测神经网络的程序代码。

总之，已经描述了基于强化学习的技术，其控制上游风力涡轮机的偏航偏移和控制风电场中沿风向按顺序布置的多个风力涡轮机的偏航偏移。这用于有效利用各种环境信息，包括但不限于风速，以控制上游风力涡轮机或沿风向按顺序布置的多个风力涡轮机的偏航偏移，从而实现整个风电场的最佳功率输出。

Claims

1.一种控制第一风力涡轮机（201a，201e，201i，201m）的偏航偏移（800）的方法，所述方法包括：

接收（402）指示第一风力涡轮机（201a，201e，201i，201m）的当前状态和沿风向（205）在下游与第一风力涡轮机（201a，201e，201i，201m）相邻的第二风力涡轮机（201b，201f，201j，201n）的当前状态的数据；

基于第一风力涡轮机（201a，201e，201i，201m）的当前状态、第二风力涡轮机（201b，201f，201j，201n）的当前状态和强化学习算法（700），确定（404）与第一风力涡轮机（201a，201e，201i，201m）的偏航偏移（800）相关联的一个或多个控制动作；以及

将所确定的一个或多个控制动作应用（406）到第一风力涡轮机（201a，201e，201i，201m）。

2.根据权利要求1所述的方法，其中，第一风力涡轮机（201a，201e，201i，201m）的当前状态和第二风力涡轮机（201b，201f，201j，201n）的当前状态指定以下中的一项或多项：相应风力涡轮机现场的风向（205），相应风力涡轮机现场的风速，或相应风力涡轮机的偏航偏移（800）。

3.根据权利要求1或2所述的方法，其中，所述一个或多个控制动作包括将偏航偏移（800）设置在-45°至+45°的范围内。

4.根据前述权利要求中任一项所述的方法，其中，所述一个或多个控制动作是基于预定义控制动作集来确定的，其中，所述预定义控制动作集中的每个控制动作与假定在第一风力涡轮机（201a、201e、201i、201m）的当前状态和第二风力涡轮机（201b、201f、201j、201n）的当前状态下确定相应的控制动作的参考奖励值相关联。

5.根据权利要求4所述的方法，其中，所述一个或多个控制动作是考虑到相应的参考奖励值基于预定义控制动作集来确定的。

6.根据权利要求4所述的方法，其中，所述一个或多个控制动作是使用任意选择基于预定义控制动作集来确定的。

7.根据权利要求4至6中任一项所述的方法，进一步包括：

在应用所确定的一个或多个控制动作时：接收与当前奖励值相关联的测量数据；

执行参考奖励值和当前奖励值之间的比较；以及

基于所述比较来训练强化学习算法（700）。

8.根据权利要求1至3所述的方法，进一步包括：

基于强化学习算法（700）的预定义价值函数，在所确定的一个或多个控制动作的所述应用的多次迭代之后，预测未来时间点的奖励值，

其中所述一个或多个控制动作是考虑到预测的奖励值基于预定义控制动作集来确定的。

9.根据权利要求8所述的方法，其中价值函数包括线性函数或神经网络。

10.根据权利要求8或9中任一项所述的方法，进一步包括：在完成所确定的一个或多个控制动作的所述应用的多次迭代时：跨多次迭代接收与当前聚合奖励值相关联的测量数据；

执行预测奖励值和当前聚合奖励值之间的比较；以及

基于所述比较来训练强化学习算法（700）。

11.根据权利要求4至10中任一项所述的方法，其中，所述奖励值包括第一风力涡轮机（201a，201e，201i，201m）和第二风力涡轮机（201b，201f，201j，201n）这两者的功率输出总和。

12.根据前述权利要求中任一项所述的方法，进一步包括：

通过使用以下数据元组来预训练（401）所述强化学习算法（700）：风向（205）、风速、偏航偏移（800）和功率输出总和，其中所述数据元组是从沿着风向（205）彼此相邻的两个参考风力涡轮机获得的，或者是从专家知识获得的。

13.根据前述权利要求中任一项所述的方法，进一步包括：

接收指示沿着风向在下游与第二风力涡轮机相邻的第三风力涡轮机（201c，201g，201k，201o）的当前状态的数据；

基于第二风力涡轮机（201b，201f，201j，201n）的当前状态、第三风力涡轮机（201c，201g，201k，201o）的当前状态以及强化学习算法（700）确定与第二风力涡轮机（201b，201f，201j，201n）的进一步的偏航偏移（800）相关联的控制动作；

将所确定的一个或多个进一步的控制动作应用于第二风力涡轮机（201b，201f，201j，201n）。

14.根据权利要求13所述的方法，其中，所述一个或多个进一步的控制动作的所述确定在所述一个或多个控制动作的所述确定之后执行。

15.一种用于控制第一风力涡轮机（201a，201e，201i，201m）的偏航偏移（800）的设备（800），所述设备（800）包括一个或多个处理器（810），所述一个或多个处理器（810）被配置为：

接收（402）指示第一风力涡轮机（201a，201e，201i，201m）的当前状态和沿着风向在下游与第一风力涡轮机（201a，201e，201i，201m）相邻的第二风力涡轮机（201b，201f，201j，201n）的当前状态的数据；

将所确定的一个或多个控制动作应用（406）于第一风力涡轮机（201a，201e，201i，201m）。

16.根据权利要求15所述的设备（800），其中所述一个或多个处理器（810）被配置为执行权利要求1至14中任一项所述的方法。

17.一种控制多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）的偏航偏移（800）的方法，所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的风力涡轮机沿着风向（205）按顺序布置，所述方法包括：

对于所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的每个风力涡轮机：接收（502）指示相应当前状态的数据；

基于所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的风力涡轮机的当前状态和强化学习算法（700），确定（504）与所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的每个风力涡轮机的偏航偏移（800）相关联的控制动作，所述强化学习算法在单次执行中提供针对所述多个风力涡轮机中的每个风力涡轮机的控制动作；以及

将所确定的控制动作应用（506）于所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的风力涡轮机。

18.一种用于控制多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）的偏航偏移（800）的设备（900），所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的风力涡轮机沿着风向（205）按顺序布置，所述设备（900）包括一个或多个处理器（910），所述一个或多个处理器（910）被配置为：

接收（502）指示所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的每个风力涡轮机的相应当前状态的数据；

基于所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的风力涡轮机的当前状态和强化学习算法（700）来确定（504）与所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）的偏航偏移（800）相关联的控制动作，所述强化学习算法在单次执行中提供针对所述多个风力涡轮机中的每个风力涡轮机的控制动作；以及

将控制动作应用（506）于所述多个风力涡轮机（201a-201d，201e-201h，201i-201l，201m-201p）中的风力涡轮机。