CN111222718A

CN111222718A - 一种风能转换系统的最大功率点跟踪方法与装置

Info

Publication number: CN111222718A
Application number: CN202010123201.6A
Authority: CN
Inventors: 钱申晟; 崔承刚; 闫南; 杨宁; 张传林; 陈辉
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai University of Electric Power; Shanghai Electric Power University; University of Shanghai for Science and Technology
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-06-02

Abstract

本发明公开了一种风能转换系统的最大功率点跟踪方法与装置，包括对风能转换系统的最大功率点进行智能追踪；利用强化学习中智能体的反馈信号，不断与环境互动，调整和改善智能决策行为，获得最佳追踪策略；所述智能体通过与环境交互决策出最优储能调度策略，在不断变化的环境中跟踪所述风能转换系统的最大功率点。本发明的有益效果：利用环境对智能体的反馈信号，不断与环境互动，调整和改善智能决策行为，获得最佳策略；智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中追踪最大功率点。

Description

一种风能转换系统的最大功率点跟踪方法与装置

技术领域

本发明涉及风能转换系统最大功率点跟踪的技术领域，尤其涉及一种风能转换系统的最大功率点跟踪方法与装置。

背景技术

近年来，当前大多数风力发电都是通过风能转换系统使风能转换为电能。自然界的风最大的特点是不稳定性，风力发电过程中，风速不断的改变导致了发电效率低下，如果在风能转换系统中，通过控制轴的转速，使叶尖速比λ一直维持在对应的λ_m处，那么风力发电机组就可以输出最大功率，这个寻找最大功率过程叫做最大功率点跟踪。因此，有效的最大功率点跟踪算法构成了现代风能转换系统控制系统的重要组成部分。为了优化风能发电的应用性能，提高风能转换成电能的效率，行业一直通过传统控制理论的方法寻找最大功率点。叶尖速比控制具有快速响应和高精度的特点。但是，这种方法的准确性和稳定性很大程度上取决于风速信息，这不仅增加了风能转换系统的成本，同时在风速变化剧烈的地方，该控制方法精度较差。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：提出一种风能转换系统的最大功率点跟踪方法解决增加风能转换系统的成本，同时在风速变化剧烈的地方控制方法精度较差的问题。

为解决上述技术问题，本发明提供如下技术方案：一种风能转换系统的最大功率点跟踪方法，包括对风能转换系统的最大功率点进行智能追踪；利用强化学习中智能体的反馈信号，不断与环境互动，调整和改善智能决策行为，获得最佳追踪策略；所述智能体通过与环境交互决策出最优储能调度策略，在不断变化的环境中跟踪所述风能转换系统的最大功率点。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述智能追踪包括，将所述风能转换系统最大功率点追踪过程建模描述为马尔科夫决策过程；基于所述马尔科夫决策过程构建风能转换系统的环境模型、动作空间模型、奖励函数模型、Q值算法模型；将每次训练的动作的经验值存储在Q表中；经过一定时间的学习训练后，基于所述Q表的最大动作奖励值形成最优控制策略，对所述风能转换系统进行快速最大功率点跟踪控制。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述风能转换系统包括风力发电系统模型，风力发电中，定义风力机吸收风能与总风能之比为风能利用系数C_p，最大风能利用系数C_pmax为风力机获得的理论最大值E_m与总风能E_f之比，即为风力机理想情况下的最大效率；风力机在叶尖速比λ达到某一值λ_m时风能利用系数达到最大值C_pmax。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述强化学习包括与环境交互的智能体，所述智能体包括，设定相对应的任务目标；所述智能体通过动作与环境进行交互，强化学习算法利用智能体和环境交互的数据修改自身的动作策略；经过数次迭代学习后，最终得到相应任务的最优动作策略。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述强化学习具体包括，基于马尔科夫决策过程，定义了风能发电的MPPT问题；在每个时间步长上，智能体观测环境量包含状态s_t、动作a_t和奖励函数r_t；智能体在当前状态s_t下采取动作a_t并通过动作函数A转移到下一状态s_t+1：s_t+1＝A(s_t,a_t),

s_t环境根据当前状态、执行动作a_t和下一状态s_t+1通过奖励函数R返回r_t：r_t＝R(s_t,a_t,s_t+1),

当智能体在某一状态s采用动作后，定义累计回报Q_h(s,a)来衡量状态s做出动作的价值，将Q_h(s,a)：

称为状态-动作值函数表征智能体在某一状态s及某一动作a下做出相应策略的价值，其中状态值函数G_t：

表征智能体在该状态的价值，γ∈[0,1]表示折扣因子，折扣因子决定了未来奖励和即时奖励的相对重要性；定义Q^*(s,a)为所有策略中最大的状态-动作值函数；若已知Q^*(s,a)，则最优策略G_t ^*：

通过直接最大化Q^*(s,a)来决定；

利用Q-learning算法建立一张Q值表，且Q-learning算法其更新准则为：

其中

为学习率，表示每次该时刻状态的动作学习对下个时刻的影响。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述风能转换系统的MPPT，包括定义风力机的特性模型为：

式中ρ为空气密度，C_p(λ,β)为风能利用系数，A为风力机叶轮横截面积，V_w为通过风力机叶轮的风速；将上式转换为P_max＝Kv_w ³，K为常数，V_w为通过风力机叶轮的风速；使用两个基本状态st进行定义：

S＝(s|s_kj＝(v_ω,i,P_e,j),i∈[1,2...,N],j∈[1,2...,M])两个状态变量分别是V_w和P_e表示标准化和离散化后的工作点的风力机叶轮的转子速度、输出功率。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述风能转换系统包括，设定为控制器的动作空间为：A＝{a_t|+Δv_w,0,-Δv_w}，式中Δv_w为叶轮风速的变化量，叶轮风速的调整规则是v_w,t+1＝v_w,t+a；定义一个包括正向和负向以及包括零变化的一个离散的有限动作空间集A，明确的对环境中的状态进行动作操作。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：包括设定奖励函数和惩罚函数约束所述智能体，使用了以下的奖励函数：

式中P_e,t+1,P_e,t分别为了连续时间间隔上的输出功率，δ₁为一个非常小的正的常数；若所述智能体做出动作使得风能转换系统在连续时间间隔里的输出功率增加，那么就得一个正向奖励，反之，则会受到惩罚；若两个时间间隔上的输出功率相同，将会给予所述智能体0的奖励。

作为本发明所述的风能转换系统的最大功率点跟踪方法的一种优选方案，其中：所述强化学习采用Q-learning算法，并引入ε-greedy策略；选取使得动作值函数最大的动作的概率为：

而其他动作的概率为等概率且均为

通过引入ε-greedy策略平衡智能体在已知环境和未知环境中的“利用”与“探索”关系，其中选取动作值函数最大的部分为利用，其他非最优动作任有概率为探索；

式中，ε为一个随机值，|A(s)|为动作评估值；

Q-learning其更新准则为：

本发明解决的技术问题是：提出一种风能转换系统的最大功率点跟踪装置解决增加风能转换系统的成本，同时在风速变化剧烈的地方控制方法精度较差的问题。

为解决上述技术问题，本发明提供如下技术方案：一种风能转换系统的最大功率点跟踪装置，包括强化学习模块，包括与环境交互的智能体，所述智能体还包括状态空间模型模块、动作空间模型模块、奖励函数模型模块和Q值算法模型模块，分别用于配置状态空间模型、动作空间模型、奖励函数模型和Q值算法模型，用于实现风能转换系统最大功率点的智能追踪。

本发明的有益效果：利用环境对智能体的反馈信号，不断与环境互动，调整和改善智能决策行为，获得最佳策略；智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中追踪最大功率点。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一种强化学习风力发电系统的等效结构示意图；

图2为本发明中的强化学习流程示意图；

图3是本发明最大功率点策略流程示意图；

图4是本发明智能体在风速为9m/s的环境下的迭代训练后仿真收敛的过程示意图；

图5为本发明智能体在不同风速的环境下的迭代训练后仿真收敛的过程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本实施例，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本实施例内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本实施例结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本实施例保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

针对风能转换系统的最大功率点追踪源问题，本实施例提出了一种基于人工智能中的强化学习的风能转换系统的最大功率点跟踪方法。针对传统控制技术中系统结构复杂、依赖先验经验和容易出现误判现象等缺点，本实施例针对控制器使用无模型的Q-learning学习算法，通过根据接收到的奖励更新动作值，获取从状态到控制动作的最优控制策略。

首先本实施例将风能转换系统最大功率点追踪过程建模描述为马尔科夫决策过程。然后基于马尔科夫决策过程设计开发了风能转换系统的环境模型、动作空间模型、奖励函数模型、Q值算法等模块，将每次训练的动作的经验值存储在Q表中，在经过一定时间的学习训练后，基于该Q表的最大动作奖励值形成最优控制策略，从而对风能转换系统进行快速最大功率点跟踪控制。最后通过在环境条件固定和环境条件变化等情况下进行仿真，验证了本实施例所提出的控制策略的有效性和准确性。

与现有技术相比，基于风能转换系统的最大功率点跟踪控制的特征，利用Q-Learning强化学习算法实现了风能转换系统的最大功率点跟踪控制策略。

更加具体的步骤如下：

一种风能转换系统的最大功率点跟踪方法，可对风能转换系统的最大功率点进行智能追踪。利用学习型智能体的反馈信号，不断与环境互动，调整和改善智能决策行为，获得最佳追踪策略。智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中跟踪风能转换系统最大功率点。

最优追踪策略即最优储能调度策略，其具体方案正是智能体在每次训练后得出的，每次智能体都会与环境进行交互得到不同的策略，通过每次训练奖励，最终训练处最优追踪策略。

其中风力发电机组是风力转换系统的核心部件，风力发电机组由风力机和发电机组成。风力发电系统模型结构如图1所示。风能经过风力机装换成机械能，再经过发电机转换成电能。风力发电中，把风力机吸收风能与总风能之比称为风能利用系数C_p，最大风能利用系数C_pmax为风力机获得的理论最大值E_m与总风能E_f之比，即为风力机理想情况下的最大效率。风力机输出特性曲线和光伏电池输出特性曲线有着一定的相似之处，光伏电池在某一电压处输出功率达到最大，风力机在叶尖速比λ达到某一值λ_m时风能利用系数达到最大值C_pmax。

本实施例中强化学习是一种目标导向型的智能方法。学习者在未被告知行为的情况下，通过其行为后果进行学习。强化学习主要由智能体和环境构成，通过设定相对应的任务目标，智能体便会通过动作与环境进行交互，强化学习算法利用智能体和环境交互的数据修改自身的动作策略，经过数次迭代学习后，最终得到相应任务的最优动作策略。强化学习过程(参照图3)。在每一个时刻，智能体都处于一个状态，智能体根据当前状态的价值，结合自己历史策略做出行动。随后，智能体从环境中获得新的环境观测值和回报，智能体根据新的观测值进行学习，做出新的动作。以此循环，最终得到最优策略。

强化学习的具体步骤如下：

首先基于马尔科夫决策过程，定义了风能发电的MPPT问题。在每个时间步长上，智能体观测环境量包含状态s_t、动作a_t和奖励函数r_t。

智能体在当前状态s_t下采取动作a_t并通过动作函数A转移到下一状态s_t+1：

然后s_t环境根据当前状态、执行动作a_t和下一状态s_t+1通过奖励函数R返回r_t：

r_t＝R(s_t,a_t,s_t+1),

当智能体在某一状态s采用动作后，我们通过定义累计回报Q_h(s,a)来衡量状态s做出动作的价值，我们将Q_h(s,a)：

称为状态-动作值函数表征智能体在某一状态s及某一动作a下做出相应策略的价值。(其中状态值函数G_t：

表征智能体在该状态的价值，γ∈[0,1]表示折扣因子，折扣因子决定了未来奖励和即时奖励的相对重要性)，

定义Q^*(s,a)：为所有策略中最大的状态-动作值函数，若已知Q^*(s,a)，则最优策略G_t ^*：

可通过直接最大化Q^*(s,a)来决定。

Q-learning算法首先建立一张Q值表，智能体通过不断地跟环境交互，得到环境反馈，对智能体的状态-动作对形成奖励值，通过不断的迭代修改Q表中的值，会使选择正奖赏的动作的概率不断增加，而相应得到的负奖赏的动作的概率会有不断减小的趋势，随着不断地与环境交互筛选，更改动作策略集，会使智能体的动作最终趋于最优动作集。

Q-learning算法其更新准则为：

(

为学习率，表示每次该时刻状态的动作学习对下个时刻的影响)。

将风能转换系统的最大功率点跟踪过程建模描述为马尔科夫决策过程，使最大功率点追踪模型具有强化学习模型所需要的马尔科夫性(此处所指最大功率点追踪的模型是这些环境模型、智能体模型、动作模型以及相对应的Q值算法的总称呼，正是这些模型构成了最大功率点追踪的总模型)。随后基于马尔科夫决策过程设计开发了风能转换系统发电的环境模型、智能体模型、动作模型以及相对应的Q值算法。智能体通过训练好的Q值表，采用ε-greedy贪婪策略既可快速得出其最优动作值，从而快速的提出最优策略，基于Q值强化学习风能转换系统的最大功率点策略流程图如图2所示。

针对风能转换系统的最大功率点跟踪问题，针对风能转换系统的MPPT问题。定义风力机的特性模型为：

式中ρ为空气密度，C_p(λ,β)为风能利用系数，A为风力机叶轮横截面积，V_w为通过风力机叶轮的风速，由于空气密度，风能利用系数，风力机叶轮横截面积通常为常数，可将上式转换为P_max＝Kv_w ³，K为常数，V_w为通过风力机叶轮的风速。

控制方法使用以下两个基本状态st进行定义：

S＝(s|s_kj＝(v_ω,i,P_e,j),i∈[1,2...,N],j∈[1,2...,M])

两个状态变量分别是V_w和P_e表示标准化和离散化后的工作点的风力机叶轮的转子速度、输出功率。通过测量风能转换系统的输出功率和转子速度，智能体就可以明确工作点的位置，从而为后续选择动作提供精准性可能。

在风能转换系统的最大功率点跟踪控制问题的情况下，风力装换系统控制器的动作空间设定为：

A＝{a_t|+Δv_w,0,-Δv_w}(Δv_w为叶轮风速的变化量)

叶轮风速的调整规则是v_w,t+1＝v_w,t+a。为了保证该本实施例算法的计算效率，定义了一个包括正向和负向以及包括零变化的一个离散的有限动作空间集A，这样就可以明确的对环境中的状态进行动作操作。

在对智能体的状态采取行动后，智能体将获得其动作价值的评估值，这个评估值称为奖励(惩罚)。对于MPPT控制问题(该问题说明为在智能体追踪过程中，由于探索的随机性导致智能体容易突破约束条件，从而导致仿真失败，所以通过设定奖励函数和惩罚函数约束智能体，可以有效的提升算法收敛的速度，保证了收敛后的准确性)，通过设定奖励函数和惩罚函数约束智能体，可以有效的提升算法收敛的速度，保证了收敛后的准确性。因此使用了以下的奖励函数：

P_e,t+1,P_e,t分别为了连续时间间隔上的输出功率，δ₁为一个非常小的正的常数。如果智能体做了做出了动作使得风能转换系统在连续时间间隔里的输出功率增加，那么就可以获得一个正向奖励。反之则会收到惩罚。有时，两个连续时间间隔上的输出功率相同，那么将会给予智能体0的奖励。本实施例其Q-learning算法是强化学习中一种经典的策略算法，具体流程为：首先智能体通过探索环境建立一张Q值表，智能体通过不断地跟环境交互，得到环境反馈奖励，从而在Q表中形成状态-动作对对应的Q值，通过Q值更新规则不断的迭代修改Q表中的值，会使选择正奖赏的动作的概率不断增加，而相应得到的负奖赏的动作的概率会有不断减小的趋势，随着不断地与环境交互筛选，更改动作策略集，会使智能体的动作最终趋于最优动作集。

但是智能体不能始终处于已知的环境中(由于智能体新进入一个环境时，智能体会随机进行探索，随着探索时间的增长，智能体对环境逐步了解，根据最大Q值很容易陷入局部最优状态，从而导致所提出的策略只在部分条件中成立。因此，引入了策略，通过这个策略让智能体不只限于已知环境，在部分几率下也有可能探索未知环境进行探索，从而保证本实施例策略的有效性)，因此引入了ε-greedy策略，ε-greedy策略是强化学习中一个最基本最常用的策略，该式的含义就是选取使得动作值函数最大的动作的概率为：

而其他动作的概率为等概率，都为：

通过引入ε-greedy策略平衡了智能体在已知环境和未知环境中的“利用”与“探索”关系。其中选取动作值函数最大的部分为利用，其他非最优动作任有概率为探索。

本实施例将风能转换系统最大功率点追踪过程建模描述为马尔科夫决策过程。然后基于马尔科夫决策过程设计开发了风能转换系统的环境模型、动作空间模型、奖励函数模型、Q值算法等模块，将每次训练的动作的经验值存储在Q表中，在经过一定时间的学习训练后，基于该Q表的最大动作奖励值形成最优控制策略，从而对风能转换系统进行快速最大功率点跟踪控制。与传统的控制理论不同，本实施例使用的强化学习是一种无模型、自学习的控制方法。基于强化学习自主学习的特性，本文所提出的控制策略可以克服传统方法需要精确风能转换系统的先验经验、容易出现误判等缺点。

本实施例将最大功率点跟踪问题描述成为马尔科夫决策过程。其次基于马尔科夫决策过程设计开发了风能转换系统的环境模型、智能体模型、动作模型、Q值算法等模块，基于这些模块提出了一种通用风能转化系统最大功率点的跟踪算法。

当智能体建立环境所对应的Q值(动作-价值对)表格后，智能体通过追踪最大Q值动作即可有效的追踪到最大功率点，从而提出最优控制策略。当环境条件改变，智能体可以通过已有的Q值表格进行更新，从而快速的追踪新的最大功率点，从而提升智能体的追踪效率。最后，通过在环境条件固定和环境条件变化等情况下进行仿真，验证了本文所提出的控制策略的有效性和准确性

利用环境对智能体的反馈信号，不断与环境互动，调整和改善智能决策行为，获得最佳策略。智能体通过与环境交互，决策出最优储能调度策略，在不断变化的环境中追踪最大功率点。

强化学习过程在每一个时刻，智能体都处于一个状态，智能体根据当前状态的价值，结合自己历史策略做出行动。随后，智能体从环境中获得新的环境观测值和回报，智能体根据新的观测值进行学习，做出新的动作。以此循环，最终得到最优策略。在每个时间步长上，智能体观测环境量包含状态s_t、动作a_t和奖励函数r_t。智能体在当前状态s_t下采取动作a_t并通过动作函数A转移到下一状态s_t+1：s_t+1＝A(s_t,a_t),

然后，环境根据当前状态s_t、执行动作a_t和下一状态s_t+1通过奖励函数R返回。其次，当智能体在某一状态s采用动作后，我们通过定义累计回报Q_h(s,a)来衡量状态s做出动作的价值，我们将Q_h(s,a)称为状态-动作值函数，表征智能体在某一状态s及某一动作a下做出相应策略的价值。定义Q^*(s,a)为所有策略中最大的状态-动作值函数，若已知Q^*(s,a)，则最优策略G_t ^*可通过直接最大化Q^*(s,a)来决定。

至此本实施例将学习目标改写为：

Target＝r_t+1+γ·Q_target(s_t+1,argmax_a(Q_main(s_t+1,a)))

针对风能转换系统最大功率点跟踪问题所述的状态空间，为了使得所提出的控制策略适用于任何光伏电源。针对风能转换系统的MPPT问题。

风力机的特性模型为：

式中ρ为空气密度，C_p(λ,β)为风能利用系数，A为风力机叶轮横截面积，V_w为通过风力机叶轮的风速，由于空气密度，风能利用系数，风力机叶轮横截面积通常为常数，可将上式转换为P_max＝Kv_w ³，K为常数，V_w为通过风力机叶轮的风速。本文中控制方法使用以下两个基本状态st进行定义：

S＝(s|s_kj＝(v_ω,i,P_e,j),i∈[1,2...,N],j∈[1,2...,M])

两个状态变量分别是V_w和P_e表示标准化和离散化后的工作点的风力机叶轮的转子速度、输出功率。这样，通过测量风能转换系统的输出功率和转子速度，智能体就可以明确工作点的位置，从而为后续选择动作提供精准性可能。

为了评价本实施例所提出的的控制方法，本实施例验证了基于强化学习Q-learning算法的风能转换系统的最大功率点跟踪控制的策略研究的有效性和准确性。在风速恒定和风速改变的条件下分别进行仿真验证了本文的有效性、最后与变步长的扰动观测法进行比较，验证了本文所提出的控制方法在追踪最大功率点过程中的准确性和效率。强化学习算法中学习率初始值设为0.01、折扣因子初始值设为0.75、贪婪策略概率ε初始值设为0.6、迭代时间ΔT＝0.1s。智能体通过增加折扣因子、减小学习率，以获得更好的学习表现。在快速寻找MPP点，通过仿真验证控制方法的有效性特点，并测试其在标准化操作条件下的性能。其中P为控制器在设置条件下的工作输出功率，P_Max是根据描述风力机的特性模型在给定条件下可输出的最大功率。

本实施例首先在风速为9m/s的情况下对风力装换系统进行了操作，由于前期环境未知，智能体在开始阶段首先会进行探索。前期功率误差的随机振荡表明了算法的探索过程，该过程中智能体随机选择动作探索环境并建立相对应的Q值(动作-价值对)表，直到智能体完整地探索环境空间后算法收敛，智能体根据最大Q值即可有效的追踪到了最大功率点。图3显示了智能体在在风速为9m/s的环境下的迭代训练后仿真收敛的过程。智能体从0秒开始探索C_p，并在大约61(6.1s)次后首次到达MPP点。随后开始随机探索，大约123(12.3S)次后，探索过程结束，智能体在前面所学习到的MPP的经验的上进行了直接的最大功率点追踪。该仿真验证了本文所提出的算法在风速恒定的情况下追踪MPPT点的有效性。

本实施例在风速为9m/s的环境下进行仿真了，证明了本文所提出的控制策略在固定风速情况下的有效性，既证明了本文所提出的控制策略在固定环境条件下的有效性。结果对应为图4。随后，本实施例又在风速分别为在7.5m/s和10.5m/s之间变化的情况下，进行仿真，证明了本文所提出的控制策略在环境条件改变的情况下的有效性，结果图对应为图5。

基于上述说明，本实施例中控制量为叶轮的风速，通过控制叶轮风速的变化使功率变化，从而最终得到最优策略。提出的控制策略是基于强化学习中的一种Q值学习方法，属于人工智能方法中的一种。相较于传统方法，本文提出的是是一种自学习的方法，当环境改变，智能体就会在奖励函数的约束下探索新环境，并记录每一次探索得到的Q值，放在Q值表中，最终当智能体探索完成全部环境后，就会根据完整的Q表选取其中最大的Q值的动作得到最优策略。

实施例2

本实施例提出一种风能转换系统的最大功率点跟踪装置，上述方法能够依托于本实施例实现，该装置具体包括，强化学习模块，包括与环境交互的智能体，所述智能体还包括状态空间模型模块、动作空间模型模块、奖励函数模型模块和Q值算法模型模块，分别用于配置状态空间模型、动作空间模型、奖励函数模型和Q值算法模型，用于实现风能转换系统最大功率点的智能追踪。

应当认识到，本实施例的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本实施例的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本实施例所述的方法和技术编程时，本实施例还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本实施例优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本实施例的技术方案而非限制，尽管参照较佳实施例对本实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本实施例的技术方案进行修改或者等同替换，而不脱离本实施例技术方案的精神和范围，其均应涵盖在本实施例的权利要求范围当中。