CN110969248A

CN110969248A - 基于rbf-a2c的强化学习方法及系统

Info

Publication number: CN110969248A
Application number: CN201811140436.5A
Authority: CN
Inventors: 王婷婷
Original assignee: China Petroleum and Chemical Corp; Sinopec Geophysical Research Institute
Current assignee: China Petroleum and Chemical Corp; Sinopec Geophysical Research Institute
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-04-07
Anticipated expiration: 2038-09-28
Also published as: CN110969248B

Abstract

公开了一种基于RBF‑A2C的强化学习方法及系统。该方法包括：步骤1：根据当前的状态数据ψ(s)与步长优化RBF参数α，获得动作a；步骤2：执行动作a，获得环境反馈r和下一刻的状态数据ψ(s)′；步骤3：判断ψ(s)′是否达到预定目标，若是，则算法结束，若否，则转到步骤4；步骤4：根据ψ(s)、r和ψ(s)′，计算Q函数值；步骤5：根据ψ(s)与Q函数值，计算优势函数A；步骤6：计算激活函数与损失函数，计算损失函数的偏导数，进而计算优化步长优化RBF参数；步骤7：利用优化步长优化RBF参数替换步长优化RBF参数α，重复步骤1‑7。本发明通过RBF神经网络算法，解决传统算法收敛速度慢、收敛精度差的问题，避免大样本学习收敛困难和容易陷入局部极值的问题。

Description

基于RBF-A2C的强化学习方法及系统

技术领域

本发明涉及机器学习领域，更具体地，涉及一种基于RBF-A2C的强化学习方法及系统。

背景技术

伴随人工智能如火如荼的发展，强化学习在工业领域、游戏领域、路径规划方面的运用越来越广泛，是解决随机性或者动态不确定性系统最优解的首选算法。简单的、传统的强化学习算法难以解决新出现的、具有更高要求的问题。在具有离散空间的强化学习问题中，传统强化学习算面临法收敛速度慢、收敛精度差的问题，而现在流行的强化学习需要大量的学习样本，并且网络层次太深，运算时间过长。同时，强化学习有基于价值、基于策略和两者结合的(行动者-评论家)三种架构。基于价值的算法在很多领域得到运用，但是它很难应用到随机型策略或者具有连续动作空间的问题中，值函数的微小变化会引起策略的大变更，从而训练无法收敛。如果引入函数近似，算法泛化能力提高了，但也引入了偏差，收敛性也不好保证。而基于策略的算法是把策略参数化进行学习，相比于基于价值的算法，具有更强的收敛能力，也适合高维连续动作空间和随机型策略问题，但是缺点是梯度估计方差较大，收敛得到的可能并非最优解，同时由于梯度估计不依赖过去的估计，则对旧信息利用率低。

因此，有必要开发一种基于RBF-A2C的强化学习方法及系统。

公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明提出了一种基于RBF-A2C的强化学习方法及系统，其能够通过RBF神经网络算法，解决传统算法收敛速度慢、收敛精度差的问题，避免大样本学习收敛困难和容易陷入局部极值的问题。

根据本发明的一方面，提出了一种基于RBF-A2C的强化学习方法。所述方法可以包括：步骤1：根据当前的状态数据ψ(s)与步长优化RBF参数α，根据动作选择策略公式获得动作a；步骤2：执行所述动作a，获得环境反馈r和下一刻的状态数据ψ(s)′；步骤3：判断ψ(s)′是否达到预定目标，若是，则算法结束，若否，则转到步骤4；步骤4：根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′，计算Q函数值；步骤5：根据当前的状态数据ψ(s)与Q函数值，计算优势函数A；步骤6：计算激活函数与损失函数，计算所述损失函数的偏导数，进而计算优化步长优化RBF参数；步骤7：利用所述优化步长优化RBF参数替换所述步长优化RBF参数α，重复步骤1-7。

优选地，所述动作选择策略公式为：

其中，y为Q函数值，b^*为常量偏差。

优选地，所述Q函数值为：

优选地，所述优势函数A为：

其中，card(A)为动作的数量，a'为动作集合中的动作。

优选地，所述激活函数为：

优选地，所述损失函数为：

优选地，所述损失函数的偏导数为：

优选地，所述优化步长优化RBF参数为：

α_i←α_i-βδ(ψ(s)_i,y)A(ψ(s)_i,y) (7)。

根据本发明的另一方面，提出了一种基于RBF-A2C的强化学习系统，其特征在于，该系统包括：存储器，存储有计算机可执行指令；处理器，所述处理器运行所述存储器中的计算机可执行指令，执行以下步骤：步骤1：根据当前的状态数据ψ(s)与步长优化RBF参数α，根据动作选择策略公式获得动作a；步骤2：执行所述动作a，获得环境反馈r和下一刻的状态数据ψ(s)′；步骤3：判断ψ(s)′是否达到预定目标，若是，则算法结束，若否，则转到步骤4；步骤4：根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′，计算Q函数值；步骤5：根据当前的状态数据ψ(s)与Q函数值，计算优势函数A；步骤6：计算激活函数与损失函数，计算所述损失函数的偏导数，进而计算优化步长优化RBF参数；步骤7：利用所述优化步长优化RBF参数替换所述步长优化RBF参数α，重复步骤1-7。

优选地，所述动作选择策略公式为：

其中，y为Q函数值，b^*为常量偏差。

优选地，所述Q函数值为：

优选地，所述优势函数A为：

其中，card(A)为动作的数量，a'为动作集合中的动作。

优选地，所述激活函数为：

优选地，所述损失函数为：

优选地，所述损失函数的偏导数为：

优选地，所述优化步长优化RBF参数为：

α_i←α_i-βδ(ψ(s)_i,y)A(ψ(s)_i,y) (7)。

本发明的方法和装置具有其它的特性和优点，这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的，或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述，这些附图和具体实施方式共同用于解释本发明的特定原理。

附图说明

通过结合附图对本发明示例性实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的基于RBF-A2C的强化学习方法的步骤的流程图。

具体实施方式

下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施例，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在该实施例中，根据本发明的基于RBF-A2C的强化学习方法可以包括：步骤1：根据当前的状态数据ψ(s)与步长优化RBF参数α，根据动作选择策略公式获得动作a；步骤2：执行动作a，获得环境反馈r和下一刻的状态数据ψ(s)′；步骤3：判断ψ(s)′是否达到预定目标，若是，则算法结束，若否，则转到步骤4；步骤4：根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′，计算Q函数值；步骤5：根据当前的状态数据ψ(s)与Q函数值，计算优势函数A；步骤6：计算激活函数与损失函数，计算损失函数的偏导数，进而计算优化步长优化RBF参数；步骤7：利用优化步长优化RBF参数替换步长优化RBF参数α，重复步骤1-7。

在一个示例中，动作选择策略公式为：

其中，y为Q函数值，b^*为常量偏差。

在一个示例中，Q函数值为：

在一个示例中，优势函数A为：

其中，card(A)为动作的数量，a'为动作集合中的动作。

在一个示例中，激活函数为：

在一个示例中，损失函数为：

在一个示例中，损失函数的偏导数为：

在一个示例中，优化步长优化RBF参数为：

α_i←α_i-βδ(ψ(s)_i,y)A(ψ(s)_i,y) (7)。

具体地，根据本发明的基于RBF-A2C的强化学习方法可以包括：

步骤1：初始化参数，预处理环境状态，通过将监测到的环境状态转为矩阵，变成系统可用状态，即从s转变为状态数据ψ(s)，根据当前的状态数据ψ(s)与步长优化RBF参数α，根据动作选择策略公式获得动作a，采用ε-greedy策略，也就是依据ε的值确定动作，根据ε的动态变化决定当前的动作选择是探索还是最大化值函数，该策略在初期时鼓励探索可以防止动作陷入局部最优，造成过度拟合，动作选择策略公式为公式(1)。

步骤2：执行动作a，获得环境反馈r和下一刻的状态数据ψ(s)′。

步骤3：判断ψ(s)′是否达到预定目标，若是，则算法结束，若否，则转到步骤4。

步骤4：根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′，通过公式(2)计算Q函数值。

步骤5：根据当前的状态数据ψ(s)与Q函数值，通过公式(3)计算优势函数A，优势函数代表当前采取的动作比采取其他动作的平均值要好多少。

步骤6：根据高斯核函数，通过公式(4)计算激活函数，通过公式(5)计算损失函数，进而通过公式(6)计算损失函数的偏导数，由于环境是动态变化的，很难找到RBF神经网络的最优解，所以在RBF-A2C算法中，使用梯度下降法来优化网络的参数，通过公式(7)计算优化步长优化RBF参数。

步骤7：利用优化步长优化RBF参数替换步长优化RBF参数α，重复步骤1-7。

本方法通过RBF神经网络算法，解决传统算法收敛速度慢、收敛精度差的问题，避免大样本学习收敛困难和容易陷入局部极值的问题。

应用示例

为便于理解本发明实施例的方案及其效果，以下给出一个具体应用示例。本领域技术人员应理解，该示例仅为了便于理解本发明，其任何具体细节并非意在以任何方式限制本发明。

为了验证算法的有效性，选取具有离散状态空间的的随机漫步实验。随机漫步是一个经典的用来检验证明强化学习算法在离散空间下是否具有良好的泛化性能和学习能力的仿真平台，该平台不接受学习之外的任何导师经验，只通过自身观察状态空间的变化，获取信息。在学习实验过程中，初始状态是某个中间状态，智能体在有限的步骤内找到路径达到目标状态，同时奖赏值需要最大化。环境设置如下：当智能体到达最左侧位置，他得到的反馈值为-10。当智能体达到最右边的状态，一个情节就结束智能体获得+10反馈，其他位置，反馈值为0。

该算法在离散状态空间状态数目不同的情况下，相比较于其他算法都表现出收敛快的特性，而且在算法收敛后每一次成功的尝试所需要的步数也较少。在状态数目为15的情况下，RBF-A2C需要3次尝试达到算法收敛，而Q，Sarsa，A2C，DQN分别需要6、8、6、16尝试，如表1所示。

表1

状态数目	Q	Sarsa	A2C	RBF-A2C	DQN
						7	5	5	3	3	7
11	4	5	6	3	8
						15	6	8	6	3	16

取算法收敛后的10次尝试，记录每次成功尝试的步数，取平均值，RBF-A2C需要7.6步，Q，Sarsa，A2C，DQN算法分别需要8.4、7.8、8、58.2步，如表2所示。

表2

状态数目	Q	Sarsa	A2C	RBF-A2C	DQN
						7	3.4	3.2	3.4	3.8	14.4
11	5.2	5.6	5.6	5.3	30.1
						15	8.4	7.8	8	7.6	58.2

综上所述，本发明通过RBF神经网络算法，解决传统算法收敛速度慢、收敛精度差的问题，避免大样本学习收敛困难和容易陷入局部极值的问题。

本领域技术人员应理解，上面对本发明的实施例的描述的目的仅为了示例性地说明本发明的实施例的有益效果，并不意在将本发明的实施例限制于所给出的任何示例。

根据本发明的实施例，提供了一种基于RBF-A2C的强化学习系统，其特征在于，该系统包括：存储器，存储有计算机可执行指令；处理器，所述处理器运行所述存储器中的计算机可执行指令，执行以下步骤：步骤1：根据当前的状态数据ψ(s)与步长优化RBF参数α，根据动作选择策略公式获得动作a；步骤2：执行动作a，获得环境反馈r和下一刻的状态数据ψ(s)′；步骤3：判断ψ(s)′是否达到预定目标，若是，则算法结束，若否，则转到步骤4；步骤4：根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′，计算Q函数值；步骤5：根据当前的状态数据ψ(s)与Q函数值，计算优势函数A；步骤6：计算激活函数与损失函数，计算损失函数的偏导数，进而计算优化步长优化RBF参数；步骤7：利用优化步长优化RBF参数替换步长优化RBF参数α，重复步骤1-7。

在一个示例中，动作选择策略公式为：

其中，y为Q函数值，b^*为常量偏差。

在一个示例中，Q函数值为：

在一个示例中，优势函数A为：

其中，card(A)为动作的数量，a'为动作集合中的动作。

在一个示例中，激活函数为：

在一个示例中，损失函数为：

在一个示例中，损失函数的偏导数为：

在一个示例中，优化步长优化RBF参数为：

α_i←α_i-βδ(ψ(s)_i,y)A(ψ(s)_i,y) (7)。

本系统通过RBF神经网络算法，解决传统算法收敛速度慢、收敛精度差的问题，避免大样本学习收敛困难和容易陷入局部极值的问题。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。