CN110969248A - 基于rbf-a2c的强化学习方法及系统 - Google Patents
基于rbf-a2c的强化学习方法及系统 Download PDFInfo
- Publication number
- CN110969248A CN110969248A CN201811140436.5A CN201811140436A CN110969248A CN 110969248 A CN110969248 A CN 110969248A CN 201811140436 A CN201811140436 A CN 201811140436A CN 110969248 A CN110969248 A CN 110969248A
- Authority
- CN
- China
- Prior art keywords
- rbf
- function
- calculating
- state data
- psi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
公开了一种基于RBF‑A2C的强化学习方法及系统。该方法包括:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,获得动作a;步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据ψ(s)、r和ψ(s)′,计算Q函数值;步骤5:根据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1‑7。本发明通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
Description
技术领域
本发明涉及机器学习领域,更具体地,涉及一种基于RBF-A2C的强化学习方法及系统。
背景技术
伴随人工智能如火如荼的发展,强化学习在工业领域、游戏领域、路径规划方面的运用越来越广泛,是解决随机性或者动态不确定性系统最优解的首选算法。简单的、传统的强化学习算法难以解决新出现的、具有更高要求的问题。在具有离散空间的强化学习问题中,传统强化学习算面临法收敛速度慢、收敛精度差的问题,而现在流行的强化学习需要大量的学习样本,并且网络层次太深,运算时间过长。同时,强化学习有基于价值、基于策略和两者结合的(行动者-评论家)三种架构。基于价值的算法在很多领域得到运用,但是它很难应用到随机型策略或者具有连续动作空间的问题中,值函数的微小变化会引起策略的大变更,从而训练无法收敛。如果引入函数近似,算法泛化能力提高了,但也引入了偏差,收敛性也不好保证。而基于策略的算法是把策略参数化进行学习,相比于基于价值的算法,具有更强的收敛能力,也适合高维连续动作空间和随机型策略问题,但是缺点是梯度估计方差较大,收敛得到的可能并非最优解,同时由于梯度估计不依赖过去的估计,则对旧信息利用率低。
因此,有必要开发一种基于RBF-A2C的强化学习方法及系统。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种基于RBF-A2C的强化学习方法及系统,其能够通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
根据本发明的一方面,提出了一种基于RBF-A2C的强化学习方法。所述方法可以包括:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7。
优选地,所述动作选择策略公式为:
其中,y为Q函数值,b*为常量偏差。
优选地,所述Q函数值为:
优选地,所述优势函数A为:
其中,card(A)为动作的数量,a'为动作集合中的动作。
优选地,所述激活函数为:
优选地,所述损失函数为:
优选地,所述损失函数的偏导数为:
优选地,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y) (7)。
根据本发明的另一方面,提出了一种基于RBF-A2C的强化学习系统,其特征在于,该系统包括:存储器,存储有计算机可执行指令;处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7。
优选地,所述动作选择策略公式为:
其中,y为Q函数值,b*为常量偏差。
优选地,所述Q函数值为:
优选地,所述优势函数A为:
其中,card(A)为动作的数量,a'为动作集合中的动作。
优选地,所述激活函数为:
优选地,所述损失函数为:
优选地,所述损失函数的偏导数为:
优选地,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y) (7)。
本发明的方法和装置具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。
附图说明
通过结合附图对本发明示例性实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的基于RBF-A2C的强化学习方法的步骤的流程图。
具体实施方式
下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
图1示出了根据本发明的基于RBF-A2C的强化学习方法的步骤的流程图。
在该实施例中,根据本发明的基于RBF-A2C的强化学习方法可以包括:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1-7。
在一个示例中,动作选择策略公式为:
其中,y为Q函数值,b*为常量偏差。
在一个示例中,Q函数值为:
在一个示例中,优势函数A为:
其中,card(A)为动作的数量,a'为动作集合中的动作。
在一个示例中,激活函数为:
在一个示例中,损失函数为:
在一个示例中,损失函数的偏导数为:
在一个示例中,优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y) (7)。
具体地,根据本发明的基于RBF-A2C的强化学习方法可以包括:
步骤1:初始化参数,预处理环境状态,通过将监测到的环境状态转为矩阵,变成系统可用状态,即从s转变为状态数据ψ(s),根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a,采用ε-greedy策略,也就是依据ε的值确定动作,根据ε的动态变化决定当前的动作选择是探索还是最大化值函数,该策略在初期时鼓励探索可以防止动作陷入局部最优,造成过度拟合,动作选择策略公式为公式(1)。
步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′。
步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4。
步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,通过公式(2)计算Q函数值。
步骤5:根据当前的状态数据ψ(s)与Q函数值,通过公式(3)计算优势函数A,优势函数代表当前采取的动作比采取其他动作的平均值要好多少。
步骤6:根据高斯核函数,通过公式(4)计算激活函数,通过公式(5)计算损失函数,进而通过公式(6)计算损失函数的偏导数,由于环境是动态变化的,很难找到RBF神经网络的最优解,所以在RBF-A2C算法中,使用梯度下降法来优化网络的参数,通过公式(7)计算优化步长优化RBF参数。
步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1-7。
本方法通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
应用示例
为便于理解本发明实施例的方案及其效果,以下给出一个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本发明,其任何具体细节并非意在以任何方式限制本发明。
为了验证算法的有效性,选取具有离散状态空间的的随机漫步实验。随机漫步是一个经典的用来检验证明强化学习算法在离散空间下是否具有良好的泛化性能和学习能力的仿真平台,该平台不接受学习之外的任何导师经验,只通过自身观察状态空间的变化,获取信息。在学习实验过程中,初始状态是某个中间状态,智能体在有限的步骤内找到路径达到目标状态,同时奖赏值需要最大化。环境设置如下:当智能体到达最左侧位置,他得到的反馈值为-10。当智能体达到最右边的状态,一个情节就结束智能体获得+10反馈,其他位置,反馈值为0。
该算法在离散状态空间状态数目不同的情况下,相比较于其他算法都表现出收敛快的特性,而且在算法收敛后每一次成功的尝试所需要的步数也较少。在状态数目为15的情况下,RBF-A2C需要3次尝试达到算法收敛,而Q,Sarsa,A2C,DQN分别需要6、8、6、16尝试,如表1所示。
表1
状态数目 | Q | Sarsa | A2C | RBF-A2C | DQN |
7 | 5 | 5 | 3 | 3 | 7 |
11 | 4 | 5 | 6 | 3 | 8 |
15 | 6 | 8 | 6 | 3 | 16 |
取算法收敛后的10次尝试,记录每次成功尝试的步数,取平均值,RBF-A2C需要7.6步,Q,Sarsa,A2C,DQN算法分别需要8.4、7.8、8、58.2步,如表2所示。
表2
状态数目 | Q | Sarsa | A2C | RBF-A2C | DQN |
7 | 3.4 | 3.2 | 3.4 | 3.8 | 14.4 |
11 | 5.2 | 5.6 | 5.6 | 5.3 | 30.1 |
15 | 8.4 | 7.8 | 8 | 7.6 | 58.2 |
综上所述,本发明通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
本领域技术人员应理解,上面对本发明的实施例的描述的目的仅为了示例性地说明本发明的实施例的有益效果,并不意在将本发明的实施例限制于所给出的任何示例。
根据本发明的实施例,提供了一种基于RBF-A2C的强化学习系统,其特征在于,该系统包括:存储器,存储有计算机可执行指令;处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1-7。
在一个示例中,动作选择策略公式为:
其中,y为Q函数值,b*为常量偏差。
在一个示例中,Q函数值为:
在一个示例中,优势函数A为:
其中,card(A)为动作的数量,a'为动作集合中的动作。
在一个示例中,激活函数为:
在一个示例中,损失函数为:
在一个示例中,损失函数的偏导数为:
在一个示例中,优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y) (7)。
本系统通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
本领域技术人员应理解,上面对本发明的实施例的描述的目的仅为了示例性地说明本发明的实施例的有益效果,并不意在将本发明的实施例限制于所给出的任何示例。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。
Claims (10)
1.一种基于RBF-A2C的强化学习方法,其特征在于,包括:
步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;
步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;
步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;
步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;
步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;
步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;
步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7。
8.根据权利要求1所述的基于RBF-A2C的强化学习方法,其中,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y) (7)。
9.一种基于RBF-A2C的强化学习系统,其特征在于,该系统包括:
存储器,存储有计算机可执行指令;
处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:
步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;
步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;
步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;
步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;
步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;
步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;
步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811140436.5A CN110969248B (zh) | 2018-09-28 | 2018-09-28 | 基于rbf-a2c的强化学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811140436.5A CN110969248B (zh) | 2018-09-28 | 2018-09-28 | 基于rbf-a2c的强化学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110969248A true CN110969248A (zh) | 2020-04-07 |
CN110969248B CN110969248B (zh) | 2023-04-07 |
Family
ID=70026819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811140436.5A Active CN110969248B (zh) | 2018-09-28 | 2018-09-28 | 基于rbf-a2c的强化学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110969248B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785076A (zh) * | 2021-01-29 | 2021-05-11 | 亿景智联(北京)科技有限公司 | 社区团购生鲜配送路径优化算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198854A1 (en) * | 2001-03-30 | 2002-12-26 | Berenji Hamid R. | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
WO2007126054A1 (ja) * | 2006-04-27 | 2007-11-08 | Riken | 信号分離装置、信号分離方法、情報記録媒体、ならびに、プログラム |
CN106612089A (zh) * | 2016-12-20 | 2017-05-03 | 江苏大学 | 五自由度无轴承永磁同步电机强化学习控制器及构造方法 |
CN107403446A (zh) * | 2016-05-18 | 2017-11-28 | 西门子保健有限责任公司 | 用于使用智能人工代理的图像配准的方法和系统 |
CN108510074A (zh) * | 2018-05-30 | 2018-09-07 | 江苏理工学院 | 一种改进gwo算法的实现方法 |
-
2018
- 2018-09-28 CN CN201811140436.5A patent/CN110969248B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198854A1 (en) * | 2001-03-30 | 2002-12-26 | Berenji Hamid R. | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
WO2007126054A1 (ja) * | 2006-04-27 | 2007-11-08 | Riken | 信号分離装置、信号分離方法、情報記録媒体、ならびに、プログラム |
CN107403446A (zh) * | 2016-05-18 | 2017-11-28 | 西门子保健有限责任公司 | 用于使用智能人工代理的图像配准的方法和系统 |
CN106612089A (zh) * | 2016-12-20 | 2017-05-03 | 江苏大学 | 五自由度无轴承永磁同步电机强化学习控制器及构造方法 |
CN108510074A (zh) * | 2018-05-30 | 2018-09-07 | 江苏理工学院 | 一种改进gwo算法的实现方法 |
Non-Patent Citations (1)
Title |
---|
胡伟雄、姜政军: "基于BP神经网络的C2C电子商务信任度评价模型", 《图书情报工作》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785076A (zh) * | 2021-01-29 | 2021-05-11 | 亿景智联(北京)科技有限公司 | 社区团购生鲜配送路径优化算法 |
Also Published As
Publication number | Publication date |
---|---|
CN110969248B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168578B (zh) | 具有任务特定路径的多任务神经网络 | |
Vecerik et al. | Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards | |
Graves et al. | Automated curriculum learning for neural networks | |
Heess et al. | Actor-critic reinforcement learning with energy-based policies | |
Duvenaud et al. | Early stopping as nonparametric variational inference | |
US20190095794A1 (en) | Methods and apparatus for training a neural network | |
CN109511277B (zh) | 多状态连续动作空间的合作式方法及系统 | |
Romoff et al. | Reward estimation for variance reduction in deep reinforcement learning | |
WO2018017546A1 (en) | Training machine learning models on multiple machine learning tasks | |
CN113168566A (zh) | 通过使用熵约束来控制机器人 | |
US11836590B2 (en) | User intent classification using a multi-agent reinforcement learning framework | |
Awheda et al. | Exponential moving average Q-learning algorithm | |
Mousavi et al. | Applying q (λ)-learning in deep reinforcement learning to play atari games | |
CN115204412A (zh) | 基于知识蒸馏的问答模型压缩方法、装置及相关设备 | |
CN110969248B (zh) | 基于rbf-a2c的强化学习方法及系统 | |
Catteeuw et al. | The limits and robustness of reinforcement learning in Lewis signalling games | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及系统 | |
Morales | Deep Reinforcement Learning | |
García et al. | Incremental reinforcement learning for multi-objective robotic tasks | |
Moudgalya et al. | A Comparative Study of Model-Free Reinforcement Learning Approaches | |
Zugarová et al. | Similarity-based transfer learning of decision policies | |
CN113269326A (zh) | 迁移强化学习方法和装置 | |
Wong | Self configuration in machine learning | |
Nüßlein et al. | Case-Based Inverse Reinforcement Learning Using Temporal Coherence | |
Molchanov et al. | Region Growing Curriculum Generation for Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |