CN112598137A - 一种基于改进的Q-learning的最优决策方法 - Google Patents
一种基于改进的Q-learning的最优决策方法 Download PDFInfo
- Publication number
- CN112598137A CN112598137A CN202011514716.5A CN202011514716A CN112598137A CN 112598137 A CN112598137 A CN 112598137A CN 202011514716 A CN202011514716 A CN 202011514716A CN 112598137 A CN112598137 A CN 112598137A
- Authority
- CN
- China
- Prior art keywords
- state
- value
- strategy
- action
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于改进的Q‑learning的最优决策方法,包括以下步骤:步骤一、非线性系统模型构建;步骤二、马尔科夫模型构建;步骤三、Q‑learning算法求解;步骤四、Q‑learning算法中改进的动作选择策略;步骤五、改进的Q‑learning算法更新决策。本发明采用改进的Q‑learning算法实现非线性系统的最优决策,通过采用改进的动作选择策略进行系统的动作选择,解决了Q‑learning算法中的探索开发平衡问题,并使算法收敛速度快;本发明提出的改进的Q‑learning算法可以在无系统先验信息或系统数据的情况下实现对非线性离散系统的最优决策。
Description
技术领域
本发明涉及系统决策领域,是一种基于Q-learning算法实现对系统的最优决策方法。Q-learning算法是强化学习领域的一种无模型典型算法,可以实现在无系统先验信息情况下对系统进行决策的方法。
背景技术
决策技术是指为了实现某一特定目标,根据客观事实或在具有一定先验信息的基础上,借助一定的方法,对影响事件的各种因素进行评估分析,最终得出的决定。决策在人们的日常生活、经济、技术中普遍存在。决策结果的好坏以及准确性对事件的影响极为重要。由此可以看出,决策技术是一门紧密结合实际生产的工程学科。随着科学技术的不断发展进步,需要对某一系统或事件进行精准的最优决策。但是在实际生活中,由于系统的非线性特性,很难对系统进行精确的模型构建。此外,现有的决策方法需要系统的先验信息,但系统的先验信息或者数据很难获得,且获得的数据信息具有不完备、不确定、冲突性等特性很难进行精准的决策。
强化学习是机器学习中的一种,但又不同于典型的机器学习。强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励获得学习信息并更新参数。在强化学习中,智能体通过选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖励或者惩罚)反馈给智能体,智能体根据强化信号和环境的当前状态再选择下一个动作,重复此循环,最终在算法收敛时得到关于系统的最优决策。Q-learning方法是强化学习中的一种无模型方法,主要处理离散系统的最优决策问题。
由于Q-learning算法的无模型、无需系统先验知识的特点使其在自动化控制、水下航行、电子游戏等领域得到了广泛的应用。正是由于Q-learning的优良性能,所以在近几年其理论和实际应用发展较快,且应用前景广泛。
强化学习理论具有诸多优点,将其应用在非线性系统的最优决策中可以得到较为准确的决策结果,为我们的生产生活提供一定的理论和应用基础。
发明内容
为了解决非线性系统在无系统数据、信息下的最优决策问题,本发明基于Q-learning算法,提供一种改进的Q-learning最优决策的方法。本发明提出的方法可以解决系统的非线性、无系统先验知识下的系统最优决策问题,此外,更进一步实现对Q-learning算法的探索利用平衡,最终在收敛时间较短的前提下实现对非线性系统的最优决策。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤一:非线性系统模型构建
考虑的典型非线性离散约束系统的数学表达式为:
其中,f(·)表示的是非线性系统,si代表的是状态向量,ai表示输入向量,Ωa代表约束集合,定义为:Ωa={gi(·),i=1,2,…,n},gi(·)代表多项式。
步骤二:马尔科夫模型构建
采用强化学习求解过程中,需进行马尔科夫(MDP)模型构建。MDP模型包括系统的状态空间:S=(s1,s2,…,ss),动作空间A={a1,a2,…,ai},状态转移概率以及系统的奖励R。根据系统的实际情况对S,A,R进行确定,并确定整个系统中智能体和环境的代表物。
(1)状态空间:S=(s1,s2,…,ss):在系统运行过程中所有的环境的状态集合;
(2)动作空间A={a1,a2,…,ai}:在系统运行过程中智能体所采取的所有动作的集合;
(4)奖励R:系统在运行过程中在某一状态s以及某一动作a下,系统给予的奖励值或者惩罚值。
步骤三:Q-learning算法求解
实现对非线性离散约束系统的最优决策目的是找到一个最优策略π:π:S→A,即a=π(s),使得系统在有约束的条件下做出最佳决策。策略的选择由环境和智能体经过反复探索试错,最终在某一策略下得到系统立即奖励和未来奖励值加和最大的策略为最优策略,定义如下:
其中γ是折扣系数,代表未来奖励值的占比情况,γ∈(0,1);Π代表一系列策略的集合;s0代表当前系统的状态情况。
Q-learning算法采用值迭代的方法实现最优决策的求解。值函数是为了度量策略在特定状态下的表现,分为状态价值函数和动作状态价值函数。在形式上,在折扣因子为γ、策略为π下的状态价值函数为:
动作状态价值也称Q值函数,表示为:
其中,Qπ(st,at)代表在某一状态、动态下系统的动作状态价值函数值。
Q-learning算法中通常采用ε-greedy算法进行最优动作(策略)选择,具体表示为:
其中,π*(a|s)表示最优策略;ε表示探索概率。
步骤四:Q-learning算法中改进的动作选择策略
ε-greedy动作选择策略中存在ε,导致对系统的探索开发未达到很好的平衡。在不同的系统中ε选取的值不一致,会导致算法收敛程度和收敛时间不同,甚至会导致算法存在不收敛的情况,无法得到系统的最优策略。本发明通过采用改进的动作选择策略实现对系统最优策略的求解。
改进的动作选择策略通过在Q值上添加探索置信上界的索引值组成新的动作选择策略,可使Q-learning算法的探索利用达到平衡,从而节省算法收敛时间,并具有适用性。具体表示为:
at=argmax(Qπ(st,a)+ueb(st,a)) (6)
其中,ueb(·)代表探索置信上界的索引值。
其中,1/4代表伯努利随机变量方差的上界;At(a)代表动作a被选择的次数;n代表所有动作被选择的次数;Dt(a)代表偏见因子,定义为:
步骤五:改进的Q-learning算法更新决策
通过采用改进的动作选择策略进行动作选择,并采用公式(10)进行Q值的更新,最终使系统达到收敛,得到非线性系统的最优策略。
本发明的有益效果在于本发明采用改进的Q-learning算法实现非线性系统的最优决策。本发明采用改进的动作选择策略进行系统的动作选择,解决了Q-learning算法中的探索开发平衡问题,并使算法收敛速度快;本发明提出的改进的Q-learning算法可以实现对非线性离散系统的最优决策。
附图说明
图1是寻宝系统设置图;
图2是奖励函数收敛曲线图;
图3是收敛时间曲线图。
具体实施方式
下面结合附图和实例对本发明进一步说明。此处给出一个非线性离散系统:寻宝系统的实例,寻宝系统设置如图1所示。寻宝系统由6×6的网格组成,并在其中设置了一个智能体,一个目标,一个陷阱,以及多个障碍物—墙壁。寻宝系统的目标是找到从起始位置到目标的最优策略,其中,在掉入陷阱后智能体从新返回起始位置进行新一轮的目标寻找。本发明中结合寻宝系统寻找目标说明所提出的方法的步骤实施。
步骤一:寻宝系统设置
寻宝系统范围为6×6的离散网格,其中,空心圆代表智能体,实心圆代表陷阱,实现菱形代表目标,虚线代表障碍物—墙壁,实线代表边界,智能体可在网格范围内进行上下左右任意移动操作,但当某一侧碰到障碍物时,则不能向某一侧移动。智能体所在的位置即起始位置,需从起始位置找到目标,在此实现过程中没有系统的任何先验信息或系统数据。
步骤二:马尔科夫模型构建
采用强化学习求解过程中,需进行马尔科夫(MDP)模型构建。MDP模型包括系统的状态空间:S=(s1,s2,…,ss),动作空间A={a1,a2,…,ai},状态转移概率以及系统的奖励R。在寻宝系统中,具体的MDP表现形式为:
(1)状态空间:S=(s1,s2,…,ss):在系统运行过程中,智能体所处的不同位置即为系统的状态空间;
(2)动作空间A={a上,a下,a左,a右}:在系统运行过程中,智能体可以采取上下左右四种不同的移动方式,组成系统的动作空间;
(4)奖励R:当智能体每移动一格,给与-0.1的奖励;当在某一小网格的基础上,①碰到障碍物给与-1的奖励,②碰到陷阱给与-5的奖励值,③寻找到目标给与+5的奖励值,具体奖励表示公式如式(11):
步骤三:Q-learning算法求解
寻宝系统中智能体和环境进行交互,采用Q-learning算法,通过Q函数(包含当前时刻奖励值R和长期奖励值)进行反馈,决定下一步动作的选取,即采用公式(4)计算Q函数值,并选择相应的动作选择策略。此外,不断进行系统迭代,最终达到收敛,最后得到系统的最优决策。
步骤四:采用Q-learning算法中改进的动作选择策略进行动作选择
本发明中采用改进的动作选择策略进行动作选择,如式(12):
at=argmax(Qπ(st,a)+ueb(st,a)) (12)
其中,ueb(·)代表探索置信上界的索引值。
其中,1/4代表伯努利随机变量方差的上界;At(a)代表动作a被选择的次数;n代表所有动作被选择的次数;Dt(a)代表偏见因子,定义为:
步骤五:改进的Q-learning算法更新决策
通过采用改进的动作选择策略进行动作选择后,并采用公式(16)进行Q值的更新,最终使系统达到收敛,得到非线性系统的最优策略。
最后采用本发明的基于改进的Q-learning算法的最优决策方法,参照图1进行寻宝系统设计,并和传统Q-learning算法进行仿真对比,奖励函数值的仿真对比曲线,结果参照图2,收敛时间的仿真曲线,结果参照图3。
Claims (1)
1.一种基于改进的Q-learning的最优决策方法,其特征在于,包括下述步骤:
步骤一:非线性系统模型构建
考虑的典型非线性离散约束系统的数学表达式为:
其中,f(·)表示的是非线性系统,si代表的是状态向量,ai表示输入向量,Ωa代表约束集合,定义为:Ωa={gi(·),i=1,2,…,n},gi(·)代表多项式;
步骤二:马尔科夫模型构建
采用强化学习求解过程中,需进行马尔科夫(MDP)模型构建;MDP模型包括系统的状态空间:S=(s1,s2,…,ss),动作空间A={a1,a2,…,ai},状态转移概率以及系统的奖励R;根据系统的实际情况对S,A,R进行确定,并确定整个系统中智能体和环境的代表物;
(1)状态空间:S=(s1,s2,…,ss):在系统运行过程中所有的环境的状态集合;
(2)动作空间:A={a1,a2,…,ai}:在系统运行过程中智能体所采取的所有动作的集合;
(4)奖励R:系统在运行过程中在某一状态s以及某一动作a下,系统给予的奖励值或者惩罚值;
步骤三:Q-learning算法求解
实现对非线性离散约束系统的最优决策目的是找到一个最优策略π:π:S→A,即a=π(s),使得系统在有约束的条件下做出最佳决策;策略的选择由环境和智能体经过反复探索试错,最终在某一策略下得到系统立即奖励和未来奖励值加和最大的策略为最优策略,定义如下:
其中γ是折扣系数,代表未来奖励值的占比情况,γ∈(0,1);Π代表一系列策略的集合;s0代表当前系统的状态情况;
Q-learning算法采用值迭代的方法实现最优决策的求解;值函数是为了度量策略在特定状态下的表现,分为状态价值函数和动作状态价值函数;在形式上,在折扣因子为γ、策略为π下的状态价值函数为:
动作状态价值也称Q值函数,表示为:
其中,Qπ(st,at)代表在某一状态、动态下系统的动作状态价值函数值;
Q-learning算法中通常采用ε-greedy算法进行最优动作(策略)选择,具体表示为:
其中,π*(a|s)表示最优策略;ε表示探索概率;
步骤四:Q-learning算法中改进的动作选择策略
本发明通过采用改进的动作选择策略实现对系统最优策略的求解;改进的动作选择策略通过在Q值上添加探索置信上界的索引值组成新的动作选择策略,可使Q-learning算法的探索利用达到平衡,从而节省算法收敛时间,并具有适用性;具体表示为:
at=arg max(Qπ(st,a)+ueb(st,a)) (6)
其中,ueb(·)代表探索置信上界的索引值;
其中,1/4代表伯努利随机变量方差的上界;At(a)代表动作a被选择的次数;n代表所有动作被选择的次数;Dt(a)代表偏见因子,定义为:
步骤五:改进的Q-learning算法更新决策
通过采用改进的动作选择策略进行动作选择,并采用公式(10)进行Q值的更新,最终使系统达到收敛,得到非线性系统的最优策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011514716.5A CN112598137A (zh) | 2020-12-21 | 2020-12-21 | 一种基于改进的Q-learning的最优决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011514716.5A CN112598137A (zh) | 2020-12-21 | 2020-12-21 | 一种基于改进的Q-learning的最优决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112598137A true CN112598137A (zh) | 2021-04-02 |
Family
ID=75199706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011514716.5A Pending CN112598137A (zh) | 2020-12-21 | 2020-12-21 | 一种基于改进的Q-learning的最优决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598137A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377655A (zh) * | 2021-06-16 | 2021-09-10 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN115766104A (zh) * | 2022-10-25 | 2023-03-07 | 重庆移通学院 | 一种基于改进的Q-learning网络安全决策自适应生成方法 |
CN116316755A (zh) * | 2023-03-07 | 2023-06-23 | 西南交通大学 | 一种基于强化学习的电气化铁路储能系统能量管理方法 |
-
2020
- 2020-12-21 CN CN202011514716.5A patent/CN112598137A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377655A (zh) * | 2021-06-16 | 2021-09-10 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN113377655B (zh) * | 2021-06-16 | 2023-06-20 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN115766104A (zh) * | 2022-10-25 | 2023-03-07 | 重庆移通学院 | 一种基于改进的Q-learning网络安全决策自适应生成方法 |
CN116316755A (zh) * | 2023-03-07 | 2023-06-23 | 西南交通大学 | 一种基于强化学习的电气化铁路储能系统能量管理方法 |
CN116316755B (zh) * | 2023-03-07 | 2023-11-14 | 西南交通大学 | 一种基于强化学习的电气化铁路储能系统能量管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598137A (zh) | 一种基于改进的Q-learning的最优决策方法 | |
CN110262511B (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
Aine et al. | Awa-a window constrained anytime heuristic search algorithm | |
CN113627606A (zh) | 一种基于改进粒子群算法的rbf神经网络优化方法 | |
CN111768028B (zh) | 一种基于深度强化学习的gwlf模型参数调节方法 | |
Li et al. | Adaptive learning: A new decentralized reinforcement learning approach for cooperative multiagent systems | |
CN116448117A (zh) | 一种融合深度神经网络和强化学习方法的路径规划方法 | |
CN112699596B (zh) | 一种基于学习的广域电磁法激电信息非线性提取方法 | |
CN115905691A (zh) | 一种基于深度强化学习的偏好感知推荐方法 | |
Bhatia et al. | Tuning the hyperparameters of anytime planning: A metareasoning approach with deep reinforcement learning | |
Takayama et al. | Multi-objective deep inverse reinforcement learning for weight estimation of objectives | |
Song et al. | UAV Path Planning Based on an Improved Ant Colony Algorithm | |
Pan et al. | High-frequency path mining-based reward and punishment mechanism for multi-colony ant colony optimization | |
Li et al. | Co-evolutionary multi-colony ant colony optimization based on adaptive guidance mechanism and its application | |
Chadi et al. | Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization | |
CN116933948A (zh) | 基于改进海鸥算法与反向传播神经网络的预测方法和系统 | |
CN115630573A (zh) | 基于maddpg的大地电磁数据反演方法 | |
Salmanpour et al. | Optimal path planning for mobile robot using Intelligent Water Drops algorithm | |
CN115226027A (zh) | 一种WiFi室内指纹定位方法及装置 | |
Yang et al. | PMDRL: Pareto-front-based multi-objective deep reinforcement learning | |
Leng et al. | Multi-agent reward-iteration fuzzy Q-learning | |
CN110501903B (zh) | 机器人免逆解控制系统参数的自调节及优化方法 | |
CN116718198B (zh) | 基于时序知识图谱的无人机集群的路径规划方法及系统 | |
Yinka-Banjo et al. | Mobile robot path planning in an obstacle-free static environment using multiple optimization algorithms | |
Luo | Particle swarm optimization algorithm with proportional factor based on Nash equilibrium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210402 |
|
WD01 | Invention patent application deemed withdrawn after publication |