CN112598137A

CN112598137A - 一种基于改进的Q-learning的最优决策方法

Info

Publication number: CN112598137A
Application number: CN202011514716.5A
Authority: CN
Inventors: 蒋雯; 黄方慧; 耿杰; 邓鑫洋
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-02

Abstract

本发明公开了一种基于改进的Q‑learning的最优决策方法，包括以下步骤：步骤一、非线性系统模型构建；步骤二、马尔科夫模型构建；步骤三、Q‑learning算法求解；步骤四、Q‑learning算法中改进的动作选择策略；步骤五、改进的Q‑learning算法更新决策。本发明采用改进的Q‑learning算法实现非线性系统的最优决策，通过采用改进的动作选择策略进行系统的动作选择，解决了Q‑learning算法中的探索开发平衡问题，并使算法收敛速度快；本发明提出的改进的Q‑learning算法可以在无系统先验信息或系统数据的情况下实现对非线性离散系统的最优决策。

Description

一种基于改进的Q-learning的最优决策方法

技术领域

本发明涉及系统决策领域，是一种基于Q-learning算法实现对系统的最优决策方法。Q-learning算法是强化学习领域的一种无模型典型算法，可以实现在无系统先验信息情况下对系统进行决策的方法。

背景技术

决策技术是指为了实现某一特定目标，根据客观事实或在具有一定先验信息的基础上，借助一定的方法，对影响事件的各种因素进行评估分析，最终得出的决定。决策在人们的日常生活、经济、技术中普遍存在。决策结果的好坏以及准确性对事件的影响极为重要。由此可以看出，决策技术是一门紧密结合实际生产的工程学科。随着科学技术的不断发展进步，需要对某一系统或事件进行精准的最优决策。但是在实际生活中，由于系统的非线性特性，很难对系统进行精确的模型构建。此外，现有的决策方法需要系统的先验信息，但系统的先验信息或者数据很难获得，且获得的数据信息具有不完备、不确定、冲突性等特性很难进行精准的决策。

强化学习是机器学习中的一种，但又不同于典型的机器学习。强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励获得学习信息并更新参数。在强化学习中，智能体通过选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖励或者惩罚)反馈给智能体，智能体根据强化信号和环境的当前状态再选择下一个动作，重复此循环，最终在算法收敛时得到关于系统的最优决策。Q-learning方法是强化学习中的一种无模型方法，主要处理离散系统的最优决策问题。

由于Q-learning算法的无模型、无需系统先验知识的特点使其在自动化控制、水下航行、电子游戏等领域得到了广泛的应用。正是由于Q-learning的优良性能，所以在近几年其理论和实际应用发展较快，且应用前景广泛。

强化学习理论具有诸多优点，将其应用在非线性系统的最优决策中可以得到较为准确的决策结果，为我们的生产生活提供一定的理论和应用基础。

发明内容

为了解决非线性系统在无系统数据、信息下的最优决策问题，本发明基于Q-learning算法，提供一种改进的Q-learning最优决策的方法。本发明提出的方法可以解决系统的非线性、无系统先验知识下的系统最优决策问题，此外，更进一步实现对Q-learning算法的探索利用平衡，最终在收敛时间较短的前提下实现对非线性系统的最优决策。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤一：非线性系统模型构建

考虑的典型非线性离散约束系统的数学表达式为：

其中，f(·)表示的是非线性系统，s_i代表的是状态向量，a_i表示输入向量，Ω_a代表约束集合，定义为：Ω_a＝{g_i(·),i＝1,2,…,n}，g_i(·)代表多项式。

步骤二：马尔科夫模型构建

采用强化学习求解过程中，需进行马尔科夫(MDP)模型构建。MDP模型包括系统的状态空间：S＝(s₁,s₂,…,s_s)，动作空间A＝{a₁,a₂,…,a_i}，状态转移概率

以及系统的奖励R。根据系统的实际情况对S，A，

R进行确定，并确定整个系统中智能体和环境的代表物。

(1)状态空间：S＝(s₁,s₂,…,s_s)：在系统运行过程中所有的环境的状态集合；

(2)动作空间A＝{a₁,a₂,…,a_i}：在系统运行过程中智能体所采取的所有动作的集合；

(3)状态转移概率

表示为一个概率模型，即在状态s下采取动作a转到下一个状态s′的概率；

(4)奖励R：系统在运行过程中在某一状态s以及某一动作a下，系统给予的奖励值或者惩罚值。

步骤三：Q-learning算法求解

实现对非线性离散约束系统的最优决策目的是找到一个最优策略π：π:S→A，即a＝π(s)，使得系统在有约束的条件下做出最佳决策。策略的选择由环境和智能体经过反复探索试错，最终在某一策略下得到系统立即奖励和未来奖励值加和最大的策略为最优策略，定义如下：

其中γ是折扣系数，代表未来奖励值的占比情况，γ∈(0,1)；Π代表一系列策略的集合；s₀代表当前系统的状态情况。

Q-learning算法采用值迭代的方法实现最优决策的求解。值函数是为了度量策略在特定状态下的表现，分为状态价值函数和动作状态价值函数。在形式上，在折扣因子为γ、策略为π下的状态价值函数为:

动作状态价值也称Q值函数，表示为：

其中，Q^π(s_t,a_t)代表在某一状态、动态下系统的动作状态价值函数值。

Q-learning算法中通常采用ε-greedy算法进行最优动作(策略)选择，具体表示为：

其中，π^*(a|s)表示最优策略；ε表示探索概率。

步骤四：Q-learning算法中改进的动作选择策略

ε-greedy动作选择策略中存在ε，导致对系统的探索开发未达到很好的平衡。在不同的系统中ε选取的值不一致，会导致算法收敛程度和收敛时间不同，甚至会导致算法存在不收敛的情况，无法得到系统的最优策略。本发明通过采用改进的动作选择策略实现对系统最优策略的求解。

改进的动作选择策略通过在Q值上添加探索置信上界的索引值组成新的动作选择策略，可使Q-learning算法的探索利用达到平衡，从而节省算法收敛时间，并具有适用性。具体表示为：

a_t＝argmax(Q_π(s_t,a)+ueb(s_t,a)) (6)

其中，ueb(·)代表探索置信上界的索引值。

其中，1/4代表伯努利随机变量方差的上界；A_t(a)代表动作a被选择的次数；n代表所有动作被选择的次数；D_t(a)代表偏见因子，定义为：

D_t(a)具体代表动作的波动程度；

代表方差，定义为：

步骤五：改进的Q-learning算法更新决策

通过采用改进的动作选择策略进行动作选择，并采用公式(10)进行Q值的更新，最终使系统达到收敛，得到非线性系统的最优策略。

本发明的有益效果在于本发明采用改进的Q-learning算法实现非线性系统的最优决策。本发明采用改进的动作选择策略进行系统的动作选择，解决了Q-learning算法中的探索开发平衡问题，并使算法收敛速度快；本发明提出的改进的Q-learning算法可以实现对非线性离散系统的最优决策。

附图说明

图1是寻宝系统设置图；

图2是奖励函数收敛曲线图；

图3是收敛时间曲线图。

具体实施方式

下面结合附图和实例对本发明进一步说明。此处给出一个非线性离散系统：寻宝系统的实例，寻宝系统设置如图1所示。寻宝系统由6×6的网格组成，并在其中设置了一个智能体，一个目标，一个陷阱，以及多个障碍物—墙壁。寻宝系统的目标是找到从起始位置到目标的最优策略，其中，在掉入陷阱后智能体从新返回起始位置进行新一轮的目标寻找。本发明中结合寻宝系统寻找目标说明所提出的方法的步骤实施。

步骤一：寻宝系统设置

寻宝系统范围为6×6的离散网格，其中，空心圆代表智能体，实心圆代表陷阱，实现菱形代表目标，虚线代表障碍物—墙壁，实线代表边界，智能体可在网格范围内进行上下左右任意移动操作，但当某一侧碰到障碍物时，则不能向某一侧移动。智能体所在的位置即起始位置，需从起始位置找到目标，在此实现过程中没有系统的任何先验信息或系统数据。

步骤二：马尔科夫模型构建

以及系统的奖励R。在寻宝系统中，具体的MDP表现形式为：

(1)状态空间：S＝(s₁,s₂,…,s_s)：在系统运行过程中，智能体所处的不同位置即为系统的状态空间；

(2)动作空间A＝{a_上,a_下,a_左,a_右}：在系统运行过程中，智能体可以采取上下左右四种不同的移动方式，组成系统的动作空间；

(3)状态转移概率

由于无法确定系统的状态转移概率，因此未采用状态转移概率进行求解。

(4)奖励R：当智能体每移动一格，给与-0.1的奖励；当在某一小网格的基础上，①碰到障碍物给与-1的奖励，②碰到陷阱给与-5的奖励值，③寻找到目标给与+5的奖励值，具体奖励表示公式如式(11)：

步骤三：Q-learning算法求解

寻宝系统中智能体和环境进行交互，采用Q-learning算法，通过Q函数(包含当前时刻奖励值R和长期奖励值)进行反馈，决定下一步动作的选取，即采用公式(4)计算Q函数值，并选择相应的动作选择策略。此外，不断进行系统迭代，最终达到收敛，最后得到系统的最优决策。

步骤四：采用Q-learning算法中改进的动作选择策略进行动作选择

本发明中采用改进的动作选择策略进行动作选择，如式(12)：

a_t＝argmax(Q_π(s_t,a)+ueb(s_t,a)) (12)

其中，ueb(·)代表探索置信上界的索引值。

D_t(a)具体代表动作的波动程度；

代表方差，定义为：

步骤五：改进的Q-learning算法更新决策

通过采用改进的动作选择策略进行动作选择后，并采用公式(16)进行Q值的更新，最终使系统达到收敛，得到非线性系统的最优策略。

最后采用本发明的基于改进的Q-learning算法的最优决策方法，参照图1进行寻宝系统设计，并和传统Q-learning算法进行仿真对比，奖励函数值的仿真对比曲线，结果参照图2，收敛时间的仿真曲线，结果参照图3。