CN116797116A

CN116797116A - 一种基于改进奖惩机制的强化学习路网负载均衡调度方法

Info

Publication number: CN116797116A
Application number: CN202310709345.3A
Authority: CN
Inventors: 李慧; 张秀梅; 李文松; 刘越; 李佳男
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-22

Abstract

本发明涉及一种基于强化学习的智能AGV路网负载均衡调度方法，其方法包括：步骤S1：利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块；步骤S2：用改进Q学习算法训练得出Q矩阵，让智能AGV在路网中与环境进行交互，多次迭代循环得出最优路径规划路线；步骤S3：设置2000次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；步骤S4：运用改进的奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中与环境进行交互，优化高负载区域。本发明所提方法，将负载因素考虑在强化学习的奖惩函数中，提出路径长度和路网负载结合，使路网负载均衡，规避了AGV因路网拥挤造成的速度慢和路径冲突问题。

Description

一种基于改进奖惩机制的强化学习路网负载均衡调度方法

技术领域

本发明属于智能控制与调度技术领域，具体涉及了一种基于改进奖惩机制的强化学习路网负载均衡调度方法。

背景技术

近年来，随着我国人工智能和智能制造的不断发展，仓库车辆作为物资和物料搬运的关键设备，得到了越来越广泛的应用。目前智能物流行业的自动分拣等领域已经延伸到了普通工厂，现在工厂的配件运输和组装工作大部分还是由人工来操作，有些工厂已经配备智能路网配送体系，但系统整体运行不够流畅、运输时间较长，会导致整体路网运行效率低下。路网调度系统经过近70年的发展,整个调度从技术、产品种类和应用上都有了长足的发展。随着近些年来社会的进步，各国都提出了自己工业的发展规划。

在现有工业体系中，路网调度系统需要承担的任务量越来越大，任务更加多样化，其运行空间变得越来越大，路线变得更加复杂。自动导航车(Automated Guided Vehicles，AGV)运输的最优性能主要通过调度实现，主要包括任务分配、路径规划和冲突检测。在现有路网调度系统研究中，针对路径规划算法的研究最多，通过优化路径规划算法提高整体路网调度效率已经有很多成熟的解决方案，但对于调度系统的任务分配优化和负载均衡研究则相对较少。

智能仓储调度技术一般通过建立地图资源模型，通过计算机视觉进行智能工厂地图的建立，再运用深度学习算法对规划的路径进行优化，从而达到好的避障效果，提高调度的效率；深度学习在处理避障和调度的问题上可通过训练大量数据集得到优化目标的最优路线和最有效的调度方式，但是想要获取大量的已有数据集谈何容易，用少量数据集训练得到的数据往往欠拟合，结果不具有普遍性；现有技术一般通过在深度学习中增加一些算法使训练结果得到优化，然后利用调度系统让每个车辆在地图上“跑”起来，终端上可以显示各个车辆的状态信息。虽然现有技术可以使智能仓储的物料配送完成独立自主运输，但仍然会存在路径冲突和动作不一致的问题，最后导致路网发生堵塞等问题。

AGV技术在智能物流仓库中发展较快，但与智能工厂相比，后者的内部环境更为复杂，且物料大小和配送地点都不统一，这就需要调度系统可以精确的调度AGV，在环境复杂的路网中要快速有效的完成任务。现有技术大多运用分布式调度，即从路径规划的角度来考虑智能AGV的运行效率，进而实现合理避障和快速通过路网。现有的一些智能算法与路网负载相结合，智能算法只能处理小规模的AGV运行问题，与深度学习相比，前者在运行时间和运行路程中都存在路程过长和时间过久的问题。现有的集中式调度系统经常把运行路径最短作为优化目标，而智能AGV在路网中的真实情况确是多个AGV会集中在某个区域，经常发生冲突问题，这就导致最终的运行时间过久，任务完成不足等问题。

发明内容

为了解决上述技术问题，本发明实施例提供一种基于改进奖惩机制的强化学习路网负载均衡调度方法，把AGV的运行路程和路网中的区域负载相结合，提出改进奖惩机制函数，通过改进Q学习算法让AGV和环境不断交互，训练得出Q矩阵，进而让路网中的高负载区域达到均衡。

本发明解决技术问题所采取的技术方案为：一种基于改进奖惩机制的强化学习路网负载均衡调度方法，包括：

步骤S1：利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块；

步骤S2：用改进Q学习算法让智能AGV在路网中与环境进行交互，训练得出Q矩阵，多次迭代循环得出最优路径规划路线；

步骤S3：设置100n(n∈N⁺)次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；

步骤S4：运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化。

本发明的有益效果是：

1、本发明采取一种强化学习方法中的改进Q学习算法，AGV与环境进行实时交互，经过多次迭代循环寻找到完成任务的最优路径，AGV和环境交互产生的每一次状态和动作都储存在Q表中，以便对数据进行随时调用。本发明通过一种试错机制来优化最优路径，降低路网负载，大大节省了相比于传统智能算法训练的时间，改进Q学习算法的整体路网负载也较传统算法更为流畅。

2、本发明针对智能AGV在路网负载中的拥堵问题，通过智能体AGV和环境的交互寻找最优策略，为解决路网中的高负载问题，将负载因素考虑在强化学习迭代过程的奖惩函数中，提出路径长度和路网负载量结合作为奖惩，最终使路网负载均衡，规避了大量AGV因路网拥挤造成的速度过慢和路径冲突问题。

附图说明

图1是本发明实施例中一种基于改进奖惩机制的强化学习路网负载均衡调度方法的流程图；

图2是强化学习基本原理图；

图3是改进Q学习算法流程图；

图4是AGV路径规划流程图；

图5是均衡路网高负载区域流程图；

图6是路网负载模型建立示意图。

具体实施方式

本发明提供了一种基于改进奖惩机制的强化学习路网负载均衡调度方法，通过建立路网地图模型，设置障碍和添加AGV模块，用改进奖惩机制的Q学习算法，让智能AGV在路网中与环境进行交互，训练得出Q矩阵，多次迭代循环得出最优路径规划路线；将路网中每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化。

下面结合附图和实例对本发明做进一步详细说明。

如图1所示，本发明实施例提供的一种基于改进奖惩机制的强化学习路网负载均衡调度方法，包括下述步骤：

在一个实施例中，上述步骤S1中，利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块，并测试地图功能的准确性，包括：

首先，以X轴和Y轴的正半轴建立直角坐标系，如原点坐标为(0,0)，由于AGV在地图中是运行路线是不断变化的，所以设定每个AGV的坐标为变量(x,y)，AGV可以在左右两边随机进出，在路网中随机设置陷阱障碍。

其次，将多个AGV随机置于地图两侧，根据环境中的陷阱位置，设定地图中的多个障碍陷阱，让智能AGV进行试错迭代。

最后，给多个AGV设置平均速度和静止速度，静止速度设为v＝0m/s，平均速度设为v＝2m/s。还为每个AGV安装红外传感器，以便每个AGV可以感知障碍和其他的AGV，实现更好的避障，降低负载调度时间。

如图2所示为强化学习基本原理图，指的是智能体与环境的互动过程为了达成一个目标而进行的学习过程。以本实验为例，智能AGV为智能体，真实的路网地图为环境，AGV在地图中运行为一个状态，由这个状态产生AGV下一步的动作，对这个动作进行打分即为奖励。

每执行一步动作，系统都会对这个动作进行打分，系统会获得一个奖励值，最后达成目标任务后，将每一步获得的奖励相加，即是最后获得的目标奖励。AGV与环境交互过程中获得的每一步动作和状态都会记录在一张Q表中，以便AGV获得最优的路径。

如图3所示，在一个实施例中，上述步骤S2中，用改进Q学习算法训练得出Q矩阵，让智能AGV在路网中与环境进行交互，多次迭代循环得出最优路径规划路线，包括：

步骤S21：由训练AGV与环境交互得到的Q矩阵进行多次循环试错，找出最优路线，Q学习算法基本公式如式(1)所示；

其中其中s，a表示当前的状态和行为，表示下一个状态及行为，学习参数γ在0到1之间，奖惩机制R在每一个状态和行为产生后都会给予奖惩。。在本实施例中，智能AGV通过观察周围环境的变化(栅格地图中的具体位置信息)，根据自身当前所处的状态(AGV当前所处的位置)做出相应的动作(下一个要访问的位置)，每做出一个动作，环境都会发生变化，AGV就会得到一个新的下一时刻的状态s，然后产生新动作a并不断执行。

步骤S22：设置奖惩机制R和学习参数γ，初始化Q值；

本实施例奖惩机制如式(2)所示：

其中，当AGV到达目标状态时，即完成路径规划任务时，系统给予200的目标奖励值，当AGV在路网的其他位置时，每次给予一个负奖励作为惩罚，学习参数γ取值0.8，然后初始化Q值。

步骤S23：随机选择一个初始状态s，在当前状态s的所有可能行动中选取一个行动a，得到下一个状态

智能AGV每执行一步动作，系统会对这个动作进行打分，AGV会获得一个奖励值，最后达成目标任务后，将每一步获得的奖励相加，即是最后获得的目标奖励。AGV与环境交互过程中获得的每一步动作和状态都会记录在一张Q表中。

步骤S24：计算Q(s,a)，判断得到的Q矩阵是否收敛，不收敛则返回步骤S23，收敛则退出，完成Q矩阵的学习。

表1储存Q值的Q表

	a1	a2	a3	a4
					s1	Q(1,1)	Q(1,2)	Q(1,3)	Q(1,4)
s2	Q(2,1)	Q(2,2)	Q(2,3)	Q(2,4)
					s3	Q(3,1)	Q(3,2)	Q(3,3)	Q(3,4)
s4	Q(4,1)	Q(4,2)	Q(4,3)	Q(4,4)

智能AGV与环境交互的过程中，每一步都会根据当前状态产生动作，对应的也会产生由多个状态和多个动作的Q值组成的Q表，Q表如表(1)所示：

其中，s1、s2、s3、s4分别代表智能AGV每一次的状态，a1、a2、a3、a4分别代表每个状态产生的相应动作。最后判断得到的Q矩阵是否收敛，不收敛则返回步骤S23，收敛则退出，完成Q矩阵的学习。

如图4所示，在一个实施例中，上述步骤S3中，为了验证本方法的有效性，设置100n(n∈N⁺)次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图，包括：

步骤S31：路网地图两侧随机设置AGV，n取20，对2000次任务量的多输入多输出AGV进行路径规划；

分别在地图路网两侧随机输入多辆AGV，任务总量为2000次，让智能AGV与环境进行交互，不断迭代循环，直至每辆AGV跑出最优路径为止，把所有AGV的路径轨迹和路径长度进行计算，并计算出整个路网完成任务时的总时间，最后得出路网负载图。

步骤S32：对多AGV路径的奖惩机制进行合理设置，AGV路径规划奖惩机制函数设置如式(3)所示；

当AGV完成所有任务时，即到达目标状态时，给予AGV最高的累计奖励；若多个AGV在路网中的同一位置相遇，会增加路网运行时间，则给予AGV同位置惩罚；AGV掉入陷阱，则给予陷阱惩罚；当AGV在路网中的其他状态时，到达终点前，每走一步都会给予一次其他状态惩罚。

步骤S33：对智能AGV的输入输出设置实验参数：

表2基于改进Q学习算法的多AGV路径规划实验参数

参数	取值
		记忆库Memory容量D	4000
到达终点奖励	+200
		单步惩罚	-1
多AGV同位置惩罚	-50
		陷阱惩罚	-90
折扣因子γ	0.8
		初始值ε	0.8

在使用改进Q学习算法解决智能AGV路径规划问题时，本实施例使用了如表2所示的参数；

在本步骤中，每个AGV通过智能体产生一系列动作和环境进行交互，在当前状态采取行动后，得到下一时刻的状态和奖励，然后保存在此步的记忆库D中，当积累一定的步数记忆后，从记忆库D中随机抽取一定数量的记忆作为样本并进行学习；当AGV通过不断迭代到达最后的终点时，给予AGV一个终点奖励，在走到终点之前，每走一步都会有一步的单步惩罚，还有多AGV同位置惩罚和陷阱惩罚，设置这些惩罚值也是为了让AGV尽量少“犯错”，尽快走到终点，获得最大奖励；折扣因子γ与时域有关，是为了让AGV尽快获得最大奖励而设置；初始值ε一般不能为0，因为不会计算最后的平均值里面，ε一般随着时间的进行而逐渐减小。

步骤S34：对所有完成任务的智能AGV进行路径统计，得出AGV均衡前的路网负载图。

根据每辆AGV在路网中的运行轨迹，统计出2000次任务的AGV在路网中每个区域的负载，将所有路网负载进行记录，统计出路网负载图。

如图5所示，在一个实施例中，上述步骤S4中，运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化：

步骤S41：改进奖惩机制函数，将负载因素考虑在强化学习迭代过程的奖惩函数中，设置奖惩函数如式(4)所示；

其中，α为路径长度系数，介于0到1之间；d_i(x)为AGV所走路径的总和,如式(5)所示；β为负载系数，介于0到1之间；load(x)为路网中当前区域的负载量；把路径长度和负载量设置在奖惩函数中，可以使智能AGV在路网中运行时，会根据子区域的负载量和行驶长度的多少来选择最优路径，最终达到优化整体路网负载的效果。

d_i(x)＝d₁+d₂+d₃+···+d_i i＝1,2,3···n (5)

步骤S42：对改进奖惩机制后的Q学习算法进行测试；

策略π是智能AGV在某状态s时采取某动作a的概率，其式定义如式(6)所示：

π(a|s)＝P[A_t＝a|S_t＝s] (6)

由上式可以看出：

(1)π描述了智能AGV的动作；

(2)π只与当前状态s有关，与其他状态无关；

(3)π与时间无关。

P代表状态之间转移的概率矩阵，P(s,a,s_t)＝P(s_t|s,a,)描述的是状态s时采取动作a转移到状态s_t的概率。定义G_t为t时刻的累计奖赏，如公式(7)所示：

G_t＝R_t+γR_t+2+γ²R_t+3+… (7)

状态价值函数用于描述每个状态的优劣程度，其计算方式如公式(8)所示：

V_π(s)＝Ε_π[G_t|S_t＝s] (8)

V_π(s)的计算可以分为两部分：S_t时获得的奖赏及后续状态转换获得的奖赏。

所以V_π(s)可以表示如公式(9)所示：

V_π(s)＝Ε_π[R_t+1+γV(S_t+1|S_t＝s)] (9)

对于某状态s的动作a，q_π(s，a)代表其状态行为值函数，如公式(10)所示：

q_π(s,a)＝Ε_π[R_t+1+γq_π(S_t+1,a_t+1)] (10)

最后，状态行为值函数即为所求Q矩阵，如式(11)所示：

Q_π(s,a)＝q_π(s,a) (11)

步骤S43：改进奖惩机制后，使用Q学习算法让智能AGV再次与环境进行交互；

如图6所示为路网负载模型建立示意图，引入负载因素后，智能AGV再次与环境进行交互，多个AGV在路网中进行路径寻优，根据设置奖惩策略，最终到达相对应的目标位置。

步骤S44：智能AGV与环境交互，在路网中优化高负载区域，得出均衡后的路网负载图。

智能AGV在到达目标位置后，记录AGV在路网中完成2000次任务的所有运行轨迹，将轨迹转化成路网负载图，在改进奖惩机制函数后，利用改进Q学习算法训练得出Q矩阵，让智能AGV在路网中与环境进行交互，最终智能AGV完成路网的负载均衡，高负载区域被均衡成低负载，得出全局最优的路网负载图。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，包括：

2.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，所述步骤S2：用改进Q学习算法让智能AGV在路网中与环境进行交互，训练得出Q矩阵，多次迭代循环得出最优路径规划路线，包括：

其中s，a表示当前的状态和行为，表示下一个状态及行为，学习参数γ在0到1之间，奖惩机制R在每一个状态和行为产生后都会给予奖惩；在本实施例中，智能AGV通过观察周围环境的变化(栅格地图中的具体位置信息)，根据自身当前所处的状态(AGV当前所处的位置)做出相应的动作(下一个要访问的位置)，每做出一个动作，环境都会发生变化，AGV就会得到一个新的下一时刻的状态s，然后产生新动作a并不断执行；

步骤S22：设置奖惩机制R和学习参数γ，初始化Q值；

3.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，所述步骤S3：为了验证本方法的有效性，设置100n(n∈N⁺)次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图，包括：

步骤S32：对多AGV路径的奖惩机制进行合理设置，AGV路径规划奖惩机制函数设置如式(2)所示；

当AGV完成所有任务时，即到达目标状态时，给予AGV最高的累计奖励；若多个AGV在路网中的同一位置相遇，会增加路网运行时间，则给予AGV同位置惩罚；AGV掉入陷阱，则给予陷阱惩罚；当AGV在路网中的其他状态时，到达终点前，每走一步都会给予一次其他状态惩罚；

步骤S33：对智能AGV的输入输出设置实验参数，设置记忆库Memory容量D，多AGV同位置惩罚，折扣因子和初始值等；

4.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，所述步骤S4：运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化，包括：

步骤S41：改进奖惩机制函数，将负载因素考虑在强化学习迭代过程的奖惩函数中，设置奖惩函数如式(3)所示；

其中，α为路径长度系数，介于0到1之间；d_i(x)为AGV所走路径的总和,如式(4)所示；β为负载系数，介于0到1之间；load(x)为路网中当前区域的负载量；把路径长度和负载量设置在奖惩函数中，可以使智能AGV在路网中运行时，会根据子区域的负载量和行驶长度的多少来选择最优路径，最终达到优化整体路网负载的效果；

d_i(x)＝d₁+d₂+d₃+···+d_i i＝1,2,3···n (4)

步骤S42：对改进奖惩机制后的Q学习算法进行测试；

策略π是智能AGV在某状态s时采取某动作a的概率，其式定义如式(5)所示：

π(a|s)＝P[A_t＝a|S_t＝s] (5)

P代表状态之间转移的概率矩阵，P(s,a,s_t)＝P(s_t|s,a,)描述的是状态s时采取动作a转移到状态s_t的概率，定义G_t为t时刻的累计奖赏，如公式(6)所示：

G_t＝R_t+γR_t+2+γ²R_t+3+… (6)

状态价值函数用于描述每个状态的优劣程度，其计算方式如公式(7)所示：

V_π(s)＝Ε_π[G_t|S_t＝s] (7)

V_π(s)的计算可以分为两部分：S_t时获得的奖赏及后续状态转换获得的奖赏，所以V_π(s)可以表示如公式(8)所示：

V_π(s)＝Ε_π[R_t+1+γV(S_t+1|S_t＝s)] (8)

对于某状态s的动作a，q_π(s，a)代表其状态行为值函数，如公式(9)所示：

q_π(s,a)＝Ε_π[R_t+1+γq_π(S_t+1,a_t+1)] (9)

最后，状态行为值函数即为所求Q矩阵，如式(10)所示：

Q_π(s,a)＝q_π(s,a) (10)

步骤S43：改进奖惩机制后，使用改进的强化学习模型让智能AGV再次与环境进行交互；