CN108594804B

CN108594804B - 基于深度q网络配送小车的自动行驶控制方法

Info

Publication number: CN108594804B
Application number: CN201810199115.6A
Authority: CN
Inventors: 朱斐; 吴文; 伏玉琛; 周小科
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2021-06-18
Anticipated expiration: 2038-03-12
Also published as: CN108594804A

Abstract

本发明公开了一种基于深度Q网络配送小车的自动行驶控制方法，其特征在于：包括传感系统、控制系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自我学习控制方法来处理，控制配送小车的运动状态。本发明通过在无人控制小车的控制系统中采用有安全距离的深度强化学习优化方法，处理来自传感系统获取的环境信息，然后选择合适的行动，并利用传感系统传递控制系统的控制信号到驱动系统，使无人控制小车执行对应的行动来适应千变万化的道路环境。

Description

基于深度Q网络配送小车的自动行驶控制方法

技术领域

本发明属于人工智能以及控制技术领域，尤其涉及一种基于深度Q网络配送小车的自动行驶控制方法，可以进行自我学习，完成对无人控制小车的控制。

背景技术

近年来，随着社会生活方法的变化，各类物流公司承接配送的物品量越来越多。传统物流公司的主要工作流程是：物流到达目的城市后，快递配送员人工配送至最终目的地。然而，随着物流业务量越来越多，配送的时间要求越来越短，快递配送员承担的任务也越来越沉重，增加快递配送员又会增加物流公司的人工成本。此外，人工送达快递方式存在着出错率高、送达时间不稳定等问题。这些现实问题催生了对物流“最后一公里”的配送方式的研究。

随着人工智能的发展，包括无人驾驶汽车在内的各类智能自动控制设备在社会生活的各领域得到了广泛的应用。使用无人控制的自动行驶小车，完成物流最后的配送环节，有效缓解快递配送员人手不足的问题，并减少出错率，显得尤为有价值。而在现实环境中的复杂道路环境，如何保证自动行驶的配送小车在行驶过程中的安全性无疑是首要考虑目标。由于道路交通环境复杂、多变，无法预先设定，因此需要无人控制的配送小车具有自主学习能力，通过与外界环境交互而进行学习，随着道路环境的变化改变行进策略。目前的无人控制小车主要采用雷达传感器等方式测量汽车与障碍物之间的距离，该控制方法成本较高，使之很难在无人驾驶的配送小车上大面积推广。

发明内容

本发明目的是：提供一种基于深度Q网络配送小车的自动行驶控制方法，通过对控制方法的改良，通过自我学习能够更快的适应新的环境，保证策略更新的有效性，实现自动驾驶，并在其过程中能够充分利用之前经验有效处理问题。

本发明的技术方案是：一种基于深度Q网络配送小车的自动行驶控制方法，包括传感系统、控制系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自我学习控制方法来处理，再由传感系统接收控制信息后控制配送小车的运动状态，其自我学习控制方法包括如下步骤：

⑴通过传感系统获取环境信息，包括视觉环境信息和非视觉信息；

⑵根据所述步骤⑴中获取的环境信息，初始化神经网络参数，包括环境状态信息和奖赏信息，并初始化强化学习算法的各项参数；

⑶对周边环境反馈的图像信息进行处理，通过数字化处理将图像信息处理为灰度图像，使用深度卷积网络进行特征提取和训练，将高维度的环境视觉信息转换成低纬度的特征信息，低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态s_t；

⑷在状态s_t下，根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动a_t，配送小车执行行动a_t后，获得新的环境状态s_t+1和立即奖赏r_t；

⑸更新当前值网络和目标值网络的参数，采用随机小批量梯度下降更新方式更新参数；

所述当前值网络损失函数计算方式：

其中

表示下一个状态下的状态动作值，Q(s,a；θ_i)为当前状态下的状态动作值，γ为回报函数的折扣因子，γ(0≤γ≤1)，E()为梯度下降算法中的损失函数，r为立即奖赏值，θ表示网络参数；

所述目标值网络在每执行N步后更新为当前值网络的值；

⑹查看是否满足学习终止条件，若不满足，则返回到步骤4继续循环，否则结束；所述学习终止条件为完成配送任务，或完成设定步数。

上述技术方案中，在所述步骤⑷中，设置经验池E，该经验池E中存放内容为：根据动作值函数Q(s,a)选择动作并执行，将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中，并重复上述步骤三～五万步，均存放于经验池E中，所述步骤⑸中的更新当前值网络和目标值网络的参数，需从经验池E中进行采样。

进一步的技术方案是，所述经验池E中还包括一碰撞经验池E₂，该碰撞经验池E₂中填充内容为：从经验池E中随机抽取四个样本，将其状态s作为当前值网络的第一层隐藏层的输入，由当前值网络输出动作值函数Q(s,a)，并根据动作值函数选择所采取的动作a_t，若在碰撞经验池E₂中已经存在(s,a)，则在其余动作中重新选择动作a_t；配送小车执行动作a_t后，获得新的环境状态s_t+1和立即奖赏r_t，并通过当前值网络损失函数更新当前值网络的参数，若配送小车状态为碰撞到杂物状态，则将该状态前X帧的动作值保存至碰撞经验池E₂内，所述步骤⑸中的采样样本从碰撞经验池E₂中选取。

上述技术方案中，所述当前值网络由三层卷积神经网络和一层全连接层组成，激活函数为relu函数；用于处理经过传感系统处理得到的图像信息，其中卷积神经网络提取图像特征后通过激活函数relu输出动作值函数Q(s,a)，并根据动作值函数Q(s,a)用ε-Greedy贪心策略选择动作a。

上述技术方案中，状态S表示为：传感系统感知的环境状态，是配送小车视野内的道路环境信息和其它道路周边信息；

行动a表示为：在当前状态下可以执行的操作集合，包括控制配送小车的加速、减速和转弯；

立即奖赏r是：在当前状态下配送小车所采取的行动的评价，若配送小车执行动作后依然在道路上且未被磕碰，则给一个+1的奖赏；若配送小车在行进过程中撞到了其他障碍物，则给一个-1000的奖赏。

本发明的优点是：

1、本发明中配送小车与道路环境的交互，通过强化学习方法的计算，获得配送小车在不同环境下的行驶策略，以使配送小车能够自主适应千变万化的道路环境；

2、通过在配送小车的控制系统中采用有安全距离的深度强化学习优化方法(设置碰撞经验池E₂)，处理来自传感系统获取的环境信息，然后选择合适的行动，充分考虑了安全性，有效避免训练和应用过程中出现的配送小车损耗，并加快训练过程；

3、本发明能够有效处理具有连续动作空间的控制问题；

4、本发明中的配送小通过充分训练后，可适应在各类复杂场景中的应用。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1是本发明实施例一中配送小车的信息传送结构框图；

图2是本发明实施例一中有安全距离的强化学习控制器结构框图；

图3是本发明实施例一中深度Q网络结构示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例：参见附图1～3所示，一种基于深度Q网络配送小车的自动行驶控制方法，包括传感系统、控制系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自我学习控制方法来处理，再由传感系统接收控制信息后控制配送小车的运动状态。

在本实施例中，整体控制框架为深度强化学习中的深度Q网络(DeepQ-Network，DQN)，采用了强化学习领域的Q-学习(Q-Learning)算法进行控制。假设在每个时间步t＝1,2,…，无人控制小车传感器系统观察马尔科夫决策过程的状态为s_t，控制系统选择行动a_t，获得环境反馈的立即奖赏r_t，并使系统转移到下一个状态s_t+1，转移概率为p(s_t,a_t,s_t+1)。强化学习系统中智能体的目标是学习到一个策略π，使得在未来时间步内获得的累积折扣奖赏

最大(0≤γ≤1为折扣因子)，该策略即为最优策略。但是在现实环境中，环境的状态转移概率函数p和回报函数R未知。智能体要学习到最优策略，只有立即奖赏r_t可用，这样可以直接采用策略梯度方法优化损失函数。本实施例中，采用随机梯度下降方法更新当前值网络参数，寻找最优策略，如图2所示。

仿真过程中，在不同的环境下，控制系统的网络结构相同，算法参数也采用同一套参数。回报函数的折扣因子γ＝0.99，采用三层卷积神经网络来提取传感系统收集的图像信息，卷积神经网络的网络参数固定，值网络和策略网络由三层隐藏层和一层输出层组成。在每次实验中，配送小车所处的环境初始状态是一个随机的初始状态，从随机的初始状态开始学习，若控制失败，则配送小车重新进行学习，直到配送小车能够在实际驾驶过程中达到甚至超越人类控制水平。

具体的控制方法为：

步骤1：获取配送小车所处的环境信息。

无人控制配送小车的传感器系统通过摄像机以及各种图像采集设备采集信息，周围环境的图像信息。

步骤2：初始化控制系统中的神经网络参数和强化学习算法参数，其中神经网络参数包括前馈网络的权值和偏置。

步骤3：对于环境反馈的视觉信息进行处理。

通过传感系统感知配送小车所处的状态。通过数字化处理将图像信息处理为灰度图像，将高维度的环境视觉信息转换成低纬度的特征信息。低维度特征信息与传感器感知的非视觉信息作为策略网络和值网络的输入状态s_t。

状态：为配送小车视野内的道路环境信息和其它道路周边信息。

行动：在当前状态下可以执行的操作集合，本实例中行动分为控制小车的加速、减速和转弯。

立即奖赏：是环境对在当前状态下配送小车所采取的行动的评价。若小车执行动作后依然在道路上且未被磕碰，则给一个+1的奖赏；若小车在行进过程中撞到了其他障碍物，则给一个-1000的奖赏。

步骤4：填充经验池

配送小车在与环境交互后，获得环境反馈的状态信息、奖赏信息等。环境反馈的高维视觉信息经过步骤3处理，产生一个处理后的输出，将该操作重复四次后作为当前值网络输入得到输出，根据动作值函数选择动作并执行，将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中，重复步骤4五万步。

步骤5：由当前值网络控制配送小车的行动。

从经验池E中随机抽取4个样本，将其状态s作为当前值网络的第一层隐藏层的输入，由当前值网络输出动作值函数Q(s,a)，并根据动作值函数选择所采取的动作a_t，若在碰撞经验池E₂中已经存在(s,a)，则在其余动作中重新选择动作a_t。配送小车执行动作a_t后，获得新的环境状态s_t+1和立即奖赏r_t。并通过当前值网络损失函数更新当前值网络的参数，若配送小车状态为碰撞到杂物状态，则将该状态前五帧保存至碰撞经验池E₂。

当前值网络由三层卷积神经网络和一层全连接层组成，激活函数为relu函数。用于处理经过传感系统处理得到的图像信息。卷积神经网络提取图像特征后通过激活函数输出动作值函数，并根据动作值函数用ε-Greedy策略选择动作。

步骤6：将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中。

步骤7：更新控制系统的当前值网络参数和目标值网络参数。

配送小车通过步骤4的方式不断与环境进行交互，从碰撞经验池E₂采样一批样本用来更新当前值网络和目标值网络。具体更新方式如下：

当前值网络损失函数L_i(θ_i)的计算方式为：

其中

表示下一个状态下的状态动作值，Q(s,a；θ_i)为当前状态下的状态动作值，该方法使用了强化学习中的Q-Learning算法，并采用RMSProp梯度下降方法(设置动量参数γ为0.95)来更新当前值网络参数。

步骤8：查看控制结果

查看是否满足学习终止条件，若不满足，则返回到步骤5继续循环。否则结束算法。

在真实环境中，配送小车的初始状态初始化为小车所处位置的环境状态，是一个随机位置。控制系统通过处理环境的状态和反馈信息来对配送小车下一步需要采取的行动做出决策，并利用这些数据更新当前值网络和目标值网络，直到配送小车遇到终止状态，则重新进行学习。在环境中执行100个情节(情节设定为有限长度)，若平均表现不比人类表现差，则判定学习成功，若平均表现比人类差，则判定失败。

本发明中，利用卷积神经网络能有效提取图像特征，使得系统能够更好地寻找到合适的动作。无人控制的配送小车可以在任何环境(如雨雪天、上下坡等)下进行训练，大大提高了应用的广泛性。

Claims

1.一种基于深度Q网络配送小车的自动行驶控制方法，包括传感系统、控制系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自我学习控制方法来处理，再由传感系统接收控制信息后控制配送小车的运动状态，其自我学习控制方法包括如下步骤：

⑶对周边环境反馈的图像信息进行处理，通过数字化处理将图像信息处理为灰度图像，使用深度卷积网络进行特征提取和训练，将高维度的环境视觉信息转换成低维度的特征信息，低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态s_t；

所述当前值网络损失函数计算方式：

其中Q(s′,a′；θ_i ^-)表示下一个状态下的状态动作值，Q(s,a；θ_i)为当前状态下的状态动作值，γ为回报函数的折扣因子，γ:0≤γ≤1，E()为梯度下降算法中的损失函数，r为立即奖赏值，θ表示网络参数；

所述目标值网络在每执行N步后更新为当前值网络的值；

⑹查看是否满足学习终止条件，若不满足，则返回到步骤4继续循环，否则结束；所述学习终止条件为完成配送任务，或完成设定步数；

在所述步骤⑷中，设置经验池E，该经验池E中存放内容为：根据动作值函数Q(s,a)选择动作并执行，将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中，并重复上述步骤三万～五万步，均存放于经验池E中，所述步骤⑸中的更新当前值网络和目标值网络的参数，需从经验池E中进行采样；

所述经验池E中还包括一碰撞经验池E₂，该碰撞经验池E₂中填充内容为：从经验池E中随机抽取四个样本，将其状态s作为当前值网络的第一层隐藏层的输入，由当前值网络输出动作值函数Q(s,a)，并根据动作值函数选择所采取的动作a_t，若在碰撞经验池E₂中已经存在(s,a)，则在其余动作中重新选择动作a_t；配送小车执行动作a_t后，获得新的环境状态s_t+1和立即奖赏r_t，并通过当前值网络损失函数更新当前值网络的参数，若配送小车状态为碰撞到杂物状态，则将该状态前X帧的动作值保存至碰撞经验池E₂内，所述步骤⑸中的采样样本从碰撞经验池E₂中选取。

2.根据权利要求1所述基于深度Q网络配送小车的自动行驶控制方法，其特征在于：所述当前值网络由三层卷积神经网络和一层全连接层组成，激活函数为relu函数；用于处理经过传感系统处理得到的图像信息，其中卷积神经网络提取图像特征后通过激活函数relu输出动作值函数Q(s,a)，并根据动作值函数Q(s,a)用ε-Greedy贪心策略选择动作a。

3.根据权利要求1所述的基于深度Q网络配送小车的自动行驶控制方法，其特征在于：

状态S表示为：传感系统感知的环境状态，是配送小车视野内的道路环境信息和其它道路周边信息；