CN113420942A

CN113420942A - 一种基于深度q学习的环卫车实时路线规划方法

Info

Publication number: CN113420942A
Application number: CN202110811315.4A
Authority: CN
Inventors: 辛健斌; 于本洋; 王东署; 张震
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-09-21
Anticipated expiration: 2041-07-19
Also published as: CN113420942B

Abstract

本申请提供一种基于深度Q学习的环卫车实时路线规划方法，本申请通过步骤一，获取历史最快路线，根据所述历史最快路线确定首次待服务街道；步骤二，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道；步骤三，所述环卫车到达下一次所述待服务街道后，重复步骤二，直至遍历所有所述待服务街道返回至车库，提高了发生意外事故后的自适应路径规划能力，在时变的交通环境中得到环卫车用时最短的服务路线，降低了环卫车作业的总用时，从而缓解了城市交通的拥堵情况。

Description

一种基于深度Q学习的环卫车实时路线规划方法

技术领域

本申请涉及计算机领域，尤其涉及一种基于深度Q学习的环卫车实时路线规划方法。

背景技术

现有技术中，环卫车在城市街道中一直承担重要作用，包括街道清洁、除尘降温，以及垃圾收集等任务。在城市街道中存在时变的交通流以及交通事故、天气突变等不确定因素影响着环卫车的作业效率。一旦环卫车长时间作业会给本就拥堵的城市交通带来更大的负担。所以，在考虑时变交通流和不确定因素的同时合理规划路线降低环卫车的作业时间尤为重要。

近年来，我国建设智慧城市的进程逐步加快。智慧环卫作为智慧城市的重要组成部分也受到越来越多的关注，依托互联网+环卫管理平台预期实现环卫管理的信息化与精细化。目前，已建环卫相关应用系统中信息服务类多，而智能决策支持类少。传统的智能决策大多是基于历史数据，事先进行一次静态的全局路径规划，并未考虑可能事实发生的不确定因素。但是在现实世界中，交通事故、天气突变等不确定情况时有发生。一旦发生不确定因素现有技术无法识别并做出响应故规划效果将大打折扣甚至完全失效。

因此，在此背景下，对时变环境中环卫车路径规划相关决策问题提供解决方法是必要的。

发明内容

本申请的一个目的是提供一种基于深度Q学习的环卫车实时路线规划方法，以解决现有技术中环卫车如何在保证完成任务的同时，具有识别不确定因素并自适应进行后续路径规划的能力，从而降低环卫车的实际作业时间的问题。

根据本申请的一个方面，提供了一种基于深度Q学习的环卫车实时路线规划方法包括：

步骤一，获取历史最快路线，根据所述历史最快路线确定首次待服务街道；

步骤二，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道；

步骤三，所述环卫车到达下一次所述待服务街道后，重复步骤二，直至遍历所有所述待服务街道返回至车库。

进一步地，上述环卫车路线规划方法中，所述步骤二之前还包括：

获取每一个所述服务街道到其他所述服务街道的历史通行时间。

进一步地，上述环卫车路线规划方法中，所述步骤二，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道，包括：

获取所述当前实时路况信息、所述当前待服务街道序号、所述当前时刻、所述未访问服务街道数量，并基于所述当前实时路况信息，得到从当前待服务街道前往其他每个所述待服务街道的当前实时通行时间；

基于所述当前实时通行时间、所述历史通行时间、所述当前待服务街道序号、所述当前时刻、所述未访问服务街道数量，利用所述神经网络模型得到当前最优路线，确定下一个所述待服务街道。

进一步地，上述环卫车路线规划方法中，所述步骤二中构建基于马尔科夫策略的神经网络模型，包括：

利用马尔科夫策略构建神经网络模型并进行训练，包括：

采集训练数据，所述训练数据包括通行时间数据、未访问服务街道数量数据，当前待服务街道序号数据，当前时刻数据，所述通行时间数据包括历史通行时间数据和实时通行时间数据，随机设定所述实时通行时间数据；

在所述神经网络模型中利用无模型方法构建深度Q网络框架，所述深度Q网络框架中包括动作值网络、目标值网络、经验回放单元以及DQN损失函数；

利用所述训练数据基于所述深度Q网络框架对所述神经网络模型进行训练。

进一步地，上述环卫车路线规划方法中，所述利用所述训练数据基于所述DQN框架对所述神经网络模型进行训练，包括：

获取不同的目标任务，并从所述训练数据中随机选择不同的初始状态值；

基于每一个所述目标任务，在所述深度Q网络框架中对所述神经网络模型进行训练，并利用∈-greedy策略，进行随机动作选择和策略选择，得到训练后的所述神经网络模型。

进一步地，上述环卫车路线规划方法中，所述步骤三中所述环卫车到达下一个所述待服务街道后，重复步骤二，直至遍历所有所述待服务街道返回至车库，包括：

所述环卫车到达下一所述待服务街道后，获取所述未访问服务街道数量，若所述未访问服务街道数量为二时，直接确定最后访问的所述待服务街道；

访问所有所述待服务街道后返回至所述车库。

进一步地，所述环卫车路线规划方法还包括：

基于所述当前实时路况信息、所述当前待服务街道序号、所述当前时刻、所述未访问服务街道数量，利用贪心算法确定后续所述待服务街道；

分别评估前往后续所述待服务街道用时和前往下一次所述待服务街道用时，选择用时最短的所述待服务街道作为最优的下一次所述待服务街道，并执行步骤三。

与现有技术相比，本申请通过步骤一，获取历史最快路线，根据所述历史最快路线确定首次待服务街道；步骤二，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道；步骤三，所述环卫车到达下一次所述待服务街道后，重复步骤二，直至遍历所有所述待服务街道返回至车库，即将环卫车路径规划问题拆分为一系列子问题，构建马尔科夫决策的神经网络模型，通过强化学习方法(深度Q学习)对问题进行求解，考虑到城市街道通行时间的时变性，提高了发生意外事故后的自适应路径规划能力，在时变的交通环境中得到环卫车用时最短的服务路线，降低了环卫车作业的总用时，从而缓解了城市交通的拥堵情况。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一种基于深度Q学习的环卫车实时路线规划方法流程示意图；

图2示出根据本申请的环卫车实时路线规划方法中子问题通行时间示意图；

图3示出根据本申请的环卫车实时路线规划方法中深度Q网络框架结构示意图；

图4示出根据本申请的环卫车实时路线规划方法中神经网络模型训练时子问题结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请的一种基于深度Q学习的环卫车实时路线规划方法流程示意图，该方法适用于城市道路中各种车辆的调度包括但不限于环卫车、洒水车、清扫车、垃圾车吸尘车等，该方法包括步骤S11、步骤S12及步骤S13，其中，具体包括：

步骤S11，获取历史最快路线，根据所述历史最快路线确定首次待服务街道；在此，城市路网包括所述待服务街道和其他街道，环卫车在所述待服务街道中执行街道清洁、除尘降温，以及垃圾收集等任务。城市路网是全连通的，即路网中任意两个路口间具有连通路径。所述服务街道可能被多次经过但仅被服务一次。所述历史最快路线用于指示无意外事件发生时访问所有所述待服务街道的用时最短路线。

步骤S12，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道；在此，环卫车到达某条服务街道，后续决策应根据路网中最新获取的路况信息在线做出，以避免不确定因素导致的通行时间延长影响总作业用时。

步骤S13，所述环卫车到达下一次所述待服务街道后，重复步骤S12，直至遍历所有所述待服务街道返回至车库。在此，每次在确定所述待服务街道时，都形成一个子问题，通过所述神经网络模型得到最优策略，进而确定当前最优路线，确定下一次进行访问的所述待服务街道，直到遍历完所有待服务街道，适应道路交通的时变性，在时变的交通环境中得到环卫车用时最短的服务路线，降低了环卫车作业的总用时，从而缓解了城市交通的拥堵情况。

上述步骤S11至步骤S13，将环卫车路径规划问题拆分为一系列子问题，构建马尔科夫决策的神经网络模型，通过强化学习方法(深度Q学习)对问题进行求解，考虑了城市街道通行时间的时变性，提高了发生意外事故后的自适应路径规划能力，在时变的交通环境中得到环卫车用时最短的服务路线，降低了环卫车作业的总用时，从而缓解了城市交通的拥堵情况。

例如，构建一交通路网，共有30条街道，随机选择10条道路作为服务街道，即服务街道a0、a1、a2、a3......a9。首先，获取历史最快路线，根据所述历史最快路线确定首次待服务街道a0。然后，当环卫车到达所述首次待服务街道a0后，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型M，基于所述神经网络模型M得到当前最优路线L1，确定下一次所述待服务街道a3。环卫车在首次待服务街道a0上完成清扫任务后，前往所述待服务街道a3。接着，当所述环卫车到达所述待服务街道a3后，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，基于所述神经网络模型M得到当前最优路线L2，确定下一次所述待服务街道a2。环卫车在待服务街道a3上完成清扫任务后，前往所述待服务街道a2。不断重复上述步骤，直至遍历完所有待服务街道a0、a1、a2、a3......a9。提高了路线决策精确度和在时变的交通环境中自适应路径规划能力，降低了环卫车作业的总用时，从而缓解了城市交通压力。

接着本申请的上述实施例，所述步骤S12之前还包括：

获取每一个所述服务街道到其他所述服务街道的历史通行时间。在此，所述历史通行时间可以是以往的道路旅行时间与服务时间均值。服务时间用于指示在服务街道执行任务时的总用时；道路旅行时间用于指示仅经过所述服务街道用时。并且，所述历史通行时间也可以是通过预测方法得到，所述预测方法指利用深度学习等人工智能方法进行交通流预测(预测通行时间)。获取历史通行时间以便后续通过神经网络模型得到最优路线并确定下一次待服务街道。

例如，城市路网被视为一个有向图G(V,A)，其中V代表有限的节点(路口)集合，A是不同相邻节点间的有限弧(街道)集合。为方便建模，一条可行的环卫车服务路径由a₀,a₁,...,a_K-2,a_K-1表示，其中a_k∈A_R表示服务街道(服务街道)，A_R表示服务街道集合。相邻服务街道之间的路径包括前一条服务街道终点连接到后一条服务街道起点的衔接路径以及后一条服务街道。此时定义在时刻t两相邻服务街道间的通行时间为μ_i,j(t)，那么μ_i,j(t)对应衔接路径用时与服务街道用时的总和。根据μ_i,j(t)的定义可知，该时间依赖函数用于表示街道通行时间的时间依赖性，属于可事先获得的历史数据(或预测数据)即历史通行时间。所述历史通行时间μ_i,j(t)可以是以往的道路旅行时间与服务时间均值，即以往的道路旅行时间b1、b2、b3......bn；以往的服务时间c1、c2、c3......cn；则历史通行时间μ_i,j(t)＝(b1+b2+b3......bn)/n+(c1+c2+c3......cn)/n。即获取所述历史通行时间以便后续通过神经网络模型得到最优路线并确定下一次待服务街道。

又例如，所述历史通行时间可以是通过预测方法得到，所述预测方法指利用深度学习等人工智能方法进行交通流预测。上述预测方法可以是一种域转换器(domaintransformer)结构，用于将交通流量信息转化为通行时间信息，从而将交通流量这一异质信号整合到通行时间预测模型当中。

接着本申请的上述实施例，所述步骤S12，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道，包括：

获取所述当前实时路况信息、所述当前待服务街道序号、所述当前时刻、所述未访问服务街道数量，并基于所述当前实时路况信息，得到从当前待服务街道前往其他每个所述待服务街道的当前实时通行时间；在此，到达某条服务街道后需要获取前往其余服务街道的当前实时通行时间，当前实时通行时间不可预测只能实时获取。

基于所述当前实时通行时间、所述历史通行时间、所述当前待服务街道序号、所述当前时刻、所述未访问服务街道数量，并利用所述神经网络模型得到当前最优路线，确定下一个所述待服务街道。在此，每个子问题的作业用时在相应子问题的当前状态中当前实时通行时间根据当前路况信息确定，而后续状态由于随时产生变化无法准确获得故采用历史通行时间μ_i,j(t)近似估计，见图2。

例如，环卫车到达某条待服务接到后，获取所述当前实时路况信息V1，并基于所述当前实时路况信息V1，得到从当前待服务街道前往其他每个所述待服务街道的当前实时通行时间δ_i,j(t)。然后，获取所述当前实时通行时间δ_i,j(t)、所述历史通行时间μ_i,j(t)、当前待服务街道序号an、所述当前时刻t、所述未访问服务街道数量K，并通过所述神经网络模型M得到当前最优路线，确定下一个所述待服务街道。将环卫车路线规划问题划分为一个个小问题，提高路线规划精度，有利于得到更优的规划路线，降低环卫车作业的总用时，从而缓解了城市交通压力。

进一步地，所述步骤S12中构建基于马尔科夫策略的神经网络模型，包括：

利用马尔科夫策略构建神经网络模型并进行训练，包括：

采集训练数据，所述训练数据包括通行时间数据、未访问服务街道数量数据，当前待服务街道序号数据，当前时刻数据，所述通行时间数据包括历史通行时间数据和实时通行时间数据，随机设定所述实时通行时间数据；例如，该随机设定的实时通行时间数据包括正常路况的通行时间(历史通行时间)以及产生不确定因素延时后的大致时间即可(采用2至4倍历史通行时间)。

在所述神经网络模型中利用无模型方法构建深度Q网络(Deep Q-Network，DQN)框架，所述DQN框架中包括动作值网络、目标值网络、经验回放单元以及DQN损失函数；

在此，经验回放单元是一种具有容量限制存储一系列元组的数据结构，用于存储Agent与环境交互时的状态转移信息(即训练样本)，包括当前状态s、采取的动作m、获得的即时奖励r以及状态转移后的下一步状态s'。采用经验回放单元来存储样本的目的是后续训练过程中采用的经验信息将从经验回放单元随机抽取，这样做一方面可以批量抽取并行训练，另一方面由于随机时间依赖乡村邮递员问题(stochastic time-dependent ruralpostman problem，STDRPP)的决策过程包含一个时间序列，样本之间具有连续性，如果每次得到样本就更新Q(s,m；θ)，受样本分布影响会降低模型训练效果。采用目标值网络的目的在于增强训练时的稳定性。该网络在训练过程中每隔一定步数对动作值网络进行复制。如果仅有动作值网络，那么在训练的过程中动作值网络将既代表当前网络状态又要代表网络的期望状态，这会导致训练不稳定性增加甚至训练无效。DQN损失函数的梯度下降，是模型能够不断学习的关键。DQN方法以深度网络近似Q^π(s,m)值。DQN框架中网络的更新方式是对网络参数的更新，目的是使动作值函数与目标值函数不断逼近。

利用所述训练数据基于所述DQN框架对所述神经网络模型进行训练。

其中，将该环卫车路线规划问题描述为以下马尔科夫决策过程：马尔科夫过程(markov decision process,MDP)可表示为一个四元组{S,M,P,R}，S表示有限的环境状态集合，M表示可能的动作集合，P是状态转移概率，定义为P:S×M×S→[0,1]，对于每一组状态转移还对应一个奖励

MDP描述一种贯序决策过程，从起始状态开始，当前状态依据概率P采用动作m∈M转移到下一个状态获得这一步的奖励r∈R，直到终止状态结束，整个过程获得的奖励总和称为累积奖励。在MDP中处于状态s∈S时下一步应采取的动作是由策略π决定的，而使累积奖励最大的策略称作最优策略π^*。每一个状态s都对应一个最优动作π^*(m|s)∈M，那么只要得到最优策略π^*就可以获得所考虑贯序决策过程的最优解决方案。

通过计算最优策略π^*来找到较好的路由方案。具体的建模方式如下，该环卫车调度方法的状态表示为多种路况信息的组合，如下式：

S＝{[a,t,μ_i,j(t)/δ_i,j(t),φ(a)],a,i,j∈A_R,t∈T}

服务街道a_k、时刻t_k、通行时间μ_ak,j(t_k)/δ_ak,j(t_k)以及未访问服务街道集合φ(a_k)共同组成了环卫车路径规划问题的状态

该状态表示环卫车在时刻t_k位于服务街道a_k时前往其余服务服务的历史通行时间为

实时接收到的通行时间为

以及目前为止尚未访问的服务街道集合为φ(a_k)。每一个状态s_k对应的动作空间定义为M(s_k)，该动作空间由当前服务街道a_k的后继服务街道组成，即M(s_k)＝φ(a_k)，下一步状态中的服务街道只能在相应动作空间中选取。

在MDP中累积奖励最大时对应最优策略，而该调度问题中的目标是最小化总用时，故每一步的实时奖励将采用从当前状态到下一状态所需通行时间的相反数：

r_k+1＝-μ_i,j(t)/δ_i,j(t)

最后，目标是找到一个策略π^*:S→M，即根据策略π^*在每个状态s_k下给出下一步应去的服务街道π^*(a_k|s_k)∈φ(n_k)。

如果P已知，可以直接利用基于模型的动态规划方法来求解问题。但是，在交通网络中街道的通行时间分布很难确定，无法事先获得P，故将采用无模型方法DQN框架来求解该问题。

在MDP中，依据策略π在状态s下采取动作m时对应一个状态-动作值函数，记为Q^π(s,m)，该值函数表示采取动作后的期望价值，与某一策略π对应。最优状态-动作值函数Q^*(s,m)是指所有策略中最大的状态-动作值函数，即：

Q^*(s,m)＝max_πQ^π(s,m)

若已知最优状态-动作值函数，最优策略可通过选取最大化Q^*(s,m)动作获得：

π^*(m|s)＝argmax_m∈MQ^*(s,m)

DQN框架主要关注两个主体，即Agent与环境。Agent表示一个代理，它通过与环境交互试错来积累经验以完成特定任务。在Agent与环境不断交互的过程中来逼近Q^*(s,m)，记录状态动作对对应的Q^π(s,m)值。DQN算法作为时间差分算法的一员，其基于现有估计以及在每一步交互中获取的一个新学习样本不断迭代更新Q^π(s,m)，使其逼近Q^*(s,m)从而获得较好的策略以完成任务。DQN的整个交互过程可由图3表示。

Agent在训练过程中根据当前环境获取状态，并依据一定的策略给出相应动作反馈给环境，环境根据该动作更新状态并产生一个奖励反馈回Agent。在这个过程中，Agent的策略除了做出决策外还在不断学习经验。该学习过程由状态-动作值函数的更新表示，更新后的值函数对应着新的策略。状态-动作值函数的更新公式如下：

Q(s_k,m_k)＝Q(s_k,m_k)+α[r_k+1+γmax_mQ(s_k+1,m)-Q(s_k,m_k)]

其中，α∈[0,1]为学习率即每次更新的步长，γ∈[0,1]为折现系数表示当前反馈的重要性，r_k+1表示采取动作m后获得的奖励，r_k+1+γmax_mQ(s_k+1,m)整体被称为时间差分目标。

接着本申请的上述实施例，所述利用所述训练数据基于所述DQN框架对所述神经网络模型进行训练，包括：

获取不同的目标任务，并从所述训练数据中随机选择不同的初始状态值；在此，将环卫车路径规划问题拆分成一个个小问题即对应多个不同的目标任务，不同的目标任务对应选择不同的初始状态值进行模型训练。

基于每一个所述目标任务，在所述DQN框架中对所述神经网络模型进行训练，并利用∈-greedy策略，进行随机动作选择和策略选择，得到训练后的所述神经网络模型。在此，利用∈-greedy策略有利于实现探索与利用的平衡，从而有利于得到更优的路线规划策略。

例如，如图4所示，获取目标任务G1(对应子问题1)，并从所述训练数据中随机选择不同的初始状态值s1、s2.....sn；获取目标任务G2(对应子问题2)，并从所述训练数据中随机选择不同的初始状态值s1、s2.....sn；......获取目标任务G4(对应子问题4)，并从所述训练数据中随机选择不同的初始状态值s1、s2.....sn。分别在所述DQN框架中对所述神经网络模型进行训练，并利用∈-greedy策略，进行随机动作选择和策略选择，得到训练后的所述神经网络模型M’。

进一步地，本申请的又一实施例，所述步骤S13中所述环卫车到达下一个所述待服务街道后，重复步骤S12，直至遍历所有所述待服务街道返回至车库，包括：

访问所有所述待服务街道后返回至所述车库。

其中，在所述神经网络中，起始状态为：

代表从服务街道a₀在开始时刻t_s出发。

终止状态表示为：

其中|A_R|表示服务街道数量，根据问题的定义当仅剩两条服务街道未访问时就已经无需再进行决策，故终止状态的下标记为|A_R|-2，并且终止状态也无需再考虑未访问服务街道集合，故记为空集。

本申请的又一实施例，所述路线规划方法还包括：

分别评估前往后续所述待服务街道用时和前往下一次所述待服务街道用时，选择用时最短的所述待服务街道作为最优的下一次所述待服务街道，并执行步骤S13。在此，为了进一步增强该模型的性能，在每一步决策时除了应用Agent模型以外还采用一种基本规则(例如贪心算法)对相应子问题进行评估。基本规则评估结果将与Agent模型评估结果竞争，最终以评估用时最小作为下一步决策。基本规则从相应子问题的初始状态开始贪心选取用时最短的下一个可选服务街道直至走完所有服务街道。选择简单的基本规则是因为Agent模型的决策时间毫秒级，作为Agent模型的增强策略计算用时也不应过长，整个模型将用于环卫车的实时在线决策。

综上所述，本申请通过步骤一，获取历史最快路线，根据所述历史最快路线确定首次待服务街道；步骤二，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道；步骤三，所述环卫车到达下一次所述待服务街道后，重复步骤二，直至遍历所有所述待服务街道返回至车库，即将环卫车路径规划问题拆分为一系列子问题，构建马尔科夫决策的神经网络模型，通过强化学习方法(深度Q学习)对问题进行求解，考虑了城市街道通行时间的时变性，提高了发生意外事故后的自适应路径规划能力，在时变的交通环境中得到环卫车用时最短的服务路线，降低了环卫车作业的总用时，从而缓解了城市交通的拥堵情况。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于深度Q学习的环卫车实时路线规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤二之前还包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤二，获取当前实时路况信息、当前待服务街道序号、当前时刻、未访问服务街道数量，构建基于马尔科夫策略的神经网络模型，基于所述神经网络模型得到当前最优路线，确定下一次所述待服务街道，包括：

基于所述当前实时通行时间、所述历史通行时间、所述当前待服务街道序号、所述当前时刻、所述未访问服务街道数量，并利用所述神经网络模型得到当前最优路线，确定下一个所述待服务街道。

4.根据权利要求3所述的方法，其特征在于，所述步骤二中构建基于马尔科夫策略的神经网络模型，包括：

利用马尔科夫策略构建神经网络模型并进行训练，包括：

在所述神经网络模型中利用无模型方法构建深度Q网络框架，所述深度Q网络框架中包括动作值网络、目标值网络、经验回放单元以及深度Q网络损失函数；

5.根据权利要求4所述的方法，其特征在于，所述利用所述训练数据基于所述深度Q网络框架对所述神经网络模型进行训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤三中所述环卫车到达下一个所述待服务街道后，重复步骤二，直至遍历所有所述待服务街道返回至车库，包括：

访问所有所述待服务街道后返回至所述车库。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：