CN111352419B

CN111352419B - 基于时序差分更新经验回放缓存的路径规划方法及系统

Info

Publication number: CN111352419B
Application number: CN202010115628.1A
Authority: CN
Inventors: 李沂滨; 张天泽; 贾磊; 宋艳; 王代超; 高辉; 胡晓平
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2021-06-04
Anticipated expiration: 2040-02-25
Also published as: CN111352419A

Abstract

本发明提供了基于时序差分更新经验回放缓存的路径规划方法，步骤包括：当前状态特征向量作为输入数据；建立DQN模型，DQN模型包括当前Q网络和目标Q网络；将输入数据输入到DQN模型形成输出数据和奖励信号；将输入数据、输出数据和奖励信号记为经验数据，存入经验回放缓存；当经验回放缓存的容量到达设定值时，将新的经验数据替换经验回放缓存中TD误差最小的经验数据，并实时更新经验回放缓存；解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题，使得车辆路径规划效率提高，所需缓存空间大幅降低。

Description

基于时序差分更新经验回放缓存的路径规划方法及系统

技术领域

本发明涉及一种路径规划方法及系统，具体涉及一种基于时序差分的更新经验回放缓存的路径规划方法及系统。

背景技术

机器学习方法通常被分为三类：监督学习，无监督学习和强化学习。其中，属于行为主义人工智能研究范围的强化学习(Reinforcement Learning,RL)是近些年热点研究方向之一，被普遍期望为通往通用人工智能的重要途径之一。强化学习通过构建智能体，让其在与环境的频繁交互中，根据从环境返回的奖励信号不断学习，最终得到一个能够解决问题的最优控制策略，整个状态转移过程通常被描述为一个马尔科夫过程。在RL中，构建智能体的方法被分为两种类型：无模型RL和基于模型的RL。Q学习是无模型RL方法中的经典算法，从环境中返回的奖励信号被用来更新动作价值函数。深度学习(Deep Learning,DL)与Q学习方法结合，提出了性能良好的深度Q学习算法，使其能够在大多数的游戏环境中得分超过人类玩家。该算法使用了经验回放机制，其将智能体与环境交互得到的转移过程存放在一个大尺寸的缓存空间中，并以监督学习的方式让智能体学习这些采集到的真实经验。

然而，智能体收集交互经验是一个十分费时且消耗硬件资源的过程，尤其是在环境状态空间很大的情况下。而且对于大多数现实中的控制器而言，简陋的硬件资源难以为经验回放机制提供足够大的缓存空间。这大大限制了强化学习算法在现实工业环境的普遍应用。另外，有研究证明了并非经验回放缓存空间尺寸越大算法效果越好。优先级经验回放方法，建议更加频繁的重播具有较高期望的转移过程，并根据时序误差为依据为转移过程划分优先级。该算法有限度的改善了原深度Q网络(Deep Q Net,DQN)对于经验回放缓存中的转移过程利用效率低下的问题，但提升效果较差，不能有效将有用经验保留下，也不能将低效的转移过程尽快从经验缓存中去除，使得对采集到的样本数据利用率低，无法实现高精度的算法运行效果。

强化学习样本利用效率问题：无模型强化学习算法不需要使用任务环境的先验知识对环境进行建模，但需要智能体频繁的与环境进行交互得到状态转移过程(经验)，这一过程是相当费时且占用计算资源的，因此解决样本利用效率低下问题是提高强化学习算法性能的重中之重。

经验池占用缓存空间过大问题：DQN算法是近些年来强化学习算法的一大进步，其在多个游戏环境中得分超过人类玩家，是通往通用人工智能的重要一步。在该算法中，为了以有监督的形式训练深度神经网络，使用了经验回放机制。该机制在计算机缓存占用相当大的空间以存储智能体与环境交互得到的转移过程(经验，通常需要存放10⁶条经验)，并在每个时间步以有监督学习的方式训练网络。但是，现实中常见的控制器自身内存空间有限，并不能为经验回放机制提供相应的使用条件，这大大限制了强化学习算法在现实生活中的普遍应用。

最合适并控制车轮行进方向，是较为精确且实用的路径规划算法，但现有技术中涉及的驾驶仿真与测试环境，基于传统的训练模型存储的路径空间有限，不能为经验回放机制提供使用条件，训练模型利用率低，大大限制了车辆路径规划在现实生活中的普遍应用。

发明内容

为解决上述技术问题，本发明中的相应算法可使智能体有效利用采样得到的样本数据，且可大大降低经验回放机制所占用的内存空间，应用于车辆路径规划，有效解决了车辆路径规划的训练模型利用率低，不利于车辆路径规划在现实生活中的普遍应用问题。

第一方面，本发明提供了基于时序差分更新经验回放缓存的路径规划方法，步骤包括：

训练阶段：时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据；建立DQN模型，DQN模型包括当前Q网络和目标Q网络及经验回放缓存；将输入数据输入到DQN模型形成输出数据和奖励信号；

将输入数据、输出数据和奖励信号记为经验数据，存入经验回放缓存；

当经验回放缓存的容量到达设定值时，将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据，并实时更新经验回放缓存；

应用阶段：获取当前时刻的车辆位置数据，根据实时更新的经验回放缓存规划汽车路径，按照基于时序误差更新的经验回放缓DQN存规划控制所述车辆的行驶方向。

第二方面，本发明提供了一种车辆路径规划系统，包括经验回放缓存模块，所述经验回放缓存模块采用如第一方面提供的路径规划方法进行数据处理。

第三方面，本发明提供了一种车辆路径规划电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的路径规划方法。

第四方面，本发明提供了一种车辆路径规划计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的路径规划方法。

与现有技术相比，本发明的有益效果为：

1、本发明通过基于时序差分为深度强化学习中使用的经验回放机制提供了一种新的经验回放缓存更新方式。主要解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题，使得车辆路径规划效率提高，所需缓存空间大幅降低。

2、本发明对于在实际实验过程中，可以通过观察发现使用本方法的深度强化学习算法可以在完成环境任务的基础上更快地达到收敛，证明了使用本方法的深度强化学习算法更加有效的利用了通过与环境交互得来的样本数据。

3、本发明在实际实验过程中，在经验回放缓存空间大小收到限制的情况下，算法依然表现良好，证明了使用本方法的强化学习算法可以在内存更小的硬件上使用。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

附图1为本发明的实施例1中车辆路径规划模拟器的训练阶段流程图；

附图2为本发明的实施例1中车辆路径规划模拟器的应用阶段流程图

附图3为本发明的实施例1中更新经验回放缓存的流程图；

附图4为本发明的实施例1中DQN模型的算法原理图；

附图5为本发明的背景技术中深度Q网络的强化学习过程图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本发明中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本发明各部件或元件结构关系而确定的关系词，并非特指本发明中任一部件或元件，不能理解为对本发明的限制。

本发明中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体的连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本发明中的具体含义，不能理解为对本发明的限制。

实施例1

基于时序差分的更新经验回放缓存方法，步骤包括：

所述TD误差是目标Q网络计算的目标Q值和当前Q网络计算的当前Q值之间的差值。

DQN模型使用当前Q网络Q用来采集输入数据，更新模型参数，目标Q网络用于计算目标Q值，通过神经网络梯度反向传播来更新Q网络的所有参数。

所述经验数据的获取过程具体步骤包括：

随机初始化所有的输入数据和输出数据对应的当前Q值和目标Q；清空经验回放缓存的容量M；

在Q网络中使用

作为输入数据，得到Q网络的所有车辆动作对应的Q值作为输出数据；输出数据为用∈-贪婪法在当前Q值输出中选择车辆对应的动作A；奖励信号包括在状态S执行当前车辆动作A时,得到新状态S’对应的特征向量

奖励r’和终止状态done；

将输入数据、输出数据和奖励信号存入经验回放缓存的容量M；

从M中采样经验数据的K个样本

并计算目标Q值y_j；

通过神经网络梯度反向传播来更新Q网络的所有参数。

将新的经验数据替换经验回放缓存容量TD误差最小的经验数据的步骤包括：

获取经验回放缓存的容量M，当前时间步新采集到的经验数据E，设计的经验回放缓存最大存储量N，每个时间步在经验回放缓存中随机采集到的经验数据的K个样本；

若经验缓存模块M的容量未达到设定值，将新经验存入经验回放缓存的容量M；

若经验回放缓存的容量M达到设定值，记录随机采集到的K个样本中TD值最小的经验E’；

将E’从经验回放缓存中删去；将E存入原E’位置；得到更新后的经验回放缓存。

在每个时间步随机采样K条转移过程，并完成当前网络的参数更新后，根据TD误差，找到此轮K中的TD值最小的转移过程，回溯其在经验回放缓存中的存储索引，并在此索引处将旧的转移过程替换为本时间步刚刚采集到的转移过程。

所述经验数据的获取过程具体步骤还包括设定i值的取值区间为(1，T)；如果T％C＝1，则更新目标Q网络参数θ’＝θ；

如果S’为环境的终止状态，当前轮迭代完毕；否则使得i+1后转到S为当前状态序列的第一个状态，拿到其特征向量步骤处继续进行。

所述计算目标Q值y_j计算式为：

其中，迭代轮数T，状态特征维度n,动作集A，衰减因子γ,当前Q网络的Q值为Q，目标Q网络的Q值为Q’，样本数K。

定义时序差分TD的计算方法：

(这里max下的a’和上文中对于yj的计算中max的下标a’是同样的，只不过是格式问题，指代的意思是在下一时刻，基于新状态s’选择使当前网络Q值最大的动作a’而产生的Q值)

用于当前Q网络以有监督学习的方式，在梯度值反向传播时用到的计算方式，使用均方误差函数:

实施例2

本发明提供了一种车辆路径规划系统，包括经验回放缓存模块，所述经验回放缓存模块采用如实施例1提供的路径规划方法进行数据处理。

实施例3

本发明提供了一种车辆路径规划电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的路径规划方法。

实施例4

本发明提供了一种车辆路径规划计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1所述的路径规划方法。所述计算机指令包括：时序差分法覆盖更新经验回放缓存指令：

输入：经验回放缓存的容量M，当前时间步新采集到的经验E，设计的经验回放缓存最大存储量N，每个时间步在经验回放缓存中随机采集到的经验数目K；

输出:M//得到更新后的经验回放缓存。

实施5

DQN算法介绍

在简单强化学习任务环境中，最常用的做法是使用经典的Q学习方法，将所有代表状态-动作的价值Q(s,a)存储在一张表格中。但随着环境维度的增加，或是在状态-动作为连续的情况下，无法使用表格的形式来存储(s,a)。为了解决这个问题，通常使用参数为θ的函数来逼近Q(s,a)，即Q(s,a；θ)≈Q(s,a)。

深度学习通过多层处理，逐步将样本数据初始的低层特征表示转化为高层特征表示后，在分类问题、拟合问题中发挥出巨大优势，已经很成功地应用于图像识别，语音识别，以及自然语言处理等领域。基于深度学习明显的优势，有很多研究尝试将其作为函数逼近器与强化学习结合。DQN使用深度学习中的卷积神经网络，通过建立起输入的二维图像与输出的动作价值之间的映射，达到端到端的学习形式[4]。DQN使用了两个Q网络，一个当前Q网络Q用来选择动作，更新模型参数，另一个目标Q网络Q′用于计算目标Q值y。通定义状态-动作值Q(s,a)的“目标值”y为真实的样本标签，使用有监督的训练方式，采用梯度下降法达到更新网络参数的目的。其中，y由即时奖励r和下一个状态-动作对(s’,a’)的最大估算值两部分构成。

其中θ’为目标Q网络参数，此参数在计算y(s,a)时固定不变，经过周期时间步后才进行更新；s为状态值。

总结DQN的算法伪代码如下算法1，基于Nature DQN[5]。

算法1Nature DQN：

输入：迭代轮数T，状态特征维度n,动作集A,步长α，衰减因子γ,探索率∈,当前Q网络Q，目标Q网络Q’，批量梯度下降的样本数K，目标Q网络参数的更新频率C。

输出：Q网络参数；

1、随机初始化所有的状态和动作对应的价值Q。随机初始化当前Q网络的所有参数θ,初始化目标Q网络Q’的参数θ’＝θ,清空经验回放缓存的容量M。

2、for i from 1to T；

初始化S为当前状态序列的第一个状态，拿到其特征向量

在Q网络中使用

作为输入，得到Q网络的所有动作对应的Q值输出，用∈-贪婪法在当前Q值输出中选择对应的动作A；

在状态S执行当前动作A,得到新状态S’对应的特征向量

和奖励r’,以及终止状态done；

将

五元组存入经验回放缓存的容量M；

S＝S’；

从M中采样K个样本

并计算目标Q值y_j：

使用均方误差函数:

通过神经网络梯度反向传播来更新Q网络的所有参数；

如果T％C＝1，则更新目标Q网络参数θ’＝θ；

如果S’为环境的终止状态，当前轮迭代完毕，否则使得i+1后转到S为当前状态序列的第一个状态，拿到其特征向量步骤处继续进行)。

基于时序差分的更新经验回放缓存方法，经验回放缓存中的不同的样本由于TD误差的不同，对网络参数更新时反向传播的作用是不一样的。TD误差越大，那么对我们反向传播的作用越大。而TD误差小的样本，由于TD误差小，对反向梯度的计算影响不大。在Q网络中，TD误差就是目标Q网络计算的目标Q值和当前Q网络计算的Q值之间的差距。这样如果TD误差的绝对值|δ(t)|较大的样本更容易被采样，则算法会比较容易收敛。定义时序差分TD的计算方法：

根据TD误差的绝对值|δ(t)|将样本划分为不同优先级，可以根据TD误差对经验回放缓存进行覆盖更新，改进原有的经验回放机制，使智能体在有限的经验回放缓存空间限制下更有效的利用采样得到的样本数据，这样也节省了经验回放机制所需要的内存空间。类比于学生在进行学习时，在有限的记忆能力下，需要及时遗忘错误的、对学习知识用处不大的记忆。对于在经验回放部分的具体实现思路如下：

a)在经验池未采集满时，为保证能够使智能体尽量遍历丰富的状态，此阶段不对经验回放缓存进行覆盖更新；

b)在经验池采集满后，为保证智能体有效利用采集到的经验，此阶段开始对经验回放缓存进行覆盖更新。在每个时间步随机采样K条转移过程，并完成当前网络的参数更新后，根据TD误差，找到此轮K中的TD值最小的转移过程，回溯其在经验回放缓存中的存储索引，并在此索引处将旧的转移过程替换为本时间步刚刚采集到的转移过程。该过程示意图如图3所示。

算法的伪代码如下：

算法2时序差分法覆盖更新经验回放缓存：

输入：经验回放缓存的容量M，当前时间步新采集到的经验E，设计的经验回放缓存最大存储量N，每个时间步在经验回放缓存中随机采集到的经验数目K。

输出:M//得到更新后的经验回放缓存

本发明通过基于时序差分为深度强化学习中使用的经验回放机制提供了一种新的经验回放缓存更新方式。主要解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题。

对于第一个问题，在实际实验过程中，可以通过观察发现使用本方法的深度强化学习算法可以在完成环境任务的基础上更快地达到收敛，证明了使用本方法的深度强化学习算法更加有效的利用了通过与环境交互得来的样本数据。

对于第二个问题，在实际实验过程中，在经验回放缓存空间大小收到限制的情况下，算法依然表现良好，证明了使用本方法的强化学习算法可以在内存更小的硬件上使用，使得在车辆路径规划问题上有效解决了缓存空间不足的问题。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。