CN111352419B - 基于时序差分更新经验回放缓存的路径规划方法及系统 - Google Patents

基于时序差分更新经验回放缓存的路径规划方法及系统 Download PDF

Info

Publication number
CN111352419B
CN111352419B CN202010115628.1A CN202010115628A CN111352419B CN 111352419 B CN111352419 B CN 111352419B CN 202010115628 A CN202010115628 A CN 202010115628A CN 111352419 B CN111352419 B CN 111352419B
Authority
CN
China
Prior art keywords
experience
data
network
cache
playback cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115628.1A
Other languages
English (en)
Other versions
CN111352419A (zh
Inventor
李沂滨
张天泽
贾磊
宋艳
王代超
高辉
胡晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010115628.1A priority Critical patent/CN111352419B/zh
Publication of CN111352419A publication Critical patent/CN111352419A/zh
Application granted granted Critical
Publication of CN111352419B publication Critical patent/CN111352419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供了基于时序差分更新经验回放缓存的路径规划方法,步骤包括:当前状态特征向量作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络;将输入数据输入到DQN模型形成输出数据和奖励信号;将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;当经验回放缓存的容量到达设定值时,将新的经验数据替换经验回放缓存中TD误差最小的经验数据,并实时更新经验回放缓存;解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题,使得车辆路径规划效率提高,所需缓存空间大幅降低。

Description

基于时序差分更新经验回放缓存的路径规划方法及系统
技术领域
本发明涉及一种路径规划方法及系统,具体涉及一种基于时序差分的更新经验回放缓存的路径规划方法及系统。
背景技术
机器学习方法通常被分为三类:监督学习,无监督学习和强化学习。其中,属于行为主义人工智能研究范围的强化学习(Reinforcement Learning,RL)是近些年热点研究方向之一,被普遍期望为通往通用人工智能的重要途径之一。强化学习通过构建智能体,让其在与环境的频繁交互中,根据从环境返回的奖励信号不断学习,最终得到一个能够解决问题的最优控制策略,整个状态转移过程通常被描述为一个马尔科夫过程。在RL中,构建智能体的方法被分为两种类型:无模型RL和基于模型的RL。Q学习是无模型RL方法中的经典算法,从环境中返回的奖励信号被用来更新动作价值函数。深度学习(Deep Learning,DL)与Q学习方法结合,提出了性能良好的深度Q学习算法,使其能够在大多数的游戏环境中得分超过人类玩家。该算法使用了经验回放机制,其将智能体与环境交互得到的转移过程存放在一个大尺寸的缓存空间中,并以监督学习的方式让智能体学习这些采集到的真实经验。
然而,智能体收集交互经验是一个十分费时且消耗硬件资源的过程,尤其是在环境状态空间很大的情况下。而且对于大多数现实中的控制器而言,简陋的硬件资源难以为经验回放机制提供足够大的缓存空间。这大大限制了强化学习算法在现实工业环境的普遍应用。另外,有研究证明了并非经验回放缓存空间尺寸越大算法效果越好。优先级经验回放方法,建议更加频繁的重播具有较高期望的转移过程,并根据时序误差为依据为转移过程划分优先级。该算法有限度的改善了原深度Q网络(Deep Q Net,DQN)对于经验回放缓存中的转移过程利用效率低下的问题,但提升效果较差,不能有效将有用经验保留下,也不能将低效的转移过程尽快从经验缓存中去除,使得对采集到的样本数据利用率低,无法实现高精度的算法运行效果。
强化学习样本利用效率问题:无模型强化学习算法不需要使用任务环境的先验知识对环境进行建模,但需要智能体频繁的与环境进行交互得到状态转移过程(经验),这一过程是相当费时且占用计算资源的,因此解决样本利用效率低下问题是提高强化学习算法性能的重中之重。
经验池占用缓存空间过大问题:DQN算法是近些年来强化学习算法的一大进步,其在多个游戏环境中得分超过人类玩家,是通往通用人工智能的重要一步。在该算法中,为了以有监督的形式训练深度神经网络,使用了经验回放机制。该机制在计算机缓存占用相当大的空间以存储智能体与环境交互得到的转移过程(经验,通常需要存放106条经验),并在每个时间步以有监督学习的方式训练网络。但是,现实中常见的控制器自身内存空间有限,并不能为经验回放机制提供相应的使用条件,这大大限制了强化学习算法在现实生活中的普遍应用。
最合适并控制车轮行进方向,是较为精确且实用的路径规划算法,但现有技术中涉及的驾驶仿真与测试环境,基于传统的训练模型存储的路径空间有限,不能为经验回放机制提供使用条件,训练模型利用率低,大大限制了车辆路径规划在现实生活中的普遍应用。
发明内容
为解决上述技术问题,本发明中的相应算法可使智能体有效利用采样得到的样本数据,且可大大降低经验回放机制所占用的内存空间,应用于车辆路径规划,有效解决了车辆路径规划的训练模型利用率低,不利于车辆路径规划在现实生活中的普遍应用问题。
第一方面,本发明提供了基于时序差分更新经验回放缓存的路径规划方法,步骤包括:
训练阶段:时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络及经验回放缓存;将输入数据输入到DQN模型形成输出数据和奖励信号;
将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;
当经验回放缓存的容量到达设定值时,将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据,并实时更新经验回放缓存;
应用阶段:获取当前时刻的车辆位置数据,根据实时更新的经验回放缓存规划汽车路径,按照基于时序误差更新的经验回放缓DQN存规划控制所述车辆的行驶方向。
第二方面,本发明提供了一种车辆路径规划系统,包括经验回放缓存模块,所述经验回放缓存模块采用如第一方面提供的路径规划方法进行数据处理。
第三方面,本发明提供了一种车辆路径规划电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的路径规划方法。
第四方面,本发明提供了一种车辆路径规划计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的路径规划方法。
与现有技术相比,本发明的有益效果为:
1、本发明通过基于时序差分为深度强化学习中使用的经验回放机制提供了一种新的经验回放缓存更新方式。主要解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题,使得车辆路径规划效率提高,所需缓存空间大幅降低。
2、本发明对于在实际实验过程中,可以通过观察发现使用本方法的深度强化学习算法可以在完成环境任务的基础上更快地达到收敛,证明了使用本方法的深度强化学习算法更加有效的利用了通过与环境交互得来的样本数据。
3、本发明在实际实验过程中,在经验回放缓存空间大小收到限制的情况下,算法依然表现良好,证明了使用本方法的强化学习算法可以在内存更小的硬件上使用。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
附图1为本发明的实施例1中车辆路径规划模拟器的训练阶段流程图;
附图2为本发明的实施例1中车辆路径规划模拟器的应用阶段流程图
附图3为本发明的实施例1中更新经验回放缓存的流程图;
附图4为本发明的实施例1中DQN模型的算法原理图;
附图5为本发明的背景技术中深度Q网络的强化学习过程图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本发明中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本发明各部件或元件结构关系而确定的关系词,并非特指本发明中任一部件或元件,不能理解为对本发明的限制。
本发明中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体的连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本发明中的具体含义,不能理解为对本发明的限制。
实施例1
基于时序差分的更新经验回放缓存方法,步骤包括:
训练阶段:时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络及经验回放缓存;将输入数据输入到DQN模型形成输出数据和奖励信号;
将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;
当经验回放缓存的容量到达设定值时,将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据,并实时更新经验回放缓存;
应用阶段:获取当前时刻的车辆位置数据,根据实时更新的经验回放缓存规划汽车路径,按照基于时序误差更新的经验回放缓DQN存规划控制所述车辆的行驶方向。
所述TD误差是目标Q网络计算的目标Q值和当前Q网络计算的当前Q值之间的差值。
DQN模型使用当前Q网络Q用来采集输入数据,更新模型参数,目标Q网络用于计算目标Q值,通过神经网络梯度反向传播来更新Q网络的所有参数。
所述经验数据的获取过程具体步骤包括:
随机初始化所有的输入数据和输出数据对应的当前Q值和目标Q;清空经验回放缓存的容量M;
在Q网络中使用
Figure BDA0002391401620000061
作为输入数据,得到Q网络的所有车辆动作对应的Q值作为输出数据;输出数据为用∈-贪婪法在当前Q值输出中选择车辆对应的动作A;奖励信号包括在状态S执行当前车辆动作A时,得到新状态S’对应的特征向量
Figure BDA0002391401620000071
奖励r’和终止状态done;
将输入数据、输出数据和奖励信号存入经验回放缓存的容量M;
从M中采样经验数据的K个样本
Figure BDA0002391401620000072
并计算目标Q值yj
通过神经网络梯度反向传播来更新Q网络的所有参数。
将新的经验数据替换经验回放缓存容量TD误差最小的经验数据的步骤包括:
获取经验回放缓存的容量M,当前时间步新采集到的经验数据E,设计的经验回放缓存最大存储量N,每个时间步在经验回放缓存中随机采集到的经验数据的K个样本;
若经验缓存模块M的容量未达到设定值,将新经验存入经验回放缓存的容量M;
若经验回放缓存的容量M达到设定值,记录随机采集到的K个样本中TD值最小的经验E’;
将E’从经验回放缓存中删去;将E存入原E’位置;得到更新后的经验回放缓存。
在每个时间步随机采样K条转移过程,并完成当前网络的参数更新后,根据TD误差,找到此轮K中的TD值最小的转移过程,回溯其在经验回放缓存中的存储索引,并在此索引处将旧的转移过程替换为本时间步刚刚采集到的转移过程。
所述经验数据的获取过程具体步骤还包括设定i值的取值区间为(1,T);如果T%C=1,则更新目标Q网络参数θ’=θ;
如果S’为环境的终止状态,当前轮迭代完毕;否则使得i+1后转到S为当前状态序列的第一个状态,拿到其特征向量步骤处继续进行。
所述计算目标Q值yj计算式为:
Figure BDA0002391401620000081
其中,迭代轮数T,状态特征维度n,动作集A,衰减因子γ,当前Q网络的Q值为Q,目标Q网络的Q值为Q’,样本数K。
定义时序差分TD的计算方法:
Figure BDA0002391401620000082
(这里max下的a’和上文中对于yj的计算中max的下标a’是同样的,只不过是格式问题,指代的意思是在下一时刻,基于新状态s’选择使当前网络Q值最大的动作a’而产生的Q值)
用于当前Q网络以有监督学习的方式,在梯度值反向传播时用到的计算方式,使用均方误差函数:
Figure BDA0002391401620000083
实施例2
本发明提供了一种车辆路径规划系统,包括经验回放缓存模块,所述经验回放缓存模块采用如实施例1提供的路径规划方法进行数据处理。
实施例3
本发明提供了一种车辆路径规划电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的路径规划方法。
实施例4
本发明提供了一种车辆路径规划计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1所述的路径规划方法。所述计算机指令包括:时序差分法覆盖更新经验回放缓存指令:
输入:经验回放缓存的容量M,当前时间步新采集到的经验E,设计的经验回放缓存最大存储量N,每个时间步在经验回放缓存中随机采集到的经验数目K;
Figure BDA0002391401620000091
输出:M//得到更新后的经验回放缓存。
实施5
DQN算法介绍
在简单强化学习任务环境中,最常用的做法是使用经典的Q学习方法,将所有代表状态-动作的价值Q(s,a)存储在一张表格中。但随着环境维度的增加,或是在状态-动作为连续的情况下,无法使用表格的形式来存储(s,a)。为了解决这个问题,通常使用参数为θ的函数来逼近Q(s,a),即Q(s,a;θ)≈Q(s,a)。
深度学习通过多层处理,逐步将样本数据初始的低层特征表示转化为高层特征表示后,在分类问题、拟合问题中发挥出巨大优势,已经很成功地应用于图像识别,语音识别,以及自然语言处理等领域。基于深度学习明显的优势,有很多研究尝试将其作为函数逼近器与强化学习结合。DQN使用深度学习中的卷积神经网络,通过建立起输入的二维图像与输出的动作价值之间的映射,达到端到端的学习形式[4]。DQN使用了两个Q网络,一个当前Q网络Q用来选择动作,更新模型参数,另一个目标Q网络Q′用于计算目标Q值y。通定义状态-动作值Q(s,a)的“目标值”y为真实的样本标签,使用有监督的训练方式,采用梯度下降法达到更新网络参数的目的。其中,y由即时奖励r和下一个状态-动作对(s’,a’)的最大估算值两部分构成。
Figure BDA0002391401620000101
其中θ’为目标Q网络参数,此参数在计算y(s,a)时固定不变,经过周期时间步后才进行更新;s为状态值。
总结DQN的算法伪代码如下算法1,基于Nature DQN[5]。
算法1Nature DQN:
输入:迭代轮数T,状态特征维度n,动作集A,步长α,衰减因子γ,探索率∈,当前Q网络Q,目标Q网络Q’,批量梯度下降的样本数K,目标Q网络参数的更新频率C。
输出:Q网络参数;
1、随机初始化所有的状态和动作对应的价值Q。随机初始化当前Q网络的所有参数θ,初始化目标Q网络Q’的参数θ’=θ,清空经验回放缓存的容量M。
2、for i from 1to T;
初始化S为当前状态序列的第一个状态,拿到其特征向量
Figure BDA0002391401620000113
在Q网络中使用
Figure BDA0002391401620000114
作为输入,得到Q网络的所有动作对应的Q值输出,用∈-贪婪法在当前Q值输出中选择对应的动作A;
在状态S执行当前动作A,得到新状态S’对应的特征向量
Figure BDA0002391401620000115
和奖励r’,以及终止状态done;
Figure BDA0002391401620000116
五元组存入经验回放缓存的容量M;
S=S’;
从M中采样K个样本
Figure BDA0002391401620000117
并计算目标Q值yj
Figure BDA0002391401620000111
使用均方误差函数:
Figure BDA0002391401620000112
通过神经网络梯度反向传播来更新Q网络的所有参数;
如果T%C=1,则更新目标Q网络参数θ’=θ;
如果S’为环境的终止状态,当前轮迭代完毕,否则使得i+1后转到S为当前状态序列的第一个状态,拿到其特征向量步骤处继续进行)。
基于时序差分的更新经验回放缓存方法,经验回放缓存中的不同的样本由于TD误差的不同,对网络参数更新时反向传播的作用是不一样的。TD误差越大,那么对我们反向传播的作用越大。而TD误差小的样本,由于TD误差小,对反向梯度的计算影响不大。在Q网络中,TD误差就是目标Q网络计算的目标Q值和当前Q网络计算的Q值之间的差距。这样如果TD误差的绝对值|δ(t)|较大的样本更容易被采样,则算法会比较容易收敛。定义时序差分TD的计算方法:
Figure BDA0002391401620000121
根据TD误差的绝对值|δ(t)|将样本划分为不同优先级,可以根据TD误差对经验回放缓存进行覆盖更新,改进原有的经验回放机制,使智能体在有限的经验回放缓存空间限制下更有效的利用采样得到的样本数据,这样也节省了经验回放机制所需要的内存空间。类比于学生在进行学习时,在有限的记忆能力下,需要及时遗忘错误的、对学习知识用处不大的记忆。对于在经验回放部分的具体实现思路如下:
a)在经验池未采集满时,为保证能够使智能体尽量遍历丰富的状态,此阶段不对经验回放缓存进行覆盖更新;
b)在经验池采集满后,为保证智能体有效利用采集到的经验,此阶段开始对经验回放缓存进行覆盖更新。在每个时间步随机采样K条转移过程,并完成当前网络的参数更新后,根据TD误差,找到此轮K中的TD值最小的转移过程,回溯其在经验回放缓存中的存储索引,并在此索引处将旧的转移过程替换为本时间步刚刚采集到的转移过程。该过程示意图如图3所示。
算法的伪代码如下:
算法2时序差分法覆盖更新经验回放缓存:
输入:经验回放缓存的容量M,当前时间步新采集到的经验E,设计的经验回放缓存最大存储量N,每个时间步在经验回放缓存中随机采集到的经验数目K。
Figure BDA0002391401620000131
输出:M//得到更新后的经验回放缓存
本发明通过基于时序差分为深度强化学习中使用的经验回放机制提供了一种新的经验回放缓存更新方式。主要解决了强化学习样本利用效率问题及经验池占用缓存空间过大问题。
对于第一个问题,在实际实验过程中,可以通过观察发现使用本方法的深度强化学习算法可以在完成环境任务的基础上更快地达到收敛,证明了使用本方法的深度强化学习算法更加有效的利用了通过与环境交互得来的样本数据。
对于第二个问题,在实际实验过程中,在经验回放缓存空间大小收到限制的情况下,算法依然表现良好,证明了使用本方法的强化学习算法可以在内存更小的硬件上使用,使得在车辆路径规划问题上有效解决了缓存空间不足的问题。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.基于时序差分更新经验回放缓存的路径规划方法,其特征在于,步骤包括:
训练阶段:时刻t的车辆位置数据、车辆动作信息及t+1时刻的位置数据作为输入数据;建立DQN模型,DQN模型包括当前Q网络和目标Q网络及经验回放缓存;将输入数据输入到DQN模型形成输出数据和奖励信号;
将输入数据、输出数据和奖励信号记为经验数据,存入经验回放缓存;
当经验回放缓存的容量到达设定值时,将经验回放缓存中每个时间步随机采集得到的K条转移过程中TD误差最小的转移过程替换为新采集到的经验数据,并实时更新经验回放缓存;
应用阶段:获取当前时刻的车辆位置数据,根据实时更新的经验回放缓存规划汽车路径,按照基于时序误差更新的经验回放缓存规划控制所述车辆的行驶方向;
所述TD误差是目标Q网络计算的目标Q值和当前Q网络计算的当前Q值之间的差值;所述DQN模型使用当前Q网络用来采集输入数据,更新DQN模型参数,目标Q网络用于计算目标Q值,通过神经网络梯度反向传播来更新DQN模型参数。
2.如权利要求1所述的路径规划方法,其特征在于,所述经验数据的获取过程具体步骤包括:
随机初始化所有的输入数据和输出数据对应的当前Q值和目标Q;清空经验回放缓存的容量M;
初始化S为当前状态序列的第一个状态,拿到其特征向量
Figure FDA0003015783220000011
在Q网络中使用
Figure FDA0003015783220000021
作为输入数据,得到Q网络的所有车辆动作对应的Q值作为输出数据;输出数据为用∈-贪婪法在当前Q值输出中选择车辆对应的动作A;奖励信号包括在状态S执行当前车辆动作A时,得到新状态S’对应的特征向量
Figure FDA0003015783220000022
奖励r’和终止状态done;
将输入数据、输出数据和奖励信号存入经验回放缓存的容量M;
从M中采样经验数据的K个样本
Figure FDA0003015783220000023
并计算目标Q值yj;所述
Figure FDA0003015783220000024
Aj,rj,
Figure FDA0003015783220000025
和donej分别为所述
Figure FDA0003015783220000026
A,r’,
Figure FDA0003015783220000027
和done从M中采样经验数据的随机样本;
通过神经网络梯度反向传播来更新Q网络的所有参数。
3.如权利要求2所述的路径规划方法,其特征在于,将新的经验数据替换经验回放缓存中TD误差最小的经验数据的步骤包括:
获取经验回放缓存的容量M,当前时间步新采集到的经验数据E,设计的经验回放缓存最大存储量N,每个时间步在经验回放缓存中随机采集到的经验数据的K个样本;
若经验缓存模块的容量未达到设定值,将新经验存入经验回放缓存的容量M;
若经验回放缓存的容量M达到设定值,记录K个样本中TD值最小的经验E’;
将E’从经验回放缓存中删去;将E存入原E’位置;得到更新后的经验回放缓存。
4.如权利要求3所述的路径规划方法,其特征在于,在每个时间步随机采样K条转移过程,并完成当前网络的参数更新后,根据TD误差,找到此轮K中的TD值最小的转移过程,回溯其在经验回放缓存中的存储索引,并在此索引处将旧的转移过程替换为本时间步刚刚采集到的转移过程。
5.如权利要求2所述的路径规划方法,其特征在于,所述计算目标Q值yj计算式为:
Figure FDA0003015783220000031
其中,迭代轮数T,状态特征维度n,动作集A,衰减因子γ,当前Q网络的Q值为Q,目标Q网络的Q值为Q’,样本数K,更新后目标Q网络参数θ′。
6.如权利要求5所述的路径规划方法,其特征在于,定义时序差分TD的计算方法:
Figure FDA0003015783220000032
其中,a为步长数,s为状态值,θ为目标Q网络参数,a′为更新后的步长数,s′为更新后的状态值,θ′为更新后目标Q的网络参数。
7.一种车辆路径规划系统,包括经验回放缓存模块,所述经验回放缓存模块采用如权利要求1-6提供的路径规划方法进行数据处理。
8.一种车辆路径规划电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-6所述的路径规划方法。
9.一种车辆路径规划计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如权利要求1-6所述的路径规划方法。
CN202010115628.1A 2020-02-25 2020-02-25 基于时序差分更新经验回放缓存的路径规划方法及系统 Active CN111352419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115628.1A CN111352419B (zh) 2020-02-25 2020-02-25 基于时序差分更新经验回放缓存的路径规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115628.1A CN111352419B (zh) 2020-02-25 2020-02-25 基于时序差分更新经验回放缓存的路径规划方法及系统

Publications (2)

Publication Number Publication Date
CN111352419A CN111352419A (zh) 2020-06-30
CN111352419B true CN111352419B (zh) 2021-06-04

Family

ID=71192329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115628.1A Active CN111352419B (zh) 2020-02-25 2020-02-25 基于时序差分更新经验回放缓存的路径规划方法及系统

Country Status (1)

Country Link
CN (1) CN111352419B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN113033119B (zh) * 2021-03-11 2022-03-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113094368B (zh) * 2021-04-13 2022-08-05 成都信息工程大学 一种提升缓存访问命中率的系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106123850A (zh) * 2016-06-28 2016-11-16 哈尔滨工程大学 Auv配载多波束声呐水下地形测绘修正方法
CN109284812A (zh) * 2018-09-19 2019-01-29 哈尔滨理工大学 一种基于改进dqn的视频游戏模拟方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615B (zh) * 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
CN109407676B (zh) * 2018-12-20 2019-08-02 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的机器人避障方法
CN109521774B (zh) * 2018-12-27 2023-04-07 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN110134140B (zh) * 2019-05-23 2022-01-11 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110321666B (zh) * 2019-08-09 2022-05-03 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN110515303B (zh) * 2019-09-17 2022-09-09 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110646009B (zh) * 2019-09-27 2022-03-01 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106123850A (zh) * 2016-06-28 2016-11-16 哈尔滨工程大学 Auv配载多波束声呐水下地形测绘修正方法
CN109284812A (zh) * 2018-09-19 2019-01-29 哈尔滨理工大学 一种基于改进dqn的视频游戏模拟方法

Also Published As

Publication number Publication date
CN111352419A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
US20230035150A1 (en) Robot control method, apparatus and device, storage medium and program product
CN107403426B (zh) 一种目标物体检测方法及设备
CN112362066B (zh) 一种基于改进的深度强化学习的路径规划方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN114603564B (zh) 机械臂导航避障方法、系统、计算机设备及存储介质
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN112016678A (zh) 用于增强学习的策略生成网络的训练方法、装置和电子设备
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN117540203A (zh) 一种集群机器人合作导航的多向课程学习训练方法及装置
CN116587275A (zh) 基于深度强化学习的机械臂智能阻抗控制方法及系统
CN115936058A (zh) 一种基于图注意力网络的多智能体迁移强化学习方法
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法
WO2021140698A1 (ja) 情報処理装置、方法及びプログラム
CN113419424A (zh) 减少过估计的模型化强化学习机器人控制方法及系统
CN114161419A (zh) 一种情景记忆引导的机器人操作技能高效学习方法
Zhang et al. Vehicle driving longitudinal control based on double deep Q network
Jin et al. Stabilizing multi-agent deep reinforcement learning by implicitly estimating other agents’ behaviors
CN112884129B (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
Zhou et al. Humanoid action imitation learning via boosting sample DQN in virtual demonstrator environment
CN116360435A (zh) 基于情节记忆的多智能体协同策略的训练方法和系统
CN117075470A (zh) 基于内部逻辑归纳的机器人决策策略训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant