CN113657292A - 一种基于深度强化学习的车辆自动循迹驾驶方法 - Google Patents

一种基于深度强化学习的车辆自动循迹驾驶方法 Download PDF

Info

Publication number
CN113657292A
CN113657292A CN202110954229.9A CN202110954229A CN113657292A CN 113657292 A CN113657292 A CN 113657292A CN 202110954229 A CN202110954229 A CN 202110954229A CN 113657292 A CN113657292 A CN 113657292A
Authority
CN
China
Prior art keywords
network
training
dual
action
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110954229.9A
Other languages
English (en)
Inventor
胡静
宋铁成
刘智聪
夏玮玮
燕锋
沈连丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110954229.9A priority Critical patent/CN113657292A/zh
Publication of CN113657292A publication Critical patent/CN113657292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度强化学习的车辆自动循迹驾驶方法,包括如下步骤:步骤1、构建双重深度Q网络进行图像特征提取;步骤2、采用经验回放方案进行环境交互训练样本采集和双重网络训练;步骤3、采用RMSprop算法优化网络的训练过程;步骤4、采用训练完毕的双重深度网络进行预测,进而实现自动循迹驾驶。本发明采取深度强化学习方法,直接实现从图像采集到车辆控制的端到端网络建立,避免了传统方法中复杂的PID控制环节,并且采用双重深度网络进行动作预测,可以有效减少单一深度强化学习网络中最大化偏差带来的性能损失。

Description

一种基于深度强化学习的车辆自动循迹驾驶方法
技术领域
本发明属于人工智能与自动驾驶技术领域,尤其涉及一种基于深度强化学习的车辆自动循迹驾驶方法。
背景技术
近些年来自动驾驶高速发展,交通在可预测的未来即将进入自动驾驶汽车与传统汽车交融的特殊境况。由此,如何使自动驾驶汽车更好的遵守现有的交通法规是一个日益凸显的交通问题。
本发明主要关注自动驾驶车辆的循迹驾驶,如果不能解决这一问题,可能会造成交通秩序的紊乱甚至引发交通安全事故。
国内外针对车辆自动循迹驾驶的研究目前主要涉及有监督学习领域,其研究目的是使车辆对于输入的即时图像能够复现出人类驾驶员的操作控制动作,该方法涉及复杂的道路提取、中线预测、PID参数整合以及车辆状态机设计等多个环节,而采用深度强化学习可以实现从车辆摄像头输入到转向舵机的端到端的控制。
深度强化学习是强化学习与深度学习结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力以及强化学习的决策能力,实现了端到端的学习。
目前深度强化学习已经走向使用,能够解决很多现实场景中的复杂问题,最著名的实例为采用深度强化学习的AlphaGo击败世界围棋冠军李世石。除此之外也广泛应用于机器人控制、实时对战博弈等。
而现有的车辆自动循迹驾驶方法大多基于车道线提取、行驶区域预测以及车辆的决策控制等多个环节,而基于深度强化学习的方法实现了从输入图像到转向舵机的端到端控制,打破了现有方法的控制思路;并且传统的人工智能方法也涉及到大量数据标注工作,面对复杂的道路交通环境,标注工作不可避免地带来巨大的时间和成本的耗费。
发明内容
本发明目的在于提供一种基于深度强化学习的车辆自动循迹驾驶方法,以解决传统方法过于冗杂效率较低以及大量数据标注工作带来的成本问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于深度强化学习的车辆自动循迹驾驶方法,具体包括如下步骤:
步骤1、构建双重深度Q网络进行图像特征提取;
步骤2、采用经验回放方案进行环境交互训练样本采集和双重网络训练;
步骤3、采用RMSprop算法优化网络的训练过程;
步骤4、采用训练完毕的双重深度Q网络进行预测,进而实现自动循迹驾驶。
进一步的,所述步骤1中:
所述双重深度Q网络的输入像素尺寸接受大小为224*224的RGB彩色图片作为网络的输入,即输入数据的结构为3*224*224;
所述双重深度Q网络通过全连接层,得到19*1*1的网络输出。
进一步的,所述输入数据的结构第一层使用7*7卷积操作,得到的特征维度输出为64*112*112,再进行最大池化操作,得到的输出特征为64*56*56;
所述输入数据结构的第二层进行残差模块特征提取,提取得到的图像特征维度为64*56*56;
所述输入数据结构的第三层进行残差模块特征提取,得到的特征维度输出为128*28*28;
所述输入数据结构的第四层进行残差模块特征提取,得到的特征输出维度为256*14*14;
所述输入数据结构的第五层进行残差模块特征提取,得到的输出维度为512*7*7;
所述输入数据结构的第六层进行平均池化操作,得到最终的特征向量512*1*1。
进一步的,所述步骤2中:所述经验回放方案能够在网络的训练过程中同步产生相应的训练数据并得到训练数据序列,且每个训练数据序列都存放在存储空间中并在双重网络训练过程中等概率地抽取训练数据序列进行双重网络训练;
进一步的,所述训练数据序列标记为(P1,A,P2,R);
其中:P1代表当前车辆前置摄像头获取的图像,A代表根据双重网络预测执行的动作,P2代表执行动作后下一时刻车辆前置摄像头获取的图像,R代表当前动作执行后车辆驾驶环境的效果反馈。
进一步的,所述步骤2中,在进行双重网络训练时:每次只对两个网络中的一个网络进行权重系数更新,并以等概率随机选取其中的一个作为待更新网络Qπ,则另一个作为辅助更新网络
Figure BDA0003219804810000031
进一步的,对待更新网络进行参数更新的目标函数为:
Figure BDA0003219804810000032
其中:α代表学习率,γ代表折扣率,Qπ(P1,A)为待更新网络对应当前图片P1和和执行动作A得到的价值回报输出,R为当前动作的即时收益,
Figure BDA0003219804810000044
表示使用辅助更新网络针对下一时刻接收图像P2以及相应动作得到的价值回报输出进行对待更新网络的参数调整,其中argmaxa(Qπ(P2,A))表示选取使得待更新网络针对图像P2得到的动作价值序列中取得最大值的相应动作作为辅助更新网络动作选取的参考。
进一步的,所述步骤3中,在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整,训练过程中算法的目标函数为:
Figure BDA0003219804810000041
其中:Qπ
Figure BDA0003219804810000042
依照训练过程中的等概率选取准则代表两个深度神经网络Q1、Q2,rt代表t时刻的动作即时收益,Pt+1代表t+1时刻的接收图像,a为所选取的动作,θ为网络中待训练的参数。
进一步的,所述步骤3中,在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整,训练过程中自适应调整学习率的目标函数为:
Figure BDA0003219804810000043
其中:θt代表第t次调整后得到的网络参数,ρ代表梯度的权重系数,α代表初始学习率,ε代表一个任意小的正数,Gt代表当前目标函数的梯度,δt为自适应学习率调整参数。
进一步的,所述步骤4中,使用训练完毕的双重深度Q网络进行实时图像预测时:
分别将图像输入两个网络中,得到两个网络输出的对应动作价值函数值;
将得到的两组的函数值向量相加,取其中最大的向量分量作为当前输入图像对应的动作输出,进而实现自动循迹驾驶。
本发明的一种基于深度强化学习的车辆自动循迹驾驶方法,具有以下优点:
1、本发明采取深度强化学习方法,直接实现从图像采集到车辆控制的端到端网络建立,避免了传统方法中复杂的PID控制环节;
2、本发明采用了改进的残差网络结构进行图像特征的提取,兼顾了网络复杂度和特征有效性的平衡;
3、本发明采用经验回放方法,避免了传统有监督学习的大量数据样本标注的环节,有效提升了发明的便捷性和通用性;
4、本发明采用双重深度网络进行动作预测,可以有效减少单一深度强化学习网络中最大化偏差带来的性能损失;
5、本发明采用RMSprop算法进行网络学习率的自适应调整,能够加快训练过程的收敛速度,提高训练效率。
附图说明
图1为本发明的基于深度强化学习的车辆自动循迹驾驶方法的原理图;
图2为本发明的本发明所采用的神经网络结构示意图;
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于深度强化学习的车辆自动循迹驾驶方法做进一步详细的描述。
本发明提供了如图1-2中所示的一种基于深度强化学习的车辆自动循迹驾驶方法,其中:具体包括如下步骤:
步骤1、构建双重深度Q网络进行图像特征提取;
在本实施例中采取双重深度Q网络结构构建深度神经网络,兼顾了网络的复杂性和输出特征有效性的均衡。双重深度Q网络用于多维向量数值回归的预测。采用双重深度Q网络很好的解决了网络训练过程中出现的梯度弥散,梯度爆炸以及网络退化问题。
双重深度Q网络的具体操作为一方面对输入的特征数据进行下采样保留其原有的低维度特征,另一方面进行步长为二的多核卷积进一步提取低维特征,在一定程度上兼顾了低维特征与高维特征的融合。
所述双重深度Q网络的输入像素尺寸接受大小为224*224的RGB彩色图片作为网络的输入,即输入数据的结构为3*224*224;
所述输入数据结构第一层使用7*7卷积操作,得到的特征维度输出为64*112*112,再进行最大池化操作,得到的输出特征为64*56*56;
所述输入数据结构第二层进行残差模块特征提取,提取得到的图像特征维度为64*56*56;
所述输入数据结构第三层进行残差模块特征提取,得到的特征维度输出为128*28*28;
所述输入数据结构第四层进行残差模块特征提取,得到的特征输出维度为256*14*14;
所述输入数据结构第五层进行残差模块特征提取,得到的输出维度为512*7*7;
所述输入数据结构第六层进行平均池化操作,得到最终的特征向量512*1*1,之后,通过全连接层,得到最后需要的19*1*1的网络输出。
网络的输出代表采取不同动作预期得到的价值回报。双重网络的结构完全相同,均采用上述网络结构,区别在于训练过程中权重参数调整的差异。
步骤2、采用经验回放方案进行环境交互训练样本采集和双重网络训练;
采用的经验回放训练方案要点为在训练的过程中自动产生相应的训练数据。
训练阶段分为两步分,训练数据序列的获取与网络的训练。
训练数据序列记录了当前的车前置摄像头获取的图像P1,根据双重网络预测执行的动作A,执行动作之后下一时刻车辆前置摄像头获取的图像P2,以及当前动作执行之后车辆驾驶环境的效果反馈R,则约定训练数据样本序列标记为(P1,A,P2,R)。
训练数据的获取的流程为将车辆前置摄像头的图像P1输入训练中的神经网络,获得即时的网络预测结果,根据网络的预测结果按照ε-贪心策略确定最后的执行动作A,其中ε是提前设定的柔性指标,|A|为既定动作总数,π(a|P)为根据当前图像选取某一动作的概率,则
Figure BDA0003219804810000071
其中qπ(P|a)代表待更新网络根据当前图像输入和动作得到的动作价值;
Figure BDA0003219804810000072
代表辅助更新网络根据当前图像输入和动作得到的动作价值,之后记录下动作执行后下一时刻的车辆前置摄像头的实时数据P2,以及当前动作执行后得到的即使回报R。由此得到了一次的训练数据序列(P1,A,P2,R)。
将每次得到的训练数据序列存储在存储空间中以用于后续阶段的网络训练。
训练过程中采用经验回放方案进行训练数据的选择,即在存储空间中等概率地随机选择一条训练数据序列进行网络训练。这样做的原因是神经网络训练时要求各个数据样本之间相互独立,但是由上述方法获取的训练样本序列之间有着较强的关联性,采用经验回放方案可以很大程度上保证样本之间的独立性。
如果训练过程中出现了约定的终止状态,则将车辆模拟环境重置继续进行训练样本序列的采集。
在本实施例中,初始化两个结构完全相同的深度神经网络,这样避免了采用单一深度神经网络进行动作价值预测时产生的最大化偏差,能够获得更加准确的预测结果
对于一条选中的训练样本序列(P1,A,P2,R)网络更新的目标函数为:
Figure BDA0003219804810000081
其中:α代表学习率,γ代表折扣率,Qπ(P1,A)为待更新网络对应当前图片P1和执行动作A得到的价值回报输出,R为当前动作的即时收益,
Figure BDA0003219804810000083
表示使用辅助更新网络针对下一时刻接收图像P2以及相应动作得到的价值回报输出进行对待更新网络的参数调整,其中argmaxa(Qπ(P2,A))表示选取使得待更新网络针对图像P2得到的动作价值序列中取得最大值的相应动作作为辅助更新网络动作选取的参考。
在进行双重网络训练时,每次只对两个网络中的一个网络进行权重系数更新,并以等概率随机选取其中的一个作为待更新网络Qπ,则另一个作为辅助更新网络
Figure BDA0003219804810000082
待更新网络的选取是完全随机的,即两个网络都有0.5的概率被指定为待更新网络。
根据在训练样本存储空间中随机选取的训练序列对待更新网络进行参数更新,即,以0.5的概率执行,则,
Q1(P1,A)←Q1(P1,A)+α[R+γQ2(P2,argmaxa(Q1(P2,A)))-Q1(P1,A)]
其中:α代表学习率,γ代表回报折扣率,Q(P,A)为网络对应当前图片和执行动作得到的价值回报输出。
步骤3、采用RMSprop算法优化网络的训练过程;
具体的,所述步骤3中:
在本实施例中,在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整,训练过程中算法的目标函数为:
Figure BDA0003219804810000091
其中:Qπ
Figure BDA0003219804810000092
依照训练过程中的等概率选取准则代表两个深度神经网络Q1、Q2,rt代表t时刻的动作即时收益,Pt+1代表t+1时刻的接收图像,a为所选取的动作,θ为网络中待训练的参数。
依照传统的固定学习率的梯度下降法可以表示为θt+1=θt-aGt
其中θt+1=θt-aGt为当前目标函数的梯度,但本方法中采取RMSprop算法进行网络学习率的自适应调整,训练过程中自适应调整学习率的目标函数为:
Figure BDA0003219804810000093
其中:θt代表第t次调整后得到的网络参数,ρ代表梯度的权重系数,α代表初始学习率,ε代表一个任意小的正数以确保分母不为零,Gt代表当前目标函数的梯度,δt为自适应学习率调整参数。
步骤4、采用训练完毕的双重深度网络进行预测,进而实现自动循迹驾驶。
使用训练完毕的双重深度网络进行实时图像预测时:
在本实施例中,分别将图像输入两个网络中,得到两个网络输出的对应动作价值函数值,将得到的两组的函数值向量相加,取其中最大的向量分量作为当前输入图像对应的动作输出,进而实现自动循迹驾驶。
双重深度神经网络进行最终的车辆的舵机转向控制,将根据图像输入得到的两个神经网络的19维输出
Figure BDA0003219804810000101
进行相加,选取得到的新向量的最大分量对应的动作作为最终确定的转向舵机执行的操作。
深度强化学习相比于传统的有监督学习没有标注数据的需求,在目标与环境的不断交互的过程之中完成了目标网络的训练,由此本发明能够适用于繁杂的道路环境,具有更好的适用性以及更高的训练效率。
工作原理:该基于深度强化学习的车辆自动循迹驾驶方法,是从车辆前置摄像头的实施输入到车辆转向舵机执行动作得到的价值函数之间的端到端的网络预测,根据最后的网络预测结果选择相应的执行动作。
基于双重深度神经网络对道路时实输入图像数据的联合预测结果对车辆的转向舵机进行动作指令操控,并在训练过程中采用强化学习的训练理念使得模拟车辆与环境进行自主交互产生训练样本序列,从而达到车辆自动循迹驾驶从训练到应用的自主化实现。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (10)

1.一种基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,具体包括如下步骤:
步骤1、构建双重深度Q网络进行图像特征提取;
步骤2、采用经验回放方案进行环境交互训练样本采集和双重网络训练;
步骤3、采用RMSprop算法优化网络的训练过程;
步骤4、采用训练完毕的双重深度Q网络进行预测,进而实现自动循迹驾驶。
2.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述步骤1中:
所述双重深度Q网络的输入像素尺寸接受大小为224*224的RGB彩色图片作为网络的输入,即输入数据的结构为3*224*224;
所述双重深度Q网络通过全连接层,得到19*1*1的网络输出。
3.根据权利要求2所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述输入数据的结构第一层使用7*7卷积操作,得到的特征维度输出为64*112*112,再进行最大池化操作,得到的输出特征为64*56*56;
所述输入数据结构的第二层进行残差模块特征提取,提取得到的图像特征维度为64*56*56;
所述输入数据结构的第三层进行残差模块特征提取,得到的特征维度输出为128*28*28;
所述输入数据结构的第四层进行残差模块特征提取,得到的特征输出维度为256*14*14;
所述输入数据结构的第五层进行残差模块特征提取,得到的输出维度为512*7*7;
所述输入数据结构的第六层进行平均池化操作,得到最终的特征向量512*1*1。
4.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述步骤2中:所述经验回放方案能够在网络的训练过程中同步产生相应的训练数据并得到训练数据序列,且每个训练数据序列都存放在存储空间中并在双重网络训练过程中等概率地抽取训练数据序列进行双重网络训练。
5.根据权利要求4所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述训练数据序列标记为(P1,A,P2,R);
其中:P1代表当前车辆前置摄像头获取的图像,A代表根据双重网络预测执行的动作,P2代表执行动作后下一时刻车辆前置摄像头获取的图像,R代表当前动作执行后车辆驾驶环境的效果反馈。
6.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述步骤2中,在进行双重网络训练时:每次只对两个网络中的一个网络进行权重系数更新,并以等概率随机选取其中的一个作为待更新网络Qπ,则另一个作为辅助更新网络
Figure FDA0003219804800000021
7.根据权利要求6所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,对待更新网络进行参数更新的目标函数为:
Figure FDA0003219804800000022
其中:α代表学习率,γ代表折扣率,Qπ(P1,A)为待更新网络对应当前图片P1和执行动作A得到的价值回报输出,R为当前动作的即时收益,
Figure FDA0003219804800000033
表示使用辅助更新网络针对下一时刻接收图像P2以及相应动作得到的价值回报输出进行对待更新网络的参数调整,其中arg maxa(Qπ(P2,A))表示选取使得待更新网络针对图像P2得到的动作价值序列中取得最大值的相应动作作为辅助更新网络动作选取的参考。
8.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述步骤3中,在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整,训练过程中算法的目标函数为:
Figure FDA0003219804800000031
其中:Qπ
Figure FDA0003219804800000034
依照训练过程中的等概率选取准则代表两个深度神经网络Q1、Q2,rt代表t时刻的动作即时收益,Pt+1代表t+1时刻的接收图像,a为所选取的动作,θ为网络中待训练的参数。
9.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述步骤3中,在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整,训练过程中自适应调整学习率的目标函数为:
Figure FDA0003219804800000032
其中:θt代表第t次调整后得到的网络参数,ρ代表梯度的权重系数,α代表初始学习率,ε代表一个任意小的正数,Gt代表当前目标函数的梯度,δt为自适应学习率调整参数。
10.根据权利要求1所述的一种基于深度强化学习的车辆自动循迹驾驶方法,其特征在于,所述步骤4中,使用训练完毕的双重深度Q网络进行实时图像预测时:
分别将图像输入两个网络中,得到两个网络输出的对应动作价值函数值;
将得到的两组的函数值向量相加,取其中最大的向量分量作为当前输入图像对应的动作输出,进而实现自动循迹驾驶。
CN202110954229.9A 2021-08-19 2021-08-19 一种基于深度强化学习的车辆自动循迹驾驶方法 Pending CN113657292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954229.9A CN113657292A (zh) 2021-08-19 2021-08-19 一种基于深度强化学习的车辆自动循迹驾驶方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954229.9A CN113657292A (zh) 2021-08-19 2021-08-19 一种基于深度强化学习的车辆自动循迹驾驶方法

Publications (1)

Publication Number Publication Date
CN113657292A true CN113657292A (zh) 2021-11-16

Family

ID=78492347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954229.9A Pending CN113657292A (zh) 2021-08-19 2021-08-19 一种基于深度强化学习的车辆自动循迹驾驶方法

Country Status (1)

Country Link
CN (1) CN113657292A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法
CN117848345A (zh) * 2024-01-08 2024-04-09 广东工业大学 一种步进式采用优化无人艇路径规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110646009A (zh) * 2019-09-27 2020-01-03 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置
CN110850877A (zh) * 2019-11-19 2020-02-28 北方工业大学 基于虚拟环境和深度双q网络的自动驾驶小车训练方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110646009A (zh) * 2019-09-27 2020-01-03 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置
CN110850877A (zh) * 2019-11-19 2020-02-28 北方工业大学 基于虚拟环境和深度双q网络的自动驾驶小车训练方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID JOHN NEILL: "Using Deep Reinforcement Learning to increase Traffic Safety in Urban areas whilst maintaining Traffic Flow and Efficiency", HTTPS://PUBLICATIONS.SCSS.TCD.IE/THESES/DISS/2021/TCD-SCSS-DISSERTATION-2021-066.PDF, 28 April 2021 (2021-04-28), pages 5 - 55 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法
CN117848345A (zh) * 2024-01-08 2024-04-09 广东工业大学 一种步进式采用优化无人艇路径规划方法

Similar Documents

Publication Publication Date Title
US11893780B2 (en) Method and apparatus for image segmentation
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN111141300A (zh) 基于深度强化学习的智能移动平台无地图自主导航方法
CN110084307B (zh) 一种基于深度强化学习的移动机器人视觉跟随方法
CN110968866B (zh) 一种面向深度强化学习模型对抗攻击的防御方法
CN113657292A (zh) 一种基于深度强化学习的车辆自动循迹驾驶方法
CN109964237A (zh) 图像深度预测神经网络
CN105072373B (zh) 基于双向循环卷积网络的视频超分辨率方法和系统
CN104899921B (zh) 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN108520238B (zh) 一种基于深度预测编码网络的夜视图像的场景预测方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111951207A (zh) 基于深度增强学习和语义损失的图像质量增强方法
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN111508013A (zh) 立体匹配方法
CN108111860A (zh) 基于深度残差网络的视频序列丢失帧预测恢复方法
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
Wu et al. Digital twin-enabled reinforcement learning for end-to-end autonomous driving
CN110298219A (zh) 无人驾驶车道保持方法、装置、计算机设备和存储介质
CN111580526B (zh) 面向固定车辆编队场景的协同驾驶方法
CN115100090A (zh) 一种基于时空注意的单目图像深度估计系统
CN112446835B (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN108944940B (zh) 基于神经网络的驾驶员行为建模方法
KR102371880B1 (ko) 특정 기능을 강화하여 이미지 데이터를 생성하는 이미지 프로세서, 인공 지능 장치 및 그 방법
WO2021057091A1 (zh) 视点图像处理方法及相关设备
CN117115058A (zh) 基于轻量特征提取和颜色恢复的弱光图像融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination