CN113253612B - 一种自动驾驶控制方法、装置、设备及可读存储介质 - Google Patents

一种自动驾驶控制方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113253612B
CN113253612B CN202110606769.8A CN202110606769A CN113253612B CN 113253612 B CN113253612 B CN 113253612B CN 202110606769 A CN202110606769 A CN 202110606769A CN 113253612 B CN113253612 B CN 113253612B
Authority
CN
China
Prior art keywords
strategy
noise
noisy
automatic driving
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110606769.8A
Other languages
English (en)
Other versions
CN113253612A (zh
Inventor
李仁刚
赵雅倩
李茹杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110606769.8A priority Critical patent/CN113253612B/zh
Publication of CN113253612A publication Critical patent/CN113253612A/zh
Application granted granted Critical
Publication of CN113253612B publication Critical patent/CN113253612B/zh
Priority to US18/039,271 priority patent/US11887009B2/en
Priority to PCT/CN2021/121903 priority patent/WO2022252457A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • G08G1/0112Measuring and analyzing of parameters relative to traffic conditions based on the source of data from the vehicle, e.g. floating car data [FCD]
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0141Measuring and analyzing of parameters relative to traffic conditions for specific applications for traffic information dissemination
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0082Automatic parameter input, automatic initialising or calibrating means for initialising the control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种自动驾驶控制方法,该方法使用有噪声和无噪声双策略网络进行参数的优化设置,将相同的车辆交通环境状态信息输入至有噪声和无噪声双策略网络中,以无噪声策略网络作为对比和基准,设定动作空间扰动阈值进行噪声参数的自适应调整,通过在策略网络参数空间自适应注入噪声,间接添加动作噪声,能够有效提升深度强化学习算法对环境和动作空间的探索,提升基于深度强化学习的自动驾驶探索性能和稳定性,保证车辆决策和动作选择充分考虑环境状态、驾驶策略的影响,进而提升自动驾驶车辆的稳定性、安全性。本发明还公开了一种自动驾驶控制装置、设备及可读存储介质,具有相应的技术效果。

Description

一种自动驾驶控制方法、装置、设备及可读存储介质
技术领域
本发明涉及自动驾驶技术领域,特别是涉及一种自动驾驶控制方法、装置、设备及可读存储介质。
背景技术
现代城市交通中,机动车数量日益增多,道路拥堵情况严重,且交通事故频发。辅助驾驶/自动驾驶作为最有潜力改善交通状况、提升出行安全与便捷程度的方式,受到越来越多的关注。自动驾驶是一项十分复杂的集成性技术,涵盖车载传感器、数据处理器、控制器等硬件装置,借助现代移动通信与网络技术实现各交通参与者之间的信息传递与共享,通过复杂算法完成环境感知、决策规划和控制执行等功能,实现车辆的自动加速/减速、转向、超车、刹车等操作。
现有的自动驾驶研究和应用方式主要分为两类,模块化方法和端到端方法。其中,端到端方法中的强化学习方法借助马尔科夫决策过程(MDP)从头开始探索和改进自动驾驶策略。由于以强化学习为代表的高级机器学习方法的快速发展,以及超越人类驾驶员的内在潜力,因此基于强化学习的自动驾驶研究与应用具有广阔的发展前景。
目前,基于深度强化学习的自动驾驶序列决策过程中车辆依据当前交通环境状态,利用神经网络表示的驾驶策略选取动作,为了帮助自动驾驶车辆对动作空间进行充分探索,需要在每一个决策过程所选取动作基础上增加一个探索噪声,以增加自动驾驶策略的探索性,探索噪声一般采取高斯分布采样的形式,由于探索噪声具有随机性,这种随机噪声与环境状态、驾驶策略均无关联,导致添加的噪声大小不可控,自动驾驶车辆面对同样的交通状态可能做出不同决策,如果最后生成的决策有问题,就不能确定是神经网络出问题还是扰动出问题,导致探索更加无法预测,容易为自动驾驶带来安全隐患。
综上所述,如何提升自动驾驶车辆的稳定性以及安全性,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种自动驾驶控制方法、装置、设备及可读存储介质,可以提升自动驾驶车辆的稳定性以及安全性。
为解决上述技术问题,本发明提供如下技术方案:
一种自动驾驶控制方法,包括:
初始化深度强化学习自动驾驶决策系统的系统参数;其中,所述深度强化学习自动驾驶决策系统包括:无噪声策略网络、有噪声策略网络;
获取车辆交通环境状态信息;
将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成,得到无噪声策略以及有噪声策略;
根据所述有噪声策略与所述无噪声策略,在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数;
根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化,生成优化有噪声策略网络;
根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
可选地,所述根据所述有噪声策略与所述无噪声策略,在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数,包括:
计算所述有噪声策略与所述无噪声策略间的策略差异;
判断所述策略差异是否超过所述扰动阈值;
若超过,将所述策略差异与调制因子的商作为所述噪声参数;
若未超过,将所述策略差异与所述调制因子的乘积作为所述噪声参数;其中,所述调制因子大于1。
可选地,所述根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化,包括:
根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化,并将优化后的所述无噪声策略网络的系统参数作为原始参数;
将所述原始参数与所述噪声参数的和,作为所述有噪声策略网络的优化系统参数。
可选地,在所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制之前,还包括:
确定所述参数优化的执行次数;
判断所述执行次数是否达到训练次数阈值;
若所述执行次数达到所述训练次数阈值,执行所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制的步骤。
若所述执行次数未达到所述训练次数阈值,执行所述获取车辆交通环境状态信息的步骤。
可选地,所述自动驾驶控制方法还包括:
若接收到出现驾驶事故通知,执行所述初始化深度强化学习自动驾驶决策系统的系统参数的步骤。
一种自动驾驶控制装置,包括:
参数初始化单元,用于初始化深度强化学习自动驾驶决策系统的系统参数;其中,所述深度强化学习自动驾驶决策系统包括:无噪声策略网络、有噪声策略网络;
环境获取单元,用于获取车辆交通环境状态信息;
策略生成单元,用于将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成,得到无噪声策略以及有噪声策略;
噪声调整单元,用于根据所述有噪声策略与所述无噪声策略,在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数;
参数优化单元,用于根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化,生成优化有噪声策略网络;
驾驶控制单元,用于根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
可选地,所述噪声调整单元包括:
差异计算子单元,用于计算所述有噪声策略与所述无噪声策略间的策略差异;
差异判断子单元,用于判断所述策略差异是否超过所述扰动阈值;若超过,触发第一处理子单元;若未超过,触发第二处理子单元;
所述第一处理子单元,用于将所述策略差异与调制因子的商作为所述噪声参数;
所述第二处理子单元,用于将所述策略差异与所述调制因子的乘积作为所述噪声参数;其中,所述调制因子大于1。
可选地,所述参数优化单元包括:
参数确定子单元,用于根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化,并将优化后的所述无噪声策略网络的系统参数作为原始参数;
求和优化子单元,用于将所述原始参数与所述噪声参数的和,作为所述有噪声策略网络的优化系统参数。
一种自动驾驶控制设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述自动驾驶控制方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述自动驾驶控制方法的步骤。
本发明实施例所提供的方法,使用有噪声和无噪声双策略网络进行参数的优化设置,将相同的车辆交通环境状态信息输入至有噪声和无噪声双策略网络中,以无噪声策略网络作为对比和基准,设定动作空间扰动阈值进行噪声参数的自适应调整,通过在策略网络参数空间自适应注入噪声,间接添加动作噪声,能够有效提升深度强化学习算法对环境和动作空间的探索,提升基于深度强化学习的自动驾驶探索性能和稳定性,保证车辆决策和动作选择充分考虑环境状态、驾驶策略的影响,进而提升自动驾驶车辆的稳定性、安全性。
相应地,本发明实施例还提供了与上述自动驾驶控制方法相对应的自动驾驶控制装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种自动驾驶控制方法的实施流程图;
图2为本发明实施例中一种自动驾驶控制装置的结构示意图;
图3为本发明实施例中一种自动驾驶控制设备的结构示意图。
具体实施方式
本发明的核心是提供一种自动驾驶控制方法,可以提升自动驾驶车辆的稳定性以及安全性。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,基于深度强化学习的自动驾驶序列决策过程如图1所示。自动驾驶车辆依据当前交通环境状态,利用神经网络表示的驾驶策略选取动作,如加速/减速、转向、变道、刹车等,并获得一个奖励。自动驾驶车辆根据获得的奖励对驾驶策略进行调整,并结合新的交通状态进入下一个决策过程。自动驾驶车辆通过与环境之间的交互做出序列决策,学习到最优驾驶策略,以实现安全驾驶。
为了帮助自动驾驶车辆对动作空间进行充分探索,目前现有技术主要采用的方法是在每一个决策过程所选取动作基础上增加一个探索噪声,一般采取高斯分布采样的形式,比如策略网络生成提速至50km/h的动作指令,则从高斯分布中选取一个随机值,比如10,则最终生成提速至60km/h(50+10)的动作指令。这种添加探索噪声的方法十分简便,然而,这种随机噪声与环境状态、驾驶策略均无关联,自动驾驶车辆面对同样的交通状态可能做出不同决策,会导致探索更加无法预测,带来安全隐患。
为了避免添加的探索噪声对于自动驾驶控制带来的不稳定以及不安全因素,本实施例中提出一种自动驾驶控制方法,请参考图2,图2为本发明实施例中一种自动驾驶控制方法的流程图,该方法包括以下步骤:
S101、初始化深度强化学习自动驾驶决策系统的系统参数;
其中,深度强化学习自动驾驶决策系统为本实施例中搭建的用于生成自动驾驶策略信息的系统,具体地,深度强化学习自动驾驶决策系统中共包含2个策略网络,无噪声策略网络、有噪声策略网络,其中,无噪声策略网络指不含噪声的策略网络(No_Noise_Net),有噪声策略网络指隐含噪声的策略网络(Noise_Net),其中,策略网络为基于深度强化学习策略参数空间搭建的网络,本实施例中对于深度强化学习自动驾驶决策系统中指定的深度学习算法不做限定,考虑到自动驾驶问题的状态空间和动作空间连续性,包括DDPG、A3C、SAC、TD3等深度强化学习算法可供选择,本实施例中主要以较简单的DDPG算法为例进行说明,其他深度强化学习算法的应用均可参照本实施例的介绍,在此不再赘述。则相应地,初始化深度强化学习自动驾驶决策系统的系统参数中的系统参数主要可以包括
Figure 910015DEST_PATH_IMAGE001
(不含噪声的初始策略参数)、
Figure 30418DEST_PATH_IMAGE002
(隐含噪声的初始策略参数)、
Figure 13418DEST_PATH_IMAGE003
(网络初始参数),以及初始策略参数噪声
Figure 838986DEST_PATH_IMAGE004
四种。
深度强化学习自动驾驶决策系统中除了策略网络外,还包括评价网络(Critic_Net),需要说明的是,无噪声策略网络、有噪声策略网络以及评价网络的具体网络结构本实施例中不做限定,可以参照相关技术进行相应网络结构的搭建,在此不再赘述。
S102、获取车辆交通环境状态信息;
车辆交通环境状态信息指待自动驾驶控制的车辆周边的交通环境状态信息,车辆交通环境状态信息的采集过程以及车辆交通环境状态信息中具体包含的信息项(可以据此实现自动驾驶控制即可)本实施例中不做限定,比如可以借助摄像头、全球定位系统、惯性测量单元、毫米波雷达、激光雷达等车载传感器装置,获取行车环境状态(如天气数据、交通信号灯、交通拓扑信息),自动驾驶车辆、其他交通参与者的位置、运行状态等信息、摄像头获取的直接原始图像数据,以及通过深度学习模型(如RefineNet等)处理得到的深度图和语义分割图等,将这些行车环境状态、当前自动驾驶的车辆信息、其他交通参与者的位置、其他交通参与者的运行状态、语义分割图作为车辆交通环境状态信息,本实施例仅以上述信息形式以及获取方式为例进行介绍,其他信息的获取方式均可参照本实施例的介绍,在此不再赘述。
S103、将车辆交通环境状态信息分别输入至无噪声策略网络以及有噪声策略网络进行自动驾驶策略生成,得到无噪声策略以及有噪声策略;
将车辆交通环境状态信息分别输入至无噪声策略网络以及有噪声策略网络,不含噪声的策略网络(无噪声策略网络)和隐含噪声的策略网络(有噪声策略网络)共用一个策略函数
Figure 122199DEST_PATH_IMAGE005
,即无噪声策略网络和有噪声策略网络中共用一套自动驾驶的计算方式,均可以单独实现自动驾驶的计算。
针对输入的车辆交通环境状态信息
Figure 147924DEST_PATH_IMAGE006
,无噪声策略网络基于不含噪声的策略参数
Figure 618220DEST_PATH_IMAGE007
进行自动驾驶策略生成,得到无噪声策略的动作
Figure 20382DEST_PATH_IMAGE008
;有噪声策略网络基于隐含噪声的策略参数
Figure 158103DEST_PATH_IMAGE009
进行自动驾驶策略生成,得到有噪声策略的动作
Figure 853264DEST_PATH_IMAGE010
。需要说明的是,调用两个网络分别对车辆交通环境状态信息进行处理的过程可以参照目前策略网络的信息处理方式,在此不作限定。
S104、根据有噪声策略与无噪声策略,在扰动阈值范围内调整注入至有噪声策略网络的噪声参数;
有噪声策略与无噪声策略可以指示噪声对于自动驾驶决策的影响程度,若差值过大指示添加的噪声可能过大,此时可能会对正常决策产生较大的干扰,造成有噪声策略的偏差,比如原本策略指示加速至50km/h,添加一个较大的噪声后可能会导致策略变为加速至70km/h,造成超速等对于安全稳定驾驶不利的因素。本实施例中为了避免随机噪声对于策略稳定性以及正确性的影响,同时保证策略的探索性,设置了一个扰动阈值,该扰动阈值为添加的噪声的范围,将噪声限值在扰动阈值范围内,可以避免噪声过大的影响,同时根据有噪声策略与无噪声策略进行噪声值的调整,可以实现生成的策略对于添加的噪声反向回馈,基于设定的扰动阈值,自适应地调整下一次注入策略参数空间的噪声
Figure 76435DEST_PATH_IMAGE011
而对于具体地噪声值调整规则本实施例中不做限定,可以根据实际使用需要进行设定,一种实现方式如下:
(1)计算有噪声策略与无噪声策略间的策略差异;
计算不含噪声与隐含噪声的自动驾驶车辆动作
Figure 751130DEST_PATH_IMAGE012
(无噪声策略)与
Figure 477777DEST_PATH_IMAGE013
(有噪声策略)的策略差异,其中策略差异的评价标准本实施例中不做限定,比如可以以距离作为策略差异的评价标准,相应地,计算有噪声策略与无噪声策略间的策略差异,即策略参数噪声对动作的扰动幅度
Figure 376463DEST_PATH_IMAGE014
本实施例中仅以距离作为策略差异的评价标准为例进行介绍,其它评价标准均可参照本实施例的介绍,在此不再赘述。
(2)判断策略差异是否超过扰动阈值;
扰动阈值为预先设定的策略差异阈值,本申请中会控制有噪声策略网络与所述无噪声策略在实际策略生成中的策略差异不会超出扰动阈值,避免噪声参数对于策略生成影响过大,影响生成策略的准确性以及稳定性。
(3)若超过,将距离与调制因子的商作为噪声参数;
(4)若未超过,将距离与调制因子的乘积作为噪声参数;其中,调制因子大于1。
若策略差异超过扰动阈值,指示当前噪声扰动过大,需调小噪声参数,本实施例中提出的噪声参数的调小策略为做商;若策略差异未超过扰动阈值,为增加深度学习的探索性,同时避免噪声扰动超出扰动阈值,可以调大噪声参数,本实施例中提出的噪声参数的调大策略为做乘积。
根据策略差异
Figure 821351DEST_PATH_IMAGE015
与扰动阈值
Figure 798272DEST_PATH_IMAGE016
的关系,自适应地更新参数噪声
Figure 645005DEST_PATH_IMAGE017
Figure 183434DEST_PATH_IMAGE018
,其中调制因子
Figure 115618DEST_PATH_IMAGE019
本实施例中仅以上述噪声参数调整方式为例进行介绍,此外,还可以采取其他的计算方式,比如若超过扰动阈值减去一定值,未超过扰动阈值加上一定值等,其他调整方式均可参照本实施例的介绍,在此不再赘述。
S105、根据噪声参数对有噪声策略网络的系统参数进行参数优化,生成优化有噪声策略网络;
基于设定的扰动阈值,自适应地调整注入策略参数空间的噪声参数
Figure 397695DEST_PATH_IMAGE017
后,根据噪声参数对有噪声策略网络的系统参数进行参数优化,具体地需要更新评价网络(Critic_Net)参数
Figure 597470DEST_PATH_IMAGE020
、无噪声策略网络(No_Noise_Net)参数
Figure 837958DEST_PATH_IMAGE021
与隐含噪声网络(Noise_Net)参数
Figure 991859DEST_PATH_IMAGE022
其中,在确定了噪声参数后,更新评价网络(Critic_Net)参数
Figure 77627DEST_PATH_IMAGE020
、无噪声策略网络(No_Noise_Net)参数
Figure 633373DEST_PATH_IMAGE021
的实现方式可以参照相关技术中的实现方式,本实施例中对此不作限定,为加深理解,在此介绍一种实现方式:
(1)评价网络(Critic_Net)基于隐含噪声动作
Figure 779184DEST_PATH_IMAGE023
计算价值函数
Figure 924775DEST_PATH_IMAGE024
,并得到环境给予的奖励
Figure 814234DEST_PATH_IMAGE025
。最小化损失函数来更新网络参数
Figure 490066DEST_PATH_IMAGE020
。损失函数定义为:
Figure 806777DEST_PATH_IMAGE026
式中,
Figure 935270DEST_PATH_IMAGE027
为采集的样本数量,
Figure 861376DEST_PATH_IMAGE028
为折扣因子,通常取为介于0-1之间的常数。
Figure 126135DEST_PATH_IMAGE029
表示的价值函数通过回放缓冲区
Figure 613748DEST_PATH_IMAGE030
的数据计算得到,回放缓冲区
Figure 229537DEST_PATH_IMAGE030
由预先训练得到的一系列历史数据
Figure 460799DEST_PATH_IMAGE031
组成,其中包含的均为含噪声的动作。
通过如下策略梯度,更新无噪声策略网络(No_Noise_Net)参数
Figure 845643DEST_PATH_IMAGE021
Figure 143638DEST_PATH_IMAGE032
式中,
Figure 246724DEST_PATH_IMAGE033
为策略梯度方法的目标函数,通常表示为关于奖励
Figure 16097DEST_PATH_IMAGE025
的函数。最大化目标函数得到策略梯度
Figure 19562DEST_PATH_IMAGE034
,通过
Figure 583399DEST_PATH_IMAGE035
对无噪声策略网络(No_Noise_Net)参数
Figure 173780DEST_PATH_IMAGE021
进行更新,其中
Figure 746844DEST_PATH_IMAGE036
为固定的时间步参数。
而对于有噪声策略网络(Noise_Net)参数
Figure 840702DEST_PATH_IMAGE022
的参数优化方式,本实施例中提出一种优化方式,具体可以为:结合上述步骤得到的自适应的噪声参数
Figure 357132DEST_PATH_IMAGE017
和优化后的无噪声策略网络(No_Noise_Net)参数
Figure 169231DEST_PATH_IMAGE021
,令
Figure 545985DEST_PATH_IMAGE037
,即将优化后的所述无噪声策略网络的系统参数与噪声参数求和,作为所述有噪声策略网络的优化系统参数
Figure 759929DEST_PATH_IMAGE022
。该更新方式可以保证有噪声策略网络的参数导向的精准度。本实施例中仅以上述有噪声策略网络的系统参数更新方式为例进行介绍,其他实现方式均可参照本实施例的介绍,在此不作限定。
S106、根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
对有噪声策略网络进行参数优化后,即可根据优化后的有噪声策略网络进行自动驾驶控制,具体地将实时采集到的车辆交通环境状态信息传输至优化后的有噪声策略网络,并将优化后的有噪声策略网络输出的驾驶策略作为待执行的驾驶策略进行自动驾驶控制,而其中,根据确定的待执行的驾驶策略后,根据其进行自动驾驶控制的实现方式可以参照相关技术的介绍,在此不再赘述。
而进一步地,上述步骤中介绍了一次系统参数优化的实现步骤,为了增强自动驾驶决策的精准度,一般可以执行若干次后,将最终得到的有噪声策略网络作为待调用的网络进行自动驾驶的控制。
则相应地,为了提升优化效果,在根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制之前,可以进一步执行以下步骤:
(1)确定参数优化的执行次数;
(2)判断执行次数是否达到训练次数阈值;
(3)若执行次数达到训练次数阈值,执行根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制的步骤。
(4)若执行次数未达到训练次数阈值,执行获取车辆交通环境状态信息的步骤。
以上为一种参数优化的退出方式,即参数优化的执行次数达到预先设定的训练次数阈值(比如10000次)时,退出参数优化的步骤,将当前生成的系统参数作为优化后的参数,将当前的深度强化学习自动驾驶决策系统作为优化后的网络,转而执行根据优化后的网络进行自动驾驶控制的步骤;若未达到预先设定的训练次数阈值,则在上次参数优化训练过程中生成的系统参数的基础上继续添加新的车辆交通环境状态信息进行参数优化训练,执行步骤S102之后的步骤。
而在一些情况下,参数优化的过程中可能会出现一些偏差导致自动驾驶安全性收到威胁的情况,为保证自动驾驶的安全性,若接收到出现驾驶事故通知,可以退出当前参数优化的步骤,执行所述初始化深度强化学习自动驾驶决策系统的系统参数的步骤,在重新初始化的系统参数的基础上重新进行系统参数的优化训练。而其中驾驶事故比如当前车辆发生碰撞、冲出车道等,在此不作限定。
基于上述介绍,本发明实施例所提供的技术方案,使用有噪声和无噪声双策略网络进行参数的优化设置,将相同的车辆交通环境状态信息输入至有噪声和无噪声双策略网络中,以无噪声策略网络作为对比和基准,设定动作空间扰动阈值进行噪声参数的自适应调整,通过在策略网络参数空间自适应注入噪声,间接添加动作噪声,能够有效提升深度强化学习算法对环境和动作空间的探索,提升基于深度强化学习的自动驾驶探索性能和稳定性,保证车辆决策和动作选择充分考虑环境状态、驾驶策略的影响,进而提升自动驾驶车辆的稳定性、安全性。
相应于上面的方法实施例,本发明实施例还提供了一种自动驾驶控制装置,下文描述的自动驾驶控制装置与上文描述的自动驾驶控制方法可相互对应参照。
参见图2所示,该装置包括以下模块:
参数初始化单元110主要用于初始化深度强化学习自动驾驶决策系统的系统参数;其中,深度强化学习自动驾驶决策系统包括:无噪声策略网络、有噪声策略网络;
环境获取单元120主要用于获取车辆交通环境状态信息;
策略生成单元130主要用于将车辆交通环境状态信息分别输入至无噪声策略网络以及有噪声策略网络进行自动驾驶策略生成,得到无噪声策略以及有噪声策略;
噪声调整单元140主要用于根据有噪声策略与无噪声策略,在扰动阈值范围内调整注入至有噪声策略网络的噪声参数;
参数优化单元150主要用于根据噪声参数对有噪声策略网络的系统参数进行参数优化,生成优化有噪声策略网络;
驾驶控制单元160主要用于根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
在本发明的一种具体实施方式中,噪声调整单元包括:
差异计算子单元,用于计算所述有噪声策略与所述无噪声策略间的策略差异;
差异判断子单元,用于判断所述策略差异是否超过所述扰动阈值;若超过,触发第一处理子单元;若未超过,触发第二处理子单元;
所述第一处理子单元,用于将所述策略差异与调制因子的商作为所述噪声参数;
所述第二处理子单元,用于将所述策略差异与所述调制因子的乘积作为所述噪声参数;其中,所述调制因子大于1。
在本发明的一种具体实施方式中,参数优化单元包括:
参数确定子单元,用于根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化,并将优化后的所述无噪声策略网络的系统参数作为原始参数;
求和优化子单元,用于将所述原始参数与所述噪声参数的和,作为所述有噪声策略网络的优化系统参数。
相应于上面的方法实施例,本发明实施例还提供了一种自动驾驶控制设备,下文描述的一种自动驾驶控制设备与上文描述的一种自动驾驶控制方法可相互对应参照。
该自动驾驶控制设备包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现上述方法实施例的自动驾驶控制方法的步骤。
具体的,请参考图3,为本实施例提供的一种自动驾驶控制设备的具体结构示意图,该自动驾驶控制设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在自动驾驶控制设备301上执行存储器332中的一系列指令操作。
自动驾驶控制设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的自动驾驶控制方法中的步骤可以由自动驾驶控制设备的结构实现。
相应于上面的方法实施例,本发明实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种自动驾驶控制方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的自动驾驶控制方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (8)

1.一种自动驾驶控制方法,其特征在于,包括:
初始化深度强化学习自动驾驶决策系统的系统参数;其中,所述深度强化学习自动驾驶决策系统包括:无噪声策略网络、有噪声策略网络;
获取车辆交通环境状态信息;
将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成,得到无噪声策略以及有噪声策略;
根据所述有噪声策略与所述无噪声策略,在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数;其中,所述根据所述有噪声策略与所述无噪声策略,在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数,包括:计算所述有噪声策略与所述无噪声策略间的策略差异;判断所述策略差异是否超过所述扰动阈值;若超过,将所述策略差异与调制因子的商作为所述噪声参数;若未超过,将所述策略差异与所述调制因子的乘积作为所述噪声参数;其中,所述调制因子大于1;
根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化,生成优化有噪声策略网络;
根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
2.根据权利要求1所述的自动驾驶控制方法,其特征在于,所述根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化,包括:
根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化,并将优化后的所述无噪声策略网络的系统参数作为原始参数;
将所述原始参数与所述噪声参数的和,作为所述有噪声策略网络的优化系统参数。
3.根据权利要求1所述的自动驾驶控制方法,其特征在于,在所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制之前,还包括:
确定所述参数优化的执行次数;
判断所述执行次数是否达到训练次数阈值;
若所述执行次数达到所述训练次数阈值,执行所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制的步骤;
若所述执行次数未达到所述训练次数阈值,执行所述获取车辆交通环境状态信息的步骤。
4.根据权利要求3所述的自动驾驶控制方法,其特征在于,还包括:
若接收到出现驾驶事故通知,执行所述初始化深度强化学习自动驾驶决策系统的系统参数的步骤。
5.一种自动驾驶控制装置,其特征在于,包括:
参数初始化单元,用于初始化深度强化学习自动驾驶决策系统的系统参数;其中,所述深度强化学习自动驾驶决策系统包括:无噪声策略网络、有噪声策略网络;
环境获取单元,用于获取车辆交通环境状态信息;
策略生成单元,用于将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成,得到无噪声策略以及有噪声策略;
噪声调整单元,用于根据所述有噪声策略与所述无噪声策略,在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数;其中,所述噪声调整单元包括:差异计算子单元,用于计算所述有噪声策略与所述无噪声策略间的策略差异;差异判断子单元,用于判断所述策略差异是否超过所述扰动阈值;若超过,触发第一处理子单元;若未超过,触发第二处理子单元;所述第一处理子单元,用于将所述策略差异与调制因子的商作为所述噪声参数;所述第二处理子单元,用于将所述策略差异与所述调制因子的乘积作为所述噪声参数;其中,所述调制因子大于1;
参数优化单元,用于根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化,生成优化有噪声策略网络;
驾驶控制单元,用于根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
6.根据权利要求5所述的自动驾驶控制装置,其特征在于,所述参数优化单元包括:
参数确定子单元,用于根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化,并将优化后的所述无噪声策略网络的系统参数作为原始参数;
求和优化子单元,用于将所述原始参数与所述噪声参数的和,作为所述有噪声策略网络的优化系统参数。
7.一种自动驾驶控制设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述自动驾驶控制方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述自动驾驶控制方法的步骤。
CN202110606769.8A 2021-06-01 2021-06-01 一种自动驾驶控制方法、装置、设备及可读存储介质 Active CN113253612B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110606769.8A CN113253612B (zh) 2021-06-01 2021-06-01 一种自动驾驶控制方法、装置、设备及可读存储介质
US18/039,271 US11887009B2 (en) 2021-06-01 2021-09-29 Autonomous driving control method, apparatus and device, and readable storage medium
PCT/CN2021/121903 WO2022252457A1 (zh) 2021-06-01 2021-09-29 一种自动驾驶控制方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606769.8A CN113253612B (zh) 2021-06-01 2021-06-01 一种自动驾驶控制方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113253612A CN113253612A (zh) 2021-08-13
CN113253612B true CN113253612B (zh) 2021-09-17

Family

ID=77185702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606769.8A Active CN113253612B (zh) 2021-06-01 2021-06-01 一种自动驾驶控制方法、装置、设备及可读存储介质

Country Status (3)

Country Link
US (1) US11887009B2 (zh)
CN (1) CN113253612B (zh)
WO (1) WO2022252457A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113253612B (zh) 2021-06-01 2021-09-17 苏州浪潮智能科技有限公司 一种自动驾驶控制方法、装置、设备及可读存储介质
CN114444718B (zh) * 2022-01-26 2023-03-24 北京百度网讯科技有限公司 机器学习模型的训练方法、信号控制方法和装置
CN117376661B (zh) * 2023-12-06 2024-02-27 山东大学 一种基于神经网络的细粒度视频流自适应调节系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110447041A (zh) * 2017-05-20 2019-11-12 渊慧科技有限公司 噪声神经网络层
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111966118A (zh) * 2020-08-14 2020-11-20 哈尔滨工程大学 一种rov推力分配与基于强化学习的运动控制方法
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112255931A (zh) * 2020-10-10 2021-01-22 北京五一视界数字孪生科技股份有限公司 数据处理方法、装置、存储介质及电子设备
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10065654B2 (en) * 2016-07-08 2018-09-04 Toyota Motor Engineering & Manufacturing North America, Inc. Online learning and vehicle control method based on reinforcement learning without active exploration
WO2018211139A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
US11669769B2 (en) * 2018-12-13 2023-06-06 Diveplane Corporation Conditioned synthetic data generation in computer-based reasoning systems
US20200033869A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers that implement autonomous driver agents and a policy server for serving policies to autonomous driver agents for controlling an autonomous vehicle
CN109492763B (zh) * 2018-09-17 2021-09-03 同济大学 一种基于强化学习网络训练的自动泊车方法
CN109657800A (zh) * 2018-11-30 2019-04-19 清华大学深圳研究生院 基于参数噪声的强化学习模型优化方法及装置
KR102267316B1 (ko) * 2019-03-05 2021-06-21 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
CN110322017A (zh) 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
US11699062B2 (en) * 2019-09-06 2023-07-11 Honda Motor Co., Ltd. System and method for implementing reward based strategies for promoting exploration
CN112249032B (zh) * 2020-10-29 2022-02-18 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
US20220261630A1 (en) * 2021-02-18 2022-08-18 International Business Machines Corporation Leveraging dynamical priors for symbolic mappings in safe reinforcement learning
US20220309383A1 (en) * 2021-03-24 2022-09-29 International Business Machines Corporation Learning of operator for planning problem
CN113253612B (zh) * 2021-06-01 2021-09-17 苏州浪潮智能科技有限公司 一种自动驾驶控制方法、装置、设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110447041A (zh) * 2017-05-20 2019-11-12 渊慧科技有限公司 噪声神经网络层
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111966118A (zh) * 2020-08-14 2020-11-20 哈尔滨工程大学 一种rov推力分配与基于强化学习的运动控制方法
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112255931A (zh) * 2020-10-10 2021-01-22 北京五一视界数字孪生科技股份有限公司 数据处理方法、装置、存储介质及电子设备
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Finding Structure in Reinforcement Learning;G. Tesauro 等;《Advances in Neural Information Processing Systems》;19951231;全文 *
Meta-Reinforcement Learning of Structured Exploration Strategies;Abhishek Gupta 等;《32nd Conference on Neural Information Processing Systems》;20181231;全文 *
NOISY NETWORKS FOR EXPLORATION;Meire Fortunato 等;《Published as a conference paper at ICLR 2018》;20181231;全文 *
基于强化学习的无人驾驶仿真研究;孙嘉浩 等;《农业装备与车辆工程》;20200630;第58卷(第6期);全文 *
基于深度递归强化学习的无人自主驾驶策略研究;李志航;《工业控制计算机》;20201231;第33卷(第4期);全文 *
强化学习算法与应用综述;李茹杨 等;《计算机系统应用》;20201231;第29卷(第12期);全文 *
改进DDPG算法在自动驾驶中的应用;张斌 等;《计算机工程与应用》;20191231;第55卷(第10期);全文 *
深度强化学习理论及其应用综述;万里鹏 等;《模式识别与人工智能》;20190731;第32卷(第1期);全文 *

Also Published As

Publication number Publication date
WO2022252457A1 (zh) 2022-12-08
US20230351200A1 (en) 2023-11-02
CN113253612A (zh) 2021-08-13
US11887009B2 (en) 2024-01-30

Similar Documents

Publication Publication Date Title
CN113253612B (zh) 一种自动驾驶控制方法、装置、设备及可读存储介质
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
US11131992B2 (en) Multi-level collaborative control system with dual neural network planning for autonomous vehicle control in a noisy environment
CN110796856B (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
CN112677995B (zh) 一种车辆轨迹规划方法、装置、存储介质及设备
CN113805572B (zh) 运动规划的方法与装置
US20210271988A1 (en) Reinforcement learning with iterative reasoning for merging in dense traffic
CN115578876A (zh) 一种车辆的自动驾驶方法、系统、设备及存储介质
CN115683145A (zh) 一种基于轨迹预测的自动驾驶安全避障方法
CN112896191A (zh) 轨迹处理方法、装置、电子设备和计算机可读介质
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN114771570A (zh) 自动驾驶车辆的控制方法和装置
CN113625753B (zh) 一种由专家规则引导神经网络学习无人机机动飞行的方法
CN112050805A (zh) 一种路径规划方法、装置、电子设备和存储介质
CN113264064B (zh) 用于交叉路口场景的自动驾驶方法及相关设备
Lu et al. Altruistic cooperative adaptive cruise control of mixed traffic platoon based on deep reinforcement learning
Liu et al. Dynamic motion planner with trajectory optimisation for automated highway lane‐changing driving
Li et al. Modelling heterogeneous traffic dynamics by considering the influence of V2V safety messages
CN115973179A (zh) 模型训练方法、车辆控制方法、装置、电子设备及车辆
Vomlel et al. Influence diagrams for speed profile optimization: Computational issues
CN117928568B (zh) 基于人工智能的导航方法、模型训练方法及装置
CN117601904B (zh) 车辆行驶轨迹的规划方法、装置、车辆及存储介质
CN117406756B (zh) 一种运动轨迹参数的确定方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant