CN112249032A - 一种自动驾驶决策方法、系统、设备及计算机存储介质 - Google Patents

一种自动驾驶决策方法、系统、设备及计算机存储介质 Download PDF

Info

Publication number
CN112249032A
CN112249032A CN202011181627.3A CN202011181627A CN112249032A CN 112249032 A CN112249032 A CN 112249032A CN 202011181627 A CN202011181627 A CN 202011181627A CN 112249032 A CN112249032 A CN 112249032A
Authority
CN
China
Prior art keywords
environment information
traffic environment
value
learning model
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011181627.3A
Other languages
English (en)
Other versions
CN112249032B (zh
Inventor
李茹杨
李仁刚
赵雅倩
李雪雷
魏辉
徐哲
张亚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN202011181627.3A priority Critical patent/CN112249032B/zh
Publication of CN112249032A publication Critical patent/CN112249032A/zh
Priority to PCT/CN2021/109174 priority patent/WO2022088798A1/zh
Priority to US18/246,126 priority patent/US20230365163A1/en
Application granted granted Critical
Publication of CN112249032B publication Critical patent/CN112249032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • B60W60/0016Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • B60W40/04Traffic conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/10Historical data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/40High definition maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请公开了一种自动驾驶方法、系统、设备及计算机介质,获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整;判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤。本申请中,可以借助映射关系和已有深度强化学习模型来对目标深度强化学习模型进行调整,可以避免从头对目标深度强化学习模型进行调整,加快目标深度强化学习模型的决策效率,进行可以实现快速、稳定的自动驾驶。

Description

一种自动驾驶决策方法、系统、设备及计算机存储介质
技术领域
本申请涉及自动驾驶技术领域,更具体地说,涉及一种自动驾驶决策方法、系统、设备及计算机存储介质。
背景技术
现代城市交通中,机动车数量日益增多,道路拥堵情况严重,且交通事故频发。为最大程度降低人为因素造成的危害,人们将目光转向自动驾驶领域。结合深度学习的深度强化学习(DRL,Deep Reinforcement Learning)是近年来快速发展的一类机器学习方法,智能体-环境交互作用和序列决策机制接近人类学习的过程,因此也被称为实现“通用人工智能(AGI,Artificial General Intelligence)”的关键步骤,被应用于自动驾驶决策过程中。
虽然深度强化学习能够指导车辆从头开始学习自动驾驶,在面对全新交通场景时也能够通过不断“试错”的方式学会自动驾驶,具有广泛的应用性。但是,从头开始学习自动驾驶的过程中,车辆通常需要几步、甚至几十步的训练才能做出一个较好的决策,采样效率较低,这与自动驾驶场景的瞬时决策要求相悖。同时,选取较差动作的步骤会导致方差较大,体现为车辆行驶不平稳,甚至出现冲出车道、碰撞等事故。
综上所述,如何实现快速、稳定的自动驾驶是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种自动驾驶方法,其能在一定程度上解决如何实现快速、稳定的自动驾驶的技术问题。本申请还提供了一种自动驾驶系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种自动驾驶方法,包括:
获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
基于预设的映射关系对所述实时交通环境信息进行映射,得到映射交通环境信息;
基于预先存储的已有深度强化学习模型及所述映射交通环境信息,对目标深度强化学习模型进行调整;
判断是否结束自动驾驶,若否,则返回执行所述获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,所述映射关系包括所述实时交通环境信息与所述已有深度强化学习模型的已有交通环境信息间的映射关系。
优选的,所述基于预先存储的已有深度强化学习模型及所述映射交通环境信息,对目标深度强化学习模型进行调整,包括:
基于所述已有深度强化学习模型的已有策略网络的参数对所述映射交通环境信息进行处理,得到车辆动作;
基于所述目标深度强化学习模型的评价网络计算所述车辆动作的价值函数值;
获取所述车辆动作的回报值;
基于所述回报值、所述价值函数值更新所述评价网络的参数。
优选的,所述基于所述回报值、所述价值函数值更新所述评价网络的参数,包括:
通过损失函数计算公式,基于所述回报值、所述价值函数值计算损失值;
通过最小化所述损失值来更新所述评价网络的参数;
其中,所述损失函数计算公式包括:
Figure BDA0002750361650000021
其中,L表示所述损失值;N表示采集的样本数量;rt表示t时刻下的回报值;γ表示折扣因子,0<γ<1;Q′ω(st+1,at+1)表示所述评价网络中的目标网络在t+1时刻下计算得到的价值函数值;st+1表示t+1时刻下的交通环境信息;at+1表示t+1时刻下的车辆动作;Qω(st,at)表示所述评价网络中的预测网络在t时刻下计算得到的价值函数值;st表示t时刻下的交通环境信息;at表示t时刻下的车辆动作。
优选的,所述基于所述回报值、所述价值函数值更新所述评价网络的参数之后,还包括:
对所述目标深度强化学习模型的策略网络的参数进行更新。
优选的,所述基于预设的映射关系对所述实时交通环境信息进行映射,得到映射交通环境信息之前,还包括:
获取目标交通环境信息;
读取所述已有交通环境信息;
在再生核希尔伯特空间中,计算所述目标交通环境信息与所述已有交通环境信息间的距离值;
通过最小化所述距离值来确定所述映射关系。
优选的,所述在再生核希尔伯特空间中,计算所述目标交通环境信息与所述已有交通环境信息间的距离值,包括:
通过距离值计算公式,在再生核希尔伯特空间中,计算所述目标交通环境信息与所述已有交通环境信息间的所述距离值;
所述距离值计算公式包括:
Figure BDA0002750361650000031
其中,MMDH(DS,DT)表示所述距离值;DS表示所述已有交通环境信息;DT表示所述目标交通环境信息;n表示所述已有交通环境信息中的样本数量;m表示所述目标交通环境信息中的样本数量;A表示所述映射关系;T表示转置;sS表示所述已有交通环境信息中的交通环境信息;sT表示所述目标交通环境信息中的交通环境信息;H表示所述再生核希尔伯特空间。
优选的,所述通过最小化所述距离值来确定所述映射关系,包括:
基于正则线性回归方法或支持向量机方法或主成分分析方法,通过最小化所述距离值来确定所述映射关系。
一种自动驾驶系统,包括:
第一获取模块,用于获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
第一映射模块,用于基于预设的映射关系对所述实时交通环境信息进行映射,得到映射交通环境信息;
第一调整模块,用于基于预先存储的已有深度强化学习模型及所述映射交通环境信息,对目标深度强化学习模型进行调整;
第一判断模块,用于判断是否结束自动驾驶,若否,则返回执行所述获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,所述映射关系包括所述实时交通环境信息与所述已有深度强化学习模型的已有交通环境信息间的映射关系。
一种自动驾驶设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述自动驾驶方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述自动驾驶方法的步骤。
本申请提供的一种自动驾驶方法,获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整;判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;其中,映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。本申请中,可以借助映射关系和已有深度强化学习模型来对目标深度强化学习模型进行调整,可以避免从头对目标深度强化学习模型进行调整,加快目标深度强化学习模型的决策效率,进行可以实现快速、稳定的自动驾驶。本申请提供的一种自动驾驶系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种自动驾驶方法的流程图;
图2为本申请中对目标深度强化学习模型的调整流程图;
图3为本申请实施例提供的一种自动驾驶系统的结构示意图;
图4为本申请实施例提供的一种自动驾驶设备的结构示意图;
图5为本申请实施例提供的一种自动驾驶设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种自动驾驶方法的流程图。
本申请实施例提供的一种自动驾驶方法,可以包括以下步骤:
步骤S101:获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息。
实际应用中,在自动驾驶过程中,需要根据当前的交通环境信息预测自动驾驶车辆的下一步驾驶动作,所以可以先获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息,实时交通环境信息的类型可以根据实际需要确定,比如可以借助摄像头、全球定位系统、惯性测量单元、毫米波雷达、激光雷达等车载传感器装置,获取行车环境状态,如天气数据、交通信号灯、交通拓扑信息,自动驾驶车辆、其他交通参与者的位置、运行状态等信息,摄像头获取的直接原始图像数据等原始交通环境信息来直接作为实时交通环境信息,还可以通过RefineNet等模型对原始交通环境信息处理得到的深度图和语义分割图作为实时交通环境信息等。
步骤S102:基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。
实际应用中,因为本申请中需要借助已有深度强化学习模型来对目标深度强化学习模型进行调整,如果直接借助已有深度强化学习模型来对实时交通环境信息进行处理的话,可能存在处理结果无法与实时交通环境信息相匹配的情况,为了避免此种情况,可以先基于预设的映射关系来对实时交通环境信息进行映射,得到映射交通环境信息;因为映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系,所以映射交通环境信息可以满足已有深度强化学习模型的处理要求且可以携带实时交通环境信息的相关信息,这样后续借助映射交通环境信息来对目标深度强化学习模型进行调整的话,可以保证目标深度强化学习模型的调整准确性。
应当指出,已有深度强化学习模型指的是已经训练的满足条件的深度强化学习模型,比如已有深度强化学习模型可以为按照已有交通环境信息进行预设时长训练后得到的深度强化学习模型,也可以为按照已有交通环境信息进行预设步长训练后得到的深度强化学习模型等,基于已有交通环境信息进行深度学习模型训练的过程可以参阅现有技术,本申请在此不做具体限定。
步骤S103:基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整。
实际应用中,在基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息之后,便可以基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整。
应当指出,对目标深度强化学习模型的调整过程可以根据实际需要及目标深度强化学习模型的具体结构来确定,且目标深度强化学习模型的结构可以根据所应用的深度强化学习算法,比如DQN(Deep-Q-Network,深度Q网络)算法、DDPG(Deep DeterministicPolicy Gradient,深度确定策略梯度算法)算法、A3C(Asynchronous Advantage Actor-Critic,异步优势Actor-Critic算法)算法、SAC(Soft Actor-Critic,松弛Actor-Critic算法)算法、TD3(Twin Delayed Deep Deterministic policy gradient,双延迟确定性策略梯度算法)算法等,来确定本申请在此不做具体限定。
步骤S104:判断是否结束自动驾驶,若否,则返回执行步骤S101;若是,则执行步骤S105:结束。
实际应用中,因为每次调整过程中只是应用了当前时刻下的实时交通环境信息,可能需要进行多次调整才能完善目标深度强化学习模型的参数,所以在基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整之后,可以判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;若是,则可以直接结束。
应当指出,判断是否结束自动驾驶的条件可以根据实际需要确定,比如结束自动驾驶的条件可以为调整次数达到预设次数,调整时长达到预设时长等,本申请在此不做具体限定。
本申请提供的一种自动驾驶方法,获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整;判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;其中,映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。本申请中,可以借助映射关系和已有深度强化学习模型来对目标深度强化学习模型进行调整,可以避免从头对目标深度强化学习模型进行调整,加快目标深度强化学习模型的决策效率,进行可以实现快速、稳定的自动驾驶。
请参阅图2,图2为本申请中对目标深度强化学习模型的调整流程图。
本申请实施例提供的一种自动驾驶方法中,基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整的过程中,可以包括以下步骤:
步骤S201:基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理,得到车辆动作。
实际应用中,在已有深度强化学习模型及目标深度强化学习模型中均包括策略网络和评价网络的情况下,可以先基于已有深度强化学习模型的已有策略网络的参数来对映射交通环境信息进行处理,得到车辆动作,如加速、减速、转向、变道、刹车等。
步骤S202:基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值。
实际应用中,在基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理,得到车辆动作之后,便可以基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值,以借助价值函数值对策略网络的决策能力进行评价。
步骤S203:获取车辆动作的回报值。
实际应用中,在基于目标深度强化学习模型的目标评价网络计算车辆动作的价值函数值之后,还可以获取车辆动作的回报值,具体的,可以根据自动驾驶车辆采取的车辆动作,结合设定的基准,如自动驾驶车辆平均行驶速度、偏离车道中心距离、闯红灯、发生碰撞等因素,给予自动驾驶车辆一个回报值。
步骤S204:基于回报值、价值函数值更新评价网络的参数。
实际应用中,在获取车辆动作的回报值之后,便可以基于回报值、价值函数值更新评价网络的参数。
具体应用场景中,在基于回报值、价值函数值更新评价网络的参数的过程中,可以通过损失函数计算公式,基于回报值、价值函数值计算损失值;通过最小化损失值来更新评价网络的参数;其中,损失函数计算公式包括:
Figure BDA0002750361650000081
其中,L表示损失值;N表示采集的样本数量;rt表示t时刻下的回报值;γ表示折扣因子,0<γ<1;Q′ω(st+1,at+1)表示评价网络中的目标网络在t+1时刻下计算得到的价值函数值;st+1表示t+1时刻下的交通环境信息;at+1表示t+1时刻下的车辆动作;Qω(st,at)表示评价网络中的预测网络在t时刻下计算得到的价值函数值;st表示t时刻下的交通环境信息;at表示t时刻下的车辆动作。
本申请实施例提供的一种自动驾驶方法中,在基于回报值、价值函数值更新评价网络的参数之后,为了进一步保证目标深度强化学习模型的准确性,还可以对目标深度强化学习模型的策略网络的参数进行更新。对策略网络的参数进行更新的过程可以根据实际需要确定,本申请在此不做具体限定。
本申请实施例提供的一种自动驾驶方法中,在基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息之前,还可以:获取目标交通环境信息;读取已有交通环境信息;在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;通过最小化距离值来确定映射关系。也即本申请可以通过目标交通环境信息、已有交通环境信息及再生核希尔伯特空间快速确定映射关系。
具体应用场景中,在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值的过程中,可以通过距离值计算公式,在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;
距离值计算公式包括:
Figure BDA0002750361650000091
其中,MMDH(DS,DT)表示距离值;DS表示已有交通环境信息;DT表示目标交通环境信息;n表示已有交通环境信息中的样本数量;m表示目标交通环境信息中的样本数量;A表示映射关系;T表示转置;sS表示已有交通环境信息中的交通环境信息;sT表示目标交通环境信息中的交通环境信息;H表示再生核希尔伯特空间。
具体应用场景中,在通过最小化距离值来确定映射关系的过程中,可以基于正则线性回归方法或支持向量机方法或主成分分析方法等,通过最小化距离值来确定映射关系。
具体应用场景中,在获取目标交通环境信息的过程中,可以使用简单的深度学习算法,如DQN算法对目标领域自动驾驶车辆进行预训练,比如构建2个结构相同但参数更新频率不同的神经网络,即间隔一定时间更新的目标网络(Target Net)和每步更新的预测网络(Pred Net),目标网络和预测网络可以均使用简单的3层神经网络,中间仅包含1层隐藏层;此时输入车辆传感器装置采集到的交通环境状态,计算输出目标价值Qtarget和预测价值Qpred,并选择最大的价值对应的动作aTt作为自动驾驶车辆的驾驶动作。随后,获得回报rTt和新的交通环境状态sTt+1,并将学习经历cTi=(sTi,aTi,rTi,sTi+1)存储到回放缓冲区DT中,以此生成目标交通环境信息。
请参阅图3,图3为本申请实施例提供的一种自动驾驶系统的结构示意图。
本申请实施例提供的一种自动驾驶系统,可以包括:
第一获取模块101,用于获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
第一映射模块102,用于基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;
第一调整模块103,用于基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整;
第一判断模块104,用于判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。
本申请实施例提供的一种自动驾驶系统,第一调整模块可以包括:
第一处理单元,用于基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理,得到车辆动作;
第一计算单元,用于基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值;
第一获取单元,用于获取车辆动作的回报值;
第一更新单元,用于基于回报值、价值函数值更新评价网络的参数。
本申请实施例提供的一种自动驾驶系统,第一更新单元可以包括:
第二计算单元,用于通过损失函数计算公式,基于回报值、价值函数值计算损失值;
第二更新单元,用于通过最小化损失值来更新评价网络的参数;
其中,损失函数计算公式包括:
Figure BDA0002750361650000101
其中,L表示损失值;N表示采集的样本数量;rt表示t时刻下的回报值;γ表示折扣因子,0<γ<1;Q′ω(st+1,at+1)表示评价网络中的目标网络在t+1时刻下计算得到的价值函数值;st+1表示t+1时刻下的交通环境信息;at+1表示t+1时刻下的车辆动作;Qω(st,at)表示评价网络中的预测网络在t时刻下计算得到的价值函数值;st表示t时刻下的交通环境信息;at表示t时刻下的车辆动作。
本申请实施例提供的一种自动驾驶系统,还可以包括:
第三更新单元,用于第一更新单元基于回报值、价值函数值更新目标评价网络的参数之后,对目标深度强化学习模型的策略网络的参数进行更新。
本申请实施例提供的一种自动驾驶系统,还可以包括:
第二获取模块,用于第一映射模块基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息之前,获取目标交通环境信息;
第一读取模块,用于读取已有交通环境信息;
第一计算模块,用于在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;
第一确定模块,用于通过最小化距离值来确定映射关系。
本申请实施例提供的一种自动驾驶系统,第一计算模块可以包括:
第三计算单元,用于通过距离值计算公式,在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;
距离值计算公式包括:
Figure BDA0002750361650000111
其中,MMDH(DS,DT)表示距离值;DS表示已有交通环境信息;DT表示目标交通环境信息;n表示已有交通环境信息中的样本数量;m表示目标交通环境信息中的样本数量;A表示映射关系;T表示转置;sS表示已有交通环境信息中的交通环境信息;sT表示目标交通环境信息中的交通环境信息;H表示再生核希尔伯特空间。
本申请实施例提供的一种自动驾驶系统,第一确定模块可以包括:
第一确定单元,用于基于正则线性回归方法或支持向量机方法或主成分分析方法,通过最小化距离值来确定映射关系。
本申请还提供了一种自动驾驶设备及计算机可读存储介质,其均具有本申请实施例提供的一种自动驾驶方法具有的对应效果。请参阅图4,图4为本申请实施例提供的一种自动驾驶设备的结构示意图。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;
基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整;
判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理,得到车辆动作;基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值;获取车辆动作的回报值;基于回报值、价值函数值更新评价网络的参数。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过损失函数计算公式,基于回报值、价值函数值计算损失值;通过最小化损失值来更新评价网络的参数;其中,损失函数计算公式包括:
Figure BDA0002750361650000121
其中,L表示损失值;N表示采集的样本数量;rt表示t时刻下的回报值;γ表示折扣因子,0<γ<1;Q′ω(st+1,at+1)表示评价网络中的目标网络在t+1时刻下计算得到的价值函数值;st+1表示t+1时刻下的交通环境信息;at+1表示t+1时刻下的车辆动作;Qω(st,at)表示评价网络中的预测网络在t时刻下计算得到的价值函数值;st表示t时刻下的交通环境信息;at表示t时刻下的车辆动作。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于回报值、价值函数值更新评价网络的参数之后,对目标深度强化学习模型的策略网络的参数进行更新。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息之前,获取目标交通环境信息;读取已有交通环境信息;在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;通过最小化距离值来确定映射关系。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过距离值计算公式,在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;
距离值计算公式包括:
Figure BDA0002750361650000131
其中,MMDH(DS,DT)表示距离值;DS表示已有交通环境信息;DT表示目标交通环境信息;n表示已有交通环境信息中的样本数量;m表示目标交通环境信息中的样本数量;A表示映射关系;T表示转置;sS表示已有交通环境信息中的交通环境信息;sT表示目标交通环境信息中的交通环境信息;H表示再生核希尔伯特空间。
本申请实施例提供的一种自动驾驶设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于正则线性回归方法或支持向量机方法或主成分分析方法,通过最小化距离值来确定映射关系。
请参阅图5,本申请实施例提供的另一种自动驾驶设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现自动驾驶设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息;
基于预先存储的已有深度强化学习模型及映射交通环境信息,对目标深度强化学习模型进行调整;
判断是否结束自动驾驶,若否,则返回执行获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理,得到车辆动作;基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值;获取车辆动作的回报值;基于回报值、价值函数值更新评价网络的参数。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过损失函数计算公式,基于回报值、价值函数值计算损失值;通过最小化损失值来更新评价网络的参数;其中,损失函数计算公式包括:
Figure BDA0002750361650000141
其中,L表示损失值;N表示采集的样本数量;rt表示t时刻下的回报值;γ表示折扣因子,0<γ<1;Q′ω(st+1,at+1)表示评价网络中的目标网络在t+1时刻下计算得到的价值函数值;st+1表示t+1时刻下的交通环境信息;at+1表示t+1时刻下的车辆动作;Qω(st,at)表示评价网络中的预测网络在t时刻下计算得到的价值函数值;st表示t时刻下的交通环境信息;at表示t时刻下的车辆动作。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于回报值、价值函数值更新评价网络的参数之后,对目标深度强化学习模型的策略网络的参数进行更新。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于预设的映射关系对实时交通环境信息进行映射,得到映射交通环境信息之前,获取目标交通环境信息;读取已有交通环境信息;在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;通过最小化距离值来确定映射关系。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过距离值计算公式,在再生核希尔伯特空间中,计算目标交通环境信息与已有交通环境信息间的距离值;
距离值计算公式包括:
Figure BDA0002750361650000151
其中,MMDH(DS,DT)表示距离值;DS表示已有交通环境信息;DT表示目标交通环境信息;n表示已有交通环境信息中的样本数量;m表示目标交通环境信息中的样本数量;A表示映射关系;T表示转置;sS表示已有交通环境信息中的交通环境信息;sT表示目标交通环境信息中的交通环境信息;H表示再生核希尔伯特空间。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于正则线性回归方法或支持向量机方法或主成分分析方法,通过最小化距离值来确定映射关系。
本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的自动驾驶系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的自动驾驶方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种自动驾驶方法,其特征在于,包括:
获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
基于预设的映射关系对所述实时交通环境信息进行映射,得到映射交通环境信息;
基于预先存储的已有深度强化学习模型及所述映射交通环境信息,对目标深度强化学习模型进行调整;
判断是否结束自动驾驶,若否,则返回执行所述获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,所述映射关系包括所述实时交通环境信息与所述已有深度强化学习模型的已有交通环境信息间的映射关系。
2.根据权利要求1所述的方法,其特征在于,所述基于预先存储的已有深度强化学习模型及所述映射交通环境信息,对目标深度强化学习模型进行调整,包括:
基于所述已有深度强化学习模型的已有策略网络的参数对所述映射交通环境信息进行处理,得到车辆动作;
基于所述目标深度强化学习模型的评价网络计算所述车辆动作的价值函数值;
获取所述车辆动作的回报值;
基于所述回报值、所述价值函数值更新所述评价网络的参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述回报值、所述价值函数值更新所述评价网络的参数,包括:
通过损失函数计算公式,基于所述回报值、所述价值函数值计算损失值;
通过最小化所述损失值来更新所述评价网络的参数;
其中,所述损失函数计算公式包括:
Figure FDA0002750361640000011
其中,L表示所述损失值;N表示采集的样本数量;rt表示t时刻下的回报值;γ表示折扣因子,0<γ<1;Q′ω(st+1,at+1)表示所述评价网络中的目标网络在t+1时刻下计算得到的价值函数值;st+1表示t+1时刻下的交通环境信息;at+1表示t+1时刻下的车辆动作;Qω(st,at)表示所述评价网络中的预测网络在t时刻下计算得到的价值函数值;st表示t时刻下的交通环境信息;at表示t时刻下的车辆动作。
4.根据权利要求2所述的方法,其特征在于,所述基于所述回报值、所述价值函数值更新所述评价网络的参数之后,还包括:
对所述目标深度强化学习模型的策略网络的参数进行更新。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于预设的映射关系对所述实时交通环境信息进行映射,得到映射交通环境信息之前,还包括:
获取目标交通环境信息;
读取所述已有交通环境信息;
在再生核希尔伯特空间中,计算所述目标交通环境信息与所述已有交通环境信息间的距离值;
通过最小化所述距离值来确定所述映射关系。
6.根据权利要求5所述的方法,其特征在于,所述在再生核希尔伯特空间中,计算所述目标交通环境信息与所述已有交通环境信息间的距离值,包括:
通过距离值计算公式,在再生核希尔伯特空间中,计算所述目标交通环境信息与所述已有交通环境信息间的所述距离值;
所述距离值计算公式包括:
Figure FDA0002750361640000021
其中,MMDH(DS,DT)表示所述距离值;DS表示所述已有交通环境信息;DT表示所述目标交通环境信息;n表示所述已有交通环境信息中的样本数量;m表示所述目标交通环境信息中的样本数量;A表示所述映射关系;T表示转置;sS表示所述已有交通环境信息中的交通环境信息;sT表示所述目标交通环境信息中的交通环境信息;H表示所述再生核希尔伯特空间。
7.根据权利要求6所述的方法,其特征在于,所述通过最小化所述距离值来确定所述映射关系,包括:
基于正则线性回归方法或支持向量机方法或主成分分析方法,通过最小化所述距离值来确定所述映射关系。
8.一种自动驾驶系统,其特征在于,包括:
第一获取模块,用于获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息;
第一映射模块,用于基于预设的映射关系对所述实时交通环境信息进行映射,得到映射交通环境信息;
第一调整模块,用于基于预先存储的已有深度强化学习模型及所述映射交通环境信息,对目标深度强化学习模型进行调整;
第一判断模块,用于判断是否结束自动驾驶,若否,则返回执行所述获取当前时刻下,自动驾驶车辆在行驶过程中的实时交通环境信息的步骤;
其中,所述映射关系包括所述实时交通环境信息与所述已有深度强化学习模型的已有交通环境信息间的映射关系。
9.一种自动驾驶设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述自动驾驶方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述自动驾驶方法的步骤。
CN202011181627.3A 2020-10-29 2020-10-29 一种自动驾驶决策方法、系统、设备及计算机存储介质 Active CN112249032B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011181627.3A CN112249032B (zh) 2020-10-29 2020-10-29 一种自动驾驶决策方法、系统、设备及计算机存储介质
PCT/CN2021/109174 WO2022088798A1 (zh) 2020-10-29 2021-07-29 一种自动驾驶决策方法、系统、设备及计算机存储介质
US18/246,126 US20230365163A1 (en) 2020-10-29 2021-07-29 Automatic Driving Decision Making Method, System And Device And Computer Storage Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011181627.3A CN112249032B (zh) 2020-10-29 2020-10-29 一种自动驾驶决策方法、系统、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112249032A true CN112249032A (zh) 2021-01-22
CN112249032B CN112249032B (zh) 2022-02-18

Family

ID=74267165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181627.3A Active CN112249032B (zh) 2020-10-29 2020-10-29 一种自动驾驶决策方法、系统、设备及计算机存储介质

Country Status (3)

Country Link
US (1) US20230365163A1 (zh)
CN (1) CN112249032B (zh)
WO (1) WO2022088798A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947466A (zh) * 2021-03-09 2021-06-11 湖北大学 一种面向自动驾驶的平行规划方法、设备及存储介质
CN113511215A (zh) * 2021-05-31 2021-10-19 西安电子科技大学 一种混合自动驾驶决策方法、设备及计算机存储介质
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114291111A (zh) * 2021-12-30 2022-04-08 广州小鹏自动驾驶科技有限公司 目标路径的确定方法、装置、车辆及存储介质
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN114859921A (zh) * 2022-05-12 2022-08-05 鹏城实验室 一种基于强化学习的自动驾驶优化方法及相关设备
WO2022252457A1 (zh) * 2021-06-01 2022-12-08 苏州浪潮智能科技有限公司 一种自动驾驶控制方法、装置、设备及可读存储介质
CN114859921B (zh) * 2022-05-12 2024-06-28 鹏城实验室 一种基于强化学习的自动驾驶优化方法及相关设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708568B (zh) * 2022-06-07 2022-10-04 东北大学 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN115903457B (zh) * 2022-11-02 2023-09-08 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN116128013B (zh) * 2023-04-07 2023-07-04 中国人民解放军国防科技大学 基于多样性种群训练的临机协同方法、装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN111273676A (zh) * 2020-03-24 2020-06-12 广东工业大学 一种端到端自动驾驶的方法及系统
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
US20200307577A1 (en) * 2019-03-26 2020-10-01 Ford Global Technologies, Llc Interpreting data of reinforcement learning agent controller
KR102166811B1 (ko) * 2019-01-21 2020-10-19 한양대학교 산학협력단 심층강화학습과 운전자보조시스템을 이용한 자율주행차량의 제어 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506830A (zh) * 2017-06-20 2017-12-22 同济大学 面向智能汽车规划决策模块的人工智能训练平台
CN109345512A (zh) * 2018-09-12 2019-02-15 百度在线网络技术(北京)有限公司 汽车图像的处理方法、装置及可读存储介质
CN109835375B (zh) * 2019-01-29 2021-05-11 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
CN110647839B (zh) * 2019-09-18 2022-08-12 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN111123738B (zh) * 2019-11-25 2023-06-30 的卢技术有限公司 提高仿真环境中深度强化学习算法训练效率的方法及系统
CN112249032B (zh) * 2020-10-29 2022-02-18 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
KR102166811B1 (ko) * 2019-01-21 2020-10-19 한양대학교 산학협력단 심층강화학습과 운전자보조시스템을 이용한 자율주행차량의 제어 방법 및 장치
US20200307577A1 (en) * 2019-03-26 2020-10-01 Ford Global Technologies, Llc Interpreting data of reinforcement learning agent controller
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN111273676A (zh) * 2020-03-24 2020-06-12 广东工业大学 一种端到端自动驾驶的方法及系统
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴琦等: "人工智能在自动驾驶领域的应用及启示", 《无人系统技术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN112947466A (zh) * 2021-03-09 2021-06-11 湖北大学 一种面向自动驾驶的平行规划方法、设备及存储介质
CN112947466B (zh) * 2021-03-09 2023-04-07 湖北大学 一种面向自动驾驶的平行规划方法、设备及存储介质
CN113511215A (zh) * 2021-05-31 2021-10-19 西安电子科技大学 一种混合自动驾驶决策方法、设备及计算机存储介质
WO2022252457A1 (zh) * 2021-06-01 2022-12-08 苏州浪潮智能科技有限公司 一种自动驾驶控制方法、装置、设备及可读存储介质
US11887009B2 (en) 2021-06-01 2024-01-30 Inspur Suzhou Intelligent Technology Co., Ltd. Autonomous driving control method, apparatus and device, and readable storage medium
CN114291111A (zh) * 2021-12-30 2022-04-08 广州小鹏自动驾驶科技有限公司 目标路径的确定方法、装置、车辆及存储介质
CN114291111B (zh) * 2021-12-30 2024-03-08 广州小鹏自动驾驶科技有限公司 目标路径的确定方法、装置、车辆及存储介质
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114104005B (zh) * 2022-01-26 2022-04-19 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114859921A (zh) * 2022-05-12 2022-08-05 鹏城实验室 一种基于强化学习的自动驾驶优化方法及相关设备
CN114859921B (zh) * 2022-05-12 2024-06-28 鹏城实验室 一种基于强化学习的自动驾驶优化方法及相关设备

Also Published As

Publication number Publication date
WO2022088798A1 (zh) 2022-05-05
CN112249032B (zh) 2022-02-18
US20230365163A1 (en) 2023-11-16

Similar Documents

Publication Publication Date Title
CN112249032B (zh) 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN111123933B (zh) 车辆轨迹规划的方法、装置、智能驾驶域控制器和智能车
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN110834644B (zh) 一种车辆控制方法、装置、待控制车辆及存储介质
US20210334420A1 (en) Driving simulation method and apparatus, electronic device, and computer storage medium
EP4152204A1 (en) Lane line detection method, and related apparatus
CN112133089B (zh) 一种基于周围环境与行为意图的车辆轨迹预测方法、系统及装置
KR20200096131A (ko) 다양한 소스로부터 획득되는 정보의 퓨전을 통해 주변 객체의 모션을 예측함으로써, 사고 위험을 회피하여 안전한 자율 주행을 지원하는 학습 방법, 그리고 이를 이용한 학습 장치, 테스트 방법, 및 테스트 장치
KR20200094641A (ko) 강화 학습에 기초하여 협업 주행에서 다중 에이전트 센서 퓨전을 수행하는 방법 및 장치
JP2020515886A (ja) 車両内に仮想環境を生成する表示制御システムおよび方法
CN111026127A (zh) 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
US12005922B2 (en) Toward simulation of driver behavior in driving automation
CN111142402A (zh) 仿真场景构建方法、装置和终端
CN115782880A (zh) 智能汽车换道决策方法、装置、电子设备和存储介质
CN113511215B (zh) 一种混合自动驾驶决策方法、设备及计算机存储介质
KR102260246B1 (ko) 자율 주행을 위한 딥러닝 알고리즘 설정 방법 및 장치
CN115731695A (zh) 一种场景安全等级确定方法、装置、设备及存储介质
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN115454082A (zh) 车辆避障方法及系统、计算机可读存储介质和电子设备
WO2023004698A1 (zh) 智能驾驶决策方法、车辆行驶控制方法、装置及车辆
CN117445901A (zh) 泊车路径规划方法和路径节点预测模型的训练方法
CN114889608A (zh) 一种基于注意力机制的车辆换道预测方法
CN114633765A (zh) 基于概率栅格图的速度决策方法及其装置、相关产品
CN111483463B (zh) 基于车载单元和路侧单元的预判超车方法、存储介质
JP2023531927A (ja) 運転意思決定方法および運転意思決定装置ならびにチップ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant