CN111401458A - 一种基于深度强化学习的多模型目标状态预测方法及系统 - Google Patents

一种基于深度强化学习的多模型目标状态预测方法及系统 Download PDF

Info

Publication number
CN111401458A
CN111401458A CN202010208346.6A CN202010208346A CN111401458A CN 111401458 A CN111401458 A CN 111401458A CN 202010208346 A CN202010208346 A CN 202010208346A CN 111401458 A CN111401458 A CN 111401458A
Authority
CN
China
Prior art keywords
target
prediction
model
information
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010208346.6A
Other languages
English (en)
Inventor
谢国涛
王晓伟
秦晓辉
徐彪
边有钢
胡满江
杨泽宇
周华健
钟志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010208346.6A priority Critical patent/CN111401458A/zh
Publication of CN111401458A publication Critical patent/CN111401458A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4802Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于深度神经网络和强化学习的多模型目标状态预测方法,有效应对多模型融合的复杂的强非线性环境表达与目标状态长时间预测问题,有助于提高目标状态预测精度和预测时长,实现多模型融合的在线参数自修正。该专利提供的标定方法具有优势:1)自适应环境场景变化,自调节多模型目标状态预测参数;2)提高目标状态预测精度;3)提高目标状态预测时间长度;4)在线自学习多模型预测参数,提高动态场景下目标状态预测精度。

Description

一种基于深度强化学习的多模型目标状态预测方法及系统
技术领域
本发明涉及一种面向智能驾驶系统的目标状态预测方法及系统,特别是关于一种基于深度强化学习的多模型目标状态预测方法及系统。
背景技术
智能驾驶车辆对交通安全,交通效率以及环保节能等有着积极的作用。智能驾驶车辆是通过感知系统,感知驾驶环境参数,识别目标类型;通过认知系统提高对驾驶环境的理解如驾驶行为意图等的理解,对未来环境变化进行估计和预测,判断其它道路使用者如车辆和行人的决策机制,对环境做出正确的理解;通过决策系统以及执行系统完成驾驶行为及路径规划,实现驾驶操作任务。其中,环境认知技术是对环境的深层理解,像人一样,通过分析周围车辆的驾驶行为,考虑其它道路使用者的意图和决策机制,对驾驶环境的变化进行估计、判断和预测,提高智能驾驶车辆在复杂环境下的决策水平和能力。只有实现了智能驾驶车辆对环境的深层次理解和认知,并正确地判断和预测周围环境的变化,才能实现真正的“智能”驾驶,有效应对复杂的驾驶环境。环境目标状态预测环境理解与认知的重要部分,是对未来一段时间内目标姿态进行预测,以判断和预测周围环境的变化,为智能驾驶在复杂交通环境下的决策提供基础。同时,精确的目标状态预测能够有效提高目标检测与跟踪的鲁棒性,解决目标遮挡与一定时间内丢失的问题。
目前,针对目标状态预测方法研究较多。预测主要包括短时间预测和长时间预测。其中,短时间预测主要是基于车辆动力学或者运动学方法,假设某些运动变量比如行车速度、加速度、横摆角速度等保持不变的情况下进行预测。短时间预测虽然预测时间短,但是在较短时间内,其预测结果较准确。长时间预测主要是基于行为认知进行预测,在考虑运动参数的条件下,对车辆行为进行估计,根据行为概率分布,预测某一段时间内车辆的轨迹变化。基于行为认知的预测方法能够在较长的一段时间内进行预测。然而,基于行为认知的预测方法在短时间内预测误差较大。
现阶段针对智能驾驶技术,目标轨迹预测存在以下几个方面的问题:1)预测精度低,无法应对复杂场景下的预测精度;2)可预测时间短;3)无法自适应各自场景进行自学习的融合多种预测方法。近年来强化学习以及深度强化学习方法广泛应用于智能驾驶领域,能够有效应对复杂的强非线性问题,而多模型目标状态预测问题就是一个强非线性的优化问题。将深度强化学习应用于多模型融合的目标状态预测,实现目标状态多场景多模型融合的长时高精度预测。但相关工作暂未有人开展。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于深度强化学习的多模型目标状态预测方法,利用深度强化学习网络在线实时估计多模型预测权重,提高智能驾驶系统对环境的预测能力,增强环境感知鲁棒性和理解能力,为智能驾驶系统的决策与控制提供基础。
为实现上述目的,本发明提供了如下技术方案:一种基于深度强化学习的多模型目标状态预测方法,包括如下步骤:
步骤1,获取环境数据和定义深度强化学习环境状态,其中定义环境为:环境中各个目标的历史状态信息,包括目标的历史位置信息、目标的历史形状信息、目标的历史朝向信息、目标的历史速度信息、目标历史横摆角信息;
步骤2,以每预测方法作为深度强化学习的智能体,以每种方法的权重为智能体的行为模型,构建深度强化中多模型目标状态预测模型;
步骤3,定义多模型轨迹预测奖励模型,该奖励模型主要是给出每个智能体在优化预测权重过程中给出的效益函数;
步骤4,对步骤2中获得的预测模型采用离线初学习以及在线实时学习更新。
作为本发明的进一步改进,所述步骤1中的目标的历史状态信息采用基于激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合的感知方案获取。
作为本发明的进一步改进,所述步骤3中效益函数R定义如下:
Figure BDA0002421955990000031
其中,i表示预测的目标编号,M表示预测的目标数;j表示预测的目标预测时长步数,N表示目标状态预测步长长度;Predij表示第i个目标在预测步长为j时的预测位置信息,Pij表示第i个目标在预测步长为j时的位置估计值;L_Predij表示第i个目标在预测步长为j时的预测形状信息,Lij表示第i个目标在预测步长为j时的形状估计值;O_Predij表示第i个目标在预测步长为j时的预测目标朝向信息,Oij表示第i个目标在预测步长为j时的目标朝向估计值;V_Predij表示第i个目标在预测步长为j时的预测的目标速度信息,Vij表示第i个目标在预测步长为j时的速度估计值;λk(k=0,1,2,3)表示预测误差权重,其中满足:
λ0123=1。
作为本发明的进一步改进,所述步骤4中的离线初学习是根据采集的离线数据进行学习,采集的离线数据包括多传感器实时数据以及高精度地图数据,离线初学习是选取当前帧的历史数据作为多模型目标状态预测的输入,以当前帧后的数据作为多模型目标状态预测的预测结果的参考值。
作为本发明的进一步改进,所述步骤4中的在线实时学习更新中,从当前帧开始,以预测时间长度往后的历史帧开始的历史数据为预测模型输入,以之后的数据为预测的结果的参考值,进行网络更新与在线优化。
本发明另一方面提供了一种系统,该系统包括自车控制板以及激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合系统,其中,方法搭载至自车控制板内,所述激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合系统均与自车控制板耦接
本发明的有益效果,1)自适应环境场景变化,自调节多模型目标状态预测参数;2)提高目标状态预测精度;3)提高目标状态预测时间长度;4)在线自学习多模型预测参数,提高动态场景下目标状态预测精度。
附图说明
图1为目标状态预测环境示意图;
图2为多模型融合的目标状态预测智能体行为定义示意图;
图3为深度强化学习多模型目标状态预测示意图;
图4为多模型目标状态预测系统传感器硬件示意图;
图5为基于深度强化学习的多模型融合的离线与在线学习模块示意图。
具体实施方式
下面将结合附图所给出的实施例对本发明做进一步的详述。
如图1所示,本发明所涉及的环境目标状态场景环境包括目标T、各个目标的历史状态St(t=0,1,2…N)、道路物理边界信息、道路线标记信息。目标T主要包括:目标的历史位置信息Pt(t=0,1,2…N)、目标的历史形状信息Lt(t=0,1,2…N)、目标的历史朝向信息Ot(t=0,1,2…N)、目标的历史速度信息Vt(t=0,1,2…N)。道路物理边界信息Bt表示不可通行的道路边界,如道路栏杆、马路牙子、悬崖等。道路线标记信息Mt表示交通规则中人为画出来的标志线,如实车道线、虚车道线、斑马线、停止线等。为了获取目标的历史状态信息,本发明基于环境融合感知模块进行检测,本发明不限于环境融合感知方法,一般地采用基于激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合的感知方案获取。自车历史状态信息通过自车CAN(Controller Aera Network,控制器局域网)总线获取。
如图2所示,本发明所涉及的深度强化学习多模型融合的目标状态预测方法及系统中,单个模型方法定义为一个目标状态预测智能体,其行为通过目标预测智能体在融合方法中所占的比例体现。
以每预测方法作为深度强化学习的智能体,以每种方法的权重为智能体的行为模型,构建深度强化中多模型目标状态预测模型。其中,为了实现多模型的目标状态准确预测,定义多模型轨迹预测奖励模型。奖励模型主要是给出每个智能体在优化预测权重过程中给出的效益函数。本实施例涉及的效益函数R定义如下:
Figure BDA0002421955990000051
其中,i表示预测的目标编号,M表示预测的目标数;j表示预测的目标预测时长步数,N表示目标状态预测步长长度;Predij表示第i个目标在预测步长为j时的预测位置信息,Pij表示第i个目标在预测步长为j时的位置估计值(根据传感器的实时估计的状态值);L_Predij表示第i个目标在预测步长为j时的预测形状信息,Lij表示第i个目标在预测步长为j时的形状估计值(根据传感器的实时估计的状态值);O_Predij表示第i个目标在预测步长为j时的预测目标朝向信息,Oij表示第i个目标在预测步长为j时的目标朝向估计值(根据传感器的实时估计的状态值);V_Predij表示第i个目标在预测步长为j时的预测的目标速度信息,Vij表示第i个目标在预测步长为j时的速度估计值(根据传感器的实时估计的状态值);λk(k=0,1,2,3)表示预测误差权重,其中满足:
λ0123=1
该专利所涉及的效益函数是根据历史数据的预测值和传感器对该目标的估计值误差的绝对值。其中,该专利不限于目标状态的估计方法。
为了提高模型的表达能力以及模型处理非线性问题的能力,本实施例涉及的强化学习采用深度神经网络进行模型的表示。本实施例涉及的深度神经网络不限于深度学习的网络结构以及强化学习的方法。特别的,本实施例采用Actor-Critic强化学习方法对评价网络(深度神经网络)和策略网络(深度神经网络)进行优化学习。本实施例涉及的一种深度强化学习的多模型目标状态预测方法,其预测模型采用离线初学习以及在线实时学习更新。离线初学习是根据采集的离线数据进行学习。采集的离线数据包括多传感器实时数据以及高精度地图数据。离线初学习是选取当前帧的历史数据作为多模型目标状态预测的输入,以当前帧后的数据(预测时间长度内的数据)作为多模型目标状态预测的预测结果的参考值。在在线实时学习更新中,从当前帧开始,以预测时间长度往后的历史帧开始的历史数据为预测模型输入,以之后的数据为预测的结果的参考值,进行网络更新与在线优化。
在实施例中,如图3所示本实施例所涉及的深度强化学习采用Actor-Critic强化学习方法。首先,本实施例随机选择多模型融合的行为即多模型各个模型权重矩阵,然后根据权重矩阵计算转移后多模型融合的预测结果,进而计算效益更新值。整个过程基于Actor-Critic强化学习对评价网络和策略网络进行不断优化和更新,本实施例不限于评价网络和策略网络结构。
针对本实施例多模型融合的目标状态预测方法及系统,提高模型的可部署性,本实施例基于深度强化学习的多模型融合预测方法进行离线和在线优化学习。离线和在线优化学习首先进行数据采集和实时数据获取。
本实施例硬件不限于所涉及的硬件系统,作为实施例,本实施例中,本实施例涉及的离线和在线数据采集硬件系统如图4所示,硬件系统主要包括激光雷达、中长距毫米波雷达、侧向毫米波雷达、摄像头的多传感器融合。其中,激光雷达安装于车辆顶部中间位置,360度覆盖车辆周围环境,探测车辆周围80米范围内的目标信息,丰富的三维点云信息为目标距离、目标种类、目标大小、目标朝向等提供信息基础。中长距毫米波雷达安装于车辆前部和尾部中间位置处,用于探测车辆前后中长距离范围内的障碍物,其中探测前后部远处120米处目标障碍物。侧向毫米波雷达安装于车辆前部侧向位置处,用于探测车辆侧向近距离范围内的障碍物。毫米波雷达能够有效的检测目标运动信息,比如目标运动速度等。摄像头安装于车辆前后挡风玻璃中间位置处,用于分别探测前后范围内的障碍物。摄像头能够获得丰富的环境信息,能够有效的提取目标种类,目标大小,目标朝向等信息。在本实施例中的硬件系统中,采用多传感器融合的方法获取环境目标信息,本实施例不限于多传感器融合的方法,获取的目标信息包括目标的位置信息Pt(t=0,1,2…N)、目标的形状信息Lt(t=0,1,2…N)、目标的朝向信息Ot(t=0,1,2…N)、目标的速度信息Vt(t=0,1,2…N)。同时,结合高精度地图信息和多传感器实时信息获得道路物理边界信息和道路线标记信息。离线数据采集是对多传感器探测的环境信息进行实时获取并同步实时保存。在线数据采集是对基于多传感器探测的环境数据进行实时获取。
在本实施例中,本实施例涉及的离线在线网络优化学习模块示意图如图5所示,离线优化学习主要包括离线数据采集模块、环境信息处理模块、目标状态预测模型、Actor-Critic深度强化学习模块、离线学习结果输出模块。离线数据采集模块是基于本实施例中的硬件系统采集环境数据并存储起来包括高精度地图数据与传感器检测数据。环境信息处理模块是对高精度地图数据与传感器检测数据进行处理,获得环境信息,用于对环境目标进行预测。本实施例中,通过摄像头和激光雷达数据级融合获得目标种类、目标大小、目标朝向、目标速度等信息;然后,基于毫米波雷达的目标级信息以及摄像头和激光雷达数据级融合获得目标级信息,通过目标级融合算法,获取更高精度的环境目标信息、道路标记信息以及物理边界信息。本实施例不限于数据级融合检测算法和目标级融合算法。基于环境目标信息、道路标记信息以及物理边界信息,目标状态预测模型对环境目标状态进行预测。Actor-Critic深度强化学习模块是根据离线数据对模型进行离线学习优化。离线学习结果输出模块是对离线优化的模型权重矩阵输出给在线更新模块。离线初学习是选取当前帧的历史数据作为多模型目标状态预测的输入,以当前帧后的数据(预测时间长度内的数据)作为多模型目标状态预测的预测结果的参考值。
在线学习中主要包括传感器数据实时获取模块,环境信息处理模块、在线更新模块、多模型预测融合模块。传感器数据实时获取模块是实时同步获取高精度地图数据与传感器检测数据。环境信息处理模块如前所述。在线更新模块是根据离线获得的模型权重矩阵、目标状态信息、物理边界信息、道路标记信息以及效益函数,基于强化学习实时多模型融合的权重矩阵进行更新。根据在线更新的多模型权重矩阵,多模型预测融合模块对多模型输出的预测结果进行融合处理。最终,目标状态预测结果输出模块输出目标预测状态。在在线实时学习更新中,从当前帧开始,以预测时间长度往后的历史帧开始的历史数据为预测模型输入,以之后的数据为预测的结果的参考值,进行网络更新与在线优化。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于深度强化学习的多模型目标状态预测方法,其特征在于:包括如下步骤:
步骤1,获取环境数据和定义深度强化学习环境状态,其中定义环境为:环境中各个目标的历史状态信息,包括目标的历史位置信息、目标的历史形状信息、目标的历史朝向信息、目标的历史速度信息、目标历史横摆角信息;
步骤2,以每预测方法作为深度强化学习的智能体,以每种方法的权重为智能体的行为模型,构建深度强化中多模型目标状态预测模型;
步骤3,定义多模型轨迹预测奖励模型,该奖励模型主要是给出每个智能体在优化预测权重过程中给出的效益函数;
步骤4,对步骤2中获得的预测模型采用离线初学习以及在线实时学习更新。
2.根据权利要求1所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤1中的目标的历史状态信息采用基于激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合的感知方案获取。
3.根据权利要求2所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤3中效益函数R定义如下:
Figure FDA0002421955980000011
其中,i表示预测的目标编号,M表示预测的目标数;j表示预测的目标预测时长步数,N表示目标状态预测步长长度;Predij表示第i个目标在预测步长为j时的预测位置信息,Pij表示第i个目标在预测步长为j时的位置估计值;L_Predij表示第i个目标在预测步长为j时的预测形状信息,Lij表示第i个目标在预测步长为j时的形状估计值;O_Predij表示第i个目标在预测步长为j时的预测目标朝向信息,Oij表示第i个目标在预测步长为j时的目标朝向估计值;V_Predij表示第i个目标在预测步长为j时的预测的目标速度信息,Vij表示第i个目标在预测步长为j时的速度估计值;λk(k=0,1,2,3)表示预测误差权重,其中满足:λ0123=1。
4.根据权利要求3所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤4中的离线初学习是根据采集的离线数据进行学习,采集的离线数据包括多传感器实时数据以及高精度地图数据,离线初学习是选取当前帧的历史数据作为多模型目标状态预测的输入,以当前帧后的数据作为多模型目标状态预测的预测结果的参考值。
5.根据权利要求4所述的基于深度强化学习的多模型目标状态预测方法,其特征在于:所述步骤4中的在线实时学习更新中,从当前帧开始,以预测时间长度往后的历史帧开始的历史数据为预测模型输入,以之后的数据为预测的结果的参考值,进行网络更新与在线优化。
6.一种应用权利要求2至5任意一项方法的系统,其特征在于:包括自车控制板以及激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合系统,其中,方法搭载至自车控制板内,所述激光雷达、摄像头、毫米波雷达以及车路/车车/车云通信融合系统均与自车控制板耦接。
CN202010208346.6A 2020-03-23 2020-03-23 一种基于深度强化学习的多模型目标状态预测方法及系统 Pending CN111401458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010208346.6A CN111401458A (zh) 2020-03-23 2020-03-23 一种基于深度强化学习的多模型目标状态预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010208346.6A CN111401458A (zh) 2020-03-23 2020-03-23 一种基于深度强化学习的多模型目标状态预测方法及系统

Publications (1)

Publication Number Publication Date
CN111401458A true CN111401458A (zh) 2020-07-10

Family

ID=71432788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010208346.6A Pending CN111401458A (zh) 2020-03-23 2020-03-23 一种基于深度强化学习的多模型目标状态预测方法及系统

Country Status (1)

Country Link
CN (1) CN111401458A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085101A (zh) * 2020-09-10 2020-12-15 湖南大学 一种高性能高可靠的环境融合感知方法及系统
CN112083806A (zh) * 2020-09-16 2020-12-15 华南理工大学 一种基于多模态识别的自学习情感交互方法
CN113037648A (zh) * 2021-03-10 2021-06-25 首都师范大学 数据传输方法及装置
CN113568422A (zh) * 2021-07-02 2021-10-29 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN114084129A (zh) * 2021-10-13 2022-02-25 武汉光庭信息技术股份有限公司 一种基于融合的车辆自动驾驶控制方法及系统
CN114140802A (zh) * 2022-01-29 2022-03-04 北京易真学思教育科技有限公司 一种文本识别方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
US20190332110A1 (en) * 2018-04-27 2019-10-31 Honda Motor Co., Ltd. Reinforcement learning on autonomous vehicles
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190332110A1 (en) * 2018-04-27 2019-10-31 Honda Motor Co., Ltd. Reinforcement learning on autonomous vehicles
US20200033868A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRAVEEN PALANISAMY: "Multi-Agent Connected Autonomous Driving using Deep Reinforcement Learning", 《ARXIV:1911.04175V1》 *
夏伟等: "基于深度强化学习的自动驾驶策略学习方法", 《集成技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085101A (zh) * 2020-09-10 2020-12-15 湖南大学 一种高性能高可靠的环境融合感知方法及系统
CN112083806A (zh) * 2020-09-16 2020-12-15 华南理工大学 一种基于多模态识别的自学习情感交互方法
CN113037648A (zh) * 2021-03-10 2021-06-25 首都师范大学 数据传输方法及装置
CN113037648B (zh) * 2021-03-10 2022-07-12 首都师范大学 数据传输方法及装置
CN113568422A (zh) * 2021-07-02 2021-10-29 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113568422B (zh) * 2021-07-02 2024-01-23 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN114084129A (zh) * 2021-10-13 2022-02-25 武汉光庭信息技术股份有限公司 一种基于融合的车辆自动驾驶控制方法及系统
CN114140802A (zh) * 2022-01-29 2022-03-04 北京易真学思教育科技有限公司 一种文本识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111401458A (zh) 一种基于深度强化学习的多模型目标状态预测方法及系统
CN106950956B (zh) 融合运动学模型和行为认知模型的行车轨迹预测系统
CN111338346B (zh) 一种自动驾驶控制方法、装置、车辆及存储介质
Zhang et al. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning
CN111971574B (zh) 用于自动驾驶车辆的lidar定位的基于深度学习的特征提取
Hoermann et al. Probabilistic long-term prediction for autonomous vehicles
CN109109863B (zh) 智能设备及其控制方法、装置
WO2018072395A1 (zh) 基于前向车辆驾驶行为的智能车辆安全环境包络重构方法
Jeong et al. Bidirectional long shot-term memory-based interactive motion prediction of cut-in vehicles in urban environments
US11472444B2 (en) Method and system for dynamically updating an environmental representation of an autonomous agent
CN109727490A (zh) 一种基于行车预测场的周边车辆行为自适应矫正预测方法
CN115848398B (zh) 一种基于学习及考虑驾驶员行为特征的车道偏离预警系统评估方法
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
Jiao et al. End-to-end uncertainty-based mitigation of adversarial attacks to automated lane centering
CN116595871A (zh) 基于动态时空交互图的车辆轨迹预测建模方法与装置
Liu et al. A deep learning-based approach to line crossing prediction for lane change maneuver of adjacent target vehicles
Yoon et al. Design of longitudinal control for autonomous vehicles based on interactive intention inference of surrounding vehicle behavior using long short-term memory
CN111443701A (zh) 基于异构深度学习的无人驾驶车辆/机器人行为规划方法
CN111323069B (zh) 一种基于深度强化学习的多传感器在线标定方法及系统
Lakshmanan et al. Survey on Autonomous Vehicles using Artificial Intelligence
Wang et al. Research on visual perception technology of autonomous driving based on improved convolutional neural network
Kress et al. Start intention detection of cyclists using an LSTM network
CN115900725B (zh) 路径规划装置、电子设备、存储介质和相关方法
Zhang et al. Vehicle Acceleration Prediction Based on Nonlinear Auto Regressive Models with Exogenous Inputs
CN117519215B (zh) 多agv车行驶控制方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200710