CN113382908A - 用于获取车辆动作预测的系统及相应方法 - Google Patents
用于获取车辆动作预测的系统及相应方法 Download PDFInfo
- Publication number
- CN113382908A CN113382908A CN202080011839.9A CN202080011839A CN113382908A CN 113382908 A CN113382908 A CN 113382908A CN 202080011839 A CN202080011839 A CN 202080011839A CN 113382908 A CN113382908 A CN 113382908A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- neural network
- time step
- recurrent neural
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 27
- 230000000306 recurrent effect Effects 0.000 claims abstract description 25
- 230000009471 action Effects 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000004205 output neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011514 reflex Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0097—Predicting future conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2556/00—Input parameters relating to data
- B60W2556/45—External transmission of data to or from the vehicle
- B60W2556/50—External transmission of data to or from the vehicle of positioning data, e.g. GPS [Global Positioning System] data
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2710/00—Output or target parameters relating to a particular sub-units
- B60W2710/20—Steering systems
- B60W2710/207—Steering angle of wheels
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2720/00—Output or target parameters relating to overall vehicle dynamics
- B60W2720/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2720/00—Output or target parameters relating to overall vehicle dynamics
- B60W2720/12—Lateral speed
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Transportation (AREA)
- Human Computer Interaction (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Steering Control In Accordance With Driving Conditions (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Traffic Control Systems (AREA)
Abstract
一种用于获取车辆(V)的动作(at)的预测的系统(10;20),包括:摄像机,其用于获取所述车辆(V)看到的所述场景动态的图像序列(Ft),特别是在所述车辆(V)前方的场景动态的图像序列(Ft);卷积神经网络视觉编码器(50),其配置为获取车辆(V)在每个时间步(t)所看到的场景动态的图像序列(Ft)中的每个所获取图像(Ft)的对应视觉特征向量(vt);一个或多个传感器(40),其配置为获取在所述相同时间步(st)的车辆位置(st);递归神经网络(65;70),特别是LSTM网络,其配置为接收在所述时间步(t)的所述视觉特征向量(vt)和车辆位置(st),并且生成车辆(V)的动作(at)的预测;所述系统(20)配置为接收表示车辆(V)的操纵的控制指令集(C)作为输入;所述递归神经网络(70)包括多个递归神经网络分支(701、702、703、704),每一递归神经网络分支对应于所述控制指令集(C)中的一个控制指令(ci);所述系统(20)包括指令调节开关(60),其配置在接收到控制指令(ci)时选择所述递归神经网络(70)中的对应分支(701、702、703、704);所述系统(20)然后配置为操作所述选择的对应分支(701、702、703、704)以处理在所述时间步(t)的所述视觉特征向量(vt)和车辆位置(st)以获取车辆(V)的动作(at)的所述预测。
Description
技术领域
本说明书涉及用于获取车辆动作预测的技术,特别是用于获取公路车辆动作预测的技术,包括:
摄像机,其用于获取车辆看到的场景动态的图像序列,特别是用于在车辆前方的场景动态的图像序列,
卷积神经网络视觉编码器,其配置为获取所述车辆在每个时间步(time step)所看到的场景动态的所述图像序列中的每个所获取图像的对应视觉特征向量,
一个或多个传感器,其配置为获取在相同时间步的车辆位置(st),
递归神经网络,特别是LSTM网络,其配置为接收在所述时间步的所述视觉特征向量和车辆位置并生成车辆动作预测。
背景技术
大多数基于深度学习的自动驾驶方法可以分类为两大范式:中介感知方法和行为反射(或,端到端)方法。前者由不同的、有区别的识别组件组成,如行人探测器、道路分割算法、交通信号灯/标志探测器等。然后,将相应的检测结果组合成中间整体场景表示,即(通常是基于规则的)决策者系统的知识输入,以便计划车辆接下来的动作。
另一方面,行为反射方法是一种新兴的范式,包括训练深度网络,以便将未加工数据传感器直接映射到车辆的动作决策中。将未加工数据传感器(例如图像)作为输入并输出车辆动作的网络也被表示为端到端可训练的。现代的行为反射方法使用卷积神经网络(CNNs)从通过车辆的车载摄像机捕捉的帧中提取视觉信息,例如使用为回归任务训练的简单CNN:输出神经元预测转向角。这种“仅限CNN”架构的一个问题是,每个决策仅取决于当前的帧。没有关于观察到的场景动态的“记忆”,因为之前的帧根本没有被表示出来。
例如,从2017年的CVPR中的第3530-3538页的公布的Huazhe Xu,Yang Gao,FisherYu和Trevor Darrell的“End-to-end learning of driving models from large-scalevideo datasets(从大型视频数据集进行驾驶模型的端到端学习)”中可以知晓,将动态表现引入到了使用LSTM(Long Short Term Memory,长短期记忆)网络的网络中。
具体地,如图1所示,系统10确实实质上是神经网络,由两个主要子网络组成,扩张型全卷积神经网络视觉编码器(简称为FCN)50,表示从独立于其他帧的每个帧提取的(静态)视觉信息。给定在时间步t输入的帧Ft,FCN 50使用特征向量vt表示帧Ft。具体来说,特征向量vt对应于FCN 50最后一层的神经元激活向量。然后,特征向量vt与当前车辆位置st(使用二维向量表示)串接并输入到LSTM网络65。该第二个子网络考虑其先前的隐藏状态值而预测最可能的动作at。
可以用回归任务和均方误差损失来制定连续预测。然而,通过不同的工作可以广泛观察到的是,这种损失表现很差,例如,当目标分布是多模态时。因此,回归问题在这样的方案中被描述成为使用表示目标值范围的离散箱的分类任务。更详细地,转向角αt([-90,90]度)的值的可能范围被离散化到N=181个箱中。类似地,车速mt的值得可能范围被离散化到N=181个箱中。因此,网络的输出神经元的数量为2N=362,每个神经元对应于“箱-类”,而且所采用的损失函数(见以下等式1和2)是预测类值和真实类值之间的标准交叉熵。等式1表示转向角度损失H(pα,qα),qα(x)是网络预测,且pα(x)是训练地面实况。类似地,等式2指速度损失H(pm,qm)。
H(pα,qα)=-Σpα(Ft,st)log qα(Ft,st) (1)
H(pm,qm)=-Σpm(Ft,st)log qm(Ft,st) (2)
最终损失是两个交叉熵损失的等权重的总和。
这种方案,除了较差的损失外,仅仅只基于传感器,从而缺乏对网络行为的高级控制。
发明内容
一个或多个实施例的目的是克服可从现有技术实现的方案中固有的限制。
根据一个或多个实施例,该目的通过具有权利要求1中所述的特征的方法而实现。一个或多个实施例可能涉及相应的系统。
权利要求构成本文中所提供的与各实施例相关的技术教导的组成部分。
根据本文中所描述的方案,系统配置为接收表示车辆操纵的控制指令集作为输入,
递归神经网络包括多个递归神经网络分支,每个递归神经网络分支对应于所述控制指令集中的一个控制指令,
所述系统包括指令调节开关,所述指令调节开关配置为在接收到控制指令时选择所述递归神经网络的对应分支,
然后,所述系统配置为操作所述选择的相应分支,以处理在所述时间步的所述视觉特征向量和所述车辆位置,以获得对车辆动作的所述预测。
本文描述的方案还指向用于预测车辆动作的相应方法。
附图说明
现将参考附图并仅通过非限制性示例的方式描述实施例,其中:
图1已在前文中被讨论。
图2示出了本文描述的方案的应用环境。
图3表示本文所描述的系统的方框示意图。
图4更详细地表示了图4中的系统。
具体实施方式
随后的描述示出了旨在深入理解实施例的各种具体细节。该些实施例可以在没有一个或多个具体细节的情况下被实施,或者该些实施例可以采用其他方法、组件、材料等实施。在其他情况下,没有详细示出或描述已知的结构、材料或操作,而实施例的各个方面也不会是不清楚的。
在本说明书的框架中,对“实施例”或“一个实施例”的引用旨在指出所描述的与该实施例相关的特定配置、结构或特征包括在至少一个实施例中。同样地,可能存在于本说明书的各个方面的诸如“在实施例中”或“在一个实施例中”之类的措词并不必然指一个实施例和相同的实施例。此外,特定的构造、结构或特征可以以适当的方式组合在一个或多个实施例中。
本文中所使用的引用文献仅仅是出于方便,而并不因此限定实施例的保护范围或范围。
简而言之,本文描述了一种获取车辆动作预测的系统和方法,其是基于深度学习的自动驾驶方法,基于“端到端”训练的网络。在本文中描述的方案对车辆在移动时观察到的场景动态和指令调节决策策略进行了联合建模,该策略考虑了高级指令,该高级指令表示,例如,乘客的目标(例如,期望的目的地)。场景动态是使用递归神经网络(特别是使用LSTM)来建模的。然而,本文描述的方案涉及一种系统和方法,该系统和方法在对场景动态建模的同时也考虑了乘客的目标,而不是具有仅仅是传感器数据函数的网络。本文描述的方案提供网络行为的高级控制,利用外部提供的“指令”作为对网络的附加输入,以调节网络行为。
举例来说,参考图2,其示意性地展示了具有街道的公路地图,假设一个乘客,例如车辆V,特别是公路车辆或陆地车辆,希望从A点到B点。导航器将产生与路径P对应的以下指令序列:在下一个交叉路口右转(如在下文中所更详细介绍的c4)、在下一个交叉路口左转(c2)、沿路行驶(c1)。现在通过传感器和指令的函数来描述网络函数,且可以从外部控制网络函数。指令(例如,左)要求网络计划短期策略,即,车辆操纵(对应于动作序列),该车辆操纵能够使车辆驾驶到下一个交叉路口,然后左转。
根据本文描述的方案,图3示出了用于获取对车辆V的动作at的预测的系统20。
扩张型全卷积神经网络视觉编码器用50表示,其接收图像帧Ft,该图像帧Ft表示在时间步t由安装在车辆V上的前置摄像机(未示出)所获取的观察到的场景动态,并在该图像帧Ft的基础上提取相应的视觉表示vt,比如前景像素和背景像素。所提及的扩张型FCN 50是例如从众所周知的AlexNet提取的CNN,如在Xu等的文章中所讨论的,AlexNet已经使用1×1卷积滤波器替换了最后的稠密层。它在ImageNet上进行预训练并随后与网络的其余部分一起进行微调。扩张型FCN 50配置为表示从独立于其他帧的每一帧Ft提取的视觉信息vt,即,静态视觉信息。更具体地说,给定在时间步t输入的帧Ft,扩张型FCN 50使用由其最后一层的神经元激活所获取的特征向量或视觉向量vt表示这样的帧Ft。
扩张型FCN 50将CNN特征向量vt输出至指令调节开关块60,指令调节开关开块60也接收车辆的当前位置st。当前车辆位置st=(xt,yt),其中xt、yt是车辆V在时间步t的坐标,并且是使用由自身运动传感器块40表示的自身运动传感器获取的。自身运动传感器是用来测量相对于任意固定参照系的车辆运动的传感器(例如,IMU传感器)。这些传感器输出的轨迹与摄像机帧同步,通过这样的方式,以在每个时间步t处获得位置。
然后,指令块60中的CNN特征vt与车辆的当前位置st串接,使用二维向量(xt,yt)表示成联合表示(st,vt)。LSTM网络70包括多个LSTM分支,例如4个LSTM分支701、702、703、704。指令块60在接收到控制指令ct时配置为切换到多个LSTM分支701、702、703、704中的与该控制指令ct对应的一个LSTM分支。
具体而言,控制指令ct充当分支701、702、703、704之间的开关。在“向前传递”期间,根据输入指令ct,仅激活该些分支中的一者。因此,当处理联合表示(st,vt)时,仅涉及与分支701、702、703、704的当前值对应的子策略。优选地,联合表示(st,vt)被输入到每个LSTM分支,但是只有被选择的分支处理该输入。
控制指令ct源于指令ci的预定义集合C,i索引从1到|C|,例如,预定义集合C可以是C={c1,c2,c3,c4},其中c1,、c2、c3、c4在本文的示例中分别显示为:继续(continue)、左行(left)、直行(straight)、右行(right)。这些控制指令ct可以源于,例如车辆V的导航器。
系统20输出(即,学习)映射函数f(Ft,st,ct)→at,其中,at是在时间步t预测的车辆动作,即,作为获取的图像Ft(具体是由相应的CNN特征vt表示)、车辆的当前位置st和指令ct的函数的预测车辆动作的映射。
由于使用了连续输出,预测的车辆动作at被定义为一对转向角和速度大小:at=(αt,mt),其中αt是以弧度表示的转向角,mt是车速值。
需要强调的是,控制指令被用作对系统20或网络的输入以选择短期策略,而动作是系统10的瞬时输出,即构成这样的短期策略。
每个LSTM分支70i考虑到其先前的隐藏状态值ht-1而预测最有可能的动作at,动作at表示视觉动态。重要的是要注意,尽管图3示出了一个单一的隐藏状态ht-1,实际上,每个分支中的每个LSTM都计算它自己的隐藏状态ht-1。
在图中,它以更详细的方式显示了系统20的一部分。
每个输入帧Ft被调整为360×640像素的分辨率,并用三个RGB通道表示。FCN 50包括第一卷积层CV1(96 11×11滤波器),然后是具有3×3滤波器的MaxPool层MP,步幅(stride)为1的具有5x5滤波器的第二卷积层CV2(27x27x256),步幅为1、填充(pad)为1的具有384 3x3滤波器的第三卷积层,步幅为1、填充为1的具有384 3x3滤波器的第四卷积层CV4[13x13x256],步幅为1、填充为1的具有256 3x3滤波器的第五卷积层CV5,然后是具有40961x1滤波器的第六卷积层CV6和具有4096 1x1滤波器的第七卷积层CV7。每个LSTM分支70i均包括两个堆叠的LSTM层,其分别包括64个神经元。在每个分支中的最终输出层71由362个神经元组成,特别是FC Softmax层64x362。在第六卷积层CV6和第七卷积层CV7之后,具有等于0.5的丢弃系数的丢弃层可用于正则化。
因此,简而言之,用于获取车辆(即,公路车辆或陆地车辆)V的动作at的预测的系统20,如刚才所描述的,包括:用于获取车辆V所看到的场景动态的图像序列Ft的摄像机,特别是在车辆V前方的摄像机,即,其获取车辆V前方的场景动态的图像;卷积神经网络视觉编码器50,优选扩张型FCN,配置为获取车辆V在每个时间步t所看到的场景动态的所述图像序列Ft中的在不同时间t的每个所获取图像Ft的对应视觉特征向量vt,例如根据诸如前景、背景和其他的类别表示图像的像素的分类;一个或多个传感器40,例如,通过利用摄像机获得的图像帧所获取的自身运动传感器,其配置为在相同的时间步获取车辆的位置st;递归神经网络70,特别是LSTM网络70,其配置为接收所述在所述时间步t的所述视觉特征向量vt和车辆位置st并考虑先前的隐藏状态ht-1而生成车辆(V)的动作at的预测;其中,该系统20配置为接收控制指令集C作为输入,控制指令集C表示车辆V的操纵,特别是与动作序列相对应,递归神经网络70包括多个递归神经网络分支701、702、703、704,每一递归神经网络分支对应于所述控制指令集C中的一个控制指令ci,该系统20包括指令调节开关60,指令调节开关60在接收到控制指令ci时配置为选择所述递归神经网络70中的对应分支701、702、703、704,该系统20然后配置为操作由开关60所选择的所述选择的对应分支701、702、703、704,以通过处理输入(即,在所述时间步t的所述视觉特征向量vt和车辆位置st)而获取车辆V的动作at(特别是作为在相同给定时间步t的获取的图像Ft,车辆位置st和控制指令ct的映射)的预测。如所指出的,优选地,系统20将在所述时间步t的所述视觉特征向量vt以及车辆位置st提供到每个对应分支701、702、703、704,然后只由选择的分支处理输入,这表明了相比将视觉特征向量vt以及车辆的位置st输入只应用到所选择的分支更简单的实现方式。
优选地,所描述的系统20包括在自动驾驶系统中,例如提供由车辆待执行的动作的预测以沿着某一特定路径P行驶。
为了更好地理解本文中图3和图4的系统20的性能,这里简要讨论与该系统20相关的损失函数。
在下方等式3中,其示出了系统20的损失函数Loss(Ft,st,ct)。
第一项是转向角α的交叉熵损失的和,第二项是速度m在指令nimne|C|上的交叉熵损失的和。所指出的是预测qα,qm的函数且pα,pm是训练地面实况。分支的数量对应于指令(|C|)的数量,因而对应于每项中的损失分量的数量。每个分支70i负责从对应于指令ci的示例中学习。因此,用于与地面-实况指令ct相关联的样本的一个反向传播传递应该有助于反向传播仅在分支70i中的误差,其中ct=ci。在等式3中,这由指示函数1(ci,ct)表示,当且仅当ct=ci时,指示函数1(ci,ct)等于1。出于效率的原因,控制指令ci被编码为独热向量(one-hot vector)。
因此,刚才公开的方法和系统的优点是显而易见的。
所描述的方法和系统允许通过使用指令调节网络来预测改进LSTM操作的动作。
使用FCN和LMTS的已知方案是自反系统,其中LMTS提供转向角或其他参数作为对FCN编码器的输出的反应。使用指令调节网络所描述的方法和系统(其中每个LMTS针对特定的车辆操纵进行训练)能够通过考虑乘客的最终目的地(其被表示为作为网络的输入的指令序列,后者由车辆导航器提供)进行操作。
此外,本文所描述的方案是将来自图像序列的动态输入而不是静态输入应用到LSTM分支的指令调节网络中。
当然,在不损害实施例的原理的情况下,结构和实施例的细节可以在不因此而偏离如随后的权利要求中所限定的本申请实施例的保护范围的情况下,相对于本文中仅仅通过示例的方式已经描述和示出的内容,进行广泛的变化。
当然,系统的神经网络,即本文所描述的,可以由一个或多个处理器或微处理器或任何处理系统实现,特别是由布置在车辆中的能够支持该神经网络的任何处理系统来实现。
Claims (11)
1.一种用于获取车辆(V)的动作(at)的预测的系统(10;20),包括:
摄像机,其用于获取所述车辆(V)看到的所述场景动态的图像序列(Ft),特别是在所述车辆(V)前方的场景动态的图像序列(Ft),
卷积神经网络视觉编码器(50),其配置为获取所述车辆(V)在每个时间步(t)看到的场景动态的所述图像序列(Ft)中的每个所获取图像(Ft)的对应视觉特征向量(vt),
一个或多个传感器(40),其配置为获取在相同时间步(st)的车辆位置(st),
递归神经网络(65;70),特别是LSTM网络,其配置为接收在所述时间步(t)的所述视觉特征向量(vt)和所述车辆位置(st),并且考虑所述先前的隐藏状态(ht-1)而生成车辆(V)的动作(at)的预测,
其特征在于:
所述系统(20)配置为接收表示车辆(V)的操纵的控制指令集(C)作为输入,
所述递归神经网络(70)包括多个递归神经网络分支(701、702、703、704),每一个递归神经网络分支对应于所述控制指令集(C)中的一个控制指令(ci),
所述系统(20)包括指令调节开关(60),所述指令调节开关(60)配置为在接收到所述控制指令(ci)时选择所述递归神经网络(70)中的对应分支(701、702、703、704),
所述系统(20)然后配置为操作所述选择的对应分支(701、702、703、704)以处理在所述时间步(t)的所述视觉特征向量(vt)和所述车辆位置(st)以获取车辆(V)的动作(at)的所述预测。
2.根据权利要求1所述的系统,其特征在于,所述递归神经网络包括LSTM网络。
3.根据权利要求1所述的系统,其特征在于,所述卷积神经网络视觉编码器(50)是扩张型全卷积神经网络视觉编码器(50)。
4.根据权利要求1所述的系统,其特征在于,所述系统(20)配置为操作所述对应分支(701、702、703、704)以获取车辆(V)的作为在相同给定时间步(t)的获取的所述图像(Ft)、车辆位置(st)和控制指令(ct)的映射的动作(at)的所述预测。
5.根据权利要求1所述的系统,其特征在于,所述操纵包括在所述车辆的导航路径中,特别是通过导航系统提供的。
6.根据权利要求1所述的系统,其特征在于,所述动作包括转向角和车速。
7.根据前述权利要求中的任一项所述的系统,其特征在于,所述系统包括在所述车辆的自动驾驶系统中。
8.一种用于预测车辆的动作(at)的方法,包括:
获取车辆(V)看到的场景动态的图像序列(Ft),特别是在所述车辆(V)前方的场景动态的图像序列(Ft),
通过将卷积神经网络视觉编码器(50),特别是扩张型全卷积神经网络视觉编码器(50),应用到对应的所获取图像(Ft)以获取在每个时间步(t)的视觉特征向量(vt),获取(40)在所述相同时间步(st)的车辆位置(st),
将在所述时间步(t)的所述视觉特征向量(vt)和所述车辆位置(st)提供至递归神经网络,特别是LSTM网络(65;70),
其特征在于,所述方法包括:
确定表示车辆(V)的操纵的控制指令集(C),
提供所述递归神经网络(70)中的多个分支(701、702、703、704),每一分支对应所述控制指令集(C)中的一个控制指令(ci),
当控制指令(ci)被发出时,选择所述递归神经网络(70)中的所述对应分支(701、702、703、704)且将在所述时间步(t)的所述视觉特征向量(vt)和所述车辆位置(st)提供至所述对应分支(701、702、703、704),
操作所述对应分支(701、702、703、704)以进行车辆的所述动作(at)的所述预测。
9.根据权利要求8所述的方法,其特征在于,所述操作所述对应分支(701、702、703、704)以获取车辆(V)的作为在相同给定时间步(t)的所获取的所述图像(Ft)、所述车辆位置(st)和控制指令(ct)的映射的动作(at)的所述预测。
10.根据权利要求8所述的方法,其特征在于,所述操纵包括在所述车辆的导航路径中。
11.根据权利要求8所述的方法,其特征在于,所述动作包括转向角和车速。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102019000002853 | 2019-02-27 | ||
IT102019000002853A IT201900002853A1 (it) | 2019-02-27 | 2019-02-27 | "Sistema per ottenere la predizione di un’azione di un veicolo e procedimento corrispondente" |
PCT/IB2020/051422 WO2020174327A1 (en) | 2019-02-27 | 2020-02-20 | System for obtaining a prediction of an action of a vehicle and corresponding method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113382908A true CN113382908A (zh) | 2021-09-10 |
Family
ID=66589808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080011839.9A Pending CN113382908A (zh) | 2019-02-27 | 2020-02-20 | 用于获取车辆动作预测的系统及相应方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11970175B2 (zh) |
EP (1) | EP3931058A1 (zh) |
JP (1) | JP2022521881A (zh) |
CN (1) | CN113382908A (zh) |
IT (1) | IT201900002853A1 (zh) |
WO (1) | WO2020174327A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220331962A1 (en) * | 2019-09-15 | 2022-10-20 | Google Llc | Determining environment-conditioned action sequences for robotic tasks |
US20200324794A1 (en) * | 2020-06-25 | 2020-10-15 | Intel Corporation | Technology to apply driving norms for automated vehicle behavior prediction |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110060703A1 (en) * | 2009-09-04 | 2011-03-10 | Alex Alaniz | Method and system for detecting correlation in data sets |
US20170129538A1 (en) * | 2015-11-06 | 2017-05-11 | Ford Global Technologies, Llc | Method and device for assisting a maneuvering process of a motor vehicle |
US9760806B1 (en) * | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
US20190012574A1 (en) * | 2017-07-05 | 2019-01-10 | Perceptive Automata | System and method of predicting human interaction with vehicles |
US20190049267A1 (en) * | 2018-03-28 | 2019-02-14 | Intel Corporation | Safety enhanced computer assisted driving method and apparatus |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10322829A1 (de) * | 2003-05-19 | 2004-12-09 | Daimlerchrysler Ag | Steuerungssystem für ein Fahrzeug |
WO2010096783A1 (en) * | 2009-02-20 | 2010-08-26 | The Trustees Of Columbia University In The City Of New York | Dynamic contingency avoidance and mitigation system |
US20160202670A1 (en) * | 2015-01-08 | 2016-07-14 | Northwestern University | System and method for sequential action control for nonlinear systems |
CN106080590B (zh) * | 2016-06-12 | 2018-04-03 | 百度在线网络技术(北京)有限公司 | 车辆控制方法和装置以及决策模型的获取方法和装置 |
JP6923362B2 (ja) | 2017-05-30 | 2021-08-18 | 株式会社Soken | 操舵角決定装置、自動運転車 |
WO2019005547A1 (en) * | 2017-06-28 | 2019-01-03 | Panasonic Intellectual Property Corporation Of America | MOBILE BODY CONTROL APPARATUS, MOBILE BODY CONTROL METHOD, AND LEARNING METHOD |
JP6729516B2 (ja) | 2017-07-27 | 2020-07-22 | トヨタ自動車株式会社 | 識別装置 |
-
2019
- 2019-02-27 IT IT102019000002853A patent/IT201900002853A1/it unknown
-
2020
- 2020-02-20 EP EP20707526.8A patent/EP3931058A1/en active Pending
- 2020-02-20 WO PCT/IB2020/051422 patent/WO2020174327A1/en unknown
- 2020-02-20 US US17/433,191 patent/US11970175B2/en active Active
- 2020-02-20 CN CN202080011839.9A patent/CN113382908A/zh active Pending
- 2020-02-20 JP JP2021538257A patent/JP2022521881A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110060703A1 (en) * | 2009-09-04 | 2011-03-10 | Alex Alaniz | Method and system for detecting correlation in data sets |
US20170129538A1 (en) * | 2015-11-06 | 2017-05-11 | Ford Global Technologies, Llc | Method and device for assisting a maneuvering process of a motor vehicle |
US9760806B1 (en) * | 2016-05-11 | 2017-09-12 | TCL Research America Inc. | Method and system for vision-centric deep-learning-based road situation analysis |
US20190012574A1 (en) * | 2017-07-05 | 2019-01-10 | Perceptive Automata | System and method of predicting human interaction with vehicles |
US20190049267A1 (en) * | 2018-03-28 | 2019-02-14 | Intel Corporation | Safety enhanced computer assisted driving method and apparatus |
Non-Patent Citations (1)
Title |
---|
LU CHI等, ARXIV:1708.03798V1[CS.CV], vol. 1708, 12 August 2017 (2017-08-12), pages 1 - 12 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220126844A1 (en) | 2022-04-28 |
EP3931058A1 (en) | 2022-01-05 |
JP2022521881A (ja) | 2022-04-13 |
WO2020174327A1 (en) | 2020-09-03 |
US11970175B2 (en) | 2024-04-30 |
IT201900002853A1 (it) | 2020-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12051001B2 (en) | Multi-task multi-sensor fusion for three-dimensional object detection | |
Xiao et al. | Multimodal end-to-end autonomous driving | |
CN110588653B (zh) | 自主车辆的控制系统、控制方法以及控制器 | |
US11501525B2 (en) | Systems and methods for panoptic image segmentation | |
JP7480302B2 (ja) | 交通弱者の意図を予測する方法および装置 | |
CN113382908A (zh) | 用于获取车辆动作预测的系统及相应方法 | |
CN113348422A (zh) | 用于生成预测占据栅格地图的方法和系统 | |
Wang et al. | End-to-end self-driving using deep neural networks with multi-auxiliary tasks | |
US20230078599A1 (en) | System and Method for Neural Network-Based Autonomous Driving | |
US11636348B1 (en) | Adaptive training of neural network models at model deployment destinations | |
CN111665836A (zh) | 车辆的自适应传感器系统及其操作方法 | |
US11900257B2 (en) | Method for representing an environment of a mobile platform | |
US20230048926A1 (en) | Methods and Systems for Predicting Properties of a Plurality of Objects in a Vicinity of a Vehicle | |
WO2019115253A1 (en) | Road marking determining apparatus for automated driving | |
US20230029993A1 (en) | Systems and methods for behavior cloning with structured world models | |
WO2020250527A1 (ja) | 外部環境認識装置 | |
US20220053124A1 (en) | System and method for processing information from a rotatable camera | |
Souza et al. | Vision and GPS-based autonomous vehicle navigation using templates and artificial neural networks | |
Kress et al. | Start intention detection of cyclists using an LSTM network | |
Munger et al. | How many features is an image worth? multi-channel cnn for steering angle prediction in autonomous vehicles | |
López Campos et al. | Following and overtaking: a policy for autonomous car driving | |
US20230410469A1 (en) | Systems and methods for image classification using a neural network combined with a correlation structure | |
Reddy | Artificial Superintelligence: Machine Consciousness Implementation Based On Computational Theory. | |
Reddy | Artificial Superintelligence: AI Creates Another AI Using A Minion Approach | |
Samal et al. | Machine Learning Components for Autonomous Navigation Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |