CN111414852A - 图像预测及车辆行为规划方法、装置和系统及存储介质 - Google Patents

图像预测及车辆行为规划方法、装置和系统及存储介质 Download PDF

Info

Publication number
CN111414852A
CN111414852A CN202010196263.XA CN202010196263A CN111414852A CN 111414852 A CN111414852 A CN 111414852A CN 202010196263 A CN202010196263 A CN 202010196263A CN 111414852 A CN111414852 A CN 111414852A
Authority
CN
China
Prior art keywords
feature
image
network
prediction
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010196263.XA
Other languages
English (en)
Inventor
于立冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uisee Technology Zhejiang Co Ltd
Original Assignee
Yushi Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yushi Technology Nanjing Co ltd filed Critical Yushi Technology Nanjing Co ltd
Priority to CN202010196263.XA priority Critical patent/CN111414852A/zh
Publication of CN111414852A publication Critical patent/CN111414852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种图像预测方法、装置和系统及车辆行为规划方法、装置和系统及存储介质。图像预测方法包括:获取目标车辆在当前时刻T1采集的当前图像I10;通过第一编码器EN0提取当前图像I10的特征F10;对于第T1+i*Δt时刻,在预测网络Ni中,基于特征F10至特征F1i‑1中的一个或多个来预测特征F1i,并对特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。根据本发明实施例,可以基于车辆采集的当前图像预测后续的图像,这样可以预测车辆在随后行驶过程中环境的变化情况,这些预测的图像可以应用于车辆行为规划,进而有助于提高行为规划的可解释性,有助于应对突发事件。

Description

图像预测及车辆行为规划方法、装置和系统及存储介质
技术领域
本发明涉及自动驾驶技术领域,更具体地涉及一种图像预测方法、装置和系统及车辆行为规划方法、装置和系统及存储介质。
背景技术
在自动驾驶领域,现有技术主要依赖于当前状态下的感知信息来完成对车辆行为的规划,这样存在两个问题,一是无法应对突发事件,二是使用这种方案决策的行为不具备可解释性。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种图像预测方法、装置和系统及车辆行为规划方法、装置和系统及存储介质。
本发明一方面,提供了一种图像预测方法。图像预测方法包括:获取目标车辆在当前时刻T1采集的当前图像I10;通过第一编码器EN0提取当前图像I10的特征F10;对于第T1+i*Δt时刻,在预测网络Ni中,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
本发明的另一方面,提供了车辆行为规划方法,包括:获取上述图像预测方法中涉及的当前图像I10以及预测图像I11',I12'……I1m';基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1';基于i=2,3……m,通过第二编码器EN0'提取预测图像I1i-1'的特征F1i-1';基于i=1,2……m,将特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1;采用变换矩阵M1i-1对特征F1i-1'进行矩阵变换,以获得变换特征F1i”;通过第二解码器DE0'对特征F1i”进行重建,以获得重建图像I1i”;通过预测图像I1i'和重建图像I1i”计算第一图像损失函数,并基于第一图像损失函数对变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1;基于变换卷积网络CTi-1输出的变换矩阵M1i-1确定目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
本发明的另一方面,提供了一种图像预测装置,包括:获取模块,用于获取目标车辆在当前时刻T1采集的当前图像I10;提取模块,用于通过第一编码器EN0提取当前图像I10的特征F10;预测模块,用于对于第T1+i*Δt时刻,在预测网络Ni中,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
本发明的另一方面,提供了一种车辆行为规划装置,包括:获取模块,用于获取上述图像预测方法中涉及的当前图像I10以及预测图像I11',I12'……I1m';第一提取模块,用于基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1';第二提取模块,用于基于i=2,3……m,通过第二编码器EN0'提取预测图像I1i-1'的特征F1i-1';输入模块,用于基于i=1,2……m,将特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1;变换模块,用于基于i=1,2……m,采用变换矩阵M1i-1对特征F1i-1'进行矩阵变换,以获得变换特征F1i”;重建模块,用于基于i=1,2……m,通过第二解码器DE0'对特征F1i”进行重建,以获得重建图像I1i”;训练模块,用于基于i=1,2……m,通过预测图像I1i'和重建图像I1i”计算第一图像损失函数,并基于第一图像损失函数对变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1;确定模块,用于基于i=1,2……m,基于变换卷积网络CTi-1输出的变换矩阵M1i-1确定目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
本发明的另一方面,提供了一种图像预测系统,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述图像预测方法。
本发明的另一方面,提供了一种车辆行为规划系统,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述车辆行为规划方法。
本发明的另一方面,提供了一种存储介质,在存储介质上存储了程序指令,程序指令在运行时用于执行上述图像预测方法。
本发明的另一方面,提供了一种存储介质,在存储介质上存储了程序指令,程序指令在运行时用于执行上述车辆行为规划方法。
本发明实施例的图像预测方法、装置和系统及车辆行为规划方法、装置和系统及存储介质,可以基于车辆采集的当前图像预测后续的图像,这样可以预测车辆在随后行驶过程中环境的变化情况,这些预测的图像可以应用于车辆行为规划,进而有助于提高行为规划的可解释性,有助于应对突发事件。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出根据本发明一个实施例的图像预测方法的示意性流程图;
图2示出根据本发明一个实施例的图像预测方法所涉及的图像预测模型的示意图;
图3示出根据本发明一个实施例的预测网络的示意图;
图4示出根据本发明一个实施例的车辆行为规划方法的示意性流程图;
图5示出根据本发明一个实施例的车辆行为规划方法所涉及的行为规划模型的示意图;
图6示出根据本发明一个实施例的图像预测装置的示意性框图;
图7示出根据本发明一个实施例的车辆行为规划装置的示意性框图;
图8示出根据本发明一个实施例的图像预测系统的示意性框图;以及
图9示出根据本发明一个实施例的车辆行为规划系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
为了解决上述问题,本发明提出了一种图像预测方法及车辆行为规划方法。根据本发明实施例,可以根据车辆当前感知到的环境信息(即当前图像)预测未来的环境信息(即预测图像),预测出的信息可以用于产生对车辆当前状态的控制信号,例如期望加速度和期望转角。这种行为规划方式是基于预测的规划方式。
基于预测的行为规划,由于可以在事件发生前通过预测的方式得到事件发生的信息,并利用预测信息来指导行为规划,因此可以在突发事件发生前就提前做出反应。此外,通过对未来的预测,可以获知当前行为会产生什么结果,或是基于什么期望而做出的行为,因此,本方案可以提高规划系统的可解释性,这是自动驾驶系统能否安全落地的重要标准。需注意,本发明实施例提供的图像预测方法可以应用于多种需要预测车辆未来状态的场景,包括但不限于上述行为规划。例如,图像预测方法还可以应用于轨迹规划、车辆跟踪等。
车辆的行驶状态可以通过该车辆的车载摄像头所采集的图像来反映,该图像可以包含车辆周围环境的信息,例如其他车辆、行人、道路、建筑物等信息。
在车辆行驶过程中,可以基于实时采集的图像预测之后一定时段内的图像。如果最终需要预测的时段较长,直接预测可能有较大误差,此时可以选择将该时段划分为若干小的时段,通过递进式的预测方式来逐段预测,直至预测最终时刻的图像。例如,假设最终需要预测2秒后的图像,则可以将2秒划分为10份,每次预测0.2秒后的未来图像,下一次的图像预测可以基于先前预测的信息来实现。这样,可以有效提高图像预测的精度。基于这样的预测逻辑,提出本文所述的图像预测方法100。
图1示出根据本发明一个实施例的图像预测方法100的示意性流程图。如图1所示,图像预测方法100包括步骤S110-S130。
在步骤S110,获取目标车辆在当前时刻T1采集的当前图像I10
图像预测方法100可以运行于任一车辆(称为目标车辆)的控制装置中,该车辆可以装载有车载摄像头,车载摄像头可以实时采集车辆周围的图像。
假设当前时刻用T1表示,车载摄像头在T1时刻采集一次图像,获得当前图像I10
在步骤S120,通过第一编码器EN0提取当前图像I10的特征F10。可选地,还可以通过第一解码器DE0对所述特征F10进行重建,以获得重建图像I10'。
图像预测方法100所涉及的算法模型(本文称为图像预测模型)可以在训练阶段进行训练,并随后在应用阶段利用训练好的图像预测模型进行实际预测。图像预测模型可以包括第一编码器EN0和第一解码器DE0以及预测网络N1,N2……Nm。在训练阶段,可以将第一编码器EN0和第一解码器DE0作为一个整体进行训练。而在应用阶段可以使用训练好的第一编码器提取当前图像I10的特征F10
第一编码器EN0和第一解码器DE0均可以采用任何合适的网络结构实现,例如采用卷积网络结构实现。例如,第一编码器EN0和第一解码器DE0可以各自包括一个或多个卷积层。此外,示例性地,第一编码器EN0还可以包括下采样层,第一解码器DE0还可以包括上采样层。在一个示例中,第一编码器EN0和第一解码器DE0可以采用自编码器(Auto-encoder,AE)或变分自编码器(Variational Auto-encoder,VAE)等实现。
第一编码器EN0和第一解码器DE0可以组成重建网络,第一编码器EN0用于对输入的图像进行特征提取,第一解码器DE0用于对第一编码器提取的特征进行重建,以还原成图像。本文描述的特征可以是网络结构输出的特征图(feature map)。
图2示出根据本发明一个实施例的图像预测方法100所涉及的图像预测模型的示意图。参见图2,示出第一编码器EN0和第一解码器DE0。可以将当前图像I10输入第一编码器EN0,以由第一编码器EN0提取特征F10。可选地,可以将第一编码器EN0输出的特征F10输入第一解码器DE0。第一解码器DE0可以对特征F10进行重建,以获得重建图像I10'。第一解码器DE0输出的重建图像I10'与原图像I10大小一致,相当于基于特征F10还原出原图像。
在步骤S130,对于第T1+i*Δt时刻,在预测网络Ni中,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
可以将特征F10至特征F1i-1中的一个或多个输入预测网络Ni,以获得预测网络Ni输出的预测图像I1i'。参见图2,示出预测网络Ni,并示出各预测网络Ni输出的预测图像I1i'。
针对当前时刻T1之后每经过预设时段Δt的时刻,可以预测该时刻的图像。Δt可以是任何合适的大小,本发明不对此进行限制。例如,Δt可以是0.2秒。
针对当前时刻T1之后的第1个Δt时刻(例如T1之后第0.2秒),可以通过预测网络N1基于特征F10预测该时刻下的特征F11,并基于特征F11预测该时刻下的图像I11';
针对当前时刻T1之后的第2个Δt时刻(例如T1之后第0.4秒),可以通过预测网络N2基于特征F10和/或F11预测该时刻下的特征F12,并基于特征F12预测该时刻下的图像I12';
针对当前时刻T1之后的第3个Δt时刻(例如T1之后第0.6秒),可以通过预测网络N3基于特征F10、F11和F12中的一个或多个预测该时刻下的特征F13,并基于特征F13预测该时刻下的图像I13';
……
针对当前时刻T1之后的第m个Δt时刻(例如T1之后第2秒),可以通过预测网络Nm基于特征F10、F11、F12……F1m-1中的一个或多个预测该时刻下的特征F1m,并基于特征F1m预测该时刻下的图像I1m'。
基于先前时刻的特征预测后续时刻的特征时,可以根据需要选择合适数目的特征来预测。虽然图2示出各预测网络Ni接收特征F10和特征F1i-1(N1仅接收特征F10)作为输入,但是各预测网络Ni接收的特征可以有其他组合。
在一个示例中,可以在预测每个时刻T1+i*Δt时,均仅基于单个特征预测该时刻下的特征F1i。例如,无论i取值多少,均仅基于特征F1i-1预测特征F1i
在另一个示例中,可以在预测每个时刻T1+i*Δt时,基于多个特征预测该时刻下的特征F1i。例如,基于i=1,基于特征F10预测特征F1i(即F11);基于i≥2,基于最早的特征F10以及距离最近的特征F1i-1来预测特征F1i。可选地,除特征F10、特征F1i-1以外,可以加入一些中间时刻下的特征来预测F1i。例如,基于i=1,基于特征F10预测特征F1i(即F11);基于i=2,基于特征F10以及特征F1i-1(即F11)来预测特征F1i(即F12);基于i≥3,基于特征F10、特征F1i-2、特征F1i-1来预测特征F1i。可选地,还可以无论i取值多少,均基于特征F10至特征F1i-1中的所有特征预测特征F1i
示例性地,每个预测网络Ni可以包括解码器DEi,在预测网络Ni中,预测获得特征F1i之后可以将该特征F1i输入后续的解码器DEi进行重建,以获得预测图像I1i'。可选地,解码器DEi可以与上述第一解码器DE0共享参数(即二者的参数相同),当然,二者的参数也可以各自独立设置。
根据本发明实施例的图像预测方法,可以基于车辆采集的当前图像预测后续的图像,这样可以预测车辆在随后行驶过程中环境的变化情况,这些预测的图像可以应用于车辆行为规划,进而有助于提高行为规划的可解释性,有助于应对突发事件。
根据本发明实施例,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i可以包括:对于特征F10至特征F1i-1中的每个参与预测的特征F1j,基于特征F1j计算注意力遮罩S1ij;对特征F1j与注意力遮罩S1ij进行矩阵内积计算,以获得注意力特征FS1ij;将注意力特征FS1ij输入全连接层或卷积层进行特征加权求和,以获得加权特征FA1ij;将在预测网络Ni中获得的所有加权特征进行融合,以获得特征F1i;其中,j∈{0,1……i-1}。
注意力遮罩(mask)可以反映在当前状态下车辆或驾驶员(agent)注视的位置,即其未来期望处于的位置和状态。因此,可以通过注意力遮罩预测车辆未来的位置和状态。
示例性地,注意力遮罩可以通过卷积神经网络(CNN)来获得。例如,基于特征F1j计算注意力遮罩S1ij可以包括:将特征F1j输入预测网络Ni中的遮罩卷积网络CSij中进行卷积,以获得注意力遮罩S1ij,其中,注意力遮罩S1ij与特征F1j的高和宽一致并且通道数为1,注意力遮罩S1ij中的每个元素代表车辆将要驶向的位置的响应值。示例性地,注意力遮罩S1ij中的每个元素的取值可以是在[0,1]范围内的任一数值,该数值是概率值,数值越大可以表示是车辆将要驶向的位置的概率越大。
例如,原始的特征F1j是包含1024个通道的特征图,经过遮罩卷积网络CSij的卷积之后,可以将1024个通道压缩为1个通道,同时特征图的高和宽不变,进而获得注意力遮罩S1ij
图3示出根据本发明一个实施例的预测网络的示意图。参考图3,示出预测网络N1和N2。预测网络N1可以包括遮罩卷积网络CS10,将特征F10输入遮罩卷积网络CS10可以获得该网络输出的注意力遮罩S110。预测网络N2可以包括遮罩卷积网络CS20和CS21,将特征F10和F11分别输入遮罩卷积网络CS20和CS21可以获得这些网络分别输出的注意力遮罩S120和S121。在任一预测网络Ni中,参与预测的每个特征各自输入其对应的遮罩卷积网络中计算对应的注意力遮罩,可以参考图3及相关描述理解具体实现方式,本文不一一列举。
获得注意力遮罩S1ij之后,可以将特征F1j与注意力遮罩S1ij进行矩阵内积计算,从而将所注视视角下的特征部分分割出来,获得注意力特征FS1ij。参考图3,在预测网络N1中,基于特征F10与注意力遮罩S110计算获得注意力特征FS110,在预测网络N2中,基于特征F10与注意力遮罩S120计算获得注意力特征FS120,并基于特征F11与注意力遮罩S121计算获得注意力特征FS121
预测网络Ni可以包括全连接层FCij或卷积层Cij。可以将注意力特征FS1ij输入全连接层FCij或卷积层Cij进行特征加权求和。图3所示示例为全连接层,本领域技术人员可以理解采用卷积层替换全连接层(该卷积层实现与所替换的全连接层相同的功能)的实现方式,本文不做赘述。此外,虽然图3未示出,但是本领域技术人员可以理解,在输入全连接层FCij或卷积层Cij之前,可以对注意力特征FS1ij进行形式的转换,可以将其拉伸为一维向量,例如表达形式为(C*H*W,1,1)。此外,在输出全连接层FCij或卷积层Cij之后,可以对获得的加权特征FA1ij进行形式的转换,将其还原(reshape)成与原特征F1j一样的大小。
参见图3,在预测网络N1中,将注意力特征FS110输入全连接层FC10,获得加权特征FA110。在预测网络N2中,将注意力特征FS120输入全连接层FC20,获得加权特征FA120,并将注意力特征FS121输入全连接层FC21,获得加权特征FA121
随后,可以针对各个预测网络Ni,将该预测网络Ni中的所有加权特征进行融合。在加权特征的数目为多个的情况下,所述融合可以是特征拼接或者是将特征对应元素进行相加。融合后的特征为所需预测的特征F1i。在预测网络N1中,仅获得一个加权特征FA110,因此,该特征的融合结果还是自己,即加权特征FA110也就是所需预测的特征F11
根据上述实施例,可以通过注意力遮罩的方式提取出在先前时刻所注意的特征部分,进而预测车辆下一时刻将要驶向的位置。
根据本发明实施例,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i可以包括:基于i=1,基于特征F10预测特征F1i;基于i≥2,基于特征F10和特征F1i-1预测特征F1i
对于当前时刻T1的下一时刻T1+Δt,先前已获得的特征仅有F10,此时可以仅基于该特征F10预测特征F11。而对于随后的其余时刻T1+2Δt、T1+3Δt等,先前已获得(包括提取和预测)的特征的数目越来越多,此时可以考虑每次基于最早提取的特征F10以及最近预测的特征F1i-1来预测特征F1i。最早提取的特征F10是从初始采集的图像I10中提取出的,而非间接预测的,因此最早提取的特征F10可靠性比较高。而最近预测特征F1i-1是最接近当下预测的特征F1i的,因此结合采用最早提取的特征F10以及最近预测的特征F1i-1来预测特征F1i可以比较好地兼顾处理效率和预测效果。
根据本发明实施例,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i包括:至少基于特征F10预测特征F1i;其中,对于不同的i,遮罩卷积网络CSi0的参数各自独立。
参考图3,CS10与CS20的参数可以各自独立。对于特征F11、F12、F13等来说,与时刻T1的特征F10的时间差距是逐渐增大的,从时刻T1看后续时刻T1+Δt、T1+2Δt、T1+3Δt等的状态,注意力情况是会变化的,因此可以采用不同的遮罩卷积网络来产生不同的注意力遮罩,这样预测的特征F1i会更准确。
根据本发明实施例,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i包括:至少基于特征F1i-1预测特征F1i;其中,对于不同的i,遮罩卷积网络CSi(i-1)的参数是共享的。
例如,CS21与CS32(图3未示出)的参数可以各自独立。特征F11与特征F10的时间差距、特征F12与特征F11的时间差距、特征F13与特征F12的时间差距等是相同的,因此每次从时刻T1+(i-1)*Δt看下一时刻T1+i*Δt的情况是相似的,因此可以选择参数相同的遮罩卷积网络CSi(i-1)来计算特征Fi-1的注意力遮罩。这种方案可以减小图像预测模型在训练和应用时的数据处理量,可以提高处理效率。当然,对于不同的i,所述特征F1i-1所输入的遮罩卷积网络CSi(i-1)的参数也可以是各自独立的。
根据本发明实施例,对特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i'可以包括:将特征F1i输入预测网络Ni中的解码器DEi,以获得预测图像I1i'。
解码器DEi可以采用任何合适的网络结构实现,例如采用卷积网络结构实现。示例性地,解码器DEi可以包括上采样层。参考图3,示出了预测网络N1的解码器DE1和预测网络N2的解码器DE2
根据本发明实施例,方法100还可以包括:通过第一解码器DE0对特征F10进行重建,以获得重建图像I10',其中,解码器DEi与第一解码器DE0共享参数。解码器DEi与第一解码器DE0共享参数可以减少图像预测模型的数据量,加快数据处理速度。当然,解码器DEi与第一解码器DE0的参数也可以各自独立,这样有助于提高图像预测模型的预测精度。
根据本发明实施例,方法100还可以包括:获取第一样本车辆分别在T2,T2+Δt……T2+mΔt时刻采集的(m+1)个样本图像I20,I21……I2m;通过第一编码器EN0提取样本图像I20的特征F20,并通过第一解码器DE0对特征F20进行重建,以获得重建图像I20';基于样本图像I20和重建图像I20'对第一编码器EN0和第一解码器DE0进行训练;对于第T2+i*Δt时刻,在预测网络Ni中,基于特征F20至特征F2i-1中的一个或多个来预测特征F2i,并对特征F2i进行重建以获得第T2+i*Δt时刻的预测图像I2i';基于样本图像I2i和预测图像I2i'对预测网络Ni进行训练。
如上文所述,在应用图像预测模型之前,可以首先对模型进行训练。在训练时,可以将样本图像I20输入第一编码器EN0和第一解码器DE0组成的重建网络,并最终获得第一解码器DE0输出的重建图像I20'。可以将样本图像I20作为标注数据(groundtruth),基于样本图像I20和重建图像I20'计算损失函数(可以称为第一重建损失函数),并基于该损失函数对第一编码器EN0和第一解码器DE0进行训练。可选地,第一重建损失函数可以是均方损失函数(L2损失函数)。本领域技术人员可以理解基于损失函数进行训练的方式,本文不做赘述。
此外,可以将特征F20至特征F2i-1中的一个或多个输入预测网络Ni。输入预测网络Ni的特征F20至特征F2i-1的特征组合与输入预测网络Ni的F10至特征F1i-1的特征组合一致。例如,在应用阶段输入预测网络Ni的特征为F10和F1i-1的情况下,在训练阶段输入预测网络Ni的特征则为F20和F2i-1
在预测网络Ni中,任一参与预测的特征F2j经历与上述特征F1j一致的处理,可以参考上文描述理解,此处不再赘述。最终,可以在每个预测网络Ni的输出端获得预测图像I2i'。随后,可以将样本图像I2i作为groundtruth,基于样本图像I2i和预测图像I2i'计算损失函数(可以称为第一预测损失函数),并基于该损失函数对所述预测网络Ni进行训练。可选地,第一预测损失函数可以是L2损失函数。
根据上述实施例,可以将样本图像I20输入图像预测模型,即可以获得第一解码器DE0输出的重建图像I20'以及各个预测网络Ni输出的预测图像I2i'。随后,可以将图像I20',I21'……I2m'与各自对应的样本图像I20,I21……I2m进行损失函数计算,进而训练第一编码器EN0、第一解码器DE0以及各个预测网络Ni的参数。上述训练方式实现简单,计算量小。
根据本发明实施例,方法100还可以包括:获取第二样本车辆分别在T3,T3+Δt……T3+mΔt时刻采集的(m+1)个样本图像I30,I31……I3m;通过第一编码器EN0提取样本图像I30的特征F30,向特征F30添加随机高斯变量以获得新的特征F30',并通过第一解码器DE0对新的特征F30'进行重建,以获得重建图像I30';将第一编码器EN0和第一解码器DE0作为生成器,与第一判别器一起进行对抗训练,其中,在对抗训练中,将样本图像I30作为正样本,将重建图像I30'作为负样本,分别输入第一判别器进行判别;对于第T3+i*Δt时刻,在预测网络Ni中,基于特征F30至特征F3i-1中的一个或多个来预测特征F3i,向特征F3i添加随机高斯变量以获得新的特征F3i',并对新的特征F3i'进行重建以获得第T3+i*Δt时刻的预测图像I3i';将预测网络Ni作为生成器,与第一判别器一起进行对抗训练,其中,在对抗训练中,将样本图像I3i作为正样本,将预测图像I3i'作为负样本,分别输入第一判别器进行判别。
第二样本车辆与第一样本车辆可以相同或不同,样本图像I30,I31……I3m与样本图像I20,I21……I2m可以相同或不同。
可选地,可以通过对抗训练的方式来训练图像预测模型。对图像预测模型中的重建网络(包括第一编码器EN0和第一解码器DE0)和预测网络,可添加一个判别器用于增强图像生成的质量。
例如,可以在第一编码器EN0输出样本图像I30的特征F30之后,在F30上拼接一个与F30大小相等的随机高斯变量z。随后,将新的特征F30'输入第一解码器DE0获得重建图像I30'。将样本图像I30作为正样本,将重建图像I30'作为负样本,分别输入第一判别器进行判别。将第一编码器EN0和第一解码器DE0作为生成器,与第一判别器一起进行对抗训练。可选地,在训练时,可以先更新第一判别器的参数,之后再利用更新后的第一判别器更新生成器的参数,如此循环。
此外,可以将特征F30至特征F3i-1中的一个或多个输入预测网络Ni。输入预测网络Ni的特征F30至特征F3i-1的特征组合与输入预测网络Ni的F10至特征F1i-1的特征组合一致。例如,在应用阶段输入预测网络Ni的特征为F10和F1i-1的情况下,在训练阶段输入预测网络Ni的特征则为F30和F3i-1
在预测网络Ni中,任一参与预测的特征F3j经历与上述特征F1j一致的处理,可以参考上文描述理解,此处不再赘述。最终,可以在每个预测网络Ni的输出端获得预测图像I3i'。随后,可以将样本图像I3i作为正样本,将预测图像I3i'作为负样本,分别输入第一判别器进行判别。将预测网络Ni作为生成器,与上述第一判别器一起进行对抗训练。
在对抗训练时,可以计算生成器和判别器组成的对抗网络的对抗损失函数,本领域技术人员可以理解对抗损失函数的计算方式,本文不赘述。可以基于对抗损失函数对上述对抗网络进行训练。此外,还可以基于样本图像I30和重建图像I30'计算损失函数(可以称为第二重建损失函数),并且可以基于样本图像I3i和预测图像I3i'计算损失函数(可以称为第二预测损失函数)。可选地,可以基于对抗损失函数和第二重建损失函数、第二预测损失函数对上述对抗网络进行训练。可选地,第二重建损失函数和第二预测损失函数可以是L2损失函数。示例性地,用于训练第一判别器的对抗损失函数可以是马尔可夫判别器损失函数(Patch GAN loss)。
在基于当前图像I10预测获得后续的预测图像I1i'(i=1,2……m)之后,可以基于预测图像进行目标车辆的行为规划,例如计算目标车辆在T1以及后续各个时刻下的期望加速度和期望转角。该行为规划的基本思想是,基于第T1+(i-1)*Δt时刻的图像(当前图像I10或预测图像I1i-1')和第T1+i*Δt时刻的图像(预测图像I1i')计算变换矩阵M1i-1,该变换矩阵使得第T1+(i-1)*Δt时刻的图像(当前图像I10或预测图像I1i-1')的特征经变换之后获得的特征能够尽可能趋近第T1+i*Δt时刻的图像(预测图像I1i')的特征。该变换矩阵表示对当下状态的变换,从该变换矩阵中可以获得第T1+(i-1)*Δt时刻的期望加速度和期望转角。下面描述基于此思想的车辆行为规划方法。
根据本发明另一方面,提供一种车辆行为规划方法。图4示出根据本发明一个实施例的车辆行为规划方法400的示意性流程图。如图4所示,车辆行为规划方法400还包括步骤S410-S480。
在步骤S410,获取上述图像预测方法100中涉及的当前图像I10以及预测图像I11',I12'……I1m'。
在行为规划之前,可以先运行上述图像预测方法100,获得上述当前图像I10以及后续的各个预测图像I11',I12'……I1m'。
在步骤S420,基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1'。
在i=1的情况下,图像I1i-1也就是当前图像I10。因为在当前时刻T1存在实际采集的当前图像I10,因此,可以提取该当前图像I10的特征F10',其可以与上述特征F10相同或不同。
与上述图像预测模型类似地,车辆行为规划方法400所涉及的算法模型(本文称为行为规划模型)可以在训练阶段进行训练,并随后在应用阶段利用训练好的行为规划模型进行实际的行为规划。行为规划模型可以包括第二编码器EN0'和第二解码器DE0'。
第二编码器EN0'和第二解码器DE0'均可以采用任何合适的网络结构实现,例如采用卷积网络结构实现。例如,第二编码器EN0'和第二解码器DE0'可以各自包括一个或多个卷积层。此外,示例性地,第二编码器EN0'还可以包括下采样层,第二解码器DE0'还可以包括上采样层。在一个示例中,第二编码器EN0'和第二解码器DE0'可以采用自编码器(Auto-encoder,AE)或变分自编码器(Variational Auto-encoder,VAE)等实现。
第二编码器EN0'和第二解码器DE0'可以组成重建网络,第二编码器EN0'用于对输入的图像进行特征提取,第二解码器DE0'用于对第二编码器EN0'提取的特征进行重建,以还原成图像。可选地,第二编码器EN0'与上述第一编码器EN0的参数可以共享,也可以各自独立。可选地,第二解码器DE0'与上述第一解码器DE0的参数可以共享,也可以各自独立。
图5示出根据本发明一个实施例的车辆行为规划方法400所涉及的行为规划模型的示意图。参见图5,示出第二编码器EN0'和第二解码器DE0'。可以将当前图像I10(i=1的情况下)或预测图像I1i-1'(i=2,3……m的情况下)输入第二编码器EN0',以由第二编码器EN0'提取特征F1i-1'。可选地,可以将第二编码器EN0'输出的特征F1i-1'输入第二解码器DE0'。第二解码器DE0'可以对特征F1i-1'进行重建,以获得重建图像I1i-1”。第二解码器DE0'输出的重建图像I1i-1”与原图像I10或I1i-1'大小一致,相当于基于特征F1i-1'还原出原图像。
在步骤S430,基于i=2,3……m,通过第二编码器EN0'提取预测图像I1i-1'的特征F1i-1'。
基于i=2,3……m,存在预测图像I1i-1',提取该预测图像的特征F1i-1'。
在步骤S440,基于i=1,2……m,将特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1
步骤S420和S430中,提取特征时分情况处理。而在提取特征之后的步骤(即步骤S440-S480)中,无论i是多少,均统一采用同一方式处理。
参见图5,行为规划模型还可以包括变换卷积网络CT。变换卷积网络CT可以采用任意合适的卷积网络结构实现。变换矩阵M1i-1可以是任何合适类型的矩阵,例如可以是仿射变换矩阵(affine矩阵),也可以是affine矩阵对应的变换矩阵等等。
在步骤S450,基于i=1,2……m,采用变换矩阵M1i-1对特征F1i-1'进行矩阵变换,以获得变换特征F1i”。
参见图5,可以将变换卷积网络CT输出的变换矩阵M1i-1与特征F1i-1'进行矩阵变换(例如warp),获得变换特征F1i”。
在步骤S460,基于i=1,2……m,通过第二解码器DE0'对特征F1i”进行重建,以获得重建图像I1i”。
如上所述,第二编码器EN0'和第二解码器DE0'可以组成重建网络一起进行训练。在应用阶段,可以将特征F1i”输入第二解码器DE0',以由第二解码器DE0'对该特征进行重建。参见图5,第二解码器DE0'可以输出重建图像I1i”。
在步骤S470,基于i=1,2……m,通过预测图像I1i'和重建图像I1i”计算第一图像损失函数,并基于第一图像损失函数对变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1
在行为规划过程中,除变换卷积网络CT以外,行为规划模型的其他网络部分的参数不变。经过训练阶段对行为规划模型的训练,变换卷积网络CT具有初始的参数(即第一初始参数),随后,在进行实际的行为规划时,变换卷积网络CT的参数可以进一步调整(即训练),以获得每个时刻更为准确的变换矩阵。针对不同的i,分别对变换卷积网络CT进行参数训练,由此可以获得各个刻对应的变换卷积网络CTi-1。示例性地,在训练时,可以基于第一图像损失函数,通过前向传播方式对变换卷积网络CT进行训练。
训练变换卷积网络CT时,可以判断在更新变换卷积网络CT的参数前后,行为信息(action)的欧式距离是否小于预设的阈值,如果否,则继续下一轮训练,如果是,则可以停止训练并获得训练后的变换卷积网络CTi-1,其中,行为信息包括目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。该预设的阈值可以根据需要设定,例如是0.002等。
在步骤S480,基于i=1,2……m,基于变换卷积网络CTi-1输出的变换矩阵M1i-1确定目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
示例性地,基于变换卷积网络CTi-1输出的变换矩阵M1i-1确定目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角(步骤S480)可以包括:将变换矩阵Mi-1输入行为卷积网络CA中进行卷积,以将变换矩阵Mi-1由2*H*W大小转变为2*1*1大小,其中转变后的矩阵中的两个数值分别表示目标车辆的期望加速度和期望转角。
参见图5,行为规划模型还可以包括行为卷积网络CA。行为卷积网络CA的参数也可以在训练阶段训练好,在应用阶段行为卷积网络CA的参数是固定的。变换矩阵Mi-1是2*H*W大小的,可以对其进行卷积,将其转变成2*1*1大小,其中的两个数值分别是目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。在第T1+(i-1)*Δt时刻,目标车辆的控制装置可以按照期望加速度和期望转角控制目标车辆运动。
通过上述方式,可以基于对车辆未来状态的预测(即一系列预测图像)来规划车辆的行为。如上所述,这样可以提高行为规划的可解释性,并有助于应对突发事件。
根据本发明实施例,车辆行为规划方法400还可以包括:获取样本图像I4;通过第二编码器EN0'提取样本图像I4的特征F4,并通过第二解码器DE0'对特征F4进行重建,以获得重建图像I4';基于样本图像I4和重建图像I4'对第二编码器EN0'和第二解码器DE0'进行训练。
样本图像I4可以是任意图像。示例性地,可以基于样本图像I4和重建图像I4'计算第三重建损失函数,并基于第三重建损失函数对第二编码器EN0'和第二解码器DE0'进行训练。可选地,第三重建损失函数可以是L2损失函数。
基于第三重建损失函数对第二编码器EN0'和第二解码器DE0'进行训练的方式与上述基于第一重建损失函数对第一编码器EN0和第一解码器DE0进行训练的方式类似,可以参考上文相应描述理解本实施例,不再赘述。这种训练方式实现简单,计算量小。
根据本发明实施例,车辆行为规划方法400还可以包括:获取第三样本车辆分别在T4和T4+Δt时刻采集的样本图像I40和I41,以及第三样本车辆在T4时刻的实际加速度和实际转角;通过第二编码器EN0'提取样本图像I40的特征F40;将特征F40输入具有第二初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M40;采用变换矩阵M40对特征F40进行矩阵变换,以获得变换特征F41';通过第二解码器DE0'对特征F41'进行重建,以获得重建图像I41';基于样本图像I41和重建图像I41'计算第二图像损失函数,并基于第二图像损失函数对变换卷积网络CT进行训练,以获得具有第一初始参数的变换卷积网络CT;将变换卷积网络CT输出的变换矩阵M40输入行为卷积网络CA中进行卷积,以确定第三样本车辆在第T4时刻的期望加速度和期望转角;基于第三样本车辆的期望加速度和期望转角与实际加速度和实际转角计算行为损失函数,并基于行为损失函数对行为卷积网络CA进行训练。
第三样本车辆、上述第二样本车辆和上述第一样本车辆中的任意两者可以相同或不同,样本图像I40和I41可以与样本图像I30,I31……I3m或样本图像I20,I21……I2m中的任意一对相邻图像相同或不同。
变换卷积网络CT的第二初始参数可以是预设好的,经过训练之后,其将转变为上述第一初始参数。
在训练变换卷积网络CT和行为卷积网络CA时,第二编码器EN0'和第二解码器DE0'的参数是固定的,可以首先训练第二编码器EN0'和第二解码器DE0',训练好之后再训练变换卷积网络CT和行为卷积网络CA。可选地,可以首先训练变换卷积网络CT的参数,当其训练好之后,再训练行为卷积网络CA的参数。
训练时,可以利用第二编码器EN0'和第二解码器DE0'对样本图像I40进行处理,获得对应的重建图像I41'。可以将样本图像I41作为groundtruth,计算其与重建图像I41'之间的损失(第二图像损失函数),进而基于该损失函数对变换卷积网络CT的参数进行训练。与应用阶段的训练类似地,可以判断更新变换卷积网络CT的参数前后,行为信息(action)的欧式距离是否小于预设的阈值,如果否,则继续下一轮训练,如果是,则可以停止训练并获得训练后的具有第一初始参数的变换卷积网络CT。
随后,可以通过训练后的具有第一初始参数的变换卷积网络CT获得第三样本车辆在第T4时刻的期望加速度和期望转角。可以将第三样本车辆的实际加速度和实际转角作为groundtruth,计算其与期望加速度和期望转角之间的损失(行为损失函数),并基于行为损失函数对行为卷积网络CA进行训练,最终获得训练后的行为卷积网络CA。
上述训练方式实现简单,计算量小。
根据本发明实施例,车辆行为规划方法400还可以包括:获取样本图像I5;通过第二编码器EN0'提取样本图像I5的特征F5,向特征F5添加随机高斯变量以获得新的特征F5',并通过第二解码器DE0'对新的特征F5'进行重建,以获得重建图像I5';将第二编码器EN0'和第二解码器DE0'作为生成器,与第二判别器一起进行对抗训练,其中,在对抗训练中,将样本图像I5作为正样本,将重建图像I5'作为负样本,分别输入第二判别器进行判别。
可选地,第二判别器与上述第一判别器的参数可以共享,也可以各自独立。共享参数可以减少参数量,提高模型的训练速度。参数独立可以提高模型的处理精度。
与上述图像预测模型类似地,行为规划模型也可以通过对抗方式进行训练。基于样本图像I5对第二编码器EN0'和第二解码器DE0'进行对抗训练的实现方式与上述基于样本图像I30对第一编码器EN0和第一解码器DE0进行对抗训练的实现方式类似,可以参考上文相应描述理解本实施例,不再赘述。
如上所述,在对抗训练时,可以计算生成器和判别器组成的对抗网络的对抗损失函数。可以基于对抗损失函数对第二编码器EN0'和第二解码器DE0'以及第二判别器组成的对抗网络进行训练。此外,还可以基于样本图像I5和重建图像I5'计算损失函数(可以称为第四重建损失函数)。可选地,可以基于对抗损失函数和第四重建损失函数对上述对抗网络进行训练。可选地,第四重建损失函数可以是L2损失函数。示例性地,用于训练第二判别器的对抗损失函数可以是Patch GAN loss。
根据本发明实施例,车辆行为规划方法400还可以包括:获取第四样本车辆分别在T5和T5+Δt时刻采集的样本图像I50和I51,以及第四样本车辆在T5时刻的实际加速度和实际转角;通过第二编码器EN0'提取样本图像I50的特征F50;将特征F50输入具有第三初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M50;采用变换矩阵M50对特征F50进行矩阵变换,以获得变换特征F51';通过第二解码器DE0'对特征F51'进行重建,以获得重建图像I51';基于样本图像I51和重建图像I51'计算第三图像损失函数,并基于第三图像损失函数对变换卷积网络CT进行训练,以获得具有第一初始参数的变换卷积网络CT;向变换卷积网络CT输出的变换矩阵M50添加随机高斯变量以获得新的变换矩阵M50',将新的变换矩阵M50'输入行为卷积网络CA中进行卷积,以确定第四样本车辆在第T5时刻的期望加速度和期望转角;将行为卷积网络CA作为生成器,与第三判别器一起进行对抗训练,其中,在对抗训练中,将实际加速度和实际转角作为正样本,将第四样本车辆的期望加速度和期望转角作为负样本,分别输入第三判别器进行判别。
第四样本车辆、上述第三样本车辆、上述第二样本车辆和上述第一样本车辆中的任意两者可以相同或不同,样本图像I50和I51可以与上述样本图像I40和I41相同或不同,样本图像I50和I51可以与样本图像I30,I31……I3m或样本图像I20,I21……I2m中的任意一对相邻图像相同或不同。
第三判别器与上述第二判别器的参数各自独立。第二判别器用于判别输入图像的真假,第三判别器用于判别输入的加速度和转角的真假,二者的判别对象不同,因此参数各自独立有利于提高行为规划模型的精度。
第三初始参数可以是任意的,其可以与第二初始参数相同或不同。向变换矩阵M50添加的随机高斯变量与变换矩阵M50的大小一致。
本领域技术人员可以理解对抗训练的实现方式,此处不赘述。采用上述方案,可以通过对抗训练的方式提高行为卷积网络CA生成加速度和转角的质量。
可以理解,上述第二判别器和第三判别器仅在行为规划模型的训练阶段使用,在行为规划模型的应用阶段(即实际进行行为规划时)不使用。
根据本发明另一方面,提供一种图像预测装置。图6示出了根据本发明一个实施例的图像预测装置600的示意性框图。
如图6所示,根据本发明实施例的图像预测装置600包括获取模块610、提取模块620和预测模块630。所述各个模块可分别执行上文中结合图1-3描述的图像预测方法的各个步骤/功能。以下仅对该图像预测装置600的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块610用于获取目标车辆在当前时刻T1采集的当前图像I10
提取模块620用于通过第一编码器EN0提取所述当前图像I10的特征F10
预测模块630用于对于第T1+i*Δt时刻,在预测网络Ni中,基于所述特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对所述特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
根据本发明另一方面,提供一种车辆行为规划装置。图7示出了根据本发明一个实施例的车辆行为规划装置700的示意性框图。
如图7所示,根据本发明实施例的车辆行为规划装置700包括获取模块710、第一提取模块720、第二提取模块730、输入模块740、变换模块750、重建模块760、训练模块770和确定模块780。所述各个模块可分别执行上文中结合图4-5描述的车辆行为规划方法的各个步骤/功能。以下仅对该车辆行为规划装置700的各部件的主要功能进行描述,而省略以上已经描述过的细节内容。
获取模块710用于获取上述图像预测方法100中涉及的所述当前图像I10以及所述预测图像I11',I12'……I1m'。
第一提取模块720用于基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1'。
第二提取模块730用于基于i=2,3……m,通过所述第二编码器EN0'提取预测图像I1i-1'的特征F1i-1'。
输入模块740用于基于i=1,2……m,将所述特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1
变换模块750用于基于i=1,2……m,采用所述变换矩阵M1i-1对所述特征F1i-1'进行矩阵变换,以获得变换特征F1i”。
重建模块760用于基于i=1,2……m,通过第二解码器DE0'对所述特征F1i”进行重建,以获得重建图像I1i”。
训练模块770用于基于i=1,2……m,通过预测图像I1i'和所述重建图像I1i”计算第一图像损失函数,并基于所述第一图像损失函数对所述变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1
确定模块780用于基于i=1,2……m,基于所述变换卷积网络CTi-1输出的变换矩阵M1i-1确定所述目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
图8示出了根据本发明一个实施例的图像预测系统800的示意性框图。图像预测系统800包括存储器810以及处理器820。
所述存储器810存储用于实现根据本发明实施例的图像预测方法中的相应步骤的计算机程序指令。
所述处理器820用于运行所述存储器810中存储的计算机程序指令,以执行根据本发明实施例的图像预测方法的相应步骤。
在一个实施例中,计算机程序指令被处理器820运行时用于执行以下步骤:获取目标车辆在当前时刻T1采集的当前图像I10;通过第一编码器EN0提取所述当前图像I10的特征F10;对于第T1+i*Δt时刻,在预测网络Ni中,基于所述特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对所述特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
图9示出了根据本发明一个实施例的车辆行为规划系统900的示意性框图。车辆行为规划系统900包括存储器910以及处理器920。
所述存储器910存储用于实现根据本发明实施例的车辆行为规划方法中的相应步骤的计算机程序指令。
所述处理器920用于运行所述存储器910中存储的计算机程序指令,以执行根据本发明实施例的车辆行为规划方法的相应步骤。
在一个实施例中,计算机程序指令被处理器920运行时用于执行以下步骤:获取上述图像预测方法中涉及的当前图像I10以及预测图像I11',I12'……I1m';基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1';基于i=2,3……m,通过第二编码器EN0'提取预测图像I1i-1'的特征F1i-1';基于i=1,2……m,将特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1;采用变换矩阵M1i-1对特征F1i-1'进行矩阵变换,以获得变换特征F1i”;通过第二解码器DE0'对特征F1i”进行重建,以获得重建图像I1i”;基于预测图像I1i'和重建图像I1i”计算第一图像损失函数,并基于第一图像损失函数对变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1;基于变换卷积网络CTi-1输出的变换矩阵M1i-1确定目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的图像预测方法的相应步骤,并且用于实现根据本发明实施例的图像预测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
在一个实施例中,所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的图像预测装置的各个功能模块,并和/或者可以执行根据本发明实施例的图像预测方法。
在一个实施例中,所述程序指令在运行时用于执行以下步骤:获取目标车辆在当前时刻T1采集的当前图像I10;通过第一编码器EN0提取当前图像I10的特征F10;对于第T1+i*Δt时刻,在预测网络Ni中,基于特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的车辆行为规划方法的相应步骤,并且用于实现根据本发明实施例的车辆行为规划装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。
在一个实施例中,所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的车辆行为规划装置的各个功能模块,并和/或者可以执行根据本发明实施例的车辆行为规划方法。
在一个实施例中,所述程序指令在运行时用于执行以下步骤:获取上述图像预测方法中涉及的当前图像I10以及预测图像I11',I12'……I1m';基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1';基于i=2,3……m,通过第二编码器EN0'提取预测图像I1i-1'的特征F1i-1';基于i=1,2……m,将特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1;采用变换矩阵M1i-1对特征F1i-1'进行矩阵变换,以获得变换特征F1i”;通过第二解码器DE0'对特征F1i”进行重建,以获得重建图像I1i”;基于预测图像I1i'和重建图像I1i”计算第一图像损失函数,并基于第一图像损失函数对变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1;基于变换卷积网络CTi-1输出的变换矩阵M1i-1确定目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同系统来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的系统解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种图像预测方法,包括:
获取目标车辆在当前时刻T1采集的当前图像I10
通过第一编码器EN0提取所述当前图像I10的特征F10
对于第T1+i*Δt时刻,在预测网络Ni中,基于所述特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对所述特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
2.如权利要求1所述的方法,其中,所述基于所述特征F10至特征F1i-1中的一个或多个来预测特征F1i包括:
对于所述特征F10至所述特征F1i-1中的每个参与预测的特征F1j
基于所述特征F1j计算注意力遮罩S1ij
对所述特征F1j与所述注意力遮罩S1ij进行矩阵内积计算,以获得注意力特征FS1ij
将所述注意力特征FS1ij输入全连接层或卷积层进行特征加权求和,以获得加权特征FA1ij
将在所述预测网络Ni中获得的所有加权特征进行融合,以获得所述特征F1i
其中,j∈{0,1……i-1}。
3.如权利要求2所述的方法,其中,所述基于所述特征F1j计算注意力遮罩S1ij包括:
将所述特征F1j输入所述预测网络Ni中的遮罩卷积网络CSij中进行卷积,以获得所述注意力遮罩S1ij,其中,所述注意力遮罩S1ij与所述特征F1j的高和宽一致并且通道数为1,所述注意力遮罩S1ij中的每个元素代表车辆将要驶向的位置的响应值。
4.一种车辆行为规划方法,包括:
获取如权利要求1至3任一项所述的图像预测方法中涉及的所述当前图像I10以及所述预测图像I11',I12'……I1m';
基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1';
基于i=2,3……m,通过所述第二编码器EN0'提取预测图像I1i-1'的特征F1i-1';
基于i=1,2……m,
将所述特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1
采用所述变换矩阵M1i-1对所述特征F1i-1'进行矩阵变换,以获得变换特征F1i”;
通过第二解码器DE0'对所述特征F1i”进行重建,以获得重建图像I1i”;
通过预测图像I1i'和所述重建图像I1i”计算第一图像损失函数,并基于所述第一图像损失函数对所述变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1
基于所述变换卷积网络CTi-1输出的变换矩阵M1i-1确定所述目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
5.一种图像预测装置,包括:
获取模块,用于获取目标车辆在当前时刻T1采集的当前图像I10
提取模块,用于通过第一编码器EN0提取所述当前图像I10的特征F10
预测模块,用于对于第T1+i*Δt时刻,在预测网络Ni中,基于所述特征F10至特征F1i-1中的一个或多个来预测特征F1i,并对所述特征F1i进行重建以获得第T1+i*Δt时刻的预测图像I1i',i=1,2……m,m是大于或等于2的整数,Δt为预设时段。
6.一种车辆行为规划装置,包括:
获取模块,用于获取如权利要求1至3任一项所述的图像预测方法中涉及的所述当前图像I10以及所述预测图像I11',I12'……I1m';
第一提取模块,用于基于i=1,通过第二编码器EN0'提取图像I1i-1的特征F1i-1';
第二提取模块,用于基于i=2,3……m,通过所述第二编码器EN0'提取预测图像I1i-1'的特征F1i-1';
输入模块,用于基于i=1,2……m,将所述特征F1i-1'输入具有第一初始参数的变换卷积网络CT中进行卷积,以获得变换矩阵M1i-1
变换模块,用于基于i=1,2……m,采用所述变换矩阵M1i-1对所述特征F1i-1'进行矩阵变换,以获得变换特征F1i”;
重建模块,用于基于i=1,2……m,通过第二解码器DE0'对所述特征F1i”进行重建,以获得重建图像I1i”;
训练模块,用于基于i=1,2……m,通过预测图像I1i'和所述重建图像I1i”计算第一图像损失函数,并基于所述第一图像损失函数对所述变换卷积网络CT进行训练,以获得训练后的变换卷积网络CTi-1
确定模块,用于基于i=1,2……m,基于所述变换卷积网络CTi-1输出的变换矩阵M1i-1确定所述目标车辆在第T1+(i-1)*Δt时刻的期望加速度和期望转角。
7.一种图像预测系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至3任一项所述的图像预测方法。
8.一种车辆行为规划系统,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求4所述的车辆行为规划方法。
9.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1至3任一项所述的图像预测方法。
10.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求4所述的车辆行为规划方法。
CN202010196263.XA 2020-03-19 2020-03-19 图像预测及车辆行为规划方法、装置和系统及存储介质 Pending CN111414852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010196263.XA CN111414852A (zh) 2020-03-19 2020-03-19 图像预测及车辆行为规划方法、装置和系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010196263.XA CN111414852A (zh) 2020-03-19 2020-03-19 图像预测及车辆行为规划方法、装置和系统及存储介质

Publications (1)

Publication Number Publication Date
CN111414852A true CN111414852A (zh) 2020-07-14

Family

ID=71493084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010196263.XA Pending CN111414852A (zh) 2020-03-19 2020-03-19 图像预测及车辆行为规划方法、装置和系统及存储介质

Country Status (1)

Country Link
CN (1) CN111414852A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215353A (zh) * 2020-09-29 2021-01-12 电子科技大学 一种基于变分结构优化网络的通道剪枝方法
CN114067556A (zh) * 2020-08-05 2022-02-18 北京万集科技股份有限公司 环境感知方法、装置、服务器和可读存储介质
CN114851204A (zh) * 2022-05-31 2022-08-05 云知声智能科技股份有限公司 一种机器人行为的规划方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109361934A (zh) * 2018-11-30 2019-02-19 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN109747655A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 用于自动驾驶车辆的驾驶指令生成方法和装置
CN109829495A (zh) * 2019-01-29 2019-05-31 南京信息工程大学 基于lstm和dcgan的时序性图像预测方法
CN110488821A (zh) * 2019-08-12 2019-11-22 北京三快在线科技有限公司 一种确定无人车运动策略的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109747655A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 用于自动驾驶车辆的驾驶指令生成方法和装置
CN109361934A (zh) * 2018-11-30 2019-02-19 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN109829495A (zh) * 2019-01-29 2019-05-31 南京信息工程大学 基于lstm和dcgan的时序性图像预测方法
CN110488821A (zh) * 2019-08-12 2019-11-22 北京三快在线科技有限公司 一种确定无人车运动策略的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067556A (zh) * 2020-08-05 2022-02-18 北京万集科技股份有限公司 环境感知方法、装置、服务器和可读存储介质
CN112215353A (zh) * 2020-09-29 2021-01-12 电子科技大学 一种基于变分结构优化网络的通道剪枝方法
CN112215353B (zh) * 2020-09-29 2023-09-01 电子科技大学 一种基于变分结构优化网络的通道剪枝方法
CN114851204A (zh) * 2022-05-31 2022-08-05 云知声智能科技股份有限公司 一种机器人行为的规划方法、装置、电子设备及存储介质
CN114851204B (zh) * 2022-05-31 2024-03-15 云知声智能科技股份有限公司 一种机器人行为的规划方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP6935948B2 (ja) 自律走行車両を学習、テスティング及び検証をするために仮想走行環境に対するドメイン適応された交通シナリオを生成するための方法及び装置
CN112015847B (zh) 一种障碍物的轨迹预测方法、装置、存储介质及电子设备
Xia et al. Periphery-fovea multi-resolution driving model guided by human attention
US11468285B1 (en) Analysis of objects of interest in sensor data using deep neural networks
CN111414852A (zh) 图像预测及车辆行为规划方法、装置和系统及存储介质
Pop et al. Multi-task deep learning for pedestrian detection, action recognition and time to cross prediction
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
CN112307978B (zh) 目标检测方法、装置、电子设备及可读存储介质
Dong et al. A hybrid spatial–temporal deep learning architecture for lane detection
US11636348B1 (en) Adaptive training of neural network models at model deployment destinations
Jeon et al. Traffic scene prediction via deep learning: Introduction of multi-channel occupancy grid map as a scene representation
JP7053213B2 (ja) 運転データ解析装置
CN112954399B (zh) 一种图像处理方法、装置以及计算机设备
CN109941293A (zh) 使用深度视频帧预测来训练自主车辆的控制器
KR20220036200A (ko) 차량의 속도 예측 장치 및 그 방법
CN113256985A (zh) 一种交通拥堵预测方法、装置和电子设备
CN114194211A (zh) 一种自动驾驶方法、装置及电子设备和存储介质
CN114549369B (zh) 数据修复方法、装置、计算机及可读存储介质
CN111860411A (zh) 一种基于注意力残差学习的道路场景语义分割方法
CN113191318A (zh) 目标检测方法、装置、电子设备及存储介质
CN112241756A (zh) 具有标准化流的机器可学习系统
CN115690153A (zh) 一种智能体轨迹预测方法及系统
CN117409412A (zh) 一种基于细节增强的双分辨率实时语义分割方法
CN114359293A (zh) 一种基于深度学习的三维mri脑肿瘤分割方法
Katyal et al. Occupancy map prediction using generative and fully convolutional networks for vehicle navigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210928

Address after: No.1 Factory building, no.299, Hongye Road, Dayun Town, Jiashan County, Jiaxing City, Zhejiang Province

Applicant after: UISEE TECHNOLOGY (ZHEJIANG) Co.,Ltd.

Address before: 211106 Room 201, building C7, moling ninth workshop, No. 55, Liyuan South Road, Jiangning District, Nanjing, Jiangsu Province

Applicant before: Yushi Technology (Nanjing) Co.,Ltd.

TA01 Transfer of patent application right