CN114067292A

CN114067292A - 用于智能驾驶的图像处理方法和装置

Info

Publication number: CN114067292A
Application number: CN202111415590.0A
Authority: CN
Inventors: 俞力; 陈新元; 吴子章
Original assignee: Zongmu Technology Shanghai Co Ltd
Current assignee: Zongmu Technology Shanghai Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-18

Abstract

本申请提供了用于智能驾驶的图像处理方法和装置。一种用于智能驾驶的多任务图像处理方法包括：使用车辆上的一个或多个鱼眼相机获取多帧图像；使用共享主干网络模型处理所获得的多帧图像以获得用于多个图像处理任务的共享特征图集合；以及针对所述多个图像处理任务中的每个图像处理任务，使用单独的头部网络模型来处理所述共享特征图集合以获得该图像处理任务的预测结果。

Description

用于智能驾驶的图像处理方法和装置

技术领域

本发明一般涉及智能驾驶领域，尤其涉及用于智能驾驶的多任务图像处理方法和装置。

背景技术

近来，智能驾驶得到了广泛的应用。在智能驾驶中，需要感知自车的周围环境，例如，车辆、行人、墙体、停车场字符等，对它们的准确识别和定位有利于保障智能驾驶的安全。例如，当前泊车过程中的环境感知主要依赖多传感器输入，包括视觉摄像头、超声波雷达和毫米波雷达等传感器。得益于卷积神经网络强大的特征提取以及适应复杂环境场景的能力，基于卷积神经网络的视觉感知障碍物的方法比重大幅提升，众多厂商纷纷转向以视觉为主要核心传感器来做智能驾驶的开发。但目前的视觉感知方案的各项任务(例如，目标检测、字符检测等)都是并行地输出结果，各项任务的处理之间不存在联系。一方面存在图像特征提取的资源浪费，另一方面对硬件控制器性能有较高要求。

因此亟需高效的用于智能驾驶的多任务图像处理方案。

发明内容

针对现有技术中存在的以上技术问题，本申请提供了一种用于智能驾驶的多任务图像处理方法，包括：使用车辆上的一个或多个鱼眼相机获取多帧图像；使用共享主干网络模型处理所获得的多帧图像以获得用于多个图像处理任务的共享特征图集合；以及针对所述多个图像处理任务中的每个图像处理任务，使用单独的头部网络模型来处理所述共享特征图集合以获得该图像处理任务的预测结果。

可任选地，共享主干网络模型包括残差网络模型和多尺度融合模型。

可任选地，所述多个图像处理任务包括障碍物检测任务和字符检测任务，并且其中用于障碍物检测任务的头部网络模型包括CenterNet网络模型，用于字符检测任务的头部网络模型包括DBNet网络模型和卷积递归神经网络模型。

可任选地，该方法进一步包括，使用transformer模型对所获得的共享特征图集合中的各特征图进行空间融合。

可任选地，该方法进一步包括，使用循环神经网络模型对经空间融合的共享特征图集合中的特征图进行时间融合。

可任选地，该方法进一步包括，对用于所述多个图像处理任务的多个头部网络模型进行联合训练，所述联合训练包括：对用于每个图像处理任务的头部网络模型的输出应用一权重并对经加权的输出求和以计算用于所述多个图像处理任务的多个头部网络模型的多任务损失函数，以及使所述多任务损失函数收敛。

本申请的另一方面提供了一种用于智能驾驶的多任务图像处理装置，包括：图像获取模块，所述图像获取模块被配置成使用车辆上的一个或多个鱼眼相机获取多帧图像；共享主干网络模型，所述共享主干网络模型被配置成处理所获得的多帧图像以获得用于多个图像处理任务的共享特征图集合；以及多个头部网络模型，所述多个头部网络模型中的每一个头部网络模型被配置成针对所述多个图像处理任务中的一个图像处理任务，处理所述共享特征图集合以获得该图像处理任务的预测结果。

可任选地，所述共享主干网络模型包括残差网络模型和多尺度融合模型。

可任选地，该装置进一步包括空间融合模块，所述空间融合模块被配置成使用transformer模型对所获得的共享特征图集合中的各特征图进行空间融合。

可任选地，该装置进一步包括时间融合模块，所述时间融合模块被配置成使用循环神经网络模型对经空间融合的共享特征图集合中的特征图进行时间融合。

可任选地，所述装置被配置成对用于所述多个图像处理任务的多个头部网络模型进行联合训练，所述联合训练包括：对用于每个图像处理任务的头部网络模型的输出应用一权重并对经加权的输出求和以计算用于所述多个图像处理任务的多个头部网络模型的多任务损失函数，以及使所述多任务损失函数收敛。

本申请的又一方面提供了一种电子设备，包括处理器和存储器，所述存储器存储有程序指令；所述处理器运行程序指令实现如权利要求1至权利要求6中任一项所述的用于智能驾驶的多任务图像处理方法。

一方面，本申请所提出的技术方案允许使用改进的共享主干网络结构来提取适于后续多个任务处理的特征，更有利于后续的障碍物检测任务和字符检测任务的实现。另一方面，本申请对用于多个图像处理任务的多个头部网络进行联合训练，可以节省预测时间和计算资源，使得智能驾驶汽车在行驶过程中能够准确实时地获取目标物(障碍物和字符等)的位置和属性，避免误撞事故的发生。

附图说明

图1是根据本发明的各方面的用于智能驾驶的多任务图像处理装置的示图。

图2是根据本发明的各方面的用于智能驾驶的多任务图像处理装置的更详细示图。

图3是根据本发明的各方面的用于特征提取的共享主干网络的示图。

图4A和图4B分别是残差网络和多尺度融合网络的示图。

图5是RNN的示图。

图6是根据本发明的各方面的对两个任务分支进行联合训练的示图。

图7是根据本申请的各方面的用于智能驾驶的多任务图像处理方法的流程图。

图8是根据本申请的各方面的用于智能驾驶的多任务图像处理方法的流程图。

图9是根据本申请的一方面的多任务图像处理装置的输出的示意图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

在车辆的智能驾驶中，需要同时执行多个图像处理任务(在本文中也简称为“任务”)来辅助驾驶。例如，在自主泊车感知过程中，安装在车辆上的环视鱼眼相机(例如，包括前视、左视、右视和后视相机)可持续捕捉图像，并且将所捕捉的图像输入多个图像处理任务进行处理。图像处理任务可包括障碍物检测任务、字符检测任务、语义分割任务、深度估计(用于预测物体的远近距离)等。障碍物检测任务被用来检测车辆周围的障碍物，例如，墙体(例如，柱子)、其他车辆(包括车身、轮子等)、人等；字符检测任务被用来检测车辆周围的字符，例如，停车场的地面标识(例如，车位号)等。

在本文中以障碍物检测任务和字符检测任务作为图像处理任务的示例来进行解说，但本领域技术人员将领会，与智能驾驶相关的其他图像处理任务也在本申请的构想中。

在现有的智能驾驶系统中，针对每个任务设置单独的分支，每个分支都包括用于提取特征的主干(backbone)网络和用于利用所提取的特征来生成预测结果的头部(head)网络。换言之，每个任务都要各自经过特征提取，随后利用关于该任务所提取的特征来预测目标物的属性信息(例如，障碍物检测任务中的障碍物的位置和类别，字符检测任务中的字符位置和字符信息等等)。在上述过程中，存在重复的特征提取，这大大消耗了处理资源。在实际实现中，考虑到硬件性能，会舍弃某些任务或者减少特征提取的层数，这会降低系统的整体感知性能。

基于上述问题，本申请提出了基于环视鱼眼相机的多任务卷积神经网络的智能驾驶辅助方法。一方面，本申请允许使用改进的共享主干网络结构来提取适于后续多个任务处理的特征，更有利于后续的障碍物检测任务和字符检测任务的实现。另一方面，本申请对用于多个图像处理任务的多个头部网络进行联合训练，可以节省预测时间和计算资源，使得智能驾驶汽车在行驶过程中能够准确实时地获取目标物(障碍物和字符等)的位置和属性，避免误撞事故的发生。

图1是根据本发明的用于智能驾驶的多任务图像处理装置的示图。

根据本申请的多任务图像处理装置100可包括图像预处理部分和卷积神经网络(Convolutional Neural Network，CNN)模型部分。图像预处理部分包括图像预处理模块102，卷积神经网络模型部分包括共享特征提取和优化模块104、第一任务处理模块106、第二任务处理模块108和输出模块110。

车辆的车载相机可以捕获图像。例如，安装在车辆车身的四路鱼眼相机可捕获四路图像，例如，前视图像、左侧视图像、右侧视图像以及后视图像。所捕获的图像可以是jpg、jpeg、gif等格式。

图像预处理模块102可接收多个(例如，四个)鱼眼相机所捕获的多路图像，对其进行图像预处理。图像预处理可以包括调整图片大小、尺寸归一化、ToTensor操作、和畸变矫正等操作中的一者或多者。

调整图片大小操作可以将不同分辨率的图像的尺寸调整为相同的尺寸大小，便于后续卷积神经网络模型的训练和预测。

尺寸归一化操作可以将各图像的像素值的范围进行归一化，例如，可将原始图像的像素值的范围从[0-255]归一化到[0-1]，从而帮助模型更快地收敛。

ToTensor操作可以将张量转化为PyTorch深度学习框架可以处理的格式。

畸变矫正操作可以对不同路的鱼眼畸变图像进行畸变矫正操作，能够让共享参数的模型学习到不同路图像中相同物体的特征。

图像预处理模块102还可以对不同相机提供的图像打标签(例如，对来自相机1的图像标记ID1、对来自相机2的图像标记ID2等)，以供后续区分(例如，在空间融合中使用，如以下详细描述的)。

图像预处理模块102输出tensor格式的图像，以供后续卷积神经网络处理。

共享特征提取和优化模块104可以对图像预处理模块102输出的图像提取特征以获得特征图集合，并且对特征图集合进行优化。特征图集合的优化可包括对与不同相机相关的特征图集合进行空间融合和时间融合，如以下详细描述的。

共享特征提取和优化模块104所生成的特征图集合被输入多个任务处理分支，例如，如图1中所示的第一任务处理模块106和第二任务处理模块108。每个任务处理模块分别针对一任务处理特征图集合以得到关于该任务的预测结果。例如，障碍物检测任务处理模块可以针对障碍物检测任务处理特征图集合以获得障碍物的位置和类别，而字符检测任务处理模块可以针对字符检测任务处理特征图集合以获得字符的位置和字符信息。

各个任务处理模块所生成的结果被提供给输出模块110以用于辅助智能驾驶的后续操作。

本申请中的特征图可以是适于卷积神经网络处理的tensor格式，如本领域众所周知的，在此不再赘述。

请注意，虽然在图1中仅示出了两个任务处理模块，但更多个任务处理模块也在本申请的构想中。

图2是根据本发明的用于智能驾驶的多任务图像处理装置的更详细示图。

如图2所示，多任务图像处理装置200可包括图像预处理模块202、提取特征模块204、空间融合模块206、时间融合模块208、任务分支210、212和输出模块214。

图像预处理模块202可对应于图1的图像预处理模块102；提取特征模块204、空间融合模块206和时间融合模块208可对应于图1中的共享特征提取和优化模块104；任务模块210、212可分别对应于图1中的任务模块106、108；并且输出模块214可对应于图1中的输出模块110。

多任务图像处理装置200可针对每一个鱼眼相机所获取的图像进行图像预处理202，并且对经预处理的图像提取特征204以生成特征图。

请注意，出于解说起见，图2示出了分别对应于四个鱼眼相机的四路图像预处理和提取特征主干网络分支。但在实际实现中，四个鱼眼相机所获取的图像也可在一个图像预处理模块和一个提取特征模块中一起处理，如图1所示。例如，可使用相机ID对来自不同相机的图像/特征图进行区分。

空间融合模块206将对应于多个鱼眼相机的特征图进行融合，用于解决不同相机(例如，位置上相邻的相机)检测到同一目标的目标重合问题。

时间融合模块208对时间窗口内的同一路特征图进行时间维度的融合，有助于跟踪目标。

时间融合模块208输出的特征图集合分别输入给第一任务和第二任务头部网络模块210和212。

第一任务和第二任务头部网络模块210和212针对各自的任务来处理特征图集合。

第一任务模块210和第二任务模块212所生成的结果被提供给输出模块212以用于辅助智能驾驶的后续操作。

请注意，虽然图2中示出了四个鱼眼相机的四路图像处理，但用于更多或更少的鱼眼相机的图像处理和后续处理也在本申请的构想中。

图3是根据本申请的用于特征提取的共享主干网络的示图。

共享主干网络300可对应于图2的提取特征模块204，其可用于提取供多个任务使用的共享特征图集合。

共享主干网络300可包括残差网络(ResNet)302和多尺度融合网络(FeaturePyramid Network，FPN)304。

在CNN中，从底层的特征逐渐抽取到高度抽象的特征，网络的层数越多也就意味这能够提取到的不同级别的抽象特征更加丰富，并且越深的网络提取的特征越抽象，就越具有语义信息。但对于传统的CNN，随着网络层数的增加，在训练集上的准确率却饱和甚至下降了。而残差网络可以解决上述问题。

残差网络可以提升网络深度，进而提升检测准确率，同时内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来了梯度消失的问题。

图4A是残差网络的示图。残差网络提供了两种方式来解决退化问题：恒等映射(identity mapping)以及残差映射(residual mapping)。恒等映射指的是图4A中“弯线”部分，残差映射指的是非“弯线”的剩余部分。X可表示输入的特征图。F(x)是求和节点前的网络映射，H(x)＝F(x)+x是输入到求和节点后的网络映射。残差网络可以将浅层的信息传递至网络深层，避免产生梯度消失，网络退化等问题，使网络的特征提取和映射能力大幅度增强。即使网络深度增加，其训练误差应该不高于原来的浅层网络。

图4B是多尺度融合网络的示图。多尺度融合网络(Feature Pyramid Network)304也被称为特征金字塔网络。多尺度融合网络对原特征图进行不同程度的下采样得到不同分辨率(不同尺寸)的特征图，对得到的不同分辨率的特征图进行信息融合(拼接)，以增加模型检测不同大小目标的能力。

如图4B所示，左边最下层是原始特征图，自下而上是对特征图进行下采样(例如，对tensor格式的特征图进行下采样)得到的分辨率逐渐降低的特征图。分辨率不同的每个特征图被输出多尺度融合网络(如右边所示)以用于后续的预测。卷积神经网络可以在不同尺寸的特征图上分别进行预测，由此具有了多尺度预测的能力。

多尺度融合网络的应用有利于分辨不同尺寸的目标。例如，在智能驾驶中，尤其在泊车过程中，往往需要执行障碍物检测和字符检测。障碍物检测任务一般用于检测较大的目标，例如，墙体(停车场的柱子)、其他车辆、人等等。字符检测任务一般用于检测较小的目标，例如，停车场地面上的车位号等。利用分辨率较小的特征图可以识别出较大的目标，例如，可用于障碍物检测任务。利用分辨率较大的特征图可以识别出较小的目标，例如，可用于字符检测任务。

在本申请中，通过在共享特征提取中使用多尺度融合网络，可以分别提取出不同图像处理任务所需的不同分辨率的特征图，由此在共享特征提取中不会损失后续任务所需的数据。

回到图2，空间融合模块206用于组合来自不同空间位置的相机的信息(例如，特征图)，赋予模型全局感知的能力。该模块主要用于解决不同环视相机检测到同一目标的目标重合问题。

空间融合模块206可以包括transformer模型。transformer模型具有全局注意力机制，可以识别出不同相机所捕获的图像中具有相同类别的目标，由此合并不同相机的图像中的相同目标。

通过空间融合模块206，可以将与多个鱼眼相机在同一时间捕捉到的多个图像分别对应的多个特征图合并为一个全局特征图，将其中重合的目标进行合并，从而去除冗余信息。

例如，空间融合模块206可以将相邻两个相机(例如，前视相机和左视相机、左视相机和后视相机等)的特征图中的目标进行分类，识别出两个特征图中相同种类的目标，将其进行合并。

空间融合模块206输出将几个特征图合并后得到的特征图。

时间融合模块208将一时间窗口内的特征图集合进行特征融合，其主要包括两个子模块，第一个子模块为特征图队列模块，第二个子模块为循环神经网络(RecurrentNeural Network，RNN)模块。

特征队列模块用于将与相机每隔一定时间间隔(例如，25ms)采样的多个图像相对应的多个特征图存储到队列中；RNN模块则对队列中的特征图进行处理，最终输出当前帧进行时间融合过后的特征图。RNN模块对特征图进行处理时会考虑到先前特征图，有利于对目标的跟踪。

图5示出了RNN的基本结构。如图5所示，x表示输入数据，x_t表示当前输入数据，x_t-1表示前一输入数据，x_t+1表示后一输入数据。s表示隐藏层输出，s_t表示当前隐藏层输出，s_t-1表示前一隐藏层输出，s_t+1表示后一隐藏层输出。o表示网络输出，o_t表示当前网络输出，o_t-1表示前一网络输出，o_t+1表示后一网络输出。U表示输入到隐藏层的权重值，W表示前一时刻隐藏层对当前隐藏层贡献的权重值，V表示隐藏层到输出层的权重值。

在本申请中，将特征图上对应位置的像素值作为x输入到RNN中，由此得到的输出可以考虑到先前特征图上对应位置的像素值。每次处理当前帧的特征图时都会融入历史帧特征图，有助于处理历史轨迹的重要信息。

本申请先进行空间融合得到与某一时间相对应的完整特征图(全景特征图)，随后对所得到的完整特征图进行时间融合，与先对各路特征图进行时间融合，随后进行空间融合相比，本申请的方案大大降低了计算量并且节省了处理资源。

经过试验证明，经过本申请的空间融合和时间融合的特征图，对于后续预测的效果良好，稳定性高。

回到图2，时间融合模块208的输出被分别提供给第一任务模块210和第二任务模块212。

在一个实现中，第一任务模块210可以是障碍物检测模块，用于检测障碍物的位置和类别(例如，墙体、其他车辆、人等)。障碍物检测模块可包括centernet模型，负责对特征图中的障碍物进行检测和分类。

障碍物检测模块可包括以下三个功能：

1)第一个功能是确定特征图中每一个像素点(H,W)属于每一个目标类别(C)所对应的概率值，如果与类别C相对应的概率值大于阈值，则可判断该像素点对应于类别为C的目标。

2)第二个功能是对特征图的微调，由于经过下采样(例如，2-4倍下采样)的特征图中的每一个像素点是从原特征图中的一小块区域获得并且由此对应原特征图中的该一小块区域，可以将经下采样的特征图中的点映射到原特征图中的对应区域以获得更加精确的位置。

3)第三个功能是确定检测到的障碍物的长宽Height*Width。

障碍物检测模块还可以包括后处理部分，包括目标去重、跟踪等。

第二任务模块212可以是字符检测模块，用于检测字符位置和字符信息。

字符检测模块包括用于检测字符位置的模块和用于检测字符信息的模块。

用于检测字符位置的模块可以包括DBNet(Differentiable BinarizationNetwork)。

DBNet是可微分的二值化网络，其用于检测字符的位置，其通过特征图的字符分割结果(概率图，每个像素为是否是正样本的概率)，使用预设的阈值将分割结果图转换为二值图，最后使用聚合操作(例如连通域)将像素级的结果转换成检测结果。

DBNet也可以使用其他用于检测字符位置的模块来代替，例如，基于渐进尺度扩展网络的形状鲁棒文本检测方法(Shape Robust Text Detection with Progressive ScaleExpansion Network，PSENet)、基于像素聚合网络的高效精确任意形状文本检测方法(Efficient and Accurate Arbitrary-Shaped Text Detection with PixelAggregation Network，PANNET)，等等。

用于检测字符信息的模块可以包括CRNN(Convolutional Recurrent NeuralNetwork，卷积递归神经网络)，用于识别字符的具体信息。

CRNN包括以下部分：

1)卷积层：其从输入特征图提取特征序列(feature sequence)。特征序列中的每一个特征向量(feature vector)是从特征图(feature map)中从左向右按列生成，也就是说，第i个特征向量是由所有特征图第i列生成的特征向量连接而成，每一列的宽度被设置为一个像素；

2)复现层(recurrent layer)：其针对每一帧预测标记分布(labeldistribution)。

3)转录层(transcription layer)，其将RNN生成的预测转化成一个标记序列。

输出模块214输出第一任务模块210和第二任务模块212的结果。

图9是根据本申请的一方面的输出模块214所输出的结果的示意图。如图9所示，输出中包括障碍物检测任务的输出和字符检测任务的输出。障碍物检测任务的输出可包括障碍物位置(图9中包括障碍物的框)和障碍物类别(例如，图9中所示的car(汽车)、pillar(柱子)、front(前轮)等)。字符检测任务的输出可包括字符的位置(图9中包括字符的框)和字符信息(例如，图9中所示的A042)。

根据本申请的一方面，可以对包括多个任务分支的卷积神经网络进行联合训练。换言之，可以将多个任务模型一起训练。可以在训练中对各个任务分支的输出分别应用其各自的训练调节权重W_i，并将各任务模型的经加权的损失函数进行求和，使求和得到的联合损失函数收敛，由此完成对包括多个任务模型的卷积神经网络模型的训练。

图6是根据本申请的各方面的对两个任务分支进行联合训练的示图。

如图6所示，与图1相比，图6所示的训练过程分别在第一任务模型106和第二任务模型108之后加入了加权模块，分别以W₁和W₂来表示。

具体而言，在训练过程中，用于第一任务模型的第一损失函数L_loss1和用于第二任务模型的第二损失函数L_loss2可以分别乘以对应的调节权重W₁和W₂，随后求和，构成联合损失函数L_loss。即，L_loss ^＝W₁L_loss1+W₂L_loss2。

在训练过程中，可以将训练样本集合同时输入第一任务模型和第二任务模型。在联合损失函数L收敛时，训练终止，得到经训练的第一任务模型和第二任务模型以用于后续预测使用。

通过对两个任务分支进行联合训练，可以通过一次训练来训练多个任务分支，从而节省了时间和处理复杂度。

进一步，通过在训练时在每个任务分支后分别加权，可以对重要度较高的任务模型赋予较高权重，加强对该任务分支的训练，从而使得该任务分支在预测时的准确度更高。对重要度较低的任务模型赋予较低权重，由此可以节省处理资源。

例如，可以每隔一段时间(例如，一周)将在最近时间段内处理的样本(例如，图像及其对应标签(例如障碍物位置和类型、字符位置和信息等))输入图6中所示的装置，对本申请的卷积神经网络进行训练。通过使联合损失函数收敛，可以根据在最近时间段(例如，最近一周)内每个任务的使用频度对该任务赋予相应的训练权重。例如，如果障碍物检测任务在最近时间段内使用较多，则可以对障碍物检测模型赋予较高的训练权重，从而使得经训练的障碍物检测模型在后续预测时的准确度更高。如果字符检测任务在最近时间段内使用较少，则可以对字符检测任务模型赋予较低的训练权重，从而使得在经训练的字符检测模型满足后续预测准确度要求的同时，节省处理资源。

请注意，虽然本说明书使用两个任务分支进行了解说，但多于两个任务分支的结构也在本申请的范围中。

如图7所示，在步骤702，可以对图像进行预处理。

可以从安装在车辆上的多个相机获取多个图像。对图像进行预处理可包括对这些图像调整图片大小、尺寸归一化、ToTensor操作、和畸变矫正等操作中的一者或多者。

在步骤704，可对经预处理的图像进行共享特征提取以获得特征图。

可使用共享主干网络对图像进行共享特征提取。共享主干网络可包括残差网络和多尺度融合网络。

在步骤706，可以对步骤704所得到的特征图进行空间融合。

可以使用transformer模型进行特征图的空间融合，将与在同一时间由多个鱼眼相机捕获的多个图像相对应的多个特征图合并为一个全局特征图。

在步骤708，可以对步骤706所得到的特征图进行时间融合。

可使用RNN模块对特征图进行时间融合。

在步骤710-712，可以使用所获得的特征图集合分别执行多个任务，例如进行第一任务处理710和第二任务处理712。

第一任务710可以是障碍物检测任务，第二任务712可以是字符检测任务。

障碍物检测可以通过centernet模型来实现，字符检测可以通过DBNet模型和CRNN模型来实现。

在步骤714，对多个任务中的每一个任务的结果进行输出。

请注意，虽然在图7中仅示出了第一任务处理710和第二任务处理712，但也可进行更多的任务处理。

空间融合706和时间融合708在一些实现中可被省略，在图7中以虚线示出。

在步骤802，可以使用车辆上的一个或多个鱼眼相机获取多帧图像。

在步骤804，可以使用共享主干网络模型处理所获得的多帧图像以获得用于多个图像处理任务的共享特征图集合。

在一方面，共享主干网络模型可包括残差网络模型和多尺度融合模型。

在一方面，可以使用transformer模型对所获得的共享特征图集合中的各特征图进行空间融合。

在一方面，可以使用RNN模型对经空间融合的共享特征图集合中的特征图进行时间融合。

在步骤806，可以针对该多个任务中的每个任务，使用单独的头部网络模型来处理该共享特征图集合以获得该图像处理任务的预测结果。

在一方面，该多个图像处理任务包括障碍物检测任务和字符检测任务，并且其中用于障碍物检测任务的头部网络模型包括CenterNet网络模型，用于字符检测任务的头部网络模型包括DBNet网络模型和CRNN网络模型。

在一方面，可以对用于该多个图像处理任务的多个头部网络模型进行联合训练，该联合训练包括：对用于每个图像处理任务的头部网络模型的输出应用一权重并对经加权的输出求和以计算用于该多个图像处理任务的多个头部网络模型的多任务损失函数，以及使所述多任务损失函数收敛。

本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”，而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而，可以在没有这些具体细节的情况下实践这些技术。在一些实例中，众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。

在附图中，类似组件或特征可具有相同的附图标记。此外，相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记，则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。

结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器，或者任何其他此类配置)。

本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现，则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如，由于软件的本质，以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置，包括被分布以使得功能的各部分在不同的物理位置处实现。另外，如本文(包括权利要求中)所使用的，在项目列举(例如，以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举，以使得例如A、B或C中的至少一个的列举意指A或B或C或AB或AC或BC或ABC(即，A和B和C)。同样，如本文所使用的，短语“基于”不应被解读为引述封闭条件集。例如，被描述为“基于条件A”的示例性步骤可基于条件A和条件B两者而不脱离本公开的范围。换言之，如本文所使用的，短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。

计算机可读介质包括非瞬态计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定，非瞬态计算机可读介质可包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的，则该同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括CD、激光碟、光碟、数字通用碟(DVD)、软盘和蓝光碟，其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。

提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的，并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此，本公开并非被限定于本文所描述的示例和设计，而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。

Claims

1.一种用于智能驾驶的多任务图像处理方法，包括：

使用车辆上的一个或多个鱼眼相机获取多帧图像；

使用共享主干网络模型处理所获得的多帧图像以获得用于多个图像处理任务的共享特征图集合；以及

针对所述多个图像处理任务中的每个图像处理任务，使用单独的头部网络模型来处理所述共享特征图集合以获得该图像处理任务的预测结果。

2.如权利要求1所述的方法，其中共享主干网络模型包括残差网络模型和多尺度融合模型。

3.如权利要求1或2所述的方法，其中所述多个图像处理任务包括障碍物检测任务和字符检测任务，并且其中用于障碍物检测任务的头部网络模型包括CenterNet网络模型，用于字符检测任务的头部网络模型包括DBNet网络模型和卷积递归神经网络模型。

4.如权利要求1所述的方法，进一步包括，使用transformer模型对所获得的共享特征图集合中的各特征图进行空间融合。

5.如权利要求4所述的方法，进一步包括，使用循环神经网络模型对经空间融合的共享特征图集合中的特征图进行时间融合。

6.如权利要求1所述的方法，进一步包括，对用于所述多个图像处理任务的多个头部网络模型进行联合训练，所述联合训练包括：对用于每个图像处理任务的头部网络模型的输出应用一权重并对经加权的输出求和以计算用于所述多个图像处理任务的多个头部网络模型的多任务损失函数，以及使所述多任务损失函数收敛。

7.一种用于智能驾驶的多任务图像处理装置，包括：

图像获取模块，所述图像获取模块被配置成使用车辆上的一个或多个鱼眼相机获取多帧图像；

共享主干网络模型，所述共享主干网络模型被配置成处理所获得的多帧图像以获得用于多个图像处理任务的共享特征图集合；以及

多个头部网络模型，所述多个头部网络模型中的每一个头部网络模型被配置成针对所述多个图像处理任务中的一个图像处理任务，处理所述共享特征图集合以获得该图像处理任务的预测结果。

8.如权利要求7所述的装置，其中共享主干网络模型包括残差网络模型和多尺度融合模型。

9.如权利要求7或8所述的装置，其中所述多个图像处理任务包括障碍物检测任务和字符检测任务，并且其中用于障碍物检测任务的头部网络模型包括CenterNet网络模型，用于字符检测任务的头部网络模型包括DBNet网络模型和卷积递归神经网络模型。

10.如权利要求7所述的装置，进一步包括空间融合模块，所述空间融合模块被配置成使用transformer模型对所获得的共享特征图集合中的各特征图进行空间融合。

11.如权利要求10所述的装置，进一步包括时间融合模块，所述时间融合模块被配置成使用循环神经网络模型对经空间融合的共享特征图集合中的特征图进行时间融合。

12.如权利要求7所述的装置，所述装置被配置成对用于所述多个图像处理任务的多个头部网络模型进行联合训练，所述联合训练包括：对用于每个图像处理任务的头部网络模型的输出应用一权重并对经加权的输出求和以计算用于所述多个图像处理任务的多个头部网络模型的多任务损失函数，以及使所述多任务损失函数收敛。

13.一种电子设备，包括处理器和存储器，所述存储器存储有程序指令；所述处理器运行程序指令实现如权利要求1至权利要求6中任一项所述的用于智能驾驶的多任务图像处理方法。