CN116758301B

CN116758301B - 一种图像处理方法以及相关设备

Info

Publication number: CN116758301B
Application number: CN202311016366.3A
Authority: CN
Inventors: 马露凡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Filing date: 2023-08-14
Publication date: 2024-06-25
Anticipated expiration: 2043-08-14

Abstract

本申请公开了一种图像处理方法以及相关设备，可以应用于自动驾驶领域，获取终端采集的待处理图像，待处理图像中包括若干目标；将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。本申请可以通过单一网络模型实现对目标2D、3D检测属性的联合预测。

Description

一种图像处理方法以及相关设备

技术领域

本申请涉及计算机技术领域，具体涉及一种图像处理方法以及相关设备。

背景技术

随着人工智能技术的发展，汽车行业开始大力推进自动驾驶技术的应用，自动驾驶技术具备超高的敏锐度和反应速度，可以更快速和准确地做出决策，从而能够协助完成完全驾驶、提升驾驶体验。在自动驾驶场景中，以目标检测技术为核心的感知系统需要自动识别道路场景中的行人、车辆和街道路况等信息，提供给下游的控制系统以辅助路径规划和决策。

在现有技术中，2D目标检测任务和3D目标检测任务通常被分离到两个不同的网络模块中，这样就会至少存在以下问题：其一，需要单独精细化地设计两个不同的网络结构，并对两个网络分别进行监督训练和参数调优；其二，在算法移植部署时，需要同时运行两个检测模块，对于资源耗用并不友好。

发明内容

本申请实施例提供一种图像处理方法以及相关设备，相关设备可以包括图像处理装置、电子设备、计算机可读存储介质和计算机程序产品，可以通过单一网络模型实现对目标2D、3D检测属性的联合预测。

本申请实施例提供一种图像处理方法，包括：

获取终端采集的待处理图像，所述待处理图像中包括若干目标；

将所述待处理图像输入图像特征提取网络进行特征编码，得到所述待处理图像对应的初始图像特征；

将所述初始图像特征输入特征金字塔网络，对所述初始图像特征中不同层次的特征进行特征融合，得到融合后特征；

将所述融合后特征分别输入二维检测头网络和三维检测头网络中，并基于所述二维检测头网络预测所述待处理图像中每个所述目标对应的二维属性信息，基于所述三维检测头网络预测所述待处理图像中每个所述目标对应的三维属性信息。

相应的，本申请实施例提供一种图像处理装置，包括：

获取单元，用于获取终端采集的待处理图像，所述待处理图像中包括若干目标；

特征编码单元，用于将所述待处理图像输入图像特征提取网络进行特征编码，得到所述待处理图像对应的初始图像特征；

特征融合单元，用于将所述初始图像特征输入特征金字塔网络，对所述初始图像特征中不同层次的特征进行特征融合，得到融合后特征；

预测单元，用于将所述融合后特征分别输入二维检测头网络和三维检测头网络中，并基于所述二维检测头网络预测所述待处理图像中每个所述目标对应的二维属性信息，基于所述三维检测头网络预测所述待处理图像中每个所述目标对应的三维属性信息。

可选的，在本申请的一些实施例中，所述特征编码单元具体可以用于将所述待处理图像输入图像特征提取网络中；基于分层深度聚合进行层级内的特征融合，并基于迭代深度聚合进行不同层级之间的连接，得到每个层级输出所述待处理图像的初始图像特征。

可选的，在本申请的一些实施例中，所述特征融合单元可以包括上采样子单元、更新子单元、以及融合子单元，包括：

上采样子单元，用于对每个层级输出的所述初始图像特征中尺寸最小的初始图像特征进行上采样操作，得到上采样特征；

更新子单元，用于基于所述上采样特征，更新与所述上采样特征尺寸相同的初始图像特征；

融合子单元，用于返回所述对每个层级输出的所述初始图像特征中尺寸最小的初始图像特征进行上采样操作的步骤，直至融合了每个层级输出的所述初始图像特征，得到融合后特征。

可选的，在本申请的一些实施例中，所述更新子单元具体可以用于将所述上采样特征和与所述上采样特征尺寸相同的初始图像特征沿通道方向合并，得到合并后特征；基于卷积层对所述合并后特征进行特征融合，得到初始融合后特征，并将所述初始融合后特征更新为与所述上采样特征尺寸相同的初始图像特征。

可选的，在本申请的一些实施例中，所述预测单元具体可以用于将所述融合后特征输入二维检测头网络中；基于所述二维检测头网络中第一分类子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的语义类别信息；基于所述二维检测头网络中第一残差子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的位置偏移量信息；基于所述二维检测头网络中第一尺寸子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的尺寸信息。

可选的，在本申请的一些实施例中，所述预测单元具体可以用于将所述融合后特征输入三维检测头网络中；基于所述三维检测头网络中第二分类子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的语义类别信息；基于所述三维检测头网络中第二残差子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的位置偏移量信息；基于所述三维检测头网络中第二尺寸子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的尺寸信息；基于所述三维检测头网络中第二框中心点深度子分支预测所述待处理图像中每个目标对应的第二框中心点深度信息；基于所述三维检测头网络中航向角子分支预测所述待处理图像中每个目标的航向角信息。

可选的，在本申请的一些实施例中，所述图像处理装置还可以包括第一训练单元，所述第一训练单元具体可以用于获取二维检测的输入样本图像；将所述二维检测的输入样本图像输入初始图像特征提取网络进行特征编码，得到所述二维检测的输入样本图像对应的初始二维检测的输入样本图像特征；将所述初始二维检测的输入样本图像特征输入初始特征金字塔网络，对所述初始二维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第一样本特征；将所述融合后第一样本特征输入初始二维检测头网络中，并基于所述初始二维检测头网络预测所述二维检测的输入样本图像中每个目标对应的二维检测属性预测值。

可选的，在本申请的一些实施例中，所述图像处理装置还可以包括第二训练单元，所述第二训练单元具体可以用于获取三维检测的输入样本图像；将所述三维检测的输入样本图像输入初始图像特征提取网络进行特征编码，得到所述三维检测的输入样本图像对应的初始三维检测的输入样本图像特征；将所述初始三维检测的输入样本图像特征输入初始特征金字塔网络，对所述初始三维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第二样本特征；将所述融合后第二样本特征输入初始三维检测头网络中，并基于所述初始三维检测头网络预测所述三维检测的输入样本图像中每个目标对应的三维检测属性预测值。

可选的，在本申请的一些实施例中，所述图像处理装置还可以包括第三训练单元，所述第三训练单元具体可以用于基于所述二维检测属性预测值、以及所述二维检测属性真值计算得到第一检测损失，并基于所述三维检测属性预测值、以及所述三维检测属性真值计算得到第二检测损失；基于所述第一检测损失和所述第二检测损失调整所述初始图像特征提取网络、以及所述初始特征金字塔网络的网络参数，得到图像特征提取网络、以及特征金字塔网络。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的图像处理方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现本申请实施例提供的图像处理方法中的步骤。

本申请实施例提供了一种图像处理方法以及相关设备，可以获取终端采集的待处理图像，待处理图像中包括若干目标；将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。本申请可以通过提出联合2D-3D多任务学习的目标检测网络框架、以及协同训练方法，使得整体方案仅需单一网络模型就能够实现对目标2D检测属性、以及3D检测属性的联合预测。本申请技术方案消除了设计和精调不同类型网络模块的需要，更加高效且能降低部署侧模型的资源耗用，去除了对同源的2D-3D检测联合标注数据的依赖，从而大大降低成本。同时，还能够保证模型的2D检测效果和单独学习的2D检测器相当。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的场景示意图；

图2是本申请实施例提供的图像处理方法的第一流程图；

图3是本申请实施例提供的图像处理方法的第二流程图；

图4是本申请实施例提供的图像处理方法的第三流程图；

图5是本申请实施例提供的图像处理方法的第四流程图；

图6是本申请实施例提供的图像特征提取网络示意图；

图7是本申请实施例提供的特征金字塔网络示意图；

图8是本申请实施例提供的二维检测头网络示意图；

图9是本申请实施例提供的三维检测头网络示意图；

图10是本申请实施例提供的目标检测效果示意图；

图11是本申请实施例提供的图像处理装置的结构示意图；

图12是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法以及相关设备，相关设备可以包括图像处理装置、电子设备、计算机可读存储介质和计算机程序产品。该图像处理装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的图像处理方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1所示，以终端和服务器共同执行图像处理方法为例。本申请实施例提供的图像处理系统包括终端和服务器等；终端与服务器之间通过网络连接，比如，通过有线或无线网络连接等，其中，图像处理装置可以集成在服务器中。

其中，服务器，可以用于：获取终端采集的待处理图像，待处理图像中包括若干目标；将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请所公开的图像处理方法或装置，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。

其中，终端，可以用于：采集包括目标的待处理图像，并获取来自服务器的目标对应的二维属性信息、以及三维属性信息，以便基于二维属性信息、以及三维属性信息进行相应的决策。其中，终端可以包括手机、智能语音交互设备、智能家电、车载终端、飞行器、平板电脑、笔记本电脑、或个人计算机（PC，Personal Computer）等。终端上还可以设置客户端，该客户端可以是应用程序客户端或浏览器客户端等等。用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。本实施例将从图像处理装置的角度进行描述，该图像处理装置具体可以集成在电子设备中，该电子设备可以是服务器或终端等设备。如图2所示，该图像处理方法的具体流程可以如下：

201、获取终端采集的待处理图像，待处理图像中包括若干目标。

其中，目标为待处理图像中需要进行识别的目标，如待处理图像为道路场景类型的图像，那么目标可以为待处理图像中所出现的障碍物、行人等需要进行识别的目标。

比如，可以获取车载单目相机采集的单目图像数据，并根据均值、标准差等对该单目图像数据进行归一化处理，得到待处理图像。该待处理图像中可以包括若干目标，如小车、大车、两轮车、三轮车、行人、锥桶等。

本申请技术方案可以应用于搭载了单目相机的自动驾驶车辆、无人送货车等产品上，并用于对道路场景内的障碍物等目标进行2D、3D的位置检测、以及尺寸估计，从而实现对单目视觉场景的2D-3D联合理解。其中，单目视觉是指仅使用单个相机图像数据的视觉感知。

202、将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征。

比如，获取到待处理图像中，可以将待处理图像输入图像特征提取网络进行特征编码，并得到待处理图像对应的初始图像特征。

可选的，在一实施例中，步骤“将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征”，可以包括：

将待处理图像输入图像特征提取网络中；

基于分层深度聚合进行层级内的特征融合，并基于迭代深度聚合进行不同层级之间的连接，得到每个层级输出待处理图像的初始图像特征。

其中，本申请技术方案所应用的图像特征提取网络包括多个层级，图像特征提取网络利用多个层级可以使得输入数据进行多次变换/映射，从而得到图像中所包含的更深层次的信息。比如，本申请技术方案可以采用DLA-34作为图像特征提取网络，如图6所示，DLA-34是一种可以有效融合不同阶段、不同分辨率、不同通道特征的残差卷积神经网络。

另外，为了融合不同层次的语义特征图，本申请技术方案应用了两种特征图聚合模式：

一种是迭代深度聚合（IDA，Iterative Deep Aggregation），迭代深度聚合起始于最浅最小的尺度，进而迭代合并为更深更大的尺度，使得浅层特征在不同阶段的聚合中得到了细化。通过迭代深度聚合能够更好的融合不同尺度和分辨率的特征图，使得更深的部分包括更多的语义信息，并且空间分辨率上更加的粗糙。如图6所示，它可以通过低层阶段跳跃连接到高层阶段来聚合不同尺度、不同分辨率的特征，也就是不同深度的层级；

另一种是分层深度聚合（HDA，Hierarchical Deep Aggregation），其结合了深层特征和浅层特征，从而得到更为丰富的特征组合。利用分层深度聚合可以使得浅层特征直接传播到深处，有利于网络保存浅层的组合特征，并且分层深度聚合方法简化了结构，从而能够提升计算效率。它可以通过树状结构块分层次进行不同通道和不同子模块之间的信息混合。

具体地，如图6所示为图像特征提取网络DLA-34的结构示意图，可以将预处理后尺寸为544×960×3的待处理图像输入到图像特征提取网络DLA-34中，基于分层深度聚合进行层级内的特征融合，并基于迭代深度聚合进行不同层级之间的连接，输出图像特征提取网络中四个层级按照不同下采样步长（4、8、16、32）编码的四种尺寸的初始图像特征，也即F_4s136×240×256、F_8s68×120×256、F_16s34×60×256、以及F_32s17×30×256四种不同编码尺度的下采样特征图。

203、将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征。

比如，可以将四种不同尺度的初始图像特征一起作为输入送到特征金字塔网络中，然后基于特征金字塔网络对初始图像特征中不同层次的特征进行特征融合，得到融合后特征。

可选的，在一实施例中，步骤“将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征”，可以包括：

对每个层级输出的初始图像特征中尺寸最小的初始图像特征进行上采样操作，得到上采样特征；

基于上采样特征，更新与上采样特征尺寸相同的初始图像特征；

返回对每个层级输出的初始图像特征中尺寸最小的初始图像特征进行上采样操作的步骤，直至融合了每个层级输出的初始图像特征，得到融合后特征。

比如，可以将初始图像特征F_32s17×30×256进行上采样操作，得到上采样特征，然后将得到的上采样特征与初始图像特征F_16s34×60×256进行特征融合，输出M_16s34×60×256，将M_16s更新为F_16s，再返回上采样的步骤，直至融合了每个层级输出的初始图像特征，得到融合后特征。

可选的，在一实施例中，步骤“基于上采样特征，更新与上采样特征尺寸相同的初始图像特征”，可以包括：

将上采样特征和与上采样特征尺寸相同的初始图像特征沿通道方向合并，得到合并后特征；

基于卷积层对合并后特征进行特征融合，得到初始融合后特征，并将初始融合后特征更新为与上采样特征尺寸相同的初始图像特征。

比如，如图7所示，本申请技术方案可以通过特征金字塔网络进一步融合图像特征提取网络输出的四种不同尺度的初始图像特征。具体地，首先对尺寸最小的初始图像特征F_32s17×30×256进行2倍上采样操作，其中，上采样操作可以通过双线性插值来实现。双线性插值算法如下所示：

其中，Q₁₁=(x₁,y₁)、Q₁₂=(x₁,y₂)、Q₂₁=(x₂,y₁)、Q₂₂=(x₂,y₂)为初始图像特征上选定的相邻四点，f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)为初始图像特征上选定的相邻四点的特征值，f(x,y)为初始图像特征上待插值计算位置点(x,y)的特征值。

然后可以将初始图像特征F_16s34×60×256和上采样后的特征沿通道方向合并，并利用3×3的卷积层进行特征融合，如下式所示，M_16s表示特征融合后输出的尺寸为34×60×256的特征。

然后重复上述操作，可以进一步对融合后的特征M_16s34×60×256进行2倍上采样，并将上采样后的特征与初始图像特征F_8s68×120×256沿通道方向合并，并利用3×3的卷积层进行特征融合，得到融合后的特征M_8s68×120×256。然后对融合后的特征M_8s68×120×256进行2倍上采样，并将上采样后的特征与初始图像特征F_4s136×240×256沿通道方向合并，并利用3×3的卷积层进行特征融合，最终得到融合后的特征M_4s136×240×256。

在一实施例中，为了让网络能够学习到同一特征图上不同像素位置的特征权重，本申请技术方案还可以包括一个基于像素的注意力机制模块。比如，可以将融合后的特征M_4s136×240×256作为输入，首先经过一个1×1的卷积层进行通道变换，然后经过一个3×3的卷积层进行特征编码后，利用一个1×1的卷积层和激活函数来生成注意力权重图，并将其与输入的特征M_4s136×240×256进行逐元素相乘操作，来得到最终的加权后的特征图进行输出。

204、将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。

其中，本申请技术方案包括2D目标检测和3D目标检测，2D目标检测可以预测图像中每个目标的语义类别、以及目标在二维像素坐标系下的位置，位置使用矩形包围框表示，以像素为单位。3D目标检测可以预测图像中每个目标的语义类别及目标在三维坐标系下的七自由度属性，包括位置估计、尺寸估计、航向角估计。

比如，如图5所示可以将融合后特征输入二维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息；同时，将融合后特征输入三维检测头网络中，并基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。

可选的，在一实施例中，步骤“将融合后特征输入二维检测头网络中，并基于二维检测头网络预测所述待处理图像中每个目标对应的二维属性信息”，可以包括：

将融合后特征输入二维检测头网络中；

基于二维检测头网络中第一分类子分支预测待处理图像中每个目标对应的二维检测头网络预测的语义类别信息；

基于二维检测头网络中第一残差子分支预测待处理图像中每个目标对应的二维检测头网络预测的位置偏移量信息；

基于二维检测头网络中第一尺寸子分支预测待处理图像中每个目标对应的二维检测头网络预测的尺寸信息。

其中，检测头网络是用于预测目标的种类、位置等信息的网络。二维检测头网络可以预测出目标在二维上的相关属性信息，三维检测头网络可以预测出目标在三维上的相关属性信息。

比如，如图8所示，二维检测头网络可以以特征金字塔网络所输出的融合后特征M_4s136×240×256为输入，预测目标在第一像素坐标系下的位置信息和尺寸信息。为了分别预测不同类型的二维属性信息，二维检测头网络可以包括第一分类子分支、第一残差子分支、以及第一尺寸子分支，每个子分支均由一个3×3的卷积层和一个1×1的卷积预测层组成。其中，第一分类子分支可以预测不同语义类别下目标的2D框粗糙中心点热力图；第一残差子分支可以预测2D框粗糙中心点的偏移量；第一尺寸子分支负责回归2D框在像素坐标系下的宽高大小。

可选的，在一实施例中，步骤“将融合后特征输入三维检测头网络中，并基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息”，可以包括：

将融合后特征输入三维检测头网络中；

基于三维检测头网络中第二分类子分支预测待处理图像中每个目标对应的三维检测头网络预测的语义类别信息；

基于三维检测头网络中第二残差子分支预测待处理图像中每个目标对应的三维检测头网络预测的位置偏移量信息；

基于三维检测头网络中第二尺寸子分支预测待处理图像中每个目标对应的三维检测头网络预测的尺寸信息；

基于所述三维检测头网络中第二框中心点深度子分支预测所述待处理图像中每个目标对应的第二框中心点深度信息；

基于三维检测头网络中航向角子分支预测待处理图像中每个目标的方向信息。

其中，三维检测头网络负责3D位置估计，也就是估计目标在三维坐标系（相机坐标系、激光雷达坐标系等）下的中心点位置，以米为单位的实际物理距离。三维检测头网络还负责3D尺寸估计，也就是估计目标在三维坐标系（相机坐标系、激光雷达坐标系等）下的长、宽、高尺寸大小，以米为单位的实际物理距离。三维检测头网络还负责航向角估计，也就是指相机坐标系下目标的前进方向与x轴的夹角，顺时针方向为正，航向角以弧度值表示，取值范围[-π,π]。

比如，如图9所示，三维检测头网络可以以特征金字塔网络所输出的融合后特征M_4s136×240×256作为输入，预测目标在三维像素坐标系下的位置信息、尺寸信息、以及航向角信息等。为了分别预测不同种类的三维属性信息，三维检测头网络可以包括第二分类子分支、第二残差子分支、第二尺寸子分支、航向角子分支、以及三维框中心点深度子分支，每个子分支均由一个3×3的卷积层和一个1×1的卷积预测层组成。其中，第二分类子分支可以预测不同语义类别下的目标的3D框用相机内参投影到像素坐标系下的粗糙中心点热力图；第二残差子分支可以预测投影到像素坐标系下的3D框中心点相对于粗糙中心点的偏移量；第二尺寸子分支负责回归3D框在三维相机坐标系下的长宽高大小；航向角子分支负责回归目标前进方向和与x轴夹角的弧度值。

可选的，在一实施例中，本申请技术方案可以利用多任务协同的方法进行网络模型的训练，步骤“获取终端采集的待处理图像”之前，还可以包括：

获取二维检测的输入样本图像、以及三维检测的输入样本图像；

将二维检测的输入样本图像、以及三维检测的输入样本图像输入初始图像特征提取网络进行特征编码，得到二维检测的输入样本图像对应的初始二维检测的输入样本图像特征、以及三维检测的输入样本图像对应的初始三维检测的输入样本图像特征；

将初始二维检测的输入样本图像特征输入初始特征金字塔网络，对初始二维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第一样本特征，并将初始三维检测的输入样本图像特征输入初始特征金字塔网络，对初始三维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第二样本特征；

将融合后第一样本特征输入初始二维检测头网络中，并基于初始二维检测头网络预测二维检测的输入样本图像中每个目标对应的二维检测属性预测值；

将融合后第二样本特征输入初始三维检测头网络中，并基于初始三维检测头网络预测三维检测的输入样本图像中每个目标对应的三维检测属性预测值；

基于二维检测属性预测值、以及二维检测属性真值计算得到第一检测损失，并基于三维检测属性预测值、以及三维检测属性真值计算得到第二检测损失；

基于第一检测损失和第二检测损失调整初始图像特征提取网络、以及初始特征金字塔网络的网络参数，得到图像特征提取网络、以及特征金字塔网络。

其中，二维检测的输入样本图像标注二维检测属性真值，三维检测的输入样本图像标注三维检测属性真值。

比如，本申请技术方案设计了一种多任务协同训练方法来优化上述统一的目标检测网络框架，从而实现2D-3D任务的交互学习。在训练阶段，网络支持使用不同源的样本数据，也即二维检测子任务和三维检测子任务可以使用两个独立的样本数据集进行训练，对应的网络模型加载两路样本数据作为输入，二者交替训练优化网络。

具体地，如图4所示，可以获取二维检测的输入样本图像、以及三维检测的输入样本图像，其中，二维检测的输入样本图像标注二维检测属性真值，且三维检测的输入样本图像标注三维检测属性真值。在训练阶段可以通过对样本图像进行随机翻转、随机剪裁等方法进行数据增强操作，以获取更全面的样本数据。

在每次迭代过程中，可以从二维检测的输入样本图像数据集中获取一个批次的第一样本数据I_{det_2d}，并将其输入到网络中进行前向计算，得到二维检测属性预测值，并根据样本中标注的二维检测属性真值、与所得到的二维检测属性预测值计算第一检测损失Loss_{det_2d}，其中，对二维样本图像进行相关检测时，可以忽略三维检测头网络的输出、以及对应损失。

与此同时，可以从三维检测的输入样本图像数据集中获取一个批次的二样本数据I_{det_3d}，并将其输入到网络中进行前向计算，得到三维检测属性预测值，并根据样本中标注的三维检测属性真值、与所得到的三维检测属性预测值计算第二检测损失Loss_{det_3d}，其中，对三维样本图像进行相关检测时，可以忽略二维检测头网络的输出、以及对应损失。

对当前批次样本数据，可以对第一检测损失Loss_{det_2d}和第二检测损失Loss_{det_3d}按照损失权重W_{det_2d}和W_{det_3d}进行加权后，根据链式法则反向传播计算梯度，并调优网络参数。

在网络训练的过程中，2D目标检测任务和3D目标检测任务共享主干网络（图像特征提取网络、以及特征金字塔网络），2D目标检测任务和3D目标检测任务联合优化相互辅助，能够增强主干网络的通用任务表征能力。同时，在头网络部分根据任务特征分别进行监督学习，也能够增强头网络的特定任务表征能力。在一个统一模型中联合学习多个任务比单独学习不同任务更加高效。另外，网络训练不再依赖于同源的真值数据，从而去除了对同源的2D-3D检测联合标注数据的依赖，从而使得成本更低。

在一实施例中，在训练阶段，2D头网络分类子分支使用目标2D框中心点高斯锐化后的热力图进行监督。训练2D检测头网络所使用的监督数据覆盖了单目相机视野内所有可见目标，从而保证模型能够达到和单独学习的2D检测器相当的检测精度，150米处远距离处目标也能被稳定检出。3D头网络分类子分支使用投影到像素坐标系下的3D框中心点高斯锐化后的热力图进行监督。需要注意的是，这里解耦了2D检测和3D检测的中心点热力图监督，两者分开进行监督，不再是一一绑定关系，因此2D检测距离不再受限于3D检测。同时，2D检测头的障碍物目标类别可与3D检测头的目标类别不同。

在现有技术中，针对所要预测的目标的差别，2D目标检测任务和3D目标检测任务通常被分离到两个不同的网络模块中，这样就会至少存在以下问题：其一，需要单独地精细化设计两个不同的网络结构，并对两个网络分别进行监督训练和参数调优；其二，在算法移植部署时，需要同时运行两个检测模块，资源耗用并不友好；其三，网络训练依赖同源的2D-3D检测标注，也即同一批单目图像训练数据既要有像素坐标系下的2D属性标注，又要有相机坐标系下的3D属性标注，但是2D-3D联合标注所需成本较高；其四，在分类头网络部分，2D和3D检测共享中心点的热力图监督，2D检测和3D检测一一绑定，但是，由于远处目标深度估计不准，单目3D检测距离受限，会相应的导致模型的2D检测距离远差于单独训练的2D检测模型。

由于2D目标检测任务和3D目标检测任务具有很多共同点，它们可以在一个统一的框架中以多任务的方式进行联合学习。本申请技术方案提出一种基于多任务学习的单目视觉2D和3D目标检测方法。通过设计一个统一的联合2D-3D多任务学习的目标检测网络框架以及对应的多任务协同训练方法，显著增强主干网络的通用任务表征能力、检测头网络的特定任务表征能力，从而能够更高效地、更低成本地通过单一模型实现对图像中障碍物目标2D、3D检测属性的联合预测。

首先，本申请技术方案可以通过将2D目标检测任务和3D目标检测任务集成到一个统一的网络框架中以多任务方式进行联合学习，比单独优化不同模型更高效，消除了设计和精调不同类型网络模块的需要，更加高效，同时降低部署侧模型的资源耗用；

其次，本申请技术方案可以通过设计一种多任务协同训练方法实现2D-3D任务的交互学习，2D检测头和3D检测头支持使用不同源的真值数据进行监督，去除对同源的2D-3D检测联合标注数据依赖，成本更低。

再次，本申请技术方案可以通过解耦2D和3D检测的中心点热力图监督，模型的2D检测距离不再受限于3D检测，能够达到和单任务模型相当的水平。

本申请技术方案提出的统一目标检测网络架构遵循“特征提取网络”+“特征金字塔”+“头网络”的算法流程设计。如图10所示，为利用本申请技术方案以100度单目相机图像数据为输入的障碍物目标的2D和3D检测效果图。图10的上面两图为统一网络模型输出的2D目标检测效果，图10的下面两图为统一网络模型输出的3D目标检测效果，位于图像边界的目标3D框仅可视化视野内可见的框顶点。由图10可以得知，应用本申请技术方案中提出的统一网络模型能够实现单一模型的2D-3D检测和属性感知，并且可以保证50米内障碍物目标3D检测准确度的基础上2D检测距离可达150米，从而达到和单独训练的2D检测器相当的水平。

本申请技术方案提出一种基于多任务学习的单目视觉2D和3D目标检测方法，该方法通过设计一个统一的联合2D-3D多任务学习的目标检测网络框架以及对应的多任务协同训练方法，能够通过单一模型实现对障碍物目标2D、3D检测属性的联合预测。本申请技术方案可以应用于搭载了单目相机的自动驾驶车辆、无人送货车等产品上，可用于对道路场景内的障碍物目标（大车、小车、三轮车、两轮车、行人、锥桶等）进行2D、3D位置检测和尺寸估计，从而实现对单目视觉的2D-3D联合理解。

由上可知，本实施例可以获取终端采集的待处理图像，待处理图像中包括若干目标；将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。本申请可以通过提出的联合2D-3D多任务学习的目标检测网络框架、以及协同训练方法，使得整体方案仅需单一网络模型就能够实现对目标2D检测属性、以及3D检测属性的联合预测。本申请技术方案消除了设计和精调不同类型网络模块的需要，更加高效且能降低部署侧模型的资源耗用，去除了对同源的2D-3D检测联合标注数据的依赖，从而大大降低成本。同时，还能够保证模型的2D检测效果和单独学习的2D检测器相当。

根据前面实施例所描述的方法，以下将以该图像处理装置具体集成在电子设备举例作进一步详细说明。本申请实施例提供一种图像处理方法，如图3所示，该图像处理方法的具体流程可以如下：

301、电子设备获取二维检测的输入样本图像、以及三维检测的输入样本图像。

比如，电子设备可以获取二维检测的输入样本图像、以及三维检测的输入样本图像，其中，二维检测的输入样本图像标注第一检测信息，且三维检测的输入样本图像标注第二检测信息。在训练阶段可以通过对样本图像进行随机翻转、随机剪裁等方法进行数据增强操作，以获取更全面的样本数据。

302、电子设备根据二维检测的输入样本图像、以及三维检测的输入样本图像对初始图像特征提取网络、以及初始特征金字塔网络进行网络训练，得到图像特征提取网络、以及特征金字塔网络。

比如，在每次迭代过程中，电子设备可以从二维检测的输入样本图像数据集中获取一个批次的第一样本数据I_{det_2d}，并将其输入到网络中进行前向计算，得到二维检测属性预测值，并根据样本中标注的二维检测属性真值、与所得到的二维检测属性预测值计算第一检测损失Loss_{det_2d}，其中，对二维样本图像进行相关检测时，可以忽略三维检测头网络的输出、以及对应损失。

与此同时，可以从三维检测的输入样本图像数据集中获取一个批次的第二样本数据I_{det_3d}，并将其输入到网络中进行前向计算，得到三维检测属性预测值，并根据样本中标注的三维检测属性真值、与所得到的三维检测属性预测值计算第二检测损失Loss_{det_3d}，其中，对三维样本图像进行相关检测时，可以忽略二维检测头网络的输出、以及对应损失。

对当前批次样本数据，可以对第一检测损失Loss_{det_2d}和第二检测损失Loss_{det_3d}按照损失权重W_{det_2d}和W_{det_3d}进行加权后，根据链式法则反向传播计算梯度，并调优网络参数，最终得到训练好的图像特征提取网络、以及特征金字塔网络。

303、电子设备获取终端采集的待处理图像。

比如，电子设备可以利用车载单目相机采集单目待处理图像，并对输入的待处理图像根据均值、标准差进行归一化处理。其中，在网络训练阶段可以采用随机翻转、随机裁剪等数据增强操作，以获得更为丰富的训练样本，而测试阶段默认不使用数据增强操作。

304、电子设备将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征。

比如，可以采用如图6所示的图像特征提取网络DLA-34，同时，为了融合不同层次的语义特征图，本申请设计了两种特征图聚合模式，一种是迭代深度聚合IDA，它通过低层阶段跳跃连接到高层阶段来聚合不同尺度、不同分辨率的特征图，也就是不同深度的层。另一种是分层深度聚合HDA，它通过一种树状结构块分层次进行不同通道和不同子模块之间的信息混合。

具体地，如图6所示，图像特征提取网络的输入为预处理后尺寸为544х960х3的待处理图像，输出为网络中四个不同阶段按照不同下采样步长（4、8、16、32）编码的四种多尺度特征图，包括136х240х256、68х120х256、34х60х256、17х30х256四种不同编码尺度的下采样特征图，分别记为F_4s、F_8s、F_16s、F_32s（s表示下采样步长）。四种不同尺度的下采样特征图一起作为输入被送到下一阶段的特征金字塔网络中。

305、电子设备将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征。

比如，如图7所示，可以首先对最小尺度为17х30х256的特征图F_32s进行2倍上采样操作，上采样操作通过双线性插值来实现。双线性插值算法如下式，f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)为特征图上选定的相邻4点（Q₁₁=(x₁,y₁)、Q₁₂=(x₁,y₂)、Q₂₁=(x₂,y₁)、Q₂₂=(x₂,y₂)）的特征值，f(x,y)为特征图上待插值计算位置点(x,y)的特征值。

然后将上一级大小34х60х256的特征图F_16s和上采样后的特征图沿通道方向合并，利用一个3x3卷积层进行特征融合。如下式所示，M_16s表示融合后输出的34х60х256大小的特征图。

紧接着，我们对上面融合后的34х60х256大小特征图M_16s进一步进行2倍上采样，然后和编码网络输出的68х120х256大小的特征图F_8s沿通道方向合并，并利用一个3x3卷积层进行融合，得到融合后的大小为68х120х256的特征图M_8s。类似地，对特征提取网络输出的136х240х256大小特征图F_4s和上一阶段融合得到的特征图M_8s重复执行上述融合模块，输出136х240х256大小的特征图M_4s。

同时，为了让网络能够学习到同一特征图上不同像素位置的特征权重，还可以将上面融合后的136х240х256大小的特征图M_4s为输入，首先经过一个1x1卷积层进行通道变换，再经过一个3x3卷积层进行特征编码后利用一个1x1卷积层和sigmoid层来生成注意力权重图，并将其与原始输入的特征图M_4s进行逐元素相乘操作来得到最终的加权后的特征图输出。

306、电子设备将融合后特征输入二维检测头网络中，并基于二维检测头网络预测目标对应的二维属性信息。

比如，如图8所示，2D检测头网络以上一特征金字塔网络输出的下采样4倍的136х240х256大小特征图为输入，预测目标在二维像素坐标系下的位置和尺寸。为了分别预测不同的2D属性，2D检测头网络分为第一分类子分支、第一残差子分支、以及第一尺寸子分支，每个子分支均由一个3x3卷积层和一个1x1的卷积预测层组成。其中，第一分类子分支预测不同语义类别下目标的2D框粗糙中心点热力图，第一残差子分支负责预测2D框中心点较粗糙中心点的偏移量，第一尺寸子分支则负责回归2D框在像素坐标系下的宽高大小。

其中，在训练阶段，2D头网络分类子分支使用目标2D框中心点高斯锐化后的热力图进行监督。训练2D检测头网络所使用的监督数据覆盖了单目相机视野内所有可见目标，保证模型能够达到和单独学习的2D检测器相当的检测精度，150米处远距离处目标也能被稳定检出。

307、电子设备将融合后特征输入三维检测头网络中，并基于三维检测头网络预测目标对应的三维属性信息。

比如，如图9所示，3D检测头网络以上一特征金字塔网络输出的下采样4倍的136х240х256大小特征图为输入，预测目标在三维相机坐标系下的位置、尺寸和航向角。为了分别预测不同的3D属性，3D检测头网络分为第二分类子分支、第二残差子分支、三维框中心点深度子分支、第二尺寸子分支、以及航向角子分支，每个子分支均由一个3x3卷积层和一个1x1的卷积预测层组成。其中，第二分类子分支预测不同语义类别下的目标的3D框用相机内参投影到像素坐标系下的粗糙中心点热力图，第二残差子分支负责预测投影到像素坐标系下的3D框中心点相对于粗糙中心点的偏移量，第二尺寸子分支负责回归3D框在三维相机坐标系下的长宽高大小，航向角分支则负责回归目标前进方向与和x轴夹角的弧度值。

其中，在训练阶段，3D头网络分类子分支使用投影到像素坐标系下的3D框中心点高斯锐化后的热力图进行监督。需要注意的是，这里解耦了2D检测和3D检测的中心点热力图监督，两者分开进行监督，不再是一一绑定关系，因此2D检测距离不再受限于3D检测。同时，2D检测头的障碍物目标类别可与3D检测头的目标类别不同。

由上可知，本实施例可以通过电子设备获取终端采集的待处理图像，待处理图像中包括若干目标；将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。本申请可以通过提出的联合2D-3D多任务学习的目标检测网络框架、以及协同训练方法，使得整体方案仅需单一网络模型就能够实现对目标2D检测属性、以及3D检测属性的联合预测。本申请技术方案消除了设计和精调不同类型网络模块的需要，更加高效且能降低部署侧模型的资源耗用，去除了对同源的2D-3D检测联合标注数据的依赖，从而大大降低成本。同时，还能够保证模型的2D检测效果和单独学习的2D检测器相当。

为了更好地实施以上方法，本申请实施例还提供一种图像处理装置，如图11所示，该图像处理装置可以包括获取单元1101、特征编码单元1102、特征融合单元1103、以及预测单元1104，如下：

获取单元1101，用于获取终端采集的待处理图像，所述待处理图像中包括若干目标；

特征编码单元1102，用于将所述待处理图像输入图像特征提取网络进行特征编码，得到所述待处理图像对应的初始图像特征；

特征融合单元1103，用于将所述初始图像特征输入特征金字塔网络，对所述初始图像特征中不同层次的特征进行特征融合，得到融合后特征；

预测单元1104，用于将所述融合后特征分别输入二维检测头网络和三维检测头网络中，并基于所述二维检测头网络预测所述待处理图像中每个所述目标对应的二维属性信息，基于所述三维检测头网络预测所述待处理图像中每个所述目标对应的三维属性信息。

可选的，在本申请的一些实施例中，所述特征编码单元1102具体可以用于将所述待处理图像输入图像特征提取网络中；基于分层深度聚合进行层级内的特征融合，并基于迭代深度聚合进行不同层级之间的连接，得到每个层级输出所述待处理图像的初始图像特征。

可选的，在本申请的一些实施例中，所述特征融合单元1103可以包括上采样子单元、更新子单元、以及融合子单元，包括：

可选的，在本申请的一些实施例中，所述预测单元1104具体可以用于将所述融合后特征输入二维检测头网络中；基于所述二维检测头网络中第一分类子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的语义类别信息；基于所述二维检测头网络中第一残差子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的位置偏移量信息；基于所述二维检测头网络中第一尺寸子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的尺寸信息。

可选的，在本申请的一些实施例中，所述预测单元1104具体可以用于将所述融合后特征输入三维检测头网络中；基于所述三维检测头网络中第二分类子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的语义类别信息；基于所述三维检测头网络中第二残差子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的位置偏移量信息；基于所述三维检测头网络中第二尺寸子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的尺寸信息；基于所述三维检测头网络中第二框中心点深度子分支预测所述待处理图像中每个目标对应的第二框中心点深度信息；基于所述三维检测头网络中航向角子分支预测所述待处理图像中每个目标的航向角信息。

由上可知，本实施例可以由获取单元1101获取终端采集的待处理图像，待处理图像中包括若干目标；由特征编码单元1102将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；由特征融合单元1103将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；由预测单元1104将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。本申请可以通过提出的联合2D-3D多任务学习的目标检测网络框架、以及协同训练方法，使得整体方案仅需单一网络模型就能够实现对目标2D检测属性、以及3D检测属性的联合预测。本申请技术方案消除了设计和精调不同类型网络模块的需要，更加高效且能降低部署侧模型的资源耗用，去除了对同源的2D-3D检测联合标注数据的依赖，从而大大降低成本。同时，还能够保证模型的2D检测效果和单独学习的2D检测器相当。

本申请实施例还提供一种电子设备，如图12所示，其示出了本申请实施例所涉及的电子设备的结构示意图，该电子设备可以是终端或者服务器等，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器1201、一个或一个以上计算机可读存储介质的存储器1202、电源1203和输入单元1204等部件。本领域技术人员可以理解，图12中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1201是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1202内的软件程序和/或模块，以及调用存储在存储器1202内的数据，执行电子设备的各种功能和处理数据。可选的，处理器1201可包括一个或多个处理核心；优选的，处理器1201可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1201中。

存储器1202可用于存储软件程序以及模块，处理器1201通过运行存储在存储器1202的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1202可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器1202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1202还可以包括存储器控制器，以提供处理器1201对存储器1202的访问。

电子设备还包括给各个部件供电的电源1203，优选的，电源1203可以通过电源管理系统与处理器1201逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1203还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元1204，该输入单元1204可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器1201会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1202中，并由处理器1201来运行存储在存储器1202中的应用程序，从而实现各种功能，如下：

本申请实施例提供了一种图像处理方法以及相关设备，可以获取终端采集的待处理图像，待处理图像中包括若干目标；将待处理图像输入图像特征提取网络进行特征编码，得到待处理图像对应的初始图像特征；将初始图像特征输入特征金字塔网络，对初始图像特征中不同层次的特征进行特征融合，得到融合后特征；将融合后特征分别输入二维检测头网络和三维检测头网络中，并基于二维检测头网络预测待处理图像中每个目标对应的二维属性信息，基于三维检测头网络预测待处理图像中每个目标对应的三维属性信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像处理方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种图像处理方法以及相关设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取二维检测的输入样本图像、以及三维检测的输入样本图像，所述二维检测的输入样本图像、以及所述三维检测的输入样本图像不同源，且所述二维检测的输入样本图像标注二维检测属性真值，所述三维检测的输入样本图像标注三维检测属性真值；

将所述二维检测的输入样本图像、以及所述三维检测的输入样本图像输入初始图像特征提取网络进行特征编码，得到所述二维检测的输入样本图像对应的初始二维检测的输入样本图像特征、以及所述三维检测的输入样本图像对应的初始三维检测的输入样本图像特征；

将所述初始二维检测的输入样本图像特征输入初始特征金字塔网络，对所述初始二维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第一样本特征，并将所述初始三维检测的输入样本图像特征输入所述初始特征金字塔网络，对所述初始三维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第二样本特征；

将所述融合后第一样本特征输入初始二维检测头网络中，并基于所述初始二维检测头网络预测所述二维检测的输入样本图像中每个目标对应的二维检测属性预测值；

将所述融合后第二样本特征输入初始三维检测头网络中，并基于所述初始三维检测头网络预测所述三维检测的输入样本图像中每个目标对应的三维检测属性预测值；

基于所述二维检测属性预测值、以及所述二维检测属性真值计算得到第一检测损失，并基于所述三维检测属性预测值、以及所述三维检测属性真值计算得到第二检测损失；

基于所述第一检测损失和所述第二检测损失调整所述初始图像特征提取网络、以及所述初始特征金字塔网络的网络参数，得到图像特征提取网络、以及特征金字塔网络；

将所述待处理图像输入所述图像特征提取网络进行特征编码，得到所述待处理图像对应的初始图像特征；

对每个层级输出的所述初始图像特征中尺寸最小的初始图像特征进行上采样操作，得到上采样特征；

将所述上采样特征和与所述上采样特征尺寸相同的初始图像特征沿通道方向合并，得到合并后特征；

基于卷积层对所述合并后特征进行特征融合，得到初始融合后特征，并将所述初始融合后特征更新为与所述上采样特征尺寸相同的初始图像特征；

返回所述对每个层级输出的所述初始图像特征中尺寸最小的初始图像特征进行上采样操作的步骤，直至融合了每个层级输出的所述初始图像特征，得到融合后特征；

将所述融合后特征输入至注意力机制模块中，通过卷积层进行通道变换、以及特征编码后，利用卷积层和激活函数生成注意力权重图，并将所述注意力权重图与所述融合后特征进行逐元素相乘操作，得到加权后特征图；

将所述加权后特征图分别输入二维检测头网络和三维检测头网络中，并基于所述二维检测头网络预测所述待处理图像中每个所述目标对应的二维属性信息，基于所述三维检测头网络预测所述待处理图像中每个所述目标对应的三维属性信息，所述二维检测头网络包括第一分类子分支、第一残差子分支、以及第一尺寸子分支，每个子分支均由一个3×3的卷积层和一个1×1的卷积预测层组成，所述三维检测头网络包括第二分类子分支、第二残差子分支、第二尺寸子分支、航向角子分支、以及三维框中心点深度子分支，每个子分支均由一个3×3的卷积层和一个1×1的卷积预测层组成，包括：

将所述加权后特征图输入二维检测头网络中，并基于所述二维检测头网络中第一残差子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的位置偏移量信息；

将所述加权后特征图输入三维检测头网络中，并基于所述三维检测头网络中第二残差子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的位置偏移量信息。

2.根据权利要求1所述的方法，其特征在于，所述图像特征提取网络包含多个层级，所述将所述待处理图像输入所述图像特征提取网络进行特征编码，得到所述待处理图像对应的初始图像特征的步骤，包括：

将所述待处理图像输入所述图像特征提取网络中；

基于分层深度聚合进行层级内的特征融合，并基于迭代深度聚合进行不同层级之间的连接，得到每个层级输出所述待处理图像对应的初始图像特征。

3.根据权利要求1所述的方法，其特征在于，所述二维属性信息包括二维检测头网络预测的语义类别信息、以及二维检测头网络预测的尺寸信息，所述基于所述二维检测头网络预测所述待处理图像中每个所述目标对应的二维属性信息的步骤，包括：

基于所述二维检测头网络中第一分类子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的语义类别信息；

基于所述二维检测头网络中第一尺寸子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的尺寸信息。

4.根据权利要求1所述的方法，其特征在于，所述三维属性信息包括第二语义类别信息、三维检测头网络预测的尺寸信息、第二框中心点深度信息、以及航向角信息，所述基于所述三维检测头网络预测所述待处理图像中每个所述目标对应的三维属性信息的步骤，包括：

基于所述三维检测头网络中第二分类子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的语义类别信息；

基于所述三维检测头网络中第二尺寸子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的尺寸信息；

基于所述三维检测头网络中航向角子分支预测所述待处理图像中每个目标的航向角信息。

5.一种图像处理装置，其特征在于，包括：

第一训练单元，用于获取二维检测的输入样本图像、以及三维检测的输入样本图像，所述二维检测的输入样本图像、以及所述三维检测的输入样本图像不同源，且所述二维检测的输入样本图像标注二维检测属性真值，所述三维检测的输入样本图像标注三维检测属性真值；将所述二维检测的输入样本图像、以及所述三维检测的输入样本图像输入初始图像特征提取网络进行特征编码，得到所述二维检测的输入样本图像对应的初始二维检测的输入样本图像特征、以及所述三维检测的输入样本图像对应的初始三维检测的输入样本图像特征；将所述初始二维检测的输入样本图像特征输入初始特征金字塔网络，对所述初始二维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第一样本特征，并将所述初始三维检测的输入样本图像特征输入初始特征金字塔网络，对所述初始三维检测的输入样本图像特征中不同层次的特征进行特征融合，得到融合后第二样本特征；将所述融合后第一样本特征输入初始二维检测头网络中，并基于所述初始二维检测头网络预测所述二维检测的输入样本图像中每个目标对应的二维检测属性预测值；将所述融合后第二样本特征输入初始三维检测头网络中，并基于所述初始三维检测头网络预测所述三维检测的输入样本图像中每个目标对应的三维检测属性预测值；基于所述二维检测属性预测值、以及所述二维检测属性真值计算得到第一检测损失，并基于所述三维检测属性预测值、以及所述三维检测属性真值计算得到第二检测损失；基于所述第一检测损失和所述第二检测损失调整所述初始图像特征提取网络、以及所述初始特征金字塔网络的网络参数，得到图像特征提取网络、以及特征金字塔网络；

特征编码单元，用于将所述待处理图像输入所述图像特征提取网络进行特征编码，得到所述待处理图像对应的初始图像特征；

特征融合单元，用于对每个层级输出的所述初始图像特征中尺寸最小的初始图像特征进行上采样操作，得到上采样特征；将所述上采样特征和与所述上采样特征尺寸相同的初始图像特征沿通道方向合并，得到合并后特征；基于卷积层对所述合并后特征进行特征融合，得到初始融合后特征，并将所述初始融合后特征更新为与所述上采样特征尺寸相同的初始图像特征；返回所述对每个层级输出的所述初始图像特征中尺寸最小的初始图像特征进行上采样操作的步骤，直至融合了每个层级输出的所述初始图像特征，得到融合后特征；将所述融合后特征输入至注意力机制模块中，通过卷积层进行通道变换、以及特征编码后，利用卷积层和激活函数生成注意力权重图，并将所述注意力权重图与所述融合后特征进行逐元素相乘操作，得到加权后特征图；

预测单元，用于将所述加权后特征图分别输入二维检测头网络和三维检测头网络中，并基于所述二维检测头网络预测所述待处理图像中每个所述目标对应的二维属性信息，基于所述三维检测头网络预测所述待处理图像中每个所述目标对应的三维属性信息，所述二维检测头网络包括第一分类子分支、第一残差子分支、以及第一尺寸子分支，每个子分支均由一个3×3的卷积层和一个1×1的卷积预测层组成，所述三维检测头网络包括第二分类子分支、第二残差子分支、第二尺寸子分支、航向角子分支、以及三维框中心点深度子分支，每个子分支均由一个3×3的卷积层和一个1×1的卷积预测层组成，包括：将所述加权后特征图输入二维检测头网络中，并基于所述二维检测头网络中第一残差子分支预测所述待处理图像中每个目标对应的二维检测头网络预测的位置偏移量信息；将所述加权后特征图输入三维检测头网络中，并基于所述三维检测头网络中第二残差子分支预测所述待处理图像中每个目标对应的三维检测头网络预测的位置偏移量信息。

6.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至4任一项所述的图像处理方法中的操作。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至4任一项所述的图像处理方法中的步骤。

8.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任一项所述的图像处理方法中的步骤。