CN113763412A

CN113763412A - 图像处理方法、装置及电子设备、计算机可读存储介质

Info

Publication number: CN113763412A
Application number: CN202111050368.5A
Authority: CN
Inventors: 赵颖; 汤嘉枫; 孟祥涵
Original assignee: Ricoh Software Research Center Beijing Co Ltd
Current assignee: Ricoh Software Research Center Beijing Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-07

Abstract

本申请公开了一种图像处理方法、装置及电子设备、计算机可读存储介质，该方法包括：获取双目相机采集的左图像和右图像；利用物体检测模型对左图像进行物体检测，得到左图像的物体检测结果，物体检测结果包括左物体检测框的位置和类别；根据左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图；根据左图像的物体检测结果、物体热力图和右图像，利用深度信息计算模型生成物体深度图；根据物体热力图和物体深度图，确定物体深度值。本申请一方面利用物体热力图来过滤物体检测框中的背景区域，提高了物体深度值计算的精度，另一方面通过引入注意力机制，使得分类模型的分类效果更好，从而得到更全面更完整的物体深度信息。

Description

图像处理方法、装置及电子设备、计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置及电子设备、计算机可读存储介质。

背景技术

在建筑工地等场景下，经常需要用塔吊将建筑材料吊在空中。当建筑材料被吊起来时，如果有施工人员靠近塔吊，就可能会发生危险。为了防止事故发生，需要通过检测建筑材料和施工人员的空间位置来进行施工现场的危险检测。

目前现有技术中可以通过目标检测来检测物体的空间位置。目标检测能得到每个物体的边界框，但是物体检测框中的背景区域会降低物体深度值计算的精度。

还有一种方式是通过实例分割来检测物体的空间位置。实例分割可以得到每个物体的分割图像，但它需要大量的人力成本标注分割标签用来训练实例分割模型，导致物体深度信息的计算效率低下，且成本较高。

发明内容

本申请实施例提供了一种图像处理方法、装置及电子设备、计算机可读存储介质，以提高物体深度信息的计算效率，降低成本。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种图像处理方法，所述方法包括：

获取双目相机采集的左图像和右图像；

利用物体检测模型对所述左图像进行物体检测，得到所述左图像的物体检测结果，所述物体检测结果包括左物体检测框的位置和类别；

根据所述左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图；

根据所述左图像的物体检测结果、所述物体热力图和所述右图像，利用深度信息计算模型生成物体深度图；

根据所述物体热力图和所述物体深度图，确定物体深度值。

可选地，所述根据所述左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图包括：

根据所述左物体检测框的位置，对所述左图像进行裁剪，得到物体区域图像；

对所述物体区域图像进行预处理，得到预处理后的物体区域图像；

利用基于注意力机制的分类模型，对预处理后的物体区域图像进行分类，得到物体类别；

利用CAM类激活图确定所述预处理后的物体区域图像对应所述物体类别的物体热力图。

可选地，所述对所述物体区域图像进行预处理，得到预处理后的物体区域图像包括：

将所述物体区域图像的尺寸调整为预设尺寸；

将调整后的物体区域图像进行归一化处理，得到所述预处理后的物体区域图像。

可选地，所述基于注意力机制的分类模型包括卷积模块、通道注意力模块、空间注意力模块和分类模块，所述利用基于注意力机制的分类模型，对预处理后的物体区域图像进行分类，得到物体类别包括：

利用所述卷积模块提取所述预处理后的物体区域图像的特征图；

利用所述通道注意力模块对所述预处理后的物体区域图像的特征图进行处理，得到所述通道注意力模块输出的特征图；

利用所述空间注意力模块对所述通道注意力模块输出的特征图进行处理，得到所述空间注意力模块输出的特征图；

利用所述分类模块对所述空间注意力模块输出的特征图进行分类，得到所述物体类别。

可选地，所述根据所述左图像的物体检测结果、所述物体热力图和所述右图像，利用深度信息计算模型生成物体深度图包括：

根据所述左物体检测框的位置，分别裁剪所述左图像和所述右图像，得到裁剪后的左图像和裁剪后的右图像；

对所述物体热力图进行二值化处理，得到二值化处理后的物体热力图；

利用所述二值化处理后的物体热力图，对所述裁剪后的左图像进行过滤处理，得到基于物体热力图的裁剪后的左图像，以及对所述裁剪后的右图像进行过滤处理，得到基于物体热力图的裁剪后的右图像；

根据基于物体热力图的裁剪后的左图像和所述基于物体热力图的裁剪后的右图像，生成所述物体深度图。

可选地，所述根据所述物体热力图和所述物体深度图，确定物体深度值包括：

利用所述物体热力图对所述物体深度图进行加权处理，得到加权处理后的物体深度图；

计算所述加权处理后的物体深度图中的深度值均值；

将所述深度值均值作为所述物体深度值。

可选地，所述方法还包括：

确定所述物体检测模型的物体检测损失，以及所述基于注意力机制的分类模型的分类损失；

根据所述物体检测损失更新所述物体检测模型的参数，以及根据所述分类损失更新所述基于注意力机制的分类模型的参数。

第二方面，本申请实施例还提供一种图像处理装置，所述装置用于实现前述之任一所述方法。

第三方面，本申请实施例还提供一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行前述之任一所述方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行前述之任一所述方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：本申请实施例的图像处理方法在进行图像处理时，先获取双目相机采集的左图像和右图像；然后利用物体检测模型对左图像进行物体检测，得到左图像的物体检测结果，物体检测结果包括左物体检测框的位置和类别；之后根据左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图；再根据左图像的物体检测结果、物体热力图和右图像，利用深度信息计算模型生成物体深度图；最后根据物体热力图和物体深度图，确定物体深度值。本申请实施例的图像处理方法一方面利用物体热力图来过滤物体检测框中的背景区域，提高了物体深度值计算的精度，另一方面通过引入注意力机制，使得分类模型的分类效果更好，从而得到更全面更完整的物体深度信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种图像处理方法的流程示意图；

图2为本申请实施例中一种物体检测流程示意图；

图3为本申请实施例中一种物体热力图生成流程示意图；

图4为本申请实施例中一种基于CAM得到的物体热力图；

图5为本申请实施例中一种基于注意力机制的分类模型的分类流程示意图；

图6为本申请实施例中一种通道注意力模块的处理流程示意图；

图7为本申请实施例中一种空间注意力模块的处理流程示意图；

图8为本申请实施例中一种物体深度图的生成流程示意图；

图9为本申请实施例中一种物体深度值的生成流程示意图；

图10为本申请实施例中一种图像处理方法的整体流程示意图；

图11为本申请实施例中一种图像处理装置的结构示意图；

图12为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请实施例提供了一种图像处理方法，如图1所示，提供了本申请实施例中一种图像处理方法的流程示意图，所述方法至少包括如下步骤S110至步骤S150：

步骤S110，获取双目相机采集的左图像和右图像。

本申请实施例的图像处理方法在获取物体深度信息时，需要先获取到双目相机采集到的左图像和右图像，作为后续获取图像中的物体深度信息的基础。这里获取到的左图像和右图像可以是灰度图像，以降低后续处理所需要的资源消耗，提高处理效率。双目相机采集的左图像和右图像在相机坐标系下的纵轴方向即Y方向上是对齐的，但在横轴方向即X方向上存在一定偏差。

步骤S120，利用物体检测模型对所述左图像进行物体检测，得到所述左图像的物体检测结果，所述物体检测结果包括左物体检测框的位置和类别。

在获取到左右图像后，需要利用事先训练好的物体检测模型对左图像进行物体检测，这里采用的物体检测模型可以基于Yolo v5网络训练得到，Yolo v5是卷积神经网络(Convolutional Neural Networks，CNN)中的一种，可以有效地平衡检测的速度和精度。当然，本领域技术人员也可以根据实际需求灵活选择其他类型的卷积神经网络，在此不作具体限定。

如图2所示，提供了本申请实施例中一种物体检测流程示意图，先将左图像输入到上述物体检测模型中，然后对左图像进行物体检测，进而可以输出左图像的物体检测结果，具体可以包括物体检测框的位置和类别。

步骤S130，根据所述左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图。

在得到左图像的物体检测结果后，可以利用事先训练好的基于注意力机制的分类模型生成左图像对应的物体热力图。这里的分类模型可以采用ResNet网络，当然本领域技术人员也可以根据实际需求采用其他类型的卷积神经网络，在此不作具体限定。

热力图是一种能够通过颜色变化程度，来直观反应出热点分布，区域聚集等数据信息的图像，因此通过本申请实施例的物体热力图能够直观看到物体区域的分布情况。此外，引入注意力机制的分类模型可以整合整个图像和所有通道的信息，因此可以得到更好的物体热力图，它可以覆盖到目标物体的更多区域，而不仅仅是最相关的部分区域。

步骤S140，根据所述左图像的物体检测结果、所述物体热力图和所述右图像，利用深度信息计算模型生成物体深度图。

在得到物体热力图后，需要进一步结合前述步骤得到的左图像的物体检测结果和右图像，利用深度信息计算模型来生成物体深度图，该物体深度图可以理解为是包含有左图像的物体检测框中的物体深度信息的图像。

步骤S150，根据所述物体热力图和所述物体深度图，确定物体深度值。

在得到物体深度图后，需要利用物体热力图对物体深度图进行加权处理，从而进一步过滤掉物体检测框内的背景部分，从而得到更加准确的物体深度值。最终得到的物体深度值是一个具体的数值，用以表征该物体与相机之间的距离，从而实现施工现场等场景下的危险检测。

本申请实施例的图像处理方法一方面利用物体热力图来过滤物体检测框中的背景区域，提高了物体深度值计算的精度，另一方面通过引入注意力机制，使得分类模型的分类效果更好，从而得到更全面更完整的物体深度信息。

在本申请的一个实施例中，所述根据所述左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图包括：根据所述左物体检测框的位置，对所述左图像进行裁剪，得到物体区域图像；对所述物体区域图像进行预处理，得到预处理后的物体区域图像；利用基于注意力机制的分类模型，对预处理后的物体区域图像进行分类，得到物体类别；利用CAM类激活图确定所述预处理后的物体区域图像对应所述物体类别的物体热力图。

如图3所示，提供了本申请实施例中一种物体热力图生成流程示意图。首先可以通过上述物体检测模型得到物体检测框，对于每个物体检测框，可以基于物体检测框的位置和大小对原始的左图像进行裁剪，从而得到左图像对应的物体区域图像，然后对裁剪后的左图像对应的物体区域图像进行预处理，之后将预处理后的物体区域图像输入到基于注意力机制的分类CNN中计算出物体类别。根据物体类别，可以使用一种CAM类激活图的方法来计算出每个物体区域图像的物体热力图，这里的CAM类激活图例如可以是Grad-CAM，Ablation-CAM等。

因为CAM类激活图只关注和物体最相关的区域，而不是整个物体，所以有时会丢失物体的某些部分。例如，当计算一个人的物体热力图时，只有头部区域点的值接近于1，身体区域点的值可能接近于0，因此本申请实施例在分类CNN中加入了注意力机制，以覆盖到目标物体的更多区域。

基于CAM得到的物体热力图可以作为一种粗略的物体分割图，因此这里只需要用到前述物体检测模型输出的物体检测框的类别标签即可，不需要额外的人力成本来标注分割标签。与一些传统的无标签的计算机视觉方法相比，例如k-means和显著性检，基于CAM得到的物体热力图效果更好，物体深度值的精度也更高。

物体热力图的数值表示与某一特定类别物体的相关性，与特定类别物体的相关性越高，数值就越大，与背景的相关性越大，数值就越小。如图4所示，提供了本申请实施例中一种基于CAM得到的物体热力图，第一行是原始图像，第二行是物体热力图，第三行是物体热力图上颜色和值的映射。从图4中可以看出，物体热力图上物体区域的数值很大，接近于1，而背景区域的数值很小，接近于0。利用物体热力图可以过滤物体检测框中的背景区域，进而可以提高物体深度值计算的精度。

在本申请的一个实施例中，所述对所述物体区域图像进行预处理，得到预处理后的物体区域图像包括：将所述物体区域图像的尺寸调整为预设尺寸；将调整后的物体区域图像进行归一化处理，得到所述预处理后的物体区域图像。

在对物体区域图像进行预处理时，可以先将裁剪后的左图像对应的物体区域图像调整为预设尺寸，这里的预设尺寸可以根据实际需求事先设置好，保证每一张裁剪后的物体区域图像的尺寸一致即可。

在得到调整后的物体区域图像后，还可以对调整后的物体区域图像进行归一化处理，归一化处理是指对图像进行了一系列标准的处理变换，使之变换为一固定标准形式的过程，通过归一化处理后的物体区域图像具有标准格式，从而保证后续计算物体深度信息的准确性。

当然除了上述两种预处理方式，本领域技术人员也可以根据实际需求灵活设置其他类型的预处理方式，在此不一一列举。

在本申请的一个实施例中，所述基于注意力机制的分类模型包括卷积模块、通道注意力模块、空间注意力模块和分类模块，所述利用基于注意力机制的分类模型，对预处理后的物体区域图像进行分类，得到物体类别包括：利用所述卷积模块提取所述预处理后的物体区域图像的特征图；利用所述通道注意力模块对所述预处理后的物体区域图像的特征图进行处理，得到所述通道注意力模块输出的特征图；利用所述空间注意力模块对所述通道注意力模块输出的特征图进行处理，得到所述空间注意力模块输出的特征图；利用所述分类模块对所述空间注意力模块输出的特征图进行分类，得到所述物体类别。

本申请实施例的基于注意力机制的分类模型包括卷积模块、通道注意力模块、空间注意力模块和分类模块三部分，相当于在基础的卷积模块和分类模块的基础上引入了通道注意力模块和空间注意力模块。通道注意力模块和空间注意力模块可以添加在分类CNN中的任意两个卷积模块之间，从而可以结合全局信息来优化物体热力图。

如图5所示，提供了本申请实施例中一种基于注意力机制的分类模型的分类流程示意图。首先可以利用卷积模块对预处理后的物体区域图像进行特征提取，得到物体区域图像的特征图，然后利用通道注意力模块对预处理后的物体区域图像的特征图进行处理，得到通道注意力模块输出的特征图；之后利用空间注意力模块对通道注意力模块输出的特征图进行处理，得到空间注意力模块输出的特征图；最后利用分类模块对空间注意力模块输出的特征图进行分类，从而得到物体类别。

如图6所示，提供了本申请实施例中一种通道注意力模块的处理流程示意图。通道注意力模块接收一个C*H*W的特征图，为了简单起见，这里可以忽略批处理的大小。其中，C是通道数，H是特征图高度，W是特征图宽度。然后把特征图变形成C*HW，再用一个线性层使特征图变成特定的长度3d，所以线性层之后的特征图的形状是C*3d。之后再用一个多头自注意力层来结合来自不同通道的信息，多头自注意力层的单个k、q、v都是1*d，可以通过将特征图均分成3份得到。多头自注意力层的输出是C*d，这里可以用另一个线性层使特征图还原成C*HW，并把它重新变形成C*H*W。

如图7所示，提供了本申请实施例中一种空间注意力模块的处理流程示意图。空间注意力模块输入通道注意力模块得到的C*H*W的特征图，然后对特征图进行分块变形，变形后的特征图为

P为分块大小。这里可以使用多头自注意力层结合H和W维度的信息。这里的多头自注意力层的单个k、q、v是1*P²C。多头自注意力层的输出是

最后同样用相反的操作把特征图还原为C*H*W，这里的原理和通道注意力层类似。

在本申请的一个实施例中，所述根据所述左图像的物体检测结果、所述物体热力图和所述右图像，利用深度信息计算模型生成物体深度图包括：根据所述左物体检测框的位置，分别裁剪所述左图像和所述右图像，得到裁剪后的左图像和裁剪后的右图像；对所述物体热力图进行二值化处理，得到二值化处理后的物体热力图；利用所述二值化处理后的物体热力图，对所述裁剪后的左图像进行过滤处理，得到基于物体热力图的裁剪后的左图像，以及对所述裁剪后的右图像进行过滤处理，得到基于物体热力图的裁剪后的右图像；根据基于物体热力图的裁剪后的左图像和所述基于物体热力图的裁剪后的右图像，生成所述物体深度图。

如图8所示，提供了本申请实施例中一种物体深度图的生成流程示意图，首先通过左图像的物体检测框分别裁剪左图像和右图像，得到裁剪后的左图像和裁剪后的右图像。然后利用事先设置的一个较低的阈值，将前述实施例得到的物体热力图进行二值化处理。之后再使用二值化后的物体热力图来过滤裁剪后的左图像中的背景区域以及裁剪后的右图像中的背景区域，也就是说，在物体热力图上数值小于预先设置好的阈值的点就会被滤掉，计算量会再次减少，从而得到基于物体热力图的裁剪后的左图像和基于物体热力图的裁剪后的右图像。最后将基于物体热力图的裁剪后的左图像和基于物体热力图的裁剪后的右图像一起输入深度图计算模型来生成一张基于CAM的物体深度图，这里的深度图计算模型可以采用SGBM(Semi-Global Block Matching，半全局匹配算法)。当然，本领域技术人员也可以根据实际需求灵活采用其他类型的深度图计算模型，在此不作具体限定。

基于CAM的物体深度图中有一些背景点的值是零，也就是在物体热力图中数值小于阈值的那些点，因为在深度图计算之前就过滤了裁剪后的左图像中的这些点，因此这与前述步骤S150中的物体热力图所发挥的作用不同，物体步骤S150中的物体热力图的目的是过滤物体检测框内的背景部分，而这里深度图计算流程中利用物体热力图过滤背景点的目的是为了减少计算量。所以在深度图计算流程中阈值较低，一般靠近物体边界的点在物体热力图中的数值要高于阈值，将被保留，即这步过滤后仍然会有背景区域残留，因此与深度图计算流程中利用物体热力图进行过滤的效果相比，步骤S150中利用物体热力图进行过滤的效果更强。

在本申请的一个实施例中，所述根据所述物体热力图和所述物体深度图，确定物体深度值包括：利用所述物体热力图对所述物体深度图进行加权处理，得到加权处理后的物体深度图；计算所述加权处理后的物体深度图中的深度值均值；将所述深度值均值作为所述物体深度值。

如图9所示，提供了本申请实施例中一种物体深度值的生成流程示意图。首先基于前述步骤得到的物体深度图和物体热力图，将用物体热力图和物体深度图中的各个点值逐点相乘。在物体热力图中，物体区域的值很大，接近于1，而背景区域的值很小，接近于0。因此可以通过逐点相乘的方式来过滤物体检测框中的背景区域，从而得到一个优化后的物体深度图，最后只需要计算优化后的物体深度图的平均值就可以得到物体深度值。

在本申请的一个实施例中，所述方法还包括：确定所述物体检测模型的物体检测损失，以及所述基于注意力机制的分类模型的分类损失；根据所述物体检测损失更新所述物体检测模型的参数，以及根据所述分类损失更新所述基于注意力机制的分类模型的参数。

本申请实施例在计算物体深度值的整体流程中主要涉及两个事先训练好的模型，一个是基于注意力机制的分类模型，一个是物体检测模型，因此在两个模型的训练阶段，可以根据模型输出的损失函数不断更新模型的参数。

具体地，这里可以用L_{cls_net}来表示分类模型的分类损失，用L_{obj_net}来表示物体检测模型的物体检测损失，L_{cls_net}可以采用交叉熵损失CrossEntropyLoss来计算，而L_{obj_net}可以用下述公式(1)来表示：

L_{obj_net}＝λ_objL_obj+λ_boxL_box+λ_clsL_cls， (1)

其中，L_obj是判断目标是否为物体的损失，L_box是物体检测框的预测损失，L_cls是物体类别的预测损失。λ_obj,λ_box,λ_cls是超参数。这里的L_obj和L_cls可以采用BCEWithLogitsLoss(BinaryCrossEntropy WithLogitsLoss，二元交叉熵损失函数)，而L_box可以是CIOU Loss(Complete-IoU Loss)。

此外，还可以采用一个优化器来优化网络，这里可以采用SGD(StochasticGradient Descent，随机最速下降法)。

如图10所示，提供了本申请实施例中一种图像处理方法的整体流程示意图。具体地，先获取双目相机采集的左图像和右图像；然后利用物体检测模型对左图像进行物体检测，得到左图像的物体检测结果，物体检测结果包括左物体检测框的位置和类别；之后根据左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图；再根据左图像的物体检测结果、物体热力图和右图像，利用深度信息计算模型生成物体深度图；最后根据物体热力图和物体深度图，确定物体深度值。

基于上述物体检测模型输出的物体检测结果和分类模型的分类结果，可以分别计算出模型的物体检测损失和分类损失，因此可以根据两个模型的损失大小确定是否需要进一步更新模型的参数，如果需要更新，则继续上述流程，如果不需要，则输出最终的物体深度值。

本申请实施例的图像处理方法一方面利用物体热力图来过滤物体检测框中的背景区域，提高了物体深度值计算的精度，另一方面通过引入注意力机制，使得分类模型的分类效果更好，从而得到更全面更完整的物体深度信息

需要说明的是，上述各个实施例主要以左图像为基准，最终输出得到的是针对左图像的物体深度值，对于右图像中的物体深度值的计算，同样可以参照上述处理逻辑，在此不再赘述。

本申请实施例还提供了一种图像处理装置1100，如图11所示，提供了本申请实施例中一种图像处理装置的结构示意图，所述装置1100包括：获取单元1110、检测单元1120、第一生成单元1130、第二生成单元1140以及第一确定单元1150，其中：

获取单元1110，用于获取双目相机采集的左图像和右图像；

检测单元1120，用于利用物体检测模型对所述左图像进行物体检测，得到所述左图像的物体检测结果，所述物体检测结果包括左物体检测框的位置和类别；

第一生成单元1130，用于根据所述左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图；

第二生成单元1140，用于根据所述左图像的物体检测结果、所述物体热力图和所述右图像，利用深度信息计算模型生成物体深度图；

第一确定单元1150，用于根据所述物体热力图和所述物体深度图，确定物体深度值。

在本申请的一个实施例中，所述第一生成单元1130具体用于：根据所述左物体检测框的位置，对所述左图像进行裁剪，得到物体区域图像；对所述物体区域图像进行预处理，得到预处理后的物体区域图像；利用基于注意力机制的分类模型，对预处理后的物体区域图像进行分类，得到物体类别；利用CAM类激活图确定所述预处理后的物体区域图像对应所述物体类别的物体热力图。

在本申请的一个实施例中，所述第一生成单元1130具体用于：将所述物体区域图像的尺寸调整为预设尺寸；将调整后的物体区域图像进行归一化处理，得到所述预处理后的物体区域图像。

在本申请的一个实施例中，所述基于注意力机制的分类模型包括卷积模块、通道注意力模块、空间注意力模块和分类模块，所述第一生成单元1130具体用于：利用所述卷积模块提取所述预处理后的物体区域图像的特征图；利用所述通道注意力模块对所述预处理后的物体区域图像的特征图进行处理，得到所述通道注意力模块输出的特征图；利用所述空间注意力模块对所述通道注意力模块输出的特征图进行处理，得到所述空间注意力模块输出的特征图；利用所述分类模块对所述空间注意力模块输出的特征图进行分类，得到所述物体类别。

在本申请的一个实施例中，所述第二生成单元1140具体用于：根据所述左物体检测框的位置，分别裁剪所述左图像和所述右图像，得到裁剪后的左图像和裁剪后的右图像；对所述物体热力图进行二值化处理，得到二值化处理后的物体热力图；利用所述二值化处理后的物体热力图，对所述裁剪后的左图像进行过滤处理，得到基于物体热力图的裁剪后的左图像，以及对所述裁剪后的右图像进行过滤处理，得到基于物体热力图的裁剪后的右图像；根据基于物体热力图的裁剪后的左图像和所述基于物体热力图的裁剪后的右图像，生成所述物体深度图。

在本申请的一个实施例中，所述第一确定单元1150具体用于：利用所述物体热力图对所述物体深度图进行加权处理，得到加权处理后的物体深度图；计算所述加权处理后的物体深度图中的深度值均值；将所述深度值均值作为所述物体深度值。

在本申请的一个实施例中，所述装置还包括：第二确定单元，用于确定所述物体检测模型的物体检测损失，以及所述基于注意力机制的分类模型的分类损失；更新单元，用于根据所述物体检测损失更新所述物体检测模型的参数，以及根据所述分类损失更新所述基于注意力机制的分类模型的参数。

能够理解，上述图像处理装置，能够实现前述实施例中提供的由清算服务器执行的图像处理方法的各个步骤，关于图像处理方法的相关阐释均适用于图像处理装置，此处不再赘述。

图12是本申请的一个实施例电子设备的结构示意图。请参考图12，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成图像处理装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取双目相机采集的左图像和右图像；

根据所述物体热力图和所述物体深度图，确定物体深度值。

上述如本申请图11所示实施例揭示的图像处理装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图11中图像处理装置执行的方法，并实现图像处理装置在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图11所示实施例中图像处理装置执行的方法，并具体用于执行：

获取双目相机采集的左图像和右图像；

根据所述物体热力图和所述物体深度图，确定物体深度值。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取双目相机采集的左图像和右图像；

根据所述物体热力图和所述物体深度图，确定物体深度值。

2.根据权利要求1所述方法，其特征在于，所述根据所述左图像的物体检测结果，利用基于注意力机制的分类模型生成物体热力图包括：

3.根据权利要求2所述方法，其特征在于，所述对所述物体区域图像进行预处理，得到预处理后的物体区域图像包括：

将所述物体区域图像的尺寸调整为预设尺寸；

4.根据权利要求2所述方法，其特征在于，所述基于注意力机制的分类模型包括卷积模块、通道注意力模块、空间注意力模块和分类模块，所述利用基于注意力机制的分类模型，对预处理后的物体区域图像进行分类，得到物体类别包括：

5.根据权利要求1所述方法，其特征在于，所述根据所述左图像的物体检测结果、所述物体热力图和所述右图像，利用深度信息计算模型生成物体深度图包括：

6.根据权利要求1所述方法，其特征在于，所述根据所述物体热力图和所述物体深度图，确定物体深度值包括：

计算所述加权处理后的物体深度图中的深度值均值；

将所述深度值均值作为所述物体深度值。

7.根据权利要求1所述方法，其特征在于，所述方法还包括：

8.一种图像处理装置，其特征在于，所述装置用于实现权利要求1～7之任一所述方法。

9.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1～7之任一所述方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行所述权利要求1～7之任一所述方法。