CN111027551A

CN111027551A - 图像处理方法、设备和介质

Info

Publication number: CN111027551A
Application number: CN201911300890.7A
Authority: CN
Inventors: 管成; 郭晓威; 余宗桥; 孙星; 杜俊珑; 彭湃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-17
Anticipated expiration: 2039-12-17
Also published as: CN111027551B

Abstract

公开了图像处理方法、设备和介质。所述图像处理方法包括：通过第一处理网络，提取输入图像的第一特征图，并基于第一特征图确定第一置信度图，其中第一处理网络是完成训练的网络，第一置信度图中的每一个位置分别对应于输入图像中的相应位置，且包括目标框信息以及与目标框对应的类别置信度；通过对第一置信度图执行调整处理，得到参考置信度图；通过第二处理网络，提取输入图像的第二特征图，并基于第二特征图确定第二置信度图；至少基于第二置信度图与参考置信度图之间的损失函数，训练第二处理网络；以及基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理，其中，第一处理网络的参数量大于第二处理网络的参数量。

Description

图像处理方法、设备和介质

技术领域

本公开涉及图像处理领域，更具体地说，涉及用于对图像执行目标检测的方法、设备和介质。

背景技术

随着用户对于图片处理要求的不断提升，图像目标检测技术的应用也愈加广泛。在用户对图片进行处理的过程中，有一个非常实际的需求就是将自己感兴趣的物体精确的检测出来。

现有的目标检测方法大多是基于神经网络的目标检测方法。例如，作为一种可能的实施方式，通过使用神经网络对原始图像提取特征图，并对特征图进行分类和回归，来生成最终的目标检测结果。目标检测结果包括目标框的位置以及目标所属的类别信息。

然而，在实践中，如何选择用于目标检测的神经网络的规模是需要权衡的。例如，选择大型神经网络来进行目标检测存在准确率高的优势，但也存在以下问题：第一，由于大模型对于训练数据具有较强的学习能力，但是容易对某一特定数据集过拟合；第二，在单帧检测运行速度上，由于受到了模型参数数量的限制，比较难以达到实时性的需求，用户体验差。虽然选择小型神经网络来进行目标检测能够满足实时性的需求，但是小模型的学习能力容易达到上限，从而存在准确率不高的问题。

发明内容

鉴于以上情形，期望提供能够同时满足实时性和准确性要求的用于目标检测的数据处理方法。

根据本公开的一个方面，提供了一种图像处理方法，包括：通过第一处理网络，提取输入图像的第一特征图，并基于所述第一特征图确定第一置信度图，其中所述第一处理网络是完成训练的网络，所述第一置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度，所述目标框信息为指示包围所述输入图像中的相应位置处检测到的对象的框的相关信息，且所述类别置信度为指示所述对象属于特定类别的置信度的信息；通过对所述第一置信度图执行调整处理，得到参考置信度图；通过第二处理网络，提取输入图像的第二特征图，并基于所述第二特征图确定第二置信度图；至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络；以及基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理，其中，第一处理网络的参数量大于第二处理网络的参数量。

另外，在根据本公开的方法中，所述第一置信度图中的每一个位置对应一个置信度向量，且所述置信度向量包括目标框信息以及与所述目标框对应的类别置信度。

另外，在根据本公开的方法中，通过对所述第一置信度图执行调整处理，得到参考置信度图进一步包括：针对所述第一置信度图中的每一个位置，执行以下处理：确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度；在所述第一置信度图中的该位置以及相邻位置包括的目标框中，确定属于同一个目标框的多个目标框；对所述多个目标框的类别置信度进行排序；以及将最大的类别置信度以及对应的目标框信息作为第一置信度图中该位置包括的类别置信度以及对应的目标框信息，并且当该位置还包括其他目标框信息时，将其他目标框信息所对应的类别置信度置为0。

另外，在根据本公开的方法中，确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度进一步包括：基于相邻位置与该位置之间的距离，对相邻位置的类别置信度进行加权，以作为相邻位置的类别置信度。

另外，在根据本公开的方法中，在确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度之后，进一步包括：过滤各类别置信度，以将低于第一预定阈值的类别置信度置为0。

另外，在根据本公开的方法中，确定属于同一个目标框的多个目标框进一步包括：确定两个目标框之间的重叠程度；当所述重叠程度大于第二预定阈值时，确定所述两个目标框属于同一个目标框。

另外，在根据本公开的方法中，所述输入图像为一训练数据集中的图像，且对应于一标注的目标检测结果，所述方法进一步包括：基于所述标注的目标检测结果，生成标注置信度图；其中至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络进一步包括：基于所述第二置信度图与所述参考置信度图之间的损失函数以及所述第二置信度图与所述标注置信度图之间的损失函数，训练所述第二处理网络。

根据本公开的另一方面，提供了一种图像处理设备，包括：第一检测装置，用于通过第一处理网络，提取输入图像的第一特征图，并基于所述第一特征图确定第一置信度图，其中所述第一处理网络是完成训练的网络，所述第一置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度，所述目标框信息为指示包围所述输入图像中的相应位置处检测到的对象的框的相关信息，且所述类别置信度为指示所述对象属于特定类别的置信度的信息；调整装置，用于通过对所述第一置信度图执行调整处理，得到参考置信度图；第二检测装置，用于通过第二处理网络，提取输入图像的第二特征图，并基于所述第二特征图确定第二置信度图；训练装置，用于至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络，其中所述第二检测装置基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理，其中，第一处理网络的参数量大于第二处理网络的参数量。

另外，在根据本公开的设备中，所述第一置信度图中的每一个位置对应一个置信度向量，且所述置信度向量包括目标框信息以及与所述目标框对应的类别置信度。

另外，在根据本公开的设备中，所述调整装置进一步被配置为：针对所述第一置信度图中的每一个位置，执行以下处理：确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度；在所述第一置信度图中的该位置以及相邻位置包括的目标框中，确定属于同一个目标框的多个目标框；对所述多个目标框的类别置信度进行排序；以及将最大的类别置信度以及对应的目标框信息作为第一置信度图中该位置包括的类别置信度以及对应的目标框信息，并且当该位置还包括其他目标框信息时，将其他目标框信息所对应的类别置信度置为0。

另外，在根据本公开的设备中，所述调整装置进一步被配置为通过执行以下处理来确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度：基于相邻位置与该位置之间的距离，对相邻位置的类别置信度进行加权，以作为相邻位置的类别置信度。

另外，在根据本公开的设备中，所述调整装置进一步被配置为在确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度之后，进一步执行以下处理：过滤各类别置信度，以将低于第一预定阈值的类别置信度置为0。

另外，在根据本公开的设备中，所述调整装置进一步被配置为通过执行以下处理来确定属于同一个目标框的多个目标框：确定两个目标框之间的重叠程度；当所述重叠程度大于第二预定阈值时，确定所述两个目标框属于同一个目标框。

另外，在根据本公开的设备中，所述输入图像为一训练数据集中的图像，且对应于一标注的目标检测结果，所述设备进一步包括：标注装置，用于基于所述标注的目标检测结果，生成标注置信度图；其中所述训练装置进一步被配置为通过执行以下处理来至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络：基于所述第二置信度图与所述参考置信度图之间的损失函数以及所述第二置信度图与所述标注置信度图之间的损失函数，训练所述第二处理网络。

根据本公开的再一方面，提供了一种计算机可读记录介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，使得所述处理器执行上述图像处理方法。

通过根据本公开实施例的图像处理方法、设备和介质，基于更大的第一处理网络输出的第一置信度图，训练更小的第二处理网络。因此，能够将更大的第一处理网络学习到的知识直接迁移到更小的第二处理网络，进而能够有效地提升第二处理网络的学习能力，从而在保证检测准确度的情况下大幅提高了检测速度。

附图说明

图1是示出了根据本公开实施例的图像处理方法的过程的流程图；

图2是示出了第一处理网络中的残差连接结构的示意图；

图3是示出了第一处理网络的训练过程的示意图；

图4是示出了得到参考置信度图的过程的流程图；

图5示出了与图4的各步骤对应的流程示意图；

图6A和图6B示出了根据本公开实施例的图像处理方法的输入图像和输出图像的一种示例；

图7是示出了根据本公开实施例的图像处理设备的配置的功能性框图；

图8示出了根据本公开实施例的图像处理系统的功能性框图；以及

图9示出了根据本公开实施例的一种示例性的计算设备的架构的示意图。

具体实施方式

下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本发明的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

将参照图1描述根据本公开的实施例的图像处理方法的具体过程。如图1所示，所述方法包括以下步骤。

首先，在步骤S101，通过第一处理网络，提取输入图像的第一特征图，并基于所述第一特征图确定第一置信度图，其中所述第一置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度。

这里，第一处理网络是用于执行目标检测任务的网络。通过向第一处理网络输入图像，第一处理网络可以输出关于输入图像中包含的对象的检测结果。

所述目标框信息为指示包围所述输入图像中的相应位置处检测到的对象的框的相关信息。例如，所述相关信息可以包括目标框的位置和尺寸的信息。具体来说，目标框的位置信息可以是中心点的坐标信息，目标框的尺寸信息可以是长、宽的偏移量。

所述类别置信度为指示所述对象属于特定类别的置信度的信息。例如，在实践中，置信度可以通过概率值来度量。

此外，在通过第一处理网络的目标检测中，可以仅检测一种类别的目标，也可以检测多种类别的目标。也就是说，特定类别的数目可以是一个，也可以是多个。在特定类别的数目为多个时，可以分别对于每一个类别，执行下文中所述的处理。

例如，第一处理网络可以是用于执行目标检测任务的卷积神经网络(Convolutional Nerual Network，CNN)。

在第一处理网络中，在输入层与输出层之间可以存在多个隐藏层。输入图像通过第一层隐藏层后得到第一层的特征图，然后第一层的特征图通过第二层隐藏层后得到第二层的特征，最终通过最后一层隐藏层得到最后一层的特征图。步骤S101中所提到的第一特征图应看作是最后一层的特征图。

另外，第一处理网络可以包括基础网络和高层网络。基础网络是用于从输入图像中逐层地提取特征图的网络，如用于得到第一特征图的网络，而高层网络是用于实现从特征图层面向具体类别和位置的分类和回归的网络，如用于得到第一置信度图的网络。

例如，作为一种可能的实施方式，基础网络可以采用darknet53模型。darknet53模型的示意图如表1所示。

表1

其中，conv层是卷积层，shortcut层是残差连接结构，upsample为上采样层。每个卷积层之后都接有带泄露修正线性单元(leaky ReLU)层和批标准化(BatchNormalization)层。每个残差(shortcut)连接结构如图2所示。在残差连接结构中，通过跳层连接，可以使得特征学习更加容易。

另外，在基础网络的各个尺寸的最后一层上添加yolo(You only look once)检测层，以实现从特征层面向具体类别和位置的回归。yolo检测层基于特征图输出置信度图。通过对于置信度图中的每一个位置处的目标框信息和类别置信度进行综合，可以确定输入图像中的目标检测结果。

并且，需要指出的是，在步骤S101执行时，第一处理网络已经完成训练。图3是示出了第一处理网络的训练过程的示意图。

在图3中，长方体表示具有H*W*C的尺寸的第一置信度图。尽管在图3中未示出第一特征图，但是第一特征图具有与第一置信度图相同的尺寸。所述第一置信度图中的每一个位置对应一个置信度向量，且所述置信度向量包括目标框信息以及与所述目标框对应的类别置信度。

例如，在图3中，长方体内包含的三维矩形条301表示第一置信度图的左上角第一个位置所对应的置信度向量，长方体内包含的三维矩形条302表示与第一置信度图的左上角第一个位置相邻的第二个位置所对应的置信度向量。在图3中，以网格(grid cell)来表示各位置。由于第一特征图的尺寸与第一置信度图的尺寸相同，因此这两个位置处的置信度向量对应于第一特征图上的相同位置处的特征向量。此外，尽管输入图像的尺寸与第一置信度图的尺寸不同，但是也可以对应地映射到相应的位置。例如，假设输入图像的尺寸为320*320，而第一置信度图的尺寸为10*10，那么第一置信度图中一个位置处的置信度向量对应于输入图像中32*32区域的检测结果。

另外，图3中的矩形条303示意性地表示三维矩形条301所对应的置信度向量中包含的目标框的类别置信度。当然，尽管未示出，但每一个类别置信度都对应于目标框的位置信息(例如，中心点坐标和长宽偏移量)。图3示出了一个置信度向量中包含三个目标框的情况。目标框的数量可以是预先设置好的，并且可以是任意可能的其他数值。如上文中所述，在所述置信度向量中，目标框信息与类别置信度是一一对应的。因此，例如，在置信度图的每一个位置处预设三个目标框的情况下，置信度图的每一个位置处的置信度向量将包括三个元素组，每一个元素组对应一个目标框，且每一个元素组中包括两个相关联的元素，即：目标框信息以及与目标框信息对应的类别置信度。当类别置信度为0时，即使置信度向量中存在与之对应的目标框信息，也可以认为该类别的目标框实质上是不存在的。

类似地，图3中的矩形条304示意性地表示三维矩形条302所对应的置信度向量中包含的目标框的类别置信度。

在图3中，矩形条303、304中的深色区域表示大于预设阈值的类别置信度，而空白区域表示被置为0的类别置信度。也就是说，可以通过阈值筛选的方式来去除一部分被看作噪声的检测结果。

然后，基于第一处理网络的检测结果与标注结果之间的损失函数，来训练第一处理网络。第一置信度图可以看作第一处理网络的检测结果，并且与输入图像对应的标注结果可以转换为与第一置信度图具有相同尺寸的标注置信度图。基于第一置信度图与标注置信度图之间的损失函数，来训练第一处理网络。例如，可以采用基于SGD(StochasticGradient Descent，随机梯度下降法)的梯度下降法求解第一处理网络的节点参数w和偏置参数b。在每次迭代过程中，计算损失函数并反向传播到第一处理网络，计算梯度并更新网络模型的参数，直至损失函数收敛为止。

然后，在步骤S102，通过对所述第一置信度图执行调整处理，得到参考置信度图。

接下来，将结合图4和图5来描述用于得到参考置信度图的示例过程。具体来说，可以通过针对所述第一置信度图中的每一个位置，执行图4中所示的以下处理来得到参考置信度图。此外，图5示出了与图4的各步骤对应的流程示意图。在图5中，以左上角的第一个位置作为当前位置为例进行描述，三维矩形条501表示该当前位置所对应的置信度向量。

首先，在步骤S401，确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度。在图5中，仅示出了与当前位置相邻的一个位置，并且以这一个相邻位置为例来描述，三维矩形条502表示该相邻位置所对应的置信度向量。当然，事实上，与当前位置相邻的位置不止图5中所示的一个。所有其他的相邻位置也可以按照同样的方法来处理。

例如，可以基于当前位置和相邻位置处的置信度向量中包括的元素，确定类别置信度。

或者，作为另一种可能的实施方式，确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度进一步包括：基于相邻位置与该位置之间的距离，对相邻位置的类别置信度进行加权。

例如，考虑到置信度图上相邻位置对当前位置的影响因子的不同，可以引入高斯距离重新计算类别置信度。具体来说，可以根据以下公式(1)来重新计算类别置信度。

其中，score_new表示重新计算的类别置信度，score表示原始的类别置信度(即，置信度向量中包括的类别置信度)，e为自然对数的底，x’,y’为相邻位置的坐标，并且x,y为当前位置的坐标。例如，在以网格表示各位置的情况下，x’,y’可以为相邻网格的中心点坐标，x,y为当前网格的中心点坐标。

在确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度之后，还可以进一步包括步骤S402，预先对类别置信度筛选的处理。具体来说，过滤各类别置信度，以将低于第一预定阈值的类别置信度置为0。通过这样的筛选处理，可以有效地降低待处理的数据量，去除无用信息。在图5中，与图3类似地，长方体内包含的三维矩形条501表示第一置信度图的左上角第一个位置所对应的置信度向量，长方体内包含的三维矩形条502表示与第一置信度图的左上角第一个位置相邻的第二个位置所对应的置信度向量。矩形条503示意性地表示三维矩形条501所对应的置信度向量中包含的目标框的类别置信度。矩形条504示意性地表示三维矩形条502所对应的置信度向量中包含的目标框的类别置信度。

在图5中，矩形条503、504中的深色区域表示通过所述筛选处理而获得的大于预设阈值的类别置信度，而空白区域表示被置为0的类别置信度。

当然，在其他的实施方式中，也可以省略以上步骤S402。因此，在图4中，以虚线框示出步骤S402。

然后，处理进行到步骤S403。在步骤S403，在所述第一置信度图中的该位置以及相邻位置包括的目标框中，确定属于同一个目标框的多个目标框。例如，在图5所示的、置信度图中的一个位置包括三个目标框的情况下，当前位置与相邻位置共包括预测得到的6个目标框。在这6个目标框之中，确定实质上属于同一个目标框的多个目标框。作为一种可能的实施方式，确定属于同一个目标框的多个目标框可以进一步包括：确定两个目标框之间的重叠程度；当所述重叠程度大于第二预定阈值时，确定所述两个目标框属于同一个目标框。例如，可以通过计算两个目标框之间的交并比来确定两个目标框之间的重叠程度。两个目标框之间的交并比是指两个目标框的交集与并集的比值。

也就是说，如果两个目标框之间大部分重叠，则可以认为这两个目标框实质上属于一个目标框。另一方面，如果两个目标框没有重叠的部分或分隔得很远，则可以认为这两个目标不属于一个目标框。

接下来，在步骤S404，对所述多个目标框的类别置信度进行排序。

最后，在步骤S405，将最大的类别置信度以及对应的目标框信息作为第一置信度图中该位置包括的类别置信度以及对应的目标框信息，并且当该位置还包括其他目标框信息时，将其他目标框信息所对应的类别置信度置为0。

例如，参照图5，示出了每一个位置处的置信度向量包括三个目标框的情况。并且，在图5中，示出了经过步骤S403和步骤S404的处理之后，矩形条503中的第二个目标框所对应的类别置信度最大的情况。在这种情况下，如图5中的矩形条503’和504’(分别对应于矩形条503和504)所示，仅保留最大的类别置信度，并将其他的类别置信度置为0。然后，将包含最大的类别置信度的矩形条503’作为当前位置的矩形条503。

当然，如果矩形条504中的第二个目标框所对应的类别置信度最大，则将包含最大的类别置信度的矩形条504’作为当前位置的矩形条503。

通过针对第一置信度图中的每一个位置执行按照图4所示的方法的处理，可以得到参考置信度图。然而，关于基于第一置信度图得到参考置信度图的方式并不仅限于图4所示的方法。本领域的技术人员可以理解，取决于具体的应用场景和设计要求，任何其他的方式也可以类似地应用于本公开，并且应该包括在本公开的范围内。

接下来，返回参照图1，处理进行到步骤S103。在步骤S103，通过第二处理网络，提取输入图像的第二特征图，并基于所述第二特征图确定第二置信度图。

与第一处理网络类似地，第二处理网络同样是用于执行目标检测任务的网络。通过向第二处理网络输入图像，第二处理网络可以输出关于输入图像中包含的对象的检测结果。

并且，与第一置信度图类似地，所述第二置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度。所述目标框信息为指示包围所述输入图像中的相应位置处检测到的对象的框的相关信息。例如，所述相关信息可以包括目标框的位置和尺寸的信息。具体来说，目标框的位置信息可以是中心点的坐标信息，目标框的尺寸信息可以是长、宽的偏移量。

但是，两个处理网络之间的区别在于，第二处理网络是参数量小于第一处理网络的处理网络。与第一处理网络的所有参数所要求的存储空间相比，第二处理网络的所有参数所要求的存储空间更小。例如，第一处理网络由于所要求的存储空间更大，因此更适合于运行在诸如服务器之类的大型设备上。第二处理网络由于所要求的存储空间更小，因此更适合于运行在诸如移动终端之类的小型设备上。

如上文中所述，第一处理网络可以使用darknet53作为基础模型，那么第二处理网络可以使用darknet53的1/4模型作为基础模型。当然，本领域的技术人员可以理解，这里的1/4模型仅为示例。根据具体的应用场景和设计要求，任何其他的更小模型也是可能的，例如，也可以使用darknet53的1/5模型作为基础模型。或者，两个处理网络也可以分别是不同的网络，且在隐藏层数量、各层节点数量等表示网络大小的参数方面不同，只要第一处理网络是比第二处理网络更大的处理网络即可。

然后，在步骤S104，至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络。

与第一处理网络的训练过程类似，例如，可以采用基于SGD(Stochastic GradientDescent，随机梯度下降法)的梯度下降法求解第二处理网络的节点参数w和偏置参数b。在每次迭代过程中，计算损失函数并反向传播到第二处理网络，计算梯度并更新网络模型的参数，直至损失函数收敛为止。

如上文中所述，所述参考置信度图是在所述第一置信度图的基础上调整得到的。因此，在根据本公开实施例的图像处理方法中，至少基于已经完成训练的所述第一处理网络的输出，训练参数量更小的第二处理网络。

尽管第一处理网络和第二处理网络的网络参数量不同，但最终输出的特征图以及置信度图的尺寸是相同的。并且，置信度图上的一个位置处包括的目标框的预设数量也是相同。因此，第二处理网络输出的第二置信度图可以与第一处理网络输出的第二置信度图对应，并能够基于第一置信度图与第二置信度图之间的损失函数，训练并优化第二处理网络，进而得到第二处理网络的网络参数。

当然，除了已经完成训练的所述第一处理网络的输出之外，在根据本公开实施例的图像处理方法中，还可以进一步基于训练数据集中的标注数据，来训练所述第二处理网络。

具体来说，所述输入图像为一训练数据集中的图像，且对应于一标注的目标检测结果。例如，可以使用PASCAL VOC 2012以及MS COCO目标检测数据集作为训练数据集。

例如，作为一种可能的实施方式，还可以进一步将训练数据集中的所有图像都进行随机的水平翻转和剪裁缩放操作，并生成相应的翻转图像与标签。此时，训练数据集扩大为原有数据集的两倍。从而，能够提升网络的训练效果。

在进一步基于训练数据集中的标注数据来训练所述第二处理网络情况下，所述方法可以进一步包括：基于所述标注的目标检测结果，生成标注置信度图。与第一处理网络输出的第一置信度图以及基于第一置信度图调整得到的参考置信度图相比，基于所述标注的目标检测结果生成的标注置信度图是更稀疏的，其中仅与标注的目标检测结果中包括的目标框对应的位置处的类别置信度为1，其余均为0。

其中，至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络可以进一步包括：基于所述第二置信度图与所述参考置信度图之间的损失函数以及所述第二置信度图与所述标注置信度图之间的损失函数，训练所述第二处理网络。

例如，可以将所述第二置信度图与所述参考置信度图之间的损失函数看作第一损失函数，并将所述第二置信度图与所述标注置信度图之间的损失函数看作第二损失函数。通过对这两个损失函数进行加权求和可以得到总的损失函数。通过基于总的损失函数来调整第二处理网络的参数，直至总的损失函数收敛为止。

最后，在步骤S105，基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理。

这里，需要指出的是，完成训练的第二处理网络可以独立地执行目标检测任务。具体来说，对于向其输入的任意一张图像，执行目标检测处理。

图6A和图6B示出了根据本公开实施例的图像处理方法的输入图像和输出图像的一种示例。如图6A所示，向完成训练的第二处理网络输入一张包括车辆的原始图像。所述第二处理网络对输入的原始图像执行特征提取、分类和归一化等一系列处理，并输出目标物体的、包括具体位置和所属类别的检测结果。最后，基于第二处理网络输出的检测结果，能够显示如图6B所示的图像。在图6B中，以矩形框框出了目标物体车辆，并显示该目标物体的类别为车辆。

在上文中，通过参照图1至图6B详细描述了根据本公开实施例的图像处理方法的具体过程。通过以上的描述可以看出，在根据本公开实施例的图像处理方法中，基于更大的第一处理网络输出的第一置信度图，训练更小的第二处理网络。由于第一置信度图实质上体现的是第一特征图，并且在第二处理网络中调整网络参数来优化其输出的第二特征图，因此可以认为，在根据本公开实施例的图像处理方法中，通过使用更大的第一处理网络输出的第一特征图来对更小的第二处理网络的第二特征图进行抑制蒸馏，以对第二处理网络的目标检测结果进行优化。通过将更大的第一处理网络学习到的知识直接迁移到更小的第二处理网络，能够有效地提升第二处理网络的学习能力，从而在保证检测准确度的情况下大幅提高了检测速度。

接下来，将参照图7描述根据本公开实施例的图像处理设备。如图7所示，图像处理设备700包括：第一检测装置701、调整装置702、第二检测装置703和训练装置704。

第一检测装置701用于通过第一处理网络，提取输入图像的第一特征图，并基于所述第一特征图确定第一置信度图，其中所述第一处理网络是完成训练的网络，所述第一置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度。

其中，所述第一置信度图中的每一个位置对应一个置信度向量，且所述置信度向量包括目标框信息以及与所述目标框对应的类别置信度。

在第一处理网络中，在输入层与输出层之间可以存在多个隐藏层。输入图像通过第一层隐藏层后得到第一层的特征图，然后第一层的特征图通过第二层隐藏层后得到第二层的特征，最终通过最后一层隐藏层得到最后一层的特征图。第一检测装置701通过所述第一处理网络所提到的第一特征图应看作是最后一层的特征图。

例如，作为一种可能的实施方式，基础网络可以采用darknet53模型。

并且，需要指出的是，由第一检测装置701所使用的第一处理网络是已经完成训练的网络。第一处理网络的具体训练过程参见上文中参照图3描述的内容。

调整装置702用于通过对所述第一置信度图执行调整处理，得到参考置信度图。

具体来说，所述调整装置702可以进一步被配置为针对所述第一置信度图中的每一个位置，执行以下处理。

首先，确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度。

或者，作为另一种可能的实施方式，确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度进一步包括：基于相邻位置与该位置之间的距离，对相邻位置的类别置信度进行加权。例如，考虑到置信度图上相邻位置对当前位置的影响因子的不同，可以引入高斯距离重新计算类别置信度。

在确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度之后，所述调整装置702还可以进一步过滤各类别置信度，以将低于第一预定阈值的类别置信度置为0。通过这样的筛选处理，可以有效地降低待处理的数据量，去除无用信息。当然，在其他的实施方式中，所述调整装置702也可以不执行所述筛选处理。

然后，在所述第一置信度图中的该位置以及相邻位置包括的目标框中，确定属于同一个目标框的多个目标框。作为一种可能的实施方式，确定属于同一个目标框的多个目标框可以进一步包括：确定两个目标框之间的重叠程度；当所述重叠程度大于第二预定阈值时，确定所述两个目标框属于同一个目标框。例如，可以通过计算两个目标框之间的交并比来确定两个目标框之间的重叠程度。两个目标框之间的交并比是指两个目标框的交集与并集的比值。

也就是说，如果两个目标框之间大部分重叠，则可以认为这两个目标框属于一个目标框。另一方面，如果两个目标框没有重叠的部分或分隔得很远，则可以认为这两个目标不属于一个目标框。

然后，对所述多个目标框的类别置信度进行排序。

最后，将最大的类别置信度以及对应的目标框信息作为第一置信度图中该位置包括的类别置信度以及对应的目标框信息，并且当该位置还包括其他目标框信息时，将其他目标框信息所对应的类别置信度置为0。

第二检测装置703用于通过第二处理网络，提取输入图像的第二特征图，并基于所述第二特征图确定第二置信度图。

但是，两个处理网络之间的区别在于，第二处理网络是网络参数量小于第一处理网络的处理网络。如上文中所述，第一处理网络可以使用darknet53作为基础模型，那么第二处理网络可以使用darknet53的1/4模型作为基础模型。当然，本领域的技术人员可以理解，这里的1/4模型仅为示例。根据具体的应用场景和设计要求，任何其他的更小模型也是可能的，例如，也可以使用darknet53的1/5模型作为基础模型。

训练装置704用于至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络。

如上文中所述，所述参考置信度图是在所述第一置信度图的基础上调整得到的。因此，在根据本公开实施例的图像处理设备中，训练装置704至少基于已经完成训练的所述第一处理网络的输出，训练参数量更小的第二处理网络。

尽管第一处理网络和第二处理网络的参数量不同，但最终输出的特征图以及置信度图的尺寸是相同的。并且，置信度图上的一个位置处包括的目标框的预设数量也是相同。因此，第二处理网络输出的第二置信度图可以与第一处理网络输出的第二置信度图对应，并能够基于第一置信度图与第二置信度图之间的损失函数，训练并优化第二处理网络，进而得到第二处理网络的网络参数。

当然，除了已经完成训练的所述第一处理网络的输出之外，在根据本公开实施例的图像处理设备中，训练装置704还可以进一步基于训练数据集中的标注数据，来训练所述第二处理网络。

在进一步基于训练数据集中的标注数据来训练所述第二处理网络情况下，所述设备700进一步包括：标注装置(图中未示出)，用于基于所述标注的目标检测结果，生成标注置信度图。与输入图像对应的标注结果可以转换为与第二置信度图具有相同尺寸的标注置信度图。与第一处理网络输出的第一置信度图以及基于第一置信度图调整得到的参考置信度图相比，基于所述标注的目标检测结果生成的标注置信度图是更稀疏的，其中仅与标注的目标检测结果中包括的目标框对应的位置处的类别置信度为1，其余均为0。

所述训练装置704可以进一步被配置为通过执行以下处理来至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络：基于所述第二置信度图与所述参考置信度图之间的损失函数以及所述第二置信度图与所述标注置信度图之间的损失函数，训练所述第二处理网络。

在第二处理网络训练完成之后，所述第二检测装置基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理。具体来说，对于向其输入的任意一张图像，执行目标检测处理。

在根据本公开实施例的图像处理设备中，基于更大的第一处理网络输出的第一置信度图，训练更小的第二处理网络。由于第一置信度图实质上体现的是第一特征图，并且在第二处理网络中调整网络参数来优化其输出的第二特征图，因此可以认为，在根据本公开实施例的图像处理设备中，通过使用更大的第一处理网络输出的第一特征图来对更小的第二处理网络的第二特征图进行抑制蒸馏，以对第二处理网络的目标检测结果进行优化。通过将更大的第一处理网络学习到的知识直接迁移到更小的第二处理网络，能够有效地提升第二处理网络的学习能力，从而在保证检测准确度的情况下大幅提高了检测速度。

图8示出了根据本公开实施例的图像处理系统的功能性框图。在图8中，由前端设备A接收数据(如，用户输入的待检测图像)，然后前端设备A将接收到的数据提供给后台设备C。这里，后台设备C可以是上文中所述的图像处理设备700。在后台设备C得到目标检测结果后，将其发送给前端设备B。这里，前端设备A和前端设备B可以是相同的设备，也可以是不同的设备。后台设备C可以是与前端设备A和前端设备B分离的远程服务器。或者，后台设备C可以与前端设备A和前端设备B同处一个本地系统中。

此外，根据本公开实施例的方法或设备也可以借助于图9所示的计算设备900的架构来实现。如图9所示，计算设备900可以包括总线910、一个或多个CPU920、只读存储器(ROM)930、随机存取存储器(RAM)940、连接到网络的通信端口950、输入/输出组件960、硬盘970等。计算设备900中的存储设备，例如ROM 930或硬盘970可以存储本公开提供的图像处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然，图9所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图9示出的计算设备中的一个或多个组件。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的图像处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

迄今为止，已经参照图1至图9详细描述了根据本公开实施例的图像处理方法、设备和介质。通过根据本公开实施例的图像处理方法、设备和介质，基于更大的第一处理网络输出的第一置信度图，训练更小的第二处理网络。因此，能够将更大的第一处理网络学习到的知识直接迁移到更小的第二处理网络，进而能够有效地提升第二处理网络的学习能力，从而在保证检测准确度的情况下大幅提高了检测速度。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，包括：

通过第一处理网络，提取输入图像的第一特征图，并基于所述第一特征图确定第一置信度图，其中所述第一处理网络是完成训练的网络，所述第一置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度，所述目标框信息为指示包围所述输入图像中的相应位置处检测到的对象的框的相关信息，且所述类别置信度为指示所述对象属于特定类别的置信度的信息；

通过对所述第一置信度图执行调整处理，得到参考置信度图；

通过第二处理网络，提取输入图像的第二特征图，并基于所述第二特征图确定第二置信度图；

至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络；以及

基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理，

其中，第一处理网络的参数量大于第二处理网络的参数量。

2.根据权利要求1所述的方法，其中，所述第一置信度图中的每一个位置对应一个置信度向量，且所述置信度向量包括目标框信息以及与所述目标框对应的类别置信度。

3.根据权利要求1所述的方法，其中通过对所述第一置信度图执行调整处理，得到参考置信度图进一步包括：

针对所述第一置信度图中的每一个位置，执行以下处理：

确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度；

在所述第一置信度图中的该位置以及相邻位置包括的目标框中，确定属于同一个目标框的多个目标框；

对所述多个目标框的类别置信度进行排序；以及

将最大的类别置信度以及对应的目标框信息作为第一置信度图中该位置包括的类别置信度以及对应的目标框信息，并且当该位置还包括其他目标框信息时，将其他目标框信息所对应的类别置信度置为0。

4.根据权利要求3所述的方法，其中确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度进一步包括：

基于相邻位置与该位置之间的距离，对相邻位置的类别置信度进行加权，以作为相邻位置的类别置信度。

5.根据权利要求3所述的方法，其中在确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度之后，进一步包括：

过滤各类别置信度，以将低于第一预定阈值的类别置信度置为0。

6.根据权利要求3所述的方法，其中确定属于同一个目标框的多个目标框进一步包括：

确定两个目标框之间的重叠程度；

当所述重叠程度大于第二预定阈值时，确定所述两个目标框属于同一个目标框。

7.根据权利要求1所述的方法，其中所述输入图像为一训练数据集中的图像，且对应于一标注的目标检测结果，所述方法进一步包括：

基于所述标注的目标检测结果，生成标注置信度图；

其中至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络进一步包括：

基于所述第二置信度图与所述参考置信度图之间的损失函数以及所述第二置信度图与所述标注置信度图之间的损失函数，训练所述第二处理网络。

8.一种图像处理设备，包括：

第一检测装置，用于通过第一处理网络，提取输入图像的第一特征图，并基于所述第一特征图确定第一置信度图，其中所述第一处理网络是完成训练的网络，所述第一置信度图中的每一个位置分别对应于所述输入图像中的相应位置，且包括目标框信息以及与所述目标框对应的类别置信度，所述目标框信息为指示包围所述输入图像中的相应位置处检测到的对象的框的相关信息，且所述类别置信度为指示所述对象属于特定类别的置信度的信息；

调整装置，用于通过对所述第一置信度图执行调整处理，得到参考置信度图；

第二检测装置，用于通过第二处理网络，提取输入图像的第二特征图，并基于所述第二特征图确定第二置信度图；以及

训练装置，用于至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络，

其中所述第二检测装置基于完成训练的第二处理网络，对向其输入的图像执行目标检测处理，

其中，第一处理网络的参数量大于第二处理网络的参数量。

9.根据权利要求8所述的设备，其中，所述第一置信度图中的每一个位置对应一个置信度向量，且所述置信度向量包括目标框信息以及与所述目标框对应的类别置信度。

10.根据权利要求8所述的设备，其中所述调整装置进一步被配置为：

针对所述第一置信度图中的每一个位置，执行以下处理：

对所述多个目标框的类别置信度进行排序；以及

11.根据权利要求10所述的设备，其中所述调整装置进一步被配置为通过执行以下处理来确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度：

12.根据权利要求10所述的设备，其中所述调整装置进一步被配置为在确定在所述第一置信度图中的该位置以及相邻位置包括的类别置信度之后，进一步执行以下处理：

13.根据权利要求10所述的设备，其中所述调整装置进一步被配置为通过执行以下处理来确定属于同一个目标框的多个目标框：

确定两个目标框之间的重叠程度；

14.根据权利要求8所述的设备，其中所述输入图像为一训练数据集中的图像，且对应于一标注的目标检测结果，所述设备进一步包括：

标注装置，用于基于所述标注的目标检测结果，生成标注置信度图；

其中所述训练装置进一步被配置为通过执行以下处理来至少基于所述第二置信度图与所述参考置信度图之间的损失函数，训练所述第二处理网络：

15.一种计算机可读记录介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，使得所述处理器执行如权利要求1-7中任一项所述的方法。