CN112651364B

CN112651364B - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN112651364B
Application number: CN202011625840.9A
Authority: CN
Inventors: 吴尧; 四建楼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-06-20
Anticipated expiration: 2040-12-31
Also published as: CN112651364A

Abstract

本公开提供了一种图像处理方法、装置、电子设备及存储介质，其中，该方法包括：获取待处理图像；将所述待处理图像按照目标分辨率进行缩放，得到目标图像；其中，所述目标分辨率低于所述待处理图像的分辨率；利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

图像作为一种常规的信息承载媒介，在工作、生活等各个场景都被广泛应用。通过对图像中各个像素点的语义进行识别，能够从图像中获取到各种信息，目标识别、目标检测、场景识别等技术都是基于图像语义识别的。通常，可以利用训练好的神经网络对图像进行语义识别。在实时图像语义识别等场景下，神经网络需要能够以极快的速度完成语义识别，由于对识别速度的要求，神经网络通常会对卷积层数与通道数进行删减，使得神经网络的感受野较低，识别结果的精确度不足。

发明内容

本公开实施例至少提供一种图像处理方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种图像处理方法，包括：

获取待处理图像；

将所述待处理图像按照目标分辨率进行缩放，得到目标图像；其中，所述目标分辨率低于所述待处理图像的分辨率；

利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果。

该方面，通过将待处理图像缩放，得到分辨率较低的目标图像，能够降低目标神经网络的计算量，进而降低确定第一语义预测结果和第二语义预测结果所需的时长，并且，由于第一语义预测识别结果是多个特征维度对应的语义识别结果，使得通过第一语义预测结果确定第二语义预测结果能够反映各个特征维度的图像特征，进而使第二语义预测结果更加符合实际情况，精确度较高。

在一种可能的实施方式中，所述目标神经网络中网络深度小于或等于第一深度阈值的网络层中的通道数小于或等于第一通道数阈值；所述目标神经网络中网络深度大于或等于第二深度阈值的网络层中的通道数大于或等于第二通道数阈值。

该实施方式，通过使网络深度较低的网络层的通道数减少，减少目标神经网络的计算量，并且使网络深度较高的网络层中的通道数维持在一定的数量，能够保持目标神经网络的感受野，保持一定的计算精度，使得目标神经网络在保持计算精确度的同时，降低目标神经网络进行语义识别所需的时长。

在一种可能的实施方式中，所述基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果，包括：

按照所述多个特征维度由低到高的顺序执行多次融合处理之后，得到所述待处理图像的第二语义预测结果；

其中，所述多次融合处理中第i次融合处理包括：

确定第一特征维度的第一语义预测结果的置信度信息；

利用所述第一特征维度的第一语义预测结果的置信度信息，对所述第一特征维度的第一语义预测结果和第二特征维度的第一语义预测结果进行融合，得到第二特征维度的第一目标语义预测结果；

将所述第一目标语义预测结果更新为第i+1次融合过程中第一特征维度的第一语义预测结果；

其中，所述第一特征维度和所述第二特征维度为所述多个特征维度中相邻的特征维度，所述第一特征维度低于所述第二特征维度。

该实施方式，基于第一语义预测结果的置信度信息，将第一特征维度的第一语义预测结果和第二特征维度的第一语义预测结果进行融合，并进行多次融合处理，最终得到融合各个第一语义预测结果的第二语义预测结果，能够使目标神经网络能够对多个特征维度的第一语义预测结果产生不同的注意力，进而提高目标神经网络的精确度。

在一种可能的实施方式中，所述识别所述目标图像在多个特征维度的第一语义预测结果，包括：

提取所述目标图像分别在所述多个特征维度上的图像特征信息；

针对所述多个特征维度中的最低特征维度，基于所述最低特征维度上的图像特征信息，确定所述目标图像在所述最低特征维度的第一语义预测结果；

针对所述多个特征维度中任一第三特征维度，基于所述第三特征维度上的图像特征信息以及第四特征维度对应的第一语义预测结果，确定所述目标图像在所述第三特征维度的第一语义预测结果；

所述第三特征维度和所述第四特征维度为所述多个特征维度中除所述最低特征维度之外的相邻的特征维度，所述第三特征维度高于所述第四特征维度。

该实施方式，通过前一特征维度的第一语义预测结果以及当前特征维度对应的图像特征信息确定当前特征维度的第一语义预测结果，使第一语义预测结果携带各个特征维度的特征，进而提高神经网络的精确度。

在一种可能的实施方式中，所述待处理图像包括人物图像，所述第一语义预测结果和/或所述第二语义预测结果包括至少两类区域，所述至少两类区域包括人物的头发区域和人物的非头发区域。

在一种可能的实施方式中，所述待处理图像还包括预先标注的真实语义标签；

所述方法还包括：

基于所述待处理图像对应的真实语义标签以及所述待处理图像的第二语义预测结果，对所述目标神经网络进行训练。

该实施方式，通过利用真实语义标签及第二语义预测结果对目标神经网络进行训练，能够提高目标神经网络的精确度。

在一种可能的实施方式中，所述基于所述待处理图像对应的真实语义标签以及所述待处理图像的第二语义预测结果，对所述目标神经网络进行训练，包括：

对所述第二语义预测结果进行上采样，得到与所述待处理图像的分辨率相同的第三语义预测结果；

利用所述第三语义预测结果和所述真实语义标签，确定目标损失；

基于目标损失对所述目标神经网络的参数进行调整。

该实施方式，通过利用与待处理图像的分辨率相同的第三语义预测结果与真实语义标签确定目标损失，使得目标神经网络在快速完成计算的基础上，学习到更多像素点的特征，从而提高训练得到的网络的检测精度。

在一种可能的实施方式中，所述利用所述第三语义预测结果和所述真实语义标签，确定目标损失，包括：

基于所述待处理图像中各个像素点的位置和各个像素点对应的真实语义标签，筛选边界像素点；

基于所述边界像素点对应的预设权重、所述真实语义标签和所述第三语义预测结果，确定所述目标损失。

该实施方式，通过对各个边界像素点进行加权，使得神经网络着重学习图像中各个对象对应的边界处的像素点的特征，使得边界处的语义识别更加准确。

基于所述第三语义预测结果，确定所述目标图像的预测语义梯度；

基于所述待处理图像的真实语义标签，确定所述待处理图像的标签语义梯度；

基于所述预测语义梯度和所述标签语义梯度，确定目标损失。

该实施方式，利用预测语义梯度和标签语义梯度确定目标损失，可以使目标神经网络学习梯度特征，提高神经网络的精确度。

对所述目标图像中添加噪声信息，生成所述目标图像对应的噪声样本图像；

利用目标神经网络，确定所述噪声样本图像对应的第四语义预测结果；

基于所述第三语义预测结果以及所述第四语义预测结果，确定目标损失。

该实施方式，可以利用添加噪声信息的噪声样本图像，及目标神经网络，生成第四语义预测结果，再利用第四语义预测结果和第三语义预测结果确定目标损失，可以提高神经网络的鲁棒性。

第二方面，本公开实施例还提供一种图像处理装置，包括：

获取模块，用于获取待处理图像；

缩放模块，用于将所述待处理图像按照目标分辨率进行缩放，得到目标图像；其中，所述目标分辨率低于所述待处理图像的分辨率；

预测模块，用于利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果。

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述图像处理装置、电子设备、及计算机可读存储介质的效果描述参见上述图像处理方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像处理方法的流程图；

图2示出了本公开实施例所提供的目标神经网络的示意图；

图3示出了本公开实施例所提供的目标神经网络中进行融合处理的示意图；

图4示出了本公开实施例所提供的一种图像处理装置的示意图；

图5示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，在实时图像语义识别等场景下，神经网络需要能够以极快的速度完成语义识别，由于对识别速度的要求，神经网络通常会对卷积层数与通道数进行删减，使得神经网络的感受野较低，识别结果的精确度不足。进一步的，为了降低神经网络识别图像语义所花费的时间，通常将输入至神经网络中图像的分辨率降低，以减少神经网络的计算量，但由于分辨率低的图像中具有的像素点较少，神经网络能够学习到的图像特征有限，丢失了大量语义边界的信息，导致神经网络对于分割语义边界的精度较差。

基于上述研究，本公开提供了一种图像处理方法、装置、电子设备及存储介质，本公开实施例通过将待处理图像缩放，得到分辨率较低的目标图像，能够降低目标神经网络的计算量，进而降低确定第一语义预测结果和第二语义预测结果所需的时长，并且，由于第一语义识别结果是多个特征维度对应的语义识别结果，使得通过第一语义预测结果确定第二语义预测结果能够反映各个特征维度的图像特征，进而使第二语义预测结果更加符合实际情况，精确度较高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

下面通过具体的实施例，对本公开公开的图像处理方法、装置、电子设备及计算机可读存储介质进行说明。

如图1所示，本公开实施例公开了一种图像处理方法，该方法可以应用于具有计算能力的电子设备上，例如服务器等。具体地，该图像处理方法可以包括如下步骤：

S110、获取待处理图像。

上述待处理图像可以是待进行语义识别的现实场景图像，具体可以为人物图像、场景图像、物体图像等。待处理图像中可以包含有待识别的至少一个目标对象。

在一些可能的实施方式中，上述待处理图像可以为用于神经网络训练的样本图像，样本图像还包括预先标注的真实语义标签，真实语义标签包括待处理图像中各个像素点的真实语义，具体的，真实语义可以表示像素点的语义，或者表示像素点是否为某一特定语义，示例性的，在人物图像中，待处理图像中像素点的真实语义可以表示“该像素点为头发像素点”、“该像素点为衣服像素点”、“该像素点为背景像素点”等，也可以表示“该像素点为头发像素点”、“该像素点为非头发像素点”等。

S120、将所述待处理图像按照目标分辨率进行缩放，得到目标图像；其中，所述目标分辨率低于所述待处理图像的分辨率。

上述目标分辨率可以根据目标神经网络的规格设置，目标分辨率的大小通常与目标神经网络的期望计算耗时成正比。

在如实时语义识别的一些场景下，对神经网络的计算速度将要求较高，降低输入至目标神经神经网络的图像分辨率，以减少目标神经网络的计算量，进而降低目标神经网络进行语义识别所需的时长。

S130、利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果。

上述目标神经网络可以为深度学习神经网络，神经网络能够学习样本数据的内在规律与表示层次。该步骤中，可以将目标图像输入至目标神经网络，目标神经网络能够提取目标图像在多个特征维度的图像特征信息，并基于提取的图像特征信息识别目标图像在各个特征维度的第一语义预测结果，再基于各个第一语义预测结果，确定待处理图像的第二语义预测结果。

在一种可能的实施方式中，待处理图像可以含有人物图像，在进行语义识别后，得到的第一语义预测结果和/或第二语义预测结果可以包括至少两类区域，至少两类区域可以包括人物的头发区域和人物的非头发区域。例如，第一语义预测结果和/或第二语义预测结果可以为待处理图像中各个像素点为头发的概率值。

上述第一语义预测结果、第二语义预测结果的表示形式可以与待处理图像的真实语义标签相同，具体可以为矩阵形式或置信度图像形式。

其中，上述目标神经网络中网络深度小于或等于第一深度阈值的网络层中的通道数小于或等于第一通道数阈值；目标神经网络中网络深度大于或等于第二深度阈值的网络层中的通道数大于或等于第二通道数阈值。

一些可能的实施方式中，识别所述目标图像在多个特征维度的第一语义预测结果，可以包括：

示例性的，参见图2所示，为本公开实施例提供的目标神经网络的示意图。目标神经网络可以利用下采样，提取出多个特征维度对应的分辨率的图像，并利用特征提取器A、特征提取器B、特征提取器C提取各个特征维度的图像中，各个像素点的图像特征信息，再利用目标神经网络中的分类器a、分类器b、分类器c和各个特征维度的图像特征信息对像素点进行分类，其中，特征提取器C对应的特征维度即为最低特征维度，分类器c可以利用特征提取器C提取的图像特征信息，计算对应的第一语义预测结果，再通过上采样将第一语义预测结果拓展至分类器b对应的分辨率，再基于特征提取器B提取的图像特征信息，和上采样后分类器c对应的第一语义预测结果，确定分类器b对应的第一语义预测结果，此时，分类器b对应的特征维度即为第三特征维度，分类器c对应的特征维度即为第四特征维度。

这样，按照从低特征维度到高特征维度，逐个特征维度进行计算，即可确定各个特征维度对应第一语义预测结果。

一些可能的实施方式中，第二语义预测结果可以通过利用目标神经网络按照所述多个特征维度由低到高的顺序执行多次融合处理之后得到。

其中，多次融合处理中第i次融合处理可以包括：

确定第一特征维度的第一语义预测结果的置信度信息；

将所述第一目标语义预测结果更新为第i+1次融合过程中第一特征维度的第一语义预测结果。

其中，上述第一特征维度和上述第二特征维度为上述多个特征维度中相邻的特征维度，第一特征维度低于第二特征维度。

示例性的，如图2和图3所示，图3为本公开实施例所提供的目标神经网络中任一特征维度上进行融合处理的示意图，分类器c、分类器b在确定各自对应特征维度的第一语义预测结果后，可以将上述第一语义预测结果输入至融合模块D，此时，分类器c对应的特征维度为第一特征维度，分类器b对应的特征维度为第二特征维度，融合模块D可以确定第一特征维度对应的置信度信息，并将置信度信息作为第一特征维度对应的注意力权重，与分类器b对应的第二特征维度的第一语义预测结果进行加权求和，得到第二特征维度的第一目标语义预测结果，并将第一目标语义预测结果更新为融合模块F在下一次融合过程中第一特征维度(分类器b对应的特征维度)的第一语义预测结果。

这样，通过由低维度至高纬度的多个融合过程，可以将最终得到的最高特征维度的第一目标语义预测结果作为上述第二语义预测结果。

一些可能的实施方式中，在得到第二语义预测结果后，还可以利用第二语义预测结果对目标神经网络进行训练。

在上述待处理图像还包括预先标注的真实语义标签的情况下，可以基于上述待处理图像对应的真实语义标签以及上述待处理图像的第二语义预测结果，对所述目标神经网络进行训练。

在一种可能的实施方式中，可以对上述第二语义预测结果进行上采样，得到与上述待处理图像的分辨率相同的第三语义预测结果；再利用上述第三语义预测结果和上述真实语义标签，确定目标损失；最后基于目标损失对所述目标神经网络的参数进行调整。

该步骤中，可以对第二语义预测结果进行上采样，得到与待处理图像的分辨率相同的第三语义预测结果，即将第二语义预测结果中的像素点补齐至待处理图像的像素点，得到第三语义预测结果，比如，若待处理图像的分辨率为9×9，具有的像素点为81个，其对应的语义标签即存在81个，分别对应各个待处理图像中的像素点，目标图像的分辨率为3×3，具有9个像素点，其对应的第一语义预测结果则为9个像素点分别对应的预测结果，目标图像对应的第二语义预测结果则可以为通过上采样的方式达到与待处理图像一样的9×9分辨率，81个像素点及对应的81个预测结果。

示例性的，可以通过以下三种方式确定目标损失：

方式一：基于所述待处理图像中各个像素点的位置和各个像素点对应的真实语义标签，筛选边界像素点；基于所述边界像素点对应的预设权重、所述真实语义标签和所述第三语义预测结果，确定所述目标损失。

方式二：基于所述第三语义预测结果，确定所述目标图像的预测语义梯度；基于所述待处理图像的真实语义标签，确定所述待处理图像的标签语义梯度；基于所述预测语义梯度和所述标签语义梯度，确定目标损失。

方式三：对所述目标图像中添加噪声信息，生成所述目标图像对应的噪声样本图像；利用目标神经网络，确定所述噪声样本图像对应的第四语义预测结果；基于所述第三语义预测结果以及所述第四语义预测结果，确定目标损失。

值得注意的是，上述三种确定目标损失的方式可以以任意组合方式相互结合，并具有相应的有益效果，具体请参见各个方式对应的说明，在此不再赘述。

上述方式一可以利用交叉熵损失函数确定目标损失，在使用交叉熵损失函数的基础上，还可以对边界像素点进行加权，其中，根据待处理图像中各个像素点的位置及对应的语义标签，可以确定各个像素点是否是边界像素点，边界像素点可以是图像中某个对象与背景或其他对象相交的区域对应的像素点，通过对边界像素点赋予权重，能够使目标神经网络重点学习边界像素点的特征，进而提高对边界的语义识别的精准度。这里，还可以对非边界像素点也赋予对应的权重，使边界像素点的权重较大，非边界像素点的权重较小，进一步提高对边界的语义识别的精准度。

示例性的，方式一对应的损失函数可以为

其中，L为交叉熵损失，pi代表第i个像素的第三语义识别结果，N代表像素点的总数，ω_i代表第i个像素点的预设权重。

上述方式二可以利用梯度损失函数确定目标损失，其中，预测语义梯度可以包括目标图像在第一坐标轴对应的第一预测语义梯度和第二坐标轴对应的第二预测语义梯度，第一坐标轴和第二坐标轴可以分别为目标图像在直角坐标系下的x轴和y轴，相应的，标签语义梯度同样可以包括第一坐标轴对应的第一标签语义梯度和第二坐标轴对应的第二标签语义梯度。其中，预测语义梯度可以为语义预测结果的梯度，标签语义梯度可以为真实语义标签的梯度。

示例性的，方式二对应的损失函数可以为：

其中，L_c为梯度损失值，I_x代表待处理图像的真实语义标签在x轴上的第一标签语义梯度，I_y代表待处理图像的真实语义标签在y轴上的第二标签语义梯度。M_x代表第三语义预测结果在x轴上的第一预测语义梯度，M_y代表第三语义预测结果在y轴上的第二预测语义梯度，M_mag代表M上的梯度幅值。

上述方式三可以通过时序一致损失函数确定目标损失，该实施方式，可以利用添加噪声信息的噪声样本图像，及目标神经网络，生成第四语义预测结果，再利用第四语义预测结果和第三语义预测结果确定目标损失，可以提高神经网络的鲁棒性。

示例性的，方式三对应的损失函数可以为：

b＝ψ(a)

其中，a为目标图像，b为a对应的噪声样本图像，ψ(·)即为扰动函数，比如噪声，或者是位移变换；

即为差异度量函数，loss2为时序一致损失，/>

为图像对应的第三语义预测结果。

本公开实施例提供的图像处理方法，通过将待处理图像缩放，得到分辨率较低的目标图像，能够降低目标神经网络的计算量，进而降低确定第一语义预测结果和第二语义预测结果所需的时长，并且，由于第一语义识别结果是多个特征维度对应的语义识别结果，使得通过第一语义预测结果确定第二语义预测结果能够反映各个特征维度的图像特征，进而使第二语义预测结果更加符合实际情况，精确度较高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与图像处理方法对应的图像处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种图像处理装置的示意图，所述装置包括：

获取模块410，用于获取待处理图像；

缩放模块420，用于将所述待处理图像按照目标分辨率进行缩放，得到目标图像；其中，所述目标分辨率低于所述待处理图像的分辨率；

预测模块430，用于利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果。

在一种可能的实施方式中，所述预测模块430在基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果时，具体用于：

其中，所述预测模块430在执行多次融合处理中第i次融合处理时，具体用于：

确定第一特征维度的第一语义预测结果的置信度信息；

在一种可能的实施方式中，所述预测模块430在识别所述目标图像在多个特征维度的第一语义预测结果时，具体用于：

所述装置还包括训练模块440，用于：

在一种可能的实施方式中，所述训练模块440具体用于：

基于目标损失对所述目标神经网络的参数进行调整。

在一种可能的实施方式中，所述训练模块440在利用所述第三语义预测结果和所述真实语义标签，确定目标损失时，具体用于：

对应于图1中的图像处理方法，本公开实施例还提供了一种电子设备500，如图5所示，为本公开实施例提供的电子设备500的示意图，包括：

处理器51、存储器52、和总线53；存储器52用于存储执行指令，包括内存521和外部存储器522；这里的内存521也称内存储器，用于暂时存放处理器51中的运算数据，以及与硬盘等外部存储器522交换的数据，处理器51通过内存521与外部存储器522进行数据交换，当所述电子设备500运行时，所述处理器51与所述存储器52之间通过总线53通信，使得所述处理器51可以执行以下指令：

获取待处理图像；

上述指令的具体执行过程可以参考本公开实施例中所述的图像处理方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述图像处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供了一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述图像处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像；

利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果；所述目标神经网络中网络深度小于或等于第一深度阈值的网络层中的通道数，小于或等于第一通道数阈值；所述目标神经网络中网络深度大于或等于第二深度阈值的网络层中的通道数大于或等于第二通道数阈值。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果，包括：

其中，所述多次融合处理中第i次融合处理包括：

确定第一特征维度的第一语义预测结果的置信度信息；

3.根据权利要求1至2任一所述的方法，其特征在于，所述识别所述目标图像在多个特征维度的第一语义预测结果，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述待处理图像包括人物图像，所述第一语义预测结果和/或所述第二语义预测结果包括至少两类区域，所述至少两类区域包括人物的头发区域和人物的非头发区域。

5.根据权利要求1至4任一所述的方法，其特征在于，所述待处理图像还包括预先标注的真实语义标签；

所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述待处理图像对应的真实语义标签以及所述待处理图像的第二语义预测结果，对所述目标神经网络进行训练，包括：

基于目标损失对所述目标神经网络的参数进行调整。

7.根据权利要求6所述的方法，其特征在于，所述利用所述第三语义预测结果和所述真实语义标签，确定目标损失，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述利用所述第三语义预测结果和所述真实语义标签，确定目标损失，包括：

9.根据权利要求6至8任一所述的方法，其特征在于，所述利用所述第三语义预测结果和所述真实语义标签，确定目标损失，包括：

10.一种图像处理装置，其特征在于，包括：

获取模块，用于获取待处理图像；

预测模块，用于利用目标神经网络，识别所述目标图像在多个特征维度的第一语义预测结果，并基于所述多个特征维度的第一语义预测结果，确定所述待处理图像的第二语义预测结果；所述目标神经网络中网络深度小于或等于第一深度阈值的网络层中的通道数，小于或等于第一通道数阈值；所述目标神经网络中网络深度大于或等于第二深度阈值的网络层中的通道数大于或等于第二通道数阈值。

11.一种电子设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至9任一项所述的图像处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至9任一项所述的图像处理方法的步骤。