CN108830322A

CN108830322A - 一种图像处理方法及装置、设备、存储介质

Info

Publication number: CN108830322A
Application number: CN201810621874.7A
Authority: CN
Inventors: 刘景贤
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-16

Abstract

本发明实施例公开了一种图像处理方法及装置、设备、存储介质，其中，所述方法包括：对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；将所述第一特征图和所述第二特征图进行融合，得到融合特征图；对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

Description

一种图像处理方法及装置、设备、存储介质

技术领域

本发明涉及图像处理技术，尤其涉及一种图像处理方法及装置、设备、存储介质。

背景技术

目前的卷积神经网络(Convolutional Neural Network，CNNs)对图像进行分类时，主要是针对单标签分类的，能够识别出图像中的某一个对象的类型例如：给定一张图像，判断这张图像中的物体是猫还是狗。随着图像处理技术的发展，提出了多标签分类的要求，比如：识别出图像中包括猫、狗、沙发等类型的对象。

目前针对多标签分类的CNN的解决方案为：1、获取在数据库ImageNet 1000类单分类上预训练的模型；2、去除模型最后一层的softmax分类器，替换成逻辑回归logitsticregression分类器；3、在多标签数据集上fine-tune模型进行精调。

然而，随着网络的加深，网络的语意抽象变强了，但同时网络输出的空间分辨率变低，从而导致图片的细节丢失，存在分类不清楚的问题，很大程度上限制了物体分类的准确性，降低了用户的使用体验。

发明内容

本发明实施例提供了一种图像处理方法及装置、设备、存储介质。

本发明实施例提供的图像处理方法包括：

对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；

将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

本发明实施例提供的图像处理装置包括：提取单元，融合单元和分类单元；其中，

所述提取单元，用于对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；

所述融合单元，用于将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

所述分类单元，用于对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

本发明实施例提供的设备包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行上述的图像处理方法的步骤。

本发明实施例提供的计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现上述的图像处理方法的步骤。

本发明实施例中，将对待处理图像进行特征提取后的两个不同空间分辨率的特征图进行融合，得到融合特征图，并对融合特征图进行分类得到待处理图像的分类，在分类的对象包括两个不同空间分辨率的特征图的图像特征的情况下，在融合特征图中包含了分辨率较高的物体和分辨率较低的小物体，提高对小物体的识别效果，从而提高了分类的准确性。

附图说明

图1为本发明实施例一图像处理方法的实现流程示意图；

图2为本发明实施例二图像处理方法的实现流程示意图；

图3为本发明实施例三图像处理方法的实现流程示意图；

图4为本发明实施例四图像处理方法的实现流程示意图；

图5为相关技术中卷积神经网络的结构示意图；

图6为本发明实施例六图像处理装置的结构组成示意图一；

图7为本发明实施例六图像处理装置的结构组成示意图二；

图8为本发明实施例七电子设备的结构组成示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

在本发明的各种实施例中：对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；将所述第一特征图和所述第二特征图进行融合，得到融合特征图；对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

实施例一

本发明实施例提供一种图像处理方法，该方法应用于电子设备，电子设备中的各功能模块可以由设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。

当然，本发明实施例不局限于提供为方法和硬件，还可有多种实现方式，例如提供为存储介质(存储有用于执行本发明实施例提供的图像处理方法的指令)。

本发明实施例一提供一种图像处理方法，应用于电子设备，如图1所示，该图像处理方法包括：

S101、对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；

电子设备可以是任何具有信息处理能力的电子设备，在一种实施例中，电子设备可以是智能终端，例如可以是移动电话(手机)、iPad、笔记本等具有无线通信能力的移动终端。在另一种实施例中，图像处理设备还可以是不便移动的具有计算功能的终端设备，比如台式计算机、桌面电脑等。

电子设备中安装有图像处理应用程序，用户可基于图像处理应用程序进行图像下载、图像的预览、图像的处理等与图像相关的处理。用户可通过对图像处理应用程序的操作来选取待处理图像。图像处理应用程序可将图像处理设备本地存储的图像呈现在图像处理设备的显示界面上，也可通过无线网络在线获取内容提供服务器提供的图像，将内容提供服务器提供的图像呈现在图像处理设备的显示界面上。用户可通过对显示界面中的呈现的图像的选取操作来确定待处理图像。

图像处理应用程序对待处理图像进行处理时，将待处理图像作为卷积神经网络的输入，通过卷积神经网络对待处理图像进行特征提取。卷积神经网络可采用AlexNet、VGG-Net、GoogLeNet等物体分类算法。本发明实施例对卷积神经网络采用的物体分类方法不进行限制。

卷积神经网络通过多层特征提取层对待处理图像进行特征提取，且每个特征提取层的输出作为下一特征提取层的输入，直到最后一层特征提取层输出对应的特征图。在每个特征提取层中，可通过卷积、激活函数、池化对上一层特征提取层输出的特征图进行特征提取。随着特征提取层数的增加，网络的深度加深，进行特征提取得到的特征图的层级越高，空间分辨率越低。

将待处理图像输入卷积神经网络后，卷积神经网络通过多层特征提取层对图像进行提取，得到不同特征提取层所输出的第一特征图和第二特征图，第二特征图的空间分辨率低于第一特征图。第一特征图和第二特征图分别为三维特征向量，第一特征图为低层特征的组合，第二特征图为高层特征的组合，第二特征图的语义级别高于第一特征图。低层特征包括边、角等纹理性特征，高层特征包括车轮、闹钟等具有一定形状的对象的特征。

在一实施例中，对待处理图像进行特征提取，得到第一特征图和第二特征图可包括：基于第一特征提取层对所述待处理图像进行特征提取，得到所述第一特征图，基于第二特征提取层对所述待处理图像进行特征提取，得到所述第二特征图。第一特征提取层和第二特征提取层分别为输入待处理图像的卷积神经网络的不同的卷积层。

需要说明的是，第一特征图的低层特征和第二特征图的高层特征为相对，比如：第一特征图为边、角等特征的组合，第二特征为圆形、方形等特征的组合；第一特征图也可为圆形、方形等特征的组合，此时，第二特征图为眼睛、鼻子等特征的组合。

这里，可将待处理图像分别作为第一卷积神经网络和第二卷积神经网络的输入，第一特征图为第一卷积神经网络的第一特征提取层的输出，第二特征图为第二卷及神经网络的第二特征提取层的输出。

比如：将待处理图像分别输入卷积神经网络1和卷积神经网络2，卷积神经网络1的网络深度为8，通过特征提取层1至8这八层特征提取层依次对待处理图像进行特征提取；卷积神经网络2的网络深度为10，通过特征提取层1至10这十层特征提取层依次对待处理图像进行特征提取，第一特征图为卷积神经网络1的特征提取层2所输出的特征图，第二特征图为卷积神经网络2的特征提取层5所输出的特征图；或者，第一特征图为卷积神经网络1的特征提取层6输出的特征图，第二特征图为卷积神经网络2特征提取层9输出的特征图。

在一实施例中，所述对所述待处理图像进行特征提取，得到第一特征图和第二特征图包括：对待处理图像进行特征提取，得到第一特征图，对所述第一特征图进行特征提取，得到所述第二特征图。此时，第一特征提取层和第二特征提取层分别为同一卷积神经网络的不同的特征提取层。

需要说明的是，在本发明实施例中，第二特征图的空间分辨率低于第一特征图的空间分辨率，对第一特征图和第二特征图所对应的特征提取层的层级不进行限制。

S102、将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

在一实施例中，将所述第一特征图和所述第二特征图进行融合，得到融合特征图可包括：基于融合层对将所述第一特征图和所述第二特征图进行融合，得到融合特征图。

得到第一特征图和第二特征图后，可直接将第一特征图和第二特征图输入融合层进行融合，也可对第一特征图和/或第二特征图进行优化处理，将优化处理后的特征图输入融合层进行。当对第一特征图进行优化时，得到第一优化特征图，将第一优化特征图和第二特征图输入融合层进行融合。当对第二特征图进行优化时，得到第二优化特征图，将第一特征图和第二优化特征图输入融合层进行融合。当对第一特征图和第二特征图进行优化时，分别得到第一优化特征图和第二优化特征图，此时，将第一优化特征图和第二优化特征图输入融合层进行融合。

通过对第一特征图和/或第二特征图进行优化，可通过优化处理从第一特征图和/或第二特征图中筛选有效特征，提高分类的精确度。

在一实施例中，在将所述第一特征图和所述第二特征图进行融合之前，所述方法还包括；判断所述第一特征图的维度和所述第二特征图的维度是否相同；如果所述第一特征图的维度与所述第二特征图的维度不同，则对所述第一特征图和/或第二特征图进行维度调整，使得所述第一特征图的维度和所述第二特征图的维度相同。

第一特征图的维度和第二特征图的维度分别表示第一特征图和第二特征图的大小，当第一特征图和第二特征图的维度相同时，将第一特征图和第二特征图融合。当第一特征图和第二特征图的维度不同时，对第一特征图和/或第二特征图进行维度调整，使得第一特征图和第二特征图的维度相同，将维度相同的第一特征图和第二特征图融合。比如：第一特征图为三维向量(6,4,20)，第二特征图为一维向量(1,1,100)即(100)，则对第一特征图进行降维得到一维向量(1,1,20)即(20)，将降维后的第一特征图(100)和第二特征图(20)进行融合。

在对第一特征图和/或第二特征图进行降维调整时，可同时对第一特征图和第二特征图进行降维调整，得到同一维度，也可对第一特征图或第二特征图进行降维调整，使得二者的维度保持一致。

这里，可将第一特征图和/或第二特征图的特征向量的维度和目标维度进行比较，将需要进行降维的维度求均值，从而进行降维调整，比如：第一特征图为三维向量(6,4,20)，第二特征图为一维向量(1,1,100)即(100)，需要将第一特征图的三维向量降维调整为目标维度一维，则将第一特征图的三维向量的前2维求均值，得到(1,1,20)。

在一实施例中，所述将所述第一特征图和所述第二特征图进行融合得到融合特征图包括：对所述第一特征图和所述第二特征图进行拼接处理，得到拼接特征图；对所述拼接特征图进行特征融合处理，得到所述融合特征图。将第一特征图的特征向量和第二特征图的特征向量相加，得到拼接特征图的拼接向量，比如：第一特征图为(100)，第二特征图为(20)，将第一特征图(100)和第二特征图(20)相加得到拼接特征图的拼接向量(120)，通过全连接和激活函数ReLU对拼接特征图进行特征融合处理，得到融合特征图。

S103、对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

在一实施例中，对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息可包括：基于分类层对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

得到融合特征图后，将融合特征图输入卷积神经网络的分类层，分类层输出待处理图像所包括的对象的分类信息，从而通过分类层对融合特征图进行分类，以识别待处理图像中所包括的对象的类型。分类层可为logistic regression分类器、softmax分类器等对卷积神经网络中的分类器。

本发明实施例的方案，可以应用在包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等场景中，也可应用在交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测与识别，以及互联网领域的基于内容的图像检索、相册自动归类等场景。

比如：待处理图像包括的对象包括人物A、人物B、小狗以及贝壳和海滩，在图像处理应用程序中确定待处理图像，将待处理图像输入包括九层特征提取层的卷积神经网络，将第5层特征提取层的输出特征图作为第一特征图，将第9层特征提取层输出的特征图作为第二特征图，将第一特征图和第二特征图进行融合得到融合特征图，将融合特征图输入分类器，通过分类器对融合特征图进行分类，得到分类信息人物A、人物B、小狗、贝壳和海滩。

又比如：待处理图像包括多张图像，且部分图像中都包括戴戒指的人物A，在图像处理应用程序中确定待处理图像，将待处理图像输入包括九层特征提取层的卷积神经网络，将第4层特征提取层的输出特征图作为第一特征图，将第8层特征提取层输出的特征图作为第二特征图，将第一特征图和第二特征图进行融合得到融合特征图，将融合特征图输入分类器，通过分类器对融合特征图进行分类，得到各图像所包括的对象，将图像的对象中包括戴戒指的人物A的图像归为一类。

本发明实施例提供的图像处理方法，对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；将所述第一特征图和所述第二特征图进行融合，得到融合特征图；对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息；从而将小物体的特征输入分类器，通过分类器能够识别出小物体，避免小物体丢失的漏检错误发生，提高物体分类的准确性。

实施例二

图2为本发明实施例二图像处理方法的实现流程示意图，如图2所示，该图像处理方法包括：

S201、对待处理图像进行特征提取，得到第一特征图；

图像处理应用程序对待处理图像进行处理时，将待处理图像作为卷积神经网络的输入，通过卷积神经网络对待处理图像进行特征提取。

将待处理图像输入卷积神经网络后，卷积神经网络通过多层特征提取层对图像进行提取，得到特征提取层所输出的第一特征图。

S202、对所述第一特征图进行特征提取，得到第二特征图；

对S201得到的第一特征图进行特征提取，得到所述第二特征图。

在一实施例中，对待处理图像进行特征提取，得到第一特征图包括；基于第一特征提取层对所述待处理图像进行特征提取，得到所述第一特征图。对所述第一特征图进行特征提取，得到第二特征图包括：基于第三特征提取层对所述第一特征图进行特征提取，得到所述第二特征图。第一特征提取层和第三特征提取层分别为输入待处理图像的卷积神经网络的不同的特征提取层。

第二特征图为对第一特征图进行特征提取得到的特征图，第一特征图为低层特征的组合，第二特征图为高层特征的组合，低层特征包括边、角等纹理性特征，高层特征包括车轮、闹钟等具有一定形状的对象的特征，第二特征图的语义级别高于第一特征图。

比如：卷积神经网络的网络深度为8，通过特征提取层1至8这八层特征提取层依次对待处理图像进行特征提取，第一特征图为特征提取层2所输出的特征图，第二特征图为特征提取层5所输出的特征图；或者，第一特征图为特征提取层6输出的特征图，第二特征图为特征提取层8输出的特征图。

在一实施例中，所述对所述第一特征图进行特征提取，得到第二特征图包括：对所述第一特征图进行特征提取，得到第三特征图；对所述第三特征图进行特征提取，得到所述第二特征图；所述第三特征图的空间分辨率低于所述第一特征图，所述第二特征图的空间分辨率低于所述第三特征图。

第三特征图为对第一特征图进行特征提取得到的特征图，第二特征图为对第三特征图进行提取得到的特征图。第一特征图为低层特征的组合，第三特征图为中层特征的组合，第二特征图为高层特征的组合，低层特征包括边、角等纹理性特征，中层特征包括车轮、闹钟等具有一定形状的对象的特征，高层特征图包括眼睛、鼻子等具体对象的特征，第二特征图的语义级别高于第三特征图高于第一特征图。。

比如：卷积神经网络的网络深度为8，通过特征提取层1至8这八层特征提取层依次对待处理图像进行特征提取，第一特征图为特征提取层2所输出的特征图，第三特征图为特征提取层5所输出的特征图，第二特征图为特征提取层8所输出的特征图。

S203、将所述第一特征图和所述第二特征图进行融合，得到融合特征图；在一实施例中，将所述第一特征图和所述第二特征图进行融合，得到融合特征图包括：基于融合层对将所述第一特征图和所述第二特征图进行融合，得到融合特征图。

当对所述第一特征图进行特征提取，得到第二特征图包括：对所述第一特征图进行特征提取，得到第三特征图；对所述第三特征图进行特征提取，得到所述第二特征图；所述将所述第一特征图和所述第二特征图进行融合，得到融合特征图包括：将所述第一特征图、所述第二特征图和所述第三特征图进行融合，得到所述融合特征图。

同上例，第一特征图为特征提取层2所输出的特征图，第三特征图为特征提取层5所输出的特征图；第二特征图为特征提取层8所输出的特征图，则将特征提取层2输出的第一特征图、特征提取层5所输出的第三特征图和特征提取层8所输出的第二特征图进行融合，得到融合特征图。

在实际应用中，可将卷积神经网络的部分特征提取层所输出的特征图进行融合，也可将全部特征提取层所输出的特征图进行融合。比如：卷积神经网络的网络深度为8，通过特征提取层1至8这八层特征提取层依次对待处理图像进行特征提取，可将特征提取层2所输出的特征图和特征提取层5所输出的特征图进行融合，可将特征提取层2所输出的特征图、特征提取层5所输出的特征图和特征提取层8所输出的特征图进行融合；也可将特征提取层1至特征提取层8所输出的全部的特征图进行融合。本发明实施例对进行融合的特征图的数量不进行限制。

S204、对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

在一实施例中，对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息包括：基于分类层对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

得到融合特征图后，将融合特征图输入卷积神经网络的分类层，分类层输出待处理图像所包括的对象的分类信息，从而通过分类层对融合特征图进行分类，以识别待处理图像中所包括的对象的类型。分类层可通过logistic regression分类器、softmax分类器等对卷积神经网络中的分类器实现。

通过本发明实施例提供的图像处理方法，对待处理图像进行特征提取，得到第一特征图，对第一特征图进行特征提取得到第二特征图，将第一特征图和第二特征图进行融合，得到融合特征图，对融合特征图进行分类，得到待处理图像所包括的对象的分类信息，对待处理图像进行分类，在融合特征图中包含了分辨率较高的物体和分辨率较低的小物体，提高对小物体的识别效果，从而提高了分类的准确性。

实施例三

图3为本发明实施例三图像处理方法的实现流程示意图，如图3所示，该图像图形处理方法包括：

S301、对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；

图像处理应用程序对待处理图像进行处理时，将待处理图像作为卷积神经网络的输入，通过卷积神经网络对待处理图像进行特征提取，得到第一特征提取层和第二特征提取层，第二特征图的空间分辨率低于第一特征图。

S302、对所述第一特征图进行优化处理，得到第一优化特征图；

在得到第一特征图后，对第一特征图进行优化处理，从第一特征图中滤除无效特征，筛选有效特征，得到筛选后的第一优化特征图。这里，可基于优化层对第一特征图进行优化处理。

在一实施例中，所述对所述第一特征图进行优化处理，得到第一优化特征图包括：对所述第一特征图进行特征选择处理，得到选择特征图；对所述选择特征图进行降维处理，得到所述第一优化特征图。将第一特征图输入包括设定大小的卷积核的优化卷积层，在优化卷积层对第一特征图进行卷积，以对第一特征图进行特征选择处理，得到选择特征图。通过全局池化对特征选择图进行降维处理，得到维度与第二特征图的维度相同的第一优化特征图，以使得第二特征图与第一优化特征图进行融合，减少融合过程中所需引入的参数。

这里，对特征选择图进行降维处理之前，可将激活函数作用于特征选择图，以增加卷积神经网络的表达能力。

在一实施例中，所述图像处理方法还包括：获取所述第一特征图的大小；根据所述第一特征图的大小确定特征选择卷积核的大小；根据所述特征选择卷积核的大小确定优化层；相应地，对所述第一特征图进行优化处理，得到第一优化特征图包括：基于所述优化层对所述第一特征图进行优化处理，得到第一优化特征图。优化层中对第一特征图进行卷积的优化卷积层的卷积核即特征选择卷积核的大小可根据第一特征图的特征向量的大小来确定，比如：第一特征图的特征向量为三维的(6，4，60)，也就是说第一特征图的大小为(6,4,60)，则根据第一特征图的确定特征选择卷积核的大小为(1,1,60)，其中，特征选择卷积核的前2维(1,1)也可为(1,2)、(2,2)等，可根据实际需求设置，特征选择卷积核的第3维60的大小与第一特征图的第三维的大小一致，并通过20个特征选择卷积核(1,1,60)对第一特征图(6,4,60)进行卷积，得到三维向量为(6,4,20)的特征选择向量。在实际应用中，特征选择卷积核的个数可通过对训练样本的训练进行学习。

当所述对所述第一特征图进行特征提取，得到第二特征图包括：对所述第一特征图进行特征提取，得到第三特征图；对所述第三特征图进行特征提取，得到所述第二特征图；所述第三特征图的空间分辨率低于所述第一特征图，所述第二特征图的空间分辨率低于所述第三特征图，本发明实施例提供的图像处理的方法还包括：

对所述第三特征图进行优化处理，得到第二优化特征图。可通过第三特征图对应的优化层对第三特征图进行优化，第三特征图对应的优化层对第三特征图进行优化处理的方法同第一特征图对应的优化层对第一特征图进行优化的方法，在此不再赘述。

S303、对所述第一优化特征图和所述第二特征图进行融合得到融合特征图；

基于融合层对将所述第一优化特征图和所述第二特征图进行融合，得到融合特征图。

当所述对所述第一特征图进行特征提取，得到第二特征图包括：对所述第一特征图进行特征提取，得到第三特征图；对所述第三特征图进行特征提取，得到所述第二特征图；此时，将第一优化特征图、所述第二特征图和所述第三特征图进行融合，得到所述融合特征图。对第三特征图进行优化处理得到第二优化特征图时，将第一优化特征图、第二特征图和第二优化特征图进行融合，得到融合特征图。

需要说明的是，进行融合的多个特征图中，可部分进行优化，也可全部进行优化。比如：将特征图1、特征图2、特征图3和特征图4进行融合得到融合特征图时，可特征图1可为进行优化处理后的特征图，可特征图3可为进行优化处理后的特征图，可特征图1和特征图3分别为优化处理后的特征图，也可特征图1、特征图2、特征图3和特征图4都为优化处理后的特征图，本发明实施例对此不进行限定。

S304、对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

这里，基于分类层对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

本发明实施例的方案，将第一特征图进行优化处理得到第一优化特征图，将第一优化特征图和第二特征图进行融合处理，得到融合特征图，从而降低卷积神经网络的网络模型的参数，减少计算量，增强泛化能力。

实施例四

本实施例对本发明提出的图像处理方法进行进一步描述。

如图4所示，将待处理图像输入卷积神经网络40，卷积神将网络的多层卷积层(特征提取层)对待处理图像依次进行特征提取，中间卷积层401输出的特征图为中间特征图(feature map)，对中间特征图输入卷积层402进行卷积以继续进行特征提取，得到最后一层特征图，并通过优化模块403对中间特征图进行优化处理，得到优化特征图。将最后一层特征图和优化特征图输入融合模块404，通过融合模块404对最后一层的特征向量和优化特征向量进行融合处理，得到融合特征图。在得到的融合特征图后，将融合特征图输入分类器，通过分类器对融合向量进行分类，得到待处理图像所包括的对象的分类信息。

在优化模块403中，对中间特征图进行依次进行卷积4031、激活函数和全局池化的处理，以对中间特征图进行特征选择和降维处理，得到优化特征图，降低模型卷积神经网络的参数，减少计算量，增强泛化能力。

在融合模块404中，将最后一层图和优化特征图进行拼接，将拼接后得到的特征图依次进行全连接和激活函数的处理，得到融合特征图。

比如，第一特征图为中间卷积层Conv3输出中间特征图，第一特征图为三维向量(6,4,60)，第二特征图为最后一层卷积层输出的特征图，最后一层特征图的向量为一维向量(1,1,20)->(20)。

将中间特征图的三维向量(6,4,60)经过1×1conv+ReLU运算，得到优化特征图的特征向量(6,4,20)，压缩了输出的特征，起到选择作用。经过全局池化(global averagepooling)运算，对前2维求均值，得到(1,1,20)->(20)的一维向量。

这里，1x1卷积作用是降维和特征选择，激活函数是非线性函数，用于增加模型的表达能力。全局池化是降维，把输出的特征从(m,n,c)->(1,1,c)，也就是说从三阶张量降维到一阶张量(向量)，方便与后续高层特征融合。

将最后一层特征图的一维(160)和优化后的一维向量(20)进行拼接，(160)+(20)->(180)，将拼接后的向量(180)经过全连接(Fully Commected，FC)+ReLU，FC和激活函数ReLU组合使用，进行特征融合。向量(180)融合了高层特征(160)和中间层特征(20)。其中，FC的结果是对拼接的特征进行线性组合，激活函数是非线性函数，可以增强模型的表达能力。

需要说明的是，所有卷积层(conv)和全连接层(FC)都包含可学参数。卷积神经挽留过可通过算法调整参数来提高分类效果。

本发明实施例提供的图像处理方法，显式提取CNNs中间层的特征图feature map，通过可学参数优化得到中间特征图的中间层特征向量，将中间层特征向量与最后一层特征图的特征向量进行融合得到新的特征向量；把新的特征向量连接分类器，整个网络进行endto end优化。

本发明实施例提供的图像处理方法，处理多标签分类问题，一张图可以同时包含多个物体，高层特征的空间分辨率较低，语义更抽象，小物体的特征容易丢失，而中间层特征的空间分辨率相对较高，融合后的融合特征图可以一定程度提高对小物体的识别效果。

实施例五

本发明实施例通过图5所示的卷积神经网络对本发明实施例提供的图像处理方法进行进一步说明。

相关技术中，如图5所示，将大小为224×224×3的待处理图像输入卷积神经网络，其中，卷积神经网络包括6层卷积层(特征提取层)，待处理图像经过conv1的卷积后得到特征图的大小224×224×64，再经过conv1的池化层的池化(pooling)处理得到conv1输出的特征图的大小为224×224×128，conv2输入的特征图的大小为：224×224×128，输出的特征图大小为56×56×256，conv3输入的特征图的大小为：56×56×256，conv3输出的特征图的大小为：28×28×512，conv4输出的特征图的大小为：14×14×512，conv5输出的特征图的大小为：7×7×512，其中，每个卷积层包括卷积convolution、激活函数ReLU和池化层，将最后一层conv5输出的特征图经过全连接FC和激活函数ReLU，得到大小为1×1×4096的一维特征向量。将1×1×4096直接输入softmax分类器。

本发明实施例提供的图像处理方法，对图5所示的方法进行改进，包括：

S1、将中间特征图(Middle feature map)经过优化模块进行优化处理，得到优化特征，优化特征的特征向量可称为优化特征向量(middle feature vector)。

这里，以中间特征图为conv3的输出的特征图为第一特征图为例，对优化处理过程进行说明，包括：

a)选取CNNs的conv3的输出作为中间特征图,大小shape：[28,28,512]；

b)通过1x1conv+ReLU，对中间特征图进行特征图的深度降维，用于选择有效分类的特征，shape：[28,28,512]→[28,28,256]；

c)通过全局平均池化(global average pooling)，将3-D的特征图转化为1-D的特征向量，shape：[28,28,256]→[256]，从而得到大小为256的一维特征图。

S2、融合高层特征图(deep feature map)和优化特征图得到融合特征图，融合特征图的特征向量称为融合特征向量(mixed feature vector)。

a)选取连接分类器前的特征向量作为高层特征图的高层特征向量(deep featurevector)，shape：[4096]；

b)将高层特征图和低层特征图拼接，得到的拼接特征图的大小shape：[4096]+[256]→[4325]；

c)经过FC+ReLU融合两组特征，得到融合特征图，大小变化shape:[4325]→[4096]；

S3、使用融合特征图代替高层特征图连接分类器。

在本发明实施例中，以conv3输出的特征图作为第一特征图，以conv5经过全连接和激活函数处理后得到的特征图作为第二特征图为例对本发明实施例进行了描述。实际应用中，第二特征图的空间分辨率低于所述第一特征图，对第一特征图和第二特征图所对应的特征提取层不进行限制。

实施例六

为实现本发明实施例的方法，本发明实施例提供一种图像处理装置，如图6所示，该装置60包括：提取单元601，融合单元602和分类单元603；其中，

提取单元601，用于对待处理图像进行特征提取，得到第一特征图和第二特征图，所述第二特征图的空间分辨率低于所述第一特征图；

融合单元602，用于将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

分类单元603，用于对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

在一实施例中，提取单元601具体用于：基于第一特征提取层对所述待处理图像进行特征提取，得到所述第一特征图；基于第二特征提取层对所述待处理图像进行特征提取，得到所述第二特征图；

融合单元602，具体用于基于融合层对将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

分类单元603，具体用于基于分类层对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

在一实施例中，如图7所示，提取单元601包括：第一提取模块6011和第二提取模块6012；其中，

第一提取模块6011，用于对所述待处理图像进行特征提取，得到第一特征图；

第二提取模块6012，用于对所述第一特征图进行特征提取，得到所述第二特征图。

在一实施例中，第一提取模块6011，具体用于基于第一特征提取层对所述待处理图像进行特征提取，得到所述第一特征图；

第二提取模块6012，具体用于基于第三特征提取层对所述第一特征图进行特征提取，得到所述第二特征图；

相应地，融合单元602，具体用于基于融合层对将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

在一实施例中，如图7所示，所述装置还包括第一优化单元604，用于对所述第一特征图进行优化处理，得到第一优化特征图；

相应地，融合单元602，用于对所述第一优化特征图和所述第二特征图进行融合得到融合特征图。

在一实施例中，第一优化单元604，具体用于：对所述第一特征图进行特征选择处理，得到选择特征图；对所述选择特征图进行降维处理，得到所述第一优化特征图。

在一实施例中，如图7所示，所述装置还包括：设置单元605，用于：获取所述第一特征图的大小；根据所述第一特征图的大小确定特征选择卷积核的大小；根据所述特征选择卷积核的大小确定优化层；

相应地，第一优化单元604，具体用于：基于所述优化层对所述第一特征图进行优化处理，得到第一优化特征图。

在一实施例中，如图7所示，所述装置还包括调整单元606，用于：在将所述第一特征图和所述第二特征图进行融合之前，判断所述第一特征图的维度和所述第二特征图的维度是否相同；

如果所述第一征图的维度与所述第二特征图的维度不同，则对所述第一特征图和/或第二特征图进行维度调整，使得所述第一特征图的维度和所述第二特征图的维度相同。

在一实施例中，第二提取模块6012，具体用于：

对所述第一特征图进行特征提取，得到第三特征图；

对所述第三特征图进行特征提取，得到所述第二特征图；所述第三特征图的空间分辨率低于所述第一特征图，所述第二特征图的空间分辨率低于所述第三特征图；

相应地，融合单元602，具体用于所述将所述第一特征图和所述第二特征图进行融合，得到融合特征图包括：将所述第一特征图、所述第二特征图和所述第三特征图进行融合，得到所述融合特征图。

在一实施例中，第二优化单元607，用于对所述第三特征图进行优化处理，得到第二优化特征图；

相应地，融合单元602，具体用于：将所述第一特征图、所述第二特征图和所述第三特征图进行融合，得到所述融合特征图包括：

将所述第一特征图、所述第二特征图和所述第二优化特征图进行融合，得到所述融合特征图。

在一实施例中，融合单元602，具体用于：

对所述第一特征图和所述第二特征图进行拼接处理，得到拼接特征图；

对所述拼接特征图进行特征融合处理，得到所述融合特征图。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

实施利七

本发明实施例提供一种图像处理设备，图8为本发明实施例图像处理设备的组成结构示意图，如图8所示，所述设备800包括：一个处理器801、至少一个通信总线802、用户接口803、至少一个外部通信接口804和存储器805。其中，通信总线802配置为实现这些组件之间的连接通信。其中，用户接口803可以包括显示屏，外部通信接口804可以包括标准的有线接口和无线接口。其中所述处理器801，配置为执行存储器中存储的图像处理程序，以实现以下步骤：

相应地，本发明实施例再提供一种存储介质，即计算机可读存储介质，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现上述的图像处理方法的步骤。

以上图像处理装置、电子设备和计算机可读存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明图像处理装置、电子设备和计算机可读存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

本发明实施例中，如果以软件功能模块的形式实现上述的即时通讯方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，应用于电子设备，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

基于第一特征提取层对所述待处理图像进行特征提取，得到所述第一特征图；

基于第二特征提取层对所述待处理图像进行特征提取，得到所述第二特征图；

基于融合层对将所述第一特征图和所述第二特征图进行融合，得到融合特征图；

基于分类层对所述融合特征图进行分类，确定所述待处理图像所包括的对象的类型信息。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行特征提取，得到第二特征图包括：

对所述第一特征图进行特征提取，得到所述第二特征图。

4.根据权利要求3所述的方法，其特征在于，

基于第三特征提取层对所述第一特征图进行特征提取，得到所述第二特征图；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

对所述第一特征图进行优化处理，得到第一优化特征图；

相应地，对所述第一特征图和所述第二特征图进行融合，得到融合特征图包括：对所述第一优化特征图和所述第二特征图进行融合得到融合特征图。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一特征图进行优化处理，得到第一优化特征图包括：

对所述第一特征图进行特征选择处理，得到选择特征图；

对所述选择特征图进行降维处理，得到所述第一优化特征图。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述第一特征图的大小；

根据所述第一特征图的大小确定特征选择卷积核的大小；

根据所述特征选择卷积核的大小确定优化层；

相应地，对所述第一特征图进行优化处理，得到第一优化特征图包括：

基于所述优化层对所述第一特征图进行优化处理，得到第一优化特征图。

8.根据权利要求1至4任一项所述的方法，其特征在于，在将所述第一特征图和所述第二特征图进行融合之前，所述方法还包括；

判断所述第一特征图的维度和所述第二特征图的维度是否相同；

如果所述第一特征图的维度与所述第二特征图的维度不同，则对所述第一特征图和/或第二特征图进行维度调整，使得所述第一特征图的维度和所述第二特征图的维度相同。

9.根据权利要求3所述的方法，其特征在于，所述对所述第一特征图进行特征提取，得到第二特征图包括：

对所述第一特征图进行特征提取，得到第三特征图；

相应地，所述将所述第一特征图和所述第二特征图进行融合，得到融合特征图包括：

将所述第一特征图、所述第二特征图和所述第三特征图进行融合，得到所述融合特征图。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

对所述第三特征图进行优化处理，得到第二优化特征图；

相应地，将所述第一特征图、所述第二特征图和所述第三特征图进行融合，得到所述融合特征图包括：

11.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述第一特征图和所述第二特征图进行融合得到融合特征图包括：

12.一种图像处理装置，其特征在于，所述装置包括：提取单元，融合单元和分类单元；其中，

13.一种电子设备，其特征在于，所述电子设备包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行权利要求1至11中任一项所述的图像处理方法的步骤。

14.一种计算机可读存储介质，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现1至11中任一项所述的图像处理方法的步骤。