CN108846440A

CN108846440A - 图像处理方法及装置、计算机可读介质和电子设备

Info

Publication number: CN108846440A
Application number: CN201810639830.7A
Authority: CN
Inventors: 王亚彪; 崔志鹏; 王文全; 葛彦昊; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-11-20
Anticipated expiration: 2038-06-20
Also published as: CN108846440B

Abstract

本发明公开了一种图像处理方法及装置、计算机可读介质和电子设备，涉及图像处理技术领域。该图像处理方法包括：获取图像的特征图；将图像的特征图输入基础神经网络进行处理以确定图像中的目标对象；其中，基础神经网络包括多个堆叠的卷积处理模块，每一卷积处理模块对输入的特征图执行处理包括：对输入的特征图进行1×1降维卷积处理以得到第一特征图；对第一特征图进行1×1扩展卷积处理以得到第二特征图；对第一特征图进行深度可分离卷积处理以得到第三特征图；基于第二特征图和第三特征图生成该卷积处理模块输出的特征图。本公开可以快速检测图像中的目标对象。

Description

图像处理方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像处理方法、图像处理装置、计算机可读介质和电子设备。

背景技术

随着图像处理技术的发展，目标检测越来越广泛地应用到例如人机交互、智能监控、安全检查、数字娱乐、数码相机等各个领域。所谓目标检测，就是在一图像中检测感兴趣的目标(例如，手势、人脸、汽车等)的技术方案，另外，这里所说的图像可以是照片、静态图片、视频图像等。

近来，采用神经网络进行目标检测的技术方案可以包括单步法(one-stagedetector)和两步法(two-stage detector)。然而，目前无论是单步法还是两步法均存在模型大、计算速度慢的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种图像处理方法及装置、计算机可读介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的目标检测模型大、计算速度慢的问题。

根据本公开的一个方面，提供一种图像处理方法，包括：获取图像的特征图；将图像的特征图输入基础神经网络进行处理以确定图像中的目标对象；其中，基础神经网络包括多个堆叠的卷积处理模块，每一卷积处理模块对输入的特征图执行处理包括：对输入的特征图进行1×1降维卷积处理以得到第一特征图；对第一特征图进行1×1扩展卷积处理以得到第二特征图；对第一特征图进行深度可分离卷积处理以得到第三特征图；基于第二特征图和第三特征图生成该卷积处理模块输出的特征图。

根据本公开的一个方面，提供一种图像处理装置，包括：特征获取模块，用于获取图像的特征图；对象确定模块，用于将图像的特征图输入基础神经网络进行处理以确定图像中的目标对象；其中，基础神经网络包括多个堆叠的卷积处理模块，每一卷积处理模块包括：第一卷积单元，用于对输入的特征图进行1×1降维卷积处理以得到第一特征图；第二卷积单元，用于对第一特征图进行1×1扩展卷积处理以得到第二特征图；第三卷积单元，用于对第一特征图进行深度可分离卷积处理以得到第三特征图；特征图生成单元，用于基于第二特征图和第三特征图生成该卷积处理模块输出的特征图。

可选地，第三卷积单元包括：第一卷积子单元，用于对第一特征图的各维度分别进行3×3卷积处理，以得到与第一特征图维度相同的中间特征图；第二卷积子单元，用于对中间特征图进行1×1卷积处理，以得到第三特征图。

可选地，基础神经网络还包括：最大池化模块，用于在将特征图输入多个堆叠的卷积处理模块中预定卷积处理模块之前，对特征图进行最大池化处理。

可选地，第三卷积单元还包括：第一批量归一化单元和第一线性整流单元，分别用于对中间特征图进行批量归一化处理和线性整流处理。

可选地，第三卷积单元还包括：第二批量归一化单元和第二线性整流单元，分别用于对第二卷积子单元处理后的中间特征图进行批量归一化处理和线性整流处理，以得到第三特征图。

可选地，对象确定模块包括：特征发送单元，用于将所述基础神经网络输出的特征图发送至一输出神经网络；其中，所述输出神经网络用于采用预设候选区域预测的方式根据所述基础神经网络输出的特征图确定所述目标对象的位置。

可选地，图像处理装置还包括：损失计算模块，用于计算由基础神经网络和输出神经网络构成的卷积神经网络的损失函数；参数确定模块，用于确定使损失函数最小化的卷积神经网络参数；参数应用模块，用于将使损失函数最小化的卷积神经网络参数应用于卷积神经网络。

可选地，损失计算模块包括：第一计算单元，用于计算计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的位置损失函数L_loc；第二计算单元，用于计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的分类损失函数L_conf；数量确定单元，用于确定与所述候选区域匹配的目标对象所在区域的数量N；第三计算单元，用于将分类损失函数L_conf与位置损失函数L_loc的和除以数量N的结果作为卷积神经网络的损失函数L。

可选地，第一计算单元通过下式计算位置损失函数L_loc：

其中，H和W分别为特征图的高度和宽度，K为候选区域的总数量，I_ijk为检测评价参数，δx_ijk、δy_ijk、δw_ijk、δh_ijk分别为卷积神经网络输出的相对于候选区域的坐标偏移量，分别为目标对象真实区域相对于候选区域的偏移量。

可选地，第二计算单元通过下式计算分类损失函数L_conf：

其中，H和W分别为特征图的高度和宽度，K为候选区域的总数量，C为目标对象所属类别，I_ijk为检测评价参数，表征目标对象真实区域的分布，p_c为目标对象所属类别的概率。

在本公开的一些实施例所提供的技术方案中，针对每个卷积处理模块，对输入的特征图进行1×1降维卷积处理以得到第一特征图，对第一特征图进行1×1扩展卷积处理以得到第二特征图，对第一特征图进行深度可分离卷积处理以得到第三特征图，基于第二特征图和第三特征图生成卷积处理模块输出的特征图。通过1×1降维卷积处理和可分离卷积处理，可以减小目标检测模型的大小并提高了目标检测的速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的图像处理方法或图像处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了一些技术采用单步法进行目标检测的模型示意图；

图4示意性示出了一些技术采用两步法进行目标检测的模型示意图；

图5示意性示出了根据本公开的示例性实施方式的图像处理方法的流程图；

图6示意性示出了根据本公开的示例性实施方式的卷积处理模块对输入的特征图进行处理的流程图；

图7示意性示出了根据本公开的示例性实施方式的基础神经网络的结构图；

图8示意性示出了根据本公开的示例性实施方式的卷积处理模块的结构图；

图9示意性示出了根据本公开的示例性实施方式的可分离卷积处理与普通卷积处理的对比图；

图10示意性示出了根据本公开的示例性实施方式的卷积神经网络的模型示意图；

图11示意性示出了根据本公开的示例性实施方式的候选区域的示意图；

图12示意性示出了根据本公开的示例性实施方式的图像处理装置的方框图；

图13示意性示出了根据本公开的示例性实施方式的卷积处理模块的方框图；

图14示意性示出了根据本公开的示例性实施方式的第三卷积单元的方框图；

图15示意性示出了根据本公开的示例性实施方式的对象确定模块的方框图；

图16示意性示出了根据本公开的另一示例性实施方式的图像处理装置的方框图；

图17示意性示出了根据本公开的示例性实施方式的损失计算模块的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的图像处理方法或图像处理装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如，服务器105可以获取终端设备101、102、103上用户上传的图像的特征图(feature map)，随后，将图像的特征图输入基础神经网络进行处理以确定图像中的目标对象。具体的，基础神经网络可以包括多个堆叠的卷积处理模块，每一卷积处理模块对输入的特征图执行处理包括：对输入的特征图进行1×1降维卷积处理以得到第一特征图；对第一特征图进行1×1扩展卷积处理以得到第二特征图；对第一特征图进行深度可分离卷积处理以得到第三特征图；基于第二特征图和第三特征图生成该卷积处理模块输出的特征图。

其中，对第一特征图进行深度可分离卷积处理以得到第三特征图可以包括：对第一特征图的各维度分别进行3×3卷积处理，以得到与第一特征图维度相同的中间特征图；对中间特征图进行1×1卷积处理以得到第三特征图。

需要说明的是，本公开实施例所提供的图像处理方法一般由服务器105执行，相应地，图像处理装置一般设置在服务器105中。

然而，应当理解的是，本公开另一些实施例所提供的图像处理方法还可以直接由终端设备101、102、103执行，也就是说，终端设备101、102、103可以直接利用卷积处理模块来确定图像中的目标对象。相应地，图像处理装置也可以设置在终端设备101、102、103中。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

下面描述的图像处理方案可以适应移动互联网的产品需求。具体的，可以应用在相机的人脸识别、人像自拍中的人体检测、趣味短视频的身体特征(例如，手势)检测以及拍照识别车辆的车辆检测中。

目前，目标对象检测的方法主要分为单步法和两步法。

对于单步法，一般指图像仅需要经过一个模型，即可获得图像中目标对象的坐标(box)。图3示出了以SSD神经网络为例的单步法检测的结构，具体的，图像经历一个VGG模型后再通过随后的多个卷积层，即可得到目标对象的具体位置。

对于两步法，一般需经过两步才能得到目标对象的具体位置，第一步得到候选对象及其坐标，此时，候选对象可能有误，需要再通过一级模型，对这些候选对象进行精细识别和坐标调整，以得到最终的检测结果。图4示出了以faster-rcnn结构为例检测目标对象的方式，其中，图中RPN指代生成候选对象的过程，然后，通过RolP将特征图调整到固定尺寸，接下来，通过RCNN模型对候选对象进行处理，以得到目标对象的具体位置。

一方面，虽然采用两步法进行对象检测效果较好，但存在模型大，检测速度慢的问题。例如，基于VGG的faster-rcnn的模型大小约500MB，在PC上运行的速度超过10s/帧。另一方面，虽然单步法较两步法而言检测速度快，然而，速度快仅体现在GPU上，例如，以采用yolo为例的模型在GPU上可以达到25ms/帧，但在PC的CPU上速度仍在2s/帧，并且模型大小约60MB。

鉴于此，需要一种新的图像处理方法及装置，以解决上述模型大且检测速度慢的问题。

图5示意性示出了本公开的示例性实施方式的图像处理方法的流程图。参考图5，所述方法可以包括以下步骤：

S52.获取图像的特征图。

本公开中所述的图像可以是手机摄像头实时获取的图像，另外，还可以是本地存储的照片、静态图片、视频图像等。图像中可能存在待检测的目标对象，该目标对象可以包括手势、人脸、汽车、树木、房屋等各种图像要素。

手机可以将实时拍摄的图像发送至服务器。另外，在图像为手机本地存储的图像的情况下，可以在手机显示图像的界面上配置一虚拟按键，以便用户在想要对图像进行检测的情况下，触摸该虚拟按键，随后，手机响应该触摸操作将图像发送至服务器。

此外，步骤S52中所述的图像还可以是经历过特征提取的图像。也就是说，该图像经历过一个或多个卷积核的处理。在这种情况下，服务器获取的图像特征图为经历卷积处理后的特征图。

S54.将图像的特征图输入基础神经网络进行处理以确定图像中的目标对象；其中，基础神经网络包括多个堆叠的卷积处理模块。

在本公开的示例性实施方式中，检测图像中的目标对象可以包括对象分类的检测，也就是说，检测对象所属的类别(例如，人脸、汽车、树木、手势等)。此外，检测图像中的目标对象还可以包括检测对象在图像中的位置，其中，该位置可以由对象的宽W、高H以及图像中所处具体的位置(x，y)来确定。

在本公开的示例性实施方式中，基础神经网络中每一卷积处理模块的结构可以相同。参考图6，每一卷积处理模块均可以对输入其的特征图进行步骤S62至步骤S68的处理过程。

具体的，在步骤S62中，卷积处理模块可以对输入的特征图进行1×1降维卷积处理以得到第一特征图；在步骤S64中，可以对第一特征图进行1×1扩展卷积处理以得到第二特征图；在步骤S66中，可以对第一特征进行深度可分离卷积处理以得到第三特征图；在步骤S68中，可以基于第二特征图和第三特征图生成该卷积处理模块输出的特征图，具体可以将第二特征图与第三特征图进行拼接，以得到该卷积处理模块输出的特征图。

在步骤S66中，深度可分离卷积的处理过程可以包括：首先，对第一特征图的各维度分别进行3×3卷积处理，以得到与第一特征图维度相同的中间特征图。接下来，可以对中间特征图进行1×1卷积处理，以得到第三特征图。

另外，在对中间特征图进行1×1卷积处理之前，可以对中间特征图依次进行批量归一化处理和线性整流处理。在对中间特征图进行1×1卷积处理之后，还可以对1×1卷积处理后的中间特征图进行批量归一化处理以及线性整流处理，以得到第三特征图。

此外，在将特征图输入多个堆叠的卷积处理模块中预定卷积处理模块之前，可以对特征图进行最大池化处理。其中，预定卷积处理模块与实际检测场景相关，也就是说，检测场景不同，多个堆叠的卷积处理模块中的预定卷积处理模块的位置和数量可能不同，并且预定卷积处理模块可以由开发人员自行配置，本示例性实施方式中对此不做特殊限定。

最大池化处理的作用在于：一方面，可以实现降维的效果，便于后续卷积过程的处理；另一方面，可以确保特征不变性，使得检测过程更加鲁棒。本公开对最大池化处理的过程不做特殊限制，例如，可以将最大池化处理的步长设置为2。

应当理解的是，上述术语“第一”、“第二”、“第三”、“中间”仅是为了区分的目的，不应将其理解为是本公开内容的限制。

图7示例性示出了本公开所述的基础神经网络的网络结构的示意图。具体的，该示例性网络结构可以包括卷积层701，最大池化层703和709，卷积处理模块705、707、711、713和715，均值池化层717和softmax层719。应当理解的是，图7所示结构仅是一示例性描述，网络中还可以包括其他卷积层。另外，卷积处理模块、最大池化层的位置和数量也根据实际应用场景的不同会发生变化。

图7中各卷积处理模块可以执行上述步骤S62至步骤S68的操作过程。下面将参考图8对卷积处理模块的结构进行示例性说明。

输入的特征图的维度可以为128，也就是说，输入该卷积处理模块的特征图有128个。首先，输入的特征图可以经过第一卷积单元801的处理，生成维度为16的特征图，即，第一特征图。具体的，第一卷积单元801可以执行1×1且维度为16的降维卷积处理，其中，该1×1卷积核对应的值根据实际检测需要可能不同；接下来，一方面，第一特征图可以经过第二卷积单元802的处理，生成维度为64的特征图，即，第二特征图。具体的，第二卷积单元802可以执行1×1且维度为64的扩展卷积处理；另一方面，第一特征图可以经过第三卷积单元803的处理，生成维度为64的特征图，即，第三特征图；随后，可以将第二卷积单元802卷积后生成的第二特征图和第三卷积单元803卷积后生成的第三特征图输入特征图生成单元804，特征图生成单元804可以按维度对第二特征图和第三特征图进行拼接，以得到维度为128的特征图，即，该卷积处理模块输出的特征图。

第三卷积单元803还可以包括第一卷积子单元8031和第二卷积子单元8032。具体的，第一卷积子单元8031可以对第一特征图的各维度分别进行3×3卷积处理，以得到与第一特征图维度相同的中间特征图；第二卷积子单元8032可以对中间特征图进行1×1卷积处理，以得到第三特征图。

另外，在第一卷积子单元8031与第二卷积子单元8032之间，第三卷积单元803还可以包括批量归一化单元和线性整流单元。具体的，批量归一化单元可以为BN层(BatchNormalization layer，批量归一化层)，用于加快网络学习的速度；线性整流单元可以为ReLU(Rectified Linear Unit，线性整流单元)，用于增加网络的稀疏性并提高训练速度。

此外，在第二卷积子单元8032之后，第三卷积单元803还可以包括批量归一化单元和线性整流单元。

第一卷积子单元8031执行的是按深度逐层卷积(depthwise卷积)的过程。图9示意性示出了3×3的普通卷积与3×3的depthwise卷积的卷积效果对比图。

对于普通卷积，如果卷积核的大小为D_K·D_K，输入的特征图的数量为M，输出的特征图的数量为N，输出的特征图的大小为D_F·D_F，则运算复杂度可以表示为：D_K·D_K·M·N·D_F·D_F。

对于depthwise卷积，运算复杂度可以仅为：D_K·D_K·M·D_F·D_F。再加上N个1×1的卷积，则深度可分离卷积(即，第一卷积子单元8031执行的过程)的总运算复杂度可以表示为：

D_K·D_K·M·D_F·D_F+M·N·D_F·D_F

由此可见，深度可分离卷积相对于普通卷积的运算复杂度所占比例为：

对于3×3的卷积核，深度可分离卷积的运算复杂度仅为普通卷积的1/9至1/8，因此，深度可分离卷积可以有效提高检测速度。

参考图10，本公开的图像处理方法涉及的卷积神经网络除包括基础神经网络外，还可以包括输出神经网络。具体的，图像处理方法还可以包括：将基础神经网络输出的特征图发送至一输出神经网络。其中，输出神经网络用于采用预设候选区域预测的方式根据基础神经网络输出的特征图确定目标对象的位置。

具体的，可以采用候选区域(anchor)预测目标对象的坐标位置，此处，可以将候选区域理解为在特征图上预先定义的位置坐标(reference box)，参考图11中虚线部分，这些预先设定的位置坐标可以作为目标对象的初始位置坐标，接下来，可以通过网络学习的方式准确地确定出目标对象的位置。另外，特征图上每个像素对应的候选区域的数量可以由开发人员自行设定，例如，每个像素对应的候选区域的数量为9个。

根据本公开的一些实施例，本公开的图像处理方法还可以包括调整网络参数的过程。具体如下：

首先，可以计算由基础神经网络和输出神经网络构成的卷积神经网络的损失函数；随后，可以确定使损失函数最小化的卷积神经网络参数；接下来，可以将使损失函数最小化的卷积神经网络参数应用于卷积神经网络，以实现网络权重调整的过程。

在本公开的示例性描述中，计算损失函数的过程可以包括：首先，可以分别计算出分类损失函数L_conf和位置损失函数L_loc。在一实例中，可以通过公式1来计算位置损失函数L_loc：

其中，H和W分别为特征图的高度和宽度；K为所述候选区域的总数量；I_ijk为检测评价参数，当在位置(i，j)的第k个候选区域与真实区域的IOU(Intersection Over Union，检测评价函数)大于一预定阈值(例如，0.7)时，I_ijk为1，否则为0；δx_ijk、δy_ijk、δw_ijk、δh_ijk分别为所述卷积神经网络输出的相对于所述候选区域的坐标偏移量；分别为目标对象真实区域相对于所述候选区域的偏移量。

另外，可以通过公式2来计算分类损失函数L_conf：

其中，H和W分别为特征图的高度和宽度，K为所述候选区域的总数量，C为目标对象所属类别，I_ijk为检测评价参数，表征目标对象真实区域的分布，p_c为目标对象所属类别的概率。

另外，可以确定与候选区域匹配的目标对象所在区域的数量N。

接下来，可以将分类损失函数L_conf与位置损失函数L_loc的和除以数量N的结果作为卷积神经网络的损失函数L。具体参见公式3：

根据另外一些实施例，可以在确定出目标对象的位置后，将置信度高于一预定置信度的检测结果确定为目标对象的坐标。本示例性实施方式中对此不做特殊限定。

经过测试，采用上述实现图像处理方法的卷积神经网络，一方面，可以达到较好的目标对象的检测效果；另一方面，该卷积神经网络模型较小(约1.8MB)，且检测速度块(在PC上的速度可达到60ms/帧)。由此，可以满足例如人脸、手势、行人、车辆等目标检测的需要。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种图像处理装置。

图12示意性示出了本公开的示例性实施方式的图像处理装置的方框图。参考图12，根据本公开的示例性实施方式的图像处理装置12可以包括特征获取模块121和对象确定模块123。

具体的，特征获取模块121可以用于获取图像的特征图；对象确定模块123可以用于将图像的特征图输入基础神经网络进行处理以确定图像中的目标对象；其中，基础神经网络包括多个堆叠的卷积处理模块。

参考图13，卷积处理模块13可以包括第一卷积单元131、第二卷积单元133、第三卷积单元135和特征图生成单元137。

具体的，第一卷积单元131可以用于对输入的特征图进行1×1降维卷积处理以得到第一特征图；第二卷积单元133可以用于对第一特征图进行1×1扩展卷积处理以得到第二特征图；第三卷积单元135可以用于对第一特征图进行深度可分离卷积处理以得到第三特征图；特征图生成单元137可以用于基于第二特征图和第三特征图拼接生成该卷积处理模块输出的特征图。

根据本公开的示例性实施例，基础神经网络还包括：最大池化模块，用于在将特征图输入多个堆叠的卷积处理模块中预定卷积处理模块之前，对特征图进行最大池化处理。

根据本公开的示例性实施例，参考图14，第三卷积单元135可以包括第一卷积子单元141和第二卷积子单元144。

具体的，第一卷积子单元141可以用于对第一特征图的各维度分别进行3×3卷积处理，以得到与第一特征图维度相同的中间特征图；第二卷积子单元144可以用于对中间特征图进行1×1卷积处理，以得到第三特征图。

仍参考图14，第三卷积单元135还可以包括第一批量归一化单元142和第一线性整流单元143。具体的，第一批量归一化单元142和第一线性整流单元143可以分别用于对中间特征图进行批量归一化处理和线性整流处理。

第三卷积单元135还可以包括第二批量归一化单元145和第二线性整流单元146。具体的，第二批量归一化单元145和第二线性整流单元146可以分别用于对第二卷积子单元144处理后的中间特征图进行批量归一化处理和线性整流处理，以得到第三特征图。

根据本公开的示例性实施例，参考图15，对象确定模块123可以包括特征发送单元151。

具体的，特征发送单元151可以用于将所述基础神经网络输出的特征图发送至一输出神经网络；其中，所述输出神经网络用于采用预设候选区域预测的方式根据所述基础神经网络输出的特征图确定所述目标对象的位置。

根据本公开的示例性实施例，参考图16，图像处理装置16相对于图像处理装置12，除包括特征获取模块121和对象确定模块123外，还可以包括损失计算模块161、参数确定模块163和参数应用模块165。

具体的，损失计算模块161可以用于计算由基础神经网络和输出神经网络构成的卷积神经网络的损失函数；参数确定模块163可以用于确定使损失函数最小化的卷积神经网络参数；参数应用模块165可以用于将使损失函数最小化的卷积神经网络参数应用于卷积神经网络。

根据本公开的示例性实施例，参考图17，损失计算模块161可以包括第一计算单元171、第二计算单元173、数量确定单元175和第三计算单元177。

具体的，第一计算单元171可以用于计算计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的位置损失函数L_loc；第二计算单元173可以用于计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的分类损失函数L_conf；数量确定单元175可以用于确定与所述候选区域匹配的目标对象所在区域的数量N；第三计算单元177可以用于将分类损失函数L_conf与位置损失函数L_loc的和除以数量N的结果作为卷积神经网络的损失函数L。

根据本公开的示例性实施例，第一计算单元171可以通过上述公式1计算位置损失函数L_loc。

根据本公开的示例性实施例，第二计算单元173可以通过上述公式2计算分类损失函数L_conf。

在本公开的图像处理装置中，通过1×1降维卷积处理和可分离卷积处理，可以减小目标检测模型的大小并提高了目标检测的速度。另外，经过测试，采用上述实现图像处理装置的卷积神经网络，一方面，可以达到较好的目标对象的检测效果；另一方面，该卷积神经网络模型较小(约1.8MB)，且检测速度块(在PC上的速度可达到60ms/帧)。由此，可以满足例如人脸、手势、行人、车辆等目标检测的需要。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像处理方法，其特征在于，包括：

获取图像的特征图；

将所述图像的特征图输入基础神经网络进行处理以确定所述图像中的目标对象；其中，所述基础神经网络包括多个堆叠的卷积处理模块，每一所述卷积处理模块对输入的特征图执行处理包括：

对输入的特征图进行1×1降维卷积处理以得到第一特征图；

对所述第一特征图进行1×1扩展卷积处理以得到第二特征图；

对所述第一特征图进行深度可分离卷积处理以得到第三特征图；

基于所述第二特征图和所述第三特征图生成所述卷积处理模块输出的特征图。

2.根据权利要求1所述的图像处理方法，其特征在于，对所述第一特征图进行深度可分离卷积处理以得到第三特征图包括：

对所述第一特征图的各维度分别进行3×3卷积处理，以得到与所述第一特征图维度相同的中间特征图；

对所述中间特征图进行1×1卷积处理，以得到第三特征图。

3.根据权利要求1所述的图像处理方法，其特征在于，在将特征图输入所述多个堆叠的卷积处理模块中预定卷积处理模块之前，对特征图进行最大池化处理。

4.根据权利要求2所述的图像处理方法，其特征在于，对所述中间特征图进行1×1卷积处理之前，对所述中间特征图进行批量归一化处理以及线性整流处理。

5.根据权利要求2所述的图像处理方法，其特征在于，对所述中间特征图进行1×1卷积处理之后，对1×1卷积处理后的中间特征图进行批量归一化处理以及线性整流处理，以得到第三特征图。

6.根据权利要求1所述的图像处理方法，其特征在于，所述图像处理方法还包括：

将所述基础神经网络输出的特征图发送至一输出神经网络；

其中，所述输出神经网络用于采用预设候选区域预测的方式根据所述基础神经网络输出的特征图确定所述目标对象的位置。

7.根据权利要求6所述的图像处理方法，其特征在于，所述图像处理方法还包括：

计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的损失函数；

确定使损失函数最小化的卷积神经网络参数；

将使损失函数最小化的卷积神经网络参数应用于所述卷积神经网络。

8.根据权利要求7所述的图像处理方法，其特征在于，计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的损失函数包括：

分别计算由所述基础神经网络和所述输出神经网络构成的卷积神经网络的分类损失函数和位置损失函数；

确定与所述候选区域匹配的目标对象所在区域的数量N；

将分类损失函数与位置损失函数的和除以数量N的结果作为卷积神经网络的损失函数L。

9.根据权利要求8所述的图像处理方法，其特征在于，通过下式计算位置损失函数L_loc：

其中，H和W分别为特征图的高度和宽度，K为所述候选区域的总数量，I_ijk为检测评价参数，δx_ijk、δy_ijk、δw_ijk、δh_ijk分别为所述卷积神经网络输出的相对于所述候选区域的坐标偏移量，分别为目标对象真实区域相对于所述候选区域的偏移量。

10.根据权利要求9所述的图像处理方法，其特征在于，通过下式计算分类损失函数L_conf：

11.一种图像处理装置，其特征在于，包括：

特征获取模块，用于对获取图像的特征图；

对象确定模块，用于将所述图像的特征图输入基础神经网络进行处理以确定所述图像中的目标对象；其中，所述基础神经网络包括多个堆叠的卷积处理模块，每一所述卷积处理模块包括：

第一卷积单元，用于对输入的特征图进行1×1降维卷积处理以得到第一特征图；

第二卷积单元，用于对所述第一特征图进行1×1扩展卷积处理以得到第二特征图；

第三卷积单元，用于对所述第一特征图进行深度可分离卷积处理以得到第三特征图；

特征图生成单元，用于基于所述第二特征图和所述第三特征图生成所述卷积处理模块输出的特征图。

12.根据权利要求11所述的图像处理装置，其特征在于，所述第三卷积单元包括：

第一卷积子单元，用于对所述第一特征图的各维度分别进行3×3卷积处理，以得到与所述第一特征图维度相同的中间特征图；

第二卷积子单元，用于对所述中间特征图进行1×1卷积处理，以得到第三特征图。

13.根据权利要求11所述的图像处理装置，其特征在于，所述对象确定模块包括：

特征发送单元，用于将所述基础神经网络输出的特征图发送至一输出神经网络；

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至10中任一项所述的图像处理方法。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至10中任一项所述的图像处理方法。