CN109740534A

CN109740534A - 图像处理方法、装置及处理设备

Info

Publication number: CN109740534A
Application number: CN201811654182.9A
Authority: CN
Inventors: 陈文科; 姚聪; 孙晨
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-10
Anticipated expiration: 2038-12-29
Also published as: CN109740534B

Abstract

本发明提供了一种图像处理方法、装置及处理设备，涉及图像识别技术领域，该方法包括：获取待识别图像；将待识别图像输入目标识别网络；目标识别网络包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络；卷积计算层包括卷积块，残差计算层包括残差块；残差块包括至少两个依次连接的卷积块；卷积块包括至少一个通道不变卷积层；通道不变卷积层对输入特征图进行计算时，将输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道；通过目标识别网络对待识别图像进行姿势识别，得到姿势识别结果，姿势识别结果包括待识别图像所包含的目标的位置和模态。本发明实施例可以减少计算量、增大感受野，精准确定位置和模态。

Description

图像处理方法、装置及处理设备

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种图像处理方法、装置及处理设备。

背景技术

手势识别是不借助触摸屏等机械设备的无触人机交互的支柱技术，手势识别的实时与否决定着无触人机交互的普及与否。然而由于手部形变高、手部自遮挡和外部遮挡严重、背景噪音复杂、拍摄角度多变、光线强弱、红外强度不一等因素，针对红外摄像头的手势识别本身已是非常困难，尤其是不能实时、不能同时处理多只手的识别，且实时手势识别还受限于计算资源等，会更加难以实现。

针对现有技术中图像识别的上述问题，目前尚未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种图像处理方法、装置及处理设备，可以减少神经网络模型的计算量，更精准地定位目标位置和识别目标模态。

第一方面，本发明实施例提供了一种图像处理方法，包括：获取待识别图像；将所述待识别图像输入目标识别网络；所述目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络；所述卷积计算层包括卷积块，所述残差计算层包括残差块；所述残差块包括至少两个依次连接的卷积块；所述卷积块包括至少一个通道不变卷积层；所述通道不变卷积层对输入特征图进行计算时，将所述输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道；

通过所述目标识别网络对所述待识别图像进行姿势识别，得到姿势识别结果，所述姿势识别结果包括所述待识别图像所包含的目标的位置和模态。

进一步，所述通过所述目标识别网络对所述待识别图像进行姿势识别的步骤，包括：通过所述卷积计算层的卷积块对所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图，并将所述第一特征图输入至所述残差计算层；通过所述残差计算层的至少一个残差块对所述第一特征图进行特征提取，得到所述待识别图像的第二特征图，并将所述第二特征图输入至输出层；通过所述输出层对所述第二特征图进行分类，并输出所述姿势识别结果。

进一步，所述卷积块还包括第二卷积层、批量标准化层和修正线性单元；所述通道不变卷积层、所述第二卷积层、批量标准化层和修正线性单元依次连接；所述通过所述卷积计算层的卷积块对所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图的步骤，包括：通过所述通道不变卷积层对所述待识别图像的特征图进行卷积计算，得到与所述待识别图像通道的数量相同的初步特征图；通过所述第二卷积层对所述初步特征图进行卷积计算，得到包括预设数量通道的中间特征图；依次通过所述批量标准化层和所述修正线性单元对所述中间特征图进行批量标准化和非线性化，得到所述待识别图像的第一特征图。

进一步，所述残差块包括至少两个依次连接的卷积块，底层的所述卷积块的输入端与上层的所述卷积块的输出端捷径连接；所述通过所述残差计算层的至少一个残差块对所述第一特征图进行特征提取，得到所述待识别图像的第二特征图的步骤，包括：将所述第一特征图输入底层的所述卷积块，以及通过捷径连接输送至上层的所述卷积块的输出端；各个所述卷积块逐级对所述第一特征图进行卷积处理；将逐级处理后得到的特征图与通过捷径连接输送的所述第一特征图相加，得到所述待识别图像的第二特征图。

进一步，所述目标识别网络还包括作为分支网络的中间监督网络，所述特征金字塔神经网络和所述中间监督网络反向；所述中间监督网络包括多个依次连接的中间监督模块，所述中间监督模块与对应的所述残差计算层分别连接，用于在训练过程中接收对应的所述残差计算层输出的特征图以及上一层中间监督模块输出的特征图，相加得到中间监督特征图，并根据所述中间监督特征图进行损失函数优化及回传参数至所述对应的所述残差计算层。

进一步，所述中间监督模块至少包括位置回归模块、分类模块和模态识别模块；在训练过程中，所述位置回归模块用于回归目标的位置，所述分类模块用于识别目标，所述模态识别模块用于识别目标的模态。

第二方面，本发明实施例提供了一种图像处理装置，包括：获取模块，用于获取待识别图像；输入模块，用于将所述待识别图像输入目标识别网络；所述目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络；所述卷积计算层包括卷积块，所述残差计算层包括残差块；所述残差块包括至少两个依次连接的卷积块；所述卷积块包括至少一个通道不变卷积层；所述通道不变卷积层对输入特征图进行计算时，将所述输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道；识别模块，用于通过所述目标识别网络对所述待识别图像进行姿势识别，得到姿势识别结果，所述姿势识别结果包括所述待识别图像所包含的目标的位置和模态。

进一步，所述识别模块还用于：通过所述卷积计算层的卷积块对所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图，并将所述第一特征图输入至所述残差计算层；通过所述残差计算层的至少一个残差块对所述第一特征图进行特征提取，得到所述待识别图像的第二特征图，并将所述第二特征图输入至输出层；通过所述输出层对所述第二特征图进行分类，并输出姿势识别结果。

第三方面，本发明实施例提供了一种处理设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述方法的步骤。

第四方面，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面任一项所述方法的步骤。

本发明实施例提供了一种图像处理方法、装置及处理设备，使用的目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络，其中卷积计算层包括卷积块，残差计算层包括残差块，残差块由至少两个依次连接的卷积块组成，每个卷积块包括至少一个通道不变卷积层，可以增大神经网络的感受野并降低网络的参数数量，从而减少神经网络的计算量。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种处理设备的结构示意图；

图2为本发明实施例提供的一种图像处理方法的流程图；

图3为本发明实施例提供的CWCB模块的示意图；

图4为本发明实施例提供的CWRB模块的示意图；

图5为本发明实施例提供的目标识别网络结构的示意图；

图6为本发明实施例提供的一种图像处理装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于图像识别过程中，受到形变、遮挡、背景噪音、拍摄角度、光线、红外强度等多种因素影响，目标识别的识别准确性不足且需要较多计算资源。基于此，本发明实施例提供了一种图像处理方法、装置及处理设备，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的处理设备100，该处理设备可以用于运行本发明各实施例的方法。

如图1所示，处理设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及数据采集器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的处理设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述处理设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述处理设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述数据采集器110用于进行数据采集，其中，数据采集器所采集的数据为当前目标的原始数据或目标数据，然后，数据采集器还可以将该原始数据或目标数据存储在所述存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像处理方法的处理设备可以被实现为诸如服务器、智能手机、平板电脑、计算机等智能终端。

实施例二：

本发明实施例提供了一种图像处理方法，参见图2所示的一种图像处理方法的流程图，该方法可由前述实施例提供的处理设备执行，该方法可以包括如下步骤：

步骤S202，获取待识别图像。

例如，待识别图像为红外图像，则可以通过红外摄像头采集待识别目标的图像，从而获得待识别图像。

步骤S204，将待识别图像输入目标识别网络。

其中，该目标识别网络包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络。卷积计算层包括卷积块，残差计算层包括残差块。该残差块包括至少两个依次连接的卷积块；该卷积块包括至少一个通道不变卷积层。

该通道不变卷积层对输入特征进行卷积计算时，该输入特征一般均包括多个通道，将输入特征的每个通道单独进行卷积变换得到输出特征的一个通道，即将输入特征的各个通道一一对应到输出特征，各个通道分别保持不变地对应，输入特征和输出特征的通道数量和通道顺序均相同。在此需要说明的是，目标识别网络已预先经过训练。

由于卷积层的参数数量取决于卷积核大小以及卷积核的数量，其中卷积核的大小决定了网络的感受野，卷积核的数量决定了输出特征的通道的数量，卷积核越大则模型的感受野越大，卷积核的数量越大则输出特征的通道数量越多。其中，感受野表示的是网络每一层输出的特征图上的像素点在原始图像上映射的区域大小。卷积核的大小和通道的数量也决定了网络的参数数量，进而影响模型的计算量。

在保证不减少模型感受野的条件下，本实施例通过将通道不变卷积层的卷积核的数量保持与输入特征图的通道数量一致，从而减小模型的参数数量，即通过上述数量的卷积核对输入特征图执行卷积计算，而非选择更多数量的卷积核以增加网络的宽度。在输入特征图的通道数改变时，该通道不变卷积层中用于卷积计算的卷积核数量也适应性变化。

该残差块包括至少两个依次连接的卷积块，可以逐级对输入的特征图进行特征提取，从而增加目标识别网络的感受野。

步骤S206，通过目标识别网络对待识别图像进行姿势识别，得到姿势识别结果。该姿势识别结果包括待识别图像所包含的目标的位置和姿势。

本发明实施例提供的图像处理方法，使用的目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络，其中卷积计算层包括卷积块，残差计算层包括残差块，残差块由至少两个依次连接的卷积块组成，每个卷积块包括至少一个通道不变卷积层，增大神经网络的感受野并降低网络的参数数量，从而减少神经网络的计算量。

基于目标识别网络包括依次连接的多个卷积计算层和多个残差计算层，对待识别图像进行姿势识别的过程，具体可以包括以下步骤：

(1)通过卷积计算层的卷积块对待识别图像进行卷积处理，得到待识别图像的第一特征图，并将第一特征图输入至残差计算层。

(2)通过残差计算层的至少一个残差块对第一特征图进行特征提取，得到待识别图像的第二特征图，并将第二特征图输入至输出层。上述卷积计算层和残差计算层均可以对待识别图像的特征图进行特征提取，通过逐级特征提取最终得到可进行有效分类的特征图。

(3)通过输出层对第二特征图进行分类，并输出姿势识别结果。

卷积计算层的卷积块除包括上述通道不变卷积层以外，还可以包括第二卷积层、批量标准化层和修正线性单元，其中通道不变卷积层、第二卷积层、批量标准化层和修正线性单元依次连接，上述步骤(1)进行卷积处理的过程可以参照以下步骤执行：

1.通过通道不变卷积层对待识别图像的特征图进行卷积计算，得到与待识别图像通道的数量相同的初步特征图；

2.通过第二卷积层对初步特征图进行卷积计算，得到包括预设数量通道的中间特征图；该第二卷积层可以通过控制卷积核的数量，压缩通道数量、保持通道数量或者增加通道数量，具体可以根据实际需要确定，目的是进行升维或者降维，相较于通过一次卷积处理得到包括预设数量通道的特征图，上述方式可以大大减少网络参数，并且可以进行不同通道上特征的融合。

3.依次通过批量标准化层和修正线性单元对中间特征图进行批量标准化和非线性化，得到待识别图像的第一特征图。

批量标准化层(Batch Normalization，BN)作用是数据标准化(归一化，规范化)，可以对每一层的输入进行归一化，保证每层的输入数据分布是稳定的，从而加速训练网络；修正线性单元(Rectified Linear Unit，ReLU)，作用是为了增加神经网络的非线性，相较于sigmoid等函数，可以节省计算量，并且在输入信号较强时仍然能够保留信号之间的差别，还可以缓解过拟合问题的发生。

残差计算层的残差块可以包括至少两个依次连接的卷积块，并且底层的卷积块的输入端可以与上层的任意一个卷积块的输出端捷径(shortcut connections)连接，以构成残差网络，上述步骤(2)进行特征提取的过程可以参照以下步骤执行：

将第一特征图输入底层的卷积块，以及通过捷径连接输送至上层的卷积块的输出端；各个卷积块逐级对第一特征图进行卷积处理；将逐级处理后得到的特征图与通过捷径连接输送的第一特征图相加，得到待识别图像的第二特征图。其中的卷积块使用前述实施例提供的卷积块，可以增大网络的感受野，有利于提取更丰富的目标特征。

为了提高网络训练的效率和网络识别的准确度，在上述目标识别网络还可以包括作为分支网络的中间监督网络，前述特征金字塔神经网络作为主干网络，特征金字塔神经网络和中间监督网络反向。特征金字塔神经网络和中间监督网络的路径方向相反，特征金字塔神经网络自下向上则中间监督网络自上而下，特征金字塔神经网络自上向下则中间监督网络自下而上，且特征金字塔神经网络和中间监督网络中间横向连接。

其中，中间监督网络可以包括多个依次连接的中间监督模块，每个中间监督模块与对应的残差计算层分别连接，用于接收对应的残差计算层输出的特征图以及上一层中间监督模块输出的特征图，相加得到中间监督特征图，并根据中间监督特征图进行损失函数优化及回传参数至对应的残差计算层。中间监督模块可以将残差计算层输出的结果与上一层中间监督模块输入的结果相加，该过程不会引入新的参数，然后计算损失函数并计算梯度，回传参数至对应的残差计算层，可以保证特征金字塔神经网络底层的参数正常更新。

上述中间监督模块至少包括位置回归模块、分类模块和模态识别模块，位置回归模块用于回归目标的位置，分类模块用于识别目标，模态识别模块用于识别目标的模态。上述回归模块、分类模块和模态识别模块可以依次对输入特征进行计算，最终得到目标位置及和模态的真实分类结果，然后将该真实分类结果与中间监督模块对应的残差计算层的输出结果进行比较，得到两者的误差，再根据该误差对残差计算层的参数进行优化，从而促使整个模型进一步掌握与任务目标相关的特征，引导模型更精准地定位出目标位置及识别出目标模态。

实施例三：

本发明实施例提供了一种目标识别网络，包括：主干网络和分支网络。

上述主干网络为特征金字塔神经网络，包括多个依次连接的卷积计算层和残差计算层，每个该卷积计算层至少包括一个卷积块，每个该残差计算层至少包括一个残差块。

其中，该残差块包括至少两个依次连接的卷积块，该卷积块包括至少一个通道不变卷积层，该通道不变卷积层指对输入特征进行计算时，总体上输入特征和输出特征通道保持不变。该通道不变卷积层用于对输入特征图进行卷积计算得到输出特征图，具体地该卷积层可以将输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道，各个通道分别保持不变地对应，输入特征和输出特征的通道数量和通道顺序均相同。上述过程要求该卷积层的卷积核的数量与输入特征图的通道数量一致。

在保证不减少模型感受野的条件下，本实施例通过将通道不变卷积层的卷积核的数量保持与输入特征的通道数量一致，从而减小模型的参数数量，即通过上述数量的卷积核对输入特征执行卷积计算，而非选择更多数量的卷积核以增加网络的宽度。在输入特征的通道数改变时，该通道不变卷积层中用于卷积计算的卷积核数量也适应性变化。考虑到对卷积块的输出结果的通道数的要求，在上述通道不变卷积层还可以连接第二卷积层，该第二卷积层对上述通道不变卷积层输出的特征图再进行卷积计算，得到包括预设数量通道的特征图，即对通道不变卷积层输出的特征图进行升维或者降维，可以通过在第二卷积层中设置适合大小和数量的卷积核实现。

上述分支网络为中间监督网络，包括多个依次连接的中间监督模块，每个中间监督模块与对应的残差计算层分别横向连接，用于进行误差计算。主干网络和分支网络的路径方向相反，主干网络自下向上则分支网络自上而下，主干网络自上向下则分支网络自下而上，且主干网络和分支网络中间横向连接。每个中间监督模块在训练过程中，均能接收对应的残差计算层输出的特征图以及上一层中间监督模块(指对应的残差计算层的层级更高)输出的特征图，相加得到对应的残差计算层的中间监督特征图，并根据中间监督特征图进行损失函数优化及回传参数至对应的残差计算层，从而促使整个网络进一步掌握与任务目标相关的特征，引导网络更精准地定位出目标位置及识别出目标模态。

在本实施方式中，上述中间监督模块至少包括位置回归模块、分类模块和模态识别模块：位置回归模块用于回归目标的位置，分类模块用于识别目标，模态识别模块用于识别目标的模态。

通过分支网络与主干网络相反的路径方向，将高层语义更强的特征图传递至下层，可以使主干网络的高层特征得到增强，处于主干网络下层的残差计算层能由此学习到更高层的目标语义特征，这样有利于模型更精准地得到目标位置和目标模态。

上述目标识别网络模型，在结构上不需要候选区域网络(Region Proposal)，整体属于One-Stage类型，可以直接输出目标的类别概率和位置值，经过单次检测即可直接得到检测结果，因此有着更快的检测速度，可以满足实时识别的要求。

本发明实施例提供的目标识别网络，包括基于通道不变卷积层的卷积块构建的残差块，可以减少神经网络模型的计算量和增大神经网络模型的感受野，还包括中间监督模块，可以引导神经网络模型更精准地定位出目标位置和识别出目标模态，且网络整体属于One-Stage类型，具备实时识别的能力。

在一个可选的实施方式中，上述卷积块包括上述通道不变卷积层以外，还可以包括1*1卷积层、BN层和ReLU，上述通道不变卷积层、1*1卷积层、BN层和ReLU依次连接。

其中，1*1卷积层可以通过控制卷积核的数量，压缩通道数量、保持通道数量或者增加通道数量，具体可以根据实际需要确定。因此该1*1卷积层可以进行升维或者降维，可以帮助减少模型参数，并且进行不同通道上特征的融合。BN作用是数据标准化(归一化，规范化)，可以对每一层的输入进行归一化，保证每层的输入数据分布是稳定的，从而加速训练网络；ReLU为激活函数(activation function)，作用是为了增加神经网络模型的非线性，相较于sigmoid等函数，可以节省计算量，并且在输入信号较强时仍然能够保留信号之间的差别，还可以缓解过拟合问题的发生。

基于上述卷积块可以构造模型的残差块，该残差块至少包括依次连接的多个卷积块，基于上述卷积块的结构优点，神经网络模型的计算量也可以有效降低，并且多个连接的卷积块包括多个通道不变卷积层，通过多个通过不变卷积层的叠加可以增大模型的感受野，有利于模型提取更丰富的特征，多层叠加还提升了网络的深度，可以提升神经网络的识别效果。

基于上述残差块可以构造模型的残差计算层，在每个残差计算层中均包括多个依次连接的残差块，即多个残差块叠加组成一个残差计算层，每个残差计算层的最上层的残差块均与一个中间监督模块连接。通过引入中间监督网络，可以使模型中下层的模块学习到更高层的语义特征，当应用于手部识别时，中间监督网络可以引导模型更精准地定位出手部位置和识别出手部模态。对于特征图金字塔网络，每层残差计算层可以定义为一个金字塔等级，然后选择每个等级的最后一层(即最上层)与中间监督模块连接，原因在于每个等级最后一层具有最强的语义特征。

以下具体介绍本发明实施例提供的目标识别网络，其可以包括以下基础模块：基础卷积模块Channel-Wise Conv Block(CWCB，Channel-Wise卷积块)和残差块Channel-Wise Residual Block(CWRB，Channel-Wise残差块)，分别如图3和图4所示。

参见图3所示的CWCB模块的示意图，包括Channel-Wise卷积层，该卷积层可以将输入的特征图(feature map)的多个通道一一对应到输出的特征图中，即输出的特征图与输入的特征图的通道数量和通道顺序均相同。例如输入图像为RGB图像，则其对应于三通道特征图，在Channel-Wise卷积层中则包括3个卷积核。

在保证不减少模型感受野的条件下，即卷积核的大小满足预设需要，Channel-Wise卷积层的卷积核的数量保持与输入的特征图的通道数量相同，不进行网络宽度的拓展，减小了整体模型的参数数量，并且该Channel-Wise卷积层的卷积核数量可以自动适应输入的特征图的通道数量，最终达到减少模型计算量的目的。在图3中以3*3的卷积核为例，在该卷积层之上还连接了1*1的卷积层，用于改变特征图的维度。以输入的特征图包括10个通道，输出的特征图包括20个通道为例，现有卷积块通过一次卷积处理得到包括20个通道的特征图，需要20个3*3*10的卷积核，本实施例通过两次卷积处理实现，第一层包括10个3*3*10的卷积核，第二层包括20个1*1*10的卷积核。参数数量通过以下方式得到：参数数量＝卷积核个数×(卷积核大小+1)，卷积核的大小＝开始进行卷积的通道数×每个通道上进行卷积的二维卷积核的尺寸。因此相对于直接采用20个3*3*10的卷积核的卷积层进行卷积处理，本实施例提供的方法有效降低了参数数量。

在1*1的卷积层之上还连接了BN层和ReLU。各层具体用途参见前述内容，在此不再赘述。

参见图4所示的CWRB模块的示意图，包括两个连接的CWCB模块，且两个CWCB模块的输入和输出通过projection shortcut直接连接，需要说明的是，如果输入特征图与输出特征图的维度相同，也可以通过identity shortcuts(恒等捷径连接)直接连接。以图3中示出的CWCB模块为例，每个CWCB模块均包括一个3*3的卷积层，即在CWRB模块中包括两个3*3的卷积层，则残差块整体的感受野扩大至5*5。现有的残差块一般包括1*1+3*3+1*1三个卷积层，中间3*3卷积层为前述通过一次卷积处理得到特征图的方式，参数数量大然后经过另一个1*1卷积层还原。本实施例提供的上述CWRB模块则增大了模型的感受野，有利于模型提取更丰富的目标特征。

由于上述CWRB模块基于CWCB模块构建，因此相比于传统的残差块，也可以减少模型的计算量。

参见图5所示的目标识别网络结构的示意图，以目标识别网络是手势识别网络为例，其中主干网络包括4个残差计算层，自上到下依次包括3个、4个、2个、1个CWRB模块，上述三层残差计算层的最上侧的CWRB模块与右侧的中间监督模块(IntermediateSupervision)连接，右侧的三个中间监督模块P3、P4、P5自上而下连接，每个中间监督模块由手部回归模块(Regression Head)、手部识别模块(Hand Classification Head)和手部模态识别模块(Mode Classification Head)组成。其中，主干网络的卷积计算层和残差计算层可以逐级对输入的特征图进行特征提取，输出一定通道的特征图，该卷积计算层和残差计算层的层数，以及两者中具体包括的卷积块和残差块的数量，可以通过训练过程中不断试验得到，以兼顾效率和准确度。

如图5中所示，左侧的主干网络和右侧的分支网络的路径方向相反，主干网络为自下而上的路径，分支网络为自上而下的路径，并且主干网络和分支网络横向连接，即残差计算层与中间监督模块对应分别连接，中间监督模块可以将残差计算层输出的结果与真值进行误差计算，得到每个阶段输出的实际损失，并且可以将结果传输给下层的中间监督模块，使主干网络的高层特征得到增强，可以提高模型收敛速度，处于主干网络下层的残差计算层也可以由此学习到更高层的目标语义特征，有利于模型更精准地得到目标位置和目标模态。

上述中间监督模块包括手部回归模块、手部识别模块和手部模态识别模块，其中，手部回归模块用于回归手部识别框的位置，该手部识别框的位置可以包括左上角坐标和右下角坐标；手部识别模块用于识别上述手部识别框中的图像是否为手部；手部模态识别模块用于在手部识别模块识别上述手部识别框中的图像是手部后，对其进行模态识别，例如手部的模态是攥成拳头、展开为手掌或者拇指伸出等。

由于上述主干网络是基于Channel-Wise卷积块和Channel-Wise残差块构建的特征金字塔神经模型，设计上极大地减少了神经网络模型的参数量，同时还保证了神经网络模型具有足够的感受野，使得模型能在降低计算量的条件下学习到更加丰富的多尺度特征。通过引入中间监督模块，在训练模型时，不仅能使模型收敛快，还能使模型下层的残差模块学习到更高层的手部语义特征，因此有利于模型更精准地定位出手部位置和识别出手部模态。卷积神经网络模型整体是One-Stage模型，训练和使用起来非常方便。

上述目标识别网络，使用CWRB模块减少了神经网络模型的计算量，增大神经网络模型的感受野，带有手部位置回归、手部识别和手部模态识别的中间监督模块，可以引导神经网络模型更精准地定位出手部位置和识别出手部模态。

以待检测目标为手部为例，目标识别网络可以通过待检测图像识别出手部位置和手部姿态。为了解决现有技术不能实时、不能同时处理多只手的问题，上述方法可以针对红外摄像头进行实时手势识别，直接从红外摄像头捕捉到的图片中，定位出所有的手，并识别出每只手的模态。

本发明实施例提供的图像处理方法，通过上述目标识别网络进行姿势识别，该目标识别网络基于通道不变卷积层构建的残差块，可以减少神经网络模型的计算量和增大神经网络模型的感受野，该卷积神经网络包括中间监督模块，可以引导神经网络模型更精准地定位出手部位置和识别出手部模态，且网络整体属于One-Stage类型，可以进行实时识别。

实施例四：

对于实施例二中所提供的图像处理方法，本发明实施例提供了一种图像处理装置，参见图6所示的一种图像处理装置的结构框图，包括：

获取模块602，用于获取待识别图像；

输入模块604，用于将待识别图像输入目标识别网络；目标识别网络包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络；卷积计算层包括卷积块，残差计算层包括残差块；残差块包括至少两个依次连接的卷积块；卷积块包括至少一个通道不变卷积层；通道不变卷积层对输入特征图进行计算时，将输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道；

识别模块606，用于通过目标识别网络对待识别图像进行姿势识别，得到姿势识别结果，姿势识别结果包括待识别图像所包含的目标的位置和模态。

本发明实施例提供的图像处理装置，使用的目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络，其中卷积计算层包括卷积块，残差计算层包括残差块，残差块由至少两个依次连接的卷积块组成，每个卷积块包括至少一个通道不变卷积层，增大神经网络的感受野并降低网络的参数数量，从而减少神经网络的计算量。

在一种实施方式中，识别模块还用于：通过卷积计算层的卷积块对待识别图像进行卷积处理，得到待识别图像的第一特征图，并将第一特征图输入至残差计算层；通过残差计算层的至少一个残差块对第一特征图进行特征提取，得到待识别图像的第二特征图，并将第二特征图输入至输出层；通过输出层对第二特征图进行分类，并输出姿势识别结果。

在另一种实施方式中，卷积块还包括第二卷积层、批量标准化层和修正线性单元；通道不变卷积层、第二卷积层、批量标准化层和修正线性单元依次连接；上述识别模块还用于：通过通道不变卷积层对待识别图像的特征图进行卷积计算，得到与待识别图像通道的数量相同的初步特征图；通过第二卷积层对初步特征图进行卷积计算，得到包括预设数量通道的中间特征图；依次通过批量标准化层和修正线性单元对中间特征图进行批量标准化和非线性化，得到待识别图像的第一特征图。

在另一种实施方式中，残差块包括至少两个依次连接的卷积块，底层的卷积块的输入端与上层的卷积块的输出端捷径连接；上述识别模块还用于：将第一特征图输入底层的卷积块，以及通过捷径连接输送至上层的卷积块的输出端；各个卷积块逐级对第一特征图进行卷积处理；将逐级处理后得到的特征图与通过捷径连接输送的第一特征图相加，得到待识别图像的第二特征图。

在另一种实施方式中，目标识别网络还包括作为分支网络的中间监督网络，特征金字塔神经网络和中间监督网络反向；中间监督网络包括多个依次连接的中间监督模块，中间监督模块与对应的残差计算层分别连接，用于在训练过程中接收对应的残差计算层输出的特征图以及上一层中间监督模块输出的特征图，相加得到中间监督特征图，并根据中间监督特征图进行损失函数优化及回传参数至对应的残差计算层。

在另一种实施方式中，中间监督模块至少包括位置回归模块、分类模块和模态识别模块；在训练过程中，位置回归模块用于回归目标的位置，分类模块用于识别目标，模态识别模块用于识别目标的模态。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本实施例提供了一种处理设备，该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的姿势识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

进一步，本实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例提供的方法的步骤。

本发明实施例所提供的一种图像处理方法、装置及处理设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入目标识别网络；所述目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络；所述卷积计算层包括卷积块，所述残差计算层包括残差块；所述残差块包括至少两个依次连接的卷积块；所述卷积块包括至少一个通道不变卷积层；所述通道不变卷积层对输入特征图进行计算时，将所述输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道；

2.根据权利要求1所述的方法，其特征在于，所述通过所述目标识别网络对所述待识别图像进行姿势识别的步骤，包括：

通过所述卷积计算层的卷积块对所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图，并将所述第一特征图输入至所述残差计算层；

通过所述残差计算层的至少一个残差块对所述第一特征图进行特征提取，得到所述待识别图像的第二特征图，并将所述第二特征图输入至输出层；

通过所述输出层对所述第二特征图进行分类，并输出所述姿势识别结果。

3.根据权利要求2所述的方法，其特征在于，所述卷积块还包括第二卷积层、批量标准化层和修正线性单元；所述通道不变卷积层、所述第二卷积层、批量标准化层和修正线性单元依次连接；

所述通过所述卷积计算层的卷积块对所述待识别图像进行卷积处理，得到所述待识别图像的第一特征图的步骤，包括：

通过所述通道不变卷积层对所述待识别图像的特征图进行卷积计算，得到与所述待识别图像通道的数量相同的初步特征图；

通过所述第二卷积层对所述初步特征图进行卷积计算，得到包括预设数量通道的中间特征图；

依次通过所述批量标准化层和所述修正线性单元对所述中间特征图进行批量标准化和非线性化，得到所述待识别图像的第一特征图。

4.根据权利要求2所述的方法，其特征在于，所述残差块包括至少两个依次连接的卷积块，底层的所述卷积块的输入端与上层的所述卷积块的输出端捷径连接；

所述通过所述残差计算层的至少一个残差块对所述第一特征图进行特征提取，得到所述待识别图像的第二特征图的步骤，包括：

将所述第一特征图输入底层的所述卷积块，以及通过捷径连接输送至上层的所述卷积块的输出端；

各个所述卷积块逐级对所述第一特征图进行卷积处理；

将逐级处理后得到的特征图与通过捷径连接输送的所述第一特征图相加，得到所述待识别图像的第二特征图。

5.根据权利要求1所述的方法，其特征在于，所述目标识别网络还包括作为分支网络的中间监督网络，所述特征金字塔神经网络和所述中间监督网络反向；

所述中间监督网络包括多个依次连接的中间监督模块，所述中间监督模块与对应的所述残差计算层分别连接，用于在训练过程中接收对应的所述残差计算层输出的特征图以及上一层中间监督模块输出的特征图，相加得到中间监督特征图，并根据所述中间监督特征图进行损失函数优化及回传参数至所述对应的所述残差计算层。

6.根据权利要求5所述的方法，其特征在于，所述中间监督模块至少包括位置回归模块、分类模块和模态识别模块；

在训练过程中，所述位置回归模块用于回归目标的位置，所述分类模块用于识别目标，所述模态识别模块用于识别目标的模态。

7.一种图像处理装置，其特征在于，包括：

获取模块，用于获取待识别图像；

输入模块，用于将所述待识别图像输入目标识别网络；所述目标识别网络为包括依次连接的多个卷积计算层和多个残差计算层的特征金字塔神经网络；所述卷积计算层包括卷积块，所述残差计算层包括残差块；所述残差块包括至少两个依次连接的卷积块；所述卷积块包括至少一个通道不变卷积层；所述通道不变卷积层对输入特征图进行计算时，将所述输入特征图的每个通道单独进行卷积变换得到输出特征图的一个通道；

识别模块，用于通过所述目标识别网络对所述待识别图像进行姿势识别，得到姿势识别结果，所述姿势识别结果包括所述待识别图像所包含的目标的位置和模态。

8.根据权利要求7所述的装置，其特征在于，所述识别模块还用于：

通过所述输出层对所述第二特征图进行分类，并输出姿势识别结果。

9.一种处理设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。