CN106951875A

CN106951875A - 一种基于二进制卷积的人体姿态估计和人脸对齐的方法

Info

Publication number: CN106951875A
Application number: CN201710186399.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-07-14

Abstract

本发明中提出的一种基于二进制卷积的人体姿态估计和人脸对齐的方法，其主要内容包括：二进制沙漏网络、增加残块的宽度和减少块中的参数数量、删除1×1卷积和使用3×3滤波器、良好的梯度流和具有层次的并行多尺度滤波、损失的影响，其过程为，先以量化二进制沙漏网络作为基准，再通过增加残块的宽度和减少块中的参数数量，删除1×1卷积和使用3×3滤波器，使用良好的梯度流和具有层次的并行多尺度滤波等多个方面提高系统性能，最后计算损失。本发明通过使用具有层次的并行多尺度滤波，提高了性能和效率，也提高了精确度和稳定性，同时又不会过度增加二进制网络的参数；通过增加残块宽度，使信息量大大增加。

Description

一种基于二进制卷积的人体姿态估计和人脸对齐的方法

技术领域

本发明涉及智能识别领域，尤其是涉及了一种基于二进制卷积的人体姿态估计和人脸对齐的方法。

背景技术

人体姿态估计和人脸对齐是现代计算机视觉领域的重要研究重要内容之一，在人机交互、虚拟现实、模式识别、智能监控系统、人体行为检测等领域有着广泛应用，例如公共场合中可疑人物的危险动作检测，在机场、火车等人口流动性强的场所的人脸对齐和识别等，这些对我们的生活的安全有着重要意义。卷积神经网络(CNN)是人体姿态估计和人脸对齐的关键技术，如今已取得许多可喜的成果，然而其估计和识别的效果并不理想，精确度和稳定性也有待提高。

本发明提出了一种基于二进制卷积的人体姿态估计和人脸对齐的方法，先以量化二进制沙漏网络作为基准，再通过增加残块的宽度和减少块中的参数数量，删除1×1卷积和使用3×3滤波器，使用良好的梯度流和具有层次的并行多尺度滤波等多个方面提高系统性能，最后计算损失。本发明通过使用具有层次的并行多尺度滤波，提高了性能和效率，也提高了精确度和稳定性，同时又不会过度增加二进制网络的参数；通过增加残块宽度，使信息量大大增加。

发明内容

针对精确度和稳定性不高等问题，本发明的目的在于提供一种基于二进制卷积的人体姿态估计和人脸对齐的方法，先以量化二进制沙漏网络作为基准，再通过增加残块的宽度和减少块中的参数数量，删除1×1卷积和使用3×3滤波器，使用良好的梯度流和具有层次的并行多尺度滤波等多个方面提高系统性能，最后计算损失。

为解决上述问题，本发明提供一种基于二进制卷积的人体姿态估计和人脸对齐的方法，其主要内容包括：

(一)二进制沙漏网络；

(二)增加残块的宽度和减少块中的参数数量；

(三)删除1×1卷积和使用3×3滤波器；

(四)良好的梯度流和具有层次的并行多尺度滤波；

(五)损失的影响。

其中，所述的二进制沙漏网络，从原始的沙漏网络开始，以类似的方式向前和向后进行量化；二进制通过以下方式实现：

其中，I是输入张量，W代表层的权值，α是缩放因子；表示可以用同或门实现二进制卷积运算。

其中，所述的增加残块的宽度和减少块中的参数数量，原始块由滤波器尺寸为1×1，3×3和1×1的三个卷积层组成，第一层具有限制第二层的宽度(即通道数)的作用，从而大大减少了模块内的参数数量；

通过将3×3薄层中的信道数量从128增加到256，增加残块宽度；这样增加了从一个块传递到另一个块的信息量。

进一步地，所述的残块，残块是沙漏网络的主要构建块，表示如下：

其中，x_l+1和x_l为一个块的输入和输出，是残差函数，表示单元参数。

进一步地，所述的减少块中的参数数量，通过减少块中的参数数量，匹配原始的参数数量；将块的输入—输出通道数量从256个减少到192个，使第一层中的通道数量从[256→128，3×3]变成[192→96，3×3]，第二层从[128→4，3×3]变成[96→48，3×3]，第三层[64→64，3×3]变成[48→48，3×3]。

其中，所述的删除1×1卷积和使用3×3滤波器，在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能；通过去除1×1卷积，基准性能提高8％以上。

进一步地，所述的使用3×3滤波器，设计二进制网络时，应优先选择多尺度滤波器；将输入分为两个分支；第一分支的工作原理与原来相同，但具有1×1层，在进入3×3之前，将256个通道投影到64个；第二分支通过首先将输入通过最大汇集层进行多尺度分析，然后创建两个分支，一个使用3×3滤波器，另一个使用5×5分解成两个3×3滤波器；通过连接这两个子分支的输出，获得在原始块的128个信道中剩余的64个信道；最后，两个主分支连接128个通道，借助1×1个滤波器的卷积层，再次反向投影到256个通道。

其中，所述的良好的梯度流和具有层次的并行多尺度滤波，二进制网络对于衰落梯度的问题更为敏感，在网络中的梯度比实际对应的梯度要小10倍；因此设计具有层次的并行多尺度结构，允许每个分辨率具有两个不同的路径，其中最短的始终为1；模块内部分层结构的存在能有效适应较大的滤波器(高达7×7)，分解成卷积层3×3过滤器；

良好的梯度流和具有层次的并行多尺度滤波能提高性能，但不会过度增加二进制网络的参数。

进一步地，所述的梯度，可能需要在到达块的输出之前穿过两个层，每个卷积层具有将其连接到输出的直接路径，使得在任何给定时间和模块内的所有层中，最短路径等于1。

其中，所述的损失的影响，使用Sigmoid函数交叉熵像素损失：

其中，表示像素位置(i,j)上第n个地标的地面实况图，是相同位置处的相应的Sigmoid函数输出；Sigmoid函数交叉熵像素损失的使用使梯度增加了10-15倍。

附图说明

图1是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的系统框架图。

图2是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的沙漏网络构架。

图3是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的1×1卷积。

图4是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的3×3滤波器。

图5是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的具有良好的梯度流和具有层次的并行多尺度滤波结构。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的系统框架图。主要包括二进制沙漏网络，增加残块的宽度和减少块中的参数数量，删除1×1卷积和使用3×3滤波器，良好的梯度流和具有层次的并行多尺度滤波，损失的影响。

增加残块的宽度和减少块中的参数数量，原始块由滤波器尺寸为1×1，3×3和1×1的三个卷积层组成，第一层具有限制第二层的宽度(即通道数)的作用，从而大大减少了模块内的参数数量；

残块是沙漏网络的主要构建块，表示如下：

通过减少块中的参数数量，匹配原始的参数数量；将块的输入—输出通道数量从256个减少到192个，使第一层中的通道数量从[256→128，3×3]变成[192→96，3×3]，第二层从[128→4，3×3]变成[96→48，3×3]，第三层[64→64，3×3]变成[48→48，3×3]。

损失的影响，使用Sigmoid函数交叉熵像素损失：

图2是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的沙漏网络构架。从原始的沙漏网络开始，以类似的方式向前和向后进行量化；二进制通过以下方式实现：

图3是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的1×1卷积。在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能；通过去除1×1卷积，基准性能提高8％以上。

图4是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的3×3滤波器。设计二进制网络时，应优先选择多尺度滤波器；将输入分为两个分支；第一分支的工作原理与原来相同，但具有1×1层，在进入3×3之前，将256个通道投影到64个；第二分支通过首先将输入通过最大汇集层进行多尺度分析，然后创建两个分支，一个使用3×3滤波器，另一个使用5×5分解成两个3×3滤波器；通过连接这两个子分支的输出，获得在原始块的128个信道中剩余的64个信道；最后，两个主分支连接128个通道，借助1×1个滤波器的卷积层，再次反向投影到256个通道。

图5是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的具有良好的梯度流和具有层次的并行多尺度滤波结构。二进制网络对于衰落梯度的问题更为敏感，在网络中的梯度比实际对应的梯度要小10倍；因此设计具有层次的并行多尺度结构，允许每个分辨率具有两个不同的路径，其中最短的始终为1；模块内部分层结构的存在能有效适应较大的滤波器(高达7×7)，分解成卷积层3×3过滤器；

梯度可能需要在到达块的输出之前穿过两个层，每个卷积层具有将其连接到输出的直接路径，使得在任何给定时间和模块内的所有层中，最短路径等于1。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于二进制卷积的人体姿态估计和人脸对齐的方法，其特征在于，主要包括二进制沙漏网络(一)；增加残块的宽度和减少块中的参数数量(二)；删除1×1卷积和使用3×3滤波器(三)；良好的梯度流和具有层次的并行多尺度滤波(四)；损失的影响(五)。

2.基于权利要求书1所述的二进制沙漏网络(一)，其特征在于，从原始的沙漏网络开始，以类似的方式向前和向后进行量化；二进制通过以下方式实现：

3.基于权利要求书1所述的增加残块的宽度和减少块中的参数数量(二)，其特征在于，原始块由滤波器尺寸为1×1，3×3和1×1的三个卷积层组成，第一层具有限制第二层的宽度(即通道数)的作用，从而大大减少了模块内的参数数量；

4.基于权利要求书3所述的残块，其特征在于，残块是沙漏网络的主要构建块，表示如下：

5.基于权利要求书3所述的减少块中的参数数量，其特征在于，通过减少块中的参数数量，匹配原始的参数数量；将块的输入—输出通道数量从256个减少到192个，使第一层中的通道数量从[256→128，3×3]变成[192→96，3×3]，第二层从[128→4，3×3]变成[96→48，3×3]，第三层[64→64，3×3]变成[48→48，3×3]。

6.基于权利要求书1所述的删除1×1卷积和使用3×3滤波器(三)，其特征在于，在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能；通过去除1×1卷积，基准性能提高8％以上。

7.基于权利要求书6所述的使用3×3滤波器，其特征在于，设计二进制网络时，应优先选择多尺度滤波器；将输入分为两个分支；第一分支的工作原理与原来相同，但具有1×1层，在进入3×3之前，将256个通道投影到64个；第二分支通过首先将输入通过最大汇集层进行多尺度分析，然后创建两个分支，一个使用3×3滤波器，另一个使用5×5分解成两个3×3滤波器；通过连接这两个子分支的输出，获得在原始块的128个信道中剩余的64个信道；最后，两个主分支连接128个通道，借助1×1个滤波器的卷积层，再次反向投影到256个通道。

8.基于权利要求书1所述的良好的梯度流和具有层次的并行多尺度滤波(四)，其特征在于，二进制网络对于衰落梯度的问题更为敏感，在网络中的梯度比实际对应的梯度要小10倍；因此设计具有层次的并行多尺度结构，允许每个分辨率具有两个不同的路径，其中最短的始终为1；模块内部分层结构的存在能有效适应较大的滤波器(高达7×7)，分解成卷积层3×3过滤器；

9.基于权利要求书7所述的梯度，其特征在于，梯度可能需要在到达块的输出之前穿过两个层，每个卷积层具有将其连接到输出的直接路径，使得在任何给定时间和模块内的所有层中，最短路径等于1。

10.基于权利要求书1所述的损失的影响(五)，其特征在于，使用Sigmoid函数交叉熵像素损失：

l = \frac{1}{N} Σ_{n = 1}^{N} Σ_{i = 1}^{W} Σ_{j = 1}^{H} [p_{i j}^{n} {logp}_{i j}^{\hat{n}} + (1 - p_{i j}^{n}) \log (1 - p_{i j}^{\hat{n}})] - - - (3)