CN106951875A - 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 - Google Patents
一种基于二进制卷积的人体姿态估计和人脸对齐的方法 Download PDFInfo
- Publication number
- CN106951875A CN106951875A CN201710186399.0A CN201710186399A CN106951875A CN 106951875 A CN106951875 A CN 106951875A CN 201710186399 A CN201710186399 A CN 201710186399A CN 106951875 A CN106951875 A CN 106951875A
- Authority
- CN
- China
- Prior art keywords
- block
- layer
- convolution
- binary system
- relic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明中提出的一种基于二进制卷积的人体姿态估计和人脸对齐的方法,其主要内容包括:二进制沙漏网络、增加残块的宽度和减少块中的参数数量、删除1×1卷积和使用3×3滤波器、良好的梯度流和具有层次的并行多尺度滤波、损失的影响,其过程为,先以量化二进制沙漏网络作为基准,再通过增加残块的宽度和减少块中的参数数量,删除1×1卷积和使用3×3滤波器,使用良好的梯度流和具有层次的并行多尺度滤波等多个方面提高系统性能,最后计算损失。本发明通过使用具有层次的并行多尺度滤波,提高了性能和效率,也提高了精确度和稳定性,同时又不会过度增加二进制网络的参数;通过增加残块宽度,使信息量大大增加。
Description
技术领域
本发明涉及智能识别领域,尤其是涉及了一种基于二进制卷积的人体姿态估计和人脸对齐的方法。
背景技术
人体姿态估计和人脸对齐是现代计算机视觉领域的重要研究重要内容之一,在人机交互、虚拟现实、模式识别、智能监控系统、人体行为检测等领域有着广泛应用,例如公共场合中可疑人物的危险动作检测,在机场、火车等人口流动性强的场所的人脸对齐和识别等,这些对我们的生活的安全有着重要意义。卷积神经网络(CNN)是人体姿态估计和人脸对齐的关键技术,如今已取得许多可喜的成果,然而其估计和识别的效果并不理想,精确度和稳定性也有待提高。
本发明提出了一种基于二进制卷积的人体姿态估计和人脸对齐的方法,先以量化二进制沙漏网络作为基准,再通过增加残块的宽度和减少块中的参数数量,删除1×1卷积和使用3×3滤波器,使用良好的梯度流和具有层次的并行多尺度滤波等多个方面提高系统性能,最后计算损失。本发明通过使用具有层次的并行多尺度滤波,提高了性能和效率,也提高了精确度和稳定性,同时又不会过度增加二进制网络的参数;通过增加残块宽度,使信息量大大增加。
发明内容
针对精确度和稳定性不高等问题,本发明的目的在于提供一种基于二进制卷积的人体姿态估计和人脸对齐的方法,先以量化二进制沙漏网络作为基准,再通过增加残块的宽度和减少块中的参数数量,删除1×1卷积和使用3×3滤波器,使用良好的梯度流和具有层次的并行多尺度滤波等多个方面提高系统性能,最后计算损失。
为解决上述问题,本发明提供一种基于二进制卷积的人体姿态估计和人脸对齐的方法,其主要内容包括:
(一)二进制沙漏网络;
(二)增加残块的宽度和减少块中的参数数量;
(三)删除1×1卷积和使用3×3滤波器;
(四)良好的梯度流和具有层次的并行多尺度滤波;
(五)损失的影响。
其中,所述的二进制沙漏网络,从原始的沙漏网络开始,以类似的方式向前和向后进行量化;二进制通过以下方式实现:
其中,I是输入张量,W代表层的权值,α是缩放因子;表示可以用同或门实现二进制卷积运算。
其中,所述的增加残块的宽度和减少块中的参数数量,原始块由滤波器尺寸为1×1,3×3和1×1的三个卷积层组成,第一层具有限制第二层的宽度(即通道数)的作用,从而大大减少了模块内的参数数量;
通过将3×3薄层中的信道数量从128增加到256,增加残块宽度;这样增加了从一个块传递到另一个块的信息量。
进一步地,所述的残块,残块是沙漏网络的主要构建块,表示如下:
其中,xl+1和xl为一个块的输入和输出,是残差函数,表示单元参数。
进一步地,所述的减少块中的参数数量,通过减少块中的参数数量,匹配原始的参数数量;将块的输入—输出通道数量从256个减少到192个,使第一层中的通道数量从[256→128,3×3]变成[192→96,3×3],第二层从[128→4,3×3]变成[96→48,3×3],第三层[64→64,3×3]变成[48→48,3×3]。
其中,所述的删除1×1卷积和使用3×3滤波器,在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能;通过去除1×1卷积,基准性能提高8%以上。
进一步地,所述的使用3×3滤波器,设计二进制网络时,应优先选择多尺度滤波器;将输入分为两个分支;第一分支的工作原理与原来相同,但具有1×1层,在进入3×3之前,将256个通道投影到64个;第二分支通过首先将输入通过最大汇集层进行多尺度分析,然后创建两个分支,一个使用3×3滤波器,另一个使用5×5分解成两个3×3滤波器;通过连接这两个子分支的输出,获得在原始块的128个信道中剩余的64个信道;最后,两个主分支连接128个通道,借助1×1个滤波器的卷积层,再次反向投影到256个通道。
其中,所述的良好的梯度流和具有层次的并行多尺度滤波,二进制网络对于衰落梯度的问题更为敏感,在网络中的梯度比实际对应的梯度要小10倍;因此设计具有层次的并行多尺度结构,允许每个分辨率具有两个不同的路径,其中最短的始终为1;模块内部分层结构的存在能有效适应较大的滤波器(高达7×7),分解成卷积层3×3过滤器;
良好的梯度流和具有层次的并行多尺度滤波能提高性能,但不会过度增加二进制网络的参数。
进一步地,所述的梯度,可能需要在到达块的输出之前穿过两个层,每个卷积层具有将其连接到输出的直接路径,使得在任何给定时间和模块内的所有层中,最短路径等于1。
其中,所述的损失的影响,使用Sigmoid函数交叉熵像素损失:
其中,表示像素位置(i,j)上第n个地标的地面实况图,是相同位置处的相应的Sigmoid函数输出;Sigmoid函数交叉熵像素损失的使用使梯度增加了10-15倍。
附图说明
图1是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的系统框架图。
图2是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的沙漏网络构架。
图3是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的1×1卷积。
图4是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的3×3滤波器。
图5是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的具有良好的梯度流和具有层次的并行多尺度滤波结构。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的系统框架图。主要包括二进制沙漏网络,增加残块的宽度和减少块中的参数数量,删除1×1卷积和使用3×3滤波器,良好的梯度流和具有层次的并行多尺度滤波,损失的影响。
增加残块的宽度和减少块中的参数数量,原始块由滤波器尺寸为1×1,3×3和1×1的三个卷积层组成,第一层具有限制第二层的宽度(即通道数)的作用,从而大大减少了模块内的参数数量;
通过将3×3薄层中的信道数量从128增加到256,增加残块宽度;这样增加了从一个块传递到另一个块的信息量。
残块是沙漏网络的主要构建块,表示如下:
其中,xl+1和xl为一个块的输入和输出,是残差函数,表示单元参数。
通过减少块中的参数数量,匹配原始的参数数量;将块的输入—输出通道数量从256个减少到192个,使第一层中的通道数量从[256→128,3×3]变成[192→96,3×3],第二层从[128→4,3×3]变成[96→48,3×3],第三层[64→64,3×3]变成[48→48,3×3]。
损失的影响,使用Sigmoid函数交叉熵像素损失:
其中,表示像素位置(i,j)上第n个地标的地面实况图,是相同位置处的相应的Sigmoid函数输出;Sigmoid函数交叉熵像素损失的使用使梯度增加了10-15倍。
图2是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的沙漏网络构架。从原始的沙漏网络开始,以类似的方式向前和向后进行量化;二进制通过以下方式实现:
其中,I是输入张量,W代表层的权值,α是缩放因子;表示可以用同或门实现二进制卷积运算。
图3是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的1×1卷积。在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能;通过去除1×1卷积,基准性能提高8%以上。
图4是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的3×3滤波器。设计二进制网络时,应优先选择多尺度滤波器;将输入分为两个分支;第一分支的工作原理与原来相同,但具有1×1层,在进入3×3之前,将256个通道投影到64个;第二分支通过首先将输入通过最大汇集层进行多尺度分析,然后创建两个分支,一个使用3×3滤波器,另一个使用5×5分解成两个3×3滤波器;通过连接这两个子分支的输出,获得在原始块的128个信道中剩余的64个信道;最后,两个主分支连接128个通道,借助1×1个滤波器的卷积层,再次反向投影到256个通道。
图5是本发明一种基于二进制卷积的人体姿态估计和人脸对齐的方法的具有良好的梯度流和具有层次的并行多尺度滤波结构。二进制网络对于衰落梯度的问题更为敏感,在网络中的梯度比实际对应的梯度要小10倍;因此设计具有层次的并行多尺度结构,允许每个分辨率具有两个不同的路径,其中最短的始终为1;模块内部分层结构的存在能有效适应较大的滤波器(高达7×7),分解成卷积层3×3过滤器;
良好的梯度流和具有层次的并行多尺度滤波能提高性能,但不会过度增加二进制网络的参数。
梯度可能需要在到达块的输出之前穿过两个层,每个卷积层具有将其连接到输出的直接路径,使得在任何给定时间和模块内的所有层中,最短路径等于1。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于二进制卷积的人体姿态估计和人脸对齐的方法,其特征在于,主要包括二进制沙漏网络(一);增加残块的宽度和减少块中的参数数量(二);删除1×1卷积和使用3×3滤波器(三);良好的梯度流和具有层次的并行多尺度滤波(四);损失的影响(五)。
2.基于权利要求书1所述的二进制沙漏网络(一),其特征在于,从原始的沙漏网络开始,以类似的方式向前和向后进行量化;二进制通过以下方式实现:
其中,I是输入张量,W代表层的权值,α是缩放因子;表示可以用同或门实现二进制卷积运算。
3.基于权利要求书1所述的增加残块的宽度和减少块中的参数数量(二),其特征在于,原始块由滤波器尺寸为1×1,3×3和1×1的三个卷积层组成,第一层具有限制第二层的宽度(即通道数)的作用,从而大大减少了模块内的参数数量;
通过将3×3薄层中的信道数量从128增加到256,增加残块宽度;这样增加了从一个块传递到另一个块的信息量。
4.基于权利要求书3所述的残块,其特征在于,残块是沙漏网络的主要构建块,表示如下:
其中,xl+1和xl为一个块的输入和输出,是残差函数,表示单元参数。
5.基于权利要求书3所述的减少块中的参数数量,其特征在于,通过减少块中的参数数量,匹配原始的参数数量;将块的输入—输出通道数量从256个减少到192个,使第一层中的通道数量从[256→128,3×3]变成[192→96,3×3],第二层从[128→4,3×3]变成[96→48,3×3],第三层[64→64,3×3]变成[48→48,3×3]。
6.基于权利要求书1所述的删除1×1卷积和使用3×3滤波器(三),其特征在于,在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能;通过去除1×1卷积,基准性能提高8%以上。
7.基于权利要求书6所述的使用3×3滤波器,其特征在于,设计二进制网络时,应优先选择多尺度滤波器;将输入分为两个分支;第一分支的工作原理与原来相同,但具有1×1层,在进入3×3之前,将256个通道投影到64个;第二分支通过首先将输入通过最大汇集层进行多尺度分析,然后创建两个分支,一个使用3×3滤波器,另一个使用5×5分解成两个3×3滤波器;通过连接这两个子分支的输出,获得在原始块的128个信道中剩余的64个信道;最后,两个主分支连接128个通道,借助1×1个滤波器的卷积层,再次反向投影到256个通道。
8.基于权利要求书1所述的良好的梯度流和具有层次的并行多尺度滤波(四),其特征在于,二进制网络对于衰落梯度的问题更为敏感,在网络中的梯度比实际对应的梯度要小10倍;因此设计具有层次的并行多尺度结构,允许每个分辨率具有两个不同的路径,其中最短的始终为1;模块内部分层结构的存在能有效适应较大的滤波器(高达7×7),分解成卷积层3×3过滤器;
良好的梯度流和具有层次的并行多尺度滤波能提高性能,但不会过度增加二进制网络的参数。
9.基于权利要求书7所述的梯度,其特征在于,梯度可能需要在到达块的输出之前穿过两个层,每个卷积层具有将其连接到输出的直接路径,使得在任何给定时间和模块内的所有层中,最短路径等于1。
10.基于权利要求书1所述的损失的影响(五),其特征在于,使用Sigmoid函数交叉熵像素损失:
其中,表示像素位置(i,j)上第n个地标的地面实况图,是相同位置处的相应的Sigmoid函数输出;Sigmoid函数交叉熵像素损失的使用使梯度增加了10-15倍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710186399.0A CN106951875A (zh) | 2017-03-24 | 2017-03-24 | 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710186399.0A CN106951875A (zh) | 2017-03-24 | 2017-03-24 | 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106951875A true CN106951875A (zh) | 2017-07-14 |
Family
ID=59473839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710186399.0A Withdrawn CN106951875A (zh) | 2017-03-24 | 2017-03-24 | 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951875A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664885A (zh) * | 2018-03-19 | 2018-10-16 | 杭州电子科技大学 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
CN108898556A (zh) * | 2018-05-24 | 2018-11-27 | 麒麟合盛网络技术股份有限公司 | 一种三维人脸的图像处理方法及装置 |
CN108921225A (zh) * | 2018-07-10 | 2018-11-30 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置、计算机设备和存储介质 |
CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN110364253A (zh) * | 2018-04-11 | 2019-10-22 | 西门子医疗有限公司 | 用于辅助的患者定位的系统和方法 |
CN110458001A (zh) * | 2019-06-28 | 2019-11-15 | 南昌大学 | 一种基于注意力机制的卷积神经网络视线估计方法及系统 |
CN110490158A (zh) * | 2019-08-23 | 2019-11-22 | 安徽大学 | 一种基于多级模型的鲁棒人脸对齐方法 |
CN110569724A (zh) * | 2019-08-05 | 2019-12-13 | 湖北工业大学 | 一种基于残差沙漏网络的人脸对齐方法 |
CN110992271A (zh) * | 2020-03-04 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、路径规划方法、装置、设备及存储介质 |
-
2017
- 2017-03-24 CN CN201710186399.0A patent/CN106951875A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
ADRIAN BULAT等: "Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1703.00862》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664885B (zh) * | 2018-03-19 | 2021-08-31 | 杭州电子科技大学 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
CN108664885A (zh) * | 2018-03-19 | 2018-10-16 | 杭州电子科技大学 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
CN110364253A (zh) * | 2018-04-11 | 2019-10-22 | 西门子医疗有限公司 | 用于辅助的患者定位的系统和方法 |
CN110364253B (zh) * | 2018-04-11 | 2024-03-01 | 西门子医疗有限公司 | 用于辅助的患者定位的系统和方法 |
CN108898556A (zh) * | 2018-05-24 | 2018-11-27 | 麒麟合盛网络技术股份有限公司 | 一种三维人脸的图像处理方法及装置 |
CN108921225A (zh) * | 2018-07-10 | 2018-11-30 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置、计算机设备和存储介质 |
CN108921225B (zh) * | 2018-07-10 | 2022-06-24 | 深圳市商汤科技有限公司 | 一种图像处理方法及装置、计算机设备和存储介质 |
CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
CN110458001A (zh) * | 2019-06-28 | 2019-11-15 | 南昌大学 | 一种基于注意力机制的卷积神经网络视线估计方法及系统 |
CN110569724A (zh) * | 2019-08-05 | 2019-12-13 | 湖北工业大学 | 一种基于残差沙漏网络的人脸对齐方法 |
CN110569724B (zh) * | 2019-08-05 | 2021-06-04 | 湖北工业大学 | 一种基于残差沙漏网络的人脸对齐方法 |
CN110490158A (zh) * | 2019-08-23 | 2019-11-22 | 安徽大学 | 一种基于多级模型的鲁棒人脸对齐方法 |
CN110992271B (zh) * | 2020-03-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、路径规划方法、装置、设备及存储介质 |
CN110992271A (zh) * | 2020-03-04 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、路径规划方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951875A (zh) | 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 | |
Jin et al. | Trseg: Transformer for semantic segmentation | |
Han et al. | Going deeper with two-stream ConvNets for action recognition in video surveillance | |
KR102476343B1 (ko) | 자리수가 비교적 적은 고정 소수점 수치의 신경망 연산에 대한 지원 장치와 방법 | |
Bayar et al. | Augmented convolutional feature maps for robust cnn-based camera model identification | |
CN110188239A (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN107301400A (zh) | 一种语义导向的半监督视频对象分割方法 | |
CN108416327A (zh) | 一种目标检测方法、装置、计算机设备及可读存储介质 | |
CN108711141A (zh) | 利用改进的生成式对抗网络的运动模糊图像盲复原方法 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
Saravanan et al. | A novel machine learning scheme for face mask detection using pretrained convolutional neural network | |
CN108021923A (zh) | 一种用于深度神经网络的图像特征提取方法 | |
CN110458084A (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
EP4047509A1 (en) | Facial parsing method and related devices | |
CN112489050A (zh) | 一种基于特征迁移的半监督实例分割算法 | |
CN109753984A (zh) | 视频分类方法、装置和计算机可读存储介质 | |
CN109165699A (zh) | 细粒度图像分类方法 | |
CN112434608A (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN107506792A (zh) | 一种半监督的显著对象检测方法 | |
Oner et al. | Promoting connectivity of network-like structures by enforcing region separation | |
CN110992367A (zh) | 对带有遮挡区域的图像进行语义分割的方法 | |
Liang et al. | Efficient neural network using pointwise convolution kernels with linear phase constraint | |
CN109284782A (zh) | 用于检测特征的方法和装置 | |
CN107886165A (zh) | 一种基于计算机模式识别的并行卷积神经网络方法 | |
Xu et al. | CCFNet: Cross-complementary fusion network for RGB-D scene parsing of clothing images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170714 |
|
WW01 | Invention patent application withdrawn after publication |