CN112132058A

CN112132058A - 一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质

Info

Publication number: CN112132058A
Application number: CN202011019897.4A
Authority: CN
Inventors: 李振; 胡宇鹏; 李学庆; 展鹏; 李伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-25
Anticipated expiration: 2040-09-25
Also published as: CN112132058B

Abstract

本发明涉及一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质，S1，接收图像，将图片进行初步人脸估计，框出人脸框后进行裁剪；S2，通过小波变换产生的四个通道的信息，与RGB图像信息进行拼接送入神经网络中；S3，神经网络阶段采用由粗到细网络架构，先将输入的图像进行头部姿态的预判，估计其大致区间，之后将图像送入精细化阶段计算头部姿态的精确值；S4,在精细化阶段，将图像信息送入人体头部输入模块中，采用多支流方案对图像信息进行特征映射的提取，经过神经网络训练，获得估计头部姿态结果。本发明通过小波变化提取图像低频特征，结合多支流与由粗到细的网络架构，有效提升了头部姿态的识别效果。

Description

一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质，主要涉及基于小波变换的图像表征与神经网络多粒度特征精炼学习，对人体头部姿态进行估计的方法、介质及设备。

背景技术

头部姿态估计是计算机视觉领域的研究热点问题。通常是指在图像或者视频中判断人体头部在三维空间中的朝向，即确定头部相对摄像机视图的方向。一般通过垂直转动的仰俯角、水平转动的偏航角、左右转动的旋转角三个方向的自由度来描述。由于不同的光照条件、人物背景变化及遮挡问题等各种因素，头部姿态估计面临很大的挑战。

在过去的二十年中，头部姿态估计的研究有力地推动了基于三维重建的视觉技术的迅速发展，其在视线估计、视觉注意力建模、视频特征拟合、人脸定位等实际应用场景中具有重要的应用价值。

目前，头部姿态估计研究尽管取得了一定的成绩，但是也存在一定的问题。首先，为了保证姿态估计的精度，需要耗费大量精力去获取带有注释的相应标识点；其次，当针对较低分辨率的图像进行头部姿态估计时，估计效果往往很差。再次，当利用深度相机进行基于神经网络的深度头部姿态估计时，深度相机易受环境的影响，并且比RGB相机消耗更多的能量，可能导致头部姿态估计结果的不稳定性。

发明内容

针对现有技术的不足，本发明提出了一种基于多层级图像特征精炼学习的头部姿态估计方法及其实现系统、存储介质。

本发明将基于小波变换的图像特征提取与基于神经网络的表征学习相结合，一方面利用小波变换提取人脸图像中相对稳定的低频特征，并将其与RGB图像特征进行特征拼接，随后输入神经网络进行表征学习；另一方面，本发明提出一种基于多层级特征精炼学习的神经网络结构，将所输入的特征按照不同的转角姿态进行“粗粒度”的特征分类，随后将分别对不同类别的特征进行“细粒度”的姿态位置回归，即以一种“去粗取精”的方式实现头部姿态位置的精准预测。相关实验表明，该方法在头部姿态估计方面取得了显著的效果。

本发明所要解决的技术问题是：如何快速准确地估计图像，并在处理过程中采用规模较小的神经网络模型来进行运算。

本发明在数据预处理阶段，采用多任务卷积神经网络对图像进行初步人脸估计，删除不包含人脸的图片，选出包含人脸的图片，框出人脸框后进行裁剪，将裁剪后的人脸图像送入后续模型进行深入训练；之后将小波变换图像与神经网络相结合，采用小波变换的方法提取人脸图像中相对稳定的低频特征，小波变换能较好地保留图像细节和各频带的边缘信息，去除图像中噪声和冗余信息，减少计算量。将其与RGB图像进行拼接，将小波变换处理之后的信息作为额外的通道添加到输入中，以帮助神经网络进行更好的估计和收敛。

本发明提出了多层级特征精炼学习的神经网络架构，能够有效提升头部姿态估计效果。首先分析了头部姿态相关数据库中的数据分布，针对其特点，设计了一种新的有效地网络架构，将回归问题转化为分类问题。该框架首先对图像进行粗分类，然后将粗分类的头部姿态图像送入后续细粒度网络模型中，进行更加精准的预测，该框架有助于缓解有偏样本分布的影响，结合分段映射形成更好的全局拟合。此外，在深层次神经网络中使用多个流来提取丰富的特征集，实现稳健和精确的回归。头部姿态估计可以看作一个基于图像的回归问题。本发明涉及的网络架构在垂直和水平方向都具有较深结构，同时包含自顶向下和横向连接以进行有效的特征映射。在输入阶段采用多支流方法，每条支流采用不同的阶段提取图像信息中的特征映射，选用不同的卷积池化激活方式，通过多支流来提取更多的图像信息。实验结果表明，该方法能够有效提升头部姿态估计效果。

本发明通过基于小波变换增强图像的语义输入，增加网络分支进行更丰富的特征提取。从网络架构、语义输入、特征提取三个方面，提升、优化现有的人头姿态估计的理论与解决方案。此外，本发明所提出的理论与方案具有泛化性，在理论与方法层面，对一般性的基于图像的回归问题也有更好的解决。

术语解释：

1、Haar小波，是小波的一种，是最简单的正交归一化小波。

2、多任务卷积神经网络，MTCNN，是一个用于人脸检测任务的多任务神经网络模型。它可以同时进行人脸区域检测与人脸关键点检测，其结构包含建议区域网络、优化网络与输出网络。

3、建议区域网络，RPN，是一个典型的全卷积网络，将一个图像(任意大小)作为输入，输出矩形目标建议框的集合，每个框有一个objectness得分。

4、优化网络，收到从建议区域网络传输过来的矩形目标建议框的集合,输出为优化后的人脸建议框信息，并将一些非人脸框进行筛除。

5、输出网络，接收传自优化网络的人脸建议框信息后，再进行进一步优化，从而给出最终的人脸区域与人脸上5个标志点，5个标志点包括两个眼睛点、两个嘴角点与一个鼻子点。

6、评分函数Φ(μ)，用来度量神经网络中特征映射的特征重要程度。

7、平均绝对误差(Mean Absolute Error,MAE)：是所有单个观测值与算术平均值的偏差的绝对值的平均。

8、俯仰角(pitch)，围绕X轴旋转。

9、偏航角(yaw)，围绕Y轴旋转。

10、翻滚角(roll)，围绕Z轴旋转。

11、软阶段回归网络，SSR-Net，是通过输入单帧图片进而得到图像中的人的年龄预测的神经网络。

12、VGG网络：深度卷积神经网络，主要探究了卷积神经网络的深度和其性能之间的关系。

本发明的技术方案为：

一种基于多层级图像特征精炼学习的头部姿态估计方法，包括步骤如下：

S1：单目摄像装置获取图像，利用多任务卷积神经网络对图像进行初步人脸估计，删除不包含人脸的图片，选出包含人脸的图片，框出人脸框后进行裁剪；

S2：使用Haar小波对裁剪后的图片进行小波变换，将小波变换处理之后的四通道信息与步骤 S1裁剪后的RGB三通道图像进行拼接；送入后续的神经网络；神经网络包括粗粒度判别网络、细粒度判别网络；

S3：将拼接后的图像信息送入粗粒度判别网络，估计出头部姿态的大致区间，根据各自区间划分，组合为新划分的区间数据集；

S4：将新划分的区间数据集送入细粒度判别网络，估计出头部姿态具体角度值(x,y,z)，x、 y、z分别代表俯仰角、偏航角与翻滚角。例如，经过计算获得头部姿态值(+32.5°，-45.2°，+67 °)，即俯仰角为+32.5°，偏航角为-45.2°，翻滚角为+67°，从而得到确定的头部姿态。

根据本发明优选的，步骤S1中，图像处理的方法具体包括：

S11:通过单目摄像装置获取图像；单目摄像装置采用OV2640图像传感器，输出格式为JPEG数据，输出位宽为8位，电源电压为3.3V；服务器采用树莓派4B型，其处理器核心为BROADCOM BCM2711，内核为4核的CORTEX-A72，内存为4GB，GPU为500MMHz VideoCore VI，主频为1.5GHz，电源要求为5V、3A；显示装置采用PiOLED模块，是一个128*64的OLED显示屏幕。OLED显示屏具有高对比度，低功耗的特点。屏幕有用于SSD1306芯片组的python库，可以使用python成像库绘制图像，其工作电压为3.3V。

S12:使用多任务卷积神经网络对步骤S11获取的图像进行预处理：

首先，将图像进行不同尺度的变换，以适应不同大小人脸的检测；

然后，将图像送入建议区域网络，建议区域网络的基本构造是一个全连接网络，经过建议区域网络处理之后，输出为大量推测可能是人脸框的坐标位置，即大量推测可能为人脸包围盒的信息；

接着，将建议区域网络的输出送入优化网络，其接收从建议区域网络传输过来的人脸框的坐标位置，优化网络检测出大量的无效人脸包围盒并进行删除，输出优化后的人脸框的坐标位置；

最后，将优化后的人脸框的坐标位置输入输出网络再进行进一步优化，输出最终的人脸区域与人脸上5个标志点。

进一步优选的，所述输出网络采用了更大的256*256的全连接层。保留了更多的图像特征。

根据本发明优选的，步骤S1中，使用多任务卷积神经网络框出人脸框后进行裁剪，是指：对输出的最终的人脸区域进行裁剪，获取人脸几何图像子块。

根据本发明优选的，所述步骤S2中，使用Haar小波对裁剪后的图片进行小波变换，是指：

本发明采用小波变换的方法提取人脸图像中相对稳定的低频子带，降低图像矢量的维数，小波变换能较好地保留图像细节和各频带的边缘信息。小波变换函数定义如下：

小波变换函数定义式中，α>0被称为规模因子，其作用是控制基本小波函数Φ(x)的大小规模； b是位移量，其值可正可负；转化因子τ控制小波函数的转化；参数a与b是连续变量。通过引入 y方向，二维的小波分解函数对图像的处理功能与一维的类似。我们利用一维小波和尺度函数的张量积得到二维小波和尺度函数。如果一维小波变换在x和y方向的平移参数分别为b和c，尺度参数为α，那么沿着x方向的小波函数便是

沿着y方向的小波函数便是

如果f(x， y)代表二维图像，它的小波函数等于f(x，y)沿着x方向与y方向各自通过一维的滤波进行运算，以此来获得低通频带与高通频带的子频带。二维小波函数定义如下：

在小波变换中，采用Haar小波处理人体头部图像，Haar变换在图像分解与重建中具有速度快、压缩比高等优点，它可以通过变换充分突出人脸图像的某些细节特征。

对人脸几何图像子块进行如下小波变换，如式(I)所示：

式(I)中，

表示人脸几何图像子块，i表示变换之后的图像子块，i₁₁是子块

的低频系数，i₁₂， i₂₁，i₂₂分别是

的水平、垂直、对角线方向的高频系数；

H是指Haar变换矩阵，如式(II)所示：

对图像进行分解后，将当前频带划分为四个子带，分别为低频分量、水平细节分量、垂直细节分量和对角线细节分量，即小波变换处理之后的四通道信息；经过Haar变换后分解成第一尺度下四个频域分量，低频系数构成的低频分量，集中了几何图像的大部分信息；水平方向的高频系数构成的水平细节分量，反映了几何图像沿水平方向的边缘信息；垂直方向的高频系数构成的垂直细节分量，保持了几何图像沿垂直方向的边缘信息；对角线方向的高频系数构成的对角线细节分量，保持了几何图像沿对角线方向的细节特征。

步骤S2中，将小波变换处理之后的四通道信息与RGB三通道图像进行拼接，是指将R通道、G 通道、B通道、低频分量通道、水平细节分量通道、垂直细节分量通道和对角线细节分量通道进行拼接。RGB三通道包括R通道、G通道、B通道。

根据本发明优选的，所述粗粒度判别网络与所述细粒度判别网络结构相同，均包括人体头部输入模块、特征融合模块、评分函数模块、特征凝练模块与软阶段回归网络模块；

人体头部输入模块接收重新划分的图像数据，送入的图像大小为64*64像素，其中通道数为7 个通道，包含RGB三通道与小波处理之后的四通道数据。

所述人体头部输入模块包括三支流S_L、S_M、S_R，支流S_L包括依次连接的三个模块Block_L，模块Block_L包括可分离式二维卷积层、激活函数ReLU；支流S_M包括依次连接的三个模块Block_M，模块Block_M包括可分离式二维卷积层、激活函数Tanh；支流S_R包括依次连接的三个模块Block_R，模块Block_R包括可分离式二维卷积层、激活函数Sigmoid。

三支流S_L、S_M、S_R的内部结构如表1所示：

表1

表1中，S_L,S_M,S_R代表三只支流名称，分别为Steam_L,Steam_M,Steam_R；B_L,B_M,B_R为各自模块； MP为平均池化方试；AP为最大池化方式；

根据本发明优选的，步骤S3中，通过调研分析，发现在头部姿态区域的极端姿态中，网络模型对其的估计往往具有较高的绝对误差，在变化较小的头部姿态区域时，模型估计效果较好。此外，数据库中极端姿态的训练样本通常会导致网络模型的表现不佳。针对该问题，粗粒度判别网络对于数据集中的数据进行大致区间的预判，粗粒度判别网络中，根据图像数据集中的三个角度标签值分布，按照区间从-90度到+90度分为五类，-90度到-30度为第一类，标签值为1；-30度到-20度为第二类，标签值为2；-20度到+20度为第三类，标签值为3；+20度到+30度为第四类，标签值为4；+30度到+90度为第五类，标签值为5，之后将该数据及其标签送入粗粒度判别网络进行训练。粗粒度判别网络判别姿态的方法包括：

S31：将步骤S2拼接后的图像信息输入人体头部输入模块；经过人体头部输入模块中三个支流后获取三个特征映射矩阵；

S32：通过特征融合模块将三个特征映射矩阵进行矩阵融合：将S_L,S_M两个支流的特征映射矩阵进行c维1*1元素相乘，得到的特征组合再与S_R支流特征映射矩阵对应元素相加，得到组合特征，将组合特征映射转换成c通道；利用平均池化将组合特征映射的大小缩小到w×h，从而得到第k阶段的w×h×c特征映射Feat_K；w，h分别代表特征映射矩阵的维度数的数值，c代表特征映射的通道数，K代表特征映射阶段数；

在矩阵融合阶段，将两个支流的特征映射矩阵进行矩阵融合后，对每一阶段，生成特征映射 Feat_K，其维度为w×h×c，特征映射Feat_K是一个网格结构，其内部每一网格中由包含特定空间信息的c维特征表示。

S33：由步骤S32处理之后的特征映射Feat_K送入评分函数模块中，通过评分函数模块计算每个特征映射Feat_K的注意力图A_K；以便更好地对特征映射进行分组。

S34：由步骤S32处理之后的特征映射Feat_K与步骤S33处理之后的A_K送入特征凝练模块中，通过特征凝练模块提取更有效的更具代表性的特征映射Map_k与C，将Feat_K、Map_k与C拼接为

通过SSR-Net特征融合并进一步提取出特征集V∈R ^K×c；以便更好地对特征映射进行分组。

S35：将步骤S34提取的特征集V∈R ^K×c'送入软阶段回归网络模块，软阶段回归网络模块是基于软阶段回归网络(SSR网络)进行改进而成的模块，SSR网络通过输入单帧图片进而得到图像中的人的年龄预测，SSR网络创新点在于将年龄估计这一回归问题转化为分类问题。本发明将逐步软回归方案应用于单目图像的头部姿态估计问题。与年龄估计问题不同，头部姿态估计问题估计的是人体头部姿态向量，而不是单个的标量。本发明用软阶段回归网络模块表示多维回归的SSR网络。在上一阶段获取的特征映射，被送入映射模块来获得Kc'维向量。每一个向量都会被用于软阶段回归网络模块中，输出结果为

△k为软阶段回归网络模块的回归输出值，为缩放因子，缩放第k个阶段的宽度；

为偏移量，范围为[-1,1]；p为经过软阶段回归网络模块中的全连接层处理之后的特征向量，输出范围为[-1,1]，计算得出三个头部姿态角度值；

S36：根据步骤S35计算的头部姿态角度值，对其进行分类，并标注上标签值，是指：头部姿态角度值如果为-90度到-30度，则为第一类，标签值为1；头部姿态角度值如果为-30度到-20度，则为第二类，标签值为2；头部姿态角度值如果为-20度到+20度，则为第三类，标签值为3；头部姿态角度值如果为+20度到+30度，则为第四类，标签值为4；头部姿态角度值如果为+30度到+90 度，则为第五类，标签值为5；

S37：数据重组，是指：将标签值为1与2的数据组成数据集A，标签值为2、3与4的数据组成数据集B，标签值为4与5的数据组成数据集C，数据集A、数据集B及数据集C即新划分的区间数据集。送入细粒度神经网络中进行更加精准的判断。

根据本发明优选的，步骤S33中，给定像素级特征feat＝(feat₁,...,feat_c)，用评分函数Φ(feat) 来衡量信息的重要性以便于对空间进行分组。因此，对每一个特征映射Feat_K，使用评分函数Φ(feat)来获得注意力图A_K，feat为像素级特征，如式(Ⅳ)所示：

A_k(i,j)＝Φ(Feat_K(i,j)) (Ⅳ)

式(Ⅳ)中，i、j代表特征映射Feat_K中的具体位置信息，Feat_K(i,j)即特征映射中Feat_K第 i行第j列的数值，A_k(i,j)即注意力图中第i行第j列的数值。

分别通过1×1卷积层、方差及归一化的方法进行评分，获取平均值，即最终的评分。

对评分函数，采用三种方案作为评分方式：1.1×1卷积；2.方差；3.归一化。通过将它们的预测平均在一起形成一个评分函数模块。用这种方法，头部姿态估计的准确率就更加精准。

采用1×1卷积层作为学习的评分函数，如下所示：

Φ(feat)＝σ(w·feat)

σ为sigmoid函数，w为可学习卷积核。虽然使用1×1卷积作为评分函数，我们可以从训练数据中学习如何加权特征。当训练数据与测试数据有显著差异时，可能会出现潜在的过度拟合问题。

使用方差来选择特征，即：

其中

归一化，是平等对待所有特征，即：

Φ(feat)＝1

根据本发明优选的，由步骤S32处理之后的特征映射Feat_K送入特征凝练模块中，通过特征凝练模块提取更有效的更具代表性的特征映射，包括步骤如下：

A、将特征映射Feat_K拼接成为矩阵Feat，K＝1，2，3，...，Feat的第一维度为 n＝w×h×K，U∈R ^n×c，即Feat是一个三维矩阵，包括在所有阶段中所有特征映射 Feat_K的c维像素级别的特征；

B、对第k个阶段来说，求取映射Map_k，选择Feat中的特征并将其分组到一组n'个具有代表性的特征Feat_k，如式(Ⅴ)所示：

式(Ⅴ)中，Map_k∈R^n’×n，

是更有效的更具代表性的特征映射，从n个像素级别的特征中，通过线性组合将n'个代表性特征集合起来；映射Map_k是一种线性变换，通过对所有像素级别的特征进行加权平均来进行线性降维；

把映射Map_k写成两个可学习映射C和M_k的乘积，映射Map_k如式(VI)所示：

Map_k＝CM_k (VI)

式(VI)中，C∈R^n‘×m，M_k∈R^m×n，m是一个参数，映射M_k是针对第k阶段的，而映射C的数据是在所有阶段共享的，映射M_k和C分别如式(Ⅶ)、(Ⅷ)所示：

M_k＝σ(f_M(A_k)) (Ⅶ)

C＝σ(f_C(A)) (Ⅷ)

式(Ⅶ)、(Ⅷ)中，σ是sigmoid激活函数；f_M、f_C是由全连接层定义的函数，两个函数接收的数据大小不同；f_M，f_C均是端到端网络模型中的一部分，并且f_M，f_C的值随着网络模型的训练而产生；A是所有注意力映射的拼接矩阵，A如式(Ⅸ)所示：

A＝[A₁,A₂,...,A_K] (Ⅸ)

式(Ⅸ)中，A_K为特征映射Feat_k经注意力模块处理之后的特征映射。

在Map_k中使用可分离映射不仅可以减少参数的数目，而且可以稳定训练效果。

C、对每一行映射Map_k进行L1归一化；以获得更稳定的训练。

映射Map_k的每一行折叠成尺寸为w×h的K个映射，每一行都表示像素级特征，如何在空间上贡献给与特定行相对应的代表特征。因此，Map_k的每一行都可以被看作是一个细粒度的结构，这对头部姿态估计问题来说是非常重要的。

D、将

连接在一起，形成一组具有代表性的特征，如式(X)所示：

式(X)中，

E、通过特征聚合方法处理一组代表性特征

得到最终的特征集V∈R ^K×c'；在头部姿态阶段回归进行进一步处理。

根据本发明优选的，步骤S35中，计算头部姿态角度值

如式(Ⅺ)所示：

式(Ⅺ)中，

是k个角度值区间的概率分布，

是k个角度区间的代表值组成的向量。

根据本发明优选的，步骤S4中，细粒度判别网络包括三个角度对应的区间细粒度判别网络，针对俯仰角、偏航角与翻滚角三个角度，每个角度划分三个区间，包括-90度至-20度、-30度至 +30度、+20度至+90度；每个角度的每个区间有各自的细粒度判别网络；由步骤S37处理之后的数据集A、B与C送入三个角度对应的区间细粒度判别网络，对三个角度数据划分的同时，也设置了重叠区域，该区域设置为10度。设置重叠区域的目的在于防止不同区域的之间头部姿态数据差异过大造成的模型的过拟合现象，从而提高粗粒度模型的鲁棒性。包括步骤如下：

S41：由步骤S37处理之后的数据集A、B与C输入人体头部输入模块中，经过人体头部输入模块中三个支流后获取三个特征映射矩阵；

S42：通过特征融合模块将三个特征映射矩阵进行矩阵融合：将S_L,S_M两个支流的特征映射矩阵进行c维1*1元素相乘，得到的特征组合再与S_R支流特征映射矩阵对应元素相加，得到组合特征，将组合特征映射转换成c通道；利用平均池化将组合特征映射的大小缩小到w×h，从而得到第k阶段的w×h×c特征映射Feat_K′；w，h分别代表特征映射矩阵的维度数的数值，c代表特征映射的通道数，K代表特征映射阶段数；

S43：由步骤S42处理之后的特征映射Feat_K′，送入评分函数模块中，计算相应的注意力图A′_K；

S44：由步骤S42处理之后的特征映射Feat_K′与步骤S43处理之后的A′_K送入特征凝练模块中，通过特征凝练模块提取更有效的更具代表性的特征映射Map_k′与C′，将Feat_K′、Map_k′与C′拼接为

通过SSR-Net特征融合并进一步提取出特征集V′∈R ^K×c'；以便更好地对特征映射进行分组。

S45：由步骤S44获取的特征映射V′，送入软阶段回归网络模块，经过计算，获得真实的头部姿态预测值。

细粒度判别网络的结构及处理过程与粗粒度判别网络的结构及处理过程相同，只是输入的数据不同。在细粒度网络中，将头部姿态真实数值作为标签值，而不是区间化的标签值。通过公式(XI) 计算分别可得(x,y,z)，分别代表俯仰角、偏航角与翻滚角。

根据本发明优选的，Block_L、Block_M与Block_R的内部结构分别如式(Ⅲ)、式(Ⅳ)、式(Ⅴ) 所示：

Block_L(c)＝{SepConv 2D(3×3,c)-BN-ReLU} (Ⅲ)

Block_M(c)＝{SepConv 2D(3×3,c)-BN-Sigmoid} (Ⅳ)

Block_R(c)＝{SepConv 2D(3×3,c)-BN-Tanh} (Ⅴ)

式(Ⅲ)、式(Ⅳ)、式(Ⅴ)中，SepConv 2D(3×3,c)代表可分离式二维卷积层，c是卷积层的通道数，ReLU、Tanh与Sigmoid分别代表激活函数ReLU、激活函数Tanh与激活函数Sigmoid。

一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于多层级图像特征精炼学习的头部姿态估计程序,所述基于多层级图像特征精炼学习的头部姿态估计程序被处理器执行时,实现任一所述的基于多层级图像特征精炼学习的头部姿态估计方法的步骤。

上述基于多层级图像特征精炼学习的头部姿态估计方法的实现系统，包括依次连接的图像预处理单元、粗粒度判别网络单元、细粒度判别网络单元；所述图像预处理单元用于执行步骤S1及步骤S2；所述粗粒度判别网络单元用于执行步骤S3；所述细粒度判别网络单元用于执行步骤S4。

本发明的有益效果为：

1、针对现有的头部姿态估计问题，本发明尝试使用更优的方法来解决。小波变换之后的图像能够提供更多的信息，小波处理之后可以保留图像主要信息，去除噪声和冗余信息，减少计算量。小波变换后的图像可以为头部姿态估计提供指导信息。本发明将其作为输入信息，与原始RGB图像进行结合，两者同时送入神经网络中进行训练，能够有效提升头部姿态估计结果。

2.头部姿态估计可以看作一个基于图像的回归问题。本发明设计了一种新的有效的网络架构，该网络架构在垂直和水平方向都具有较深结构，同时包含自顶向下和横向连接以进行有效的特征映射。在输入阶段采用多支流方法，每条支流采用不同的阶段提取图像信息中的特征映射，选用不同的卷积池化激活方式，通过多支流来提取更多的图像信息。实验结果表明，该方法能够有效提升头部姿态估计效果。

3.本发明提出由粗到细的回归网络架构，通过基于小波变换增强图像的语义输入，增加网络分支进行更丰富的特征提取。从网络架构、语义输入、特征提取三个方面，提升、优化现有的人头姿态估计的理论与解决方案。此外，本发明所提出的理论与方案具有泛化性，在理论与方法层面，对一般性的基于图像的回归问题也有更好的解决。

附图说明

图1为本发明基于多层级图像特征精炼学习的头部姿态估计方法实现设备示意图；

图2为本发明粗粒度判别网络判别姿态的方法流程示意图；

图3为本发明粗粒度判别网络到粗粒度判别网络整体架构示意图；

图4为本发明基于多层级图像特征精炼学习的头部姿态估计方法流程示意图；

图5为本发明基于多层级图像特征精炼学习的头部姿态估计方法处理后的一组效果图；

图6为本发明基于多层级图像特征精炼学习的头部姿态估计方法的实现系统结构框图；

图7为本发明软阶段回归网络模块的结构框图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于多层级图像特征精炼学习的头部姿态估计方法，如图4所示，包括步骤如下：

S2：使用Haar小波对裁剪后的图片进行小波变换，将小波变换处理之后的四通道信息与步骤S1裁剪后的RGB三通道图像进行拼接；送入后续的神经网络；神经网络包括粗粒度判别网络、细粒度判别网络；

实施例2

根据实施例1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其区别在于：

步骤S1中，图像处理的方法具体包括：

输出网络采用了更大的256*256的全连接层。保留了更多的图像特征。

步骤S1中，使用多任务卷积神经网络框出人脸框后进行裁剪，是指：对输出的最终的人脸区域进行裁剪，获取人脸几何图像子块。

实施例3

步骤S2中，使用Haar小波对裁剪后的图片进行小波变换，是指：

沿着y方向的小波函数便是

对人脸几何图像子块进行如下小波变换，如式(I)所示：

式(I)中，

表示人脸几何图像子块，i表示变换之后的图像子块，i₁₁是子块i～的低频系数，i₁₂， i₂₁，i₂₂分别是

的水平、垂直、对角线方向的高频系数；

H是指Haar变换矩阵，如式(II)所示：

实施例4

粗粒度判别网络与细粒度判别网络结构相同，如图3所示，均包括人体头部输入模块、特征融合模块、评分函数模块、特征凝练模块与软阶段回归网络模块；

人体头部输入模块包括三支流S_L、S_M、S_R，支流S_L包括依次连接的三个模块Block_L，模块 Block_L包括可分离式二维卷积层、激活函数ReLU；支流S_M包括依次连接的三个模块Block_M，模块Block_M包括可分离式二维卷积层、激活函数Tanh；支流S_R包括依次连接的三个模块Block_R，模块Block_R包括可分离式二维卷积层、激活函数Sigmoid。

三支流S_L、S_M、S_R的内部结构如表1所示：

表1

Block_L、Block_M与Block_R的内部结构分别如式(Ⅲ)、式(Ⅳ)、式(Ⅴ)所示：

Block_L(c)＝{SepConv 2D(3×3,c)-BN-ReLU} (Ⅲ)

Block_M(c)＝{SepConv 2D(3×3,c)-BN-Sigmoid} (Ⅳ)

Block_R(c)＝{SepConv 2D(3×3,c)-BN-Tanh} (Ⅴ)

实施例5

步骤S3中，通过调研分析，发现在头部姿态区域的极端姿态中，网络模型对其的估计往往具有较高的绝对误差，在变化较小的头部姿态区域时，模型估计效果较好。此外，数据库中极端姿态的训练样本通常会导致网络模型的表现不佳。针对该问题，粗粒度判别网络对于数据集中的数据进行大致区间的预判，粗粒度判别网络中，根据图像数据集中的三个角度标签值分布，按照区间从-90 度到+90度分为五类，-90度到-30度为第一类，标签值为1；-30度到-20度为第二类，标签值为 2；-20度到+20度为第三类，标签值为3；+20度到+30度为第四类，标签值为4；+30度到+90度为第五类，标签值为5，之后将该数据及其标签送入粗粒度判别网络进行训练。如图2所示，粗粒度判别网络判别姿态的方法包括：

通过SSR-Net特征融合并进一步提取出特征集V∈R^K×c；以便更好地对特征映射进行分组。

S35：将步骤S34提取的特征集V∈R^K×c'送入软阶段回归网络模块，软阶段回归网络模块是基于软阶段回归网络(SSR网络)进行改进而成的模块，其结构如图7所示。SSR网络通过输入单帧图片进而得到图像中的人的年龄预测，SSR网络创新点在于将年龄估计这一回归问题转化为分类问题。本发明将逐步软回归方案应用于单目图像的头部姿态估计问题。与年龄估计问题不同，头部姿态估计问题估计的是人体头部姿态向量，而不是单个的标量。本发明用软阶段回归网络模块表示多维回归的SSR网络。在上一阶段获取的特征映射，被送入映射模块来获得Kc'维向量。每一个向量都会被用于软阶段回归网络模块中，输出结果为

步骤S33中，给定像素级特征feat＝(feat₁,...,feat_c)，用评分函数Φ(feat)来衡量信息的重要性以便于对空间进行分组。因此，对每一个特征映射Feat_K，使用评分函数Φ(feat)来获得注意力图A_K，feat为像素级特征，如式(Ⅳ)所示：

A_k(i,j)＝Φ(Feat_K(i,j)) (Ⅳ)

采用1×1卷积层作为学习的评分函数，如下所示：

Φ(feat)＝σ(w·feat)

使用方差来选择特征，即：

其中

归一化，是平等对待所有特征，即：

Φ(feat)＝1

由步骤S32处理之后的特征映射Feat_K送入特征凝练模块中，通过特征凝练模块提取更有效的更具代表性的特征映射，包括步骤如下：

A、将特征映射Feat_K拼接成为矩阵Feat，K＝1，2，3，...，Feat的第一维度为 n＝w×h×K，U∈R^n×c，即Feat是一个三维矩阵，包括在所有阶段中所有特征映射 Feat_K的c维像素级别的特征；

式(Ⅴ)中，Map_k∈R^n’×n，

Map_k＝CM_k (VI)

M_k＝σ(f_M(A_k)) (Ⅶ)

C＝σ(f_C(A)) (Ⅷ)

A＝[A₁,A₂,...,A_K] (Ⅸ)

C、对每一行映射Map_k进行L1归一化；以获得更稳定的训练。

D、将

连接在一起，形成一组具有代表性的特征，如式(X)所示：

式(X)中，

E、通过特征聚合方法处理一组代表性特征

步骤S35中，计算头部姿态角度值

如式(Ⅺ)所示：

式(Ⅺ)中，

是k个角度值区间的概率分布，

是k个角度区间的代表值组成的向量。

实施例6

步骤S4中，细粒度判别网络包括三个角度对应的区间细粒度判别网络，针对俯仰角、偏航角与翻滚角三个角度，每个角度划分三个区间，包括-90度至-20度、-30度至+30度、+20度至+90 度；每个角度的每个区间有各自的细粒度判别网络；由步骤S37处理之后的数据集A、B与C送入三个角度对应的区间细粒度判别网络，对三个角度数据划分的同时，也设置了重叠区域，该区域设置为10度。设置重叠区域的目的在于防止不同区域的之间头部姿态数据差异过大造成的模型的过拟合现象，从而提高粗粒度模型的鲁棒性。包括步骤如下：

通过SSR-Net特征融合并进一步提取出特征集V′∈R^K×c'；以便更好地对特征映射进行分组。

S45：由步骤S44获取的特征映射V′，送入软阶段回归网络模块，经过计算，获得真实的头部姿态预测值。基于多层级图像特征精炼学习的头部姿态估计方法处理后的效果如图5所示。

细粒度判别网络的结构及处理过程与粗粒度判别网络的结构及处理过程相同，只是输入的数据不同。

表1为在BIWI数据库下采用本发明方法与其它现有方法比较的数据；其中，BIWI70％用于训练， 30％用于测试，测试标准为MAE。

表1

由表1可知，该方法能够有效提升头部姿态估计效果。

实施例7

实施例8

上述基于多层级图像特征精炼学习的头部姿态估计方法的实现系统，如图6所示，包括依次连接的图像预处理单元、粗粒度判别网络单元、细粒度判别网络单元；图像预处理单元用于执行步骤 S1及步骤S2；粗粒度判别网络单元用于执行步骤S3；细粒度判别网络单元用于执行步骤S4。图1 为本发明基于多层级图像特征精炼学习的头部姿态估计方法实现设备图；包括OV2640图像传感器、树莓派4B型与PiOLED模块，模块之间采用杜邦线连接。

Claims

1.一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，包括步骤如下：

S1：获取图像，对图像进行初步人脸估计，删除不包含人脸的图片，选出包含人脸的图片，框出人脸框后进行裁剪；

S2：对裁剪后的图片进行小波变换，将小波变换处理之后的四通道信息与步骤S1裁剪后的RGB三通道图像进行拼接；

S4：将新划分的区间数据集送入细粒度判别网络，估计出头部姿态具体角度值(x,y,z)，x、y、z分别代表俯仰角、偏航角与翻滚角。

2.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，步骤S1中，图像处理的方法具体包括：

S11:通过单目摄像装置获取图像；

然后，将图像送入建议区域网络，经过建议区域网络处理之后，输出为大量推测可能是人脸框的坐标位置，即大量推测可能为人脸包围盒的信息；

接着，将建议区域网络的输出送入优化网络，优化网络检测出大量的无效人脸包围盒并进行删除，输出优化后的人脸框的坐标位置；

最后，将优化后的人脸框的坐标位置输入输出网络再进行进一步优化，输出最终的人脸区域与人脸上5个标志点；

进一步优选的，所述输出网络采用256*256的全连接层；

3.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，所述步骤S2中，使用Haar小波对裁剪后的图片进行小波变换，是指：

对人脸几何图像子块进行如下小波变换，如式(I)所示：

式(I)中，

的低频系数，i₁₂，i₂₁，i₂₂分别是

的水平、垂直、对角线方向的高频系数；

H是指Haar变换矩阵，如式(II)所示：

将当前频带划分为四个子带，分别为低频分量、水平细节分量、垂直细节分量和对角线细节分量，即小波变换处理之后的四通道信息；经过Haar变换后分解成第一尺度下四个频域分量，低频系数构成的低频分量，集中了几何图像的大部分信息；水平方向的高频系数构成的水平细节分量，反映了几何图像沿水平方向的边缘信息；垂直方向的高频系数构成的垂直细节分量，保持了几何图像沿垂直方向的边缘信息；对角线方向的高频系数构成的对角线细节分量，保持了几何图像沿对角线方向的细节特征。

4.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，所述粗粒度判别网络与所述细粒度判别网络结构相同，均包括人体头部输入模块、特征融合模块、评分函数模块、特征凝练模块与软阶段回归网络模块；

5.根据权利要求4所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，步骤S3中，粗粒度判别网络中，根据图像数据集中的三个角度标签值分布，按照区间从-90度到+90度分为五类，-90度到-30度为第一类，标签值为1；-30度到-20度为第二类，标签值为2；-20度到+20度为第三类，标签值为3；+20度到+30度为第四类，标签值为4；+30度到+90度为第五类，标签值为5，粗粒度判别网络判别姿态的方法包括：

S33：通过评分函数模块计算每个特征映射Feat_K的注意力图A_K；

通过SSR-Net特征融合并进一步提取出特征集V∈R^K×c；

S35：将步骤S34提取的特征集V∈R^K×c'送入软阶段回归网络模块，输出结果为

S36：根据步骤S35计算的头部姿态角度值，对其进行分类，并标注上标签值，是指：头部姿态角度值如果为-90度到-30度，则为第一类，标签值为1；头部姿态角度值如果为-30度到-20度，则为第二类，标签值为2；头部姿态角度值如果为-20度到+20度，则为第三类，标签值为3；头部姿态角度值如果为+20度到+30度，则为第四类，标签值为4；头部姿态角度值如果为+30度到+90度，则为第五类，标签值为5；

S37：数据重组，是指：将标签值为1与2的数据组成数据集A，标签值为2、3与4的数据组成数据集B，标签值为4与5的数据组成数据集C，数据集A、数据集B及数据集C即新划分的区间数据集；

进一步优选的，步骤S33中，对每一个特征映射Feat_K，使用评分函数Φ(feat)来获得注意力图A_K，feat为像素级特征，如式(Ⅳ)所示：

A_k(i,j)＝Φ(Feat_K(i,j)) (Ⅳ)

式(Ⅳ)中，i、j代表特征映射Feat_K中的具体位置信息，Feat_K(i,j)即特征映射中Feat_K第i行第j列的数值，A_k(i,j)即注意力图中第i行第j列的数值；

进一步优选的，步骤S35中，计算头部姿态角度值

如式(Ⅺ)所示：

式(Ⅺ)中，

是k个角度值区间的概率分布，

是k个角度区间的代表值组成的向量。

6.根据权利要求1所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，由步骤S32处理之后的特征映射Feat_K送入特征凝练模块中，通过特征凝练模块提取更有效的更具代表性的特征映射，包括步骤如下：

A、将特征映射Feat_K拼接成为矩阵Feat，K＝1，2，3，...，Feat的第一维度为n＝w×h×K，U∈R^n×c，即Feat是一个三维矩阵，包括在所有阶段中所有特征映射Feat_K的c维像素级别的特征；

B、求取映射Map_k，选择Feat中的特征并将其分组到一组n'个具有代表性的特征Feat_k，如式(Ⅴ)所示：

式(Ⅴ)中，Map_k∈R^n‘-n，

映射Map_k如式(VI)所示：

Map_k＝CM_k (VI)

M_k＝σ(f_M(A_k)) (Ⅶ)

C＝σ(f_C(A)) (Ⅷ)

式(Ⅶ)、(Ⅷ)中，σ是sigmoid激活函数；f_M、f_C是由全连接层定义的函数，两个函数接收的数据大小不同；A是所有注意力映射的拼接矩阵，A如式(Ⅸ)所示：

A＝[A₁,A₂,...,A_K] (Ⅸ)

式(Ⅸ)中，A_K为特征映射Feat_k经注意力模块处理之后的特征映射；

C、对每一行映射Map_k进行L1归一化；

D、将

连接在一起，形成一组具有代表性的特征，如式(X)所示：

式(X)中，

E、通过特征聚合方法处理一组代表性特征

得到最终的特征集V∈R^K×c'。

7.根据权利要求5所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，步骤S4中，细粒度判别网络包括三个角度对应的区间细粒度判别网络，针对俯仰角、偏航角与翻滚角三个角度，每个角度划分三个区间，包括-90度至-20度、-30度至+30度、+20度至+90度；每个角度的每个区间有各自的细粒度判别网络；由步骤S37处理之后的数据集A、B与C送入三个角度对应的区间细粒度判别网络，包括步骤如下：

通过SSR-Net特征融合并进一步提取出特征集V′∈R^K×c'；

8.根据权利要求4-7任一所述的一种基于多层级图像特征精炼学习的头部姿态估计方法，其特征在于，Block_L、Block_M与Block_R的内部结构分别如式(Ⅲ)、式(Ⅳ)、式(Ⅴ)所示：

Block_L(c)＝{SepConv 2D(3×3,c)-BN-ReLU} (Ⅲ)

Block_M(c)＝{SepConv 2D(3×3,c)-BN-Sigmoid} (Ⅳ)

Block_R(c)＝{SepConv 2D(3×3,c)-BN-Tanh} (Ⅴ)

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有权利要求1-8任一所述基于多层级图像特征精炼学习的头部姿态估计方法程序,权利要求1-9任一所述基于多层级图像特征精炼学习的头部姿态估计方法程序被处理器执行时,实现权利要求1-9任一所述基于多层级图像特征精炼学习的头部姿态估计方法的步骤。

10.权利要求1-8任一所述基于多层级图像特征精炼学习的头部姿态估计方法的实现系统，其特征在于,包括依次连接的图像预处理单元、粗粒度判别网络单元、细粒度判别网络单元；所述图像预处理单元用于执行步骤S1及步骤S2；所述粗粒度判别网络单元用于执行步骤S3；所述细粒度判别网络单元用于执行步骤S4。