CN115761894A

CN115761894A - 提高实时性和准确率的三维头部姿态估计方法、存储介质和终端

Info

Publication number: CN115761894A
Application number: CN202211503426.XA
Authority: CN
Inventors: 王心超; 王旭鹏; 廖勇; 王正奕
Original assignee: Chengdu Coral Fish Technology Co ltd
Current assignee: Chengdu Coral Fish Technology Co ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2023-03-07
Also published as: CN113239798B; CN113239798A; CN115719515A

Abstract

本发明公开提高实时性和准确率的三维头部姿态估计方法、存储介质和终端，所述孪生神经网络包括两个相同结构的第一网络和第二网络，所述方法包括：将待估计头部图像输入至第一网络或第二网络，输出头部姿态估计结果；所述第一网络和第二网络经训练得到，所述训练包括：将多对头部图像分别作为第一网络和第二网络的输入，第一网络和第二网络分别输出对应头部图像的预测角度，每对头部图像的真实角度相差大于预设大小；利用损失函数对孪生神经网络进行训练。本发明的两个子网络在整体的孪生神经网络中无结构上的耦合，所以在姿态估计阶段能够只使用子网络进行预测，这样既达到了复杂网络的精准度，也实现了简单网络的轻量化，在部署上更为灵活。

Description

提高实时性和准确率的三维头部姿态估计方法、存储介质和终端

技术领域

本发明涉及姿态估计领域，尤其涉及提高实时性和准确率的三维头部姿态估计方法、存储介质和终端。

背景技术

头部姿态估计能够应用于计算机视觉的许多领域，例如注意力和行为分析、显著性预测等。在本项工作中，我们主要关注汽车/火车驾驶领域，因为较多文献表明，头部姿态估计是驾驶员行为和注意力监测分析的关键要素之一。此外，近年来半自动、自动驾驶汽车的引入及其与传统汽车共存的现状增加了驾驶员注意力研究的关注度。

驾驶员注意力分散是造成道路交通事故最主要的原因之一。据美国国家公路交通安全管理局(NHTSA)报告，在北美大约有18％的致命驾驶员交通事故是因为驾驶员分心而导致的，2011年有3000多人在交通事故中丧生。美国国家安全局(NHTSA)将驾驶活动中的注意力分散描述为“一种可能使人的注意力从驾驶的主要任务转移开的活动”，并进一步定义了三类分心驾驶行为：1)手动分心：驾驶员的手不在方向盘上；此类活动的示例是不正确使用信息娱乐系统(如无线电、GPS导航设备等)或文本消息；2)视觉干扰：驾驶员的眼睛不是注视着道路，而是注视着智能手机的屏幕或报纸；3)注意力分散：驾驶员的注意力不集中在驾驶活动上，一般而言，这可能是由压力或恶劣的身体状况造成的，或者与乘客交谈时发生的。在驾驶活动中滥用智能手机会导致上述三种干扰状况，也是导致致命的驾驶分心的最重要原因之一。

有人提出了一些检测车内安全的方法，可以根据所用信号的类型进行划分：1)生理信号：在驾驶舱内放置特殊的传感器，如脑电图(EEG)、心电图(ECG)或肌电图(EMG)，以获取驾驶员身体的状态信息，但是这种解决方案要求人体与传感器接触，会影响驾驶员的驾驶行为；2)车辆信号：从汽车总线获取诸如速度变化、方向盘运动之类的车辆参数，用于反映驾驶员的异常行为；3)物理信号：利用图像处理技术通过面部特征、眼睛状态、头部姿态或嘴巴状态等监测驾驶员的驾驶状态。由于前两种方法对驾驶员或车辆具有干扰性，第三种方法是被人们广泛采用的。

因此能够提供一种加速训练、网络的泛化能力较强、精准度高并且网络轻量化的头部姿态估计方法，属于本领域亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供提高实时性和准确率的三维头部姿态估计方法、存储介质和终端。

本发明的目的是通过以下技术方案来实现的：

本发明的第一方面，提供提高实时性和准确率的三维头部姿态估计方法，所述孪生神经网络包括两个相同结构的第一网络和第二网络，所述方法包括：

将待估计头部图像输入至第一网络或第二网络，输出头部姿态估计结果；

所述第一网络和第二网络经训练得到，所述训练包括：

将多对头部图像分别作为第一网络和第二网络的输入，第一网络和第二网络分别输出对应头部图像的预测角度，每对头部图像的真实角度相差大于预设大小；

利用损失函数对孪生神经网络进行训练，所述损失函数包括第一网络的独立损失函数、第二网络的独立损失函数和孪生神经网络的附加损失函数；所述第一网络的独立损失函数和第二网络的独立损失函数均为对应头部图像的真实角度和对应网络的预测角度差异的L2距离；所述孪生神经网络的附加损失函数为预测角度之间差异与真实角度之间差异的L2距离，所述预测角度之间为第一网络输出的预测角度和第二网络输出的预测角度之间，所述真实角度之间为第一网络输入的头部图像的真实角度和第二网络输出的头部图像的真实角度之间。

进一步地，所述头部图像的获取方式，包括：

使用动态窗口裁剪脸部图像，给定脸部的中心坐标x_c,y_c，将每个图像裁剪成以中心x_c,y_c为中心点的矩形框，其宽度和高度计算为：

其中，f_x,y是采集设备的水平和垂直焦距长度，R是脸部的宽度，Z表示的是从深度图像的采集设备到用户之间的距离；水平焦距长度用于计算宽度，垂直焦距长度用于计算高度；

输出包含部分居中的面孔和部分背景的图像；

被裁剪的图像将调整为特定大小的像素，再对其像素值进行归一化，以将其均值和方差分别调整为0和1，得到待输入头部图像。

进一步地，所述头部图像的获取方式，还包括：

对待输入头部图像进行数据增强，包括：对输入图像的每个角和头部中心附加随机裁剪出补丁来增加图像大小，或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。

进一步地，所述第一网络和第二网网络均包括顺次连接的四个卷积层和三个全连接层，最后一个全连接层输出对头部姿态角度进行回归得到预测角度；其中第一卷积层和第二卷积层后分别连接有一个最大池化层，并且第二卷积层、第三卷积层、第四卷积层和三个全连接层之前均连接有Tanh激活函数。

进一步地，所述每对头部图像的真实角度相差大于预设大小，包括：每对头部图像的对应的各个角度相差均大于预设大小，所述各个角度包括欧拉角即俯仰角、偏航角和翻滚角。

进一步地，第一网络和第二网络训练时的批处理大小为64，衰减系数为5^-4，动量值为9^-1，学习率为10^-1且最后一轮训练时衰减至10^-3；真实角度被归一化至[-1,+1]区间。

进一步地，所述第一网络的独立损失函数和第二网络的独立损失函数，具体实现方式为：

式中，y_i是真实角度，f(x_i)表示对应网络的预测角度，n表示多对头部图像的对数。

进一步地，所述孪生神经网络的附加损失函数，具体实现方式为：

d_cnn＝f₁(x)-f₂(x)

d_gt(x_i)＝y₁-y₂

式中，d_cnn(x_i)是第一网络输出的预测角度f₁(x)和第二网络输出的预测角度f₂(x)之间的差异，d_gt(x_i)是第一网络输入的头部图像的真实角度y₁和第二网络输出的头部图像的真实角度-y₂之间的差异，n表示多对头部图像的对数。

本发明的第二方面，提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的提高实时性和准确率的三维头部姿态估计方法的步骤。

本发明的第三方面，提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的提高实时性和准确率的三维头部姿态估计方法的步骤。

本发明的有益效果是：

(1)在本发明的一示例性实施例中，在模型训练完成后，独立的子网络就能直接预测出角度。其中：由于孪生神经网络中的两个子网络(即第一网络和第二网络)参数相同，所以相较于单独训练一个子网络，能实现加速训练的效果；同时由于只有差异较大的一对图片会被作为孪生神经网络的输入(即上述的每对头部图像的真实角度相差大于预设大小)，且两者输入的差异与两者输出的差异进行比较，使网络的泛化能力较强，且对差异较为敏感；另外，两个子网络在整体的孪生神经网络中无结构上的耦合，所以在姿态估计阶段能够只使用子网络进行预测，这样既达到了复杂网络的精准度，也实现了简单网络的轻量化，在部署上更为灵活。

(2)在本发明的又一示例性实施例中，为了避免过拟合，对待输入头部图像进行数据增强，包括：对输入图像的每个角和头部中心附加随机裁剪出补丁来增加图像大小，或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。由于以这种方式进行的数据增强能够产生具有遮挡的样本，因此该示例性实施例提出的方法对于头部遮挡是鲁棒的，训练的模型具有一定的稳健性。

附图说明

图1为本发明一实例性实施例公开的方法流程图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

参见图1，图1示出了本发明的一示例性实施例中提供的提高实时性和准确率的三维头部姿态估计方法，所述孪生神经网络包括两个相同结构的第一网络和第二网络，所述方法包括：

所述第一网络和第二网络经训练得到，所述训练包括：

具体地，本示例性实施例所描述的方法旨在估计头部/面部相对于摄像机参考系的俯仰角、翻滚角和偏航角。该方法设计了一个新的孪生卷积神经网络，使用深度图像作为输入，并基于网络的输出构建损失函数，能够同时进行头部的检测定位和姿态估计。

在该示例性实施例中，在模型训练完成后，独立的子网络就能直接预测出角度。其中：由于孪生神经网络中的两个子网络(即第一网络和第二网络)参数相同，所以相较于单独训练一个子网络，能实现加速训练的效果；同时由于只有差异较大的一对图片会被作为孪生神经网络的输入(即上述的每对头部图像的真实角度相差大于预设大小)，且两者输入的差异与两者输出的差异进行比较，使网络的泛化能力较强，且对差异较为敏感；另外，两个子网络在整体的孪生神经网络中无结构上的耦合，所以在姿态估计阶段能够只使用子网络进行预测，这样既达到了复杂网络的精准度，也实现了简单网络的轻量化，在部署上更为灵活。

更优地，在一示例性实施例中，所述头部图像的获取方式，包括：

其中，f_x,y是采集设备的水平和垂直焦距长度(单位为像素)，R是常见脸部的宽度(在其中一示例性实施例中为300mm)，Z表示的是从深度图像的采集设备到用户之间的距离；水平焦距长度用于计算宽度，垂直焦距长度用于计算高度；

输出包含部分居中的面孔和部分背景的图像；

被裁剪的图像将调整为特定大小的像素(在该示例性实施例中为64×64像素)，再对其像素值进行归一化，以将其均值和方差分别调整为0和1，得到待输入头部图像。网络中某些层的激活函数也会进行这种归一化操作。下述内容将会进行详细说明。

更优地，在一示例性实施例中，所述头部图像的获取方式，还包括：

为了避免过拟合，对待输入头部图像进行数据增强，包括：对输入图像的每个角和头部中心附加随机裁剪出补丁来增加图像大小，或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。

由于以这种方式进行的数据增强能够产生具有遮挡的样本，因此该示例性实施例提出的方法对于头部遮挡是鲁棒的，训练的模型具有一定的稳健性。

更优地，在一示例性实施例中，如图1所示，所述第一网络和第二网网络均包括顺次连接的四个卷积层和三个全连接层，最后一个全连接层输出对头部姿态角度进行回归得到预测角度；其中第一卷积层和第二卷积层后分别连接有一个最大池化层，并且第二卷积层、第三卷积层、第四卷积层和三个全连接层之前均连接有Tanh激活函数(图中未示出)。

参见图1，本示例性实施例提出的每个单独的神经网络的层数都较少(卷积层4层和全连接层3层)，这使网络的实时性和准确率较好，并在一定程度上避免过拟合。

具体地，每个网络均以64×64像素的图像作为输入，并由4个卷积层组成。前三层各有16、32和64个卷积核，第四层有128个卷积核。由于输入图像的尺寸相对较小，所以只进行了两次最大池化(分别在第一次卷积和第二次卷积后使用了最大池化)。在网络的末端，有三个全连接层，输出维度分别为128、64和3。最后一个全连接层的三个输出对头部的三个角度进行回归(俯仰角、偏航角和翻滚角)。

其中，激活函数使用Tanh函数，它具有从定义域[-∞,+∞]映射至[-1,+1]的特点，使用ReLU函数虽然训练速度会更快，但其映射范围与Tanh不同，所以未采用ReLU函数。(Tanh激活函数只是神经网络中的激活函数的一种，值域在[-1,+1]，能使神经网络具有非线性的拟合能力。)同时由于网络的输出是连续值，所以采用SGD(随机梯度下降)进行反向传播进行训练(即在网络的训练过程中，使用SGD方法对网络的内部权重进行调整)。

更优地，在一示例性实施例中，所述每对头部图像的真实角度相差大于预设大小，包括：每对头部图像的对应的各个角度相差均大于预设大小，所述各个角度包括欧拉角即俯仰角、偏航角和翻滚角。

即在该示例性实施例中，假设数据集有大约N帧图片，则一共有N/2对图像可以使用，并且需要每对头部图像的俯仰角、偏航角和翻滚角均大于预设大小，才能满足条件。而在又一示例性实施例中，所述预设大小为30度。

更优地，在一示例性实施例中，第一网络和第二网络训练时的批处理大小为64，衰减系数为5^-4，动量值为9^-1，学习率为10^-1且最后一轮训练时衰减至10^-3；真实角度被归一化至[-1,+1]区间。

需要说明的是，网络训练的前期和后期，梯度的差异会较大，前期的梯度变化率大，所以采用较大的学习率能够较快的训练；后期的梯度变化率较小，采用较小的学习率能使网络收敛地更为准确。

更优地，在一示例性实施例中，所述第一网络的独立损失函数和第二网络的独立损失函数，具体实现方式为：

更优地，在一示例性实施例中，所述孪生神经网络的附加损失函数，具体实现方式为：

d_cnn＝f₁(x)-f₂(x)

d_gt(x_i)＝y₁-y₂

综上，终的损失函数包含了两个独立网络的损失L_cnn,1，L_cnn,2和孪生神经网络的附加损失函数L_siam：

L＝L_cnn,1+L_cnn,2+L_siam

由于两个子网络完全相同，且无耦合，所以比例为1：1：1，如果是其他比例，则会造成两个子网络最终的内部权重不同，从而在两个子网络上的测试结果不同。

基于上述任意一示例性实施例，本发明的又一示例性实施例提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的提高实时性和准确率的三维头部姿态估计方法的步骤。

基于上述任意一示例性实施例，本发明的又一示例性实施例提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的提高实时性和准确率的三维头部姿态估计方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得装置执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.提高实时性和准确率的三维头部姿态估计方法，所述孪生神经网络包括两个相同结构的第一网络和第二网络，其特征在于：所述方法包括：

所述第一网络和第二网络经训练得到，所述训练包括：

利用损失函数对孪生神经网络进行训练，所述损失函数包括第一网络的独立损失函数、第二网络的独立损失函数和孪生神经网络的附加损失函数；所述第一网络的独立损失函数和第二网络的独立损失函数均为对应头部图像的真实角度和对应网络的预测角度差异的L2距离；所述孪生神经网络的附加损失函数为预测角度之间差异与真实角度之间差异之间的差异的L2距离，所述预测角度之间为第一网络输出的预测角度和第二网络输出的预测角度之间，所述真实角度之间为第一网络输入的头部图像的真实角度和第二网络输出的头部图像的真实角度之间；

所述第一网络和第二网络均包括顺次连接的四个卷积层和三个全连接层，最后一个全连接层输出对头部姿态角度进行回归而得到的预测角度；其中第一卷积层和第二卷积层后分别连接有一个最大池化层，并且第二卷积层、第三卷积层、第四卷积层和三个全连接层之前均连接有Tanh激活函数；其中，每个网络均以64X64像素的图像作为输入，前三层卷积层各有16、32和64个卷积核，第四层有128个卷积核；由于输入图像的尺寸相对较小，只进行了两次最大池化；在网络的末端，有三个全连接层，输出维度分别为128、64和3；

由于网络的输出是连续值，所以采用随机梯度下降进行反向传播进行训练，即在网络的训练过程中，使用随机梯度下降的方法对网络的内部权重进行调整。

2.根据权利要求1所述的提高实时性和准确率的三维头部姿态估计方法，其特征在于：所述头部图像的获取方式，包括：

其中，f_x,y是采集设备的水平焦距长度和垂直焦距长度，R是脸部的宽度，Z表示的是从深度图像的采集设备到用户之间的距离；水平焦距长度用于计算宽度，垂直焦距长度用于计算高度；

输出包含部分居中的面孔和部分背景的图像；

3.根据权利要求2所述的提高实时性和准确率的三维头部姿态估计方法，其特征在于：所述头部图像的获取方式，还包括：

对待输入头部图像进行数据增强，包括：对输入图像的每个角和头部中心附加随机裁剪出的补丁以增加图像大小，或者通过从底部、上方、左侧和右侧裁剪输入图像并添加高斯噪声来获得补丁。

4.根据权利要求1所述的提高实时性和准确率的三维头部姿态估计方法，其特征在于：所述每对头部图像的真实角度相差大于预设大小，包括：每对头部图像的对应的各个角度相差均大于预设大小，所述各个角度包括欧拉角即俯仰角、偏航角和翻滚角。

5.根据权利要求1所述的提高实时性和准确率的三维头部姿态估计方法，其特征在于：第一网络和第二网络训练时的批处理大小为64，衰减系数为5^-4，动量值为9^-1，学习率为10^-1且最后一轮训练时衰减至10^-3；真实角度被归一化至[-1,+1]区间。

6.根据权利要求1所述的提高实时性和准确率的三维头部姿态估计方法，其特征在于：所述第一网络的独立损失函数和第二网络的独立损失函数，具体实现方式为：

7.根据权利要求1所述的提高实时性和准确率的三维头部姿态估计方法，其特征在于：所述孪生神经网络的附加损失函数，具体实现方式为：

d_cnn＝f₁(x)-f₂(x)

d_gt(x_i)＝y₁-y₂

式中，d_cnn(x_i)是第一网络输出的预测角度f₁(x)和第二网络输出的预测角度f₂(x)之间的差异，d_gt(x_i)是第一网络输入的头部图像的真实角度y₁和第二网络输出的头部图像的真实角度y₂之间的差异，n表示多对头部图像的对数。

8.一种存储介质，其上存储有计算机指令，其特征在于：所述计算机指令运行时执行权利要求1至7中任一项所述的提高实时性和准确率的三维头部姿态估计方法的步骤。

9.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至7中任一项所述的提高实时性和准确率的三维头部姿态估计方法的步骤。