CN114187360B

CN114187360B - 基于深度学习和四元数的头部位姿估计方法

Info

Publication number: CN114187360B
Application number: CN202111523829.6A
Authority: CN
Inventors: 张雪涛; 刘银川; 龚羽飞; 姜沛林; 王飞
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2024-02-06
Anticipated expiration: 2041-12-14
Also published as: CN114187360A

Abstract

本发明公开了一种基于深度学习和四元数的头部位姿估计方法，1、选取公开头部位姿数据集并预处理，每张头部图像均对应表示头部姿态的欧拉角和四元数两个标签，并划分出训练集、验证集和测试集；2、搭建具有若干个阶段的头部位姿估计神经网络模型，网络的最后输出为一个组合旋转的四元数；3、将训练集和验证集输入至搭建的头部位姿估计神经网络中进行训练,得到头部位姿估计模型；4、利用头部位姿估计模型对测试集进行测试,通过计算四元数转换的欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。本发明实现通过单幅图像的回归模型就能够估计出人的头部姿态信息,通过多个阶段的融合提高了头部位姿估计的精确度。

Description

基于深度学习和四元数的头部位姿估计方法

技术领域

本发明属于计算机视觉的应用领域，具体涉及一种基于深度学习和四元数的头部位姿估计方法。

背景技术

随着计算机视觉、自然语言处理等技术的不断革新，人工智能技术已经在工业和生活中的多个场景应用落地。其中各项技术的更新和突破也是当下广大科研工作者集中研究的对象，尤其是在易于落地的计算机视觉领域。目前有许多研究人员在多个视觉领域任务中取得了非常好的成果，其中又属人脸相关的应用为盛。头部姿态估计不仅仅可以为其他人脸任务(例如：人脸识别、关键点检测、人脸矫正等)提供辅助信息。头部姿态算法在众多场景中都起到了不可或缺的作用，因此高效且精准的头部姿态估计算法非常有必要，在多个应用场景中显得尤为重要。

从单个图像中估计头部位姿是一个具有挑战性的问题。从图像中估计头部位姿需要学习一个二维和三维空间之间的映射。一些方法通过提取二维人脸关键点进行三维姿态估计，但是这种基于两步的头部姿态估计方法的精度在一定程度上取决于人脸关键点检测的精度。一些方法利用深度图像或视频序列中的时间信息来估计头部姿态。但是这些方法在相机种类、计算平台的内存和计算能力等方面存在很多限制。所以利用单张图像进行头部位姿估计是热门的选择。

发明内容

本发明的目的在于针对现有的头部位姿估计方法存在的不足以及多以欧拉角来表示头部位姿的问题，提出了一种基于深度学习和四元数的头部位姿估计方法，以四元数来表示头部位姿，该方法能够融合神经网络中不同阶段的输出。本发明可以实现通过单幅图像的回归模型就能够估计出人的头部的姿态信息,利用了神经网络不同阶段的特征信息，通过多个阶段的融合提高了头部位姿估计的精确度。

为了达到上述目的，本发明采用如下技术方案：

一种基于深度学习的电子元件计数及定位方法，包括如下步骤：

步骤A：选取包含头部位姿的公开数据集，对数据集中的每一张图像，通过人脸检测的方法将头部区域分割出来，并将头部位姿分别以欧拉角和四元数表示，以欧拉角和四元数表示的位姿作为标签，对数据集进行预处理，并数据集其划分为训练集、验证集和测试集；

步骤B：搭建具有若干个阶段的头部位姿估计神经网络模型，该头部位姿估计神经网络模型的每个阶段均得到一个四元数，头部位姿估计神经网络模型的最后输出为一个代表由网络模型每个阶段得到的四元数形成的组合旋转的四元数；

步骤C：将训练集和验证集输入至搭建的头部位姿估计神经网络模型中进行训练,得到头部位姿估计模型；

步骤D：利用训练得到的头部位姿估计模型对测试集进行测试,得到测试集中表示每个样本头部位姿的四元数，并将该四元数通过转换关系转换为欧拉角，通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。

所述步骤B的具体步骤如下：

步骤B01：头部位姿估计神经网络模型选取卷积层加池化层结构，根据网络的深度划分为若干个阶段，将每个阶段得到的特征通过一个具有4个神经元的全连接层，并将这4个神经元的输出结果进行归一化处理，得到模长为1的单位四元数q；

步骤B02：将每个阶段的四元数视为一个旋转，每后一个阶段的四元数表示的旋转是在前一个阶段旋转基础上进行的微调；头部位姿估计神经网络模型的最后输出为一个代表由网络每个阶段得到的四元数形成的组合旋转的四元数,其可以表示为其中S为阶段数，“·”为四元数之间的点乘运算。

所述步骤C的具体步骤如下：

步骤C01:对步骤B中所搭建的头部位姿估计神经网络模型进行训练时所用损失函数为其中N代表训练集中样本数量，q_pred为神经网络最终输出的四元数，q_true为样本标签四元数；

步骤C02:对于将数据集经过预处理后得到的训练集和验证集，将其输入至搭建的头部位姿估计神经网络模型中，进行前向计算和反向传播训练神经网络,优化神经网络参数,最终得到头部位姿估计模型。

所述步骤D的具体步骤如下：

步骤D01：将测试集中的每一个样本输入步骤C中训练得到的头部位姿估计模型，得到测试集中表示每个样本头部位姿的四元数；

步骤D02：利用四元数和欧拉角之间的转换关系，将步骤D01中得到的四元数转换为欧拉角；

步骤D03：通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。

与现有技术相比，本发明具有以下优点：

第一，本发明使用深度学习方法利用单张图像进行头部位姿估计，不需要例如关键点、深度、时间等其他额外信息，能够通过神经网络模型直接得到头部姿态；

第二，本发明利用了神经网络不同阶段的特征信息，通过多个阶段的融合提高了头部位姿估计的精确度；

第三，本发明采用四元数表示头部位姿，可以避免万向锁问题，并且可以进行平滑插值，具有更好的鲁棒性；

第四，本发明采用两个单位四元数之间的测地距离作为损失函数，能够更好地衡量神经网络预测四元数和样本标签四元数之间的差异。

附图说明

图1是本发明方法的整体流程图。

图2a和图2b为两张经过预处理后的头部图像以及所对应的欧拉角和四元数标签的示例。

图3是神经网络的网络结构示意图。

具体实施方式

下面结合附图详细介绍本发明各步骤中的具体细节。

本发明提出了一种基于深度学习的电子元件计数及定位方法，该方法的整个流程如图1所示。

该方法主要包括以下步骤：

步骤A：选取包含头部位姿的公开数据集，对数据集中的每一张图像，通过人脸检测的方法将头部区域分割出来，并将头部位姿分别以欧拉角和四元数表示，以欧拉角和四元数表示的位姿作为标签，对数据集进行预处理，并将其划分为训练集、验证集和测试集，图2a和图2b为两张经过预处理后的头部图像以及所对应的欧拉角和四元数标签的示例；

步骤B：搭建具有若干个阶段的头部位姿估计神经网络模型，该头部位姿估计神经网络模型的每个阶段均得到一个四元数，头部位姿估计神经网络模型的最后输出为一个代表由网络模型每个阶段得到的四元数形成的组合旋转的四元数，图3是神经网络的网络结构；

所述步骤B的具体步骤如下：

所述步骤C的具体步骤如下：

所述步骤D的具体步骤如下：

步骤D02：利用四元数和欧拉角之间的转换关系，将步骤D01中得到的四元数转换为欧拉角，四元数和欧拉角之间的转换关系如下：

设四元数为[w,x,y,z]，欧拉角为[yaw,pitch,roll]，则由四元数到欧拉角的转换关系为：

步骤D03：通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小,计算方法如下：

其中N为测试样本数量，为神经网络对第i个样本的预测头部姿态，/>为第i个样本的真实姿态，MAE为神经网络在测试集上的平均绝对误差。

Claims

1.一种基于深度学习和四元数的头部位姿估计方法，其特征在于：包括如下步骤：

步骤A：选取包含头部位姿的公开数据集，对数据集中的每一张图像，通过人脸检测的方法将头部区域分割出来，并将头部位姿分别以欧拉角和四元数表示，以欧拉角和四元数表示的位姿作为标签，对数据集进行预处理，并将数据集划分为训练集、验证集和测试集；

步骤D：利用训练得到的头部位姿估计模型对测试集进行测试,得到测试集中表示每个样本头部位姿的四元数，并将该四元数通过转换关系转换为欧拉角，通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小；

所述步骤B的具体步骤如下：

步骤B02：将每个阶段的四元数视为一个旋转，每后一个阶段的四元数表示的旋转是在前一个阶段旋转基础上进行的微调；头部位姿估计神经网络模型的最后输出为一个代表由网络每个阶段得到的四元数形成的组合旋转的四元数,表示为其中S为阶段数，“·”为四元数之间的点乘运算。

2.根据权利要求1所述的一种基于深度学习和四元数的头部位姿估计方法，其特征在于：所述步骤C的具体步骤如下：

3.根据权利要求1所述的一种基于深度学习和四元数的头部位姿估计方法，其特征在于：所述步骤D的具体步骤如下：