CN114187360B - 基于深度学习和四元数的头部位姿估计方法 - Google Patents
基于深度学习和四元数的头部位姿估计方法 Download PDFInfo
- Publication number
- CN114187360B CN114187360B CN202111523829.6A CN202111523829A CN114187360B CN 114187360 B CN114187360 B CN 114187360B CN 202111523829 A CN202111523829 A CN 202111523829A CN 114187360 B CN114187360 B CN 114187360B
- Authority
- CN
- China
- Prior art keywords
- head pose
- quaternion
- pose estimation
- neural network
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习和四元数的头部位姿估计方法,1、选取公开头部位姿数据集并预处理,每张头部图像均对应表示头部姿态的欧拉角和四元数两个标签,并划分出训练集、验证集和测试集;2、搭建具有若干个阶段的头部位姿估计神经网络模型,网络的最后输出为一个组合旋转的四元数;3、将训练集和验证集输入至搭建的头部位姿估计神经网络中进行训练,得到头部位姿估计模型;4、利用头部位姿估计模型对测试集进行测试,通过计算四元数转换的欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。本发明实现通过单幅图像的回归模型就能够估计出人的头部姿态信息,通过多个阶段的融合提高了头部位姿估计的精确度。
Description
技术领域
本发明属于计算机视觉的应用领域,具体涉及一种基于深度学习和四元数的头部位姿估计方法。
背景技术
随着计算机视觉、自然语言处理等技术的不断革新,人工智能技术已经在工业和生活中的多个场景应用落地。其中各项技术的更新和突破也是当下广大科研工作者集中研究的对象,尤其是在易于落地的计算机视觉领域。目前有许多研究人员在多个视觉领域任务中取得了非常好的成果,其中又属人脸相关的应用为盛。头部姿态估计不仅仅可以为其他人脸任务(例如:人脸识别、关键点检测、人脸矫正等)提供辅助信息。头部姿态算法在众多场景中都起到了不可或缺的作用,因此高效且精准的头部姿态估计算法非常有必要,在多个应用场景中显得尤为重要。
从单个图像中估计头部位姿是一个具有挑战性的问题。从图像中估计头部位姿需要学习一个二维和三维空间之间的映射。一些方法通过提取二维人脸关键点进行三维姿态估计,但是这种基于两步的头部姿态估计方法的精度在一定程度上取决于人脸关键点检测的精度。一些方法利用深度图像或视频序列中的时间信息来估计头部姿态。但是这些方法在相机种类、计算平台的内存和计算能力等方面存在很多限制。所以利用单张图像进行头部位姿估计是热门的选择。
发明内容
本发明的目的在于针对现有的头部位姿估计方法存在的不足以及多以欧拉角来表示头部位姿的问题,提出了一种基于深度学习和四元数的头部位姿估计方法,以四元数来表示头部位姿,该方法能够融合神经网络中不同阶段的输出。本发明可以实现通过单幅图像的回归模型就能够估计出人的头部的姿态信息,利用了神经网络不同阶段的特征信息,通过多个阶段的融合提高了头部位姿估计的精确度。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度学习的电子元件计数及定位方法,包括如下步骤:
步骤A:选取包含头部位姿的公开数据集,对数据集中的每一张图像,通过人脸检测的方法将头部区域分割出来,并将头部位姿分别以欧拉角和四元数表示,以欧拉角和四元数表示的位姿作为标签,对数据集进行预处理,并数据集其划分为训练集、验证集和测试集;
步骤B:搭建具有若干个阶段的头部位姿估计神经网络模型,该头部位姿估计神经网络模型的每个阶段均得到一个四元数,头部位姿估计神经网络模型的最后输出为一个代表由网络模型每个阶段得到的四元数形成的组合旋转的四元数;
步骤C:将训练集和验证集输入至搭建的头部位姿估计神经网络模型中进行训练,得到头部位姿估计模型;
步骤D:利用训练得到的头部位姿估计模型对测试集进行测试,得到测试集中表示每个样本头部位姿的四元数,并将该四元数通过转换关系转换为欧拉角,通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。
所述步骤B的具体步骤如下:
步骤B01:头部位姿估计神经网络模型选取卷积层加池化层结构,根据网络的深度划分为若干个阶段,将每个阶段得到的特征通过一个具有4个神经元的全连接层,并将这4个神经元的输出结果进行归一化处理,得到模长为1的单位四元数q;
步骤B02:将每个阶段的四元数视为一个旋转,每后一个阶段的四元数表示的旋转是在前一个阶段旋转基础上进行的微调;头部位姿估计神经网络模型的最后输出为一个代表由网络每个阶段得到的四元数形成的组合旋转的四元数,其可以表示为其中S为阶段数,“·”为四元数之间的点乘运算。
所述步骤C的具体步骤如下:
步骤C01:对步骤B中所搭建的头部位姿估计神经网络模型进行训练时所用损失函数为其中N代表训练集中样本数量,qpred为神经网络最终输出的四元数,qtrue为样本标签四元数;
步骤C02:对于将数据集经过预处理后得到的训练集和验证集,将其输入至搭建的头部位姿估计神经网络模型中,进行前向计算和反向传播训练神经网络,优化神经网络参数,最终得到头部位姿估计模型。
所述步骤D的具体步骤如下:
步骤D01:将测试集中的每一个样本输入步骤C中训练得到的头部位姿估计模型,得到测试集中表示每个样本头部位姿的四元数;
步骤D02:利用四元数和欧拉角之间的转换关系,将步骤D01中得到的四元数转换为欧拉角;
步骤D03:通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。
与现有技术相比,本发明具有以下优点:
第一,本发明使用深度学习方法利用单张图像进行头部位姿估计,不需要例如关键点、深度、时间等其他额外信息,能够通过神经网络模型直接得到头部姿态;
第二,本发明利用了神经网络不同阶段的特征信息,通过多个阶段的融合提高了头部位姿估计的精确度;
第三,本发明采用四元数表示头部位姿,可以避免万向锁问题,并且可以进行平滑插值,具有更好的鲁棒性;
第四,本发明采用两个单位四元数之间的测地距离作为损失函数,能够更好地衡量神经网络预测四元数和样本标签四元数之间的差异。
附图说明
图1是本发明方法的整体流程图。
图2a和图2b为两张经过预处理后的头部图像以及所对应的欧拉角和四元数标签的示例。
图3是神经网络的网络结构示意图。
具体实施方式
下面结合附图详细介绍本发明各步骤中的具体细节。
本发明提出了一种基于深度学习的电子元件计数及定位方法,该方法的整个流程如图1所示。
该方法主要包括以下步骤:
步骤A:选取包含头部位姿的公开数据集,对数据集中的每一张图像,通过人脸检测的方法将头部区域分割出来,并将头部位姿分别以欧拉角和四元数表示,以欧拉角和四元数表示的位姿作为标签,对数据集进行预处理,并将其划分为训练集、验证集和测试集,图2a和图2b为两张经过预处理后的头部图像以及所对应的欧拉角和四元数标签的示例;
步骤B:搭建具有若干个阶段的头部位姿估计神经网络模型,该头部位姿估计神经网络模型的每个阶段均得到一个四元数,头部位姿估计神经网络模型的最后输出为一个代表由网络模型每个阶段得到的四元数形成的组合旋转的四元数,图3是神经网络的网络结构;
所述步骤B的具体步骤如下:
步骤B01:头部位姿估计神经网络模型选取卷积层加池化层结构,根据网络的深度划分为若干个阶段,将每个阶段得到的特征通过一个具有4个神经元的全连接层,并将这4个神经元的输出结果进行归一化处理,得到模长为1的单位四元数q;
步骤B02:将每个阶段的四元数视为一个旋转,每后一个阶段的四元数表示的旋转是在前一个阶段旋转基础上进行的微调;头部位姿估计神经网络模型的最后输出为一个代表由网络每个阶段得到的四元数形成的组合旋转的四元数,其可以表示为其中S为阶段数,“·”为四元数之间的点乘运算。
步骤C:将训练集和验证集输入至搭建的头部位姿估计神经网络模型中进行训练,得到头部位姿估计模型;
所述步骤C的具体步骤如下:
步骤C01:对步骤B中所搭建的头部位姿估计神经网络模型进行训练时所用损失函数为其中N代表训练集中样本数量,qpred为神经网络最终输出的四元数,qtrue为样本标签四元数;
步骤C02:对于将数据集经过预处理后得到的训练集和验证集,将其输入至搭建的头部位姿估计神经网络模型中,进行前向计算和反向传播训练神经网络,优化神经网络参数,最终得到头部位姿估计模型。
步骤D:利用训练得到的头部位姿估计模型对测试集进行测试,得到测试集中表示每个样本头部位姿的四元数,并将该四元数通过转换关系转换为欧拉角,通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。
所述步骤D的具体步骤如下:
步骤D01:将测试集中的每一个样本输入步骤C中训练得到的头部位姿估计模型,得到测试集中表示每个样本头部位姿的四元数;
步骤D02:利用四元数和欧拉角之间的转换关系,将步骤D01中得到的四元数转换为欧拉角,四元数和欧拉角之间的转换关系如下:
设四元数为[w,x,y,z],欧拉角为[yaw,pitch,roll],则由四元数到欧拉角的转换关系为:
步骤D03:通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小,计算方法如下:
其中N为测试样本数量,为神经网络对第i个样本的预测头部姿态,/>为第i个样本的真实姿态,MAE为神经网络在测试集上的平均绝对误差。
Claims (3)
1.一种基于深度学习和四元数的头部位姿估计方法,其特征在于:包括如下步骤:
步骤A:选取包含头部位姿的公开数据集,对数据集中的每一张图像,通过人脸检测的方法将头部区域分割出来,并将头部位姿分别以欧拉角和四元数表示,以欧拉角和四元数表示的位姿作为标签,对数据集进行预处理,并将数据集划分为训练集、验证集和测试集;
步骤B:搭建具有若干个阶段的头部位姿估计神经网络模型,该头部位姿估计神经网络模型的每个阶段均得到一个四元数,头部位姿估计神经网络模型的最后输出为一个代表由网络模型每个阶段得到的四元数形成的组合旋转的四元数;
步骤C:将训练集和验证集输入至搭建的头部位姿估计神经网络模型中进行训练,得到头部位姿估计模型;
步骤D:利用训练得到的头部位姿估计模型对测试集进行测试,得到测试集中表示每个样本头部位姿的四元数,并将该四元数通过转换关系转换为欧拉角,通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小;
所述步骤B的具体步骤如下:
步骤B01:头部位姿估计神经网络模型选取卷积层加池化层结构,根据网络的深度划分为若干个阶段,将每个阶段得到的特征通过一个具有4个神经元的全连接层,并将这4个神经元的输出结果进行归一化处理,得到模长为1的单位四元数q;
步骤B02:将每个阶段的四元数视为一个旋转,每后一个阶段的四元数表示的旋转是在前一个阶段旋转基础上进行的微调;头部位姿估计神经网络模型的最后输出为一个代表由网络每个阶段得到的四元数形成的组合旋转的四元数,表示为其中S为阶段数,“·”为四元数之间的点乘运算。
2.根据权利要求1所述的一种基于深度学习和四元数的头部位姿估计方法,其特征在于:所述步骤C的具体步骤如下:
步骤C01:对步骤B中所搭建的头部位姿估计神经网络模型进行训练时所用损失函数为其中N代表训练集中样本数量,qpred为神经网络最终输出的四元数,qtrue为样本标签四元数;
步骤C02:对于将数据集经过预处理后得到的训练集和验证集,将其输入至搭建的头部位姿估计神经网络模型中,进行前向计算和反向传播训练神经网络,优化神经网络参数,最终得到头部位姿估计模型。
3.根据权利要求1所述的一种基于深度学习和四元数的头部位姿估计方法,其特征在于:所述步骤D的具体步骤如下:
步骤D01:将测试集中的每一个样本输入步骤C中训练得到的头部位姿估计模型,得到测试集中表示每个样本头部位姿的四元数;
步骤D02:利用四元数和欧拉角之间的转换关系,将步骤D01中得到的四元数转换为欧拉角;
步骤D03:通过计算该欧拉角与样本标签欧拉角之间的平均绝对误差得到神经网络头部姿态估计的误差大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111523829.6A CN114187360B (zh) | 2021-12-14 | 2021-12-14 | 基于深度学习和四元数的头部位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111523829.6A CN114187360B (zh) | 2021-12-14 | 2021-12-14 | 基于深度学习和四元数的头部位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114187360A CN114187360A (zh) | 2022-03-15 |
CN114187360B true CN114187360B (zh) | 2024-02-06 |
Family
ID=80543628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111523829.6A Active CN114187360B (zh) | 2021-12-14 | 2021-12-14 | 基于深度学习和四元数的头部位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187360B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116880687B (zh) * | 2023-06-07 | 2024-03-19 | 黑龙江科技大学 | 一种基于单目多算法的悬浮触控方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018124211A1 (de) * | 2017-10-06 | 2019-04-11 | Nvidia Corporation | Lernbasierte Kameraposenschätzung von Bildern einer Umgebung |
WO2019192172A1 (zh) * | 2018-04-04 | 2019-10-10 | 歌尔股份有限公司 | 一种姿态预测方法、装置和电子设备 |
CN112651437A (zh) * | 2020-12-24 | 2021-04-13 | 北京理工大学 | 一种基于深度学习的空间非合作目标位姿估计方法 |
CN113034581A (zh) * | 2021-03-15 | 2021-06-25 | 中国空间技术研究院 | 基于深度学习的空间目标相对位姿估计方法 |
-
2021
- 2021-12-14 CN CN202111523829.6A patent/CN114187360B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018124211A1 (de) * | 2017-10-06 | 2019-04-11 | Nvidia Corporation | Lernbasierte Kameraposenschätzung von Bildern einer Umgebung |
WO2019192172A1 (zh) * | 2018-04-04 | 2019-10-10 | 歌尔股份有限公司 | 一种姿态预测方法、装置和电子设备 |
CN112651437A (zh) * | 2020-12-24 | 2021-04-13 | 北京理工大学 | 一种基于深度学习的空间非合作目标位姿估计方法 |
CN113034581A (zh) * | 2021-03-15 | 2021-06-25 | 中国空间技术研究院 | 基于深度学习的空间目标相对位姿估计方法 |
Non-Patent Citations (2)
Title |
---|
桑高丽 ; 陈虎 ; 赵启军 ; .一种基于深度卷积网络的鲁棒头部姿态估计方法.四川大学学报(工程科学版).2016,(第S1期),全文. * |
雷宇田 ; 杨嘉琛 ; 满家宝 ; 奚萌 ; .自适应航天器态势分析系统.宇航总体技术.2020,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114187360A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
CN113205466B (zh) | 一种基于隐空间拓扑结构约束的残缺点云补全方法 | |
CN108898063B (zh) | 一种基于全卷积神经网络的人体姿态识别装置及方法 | |
CN109086706B (zh) | 应用于人机协作中的基于分割人体模型的动作识别方法 | |
CN112489083B (zh) | 基于orb-slam算法的图像特征点跟踪匹配方法 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN113139996B (zh) | 一种基于三维点云几何特征学习的点云配准方法及系统 | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN111368759B (zh) | 基于单目视觉的移动机器人语义地图构建系统 | |
CN112560648B (zh) | 一种基于rgb-d图像的slam方法 | |
CN111797692B (zh) | 一种基于半监督学习的深度图像手势估计方法 | |
CN111709268B (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN111695523B (zh) | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 | |
CN110059597B (zh) | 基于深度相机的场景识别方法 | |
CN114187360B (zh) | 基于深度学习和四元数的头部位姿估计方法 | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN117252928B (zh) | 用于电子产品模块化智能组装的视觉图像定位系统 | |
CN113255429B (zh) | 一种视频中人体姿态估计与跟踪方法及系统 | |
CN111626417B (zh) | 一种基于无监督深度学习的闭环检测方法 | |
CN112069979A (zh) | 一种实时动作识别人机交互系统 | |
CN110705355A (zh) | 一种基于关键点约束的人脸姿态估计方法 | |
CN115331301A (zh) | 一种基于Transformer的6D姿态估计方法 | |
CN112396089B (zh) | 基于lfgc网络和压缩激励模块的图像匹配方法 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN113486718A (zh) | 一种基于深度多任务学习的指尖检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |