CN115147899A - 基于标签分布和有监督空间变换网络的头部姿态估计方法 - Google Patents

基于标签分布和有监督空间变换网络的头部姿态估计方法 Download PDF

Info

Publication number
CN115147899A
CN115147899A CN202210758704.XA CN202210758704A CN115147899A CN 115147899 A CN115147899 A CN 115147899A CN 202210758704 A CN202210758704 A CN 202210758704A CN 115147899 A CN115147899 A CN 115147899A
Authority
CN
China
Prior art keywords
network
head
label
transformation
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210758704.XA
Other languages
English (en)
Inventor
徐鲁辉
甘炎灵
夏海英
刘干
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202210758704.XA priority Critical patent/CN115147899A/zh
Publication of CN115147899A publication Critical patent/CN115147899A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于标签分布和有监督空间变换网络的头部姿态估计方法,包括如下步骤:步骤1,数据预处理;步骤2,构建有监督的空间变换网络模块;步骤3,将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中,得到改进MobileNetV3的网络结构;步骤4,网络的损失函数设计;步骤5:头部姿态估计评价指标设计。这种方法可以更好的发挥各自任务分支的优势,方便有效,易于实际应用,还可以实现对头部姿态的快速、准确估计,鲁棒性强。

Description

基于标签分布和有监督空间变换网络的头部姿态估计方法
技术领域
本发明属于模式识别领域,具体是一种基于标签分布和有监督空间变换网络的头部姿态估计方法。
背景技术
头部姿态是人类一种重要的非语言沟通方式,它传达人的内心状态和行为模式的丰富信息。当前,头部姿态估计已经成为人工智能领域中的基础技术,在视线检测、社会关系估计、意图估计、智能控制等应用中起着重要作用。随着智能化进程的加快,头部姿态估计技术开始受到越来越广泛的关注。头部姿态由人的头部在三维空间中的运动变化产生,相应的角度标签具有连续的特性。所谓头部姿态估计,指计算机利用算法或模型对输入的头部图像进行自动化处理和分析,从而判断出人的头部在三维空间中的姿态,即pitch,yaw,roll三种角度,分别代表上下、左右、平面内三个维度上转动的角度。从实际应用中来看,在这三个维度上的角度中,估计pitch和yaw角度相对于roll角度来说应用更为广泛,且相对较难。传统的头部姿态估计技术往往基于先验模型,比如PnP模型、形状模型等。比如,吴彰鹏等在公开号为CN113901884A的中国专利中,设计的头部姿态估计方法先获取轮廓特征点信息,然后和预设的人脸形状模板匹配,将匹配度最高的模板的姿态信息作为人脸图像的估计角度。杨帆等在公开号为CN114360031A以及王臣豪等在公开号为CN113569653A的中国专利中,都是以关键点信息作为人脸的表示,完成头部姿态估计模型的建立和优化。上述技术首先要检测面部特征点,然而,面部特征点检测本身是一个困难的任务,特别是在头部转动角度过大时,面部特征点甚至会缺失。因此,在特征点检测技术基础上进行头部姿态估计会具有很大的局限性,且鲁棒性差。当前,也发展了很多基于深度学习的先进技术。比如,苏生等在公开号为CN114220158A的中国专利中,设计了融合多尺度特征的多任务网络。该方法在低层网络中提取轮廓特征,在高层网络中提取眼睛和嘴巴的特征,最后融合多尺度的特征进行回归预测。然而,这些基于深度架构的方法通常使用硬标签作为监督信息来驱动模型学习人头部姿态的判断能力。硬标签作为离散的标注信息,无法描述头部姿态的连续特性,使用其作为监督会限制模型的学习能力。并且上述方法均未考虑到roll、pitch和yaw三个角度估计任务的难度兼容性问题,未采取相应的措施来充分探索与利用这一特性以实现头部姿态估计性能的提升。本发明提出基于标签分布和有监督空间变换网络的头部姿态估计方法,避免了基于面部特征点方法的缺点,采用深度学习网络实现输入图像到头部姿态的端到端估计,并且从应用层面上综合考虑roll角度和另外两个角度之间的关系,设计的网络通过引入空间变换模块,可实现roll角度和另外两个角度之间的渐进解耦。对于roll角度,采用回归任务学习;对于pitch和yaw角度,采用基于标签分布的分类任务来监督。最终,可以有效兼容不同角度估计任务的难度差异,同时充分发挥和利用各任务分支的优势,来促进总体任务的性能提升。
发明内容
本发明的目的是针对现有技术中存在的不足,而提供一种基于标签分布和有监督空间变换网络的头部姿态估计方法。这种方法可以更好的发挥各自任务分支的优势,方便有效,易于实际应用,还可以实现对头部姿态的快速、准确估计,鲁棒性强。
实现本发明目的的技术方案是:
基于标签分布和有监督空间变换网络的头部姿态估计方法,包括如下步骤:
步骤1,数据预处理:选取包含头部姿态标签的公共数据集,通过人脸检测器将公共数据集中每一张图像中的头部区域裁剪出来,然后把公共数据集划分为训练集和测试集,分别用于头部姿态估计模型的优化学习和性能评估,为训练集中的每个头部姿态角度构造标签分布,使用构造的标签分布作为数据集标签,用作头部姿态估计模型的监督信息,标签分布构造详细过程如下:考虑到头部姿态角度具有连续性,相邻头部姿态的角度越相似,距离越远的头部姿态的角度差距越大,使用高斯分布函数来描述头部姿态角度,使用二维高斯分布构造pitch和yaw姿态角度的标签分布,给定一个元组
Figure BDA0003723539590000021
其中x表示一幅图像或者一个特征矢量,
Figure BDA0003723539590000022
表示对应的头部姿态,该样本对应的标签分布通过下面的高斯分布函数来确定:
Figure BDA0003723539590000023
其中∑是协方差矩阵,Z是标准化因子,以确保
Figure BDA0003723539590000024
通常将∑设置为
Figure BDA0003723539590000025
其中τ表示头部姿态的离散化粒度;
步骤2,构建有监督的空间变换网络模块:空间变换网络模块包含两部分,第一部分为定位网络,用于学习相似变换参数,定位网络中的参数是空间变换网络需要训练的参数Θ,使用头部姿态的标签roll角度来监督该部分的训练;第二部分就是网格生成器与采样器,有了第一部分学习到的变换参数,网格生成器进行基于预测的roll角度的空间变换,以输出特征图的所有坐标点为自变量,以Θ为参数做一个矩阵运算来实现空间变换,找到与其对应的输入特征图上的坐标点,网格生成器的计算公式如下:
Figure BDA0003723539590000031
其中xi和yi表示第i幅特征图中像素的位置,上标s表示输入特征图,上标t表示输出特征图,相似变换操作包含有旋转、平移和缩放,其对应的变换矩阵为:
Figure BDA0003723539590000032
其中,θ为旋转角度,tx和ty为平移矢量,a是缩放尺度,因此空间变换网络模块中的变换公式为:
Figure BDA0003723539590000033
采样器实现像素的插值,公式如下:
Figure BDA0003723539590000034
其中,U是输入特征图,V是输出特征图,C是通道数,k为插值操作;
步骤3,将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中,得到改进MobileNetV3的网络结构:MobileNetV3结构主要由深度可分离卷积组成,并且还包含SE(Squeeze-and-Excitation)模块,三个空间变换网络模块被逐层添加到MobileNetV3网络中,分别位于第一个卷积块前面、第一个卷积块的后面和最后一个卷积块的前面,以实现渐进式的面内旋转,改进后的网络输入为人脸图像、输出为姿态对应的标签分布,其中图像和特征图经过空间变换网络模块后,对应的尺寸不会发生变化,空间变换网络对图像和特征图进行面内旋转角度的修正,进行不同估计难度任务间的解耦,使网络兼容不同难度的估计任务,将训练集输入到改进的MobileNetV3网络中进行训练,得到一个精确的头部姿态估计模型,头部姿态估计模型具有轻量化的优点,方便部署,可以兼顾到性能和效率;
步骤4,网络的损失函数设计:标签分布描述头部姿态的连续特性,使用其作为监督信息,提升头部姿态估计模型的优化能力,获得更加鲁棒的头部姿态估计结果,使用KL散度来度量两个分布的相似性,定义如下:
Figure BDA0003723539590000035
其中,l是标签分布长度,dj是真实分布中的第j个值,pj是对应预测分布中的第j个值,两个分布越相似,KL散度值越小,反之亦然,两个分布之间的KL散度看作是单个样本对应的损失函数,将该公式扩展到批量大小的训练样本,对应的KL损失函数为:
Figure BDA0003723539590000041
同时使用标签中的roll角度来监督空间变换网络模块的训练,实现相似变换矩阵的学习,使用的损失函数是均方误差损失MSE,通过空间变换网络模块学习到的相似变换矩阵
Figure BDA0003723539590000042
求得旋转的角度θ,求解θ的公式如下:
Figure BDA0003723539590000043
因此,对于组合三个空间变换网络模块的渐进式的面内旋转,MSE损失为:
Figure BDA0003723539590000044
其中,n表示训练样本的数量,θi是第i个样本的标签roll角度值,
Figure BDA0003723539590000045
Figure BDA0003723539590000046
分别表示第一个空间变换模块、第二个空间变换模块以及第三个空间变换模块的预测输出值;
综上所述,头部姿态估计模型的总损失函数设计为:
L=LKL+Lroll
步骤5:头部姿态估计评价指标设计:采用平均绝对误差来度量头部姿态估计性能,计算如下:
Figure BDA0003723539590000047
其中N为待评价的图像数量,即测试集图像数量,yi
Figure BDA0003723539590000048
分别表示真实的和预测的头部姿态。
本技术方案采用深度学习网络实现输入图像到头部姿态的端到端估计,避免了基于面部特征点方法鲁棒性差的缺点,本技术方案构造了可以描述头部姿态连续特性的标签分布作为标签信息,有监督的空间变换网络,可以解除roll角度和另外两个角度之间的耦合关系,提供不同难度估计任务之间兼容性问题的解决方法,从而充分发挥和利用各个任务分支的优势。在进行解耦时,本技术方案在网络的不同层次引入三个空间变换网络模块,实现渐进式的解耦,此外,本技术方案使用轻量化的深度学习网络,方便部署,可以有效兼顾到性能和效率。
使用轻量化网络MobileNetV3,方便有效,易于实际应用,可以实现速对头部姿态的快速、准确估计。
这种方法可以更好的发挥各自任务分支的优势,方便有效,易于实际应用,还可以实现对头部姿态的快速、准确估计,鲁棒性强。
附图说明
图1是实施例中裁剪的头部区域图像和构造的标签分布示意图;
图2a是实施例中有监督空间变换网络模块示意图;
图2b是实施例中输入图片经空间变换网络处理后的结果示例图;
图3是实施例中利用空间变换网络改进的MobileNetV3网络结构图。
具体实施方式
下面结合附图及具体实施例对发明作进一步的详细描述,但不是对本发明的限定。
实施例:
基于标签分布和有监督空间变换网络的头部姿态估计方法,包括如下步骤:
步骤1,数据预处理:选取包含头部姿态标签的公共数据集,通过人脸检测器MTCNN将公共数据集中每一张图像中的头部区域裁剪出来,归一化为224x224大小,然后把公共数据集划分为训练集和测试集,分别用于头部姿态估计模型的优化学习和性能评估,为每个头部姿态角度构造标签分布,如图1所示,使用构造的标签分布作为数据集标签,用作头部姿态估计模型的监督信息,标签分布构造详细过程如下:考虑到头部姿态角度具有连续性,相邻头部姿态的角度越相似,距离越远的头部姿态的角度差距越大,使用高斯分布函数来描述头部姿态角度,使用二维高斯分布构造pitch和yaw姿态角度的标签分布,给定一个元组
Figure BDA0003723539590000051
其中x表示一幅图像或者一个特征矢量,
Figure BDA0003723539590000052
表示对应的头部姿态,该样本对应的标签分布通过下面的高斯分布函数来确定:
Figure BDA0003723539590000053
其中∑是协方差矩阵,Z是标准化因子,以确保
Figure BDA0003723539590000054
将∑设置为
Figure BDA0003723539590000055
其中τ表示头部姿态的离散化粒度,本实中根据数据集的特性将τ设置为15。;
步骤2,构建有监督的空间变换网络模块:如图2a所示,原始的空间变换网络使用生成仿射变换进行设计,本例改进性地使用了有监督的相似变换来设计,空间变换网络模块包含两部分,第一部分为定位网络,用于学习相似变换参数,定位网络中的参数是空间变换网络需要训练的参数Θ,使用头部姿态的标签roll角度来监督该部分的训练;第二部分就是网格生成器与采样器,有了第一部分学习到的变换参数,网格生成器进行基于预测的roll角度的空间变换,以输出特征图的所有坐标点为自变量,以Θ为参数做一个矩阵运算来实现空间变换,找到与其对应的输入特征图上的坐标点,网格生成器的计算公式如下:
Figure BDA0003723539590000061
其中xi和yi表示第i幅特征图中像素的位置,上标s表示输入特征图,上标t表示输出特征图,相似变换操作包含有旋转、平移和缩放,其对应的变换矩阵为:
Figure BDA0003723539590000062
其中,θ为旋转角度,tx和ty为平移矢量,a是缩放尺度,因此空间变换网络模块中的变换公式为:
Figure BDA0003723539590000063
采样器实现像素的插值,公式如下:
Figure BDA0003723539590000064
其中,U是输入特征图,V是输出特征图,C是通道数,k为插值操作,本例采用双线性插值操作,示例如图2b所示;
步骤3,将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中,得到改进MobileNetV3的网络结构,如图3所示:MobileNetV3结构主要由深度可分离卷积组成,并且还包含SE模块,三个空间变换网络模块被逐层添加到MobileNetV3网络中,分别位于第一个卷积块前面、第一个卷积块的后面和最后一个卷积块的前面,以实现渐进式的面内旋转,三个空间变换网络模块的输入图像的尺寸分别是224×224×3、112×112×16和7×7×96,改进后的网络输入为人脸图像、输出为姿态对应的标签分布,其中图像和特征图经过空间变换网络模块后,对应的尺寸不会发生变化,空间变换网络对图像和特征图进行面内旋转角度的修正,进行不同估计难度任务间的解耦,使网络兼容不同难度的估计任务,将训练集输入到搭建的网络中进行训练,得到一个精确的头部姿态估计模型,本例头部姿态估计模型的训练环境为:Linux系统、python3.7、内存为32G的GPU以及Pytorch深度学习框架;
步骤4,网络的损失函数设计:标签分布描述头部姿态的连续特性,使用其作为监督信息,提升头部姿态估计模型的优化能力,获得更加鲁棒的头部姿态估计结果,使用KL散度来度量两个分布的相似性,定义如下:
Figure BDA0003723539590000071
其中,l是标签分布长度,dj是真实分布中的第j个值,pj是对应预测分布中的第j个值,两个分布越相似,KL散度值越小,反之亦然,两个分布之间的KL散度看作是单个样本对应的损失函数,将该公式扩展到批量大小的训练样本,对应的KL损失函数为:
Figure BDA0003723539590000072
同时使用标签中的roll角度来监督空间变换网络模块的训练,实现相似变换矩阵的学习,使用的损失函数是均方误差损失MSE,通过空间变换网络模块学习到的相似变换矩阵
Figure BDA0003723539590000073
求得旋转的角度θ,求解θ的公式如下:
Figure BDA0003723539590000074
因此,对于组合三个空间变换网络模块的渐进式的面内旋转,MSE损失为:
Figure BDA0003723539590000075
其中,n表示训练样本的数量,θi是第i个样本的标签roll角度值,
Figure BDA0003723539590000076
Figure BDA0003723539590000077
分别表示第一个空间变换模块、第二个空间变换模块以及第三个空间变换模块的预测输出值;
综上所述,头部姿态估计模型的总损失函数设计为:
L=LKL+Lroll
步骤5:头部姿态估计评价指标设计:采用平均绝对误差来度量头部姿态估计性能,计算如下:
Figure BDA0003723539590000078
其中N为待评价的图像数量,yi
Figure BDA0003723539590000079
分别表示真实的和预测的头部姿态。

Claims (1)

1.基于标签分布和有监督空间变换网络的头部姿态估计方法,其特征在于,包括如下步骤:
步骤1,数据预处理:选取包含头部姿态标签的公共数据集,通过人脸检测器将公共数据集中每一张图像中的头部区域裁剪出来,然后把公共数据集划分为训练集和测试集,分别用于头部姿态估计模型的优化学习和性能评估,为训练集中的每个头部姿态角度构造标签分布,使用构造的标签分布作为数据集标签,用作头部姿态估计模型的监督信息,标签分布构造详细过程如下:考虑到头部姿态角度具有连续性,相邻头部姿态的角度越相似,距离越远的头部姿态的角度差距越大,使用高斯分布函数来描述头部姿态角度,使用二维高斯分布构造pitch和yaw姿态角度的标签分布,给定一个元组
Figure FDA0003723539580000011
其中x表示一幅图像或者一个特征矢量,
Figure FDA0003723539580000012
表示对应的头部姿态,该样本对应的标签分布通过下面的高斯分布函数来确定:
Figure FDA0003723539580000013
其中∑是协方差矩阵,Z是标准化因子,以确保
Figure FDA0003723539580000014
将∑设置为
Figure FDA0003723539580000015
其中τ表示头部姿态的离散化粒度;
步骤2,构建有监督的空间变换网络模块:空间变换网络模块包含两部分,第一部分为定位网络,用于学习相似变换参数,定位网络中的参数是空间变换网络需要训练的参数Θ,使用头部姿态的标签roll角度来监督该部分的训练;第二部分就是网格生成器与采样器,有了第一部分学习到的变换参数,网格生成器进行基于预测的roll角度的空间变换,以输出特征图的所有坐标点为自变量,以Θ为参数做一个矩阵运算来实现空间变换,找到与其对应的输入特征图上的坐标点,网格生成器的计算公式如下:
Figure FDA0003723539580000016
其中xi和yi表示第i幅特征图中像素的位置,上标s表示输入特征图,上标t表示输出特征图,相似变换操作包含有旋转、平移和缩放,其对应的变换矩阵为:
Figure FDA0003723539580000017
其中,θ为旋转角度,tx和ty为平移矢量,a是缩放尺度,因此空间变换网络模块中的变换公式为:
Figure FDA0003723539580000021
采样器实现像素的插值,公式如下:
Figure FDA0003723539580000022
其中,U是输入特征图,V是输出特征图,C是通道数,k为插值操作;
步骤3,将步骤2搭建的空间变换网络模块添加到的轻量化网络MobileNetV3中,得到改进MobileNetV3的网络结构:MobileNetV3结构主要由深度可分离卷积组成,并且还包含SE模块,,三个空间变换网络模块被逐层添加到MobileNetV3网络中,分别位于第一个卷积块前面、第一个卷积块的后面和最后一个卷积块的前面,以实现渐进式的面内旋转,改进后的网络输入为人脸图像、输出为姿态对应的标签分布,其中图像和特征图经过空间变换网络模块后,对应的尺寸不会发生变化,空间变换网络对图像和特征图进行面内旋转角度的修正,进行不同估计难度任务间的解耦,使网络兼容不同难度的估计任务,将训练集输入到改进的MobileNetV3网络中进行训练,得到一个精确的头部姿态估计模型;
步骤4,网络的损失函数设计:标签分布描述头部姿态的连续特性,使用其作为监督信息,提升头部姿态估计模型的优化能力,获得更加鲁棒的头部姿态估计结果,使用KL散度来度量两个分布的相似性,定义如下:
Figure FDA0003723539580000023
其中,l是标签分布长度,dj是真实分布中的第j个值,pj是对应预测分布中的第j个值,两个分布越相似,KL散度值越小,反之亦然,两个分布之间的KL散度看作是单个样本对应的损失函数,将该公式扩展到批量大小的训练样本,对应的KL损失函数为:
Figure FDA0003723539580000024
同时使用标签中的roll角度来监督空间变换网络模块的训练,实现相似变换矩阵的学习,使用的损失函数是均方误差损失MSE,通过空间变换网络模块学习到的相似变换矩阵
Figure FDA0003723539580000025
求得旋转的角度θ,求解θ的公式如下:
Figure FDA0003723539580000026
因此,对于组合三个空间变换网络模块的渐进式的面内旋转,MSE损失为:
Figure FDA0003723539580000031
其中,n表示训练样本的数量,θi是第i个样本的标签roll角度值,
Figure FDA0003723539580000032
Figure FDA0003723539580000033
分别表示第一个空间变换模块、第二个空间变换模块以及第三个空间变换模块的预测输出值;
综上所述,头部姿态估计模型的总损失函数设计为:
L=LKL+Lroll
步骤5:头部姿态估计评价指标设计:采用平均绝对误差来度量头部姿态估计性能,计算如下:
Figure FDA0003723539580000034
其中N为待评价的图像数量,即测试集图像数量,yi
Figure FDA0003723539580000035
分别表示真实的和预测的头部姿态。
CN202210758704.XA 2022-06-30 2022-06-30 基于标签分布和有监督空间变换网络的头部姿态估计方法 Withdrawn CN115147899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210758704.XA CN115147899A (zh) 2022-06-30 2022-06-30 基于标签分布和有监督空间变换网络的头部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210758704.XA CN115147899A (zh) 2022-06-30 2022-06-30 基于标签分布和有监督空间变换网络的头部姿态估计方法

Publications (1)

Publication Number Publication Date
CN115147899A true CN115147899A (zh) 2022-10-04

Family

ID=83411110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210758704.XA Withdrawn CN115147899A (zh) 2022-06-30 2022-06-30 基于标签分布和有监督空间变换网络的头部姿态估计方法

Country Status (1)

Country Link
CN (1) CN115147899A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704097A (zh) * 2023-06-07 2023-09-05 好易购家庭购物有限公司 基于人体姿态一致性和纹理映射的数字化人形象设计方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704097A (zh) * 2023-06-07 2023-09-05 好易购家庭购物有限公司 基于人体姿态一致性和纹理映射的数字化人形象设计方法
CN116704097B (zh) * 2023-06-07 2024-03-26 好易购家庭购物有限公司 基于人体姿态一致性和纹理映射的数字化人形象设计方法

Similar Documents

Publication Publication Date Title
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
Hong et al. Multimodal face-pose estimation with multitask manifold deep learning
CN113205466B (zh) 一种基于隐空间拓扑结构约束的残缺点云补全方法
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN113012122B (zh) 一种类别级6d位姿与尺寸估计方法及装置
Pan et al. Towards better performance and more explainable uncertainty for 3D object detection of autonomous vehicles
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN113158850A (zh) 基于深度学习的船舶驾驶员疲劳检测方法和系统
CN114494594B (zh) 基于深度学习的航天员操作设备状态识别方法
CN115147899A (zh) 基于标签分布和有监督空间变换网络的头部姿态估计方法
CN114170686A (zh) 一种基于人体关键点的屈肘行为检测方法
CN113326932B (zh) 基于物体检测的物体操作指令跟随学习方法及装置
CN114067273A (zh) 一种夜间机场航站楼热成像显著人体分割检测方法
Cai et al. Ccan: Constraint co-attention network for instance grasping
CN116935203A (zh) 一种基于声光融合的潜水员智能监控方法和系统
Lin et al. Robot grasping based on object shape approximation and LightGBM
Chang et al. Multi-view 3D human pose estimation with self-supervised learning
Tran 3D hand pose estimation in point cloud using 3D convolutional neural network on egocentric datasets
Liu et al. Self-supervised learning for specified latent representation
CN112365456B (zh) 基于三维点云数据的变电站设备分类方法
Gao et al. Coarse TRVO: A robust visual odometry with detector-free local feature
Huang et al. Human pose estimation and LSTM-based diver heading prediction for AUV navigation guidance
CN112712061B (zh) 适用于多方向交警指挥手势的识别方法、系统及存储介质
Li et al. Facial feature localisation and subtle expression recognition based on deep convolution neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221004