CN111428619A - 基于有序回归和软标签的三维点云头部姿态估计系统和方法 - Google Patents

基于有序回归和软标签的三维点云头部姿态估计系统和方法 Download PDF

Info

Publication number
CN111428619A
CN111428619A CN202010201707.4A CN202010201707A CN111428619A CN 111428619 A CN111428619 A CN 111428619A CN 202010201707 A CN202010201707 A CN 202010201707A CN 111428619 A CN111428619 A CN 111428619A
Authority
CN
China
Prior art keywords
network module
angle
point cloud
prediction
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010201707.4A
Other languages
English (en)
Other versions
CN111428619B (zh
Inventor
王旭鹏
桑楠
肖仕华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010201707.4A priority Critical patent/CN111428619B/zh
Publication of CN111428619A publication Critical patent/CN111428619A/zh
Application granted granted Critical
Publication of CN111428619B publication Critical patent/CN111428619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于有序回归和软标签的三维点云头部姿态估计系统和方法,系统包括:特征学习网络模块,用于对点云数据进行分层特征提取;预测网络模块,用于将特征学习网络模块得到的特征映射到头姿态角获得角度预测值,并将所述角度预测值和作为标签的头姿态角带入第一损失函数;排序网络模块,用于将头姿态角进行维度划分形成若干子任务、将作为标签的头姿态角与所述子任务之间存在的关系生成软标签、将特征学习网络模块得到的特征进行值预测、将点云数据的值预测和所述软标签带入第二损失函数;网络更新模块。本发明将排序网络模块和预测网络模块的损失相结合,其目的是引入排序网络,从而引导预测网络学习,使得特征提取更加精准,以提高预测网络的精度。

Description

基于有序回归和软标签的三维点云头部姿态估计系统和方法
技术领域
本发明涉及头部姿态估计领域,尤其涉及基于有序回归和软标签的三维点云头部姿态估计系统和方法。
背景技术
稳健的头姿态估计是计算机视觉和计算机图形学中许多问题的基础,在人机交互中有着广泛的应用,例如:VR/AR,驾驶员行为分析等。近年来,利用RGB图像进行头部姿态估计取得了很大的进展,并已成功地应用于受约束的场景。然而,无约束的场景所带来的挑战,如光照变化、较大的位姿变化和更严重的遮挡,使得基于RGB的方法不可靠。此外,使用RGB图像传递面部外观信息被认为是对个人隐私的威胁,这是现代社会关注的主要问题之一,并限制了其进一步应用。
随着三维深度相机的普及,人们提出了基于深度图像的解决方案,并取得了良好的效果。它具有解决基于RGB方法的问题的潜力,因为深度数据捕获场景的几何信息,并且不受光照变化的影响。
传统的方法是计算深度图像和三维模型之间的配准。在现有技术中,在可变形模型的基础上生成一个人特定的三维头部模型,然后用刚性迭代最近邻点(ICP)方法对深度图像进行配准,预测姿态角。考虑到ICP容易失败,初始化能力差,结合ICP引入粒子群优化来寻找头部的可靠部分。为了解决遮挡问题,根据头部模型相对于深度图像的可见性,另外一个现有技术提出了一种基于光线可见性约束的头部姿态正则化方法。
基于深度学习的方法也被引入来解决头部姿态估计的问题。在论文(SankhaS.Mukherjee and Neil Martin Robertson,Deep headpose:Gaze-direction estimationin multimodal video,”IEEE Trans.Multimedia,vol.17,no.11,pp.2094–2107,2015.)中,该问题被表述为人类注视方向的分类,然后由一个使用学习特征的微调回归器给出精确的姿态角。在论文(G.Borghi,M.Fabbri,R.Vezzani,s.calderara,and R.Cucchiara,“Face-from-depth for head pose estimation on depth images,”IEEE Transactionson Pattern Analysis and Machine Intelligence,pp.1–1,2018.)中,设计了一种新型的头部姿态估计深度回归神经网络,该神经网络将头部姿态估计作为三种数据类型的输入,即深度图像,恢复的灰度图像和运动图像。
对于头部姿态估计这一技术领域,现有技术常见的头部姿态估计通常采用全连接直接输出三个预测角度的方式(即硬回归的方式)。但是其均忽略了标签之间具有相关性的这一信息,使得数据识别效果不好。
发明内容
本发明的目的在于克服现有技术的不足,提供基于有序回归和软标签的三维点云头部姿态估计系统和方法,解决现有技术采用硬回归数据识别效果不好的问题。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供基于有序回归和软标签的三维点云头部姿态估计系统,包括:
特征学习网络模块,用于对输入的由深度图像生成的头部点云数据进行分层特征提取;
预测网络模块,用于将特征学习网络模块得到的特征映射到头姿态角获得角度预测值,并将所述角度预测值和作为标签的头姿态角带入第一损失函数;
排序网络模块,用于将头姿态角进行维度划分形成若干子任务、将作为标签的头姿态角与所述子任务之间存在的关系生成软标签、将特征学习网络模块得到的特征进行值预测、将点云数据的值预测和所述软标签带入第二损失函数;
网络更新模块,用于将第一损失函数和第二损失函数按照一定比例进行结合形成总损失函数后,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。
进一步地,所述头姿态角包括俯仰角pitchθp、侧倾角rollθr和偏航角yawθy
进一步地,所述特征学习网络模块包括顺次连接的第一下采样层、第一PointNet层、第二下采样层、第二PointNet层、第三PointNet层。
进一步地,所述的第一损失函数为:
Figure BDA0002419610280000021
式中,
Figure BDA0002419610280000022
分别表示对第i个点云数据的俯仰角、侧倾角、偏航角的预测值,N为点云数据的数量;i表示第i个点云数据。
进一步地,所述将头姿态角进行维度划分形成若干子任务包括:
将位姿变化空间按头姿态角的各个维度进行划分,形成等距区间,包括:
Figure BDA0002419610280000023
Figure BDA0002419610280000024
其中,K为划分的总区间数,j表示第j个区间;
产生三个与相应序数秩相关的分类任务,即
Figure BDA0002419610280000025
进一步地,所述将作为标签的头姿态角与所述子任务之间存在的关系生成软标签包括:
对于某一点云数据xi,具有标签
Figure BDA0002419610280000026
其中i表示第i个点云数据;其中
Figure BDA0002419610280000027
被编码为1×K维的向量
Figure BDA0002419610280000028
即生成软标签,其中向量
Figure BDA0002419610280000029
的元素
Figure BDA00024196102800000210
定义如下:
Figure BDA0002419610280000031
式中,φ(·,·)表示描述类之间相似性的度量损失函数;向量
Figure BDA0002419610280000032
Figure BDA0002419610280000033
采用相同的方式进行定义。
进一步地,所述将所述软标签和点云数据的值预测带入第二损失函数包括:
所述排序网络模块包含三个结构一致的分类网络,分别对应俯仰角、侧倾角和偏航角;三个分类网络分别输出第i个点云数据的值预测
Figure BDA0002419610280000034
所述的第二损失函数为:
Figure BDA0002419610280000035
式中,N为点云数据的数量。
进一步地,所述总损失函数为:
L=Lpred+λLrank
式中,Lpred为第一损失函数,Lrank为第二损失函数,λ为控制排序网络模块在网络训练期间的贡献参数。
本发明的第二方面,提供基于有序回归和软标签的三维点云头部姿态估计方法,采用所述的系统;所述方法包括训练步骤和姿态估计步骤;所述训练步骤包括以下子步骤:
将训练样本输入特征学习网络模块进行特征提取;
预测网络模块和排序网络模块均将接收特征学习网络模块的输入,并输出至网络更新模块;
网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新;
所述姿态估计步骤包括以下子步骤:
将待姿态估计的点云数据输入至特征学习网络模块进行特征提取;
预测网络模块将特征学习网络模块得到的特征映射到头姿态角获得角度预测值并输出,得到姿态估计结果。
进一步地,所述网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新包括:
采用多种不同比例的第一损失函数和第二损失函数的总损失函数,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新;从而选择效果最好的比例进行姿态估计步骤;
和/或:
所述将头姿态角进行维度划分形成若干子任务包括:
采用多种区间划分方式,将头姿态角进行维度划分形成若干子任务;从而选择效果最好的区间划分方式进行为姿态估计步骤。
本发明的有益效果是:
本申请地系统由特征学习网络模块、排序网络模块、预测网络模块、网络更新模块四个模块组成。其中,头部点云数据表示可以从具有相机内部参数的深度图像生成。特征学习网络模块从点云中提取特性,之后采用排序网络模块和预测网络模块。该排序网络模块将头部姿态估计问题转化为一个带有软标签的有序回归问题,并通过分类网络的集成来解决。预测网络模块利用所学习的特征来预测头姿态角。网络更新模块将预测网络模块和排序网络模块的损失函数进行按照一定比例进行结合形成总损失函数后,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。
排序网络模块和预测网络模块损失相结合目的是引入排序网络,从而引导预测网络学习。当两者结合,在训练时,是会更新网络所有节点的,理想情况是:使得排序网络模块的全连接层权重能更好的学习标签相关性,同时引入标签的关联微调特征提取网络,使得特征提取能够更加精准,从而提高预测网络的精度。
附图说明
图1为本发明一示例性实施例公开的系统框图;
图2为本发明一实例性实施例公开的参数选择示意图;
图3为本发明一实例性实施例公开的本申请在Biwi数据集上的表现示意图;
图4为本发明一实例性实施例公开的本申请在Pandora数据集上的表现示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,图1示出了一示例性实施例提供基于有序回归和软标签的三维点云头部姿态估计系统,包括:
特征学习网络模块,用于对输入的由深度图像生成的头部点云数据进行特征提取;
预测网络模块,用于将特征学习网络模块得到的特征映射到头姿态角获得角度预测值,并将所述角度预测值和作为标签的头姿态角带入第一损失函数;
排序网络模块,用于将头姿态角进行维度划分形成若干子任务、将作为标签的头姿态角与所述子任务之间存在的关系生成软标签、将特征学习网络模块得到的特征进行值预测、将点云数据的值预测和所述软标签带入第二损失函数;
网络更新模块,用于将第一损失函数和第二损失函数按照一定比例进行结合形成总损失函数后,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。
具体地,对于任意一示例性实施例,给定一个头部的点云数据xi,头部姿态估计的目标是预测摄像机参考系中的头部姿态角θi。在本申请中,采用欧拉角表示。它被表示为θ=(θpry),其中,θpry分别表示俯仰角(pitch),侧倾角(roll)和偏航角(yaw)。
对于训练阶段,定义{(xii),i∈[1,N]}作为一组训练样本,其中N表示总数。本示例性实施例提出的头部姿态估计框架如图1所示:
由特征学习网络模块、排序网络模块、预测网络模块、网络更新模块四个模块组成。其中,头部点云数据表示可以从具有相机内部参数的深度图像生成。特征学习网络模块从点云中提取特性,之后采用排序网络模块和预测网络模块。该排序网络模块将头部姿态估计问题转化为一个带有软标签的有序回归问题,并通过分类网络的集成来解决。预测网络模块利用所学习的特征来预测头姿态角。网络更新模块将预测网络模块和排序网络模块的损失函数进行按照一定比例进行结合形成总损失函数后,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。
在完成训练后,进行头部姿态估计,采用的是特征学习网络模块和预测网络模块,而不需要采用排序网络模块和网络更新模块。
更优地,在一示例性实施例中,所述头姿态角包括俯仰角pitchθp、侧倾角rollθr和偏航角yawθy
更优地,在一示例性实施例中,所述特征学习网络模块包括顺次连接的第一下采样层、第一PointNet层、第二下采样层、第二PointNet层、第三PointNet层。
具体地,特征学习网络模块利用了PointNet++体系结构从点云中提取特征,因为它是简洁的,并且已经被证明能够近似定义在点集上的任意连续函数。在基本的PointNet体系结构中,每个点通过多层感知器嵌入到一个特征空间中。最大池化层用于将点功能聚合到点云的全局描述中。为了捕获点云的局部几何信息,提出了一种面向点云的PointNet++体系结构。在本示例性实施例中,由三个抽象层(PointNet层)组成,其中,在前两次抽象操作前每个PointNet层都向下采样点(实现了分层特征提取),并使用PointNet模型描述点及其邻近点。邻域尺度的增加被用来编码每个点的多尺度上下文信息。点云的全局描述是在最后一个抽象层中使用额外的点网体系结构生成的。
如图1所示,本示例性实施例使用了一个具有三个抽象层次的PointNet++体系结构,它以一个包含N个点的点集作为输入。D设为3,因为只使用点坐标。网络样本在前两层中N1=512,N2=128,分别提取了维度C1=128,C2=256的特征。相邻点的数量一致设置为k=64进行点描述。点云是由一个1024维的特征向量来描述的。
其中,D表示输入点云数据的维度,例如数据输入维度:B×N×D,B为batch size,N为最初输入的点数,D为每个点的三维空间坐标(x,y,z)。N1,N2如图1所示,分别表示前两层下采样的特征点数目。C1,C2如图1所示,分别表示每个特征点经过抽象层,获得的特征向量的维度。
更优地,在一示例性实施例中,所述的第一损失函数为:
Figure BDA0002419610280000061
式中,
Figure BDA0002419610280000062
分别表示对第i个点数据的俯仰角、侧倾角、偏航角的预测值,N为点数据的数量;i表示第i个点云数据。
具体地,对于预测网络模块,其作用是直接预测姿态角度。在其中一示例性实施例中,预测网络通过三个连续的全连接层(即图1中的FC Layers)将学习到的特征映射到头姿态角。
Figure BDA0002419610280000071
分别表示对第i个点云数据的俯仰角、侧倾角、偏航角的预测。之后预测网络模块利用L2回归损失Lpred,即上式。
更优地,在一示例性实施例中,所述将头姿态角进行维度划分形成若干子任务包括:
将位姿变化空间按头姿态角的各个维度进行划分,形成等距区间,包括:
Figure BDA0002419610280000072
Figure BDA0002419610280000073
其中,K为划分的总区间数,j表示第j个区间;
产生三个与相应序数秩相关的分类任务,即
Figure BDA0002419610280000074
在现有技术中,分类网络提供属于某个类的输入实例的可能性。对于具有独立类的训练样本,通常通过将类标签编码到一个热向量中来进行分类。硬标签将属于一个类的实例的概率设置为零,真实值除外。另一方面,对于具有自然顺序的类,可以将类标签转换为域上的概率分布。这种可能性可以用它的类间距离来表示,一个类越接近真实值,它的概率就越高。与硬标签相比,软标签表示了标签中包含的更丰富的信息。因此在此基础上,本示例性实施例提出将头部姿态估计问题表述为一个带有软标签的有序回归问题。
具体地,对于头部姿态估计这一技术领域,常见的头部姿态估计采用全连接直接输出三个预测角度的方式(硬回归)。但是考虑到标签之间具有相关性,上述方式(即硬回归)忽略了这一信息。因此在本示例性实施例中,使用排序网络模块的目的为:通过该网络学习标签的相关性,促进特征学习网络的神经节点的权重更新,可以理解为排序网络模块引导预测网络模块进行回归预测。
本示例性实施例的排序网络模块解决了传统分类网络的问题。首先将将位姿变化空间按头姿态角的各个维度进行划分,形成等距区间,包括:
Figure BDA0002419610280000075
Figure BDA0002419610280000076
其中,K为划分的总区间数,j表示第j个区间;产生三个与相应序数秩相关的分类任务,即
Figure BDA0002419610280000077
在一示例性实施例中,可以理解为按角度值划分,例如:对数据集给的标签,俯仰角Pitch的角度可能取值范围为[-90,90],按等距划分为6个等距区间(bins),即{[-90,-60],[-60,-30],...,[60,90]}。而
Figure BDA0002419610280000078
表示上面这个K=6的bins集合,
Figure BDA0002419610280000079
表示[-90,-60](任务1),可以理解为将pitch角标签分成了6个分类子任务。
Figure BDA00024196102800000710
与上述相同,只是分别表示不同姿态角,即侧倾角和偏航角。需要说明的是,j也可以表示为第j个任务。
更优地,在一示例性实施例中,所述将作为标签的头姿态角与所述子任务之间存在的关系生成软标签包括:
对于某一点云数据xi,具有标签
Figure BDA0002419610280000081
其中i表示第i个点云数据;其中
Figure BDA0002419610280000082
被编码为1×K维的向量
Figure BDA0002419610280000083
即生成软标签,其中向量
Figure BDA0002419610280000084
的元素
Figure BDA0002419610280000085
定义如下:
Figure BDA0002419610280000086
式中,φ(·,·)表示描述类之间相似性的度量损失函数;向量
Figure BDA0002419610280000087
Figure BDA0002419610280000088
采用相同的方式进行定义。
具体地,上述公式是通过输入标签
Figure BDA0002419610280000089
与每个任务
Figure BDA00024196102800000810
之间存在关系生成一个软标签的过程。以上述K=6为例,加入
Figure BDA00024196102800000811
那么将生成一个1×6的向量,该向量满足第一个元素值最大,离真实区间越远值越小,且向量和为1的一个概率分布。
在又一示例性实施例中,φ(·,·)使用了欧式距离。
更优地,在一示例性实施例中,所述将所述软标签和点云数据的值预测带入第二损失函数包括:
所述排序网络模块包含三个结构一致的分类网络,分别对应俯仰角、侧倾角和偏航角;三个分类网络分别输出第i个点云数据的值预测
Figure BDA00024196102800000812
所述的第二损失函数为:
Figure BDA00024196102800000813
式中,N为点云数据的数量。
具体地,如图1所示,该排序网络模块包含三个结构一致的分类网络,分别对应俯仰角、侧倾角和偏航角。每个分类网络由三个完全连通的层(三个全连接层,FC Layers)组成,大小分别为512、256、K,表示
Figure BDA00024196102800000814
作为第i个点云数据的值预测。排序网络的损失函数Lrank利用交叉熵定义,如上式所示。
因此综上,相对于硬标签的有序回归,本示例性实施例提出的基于软标签的方法尊重了标签分布的连续性,充分利用了标签中包含的有序信息。
更优地,在一示例性实施例中,所述总损失函数为:
L=Lpred+λLrank
式中,Lpred为第一损失函数(预测网络模块输出),Lrank为第二损失函数(排序网络模块输出),λ为控制排序网络模块在网络训练期间的贡献参数。
具体地,排序网络模块和预测网络模块损失相结合目的是引入排序网络,从而引导预测网络学习,由于排序网络模块在整个网络学习中,只是起到引导学习的作用。当两者结合,在训练时,是会更新网络所有节点的,理想情况是:使得排序网络模块的全连接层权重能更好的学习标签相关性,同时引入标签的关联微调特征提取网络,使得特征提取能够更加精准,从而提高预测网络的精度。而训练网络收敛后,即进行后期测试和实际姿态估计中时,排序网络不被使用。
更为具体地,对于不使用排序网络模块的硬回归,就好比直接让整个网络在[-90,90]区间进行回归,猜出姿态角度(假如真实值是10度);而使用排序网络引导,有了引导,就好比在10∈[0,30]区间进行回归,猜出姿态角度。由传统的回归问题,转为分类+回归问题处理,这样精度也更高。
另外,总损失函数常用可以采用常规梯度下降方法-Adam优化器对整个网络进行参数更新。
本申请的又一示例性实施例,提供基于有序回归和软标签的三维点云头部姿态估计方法,采用上述任意示例性实施例所述的系统;所述方法包括训练步骤和姿态估计步骤;所述训练步骤包括以下子步骤:
将训练样本输入特征学习网络模块进行特征提取;
预测网络模块和排序网络模块均将接收特征学习网络模块的输入,并输出至网络更新模块;
网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新;
所述姿态估计步骤包括以下子步骤:
将待姿态估计的点云数据输入至特征学习网络模块进行特征提取;
预测网络模块将特征学习网络模块得到的特征映射到头姿态角获得角度预测值并输出,得到姿态估计结果。
更优地,在一示例性实施例中,所述网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新包括:
采用多种不同比例的第一损失函数和第二损失函数的总损失函数,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新;从而选择效果最好的比例进行姿态估计步骤;
和/或:
所述将头姿态角进行维度划分形成若干子任务包括:
采用多种区间划分方式,将头姿态角进行维度划分形成若干子任务;从而选择效果最好的区间划分方式进行为姿态估计步骤。
具体地,下述内容为进行了一系列的实验来测试本申请提出的系统和方法的有效性。在Biwi Head Pose数据集(Gabriele Fanelli,Matthias Dantone,Juergen Gall,Andrea Fossati,and Luc Van Gool,“Random forests for real time 3d faceanalysis,”International Journal of Computer Vision,vol.101,no.3,pp.437–458,2013.)测试网络消融的影响以及参数的影响。在Biwi Head Pose数据集和Pandora数据集上,与先进的技术进行了比较(Guido Borghi,Marco Venturelli ,Roberto Vezzani,andRita Cucchiara,“Poseidon:Face-from-depth for driver pose estimation,”in2017IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,2017,pp.5494–5503.)。所有数据集都只使用深度图像。通过头部姿态角的平均绝对误差(μ)和标准差(σ)来评估性能。
一、数据集
Biwi数据集是使用Kinect传感器创建的,由24个序列组成,共15K帧。每一帧都有一个RGB图像和一个深度图像。首先给出了真实头姿态和相机固有的参数。序列11、12分别用于检测,其余序列用于训练。
Pandora数据集是为汽车环境下的头部定位和姿态估计任务而创建的。它由110个序列组成,10个雄性和12名女性记录了5次。每一帧都提供RGB图像和深度图像,以及真实标签。序列10、14、16、20分别作为测试集和训练集。
二、参数学习
在Biwi数据集上对头部点网进行了消融研究,以检验排序网络的有效性,并研究参数λ和K的影响。结果见图2。从图2可以看出,排序网络模块的部署大大提高了网络的性能。例如λ=0表示排序网络模块没有被定义,此时俯仰角、侧倾角、偏航角的平均绝对误差(μ)和标准差(σ)达到3.0±1.7,2.2±1.7,2.8±1.8。这是因为头姿态变化的非平稳特性使得点云与姿态角通过回归直接映射很难收敛。因此,我们提出的排序网络模块将类标签划分为区间,并将这些标签编码为域上的概率分布,从而引导网络提取有区别的特征进行位姿预测。
此外,随着λ从0.1增加到10,排序网络模块对整个网络的贡献也越来越大,准确率也大大降低。这是因为排序网络模块提供了头部姿势的粗略估计。它被部署来促进培训过程中的特性学习。随着K从5增加到20,性能逐渐下降。由于非平稳特性,面部特征在小的角度间隔内几乎是相同的。较大的K值会在较小的区间内产生排序,并在特征学习过程中产生歧义。
基于上述测试,我们将网络所用的参数λ设为0.1,K设为5作为最终的使用结果。
三、定量分析
在本节中,在Biwi数据集上比较了本申请和各种数据类型的最新方法,包括采用RGB图像的QuatNet方法(Lu Sheng,Jianfei Cai,Tat-Jen Cham,Vladimir Pavlovic,andKing Ngi Ngan,“Visibility constrained generative model for depth-based 3dfacial pose tracking,”IEEE Trans.PatternAnal.Mach.Intell.,vol.41,no.8,pp.1994–2007,2019.),采用深度图的随机森林(RF)(Gabriele Fanelli,MatthiasDantone,Juergen Gall,Andrea Fossati,and Luc Van Gool,“Random forests for realtime 3d face analysis,”International Journal ofComputer Vision,vol.101,no.3,pp.437–458,2013.)和粒子群优化(PSO)(Gregory P.Meyer,Shalini Gupta,Iuri Frosio,Dikpal Reddy,and Jan Kautz,“Robust model-based 3d head pose estimation,”inIEEE International Conference on Computer Vision,Santiago,Chile,December 7-13,2015,2015,pp.3649–3657.),和POSEidon网络(G.Borghi,M.Fabbri,R.Vezzani,s.calderara,and R.Cucchiara,“Face-from-depth for head pose estimation ondepth images,”IEEE Transactions on Pattern Analysis and Machine Intelligence,pp.1–1,2018.)采用深度图像,从深度图恢复人脸灰度图(FfD)和运动图像(MI)。在Pandora数据集上,我们的方法在不同的输入条件下与POSEidon进行了比较,获得了迄今为止最好的性能。结果分别见图3和图4。
从图3可以看出,我们提出的头部点网络优于基于RGB的方法,并且在具有深度图像的方法中取得了最好的性能。RGB图像是从三维空间到二维图像的投影,丢失了三维头部姿态估计的重要信息。结果表明,POSEidon网络的平均绝对误差分别达到6.0、4.2和4.9,是本申请的3倍。此外,现有的基于深度的方法,如随机森林,将二维图像的方法应用于三维头部姿态估计。没有考虑深度数据的特性,导致性能显著下降。与此相反,我们的头点网处理点云数据,并为三维头姿态估计提取鉴别特征。请注意,POSEidon在Biwi数据集上实现了更好的性能。这是因为POSEdion,FfD和MI作为深度图像之外的输入,并在数据集上进行了高度优化。
如图4所示,本申请在单输入下的性能优于POSEidon。在Pandora数据集上,俯仰角、侧倾角和偏航角分别为6.1±5.6、4.3±4.5、8.6±9.8,与输入完整的POSEidon相比,有明显的性能改进,俯仰角的精度例外。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:包括:
特征学习网络模块,用于对输入的由深度图像生成的头部点云数据进行分层特征提取;
预测网络模块,用于将特征学习网络模块得到的特征映射到头姿态角获得角度预测值,并将所述角度预测值和作为标签的头姿态角带入第一损失函数;
排序网络模块,用于将头姿态角进行维度划分形成若干子任务、将作为标签的头姿态角与所述子任务之间存在的关系生成软标签、将特征学习网络模块得到的特征进行值预测、将点云数据的值预测和所述软标签带入第二损失函数;
网络更新模块,用于将第一损失函数和第二损失函数按照一定比例进行结合形成总损失函数后,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新。
2.根据权利要求1所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述头姿态角包括俯仰角pitchθp、侧倾角rollθr和偏航角yawθy
3.根据权利要求1所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述特征学习网络模块包括顺次连接的第一下采样层、第一PointNet层、第二下采样层、第二PointNet层、第三PointNet层。
4.根据权利要求2所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述的第一损失函数为:
Figure FDA0002419610270000011
式中,
Figure FDA0002419610270000012
分别表示对第i个点云数据的俯仰角、侧倾角、偏航角的预测值,N为点云数据的数量;i表示第i个头部点云数据。
5.根据权利要求2所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述将头姿态角进行维度划分形成若干子任务包括:
将位姿变化空间按头姿态角的各个维度进行划分,形成等距区间,包括:
Figure FDA0002419610270000013
Figure FDA0002419610270000014
其中,K为划分的总区间数,j表示第j个区间;
产生三个与相应序数秩相关的分类任务,即
Figure FDA0002419610270000015
6.根据权利要求5所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述将作为标签的头姿态角与所述子任务之间存在的关系生成软标签包括:
对于某一点云数据xi,具有标签θi p,
Figure FDA0002419610270000016
θi y,其中i表示第i个点云数据;其中θi p被编码为1×K维的向量
Figure FDA0002419610270000021
即生成的软标签,其中向量
Figure FDA0002419610270000022
的元素
Figure FDA0002419610270000023
定义如下:
Figure FDA0002419610270000024
式中,φ(·,·)表示描述类之间相似性的度量损失函数;向量
Figure FDA0002419610270000025
Figure FDA0002419610270000026
采用相同的方式进行定义。
7.根据权利要求6所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述将所述软标签和点云数据的值预测带入第二损失函数包括:
所述排序网络模块包含三个结构一致的分类网络,分别对应俯仰角、侧倾角和偏航角;三个分类网络分别输出第i个点云数据的值预测
Figure FDA0002419610270000027
所述的第二损失函数为:
Figure FDA0002419610270000028
式中,N为点云数据的数量。
8.根据权利要求1所述的基于有序回归和软标签的三维点云头部姿态估计系统,其特征在于:所述总损失函数为:
L=Lpred+λLrank
式中,Lpred为第一损失函数,Lrank为第二损失函数,λ为控制排序网络模块在网络训练期间的贡献参数。
9.基于有序回归和软标签的三维点云头部姿态估计方法,其特征在于:采用如权利要求1~8中任意一项所述的系统;所述方法包括训练步骤和姿态估计步骤;所述训练步骤包括以下子步骤:
将训练样本输入特征学习网络模块进行特征提取;
预测网络模块和排序网络模块均将接收特征学习网络模块的输入,并输出至网络更新模块;
网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新;
所述姿态估计步骤包括以下子步骤:
将待姿态估计的点云数据输入至特征学习网络模块进行特征提取;
预测网络模块将特征学习网络模块得到的特征映射到头姿态角获得角度预测值并输出,得到姿态估计结果。
10.根据权利要求9所述的基于有序回归和软标签的三维点云头部姿态估计方法,其特征在于:所述网络更新模块对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新包括:
采用多种不同比例的第一损失函数和第二损失函数的总损失函数,对所述特征学习网络模块、预测网络模块和排序网络模块的参数进行更新;从而选择效果最好的比例进行姿态估计步骤;
和/或:
所述将头姿态角进行维度划分形成若干子任务包括:
采用多种区间划分方式,将头姿态角进行维度划分形成若干子任务;从而选择效果最好的区间划分方式进行为姿态估计步骤。
CN202010201707.4A 2020-03-20 2020-03-20 基于有序回归和软标签的三维点云头部姿态估计系统和方法 Active CN111428619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010201707.4A CN111428619B (zh) 2020-03-20 2020-03-20 基于有序回归和软标签的三维点云头部姿态估计系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010201707.4A CN111428619B (zh) 2020-03-20 2020-03-20 基于有序回归和软标签的三维点云头部姿态估计系统和方法

Publications (2)

Publication Number Publication Date
CN111428619A true CN111428619A (zh) 2020-07-17
CN111428619B CN111428619B (zh) 2022-08-05

Family

ID=71548425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010201707.4A Active CN111428619B (zh) 2020-03-20 2020-03-20 基于有序回归和软标签的三维点云头部姿态估计系统和方法

Country Status (1)

Country Link
CN (1) CN111428619B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860424A (zh) * 2020-07-30 2020-10-30 厦门熵基科技有限公司 一种可见光手掌识别模型的训练方法和装置
CN112651437A (zh) * 2020-12-24 2021-04-13 北京理工大学 一种基于深度学习的空间非合作目标位姿估计方法
CN113171080A (zh) * 2021-04-19 2021-07-27 中国科学院深圳先进技术研究院 一种基于可穿戴传感信息融合的能量代谢评估方法和系统
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113222700A (zh) * 2021-05-17 2021-08-06 中国人民解放军国防科技大学 基于会话的推荐方法及装置
CN113255906A (zh) * 2021-04-28 2021-08-13 中国第一汽车股份有限公司 一种自动驾驶中回归障碍物3d角度信息方法、装置、终端及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150288947A1 (en) * 2014-04-03 2015-10-08 Airbus Ds Gmbh Position and location detection of objects
CN108154104A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于深度图像超像素联合特征的人体姿态估计方法
CN109086683A (zh) * 2018-07-11 2018-12-25 清华大学 一种基于点云语义增强的人手姿态回归方法和系统
US20190108639A1 (en) * 2017-10-09 2019-04-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Semantic Segmentation of 3D Point Clouds
WO2019097486A1 (en) * 2017-11-17 2019-05-23 Thales Canada Inc. Point cloud rail asset data extraction
CN110222580A (zh) * 2019-05-09 2019-09-10 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
CN110222767A (zh) * 2019-06-08 2019-09-10 西安电子科技大学 基于嵌套神经网络和栅格地图的三维点云分类方法
CN110263675A (zh) * 2019-06-03 2019-09-20 武汉联一合立技术有限公司 一种社区安保机器人的垃圾目标识别系统及其识别方法
CN110264468A (zh) * 2019-08-14 2019-09-20 长沙智能驾驶研究院有限公司 点云数据标注、分割模型确定、目标检测方法及相关设备
CN110322453A (zh) * 2019-07-05 2019-10-11 西安电子科技大学 基于位置注意力和辅助网络的3d点云语义分割方法
CN110344621A (zh) * 2019-06-13 2019-10-18 武汉大学 一种面向智能车库的车轮点云检测方法
US20190384273A1 (en) * 2019-07-23 2019-12-19 Lg Electronics Inc. Artificial intelligence device and method of diagnosing malfunction using operation log and artificial intelligence model

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150288947A1 (en) * 2014-04-03 2015-10-08 Airbus Ds Gmbh Position and location detection of objects
US20190108639A1 (en) * 2017-10-09 2019-04-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Semantic Segmentation of 3D Point Clouds
WO2019097486A1 (en) * 2017-11-17 2019-05-23 Thales Canada Inc. Point cloud rail asset data extraction
CN108154104A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于深度图像超像素联合特征的人体姿态估计方法
CN109086683A (zh) * 2018-07-11 2018-12-25 清华大学 一种基于点云语义增强的人手姿态回归方法和系统
CN110222580A (zh) * 2019-05-09 2019-09-10 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
CN110263675A (zh) * 2019-06-03 2019-09-20 武汉联一合立技术有限公司 一种社区安保机器人的垃圾目标识别系统及其识别方法
CN110222767A (zh) * 2019-06-08 2019-09-10 西安电子科技大学 基于嵌套神经网络和栅格地图的三维点云分类方法
CN110344621A (zh) * 2019-06-13 2019-10-18 武汉大学 一种面向智能车库的车轮点云检测方法
CN110322453A (zh) * 2019-07-05 2019-10-11 西安电子科技大学 基于位置注意力和辅助网络的3d点云语义分割方法
US20190384273A1 (en) * 2019-07-23 2019-12-19 Lg Electronics Inc. Artificial intelligence device and method of diagnosing malfunction using operation log and artificial intelligence model
CN110264468A (zh) * 2019-08-14 2019-09-20 长沙智能驾驶研究院有限公司 点云数据标注、分割模型确定、目标检测方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TOBIAS BAR: ""Driver head pose and gaze estimation based on multi-template ICP 3-D point cloud alignment"", 《IEEE CONFERENCE》 *
XIAOFENG LIU: ""Conservative Wasserstein Training for Pose Estimation"", 《IEEE CONFERENCE》 *
肖仕华: ""基于深度学习的三维点云头部姿态估计"", 《计算机应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860424A (zh) * 2020-07-30 2020-10-30 厦门熵基科技有限公司 一种可见光手掌识别模型的训练方法和装置
CN111860424B (zh) * 2020-07-30 2023-07-11 厦门熵基科技有限公司 一种可见光手掌识别模型的训练方法和装置
CN112651437A (zh) * 2020-12-24 2021-04-13 北京理工大学 一种基于深度学习的空间非合作目标位姿估计方法
CN112651437B (zh) * 2020-12-24 2022-11-11 北京理工大学 一种基于深度学习的空间非合作目标位姿估计方法
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113204659B (zh) * 2021-03-26 2024-01-19 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113171080A (zh) * 2021-04-19 2021-07-27 中国科学院深圳先进技术研究院 一种基于可穿戴传感信息融合的能量代谢评估方法和系统
CN113255906A (zh) * 2021-04-28 2021-08-13 中国第一汽车股份有限公司 一种自动驾驶中回归障碍物3d角度信息方法、装置、终端及存储介质
CN113222700A (zh) * 2021-05-17 2021-08-06 中国人民解放军国防科技大学 基于会话的推荐方法及装置
CN113222700B (zh) * 2021-05-17 2023-04-18 中国人民解放军国防科技大学 基于会话的推荐方法及装置

Also Published As

Publication number Publication date
CN111428619B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111428619B (zh) 基于有序回归和软标签的三维点云头部姿态估计系统和方法
Zhou et al. To learn or not to learn: Visual localization from essential matrices
US20220392234A1 (en) Training neural networks for vehicle re-identification
JP7210085B2 (ja) ポイントクラウドセグメンテーション方法、コンピュータプログラム及びコンピュータ機器
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
Zeeshan Zia et al. Explicit occlusion modeling for 3d object class representations
CN113408455B (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN111402294A (zh) 目标跟踪方法、装置、计算机可读存储介质和计算机设备
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN110969648A (zh) 一种基于点云序列数据的3d目标跟踪方法及系统
Lu et al. Indoor localization via multi-view images and videos
Zahid et al. Pedestrian identification using motion-controlled deep neural network in real-time visual surveillance
CN111126249A (zh) 一种大数据和贝叶斯相结合的行人重识别方法及装置
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN110992404B (zh) 目标跟踪方法、装置和系统及存储介质
Alcantarilla et al. Visibility learning in large-scale urban environment
Lu et al. Knowing where I am: exploiting multi-task learning for multi-view indoor image-based localization.
Hwang et al. Interactions between specific human and omnidirectional mobile robot using deep learning approach: SSD-FN-KCF
Li et al. Real-time monocular joint perception network for autonomous driving
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN114387304A (zh) 目标跟踪方法、计算机程序产品、存储介质及电子设备
Yu et al. Learning bipartite graph matching for robust visual localization
Yu et al. Stcloc: Deep lidar localization with spatio-temporal constraints
Oh et al. Local selective vision transformer for depth estimation using a compound eye camera

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant