CN109977757B - 一种基于混合深度回归网络的多模态的头部姿态估计方法 - Google Patents

一种基于混合深度回归网络的多模态的头部姿态估计方法 Download PDF

Info

Publication number
CN109977757B
CN109977757B CN201910078126.3A CN201910078126A CN109977757B CN 109977757 B CN109977757 B CN 109977757B CN 201910078126 A CN201910078126 A CN 201910078126A CN 109977757 B CN109977757 B CN 109977757B
Authority
CN
China
Prior art keywords
network
image
sub
layer
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910078126.3A
Other languages
English (en)
Other versions
CN109977757A (zh
Inventor
唐佩军
程深
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910078126.3A priority Critical patent/CN109977757B/zh
Publication of CN109977757A publication Critical patent/CN109977757A/zh
Application granted granted Critical
Publication of CN109977757B publication Critical patent/CN109977757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

该发明公开了一种基于混合深度回归网络的多模态的头部姿态估计方法,属于机器学习和计算机视觉领域。该方法首先将头部图像转换为多种不同的模态,并从不同模态的头部图像中提取梯度方向直方图特征,其次通过训练不同模态的深度回归网络模型来拟合图像特征与对应的头部姿态估计之间的映射关系,然后借鉴高斯混合密度网络的方法,将训练所得的单模态网络融合为多模态网络,并且同时训练不同图像的混合系数,最后使用混合得到的多模态网络对输入的头部图像进行头部姿态估计。本发明更好的拟合了图像特征与头部姿态估计之间的非线性映射,提高了现有方法的精确度和鲁棒性。

Description

一种基于混合深度回归网络的多模态的头部姿态估计方法
技术领域
本发明属于机器学习和计算机视觉领域,主要涉及多模态的头部姿态估计问题。
背景技术
头部姿态估计在计算机视觉中一般定义为根据包含头部的数字图像,利用机器学习的方法估计该图像中的头部与摄像机之间的相对偏转角度,通常人的头部姿态有三个自由度方向,分别是水平方向上的偏航角、垂直方向上的俯仰角和图像平面上的旋转角。在身份验证、安全驾驶以及人机交互等方面需求的背景下,头部姿态估计作为这些实际应用中的关键问题,近年来在计算机视觉和机器学习领域得到了越来越多的关注。例如:在身份验证领域,头部姿态估计预先估计人脸的朝向,从而有利于下一步特征点的定位与之后的处理;在安全驾驶领域,头部姿态估计可以辅助视线估计,从而实现对驾驶员注意力的监控;在人机交互领域,头部姿态估计可以辅助表情识别进行行为预测等。
现有的针对人脸头部姿态估计的算法,主要分为基于分类的方法和基于回归的方法。
基于分类的方法主要是学习头部图像与姿态标签之间的分类判别函数,然后利用训练好的分类器去估计待测试图像头部姿态所属的类别,从而确定头部姿态估计。目前常用的分类器有支持向量机(Support Vector Machine,SVM),线性判别分析(LinearDiscriminative Analysis,LDA)和贝叶斯分类器(
Figure BDA0001959567390000011
Bayesian,NB),但是这些方法只能提供离散的头部姿态估计,导致估计值并不精准。参见文献:J.Huang,X.Shao,andH.Wechsler,Face Pose Discrimination using Support Vector Machines,IEEEInternational Conference on Pattern Recognition,pp.154-156,1998.和S.O.Ba,J.M.Odobez,A Probabilistic Framework for Joint Head Tracking and PoseEstimation,IEEE International Conference on Pattern Recognition,2004.
基于回归的方法主要是学习头部图像与连续的姿态标签值之间的映射函数,然后利用训练好的模型去估计待测试图像的头部姿态角度值,目前常用的回归函数包括支持向量回归(Support Vector Regression,SVR),高斯过程回归(Gaussian ProcessRegression,GPR),和神经网络(Neural Network,NN),这类方法解决了前两种方法无法输出连续的头部姿态角度值的缺点。参见文献:R.Ananth,Y.Ming-Hsuan,H.Jeffrey,OnlineSparse Gaussian Process Regression and Its Applications,IEEE Transactions onImage Processing,2011.和G.Fanelli,J.Gall,and L.Van Gool,Real Time Head PoseEstimation with Random Regression Forests,IEEE Conference on Computer Visionand Pattern Recognition,pp.617-624,2011.
近年来,随着深度学习理论的不断发展,借助于深度网络的发展与应用,可以更好的拟合图像特征与对应的头部姿态估计之间的映射关系,这种改进大大提高了传统回归方法的精确度和鲁棒性,深度网络在头部姿态估计中还有很多值得挖掘改进的地方。显然不同图像在不同模态上的头部姿态估计的好坏程度是不同的,但至今还未出现将多模态的混合深度回归网络进行融合的方法,本发明将围绕这个角度展开工作。
发明内容
本发明的任务是提供一种基于混合深度回归网络的多模态的头部姿态估计方法。该方法首先将头部图像转换为多种不同的模态,并从不同模态的头部图像中提取梯度方向直方图(Histogram of Oriented Gradient,HoG)特征,其次通过训练不同模态的深度回归网络模型来拟合图像特征与对应的头部姿态估计之间的映射关系,然后借鉴高斯混合密度网络的方法,将训练所得的单模态网络融合为多模态网络,并且同时训练不同图像的混合系数,最后使用混合得到的多模态网络对输入的头部图像进行头部姿态估计。
通过上述方法,本发明充分利用了图像的多种模态信息,且考虑了不同图像在不同模态上识别效果的差异,同时利用混合深度回归网络,更好的拟合了图像特征与头部姿态估计之间的非线性映射,提高了现有方法的精确度和鲁棒性。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:头部姿态。通常认为人体头部可以建模为一个无实体的刚体对象,根据这种假设,头部姿态被限制为三个自由度的向量表示,该向量由三个元素构成,分别为俯仰角,偏航角和旋转角,如图1所示。
定义2:俯仰角。在三维空间中,俯仰角是指以水平轴为中心旋转的角度,为人体头部上下翻转的角度,如图2中所示的角度Pitch。
定义3:偏航角。在三维空间中,偏航角是指以竖直轴为中心旋转的角度,为人体头部左右翻转的角度,如图2中所示的角度Yaw。
定义4:旋转角。在三维空间中,旋转角是指在图像平面中中心旋转的角度,为人体头部在平面内旋转的角度,如图2中所示的角度Roll。
定义5:RGB图像。RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。图3(a)为RGB图像示意图。
定义6:深度图像。在计算机视觉领域,深度图像是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。深度图像也被称为距离影像,是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像,它直接反映了景物可见表面的几何形状。深度图像的每个像素点的灰度值可用于表征图像中某一点到图像采集器平面的距离,通常RGB图像和深度图像是匹配的,因而像素点之间具有一对一的对应关系。图3(b)为深度图像示意图。
定义7:灰度图像。灰度数字图像是每个像素只有一个采样颜色的图像。这个图像通常显示为从最暗的黑色到最亮的白色之间的不同颜色深浅的灰度。灰度图像与黑白图像不同,在计算机图像领域中黑白图像只有黑白两种颜色,灰度图像在黑色与白色之间还有许多级的颜色深度。
定义8:方向梯度直方图(Histogram of Oriented Gradient,HOG)特征。它是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的方向梯度直方图来构成特征。首先将图像分成小的连通区域,这些连通区域被称作细胞单元。然后采集细胞单元中各像素点的梯度或边缘的方向直方图。最后把这些直方图组合起来,就可以构成特征描述符。将这些局部直方图在图像的更大的范围内(称为区间)进行对比度归一化,可以提高该算法的性能,所采用的方法是:先计算各直方图在这个区间中的密度,然后根据这个密度对区间中的各个细胞单元做归一化。通过这个方法,在光照变化和阴影的影响下能获得更好的效果。
定义9:自编码器(Auto Encoder)。自编码器是机器学习领域中用于学习数据特征的一种方法,整个自编码器其实就是一个人工神经网络,它的输出和输入近似相等,中间为降维后的编码信号。自编码器是一种无监督机器学习算法,通过计算自编码输出与原输入之间的误差,不断调节自编码器的参数,最终训练出模型;也可以用于压缩输入信息,用于信号降维,提取有用的输入特征,同时降维之后的信号能够很好的重建原信号。
定义10:混合深度回归网络。在本专利中是指将自编码器运用到多模态的头部姿态估计的回归问题中。在头部姿态估计问题中,网络的输入是多种模态的头部图像的特征,中间层经过特征降维,考虑不同头部图像在不同模态上的差异性,最后综合输出头部姿态估计的三个角度值。
定义11:正态分布。也称常态分布,又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量x,其概率密度函数满足
Figure BDA0001959567390000041
其中μ为正态分布的数学期望,σ2为正态分布的方差,则称其满足正态分布,常记作
Figure BDA0001959567390000043
定义12:混合系数。在混合网络中代表某样本属于某一模态子模型的概率。
定义13:似然函数。在数理统计学中,似然函数是一种关于统计模型中参数的函数,表示模型参数的似然性或可能性。给定输出x时,关于参数θ的似然函数L(θ|x)在数值上等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。
定义14:对数似然函数。即似然函数的自然对数形式。求解一个函数的极大化往往需要求解该函数的关于未知参数的偏导数。由于对数函数是单调递增的,而且对数似然函数在极大化求解时较为方便,所以对数似然函数常用在最大似然估计及相关领域中。
定义15:多模态混合网络。即对不同模态的特征进行混合学习的网络,目的是考虑不同模态特征信息的差异化,以期望达到更高的准确度和鲁棒性。本发明采用的是:每一种模态都有一个独立的多层子网络,用于学习不同模态的异构特征,由此可以得到不同模态所对应的权值,并选择出对于当前学习任务而言最重要的特征,从而达到剔除冗余信息和降低噪声干扰的作用。
因而本发明技术方案为一种基于混合深度回归网络的多模态的头部姿态估计方法,该方法包括:
步骤1:对样本数据集进行预处理,获得样本数据集中各图像的三种模态图像,包括:RGB图像、深度图像、灰度图像,并且标记每幅图像对应的头部姿态标签;
步骤2:对数据集进行特征提取;
首先将各种模态的图像分别进行归一化处理,然后对每一个模态的每一幅输入图像提取HOG特征;
步骤3:对各模态图像提取的HOG特征和头部姿态标签一起进行归一化处理;
步骤4:构建和初始化单模态子网络;
单模态的子网络采用自动编码器网络来构建,训练过程分为无监督的预训练和有监督的微调两个步骤;
步骤4-1:预训练时采用基于自编码器网络的无监督逐层训练算法,如下式所示:
Figure BDA0001959567390000042
其中:
Figure BDA0001959567390000051
表示矩阵的2-范数,EU表示无监督预训练时的编码器,D为对应的解码器,目的是重构编码器的输入,其中解码器D和编码器EU权值共享,xnk表示在模态k的情况下第n幅图像的特征;模态k下的无监督预训练的代价函数
Figure BDA0001959567390000052
这部分代价来源于图像特征的重构误差,训练时通过最小化代价函数
Figure BDA0001959567390000053
来更新D和EU
步骤4-2:微调时根据预训练时的网络局部最优参数进行训练,如下式所示:
Figure BDA0001959567390000054
其中:
Figure BDA0001959567390000055
表示矩阵的2-范数,ES表示有监督微调时的编码器,xnk表示在模态k的情况下第n幅图像的特征,tn表示第n幅图像对应的姿态标签;模态k下的有监督微调的代价函数
Figure BDA0001959567390000056
这部分代价来源于网络输出与标签的均方误差,训练时通过最小化代价函数
Figure BDA0001959567390000057
来更新ES
步骤5:构建多模态的混合网络;
步骤5-1:训练得到深度回归子网络的多模态混合网络,多模态网络来预测多模态的输入和头部姿态之间的映射关系的混合模型表达式如下:
Figure BDA0001959567390000058
xnk表示来源于第n个样本在模态k情况下的输入特征,πk(xnk)表示第n个样本的在模态k情况下的混合系数,yk(·)表示训练好的模态k的深度回归子网络模型;
步骤5-2:在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
Figure BDA0001959567390000059
其中tn为第n个样本的头部姿态的观测值,θ表示模型的每层网络层可训练参数的集合,包括权重参数向量{wk}和偏置参数向量{bk},
Figure BDA00019595673900000510
为模态k的样本的各向同性高斯分布的方差,子函数πk(·)为模态k的混合系数,yk(·)表示模态k时的预测函数;
Figure BDA00019595673900000511
表示以yk(xnk)为期望,
Figure BDA00019595673900000512
为方差的随机变量tn的正态分布;
其中μ为正态分布的数学期望,σ2为正态分布的方差,则称其满足正态
步骤5-3:对于多模态混合网络模型,各子网络层均使用全连接层,设该模型共有L层子网络,前L-1层网络的输出形式如下:
Figure BDA00019595673900000513
Figure BDA00019595673900000514
其中,xnk表示第n个样本在模态k情况下的输入特征,也即整个网络的输入,
Figure BDA0001959567390000061
为第l层子网络的权重参数矩阵,
Figure BDA0001959567390000062
为第l层的偏置参数矩阵,
Figure BDA0001959567390000063
为第l层子网络的输出;
混合模型参数通过影响混合系数πk(xnk),模态k情况下的头部姿态预测值yk(xnk),及方差
Figure BDA0001959567390000064
以此影响以xnk作为输入的网络的最终输出,采用如下文所示的函数来训练模型的所有参数,并由此预测网络的最终输出;
混合系数必须满足下面的限制:
Figure BDA0001959567390000065
为了将混合系数转换为概率值,通过使用softmax输出来实现;设L为网络的最后一层,πk(xnk)为第L层子网络的混合系数的输出,
Figure BDA0001959567390000066
为上一层子网络的输出,
Figure BDA0001959567390000067
为第L层子网络与混合系数有关的一个中间值,
Figure BDA0001959567390000068
为该层子网络与
Figure BDA0001959567390000069
有关的权重参数,
Figure BDA00019595673900000610
为该层子网络与
Figure BDA00019595673900000611
有关的偏置参数;
Figure BDA00019595673900000612
Figure BDA00019595673900000613
类似的,方差必须满足:
Figure BDA00019595673900000614
可以使用对应的网络激活函数的指数形式进行表示,σk(xnk)为第L层子网络的方差的输出,
Figure BDA00019595673900000615
为第L层子网络与方差有关的一个中间值,
Figure BDA00019595673900000616
为该层子网络与
Figure BDA00019595673900000617
有关的权重参数,
Figure BDA00019595673900000618
为该层子网络与
Figure BDA00019595673900000619
有关的的偏置参数;
Figure BDA00019595673900000620
Figure BDA00019595673900000621
最后,模态k的第n个样本图像的头部姿态的预测值yk(xnk)为实向量,可以直接用网络的输出激活表示,yk(xnk)为第L层子网络的头部姿态估计的输出,
Figure BDA00019595673900000622
为该层子网络与yk(xnk)有关的权重参数,
Figure BDA00019595673900000623
为该层子网络与yk(xnk)有关的的偏置参数;
Figure BDA00019595673900000624
由此,根据以上步骤计算得到的混合系数,可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测;
步骤5-4:综上步骤5-1到步骤5-3的步骤,对于给定的N个独立的样本数据,可将概率形式下的头部姿态混合模型的似然函数改写为对数形式;当给定输出标签值T和输入观测值X={x1k,...,xNk},k=1,...,K时,则模型的对数似然函数表达式为:
Figure BDA0001959567390000071
上式可以通过最大似然法确定,或者使用最小化误差函数的方法来确定,误差函数的形式为:
Figure BDA0001959567390000072
步骤6:多模态混合网络的训练;
训练的目标是最小化误差函数l(θ),若已经得到误差函数关于输出单元的激活函数的导数的表达式,则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数。我们可以考虑对于特定的样本n的ln(θ)的导数,然后通过求和的方式找到l(θ)的导数;
步骤7:对测试图像进行测试;
当给定一个新的多模态头部姿态图片数据集,假设有t个样本,K种模态,记作{xt1,...,xtK},可以推断出相应的头部姿态为:
Figure BDA0001959567390000073
其中y表示预测的头部姿态向量值,
Figure BDA0001959567390000074
表示对于不同模态特征的各个头部姿态预测值的期望。
进一步的,所述步骤2的具体方法为:首先将不同模态的输入图像的头部区域进行归一化处理,归一化后的大小为64×64像素;再对每一个模态的每一幅输入图像提取HOG特征,提取过程中,区域个数设置为2×2,每一区域中的图像单元个数设置为8×8,方向柱的个数设置为9,最后得到的每一个模态的每一幅图像对应的HOG特征的维数为1764,记模态k下第n幅图像对应的HoG特征向量为rnk∈R1764
进一步的,所述步骤3的具体方法为:假设总共有K种模态的图像,对于某一种模态k,k=1,2,3,将每一幅图像对应的HoG特征向量按顺序排列为列向量,列向量对应的维度为1764,再将该模态的所有的N幅图像对应排列的列向量进行堆叠,可以得到特征矩阵Rk,矩阵大小为1764×N,即Rk=[r1k,...rNk]1764×N,并对每一维特征进行归一化;将每一幅图像对应的头部姿态标签向量按顺序排列为列向量,列向量对应的维度为3,再将该模态的所有的N幅图像对应排列的列向量进行堆叠,得到标签矩阵L,故矩阵大小为3×N,即L=[l1,...,lN]3×N,并对每一维角度进行归一化;
Rk和L的归一化方法一致,如下式所示,ri表示选取Rk的第i行构建的行向量,li表示选取L的第i行构建的行向量;
Figure BDA0001959567390000081
表示ri所有分量中的最小值,rmin表示由N个
Figure BDA0001959567390000082
构成的行向量,
Figure BDA0001959567390000083
表示li所有分量中的最小值,lmin表示由N个
Figure BDA0001959567390000084
构成的行向量;
Figure BDA0001959567390000085
表示ri所有分量中的最大值,
Figure BDA0001959567390000086
表示li所有分量中的最大值;
Figure BDA0001959567390000087
表示经过归一化以后的ri
Figure BDA0001959567390000088
表示经过归一化以后的li;归一化公式如下:
Figure BDA0001959567390000089
按照以上的公式处理数据矩阵后,得到的归一化的特征矩阵和标签矩阵为:
Figure BDA00019595673900000810
再重新对归一化后的特征矩阵Xk和标签矩阵T进行按列分块,即归一化后的头部图像特征矩阵为Xk=[x1k,...xNk]1764×N,归一化后的姿态标签矩阵为T=[t1,...,tN]3×N;经过归一化以后,消除了每一维数据之间的量纲影响,使得基本度量单位得到统一,以便数据指标的后续比较与计算,同时使得预处理的数据被限定在一定的范围内,从而消除奇异样本数据导致的不良影响。
本发明技术方案为一种基于混合深度回归网络的多模态的头部姿态估计方法,该方法充分利用了图像的多种模态信息,且考虑了不同图像在不同模态上识别效果的差异,同时利用混合深度回归网络,更好的拟合了图像特征与头部姿态估计之间的非线性映射,提高了现有方法的精确度和鲁棒性。
附图说明
图1为头部姿态估计的示意图;
图2为头部姿态的三个自由度:偏航角,俯仰角和旋转角的定义示意图;
图3为RGB图像和深度图像示意图;
图4为本发明多模态混合网络算法示意图
图5为本发明多模态混合网络模型示意图;
具体实施方式
步骤1:对数据集进行预处理;
对BIWI(https://data.vision.ee.ethz.ch/cvl/gfanelli/head_pose/head_forest.html)头部姿态数据集经过预处理后,将得到三种不同模态的图像,包括RGB、深度与灰度图像,以及每幅图像所对应的头部姿态标签。
具体步骤为先从BIWI头部姿态数据集中的压缩数据格式中读取对应的头部姿态RGB图像和深度图像,再将采集的RGB图像转换为灰度图像,并分别保存;然后采集每幅图像的头部与摄像头之间的相对位置来获取头部姿态的真实标签,即读取N幅头部图像各自对应的头部姿态的三个自由度,包括俯仰角、偏航角和旋转角,则头部姿态向量ln∈R3,ln表示第n张图像的头部姿态标签,其中第一维表示俯仰角,第二维表示偏航角,第三维表示旋转角,最终保存为头部姿态标签;
步骤2:对数据集进行特征提取;
即对输入图像进行HOG特征提取。首先将不同模态的输入图像的头部区域进行归一化处理,归一化后的大小为64×64像素;再对每一个模态的每一幅输入图像提取HOG特征,提取过程中,区域个数设置为2×2,每一区域中的图像单元个数设置为8×8,方向柱的个数设置为9,最后得到的每一个模态的每一幅图像对应的HOG特征的维数为1764,记模态k下第n幅图像对应的HoG特征向量为rnk∈R1764
步骤3:输入的多模态图像特征和头部姿态真实标签的归一化;
假设总共有K种模态的图像,对于某一种模态k,将每一幅图像对应的HoG特征向量按顺序排列为列向量,列向量对应的维度为1764,再将该模态的所有的N幅图像对应排列的列向量进行堆叠,可以得到特征矩阵Rk,矩阵大小为1764×N,即Rk=[r1k,...rNk]1764×N,并对每一维特征进行归一化;将每一幅图像对应的头部姿态标签向量按顺序排列为列向量,列向量对应的维度为3,再将该模态的所有的N幅图像对应排列的列向量进行堆叠,得到标签矩阵L,故矩阵大小为3×N,即L=[l1,...,lN]3×N,并对每一维角度进行归一化;
Rk和L的归一化方法一致,如下式所示,ri表示选取Rk的第i行构建的行向量,li表示选取L的第i行构建的行向量;
Figure BDA0001959567390000091
表示ri所有分量中的最小值,rmin表示由N个
Figure BDA0001959567390000092
构成的行向量,
Figure BDA0001959567390000093
表示li所有分量中的最小值,lmin表示由N个
Figure BDA0001959567390000094
构成的行向量;
Figure BDA0001959567390000095
表示ri所有分量中的最大值,
Figure BDA0001959567390000101
表示li所有分量中的最大值;
Figure BDA0001959567390000102
表示经过归一化以后的ri
Figure BDA0001959567390000103
表示经过归一化以后的li。归一化公式如下:
Figure BDA0001959567390000104
按照以上的公式处理数据矩阵后,得到的归一化的特征矩阵和标签矩阵为:
Figure BDA0001959567390000105
再重新对归一化后的特征矩阵Xk和标签矩阵T进行按列分块,即归一化后的头部图像特征矩阵为Xk=[x1k,...xNk]1764×N,归一化后的姿态标签矩阵为T=[t1,...,tN]3×N。经过归一化以后,消除了每一维数据之间的量纲影响,使得基本度量单位得到统一,以便数据指标的后续比较与计算,同时使得预处理的数据被限定在一定的范围内,从而消除奇异样本数据导致的不良影响;
步骤4:构建和初始化单模态子网络;
单模态的子网络采用自动编码器网络来构建,训练过程分为无监督的预训练和有监督的微调两个步骤。
预训练时采用基于自编码器网络的无监督逐层训练算法,如下式所示,
Figure BDA0001959567390000106
表示矩阵的2-范数,EU表示无监督预训练时的编码器,D为对应的解码器,目的是重构编码器的输入,其中解码器D和编码器EU权值共享,xnk表示在模态k的情况下第n幅图像的特征。
模态k下的无监督预训练的代价函数
Figure BDA0001959567390000107
这部分代价来源于图像特征的重构误差,训练时通过最小化代价函数
Figure BDA0001959567390000108
来更新D和EU
Figure BDA0001959567390000109
微调时根据预训练时的网络局部最优参数进行训练,如下式所示,
Figure BDA00019595673900001010
表示矩阵的2-范数,ES表示有监督微调时的编码器,xnk表示在模态k的情况下第n幅图像的特征,tn表示第n幅图像对应的姿态标签;
模态k下的有监督微调的代价函数
Figure BDA00019595673900001011
这部分代价来源于网络输出与标签的均方误差,训练时通过最小化代价函数
Figure BDA00019595673900001012
来更新ES
Figure BDA00019595673900001013
深度回归子网络的模型的构建,即首先将归一化后的模态的特征Xk按照mini-batch进行逐层无监督预训练,得到各网络参数层的预训练模型;由于每个自编码器都只是优化了一层隐藏层,所以每个隐藏层的参数都只是局部最优的。预训练完成之后,我们把优化后的网络参数作为神经网络的初始值,然后将归一化后的模态的特征Xk和归一化后的标签矩阵T按照mini-batch进行有监督的微调训练,直到最终收敛,得到各模态子网络模型。
步骤5:构建多模态的混合网络;
1)经过步骤4中的预训练和微调之后,两个单模态网络初始化完毕。接下来需要训练得到深度回归子网络的多模态混合网络,如图5所示,由此多模态网络来预测多模态的输入和头部姿态之间的映射关系。混合模型的表达式如下:
Figure BDA0001959567390000111
xnk表示来源于第n个样本在模态k情况下的输入特征,πk(xnk)表示第n个样本的在模态k情况下的混合系数,yk(·)表示训练好的模态k的深度回归子网络模型;
2)在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
Figure BDA0001959567390000112
其中tn为第n个样本的头部姿态的观测值,θ表示模型的每层网络层可训练参数的集合,包括权重参数向量{wk}和偏置参数向量{bk},
Figure BDA0001959567390000113
为模态k的样本的各向同性高斯分布的方差,子函数πk(·)为模态k的混合系数,yk(·)表示模态k时的预测函数;
3)对于多模态混合网络模型,如图4所示,各子网络层均使用全连接层,设该模型共有L层子网络,前L-1层网络的输出形式如下:
Figure BDA0001959567390000114
Figure BDA0001959567390000115
其中,xnk表示第n个样本在模态k情况下的输入特征,也即整个网络的输入,
Figure BDA0001959567390000116
为第l层子网络的权重参数矩阵,
Figure BDA0001959567390000117
为第l层的偏置参数矩阵,
Figure BDA0001959567390000118
为第l层子网络的输出。
混合模型参数通过影响混合系数πnk(xnk),模态k情况下的头部姿态预测值yk(xnk),及方差
Figure BDA0001959567390000119
以此影响以xnk作为输入的网络的最终输出,本发明采用如下文所示的函数来训练模型的所有参数,并由此预测网络的最终输出。
混合系数必须满足下面的限制:
Figure BDA0001959567390000121
为了将混合系数转换为概率值,可以通过使用softmax输出来实现。设L为网络的最后一层,πk(xnk)为第L层子网络的混合系数的输出,
Figure BDA0001959567390000122
为上一层子网络的输出,
Figure BDA0001959567390000123
为第L层子网络与混合系数有关的一个中间值,
Figure BDA0001959567390000124
为该层子网络与
Figure BDA0001959567390000125
有关的权重参数,
Figure BDA0001959567390000126
为该层子网络与
Figure BDA0001959567390000127
有关的的偏置参数。
Figure BDA0001959567390000128
类似的,方差必须满足:
Figure BDA00019595673900001210
可以使用对应的网络激活函数的指数形式进行表示,σk(xnk)为第L层子网络的方差的输出,
Figure BDA00019595673900001211
为第L层子网络与方差有关的一个中间值,
Figure BDA00019595673900001212
为该层子网络与
Figure BDA00019595673900001213
有关的权重参数,
Figure BDA00019595673900001214
为该层子网络与
Figure BDA00019595673900001215
有关的的偏置参数。
Figure BDA00019595673900001216
Figure BDA00019595673900001217
最后,模态k的第n个样本图像的头部姿态的预测值yk(xnk)为实向量,可以直接用网络的输出激活表示,yk(xnk)为第L层子网络的头部姿态估计的输出,
Figure BDA00019595673900001218
为该层子网络与yk(xnk)有关的权重参数,
Figure BDA00019595673900001219
为该层子网络与yk(xnk)有关的的偏置参数。
Figure BDA00019595673900001220
由此,根据以上步骤计算得到的混合系数,可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测。
4)由以上步骤可知,对于给定的N个独立的样本数据,可将概率形式下的头部姿态混合模型的似然函数改写为对数形式。当给定输出标签值T和输入观测值X={x1k,...,xNk},(k=1,...,K)时,则模型的对数似然函数表达式为:
Figure BDA00019595673900001221
上式可以通过最大似然法确定,或者使用最小化误差函数(负对数似然函数)的方法来确定,误差函数的形式为:
Figure BDA0001959567390000131
步骤6:多模态混合网络的训练;
训练的目标是最小化误差函数l(θ),若已经得到误差函数关于输出单元的激活函数的导数的表达式,则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数。我们可以考虑对于特定的样本n的ln(θ)的导数,然后通过求和的方式找到l(θ)的导数。
本文采用Google的tensorflow深度学习框架下tf.train.AdamOptimizer函数进行梯度计算,直至最后的训练结果收敛。接下来便可使用训练好的模型对测试图像进行预测;
步骤7:对测试图像进行测试;
当给定一个新的多模态头部姿态图片数据集,假设有t个样本,K种模态,记作{xt1,...,xtK},可以推断出相应的头部姿态为:
Figure BDA0001959567390000132
其中y表示预测的头部姿态向量值,
Figure BDA0001959567390000133
表示对于不同模态特征的各个头部姿态预测值的期望。
根据本发明的方法,整体算法模型如图5,本专利使用Python语言和Google的Tensorflow深度学习框架。首先提取头部姿态图片的HoG特征,将归一化以后的HoG特征在不同模态的情况下以mini-batch的方式送入自编码器网络进行预训练与微调,当代价函数不再变化或者变化很小时表示子网络初始化结束。然后对于初始化完毕的子网络,采用图4所示的结构,对不同模态的子网络同时训练混合系数,再进行混合迭代训练,直到模型的精度收敛时,即可停止训练。具体的实验参数如下:
图片大小:64×64
特征维度:1764
训练批次大小:120
迭代次数:30000
学习率:0.0001
单模态子网络编码器参数:预训练Auto Encoder编码器和解码器都是3层隐层,分别为300、250、200,输出层为3,从输入开始,前三层使用ReLU激活函数,头部姿态输出层使用Sigmoid激活函数。微调阶段与混合阶段只需要编码器,参数和预训练阶段一致。
多模态混合网络参数:使用与单模态子网络一致的参数,同时在单模态子网络的输出层再加入一个并列的混合系数输出层,此输出层不使用激活函数。
实验结果:初步实验的头部姿态估计值的平均绝对误差值在1.43°左右,较之前的头部姿态估计方法的平均绝对误差值降低了约12.5%。

Claims (3)

1.一种基于混合深度回归网络的多模态的头部姿态估计方法,该方法包括:
步骤1:对样本数据集进行预处理,获得样本数据集中各图像的三种模态图像,包括:RGB图像、深度图像、灰度图像,并且标记每幅图像对应的头部姿态标签;
步骤2:对数据集进行特征提取;
首先将各种模态的图像分别进行归一化处理,然后对每一个模态的每一幅输入图像提取HOG特征;
步骤3:对各模态图像提取的HOG特征和头部姿态标签一起进行归一化处理;
步骤4:构建和初始化单模态子网络;
单模态的子网络采用自动编码器网络来构建,训练过程分为无监督的预训练和有监督的微调两个步骤;
步骤4-1:预训练时采用基于自编码器网络的无监督逐层训练算法,如下式所示:
Figure FDA0002615162570000011
其中:
Figure FDA0002615162570000012
表示矩阵的2-范数,EU表示无监督预训练时的编码器,D为对应的解码器,目的是重构编码器的输入,其中解码器D和编码器EU权值共享,xnk表示在模态k的情况下第n幅图像的特征;模态k下的无监督预训练的代价函数
Figure FDA0002615162570000013
这部分代价来源于图像特征的重构误差,训练时通过最小化代价函数
Figure FDA0002615162570000014
来更新D和EU
步骤4-2:微调时根据预训练时的网络局部最优参数进行训练,如下式所示:
Figure FDA0002615162570000015
其中:
Figure FDA0002615162570000019
表示矩阵的2-范数,ES表示有监督微调时的编码器,xnk表示在模态k的情况下第n幅图像的特征,tn为第n个样本的头部姿态的观测值;模态k下的有监督微调的代价函数
Figure FDA0002615162570000016
这部分代价来源于网络输出与标签的均方误差,训练时通过最小化代价函数
Figure FDA0002615162570000017
来更新ES
步骤5:构建多模态的混合网络;
步骤5-1:训练得到深度回归子网络的多模态混合网络,多模态网络来预测多模态的输入和头部姿态之间的映射关系的混合模型表达式如下:
Figure FDA0002615162570000018
xnk表示来源于第n个样本在模态k情况下的输入特征,πk(xnk)表示第n个样本的在模态k情况下的混合系数,yk(·)表示训练好的模态k的深度回归子网络模型;
步骤5-2:在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
Figure FDA0002615162570000021
其中tn为第n个样本的头部姿态的观测值,θ表示模型的每层网络层可训练参数的集合,包括权重参数向量{wk}和偏置参数向量{bk},
Figure FDA0002615162570000022
为模态k的样本各向同性高斯分布的方差,子函数πk(·)为模态k的混合系数,yk(·)表示模态k时的预测函数;
Figure FDA0002615162570000023
表示以yk(xnk)为期望,
Figure FDA0002615162570000024
为方差的随机变量tn的正态分布;
步骤5-3:对于多模态混合网络模型,各子网络层均使用全连接层,设该模型共有L层子网络,前L-1层网络的输出形式如下:
Figure FDA0002615162570000025
Figure FDA0002615162570000026
其中,xnk表示第n个样本在模态k情况下的输入特征,也即整个网络的输入,
Figure FDA0002615162570000027
为第l层子网络的权重参数矩阵,
Figure FDA0002615162570000028
为第l层的偏置参数矩阵,
Figure FDA0002615162570000029
为第l层子网络的输出;
混合模型参数通过影响混合系数πk(xnk),模态k情况下的头部姿态预测值yk(xnk),及方差
Figure FDA00026151625700000210
以此影响以xnk作为输入的网络的最终输出,采用如下文所示的函数来训练模型的所有参数,并由此预测网络的最终输出;
混合系数必须满足下面的限制:
Figure FDA00026151625700000211
为了将混合系数转换为概率值,通过使用softmax输出来实现;设L为网络的最后一层,πk(xnk)为第L层子网络的混合系数的输出,
Figure FDA00026151625700000212
为上一层子网络的输出,
Figure FDA00026151625700000213
为第L层子网络与混合系数有关的一个中间值,
Figure FDA00026151625700000214
为该层子网络与
Figure FDA00026151625700000215
有关的权重参数,
Figure FDA00026151625700000216
为该层子网络与
Figure FDA00026151625700000217
有关的偏置参数;
Figure FDA00026151625700000218
Figure FDA00026151625700000219
类似的,方差必须满足:
Figure FDA0002615162570000031
可以使用对应的网络激活函数的指数形式进行表示,
Figure FDA0002615162570000032
为第L层子网络的方差的输出,
Figure FDA0002615162570000033
为第L层子网络与方差有关的一个中间值,
Figure FDA0002615162570000034
为该层子网络与
Figure FDA0002615162570000035
有关的权重参数,
Figure FDA0002615162570000036
为该层子网络与
Figure FDA0002615162570000037
有关的的偏置参数;
Figure FDA0002615162570000038
Figure FDA0002615162570000039
最后,模态k的第n个样本图像的头部姿态的预测值yk(xnk)为实向量,可以直接用网络的输出激活表示,yk(xnk)为第L层子网络的头部姿态估计的输出,
Figure FDA00026151625700000310
为该层子网络与yk(xnk)有关的权重参数,
Figure FDA00026151625700000311
为该层子网络与yk(xnk)有关的的偏置参数;
Figure FDA00026151625700000312
由此,根据以上步骤计算得到的混合系数,可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测;
步骤5-4:综上步骤5-1到步骤5-3的步骤,对于给定的N个独立的样本数据,可将概率形式下的头部姿态混合模型的似然函数改写为对数形式;当给定输出标签值T和输入观测值X={x1k,...,xNk},k=1,...,K时,则模型的对数似然函数表达式为:
Figure FDA00026151625700000313
上式可以通过最大似然法确定,或者使用最小化误差函数的方法来确定,误差函数的形式为:
Figure FDA00026151625700000314
步骤6:多模态混合网络的训练;
训练的目标是最小化误差函数l(θ),若已经得到误差函数关于输出单元的激活函数的导数的表达式,则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数;我们可以考虑对于特定的样本n的ln(θ)的导数,然后通过求和的方式找到l(θ)的导数;
步骤7:对测试图像进行测试;
当给定一个新的多模态头部姿态图片数据集,假设有t个样本,K种模态,记作{xt1,...,xtK},可以推断出相应的头部姿态为:
Figure FDA0002615162570000041
其中y表示预测的头部姿态向量值,
Figure FDA0002615162570000042
表示对于不同模态特征的各个头部姿态预测值的期望。
2.如权利要求1所述的一种基于混合深度回归网络的多模态的头部姿态估计方法,其特征在于所述步骤2的具体方法为:首先将不同模态的输入图像的头部区域进行归一化处理,归一化后的大小为64×64像素;再对每一个模态的每一幅输入图像提取HOG特征,提取过程中,区域个数设置为2×2,每一区域中的图像单元个数设置为8×8,方向柱的个数设置为9,最后得到的每一个模态的每一幅图像对应的HOG特征的维数为1764,记模态k下第n幅图像对应的HoG特征向量为rnk∈R1764
3.如权利要求2所述的一种基于混合深度回归网络的多模态的头部姿态估计方法,其特征在于所述步骤3的具体方法为:假设总共有K种模态的图像,对于某一种模态k,k=1,2,3,将每一幅图像对应的HoG特征向量按顺序排列为列向量,列向量对应的维度为1764,再将该模态的所有的N幅图像对应排列的列向量进行堆叠,可以得到特征矩阵Rk,矩阵大小为1764×N,即Rk=[r1k,...rNk]1764×N,并对每一维特征进行归一化;将每一幅图像对应的头部姿态标签向量按顺序排列为列向量,列向量对应的维度为3,再将该模态的所有的N幅图像对应排列的列向量进行堆叠,得到标签矩阵L,故矩阵大小为3×N,即L=[l1,...,lN]3×N,并对每一维角度进行归一化;
Rk和L的归一化方法一致,如下式所示,ri表示选取Rk的第i行构建的行向量,li表示选取L的第i行构建的行向量;
Figure FDA0002615162570000043
表示ri所有分量中的最小值,rmin表示由N个
Figure FDA0002615162570000044
构成的行向量,
Figure FDA0002615162570000045
表示li所有分量中的最小值,lmin表示由N个
Figure FDA0002615162570000046
构成的行向量;
Figure FDA0002615162570000047
表示ri所有分量中的最大值,
Figure FDA0002615162570000048
表示li所有分量中的最大值;
Figure FDA0002615162570000049
表示经过归一化以后的ri
Figure FDA00026151625700000410
表示经过归一化以后的li;归一化公式如下:
Figure FDA00026151625700000411
按照以上的公式处理数据矩阵后,得到的归一化的特征矩阵和标签矩阵为:
Figure FDA0002615162570000051
再重新对归一化后的特征矩阵Xk和标签矩阵T进行按列分块,即归一化后的头部图像特征矩阵为Xk=[x1k,...xNk]1764×N,归一化后的姿态标签矩阵为T=[t1,...,tN]3×N;经过归一化以后,消除了每一维数据之间的量纲影响,使得基本度量单位得到统一,以便数据指标的后续比较与计算,同时使得预处理的数据被限定在一定的范围内,从而消除奇异样本数据导致的不良影响。
CN201910078126.3A 2019-01-28 2019-01-28 一种基于混合深度回归网络的多模态的头部姿态估计方法 Active CN109977757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910078126.3A CN109977757B (zh) 2019-01-28 2019-01-28 一种基于混合深度回归网络的多模态的头部姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910078126.3A CN109977757B (zh) 2019-01-28 2019-01-28 一种基于混合深度回归网络的多模态的头部姿态估计方法

Publications (2)

Publication Number Publication Date
CN109977757A CN109977757A (zh) 2019-07-05
CN109977757B true CN109977757B (zh) 2020-11-17

Family

ID=67076789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910078126.3A Active CN109977757B (zh) 2019-01-28 2019-01-28 一种基于混合深度回归网络的多模态的头部姿态估计方法

Country Status (1)

Country Link
CN (1) CN109977757B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046733B (zh) * 2019-11-12 2023-04-18 宁波大学 一种基于稀疏和深度的3d人体姿态估计方法
CN112861586B (zh) * 2019-11-27 2022-12-13 马上消费金融股份有限公司 活体检测、图像分类和模型训练方法、装置、设备及介质
CN111507111B (zh) * 2020-03-19 2021-11-23 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN111695438B (zh) * 2020-05-20 2023-08-04 合肥的卢深视科技有限公司 头部姿态估计方法和装置
CN111798369B (zh) * 2020-06-29 2022-11-08 电子科技大学 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN111949884B (zh) * 2020-08-26 2022-06-21 桂林电子科技大学 一种基于多模态特征交互深度融合推荐方法
CN112132058B (zh) * 2020-09-25 2022-12-27 山东大学 一种头部姿态估计方法及其实现系统、存储介质
CN112380369B (zh) * 2021-01-15 2021-05-28 长沙海信智能系统研究院有限公司 图像检索模型的训练方法、装置、设备和存储介质
CN113128417B (zh) * 2021-04-23 2023-04-07 南开大学 一种基于头部姿态的双区域眼动跟踪方法
CN113705349B (zh) * 2021-07-26 2023-06-06 电子科技大学 一种基于视线估计神经网络的注意力量化分析方法及系统
CN115620082B (zh) * 2022-09-29 2023-09-01 合肥的卢深视科技有限公司 模型训练方法、头部姿态估计方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392241A (zh) * 2014-11-05 2015-03-04 电子科技大学 一种基于混合回归的头部姿态估计方法
CN105760898A (zh) * 2016-03-22 2016-07-13 电子科技大学 一种基于混合组回归方法的视觉映射方法
CN108345843A (zh) * 2018-01-25 2018-07-31 电子科技大学 一种基于混合深度回归网络的头部姿态估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783394B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Equivariant landmark transformation for landmark localization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392241A (zh) * 2014-11-05 2015-03-04 电子科技大学 一种基于混合回归的头部姿态估计方法
CN105760898A (zh) * 2016-03-22 2016-07-13 电子科技大学 一种基于混合组回归方法的视觉映射方法
CN108345843A (zh) * 2018-01-25 2018-07-31 电子科技大学 一种基于混合深度回归网络的头部姿态估计方法

Also Published As

Publication number Publication date
CN109977757A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
US10733755B2 (en) Learning geometric differentials for matching 3D models to objects in a 2D image
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
CN106599883B (zh) 一种基于cnn的多层次图像语义的人脸识别方法
US20220172450A1 (en) Depth-based object re-identification
US11182644B2 (en) Method and apparatus for pose planar constraining on the basis of planar feature extraction
CN108345843B (zh) 一种基于混合深度回归网络的头部姿态估计方法
CN109359608B (zh) 一种基于深度学习模型的人脸识别方法
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
CN112200121B (zh) 基于evm和深度学习的高光谱未知目标检测方法
CN113408492A (zh) 一种基于全局-局部特征动态对齐的行人重识别方法
CN108537196B (zh) 基于运动历史点云生成的时空分布图的人体行为识别方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN110598638A (zh) 模型训练方法、人脸性别预测方法、设备及存储介质
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
Beksi et al. Object classification using dictionary learning and rgb-d covariance descriptors
CN113592894B (zh) 一种基于边界框和同现特征预测的图像分割方法
CN116309725A (zh) 基于多尺度可形变注意力机制的多目标跟踪方法
CN114694089A (zh) 一种新型的多模态融合的行人重识别算法
Barodi et al. An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement
CN116740763A (zh) 一种基于双注意力感知融合网络的跨模态行人重识别方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN114187506A (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant