CN115620082A - 模型训练方法、头部姿态估计方法、电子设备及存储介质 - Google Patents

模型训练方法、头部姿态估计方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115620082A
CN115620082A CN202211203912.XA CN202211203912A CN115620082A CN 115620082 A CN115620082 A CN 115620082A CN 202211203912 A CN202211203912 A CN 202211203912A CN 115620082 A CN115620082 A CN 115620082A
Authority
CN
China
Prior art keywords
angle
head
head image
label
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211203912.XA
Other languages
English (en)
Other versions
CN115620082B (zh
Inventor
何武
付贤强
朱海涛
户磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Dilusense Technology Co Ltd
Original Assignee
Beijing Dilusense Technology Co Ltd
Hefei Dilusense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dilusense Technology Co Ltd, Hefei Dilusense Technology Co Ltd filed Critical Beijing Dilusense Technology Co Ltd
Priority to CN202211203912.XA priority Critical patent/CN115620082B/zh
Publication of CN115620082A publication Critical patent/CN115620082A/zh
Application granted granted Critical
Publication of CN115620082B publication Critical patent/CN115620082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及图像识别技术领域,公开了一种模型训练方法、头部姿态估计方法、电子设备及存储介质。模型训练方法包括:基于训练样本中所包含的头部图像的角度标签和所属的场景标签,构建各所述头部图像的角度在所属场景标签下所服从的高斯分布;根据各所述头部图像对应的所述高斯分布,获取所述头部图像的角度标签在所属场景标签下的真实概率;构建用于获取所述头部图像的预测角度和该预测角度的预测概率的头部姿态估计网络;以所述训练样本对所述头部姿态估计网络进行训练,得到训练好的所述头部姿态估计网络。本申请训练好的头部姿态估计网络在各种复杂场景下依然能得到准确度较高的头部姿态估计结果。

Description

模型训练方法、头部姿态估计方法、电子设备及存储介质
技术领域
本申请实施例涉及图像识别技术领域,特别涉及一种模型训练方法、头部姿态估计方法、电子设备及存储介质。
背景技术
随着深度学习技术的高速发展,人脸识别技术已被广泛应用于人们的生产生活中,然而人脸识别技术受头部姿态影响较大,大角度的头部姿态角导致人脸有效信息的缺失,使得人脸识别准确降低,为此需要鲁棒性较强的头部姿态估计方法,对大角度的人脸头部图像进行过滤,以提升人脸识别系统的整体表现。
目前常用的头部姿态估计方法有两种:一种是利用深度学习的方法预测头部图像的角度值,另一种是通过对头部图像进行三维建模来获取头部图像的角度值。但是深度学习的方法在复杂场景(如:遮挡、大角度、背光等场景)下模型训练较为困难,且模型在不同场景下预测的角度值准确度差异较大。而三维建模的方法虽然准确度较高,但其计算过程需要迭代求解优化,耗时较长。
发明内容
本申请实施方式的目的在于提供一种模型训练方法、头部姿态估计方法、电子设备及存储介质,通过头部图像在所属场景标签下的角度标签的真实概率对头部姿态估计网络输出的预测概率进行约束,使得训练好的头部姿态估计网络在各种复杂场景下依然能得到准确度较高的头部姿态估计结果。
为解决上述技术问题,本申请的实施方式提供了一种模型训练方法,包括:基于训练样本中所包含的头部图像的角度标签和所属的场景标签,构建各所述头部图像的角度在所属场景标签下所服从的高斯分布;根据各所述头部图像对应的所述高斯分布,获取所述头部图像的角度标签在所属场景标签下的真实概率;构建用于获取所述头部图像的预测角度和该预测角度的预测概率的头部姿态估计网络;以所述训练样本对所述头部姿态估计网络进行训练,得到训练好的所述头部姿态估计网络;其中,训练所采用的损失函数基于所述头部图像的预测角度和所述角度标签之间的第一损失、所述头部图像的预测概率和所述真实概率之间的第二损失构建。
本申请的实施方式还提供了一种头部姿态估计方法,包括:将待测头部图像输入到已训练好的头部姿态估计网络中,得到所述待测头部图像不同预测概率对应的预测角度;根据所述不同预测概率对应的预测角度得到所述待测头部图像的头部姿态估计结果;
将所述预测概率最大值对应的预测角度作为所述待测头部图像的头部姿态估计结果。
本申请的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的头部姿态估计方法。
本申请的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的头部姿态估计方法。
本申请实施方式提供的模型训练方法,本申请根据每个头部图像的角度标签和场景标签,构建每个头部图像的角度在所属场景下的高斯分布,根据高斯分布获取每个头部图像在所属场景标签下的角度标签的真实概率。也就是说,头部图像的角度标签的真实概率隐含了不同场景的场景概率。基于此,后续对头部姿态估计网络基于头部图像的预测角度和角度标签之间的第一损失、头部图像的预测概率和真实概率之间的第二损失进行训练,也就是说,本申请让头部姿态估计网络输出的预测角度和角度标签之间的损失尽可能小,让头部图像所属角度标签的预测概率与真实概率之间的损失尽可能小,而真实概率隐含了不同场景的场景概率,即本申请的网络训练既考虑了预测角度与真实角度之间的误差,又考虑了不同场景对预测角度的影响,使得训练好的头部姿态估计网络在各种复杂场景下依然能得到准确度较高的头部姿态估计结果,有效提高了头部姿态估计网络的鲁棒性。在头部姿态估计时,只要将待测的头部图像输入到训练好的头部姿态估计网络即可得到头部姿态估计结构,速度快,耗时短。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请的实施方式提供的模型训练方法的流程图;
图2是本申请的实施方式提供的头部姿态估计方法的流程图;
图3是本申请的实施方式的提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面对本实施方式的模型训练的实现细节进行举例说明。以下内容仅为方便理解而提供的实现细节,并非实施本方案的必须。
本申请的实施方式涉及一种模型训练方法,如图1所示,包括:
步骤101,基于训练样本中所包含的头部图像的角度标签和所属的场景标签,构建各头部图像的角度在所属场景标签下所服从的高斯分布。
具体地说,头部图像的头部姿态通过偏航角yaw、俯仰角pitch和翻滚角roll三个角度表示,因此,每个头部图像对应的角度标签包含偏航角信息、俯仰角信息和翻滚角信息,每个角度的角度值范围在[-90°,90°],其中,偏航角围绕y轴旋转,俯仰角围绕x轴旋转,翻滚角围绕z轴旋转,比如:头部图像A的角度标签为(y=85°,p=40°,y=-30°)。头部图像的场景标签可以根据头部图像的应用场景、用户需求、准确度要求等因素自行调整设置。比如:头部图像A的场景标签为遮挡,头部图像B的场景标签为正常光照。
需要说明的是,一个头部图像可以属于多个场景,即一个头部图像可以对应多个场景标签,比如:头部图像C的场景标签为正常光照和遮挡。当然,场景标签的具体程度也可以根据需要进行设置,比如:预先规定遮挡部分占整个头部图像的比例在0-10%之间为一类遮挡、在10%-20%之间为二类遮挡,超过30%为三类遮挡。本实施例不对角度标签和场景标签的具体内容和表达形式进行限定,只要可以对头部图像在角度和场景方面进行分类即可。
在一实施例中,头部图像的角度标签可以通过如下步骤获取:对头部图像进行三维建模,获取头部姿态旋转矩阵;对头部姿态旋转矩阵进行角度转换,得到头部图像的偏航角、俯仰角和翻滚角,偏航角、俯仰角和翻滚角组成头部图像的角度标签。
具体地,对头部图像进行三维建模可以采用人脸3D形变统计模型(3D MorphableModel,3DMM)的方法,获取头部姿态旋转矩阵,将头部姿态旋转矩阵转换为欧拉角形式就可以得到头部图像的偏航角、俯仰角和翻滚角。
进一步地,由于采集到的头部图像大多都存在数据不均衡的问题,即头部图像中小角度图像较多,大角度图像较少,为避免训练样本不均衡对头部姿态估计网络的训练造成影响,可以对三维建模获取的头部姿态旋转矩阵和头部姿态平移矩阵进行参数调整,生成不同角度的头部图像;将不同角度的头部图像添加到训练样本中以使训练样本中的头部图像在不同角度的分布数量相等。即本申请的训练样本既包括直接采集的头部图像,还包括根据已有的头部图像通过图像处理算法生成的头部图像,两种头部图像组合获取均衡的训练样本。
另外,考虑到不同场景对预测角度影响的差异性,本实施例将头部图像在不同角度不同场景下的概率分布建模为高斯分布,获取每个头部图像的角度标签在所属场景标签下的高斯分布,根据头部图像的高斯分布获取头部图像在所属场景标签下的角度标签的真实概率。也就是说,角度标签的真实概率隐含了不同场景的场景概率。
在一实施例中,步骤101具体包括:根据训练样本在各场景标签下的角度均值,计算所述训练样本在各场景标签下的角度方差;以头部图像的角度标签作为头部图像的角度均值,训练样本在所述头部图像所属场景标签下的角度方差作为头部图像的角度方差,构建各头部图像的角度标签在所属场景标签下所服从的高斯分布。
本实施例中,在计算训练样本在不同场景标签下的角度方差时,根据计算训练样本在不同场景标签下的角度均值,然后根据该角度均值计算训练一样本在不同场景标签下的角度方差。需要强调的是,获取训练样本在不同场景标签下的角度均值只为计算训练样本在不同场景标签下的角度方差,后续计算过程不涉及该数值。
比如:训练样本中有100个头部图像,场景标签的类别有4个,属于场景1的头部图像有45个,属于场景2的头部图像有15个,属于场景3的头部图像有30个,属于场景4的头部图像有10个,计算属于场景1的45个头部图像的偏航角之和的平均值,得到偏航角yaw在场景1的均值,计算属于场景2的15个头部图像的偏航角之和的平均值,得到偏航角yaw在场景2的均值,在其他场景和角度的均值计算方法类似,即总共可以得到12个均值(3个角度*4个场景),然后根据偏航角yaw在场景1的均值计算得到偏航角在场景1的方差。
具体地说,通过如下公式计算:
Figure BDA0003872785910000041
Figure BDA0003872785910000042
其中,
Figure BDA0003872785910000051
为训练样本在第k个角度第j个场景的角度均值,
Figure BDA0003872785910000052
为训练样本在第k个角度第j个场景的角度方差,
Figure BDA0003872785910000053
为第i个头部图像在第j个场景下第k个角度的角度值,n为属于第j个场景的头部图像的数量,k=1表示偏航角,k=2表示俯仰角,k=3表示翻滚角。
那么,第i个头部图像在所属第j个场景下第k个角度的高斯分布用数学符号可以表示为
Figure BDA0003872785910000054
bin(*)为离散化函数。
需要说明的是,当一个头部图像属于多个场景,即一个头部图像对应多个场景标签时,以数值最大的方差作为该头部图像的高斯分布的角度方差,也就是说,可以将数值最大的方差对应的场景标签作为该头部图像的第一场景标签。比如:头部图像A的场景标签包含场景1、场景2和场景3,以偏航角为例,分别计算偏航角在场景1、场景2和场景3下的均值,根据偏航角在场景1的均值计算得到偏航角在场景1的方差,根据偏航角在场景2的均值计算得到偏航角在场景2的方差,根据偏航角在场景3的均值计算得到偏航角在场景3的方差,确定偏航角在场景2的方差值最大,则以头部图像A的偏航角作为角度均值,头部图像A的偏航角在场景2的方差作为角度方差构建头部图像A的高斯分布。
另外,在以头部图像的角度标签作为头部图像的角度均值,构建每个头部图像的角度标签在所属场景标签下的高斯分布时,由于头部图像的角度值为一个连续数值,不方便后续头部姿态估计网络对其进行分类,因此对头部图像角度标签的每个角度值进行离散化处理,获取离散化的角度值。然后将角度标签中的离散化角度值作为头部图像的角度均值。比如:以5度为一个间隔对角度值进行离散化处理,即将角度标签中的角度值除以5后的数值取整数,然后再乘以5,计算过程表示为
Figure BDA0003872785910000055
假设角度值为87,则其离散化的角度值85。
步骤102,根据各头部图像对应的高斯分布,获取头部图像的角度标签在所属场景标签下的真实概率。
本实施例中,在获取头部图像的高斯分布后,就可以确定不同场景标签下不同角度的真实概率,则根据每个头部图像的角度标签和高斯分布即可得到该头部图像在所属场景标签下的角度标签的真实概率。
在一实施例中,步骤102的具体步骤包括:根据各头部图像对应的高斯分布,生成各头部图像的高斯分布曲线;根据头部图像的角度标签对高斯分布曲线进行积分,获取头部图像的角度标签在所属场景标签下的真实概率。
具体地说,根据每个头部图像的高斯分布可以生成对应的高斯分布曲线,然后根据头部图像的角度标签对高斯分布曲线进行积分,即可得头部图像在所属场景标签下的角度标签的真实概率。其中角度方差越小,分布越集中在角度均值附近,角度方差越大,分布越分散角度均值两侧。在对高斯分布曲线积分时,可以采用梯形公式进行计算。
步骤103,构建用于获取头部图像所属角度标签的预测概率的头部姿态估计网络。
本实施例中,头部姿态估计网络包括特征提取网络和分类器;所述特征提取网络用于提取所述头部图像的特征向量,所述分类器用于对所述特征向量进行分类得到角度标签的预测概率。在将头部姿态估计网络应用于嵌入式平台时,可以调整特征提取网络的通道数以满足嵌入式平台的速度要求。
步骤104,以训练样本对头部姿态估计网络进行训练,得到训练好的所述头部姿态估计网络;其中,训练所采用的损失函数基于头部图像的预测角度和所述角度标签之间的第一损失、头部图像的预测概率和真实概率之间的第二损失构建。
本实施例中,头部姿态估计网络输出头部图像所属角度标签的预测概率,而根据该预测概率可以计算得到头部图像的预测角度,因此在对头部姿态估计网络进行训练时,让预测角度与角度标签(真实角度)之间的第一损失尽可能小,让预测概率和真实概率之间的第二损失尽可能小。而真实概率在前期计算时,考虑到了不同场景对预测角度影响的差异性,因此,本实施例让预测概率尽可能靠近真实概率就是让头部姿态估计网络去学习这种差异性,以提高网络在不同场景下的头部姿态估计准确度。
在一实施例中,第一损失函数通过如下公式构建:
Figure BDA0003872785910000061
其中,N为头部图像的数量,α为超参数,
Figure BDA0003872785910000062
为第i个头部图像的第k个角度的数学期望,
Figure BDA0003872785910000063
为第i个头部图像的角度标签,k=1表示偏航角,k=2表示俯仰角,k=3表示翻滚角。
其中,
Figure BDA0003872785910000064
为第i个头部图像的第k个角度的数学期望,也就是第i个头部图像第k个角度的预测角度。具体通过如下公式计算:
Figure BDA0003872785910000065
其中,bin为对角度值进行离散化处理时获得的角度类别。M为角度类别的数量。比如:若以5度为一间隔对角度值进行离散化,则角度类别包括:类别1为[-90,-85),类别2为[-85,-80),…,类别36为[85,90),即M=36,那么可以简单地设定bin1=-90,bin2=-85,其他类别以此类推。
第二损失函数通过如下公式构建:
Figure BDA0003872785910000071
其中,N为头部图像的数量,
Figure BDA0003872785910000072
为第i个头部图像在所属场景标签下第k个角度的预测概率,
Figure BDA0003872785910000073
为第i个头部图像在所属场景标签下第k个角度的真实概率,k=1表示偏航角,k=2表示俯仰角,k=3表示翻滚角。
本申请实施方式提供的模型训练方法,根据每个头部图像的角度标签和场景标签,构建每个头部图像的角度在所属场景下的高斯分布,根据高斯分布获取每个头部图像在所属场景标签下的角度标签的真实概率。也就是说,头部图像的角度标签的真实概率隐含了不同场景的场景概率。基于此,后续对头部姿态估计网络训练时,让头部姿态估计网络输出的预测角度和角度标签之间的第一损失尽可能小,让头部图像所属角度标签的预测概率与真实概率之间的第二损失尽可能小,而真实概率隐含了不同场景的场景概率,即本申请的网络训练既考虑了预测角度与真实角度之间的误差,又考虑了不同场景对预测角度的影响,使得训练好的头部姿态估计网络在各种复杂场景下依然能得到准确度较高的头部姿态估计结果,有效提高了头部姿态估计网络的鲁棒性。在头部姿态估计时,只要将待测的头部图像输入到训练好的头部姿态估计网络即可得到头部姿态估计结构,速度快,耗时短。
本申请的实施方式涉及一种头部姿态估计,如图2所示,包括:
步骤201,将待测头部图像输入到已训练好的头部姿态估计网络中,得到待测头部图像不同预测概率对应的预测角度。
本实施例中,头部姿态估计网络通过上述实施例的模型训练方法获取,由于头部姿态估计网络在训练时学习了不同场景对预测角度影响的差异性,因此训练好的头部姿态估计网络在各种复杂场景下依然能得到准确度较高的头部姿态估计结果。
步骤203,根据不同预测概率对应的预测角度得到待测头部图像的头部姿态估计结果。
具体地说,头部图像的头部姿态估计结果可以简单地直接将预测概率最大值对应的预测角度作为头部姿态估计结果,也可以计算不同预测概率对应的预测角度的数学期望,将计算得到的数据期望作为头部姿态估计结果。数学期望具体采用如下公式计算:
Figure BDA0003872785910000081
其中,bin为对角度值进行离散化处理时获得的角度类别。M为角度类别的数量,
Figure BDA0003872785910000082
为第i个头部图像第k个角度属于第m个角度类别的概率。具体计算过程可以参考训练阶段预测角度的计算方法。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请的实施方式涉及一种电子设备,如图3所示,包括:
至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行如上述实施方式提及的模型训练方法,或者能够执行上述实施方式提及的头部姿态估计方法。
该电子设备包括:一个或多个处理器301以及存储器302,图3中以一个处理器301为例。处理器301、存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施方式中策略空间内的各处理策略对应的算法就存储于存储器302中。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述模型训练方法或头部姿态估计方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器302中,当被一个或者多个处理器301执行时,执行上述任意实施方式中的模型训练方法,或者能够执行上述实施方式提及的头部姿态估计方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本申请的实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述模型训练方法或头部姿态估计方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
基于训练样本中所包含的头部图像的角度标签和所属的场景标签,构建各所述头部图像的角度在所属场景标签下所服从的高斯分布;
根据各所述头部图像对应的所述高斯分布,获取所述头部图像的角度标签在所属场景标签下的真实概率;
构建用于获取所述头部图像的预测角度和该预测角度的预测概率的头部姿态估计网络;
以所述训练样本对所述头部姿态估计网络进行训练,得到训练好的所述头部姿态估计网络;其中,训练所采用的损失函数基于所述头部图像的预测角度和所述角度标签之间的第一损失、所述头部图像的预测概率和所述真实概率之间的第二损失构建。
2.根据权利要求1所述的模型训练方法,其特征在于,所述基于训练样本中所包含的头部图像的角度标签和所属的场景标签,构建各所述头部图像的角度在所属场景标签下所服从的高斯分布,包括:
根据所述训练样本在各场景标签下的角度均值,计算所述训练样本在各场景标签下的角度方差;
以所述头部图像的角度标签作为所述头部图像的角度均值,所述训练样本在所述头部图像所属场景标签下的角度方差作为所述头部图像的角度方差,构建各所述头部图像的角度标签在所属场景标签下所服从的高斯分布。
3.根据权利要求1所述的模型训练方法,其特征在于,所述根据各所述头部图像对应的所述高斯分布,获取所述头部图像的角度标签在所属场景标签下的真实概率,包括:
根据各所述头部图像对应的高斯分布,生成各所述头部图像的高斯分布曲线;
根据所述头部图像的角度标签对所述高斯分布曲线进行积分,获取所述头部图像的角度标签在所属场景标签下的真实概率。
4.根据权利要求1-3中任一项所述的模型训练方法,其特征在于,所述第一损失的损失函数通过如下公式构建:
Figure FDA0003872785900000021
其中,N为头部图像的数量,α为超参数,
Figure FDA0003872785900000022
为第i个头部图像的第k个角度的预测角度,
Figure FDA0003872785900000023
为第i个头部图像的角度标签,k=1表示偏航角,k=2表示俯仰角,k=3表示翻滚角。
5.根据权利要求1-3中任一项所述的模型训练方法,其特征在于,所述第二损失的损失函数通过如下公式构建:
Figure FDA0003872785900000024
其中,N为头部图像的数量,
Figure FDA0003872785900000025
为第i个头部图像在所属场景标签下第k个角度的预测概率,
Figure FDA0003872785900000026
为第i个头部图像在所属场景标签下第k个角度的真实概率,k=1表示偏航角,k=2表示俯仰角,k=3表示翻滚角。
6.根据权利要求1所述的模型训练方法,其特征在于,所述头部图像的角度标签通过如下步骤获取:
对所述头部图像进行三维建模,获取头部姿态旋转矩阵;
对所述头部姿态旋转矩阵进行角度转换,得到所述头部图像的偏航角、俯仰角和翻滚角,所述偏航角、所述俯仰角和所述翻滚角组成所述头部图像的角度标签。
7.根据权利要求6所述的模型训练方法,其特征在于,所述构建用于获取所述头部图像的预测角度和该预测角度的预测概率的头部姿态估计网络之前,还包括:
通过对所述头部图像进行三维建模获取的头部姿态旋转矩阵和头部姿态平移矩阵进行参数调整,生成不同角度的头部图像;
将所述不同角度的头部图像添加到所述训练样本中以使所述训练样本中的头部图像在不同角度的分布数量相等。
8.一种头部姿态估计方法,其特征在于,包括:
将待测头部图像输入到已训练好的头部姿态估计网络中,得到所述待测头部图像不同预测概率对应的预测角度;所述头部姿态估计网络通过如权利要求1-7中任一项所述的模型训练方法获取;
根据所述不同预测概率对应的预测角度得到所述待测头部图像的头部姿态估计结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的模型训练方法,或者能够执行如权利要求8所述的头部姿态估计方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一所述的模型训练方法,或者能够执行如权利要求8所述的头部姿态估计方法。
CN202211203912.XA 2022-09-29 2022-09-29 模型训练方法、头部姿态估计方法、电子设备及存储介质 Active CN115620082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211203912.XA CN115620082B (zh) 2022-09-29 2022-09-29 模型训练方法、头部姿态估计方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211203912.XA CN115620082B (zh) 2022-09-29 2022-09-29 模型训练方法、头部姿态估计方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115620082A true CN115620082A (zh) 2023-01-17
CN115620082B CN115620082B (zh) 2023-09-01

Family

ID=84859908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211203912.XA Active CN115620082B (zh) 2022-09-29 2022-09-29 模型训练方法、头部姿态估计方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115620082B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403269A (zh) * 2023-05-17 2023-07-07 智慧眼科技股份有限公司 一种遮挡人脸解析方法、系统、设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2383696A1 (en) * 2010-04-30 2011-11-02 LiberoVision AG Method for estimating a pose of an articulated object model
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN111401456A (zh) * 2020-03-20 2020-07-10 杭州涂鸦信息技术有限公司 人脸姿态识别模型的训练方法及其系统和装置
CN112818969A (zh) * 2021-04-19 2021-05-18 南京烽火星空通信发展有限公司 一种基于知识蒸馏的人脸姿态估计方法及系统
US20210166150A1 (en) * 2019-12-02 2021-06-03 International Business Machines Corporation Integrated bottom-up segmentation for semi-supervised image segmentation
WO2021151276A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 基于oct图像的图像识别方法、装置、设备及存储介质
WO2022027912A1 (zh) * 2020-08-05 2022-02-10 深圳市优必选科技股份有限公司 一种人脸姿态检测方法、装置、终端设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2383696A1 (en) * 2010-04-30 2011-11-02 LiberoVision AG Method for estimating a pose of an articulated object model
CN109977757A (zh) * 2019-01-28 2019-07-05 电子科技大学 一种基于混合深度回归网络的多模态的头部姿态估计方法
US20210166150A1 (en) * 2019-12-02 2021-06-03 International Business Machines Corporation Integrated bottom-up segmentation for semi-supervised image segmentation
CN111401456A (zh) * 2020-03-20 2020-07-10 杭州涂鸦信息技术有限公司 人脸姿态识别模型的训练方法及其系统和装置
WO2021151276A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 基于oct图像的图像识别方法、装置、设备及存储介质
WO2022027912A1 (zh) * 2020-08-05 2022-02-10 深圳市优必选科技股份有限公司 一种人脸姿态检测方法、装置、终端设备及存储介质
CN112818969A (zh) * 2021-04-19 2021-05-18 南京烽火星空通信发展有限公司 一种基于知识蒸馏的人脸姿态估计方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI ZHANG 等: "Learning from discrete Gaussian label distribution and spatial channel-ware residual attention for head pose estimation", 《NEUROCOMPUTING》 *
张毅: "多姿态人脸识别关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403269A (zh) * 2023-05-17 2023-07-07 智慧眼科技股份有限公司 一种遮挡人脸解析方法、系统、设备及计算机存储介质
CN116403269B (zh) * 2023-05-17 2024-03-26 智慧眼科技股份有限公司 一种遮挡人脸解析方法、系统、设备及计算机存储介质

Also Published As

Publication number Publication date
CN115620082B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN108038474B (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
US10282623B1 (en) Depth perception sensor data processing
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
EP4089587A1 (en) Data processing method and related device
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN112184508A (zh) 一种用于图像处理的学生模型的训练方法及装置
CN111738403B (zh) 一种神经网络的优化方法及相关设备
CN110838122B (zh) 点云的分割方法、装置及计算机存储介质
CN112232426A (zh) 目标检测模型的训练方法、装置、设备及可读存储介质
US20210174104A1 (en) Finger vein comparison method, computer equipment, and storage medium
CN111985458A (zh) 一种检测多目标的方法、电子设备及存储介质
CN110956131A (zh) 单目标追踪方法、装置及系统
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN113298152A (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
CN112036457A (zh) 训练目标检测模型的方法及装置、目标检测方法及装置
CN115620082B (zh) 模型训练方法、头部姿态估计方法、电子设备及存储介质
CN110458867B (zh) 一种基于注意力循环网络的目标跟踪方法
CN114627438A (zh) 目标检测模型生成方法、目标检测方法、设备及介质
CN116309643A (zh) 人脸遮挡分确定方法、电子设备及介质
CN116432608A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
Lv et al. A challenge of deep‐learning‐based object detection for hair follicle dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230410

Address after: 230091 room 611-217, R & D center building, China (Hefei) international intelligent voice Industrial Park, 3333 Xiyou Road, high tech Zone, Hefei, Anhui Province

Applicant after: Hefei lushenshi Technology Co.,Ltd.

Address before: 100083 room 3032, North B, bungalow, building 2, A5 Xueyuan Road, Haidian District, Beijing

Applicant before: BEIJING DILUSENSE TECHNOLOGY CO.,LTD.

Applicant before: Hefei lushenshi Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant