CN116721455A - 一种人脸姿态估计方法、装置及介质 - Google Patents
一种人脸姿态估计方法、装置及介质 Download PDFInfo
- Publication number
- CN116721455A CN116721455A CN202310766030.2A CN202310766030A CN116721455A CN 116721455 A CN116721455 A CN 116721455A CN 202310766030 A CN202310766030 A CN 202310766030A CN 116721455 A CN116721455 A CN 116721455A
- Authority
- CN
- China
- Prior art keywords
- face
- classification
- branch
- regression
- picture data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000001815 facial effect Effects 0.000 claims description 30
- 238000013139 quantization Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人脸识别技术领域,具体提供一种人脸姿态估计方法、装置及介质,旨在解决如何使人脸姿态估计地更加精确的技术问题。为此目的,本发明获取待测的人脸图片数据,通过预设的人脸姿态估计模型对待测的人脸图片数据进行预测,获得人脸姿态估计数据,其中,人脸姿态估计模型包括回归分支和分类分支,通过分类分支辅助回归分支进行训练,以使得训练好的回归分支对人脸图片数据进行预测。通过上述配置方式,来优化回归分支对人脸图片数据进行预测,能够提升人脸姿态估计的精度。
Description
技术领域
本发明涉及人脸识别技术领域,具体提供一种人脸姿态估计方法、装置及介质。
背景技术
人脸姿态估计是人脸识别与分析中关键的技术之一,是人脸识别、人脸表情分析、人脸三维重建等问题的基础。人脸姿态估计,有助于还原人脸模型,理解人脸位姿属性,评价人脸图像质量,估计人眼视线等。近年来,人脸识别与理解技术的应用已经相对成熟,其中,人脸姿态估计技术也得到广泛的应用。
目前,人脸姿态估计实质上是3D欧拉角的预测。以2D图像作为输入,来预测3D空间角度,这是一个欠约束问题。因此,如何从2D信息中推测3D空间角度,是一件具有挑战的事情。由于2D信息的不足,以及角度标注的不准确性,如何设计合理的模型,使得人脸姿态估计的更加精确,是一个需要解决的技术问题。
相应地,本领域需要一种人脸姿态估计方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何更为准确地进行估计人脸姿态的技术问题。
在第一方面,本发明提供一种人脸姿态估计方法,所述方法包括:
获取待测的人脸图片数据;
通过预设的人脸姿态估计模型对所述待测的人脸图片数据进行预测,获得人脸姿态估计数据
其中,所述人脸姿态估计模型包括回归分支和分类分支,通过所述分类分支辅助所述回归分支进行训练,以使得训练好的所述回归分支对所述人脸图片数据进行预测。
在上述一种人脸姿态估计方法的一个技术方案中,所述通过所述分类分支辅助所述回归分支进行训练,包括:
根据用于训练的人脸图片数据,获取所述人脸图片数据的人脸空间语义特征;
针对所述训练的每次迭代,根据所述人脸空间语义特征,应用所述分类分支进行人脸姿态的分类预测,获得分类预测结果;
根据所述人脸空间语义特征,应用所述回归分支进行人脸姿态的回归预测,获得回归预测结果;
根据所述分类预测结果和所述回归预测结果,获取所述回归分支的第一回归损失;
根据所述第一回归损失,进行反向传播,更新所述回归分支的模型参数,以实现所述回归分支的训练。
在上述一种人脸姿态估计方法的一个技术方案中,所述根据所述分类预测结果和所述回归预测结果,获取所述回归分支的第一回归损失,包括:
根据所述分类预测结果和所述人脸图片数据的人脸姿态真值数据,获取所述分类分支的分类损失;
根据所述回归预测结果和所述人脸姿态真值数据,获取所述回归分支的第二回归损失;
根据所述分类损失和所述第二回归损失,获取所述第一回归损失。
在上述一种人脸姿态估计方法的一个技术方案中,所述分类分支包括多个不同量化精度的分类子分支;所述分类预测结果包括多个子分支分类预测结果;
所述应用所述分类分支进行人脸姿态的分类预测,获得分类预测结果,包括:
针对每个分类子分支,应用所述分类子分支进行人脸姿态的分类预测,获得所述分类子分支的子分支分类预测结果;
应用soft-argmax算法,根据多个所述子分支分类预测结果,获得所述分类预测结果。
在上述一种人脸姿态估计方法的一个技术方案中,所述根据所述分类损失和所述第二回归损失,获取所述第一回归损失,包括:
将所述分类损失和所述第二回归损失进行加权计算,获得所述第一回归损失。
在上述一种人脸姿态估计方法的一个技术方案中,所述通过所述分类分支辅助所述回归分支进行训练,还包括:
根据每个所述子分支分类预测结果和所述人脸姿态真值数据,获取对应的分类子分支的子分支分类损失;
根据每个子分支分类损失,进行反向传播,更新对应的分类子分支的模型参数。
在上述一种人脸姿态估计方法的一个技术方案中,所述通过预设的人脸姿态估计模型对所述待测的人脸图片数据进行预测,获得人脸姿态估计数据,包括:
根据所述待测的人脸图片数据,获取所述人脸图片数据的人脸空间语义特征;
将所述人脸空间语义特征输入至所述人脸姿态估计模型中,获取所述人脸姿态估计数据。
在上述一种人脸姿态估计方法的一个技术方案中,所述获取所述人脸图片数据的人脸空间语义特征,包括:
对所述人脸图片数据进行ROI区域提取,获取所述人脸图片数据中的人脸ROI区域;
当所述人脸图片数据为用于训练的人脸图片数据时,将所述人脸ROI区域进行数据增强,获取数据增强后的人脸ROI区域;根据所述增强后的人脸ROI区域,进行特征提取,获取所述人脸空间语义特征;
当所述人脸图片数据为待测的人脸图片数据时,根据所述人脸ROI区域,进行特征提取,获取所述人脸空间语义特征。
在第二方面,提供一种控制装置,该控制装置包括至少一个处理器和至少一个存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述人脸姿态估计方法的技术方案中任一项技术方案所述的人脸姿态估计方法。
在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述人脸姿态估计方法的技术方案中任一项技术方案所述的人脸姿态估计方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中,本发明获取待测的人脸图片数据,通过预设的人脸姿态估计模型对待测的人脸图片数据进行预测,获得人脸姿态估计数据,其中,人脸姿态估计模型包括回归分支和分类分支,通过分类分支辅助回归分支进行训练,以使得训练好的回归分支对人脸图片数据进行预测。通过上述配置方式,由于回归分支用于连续值的预测,具有更高的精细度,分类分支用于离散值的预测,虽然精细度相对较低,但具有更高的分辨准确度,通过在模型结果上将回归分支和分类分支进行融合,应用分类分支辅助回归分支进行训练,能够结合回归分支的精确性和分类分支的鲁棒性,从而优化回归分支对人脸图片数据进行预测的过程,能够有效提升人脸姿态估计的精度。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
图1是根据本发明的一个实施例的人脸姿态估计方法的主要步骤流程示意图;
图2是根据本发明实施例的一个实施方式的人脸姿态数据的三个角度示意图;
图3是根据本发明实施例的一个实施方式的分类分支辅助回归分支进行训练的主要步骤流程示意图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
这里先解释本发明涉及到的一些术语。
人脸ROI(Region OfInterest,感兴趣区域)区域:人脸所在区域外接框,一般用矩形框表示;矩形框左上角坐标、结合矩形框的宽高,可确定人脸ROI区域。
人脸欧拉角度:相对于图像坐标系(右手坐标系),由三个角度组成,每个角度限制在-90~+90°范围内:
1.Yaw(偏航角):人脸左右侧脸角度。
2.Pitch(俯仰角):人脸抬低头角度。
3.Roll(滚转角):人脸左右偏头角度。
回归分支适用于非固定连续值的预测,分类分支适用于固定离散值的预测。
参阅附图1,图1是根据本发明的一个实施例的人脸姿态估计方法的主要步骤流程示意图。如图1所示,本发明实施例中的人脸姿态估计方法主要包括下列步骤S101-步骤S102。
步骤S101:获取待测的人脸图片数据。
在本实施例中,可以获取用于进行人脸姿态估计的人脸图片数据。
一个实施方式中,待测的人脸图片数据可通过照相机、摄像机或手机等电子设备进行采集。
一个实施方式中,待测的人脸图片数据不仅仅是包括人脸数据,因此预测待测的人脸图片数据之前要将出人脸外的其他数据进行剔除。
步骤S102:通过预设的人脸姿态估计模型对待测的人脸图片数据进行预测,获得人脸姿态估计数据,其中,人脸姿态估计模型包括回归分支和分类分支,通过分类分支辅助回归分支进行训练,以使得训练好的回归分支对人脸图片数据进行预测。
在本实施例中,人脸姿态估计模型包括分类分支和回归分支,分类分支用于分类分支进行训练,训练好的回归分支用于对人脸图片数据进行预测,获得人脸姿态估计数据。
一个实施方式中,参阅附图2,图2是根据本发明实施例的一个实施方式的人脸姿态估计数据的三个角度示意图。如图2所示,获得人脸姿态估计数据包括三个角度的人脸数据。第一是Yaw:人脸左右侧脸角度。第二是Pitch:人脸抬低头角度。第三是Roll:人脸左右偏头角度。
基于上述步骤S101-步骤S102,本发明实施例获取待测的人脸图片数据,通过预设的人脸姿态估计模型对待测的人脸图片数据进行预测,获得人脸姿态估计数据,其中,人脸姿态估计模型包括回归分支和分类分支,通过分类分支辅助回归分支进行训练,以使得训练好的回归分支对人脸图片数据进行预测。通过上述配置方式,由于回归分支用于连续值的预测,具有更高的精细度,分类分支用于离散值的预测,虽然精细度相对较低,但具有更高的分辨准确度,通过在模型结果上将回归分支和分类分支进行融合,应用分类分支辅助回归分支进行训练,能够结合回归分支的精确性和分类分支的鲁棒性,从而优化回归分支对人脸图片数据进行预测的过程,能够有效提升人脸姿态估计的精度。
下面对步骤S102作进一步地说明。
在本发明实施例的一个实施方式中,步骤S102可以包括步骤S1021至步骤S1022:
步骤S1021:根据待测的人脸图片数据,获取人脸图片数据的人脸空间语义特征。
步骤S1022:将人脸空间语义特征输入至人脸姿态估计模型中,获取人脸姿态估计数据。
在本实施方式中,通过深度模型对待测的人脸图片数据进行提取,得到人脸图片数据的人脸空间语义特征,以用于人脸姿态的预测。本方法的中所用深度模型,包括但不限于ResNet、MobileNet,GhostNet,ShuffleNet等。
一个实施方式中,步骤S1021可以进一步被配置为:对人脸图片数据进行ROI区域提取,获取人脸图片数据中的人脸ROI区域。
在本实施方式中,人脸图片数据可以通过crop(裁切)进行ROI区域提取,再将提取后的人脸图片数据的ROI区域通过resize(图片尺寸调整)进行调整,使得人脸图片数据的ROI区域大小转换为模型输入大小。
在本发明实施例的一个实施方式中,可以通过以下步骤S201至步骤S205来实现通过分类分支辅助回归分支进行训练:
步骤S201:根据用于训练的人脸图片数据,获取人脸图片数据的人脸空间语义特征。
步骤S202:针对训练的每次迭代,根据人脸空间语义特征,应用分类分支进行人脸姿态的分类预测,获得分类预测结果。
步骤S203:根据人脸空间语义特征,应用回归分支进行人脸姿态的回归预测,获得回归预测结果。
步骤S204:根据分类预测结果和回归预测结果,获取回归分支的第一回归损失。
步骤S205:根据第一回归损失,进行反向传播,更新回归分支的模型参数,以实现回归分支的训练。
在本实施方式中,参阅附图3,图3是根据本发明实施例的一个实施方式的分类分支辅助回归分支进行训练的主要步骤流程示意图。如图3所示,在训练的过程中,用于训练的人脸图片数据会分别输入至回归分支和分类分支,经过分类分支得到分类预测结果,经过回归分支得到回归预测结果,根据分类预测结果和回归预测结果获取回归分支的第一回归损失,将第一回归损失进行反向传播,来对回归分支的模型参数进行更新,以实现回归分支的训练。
在本实施方式中,步骤S201可以包括步骤S2011至步骤S2012:
步骤S2011:对用于训练的人脸图片数据进行ROI区域提取,获取人脸图片数据中的人脸ROI区域。
步骤S2012:将人脸ROI区域进行数据增强,获取数据增强后的人脸ROI区域;根据增强后的人脸ROI区域,进行特征提取,获取人脸空间语义特征。
在本实施方式中,将用于训练的人脸图片数据进行数据增强,来增加难样本的学习概率,优化模糊、昏暗、戴口罩或眼镜等复杂人脸场景。本实施方式中,采用数据增强包括但不限于高斯模糊、运动模糊、极限亮度、随机擦除等方法来针对性优化。针对模糊,采用高斯模糊、运动模糊等数据增强方法。针对昏暗,采用极限亮度模拟等数据增强方法。针对戴口罩、戴眼镜,采用随机擦除、口罩模拟等数据增强方法。再将增强后的人脸ROI区域进行特征提取,得到人脸空间语义特征用于训练人脸姿态估计模型。
一个实施方式中,用于训练的人脸图片数据为单目标人脸图片,每张图片含有一个人脸,即人脸ROI区域。人脸ROI区域含有三个欧拉角度值标注,即人脸姿态真值数据(包含yaw\pitch\roll三个对应方向的旋转角度),每个方向角度限制在-90~+90范围内。
在本实施方式中,步骤S204可以包括步骤S2041至步骤S2043:
步骤S2041:根据分类预测结果和人脸图片数据的人脸姿态真值数据,获取分类分支的分类损失。
步骤S2042:根据回归预测结果和人脸姿态真值数据,获取回归分支的第二回归损失。
步骤S2043:根据分类损失和第二回归损失,获取第一回归损失。
在本实施方式中,如图3所示,可以根据分类预测结果和人脸姿态真值数据,获取分类损失;可以根据回归预测结果和人脸姿态真值数据,获取第二回归损失;根据分类损失和第二回归损失来获取第一回归损失。
一个实施方式中,可以使用最小平方误差mse loss对回归预测结果和人脸姿态真值数据进行计算,来获取回归分支的第二回归损失。
一个实施方式中,可以使用交叉熵cross entropy loss对分类预测结果和人脸图片数据的人脸姿态真值数据进行计算,来获取分类分支的分类损失。
一个实施方式中,步骤S2043可以进一步被配置为:
将分类损失和第二回归损失进行加权计算,获得第一回归损失。
在本实施方式中,可以分别为分类损失和第二回归损失设置权重A和B(A+B=1,A>0,B>0),将分类损失和第二回归损失可以分别乘以相对应的权重A和B后相加来获取第一回归损失。
在本实施方式中,分类分支包括多个不同量化精度的分类子分支;分类预测结果包括多个子分支分类预测结果,步骤S202可以包括步骤S2021至步骤S2022:
步骤S2021:针对每个分类子分支,应用分类子分支进行人脸姿态的分类预测,获得分类子分支的子分支分类预测结果。
步骤S2022:应用soft-argmax算法,根据多个子分支分类预测结果,获得分类预测结果。
在本实施方式中,可以对多个分类子分支的子分支分类预测结果进行聚合,从而获得分类预测结果。由于每个子分支分类预测结果都是不连续的,因而应用soft-argmax算法来求不同量化精度的预测结果的概率期望,以获得分类预测结果。且由于soft-argmax算法是可微的,就能够应用获得分类预测结果进行微分,使得离散值转化为连续值。从而可以使用转换后的连续值与人脸姿态真值数据获得分类损失,以应用分类损失和第二回归损失进行加权计算获得第一回归损失,从而实现应用第一回归损失反向传播,更新回归分支的模型参数。
如图3所示,分类分支可以包括三个不同量化精度的分类子分支,三种量化精度分别为1°、3°、9°。对于1度的量化精度,将-90~90范围连续角度值按1度精度分为180类(-180,-179,-178),即180类分类子分支,对于3度的量化精度则分为60类(-180,-177,-174...),即60类分类子分支,对于9度的量化精度分为20类(-180,-171,-162...),即20类分类子分支。通过将用于训练的人脸图片数据输入至三个不同量化精度的分类子分支,获得三个子分支分类预测结果。
一个实施方式中,三个子分支分类预测结果可以通过soft-argmax算法得到分类预测结果,分类预测结果是三个子分支分类预测结果的期望。
需要说明的是,针对不同量化进度的分类子分支,随着量化精度的降低,量化类别会减少,分类子分支就更容易预测,鲁棒性越高。本领域技术人员可以根据实际应用的需要来设置分类子分支的数量以及每个分类子分支的量化精度。
一个实施方式中,通过分类分支辅助回归分支进行训练的步骤还可以包括以下步骤S206至步骤S207:
步骤S206:根据每个子分支分类预测结果和人脸姿态真值数据,获取对应的分类子分支的子分支分类损失。
步骤S207:根据每个子分支分类损失,进行反向传播,更新对应的分类子分支的模型参数。
在本实施方式中,可以通过使用可以使用交叉熵cross entropy loss对每个子分支分类预测结果和人脸姿态真值数据进行计算,来获取对应的分类子分支的子分支分类损失。
一个实施方式中,可以将每个子分支分类损失在相对应的分类子分支的模型上进行反向传播,来更新对应的分类子分支的模型参数,以达到优化分支的模型的目的。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的人脸姿态估计方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的人脸姿态估计方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
在本发明实施例中控制装置可以是包括各种电子设备形成的控制装置设备。在一些可能的实施方式中,控制装置可以包括多个存储装置和多个处理器。而执行上述方法实施例的人脸姿态估计方法的程序可以被分割成多段子程序,每段子程序分别可以由处理器加载并运行以执行上述方法实施例的人脸姿态估计方法的不同步骤。具体地,每段子程序可以分别存储在不同的存储装置中,每个处理器可以被配置成用于执行一个或多个存储装置中的程序,以共同实现上述方法实施例的人脸姿态估计方法,即每个处理器分别执行上述方法实施例的人脸姿态估计方法的不同步骤,来共同实现上述方法实施例的人脸姿态估计方法。
上述多个处理器可以是部署于同一个设备上的处理器,例如上述控制装置可以是由多个处理器组成的高性能设备,上述多个处理器可以是该高性能设备上配置的处理器。此外,上述多个处理器也可以是部署于不同设备上的处理器,例如上述控制装置可以是服务器集群,上述多个处理器可以是服务器集群中不同服务器上的处理器。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的人脸姿态估计方法的程序,该程序可以由处理器加载并运行以实现上述人脸姿态估计方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种人脸姿态估计方法,其特征在于,所述方法包括:
获取待测的人脸图片数据;
通过预设的人脸姿态估计模型对所述待测的人脸图片数据进行预测,获得人脸姿态估计数据;
其中,所述人脸姿态估计模型包括回归分支和分类分支,通过所述分类分支辅助所述回归分支进行训练,以使得训练好的所述回归分支对所述人脸图片数据进行预测。
2.根据权利要求1所述的人脸姿态估计方法,其特征在于,
所述通过所述分类分支辅助所述回归分支进行训练,包括:
根据用于训练的人脸图片数据,获取所述人脸图片数据的人脸空间语义特征;
针对所述训练的每次迭代,根据所述人脸空间语义特征,应用所述分类分支进行人脸姿态的分类预测,获得分类预测结果;
根据所述人脸空间语义特征,应用所述回归分支进行人脸姿态的回归预测,获得回归预测结果;
根据所述分类预测结果和所述回归预测结果,获取所述回归分支的第一回归损失;
根据所述第一回归损失,进行反向传播,更新所述回归分支的模型参数,以实现所述回归分支的训练。
3.根据权利要求2所述的人脸姿态估计方法,其特征在于,
所述根据所述分类预测结果和所述回归预测结果,获取所述回归分支的第一回归损失,包括:
根据所述分类预测结果和所述人脸图片数据的人脸姿态真值数据,获取所述分类分支的分类损失;
根据所述回归预测结果和所述人脸姿态真值数据,获取所述回归分支的第二回归损失;
根据所述分类损失和所述第二回归损失,获取所述第一回归损失。
4.根据权利要求2所述的人脸姿态估计方法,其特征在于,所述分类分支包括多个不同量化精度的分类子分支;所述分类预测结果包括多个子分支分类预测结果;
所述应用所述分类分支进行人脸姿态的分类预测,获得分类预测结果,包括:
针对每个分类子分支,应用所述分类子分支进行人脸姿态的分类预测,获得所述分类子分支的子分支分类预测结果;
应用soft-argmax算法,根据多个所述子分支分类预测结果,获得所述分类预测结果。
5.根据权利要求3所述的人脸姿态估计方法,其特征在于,
所述根据所述分类损失和所述第二回归损失,获取所述第一回归损失,包括:
将所述分类损失和所述第二回归损失进行加权计算,获得所述第一回归损失。
6.根据权利要求4所述的人脸姿态估计方法,其特征在于,
所述通过所述分类分支辅助所述回归分支进行训练,还包括:
根据每个所述子分支分类预测结果和所述人脸姿态真值数据,获取对应的分类子分支的子分支分类损失;
根据每个子分支分类损失,进行反向传播,更新对应的分类子分支的模型参数。
7.根据权利要求2至6中任一项所述的人脸姿态估计方法,其特征在于,
所述通过预设的人脸姿态估计模型对所述待测的人脸图片数据进行预测,获得人脸姿态估计数据,包括:
根据所述待测的人脸图片数据,获取所述人脸图片数据的人脸空间语义特征;
将所述人脸空间语义特征输入至所述人脸姿态估计模型中,获取所述人脸姿态估计数据。
8.根据权利要求7所述的人脸姿态估计方法,其特征在于,
所述获取所述人脸图片数据的人脸空间语义特征,包括:
对所述人脸图片数据进行ROI区域提取,获取所述人脸图片数据中的人脸ROI区域;
当所述人脸图片数据为用于训练的人脸图片数据时,将所述人脸ROI区域进行数据增强,获取数据增强后的人脸ROI区域;根据所述增强后的人脸ROI区域,进行特征提取,获取所述人脸空间语义特征;
当所述人脸图片数据为待测的人脸图片数据时,根据所述人脸ROI区域,进行特征提取,获取所述人脸空间语义特征。
9.一种控制装置,包括至少一个处理器和至少一个存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至8中任一项所述的人脸姿态估计方法。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的人脸姿态估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310766030.2A CN116721455A (zh) | 2023-06-26 | 2023-06-26 | 一种人脸姿态估计方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310766030.2A CN116721455A (zh) | 2023-06-26 | 2023-06-26 | 一种人脸姿态估计方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116721455A true CN116721455A (zh) | 2023-09-08 |
Family
ID=87865942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310766030.2A Pending CN116721455A (zh) | 2023-06-26 | 2023-06-26 | 一种人脸姿态估计方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721455A (zh) |
-
2023
- 2023-06-26 CN CN202310766030.2A patent/CN116721455A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
JP7147078B2 (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
US10825187B2 (en) | Method and system for object tracking | |
US10037624B2 (en) | Calibrating object shape | |
EP1975879A2 (en) | Computer implemented method for tracking object in sequence of frames of video | |
US20140307950A1 (en) | Image deblurring | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN108875931B (zh) | 神经网络训练及图像处理方法、装置、系统 | |
US11720745B2 (en) | Detecting occlusion of digital ink | |
CN112561978A (zh) | 深度估计网络的训练方法、图像的深度估计方法、设备 | |
CN108229494B (zh) | 网络训练方法、处理方法、装置、存储介质和电子设备 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN111383252A (zh) | 多相机目标追踪方法、系统、装置及存储介质 | |
CN110827341A (zh) | 一种图片深度估计方法、装置和存储介质 | |
CN114170558A (zh) | 用于视频处理的方法、系统、设备、介质和产品 | |
CN114627438A (zh) | 目标检测模型生成方法、目标检测方法、设备及介质 | |
CN109543557B (zh) | 视频帧的处理方法、装置、设备以及存储介质 | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
CN116721455A (zh) | 一种人脸姿态估计方法、装置及介质 | |
CN113724176A (zh) | 一种多摄像头动作捕捉无缝衔接方法、装置、终端及介质 | |
CN113610016A (zh) | 视频帧特征提取模型的训练方法、系统、设备及存储介质 | |
CN113537359A (zh) | 训练数据的生成方法及装置、计算机可读介质和电子设备 | |
CN107886522B (zh) | 尺度自适应的目标模型更新方法及装置 | |
KR20240018150A (ko) | 영상 잡음 제거 방법 및 장치 | |
CN110969651B (zh) | 3d景深估计方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |