CN111401456A - 人脸姿态识别模型的训练方法及其系统和装置 - Google Patents
人脸姿态识别模型的训练方法及其系统和装置 Download PDFInfo
- Publication number
- CN111401456A CN111401456A CN202010200187.5A CN202010200187A CN111401456A CN 111401456 A CN111401456 A CN 111401456A CN 202010200187 A CN202010200187 A CN 202010200187A CN 111401456 A CN111401456 A CN 111401456A
- Authority
- CN
- China
- Prior art keywords
- angle
- roll
- value
- loss
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 206010061274 Malocclusion Diseases 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 40
- 238000010586 diagram Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Human Computer Interaction (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Image Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
Abstract
本发明涉及图像识别技术领域,尤其涉及人脸姿态识别模型的训练方法及其系统和装置。基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,包括以下步骤:根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练。该方法具有准确率高、实时结果稳定、复杂场景下鲁棒性好、网络结构简单适合全平台部署等优点。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及人脸姿态识别模型的训练方法及其系统和装置。
背景技术
人脸姿态(pose)识别属于人脸属性识别,在人脸图像分析中起着重要作用。各种基于人脸的实际应用比如人脸识别、人脸属性识别等等,尤其在多平台、多场景的环境中,都依赖人脸姿态准确稳定的识别。人脸姿态主要由三个方向角也称欧拉角roll,yaw,pitch决定,其中roll方向角表示平面内人脸的旋转角度,范围为[-180,180],yaw角表示三维旋转之左右旋转角,范围为[-90,90],pitch角表示三维旋转之俯仰角[-90,90]。
目前卷积神经网络在计算机视觉任务中取得了显著的进步,特别是在图像领域,基于卷积神经网络的深度学习方法比传统方法效果有明显的提升。
在传统人脸姿态识别方法中,一般基于特征模板匹配和检测器分类方法,这类传统方法提取的有效人脸特征没有基于卷积神经网络提取的特征丰富,往往造成模型鲁棒性差,遇到复杂场景准确性会严重下降。而基于卷积神经网络的方法相比之下会大大提高模型鲁棒性,可以适应更复杂场景的人脸姿态识别。基于卷积神经网络的人脸姿态识别方法大多依赖人脸特征关键点,然后通过人脸特征关键点来计算人脸姿态角。这类方法的识别准确性依赖人脸特征关键点的定位精度,一旦出现大角度人脸比如侧脸、低头、遮挡等情况,或者出现复杂场景比如弱光、强光、逆光等情况,关键点定位精度会出现下降,进而影响人脸姿态识别准确性,特别是在实时人脸姿态识别情况下结果的稳定性和准确性都会严重降低。相对来说人脸特征关键点个数越多,人脸姿态识别结果就越准,但是往往会增加关键点定位模型的计算量和参数量,这样模型不适合在低算力的芯片平台上部署,造成一定的局限性。
发明内容
本发明提供一种基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,该发明采用卷积神经网络和概率模型方法预测人脸姿态角(roll,yaw,pitch),以解决现有方法依赖人脸关键点定位、大角度人脸姿态pose识别不准确、实时识别结果不够稳定、复杂场景下鲁棒性差等问题,该发明方法支持人脸姿态角中roll角[-180,180]或者[-90,90],yaw角[-90,90],pitch角度[-90,90]范围内识别,具有准确率高、实时结果稳定、复杂场景下鲁棒性好、网络结构简单适合全平台部署等优点。
为实现上述目的,本发明第一方面的技术方案提供了基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,包括以下步骤:
(a)根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;
其中,分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,下标i∈[0,cnum-1];
(b)依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练;
其中,所述概率模型计算方向角roll、yaw、pitch角度值的公式均如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值,cnum表示分类类别数;
所述联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到。
在一些可能的实施方式中,所述方向角角度分类损失采用交叉熵损失函数计算;
所述交叉熵损失函数如下:
在一些可能的实施方式中,所述方向角均方误差损失的计算公式如下:
其中,E′j表示第j个样本方向角角度值的最终预测值,valuej表示第j个样本方向角角度值的真实值,m表示训练样本个数。
在一些可能的实施方式中,所述方向角方差损失的计算公式如下:
在一些可能的实施方式中,所述加权组合的计算公式如下:
Ltotal=Lcls+αLmse+βLvar;
其中,Lcls为方向角角度分类损失,Lmse为方向角均方误差损失,Lvar为方向角方差损失,α和β分别表示均方误差损失和方差损失的权重。
在一些可能的实施方式中,在设置阈值间隔与角度值转换为方向角类别之间,还包括以下步骤:
对所述方向角roll角度值识别范围进行判断;
若方向角roll识别的角度值范围需支持[-180,180],则所述方向角roll角度值以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;
若方向角roll识别的角度值范围无需支持[-180,180],则所述方向角roll角度值直接以设置的阈值间隔转换为不同的方向角类别。。
在一些可能的实施方式中,所述roll角旋转方向的分类识别损失函数计算公式如下:
相应地,所述roll角的联合损失计算公式如下:
本发明第二方面的技术方案提供了基于卷积神经网络和概率模型的人脸姿态识别模型的训练系统,包括:
类别模块,用于根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;
其中,分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,下标i∈[0,cnum-1];
训练模块,用于依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练;
其中,所述概率模型计算方向角roll、yaw、pitch角度值的公式均如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值,cnum表示分类类别数;
所述联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到。
在一些可能的实施方式中,所述系统还包括扩展模块,用于支持方向角roll的角度值为±180度时的识别;
若方向角roll识别的角度值范围需支持[-180,180],则所述方向角roll角度值以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;
所述roll角旋转方向的分类识别损失函数计算公式如下:
相应地,所述roll角的联合损失计算公式如下:
若方向角roll识别的角度值范围无需支持[-180,180],则所述方向角roll角度值直接以设置的阈值间隔转换为不同的方向角类别。
本发明第三方面的技术方案提供了基于卷积神经网络和概率模型的人脸姿态识别模型的训练装置,所述装置包括:处理器;
用于存储处理器可执行指令的存储器,所述可执行指令在被执行时实现上述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法的步骤。
本发明第四方面的技术方案提供了人脸姿态识别的方法,将图像输入到上述述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法得到的人脸姿态识别模型中,以识别人脸姿态。
本发明与现有技术相比至少具有以下有益效果:
1、本发明依据预设理想预测误差设置阈值间隔并以此将方向角角度转换为分类标签,分别用概率模型对人脸姿态进行联合训练。
2、本发明依据概率模型的离散随机变量X的数学期望E(x)作为人脸姿态的预测角度值,并基于阈值间隔和方向角取值范围对其做了进一步修正。
3、为进一步提高方向角识别结果的准确性,增加方向角的均方损失函数;为进一步提高方向角实时识别结果的稳定性,增加方向角的方差损失函数。
4、为了实现整体训练稳定且收敛,各个损失函数需进行加权组合,组成联合损失函数,并设置了均方误差损失和方差损失的权重。
5、为了实现roll角在±180度时的无抖动稳定预测,将roll角在[-180,180]范围内的识别改为roll角绝对值的预测和roll旋转方向的预测,在此种情况下增加roll角旋转方向分类损失函数。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明实施方式中所涉及基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法的流程框图;
图2示出了本发明实施方式中所涉及基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法的另一种流程图;
图3示出了本发明实施方式中所涉及的roll角识别范围为[-90,90]情况下的网络结构图;
图4示出了本发明实施方式中所涉及的roll角识别范围为[-180,180]情况下的网络结构图;
图5示出了基于卷积神经网络和概率模型的人脸姿态识别模型的训练系统的结构框图;
图6示出了基于卷积神经网络和概率模型的人脸姿态识别模型的训练系统的另一种结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
如图1所示,本发明的实施例公开了基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,包括以下步骤:
(a)根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;
其中,分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,下标i∈[0,cnum-1];
(b)依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练;
其中,所述概率模型计算方向角roll、yaw、pitch角度值的公式均如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值,cnum表示分类类别数;
所述联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到。
本发明提供的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法不是直接使用网络回归预测三个方向角roll,yaw,pitch的角度值,直接回归预测方法会导致网络训练难以收敛,而是将三个方向角的回归问题转为分类问题解决,这样不仅使网络容易训练,而且模型鲁棒性更好。
本发明方法将回归问题转换为分类问题,首先需要将roll,yaw,pitch角度值依次转换为分类标签,分类类别的个数是由阈值间隔bins决定的,而阈值间隔bins决定了预测角度的理想误差(ideal_error)范围,比如阈值间隔bins设为3度,那么最终预测角度的误差可以到达1.5度以内。当然阈值间隔bins可以设置更低或者更高,可以根据任务场景需求精度或者模型计算量进行调整,如果任务需求精度高或对模型计算量无限制,阈值间隔bins可以设置为1度,表示误差可以达到0.5度以内,如果需求精度不高则阈值间隔bins可以设置为5度甚至10度。预设预测角度的理想误差与阈值间隔bins之间的计算关系如下:
ideal_error=bins/2。
分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
其中minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,其中下标i∈[0,cnum-1]。
本发明中,三个方向角roll,yaw,pitch的角度值的阈值间隔可以相同,也可以不同。阈值间隔bins的取值可以依据芯片平台算力决定,并不局限于某一具体值。
通过预先设置的阈值间隔bins将角度值转换为分类标签,将人脸姿态pose方向角roll,yaw,pitch依次转换为分类类别后,回归问题转换为分类问题,但是如果只做分类任务,不能得到具体的角度值,只能预测角度值所属的大致范围,而且预测结果不一定稳定。
本发明方法进一步提出在分类任务的基础上依据概率模型计算人脸姿态pose的角度值。将方向角角度值转换为分类标签后,每一次人脸姿态pose的类别预测可以看作是相互独立的离散事件,那么可以将预测人脸方向角角度属于的类别看作离散随机变量X,其中X的取值范围为xi∈{0,1,2,...,cnum-1},那么对应概率为pi∈{p0,p1,p2,...,pcnum-1},即概率统计里面因变量X,xi表示概率事件,pi表示对应概率事件xi发生的概率,该概率可以通过对网络分类输出进行softmax计算后得到。依据离散型随机变量概率分布原理,可以计算离散型随机变量X的数学期望E(x)。本发明将随机变量X的数学期望E(X)作为人脸姿态pose的预测角度值。离散随机变量X的数学期望E(x)也就是预测角度值计算公式如下:
上述计算的随机变量X的数学期望E(X)也就是预测角度值与最终角度值有差异,需要进一步进行纠正。主要原因是离散随机变量X的取值没有将阈值间隔bins和取值范围考虑进去,本发明方法进一步对离散随机变量X的取值做进一步修正,考虑阈值间隔bins和方向角取值范围,其计算公式如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
其中,xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值。
在分类任务的基础上依据概率模型得到了人脸姿态pose方向角的最终预测值,在设置bins的时候就已经假设最终预测的理想角度值,然而实际上训练过程中可能达不到最终理想误差,但是训练过程就是让预测值最终靠近预设的理想值。本发明的网络采用联合训练方式,联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到,以训练优化网络。
在一些可能的实施方式中,所述方向角角度分类损失采用交叉熵损失函数计算;
所述交叉熵损失函数如下:
本发明中,方向角roll、yaw、pitch的方向角角度分类损失均按照上述交叉熵损失函数公式进行计算。
以roll角为例,其公式如下:
但是整个网络如果只有单纯的方向角分类训练并不会得到准确的预测结果,因此本发明在此基础上进一步优化网络模型的训练方法,增加方向角角度值的均方误差损失,通过下述公式可以将方向角的分类概率依据概率模型转换为方向角的角度预测值,然后结合方向角的真实角度值得到均方误差损失函数。
在一些可能的实施方式中,所述方向角均方误差损失的计算公式如下:
其中,E′j表示第j个样本方向角角度值的最终预测值,valuej表示第j个样本方向角角度值的真实值,m表示训练样本个数。
本发明中,方向角roll、yaw、pitch的方向角均方误差损失均按照上述计算公式进行计算。
以roll角为例,其公式如下:
在方向角分类损失的基础上增加方向角角度值的均方误差损失,可以使整个网络的训练快速收敛,得到比较准确的预测结果。考虑到实际应用中需做到实时稳定的姿态识别,防止识别结果出现过大的抖动,本发明方法依据离散随机变量概率分布原理进一步提出增加方向角角度值的方差损失函数来优化预测结果的稳定性,已知随机变量X的方差表示随机变量X与其均值(数学期望)的离散程度,方差越小表示离散程度越小,那么识别结果越稳定,抖动幅度越小。
在一些可能的实施方式中,所述方向角方差损失的计算公式如下:
本发明中,方向角roll、yaw、pitch的方向角方差损失均按照上述计算公式进行计算。
方向角角度值的方差损失,以roll角为例,计算公式如下:
其中,m表示训练样本个数,根据上述的公式可知,表示第j个样本属于第i个类别roll角角度值的理想预测参考值,E(x)′j表示第j个样本最终roll角的角度预测值,表示第j个样本roll角属于第i个类别的预测概率值。
其中,本发明方法网络训练所使用的方向角分类损失函数、方向角角度值误差损失函数并不局限于交叉熵损失函数和均方误差损失函数,其他分类损失函数或回归函数也用于此发明方法。
本发明方法最终的网络训练损失为分类损失、角度值的均方差损失和方差损失加权组合而成。
在一些可能的实施方式中,所述加权组合的计算公式如下:
Ltotal=Lcls+αLmse+βLvar;
其中,Lcls为方向角角度分类损失,Lmse为方向角均方误差损失,Lvar为方向角方差损失,α和β分别表示均方误差损失和方差损失的权重。
本发明中,方向角roll、yaw、pitch的最终的网络训练损失均按照上述计算公式进行计算。
以roll角为例,其他方向角依次类推,最终的损失函数计算公式如下:
其中,α和β分别表示均方差损失和方差损失的权重,一般α取值为0.1,β取值为0.05,但不局限于此。
本发明中,方向角roll的角度值范围为[-180,180],方向角yaw,pitch的角度值范围都在[-90,90]。根据方向角roll角的识别范围本发明的方法可以分为两种情况,第一种roll角无需支持±180度的识别,第二种roll角需支持±180度的识别,yaw角和pitch支持[-90,90]范围内识别。具体流程如图2所示。
针对第一种情况,构建基于卷积神经网络的人脸姿态pose识别网络,该网络可以依据模型部署芯片的算力合理设计网络结构,调控网络计算量和参数量,网络结构设计如图3所示,该网络有三个分支网络,分别对应roll,yaw,pitch三个方向角的分类预测。针对第二种情况,除了三个网络分支对应roll,yaw,pitch三个方向角的分类预测外,roll方向角还需要添加一个网络分支预测roll角的旋转方向即[-180,0]为逆时针方向,[0,180]为顺时针方向,即roll方向角以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类,网络结构设计如图4所示。
本发明所设计的网络结构并不局限于某种特定的网络结构设计,可依据实际需求或芯片平台算力设计合理的网络结构,依托合理的网络结构和采用本发明提供的方法即可以实现人脸姿态pose的准确稳定识别。
针对第一种情况,roll,yaw,pitch角范围都在[-90,90]内,假设阈值间隔bins设置为3,则可以将[-90,90]范围分割为60个间隔大小为bins的区间,那么分类类别个数则为60个类别。针对第二种情况,yaw,pitch角范围仍为[-90,90],yaw,pitch角转换为分类标签方式仍与第一种情况一致,但是roll角范围变为[-180,180],如果roll角的转换方式继续保持不变就会出现roll角在±180度附近的预测极其不稳定的情况,因为对人脸来说,在±180度附近旋转变化幅度并不大,但是对角度值来说最大可达到360度的改变,这样会导致训练很难收敛,人脸roll角在该范围内的预测结果会很不稳定。为了实现roll角在±180度附近稳定预测,本发明方法提出将roll角的方向预测单独分离出来,新增加一个网络分支预测roll角的旋转方向,该网络分支为二分类网络,而roll方向角的原分类网络改为只预测roll角的绝对值即其范围为[0,180],roll角绝对值转换为分类标签的方式与第一种情况一致。
总之,本发明提供的实施方式中,在roll角的分类处理中,可以直接将roll角的±180度作为单独的处理程序,如整个视频中检测到±180度,则只在检测到±180度的图像中以roll角绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;也可以将[-180,180]作为一个范围值来处理,如整个视频中检测到±180度,则整个视频的图像中的roll角均以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类。
在一些可能的实施方式中,在设置阈值间隔与角度值转换为方向角类别之间,还包括以下步骤:
对所述方向角roll角度值识别范围进行判断;
若方向角roll识别的角度值范围需支持[-180,180],则所述方向角roll角度值以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;
若方向角roll识别的角度值范围无需支持[-180,180],则所述方向角roll角度值直接以设置的阈值间隔转换为不同的方向角类别。。
针对roll角识别范围为[-180,180]情况,需增加roll角旋转方向的分类识别,该分类任务仍然采用交叉熵损失函数。
在一些可能的实施方式中,所述roll角旋转方向的分类识别损失函数计算公式如下:
相应地,所述roll角的联合损失计算公式如下:
也即针对roll角的第二种情况,总的联合损失计算公式采用上述计算公式。
本发明中,创建人脸姿态数据集,数据集包含人脸标签即每个人脸对应的三个方向角角度值(roll,yaw,pitch)以及对应人脸矩形框坐标[tx,ty,tw,th],人脸矩形框坐标是为了把人脸抠出来进行训练,人脸标签以及对应人脸矩形框坐标可以通过专业仪器设备采集计算得到,将其中80%作为训练数据集,20%作为测试数据集。
如图5所示,本发明的实施例还提供了基于卷积神经网络和概率模型的人脸姿态识别模型的训练系统,包括:
类别模块,用于根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;
其中,分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,下标i∈[0,cnum-1];
训练模块,用于依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练;
其中,所述概率模型计算方向角roll、yaw、pitch角度值的公式均如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值,cnum表示分类类别数;
所述联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到。
在一些可能的实施方式中,所述方向角角度分类损失采用交叉熵损失函数计算;
所述交叉熵损失函数如下:
在一些可能的实施方式中,所述方向角均方误差损失的计算公式如下:
其中,E′j表示第j个样本方向角角度值的最终预测值,valuej表示第j个样本方向角角度值的真实值,m表示训练样本个数。
在一些可能的实施方式中,所述方向角方差损失的计算公式如下:
在一些可能的实施方式中,所述加权组合的计算公式如下:
Ltotal=Lcls+αLmse+βLvar;
其中,Lcls为方向角角度分类损失,Lmse为方向角均方误差损失,Lvar为方向角方差损失,α和β分别表示均方误差损失和方差损失的权重。
如图6所示,在一些可能的实施方式中,所述系统还包括扩展模块,用于支持方向角roll的角度值为±180度时的识别;
若方向角roll识别的角度值范围需支持[-180,180],则所述方向角roll角度值以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;
所述roll角旋转方向的分类识别损失函数计算公式如下:
相应地,所述roll角的联合损失计算公式如下:
若方向角roll识别的角度值范围无需支持[-180,180],则所述方向角roll角度值直接以设置的阈值间隔转换为不同的方向角类别。。
基于上述的基于卷积神经网络和概率模型的人脸姿态识别方法,本发明的实施例还提供了基于卷积神经网络和概率模型的人脸姿态识别模型的训练装置,所述装置包括:处理器;
用于存储处理器可执行指令的存储器,所述可执行指令在被执行时实现上述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法的步骤。
基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在执行本发明各种实施场景的方法的电子设备上。
本发明的实施例还提供了人脸姿态识别的方法,将图像输入到上述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法得到的人脸姿态识别模型中,以识别人脸姿态。
即将待识别的目标人脸姿态输入,经roll概率模型、yaw概率模型和pitch概率模型分别处理后,分别得到目标人脸的方向角roll、yaw、pitch角度值,而识别得到目标人脸姿态。
另外,需要说明的是,本发明上述不同的实施例中,在一些可能的实施方式中的技术特征可进行任意的组合来形成不同的实施例。在此,就不再赘述。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接,或虚拟连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明附图中的流程图和框图显示了根据本发明公开的多个实施例的系统、方法和装置的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本说明书的描述中,术语“一些可能的实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,其特征在于,包括以下步骤:
(a)根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;
其中,分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,下标i∈[0,cnum-1];
(b)依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练;
其中,所述概率模型计算方向角roll、yaw、pitch角度值的公式均如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值,cnum表示分类类别数;
所述联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到。
5.根据权利要求1所述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,其特征在于,所述加权组合的计算公式如下:
Ltotal=Lcls+αLmse+βLvar;
其中,Lcls为方向角角度分类损失,Lmse为方向角均方误差损失,Lvar为方向角方差损失,α和β分别表示均方误差损失和方差损失的权重。
6.根据权利要求1-5任一项所述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法,其特征在于,在设置阈值间隔与角度值转换为方向角类别之间,还包括以下步骤:
对所述方向角roll角度值识别范围进行判断;
若方向角roll识别的角度值范围需支持[-180,180],则所述方向角roll角度值以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;
所述roll角旋转方向的分类识别损失函数计算公式如下:
相应地,所述roll角的联合损失计算公式如下:
若方向角roll识别的角度值范围无需支持[-180,180],则所述方向角roll角度值直接以设置的阈值间隔转换为不同的方向角类别。
7.基于卷积神经网络和概率模型的人脸姿态识别模型的训练系统,其特征在于,包括:
类别模块,用于根据预设理想误差分别对方向角roll、yaw、pitch角度值设置阈值间隔,所述方向角roll、yaw、pitch的角度值分别转换为不同的方向角类别;
其中,分类类别数与区间间隔范围的计算公式如下:
intervali=[minvalue+i*bins,minvalue+(i+1)*bins);
minvalue和maxvalue分别表示方向角范围的最大值和最小值,cnum表示分类类别数,bins表示阈值间隔,intervali表示第i个类别的角度值范围,下标i∈[0,cnum-1];
训练模块,用于依据概率模型对所述人脸姿态方向角roll,yaw,pitch角度值的方向角分类类别进行联合训练;
其中,所述概率模型计算方向角roll、yaw、pitch角度值的公式均如下:
x′i=(xi*bins)+minvalue+(bins-1)/2
xi表示第i个类别的类别数值即xi∈[0,cnum-1],x′i表示每个类别方向角角度值的理想预测参考值,E(x)′为最终的角度预测值,bins为阈值间隔,minvalue为方向角范围的最小值,cnum表示分类类别数;
所述联合训练通过计算联合损失函数进行,所述联合损失函数为方向角角度分类损失、方向角均方误差损失和方向角方差损失加权组合得到。
8.根据权利要求7所述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练系统,其特征在于,所述系统还包括扩展模块,用于支持方向角roll的角度值为±180度时的识别;
若方向角roll识别的角度值范围需支持[-180,180],则所述方向角roll角度值以其绝对值设置阈值间隔进行分类,并额外增加roll角旋转方向的分类;
所述roll角旋转方向的分类识别损失函数计算公式如下:
相应地,所述roll角的联合损失计算公式如下:
若方向角roll识别的角度值范围无需支持[-180,180],则所述方向角roll角度值直接以设置的阈值间隔转换为不同的方向角类别。
9.基于卷积神经网络和概率模型的人脸姿态识别模型的训练装置,其特征在于,所述装置包括:处理器;
用于存储处理器可执行指令的存储器,所述可执行指令在被执行时实现权利要求1-6任一项所述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法的步骤。
10.人脸姿态识别的方法,其特征在于,将图像输入到权利要求1-6任一项所述的基于卷积神经网络和概率模型的人脸姿态识别模型的训练方法得到的人脸姿态识别模型中,以识别人脸姿态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200187.5A CN111401456B (zh) | 2020-03-20 | 2020-03-20 | 人脸姿态识别模型的训练方法及其系统和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200187.5A CN111401456B (zh) | 2020-03-20 | 2020-03-20 | 人脸姿态识别模型的训练方法及其系统和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401456A true CN111401456A (zh) | 2020-07-10 |
CN111401456B CN111401456B (zh) | 2023-08-22 |
Family
ID=71429008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010200187.5A Active CN111401456B (zh) | 2020-03-20 | 2020-03-20 | 人脸姿态识别模型的训练方法及其系统和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401456B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084856A (zh) * | 2020-08-05 | 2020-12-15 | 深圳市优必选科技股份有限公司 | 一种人脸姿态检测方法、装置、终端设备及存储介质 |
CN112133311A (zh) * | 2020-09-18 | 2020-12-25 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112183358A (zh) * | 2020-09-29 | 2021-01-05 | 新石器慧拓(北京)科技有限公司 | 一种目标检测模型的训练方法及装置 |
CN112634363A (zh) * | 2020-12-10 | 2021-04-09 | 上海零眸智能科技有限公司 | 一种货架姿态预估方法 |
CN114863556A (zh) * | 2022-04-13 | 2022-08-05 | 上海大学 | 一种基于骨骼姿态的多神经网络融合连续动作识别方法 |
CN115620082A (zh) * | 2022-09-29 | 2023-01-17 | 北京的卢深视科技有限公司 | 模型训练方法、头部姿态估计方法、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032845A1 (en) * | 2016-07-26 | 2018-02-01 | Viisights Solutions Ltd. | Video content contextual classification |
WO2018119684A1 (zh) * | 2016-12-27 | 2018-07-05 | 深圳前海达闼云端智能科技有限公司 | 一种图像识别系统及图像识别方法 |
CN109344713A (zh) * | 2018-08-31 | 2019-02-15 | 电子科技大学 | 一种姿态鲁棒的人脸识别方法 |
WO2019128646A1 (zh) * | 2017-12-28 | 2019-07-04 | 深圳励飞科技有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
CN110070037A (zh) * | 2019-04-22 | 2019-07-30 | 深圳力维智联技术有限公司 | 人脸识别模型的平滑升级方法、装置和可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739546A (zh) * | 2008-11-05 | 2010-06-16 | 沈阳工业大学 | 基于图像交叉重建的单样本注册图像人脸识别方法 |
CN105469041B (zh) * | 2015-11-19 | 2019-05-24 | 上海交通大学 | 基于多任务正则化与逐层监督神经网络的人脸点检测系统 |
CN106504064A (zh) * | 2016-10-25 | 2017-03-15 | 清华大学 | 基于深度卷积神经网络的服装分类与搭配推荐方法及系统 |
CN108304829B (zh) * | 2018-03-08 | 2020-03-06 | 北京旷视科技有限公司 | 人脸识别方法、装置及系统 |
CN110647811A (zh) * | 2019-08-15 | 2020-01-03 | 中国平安人寿保险股份有限公司 | 人脸姿态检测方法、装置及计算机可读存储介质 |
-
2020
- 2020-03-20 CN CN202010200187.5A patent/CN111401456B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032845A1 (en) * | 2016-07-26 | 2018-02-01 | Viisights Solutions Ltd. | Video content contextual classification |
WO2018119684A1 (zh) * | 2016-12-27 | 2018-07-05 | 深圳前海达闼云端智能科技有限公司 | 一种图像识别系统及图像识别方法 |
WO2019128646A1 (zh) * | 2017-12-28 | 2019-07-04 | 深圳励飞科技有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
CN109344713A (zh) * | 2018-08-31 | 2019-02-15 | 电子科技大学 | 一种姿态鲁棒的人脸识别方法 |
CN110070037A (zh) * | 2019-04-22 | 2019-07-30 | 深圳力维智联技术有限公司 | 人脸识别模型的平滑升级方法、装置和可读存储介质 |
Non-Patent Citations (1)
Title |
---|
魏玮;赵露;刘依;: "基于迁移学习的人脸姿态分类方法", 测控技术, no. 02 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084856A (zh) * | 2020-08-05 | 2020-12-15 | 深圳市优必选科技股份有限公司 | 一种人脸姿态检测方法、装置、终端设备及存储介质 |
WO2022027912A1 (zh) * | 2020-08-05 | 2022-02-10 | 深圳市优必选科技股份有限公司 | 一种人脸姿态检测方法、装置、终端设备及存储介质 |
CN112133311A (zh) * | 2020-09-18 | 2020-12-25 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112133311B (zh) * | 2020-09-18 | 2023-01-17 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112183358A (zh) * | 2020-09-29 | 2021-01-05 | 新石器慧拓(北京)科技有限公司 | 一种目标检测模型的训练方法及装置 |
CN112183358B (zh) * | 2020-09-29 | 2024-04-23 | 新石器慧通(北京)科技有限公司 | 一种目标检测模型的训练方法及装置 |
CN112634363A (zh) * | 2020-12-10 | 2021-04-09 | 上海零眸智能科技有限公司 | 一种货架姿态预估方法 |
CN112634363B (zh) * | 2020-12-10 | 2023-10-03 | 上海零眸智能科技有限公司 | 一种货架姿态预估方法 |
CN114863556A (zh) * | 2022-04-13 | 2022-08-05 | 上海大学 | 一种基于骨骼姿态的多神经网络融合连续动作识别方法 |
CN115620082A (zh) * | 2022-09-29 | 2023-01-17 | 北京的卢深视科技有限公司 | 模型训练方法、头部姿态估计方法、电子设备及存储介质 |
CN115620082B (zh) * | 2022-09-29 | 2023-09-01 | 合肥的卢深视科技有限公司 | 模型训练方法、头部姿态估计方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111401456B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401456B (zh) | 人脸姿态识别模型的训练方法及其系统和装置 | |
CN108898086B (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
US11062123B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
US10929649B2 (en) | Multi-pose face feature point detection method based on cascade regression | |
WO2022027912A1 (zh) | 一种人脸姿态检测方法、装置、终端设备及存储介质 | |
CN114241282A (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
WO2014187223A1 (en) | Method and apparatus for identifying facial features | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN109376787B (zh) | 流形学习网络及基于其的计算机视觉图像集分类方法 | |
CN111160407A (zh) | 一种深度学习目标检测方法及系统 | |
CN111126140A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN112100435B (zh) | 一种基于边缘端交通音视频同步样本的自动标注方法 | |
CN110443279B (zh) | 一种基于轻量级神经网络的无人机图像车辆检测方法 | |
KR102508860B1 (ko) | 이미지에서의 키 포인트 위치의 인식 방법, 장치, 전자기기 및 매체 | |
CN116614705B (zh) | 基于多模态视频特征分析的采煤工作面相机调控系统 | |
Teng et al. | Generative robotic grasping using depthwise separable convolution | |
CN109685823B (zh) | 一种基于深度森林的目标跟踪方法 | |
CN117372928A (zh) | 一种视频目标检测方法、装置及相关设备 | |
WO2024021504A1 (zh) | 人脸识别模型训练方法、识别方法、装置、设备及介质 | |
CN109858543B (zh) | 基于低秩稀疏表征和关系推断的图像可记忆度预测方法 | |
Lin et al. | Robot grasping based on object shape approximation and LightGBM | |
CN115601578A (zh) | 基于自步学习与视图赋权的多视图聚类方法及系统 | |
Cheng et al. | Improved fast compressive tracking for low-altitude flying target tracking | |
Cao et al. | Separable-programming based probabilistic-iteration and restriction-resolving correlation filter for robust real-time visual tracking | |
CN112465865A (zh) | 一种基于背景建模和IoU匹配的多目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |