CN111339941A - 一种头部姿态检测方法 - Google Patents
一种头部姿态检测方法 Download PDFInfo
- Publication number
- CN111339941A CN111339941A CN202010119229.2A CN202010119229A CN111339941A CN 111339941 A CN111339941 A CN 111339941A CN 202010119229 A CN202010119229 A CN 202010119229A CN 111339941 A CN111339941 A CN 111339941A
- Authority
- CN
- China
- Prior art keywords
- axis
- head
- detection method
- deep learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000013136 deep learning model Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 206010003805 Autism Diseases 0.000 description 3
- 208000020706 Autistic disease Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 208000013403 hyperactivity Diseases 0.000 description 3
- 208000020016 psychiatric disease Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 208000016686 tic disease Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种头部姿态检测方法,它包括以下步骤:(a)选择数据集;(b)对所述数据集中的人脸图片进行预处理,随后进行大小转换得到设定大小的图片;(c)对深度学习的模型构建以MobileNetv2作为骨干;(d)将所述设定大小的图片放入所述神经网络进行分类;(e)对所述全连接层的结果做softmax以将所述全连接层的值映射成概率值;(f)对所述概率值进行映射得回归,用MSE损失函数的方法计算回归的损失概率;(g)对所述损失概率进行权重加权求和,并对最终的损失概率梯度方向,以完成深度学习模型的训练;(h)将所述深度学习模型对儿童头部进行测试。具有程序检测速度快、能达到实时性。
Description
技术领域
本发明涉及一种头部姿态检测方法,涉及一种利用计算机视觉技术中深度学习训练模型对精神疾病儿童的头部姿态进行检测的方法。
背景技术
头部姿态能够帮助人们定位以传递一些丰富的信息,比如人们用他们的头部指向来表明其对话对象和意图。在一些对话中,头部方向是一个非语言的公示,提醒倾听者什么时候去转换角色和开始说话;在这些对话中,头部姿态方向和手势的形式有着相同重要的作用。
对于一些自闭症、多动症或抽动症儿童来说,头部指向更能够反映出这些孩子对于当前环境中所指的意图是什么,可以方便治疗师或者医生了解这些孩子的想法。当今的头部姿态检测方法有多种:如早期使用探测器阵列方法(训练很多的头部探测器,每个检测器适应一个特殊姿势,然后指定一个离散姿势到这些探测器上,相应的预测一些头部姿态);中期使用机器学习中的非线性回归方法或者随机森林算法;近期的一些算法是提取人脸的关键点,以深度学习训练进行头部姿态的预测。
但是上述方法存在一定的缺陷:都比较依赖于环境的影响。如果环境背景有很大的变换,或者检测者的年龄有很大的差距(如具有自闭症、多动症或抽动症等精神疾病的人群普遍是儿童,而儿童的头部姿态检测和成人略有不同),就容易造成检测结构不准确。
发明内容
本发明目的是为了克服现有技术的不足而提供一种头部姿态检测方法,适用于具有自闭症、多动症或抽动症等精神疾病的儿童。
为达到上述目的,本发明所采用的技术方案为:一种头部姿态检测方法,它包括以下步骤:
(a)选择数据集;
(b)对所述数据集中的人脸图片进行预处理,使用多任务级联卷积神经网络对所述人脸图片进行人脸检测和切割,随后进行大小转换得到设定大小的图片;
(c)对深度学习的模型构建以MobileNetv2作为骨干且分别连接三个全连接层的神经网络;
(d)将所述设定大小的图片放入所述神经网络进行分类;
(e)对所述全连接层的结果做softmax以将所述全连接层的值映射成概率值;
(f)对所述概率值进行映射得回归,用MSE损失函数的方法计算回归的损失概率;
(g)对所述损失概率进行权重加权求和,并对最终的损失概率梯度方向,以完成深度学习模型的训练;
(h)以鼻子为基础点,水平的方向设置成x轴,垂直的方向设置成y轴,z轴则垂直于x轴与y轴形成的平面,环绕x轴、y轴、z轴顺时针旋转的角度定义为头部姿态在pitch、yaw、roll方向的偏移角度,将所述深度学习模型对儿童头部进行测试得到儿童头部的姿势位置。
优化地,步骤(a)中,所述数据集是BIWI、300W-LP和AFLW2000数据集。
优化地,步骤(b)中,所述预处理是将所述人脸图片中不需要的背景或其它物体排除。
进一步地,步骤(b)中,所述多任务级联卷积神经网络由PNet、RNet和Onet三个级联的轻量级CNN完成。
优化地,步骤(d)中,将所述分类结果map到一个范围里面。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:本发明头部姿态检测方法,利用深度学习模型使用复合型损失函数对三个角度分别进行损失计算,具有程序检测速度快、能达到实时性;有统一的评判标准,准确率高;可以节省治疗师或者医生观察孩子的时间,让治疗师或者医生在其它方面更多的去治疗孩子;而且数据可以视频的形式被存储和显示。
附图说明
图1为本发明头部姿态检测方法中MSE损失函数的流程图;
图2为本发明头部姿态检测方法的第一使用效果图;
图3为本发明头部姿态检测方法的第二使用效果图。
具体实施方式
下面将结合附图对本发明优选实施方案进行详细说明。
本发明头部姿态检测方法,它包括以下步骤:
(a)选择数据集;在本实施例中,数据集主要是BIWI、300W-LP和AFLW2000数据集(即主要是在BIWI、300W-LP和AFLW2000数据集上训练和测试的)。BIWI数据集发布于2010年,包含1000个高质量的3D扫描仪和专业麦克风采集的3D数据,采集以每秒25帧的速度获取密集的动态面部扫描。300W-LP是基于300W数据集和3DMM模型仿真得到的3D数据集,这是3D领域里使用最大,使用最广泛的仿真数据集,包含了68个关键点,相机参数以及3DMM模型的系数的标注。AFLW是一个包括多姿态、多视角的大规模人脸数据库,一般用于评估面部关键点检测效果,图片来自于flickr的爬取,总共有21997张图、25993张面孔、每张人脸标注21个关键点(共380000个关键点)。
(b)对数据集中的人脸图片进行预处理,使用多任务级联卷积神经网络(MTCNN,MTCNN是比较经典快速的人脸检测技术,它是由三个级联的轻量级CNN完成:PNet,RNet和Onet)对人脸图片进行人脸检测和切割,把一些不需要的背景或者是其它物体进行排除,以保证训练时不出现过拟合数据。随后将预处理的图片进行大小转换得到设定大小的图片,因为深度学习在训练时候需要大小一致的图片,在本实施例中,设定每一张图片的大小是128像素×128像素;
(c)对深度学习的模型构建以MobileNetv2作为骨干且分别连接三个全连接层的神经网络(即深度网络是以MobileNetv2作为基础的骨干,分别全连接三个全连接层,每个层单独预测);
(d)将设定大小的图片放入神经网络进行分类,然后将分类的结果map到一个范围里面,这样它的精度会有很大的提升(这个步骤是分类的损失概率);
(e)对全连接层的结果做softmax以将全连接层的值映射成概率值;
(f)对概率值进行映射得回归(即根据这个概率值进行映射就是需要的回归),用MSE损失函数的方法计算回归的损失概率(如图1所示;MSE本来主要介绍机器学习中常见的损失函数MSE的定义以及它的求导特性,而数理统计中均方误差是指参数估计值与参数值之差平方的期望值;MSE是衡量“平均误差”的一种较方便的方法,可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度);
(g)对损失概率进行权重加权求和,并对最终的损失概率梯度方向,以完成深度学习模型的训练;
(h)以鼻子为基础点,水平的方向设置成x轴,垂直的方向设置成y轴,z轴则垂直于x轴与y轴形成的平面,环绕x轴、y轴、z轴顺时针旋转的角度定义为头部姿态在pitch、yaw、roll方向的偏移角度,将深度学习模型对儿童头部进行测试得到儿童头部的姿势位置(具体应用参见图2和图3)。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种头部姿态检测方法,其特征在于,它包括以下步骤:
(a)选择数据集;
(b)对所述数据集中的人脸图片进行预处理,使用多任务级联卷积神经网络对所述人脸图片进行人脸检测和切割,随后进行大小转换得到设定大小的图片;
(c)对深度学习的模型构建以MobileNetv2作为骨干且分别连接三个全连接层的神经网络;
(d)将所述设定大小的图片放入所述神经网络进行分类;
(e)对所述全连接层的结果做softmax以将所述全连接层的值映射成概率值;
(f)对所述概率值进行映射得回归,用MSE损失函数的方法计算回归的损失概率;
(g)对所述损失概率进行权重加权求和,并对最终的损失概率梯度方向,以完成深度学习模型的训练;
(h)以鼻子为基础点,水平的方向设置成x轴,垂直的方向设置成y轴,z轴则垂直于x轴与y轴形成的平面,环绕x轴、y轴、z轴顺时针旋转的角度定义为头部姿态在pitch、yaw、roll方向的偏移角度,将所述深度学习模型对儿童头部进行测试得到儿童头部的姿势位置。
2.根据权利要求1所述的头部姿态检测方法,其特征在于:步骤(a)中,所述数据集是BIWI、300W-LP和AFLW2000数据集。
3.根据权利要求1所述的头部姿态检测方法,其特征在于:步骤(b)中,所述预处理是将所述人脸图片中不需要的背景或其它物体排除。
4.根据权利要求1或3所述的头部姿态检测方法,其特征在于:步骤(b)中,所述多任务级联卷积神经网络由PNet、RNet和Onet三个级联的轻量级CNN完成。
5.根据权利要求1所述的头部姿态检测方法,其特征在于:步骤(d)中,将所述分类结果map到一个范围里面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010119229.2A CN111339941A (zh) | 2020-02-26 | 2020-02-26 | 一种头部姿态检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010119229.2A CN111339941A (zh) | 2020-02-26 | 2020-02-26 | 一种头部姿态检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339941A true CN111339941A (zh) | 2020-06-26 |
Family
ID=71183659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010119229.2A Pending CN111339941A (zh) | 2020-02-26 | 2020-02-26 | 一种头部姿态检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339941A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241761A (zh) * | 2020-10-15 | 2021-01-19 | 北京字跳网络技术有限公司 | 模型训练方法、装置和电子设备 |
CN112634363A (zh) * | 2020-12-10 | 2021-04-09 | 上海零眸智能科技有限公司 | 一种货架姿态预估方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748858A (zh) * | 2017-06-15 | 2018-03-02 | 华南理工大学 | 一种基于级联卷积神经网络的多姿态眼睛定位方法 |
-
2020
- 2020-02-26 CN CN202010119229.2A patent/CN111339941A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748858A (zh) * | 2017-06-15 | 2018-03-02 | 华南理工大学 | 一种基于级联卷积神经网络的多姿态眼睛定位方法 |
Non-Patent Citations (1)
Title |
---|
XIAOJIE GUO等: "PFLD: A Practical Facial Landmark Detector" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241761A (zh) * | 2020-10-15 | 2021-01-19 | 北京字跳网络技术有限公司 | 模型训练方法、装置和电子设备 |
CN112241761B (zh) * | 2020-10-15 | 2024-03-26 | 北京字跳网络技术有限公司 | 模型训练方法、装置和电子设备 |
CN112634363A (zh) * | 2020-12-10 | 2021-04-09 | 上海零眸智能科技有限公司 | 一种货架姿态预估方法 |
CN112634363B (zh) * | 2020-12-10 | 2023-10-03 | 上海零眸智能科技有限公司 | 一种货架姿态预估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325437B (zh) | 图像处理方法、装置和系统 | |
CN110287880A (zh) | 一种基于深度学习的姿态鲁棒性人脸识别方法 | |
CN107358648A (zh) | 基于单张人脸图像的实时全自动高质量三维人脸重建方法 | |
CN111028319B (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN110889343A (zh) | 基于注意力型深度神经网络的人群密度估计方法及装置 | |
Li et al. | Sign language recognition based on computer vision | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN110135277B (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN112949622A (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN111339941A (zh) | 一种头部姿态检测方法 | |
Depuru et al. | Convolutional neural network based human emotion recognition system: A deep learning approach | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Zhao et al. | Rapid offline detection and 3D annotation of assembly elements in the augmented assembly | |
CN111914595A (zh) | 一种基于彩色图像的人手三维姿态估计方法和装置 | |
CN109753922A (zh) | 基于稠密卷积神经网络的仿人机器人表情识别方法 | |
Yanmin et al. | Research on ear recognition based on SSD_MobileNet_v1 network | |
CN110490165B (zh) | 一种基于卷积神经网络的动态手势跟踪方法 | |
Wang et al. | Swimmer's Posture Recognition and Correction Method Based on Embedded Depth Image Skeleton Tracking. | |
CN116823983A (zh) | 基于风格收集机制的一对多风格书法图片生成方法 | |
CN110705355A (zh) | 一种基于关键点约束的人脸姿态估计方法 | |
CN113192186B (zh) | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 | |
CN113536926A (zh) | 基于距离向量和多角度自适应网络的人体动作识别方法 | |
Zhou et al. | Motion balance ability detection based on video analysis in virtual reality environment | |
Yang et al. | Recognition of design fixation via body language using computer vision | |
CN112989952B (zh) | 一种基于遮罩引导的人群密度估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200626 |