CN111539912B

CN111539912B - 基于人脸结构定位的健康指标评估方法、设备和存储介质

Info

Publication number: CN111539912B
Application number: CN202010209865.4A
Authority: CN
Inventors: 罗冠; 游强; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2021-09-28
Anticipated expiration: 2040-03-23
Also published as: CN111539912A

Abstract

本发明公开了一种基于人脸结构定位的健康指标评估方法、设备和存储介质。该方法包括：采集有效人脸图像；确定所述有效人脸图像中目标人脸的姿态角；如果所述目标人脸的姿态角在预设的姿态角范围之内，则在所述有效人脸图像中，通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息；根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标。本发明实施例无需借助专业医生和医疗器械，利用图像处理技术可以解决借助仪器进行健康全面评估成本高、过程繁琐、需要专业人员全面参与等问题。而且本发明实施例利用人脸图像处理进行健康指标评估，可以保证评估结果的真实性。

Description

基于人脸结构定位的健康指标评估方法、设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于人脸结构定位的健康指标评估方法、设备和存储介质。

背景技术

随着经济的不断发展，身体健康水平越来越受到重视。例如：在入职体检、个人体检、办理健康保险时，需要评估体重指数是否达到标准，牙齿是否健康，是否患有牙颌面疾病等等健康指标。

但是，目前部分健康指标可以由用户个人来进行评估，但是真实性不能得到保障，部分健康指标需要借助专业医生和医疗器械来完成，虽然真实性可以得到保障，但是投入的金钱和时间成本较高。具体而言：

体重指数(Body Mass Index，简称BMI)是一项衡量人体体型标准与否的指标。其中，BMI＝体重/身高的平方。这样，在计算BMI时需要知道人体的身高和体重。但是，在很多场合下，采集用户真实的身高和体重是一件较为困难的事情，从而造成获得用户准确的BMI较为困难。

牙齿健康评估方式往往需要借助专业医生和/或专业仪器，这样造成用户在进行牙齿健康评估时，会受到时间和地域的限制，例如：用户只能到医院或者牙科诊所进行牙齿健康评估，这样会导致牙齿健康评估的成本较高。

口呼吸面容在临床上又称为“腺样体面容”。口呼吸面容是由于腺样体肥大造成发育中牙颌的改变造成的牙颌面畸形。拥有口呼吸面容的人群往往伴随着一些睡眠的问题，比如：夜间入睡困难、鼾症严重等，与牙齿健康评估方式相类似，疑似患者需要到医院借助专业器材进行鉴定，时间成本和资金成本较高。医生在鉴定口呼吸面容时需要借助专业器材分析口腔与鼻腔之间的腺样体以及口腔颌骨，才能确诊口呼吸面容，时间成本较高。

因此，如何提供一种既能保证真实性，成本又低的健康指标评估方式，已经成为本领域技术人员亟待解决的问题。

发明内容

本发明实施例的主要目的在于提供一种基于人脸结构定位的健康指标评估方法、设备和存储介质，以解决目前缺少一种既能保证真实性，成本又低的健康指标评估方式的问题。

针对上述技术问题，本发明实施例是通过以下技术方案来解决的：

本发明实施例提供了一种基于人脸结构定位的健康指标评估方法，包括：采集有效人脸图像；确定所述有效人脸图像中目标人脸的姿态角；如果所述目标人脸的姿态角在预设的姿态角范围之内，则在所述有效人脸图像中，通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息；根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标。

其中，所述采集有效人脸图像，包括：采集用户环境图像；确定所述用户环境图像的平均亮度值；如果所述用户环境图像的平均亮度值在预设的亮度值范围之内，则针对所述用户环境图像进行人脸检测；如果在所述用户环境图像中检测到人脸，则确定所述用户环境图像为有效人脸图像；如果所述用户环境图像的平均亮度值未在所述亮度值范围之内，或者，在所述用户环境图像中未检测到人脸，则进行用户环境图像重新采集提示。

其中，在所述针对所述用户环境图像进行人脸检测之前，还包括：确定所述用户环境图像的图像亮度标准差；如果所述图像亮度标准差小于预设的图像亮度标准差阈值，则利用伽马变换算法，对所述用户环境图像进行图像增强处理。

其中，所述确定所述有效人脸图像中目标人脸的姿态角，包括：在所述有效人脸图像中，针对目标人脸进行标记点标记；获取预先设置的三维人体头像模型；其中，在所述三维人体头像模型的脸部标记有标记点，并且在所述三维人体头像模型的脸部标记的标记点和在所述目标人脸上标记的标记点的数量和在相同维度空间中的类型相同；根据所述三维人体头像模型中的标记点以及所述有效人脸图像中针对目标人脸的标记点，确定所述目标人脸的姿态角。

其中，所述通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息，包括：根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，和/或，提取所述目标人脸的牙齿区域图像。

其中，如果根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，则根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标，包括：将所述目标人脸的第一结构度量特征输入预先训练的体重指数预测模型，获取所述体重指数预测模型输出的所述目标人脸对应的体重指数；和/或，将所述目标人脸的第二结构度量特征输入预先训练的口呼吸面容识别模型，获取所述口呼吸面容识别模型输出的口呼吸面容识别结果；其中，对预设的正样本图像进行图像增广处理，利用图像增广处理后的正样本图像的数据以及预设的负样本图像的数据，训练所述口呼吸面容识别模型。

其中，所述对预设的正样本图像进行数据增广处理，包括：在所述正样本图像中，提取人脸的结构度量特征；在所述人脸的结构度量特征中的每一维特征上增加高斯噪声，得到新的正样本图像。

其中，如果根据所述目标人脸的标记点，提取所述目标人脸的牙齿区域图像，则根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标，包括：根据所述目标人脸的标记点，分割出所述牙齿区域图像中的每颗牙齿对应的牙齿图像；根据每颗牙齿对应的牙齿图像，确定所述目标人脸的牙齿健康等级。

本发明实施例还提供了一种基于人脸结构定位的健康指标评估设备，所述基于人脸结构定位的健康指标评估设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的基于人脸结构定位的健康指标评估程序，以实现上述任一项所述的基于人脸结构定位的健康指标评估方法。

本发明实施例还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的基于人脸结构定位的健康指标评估方法。

本发明实施例有益效果如下：

本发明实施例无需借助专业医生和医疗器械，利用图像处理技术可以解决借助仪器进行健康全面评估成本高、过程繁琐、需要专业人员全面参与等问题。而且本发明实施例利用人脸图像处理进行健康指标评估，可以保证评估结果的真实性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明一实施例的基于人脸结构定位的健康指标评估方法的流程图；

图2是根据本发明一实施例的采集有效人脸图像的步骤流程图；

图3是根据本发明一实施例的图像增强处理的步骤流程图；

图4是根据本发明一实施例的姿态角确定的步骤流程图；

图5是根据本发明一实施例的坐标系转换的示意图；

图6是根据本发明一实施例的标记点的示意图；

图7是根据本发明一实施例的A点和承浆点的示意图；

图8是根据本发明一实施例的结构度量特征提取的步骤流程图；

图9是根据本发明一实施例的脸部结构关键点的示意图；

图10是根据本发明一实施例的模型训练的步骤流程图；

图11是根据本发明一实施例的图像增广处理的步骤流程图；

图12是根据本发明一实施例的基于人脸结构定位的牙齿健康评估方法的流程图；

图13是根据本发明一实施例的口腔开合角度有效性验证的流程图；

图14是根据本发明一实施例的提取牙齿区域图像的步骤流程图；

图15是根据本发明一实施例的牙齿区域图像分割的步骤流程图；

图16是根据本发明一实施例的牙齿健康等级评估的步骤流程图；

图17是根据本发明一实施例的基于人脸结构定位的牙齿健康评估设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

根据本发明的实施例，提供了一种基于人脸结构定位的健康指标评估方法。如图1所示，为根据本发明一实施例的基于人脸结构定位的健康指标评估方法的流程图。

步骤S110，采集有效人脸图像。

有效人脸图像，是指包含人脸并且平均亮度值在预设的平均亮度值范围之内的图像。

步骤S120，确定所述有效人脸图像中目标人脸的姿态角。

目标人脸，是指待评估健康指标的用户的人脸。进一步地，该健康指标包括但不限于：体重指数(Body Mass Index，简称BMI)，牙齿健康等级，是否为口呼吸面容。

目标人脸的姿态角(θ,ψ,φ)包括：俯仰角θ、偏转角ψ和旋转角φ。

在本实施例中，根据目标人脸的人脸图像确定目标人脸的姿态角。

在有效人脸图像中可以包括多张人脸，在有效人脸图像中选择一张人脸作为目标人脸。

步骤S130，如果所述目标人脸的姿态角在预设的姿态角范围之内，则在所述有效人脸图像中，通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息。

针对所述目标人脸进行标记点标记，根据所述目标人脸的标记点，提取所述目标人脸的人脸结构信息。

标记点，是指在人脸预设位置标记的特征点。例如是：分别在两个瞳孔上标记的标记点，鼻头上标记的标记点，分别在两个嘴角上标记的标记点。标记点可以用于定位人脸的各个部位，进而根据标记点确定人脸结构。

人脸结构信息，包括：人脸的结构特征和人脸的区域图像。人脸的结构特征例如是：人脸长度，宽度。人脸的区域图像例如是：眼睛区域的图像，牙齿区域的图像等。

进一步地，根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，和/或，提取所述目标人脸的牙齿区域图像。

结构度量特征，是指人脸的结构特征。进一步地，结构度量特征为多维度特征向量。例如：五官的尺寸，角度等。

牙齿区域图像，是指目标人脸的牙齿的图像。

在本实施例中，可以基于多任务级联卷积神经网络(Multi-Task ConvolutionNeural Network，简称MTCNN)对目标人脸进行5个标记点的标记(5点标记)，也可以基于开源机器学习库(dlib)中的5个标记点或者68点标记点模型，在目标人脸上标记对应个数的标记点。

如果目标人脸的姿态角在预设的姿态角范围之内，则说明目标人脸基本为正脸。可以设置姿态角范围中的俯仰角范围∈[-25°,25°]，偏向角范围∈[-25°,25°]，旋转角范围∈[-35°,35°]。其中，当θ＝0,ψ＝0,φ＝0时，表示当前的目标人脸是标准的正脸。目标人脸的姿态角在姿态角范围内，即：目标人脸的俯仰角在俯仰角范围之内、偏向角在偏向角范围之内和旋转角在旋转角范围之内，就判定目标人脸为有效。

如果目标人脸的姿态角未在预设的姿态角范围之内，则说明目标人脸不是正脸，这时进行重新采集提示，使得用户根据该重新采集提示，重新采集用户环境图像。进一步地，将目标人脸的姿态角和预设的姿态角范围进行比对，如果超过了该姿态角范围，则目标人脸无效，向用户发出重新采集提示，以便提示用户上传一张包含正面人脸的图像。

筛选正面人脸来确定健康指标，可以提高健康指标的准确性。当正脸不能完全展示出来时，人脸信息将存在严重的缺失，得到的健康指标结果也会不准确。

步骤S140，根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标。

健康指标，包括但不限于：目标人脸对应的BMI，目标人脸的牙齿健康等级，目标人脸是否为口呼吸面容。当然，可以预先设置BMI健康区间，这样健康指标还可以包括目标人脸对应的BMI是否与BMI健康区间之内。

如果根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，则根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标，包括：将所述目标人脸的第一结构度量特征输入预先训练的体重指数预测模型，获取所述体重指数预测模型输出的所述目标人脸对应的体重指数；和/或，将所述目标人脸的第二结构度量特征输入预先训练的口呼吸面容识别模型，获取所述口呼吸面容识别模型输出的口呼吸面容识别结果；其中，对预设的正样本图像进行图像增广处理，利用图像增广处理后的正样本图像的数据以及预设的负样本图像的数据，训练所述口呼吸面容识别模型。第一结构度量特征的种类可以在训练体重指数预测模型的过程中确定，第二结构度量特征的种类可以在训练口呼吸面容模型的过程中确定。

如果根据所述目标人脸的标记点，提取所述目标人脸的牙齿区域图像，则根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标，包括：分割出所述牙齿区域图像中的每颗牙齿对应的牙齿图像；根据每颗牙齿对应的牙齿图像，确定所述目标人脸的牙齿健康等级。

本实施例无需借助专业医生和医疗器械，利用图像处理技术可以解决借助仪器进行健康全面评估成本高、过程繁琐、需要专业人员全面参与等问题。而且本实施例利用人脸图像处理进行健康指标评估，可以保证评估结果的真实性。本实施例简单易操作，具有成本低、不受时间和地域限制等优点，可以随时随地能够完成健康评估，并且能够方便地接入到在线医疗场景中。

针对上述利用结构度量信息结合预训练的模型，预测或者识别健康指标的方式，具体而言：

体重指数预测模型，用于根据输入的目标人脸的第一结构度量特征预测目标人脸对应的BMI。进一步地，目标人脸对应的体重指数，即是目标人脸所属用户的体重指数。

本实施例使体重指数预测模型利用结构度量特征预测目标人脸对应的BMI，本实施例的BMI预测方法便于操作且预测准确度高。本实施例可以解决无法有效采集用户真实身高和体重，从而无法获得用户的BMI的问题。本实施例的执行主体可以是服务器、台式设备和/或移动设备。服务器、台式设备和/或移动设备可以是具备摄像功能的设备。移动设备可以是用户设备，如：具备拍摄功能的智能手机和电子秤。本实施例的能够应用的场合非常广泛，包括但不限于：健康保险领域、健康体检领域、身体自查领域。例如：在医院环境中，获取用户的BMI，以便完成参保核保任务、体检项目等。在家庭环境中，获取用户的BMI，以便获知用户体型是否标准。进一步地，在一些需要验证用户身份同时测量BMI的场合，本实施例可以在预测BMI的同时，辅助实现用户身份的验证过程。

口呼吸面容识别模型，用于根据目标人脸的结构度量特征识别目标人脸是否为口呼吸面容。口呼吸面容识别模型输出的识别结果为目标人脸是口呼吸面容的百分比，以及目标人脸不是口呼吸面容的百分比。

在对该口呼吸面容识别模型进行训练之前，采集多个正样本图像和多个负样本图像。正样本图像是指包含口呼吸面容的人脸的图像。负样本图像是指不包含口呼吸面容的人脸的图像。对每个正样本图像进行图像增广处理，包括：在正样本图像中，提取目标人脸的结构度量特征；在所述结构度量特征中的每一维特征上增加高斯噪声，得到基于该正样本图像的新的正样本图像。其中，在结构度量特征中的每一维特征上增加限定较小幅度比例的高斯噪声。基于该正样本图像进行多次图像增广处理，进而可以得到多个基于该正样本图像的新的正样本图像。为图像增广处理后的正样本图像标注第一标签，为每个负样本图像标注第二标签。第一标签表示图像中的人脸为口呼吸面容，第二标签表示图像中的人脸不是口呼吸面容。根据图像增广处理后的所有正样本图像以及采集的多个负样本图像，形成数据集。

在本实施例中，利用图像处理技术，采集有效人脸图像，并且提取有效人脸图像中的有效的目标人脸的结构度量特征，结合预先训练的口呼吸面容识别模型识别目标人脸是否为口呼吸面容，本实施例从数据驱动和模型学习的角度识别口呼吸面容，简单易行，无论是时间成本还是资金成本都很低，识别过程中无需专业医疗器械的辅助，在医生诊断之前可以帮助医生做预诊断，解决了口呼吸面容诊断过程，无论对疑似患者还是对医生而言都成本较高的问题。进一步地，在训练模型之前，采集正样本图像，并对正样本图像进行增广处理，以便增加正样本图像的数量，使得训练的口呼吸面容识别模型的识别准确性更加准确。

下面针对采集有效人脸图像的步骤进行详细描述。

如图2所示，为根据本发明一实施例的采集有效人脸图像的步骤流程图。

步骤S210，采集用户环境图像。

用户环境图像，是指通过摄像头采集的摄像头视野内的图像。

用户环境图像可以调用用户设备或者健康评估设备的摄像头采集用户环境图像，或者，获取用户上传的用户环境图像。例如：利用用户设备实时采集用户环境图像，也可以提示用户上传用户环境图像。

在用户环境图像中，可以包括一张或者多张人脸。当然，在用户环境图像中，也可以不包含任何人脸。

步骤S220，确定所述用户环境图像的平均亮度值。

在本实施例中，可以用I(x,y)表示用户环境图像，用户环境图像的宽度为w，高度为h；其中，x∈[0,w],y∈[0,h]；I_xy的值表示位于用户环境图像中的位置坐标为(x,y)的像素点的亮度值，I_xy∈[0,255]。

用户环境图像的平均亮度值的计算公式如下：

进一步地，如果用户环境图像是彩色图像，则I_xy＝[I_R,I_G,I_B]，其中，I_R，I_G和I_B分别是红、黄、蓝三个通道的亮度值，用户环境图像的平均亮度值可以使用三个通道的亮度均值的平均值来代替，即：用户环境图像的平均亮度值＝(红通道的亮度均值+黄通道的亮度均值+蓝通道的亮度均值)÷3，亮度均值＝所有像素点的亮度值的和÷所有像素点的数量。

步骤S230，判断所述用户环境图像的平均亮度值在预设的亮度值范围之内；如果是，则执行步骤S240；如果否，则执行步骤S270。

预先设置亮度值范围为[I⁰,I¹]。该亮度值范围的端值I⁰和I¹可以是经验值或者通过实验获得的值。当

表示用户环境图像的平均亮度值过暗；当

则表示用户环境图像的平均亮度值过亮。

在本实施例中，为了降低用户环境图像的采集次数，预先模拟比较极端的情况，比如，模拟夜晚环境和大功率光源直射人脸场景下的用户环境图像的平均亮度值，将夜晚环境下的用户环境图像的平均亮度值作为亮度值范围的下限I⁰，将大功率光源直射人脸场景下的用户环境图像的平均亮度值作为亮度值范围的上限I¹。进一步地，可以将亮度值范围的下限I⁰和上限I¹依次设置为25和230。在日常情况下拍摄的图像很难出现这样极端的平均亮度值，一旦出现了极端情况，就代表图像几乎不可用，需要舍弃掉，这时可以执行预设的拒绝操作。该拒绝操作可以是进行重新采集提示。通过对用户环境图像进行亮度判断，可以提高后续人脸检测的精度。

步骤S240，如果所述用户环境图像的平均亮度值在所述亮度值范围之内，则针对所述用户环境图像进行人脸检测。

其中，针对用户环境图像进行人脸检测的方式将在后面进行具体描述。

步骤S250，判断在所述用户环境图像中是否检测到人脸；如果是，则执行步骤S260；如果否，则执行步骤S270。

步骤S260，如果在所述用户环境图像中检测到人脸，则确定所述用户环境图像为有效人脸图像。

在用户环境图像中检测到人脸之后，在用户环境图像中标识出人脸区域，并且将标识出的人脸区域作为人脸图像。

在本实施例中，可以利用人脸检测框，在用户环境图像中标识出人脸所在的区域。如果在用户环境图像中检测到多张人脸，则利用多个人脸检测框，分别标识出检测到的每张人脸的区域。

步骤S270，如果所述用户环境图像的平均亮度值未在所述亮度值范围之内，或者，在所述用户环境图像中未检测到人脸，则进行用户环境图像重新采集提示。

在本实施例中，在针对用户环境图像进行人脸检测之前，为了保证用户环境图像具有良好的对比度，可以对用户环境图像进行图像增强处理。

用户环境图像的对比度是指用户环境图像中的明暗区域最亮的白和最暗的黑之间的不同亮度层级的测量，即用户环境图像亮度反差(差异)的大小。亮度反差越大代表对比度越大，亮度反差越小代表对比度越小。

在本实施例中，图像增强处理的方式，包括但不限于：伽马变换和对数变换。下面对对比度较小的用户环境图像进行图像增强处理，进行具体描述。

如图3所示，为根据本发明一实施例的图像增强处理的步骤流程图。

步骤S310，确定用户环境图像的图像亮度标准差。

为了判断用户环境图像是否需要进行图像增强操作，可以计算用户环境图像的图像亮度标准差，该图像亮度标准差σ可以称之为均方根对比度。

在本实施例中，图像亮度标准差σ的计算公式如下：

用户环境图像的对比度越大，图像亮度标准差σ越大；用户环境图像的对比度越小，图像亮度标准差σ越小。

步骤S320，如果所述图像亮度标准差小于预设的图像亮度标准差阈值，则利用伽马变换算法，对所述用户环境图像进行图像增强处理。

对于对比度比较小的用户环境图像，可以采用伽马变换算法进行图像增强处理。伽马变换算法具有如下的标准形式：

其中，I(x,y)为图像增强之前的用户环境图像，O(x,y)为图像增强之后的用户环境图像，γ为控制参数。其中，γ大于0。也即是说，对于用户环境图像中的每个像素点进行如下的运算：

其中，为图像增强之后的像素点的亮度值。

当γ大于1时，用户环境图像将整体变暗，这样会拉伸图像中亮度较高的区域，同时压缩亮度较低的部分。

当γ等于1时，用户环境图像无变化。

当γ大于0且小于1时，用户环境图像将整体变亮，这样会拉伸图像中亮度较低的区域，同时会压缩亮度较高的部分。

在本实施例中，结合用户环境图像的平均亮度值

用户环境图像的最优的亮度值范围在165～175之间，可以取170作为平均亮度值阈值。

其中，γ的经验公式如下：

当

时，γ等于1，用户环境图像无变化；当

趋向于0时，γ趋向于0，用户环境图像整体变亮，并且对比度增大；当

趋向于255时，γ趋向于正无穷，用户环境图像整体变暗，且对比度变大。

在对用户环境图像进行图像增强处理之后，还可以对对图像增强处理后的用户环境图像执行去噪处理。

在对用户环境图像进行图像增强处理之后，可以对用户环境图像进行人脸检测。下面对人脸检测进行进一步地描述。

人脸检测方法可以采用滑动窗的方法来进行。具体的，滑动窗以预设的步进在用户环境图像中移动，二分类器基于人脸外部轮廓对滑动窗内的图像区域进行人脸识别，当图像区域内存在与人脸外轮廓匹配的形状时，将图像区域分类成人脸，这代表人脸被检测到。

滑动窗可以认为是人脸检测框。由于人脸有尺度上的不同，所以滑动窗的大小也会进行尺度上的缩放，以便匹配不同人脸在尺寸上的变化。在使用滑动窗检测人脸的过程中，可以采用基于梯度直方图(Histogram of Gradients)的人脸检测方法，在用户环境图像中检测人脸；也可以采用基于Harr-like特征的人脸检测方法，在用户环境图像中检测人脸。

当然，由于人脸有其特别的结构和纹理特征，本发明实施例还可以使用深度神经网络在用户环境图像中检测人脸。

深度神经网络的种类，包括但不限于：MTCNN和MobileNet-SSD。

在本发明实施例中，可以使用MTCNN对输入的用户环境图像进行人脸检测。该MTCNN可以在用户环境图像中检测人脸，并在用户环境图像中使用人脸检测框标识出检测到的人脸所在区域。

MTCNN是一种基于多任务级联CNN的人脸检测深度学习模型，该模型中综合考虑了人脸边框回归和脸部关键点检测。输入MTCNN的用户环境图像会按照不同的缩放比例，缩放成不同尺度大小的用户环境图像，从而形成图像的特征金字塔，这样保证了不同尺寸的人脸都能被检测到。MTCNN包含三个级联的子网络，分别称为PNet，RNet和ONet。其中，针对每个尺度的用户环境图像，PNet，RNet和ONet分别用于：

PNet根据输入的用户环境图像，生成标识人脸区域的候选窗口和边界框的回归向量；利用该边界框的回归向量，校准生成的候选窗口；通过第一非极大值抑制(Non-maximumsuppression，简称NMS)算法，对校准的候选框口进行第一次去重处理，得到经过PNet去重的候选窗口。

RNet先利用该边界框的回归向量，校准经过PNet去重的候选窗口；再利用第二NMS算法，对校准的候选窗口进行第二次去重处理，得到经过RNet去重的候选窗口。这样，实现了对经过PNet去重的候选窗口进行进一步地的筛选。

ONet功能与RNet作用类似，先利用该边界框的回归向量，校准经过RNet去重的候选窗口；利用第三NMS算法对校准的候选窗口进行第三次去重处理，并且在去除重叠候选窗口的同时，同时生成五个标记点定位。这样，ONet在对经过RNet去重的候选窗口进行进一步的筛选的同时，在每个候选窗口框出的人脸上，检测五个标记点。标记点，是指在人脸预设位置标记的特征点。该五个标记点包括：分别在两个瞳孔上标记的标记点，鼻头上标记的标记点，分别在两个嘴角上标记的标记点。

在第一NMS算法、第二NMS算法和第三NMS算法中设置的重叠度(Intersectionover Union，简称IOU)不同，IOU从大到小，依次为第一NMS算法、第二NMS算法和第三NMS算法，这样可以使得PNet、RNet和ONet完成从粗到细的候选窗口去重。

由于输入MTCNN的用户环境图像会按照不同的缩放比例进行缩放，形成图像金字塔，即多个尺度的图像，然后PNet、RNet和ONet分别对每个尺度的用户环境图像进行人脸检测，所以，需要在人脸检测之后，将所有候选窗口归一化到原始尺寸的用户环境图像中。例如：有的用户环境图像的尺度是原来的两倍，那么回归到原始尺寸的用户环境图像时，就需要将候选窗口归一化到原始尺寸的大小，即候选窗口的大小要除以2。将多个尺度上的候选窗口都归一化到原始尺度下才有可比较性。

在本实施例中，在基于深度神经网络在用户环境图像中检测人脸之前，需要对用于进行人脸检测的人脸检测网络MTCNN进行训练。进一步地，对MTCNN的训练包括：使用开源的人脸数据集，对MTCNN进行预训练，以便对MTCNN中的权重进行预训练；使用预先采集的定向人脸数据集，对MTCNN进行再训练，以便对MTCNN中的权重进行精调(fine-tune)训练，使得MTCNN能够更好地去检测与定向人脸数据集的人脸类型分布相似的人脸图像。人脸类型，包括但不限于：人脸的龄层，人脸的性别和人脸的肤色。

开源的人脸数据集，包括但不限于：VGG-Face、FDDB。开源数据集的特点是人脸的广泛性很强，但是缺乏精准性，各个种族的人脸都有囊括，其中以白人的人脸为主。定向人脸数据集是根据应用场景的特点采集的预设人脸类型的人脸图像，例如：定向人脸数据集中的图像以黄种人的人脸占主导。

不管是预训练还是精调训练，都是将人脸数据集(开源人脸数据集和定向人脸数据集)的人脸图像输入MTCNN中，使MTCNN检测人脸图像中的人脸，将检测结果与为人脸图像预先标注的结果进行比较，如果MTCNN的检测结果与为人脸图像预先标注的结果相同，则表明所训练的MTCNN对样本(人脸图像)的分类正确(即识别准确)，而且在MTCNN的识别准确率不再提高时，认为MTCNN已经收敛。识别准确率＝识别准确的次数÷(识别准确的次数+识别错误的次数)。

在MTCNN收敛之后，MTCNN就可以对图像增强之后的用户环境图像进行人脸检测了。

将用户环境图像输入已经训练完成的MTCNN。输入MTCNN网络的用户环境图像可以包含人脸也可以不包含人脸。当用户环境图像不包含人脸时，MTCNN网络输出的结果为空；当用户环境图像包含人脸时，MTCNN网络输出的是包含人脸检测框(标识出人脸区域)的用户环境图像。当检测到用户环境图像中出现一张人脸时，该张人脸被一个人脸检测框框出。当检测到用户环境图像中出现多张人脸时，每张人脸被一个人脸检测框框出。

如果在用户环境图像中检测出人脸，并且用户环境图像的平均亮度值在亮度值范围之内，则确定用户环境图像为有效人脸图像，之后可以确定有效人脸图像中目标人脸的姿态角。

如图4所示，为根据本发明一实施例的姿态角确定的步骤流程图。

步骤S410，在有效人脸图像中，针对目标人脸进行标记点标记。

人脸的姿态包括人脸在三维空间中的低头抬头的俯仰角度(俯仰角)、脸偏向左侧还是右侧的偏转角度(偏转角)、脸在平面内是逆时针还是顺时针旋转的角度(旋转角)。要完成目标人脸的姿态角的估计，依赖于目标人脸各个部位的标记点，标记点越多越精细，估计的姿态角越准确。

在本实施例中，在确定目标人脸的姿态角时，可以基于MTCNN的输出的5个标记点，或者，基于开源机器学习库(dlib)中使用的5点标记点模型，使用该5点标记点模型对有效人脸图像中的目标人脸进行5个标记点的标记。当然，为了提高姿态估计的精度，还可以使用dlib中的68点标记点模型，即在目标人脸上标记68个标记点。

步骤S420，获取预先设置的三维人体头像模型；其中，在三维人体头像模型的脸部标记有标记点，并且在三维人体头像模型的脸部标记的标记点和在目标人脸上标记的标记点的数量和在相同维度空间中的类型相同。

标记点的类型可以体现该标记点在人脸上的位置。例如：位于眉心的标记点可以体现该标记点在眉间点。

在三维人体头像模型的脸部标记的标记点和在目标人脸上标记的标记点在相同维度空间中的类型相同，是指：将目标人脸的标记点转换到三维空间之后，目标人脸的标记点和三维人体头像模型的脸部的标记点类型相同；或者，将三维人体头像模型的脸部的标记点转换到二维空间后，三维人体头像模型的脸部的标记点和目标人脸的标记点的类型相同。这样，在目标人脸上标记的每个标记点，在三维人体头像模型的脸部的对应位置都存在一个对应的标记点。

如果三维人体头像模型的脸部标记有5个标记点，则针对目标人脸可以进行5个标记点的标记；如果在三维人体头像模型的脸部标记有68个标记点，则针对目标人脸进行68个标记点的标记。

步骤S430，根据所述三维人体头像模型中的标记点以及所述有效人脸图像中针对目标人脸的标记点，确定所述目标人脸的姿态角。

在三个方向上转动三维人体头像模型，使得目标人脸的N个标记点跟三维人体头像模型中的N个标记点重合(或者近似重合)，这样三维人体头像模型的姿态就是目标人脸的姿态。

这样，目标人脸的姿态角估计问题可以转换为如下的优化问题：

假定三维人体头像模型的姿态角为(θ,ψ,φ)，对应的依次为俯仰角、偏转角和旋转角。如图5所示，在相机(摄像头)参数固定的情况下，求解世界坐标系下到相机坐标系下的旋转矩阵R和平移向量t。其中，世界坐标系为三维人体头像模型所在的三维坐标系，相机坐标系为有效人脸图像中目标人脸所在的平面坐标系(二维坐标系)。

在得到旋转矩阵R和平移向量t之后，将旋转矩阵R和平移向量t进行欧拉角转换，得到目标人脸的俯仰角、偏转角和旋转角。

具体的，在目标人脸上标记N个标记点之后，目标人脸上的每个标记点为三维人体头像模型脸部的一个标记点的投影点。三维人体头像模型脸部的标记点P的三维坐标为P_i，该标记点P在目标人脸所在平面的成像坐标(二维坐标)为f(P_i；R,t)，真实的投影点p的二维坐标为p_i，为了求得旋转矩阵R和平移向量t，只需要求解下面的最小投影均方误差问题。

其中，最小投影均方误差的表达式可以为：

这样，可以通过Levenberg-Marquardt优化方法近似求解最小投影均方误差，该优化方法的思想在于：微小地调整三维人体头像模型，得到该三维人体头像模型上的标记点投影在像平面(目标人脸所在平面)的坐标，直到上面的投影均方误差达到极小值即可。在实际的工程应用中，首先通过标准相机得到三维人体头像模型的脸部上的标记点在像平面的坐标集合，然后标定相机的内参数(初始的R和t)以及相机的焦距，使用开源的计算机视觉库OpenCV调用solvePnP等函数就能完成目标人脸的姿态估计。

在得到目标人脸的姿态角之后，将目标人脸的姿态角和预设姿态角范围进行比较，如果目标人脸的姿态角在预设的姿态角范围之内，则认为目标人脸有效，可以对有效人脸图像中的目标人脸进行裁剪，只保留目标人脸的人脸区域，得到目标人脸的人脸图像。

在本实施例中，在提取所述目标人脸的结构度量特征和/或区域图像之前，对目标人脸进行人脸对齐操作。人脸对齐操作，包括：通过仿射变换进行姿态角的补偿，使得人脸变换为正脸或者近似正脸，这些操作被称为人脸对齐。

在确定目标人脸的姿态角在预设的姿态角范围内之后，可以针对目标人脸进行标记点的标记。

具体而言，对目标人脸的人脸区域进行标记点标记的步骤，与确定姿态角时对目标人脸的人脸区域进行标记点标记类似，但是为了更好地标记出目标人脸的结构信息，在本实施例中使用的模型是dlib中68个标记点模型，这68个标记点可以将目标人脸的各个部位勾勒出来，比如这68个标记点可以勾勒出眉形、眼睛、鼻子、嘴巴以及脸部轮廓。如果在进行有效人脸识别时在目标人脸上已经标记过68个标记点，则在有效人脸图像中对目标人脸进行标记点的标记，可以使用上面已经标记过的标记点。

进一步地，本实施例根据BMI与人脸结构的关系，在目标人脸的人脸区域进行标记点的标记时，还可以标记其他标记点，例如：承浆点(穴)。根据口呼吸面容的特点，在对目标人脸的人脸区域进行标记点标记时，也可以标记其他标记点，例如：承浆点(穴)和发际线正中点。

承浆点，是指下嘴唇下沿到下巴尖(称为地阁)之间有一个凹陷的部位，该部位跟人脸下部的结构度量特征密切相关。可以被称为承浆点(穴)，将承浆点作为第69个标记点。进一步地，承浆点一般在下嘴唇下沿到地阁之间的线段上，且处于下凹的底部。下嘴唇下沿到地阁之间下凹的底部往往是线段上亮度最低的点。假定从下嘴唇下沿到地阁的线段的四分位点依次为a，b和c；通过搜索子线段ab之间亮度最低的点即被认为是要找的承浆点。这样就从目标人脸上找到了69个标记点，如图6所示，为根据本发明一实施例的标记点的示意图。

发际线正中点A，是指发际线和脸部皮肤相接的线条与穿过颅顶的脸部中心竖线的交接点。进一步地，可以基于深度学习的脸部分割技术，分割样本图像中的人脸区域，在人脸区域中确定脸部中心竖线，该脸部中心竖线向上延伸可以过颅顶，该脸部中心竖线和人脸区域的上交点即是交接点。具体的，通过训练一个全卷积网络，使该全卷积网络在样本图像中区分哪些区域属于人脸区域，哪些不属于人脸区域，进而将人脸区域分割问题转变为一个二类分类问题。在实际处理的过程中，样本图像的候选区域(人脸区域)的产生是一个比较关键的问题，直接关系到分割的性能和效率。可以先采用基于超像素的分割方法产生候选区域，然后基于非最大值抑制算法避免产生太小的区域，这样一张近似人脸区域的蒙层(mask)就产生了。在已知的69个点中挑选相对稳定的点对(例如：鼻尖H和人中上点K)，产生一条刚好穿过鼻梁中心以及下巴定位点的脸部中心竖线，竖线与脸部的蒙层的上交点就是所要找的交接点。

如图7所示，为根据本发明一实施例的A点和承浆点的示意图。图7显示了从互联网上抓取的一张图像，在该张图像的目标人脸上标记68个标记点，确定目标人脸的蒙层并且在这68个标记点上标记出A点和承浆点。其中，额头发际线下发的标记点为A点，下嘴唇和下巴之间的标记点为承浆点，其他为原始的68个标记点。

基于这70个标记点可以提取目标人脸的结构度量特征。

如图8所示，为根据本发明一实施例的结构度量特征提取的步骤流程图。

步骤S810，根据所述目标人脸的标记点，提取所述目标人脸的脸部结构关键点。

步骤S820，根据所述目标人脸的脸部结构关键点，提取所述目标人脸对应的结构度量特征。

脸部结构关键点，是指用于定位出人脸结构的标记点。脸部结构关键点，包括但不限于：用于定位出眉毛、眼睛、鼻子、嘴巴、脸部轮廓等关键区域位置的标记点。

将这70个标记点作为初始的标记点，提取脸部结构关键点，如下表1所示，但是本领域人员应当知道的是，表1中的脸部结构关键点仅为说明本实施例，而不用于限定本实施例。

表1

在表1中有三列数据，分别代表脸部结构关键点的名称、标号和标记点序号或者通过标记点得到该脸部结构关键点的方法。通过70个标记点可以提取许多用于结构度量的脸部结构关键点，根据人脸的横向和纵向的相对比率关系以及标记点在人脸上的分布情况，本实施例提取了26个脸部结构关键点，这些脸部结构关键点将用于下一步结构度量特征的提取。图9展示了在目标人脸中提取脸部结构关键点的示意图。

根据提取的脸部结构关键点，提取脸部结构度量特征。可以根据上一步骤中提取的26个脸部结构关键点提取一系列的结构度量特征，从而可以将人脸编码为对应的结构度量特征向量。

结构度量特征选择的基本原则是选择的结构特征要有明确的含义，并且与健康指标具有有密切的联系。可以随机提取多种结构度量特征，在训练模型的过程中，确定结构度量特征是否与健康指标存在密切联系。结构度量特征与健康指标存在密切联系是指：使用该结构度量特征确定健康指标较为准确，而不使用该结构度量特征确定健康指标不够准确。

通过脸部结构关键点可以提取多种结构度量特征集合。如表2所示，是根据上述提取的26个脸部结构关键点，提取的f0～f24(不包括标号FF_的特征，当然，FF_特征也可以作为一个结构度量特征)，共24个的结构度量特征，这样可以得到一个24维的结构度量特征向量，当然，本领域技术人员应当知道的是，该24个结构度量特征仅仅作为结构度量特征提取的一个参考。例如：在预测BMI时，可以不使用发迹线正中点A以及与发迹线正中点A有关的结构度量特征；在识别口呼吸面容时，可以使用发迹线正中点A以及与发迹线正中点A有关的结构度量特征。

表2

其中，为了使所有表示距离的结构度量特征都是基于图像像素的处理结果，保持量纲上的统一，对于所有表示的距离的结构度量特征都以面宽FF_作为基准做归一化处理，对于所有表示比值的结构度量特征和表示角度的结构度量特征，则维持不变。

通过表2可以将任意一张人脸的图像进行结构度量特征的编码，得到该人脸的一个24维的结构度量特征向量的表示。

根据目标人脸的结构度量特征，可以识别目标人脸对应的BMI和目标人脸是否为口呼吸面容。

本实施例可以使用24维的结构度量特征向量，而不是使用最初的人脸像素来参与体重指数预测模型和口呼吸面容识别模型的训练和识别，能够大大提高计算的效率。当然，表2中的上庭占比可以不参与体重指数预测模型的训练和识别。

根据提取的目标人脸的结构度量特征向量，可以预先训练体重指数预测模型完成BMI预测的任务，也可以预先训练口呼吸面容识别模型完成口呼吸面容的识别任务。

体重指数预测模型和口呼吸面容识别模型的种类，包括但不限于：极端梯度提升(eXtreme Gradient Boosting，简称XGBoost)模型、线性回归模型、支持向量机(SupportVector Machine，简称SVM)模型或者深度学习网络。

下面将以体重指数预测模型和口呼吸面容识别模型为XGBoost模型为例进行描述。

XGBoost是一种基于Boosting的机器学习方法。XGBoost是通过集成分类与回归树(Classification and regression tree，简称CART)来增强分类性能。XGBoost使用随机梯度下降法优化树的结构和权重，具有良好的训练速度和精度。XGBoost即可以用于分类也可以用于回归。因为BMI输出的特征空间是连续的正实数空间，所以BMI预测是一个典型的回归问题，所以在用于预测BMI的XGBoost模型可以为XGBoost Regressor模型。因为口呼吸面容识别问题可以看做是典型的二分类问题，所以在用于识别口呼吸面容的XGBoost模型可以为XGBoost Classifier模型。

由于对体重指数预测模型和口呼吸面容识别模型的训练过程类似，所以下面一并介绍模型的训练过程。

如图10所示，为根据本发明一实施例的模型训练的步骤流程图。

步骤S1010，设置XGBoost模型中的CART树的最大树深度的初始值。

步骤S1020，利用预设的训练数据集，对所述XGBoost模型的结构和权重进行训练。

顺次将训练数据集中的每个样本输入XGBoost模型，获取XGBoost模型输出的预测结果，将该预测结果与样本标注的标签进行比较，如果预测结果与标签相同，则向XGBoost模型中输入下一个样本，如果预测结果与标签不同，则调整XGBoost模型中的结构和权重。

如果是训练用于预测BMI的XGBoost模型，则使用第一训练数据集；如果是训练用于识别口呼吸面容的XGBoost模型，则使用第二训练数据集。

步骤S1030，利用预设的验证数据集，对所述XGBoost模型中已训练的结构和权重进行验证，并根据验证结果执行本次的最大树深度调整。

在验证用于预测BMI的XGBoot模型时，可以使用均方根误差(Root Mean SquaredError，简称RMSE)来确定已训练的结构和权重是否合适。假定有m个样本，其中第k个样本使用XGBoost模型预测的BMI值为BMI′_k,而该样本的真实值为BMI″_k，则该XGBoost模型的均方根误差为：

如果该均方根误差小于预设的模型误差阈值，则表示XGBoost模型已经训练完成，可以利用预测数据集确定XGBoost模型的性能；如果该均方根误差大于或者等于该模型误差阈值，则跳转到步骤S1020，继续利用训练数据集对该XGBoost模型进行训练。

在验证用于识别口呼吸面容的XGBoost模型时，顺次将验证数据集中的每个样本输入XGBoost模型，获取XGBoost模型输出的预测结果，将该预测结果与样本标注的标签进行比较，如果预测结果与标签相同，则对预测正确的结果进行计数，如果预测结果与标签不同，则对预测错误的结果进行计数。确定XGBoost模型预测结果的准确度。该准确度＝对预测正确的结果进行计数的计数值÷(对预测正确的结果进行计数的计数值+对预测错误的结果进行计数的计数值)。

在调整最大树深度时，可以在前一次调整的结果上加1。

如果是训练用于预测BMI的XGBoost模型，则使用第一验证数据集；如果是训练用于识别口呼吸面容的XGBoost模型，则使用第二验证数据集。

步骤S1040，利用预设的网格搜索算法，确定前一次调整的最大树深度是否为最优最大树深度；如果是，则执行步骤S1050；如果否，则执行步骤S1020。

如果本次调整最大树深度之后，XGBoost模型预测结果的准确度比前一次调整最大树深度之后，XGBoost模型预测结果的准确度高，则续集调整最大树深度；如果本次调整最大树深度之后，XGBoost模型预测结果的准确性比前一次调整最大树深度之后，XGBoost模型预测结果的准确度低，则确定前一次调整的最大树深度为最优最大树深度。

步骤S1050，将所述XGBoost模型中的所述CART树的最大树深度设置为所述最优最大树深度。

利用预设的测试数据集，测试已经被设置成最优最大树深度的所述XGBoost模型，并确定所述XGBoost模型的性能度量值；如果所述XGBoost模型的性能度量值在预设性能范围之内，则完成对所述XGBoost模型的训练。当然，如果所述XGBoost模型的性能度量值不在预设性能范围之内，则跳转到步骤S1020。预设的性能范围可以是经验值或者通过实验获得的值。

如果XGBoost模型用于预测BMI，则性能度量值可以是均方根误差。均方根误差的计算方式可以参考步骤S1030。

在本实施例中，为了增广特征层面，可以为结构度量特征向量中的每一维度的结构度量特征随机增加一个扰动因子，该扰动因子小于或者等于0.1。

如果XGBoost模型用于识别口呼吸面容，则性能度量值可以是分类的准确性。具体的，可以顺次将测试数据集中的每个样本图像输入XGBoost模型，获取XGBoost模型输出的预测结果，将该预测结果与样本图像标注的标签进行比较，如果预测结果与标签相同，则对预测正确的结果进行计数，如果预测结果与标签不同，则对预测错误的结果进行计数。确定XGBoost模型预测结果的准确度。该准确度＝对预测正确的结果进行计数的计数值÷(对预测正确的结果进行计数的计数值+对预测错误的结果进行计数的计数值)。预设的性能范围可以是预测结果的准确率大于预设的收敛阈值。这样，如果XGBoost模型预测结果的准确度大于该收敛阈值，则确定XGBoost模型收敛。该收敛阈值可以是经验值或者通过实验获得的值。

在本实施例中，随着数据集的增长，XGBoost模型得以迭代更新，使得XGBoost模型的准确性越来越高，效果会越来越好。

由于训练用于预测BMI的XGBoost模型和训练用于识别口呼吸面容的XGBoost模型时，使用的数据集略有不同，所以，下面对数据集的形成进行详细描述。

由于缺乏用于预测BMI的开源数据集，因此需要构建用于预测BMI的数据集。例如：通过构建一个问卷系统采集人脸图像(如几十万张人脸图像)，这些人脸图像都由用户汇报相应的性别、年龄、身高和体重信息，这样就可以得到人脸图像和标记该张人脸的BMI数据。

为了降低数据噪声对模型的精度的消极影响，在构建第一数据集的过程中，从采集的数据中筛选有效数据，作为训练样本。进一步地，先设置多个信息验证流程，自动筛选符合预设要求的数据，例如：人脸图像包含人脸且为正脸，人脸图像的平均亮度值在平均亮度值范围之内；再随机选取部分自动筛选出的数据进行人工查阅，确定筛选出的样本是否符合该预设要求；最后还可以对数据的属性进行筛选，例如：筛选年龄处于预设年龄段的数据。只有数据通过所有筛选之后，才代表该数据是一个有效的样本。

在训练用于预测BMI的XGBoost模型之前，构建第一数据集，将该第一数据集分为三个种类的子数据集。该三个种类的子数据集，包括：第一训练数据集，第一验证数据集和第一测试数据集。

第一训练数据集，用于训练XGBoost的结构和权重。第一训练数据集可以占数据集中60％的有效样本。

第一验证数据集，用于训练XGBoost的超参数。超参数的种类包括：XGBoost中CART树的最大数深度。第一验证数据集可以占数据集中20％的有效样本。

第一测试数据集，用于测试XGBoost在预测BMI时的准确性。第一测试数据集可以占数据集20％的有效样本。

在训练用于识别口呼吸面容的XGBoost模型之前，构建第二数据集。在该第二数据集中包括多个已经标注标签的样本图像的数据。样本图像的种类包括：正样本图像和负样本图像。样本图像的标签的种类与样本图像的种类相同。样本图像的数据包括：从样本图像中识别到的人脸的结构度量特征。样本图像的数据的获得方式可以参考图2至图6所示的步骤。

将该第二数据集分为三个种类的子数据集。该三个种类的子数据集，包括：第二训练数据集，第二验证数据集和第二测试数据集。在第二训练数据集中包括预设的负样本图像的数据和图像增广处理后的正样本图像的数据。

第二训练数据集，用于训练XGBoost的结构和权重。第二训练数据集可以占数据集中80％的样本图像。第二训练数据集包括两个部分：图像增广处理后的正样本图像的训练集和负样本图像的训练集。正样本图像的训练集包括：多个已经标注的正样本图像的数据。负样本图像的训练集包括：多个已经标注的负样本图像的数据。

第二验证数据集，用于训练XGBoost的超参数。超参数的种类包括：XGBoost中CART树的最大数深度。第二验证数据集可以从第二训练数据集中选择部分已经标注的正样本图像的数据和部分已经标注的负样本图像的数据。例如：第二验证数据集中的样本图像的数据占原始的数据集的10％或者20％。

第二测试数据集，用于测试XGBoost在预测口呼吸面容时的准确性。第二测试数据集可以占数据集20％的样本图像的数据。第二测试数据集包括两个部分：正样本图像的测试集和负样本图像的测试集。正样本图像的测试集包括：多个已经标注的正样本图像的数据。负样本图像的测试集包括：多个已经标注的负样本图像的数据。

由于口呼吸面容的正样本图像采集较为不易，如果正样本图像的数量较少，将不足以完成口呼吸面容识别的训练任务。所以本实施例对结构度量特征进行增强，也即是针对采集的正样本图像进行图像增广处理。

如图11所示，为根据本发明一实施例的图像增广处理的步骤流程图。

步骤S1110，在正样本图像中，提取人脸的结构度量特征。

该结构度量特征为多维的结构度量特征向量。进一步地，该结构度量特征为24维的结构度量特征向量。

获取采集的所有正样本图像，其中，每个正样本图像中包括人脸，并且人脸的姿态角处于姿态角范围之内；针对每个正样本图像，如果确定正样本图像的图像亮度标准差小于图像亮度标准差阈值，则利用伽马变化算法，对该正样本图像进行图像增强处理；在图像增强处理后的正样本图像中，提取人脸的结构度量特征。

步骤S1120，在所述人脸的结构度量特征中的每一维特征上增加高斯噪声，得到新的正样本图像。

每一个维度上加上一个随机扰动的高斯噪声，将采样后的值作为正样本图像在该维度上的输入值，当所有的维度都经过上述操作后，就形成了一个新的正样本图像。

具体而言，正样本图像S在第i个维度上的值是通过重新采样得到的，基于高斯分布对该维度的值进行采样：

S_i～G(μ,σ_²)；

其中，S_i为正样本图像S的第i个维度重新采样的值，即加入高斯噪声后的值，G为高斯分布函数，μ和σ_为预设的采样参数，μ为均值，σ_为标准差。

进一步地，假设对一个正样本图像执行多次图像增广处理，得到多个新的正样本图像，多个新的正样本图像对应维度的值的均值为d，而标准差与均值d的比率为q，那么，设置采样参数为：μ＝d,σ_-＝d*q。

比率q为经验值或者通过实验获得的值。在设置比率q时，可以考虑以在特征上增加较小的噪声为准则，以避免正样本图像出现较大的改变。在本实施例中，q＝0.1。

通过图像增广处理，可以在原始的正样本图像的基础上，扩充大量的新的正样本图像。例如：每个正样本图像都通过图像增广处理2000轮后，每一个正样本图像就产生了增加噪声后的2000个新的正样本图像，如果原始的正样本图像为15个，就可以产生了容量为30000的正样本图像，可以对这30000个正样本图像进行标注，并且将已经标注的该30000个正样本图像的数据作为正样本图像的训练集，而原始的15个正样本图像也可以进行标注，并且将已经标注的该15个正样本图像的数据作为正样本图像的测试集。

另外，还需要采集没有口呼吸面容问题的负样本图像。具体可以通过爬虫技术从互联网中爬取图像，然后筛选出负样本图像。还可以通过设置调查问卷，从调查问卷中提取的睡眠状态良好(比如没有呼吸不畅、咳嗽和打鼾症状)的用户的人脸图像作为负样本图像，提取睡眠状态有问题(比如睡眠有呼吸不畅、鼾症较严重现象)的用户的人脸图像作为正样本图像，该方式获得的正样本图像数量充足的情况，可以不进行图像增广处理。例如：经过调查问卷的方式，筛选得到33324个负样本图像，2981个正样本图像，对该33324个负样本图像进行标注，并将已经标注的该33324个负样本图像的数据作为负样本图像的训练集，对该2981个正样本图像进行标注，并将已经标注的2981个正样本图像的数据作为正样本图像的测试集。

在训练集和测试集的设置上，如表3所示。当然，本领域技术人员应当知道的是，表3仅为说明本实施例，而不用于限定本实施例。

表3

基于已经构建好的数据集，对口呼吸面容识别模型进行训练。

当健康指标为牙齿健康等级时，需要根据目标人脸的标记点，进去区域分割，根据区域分割结果，确定牙齿的健康等级。

如图12所示，为根据本发明一实施例的基于人脸结构定位的牙齿健康评估方法的流程图。

步骤S1210，根据所述目标人脸的标记点，分割出所述牙齿区域图像的每颗牙齿对应的牙齿图像。

在牙齿区域图像中包括多颗牙齿的牙齿图像，利用预设的图像分割算法，对牙齿区域图像进行图像分割处理，分割出每个牙齿对应的牙齿图像。

步骤S1220，根据每颗牙齿对应的牙齿图像，确定所述目标人脸的牙齿健康等级。

牙齿健康等级，用于衡量目标人脸的牙齿健康程度。

根据每颗牙齿对应的牙齿图像，确定牙齿左右重合度、牙齿整体整齐度和牙齿整体偏黄度；根据所述牙齿左右重合度、牙齿整体整齐度和牙齿整体偏黄度，确定所述目标人脸的牙齿健康等级。

牙齿左右重合度，是指牙齿区域图像中左侧部分的牙齿区域和右侧部分的牙齿区域的重合度。

牙齿整体整齐度，是指牙齿区域图像中每颗牙齿分别与对应位置的标准模型的形状相似度的平均值。

牙齿整体偏黄度，是指牙齿区域图像中所有牙齿的偏黄度的平均值。

在本实施例中，可以将目标人脸的牙齿健康等级和预设的健康区间进行比较，如果牙齿健康等级未处于健康区间之内，则进行牙齿健康状态预警。该健康区域可以是经验值或者通过实验获得的值。例如健康区间为牙齿健康等级大于0.8；当牙齿健康等级大于0.8时，表明牙齿的整体状况较好；当牙齿健康等级小于或等于0.8时，表明牙齿的整体健康状况较差，需要提示目标人脸对应的用户去专门的牙科医疗机构做一些更深入的检查和治疗了。当然，也可以划分多个区间，每个区间对应一种提示信息，根据牙齿健康等级所处的区间，弹出对应的提示信息。

本实施例无需借助专业的医疗仪器，利用图像处理技术可以解决借助仪器进行牙齿健康全面评估成本高、过程繁琐、需要专业人员全面参与等问题。本实施例利用人脸图像处理进行牙齿健康分级的筛选，针对用户牙齿的健康问题个性化地给出处理意见，具有成本低、不受时间和地域限制，随时随地能够完成牙齿的健康评估，并且能够方便地接入到在线医疗场景中。

在本实施例中，还可以使用机器学习的方法检测有效人脸图像中的牙齿，其基本思路是将已有的人脸样本中的牙齿部位标记出来，形成牙齿的数据集，然后按照Mask R-CNN模型学习的方式完善牙齿的检测和分割流程；还可以在根据有效人脸图像在进行牙齿分割的时候，使用多个分割方法进行融合，以便提高牙齿分割的精度；还可以增加牙齿健康等级的评估方式，其原因在于牙齿健康分析的指标可能比较多，比如牙齿由于存在某些结石或者长期吸烟而偏黑等，可以根据本方案的流程完整更多健康指标的分析。

在本实施例中，在提取所述目标人脸的牙齿区域图像之前，可以对牙齿区域进行有效性验证，该有效性验证用于验证有效人脸图像中的目标人脸的嘴巴开闭状态，这是由于为了更好的评估牙齿的健康水平，牙齿必须尽量展现在有效人脸图像中，而如果用户的嘴巴是关闭状态，在牙齿区域图像中将提取不到牙齿的信息，也就无法进行后续评估。

图13为根据本发明一实施例的口腔开合角度有效性验证的流程图。

步骤S1310，在有效人脸图像中，针对目标人脸进行标记点标记。

对目标人脸的人脸区域进行标记点标记的步骤，与确定姿态角时对目标人脸的人脸区域进行标记点标记类似，但是为了更好地标记出目标人脸的结构信息，在本实施例中使用的模型是dlib中68个标记点模型，这68个标记点可以将目标人脸的各个部位勾勒出来，比如这68个标记点可以勾勒出眉形、眼睛、鼻子、嘴巴以及脸部轮廓。

步骤S1320，根据所述目标人脸的标记点中用于标记口腔区域的标记点，确定所述目标人脸的口腔开合角度。

用于标记口腔区域的标记点，包括：上下嘴唇对应的标记点。

口腔开合角度包括：左嘴角的开合角度和右嘴角的开合角度。

嘴巴开闭状态的判断依赖于前面人脸标记点中对嘴巴的定位。前面提到的人脸68点标记中对上下嘴唇的标记点包含了对上嘴唇和下嘴唇的标记点，下面根据这些标记点对嘴巴的开闭状态进行检测，其检测过程如下：提取上嘴唇下沿部分编号为61、62、63的标记点和下嘴唇上沿部分编号为67、66、65的标记点，同时提取左嘴角的两个标记点48、60和右嘴角的两个标记点54、64，通过这些标记点61、62、63、67、66、65、48、60、54和64形成的图形，计算嘴巴张开的角度。

进一步地，考虑到标记点的位置可能存在偏差，为了提高鲁棒性，分别计算标记点61、62、63的均值坐标点A’，标记点67、66、65的均值坐标点B’，以及标记点48、60的均值坐标点C’，标记点54、64的均值坐标点D’，计算左嘴角张开的角度∠A’C’B’，以及右嘴角张开的角度∠A’C’D’。其中，均值坐标是指多个坐标的坐标平均值。均值坐标点的横坐标为多个坐标点的横坐标均值，纵坐标为该多个坐标点的纵坐标均值。

步骤S1330，判断所述口腔开合角度是否大于预设的开合角度阈值；如果是，则执行步骤S1340；如果否，则执行步骤S1350。

判断左嘴角的张开角度和右嘴角的张开角度是否都大于预设的开合角度阈值；如果都大于开合角度阈值，则执行步骤S1340，反之，则执行步骤S1350。

开合角度阈值可以是经验值或者通过实验获得的值。口腔开合角度大于开合角度阈值，可以很好的展示口腔内的牙齿。可以通过收集张嘴人脸的图像，来统计分析得到开合角度阈值。在本实施例中，开合角度阈值可以是25度。当嘴巴张开的角度至少为25度时，通过人脸进行牙齿健康分析才有意义。即：∠A’C’B’>25且∠A’C’D’>25，认为在该人脸中提取的牙齿区域图像是有效的。

步骤S1340，如果所述口腔开合角度大于预设的开合角度阈值，则在所述有效人脸图像中，提取所述目标人脸的牙齿区域图像。

利用预设监督信息的图像分割算法，在所述有效人脸图像中，提取所述目标人脸的牙齿区域图像。具体的提取方法将在后面进行详细描述。

步骤S1350，如果所述口腔开合角度小于或者等于预设的开合角度阈值，则进行有效人脸图像重新采集提示。

下面对提取牙齿区域图像的步骤进行进一步地的描述。

如图14所示，为根据本发明一实施例的提取牙齿区域图像的步骤流程图。

步骤S1410，预先设置分别用于定位人脸中非牙齿区域、候选非牙齿区域、牙齿区域和候选牙齿区域的标记点；其中，将标记点定位的非牙齿区域、候选非牙齿区域、牙齿区域和候选牙齿区域作为预设图像分割算法中的参数。

非牙齿区域，是指一定不是牙齿的区域。

候选非牙齿区域，是指可能不是牙齿的区域。

牙齿区域，是指一定是牙齿的区域。

候选牙齿区域，是指可能是牙齿的区域。进一步地，候选牙齿区域可以包括牙齿区域。

图像分割算法，包括但不限于：GrabCut算法。

基于目标人脸的标记点，可以大致标记出可能是牙齿的区域，可能不是牙齿的区域，一定是牙齿的区域，一定不是牙齿的区域。在目标人脸的标记点中，确定用于标记非牙齿区域、候选非牙齿区域、牙齿区域和候选牙齿区域的标记点，并将确定的标记点作为图像分割算法中监督信息，即参数，通过这些监督信息，使分割出来的牙齿区域图像更准确。

具体的，为了尽可能地减少标记点位置偏差对牙齿区域图像提取的影响，可以将初始区域设置的范围大一些。提取编号从48到67的标记点的外围矩形区域作为候选牙齿区域，即：提取48到67的标记点的坐标，确定横纵坐标的最小值形成的坐标(x_min，y_min)和最大值形成的坐标(x_max，y_max)，而这恰好就是构成外围矩形的两个定位点坐标；将由横纵坐标最小值(x_min，y_min)和最大值(x_max，y_max)表示定位出的外围矩形确定为可能是牙齿的区域PR_FGD。

将编号从60到67的标记点形成的多边形之外的区域确定为可能不是牙齿的区域PR_BGD。从PR_BGD中提取一定不是牙齿的区域。

将编号1、28、29、2的标记点形成的区域为一定不是牙齿的区域BGD。

将PR_FGD中提取一定是牙齿的区域，将标记点对(61,67)、(62,66)、(63,65)的中点的连接线看做一个区域，该区域为一定是牙齿的区域FGD。

将标记点标识出的区域PR_FGD、PR_BGD、BGD、FGD作为参数带入到图像分割算法中，这样图像分割算法就可以得到初步牙齿区域图像。

步骤S1420，通过所述图像分割算法对所述有效人脸图像执行图像分割处理，得到初始牙齿区域图像。

初始牙齿区域图像是指候选牙齿区域，即可能是牙齿的区域图像。

在本实施例中，图像分割算法可以采用基于半监督的GrabCut算法。

具体而言，GrabCut算法一般是交互式的，以便将部分监督信息加入到GrabCut算法中，监督信息可以是区域划分信息，例如：可能是前景的区域、可能是背景的区域、前景区域或者是背景区域；如果不指定监督信息，则默认是使用基于无监督的图分割前景背景划分方法，图分割通过构建区域之间的相似度图，然后基于谱聚类对区域进行聚类分析，从而将前景和背景分开。本实施例正是由于有标记点做辅助，才能够准确进行区域定位。

进一步地，通过标记点分割出的初始牙齿区域图像可能存在一定的问题，比如：牙齿区域存在明显的空洞，为了避免造成对单颗牙齿的分割结果有偏差，所以本实施例可以对初步分割的牙齿区域进行调整，对可能存在的空洞进行一定的填充，对初始牙齿区域图像使用形态学操作中的孔洞填充算法进行孔洞填充，得到初始牙齿区域图像。

步骤S1430，在所述初始牙齿区域图像中，筛选出颜色空间处于预设牙齿颜色空间范围的像素点，根据筛选出的像素点形成牙齿区域图像。

牙齿区域图像，是指目标人脸的牙齿区域的图像。具体的，牙齿区域图像是目标人脸的牙齿像素点的合集。

根据牙齿所在的颜色空间范围对牙齿像素进行筛选，得到真正是牙齿的区域，即，牙齿区域图像，而不会把嘴唇、张嘴之后口腔内部的其他区域比如牙龈、舌头等当成是牙齿。

一般而言，牙齿的颜色相较口腔内部的其他区域具有明显的特点，特别是在HSV(Hue、Saturation、Value，色调、饱和度和明度)颜色空间中，牙齿的色调不会落在红色或紫色区域。一般红色或紫色的色调在[0,8]和[158,180]范围内，通过色调对初始牙齿区域图像中的每个像素点进行筛选，将转换到HSV空间的红色或是紫色的像素点排除，得到了牙齿像素点的集合。

在得到牙齿区域图像之后，可以在所述牙齿区域图像中分割出每颗牙齿的图像。进一步地，根据筛选之后的牙齿像素集合进行牙齿的精细分割，即找出牙齿与牙齿之间的分割线，得到每一颗牙齿所在的区域。

在本实施例中，可以根据自适应的边缘提取算法得到牙齿与牙齿的分割边缘，这个时候得到的边缘多且杂乱，其最可能的是将同一颗牙齿的明暗变化也算做了边缘，这些边缘都比较短小并且无序。这样，可以通过启发式的处理流程完成边缘的筛选，并最终得到牙齿的精细分割结果。

如图15所示，为根据本发明一实施例的牙齿区域图像分割的步骤流程图。

步骤S1510，根据预设的边缘提取算法，在牙齿区域图像中提取边缘线。

步骤S1520，计算提取出的每根边缘线的长度和所有边缘线的平均长度。

计算每一根边缘线的长度L_e；统计所有边缘线的平均长度

步骤S1530，根据所有边缘线的平均长度，确定长度阈值和距离阈值。

长度阈值可以是平均长度的预设第一比例。例如：长度阈值为

距离阈值可以是平均长度的预设第二比例。例如：距离阈值为

步骤S1540，针对每根所述边缘线，如果所述边缘线的长度大于所述长度阈值，并且所述边缘线的两个端点分别与最近的线段的距离小于所述距离阈值，则将所述边缘线确定为牙齿分割线。

在本实施例中，保留长度大于长度阈值

并且完全没有连接的孤立的边缘线(边缘线的起始位置和终止位置跟周围的边缘相距较远，距离在

以上)，其他边缘线都删除。

与边缘线一个端点距离最近的线段和与该边缘线另一端点距离最近的线段可能为不同的线段，需要单独判断。

步骤S1550，根据牙齿分割线，提取所述牙齿区域图像中每颗候选牙齿的轮廓图像。

候选牙齿是指牙齿区域图像中的疑似牙齿。

通过形态学的闭操作，将距离较近的牙齿边缘连接起来；最后基于牙齿的轮廓提取，得到每一颗候选牙齿的轮廓。

步骤S1560，针对每颗候选牙齿的轮廓图像，将所述候选牙齿的轮廓图像与预先设置的多个牙齿形状分别进行匹配，如果存在与所述候选牙齿的轮廓图像相匹配的牙齿形状，则将所述候选牙齿确定为牙齿，并根据所述候选牙齿的轮廓图像分割牙齿图像。

人的牙齿往往具有一定的形状，通过预先设定的牙齿形状，可以筛选出非常不符合的牙齿，最终得到每一颗牙齿的分割结果。

进一步地，为口腔中每个位置的牙齿对应设置牙齿形状。将每颗候选牙齿的轮廓图像顺序与每个位置的牙齿的牙齿形状进行匹配，如果候选牙齿的轮廓图像匹配到一个位置的牙齿的牙齿形状，则可以确定该候选牙齿为该位置的牙齿，该候选牙齿的轮廓图像为牙齿的牙齿图像。

在牙齿分割完成之后，可以进行牙齿健康等级评估。根据分割的牙齿区域对用户牙齿的整齐度和偏黄程度进行评估。首先，判断牙齿是否有清晰的中线(该中线一般穿过两颗门牙的缝隙)，居于中线两侧的牙齿左半部分和右半部分经过翻转后重合度是否较好，这些反映的是牙齿整体的整齐度；其次，每一颗牙齿是否与标准牙齿模型上的牙齿具有较好的形状吻合度，这些反映了每一颗牙齿的整齐度；再次，每一颗牙齿的偏黄程度，反映了牙齿是否存在牙结石等不洁问题。

如图16所示，为根据本发明一实施例的牙齿健康等级评估的步骤流程图。

步骤S1610，根据所述目标人脸的标记点，确定牙齿区域中线；并且，根据所述牙齿区域中线以及在所述牙齿区域图像中分割出的每颗牙齿对应的牙齿图像，确定牙齿左右重合度。

牙齿区域中线，是指牙齿区域图像中将牙齿区域划分成左右两部分的线。

根据在目标人脸上标记的标记点，确定牙齿区域中线，包括：确定标记点对(21,22)、(31,35)的中点连线，将该连线向下延伸至牙齿区域，将牙齿区域划分成左右两部分，将该连线成为牙齿区域中线。

牙齿左右重合度是基于中线两侧翻转之后的重合程度得到的。假设左侧部分的牙齿区域是T_L，经过中线向右侧翻转后是区域T_LR；右半边的牙齿区域是T_R，经过中线向左侧翻转后是区域T_RL，牙齿左右重合度S₀∈[0,1]可以通过如下公式计算得到：

其中，area(T)表示区域T的面积，区域T的面积可以使用区域T包含的像素点个数来代替，T表示区域变量。

步骤S1620，根据预设的每颗牙齿的标准模型以及在所述牙齿区域图像中分割出的每颗牙齿对应的牙齿图像，确定牙齿整体整齐度。

根据预设的每颗牙齿的标准模型以及在所述牙齿区域图像中分割出的每颗牙齿对应的牙齿图像，确定每颗牙齿的整齐度；根据牙齿区域图像中的所有牙齿的整齐度，确定牙齿整体整齐度。

确定每颗牙齿的整齐度，包括：确定牙齿区域图像中每颗牙齿与对应位置的牙齿的标准模型的形状相似度，作为所述牙齿的整齐度。进一步地，对牙齿区域图像中的牙齿形状进行归一化，使牙齿的标准模型的大小与牙齿区域图像中的牙齿的大小在尺度上保持一致，具体做法为；针对牙齿区域图像中每颗牙齿，根据该颗牙齿的牙齿图像确定该牙齿的中心点，计算该颗牙齿的中心点到该牙齿边缘各点(像素点)之间的距离；在各个距离中，获取距离的中位数作为参考距离；确定该颗牙齿对应位置的标准模型；确定该标准模型的中心点；计算该标准模型的中心点到该标准模型边缘各像素点的距离，并确定距离中位数；使该颗牙齿的中心点和该标准模型的中心点重合，使该颗牙齿的中位数和该标准模型的中位数大小相等；然后，按照预设的单颗牙齿整齐度公式计算该颗牙齿的整齐度R_Ti。

其中，牙齿i的面积为T_Oi，牙齿i对应位置的标准牙齿的面积为T_Si。

假设，牙齿区域图像中有m’颗牙齿，则可以根据预设的牙齿整体整齐度计算公式，计算得到牙齿整体整齐度R₁。

在本实施例中，之所以使用中位数的概念，是因为用户的牙齿可能有缺损，为了更好地评价缺损造成的牙齿整齐度的问题，故选用了对牙齿缺损不敏感的中位数距离作为归一化尺度。

步骤S1630，根据在所述牙齿区域图像中分割出每颗牙齿对应的牙齿图像，确定牙齿整体偏黄度。

牙齿整体偏黄度，用来衡量牙齿整体的偏黄程度。牙齿的偏黄程度可以依据标准色卡来确定。该标准色卡可以是20色牙齿色卡。等级1表示牙齿最白，等级20表示牙齿最黄。

将牙齿区域图像中的每颗牙齿的颜色通过与标准色卡中的颜色进行相似度计算，进而确定单颗牙齿的偏黄度Y′∈{1,2,…,20}。

在确定每颗牙齿的偏黄度之后，可以计算牙齿区域图像中所有牙齿的偏黄度的均值，将该均值作为牙齿整体偏黄度。

为了提高牙齿偏黄程度分级的精度，可以利用预设的参照物的颜色对牙齿的颜色进行简单的校色，其原因是牙齿的颜色受环境光的影响较大，基于知觉感知中颜色的恒常性(即当物体的颜色因光照条件改变而改变时，个体对熟悉物体的颜色知觉仍趋于一致的知觉特性)，肉眼能够感知和分析出来牙齿本来的颜色，而影像系统所拍摄的图像则没有这种特性，影像系统的传感器会如实记录环境对牙齿影响时的绝对颜色值。例如：在暖光环境下，牙齿在图像中所表现的颜色会比实际偏黄，在其他的环境下，牙齿图像所表现的颜色也会各有差异，这将不利于牙齿整体偏黄度的判断。

在有效人脸图像中提取预设的参考物的颜色平均值，根据该参考物的颜色平均值确定环境对牙齿的叠加颜色值；在根据牙齿图像，确定牙齿颜色平均值之后，将牙齿颜色平均值减去叠加颜色值，得到牙齿整体偏黄度。进一步地，参考物可以是有效人脸图像中的眼白区域，因为眼白在自然条件下的平均颜色是固定的。

在本实施例中，可以根据目标人脸的标记点，提取眼白区域，并确定眼白区域的颜色平均值。进一步地，可以将标记点从36到41围成的区域作为左眼区域，将标记点从42到47围成的区域作为右眼区域。

由于眼白的亮度跟其他区域的亮度有着比较明显的区别，根据眼白所处的亮度范围，可以在有效人脸图像中提取到眼白的区域；根据眼白的区域，计算眼白的颜色平均值。预设正常人(没有任何眼部疾病)在标准环境下(如自然光环境)眼白的颜色平均值，基于颜色的恒常性，得到提取的眼白的颜色平均值和标准环境下眼白的颜色平均值的差值，作为叠加颜色值。

进一步地，在计算叠加颜色值时，由于RGB(红绿蓝)颜色表示法所展示的颜色空间并不是均匀的，即颜色所反映的距离并不能简单地通过RGB颜色空间中两点的欧式距离来计算。因此，可以将颜色不均匀的RGB空间转换到均匀的XYZ色彩空间，而XYZ色彩空间的表示跟发色设备有关系，在实际计算中往往使用另一种颜色与设备无关且均匀的Lab颜色空间来代替，颜色之间的差值就可以通过颜色向量的减运算得到了。

叠加颜色值的计算的过程如下：

假定眼白在标准环境下的平均RGB值(颜色平均值)为[R0,G0,B0]，而在有效人脸图像中眼白的颜色平均值为[R1,G1,B1]。RGB空间到Lab空间的转换公式和反变换公式分别如公式(1)和公式(2)所示，通过公式(1)可以得到标准环境下的眼白在Lab空间的平均颜色值为[L0,a0,b0]，而有效人脸图像中眼白的颜色平均值在Lab空间的值为[L1,a1,b1]。

在Lab空间之间的差异为[L1-L0,a1-a0,b1-b0]。假定在有效人脸图像中提取的单颗牙齿的牙齿图像的颜色平均值为[RT,GT,BT]，将其变换到Lab空间中的值为[LT,aT,bT]，那么，在标准环境下，牙齿整体偏黄度在Lab空间中的值为[LT-L1+L0,aT-a1+a0,bT-b1+b0]，然后基于公式(2)可以得到标准环境下牙齿图像在RGB空间的牙齿整体偏黄度。

步骤S1640，根据所述中线翻转重合度、牙齿整体整齐度和牙齿整体偏黄度，确定所述目标人脸的牙齿健康等级。

可以参考如下公式，得到牙齿健康等级S_L：

其中，超参数α、β分别是牙齿整体偏黄度和牙齿整体整齐度的权重因子。在实际的应用中，α、β的取值可以根据实际场景来调整。

通常而言，牙齿偏黄(比如Y′>16)代表牙齿可能存在清洁不够，存在一些牙菌斑和牙结石，通过洗牙美白等就能改善，而对于牙齿不整齐(比如S₀<0.8)甚至有少许缺失(比如S₁<0.8)的情况，则表明牙齿的健康不佳，需要进行牙齿畸形矫正和补牙等手术操作。一般而言，α的取值可以在0.1到0.3之间，β的取值则可以在0.3到0.5之间，例如：取α＝0.2，β＝0.4。

在本实施例中，无需医疗仪器，只需要包含摄像头的设备即可实施，本实施例采集有效人脸图像比较方便，进行牙齿健康评估的耗时短、成本低，且整个过程利用的图像处理技术也比较简单，从人脸图像预处理，到嘴巴开闭的检测，再到牙齿的分割与健康评估，牙齿健康评估过程简单易行，而且结果具有较好的可解释性。

本实施例针对牙齿健康的常见问题，比如牙齿不齐、缺失或是不洁等问题，通过手机或是电脑摄像头就能对用户的牙齿健康进行简单的评估，根据牙齿健康等级对用户的牙齿健康面临的问题区别对待：对于牙齿健康问题较轻的用户，给予一些牙齿健康的在线建议；而对于一些牙齿问题较多的用户则推荐相关的口腔医生或医院进行专业的后续治疗。

本实施例提供一种基于人脸结构定位的健康指标评估设备。如图17所示，为根据本发明一实施例的基于人脸结构定位的健康指标评估设备的结构图。

在本实施例中，所述基于人脸结构定位的健康指标评估设备，包括但不限于：处理器1710、存储器1720。

所述处理器1710用于执行存储器1720中存储的基于人脸结构定位的健康指标评估程序，以实现上述基于人脸结构定位的健康指标评估方法。

具体而言，所述处理器1710用于执行存储器1720中存储的基于人脸结构定位的健康指标评估程序，以实现以下步骤：采集有效人脸图像；确定所述有效人脸图像中目标人脸的姿态角；如果所述目标人脸的姿态角在预设的姿态角范围之内，则在所述有效人脸图像中，通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息；根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标。

其中，如果根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，则根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标，包括：将所述目标人脸的结构度量特征输入预先训练的体重指数预测模型，获取所述体重指数预测模型输出的所述目标人脸对应的体重指数；和/或，将所述目标人脸的结构度量特征输入预先训练的口呼吸面容识别模型，获取所述口呼吸面容识别模型输出的口呼吸面容识别结果；其中，对预设的正样本图像进行图像增广处理，利用图像增广处理后的正样本图像的数据以及预设的负样本图像的数据，训练所述口呼吸面容识别模型。

本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的基于人脸结构定位的健康指标评估方法。

具体而言，所述处理器用于执行存储器中存储的基于人脸结构定位的健康指标评估程序，以实现以下步骤：采集有效人脸图像；确定所述有效人脸图像中目标人脸的姿态角；如果所述目标人脸的姿态角在预设的姿态角范围之内，则在所述有效人脸图像中，通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息；根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于人脸结构定位的健康指标评估方法，其特征在于，包括：

采集有效人脸图像；其中，所述有效人脸图像，是指包含人脸并且平均亮度值在预设的亮度值范围之内的图像；

确定所述有效人脸图像中目标人脸的姿态角；

如果所述目标人脸的姿态角在预设的姿态角范围之内，则在所述有效人脸图像中，通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息；其中，所述人脸结构信息，包括：人脸的结构特征和人脸的区域图像；所述通过对所述目标人脸进行标记点标记的方式，提取所述目标人脸的人脸结构信息，包括：根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，和/或，提取所述目标人脸的牙齿区域图像；所述标记点，是指在人脸预设位置标记的特征点，包括承浆点和发际线正中点；

根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标；

其中，如果根据所述目标人脸的标记点，提取所述目标人脸的结构度量特征，则根据所述目标人脸的人脸结构信息，确定所述目标人脸对应的健康指标，包括：将所述目标人脸的第一结构度量特征输入预先训练的体重指数预测模型，获取所述体重指数预测模型输出的所述目标人脸对应的体重指数；和/或，

将所述目标人脸的第二结构度量特征输入预先训练的口呼吸面容识别模型，获取所述口呼吸面容识别模型输出的口呼吸面容识别结果；其中，对预设的正样本图像进行图像增广处理，利用图像增广处理后的正样本图像的数据以及预设的负样本图像的数据，训练所述口呼吸面容识别模型；

2.根据权利要求1所述的方法，其特征在于，所述采集有效人脸图像，包括：

采集用户环境图像；

确定所述用户环境图像的平均亮度值；

如果所述用户环境图像的平均亮度值在预设的亮度值范围之内，则针对所述用户环境图像进行人脸检测；

如果在所述用户环境图像中检测到人脸，则确定所述用户环境图像为有效人脸图像；

如果所述用户环境图像的平均亮度值未在所述亮度值范围之内，或者，在所述用户环境图像中未检测到人脸，则进行用户环境图像重新采集提示。

3.根据权利要求2所述的方法，其特征在于，在所述针对所述用户环境图像进行人脸检测之前，还包括：

确定所述用户环境图像的图像亮度标准差；

如果所述图像亮度标准差小于预设的图像亮度标准差阈值，则利用伽马变换算法，对所述用户环境图像进行图像增强处理。

4.根据权利要求1所述的方法，其特征在于，所述确定所述有效人脸图像中目标人脸的姿态角，包括：

在所述有效人脸图像中，针对目标人脸进行标记点标记；

获取预先设置的三维人体头像模型；其中，在所述三维人体头像模型的脸部标记有标记点，并且在所述三维人体头像模型的脸部标记的标记点和在所述目标人脸上标记的标记点的数量和在相同维度空间中的类型相同；

根据所述三维人体头像模型中的标记点以及所述有效人脸图像中针对目标人脸的标记点，确定所述目标人脸的姿态角。

5.根据权利要求1所述的方法，其特征在于，所述对预设的正样本图像进行数据增广处理，包括：

在所述正样本图像中，提取人脸的结构度量特征；

在所述人脸的结构度量特征中的每一维特征上增加高斯噪声，得到新的正样本图像。

6.一种基于人脸结构定位的健康指标评估设备，其特征在于，所述基于人脸结构定位的健康指标评估设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的基于人脸结构定位的健康指标评估程序，以实现权利要求1～5中任一项所述的基于人脸结构定位的健康指标评估方法。

7.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～5中任一项所述的基于人脸结构定位的健康指标评估方法。