CN111476196A

CN111476196A - 一种基于面部动作的老年残障人士护理需求识别方法

Info

Publication number: CN111476196A
Application number: CN202010327188.6A
Authority: CN
Inventors: 孙瑜; 王建; 陈丽娟; 汪凯鑫; 李�昊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-07-31

Abstract

本发明公开了一种基于面部动作的老年残障人士护理需求识别方法，包括以下步骤：步骤一、采集用户人脸图像；步骤二、使用改进的多任务级联的卷积神经网络方法进行人脸检测，获取稳定的面部区域；步骤三、使用人脸关键点定位算法定位人脸关键点，并根据关键点位置提取眼部和嘴部的关键点；步骤四、使用眨眼检测算法和张嘴检测算法进行眨眼、张嘴面部动作判断；步骤五、对眨眼、张嘴面部动作进行融合决策判断实现老年残障人士的护理需求识别。本发明能精准获取老年残障人士的面部信息，通过实时监测老人的特定面部动作来获知其当前的护理需求，可以使老年残障人士得到更可靠的看护。

Description

一种基于面部动作的老年残障人士护理需求识别方法

技术领域

本发明属于识别技术，具体涉及一种基于面部动作的老年残障人士护理需求识别方法。

背景技术

进入21世纪以后，伴随着医疗卫生条件的普遍提高，特别是计划生育政策的影响，我国人口老龄化趋势愈发严峻，已经进入老龄化社会。除了老龄化外，意外伤残，瘫痪等许多情况也需要长期卧床休养。

对于电动护理床上的老年残障人士，往往因为长期处于昏睡状态或医疗仪器对身体的束缚而不能正常发出声音或自由下床走动。当老人想要饮食或者大小便时，因为行动能力不便或口齿不清可能无法准确表达出其需求。这时，如果多功能电动护理床上的摄像头能具备面部动作识别功能，便能充分挖掘摄像头监控的视频序列信息，通过实时监测老年残障人士的特定面部动作来识别其特定需求，从而让系统做出及时且合理的响应。这样便可使家属无需时刻陪伴在老人身旁，也为电动护理床使用者提供了更人性化的交互方式。

发明内容

本发明的目的在于提供一种基于面部动作的老年残障人士护理需求识别方法，通过识别预先设定的特定面部动作，来实现老年残障人士的护理需求识别。

实现本发明目的的技术解决方案为：一种基于面部动作的老年残障人士护理需求识别方法，通过基于深度学习的人脸检测和面部动作识别技术实现，包括以下步骤：

步骤S1、采集用户人脸作为输入图像；

步骤S2、对输入图像采用改进的多任务级联的卷积神经网络MTCNN进行人脸检测，获取用户稳定的面部区域；

步骤S3、将获取的面部区域采用人脸关键点定位算法定位人脸关键点，并根据关键点位置分别提取眼部关键点和嘴部关键点；

步骤S4、利用眼部关键点和嘴部关键点分别采用眨眼检测算法和张嘴检测算法进行眨眼、张嘴面部动作判断；

步骤S5、对眨眼、张嘴面部动作进行融合决策判断实现老年残障人士的护理需求识别。

本发明与现有技术相比，其显著优点在于：

(1)根据事先规定的操作逻辑，使用眨眼动作和张嘴动作来表征老年残障人士的基本护理需求，满足其吃饭、小便和大便的需求识别，给老年残障人士提供更自然、和谐的人机交互方式，可以使老年人得到更可靠的看护。

(2)因护理床上老年人的姿态多样，原生的MTCNN网络对老年残障人士进行人脸检测，极易出现检测丢失，缺少对视角、姿态的抗性。本发明使用基于迁移学习的模型参数微调方法对人脸检测算法进行改进，使其定位老年残障人士面部关键点时更加精准。

(3)在电动护理床的应用场景中，由于只需对护理床上的老年残障人士单张人脸进行检测，原始的MTCNN算法应用在这一场景时会产生很多冗余计算，如护理床旁边的人脸图像或者不含人脸的输入图像也会被处理，影响整体的检测效率。本发明通过压缩图像金字塔来降低P-Net网络的输入数据量，从而降低检测的复杂度。

(4)本发明提出了将眼睛纵横比和灰度信息相结合的眨眼检测算法，该方法能同时利用了眼睛的轮廓和图像信息，大幅提高了眨眼动作判断的准确度。

附图说明

图1为本发明所提供的护理需求识别总体流程示意图。

图2为本发明所提供的人脸检测算法MTCNN网络的工作流程示意图。

图3为本发明所提供的模型参数微调改进方案示意图。

图4为本发明所提供的压缩图像金字塔改进方案示意图。

图5为本发明所提供的眼睛纵横比EAR的计算示意图。

图6为本发明所提供的嘴部纵横比MAR的计算示意图。

图7为本发明所提供的眨眼检测算法判断过程示意图。

图8为本发明所提供的护理需求识别实施例示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，一种基于面部动作的老年残障人士需求方法，包括以下步骤：

步骤S1、使用单目摄像头，采集用户人脸作为输入图像，其中每个检测周期为5～10s，采集频率为每秒25～30帧图片。

步骤S2、对输入图像采用改进的多任务级联的卷积神经网络MTCNN进行人脸检测，获取用户稳定的面部区域。

进一步地，所述步骤S2中的人脸检测主要是判断动态视频序列中人脸的位置，如果检测到了人脸，则希望能够输出一个矩形框将检测到的人脸全部标记出来。

结合图2，本发明使用了MTCNN模型进行人脸检测，其检测过程主要分为三个阶段：首先通过一个浅层的卷积神经网络P-Net快速产生大量的候选窗口；然后通过一个相对较复杂的卷积神经网络R-Net进一步识别候选窗口排除非人脸来优化候选窗口；最后使用一个更加复杂的卷积神经网络O-Net再次优化人脸窗口，同时输出五个人脸特征点的位置。

进一步地，本发明对现有的人脸检测算法MTCNN进行了两点改进：1)针对应用对象为老年残障人士这一群体的特殊性，原生的MTCNN网络对老年残障人士进行人脸检测，极易出现检测丢失，缺少对视角、姿态的抗性。故本发明提出了基于迁移学习的模型参数微调方法，对MTCNN网络的关键超参(例如：threshold、minisize、factor等)进行调整，使得模型定位老年残障人士面部关键点时更加精准；2)针对影响MTCNN网络检测速度的主要因素在于P-Net模块生成的人脸候选框数量，若能降低P-Net网络的输入数据量，便可提高模型的检测效率。故本发明通过压缩图像金字塔来降低检测模型的复杂度，提高模型的检测效率。

进一步地，结合图3，具体改进做法为：针对老年人电动护理床的检测场景，增加相关复杂场景的样本，主要是老年人从早到晚不同光照、不同姿态、不同摄像头视角的人脸图片，以7：3划分训练集和测试集来构建新样本数据；然后结合开源数据训练的基础模型对MTCNN各级子网络进行微调，在模型微调训练过程中对网络训练中关键的超参数进行调整，不断迭代训练得到训练好的模型；之后使用测试数据对训练好的模型进行人脸检测测试，选出检测效果最好的模型文件及确定相关的超参。

经过实验的对比分析，通过对网络模型进行测试得到以下参数的取值：当R-Net和O-Net网络中的参数threshold分别设置为0.7和0.15，参数minisize设置为24，此时在同一测试集上MTCNN的人脸检测效果最好，得到的五个面部关键点位置最为精准。

进一步地，结合图4所示的压缩图像金字塔改进方案示意图，具体改进做法为：首先确定了该场景下的最小可检测图像minisize，然后根据该值来调整图像金字塔的缩放因子factor，最后对图像金字塔进行压缩，减少MTCNN网络的输入来降低检测的复杂度，具体为：

2-1)确定护理床应用背景下的最小可检测图像minisize，其计算公式为：

2-2)根据minisize调整图像金字塔的放缩因子factor，计算公式为：

2-3)对图像金字塔进行压缩，降低人脸检测网络的整体输入量。

步骤S3、将获取的面部区域采用人脸关键点定位算法定位人脸关键点，并根据关键点位置分别提取眼部关键点和嘴部关键点，具体如下：

使用基于回归树集合的ERT算法进行面部68个关键点提取，然后将眼部和嘴部的特征点提取出来，为进一步分析眼睛和嘴巴的状态做准备。

步骤S4、利用眼部关键点和嘴部关键点分别采用眨眼检测算法和张嘴检测算法进行眨眼、张嘴面部动作判断，具体如下：

进一步地，结合图5、图6所示的眼睛纵横比EAR和嘴部纵横比MAR的计算过程示意图，在利用人脸关键点定位ERT算法定位眼部的特征点后，利用眼部特征点的距离求出眼睛的高度和宽度，然后下面公式计算眼睛纵横比EAR，描述眼睛的张开程度，其计算方法如下：

式中P1-P6为人眼特征点的二维坐标向量，眼睛睁开时EAR较大，眯眼、闭眼时EAR值较小，然后经过多次试验后将EAR值的阈值T₁设定为0.23，即当眼睛EAR值小于0.23时就认为当前眼睛处于闭合状态，反之处于睁眼状态。

同样，通过嘴部纵横比MAR来描述嘴巴张开的程度，其计算方法如下：

式中M1-M8为嘴部形状中的内轮廓点的二维向量坐标，然后经过多次试验后将阈值T₂设定为0.75，将MAR值从小于阈值到大于阈值，从大于阈值到小于阈值记为一次张嘴过程。

基于眼睛纵横比的眨眼检测算法主要是使用了眼睛的轮廓信息，由于眨眼过程中主要是上眼睑发生变化，因此利用了表征上眼睑的两个特征点的运动信息。与此同时，人眼区域包含眼球、瞳孔、上眼睑、下眼睑和睫毛，其中眼球区域要比皮肤区域更黑。当眼睛处于睁眼状态时眼睛区域的黑色像数值较多，而当眼睛闭合时眼睑覆盖住眼球，眼睛区域的黑色像素值较少。根据这些现象，可以根据人眼区域像素点的变化情况判断人眼的状态。因此，本发明提出将眼睛运动特征和灰度特征相结合的眨眼检测算法。

进一步地，结合图7所示的眨眼检测算法判断过程示意图，眨眼检测算法的具体步骤如下：

步骤4-1)计算眼部纵横比EAR，利用上眼睑的两个特征点的运动信息进行眨眼动作判断；

步骤4-2)对输入的眼睛区域图像进行二值化处理，然后将处理后的图像进行腐蚀、膨胀操作，最后根据黑色像素所占比例进行眨眼动作判断；

步骤4-3)当通过眼睛纵横比EAR方法检测到眨眼时，再核对闭眼时的黑色像素值是否符合规律；当基于眼睛灰度信息判断为眨眼时，再看EAR若在正常范围内就判断为眨眼，最后再把这两种方法判断的眨眼次数取并集。

步骤S5、对眨眼、张嘴面部动作进行融合决策判断实现老年残障人士的护理需求识别，护理需求包括吃饭、喝水、大便、小便、出门、看电视等。

实施例1

结合图8，作为护理需求识别的实施例，其主要利用眼睛睁闭状态和嘴巴的张闭状态进行老年残障人士的护理需求识别，摄像头的每个检测周期为5s，采集频率为每秒25帧图片，具体判断标准如下：

1)在检测周期的5s内，有出现连续张嘴动作表明患者想要吃饭；

2)在检测周期的5s内，有出现连续眨眼动作表明患者想小便；

3)在检测周期的5s里，有出现连续同时张嘴和眨眼动作表明患者想大便。

Claims

1.一种基于面部动作的老年残障人士护理需求识别方法，其特征在于：通过基于深度学习的人脸检测和面部动作识别技术实现，包括以下步骤：

步骤S1、采集用户人脸作为输入图像；

2.根据权利要求1所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，所述步骤S1的每个检测周期为5～10s，采集频率为每秒25～30帧图片。

3.根据权利要求1所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，所述步骤S2采用改进的多任务级联的卷积神经网络MTCNN进行人脸检测，具体如下：1)由于应用群体的特殊性，采用基于迁移学习的模型参数微调方法，对网络的关键超参进行调整，使得模型定位老年残障人士面部关键点时更加精准；2)通过压缩图像金字塔来降低检测模型的复杂度，提高模型的检测效率。

4.根据权利要求3所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，采用基于迁移学习的模型参数微调方法，对网络的关键超参进行调整，具体步骤如下：

1-1)通过养老院电动护理床的监控视频，拍下老年人从早到晚不同光照、不同姿态、不同摄像头视角下的人脸图片，以7：3划分训练集和测试集来构建新样本数据；

1-2)通过加入的新样本数据不断地对网络参数进行微调，在模型微调训练过程中对网络训练中关键的超参进行调整，不断迭代训练得到训练好的模型；

1-3)使用测试数据对训练好的模型进行人脸检测测试，选出检测效果最好的模型文件及确定相关的超参。

5.根据权利要求3所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，通过压缩图像金字塔来降低检测模型的复杂度，具体步骤如下：

6.根据权利要求1所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，所述步骤S3采用人脸关键点检测算法定位面部关键点，具体如下：

7.根据权利要求1所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，所述步骤S4中的眨眼动作判断为基于眼睛纵横比和灰度信息相结合的眨眼检测算法，张嘴动作判断为基于嘴部纵横比的张嘴检测算法。

8.根据权利要求7所述的基于面部动作的老年残障人士护理需求识别方法，其特征在于，眨眼检测算法的具体步骤如下：

步骤4-2)对输入的眼睛区域图像进行二值化处理，然后将处理后的进行腐蚀、膨胀操作，最后根据黑色像素所占比例进行眨眼动作判断；