CN109753922A

CN109753922A - 基于稠密卷积神经网络的仿人机器人表情识别方法

Info

Publication number: CN109753922A
Application number: CN201811640642.2A
Authority: CN
Inventors: 赵光哲; 张雷; 杨瀚霆; 何艳清; 朱娜
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-14

Abstract

本发明公开了一种基于稠密卷积神经网络的仿人机器人表情识别方法，包括：根据方向梯度直方图特征和支持向量机算法对单帧图像之中的人脸位置进行定位，使用回归树集合对人脸图像的人脸基准点进行匹配，根据匹配结果对人脸图像进行校正和记录，使用稠密卷积神经网络对校正之后的人脸图像进行识别，根据识别结果获得表情分类，将表情分类的结果传输给仿人机器人。本发明提供的技术方案在人脸定位和人脸校正的基础上，使用稠密卷积神经网络将人脸特征提取和表情分类的流程进行结合，以实现对人脸的表情识别，最后将分类结果实时提供给仿人机器人，从而达到人机交互的效果，在保证准确率的同时还具有较高的实时性，有效保障了行人的安全。

Description

基于稠密卷积神经网络的仿人机器人表情识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于稠密卷积神经网络的仿人机器人表情识别方法。

背景技术

情绪是人类在强烈心理活动下产生的认知体验，是引导社会环境中交流的重要元素。情绪的引发有多种来源，包括心情、性格、动机等，面部表情作为独特的信号传递系统，能够表达人的心理状态，是分析情绪的有效方法之一。表情识别主要有如下四个流程：人脸定位、人脸校正、特征提取和表情分类。特征提取和表情分类作为流程中的重要部分，是表情识别的核心难点问题。传统方法使用手工设计的几何特征和外观特征提取面部信息，其中几何特征基于图像中的几何属性，外观特征基于图像的灰度信息。上述方法对于特定环境下的数据的分布具有很高的识别精度，例如使用粒子滤波器跟踪面部15个特征点的位置，根据距离的变化自动识别面部轮廓中的动作单元，进而判断产生的表情；使用PHOG(Pyramid of Histogram of Gradient)方法提取外观特征，PHOG特征是HOG(Histogram ofOriented Gradient)特征的改进，它在不同层次上统计边缘图像方向梯度直方图，具有较强的抗噪性能和抗旋转能力。但是，这些方法难以处理大范围的姿态变化，泛化到其他数据集时效果差。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于稠密卷积神经网络的仿人机器人表情识别方法，包括：

获取单帧图像；

根据方向梯度直方图特征和支持向量机算法对所述单帧图像之中的人脸位置进行定位；

使用回归树的集合方法对人脸图像的人脸基准点进行匹配；

根据匹配结果对所述人脸图像进行校正和记录；

使用稠密卷积神经网络对校正之后的人脸图像进行识别，以获得表情分类；

将表情分类的结果传输给仿人机器人。

可选的，所述人脸基准点的个数为68。

可选的，所述根据方向梯度直方图特征和支持向量机算法对所述单帧图像之中的人脸位置进行定位的步骤包括：

获取训练样本，所述训练样本包括3000张从LFW数据库获取的人脸图像；

使用所述方向梯度直方图特征和所述支持向量机算法对所述训练样本进行训练；

根据训练结果形成人脸检测器，所述人脸检测器用于对所述单帧图像之中的人脸位置进行定位。

可选的，所述使用梯度增强训练之后的回归树集合对人脸图像的人脸基准点进行匹配的步骤包括：

获取训练样本，所述训练样本包括2000张训练人脸图像和330张测试人脸图像；

使用形状不变特征分割的回归树集合对所述训练样本进行训练；

根据训练结果形成人脸校正器，所述人脸校正器用于对人脸图像的人脸基准点进行匹配；

根据匹配的人脸基准点对所述人脸图像进行校正。

可选的，所述使用稠密卷积神经网络对校正之后的人脸图像进行识别，以获得表情分类的步骤包括：

获取训练样本，所述训练样本包括35498张灰白人物表情图像；

使用稠密卷积神经网络对所述训练样本进行训练，所述稠密卷积神经网络包含3个稠密块，所述稠密块的增长率为12；

根据训练结果形成表情分类器，所述表情分类器用于对校正之后的人脸图像进行识别，以获得表情分类。

可选的，所述表情分类包括开心、难过、愤怒、惊讶、害怕、厌恶和中立，所述表情识别方法还包括：

使用所述稠密卷积神经网络中的卷积层和池化层对校正之后的人脸图像进行特征提取；

根据输入特征和Softmax计算公式获得表情预测的概率，所述Softmax计算公式为：

其中，y⁽ⁱ⁾表示7种所述表情分类之中的一类表情的标签，x⁽ⁱ⁾表示输入特征，θ表示稠密卷积神经网络的所有权值。

可选的，所述将表情分类的结果传输给仿人机器人的步骤包括：

将表情分类的结果保存为向量数据；

通过网络方法将所述向量数据传输给仿人机器人服务器；

所述将表情分类的结果传输给仿人机器人之后的步骤包括：

所述仿人机器人服务器将所述向量数据转化为离线规划的动作指令；

所述仿人机器人根据所述动作指令实现对应的动作。

本发明具有下述有益效果：

本发明提供的基于稠密卷积神经网络的仿人机器人表情识别方法包括：根据方向梯度直方图特征和支持向量机算法对单帧图像之中的人脸位置进行定位，使用回归树集合对人脸图像的人脸基准点进行匹配，根据匹配结果对人脸图像进行校正和记录，使用稠密卷积神经网络对校正之后的人脸图像进行识别，根据识别结果获得表情分类，将表情分类的结果传输给仿人机器人。本发明提供的技术方案在人脸定位和人脸校正的基础上，使用稠密卷积神经网络将人脸特征提取和表情分类的流程进行结合，以实现对人脸的表情识别，最后将分类结果实时提供给仿人机器人，从而达到人机交互的效果，在保证准确率的同时还具有较高的实时性，有效保障了行人的安全。

附图说明

图1为本发明实施例一提供的仿人机器人表情识别方法的流程图。

图2为本发明实施例一提供的人脸检测器的检测示意图。

图3为本发明实施例一提供的人脸校正器的校正示意图。

图4为本发明实施例一提供的表情识别稠密卷积神经网络的框架图。

图5为本发明实施例一提供的表情识别稠密卷积神经网络在验证数据集上的准确率结果示意图。

图6为本发明实施例一提供的仿人机器人对表情分类结果做出反应的实验示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于稠密卷积神经网络的仿人机器人表情识别方法进行详细描述。

实施例一

图1为本发明实施例一提供的仿人机器人表情识别方法的流程图。如图1所示，本实施例提供的仿人机器人表情识别方法的流程包含五个部分：输入单帧图像、人脸检测、人脸校正、表情识别和执行单元NAO。从原始输入图像开始，经过两个环节的图像处理，然后预测人脸表情的分类，最后将表情信息传输给机器人。本发明提供的技术方案在人脸定位和人脸校正的基础上，使用稠密卷积神经网络将人脸特征提取和表情分类的流程进行结合，以实现对人脸的表情识别，最后将分类结果实时提供给仿人机器人，从而达到人机交互的效果。

本实施例中，识别精度和计算时间为人机交互环境之中检测人脸和定位人脸的两个标准，但是考虑到表情识别系统的实时性，在保证一定精度的前提之下，需要选取计算速度更快的特征和学习算法。因此，本实施例使用方向梯度直方图(Histogram of OrientedGradient，HOG)特征和支持向量机(Support Vector Machine，SVM)算法。

本实施例根据HOG特征和SVM算法形成人脸检测器，用于检测单帧图像之中的人脸位置。具体来说，本实施例获取训练样本，所述训练样本包括3000张LFW数据库中的人脸图像；使用HOG特征和SVM算法对所述样本进行训练；根据训练结果形成人脸检测器。图2为本发明实施例一提供的人脸检测器的检测示意图。如图2所示，输入原始图像之后，本实施例首先计算出原始图像的HOG特征，然后将训练之后的标准人脸HOG特征与原始图像的HOG特征进行比对，最后找出原始图像中的人脸位置而且输出所述人脸位置。

本实施例使用回归树的集合方法寻找人脸图块中的基准点，以对所述单帧图像之中的人脸进行校正。具体来说，本实施例获取训练样本，所属训练样本包括2000张训练人脸图像和330张测试人脸图像；使用形状不变特征分割的回归树集合对所述训练样本进行训练；根据训练结果形成人脸校正器，根据匹配的人脸基准点对所述人脸图像进行校正。图3为本发明实施例一提供的人脸校正器的校正示意图。如图3所示，输入人脸图块之后，本实施例首先计算出人脸的68个特征点，然后与标准人脸的68个特征点进行比对，最后对人脸图块进行校正。

本实施例使用稠密卷积神经网络对校正后的人脸进行特征提取和预测，以获得表情分类。具体来说，本实施例通过搭建稠密卷机身网络框架形成分类器；使用大量带有表情的灰白人脸图像数据集进行训练；将训练结果作为最终表情分类器。本实施例提供的技术方案在表情识别的基础上，将表情分类结果传输给机器人NAO，而且离线规划好对应的动作，从而使得机器人与人进行交互。本发明提供的技术方案通过优化之后的表情分类稠密网络，使用实验室环境下单摄像头和图像处理器实现了对人脸表情的识别，在保证准确率的同时还具有较高的实时性，有效保障了行人的安全。

考虑到真实环境中的人机交互需要高实时性，过于庞大的神经网络架构会导致计算量增加。本实施例通过减少稠密网络中的稠密块数量和增长率，以及瓶颈层和压缩层的设置，更有助于识别系统减少参数量和学习更有表征性的特征。图4为本发明实施例一提供的表情识别稠密卷积神经网络的框架图。如图4所示，本实施例设计的稠密网络包含3个稠密块和12的增长率，瓶颈层和压缩层的超参数都设置为50％，即减少一半的参数。

每个稠密块包含12层的卷积层，每个卷积层的操作实际上是由非线性修正单元激活函数、批归一化和3×3的卷积计算三个部分组合形成。每一层的卷积层组合计算后生成的特征图张量将会被连接到后续的卷积层输入中。因此，对于输入数据的频道数为m的情况，第l层卷积网络将有m+k×(l-1)个特征图。所述卷积层组合计算公式如下：

在每个稠密块的中间存在过渡层，目的是完成参数压缩和调整计算变量。经过3个稠密块之后，本实施例获得的特征张量将会输入全连接网络层，该层联合Softmax函数将提取的特征映射成1×7的向量，其中每个位置的值代表该类别表情的自信度。所述Softmax函数计算公式如下：

本实施例使用稠密卷积网络训练表情分类器。对于深度卷积神经网络模型而言，为了达到高准确率，需要大量的训练数据。因此，本实施例使用FERFIN数据集作为训练数据集。FERFIN数据集由FER2013数据集改进而来，FERFIN数据集包含“中立”图像12858例、“开心”图像9354例、“惊讶”图像4462例、“悲伤”图像4351例、“愤怒”图像3082例、“厌恶”图像575例和“害怕”图像816例，总计35498例。图5为本发明实施例一提供的表情识别稠密卷积神经网络在验证数据集上的准确率结果示意图。如图5所示，本实施例提供的技术方案在验证集的准确率达到了83.66％。

本实施例使用分类器对单帧图像中的人脸表情进行分类。具体来说，本实施例使用网络方法将分类器产生的结果向量传输给机器人服务器，服务器分析结果后产生对应的指给机器人NAO，机器人NAO做出反应。图6为本发明实施例一提供的仿人机器人对表情分类结果做出反应的实验示意图。如图6所示，机器人服务器在接受了表情分类结果后下达对应表情的动作指令，机器人NAO实时的做出回应。

本发明提供的基于稠密卷积神经网络的仿人机器人表情识别方法包括：根据方向梯度直方图特征和支持向量机算法对单帧图像之中的人脸位置进行定位，使用梯度增强训练之后的回归树集合对人脸图像的人脸基准点进行匹配，根据匹配结果对人脸图像进行校正和记录，使用稠密卷积神经网络对校正之后的人脸图像进行识别，根据识别结果获得表情分类，将表情分类的结果传输给仿人机器人。本发明提供的技术方案在人脸定位和人脸校正的基础上，使用稠密卷积神经网络将人脸特征提取和表情分类的流程进行结合，以实现对人脸的表情识别，最后将分类结果实时提供给仿人机器人，从而达到人机交互的效果。本发明提供的技术方案通过优化之后的表情分类稠密网络，使用实验室环境下单摄像头和图像处理器实现了对人脸表情的识别，在保证准确率的同时还具有较高的实时性，有效保障了行人的安全。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，包括：

获取单帧图像；

使用回归树的集合方法对人脸图像的人脸基准点进行匹配；

根据匹配结果对所述人脸图像进行校正和记录；

将表情分类的结果传输给仿人机器人。

2.根据权利要求1所述的基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，所述人脸基准点的个数为68。

3.根据权利要求1所述的基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，所述根据方向梯度直方图特征和支持向量机算法对所述单帧图像之中的人脸位置进行定位的步骤包括：

4.根据权利要求1所述的基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，所述使用梯度增强训练之后的回归树集合对人脸图像的人脸基准点进行匹配的步骤包括：

根据匹配的人脸基准点对所述人脸图像进行校正。

5.根据权利要求1所述的基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，所述使用稠密卷积神经网络对校正之后的人脸图像进行识别，以获得表情分类的步骤包括：

6.根据权利要求5所述的基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，所述表情分类包括开心、难过、愤怒、惊讶、害怕、厌恶和中立，所述表情识别方法还包括：

7.根据权利要求1所述的基于稠密卷积神经网络的仿人机器人表情识别方法，其特征在于，所述将表情分类的结果传输给仿人机器人的步骤包括：

将表情分类的结果保存为向量数据；

通过网络方法将所述向量数据传输给仿人机器人服务器；

所述将表情分类的结果传输给仿人机器人之后的步骤包括：

所述仿人机器人根据所述动作指令实现对应的动作。