CN113642446A

CN113642446A - 一种基于人脸动态情绪识别的检测方法和装置

Info

Publication number: CN113642446A
Application number: CN202110905775.3A
Authority: CN
Inventors: 李剑峰
Original assignee: Hunan Jianxin Intelligent Technology Co ltd
Current assignee: Hunan Jianxin Intelligent Technology Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-12

Abstract

本发明公开一种基于人脸动态情绪识别的检测方法和装置，通过接收终端发送的原始识别数据；对原始识别数据进行识别，得到语音特征数据和人脸特征数据；将语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据；根据人脸动作信息，基于深度卷积神经网络进行人脸微表情动作检测，获得第一人脸情绪变化数据；根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据；根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到情绪识别结果。本发明能够实现识别用户情绪的变化，提高用户情绪识别的准确率。

Description

一种基于人脸动态情绪识别的检测方法和装置

技术领域

本发明属于通信技术领域，尤其涉及一种基于人脸动态情绪识别的检测方法和装置。

背景技术

目前，情绪识别最常见的通过情感计算机技术，通过赋予计算机系统识别，理解，表达和适应人的情感能力，来建立和谐人机环境，以帮助用户客观地分析情绪，管理情绪。常用的分析用户情绪的方法有通过语音识别技术分析用户情绪。利用语音识别技术仅是通过识别语音中包括的敏感词来分析用户情绪，准确度低，很难达到通过客观准确的分析用户的情绪变化，帮助用户管理情绪的目的。

发明内容

本发明的主要目的在于提出一种基于人脸动态情绪识别的检测方法和装置，旨在解决用户情绪变化无法准确识别的技术问题。

为实现上述目的，本发明采用如下的技术方案：

一种基于人脸动态情绪识别的检测方法，包括如下步骤：

步骤S1、接收终端发送的原始识别数据；

步骤S2、对所述原始识别数据进行识别，得到语音特征数据和人脸特征数据；其中，语音特征数据包含语音特征时间信息，人脸特征数据包含人脸动作信息；

步骤S3、将所述语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据；

步骤S4、根据人脸动作信息，基于深度卷积神经网络进行人脸微表情动作检测，获得第一人脸情绪变化数据；

步骤S5、根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据；所述静态特征为人脸的整体轮廓特征，动态特征为人脸表情变化时的肌肉特征；

步骤S6、根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到情绪识别结果。

作为优选，所述将语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据，包括：

步骤S31、识别所述语音特征数据中包含的关键词信息和语调信息；

步骤S32、根据所述关键词信息和所述语调信息生成语音情绪模型，并将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配生成语音变化数据。

作为优选，所述基于深度卷积神经网络进行人脸微表情动作检测包括：

步骤S41、设计深度卷积神经网络结构；

步骤S411：标记人脸及其中不同动作单元的矩形形状区域；

步骤S412：设计实现深度卷积神经网络，所述神经网络中包括了卷积层、捷径层及动作单元检测层，以对人脸及其不同表情动作单元区域信息进行学习，获取网络前向传播参数；

步骤S413：将人脸样本数据集中的样本数据作为神经网络输入数据；

步骤S42、根据步骤S41中学习到的网络参数，实现人脸表情动作单元检测；

步骤S43、根据步骤S42中检测到的人脸动作单元进行可视化输出，并对人脸所表达的微表情进行计算输出，得到获得第一人脸情绪变化数据。

作为优选，根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据，包括：

步骤S51、采用静态特征提取，具体包括：

步骤S511、通过摄像头或提前存储的视频文件中获取视频流，

步骤S512、从获得的视频流中截取关键帧，

步骤S513、从所得的关键帧的图像信息中获取人脸的轮廓特征，

步骤S514、利用梯度图像算法处理人脸的轮廓特征，从而得到高维特征数据，利用二值直方图线性或者非线性处理人脸的轮廓特征，变换得到低维特征数据，

步骤S515、将高维特征数据与低维特征数据进行相似度度量，即特征匹配，得到静态特征匹配的一个或者多个相似结果；

步骤S52、采用动态特征提取，具体包括：

步骤S521、通过摄像头或提前存储的视频文件中获取视频流，

步骤S522、利用光流差分的方法提取视频流中的动态特征，确定目标区域，

步骤S523、从目标区域中选取所需要的脸部窗口，建立局部窗口，

步骤S524、将局部窗口的图像进行二值化，提取动态的轮廓特征，采用金字塔匹配核或滑动窗算法将所得到的轮廓特征信息变换为动作序列，从而构建表情动作序列，

步骤S525、将表情动作序列生成用于匹配的动作向量信息，动态特征提取人脸表情变化，通过指定表情，根据人脸肌肉的振幅和频率提取人脸对应的肌肉动态变化，建立动作模型，将动作向量与动作模型进行匹配；

步骤S53、将静态特征匹配得到的一个或者多个相似结果与动态匹配得到的动作向量进行结果集融合，利用动态结果集对静态结果集进行校验，将错误结果进行剔除，得出第二人脸情绪变化数据。

作为优选，步骤S411包括如下步骤：

步骤S4111、根据有监督的下降方法检测人脸及其特征点位置，对人脸的各个特征点进行编号；

步骤S4112、根据人脸特征点的位置，定义基于特征点位置的人脸及动作单元区域，所述动作单元区域能够反映脸部上额、眉、眼、鼻、颊、嘴及颌的动作；

步骤S4113、利用特征点位置计算人脸区域作为样本区域用于模型学习。

作为优选，其特征在于，步骤S43包括：

步骤S431：根据步骤S42中检测层中每个动作单元的概率值及阈值范围判断出输入人脸中包含的动作单元，挡大于概率值的判断阈值则为可输出动作单元，读取检测层中的动作单元的类别名称，并根据人脸位置以及动作单元的相对位置计算动作单元在图像上的绝对像素位置，用矩形框在图像上绘出动作单元的绝对位置并同时绘制动作单元名称；

步骤S432：根据人脸中出现的动作单元的组合输出当前人脸的微表情状态；

步骤S433：根据对当前图像中的人脸的中动作单元的认定结果对人脸微表情状态进行输出。

作为优选，人脸的微表情状态包括高兴、沮丧、惊奇、害怕、愤怒、厌恶以及中性表情。

作为优选，步骤S32中根据所述关键词信息和所述语调信息生成语音情绪模型，并将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配生成语音变化数据，包括：

根据所述关键词信息和所述语调信息确定语音特征点；

根据所述语音特征点生成语音情绪模型，并在所述语音情绪模型中标定所述语音特征点；

将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配，以调整所述语音情绪模型上已标定的所述语音特征点，并记录所述语音特征点的语音特征变化数据；

将所述语音特征变化数据与情绪模型库中的语调特征数据和心理行为特征数据进行匹配，并根据匹配结果生成语音变化数据。

本发明还提供一种基于人脸动态情绪识别的检测装置，包括：

获取单元，用于接收终端发送的原始识别数据；

第一识别单元，用于对所述原始识别数据进行识别，得到语音特征数据和人脸特征数据；其中，语音特征数据包含语音特征时间信息，人脸特征数据包含人脸动作信息；

匹配单元，用于将所述语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据；

第一检测单元，用于根据人脸动作信息，基于深度卷积神经网络进行人脸微表情动作检测，获得第一人脸情绪变化数据；

第二识别单元，用于根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据；所述静态特征为人脸的整体轮廓特征，动态特征为人脸表情变化时的肌肉特征；

第二检测单元，用于根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到情绪识别结果。

作为优选，第二人脸情绪变化数据为人脸微表情数据，人脸微表情的状态包括高兴、沮丧、惊奇、害怕、愤怒、厌恶以及中性表情。

本发明的技术方案，通过接收终端发送的原始识别数据；对所述原始识别数据进行识别，得到语音特征数据和人脸特征数据；将所述语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据；根据人脸动作信息，基于深度卷积神经网络进行人脸微表情动作检测，获得第一人脸情绪变化数据；根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据；所述静态特征为人脸的整体轮廓特征，动态特征为人脸表情变化时的肌肉特征；根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到情绪识别结果，通过上述方式，本发明能够实现识别用户情绪的变化，提高用户情绪识别的准确率；进一步，本发明的基于深度卷积神经网络的人脸微表情动作检测，在深度神经网络设计中，除过利用卷积层学习底层几何特征外，利用捷径层解决网络梯度弥散问题，设计多个不同尺度的检测层学习不同动作单元分类及检测参数，利用多个尺度的检测层提高检测准确率，避免有效动作单元遗漏；再进一步，将全局轮廓和局部动态特征相结合，提高了人脸识别的精度，从而可以大大增加人脸识别的可信度。

附图说明

图1为本发明基于人脸动态情绪识别的检测方法的流程图；

图2为本发明获得语音变化数据的流程图；

图3为本发明获得第一人脸情绪变化数据的流程图；

图4为本发明获得第二人脸情绪变化数据的流程图；

图5为本发明基于人脸动态情绪识别的检测装置的结构图。

具体实施方式

为更好的说明本发明，下面结合附图与实施过程对本发明进一步说明。

如图1所示，本发明提供一种基于人脸动态情绪识别的检测方法，包括如下步骤：

步骤S1、接收终端发送的原始识别数据；

进一步，如图2所示，所述将语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据，包括：

进一步，步骤S32中根据所述关键词信息和所述语调信息生成语音情绪模型，并将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配生成语音变化数据，包括：

根据所述关键词信息和所述语调信息确定语音特征点；

进一步，步骤S6中根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到情绪识别结果的步骤之前，包括：

对所述原始识别数据进行识别，得到对话语音数据，其中，所述对话语音数据包括：对话语音时间信息；

对所述对话语音数据和所述语音特征数据进行识别，得到对话情绪数据；

根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到用户的情绪识别结果的步骤，包括：

根据所述对话情绪数据、所述图像情绪数据、所述语音特征时间信息和所述图像特征时间信息对所述语音变化数据进行验证，得到用户的情绪识别结果。

进一步，所述对所述对话语音数据和所述语音特征数据进行识别，得到对话情绪数据的步骤，包括：

根据所述对话语音数据和所述语音特征数据，得到对话文本数据；

采用通用情绪识别模型对所述对话文本数据进行识别得到通用识别结果；

采用对话情绪识别模型对所述对话文件数据进行识别得到对话识别结果；

根据所述通用识别模型结果和所述对话识别结果，得到对话情绪数据。

进一步，所述将语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据的步骤，包括：

识别所述语音特征数据中包含的关键词信息和语调信息；

根据所述关键词信息和所述语调信息生成语音情绪模型，并将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配生成语音变化数据。

进一步，所述根据所述关键词信息和所述语调信息生成语音情绪模型，并将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配生成语音变化数据的步骤，包括：

根据所述关键词信息和所述语调信息确定语音特征点；

进一步，如图3所示，所述基于深度卷积神经网络进行人脸微表情动作检测包括：

步骤S41、设计深度卷积神经网络结构；

步骤S411：标记人脸及其中不同动作单元的矩形形状区域；所述标记人脸是通过在人脸特征点计算的基础上，根据不同动作单元的定义及人脸肌肉变化、定义不同动作单元局部矩形区域位置及定义人脸矩形区域位置来实现的；

步骤S412：设计实现深度卷积神经网络，所述神经网络中包括了卷积层、捷径层及动作单元检测层，以对人脸及其不同表情动作单元区域信息进行学习，获取网络前向传播参数。其中，

每一个卷积层都通过一组卷积参数模板对上一层特征图像进行卷积运算，并获得与卷积参数模板个数相同的特征图像作为输出层，卷积层的激活函数采用有泄漏的线性整流函数。

对于捷径层，是为了削弱后向传播过程中梯度消失问题的影响，在每隔三层卷积层之间加入一个捷径层，即在三层卷积的输出层中加入初始的输入。

检测层即为本方法中动作单元检测结果的输出，与大部分卷积网络不同的是，本方法并不设置全连接层进行特征分类，最后的卷积层输出作为检测层的输入，而检测层的激活函数选用Logistic函数，输出结果根据动作单元分类一共有七十五个神经元，其中第一个神经元表示相应特征图像像素点位置是否检测到人脸，如果检测到则为1，如果未检测到则为0；接下来为人脸在图像上的绝对位置信息，包括左上顶点坐标及矩形区域的长宽；剩下的七十个神经元分为十四个部分，分别记录十四个动作单元的信息，每个动作单元会记录检测的概率值以及其与人脸位置的关系信息，其中位置信息分别是相对于人脸区域左上点的横纵坐标偏移长度与人脸长宽的相对值，以及相对人脸区域的长宽比例。

本方法中对于神经网络卷积层和捷径层个数的设置，在硬件计算可支持基础上可以尽可能多的设置，即网络深度不受限制，检测层作为网络输出仅设置一层即可，为了提高动作单元的检测的准确率，可将检测层设置为两层，两层之间再间隔卷积层和捷径层，从而形成多个尺度的检测层设置，本方法设置网络层级方案如下：卷积层和捷径层共计十五个轮回后增加三个卷积层和一个检测层输出，随后在上次以最近的卷积层后设置捷径层并进行四个轮次的三个卷积层一个捷径层的输出后，增加三个卷积层和检测层，并根据需要设置卷积层采样间隔和滤波器大小。

进一步，步骤S411包括如下步骤：

进一步，其特征在于，步骤S43包括：

进一步，人脸的微表情状态包括高兴、沮丧、惊奇、害怕、愤怒、厌恶以及中性表情，所述中性表情包含：思考的脸、平淡的脸等。

进一步，如图4所示，根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据，包括：

步骤S51、采用静态特征提取，具体包括：

步骤S511、通过摄像头或提前存储的视频文件中获取视频流，

步骤S512、从获得的视频流中截取关键帧，

步骤S52、采用动态特征提取，具体包括：

步骤S521、通过摄像头或提前存储的视频文件中获取视频流，

如图5所示，本发明还提供一种基于人脸动态情绪识别的检测装置，实现上述基于人脸动态情绪识别的检测方法，包括：

获取单元，用于接收终端发送的原始识别数据；

作为优选，第二人脸情绪变化数据为人脸微表情数据，人脸微表情的状态包括高兴、沮丧、惊奇、害怕、愤怒、厌恶以及中性表情

本发明的技术方案通过接收终端发送的原始识别数据；对所述原始识别数据进行识别，得到语音特征数据和人脸特征数据；将所述语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据；根据人脸动作信息，基于深度卷积神经网络进行人脸微表情动作检测，获得第一人脸情绪变化数据；根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据；所述静态特征为人脸的整体轮廓特征，动态特征为人脸表情变化时的肌肉特征；根据所述第一人脸情绪变化数据、第二人脸情绪变化数据、所述语音特征时间信息和所述人脸动作信息对所述语音变化数据进行验证，得到情绪识别结果，通过上述方式，本发明能够实现识别用户情绪的变化，提高用户情绪识别的准确率；进一步，本发明的基于深度卷积神经网络的人脸微表情动作检测，在深度神经网络设计中，除过利用卷积层学习底层几何特征外，利用捷径层解决网络梯度弥散问题，设计多个不同尺度的检测层学习不同动作单元分类及检测参数，利用多个尺度的检测层提高检测准确率，避免有效动作单元遗漏；再进一步，将全局轮廓和局部动态特征相结合，提高了人脸识别的精度，从而可以大大增加人脸识别的可信度。

以上列举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范畴之内。

Claims

1.一种基于人脸动态情绪识别的检测方法，其特征在于，包括如下步骤：

步骤S1、接收终端发送的原始识别数据；

2.如权利要求1所述的基于人脸动态情绪识别的检测方法，其特征在于，所述将语音特征数据与情绪模型库中的语音标准情绪模型进行匹配，获得语音变化数据，包括：

3.如权利要求1所述的基于人脸动态情绪识别的检测方法，其特征在于，所述基于深度卷积神经网络进行人脸微表情动作检测包括：

步骤S41、设计深度卷积神经网络结构；

步骤S411：标记人脸及其中不同动作单元的矩形形状区域；

4.如权利要求1所述的基于人脸动态情绪识别的检测方法，其特征在于，根据人脸动作信息，通过静态特征和动态特征进行人脸识别，获得第二人脸情绪变化数据，包括：

步骤S51、采用静态特征提取，具体包括：

步骤S511、通过摄像头或提前存储的视频文件中获取视频流，

步骤S512、从获得的视频流中截取关键帧，

步骤S52、采用动态特征提取，具体包括：

步骤S521、通过摄像头或提前存储的视频文件中获取视频流，

5.如权利要求3所述的基于人脸动态情绪识别的检测方法，其特征在于，步骤S411包括如下步骤：

6.如权利要求3所述的基于人脸动态情绪识别的检测方法，其特征在于，其特征在于，步骤S43包括：

7.如权利要求6所述的基于人脸动态情绪识别的检测方法，其特征在于，其特征在于，人脸的微表情状态包括高兴、沮丧、惊奇、害怕、愤怒、厌恶以及中性表情。

8.如权利要求2所述的基于人脸动态情绪识别的检测方法，其特征在于，步骤S32中根据所述关键词信息和所述语调信息生成语音情绪模型，并将所述语音情绪模型与情绪模型库中语音标准情绪模型进行匹配生成语音变化数据，包括：

根据所述关键词信息和所述语调信息确定语音特征点；

9.一种基于人脸动态情绪识别的检测装置，其特征在于，包括：

获取单元，用于接收终端发送的原始识别数据；

10.如权利要求9所述的基于人脸动态情绪识别的检测装置，其特征在于，第二人脸情绪变化数据为人脸微表情数据，人脸微表情的状态包括高兴、沮丧、惊奇、害怕、愤怒、厌恶以及中性表情。