CN112307975A

CN112307975A - 融合语音与微表情的多模态情感识别方法及系统

Info

Publication number: CN112307975A
Application number: CN202011197040.1A
Authority: CN
Inventors: 邓志娟; 许春冬; 钟少君; 唐明田
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-02

Abstract

本发明公开了融合语音与微表情的多模态情感识别方法及系统，涉及情况识别技术领域，其技术方案要点是：建立微表情数据库；建立语音情感数据库与情感关联函数；同时获取同一目标对象的语音信息和脸部图像信息，并提取情感表征词汇和微表情数据；根据匹配结果获取情感关联函数以及对应微表情的情绪波动值；建立情感识别网，并逐级分解后得到多个情感识别线路；获取相应的情绪波动值，并建立情绪识别曲线；情感波动度计算后根据预设波动度选择合格的情感识别线路。本发明增强了语音信息、脸部图像信息表征目标对象实时情感的真实性，同时降低了同一情况体现不同情况的概率，既提高情感识别结果的准确度，又降低了情感识别结果的误差。

Description

融合语音与微表情的多模态情感识别方法及系统

技术领域

本发明涉及情感识别技术领域，更具体地说，它涉及融合语音与微表情的多模态情感识别方法及系统。

背景技术

情感识别作为计算机科学、认知科学、心理学、脑科学、神经科学等多学科交叉的新兴研究领域，其研究目的就是让计算机学习理解人类的情感表达，最终使其能够像人类一样具有识别、理解情感的能力。因此，作为一个极富挑战性的交叉学科，情感识别成为当前国内外模式识别、计算机视觉、大数据挖掘以及人工智能领域的一个研究热点，具有重要的研究价值和应用前景。

目前,对于情感识别有两种方式，一种是检测生理信号如呼吸、心律和体温等，另一种是检测情感行为如面部特征表情识别、语音情感识别和姿态识别。由于通过检测生理信号实现情感识别需要配备较为复杂的数据采集设备，投入成本相对较高，为此，仅能在特殊场景小范围使用，如心理分析；而对于通过情感行为检测实现情感识别，其所需要的主要设备为监控设备和语言采集设备，这两种设备是大部分场所、环境中的常规设置，如监控系统、智能终端设备，为此，通过检测情感行为相对来说更具有推广应用前景。

然而，现有的通过情感行为检测实现情感识别大部分采用单一的识别方式，对于自我控制能较强的人来说，其面部图像、语音信息和姿态行为所体现的情感信息是能够进行伪装掩饰的，导致现有情感识别结果的准确度较低，同时单一的情感识别方式也为目标对象进行伪装掩饰提供了条件；此外，对于较为单一的识别方式，不同的情感表征可能展现相同的面部图像、语音信息或姿态行为，导致现有的情感识别结果的误差较大。因此，如何研究设计一种准确度高、误差小的融合语音与微表情的多模态情感识别方法及系统是我们目前急需解决的问题。

发明内容

为解决现有情感识别技术的情感识别结果的准确度较低、误差大的问题，本发明的目的是提供融合语音与微表情的多模态情感识别方法及系统。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了融合语音与微表情的多模态情感识别方法，包括以下步骤：

S101：对历史微表情数据进行分类处理，并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库；

S102：根据历史语音情感表征词汇建立语音情感数据库，并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数；

S103：同时获取同一目标对象的语音信息和脸部图像信息，并对语音信息进行预处理后提取情感表征词汇，以及对脸部图像信息进行图像处理后提取微表情数据；

S104：将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配，并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值；

S105：根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网，并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路；

S106：根据情感识别线路获取相应的情绪波动值，并根据情绪波动值、时间轴分布顺序建立情绪识别曲线；

S107：对情绪识别曲线进行情感波动度计算，并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。

进一步的，所述情感关联函数具体为：

式中，Y(a,i_a),Y(b,i_b),...,Y(z,i_z)表示不同的微表情分类子库；a,b,...,z表示微表情；i_a,i_b,...,,i_z表示对应微表情的情绪波动值；X(A)表示情感表征词汇，并与Y(a,i_a),Y(b,i_b),...,Y(z,i_z)同时关联。

进一步的，所述语音信息预处理具体为：

通过对语音信息进行自然语言处理后获取语音信息中的语速信息和句义信息；

根据语速信息、句义信息从语音信息中截取语句单元，并按序将语句单元作为情感表征词汇提取的独立数据。

进一步的，所述情感表征词汇提取具体为：

对语句单元进行分词、词性标注后提取标注词组；

从标注词组中筛选出表征情绪的标注词作为情感表征词汇。

进一步的，所述情感识别网建立具体为：

根据情感表征词汇的时间轴分布顺序将对应的情感关联函数依次排序；

将N+1时间序的情感关联函数同时串联在N时间序对应情感关联函数中的微表情分类子库，得到情感识别网，情感识别网分解后的情感识别线路具体为：

Q＝S₁×S₂×...×S_N

式中，Q表示情感识别线路的总数量；S_N表示N时间序的情感关联函数中微表情分类子库的数量。

进一步的，所述情绪识别曲线具体为：

根据情感识别线路中微表情分类子库的时间轴分布顺序按序获取对应的情绪波动值；

以时间轴分布顺序为横轴、情绪波动值为纵轴得到情感识别线路中各个微表情分类子库的二维坐标点，并将相邻二维坐标点以平滑线连接形成情绪识别曲线F(x)，情绪识别曲线具体为：

F(N)＝{f₁(i_a),f₂(i_b),...,f_N(i_z)},且满足f₁'(i_a)＝f₂'(i_b)＝f_N'(i_z)＝0，

式中，F(N)表示情绪识别曲线；f_N(i_z)表示N时间序的二维坐标点；f_N'(i_z)表示情绪识别曲线在N时间序的二维坐标点的一阶导值为0。

进一步的，所述情感波动度计算具体为：

K₁＝|D₁'(i)+...+D_m'(i)|

K₂＝D₁'(j)+...+D_t'(j)

式中，W表示情感波动度；D_m'(i)表示情绪识别曲线中一阶导为负值区域的相邻二维坐标点的情绪波动值差值，取值为负；K₁表示负值区域中所有的情绪波动值差值之和的绝对值；D_t'(j)表示情绪识别曲线中一阶导为正值区域的相邻二维坐标点的情绪波动值差值，差值取正；K₂表示负值区域中所有的情绪波动值差值之和。

第二方面，提供了融合语音与微表情的多模态情感识别系统，包括：

表情数据库构建模块，用于对历史微表情数据进行分类处理，并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库；

语音数据库构建模块，用于根据历史语音情感表征词汇建立语音情感数据库，并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数；

数据处理模块，用于同时获取同一目标对象的语音信息和脸部图像信息，并对语音信息进行预处理后提取情感表征词汇，以及对脸部图像信息进行图像处理后提取微表情数据；

匹配模块，用于将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配，并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值；

线路获取模块，用于根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网，并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路；

曲线建立模块，用于根据情感识别线路获取相应的情绪波动值，并根据情绪波动值、时间轴分布顺序建立情绪识别曲线；

识别判断模块，用于对情绪识别曲线进行情感波动度计算，并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。

第三方面，提供了一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任意一项所述的融合语音与微表情的多模态情感识别方法。

第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现如第一方面中任意一项所述的融合语音与微表情的多模态情感识别方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过同时获取目标对象的语音信息和脸部图像信息，并结合语音识别、面部图像识别两种方式对目标对象进行关联识别，增强了语音信息、脸部图像信息表征目标对象实时情感的真实性，同时降低了同一情况体现不同情况的概率，既提高情感识别结果的准确度，又降低了情感识别结果的误差；

2、本发明通过建立情感识别网后分解得到的情感识别线路，能够获取情感识别过程存在的所有情况，扩大了情感识别类别的全面性；

3、本发明通过建立情绪识别曲线和情感波动度计算，能够从多次情感识别情况中筛选出最接近真实情况的情感识别结果，既提高了情感识别结果的精确度，又降低了情感识别计算的复杂度；

4、本发明通过对语音信息进行预处理后截取语句单元，在保障语言信息识别过程中语义完整性的情况下，降低了情感识别网构建的复杂度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的流程图；

图2是本发明实施例中的系统架构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

实施例1

融合语音与微表情的多模态情感识别方法，如图1所示，包括以下步骤：

S101：对历史微表情数据进行分类处理，并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库；其中，情绪发展趋势多种多样，可根据具体的应用场景设置，例如：兴奋-高兴-开心-微笑-平静-失望-忧虑-烦躁-愤怒；分类子库可包含一个微表情类别或多个相似度较高的微表情类别；

情感关联函数具体为：

语音信息预处理具体为：通过对语音信息进行自然语言处理后获取语音信息中的语速信息和句义信息；根据语速信息、句义信息从语音信息中截取语句单元，并按序将语句单元作为情感表征词汇提取的独立数据。

情感表征词汇提取具体为：对语句单元进行分词、词性标注后提取标注词组；从标注词组中筛选出表征情绪的标注词作为情感表征词汇。

情感识别网建立具体为：根据情感表征词汇的时间轴分布顺序将对应的情感关联函数依次排序；将N+1时间序的情感关联函数同时串联在N时间序对应情感关联函数中的微表情分类子库，得到情感识别网，情感识别网分解后的情感识别线路具体为：

Q＝S₁×S₂×...×S_N

情绪识别曲线具体为：根据情感识别线路中微表情分类子库的时间轴分布顺序按序获取对应的情绪波动值；以时间轴分布顺序为横轴、情绪波动值为纵轴得到情感识别线路中各个微表情分类子库的二维坐标点，并将相邻二维坐标点以平滑线连接形成情绪识别曲线F(x)，情绪识别曲线具体为：

情感波动度计算具体为：

K₁＝|D₁'(i)+...+D_m'(i)|

K₂＝D₁'(j)+...+D_t'(j)

实施例2

融合语音与微表情的多模态情感识别系统，如图2所示，包括：

表情数据库构建模块，用于对历史微表情数据进行分类处理，并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库；语音数据库构建模块，用于根据历史语音情感表征词汇建立语音情感数据库，并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数；数据处理模块，用于同时获取同一目标对象的语音信息和脸部图像信息，并对语音信息进行预处理后提取情感表征词汇，以及对脸部图像信息进行图像处理后提取微表情数据；匹配模块，用于将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配，并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值；线路获取模块，用于根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网，并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路；曲线建立模块，用于根据情感识别线路获取相应的情绪波动值，并根据情绪波动值、时间轴分布顺序建立情绪识别曲线；识别判断模块，用于对情绪识别曲线进行情感波动度计算，并选择情感波动度低于预设波动度的合格情绪识别曲线作为基于语音和微表情的多模态情感识别结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.融合语音与微表情的多模态情感识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的融合语音与微表情的多模态情感识别方法，其特征是，所述情感关联函数具体为：

3.根据权利要求1所述的融合语音与微表情的多模态情感识别方法，其特征是，所述语音信息预处理具体为：

4.根据权利要求3所述的融合语音与微表情的多模态情感识别方法，其特征是，所述情感表征词汇提取具体为：

对语句单元进行分词、词性标注后提取标注词组；

从标注词组中筛选出表征情绪的标注词作为情感表征词汇。

5.根据权利要求1所述的融合语音与微表情的多模态情感识别方法，其特征是，所述情感识别网建立具体为：

Q＝S₁×S₂×...×S_N

6.根据权利要求5所述的融合语音与微表情的多模态情感识别方法，其特征是，所述情绪识别曲线具体为：

7.根据权利要求6所述的融合语音与微表情的多模态情感识别方法，其特征是，所述情感波动度计算具体为：

K₁＝|D₁'(i)+...+D_m'(i)|

K₂＝D₁'(j)+...+D_t'(j)

8.融合语音与微表情的多模态情感识别系统，其特征是，包括：

9.一种计算机终端，其特征是，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的融合语音与微表情的多模态情感识别方法。

10.一种计算机可读介质，其特征是，其上存储有计算机程序，所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的融合语音与微表情的多模态情感识别方法。