CN110033029A

CN110033029A - 一种基于多模态情感模型的情感识别方法和装置

Info

Publication number: CN110033029A
Application number: CN201910220260.2A
Authority: CN
Inventors: 翟懿奎; 邓文博; 徐颖; 柯琪锐; 曹鹤; 甘俊英; 应自炉; 曾军英; 秦传波; 麦超云
Original assignee: Wuyi University Fujian
Current assignee: Wuyi University Fujian
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-19

Abstract

本发明公开了一种基于多模态情感模型的情感识别方法和装置，建立基础维度预测模型，并由基础维度预测模型得到视频维度预测模型、音频维度预测模型和文本维度预测模型，分别分析表情姿态视频特征、音频特征、话语文本特征得到第一情感结果、第二情感结果和第三情感结果；将三个结果融合并结合基于基础维度预测模型的映射关系得到目标对象的情感类别；其从多模态和多角度进行情感识别，具有信息全面、抗干扰性强以及高准确度的优点。

Description

一种基于多模态情感模型的情感识别方法和装置

技术领域

本发明涉及计算机处理领域，特别是一种基于多模态情感模型的情感识别方法和装置。

背景技术

情感是人们在日常生活中表现出来的一种心理现象。而对于智能机器,如果能够实现快速准确地判断人的情感状态,就可以进一步理解用户的情感,从而实现与用户的自然、友好、和谐的交互。人的情感是通过多种模态表现出来的，诸如表情、姿态、声音和话语等；可以基于这些模态进行情感判断，但是单模态具有信息不全面、反馈不及时以及易受干扰等诸多缺点。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种基于多模态情感模型的情感识别方法和装置，进行多模态的情感识别，有效提高情感识别性能。

本发明解决其问题所采用的技术方案是：

本发明的第一方面一种基于多模态情感模型的情感识别方法，其特征在于，包括以下步骤：建立基础维度预测模型；标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型；提取目标对象的表情姿态视频特征、音频特征和话语文本特征；通过视频维度预测模型对表情姿态视频特征分析得到第一情感结果；通过音频维度预测模型对音频特征分析得到第二情感结果；通过文本维度预测模型对话语文本特征分析得到第三情感结果；对所述第一情感结果、第二情感结果和第三情感结果进行信息融合，得到融合结果；根据所述融合结果通过建立的融合结果和情感类型的映射关系，得到目标对象的情感类型。

进一步，所述建立基础维度预测模型具体包括：建立包含愉悦维、唤醒维和支配维的基础维度预测模型，每个维度的取值极限构成一个圆；将每个维度按情感由弱到强进行分区，并对每个区代入不同的情感类别。

进一步，所述标注基础维度预测模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型具体包括：分别对视频信息和音频信息进行时间等长切片处理形成视频信息片段和音频信息片段；对文本信息进行分词处理形成文本信息片段；分别对切片后的视频信息片段和音频信息片段进行序列重构；对文本信息片段进行词性标记；分别根据序列重构后的视频信息片段、音频信息片段和标记后的文本信息片段对基础维度预测模型进行标注并结合相应的神经网络模型，进而形成视频维度预测模型、音频维度预测模型和文本维度预测模型。

进一步，所述表情姿态视频特征包括表情特征和姿态特征，所述视频维度预测模型包括3D表情卷积神经网络和3D姿态卷积神经网络；所述视频维度预测模型对表情姿态视频特征分析得到第一情感结果具体包括：3D表情卷积神经网络分类识别表情特征得到表情情感矩阵；3D姿态卷积神经网络分类识别姿态特征得到姿态情感矩阵；将表情情感矩阵和姿态情感矩阵融合得到第一情感结果。

本发明的第二方面，一种基于多模态情感模型的情感识别装置，包括：基础模型建立器，用于建立基础维度预测模型；基础模型标注器，用于标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型；特征提取器，用于提取目标对象的表情姿态视频特征、音频特征和话语文本特征；第一情感分析子系统，用于根据表情姿态视频特征分析得到第一情感结果；第二情感分析子系统，用于根据音频特征分析得到第二情感结果；第三情感分析子系统，用于根据话语文本特征分析得到第三情感结果；情感结果融合系统，用于对三个情感结果进行信息融合得到融合结果；情感输出器，用于根据融合结果通过映射关系得到并输出情感类型。

进一步，一种基于多模态情感模型的情感识别装置，还包括目标对象接收端，用于接收目标对象的信息；分割器，用于将目标对象分割为视频信息、音频信息和文本信息。

进一步，所述特征提取器包括视频特征提取器、音频特征提取器和文本特征提取器。

进一步，所述基础模型标注器包括视频模型标注器、音频模型标注器和文本模型标注器。

具体地，所述视频模型标注器具体包括：视频信息切片部、视频信息排序部和视频模型标注部；所述音频模型标注器具体包括：音频信息切片部、音频信息排序部和音频模型标注部；所述文本模型标注器具体包括：文本信息分词部、文本信息标记部和文本模型标注部。

进一步，所述第一情感分析子系统包括表情分析子系统和姿态分析子系统。

本发明的有益效果是：建立起多维度的基础维度预测模型，在此基础上形成视频维度预测模型、音频维度预测模型和文本维度预测模型，结合视频情感识别技术、音频情感识别技术和文本情感识别技术，从多模态和多角度进行情感识别，具有信息全面、抗干扰性强以及高准确度的优点。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明的第一方面的步骤图；

图2是本发明的第二方面的一个实施例的结构图；

图3是本发明的第二方面的另一个实施例的结构图；

图4是本发明的基础模型标注器的结构图；

图5是本发明的基础维度预测模型的模型图。

具体实施方式

参照图1，本发明的第一方面，提供了一种基于多模态情感模型的情感识别方法，其特征在于，包括以下步骤：

S1、建立基础维度预测模型；

S2、标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型；

S3、提取目标对象的表情姿态视频特征、音频特征和话语文本特征；

S4、通过视频维度预测模型对表情姿态视频特征分析得到第一情感结果；

S5、通过音频维度预测模型对音频特征分析得到第二情感结果；

S6、通过文本维度预测模型对话语文本特征分析得到第三情感结果；

S7、对所述第一情感结果、第二情感结果和第三情感结果进行信息融合，得到融合结果；

S8、根据所述融合结果通过建立的融合结果和情感类型的映射关系，得到目标对象的情感类型。

在该实施例中，首先建立起多维度的基础维度预测模型，在此基础上形成视频维度预测模型、音频维度预测模型和文本维度预测模型，结合视频情感识别技术、音频情感识别技术和文本情感识别技术，从多模态和多角度进行情感识别，具有信息全面、抗干扰性强以及高准确度的优点。

在情感预测模型上通常分为离散预测模型和维度预测模型，离散预测模型简单直观，但是选用的基础情感少导致表示的情感范围有限；另外因情感编码与文化和语言具有密切的联系也使情感编码的普适性收到了限制。情感的产生、发展和消失是一个过程,而此模型却无法描述情感的发展进程。

参照图5，所述建立基础维度预测模型具体包括：建立包含愉悦维、唤醒维和支配维的基础维度预测模型，每个维度的取值极限构成一个圆；将每个维度按情感由弱到强进行分区，并对每个区代入相应的情感类别。基础维度预测模型相对离散预测模型，其主要优势在于，用以表示的情感状态范围广泛；可跟踪情感的发展变化过程；可度量情感的相似性和差异性。

例如，从唤醒维到愉悦维，情感由弱到强分别为紧张、微笑、愉快、快乐、兴奋和振奋的情感类别，从愉悦维到支配维，情感由弱到强分别为满意、放松、安详、平静、害怕和恐惧的情感类别；从支配维到唤醒维，情感由弱到强分别为困乏、厌烦、沮丧、难过、惊恐和狂怒的情感类别。从数学的角度来说，即当三维坐标落在情感类别所在区域的范围内，则对应该情感类别。

进一步，所述步骤S2具体包括：分别对视频信息和音频信息进行时间等长切片形成视频信息片段和音频信息片段；对文本信息进行分词处理形成文本信息片段；分别对切片后的视频信息片段和音频信息片段进行序列重构；对文本信息片段进行词性标记；分别根据序列重构后的视频信息片段、音频信息片段和标记后的文本信息片段对基础维度预测模型进行标注并结合相应的神经网络模型，进而形成视频维度预测模型、音频维度预测模型和文本维度预测模型。

进一步，所述表情姿态视频特征包括表情特征和姿态特征，所述视频维度预测模型包括3D表情卷积神经网络和3D姿态卷积神经网络；所述步骤S4具体包括：3D表情卷积神经网络分类识别表情特征得到表情情感矩阵；3D姿态卷积神经网络分类识别姿态特征得到姿态情感矩阵；将表情情感矩阵和姿态情感矩阵融合得到第一情感结果。

需要说明的是，3D表情卷积神经网络是根据序列重构后的包含表情特征的视频信息片段对基础维度预测模型进行标注并结合3D卷积神经网络形成的；3D姿态卷积神经网络是根据序列重构后的包含姿态特征的视频信息片段对基础维度预测模型进行标注并结合3D卷积神经网络形成的。

具体地，3D表情卷积神经网络和3D姿态卷积神经网络，均包括顺序连接的一个输入层、至少两个卷积层、一个池化层、1个全连接层和1个Softmax分类层。

进一步地，卷积层为ReLU非线性激活函数层，选用a1个d1×k1×k1的3D卷积核对上一层的输出进行卷积运算；池化层选用d2×k2×k2的池化核对上一层卷积层的输出进行下采样运算；所述全连接层将上一层池化层的输出全连接至本层的c个输出神经元，输出一个c维的特征向量；所述Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点，经过Softmax回归后得到一个n维向量[p1p2p3…pn]^T，其中每一个维度的数值就是输入表情视频序列或姿态视频序列的情感类别属于对应类别的概率；n为情感类别数目。其中，d1、k1在3、5、7数值中选取，a1在32、64、128、256、512数值中选取；d2、k2在1、2、3数值中选取；c在256、512、1024数值中选取。

接着，对表情视频特征进行情感分类识别，得到一个第一n维向量，再对第一n维向量的每一个维度的数值大小进行比较，其中数值最大的维度对应的类别就是该表情视频特征的情感类别；对所有表情视频特征进行重复测试并统计分类识别的结果，得到表情情感矩阵。同样地，对姿态视频特征进行情感分类识别，得到一个第二n维向量，比较第二n维向量的每一个维度的数值大小，其中数值最大的维度对应的类别就是该姿态视频特征的情感类别；对测试集中的所有姿态视频特征进行重复测试，统计分类识别结果，得到姿态情感矩阵。对表情情感矩阵和姿态情感矩阵对角线上的元素进行归一化处理后，进行加权融合得到一个新的n维向量W，即为第一情感结果。

此外，还需要通过音频维度预测模型对音频特征分析得到第二情感结果；通过文本维度预测模型对话语文本特征分析得到第三情感结果；类似地，第二情感结果和第三情感结果的分析和获取过程与第一情感结果相似。音频特征和话语文本特征经过不同的卷积神经网络，音频特征经过的卷积神经网络包括顺序连接的一个输入层、至少两个卷积层、一个池化层、一个全连接层和1个Softmax分类层，得到相应的新的n维向量，即为第二情感结果。文本特征经过的卷积神经网络包括顺序连接的一个输入层、至少两个卷积层、一个池化层、一个全连接层和1个Softmax分类层，得到相应的新的n维向量，即为第三情感结果。不同的卷积神经网络之间的卷积层数目以及卷积层参数不相同，卷积层参数依据多次训练的对基础维度预测模型进行标注的结果得到。对所述第一情感结果、第二情感结果和第三情感结果进行信息融合，得到融合结果；根据所述融合结果通过建立的融合结果和情感类型的映射关系，得到目标对象的情感类型。

进一步，对所述第一情感结果、第二情感结果和第三情感结果进行信息融合，得到融合结果具体为：将第一情感结果、第二情感结果和第三情感结果经过一个包含权重因子q的权重模型得到融合结果，权重因子q是经过重复训练得到的权重值，q取值范围在0-1之间。

进一步，根据所述融合结果通过建立的融合结果和情感类型的映射关系，得到目标对象的情感类型。所述建立的融合结果和情感类型的映射关系为基于基础维度预测模型建立的心理行为学映射关系图谱，其为根据行为心理学关系和基础维度预测模型所预先构建的关系库，是从人的行为表象到人的真实情感的情感类型的映射关系图谱。经过这一步的映射，最终确定目标对象的情感类型。

参照图2，本发明的第二方面，一种基于多模态情感模型的情感识别装置，包括：基础模型建立器100，用于建立基础维度预测模型；基础模型标注器200，用于标注基础维度预测模型；特征提取器500，用于提取目标对象的各种特征；第一情感分析子系统610，用于根据表情姿态视频特征分析得到第一情感结果；第二情感分析子系统620，用于根据音频特征分析得到第二情感结果；第三情感分析子系统630，用于根据话语文本特征分析得到第三情感结果；情感结果融合系统700，用于对三个情感结果进行信息融合得到融合结果；情感输出器800，用于根据融合结果通过映射关系得到并输出情感类型。

参照图3，在另一个实施例中，一种基于多模态情感模型的情感识别装置，还包括目标对象接收端300，用于接收目标对象的信息；分割器400，用于将目标对象分割为视频信息、音频信息和文本信息。所述分割器400将目标对象分割为视频信息和音频信息，另外分割器400还将音频信息转换为文本信息。进一步，所述第一情感分析子系统610包括表情分析子系统和姿态分析子系统。

进一步，所述特征提取器500包括视频特征提取器510、音频特征提取器520和文本特征提取器530。所述视频特征提取器510识别和跟踪由视频的特征图片组成的第一图片数据集中的人脸数据；同时根据人脸数据中的脸部关键点获取表情特征值。所述视频特征提取器510另外还识别和跟踪由视频的特征图片组成的第一图片数据集中的姿态数据；同时根据姿态数据中的包含头部在内的身体部位关键点获取姿态特征值。所述音频特征提取器520识别和跟踪有音频的特征时频图组成的第二图片数据集中的各种声学韵律特征；同时根据各种声学韵律特征获取音频特征值。声学韵律特征具体包括，音高、强度、音质，声谱，倒谱，线性感知预测倒谱系数，频谱斜度，频谱尖度，声音色度，频谱衰减点，语音爬升点，频谱包络，过零率，频谱流，频谱质心，频带宽度，频谱商，频谱平坦度，频谱斜率，单频泛音，方均根强度，声音机率，声音共振峰。本申请中使用的特征可以为上述中的一个或多个，优选地使用多个。

进一步，所述基础模型标注器200包括视频模型标注器210、音频模型标注器220和文本模型标注器230。

参照图4，具体地，所述视频模型标注器210具体包括：视频信息切片部211、视频信息排序部212和视频模型标注部213；所述音频模型标注器220具体包括：音频信息切片部221、音频信息排序部222和音频模型标注部223；所述文本模型标注器230具体包括：文本信息分词部231、文本信息标记部232和文本模型标注部233；

所述视频信息切片部211对视频信息进行切片；例如采用100ms的等时长窗口对视频信息进行切片；视频信息排序部212对视频信息片段进行序列重构，使用gridspec函数，将由视频信息片段得到的视频图片填充10*10融合而成的一个视频的特征图片。视频模型标注部213，对所有特征图片组成的第一图片数据集进行映射，将基础维度预测模型的情感标签映射到第一图片数据集中，从而得到视频维度预测模型。

所述音频信息切片部221对视频信息进行切片；例如采用50ms的等时长窗口对50kHz的音频信息进行切片，每个Segment内含有2500个音频信号数据，对音频信号数据利用时域用窗口函数不断移动实现短时傅里叶变换的计算并用matplotlib库绘制了时频图；音频信息排序部222对时频图进行序列重构，使用gridspec函数，将时频图填充10*10融合而成的一个音频的特征图片。音频模型标注部223，对所有特征图片组成的第二图片数据集进行映射，将基础维度预测模型的情感标签映射到第二图片数据集中，从而得到音频维度预测模型。

所述文本信息分词部231将由音频信息转换成的文本信息进行分词处理得到分词文本；文本信息标记部232将分词文本标记为语义词向量、情感词向量和词典词向量；并利用长短时记忆网络LSTM捕获三种类型词向量中每一词的上下文语义得到语义词向量矩阵、情感词向量矩阵和词典词向量矩阵以消除单词歧义；文本模型标注部233对所有词向量矩阵组成的文本矩阵数据集进行映射，将基础维度预测模型的情感标签映射到文本矩阵数据集中，从而得到文本维度预测模型。

所述第一情感分析子系统610、第二情感分析子系统620和第三情感分析子系统630均相应地设置有包括顺序连接的一个输入层、至少两个卷积层、一个池化层、1个全连接层和1个Softmax分类层的神经网络，将表情姿态视频特征、音频特征和话语文本特征分析得到三个包含情感类别的n维向量，即对应的第一情感结果、第二情感结果和第三情感结果。不同的神经网络之间的卷积层数量以及卷积层参数不相同。

在该实施例中，基于基础维度预测模型，结合第一情感分析子系统610、第二情感分析子系统620和第三情感分析子系统630分别得到第一情感结果、第二情感结果和第三情感结果，通过多模态的方式得到多方面的情感结果，同时情感结果由多次训练得到包含权重因子的权重模型计算得到融合结果；最后基于基础维度预测模型建立的心理行为学映射关系图谱，确定目标对象的情感类别。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

1.一种基于多模态情感模型的情感识别方法，其特征在于，包括以下步骤：

建立基础维度预测模型；

标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型；

提取目标对象的表情姿态视频特征、音频特征和话语文本特征；

通过视频维度预测模型对表情姿态视频特征分析得到第一情感结果；

通过音频维度预测模型对音频特征分析得到第二情感结果；

通过文本维度预测模型对话语文本特征分析得到第三情感结果；

对所述第一情感结果、第二情感结果和第三情感结果进行信息融合，得到融合结果；

根据所述融合结果通过建立的融合结果和情感类型的映射关系，得到目标对象的情感类型。

2.根据权利要求1所述的一种基于多模态情感模型的情感识别方法，其特征在于，所述建立基础维度预测模型具体包括：

建立包含愉悦维、唤醒维和支配维的基础维度预测模型，每个维度的取值极限构成一个圆；

将每个维度按情感由弱到强进行分区，并对每个区代入相应的情感类别。

3.根据权利要求2所述的一种基于多模态情感模型的情感识别方法，其特征在于，所述标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型具体包括：

分别对视频信息和音频信息进行时间等长切片处理形成视频信息片段和音频信息片段；

对文本信息进行分词处理形成文本信息片段；

分别对切片后的视频信息片段和音频信息片段进行序列重构；

对文本信息片段进行词性标记；

分别根据序列重构后的视频信息片段、音频信息片段和标记后的文本信息片段对基础维度预测模型进行标注并结合不同的神经网络模型，进而形成视频维度预测模型、音频维度预测模型和文本维度预测模型。

4.根据权利要求3所述的一种基于多模态情感模型的情感识别方法，其特征在于，所述表情姿态视频特征包括表情特征和姿态特征，所述视频维度预测模型包括3D表情卷积神经网络和3D姿态卷积神经网络；所述视频维度预测模型对表情姿态视频特征分析得到第一情感结果具体包括：3D表情卷积神经网络分类识别表情特征得到表情情感矩阵；3D姿态卷积神经网络分类识别姿态特征得到姿态情感矩阵；将表情情感矩阵和姿态情感矩阵融合得到第一情感结果。

5.一种基于多模态情感模型的情感识别装置，其特征在于，包括：基础模型建立器，用于建立基础维度预测模型；

基础模型标注器，用于标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型；

特征提取器，用于提取目标对象的表情姿态视频特征、音频特征和话语文本特征；

第一情感分析子系统，用于利用视频维度预测模型对表情姿态视频特征分析得到第一情感结果；

第二情感分析子系统，用于利用音频维度预测模型对音频特征分析得到第二情感结果；

第三情感分析子系统，用于利用文本维度预测模型对话语文本特征分析得到第三情感结果；

情感结果融合系统，用于对三个情感结果进行信息融合得到融合结果；

情感输出器，用于根据融合结果通过映射关系得到并输出情感类型。

6.根据权利要求5所述的一种基于多模态情感模型的情感识别装置，其特征在于，还包括目标对象接收端，用于接收目标对象的信息；分割器，用于将目标对象分割为视频信息、音频信息和文本信息。

7.根据权利要求6所述的一种基于多模态情感模型的情感识别装置，其特征在于，所述特征提取器包括视频特征提取器、音频特征提取器和文本特征提取器。

8.根据权利要求7所述的一种基于多模态情感模型的情感识别装置，其特征在于，所述基础模型标注器包括视频模型标注器、音频模型标注器和文本模型标注器。

9.根据权利要求8所述的一种基于多模态情感模型的情感识别装置，其特征在于，所述视频模型标注器具体包括：视频信息切片部、视频信息排序部和视频模型标注部；所述音频模型标注器具体包括：音频信息切片部、音频信息排序部和音频模型标注部；所述文本模型标注器具体包括：文本信息分词部、文本信息标记部和文本模型标注部。

10.根据权利要求6所述的一种基于多模态情感模型的情感识别装置，其特征在于，所述第一情感分析子系统包括表情分析子系统和姿态分析子系统。