CN111564164A

CN111564164A - 一种多模态情感识别方法及装置

Info

Publication number: CN111564164A
Application number: CN202010251145.4A
Authority: CN
Inventors: 潘明明; 田世明; 李德智; 龚桃荣; 陈宋宋; 宫飞翔; 石坤; 董明宇
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-21

Abstract

本发明公开了一种多模态情感识别方法及装置，所述方法包括：将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；其中，所述多重模态包括：视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。本发明将多种模态进行融合大大提高了算法的识别准确率。

Description

一种多模态情感识别方法及装置

技术领域

本发明涉及情感识别领域，具体涉及一种多模态情感识别方法及装置。

背景技术

情感识别是人工智能、心理学、计算科学等多学科交叉的新兴领域，进入21世纪后，随着人工智能领域的快速发展，情感识别的需求越来越大。情感识别大体上可以分为语音情感识别，人脸情感识别和文本情感识别。传统的情感识别算法常常只着眼于单一模态，例如针对语音情感识别或文本情感识别，识别效果不尽如人意。

如今深度学习已经成为热门研究方向，深度学习与普通机器学习相比，主要的特点是深度学习的计算量巨大，在嵌入式系统上，用通用处理器做深度学习太慢，而GPU也存在功耗巨大价格昂贵等缺点，然而采用FPGA实现深度神经网络有快速，低功耗，同时延迟低，连接性强的独特优势。

由于语音情感识别、人脸情感识别和文本情感识别的实现基本依赖于神经网络，如何在解决单一模态情感识别算法效果不佳的同时提高运行效果亟需解决。

发明内容

对于现有单一模态情感识别算法效果不佳的问题，本发明提供的一种多模态情感识别方法，包括：

将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；

将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；

基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；

其中，所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系，形成情感分类的联合判别特征表示后，再进行情感类别识别；所述多重模态包括：视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。

优选的，所述将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别，包括：

对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征；

基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征；

将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接，将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征；

将所述融合情感特征输入到分类器，获得所述子片段的情感类别。

优选的，所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征，包括：

从子片段的视频片段中随机选取一帧图像进行人脸检测，裁剪出人脸区域的图像；

从子片段的音频片段中提取梅尔倒谱；

将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入，并将全连接层的输出作为视频情感特征；

将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入，并将CRNN网络的隐藏层作为音频情感特征。

优选的，所述对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征，包括：

对子片段的文本进行分词和词嵌入处理，将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入，并将LSTM网络隐藏层的输出作为语义情感特征。

优选的，所述基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别，包括：

基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票，选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果；

基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别。

优选的，所述基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别，包括：

将待检测情感片段之前的多个待检测情感片段以及其属于各情感类别的概率、所述待检测情感片段属于各情感类别的概率和所述待检测情感片段的情绪识别结果的概率带入训练好的支撑向量机分类模型；

基于所述支撑向量机分类模型的输出结果判断多模态情感识别算法识别出得情感类别是否合理，如果合理，则将当前情绪识别结果作为所述待检测情感片段的最终情感识别结果，如不合理，则从所述待检测情感片段属于的其它情感类别中选择概率最大的类别作为所述待检测情感片段对应的情感类别。

优选的，所述将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，包括：

将原始音视频信号基于设置的第一时间长度依次进行截取，生成多个待检测情感片段；

将每个待检测情感片段基于设置的第二时间长度进行均等切分，获得各待检测情感片段对应的多个子片段。

优选的，所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征，之前还包括：

判断FPGA的设备利用率，当FPGA的设备利用率高于设定的阈值时，采用CPU执行；否则采用FPGA执行。

优选的，所述对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征，基于CPU执行。

基于同一发明构思，本发明还提供了一种多模态情感识别装置，包括：

控制器和计算器；所述控制器通过封装的接口与外部系统通信连接；

所述控制器，用于将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；

所述计算器，用于将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；

所述计算器，还用于基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；

优选的，所述控制器包括：

任务监听模块、数据交互模块和设备选择模块；

所述任务监听模块，用于监听任务请求，当监听到外部系统传来的情绪识别请求时，发送启动信号给数据交互模块；

所述数据交互模块，用于接收外部系统传入的原始音视频信号进行解码并将解码后的原始音频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个子片段；

所述设备选择模块，用于监测FPGA的设备利用率并进行判断，当FPGA的设备利用率高于设定的阈值时，采用CPU执行情感类别识别任务；否则采用FPGA执行情感类别识别任务。

优选的，所述计算器包括：部署在CPU和FPGA上的视频特征提取模块、语音特征提取模块、特征融合分类模块和投票与时序分析模块；

所述视频特征提取模块，用于从子片段的视频信号中随机选取一帧图像进行人脸检测，裁剪出人脸区域的图像，同时将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入，并将全连接层的输出作为视频情感特征；

所述语音特征提取模块，用于从子片段的音频片段中提取梅尔倒谱，同时将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入，并将CRNN网络的隐藏层作为音频情感特征；

所述特征融合分类模块，用于将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接，将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征；还用于将所述融合情感特征输入到分类器，获得所述子片段的情感类别；

所述投票与时序分析模块，用于基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别。

优选的，所述投票与时序分析模块，包括：

投票单元，用于基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票，选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果；

时序分析单元，用于基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别。

优选的，所述计算器，还包括：部署在CPU上的语义特征提取模块；

所述语义特征提取模块，用于对子片段的文本进行分词和词嵌入处理，将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入，并将LSTM网络隐藏层的输出作为语义情感特征。

优选的，所述CPU包括存储模块，用于存储解码后的语音和视频数据，多模态情感识别模型中的深度置信网络、LSTM网络、CRNN网络和CNN网络的模板，以及通过控制器训练生成的网络参数。

与最接近的现有技术相比，本发明提供的技术方案具有以下有益效果：

本发明提供的技术方案，将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应多个设定长度的子片段，而每个子片段均包括多重模态；将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；利用多模态情感识别网络模型捕捉多重模态之间的非线性关系，形成情感分类的联合判别特征表示后，再进行情感类别识别；克服了单一模态情感识别算法效果不佳的缺陷，大大提高了情感类型识别的准确率。

在上述优选方案中，在基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征之前，判断CPU与FPGA的设备利用率灵活分配计算任务，加快处理速度。

附图说明

图1为本申请中多模态情感识别方法流程图；

图2为本申请中多模态情感识别方法的具体流程图；

图3为本申请中多模态情感识别方法的框架图；

图4为本申请中多模态情感输入DBN得到融合特征与分类示意图；

图5为本申请中从原始视频到获得情感识别结果数据转换过程示意图；

图6为本申请中算法部署结构示意图；

图7为本申请中装置结构图示意图；

图8为本申请中实施示例流程示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

如图1所示，本发明提供的一种多模态情感识别方法，包括：

S1将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；

S2将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；

S3基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；

本实施例对本发明提供的多模态情感识别方法进行具体分析，包括：

(1)基本思路

本发明中的多模态情感识别方法是指根据说话者在一段时间内的面部表情与语音，高效准确识别出说话者在该时间段内的情感类别。

一方面，该方法综合考虑了视频、音频、语义这3种模态的情感特征：分别训练单一模态情感识别算法，利用该算法提取模态的深层特征，将3种模态的深层特征一同输入深度置信网络，利用深度置信网络将上述特征处理为联合判别特征，再将联合判别特征输入全连接层神经网络识别得到情感类别；并且采用了投票方法与时序分析方法，考虑情绪变化一般规律，使情感分类结果更加准确与鲁棒。

另一方面，将多模态情感识别算法嵌入FPGA芯片中，可在低功耗下加速情感识别算法的运行。并且加入设备选择模块，综合考虑当前时刻CPU与FPGA的负载状态，从二者中选择更合适的计算设备以加速算法执行速度。

基于上述方法可以动态并行执行提高识别效率。

(2)多模态情感识别方法策略

如图2所示，对图1所示的多模态情感识别方法进行展开，具体分析对一段音视频信号进行情感识别的流程，这一段音视频信号中包含若干最小片段，最小片段为进行情感识别的最小识别单元，一段音视频信号的情感判别将综合考虑每个最小片段的识别结果。对音视频信号的情绪识别主要包括数据切分、算法执行、投票及时序分析四个步骤。

·视频与视频录制设备获取到连续的原始音视频信号。设置时间长度length1，从原始音视频信号中依次截取长为length1的片段作为待检测情感片段，识别出每个待检测情感片段对应的情感类别。设置时间长度length2，对于待检测情感片段，仍然需先将其均等切分为若干个长为length2的片段，称长度为length2的片段为最小片段，也可以称为子片段，用于后续情绪识别算法中的投票步骤。例如设置length1为5s，length2为500ms，则从原始音视频信号中截取长为5s的待检测情感片段，再将一个待检测情感片段等分为10个长为500ms的最小片段。

·在完成数据切分后，得到了待检测情感片段和与之对应的最小片段，利用多模态情感识别算法，输出每个最小片段的情感类别，具体流程如下：

1.音频情感隐层特征的提取：提取最小片段中语音信号的梅尔倒谱，将其作为CRNN网络的输入，并将CRNN网络的隐藏层作为音频情感特征。

2.视频情感隐层特征的提取：从最小片段中视频信号的多帧图像随机选取一帧图像，图像进行人脸检测并裁剪后，作为卷积神经网络的输入，并将隐藏层的输出作为该时刻的视频情感特征。

3.语义情感隐层特征的提取：考虑到一个最小片段时长较短，其中文本信息不足，因此使用语音识别技术将最小片段所属的待检测情感片段中的语音信号转化成文本，在经过分词、词嵌入(使用word2vec技术)对文本进行处理，处理之后含义相近词语在向量空间中具有相近的表示。将词嵌入后的文本输入LSTM网络，网络隐藏层的输出作为语义情感特征。

4.从前3个步骤中分别获取语音，视频，语义情感特征后，将三种特征分别拉伸为一维向量并拼接，将拼接得到的一维向量输入深度置信网络，深度置信网络输出融合情感特征。

5.输入融合情感特征至全连接神经网络分类器，分类器输出融合情感特征对应的情感类别。

6.对于一个待检测情感片段，对于其包含的每个最小片段作步骤1至5的操作，即得到最小片段的情感类别列表，用于后续的投票等处理步骤。

·经过算法执行步骤后，已经得到待检测情感片段的最小片段情感类别列表。从一段待检测情感片段内包含的多段最小片段的情感识别结果中统计出各情感类别出现的频率，选取出现频率最高的情感类别作为待检测情感片段情绪识别的结果。

·经过投票步骤后，已经能对一段待检测情感片段给出所属的情感类别与其属于各情感类别的概率，从而得到待检测情感片段情感类别组成的序列。用户情感状态随时间变化是合理的，但情感状态变化不应反复突变。为此，设计一种时序分析方法，综合考虑历史数据中的情感状态变化的先验知识与最近的4个片段预测情感类别的概率变化，以判断当前识别出的片段情感类别是否合理。从历史数据中获取训练集作为支撑向量机分类模型的输入，训练分类模型。

本发明从3种单模态情感识别算法中分别提取3重模态情感特征，再用深度置信网络捕捉视频、语音、语义模态特征之间的高度非线性关系，形成情感分类融合特征，再经过全连接分类器输出情感类别，提高了算法的识别准确率。同时引入投票机制和时序分析，提高对较长音视频片段识别更的准确和鲁棒性。

如图3所示，本发明提供的多模态情感识别方法通过将文本、语音、图像等信息相整合进行识别和计算，识别过程包括计算设备的选择、视频情感特征的提取、音频情感特征的提取、语义情感特征提取、多模态情感特征融合分类五个步骤，接着对每个步骤进行具体解释：

·计算设备的选择，包括：首先获取FPGA和CPU的设备利用率，当FPGA忙时(其设备利用率高于设定的阈值)由CPU分担计算任务；当CPU忙时(其设备利用率高于设定的阈值)由FPGA分担计算任务。

·音频模态情感识别算法步骤如下：

首先提取音频信号的梅尔倒谱(简称MFCC)，在代表语音情感的特征选取方面，梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)是一个常用的特征，此参数考虑到人耳对语音频率高低的敏感度，更符合人耳听觉特征。

梅尔倒谱特征提取过程如下：

1.将一段语音信号分解为多个讯框；

2.将语音信号预强化，通过一个高通滤波器；

3.进行傅立叶变换，将信号变换至频域；

4.将每个讯框获得的频谱通过梅尔滤波器(三角重叠窗口)，得到梅尔刻度；

5.在每个梅尔刻度上提取对数能量；

6.对上面获得的结果进行离散傅里叶反变换，变换到倒频谱域；

7.MFCC就是这个倒频谱图的幅度，一般使用12个系数，与讯框能量叠加得13维的系数。

采用循环卷积神经网络(简称CRNN)作为情感分类模型，将提取到的梅尔倒谱输入至循环卷积神经网络，输出情感类别。训练循环卷积神经网络模型。由CNN与双向LSTM神经网络构成，其中CNN用来提取梅尔频谱特征的局部不变特征，双向递归神经网络(BLSTM)用于学习不同时间步长局部不变特征之间的时间关联性，将话语级特征输入全连接层以获得更高级别的特征表示后将更高级别的特征输入softmax层以进行最终分类。

·视频模态情感识别算法步骤如下：

视频模态情感识别算法采用卷积神经网络模型CNN，以视频信号为输入。一段视频信号中包含若干帧的图像，从这些图像中随机选择一帧图像，对这一张图像进行人脸检测，裁剪出人脸区域的图像，作为卷积神经网络模型的输入。

·语义模态情感识别算法步骤如下：

将语音信号使用语音识别技术转化成文本，在经过分词、词嵌入(使用word2vec技术)对文本进行处理，处理之后含义相近词语在向量空间中具有相近的表示。将词嵌入后的文本作为LSTM网络的输入，训练LSTM网络模型。

·完成对视频、音频、语义3种模态对应的网络模型训练过程，包括：

3个模型都可以视为经过神经网络处理后得到隐藏层(Hidden Layer)状态，再将隐藏层状态输入全连接神经网络，输出情感类别。将模态数据输入经过训练好的网络模型可得出较为正确的结果，因此可以认为神经网络模型的隐藏层状态包含有效的模态特征。

深度置信网络(Deep Belief Network，DBN)是一种深层的概率有向图模型，其结构由多层的节点构成。每层节点的内部没有连接，相邻两层的节点和全连接的前馈神经网络结之间为全连接。网络的最底层为可观测变量，其它层节点都为隐变量。最顶层的两层间的连接是无向的，其他层之间的连接是有向的。

如图4所示，输入三种模态的数据，以从各模态网络模型提取得到的视频、音频、文本特征拼接成的一维向量作为输入深度置信网络的输入，经过多层网络后输出视频、音频、语义三种模态的融合特征，最后将融合特征输入全连接网络，输出情感类别。

多模态情感识别算法的网络模型由①3种模态的情感识别算法中网络模型分别去除全连接网络输出层后的部分，②深度置信网络，以及③全连接网络输出层组成，训练网络模型，完对成②和③中的参数的训练，与①中参数的微调(fine-tuning)。

本发明为了使情感判别的结果更加合理，将一段音视频的情感判别结果与其时间上前后相连的多段音视频结果综合考虑进行时序分析，时序分析方法如下：

定义情感类别数目为c，投票出当前的待检测情感片段的情感类别为e_pred,实际情感类别为e_true，之前3个待检测情感片段属于各情感类别的概率为[q₁,q₂,…q_c]，[r₁,r₂,…r_c]，[s₁,s₂,…s_c]。当前待检测情感片段属于各情感类别的概率为[p₁,p₂,…p_c]。

假设一段待检测情感片段的情感受之前n个片段的影响。统计历史数据的情感标签，可以得出给定之前n个片段的情感标签的条件下，当前待检测情感片段为e_pred类别的概率为f。

基于历史投票数据和数据的真实标签构建训练集，1个样本中的特征向量为：[f,q₁,q₂,…q_c,r₁,r₂,…r_c,s₁,s₂,…s_c,p₁,p₂,…p_c]，若e_pred＝e_true类别标签为1，否则为0。

训练支撑向量机分类模型，用于判断多模态情感识别算法识别出得情感类别是否合理。如不合理，则从其它情感类别中选择概率最大的类别作为最终结果。

本发明通过摄像头获取音视频流输入，从音视频流中按照固定时间长度10秒钟截取出一系列音视频片段，目的是识别出对应片段中，说话者的情感状态类别。

本发明实施例以一个具体示例展示以上步骤如下：

从音视频流中截取出一系列音视频片段，依时间先后顺序命名为S₁,S₂,…,S_n，假设已经得到片段S₁至S_t-1的情感类别，如图5所示针对片段S_t的情感识别过程如下：

1.将片段S_t分为视频片段video与音频片段audio；语音识别模块将audio识别为文本text；

2.将video均等切分为10个片段video₁，video₂，…,video₁₀，将audio均等切分为audio₁，audio₂，…,video₁₀；

3.从video₁中随机选出一帧图像并经过人脸检测模块裁剪得到face₁，对video₂等做同样操作，得到face₁，face₂，…,face₁₀；将audio₁至audio₁₀输入音频MFCC提取模块，输出各自对应的MFCC特征MFCC₁，MFCC₂，…，MFCC₁₀；将text输入词向量转换模块生成将text输入词向量转换模块生成input_text；

4.将模态数据组合{face₁，MFCC₁，input_text}输入多模态情感分类器，输出face₁对应的音视频片段的情感类别sub_emotion₁，依次类推，可以得到情感列表{sub_emotion₁，sub_emotion₂，…，sub_emotion₁₀}；

5.将4中的情感列表输入投票器，各情感类别出现概率为

产生片段S_t的情感识别结果

6.已知片段S₁至S_t-1的情感类别概率

至

将

至

输入时序分析模块，输出片段S_t的最终情感识别结果

保存

与

用于后续音视频片段的情感识别过程。

(3)硬件结构

本发明提出的软硬件结合的情感识别方案的单元模块如图6所示，其包含控制单元、存储单元和计算单元。具体的装置结构如图7所示，可通过封装的接口为外部系统提供情绪识别服务，如绩效考核等。

1)控制器

控制器通过监听收到任务启动信号，通过接受音频信息并进行解码存储进存储模块，将存储模块中的数据输入计算单元进行多模态情感识别，分为以下几个模块：

i.任务监听模块

该模块主要监听任务请求，当监听到外部系统传来的情绪识别请求时，发送启动信号给数据交互模块，启动整个装置的情绪识别任务。

ii.数据交互模块

该模块主要接受任务监听模块的调用，通过接收摄像头传入的音视频数据，并进行解码和数据切分，将结果及时传入存储单元，并且传输速度将会影响整个装置的灵敏性。

iii.设备选择模块

该模块主要通过监测FPGA和CPU的设备利用率，对设备使用情况进行判断，智能选择运行人脸检测、音频信号MFCC提取和模态情感特征提取的计算设备。

2)存储模块

该单元用于存储解码后的语音和视频数据，深度置信网络，LSTM网络，CRNN网络，CNN网络模板以及提供通过控制单元的生成的各类特征和神经网络参数，在CPU和FPGA之间的数据交互。

3)计算器

该计算器是整个装置的核心功能单元，其嵌入了上述多模态情感识别算法，包括深度置信网络，LSTM网络，CRNN网络，CNN网络等，它根据控制器传入的数据，并行完成对情感识别网络的加速。

i.语义特征提取模块

该模块主要通过语音识别，将音频数据转换为文本数据。将文本数据传入词向量转换模块，并将其输入LSTM网络进一步提取文本特征。

ii.语音特征提取模块

该模块主要提取音频信号的梅尔倒谱特征，然后将其传入CRNN网络提取语音深层情感特征。

iii.视频特征提取模块

该模块主要在视频数据中截取一帧，在完成人脸检测后，传入计算单元中的卷积神经网络，提取深层视频情感特征。

iv.特征融合分类模块

该模块拼接语义、语音、视频特征提取模块提取的特征，获取情感分类特征的联合表示，将其输入DBN网络，获得最小片段的情感分类结果。

i.投票与时序分析模块

该模块综合考虑多段最小片段的计算结果，使用投票机制获得当前音视频片段的初步情感判定结果，之后该模块综合考虑当前片段之前的多段音视频的情感判别结果，修正置信度过低的情感判别结果。

本发明中提出的软硬件结合的多模态情感识别方法利用深度置信网络捕捉视频、语音、语义模态之间的高度非线性关系，并形成情感分类的联合判别特征表示，再经过分类器识别情感类别，大大提高了算法的识别准确率；采用软硬件结合架构，将多模态情感识别算法嵌入FPGA芯片中，利用其并行特性，在低功耗的同时满足了算法的快速运行，低延迟和系统的高连接性。

如图8所示，基于本发明提供的装置进行具体实施，包括：

1)首先通过任务监听模块监听任务请求，待监听到任务后，由数据交互模块接收音视频信号并解码，并将其存储至存储单元。

2)检测FPGA和CPU的使用情况，通过设备选择模块选择用于运行人脸检测、音频信号MFCC提取和模态情感特征提取的计算设备。

3)从存储模块中载入视频信息与视频情感识别网络模板，提取一帧图像利用人脸检测模块完成人脸检测，并将其连同模板输入计算器中完成视频情感特征的提取，并将结果存储至缓存中；

4)同理实现语音情感特征与语义情感特征的提取以及融合特征的提取；

5)利用缓存中的融合情感特征经由分类器完成情感特征的识别；

6)使用投票和时序分析方法对识别结果进行校准和修正；

7)将识别结果回传给任务请求方。

本发明提供的情感识别中应用多模态识别算法，通过对视频、音频、文本情感进行特征提取并融合，形成情感分类的联合判别特征表示，提升情感识别的分类准确度和稳定性。同时通过监测CPU与FPGA芯片的使用情况动态选择计算资源，输入嵌入多种神经网络模型的FPGA芯片或CPU设备，动态并行提高识别效率。

(1)在利用多模态识别算法时，需要先分别训练音频，视频，语义3种模态的情感识别模型；然后将音视频数据输入3种模型，从隐藏层提取出对应模态的有效情感特征，将这些特征拉伸为一维向量再拼接后，先后输入DBN与全连接层分类器，输出预测情感类别，与音视频数据的真实情感对比，完成多模态情感识别模型的训练。

(2)多模态识别算法的具体方法为：

针对视频情感特征的提取，首先在视频中截取一帧，在完成人脸检测后，并将其作为卷积神经网络的输入，并将全连接层的输出作为视频情感特征；对于音频情感特征，则先提取音频信号的梅尔倒谱特征，生成梅尔倒谱后将其作为循环卷积神经网络的输入，并将循环卷积神经网络的隐藏层输出作为音频情感特征；同时将语音信号转化成文本，在经过分词、word2vec后将其作为LSTM网络的输入，网络隐层的输出作为语义情感特征；最后将视频、语音、语义特征经由深度置信网络捕捉模态之间的高度非线性关系，并形成情感分类的联合判别特征表示，并进一步利用分类器来完成多模态情感识别。

本发明提供的技术方案引入投票机制和时序分析用于对较长音视频数据的情感识别，具体流程为：

1.将待识别音视频数据，切分为适宜多模态情感识别模型输入的音视频片段；

2.将这些音视频片段输入多模态情感识别模型得出情感类别；

3.从切分得到的音视频片段的识别结果中投票产生待识别音视频数据的情感类别；

4.将此待识别音视频数据与相邻之前3段待识别音视频数据的类别概率信息输入作为时序分析模型的输入，输出经过纠正的此待识别音视频数据的最终情感类别。

本发明采用软硬件结合系统架构，利用FPGA执行情感识别算法，充分发挥FPGA并行特性，在低功耗的同时满足了算法的快速运行，具有低延迟和系统的高连接性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种多模态情感识别方法，其特征在于，包括：

2.如权利要求1所述的多模态情感识别方法，其特征在于，所述将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别，包括：

3.如权利要求2所述的多模态情感识别方法，其特征在于，所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征，包括：

从子片段的音频片段中提取梅尔倒谱；

4.如权利要求2所述的多模态情感识别方法，其特征在于，所述对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征，包括：

5.如权利要求1所述的多模态情感识别方法，其特征在于，所述基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别，包括：

6.如权利要求5所述的多模态情感识别方法，其特征在于，所述基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别，包括：

7.如权利要求1所述的多模态情感识别方法，其特征在于，所述将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，包括：

8.如权利要求2所述的多模态情感识别方法，其特征在于，所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征，之前还包括：

9.如权利要求2所述的多模态情感识别方法，其特征在于，所述对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征，基于CPU执行。

10.一种多模态情感识别装置，其特征在于，包括：

11.如权利要求10所述的多模态情感识别装置，其特征在于，所述控制器包括：

任务监听模块、数据交互模块和设备选择模块；

12.如权利要求10所述的多模态情感识别装置，其特征在于，所述计算器包括：部署在CPU和FPGA上的视频特征提取模块、语音特征提取模块、特征融合分类模块和投票与时序分析模块；

13.如权利要求12所述的多模态情感识别装置，其特征在于，所述投票与时序分析模块，包括：

14.如权利要求12所述的多模态情感识别装置，其特征在于，所述计算器，还包括：部署在CPU上的语义特征提取模块；

15.如权利要求12或14任一项所述的多模态情感识别装置，其特征在于，所述CPU包括存储模块，用于存储解码后的语音和视频数据，多模态情感识别模型中的深度置信网络、LSTM网络、CRNN网络和CNN网络的模板，以及通过控制器训练生成的网络参数。