CN110826466B

CN110826466B - 基于lstm音像融合的情感识别方法、装置及存储介质

Info

Publication number: CN110826466B
Application number: CN201911058176.1A
Authority: CN
Inventors: 李浩然; 傅杰; 赵力; 张玲
Original assignee: Shaanxi Li'ai Internet Technology Co ltd
Current assignee: Shaanxi Li'ai Internet Technology Co ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-10-03
Anticipated expiration: 2039-10-31
Also published as: CN110826466A

Abstract

本申请公开了一种基于LSTM音像融合的情感识别方法、装置及存储介质，使采用了LSTM的模型，用更加细致的帧级特征来训练模型，得到的情感识别准确。同时，采用了决策融合结合后期融合的方法，对语音情感识别的特征和面部表情识别的特征，能够更加有效的融合两种模态的识别结果，计算得到更加精准的情感识别结果。使得本专利提出的方法能够更准确得到对预测对象的情感状态，提高了情感识别的准确性和鲁棒性。

Description

基于LSTM音像融合的情感识别方法、装置及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种基于LSTM音像融合的情感识别方法、系统、装置及存储介质。

背景技术

情感是人们在沟通过程中重要的信息，通常以面部表情、言语、文字、肢体动作等作为表达的载体。随着信息技术的迅速发展，人们对智能设备的需求越来越旺盛，人机交互等智能化的越来越重要，情感识别技术在人机交互、汽车和飞机驾驶、医疗护理方面有着广泛的应用和前景。

情感表达的模态包括面部表情、语音、文字、生理信号、姿势等。目前主流的情感计算的方法主要分为单一模态的情感识别和多模态的情感识别两种。

对于单一模态的特征做情感预测，有信息量不足和鲁棒性差，容易受到外界各种因素干扰的问题。当前主流的情感识别方法主要为以面部表情为主，但单一模态的情感识别容易被干扰，比如低头、面部有遮挡物时，单一模态的情感识别受到限制。同时，单一使用表情识别的情况下，对更加细微的表情不能够充分地识别出来。多模态的情感识别方法，充分利用语音信息和表情信息的互补，能够捕捉更加细微的情感状态，能够有效地提高情感识别的准确率和抗干扰性。

赵小明、张石清提出了一种基于压缩感知的鲁棒性语音情感识别方法，提供一种噪声背景下的鲁棒性语音情感识别方法；充分考虑到不同类型特征参数的有效性，将特征参数的提取从韵律特征和音质特征两方面，扩充到梅尔频率倒谱系数MFCC，进一步提高特征参数的抗噪声效果，但是仍未解决声学通道无法获得信号时的情感识别。

发明内容

为了解决上述技术问题，本申请实施例提供一种基于LSTM音像融合的情感识别方法、系统、装置及存储介质。

本申请实施例第一方面提供了一种基于LSTM音像融合的情感识别方法，可包括：

获取不同情感类别的视频数据，建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集；

对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

对数据集上的图像数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

将语音数据和图像数据的新的特征进行融合，利用融合后的特征训练次级分类器模型；

获取待识别视频数据的语音特征和图像特征，利用上述步骤获取融合后的特征作为输入数据，利用分类器模型得到最终预测的情感识别结果。

进一步地，所述获取不同情感类别的视频数据，建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集包括：

获取不同情感类别的视频数据，并对视频数据添加类型标签；所述类型标签为表情的类型；

将视频数据的语音数据和图像数据分别抽离；

将所获取的视频数据建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集。

进一步地，所述对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征包括：

对语音数据进行预加重处理后再进行分帧加窗处理；

提取语音特征，将有标签的语音特征数据作为训练集，训练基于语音特征的识别模型；所述识别模型采用带有自注意力机制的双向LSTM模型。

进一步地，所述对数据集上的图像数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征包括：

读取视频中每帧的图像，利用人脸检测器检测图像中的人脸位置并截取人脸图像；

对图像缩放到目标大小，并随机调整亮度；

利用表情数据库作为训练样本训练一个基于可分离卷积神经网络的模型，将图像数据作为输入数据进行训练；

对带有自注意力机制的双向LSTM模型训练表情图像特征。

进一步地，利用该基于可分离卷积神经网络的预训练模型提取网络的瓶颈特征作为表情图像特征。

进一步地，所述双向LSTM模型为改进的带peephole设计门，由一个两层的双向LSTM、自注意力机制层、丢弃层和全连接层构成。

进一步地，所述将语音数据和图像数据的新的特征进行融合，利用融合后的特征训练次级分类器模型包括：

融合语音数据和图像数据的新的特征以及模型最终的预测结果，并训练次级分类器，得到最后情感分类结果。

进一步地，所述获取待识别视频数据的语音特征和图像特征，利用上述步骤获取融合后的特征作为输入数据，利用分类器模型得到最终预测的情感识别结果包括：

对于待识别视频数据，将视频数据的语音数据和图像数据分别抽离；

通过对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

将语音数据和图像数据的新的特征进行融合，利用作为输入数据，利用分类器模型得到最终预测的情感识别结果。

本申请实施例第二方面提供了一种基于LSTM音像融合的情感识别系统，包括：

数据库建立单元，用于获取不同情感类别的视频数据，建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集；

语音数据特征提取单元，用于对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

图像数据特征提取单元，用于对数据集上的图像数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

分类器训练单元，用于将语音数据和图像数据的新的特征进行融合，利用融合后的特征训练次级分类器模型；

识别输出单元，获取待识别视频数据的语音特征和图像特征，利用上述步骤获取融合后的特征作为输入数据，利用分类器模型得到最终预测的情感识别结果。

进一步地，所述数据库建立单元包括：

数据获取单元，用于获取不同情感类别的视频数据，并对视频数据添加类型标签；所述类型标签为表情的类型；

数据剥离单元，用于将视频数据的语音数据和图像数据分别抽离；

建模单元，用于将所获取的视频数据建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集。

进一步地，所述语音数据特征提取单元包括：

预处理单元，对语音数据进行预加重处理后再进行分帧加窗处理；

语音特征获取单元，用于提取语音特征，将有标签的语音特征数据作为训练集，训练基于语音特征的识别模型；所述识别模型采用带有自注意力机制的双向LSTM模型。

进一步地，所述图像数据特征提取单元包括：

人脸获取单元，用于读取视频中每帧的图像，利用人脸检测器检测图像中的人脸位置并截取人脸图像；

图像处理单元，用于对图像缩放到目标大小，并随机调整亮度；

图像特征获取单元，用于利用表情数据库作为训练样本训练一个基于可分离卷积神经网络的模型，将图像数据作为输入数据进行训练；对带有自注意力机制的双向LSTM模型训练表情图像特征。

进一步地，所述识别输出单元包括：

数据剥离单元，用于对于待识别视频数据，将视频数据的语音数据和图像数据分别抽离；

待识别语音特征单元，用于通过对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

待识别图像特征单元，用于对数据集上的图像数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征；

融合输出单元，用于将语音数据和图像数据的新的特征进行融合，利用作为输入数据，利用分类器模型得到最终预测的情感识别结果。

第三方面，本申请实施例提供了一种识别装置，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述第一方面的方法。

本申请基于LSTM的语音-表情融合的双模态情感识别的方法，使采用了LSTM的模型，用更加细致的帧级特征来训练模型，得到的情感识别准确。同时，采用了决策融合结合后期融合的方法，对语音情感识别的特征和面部表情识别的特征，能够更加有效的融合两种模态的识别结果，计算得到更加精准的情感识别结果。使得本专利提出的方法能够更准确得到对预测对象的情感状态，提高了情感识别的准确性和鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的方法流程示意图；

图2是图1的方法流程简图；

图3是本方法中的语音预处理及特征提取示意图；

图4是本申请中的语音/表情情感识别模型框架示意图；

图5是本发明基于LSTM的语音-表情融合的双模态情感识别的方法的最后识别结果的对比示意图；

图6是本申请实施例提供的一种识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

参见图1，是本申请实施例提供的一种基于LSTM音像融合的情感识别方法的示意流程图，如图1所示该方法可包括：

101：获取不同情感类别的视频数据，并对视频数据添加类型标签，将视频数据的语音数据和图像数据分别抽离；将所获取的视频数据建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集。

可以理解的是，这里利用现有已知的视频数据作为训练样本，用于后面的模型训练，其中数据库中的视频的情感类别，包括：愤怒、厌恶、恐惧、快乐、悲伤和惊奇。

102：对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征。

可以理解的是，建立基于语音模态的情感识别主要包括：对所述语音信号样本进行预处理、对预处理后的语音提取特征，训练基于语音特征的情感识别模型。对所述语音样本的预处理主要包括以下具体步骤：

步骤102-1：预加重处理，采用高通滤波器H(z)＝1-αz^-1对信号的高频部分的功率进行补偿，放大语音信号的高频部分，其中H(z)为语音信号的功率函数，z为频率，α为预加重系数且0.9≤α≤1。

步骤102-2：对上述数据再次进行分帧加窗处理，其中窗函数采用汉明窗。

本实施例中，将语音信号看做短时平稳的，对语音信号以40ms为帧长，10ms为帧移。

步骤102-3：提取语音特征包括：梅尔倒谱系数及其一阶导数，基音频率、短时过零率、线性预测系数、静音比率。

步骤102-4：训练基于语音特征的识别模型，采用带有自注意力机制的双向LSTM模型。

将有标签的语音数据作为训练集，经过如上步骤102-1)，102-2)，102-3)的处理后，即可转化为用神经网络训练分类模型的问题。

网络主要使用了常用的循环网络：长短期记忆LSTM模型，将每一帧的语音特征作为输入，计算出每个时序的LSTM模型输出的新特征h_i，将得到的新特征输入Attention层，计算任意两个时序中LSTM输出特征h_i与h_j之间的相关性(可采用的方法有点积、Cosine相似性和MLP网络)，表示为e_ij＝f(h_i，h_j)，产生的相关性数值e_ij根据具体产生方法的不同其取值范围也不同，因此引入类似Softmax的计算方法对其进行归一化处理，得到第i帧数据与其他帧数据对应的Self-Attention权重系数N表示总帧数，再对应所有特征进行加权求和即可得到Attention层输出的新特征。

经过Attention层后接全连接层，最后的输出为进过Softmax后的输出，Softmax函数的定义为：该函数是概率分布函数，最后得到6个概率值，这6个概率值之和为1，其中e^x为计算每个类别的值，/>为计算k个类别的值之和。

通过对每个分类的概率值进行比较，得到最大的类别作为该语音的情感类别，进而通过与真实标签比较，来训练该神经网络，优化参数。

本步骤中采用的LSTM模型为改进的带peephole设计门，由一个两层的双向LSTM、自注意力机制层、丢弃层和全连接层构成。全连接层输出单元为128和6，其中目标情感类别为6类，获取最终两个全连接层的输出，作为语音情感识别模块的输出特征，为后续特征融合做准备。其结构如下：

(1)输入门：输入门的作用是决定记忆单元中要存储哪些信息，包括两个部分，第一部分是先由输入门sigmoid层决定需要更新的信息；第二部分为通过非线性函数结构tanh的一个新的更新记忆单元状态的新状态向量其具体表达式如下：i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)，/>x_t代表当前时刻输入的特征，h_t-1代表上一时刻的隐藏状态，c_t代表当前时刻的状态，σ为sigmoid激活函数。

(2)遗忘门：LSTM决定的是舍弃记忆单元的哪些信息，表示形式为f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)，可以看到这里的f_t由输入的x_t和h_t-1得到，用来控制c_t-1中信息的遗忘程度，f_t的取值范围在0-1之间，为1表示保留全部信息，0表示遗忘全部信息。

(3)输出门：输出门决定输出哪些信息。

第一步，当前的新状态c_t由下式计算得到，简单来说就是遗忘一些旧信息，更新一些新信息，表达式如下：

第二步，采用sigmoid层计算LSTM模块要输出的结果，表达式如下：o_t＝σ(W_otx_t+W_oth_t-1+b_o)；

第三步，计算当前时刻的隐藏层状态

其中σ代表sigmoid函数，表示tanh函数，“·”表示点乘，{W_**，b_*}代表LSTM的参数。W代表线性关系的权重，b代表偏置，是LSTM网络中需要优化和学习的参数，且上述LSTM的内容均属于现有技术中的基本内容，定义与现有公知的内容一致。

103：对数据集上的图像数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征。

可以理解的是，本步骤与102的内容类似，针对的对象是图像数据，即表情数据。

建立基于表情模态的情感识别主要包括：

步骤103-1对视频帧的人脸图像提取：读取视频中每帧的图像，利用人脸检测器检测图像中的人脸位置并截取人脸图像。

步骤103-2对每帧视频图像的预处理：对图像缩放到目标大小，并随机调整亮度。

步骤103-3表情特征提取的预训练模型的训练：利用表情数据库训练一个基于可分离卷积神经网络的模型，利用表情数据库作为训练样本训练得到模型，保存。

步骤103-4利用步骤103-2得到的图像作为输入送入步骤103-3得到的模型，利用该基于可分离卷积神经网络的预训练模型提取网络的瓶颈特征，作为表情图像特征。

本步骤中用于特征提取的预训练的模型，采用了MobileNet结构的多层基于可分离卷积神经网络的结构。

104：将语音数据和图像数据的新的特征进行融合，利用融合后的特征训练次级分类器模型。

本步骤中融合语音和表情两个模型的特征以及模型最终的预测结果，并借此训练次级分类器支持向量机(SVM)/全连接层网络(DNN)，得到最后情感分类结果。

105：获取待识别视频数据的语音特征和图像特征，利用上述步骤获取融合后的特征作为输入数据，利用分类器模型得到最终预测的情感识别结果。

可以理解的是，在前述的几个步骤中将分类器训练好之后，本步骤将所需要识别的视频数据，利用步骤102/103中的处理方式，分别提取语音和表情模型的新特征，该新特征为单一模态模型的分类结果和倒数第二层全连接层的输出的合并。融合语音和表情的新特征后，通过次级分类器获取最终情感分类结果。

如图5所示的实施例的结果示意图，相比于单一特征，多模态的特征包含了更多、更丰富的特征信息，利用多模态之间的互补性，能够剔除模态间的冗余，从而经过神经网络之后能学习到更准确的特征表示。可以看到，采用融合特征进行的分类结果明显优于单独使用音频或图像特征的情况。

图6是本申请实施例提供的一种识别设备的结构示意图。该对象检测设备4000包括处理器41，还可以包括输入装置42、输出装置43和存储器44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read至only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read至only memory，CD至ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图6仅仅示出了对象检测设备的简化设计。在实际应用中，动作识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之内。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上详细描述了本发明的优选实施方式，但是本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换(如数量、形状、位置等)，这些等同变换均属于本发明的保护。

Claims

1.一种基于LSTM音像融合的情感识别方法，其特征在于，包括：

2.根据权利要求1所述的基于LSTM音像融合的情感识别方法，其特征在于，

所述获取不同情感类别的视频数据，建立数据库，将数据库中不同情感类别的数据打乱，随机划分训练集合测试集包括：

将视频数据的语音数据和图像数据分别抽离；

3.根据权利要求2所述的基于LSTM音像融合的情感识别方法，其特征在于，

所述对数据集上的语音数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征包括：

对语音数据进行预加重处理后再进行分帧加窗处理；

4.根据权利要求3所述的基于LSTM音像融合的情感识别方法，其特征在于，

所述对数据集上的图像数据提取特征，并输入基于带注意力机制的LSTM的表情情感识别模型，得到待识别情感类别状态的新的特征包括：

对图像缩放到目标大小，并随机调整亮度；

对带有自注意力机制的双向LSTM模型训练表情图像特征。

5.根据权利要求4所述的基于LSTM音像融合的情感识别方法，其特征在于，

利用该基于可分离卷积神经网络的预训练模型提取网络的瓶颈特征作为表情图像特征。

6.根据权利要求4所述的基于LSTM音像融合的情感识别方法，其特征在于，

所述双向LSTM模型为改进的带peephole设计门，由一个两层的双向LSTM、自注意力机制层、丢弃层和全连接层构成。

7.根据权利要求6所述的基于LSTM音像融合的情感识别方法，其特征在于，

所述将语音数据和图像数据的新的特征进行融合，利用融合后的特征训练次级分类器模型包括：

8.根据权利要求7所述的基于LSTM音像融合的情感识别方法，其特征在于，

所述获取待识别视频数据的语音特征和图像特征，利用上述步骤获取融合后的特征作为输入数据，利用分类器模型得到最终预测的情感识别结果包括：

9.一种识别装置，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1-8任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-8任意一项所述的方法。