CN113536999A

CN113536999A - 人物情绪识别方法、系统、介质及电子设备

Info

Publication number: CN113536999A
Application number: CN202110745923.XA
Authority: CN
Inventors: 袁德胜; 游浩泉; 杨祥如
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-10-22
Anticipated expiration: 2041-07-01
Also published as: CN113536999B

Abstract

本发明提供一种人物情绪识别方法、系统、介质及电子设备，所述方法包括将带有情绪标签的人物图像数据和人物声音数据进行融合；利用融合后的数据训练神经网络模型以得到情绪分类器模型；采集待识别人物的图像数据和声音数据，融合后输入至所述情绪分类器模型，以使所述情绪分类器模型输出所述待识别人物的情绪信息。本发明的人物情绪识别方法、系统、介质及电子设备，可以结合图像的多维度数据的特征以及整个视频序列的前后文信息来更为精确的判断人物的情绪，基于Transformer网络可以实现并行运算，前向推理速度更快，更适合算力资源不足的情况下模型部署，具有较高的迁移和适应能力。

Description

人物情绪识别方法、系统、介质及电子设备

技术领域

本发明涉及人物情绪识别技术领域，特别是涉及一种人物情绪识别方法、系统、介质及电子设备。

背景技术

随着深度学习技术的发展和落地，基于图像CNN分类的人物表情识别已经日趋成熟，其中，卷积神经网络(Convolutional Neural Networks,CNN)现阶段广泛应用的基于图像的表情分类是从人脸图像提取面部特征进行学习，得到人脸表情分类器，然后应用到人脸数据分析中进行表情分类。

由于受限于前端相机可能存在的固有的畸变、光照等硬件因素的影响，采集的人脸图像质量可能存在一定程度的模糊或者曝光，这就造成从图像像素中进行CNN特征提取得到的面部信息有所影响，无法很好的表示人物真实的表情，而且人的情绪本身是有声音，表情以及心理等多维信息来衡量的一个属性特征，仅通过面部图像很多时候往往难以精确识别。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种人物情绪识别方法、系统、介质及电子设备，用于解决现有技术中人物情绪识别不精确的问题。

为实现上述目的及其他相关目的，本发明提供一种人物情绪识别方法，所述方法包括：将带有情绪标签的人物图像数据和人物声音数据进行融合；利用融合后的数据训练神经网络模型以得到情绪分类器模型；采集待识别人物的图像数据和声音数据，融合后输入至所述情绪分类器模型，以使所述情绪分类器模型输出所述待识别人物的情绪信息。

于本发明的一实施例中，特征提取模型；所述特征提取模型采用Transformer特征提取网络、T2T-Transformer特征提取网络，或者融合CNN与Transformer的特征提取网络。

于本发明的一实施例中，所述特征提取模型采用Transformer特征提取网络；所述将带有情绪标签的人物图像数据和人物声音数据进行融合，具体包括：

将H×W×C的所述带有情绪标签的人物图像数据变换维度成一个N×(P²·C)的二维矩阵数据块V₁；其中，H为图像高，W为图像宽，C为图像通道数，N为序列的长度，P为块的大小。

先通过语音识别将所述带有情绪标签的人物声音数据转化为一维向量，再将所述一维向量变换维度到(N,D₂)的二维矩阵数据块V₂；其中N为语音时序的长度，D₂为每个语音时序向量的维度。

对所述二维矩阵数据块V₁与所述二维矩阵数据块V₂进行拼接，并在拼接好的数据块首部添加所述情绪标签X_class，以形成格式符合所述Transformer特征提取网络的数据[X_class,V₁,V₂]。

于本发明的一实施例中，所述利用融合后的数据训练神经网络模型以得到情绪分类器模型，具体包括：

令所述Transformer特征提取网络从所述融合后的数据中提取出带有所述情绪标签的人物图像特征和人物声音特征；

将所述人物图像特征和所述人物声音特征加以融合后放入ViT网络中进行有监督训练。

于本发明的一实施例中，所述方法还包括：在所述有监督训练中，采用交叉熵、JS散度交叉熵或标签平滑交叉熵作为损失函数，直到损失不再下降则停止训练，以得到所述情绪分类器模型。

于本发明的一实施例中，所述情绪分类器模型输出所述待识别人物的情绪信息，具体包括：通过Softmax分类得到每个情绪分类的概率得分，将概率最大的一类作为最终的情绪信息识别结果。

于本发明的一实施例中，所述方法还包括清洗所述人物图像数据和所述人物声音数据中不准确的原始情绪标签，并重新标注。

为实现上述目的及其他相关目的，本发明提供一种上述的人物情绪识别系统，所述系统包括：

融合模块，用于将带有情绪标签的人物图像数据和人物声音数据进行融合；

获取模块，用于利用融合后的数据训练神经网络模型以得到情绪分类器模型；

输出模块，用于采集待识别人物的图像数据和声音数据，融合后输入至所述情绪分类器模型，以使所述情绪分类器模型输出所述待识别人物的情绪信息。

为实现上述目的及其他相关目的，本发明提供一种上述的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述人物情绪识别方法。

为实现上述目的及其他相关目的，本发明提供一种上述的电子设备，所述电子设备包括：所述存储器用于存储计算机程序，所述处理器用于加载执行所述计算机程序，以使所述电子设备执行所述的人物情绪识别方法。

如上所述，本发明的人物情绪识别方法、系统、介质及电子设备，可以结合图像的多维度数据的特征以及整个视频序列的前后文信息来更为精确的判断人物的情绪，基于Transformer网络可以实现并行运算，前向推理速度更快，更适合算力资源不足的情况下模型部署，具有较高的迁移和适应能力，并且可以广泛应用到电影人物分析、嫌疑人员测谎等应用场景。

附图说明

图1显示为本发明的人物情绪识别方法于一实施例中的方法步骤图；

图2显示为本发明的人物情绪识别方法于一实施例中的应用流程图；

图3显示为本发明的人物情绪识别方法于一实施例中的数据融合示意图；

图4显示为本发明的人物情绪识别系统于一实施例中的结构示意图；

图5显示为本发明一实施例中电子设备的结构示意图。

元件标号说明

S11～S13 步骤

40 人物情绪识别系统

41 融合模块

42 获取模块

43 输出模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，于发明一实施例中，本发明的人物情绪识别方法包括如下步骤：

步骤S11、将带有情绪标签的人物图像数据和人物声音数据进行融合；

步骤S12、利用融合后的数据训练神经网络模型以得到情绪分类器模型；

步骤S13、采集待识别人物的图像数据和声音数据，融合后输入至所述情绪分类器模型，以使所述情绪分类器模型输出所述待识别人物的情绪信息。

具体地，如图2所示，本申请提出的方法具体包含两个部分，其一是训练部分，其二是应用部分，相应地，在所述训练部分将开源的视频数据集划分为训练集与测试集，其中，首先将带有情绪标签的所述人物图像数据和所述人物声音数据进行多维度数据融合，转化成训练Transformer特征提取网络对应的数据格式，通过对有监督的训练得到两种维度的特征，进行特征嵌入(embedding)，最后得到融合图像和声音信息的所述情绪分类器模型，待获取到所述情绪分类器模型后，采集待识别人物的图像数据和声音数据，融合后输入至训练好的所述情绪分类器模型中，以使所述情绪分类器模型输出待识别人物的融合图像和声音的情绪特征，得到“512”维的矢量特征，而后通过Softmax分类得到每个情绪分类的概率得分，将概率最大的一类作为最终的情绪信息识别结果，例如高兴、悲伤或者平静的情绪。

进一步地，于发明一实施例中，所述神经网络模型包括：特征提取模型；所述特征提取模型采用Transformer特征提取网络、T2T-Transformer特征提取网络，或者融合CNN与Transformer的特征提取网络。

需要说明的是，Transformer的特征提取网络可以替换为T2T-Transformer，在满足精度的情况下，前向推理的速度更快，特征提取的基准网络可以替换成为融合CNN+Transformer的新的基准网络，兼容CNN对分类任务的优势和Transformer对时序训练的优势。

进一步地，于发明一实施例中，所述特征提取模型采用Transformer特征提取网络；所述将带有情绪标签的人物图像数据和人物声音数据进行融合，具体包括：

将H×W×C的所述带有情绪标签的人物图像数据变换维度成一个N×(P2·C)的二维矩阵数据块V₁；其中，H为图像高，W为图像宽，C为图像通道数，N为序列的长度，P为块的大小。

对所述二维矩阵数据块V₁与所述二维矩阵数据块V₂进行拼接，并在拼接好的数据块首部添加所述情绪标签Xclass，以形成格式符合所述Transformer特征提取网络的数据[Xclass,V₁,V₂]。

需要说明的是，如图3所示，对于所述训练部分而言，首先对已标注好的带有情绪标签信息的人物图像和声音序列进行二维数据融合，并转化成训练Transformer特征提取网络对应的数据格式，具体地，对于图像数据：将H×W×C的图像变换维度成一个二维矩阵(N,D₁)，其中N为序列的长度，D₁为每个序列向量的维度，其中，H为图像高，W为图像宽，C为图像通道数，N为序列的长度，P为块的大小，D₁＝(P²·C)，即可以将一个H×W×C的图像变换维度成N×(P²·C)的二维数据块V₁；对于声音数据，首先通过语音识别将音轨转化为一维(1，D′)的向量，再将词向量变换维度到(N,D₂)的二维数据块V₂，其中N为语音时序的长度，D₂为每个语音时序向量的维度；最后将处理好的相对应的图像数据V₁和声音数据V₂进行concat拼接，并在拼接好的数据头部添加情绪分类标签信息X_class，组成Transformer特征提取网络对应的数据格式[X_class,V₁,V₂],提供给后续训练。

进一步地，于发明一实施例中，所述利用融合后的数据训练神经网络模型以得到情绪分类器模型，具体包括：

需要说明的是，通过对有监督的训练得到两种维度的特征，进行特征嵌入(embedding),最后得到融合图像和声音信息的情绪分类器模型，对处理融合好的带有标签信息的训练数据，放入Vision Transformer(ViT)网络中进行有监督训练，采用交叉熵作为损失函数，最后通过softmax得到情绪分类器。

值得一提的是，有监督训练是深度学习中一个名词，意思是在训练时候会提前给数据既定的标签去训练，于本申请的作用就是提前对标好的数据，比如是代表高兴的数据，代表悲伤的数据，这种带有标签信息的数据送给ViT网络进行训练。

进一步地，于发明一实施例中，所述方法还包括：在所述有监督训练中，采用交叉熵、JS散度交叉熵或标签平滑交叉熵作为损失函数，直到损失不再下降则停止训练，以得到所述情绪分类器模型。

需要说明的是，选取pytorch深度学习框架对Transformer特征提取模块的网路进行训练，选取ViT作为基准模型，对融合声音和图像信息的二维数据使用所述交叉熵作为所述损失函数进行迭代训练，可以使得同一类别内距离尽可能减小，不同类别之间的距离尽可能增大，从而达到较好的分类效果，其中，停止训练的标志是是经验值，一般训练停止的标志是损失(loss)不再下降，迭代的次数没有固定的数量限制，在实际训练过程中可以根据历史经验设置固定的迭代次数，例如迭代五十次或者迭代三十次作为所述数量限制。

进一步地，于发明一实施例中，所述方法还包括清洗所述人物图像数据和所述人物声音数据中不准确的原始情绪标签，并重新标注。

需要说明的是，有些数据的所述原始情绪标签并不准确，比如应该是表示高兴的数据标注的标签信息是悲伤，这时候就需要修改标签。

请参阅图4，在一实施例中，本实施例提供的一种人物情绪识别系统40，其中，所述系统包括：

融合模块41，用于将带有情绪标签的人物图像数据和人物声音数据进行融合；

获取模块42，用于利用融合后的数据训练神经网络模型以得到情绪分类器模型；

输出模块43，用于采集待识别人物的图像数据和声音数据，融合后输入至所述情绪分类器模型，以使所述情绪分类器模型输出所述待识别人物的情绪信息。

由于本实施例的具体实现方式与前述方法实施例对应，因而于此不再对同样的细节做重复赘述，本领域技术人员也应当理解，图4实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个或多个物理实体上，且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。

除此之外，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述船舶管系原理图创建方法。

参阅图5，本实施例提供一种电子设备，详细的，电子设备至少包括通过总线连接的：存储器、处理器，其中，存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以执行前述方法实施例中的全部或部分步骤。

综上所述，本发明可以结合图像的多维度数据的特征以及整个视频序列的前后文信息来更为精确的判断人物的情绪，基于Transformer网络可以实现并行运算，前向推理速度更快，更适合算力资源不足的情况下模型部署，具有较高的迁移和适应能力，并且可以广泛应用到电影人物分析、嫌疑人员测谎等应用场景。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种人物情绪识别方法，其特征在于，包括：

将带有情绪标签的人物图像数据和人物声音数据进行融合；

利用融合后的数据训练神经网络模型以得到情绪分类器模型；

采集待识别人物的图像数据和声音数据，融合后输入至所述情绪分类器模型，以使所述情绪分类器模型输出所述待识别人物的情绪信息。

2.根据权利要求1所述的人物情绪识别方法，其特征在于，所述神经网络模型包括：特征提取模型；所述特征提取模型采用Transformer特征提取网络、T2T-Transformer特征提取网络，或者融合CNN与Transformer的特征提取网络。

3.根据权利要求2所述的人物情绪识别方法，其特征在于，所述特征提取模型采用Transformer特征提取网络；所述将带有情绪标签的人物图像数据和人物声音数据进行融合，具体包括：

4.根据权利要求3所述的人物情绪识别方法，其特征在于，所述利用融合后的数据训练神经网络模型以得到情绪分类器模型，具体包括：

5.根据权利要求4所述的人物情绪识别方法，其特征在于，还包括：在所述有监督训练中，采用交叉熵、JS散度交叉熵或标签平滑交叉熵作为损失函数，直到损失不再下降则停止训练，以得到所述情绪分类器模型。

6.根据权利要求1所述的人物情绪识别方法，其特征在于，所述情绪分类器模型输出所述待识别人物的情绪信息，具体包括：

通过Softmax分类得到每个情绪分类的概率得分，将概率最大的一类作为最终的情绪信息识别结果。

7.根据权利要求1所述的人物情绪识别方法，其特征在于，还包括清洗所述人物图像数据和所述人物声音数据中不准确的原始情绪标签，并重新标注。

8.一种人物情绪识别系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任一项所述人物情绪识别方法。

10.一种电子设备，其特征在于，所述电子设备包括：所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权力要求1至7中任一项所述人物情绪识别方法。