CN114639150A

CN114639150A - 情绪识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114639150A
Application number: CN202210276959.2A
Authority: CN
Inventors: 侯翠琴; 李剑锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-17

Abstract

本发明涉及一种情绪识别方法、装置、计算机设备和存储介质，该方法包括：获取用户当前时刻以前预设时间的历史视频，将历史视频按照预设规则分割为多份子历史视频；将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；情绪识别模型将多个情绪识别结果进行融合，得到用户的当前情绪识别结果。上述方法可以更准确识别用户当前的情绪状态。

Description

情绪识别方法、装置、计算机设备和存储介质

技术领域

本发明涉及情绪识别技术领域，特别是涉及情绪识别方法、装置、计算机设备和存储介质。

背景技术

情感识别作为计算机科学、认知科学、心理学、脑科学、神经科学等多学科交叉的新兴研究领域，其研究目的就是让计算机学习理解人类的情感表达，最终使其能够像人类一样具有识别、理解情感的能力。因此，作为一个极富挑战性的交叉学科，情感识别成为当前国内外模式识别、计算机视觉、大数据挖掘以及人工智能领域的一个研究热点，具有重要的研究价值和应用前景。

人脸表情比较敏感但非常瞬时，语言描述更能反应人内心的深度情感，因此结合人脸和语言的历史序列更能准确识别当前的情绪。如何研究设计一种准确度高、误差小的融合语音与微表情的多模态情感识别方法及系统是我们目前急需解决的问题。

发明内容

基于此，提供一种情绪识别方法、装置、计算机设备和存储介质。

第一方面提供了一种情绪识别方法，包括：

获取用户当前时刻以前预设时间段的历史视频，将所述历史视频按照预设规则分割为多份子历史视频；

将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；

所述情绪识别模型将多个所述情绪识别结果进行融合，得到所述用户的当前情绪识别结果。

在一些实施例中，所述将所述历史视频按照预设规则分割为多份，包括：

根据预设的时间分割窗口按照视频时序对所述历史视频分割为多份。

在一些实施例中，所述将各份历史视频分别输入情绪识别模型的各个子识别模型，各个子识别模型分别得到的情绪识别结果，包括：

针对每份历史视频，提取视频中的人脸图像以及与所述人脸图像相对应的声音频谱图和字幕文本；

从所述人脸图像提取图像特征向量；

从所述声音频谱图提取文本特征向量，并从所述字幕文本提取文本特征向量；

对所述图像特征向量、从所述声音频谱图提取的文本特征向量和从所述字幕文本提取文本特征向量融合，得到联合特征向量；

将所述联合特征向量输入所述情绪识别模型的子识别模型，对所述联合特征向量进行处理，得到所述子历史视频对应的情绪识别结果，其中所述子识别模型是预先训练的多模态模型。

在一些实施例中，所述提取视频中的人脸图像以及与所述人脸图像相对应的声音频谱图和字幕文本，包括：

解析所述历史视频，得到视频帧；基于视频帧的像素信息对所述视频帧进行过滤，将过滤后得到的视频帧作为所述待识别人脸情绪的图像；

基于所述视频帧的像素信息，生成所述视频帧对应的直方图同时确定所述视频帧的清晰度；根据所述直方图和边缘检测算子，对所述视频帧进行聚类，得到至少一个类；过滤各个所述类中重复的视频帧和清晰度小于清晰度阈值的视频帧；

基于所述过滤后的视频帧，采用基于卷积神经网络的的方法对视频帧进行人脸检测、对齐、旋转和调整大小的操作，得到人脸图像。

在一些实施例中，述从所述人脸图像提取图像特征向量，包括：

将所述人脸图像输入预先训练得到的图像特征提取模型中进行处理，将所述图像特征提取模型中的全连接层输出的特征向量确定为所述图像特征向量，所述图像特征提取模型为对预设深度卷积神经网络模型进行训练得到的，所述预设深度卷积神经网络模型包括池化层、一个全连接层以及全连接层前的dropout层和全连接层后的softmax层。

在一些实施例中，所述从所述声音频谱图提取文本特征向量，并从所述字幕文本提取文本特征向量，包括：

将所述声音频谱图转写为音频文本；

将转写后的音频文本输入语言模型中进行纠错处理，得到纠错处理后的音频文本；

对所述音频文本和所述字幕文本进行去重处理，得到融合后的文本数据；

对所述文本数据进行分词处理，并去除分词结果中的低频词和停用词，得到多个词；

调用word2vec模型，对所述多个词进行处理，得到向量矩阵；

将所述向量矩阵输入预先训练的文本特征提取模型中进行处理，将所述文本特征提取模型中的全连接层输出的特征向量确定为所述文本特征向量，所述文本特征提取模型为对预设文本卷积神经网络模型进行训练得到的，所述预设文本卷积神经网络模型包括池化层、一个全连接层以及全连接层前的dropout层和全连接层后的softmax层。

在一些实施例中，所述将多个所述情绪识别结果进行融合，得到所述用户的当前情绪识别结果，包括：

将所述多个情绪识别结果输入条件随机场，所述条件随机场得到用户的当前情绪识别结果。

第二方面提供了一种情绪识别方法装置，包括：

视频获取单元，用于获取用户当前时刻以前预设时间的历史视频，将所述历史视频按照预设规则分割为多份子历史视频；

情绪识别单元，用于将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；

结果输出单元，用于所述情绪识别模型将多个所述情绪识别结果进行融合，得到所述用户的当前情绪识别结果。

第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述情绪识别方法的步骤。

第四方面提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述情绪识别方法的步骤。

上述情绪识别方法、装置、计算机设备和存储介质，首先获取用户当前时刻以前预设时间的历史视频，将所述历史视频按照预设规则分割为多份子历史视频；然后将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；最后所述情绪识别模型将多个所述情绪识别结果进行融合，得到所述用户的当前情绪识别结果。因此，本申请的情绪识别模型，不仅融合人脸表情序列和语言描述，同时考虑历史的人脸表情序列和语言描述，因此能更准确识别用户当前的情绪状态。

附图说明

图1为一个实施例中提供的情绪识别方法的实施环境图；

图2为一个实施例中情绪识别方法的流程图；

图3为一个实施例中情绪识别方法装置的结构框图；

图4为一个实施例中计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下。

图1为一个实施例中提供的情绪识别方法的实施环境图，如图1所示，在该实施环境中，包括计算机设备110以及终端120。

计算机设备110为情绪识别设备。终端120上安装有需要进行用户的视频输入，当识别用户情绪时，计算机设备110接收通过终端用户输入的历史视频，计算机设备110利用情绪识别方法执行该情绪识别方法脚本，得到名称验证结果。

需要说明的是，终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明在此不做限制。

在本发明实施例中，情绪特征可以概括为喜、怒、哀、乐、恐惧、害怕等，通过对目标对象的语言信息、面部表情以及肢体动作的辨识，可以较为准确地判断目标对象的情绪特征状态，如当前目标对象的语音带有啼哭声以及面部表情带有为哭丧表情，则可以确定目标对象的情绪特征为“哀”；如当前目标对象的语音带有嘶吼声以及面部表情为狰狞，则可以确定目标对象的情绪特征为“怒”；如当前目标对象的语言文字包含“我好开心”以及面部表情为笑容满面，则可以确定目标对象的情绪特征为“喜”。另外，经研究过程发现，单独以语言信息作为目标对象的情绪特征判断依据，识别准确率较低，而以语言信息、面部表情以及肢体动作作为目标对象的情绪特征共同判断依据，识别准确率更高。进一步，情绪特征还可以通过情绪特征识别模型进行识别，该情绪特征识别模型可以是通过预先采集的大量涵盖有语言信息、面部表情目标样本经含有可变参数的卷积神经网络训练生成，其中，目标样本均标住过对应的情绪特征，通过在训练生成的情绪特征识别模型中输入语言信息、面部表情以及肢体动作，可生成对应的情绪特征。

另外，为了对情绪特征进行更精确的识别，上述情绪特征还可以进一步衍生出更细化的类别，如其中喜还可以分为高兴、喜欢，怒还可以分为生气、恨。

如图2所示，在一个实施例中，提出了一种情绪识别方法，该情绪识别方法可以应用于上述的计算机设备110中，具体可以包括以下步骤：

步骤201、获取用户当前时刻以前预设时间段的历史视频，将历史视频按照预设规则分割为多份子历史视频；

具体的，可以利用opencv读取视频，并将视频拆分为多个视频帧。

在一些实施例中，上述步骤201可以包括：根据预设的时间分割窗口按照视频时序对历史视频分割为多份。其中，具体时间分割窗的大小根据对情绪识别模型进行训练时设置的时间切割窗大小决定。

步骤202、将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；

在该步骤中，各个子识别模型相同均为多模态模型(VisualBert)，多模态模型根据历史视频得到用户的情绪识别结果。

在一些实施例中，上述步骤202可以包括：

步骤2021、针对每份历史视频，提取视频中的人脸图像以及与人脸图像相对应的声音频谱图和字幕文本；

该步骤中，利用预设人脸识别模型依次对多个视频帧进行识别，得到人脸图像，并记录包含人脸图像的视频帧的时间；

人脸识别模型可以为利用人脸图像训练样本对机器学习模型进行训练得到，也可以利用现有的人脸识别模型，如加载opencv自带的人脸分类器，依次对多个视频帧进行识别。

优选的，可以先将视频帧转换为灰度图，以提高人脸识别的速度。

将识别得到的包含人脸图像的视频帧按照128*128的格式截取人脸区域，即得到人脸图像。

在一些实施例中，上述步骤2021可以包括：

步骤2021a、解析历史视频，得到视频帧；基于视频帧的像素信息对视频帧进行过滤，将过滤后得到的视频帧作为待识别人脸情绪的图像；

步骤2021b、基于视频帧的像素信息，生成视频帧对应的直方图同时确定视频帧的清晰度；根据直方图和边缘检测算子，对视频帧进行聚类，得到至少一个类；过滤各个类中重复的视频帧和清晰度小于清晰度阈值的视频帧。

步骤2021c、基于过滤后的视频帧，采用基于卷积神经网络的的方法对视频帧进行人脸检测、对齐、旋转和调整大小的操作，得到人脸图像。

进一步的，根据包含人脸图像的视频帧的时间，截取视频中对应时间段内的声音片段；

可以理解的是，视频中包含人脸图像的视频帧为连续的多个视频帧，每个视频帧都对应一个时间，连续的多个视频帧则对应一个时间段，进而可以截取视频中该时间段内的声音片段。

调用预先构建的字幕检测模型对包含人脸图像的视频帧进行处理，得到包含人脸图像的视频帧的字幕文本。

这里预先构建的字幕检测模型可以为现有的任意一种字幕检测模型。

步骤2022、从人脸图像提取图像特征向量；

在一些实施例中，该步骤2022可以包括：将人脸图像输入预先训练得到的图像特征提取模型中进行处理，将图像特征提取模型中的全连接层输出的特征向量确定为图像特征向量，图像特征提取模型为对预设深度卷积神经网络模型进行训练得到的，预设深度卷积神经网络模型包括池化层、一个全连接层以及全连接层前的dropout层和全连接层后的softmax层。

步骤2023、从声音频谱图提取文本特征向量，并从字幕文本提取文本特征向量；

在一些实施例中，该步骤2023可以包括：

步骤2023a、将声音频谱图转写为音频文本；

步骤2023b、将转写后的音频文本输入语言模型中进行纠错处理，得到纠错处理后的音频文本；

步骤2023c、对音频文本和字幕文本进行去重处理，得到融合后的文本数据；

步骤2023d、对文本数据进行分词处理，并去除分词结果中的低频词和停用词，得到多个词；

步骤2023e、调用word2vec模型，对多个词进行处理，得到向量矩阵；

其中，调用word2vec模型，对多个词进行处理，每个词使用K维向量来表示，若为N个词，则得到N*K维的向量矩阵。

步骤2023f、将向量矩阵输入预先训练的文本特征提取模型中进行处理，将文本特征提取模型中的全连接层输出的特征向量确定为文本特征向量，文本特征提取模型为对预设文本卷积神经网络模型进行训练得到的，预设文本卷积神经网络模型包括池化层、一个全连接层以及全连接层前的dropout层和全连接层后的softmax层。

本实施例中提取特征向量的模型，均将传统的卷积神经网络模型中的多个全连接层替换为一个全连接层，直接在一个全连接层后加上softmax层，结合残差结构和Inception结构的混合模型，同时利用批归一化(Batch Normalization)处理输入的数据，池化层使用全局平均池化的方法，在一个全连接层前加入dropout层，Dropout层可以比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果，Dropout层导致两个神经元不一定每次都在一个Dropout网络中出现，这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况，迫使网络去学习更加鲁棒的特征，增加模型的鲁棒性。

由于图像特征向量、声音特征向量和文本特征向量都是相应模型的全连接层输出的512维的特征向量。

步骤2024、对图像特征向量、从声音频谱图提取的文本特征向量和从字幕文本提取文本特征向量融合，得到联合特征向量；

对图像特征向量、声音特征向量和文本特征向量进行特征融合，得到512*3维的特征向量。

优选的，为了降低人物情绪识别模型处理的数据量，可以利用sklearn工具库中封装的PCA方法，如设置参数n_components＝768，对特征融合后的特征向量进行降维处理，则可以得到768维的特征向量，对降维处理后得到的特征向量进行归一化处理，得到三通道的联合特征向量。

步骤2025、将联合特征向量输入情绪识别模型的子识别模型，对联合特征向量进行处理，得到子历史视频对应的情绪识别结果，其中子识别模型是预先训练的多模态模型。

人物情绪识别模型是利用包含人脸图像的图像特征向量、声音特征向量和文本特征向量的联合特征向量训练数据集对多个机器学习模型(多模态模型)进行训练得到的。

在此基础上，调用预先训练得到的人物情绪识别模型，对联合特征向量进行处理，具体为：将联合特征向量分别输入多个子识别模型中进行识别处理，得到多个子识别模型的人物情绪识别结果；将多个子识别模型的人物情绪识别结果中相同结果数量最多的人物情绪识别结果确定为人物情绪识别模型输出的最终人物情绪识别结果。

例如，人物情绪识别模型包括3个子识别模型C1、C2和C3，其中，子识别模型C1对联合特征向量的识别结果为情绪标签L1，子识别模型C2对联合特征向量的识别结果为情绪标签L1，子识别模型C3对联合特征向量的识别结果为情绪标签L2，则人物情绪识别模型输出的最终人物情绪识别结果为情绪标签L1。

步骤203、情绪识别模型将多个情绪识别结果进行融合，得到用户的当前情绪识别结果。

条件随机场(conditional random field，简称CRF)，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。

在一些实施例中，上述步骤203可以包括：将多个情绪识别结果输入条件随机场，条件随机场得到用户的当前情绪识别结果。

本申请，首先提取当前语言描述时对应的人脸图片序列。然后将人脸图片序列通过VGG模型【提取特征表示，并将语言描述序列和人脸图片特征序列输入到多模态VisualBert模型中最后将VisualBert模型的语言及人脸图片综合特征表述输入到CRF模型中，识别考虑上下文的当前情绪。VisualBert同时考虑当前语言描述和对应的人脸图片序列，可更准确识别当前的情绪状态。同时在识别当前情绪状态时，不仅考虑当前的语言描述和对应的人脸图片序列，同时考虑历史的语言描述和对应的人脸图片序列，并将这些信息输入到CRF中，因此可更准确识别当前的情绪状态。

如图3所示，在一个实施例中，提供了一种情绪识别方法装置，该情绪识别方法装置可以集成于上述的计算机设备110中，具体可以包括：

视频获取单元311，用于获取用户当前时刻以前预设时间的历史视频，将历史视频按照预设规则分割为多份子历史视频；

情绪识别单元312，用于将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；

结果输出单元313，用于情绪识别模型将多个情绪识别结果进行融合，得到用户的当前情绪识别结果。

在一个实施例中，如图4所示，提出了一种计算机设备，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、知识库和计算机可读指令，知识库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种情绪识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种情绪识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器执行计算机程序时实现以下步骤：获取用户当前时刻以前预设时间的历史视频，将历史视频按照预设规则分割为多份子历史视频；将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；情绪识别模型将多个情绪识别结果进行融合，得到用户的当前情绪识别结果。

在一些实施例中，处理器执行计算机程序时实现的将历史视频按照预设规则分割为多份，包括：对历史视频根据预设的时间分割窗口按照视频时序分割为多份。

在一些实施例中，处理器执行计算机程序时实现的将各份历史视频分别输入情绪识别模型的各个子识别模型，各个子识别模型分别得到的情绪识别结果，包括：针对每份历史视频，提取视频中的人脸图像以及与人脸图像相对应的声音频谱图和字幕文本；从人脸图像提取图像特征向量；从声音频谱图提取文本特征向量，并从字幕文本提取文本特征向量；对图像特征向量、从声音频谱图提取的文本特征向量和从字幕文本提取文本特征向量融合，得到联合特征向量；将联合特征向量输入情绪识别模型的子识别模型，对联合特征向量进行处理，得到子历史视频对应的情绪识别结果，其中子识别模型是预先训练的多模态模型。

在一些实施例中，处理器执行计算机程序时实现的将多个情绪识别结果进行融合，得到用户的当前情绪识别结果，包括：将多个情绪识别结果输入条件随机场，条件随机场得到用户的当前情绪识别结果。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取用户当前时刻以前预设时间的历史视频，将历史视频按照预设规则分割为多份子历史视频；将各份子历史视频分别输入情绪识别模型的各个子识别模型，得到各份子历史视频分别对应的情绪识别结果；情绪识别模型将多个情绪识别结果进行融合，得到用户的当前情绪识别结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的情绪识别方法，其特征在于，所述将所述历史视频按照预设规则分割为多份，包括：

3.根据权利要求1所述的情绪识别方法，其特征在于，所述将各份历史视频分别输入情绪识别模型的各个子识别模型，各个子识别模型分别得到的情绪识别结果，包括：

从所述人脸图像提取图像特征向量；

4.根据权利要求3所述的情绪识别方法，其特征在于，所述提取视频中的人脸图像以及与所述人脸图像相对应的声音频谱图和字幕文本，包括：

5.根据权利要求4所述的情绪识别方法，其特征在于，所述从所述人脸图像提取图像特征向量，包括：

6.根据权利要求4所述的情绪识别方法，其特征在于，所述从所述声音频谱图提取文本特征向量，并从所述字幕文本提取文本特征向量，包括：

将所述声音频谱图转写为音频文本；

调用word2vec模型，对所述多个词进行处理，得到向量矩阵；

7.根据权利要求1所述的情绪识别方法，其特征在于，所述将多个所述情绪识别结果进行融合，得到所述用户的当前情绪识别结果，包括：

8.一种情绪识别方法装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述情绪识别方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述情绪识别方法的步骤。