CN113780198A

CN113780198A - 一种面向影像生成的多模态情感分类方法

Info

Publication number: CN113780198A
Application number: CN202111080282.7A
Authority: CN
Inventors: 徐小龙; 黄寄; 段卫华
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-10
Anticipated expiration: 2041-09-15
Also published as: CN113780198B

Abstract

本发明公开了一种面向影像生成的多模态情感分类方法，包括如下步骤：对已经标记好情感倾向的人脸表情图像以及音频数据提取人脸特征和音频特征。将两种数据输入到多层感知机分类器中，得到各自的分类结果，并通过特征融合的方式再输入到一个多层感知机分类器中。最终得到一个能够根据人脸表情图像和音频数据分析出当前人脸表情和音频蕴含情感的分类器。本系统可以用来实时监测家庭聚会中成员的情感，并根据设置的特定情感自动记录下特定的情感的相册。

Description

一种面向影像生成的多模态情感分类方法

技术领域

本发明涉及人工智能领域，特别是一种面向影像生成的多模态情感分类方法。

背景技术

人的一生中有很多重要的时间节点。比如升职时刻，登上山顶的时刻，颁奖仪式的时刻，这些时刻基本上都会主动或被动的记录下来。而在家庭中，同样也会出现十分多值得纪念的欢乐时光，但是一般人难以捕捉并想起要记录下这美好的时光。此时智能家庭影像孕育而生，本发明将情感分析技术应用在家庭影像生成上，只需要打开摄像头与麦克风，即可自动记录下家庭中出现幸福的瞬间，并把此时的画面拍摄下来，同时附上相应的语音，即可实现将家庭中的欢乐时光作为一份数据永久记忆下来。

使用的主要技术为多模态情感分析，情感分析是一个十分热门的研究方向，也可应用于许多实际场景。比如推荐系统，聊天机器人，高级客服等等场景。在传统的研究中，情感分析主要集中在文本或者人脸情感分析上，并且取得了不错的效果。虽然人脸和文本均能独立地将情感表达出来，但是人的情感是十分复杂的，人与人之间的交互，人与机器之间的交互，也不仅仅局限于人脸、文本或是语音上。为了应对人类情感的复杂性，多模态情感分析的研究成为了情感计算发展的主流。每种模态所传达的人类的情感的信息量大小和维度都不同，需要将多种模态也就是多个维度将单一模态上不完善的情感信息补上，最终通过多个模态结果来判断情感倾向。

在多模态情感分析中，模态内表示和模态间融合是两个比较核心的功能。模态内的表示是说对于不同的模态，我们需要考虑不同的时间或者空间特征，利用不同的方法来提取不同的单模态特征，比如利用卷积神经网络(CNN)或深度神经网络(DNN)来提取人脸表情特征，利用长短期记忆网络(LSTM)或深度神经网络(DNN)来提取文本信息特征，利用支撑向量机(SVM)或者神经网络来提取音频特征。

但是上述的方法都普遍存在着以下问题：

(1)这些方法的每个模态的标签和最终的标签共享同一个标签，这样会导致所有的模态在同一的标签监督下使得内部特征更为一致，降低了之间的差异性，最终会导致有许多的冗余信息。

(2)没有考虑每个模态数据转换成向量之后不同维度对最终情感的重要程度。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种面向影像生成的多模态情感分类方法，构建一个多模态情感分类模型，该模型会在数据编码层引入注意力机制来考虑每个模态的向量中不同维度对最终情感的重要程度；并且使用每种模态独立的标签来进行模型的训练。最终使得该模型能够在输入图像和音频的情况下输出分类结果，然后根据分类结果决定是否将图像和音频保留。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种面向影像生成的多模态情感分类方法，包括如下步骤：

步骤1、收集多组样本，每组样本包括预先标注了情感标签的人脸表情的图像和该图像的音频，标注的情感包括幸福、无情感和其他情感；

步骤2、将图像和音频进行特征提取，并将提取的特征转化成为特征向量，得到图像的特征向量和音频的特征向量；

步骤3、将图像的特征向量输入第一注意力机制层、第一多层感知机后得到图像的情感分类概率分布向量，将音频的特征向量输入第二注意力机制层、第二多层感知机后得到音频的情感分类概率分布向量；

步骤4、将图像的情感分类概率分布向量和音频的情感分类概率分布向量组合在一起后输入到第三多层感知机中，得到结合图像和音频的最终的情感分类结果；从而得到分类器，该分类器用于输入图像和音频的特征向量，输出为结合图像和音频的情感分类结果；

步骤5、实时收集人脸图像和音频数据；

步骤6、提取步骤5中采集到的人脸图像和音频数据的特征，输入到步骤4的分类器中，得到当前每个人的情感。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，步骤6之后还包括步骤7，步骤7、判断步骤6中的情感是否为幸福，若为幸福则将此时的人脸照片记录下来，并将此时的语音也记录下来。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，步骤1中：

图像和音频的情感标签分别为：每个图像的情感标签为VY＝(y₁,y₂,y₃)，每个音频的情感标签为AY＝(y₁,y₂,y₃)；然后综合图像和音频的情感标签为MY＝(y₁,y₂,y₃)；其中，y₁表示情感为幸福的标记位，y₂表示情感为无情感的标记位，y₃表示情感为其他情感的标记位。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，y₁＝1,y₂＝0,y₃＝0表示幸福，y₁＝0,y₂＝1,y₃＝0表示无情感，y₁＝0,y₂＝0,y₃＝1表示其他情感。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，步骤2的具体过程为：

步骤21、使用OpenFace2.0工具包的人脸发现和特征提取模型将图像的像素特征转化为D_v维度的图像特征向量，获取图像的抽样频率为F_v，形成一个(F_v，D_v)形状的向量，将(F_v，D_v)形状的向量压缩成(1，(F_v·D_v))形状，该向量为图像的特征向量；

步骤22、使用Librosa库读取音频，调用其库函数提取音频的梅尔倒谱系数MFCC、常数Q变换CQT和基频，分别得到D_a1维度、D_a2维度和D_a3维度的向量，将D_a1维度、D_a2维度和D_a3维度的向量拼接起来，获得代表音频的D_a维度的向量，D_a＝D_a1+D_a2+D_a3，音频的采样率为F_a，最终获得一个(F_a，D_a)形状的向量，将(F_a×D_a)形状的向量压缩成(1，(F_a·D_a))形状的向量，该向量为音频的特征向量。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，所述步骤3的具体过程为：

步骤31、设图像的特征向量为

1≤s≤F_v·D_v，v_s表示图像的特征向量的第s个特征值；将V输入到第一注意力机制层生成第一注意力权重向量

v′_s表示图像的特征向量的第s个特征的注意力权重；设音频的特征向量为

1≤j≤F_a·D_a，a_j表示音频的特征向量的第j个特征值；将A输入到第二注意力机制层生成第二注意力权重向量

1≤j≤F_a·D_a，a′_j表示音频特征向量的第j个特征的注意力权重；

步骤32、将V×V′输入到第一多层感知机中得到图像的情感分类概率分布向量VP＝(p₁,p₂,p₃)；其中p₁表示V对应的图像包括的情感被分类为幸福的概率，p₂表示V对应的图像包括的情感被分类为无情感的概率，p₃表示V对应的图像包括的情感被分类为其他情感的概率，并且有p₁+p₂+p₃＝1；

将A×A′输入到第二多层感知机中得到音频的情感分类概率分布向量AP＝(p₁′,p₂′,p₃′)；其中p₁′表示A对应的音频包括的情感被分类为幸福的概率，p₂′表示A对应的音频包括的情感被分类为无情感的概率，p₃′表示A向量对应的音频包括的情感被分类为其他情感的概率，并且有p₁′+p₂′+p₃′＝1。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，所述步骤4的具体过程为：

步骤41、将步骤3中的VP和AP两个向量拼接并输入到第三多层感知机中，第三多层感知机将图像和音频这两种模态的数据的共有的情感特征充分捕获，得到最终的分类结果向量MV＝(p″₁,p″₂,p″₃)，其中p″₁表示该图像和音频对应的情感为幸福的概率，p″₂表示该图像和音频对应的情感为无情感的概率，p″₃表示该图像和音频对应的情感为其他情感的概率；

最终得到一个输入为图像和音频的特征向量，输出为结合图像和音频的情感分类结果的分类器。

作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案，所述步骤7的具体过程为：

若从步骤6中获取到当前图像和音频对应的情感为幸福的概率大于当前图像和音频对应的情感为无情感的概率、且当前图像和音频对应的情感为幸福的概率大于当前图像和音频对应的情感为其他情感的概率，则将此时的图像记录下来，并且把音频也记录下来；否则丢弃这组图像和音频数据。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)使用多模态情感分析来实现情感的分类，加强情感的分类效果；

(2)每个模态的标签都是独立的标签，这样可以增加特征的差异性，以便最终分类时捕获更多的特征信息，从而增强情感分类效果；

(3)使用注意力机制对每种模态映射成的向量的不同维度进行加权处理，以便控制每个维度对最终分类的影响。

附图说明

图1是本发明所用情感分类的模型结构图。

图2是音频数据的注意力权重向量分布图。

图3是图像数据的注意力权重向量分布图。

图4是方法运作示意图。

图5是本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明是在家庭影像生成环境下，实现快速而高效的自动记录家庭幸福瞬间的照片和音频的方法。人的一生中有许多需要记录但是往往又没空去记录的东西，该发明有助于在家庭环境下对幸福的瞬间进行记录。主要利用了多模态的情感分类方法以及注意力机制来提升分类效果。

人的情感与人的身体中许多部位是相通的，有研究表明在人脸中，面部表情传达的信息量高达百分之55％。因此如果能够将脸部表情中的特征抽取出来，使其形成一个向量，那么就可以基于该特征向量获取该表情对应的情感，从而达到情感分类的目的。

在人类的交互过程中，语音是人们最直接的交流通道，人们通过语音能够明显地感受到对方的情绪变化，例如通过特殊的语气词、语调发生变化等等。在人们通电话时，虽然彼此看不到，但能从语气中感觉到对方的情绪变化。因此，如果可以将音频中的特征提取出来形成向量，那么基于该向量就可以获取该音频对应的情感，从而达到情感分类的目的。

图5描述了本发明的方法流程图。通过收集家庭中带人脸的图像和音频作为训练集的数据，并人工将图像和音频单独标记其情感。并将图像和音频综合起来再标记其情感。这样一组图像和音频就有三个情感标签。

将训练集的图像和音频使用OpenFace2.0和Librosa工具提取到图像和音频的特征向量。将图像向量和音频向量以及其对应的标签分别输入注意力机制层。获得图像向量和音频向量的注意力向量，将特征向量和注意力向量对应维度的值相乘得到经过注意力机制权重修正后的图像向量和音频向量。将这两个模态的向量和其对应的标签输入到不同的多层感知机中，获得图像情感分类器和音频情感分类器。将这两个分类器的输出结果拼接，并再输入到一个多层感知机中，得到最终的情感分类结果。

获取到新的家庭场景下的图像和音频，然后利用OpenFace2.0和Librosa提取图像和音频的特征向量。然后分别将该特征向量的对应维度乘以其注意力机制向量得到新的特征向量。然后输入训练好的分类器得到图像和音频的情感分类结果，将该分类结果拼接起来输入到最终的分类器中得到最终的情感分类结果。判断该情感分类结果是否为幸福，若是则记录下图像和音频，否则舍弃。

为了方便理解本发明的技术方案，下面定义一些概念：

定义1影像生成：是记录某个环境下，人带有某种情感的时机。包含了当时的图像和音频。将大量的图像音频记录下来后，形成带音频的相册。

定义2多模态情感分类：运用多种人类表达的情感数据综合分析人类所表达情感的一种情感分类任务。

定义3特征向量：图像和音频想要被计算机识别，就必须将图像和音频的特征表示成能被计算机识别的格式。本发明面向的特征向量为OpenFace2.0和Librosa提取的图像和音频的向量，作为特征向量。

定义4注意力机制：是指能够使得神经网络具备专注于输入的某些特征的一种资源分配方案。像人类对视觉见到的东西有焦点一样，注意力机制能够让神经网络对特征中的某些维度有所聚焦。

定义5多层感知机：是一种前馈人工神经网络模型，其将输入的多个数据集样本映射到单一的输出的数据集标签上。

通过本发明的方法对家庭聚会场景下生成的图像和音频进行多模态情感分类，利用注意力机制来捕获图像和音频的有效特征，减少情感分类模型的处理时间。该注意力机制分布图如图2和图3所示。将注意力向量和特征向量对应维度相乘作为新的特征向量输入多层干感知机中获取情感分类结果。

本发明以家庭聚会为环境，记录家庭幸福欢乐的时光。本发明的运作示意图如图4所示。其具体操作步骤如下：

步骤1，利用摄像头和麦克风收集家庭环境下的人脸表情和图像和音频数据，筛选掉不清晰的图像和音频；

步骤2，将筛选过后的图像和音频标记好对应的情感标注。标注的情感有：幸福、无情感、其他情感。

其他情感是指除了幸福、无情感之外的情感。

具体实现方法如下：

将图片和对应的音频数据对应的情感进行人工标记。每个图像的情感标签为VY＝(y₁,y₂,y₃)，每个音频的情感标签为AY＝(y₁,y₂,y₃)。然后当前综合图像和音频的情感标签为MY＝(y₁,y₂,y₃)。其中y₁＝1,y₂＝0,y₃＝0表示幸福，y₁＝0,y₂＝1,y₃＝0表示无情感，y₁＝0,y₂＝0,y₃＝1表示其他。这样，每组图像-音频就有三个标签，分别是对图像的情感标签、对音频的情感标签和综合图像和音频的情感标签。

步骤3，将图像和音频数据进行特征提取，转化成能被计算机识别的向量形式，其具体实现方法如下：

对于图像，使用OpenFace2.0工具包的人脸发现和特征提取模型将图像的像素特征转化为709维度的视觉特征向量，又因为摄像头获取的视频中我们抽样频率为55，所以会形成一个55×709的向量，为了符合注意力机制层的输入形状，将其压缩成1×38995维度的向量。

对于音频，使用Librosa库读取音频，调用其库函数提取音频的梅尔倒谱系数(MFCC)、常数Q变换(CQT)和基频，得到了对应的20维度、12维度和1维度的向量，将三个向量合起来，变成了代表音频的33维度的向量，然后对音频采样率为400，所以最终可以获得一个(400，33)形状的向量，为了符合注意力机制层的输入形状，将其压缩成(1，13200)形状的向量。

(a,b)形状的向量表示该向量包含a组b个维度的特征。

步骤4，将图像和音频的特征向量分别输入到两个多层感知机(MLP)中并在多层感知机前增加注意力机制层，得到图像和音频的情感分类概率分布向量，其具体实现方法如下：

设视觉向量为V＝(v₁,v₂,…,v₃₈₉₉₅)，将其输入到注意力机制层会生成一个注意力权重向量V′＝(v′₁,v′₂,…,v′₃₈₉₉₅)。设音频向量为A＝(a₁,a₂,…,a₁₃₂₀₀)，将其输入到注意力机制层会生成一个注意力权重向量A′＝(a′₁,a′₂,…,a′₁₃₂₀₀)。

将V×V′和A×A′作为入参输入到多层感知机中，整个过程如图1编码层所示。最终得到图像和音频的情感分类概率分布向量VP＝(p₁,p₂,p₃)，AP＝(p₁,p₂,p₃)。其中p₁表示该图像或音频包含的情感被分类为幸福的概率，p₂表示该图像或音频包含的情感被分类为无情感的概率，p₃表示该图像或音频包含的情感被分类为其他的概率。并且有p₁+p₂+p₃＝1。

步骤5，将两个情感分类概率分布向量组合在一起后输入到新的多层感知机(MLP)中，得到结合了图像和音频的最终的情感分类结果。这样就得到了一个输入为图像和音频的特征向量，输出为结合图像和音频的情感分类结果的分类器，具体实现方法如下：

将步骤4中获得的VP和AP两个向量拼接并输入到新的多层感知机中，多层感知机将两种模态的数据的共有的情感特征充分捕获，得到最终的分类结果向量MV＝(p₁,p₂,p₃)。模型训练时使用的损失函数如下：

其中，i表示第i个样本，y_k表示第i个样本的MY中的第k维度的值，p_k表示第i个样本的MV中的第k维度的值；

整个过程如图1中信息融合层所示。这样就能得到一个输入为图像和音频的特征向量，输出为结合图像和音频的情感分类结果的分类器。

步骤6，在实际的家庭聚会场景中，通过摄像头和麦克风实时收集人脸和音频数据；

步骤7，提取步骤6中采集到的人脸图像和音频数据的特征，输入到步骤5中获得的分类器中，得到当前家庭成员的情感倾向；

步骤8，判断步骤7中的情感倾向是否为幸福，若为幸福则将此时的人脸照片记录下来，并把此时的语音也记录下来，具体实现方法如下：

从步骤7中可以获取到当前图像和音频的模型分类结果向量MV＝(p₁,p₂,p₃)，若p₁>p₂且p₁>p₃，则将此时的图像记录下来，并且把音频也记录下来。否则丢弃这组图像和音频数据。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种面向影像生成的多模态情感分类方法，其特征在于，包括如下步骤：

步骤5、实时收集人脸图像和音频数据；

2.根据权利要求1所述一种面向影像生成的多模态情感分类方法，其特征在于，步骤6之后还包括步骤7，步骤7、判断步骤6中的情感是否为幸福，若为幸福则将此时的人脸照片记录下来，并将此时的语音也记录下来。

3.根据权利要求1所述一种面向影像生成的多模态情感分类方法，其特征在于，步骤1中：

图像和音频的情感标签分别为：每个图像的情感标签为VY＝(y₁，y₂，y₃)，每个音频的情感标签为AY＝(y₁，y₂，y₃)；然后综合图像和音频的情感标签为MY＝(y₁，y₂，y₃)；其中，y₁表示情感为幸福的标记位，y₂表示情感为无情感的标记位，y₃表示情感为其他情感的标记位。

4.根据权利要求3所述一种面向影像生成的多模态情感分类方法，其特征在于，y₁＝1，y₂＝0，y₃＝0表示幸福，y₁＝0，y₂＝1，y₃＝0表示无情感，y₁＝0，y₂＝0，y₃＝1表示其他情感。

5.根据权利要求1所述一种面向影像生成的多模态情感分类方法，其特征在于，步骤2的具体过程为：

6.根据权利要求1所述一种面向影像生成的多模态情感分类方法，其特征在于，所述步骤3的具体过程为：

步骤31、设图像的特征向量为

步骤32、将V×V′输入到第一多层感知机中得到图像的情感分类概率分布向量VP＝(p₁，p₂，p₃)；其中p₁表示V对应的图像包括的情感被分类为幸福的概率，p₂表示V对应的图像包括的情感被分类为无情感的概率，p₃表示V对应的图像包括的情感被分类为其他情感的概率，并且有p₁+p₂+p₃＝1；

将A×A′输入到第二多层感知机中得到音频的情感分类概率分布向量AP＝(p₁′，p₂′，p₃′)；其中p₁′表示A对应的音频包括的情感被分类为幸福的概率，p₂′表示A对应的音频包括的情感被分类为无情感的概率，p₃′表示A向量对应的音频包括的情感被分类为其他情感的概率，并且有p₁′+p₂′+p₃′＝1。

7.根据权利要求6所述一种面向影像生成的多模态情感分类方法，其特征在于，所述步骤4的具体过程为：

步骤41、将步骤3中的VP和AP两个向量拼接并输入到第三多层感知机中，第三多层感知机将图像和音频这两种模态的数据的共有的情感特征充分捕获，得到最终的分类结果向量MV＝(p″₁，p″₂，p″₃)，其中p″₁表示该图像和音频对应的情感为幸福的概率，p″₂表示该图像和音频对应的情感为无情感的概率，p″₃表示该图像和音频对应的情感为其他情感的概率；

8.根据权利要求1所述面向家庭影像生成的多模态情感分类方法，其特征在于，所述步骤7的具体过程为：