CN113326868A

CN113326868A - 一种用于多模态情感分类的决策层融合方法

Info

Publication number: CN113326868A
Application number: CN202110490342.6A
Authority: CN
Inventors: 卢官明; 马银蓉; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-08-31
Anticipated expiration: 2041-05-06
Also published as: CN113326868B

Abstract

本发明公开了一种用于多模态情感分类的决策层融合方法，该方法包括：将多模态情感数据集中的样本分成训练集和测试集；分别构建各种模态的情感分类模型，使用训练集中对应模态的样本分别对各种模态的情感分类模型进行训练；使用训练好的各种模态的情感分类模型分别对测试集中对应模态的样本进行情感分类，统计分类结果，得到各种模态的情感分类混淆矩阵；使用训练好的各种模态的情感分类模型分别对被测样本的对应模态进行情感分类；利用分类混淆矩阵对被测样本的各种模态的情感分类结果进行决策层融合，得到被测样本的情感类别。本发明充分利用了不同模态信息差异性的先验知识以及模态之间的互补性，可以有效提升多模态情感分类的准确率和鲁棒性。

Description

一种用于多模态情感分类的决策层融合方法

技术领域

本发明涉及模式识别与情感计算技术领域，特别是一种用于多模态情感分类的决策层融合方法。

背景技术

社交媒体是各种产品和用户服务意见的巨大来源，当用户在网络上针对某件商品发表评论时，他会不经意地表现出对这种商品的满意程度，也就是评论过程中表达的情感。对于商家来说，希望尽可能快速地了解用户群体对商品的态度，以便及时调整营销策略或者改进商品质量，从而提高用户对商品的满意程度。

以往对情感分类的研究大多集中在通过单一模态的信息来识别人类情感状态，比如基于语音的情感分类、基于面部表情的情感分类等。由于单一的语音或表情信息所表达的情感信息是不完整的，且容易受到外界各种因素的影响，例如面部表情识别容易受遮挡和光照变化的影响，而基于语音的情感分类容易受环境噪音干扰和不同受试者的声音差异的影响。所以，单模态情感分类存在准确率低、鲁棒性差的缺点。因此，越来越多的研究人员将目光转向基于多模态信息融合的情感分类研究，期望能够利用各种模态信息之间的互补性，来构建鲁棒的情感分类模型，以达到更高的情感分类准确率。

目前，海量社交媒体数据的形态不再局限于单一的文本模态，更多的是融合了文本、语音、短视频的多模态数据。在多种模态数据同时存在的情况下，多模态情感分类在网络营销、电子商务、舆情监控、商品推荐等方面有广阔的应用前景。

如何将不同模态的信息进行有效的融合是多模态情感分类的关键，同时也是多模态情感分类的一大难点。在进行多模态情感分类研究中，比较常用的信息融合策略有特征层融合和决策层融合。特征层融合是指将多种模态的情感特征组合起来，形成一个融合特征向量。特征层融合方法考虑了不同模态特征的互补性，但没有考虑不同模态特征在情感分类中的差异性。决策层融合通常基于各模态单独识别的结果，再依据相关规则，如均值(Mean)规则、求和(Sum)规则、最大值(Max) 规则、少数服从多数的投票表决机制等，做出决策判断，得到最终的识别结果。相比之下，决策层融合方法根据不同模态信息的贡献不同，考虑了不同模态信息的差异性。当然，基于决策层融合的多模态情感分类性能不仅与单模态的情感分类准确率有关，还依赖于决策层融合方法的性能。如何确定不同模态情感分类结果的权值，以体现不同模态在情感分类中的差异性，仍然是面临挑战的开放课题。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种用于多模态情感分类的决策层融合方法，利用各种模态的情感分类混淆矩阵对被测样本的相应模态的情感类别预测概率向量进行加权融合，得到多模态情感类别预测概率向量，可以有效提升多模态情感分类的准确率和鲁棒性。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种用于多模态情感分类的决策层融合方法，包括以下步骤：

步骤(1)、建立包括m种模态的多模态情感数据集，多模态情感数据集中的样本包括第一至第m种模态的样本，将多模态情感数据集中的样本分成训练集和测试集，其中，m为大于1的整数；

步骤(2)、分别构建m个单模态的情感分类模型，采用训练集中第s模态的样本训练第s模态的情感分类模型，s＝1,2…m，得到训练好的第一至第m模态的情感分类模型；

步骤(3)、使用训练好的第s模态的情感分类模型对测试集中第s模态的样本进行情感分类，统计分类结果，得到第s模态的情感分类混淆矩阵C^(s)，即

其中，

代表第i类情感类别的第s模态的样本被第s模态的情感分类模型判决为第j类情感类别的概率，i＝1,2,…,k，j＝1,2,…,k，k为情感类别总数；

步骤(4)、使用训练好的第s模态的情感分类模型对被测样本的第s模态进行情感分类，输出第s模态的情感类别预测概率向量

其中，

表示被测样本第s模态的情感类别为第i类的预测概率，i＝1,2,…,k，上标T表示向量的转置；

步骤(5)、利用步骤(3)得到各类模态的情感分类混淆矩阵，对被测样本的各种模态的情感类别预测概率向量进行加权融合，得到被测样本的情感类别预测相对概率向量，输出最终的情感类别。

作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案，步骤(5)具体的步骤如下：

对第s模态的情感分类混淆矩阵C^(s)主对角线上的元素的数值进行归一化，得到被测样本的第s模态被判决为第i类情感类别的权重系数

对被测样本的第一模态至第m模态的情感类别预测概率向量进行加权融合，得到被测样本的情感类别预测相对概率向量p，即

其中，p_i为第i类情感类别预测相对概率；

比较向量p中每一维度的数值大小，其中数值最大的维度所对应的类别就是被测样本的情感类别。

作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案，在步骤(1)中，按照n-折交叉验证法，将多模态情感数据集中的每一情感类别的样本随机均分成n组，每次将其中1组的所有情感类别的样本构成测试集，剩下的(n-1)组的所有情感类别的样本构成训练集，组成1个{训练集，测试集}组合，重复n次，得到n个不同的{训练集，测试集}组合，其中，n为取值在2～20 之间的正整数。

作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案，在步骤(2)中，每次用其中1个{训练集，测试集}组合中的训练集对各种模态的情感分类模型进行1次训练，其中，第一模态的情感分类模型用训练集中第一模态的样本进行训练，第二模态的情感分类模型用训练集中第二模态的样本进行训练，……，依此类推，第m模态的情感分类模型用训练集中第m模态的样本进行训练；使用n个不同{训练集，测试集}组合中的训练集分别对各种模态的情感分类模型训练n次，得到n个训练好的第一模态的情感分类模型、n个训练好的第二模态的情感分类模型、……、以及n个训练好的第m模态的情感分类模型。

作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案，在步骤(3)中，使用n个训练好的第一模态的情感分类模型分别对相应{训练集，测试集}组合的测试集中第一模态的样本进行情感分类，最后对n次分类结果一起进行统计，得到第一模态的情感分类混淆矩阵C⁽¹⁾；使用n个训练好的第二模态的情感分类模型分别对相应{训练集，测试集}组合的测试集中第二模态的样本进行情感分类，最后对n次分类结果一起进行统计，得到第二模态的情感分类混淆矩阵C⁽²⁾；……，依此类推，使用n个训练好的第m模态的情感分类模型分别对相应{训练集，测试集}组合的测试集中第m模态的样本进行情感分类，最后对n次分类结果一起进行统计，得到第m模态的情感分类混淆矩阵C^(m)。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明在决策层对多种模态的分类结果进行加权融合时，利用各种模态的情感分类混淆矩阵的先验知识来确定加权的权重值，对被测样本的相应模态的情感类别预测概率向量进行加权融合，综合考虑了各种模态对情感分类结果的贡献程度，可以克服采用D-S证据理论判决规则进行融合时因基本概率分配函数的微小变化而导致融合结果截然不同的不稳定性，以及在处理完全冲突或高度冲突证据时产生有悖于常理的结果等问题，能有效提升多模态情感分类的准确率和鲁棒性。

(2)本发明采用融合多种模态的信息进行情感分类，克服了单模态情感分类的局限性；特别是在正话反说、反讽等情境下具有较高的准确率和鲁棒性。

附图说明

图1是本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

在以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。

如图1所示，本发明实施例提供的一种用于多模态情感分类的决策层融合方法，主要包括如下步骤：

(1)建立包含m种模态的多模态情感数据集，将多模态情感数据集中的样本分成训练集和测试集，在本实施例中，令m＝3。

本实施例使用卡耐基梅隆大学的MOSI(Multi-modal Opinion-level SentimentIntensity)数据集，该数据集采集自93个针对不同话题发表评论的短视频，以话语(utterance)为单元将每个短视频分割成若干个语义单元，共包含2199个语义单元，每个语义单元都有一个与之对应的情感类别标签。情感类别标签的取值为-3到 3之间的正整数，其中，-3表示非常消极，-2表示比较消极，-1表示有点消极，0表示中性，1表示有点积极，2表示比较积极，3表示非常积极。在本实施例中，将标签为-3和-2的语义单元的情感类别标注为消极，将标签为-1、0和1 的语义单元的情感类别标注为中性，将标签为2和3的语义单元的情感类别标注为积极，即令情感类别总数k＝3，第1类情感类别为消极,第2类情感类别为中性,第 3类情感类别为积极。然后，按照n-折(n-fold)交叉验证法，在本实施例中，令n＝5，将2199个语义单元中的每一情感类别的样本随机均分成5组，每次将其中1组的所有情感类别的样本构成测试集，剩下的4组的所有情感类别的样本构成训练集，组成1个{训练集，测试集}组合，其中，训练集包含1760个语义单元，具体包含500个情感类别为消极的语义单元、684个情感类别为中性的语义单元和576个情感类别为积极的语义单元；测试集包含439个语义单元，具体包含125个情感类别为消极的语义单元、171个情感类别为中性的语义单元和143个情感类别为积极的语义单元。重复5次，得到5个不同的{训练集，测试集}组合。

我们将每个语义单元作为一个视频样本，并分别使用ffmpy3和SpeechRecognition工具库从这些语义单元中生成对应的语音样本和文本样本。在本实施例中，第一模态对应语音模态，第二模态对应面部表情模态，第三模态对应文本模态。

(2)构建语音情感分类模型，使用训练集中的语音样本对语音情感分类模型进行训练，得到训练好的语音情感分类模型；构建表情情感分类模型，使用训练集中的视频样本对表情情感分类模型进行训练，得到训练好的表情情感分类模型；构建文本情感分类模型，使用训练集中的文本样本对文本情感分类模型进行训练，得到训练好的文本情感分类模型，具体过程包括以下子步骤：

(2.1)构建一种基于长短期记忆(Long Short-Term Memory，LSTM)网络和卷积神经网络(Convolutional Neural Networks，CNN)的语音情感分类模型，用训练集中的语音样本对语音情感分类模型进行训练，得到训练好的语音情感分类模型。首先，对语音样本进行预加重、分帧、加窗等预处理，帧长取25ms，帧移设置为 15ms；然后，对预处理之后的各帧语音信号提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)序列，并将之作为LSTM网络的输入，通过LSTM网络提取语音信号的长时域上下文特征；之后，将LSTM网络的各个输出单元的输出向量依次推叠起来，形成一个二维信号，经归一化后输入到CNN，利用CNN提取更抽象的情感特征向量；最后，采用softmax分类器对情感特征向量进行分类，实现语音情感分类。

在对语音情感分类模型进行训练时，每次用其中1个{训练集，测试集}组合的训练集中的语音样本训练1次，得到1个训练好的语音情感分类模型。依次使用 5个不同{训练集，测试集}组合中的训练集对语音情感分类模型训练5次，得到 5个训练好的语音情感分类模型。

(2.2)构建一种基于卷积神经网络(CNN)和长短期记忆(LSTM)网络的表情情感分类模型，用训练集中的视频样本对表情情感分类模型进行训练，得到训练好的表情情感分类模型。首先对视频样本以每隔2帧截取1帧的方式进行帧采样操作，截取32帧图像，如果截取的帧数不足32帧，则采取“复制拷贝”方式补足32帧；然后，将截取的每帧图像大小调整为224×224像素，并使用在ImageNet上预训练好的VGG-16基础网络进行特征提取，从VGG-16的最后一个全连接层输出512维的静态表情特征向量；之后，将每帧图像的静态表情特征向量输入到LSTM中，进一步处理时间域的特征，提取动态表情特征向量；最后，采用softmax分类器对动态表情特征向量进行分类，实现表情情感分类。

在对表情情感分类模型进行训练时，每次用其中1个{训练集，测试集}组合的训练集中的视频样本训练1次，得到1个训练好的表情情感分类模型。依次使用 5个不同{训练集，测试集}组合中的训练集对表情情感分类模型训练5次，得到 5个训练好的表情情感分类模型。

(2.3)构建一种融合注意力机制的双向LSTM网络的文本情感分类模型，用训练集中的文本样本对文本情感分类模型进行训练，得到训练好的文本情感分类模型。首先对文本样本进行截长补短操作，对超过16个单词的文本样本进行截断，少于 16个单词的样本添加特殊字符[defa]，使得文本样本的长度统一为16个单词；然后使用Google开源的预训练BERT模型提取768维的句子向量；之后，将提取的768 维句子向量输入一种融合注意力机制的双向LSTM(Bi-LSTM)网络进行学习，提取文本信息的情感特征向量；最后，采用softmax分类器对情感特征向量进行分类，实现文本情感分类。

在对文本情感分类模型进行训练时，每次用其中1个{训练集，测试集}组合的训练集中的文本样本训练1次，得到1个训练好的文本情感分类模型。依次使用 5个不同{训练集，测试集}组合中的训练集对文本情感分类模型训练5次，得到 5个训练好的文本情感分类模型。

(3)使用5个训练好的语音情感分类模型分别对相应{训练集，测试集}组合的测试集中语音样本进行情感分类，最后对5次分类结果一起进行统计，得到语音情感分类混淆矩阵C⁽¹⁾，即

其中，

代表第i类情感类别的语音样本被语音情感分类模型判决为第j类情感类别的概率，i＝1,2,3，j＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极；

使用5个训练好的表情情感分类模型分别对相应{训练集，测试集}组合的测试集中视频样本进行情感分类，最后对5次分类结果一起进行统计，得到表情情感分类混淆矩阵C⁽²⁾，即

其中，

代表第i类情感类别的视频样本被表情情感分类模型判决为第j类情感类别的概率，i＝1,2,3，j＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极；

使用5个训练好的文本情感分类模型分别对相应{训练集，测试集}组合的测试集中文本样本进行情感分类，最后对5次分类结果一起进行统计，得到文本情感分类混淆矩阵C⁽³⁾，即

其中，

代表第i类情感类别的文本样本被文本情感分类模型判决为第j类情感类别的概率，i＝1,2,3，j＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。

(4)使用训练好的语音情感分类模型对被测样本的语音模态进行情感分类，输出语音情感类别预测概率向量

其中，

表示被测样本语音模态的情感类别为第i类的预测概率，i＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极，上标T表示向量的转置；

使用训练好的表情情感分类模型对被测样本的表情模态进行情感分类，输出表情情感类别预测概率向量

其中，

表示被测样本表情模态的情感类别为第i类的预测概率，i＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极；

使用训练好的文本情感分类模型对被测样本的文本模态进行情感分类，输出文本情感类别预测概率向量

其中，

表示被测样本文本模态的情感类别为第i类的预测概率，i＝1,2,3，第1类情感类别为消极,第2类情感类别为中性,第3类情感类别为积极。

(5)利用情感分类混淆矩阵的先验知识对被测样本的各种模态的情感类别预测概率向量进行加权融合，得到被测样本的情感类别预测相对概率向量，输出最终的情感类别，具体的步骤如下：

对语音情感分类混淆矩阵C⁽¹⁾主对角线上的元素的数值进行归一化，代入

得到

对表情情感分类混淆矩阵C⁽²⁾主对角线上的元素的数值进行归一化，代入

得到

对文本情感分类混淆矩阵C⁽³⁾主对角线上的元素的数值进行归一化，代入

得到

对被测样本的语音情感类别预测概率向量、表情情感类别预测概率向量、文本情感类别预测概率向量进行加权融合，得到被测样本的情感类别预测相对概率向量 p，即

比较向量p中每一维度的数值大小，其中数值最大的维度所对应的类别就是被测样本的情感类别。在本实施例中，第1类情感类别预测相对概率p₁＝0.58，p₁的数值最大，所以，判决被测样本的情感类别为消极。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种用于多模态情感分类的决策层融合方法，其特征在于，包括以下步骤：

其中，

其中，

2.根据权利要求1所述的一种用于多模态情感分类的决策层融合方法，其特征在于，步骤(5)具体的步骤如下：

其中，p_i为第i类情感类别预测相对概率；

3.根据权利要求1所述的一种用于多模态情感分类的决策层融合方法，其特征在于，在步骤(1)中，按照n-折交叉验证法，将多模态情感数据集中的每一情感类别的样本随机均分成n组，每次将其中1组的所有情感类别的样本构成测试集，剩下的(n-1)组的所有情感类别的样本构成训练集，组成1个{训练集，测试集}组合，重复n次，得到n个不同的{训练集，测试集}组合，其中，n为取值在2～20之间的正整数。

4.根据权利要求3所述的一种用于多模态情感分类的决策层融合方法，其特征在于，在步骤(2)中，每次用其中1个{训练集，测试集}组合中的训练集对各种模态的情感分类模型进行1次训练，其中，第一模态的情感分类模型用训练集中第一模态的样本进行训练，第二模态的情感分类模型用训练集中第二模态的样本进行训练，……，依此类推，第m模态的情感分类模型用训练集中第m模态的样本进行训练；使用n个不同{训练集，测试集}组合中的训练集分别对各种模态的情感分类模型训练n次，得到n个训练好的第一模态的情感分类模型、n个训练好的第二模态的情感分类模型、……、以及n个训练好的第m模态的情感分类模型。

5.根据权利要求4所述的一种用于多模态情感分类的决策层融合方法，其特征在于，在步骤(3)中，使用n个训练好的第一模态的情感分类模型分别对相应{训练集，测试集}组合的测试集中第一模态的样本进行情感分类，最后对n次分类结果一起进行统计，得到第一模态的情感分类混淆矩阵C⁽¹⁾；使用n个训练好的第二模态的情感分类模型分别对相应{训练集，测试集}组合的测试集中第二模态的样本进行情感分类，最后对n次分类结果一起进行统计，得到第二模态的情感分类混淆矩阵C⁽²⁾；……，依此类推，使用n个训练好的第m模态的情感分类模型分别对相应{训练集，测试集}组合的测试集中第m模态的样本进行情感分类，最后对n次分类结果一起进行统计，得到第m模态的情感分类混淆矩阵C^(m)。