CN113255755A

CN113255755A - 一种基于异质融合网络的多模态情感分类方法

Info

Publication number: CN113255755A
Application number: CN202110538947.8A
Authority: CN
Inventors: 张春霞; 高佳萌; 彭成; 赵嘉旌; 薛晓军; 牛振东
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-13
Anticipated expiration: 2041-05-18
Also published as: CN113255755B

Abstract

本发明公开了一种基于异质融合网络的多模态情感分类方法，属于意见挖掘和情感分析技术领域。包括：1)视频数据预处理；2)构建文本特征向量和识别文本情感类别；3)构建图片特征向量和识别图片情感类别；4)构建音频特征向量和识别音频情感类别；5)构建多模态全局特征向量与识别多模态全局情感类别；6)构建多模态局部特征向量与识别多模态局部情感类别；7)采用投票策略获得最终的情感分类结果。异质融合网络采用了模态内融合和模态间融合两种融合形式，宏观和微观两种融合角度，以及特征层融合和决策层融合两种融合策略。所述方法能深度挖掘多模态数据之间隐含的关联信息，实现多模态数据之间的相互补充和融合，从而提高多模态情感分类的准确率。

Description

一种基于异质融合网络的多模态情感分类方法

技术领域

本发明涉及一种基于异质融合网络的多模态情感分类方法，属于意见挖掘和情感分析技术领域。

背景技术

多模态情感分类是社会计算和大数据挖掘领域的重要研究课题。多模态情感分类是指根据网络用户评论的文本、图片和视频等多种模态数据识别网络用户的情感极性。情感极性包括消极和非消极两种类别。

多模态情感分类方法包括基于特征层融合的多模态情感分类方法和基于决策层融合的多模态情感分类方法。

基于特征层融合的多模态情感分类方法，首先构建各种模态数据的特征向量，然后融合单种模态数据的特征向量进行情感分类。例如，一种基于注意力机制的长短期记忆网络模型进行多模态情感分类。首先，提取文本、音频和视觉单种模态数据的特征；其次，利用注意力机制融合文本、音频和视频特征；最后，利用基于注意力机制的长短期记忆网络模型进行情感分类。再如，一种基于模态共同表示和模态特殊表示的多模态情感分类方法。首先，学习文本、音频和视觉三种模态数据的模态共同表示和模态特殊表示，其中模态共同表示用于学习各种模态数据的共同特征，将所有模态数据映射到一个子空间，减少各种模态表示之间的差距；模态特殊表示用于学习各种模态数据的独有特征。然后，融合模态共同表示和模态特殊表示，并利用Transformer进行多模态情感分类。

基于决策层融合的多模态情感分类方法，首先获取单种模态数据的分类结果，然后利用投票、加权求和等方法，获得多模态数据的情感分类结果。例如，针对图片和音频两种模态数据进行多模态情感分类。首先，提取图片特征和识别情感类别，并提取音频特征和识别情感类别；然后，采用加权求和的方法预测情感类别。再如，一种基于树形决策融合策略的多模态情感分类方法。首先，提取图片特征进行情感分类，并获得情感得分。然后，提取音频特征进行情感分类，并获得情感得分。最后，融合图片特征及其情感得分与音频特征及其情感得分，采用树形决策融合策略进行多模态情感分类。

现有的多模态情感分类方法主要存在如下问题：第一，目前多模态情感分类方法主要采用端到端的学习方式，直接对文本、图片等多模态数据进行编码，然后在特征层融合各种模态数据的特征向量，或在决策层融合各种模态数据的情感分类结果。这些方法难以挖掘各种模态数据内部的不同粒度特征。第二，多模态情感分类方法中多模态数据的融合方法单一，难以挖掘多模态数据隐含的关联特征，导致多模态情感分类的准确率不高。

发明内容

本发明的目的是为了解决现有多模态情感分类方法存在融合方法单一、难以挖掘多模态数据隐含的关联特征，导致多模态情感分类准确率不高的问题，提供一种基于异质融合网络的多模态情感分类方法，该方法从网络用户发布的视频中提取文本、图片、音频三种模态数据，利用基于深度学习的异质融合网络模型，分别识别文本、图片、音频以及整体视频的情感类别。

为了达到上述目的，本发明采取如下技术方案。

所述基于异质融合网络的多模态情感分类方法依托于异质融合网络模型；该异质融合网络模型包括三层融合层：

(1)第一融合层为单模态数据的特征融合层，包括文本特征构建模型、图片特征构建模型和音频特征构建模型；

(2)第二融合层为多模态数据的特征融合层，包括子层1多模态全局特征构建模型、子层2多模态局部特征构建模型；

(3)第三融合层是多模态数据的决策融合层；

总之，异质融合网络模型采用了单种模态的模态内融合和多种模态的模态间融合两种融合形式、宏观和微观两种融合角度以及特征层融合和决策层融合两种融合策略；

所述基于异质融合网络的多模态情感分类方法，包括以下步骤：

步骤1：视频数据预处理，输出文本、图片、音频三种模态的数据，即从视频中提取文本、图片、音频三种模态的数据；

其中，视频数据包括完整视频和视频片段，且完整视频的数量为多个，每个完整视频中又包括多个视频片段；

其中，文本为视频中人物所说的内容，包括完整视频的文本内容及每个视频片段的文本内容；图片为视频的画面，包括完整视频的图片内容及每个视频片段的图片内容；音频为视频的声音，包括完整视频的音频内容及每个视频片段的音频内容；

步骤2：构建文本特征向量和识别文本情感类别；

其中，文本特征向量包括片段级文本句向量、语境文本句向量、细粒度文本情感词向量、文本粗粒度特征向量及文本集成特征向量；

步骤2、具体包括如下子步骤：

步骤2.1：基于步骤1中视频中提取的文本，构建片段级文本句向量、语境文本句向量和文本细粒度特征向量；

步骤2.1A：构建片段级文本句向量，具体为：

将每个视频片段的文本内容采用文本预训练模型BERT，进行片段级文本句向量的构建；

步骤2.1B：构建语境文本句向量，具体为：利用文本预训练模型BERT将每个完整视频的文本内容转换成句向量，进行语境文本句向量的构建；

步骤2.1C：构建文本细粒度特征向量，即从每个视频片段的文本中提取情感词并转换为向量，具体为：

步骤2.1C1、从情感词典中提取情感强烈的情感词语及其情感分值；

其中，情感强烈的情感词语是指其情感分值不低于0.5的情感词语；

步骤2.1C2、对于文本T，搜索情感强烈词语词典中的词语是否在文本T中出现；

步骤2.1C3、设文本T包含情感强烈词语词典中的词语w₁,w₂,...,w_n，词语w₁,w₂,...,w_n的情感分值为sp₁,sn₁,sp₂,sn₂,..,sp_n,sn_n，则构建文本T的文本细粒度特征向量为(sp₁,sn₁,sp₂,sn₂,..,sp_n,sn_n)；

其中，n为文本T中包含情感强烈词语的个数，sp_i表示词语w_i的积极分值，sn_i表示词语w_i的消极分值；

步骤2.2：利用语境文本句向量和片段级文本句向量计算文本语境注意力权重，基于该文本语境注意力权重构建文本粗粒度特征向量，具体过程如下：

步骤2.2.1拼接语境文本句向量和片段级文本句向量，输入到全连接神经网络1中，计算文本语境注意力权重；

步骤2.2.2将文本语境注意力权重与片段级文本句向量相乘，并输入到全连接神经网络2中，生成文本粗粒度特征向量；

步骤2.3：将文本粗粒度特征向量和文本细粒度特征向量进行融合，构建文本集成特征向量，具体包括如下子步骤：

步骤2.3.1将文本细粒度特征向量(sp₁,sn₁,sp₂,sn₂,..,sp_n,sn_n)输入到长短期记忆网络，获取每个时刻隐含层输出；

其中，长短期记忆网络中的长短期记忆，即Long Short Term Memory，简称LSTM；

步骤2.3.2将每个时刻隐含层输出拼接得到词向量，再将文本粗粒度特征向量与词向量拼接，输入到全连接神经网络3，生成文本集成特征向量；

步骤2.4：基于构建的文本集成特征向量，识别文本情感类别，具体为：将文本集成特征向量输入到全连接神经网络4，进行softmax操作，获得文本情感分类概率，取概率值最大的类别作为文本情感类别；

步骤3：构建图片特征向量和识别图片情感类别；

其中，图片特征向量包括片段级图片序列特征向量、语境图片序列特征向量、图片细粒度特征向量、图片粗粒度特征向量以及图片集成特征向量；

步骤3、具体包括如下子步骤：

步骤3.1：基于步骤1中视频中提取的图片，构建片段级图片序列特征向量、语境图片序列特征向量和图片细粒度特征向量，具体包括如下子步骤：

步骤3.1A：构建片段级图片序列特征向量，具体为：将每个视频片段的图片利用预训练3D卷积神经网络模型构建片段级图片序列特征向量；

其中，3D卷积神经网络模型，即3D-CNN；

步骤3.1B：构建语境图片序列特征向量，具体为：将每个完整视频的图片利用预训练3D卷积神经网络模型构建语境图片序列特征向量；

步骤3.1C：构建图片细粒度特征向量，具体为：利用Facet工具提取每个视频片段的图片中的人脸转换为向量，构建图片细粒度特征向量；

步骤3.2：利用语境图片序列特征向量和片段级图片序列特征向量计算图片语境注意力权重，基于该图片语境注意力权重构建图片粗粒度特征向量，具体过程如下：

步骤3.2.1：拼接语境图片序列特征向量和片段级图片序列特征向量，输入到全连接神经网络5中，计算图片语境注意力权重；

步骤3.2.2：将图片语境注意力权重与片段级图片序列特征向量相乘，并输入到全连接神经网络6中，生成图片粗粒度特征向量；

步骤3.3：将图片粗粒度特征向量和图片细粒度特征向量进行融合，构建图片集成特征向量，具体包括如下子步骤：

步骤3.3.1：将图片粗粒度特征向量与图片细粒度特征向量分别输入到两个图片粗粒度注意力计算网络和图片细粒度注意力计算网络，生成图片粗粒度注意力计算网络输出向量和图片细粒度注意力计算网络输出向量，再对生成的图片粗粒度注意力计算网络输出向量和图片细粒度注意力计算网络输出向量做softmax操作，得到图片粗粒度注意力权重和图片细粒度注意力权重；

步骤3.3.2：将图片粗粒度注意力权重与图片粗粒度特征向量相乘，图片细粒度注意力权重与图片细粒度特征向量相乘，乘积结果求和后输入到全连接神经网络7，生成图片集成特征向量；

步骤3.4：基于构建的图片集成特征向量，识别图片情感类别，具体为：将图片集成特征向量输入到全连接神经网络8，做softmax操作后取图片情感分类概率值最大的类别作为图片情感类别；

步骤4：构建音频特征向量和识别音频情感类别；

其中，音频特征向量包括片段级音频静态特征向量、语境音频静态特征向量、音频细粒度特征向量、音频粗粒度特征向量以及音频集成特征向量；

步骤4、具体包括如下子步骤：

步骤4.1基于步骤1中视频中提取的音频，构建片段级音频静态特征向量、语境音频静态特征向量和音频细粒度特征向量；

步骤4.1A：构建片段级音频静态特征向量，具体为：将每个视频片段的音频利用音频分析处理工具COVAREP构建音频静态特征向量；

静态特征包括频率对数系数、音调、浊音/清音分隔特征以及声门声源参数；

音频分析处理工具COVAREP来自文献《COVAREP-A Collaborative VoiceAnalysis Repository for Speech Technologies》(IEEE International Conference onAcoustics,Speech and Signal Processing，2014)；

步骤4.1B：构建语境音频静态特征向量，具体为：将每个完整视频的音频利用音频分析处理工具COVAREP构建语境音频静态特征向量；

步骤4.1C：构建音频细粒度特征向量，具体为：

利用OpenSmile工具对视频片段的音频提取情感相关特征，构建音频细粒度特征向量，OpenSmile工具来源于文献《Opensmile》(Acm Sigmultimedia Records,2015)；

步骤4.2：利用语境音频静态特征和片段级音频静态特征计算音频语境注意力权重，利用该音频语境注意力权重构建音频粗粒度特征向量，具体过程如下：

步骤4.2.1拼接语境音频静态特征向量和片段级音频静态特征向量，输入到全连接神经网络9中，计算音频语境注意力权重；

步骤4.2.2将音频语境注意力权重与片段级音频静态特征向量相乘，并输入到全连接神经网络10中，生成音频粗粒度特征向量；

步骤4.3：将音频粗粒度特征向量和音频细粒度特征向量进行融合，构建音频集成特征向量，具体包括如下子步骤：

步骤4.3.1将音频粗粒度特征向量与音频细粒度特征向量分别输入到音频粗粒度注意力计算网络和音频细粒度注意力计算网络，生成音频粗粒度注意力计算网络输出向量和音频细粒度注意力计算网络输出向量，进行softmax操作得到音频粗粒度注意力权重和音频细粒度注意力权重；

步骤4.3.2将音频粗粒度注意力权重与音频粗粒度特征向量相乘，音频细粒度注意力权重与音频细粒度特征向量相乘，乘积结果求和后输入到全连接神经网络11，生成音频集成特征向量；

步骤4.4基于构建的音频集成特征向量，识别音频的情感类别，具体为：将音频集成特征向量输入到全连接神经网络12，并做softmax操作，获得音频情感分类概率，取概率值最大的类别作为音频情感类别；

步骤5：构建多模态全局特征向量与识别多模态全局情感类别，具体包括如下子步骤：

步骤5.1：利用广义线性池化模型融合文本、图片、音频粗粒度特征向量，构建多模态全局特征向量，具体包括如下子步骤：

步骤5.1.1：构建文本映射向量、图片映射向量和音频映射向量，具体为：

将文本粗粒度特征向量、图片粗粒度特征向量、音频粗粒度特征向量分别输入到文本映射网络、图片映射网络和音频映射网络，通过线性映射，分别生成文本映射向量，图片映射向量和音频映射向量；

步骤5.1.2：对文本映射向量、图片映射向量和音频映射向量进行完全交叉式融合，得到映射融合向量，具体过程如下：

步骤5.1.2A：将文本、图片、音频映射向量同时点乘，再两两组合点乘，生成四个中间向量z₁、z₂、z₃、z₄；

步骤5.1.2B：将四个中间向量z₁、z₂、z₃、z₄分别输入到z₁、z₂、z₃、z₄注意力计算网络中，生成z₁、z₂、z₃、z₄注意力计算网络输出向量，并做softmax操作，分别得到z₁、z₂、z₃、z₄注意力权重；

步骤5.1.2C：将四个中间向量z₁、z₂、z₃、z₄分别与z₁、z₂、z₃、z₄注意力权重点乘后求和，得到映射融合向量；

步骤5.1.3对映射融合向量进行求和池化，并输入到多层感知机中，生成多模态全局特征向量；

步骤5.2：基于构建的多模态全局特征向量，识别多模态全局情感类别，具体为：

将多模态全局特征向量输入到全连接神经网络13，并进行softmax操作，生成多模态全局情感分类概率，取概率值最大的类别作为多模态全局情感类别；

步骤6：构建多模态局部特征向量与识别多模态局部情感类别，具体包括如下子步骤：

步骤6.1：融合文本、图片、音频集成特征向量和多模态全局特征向量，构建多模态局部特征向量，具体为：

步骤6.1.1：将文本集成特征向量、图片集成特征向量、音频集成特征向量和多模态全局特征向量分别输入到文本、图片、音频、多模态全局注意力计算网络中，分别输出文本、图片、音频、多模态全局注意力计算网络输出向量，对其进行softmax操作，得到文本注意力权重、图片注意力权重、音频注意力权重和多模态全局注意力权重；

步骤6.1.2：将文本集成特征向量、图片集成特征向量、音频集成特征向量和多模态全局特征向量分别与文本注意力权重、图片注意力权重、音频注意力权重和多模态全局注意力权重点乘后求和，生成多模态局部特征向量；

步骤6.2：基于构建的多模态局部特征向量，识别多模态局部情感类别，具体为：

将多模态局部特征向量输入到全连接神经网络14，并进行softmax操作，生成多模态局部情感分类概率，取概率值最大的类别作为多模态局部情感类别；

步骤7：采用投票的方式，对步骤2获得的文本情感类别、步骤3获得的图片情感类别、步骤4获得的音频情感类别、步骤5获得的多模态全局情感类别、步骤6获得的多模态局部情感类别进行分类，获得最终情感类别。

有益效果

本发明针对多模态情感分类问题，提出了一种基于异质融合网络的多模态情感分类方法，与现有技术相比，具有如下有益效果：

1.所述方法与基于端到端的多模态情感分类方法相比，所述方法能深度挖掘多模态数据之间隐含的关联信息，实现多模态数据之间的相互补充和融合；

2.异质融合网络分别从宏观角度和微观角度进行多模态数据的融合。从宏观角度，通过多模态全局特征构建模型，融合文本粗粒度特征向量、图片粗粒度特征向量、音频粗粒度特征向量，构建多模态全局特征向量，从而实现对多模态数据的全局和宏观特征建模，从微观角度，通过多模态局部特征构建模型，在多模态全局特征向量的基础上，再融合文本集成特征向量、图片集成特征向量、音频集成特征向量，构建多模态局部特征向量，从而实现对多模态数据的局部和微观特征建模，通过从宏观角度构建的多模态全局特征向量，从微观角度构建的多模态局部特征向量，能够充分挖掘文本、图片和音频的全局式的粗粒度特征和局部式的细粒度特征，进而提高多模态数据情感分类的准确率；

3.本发明提出基于文本语境注意力权重构建文本粗粒度特征向量，基于图片语境注意力权重构建图片粗粒度特征向量，以及基于音频语境注意力权重构建音频粗粒度特征向量，引入各个模态的语境注意力权重，有助于学习文本、图片和音频的上下文语境信息，同时过滤掉与情感无关的特征(比如人物的长相、音色)，捕捉与情感紧密相关的特征(比如人物的表情、说话的语气)；

4.所述方法提出广义线性池化模型，对现有的双线性池化模型(MultimodalFactorized Bilnear Pooling，简称MFB)进行改进和推广，双线性池化模型MFB主要用于融合两种模态数据，所述方法提出的广义线性池化模型能够融合三种模态数据，且引入了完全交叉式融合，挖掘各个模态之间的映射和互补关系，同时利用注意力机制提取与情感极性相关的重要特征，广义线性池化模型能够实现多模态数据的充分融合，挖掘模态数据间的交互关系，从而提高多模态数据情感分类的准确率。

附图说明

图1为本发明一种基于异质融合网络的多模态情感分类方法及实施例的流程示意图。

具体实施方式

基于本发明方法的多模态情感分类系统以Jupyter notebook为开发工具，Python为开发语言。下面结合实施例对本发明一种基于异质融合网络的多模态情感分类方法的优选实施方式进行详细说明。

实施例1

本实施例叙述了采用本发明所述的一种基于异质融合网络的多模态情感分类方法的流程，如图1所示。输入数据来自于视频情感分类数据集CMU-MOSI，该数据集的情感类标签用{-3,-2,-1,0,1,2,3}中的元素表示，共有7种，其中-3,-2和-1表示消极，0,1,2和3表示非消极。输入数据包括完整视频和视频片段，均提取为文本、图片、音频三种模态数据。

其一，提出一种基于深度学习的异质融合网络模型，该异质融合网络模型采用不同形式、不同策略、从不同角度实现数据的融合，具体地，采用单种模态数据内融合和多种模态数据间融合的两种融合形式，利用特征层融合和决策层融合的两种融合策略，以及从宏观角度构建的多模态全局特征向量和从微观角度构建的多模态局部特征向量的两种融合角度；

其二，异质融合网络第一层为单模态数据的特征层融合：针对文本、图片、音频模态数据，分别构建片段特征向量、语境特征向量和细粒度特征向量；进一步基于语境注意力权重构建文本粗粒度特征向量、图片粗粒度特征向量和音频粗粒度特征向量，并分别融合文本、图片、音频的粗粒度特征向量与细粒度特征向量，构建文本集成特征向量、图片集成特征向量和音频集成特征向量，进行文本、图片和音频单种模态数据的情感分类(对应步骤2、3、4)；

其三，异质融合网络第二层为多模态数据的特征层融合，第二层包括子层1多模态全局特征构建模型和子层2多模态局部特征构建模型；

子层1多模态全局特征构建模型从宏观角度进行多模态数据融合，并对双线性池化进行改进和推广，提出广义线性池化模型，引入完全交叉式融合，融合文本、图片、音频三种模态数据的粗粒度特征向量，构建多模态全局特征向量并进行情感分类(对应步骤5)；

子层2多模态局部特征构建模型从微观角度进行多模态数据融合，融合文本、图片、音频的集成特征向量与多模态全局特征向量，构建多模态局部特征向量并进行情感分类(对应步骤6)；

其四，异质融合网络第三层为多模态数据的决策层融合，将五个情感分类结果即文本情感类别、图片情感类别、音频类别、多模态类别以及多模态局部特征类别进行投票，获得最终情感类别，从而实现两种多模态融合机制即特征层融合和决策层融合的有机集成(对应步骤7)。

从图1可以看出，具体包括如下步骤：

步骤1：视频数据预处理，输出文本、图片、音频三种模态的数据；

下载CMU-MOSI数据集提供的视频片段和完整视频的文本、图片、音频数据，如图1所示，完整视频的文本内容为“So tonight I went and saw the movie Crazy stupidlove...I actually really love this movie...it was a really good movie reallygood soundtrack...”，视频片段的文本内容为“I actually really love this movie”；

步骤2：构建文本特征向量和识别文本情感类别，该步骤属于异质融合网络模型的第一融合层(单模态数据的特征融合层)中的文本特征构建模型；

其中，文本特征向量包括片段级文本句向量、语境文本句向量、细粒度文本情感词向量、文本粗粒度特征向量以及文本集成特征向量；

步骤2、具体包括如下子步骤：

步骤2.1A：构建片段级文本句向量，具体为：

将视频片段文本内容“I actually really love this movie.”利用文本预训练模型BERT，构建语境文本句向量V_{sent_f}，维度为1024；

步骤2.1B：构建语境文本句向量，具体为：

将完整视频的文本内容“So tonight I went and saw the movie Crazy stupidlove...I actually really love this movie...it was a really good movie reallygood soundtrack...”利用文本预训练模型BERT，构建语境文本句向量V_{sent_c}，维度为1024；

从情感词典SentiWordNet中提取情感较为强烈的情感词语及其情感分值，构建情感强烈词语词典。情感词典SentiWordNet来源于文献“《SentiWordNet 3.0:An EnhancedLexical Resource for Sentiment Analysis and Opinion Mining》(languageresources and evaluation,2010)”；

对于句子“I actually really love this movie”，中提取情感词“really”和“love”，情感词“really”的积极情感得分为0.625，消极情感得分为0，情感词“love”的积极情感得分为1，消极情感得分为0，构建文本细粒度特征向量V_tff＝(0.625,0,1,0)；

步骤2.2.1拼接语境文本句向量V_{sent_c}和片段级文本句向量V_{sent_f}，输入到全连接神经网络1中，计算文本语境注意力权重a_t，如公式(1)所示：

a_t＝Tanh(W₁[V_{sent_c},V_{sent_f}]+b₁) (1)

其中，Tanh是激活函数，W₁是全连接神经网络1的结点权重，b₁是全连接神经网络1的阈值，文本语境注意力权重a_t的维度为512；

步骤2.2.2将文本语境注意力权重a_t与片段级文本句向量V_{sent_f}相乘，并输入到全连接神经网络2中，生成文本粗粒度特征向量V_tcf，如公式(2)所示：

V_tcf＝Tanh(W₂[a_tV_{sent_f}]+b₂) (2)

其中，W₂是全连接神经网络2的权重，b₂是全连接神经网络2的阈值，文本粗粒度特征向量V_tcf的维度为256；

步骤2.3：将文本粗粒度特征向量和文本细粒度特征向量进行融合，构建文本集成特征向量，该步骤针对文本，采用了单种模态的模态内融合形式，并采用了特征层融合策略。具体包括如下子步骤：

步骤2.3.1将文本细粒度特征向量V_iff(0.625,0,1,0)输入到长短期记忆网络(Long short term memory，简称LSTM)，获取每个时刻隐含层输出h_t，如公式(3)所示：

h_t＝LSTM(sp_t,sn_t),t∈[1,n] (3)

其中，n表示情感词个数，t表示时刻，长短期记忆网络的隐含层结点数为4，最大步长为25；

步骤2.3.2将每个时刻隐含层输出h_t拼接，获得词向量V_word，其维度为100，然后，将文本粗粒度特征向量V_tcf与词向量V_word拼接，输入到全连接神经网络3，生成文本集成特征向量V_tf，如公式(4)所示：

V_tf＝Tanh(W₃[V_tcf,V_word]+b₃) (4)

其中，Tanh是激活函数，W₃是全连接神经网络3的权重，b₃是全连接神经网络3的阈值，文本集成特征向量V_tf的维度为256；

步骤2.4：基于构建的文本集成特征向量，识别文本的情感类别，具体为：将文本集成特征向量V_tf输入到全连接神经网络4，获得文本情感分类概率P_tf，如公式(5)所示：

P_tf＝sotfmax(W₄V_tf+b₄) (5)

其中，softmax是激活函数，W₄和b₄分别为全连接神经网络4的权重和阈值，文本情感分类概率P_tf的维度为7，即七种情感得分{-3,-2,-1,0,1,2,3}的概率；

取概率值最大的得分作为预测得分，并根据预测得分划分消极、非消极类别，得到文本情感类别C_tf，该示例文本情感类别为非消极；

步骤3：构建图片特征向量和识别图片情感类别，该步骤属于异质融合网络模型的第一融合层(单模态数据的特征融合层)中的图片特征构建模型；

步骤3、具体包括如下子步骤：

步骤3.1：基于步骤1中视频中提取的图片，构建片段级图片序列特征向量、语境图片序列特征向量和图片细粒度特征向量；

步骤3.1A：构建片段级图片序列特征向量，具体为：将每个视频片段的图片利用3D卷积神经网络模型提取片段图片序列特征向量V_{seq_f}，维度为2048；

步骤3.1B：构建语境图片序列特征向量，具体为：使用3D卷积神经网络模型模型将每个完整视频的图片转换为语境图片序列特征向量V_{seq_c}，维度为2048；

步骤3.1C：构建图片细粒度特征向量，具体为：利用Facet工具提取每个视频片段的图片中的人脸，转换为向量，构建图片细粒度特征向量V_iff，维度为74；

步骤3.2.1：拼接语境图片序列特征向量V_{seq_c}和片段级图片序列特征向量V_{seq_f}，输入到全连接神经网络5中，计算图片语境注意力权重a_i，如公式(6)所示：

a_i＝Tanh(W₅[V_{seq_c},V_{seq_f}]+b₅) (6)

其中，Tanh是激活函数，W₅是全连接神经网络5的权重，b₅是全连接神经网络5的阈值，图片语境注意力权重a_i的维度为1024；

步骤3.2.2：将图片语境注意力权重a_i与片段级图片序列特征向量V_{seq_f}相乘，并输入到全连接神经网络6中，生成图片粗粒度特征向量V_icf，如公式(7)所示：

V_icf＝Tanh(W₆[a_iV_{seq_f}]+b₆) (7)

其中，W₆是全连接神经网络6的权重，b₆是全连接神经网络6的阈值，图片粗粒度特征向量V_icf的维度为256；

步骤3.3：将图片粗粒度特征向量和图片细粒度特征向量进行融合，构建图片集成特征向量，该步骤针对图片，采用了单种模态的模态内融合形式，并采用了特征层融合策略。具体包括如下子步骤：

步骤3.3.1：将图片粗粒度特征向量V_icf与图片细粒度特征向量V_iff分别输入到图片粗粒度注意力计算网络和图片细粒度注意力计算网络，生成图片粗粒度注意力计算网络输出向量h_icf和图片细粒度注意力计算网络输出向量h_iff，对其做softmax操作得到图片粗粒度注意力权重a_icf和图片细粒度注意力权重a_iff，如公式(8)-(9)所示：

h_k＝Tanh(W_kV_k+b_k),k∈{icf,iff} (8)

其中，W_icf和b_icf分别为图片粗粒度注意力计算网络的权重和阈值，W_iff和b_iff分别为图片细粒度注意力计算网络的权重和阈值，图片粗粒度注意力权重a_icf和图片细粒度注意力权重a_iff的维度均为256；

步骤3.3.2：将图片粗粒度注意力权重a_icf与图片粗粒度特征向量V_icf相乘，图片细粒度注意力权重a_iff与图片细粒度特征向量V_iff相乘，乘积结果求和后输入到全连接神经网络7，生成图片集成特征向量V_if，如公式(10)所示：

其中，W₇是全连接神经网络7的权重，b₇是全连接神经网络7的阈值，图片集成特征向量V_if的维度为256；

步骤3.4：基于构建的图片集成特征向量，识别图片的情感类别，具体为：将图片集成特征向量V_if输入到全连接神经网络8，获得图片情感分类概率P_if，如公式(11)所示；

P_if＝softmax(W₈V_if+b₈) (11)

其中，softmax是激活函数，W₈和b₈分别为全连接神经网络8的权重和阈值，图片情感分类概率P_if的维度为7，即七种情感得分{-3,-2,-1,0,1,2,3}的概率；

取概率值最大的得分作为预测得分，并根据预测得分划分消极、非消极类别，得到图片情感类别C_if，该示例图片情感类别为消极；

步骤4：构建音频特征向量和识别音频情感类别，该步骤属于异质融合网络模型的第一融合层(单模态数据的特征融合层)中的音频特征构建模型；

步骤4、具体包括如下子步骤：

步骤4.1A：构建片段级音频静态特征向量，具体为：

将每个视频片段的音频利用音频分析处理工具COVAREP进行音频静态特征向量V_{sta_f}的构建，维度为74；

步骤4.1B：构建语境音频静态特征向量，具体为：将每个完整视频的音频利用音频分析处理工具COVAREP进行语境音频静态特征向量V_{sta_c}的构建，维度为74；

步骤4.1C：构建音频细粒度特征向量，具体为：

利用OpenSmile工具对视频片段的音频提取情感相关特征，进行音频细粒度特征向量V_aff的构建，维度为384；

步骤4.2：利用语境音频静态特征和片段级音频静态特征计算音频语境注意力权重，基于该音频语境注意力权重构建音频粗粒度特征向量，具体过程如下：

步骤4.2.1拼接语境音频静态特征向量V_{sta_c}和片段级音频静态特征向量V_{sta_f}，输入到全连接神经网络9中，计算音频语境注意力权重a_u，如公式(12)所示：

a_u＝Tanh(W₉[V_{sta_c},V_{sta_f}]+b₉) (12)

其中，Tanh是激活函数，W₉是全连接神经网络9的权重，b₉是全连接神经网络9的阈值，音频语境注意力权重a_u的维度为74；

步骤4.2.2将音频语境注意力权重a_u与片段级音频静态特征向量V_{sta_f}相乘，并输入到全连接神经网络10中，生成音频粗粒度特征向量V_acf，如公式(13)所示：

V_acf＝Tanh(W₁₀[a_uV_{sta_f}]+b₁₀) (13)

其中，W₁₀是全连接神经网络10的权重，b₁₀是全连接神经网络10的阈值，音频粗粒度特征向量V_acf的维度为256；

步骤4.3：将音频粗粒度特征向量和音频细粒度特征向量进行融合，构建音频集成特征向量，该步骤针对音频，采用了单种模态的模态内融合形式，并采用了特征层融合策略。具体包括如下子步骤：

步骤4.3.1将音频粗粒度特征向量V_acf与音频细粒度特征向量V_aff分别输入到音频粗粒度注意力计算网络和音频细粒度注意力计算网络，生成音频粗粒度注意力计算网络输出向量h_acf和音频细粒度注意力计算网络输出向量h_aff，进行softmax操作得到音频粗粒度注意力权重a_acf和音频细粒度注意力权重a_aff，如公式(14)-(15)所示：

h_k＝Tanh(W_kV_k+b_k),k∈{acf,aff} (14)

其中，W_acf和b_acf是分别为音频粗粒度注意力计算网络的权重和阈值，W_aff和b_aff为音频细粒度注意力计算网络的权重和阈值，音频粗粒度注意力权重a_acf和音频细粒度注意力权重a_aff的维度均为256；

步骤4.3.2将音频粗粒度注意力权重a_acf与音频粗粒度特征向量V_acf相乘，音频细粒度注意力权重a_aff与音频细粒度特征向量V_aff相乘，乘积结果求和后输入到全连接神经网络11，生成音频集成特征向量V_af，如公式(16)所示：

其中，Tanh是激活函数，W₁₁是全连接神经网络11的权重，b₁₁是全连接神经网络11的阈值，音频集成特征向量V_af的维度为256；

步骤4.4基于构建的音频集成特征向量，识别音频的情感类别，具体为：将音频集成特征向量V_af输入到全连接神经网络12，获得音频情感分类概率P_af，如公式(17)所示：

P_af＝softmax(W₁₂V_af+b₁₂) (17)

其中，softmax是激活函数，W₁₂是全连接神经网络12的权重，b₁₂是全连接神经网络12的阈值；音频情感分类概率P_af的维度为7，即七种情感得分{-3,-2,-1,0,1,2,3}的概率；

取概率值最大的得分作为预测得分，并根据预测得分划分消极、非消极类别，得到音频情感类别C_if，该示例音频情感类别为非消极；

步骤5：构建多模态p_icf＝W_i*V_icf+b_i全局特征向量与识别多模态全局情感类别，该步骤属于异质融合网络模型的第二融合层(多模态数据的特征融合层)中的子层1，即多模态全局特征向量构建模型，该子层从宏观角度、采用多种模态的模态间融合形式、以及特征层融合策略实现数据的融合；

具体包括如下子步骤；

步骤5.1：利用广义线性池化模型融合文本、图片、音频粗粒度特征向量，构建多模态全局特征向量，广义线性池化模型对双线性池化模型进行了改进和推广，引入了完全交叉式融合，并利用了注意力机制，充分挖掘三种模态数据间的隐含交互关系，实现多模态数据融合，具体包括如下子步骤：

将文本粗粒度特征向量V_tcf、图片粗粒度特征向量V_icf、音频粗粒度特征向量V_acf分别输入到文本映射网络、图片映射网络和音频映射网络，通过线性映射，分别生成向量文本映射向量p_tcf，图片映射向量p_icf和音频映射向量p_acf，如公式(18)、(19)和(20)所示；P_tcf＝W_t*V_tcf+b_t

p_tcf＝W_t*V_tcf+b_t (18)

(19)

p_acf＝W_a*V_acf+b_a (20)

其中，W_t和b_t分别为文本映射网络的权重和阈值，W_i和b_i分别为图片映射网络的权重和阈值，W_a和b_a分别为音频映射网络的权重和阈值，文本映射向量p_tcf，图片映射向量p_icf和音频映射向量p_acf的维度均为4096；

步骤5.1.2：对文本映射向量、图片映射向量和音频映射向量进行完全交叉式融合，具体过程如下：

步骤5.1.2A：将文本映射向量p_tcf，图片映射向量p_icf和音频映射向量p_acf同时点乘，再两两组合点乘，生成四个中间向量z₁、z₂、z₃、z₄，如公式(21)、(22)、(23)和(24)所示：

z₁＝p_tcf*p_icf*p_acf (21)

z₂＝p_tcf*p_acf (22)

z₃＝p_icf*p_acf (23)

z₄＝p_tcf*p_icf (24)

步骤5.1.2B：将四个中间向量z₁、z₂、z₃、z₄分别输入到z₁、z₂、z₃、z₄注意力计算网络中，分别输出z₁、z₂、z₃、z₄注意力计算网络输出向量h₁、h₂、h₃、h₄，并对其进行softmax操作，分别得到z₁、z₂、z₃、z₄注意力权重a₁、a₂、a₃、a₄，如公式(25)和(26)所示：

h_j＝Tanh(W_kzj+b_k),j∈[1,2,3,4],k∈[z1,z2,z3,z4] (25)

其中，W_z1和b_z1为z₁注意力计算网络的权重和阈值，W_z2和b_z2为z₂注意力计算网络的权重和阈值，W_z3和b_z3为z₃注意力计算网络的权重和阈值，W_z4和b_z4为z₄注意力计算网络的权重和阈值，z₁、z₂、z₃、z₄注意力权重a₁、a₂、a₃、a₄的维度均为4096；

步骤5.1.2C：将四个中间向量z₁、z₂、z₃、z₄分别与z₁、z₂、z₃、z₄注意力权重a₁、a₂、a₃、a₄进行点乘后求和，生成映射融合向量V_tmp，其维度为4096，如公式(27)所示；

(27)

步骤5.1.3对映射融合向量V_tmp进行求和池化，并输入到多层感知机中，生成多模态全局特征向量V_mgf，如公式(28)所示：

V_mgf＝MLP(SumPooling(V_tmp)) (28)

其中，MLP(Multi-Layer Perceptron)表示多层感知机，SumPooling表示求和池化，多模态全局特征向量V_mgf的维度为256；

将多模态全局特征向量V_mgf输入到全连接神经网络13，生成多模态全局情感分类概率P_mgf，如公式(29)所示：

P_mgf＝softmax(W₁₃V_mgf+b₁₃) (29)

其中，softmax是激活函数，W₁₃是全连接神经网络13的权重，b₁₃是全连接神经网络13的阈值；多模态全局情感分类概率P_mgf的维度为7，即七种情感得分{-3,-2,-1,0,1,2,3}的概率；

取概率值最大的得分作为预测得分，并根据预测得分划分消极、非消极类别，得到多模态全局情感类别C_mgf，该示例多模态全局情感类别为非消极；

步骤6：构建多模态局部特征向量与识别多模态局部情感类别，该步骤属于异质融合网络模型的第二融合层(多模态数据的特征融合层)的子层2，即多模态局部特征向量构建模型，该子层从微观角度、采用多种模态的模态间融合形式、以及特征层融合策略实现数据的融合；

具体包括如下子步骤：

步骤6.1.1：将文本集成特征向量V_tf、图片集成特征向量V_if、音频集成特征向量V_af和多模态全局特征向量V_mgf分别输入到文本、图片、音频、多模态全局注意力计算网络中，分别输出文本、图片、音频、多模态全局注意力计算网络输出向量h_tf，h_if，h_af和h_mgf，对其进行softmax操作，得到文本注意力权重a_tf、图片注意力权重a_if、音频注意力权重a_af和多模态全局注意力权重a_mgf，其维度均为256，如公式(30)-(31)所示：

h_k＝Tanh(W_kV_k+b_k),k∈{tf,if,af,mgf} (30)

其中，W_tf和b_tf分别为文本注意力计算网络的权重和阈值，W_if和b_if分别为图片注意力计算网络的权重和阈值，W_af和b_af分别为音频注意力计算网络的权重和阈值，W_mgf和b_mgf分别为多模态全局注意力计算网络的权重和阈值；

步骤6.1.2：将文本集成特征向量V_tf、图片集成特征向量V_if、音频集成特征向量V_af和多模态全局特征向量V_mgf分别与文本注意力权重a_tf、图片注意力权重a_if、音频注意力权重a_af和多模态全局注意力权重a_mgf点乘后求和，输入到全连接神经网络14中，生成多模态局部特征向量V_mlf，如公式(32)所示：

其中，W₁₄和b₁₄分别为全连接神经网络14的权重和阈值，多模态局部特征向量V_mlf的维度为128；

将多模态局部特征向量V_mlf输入到全连接神经网络15，生成多模态局部情感分类概率P_mlf，如公式(33)所示：

P_mlf＝softmax(W₁₅V_mlf+b₁₅) (33)

其中softmax为激活函数，W₁₅和b₁₅分别为全连接神经网络15的权重和阈值；多模态局部情感分类概率P_mlf的维度为7，即七种情感得分{-3,-2,-1,0,1,2,3}的概率；

取概率值最大的得分作为预测得分，并根据预测得分划分消极、非消极类别，得到多模态局部情感类别C_mlf，该示例多模态局部情感类别为非消极；

步骤7：采用投票策略获得最终的情感分类结果，该步骤属于异质融合网络模型的第三融合层，即多模态数据的决策融合层，该层次采用多种模态的模态间融合形式、以及决策层融合策略实现数据的融合。具体为：

通过步骤2、步骤3、步骤4、步骤5和步骤6分别获得情感类别为非消极、消极、非消极、非消极、非消极。投票后，类别非消极票数最多，即最终情感类别为非消极。

为说明本发明的多模态情感分类效果，本实验是在同等条件下，以相同的训练集、验证集和测试集分别采用三种方法进行比较。

第一种方法是基于张量融合网络(Tensor Fusion Network)的方法，具体步骤包括首先对视频的文本、视觉、声音三种模态数据分别学习单种模态数据编码，然后将三种模态编码采用笛卡尔积的方式融合，并进行情感分类。第二种方法是基于循环变异编码网络(Recurrent Attended Variation Embedding Network)的方法，具体步骤包括首先提取文本中每个单词对应的音频片段和视觉片段，然后利用长短期记忆网络分别对音频信息和视觉信息进行编码，并输入到门控模态混合网络，最后由多模态移位模块生成多模态表示，进行情感分类。第三种方法是本发明的多模态情感分类方法。

采用的评测指标为：Acc-2和marco-F1。Acc-2是指二分类的准确率，类别包括消极、非消极。准确率Accuracy表示所有样本中分类正确的样本比例，计算方法如公式(40)所示，其中N表示样本总数，N_r表示正确分类的样本数。

宏F1(macro-F1)计算公式如公式(41)和(42)所示，其中c表示类别，C表示类别数，P_c表示类别c的准确率，R_c表示类别c的召回率，F1(c)表示类别c的F1得分，Macro-F1是指将所有类别的F1得分求平均值。

多模态情感分类的识别结果为：已有技术的基于张量融合网络的多模态情感分类方法的Acc-2值为73.9％，宏F1值为73.4％，已有技术的基于循环变异编码网络的多模态情感分类方法的Acc-2值为78.0％，宏F1值为76.6％，采用本方法的Acc-2值为82.36％，宏F1值为82.30％。通过实验表明了提出的基于异质融合网络的多模态情感分类方法的有效性。

以上所述为本发明的较佳实施例而已，本发明不应局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于异质融合网络的多模态情感分类方法，其特征在于：依托于异质融合网络模型；该异质融合网络模型包括三层融合层：

(3)第三融合层是多模态数据的决策融合层；

步骤2：构建文本特征向量和识别文本情感类别；

步骤2、具体包括如下子步骤：

步骤2.1A：构建片段级文本句向量，具体为：

步骤3：构建图片特征向量和识别图片情感类别；

步骤3、具体包括如下子步骤：

其中，3D卷积神经网络模型，即3D-CNN；

步骤4：构建音频特征向量和识别音频情感类别；

步骤4、具体包括如下子步骤：

步骤4.1C：构建音频细粒度特征向量；

步骤5.1.2：对文本映射向量、图片映射向量和音频映射向量进行完全交叉式融合，得到映射融合向量；

步骤5.2：基于构建的多模态全局特征向量，识别多模态全局情感类别，具体为：将多模态全局特征向量输入到全连接神经网络13，并进行softmax操作，生成多模态全局情感分类概率，取概率值最大的类别作为多模态全局情感类别；

步骤6.2：基于构建的多模态局部特征向量，识别多模态局部情感类别，具体为：将多模态局部特征向量输入到全连接神经网络14，并进行softmax操作，生成多模态局部情感分类概率，取概率值最大的类别作为多模态局部情感类别；

2.根据权利要求1所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：依托的异质融合网络模型采用了单种模态的模态内融合和多种模态的模态间融合两种融合形式、宏观和微观两种融合角度以及特征层融合和决策层融合两种融合策略。

3.根据权利要求2所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤1中，视频数据包括完整视频和视频片段，且完整视频的数量为多个，每个完整视频中又包括多个视频片段。

4.根据权利要求3所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤1中，文本为视频中人物所说的内容，包括完整视频的文本内容及每个视频片段的文本内容；图片为视频的画面，包括完整视频的图片内容及每个视频片段的图片内容；音频为视频的声音，包括完整视频的音频内容及每个视频片段的音频内容。

5.根据权利要求4所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤2.1C1中，情感强烈的情感词语是指其情感分值不低于0.5的情感词语。

6.根据权利要求5所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤2.3.1中，长短期记忆网络中的长短期记忆，即Long Short Term Memory，简称LSTM。

7.根据权利要求6所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤4.1A的静态特征包括频率对数系数、音调、浊音/清音分隔特征以及声门声源参数。

8.根据权利要求7所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤4.1A的音频分析处理工具COVAREP来自文献《COVAREP-A Collaborative VoiceAnalysis Repository for Speech Technologies》(IEEE International Conference onAcoustics,Speech and Signal Processing，2014)。

9.根据权利要求8所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤4.1C，具体为：利用OpenSmile工具对视频片段的音频提取情感相关特征，构建音频细粒度特征向量，OpenSmile工具来源于文献《Opensmile》(Acm Sigmultimedia Records,2015)。

10.根据权利要求9所述的一种基于异质融合网络的多模态情感分类方法，其特征在于：步骤5.1.2，具体过程如下：

步骤5.1.2C：将四个中间向量z₁、z₂、z₃、z₄分别与z₁、z₂、z₃、z₄注意力权重点乘后求和，得到映射融合向量。