CN112597841B

CN112597841B - 一种基于门机制多模态融合的情感分析方法

Info

Publication number: CN112597841B
Application number: CN202011468475.5A
Authority: CN
Inventors: 李太豪; 廖龙飞; 刘昱龙; 裴冠雄
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2023-04-18
Anticipated expiration: 2040-12-14
Also published as: CN112597841A

Abstract

本发明涉及到多模态情感分析领域，提出了一种基于门机制多模态融合的情感分析方法，具体为：首先获取多模态情感分析数据，针对不同模态特点提取特征表示；通过不同模态特征的表示获得每个模态特征对应的模态信息门；使用不同模态信息门对各模态进行模态增强，丰富模态信息表示；拼接不同模态表示得到多模态融合表示，使用多模态融合表示进行情感分类。本发明可以更好地增强主体情感表达模态的作用，削弱冗余情感表达模态的负面影响，帮助多模态特征情感识别更加精确。

Description

一种基于门机制多模态融合的情感分析方法

技术领域

本发明涉及多模态情感分析领域，具体为一种基于门机制多模态融合的情感分析方法。

背景技术

情感对于人类的感知、记忆、学习、创造、决策和社交都有很重要的作用，情感识别与理解技术也是人机交互的基础性技术之一。情感识别的本质是利用计算机对人类的情感状态进行自动识别、判断和分类的过程。相对于单模态情感识别，多模态将不同模态的信息特征进行互补融合，从而能够更加全面且准确地识别出情感类别。正因如此，多模态融合的情感识别研究正日益受到重视，目前的研究热点已经从单模态转移到实际应用场合下的多模态情感识别。如何进行有效的多模态情感识别具有重要的应用价值，充满了挑战性。

当前的研究中，现有的多模态特征融合策略都是偏浅层的特征融合方案，没有衡量不同模态间的差异性和互补性对最终融合结果造成的影响，容易造成联合特征表达的判别性不足导致最终情感识别效果不佳，难以具体应用。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种基于门机制多模态融合的情感分析方法，其具体技术方案如下。

一种基于门机制多模态融合的情感分析方法，包含以下步骤：

步骤1，获取多模态情感分析数据，根据不同模态的数据特点，提取出不同模态的特征表示；

步骤2，对获取的不同模态特征表示，获取其对应的模态信息门；

步骤3，使用不同模态信息门对各模态进行模态增强，丰富模态信息表示；

步骤4，通过不同模态表示得到多模态融合表示，使用多模态融合表示进行情感分类。

进一步的，所述步骤1具体包括：

步骤1.1，通过采集一般电影、电视剧视频数据，对视频数据进行剪辑并进行人工情感标注，分离出其中对应单模态数据：通过字幕分离出文本模态数据，通过声音分离出语音模态数据，最后和视频模态数据一一对应，然后通过所述人工标注情感，得到多模态数据对应情感标签；或采集现有的带有情感标记的多模态数据集，包括视频模态数据、文本模态数据以及语音模态数据。

步骤1.2，根据采集得到的不同模态的数据的特点，提取不同模态的特征表示，具体为：

对于视频模态数据，首先使用开源工具ffmpeg将视频数据进行帧采样，设置采样率为30，得到采样帧集合IMG＝{img₁,img₂,...,img_n}，img_i代表第i张图像帧；

然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作，MTCNN包含三个子网络P-Net、R-Net、O-Net，先获取大量候选目标框后选择出最符合的人脸目标区域，得到F＝{f₁,f₂,...,f_n}，其中F代表抽取的人脸图像集合，f_i代表第i张人脸图像；再使用OpenFace对人脸图像进行人脸特征抽取，生成对应的特征向量，得到结果V＝{v₁,v₂,...,v_n}，V代表人脸特征集合，v_i代表第i个特征向量；

最后通过ConvLSTM对人脸特征集合进行编码，获得最后隐层表示h_v，代表视频模态特征向量；

对于文本模态数据，首先对输入文本进行字符级清洗，去除停用词，之后通过预训练的中文BERT模型得到文本的语义表示，对得到的语义表示进行padding操作，通过计算出文本平均的长度n，把超过n长度的文本进行截断，低于n长度的文本进行补全，得到词向量集合W＝{w₁,w₂,...,w_n}，w_i代表第i个词向量，使用Bi-LSTM对padding后的词向量集合进行特征提取，得到文本模态特征向量h_t；

对于语音模态数据，使用开源工具ffmpeg从视频中抽取出来，再通过python库librosa进行特征提取，得到语音模态特征向量表示h_a。

进一步的，所述步骤2具体包括：

步骤2.1，使用文本模态特征向量h_t作为主要特征输入，视频模态特征向量h_v、语音模态特征向量h_a作为辅助特征输入，来构建文本模态门，通过与视频模态与语音模态进行信息交互，得到文本交互信息输出H_T，然后使用sigmoid函数把H_T映射到0到1之间，得到文本模态门G_t，文本模态门代表了文本模态表示需要保留的信息比例，G_t的大小代表文本模态信息对最后情感识别的比重高低，具体为：

G_t＝sigmoid(H_T)

其中H_T代表文本模态门信息编码，W_ta代表文本模态特征与语音模态特征交互参数，W_tv代表文本模态特征与视频模态特征交互参数。

步骤2.2，使用视频模态特征向量h_v作为主要特征输入，文本模态特征向量h_t、语音模态特征向量h_a作为辅助特征输入，来构建文本模态门，通过与文本模态与语音模态进行信息交互，得到视频交互信息输出H_V，然后使用sigmoid函数把H_V映射到0到1之间，得到视频模态门G_v，具体为：

G_v＝sigmoid(H_V)

其中H_V代表视频模态门信息编码，W_va代表视频模态特征与语音模态特征交互参数，W_vt代表视频模态特征与文本模态特征交互参数，G_v为视频模态门信息，范围在[0,1]之间，代表了视频模态表示需要保留的信息比例。

步骤2.3，使用语音模态特征向量h_a作为主要特征输入，文本模态特征向量h_t、视频模态特征向量h_v作为辅助特征输入，来构建语音模态门，通过与文本模态与视频模态进行信息交互，得到语音交互信息输出H_A，然后使用sigmoid函数把H_A映射到0到1之间，得到语音模态门G_a，具体为：

G_a＝sigmoid(H_A)

其中H_A代表语音模态门信息编码，W_av代表语音模态特征与视频模态特征交互参数，W_at代表语音模态特征与文本模态特征交互参数，G_a为语音模态门信息，范围在[0,1]之间，代表了语音模态表示需要保留的信息比例。

进一步的，所述步骤3具体包括：

使用Softmax分别对文本模态门G_t、视频模态门G_v和语音模态门G_a进行归一化得到新的模态门

其中

代表在最终模态融合中不同模态所占的比例大小；然后使用tanh激活函数得到临时模态表示，文本最终模态表示为

语音最终模态表示为

视频最终模态表示为

进一步的，所述步骤4具体包括：通过对文本最终模态、语音最终模态和视频最终模态进行加权求和得到：

然后通过softmax函数获得最终情感分类结果。

在本发明中，针对各个模态不同的特点，使用对应的特征提取方法，提取最适合于情感识别的特征，如视频模态主要是三层特征提取，包括关键帧画面抽取、人脸特征抽取、时序特征建模，能充分考虑视模态特点来获取最终模态表示；文本模态使用字符级特征抽取和序列级特征抽取，能较好地获取深度语义特征；通过所提特征抽取步骤，能够较好地保证抽取模态特征的完整性，以及降低模态特征的冗余性，最终达到较好的融合效果，保证后续情感分类精度。并且构建特定的模态门辅助各模态表示融合，在多模态融合时，不同模态对最后情感分类贡献不同，模态门可以有效控制各模态在模态融合时流入的信息，计算各模态的权重比例，增强贡献较大地模态占比，减小贡献较小地模态占比，保证融合后的情感识别效果。

附图说明

图1为本发明的基于门机制多模态融合的情感分析方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，一种基于门机制多模态融合的情感分析方法，包含以下步骤；

步骤1，获取多模态情感分析数据，根据不同模态的数据特点，提取出不同模态的特征表示，具体包括：

步骤1.1，本实施例从国内视频网站下载了32部电影、15部电视剧，在utterance对话片段进行切割，所述对话片段的定义是在某一场景下，两个人对某一事件，连续交流产生的一段对话；并且为了保证后续情感识别效果，做出以下限制，包括：有较强背景音乐或其他噪音的片段，不收录；浮夸演技和表达，严重与现实情绪表达相悖，不收录；

对切割的utterance进行人工情感标注，标注出每个utterance对应的情感标签，所述情感标签包括正面情感和负面情感；分离出切割的utterance的视频数据中的对应单模态数据，即通过字幕分离出文本模态数据，通过声音分离出语音模态数据，最后和视频模态数据一一对应，然后通过所述人工标注情感，得到多模态数据对应情感标签；或采集现有的带有情感标记的多模态数据集，包括视频模态数据、文本模态数据以及语音模态数据。

步骤1.2，本实例根据所述步骤1.1得到的不同模态的数据特点，提取不同模态的特征表示，具体为：

然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作，MTCNN包含三个子网络P-Net、R-Net、O-Net，先获取大量候选目标框后选择出最符合的人脸目标区域，得到F＝{f₁,f₂,...,f_n}，其中F代表抽取的人脸图像集合，f_i代表第i张人脸图像；再使用OpenFace对人脸图像进行人脸特征抽取，生成对应的特征向量，得到结果V＝{v₁,v₂,...,v_n}，V代表人脸特征集合，v_i代表第i个特征向量，其中向量长度为709；

最后通过ConvLSTM对人脸特征集合进行编码，获得最后隐层表示h_v，代表视频模态特征向量，其中所述ConvLSTM应用在具有时序关系的图像上，对于捕捉图像特征更为有效，表达式如下：

i_t＝σ(W_iix_t+b_if+W_hfh_t-1+b_hf)

f_t＝σ(W_ifx_t+b_if+W_hfh_t-1+b_hf)

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg)

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho)

c_t＝f_tc_t-1+i_tg_t

h_t＝o_ttanh(c_t)

其中i_t、f_t、o_t分别代表输入门、遗忘门、输出门，中间的各项参数代表的是做卷积操作需要的可训练参数，得到视频模态特征向量h_v，维度是128。

对于文本模态数据，首先对输入文本进行字符级清洗，去除停用词，之后通过预训练的中文BERT模型得到文本的语义表示，对得到的语义表示进行padding操作，通过计算出文本平均的长度n，把超过n长度的文本进行截断，低于n长度的文本进行补全，得到词向量集合W＝{w₁,w₂,...,w_n}，w_i代表第i个词向量，使用Bi-LSTM对padding后的词向量集合进行特征提取，得到文本模态特征向量h_t，维度为128。

对于语音模态数据，使用开源工具ffmpeg从视频中抽取出来，再通过python库librosa进行特征提取，提取的特征为mfcc特征、Chroma特征、Zero Crossing Rate(过零率)等；再通过三层前馈神经网络，得到语音模态特征向量表示h_a，维度为64。

步骤2，对获取的不同模态特征表示，获取其对应的模态信息门，具体包括：

G_t＝sigmoid(H_T)

G_v＝sigmoid(H_V)

G_a＝sigmoid(H_A)

步骤3，使用不同模态信息门对各模态进行模态增强，丰富模态信息表示。

具体的，使用Softmax对各模态门进行归一化得到新的模态门

其中

语音最终模态表示为

视频最终模态表示为

步骤4，通过不同模态表示得到多模态融合表示，使用多模态融合表示进行情感分类；

具体的，通过对步骤3中得到的各模态最终表示进行加权求和得到：

然后通过softmax函数获得最终情感分类结果。

Claims

1.一种基于门机制多模态融合的情感分析方法，其特征在于，包含以下步骤；

步骤1.1，通过采集一般电影、电视剧视频数据，对视频数据进行剪辑并进行人工情感标注，分离出其中对应单模态数据：通过字幕分离出文本模态数据，通过声音分离出语音模态数据，最后和视频模态数据一一对应，然后通过人工标注情感，得到多模态数据对应情感标签；或采集现有的带有情感标记的多模态数据集，包括视频模态数据、文本模态数据以及语音模态数据；