CN111914734A

CN111914734A - 面向短视频场景的主题情感分析方法

Info

Publication number: CN111914734A
Application number: CN202010743749.0A
Authority: CN
Inventors: 孙力娟; 黄欢; 曹莹; 钱晶晶; 韩崇; 郭剑; 王娟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-10

Abstract

现有技术无法充分捕获视频帧序列的时序关系，无法针对不同的特征赋予不同的权值以及在一些特殊场景下分类不准确的问题。针对上述情况，本发明提出一种面向短视频场景的主题情感分析方法，在视频帧图像处理时引入conv3D，捕获视频帧序列的时序关系，并在特征处理时引入注意力机制；对于诸如讽刺之类的场景，引入音频信息作为辅助，采用多模态情感分析，并设计一种决策融合方式来综合音频和视频两种模态，将其用于多模态情感分类，从而提升情感分析结果的正确率。

Description

面向短视频场景的主题情感分析方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种面向短视频场景的主题情感分析方法。

背景技术

近年来，随着社交媒体的发展，如微博、抖音、快手的出现，人们越来越倾向于在这些平台或软件上通过上传图片、文字、视频来发表个人意见，展示他们的情感，这其中短视频则是尤为重要的一种形式。与此同时，各大平台与软件也通过用户上传的短视频来进行主题情感分析，确定用户的情感导向，以便向用户精准的推送所需的内容。主题情感分析就为这些平台提供了分析上传的短视频的主题情感的方式。

过去的研究中所探讨的情感分析多指文本中的主题情感分析(尤其是短文本情感分析)，包括推特以及电影评论等等。但由于文字是抽象的，且文字个体之间是相互独立的，单纯地基于文字来完成主题情感分析是远远不够的。考虑到短视频已经成为当前较为主流的情感载体，研究者们开始思考基于短视频的视频帧信息来完成主题情感的分析。早在2013年，Verónica Pérez Rosas等人使用商业软件Okao Vision来检测每一帧人脸图片并提取面部特征，但使用这种方法的成本较高，深圳大学的江政波等人基于卷积神经网络来进行视频内容的主题情感分析，但也只是简单的从静态视频帧图像中提取特征，他们的做法无法捕获视视频帧图像之间的时序关系。而视频中情感的表达往往具有时间上的连续性，因此这一做法的情感分类结果准确性较差。

但基于视频帧图像的主题情感分析在一些场景下是不准确的，比如在表达反讽的情境下，音频和视频所表现出来情感状态是不一样的。由于频帧的情感分析会被影响而出现误差，学者们开始考虑多维度的信息如添加音频等其他信息进行补充，降低上述场景对主题情感分析的影响，因此，多模态情感分析成为当前主题情感分析较为前沿且重要的研究方向。

发明内容

本发明的目的在于提供一个面向短视频场景的主题情感分析算法，解决单一模态的主题情感分析在现有短视频日益增长情况下不准确的问题。

面向短视频场景的主题情感分析方法，具体执行步骤如下：

步骤1，数据预处理；采集原始的视频，并将其剪辑成长度为1min，只包含一种情感的短视频；

步骤2，建立音频网络模型和视频网络模型，分别对两个网络进行训练，通过一种决策融合方法生成最终的结果；

步骤3，输出最终的情感分类结果。

进一步地，步骤1包括如下分步骤：

步骤1a，将短视频转换成连续的视频帧图片，每隔24帧截取一张图片，然后将每4张连续的视频帧图片保存为一组，每5组设为模型的输入；

步骤1b，采用对数梅尔能量带和梅尔频率倒谱系数作为音频特征，针对每一对窗口和滑动窗口大小，提取40个对数梅尔能量带系数和60个梅尔频率倒谱系数特征，其中60个梅尔频率倒谱系数由20个第一系数，20个一阶偏导系数和20个二阶偏导系数组成，沿着频域将这些特征保存为音频图谱；

步骤1c，对步骤1a、1b中的视频帧和音频图片进行数据增强操作，包括平移，翻转，旋转，颜色抖动，对比度增强，亮度增强，颜色增强。

进一步地，步骤2包括如下分步骤：

步骤2a，为了捕获视频帧图片之间的时序关系，采用conv3D来构建视频网络并将步骤1a得到的视频帧图片输入视频网络，为了更好的提取视频帧图像中的特征，引入注意力机制；对于网络的输入，设x∈R^d，z∈R^k为特征向量，通过以下方式实现注意力机制：

a＝f_φ(x)

z_a＝z⊙a

其中f_φ为注意力网络，a为注意力向量，⊙为元素间相乘，通过特征向量与注意力向量相乘赋予每个特征不同的权值z_a；

对于视频网络模型，采用Bottleneckdesign残差结构的Resnet-50网络，设X代表网络的输入，H(X)为所需的变换，F(X)为残差映射，通过skip connection来执行特征融合的操作H(X)＝F(X)+X；

步骤2b，将步骤1b得到的音频图谱输入音频网络，该网络包括两个连续的CNN块，一个全连接的层，并且将softmax集成在此架构中以生成概率分布图；在音频网络中，每个CNN块均包含卷积层，ReLU激活函数和批处理归一化；然后，将每个CNN块的输出与输入沿频域合并，以在最大池化之前增加特征的数量；另外，在音频网络中，采用dropout机制来减少过拟合问题；

步骤2c，在完成上述步骤后，音频和视频网络通过全局阈值λ在决策级进行融合，其中全局阈值λ代表最终分类结果的正确性，其默认值为0.6；为了计算融合后的两个网络的全局阈值，将其与默认值进行比较；采用交叉投票机制，对于每一个网络分支，将其局部阈值μ设置为0.8；最终得到情感分类结果。

进一步地，步骤2c包括如下分步骤：

步骤2c-1，分别从音频网络和视频网络获取特征向量

和

其定义如下：

步骤2c-2，分别计算在向量

和

中正确元素的数量，然后将其与局部阈值μ进行比较来确定音频和视频网络分支的情感：

其中EA和EV是通过比较后决定的两个分支的情感；

步骤2c-3，计算每个视频帧的情感结果在整个音频结果中的比例，将其定义为P_atov，然后计算每个音频图像的情感结果在整个视频序列结果中的比例，以P_vtoa表示，最终结果如下：

λ_actual＝α×P_vtoa+(1-α)×P_atov

E_correct＝{λ_actual＞λ_default}

E_error＝{λ_actual＜λ_default}

其中α代表两种模态的权重，设置为0.2；E_correct表示最终的情感分类结果为真。

本发明达到的有益效果为：现有的基于短视频的主题情感分析算法只是简单的采用神经网络提取视频帧序列的特征来达到情感分类的目的。但在短视频中，视频帧序列往往有着时序上的联系，并且在每一个视频帧图像中，对于提取到的所有特征，它们的重要程度都是不一样的，即每一个特征所占的权值是不同的。另一方面，基于短视频的主题情感分析算法在某些情况下往往会得到错误的分类结果，比如在表达讽刺之类情感时。这些情况都会造成情感分析的精度的下降。针对上述情况，本发明提出一种算法，在视频帧图像处理时引入conv3D，捕获视频帧序列的时序关系，并在特征处理时引入注意力机制；对于诸如讽刺之类的场景，引入音频信息作为辅助，采用多模态情感分析，并设计一种决策融合方式来综合音频和视频两种模态，将其用于多模态情感分类，使之能够得到较高的准确率。

附图说明

图1是本发明实施例的整体实现流程图。

图2是本发明实施例的步骤1b的算法流程图。

图3是本发明实施例的步骤2a的conv3D的示意图。

图4是本发明实施例的步骤2a的残差连接的示意图。

图5是本发明实施例的网络的整体架构。

图6是本发明实施例的中情感的样例。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明算法的总体流程图如图1所示。具体实施步骤如下:

步骤1：数据预处理。采集原始的视频，并将其剪辑成长度为1min，只包含一种情感的短视频。

1a)将短视频转换成连续的视频帧图片，每隔24帧截取一张图片，然后将每4张连续的视频帧图片保存为一组，每5组设为模型的输入。

1b)采用对数梅尔能量带和梅尔频率倒谱系数作为音频特征，针对每一对窗口和滑动窗口大小，提取40个对数梅尔能量带系数和60个梅尔频率倒谱系数特征，其中60个梅尔频率倒谱系数由20个第一系数，20个一阶偏导系数和20个二阶偏导系数组成。然后沿着频域将这些特征保存为音频图谱。

1c)对步骤1a)、1b)中的图片，还对其进行数据增强操作如：平移，翻转，旋转，颜色抖动，对比度增强，亮度增强，颜色增强等。

步骤2：模型的建立。所建立的模型有两个组件，包括音频网络和视频网络，分别对两个网络进行训练，并设计一种决策融合方法生成最终的结果。

2a)为了捕获视频帧图片之间的时序关系，采用conv3D来构建视频网络并将步骤1a得到的视频帧图片输入视频网络，为了更好的提取视频帧图像中的特征，引入注意力机制。对于网络的输入x∈R^d，z∈R^k为特征向量，我们通过以下方式实现注意力机制：

a＝f_φ(x)

z_a＝z⊙a

其中f_φ为注意力网络，a为注意力向量，⊙为元素间相乘，通过特征向量与注意力向量相乘赋予每个特征不同的权值。

为了处理短视频中出现的一些非正常情况，增强模型的鲁棒性，对于视频网络采用Resnet-50网络，采用一种Bottleneck design的残差结构，其中H(X)是所需的变换，F(X)是残差映射，特征融合的操作H(X)＝F(X)+X通过skip connection来执行。

2b)将步骤1b得到的音频图谱输入音频网络，该网络包括两个连续的CNN块，一个全连接的层，并且将softmax集成在此架构中以生成概率分布图。在音频网络中，每个CNN块均包含卷积层，ReLU激活函数和批处理归一化(BN)。然后，将每个CNN块的输出与输入沿频域合并，以在最大池化之前增加特征的数量。另外，在音频网络中，采用dropout机制来减少过拟合问题。

2c)在完成上述步骤后，音频和视频网络通过全局阈值λ在决策级进行融合，其中全局阈值λ代表最终分类结果的正确性，其默认值为0.6。为了计算融合后的两个网络的全局阈值，并将其与默认值进行比较。采用交叉投票机制。其中对于每一个网络分支，将其局部阈值μ设置为0.8。

2c-1)首先分别从音频和视频网络获取特征向量

和

其定义如下：

2c-2)其次，我们分别计算在向量

和

其中EA和EV是通过比较后决定的两个分支的情感。

2c-3)计算每个视频帧的情感结果在整个音频结果中的比例，将其定义为P_atov，然后计算每个音频图像的情感结果在整个视频序列结果中的比例，以P_vtoa表示。最终结果如下：

λ_actual＝α×P_vtoa+(1-α)×P_atov

E_correct＝{λ_actual＞λ_default}

E_error＝{λ_actual＜λ_default}

其中α代表两种模态的权重。由于使用音频信息作为视觉信息的补充，因此将其设置为0.2。E_correct表示最终的情感分类结果为真。

步骤3：输出最终的情感分类结果。

现有的基于短视频的主题情感分析算法只是简单的采用神经网络提取视频帧序列的特征来达到情感分类的目的。但在短视频中，视频帧序列往往有着时序上的联系，并且在每一个视频帧图像中，对于我们提取到的所有特征，它们的重要程度都是不一样的，即每一个特征所占的权值是不同的。另一方面，基于短视频的主题情感分析算法在某些情况下往往会得到错误的分类结果，比如在表达讽刺之类情感时。这些情况都会造成情感分析的精度的下降。针对上述情况，本发明提出一种算法，在视频帧图像处理时引入conv3D，捕获视频帧序列的时序关系，并在特征处理时引入注意力机制；对于诸如讽刺之类的场景，我们引入音频信息作为辅助，采用多模态情感分析，并设计一种决策融合方式来综合音频和视频两种模态，将其用于多模态情感分类，使之能够得到较高的准确率。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。