CN111914734A - 面向短视频场景的主题情感分析方法 - Google Patents
面向短视频场景的主题情感分析方法 Download PDFInfo
- Publication number
- CN111914734A CN111914734A CN202010743749.0A CN202010743749A CN111914734A CN 111914734 A CN111914734 A CN 111914734A CN 202010743749 A CN202010743749 A CN 202010743749A CN 111914734 A CN111914734 A CN 111914734A
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- network
- emotion
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
现有技术无法充分捕获视频帧序列的时序关系,无法针对不同的特征赋予不同的权值以及在一些特殊场景下分类不准确的问题。针对上述情况,本发明提出一种面向短视频场景的主题情感分析方法,在视频帧图像处理时引入conv3D,捕获视频帧序列的时序关系,并在特征处理时引入注意力机制;对于诸如讽刺之类的场景,引入音频信息作为辅助,采用多模态情感分析,并设计一种决策融合方式来综合音频和视频两种模态,将其用于多模态情感分类,从而提升情感分析结果的正确率。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种面向短视频场景的主题情感分析方法。
背景技术
近年来,随着社交媒体的发展,如微博、抖音、快手的出现,人们越来越倾向于在这些平台或软件上通过上传图片、文字、视频来发表个人意见,展示他们的情感,这其中短视频则是尤为重要的一种形式。与此同时,各大平台与软件也通过用户上传的短视频来进行主题情感分析,确定用户的情感导向,以便向用户精准的推送所需的内容。主题情感分析就为这些平台提供了分析上传的短视频的主题情感的方式。
过去的研究中所探讨的情感分析多指文本中的主题情感分析(尤其是短文本情感分析),包括推特以及电影评论等等。但由于文字是抽象的,且文字个体之间是相互独立的,单纯地基于文字来完成主题情感分析是远远不够的。考虑到短视频已经成为当前较为主流的情感载体,研究者们开始思考基于短视频的视频帧信息来完成主题情感的分析。早在2013年,Verónica Pérez Rosas等人使用商业软件Okao Vision来检测每一帧人脸图片并提取面部特征,但使用这种方法的成本较高,深圳大学的江政波等人基于卷积神经网络来进行视频内容的主题情感分析,但也只是简单的从静态视频帧图像中提取特征,他们的做法无法捕获视视频帧图像之间的时序关系。而视频中情感的表达往往具有时间上的连续性,因此这一做法的情感分类结果准确性较差。
但基于视频帧图像的主题情感分析在一些场景下是不准确的,比如在表达反讽的情境下,音频和视频所表现出来情感状态是不一样的。由于频帧的情感分析会被影响而出现误差,学者们开始考虑多维度的信息如添加音频等其他信息进行补充,降低上述场景对主题情感分析的影响,因此,多模态情感分析成为当前主题情感分析较为前沿且重要的研究方向。
发明内容
本发明的目的在于提供一个面向短视频场景的主题情感分析算法,解决单一模态的主题情感分析在现有短视频日益增长情况下不准确的问题。
面向短视频场景的主题情感分析方法,具体执行步骤如下:
步骤1,数据预处理;采集原始的视频,并将其剪辑成长度为1min,只包含一种情感的短视频;
步骤2,建立音频网络模型和视频网络模型,分别对两个网络进行训练,通过一种决策融合方法生成最终的结果;
步骤3,输出最终的情感分类结果。
进一步地,步骤1包括如下分步骤:
步骤1a,将短视频转换成连续的视频帧图片,每隔24帧截取一张图片,然后将每4张连续的视频帧图片保存为一组,每5组设为模型的输入;
步骤1b,采用对数梅尔能量带和梅尔频率倒谱系数作为音频特征,针对每一对窗口和滑动窗口大小,提取40个对数梅尔能量带系数和60个梅尔频率倒谱系数特征,其中60个梅尔频率倒谱系数由20个第一系数,20个一阶偏导系数和20个二阶偏导系数组成,沿着频域将这些特征保存为音频图谱;
步骤1c,对步骤1a、1b中的视频帧和音频图片进行数据增强操作,包括平移,翻转,旋转,颜色抖动,对比度增强,亮度增强,颜色增强。
进一步地,步骤2包括如下分步骤:
步骤2a,为了捕获视频帧图片之间的时序关系,采用conv3D来构建视频网络并将步骤1a得到的视频帧图片输入视频网络,为了更好的提取视频帧图像中的特征,引入注意力机制;对于网络的输入,设x∈Rd,z∈Rk为特征向量,通过以下方式实现注意力机制:
a=fφ(x)
za=z⊙a
其中fφ为注意力网络,a为注意力向量,⊙为元素间相乘,通过特征向量与注意力向量相乘赋予每个特征不同的权值za;
对于视频网络模型,采用Bottleneckdesign残差结构的Resnet-50网络,设X代表网络的输入,H(X)为所需的变换,F(X)为残差映射,通过skip connection来执行特征融合的操作H(X)=F(X)+X;
步骤2b,将步骤1b得到的音频图谱输入音频网络,该网络包括两个连续的CNN块,一个全连接的层,并且将softmax集成在此架构中以生成概率分布图;在音频网络中,每个CNN块均包含卷积层,ReLU激活函数和批处理归一化;然后,将每个CNN块的输出与输入沿频域合并,以在最大池化之前增加特征的数量;另外,在音频网络中,采用dropout机制来减少过拟合问题;
步骤2c,在完成上述步骤后,音频和视频网络通过全局阈值λ在决策级进行融合,其中全局阈值λ代表最终分类结果的正确性,其默认值为0.6;为了计算融合后的两个网络的全局阈值,将其与默认值进行比较;采用交叉投票机制,对于每一个网络分支,将其局部阈值μ设置为0.8;最终得到情感分类结果。
进一步地,步骤2c包括如下分步骤:
其中EA和EV是通过比较后决定的两个分支的情感;
步骤2c-3,计算每个视频帧的情感结果在整个音频结果中的比例,将其定义为Patov,然后计算每个音频图像的情感结果在整个视频序列结果中的比例,以Pvtoa表示,最终结果如下:
λactual=α×Pvtoa+(1-α)×Patov
Ecorrect={λactual>λdefault}
Eerror={λactual<λdefault}
其中α代表两种模态的权重,设置为0.2;Ecorrect表示最终的情感分类结果为真。
本发明达到的有益效果为:现有的基于短视频的主题情感分析算法只是简单的采用神经网络提取视频帧序列的特征来达到情感分类的目的。但在短视频中,视频帧序列往往有着时序上的联系,并且在每一个视频帧图像中,对于提取到的所有特征,它们的重要程度都是不一样的,即每一个特征所占的权值是不同的。另一方面,基于短视频的主题情感分析算法在某些情况下往往会得到错误的分类结果,比如在表达讽刺之类情感时。这些情况都会造成情感分析的精度的下降。针对上述情况,本发明提出一种算法,在视频帧图像处理时引入conv3D,捕获视频帧序列的时序关系,并在特征处理时引入注意力机制;对于诸如讽刺之类的场景,引入音频信息作为辅助,采用多模态情感分析,并设计一种决策融合方式来综合音频和视频两种模态,将其用于多模态情感分类,使之能够得到较高的准确率。
附图说明
图1是本发明实施例的整体实现流程图。
图2是本发明实施例的步骤1b的算法流程图。
图3是本发明实施例的步骤2a的conv3D的示意图。
图4是本发明实施例的步骤2a的残差连接的示意图。
图5是本发明实施例的网络的整体架构。
图6是本发明实施例的中情感的样例。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明算法的总体流程图如图1所示。具体实施步骤如下:
步骤1:数据预处理。采集原始的视频,并将其剪辑成长度为1min,只包含一种情感的短视频。
1a)将短视频转换成连续的视频帧图片,每隔24帧截取一张图片,然后将每4张连续的视频帧图片保存为一组,每5组设为模型的输入。
1b)采用对数梅尔能量带和梅尔频率倒谱系数作为音频特征,针对每一对窗口和滑动窗口大小,提取40个对数梅尔能量带系数和60个梅尔频率倒谱系数特征,其中60个梅尔频率倒谱系数由20个第一系数,20个一阶偏导系数和20个二阶偏导系数组成。然后沿着频域将这些特征保存为音频图谱。
1c)对步骤1a)、1b)中的图片,还对其进行数据增强操作如:平移,翻转,旋转,颜色抖动,对比度增强,亮度增强,颜色增强等。
步骤2:模型的建立。所建立的模型有两个组件,包括音频网络和视频网络,分别对两个网络进行训练,并设计一种决策融合方法生成最终的结果。
2a)为了捕获视频帧图片之间的时序关系,采用conv3D来构建视频网络并将步骤1a得到的视频帧图片输入视频网络,为了更好的提取视频帧图像中的特征,引入注意力机制。对于网络的输入x∈Rd,z∈Rk为特征向量,我们通过以下方式实现注意力机制:
a=fφ(x)
za=z⊙a
其中fφ为注意力网络,a为注意力向量,⊙为元素间相乘,通过特征向量与注意力向量相乘赋予每个特征不同的权值。
为了处理短视频中出现的一些非正常情况,增强模型的鲁棒性,对于视频网络采用Resnet-50网络,采用一种Bottleneck design的残差结构,其中H(X)是所需的变换,F(X)是残差映射,特征融合的操作H(X)=F(X)+X通过skip connection来执行。
2b)将步骤1b得到的音频图谱输入音频网络,该网络包括两个连续的CNN块,一个全连接的层,并且将softmax集成在此架构中以生成概率分布图。在音频网络中,每个CNN块均包含卷积层,ReLU激活函数和批处理归一化(BN)。然后,将每个CNN块的输出与输入沿频域合并,以在最大池化之前增加特征的数量。另外,在音频网络中,采用dropout机制来减少过拟合问题。
2c)在完成上述步骤后,音频和视频网络通过全局阈值λ在决策级进行融合,其中全局阈值λ代表最终分类结果的正确性,其默认值为0.6。为了计算融合后的两个网络的全局阈值,并将其与默认值进行比较。采用交叉投票机制。其中对于每一个网络分支,将其局部阈值μ设置为0.8。
其中EA和EV是通过比较后决定的两个分支的情感。
2c-3)计算每个视频帧的情感结果在整个音频结果中的比例,将其定义为Patov,然后计算每个音频图像的情感结果在整个视频序列结果中的比例,以Pvtoa表示。最终结果如下:
λactual=α×Pvtoa+(1-α)×Patov
Ecorrect={λactual>λdefault}
Eerror={λactual<λdefault}
其中α代表两种模态的权重。由于使用音频信息作为视觉信息的补充,因此将其设置为0.2。Ecorrect表示最终的情感分类结果为真。
步骤3:输出最终的情感分类结果。
现有的基于短视频的主题情感分析算法只是简单的采用神经网络提取视频帧序列的特征来达到情感分类的目的。但在短视频中,视频帧序列往往有着时序上的联系,并且在每一个视频帧图像中,对于我们提取到的所有特征,它们的重要程度都是不一样的,即每一个特征所占的权值是不同的。另一方面,基于短视频的主题情感分析算法在某些情况下往往会得到错误的分类结果,比如在表达讽刺之类情感时。这些情况都会造成情感分析的精度的下降。针对上述情况,本发明提出一种算法,在视频帧图像处理时引入conv3D,捕获视频帧序列的时序关系,并在特征处理时引入注意力机制;对于诸如讽刺之类的场景,我们引入音频信息作为辅助,采用多模态情感分析,并设计一种决策融合方式来综合音频和视频两种模态,将其用于多模态情感分类,使之能够得到较高的准确率。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (4)
1.面向短视频场景的主题情感分析方法,其特征在于:所述方法的具体执行步骤如下:
步骤1,数据预处理;采集原始的视频,并将其剪辑成长度为1min,只包含一种情感的短视频;
步骤2,建立音频网络模型和视频网络模型,分别对两个网络进行训练,通过一种决策融合方法生成最终的结果;
步骤3,输出最终的情感分类结果。
2.根据权利要求1所述的面向短视频场景的主题情感分析方法,其特征在于:步骤1包括如下分步骤:
步骤1a,将短视频转换成连续的视频帧图片,每隔24帧截取一张图片,然后将每4张连续的视频帧图片保存为一组,每5组设为模型的输入;
步骤1b,采用对数梅尔能量带和梅尔频率倒谱系数作为音频特征,针对每一对窗口和滑动窗口大小,提取40个对数梅尔能量带系数和60个梅尔频率倒谱系数特征,其中60个梅尔频率倒谱系数由20个第一系数,20个一阶偏导系数和20个二阶偏导系数组成,沿着频域将这些特征保存为音频图谱;
步骤1c,对步骤1a、1b中的视频帧和音频图片进行数据增强操作,包括平移,翻转,旋转,颜色抖动,对比度增强,亮度增强,颜色增强。
3.根据权利要求1所述的面向短视频场景的主题情感分析方法,其特征在于:步骤2包括如下分步骤:
步骤2a,为了捕获视频帧图片之间的时序关系,采用conv3D来构建视频网络并将步骤1a得到的视频帧图片输入视频网络,为了更好的提取视频帧图像中的特征,引入注意力机制;对于网络的输入,设x∈Rd,z∈Rk为特征向量,通过以下方式实现注意力机制:
a=fφ(x)
za=z⊙a
其中fφ为注意力网络,a为注意力向量,⊙为元素间相乘,通过特征向量与注意力向量相乘赋予每个特征不同的权值za;
对于视频网络模型,采用Bottleneckdesign残差结构的Resnet-50网络,设X代表网络的输入,H(X)为所需的变换,F(X)为残差映射,通过skip connection来执行特征融合的操作H(X)=F(X)+X;
步骤2b,将步骤1b得到的音频图谱输入音频网络,该网络包括两个连续的CNN块,一个全连接的层,并且将softmax集成在此架构中以生成概率分布图;在音频网络中,每个CNN块均包含卷积层,ReLU激活函数和批处理归一化;然后,将每个CNN块的输出与输入沿频域合并,以在最大池化之前增加特征的数量;另外,在音频网络中,采用dropout机制来减少过拟合问题;
步骤2c,在完成上述步骤后,音频和视频网络通过全局阈值λ在决策级进行融合,其中全局阈值λ代表最终分类结果的正确性,其默认值为0.6;为了计算融合后的两个网络的全局阈值,将其与默认值进行比较;采用交叉投票机制,对于每一个网络分支,将其局部阈值μ设置为0.8;最终得到情感分类结果。
4.根据权利要求3所述的面向短视频场景的主题情感分析方法,其特征在于:步骤2c包括如下分步骤:
其中EA和EV是通过比较后决定的两个分支的情感;
步骤2c-3,计算每个视频帧的情感结果在整个音频结果中的比例,将其定义为Patov,然后计算每个音频图像的情感结果在整个视频序列结果中的比例,以Pvtoa表示,最终结果如下:
λactual=α×Pvtoa+(1-α)×Patov
Ecorrect={λactual>λdefault}
Eerror={λactual<λdefault}
其中α代表两种模态的权重,设置为0.2;Ecorrect表示最终的情感分类结果为真。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743749.0A CN111914734A (zh) | 2020-07-29 | 2020-07-29 | 面向短视频场景的主题情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743749.0A CN111914734A (zh) | 2020-07-29 | 2020-07-29 | 面向短视频场景的主题情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914734A true CN111914734A (zh) | 2020-11-10 |
Family
ID=73287708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010743749.0A Withdrawn CN111914734A (zh) | 2020-07-29 | 2020-07-29 | 面向短视频场景的主题情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914734A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395505A (zh) * | 2020-12-01 | 2021-02-23 | 中国计量大学 | 一种基于协同注意力机制的短视频点击率预测方法 |
CN112560811A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 端到端的音视频抑郁症自动检测研究方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113743267A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
-
2020
- 2020-07-29 CN CN202010743749.0A patent/CN111914734A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395505A (zh) * | 2020-12-01 | 2021-02-23 | 中国计量大学 | 一种基于协同注意力机制的短视频点击率预测方法 |
CN112395505B (zh) * | 2020-12-01 | 2021-11-09 | 中国计量大学 | 一种基于协同注意力机制的短视频点击率预测方法 |
CN112560811A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 端到端的音视频抑郁症自动检测研究方法 |
US11963771B2 (en) | 2021-02-19 | 2024-04-23 | Institute Of Automation, Chinese Academy Of Sciences | Automatic depression detection method based on audio-video |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113657115B (zh) * | 2021-07-21 | 2023-06-30 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113743267A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
CN113743267B (zh) * | 2021-08-25 | 2023-06-16 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914734A (zh) | 面向短视频场景的主题情感分析方法 | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
CN111428088B (zh) | 视频分类方法、装置及服务器 | |
CN110020437B (zh) | 一种视频和弹幕相结合的情感分析及可视化方法 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN110083741B (zh) | 文本与图像联合建模的面向人物的视频摘要提取方法 | |
CN110532912B (zh) | 一种手语翻译实现方法及装置 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN111242033A (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
Zeng et al. | Expression-tailored talking face generation with adaptive cross-modal weighting | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN113420179A (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
Singh et al. | A deep learning approach for human face sentiment classification | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
Yang et al. | Deep Learning Based Image Quality Assessment: A Survey | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
Gao et al. | A robust improved network for facial expression recognition | |
CN111445545A (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN113505247B (zh) | 基于内容的高时长视频色情内容检测方法 | |
CN115392232A (zh) | 一种融合主题和多模态的突发事件情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201110 |