CN109145712B - 一种融合文本信息的gif短视频情感识别方法及系统 - Google Patents

一种融合文本信息的gif短视频情感识别方法及系统 Download PDF

Info

Publication number
CN109145712B
CN109145712B CN201810686822.8A CN201810686822A CN109145712B CN 109145712 B CN109145712 B CN 109145712B CN 201810686822 A CN201810686822 A CN 201810686822A CN 109145712 B CN109145712 B CN 109145712B
Authority
CN
China
Prior art keywords
emotion
video
gif
text
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810686822.8A
Other languages
English (en)
Other versions
CN109145712A (zh
Inventor
刘天亮
万俊伟
刘峰
戴修斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810686822.8A priority Critical patent/CN109145712B/zh
Publication of CN109145712A publication Critical patent/CN109145712A/zh
Application granted granted Critical
Publication of CN109145712B publication Critical patent/CN109145712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合文本信息的GIF短视频情感识别方法及系统,该方法首先利用3D卷积神经网络提取出GIF短视频中序列特征,同时利用卷积神经网络提取出序列中图像视觉特征;再采用卷积长短时记忆递归神经网络技术解码二者融合后的高层语义特征,计算出情感分类概率分布矩阵,将进行区间映射得到视频部分的情感得分。接着,从注释文本中的单词筛选出蕴含情感信息的词汇,采用情感打分工具计算出文本情感得分。最后,将视频情感得分与文本情感得分赋予不同的权重相加并做有效性判别,对GIF短视频进行情感分类。本发明能有效关注GIF视频中图像的情感信息,同时兼顾视频流的时序特征,并且文本信息与视频信息融合,提高了GIF视频情感分类的准确度和鲁棒性。

Description

一种融合文本信息的GIF短视频情感识别方法及系统
技术领域
本发明涉及一种视频情感识别方法及系统,尤其涉及一种融合文本信息的GIF短视频情感识别方法及系统,属于计算机视觉视频情感识别技术领域。
背景技术
视频序列中的情感识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题。随着互联网技术的快速发展,社交媒体的日渐成熟,越来越多的人使用短视频来表达他们的观点和情感。然而短视频的情感识别由于语义鸿沟问题的存在以及视频序列的情感信息学习的困难,所以要提出一种既能学习视频序列信息又能准确理解情感语义的方法是一个很有挑战性的工作。
传统的情感识别工作主要注重于可以直观表达情感的文本内容,根据文本情感研究的分析尺度的不同,可以将基于文本的情感识别分成三个等级:文档级,语句级和实体级。而近年来随着社交多媒体内容的丰富,视觉情感分析逐步成为研究的热点,根据视觉研究的内容形式的不同,可以将视觉情感分析分为两类:图像情感分析和视频情感分析。
针对图像的情感分析中,文献[S.Siersdorfer,E.Minack,F.Deng,andJ.S.Hare,"Analyzing and predicting sentiment of images on the social web."InACM MM,pages 715–718,2010.]提出从像素级特征的层面对图像的情感进行分析,然而由于情感的复杂性,底层特征并不能很好的表现图像的情感含义。随着深度学习算法的逐步发展,越来越多的文献通过深度神经网络开始理解图像语义层面的特征。文献[H.J.Quanzeng You,Jiebo Luo and J.Yan,"Robust image sentiment analysis usingprogressively trained and domain transferred deep networks."AAAI,2015]将深度学习模型应用到视觉情感分析中,运用卷积神经网络(CNN)针对图像中的情感特征进行学习,从而获取图像的情感类别。同时,随着视觉情感分析内容复杂度的增加,很多文献提出将图像与文本共同处理的方法。文献[D.Borth,R.Ji,T.Chen,and S.-F.Chang,"Large-scale visual sentiment ontology and detectors using adjective noun pairs."ACM,2013,pp,223-232]通过使用1200个形容词名词对(ANP)来对图像的中层情感语义特征进行描述。文献[Quanzeng You,Liangliang Cao,Hailin Jin,Jiebo Luo,"RobustVisual-Textual Sentiment Anlysis:When Attention meets Tree-structuredRecursive Neural Networks."ACM Multimedia Conference(ACM MM),Amsterdam,TheNetherlands,October 2016]使用了一种注意力机制(Attention Model)和树形LSTM(T-LSTM)将文本特征和图像特征融合,以获得更贴切情感实体的高层语义特征。但是这些成果是在单帧图像的基础上对视觉情感进行分析,无法对视频时域序列上的特征进行描述。
针对视频的情感分析中,文献[Z.Cai,D.Cao,D.Lin,and R.Ji,"A spatial-temporal visual mid-level ontology for gif sentiment analysis."CEC,IEEE,pp.4860-4865,July 2016]提出一种提取视频中时空视觉中层语义特征的方法,强化对视频序列的理解,以此来提高视频情感分析的效率。文献[Dazhen Lin,Donglin Cao,andYanping,"GIF Video Sentiment Detection Using Semantic Sequence,MathemanticalProblems in Engineering."2017:1-11]以GIF短视频作为情感分析的研究对象,并在形容词名词对(ANP)的基础上增加了动词名词对(VNP)作为描述GIF短视频情感的语义序列,同时运用CNN和长短时记忆(LSTM)神经网络对模型进行训练。但是目前的相关文献所使用的CNN无法对GIF短视频时域上的信息进行描述,同时将视频与文本进行早期融合会使模型复杂度上升,并且视频信息与文本信息在特征层面的融合无法判断两种信息在最终情感分类中的重要性。
发明内容
发明目的:针对现有技术存在的问题,本发明目的在于提出一种融合文本信息的GIF短视频情感识别方法及系统,在利用GIF短视频中每帧图像的空间信息与视频序列的时序特征的同时,将文本的情感信息加以融合,实现视频的情感识别与情感丰富性判断。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
一种融合文本信息的GIF短视频情感识别方法,包括如下步骤:
(1)将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;
(2)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;
(3)将步骤(2)融合后的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;
(4)将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;
(5)将步骤(3)与步骤(4)的视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到。
作为优选,所述步骤(2)中包括:
(2.1)将步骤(1)提取出的视频候选帧图像每连续L帧视为一个序列,使用3D卷积神经网络提取出每个序列的池化五层特征;其中L为设定的序列长度,不足L帧时对最后一帧进行过采样,填补为一个序列;
(2.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征;
(2.3)将步骤(2.1)中的池化五层序列特征与步骤(2.2)中的池化五层图像特征串联融合作为表示视频片段的底层输入特征。
作为优选,所述步骤(3)中将分类概率区间映射到情感分值区间的方法为:对softmax输出的概率矩阵P=[p0 p1 p-1],取Pmax=max[p0,p1,p-1],其中p0为判断为中性情感的概率,p1为判断为积极情感的概率,p-1为判断为消极情感的概率,按照如下公式将Pmax从概率区间
Figure BDA0001711874290000031
映射到分值区间[-1,1]得到视频情感得分Sv
Figure BDA0001711874290000032
作为优选,所述步骤(4)中根据情感词组中每个单词Wi在情感打分工具SentiWordNet中的情感分值,获得文本的情感得分St
Figure BDA0001711874290000041
其中,n为一个文本语句中单词的个数。
作为优选,所述步骤(5)中包括:
(5.1)根据步骤(3)和步骤(4)中视频与文本的情感得分,得到最终GIF短视频的情感得分为:
Sg(w)=w·Sv+(1-w)·St
其中,w为情感权重;
(5.2)对步骤(5.1)中的情感得分的有效性进行判断:
Thre(w,t)=|wSv+(1-w)St|-t
其中,t为情感有效性阈值,每个GIF短视频的情感丰富程度视为:
Figure BDA0001711874290000042
(5.3)根据步骤(5.1)中情感得分的正负性及步骤(5.2)中情感丰富程度的大小,GIF短视频的情感类别为:
Figure BDA0001711874290000043
其中,1表示积极情感,-1表示消极情感,0表示中性情感,ε为松弛变量。
作为优选,情感权重w和有效性阈值t根据全局损失函数
Figure BDA0001711874290000044
利用梯度下降法学习得到
Figure BDA0001711874290000045
及其对应的参数w和t;其中
Figure BDA0001711874290000046
为预测情感类别,yi为实际情感类别,N为总样本数,
Figure BDA0001711874290000047
本发明另一方面提供的一种融合文本信息的GIF短视频情感识别系统,包括:
视频分割模块,用于将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;
视频片段特征提取模块,用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;
短视频情感得分计算模块,用于将视频片段特征提取模块获取的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;
注释文本情感得分计算模块,用于将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;
以及,情感识别模块,用于将视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到。
本发明另一方面提供的一种融合文本信息的GIF短视频情感识别系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的融合文本信息的GIF短视频情感识别方法。
有益效果:与现有技术相比,本发明融合文本信息的GIF短视频情感识别方法,在建模时采用能够提取视频时空信息的C3D与ConvLSTM,综合考虑了视频中每一帧的情感特征与视频整体序列情感特征之间的高阶相关性,更好的描述了GIF视频部分的情感信息。同时通过学习情感权重将文本的情感信息与视频的情感信息进行后期融合。相较于之前的工作,既没有增加模型的复杂度,也对视频情感识别中情感类别的判断、情感丰富程度的评分等都有显著的鲁棒性,在一定程度上提高了视频情感识别的准确度。
附图说明
图1是本发明融合文本信息的GIF短视频情感识别方法的流程示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明实施例公开的一种融合文本信息的GIF短视频情感识别方法,利用3D卷积神经网络(C3D)与卷积神经网络(CNN)提取出视频序列和帧图像的时序特征与空间特征;采用同时具有时序和空间信息的卷积长短时记忆(ConvLSTM)递归神经网络技术解码二者融合后的高层语义特征,再通过softmax分类器获得视频的最大分类概率,经过区间映射后作为视频的情感得分;利用SentiWordNet3.0对经过处理后的视频情感词组标签进行评分,作为文本的情感得分;将两个模态的得分按照不同的权重相加后判断其有效性,输出为GIF视频的情感丰富性分值,并判断其情感类别。其中涉及到的C3D、CNN和ConvLSTM网络模型参数是在文献[Y.Li,Y.Song,L.Cao,J.Tetreault,L.Goldberg,"TGIF:A NewDataset and Benchmark on Animated GIF Description."CVPR,2016:4641-4650]提供的T-GIF数据集上训练得到的。由于C3D、CNN和ConvLSTM网络是图像和视频深度学习领域中成熟的技术,具体网络结构和训练过程可以参考本实施例中提供的参考文献,本发明不再赘述。下面详细介绍本实施例的GIF短视频情感识别过程,具体包括如下步骤:
步骤A,将待识别的带有注释文本的GIF短视频按照设定的帧率,如25帧每秒,分割成若干候选帧图像。
步骤B,将步骤A中分割后的图像序列输入3D卷积神经网络(C3D)[S.Ji,W.Xu,M.Yang,and K.Yu,"3D convolutional neural networks for human actionrecognition."IEEE Trans.Pattern Anal.Mach.Intell.,vol.35,no.1,pp.221–231,Jan.2013]提取短视频的视觉感知上的时序特征,同时使用卷积神经网络(CNN)按顺序提取出每一帧图像的高层视觉语义特征,将C3D网络提取的短视频片段特征作为序列特征,将CNN提取出的片段中每一帧图像的特征作为图像特征,并将两种特征加以融合;具体包括:
步骤B1,将步骤A提取出的视频候选帧每连续的L帧视为一个序列,不足L帧时对最后一帧进行过采样,填补为一个序列,并使用3D卷积神经网络(C3D)提取出每个序列的池化五层特征;具体的每个序列的长度L根据构建的网络模型选定,如16、32等,本例中将每连续的16帧视为一个序列。
本例中采用的3D卷积神经网络共有8次卷次和5次池化操作,其中卷积核的大小均为3*3*3,步幅和填充为1*1*1;除pool1层采用1*2*2的卷积核和步幅外,pool2到pool5层均采用2*2*2的卷积核和步幅,在经过pool-5层后输出维度为512的包含视频时序信息的序列特征。
步骤B2,将每个序列中的图像按顺序输入卷积神经网络CNN中计算出每一帧的高层视觉特征,提取出每帧图像的池化五层特征;
本例中采用的卷积神经网络为VGG-16卷积神经网络[K.Simonyan,A.Zisseman,"Very Deep Convolutional Networks for Large-Scale Image Recognition."CVPR,2014],采用大小为3*3的卷积核,步幅和填充均为1*1,在经过pool-5层后输出的包含每帧图像空间信息的图像特征。
步骤B3,将步骤B1中的C3D pool-5序列特征与步骤B2中的图像VGG-16pool-5特征串联融合作为表示视频片段的底层输入特征。
本发明将时序特征与空间特征进行融合,在刻画视频中每一帧图像情感的同时,也考虑到了视频序列中时序上的情感信息,从特征层面强化了对GIF短视频内容的理解。
步骤C,将步骤B融合后的视频片段特征表示输入到卷积长短时记忆(ConvLSTM)[G.Zhu,L.Zhang,P.Shen,J.Song,"Multimodel Gesture Regression Using 3DConvolution and Convolutional LSTM"IEEE,2017,pp(99):1-1]神经网络中进行解码,并使用softmax分类器获得每个GIF短视频所属情感类别的概率矩阵,将其从分类概率区间[0,1]映射到情感分值区间[-1,1]后,作为视频部分的情感得分。具体包括:
步骤C1,将步骤B融合后的底层视频特征输入卷积长短时记忆(ConvLSTM)神经网络中进行解码,并使用softmax分类器获得每个GIF短视频所属三种情感类别的概率矩阵;
步骤C2,根据步骤C1中softmax输出的概率矩阵P=[p0 p1 p-1],取Pmax=max[p0,p1,p-1],其中p0为判断为中性情感的概率,p1为判断为积极情感的概率,p-1为判断为消极情感的概率。取三种概率中的最大值,且必有pmax>1/3,将Pmax从概率区间
Figure BDA0001711874290000071
映射到分值区间[-1,1]:
Figure BDA0001711874290000081
步骤D,将与GIF短视频内容相关联的注释语句进行分词处理,并将从中划分出的单词还原其词形,根据构建的同义词森林对划分后的语句标签进行筛选,选取其中对文本情感分类有效的单词,以此作为GIF短视频的情感词组标签,并将处理后的GIF短视频的情感词组标签输入到情感打分工具(如SentiWordNet3.0[S.Baccianella,A.Esuli,andF.Sebastiani,"Sentiwordnet 3.0:An enhanced lexical resource for sentimentanalysis and opinion mining."in International Conference on LanguageResources and Evaluation,Lrec 2010,17-23May 2010,Valletta,Malta,pp.83–90,2010])中,获得语句标签的情感得分。具体包括:
步骤D1,将GIF短视频的语句标签使用分词器分词,并将划分出的单词还原其词形,根据构建的同义词森林对划分后的语句标签进行筛选,只保留对视频情感有意义的单词,组合成短视频的情感词组标签;
步骤D2,根据情感词组中每个单词Wi在情感打分工具SentiWordNet3.0中的情感分值,获得文本的情感得分:
Figure BDA0001711874290000082
其中,n为情感词组中单词的个数。
步骤E,将步骤C与步骤D的视频情感得分与文本情感得分赋予不同的权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类。具体包括:
步骤E1,根据步骤C和步骤D中的公式(1)视频的情感得分与公式(3)文本的情感得分,可以得到GIF短视频的情感得分为:
Sg(w)=w·Sv+(1-w)·St (3)
步骤E2,对公式(4)中的情感得分的有效性进行判断:
Thre(w,t)=|wSv+(1-w)St|-t (4)
其中,t为情感有效性阈值,每个GIF短视频的情感丰富程度视为:
Figure BDA0001711874290000096
步骤E3,根据公式(4)中情感得分的正负性及公式(6)中情感丰富程度的大小,可以得到GIF短视频的情感类别为:
Figure BDA0001711874290000091
其中,1表示积极情感,-1表示消极情感,0表示中性情感,ε为松弛变量。
步骤E中的情感权重与判断分值有效性的阈值根据样本中预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到。模型学习的目的为找出最优的模型参数w和t,使得预测情感类别
Figure BDA0001711874290000095
和实际情感类别yi的差异最小。本发明给出的全局损失函数为:
Figure BDA0001711874290000092
其中,N为总样本数,
Figure BDA0001711874290000093
根据公式(7)中的损失函数,利用梯度下降法学习得到
Figure BDA0001711874290000094
及其对应的参数w和t。
本发明另一实施例公开的一种融合文本信息的GIF短视频情感识别系统,包括:视频分割模块,用于将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;视频片段特征提取模块,用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;短视频情感得分计算模块,用于将视频片段特征提取模块获取的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;注释文本情感得分计算模块,用于将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;以及,情感识别模块,用于将视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类。
上述融合文本信息的GIF短视频情感识别系统实施例可以用于执行上述融合文本信息的GIF短视频情感识别方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,上述描述的融合文本信息的GIF短视频情感识别的具体工作过程及有关说明,可以参考前述融合文本信息的GIF短视频情感识别方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例还提供一种融合文本信息的GIF短视频情感识别系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的融合文本信息的GIF短视频情感识别方法。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种融合文本信息的GIF短视频情感识别方法,其特征在于,包括如下步骤:
(1)将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;
(2)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;
(3)将步骤(2)融合后的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;
(4)将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;
(5)将步骤(3)与步骤(4)的视频情感得分Sv与文本情感得分St赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到;其中GIF短视频的情感类别为:
Figure FDA0002549540100000011
Sg(w)=w·Sv+(1-w)·St
Figure FDA0002549540100000012
Thre(w,t)=|wSv+(1-w)St|-t,w为情感权重,t为情感有效性阈值;1表示积极情感,-1表示消极情感,0表示中性情感,ε为松弛变量,
Figure FDA0002549540100000013
为预测情感类别。
2.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,所述步骤(2)中包括:
(2.1)将步骤(1)提取出的视频候选帧图像每连续L帧视为一个序列,使用3D卷积神经网络提取出每个序列的池化五层特征;其中L为设定的序列长度,不足L帧时对最后一帧进行过采样,填补为一个序列;
(2.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征;
(2.3)将步骤(2.1)中的池化五层序列特征与步骤(2.2)中的池化五层图像特征串联融合作为表示视频片段的底层输入特征。
3.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,所述步骤(3)将分类概率区间映射到情感分值区间的方法为:对softmax输出的概率矩阵P=[p0p1 p-1],取Pmax=max[p0,p1,p-1],其中p0为判断为中性情感的概率,p1为判断为积极情感的概率,p-1为判断为消极情感的概率,按照如下公式将Pmax从概率区间
Figure FDA0002549540100000021
映射到分值区间[-1,1]得到视频情感得分Sv
Figure FDA0002549540100000022
4.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,所述步骤(4)中根据情感词组中每个单词Wi在情感打分工具SentiWordNet中的情感分值,获得文本的情感得分St
Figure FDA0002549540100000023
其中,n为情感词组中单词的个数。
5.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法,其特征在于,情感权重w和有效性阈值t根据全局损失函数
Figure FDA0002549540100000024
利用梯度下降法学习得到
Figure FDA0002549540100000025
及其对应的参数w和t;其中yi为实际情感类别,N为总样本数,
Figure FDA0002549540100000026
6.一种融合文本信息的GIF短视频情感识别系统,其特征在于,包括:
视频分割模块,用于将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像;
视频片段特征提取模块,用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将序列特征与图像特征串联融合;
短视频情感得分计算模块,用于将视频片段特征提取模块获取的视频片段特征输入到卷积长短时记忆神经网络中进行解码,并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵,将其从分类概率区间映射到情感分值区间后,作为视频部分的情感得分;
注释文本情感得分计算模块,用于将与GIF短视频内容相关联的注释文本进行分词处理、词形还原,根据构建的同义词森林筛选出情感词组标签,并输入到情感打分工具中获得注释文本的情感得分;
以及,情感识别模块,用于将视频情感得分与文本情感得分赋予不同的情感权重后相加,采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分,并根据分值的正负性对GIF短视频进行情感分类;所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数,采用梯度下降法自学习得到;其中GIF短视频的情感类别为:
Figure FDA0002549540100000031
Sg(w)=w·Sv+(1-w)·St
Figure FDA0002549540100000032
Thre(w,t)=|wSv+(1-w)St|-t,w为情感权重,t为情感有效性阈值;1表示积极情感,-1表示消极情感,0表示中性情感,ε为松弛变量,
Figure FDA0002549540100000033
为预测情感类别。
7.一种融合文本信息的GIF短视频情感识别系统,其特征在于,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5所述的融合文本信息的GIF短视频情感识别方法。
CN201810686822.8A 2018-06-28 2018-06-28 一种融合文本信息的gif短视频情感识别方法及系统 Active CN109145712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810686822.8A CN109145712B (zh) 2018-06-28 2018-06-28 一种融合文本信息的gif短视频情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810686822.8A CN109145712B (zh) 2018-06-28 2018-06-28 一种融合文本信息的gif短视频情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN109145712A CN109145712A (zh) 2019-01-04
CN109145712B true CN109145712B (zh) 2020-10-16

Family

ID=64802490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810686822.8A Active CN109145712B (zh) 2018-06-28 2018-06-28 一种融合文本信息的gif短视频情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN109145712B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871124B (zh) * 2019-01-25 2020-10-27 华南理工大学 基于深度学习的情感虚拟现实场景评估方法
CN109992677B (zh) * 2019-03-14 2021-07-20 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配系统
CN110473571A (zh) * 2019-07-26 2019-11-19 北京影谱科技股份有限公司 基于短视频语音的情感识别方法和装置
CN110532911B (zh) * 2019-08-19 2021-11-26 南京邮电大学 协方差度量驱动小样本gif短视频情感识别方法及系统
CN110647933B (zh) * 2019-09-20 2023-06-20 北京达佳互联信息技术有限公司 一种视频的分类方法及装置
CN110650364B (zh) * 2019-09-27 2022-04-01 北京达佳互联信息技术有限公司 视频态度标签提取方法及基于视频的交互方法
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
EP3895036A1 (en) * 2020-02-21 2021-10-20 Google LLC Systems and methods for extracting temporal information from animated media content items using machine learning
CN111488813B (zh) * 2020-04-02 2023-09-08 咪咕文化科技有限公司 视频的情感标注方法、装置、电子设备及存储介质
CN112380394B (zh) 2020-10-27 2022-05-10 浙江工商大学 面向文本到视频片段定位的渐进式定位方法
CN112818955B (zh) * 2021-03-19 2023-09-15 北京市商汤科技开发有限公司 一种图像分割方法、装置、计算机设备以及存储介质
CN113221951B (zh) * 2021-04-13 2023-02-17 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113326703B (zh) * 2021-08-03 2021-11-16 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN114579806B (zh) * 2022-04-27 2022-08-09 阿里巴巴(中国)有限公司 视频检测方法、存储介质和处理器

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-Level Multimodal Sentiment Analysis;soujanya poria;《Proc of the 2015 conf.on Empirical Methods in Natural Language Processing》;20150917;正文第3、4、7、8部分 *
Long Short Term Memory Recurrent Neural Network based Multimodal Dimensional Emotion Recognition;Jianhua Tao;《Proceedings of the 5th International Workshop on Audio/Visual Emotion Challenge》;20151026;全文 *
Multimodal Spontaneous Emotion Corpus for Human Behavior Analysis;Zheng Zhang;《2016 IEEE Conference on Computer Vision》;20160601;全文 *
基于深度神经网络的微表情识别;唐爽;《电子技术与软件工程 》;20170331;正文第3部分 *
基于语义分析的情感计算技术研究进展;饶元;《软件学报》;20180314;第29卷(第8期);全文 *

Also Published As

Publication number Publication date
CN109145712A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145712B (zh) 一种融合文本信息的gif短视频情感识别方法及系统
CN108334605B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110852368B (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
Ma et al. Learning to answer questions from image using convolutional neural network
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
Wang et al. Spatial–temporal pooling for action recognition in videos
CN107798563B (zh) 基于多模态特征的互联网广告效果测评方法及系统
CN110532911B (zh) 协方差度量驱动小样本gif短视频情感识别方法及系统
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN110705490B (zh) 视觉情感识别方法
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
He et al. DepNet: An automated industrial intelligent system using deep learning for video‐based depression analysis
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
Yuan et al. A lightweight network for smoke semantic segmentation
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
Suhas Bharadwaj et al. A novel multimodal hybrid classifier based cyberbullying detection for social media platform
CN113807307A (zh) 一种用于视频多行为识别的多模态联合学习方法
Rawf et al. Effective Kurdish sign language detection and classification using convolutional neural networks
Shirzad et al. Deep Learning approach for text, image, and GIF multimodal sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant