CN109145712B

CN109145712B - 一种融合文本信息的gif短视频情感识别方法及系统

Info

Publication number: CN109145712B
Application number: CN201810686822.8A
Authority: CN
Inventors: 刘天亮; 万俊伟; 刘峰; 戴修斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2020-10-16
Anticipated expiration: 2038-06-28
Also published as: CN109145712A

Abstract

本发明公开了一种融合文本信息的GIF短视频情感识别方法及系统，该方法首先利用3D卷积神经网络提取出GIF短视频中序列特征，同时利用卷积神经网络提取出序列中图像视觉特征；再采用卷积长短时记忆递归神经网络技术解码二者融合后的高层语义特征，计算出情感分类概率分布矩阵，将进行区间映射得到视频部分的情感得分。接着，从注释文本中的单词筛选出蕴含情感信息的词汇，采用情感打分工具计算出文本情感得分。最后，将视频情感得分与文本情感得分赋予不同的权重相加并做有效性判别，对GIF短视频进行情感分类。本发明能有效关注GIF视频中图像的情感信息，同时兼顾视频流的时序特征，并且文本信息与视频信息融合，提高了GIF视频情感分类的准确度和鲁棒性。

Description

一种融合文本信息的GIF短视频情感识别方法及系统

技术领域

本发明涉及一种视频情感识别方法及系统，尤其涉及一种融合文本信息的GIF短视频情感识别方法及系统，属于计算机视觉视频情感识别技术领域。

背景技术

视频序列中的情感识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题。随着互联网技术的快速发展，社交媒体的日渐成熟，越来越多的人使用短视频来表达他们的观点和情感。然而短视频的情感识别由于语义鸿沟问题的存在以及视频序列的情感信息学习的困难，所以要提出一种既能学习视频序列信息又能准确理解情感语义的方法是一个很有挑战性的工作。

传统的情感识别工作主要注重于可以直观表达情感的文本内容，根据文本情感研究的分析尺度的不同，可以将基于文本的情感识别分成三个等级：文档级，语句级和实体级。而近年来随着社交多媒体内容的丰富，视觉情感分析逐步成为研究的热点，根据视觉研究的内容形式的不同，可以将视觉情感分析分为两类：图像情感分析和视频情感分析。

针对图像的情感分析中，文献[S.Siersdorfer,E.Minack,F.Deng,andJ.S.Hare,"Analyzing and predicting sentiment of images on the social web."InACM MM,pages 715–718,2010.]提出从像素级特征的层面对图像的情感进行分析，然而由于情感的复杂性，底层特征并不能很好的表现图像的情感含义。随着深度学习算法的逐步发展，越来越多的文献通过深度神经网络开始理解图像语义层面的特征。文献[H.J.Quanzeng You,Jiebo Luo and J.Yan,"Robust image sentiment analysis usingprogressively trained and domain transferred deep networks."AAAI,2015]将深度学习模型应用到视觉情感分析中，运用卷积神经网络(CNN)针对图像中的情感特征进行学习，从而获取图像的情感类别。同时，随着视觉情感分析内容复杂度的增加，很多文献提出将图像与文本共同处理的方法。文献[D.Borth,R.Ji,T.Chen,and S.-F.Chang,"Large-scale visual sentiment ontology and detectors using adjective noun pairs."ACM,2013,pp,223-232]通过使用1200个形容词名词对(ANP)来对图像的中层情感语义特征进行描述。文献[Quanzeng You,Liangliang Cao,Hailin Jin,Jiebo Luo,"RobustVisual-Textual Sentiment Anlysis:When Attention meets Tree-structuredRecursive Neural Networks."ACM Multimedia Conference(ACM MM),Amsterdam,TheNetherlands,October 2016]使用了一种注意力机制(Attention Model)和树形LSTM(T-LSTM)将文本特征和图像特征融合，以获得更贴切情感实体的高层语义特征。但是这些成果是在单帧图像的基础上对视觉情感进行分析，无法对视频时域序列上的特征进行描述。

针对视频的情感分析中，文献[Z.Cai,D.Cao,D.Lin,and R.Ji,"A spatial-temporal visual mid-level ontology for gif sentiment analysis."CEC,IEEE,pp.4860-4865,July 2016]提出一种提取视频中时空视觉中层语义特征的方法，强化对视频序列的理解，以此来提高视频情感分析的效率。文献[Dazhen Lin,Donglin Cao,andYanping,"GIF Video Sentiment Detection Using Semantic Sequence,MathemanticalProblems in Engineering."2017:1-11]以GIF短视频作为情感分析的研究对象，并在形容词名词对(ANP)的基础上增加了动词名词对(VNP)作为描述GIF短视频情感的语义序列，同时运用CNN和长短时记忆(LSTM)神经网络对模型进行训练。但是目前的相关文献所使用的CNN无法对GIF短视频时域上的信息进行描述，同时将视频与文本进行早期融合会使模型复杂度上升，并且视频信息与文本信息在特征层面的融合无法判断两种信息在最终情感分类中的重要性。

发明内容

发明目的：针对现有技术存在的问题，本发明目的在于提出一种融合文本信息的GIF短视频情感识别方法及系统，在利用GIF短视频中每帧图像的空间信息与视频序列的时序特征的同时，将文本的情感信息加以融合，实现视频的情感识别与情感丰富性判断。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

一种融合文本信息的GIF短视频情感识别方法，包括如下步骤：

(1)将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像；

(2)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将序列特征与图像特征串联融合；

(3)将步骤(2)融合后的视频片段特征输入到卷积长短时记忆神经网络中进行解码，并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵，将其从分类概率区间映射到情感分值区间后，作为视频部分的情感得分；

(4)将与GIF短视频内容相关联的注释文本进行分词处理、词形还原，根据构建的同义词森林筛选出情感词组标签，并输入到情感打分工具中获得注释文本的情感得分；

(5)将步骤(3)与步骤(4)的视频情感得分与文本情感得分赋予不同的情感权重后相加，采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分，并根据分值的正负性对GIF短视频进行情感分类；所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到。

作为优选，所述步骤(2)中包括：

(2.1)将步骤(1)提取出的视频候选帧图像每连续L帧视为一个序列，使用3D卷积神经网络提取出每个序列的池化五层特征；其中L为设定的序列长度，不足L帧时对最后一帧进行过采样，填补为一个序列；

(2.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征；

(2.3)将步骤(2.1)中的池化五层序列特征与步骤(2.2)中的池化五层图像特征串联融合作为表示视频片段的底层输入特征。

作为优选，所述步骤(3)中将分类概率区间映射到情感分值区间的方法为：对softmax输出的概率矩阵P＝[p₀ p₁ p_-1]，取P_max＝max[p₀,p₁,p_-1]，其中p₀为判断为中性情感的概率，p₁为判断为积极情感的概率，p_-1为判断为消极情感的概率，按照如下公式将P_max从概率区间

映射到分值区间[-1,1]得到视频情感得分S_v：

作为优选，所述步骤(4)中根据情感词组中每个单词W_i在情感打分工具SentiWordNet中的情感分值，获得文本的情感得分S_t：

其中，n为一个文本语句中单词的个数。

作为优选，所述步骤(5)中包括：

(5.1)根据步骤(3)和步骤(4)中视频与文本的情感得分，得到最终GIF短视频的情感得分为：

S_g(w)＝w·S_v+(1-w)·S_t

其中，w为情感权重；

(5.2)对步骤(5.1)中的情感得分的有效性进行判断：

Thre(w,t)＝|wS_v+(1-w)S_t|-t

其中，t为情感有效性阈值，每个GIF短视频的情感丰富程度视为：

(5.3)根据步骤(5.1)中情感得分的正负性及步骤(5.2)中情感丰富程度的大小，GIF短视频的情感类别为：

其中，1表示积极情感，-1表示消极情感，0表示中性情感，ε为松弛变量。

作为优选，情感权重w和有效性阈值t根据全局损失函数

利用梯度下降法学习得到

及其对应的参数w和t；其中

为预测情感类别，yi为实际情感类别，N为总样本数，

本发明另一方面提供的一种融合文本信息的GIF短视频情感识别系统，包括：

视频分割模块，用于将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像；

视频片段特征提取模块，用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将序列特征与图像特征串联融合；

短视频情感得分计算模块，用于将视频片段特征提取模块获取的视频片段特征输入到卷积长短时记忆神经网络中进行解码，并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵，将其从分类概率区间映射到情感分值区间后，作为视频部分的情感得分；

注释文本情感得分计算模块，用于将与GIF短视频内容相关联的注释文本进行分词处理、词形还原，根据构建的同义词森林筛选出情感词组标签，并输入到情感打分工具中获得注释文本的情感得分；

以及，情感识别模块，用于将视频情感得分与文本情感得分赋予不同的情感权重后相加，采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分，并根据分值的正负性对GIF短视频进行情感分类；所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到。

本发明另一方面提供的一种融合文本信息的GIF短视频情感识别系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的融合文本信息的GIF短视频情感识别方法。

有益效果：与现有技术相比，本发明融合文本信息的GIF短视频情感识别方法，在建模时采用能够提取视频时空信息的C3D与ConvLSTM，综合考虑了视频中每一帧的情感特征与视频整体序列情感特征之间的高阶相关性，更好的描述了GIF视频部分的情感信息。同时通过学习情感权重将文本的情感信息与视频的情感信息进行后期融合。相较于之前的工作，既没有增加模型的复杂度，也对视频情感识别中情感类别的判断、情感丰富程度的评分等都有显著的鲁棒性，在一定程度上提高了视频情感识别的准确度。

附图说明

图1是本发明融合文本信息的GIF短视频情感识别方法的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，本发明实施例公开的一种融合文本信息的GIF短视频情感识别方法，利用3D卷积神经网络(C3D)与卷积神经网络(CNN)提取出视频序列和帧图像的时序特征与空间特征；采用同时具有时序和空间信息的卷积长短时记忆(ConvLSTM)递归神经网络技术解码二者融合后的高层语义特征，再通过softmax分类器获得视频的最大分类概率，经过区间映射后作为视频的情感得分；利用SentiWordNet3.0对经过处理后的视频情感词组标签进行评分，作为文本的情感得分；将两个模态的得分按照不同的权重相加后判断其有效性，输出为GIF视频的情感丰富性分值，并判断其情感类别。其中涉及到的C3D、CNN和ConvLSTM网络模型参数是在文献[Y.Li,Y.Song,L.Cao,J.Tetreault,L.Goldberg,"TGIF:A NewDataset and Benchmark on Animated GIF Description."CVPR,2016:4641-4650]提供的T-GIF数据集上训练得到的。由于C3D、CNN和ConvLSTM网络是图像和视频深度学习领域中成熟的技术，具体网络结构和训练过程可以参考本实施例中提供的参考文献，本发明不再赘述。下面详细介绍本实施例的GIF短视频情感识别过程，具体包括如下步骤：

步骤A，将待识别的带有注释文本的GIF短视频按照设定的帧率，如25帧每秒，分割成若干候选帧图像。

步骤B，将步骤A中分割后的图像序列输入3D卷积神经网络(C3D)[S.Ji,W.Xu,M.Yang,and K.Yu,"3D convolutional neural networks for human actionrecognition."IEEE Trans.Pattern Anal.Mach.Intell.,vol.35,no.1,pp.221–231,Jan.2013]提取短视频的视觉感知上的时序特征，同时使用卷积神经网络(CNN)按顺序提取出每一帧图像的高层视觉语义特征，将C3D网络提取的短视频片段特征作为序列特征，将CNN提取出的片段中每一帧图像的特征作为图像特征，并将两种特征加以融合；具体包括：

步骤B1，将步骤A提取出的视频候选帧每连续的L帧视为一个序列，不足L帧时对最后一帧进行过采样，填补为一个序列，并使用3D卷积神经网络(C3D)提取出每个序列的池化五层特征；具体的每个序列的长度L根据构建的网络模型选定，如16、32等，本例中将每连续的16帧视为一个序列。

本例中采用的3D卷积神经网络共有8次卷次和5次池化操作，其中卷积核的大小均为3*3*3，步幅和填充为1*1*1；除pool1层采用1*2*2的卷积核和步幅外，pool2到pool5层均采用2*2*2的卷积核和步幅，在经过pool-5层后输出维度为512的包含视频时序信息的序列特征。

步骤B2，将每个序列中的图像按顺序输入卷积神经网络CNN中计算出每一帧的高层视觉特征，提取出每帧图像的池化五层特征；

本例中采用的卷积神经网络为VGG-16卷积神经网络[K.Simonyan,A.Zisseman,"Very Deep Convolutional Networks for Large-Scale Image Recognition."CVPR,2014]，采用大小为3*3的卷积核，步幅和填充均为1*1，在经过pool-5层后输出的包含每帧图像空间信息的图像特征。

步骤B3，将步骤B1中的C3D pool-5序列特征与步骤B2中的图像VGG-16pool-5特征串联融合作为表示视频片段的底层输入特征。

本发明将时序特征与空间特征进行融合，在刻画视频中每一帧图像情感的同时，也考虑到了视频序列中时序上的情感信息，从特征层面强化了对GIF短视频内容的理解。

步骤C，将步骤B融合后的视频片段特征表示输入到卷积长短时记忆(ConvLSTM)[G.Zhu,L.Zhang,P.Shen,J.Song,"Multimodel Gesture Regression Using 3DConvolution and Convolutional LSTM"IEEE,2017,pp(99):1-1]神经网络中进行解码，并使用softmax分类器获得每个GIF短视频所属情感类别的概率矩阵，将其从分类概率区间[0,1]映射到情感分值区间[-1,1]后，作为视频部分的情感得分。具体包括：

步骤C1,将步骤B融合后的底层视频特征输入卷积长短时记忆(ConvLSTM)神经网络中进行解码，并使用softmax分类器获得每个GIF短视频所属三种情感类别的概率矩阵；

步骤C2，根据步骤C1中softmax输出的概率矩阵P＝[p₀ p₁ p_-1]，取P_max＝max[p₀,p₁,p_-1]，其中p₀为判断为中性情感的概率，p₁为判断为积极情感的概率，p_-1为判断为消极情感的概率。取三种概率中的最大值，且必有p_max＞1/3，将P_max从概率区间

映射到分值区间[-1,1]：

步骤D，将与GIF短视频内容相关联的注释语句进行分词处理，并将从中划分出的单词还原其词形，根据构建的同义词森林对划分后的语句标签进行筛选，选取其中对文本情感分类有效的单词，以此作为GIF短视频的情感词组标签，并将处理后的GIF短视频的情感词组标签输入到情感打分工具(如SentiWordNet3.0[S.Baccianella,A.Esuli,andF.Sebastiani,"Sentiwordnet 3.0:An enhanced lexical resource for sentimentanalysis and opinion mining."in International Conference on LanguageResources and Evaluation,Lrec 2010,17-23May 2010,Valletta,Malta,pp.83–90,2010])中，获得语句标签的情感得分。具体包括：

步骤D1，将GIF短视频的语句标签使用分词器分词，并将划分出的单词还原其词形，根据构建的同义词森林对划分后的语句标签进行筛选，只保留对视频情感有意义的单词，组合成短视频的情感词组标签；

步骤D2，根据情感词组中每个单词W_i在情感打分工具SentiWordNet3.0中的情感分值，获得文本的情感得分：

其中，n为情感词组中单词的个数。

步骤E，将步骤C与步骤D的视频情感得分与文本情感得分赋予不同的权重后相加，采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分，并根据分值的正负性对GIF短视频进行情感分类。具体包括：

步骤E1，根据步骤C和步骤D中的公式(1)视频的情感得分与公式(3)文本的情感得分，可以得到GIF短视频的情感得分为：

S_g(w)＝w·S_v+(1-w)·S_t (3)

步骤E2，对公式(4)中的情感得分的有效性进行判断：

Thre(w,t)＝|wS_v+(1-w)S_t|-t (4)

步骤E3，根据公式(4)中情感得分的正负性及公式(6)中情感丰富程度的大小，可以得到GIF短视频的情感类别为：

步骤E中的情感权重与判断分值有效性的阈值根据样本中预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到。模型学习的目的为找出最优的模型参数w和t，使得预测情感类别

和实际情感类别y_i的差异最小。本发明给出的全局损失函数为：

其中，N为总样本数，

根据公式(7)中的损失函数，利用梯度下降法学习得到

及其对应的参数w和t。

本发明另一实施例公开的一种融合文本信息的GIF短视频情感识别系统，包括：视频分割模块，用于将带有注释文本的GIF短视频按照设定帧率分割为若干候选帧图像；视频片段特征提取模块，用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将序列特征与图像特征串联融合；短视频情感得分计算模块，用于将视频片段特征提取模块获取的视频片段特征输入到卷积长短时记忆神经网络中进行解码，并使用softmax分类器获得GIF短视频所属情感类别的概率矩阵，将其从分类概率区间映射到情感分值区间后，作为视频部分的情感得分；注释文本情感得分计算模块，用于将与GIF短视频内容相关联的注释文本进行分词处理、词形还原，根据构建的同义词森林筛选出情感词组标签，并输入到情感打分工具中获得注释文本的情感得分；以及，情感识别模块，用于将视频情感得分与文本情感得分赋予不同的情感权重后相加，采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分，并根据分值的正负性对GIF短视频进行情感分类。

上述融合文本信息的GIF短视频情感识别系统实施例可以用于执行上述融合文本信息的GIF短视频情感识别方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，上述描述的融合文本信息的GIF短视频情感识别的具体工作过程及有关说明，可以参考前述融合文本信息的GIF短视频情感识别方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例还提供一种融合文本信息的GIF短视频情感识别系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的融合文本信息的GIF短视频情感识别方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种融合文本信息的GIF短视频情感识别方法，其特征在于，包括如下步骤：

(5)将步骤(3)与步骤(4)的视频情感得分S_v与文本情感得分S_t赋予不同的情感权重后相加，采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分，并根据分值的正负性对GIF短视频进行情感分类；所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到；其中GIF短视频的情感类别为：

S_g(w)＝w·S_v+(1-w)·S_t，

Thre(w,t)＝|wS_v+(1-w)S_t|-t，w为情感权重，t为情感有效性阈值；1表示积极情感，-1表示消极情感，0表示中性情感，ε为松弛变量，

为预测情感类别。

2.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法，其特征在于，所述步骤(2)中包括：

3.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法，其特征在于，所述步骤(3)将分类概率区间映射到情感分值区间的方法为：对softmax输出的概率矩阵P＝[p₀p₁ p_-1]，取P_max＝max[p₀,p₁,p_-1]，其中p₀为判断为中性情感的概率，p₁为判断为积极情感的概率，p_-1为判断为消极情感的概率，按照如下公式将P_max从概率区间

映射到分值区间[-1,1]得到视频情感得分S_v：

4.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法，其特征在于，所述步骤(4)中根据情感词组中每个单词W_i在情感打分工具SentiWordNet中的情感分值，获得文本的情感得分S_t：

其中，n为情感词组中单词的个数。

5.根据权利要求1所述的融合文本信息的GIF短视频情感识别方法，其特征在于，情感权重w和有效性阈值t根据全局损失函数

利用梯度下降法学习得到

及其对应的参数w和t；其中y_i为实际情感类别，N为总样本数，

6.一种融合文本信息的GIF短视频情感识别系统，其特征在于，包括：

以及，情感识别模块，用于将视频情感得分与文本情感得分赋予不同的情感权重后相加，采用自适应阈值法对分值进行有效性判断后作为描述GIF短视频的情感丰富程度的得分，并根据分值的正负性对GIF短视频进行情感分类；所述情感权重和阈值根据样本数据的预测情感类别与真实情感类别的损失函数，采用梯度下降法自学习得到；其中GIF短视频的情感类别为：

S_g(w)＝w·S_v+(1-w)·S_t，

为预测情感类别。

7.一种融合文本信息的GIF短视频情感识别系统，其特征在于，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-5所述的融合文本信息的GIF短视频情感识别方法。