CN110532911A

CN110532911A - 协方差度量驱动小样本gif短视频情感识别方法及系统

Info

Publication number: CN110532911A
Application number: CN201910763722.5A
Authority: CN
Inventors: 刘天亮; 陈敏; 戴修斌; 周亮
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-12-03
Anticipated expiration: 2039-08-19
Also published as: CN110532911B

Abstract

本发明公开了一种协方差度量驱动小样本GIF短视频情感识别方法及系统。该方法首先从数据集中抽取样本构成支撑集和查询集，并将抽取的样本按照设定帧率分割为若干候选帧图像；然后利用C3D提取样本中的序列特征，同时利用CNN提取帧图像的视觉特征，然后逐帧进行哈达玛内积运算，得到最终的图像视觉特征，再采用ConvLSTM技术提取二者融合后的高层语义特征；再将支撑集样本提取的特征和查询集样本提取的特征进行拼接后通过协方差度量模块度量查询集样本和支撑集样本每类情感之间的相似性，最后利用softmax分类器预测最终的结果。本发明能有效关注GIF中图像的情感信息，同时兼顾视频流的时序特征，适用于小样本情况下的多分类视频情感分析，提高了分类准确率。

Description

协方差度量驱动小样本GIF短视频情感识别方法及系统

技术领域

本发明涉及一种协方差度量驱动小样本GIF短视频情感识别方法及系统，属于计算机视觉视频情感识别技术领域。

背景技术

近年来随着社交多媒体内容的丰富，视觉情感分析逐步成为研究的热点，根据视觉研究的内容形式的不同，可以将视觉情感分析分为两类：图像情感分析和视频情感分析。

针对图像的情感分析中，文献[S.Siersdorfer,E.Minack,F.Deng,andJ.S.Hare,"Analyzing and predicting sentiment of images on the social web."InACM MM,pages 715–718,2010.]提出从像素级特征的层面对图像的情感进行分析，然而由于情感的复杂性，底层特征并不能很好的表现图像的情感含义。随着深度学习算法的逐步发展，越来越多的文献通过深度神经网络开始理解图像语义层面的特征。文献[H.J.Quanzeng You,Jiebo Luo and J.Yan,"Robust image sentiment analysis usingprogressively trained and domain transferred deep networks."AAAI,2015]将深度学习模型应用到视觉情感分析中，运用卷积神经网络(CNN)针对图像中的情感特征进行学习，从而获取图像的情感类别。

针对视频的情感分析中，文献[Z.Cai,D.Cao,D.Lin,and R.Ji,"A spatial-temporal visual mid-level ontology for gif sentiment analysis."CEC,IEEE,pp.4860-4865,July 2016]提出一种提取视频中时空视觉中层语义特征的方法，强化对视频序列的理解，以此来提高视频情感分析的效率。文献[Dazhen Lin,Donglin Cao,andYanping,"GIF Video Sentiment Detection Using Semantic Sequence,MathemanticalProblems in Engineering."2017:1-11]以GIF短视频作为情感分析的研究对象，运用CNN和长短时记忆(LSTM)神经网络对模型进行训练。但是目前的相关文献所使用的CNN无法对GIF短视频时域上的信息进行描述。

现有的视频数据情感分析常用于处理积极，消极和中性的情感分类，对于多分类的视频情感分析相对较少，针对多分类的视频情感分析，其准确度有待进一步提高。由于深度学习需要的数据量庞大，同时，模型也变得越来越难训练，但是在真实的场景中，人们往往面临的是没有如此多的训练数据的情况，当训练数据较少时，神经网络通常容易过拟合，这是由于传统的梯度更新算法没有针对当前任务的先验知识，无法在神经网络空间找到具有较好泛化能力的参数点，小样本学习能很好地解决样本数量缺乏的问题。小样本学习在训练阶段将数据集分解为不同的任务，去学习类别变化的情况下模型的泛化能力，在测试阶段，面对全新的类别，不需要变动已有的模型，就可以完成分类。现有的基于小样本学习的方法通常采用基于余弦相似性等度量方法或只考虑到样本特征之间的一阶统计量特性。在社会化媒体时代，图像和视频信息已经成为人们主流的交流方式，然而短视频的情感识别由于视频序列的情感信息学习比较困难并且现有的关于短视频情感分析的数据集数量有限且样本数量也有限。

针对上述问题，本发明提出一种协方差度量方法学习样本特征之间的二阶统计量特性，并结合小样本学习的方法学习视频序列信息，将解决GIF短视频多分类情感识别中样本数量缺乏的问题和提高分类的准确率作为本发明的主要研究方向。

发明内容

发明目的：针对现有技术中视觉情感分析多用于消极、积极、中性等类别的分析而基于多分类的视频情感分析研究技术相对较少的问题，本发明目的在于提出一种协方差度量驱动小样本GIF短视频情感识别方法及系统，利用GIF短视频中每帧图像的空间信息与视频序列的时序特征信息，实现多类别的视频情感识别。

技术方案：为实现上述目的，本发明采用如下技术方案：

一种协方差度量驱动小样本GIF短视频情感识别方法，包括如下步骤：

(1)从给定的数据集之中抽取样本构成支撑集和查询集，所述支撑集和查询集共享相同的标记空间；

(2)将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像；

(3)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将CNN提取到的每帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征，将序列特征与图像视觉特征串联融合，输入到卷积长短时记忆神经网络ConvLSTM中，得到具有时间序列的GIF短视频特征；

(4)将支撑集和查询集的每个样本按照步骤(3)提取GIF短视频特征，并进行拼接后输入协方差度量模块计算查询集样本和支撑集样本之间的相似性；

(5)根据查询集样本和支撑集样本之间的相似性的高低，利用softmax分类器预测查询集样本最终的情感类别的概率矩阵，采用批量随机梯度下降法来优化损失函数，得到训练好的网络模型；

(6)将测试集样本输入上述训练好的网络模型当中，预测出待识别的GIF短视频情感类别。

作为优选，所述步骤(1)中对于给定的数据集，从待训练的N类数据集随机抽取C类作为支撑集，C<N，每次训练从C类中每个类别各取K(K≥1)张GIF的序列帧样本作为支撑集S，将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为查询集样本，即支撑集与查询集共享相同的标记空间.

作为优选，所述步骤(3)中包括：

(3.1)将步骤(2)提取出的视频候选帧图像每连续L帧视为一个序列，使用3D卷积神经网络提取出每个序列的池化五层特征；其中L为设定的序列长度，不足L帧时对最后一帧进行过采样，填补为一个序列；

(3.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征，将CNN提取到的每帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征；

(3.3)将步骤(3.1)中的池化五层序列特征与步骤(3.2)中的图像视觉特征串联融合作为表示视频片段的底层输入特征；

(3.4)将步骤(3.3)融合后的视频片段底层特征输入双层ConvLSTM网络，得到GIF短视频的高层语义特征。

作为优选，所述步骤(4)中包括：

(4.1)支撑集每个样本x_j(j∈[1,C*K])提取的特征f(x_j)，查询集每个样本x_i(i∈[1,M])提取的特征f(x_i)，特征f(x_j)和f(x_i)通过特征拼接得到其中，C为支撑集中随机抽取的类别数量，K为每个类别抽取的样本数量，M为查询集每个类别抽取的样本数量；

(4.2)支撑集样本和查询集样本拼接后的特征共同输入协方差度量模块g，协方差度量模块计算出支撑集样本与查询集样本之间的相似性r_j,i。

作为优选，所述支撑集样本和查询集样本特征拼接的方式为：当支撑集与查询集都为单个样本时表示每类支撑集样本x_j的特征与查询集样本x_i的特征分别进行Concatenate操作，即按列进行拼接，当K>1或M>1时，先分别将支撑集各个类别的样本特征相加，然后将查询集的样本特征相加，最后将支撑集与查询集相加后的特征进行拼接。

作为优选，所述协方差度量模块为：

r_j,i＝(f(x_j)-f(x_i))^TW(f(x_j)-f(x_i))

其中f(x_i)∈R^d*l，f(x_j)∈R^d*l，d,l分别表示样本特征的行数和列数，W∈R^d*d表示拼接后特征行向量之间的协方差矩阵，是由Ε_α,β(α∈[1,d],β∈[1,d])组成的对称矩阵，其中表示拼接后α,β行的特征表示，μ_α,μ_β表示拼接后α,β行的均值。

作为优选，所述步骤(5)中包括：

(5.1)利用Softmax分类器进行分类，得到最终的情感分类概率矩阵结果：

其中，C为从支撑集中随机抽取的类别数量，K为每个类别抽取的样本数量，M为查询集每个类别抽取的样本数量，r_j,i为支撑集样本x_j与查询集样本x_i之间的相似性，p_ji是查询集样本x_i属于支撑集样本x_j的概率；

(5.2)利用交叉熵损失函数进行优化，损失函数如下：

利用批量随机梯度下降法来优化损失函数，学习得到minJ，其中，yⁱ是查询集样本x_i的标签,y^j是支撑集样本x_j的标签，ξ[·]是指示函数，当表达式为真时输出为1否则输出为0。

作为优选，所选步骤(6)中包括：

(6.1)对于T类测试集样本，该T类测试集样本与训练过程N类样本不相交，从T类数据集随机抽取C(C<T)类作为支撑集，每次测试从C类中各抽取K(K≥1)张GIF短视频样本，将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张未标记的GIF短视频样本作为模型待识别的查询集；

(6.2)将分配好的测试集输入上述训练好的模型当中，将输入的未标记的查询集样本不断地与支撑集样本进行协方差度量，根据相似性的高低，最终预测出未标记的查询集样本的所属类别。

本发明另一方面提供的协方差度量驱动小样本GIF短视频情感识别系统，包括：

样本划分模块，用于从给定的数据集之中抽取样本构成支撑集和查询集，所述支撑集和查询集共享相同的标记空间；

视频分割模块，用于将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像；

视频特征提取模块，用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将CNN提取到的帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征，将序列特征与图像视觉特征串联融合，输入到卷积长短时记忆神经网络ConvLSTM中，得到具有时间序列的GIF短视频特征；

协方差度量模块，用于计算GIF短视频特征之间的相似性；

情感识别模块，用于将支撑集样本和待预测的查询集样本之间提取的特征进行拼接，并将拼接后的特征利用协方差度量模块计算出查询集样本与支撑集样本之间相似性的高低，根据相似性的高低，利用softmax分类器预测查询集样本最终的情感类别，其中预测情感类别的损失函数，采用随机梯度下降法进行优化。

本发明另一方面提供的协方差度量驱动小样本GIF短视频情感识别系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的协方差度量驱动小样本GIF短视频情感识别方法。

有益效果：与现有技术相比，本发明协方差度量驱动小样本GIF短视频情感识别方法，在建模时采用能够提取视频时空信息的C3D与ConvLSTM，综合考虑了视频中每一帧的情感特征与视频整体序列情感特征之间的高阶相关性，更好的描述了GIF视频部分的情感信息。同时利用小样本学习的方法从少量数据中获取足够的信息完成分类任务，基于协方差度量学习方法学习样本特征之间的二阶统计量特性，相较于之前的工作，没有增加模型的复杂度，并且对视频情感识别中情感类别的判断提出了一种新的方法，有效适用于小样本情况下的多分类视频情感分析，并且提高分类的准确率。

附图说明

图1是本发明协方差度量驱动小样本GIF短视频情感识别方法流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

如图1所示，本发明实施例公开一种协方差度量驱动小样本GIF短视频情感识别方法。该方法首先从待训练的N类数据中随机提取C类作为支撑集Support set(简称S)，每次训练从C类中各取K(K≥1)张GIF的短视频样本,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为模型待查询的数据集Query set(简称Q)。然后利用3D卷积神经网络提取支撑数据集C类的短视频中的序列特征。将待查询样本的短视频同时输入该3D卷积神经网络中用于提取特征，然后通过一个协方差度量模块以测量待查询样本的短视频和支撑集每类样本之间的情感相似性，最后利用softmax分类器预测最终的结果。下面详细介绍本实例的GIF短视频情感识别过程，具体包括如下步骤：

步骤(1)：对于给定的数据集，从待训练的N类数据集中随机抽取C(C<N)类作为支撑集S，每次训练从C类中每个类别各取K(K≥1)张GIF的短视频,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为模型待查询的数据集Q，将二者作为输入。

步骤(2)：将数据集的GIF短视频按照设定的帧率，如25帧每秒，分割成若干候选帧图像。

步骤(3)：将步骤(2)中分割后的图像序列输入3D卷积神经网络(C3D)，提取短视频的视觉感知上的时序特征，同时使用卷积神经网络(CNN)按顺序提取出每一帧图像的高层视觉语义特征，将C3D网络提取的短视频片段特征作为序列特征，将CNN提取到的每帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征，并将两种特征加以融合，将融合后的特征输入到卷积长短时记忆神经网络ConvLSTM中，得到具有时间序列的GIF短视频特征；具体包括：

步骤(3.1)：将步骤(2)提取出的视频候选帧每连续的L帧视为一个序列，不足L帧时对最后一帧进行过采样，填补为一个序列，并使用3D卷积神经网络(C3D)提取出每个序列的池化五层特征；具体的每个序列的长度L根据构建的网络模型选定，如16、32等，本例中将每连续的16帧视为一个序列。

本例中采用的3D卷积神经网络共有8次卷次和5次池化操作，其中卷积核的大小均为3*3*3，步幅和填充为1*1*1；除pool1层采用1*2*2的卷积核和步幅外，pool2到pool5层均采用2*2*2的卷积核和步幅，在经过pool-5层后输出维度为512的包含视频时序信息的序列特征。

步骤(3.2)：将每个序列中的图像按顺序输入卷积神经网络CNN(本例中采用VGG-16)中计算出每一帧的高层视觉特征，提取出每帧图像的池化五层特征，将CNN提取到的每帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征；

步骤(3.3)：将步骤(3.1)中的C3D pool-5序列特征与步骤(3.2)中的图像视觉特征串联融合作为表示视频片段的底层输入特征。

步骤(3.4)：将步骤(3.3)融合后的视频片段特征表示输入到双层卷积长短时记忆(ConvLSTM)神经网络中，输出具有时间序列的GIF短视频特征。

本发明将时序特征与空间特征进行融合，在刻画视频中每一帧图像情感的同时，也考虑到了视频序列中时序上的情感信息，从特征层面强化了对GIF短视频内容的理解。

步骤(4)：将步骤(3)提取的特征先进行拼接，然后输入协方差度量模块中计算支撑集S与查询集Q的相似性，具体包括：

步骤(4.1):支撑集每个样本x_j(j∈[1,C*K])提取的特征f(x_j)，查询集每个样本x_i，i∈[1,M]提取的特征f(x_i)，特征f(x_j)和f(x_i)通过特征拼接

其中，当支撑集与查询集都为单个样本即时表示每类支撑集样本x_j的特征与查询集样本x_i的特征分别进行Concatenate操作,即按列进行拼接，当K>1或M>1时，先分别将支撑集各个类别的样本特征相加，然后将查询集的样本特征相加，最后将支撑集与查询集相加后的特征进行拼接。

步骤(4.2):支撑集样本和查询集样本拼接后的特征共同输入协方差度量模块g，协方差度量模块计算出支撑集样本与查询集样本之间的相似性r_j,_i，可表示为：

r_j,_i＝(f(x_j)-f(x_i))^TW(f(x_j)-f(x_i))

步骤(5)：最后利用softmax分类器预测查询样本最终的情感类别的概率矩阵。采用批量梯度下降法来优化损失函数。具体包括：

步骤(5.1)：情感分类概率矩阵结果为：

其中，p_ji是查询集样本x_i属于支撑集样本x_j的概率；

步骤(5.2)：利用交叉熵损失函数进行优化，损失函数如下：

步骤(6)：将测试集样本输入上述训练好的网络模型当中，预测出待识别的GIF短视频情感类别，具体包括：

步骤(6.1)：对于T类测试集样本，该T类测试集样本与训练过程N类样本不相交，从T类数据集随机抽取C(C<T)类作为支撑集，每次测试从C类中各抽取K张GIF短视频样本，将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张未标记的GIF短视频样本作为模型的查询集。

步骤(6.2)：将分配好的测试集输入上述训练好的模型当中，将输入的未标记的查询集样本不断地与支撑集样本进行协方差度量，最终预测出未标记的查询集样本的所属类别。

本发明另一实施例公开一种协方差度量驱动小样本GIF短视频情感识别系统，包括：样本划分模块，用于从给定的数据集之中抽取样本构成支撑集和查询集，所述支撑集和查询集共享相同的标记空间；视频分割模块，用于将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像；视频特征提取模块，用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将CNN提取到的每帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征，将序列特征与图像视觉特征串联融合，输入到卷积长短时记忆神经网络ConvLSTM中，得到具有时间序列的GIF短视频特征；协方差度量模块，用于计算GIF短视频特征之间的相似性；情感识别模块，用于将支撑集样本和待识别的查询集样本之间提取的特征进行拼接，并将拼接后的特征利用协方差度量模块计算出查询集样本与支撑集样本之间相似性，根据相似性的高低，利用softmax分类器预测查询集样本最终的情感类别，其中预测情感类别的损失函数，采用随机梯度下降法进行优化。

上述协方差度量驱动小样本GIF短视频情感识别系统实施例，其技术原理、所解决的技术问题及产生的技术效果与方法实施例相似，属于同一发明构思，具体实施细节及有关说明，可以参考前述的GIF短视频情感识别方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例还提供一种协方差度量驱动小样本GIF短视频情感识别系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的协方差度量驱动小样本GIF短视频情感识别方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，所述步骤(1)中对于给定的数据集，从待训练的N类数据集随机抽取C类作为支撑集，C<N，每次训练从C类中每个类别各取K(K≥1)张GIF短视频样本作为支撑集S，将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为查询集样本，即支撑集与查询集共享相同的标记空间。

3.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，所述步骤(3)中包括：

4.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，所述步骤(4)中包括：

5.根据权利要求4所述的协方差度量驱动小样本GIF短视频情感识别方法其特征在于，支撑集样本和查询集样本特征拼接的方式为：

当支撑集与查询集都为单个样本时表示每类支撑集样本x_j的特征与查询集样本x_i的特征分别进行Concatenate操作，即按列进行拼接，当K>1或M>1时，先分别将支撑集各个类别的样本特征相加，然后将查询集的样本特征相加，最后将支撑集与查询集相加后的特征进行拼接。

6.根据权利要求4所述的协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，所述协方差度量模块为：

r_j,i＝(f(x_j)-f(x_i))^TW(f(x_j)-f(x_i))

7.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，所述步骤(5)中包括：

其中，C为支撑集中随机抽取的类别数量，K为每个类别抽取的样本数量，M为查询集每个类别抽取的样本数量，r_j,i为支撑集样本x_j与查询集样本x_i之间的相似性，p_ji是查询集样本x_i属于支撑集样本x_j的概率；

(5.2)利用交叉熵损失函数进行优化，损失函数如下：

利用批量随机梯度下降法来优化损失函数，学习得到minJ，其中，yⁱ是查询集样本x_i的类别标签,y^j是支撑集样本x_j的类别标签，ξ[·]是指示函数，当表达式为真时输出为1否则输出为0。

8.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法，其特征在于，所述步骤(6)中包括：

9.协方差度量驱动小样本GIF短视频情感识别系统，其特征在于，包括：

视频特征提取模块，利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征，同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征，将CNN提取到的每帧图像特征进行哈达玛内积运算，得到最终的图像视觉特征，将序列特征与图像视觉特征串联融合，输入到卷积长短时记忆神经网络ConvLSTM中，得到具有时间序列的GIF短视频特征；

协方差度量模块，用于计算GIF短视频特征之间的相似性；

情感识别模块，用于将支撑集样本和待识别的查询集样本之间提取的特征进行拼接，并将拼接后的特征利用协方差度量模块计算出待识别的查询集样本与支撑集样本之间相似性，根据相似性的高低，利用softmax分类器预测待识别的查询集样本最终情感类别，其中预测情感类别的损失函数，采用随机梯度下降法进行优化。

10.协方差度量驱动小样本GIF短视频情感识别系统，其特征在于，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-8所述的协方差度量驱动小样本GIF短视频情感识别方法。