CN110532911A - 协方差度量驱动小样本gif短视频情感识别方法及系统 - Google Patents

协方差度量驱动小样本gif短视频情感识别方法及系统 Download PDF

Info

Publication number
CN110532911A
CN110532911A CN201910763722.5A CN201910763722A CN110532911A CN 110532911 A CN110532911 A CN 110532911A CN 201910763722 A CN201910763722 A CN 201910763722A CN 110532911 A CN110532911 A CN 110532911A
Authority
CN
China
Prior art keywords
sample
gif
feature
short
query set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910763722.5A
Other languages
English (en)
Other versions
CN110532911B (zh
Inventor
刘天亮
陈敏
戴修斌
周亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910763722.5A priority Critical patent/CN110532911B/zh
Publication of CN110532911A publication Critical patent/CN110532911A/zh
Application granted granted Critical
Publication of CN110532911B publication Critical patent/CN110532911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种协方差度量驱动小样本GIF短视频情感识别方法及系统。该方法首先从数据集中抽取样本构成支撑集和查询集,并将抽取的样本按照设定帧率分割为若干候选帧图像;然后利用C3D提取样本中的序列特征,同时利用CNN提取帧图像的视觉特征,然后逐帧进行哈达玛内积运算,得到最终的图像视觉特征,再采用ConvLSTM技术提取二者融合后的高层语义特征;再将支撑集样本提取的特征和查询集样本提取的特征进行拼接后通过协方差度量模块度量查询集样本和支撑集样本每类情感之间的相似性,最后利用softmax分类器预测最终的结果。本发明能有效关注GIF中图像的情感信息,同时兼顾视频流的时序特征,适用于小样本情况下的多分类视频情感分析,提高了分类准确率。

Description

协方差度量驱动小样本GIF短视频情感识别方法及系统
技术领域
本发明涉及一种协方差度量驱动小样本GIF短视频情感识别方法及系统,属于计算机视觉视频情感识别技术领域。
背景技术
近年来随着社交多媒体内容的丰富,视觉情感分析逐步成为研究的热点,根据视觉研究的内容形式的不同,可以将视觉情感分析分为两类:图像情感分析和视频情感分析。
针对图像的情感分析中,文献[S.Siersdorfer,E.Minack,F.Deng,andJ.S.Hare,"Analyzing and predicting sentiment of images on the social web."InACM MM,pages 715–718,2010.]提出从像素级特征的层面对图像的情感进行分析,然而由于情感的复杂性,底层特征并不能很好的表现图像的情感含义。随着深度学习算法的逐步发展,越来越多的文献通过深度神经网络开始理解图像语义层面的特征。文献[H.J.Quanzeng You,Jiebo Luo and J.Yan,"Robust image sentiment analysis usingprogressively trained and domain transferred deep networks."AAAI,2015]将深度学习模型应用到视觉情感分析中,运用卷积神经网络(CNN)针对图像中的情感特征进行学习,从而获取图像的情感类别。
针对视频的情感分析中,文献[Z.Cai,D.Cao,D.Lin,and R.Ji,"A spatial-temporal visual mid-level ontology for gif sentiment analysis."CEC,IEEE,pp.4860-4865,July 2016]提出一种提取视频中时空视觉中层语义特征的方法,强化对视频序列的理解,以此来提高视频情感分析的效率。文献[Dazhen Lin,Donglin Cao,andYanping,"GIF Video Sentiment Detection Using Semantic Sequence,MathemanticalProblems in Engineering."2017:1-11]以GIF短视频作为情感分析的研究对象,运用CNN和长短时记忆(LSTM)神经网络对模型进行训练。但是目前的相关文献所使用的CNN无法对GIF短视频时域上的信息进行描述。
现有的视频数据情感分析常用于处理积极,消极和中性的情感分类,对于多分类的视频情感分析相对较少,针对多分类的视频情感分析,其准确度有待进一步提高。由于深度学习需要的数据量庞大,同时,模型也变得越来越难训练,但是在真实的场景中,人们往往面临的是没有如此多的训练数据的情况,当训练数据较少时,神经网络通常容易过拟合,这是由于传统的梯度更新算法没有针对当前任务的先验知识,无法在神经网络空间找到具有较好泛化能力的参数点,小样本学习能很好地解决样本数量缺乏的问题。小样本学习在训练阶段将数据集分解为不同的任务,去学习类别变化的情况下模型的泛化能力,在测试阶段,面对全新的类别,不需要变动已有的模型,就可以完成分类。现有的基于小样本学习的方法通常采用基于余弦相似性等度量方法或只考虑到样本特征之间的一阶统计量特性。在社会化媒体时代,图像和视频信息已经成为人们主流的交流方式,然而短视频的情感识别由于视频序列的情感信息学习比较困难并且现有的关于短视频情感分析的数据集数量有限且样本数量也有限。
针对上述问题,本发明提出一种协方差度量方法学习样本特征之间的二阶统计量特性,并结合小样本学习的方法学习视频序列信息,将解决GIF短视频多分类情感识别中样本数量缺乏的问题和提高分类的准确率作为本发明的主要研究方向。
发明内容
发明目的:针对现有技术中视觉情感分析多用于消极、积极、中性等类别的分析而基于多分类的视频情感分析研究技术相对较少的问题,本发明目的在于提出一种协方差度量驱动小样本GIF短视频情感识别方法及系统,利用GIF短视频中每帧图像的空间信息与视频序列的时序特征信息,实现多类别的视频情感识别。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种协方差度量驱动小样本GIF短视频情感识别方法,包括如下步骤:
(1)从给定的数据集之中抽取样本构成支撑集和查询集,所述支撑集和查询集共享相同的标记空间;
(2)将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像;
(3)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征,将序列特征与图像视觉特征串联融合,输入到卷积长短时记忆神经网络ConvLSTM中,得到具有时间序列的GIF短视频特征;
(4)将支撑集和查询集的每个样本按照步骤(3)提取GIF短视频特征,并进行拼接后输入协方差度量模块计算查询集样本和支撑集样本之间的相似性;
(5)根据查询集样本和支撑集样本之间的相似性的高低,利用softmax分类器预测查询集样本最终的情感类别的概率矩阵,采用批量随机梯度下降法来优化损失函数,得到训练好的网络模型;
(6)将测试集样本输入上述训练好的网络模型当中,预测出待识别的GIF短视频情感类别。
作为优选,所述步骤(1)中对于给定的数据集,从待训练的N类数据集随机抽取C类作为支撑集,C<N,每次训练从C类中每个类别各取K(K≥1)张GIF的序列帧样本作为支撑集S,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为查询集样本,即支撑集与查询集共享相同的标记空间.
作为优选,所述步骤(3)中包括:
(3.1)将步骤(2)提取出的视频候选帧图像每连续L帧视为一个序列,使用3D卷积神经网络提取出每个序列的池化五层特征;其中L为设定的序列长度,不足L帧时对最后一帧进行过采样,填补为一个序列;
(3.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征;
(3.3)将步骤(3.1)中的池化五层序列特征与步骤(3.2)中的图像视觉特征串联融合作为表示视频片段的底层输入特征;
(3.4)将步骤(3.3)融合后的视频片段底层特征输入双层ConvLSTM网络,得到GIF短视频的高层语义特征。
作为优选,所述步骤(4)中包括:
(4.1)支撑集每个样本xj(j∈[1,C*K])提取的特征f(xj),查询集每个样本xi(i∈[1,M])提取的特征f(xi),特征f(xj)和f(xi)通过特征拼接得到其中,C为支撑集中随机抽取的类别数量,K为每个类别抽取的样本数量,M为查询集每个类别抽取的样本数量;
(4.2)支撑集样本和查询集样本拼接后的特征共同输入协方差度量模块g,协方差度量模块计算出支撑集样本与查询集样本之间的相似性rj,i
作为优选,所述支撑集样本和查询集样本特征拼接的方式为:当支撑集与查询集都为单个样本时表示每类支撑集样本xj的特征与查询集样本xi的特征分别进行Concatenate操作,即按列进行拼接,当K>1或M>1时,先分别将支撑集各个类别的样本特征相加,然后将查询集的样本特征相加,最后将支撑集与查询集相加后的特征进行拼接。
作为优选,所述协方差度量模块为:
rj,i=(f(xj)-f(xi))TW(f(xj)-f(xi))
其中f(xi)∈Rd*l,f(xj)∈Rd*l,d,l分别表示样本特征的行数和列数,W∈Rd*d表示拼接后特征行向量之间的协方差矩阵,是由Εα,β(α∈[1,d],β∈[1,d])组成的对称矩阵,其中 表示拼接后α,β行的特征表示,μαβ表示拼接后α,β行的均值。
作为优选,所述步骤(5)中包括:
(5.1)利用Softmax分类器进行分类,得到最终的情感分类概率矩阵结果:
其中,C为从支撑集中随机抽取的类别数量,K为每个类别抽取的样本数量,M为查询集每个类别抽取的样本数量,rj,i为支撑集样本xj与查询集样本xi之间的相似性,pji是查询集样本xi属于支撑集样本xj的概率;
(5.2)利用交叉熵损失函数进行优化,损失函数如下:
利用批量随机梯度下降法来优化损失函数,学习得到minJ,其中,yi是查询集样本xi的标签,yj是支撑集样本xj的标签,ξ[·]是指示函数,当表达式为真时输出为1否则输出为0。
作为优选,所选步骤(6)中包括:
(6.1)对于T类测试集样本,该T类测试集样本与训练过程N类样本不相交,从T类数据集随机抽取C(C<T)类作为支撑集,每次测试从C类中各抽取K(K≥1)张GIF短视频样本,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张未标记的GIF短视频样本作为模型待识别的查询集;
(6.2)将分配好的测试集输入上述训练好的模型当中,将输入的未标记的查询集样本不断地与支撑集样本进行协方差度量,根据相似性的高低,最终预测出未标记的查询集样本的所属类别。
本发明另一方面提供的协方差度量驱动小样本GIF短视频情感识别系统,包括:
样本划分模块,用于从给定的数据集之中抽取样本构成支撑集和查询集,所述支撑集和查询集共享相同的标记空间;
视频分割模块,用于将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像;
视频特征提取模块,用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将CNN提取到的帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征,将序列特征与图像视觉特征串联融合,输入到卷积长短时记忆神经网络ConvLSTM中,得到具有时间序列的GIF短视频特征;
协方差度量模块,用于计算GIF短视频特征之间的相似性;
情感识别模块,用于将支撑集样本和待预测的查询集样本之间提取的特征进行拼接,并将拼接后的特征利用协方差度量模块计算出查询集样本与支撑集样本之间相似性的高低,根据相似性的高低,利用softmax分类器预测查询集样本最终的情感类别,其中预测情感类别的损失函数,采用随机梯度下降法进行优化。
本发明另一方面提供的协方差度量驱动小样本GIF短视频情感识别系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的协方差度量驱动小样本GIF短视频情感识别方法。
有益效果:与现有技术相比,本发明协方差度量驱动小样本GIF短视频情感识别方法,在建模时采用能够提取视频时空信息的C3D与ConvLSTM,综合考虑了视频中每一帧的情感特征与视频整体序列情感特征之间的高阶相关性,更好的描述了GIF视频部分的情感信息。同时利用小样本学习的方法从少量数据中获取足够的信息完成分类任务,基于协方差度量学习方法学习样本特征之间的二阶统计量特性,相较于之前的工作,没有增加模型的复杂度,并且对视频情感识别中情感类别的判断提出了一种新的方法,有效适用于小样本情况下的多分类视频情感分析,并且提高分类的准确率。
附图说明
图1是本发明协方差度量驱动小样本GIF短视频情感识别方法流程示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如图1所示,本发明实施例公开一种协方差度量驱动小样本GIF短视频情感识别方法。该方法首先从待训练的N类数据中随机提取C类作为支撑集Support set(简称S),每次训练从C类中各取K(K≥1)张GIF的短视频样本,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为模型待查询的数据集Query set(简称Q)。然后利用3D卷积神经网络提取支撑数据集C类的短视频中的序列特征。将待查询样本的短视频同时输入该3D卷积神经网络中用于提取特征,然后通过一个协方差度量模块以测量待查询样本的短视频和支撑集每类样本之间的情感相似性,最后利用softmax分类器预测最终的结果。下面详细介绍本实例的GIF短视频情感识别过程,具体包括如下步骤:
步骤(1):对于给定的数据集,从待训练的N类数据集中随机抽取C(C<N)类作为支撑集S,每次训练从C类中每个类别各取K(K≥1)张GIF的短视频,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为模型待查询的数据集Q,将二者作为输入。
步骤(2):将数据集的GIF短视频按照设定的帧率,如25帧每秒,分割成若干候选帧图像。
步骤(3):将步骤(2)中分割后的图像序列输入3D卷积神经网络(C3D),提取短视频的视觉感知上的时序特征,同时使用卷积神经网络(CNN)按顺序提取出每一帧图像的高层视觉语义特征,将C3D网络提取的短视频片段特征作为序列特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征,并将两种特征加以融合,将融合后的特征输入到卷积长短时记忆神经网络ConvLSTM中,得到具有时间序列的GIF短视频特征;具体包括:
步骤(3.1):将步骤(2)提取出的视频候选帧每连续的L帧视为一个序列,不足L帧时对最后一帧进行过采样,填补为一个序列,并使用3D卷积神经网络(C3D)提取出每个序列的池化五层特征;具体的每个序列的长度L根据构建的网络模型选定,如16、32等,本例中将每连续的16帧视为一个序列。
本例中采用的3D卷积神经网络共有8次卷次和5次池化操作,其中卷积核的大小均为3*3*3,步幅和填充为1*1*1;除pool1层采用1*2*2的卷积核和步幅外,pool2到pool5层均采用2*2*2的卷积核和步幅,在经过pool-5层后输出维度为512的包含视频时序信息的序列特征。
步骤(3.2):将每个序列中的图像按顺序输入卷积神经网络CNN(本例中采用VGG-16)中计算出每一帧的高层视觉特征,提取出每帧图像的池化五层特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征;
步骤(3.3):将步骤(3.1)中的C3D pool-5序列特征与步骤(3.2)中的图像视觉特征串联融合作为表示视频片段的底层输入特征。
步骤(3.4):将步骤(3.3)融合后的视频片段特征表示输入到双层卷积长短时记忆(ConvLSTM)神经网络中,输出具有时间序列的GIF短视频特征。
本发明将时序特征与空间特征进行融合,在刻画视频中每一帧图像情感的同时,也考虑到了视频序列中时序上的情感信息,从特征层面强化了对GIF短视频内容的理解。
步骤(4):将步骤(3)提取的特征先进行拼接,然后输入协方差度量模块中计算支撑集S与查询集Q的相似性,具体包括:
步骤(4.1):支撑集每个样本xj(j∈[1,C*K])提取的特征f(xj),查询集每个样本xi,i∈[1,M]提取的特征f(xi),特征f(xj)和f(xi)通过特征拼接
其中,当支撑集与查询集都为单个样本即时表示每类支撑集样本xj的特征与查询集样本xi的特征分别进行Concatenate操作,即按列进行拼接,当K>1或M>1时,先分别将支撑集各个类别的样本特征相加,然后将查询集的样本特征相加,最后将支撑集与查询集相加后的特征进行拼接。
步骤(4.2):支撑集样本和查询集样本拼接后的特征共同输入协方差度量模块g,协方差度量模块计算出支撑集样本与查询集样本之间的相似性rj,i,可表示为:
rj,i=(f(xj)-f(xi))TW(f(xj)-f(xi))
其中f(xi)∈Rd*l,f(xj)∈Rd*l,d,l分别表示样本特征的行数和列数,W∈Rd*d表示拼接后特征行向量之间的协方差矩阵,是由Εα,β(α∈[1,d],β∈[1,d])组成的对称矩阵,其中 表示拼接后α,β行的特征表示,μαβ表示拼接后α,β行的均值。
步骤(5):最后利用softmax分类器预测查询样本最终的情感类别的概率矩阵。采用批量梯度下降法来优化损失函数。具体包括:
步骤(5.1):情感分类概率矩阵结果为:
其中,pji是查询集样本xi属于支撑集样本xj的概率;
步骤(5.2):利用交叉熵损失函数进行优化,损失函数如下:
利用批量随机梯度下降法来优化损失函数,学习得到minJ,其中,yi是查询集样本xi的标签,yj是支撑集样本xj的标签,ξ[·]是指示函数,当表达式为真时输出为1否则输出为0。
步骤(6):将测试集样本输入上述训练好的网络模型当中,预测出待识别的GIF短视频情感类别,具体包括:
步骤(6.1):对于T类测试集样本,该T类测试集样本与训练过程N类样本不相交,从T类数据集随机抽取C(C<T)类作为支撑集,每次测试从C类中各抽取K张GIF短视频样本,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张未标记的GIF短视频样本作为模型的查询集。
步骤(6.2):将分配好的测试集输入上述训练好的模型当中,将输入的未标记的查询集样本不断地与支撑集样本进行协方差度量,最终预测出未标记的查询集样本的所属类别。
本发明另一实施例公开一种协方差度量驱动小样本GIF短视频情感识别系统,包括:样本划分模块,用于从给定的数据集之中抽取样本构成支撑集和查询集,所述支撑集和查询集共享相同的标记空间;视频分割模块,用于将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像;视频特征提取模块,用于利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征,将序列特征与图像视觉特征串联融合,输入到卷积长短时记忆神经网络ConvLSTM中,得到具有时间序列的GIF短视频特征;协方差度量模块,用于计算GIF短视频特征之间的相似性;情感识别模块,用于将支撑集样本和待识别的查询集样本之间提取的特征进行拼接,并将拼接后的特征利用协方差度量模块计算出查询集样本与支撑集样本之间相似性,根据相似性的高低,利用softmax分类器预测查询集样本最终的情感类别,其中预测情感类别的损失函数,采用随机梯度下降法进行优化。
上述协方差度量驱动小样本GIF短视频情感识别系统实施例,其技术原理、所解决的技术问题及产生的技术效果与方法实施例相似,属于同一发明构思,具体实施细节及有关说明,可以参考前述的GIF短视频情感识别方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例还提供一种协方差度量驱动小样本GIF短视频情感识别系统,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的协方差度量驱动小样本GIF短视频情感识别方法。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,包括如下步骤:
(1)从给定的数据集之中抽取样本构成支撑集和查询集,所述支撑集和查询集共享相同的标记空间;
(2)将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像;
(3)利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征,将序列特征与图像视觉特征串联融合,输入到卷积长短时记忆神经网络ConvLSTM中,得到具有时间序列的GIF短视频特征;
(4)将支撑集和查询集的每个样本按照步骤(3)提取GIF短视频特征,并进行拼接后输入协方差度量模块计算查询集样本和支撑集样本之间的相似性;
(5)根据查询集样本和支撑集样本之间的相似性的高低,利用softmax分类器预测查询集样本最终的情感类别的概率矩阵,采用批量随机梯度下降法来优化损失函数,得到训练好的网络模型;
(6)将测试集样本输入上述训练好的网络模型当中,预测出待识别的GIF短视频情感类别。
2.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,所述步骤(1)中对于给定的数据集,从待训练的N类数据集随机抽取C类作为支撑集,C<N,每次训练从C类中每个类别各取K(K≥1)张GIF短视频样本作为支撑集S,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张GIF短视频样本作为查询集样本,即支撑集与查询集共享相同的标记空间。
3.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,所述步骤(3)中包括:
(3.1)将步骤(2)提取出的视频候选帧图像每连续L帧视为一个序列,使用3D卷积神经网络提取出每个序列的池化五层特征;其中L为设定的序列长度,不足L帧时对最后一帧进行过采样,填补为一个序列;
(3.2)将每个序列中的图像按顺序输入卷积神经网络CNN提取出每帧图像的池化五层特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征;
(3.3)将步骤(3.1)中的池化五层序列特征与步骤(3.2)中的图像视觉特征串联融合作为表示视频片段的底层输入特征;
(3.4)将步骤(3.3)融合后的视频片段底层特征输入双层ConvLSTM网络,得到GIF短视频的高层语义特征。
4.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,所述步骤(4)中包括:
(4.1)支撑集每个样本xj(j∈[1,C*K])提取的特征f(xj),查询集每个样本xi(i∈[1,M])提取的特征f(xi),特征f(xj)和f(xi)通过特征拼接得到其中,C为支撑集中随机抽取的类别数量,K为每个类别抽取的样本数量,M为查询集每个类别抽取的样本数量;
(4.2)支撑集样本和查询集样本拼接后的特征共同输入协方差度量模块g,协方差度量模块计算出支撑集样本与查询集样本之间的相似性rj,i
5.根据权利要求4所述的协方差度量驱动小样本GIF短视频情感识别方法其特征在于,支撑集样本和查询集样本特征拼接的方式为:
当支撑集与查询集都为单个样本时表示每类支撑集样本xj的特征与查询集样本xi的特征分别进行Concatenate操作,即按列进行拼接,当K>1或M>1时,先分别将支撑集各个类别的样本特征相加,然后将查询集的样本特征相加,最后将支撑集与查询集相加后的特征进行拼接。
6.根据权利要求4所述的协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,所述协方差度量模块为:
rj,i=(f(xj)-f(xi))TW(f(xj)-f(xi))
其中f(xi)∈Rd*l,f(xj)∈Rd*l,d,l分别表示样本特征的行数和列数,W∈Rd*d表示拼接后特征行向量之间的协方差矩阵,是由Εα,β(α∈[1,d],β∈[1,d])组成的对称矩阵,其中 表示拼接后α,β行的特征表示,μαβ表示拼接后α,β行的均值。
7.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,所述步骤(5)中包括:
(5.1)利用Softmax分类器进行分类,得到最终的情感分类概率矩阵结果:
其中,C为支撑集中随机抽取的类别数量,K为每个类别抽取的样本数量,M为查询集每个类别抽取的样本数量,rj,i为支撑集样本xj与查询集样本xi之间的相似性,pji是查询集样本xi属于支撑集样本xj的概率;
(5.2)利用交叉熵损失函数进行优化,损失函数如下:
利用批量随机梯度下降法来优化损失函数,学习得到minJ,其中,yi是查询集样本xi的类别标签,yj是支撑集样本xj的类别标签,ξ[·]是指示函数,当表达式为真时输出为1否则输出为0。
8.根据权利要求1所述的协方差度量驱动小样本GIF短视频情感识别方法,其特征在于,所述步骤(6)中包括:
(6.1)对于T类测试集样本,该T类测试集样本与训练过程N类样本不相交,从T类数据集随机抽取C(C<T)类作为支撑集,每次测试从C类中各抽取K(K≥1)张GIF短视频样本,将支撑集剩余的数据集中每个类别各随机抽取M(M≥1)张未标记的GIF短视频样本作为模型待识别的查询集;
(6.2)将分配好的测试集输入上述训练好的模型当中,将输入的未标记的查询集样本不断地与支撑集样本进行协方差度量,根据相似性的高低,最终预测出未标记的查询集样本的所属类别。
9.协方差度量驱动小样本GIF短视频情感识别系统,其特征在于,包括:
样本划分模块,用于从给定的数据集之中抽取样本构成支撑集和查询集,所述支撑集和查询集共享相同的标记空间;
视频分割模块,用于将支撑集和查询集的GIF短视频按照设定帧率分割为若干候选帧图像;
视频特征提取模块,利用3D卷积神经网络C3D提取由设定长度的候选帧图像组成的视频片段的序列特征,同时利用卷积神经网络CNN按顺序提取相应视频片段中帧图像的图像特征,将CNN提取到的每帧图像特征进行哈达玛内积运算,得到最终的图像视觉特征,将序列特征与图像视觉特征串联融合,输入到卷积长短时记忆神经网络ConvLSTM中,得到具有时间序列的GIF短视频特征;
协方差度量模块,用于计算GIF短视频特征之间的相似性;
情感识别模块,用于将支撑集样本和待识别的查询集样本之间提取的特征进行拼接,并将拼接后的特征利用协方差度量模块计算出待识别的查询集样本与支撑集样本之间相似性,根据相似性的高低,利用softmax分类器预测待识别的查询集样本最终情感类别,其中预测情感类别的损失函数,采用随机梯度下降法进行优化。
10.协方差度量驱动小样本GIF短视频情感识别系统,其特征在于,包括至少一台计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8所述的协方差度量驱动小样本GIF短视频情感识别方法。
CN201910763722.5A 2019-08-19 2019-08-19 协方差度量驱动小样本gif短视频情感识别方法及系统 Active CN110532911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910763722.5A CN110532911B (zh) 2019-08-19 2019-08-19 协方差度量驱动小样本gif短视频情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910763722.5A CN110532911B (zh) 2019-08-19 2019-08-19 协方差度量驱动小样本gif短视频情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN110532911A true CN110532911A (zh) 2019-12-03
CN110532911B CN110532911B (zh) 2021-11-26

Family

ID=68662354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910763722.5A Active CN110532911B (zh) 2019-08-19 2019-08-19 协方差度量驱动小样本gif短视频情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN110532911B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858991A (zh) * 2020-08-06 2020-10-30 南京大学 一种基于协方差度量的小样本学习算法
CN113221951A (zh) * 2021-04-13 2021-08-06 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113255787A (zh) * 2021-05-31 2021-08-13 西安电子科技大学 一种基于语义特征和度量学习的小样本目标检测方法及系统
CN113780335A (zh) * 2021-07-26 2021-12-10 华南师范大学 一种小样本商品图像分类方法、装置、设备及存储介质
CN115019087A (zh) * 2022-05-20 2022-09-06 国家计算机网络与信息安全管理中心 小样本视频分类和分类模型训练方法及其装置
WO2023040506A1 (zh) * 2021-09-16 2023-03-23 腾讯科技(深圳)有限公司 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913038A (zh) * 2016-04-26 2016-08-31 哈尔滨工业大学深圳研究生院 一种基于视频的动态微表情识别方法
US20180025221A1 (en) * 2016-07-20 2018-01-25 International Business Machines Corporation Video sentiment analysis tool for video messaging
US20180300851A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Generating a reactive profile portrait
CN109145712A (zh) * 2018-06-28 2019-01-04 南京邮电大学 一种融合文本信息的gif短视频情感识别方法及系统
EP3477616A1 (en) * 2017-10-27 2019-05-01 Sigra Technologies GmbH Method for controlling a vehicle using a machine learning system
CN109815903A (zh) * 2019-01-24 2019-05-28 同济大学 一种基于自适应融合网络的视频情感分类方法
CN110084266A (zh) * 2019-03-11 2019-08-02 中国地质大学(武汉) 一种基于视听特征深度融合的动态情感识别方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913038A (zh) * 2016-04-26 2016-08-31 哈尔滨工业大学深圳研究生院 一种基于视频的动态微表情识别方法
US20180025221A1 (en) * 2016-07-20 2018-01-25 International Business Machines Corporation Video sentiment analysis tool for video messaging
US20180300851A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Generating a reactive profile portrait
EP3477616A1 (en) * 2017-10-27 2019-05-01 Sigra Technologies GmbH Method for controlling a vehicle using a machine learning system
CN109145712A (zh) * 2018-06-28 2019-01-04 南京邮电大学 一种融合文本信息的gif短视频情感识别方法及系统
CN109815903A (zh) * 2019-01-24 2019-05-28 同济大学 一种基于自适应融合网络的视频情感分类方法
CN110084266A (zh) * 2019-03-11 2019-08-02 中国地质大学(武汉) 一种基于视听特征深度融合的动态情感识别方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HABRARD A ET AL.: "A Survey on Metric Learning for Feature Vectors and Structured Data", 《COMPUTER SCIENCE》 *
JUN SHU ET AL.: "Small Sample Learning in Big Data Era", 《ARXIV》 *
饶启玉: "基于上下文的维度情感识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858991A (zh) * 2020-08-06 2020-10-30 南京大学 一种基于协方差度量的小样本学习算法
CN113221951A (zh) * 2021-04-13 2021-08-06 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113221951B (zh) * 2021-04-13 2023-02-17 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113255787A (zh) * 2021-05-31 2021-08-13 西安电子科技大学 一种基于语义特征和度量学习的小样本目标检测方法及系统
CN113255787B (zh) * 2021-05-31 2023-07-25 西安电子科技大学 一种基于语义特征和度量学习的小样本目标检测方法及系统
CN113780335A (zh) * 2021-07-26 2021-12-10 华南师范大学 一种小样本商品图像分类方法、装置、设备及存储介质
CN113780335B (zh) * 2021-07-26 2023-09-29 华南师范大学 一种小样本商品图像分类方法、装置、设备及存储介质
WO2023040506A1 (zh) * 2021-09-16 2023-03-23 腾讯科技(深圳)有限公司 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN115019087A (zh) * 2022-05-20 2022-09-06 国家计算机网络与信息安全管理中心 小样本视频分类和分类模型训练方法及其装置

Also Published As

Publication number Publication date
CN110532911B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN110532911A (zh) 协方差度量驱动小样本gif短视频情感识别方法及系统
CN110852368B (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN109145712B (zh) 一种融合文本信息的gif短视频情感识别方法及系统
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN109815903B (zh) 一种基于自适应融合网络的视频情感分类方法
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN109614921B (zh) 一种基于对抗生成网络的半监督学习的细胞分割方法
CN112465790A (zh) 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN109472232A (zh) 基于多模态融合机制的视频语义表征方法、系统及介质
Zhang et al. Lightweight and efficient asymmetric network design for real-time semantic segmentation
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN110490242A (zh) 图像分类网络的训练方法、眼底图像分类方法及相关设备
CN110210027B (zh) 基于集成学习的细粒度情感分析方法、装置、设备及介质
CN106257496A (zh) 海量网络文本与非文本图像分类方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
Dhawan et al. Identification of traffic signs for advanced driving assistance systems in smart cities using deep learning
Khan et al. Explainable event recognition
CN114973107B (zh) 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN116704196A (zh) 一种训练图像语义分割模型的方法
CN114998809A (zh) 一种基于albert和多模态循环融合的虚假新闻检测方法及系统
CN111681748B (zh) 基于智能视觉感知的医疗行为动作规范性评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant