CN109948721A

CN109948721A - 一种基于视频描述的视频场景分类方法

Info

Publication number: CN109948721A
Application number: CN201910238135.4A
Authority: CN
Inventors: 黄麟; 肖波; 马占宇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-06-28
Anticipated expiration: 2039-03-27
Also published as: CN109948721B

Abstract

本发明公开了一种基于视频描述的视频场景分类方法，包括：基于DCT变换以及帧滑动窗口快速提取视频关键帧，并对视频关键帧进行划分；采用3d卷积神经网络对视频不定长关键帧序列进行特征提取；通过Sent2Vec方式获取每个视频描述的嵌入表示作为视频的语义表示；基于提取的特征和语义表示得到最终模型架构三维卷积循环神经网络。本发明借助于视频描述，实现一种快速、准确的视频场景分类方法，该方法可快速准确地提取视频关键帧，相比使用视频所有的帧或者按照一定时间间隔抽样，结果更加准确快速。同时可提升视频场景分类的准确性，通过长短期记忆神经网络训练学习视频的关键帧时序关系，更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。

Description

一种基于视频描述的视频场景分类方法

技术领域

本发明涉及的是一种基于视频描述的视频场景分类方法，属于计算机技术领域。

背景技术

目前深度学习网络已经在图片分类问题取得的很好的结果。视频，由一定速率的连续的帧图片构成。关键帧(图片)是视频的代表元素(帧)，视频的特征从其组成成分上可以分为帧图像的视觉特征(也就是图片特征)、视频描述的语义特征、连续图像的动态变化特征(帧图像之间的变化)以及视觉信息外辅助的声音特征。如果单纯的只用视频的图像特征完成视频的再表示，则会丢失掉视频大量的信息。从视频中提取强有力的特征：即如何从视频中提取出能更好的描述视频的时空(spatio-temporal)特征，实现一个高准确的场景分类模型。

相近方案1：DT和iDT方法，也是最经典的认为设计特征提取，完成分类的方法。

考虑到视频的时序信息，DT利用光流得到视频中的运动轨迹，再沿着轨迹提取特征。iDT对相机运动进行了补偿，同时由于人的运动比较显著，iDT用额外的检测器检测人，以去除人对相邻帧之间投影矩阵估计的影响。这是深度学习方法成熟之前效果最好的经典方法，该方法的弊端是特征维度高(特征比原始视频还要大)、速度慢。实践中，早期的深度学习方法在和iDT结合之后仍能取得一定的效果提升，现在深度学习方法的性能已较iDT有大幅提升，因此iDT渐渐淡出视线。

相近方案2：

采样固定长度的视频关键帧，通过3dConvNet(三维卷积神经网络)直接完成分类。

每个视频将固定采样到t帧，也就是说，3分钟的短视频和1小时的长视频，都会固定采样帧数，就造成对短视频来说，视频冗余可能过多，对于长视频来说，视频可能会损失大量的信息。与此同时，采样固定尝试视频帧，对深度特征直接经过全连接层完成场景分类，是没有考虑到视频帧之间的时序关系的。所以这种基于图像分类的深度学习网络，没有去利用视频中的时序信息，最终准确率很快就出现了瓶颈。

随着互联网技术的飞速发展以及5G技术的出现，带宽、流量不再是限制，也正是因为如此，视频这种多媒体信息开始在网络上、移动终端上泛滥开来。所以需要对这些视频的合理、高效的分类，确立一套恰当的标准，减少人力投入。

发明内容

针对上述缺陷，本发明提供了一种基于视频描述的视频场景分类方法3d-ConvRNN-Net(三维卷积循环神经网络)，借助于视频描述，实现一种快速、准确的视频场景分类方法，该方法可快速准确地提取视频关键帧，相比使用视频所有的帧或者按照一定时间间隔抽样，结果更加准确快速。同时可提升视频场景分类的准确性，通过长短期记忆神经网络训练学习视频的关键帧时序关系，更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。

为达到上述目的，本发明通过以下技术方案来具体实现：

本发明提供了一种基于视频描述的视频场景分类方法，包括：

步骤一、基于离散余弦变换以及帧滑动窗口快速提取视频关键帧，并对视频关键帧进行划分；

步骤二、采用三维卷积神经网络对视频不定长关键帧序列进行特征提取，提取出视频关键帧深度特征；

步骤三、通过句子向量生成的方式获取每个视频描述的嵌入表示作为视频描述文本特征；

步骤四、基于提取的视频关键帧深度特征和视频描述文本特征得到模型架构，该模型架构为三维卷积循环神经网络3d-ConvRNN-Net。

步骤一具体包括：

将视频的帧图片调整为设定像素大小后进行离散余弦变换，取频率信号矩阵左上角的设定大小部分为当前的帧信息；计算当前帧的离散余弦变换变化压缩表示，与之前的关键帧队列计算欧式距离，如果欧式距离大于一定阈值，则认为是关键帧，否则，不是关键帧。

进一步的，离散余弦变换变换的方法包括：

其中，n指的是图片大小为n*n；f(x,y)指的是图片坐标[x,y]的像素值；图片f经过离散余弦变换后为T，T的大小为n*n；T(u,v)指的是图片离散余弦后[u,v]位置的值。

进一步的，欧式距离的计算方法包括：

其中，k为维护的关键帧队列；x_i为当前帧第i个离散余弦变换特征；y_ki为关键帧队列中第k帧的第i个离散余弦变换特征，dist即为所求欧式距离。

步骤二具体包括：

将步骤一产生的视频关键帧按照时间顺序排序，形成视频关键帧序列，通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取，其中三维卷积神经网络主要由3d卷积核，批量归一化层，随机丢弃层等构成。

进一步的，通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取，包括：

采用3*3*3的3d池化层，公式如下：

其中，提取出的视频关键帧为t₀张h₀*w₀大小的图片，经过第一层3d卷积核(卷积核大小为3)以及3d池化层后形成t₁张h₁*w₁大小的特征图，其中pooling_size为对应的3d池化层的大小；视频关键帧序列经过3d卷积神经网络，产生视频时序特征序列，维度64*h2*w2*t2，其中t2为时间序列，特征图的大小为h2*w2。

步骤三具体包括：

获取视频的描述，使用结巴分词的方式，将句子分解成词语序列，将词语序列经过词向量矩阵转换后，产生的词向量经过双向长短期记忆神经网络，双向长短期记忆神经网络以正向句子描述和反向句子描述的隐藏层输出共同作为类别最终描述向量，产生视频描述向量，完成视频描述的特征生成。

进一步的，句子向量生成的方式包括但不限于：

基于预训练好的词向量生成方法Word2Vec、词向量生成方法GloVe等词向量对句子中的每个词做平均，或用类似于词向量训练的方式重新训练，或通过长短期记忆神经网络LSTM等深度学习模块，完成视频描述的特征生成。

步骤四具体包括：

模型架构三维卷积循环神经网络3d-ConvRNN-Net由两部分构成，一部分文本特征，采用句子向量生成的无监督学习的方式，生成的视频标题语义描述向量，用于长短期记忆单元的隐藏层的初始化；第二部分为视频特征，视频时序特征序列为：64*h2*w2*t2，其中t2为时间序列，展开作为长短期记忆单元的时间序列输入即可，特征图的大小为h2*w2；最终将长短期记忆神经网络的隐藏层输出，经过随机丢弃层、全连接层，多分类损失函数采用交叉熵损失函数，最终完成视频场景多分类。

进一步的，多分类损失函数采用交叉熵损失函数。

本发明的有益效果是：

本发明提供的一种基于视频描述的视频场景分类方法(3d-ConvRNN-Net)，借助于视频描述，实现一种快速、准确的视频场景分类方法，该方法可快速准确地提取视频关键帧，相比使用视频所有的帧或者按照一定时间间隔抽样，结果更加准确快速。同时可提升视频场景分类的准确性，通过rnn训练学习视频的关键帧时序关系，更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。

附图说明

图1所示为本发明提供的3维卷积神经网络模型架构展示示意图。

图2所示为本发明提供的循环神经网络模型架构展示示意图。

图3所示为本发明提供的改进的可处理不定长图片序列的3d-ConvRNN-Net(3维卷积循环神经网络)模型示意图。

图4所示为本发明提供的视频描述向量生成模型架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

如图1-3所示，本发明实施例提供了一种基于视频描述的视频场景分类方法，包括：

步骤一、基于离散余弦变换DCT以及帧滑动窗口快速提取视频关键帧，并对视频关键帧进行划分。

其中，视频可以分为若干场景，一个场景可以划分为若干镜头，镜头下分为普通帧、关键帧，关键帧占比2％以下，不重要的信息占据98％以上。关键帧通常代表了视频的主要内容，由于每段视频的大小及内容丰富程度不同，提取的关键帧数目也不相同。经离散余弦变换DCT之后，矩阵的左上角分布的是低频信息，右下角分布的是高频成分。

步骤二、采用三维卷积神经网络对视频不定长关键帧序列进行特征提取，提取出视频关键帧深度特征。

步骤三、通过句子向量生成Sent2Vec的方式获取每个视频描述的嵌入表示作为视频描述文本特征。

步骤一具体包括：

将视频的帧图片调整为设定像素大小后进行离散余弦变换DCT，取频率信号矩阵左上角的设定大小部分为当前的帧信息；计算当前帧的离散余弦变换DCT变化压缩表示，与之前的关键帧队列计算欧式距离，如果欧式距离大于一定阈值，则认为是关键帧，否则，不是关键帧。

优选的，算法处理中，将视频的帧图片调整为64*64像素大小，然后进行离散余弦变换DCT，取频率信号矩阵左上角8*8的部分，用来表达当前的帧信息。然后取均值，如果大于均值记为1，否则记为0。所以，最后视频的每一张帧图片都可以用64bit的长整型(同样的扫描顺序)进行表示，大大缩小了存储空间，改善算法的处理时间。

计算当前帧的离散余弦变换DCT压缩表示，与之前的关键帧队列计算欧式距离，如果欧式距离(计算公式如下)大于一定阈值，则认为是关键帧，否则，不是关键帧。为了避免队列中的帧类别的无限制增长，以及考虑实际视频内容间隔较大相关性大大降低的性质，当前帧的离散余弦变换DCT压缩变换，只和他之前最近的5个关键帧对比，即维护一个长度为5的滑动窗口，最终完成视频关键帧提取。

进一步的，离散余弦变换DCT的方法包括：

进一步的，欧式距离的计算方法包括：

步骤二具体包括：基于3dConvNet，采用3d卷积神经网络完成不定长关键帧序列的深度特征提取。

采用3*3*3的3d池化层，公式如下：

优选的，基于3dConvNet，提出一种可处理不定长视频关键帧序列的3d-ConvNet，采用3d卷积神经网络完成不定长关键帧序列特征提取，如图1所示，截取卷积层的输出，作为视频关键帧的深度特征。模型图1以c*h0*w0*t0的视频关键帧作为输入，其中关键帧为c通道(通常为RGB3通道)，大小为h0*w0，每个视频提取的关键帧数为t0，模型如下，完成视频关键帧序列的深度特征提取。最终产生视频时序特征序列，维度64*h2*w2*t2，其中t2为时间序列，特征图的大小为h2*w2。

步骤三具体包括：

如图4所示，获取视频的描述，使用结巴分词的方式，将句子分解成词语序列，将词语序列经过词向量矩阵转换后，产生的词向量经过双向长短期记忆神经网络，双向长短期记忆神经网络以正向句子描述和反向句子描述的隐藏层输出共同作为类别最终描述向量，产生视频描述向量，完成视频描述的特征生成。

进一步的，句子向量生成的方式包括但不限于：

优选的，获取视频的描述，通过句子向量生成Sent2Vec的方式获取每个描述的嵌入表示作为这个视频的语义表示(即hidden0)。

步骤四具体包括：

如图3所示，模型架构三维卷积循环神经网络3d-ConvRNN-Net由两部分构成，一部分文本特征，采用句子向量生成sent2vec的无监督学习的方式，生成的视频标题语义描述向量(即hidden0)，用于长短期记忆单元的隐藏层的初始化；第二部分为视频特征，视频时序特征序列为：64*h2*w2*t2，其中t2为时间序列，展开作为长短期记忆单元的时间序列输入即可，特征图的大小为h2*w2；最终将长短期记忆神经网络的隐藏层输出，经过随机丢弃层、全连接层，多分类损失函数采用交叉熵损失函数，最终完成视频场景多分类。

进一步的，多分类损失函数采用交叉熵损失函数。

本发明的有益效果是：

本发明实施例一提供的一种基于视频描述的视频场景分类方法(3d-ConvRNN-Net)，借助于视频描述，实现一种快速、准确的视频场景分类方法，该方法可快速准确地提取视频关键帧，相比使用视频所有的帧或者按照一定时间间隔抽样，结果更加准确快速。同时可提升视频场景分类的准确性，通过长短期记忆神经网络rnn训练学习视频的关键帧时序关系，更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于视频描述的视频场景分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤一具体包括：

3.如权利要求1或2所述的方法，其特征在于，离散余弦变换变换的方法包括：

4.如权利要求2所述的方法，其特征在于，欧式距离的计算方法包括：

5.如权利要求1所述的方法，其特征在于，步骤二具体包括：

6.如权利要求5所述的方法，其特征在于，通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取，包括：

采用3*3*3的3d池化层，公式如下：

7.如权利要求1所述的方法，其特征在于，步骤三具体包括：

8.如权利要求7所述的方法，其特征在于，句子向量生成的方式包括但不限于：

9.如权利要求1所述的方法，其特征在于，步骤四具体包括：