CN109948721A - 一种基于视频描述的视频场景分类方法 - Google Patents

一种基于视频描述的视频场景分类方法 Download PDF

Info

Publication number
CN109948721A
CN109948721A CN201910238135.4A CN201910238135A CN109948721A CN 109948721 A CN109948721 A CN 109948721A CN 201910238135 A CN201910238135 A CN 201910238135A CN 109948721 A CN109948721 A CN 109948721A
Authority
CN
China
Prior art keywords
video
key frame
frame
size
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910238135.4A
Other languages
English (en)
Other versions
CN109948721B (zh
Inventor
黄麟
肖波
马占宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910238135.4A priority Critical patent/CN109948721B/zh
Publication of CN109948721A publication Critical patent/CN109948721A/zh
Application granted granted Critical
Publication of CN109948721B publication Critical patent/CN109948721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频描述的视频场景分类方法,包括:基于DCT变换以及帧滑动窗口快速提取视频关键帧,并对视频关键帧进行划分;采用3d卷积神经网络对视频不定长关键帧序列进行特征提取;通过Sent2Vec方式获取每个视频描述的嵌入表示作为视频的语义表示;基于提取的特征和语义表示得到最终模型架构三维卷积循环神经网络。本发明借助于视频描述,实现一种快速、准确的视频场景分类方法,该方法可快速准确地提取视频关键帧,相比使用视频所有的帧或者按照一定时间间隔抽样,结果更加准确快速。同时可提升视频场景分类的准确性,通过长短期记忆神经网络训练学习视频的关键帧时序关系,更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。

Description

一种基于视频描述的视频场景分类方法
技术领域
本发明涉及的是一种基于视频描述的视频场景分类方法,属于计算机技术领域。
背景技术
目前深度学习网络已经在图片分类问题取得的很好的结果。视频,由一定速率的连续的帧图片构成。关键帧(图片)是视频的代表元素(帧),视频的特征从其组成成分上可以分为帧图像的视觉特征(也就是图片特征)、视频描述的语义特征、连续图像的动态变化特征(帧图像之间的变化)以及视觉信息外辅助的声音特征。如果单纯的只用视频的图像特征完成视频的再表示,则会丢失掉视频大量的信息。从视频中提取强有力的特征:即如何从视频中提取出能更好的描述视频的时空(spatio-temporal)特征,实现一个高准确的场景分类模型。
相近方案1:DT和iDT方法,也是最经典的认为设计特征提取,完成分类的方法。
考虑到视频的时序信息,DT利用光流得到视频中的运动轨迹,再沿着轨迹提取特征。iDT对相机运动进行了补偿,同时由于人的运动比较显著,iDT用额外的检测器检测人,以去除人对相邻帧之间投影矩阵估计的影响。这是深度学习方法成熟之前效果最好的经典方法,该方法的弊端是特征维度高(特征比原始视频还要大)、速度慢。实践中,早期的深度学习方法在和iDT结合之后仍能取得一定的效果提升,现在深度学习方法的性能已较iDT有大幅提升,因此iDT渐渐淡出视线。
相近方案2:
采样固定长度的视频关键帧,通过3dConvNet(三维卷积神经网络)直接完成分类。
每个视频将固定采样到t帧,也就是说,3分钟的短视频和1小时的长视频,都会固定采样帧数,就造成对短视频来说,视频冗余可能过多,对于长视频来说,视频可能会损失大量的信息。与此同时,采样固定尝试视频帧,对深度特征直接经过全连接层完成场景分类,是没有考虑到视频帧之间的时序关系的。所以这种基于图像分类的深度学习网络,没有去利用视频中的时序信息,最终准确率很快就出现了瓶颈。
随着互联网技术的飞速发展以及5G技术的出现,带宽、流量不再是限制,也正是因为如此,视频这种多媒体信息开始在网络上、移动终端上泛滥开来。所以需要对这些视频的合理、高效的分类,确立一套恰当的标准,减少人力投入。
发明内容
针对上述缺陷,本发明提供了一种基于视频描述的视频场景分类方法3d-ConvRNN-Net(三维卷积循环神经网络),借助于视频描述,实现一种快速、准确的视频场景分类方法,该方法可快速准确地提取视频关键帧,相比使用视频所有的帧或者按照一定时间间隔抽样,结果更加准确快速。同时可提升视频场景分类的准确性,通过长短期记忆神经网络训练学习视频的关键帧时序关系,更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。
为达到上述目的,本发明通过以下技术方案来具体实现:
本发明提供了一种基于视频描述的视频场景分类方法,包括:
步骤一、基于离散余弦变换以及帧滑动窗口快速提取视频关键帧,并对视频关键帧进行划分;
步骤二、采用三维卷积神经网络对视频不定长关键帧序列进行特征提取,提取出视频关键帧深度特征;
步骤三、通过句子向量生成的方式获取每个视频描述的嵌入表示作为视频描述文本特征;
步骤四、基于提取的视频关键帧深度特征和视频描述文本特征得到模型架构,该模型架构为三维卷积循环神经网络3d-ConvRNN-Net。
步骤一具体包括:
将视频的帧图片调整为设定像素大小后进行离散余弦变换,取频率信号矩阵左上角的设定大小部分为当前的帧信息;计算当前帧的离散余弦变换变化压缩表示,与之前的关键帧队列计算欧式距离,如果欧式距离大于一定阈值,则认为是关键帧,否则,不是关键帧。
进一步的,离散余弦变换变换的方法包括:
其中,n指的是图片大小为n*n;f(x,y)指的是图片坐标[x,y]的像素值;图片f经过离散余弦变换后为T,T的大小为n*n;T(u,v)指的是图片离散余弦后[u,v]位置的值。
进一步的,欧式距离的计算方法包括:
其中,k为维护的关键帧队列;xi为当前帧第i个离散余弦变换特征;yki为关键帧队列中第k帧的第i个离散余弦变换特征,dist即为所求欧式距离。
步骤二具体包括:
将步骤一产生的视频关键帧按照时间顺序排序,形成视频关键帧序列,通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取,其中三维卷积神经网络主要由3d卷积核,批量归一化层,随机丢弃层等构成。
进一步的,通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取,包括:
采用3*3*3的3d池化层,公式如下:
其中,提取出的视频关键帧为t0张h0*w0大小的图片,经过第一层3d卷积核(卷积核大小为3)以及3d池化层后形成t1张h1*w1大小的特征图,其中pooling_size为对应的3d池化层的大小;视频关键帧序列经过3d卷积神经网络,产生视频时序特征序列,维度64*h2*w2*t2,其中t2为时间序列,特征图的大小为h2*w2。
步骤三具体包括:
获取视频的描述,使用结巴分词的方式,将句子分解成词语序列,将词语序列经过词向量矩阵转换后,产生的词向量经过双向长短期记忆神经网络,双向长短期记忆神经网络以正向句子描述和反向句子描述的隐藏层输出共同作为类别最终描述向量,产生视频描述向量,完成视频描述的特征生成。
进一步的,句子向量生成的方式包括但不限于:
基于预训练好的词向量生成方法Word2Vec、词向量生成方法GloVe等词向量对句子中的每个词做平均,或用类似于词向量训练的方式重新训练,或通过长短期记忆神经网络LSTM等深度学习模块,完成视频描述的特征生成。
步骤四具体包括:
模型架构三维卷积循环神经网络3d-ConvRNN-Net由两部分构成,一部分文本特征,采用句子向量生成的无监督学习的方式,生成的视频标题语义描述向量,用于长短期记忆单元的隐藏层的初始化;第二部分为视频特征,视频时序特征序列为:64*h2*w2*t2,其中t2为时间序列,展开作为长短期记忆单元的时间序列输入即可,特征图的大小为h2*w2;最终将长短期记忆神经网络的隐藏层输出,经过随机丢弃层、全连接层,多分类损失函数采用交叉熵损失函数,最终完成视频场景多分类。
进一步的,多分类损失函数采用交叉熵损失函数。
本发明的有益效果是:
本发明提供的一种基于视频描述的视频场景分类方法(3d-ConvRNN-Net),借助于视频描述,实现一种快速、准确的视频场景分类方法,该方法可快速准确地提取视频关键帧,相比使用视频所有的帧或者按照一定时间间隔抽样,结果更加准确快速。同时可提升视频场景分类的准确性,通过rnn训练学习视频的关键帧时序关系,更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。
附图说明
图1所示为本发明提供的3维卷积神经网络模型架构展示示意图。
图2所示为本发明提供的循环神经网络模型架构展示示意图。
图3所示为本发明提供的改进的可处理不定长图片序列的3d-ConvRNN-Net(3维卷积循环神经网络)模型示意图。
图4所示为本发明提供的视频描述向量生成模型架构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例一
如图1-3所示,本发明实施例提供了一种基于视频描述的视频场景分类方法,包括:
步骤一、基于离散余弦变换DCT以及帧滑动窗口快速提取视频关键帧,并对视频关键帧进行划分。
其中,视频可以分为若干场景,一个场景可以划分为若干镜头,镜头下分为普通帧、关键帧,关键帧占比2%以下,不重要的信息占据98%以上。关键帧通常代表了视频的主要内容,由于每段视频的大小及内容丰富程度不同,提取的关键帧数目也不相同。经离散余弦变换DCT之后,矩阵的左上角分布的是低频信息,右下角分布的是高频成分。
步骤二、采用三维卷积神经网络对视频不定长关键帧序列进行特征提取,提取出视频关键帧深度特征。
步骤三、通过句子向量生成Sent2Vec的方式获取每个视频描述的嵌入表示作为视频描述文本特征。
步骤四、基于提取的视频关键帧深度特征和视频描述文本特征得到模型架构,该模型架构为三维卷积循环神经网络3d-ConvRNN-Net。
步骤一具体包括:
将视频的帧图片调整为设定像素大小后进行离散余弦变换DCT,取频率信号矩阵左上角的设定大小部分为当前的帧信息;计算当前帧的离散余弦变换DCT变化压缩表示,与之前的关键帧队列计算欧式距离,如果欧式距离大于一定阈值,则认为是关键帧,否则,不是关键帧。
优选的,算法处理中,将视频的帧图片调整为64*64像素大小,然后进行离散余弦变换DCT,取频率信号矩阵左上角8*8的部分,用来表达当前的帧信息。然后取均值,如果大于均值记为1,否则记为0。所以,最后视频的每一张帧图片都可以用64bit的长整型(同样的扫描顺序)进行表示,大大缩小了存储空间,改善算法的处理时间。
计算当前帧的离散余弦变换DCT压缩表示,与之前的关键帧队列计算欧式距离,如果欧式距离(计算公式如下)大于一定阈值,则认为是关键帧,否则,不是关键帧。为了避免队列中的帧类别的无限制增长,以及考虑实际视频内容间隔较大相关性大大降低的性质,当前帧的离散余弦变换DCT压缩变换,只和他之前最近的5个关键帧对比,即维护一个长度为5的滑动窗口,最终完成视频关键帧提取。
进一步的,离散余弦变换DCT的方法包括:
其中,n指的是图片大小为n*n;f(x,y)指的是图片坐标[x,y]的像素值;图片f经过离散余弦变换后为T,T的大小为n*n;T(u,v)指的是图片离散余弦后[u,v]位置的值。
进一步的,欧式距离的计算方法包括:
其中,k为维护的关键帧队列;xi为当前帧第i个离散余弦变换特征;yki为关键帧队列中第k帧的第i个离散余弦变换特征,dist即为所求欧式距离。
步骤二具体包括:基于3dConvNet,采用3d卷积神经网络完成不定长关键帧序列的深度特征提取。
将步骤一产生的视频关键帧按照时间顺序排序,形成视频关键帧序列,通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取,其中三维卷积神经网络主要由3d卷积核,批量归一化层,随机丢弃层等构成。
进一步的,通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取,包括:
采用3*3*3的3d池化层,公式如下:
其中,提取出的视频关键帧为t0张h0*w0大小的图片,经过第一层3d卷积核(卷积核大小为3)以及3d池化层后形成t1张h1*w1大小的特征图,其中pooling_size为对应的3d池化层的大小;视频关键帧序列经过3d卷积神经网络,产生视频时序特征序列,维度64*h2*w2*t2,其中t2为时间序列,特征图的大小为h2*w2。
优选的,基于3dConvNet,提出一种可处理不定长视频关键帧序列的3d-ConvNet,采用3d卷积神经网络完成不定长关键帧序列特征提取,如图1所示,截取卷积层的输出,作为视频关键帧的深度特征。模型图1以c*h0*w0*t0的视频关键帧作为输入,其中关键帧为c通道(通常为RGB3通道),大小为h0*w0,每个视频提取的关键帧数为t0,模型如下,完成视频关键帧序列的深度特征提取。最终产生视频时序特征序列,维度64*h2*w2*t2,其中t2为时间序列,特征图的大小为h2*w2。
步骤三具体包括:
如图4所示,获取视频的描述,使用结巴分词的方式,将句子分解成词语序列,将词语序列经过词向量矩阵转换后,产生的词向量经过双向长短期记忆神经网络,双向长短期记忆神经网络以正向句子描述和反向句子描述的隐藏层输出共同作为类别最终描述向量,产生视频描述向量,完成视频描述的特征生成。
进一步的,句子向量生成的方式包括但不限于:
基于预训练好的词向量生成方法Word2Vec、词向量生成方法GloVe等词向量对句子中的每个词做平均,或用类似于词向量训练的方式重新训练,或通过长短期记忆神经网络LSTM等深度学习模块,完成视频描述的特征生成。
优选的,获取视频的描述,通过句子向量生成Sent2Vec的方式获取每个描述的嵌入表示作为这个视频的语义表示(即hidden0)。
步骤四具体包括:
如图3所示,模型架构三维卷积循环神经网络3d-ConvRNN-Net由两部分构成,一部分文本特征,采用句子向量生成sent2vec的无监督学习的方式,生成的视频标题语义描述向量(即hidden0),用于长短期记忆单元的隐藏层的初始化;第二部分为视频特征,视频时序特征序列为:64*h2*w2*t2,其中t2为时间序列,展开作为长短期记忆单元的时间序列输入即可,特征图的大小为h2*w2;最终将长短期记忆神经网络的隐藏层输出,经过随机丢弃层、全连接层,多分类损失函数采用交叉熵损失函数,最终完成视频场景多分类。
进一步的,多分类损失函数采用交叉熵损失函数。
本发明的有益效果是:
本发明实施例一提供的一种基于视频描述的视频场景分类方法(3d-ConvRNN-Net),借助于视频描述,实现一种快速、准确的视频场景分类方法,该方法可快速准确地提取视频关键帧,相比使用视频所有的帧或者按照一定时间间隔抽样,结果更加准确快速。同时可提升视频场景分类的准确性,通过长短期记忆神经网络rnn训练学习视频的关键帧时序关系,更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于视频描述的视频场景分类方法,其特征在于,包括:
步骤一、基于离散余弦变换以及帧滑动窗口快速提取视频关键帧,并对视频关键帧进行划分;
步骤二、采用三维卷积神经网络对视频不定长关键帧序列进行特征提取,提取出视频关键帧深度特征;
步骤三、通过句子向量生成的方式获取每个视频描述的嵌入表示作为视频描述文本特征;
步骤四、基于提取的视频关键帧深度特征和视频描述文本特征得到模型架构,该模型架构为三维卷积循环神经网络3d-ConvRNN-Net。
2.如权利要求1所述的方法,其特征在于,步骤一具体包括:
将视频的帧图片调整为设定像素大小后进行离散余弦变换,取频率信号矩阵左上角的设定大小部分为当前的帧信息;计算当前帧的离散余弦变换变化压缩表示,与之前的关键帧队列计算欧式距离,如果欧式距离大于一定阈值,则认为是关键帧,否则,不是关键帧。
3.如权利要求1或2所述的方法,其特征在于,离散余弦变换变换的方法包括:
其中,n指的是图片大小为n*n;f(x,y)指的是图片坐标[x,y]的像素值;图片f经过离散余弦变换后为T,T的大小为n*n;T(u,v)指的是图片离散余弦后[u,v]位置的值。
4.如权利要求2所述的方法,其特征在于,欧式距离的计算方法包括:
其中,k为维护的关键帧队列;xi为当前帧第i个离散余弦变换特征;yki为关键帧队列中第k帧的第i个离散余弦变换特征,dist即为所求欧式距离。
5.如权利要求1所述的方法,其特征在于,步骤二具体包括:
将步骤一产生的视频关键帧按照时间顺序排序,形成视频关键帧序列,通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取,其中三维卷积神经网络主要由3d卷积核,批量归一化层,随机丢弃层等构成。
6.如权利要求5所述的方法,其特征在于,通过三维卷积神经网络3dConvNet完成关键帧的深度特征提取,包括:
采用3*3*3的3d池化层,公式如下:
其中,提取出的视频关键帧为t0张h0*w0大小的图片,经过第一层3d卷积核(卷积核大小为3)以及3d池化层后形成t1张h1*w1大小的特征图,其中pooling_size为对应的3d池化层的大小;视频关键帧序列经过3d卷积神经网络,产生视频时序特征序列,维度64*h2*w2*t2,其中t2为时间序列,特征图的大小为h2*w2。
7.如权利要求1所述的方法,其特征在于,步骤三具体包括:
获取视频的描述,使用结巴分词的方式,将句子分解成词语序列,将词语序列经过词向量矩阵转换后,产生的词向量经过双向长短期记忆神经网络,双向长短期记忆神经网络以正向句子描述和反向句子描述的隐藏层输出共同作为类别最终描述向量,产生视频描述向量,完成视频描述的特征生成。
8.如权利要求7所述的方法,其特征在于,句子向量生成的方式包括但不限于:
基于预训练好的词向量生成方法Word2Vec、词向量生成方法GloVe等词向量对句子中的每个词做平均,或用类似于词向量训练的方式重新训练,或通过长短期记忆神经网络LSTM等深度学习模块,完成视频描述的特征生成。
9.如权利要求1所述的方法,其特征在于,步骤四具体包括:
模型架构三维卷积循环神经网络3d-ConvRNN-Net由两部分构成,一部分文本特征,采用句子向量生成的无监督学习的方式,生成的视频标题语义描述向量,用于长短期记忆单元的隐藏层的初始化;第二部分为视频特征,视频时序特征序列为:64*h2*w2*t2,其中t2为时间序列,展开作为长短期记忆单元的时间序列输入即可,特征图的大小为h2*w2;最终将长短期记忆神经网络的隐藏层输出,经过随机丢弃层、全连接层,多分类损失函数采用交叉熵损失函数,最终完成视频场景多分类。
CN201910238135.4A 2019-03-27 2019-03-27 一种基于视频描述的视频场景分类方法 Active CN109948721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238135.4A CN109948721B (zh) 2019-03-27 2019-03-27 一种基于视频描述的视频场景分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238135.4A CN109948721B (zh) 2019-03-27 2019-03-27 一种基于视频描述的视频场景分类方法

Publications (2)

Publication Number Publication Date
CN109948721A true CN109948721A (zh) 2019-06-28
CN109948721B CN109948721B (zh) 2021-07-09

Family

ID=67011968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238135.4A Active CN109948721B (zh) 2019-03-27 2019-03-27 一种基于视频描述的视频场景分类方法

Country Status (1)

Country Link
CN (1) CN109948721B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796058A (zh) * 2019-10-23 2020-02-14 深圳龙岗智能视听研究院 一种基于关键帧提取和层次性表述的视频行为识别方法
CN110852195A (zh) * 2019-10-24 2020-02-28 杭州趣维科技有限公司 一种基于video slice的视频类型分类方法
CN111160191A (zh) * 2019-12-23 2020-05-15 腾讯科技(深圳)有限公司 一种视频关键帧提取方法、装置及存储介质
CN111538896A (zh) * 2020-03-12 2020-08-14 成都云帆数联科技有限公司 基于深度学习的新闻视频细粒度标签智能提取方法
CN111681680A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN112733637A (zh) * 2020-12-29 2021-04-30 上海小零网络科技有限公司 一种超市的全景视频监控方法
CN115376052A (zh) * 2022-10-26 2022-11-22 山东百盟信息技术有限公司 一种基于关键帧采样和多尺度稠密网络的长视频分类方法
CN117271831A (zh) * 2023-11-17 2023-12-22 深圳市致尚信息技术有限公司 一种基于多属性学习的体育视频智能分类方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453649A (zh) * 2008-12-30 2009-06-10 浙江大学 压缩域视频流的关键帧提取方法
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
CN105049875A (zh) * 2015-07-24 2015-11-11 上海上大海润信息系统有限公司 一种基于混合特征与突变检测的精确关键帧提取方法
CN105657431A (zh) * 2016-02-01 2016-06-08 杭州当虹科技有限公司 一种基于视频帧dct域的水印算法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107079155A (zh) * 2014-03-25 2017-08-18 云巅控股有限公司 视频内容分类
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
WO2018106805A1 (en) * 2016-12-09 2018-06-14 William Marsh Rice University Signal recovery via deep convolutional networks
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108805036A (zh) * 2018-05-22 2018-11-13 电子科技大学 一种新的非监督的视频语义提取方法
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN109145840A (zh) * 2018-08-29 2019-01-04 北京字节跳动网络技术有限公司 视频场景分类方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453649A (zh) * 2008-12-30 2009-06-10 浙江大学 压缩域视频流的关键帧提取方法
CN107079155A (zh) * 2014-03-25 2017-08-18 云巅控股有限公司 视频内容分类
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
CN105049875A (zh) * 2015-07-24 2015-11-11 上海上大海润信息系统有限公司 一种基于混合特征与突变检测的精确关键帧提取方法
CN105657431A (zh) * 2016-02-01 2016-06-08 杭州当虹科技有限公司 一种基于视频帧dct域的水印算法
WO2018106805A1 (en) * 2016-12-09 2018-06-14 William Marsh Rice University Signal recovery via deep convolutional networks
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108805036A (zh) * 2018-05-22 2018-11-13 电子科技大学 一种新的非监督的视频语义提取方法
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN109145840A (zh) * 2018-08-29 2019-01-04 北京字节跳动网络技术有限公司 视频场景分类方法、装置、设备及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796058A (zh) * 2019-10-23 2020-02-14 深圳龙岗智能视听研究院 一种基于关键帧提取和层次性表述的视频行为识别方法
CN110852195A (zh) * 2019-10-24 2020-02-28 杭州趣维科技有限公司 一种基于video slice的视频类型分类方法
CN111160191A (zh) * 2019-12-23 2020-05-15 腾讯科技(深圳)有限公司 一种视频关键帧提取方法、装置及存储介质
CN111160191B (zh) * 2019-12-23 2024-05-14 腾讯科技(深圳)有限公司 一种视频关键帧提取方法、装置及存储介质
CN111538896A (zh) * 2020-03-12 2020-08-14 成都云帆数联科技有限公司 基于深度学习的新闻视频细粒度标签智能提取方法
CN111538896B (zh) * 2020-03-12 2021-04-27 成都云帆数联科技有限公司 基于深度学习的新闻视频细粒度标签智能提取方法
CN111681680B (zh) * 2020-06-09 2023-08-25 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN111681680A (zh) * 2020-06-09 2020-09-18 杭州星合尚世影视传媒有限公司 视频识别物体获取音频方法、系统、装置及可读存储介质
CN112733637A (zh) * 2020-12-29 2021-04-30 上海小零网络科技有限公司 一种超市的全景视频监控方法
CN115376052A (zh) * 2022-10-26 2022-11-22 山东百盟信息技术有限公司 一种基于关键帧采样和多尺度稠密网络的长视频分类方法
CN115376052B (zh) * 2022-10-26 2023-04-07 山东百盟信息技术有限公司 一种基于关键帧采样和多尺度稠密网络的长视频分类方法
CN117271831A (zh) * 2023-11-17 2023-12-22 深圳市致尚信息技术有限公司 一种基于多属性学习的体育视频智能分类方法及系统
CN117271831B (zh) * 2023-11-17 2024-03-29 深圳市致尚信息技术有限公司 一种基于多属性学习的体育视频智能分类方法及系统

Also Published As

Publication number Publication date
CN109948721B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN109886225B (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
Hara et al. Learning spatio-temporal features with 3d residual networks for action recognition
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
WO2022134655A1 (zh) 一种端到端的视频动作检测定位系统
CN108921032B (zh) 一种新的基于深度学习模型的视频语义提取方法
CN113920581B (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN102271241A (zh) 一种基于面部表情/动作识别的图像通信方法及系统
CN111274921A (zh) 一种利用姿态掩模进行人体行为识别的方法
CN111462733B (zh) 多模态语音识别模型训练方法、装置、设备及存储介质
CN108647599B (zh) 结合3d跃层连接和循环神经网络的人体行为识别方法
CN110580472A (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
CN108805036A (zh) 一种新的非监督的视频语义提取方法
CN109447014A (zh) 一种基于双通道卷积神经网络的视频在线行为检测方法
CN113255464A (zh) 一种飞机动作识别方法及系统
He et al. Local fusion networks with chained residual pooling for video action recognition
Zuo et al. Recognition of blue movies by fusion of audio and video
Khokher et al. A super descriptor tensor decomposition for dynamic scene recognition
Luo et al. An modified video stream classification method which fuses three-dimensional convolutional neural network
CN110163489B (zh) 一种戒毒运动锻炼成效评价方法
CN116798123A (zh) 一种个性化联邦学习下的视频行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant