CN109857906A - 基于查询的无监督深度学习的多视频摘要方法 - Google Patents
基于查询的无监督深度学习的多视频摘要方法 Download PDFInfo
- Publication number
- CN109857906A CN109857906A CN201910023842.1A CN201910023842A CN109857906A CN 109857906 A CN109857906 A CN 109857906A CN 201910023842 A CN201910023842 A CN 201910023842A CN 109857906 A CN109857906 A CN 109857906A
- Authority
- CN
- China
- Prior art keywords
- layer
- video
- query
- rbm
- hidden
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 94
- 230000006870 function Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及视频摘要处理,为提出一种能够结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想的多视频摘要方法,本发明基于查询的无监督深度学习的多视频摘要方法,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧;然后将融合的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM,在第一层RBM进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后通过低层参数自下而上连接到RBM网络的第二、三层;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。本发明主要应用于视频摘要处理。
Description
技术领域
本发明涉及视频摘要处理。特别是涉及对具有冗余性,交叉性等特点的多媒体视频数据,通过无监督深度学习(受限玻尔兹曼机)方法对多视频关键镜头进行分析,再结合网络图像的辅助信息进行摘要获取的基于查询的无监督深度学习的多视频摘要方法。具体讲,涉及查询的无监督深度学习的多视频摘要方法。
背景技术
随着技术的发展,在线视频的数量正以飞快的速度增长,用户也可以使用自己的移动设备方便地上传个人视频到共享网站。记录同一事件、同一场景的视频可能存在大量的冗余信息,这对用户捕捉重要信息带来了困难。因此对大量的视频集中提取出有意义的部分,使用户快速获取视频信息的重要内容的技术是迫切需求的。视频摘要是通过将一个或多个视频转换为精简视频来满足此要求的技术,引起了越来越多的研究人员的关注。多视频摘要技术旨在针对某个查询主题下的大量视频,提取出和检索主题内容相关的且有意义的部分,并以一定的逻辑形式呈现出来,目的是通过简洁而又涵盖主题内容的概要帮助用户更好地了解视频集的重要信息。视频摘要的方法也可以分为两类:基于关键帧的视频摘要和基于视频剪辑的视频摘要。不管是哪类方法,根本目的都是一样的,就是使用户在最短的时间获取原始视频中最大的信息量。多视频摘要需要满足的基本要求:1)最大信息覆盖率;2)重要性;3)主题相关性。最大信息覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头,从而提取出多个视频中重要的内容。主题相关性指的是要保证获取的视频摘要并能准确的反映查询主题的内容。对于单视频摘要,目前有很多实现方法。但是多视频数据集的处理就比较困难。一方面多视频数据集存在较大的冗余性:大量同性质的网站提供相同或者类似的视频资源,用户可以上传自己的视频数据。另一方面多视频数据集同一内容所表现出来的音频信息,文本信息和视觉信息可能存在较大差别。因此多视频摘要技术相对于单个视频摘要获取就存在比较大的困难。
作为一个更具挑战性的任务,研究学者针对多视频数据集提出了一些比较可行的方法。其中聚类的方法或者图模型法在原始搜索结果中分析和发现视觉相似的图像作为搜索样例原型是一种比较常用的方法。传统的聚类方法不能解决多视频数据集在同一主题下内容多样且冗余所带来的困难。只考虑视觉上的信息效果较差,需要结合多视频的多模态信息进行摘要的获取。
针对同一主题下的多视频数据集,利用视频的视觉共现特性(visual Co-occurrence)实现多视频摘要是一种比较新颖的方法。该方法认为重要的视觉概念往往重复出现在同一主题下的多个视频中,并根据这一特点提出了最大二元组查找算法(MaximalBiclique Finding),提取多视频的稀疏共现模式,从而实现多视频摘要。但是该方法仅适用于特定的数据集,对于视频中重复性较小的视频集,该方法就失去了意义。
此外,相关学者利用多视频中的文本,音频等多模态信息,判断视频中的重要信息,生成多视频摘要。目前,由于多视频数据的复杂性,多视频摘要技术的方法还有待提升。因此,如何借助已有的多视频信息对数据集进行视频结构和内容的分析,更好地实现多视频摘要,成为目前相关学者研究的热点。
发明内容
本发明所要解决的技术问题是:针对多媒体视频数据的冗余信息、重复信息较多等特点,提供一种能够结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想的多视频摘要方法。
本发明所采取的技术方案是:基于查询的无监督深度学习的多视频摘要方法,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧,提取4096维的VGG卷积神经网络特征和256维的颜色特征;然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM,为了整合文档摘要的查询信息,在第一层RBM进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后通过低层参数自下而上连接到RBM网络的第二、三层;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。
具体的,提取视频视觉特征,使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征,记为f=[f1,f2,...fi,...,fv],fi表示第i帧的特征。
无监督深度学习的网络采用多层受限玻尔兹曼机,具体表示如下:
视频特征f作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机RBM,第一层RBM即可见层H0和隐藏层H1之间的能量函数通过公式(1)来定义:
E(h0,h1;θ1)=-((h0)TA1h1+(b1)Th0+(c1)Th1) (1)
其中,θ1=(A1,b1,c1)是可见层H0和隐藏层H1之间的模型参数,A1是H0中的可见单元和H1中隐藏单元之间的对称交互项,b1是H0的偏差,c1是H1的偏差。
可见层H0和隐藏层H1之间具有如下联合分布:
其中,Z是一个归一化函数,在H0中可见矢量分配给h0的对数似然概率如公式(3)所示:
可见层H0的输入状态h0和隐藏层H1的隐藏状态h1的条件概率分布由公式(4)和(5)定义:
其中σ(x)=1/(1+exp(-x));
定义h1(k)为来自链的第k个h1的样本,从k=0开始,其中h1(0)是RBM的输入观察,而(h1(k),h0(k))for k→∞是马尔可夫链的样本,计算出公式(3)的导数与参数θ1=(A1,b1,c1)有如下关系:
当k=1时,模型参数A1的导数可以通过公式(7)获得:
其中<·>data表示数据分布的期望,<·>recon表示一步之后数据的“重建”分布,由此参数A1定义转化成:
其它在θ1中的参数更新的方式也以相似的方式进行计算,其中是动量参数,εA,εb,εc是学习率;
以上是第一层RBM可见层H0与隐藏层H1的操作过程,RBM被用作深层模型的构建块,因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示,同理隐藏层H1与隐藏层H2之间、隐藏层H2与输出层H3之间的连接的能量函数分别由式(11)(12)表示,联合分布函数分别由式(13)(14)表示:
E(h1,h2;θ2)=-((h1)TA2h2+(b2)Th1+(c2)Th2) (11)
E(h2,h3;θ3)=-((h2)TA3h3+(b3)Th2+(c3)Th3) (12)
依据第一层RBM参数推导,同理可推导出θ2、A2、b2、c2以及θ3、A3、b3、c3。
此外,为了得到与主题相关度高的视频摘要,借助查询的网络图像的辅助信息,在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作,Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数;
在随机初始化设置后,如果第i个H0中的节点帧与查询网络图像的平均相似性大于0.5,进行公式(15)操作:
其中,是H0中的可见单元i和H1中隐藏单元j之间的对称交互项;
在惩罚过程中,与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多;
其中γ是惩罚因子,si表示第i个候选关键帧与主题相关程度,定义为sim(·,·)表示余弦相似性。
最后,在基于深层体系结构的概念提取之后,重要性矩阵AF如公式(17)所示:
其中K3表示隐藏层H3中单元总数,A1,A2,A3是层对中的对称交互项;
从隐藏层H3输出中选择重要性分数前80%的帧作为多视频摘要结果,输出关键帧集合F,得到简介且有意义的多视频摘要。
本发明能够带来如下有益效果:
本发明针对多媒体视频数据的冗余信息、重复信息较多等特点,结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想对传统的多视频摘要方法进行了改进,从而达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。
附图说明
图1是本发明基于查询的无监督深度学习的多视频摘要整体流程图。
具体实施方式
本发明针对多媒体视频数据的冗余信息、重复信息较多等特点,结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想对传统的多视频摘要方法进行了改进,达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。
本发明的目的在于提供一种基于查询的无监督深度学习的多视频摘要技术。针对多视频数据集冗余性高、交叉性强、主题多样性等特点,本发明首先对视频进行镜头检测预处理得到候选关键帧,提取候选关键帧对应的融合视觉特征。然后通过受限玻尔兹曼机获取网络隐藏层单元信息,利用网络图像与视频集在同一事件主题下的共性关系,在网络中加入基于查询的初始权重设置和查询导向惩罚过程两个过程,以得到与主题程度相关度高的关键帧集。最后同归高层的隐藏层输出简洁且有意义的多视频摘要。
本发明所采取的技术方案是:基于查询的无监督深度学习的多视频摘要方法,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧,提取4096维的VGG卷积神经网络特征和256维的颜色特征;然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机RBM,为了借助查询信息的辅助信息提取摘要,我们进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后对所有候选关键帧在更高层的RBM执行类似的操作;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。
下面结合附图和具体实施方式,进一步详细说明本发明。
本发明的一种基于查询的无监督深度学习的多视频摘要方法,如图1所示,包括如下步骤:
(1)使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征,记为f=[f1,f2,...fi,...,fv],fi表示第i帧的特征;
(2)视频特征f作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机(RBM),第一层RBM的能量函数通过公式(1)来定义:
E(h0,h1;θ1)=-((h0)TA1h1+(b1)Th0+(c1)Th1), (1)
其中,θ1=(A1,b1,c1)是可见层H0和隐藏层H1之间的模型参数。A1是H0中的可见单元和H1中隐藏单元之间的对称交互项,b1是H0的偏差,c1是H1的偏差。
可见层H0和隐藏层H1之间具有如下联合分布:
其中,Z是一个归一化函数,在H0中可见矢量分配给h0的对数似然概率如公式(3)所示:
可见层H0的输入状态h0和隐藏层H1的隐藏状态h1的条件概率分布由公式(4)和(5)定义:
其中σ(x)=1/(1+exp(-x));
定义h1(k)为来自链的第k个h1的样本,从k=0开始,其中h1(0)是RBM的输入观察,而(h1(k),h0(k))for k→∞是马尔可夫链的样本,计算出公式(3)的导数与参数θ1=(A1,b1,c1)有如下关系:
当k=1时,模型参数A1的导数可以通过公式(7)获得:
其中<·>data表示数据分布的期望,<·>recon表示一步之后数据的“重建”分布,由此参数A1定义转化成:
其它在θ1中的参数更新的方式也以相似的方式进行计算,其中是动量参数,εA,εb,εc是学习率;
为了得到与主题相关度高的视频摘要,我们借助查询的网络图像的辅助信息,进行查询面向初始权重设置和查询导向惩罚两方面的操作。Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数。
在随机初始化设置后,为了得到与主题相关度高的视频摘要,借助查询的网络图像的辅助信息,在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作,,Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数。如果第i个H0中的节点帧与查询网络图像的平均相似性大于0.5,我们进行公式(11)操作:
在惩罚过程中,与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多。
其中γ是惩罚因子,si表示第i个候选关键帧与主题相关程度,定义为sim(·,·)表示余弦相似性。
(3)以上是第一层RBM(可见层H0与隐藏层H1)的操作过程。RBM被用作深层模型的构建块,因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示,并且自上而下的连接可以用来验证所生成的紧凑表示的有效性。同理隐藏层H1与隐藏层H2之间、隐藏层H2与输出层H3之间的连接的能量函数分别由式(13)(14)表示,联合分布函数分别由式(13)(14)表示:
E(h1,h2;θ2)=-((h1)TA2h2+(b2)Th1+(c2)Th2) (13)
E(h2,h3;θ3)=-((h2)TA3h3+(b3)Th2+(c3)Th3) (14)
依据第一层RBM参数推导,同理可推导出θ2、A2、b2、c2以及θ3、A3、b3、c3。
(4)在基于深层体系结构的概念提取之后,重要性矩阵AF如公式(17)所示:
其中K3表示隐藏层H3中单元总数,A1,A2,A3是层对中的对称交互项。
为了减少噪声的影响,我们从隐藏层H3输出中选择重要性分数前80%的帧作为多视频摘要结果。输出关键帧集合F。
Claims (5)
1.一种基于查询的无监督深度学习的多视频摘要方法,其特征是,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧,提取4096维的VGG卷积神经网络特征和256维的颜色特征;然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM,为了整合文档摘要的查询信息,在第一层RBM进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后通过低层参数自下而上连接到RBM网络的第二、三层;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。
2.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,具体的,提取视频视觉特征,使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征,记为f=[f1,f2,...fi,...,fv],fi表示第i帧的特征。
3.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,无监督深度学习的网络采用多层受限玻尔兹曼机,具体表示如下:
视频特征f作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机RBM,第一层RBM即可见层H0和隐藏层H1之间的能量函数通过公式(1)来定义:
E(h0,h1;θ1)=-((h0)TA1h1+(b1)Th0+(c1)Th1) (1)
其中,θ1=(A1,b1,c1)是可见层H0和隐藏层H1之间的模型参数,A1是H0中的可见单元和H1中隐藏单元之间的对称交互项,b1是H0的偏差,c1是H1的偏差;
可见层H0和隐藏层H1之间具有如下联合分布:
其中,Z是一个归一化函数,在H0中可见矢量分配给h0的对数似然概率如公式(3)所示:
可见层H0的输入状态h0和隐藏层H1的隐藏状态h1的条件概率分布由公式(4)和(5)定义:
其中σ(x)=1/(1+exp(-x));
定义h1(k)为来自链的第k个h1的样本,从k=0开始,其中h1(0)是RBM的输入观察,而(h1(k),h0(k))for k→∞是马尔可夫链的样本,计算出公式(3)的导数与参数θ1=(A1,b1,c1)有如下关系:
当k=1时,模型参数A1的导数可以通过公式(7)获得:
其中<·>data表示数据分布的期望,<·>recon表示一步之后数据的“重建”分布,由此参数A1定义转化成:
其它在θ1中的参数更新的方式也以相似的方式进行计算,其中是动量参数,εA,εb,εc是学习率;
以上是第一层RBM可见层H0与隐藏层H1的操作过程,RBM被用作深层模型的构建块,因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示,同理隐藏层H1与隐藏层H2之间、隐藏层H2与输出层H3之间的连接的能量函数分别由式(11)(12)表示,联合分布函数分别由式(13)(14)表示:
E(h1,h2;θ2)=-((h1)TA2h2+(b2)Th1+(c2)Th2) (11)
E(h2,h3;θ3)=-((h2)TA3h3+(b3)Th2+(c3)Th3) (12)
依据第一层RBM参数推导,同理可推导出θ2、A2、b2、c2以及θ3、A3、b3、c3。
4.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,为了得到与主题相关度高的视频摘要,借助查询的网络图像的辅助信息,在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作,Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数;
在随机初始化设置后,如果第i个H0中的节点帧与查询网络图像的平均相似性大于0.5,进行公式(15)操作:
其中,是H0中的可见单元i和H1中隐藏单元j之间的对称交互项;
在惩罚过程中,与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多;
其中γ是惩罚因子,si表示第i个候选关键帧与主题相关程度,定义为sim(·,·)表示余弦相似性。
5.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,在基于深层体系结构的概念提取之后,重要性矩阵AF如公式(17)所示:
其中K3表示隐藏层H3中单元总数,A1,A2,A3是层对中的对称交互项;
从隐藏层H3输出中选择重要性分数前80%的帧作为多视频摘要结果,输出关键帧集合F,得到简介且有意义的多视频摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023842.1A CN109857906B (zh) | 2019-01-10 | 2019-01-10 | 基于查询的无监督深度学习的多视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023842.1A CN109857906B (zh) | 2019-01-10 | 2019-01-10 | 基于查询的无监督深度学习的多视频摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857906A true CN109857906A (zh) | 2019-06-07 |
CN109857906B CN109857906B (zh) | 2023-04-07 |
Family
ID=66894424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910023842.1A Active CN109857906B (zh) | 2019-01-10 | 2019-01-10 | 基于查询的无监督深度学习的多视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857906B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778571A (zh) * | 2016-12-05 | 2017-05-31 | 天津大学 | 一种基于深度神经网络的数字视频特征提取方法 |
CN107203636A (zh) * | 2017-06-08 | 2017-09-26 | 天津大学 | 基于超图主集聚类的多视频摘要方法 |
CN107730040A (zh) * | 2017-09-30 | 2018-02-23 | 国网山东省电力公司电力科学研究院 | 基于rbm的电力信息系统日志信息综合特征提取方法和装置 |
CN107911755A (zh) * | 2017-11-10 | 2018-04-13 | 天津大学 | 一种基于稀疏自编码器的多视频摘要方法 |
CN107943990A (zh) * | 2017-12-01 | 2018-04-20 | 天津大学 | 基于带权重的原型分析技术的多视频摘要方法 |
CN108804578A (zh) * | 2018-05-24 | 2018-11-13 | 南京理工大学 | 基于一致性片段生成的无监督视频摘要方法 |
CN108805102A (zh) * | 2018-06-28 | 2018-11-13 | 中译语通科技股份有限公司 | 一种基于深度学习的视频字幕检测与识别方法及系统 |
-
2019
- 2019-01-10 CN CN201910023842.1A patent/CN109857906B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778571A (zh) * | 2016-12-05 | 2017-05-31 | 天津大学 | 一种基于深度神经网络的数字视频特征提取方法 |
CN107203636A (zh) * | 2017-06-08 | 2017-09-26 | 天津大学 | 基于超图主集聚类的多视频摘要方法 |
CN107730040A (zh) * | 2017-09-30 | 2018-02-23 | 国网山东省电力公司电力科学研究院 | 基于rbm的电力信息系统日志信息综合特征提取方法和装置 |
CN107911755A (zh) * | 2017-11-10 | 2018-04-13 | 天津大学 | 一种基于稀疏自编码器的多视频摘要方法 |
CN107943990A (zh) * | 2017-12-01 | 2018-04-20 | 天津大学 | 基于带权重的原型分析技术的多视频摘要方法 |
CN108804578A (zh) * | 2018-05-24 | 2018-11-13 | 南京理工大学 | 基于一致性片段生成的无监督视频摘要方法 |
CN108805102A (zh) * | 2018-06-28 | 2018-11-13 | 中译语通科技股份有限公司 | 一种基于深度学习的视频字幕检测与识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
ZHONG JI,YUANYUAN ZHANG: "Hypergraph dominant set based multi-video summarization", 《EISEVIER》 * |
冀中: "基于重要性感知稀疏自编码器的多视频摘要", 《天津大学学报(自然科学与工程技术版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
CN110933518B (zh) * | 2019-12-11 | 2020-10-02 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109857906B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gabeur et al. | Multi-modal transformer for video retrieval | |
Jiang et al. | Exploiting feature and class relationships in video categorization with regularized deep neural networks | |
Wang et al. | A comprehensive survey on cross-modal retrieval | |
Pan et al. | Jointly modeling embedding and translation to bridge video and language | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
Xiao et al. | Convolutional hierarchical attention network for query-focused video summarization | |
CN101299241B (zh) | 基于张量表示的多模态视频语义概念检测方法 | |
Ruan et al. | Survey: Transformer based video-language pre-training | |
Chen et al. | Efficient spatial temporal convolutional features for audiovisual continuous affect recognition | |
CN112241468A (zh) | 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质 | |
Chen et al. | Social media popularity prediction based on visual-textual features with xgboost | |
Zhang et al. | Recognition of emotions in user-generated videos with kernelized features | |
CN113076476B (zh) | 一种微博异构信息的用户画像构建方法 | |
CN107943990B (zh) | 基于带权重的原型分析技术的多视频摘要方法 | |
Wang et al. | Fusion-supervised deep cross-modal hashing | |
Song et al. | A weighted topic model learned from local semantic space for automatic image annotation | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN106993240B (zh) | 基于稀疏编码的多视频摘要方法 | |
CN109889923A (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
Chauhan et al. | Analysis of Intelligent movie recommender system from facial expression | |
Mohammad et al. | Searching surveillance video contents using convolutional neural network | |
CN111259152A (zh) | 一种深度多层网络驱动的特征聚合类别划分器 | |
CN114626454A (zh) | 一种融合自监督学习和注意力机制的视觉情感识别方法 | |
CN113901228A (zh) | 融合领域知识图谱的跨境民族文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |