CN109857906B - 基于查询的无监督深度学习的多视频摘要方法 - Google Patents

基于查询的无监督深度学习的多视频摘要方法 Download PDF

Info

Publication number
CN109857906B
CN109857906B CN201910023842.1A CN201910023842A CN109857906B CN 109857906 B CN109857906 B CN 109857906B CN 201910023842 A CN201910023842 A CN 201910023842A CN 109857906 B CN109857906 B CN 109857906B
Authority
CN
China
Prior art keywords
layer
video
query
rbm
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910023842.1A
Other languages
English (en)
Other versions
CN109857906A (zh
Inventor
冀中
张媛媛
庞彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910023842.1A priority Critical patent/CN109857906B/zh
Publication of CN109857906A publication Critical patent/CN109857906A/zh
Application granted granted Critical
Publication of CN109857906B publication Critical patent/CN109857906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及视频摘要处理,为提出一种能够结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想的多视频摘要方法,本发明基于查询的无监督深度学习的多视频摘要方法,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧;然后将融合的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM,在第一层RBM进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后通过低层参数自下而上连接到RBM网络的第二、三层;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。本发明主要应用于视频摘要处理。

Description

基于查询的无监督深度学习的多视频摘要方法
技术领域
本发明涉及视频摘要处理。特别是涉及对具有冗余性,交叉性等特点的多媒体视频数据,通过无监督深度学习(受限玻尔兹曼机)方法对多视频关键镜头进行分析,再结合网络图像的辅助信息进行摘要获取的基于查询的无监督深度学习的多视频摘要方法。具体讲,涉及查询的无监督深度学习的多视频摘要方法。
背景技术
随着技术的发展,在线视频的数量正以飞快的速度增长,用户也可以使用自己的移动设备方便地上传个人视频到共享网站。记录同一事件、同一场景的视频可能存在大量的冗余信息,这对用户捕捉重要信息带来了困难。因此对大量的视频集中提取出有意义的部分,使用户快速获取视频信息的重要内容的技术是迫切需求的。视频摘要是通过将一个或多个视频转换为精简视频来满足此要求的技术,引起了越来越多的研究人员的关注。多视频摘要技术旨在针对某个查询主题下的大量视频,提取出和检索主题内容相关的且有意义的部分,并以一定的逻辑形式呈现出来,目的是通过简洁而又涵盖主题内容的概要帮助用户更好地了解视频集的重要信息。视频摘要的方法也可以分为两类:基于关键帧的视频摘要和基于视频剪辑的视频摘要。不管是哪类方法,根本目的都是一样的,就是使用户在最短的时间获取原始视频中最大的信息量。多视频摘要需要满足的基本要求:1)最大信息覆盖率;2)重要性;3)主题相关性。最大信息覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头,从而提取出多个视频中重要的内容。主题相关性指的是要保证获取的视频摘要并能准确的反映查询主题的内容。对于单视频摘要,目前有很多实现方法。但是多视频数据集的处理就比较困难。一方面多视频数据集存在较大的冗余性:大量同性质的网站提供相同或者类似的视频资源,用户可以上传自己的视频数据。另一方面多视频数据集同一内容所表现出来的音频信息,文本信息和视觉信息可能存在较大差别。因此多视频摘要技术相对于单个视频摘要获取就存在比较大的困难。
作为一个更具挑战性的任务,研究学者针对多视频数据集提出了一些比较可行的方法。其中聚类的方法或者图模型法在原始搜索结果中分析和发现视觉相似的图像作为搜索样例原型是一种比较常用的方法。传统的聚类方法不能解决多视频数据集在同一主题下内容多样且冗余所带来的困难。只考虑视觉上的信息效果较差,需要结合多视频的多模态信息进行摘要的获取。
针对同一主题下的多视频数据集,利用视频的视觉共现特性(visual Co-occurrence)实现多视频摘要是一种比较新颖的方法。该方法认为重要的视觉概念往往重复出现在同一主题下的多个视频中,并根据这一特点提出了最大二元组查找算法(MaximalBiclique Finding),提取多视频的稀疏共现模式,从而实现多视频摘要。但是该方法仅适用于特定的数据集,对于视频中重复性较小的视频集,该方法就失去了意义。
此外,相关学者利用多视频中的文本,音频等多模态信息,判断视频中的重要信息,生成多视频摘要。目前,由于多视频数据的复杂性,多视频摘要技术的方法还有待提升。因此,如何借助已有的多视频信息对数据集进行视频结构和内容的分析,更好地实现多视频摘要,成为目前相关学者研究的热点。
发明内容
本发明所要解决的技术问题是:针对多媒体视频数据的冗余信息、重复信息较多等特点,提供一种能够结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想的多视频摘要方法。
本发明所采取的技术方案是:基于查询的无监督深度学习的多视频摘要方法,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧,提取4096维的VGG卷积神经网络特征和256维的颜色特征;然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM,为了整合文档摘要的查询信息,在第一层RBM进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后通过低层参数自下而上连接到RBM网络的第二、三层;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。
具体的,提取视频视觉特征,使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征,记为f=[f1,f2,...fi,...,fv],fi表示第i帧的特征。
无监督深度学习的网络采用多层受限玻尔兹曼机,具体表示如下:
视频特征f作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机RBM,第一层RBM即可见层H0和隐藏层H1之间的能量函数通过公式(1)来定义:
E(h0,h1;θ1)=-((h0)TA1h1+(b1)Th0+(c1)Th1)   (1)
其中,θ1=(A1,b1,c1)是可见层H0和隐藏层H1之间的模型参数,A1是H0中的可见单元和H1中隐藏单元之间的对称交互项,b1是H0的偏差,c1是H1的偏差。
可见层H0和隐藏层H1之间具有如下联合分布:
Figure BDA0001941741780000021
其中,Z是一个归一化函数,在H0中可见矢量分配给h0的对数似然概率如公式(3)所示:
Figure BDA0001941741780000022
可见层H0的输入状态h0和隐藏层H1的隐藏状态h1的条件概率分布由公式(4)和(5)定义:
Figure BDA0001941741780000023
Figure BDA0001941741780000024
其中σ(x)=1/(1+exp(-x));
定义h1(k)为来自链的第k个h1的样本,从k=0开始,其中h1(0)是RBM的输入观察,而(h1(k),h0(k))for k→∞是马尔可夫链的样本,计算出公式(3)的导数与参数θ1=(A1,b1,c1)有如下关系:
Figure BDA0001941741780000031
当k=1时,模型参数A1的导数可以通过公式(7)获得:
Figure BDA0001941741780000032
其中<·>data表示数据分布的期望,<·>recon表示一步之后数据的“重建”分布,由此参数A1定义转化成:
Figure BDA0001941741780000033
其它在θ1中的参数更新的方式也以相似的方式进行计算,其中
Figure BDA0001941741780000038
是动量参数,εAbc是学习率;
Figure BDA0001941741780000034
Figure BDA0001941741780000035
以上是第一层RBM可见层H0与隐藏层H1的操作过程,RBM被用作深层模型的构建块,因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示,同理隐藏层H1与隐藏层H2之间、隐藏层H2与输出层H3之间的连接的能量函数分别由式(11)(12)表示,联合分布函数分别由式(13)(14)表示:
E(h1,h2;θ2)=-((h1)TA2h2+(b2)Th1+(c2)Th2)   (11)
E(h2,h3;θ3)=-((h2)TA3h3+(b3)Th2+(c3)Th3)   (12)
Figure BDA0001941741780000036
Figure BDA0001941741780000037
依据第一层RBM参数推导,同理可推导出θ2、A2、b2、c2以及θ3、A3、b3、c3
此外,为了得到与主题相关度高的视频摘要,借助查询的网络图像的辅助信息,在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作,Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数;
在随机初始化设置后,如果第i个H0中的节点帧与查询网络图像的平均相似性大于0.5,进行公式(15)操作:
Figure BDA0001941741780000041
其中,
Figure BDA0001941741780000042
是H0中的可见单元i和H1中隐藏单元j之间的对称交互项;
在惩罚过程中,与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多;
Figure BDA0001941741780000043
其中γ是惩罚因子,si表示第i个候选关键帧与主题相关程度,定义为
Figure BDA0001941741780000044
sim(·,·)表示余弦相似性。
最后,在基于深层体系结构的概念提取之后,重要性矩阵AF如公式(17)所示:
Figure BDA0001941741780000045
其中K3表示隐藏层H3中单元总数,A1,A2,A3是层对中的对称交互项;
从隐藏层H3输出中选择重要性分数前80%的帧作为多视频摘要结果,输出关键帧集合F,得到简介且有意义的多视频摘要。
本发明能够带来如下有益效果:
本发明针对多媒体视频数据的冗余信息、重复信息较多等特点,结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想对传统的多视频摘要方法进行了改进,从而达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。
附图说明
图1是本发明基于查询的无监督深度学习的多视频摘要整体流程图。
具体实施方式
本发明针对多媒体视频数据的冗余信息、重复信息较多等特点,结合视频的视觉信息和与主题相关的先验信息,利用受限玻尔兹曼机思想对传统的多视频摘要方法进行了改进,达到了有效利用视频主题相关信息、提高用户浏览视频效率的目的。
本发明的目的在于提供一种基于查询的无监督深度学习的多视频摘要技术。针对多视频数据集冗余性高、交叉性强、主题多样性等特点,本发明首先对视频进行镜头检测预处理得到候选关键帧,提取候选关键帧对应的融合视觉特征。然后通过受限玻尔兹曼机获取网络隐藏层单元信息,利用网络图像与视频集在同一事件主题下的共性关系,在网络中加入基于查询的初始权重设置和查询导向惩罚过程两个过程,以得到与主题程度相关度高的关键帧集。最后同归高层的隐藏层输出简洁且有意义的多视频摘要。
本发明所采取的技术方案是:基于查询的无监督深度学习的多视频摘要方法,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧,提取4096维的VGG卷积神经网络特征和256维的颜色特征;然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机RBM,为了借助查询信息的辅助信息提取摘要,我们进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后对所有候选关键帧在更高层的RBM执行类似的操作;在基于深层体系结构的概念提取之后,通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。
下面结合附图和具体实施方式,进一步详细说明本发明。
本发明的一种基于查询的无监督深度学习的多视频摘要方法,如图1所示,包括如下步骤:
(1)使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征,记为f=[f1,f2,...fi,...,fv],fi表示第i帧的特征;
(2)视频特征f作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机(RBM),第一层RBM的能量函数通过公式(1)来定义:
E(h0,h1;θ1)=-((h0)TA1h1+(b1)Th0+(c1)Th1),   (1)
其中,θ1=(A1,b1,c1)是可见层H0和隐藏层H1之间的模型参数。A1是H0中的可见单元和H1中隐藏单元之间的对称交互项,b1是H0的偏差,c1是H1的偏差。
可见层H0和隐藏层H1之间具有如下联合分布:
Figure BDA0001941741780000051
其中,Z是一个归一化函数,在H0中可见矢量分配给h0的对数似然概率如公式(3)所示:
Figure BDA0001941741780000052
可见层H0的输入状态h0和隐藏层H1的隐藏状态h1的条件概率分布由公式(4)和(5)定义:
Figure BDA0001941741780000053
Figure BDA0001941741780000054
其中σ(x)=1/(1+exp(-x));
定义h1(k)为来自链的第k个h1的样本,从k=0开始,其中h1(0)是RBM的输入观察,而(h1(k),h0(k))for k→∞是马尔可夫链的样本,计算出公式(3)的导数与参数θ1=(A1,b1,c1)有如下关系:
Figure BDA0001941741780000055
当k=1时,模型参数A1的导数可以通过公式(7)获得:
Figure BDA0001941741780000056
其中<·>data表示数据分布的期望,<·>recon表示一步之后数据的“重建”分布,由此参数A1定义转化成:
Figure BDA0001941741780000061
其它在θ1中的参数更新的方式也以相似的方式进行计算,其中
Figure BDA0001941741780000069
是动量参数,εAbc是学习率;
Figure BDA0001941741780000062
Figure BDA0001941741780000063
为了得到与主题相关度高的视频摘要,我们借助查询的网络图像的辅助信息,进行查询面向初始权重设置和查询导向惩罚两方面的操作。Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数。
在随机初始化设置后,为了得到与主题相关度高的视频摘要,借助查询的网络图像的辅助信息,在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作,,Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数。如果第i个H0中的节点帧与查询网络图像的平均相似性大于0.5,我们进行公式(11)操作:
Figure BDA0001941741780000064
在惩罚过程中,与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多。
Figure BDA0001941741780000065
其中γ是惩罚因子,si表示第i个候选关键帧与主题相关程度,定义为
Figure BDA0001941741780000066
sim(·,·)表示余弦相似性。
(3)以上是第一层RBM(可见层H0与隐藏层H1)的操作过程。RBM被用作深层模型的构建块,因为自下而上的连接可以用来从低层特征推断更紧凑的高层表示,并且自上而下的连接可以用来验证所生成的紧凑表示的有效性。同理隐藏层H1与隐藏层H2之间、隐藏层H2与输出层H3之间的连接的能量函数分别由式(13)(14)表示,联合分布函数分别由式(13)(14)表示:
E(h1,h2;θ2)=-((h1)TA2h2+(b2)Th1+(c2)Th2)   (13)
E(h2,h3;θ3)=-((h2)TA3h3+(b3)Th2+(c3)Th3)   (14)
Figure BDA0001941741780000067
Figure BDA0001941741780000068
依据第一层RBM参数推导,同理可推导出θ2、A2、b2、c2以及θ3、A3、b3、c3
(4)在基于深层体系结构的概念提取之后,重要性矩阵AF如公式(17)所示:
Figure BDA0001941741780000071
其中K3表示隐藏层H3中单元总数,A1,A2,A3是层对中的对称交互项。
为了减少噪声的影响,我们从隐藏层H3输出中选择重要性分数前80%的帧作为多视频摘要结果。输出关键帧集合F。

Claims (4)

1.一种基于查询的无监督深度学习的多视频摘要方法,其特征是,首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧,提取4096维的VGG卷积神经网络特征和256维的颜色特征;然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM,为了整合文档摘要的查询信息,在第一层RBM进行两个不同的过程,包括:基于查询的初始权重设置和查询导向惩罚过程;随后通过低层参数自下而上连接到RBM网络的第二、三层;在基于深层架构的概念提取之后,通过更高层的隐藏层H3输出多视频摘要。
2.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,具体的,提取视频视觉特征,使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征,记为f=[f1,f2,...fi,...,fv],fi表示第i帧的特征。
3.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,为了得到与主题相关度高的视频摘要,借助查询的网络图像的辅助信息,在第一层RBM中进行查询面向初始权重设置和查询导向惩罚两方面的操作,Q=[q1,q2,...,qi,...,qm]表示查询的网络图像特征集合,m表示网络图像集合帧的个数;
在随机初始化设置后,如果第i个H0中的节点帧与查询网络图像的平均相似性大于0.5,进行公式(15)操作:
Figure FDA0004043370000000011
其中,
Figure FDA0004043370000000012
是H0中的可见单元i和H1中隐藏单元j之间的对称交互项;
在惩罚过程中,与主题相关程度高的候选关键帧的重构错误比其它帧惩罚更多;
Figure FDA0004043370000000013
其中γ是惩罚因子,si表示第i个候选关键帧与主题相关程度,定义为
Figure FDA0004043370000000014
sim(·,·)表示余弦相似性。
4.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法,其特征是,在基于深层体系结构的概念提取之后,重要性矩阵AF如公式(17)所示:
Figure FDA0004043370000000015
其中K3表示隐藏层H3中单元总数,A1,A2,A3是层对中的对称交互项;
从隐藏层H3输出中选择重要性分数前80%的帧作为多视频摘要结果,输出关键帧集合F,得到简介且有意义的多视频摘要。
CN201910023842.1A 2019-01-10 2019-01-10 基于查询的无监督深度学习的多视频摘要方法 Active CN109857906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910023842.1A CN109857906B (zh) 2019-01-10 2019-01-10 基于查询的无监督深度学习的多视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023842.1A CN109857906B (zh) 2019-01-10 2019-01-10 基于查询的无监督深度学习的多视频摘要方法

Publications (2)

Publication Number Publication Date
CN109857906A CN109857906A (zh) 2019-06-07
CN109857906B true CN109857906B (zh) 2023-04-07

Family

ID=66894424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023842.1A Active CN109857906B (zh) 2019-01-10 2019-01-10 基于查询的无监督深度学习的多视频摘要方法

Country Status (1)

Country Link
CN (1) CN109857906B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933518B (zh) * 2019-12-11 2020-10-02 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778571A (zh) * 2016-12-05 2017-05-31 天津大学 一种基于深度神经网络的数字视频特征提取方法
CN107203636A (zh) * 2017-06-08 2017-09-26 天津大学 基于超图主集聚类的多视频摘要方法
CN107730040A (zh) * 2017-09-30 2018-02-23 国网山东省电力公司电力科学研究院 基于rbm的电力信息系统日志信息综合特征提取方法和装置
CN107911755A (zh) * 2017-11-10 2018-04-13 天津大学 一种基于稀疏自编码器的多视频摘要方法
CN107943990A (zh) * 2017-12-01 2018-04-20 天津大学 基于带权重的原型分析技术的多视频摘要方法
CN108804578A (zh) * 2018-05-24 2018-11-13 南京理工大学 基于一致性片段生成的无监督视频摘要方法
CN108805102A (zh) * 2018-06-28 2018-11-13 中译语通科技股份有限公司 一种基于深度学习的视频字幕检测与识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778571A (zh) * 2016-12-05 2017-05-31 天津大学 一种基于深度神经网络的数字视频特征提取方法
CN107203636A (zh) * 2017-06-08 2017-09-26 天津大学 基于超图主集聚类的多视频摘要方法
CN107730040A (zh) * 2017-09-30 2018-02-23 国网山东省电力公司电力科学研究院 基于rbm的电力信息系统日志信息综合特征提取方法和装置
CN107911755A (zh) * 2017-11-10 2018-04-13 天津大学 一种基于稀疏自编码器的多视频摘要方法
CN107943990A (zh) * 2017-12-01 2018-04-20 天津大学 基于带权重的原型分析技术的多视频摘要方法
CN108804578A (zh) * 2018-05-24 2018-11-13 南京理工大学 基于一致性片段生成的无监督视频摘要方法
CN108805102A (zh) * 2018-06-28 2018-11-13 中译语通科技股份有限公司 一种基于深度学习的视频字幕检测与识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hypergraph dominant set based multi-video summarization;Zhong Ji,Yuanyuan Zhang;《EISEVIER》;20180731;全文 *
基于重要性感知稀疏自编码器的多视频摘要;冀中;《天津大学学报(自然科学与工程技术版)》;20181130;全文 *

Also Published As

Publication number Publication date
CN109857906A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
Wang et al. A comprehensive survey on cross-modal retrieval
CN101299241B (zh) 基于张量表示的多模态视频语义概念检测方法
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
CN111581405A (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
Li et al. Context-aware group captioning via self-attention and contrastive features
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
CN111581401A (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN107943990B (zh) 基于带权重的原型分析技术的多视频摘要方法
Zhang et al. Recognition of emotions in user-generated videos with kernelized features
Chen et al. Social media popularity prediction based on visual-textual features with xgboost
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
Cornia et al. Visual saliency for image captioning in new multimedia services
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN106529492A (zh) 面向网络查询基于多图融合视频主题分类与描述方法
Song et al. A weighted topic model learned from local semantic space for automatic image annotation
CN106993240B (zh) 基于稀疏编码的多视频摘要方法
CN107911755B (zh) 一种基于稀疏自编码器的多视频摘要方法
Zhang et al. Exploiting mid-level semantics for large-scale complex video classification
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
CN109857906B (zh) 基于查询的无监督深度学习的多视频摘要方法
Mohammad et al. Searching surveillance video contents using convolutional neural network
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant