CN115731498B - 一种联合强化学习和对比学习的视频摘要生成方法 - Google Patents

一种联合强化学习和对比学习的视频摘要生成方法 Download PDF

Info

Publication number
CN115731498B
CN115731498B CN202211529350.8A CN202211529350A CN115731498B CN 115731498 B CN115731498 B CN 115731498B CN 202211529350 A CN202211529350 A CN 202211529350A CN 115731498 B CN115731498 B CN 115731498B
Authority
CN
China
Prior art keywords
video
shot
lens
learning
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211529350.8A
Other languages
English (en)
Other versions
CN115731498A (zh
Inventor
张云佐
刘亚猛
武存宇
张天
朱鹏飞
郑宇鑫
康伟丽
王正友
霍磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tiedao University
Original Assignee
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tiedao University filed Critical Shijiazhuang Tiedao University
Priority to CN202211529350.8A priority Critical patent/CN115731498B/zh
Publication of CN115731498A publication Critical patent/CN115731498A/zh
Application granted granted Critical
Publication of CN115731498B publication Critical patent/CN115731498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种联合强化学习和对比学习的视频摘要生成方法。该方法包括:根据视觉特征将完整的视频序列分割成互不相交的子序列集合;构建以镜头级特征为输入,以镜头级重要性分数为输出的视频摘要模型;构建训练损失函数,对网络参数进行迭代优化;选择包含最多关键信息的镜头,输出动态视频摘要。在基准数据集SumMe和TVSum上得到的实验结果证明了该方法的有效性。本发明所提出的视频摘要生成方法采用无监督的方式进行训练,可以有效地从判别性的特征表示中挖掘视频中的上下文依赖关系,从而准确地提取视频中的关键片段。

Description

一种联合强化学习和对比学习的视频摘要生成方法
技术领域
本发明涉及一种联合强化学习和对比学习的视频摘要生成方法,属于计算机视觉技术领域。
背景技术
随着大数据时代的到来,互联网上的在线视频数量爆炸式增长。根据最新统计,每分钟有超过500小时的视频数据上传到YouTube网站。经换算,相当于每天上传的视频时长约为82.2年。由于缺乏有效的管理手段,这些视频当中存在着大量无意义的信息,这使人类难以快速地从海量视频中获取有价值的信息,这种情况促使了自动视频分析技术的出现。
视频摘要由于其在浏览冗长视频时表现出的高效性在近些年来收到了广泛的关注。视频摘要的目的是自动地从原始视频当中挑选若干关键帧或者关键镜头,以一种简洁的概要来完整且快速地传达视频当中的重要信息。目前视频摘要方法主要分为关键帧提取和关键镜头提取。相比于前者,关键镜头可以保留视频当中的部分运动和视听信息,方便用户通过摘要理解视频内容。因此本发明将研究重点放在基于关键镜头提取的方法上。
近年来,视频摘要方法已经取得了前所未有的进步。一些基于监督学习的方法试图从人工标注中学习语义指导信息。然而,获取足够的标注数据通常面临着昂贵的成本,这产生了对无监督方法的迫切需求。目前有许多框架已经被提出,以达到通过摘要重建原始视频内容的目的。例如,Mahasseni B,Lam M,Todorovic S.Unsupervised videosummarization with adversarial lstm networks[C]//Proceedings of the IEEEconference on Computer Vision and Pattern Recognition.2017:202-211.设计了一种基于生成对抗网络(GAN)的方法,可以在完全无监督的环境下创建摘要。然而,基于GAN的模型通常面临复杂且不稳定的训练过程。为了克服这一问题,Zhou K,Qiao Y,Xiang T.Deepreinforcement learning for unsupervised video summarization with diversity-representativeness reward[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2018,32(1).提出了一种基于强化学习的架构,以使摘要满足多样性和代表性。Liu T,Meng Q,Huang J J,et al.Video summarization throughreinforcement learning with a 3D spatio-temporal u-net[J].IEEE Transactionson Image Processing,2022,31:1573-1586.引入了基于3D时空U-Net的网络,以弥补现有方法在探索时空特征中存在的缺陷。这些方法都属于帧级摘要方法,他们的目的是为每一帧预测重要性分数,但视频内的时间相似性尚未得到充分利用,这可能会给准确地为每帧打分带来困难。因此,一些方法通过直接预测镜头级别重要性得分来生成摘要,称为镜头级摘要方法。例如,Zhao B,Li X,Lu X.Property-constrained dual learning for videosummarization[J].IEEE transactions on neural networks and learning systems,2019,31(10):3989-4000.开发了一个双重学习框架,旨在通过让视频重构器奖励摘要生成器来保存有价值的内容。然而,现有的镜头级方法通常仅使用单个递归神经网络(RNN)将镜头内容简单地编码为潜在表示,以用于下游工作,这可能会由于较差的特征表示而面临摘要性能提升的瓶颈。此外,尽管许多旨在对长距离时间依赖性进行建模的架构被提出,但它们只考虑了镜头之间的全局依赖性,而局部依赖性被忽略,这可能会对理解视频内容带来困难。因此亟须一种新的视频摘要生成方法以解决上述问题。
发明内容
针对现有方法中存在的问题,本发明的目的在于提供一种联合强化学习和对比学习的视频摘要生成方法。
根据本发明的一个方面,提供一种联合强化学习和对比学习的视频摘要生成方法,包括:
步骤1:根据视觉特征将完整的视频序列分割成互不相交的子序列集合;
步骤2:构建以镜头级特征为输入,以镜头级重要性分数为输出的视频摘要模型;
步骤3:构建训练损失函数,对网络参数进行迭代优化;
步骤4:选择包含最多关键信息的镜头,输出动态视频摘要。
优选地,所述根据视觉特征将完整的视频序列分割成互不相交的子序列集合,包括:
利用深度卷积神经网络提取视频帧的空间特征;
利用镜头分割算法检测视觉变化点,得到视频镜头序列。
优选地,所述构建以镜头级特征为输入,以镜头级重要性分数为输出的视频摘要模型,包括:
优化编码模块,所述优化编码模块以每个镜头内帧级特征序列作为输入,将视频镜头编码成为简洁的特征表示,以表征镜头内的语义信息;
差异引导注意力图,所述差异引导注意力图以所述优化编码模块的输出作为输入,用于聚合不同镜头之间的上下文依赖关系,理解视频内容;
分数预测模块,所述分数预测模块将所述差异引导注意力图的输出作为输入,用于回归所述镜头级重要性分数。
优选地,构建所述优化编码模块,包括:
使用门控循环单元处理每个镜头内的帧序列,用于捕获镜头内的语义信息;
使用特征传递层处理语义特征,将高维向量映射为低维向量,得到镜头级特征表示。
优选地,所述使用门控循环单元包括前向门控循环单元和后向门控循环单元,分别用于捕获每个镜头内未来和历史方向的依赖信息。
优选地,构建所述特征传递层,包括:
两个全连接层在传递深层特征的同时降低特征维度;
Dropout层用于在特征中添加噪声信息。
优选地,构建所述差异引导注意力图,包括:
计算镜头特征{s1,s2,...,sM}之间的成对余弦距离作为镜头间的语义差异性分数,其中si表示第i个镜头特征,M表示镜头总数;
对于第i个镜头,选择与其语义差异分数最大的γ个镜头建立通信路径,得到镜头稀疏图;
计算具有通信路径的节点间的相关性分数,自适应地执行特征聚合操作,输出镜头的上下文特征{g1,g2,...,gM},其中gi表示第i个镜头的上下文特征。
优选地,所述分数预测模块采用图卷积操作为每个镜头回归重要性分数。
优选地,构建所述训练损失函数,包括:
奖励函数,所述奖励函数用于使模型选择具有多样性和代表性的摘要结果,记为R=Rd+Rr,计算公式如下:
Figure SMS_1
Figure SMS_2
其中Rd表示多样性奖励,Rr表示代表性奖励,B表示网络挑选的候选摘要结果,d(·,·)表示余弦距离。
正则项,所述正则项用于限制预测的重要性分数的分布,防止模型选取过多镜头,记为Ls,其计算公式为:
Figure SMS_3
其中,pi表示第i个镜头的重要性分数,ε为超参数。
对比损失项,所述对比损失项用于使优化编码器将视频镜头编码成更具判别性和信息性的特征表示,记为Lc,计算公式如下:
Figure SMS_4
其中sim(·,·)表示余弦相似性,τ是温度超参数,用于控制相似性分数的尺度,m1和m2为不同的Dropout掩模。
所述训练损失函数由奖励函数、正则项和对比损失项共同构成,表示为:
L(θ)=αLs+βLc-R
其中,θ表示模型中的参数,α和β为超参数。
优选地,所述选择包含最多关键信息的镜头,输出动态视频摘要,包括:
规定摘要最大时长,采用动态规划算法获取最优解;
将选择的子序列按照时间顺序进行重新组合,输出所述动态摘要。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的一种联合强化学习和对比学习的视频摘要生成方法流程图;
图2为本发明的一种联合强化学习和对比学习的视频摘要生成方法整体框架图;
图3为本发明提供的一个优选实施例的优化编码器的结构示意图;
图4为本发明提供的一个优选实施例的差异引导注意力图的结构示意图。
具体实施方式
为了使本领域的技术人员可以更清楚地对本发明进行了解,下面结合具体实施例进行说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,为本发明提供的一个实施例的联合强化学习和对比学习的视频摘要生成方法流程图,包括:
S1,根据视觉特征将完整的视频序列分割成互不相交的子序列集合;
S2,构建以镜头级特征为输入,以镜头级重要性分数为输出的视频摘要模型;
S3,构建训练损失函数,对网络参数进行迭代优化;
S4,选择包含最多关键信息的镜头,输出动态视频摘要。
本发明提供了一个优选实施例执行S1,将完整的视频序列分割成互不相交的子序列集合,具体分为两步:
第一步,首先以2FPS的速率对原始视频进行预先下采样操作,得到视频帧序列{v1,v2,...,vn},其中vi表示第i个视频帧,n表示视频帧数量。然后利用在ImageNet数据集上预训练的GoogLeNet网络作为特征提取器为每一帧提取空间特征,取GoogLeNet网络的pool5层输出的1024维向量作为每一帧的特征表示,记为{f1,f2,...,fn}。其中fi表示第i个视频帧的特征表示。
第二步,采用Kernel Temporal Segmentation镜头分割算法检测视觉变化点,并将两点之间的帧序列视为一个镜头。此处假设分割得到的镜头数量为M,镜头序列集合记为{E1,E2,...,EM},Ei表示第i个子序列。
本发明提供了一个优选实施例执行S2。本实施例旨在根据所设计的视频摘要生成网络对视频镜头进行编码,然后捕获镜头之间的上下文依赖关系,进而预测镜头级重要性分数。如图2所示,为本实施例网络模型的整体框架图。该网络包含三个部分:优化编码器、差异引导注意力图和分数预测模块。3个部分的具体构建步骤如下:
S21,构建优化编码器,如图3所示,为优化编码器的结构示意图。优化编码器的作用是将视频中的镜头编码成简洁的特征表示。
将第i个镜头Ei送入双向门控循环单元中捕获未来和历史方向的上下文依赖信息,该计算过程定义为:
Figure SMS_5
其中
Figure SMS_6
和/>
Figure SMS_7
分别表示前向和后向的隐藏状态,hi为拼接得到的隐藏状态。
接着,采用两个全连接层将隐藏状态映射为低维向量,并在它们之间加入一个Dropout层以添加噪声。计算过程可以表示为:
Figure SMS_8
其中si表示第i个镜头的最终表示。W1,W2,b1和b2都是需要学习的参数。
Figure SMS_9
表示Dropout函数,用于为一个样本产生相似的特征表示。
S22,构建差异引导注意力图。如图4所示,为差异引导注意力图的结构示意图。差异引导注意力图将镜头特征{s1,s2,...,sM}作为输入,经过特征聚合,输出上下文特征{g1,g2,...,gM},使网络理解视频内容。
首先计算镜头之间的成对差异性,计算方式如下所示:
Figure SMS_10
其中d(·,·)表示计算差异性的函数。对于第i个镜头,选择与其语义差异分数最大的γ个镜头建立通信路径,得到镜头稀疏图,目的是从不同的语义内容中理解视频故事线。经过实验验证,设置γ=0.6×M。接着,第j个镜头与第i个镜头的相关性eij计算如下:
eij=σ(cT[Wgsi||Wgsj])
其中σ(·)表示LeakyReLU非线性激活函数。Wg是可训练参数,c用于将矢量映射为权重。然后,与自注意力机制一样,通过softmax函数计算注意力得分aij。第i个镜头的上下文特征gi可以通过对邻居节点进行加权求和来计算:
Figure SMS_11
其中Ni表示第i个镜头的邻居节点,Wo表示需要训练的参数。
S23,构建分数预测模块。分数预测模块的作用是根据上下文特征预测每个镜头的重要性分数。该模块将上下文特征{g1,g2,...,gM}作为输入,输出各个镜头的重要性分数{p1,p2,...,pM}。它包含一个图卷积层和一个Sigmoid函数。图卷积的目的是将高维的特征映射为一个标量,Sigmoid函数则是将该标量限制在0-1之间,表示每个镜头的重要性程度。
本发明提供一个实施例执行S3,构建训练损失函数。在本实施例中,训练损失函数包含3个部分:
S31,构建奖励函数。奖励函数的目的是用来使网络挑选具有多样性和代表性的摘要结果。具体来说,网络首先根据预测得到的重要性分数得到候选摘要
Figure SMS_12
其中/>
Figure SMS_13
表示第i个镜头是否被选择。然后根据这些候选摘要计算多样性奖励Rd和代表性奖励Rr,计算公式如下所示:
Figure SMS_14
Figure SMS_15
S32,构建正则项。正则项的目的是防止网络为了在最大化奖励值时挑选过多镜头到摘要当中,该正则项记为Ls,其计算公式如下所示:
Figure SMS_16
其中,pi表示第i个镜头的重要性分数,ε为超参数,用来控制重要性分数的分布情况。
S33,构建对比损失项。该损失项用于使优化编码器将视频镜头编码成更具判别性和信息性的特征表示。具体来说,第i个镜头内的帧序列被馈送到优化编码器中,并通过不同Dropout掩码获得正样本对,负样本由其他镜头表示组成。定义对比损失函数Lc如下所示:
Figure SMS_17
其中sim(·,·)表示余弦相似性,τ是温度超参数,用于控制相似性分数的尺度,m1和m2为不同的Dropout掩模。
所述训练损失函数由奖励函数、正则项和对比损失项共同构成,表示为:
L(θ)=αLs+βLc-R
其中,θ表示模型中的参数,α和β为超参数。
在本实施例当中,设置批大小为1,学习率为5×10-5,使用Adam优化器优化网络参数,训练过程持续60轮。
基于上述实施例,本发明提供了一个优选实施例执行S4,选择包含最多关键信息的镜头,输出动态视频摘要。具体来说,规定摘要的最大长度不能超过输入视频总长度的15%。然后创建背包问题,根据动态规划算法进行求解,得到最佳摘要结果。该问题可以用数学表示为:
Figure SMS_18
其中ui∈{1,0}表示是否选择第i个镜头,li表示第i个镜头的长度,L为视频的总长度。然后根据选择得到的镜头按照时间顺序进行重组,输出最终的动态视频摘要。
为了验证以上实施例的有效性,将本发明应用于实际,通过计算F分数(%)与模型参数量(M)来与其他先进方法进行对比,F分数越高则说明模型性能越好。具体来说,本发明使用基准数据集SumMe和TVSum来评估该网络。SumMe由25个视频组成,视频时长从1到6分钟不等,每个视频由15-18个用户手动注释。TVSum包含50个视频,持续时间为2到10分钟。每个视频都有20个用户注释的帧级重要度分数。每个数据集被分割成两个不相交的部分:80%的视频用于训练,其余的用于测试,最终报告5次实验结果的平均值。
与无监督先进方法的对比实验结果如表1所示。从表中可以观察到本发明取得了最佳的F分数表现。最后一列展示了一些方法的网络模型参数量,可以观察到,本发明具有最少的参数,这表明了该方法的有效性。
表1与基于无监督学习的方法的对比结果
Figure SMS_19
此外,本发明还被扩展成监督学习的方法,并与其他方法进行了实验结果对比。实验结果如表2所示。从报告的数据中可以看到,本方法仍然有着优秀的性能表现。
表2与基于监督学习的方法的对比结果
Figure SMS_20
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

Claims (8)

1.一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,包括以下步骤:
步骤1:根据视觉特征将完整的视频序列分割得到
Figure QLYQS_1
个互不相交的子序列;
步骤2:构建以镜头级特征为输入,以镜头级重要性分数为输出的视频摘要模型,所述模型包括:
优化编码模块,所述优化编码模块以每个镜头内帧级特征序列作为输入,将视频镜头编码成为简洁的特征表示,以表征镜头内的语义信息,输出镜头级特征表示序列
Figure QLYQS_2
,其中/>
Figure QLYQS_3
表示第/>
Figure QLYQS_4
个镜头级特征向量;
差异引导注意力图,所述差异引导注意力图以所述优化编码模块的输出作为输入,用于聚合不同镜头之间的上下文依赖关系,理解视频内容;
分数预测模块,所述分数预测模块将所述差异引导注意力图的输出作为输入,用于回归所述镜头级重要性分数;
步骤3:构建训练损失函数,对网络参数进行迭代优化,所述训练损失函数包括:
强化学习奖励函数,所述强化学习奖励函数用于使模型选择具有多样性和代表性的摘要结果,记为
Figure QLYQS_5
,计算公式如下:
Figure QLYQS_6
Figure QLYQS_7
其中
Figure QLYQS_8
表示多样性奖励,/>
Figure QLYQS_9
表示代表性奖励,/>
Figure QLYQS_10
表示网络挑选的候选摘要结果,/>
Figure QLYQS_11
表示余弦距离;
正则项,所述正则项用于限制预测的重要性分数的分布,防止模型选取过多镜头,记为
Figure QLYQS_12
,其计算公式为:
Figure QLYQS_13
其中,
Figure QLYQS_14
表示第/>
Figure QLYQS_15
个镜头的重要性分数,/>
Figure QLYQS_16
为超参数;
对比学习损失项,所述对比学习损失项用于使优化编码器将视频镜头编码成更具判别性和信息性的特征表示,记为
Figure QLYQS_17
,计算公式如下:
Figure QLYQS_18
其中
Figure QLYQS_19
表示余弦相似性,/>
Figure QLYQS_20
是温度超参数,用于控制相似性分数的尺度,/>
Figure QLYQS_21
Figure QLYQS_22
为不同的Dropout掩模;
所述训练损失函数由强化学习奖励函数、正则项和对比学习损失项共同构成,表示为:
Figure QLYQS_23
其中,
Figure QLYQS_24
表示模型中的参数,/>
Figure QLYQS_25
和/>
Figure QLYQS_26
为超参数;
步骤4:选择包含最多关键信息的镜头,输出动态视频摘要。
2.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述根据视觉特征将完整的视频序列分割得到
Figure QLYQS_27
个互不相交的子序列,包括:
利用深度卷积神经网络提取视频帧的空间特征;
利用镜头分割算法检测视觉变化点,得到视频镜头序列。
3.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,构建所述优化编码模块,包括:
使用门控循环单元处理每个镜头内的帧序列,用于捕获镜头内的语义信息;
使用特征传递层处理语义特征,将高维向量映射为低维向量,得到镜头级特征表示。
4.根据权利要求3所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述使用门控循环单元包括前向门控循环单元和后向门控循环单元,分别用于捕获每个镜头内未来和历史方向的依赖信息。
5.根据权利要求3所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,构建所述特征传递层,包括:
两个全连接层在传递深层特征的同时降低特征维度;
Dropout层用于在特征中添加噪声信息。
6.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,构建所述差异引导注意力图,包括:
计算镜头级特征表示之间的成对余弦距离作为镜头间的语义差异性分数;
对于第
Figure QLYQS_28
个镜头,选择与其语义差异分数最大的/>
Figure QLYQS_29
个镜头建立通信路径,得到镜头稀疏图;
计算具有通信路径的节点间的相关性分数,自适应地执行特征聚合操作,输出镜头的上下文特征
Figure QLYQS_30
,其中/>
Figure QLYQS_31
表示第/>
Figure QLYQS_32
个镜头的上下文特征。
7.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述分数预测模块采用图卷积操作为每个镜头回归重要性分数。
8.根据权利要求1所述的一种联合强化学习和对比学习的视频摘要生成方法,其特征在于,所述包含最多关键信息的镜头,输出动态视频摘要,包括:
规定摘要最大时长,采用动态规划算法获取最优解;
将选择的子序列按照时间顺序进行重新组合,输出所述动态视频摘要。
CN202211529350.8A 2022-12-01 2022-12-01 一种联合强化学习和对比学习的视频摘要生成方法 Active CN115731498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211529350.8A CN115731498B (zh) 2022-12-01 2022-12-01 一种联合强化学习和对比学习的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211529350.8A CN115731498B (zh) 2022-12-01 2022-12-01 一种联合强化学习和对比学习的视频摘要生成方法

Publications (2)

Publication Number Publication Date
CN115731498A CN115731498A (zh) 2023-03-03
CN115731498B true CN115731498B (zh) 2023-06-06

Family

ID=85299677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211529350.8A Active CN115731498B (zh) 2022-12-01 2022-12-01 一种联合强化学习和对比学习的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN115731498B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069973B (zh) * 2023-04-04 2023-06-06 石家庄铁道大学 一种基于语义自挖掘的视频摘要生成方法
CN117376502B (zh) * 2023-12-07 2024-02-13 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
JP2021060874A (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 動画要約装置、動画要約方法及び動画要約プログラム
WO2022167657A2 (en) * 2021-02-05 2022-08-11 Deepmind Technologies Limited Attention neural networks with short-term memory units
WO2022230777A1 (ja) * 2021-04-27 2022-11-03 国立大学法人東京大学 情報処理方法、コンピュータ読み取り可能な非一時的な記憶媒体及び情報処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798752B (zh) * 2018-08-03 2021-10-15 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN110324728B (zh) * 2019-06-28 2021-11-23 浙江传媒学院 基于深度强化学习的体育赛事全场回顾短视频生成方法
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
US11314970B1 (en) * 2020-11-19 2022-04-26 Adobe Inc. Reinforcement learning techniques for automated video summarization
CN115002559B (zh) * 2022-05-10 2024-01-05 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统
CN114979801A (zh) * 2022-05-10 2022-08-30 上海大学 基于双向卷积长短期记忆网络的动态视频摘要算法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
JP2021060874A (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 動画要約装置、動画要約方法及び動画要約プログラム
WO2022167657A2 (en) * 2021-02-05 2022-08-11 Deepmind Technologies Limited Attention neural networks with short-term memory units
WO2022230777A1 (ja) * 2021-04-27 2022-11-03 国立大学法人東京大学 情報処理方法、コンピュータ読み取り可能な非一時的な記憶媒体及び情報処理装置

Also Published As

Publication number Publication date
CN115731498A (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
Dai et al. Human action recognition using two-stream attention based LSTM networks
Zhou et al. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
CN115731498B (zh) 一种联合强化学习和对比学习的视频摘要生成方法
Lin et al. Deep hierarchical LSTM networks with attention for video summarization
CN113065587B (zh) 一种基于超关系学习网络的场景图生成方法
CN111783540B (zh) 一种视频中人体行为识别方法和系统
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN114020964B (zh) 一种利用记忆网络和门控循环单元实现视频摘要的方法
CN115695950B (zh) 一种基于内容感知的视频摘要生成方法
CN114595383B (zh) 一种基于会话序列的海洋环境数据推荐方法及系统
Zhang et al. Recurrent convolutional neural network for session-based recommendation
Li et al. Long short-term relation networks for video action detection
Zhang et al. Hashgan: Attention-aware deep adversarial hashing for cross modal retrieval
Zhang et al. Joint reinforcement and contrastive learning for unsupervised video summarization
Shin et al. Learning to combine the modalities of language and video for temporal moment localization
CN116069973B (zh) 一种基于语义自挖掘的视频摘要生成方法
Liao et al. Time-sync comments denoising via graph convolutional and contextual encoding
Li et al. Self-supervised generative adversarial learning with conditional cyclical constraints towards missing traffic data imputation
Jin et al. C2F: An effective coarse-to-fine network for video summarization
CN114841778B (zh) 一种基于动态图神经网络的商品推荐方法
Govindaswamy et al. Genre Classification of Telugu and English Movie Based on the Hierarchical Attention Neural Network.
Jing et al. Self-training based semi-supervised and semi-paired hashing cross-modal retrieval
Mi et al. Visual relationship forecasting in videos
CN109166118A (zh) 织物表面属性检测方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant