CN110413838A - 一种无监督视频摘要模型及其建立方法 - Google Patents
一种无监督视频摘要模型及其建立方法 Download PDFInfo
- Publication number
- CN110413838A CN110413838A CN201910636677.7A CN201910636677A CN110413838A CN 110413838 A CN110413838 A CN 110413838A CN 201910636677 A CN201910636677 A CN 201910636677A CN 110413838 A CN110413838 A CN 110413838A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- feature
- generator
- frame feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无监督视频摘要模型,涉及计算机视觉方向的视频处理领域,所述模型包括条件特征选择模块,帧级自注意力模块和条件生成对抗网络模块,其中,所述条件特征选择模块选取输出视频中较重要的帧特征引导所述条件生成对抗网络模块训练,使其可以更多的关注此区域特征;所述帧级自注意力模块可以获取视频中帧与帧的长时依赖,使模型可以更好的学习到全局特征,尽可能避免去掉视觉上相似但具有一定时间距离的帧;所述条件生成对抗网络模块,包含生成器和鉴别器,可实现无监督学习,不需任何人工标定数据,克服原有方法的信息损失、部分网络需要预训练、模型复杂等问题,可实现端到端训练,提升视频摘要性能。
Description
技术领域
本发明涉及计算机视觉方向的视频处理领域,尤其涉及一种无监督视频摘要模型及其建立方法。
背景技术
视频摘要(Video Summarization)是计算机视频处理领域的研究问题之一。随着近年视频数据爆炸性的增长,如海量移动手机和监控摄像头拍摄的视频数据,给存储视频以及浏览视频带来了巨大的挑战。视频摘要的目的是缩短原有视频的长度同时使缩短后的视频仍可以完整反映原有视频的故事线,缩短后的视频也被称为视频摘要(VideoSummary)。视频摘要有着广泛的应用,可以减轻视频存储压力,节省用户浏览视频时间,生成视频精彩花絮等等。目前该领域主流方法包括监督式(Supervised)和无监督式(Unsupervised)视频摘要框架。
监督式视频摘要技术假设有人工标定信息存在,人工标定信息可分为是否选择该帧的标识以及帧重要性分数。监督式视频摘要技术进一步地将视频摘要任务转化为序列标注或预测问题,通过采用循环神经网络(如长短期记忆网络等)获取视频帧与帧间的关系,并对帧进行标注或者预测帧重要性分数,通过帧标识或者帧重要性分数,以及用户指定长度产生最后的视频摘要。此类框架要求人工标定信息,然而标定视频需完整地看完并理解视频内容后才可标定,十分耗费人力。与此同时,由于不同的人对视频有不同的理解,因此产生的标定数据因人而异,且监督式视频摘要技术的性能同人工标定数据强相关。
无监督式视频摘要技术则可以免去人工标定视频数据的过程,从而节省人力成本。目前大部分视频摘要技术都基于监督式视频摘要技术,无监督视频摘要技术相对较少,其中性能最好的无监督视频摘要技术主要基于强化学习和生成对抗网络。然而基于强化学习的无监督视频摘要技术的性能取决于人工设计的奖励函数,基于生成对抗网络的无监督视频摘要技术,虽然可以从数据中学习到对抗损失函数,从而避免人工设计损失函数,但现有基于生成对抗网络的方法却存在信息丢失,以及部分网络需要预训练的问题。
与此同时,现有监督式和无监督式视频摘要技术仅基于循环神经网络来获取视频中帧与帧之间的关系,普遍缺乏对视频长时依赖关系的提取。
因此,本领域的技术人员致力于开发一种无监督视频摘要模型,该模型通过设计新的生成对抗网络实现无监督学习,免去了人工标定视频的成本,提出的生成对抗网络模型克服了已有模型的信息丢失问题,同时,该模型提出条件特征选择模块来筛选较重要的视频帧特征以引导生成对抗网络训练,并提出用以获取视频长时依赖关系的帧级自注意力模块,以进一步提高模型性能。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何设计一种模型能克服以前方法存在的信息缺失、需要预训练的问题,以及更加关注视频中重要程度相对较高的区域,并获取视频长时依赖。
为实现上述目的,本发明提供了一种无监督视频摘要模型,输入视频并提取原始视频帧特征,模型可预测每帧重要性分数,根据所述每帧重要性分数和用户指定长度,可获取指定长度的视频摘要,所述模型包括条件特征选择模块、条件生成对抗网络模块和帧级自注意力模块,其中,
所述条件特征选择模块,输入为原始视频帧特征,计算所述原始视频帧特征帧与帧之间的相似性,将计算得到的相似性矩阵值按行放缩,将放缩后矩阵同所述原始视频帧特征矩阵相乘,然后根据相乘后矩阵每行的范数选取指定个数的特征,即为选择的帧特征,引导所述条件生成对抗网络模块训练;
所述条件生成对抗网络模块包含生成器(Generator)和鉴别器(Discriminator)两部分,其所述生成器输入为所述原始视频帧特征和所述选择的帧特征,通过算法预测每帧重要性分数并产生加权帧特征,其所述鉴别器输入为所述原始视频帧特征、所述选择的帧特征和所述加权帧特征,区分所述加权帧特征和所述原始帧特征;所述生成器和所述鉴别器通过计算对抗损失,交替更新所述生成器与所述鉴别器参数;
所述帧级自注意力模块,输入为视频帧特征,计算帧与帧之间相似性,然后将计算得到的相似性矩阵值按行放缩,并与原始输入所述视频帧特征矩阵相乘,将相乘后矩阵与原始输入所述视频帧特征矩阵相加作为其输出,所述帧级自注意力模块可以获取视频中帧与帧的长时依赖,从而可以使模型更好的学习到全局特征;
所述帧级自注意力模块应用于所述条件生成对抗网络模块的所述生成器和所述鉴别器中,用以获取帧与帧之间长时依赖关系。
进一步地,所述算法为:所述生成器对输入视频原始帧特征进行编码后得到时序表示,利用所述时序表示预测所述每帧重要性分数,将预测的所述每帧重要性分数同所述时序表示相乘后得到所述加权帧特征。
进一步地,所述编码为时序编码(Temporal Encoding)。
进一步地,所述帧与帧之间相似性,即点积。
进一步地,所述放缩的区间为0~1。
进一步地,所述范数,为L2范数。
本发明还提供了一种无监督视频摘要模型的建立方法,具体包括如下步骤:
(S1)输入视频,利用预训练好的卷积神经网络提取所述原始视频帧特征;
(S2)对无监督视频模型进行训练,模型的输入为所述步骤(S1)提取的所述原始视频帧特征;所述条件特征选择模块从中选取部分重要的帧特征作为所述条件生成对抗网络模块中所述生成器与所述鉴别器的一个输入;对所述生成器输入所述原始视频帧特征和所述选择的帧特征,所述生成器产生所述加权帧特征;对所述鉴别器输入所述原始视频帧特征和所述选择的帧特征,并将此输入标记为1,对所述鉴别器输入所述加权帧特征和所述选择的帧特征,并将此输入标记为0,计算所述鉴别器所述对抗损失,并更新所述鉴别器参数;对所述鉴别器输入所述加权帧特征和所述选择的帧特征,并将此输入标记为1,计算所述生成器所述对抗损失,并更新所述生成器参数;交替更新所述鉴别器与所述生成器参数直到N轮,可使所述生成器生成的所述加权帧特征与所述原始视频帧特征足够接近,从而所述生成器可以预测所述每帧重要性分数;
(S3)输入测试视频帧特征和用户输入的视频摘要长度;
(S4)根据所述步骤(S2)返回的所述生成器预测视频所述每帧重要性分数和所述步骤(S3)中所述用户输入的视频摘要长度,产生符合所述用户输入的视频摘要长度要求的视频摘要。
进一步地,所述原始视频帧特征,为特征向量。
进一步地,所述卷积神经网络,为GoogLeNet网络。
进一步地,所述原始视频帧特征,每帧的特征为1024维的特征向量。
这种无监督视频摘要模型与现有技术相比,至少具有以下有益的技术效果:
(1)所述条件生成对抗网络模块可实现无监督学习,不需要人工标定的任何数据,消除了人工标定视频数据所带来的巨大成本以标定数据时的主观性,有利于推进相关工作在现实生活中的应用研究;同时提出的生成对抗网络模型克服原有方法的信息损失、部分需要预训练、模型复杂等问题,可实现端到端训练。
(2)所述条件特征选择模块可以选择输入的所述原始视频帧特征中较为重要的帧作为所述条件生成对抗网络模块的条件输入,从而使所述条件生成对抗网络模块在训练时可以更多地关注此区域特征,从而提升性能。
(3)所述帧级自注意力模块可以获取视频中帧与帧的长时依赖关系,从而可以对视频进行更好的全局建模,尽可能避免去掉视觉上相似但具有一定时间距离的帧。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明提出摘要模型的模型架构图;
图2是本发明提出摘要模型的训练流程示意图;
图3是本发明提出摘要模型框架的运行流程示意图。
具体实施方式
以下参考说明书附图介绍本发明的一个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
如图3所示,本发明所述的无监督视频摘要模型,其建立方法包括以下步骤:
步骤1、输入T帧视频,利用预训练好的卷积神经网络提取原始视频帧特征,通常提取的原始视频帧特征为特征向量,本实施例采用GoogLeNet作为特征提取网络,则每帧的特征为1024维的特征向量。
步骤2、对无监督视频模型进行训练,模型的输入为步骤1提取的原始视频帧特征。如图1所示为本发明提出摘要模型的模型架构图,如图2所示为本发明提出摘要模型的训练流程示意图,输入T帧原始视频帧特征,条件特征选择模块从中选取部分重要的帧特征作为条件生成对抗网络模块中生成器与鉴别器的一个输入。对生成器输入T帧原始视频帧特征和选择的帧特征,生成器产生T帧加权帧特征。对鉴别器输入原始视频帧特征和选择的帧特征,并将此输入标记为1,对鉴别器输入加权帧特征和选择的帧特征,并将此输入标记为0,计算鉴别器对抗损失并更新鉴别器参数。对鉴别器输入加权帧特征和选择的帧特征,并将此输入标记为1,计算生成器对抗损失并更新生成器参数。交替更新鉴别器与生成器参数直到N轮,可使生成器生成的加权帧特征与原始视频帧特征足够接近,从而生成器可以预测每帧重要性分数。训练模型算法的主程序伪代码如下:
VS_GAN_MODEL_TRAIN(raw_feats,cf_selector,generator,discriminator):
for i=1,2,…,N
c_feats=GET_CONDITIONAL_FEATS(raw_feats,cf_selector)
weighted_feats=GET_WEIGHTED_FEATS(raw_feats,c_feats,generator)
dis_loss=GET_DIS_LOSS(weighted_feats,raw_feats,c_feats,discriminator)
gen_loss=GET_GEN_LOSS(weighted_feats,c_feats,discriminator)
UPDATE_DISCRIMINATOR(dis_loss,discriminator)
UPDATE_GENERATOR(gen_loss,generator)
return generator
步骤3、输入测试视频帧特征和用户输入的视频摘要长度。
步骤4、根据步骤2返回的生成器预测视频每帧重要性分数和步骤3中用户输入的视频摘要长度,产生符合长度要求的视频摘要。
需要注意,上述过程中,输入仅为视频帧,没有任何人工标定数据,相比以前将视频编码成视频摘要,然后重建为视频让鉴别器鉴别的方法,本方法通过直接缩小加权帧特征和原始帧特征之间的距离(即让鉴别器鉴别加权帧特征和原始帧特征),可以有效的避免编码重建过程带来的信息损失,并实现端到端训练。帧级自注意力机制模块如图1所示,其包含于生成器和鉴别器之中,用以更好的获取视频帧与帧的长时依赖关系。条件特征选择模块选择的帧特征会输入到生成器和鉴别器当中,从而使模型在训练过程中能关注更加重要的视频区域。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种无监督视频摘要模型,其特征在于,所述模型包括条件特征选择模块、条件生成对抗网络模块和帧级自注意力模块,其中,
所述条件特征选择模块,输入为原始视频帧特征,计算所述原始视频帧特征帧与帧之间的相似性,将计算得到的相似性矩阵值按行放缩,将放缩后矩阵同所述原始视频帧特征矩阵相乘,然后根据相乘后矩阵每行的范数选取指定个数的特征,即为选择的帧特征,引导所述条件生成对抗网络模块训练;
所述条件生成对抗网络模块包含生成器和鉴别器两部分,其所述生成器输入为所述原始视频帧特征和所述选择的帧特征,通过算法预测每帧重要性分数并产生加权帧特征,其所述鉴别器输入为所述原始视频帧特征、所述选择的帧特征和所述加权帧特征,区分所述加权帧特征和所述原始帧特征;所述生成器和所述鉴别器通过计算对抗损失,交替更新所述生成器与所述鉴别器参数;
所述帧级自注意力模块,输入为视频帧特征,计算帧与帧之间的所述相似性,然后将计算得到的相似性矩阵值按行放缩,并与原始输入所述视频帧特征矩阵相乘,将相乘后矩阵与原始输入所述视频帧特征矩阵相加作为其输出;
所述帧级自注意力模块应用于所述条件生成对抗网络模块的所述生成器和所述鉴别器中,用以获取帧与帧之间长时依赖关系。
2.如权利要求1所述的无监督视频摘要模型,其特征在于,所述算法为:所述生成器对输入视频原始帧特征进行编码后得到时序表示,利用所述时序表示预测所述每帧重要性分数,将预测的所述每帧重要性分数同所述时序表示相乘后得到所述加权帧特征。
3.如权利要求2所述的无监督视频摘要模型,其特征在于,所述编码,为时序编码。
4.如权利要求1所述的无监督视频摘要模型,其特征在于,所述相似性,即点积。
5.如权利要求1所述的无监督视频摘要模型,其特征在于,所述放缩的区间为0~1。
6.如权利要求1所述的无监督视频摘要模型,其特征在于,所述范数,为L2范数。
7.一种无监督视频摘要模型建立方法,其特征在于,所述模型包括如下步骤:
(S1)输入视频,利用预训练好的卷积神经网络提取所述原始视频帧特征;
(S2)对无监督视频模型进行训练,模型的输入为所述步骤(S1)提取的所述原始视频帧特征;所述条件特征选择模块从中选取部分重要的帧特征作为所述条件生成对抗网络模块中所述生成器与所述鉴别器的一个输入;对所述生成器输入所述原始视频帧特征和所述选择的帧特征,所述生成器产生所述加权帧特征;对所述鉴别器输入所述原始视频帧特征和所述选择的帧特征,并将此输入标记为1,对所述鉴别器输入所述加权帧特征和所述选择的帧特征,并将此输入标记为0,计算所述鉴别器所述对抗损失,并更新所述鉴别器参数;对所述鉴别器输入所述加权帧特征和所述选择的帧特征,并将此输入标记为1,计算所述生成器所述对抗损失,并更新所述生成器参数;交替更新所述鉴别器与所述生成器参数直到N轮,可使所述生成器生成的所述加权帧特征与所述原始视频帧特征足够接近,从而所述生成器可以预测所述每帧重要性分数;
(S3)输入测试视频帧特征和用户输入的视频摘要长度;
(S4)根据所述步骤(S2)返回的所述生成器预测视频所述每帧重要性分数和所述步骤(S3)中所述用户输入的视频摘要长度,产生符合所述用户输入的视频摘要长度要求的视频摘要。
8.如权利要求7所述的无监督视频摘要模型建立方法,其特征在于,所述原始视频帧特征,为特征向量。
9.如权利要求7所述的无监督视频摘要模型建立方法,其特征在于,所述卷积神经网络,为GoogLeNet网络。
10.如权利要求7所述的无监督视频摘要模型建立方法,其特征在于,所述原始视频帧特征,每帧的特征为1024维的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636677.7A CN110413838B (zh) | 2019-07-15 | 2019-07-15 | 一种无监督视频摘要模型及其建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636677.7A CN110413838B (zh) | 2019-07-15 | 2019-07-15 | 一种无监督视频摘要模型及其建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413838A true CN110413838A (zh) | 2019-11-05 |
CN110413838B CN110413838B (zh) | 2021-06-22 |
Family
ID=68361407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910636677.7A Active CN110413838B (zh) | 2019-07-15 | 2019-07-15 | 一种无监督视频摘要模型及其建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413838B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929094A (zh) * | 2019-11-20 | 2020-03-27 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
CN111163351A (zh) * | 2019-12-17 | 2020-05-15 | 博雅信安科技(北京)有限公司 | 一种基于渐进式生成对抗网络的视频摘要方法 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
CN112084887A (zh) * | 2020-08-19 | 2020-12-15 | 北京影谱科技股份有限公司 | 一种基于注意力机制的自适应视频分类方法及系统 |
CN112307939A (zh) * | 2020-10-28 | 2021-02-02 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112560760A (zh) * | 2020-12-24 | 2021-03-26 | 上海交通大学 | 一种注意力辅助的无监督视频摘要系统 |
CN112908465A (zh) * | 2021-01-04 | 2021-06-04 | 西北工业大学 | 基于异常检测和半监督的超声关键帧自主识别方法 |
CN114545255A (zh) * | 2022-01-18 | 2022-05-27 | 广东工业大学 | 基于竞争型生成式对抗神经网络的锂电池soc估计方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184242A (zh) * | 2011-05-16 | 2011-09-14 | 天津大学 | 跨摄像头视频摘要提取方法 |
US20160299968A1 (en) * | 2015-04-09 | 2016-10-13 | Yahoo! Inc. | Topical based media content summarization system and method |
CN107886109A (zh) * | 2017-10-13 | 2018-04-06 | 天津大学 | 一种基于有监督视频分割的视频摘要方法 |
CN108804578A (zh) * | 2018-05-24 | 2018-11-13 | 南京理工大学 | 基于一致性片段生成的无监督视频摘要方法 |
CN108898618A (zh) * | 2018-06-06 | 2018-11-27 | 上海交通大学 | 一种弱监督视频物体分割方法及装置 |
CN109151501A (zh) * | 2018-10-09 | 2019-01-04 | 北京周同科技有限公司 | 一种视频关键帧提取方法、装置、终端设备及存储介质 |
CN109889923A (zh) * | 2019-02-28 | 2019-06-14 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
-
2019
- 2019-07-15 CN CN201910636677.7A patent/CN110413838B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184242A (zh) * | 2011-05-16 | 2011-09-14 | 天津大学 | 跨摄像头视频摘要提取方法 |
US20160299968A1 (en) * | 2015-04-09 | 2016-10-13 | Yahoo! Inc. | Topical based media content summarization system and method |
CN107886109A (zh) * | 2017-10-13 | 2018-04-06 | 天津大学 | 一种基于有监督视频分割的视频摘要方法 |
CN108804578A (zh) * | 2018-05-24 | 2018-11-13 | 南京理工大学 | 基于一致性片段生成的无监督视频摘要方法 |
CN108898618A (zh) * | 2018-06-06 | 2018-11-27 | 上海交通大学 | 一种弱监督视频物体分割方法及装置 |
CN109151501A (zh) * | 2018-10-09 | 2019-01-04 | 北京周同科技有限公司 | 一种视频关键帧提取方法、装置、终端设备及存储介质 |
CN109889923A (zh) * | 2019-02-28 | 2019-06-14 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
Non-Patent Citations (2)
Title |
---|
MAHMOUD K M: "Unsupervised Video Summarization via Dynamic Modeling-Based Hierarchical Clustering", 《IEEE COMPUTER SOCIETY》 * |
RECURSIVE CONDITIONAL GENERATIVE ADVERSARIAL NETWORKS FOR VIDEO: "S. Kim", 《IEEE ACCESS》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929094A (zh) * | 2019-11-20 | 2020-03-27 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
CN110929094B (zh) * | 2019-11-20 | 2023-05-16 | 北京香侬慧语科技有限责任公司 | 一种视频标题处理方法和装置 |
CN111163351A (zh) * | 2019-12-17 | 2020-05-15 | 博雅信安科技(北京)有限公司 | 一种基于渐进式生成对抗网络的视频摘要方法 |
CN111163351B (zh) * | 2019-12-17 | 2022-04-12 | 博雅信安科技(北京)有限公司 | 一种基于渐进式生成对抗网络的视频摘要方法 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN112084887A (zh) * | 2020-08-19 | 2020-12-15 | 北京影谱科技股份有限公司 | 一种基于注意力机制的自适应视频分类方法及系统 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
CN112307939B (zh) * | 2020-10-28 | 2022-10-04 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112307939A (zh) * | 2020-10-28 | 2021-02-02 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112560760A (zh) * | 2020-12-24 | 2021-03-26 | 上海交通大学 | 一种注意力辅助的无监督视频摘要系统 |
CN112560760B (zh) * | 2020-12-24 | 2023-03-10 | 上海交通大学 | 一种注意力辅助的无监督视频摘要系统 |
CN112908465A (zh) * | 2021-01-04 | 2021-06-04 | 西北工业大学 | 基于异常检测和半监督的超声关键帧自主识别方法 |
CN112908465B (zh) * | 2021-01-04 | 2023-06-02 | 西北工业大学 | 基于异常检测和半监督的超声关键帧自主识别方法 |
CN114545255A (zh) * | 2022-01-18 | 2022-05-27 | 广东工业大学 | 基于竞争型生成式对抗神经网络的锂电池soc估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110413838B (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413838A (zh) | 一种无监督视频摘要模型及其建立方法 | |
CN110781838B (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
CN110309732B (zh) | 基于骨架视频的行为识别方法 | |
CN108629326A (zh) | 目标体的动作行为识别方法及装置 | |
CN109697435A (zh) | 人流量监测方法、装置、存储介质及设备 | |
CN109299657B (zh) | 基于语义注意力保留机制的群体行为识别方法及装置 | |
CN107665230A (zh) | 用于智能家居控制的用户行为预测模型的训练方法及装置 | |
CN109241834A (zh) | 一种基于隐变量的嵌入的群体行为识别方法 | |
CN108763444A (zh) | 利用分层编码解码器网络机制来解决视频问答的方法 | |
CN107403154A (zh) | 一种基于动态视觉传感器的步态识别方法 | |
CN106991666A (zh) | 一种适用于多尺寸图片信息的病害图像识别方法 | |
CN110348364A (zh) | 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 | |
CN115713715B (zh) | 一种基于深度学习的人体行为识别方法及识别系统 | |
CN108596243A (zh) | 基于分级注视图和条件随机场的眼动注视图预测方法 | |
CN113505924B (zh) | 一种基于级联时空特征的信息传播预测方法及系统 | |
CN116187555A (zh) | 基于自适应动态图的交通流预测模型构建方法及预测方法 | |
CN110096938A (zh) | 一种视频中的动作行为的处理方法和装置 | |
CN111737826B (zh) | 一种基于增强学习的轨道交通自动仿真建模方法及装置 | |
CN114898121A (zh) | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 | |
Andersen et al. | The dreaming variational autoencoder for reinforcement learning environments | |
Liu et al. | ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation | |
CN116306902A (zh) | 时序数据环境分析及决策方法、装置、设备及存储介质 | |
CN108891421A (zh) | 一种构建驾驶策略的方法 | |
CN113393495B (zh) | 基于强化学习的高空抛物轨迹识别方法 | |
CN113591988B (zh) | 知识认知结构分析方法、系统、计算机设备、介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |