CN116662604A - 一种基于分层Transformer的视频摘要方法 - Google Patents

一种基于分层Transformer的视频摘要方法 Download PDF

Info

Publication number
CN116662604A
CN116662604A CN202310759767.1A CN202310759767A CN116662604A CN 116662604 A CN116662604 A CN 116662604A CN 202310759767 A CN202310759767 A CN 202310759767A CN 116662604 A CN116662604 A CN 116662604A
Authority
CN
China
Prior art keywords
video
shot
shots
importance
layered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310759767.1A
Other languages
English (en)
Inventor
张宝川
毛辉杰
葛棋棋
陈赟
张子川
肖昌震
陈胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Qiancong Technology Co ltd
Original Assignee
Zhejiang Qiancong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Qiancong Technology Co ltd filed Critical Zhejiang Qiancong Technology Co ltd
Priority to CN202310759767.1A priority Critical patent/CN116662604A/zh
Publication of CN116662604A publication Critical patent/CN116662604A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于分层Transformer的视频摘要方法,基于获得的视频,将长视频建模为“帧‑镜头”的双层结构,构建分别对应帧和镜头的分层Transformer网络,使用两层Transformer分别对帧和镜头编码,通过分层表征生成基于关键镜头的视频摘要。本发明考虑视频固有的语义结构,将视频分割为多个镜头,分别捕获镜头内和镜头间的时序依赖,通过分层表征生成视频摘要;考虑RNN的局限性,对视频的双层结构使用Transformer对帧和镜头先后建模,通过多头注意机制捕获序列中的全局依赖性,并行编码所有时间步,具有更有效的表征能力和更快的计算速度;适用于提取关键镜头和关键帧作为视频摘要的应用场景。

Description

一种基于分层Transformer的视频摘要方法
技术领域
本发明涉及电数字数据处理的技术领域,特别涉及一种计算机视觉领域的基于分层Transformer的视频摘要方法。
背景技术
随着在线视频平台的普及,视频数据量呈指数级增长。2019年某视频平台的统计结果表明,该平台所有用户每分钟上传的视频量总和超过500小时,也就是说单个用户需要82年才能观看完一小时内上传至此平台的所有视频。因此,用户难以有效地浏览和检索视频数据中的有用信息。
为了解决这个问题,研究人员近年来对于视频摘要技术进行了大量开发。视频摘要旨在自动生成视频的简短版本,其中包含原始视频中重要的人物、物体和事件。常见的视频摘要包括两种形式,即基于关键帧的视频摘要和基于关键镜头的视频摘要,前者选择重要的帧来形成静态摘要(即故事板),而后者首先将视频分割成镜头,然后选择信息丰富的镜头来形成动态摘要(即视频概览),但往往基于关键镜头的视频摘要具备更有好的观看体验。
当前主流的视频摘要方法基于循环神经网络(RNN)建模视频中的时序结构,然而RNN具备以下缺陷:
1)RNNs很难捕捉到长序列中的长程依赖,这极大地限制了它们的表示能力;
2)当前步骤的编码依赖于RNN中上一步的输出,这显着增加了训练和测试的时间消耗。
同时,视频中存在固有的层次结构(帧-镜头-视频),而现有技术中,大多数视频摘要将整个视频建模为一个包含所有帧的序列,这种建模方法不能精确地反映视频出的语义结构,表示能力较弱。
发明内容
本发明解决了现有技术中存在的问题,提供了一种基于分层Transformer的视频摘要方法。
本发明所采用的技术方案是,一种基于分层Transformer的视频摘要方法,所述方法基于获得的视频,将长视频建模为“帧-镜头”的双层结构,构建分别对应帧和镜头的分层Transformer网络,使用两层Transformer分别对帧和镜头进行编码,通过分层表征生成基于关键镜头的视频摘要;一般来说,关键镜头是指包含整个视频中重要人物、目标、时间的镜头。
优选地,所述方法包括以下步骤:
步骤1:收集视频,处理并获取真实(ground truth)视频摘要;
步骤2:提取视频对应的特征,输入分层Transformer网络;
步骤3:对于视频中的每个镜头,以一Transformer进行镜头内时序建模,得到每个镜头的特征;
步骤4:基于步骤3,获得镜头的特征序列,使用另一Transformer对视频中镜头的特征序列进行时序建模,得到每个镜头的最终表征;
步骤5:将每个镜头的最终表征映射为该镜头的重要性,得到所有镜头的重要性序列;
步骤6:以镜头的真实重要性对网络输出的重要性进行监督,优化直至分层Transformer网络收敛;
步骤7:将待处理视频以步骤1的方式进行处理,提取视频对应的特征后输入至步骤6完成训练的分层Transformer网络,得到所有镜头的重要性得分,基于重要性得分获得视频摘要。
优选地,步骤1中,处理包括对收集的视频进行镜头分割,获取真实视频摘要包括每个镜头进行标注并基于标注内容得到对应每个镜头的重要性得分,选取重要性得分大于阈值的所有镜头得到真实视频摘要;此处镜头分割的标准为,计算每相邻两帧的灰度直方图的距离,然后选出所有距离的0.95分位数T,如距离大于T,则认为该两帧之间需要镜头分割。
优选地,步骤2中,对所有视频基于时序进行降采样处理,并进行空间特征提取,以每个视频的帧特征序列作为对应的视频特征。
优选地,步骤3中,在每个镜头的若干帧的特征前加入可学习的类标记,输入第一层Transformer进行编码,获得对应镜头的表征。
优选地,步骤5中,将所有镜头的最终表征分别输入多层感知机,预测每个镜头的重要性得分,得到预测的镜头重要性分数序列,为所有镜头的重要性序列。
优选地,步骤6中,以步骤1的镜头的真实重要性作为监督,计算其与步骤5得到的镜头的重要性间的均方误差,以均方误差作为损失函数,以批随机梯度下降优化分层Transformer网络直至收敛。
优选地,步骤7中,选出使得总分数最大的镜头作为视频摘要,同时满足选出的镜头时长总和不超过原始视频总长度的预设比例a,0<a<1;在实施过程中一般为15%。
优选地,最大化所述总分数满足
其中,pt为镜头重要性分数,pt∈[0,1],C为视频的总长,qt为视频中第t个镜头的长度,n为镜头总数;以动态规划求解,得到最优解若/>则第t个镜头被选入视频摘要。
本发明涉及一种基于分层Transformer的视频摘要方法,基于获得的视频,将长视频建模为“帧-镜头”的双层结构,构建分别对应帧和镜头的分层Transformer网络,使用两层Transformer分别对帧和镜头进行编码,通过分层表征生成基于关键镜头的视频摘要。
本发明的有益效果在于:
(1)考虑到视频固有的语义结构,将视频分割为多个镜头,然后分别捕获镜头内和镜头间的时序依赖,最终通过分层表征生成视频摘要;
(2)考虑到RNN的局限性,对于视频的双层结构,使用Transformer对帧和镜头先后进行建模,通过多头注意机制捕获序列中的全局依赖性,由于并行编码所有时间步,具有更有效的表征能力和更快的计算速度;
(3)适用于提取关键镜头和关键帧作为视频摘要的应用场景。
附图说明
图1为本发明的方法流程图;
图2为本发明的分层Transformer网络的应用流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~2所示,本发明涉及一种基于分层Transformer的视频摘要方法,所述方法基于获得的视频,将长视频建模为“帧-镜头”的双层结构,构建分别对应帧和镜头的分层Transformer网络,使用两层Transformer分别对帧和镜头进行编码,通过分层表征生成基于关键镜头的视频摘要。
以下结合实施例进行方法的说明。
步骤1:收集长度适中的视频,视频主题应尽可能多样化,可包括生活类、体育运动、新闻等;处理并获取真实视频摘要;
步骤1中,处理包括对收集的视频进行镜头分割,获取真实视频摘要包括每个镜头进行标注并基于标注内容得到对应每个镜头的重要性得分,选取重要性得分大于阈值的所有镜头得到真实视频摘要。
本实施例中,标注过程为,每个视频由多个标注人员进行标注,对于每个视频,标注人员在观看完毕后需要选出若干镜头作为视频摘要,而且选出镜头的时长总和不得超过视频总时长的15%;标注完毕后,每个镜头有若干组标注,然后计算出该镜头被选入视频摘要的百分比作为该镜头的真实重要性得分。
步骤2:提取视频对应的特征,输入分层Transformer网络;
步骤2中,对所有视频基于时序,如每秒一帧进行降采样处理,并使用在Image预训练的VGGNet对视频中的每一帧进行空间特征提取,对提取的特征图进行空间池化操作,因此每帧的特征表示为1024维的向量,以每个视频的帧特征序列作为对应的视频特征。
本实施例中,对于一个降采样后包含T帧的视频,通过特征提取得到帧特征序列其中/>
步骤3:对于视频中的每个镜头,以一Transformer进行镜头内时序建模,得到每个镜头的特征;
步骤3中,在每个镜头的若干帧,设其包含m帧,该镜头中的所有帧的特征表示为在特征前加入可学习的类标记/>构成整体特征{f,f1,f2,…,fm},输入第一层Transformer进行编码,得到{st,f1′,f2′,…,fm′},其中/>获得对应镜头的表征st
应用于视频中的所有镜头。
步骤4:基于步骤3,获得镜头的特征序列,使用另一Transformer对视频中镜头的特征序列进行时序建模,得到每个镜头的最终表征;
本实施例中,对于一个包含n个镜头的视频,得到镜头表征序列其中将该视频的镜头表征序列输入第二层Transformer网络,然后输出编码之后的镜头序列/>其中/>
步骤5:将每个镜头的最终表征映射为该镜头的重要性,得到所有镜头的重要性序列;
步骤5中,将所有镜头的最终表征st′分别输入多层感知机,预测每个镜头的重要性得分,得到预测的镜头重要性分数序列为所有镜头的重要性序列,其中pt∈[0,1]。
步骤6:以镜头的真实重要性对网络输出的重要性进行监督,优化直至分层Transformer网络收敛;
步骤6中,以步骤1的镜头的真实重要性作为监督,计算其与步骤5得到的镜头的重要性间的均方误差,以均方误差作为损失函数,以批随机梯度下降优化分层Transformer网络直至收敛。
损失函数其中,yt为视频中第t个镜头的真实重要性得分。
步骤7:将待处理视频以步骤1的方式进行处理,包括降采样、空间特征提取和镜头分割,提取视频对应的特征后输入至步骤6完成训练的分层Transformer网络,得到所有镜头的重要性得分基于重要性得分获得视频摘要。
步骤7中,选出使得总分数最大的镜头作为视频摘要,同时满足选出的镜头时长总和不超过原始视频总长度的预设比例a,0<a<1,如取10%或15%。
将上述最大化总分数的过程建模为0/1背包问题,满足
其中,pt为镜头重要性分数,pt∈[0,1],C为视频的总长,qt为视频中第t个镜头的长度,n为镜头总数;以动态规划求解,得到最优解若/>则第t个镜头被选入视频摘要。将所有被选入视频摘要的镜头拼接在一起,形成最后的视频摘要。
本实施例中,分层Transformer网络中的两个Transformer都包含三个TransformerLayer;multi-head attention中head的数量为4;positional-wise feed-forward network中的隐层单元数量为1024。此外,在帧序列送入第一层Transformer之前,融和了基于正余弦函数的位置编码。镜头序列送入第二层Transformer之前,同样融和了基于正余弦函数的位置编码。
为了实现上述内容,本发明还涉及一种计算机可读存储介质,其上存储有基于分层Transformer的视频摘要的程序,该程序被处理器执行时实现上述基于分层Transformer的视频摘要的方法。
为了实现上述内容,本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述基于分层Transformer的视频摘要的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于分层Transformer的视频摘要方法,其特征在于:所述方法基于获得的视频,构建分别对应帧和镜头的分层Transformer网络,使用两层Transformer分别对帧和镜头进行编码,通过分层表征生成基于关键镜头的视频摘要。
2.根据权利要求1所述的一种基于分层Transformer的视频摘要方法,其特征在于:所述方法包括以下步骤:
步骤1:收集视频,处理并获取真实视频摘要;
步骤2:提取视频对应的特征,输入分层Transformer网络;
步骤3:对于视频中的每个镜头,以一Transformer进行镜头内时序建模,得到每个镜头的特征;
步骤4:基于步骤3,获得镜头的特征序列,使用另一Transformer对视频中镜头的特征序列进行时序建模,得到每个镜头的最终表征;
步骤5:将每个镜头的最终表征映射为该镜头的重要性,得到所有镜头的重要性序列;
步骤6:以镜头的真实重要性对网络输出的重要性进行监督,优化直至分层Transformer网络收敛;
步骤7:将待处理视频以步骤1的方式进行处理,提取视频对应的特征后输入至步骤6完成训练的分层Transformer网络,得到所有镜头的重要性得分,基于重要性得分获得视频摘要。
3.根据权利要求2所述的一种基于分层Transformer的视频摘要方法,其特征在于:步骤1中,处理包括对收集的视频进行镜头分割,获取真实视频摘要包括每个镜头进行标注并基于标注内容得到对应每个镜头的重要性得分,选取重要性得分大于阈值的所有镜头得到真实视频摘要。
4.根据权利要求2所述的一种基于分层Transformer的视频摘要方法,其特征在于:步骤2中,对所有视频基于时序进行降采样处理,并进行空间特征提取,以每个视频的帧特征序列作为对应的视频特征。
5.根据权利要求2所述的一种基于分层Transformer的视频摘要方法,其特征在于:步骤3中,在每个镜头的若干帧的特征前加入可学习的类标记,输入第一层Transformer进行编码,获得对应镜头的表征。
6.根据权利要求2所述的一种基于分层Transformer的视频摘要方法,其特征在于:步骤5中,将所有镜头的最终表征分别输入多层感知机,预测每个镜头的重要性得分,得到预测的镜头重要性分数序列,为所有镜头的重要性序列。
7.根据权利要求2所述的一种基于分层Transformer的视频摘要方法,其特征在于:步骤6中,以步骤1的镜头的真实重要性作为监督,计算其与步骤5得到的镜头的重要性间的均方误差,以均方误差作为损失函数,以批随机梯度下降优化分层Transformer网络直至收敛。
8.根据权利要求1所述的一种基于分层Transformer的视频摘要方法,其特征在于:步骤7中,选出使得总分数最大的镜头作为视频摘要,同时满足选出的镜头时长总和不超过原始视频总长度的预设比例a,0<a<1。
9.根据权利要求8所述的一种基于分层Transformer的视频摘要方法,其特征在于:最大化所述总分数满足
其中,pt为镜头重要性分数,pt∈[0,1],C为视频的总长,qt为视频中第t个镜头的长度,n为镜头总数;以动态规划求解,得到最优解若/>则第t个镜头被选入视频摘要。
CN202310759767.1A 2023-06-26 2023-06-26 一种基于分层Transformer的视频摘要方法 Pending CN116662604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310759767.1A CN116662604A (zh) 2023-06-26 2023-06-26 一种基于分层Transformer的视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310759767.1A CN116662604A (zh) 2023-06-26 2023-06-26 一种基于分层Transformer的视频摘要方法

Publications (1)

Publication Number Publication Date
CN116662604A true CN116662604A (zh) 2023-08-29

Family

ID=87715239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310759767.1A Pending CN116662604A (zh) 2023-06-26 2023-06-26 一种基于分层Transformer的视频摘要方法

Country Status (1)

Country Link
CN (1) CN116662604A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312603A (zh) * 2023-11-28 2023-12-29 苏州国科综合数据中心有限公司 一种基于双注意机制的无监督分段视频摘要方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312603A (zh) * 2023-11-28 2023-12-29 苏州国科综合数据中心有限公司 一种基于双注意机制的无监督分段视频摘要方法
CN117312603B (zh) * 2023-11-28 2024-03-01 苏州国科综合数据中心有限公司 一种基于双注意机制的无监督分段视频摘要方法

Similar Documents

Publication Publication Date Title
Apostolidis et al. AC-SUM-GAN: Connecting actor-critic and generative adversarial networks for unsupervised video summarization
CN111026915B (zh) 视频分类方法、视频分类装置、存储介质与电子设备
US11350169B2 (en) Automatic trailer detection in multimedia content
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN110765854B (zh) 一种视频动作识别方法
CN111241345A (zh) 一种视频检索方法、装置、电子设备和存储介质
CN115002559B (zh) 基于门控多头位置注意力机制的视频摘要算法及系统
CN113207010B (zh) 模型训练方法、直播推荐方法、设备、存储介质
CN114020964B (zh) 一种利用记忆网络和门控循环单元实现视频摘要的方法
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN116662604A (zh) 一种基于分层Transformer的视频摘要方法
CN115062709B (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN115695950A (zh) 一种基于内容感知的视频摘要生成方法
CN117609553B (zh) 基于局部特征增强和模态交互的视频检索方法及系统
CN114625924A (zh) 一种基于多视觉专家知识蒸馏的侵权视频检索方法及系统
Wang et al. Unsupervised reinforcement learning for video summarization reward function
CN113039561A (zh) 通过生成数据项的编码表示来对齐序列
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN117390074A (zh) 一种基于长用户行为的序列化推荐方法、装置及存储介质
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
Ben-Ahmed et al. Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes
JP2023129179A (ja) 効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置
AU2022279597B2 (en) Training rate control neural networks through reinforcement learning
CN115442660B (zh) 自监督对抗视频摘要提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication