CN116233569A - 一种基于运动信息协助的视频摘要生成方法 - Google Patents
一种基于运动信息协助的视频摘要生成方法 Download PDFInfo
- Publication number
- CN116233569A CN116233569A CN202310504159.6A CN202310504159A CN116233569A CN 116233569 A CN116233569 A CN 116233569A CN 202310504159 A CN202310504159 A CN 202310504159A CN 116233569 A CN116233569 A CN 116233569A
- Authority
- CN
- China
- Prior art keywords
- motion
- appearance
- feature
- video
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 230000003068 static effect Effects 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims abstract description 7
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 16
- 230000002441 reversible effect Effects 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440218—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440281—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于运动信息协助的视频摘要生成方法,用于自动地从视频中挑选最重要的片段,从而提升视频浏览效率。所提方法首先根据输入视频获取外观帧序列和运动帧序列,并采用神经网络模型分别提取外观特征和运动特征,然后根据镜头分割算法检测视觉变化点,得到子镜头集合,接着利用构建的视频摘要生成模型预测镜头级重要性得分,最后根据预测得分生成动态视频摘要。所提方法在使用静态的外观信息的基础上进一步引入了运动信息,通过实现有效的单模态特征编码以及跨模态特征交互提升了对视频内容的理解能力。在SumMe和TVSum两个基准数据集上的实验结果充分证明了所提方法的有效性和先进性。
Description
技术领域
本发明涉及一种基于运动信息协助的视频摘要生成方法,属于计算机视觉技术领域。
背景技术
视频摘要是计算机视觉领域中一个极具研究价值的课题,其目的是从视频序列中自动挑选出最重要的视频片段,从而提升视频浏览效率。随着越来越多的研究成果被提出,视频摘要在视频浏览和视频检索中发挥着越来越重要的作用。
目前,视频摘要方法可分为帧级方法和镜头级方法两种类型。帧级方法通常是在提取每帧的外观特征后,利用时间特征聚合方法(例如递归神经网络)来建模视频中的上下文信息。例如,Zhou等人通过将帧级外观特征输入到长短期记忆网络中来聚合全局上下文依赖。Liu等人利用3D卷积网络直接编码视频中的时空信息。尽管现有方法取得了显著的进步,但是这些帧级方法忽略了相邻帧之间的视觉相似性和连续性。
镜头级方法首先将整个视频序列分割为若干不重叠的子镜头,然后为它们标记镜头级重要性分数。例如,Zhao等人采用了一个图模型来捕捉镜头间的上下文依赖关系。Zhang等人提出了一个联合强化学习和对比学习的视频摘要方法。但是,这些方法仅考虑了视频中静态的外观特征而忽略了运动特征,导致模型不能全面、准确地理解视频内容。因此,亟待一种有效的视频摘要生成方法来解决上述问题。
发明内容
本发明的目的在于提供一种基于运动信息协助的视频摘要生成方法,旨在解决现有技术仅考虑了视频中静态的外观特征而忽略了运动特征,导致模型不能全面、准确地理解视频内容的问题。
本发明提供了一种基于运动信息协助的视频摘要生成方法,所述方法包括下述步骤:
S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;
S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;
S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;
S4,构建视频摘要生成模型预测镜头级重要性得分,所述模型包括:
序列编码器:所述序列编码器分别将所述帧级外观特征或所述帧级运动特征作为输入,用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息,最后输出镜头级外观特征和镜头级运动特征;
双向模态编码器:所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入,首先通过单模态特征编码挖掘镜头间的上下文依赖关系,再通过跨模态特征交互在外观流和运动流中进行消息传递,得到融合外观信息和运动信息的跨模态上下文特征;
视频语义引导器:所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失,用来缓解运动流中的噪声影响,提升视频摘要性能;
分数预测器:所述分数预测器以所述跨模态上下文特征作为输入,用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度;
S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;
S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
优选地,所述序列编码器在外观流和运动流中共享权重。
优选地,构建所述序列编码器,包括:
利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征;
将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接,输出镜头级特征向量。
优选地,构建所述双向模态编码器,包括:
首先在外观流和运动流中进行单模态特征编码,通过注意力层动态地考虑镜头间的语义相关性挖掘镜头级特征间的上下文依赖关系,输出外观流编码特征和运动流编码特征;
将所述外观流编码特征作为查询特征,所述运动流编码特征作为键、值特征,使外观特征关注运动特征,通过注意力层得到外观-运动跨模态上下文特征;
将所述运动流编码特征作为查询特征,所述外观流编码特征作为键、值特征,使运动特征关注外观特征,通过注意力层得到运动-外观跨模态上下文特征;
将得到的外观-运动以及运动-外观跨模态上下文特征送入前馈神经网络学习深层特征,再经过相加得到所述跨模态上下文特征。
优选地,所述双向模态编码器在单模态特征编码、跨模态特征交互以及深层特征传递阶段都包含残差连接,可以有效地避免网络退化的问题。
优选地,构建所述视频语义引导器,包括:
与现有技术相比,本发明至少具备以下有益效果:
1、本发明提供了一种基于运动信息协助的视频摘要生成方法,通过深入探索视频中静态的外观信息和动态的运动信息间的交互关系提升了模型对视频内容的理解能力;
2、本发明提出了一个双向模态编码器,通过双向建模结构在模态内和模态间进行特征聚合,可以获取更加全面的跨模态上下文信息;
3、本发明设计了一个视频上下文引导器用来提升跨模态上下文特征和输入视频间的语义一致性,缓解运动流中噪声影响,进而提升视频摘要性能;
4、本发明在两个基准数据集SumMe和TVSum上进行了实验验证。实验结果表明,与最先进的方法相比,本发明中所提方法的摘要性能有了显著提高。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于运动信息协助的视频摘要生成方法的实现流程图;
图2为本发明实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图;
图3为本发明实施例提供的双向模态编码器的结构示意图;
图4为本发明实施例提供的视频语义引导器的结构示意图;
图5为本发明提供的一个视频摘要结果示例。
实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明提供的基于运动信息协助的视频摘要生成方法的实现流程图,包括如下步骤:
S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;
S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;
S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;
S4,构建视频摘要生成模型预测镜头级重要性得分;
S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;
S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
实施例一:
本发明提供了一个优选实施例执行S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列。本发明可以对任何类型和任何时长的视频进行处理,例如电影、监控和体育视频等。具体的操作步骤如下:
对于一个新输入的视频,首先将视频下采样至2FPS,得到采样后的外观帧序列,每张图像可以反映静态的外观信息。为了获取视频中的运动信息,本发明采用了RAFT模型来处理连续的RGB图像,得到运动帧序列,该序列中的每张图像可以用来反映事物的瞬时运动状态。
实施例二:
本发明提供了一个优选实施例执行S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征。具体步骤如下:
为了公平地与其他先进方法进行性能对比,本发明采用在ImageNet数据集上预训练的GoogLeNet作为特征编码器分别为外观帧序列和运动帧序列提取特征。应当注意的是,本发明采用GoogLeNet的pool-5层输出的1024维向量作为特征表示,分别记编码得到的外观特征序列和运动特征序列为和,其中和分别表示第i个外观特征向量和运动特征向量,t为帧总数量。
实施例三:
本发明提供了一个优选实施例执行S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合。
本发明所提视频摘要方法属于镜头级方法,可以有效地利用相邻帧间的视觉相似性和连续性。相应地,需要预先根据外观特征进行视频镜头分割。核时序分割算法是一个表现优秀的镜头分割算法,具有操作简单、计算快速等特点。故使用其作为本发明中的镜头分割算法来检测帧序列中的视觉变化点。具体来说,本发明将所得外观特征序列经过核时序分割算法输出变化点集合,其中和分别表示第i个镜头的起始和结束帧索引,N为检测到的镜头数量。
实施例四:
本发明提供了一个优选实施例执行S4,构建视频摘要生成模型预测镜头级重要性得分。
视频摘要生成模型目的是通过对输入特征进行前向传播,最终预测每个镜头的重要性得分。如图2所示,为本发明实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图。该网络主要包含四个部分:序列编码器、双向模态编码器、视频语义引导器以及分数预测器。下面将分别阐述各个模块的具体构建步骤。
S41,构建序列编码器。序列编码器用于对局部帧序列进行建模,将每个镜头内的帧级特征聚合为镜头级特征向量以表征每个镜头内的语义信息,从而充分利用相邻帧之间的视觉相似性和连续性。门控循环单元(GRU)和长短时记忆网络(LSTM)是递归神经网络的两种经典变体形式,但由于门控循环单元具有更简洁的网络结构,并且与长短时记忆网络性能相当,故本发明采用了门控循环单元实现序列编码的目的。具体来讲,该序列编码器包含一个正向GRU和一个反正GRU,分别用于聚合未来和历史方向的时序特征。该过程可以用公式表述为:
其中,和分别表示正向和反向门控循环单元,为第i个镜头,和分别表示正向和反向聚合得到的隐藏特征,为最终的镜头级特征表示,表示拼接操作,表示不同的模态。由于每个镜头内的特征序列距离较短,因此,本发明在一定程度上可以缓解递归神经网络随着序列长度增加而出现历史信息丢失的情况。
S42,构建双向模态编码器。如3图所示,为本发明实施例提供的双向模态编码器的结构示意图。该编码器包含了两种结构:单模态编码器和跨模态编码器。单模态编码器通过捕获镜头级外观特征和运动特征的全局上下文信息来挖掘特征中的语义信息。而跨模态编码器用于促进跨模态信息之间充分的特征交互,从而自适应地学习到融合视频中外观信息和运动信息的特征表示。从技术上来讲,为了保留特征的位置信息,首先将镜头级特征序列与位置嵌入结合获得位置敏感的特征表示,该过程表示为:
然后,通过下式对特征序列进行全局上下文归一化:
在对单模态数据的上下文信息进行编码后,本发明通过交换查询特征使用跨模态编码器来联合建模视频中的外观和运动信息,使两种模态的信息进行充分融合。该编码器采用双向建模结构,可以使外观特征关注运动特征(表示为),也可以使运动特征关注外观特征(表示为)。双向交互特征和的计算方式定义如下:
值得注意的是,在单模态编码器、跨模态编码器以及前馈神经网络部分都包含了跳跃连接用于避免网络退化。
S43,构建视频语义引导器。如图4所示,为本发明实施例提供的视频语义引导器的结构示意图。本发明采用RAFT模型通过处理连续的RGB图像来提取视频中的运动信息。但是,由于各种干扰因素,例如目标大小的变化以及数据集的差异等,提取到的运动特征很可能存在噪声信息,造成跨模态上下文特征与输入视频间语义不一致。
因此,本发明进一步设计了视频语义引导器来解决上述问题。具体来说,考虑到一个视频通常具有较长的时长,本发明仍采用一个多头注意力层来将帧级外观特征序列作为输入挖掘帧级全局上下文信息,然后通过全局平均池化和归一化获得外观特征向量,记为。同时,对跨模态上下文特征也执行相同的池化操作,得到跨模态上下文特征向量。该过程可以用公式表述如下:
S44,构建分数预测器。分数预测器将维度为1024的跨模态上下文特征作为输入,经过一个全连接层将特征映射为1维,并利用Sigmoid函数将每个值限制在0和1之间来表征每个镜头的重要性程度。
实施例五:
本发明提供了一个优选实施例执行S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型。
实施例六:
本发明提供了一个优选实施例执行S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。该过程可以分为两步:
步骤一:根据上述实施例中得到的训练好的视频摘要生成模型对新输入的视频进行预测,得到重要性得分向量;
步骤二:规定摘要的最大长度不能超过输入视频总长度的15%,创建背包问题,根据动态规划算法进行求解。该过程可以表述如下:
为了证明所提方法的有效性,将本发明在SumMe和TVSum两个基准数据集上进行了实验。每个数据集被划分为两个不相交的部分,即80%的视频用于训练,其余用于测试。为了对比结果的公平性,使用标准的5折交叉验证进行测试,并报告平均F分数。
表1展示了本发明所提的无监督学习模型与其他先进方法的实验对比结果。可以看到,在SumMe和TVSum数据集上所提方法均表现出最好的摘要性能。RCL是一种出色的镜头级视频摘要算法,然而在完全公平的实验设置下,所提方法在两个数据集上的F分数都比它高,这可以归因于将外观和运动信息结合在一起可以进一步提高模型的视频理解能力。
表1 与无监督方法的F-score对比结果
此外,表2展示了所提监督学习模型的实验结果。从表中的数据可以看到,与其他先进方法相比,本发明仍然十分具有竞争力,这表明所提方法可以有效地从标注数据中学习更多的语义信息。
表2 与监督方法的F-score对比结果
此外,为了全面验证所提方法的优越性,表3展示了不同方法在TVSum数据集上的相关性系数。所提方法的无监督模型在Kendall’s τ和Spearman’s ρ两个指标上均表现良好。而监督学习模型表现最佳,甚至可以与人类摘要结果相当,这进一步证明了本发明的有效性和优越性。
表3 与先进方法的相关性系数对比结果
可视化结果如图5所示。可以看到,所提方法能够从视频中识别和提取重要的片段,从中可以很容易地推断出这些视频正在进行什么活动,极大地提升了视频浏览的效率。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
Claims (8)
1.一种基于运动信息协助的视频摘要生成方法,其特征在于,包括以下步骤:
S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;
S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;
S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;
S4,构建视频摘要生成模型预测镜头级重要性得分,所述模型包括:
序列编码器:所述序列编码器分别将所述帧级外观特征或所述帧级运动特征作为输入,用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息,最后输出镜头级外观特征和镜头级运动特征;
双向模态编码器:所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入,首先通过单模态特征编码挖掘镜头间的上下文依赖关系,再通过跨模态特征交互在外观流和运动流中进行消息传递,得到融合外观信息和运动信息的跨模态上下文特征;
视频语义引导器:所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失,用来缓解运动流中的噪声影响,提升视频摘要性能;
分数预测器:所述分数预测器以所述跨模态上下文特征作为输入,用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度;
S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;
S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
2.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,所述序列编码器在外观流和运动流中共享权重。
3.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述序列编码器,包括:
利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征;
将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接,输出镜头级特征向量。
4.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述双向模态编码器,包括:
首先在外观流和运动流中进行单模态特征编码,通过注意力层动态地考虑镜头间的语义相关性挖掘镜头级特征间的上下文依赖关系,输出外观流编码特征和运动流编码特征;
将所述外观流编码特征作为查询特征,所述运动流编码特征作为键、值特征,使外观特征关注运动特征,通过注意力层得到外观-运动跨模态上下文特征;
将所述运动流编码特征作为查询特征,所述外观流编码特征作为键、值特征,使运动特征关注外观特征,通过注意力层得到运动-外观跨模态上下文特征;
将得到的外观-运动以及运动-外观跨模态上下文特征送入前馈神经网络学习深层特征,再经过相加得到所述跨模态上下文特征。
5.根据权利要求4所述的基于运动信息协助的视频摘要生成方法,其特征在于,所述双向模态编码器在单模态特征编码、跨模态特征交互以及深层特征传递阶段都包含残差连接,可以有效地避免网络退化的问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310504159.6A CN116233569B (zh) | 2023-05-06 | 2023-05-06 | 一种基于运动信息协助的视频摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310504159.6A CN116233569B (zh) | 2023-05-06 | 2023-05-06 | 一种基于运动信息协助的视频摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116233569A true CN116233569A (zh) | 2023-06-06 |
CN116233569B CN116233569B (zh) | 2023-07-11 |
Family
ID=86580897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310504159.6A Active CN116233569B (zh) | 2023-05-06 | 2023-05-06 | 一种基于运动信息协助的视频摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116233569B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101291268A (zh) * | 2007-04-20 | 2008-10-22 | 索尼株式会社 | 数据通信系统、便携式电子装置、服务器装置、数据通信方法以及数据通信程序 |
CN102156707A (zh) * | 2011-02-01 | 2011-08-17 | 刘中华 | 一种视频摘要形成和搜索的方法、系统 |
CN103227963A (zh) * | 2013-03-20 | 2013-07-31 | 西交利物浦大学 | 基于视频运动目标检测和跟踪的静态监控视频摘要方法 |
US20140104582A1 (en) * | 2012-10-11 | 2014-04-17 | Canon Kabushiki Kaisha | Projector, its control method, and image projection system |
CN106714007A (zh) * | 2016-12-15 | 2017-05-24 | 重庆凯泽科技股份有限公司 | 一种视频摘要方法及装置 |
CN107223344A (zh) * | 2017-01-24 | 2017-09-29 | 深圳大学 | 一种静态视频摘要的生成方法及装置 |
US20180181814A1 (en) * | 2016-12-22 | 2018-06-28 | Sap Se | Video abstract using signed foreground extraction and fusion |
-
2023
- 2023-05-06 CN CN202310504159.6A patent/CN116233569B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101291268A (zh) * | 2007-04-20 | 2008-10-22 | 索尼株式会社 | 数据通信系统、便携式电子装置、服务器装置、数据通信方法以及数据通信程序 |
CN102156707A (zh) * | 2011-02-01 | 2011-08-17 | 刘中华 | 一种视频摘要形成和搜索的方法、系统 |
US20140104582A1 (en) * | 2012-10-11 | 2014-04-17 | Canon Kabushiki Kaisha | Projector, its control method, and image projection system |
CN103227963A (zh) * | 2013-03-20 | 2013-07-31 | 西交利物浦大学 | 基于视频运动目标检测和跟踪的静态监控视频摘要方法 |
CN106714007A (zh) * | 2016-12-15 | 2017-05-24 | 重庆凯泽科技股份有限公司 | 一种视频摘要方法及装置 |
US20180181814A1 (en) * | 2016-12-22 | 2018-06-28 | Sap Se | Video abstract using signed foreground extraction and fusion |
CN107223344A (zh) * | 2017-01-24 | 2017-09-29 | 深圳大学 | 一种静态视频摘要的生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116233569B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | CCAFNet: Crossflow and cross-scale adaptive fusion network for detecting salient objects in RGB-D images | |
Zhou et al. | APNet: Adversarial learning assistance and perceived importance fusion network for all-day RGB-T salient object detection | |
Qiu et al. | A2SPPNet: Attentive atrous spatial pyramid pooling network for salient object detection | |
CN115731498B (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
Cheng et al. | Depth-induced gap-reducing network for RGB-D salient object detection: An interaction, guidance and refinement approach | |
Wang et al. | Multi-cue based four-stream 3D ResNets for video-based action recognition | |
Li et al. | Long short-term relation networks for video action detection | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
Liu et al. | A novel spatiotemporal attention enhanced discriminative network for video salient object detection | |
Wu et al. | Context-aware deep spatiotemporal network for hand pose estimation from depth images | |
Li et al. | Spikemba: Multi-modal spiking saliency mamba for temporal video grounding | |
He et al. | Msf: Motion-guided sequential fusion for efficient 3d object detection from point cloud sequences | |
Bi et al. | PSNet: Parallel symmetric network for RGB-T salient object detection | |
Li et al. | Spatio-temporal deep residual network with hierarchical attentions for video event recognition | |
Zhang et al. | Localizing unseen activities in video via image query | |
Zhou et al. | DGPINet-KD: Deep Guided and Progressive Integration Network with Knowledge Distillation for RGB-D Indoor Scene Analysis | |
Yi et al. | Vlp2msa: expanding vision-language pre-training to multimodal sentiment analysis | |
Keisham et al. | Multi-level alignment for few-shot temporal action localization | |
Zhang et al. | From edge to keypoint: An end-to-end framework for indoor layout estimation | |
Liang et al. | Efficient temporal sentence grounding in videos with multi-teacher knowledge distillation | |
CN116069973B (zh) | 一种基于语义自挖掘的视频摘要生成方法 | |
Xia et al. | Imsfnet: integrated multi-source feature network for salient object detection | |
Zhang et al. | A review of small target detection based on deep learning | |
Yan et al. | Video-text pre-training with learned regions for retrieval | |
CN116233569B (zh) | 一种基于运动信息协助的视频摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |