CN116233569B - 一种基于运动信息协助的视频摘要生成方法 - Google Patents

一种基于运动信息协助的视频摘要生成方法 Download PDF

Info

Publication number
CN116233569B
CN116233569B CN202310504159.6A CN202310504159A CN116233569B CN 116233569 B CN116233569 B CN 116233569B CN 202310504159 A CN202310504159 A CN 202310504159A CN 116233569 B CN116233569 B CN 116233569B
Authority
CN
China
Prior art keywords
motion
appearance
feature
video
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310504159.6A
Other languages
English (en)
Other versions
CN116233569A (zh
Inventor
张云佐
刘亚猛
郑宇鑫
康伟丽
张天
武存宇
朱鹏飞
杨月辉
王双双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tiedao University
Original Assignee
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tiedao University filed Critical Shijiazhuang Tiedao University
Priority to CN202310504159.6A priority Critical patent/CN116233569B/zh
Publication of CN116233569A publication Critical patent/CN116233569A/zh
Application granted granted Critical
Publication of CN116233569B publication Critical patent/CN116233569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于运动信息协助的视频摘要生成方法,用于自动地从视频中挑选最重要的片段,从而提升视频浏览效率。所提方法首先根据输入视频获取外观帧序列和运动帧序列,并采用神经网络模型分别提取外观特征和运动特征,然后根据镜头分割算法检测视觉变化点,得到子镜头集合,接着利用构建的视频摘要生成模型预测镜头级重要性得分,最后根据预测得分生成动态视频摘要。所提方法在使用静态的外观信息的基础上进一步引入了运动信息,通过实现有效的单模态特征编码以及跨模态特征交互提升了对视频内容的理解能力。在SumMe和TVSum两个基准数据集上的实验结果充分证明了所提方法的有效性和先进性。

Description

一种基于运动信息协助的视频摘要生成方法
技术领域
本发明涉及一种基于运动信息协助的视频摘要生成方法,属于计算机视觉技术领域。
背景技术
视频摘要是计算机视觉领域中一个极具研究价值的课题,其目的是从视频序列中自动挑选出最重要的视频片段,从而提升视频浏览效率。随着越来越多的研究成果被提出,视频摘要在视频浏览和视频检索中发挥着越来越重要的作用。
目前,视频摘要方法可分为帧级方法和镜头级方法两种类型。帧级方法通常是在提取每帧的外观特征后,利用时间特征聚合方法(例如递归神经网络)来建模视频中的上下文信息。例如,Zhou等人通过将帧级外观特征输入到长短期记忆网络中来聚合全局上下文依赖。Liu等人利用3D卷积网络直接编码视频中的时空信息。尽管现有方法取得了显著的进步,但是这些帧级方法忽略了相邻帧之间的视觉相似性和连续性。
镜头级方法首先将整个视频序列分割为若干不重叠的子镜头,然后为它们标记镜头级重要性分数。例如,Zhao等人采用了一个图模型来捕捉镜头间的上下文依赖关系。Zhang等人提出了一个联合强化学习和对比学习的视频摘要方法。但是,这些方法仅考虑了视频中静态的外观特征而忽略了运动特征,导致模型不能全面、准确地理解视频内容。因此,亟待一种有效的视频摘要生成方法来解决上述问题。
发明内容
本发明的目的在于提供一种基于运动信息协助的视频摘要生成方法,旨在解决现有技术仅考虑了视频中静态的外观特征而忽略了运动特征,导致模型不能全面、准确地理解视频内容的问题。
本发明提供了一种基于运动信息协助的视频摘要生成方法,所述方法包括下述步骤:
S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;
S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;
S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;
S4,构建视频摘要生成模型预测镜头级重要性得分,所述模型包括:
序列编码器:所述序列编码器分别将所述帧级外观特征或所述帧级运动特征作为输入,用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息,最后输出镜头级外观特征和镜头级运动特征;
双向模态编码器:所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入,首先通过单模态特征编码挖掘镜头间的上下文依赖关系,再通过跨模态特征交互在外观流和运动流中进行消息传递,得到融合外观信息和运动信息的跨模态上下文特征;
视频语义引导器:所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失,用来缓解运动流中的噪声影响,提升视频摘要性能;
分数预测器:所述分数预测器以所述跨模态上下文特征作为输入,用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度;
S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;
S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
优选地,所述序列编码器在外观流和运动流中共享权重。
优选地,构建所述序列编码器,包括:
利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征;
将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接,输出镜头级特征向量。
优选地,构建所述双向模态编码器,包括:
首先在外观流和运动流中进行单模态特征编码,通过注意力层动态地考虑镜头间的语义相关性挖掘镜头级特征间的上下文依赖关系,输出外观流编码特征和运动流编码特征;
将所述外观流编码特征作为查询特征,所述运动流编码特征作为键、值特征,使外观特征关注运动特征,通过注意力层得到外观-运动跨模态上下文特征;
将所述运动流编码特征作为查询特征,所述外观流编码特征作为键、值特征,使运动特征关注外观特征,通过注意力层得到运动-外观跨模态上下文特征;
将得到的外观-运动以及运动-外观跨模态上下文特征送入前馈神经网络学习深层特征,再经过相加得到所述跨模态上下文特征。
优选地,所述双向模态编码器在单模态特征编码、跨模态特征交互以及深层特征传递阶段都包含残差连接,可以有效地避免网络退化的问题。
优选地,构建所述视频语义引导器,包括:
将所述跨模态上下文特征沿时间维度进行全局平均池化得到跨模态上下文特征向量
Figure SMS_1
利用注意力层聚合所述帧级外观特征中的长距离帧间上下文信息,再沿时间维度进行全局平均池化并经过归一化得到外观特征向量
Figure SMS_2
计算所述跨模态上下文特征向量和所述外观特征向量间的欧几里得距离作为所述语义一致性损失
Figure SMS_3
,公式表述为:
Figure SMS_4
其中,
Figure SMS_5
表示L2范式。
优选地,所述目标函数包括奖励函数项
Figure SMS_6
、正则项/>
Figure SMS_7
和语义一致性损失项/>
Figure SMS_8
,奖励函数项/>
Figure SMS_9
可以由下式计算得到:
Figure SMS_10
其中,
Figure SMS_11
表示候选摘要,/>
Figure SMS_12
表示余弦距离,/>
Figure SMS_13
为镜头数量,/>
Figure SMS_14
表示第o个镜头级外观特征;
正则项
Figure SMS_15
计算如下:
Figure SMS_16
其中,
Figure SMS_17
表示第i个镜头的预测得分。
优选地,当以监督学习的学习范式进行网络训练时,所述目标函数还应当包含均方误差损失
Figure SMS_18
用于提升预测分数与标注分数之间的一致性,计算公式如下:
Figure SMS_19
其中,
Figure SMS_20
表示第i个镜头的标注得分。
与现有技术相比,本发明至少具备以下有益效果:
1、本发明提供了一种基于运动信息协助的视频摘要生成方法,通过深入探索视频中静态的外观信息和动态的运动信息间的交互关系提升了模型对视频内容的理解能力;
2、本发明提出了一个双向模态编码器,通过双向建模结构在模态内和模态间进行特征聚合,可以获取更加全面的跨模态上下文信息;
3、本发明设计了一个视频上下文引导器用来提升跨模态上下文特征和输入视频间的语义一致性,缓解运动流中噪声影响,进而提升视频摘要性能;
4、本发明在两个基准数据集SumMe和TVSum上进行了实验验证。实验结果表明,与最先进的方法相比,本发明中所提方法的摘要性能有了显著提高。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于运动信息协助的视频摘要生成方法的实现流程图;
图2为本发明实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图;
图3为本发明实施例提供的双向模态编码器的结构示意图;
图4为本发明实施例提供的视频语义引导器的结构示意图;
图5为本发明提供的一个视频摘要结果示例。
实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明提供的基于运动信息协助的视频摘要生成方法的实现流程图,包括如下步骤:
S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;
S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;
S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;
S4,构建视频摘要生成模型预测镜头级重要性得分;
S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;
S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
实施例一:
本发明提供了一个优选实施例执行S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列。本发明可以对任何类型和任何时长的视频进行处理,例如电影、监控和体育视频等。具体的操作步骤如下:
对于一个新输入的视频,首先将视频下采样至2FPS,得到采样后的外观帧序列,每张图像可以反映静态的外观信息。为了获取视频中的运动信息,本发明采用了RAFT模型来处理连续的RGB图像,得到运动帧序列,该序列中的每张图像可以用来反映事物的瞬时运动状态。
实施例二:
本发明提供了一个优选实施例执行S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征。具体步骤如下:
为了公平地与其他先进方法进行性能对比,本发明采用在ImageNet数据集上预训练的GoogLeNet作为特征编码器分别为外观帧序列和运动帧序列提取特征。应当注意的是,本发明采用GoogLeNet的pool-5层输出的1024维向量作为特征表示,分别记编码得到的外观特征序列和运动特征序列为
Figure SMS_21
和/>
Figure SMS_22
,其中/>
Figure SMS_23
Figure SMS_24
分别表示第i个外观特征向量和运动特征向量,t为帧总数量。
实施例三:
本发明提供了一个优选实施例执行S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合。
本发明所提视频摘要方法属于镜头级方法,可以有效地利用相邻帧间的视觉相似性和连续性。相应地,需要预先根据外观特征进行视频镜头分割。核时序分割算法是一个表现优秀的镜头分割算法,具有操作简单、计算快速等特点。故使用其作为本发明中的镜头分割算法来检测帧序列中的视觉变化点。具体来说,本发明将所得外观特征序列经过核时序分割算法输出变化点集合
Figure SMS_25
,其中/>
Figure SMS_26
和/>
Figure SMS_27
分别表示第i个镜头的起始和结束帧索引,N为检测到的镜头数量。
实施例四:
本发明提供了一个优选实施例执行S4,构建视频摘要生成模型预测镜头级重要性得分。
视频摘要生成模型目的是通过对输入特征进行前向传播,最终预测每个镜头的重要性得分。如图2所示,为本发明实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图。该网络主要包含四个部分:序列编码器、双向模态编码器、视频语义引导器以及分数预测器。下面将分别阐述各个模块的具体构建步骤。
S41,构建序列编码器。序列编码器用于对局部帧序列进行建模,将每个镜头内的帧级特征聚合为镜头级特征向量以表征每个镜头内的语义信息,从而充分利用相邻帧之间的视觉相似性和连续性。门控循环单元(GRU)和长短时记忆网络(LSTM)是递归神经网络的两种经典变体形式,但由于门控循环单元具有更简洁的网络结构,并且与长短时记忆网络性能相当,故本发明采用了门控循环单元实现序列编码的目的。具体来讲,该序列编码器包含一个正向GRU和一个反正GRU,分别用于聚合未来和历史方向的时序特征。该过程可以用公式表述为:
Figure SMS_28
Figure SMS_29
Figure SMS_30
其中,
Figure SMS_33
和/>
Figure SMS_34
分别表示正向和反向门控循环单元,/>
Figure SMS_36
为第i个镜头,
Figure SMS_32
和/>
Figure SMS_35
分别表示正向和反向聚合得到的隐藏特征,/>
Figure SMS_37
为最终的镜头级特征表示,/>
Figure SMS_38
表示拼接操作,/>
Figure SMS_31
表示不同的模态。由于每个镜头内的特征序列距离较短,因此,本发明在一定程度上可以缓解递归神经网络随着序列长度增加而出现历史信息丢失的情况。
S42,构建双向模态编码器。如3图所示,为本发明实施例提供的双向模态编码器的结构示意图。该编码器包含了两种结构:单模态编码器和跨模态编码器。单模态编码器通过捕获镜头级外观特征和运动特征的全局上下文信息来挖掘特征中的语义信息。而跨模态编码器用于促进跨模态信息之间充分的特征交互,从而自适应地学习到融合视频中外观信息和运动信息的特征表示。从技术上来讲,为了保留特征的位置信息,首先将镜头级特征序列
Figure SMS_39
与位置嵌入/>
Figure SMS_40
结合获得位置敏感的特征表示/>
Figure SMS_41
,该过程表示为:
Figure SMS_42
然后,通过下式对特征序列进行全局上下文归一化:
Figure SMS_43
其中,
Figure SMS_44
为归一化函数。/>
Figure SMS_45
为计算关于查询、键和值特征的多头注意力层,其计算过程可以描述为:
Figure SMS_46
Figure SMS_47
其中,
Figure SMS_49
为第i个注意力头计算得到的特征;/>
Figure SMS_51
表示注意力头数量;/>
Figure SMS_53
,/>
Figure SMS_50
和/>
Figure SMS_52
为经过线性变换得到的特征矩阵;/>
Figure SMS_54
为特征维度;/>
Figure SMS_55
为经过多头注意力层得到的细化特征;/>
Figure SMS_48
为可训练的权重。
在对单模态数据的上下文信息进行编码后,本发明通过交换查询特征使用跨模态编码器来联合建模视频中的外观和运动信息,使两种模态的信息进行充分融合。该编码器采用双向建模结构,可以使外观特征关注运动特征(表示为
Figure SMS_56
),也可以使运动特征关注外观特征(表示为/>
Figure SMS_57
)。双向交互特征/>
Figure SMS_58
和/>
Figure SMS_59
的计算方式定义如下:
Figure SMS_60
Figure SMS_61
通过这种建模方式,可以使模型学习到更加全面的跨模态上下文特征。然后,利用前馈神经网络
Figure SMS_62
传递深层特征,该过程用公式可以描述为:
Figure SMS_63
Figure SMS_64
最后,再经过求和输出跨模态上下文特征
Figure SMS_65
,该过程可以被描述为:
Figure SMS_66
值得注意的是,在单模态编码器、跨模态编码器以及前馈神经网络部分都包含了跳跃连接用于避免网络退化。
S43,构建视频语义引导器。如图4所示,为本发明实施例提供的视频语义引导器的结构示意图。本发明采用RAFT模型通过处理连续的RGB图像来提取视频中的运动信息。但是,由于各种干扰因素,例如目标大小的变化以及数据集的差异等,提取到的运动特征很可能存在噪声信息,造成跨模态上下文特征与输入视频间语义不一致。
因此,本发明进一步设计了视频语义引导器来解决上述问题。具体来说,考虑到一个视频通常具有较长的时长,本发明仍采用一个多头注意力层来将帧级外观特征序列作为输入挖掘帧级全局上下文信息,然后通过全局平均池化和归一化获得外观特征向量,记为
Figure SMS_67
。同时,对跨模态上下文特征也执行相同的池化操作,得到跨模态上下文特征向量
Figure SMS_68
。该过程可以用公式表述如下:
Figure SMS_69
Figure SMS_70
其中,
Figure SMS_71
表示全局平均池化操作。
接着,本发明定义了一个语义一致性损失
Figure SMS_72
Figure SMS_73
其中,
Figure SMS_74
表示L2范式。
S44,构建分数预测器。分数预测器将维度为1024的跨模态上下文特征作为输入,经过一个全连接层将特征映射为1维,并利用Sigmoid函数将每个值限制在0和1之间来表征每个镜头的重要性程度。
实施例五:
本发明提供了一个优选实施例执行S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型。
在训练过程中,总体目标函数共有四个损失项,包括奖励函数项
Figure SMS_75
、正则项/>
Figure SMS_76
、语义一致性损失项/>
Figure SMS_77
和均方误差损失项/>
Figure SMS_78
。除语义一致性损失项以外的各项的计算方式如下:
Figure SMS_79
Figure SMS_80
Figure SMS_81
其中,
Figure SMS_82
表示候选摘要,/>
Figure SMS_83
表示余弦距离,/>
Figure SMS_84
和/>
Figure SMS_85
分别表示第i个镜头的预测得分和标注得分。
故总体目标函数
Figure SMS_86
可以表示为:
Figure SMS_87
其中,
Figure SMS_88
为超参数,用于控制损失项的相对重要性,在本发明中设置为0.01。当采用无监督学习的学习范式训练视频摘要生成模型时则移除均方误差损失项/>
Figure SMS_89
实施例六:
本发明提供了一个优选实施例执行S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。该过程可以分为两步:
步骤一:根据上述实施例中得到的训练好的视频摘要生成模型对新输入的视频进行预测,得到重要性得分向量;
步骤二:规定摘要的最大长度不能超过输入视频总长度的15%,创建背包问题,根据动态规划算法进行求解。该过程可以表述如下:
Figure SMS_90
,/>
Figure SMS_91
其中
Figure SMS_92
表示是否选择第i个镜头,/>
Figure SMS_93
分别表示第i个镜头的长度,/>
Figure SMS_94
为视频的总长度。最后将选择得到的视频镜头按时间顺序进行重组,输出视频摘要结果。
为了证明所提方法的有效性,将本发明在SumMe和TVSum两个基准数据集上进行了实验。每个数据集被划分为两个不相交的部分,即80%的视频用于训练,其余用于测试。为了对比结果的公平性,使用标准的5折交叉验证进行测试,并报告平均F分数。
表1展示了本发明所提的无监督学习模型与其他先进方法的实验对比结果。可以看到,在SumMe和TVSum数据集上所提方法均表现出最好的摘要性能。RCL是一种出色的镜头级视频摘要算法,然而在完全公平的实验设置下,所提方法在两个数据集上的F分数都比它高,这可以归因于将外观和运动信息结合在一起可以进一步提高模型的视频理解能力。
表1 与无监督方法的F-score对比结果
Figure SMS_95
此外,表2展示了所提监督学习模型的实验结果。从表中的数据可以看到,与其他先进方法相比,本发明仍然十分具有竞争力,这表明所提方法可以有效地从标注数据中学习更多的语义信息。
表2 与监督方法的F-score对比结果
Figure SMS_96
此外,为了全面验证所提方法的优越性,表3展示了不同方法在TVSum数据集上的相关性系数。所提方法的无监督模型在Kendall’s τ和Spearman’s ρ两个指标上均表现良好。而监督学习模型表现最佳,甚至可以与人类摘要结果相当,这进一步证明了本发明的有效性和优越性。
表3 与先进方法的相关性系数对比结果
Figure SMS_97
可视化结果如图5所示。可以看到,所提方法能够从视频中识别和提取重要的片段,从中可以很容易地推断出这些视频正在进行什么活动,极大地提升了视频浏览的效率。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

Claims (8)

1.一种基于运动信息协助的视频摘要生成方法,其特征在于,包括以下步骤:
S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;
S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;
S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;
S4,构建视频摘要生成模型预测镜头级重要性得分,所述模型包括:
序列编码器:所述序列编码器分别将所述帧级外观特征和所述帧级运动特征作为输入,用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息,最后输出镜头级外观特征和镜头级运动特征;
双向模态编码器:所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入,首先通过单模态特征编码挖掘镜头间的上下文依赖关系,再通过跨模态特征交互在外观流和运动流中进行消息传递,得到融合外观信息和运动信息的跨模态上下文特征;
视频语义引导器:所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失,用来缓解运动流中的噪声影响,提升视频摘要性能;
分数预测器:所述分数预测器以所述跨模态上下文特征作为输入,用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度;
S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;
S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
2.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,所述序列编码器在外观流和运动流中共享权重。
3.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述序列编码器,包括:
利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征;
将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接,输出镜头级特征向量。
4.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述双向模态编码器,包括:
首先在外观流和运动流中进行单模态特征编码,通过注意力层动态地考虑镜头间的语义相关性挖掘镜头级特征间的上下文依赖关系,输出外观流编码特征和运动流编码特征;
将所述外观流编码特征作为查询特征,所述运动流编码特征作为键、值特征,使外观特征关注运动特征,通过注意力层得到外观-运动跨模态上下文特征;
将所述运动流编码特征作为查询特征,所述外观流编码特征作为键、值特征,使运动特征关注外观特征,通过注意力层得到运动-外观跨模态上下文特征;
将得到的外观-运动以及运动-外观跨模态上下文特征送入前馈神经网络学习深层特征,再经过相加得到所述跨模态上下文特征。
5.根据权利要求4所述的基于运动信息协助的视频摘要生成方法,其特征在于,所述双向模态编码器在单模态特征编码、跨模态特征交互以及深层特征传递阶段都包含残差连接,可以有效地避免网络退化的问题。
6.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述视频语义引导器,包括:
将所述跨模态上下文特征沿时间维度进行全局平均池化得到跨模态上下文特征向量
Figure QLYQS_1
利用注意力层聚合所述帧级外观特征中的长距离帧间上下文信息,再沿时间维度进行全局平均池化并经过归一化得到外观特征向量
Figure QLYQS_2
计算所述跨模态上下文特征向量和所述外观特征向量间的欧几里得距离作为所述语义一致性损失
Figure QLYQS_3
,公式表述为:
Figure QLYQS_4
其中,
Figure QLYQS_5
表示L2范式。
7.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,所述目标函数包括奖励函数项
Figure QLYQS_6
、正则项/>
Figure QLYQS_7
和语义一致性损失项/>
Figure QLYQS_8
,奖励函数项/>
Figure QLYQS_9
可以由下式计算得到:
Figure QLYQS_10
其中,
Figure QLYQS_11
表示候选摘要,/>
Figure QLYQS_12
表示余弦距离,/>
Figure QLYQS_13
为镜头数量,/>
Figure QLYQS_14
和/>
Figure QLYQS_15
分别表示第t个和第i个镜头级外观特征;
正则项
Figure QLYQS_16
计算如下:
Figure QLYQS_17
其中,
Figure QLYQS_18
表示第i个镜头的预测得分。
8.根据权利要求7所述的基于运动信息协助的视频摘要生成方法,其特征在于,当以监督学习的学习范式进行网络训练时,所述目标函数还应当包含均方误差损失
Figure QLYQS_19
用于提升预测分数与标注分数之间的一致性,计算公式如下:
Figure QLYQS_20
其中,
Figure QLYQS_21
表示第i个镜头的标注得分。
CN202310504159.6A 2023-05-06 2023-05-06 一种基于运动信息协助的视频摘要生成方法 Active CN116233569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310504159.6A CN116233569B (zh) 2023-05-06 2023-05-06 一种基于运动信息协助的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310504159.6A CN116233569B (zh) 2023-05-06 2023-05-06 一种基于运动信息协助的视频摘要生成方法

Publications (2)

Publication Number Publication Date
CN116233569A CN116233569A (zh) 2023-06-06
CN116233569B true CN116233569B (zh) 2023-07-11

Family

ID=86580897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310504159.6A Active CN116233569B (zh) 2023-05-06 2023-05-06 一种基于运动信息协助的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN116233569B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103227963A (zh) * 2013-03-20 2013-07-31 西交利物浦大学 基于视频运动目标检测和跟踪的静态监控视频摘要方法
CN106714007A (zh) * 2016-12-15 2017-05-24 重庆凯泽科技股份有限公司 一种视频摘要方法及装置
CN107223344A (zh) * 2017-01-24 2017-09-29 深圳大学 一种静态视频摘要的生成方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008289133A (ja) * 2007-04-20 2008-11-27 Sony Corp データ通信システム、クレードル装置、サーバ装置、転送制御プログラム、通信制御プログラムおよびデータ通信方法
CN102156707A (zh) * 2011-02-01 2011-08-17 刘中华 一种视频摘要形成和搜索的方法、系统
JP6164820B2 (ja) * 2012-10-11 2017-07-19 キヤノン株式会社 プロジェクタ、その制御方法、及び画像投影システム
US10095932B2 (en) * 2016-12-22 2018-10-09 Sap Se Video abstract using signed foreground extraction and fusion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103227963A (zh) * 2013-03-20 2013-07-31 西交利物浦大学 基于视频运动目标检测和跟踪的静态监控视频摘要方法
CN106714007A (zh) * 2016-12-15 2017-05-24 重庆凯泽科技股份有限公司 一种视频摘要方法及装置
CN107223344A (zh) * 2017-01-24 2017-09-29 深圳大学 一种静态视频摘要的生成方法及装置

Also Published As

Publication number Publication date
CN116233569A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Zhou et al. CCAFNet: Crossflow and cross-scale adaptive fusion network for detecting salient objects in RGB-D images
Zhou et al. APNet: Adversarial learning assistance and perceived importance fusion network for all-day RGB-T salient object detection
CN115731498B (zh) 一种联合强化学习和对比学习的视频摘要生成方法
Cheng et al. Depth-induced gap-reducing network for RGB-D salient object detection: An interaction, guidance and refinement approach
Wang et al. Multi-cue based four-stream 3D ResNets for video-based action recognition
Li et al. Long short-term relation networks for video action detection
Wu et al. Context-aware deep spatiotemporal network for hand pose estimation from depth images
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
Liu et al. A novel spatiotemporal attention enhanced discriminative network for video salient object detection
Li et al. Spikemba: Multi-modal spiking saliency mamba for temporal video grounding
Li et al. Spatio-temporal deep residual network with hierarchical attentions for video event recognition
He et al. Msf: Motion-guided sequential fusion for efficient 3d object detection from point cloud sequences
Yao et al. Transformers and CNNs fusion network for salient object detection
Bi et al. PSNet: Parallel symmetric network for RGB-T salient object detection
Chen et al. Sparse attention block: Aggregating contextual information for object detection
Liang et al. Efficient temporal sentence grounding in videos with multi-teacher knowledge distillation
Keisham et al. Multi-level alignment for few-shot temporal action localization
Yi et al. Vlp2msa: expanding vision-language pre-training to multimodal sentiment analysis
CN116069973B (zh) 一种基于语义自挖掘的视频摘要生成方法
Xia et al. Imsfnet: integrated multi-source feature network for salient object detection
Dong et al. Multi-level visual representation with semantic-reinforced learning for video captioning
Zhou et al. DGPINet-KD: Deep Guided and Progressive Integration Network with Knowledge Distillation for RGB-D Indoor Scene Analysis
Yan et al. Video-text pre-training with learned regions for retrieval
CN116233569B (zh) 一种基于运动信息协助的视频摘要生成方法
Zhang et al. A review of small target detection based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant