CN116740601B

CN116740601B - 一种两阶段的学术视频关键帧提取方法

Info

Publication number: CN116740601B
Application number: CN202310626014.3A
Authority: CN
Inventors: 张云佐; 李怡; 刘亚猛; 杨月辉
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2024-04-30
Anticipated expiration: 2043-05-30
Also published as: CN116740601A

Abstract

本发明公开了一种两阶段的学术视频关键帧提取方法。该方法包括：S1，视频帧分解，按照帧率固定比例对其进行等间隔拆分，并读取场景文本图像数据集ICDAR 2015；S2，构建两阶段的关键帧提取模型，将视频帧图像送入所述关键帧提取模型经Stage1和Stage2处理后得到关键帧集；S3，构建视频字幕检测模型，增加空洞卷积和压缩激励模块改进特征提取层，并动态更新学习率优化路由算法，训练所述视频字幕检测模型；S4，构建关键帧集提取算法，引入自适应时空采样线，测试关键帧集提取算法；S5，利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2，根据字幕帧存在阈值区间生成关键帧集合。该方法能够充分利用视频的多模态信息，具有更好的鲁棒性和普适性，且关键帧提取更加精准，满足用户的现实需求。

Description

一种两阶段的学术视频关键帧提取方法

技术领域

本发明涉及一种两阶段的学术视频关键帧提取方法，属于视频数据处理领域。

背景技术

在教育数字化背景下，随着互联网和硬件存储介质的飞速发展，每天都会涌现出大量视频，在线视频数量迅速增长。视频作为一种能够直接呈现画面、音频和文本等多模态信息的载体，广泛传播于各媒介之间。尽管视频检索技术在不断的更新迭代，但面对海量的视频数据，人们还是很难高效准确地获取有价值的视频信息。学术视频是人们自主获取信息和知识的重要渠道，近年来得到了普及式发展。学术视频的大量涌现使用户对视频快速浏览的现实需求提出了更紧迫的要求，视频摘要技术的出现，缓解了视频检索和存储压力，并逐渐成为研究热点。该技术能够在分析原始视频特征的基础上，从中选取最有价值的视频信息进行紧凑表示。

视频是多模态信息的结合体，如何充分挖掘其中的信息来构建满足用户现实需求的摘要，已成为亟待解决的问题。Zhang等人通过阈值来识别视频中的镜头，选取镜头内具有代表性的帧为关键帧。瞿等人利用颜色特征进行镜头检测，在计算每帧的图像熵值之后，选取最大熵值所在帧为关键帧，有效提高了镜头检测准确率，且镜头内容分布均匀。此类方法在镜头分割过程中均对阈值有较高的依赖性。Kethsy等人提出基于Fuzzy规则的直方图差分法进行镜头边界检测，克服了基于阈值分量法的阈值依赖缺陷，但容易丢失空间信息。Lo等人利用直方图法获得帧间差分向量，之后用模糊C均值聚类法对镜头变化进行三聚类，并从中选取变化帧用于镜头分割。聚类方法消除了镜头边界检测对阈值的依赖性，但需提前设定聚类的类别。白等人提出一种基于层次聚类与人工免疫聚类相结合的关键帧提取方法，利用初次层次聚类的初始结果作为二次人工免疫聚类的初始条件进行处理，得到关键帧。该方法避免了人工设定聚类中心及数目的缺点，但丢失了图像帧之间的时序信息和动态信息。已有的关键帧提取技术多依赖于视频底层特征，无法兼顾时空信息，且提取结果无法准确全面的表征视频的真实内容。面对不同应用场景的视频，现有摘要技术多以特有的画面信息为特征展开研究。王等人提出基于色矩匹配的镜头检测方法，以主持人画面为模板，准确检测主持人镜头。吴提出慢放镜头检测算法，以精彩慢放镜头为体育视频关键帧来建立摘要。张等人提出基于频域分析的关键帧提取算法，将运动物体局部中心偏移量最大的帧作为关键帧来构建监控视频摘要。研究显示，视频的嵌入式文本(字幕)信息是理解视频内容的重要线索，具有很大的研究价值。除此之外，视频字幕具有显著的结构特性和语义特性，其通常出现在视频下方，与背景对比鲜明，且字幕文本言简意赅，对视频内容有较好的概括作用。金等人认为视频数据携带的字幕是提取视频数据高级语义的核心。肖等人提出了一种基于多特征得到两阶段关键帧提取算法，利用视频字幕定位完成视频关键词统计，并以此提取视频关键片段。现有关键帧提取技术严重依赖于视频的底层单特征，无法获取视频完整的语义信息，计算量大、摘要效果差且具有实际场景应用壁垒。

发明内容

针对传统关键帧提取方法基于全局像素处理后存在计算量大的问题以及现有基于图像底层特征的文本检测方法存在特征提取不充分，检测效果不理想，具有不稳定性的问题，本发明提供了一种两阶段的学术视频关键帧提取方法，通过构建基于改进CapsNet的视频字幕检测模型和自适应关键帧提取算法实现学术视频稳定状态下的关键帧提取。

本发明提供了一种两阶段的学术视频关键帧提取方法，所述方法包括下述步骤：

S1：视频帧分解，按照帧率固定比例对其进行等间隔拆分，并读取场景文本图像数据集；

S2，构建两阶段的关键帧提取模型，将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集，所述关键帧提取模型包括：

Stage1模块，所述Stage1模块以场景文本图像数据集为数据来源，该阶段首次引入胶囊网络CapsNet作为基本网络架构，并通过搭建软池化、空洞卷积以及压缩激励模块来完成特征增强和特征筛选，使网络能够学习到更丰富的图像特征；

Stage2模块，所述Stage2模块以Stage1的处理结果为输入，通过边界坐标来获取自适应采样位置，以获取更加丰富的学术视频帧特征信息，实现更精准的字幕累积统计；

S3，构建视频字幕检测模型，增加空洞卷积和压缩激励模块改进特征提取层，并动态更新学习率优化路由算法，训练所述视频字幕检测模型；

S4，构建关键帧集提取算法，引入自适应时空采样线，测试关键帧集提取算法；

S5，利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2，根据字幕帧存在阈值区间生成关键帧集合。

优选地，完成所述视频帧分解，包括：

在完成视频信息分析的基础上，将帧率的三分之一作为固定帧率比，即采样间隔，以等间隔抽取视频帧以构成待处理的视频帧序列。

优选地，构建所述视频字幕检测模型，包括：

将所述场景文本图像数据集，利用深层空洞卷积堆叠层进行特征增强，得到卷积特征图；

将所述卷积特征图，利用压缩激励模块进行全局平均池及全连接操作完成特征筛选，得到改善的特征表示；

将改善的特征表示，利用胶囊层和路由的自适应矩估计完成字幕检测并进行8值坐标点输出。

优选地，构建所述关键帧提取算法，包括：

采用等间隔取样法来标定自采样线位置，并根据8值坐标来计算子采样线的空域位置；

构建自适应时空累积，计算自适应时空采样下的字幕累积均值得到所述的时空累积统计；

创建Flag标识，采用双值标定法以及字幕存在阈值得到所述关键帧集合。

与现有技术相比，本发明至少具备以下有益效果：

1、本发明提供了一种两阶段的学术视频关键帧提取方法，该方法结合学术视频字幕嵌入的结构特性，将关键帧选取映射到字幕边界标定，从多模态挖掘视频信息，有助于视频内容的深层表达。

2、本发明引入了胶囊网络CapsNet来进行视频字幕检测，利用胶囊网络本身对旋转适应性较好的性能解决字幕多方向问题，通过加深空洞卷积层来增强特征提取能力，并通过压缩激励模块来完成特征筛选，从而提升网络的特征表示能力。

3、本发明引入了自适应矩估计算法，利用该算法对胶囊之间的误差进行移动指数平均，实现自适应权重矩估计，动态更新路由算法学习率，提高模型稳定性。

4、本发明在基准数据集ICDAR 2015和新建学术视频数据集上进行了实验验证。实验结果表明，所提方法能够充分利用视频的多模态信息，精准提取视频关键帧，且具有较高的普适性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的一种两阶段的学术视频关键帧提取方法的实现流程图；

图2为本发明实施例提供的一种两阶段的学术视频关键帧提取方法的整体框架图；

图3为本发明实施例提供的视频字幕检测模型的框架图；

图4为本发明实施例提供的关键帧提取算法的流程图；

图5为本发明实施例提供的一个本发明生成的关键帧结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，为本发明提供的一种两阶段的学术视频关键帧提取方法的实现流程图。本实施例提供了一种两阶段的学术视频关键帧提取方法，包括如下步骤：

S2，构建两阶段的关键帧提取模型，将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集；

实施例一：

本发明提供了一个优选实施例执行S1，视频帧分解，按照帧率固定比例对其进行等间隔拆分，并读取场景文本图像数据集；

本发明可以处理携带字幕的学术视频，也可以处理任何携带字幕的视频，例如电影、新闻等。具体步骤如下：

针对时长为L的视频V进行帧采样操作，根据视频自身帧率fps，按照的比例进行等间隔抽取，最终得到视频帧序列的帧数记为/>并加载场景文本图像数据集ICDAR 2015。

实施例二：

本发明提供了一个实施例执行S2，构建两阶段的关键帧提取模型，将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集。

如图2所示，为本实施例方法的整体框架图。该架构图分为两个模块，分别为Stage1和Stage2，下面将分别阐述各个模块的具体构建步骤：

S21，构建Stage1模块，具体来说，该以场景文本图像数据集为数据来源，该阶段首次引入胶囊网络CapsNet作为基本网络架构，并通过搭建软池化、空洞卷积以及压缩激励模块来完成特征增强和特征筛选，使网络能够学习到更丰富的图像特征。

S22，构建Stage2模块，具体来说，该模块以Stage1的处理结果为输入，通过边界坐标来获取自适应采样位置，以获取更加丰富的学术视频帧特征信息，实现更精准的字幕累积统计。

实施例三：

本发明提供了一个优选实施例执行S3，构建视频字幕检测模型，增加空洞卷积和压缩激励模块改进特征提取层，并动态更新学习率优化路由算法，训练所述视频字幕检测模型。

如图3所示，为本实施例网络模型的整体框架图。该网络包括特征增强、特征筛选以及改进路由这三部分，下面将阐述该模型的构建步骤：

首先是通过加深网络层数来进行特征增强，利用卷积提取浅层特征后引入3层空洞卷积，增加感受野，以获得目标轮廓特征；之后是在卷积之后引入压缩激励模块来完成特征筛选；最后引入自适应矩估计算法来动态更新路由学习率，提高模型整体性能。

具体来说，该路由改进算法，首先定义胶囊层l和迭代次数r，然后完成初始化，其中向前路由先验概率b_ij←0，权重一阶矩F_t＝0，权重二阶矩S_t＝0，一阶矩指数衰减率δ＝0.9，二阶矩指数衰减率γ＝0.999，时间步t＝0，稳定数值常数ε＝10^-8，改进后向量归一化表示为：

实施例四：

本发明提供了一个优选实施例执行S4，构建关键帧集提取算法，引入自适应时空采样线，测试关键帧集提取算法。

如图4所示，为本实施例的实现流程图。本发明中设计的自适应关键帧提取的具体实现方式如下：

S41，输入视频V，帧号总数为N，令计数值为n。

S42，迭代停止条件：n＞N，跳转到S225，否则继续S43。

S43，令y₀＝h+x·Δ(x＝1，2，3)，为时空字幕均值，取Δn＝9个采样单位，令n＝n+1，返回S42。

S44，遍历[n_min，n_max]，寻找满足条件的帧号n_k∈[n_min，n_max]，该过程可以表示为：

当n_k不存在时令SSPA_Ave(n_k)＝0，n_k+＝1，返回S42；当n_k存在时依采样单位记录SSPA_Ave(n_k)和n_k，令n_k+＝1，返回S42。

S45，按照帧号n_k构建关键帧集，算法终止。

其中，SSPA表示字幕累积值，SSPA_Ave表示自采样下的累积均值，表示第i帧视频帧在位置<j，y₀>处的像素值，且y₀是变量，j是单帧行像素位置。

实施例五：

基于上述实施例，本发明提供了一个优选实例执行S5，利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2，根据字幕帧存在阈值区间生成关键帧集合。

为了验证以上实施例的可行性，将本发明应用于实际，通过观测其在新建视频数据集上的关键帧结果来证明其可行性。该视频片段时长为15.9s，帧率为30fps/s，共计479帧，且通过人工观测计数可知，该视频选段包含6个关键帧。

所提方法的实验结果如图5所示，本发明能够有效提取学术视频的关键帧。通过对所提方法的分析可知，字幕像素累积曲线能够反映视频字幕的出现和消失，且视频中相同字幕在理想状态下可得到相同的字幕像素累积值，在CP曲线中表现为CPv持续为1的维稳区间段。从图5中的CP曲线中可以看出，该曲线存在6段CPv值为1的稳定区间段，即存在6条字幕。曲线分别在视频序列的第20帧、第112帧、第118帧、第220帧、第229帧、第310帧、第319帧、第379帧、第388帧、第421帧和第430帧处产生瞬间突变，即曲线的突变点位于这些位置点。故稳定状态关键帧分别为原视频帧的第46帧、第168帧、第268帧、第348帧、第405帧和第484帧，总计6帧，符合实验视频的基本信息，进一步验证了所提方法的可行性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种两阶段的学术视频关键帧提取方法，其特征在于，包括如下步骤：

Stage1模块，所述Stage1模块以场景文本图像数据集为数据来源扩充数据集，该阶段首次搭建以胶囊网络CapsNet为基础的学术视频字幕检测模型，并引入软池化、空洞卷积以及压缩激励模块来完成特征增强和特征筛选，使网络能够学习到更丰富的图像特征，以完成学术视频字幕的检测和定位；

Stage2模块，所述Stage2模块以Stage1的处理结果为输入，构建时空字幕自适应采样线，利用学术视频字幕边界坐标获取更多样的学术视频时空字幕采样，以得到更具代表性的字幕累积统计值；

S3，构建视频字幕检测模型进行字幕检测，包括：

将所述场景文本图像数据集，通过堆叠的空洞卷积层来进行特征增强，以得到卷积特征图；

将所述卷积特征图，通过压缩激励模块进行全局平均池化和全连接操作来完成特征筛选，以得到改善的特征表示；

将改善的特征表示，通过胶囊层和自适应矩估计下的路由算法来完成字幕检测，最后输出字幕区的8值坐标点；

S4，构建关键帧集提取算法，利用字幕边界坐标迭代进行学术视频自适应时空采样线的选取，并以此构建自适应时空累积，最后利用Flag双值标定完成学术视频的关键帧集提取；

S5，利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2，根据学术视频时空字幕像素累积值标定字幕帧阈值区间，进而获得关键帧集合。

2.根据权利要求1所述的两阶段的学术视频关键帧提取方法，其特征在于，完成所述视频帧分解，其中帧率固定比例是指在完成视频信息分析的基础上，选取帧率的三分之一为采样间隔，等间隔抽取视频帧以构成待处理的视频帧序列。