CN116543334A

CN116543334A - 关键帧抽取方法、装置、电子设备及存储介质

Info

Publication number: CN116543334A
Application number: CN202310505899.1A
Authority: CN
Inventors: 王晖; 石畏
Original assignee: SHANGHAI ZHUOYUE RUIXIN DIGITAL TECHNOLOGY CO LTD
Current assignee: SHANGHAI ZHUOYUE RUIXIN DIGITAL TECHNOLOGY CO LTD
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-04

Abstract

本发明涉及一种关键帧抽取方法、装置、电子设备及存储介质，该方法包括：获取视频帧图像，并计算相邻两帧图像的相似度；基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤；采用目标检测算法筛选出具有教学内容区域的视频帧；采用文字识别算法获取教学内容区域的文本内容；基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧。该方法对于关键帧的获取更准确，使得用户能够通过预览关键帧从而快速判断当前视频是否为自己真正需要的学习视频，有效缩短筛选视频所需的时间。

Description

关键帧抽取方法、装置、电子设备及存储介质

技术领域

本发明涉及视频图像处理技术领域，特别是涉及一种关键帧抽取方法、装置、电子设备及存储介质。

背景技术

随着互联网的快速发展，线上学习已经成为人们获取知识的重要途径。面对大量的公开课视频，用户可能需要重复点播与观看一些不是真正需要的视频。为了能够快速寻找出用户真正需要的视频资源以及快速预览视频内的关键内容，现有技术中采用视频关键帧抽取这一方法来进行实现。

针对视频关键帧抽取任务，现有的视频关键帧提取方法主要分为两种，一种是通过对比前后帧之间的差异，将前后差异较大的视频帧作为视频的关键帧，另一种是通过聚类算法对视频帧进行聚类，提取出距离各自的聚类中心最近的视频帧作为视频的关键帧。

现有的视频关键帧抽取方法应用在教育场景下的公开课视频中，会存在一些问题，如基于前后帧图像相似度的方法很难界定内容是否相似，导致抽取的关键帧会存在冗余和缺失，基于聚类的关键帧抽取方法则需要依靠人工选取簇类个数，且一旦初始簇类中心选择不当则不仅会加剧计算的复杂度，还会导致抽取的关键帧质量不高。

发明内容

基于此，有必要针对上述技术问题，提供一种关键帧抽取方法、装置、计算机设备及可读存储介质，对于关键帧的获取更准确，使得用户能够通过预览关键帧从而快速判断当前视频是否为自己真正需要的学习视频，有效缩短了筛选视频的时间。

第一方面，本发明提供了一种关键帧抽取方法，所述方法包括：

获取视频帧图像，并计算相邻两帧图像的相似度；

基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤；

采用目标检测算法筛选出具有教学内容区域的视频帧；

采用文字识别算法获取教学内容区域的文本内容；

基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧。

在其中一个实施例中，所述获取视频帧图像，并计算相邻两帧图像的相似度，包括：

基于固定秒数间隔获取视频帧图像；

基于相邻两帧图像的平均值、方差、协方差及像素值的差异计算相邻两帧图像的相似度。

在其中一个实施例中，所述计算相邻两帧图像的相似度，之后包括：

基于图像上半区域的相似度权重对视频帧图像相似度进行重新计算。

在其中一个实施例中，所述基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤，包括：

在设定时间间隔内根据相邻视频帧间隔距离大小采用不同的相似度阈值对重复视频帧进行过滤。

在其中一个实施例中，所述基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤，还包括：

在设定时间间隔外采用固定的相似度阈值对视频帧进行过滤。

在其中一个实施例中，所述基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧，包括：

若当前视频帧文本内容包含于前一视频帧文本内容，或相邻两视频帧文本内容重合度大于设定阈值，则将前一视频帧剔除；

若不存在前一视频帧或当前视频帧文本内容与前一视频帧文本内容重合度小于设定阈值，则将当前视频帧确定为关键帧。

第二方面，本发明还提供了一种关键帧抽取装置，所述装置包括：

获取模块，用于获取视频帧图像，并计算相邻两帧图像的相似度；

过滤模块，用于基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤；

筛选模块，用于采用目标检测算法筛选出具有教学内容区域的视频帧；

转换模块，用于采用文字识别算法获取教学内容区域的文本内容；

抽取模块，用于基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧。

第三方面，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的关键帧抽取方法。

第四方面，本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的关键帧抽取方法。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的关键帧抽取方法。

上述关键帧抽取方法、装置、电子设备及存储介质，首先根据视频获取多个视频帧，并根据视频帧图像的结构对相邻视频帧图像的相似度进行计算。由于采用固定阈值对相似帧进行判断会造成误判，因此采用相邻视频帧间隔距离来辅助相似度判断过程，并以此过滤掉相似帧。对于过滤后的视频帧则首先采用目标检测算法获取存在教学内容的视频帧，然后再采用文字识别算法对具有教学内容的视频帧内的文本内容进行获取，最后根据相邻视频帧的文本内容重合度对关键帧进行确定。该方法对于关键帧的获取更准确，使得用户能够通过预览关键帧从而快速判断当前视频是否为自己真正需要的学习视频，有效缩短筛选视频所需的时间。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的关键帧抽取方法流程图之一；

图2为本发明的关键帧抽取方法流程图之二；

图3为本发明的关键帧抽取方法流程图之三；

图4为本发明的关键帧抽取方法流程图之四；

图5为本发明的关键帧抽取装置模块图；

图6为一个实施例的计算机设备的内部结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的关键帧抽取方法方法、装置、电子设备及存储介质。

如图1所示，在一个实施例中，一种关键帧抽取方法，包括以下步骤：

步骤S110，获取视频帧图像，并计算相邻两帧图像的相似度。

具体的，首先对视频进行加载，然后对视频帧图像进行获取，最后对图像结构的相似度进行计算，由于获取到的视频帧图像包括多个，因此每两个相邻视频帧之间均具有一个相似度。

步骤S120，基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤。

具体的，采用固定阈值判断相邻帧是否为相似帧会造成一定误判，根据当前帧距离上一帧越近，则当前帧为关键帧的概率越低，反之距离越远，则当前帧为关键帧的概率越高，因此采用动态阈值的方式对视频帧进行过滤，其中，距离近设置较低的阈值，距离远设置较高的阈值。

步骤S130，采用目标检测算法筛选出具有教学内容区域的视频帧。

具体的，采用目标检测yolov5算法检测当前视频帧内是否存在教学内容的区域，若不存在教学内容，则直接判定当前帧为非关键帧。

步骤S140，采用文字识别算法获取教学内容区域的文本内容。

具体的，采用OCR(光学字符识别，Optical Character Recognition)识别算法提取教学内容区域的文本内容。

步骤S150，基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧。

具体的，文本内容基本代表着视频帧所包含的内容，因此若是需要对视频帧是否为关键帧进行判断，只需不断地判断相邻视频帧的文本内容重合度是否小于设定阈值，以此即可判断视频帧是否为关键帧。

上述关键帧抽取方法，首先根据视频获取多个视频帧，并根据视频帧图像的结构对相邻视频帧图像的相似度进行计算。由于采用固定阈值对相似帧进行判断会造成误判，因此采用相邻视频帧间隔距离来辅助相似度判断过程，并以此过滤掉相似帧。对于过滤后的视频帧则首先采用目标检测算法获取存在教学内容的视频帧，然后再采用文字识别算法对具有教学内容的视频帧内的文本内容进行获取，最后根据相邻视频帧的文本内容重合度对关键帧进行确定。该方法对于关键帧的获取更准确，使得用户能够通过预览关键帧从而快速判断当前视频是否为自己真正需要的学习视频，有效缩短筛选视频所需的时间。

如图2所示，在一个实施例中，获取视频帧图像，并计算相邻两帧图像的相似度，包括以下步骤：

步骤S111，基于固定秒数间隔获取视频帧图像。

具体的，由于视频内容相对较密集，错过某一个节点就可能导致重要信息丢失，因此需要对视频帧的获取间隔进行设置。此处优选为1秒。

步骤S112，基于相邻两帧图像的平均值、方差、协方差及像素值的差异计算相邻两帧图像的相似度。

具体的，相邻视频帧图像结构相似度的计算公式为：

其中，x，y为计算相似度的两幅图像，μ_x、μ_y分别是x、y的平均值，分别为x、y的方差，σ_xy是x和y的协方差。c1＝(k₁L)²和c2＝(k₂L)²是用来维持稳定的常数，L为像素值的动态范围，k₁＝0.01，k₂＝0.03。

在一个实施例中，计算相邻两帧图像的相似度，之后包括以下步骤：

具体的，根据公开课视频的特殊性，上半部分区域重合度高的情况下，基本为同一场景下的相邻时间段(如同PPT内容依次弹出的场景)，因此增加上半部分区域图像相似度的权重以及时刻t的视频帧图像与前一视频帧图像的相似度用于计算相邻视频帧图像的相似度，计算公式为：

S(t-1,t)＝SSIM(t-1,t)+αSSIM_half(t-1,t)

其中，SSIM_half(t-1,t)为t时刻与t-1时刻视频帧图像的上半部分区域的结构相似度，α为图像局部区域(上半部分)的权重值。

如图3所示，在一个实施例中，基于相邻两帧图像的相似度及间隔距离采用动态阈值对重复视频帧进行过滤，包括以下步骤：

步骤S121，在设定时间间隔内根据相邻视频帧间隔距离大小采用不同的相似度阈值对视频帧进行过滤。

具体的，相似度阈值的计算公式为：

其中，T_min为阈值的下限，T_max为阈值的上限，s为当前帧距离前一关键帧的时间距离，max_gap为最大时间间隔，超过这个时间间隔，则采用固定阈值。

步骤S122，在设定时间间隔外采用固定的相似度阈值对视频帧进行过滤。

如图4所示，在一个实施例中，基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧，包括以下步骤：

步骤S151，若当前视频帧文本内容包含于前一视频帧文本内容，或相邻两视频帧文本内容重合度大于设定阈值，则将前一视频帧剔除。

具体的，考虑到教学内容会出现依次弹出的情况、同一内容会变化背景以及视频会临时切换场景等这些情况，因此通过编辑距离算法去计算当前帧与前一帧的文本内容重合度，从而准确的确定关键帧。

步骤S152，若不存在前一视频帧或当前视频帧文本内容与前一视频帧文本内容重合度小于设定阈值，则将当前视频帧确定为关键帧。

上述关键帧抽取方法，通过一种局部加权图像结构相似度计算，可以更为有效的计算针对教学视频场景的视频帧之间的相似度，同时，通过动态阈值对相似帧进行筛选，可以有效过滤重复的视频帧，其次，通过对比相邻视频帧内容相似度，可以有效的过滤内容相似的视频帧，从而显著提高提取视频中的关键帧的准确度。该方法可以适用于教育场景下的教学视频的关键帧提取，通过预览提取的关键帧，可以快速的了解视频所讲解的主要内容；其次可以利用视频关键帧信息，将视频划分成几个部分，用户可以根据关键帧信息迅速跳转到感兴趣的部分观看，从而大大节约用户对于视频的筛选时间。

实施例：开始时对视频进行加载，然后采用固定间隔的方式获取视频帧，随后对相邻视频帧图像结构的相似度进行计算。由于采用固定阈值判断相邻帧是否为相似帧会造成一定误判，根据当前帧距离上一帧越近，则当前帧为关键帧的概率越低，反之距离越远，则当前帧为关键帧的概率越高，因此采用动态阈值的方式对视频帧进行过滤，如在设定时间间隔内根据相邻视频帧间隔距离大小采用不同的相似度阈值对视频帧进行过滤，在设定时间间隔外采用固定的相似度阈值对视频帧进行过滤。之后依次采用目标检测算法对具有教学内容的视频帧进行筛选，采用目标识别算法获取具有教学内容的视频帧的文本内容。最后根据相邻两帧图像的文本内容重合度采用距离算法确定关键帧。

下面对本发明提供的关键帧抽取方法装置进行描述，下文描述的关键帧抽取方法装置与上文描述的关键帧抽取方法方法可相互对应参照。

如图5所示，在一个实施例中，一种关键帧抽取方法装置，包括获取模块510、过滤模块520、筛选模块530、转换模块540和抽取模块550。

获取模块510，用于获取视频帧图像，并计算相邻两帧图像的相似度。

过滤模块520，用于基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤。

筛选模块530，用于采用目标检测算法筛选出具有教学内容区域的视频帧。

转换模块540，用于采用文字识别算法获取教学内容区域的文本内容。

抽取模块550，用于基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧。

在一个实施例中，获取模块510具体用于：

基于固定秒数间隔获取视频帧图像。

基于相邻两帧图像的平均值、方差、协方差及像素值的差异计算相邻两帧图像的相似度

在一个实施例中，关键帧抽取装置还包括计算模块，用于基于图像上半区域的相似度权重对视频帧图像相似度进行重新计算。

在一个实施例中，过滤模块520具体用于：

在一个实施例中，抽取模块550具体用于：

若当前视频帧文本内容包含于前一视频帧文本内容，或相邻两视频帧文本内容重合度大于设定阈值，则将前一视频帧剔除。

图6示例了一种电子设备的实体结构示意图，该电子设备可以是智能终端，其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现关键帧抽取方法，该方法包括：

获取视频帧图像，并计算相邻两帧图像的相似度。

基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤。

采用目标检测算法筛选出具有教学内容区域的视频帧。

采用文字识别算法获取教学内容区域的文本内容。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

另一方面，本发明还提供了一种计算机存储介质，存储有计算机程序，计算机程序被处理器执行时实现关键帧抽取方法，该方法包括：

获取视频帧图像，并计算相邻两帧图像的相似度。

采用目标检测算法筛选出具有教学内容区域的视频帧。

采用文字识别算法获取教学内容区域的文本内容。

又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令时实现关键帧抽取方法，该方法包括：

获取视频帧图像，并计算相邻两帧图像的相似度。

采用目标检测算法筛选出具有教学内容区域的视频帧。

采用文字识别算法获取教学内容区域的文本内容。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。

作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种关键帧抽取方法，其特征在于，所述方法包括：

获取视频帧图像，并计算相邻两帧图像的相似度；

采用目标检测算法筛选出具有教学内容区域的视频帧；

采用文字识别算法获取教学内容区域的文本内容；

2.根据权利要求1所述的关键帧抽取方法，其特征在于，所述获取视频帧图像，并计算相邻两帧图像的相似度，包括：

基于固定秒数间隔获取视频帧图像；

3.根据权利要求2所述的关键帧抽取方法，其特征在于，所述计算相邻两帧图像的相似度，之后包括：

4.根据权利要求3所述的关键帧抽取方法，其特征在于，所述基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤，包括：

5.根据权利要求4所述的关键帧抽取方法，其特征在于，所述基于相邻两帧图像的相似度及间隔距离采用动态阈值对视频帧进行过滤，还包括：

6.根据权利要求5所述的关键帧抽取方法，其特征在于，所述基于相邻两帧图像的文本内容重合度采用距离算法确定关键帧，包括：

7.一种关键帧抽取装置，其特征在于，所述装置包括：

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法的步骤。