CN112990191B

CN112990191B - 一种基于字幕视频的镜头边界检测与关键帧提取方法

Info

Publication number: CN112990191B
Application number: CN202110012840.XA
Authority: CN
Inventors: 熊荔; 王美涵; 白立飞; 刘灵芝
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-11-25
Anticipated expiration: 2041-01-06
Also published as: CN112990191A

Abstract

本公开提供一种基于字幕视频的镜头边界检测与关键帧提取方法，包括对视频流抽取视频帧序列，对其进行粗筛选，将粗筛选的每个帧图像分为上下两个区域；对每个帧图像的上区域提取图像特征，并计算相邻两帧之间的图像特征的余弦相似性，根据相似性确定表示场景内容变换的关键帧，得到第一目标关键视频帧序列；对每个帧图像的下区域提取文字区域，将存在文字区域的帧序列提取出来，并按照顺序排列，依次比较相邻帧文字区域的长度，如果长度变化相差预设数量的像素以上，则均判别为关键帧，获得第二目标关键视频帧序列；将两者进行整合，获得最终的目标关键视频帧序列。能够在消除冗余信息的同时极大利用文本信息达到更精确的效果。

Description

一种基于字幕视频的镜头边界检测与关键帧提取方法

技术领域

本公开属于图像及视频处理技术领域，具体涉及一种基于字幕视频的镜头边界检测与关键帧提取方法。

背景技术

近年来，视频内容分析是计算机视觉领域中一大热门研究内容，可应用在不同的场景，如安防、影视、情报等。在大数据时代，作为视频处理的关键技术，视频内容分析将是实现大数据在各个应用领域落地的重要基础建设，而镜头边界检测和关键帧提取是其中不可或缺的一部分。

新闻视频、影视视频以及纪实记录片多为配有字幕的视频，字幕作为解释和阐述视频内容的文本信息，包含了大量的有用信息，因此关键帧中必须包含这些重要的字幕信息。相较于无字幕的视频，字幕视频的视频序列变化主要包含如下特征：视频场景的变化与字幕变化不是同步的，即多个场景的变化可能伴随同一句字幕，而同一场景可能配有多句字幕。

目前镜头边界检测以及关键帧提取算法多是基于比较视频序列之间的帧特征差异来检测镜头变化，通过提取视频帧序列的特征，然后利用这些特征量建立评判准则并设定阈值，以此判断场景是否发生变化，从而实现镜头边界检测与关键帧提取。这些算法在无字幕的视频中已经能取得不错的效果，但是由于在字幕视频中，字幕通常在视频场景中占用的面积较小，字幕变化与场景变换往往不同步，仅仅依靠基于视频序列之间的特征差异，往往会漏检带有重要信息的字幕帧，而降低镜头分割的阈值则会增加关键帧提取的冗余。

发明内容

本公开旨在至少解决现有技术中存在的技术问题之一，提供一种基于字幕视频的镜头边界检测与关键帧提取方法。

本公开的一个方面，提供一种基于字幕视频的镜头边界检测与关键帧提取方法，所述方法包括以下步骤：

对视频流抽取视频帧序列，基于帧间差异特征对所述视频帧序列进行粗筛选，并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号；

将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域；

分别对每个所述帧图像的上区域，基于FPN网络提取图像特征，并计算相邻两帧图像之间的图像特征的余弦相似性，设定阈值，如果相似性值大于阈值，则将第二帧作为镜头边界，并标记为表示场景内容变换的关键帧，得到第一目标关键视频帧序列；

分别对每个所述帧图像的下区域，采用EAST算法检测并提取文字区域，将存在文字区域的帧序列提取出来，并将提取出来的视频帧序列按照顺序排列，依次比较相邻帧图像文字区域的长度，如果长度变化相差预设数量的像素以上，则均判别为关键帧；以及，对短文本帧再提取与长文本行所在帧同样位置的区域，计算两区域的相似性；若不相似则两帧都作为关键帧，若相似，则取前一帧为关键帧，获得第二目标关键视频帧序列；

将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合，获得最终的目标关键视频帧序列。

在一些可选地实施方式中，所述对视频流抽取视频帧序列，基于帧间差异特征对所述视频帧序列进行粗筛选，包括：

每隔预设时长从所述视频流中抽取一帧图像，获得所述视频帧序列；

计算所述视频帧序列中的相邻两帧图像的差值矩阵；

根据所述差值矩阵包括的非零像素值，计算判定阈值；

根据所述判定阈值，确定当前帧图像是否为粗筛选视频关键帧。

在一些可选地实施方式中，所述计算所述视频帧序列中的相邻两帧图像的差值矩阵，包括：

对抽取的帧图像进行灰度化处理，并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理；

按顺序对相邻帧图像进行灰度差值运算，即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减，得到当前帧图像对应的差值矩阵。

在一些可选地实施方式中，所述根据所述差值矩阵包括的非零像素值，计算判定阈值，包括：

计算所述差值矩阵包括的所有非零像素值的平均值及方差；

确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量，及像素值大于所述方差的非零像素值的第二数量；

根据所述第一数量和所述第二数量，通过如下公式(1)计算所述判定阈值：

T＝1.85×sd+mean (1)

其中，T为所述判定阈值，mean为所述第一数量，sd为所述第二数量。

在一些可选地实施方式中，所述根据所述判定阈值，确定当前帧图像是否为粗筛选视频关键帧，包括：

若非零像素值的数量大于判定阈值，则将当前帧图像确定为视频关键帧；否则，确定当前帧图像不是视频关键帧。

在一些可选地实施方式中，所述分别对每个所述帧图像的上区域，基于FPN网络提取图像特征，包括：

将所述帧图像尺寸缩小至224×224；

采用ResNet50为骨干网络，提取出五个卷积层的特征，分别标记为C_1，C_2，C_3，C_4，C_5，尺寸分别为64×56×56，256 ×56×56，512×28×28，1024×14×14，2048×7×7；

对C_1-C_5进行处理，输出四种特征图P_1，P_2，P_3，P_4，具体尺寸分别为：256×56×56，256×28×28，256×14×14，256 ×14×14；

将C_5降维到256，经过卷积3×3处理，输出得到P_4，将 P_4上采样后与降维处理过的C_4相加，再经过3×3卷积处理，得到P_3，依次类推，得到最终融合特征P_1。

在一些可选地实施方式中，所述计算相邻两帧图像之间的图像特征的余弦相似性，包括：

将所述相邻两帧图像的融合特征分别表示为X，Y，根据如下公式(2)计算所述余弦相似度：

在一些可选地实施方式中，所述将提取出来的视频帧序列按照顺序排列，依次比较相邻帧图像文字区域的长度，如果长度变化相差预设数量的像素以上，则均判别为关键帧，包括：

将提取出来的视频帧序列按照顺序排列，提取里面长度最长的文字区域；

依次比较相邻两帧图像的文本行长度，如果相差大于40像素，则均判别为关键帧。

本公开的另一个方面，提供一种电子设备，包括：

一个或多个处理器；

一个存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据前文记载的所述的方法。

本公开的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。

本公开的基于字幕视频的镜头边界检测与关键帧提取方法具有下述优点：

1)、现有关键帧提取技术都是基于视频帧场景目标变化来进行镜头分割和关键帧提取，并未考虑字幕在视频中的切换。本公开则通过将视频帧流进行分块处理，完善了关键帧中字幕信息的完整性。

2)、本公开通过两个深度神经网络模型分别提取视频场景特征和文字特征，提高了关键帧提取的正确性。

3)、本公开采用粗筛选和精细筛选的模式，降低处理复杂度。

附图说明

图1为本公开一实施例中电子设备的组成示意框图；

图2为本公开另一实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法的流程图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。

首先，参照图1来描述用于实现本公开实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法的示例电子设备。

如图1所示，电子设备100包括一个或多个处理器110、一个或多个存储装置120、一个或多个输入装置130、一个或多个输出装置140等，这些组件通过总线系统150和/或其他形式的连接机构互连。应当注意，图1所示的电子设备的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器110可以是中央处理单元(CPU)、或者可以是由多个处理核构成、或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备100中的其他组件以执行期望的功能。

存储装置120可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

输入装置130可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置140可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

下面，将参考图2描述根据本公开另一实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法。

如图2所示，一种基于字幕视频的镜头边界检测与关键帧提取方法S100，所述方法包括以下步骤：

S110、对视频流抽取视频帧序列，基于帧间差异特征对所述视频帧序列进行粗筛选，并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号。

具体地，在本步骤中，可以对视频流进行等间隔抽取得到视频帧序列，例如，可以每隔预设时长从视频数据中提取一帧图像，预设时长可设为1秒、5秒、10秒等。当然，除此以外，也可以对该视频流进行非等间隔抽取得到所述视频帧序列等等，本实施例对此并不限制。

S120、将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域。

具体地，在本步骤中，对每个帧图像形成的上下两个区域的面积大小并没有作出限定，例如，上下两个区域的面积比例可以为3：1，当然，本实施例并不以此为限，具体可以根据实际需要确定。

S130、分别对每个所述帧图像的上区域，基于FPN网络提取图像特征，并计算相邻两帧图像之间的图像特征的余弦相似性，设定阈值，如果相似性值大于阈值，则将第二帧作为镜头边界，并标记为表示场景内容变换的关键帧，得到第一目标关键视频帧序列。

S140、分别对每个所述帧图像的下区域，采用EAST算法检测并提取文字区域，将存在文字区域的帧序列提取出来，并将提取出来的视频帧序列按照顺序排列，依次比较相邻帧图像文字区域的长度，如果长度变化相差预设数量的像素以上，则均判别为关键帧；以及，对短文本帧再提取与长文本行所在帧同样位置的区域，计算两区域的相似性；若不相似则两帧都作为关键帧，若相似，则取前一帧为关键帧，获得第二目标关键视频帧序列。

S150、将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合，获得最终的目标关键视频帧序列。

具体地，在本步骤中，对上述步骤分别标记的场景关键帧和文字关键帧按照在原视频序列中的标号进行融合整理，输出最终的视频关键帧序列。

本公开实施例的基于字幕视频的镜头边界检测与关键帧提取方法具有下述优点：

1)、现有关键帧提取技术都是基于视频帧场景目标变化来进行镜头分割和关键帧提取，并未考虑字幕在视频中的切换。本公开实施例则通过将视频帧流进行分块处理，完善了关键帧中字幕信息的完整性。

2)、本公开实施例通过两个深度神经网络模型分别提取视频场景特征和文字特征，提高了关键帧提取的正确性。

3)、本公开实施例采用粗筛选和精细筛选的模式，降低处理复杂度。

每隔预设时长从所述视频流中抽取一帧图像，获得所述视频帧序列。预设时长可设为1秒、5秒、10秒等。

计算所述视频帧序列中的相邻两帧图像的差值矩阵。

具体地，在本步骤中，可以对抽取的帧图像进行灰度化处理，并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理。之后，按顺序对相邻帧图像进行灰度差值运算，即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减，得到当前帧图像对应的差值矩阵。

根据所述差值矩阵包括的非零像素值，计算判定阈值。

具体地，在本步骤中，计算所述差值矩阵包括的所有非零像素值的平均值及方差。确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量，及像素值大于所述方差的非零像素值的第二数量。根据所述第一数量和所述第二数量，通过如下公式(1)计算所述判定阈值：

T＝1.85×sd+mean (1)

具体地，在本步骤中，若非零像素值的数量大于判定阈值，则将当前帧图像确定为视频关键帧；否则，确定当前帧图像不是视频关键帧。

将所述帧图像尺寸缩小至224×224；

在一些可选地实施方式中，所述对短文本帧再提取与长文本行所在帧同样位置的区域，计算两区域的相似性；若不相似则两帧都作为关键帧，若相似，则取前一帧为关键帧，包括：

提取长文本帧图像的文本行区域，记录文本区域坐标。

根据上述获得的坐标提取短文本帧中的区域。

计算两个区域的特征，计算相似性，具体地，特征包含灰度均值、方差、信息熵等，根据公式(2)计算相似度。

设定阈值，大于阈值，则取前一帧为关键帧，小于阈值，两帧都作为关键帧。

本公开的另一个方面，提供一种电子设备，包括：

一个或多个处理器；

一个存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据前文记载的方法。

其中，计算机可读介质可以是本公开的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.一种基于字幕视频的镜头边界检测与关键帧提取方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述对视频流抽取视频帧序列，基于帧间差异特征对所述视频帧序列进行粗筛选，包括：

计算所述视频帧序列中的相邻两帧图像的差值矩阵；

根据所述差值矩阵包括的非零像素值，计算判定阈值；

3.根据权利要求2所述的方法，其特征在于，所述计算所述视频帧序列中的相邻两帧图像的差值矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述差值矩阵包括的非零像素值，计算判定阈值，包括：

计算所述差值矩阵包括的所有非零像素值的平均值及方差；

T＝1.85×sd+mean (1)

5.根据权利要求4所述的方法，其特征在于，所述根据所述判定阈值，确定当前帧图像是否为粗筛选视频关键帧，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述分别对每个所述帧图像的上区域，基于FPN网络提取图像特征，包括：

将所述帧图像尺寸缩小至224×224；

采用ResNet50为骨干网络，提取出五个卷积层的特征，分别标记为C_1，C_2，C_3，C_4，C_5，尺寸分别为64×56×56，256×56×56，512×28×28，1024×14×14，2048×7×7；

对C_1-C_5进行处理，输出四种特征图P_1，P_2，P_3，P_4，具体尺寸分别为：256×56×56，256×28×28，256×14×14，256×14×14；

将C_5降维到256，经过卷积3×3处理，输出得到P_4，将P_4上采样后与降维处理过的C_4相加，再经过3×3卷积处理，得到P_3，依次类推，得到最终融合特征P_1。

7.根据权利要求6所述的方法，其特征在于，所述计算相邻两帧图像之间的图像特征的余弦相似性，包括：

8.根据权利要求7所述的方法，其特征在于，所述将提取出来的视频帧序列按照顺序排列，依次比较相邻帧图像文字区域的长度，如果长度变化相差预设数量的像素以上，则均判别为关键帧，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时能实现根据权利要求1至8任一项所述的方法。