CN113963305B

CN113963305B - 一种视频关键帧和特写片段提取方法

Info

Publication number: CN113963305B
Application number: CN202111568084.5A
Authority: CN
Inventors: 王欢; 曾波; 张立雄; 黎致斌; 卢丽君
Original assignee: Networks Technology Co ltd
Current assignee: Networks Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-11
Anticipated expiration: 2041-12-21
Also published as: CN113963305A

Abstract

本发明提供了一种视频关键帧和特写片段提取方法，包括S1，从视频源获取视频帧；S2，将视频帧输入到缓存区进行缓存；S3，将缓存区的第一帧视频帧和最后一帧视频帧分别进行灰度化处理；S4，分别对第一灰度图像和第二灰度图像进行边缘区域获取和主体区域获取；S5，计算第一相似度，计算第二相似度；S6，根据第一相似度和第二相似度判断缓存区中缓存的所有视频帧是否组成特写片段；S7，判断特写片段是否为大面积空白的视频片段；S8，将最后一帧视频帧作为关键帧，将缓存区中的所有视频帧组成的视频片段作为特写片段进行输出。本发明所需要的计算资源少，算法开发成本低，运算量小，同时也考虑了视频源的属性。

Description

一种视频关键帧和特写片段提取方法

技术领域

本发明涉及视频处理领域，尤其涉及一种视频关键帧和特写片段提取方法。

背景技术

在视频用户生成内容（UGC-User Generated Content）领域，有效的视频内容包含在大量无效的视频里面。与固定目的的视频素材相比，用户生成内容普遍包含不同场景的视频图像。视频关键帧和片段提取的目的在于降低图像处理的工作量、图像模型识别的运算资源和缩短结果输出时间。

当前行业在视频提取关键帧和场景的方法：1）只针对特定类型的物体和场景。比如，人群、铁塔。这时，直接调用AI分类模型能够以图像识别结果获得关键帧；2）以图像整体进行关键帧的判断，通过一定间隔的图像相似度判断图像是否属于关键帧。

当前视频提取关键帧和片段的不足：1）AI分类、推理模型过早介入视频处理。对于有多种场景（比如室内设备、室外建筑物）的视频图像，AI模型推算带来不必要的计算资源消耗和提取算法开发的成本；2）基于整体图像的相似度分析，判断具有运动主体的视频片段的准确度不高；并且，运算量较大；3）对视频的属性未有足够关注。比如，通常30帧/秒视频拍摄情况下，0.2秒（6帧）间隔判断为镜头特写；而在120帧/秒拍摄情况下，0.05秒(6帧)间隔也能够判断为镜头特写。

发明内容

本发明的目的在于公开了一种视频关键帧和特写片段提取方法，解决当前视频关键帧提取中出现AI模型推算带来不必要的计算资源消耗和提取算法开发的成本、基于整体图像的相似度分析运算量较大、未对拍摄条件进行考虑的技术问题。

为达到上述目的，本发明采用如下技术方案：

一种视频关键帧和特写片段提取方法，包括：

S1，从视频源获取视频帧；

S2，将视频帧输入到缓存区进行缓存，直到填满缓存区；

S3，将缓存区的第一帧视频帧和最后一帧视频帧分别进行灰度化处理，获得第一灰度图像和第二灰度图像；

S4，分别对第一灰度图像和第二灰度图像进行边缘区域获取，得到第一边缘区域图像和第二边缘区域图像；

分别对第一灰度图像和第二灰度图像进行主体区域获取，得到第一主体区域图像和第二主体区域图像；

S5，计算第一边缘区域图像和第二边缘区域图像之间的第一相似度，计算第一主体区域图像和第二主体区域图像之间的第二相似度；

S6，根据第一相似度和第二相似度判断缓存区中缓存的所有视频帧是否组成特写片段，若是，则进入S7，若否，则进入S1；

S7，判断特写片段是否为大面积空白的视频片段，若是，则进入S1，若否，则进入S8；

S8，将最后一帧视频帧作为关键帧，将缓存区中的所有视频帧组成的视频片段作为特写片段进行输出。

优选地，所述视频源包括视频文件或视频流。

优选地，所述缓存区的大小通过如下公式进行计算：

式中，

表示缓存区的大小，

表示视频帧的像素点的行数和列数的乘积，

表示视频源的帧率，

表示预设的时间长度。

优选地，所述S4包括：

对于第一灰度图像，以其左下角为坐标原点建立直角坐标系

；

将直角坐标系

中，将第一灰度图像中横坐标属于

和

的区域的像素点作为第一边缘区域图像中的像素点，width表示视频帧的像素点的列数；

获取第一灰度图像的中央像素点的坐标：

，long表示视频帧的像素点的行数；

将第一灰度图像中横坐标属于

且纵坐标属于

区间内的像素点作为第一主体区域图像中的像素点；L表示预设的主体区域图像的像素点的行数；

对于第二灰度图像，以其左下角为坐标原点建立直角坐标系

；

在直角坐标系

中，将第二灰度图像中横坐标属于

和

的区域的像素点作为第二边缘区域图像中的像素点，

将横坐标属于

且纵坐标属于

区间内的像素点作为第二主体区域图像中的像素点。

优选地，所述S5包括：

采用SSIM算法对第一边缘区域图像和第二边缘区域图像进行计算，获得第一相似度；

采用SSIM算法对第一主体区域图像和第二主体区域图像进行计算，获得第二相似度。

优选地，所述S6包括：

若第一相似度大于thre或第二相似度大于thre，则表示缓存区中缓存的所有视频帧组成特写片段，thre表示相似度阈值。

优选地，所述S7包括：

计算第二主体区域图像中的像素点的像素值的方差，若所述方差小于预设的方差阈值，则表示所述特写片段为大面积空白的视频片段。

本发明不是通过建立AI分类模型来获取关键帧，而是通过对边缘区域和主体区域的相似性来获取关键帧，同时还根据视频源的帧率和尺寸来获取缓存区的大小。使得本发明所需要的计算资源少，算法开发成本低，运算量小，同时也考虑了视频源的属性。使得获取的关键帧更为准确。关键帧的出现时间间隔多样，本发明的输出结果优于以固定时间间隔的关键帧提取。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1，为本发明一种视频关键帧和特写片段提取方法的一种示例性实施例图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示的一种实施例，本发明提供了一种视频关键帧和特写片段提取方法，包括：

S1，从视频源获取视频帧；

S2，将视频帧输入到缓存区进行缓存，直到填满缓存区；

优选地，所述视频源包括视频文件或视频流。

具体的，视频文件包括手机、执法仪、无人机等设备中存储的文件，视频流通过流媒体协议（rtsp、sip、rtmp、rtp等）获取。

优选地，所述S8还包括把出现在特写片段开始时间前5秒到特写片段结束时间后5秒的视频片段单独保存以方便后续的视频处理；把其中3张视频图像单独保存作为后续图文报告、AI图像识别的用途。

优选地，所述缓存区的大小通过如下公式进行计算：

式中，

表示缓存区的大小，

表示视频帧的像素点的行数和列数的乘积，

表示视频源的帧率，

表示预设的时间长度。

在一种实施方式中，

的值为0.3S。

优选地，所述S4包括：

对于第一灰度图像，以其左下角为坐标原点建立直角坐标系

；

将直角坐标系

中，将第一灰度图像中横坐标属于

和

的区域的像素点作为第一边缘区域图像中的像素点，

表示视频帧的像素点的列数；

获取第一灰度图像的中央像素点的坐标：

，

表示视频帧的像素点的行数；

将第一灰度图像中横坐标属于

且纵坐标属于

对于第二灰度图像，以其左下角为坐标原点建立直角坐标系

；

在直角坐标系

中，将第二灰度图像中横坐标属于

和

的区域的像素点作为第二边缘区域图像中的像素点，

将横坐标属于

且纵坐标属于

区间内的像素点作为第二主体区域图像中的像素点。

在一种实施方式中，L的值为200。

优选地，所述S5包括：

具体的，除了SSIM算法之外，还可以是其它计算两幅图像之间的相似度的算法，这里不再赘述。

在一种实施方式中，所述采用SSIM算法对第一边缘区域图像和第二边缘区域图像进行计算，获得第一相似度，包括：

分别对第一边缘区域图像和第二边缘区域图像进行区域突出点处理，获得第一处理图像和第二处理图像；

使用SSIM算法对第一处理图像和第二处理图像进行计算，获得第一相似度。

区域突出点指的是图像中像素值突变的像素点，这些像素点的像素值由于光线或抖动或干扰等原因，像素值跟真实的像素值相差比较大，因此，需要先对区域突出点进行处理后再计算相似度，避免计算得到的相似度不准确。

在一种实施方式中，所述采用SSIM算法第一主体区域图像和第二主体区域图像进行计算，获得第一相似度，包括：

分别对第一主体区域图像和第二主体区域图像进行区域突出点处理，获得第三处理图像和第四处理图像；

使用SSIM算法对第三处理图像和第四处理图像进行计算，获得第二相似度。

在一种实施方式中，对第一边缘区域图像进行区域突出点处理，包括：

对第一边缘区域图像进行区域突出点检测，获取第一边缘区域中的区域突出点的集合U；

采用预设的区域突出点处理算法分别对集合U中的区域突出点进行处理，获得第一处理图像。

在一种实施方式中，采用如下公式对第一边缘区域图像进行区域突出点检测：

对于当前进行区域突出点检测的像素点aim,使用如下公式对aim进行一次检测：

若aim满足上述公式，则对aim进行二次检测；

若aim满足二次检测公式，则aim属于区域突出点，

其中，neu表示坐标为

的像素点的集合，K表示预设的常数系数，

表示像素点aim的坐标，

和

分别表示像素点aim和集合neu中的像素点i的像素值，

表示长度控制系数，

表示像素点aim和i之间的连线的长度，

表示neu内的像素点的像素值的中值，

和

分别表示neiu内的像素点的像素值的最大值和最小值；

表示预测的一次检测阈值；min表示取最小值，totm表示获取中括号内判断条件的像素点的总数，

和

分别表示像素点aim的横向梯度幅值和纵向直梯度幅值，

和

分别表示像素点i的横向梯度幅值和纵向直梯度幅值；

表示预设的梯度幅值阈值，

表示预设的二次检测阈值。

在上述实施方式中，本发明先通过对aim和neu中的像素点在像素值和距离这两方面对aim是否属于区域突出点进行一次检测，然后再将满足一次检测条件的像素点进行二次检测，这种设置方式，一次检测仅对部分相关参数进行检测，如果不符合一次检测要求，则直接切换进行区域突出点检测的像素点，有效地提高了检测的效率。而二次检测则是从梯度幅值这个方面来进行检测，一般而言，区域突出点的梯度幅值会比较大，因此，本发明能够在一次检测的基础上对像素点进行二次检测，有利于提高检测结果的准确性。

在一种实施方式中，采用预设的区域突出点处理算法分别对区域突出点进行处理，包括：

分别采用预设的第一突出点处理算法和第一突出点处理算法对区域突出点进行处理，获得第一像素值和第二像素值；

分别计算第一像素值和第二像素值的平滑系数，根据平滑系数确定区域突出点最终的像素值。

由于区域突出点的周围的像素点的像素值的分布条件一般不同，若单一地采用同一种处理算法进行处理，并不能很好地适应不同的像素值的分布条件，因此，本发明先分别使用两种处理算法获得处理结果，然后将处理结果与周围像素点的像素值之间差异较小者作为最终的处理结果。

在一种实施方式中，所述第一突出点处理算法包括：

对于区域突出点b，采用如下公式对其进行处理：

其中，neb表示区域突出点b的

大小的邻域中的像素点的集合，

表示像素点j的像素值，mid表示取中间值，

表示进行处理后得到的第一像素值。

在上述实施例中，第一突出点处理公式在像素值分布条件为区域突出点的像素值远远大于neb中的像素点的像素值的这种像素值分布条件下获得准确的处理结果。

在一种实施方式中，所述第二突出点处理算法包括：

对于区域突出点b，采用如下公式对其进行处理：

若

，则采用如下函数对b进行处理：

若

，则采用如下函数对b进行处理：

其中，

表示区域突出点处理前的像素值，

表示第二像素值，neb表示b的

大小的邻域中的像素点的集合，

表示neb中的像素点的像素值方差，thkz表示预设的方差阈值，

和

表示预设的权重系数，

表示neb中的像素点的像素值的平均值，

表示neb中的像素点k的像素值，

和

分别表示第一计算系数和第二计算系数，

表示b和k之间的距离，

，

表示neb中包含的元素的数量，

。

在上述实施例中，第二突出点处理算法主要是用来处理像素点的分布条件为区域突出点的像素值与大于neb中的像素点的像素值相差比较大的这种情况下的区域突出点。在处理时，使用了方差阈值类进一步为区域突出点选择不同的函数来进行处理，有利于提高处理结果的准确性。在计算的过程中，通过考虑neb中的像素点与b在像素点和距离之间差别程度来为neb中不同的像素点设置了不同的计算系数，差别程度越小，则计算系数越大，通过计算系数来对neb中的像素点的像素值进行融合，从而获得准确的区域突出点处理结果。

在一种实施方式中，分别计算第一像素值和第二像素值的平滑系数，根据平滑系数确定区域突出点最终的像素值，包括：

分别将第一像素值和第二像素值作为对区域突出点进行区域突出点处理后的像素值，计算区域突出点与其8邻域中的像素点之间的标准差；

若第一像素值对应的标准差小于等于第二像素值对应的标准差，则将第一像素值作为区域突出点最终的像素值；

否则，将第二像素值作为区域突出点最终的像素值。

获取第二处理图像、第三处理图像、第四处理图像的方式与获取第一处理图像的方式一致，只是处理的图像不同，这里不再赘述。

优选地，所述S6包括：

在一种实施方式中，thre的值为0.8。

优选地，所述S7包括：

在另一种实施方式中，所述S7包括：

获取最后一帧图像帧的中央区域50x200像素，以此区域随机一点作颜色填充计算；如果满足填充的像素的数量占总像素的比例超过80%，可以判断中央区域为同一颜色的图像，则表示所述特写片段为大面积空白的视频片段。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

需要说明的是，在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模

块中，也可以是各个单元/模块单独物理存在，也可以是两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件功能单元/模块的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解应当理解，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。

实现时，可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于 RAM、ROM、EEPROM、CD-ROM 或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

Claims

1.一种视频关键帧和特写片段提取方法，其特征在于，包括：

S1，从视频源获取视频帧；

S2，将视频帧输入到缓存区进行缓存，直到填满缓存区；

S8，将最后一帧视频帧作为关键帧，将缓存区中的所有视频帧组成的视频片段作为特写片段进行输出；

所述S5包括：

采用SSIM算法对第一主体区域图像和第二主体区域图像进行计算，获得第二相似度；

所述采用SSIM算法对第一边缘区域图像和第二边缘区域图像进行计算，获得第一相似度，包括：

使用SSIM算法对第一处理图像和第二处理图像进行计算，获得第一相似度；

对第一边缘区域图像进行区域突出点处理，包括：

采用预设的区域突出点处理算法分别对集合U中的区域突出点进行处理，获得第一处理图像；

采用如下公式对第一边缘区域图像进行区域突出点检测：

若aim满足上述公式，则对aim进行二次检测；

若aim满足二次检测公式，则aim属于区域突出点，

其中，neu表示坐标为[x_aim±K,y_aim±K]的像素点的集合，K表示预设的常数系数，[x_aim,y_aim]表示像素点aim的坐标，G_aim和G_i分别表示像素点aim和集合neu中的像素点i的像素值，δ表示长度控制系数，long(aim,i)表示像素点aim和i之间的连线的长度，G_v表示neu内的像素点的像素值的中值，Gma和Gim分别表示neu 内的像素点的像素值的最大值和最小值；sre表示预测的一次检测阈值；min表示取最小值，totm表示获取中括号内判断条件的像素点的总数，gradx_aim和grady_aim分别表示像素点aim的横向梯度幅值和纵向直梯度幅值，gradx_i和grady_i分别表示像素点i的横向梯度幅值和纵向直梯度幅值；totmthr表示预设的梯度幅值阈值，numthre表示预设的二次检测阈值。

2.根据权利要求1的一种视频关键帧和特写片段提取方法，其特征在于，所述视频源包括视频文件或视频流。

3.根据权利要求1的一种视频关键帧和特写片段提取方法，其特征在于，所述缓存区的大小通过如下公式进行计算：

bufsize＝imgsize×fps×vidtime

式中，bufsize表示缓存区的大小，imgsize表示视频帧的像素点的行数和列数的乘积，fps表示视频源的帧率，vidtime表示预设的时间长度。

4.根据权利要求1的一种视频关键帧和特写片段提取方法，其特征在于，所述S4包括：

对于第一灰度图像，以其左下角为坐标原点建立直角坐标系XY₁；

将直角坐标系XY₁中，将第一灰度图像中横坐标属于[1,0.1width]和[0.9width,width]的区域的像素点作为第一边缘区域图像中的像素点，width表示视频帧的像素点的列数；

获取第一灰度图像的中央像素点的坐标：