CN115278298A

CN115278298A - 一种视频的自动分段方法

Info

Publication number: CN115278298A
Application number: CN202210857544.4A
Authority: CN
Inventors: 汪于迪; 王霄麟
Original assignee: Beijing Karakal Technology Co ltd
Current assignee: Beijing Karakal Technology Co ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-01

Abstract

本发明提供一种视频的自动分段方法，涉及视频处理技术领域。本发明通过图像突变节点分段步骤和音频静音窗口分段步骤提取视频中的图像突变节点和静音窗口；根据视频的普遍特性，我们可以知道视频分段通常发生在图像突变和音频静音处，因此图像突变节点和静音窗口均是潜在的视频分段节点；当出现既是图像突变节点又在静音窗口内时，便可将其视为视频分段节点；该方法分段准确率高、处理量小，且对待分段视频无类别限制，全程可通过机器学习模型进行视频分段点自动判断，兼顾实用性和普适性。

Description

一种视频的自动分段方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频的自动分段方法。

背景技术

近年来，网络通讯以及数字多媒体等技术获得了高速发展，伴随而来的是网络多媒体数据量的爆炸式增长。多媒体信息中数字音视频具有表现力强、蕴涵信息量大、形象生动等优点，已经成为用户获取信息来源的第一选择。但是，音视频信息尤其是视频信息具有数据量巨大、数据格式非结构化、以及表现内容不透明等缺点，加大了对视频数据管理和分析(如视频数据的浏览、检索)的难度。面对日益膨胀的网络数据量，如何快速准确的管理和组织视频信息数据已经成为多媒体研究领域的一项重要的课题。为了便于管理和组织视频信息数据，可以对视频进行分段，按段进行标注、分类、存储。而视频分段的关键在于确定分段的节点。

现有的视频分段技术是根据预先定义的时间轴进行分段，但预定义时间轴实际上是通过人工浏览浏览视频并人工定义时间轴，这种方式需要人工参与效率不高并且容易出错。无法适应当前爆发式增长的网络视频数据。

此外，有人提出过基于特定类型视频的分段方法，基于特殊的视频节点来进行自动分段(例如新闻类视频，根据主持人出现的图像帧来进行分段)，虽然该方法可以实现自动分段，但只适用于有特定图像帧的视频。

因此，有必要提供一种能广泛运用到各类视频的视频自动分段方法来解决上述技术问题。

发明内容

为解决上述之一技术问题，本发明提供的一种视频的自动分段方法，通过图像突变节点分段步骤、音频静音窗口分段步骤和视频分段节点确定步骤对待分段视频进行处理，并得到若干分段子视频。

具体的，所述图像突变节点分段步骤：通过待分段视频中相邻的图像帧进行图像处理，并判断邻帧图像内容是否发生突变，若邻帧图像内容发生突变，则识别标记为图像突变节点；其中，对应子步骤包括获取待分段视频图像帧步骤、获取图像帧像素矩阵步骤、获取邻帧像素点灰度差步骤、获取邻帧像素差步骤和判断图像突变节点步骤。

具体的，所述音频静音窗口分段步骤：提取待分段视频中的音频数据，并通过音频窗口对音频数据进行采样，判断音频窗口是否为静音窗口；其中，对应子步骤包括获取音频滤波采样步骤、获取窗口平均能量步骤和判断静音窗口步骤。

具体的，所述视频分段节点确定步骤：提取图像突变节点和静音窗口，并将处在静音窗口内且为图像突变节点的部分作为视频分段节点，通过视频分段节点完成对待分段视频的分段，得到若干分段子视频。

作为更进一步的解决方案，所述获取待分段视频图像帧步骤通过如下步骤进行：

步骤A1：获取待分段视频数据；

步骤A2：对待分段视频数据进行分帧提取，得到对应图像帧；

步骤A3：逐一完成分帧提取，得到图像帧集合F(M,N)：

F(M,N)＝[F_n(M,N)，n＝1,2,3....X]

其中，M,N分别表示图像帧的纵向分辨率和横向分辨率，n表示图像帧的标号；X表示图像帧总数，F_n(M,N)表示第n号图像帧。

作为更进一步的解决方案，所述获取图像帧像素矩阵步骤通过如下步骤进行：

步骤B1：获取图像帧集合F(M,N)；

步骤B2：对图像帧集合F(M,N)进行逐帧提取；

步骤B3：获取当前图像帧中各像素点的灰度值；

步骤B4：建立图像帧像素矩阵

并将各像素点的灰度值填充值对应位置处：

其中，i表示像素点的纵向标号，且i∈[0,1，2，3，...，M-1]；j表示像素点的横向标号，且j∈[0,1，2，3，...，N-1]；n表示图像帧标号，f_n(i,j)表示第n号图像帧，横纵坐标号为i，j的像素点对应的灰度值；

步骤B5：逐帧进行图像帧像素矩阵建立，得到图像帧像素矩阵集合

其中，n表示图像帧的标号；X表示图像帧总数；

表示第n号图像帧对应的图像帧像素矩阵。

作为更进一步的解决方案，所述获取邻帧像素点灰度差步骤通过如下步骤进行：

步骤C1：获取图像帧像素矩阵集合

步骤C2：逐点计算图像帧像素矩阵

中各像素点的邻帧像素点灰度差d_n(i,j)：

d_n(i,j)＝|f_n+1(i,j)-f_n(i,j)

其中，i表示像素点的纵向标号；j表示像素点的横向标号；n表示当前图像帧标号，n+1表示相邻图像帧标号；f_n(i,j)表示第n号图像帧，横纵坐标号为i，j的像素点对应的灰度值；f_n+1(i,j)表示第n+1号图像帧，横纵坐标号为i，j的像素点对应的灰度值；

步骤C3：完成对图像帧像素矩阵

中各像素点的邻帧像素点灰度差d_n(i,j)的计算，得到对应的邻帧灰度差矩阵D_n(M,N)：

其中，i表示像素点的纵向标号，且i∈[0,1，2，3，...，M-1]；j表示像素点的横向标号，且j∈[0,1，2，3，...，N-1]；n表示图像帧标号，d_n(i,j)表示第n号图像帧，横纵坐标号为i，j的像素点对应的灰度差；

步骤C4：步骤C4：逐帧进行邻帧灰度差矩阵建立，得到邻帧灰度差矩阵集合D(M,N)：

D(M,N)＝[D_n(M,N),n＝1,2,3....X-1]

其中，n表示图像帧的标号；X-1表示邻帧组数；D(M,N)表示第n号图像帧对应的邻帧灰度差矩阵。

作为更进一步的解决方案，所述获取邻帧像素差步骤通过如下步骤进行：

步骤D1：获取邻帧灰度差矩阵集合D(M,N)；

步骤D2：对邻帧灰度差矩阵D_n(M,N)进行邻帧像素差计算，得到邻帧像素差G[D_n(M,N)]：

其中，M,N分别表示图像帧的纵向分辨率和横向分辨率，n表示图像帧的标号；

表示邻帧灰度差矩阵D_n(M,N)各元素求和值；

步骤D3：逐个进行邻帧像素差计算，得到邻帧像素差集合G[D(M,N)]；

G[D(M,N)]＝{G[D_n(M,N)],n＝1,2,3,....,X}

其中，n表示图像帧的标号；X表示图像帧总数；G[D_n(M,N)]表示第n号图像帧对应的邻帧像素差。

作为更进一步的解决方案，所述判断图像突变节点步骤通过如下步骤进行：

步骤E1：获取邻帧像素差集合G[D(M,N)]；

步骤E2：设置图像突变判断阈值ΔG；

步骤E3：逐一判断邻帧像素差G[D_n(M,N)]是否大于图像突变判断阈值ΔG，若出现邻帧像素差G[D_n(M,N)]大于图像突变判断阈值ΔG，则记录当前邻帧像素差G[D_n(M,N)]所对应的第n个图像帧，并识别标记为图像突变节点；否则不进行记录；

步骤E4：完成对邻帧像素差集合G[D(M,N)]中所有邻帧像素差G[D_n(M,N)]的图像突变判断；得到所有的图像突变节点。

作为更进一步的解决方案，所述获取音频滤波采样步骤通过对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换，并最终得到音频频谱。

作为更进一步的解决方案，所述获取窗口平均能量步骤通过如下步骤进行：

步骤F1：获取音频频谱；

步骤F2：设置音频窗口范围；

步骤F3：通过音频窗口截取音频频谱，得到音频采样信号；

步骤F4：计算窗口平均能量E_n：

其中，n为音频窗口的标号；N为被标号是n的音频窗口截取的音频采样信号的采样点总数；x(i)为被标号是n的音频窗口截取的音频采样信号；i表示采样点的标号；

步骤F5：完成所有窗口平均能量计算，得到窗口平均能量集合E：

E＝[E_n，n＝1，2，3....Y]

其中，n为音频窗口的标号；Y表示音频窗口的总数；E_n表示音频窗口标号为n的窗口平均能量。

作为更进一步的解决方案，所述判断静音窗口步骤通过如下步骤进行：

步骤G1：获取窗口平均能量集合E；

步骤G2：设置静音窗口判断阈值ΔE；

步骤G3：逐一判断窗口平均能量E_n是否小于静音窗口判断阈值ΔE；若出现窗口平均能量E_n小于静音窗口判断阈值ΔE，则记录当前音频窗口，并识别标记为静音窗口；否则不进行记录；

步骤G4：完成对窗口平均能量集合E中所有窗口平均能量E_n的静音窗口判断；得到所有的静音窗口。

作为更进一步的解决方案，还建立视频分段点自动判断模型，所述视频分段点自动判断模型通过机器学习模型进行部署，将邻帧像素差G[D_n(M,N)]、窗口平均能量E_n、图像突变判断阈值ΔG和静音窗口判断阈值ΔE作为训练集和验证集；将已分段视频视频分段节点处的邻帧像素差G[D_n(M,N)]和窗口平均能量E_n作为历史数据；通过训练集、验证集和历史数据对机器学习模型进行训练，得到视频分段点自动判断模型。

与相关技术相比较，本发明提供的一种视频的自动分段方法具有如下有益效果：

本发明通过图像突变节点分段步骤和音频静音窗口分段步骤提取视频中的图像突变节点和静音窗口；根据视频的普遍特性，我们可以知道视频分段通常发生在图像突变和音频静音处，因此图像突变节点和静音窗口均是潜在的视频分段节点；当出现既是图像突变节点又在静音窗口内时，便可将其视为视频分段节点；该方法分段准确率高、处理量小，且对待分段视频无类别限制，全程可通过机器学习模型进行视频分段点自动判断，兼顾实用性和普适性。

附图说明

图1为本发明实施例提供的一种视频的自动分段方法的较佳流程示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1所示，本实施例提供的一种视频的自动分段方法，通过图像突变节点分段步骤、音频静音窗口分段步骤和视频分段节点确定步骤对待分段视频进行处理，并得到若干分段子视频。

需要说明的是：本实施例通过图像突变节点分段步骤和音频静音窗口分段步骤提取视频中的图像突变节点和静音窗口；根据视频的普遍特性，我们可以知道视频分段通常发生在图像突变和音频静音处，因此图像突变节点和静音窗口均是潜在的视频分段节点；当出现既是图像突变节点又在静音窗口内时，便可将其视为视频分段节点；该方法分段准确率高、处理量小，且对待分段视频无类别限制，全程可通过机器学习模型进行视频分段点自动判断，兼顾实用性和普适性。

步骤A1：获取待分段视频数据；

步骤A3：逐一完成分帧提取，得到图像帧集合F(M,N)：

F(M,N)＝[F_n(M,N)，n＝1,2,3....X]

需要说明的是：视频是由一系列的帧图像所组成的一种非结构化的流数据，图像帧是视频的最小组成单位。由一系列逻辑相关、时间连续的帧图像组成，描述一个连续动作的视频分块称为视频镜头，视频由一个个镜头衔接而成。获取视频的图像帧就是获取视频的最小组成单位。

步骤B1：获取图像帧集合F(M,N)；

步骤B2：对图像帧集合F(M,N)进行逐帧提取；

步骤B3：获取当前图像帧中各像素点的灰度值；

步骤B4：建立图像帧像素矩阵

并将各像素点的灰度值填充值对应位置处：

其中，n表示图像帧的标号；X表示图像帧总数；

表示第n号图像帧对应的图像帧像素矩阵。

步骤C1：获取图像帧像素矩阵集合

步骤C2：逐点计算图像帧像素矩阵

中各像素点的邻帧像素点灰度差d_n(i,j)：

d_n(i,j)＝|f_n+1(i,j)-f_n(i,j)

步骤C3：完成对图像帧像素矩阵

D(M,N)＝[D_n(M,N),n＝1,2,3....X-1]

步骤D1：获取邻帧灰度差矩阵集合D(M,N)；

表示邻帧灰度差矩阵D_n(M,N)各元素求和值；

G[D(M,N)]＝{G[D_n(M,N)],n＝1,2,3,....,X}

步骤E1：获取邻帧像素差集合G[D(M,N)]；

步骤E2：设置图像突变判断阈值ΔG；

需要说明的是：当邻帧像素差大于阈值时，认为图像发生了突变。在两个视频镜头的边界，通常相邻的帧图像内容会发生突变。因此，这种图像发生了突变的点，我们认为可以作为可能的视频分段点。

步骤F1：获取音频频谱；

步骤F2：设置音频窗口范围；

步骤F3：通过音频窗口截取音频频谱，得到音频采样信号；

步骤F4：计算窗口平均能量E_n：

E＝[E_n，n＝1，2，3....Y]

步骤G1：获取窗口平均能量集合E；

步骤G2：设置静音窗口判断阈值ΔE；

需要说明的是:当窗口平均能量小于阈值时，认为该窗口为静音窗口。静音窗口通常出现于不同视频片段的衔接和切换处，所以这种静音窗口能够很好的定位每个视频片段的起始点。因此，这种静音窗口，我们认为可以作为可能的视频分段点。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频的自动分段方法，其特征在于，通过图像突变节点分段步骤、音频静音窗口分段步骤和视频分段节点确定步骤对待分段视频进行处理，并得到若干分段子视频；

所述图像突变节点分段步骤：通过待分段视频中相邻的图像帧进行图像处理，并判断邻帧图像内容是否发生突变，若邻帧图像内容发生突变，则识别标记为图像突变节点；其中，对应子步骤包括获取待分段视频图像帧步骤、获取图像帧像素矩阵步骤、获取邻帧像素点灰度差步骤、获取邻帧像素差步骤和判断图像突变节点步骤；

所述音频静音窗口分段步骤：提取待分段视频中的音频数据，并通过音频窗口对音频数据进行采样，判断音频窗口是否为静音窗口；其中，对应子步骤包括获取音频滤波采样步骤、获取窗口平均能量步骤和判断静音窗口步骤；

所述视频分段节点确定步骤：提取图像突变节点和静音窗口，并将处在静音窗口内且为图像突变节点的部分作为视频分段节点，通过视频分段节点完成对待分段视频的分段，得到若干分段子视频。

2.根据权利要求1所述的一种视频的自动分段方法，其特征在于，所述获取待分段视频图像帧步骤通过如下步骤进行：

步骤A1：获取待分段视频数据；

步骤A3：逐一完成分帧提取，得到图像帧集合F(M,N)：

F(M,N)＝[F_n(M,N)，n＝1,2,3....X]

3.根据权利要求2所述的一种视频的自动分段方法，其特征在于，所述获取图像帧像素矩阵步骤通过如下步骤进行：

步骤B1：获取图像帧集合F(M,N)；

步骤B2：对图像帧集合F(M,N)进行逐帧提取；

步骤B3：获取当前图像帧中各像素点的灰度值；

步骤B4：建立图像帧像素矩阵

并将各像素点的灰度值填充值对应位置处：

其中，n表示图像帧的标号；X表示图像帧总数；

表示第n号图像帧对应的图像帧像素矩阵。

4.根据权利要求3所述的一种视频的自动分段方法，其特征在于，所述获取邻帧像素点灰度差步骤通过如下步骤进行：

步骤C1：获取图像帧像素矩阵集合

步骤C2：逐点计算图像帧像素矩阵

中各像素点的邻帧像素点灰度差d_n(i,j)：

d_n(i,j)＝|f_n+1(i,j)-f_n(i,j)|

步骤C3：完成对图像帧像素矩阵

步骤C4：逐帧进行邻帧灰度差矩阵建立，得到邻帧灰度差矩阵集合D(M,N)：

D(M,N)＝[D_n(M,N),n＝1,2,3....X-1]

5.根据权利要求4所述的一种视频的自动分段方法，其特征在于，所述获取邻帧像素差步骤通过如下步骤进行：

步骤D1：获取邻帧灰度差矩阵集合D(M,N)；

表示邻帧灰度差矩阵D_n(M,N)各元素求和值；

G[D(M,N)]＝{G[D_n(M,N)],n＝1,2,3,....,X}

6.根据权利要求5所述的一种视频的自动分段方法，其特征在于，所述判断图像突变节点步骤通过如下步骤进行：

步骤E1：获取邻帧像素差集合G[D(M,N)]；

步骤E2：设置图像突变判断阈值ΔG；

7.根据权利要求1所述的一种视频的自动分段方法，其特征在于，所述获取音频滤波采样步骤通过对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换，并最终得到音频频谱。

8.根据权利要求7所述的一种视频的自动分段方法，其特征在于，所述获取窗口平均能量步骤通过如下步骤进行：

步骤F1：获取音频频谱；

步骤F2：设置音频窗口范围；

步骤F3：通过音频窗口截取音频频谱，得到音频采样信号；

步骤F4：计算窗口平均能量E_n：

E＝[E_n，n＝1，2，3....Y]

9.根据权利要求8所述的一种视频的自动分段方法，其特征在于，所述判断静音窗口步骤通过如下步骤进行：

步骤G1：获取窗口平均能量集合E；

步骤G2：设置静音窗口判断阈值ΔE；

10.根据权利要求1至权利要求9任一项所述的一种视频的自动分段方法，其特征在于，还建立视频分段点自动判断模型，所述视频分段点自动判断模型通过机器学习模型进行部署，将邻帧像素差G[D_n(M,N)]、窗口平均能量E_n、图像突变判断阈值ΔG和静音窗口判断阈值ΔE作为训练集和验证集；将已分段视频视频分段节点处的邻帧像素差G[D_n(M,N)]和窗口平均能量E_n作为历史数据；通过训练集、验证集和历史数据对机器学习模型进行训练，得到视频分段点自动判断模型。