CN111428590B

CN111428590B - 一种视频聚类切分方法和系统

Info

Publication number: CN111428590B
Application number: CN202010165676.1A
Authority: CN
Inventors: 李琎; 侯文超; 陈凌云; 柴中进
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-05-09
Anticipated expiration: 2040-03-11
Also published as: CN111428590A

Abstract

本发明提供了一种视频聚类切分方法和系统，方法包括如下步骤：切分视频，以获取视频粗镜头集；计算粗镜头关键帧的特征向量，根据特征向量计算粗镜头中关键帧之间的相似度信息；根据相似度信息将粗镜头进行聚类，并计算粗镜头的密度值和不同聚类的距离值；设定一密度阈值和距离阈值，根据所述密度阈值和距离阈值筛选粗镜头，并赋予聚类标签；将同一聚类标签并时间相邻的粗镜头合并，并切分对应的边缘帧；本发明通过对视频粗切分，采用聚类筛选的方式对切分后的粗镜头进一步加工，从而获取更适合人眼观测的镜头。

Description

一种视频聚类切分方法和系统

技术领域

本发明涉及一种视频聚类切分方法和系统，特别涉及一种视频聚类切分方法和系统。

技术背景

目前传统的视频镜头的切分技术方法基本上是基于帧数间差来进行，相邻两帧画面之间存在一定的差异，该差异可通过对视频画面建立向量矩阵，通过直方图差异或计算向量矩阵之间的距离来判断相邻两帧画面之间的差异，通过设定差异阈值，当相邻两帧画面之间的差异大于设定的阈值时，可以判定视频画面为不同镜头，并使用相应的算法或软件对不同镜头进行切分，但单纯通过建立向量矩阵来或根据图像直方图信息对画面进行切分的结果很碎，镜头的完整性较差，切分后的视频粒度不适合人理解。

发明内容

本发明主要目的在于提供一种视频聚类切分方法和系统，所述视频聚类切分方法包括获取视频中每一帧图像的直方图信息，根据相邻两帧之间的直方图差异值对视频进行切分，以获取切分的粗镜头，采用深度神经卷积网对视频进行特征提取，计算每一粗镜头的相似度，并根据视频的聚类度对视频进行聚类合成，从而在切分视频的同时使得视频具有较好的粒度，便于观察者理解。

本发明另一目的在于提供一种视频聚类切分方法和系统，所述视频聚类切分方法和系统将粗镜头根据时间戳和相似度信息进行聚类，并对聚类进行标签化处理，将相同时间戳上相同的粗镜头进行合成，通过该方法可使得镜头分段具有合适的粒度，并且便于将镜头分类汇总。

本发明另一目的在于提供一种视频聚类切分方法和系统，所述视频聚类切分方法包括计算每一粗镜头的切分密度，将粗镜头密度从大到小进行排序，对密度大的粗镜头进行聚类并标记标签，以获取和内容相关度大的视频内容。

本发明另一目的在于提供一种视频聚类切分方法和系统，所述切分方法和系统根据粗镜头的聚类中心的聚类度和聚类中心之间的距离，将聚类度大的聚类中心和距离较远的聚类中心分别进行标签化处理，从而使得合成后的视频观感完成。

为了实现至少一个上述发明目的，本发明进一步提供一种视频聚类切分方法，包括如下步骤：

切分视频，以获取视频粗镜头集；

计算粗镜头关键帧的特征向量，根据特征向量计算粗镜头中关键帧之间的相似度信息；

根据相似度信息将粗镜头进行聚类，并计算粗镜头的密度值和不同聚类的距离值；

设定一密度阈值和距离阈值，根据所述密度阈值和距离阈值筛选粗镜头，并赋予聚类标签；

将同一聚类标签并时间相邻的粗镜头合并，并切分对应的边缘帧。

根据本发明一个较佳实施例，切分视频的步骤中包括：对视频每一帧建立直方图，计算相邻两帧直方图之间的差异，设定差异阈值，相邻两帧直方图之间的差异大于所述差异阈值时，则切分该两帧之间的图像。

根据本发明一个较佳实施例，在上述相似度信息获取的步骤中包括：

采用Resnet18网络作为图像特征提取器提取粗镜头中关键帧图像的特征信息，并以所述Resnet18网络的倒数第二层输出。

根据本发明一个较佳实施例，定义ρ_i为密度值，所述密度值ρ_i的计算方法包括如下步骤：

设定一截断距离d_c，粗镜头集合为

x_i为粗镜头集合S中任意一镜头关键帧的特征向量，I_S＝{1,2,…,N}为相应的指标集，定义d_ij＝dist(x_i,x_j)为S集合中任意关键帧的相似度，密度值的计算公式为：

其中

根据本发明一个较佳实施例，上述特征向量的计算包括：

对切分后的粗镜头抽取一定数目的关键帧，将抽取的关键帧转化为4维张量，并将转化结构输入所述Resnet18网络中。

根据本发明一个较佳实施例，建立粗镜头关键帧的时间戳，所述特征向量根据时间戳排列输出。

根据本发明一个较佳实施例，在所述距离阈值的选定过程中，包括：对计算所得的密度值ρ_i从大到小进行排序，定义

为

的降序排列，ρ_qN满足

其中δ_qi为每一镜头的距离值，计算公式为：

选取大于所述密度阈值和距离阈值镜头的关键帧为聚类中心，并对聚类中心赋予标签。

根据本发明一个较佳实施例，计算所述密度值和距离值小所述密度阈值和距离阈值关键帧到任意聚类中心的距离，并将该镜头归类到最接近的聚类中心。

根据本发明一个较佳实施例，采用FFmpeg程序对相同聚类中相邻时间的片段进行切分。

根据本发明一个较佳实施例，采用OpenCV识别每一帧图像中的像素信息。

为了实现至少一个上述发明目的，本发明进一步提供一种视频聚类切分系统，所述系统采用上述一种视频聚类切分方法。

为了实现至少一个上述发明目的，本发明进一步提供一种设备，所述设备采用上述一种视频聚类切分方法。

附图说明

图1显示的是本发明一种视频聚类切分方法步骤图；

图2显示的是本发明一种视频聚类切分方法示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本发明提供了一种视频聚类切分方法，包括如下步骤：获取原始视频，其中原始视频可从互联网获取或摄像获取，将获取的原始视频进行切分，其中切分的方式包括：

绘制原始视频中每一帧图像的直方图，获取直方图中的像素信息，灰度信息和关键帧信息等，其中直方图优选采用OpenCV(计算机视觉库)通过数据接口对原始图像每一帧进行识别，其中绘制的直方图类型包括灰度直方图、三色直方图、H-S直方图，本发明优选绘制三色直方图。

将绘制后的直方图进行切分，根据相邻两帧之间直方图信息进行差异化对比，设定一差异阈值，若原始视频中相邻两帧之间差异大于所述差异阈值，则可以判断为镜头的边缘帧，进一步对该视频片段边缘帧进行切分，需要说明的相邻帧之间的差异可以是灰度差异、颜色差异、图像饱和度差异中的至少一种，差异阈值可选定为20-50％，对差异大于差异阈值的帧之间进行切分后产生不同的粗镜头，以形成一粗镜头集，可以理解的是，单纯通过直方图的差值切分的的粗镜头可能出现断片，视频内容不完整，切分过细等问题，切分后的粗镜头不便于人理解视频含义。

为了解决上述问题，本发明进一步对切分后的粗镜头进行聚类和合并，方法包括如下步骤：

对切分后的镜头根据每帧的图像信息进行关键帧抽帧，以抽取一定数目的关键帧，用于建立关键帧集合；

获取关键帧集合的图像信息，将图像信息转换为4维张量，将转换的4维张量输入到Resnet18网络中，并在Resnet18网络的倒数第二层输出结果，以获取关键帧集合的特征向量；

将Resnet18网络输出的特征向量根据时间戳进行排序；

计算每一关键帧特征向量之前的距离，以获取关键帧之间的相似度；

选取关键帧的聚类中心，将聚类中心时间相邻的关键帧进行合并，并将关键帧对应的粗镜头合并。

本发明需要对Resnet18网络进行预训练，作为图像特征提取器，本发明对Resnet18网络的训练方法不再详述。

进一步地，对关键帧进行聚类的方法中包括计算关键帧的密度，并设定关键帧的密度阈值，设定一距离阈值，筛选大于密度阈值的关键帧，并选取大于距离阈值关键帧作为聚类中心，并对聚类中心赋予标签，具体包括如下步骤：

建立一粗镜头集

建立指标集I_S＝{1,2,…,N}，两视频片段之间的相似度为d_ij＝dist(x_i,x_j)，其中x_i,x_j分别为粗镜头中的任意不同的关键帧，关键帧密度ρ_i的计算方法为：

其中

其中d_c截断距离，当关键帧数据距离截断距离d_c越多，则关键帧密度ρ_i越大。需要说明的是关于密度阈值的确定，本发明优选采用比例法确定，比如选取所有密度值关键帧中高值的前1-5％的数据作为聚类中心的筛选条件之一，在筛选出的关键帧中计算任意两关键帧中的距离值，设定距离阈值，筛选出大于该阈值的关键帧作为聚类中心，并赋予聚类中心标签。

具体的，计算ρ_i密度的过程中，将计算结果按照数值从大到小进行排序：设

表示

的一个降序排列下标序，则密度满足

则聚类中心之间的距离δ_i的计算方式为：

根据距离阈值获取需要筛选的聚类中心，进一步赋予聚类中心标签。其中距离阈值可采用比例法选取所有样本中距离从大到小排列的前10％-20％。

进一步地，若集合中存在未被归类的样本，则将计算该未归类样本和任意聚类中心的距离，将该未归类样本归类至最近距离的聚类中心，将同一聚类中心的粗镜头进行合并，采用FFmpeg程序对合并后视频进行切分，需要说明的是，由于粗镜头根据时间戳排列，同一聚类的粗镜头在时间戳上代表着其播放顺序不同，在对同一视频的聚类合并和切分的过程中，具有相邻时间戳的粗镜头首尾帧之间的关联度较大，合并后的镜头的粒度相比于单纯使用直方图差异值获取的直方图粒度观感更佳。

举例来说，请参考图2显示的视频聚类切分示意图，其中将完整视频通过直方图差值切分成9个粗镜头，根据聚类算法将每一粗镜头赋予聚类标签，并合并时间戳上相邻的同类镜头，举例来说，粗镜头1和2是第一聚类标签，粗镜头2为第二聚类标签，粗镜头4、5、6属于第三聚类标签，粗镜头7.、8、9分别属于不同的聚类标签，粗镜头1-9根据时间戳依次排列，采用FFmpeg程序对第一聚类标签、第三聚类标签的镜头进行合并，具体地，对粗镜头1的尾帧和粗镜头2首帧进行合并，以获取第一聚类标签的合并镜头。对粗镜头5首帧和粗镜头4尾帧进行合并，同时对粗镜头6首帧和粗镜头5尾帧进行合并，从而获取所述第三聚类标签的合并镜头，进一步地，对粗镜头2尾帧和粗镜头3首帧之间进行切分，以获取独立的第一聚类标签的镜头，对粗镜头3尾帧和粗镜头4首帧进行切分，以获取独立的第三聚类标签镜头，将第一聚类标签镜头和第三聚类标签镜头输出并保存。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明，本发明的目的已经完整并有效地实现，本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种视频聚类切分方法，其特征在于，包括如下步骤：

切分视频，以获取视频粗镜头集；

将同一聚类标签并时间相邻的粗镜头合并，并切分对应的边缘帧；

切分视频的步骤中包括：对视频每一帧建立直方图，计算相邻两帧直方图之间的差异，设定差异阈值，相邻两帧直方图之间的差异大于所述差异阈值时，则切分该两帧之间的图像；

在上述相似度信息获取的步骤中包括：

采用Resnet18网络作为图像特征提取器提取粗镜头中关键帧帧图像的特征信息，并以所述Resnet18网络的倒数第二层输出；

定义ρ_i为密度值，所述密度值ρ_i的计算方法包括如下步骤：

设定一截断距离d_c，粗镜头集合为x_i为粗镜头集合S中任意一镜头关键帧的特征向量，I_S＝{1,2,…,N}为相应的指标集，定义d_ij＝dist(x_i,x_j)为S集合中任意关键帧的相似度，密度值的计算公式为：

其中

在所述距离阈值的选定过程中，包括：对计算所得的密度值ρ_i从大到小进行排序，定义为的降序排列，ρ_qN满足其中δ_qi为每一镜头的距离值，计算公式为：

2.根据权利要求1所述的一种视频聚类切分方法，其特征在于，上述特征向量的计算包括：

3.根据权利要求1所述的一种视频聚类切分方法，其特征在于，建立粗镜头关键帧的时间戳，所述特征向量根据时间戳排列输出。

4.根据权利要求1所述的一种视频聚类切分方法，其特征在于，计算所述密度值和距离值小于所述密度阈值和距离阈值关键帧到任意聚类中心的距离，并将该镜头归类到最接近的聚类中心。

5.根据权利要求4所述的一种视频聚类切分方法，其特征在于，采用FFmpeg程序对相同聚类中相邻时间的片段进行切分。

6.根据权利要求1所述的一种视频聚类切分方法，其特征在于，采用OpenCV识别每一帧图像中的像素信息。

7.一种视频聚类切分系统，所述系统采用上述权利要求1-6中任意一种视频聚类切分方法。