CN107277557A

CN107277557A - 一种视频分割方法及系统

Info

Publication number: CN107277557A
Application number: CN201710456998.XA
Authority: CN
Inventors: 徐佳宏; 李益永; 兰志才; 曾勇; 韩涛
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-10-20
Anticipated expiration: 2037-06-16
Also published as: CN107277557B

Abstract

本发明提供了一种视频分割方法，包括：对所述目标视频流进行场景分割，识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征，获取该视频场景中包含的人脸图片集及所述人脸图片集对应的服装图片集；分别对所述人脸图片集及所述服装图片集进行聚类分析，当得到的聚类分析结果小于预设的阈值时，判定该视频场景为所述目标视频流的分割点，依据各个作为分割点的视频场景对所述目标视频流进行分割。上述的方法，直接判断对目标视频进行分割后的每一个场景是否为所述目标视频的分割点，将满足条件的视频场景作为分割点对所述目标视频流进行分割，不需要建立样本库，避免了需要定期的更新播音员的声音或者图像的样本库中样本特征的问题。

Description

一种视频分割方法及系统

技术领域

本发明涉及视频处理领域，尤其涉及一种视频分割方法和系统。

背景技术

如今，伴随着互联网技术和信息技术飞速发展，为了满足用户多样化的获取新闻资讯需求，新闻视频以其直观，形象、生动的播放特点，收到了越来越多的用户的欢迎。但新闻视频中通常穿插有播音员的镜头，会降低用户获取信息的速度。

发明人经过研究发现，现有技术中，为了获取新闻视频中的新闻信息，对新闻视频中播音员镜头的处理方式为播音员的声音或者播音员的图像建立一个样本库，通过将新闻视频中的每一帧视频图像的音频或者影响与样本库比对，将匹配成功的视频图像作为新闻视频的分割点，进行分割，上述的方法是基于播音员音频或者影像的样本库来实现的，因此，需要定期的更新播音员的声音或者图像的样本特征。

发明内容

有鉴于此，本发明提供了一种视频分割方法，用以解决现有技术中的视频分割方法需要定期的更新播音员的声音或者图像的样本特征的问题。具体方案如下：

一种视频分割方法，其特征在于，包括：

当接收到用户对目标视频流的分割请求时，获取组成所述目标视频流的每一帧视频图像；

将所述每一帧视频图像转换为预定格式的视频图片；

按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景；

按预设的识别规则，识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征；

对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集及所述人脸图片集对应的服装图片集；

分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果；并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点；

依据各个作为分割点的视频场景对所述目标视频流进行分割。

上述的方法，优选的，按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别包括：

将存在相邻关系的前后两帧视频图片中的每一帧视频图片按预设的比例去除，得到第一图片和第二图片；

分别将所述第一图片和所述第二图片均分为左右两部分，得到第一图片的左侧部分和右侧部分和第二图片的左侧部分和右侧部分；

分别对所述第一图片和所述第二图片的左侧部分及所述第一图片和所述第二图片的右侧部分进行卡方计算，得到第一卡方距离和第二卡方距离，若所述第一卡方距离和所述第二卡方距离同时满足预设值，对所述存在相邻关系的前后两帧视频图片进行场景分割。

上述的方法，优选的，对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集包括：

获取所述视频场景中的各个人脸图片，按预设的高度区间对所述各个人脸图片进行分类，得到所述各个人脸图片的分类集；

依据预设的裁剪系数设定方法，确定每一个分类对应的裁剪系数；

依据所述裁剪系数，对所述每一个分类中的每一张人脸图片进行裁剪，得到所述视频场景中包含的人脸图片集。

上述的方法，优选的，对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取与所述人脸图片集对应的服装图片集包括：

获取所述人脸图片集中每一张人脸图片的位置坐标；

依据预设的优化公式，将所述位置坐标转化为与所述每一张人脸图片对应的服装图片的坐标，依据所述服装图片的坐标，确定所述每一张人脸图片对应的服装图片，获得与所述人脸图片集对应的服装图片集。

上述的方法，优选的，分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果，并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点包括：

获取所述人脸图片集中任意两张人脸图片对应的像素矩阵，对所述像素矩阵进行聚类分析，获得所述人脸图片集的聚类值；

将所述服装图片集中的任意两张服装图片的张量直方图进行聚类分析，获得所述服装图片集的聚类值；

当所述人脸图片集的聚类值和所述服装图片集的聚类值均小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点。

一种视频分割系统，其特征在于，包括：

第一获取模块，用于当接收到用户对目标视频流的分割请求时，获取组成所述目标视频流的每一帧视频图像；

转化模块，用于将所述每一帧视频图像转换为预定格式的视频图片；

第一识别模块，用于按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景；

第二识别模块，用于按预设的识别规则，识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征；

第二获取模块，用于对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集及所述人脸图片集对应的服装图片集；

判定模块，用于分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果；并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点；

分割模块，用于依据各个作为分割点的视频场景对所述目标视频流进行分割。

上述的系统，优选的，所述第一识别模块包括：

去除单元，用于将存在相邻关系的前后两帧视频图片中的每一帧视频图片按预设的比例去除，得到第一图片和第二图片；

均分单元，用于分别将所述第一图片和所述第二图片均分为左右两部分，得到第一图片的左侧部分和右侧部分和第二图片的左侧部分和右侧部分；

分割单元，用于分别对所述第一图片和所述第二图片的左侧部分及所述第一图片和所述第二图片的右侧部分进行卡方计算，得到第一卡方距离和第二卡方距离，若所述第一卡方距离和所述第二卡方距离同时满足预设值，对所述存在相邻关系的前后两帧视频图片进行场景分割。

上述的系统，优选的，所述第二获取模块包括：

分类单元，用于获取所述视频场景中的各个人脸图片，按预设的高度区间对所述各个人脸图片进行分类，得到所述各个人脸图片的分类集；

确定单元，用于依据预设的裁剪系数设定方法，确定每一个分类对应的裁剪系数；

裁剪单元，用于依据所述裁剪系数，对所述每一个分类中的每一张人脸图片进行裁剪，得到所述视频场景中包含的人脸图片集。

上述的系统，优选的，所述第二获取模块包括：

获取单元，用于获取所述人脸图片集中每一张人脸图片的位置坐标；

转化单元，用于依据预设的优化公式，将所述位置坐标转化为与所述每一张人脸图片对应的服装图片的坐标，依据所述服装图片的坐标，确定所述每一张人脸图片对应的服装图片，获得与所述人脸图片集对应的服装图片集。

上述的系统，优选的，其特征在于，所述判定模块包括：

第一聚类单元，用于获取所述人脸图片集中任意两张人脸图片对应的像素矩阵，对所述像素矩阵进行聚类分析，获得所述人脸图片集的聚类值；

第二聚类单元，用于将所述服装图片集中的任意两张服装图片的张量直方图进行聚类分析，获得所述服装图片集的聚类值；

判定单元，用于当所述人脸图片集的聚类值和所述服装图片集的聚类值均小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频分割方法，包括：当接收到用户对目标视频流的分割请求时，依次获取组成所述目标视频流的每一帧视频图像；将所述每一帧视频图像转换为预定格式的视频图片；按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景；按预设的识别规则，识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征；对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集，依据所述人脸图片集获取与所述人脸图片集对应的服装图片集；分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果；并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点；依据各个作为分割点的视频场景对所述目标视频流进行分割。上述的方法，直接判断对目标视频进行分割后的每一个场景是否为所述目标视频的分割点，将满足条件的视频场景作为分割点对所述目标视频流进行分割，不需要建立样本库，避免了需要定期的更新播音员的声音或者图像的样本库中样本特征的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种视频分割方法流程图；

图2为本申请实施例公开的一种视频分割方法又一方法流程图；

图3为本申请实施例公开的一种视频分割方法又一方法流程图；

图4为本申请实施例公开的一种视频分割方法又一方法流程图；

图5为本申请实施例公开的一种视频分割方法又一方法流程图；

图6为本申请实施例公开的一种视频分割系统结构框图；

图7为本申请实施例公开的一种视频分割系统又一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明提供了一种视频分割方法，所述方法应用于视频分割过程，所述视频可以为新闻视频，球赛转播视频，晚会视频等，优选的为新闻视频，本发明实施例中以新闻视频为例进行说明。所述新闻视频具有的主持人和新闻内容交替出现的特点，要完成所述新闻视频的分割，只要确定主持人在所述新闻视频中出现的位置，将所述主持人出现的位置作为分割点，就可以实现所述新闻视频的分割。

所述视频分割方法的执行主体可以为具有视频分割处理算法的处理器或者应用平台。所述方法的流程图如图1所示，包括步骤：

S101、当接收到用户对目标视频流的分割请求时，获取组成所述目标视频流的每一帧视频图像；

本发明实施例中，所述目标视频流均为新闻视频，所述目标视频流可以为当前正在播放的视频，也可以为在缓存区或者数据库中存储的视频，依据所述目标视频流的播放顺序以一帧为单位进行截取，得到按播放顺序存储的新闻图像集。

S102、将所述每一帧视频图像转换为预定格式的视频图片；

本发明实施例中，获取所述每一帧视频图像的YVU数据、帧号、偏移量、流位置、图片宽度和图片高度。依据上述信息将所述每一帧视频图像转化为预定格式的视频图片，按所述目标视频流的播放顺序保存在视频图片集中。所述预定格式的视频图片优选的为RGB图片。优选的，依据上述信息选取所述新闻图像集中的关键帧，只对所述关键帧进行转换，减少视频图像转换的数量，有助于提高视频分割的速度。

S103、按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景；

本发明实施例中，优选的，依次获取按所述目标视频流的播放顺序存储的所述视频图片集中存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景。

S104、按预设的识别规则，识别每一个视频场景中是否存在人脸图像和/ 或人脸的五官特征；

本发明实施例中，识别每一个视频场景中第一帧和第二帧所对应的视频图片是否存在人脸图像和/或人脸的五官特征，至少存在一个人脸图像和/或人脸的五官特征时，判定当前至少存在一个人脸图像和/或人脸的五官特征的视频场景为可能的所述目标视频流的分割点。

本发明实施例中，在识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征的过程中，对人脸和人脸五官特征的判断存在以下几种可能性：本发明实施例中，所述既存在人脸也存在人脸的五官的情况下包括：所述人脸和所述人脸的五官存在相对位置上的对应关系，即初步可以认定为一个人脸；所述人脸和所述人脸的五官不再在相对位置上的对应关系。即初步判定不是同一个人脸。

本发明实施例中，所述只存在人脸的情况下包括：只存在一张人脸；存在多张人脸。

本发明实施例中，所述只存在人脸的五官的情况下包括：所述人脸的五官满足相对位置要求；所述人脸的五官不满足相对位置的要求。

本发明实施例中，上述的几种可能性存在交差，或者同时出现的情况，具体的处理原则与所述目标视频流的选取有关。

本发明实施例中，优选的，将检测到人脸图像和/或人脸的五官特征中的眼睛、鼻子和嘴的个数进行分类，分为三类：0个面部特征的人脸集合，1个面部特征的人脸集合，不小于2个面部特征的人脸集合。

S105、对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集及所述人脸图片集对应的服装图片集；

本发明实施例中，在所述存在人脸图像和/或人脸的五官特征的视频场景中，识别存在人脸图片的视频图片，对所述存在人脸图片的视频图片进行处理得到所述视频场景的人脸图片集，依据所述人脸图片集，确定与所述人脸图片集对应的服装图片集。

S106、分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果；并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点；

本发明实施例中，将所述人脸图片集和所述服装图片集进行聚类分析，得到所述人脸图片集的聚类分析值和所述服装图片集的聚类分析值，当所述人脸图片集的聚类分析值和所述服装图片集的聚类分析值两者同时小于所述人脸图片集和所述服装图片集预设的阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点。

S107、依据各个作为分割点的视频场景对所述目标视频流进行分割。

本发明实施例中，依次将所述目标视频流中的包含的每一个场景执行上述操作，确定所述目标视频流中作为分割点的视频场景，依据各个作为分割点的所述视频场景对所述目标视频流进行分割。

本发明实施例中，按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别的方法流程图如图2所示，包括步骤：

S201、将存在相邻关系的前后两帧视频图片中的每一帧视频图片按预设的比例去除，得到第一图片和第二图片；

本发明实施例中，获取所述已经存储的视频图片集中相邻两帧的视频图片。优选的，由于所述视频图片的底部通常为字幕，为了避免字幕对场景分割的影响，按预设的比例去除所述相邻两帧的视频图片，得到第一图片和第二图片；优选的，所述预设的比例可以为1/3。

S202、分别将所述第一图片和所述第二图片均分为左右两部分，得到第一图片的左侧部分和右侧部分和第二图片的左侧部分和右侧部分；

S203、分别对所述第一图片和所述第二图片的左侧部分及所述第一图片和所述第二图片的右侧部分进行卡方计算，得到第一卡方距离和第二卡方距离，若所述第一卡方距离和所述第二卡方距离同时满足预设值，对所述存在相邻关系的前后两帧视频图片进行场景分割。

本发明实施例中，S201-S203的处理过程是每次对存在相邻关系的两帧视频图片进行处理，所述目标视频流中除了首尾两张视频图片以外的所有视频图片都需要重复的分割，影响分割的处理速度，因此，可以将所述目标视频流中的所有的视频图片都按预设的比例去除底部，并进行均分为左右两部分，按所述目标视频流的播放顺序将所述处理完的图片存储到左侧图片集和右侧图片集中，依据与上述相同的对比方法，对所述存在相邻关系额的两帧新闻进行分割。

本发明实施例中，完成场景分割以后，优选的，记录每一个场景的开始帧、结束帧、相关偏移量和流位置信息。可以用于统计所述每一个场景的持续时间。

本发明实施例中，对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集的方法流程图如图3所示，包括步骤：

S301、获取所述视频场景中的各个人脸图片，按预设的高度区间对所述各个人脸图片进行分类，得到所述各个人脸图片的分类集；

本发明实施例中，获取所述视频场景中各个人脸图片，确定所述各个人脸图片对应的高度和宽度的参数，依据预设的高度区间，将各个人脸图片进行分类，得到所述各个人脸图片的分类集。

本发明实施例中，优选的，依据图片的高度划分为6个区间类，比如高度0-30，31-60，61-73，4-95，96-10，101-180。为了达到更精确的结果，可以将图片大小划分为10个甚至更多的区间类。

S302、依据预设的裁剪系数设定方法，确定每一个分类对应的裁剪系数；

本发明实施例中，选取50个人及其对应的人脸图片。选取各个范围的边缘剪裁比，将每个人剪裁好的图片缩放为50*50大小，计算每个人不同图片对应数值之间的差值的绝对值之和，将50个人的和值相加得到S，当选取边缘剪裁比使得S达到最小时将这组比例设定为边缘剪裁系数模型如下：

目标函数取最小：min S

约束条件为：x为K个剪裁系数2维向量，表示宽度及高度系数；

A_ij为检测到的第i个人第j张图片对应的矩阵；

B_ij＝A_ij(x_1i*width：(1-x_1i)*width，x_2i*height：(1-x_2i)*height)；

本发明实施例中，依据上述方法，确定所述每一个分类对应的裁剪系数。

S303、依据所述裁剪系数，对所述每一个分类中的每一张人脸图片进行裁剪，得到所述视频场景中包含的人脸图片集。

本发明实施例中，依据所述裁剪系数，对所述每一个分类中的每一张人脸图片进行裁剪，将裁剪后的人脸图片加入到所述视频场景中包含的人脸图片集中。

本发明实施例中，优选的，将所述人脸图片集中的图片按眼睛、鼻子和嘴的个数进行分类，分为三类：0个面部特征的人脸集合，1个面部特征的人脸集合，不小于2个面部特征的人脸集合。

本发明实施例中，对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取与所述人脸图片集对应的服装图片集的方法流程图如图4所示，包括步骤：

S401、获取所述人脸图片集中每一张人脸图片的位置坐标；

本发明实施例中，依据坐标获取函数，获取所述人脸图片集中每一张人脸图片的位置坐标，所述位置坐标为(x，y，width，height)。

S402、依据预设的优化公式，将所述位置坐标转化为与所述每一张人脸图片对应的服装图片的坐标，依据所述服装图片的坐标，确定所述每一张人脸图片对应的服装图片，获得与所述人脸图片集对应的服装图片集。

本发明实施例中，依据预设的优化公式：

若所述视频图片对应的张量为P，依据所述位置坐标(x，y，width，height) 则衣服区域对应的张量为C＝P(x+t*width：x+(t+1)*width，y：y+height，：)。最优距离选取可以转化为如下的优化模型：

目标函数取最小：min S

约束条件为：

其中，C_ij为检测到的第i个人第j张图片中选取的衣服区域对应的张量， H_ij(1:64)，H_ij(65:128)，H_ij(129:192)分别为C_ij(:，:，1)，C_ij(:，:，2)，C_ij (:，:，3)对应的直方图。

本发明实施例中，依据上述优化公式确定与所述每一张人脸图片对应的服装图片的坐标，依据所述服装图片的坐标，确定所述每一张人脸图片对应的服装图片，获得与所述人脸图片集对应的服装图片集。并将所述服装图片集进行保存。

本发明实施例中，分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果，并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点的方法流程图如图5所示，包括步骤：

S501、获取所述人脸图片集中任意两张人脸图片对应的像素矩阵，对所述像素矩阵进行聚类分析，获得所述人脸图片集的聚类值；

本发明实施例中，若A_i为检测到的第i张图片中人脸区域对应的50*50 大小的像素矩阵，Ap为检测到的第P张图片中人脸区域对应的50*50大小的像素矩阵，且FaceDiff＝|A_i-A_p|，所述FaceDiff为所述人脸图片集的聚类值。

S502、将所述服装图片集中的任意两张服装图片的张量直方图进行聚类分析，获得所述服装图片集的聚类值；

本发明实施例中，若C_i为检测到的第i张图片中选取的衣服区域对应的张量，H_i(1:64)，H_i(65:128)，H_i(129:192)分别为C_i(:，:，1)，C_i(:，:，2)， C_i(:，:，3)对应的直方图；Cp为检测到的第p张图片中选取的衣服区域对应的张量，Hp(1:64)，Hp(65:128)，Hp(129:192)分别为Cp(:，:，1)，Cp(:，:， 2)，Cp(:，:，3)对应的直方图。若ClothhesDiff＝|H_i-H_p|，所述ClothesDiff 为所述服装图片集的聚类值。

S503、当所述人脸图片集的聚类值和所述服装图片集的聚类值均小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点。

本发明实施例中，优选的，人脸图片集预设的阈值为50000，所述服装图片集预设的阈值为4000。上述判定人脸及衣服相同的标准可以调整。

人脸相同并且衣服相同分为一类，否则存为不同的类。优选的，此过程分三种情况处理：1、图片高度1080，2、图片高度576，3、图片高度480。对于第1、2两种情形，首先判断检测到不少于2个五官特征的人脸有没有相同的，若存在相同的人脸则检测衣服是否相同，若衣服相同则按同一人存放。然后判断检测到一个五官特征的人脸有没有与此人相同的人脸及衣服，最后判断检测不到五官特征的人脸及衣服与此人是否相同。最后存储的人脸中至少有一张含有不少于两个五官特征并且至少包含2个场景，且存在某个场景持续时间不少于3秒。对于第3类，将不小于1个五官特征的人脸合为一类并判断有没有相同的人，然后判断检测不到五官特征的人脸及衣服与此人是否相同。最后存储的人脸中至少有一张含有不少于一个的五官特征并且至少包含2个场景，且存在某个场景持续时间不少于3秒。

本发明实施例中，当所述人脸图片集的聚类值和所述服装图片集的聚类值均小于预设阈值时，按如下的预设判定规则，判定该视频场景为所述目标视频流的分割点。

第一步：首先根据出现的最大时长，设置判定参数：最小出现时间，最小出现时间跨度。若小于这两个参数直接判定为非播音员。此次系数设置相对很弱，这一步只是初步排除。

第二步：进一步合并人脸图片，进行聚类分析。判断大人脸图片与小人脸图片是否属于同一个人。

第三步：根据当前出现的最大时长，设置判定参数：最小出现时间，最小出现时间跨度。若小于这两个参数直接判定为非播音员。此次系数设置相对较强，这一步对最终判定为播音员影响极大。

第四步：进一步合并人脸图片，进行聚类分析。判断大人脸图片与小人脸图片是否属于同一个人。

第五步：播音员确定。若符合前四步条件的多于两个候选人则进行进一步判断：1.若有两个人含有相同的帧号，则说明此为两个播音员播报情形，则取这两个人为播音员；2.若最后两个场景时间间隔太大则不认为是播音员。3. 若1,2之后依然有两个以上候选人则保留出现场景数最多并且相邻场景时间差的平均值最小的两个候选人，若平均值最小的两个数相差两倍以上则判定平均值最小的那个候选人为播音员。存在播音员的所述场景为所述目标视频流的分割点。

与上述方法相对应的，本发明实施例中还提供了一种视频分割系统，所述系统的结构框图如图6所示，所述系统包括：

第一获取模块601，转化模块602，第一识别模块603，第二识别模块604，第二获取模块605，判定模块606和分割模块607。

其中，

所述第一获取模块601，用于当接收到用户对目标视频流的分割请求时，获取组成所述目标视频流的每一帧视频图像；

所述转化模块602，用于将所述每一帧视频图像转换为预定格式的视频图片；

所述第一识别模块603，用于按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景；

所述第二识别模块604，用于按预设的识别规则，识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征；

所述第二获取模块605，用于对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集及所述人脸图片集对应的服装图片集；

所述判定模块606，用于分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果；并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点；

所述分割模块607，用于依据各个作为分割点的视频场景对所述目标视频流进行分割。

本发明提供了一种视频分割系统，包括：当接收到用户对目标视频流的分割请求时，依次获取组成所述目标视频流的每一帧视频图像；将所述每一帧视频图像转换为预定格式的视频图片；按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别，识别出所述目标视频流中包含的至少两个视频场景；按预设的识别规则，识别每一个视频场景中是否存在人脸图像和/或人脸的五官特征；对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集，依据所述人脸图片集获取与所述人脸图片集对应的服装图片集；分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果；并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点；依据各个作为分割点的视频场景对所述目标视频流进行分割。上述的方法，直接判断对目标视频进行分割后的每一个场景是否为所述目标视频的分割点，将满足条件的视频场景作为分割点对所述目标视频流进行分割，不需要建立样本库，避免了需要定期的更新播音员的声音或者图像的样本库中样本特征的问题。

本发明实施例中，所述第一识别模块603的结构框图如图7所示包括：

去除单元608，均分单元609和分割单元610。

其中，

所述去除单元608，用于将存在相邻关系的前后两帧视频图片中的每一帧视频图片按预设的比例去除，得到第一图片和第二图片；

所述均分单元609，用于分别将所述第一图片和所述第二图片均分为左右两部分，得到第一图片的左侧部分和右侧部分和第二图片的左侧部分和右侧部分；

所述分割单元610，用于分别对所述第一图片和所述第二图片的左侧部分及所述第一图片和所述第二图片的右侧部分进行卡方计算，得到第一卡方距离和第二卡方距离，若所述第一卡方距离和所述第二卡方距离同时满足预设值，对所述存在相邻关系的前后两帧视频图片进行场景分割。

本发明实施例中，所述第二获取模块605的结构框图如图7所示包括：

分类单元611，确定单元612和裁剪单元613。

其中，

所述分类单元611，用于获取所述视频场景中的各个人脸图片，按预设的高度区间对所述各个人脸图片进行分类，得到所述各个人脸图片的分类集；

所述确定单元612，用于依据预设的裁剪系数设定方法，确定每一个分类对应的裁剪系数；

所述裁剪单元613，用于依据所述裁剪系数，对所述每一个分类中的每一张人脸图片进行裁剪，得到所述视频场景中包含的人脸图片集。

获取单元614和转化单元615。

其中，

所述获取单元614，用于获取所述人脸图片集中每一张人脸图片的位置坐标；

所述转化单元615，用于依据预设的优化公式，将所述位置坐标转化为与所述每一张人脸图片对应的服装图片的坐标，依据所述服装图片的坐标，确定所述每一张人脸图片对应的服装图片，获得与所述人脸图片集对应的服装图片集。

本发明实施例中，所述判定模块606的结构框图如图7所示包括：

第一聚类单元616，第二聚类单元617和第二聚类单元618。

其中，

所述第一聚类单元616，用于获取所述人脸图片集中任意两张人脸图片对应的像素矩阵，对所述像素矩阵进行聚类分析，获得所述人脸图片集的聚类值；

第所述二聚类单元617，用于将所述服装图片集中的任意两张服装图片的张量直方图进行聚类分析，获得所述服装图片集的聚类值；

所述判定单元618，用于当所述人脸图片集的聚类值和所述服装图片集的聚类值均小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频分割方法，其特征在于，包括：

将所述每一帧视频图像转换为预定格式的视频图片；

2.根据权利要求1所述的方法，其特征在于，按所述目标视频流的播放顺序，依次对存在相邻关系的前后两帧视频图片进行场景识别包括：

3.根据权利要求1所述的方法，其特征在于，对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取该视频场景中包含的人脸图片集包括：

4.根据权利要求1所述的方法，其特征在于，对于任意一个存在人脸图像和/或人脸的五官特征的视频场景，获取与所述人脸图片集对应的服装图片集包括：

获取所述人脸图片集中每一张人脸图片的位置坐标；

5.根据权利要求1所述的方法，其特征在于，分别对所述人脸图片集及所述服装图片集进行聚类分析，获得聚类分析结果，并在所述聚类分析结果对应的聚类值小于预设阈值时，按预设的判定规则，判定该视频场景为所述目标视频流的分割点包括：

6.一种视频分割系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述第一识别模块包括：

8.根据权利要求6所述的系统，其特征在于，所述第二获取模块包括：

9.根据权利要求6所述的系统，其特征在于，所述第二获取模块包括：

10.根据权利要求6所述的系统，其特征在于，所述判定模块包括：