CN107087211A

CN107087211A - 一种主持人镜头检测方法及装置

Info

Publication number: CN107087211A
Application number: CN201710202164.6A
Authority: CN
Inventors: 刘楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2017-08-22
Anticipated expiration: 2037-03-30
Also published as: CN107087211B

Abstract

本发明实施例提供了一种主持人镜头检测方法及装置，其中，所述主持人镜头检测方法包括：获取包括多个视频帧的视频；按照视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧；分别将每一个镜头的关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头；其中，主持人分类器包括根据多个训练样本，通过深度学习和神经网络模型得到的分类器，图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。相比较于现有的主持人镜头检测方法，通过本发明实施例主持人镜头检测方法及装置，可以实现简化主持人镜头检测过程、提高主持人镜头检测性能的目的。

Description

一种主持人镜头检测方法及装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种主持人镜头检测方法及装置。

背景技术

新闻视频中蕴含着大量的最新资讯信息，对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行拆分、上线，供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多，除卫视台外还存在各类地方台，如果需要对所有的新闻进行分割的话，需要耗费大量的人力进行切分。同时由于新闻的时效性，对于新闻视频的分割的速度要求也是十分严格的，所以给人工分割带来的更大的压力，新闻都是在某个时间(如中午12点)大量播出，为了保证时效性，需要在规定的时间内尽快将整个的新闻节目切割成独立新闻条目，而不能采用积压任务后期处理的方式进行生产。所以自动的新闻视频拆分就显得尤为重要。

通过对大量新闻节目的观察发现，新闻主持人在新闻开始和结束的位置总是以特定的方式出现，如双人同时出现；在播报每条新闻之前或者之后都会出现单个主持人的特写镜头，总结每条新闻或者铺垫新闻的内容。因此可以利用主持人在视频中出现的信息对视频进行拆分，主持人在视频中出现的信息为自动的新闻拆分算法提供了重要的线索。

现有的主持人镜头检测方法，是通过人为设计主持人特征(例如人脸检测和背景描述)，提取这些特征、并根据这些特征检测主持人在视频中出现的信息。可以看出，现有的这种方法需要人为设计主持人特征，如此使得主持人检测过程复杂。

发明内容

本发明实施例的目的在于提供一种主持人镜头检测方法及装置，以简化检测过程。具体技术方案如下：

一方面，本发明实施例提供了一种主持人镜头检测方法，包括：

获取包括多个视频帧的视频；

按照所述视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧；

分别将每一个镜头的所述关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头；其中，所述主持人分类器包括根据多个训练样本，通过深度学习和神经网络模型得到的分类器，所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。

可选的，所述根据多个训练样本，通过深度学习和神经网络模型得到的分类器，包括：

收集人工标记完成的多个训练样本，其中，所述训练样本包括已标记图像人物姿态类别的视频帧；

将多个训练样本，作为所述神经网络模型的输入，通过深度学习方法，训练得到所述主持人分类器。

可选的，所述分别将每一个镜头的所述关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头，包括：

统计每一个镜头的所有关键帧的图像人物姿态类别，确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别；

在所述镜头的图像人物姿态类别为主持人姿态类时，确定所述镜头为主持人镜头，其中，所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。

可选的，所述确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别，包括：

将每一个镜头的所述关键帧，作为训练完成的主持人分类器的输入，分别得到每一个关键帧是每一种图像人物姿态类别时的置信度，其中，所述图像人物姿态类别包括：双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类；

确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。

可选的，所述按照所述视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧，包括：

计算每一个视频帧的颜色直方图特征；

根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，并记录所有镜头的开始位置和结束位置；

根据抽取关键帧间隔，分别抽取多个镜头的预设个数的关键帧，其中，所述抽取关键帧间隔，根据所述镜头的开始位置、结束位置以及所述预设个数得到。

可选的，所述根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，包括：

在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时，在所述相邻视频帧之间进行镜头分割；

将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧，在所述当前视频帧与第一视频帧之间的欧氏距离，大于第二距离阈值时，在所述当前视频帧与所述第一视频帧之间进行镜头分割，其中，第一视频帧包括时域序列在所述当前视频帧之前的视频帧。

另一方面，本发明实施例还提供了一种主持人镜头检测装置，包括：

获取模块，用于获取包括多个视频帧的视频；

抽取关键帧模块，用于按照所述视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧；

检测模块，用于分别将每一个镜头的所述关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头；其中，所述主持人分类器包括根据多个训练样本，通过深度学习和神经网络模型得到的分类器，所述图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。

可选的，所述检测模块包括：

收集子模块，用于收集人工标记完成的多个训练样本，其中，所述训练样本包括已标记图像人物姿态类别的视频帧；

训练子模块，用于将多个训练样本，作为所述神经网络模型的输入，通过深度学习方法，训练得到所述主持人分类器。

可选的，所述检测模块，包括：

第一确定子模块，用于统计每一个镜头的所有关键帧的图像人物姿态类别，确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别；

第二确定子模块，用于在所述镜头的图像人物姿态类别为主持人姿态类时，确定所述镜头为主持人镜头，其中，所述主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。

可选的，所述第一确定子模块，包括：

置信度单元，用于将每一个镜头的所述关键帧，作为训练完成的主持人分类器的输入，分别得到每一个关键帧是每一种图像人物姿态类别时的置信度，其中，所述图像人物姿态类别包括：双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类；

确定单元，用于确定所述置信度最大时、对应的图像人物姿态类别是所述关键帧的图像人物姿态类别。

可选的，所述抽取关键帧模块，包括：

计算子模块，用于计算每一个视频帧的颜色直方图特征；

划分子模块，用于根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，并记录所有镜头的开始位置和结束位置；

抽取子模块，用于根据抽取关键帧间隔，分别抽取多个镜头的预设个数的关键帧，其中，所述抽取关键帧间隔，根据所述镜头的开始位置、结束位置以及所述预设个数得到。

可选的，所述划分子模块，包括：

第一划分单元，用于在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时，在所述相邻视频帧之间进行镜头分割；

第二划分单元，用于将所述相邻视频帧中、时域序列在前的视频帧作为当前视频帧，在所述当前视频帧与第一视频帧之间的欧氏距离，大于第二距离阈值时，在所述当前视频帧与所述第一视频帧之间进行镜头分割，其中，第一视频帧包括时域序列在所述当前视频帧之前的视频帧。

本发明实施例提供的主持人镜头检测的方法及装置，可以按照视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取多个镜头的预设个数的关键帧；将每一个镜头的关键帧，输入至提前训练好的主持人分类器，得到每一个关键帧的图像类别。不需要人为设计、描述主持人特征，而是利用训练好的分类器得到每一个关键帧的图像类别，简化了主持人检测过程，提高主持人镜头检测的性能。同时，通过镜头的关键帧的图像类别得到每个镜头的图像类别，进而为视频自动拆条提供了有力证据。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例主持人镜头检测方法的流程图；

图2为本发明实施例主持人分类器中深度学习框架的示意图；

图3为本发明实施例主持人镜头检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通过对于大量视频的观察发现，主持人的出现是一个重要的分割线索，为了更好地利用主持人对视频进行分割，本发明实施例提供了一种主持人镜头检测方法，在现有的主持人镜头检测的基础上，简化主持人镜头检测过程、提高检测性能。

图1为本发明实施例主持人镜头检测方法的流程图，参照图1对本发明实施例主持人镜头检测方法进行详细说明，包括：

步骤101，获取包括多个视频帧的视频。

为了检测视频中，哪些视频帧、哪些位置的视频帧是主持人镜头，首先需要获取视频。其中，视频可以是不同内容形式的视频。例如：经济类新闻视频、娱乐视频以及体育新闻视频等。

新闻视频中蕴含着大量的最新资讯信息，对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的对每日播出的整条新闻视频进行拆分、上线，供用户对其中感兴趣的每条新闻进行点击观看。通过对新闻视频中主持人镜头检测，进而根据主持人出现的信息对新闻视频进行拆分、上线，进而提供给用户，以使用户可以根据自己的兴趣，选择自己感兴趣的新闻观看。

步骤102，按照视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧。

在检测主持人镜头时，可以将全部的视频帧都进行检测，但是由于很多视频帧时间存在重复的信息，造成了很多不必要的计算，使得计算复杂度很高。所以一般情况下，都会采取措施去除冗余信息，进而减少计算量。

为了减少主持人镜头检测过程的计算量，可以将视频中相似的视频帧进行聚类，合并为一个镜头；并从中挑选出代表这个镜头内容的关键帧。通过检测关键帧是否是主持人镜头，实现检测整个视频中多个视频帧是否是主持人镜头。

镜头通常是在一个场景下拍摄的，所以一个镜头下的各视频帧会有相当多的重复信息。因此，通常选取能够描述镜头主要内容的视频帧作为关键帧，来简洁的表达镜头的信息。一个镜头可以有一个或多个关键帧，这取决于镜头内容的复杂程度。

视频中相似的视频帧，根据视频帧之间的相似度选取。其中，视频帧之间的相似度可以通过各个视频帧之间像素的平均距离或者各个视频帧的纹理信息相似性评价。

选取镜头的关键帧，一般去掉重复(或冗余)视频帧。当选取多个关键帧时，用于关键帧选取的准则，是以视频帧之间相似度作为衡量依据，每次寻找关键帧都保证各关键帧之间具有最小相似度，以使关键帧带有最大信息量。

步骤103，分别将每一个镜头的关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头；其中，主持人分类器包括根据多个训练样本，通过深度学习和神经网络模型得到的分类器，图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。

将选取的每个镜头的关键帧，作为已训练完成的主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，即得到关键帧属于、按照关键帧中主持人出现的姿态、进行分类得到的类别中的哪一类。进而统计每个镜头的关键帧的图像人物姿态类别，最终得到该镜头是否是主持人镜头。根据上述选取镜头的关键帧的过程，可以看到，关键帧可以表示镜头的信息，所以可以通过关键帧的图像人物姿态类别，可以准确地检测镜头是否是主持人镜头。

本发明实施例主持人镜头检测方法，通过对视频进行镜头分割，选取每个镜头的关键帧；对于每个镜头的关键帧，利用训练完成的主持人分类器进行分类，得到的每个关键帧的图像人物姿态类别；然后根据每个镜头的关键帧的图像人物姿态类别，得到镜头的图像人物姿态类别，最终检测镜头是否是主持人镜头。本发明实施例主持人镜头检测方法，不依赖于人为设计的描述特征(例如人脸检测、背景描述)，自动从大数据中学习区分特征，分类性能更好，使得主持人镜头检测过程更加简便，可以更加快速地实现主持人镜头的检测，同时提高检测性能。

需要重点说明的是，主持人分类器是提前已经训练完成的分类器，在需要检测关键帧的图像人物姿态类别时，直接将关键帧输入至该主持人分类器，就可以得到关键帧的图像人物姿态类别。

主持人分类器的训练：收集未标注的训练样本并进行人工标注，对于有标注类别的样本以及预先设定好的网络结构，进行网络训练的过程，其中，未标注的训练样本，是从大量的视频中选取的视频帧。在本发明实施例一种可选的实施例中，主持人分类器的训练过程包括：

首先，收集人工标记完成的多个训练样本，其中，训练样本包括已标记图像人物姿态类别的视频帧。

从不同频道、不同新闻节目的视频中抽取预设数量的视频帧；其中，预设数量可以根据实际需要进行设置，任何能够实现本发明实施例方案的视频帧的数量，均属于本发明实施例的保护范围，一般情况下是抽取几十万个视频帧作为训练样本。

对抽取出的这些视频帧进行人工标记，标记抽取出的每一个视频帧的图像人物姿态类别，其中，根据主持人在视频帧中出现的姿态，对视频帧进行划分，标记每一个视频帧的图像人物姿态类别。在实际应用中，视频的种类多种多样，图像人物姿态类别对应的也可以是多种多样的；但是因为本发明实施例只关注视频帧中是否有主持人、视频帧中主持人是以什么姿态出现，所以本发明实施例只针对主持人，对视频帧进行图像人物姿态类别的划分。

当然，针对主持人在视频帧中出现的姿态，不同的用户也可以划分得到不同的图像人物姿态类别，本发明实施例通过统计大量的新闻视频，最终将图像人物姿态类别定义为：双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类。

人工将不同频道、不同新闻节目的视频中抽取的视频帧，分别分类、标记为双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类四个类别；并收集这些标记完成的视频帧，作为训练样本。

然后，将多个训练样本，作为神经网络模型的输入，通过深度学习方法，训练得到主持人分类器。

根据深度学习网络模型，训练主持人分类器。需要说明的是，通过深度学习框架：Caffe(Convolution Architecture For Feature Extraction，卷积神经网络框架)、Torch(大量机器学习算法支持的科学计算框架)、以及Theano(使用符号计算深度学习框架)等都可以完成训练主持人分类器的任务。本发明实施例不对使用的深度学习网络模型作限制，通过任意的深度学习网络模型，完成对主持人分类器的训练都在本发明实施例保护范围内。

在本发明实施例一种可实现方式中，因为Caffe深度学习框架的简单性、快速性以及开放性，本发明实施例利用Caffe训练主持人分类器，下面具体结合图2进行详细说明，图2为本发明实施例主持人分类器中深度学习框架的示意图。

利用Caffe开源的深度学习框架进行训练，具体训练过程包括：Caffe遵循了神经网络的一个简单假设——所有的计算都是以layer层的形式表示的，layer层做的事情就是获得一些数据，然后输出计算以后的结果。比如说卷积——就是输入一个图像，然后和这一层的参数做卷积，然后输出卷积的结果。每一个层级(layer)需要做两个计算：即前向传递时，一层一层输出，若输出层得到的结果与期望值有差别则进行反向传递，根据其误差运用梯度下降法来更新其权重及阈值，重复若干次，直到误差函数到达全局最小值。前向forward是从输入计算输出，然后反向backward是从上面给的梯度来计算相对于输入的梯度，只要这两个函数实现了以后，就可以把很多层连接成一个网络，如此就可以输入视频帧，计算需要的输出(例如视频帧的图像人物姿态类别)。

主持人分类器训练完成后，分别将每一个镜头的关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头，具体包括：

统计每一个镜头的所有关键帧的图像人物姿态类别，确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为镜头的图像人物姿态类别。

在镜头的图像人物姿态类别为主持人姿态类时，则确定镜头为主持人镜头，其中，主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。例如，在新闻联播开始时、两个新闻主持人坐姿同时出现的姿态，即为双人主持人坐姿类；娱乐新闻视频中，娱乐主持人，一个人站着播报节目结束出现的姿态，即为单人主持人站姿类。

每一个关键帧输入至主持人分类器，通过主持人分类器可以得到，每一个关键帧的图像人物姿态类别。统计每一个镜头中关键帧对应的各个图像人物姿态类别出现的次数，选取出现次数最多的图像人物姿态类别，为该镜头的图像人物姿态类别，如此则可确定镜头的图像人物姿态类别。

具体地，在本发明实施例一种可实现的实施方式中，确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为镜头的图像人物姿态类别，包括：

将每一个镜头的关键帧，作为训练完成的主持人分类器的输入，分别得到每一个关键帧是每一种图像人物姿态类别时的置信度，其中，图像人物姿态类别包括：双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类；

确定置信度最大时、对应的图像人物姿态类别是关键帧的图像人物姿态类别。

对于镜头检测后，每一个镜头获得的关键帧，输入到训练好的主持人分类器中，获得关键帧属于：双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类四个类别的，每个类别对应的置信度概率输出P1，P2，P3，P4，选择其中的最大值对应的类别作为这个关键帧的图像人物姿态类别。例如：P1是(P1，P2，P3，P4)中的最大值，这个关键帧属于双人主持人坐姿类。

然后，判断该镜头的图像人物姿态类别是否是双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类这三种类别中的一种，如果是双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类这三种类别中的一种，则说明该镜头的图像人物姿态类别为主持人姿态类，即该镜头是主持人镜头；如果不是双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类这三种类别中的一种，则说明该镜头的图像人物姿态类别不是主持人姿态类，即该镜头不是主持人镜头，如此对所有镜头都进行判断、检测，就可以完成对主持人镜头的检测。

通过本发明实施例更加简便、性能更好的主持人镜头检测方法，为新闻视频的拆条提供有力依据，实现新闻的自动拆条，节省人力。

通过上述内容可知，为了减少主持人镜头检测过程的计算量，可以将视频中相似的视频帧进行聚类，合并为一个镜头；并从中挑选出代表这个镜头内容的关键帧。通过检测关键帧是否是主持人镜头，实现检测整个视频中多个视频帧是否是主持人镜头。在本发明实施例一种可选的实施例中，按照视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧，包括：

第一步，计算每一个视频帧的颜色直方图特征。

对于输入的每一个视频帧，计算RGB空间的颜色直方图特征H[i]。

第二步，根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，并记录所有镜头的开始位置和结束位置。

具体的，根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，包括：

在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时，在相邻视频帧之间进行镜头分割。

将相邻视频帧中、时域序列在前的视频帧作为当前视频帧，在当前视频帧与第一视频帧之间的欧氏距离，大于第二距离阈值时，在当前视频帧与第一视频帧之间进行镜头分割，其中，第一视频帧包括时域序列在当前视频帧之前的视频帧。

计算时域相邻视频帧的颜色直方图特征之间的欧式距离，如果该欧式距离大于预先设定的阈值Th1，则认为镜头发生了切变，在该相邻视频帧之间进行镜头分割，记录开始位置s和结束位置e之间的所有视频帧为一个镜头；同时，将相邻视频帧中、时域序列在前的视频帧作为当前视频帧，计算当前视频帧同其之前的n帧之间的颜色直方图特征的欧式距离，如果该欧式距离大于预先设定的阈值Th2，则认为在此处发生了镜头渐变，记录开始位置s和这个结束位置e之间的所有视频帧为一个镜头。如果没有符合上述条件，认为仍然在一个镜头内部，继续检测镜头分割点，在所有满足上述条件的视频帧之间进行镜头分割，完成镜头划分。

第三步，根据抽取关键帧间隔，分别抽取多个镜头的预设个数的关键帧，其中，抽取关键帧间隔，根据镜头的开始位置、结束位置以及预设个数得到的。

根据预先设定的帧数m，在镜头中抽取m帧作为关键帧，计算抽取视频帧的间隔gap＝(e-s)/(m+1)，从镜头开始以gap为间隔抽取视频帧，作为该镜头的关键帧，其中，s为该镜头的开始位置，e为该镜头的结束位置。

本发明实施例还提供了一种主持人镜头检测装置，图3为本发明实施例主持人镜头检测装置的结构示意图，参照图3对本发明实施例主持人镜头检测装置进行详细说明，包括：

获取模块301，用于获取包括多个视频帧的视频。

抽取关键帧模块302，用于按照视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧。

检测模块303，用于分别将每一个镜头的关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头；其中，主持人分类器包括根据多个训练样本，通过深度学习和神经网络模型得到的分类器，图像人物姿态类别表示主持人是否在关键帧中出现、以及主持人在关键帧中出现的姿态。

本发明实施例主持人镜头检测装置，通过获取模块301、抽取关键帧模块302以及检测模块303，对视频进行镜头分割，选取每个镜头的关键帧；对于每个镜头的关键帧，利用训练完成的主持人分类器进行分类，得到的每个关键帧的图像人物姿态类别；然后根据每个镜头的关键帧的图像人物姿态类别，得到镜头的图像人物姿态类别，最终检测镜头是否是主持人镜头。本发明实施例主持人镜头检测方法，不依赖于人为设计的描述特征(例如人脸检测、背景描述)，自动从大数据中学习区分特征，分类性能更好，使得主持人镜头检测过程更加简便，可以更加快速地实现主持人镜头的检测，同时提高检测性能。

可选的，本发明实施例中检测模块303包括：

收集子模块，用于收集人工标记完成的多个训练样本，其中，训练样本包括已标记图像人物姿态类别的视频帧。

训练子模块，用于将多个训练样本，作为神经网络模型的输入，通过深度学习方法，训练得到主持人分类器。

可选的，本发明实施例中检测模块303，包括：

第一确定子模块，用于统计每一个镜头的所有关键帧的图像人物姿态类别，确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为镜头的图像人物姿态类别。

第二确定子模块，用于在镜头的图像人物姿态类别为主持人姿态类时，确定镜头为主持人镜头，其中，主持人姿态类包括:双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类。

可选的，本发明实施例中第一确定子模块，包括：

置信度单元，用于将每一个镜头的关键帧，作为训练完成的主持人分类器的输入，分别得到每一个关键帧是每一种图像人物姿态类别时的置信度，其中，图像人物姿态类别包括：双人主持人坐姿类、单人主持人坐姿类、单人主持人站姿类以及非主持人类。

确定单元，用于确定置信度最大时、对应的图像人物姿态类别是关键帧的图像人物姿态类别。

可选的，本发明实施例中抽取关键帧模块，包括：

计算子模块，用于计算每一个视频帧的颜色直方图特征。

划分子模块，用于根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，并记录所有镜头的开始位置和结束位置。

抽取子模块，用于根据抽取关键帧间隔，分别抽取多个镜头的预设个数的关键帧，其中，抽取关键帧间隔，根据镜头的开始位置、结束位置以及预设个数得到。

可选的，本发明实施例中划分子模块，包括：

第一划分单元，用于在相邻视频帧的颜色直方图特征之间的欧氏距离大于第一距离阈值时，在相邻视频帧之间进行镜头分割。

第二划分单元，用于将相邻视频帧中、时域序列在前的视频帧作为当前视频帧，在当前视频帧与第一视频帧之间的欧氏距离，大于第二距离阈值时，在当前视频帧与第一视频帧之间进行镜头分割，其中，第一视频帧包括时域序列在当前视频帧之前的视频帧。

需要说明的是，本发明实施例的装置是应用上述主持人镜头检测方法的装置，则上述主持人镜头检测方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种主持人镜头检测方法，其特征在于，包括：

获取包括多个视频帧的视频；

2.根据权利要求1所述的主持人镜头检测方法，其特征在于，所述根据多个训练样本，通过深度学习和神经网络模型得到的分类器，包括：

3.根据权利要求1所述的主持人镜头检测方法，其特征在于，所述分别将每一个镜头的所述关键帧，作为主持人分类器的输入，得到每一个关键帧的图像人物姿态类别，以确定主持人镜头，包括：

4.根据权利要求3所述的主持人镜头检测方法，其特征在于，所述确定每一个镜头的所有关键帧的图像人物姿态类别中、出现次数最多的图像人物姿态类别为所述镜头的图像人物姿态类别，包括：

5.根据权利要求1所述的主持人镜头检测方法，其特征在于，所述按照所述视频帧之间的相似度，将所有视频帧划分为多个镜头，并分别抽取所有镜头的关键帧，包括：

计算每一个视频帧的颜色直方图特征；

6.根据权利要求5所述的主持人镜头检测方法，其特征在于，所述根据相邻视频帧的颜色直方图特征之间的欧氏距离，将所有视频帧划分为多个镜头，包括：

7.一种主持人镜头检测装置，其特征在于，包括：

获取模块，用于获取包括多个视频帧的视频；

8.根据权利要求7所述的主持人镜头检测装置，其特征在于，所述检测模块包括：

9.根据权利要求7所述的主持人镜头检测装置，其特征在于，所述检测模块，包括：

10.根据权利要求9所述的主持人镜头检测装置，其特征在于，所述第一确定子模块，包括：

11.根据权利要求7所述的主持人镜头检测装置，其特征在于，所述抽取关键帧模块，包括：

计算子模块，用于计算每一个视频帧的颜色直方图特征；

12.根据权利要求11所述的主持人镜头检测装置，其特征在于，所述划分子模块，包括：