CN101827224A

CN101827224A - 一种新闻视频中主播镜头的检测方法

Info

Publication number: CN101827224A
Application number: CN 201010156224
Authority: CN
Inventors: 李士进; 郑伏广; 万定生; 冯钧; 朱跃龙; 吴昊
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2010-04-23
Filing date: 2010-04-23
Publication date: 2010-09-08
Anticipated expiration: 2030-04-23
Also published as: CN101827224B

Abstract

本发明公开了一种新闻视频中主播镜头的检测方法，包括：对新闻视频进行镜头切分检测；去除图像非重点区域后提取两个对角线方向的时空切片；对时空切片沿时间方向和垂直于时间方向进行切割，得到若干窗口；选取所述每一部分每一个镜头所对应的窗口中的第一个和最后一个；提取所选窗口图像特征向量；通过串行聚类方法对特征向量进行聚类，提取初步的主播镜头；利用图像运动特征对得到的初步主播镜头进行进一步筛选；将筛选后的各部分结果融合，得到最终的新闻主播镜头。本发明的优点是对各类新闻视频中主播镜头检测准确率高，计算复杂度低，有效克服了现有技术对于主持人不在屏幕中间以及动态演播室背景的情况下漏检率较高的问题。

Description

一种新闻视频中主播镜头的检测方法

技术领域

本发明涉及一种视频检测与分析方法，尤其是一种新闻视频中主播镜头的检测方法。

背景技术

目前新闻视频的分析研究工作主要是对新闻故事单元的定位和分割，其中也包括对特定场景和故事的识别，以及对新闻中插播广告的检测。新闻视频的结构特征比较明显，其主体内容是一系列新闻单元。准确地定位每个新闻单元的开始和结束位置，是新闻视频自动索引的重要依据，同时也是新闻视频分析的基本问题之一。通过对新闻单元的结构进行分析可以知道，新闻主持人口播镜头的开始通常意味着上一个新闻故事单元的结束和一个新的故事单元的开始，因此，检测新闻主持人口播镜头(以下简称为主播镜头)在新闻视频分析中具有重要的意义。

目前的主播镜头检测方法可分为两类，一类是基于模板匹配的算法；另一类是基于主播镜头分布特征的算法，它利用主播镜头贯穿于整个新闻视频中，并且出现频率很高的特点将主播镜头分离出来。

基于模板匹配的算法大多是假设主播镜头背景不变。目前由于新闻节目制作风格的多样化，一段节目中主持人个数并不确定，而且有时候同时出现两个主持人，因此基于模板匹配的算法已经不能满足现代新闻节目的变化。

为了解决传统的模板匹配算法对含有动态背景的主播镜头检测效果不好的问题，有研究人员提出了半屏幕的主播镜头检测算法，根据主持人可能出现在屏幕左右两侧的位置，对这两个区域单独匹配，从而消除动态背景的影响。该算法检测效果好同时运行速度快，但是对于动态小窗口位置多变或者存在全局动态背景的情况就显得力不从心。

也有人取第一次出现的主持人主播镜头来建立模板，利用人脸检测等技术来解决出现动态小窗口的情况，但该方法只能解决存在一个主持人的情况，而且人脸检测方法复杂度高。

为了解决基于模板匹配算法通用性差和无法检测存在多个主持人的问题，还有人采用了图聚类对镜头集聚类，该方法也能检测出存在动态背景的主播镜头，但是错误检测情况太多，算法复杂度很高。

也有研究人员提出一种融合视觉信息和听觉信息的主播镜头检测算法，视觉上利用人脸检测技术，听觉上引入说话人分割技术。应用人脸识别等技术虽然有很强的通用性和正确性，但是人脸检测算法复杂度过高还是让人望而生畏。

综上，目前虽然对主播镜头检测算法有很多的研究，但是主播镜头算法依然存在以下问题：

(1)对存在动态小窗口或者全局动态背景的情况检测效果不佳；

(2)有些算法无法解决同时出现多个主持人或者一段新闻中先后出现多个主持人的情况；

(3)模板匹配、人脸识别等技术导致较高的算法复杂度。

一件名称为《一种基于时空条带模式分析的新闻主播镜头检测方法》的中国专利(申请日为2007年5月29日，申请号为200710099726.5，授权号为CN100548030C)披露了一种基于时空条带模式分析的主播镜头检测方法，具体包含以下步骤：

步骤10、将新闻视频连续的N帧作为一组，提取水平时空条带和垂直时空条带；

步骤20、提取水平和垂直时空条带对应图像的特征；

步骤30、对水平和垂直时空条带对应的高维向量分别聚类；

步骤40、融合水平和垂直方向聚类结果。

该技术方案大大提高了算法的检测速度，但是由于采用了提取单一中心水平和垂直方向的时空条带的方法，对于主持人不在屏幕中间以及动态演播室背景的情况漏检率较高；且该方法无法知道所用的聚类算法应该将镜头分成多少类，将无法检测出未知个主持人的情况；同时665维的聚类特征向量大大增加了算法的负担。

发明内容

本发明的目的是提供一种对于主持人在屏幕任何部位的情况下，均具有较高检测准确率，且算法简单的主播镜头检测方法。

本发明是按照如下方法实现的：首先对新闻视频进行镜头切分；然后分别提取图像两个对角线方向的时空切片，这样无论主持人出现在屏幕的哪个位置都能在切片中找到主持人躯干部分的信息；将每个切片平均分成三个部分，则主持人必定会出现在切片的某部分，在切片的每个部分中以镜头为边界提取小窗口颜色特征进行串行聚类从而得到候选主持人镜头集，最后利用结构张量分析提取候选镜头中确切的主持人主播镜头位置。具体按照如下步骤顺序执行：

步骤A、对新闻视频进行镜头切变检测；

本步骤中镜头切变检测可以使用现有的技术，例如：基于直方图的方法、基于像素差的方法、分块匹配的方法、基于机器学习的方法等，本发明优选利用直方图信息的镜头切变检测方法；

步骤B、将新闻视频中的每一帧图像分别去除上、下方的非重点区域后，沿剩余区域的两条对角线方向分别提取时空切片；其中：

所述提取时空切片是指先提取所述新闻视频中每一帧图像去除上、下方非重点区域后剩余区域两条对角线上的两列像素，然后按照时间先后顺序将同一对角线方向上每一帧图像提取的像素列拼接成一幅二维图像，所得二维图像即为该对角线方向的时空切片，时空切片的长为所述新闻视频的总帧数，宽为所述对角线的长度；

步骤C、分别将所述的时空切片沿时间方向均分为3个部分，然后分别将每一部分中每一个镜头所对应的时空切片片段沿垂直于时间的方向等分切割为若干窗口，每一窗口的宽度为X帧；

本步骤中，每一窗口宽度X帧中的X可以根据需要选取；

步骤D、选取所述每一部分每一个镜头所对应的窗口中的第一个和最后一个；提取所选窗口的图像特征，得到相应的特征向量；

上述提取窗口图像特征可以在颜色空间HSI(色调/饱和度/亮度色彩模型)、RGB(红绿蓝三原色)、YUV(亮度信号和色差信号)或HSV(色调/饱和度/纯度色彩模型)中实现；本发明优选HSI颜色空间的三阶颜色矩；

步骤E、通过串行聚类(Sequential Clustering)方法对所述的每一部分选取的窗口所对应的特征向量分别聚类，并提取聚类得到的每一簇成员窗口所对应的镜头作为初步的主播镜头，所述串行聚类方法具体为：

按视频时间顺序从头到尾扫描各样本，若当前样本与已经存在的各个类的距离的最小值大于预先设定的第一阈值，则将该样本设定为新的一类，若小于第一阈值则将该样本归到与该样本值距离最小的类中，并且重新计算该类的中心；

聚类的目的就是将所有相似的镜头归为一类，而不关注能够分成几类，况且主持人个数也未知，由于主持人镜头出现的次数相对较多，所以主播镜头必将出现在成员个数最多的几个簇中，因此本发明采用串行聚类方法，不需要指定聚多少类。

本步骤中所述第一阈值可根据实际需要选取；

步骤F、以步骤E中聚类得到的每个簇为单位，分别提取对应的运动特征；根据所述运动特征并遵照设定的规则分别对步骤E中得到的每部分初步的新闻主播镜头进行筛选；

步骤G、将步骤F筛选出的两个对角线方向，共6个部分的结果进行融合，得到最终的主播镜头。

本发明的优点是主播镜头检测准确率高，计算复杂度低，有效克服了现有技术对于主持人不在屏幕中间以及动态演播室背景的情况下漏检率较高的问题。

本发明尽管已经达到了较高的检测准确率，但在新闻视频中存在类似主持人镜头的人物演讲、人物采访、插播广告等情况下，还是可能出现误检的可能，因此可以利用视频的音频信息对主播镜头进行筛选，从而进一步提升检测准确率，具体的讲，就是在上述步骤G之后增加步骤H：

利用对应的音频信息对步骤G中得到的主播镜头进行筛选。

上述用来对步骤G中得到的主播镜头进行筛选的音频信息，可以根据实际情况选取，例如：线性预测倒谱系数(LPCC)、美尔频标倒谱系数(MFCC)、语音音调(Pitch)以及语音能量等特征，本发明优选10维MFCC特征。

附图说明

图1为本发明的流程示意图；

图2为去除图像上、下方非重点区域后做对角线的示意图；

图3为提取时空切片的示意图；

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

实施例一、

按照如下步骤对新闻视频中的主播镜头进行检测，参见附图1：

步骤A、采用直方图法对新闻视频进行镜头切变检测；

步骤B、将新闻视频中的每一帧图像分别去除上、下方1/8的非重点区域后，沿剩余区域的两条对角线方向分别提取时空切片，其中：

所述提取时空切片是指，如图2所示，先提取所述新闻视频中每一帧图像去除上、下方非重点区域后剩余区域两条对角线上的两列像素，然后，如图3所示，按照时间先后顺序将同一对角线方向上每一帧图像提取的像素列拼接成一幅二维图像，所得二维图像即为该对角线方向的时空切片，时空切片的长为所述新闻视频的总帧数，宽为所述对角线的长度；

本步骤中，每一窗口宽度X帧中的N可以根据需要选取，本实施例中X取50。

本实施例是在HSI颜色空间中提取各分量第一、第二、第三阶颜色矩，从而得到一个表征所选取窗口图像特征的9维向量，其具体步骤包括：

步骤D1、提取每个窗口中每个像素点的H分量、S分量和I分量；

步骤D2、利用下述公式分别计算每个窗口HIS各分量的一阶、二阶、三阶颜色矩：

M_{1} = \frac{1}{n \times m} Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} H_{(i, j)}

M_{2} = {(\frac{1}{n \times m} Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(H_{(i, j)} - M_{1})}^{2})}^{1 / 2}

M_{3} = {(\frac{1}{n \times m} Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(H_{(i, j)} - M_{1})}^{3})}^{1 / 3}

其中M₁、M₂、M₃分别表示窗口各HSI分量的一阶、二阶、三阶颜色矩，m，n分别表示窗口的宽和高，H_(i，j)表示窗口中(i，j)位置的H分量，即该窗口中横坐标为i，纵坐标为j的像素点的H分量；分别用窗口中(i，j)位置的S分量S_(i，j)、I分量I_(i，j)替换公式中的H_(i，j)，从而得到表征该窗口的9维颜色特征向量。

步骤E、通过串行聚类(Sequential Clustering)方法对所述的每一部分选取的窗口所对应的特征向量分别聚类，并提取聚类得到的每一簇成员窗口所对应的镜头作为初步的主播镜头；所述串行聚类方法具体为：

本实施例中，第一阈值取800；

本步骤中，本实施例中所述提取对应的运动特征是指提取每个簇的平均运动角度σ，具体包括以下步骤：

步骤F1、基于结构张量特征计算簇中每个窗口内每个像素点的灰度变化方向Φ_i；

步骤F2、通过公式

得到每个窗口的总体运动方向

其中N代表窗口中像素点的个数，Φ_i代表第i个点的灰度变化方向；

步骤F3、通过公式

计算出每个簇的平均运动角度σ，其中M表示该簇中元素的个数。

本实施例中，根据所述运动特征并遵照设定的规则对步骤E中得到的初步的新闻主播镜头进行筛选是按照如下步骤执行：

步骤F4、判断簇平均运动角度σ是否大于或等于预先设定的第二阈值，若是，则将该簇判定为主播帧类；若否，则去除该簇；

步骤F5、判断步骤F4所得主播帧类中每一簇是否存在大量连续镜头，并且第一个镜头与最后一个镜头间距离小于或等于预先设定的第三阈值，若是，则将该类去除；若否，则判定该类为主播帧类，该簇成员窗口所对应的镜头为主播镜头；

步骤F6、对2个对角线的时空切片，共6个部分分别执行F1至F5步骤，得到各部分主播镜头。

本步骤中，所述第二、第三阈值可依据需要取值，本实例中分别取80、10。

步骤G、将步骤F筛选出的两个对角线方向，共6个部分的结果进行融合，得到最终的主播镜头；

本实施例中，采用如下融合方法：

将步骤F中得到的6个部分的结果合并，统计各镜头被判定为主播镜头的次数，并提取所述次数大于或等于2的镜头作为最终的主播镜头。

实施例二、

本实施例中，A至G各步骤均与实施例一相同，不再赘述；不同点在于：步骤G之后增加了步骤H：利用对应的音频信息对步骤G中得到的主播镜头进行筛选；

本实施例利用选取的10维MFCC特征来辅助基于视觉信息的主播镜头检测。MFCC特征提取过程需要进行FFT变换，该过程很费时，因此本实施例不对整个新闻视频提取MFCC特征和分析，仅仅处理上述步骤G最终获得的候选主播镜头，从而可以大大提高算法效率，本步骤具体过程如下：

步骤H1、按照如下公式计算所述步骤G得到的每个主播镜头的中间部分语音段的平均MFCC特征向量：

\overset{&OverBar;}{C_{m}} = \frac{1}{N} Σ_{i = 1}^{N} C_{m}^{i}

i＝1，2，…，N

其中

代表第m个主播镜头的平均MFCC特征向量，N代表一个镜头中的语音帧总数；

本步骤中只取每个主播镜头中间部分语音段提取平均MFCC特征向量是为了避免镜头边界的影响，因此需要分别将镜头前、后靠近镜头边界部分语音信息去除；具体去除多长时间的语音信息可以根据需要适当选取，本实施例中是取去除镜头最前和最后各0.5秒后剩余的语音信息；

步骤H2、对所述步骤H1所得到的平均MFCC特征用串行聚类方法聚类；

步骤H3、将所述步骤H2中得到的聚类结果与所述步骤G中得到主播镜头所对应的类相比较，若两个聚类结果不相交，则判断该镜头集不是主持人口播镜头；若存在交集，则取交集部分的镜头作为最终主持人口播镜头。

为验证本发明的实施效果，分别按照所述实施例一、实施例二以及现有技术的方法进行主播镜头检测实验，并对实验结果进行分析对比，具体实验方法如下：

选取9段具有代表性的新闻视频，这些视频主要来自国家电视台和地方电视台的新闻节目，它们大都持续1个小时。其中视频1、2、5、和6的口播帧背景是静态的，视频3和视频8的口播帧背景包含了动态小窗口，视频4、7和9的口播帧背景是全局动态的；除了视频1、3、4只有一个主持人之外，其他视频都有多个主持人出现；视频9中的主持人出现在多个位置，并且镜头远近不同；视频5和视频7都出现类似主持人镜头的领导人演讲镜头。

分别采用本发明实施例一、实施例二所述方案以及在背景技术中提到的授权号为CN100548030C的发明专利所披露的技术方案进行对上述9段新闻视频进行实际检测，并对三种方案得到的实验结果进行对比评价。

为了能够正确客观的评价实验结果，特别引入了查准率(Precision)和查全率(Recall)两个指标来描述技术效果，两个指标分别定义如下：

查准率：Precision＝N_p/(N_p+N_f)

查全率：Recall＝N_p/(N_p+N_m)

其中N_p表示正确检测到的主播帧数目，N_f表示误检为主播帧的数目，N_m表示漏检的主播帧数目。

如下表1所示，我们可以发现采用本发明实施例一的方案，在很好的检测出只含一个主持人且演播室背景是静态的主持人镜头的基础上，同时针对包含动态背景、多个主持人及主持人位置多变的情况下，也达到了很高的正确率和查全率；

视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall
视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall	视频1	18	18	0	0	100％	100％
视频2	24	23	0	1	100％	96％	视频1	18	18	0	0	100％	100％
视频2	24	23	0	1	100％	96％	视频3	30	30	0	0	100％	100％
视频4	24	24	0	0	100％	100％	视频3	30	30	0	0	100％	100％
视频4	24	24	0	0	100％	100％	视频5	13	13	0	0	100％	100％
视频6	46	44	2	0	96％	100％	视频5	13	13	0	0	100％	100％
视频6	46	44	2	0	96％	100％	视频7	18	17	0	1	100％	95％
视频8	26	26	5	0	84％	100％	视频7	18	17	0	1	100％	95％

视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall
视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall	视频9	48	46	4	2	92％	96％

(表1)

而授权号为CN100548030C的发明专利所披露的技术方案在多个主持人或者主持人位置不在中间(因为该方案仅利用中间垂直和水平方向上的切片)的情况时检测效果不好，尤其是查全率很低，这些漏检的镜头主要是出镜率低的主持人镜头，如下表2所示；

视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall
视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall	视频1	18	15	3	3	84％	84％
视频2	24	20	0	4	100％	84％	视频1	18	15	3	3	84％	84％
视频2	24	20	0	4	100％	84％	视频3	30	30	0	0	100％	100％
视频4	24	19	4	5	83％	80％	视频3	30	30	0	0	100％	100％
视频4	24	19	4	5	83％	80％	视频5	13	7	0	6	100％	54％

视频6	46	22	2	24	92％	48％
视频6	46	22	2	24	92％	48％	视频7	18	9	0	9	100％	50％
视频8	26	9	0	17	100％	35％	视频7	18	9	0	9	100％	50％
视频8	26	9	0	17	100％	35％	视频9	48	19	2	29	90％	40％

(表2)

另外也可看到采用实施例二所述技术方案时，相比实施例一的方案，得到的查全率相同，但查准率有进一步的提升，如下表3所示，在对本实验所使用的9段视频进行检测时，查准率均达到100％，即未出现误检的情况。

视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall
视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall	视频1	18	18	0	0	100％	100％
视频2	24	23	0	1	100％	96％	视频1	18	18	0	0	100％	100％
视频2	24	23	0	1	100％	96％	视频3	30	30	0	0	100％	100％

视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall
视频编号	口播帧数	N_p	N_f	N_m	Precision	Recall	视频4	24	24	0	0	100％	100％
视频5	13	13	0	0	100％	100％	视频4	24	24	0	0	100％	100％
视频5	13	13	0	0	100％	100％	视频6	46	46	0	0	100％	100％
视频7	18	17	0	1	100％	95％	视频6	46	46	0	0	100％	100％
视频7	18	17	0	1	100％	95％	视频8	26	26	0	0	100％	100％
视频9	48	46	0	2	100％	96％	视频8	26	26	0	0	100％	100％

(表3)

从以上对比实验可以看到，相比现有技术，本发明可以适应各种复杂情况，尤其是在视频中存在多个主持人或者主持人位置不在中间以及存在动态背景的情况下，更具有显著优势；而且计算复杂度低，具有良好的应用前景。

Claims

1.一种新闻视频中主播镜头的检测方法，按照以下步骤顺序执行：

步骤A、对新闻视频进行镜头切变检测；

步骤E、通过串行聚类方法对所述的每一部分选取的窗口所对应的特征向量分别聚类，并提取聚类得到的每一簇成员窗口所对应的镜头作为初步的主播镜头；所述串行聚类方法具体为：

2.如权利要求1所述的新闻视频中主播镜头的检测方法，其特征在于：在所述步骤B中，所述去除上、下方的非重点区域是指：去除图像上、下方各1/8的区域。

3.如权利要求1所述的新闻视频中主播镜头的检测方法，其特征在于：所述步骤C中，所述X的值为50。

4.如权利要求1所述的新闻视频中主播镜头的检测方法，其特征在于：所述的步骤D中，所述图像特征为颜色特征。

5.如权利要求4所述的新闻视频中主播镜头的检测方法，其特征在于：所述提取图像的颜色特征在颜色空间HSI中实现。

6.如权利要求5所述的新闻视频中主播镜头的检测方法，其特征在于：在所述HSI颜色空间中提取颜色特征具体包括以下步骤：

M_{1} = \frac{1}{n \times m} Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} H_{(i, j)}

M_{2} = {(\frac{1}{n \times m} Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(H_{(i, j)} - M_{1})}^{2})}^{1 / 2}

M_{3} = {(\frac{1}{n \times m} Σ_{i = 0}^{m - 1} Σ_{j = 0}^{n - 1} {(H_{(i, j)} - M_{1})}^{3})}^{1 / 3}

其中M₁、M₂、M₃分别表示窗口各HSI分量的一阶、二阶、三阶颜色矩，m，n分别表示窗口的宽和高，H_(i，j)表示窗口中(i，j)位置的H分量，分别用窗口中(i，j)位置的S分量S_(i，j)、I分量I_(i，j)替换公式中的H_(i，j)，从而得到表征该窗口的9维颜色特征向量。

7.如权利要求1所述的新闻视频中主播镜头的检测方法，其特征在于：所述步骤F包括以下步骤：

步骤F1、基于结构张量特征计算所述步骤E中得到的每个簇中每个窗口内每个像素点的灰度变化方向Ф_i；

步骤F2、通过公式

得到每个窗口的总体运动方向

其中N代表窗口中像素点的个数，Ф_i代表第i个点的灰度变化方向；

步骤F3、通过公式

计算出每个簇的平均运动角度σ，其中M表示该簇中元素的个数；

8.如权利要求7所述的新闻视频中主播镜头的检测方法，其特征在于：所述第二阈值为80，所述第三阈值为10。

9.如权利要求1所述的新闻视频中主播镜头的检测方法，其特征在于：所述步骤G中的融合具体是指：将步骤F中得到的6个部分的结果合并，统计各镜头被判定为主播镜头的次数，并提取所述次数大于或等于2的镜头作为最终的主播镜头。

10.如权利要求1、2、3、6、8或9所述的新闻视频中主播镜头的检测方法，其特征在于：在所述步骤G之后，还包括步骤H，具体为：

利用对应的音频信息对步骤G中得到的主播镜头进行筛选。

11.如权利要求10所述的新闻视频中主播镜头的检测方法，其特征在于：所述步骤H中所述的音频信息是指音频的10维MFCC特征。

12.如权利要求11所述的新闻视频中主播镜头的检测方法，其特征在于：所述步骤H包括以下步骤：

\overset{&OverBar;}{C_{m}} = \frac{1}{N} Σ_{i = 1}^{N} C_{m}^{i}, i = 1,2, . . ., N

其中

13.如权利要求12所述的新闻视频中主播镜头的检测方法，其特征在于：所述步骤H1中，所述中间部分语音段是指：去除镜头最前和最后各0.5秒后剩余的语音信息。