CN101867729A

CN101867729A - 基于人物特征的新闻视频正式独白镜头的检测方法

Info

Publication number: CN101867729A
Application number: CN 201010194932
Authority: CN
Inventors: 丁晓伟; 屈正阳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2010-06-08
Filing date: 2010-06-08
Publication date: 2010-10-20
Anticipated expiration: 2030-06-08
Also published as: CN101867729B

Abstract

一种视频处理技术领域的基于人物特征的新闻视频正式独白镜头的检测方法，本发明将新闻视频分为若干镜头，先去除持续时间过短的镜头，又去除没有人脸及人脸位置和大小不符合要求的镜头，再淘汰运动剧烈的镜头，接着提取人的上半身区域的BOW特征，最后利用支持向量机进行分类判断。本发明检测的时间大大减少，但检测的准确率却大大提高，高达86％，从而能有效解决网络浏览和检索的实时性和准确性的要求。

Description

基于人物特征的新闻视频正式独白镜头的检测方法

技术领域

本发明涉及的是一种视频处理技术领域的检测方法，具体是一种基于人物特征的新闻视频正式独白镜头的检测方法。

背景技术

随着互联网的迅速发展，各类多媒体应用不断涌现，如今网络视频已成为人们现在获取信息和娱乐的主要来源之一。这些视频中包含了大量有用的信息。然而，由于这些视频是无序地分布在世界各地，视频中包含的信息无法被有效地访问和利用。这就要求有一种能够快速而且准确地查找访问这些视频的技术，视频分类技术就能很好的解决这一难题。在新闻类视频中，“正式独白”镜头具有很大的信息量并且包含关键信息，此类镜头在智能新闻浏览和政治类新闻视频检索中扮演重要角色，因此检索出此类镜头具有很高的实用价值。

目前，常见的“正式独白”镜头中首先包含一位身着正装，正对摄像机的主讲人以及若干个无关人员。其次，画面的背景是静止的。再次，画面下方有电视台打出的新闻标题栏，整个镜头持续时间较长。

经过对现有技术的检索发现，中国专利公开号CN101316327，公开日2008-12-3，记载了一种“一种多模态融合的采访镜头检测方法”，该技术分别对原始视频中的视频流和音频流进行检测，对视频中的帧进行人脸检测，对音频流进行人声检测，融合检测结果最后判断是否是采访镜头；中国专利公开号CN1825936，公开日2006-08-30，记载了一种“基于语音分类识别的新闻视频检索方法”，该技术首先分割出标准语音的所有语音片断，然后运用语音识别系统，对分割出的标准语音进行识别。实现从文本到视频的新闻检索。上述两种技术都涉及视频的分类方法，但仍然存在以下缺陷：在对视频的分类方法中仅仅采用语音识别或者简单的视频特征匹配，对于视频内容的检测和分类准确率较低，且计算量过大。

发明内容

本发明的目的在于克服现有技术的上述不足，提供一种基于人物特征的新闻视频正式独白镜头的检测方法。本发明先去除持续时间过短的镜头，又去除没有人脸及人脸位置和大小不符合要求的镜头，再淘汰运动剧烈的镜头，接着提取人的上半身区域的BOW(Bag OfWords，词袋)特征，最后利用支持向量机进行分类判断，从而使得本发明检测新闻视频正式独白镜头的准确率大大提高，但是计算量却明显减少，提高了检索的效率。

本发明是通过以下技术方案实现的，本发明包括以下步骤：

第一步，输入一段新闻视频，对每帧图像按照顺序进行阿拉伯数字编号，使用镜头切变检测将视频分为若干镜头，去除其中持续时间小于阈值T₁的镜头，并提取剩余的每个镜头的关键帧。

所述的镜头切变检测，是：根据下面的公式得到新闻视频中相邻的两帧的帧差异值，当相邻两帧的帧差异值大于阈值T₂时，则这两帧分别作为一个镜头的最后一帧和另一个镜头的第一帧，具体公式为：

z (k, k + l) = \frac{1}{MN} Σ_{x = 1}^{M} Σ_{y = 1}^{N} | I_{k} (x, y) - I_{k + l} (x, y) |,

其中：M和N分别是帧的水平和垂直方向的总的像素数，x和y分别是帧的水平和垂直方向的像素数，I_k(x，y)和I_k+l(x，y)分别是第k帧和第k+l帧在(x，y)处的亮度值。

所述的阈值T₂的取值范围是：65≤T₂≤85。

所述的阈值T₁的取值范围是：2s≤T₁≤4s。

所述的关键帧是中间帧。

第二步，对关键帧进行人脸检测，并给检测到的人脸添加一个与人脸外切的方框，得到所有包括人脸的镜头，以画面右下角像素点为原点建立直角坐标系，得到包括人脸的镜头中每个人脸的位置信息。

所述的人脸检测是使用OpenCV的Haar分类器实现的。

第三步，选取包括人脸的镜头中距离该镜头中心最近的人脸，得到该人脸所在的方框在图像中的面积，当该方框面积与其所在整幅图像面积的比值大于阈值T₃时，该包括人脸的镜头就是候选镜头。

所述的阈值T₃的取值范围是：0.015≤T₃≤0.025。

第四步，对候选镜头进行运动检测，得到每个候选镜头的运动强度，去除其中运动强度大于阈值T₄的候选镜头。

所述的运动检测，是指：

M_{k} = \frac{1}{T} Σ_{i = b_{k}}^{e_{k}} M_{i}^{k} \cdot {En}_{i}^{k},

其中：

{En}_{i}^{k} = - Σ_{j = 1}^{n} p_{i}^{k} (j) \log (p_{i}^{k} (j)),

M_{i}^{k} = Σ_{u = 1, v = 1}^{u = G, v = H} | I_{i}^{k} (u, v) |,

M_k是第k个镜头的运动强度，

是第k个镜头中编号为i的帧图像的运动强度，

是第k个镜头中编号为i的帧图像的运动方向的熵值，T为归一化常数，b_k是第k个镜头的第一帧的编号，e_k是第k个镜头的最后一帧的编号，

(j)是第k个镜头中编号为i的帧图像的运动相位的分布概率，n是相位直方图的量化等级，(u，v)是第k个镜头中编号为i的帧图像分辨率为(u，v)的像素点的运动矢量的幅值，G和H分别是图像序列的水平和垂直分辨率。

所述的阈值T₄的取值范围是：0.25≤T₄≤0.35。

第五步，对剩余的候选镜头中距离镜头中心最近的人的上半身区域进行BOW特征提取，得到剩余的候选镜头中距离镜头中心最近的人的上半身区域的BOW特征。

所述的人的上半身区域，具体是：以人物两肩为上边界、左右上臂为左右边界、电视台文字标题上边缘为下边界的矩形区域。

所述的BOW特征提取，具体是：

1)建立新闻视频正式独白镜头训练库，提取其中关键帧的距离镜头中心最近的人的上半身区域的SIFT特征，同时提取剩余的候选镜头中距离镜头中心最近的人的上半身区域的SIFT特征；

2)使用K-means聚类方法将训练库的SIFT特征进行聚类，得到若干维聚类中心；

3)将得到的剩余的候选镜头中距离镜头中心最近的人的上半身区域的SIFT特征与聚类中心进行比较，从而得到剩余的候选镜头中距离镜头中心最近的人的上半身区域的BOW特征。

第六步，构建训练库，采用支持向量机对第五步得到的BOW特征进行判断处理，得到输入新闻视频中的正式独白镜头。

所述的构建训练库，具体是：人工选择若干新闻视频中的正式独白镜头和非正式独白镜头，其中：正式独白镜头包括男性正式独白上半身图片和女性正式独白上半身图片，非正式独白镜头包括无关图片和人物上半身图片。

所述的判断处理，具体是：提取训练库中正式独白镜头中人物上半身图像的BOW特征，利用该BOW特征训练分类器，并将第五步得到的BOW特征输入分类器，当第五步得到的BOW特征被分类器预测为是时，则该BOW特征所对应的镜头就是新闻视频中的正式独白镜头。

与现有技术相比，本发明的有益效果是：在不影响检测效果的前提下先使用运算简单的步骤过滤掉不合格的镜头，使后面运算量大的步骤有尽可能少的候选镜头，从而大大减少了计算时间，提高了检索的效率；通过技术已经非常成熟的人脸识别技术准确识别出正面上半身躯干的位置并提取BOW特征，将人物特征在检测中充分合理利用，使背景等其它变化多样的干扰信息不再干扰检测结果，从而大大提高了检测的准确率。

附图说明

图1是实施例得到的四个包含人脸的镜头；

其中：(a)、(b)、(c)和(d)分别是实施例得到的包含人脸的镜头。

图2是图1中距离镜头中心最近的人的上半身区域；

其中：(a)是图1(a)中距离镜头中心最近的人的上半身区域；(b)是图1(b)中距离镜头中心最近的人的上半身区域；(c)是图1(c)中距离镜头中心最近的人的上半身区域；(d)是是图1(d)中距离镜头中心最近的人的上半身区域。

图3是实施例建立的训练库中的若干图像；

其中：左侧两列图像中距离镜头中心最近的人物的上半身区域图像是负样本图像；右侧两列图像中距离镜头中心最近的人物的上半身区域图像是正样本图像。

具体实施方式

下面结合附图对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例包括以下步骤：

第一步，输入一段新闻视频，对每帧图像按照顺序进行阿拉伯数字编号，使用镜头切变检测将视频分为若干镜头，去除其中持续时间小于阈值T₁的镜头，并提取剩余的每个镜头的中间帧。

z (k, k + l) = \frac{1}{MN} Σ_{x = 1}^{M} Σ_{y = 1}^{N} | I_{k} (x, y) - I_{k + l} (x, y) |,

本实施例中T₂＝75，T₁＝3s。

所述的人脸检测是使用OpenCV的Haar分类器实现的，具体是：

a)使用CvHaarClassifierCascade数据类型载入训练文件，人脸检测的训练文件采用OpenCV自带的haarcascade frontalface alt2.xml(这个训练文件是OpenCV检测正面人脸效果最佳的一个)；

b)调用cvLoadImage载入需要检测的关键帧，并转化为灰度模式(用于人脸识别)；

c)调用cvHaarDetectObjects函数自动检测所有人脸对象，并将检测到的对象转换成“矩形”数据类型，即可得到人脸的位置和大小。

经过本步骤的处理后，去除了不含人脸的镜头，这些镜头不可能是正式独白的镜头，因此大量无关镜头被过滤。

本实施例中T₃＝0.02。

本实施例得到的包括人脸的镜头如图1(a)、图1(b)、图1(c)和图1(d)所示，其中的方框表示的是距离该镜头中心最近的人脸。

所述的运动检测，是指：

M_{k} = \frac{1}{T} Σ_{i = b_{k}}^{e_{k}} M_{i}^{k} \cdot {En}_{i}^{k},

其中：

{En}_{i}^{k} = - Σ_{j = 1}^{n} p_{i}^{k} (j) \log (p_{i}^{k} (j)),

M_{i}^{k} = Σ_{u = 1, v = 1}^{u = G, v = H} | I_{i}^{k} (u, v) |,

M_k是第k个镜头的运动强度，

是第k个镜头中编号为i的帧图像的运动强度，

(j)是第k个镜头中编号为i的帧图像的运动相位的分布概率，n是相位直方图的量化等级，

(u，v)是第k个镜头中编号为i的帧图像分辨率为(u，v)的像素点的运动矢量的幅值，G和H分别是图像序列的水平和垂直分辨率。

本实施例中T₄＝0.3。

第五步，对剩余的候选镜头关键帧中距离镜头中心最近的人的上半身区域进行BOW特征提取，得到剩余的候选镜头关键帧中距离镜头中心最近的人的上半身区域的BOW特征。

本实施例得到的距离镜头中心最近的人的上半身区域如图2所述，其中：图2(a)是图1(a)中距离镜头中心最近的人的上半身区域；图2(b)是图1(b)中距离镜头中心最近的人的上半身区域；图2(c)是图1(c)中距离镜头中心最近的人的上半身区域；图2(d)是图1(d)中距离镜头中心最近的人的上半身区域。

本实施例中利用人脸宽度与肩宽为1∶3的关系来确定人的上半身区域的宽度，人的上半身区域的上边缘与人脸的下边缘重合，上半身区域的下边缘与新闻文字标题栏的上边缘重合(标准新闻视频标题栏高度占画面总高度的20％以内)。

所述的BOW特征提取，具体是：

1)建立新闻视频正式独白镜头训练库，提取其中关键帧的距离镜头中心最近的人的上半身区域的SIFT特征，同时提取剩余的候选镜头中距离镜头中心最近的人的上半身区域的SIFT特征，每个SIFT特征用128维向量表示，

2)使用K-means聚类方法将训练库的SIFT特征进行聚类，得到200维聚类中心；

所述的构建训练库，具体是：人工选择新闻视频中的1000个正式独白镜头(正样本)和3000个非正式独白镜头(负样本)，其中：正式独白镜头包括900张男性正式独白上半身图片和100个女性正式独白上半身图片，非正式独白镜头包括无关图片和人物上半身图片。

本实施例建立的训练库的若干图像如图3所示，其中：左侧两列图像中距离镜头中心最近的人物的上半身区域图像是负样本图像；右侧两列图像中距离镜头中心最近的人物的上半身区域图像是正样本图像。

为了提高检测准确率，本实施例定期向训练库中添加若干新出现的正式独白镜头中距离镜头中心最近的人的上半身区域的特征数据。

本实施例使用libsvm中的easy.py全自动判断脚本进行分类器训练和分类器决策，脚本采用交叉验证方法自动选取最佳支持向量机参数。

经检测得到，图1所示的四个镜头中，图1(b)、图1(c)和图1(d)都是正式独白镜头。

经多次实验证明，本实施例检测新闻视频正式独白镜头的准确率高达86％。

Claims

1.一种基于人物特征的新闻视频正式独白镜头的检测方法，其特征在于，包括以下步骤：

第一步，输入一段新闻视频，对每帧图像按照顺序进行阿拉伯数字编号，使用镜头切变检测将视频分为若干镜头，去除其中持续时间小于阈值T₁的镜头，并提取剩余的每个镜头的关键帧；

第二步，对关键帧进行人脸检测，并给检测到的人脸添加一个与人脸外切的方框，得到所有包括人脸的镜头，以画面右下角像素点为原点建立直角坐标系，得到包括人脸的镜头中每个人脸的位置信息；

第三步，选取包括人脸的镜头中距离该镜头中心最近的人脸，得到该人脸所在的方框在图像中的面积，当该方框面积与其所在整幅图像面积的比值大于阈值T₃时，该包括人脸的镜头就是候选镜头；

第四步，对候选镜头进行运动检测，得到每个候选镜头的运动强度，去除其中运动强度大于阈值T₄的候选镜头；

第五步，对剩余的候选镜头中距离镜头中心最近的人的上半身区域进行BOW特征提取，得到剩余的候选镜头中距离镜头中心最近的人的上半身区域的BOW特征；

2.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第一步中所述的镜头切变检测，是值：根据下面的公式得到新闻视频中相邻的两帧的帧差异值，当相邻两帧的帧差异值大于阈值T₂时，则这两帧分别作为一个镜头的最后一帧和另一个镜头的第一帧，具体公式为：

z (k, k + l) = \frac{1}{MN} Σ_{x = 1}^{M} Σ_{y = 1}^{N} | I_{k} (x, y) - I_{k + l} (x, y) |,

3.根据权利要求2所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，所述的阈值T2的取值范围是：65≤T₂≤85。

4.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第一步中所述的阈值T₁的取值范围是：2s≤T₁≤4s。

5.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第三步中所述的阈值T₃的取值范围是：0.015≤T₃≤0.025。

6.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第四步中所述的运动检测，是指：

M_{k} = \frac{1}{T} Σ_{i = b_{k}}^{e_{k}} M_{i}^{k} \cdot E n_{i}^{k},

其中：

E n_{i}^{k} = - Σ_{j = 1}^{n} p_{i}^{k} (j) \log (p_{i}^{k} (j)),

M_{i}^{k} = Σ_{u = 1, v = 1}^{u = G, v = H} | I_{i}^{k} (u, v) |,

M_k是第k个镜头的运动强度，

是第k个镜头中编号为i的帧图像的运动强度，

是第k个镜头中编号为i的帧图像的运动相位的分布概率，n是相位直方图的量化等级，

是第k个镜头中编号为i的帧图像分辨率为(u，v)的像素点的运动矢量的幅值，G和H分别是图像序列的水平和垂直分辨率。

7.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第四步中所述的阈值T₄的取值范围是：0.25≤T₄≤0.35。

8.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第五步中所述的人的上半身区域，是指：以人物两肩为上边界、左右上臂为左右边界、电视台文字标题上边缘为下边界的矩形区域。

9.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第五步中所述的BOW特征提取，是指：

10.根据权利要求1所述的基于人物特征的新闻视频正式独白镜头的检测方法，其特征是，第六步中所述的判断处理，具体是：提取训练库中正式独白镜头中人物上半身图像的BOW特征，利用该BOW特征训练分类器，并将第五步得到的BOW特征输入分类器，当第五步得到的BOW特征被分类器预测为是时，则该BOW特征所对应的镜头就是新闻视频中的正式独白镜头。