CN102799637A

CN102799637A - 一种电视节目内部自动生成主要人物摘要的方法

Info

Publication number: CN102799637A
Application number: CN2012102159511A
Authority: CN
Inventors: 董远; 秦钢
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-06-27
Filing date: 2012-06-27
Publication date: 2012-11-28

Abstract

本发明提出一种电视节目内部自动生成主要人物摘要的方法。该法结合视频中图像特征和无监督聚类方法，实现对节目视频主要人物的提取、采访者和受访者的标记，并生成主要人物摘要预览，提升用户体验感。首先基于有标志的视频段落，均匀时间间隔提取关键帧并做人脸检测、特征提取，基于特征对人脸图像进行线性聚类，利用人脸图像的时间信息和空间信息得到粗略的人物类别，再通过基于图论的聚类得到精细的聚类结果，使用自适应的方法过滤出单独段落的主要人物类别，最后综合所有段落过滤结果，二次应用基于图论的聚类，基于规则判断出采访者与受访者，标记并生成各段落主要人物摘要。本发明基于无监督聚类方法，结构简单、易于实现，具有较强的普适性和鲁棒性。

Description

一种电视节目内部自动生成主要人物摘要的方法

技术领域

本发明属于多媒体信息处理与检索领域，利用对视频中图像的人物人脸特征的提取和分析，关于电视内容主要人物摘要的一种方法。应用此发明方法可以自动生成人物的摘要，并能标记出采访者和受访者，是一种计算自动的、鲁棒性强的以及算法复杂度低的电视节目视频内容处理方法。

背景技术

现如今，随着广播电视以及互联网的迅速传播和蓬勃发展，多媒体信息作为其中数据的一面也得到了长足的增长，这些海量的数据催生出许多新兴的应用：数字电视、网络电视、视频网站等，用户浏览体验和观赏感受等需求也相应的提高，能够在网络端和移动设备端上提供更好的服务成为迫切的要求。

对电视节目内容进行分析，一般预处理的方法是先进行宏分割，切分为多个内部段落。相应的处理方法分为：人工标注分割和机器自动分割。人工标注分割耗时耗力，面对海量的视频数据，人工的方法将会变得棘手，而机器自动分割正是适应了这样的条件。机器自动分割的方法有很多种，例如基于主持人场景的自动分割、基于重复片段的自动分割等，而越来越多的电视节目在播放过程中会使用电台标志或者节目特有标志(统称为标志)，这一举措主要注重知识产权的保护，其实对于结构化的宏分割来说，提供了更充足的分割依据：在电视节目内部非独有产权的段落(如电影简介集锦、商业广告等)，将不会加载标志；而播报和采访等享有知识产权的部分，将加载标志，这些标志在时间上不连续，为结构性的分割提供依据。

在分割内容后，基于分割为了提供更加具有观赏体验的服务，在每个段落上需进行分析。以往，我们在一些网络或者移动端所能看到的电视节目视频能够提供关键帧的预览(例如视频网站优酷、土豆等)，而能提供主要人物摘要的预览的电视节目少之甚少，人物摘要预览比关键帧预览带来的有用信息更多，能够去除很多的冗余(例如冗杂的背景)，并且服务体验感更强，能够预览某段落节目内容主要的人物对于用户来说更加实用且更加具有吸引力。同样，面对海量的视频数据，人工标注的方法将不再适用，所以需要提出自动(无人工标注)处理且快速(算法复杂度低)的方法。本方法正是适应了这样的条件要求。另外，对于一段节目视频，无法得知一些先验知识，例如访谈出现的人物信息，所以只能运用无监督学习的方法来提取出人物信息，并且无先验知识得知提取出多少人物，而是自适应提取出主要人物，这样的算法具有普适性、鲁棒性，能够很方便的应用到更多的电视节目中。

发明内容

为设计一个电视节目视频主要人物自动摘要系统，有效且快速的实现主要人物提取，并准确的标记采访者已经受访者，本发明提出了一个基于有标志镜头段落的节目视频主要人物摘要生成的方法。该方法首先对每个单独的有标志的镜头段落按时间均匀间隔地提取关键帧，并做人脸提取、特征提取，基于特征做线性聚类，然后再通过基于图论的聚类方法将人脸图像聚类，再通过自适应的方法对聚类结果处理，过滤出每个段落的主要人物类别。在此基础上，将每个段落的主要人物类别聚集起来，再次进行基于图论的聚类算法，进行一次全部标志段落的人脸图像聚类，通过判断准则得分，选出采访者和受访者，并分别标记，然后返回至各个段落并生成主要人物摘要。

本发明提出的方法可以通过文本或者图片形式表示出每个有标志段落主要人物摘要的结果。能够自适应的选取出每个标志段落的主要人物，而不是依据先验信息，并且在此后对于第二次应用基于图论聚类算法来说，滤除(减少)了一些初始类别，也等效于降低了聚类时间，提高了效率。

附图说明

图1为本发明的系统总框图

图2为区域重叠度计算框图

图3为电视节目结构示例图

图4为电视节目展现以及人物摘要预览例图

具体实施方式

下面结合附图具体来对本发明做进一步详细的描述。如图3所示，视频节目内容分为有标志的镜头段落和无标志的镜头段落，并且分布在整个视频的各个时间段落里，本发明通过对有标志镜头段落的分析，对每个有标志镜头段落进行主要人物摘要。对于如何得到有标志镜头段落的时间位置信息，已经有很多方法和发明已经描述过，例如，将固定位置的特有的标志从关键帧中提取出来，得到正负样本，使用支持向量机(SVM)训练出判别是否为标志的模板，对待处理的节目视频提取出的关键帧使用模板，决策是否为有标志镜头段落的关键帧，从而整合这些关键帧的时间信息，得到有标志的镜头段落。

如图1所示，基于有标志镜头段落，本发明方案分为以下几个步骤：

(1).关键帧提取以及人脸检测；

(2).人脸图像特征提取、线性聚类以及基于图论的聚类；

(3).自适应主要人物选取；

(4).融合各段落主要人物、基于图论聚类；

(5).基于规则来评分标记采访者和受访者并生成人物摘要。

接下来对以上各步骤做详细的说明：

一.关键帧提取及人脸检测

对每个单独的有标志的镜头段落按时间τ均匀间隔地提取关键帧，用以代表镜头段落的信息，并对关键帧图像进行人脸检测，提取出其中的人脸得到人物人脸图像。本系统中τ为0.4s。

二.人脸图像特征提取、线性聚类以及基于图论的聚类

(一).提取人脸图像特征

人脸特征主要分为两个方面：

1.区域重叠度

通常来说，人脸的位置在视频段落中是比较稳定的，因此，可以利用人脸位置区域的重叠度来计算不同人脸图像的相似距离，重叠度越高相似性越强。如图2所示，计算重叠度O_i，j规则如下，对于人脸i位置向量(x_i，y_i，w_i，h_i)以及人脸j位置向量(x_j，y_j，w_j，h_j)来说，其中y_i，y_i，w_i，h_i分别代表人脸i的横坐标、纵坐标、宽度、长度，人脸j位置向量表示依然如此：

(1).如果满足x_i＞x_j+w_j||x_j＞x_i+w_i||y_i＞y_j+h_j||y_j＞y_i+h_i，即无重叠区域：

O_i，j＝0

(2).否则：

w_{i, j} = \{\begin{matrix} x_{j} + w_{j} - x_{i}, & if x_{i} > x_{j} \\ x_{i} + w_{i} - w_{j}, & if x_{i} < x_{j} \end{matrix}

h_{i, j} = \{\begin{matrix} y_{j} + h_{j} - y_{i}, & if y_{i} > y_{j} \\ y_{i} + h_{i} - y_{j}, & if y_{i} < y_{j} \end{matrix}

r_i，j＝w_i，j·h_i，j

O_{i, j} = r_{i, j} / \sqrt{w_{i} h_{i} \cdot w_{j} h_{j}}

其中，||代表逻辑或运算，w_i，j和h_i，j分别代表重叠区域的宽度和高度，r_i，j代表重叠区域的面积。

2.Gabor特征

Gabor可以像放大镜一样放大灰度的变化，这样在人脸一些关键区域，例如眼睛、鼻子、嘴、眉等局部特征被强化，有利于区别不同的人脸图像，因此Gabor特征具有很好的鲁棒性。本系统采用二维Gabor小波特征，内核采用8个方向和5个尺度的采样，对于100*100像素的图像，用这40万维向量来表征每个人脸图像。

(二).线性聚类

一般来说，时间上连续的两个关键帧中的人脸图像在位置上可能是相关的，也就是区域会发生重叠，区域重叠度越高的人脸图像属于同一人物的可能性越高，可以将满足区域重叠度高于一定阈值的人脸聚合成同一类别。此次聚类是利用时间、空间信息来进行类别的粗略聚类，简单、有效且快速。

(三).基于图论的聚类

对于线性聚类的结果，再通过Gabor特征和基于图论聚类对上述粗略聚类做精细聚类，将段落中相似的人脸图像聚集到一起，这样无需任何的先验知识，便可以快速有效的得到段落中人物的类别以及聚类后每个类别所携带的信息(例如人物类别的持续时间等)。

线性聚类后每一类别都是基于图论聚类的无向图结点，两个类别之间的距离，即结点的边的权值，为两个类别所包含图像两两之间Gabor距离平均值。即：

W_{C_{m,} C_{n}} = \underset{i &Element; C_{m}}{Σ} \underset{j &Element; C_{n}}{Σ} w_{i, j} / N_{m} \cdot N_{n}

式子中，C_m与C_n分别代表第m个、第n个类别的图像集合，i和j分别属于m和n类别其中一幅图像，N_m和N_n分别代表第m个、第n个类别的图像集合的大小，即图像个数，那么

代表第m个、第n个类别的边的权值。

其中w_i，j为属于m和n类别其中一幅i和j图像的Gabor距离：

w_{i, j} = \underset{α &Element; A}{Σ} \underset{β &Element; B}{Σ} \underset{p &Element; P}{Σ} | G_{i} (α, β, p) - G_{j} (α, β, p) | / N_{A} \cdot N_{B} \cdot N_{P}

此式子中，A和B分别代表Gabor内核8个方向和5个尺度采样集合，N_A和N_B则分别代表上述两个集合的元素个数。P则是图像像素集合，N_P表示此集合元素个数。G_i(α，β，p)和G_i(α，β，p)分别代表第i幅和第j幅图像在α方向、β尺度和p像素上得Gabor特征值。|·|代表1-范数。

构造无向图G＝<V，E>，将线性聚类后每个类别当做特征空间上的结点，然后对于这些结点建立最小生成树，也是就要找到一棵树T＝<V，E′>，满足E′是E的子集，且边的权值和最小。利用预先设定好的阈值，对最小生成树中大于阈值的边进行砍枝。这样，在集合内，边连通的结点成为一类，每一类代表一个人物类别。

三.自适应主要人物选取

计算每一类人物的持续时间。Tk表示为第k个人物类别的持续时间：

T_{k} = Σ_{i = 0}^{N_{k}} {&Integral;}_{S_{i}^{k}}^{E_{i}^{h}} dt = Σ_{i = 0}^{N_{k}} (E_{i}^{k} - S_{i}^{k})

对这些时间值进行模糊二均值聚类，比较小的类别中心作为选取的阈值，大于阈值的类别被选取为本段落的主要人物类别。

上式中第k类别(共有N_k幅图像)的第i幅图像的开始时间

和结束时间

为：

S_{i}^{k} = t_{i}^{k} - τ / 2

E_{i}^{k} = t_{i}^{k} + τ / 2

其中，

第k个类别第i张图像提取的时刻。

四.融合各段落主要人物、基于图论聚类

对于每个有标志片段自适应主要人物选取的结果，将这些主要人物类别视为无向图的结点，再次进行基于图论的聚类，将整个视频的中(即全部有标志镜头段落)所有人物类别做聚集，将可能重复出现的人物类别聚集到同一个类别，为标记采访者和受访者做准备。

五.基于规则来评分标记采访者和受访者并生成人物摘要

步骤一，计算每个类别的持续时间，第k类的为T_k；

步骤二，计算每个类别的时间方差，第k类的为

先计算第k类的时间均值μ_k，再计算时间方差：

μ_{k} = Σ_{i = 0}^{N_{k}} {&Integral;}_{S_{i}^{k}}^{E_{i}^{k}} tdt / T_{k} = \frac{1}{2} Σ_{i = 0}^{N_{k}} ({(E_{i}^{k})}^{2} - {(S_{i}^{k})}^{2}) / T_{k}

α_{k}^{2} = Σ_{i = 0}^{N_{k}} {&Integral;}_{S_{i}^{k}}^{E_{i}^{k}} {(t - μ)}^{2} / T_{k} = Σ_{i = 0}^{N_{k}} {\frac{1}{3} [{(E_{i}^{k})}^{3} - {(S_{i}^{k})}^{3}] - μ [{(E_{i}^{k})}^{2} - {(E_{i}^{k})}^{2}] + μ^{2} (E_{i}^{k} - S_{i}^{k})} / T_{k}

步骤三，融合持续时间和时间方差信息，计算每个类别的得分；

第k类别得分的算法为：得分向量S_k＝(S_k，1，S_k，2)，式子中

步骤四，选出得分最高的作为采访者类别，标记采访者和受访者。

最高得分的算法为：l＝argmax(||S_k||₂)，l类别标记为采访者，其余类别都标记为受访者，其中||·||₂代表2-范数，argmax(·)代表使范数满足最大值时参数k的值。

无论是采访者还是受访者，都选取出每个有标志镜头段落中尺寸最大的人脸图像作为此段落摘要图像，如图4所示。

Claims

1.一种电视节目内部自动生成主要人物摘要的方法，包括对电视节目视频进行镜头切割、关键帧提取、判别有标志的镜头段落和无标志的镜头段落，其特征在于，该方法还包括以下步骤：

步骤一，对每个单独的有标志的镜头段落按时间均匀间隔地提取关键帧，对关键帧图像进行人脸检测得到人物人脸图像；

步骤二，对人脸图像进行特征提取，再通过基于线性聚类的算法以及基于图论的聚类算法进行人物聚类；

步骤三，基于聚类的结果自适应地进行主要人物选取；

步骤四，融合上述所有各个单独的有标志镜头段落的主要人物类别，再进行一次基于图论的聚类算法进行人物再聚类；

步骤五，对聚类结果中人物类别进行评分，选取出采访者，对采访者和受访者作标记并生成主要人物摘要。

2.根据权利要求1所述的方法，其特征在于对人脸图像进行特征提取，再通过基于线性聚类的算法以及基于图论的聚类算法进行人物聚类包括：

步骤一，对提取出来的时间连续的人脸计算空间位置区域重叠度，并提取Gabor特征后计算人脸间的Gabor距离，综合重叠度和Gabor距离将时间连续的相似人脸聚类；

步骤二，基于线性聚类的结果，再进行一次基于图论的聚类，把所有线性聚类得到的每个人物类别作为图的结点，构建一个无向图，根据阈值对图的最小生成树进行剪枝，结果为多棵子树，即为多个人物类别。

3.根据权利要求1所述的方法，其特征在于基于聚类结果自适应地进行主要人物选取包括：计算每一类人物的持续时间，对这些时间值进行模糊二均值聚类，比较小的类别中心作为选取的阈值，大于阈值的类别被选取为主要人物。

4.根据权利要求1所述的方法，其特征在于对聚类结果中人物类别进行评分，选取出采访者，对采访者和受访者作标记并生成主要人物摘要包括：

步骤一，计算每个类别的持续时间；

步骤二，计算每个类别的时间方差；

5.根据权利要求4所述的方法，其特征在于，融合持续时间和时间方差信息并计算每个类别的得分为：

持续时间T_k，时间方差

6.根据权利要求4所述的方法，其特征在于，选出得分最高的作为采访者类别，并标记采访者和受访者包括：

步骤一，最高得分的算法为：l＝argmax(||S_k||₂)，l类别标记为采访者，其余类别都标记为受访者，其中||·||₂代表2-范数，argmax(·)代表使范数满足最大值时参数k的值；

步骤二，无论是采访者还是受访者，都选取出每个有标志镜头段落中尺寸最大的人脸图像作为此段落摘要图像。