CN1662046A

CN1662046A - 用于确定主持人镜头的装置和方法

Info

Publication number: CN1662046A
Application number: CN2004100819387A
Authority: CN
Inventors: 黄斗善; 金相均; 金智渊; 文永秀
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-02-28
Filing date: 2004-12-16
Publication date: 2005-08-31
Also published as: KR20050087987A; KR100612842B1; EP1569240A1; JP2005243035A; US20050190965A1

Abstract

本发明提供一种确定主持人镜头的方法及其装置，它们能够检测各种格式视频的主持人镜头，迅速检测镜头，并且检测至少出现一次的主持人镜头。该确定主持人镜头的方法从视频数据提取基本镜头，并且按照预定的第一标准从基本镜头中选择主持人模型候选镜头。另外，该方法按照预定的第二标准从主持人模型候选镜头中确定主持人模型镜头，并且通过比较所确定的主持人模型镜头和基本镜头来确定主持人镜头。用于确定主持人镜头的装置包括：镜头边界确定单元；皮肤颜色提取单元；主持人面部确定单元；背景颜色区域确定单元；主持人模型候选镜头确定单元；对象颜色区域确定单元；镜头编组单元；主持人模型建立单元；块确定单元；主持人镜头确定单元。

Description

用于确定主持人镜头的装置和方法

技术领域

本发明涉及视频，具体涉及自动检测用于索引、总结和浏览节目视频的主持人(anchor)的方法。

背景技术

可以通过诸如电视机、因特网和无线电波的介质来获得各种信息。具体上，新闻节目在现代社会中具有作为信息源的很重要的角色。但是，今天，在固定时间观看新闻节目有时是困难的。另一方面，因为可以通过新闻或其他节目来获得大量的信息，因此许多人期望观看先前连线的新闻节目。广播站提供新闻和其他节目的视频，并且销售所述视频。

客户可以通过重放设备来观看所提供的数据。如果客户仅仅被允许观看节目的期望部分而不是全部节目，则应当与节目一起提供索引和浏览功能。

一般，新闻节目以顺序方式来传送各种项目。换句话说，通常，主持人预先宣布新闻项目，并且记者(reporter)在示出参考材料的同时提供新闻项目的细节。因此，可以根据主持人来一般地彼此区别新闻项目。

假定新闻视频中出现主持人的屏幕快照是主持人镜头(anchor shot)，可以使用主持人镜头来有效地索引和浏览新闻视频。为了获得主持人镜头，主要使用三种传统的方法：基于模板(template-based)的方法、基于群集(clustering-based)的方法和基于多模(multimodal-based)的方法。

基于模板的方法在下面的两篇文章中详细被公开：1996年M.Tekalp的题目为“Video indexing through integration of syntactic and semantic features”的文章；Y.Nakajima的题目为“Automatic anchor person detection from anMPEG coded TV program”的文章。这种方法具有缺点：所述方法使用固定的模板，因此难于在多种新闻节目中检测主持人。

在1998年的A.Hanjalic的题目为“Template-based detection of anchorperson shot in news programs”的文章中公开的基于模板的方法，可以被应用到各种格式的新闻节目，因为模板是在新闻视频中确定的。但是，该基于模板的方法具有缺点：一般应当已知关于被用作模板的第一主持人镜头的暂时位置的信息。

在2003年的Xinbo Gao的题目为“A graph-theoretical clustering basedanchor person shot detection for news video indexing”的文章中，公开了基于群集的方法的一个示例。所述方法通过使用图论(graph theory)来检测主持人镜头。但是，所述方法具有缺点：只能在新闻节目中检测出现至少两次的主持人镜头，并且会错误地检测以时间间隔出现的镜头。在KR 2002-0075081、US 20020146168和JP 2003-32583中公开的传统的基于群集的方法，由于预先确定了主持人镜头模型，因此不能在不适合于主持人镜头模型的新闻视频中检测主持人镜头。一般，基于群集的方法具有长检测时间的缺点。

在KR 2002-0016318中公开的基于多模的方法，从包括封闭字幕信号(closed caption signal)的新闻视频中提取多模特性，并且根据所提取的特性来自动检测新闻视频的主要部分以概括新闻。

简而言之，现有技术的缺点如下。

首先，可能在诸如除了典型的新闻节目之外的对话场景等镜头中出现不正确的检测，因为仅仅使用关于在主持人头部的周围区域的颜色信息(错误检测镜头的问题)。

第二，当改变新闻节目的格式时，因为使用固定模板而不能检测主持人镜头(不能适用于各种格式的新闻节目的问题)。

第三，不能检测仅仅在全部新闻节目中出现一次的主持人镜头(不检测镜头的问题)。

第四，因为通过评估全部关键帧之间的相似性数值(amount of similarity)而执行群集，因此检测速度变低(低速度的问题)。

发明内容

本发明提供了一种用于确定主持人镜头的方法，它能够检测在各种格式的视频上的主持人镜头，迅速检测镜头，以及检测在节目中至少出现一次的主持人镜头。

本发明还提供了一种用于确定主持人镜头的装置，它能够检测在各种格式的视频上的主持人镜头，迅速检测镜头，以及检测在节目中至少出现一次的主持人镜头。

按照本发明的一个方面，提供了一种确定主持人镜头的方法，包括：提取多个基本镜头；选择多个主持人模型候选镜头；确定至少一个主持人模型镜头；和确定至少一个主持人镜头。

在提取步骤中，按照预定标准从视频数据提取多个基本镜头。在所述选择步骤中，通过向所提取的多个基本镜头应用第一标准，来从所述多个基本镜头中选择多个主持人模型候选镜头。在所述主持人模型镜头的确定步骤中，通过向所述多个主持人模型候选镜头应用第二标准，来确定至少一个主持人模型镜头。在所述主持人镜头的确定步骤中，通过比较至少一个主持人模型和所述多个基本镜头的相似性来确定至少一个主持人镜头。

按照本发明的另一个方面，提供了一种用于确定主持人镜头的装置，包括：镜头边界确定单元；皮肤颜色提取单元；主持人面部确定单元；背景颜色区域确定单元；主持人模型候选镜头确定单元；对象颜色区域确定单元；镜头编组单元；主持人模型建立单元；块确定单元；主持人镜头确定单元。

附图说明

通过参照附图详细说明本发明的例证实施例，本发明的上述和其他特点和优点将会变得更加清楚，其中：

图1是示出按照本发明的一个实施例的、用于确定主持人镜头的方法的流程图；

图2是示出按照本发明的一个实施例的、在用于确定主持人镜头的方法中使用的主持人模型候选镜头的群集的图；

图3是示出按照本发明的一个实施例的、在用于确定主持人镜头的方法中使用的主持人模型镜头的图；

图4是示出按照本发明的一个实施例的、在用于确定主持人镜头的方法中使用的划分主持人模型镜头的方法的图；

图5是示出按照本发明的另一个实施例的、用于确定主持人镜头的装置的方框图。

具体实施方式

现在参照附图来详细说明本发明的例证实施例。在附图中相同的附图标号表示相同的元件。

图1是示出按照本发明的一个实施例的、用于确定主持人镜头的方法的流程图。

所述用于确定主持人镜头的方法包括：基本镜头提取步骤110、主持人模型候选镜头选择步骤120、主持人模型镜头确定步骤130和主持人镜头确定步骤140。

基本镜头提取步骤110根据在显示了预定时间的图像被改变为不同的图像时的时刻，来从新闻或其他节目的视频中提取多个基本镜头。因此，在新闻视频的情况下，所述多个基本镜头包括与改变图像时的时刻相对应的任何数据。这种数据的示例包括主持人、记者、发生事件的位置、用于总结事件的字幕(caption)和图。

主持人模型候选镜头选择步骤120通过向所述多个基本镜头应用第一标准，来从所述多个基本镜头中选择多个主持人模型候选镜头。第一标准是所述多个基本镜头之间的主持人面部检测信息、主持人面部限制条件、镜头长度和背景颜色信息的相似性数值。

主持人模型镜头确定步骤130通过向所述多个主持人模型候选镜头应用第二标准，来确定至少一个主持人模型镜头。第二标准是主持人的面部和上半身的位置和颜色信息。按照主持人的性别和主持人的面部和上半身的位置和颜色信息，来确定主持人模型镜头的数量。

主持人镜头确定步骤140引入矩形，该矩形包括出现在主持人模型镜头和基本镜头上的主持人的面部和上半身，将构成所述矩形的像素编组在一起以便将所述矩形划分为多个块，并且将如下镜头确定为主持人镜头，即在构成被比较镜头的块之间具有关于颜色信息的相近相似性的镜头。

现在详细说明用于检测主持人的方法。

首先，说明主持人模型候选镜头选择步骤。

从新闻中的所有基本镜头中选择主持人模型候选镜头，所述新闻通过使用镜头长度、主持人面部限制条件、主持人面部检测信息和背景颜色信息而被划分为多个镜头。

在下述假定下获得关于镜头长度的信息：在新闻视频中出现主持人的镜头中，至少一个镜头持续至少10秒。

因为主持人模型候选镜头是其上出现主持人面部的图像，因此当皮肤颜色被用作主持人面部检测信息时，有可能容易检测主持人的面部。具有预定门限值之间的值的颜色被确定为皮肤颜色。通过系统的设计者来设置所述预定的门限值。

如果从关于所检测的主持人面部的数据中去除噪声，并且应用主持人面部限制条件，则可以从粗略获得的关于所检测的主持人面部的数据中，检测关于主持人面部的更准确的数据。按照面部矩形的大小和位置、改变的程度和皮肤颜色密度，来确定所述主持人面部限制条件。

术语“面部矩形”表示这样的矩形，它包括面部，通过它可以将个人外表确定为主持人。如果其上出现主持人的整个屏幕被设置为基本的镜头，则根据包括主持人的镜头来确定主持人镜头会复杂。因此，优选的是将所述矩形定义为包括主持人面部的最小区域，并且根据从所述矩形收集的数据来确定主持人镜头。

面部矩形的位置表示在屏幕上的主持人的位置。一般，主持人位于屏幕的中心部分、左侧和右侧。

改变程度表示出现在屏幕上的主持人面部的镜头之间的角度之差，该角度取决于记录主持人的摄像机的角度。具有小角度差的主持人镜头被当作相同的镜头。

皮肤颜色密度也是确定主持人面部限制条件中的重要标准。如果具有太低的皮肤颜色密度的镜头被确定为主持人镜头，则屏幕可能清晰度不足。因此，皮肤颜色密度是用于去除不清楚镜头的标准。

另外，在基本镜头和候选镜头之间的背景颜色的相似性被当作标准。具有等于门限值或更大的相似性的镜头被确定为主持人模型候选镜头。归一化的直方图相交方法(histogram intersection)是测量相似性的手段。

图2是示出按照本发明的一个实施例的、在用于确定主持人镜头的方法中使用的主持人模型候选镜头的群集的图。从所述多个基本镜头中来选择满足第一标准的镜头。因此，选择包括男女主持人的外表的镜头。

第二，给出主持人模型镜头确定步骤。

从通过上述方法选择的多个主持人模型候选镜头中选择性地确定主持人模型镜头。对于主持人模型镜头的确定，通过收集关于主持人的面部和上半身的颜色的数据来群集相似的镜头。

在从第一主持人模型候选镜头去除包括面部区域的矩形后，对于每个镜头分析包括上半身的矩形的每一个YCbCr颜色的皮肤颜色分布。男主持人通常穿戴套服，女主持人通常穿戴单色服装。因此，从上述方法获得的主持人对象的颜色信息是可靠的。通过使用关于主持人对象的颜色信息，能够提取主持人的上半身颜色。为了建立上半身候选矩形，被提取的主持人模型候选者的面部区域被分别向右、左、下和上方向放大。

然后，可以通过使用预先检查的颜色信息，来从候选矩形的上半身区域检测主持人上半身部分。可以通过执行面部或上半身区域的或(OR)运算来获得主持人对象。主持人对象构成每一个YCbCr颜色的直方图。但是，因为所获得的主持人对象在新闻视频中大小不一致，因此通过除以主持人对象之一的大小，将主持人对象归一化，以便具有从0到1的值。

直方图指示镜头中的颜色的相对加权。本实施例获得对于包括面部区域而不是整个镜头的矩形的直方图。

方程1表示作为群集的标准的直方图。

[方程1]

Reference_Object_Histogram：O_{Ri∈{Y Cb Cr}}

在此，因为“i”表示三种颜色Y、Cb和Cr的变量，因此方程1表示对于三种颜色Y、Cb和Cr建立所述直方图。“O(对象)”被用作一个函数的表示，以便强调所述直方图用于特定的对象而不是用于整个屏幕。

像用于主持人对象的直方图一样，用于每一个YCbCr颜色的直方图被表示为方程2。

[方程2]

Candidate_Object_Histogram：O_{Ci∈{Y Cb.Cr}}

通过测量在标准直方图和候选直方图之间的相似性数值来执行群集。传统的归一化直方图相交方法用于评估相似性。

可以通过方程3来获得相似性。

[方程3]

H (O_{R}, O_{C}) = Σ_{i = 1}^{n} \min (O_{R_{i}}, O_{C_{i}})

其中“O_R”表示标准直方图，“O_C”表示候选直方图，“n”表示块的数量。因为主持人镜头的主持人对象颜色很相似，因此具有等于预定门限值或更大的相似性数值的镜头被当作属于同一群集的镜头。

当使用颜色的相似性数值来执行群集时，镜头可以被划分为男主持人镜头、女主持人镜头和报告镜头组。为了建立主持人的模型，优选的是在具有多个镜头的群集中选择主持人模型组。

在所选择的群集中，使用关于每个主持人面部的位置信息来建立主持人模型。主持人的面部位于屏幕的左侧、中心部分或右侧。当主持人面部位于屏幕的左侧时，在屏幕的右侧显示用于指示新闻的内容的新闻图标或字幕。相反，当主持人的面部位于屏幕的右侧时，在左侧显示用于指示新闻的内容的新闻图标或字幕。因此，当主持人出现在屏幕的左侧或右侧上时，诸如新闻图标或字幕的剩余部分被去除。当主持人的面部位于屏幕中心时，在屏幕上不显示新闻图标或字幕。

图3是示出按照本发明的一个实施例的、在用于确定主持人镜头的方法中使用的主持人模型镜头的图。

在图2所示的主持人模型候选镜头中选择满足第二标准的镜头。图3示出了三种所选择的主持人模型镜头。在男主持人的情况下，其中男主持人出现在屏幕的左侧和中心上的镜头被确定为主持人模型镜头。在女主持人的情况下，其中女主持人仅仅出现在左侧的镜头被确定为主持人模型镜头。主持人模型镜头由图2所示的一组(pool)主持人模型候选镜头确定。

第三，给出主持人镜头确定步骤。

测量所建立的主持人模型和基本镜头之间的相似性数值。具有预定值或更大的相似性的镜头被确定为主持人镜头。

为了比较相似性，作为模型的具有相同位置和大小的矩形被划分为多个块，诸如24个块。

图4是示出按照本发明的一个实施例的、在用于确定主持人镜头的方法中使用的划分主持人模型镜头的方法的图。

在图4中示出了被划分为多个块的主持人模型镜头和基本镜头。在将主持人模型镜头划分为块的方法中，当主持人出现在屏幕的左侧时，不考虑在屏幕右侧的字幕。换句话说，只有屏幕左侧的主持人被划分为多个块。划分的多个块数据被当作关键数据，并且与基本镜头相比较。而且在相比较的基本镜头中，仅仅考虑屏幕的左侧。

在新闻的主持人镜头中，主持人位于几乎相同的位置。但是，如果考虑摄像机和主持人的略微移动，具有所述位置信息的块的相似性数值应当被用作标准以便获得可靠的结果。

用于预定的K个块的平均值B_K被表示为方程4。

[方程4]

B_{K} = \frac{Σ_{i = 1}^{N} RG B_{K} (i)}{N}

在此，符号RGB_K(i)表示与块K的颜色相对应的值，符号N表示在单个块中的像素的数量。

在主持人模型块K的平均值B_KA和关键帧块K的平均值B_KS之间的差“Differ”被表示为方程5。

[方程5]

Differ = Σ_{K = 1}^{G} | B_{KA} - B_{KS} |

在此，符号G表示包括在屏幕中的整个块的数量。当所述差是预定的门限值或更大时，所述镜头被确定为主持人镜头。

用于确定主持人镜头的装置包括镜头边界确定单元501、皮肤颜色提取单元502、主持人面部确定单元503、背景颜色区域确定单元504、主持人模型候选镜头确定单元505、对象颜色区域确定单元506、镜头编组单元507、主持人模型建立单元508、块确定单元509和主持人镜头确定单元510。

镜头边界确定单元501接收视频数据以确定划分镜头的边界，并且根据所确定的边界来从视频数据提取预定的镜头。

皮肤颜色提取单元502在从镜头边界确定单元501提取的镜头中提取主持人皮肤的颜色。

主持人面部确定单元503通过使用关于从皮肤颜色提取单元502提取的皮肤颜色的信息来确定主持人的面部。

背景颜色区域确定单元504使得有可能通过确定在主持人面部确定单元503中确定的主持人的背景的颜色区域，来区分主持人与背景。

主持人模型候选镜头确定单元505通过使用关于在主持人面部确定单元503中确定的主持人和在背景颜色区域确定单元504中确定的背景颜色的信息，来在镜头边界确定单元501中提取的镜头中确定主持人模型候选镜头。

对象颜色区域确定单元506通过在主持人模型候选镜头确定单元505中确定的镜头中比较主持人的颜色相似性，来确定主持人的性别、主持人的数量和报告镜头。

镜头编组单元507通过使用在对象颜色区域确定单元506中确定的信息，来将男主持人镜头、女主持人镜头和报告镜头分别编组。

主持人模型建立单元508按照在镜头编组单元507中建立的男、女主持人镜头的组中主持人的位置，来建立主持人模型。换句话说，根据主持人是否位于屏幕的左侧、中心部分或右侧来建立主持人模型镜头。

块确定单元509仅仅将主持人的面部区域和上半身定义为在主持人模型建立单元508中建立的主持人模型镜头中的一个小块。剩余的区域被从所述块中排除。

主持人镜头确定单元510通过使用在块确定单元509中确定的块，来确定在主持人模型建立单元508中建立的男主持人镜头中的至少一个主持人镜头和女主持人镜头中的至少一个主持人镜头。

按照本发明，用于确定主持人镜头的方法自适应地建立和利用在新闻视频中主持人位于左侧、右侧和中心部分的模型，以便从各种格式的新闻视频来检测主持人镜头。为了防止不正确的检测和提高检测速度，对于在整个关键帧和所建立的主持人模型之间的相同位置和大小比较相似性。为了检测出现至少一次的主持人的镜头，与主持人模型相似的关键帧被检测为主持人镜头。

按照本发明，可以从详细的描述中理解，通过使用模型创建来检测主持人的方法不仅能够适用于新闻视频，而且能够适用于应当具有索引和浏览功能的所有视频数据，作为典型视频数据。

例如，用于英语会话教学的视频包括按照所建立的典型情景的多个对话。一般，在节目主持人(MC，master of ceremony)对接下来要展开的情景进行了简短介绍后，展开多个对话。因此，可以根据MC的外貌来对多个对话进行分类。

容易明白，对应于新闻主持人的人物是英语对话教学的视频数据的MC。因此，可以明白，本发明可以适用于英语对话教学的视频数据以及新闻视频。可以明白，本发明的主持人不仅指的是新闻广播员，而且也指的是用于分类视频数据的任何标准。

虽然已经参照本发明的例证实施例说明了本发明，本领域的技术人员会明白，在不脱离所附的权利要求所限定的本发明的范围的情况下，可以进行形式和细节上的各种改变。

按照本发明，有可能提供一种使用模型创建来确定主持人镜头的方法及其装置，它们能够通过建立自适应主持人模型而不使用预定模型来检测各种格式视频的主持人镜头，并且能够通过比较所建立的模型和整个关键帧的相似性来改善其速度和性能。因此，本发明可以用于根据家用AV装置、用于提供内容的创作工具和新闻视频的内容进行的索引、总结和浏览。

Claims

1.一种确定主持人镜头的方法，主持人镜头可以用于索引、总结和浏览视频数据的内容，所述方法包括：

按照预定标准从视频数据提取多个基本镜头；

通过向多个基本镜头应用第一标准，来从多个基本镜头中选择多个主持人模型候选镜头；

通过向所述多个主持人模型候选镜头应用第二标准，来确定至少一个主持人模型镜头；并且

通过比较主持人模型镜头和多个基本镜头的相似性数值，来确定至少一个主持人镜头。

2.按照权利要求1的方法，其中，所述预定标准是当暂停预定时间的屏幕改变到另一个屏幕时的时刻。

3.按照权利要求1的方法，其中，所述第一标准是主持人面部检测信息、主持人面部限制条件、镜头长度和背景颜色信息的相似性数值。

4.按照权利要求3的方法，其中，所述主持人面部限制条件是面部矩形区域的大小和位置、面部颜色密度和面部矩形区域的移动。

5.按照权利要求3的方法，其中，根据包括面部的矩形来获得所述背景颜色信息。

6.按照权利要求5的方法，其中，所述背景颜色信息是根据包括面部的矩形获得的归一化和量化的颜色直方图。

7.按照权利要求5或6的方法，其中，所述矩形依赖于面部区域是否位于屏幕的左侧、右侧或中心部分，并且其中，当面部区域位于屏幕的左侧或右侧时，所述矩形指示包括面部区域和上半身的屏幕的左侧或右侧的最小区域，并且当面部区域和上半身位于中心部分时，所述矩形指示屏幕的整个区域。

8.按照权利要求7的方法，其中，通过对构成所述矩形的多个像素分组，将所述矩形划分为多个块。

9.按照权利要求1的方法，其中，所述第二标准是屏幕上主持人的面部区域和上半身的位置和颜色信息，并且其中，按照主持人的性别和主持人的面部和上半身的位置，来确定主持人模型镜头的数量。

10.按照权利要求1的方法，其中，所述确定至少一个主持人镜头的步骤引入矩形，该矩形包括出现在主持人模型镜头和多个基本镜头上的主持人的面部和上半身，并且将构成所述矩形的多个像素编组在一起，以便将矩形划分为多个块；并且在构成所比较镜头的块之间比较颜色信息的相似性数值。

11.按照权利要求10的方法，其中，所述颜色信息是颜色直方图，该颜色直方图对面部区域和上半身的颜色信息进行归一化和量化。

12.按照权利要求1的方法，其中，在主持人模型镜头的确定中，在多个主持人模型候选镜头中确定主持人模型镜头。

13.按照权利要求12的方法，其中，在主持人模型镜头的确定中，按照主持人模型候选镜头中出现在屏幕上的主持人的性别和主持人的面部区域和上半身的位置，来确定主持人模型镜头的数量。

14.一种用于确定主持人镜头的装置，该主持人镜头可以用于索引、总结和浏览视频数据的内容，所述装置包括：

镜头边界确定单元，用于接收视频数据以确定划分镜头的边界，并且根据所确定的边界从视频数据提取预定的镜头；

皮肤颜色提取单元，用于在从镜头边界确定单元提取的镜头中提取主持人的皮肤颜色；

主持人面部确定单元，用于使用从皮肤颜色提取单元提取的皮肤颜色的信息，来确定主持人的面部区域；

背景颜色区域确定单元，用于使得有可能通过确定在主持人面部确定单元中确定的主持人的背景的颜色区域，来区分主持人和背景；

主持人模型候选镜头确定单元，用于通过使用关于在主持人面部确定单元中确定的主持人以及在背景颜色区域确定单元中确定的背景颜色的信息，来在镜头边界确定单元中提取的镜头中确定主持人模型候选镜头；

对象颜色区域确定单元，用于通过在主持人模型候选镜头确定单元中确定的镜头中比较主持人的颜色的相似性数值，来确定关于主持人的性别、主持人的数量和报告镜头的信息；

镜头编组单元，用于通过使用在对象颜色区域确定单元中确定的信息，来将男主持人镜头、女主持人镜头和报告镜头分别编组；

主持人模型建立单元，用于在镜头编组单元中创建的男、女主持人镜头的编组中，按照主持人的位置来建立主持人模型；

块确定单元，用于在主持人模型建立单元中建立的主持人模型镜头中，仅仅将主持人的面部区域和上半身定义为一个小块；和

主持人镜头确定单元，用于通过使用在块确定单元中确定的块，来确定在主持人模型建立单元中建立的男主持人镜头中的至少一个主持人镜头和女主持人镜头中的至少一个主持人镜头。