CN102521340A

CN102521340A - 一种基于角色的电视剧视频分析方法

Info

Publication number: CN102521340A
Application number: CN2011104067651A
Authority: CN
Inventors: 徐常胜; 卢汉清; 梁超
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2012-06-27
Anticipated expiration: 2031-12-08
Also published as: CN102521340B

Abstract

本发明公开了一种基于角色的电视剧视频分析，通过人名与人脸的对应关系来关联剧本与视频，使得语义的场景结构能够准确的由剧本映射到视频中。首先，从剧本和视频中分别提取人名与人脸直方图表示，然后利用一种生成式模型对电视剧的拍摄过程进行建模。从模型参数的学习中，可以无监督地学习到人名与人脸的对应关系；从隐状态的推理中，可以最优地得到视频场景的分割。本发明能够在无需人工标注的情况下自动地识别识别视频人脸的身份，特别适用于大规模的视频内容分析；同时，由于引入剧本文件做指导，得到的场景划分具有语义可理解、可比较的优势。

Description

一种基于角色的电视剧视频分析方法

技术领域

本发明涉及视频分析领域，尤其是一种基于角色的电视剧视频分析方法。

背景技术

随着电视产业的蓬勃发展，每年全世界有数以百计的电视剧被制作和播出。海量的电视剧极大的丰富了人们的娱乐生活，但是同时也给数据的有效存储和获取带来了巨大的困难。在这一背景下，自动的视频分析和索引方法就显得尤为重要。它能够将底层的视觉信息与高层语义相关联，从而为人们提供一种自然的基于概念的内容存取方式。

目前针对电视剧的分析工作主要是通过剧本与视频的匹配来实现。借助电视剧剧本中对于故事情节和人物交互过程的详细描述，人们可以准确地确定视频中出现角色的身份、行为以及所处的场景环境。更进一步地，根据这些语义标注，人们可以对视频内容进行个性化的摘要和检索，以一种自然高效的方式实现对视频内容的处理和控制。

传统的剧本与视频的匹配是通过字幕中的时间戳信息来实现的。如图1所示，剧本由一系列的场景组成，每个场景单元记录了一组人物的对话信息。相应的，字幕由一系列的对话组成，每个对话包含了显示在视频中的时间区间，但是并不包含相应的说话者信息。根据剧本和字幕的构成特点，可以通过字符串匹配的方法首先将剧本与字幕相关联，然后利用字幕文件中的时间信息将相应的剧本内容匹配到视频片段中。

尽管上述的方法能够取得相对精细的匹配结果，但是它仍然存在着诸多问题。一方面，不同于电视剧剧本，字幕文件在许多非英语类国家的电视剧中并不是默认提供，这限制了基于时间戳的剧本视频匹配方法的适用范围。另一方面，剧本代表着编剧的构想而字幕对应着演员的对话，在实际的拍摄过程中这两者并非完全的对应。显然，剧本与字幕的不一致程度直接影响了基于时间戳方法最终的匹配精度。

电视剧的核心是故事，而故事的主体是角色。正是由于角色的出现和他们的交互才推动者故事情节的不断发展。相比于时间戳信息，故事角色对于剧本和视频而言都是一个自然的存在。在剧本中，角色的出场是通过对话来提示的(每个对话前都会冠以相应的说话人姓名)；在视频中，角色的出场直接反应为人脸的出现。因此，基于人物关系的剧本视频匹配研究具有广泛的应用前景。

发明内容

为了解决上述问题，考虑到人物关系对于传递故事情节所具有的重要作用，本发明提出了一种基于角色构成关系的电视剧视频分析方法。该方法的核心思想是通过对角色人名与人脸构成关系的研究，找到电视剧剧本与其视频在语义结构上的对应，从而最终得到视频人脸的识别以及语义场景的分割。

本发明所提出的一种基于角色的电视剧视频分析方法，其特征在于，该方法包括以下步骤：

步骤1，提取角色直方图来表征视频和剧本中的角色出现关系；

步骤2，根据提取出的角色直方图，构建生成式电视剧拍摄模型，在所述生成式电视剧拍摄模型中，将角色人名与人脸的对应关系表示为一个重要的模型参数，而剧本场景与视频镜头的对应关系当做一种隐含的状态序列；

步骤3，对所述生成式电视剧拍摄模型中的参数进行学习，得到最优的模型参数，进而得到视频人脸的身份；

步骤4，推理最优的隐含状态，进而得到最优的视频场景划分。

本发明能够在无需人工标注的情况下自动地识别识别视频人脸的身份，特别适用于大规模的视频内容分析；同时，由于引入剧本文件做指导，得到的场景划分具有语义可理解、可比较的优势。

附图说明

图1是现有技术中基于时间戳的剧本与视频匹配方法示意图。

图2是本发明所提出的基于角色的电视剧视频分析方法流程图。

图3是根据本发明实施例的人名直方图示例。

图4是根据本发明实施例的人脸直方图示例

图5是根据本发明实施例的角色识别结果。

图6是根据本发明实施例的电视剧场景分割实例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图2是本发明所提出的基于角色的电视剧视频分析方法流程图。如图2所示，本发明所提出的基于角色的电视剧视频分析方法包括以下步骤：

步骤1，提取角色直方图来表征视频和剧本中的角色出现关系。

本发明提出了角色直方图的概念来表征电影/电视剧中的人物出现关系。角色直方图定义为一个向量，它的每一维都对应了一个角色人物，其幅值则反应了该角色在场景中出现的次数。在剧本中，角色直方图表示为人名直方图，它反应了不同角色在说话次数上的分布情况。在视频中，角色直方图表示为人脸直方图，它反应了不同角色在镜头中出现次数的分布。

所述人名直方图具体的提取步骤包括：

步骤1.1，利用正则表达式来解析剧本的场景结构和人物对话，从而检测出每个场景中出现的人名；

标准的电视剧剧本一般都有固定的写作格式，利用这些格式上的特点，可以很容易的定位故事角色姓名，进而得到其人名直方图表示。以图1为例，每个场景片段开始的时候都有一个“Scene”的标示符，其后记录了场景的发生时间和地点信息。其后，以空行为间隔依次记录了角色的对话内容。对于每一次的角色对话，都是按照“人名：内容”的方式来记录。直接利用正则表达式来解析剧本的场景结构和人物对话，从而检测出每个场景中出现的人名。

步骤1.2，根据上述人名检测的结果，统计每个场景中的不同角色人名的出现(对话)次数，从而得到如图3所示的人名直方图表示。

所述人脸直方图具体的提取步骤包括：

步骤1.3，对连续视频帧的近邻位置进行检测，得到一组时空近邻的人脸图像序列X_i作为后续人脸聚类的基本单元；

利用开源软件OpenCV所提供的人脸检测算法实时实现。根据电视剧视频的特点，从连续视频帧的近邻位置检测得到的人脸图像序列往往对应着同一个角色人物，因此将检测到的一组时空近邻的人脸图像序列X_i作为后续人脸聚类的基本单元。

步骤1.4，采用约束聚类的方法来对检测到的人脸图像序列集合Ξ＝[X₁，X₂，...，X_n]进行聚类，其中，n为……，得到K个代表不同身份的人脸序列簇Ф＝[X⁽¹⁾，X⁽²⁾，...，X^(K)]：

首先计算两两人脸图像序列间的流形距离矩阵Δ＝{δ_ij}，其中，

δ_{ij} = \min_{x_{i}^{m} &Element; X_{i}} \min_{x_{j}^{n} &Element; X_{j}} Dist (x_{i}^{m}, x_{j}^{n}) - - - (1)

和

分别为第i和j个人脸图像序列，Dist(·，·)是任意两幅图像的距离度量。

然后计算有约束的人脸图像序列相似度矩阵Г＝Δ+Ω，其中

公式(2)中第一种分支情况表示人脸序列X_i与X_j存在时间上的重叠(即有两张人脸同时出现在同一幅视频帧中)，此时应该对其相似度进行惩罚；反之，第二种分支情况则不对原有相似度矩阵做修改。

接着计算正定化相似度矩阵：Г₊＝Г+μ·I，其中，I为单位阵，μ为一个正数，其使得最终得到的矩阵Г₊正定。

最后对正定化后的相似度矩阵Г₊做标准的核K均值(kernel K means)聚类，得到K个代表不同身份的人脸序列簇Ф＝[X⁽¹⁾，X⁽²⁾，...，X^(K)]。

步骤1.5，根据上述人脸聚类的结果，统计每个镜头中的属于不同人脸簇的角色出现次数，从而得到如图4所示的人脸直方图表示。

步骤2，根据提取出的角色直方图，构建生成式电视剧拍摄模型，在所述生成式电视剧拍摄模型中，将角色人名与人脸的对应关系表示为一个重要的模型参数，而剧本场景与视频镜头的对应关系当做一种隐含的状态序列。

基于角色直方图的概念，本发明进一步提出了一个生成式的电视剧拍摄模型来模拟电视剧的拍摄过程。其中，将角色人名与人脸的对应关系表示为一个重要的模型参数，而剧本场景与视频镜头的对应关系当做一种隐含的状态序列。最终，通过模型参数的学习，可以无监督的得到视频人脸的身份；通过隐状态的推理，可以找到最优的视频场景划分。

在具体的建模之前，首先列出后面描述所要用到的一些重要的符号及其所表示的含义：

表1符号及其含义

基于上述的定义，假设电视剧的拍摄过程为：(1)从前一个场景s_i-1进入到下一个场景s_i；(2)决定第i个场景的所对应的场景划分p_i＝(t_i，d_i)；(3)产生相应的观测子序列

因此，相应的生成式电视剧拍摄模型为：

其中，P(s₁)为初始第一个场景为s₁的出现概率，P(s_i|s_i-1)为场景转移概率 P(p_i|s_i)为第i个场景长度概率，P(v_(i)|p_i，s_i)为第i个场景的观测概率。

由于故事场景的转移已经在剧本中定义，所以有：

\{\begin{matrix} P (s_{1}) = 1, & iff & s_{1} = 1 \\ P (s_{i} | s_{i - 1}) = 1, & iff & s_{i} = i, s_{i - 1} = i - 1 \end{matrix} - - - (4)

利用(4)可以将原始的电视剧拍摄模型(3)简化为

其中只需要对场景长度和观测进行建模。

利用泊松分布建模第i个场景的持续长度d_i：

P (p_{i} | s_{i}; λ_{i}) = \frac{λ_{i}^{d_{i}} e^{- λ_{i}}}{d_{i}!} = e^{- λ} \cdot \frac{λ_{i}^{d_{i}}}{d_{i}!} - - - (6)

其中，{λ_i}为泊松分布参数，它控制着期望的场景长度。

使用高斯分布来建模相应的观测概率：

P (v_{(i)} | p_{i}, s_{i}; A, σ_{i}) = \frac{1}{\sqrt{2 π σ_{i}^{2}}} \cdot \exp {- \frac{{(s_{i} - {Av}_{(i)})}^{T} (s_{i} - {Av}_{(i)})}{{2 σ}_{i}^{2}}} - - - (7)

其中{σ_i}是协方差系数，矩阵A∈口^M×N为人名-人脸关系矩阵，分别对应M个人名和N个人脸。如果进一步限制A中元素非负，且列和为1，则可以将A理解为一个关于人脸身份的概率矩阵。

步骤3，对所述生成式电视剧拍摄模型中的参数进行学习，得到最优的模型参数，进而得到视频人脸的身份。

利用极大似然估计的方法来学习上述模型中的参数Ψ＝{{λ_i}，{σ_i}，A}：

A≥0

\begin{matrix} s . t . & I_{M}^{T} A = I_{N}^{T} \end{matrix} - - - (8)

A &GreaterEqual; 0

其中，

与

分别对应M与N维的全1向量，

和Ψ分别表示当前和上一次迭代的模型参数。

{λ_i}和{σ_i}的求解其实是计算一个无约束的优化问题，相应的迭代结果为：

对于A，它的求解可以利用非负矩阵分解的方法得到

A_{ij} &LeftArrow; A_{ij} \sqrt{\frac{{(W - I_{M} η^{T})}_{ij}^{+}}{2 {(AU)}_{ij} + {(W - I_{M} η^{T})}_{ij}^{-}}} - - - (11)

其中，

其中的I_M和I_N的表示维度分别为M和N的全1向量，而

和

则定义为

\{\begin{matrix} {(W - I_{M} η^{T})}_{ij}^{+} = \frac{| {(W - I_{M} η^{T})}_{ij} | + {(W - I_{M} η^{T})}_{ij}}{2} \\ {(W - I_{M} η^{T})}_{ij}^{-} = \frac{| {(W - I_{M} η^{T})}_{ij} | - {(W - I_{M} η^{T})}_{ij}}{2} \end{matrix} - - - (13)

由此，通过矩阵A就可以直接得到人脸和人名的对应关系，并不需要额外的训练和标注。

步骤4，在得到最优的模型参数Ψ之后，可以利用标准的Viterbi算法去推理最优的隐含状态

进而得到最优的视频场景划分。

其实现过程分为前向遍历和反向回溯两个部分。首先，在前向遍历时，依次针对每个场景划分计算一个前向得分：

δ_{τ} (s_{i}; θ) = \max_{τ} P (p_{[1 : i - 1]}, s_{[1 : i - 1]}, τ &Element; p_{i}; Ψ)

= \max_{d_{i}} (δ_{τ - d_{i}} (s_{i - 1}) P (d_{i} | s_{i}; λ_{i} |) P (o_{(i)} | p_{i}, s_{i}; A, Σ)) - - - (14)

其中p_i＝(t_i，d_i)＝(τ-d_i+1，d_i)，p_[1:i-1]为前i-1个场景所对应的视频镜头划分，s_[1:i-1]为前i-1个场景，τ为第i个场景的持续长度。

通过反向回溯阶段，最终每个场景的最优持续长度可以通过遍历所有可能的长度来决定：

其中δ_τ(s_i)为第i个场景的在持续τ个镜头时的概率值。

实施效果

为了评估本发明，设计了两组实验，分别研究角色识别和场景分割的准确度。数据集包括5集的《老友记》和5集的《我爱我家》电视剧。

角色识别

由于人脸聚类的数目决定了人脸直方图的维度，进而间接影响了剧本视频的匹配精度。因此考察了在不同人脸聚类数目下的角色识别结果。利用手工标注的人脸身份作为参考值，然后比较自动识别的结果与参考值之间的差异。本发明利用了标准的准确度-召回率的指标来衡量角色识别的结果，并提出了加权的F measure参数来进行综合的评价。

表2是本发明实施例的人脸识别结果，其中的不同列对应不同的人脸聚类个数，例如“X 2.0”对应两倍的角色数目。从表2中可以看出，较少的人脸聚类由于缺乏足够的判别力，因此不能得到较高的识别结果；反之，过多的人脸聚类由于弱化了与人名之间的对应性，因此实验效果也不理想。为此，本发明提出了一种实验性的人脸识别纯度指标

其中，N为人脸聚类的个数，A_ij为第j个人脸聚类对应第i个人名的概率，并认为纯度变化最大时(

)的人脸聚类参数为最优。这样做的根据是由于C反应了平均的人脸识别精度。在人脸聚类数目较少的初期，人脸识别精度的增加往往是由于更加准确的聚类所导致的；而随着人脸聚类数目的增加，由于人名人脸对应性的减弱反而识别精度会降低。因此局部峰值能够比较理想的反应最佳的聚类数目。

表2人脸识别结果

图5给出了《老友记》电视剧中部分角色的识别示例。其中黄框为人脸检测结果，下方的文字表示了相应的角色姓名。

场景分割

本发明利用人工划分的场景结果作为参考，度量了自动的场景分割结果与参考结果的重合程度。相应的结果如表3所示。

表3场景分割结果

图6给出了部分场景分割的实例结果。图6左侧为剧本场景描述，右侧为检测出来的视频镜头截图。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。