CN101316327B

CN101316327B - 一种多模态融合的采访镜头检测方法

Info

Publication number: CN101316327B
Application number: CN200710099725A
Authority: CN
Inventors: 刘安安; 李锦涛; 张勇东; 唐胜; 宋砚
Original assignee: Institute of Computing Technology of CAS
Current assignee: Dongguan Lianzhou Electronic Technology Co Ltd
Priority date: 2007-05-29
Filing date: 2007-05-29
Publication date: 2010-05-26
Anticipated expiration: 2027-05-29
Also published as: CN101316327A

Abstract

本发明公开了一种多模态融合的采访镜头检测方法，包括：输入未编辑的原始视频，对视频进行预处理，得到原始视频的视频流和音频流，以及视频流中的镜头、各个镜头的关键帧；根据视频预处理操作所得到的音频流建立人声模型，并依赖所建立的人声模型判断镜头是否为包含人声的镜头；根据视频预处理操作所得到的视频流建立人脸模型，并依赖人脸模型判断镜头是否为包含人脸的镜头；融合人声检测结果和人脸检测结果，如果一个镜头中同时包含人声和人脸信息，则镜头为采访镜头。本发明的优点是通过融合视频和音频信息，建立通用的基于镜头的采访检测模型，并实现了对未经编辑的原始视频的概念检测和标注。

Description

一种多模态融合的采访镜头检测方法

技术领域

本发明涉及视频编辑领域，特别涉及一种多模态融合的采访镜头检测方法。

背景技术

在电影、新闻等视频编辑领域中，大量的未经编辑的原始素材被用于视频制作。这些原始素材包括以下三个主要特征：

1、包含大量的静止场景和冗余片段；

2、原始素材的音频通常伴有噪声，并且很难通过自动语音识别技术实现音频到文本的转化；

3、.对于原始素材的文本介绍很少，很难通过文本信息实现视频内容分析。

因此，对未经人工编辑的原始视频的分析不同于现有对已编辑视频(如：电影，新闻，体育视频等)的研究，是个具有挑战性的新兴的研究领域。

通常，新闻视频原始素材包含采访镜头、人物活动镜头、自然风光镜头和一些冗余镜头。对于新闻视频制作而言，采访镜头最为重要。采访镜头通常记录的是记者和被采访人的对话或者被采访人的自述，一般具有人脸和人声信息。目前现有的人物识别方法多数是通过建立特定说话人模型进行人物检测，例如通过混合高斯模型(GMM)建立新闻主播模型，在参考文献1《Aaron E.Rosenberg，IvanMagrin-Chagnolleau，S.Parthasarathy et al，“Speaker Detection in Broadcast SpeechDatabases”，Proceeding of ICSLP’98，Sydney，Australia》中就有对如何利用混合高斯模型建立新闻主播模型的详细说明。但是对于未经编辑的原始视频而言，被采访者的多样性导致现有依靠特定说话人模型的方法不具有更广的通用性。

此外，现有视频分析方法多依据特定视频类型本身的特征，如电影分析可以依据电影编辑手法，体育视频分析可以依据体育视频拍摄规则等，而新闻原始素材没有特定的规律可遵循，这给原始新闻的视频分析带来很大困难。

发明内容

本发明的目的是克服现有的人物识别方法在检测未经编辑的新闻视频时，需要依赖特定说话人模型，通用性低的缺陷，从而提供一种融合视频和音频信息，具有较大通用性的采访镜头检测方法。

为了实现上述目的，本发明提供了一种多模态融合的采访镜头检测方法，按照以下步骤顺序执行：

步骤10)、输入未编辑的原始视频，对视频进行预处理，得到原始视频的视频流和音频流，以及视频流中的镜头、各个镜头的关键帧；

步骤20)、根据所述的音频流建立人声模型，并依赖所述的人声模型判断镜头是否为包含人声的镜头；

步骤30)、根据所述的视频流建立人脸模型，并依赖所述的人脸模型判断镜头是否为包含人脸的镜头；

步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型，并在所述的采访模型中融合人声检测结果和人脸检测结果，根据融合的结果判断镜头是否为采访镜头，如果一个镜头中同时包含人声和人脸信息，则所述镜头为采访镜头。

上述技术方案中，在所述的步骤10)中，所述对输入的原始视频的预处理具体包括以下步骤：

步骤11)、将输入视频分为视频流和音频流；

步骤12)、对所述视频流进行镜头边界检测和关键帧提取。

上述技术方案中，在所述的步骤20)中，所述人声模型的建立具体包括以下步骤：

步骤21)、从音频流中提取基于帧的短时音频特征；

步骤22)、根据音频内容，将各音频短时帧对应的音频特征标注为人声类或非人声类，建立训练数据集和测试数据集，并将未编辑原始视频中的音频流数据添加到所述训练数据集或测试数据集；

步骤23)、通过支持向量机分类器和所述训练数据集建立人声模型；

步骤24)、通过有限状态机对所述测试数据集中音频短时帧的分类结果做平滑，得到音频短时帧类型的检测结果；

步骤25)、根据所述检测结果，计算一个镜头中人声类型的音频短时帧占总帧数的比例，并判断所得到的比例是否大于第三阈值，如果大于，则所在镜头为包含人声的镜头。

在所述的步骤21)中，所述的短时音频特征为短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。

在所述的步骤25)中，所述的第三阈值为0.7。

上述技术方案中，所述的步骤30)具体包括以下步骤：

步骤31)、建立人脸模型，对所述步骤10)所得到的各镜头关键帧是否包含人脸概念进行判断，并记录包含人脸概念的关键帧；

步骤32)、计算一个镜头中包含人脸概念的关键帧占该镜头中总关键帧的比例；

步骤33)、根据所述比例，判断镜头是否为包含人脸的镜头。

在所述的步骤31)中，通过AAM(Active Appearance Models，主动外观模型)方法建立人脸模型。

在所述的步骤32)中，对所得到的比例进行优化，所述优化的具体实现如下：

步骤32-1)、计算用于表示关键帧重要性的聚合度因子，并将该因子与所述步骤32)中所得到的比例相乘，得到一个新的比例，用第三比例Ratio₃表示；其中，所述聚合度因子表示一个关键帧对关键帧所在镜头的表征能力；

步骤32-2)、计算用于表示镜头重要性的时间因子，并将该因子与所述步骤32)中所得到的比例相乘，得到又一个新的比例，用第四比例Ratio₄表示；所述时间因子表示镜头长度占整个视频长度的比例。

在所述的步骤32-1)中，在计算所述聚合度因子时，将镜头的总帧数除以镜头的关键帧数。

在所述的步骤32-2)中，在计算所述时间因子时，将镜头的时间除以镜头所在原始视频的时间。

在所述的步骤33)中，用Ratio₂表示步骤32)所得到的比例，则判断镜头是否为包含人脸概念的镜头的具体操作如下：

如果Ratio₂＞Th₄，则决策值DV₁＝1，否则DV₁＝0；

如果Ratio₃＞Th₅，则决策值DV₂＝1，否则DV₂＝0；

如果Ratio₄＞Th₆，则决策值DV₃＝1，否则DV₃＝0；

如果DV₁||DV₂||DV₃＝1，则该镜头包含人脸信息，否则不包含人脸信息；

其中，“||”表示“或”操作，第四阈值Th₄为0.2，第五阈值Th₅为0.3，第六阈值Th₆为0.3。

本发明的优点是通过融合视频和音频信息，建立通用的基于镜头的采访检测模型，并实现了对未经编辑的原始视频的概念检测和标注。

附图说明

图1为本发明的多模态融合的采访镜头检测方法的流程图；

图2为有限状态机状态转移图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

如图1所示，本发明的多模态融合的采访镜头检测方法具体包括以下步骤：

步骤10、输入未编辑的原始视频，对视频进行预处理，所述的预处理操作得到原始视频的视频流和音频流，以及视频流中的镜头、各个镜头的关键帧。所述的预处理操作具体包括以下步骤：

步骤11、将输入视频分为视频流和音频流；

步骤12、对所得到的视频流进行镜头边界检测和关键帧提取。在本申请中，所提到的镜头是内容相似、时间连续的一系列帧，对视频流做镜头边界检测就是要将不同内容的视频帧分割开来。而关键帧则是最能体现镜头特征的帧，在一个镜头中，可以有一个以上的关键帧。

对镜头边界的检测和关键帧的提取属于成熟的现有技术，在参考文献2《Yueting Zhuang，Yong Rui，Thomas S.Huang et al.Adaptive key frameextraction using unsupervised clustering.Image Processing，ICIP 1998》中有详细的描述。

步骤20、根据视频预处理操作所得到的音频流建立人声模型，并依赖所建立的人声模型判断镜头是否为包含人声的镜头。人声模型的建立具体包括以下步骤：

步骤21、从音频流中提取基于帧的短时音频特征。这些短时音频特征具体包括短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。其中，短时音频能量是指每个音频短时帧所有样点的能量总和；短时过零率是指每个音频短时帧中语音信号波形穿过零电平的次数；美尔倒谱系数用来表征语音信号，其中的低频系数表征激励信号(或基音频率)，高频系数表征共振信号；子带能量是指每个音频短时帧信号频域上某一子带的能量；子带能量比是指每个音频短时帧信号频域上某一子带的能量占所有子带能量和的比例。上述说明中所提到的音频短时帧是指将时域上连续的若干个离散的频采样点作为一个音频处理的基元。

对上述短时音频特征的提取属于成熟的现有技术，在参考文献3《Bai Liang，HuYaali，Lao Songyang，et al.Feature analysis and extraction for audio automaticclassification.Proc.of IEEE International Conference on System，Man and Cybernetics，2005》中有详细的记载。

步骤22、根据音频内容，将各音频短时帧对应的音频特征向量标注为人声类或非人声类，建立训练数据集和测试数据集，并将未编辑原始视频中的音频流数据添加到训练数据集或测试数据集；训练数据集中的数据只要随机选取音频流数据的一部分即可，其余音频流数据在测试数据集中，训练数据集和测试数据集之间没有交集。

步骤23、通过支持向量机分类器和步骤22得到的训练数据集建立人声模型；

步骤24、通过步骤23得到的人声模型检测步骤22得到的测试数据集中音频短时帧的类型，并通过有限状态机对分类结果做平滑。在本步骤中，所述的音频短时帧的类型是指该音频短时帧为人声还是非人声。在本步骤中所采用的有限状态机定义如下：

A＝(Q，∑，σ，q₀，F)

Q : \{\begin{matrix} S_{1} : Speech, S_{3} : Transition_SpeechToNonspeech, \\ S_{2} : Non - Speech, S_{4} : Transition_NomspeechToSpeech \end{matrix}\}

q₀ and F：{I₁：Speech，I₂：Non-Speech}

其中，Q表示有限状态机的状态集，σ表示状态转换集，∑表示状态转移条件，q₀表示初始状态，F表示终止状态。Label表示音频短时帧分类结果，P(ratio|S3)andP(ratio|S4)表示分别在状态3和状态4下一个镜头中人声类的短时帧占总帧数的概率，counter表示计数器，Th₁和Th₂表示由音频分类实验确定的阈值。具体状态转移图请参考图2。

步骤25、计算一个镜头中人声类型的音频短时帧占总帧数的比例Ratio，判断所得到的比例是否大于指定的阈值Th₃，如果Ratio＞Th₃，则该镜头为包含人声概念的镜头。其中，Th₃由音频分类实验确定，在本实施例中可以取0.7。

步骤30、根据视频预处理得到的视频流建立人脸模型，并依赖人脸模型判断镜头是否包含人脸。本步骤的具体实现步骤如下：

步骤31、建立人脸模型，根据人脸模型检测步骤10所得到的各镜头关键帧是否包含人脸概念，记录包含人脸概念的关键帧。建立人脸模型可采用现有的成熟技术，在本实施例中，可采用AAM方法建立人脸模型。该方法在参考文献4《ZhaoMing，Chen Chun，Li S Z，et al.Subspace analysis and optimization for AAM based facealignment[A].In Proc.of Sixth IEEE International Conference on Automatic Face andGesture Recognition[C].Seoul，South Korea，2004.290-295.》中有详细说明。

步骤32、计算包含人脸概念的关键帧占总关键帧的比例Ratio₂，并优化该比例。在优化时可采用以下方法：

步骤32-1、计算聚合度因子(CD)：CD表示了一个关键帧对该镜头的表征能力，表征了每个关键帧的重要性，其计算公式如下：

CD = \frac{Total_frame_Number}{Keyframe_Number}

由该公式可知，在计算聚合度因子时，是将镜头的总帧数除以镜头的关键帧数。求得聚合度因子后，可通过该因子优化Ratio₂：

Ratio₃＝Ratio₂*CD

步骤32-2、计算时间因子(TF)：TF表示镜头长度占整个视频长度的比例，表征了镜头的重要性，其计算公式如下：

TF = \frac{Shot_time}{Video_time}

求得时间因子后，通过该因子优化Ratio₂：

Ratio₄＝Ratio₂*TF

步骤33、通过Ratio₂，Ratio₃，Ratio₄判断镜头是否包含人脸概念：

如果Ratio₂＞Th₄，则决策值DV₁＝1，否则DV₁＝0；

如果Ratio₃＞Th₅，则决策值DV₂＝1，否则DV₂＝0；

如果Ratio₄＞Th₆，则决策值DV₃＝1，否则DV₃＝0；

如果DV₁||DV₂||DV₃＝1，则该镜头包含人脸信息，否则不包含人脸信息。

其中，“||”表示“或”操作，阈值Th₄，Th₅，Th₆由实验决定，在本实施例中，Th₄＝0.2，Th₅＝0.3，Th₆＝0.3。

在本实施例的步骤32和步骤33中，对包含人脸概念的关键帧占总关键帧的比例做了优化，并根据优化前后的比例判断镜头是否包含人脸，但在其他的实施例中，也可以不对包含人脸概念的关键帧占总关键帧的比例做优化，直接使用该比例判断镜头是否包含人脸。

步骤40、根据步骤20的人声检测结果和步骤30的人脸检测结果建立采访模型，在该采访模型中融合人声检测结果和人脸检测结果，并按照融合的结果实现采访镜头的检测。在融合时，如果一个镜头中同时包含人声和人脸信息，则该镜头为采访镜头。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多模态融合的采访镜头检测方法，按照以下步骤顺序执行：

2.根据权利要求1所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤10)中，所述对输入的原始视频的预处理具体包括以下步骤：

步骤11)、将输入视频分为视频流和音频流；

步骤12)、对所述视频流进行镜头边界检测和关键帧提取。

3.根据权利要求1所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤20)中，所述人声模型的建立具体包括以下步骤：

步骤21)、从音频流中提取基于帧的短时音频特征；

4.根据权利要求3所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤21)中，所述的短时音频特征为短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。

5.根据权利要求3所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤25)中，所述的第三阈值为0.7。

6.根据权利要求1所述的多模态融合的采访镜头检测方法，其特征在于，所述的步骤30)具体包括以下步骤：

步骤33)、根据所述比例，判断镜头是否为包含人脸的镜头。

7.根据权利要求6所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤31)中，通过AAM方法建立人脸模型。

8.根据权利要求6所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤32)中，对所得到的比例进行优化，所述优化的具体实现如下：

9.根据权利要求8所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤32-1)中，在计算所述聚合度因子时，将镜头的总帧数除以镜头的关键帧数。

10.根据权利要求8所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤32-2)中，在计算所述时间因子时，将镜头的时间除以镜头所在原始视频的时间。

11.根据权利要求8所述的多模态融合的采访镜头检测方法，其特征在于，在所述的步骤33)中，用Ratio₂表示步骤32)所得到的比例，则判断镜头是否为包含人脸概念的镜头的具体操作如下：

如果Ratio₂＞Th₄，则决策值DV₁＝1，否则DV₁＝0；

如果Ratio₃＞Th₅，则决策值DV₂＝1，否则DV₂＝0；

如果Ratio₄＞Th₆，则决策值DV₃＝1，否则DV₃＝0；

如果DV₁‖DV₂‖DV₃＝1，则该镜头包含人脸信息，否则不包含人脸信息；

其中，“‖”表示“或”操作，第四阈值Th₄为0.2，第五阈值Th₅为0.3，第六阈值Th₆为0.3。