CN101593273A

CN101593273A - 一种基于模糊综合评价的视频情感内容识别方法

Info

Publication number: CN101593273A
Application number: CNA2009100833936A
Authority: CN
Inventors: 温向明; 林新棋; 孙勇; 路兆铭; 何培舟; 郑伟
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-08-13
Filing date: 2009-08-13
Publication date: 2009-12-02

Abstract

本发明属于视频内容分析领域，具体涉及一种基于模糊综合评价的视频情感内容识别方法。现有视频情感内容识别方法缺乏考虑情感的模糊属性问题。针对现有方法中存在的不足，本发明首次将模糊理论中模糊综合评价模型用于视频情感内容识别。与现有的方法相比，本发明提出的方法充分考虑到视频情感内容的模糊属性，在模糊综合评价模型的基础上，本发明用一个与情感紧密相关的高层特征向量来表示视频片段内容，在高层上研究视频情感内容识别；进一步，采用人工神经网络(ANN)来模拟人类情感反应系统，识别视频片段诱发观众产生的基本情感类型。实验结果证实了本发明在视频情感内容识别中的有效性和可行性。

Description

一种基于模糊综合评价的视频情感内容识别方法

技术领域

本发明属于视频内容分析领域，特别是一种基于模糊综合评价的视频情感内容识别方法。

背景技术

随着多媒体技术与网络技术的发展，数字视频逐渐成为现代信息系统的主要媒体形式。在海量的视频数据和快节奏的生活环境中，人们没有时间也没有兴趣将所有的视频文件挨个观看，往往只根据个人的爱好寻找感兴趣的、令人兴奋或令人恐怖的视频或视频片断，这些特征表明人们需要一个个性化情感视频应用服务技术。自从Picard教授提出“情感计算”(Affective Computing)概念以来，视频情感内容计算被众多学者认为是实现个性化视频服务技术(Personalization Service Technology)和缩短“语义鸿沟”的一个有效途径，有助于进一步完善多媒体内容描述接口MPEG-7。目前，视频情感内容分析技术已经成为多媒体内容分析领域研究的热点问题。

现有的技术中，如文献“Affective content detection using HMMs”[Hong-Bong Kang，ACM internationalconference on Multimedia 2003，PP：259-262]所述，视频情感内容分析的一般方法是首先进行视频结构化处理，包括镜头边界检测、关键帧选择、场景边界检测，以镜头或场景作为视频情感内容分析基本结构单元；然后在每个镜头内部提取关键帧来表示镜头的视觉内容，从关键帧提取颜色、纹理、形状等低层特征，同时提取镜头对应的音频片段的低层特征，从而获得镜头或场景低层特征向量用于情感内容分析；最后，利用分类器或规则推理等方法建立低层特征空间和情感类型空间之间的链接桥梁。这类方法存在的问题是：大部分从低层特征层次来考虑情感内容问题，但是人们根本无法根据低层特征重构镜头或场景诱发的情感类型，也即是他们之间存在“情感鸿沟”，因此，直接建立低层特征和情感空间之间的桥接模型难以解决“情感鸿沟”问题，识别精确度(介于50％与71％之间)还不能满足人们的要求。另外，在2007年，文献“Videoaffective content representation and recognition using video affective tree and Hidden Markov Model”[Sun K andYu J Q，ACII，2007，PP：594-605]用视频情感树高层特征来表示视频内容，在高层特征空间上使用HMM模型建立两者之间的映射模型，识别精确度有所提高。但是，由于视频情感内容具有模糊属性，而目前提出的方法都没有考虑到该属性。

发明内容

针对现有视频情感内容分析技术存在的缺陷，本发明的目的是提出一种基于模糊综合评价的视频情感内容识别方法，该方法不仅考虑情感的模糊属性，而且在高层上考虑视频情感内容，能够提高视频情感内容的识别精确度和识全率，有助于推动个性化视频服务，有助于缩短“语义鸿沟”和改善多媒体内容描述接口MPEG-7。

为实现上述目的，本发明包括以下步骤：

(1)将RGB颜色空间转变为HSL颜色空间，用符合人类视觉感知的颜色空间来表示视觉内容；

(2)对视频数据库进行镜头分割，以镜头作为基本结构单元，进一步提取镜头低层特征向量；

(3)对镜头边界进行检测以识别场景边界，以场景作为研究单元，进一步提取场景低层特征向量；

(4)改进模糊综合评价模型，计算出能够反映场景情感信息的场景高层特征向量；

(5)利用高层特征向量和人工神经网络识别该场景诱发观众产生的基本情感类型。

进一步来说，步骤(2)中对视频数据库进行镜头分割的方法最好为鲁棒性好的算法，低层特征提取模型设为y_i(t)＝F_i(x_i(t))，其中t表示第t个镜头，x_i(t)表示第t个镜头第i个低层特征基本数据，y_i(t)表示第t个镜头第i个低层特征值，i＝1，2，...，m；

步骤(3)中应采用有效的和鲁棒性的场景边界识别算法，低层特征提取模型设为

z_{i} (k) = G_{i} (y_{i} (t_{1}), y_{i} (t_{2}), \cdot \cdot \cdot, y_{i} (t_{p_{k}})),

其中k表示第k个场景，t₁、t₂、...、t_pk表示第k个场景所包含的镜头，z_i(k)表示第k个场景的第i个低层特征值，i＝1，2，...，m；从而场景特征向量为Z＝(z₁(k)，z₂(k)，…，z_m(k))；

步骤(4)改进模糊综合评价模型，并计算场景的高层特征向量，具体设为H＝W*R(Z)，其中W为n*m维的矩阵，n表示基本情感类型总数，(i，j)位置的元素表示第j个场景特征诱发观众产生第i个基本情感类型的综合贡献程度，称W为联合综合评价权重矩阵；R(Z)表示场景低层特征和基本情感之间的模糊关系，(i，j)位置的元素表示第i个场景特征诱发观众产生第j个基本情感类型的评价程度，称R(Z)为单因素评价矩阵；H中(i，j)位置的元素表示在场景诱发观众产生第i个基本情感类型的前提下，场景被评价为第j个基本情感类型的综合评价值。显然，如果场景诱发观众产生第i个基本情感类型，那么被评价为第i个基本情感类型应该是最合理的。因此，计算出的高层特征向量为(h₁₁，h₂₂，...，h_nn)。

步骤(5)采用三层BP人工神经网络识别场景诱发观众产生的基本情感类型，具体如图2所示。

本发明的效果在于：采用本发明所描述的一种基于模糊综合评价的视频情感内容识别方法，可以取得更高的识别精确度，也可以保持较高的识别识全率。

本发明之所以具有如此显著的技术效果，其原因在于：

(1)选择HSL颜色空间模型表示视觉内容，与人的情感感知相一致。

(2)考虑到人的情感描述和情感反应的模糊属性，与人的思维表达相一致。

(3)利用联合综合评价权重矩阵来体现不同低层特征对诱发不同基本情感的不同贡献程度。

(4)采用人工神经网络模拟人的情感反应，是目前模拟人类行为的一种比较有效的工具。

附图说明

图1基于模糊综合评价的视频情感内容识别方法流程图

图2三层BP神经网络模型

具体实施方式

图1是本发明中各个步骤的流程示意图。如图1所示，一种基于模糊综合评价的视频情感内容识别方法应该包括一下几个步骤：

1、颜色空间转变

文献“Fuzzy-based algorithm for color recognition of license plates”[Wang F，Man L C，Wang B P等，PatternRecognition Letters，2008，Vol.29，No.7，PP：1007-1020]提出HSL颜色空间符合人类的情感感知。因此，本发明将RGB颜色空间转化为HSL颜色空间。

2、镜头分割及镜头特征提取

本发明采用一种有效的和鲁棒的镜头分割算法，对视频数据库进行分割，详细的算法描述可以参考文献“Efficient and robust shot change detection”[Lefevre S and Vincent N，Journal of Real-Time Image Processing，2007，Vol.2，PP：23-34]。采用关键帧代表镜头内容。关键帧选择可以采用基于聚类的算法，也可以采用简单的算法，本发明采用镜头的第一帧、中间帧和最后一帧作为镜头关键帧。

进一步，经常采用的三个低层镜头特征模型如下：

(1)亮度特征

F_{1} (k) = \frac{FL (first, k) + FL (median, k) + FL (last, k)}{3},

其中FL(i，k)＝f₁(像素L分量，帧亮暗程度)，i表示镜头中的第i个视频帧，如i＝first表示镜头中的第一个视频帧，i＝median表示镜头中的中间视频帧，i＝last表示镜头中的最后一个视频帧。

(2)节奏特征

F₂(k)＝f₂(镜头长度)，其中镜头长度可以表示为镜头内所包含的视频帧总数，也可以用镜头播放的时间长度来表示。

(3)颜色能量

F_{3} (k) = \frac{FCE (first, k) + FCE (median, k) + FCE (last, k)}{3}

其中FCE(i，k)＝f₃(像素H分量，帧亮度，饱和度，彩色面积，对比度)，i表示镜头中的第i个视频帧。

3、场景边界识别及场景特征提取

本发明采用一种模拟人类大脑语义理解方式的场景边界识别算法，对视频数据库中的镜头边界序列进行场景边界识别，详细的算法描述可以参考文献“Computable Scene and Structures in Films”[Sundaram H andChang S F.IEEE Transactions on Multimedia，2002，Vol.4，No.4，PP：482-491]。

进一步，与上面三个低层镜头特征模型对应的场景特征提取模型如下：

g_{i} (t) = \frac{Σ_{k = 1}^{M_{i}} F_{i} (k, t)}{M_{i}},

其中F_i(k，t)表示第t个场景中第K个镜头的第i个特征值，M_i表示第t个场景中所包含的镜头总数，则第t个场景中第i个特征值计算模型为：

G_{i} (t) = \frac{g_{i} (t)}{\max_{t} {g_{i} (t)}},

i＝1，2，3。

最后，将提取的各个场景特征值组合成一个场景低层特征向量，记为Z。

4、高层特征向量计算

提取场景的低层特征之后，本发明分成两步完成高层特征向量提取。

(1)利用特征对基本情感的模糊隶属函数来刻画特征和基本情感之间的模糊关系R(Z)。具体设为

其中μ_ij(z_i)表示第i个特征对第j个基本情感的模糊隶属程度，z_i表示场景的第i个特征值。本发明采用模糊隶属函数来计算μ_ij(z_i)。

更具体地说，我们首先建立一个样本集，对样本集进行情感主观标注，标注为n类；同时将样本的场景特征向量按照情感类型进行分类，对每个情感类型进一步按照特征类型进行分类，最终获得m*n个样本数据集，设为第j类基本情感场景对应的第i个特征值集合为

M_{ij} = {z_{ij} (k) | k = 1,2,3, \cdot \cdot \cdot, T_{M_{ij}}},

其中z_ij(k)表示第k个场景的第i个特征值，

表示该类场景的总数。

在此基础上，根据同类情感的场景同一个特征具有相似性，我们假设场景特征值与各类样本数据集的欧氏距离的函数作为特征对情感的初始隶属函数，具体表示为

p_{ij} (z_{i}^{'}) = \frac{c_{ij}}{d (z_{i}^{'}, M_{ij})},

其中d(z′_i，M_ij)表示特征值z′_i和样本集M_ij之间的欧氏距离，C_ij为待定参数。

进一步，根据样本数据，利用最优化求待定参数C_ij数，也就是求下列最优化问题的解：

\min {Σ_{k = 1}^{T_{M_{ij}}} {(p_{ij} (z_{ij} (k)) - q_{ij} (k))}^{2}},

其中q_ij(k)表示样本集M_ij中第k个场景第i特征诱发观众产生第j类基本情感的主观模糊隶属度。

利用样本数据，求解得到C_ij的值为：

c_{ij} = \frac{Σ_{k = 1}^{T_{M_{ij}}} (\frac{q_{ij} (z_{ij} (k))}{d (z_{ij} (k), M_{ij})})}{Σ_{t = 1}^{M_{ij}} (\frac{1}{d^{2} (z_{ij} (k), M_{ij})})}

于是，最终的模糊隶属函数为

μ_{ij} (z_{i}^{'}) = \frac{p_{ij} (z_{i}^{'})}{Σ_{j = 1}^{n} p_{ij} (z_{i}^{'})},

从而可以求出给定场景对应的单因素评价矩阵R(Z)。

(2)利用联合综合评价权重矩阵建立高层特征提取模型H＝W*R(Z)，其中W采用层次分析法获得各个特征对诱发各个基本情感类型的综合贡献程度。具体层次分析法参见参考文献“模糊(Fuzzy)数学及其应用”[彭祖赠，孙韫玉.模糊(Fuzzy)数学及其应用，武汉大学出版社，武汉，第二版，2007，PP：142-162]。

综合上面两个步骤，场景高层特征向量可以容易的求出。显然，该高层特征蕴含场景诱发观众产生的情感信息，因此有助于场景情感识别。

5、场景情感识别

本发明的最终目的是识别给定场景诱发观众产生的基本情感反应。在高层特征的基础上，本发明采用人工神经网络来实现分类功能，具体我们采用一个三层的BP神经网络，详细的训练和分类算法见参考文献“神经网络设计”[Martin T H，Howard B D，Mark H B等著，戴葵等译，机械工业出版社，2006，PP：197-226]。

Claims

1、一种基于模糊综合评价的视频情感内容识别方法，其特征在于该算法包含一下几个步骤：

(1)该方法主要思想：由于视频内容(即视频不同低层特征)对诱发观众产生的基本情感具有模糊属性，本发明采用模糊理论中的模糊综合评价模型来表示视频场景内容；进一步，采用人工神经网络识别场景诱发观众产生的基本情感；

(2)定义场景低层特征对诱发基本情感的模糊隶属函数μ_ij，并用隶属函数来刻画特征与情感之间的模糊关系。根据前人主观实验分析结果可假设：第j类情感的第i个低层特征数据具有相似性。于是，对于任意一个场景的第i个低层特征值z，将其模糊隶属函数值μ_ij(z)假设为z与对应样本数据集的欧氏距离的函数，即μ_ij(z)＝P(d(z，M_ij))，其中M_ij表示第j类基本情感的第i个特征的样本数据集。一般情况，根据聚类的思想，场景特征值z与某个样本数据集距离越近，则z属于这类数据的可能性越大，故μ_ij与d(z，M_ij)近似成反比关系。

(3)根据最优化理论来求模糊隶属函数μ_ij；

(4)采用低层特征对基本情感的模糊隶属函数来求两者之间的模糊关系R(Z)；

(5)由于不同视频低层特征对评价不同情感的贡献程度不一样，本发明引入联合综合评价权重矩阵W来刻画贡献程度，设为W＝[w_ij]_n×m，其中w_ij表示第j个场景低层特征对诱发第i类基本情感的贡献值，n是基本情感类型的总数，m是场景低层特征的总数。本发明采用层次分析法来求W；

(6)计算各类基本情感的相对综合评价值，即H＝[h_ij]_n×m＝W·R(Z)，其中h_ij表示在场景诱发观众产生的基本情感是第i类的前提下，被评价为第j类基本情感的综合评价值；

(7)采用人工神经网络来识别场景观众产生的基本情感。

2、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法，其特征在于：步骤(2，3)中，计算μ_ij(z)＝P(d(z，M_ij))分成两步来完成：

首先，假设初始隶属函数为

p_{ij} (z_{i}) = \frac{c_{ij}}{d (z_{i}, M_{ij})},

其中

M_{ij} = {z_{ij} (k) | k = 1,2, . . ., T_{{Mi}_{j}}}

是样本数据集，对应各数据对诱发第j类基本情感的主观模糊隶属函数值为

Q_{ij} = {q_{ij} (k) | k = 1,2, . . ., T_{{Mi}_{j}}},

c_ij为待定参数。待定参数采用最优化问题

\min {Σ_{k = 1}^{T_{M_{ij}}} {(p_{ij} (z_{ij} (k)) - q_{ij} (k))}^{2}}

来求。

其次，所求的模糊隶属函数为

μ_{ij} (z_{i}) = \frac{p_{ij} (z_{i})}{Σ_{j = 1}^{n} p_{ij} (z_{i})} .

3、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法，其特征在于：步骤(4)中，将特征与诱发基本情感之间的关系定义为：

其中(z₁，z₂，…，z_m)是场景特征向量。

4、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法，其特征在于：步骤(5)中，首先邀请该领域的专家根据下表给出各低层特征(即因素)对诱发各类基本情感的相对重要程度。

于是，对于每一类情感，就产生一个m×m阶的相对重要程度矩阵A＝[a_ij]；接着对A进行一致性判断；当A被判断一致时，采用

w_{i} = Σ_{j = 1}^{m} \frac{a_{ij}}{Σ_{l = 1}^{m} Σ_{k = 1}^{m} a_{kl}}

来计算个权重分量，从而可获得W中与该基本情感对应的行。

5、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法，其特征在于：步骤(6)中，计算h_ij采用公式：

h_{ij} = Σ_{k = 1}^{m} w_{ik} \cdot μ_{kj} (z_{k}) .

6、如权利要求1所述的一种基于模糊综合评价的视频情感内容识别方法，其特征在于：步骤(7)中，本发明采用三层的BP神经网络模型。