CN105138991B

CN105138991B - 一种基于情感显著性特征融合的视频情感识别方法

Info

Publication number: CN105138991B
Application number: CN201510534693.7A
Authority: CN
Inventors: 丁昕苗; 郭文; 朱智林; 王永强; 华甄; 刘延武
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2016-08-31
Anticipated expiration: 2035-08-27
Also published as: CN105138991A

Abstract

本发明公开了一种基于情感显著性特征融合的视频情感识别方法，获得训练视频集合并对其中的视频提取视频镜头，对每个视频镜头选取情感关键帧；对训练视频集合中每个视频镜头提取音频特征和视觉情感特征，音频特征基于词包模型构成情感分布直方图特征；视觉情感特征基于视觉词典构成情感注意力特征，情感注意力特征与情感分布直方图特征进行自上而下的融合，构成具有情感显著性的视频特征；将训练视频集合中形成的具有情感显著性的视频特征送入SVM分类器进行训练，得到训练模型的参数，训练模型用于对测试视频的情感类别进行预测。本发明的融合算法实现简单，训练器成熟可靠，预测快捷，可以更高效的完成视频的情感识别过程。

Description

一种基于情感显著性特征融合的视频情感识别方法

技术领域

本发明涉及多媒体内容理解和计算机网络内容检索领域，特别涉及一种基于情感显著性特征融合的视频情感识别方法。

背景技术

随着计算机技术、通信技术和多媒体技术的飞速发展，Internet已成为一个浩瀚的海量多媒体信息源，人们迫切希望可以利用计算机对规模急剧增长的数字化图像/视频信息加以自动理解，从而方便用户选择有效的技术手段对这些视觉信息进行有效的组织、管理和查找。基于内容的视频检索成为了一个重要的研究课题。其中，对于认知层面的视频检索研究开展的较早，已经涌现出了很多可行的算法。而基于情感分析的视频检索研究并未受到很多的关注，在国内尚处于起步阶段。对于诸如“找出本段体育视频中最激动人心的片断”，或者“最适合某人品味的电影”，或者“定位并跳过最不适合用户子女观看的片断”这一类面向情感层视频内容理解的应用正逐步引起业界广泛的关注，其研究具有重要的学术意义，必将推动互联网检索技术的全面深入发展。

当前已有一些技术开始尝试应用于视频情感识别。B.Adams等提出一种检测电影节奏和动态故事单元的方法，并利用了视频帧间运动差和镜头变化率等信息。AyaAner-Wolf结合电影语法规则分析了视频帧亮度分量对观众情感的影响。ChingHau Chan等对电影伴音的低级特征做了大量的研究和实验。基于这些特征，他们设计了一套基于情感的电影索引与检索的方法并给出了初步的实验结果。Min Xu等通过构造声音情感特征向量，基于HMM对情景喜剧和恐怖电影中的情感事件进行检测和识别。Chen等通过分析视频中的配乐，结合视频节奏来进行视频情感事件的检测。

目前的这些方法从视频特征及分类模型等不同方面展开了对视频情感分类和识别的研究。视频是一种多媒体，其包括语、声、像等特征数据，但已有的研究中对视频多媒体特征的融合未有做深入研究，导致视频的情感特征判别性不明显，从而影响了视频分类和识别的准确率。一种有效的特征融合策略刻不容缓。

发明内容

为解决现有技术存在的不足，本发明公开了一种基于情感显著性特征融合的视频情感识别方法，本发明的融合算法实现简单，训练器成熟可靠，预测快捷，可以更高效的完成视频的情感识别过程。

为实现上述目的，本发明的具体方案如下：

一种基于情感显著性特征融合的视频情感识别方法，包括以下步骤：

获得训练视频集合并对其中的视频提取视频镜头，对每个视频镜头选取情感关键帧；

对训练视频集合中每个视频镜头提取音频特征和视觉情感特征，其中视觉情感特征基于所提取的情感关键帧提取，音频特征基于视频镜头提取；

音频特征基于词包模型构成情感分布直方图特征；

视觉情感特征基于视觉词典构成情感注意力特征，情感注意力特征与情感分布直方图特征进行自上而下的加权融合，构成具有情感显著性的视频特征；

将训练视频集合中形成的具有情感显著性的视频特征送入SVM分类器进行训练，得到训练模型的参数，训练模型用于对测试视频的情感类别进行预测。

进一步的，对每个视频镜头选取情感关键帧时，以视频镜头为单位计算每个视频帧的颜色情感强度值，以时间作为横轴，颜色情感强度值为纵轴得到镜头情感波动曲线；找到情感波动曲线最大值对应的视频帧，选择该帧作为情感关键帧。

其中，颜色情感强度值计算方法如下：

{IT}_{i} = \frac{1}{M \times N} \sqrt{Σ_{p = 1}^{M} Σ_{q = 1}^{N} {IT}^{2} (p, q)}

其中，M，N，IT_i分别表示第i个视频帧的长、宽和颜色情感强度值，IT(p,q)为第i个视频帧中第p行q列像素点的颜色情感强度值，计算如下：

I T (p, q) = \sqrt{H^{2} + W^{2} + A^{2}}

其中，H表示热度，W表示重要性，A表示活动性。

进一步的，情感分布直方图特征获取时，将训练视频集合中所有训练视频的音频特征基于k近邻方法进行聚类，得到K个聚类中心；

将K个聚类中心作为词包模型的音频情感单词，构成音频情感词典；

将每个视频的音频特征投影到音频情感词典，得到每个视频的情感分布直方图。

进一步的，情感注意力特征的构成方式为：将每个视频的视觉情感特征同样进行k近邻聚类，得到N个聚类中心，并由此N个聚类中心作为视觉单词组成视觉情感词典；

将视频的视觉情感特征投影到视觉情感词典，按视频情感类别分别得到每个类别对应的视觉情感单词的后验概率分布，即得到各情感类别的情感注意力特征。

更进一步的，视觉情感单词的后验概率分布计算如下：

p (c l a s s | w_{j}^{v i s}) \infty p (w_{j}^{v i s} | c l a s s) p (c l a s s)

其中，为视觉情感单词的后验概率分布，class为视频情感类别，为视觉词典的第j个视觉情感单词；p(class)为类别class的情感视频概率分布，通过统计该类别情感视频占总视频的比例得到；是类别为class的视觉情感词典的第j个视觉情感单词的分布，根据下式获得：

p (w_{j}^{v i s} | c l a s s) \infty \underset{{Scene}^{c l a s s}}{Σ} \underset{l &Element; D}{Σ} δ (w_{l}^{v i s}, w_{j}^{v i s})

其中，Scene^class是类别为class的视频场景数，D是类别为class的视频情感词典所含单词数，是类别为class的场景所包含的第l个视觉单词。δ为符号函数，其定义为：

δ (x, y) \{\begin{matrix} 0 & f o r & x &NotEqual; y \\ 1 & f o r & x = y \end{matrix} .

x,y为符号函数δ的输入变量。

进一步的，将情感注意力特征与每个视频的情感分布直方图特征进行加权融合，得到具有情感显著性的视频特征；具体加权融合过程如下：

计算每个情感单词直方图分布的加权结果：

将得到的所有音频情感单词直方图加权以后的结果按行排列起来即得到具有情感显著性的视频特征。

计算每个情感单词直方图分布的加权结果为：

n (w^{a u d} | V^{s}, c l a s s) = \underset{j &Element; F}{Σ} δ (w^{a u d}, w_{j}^{a u d}) p (c l a s s | w_{j}^{v i s})

w^aud为音频情感词典中的情感单词，V^s为第s个视频，为音频情感词典中的第j个情感单词，F为视频镜头V^s对应的音频帧集合；

进一步的，对测试视频的情感类别进行预测时，首先获得具有情感显著性的视频特征；其获取方式与训练视频获取的具有情感显著性的视频特征的方式相同。

将测试视频的具有情感显著性的视频特征送入已训练好的SVM分类器，得到预测的视频情感类别。

本发明的有益效果：

(1)本发明在进行视频情感分类时充分考虑了音视频特征的融合。

(2)本发明将情感显著性信息融合到了视频特征中，使得视频情感特征更具有判别性。

(3)本发明的融合算法实现简单，训练器成熟可靠，预测快捷，可以更高效的完成视频的情感识别过程。

(4)本发明提出了一种新的基于情感显著性融合的视频情感识别方法，该技术具有重要的学术意义和社会意义，并具有广阔的应用前景。

附图说明

图1为本发明提供的基于情感显著性特征融合的视频情感识别框架图。

具体实施方式：

下面结合附图对本发明进行详细说明：

图1示出了本发明提供的基于情感显著性特征融合的视频情感识别方法。如图1所示，该方法具体包括以下步骤：

步骤1：对视频进行结构化分析，采用基于信息论的互信息熵理论检测镜头边界并提取视频镜头，然后，针对每个镜头选取情感关键帧，具体提取步骤包括：

步骤1.1：以镜头为单位计算每个视频帧的颜色情感强度值，以时间作为横轴，颜色情感强度值为纵轴得到镜头情感波动曲线；颜色情感强度值计算方法如下：

{IT}_{i} = \frac{1}{M \times N} \sqrt{Σ_{p = 1}^{M} Σ_{q = 1}^{N} {IT}^{2} (p, q)}

其中，IT_i表示第i个视频帧的颜色情感强度值，IT(p,q)为第i个视频帧中第p行q列像素点的颜色情感强度值，计算如下：

I T (p, q) = \sqrt{H^{2} + W^{2} + A^{2}}

其中，H表示热度，W表示重要性，A表示活动性。其具体计算如下：

a c t i v i t y = - 2.1 + 0.06 {[{(L^{*} - 50)}^{2} + {(a^{*} - 3)}^{2} + {(\frac{b^{*} - 17}{1.4})}^{2}]}^{1 / 2}

weight＝-1.8+0.04(100-L^*)+0.45cos(h-100°)

heat＝-0.5+0.02(C^*)^1.07cos(h-50°)

H＝-0.5+0.02(C^*)^1.07cos(h-50°)

W＝-1.8+0.04(100-L^*)+0.45cos(h-100°)

A = - 2.1 + 0.06 {[{(L^{^{*}} - 50)}^{2} + {(a^{*} - 3)}^{2} + {(\frac{b^{*} - 17}{1.4})}^{2}]}^{1 / 2}

其中，(L^*,a^*,b^*)和(L^*,C^*,h)分别是颜色空间CIELAB和CIELCH的颜色分量。

步骤1.2：找到情感波动曲线最大值对应的视频帧，选择该帧作为情感关键帧；

步骤2：对训练视频集合中每个视频提取音视频情感特征，其中音频情感特征基于视频镜头提取，具体特征如表1所示；

表1 音频特征汇总表

视觉情感特征基于情感关键帧提取，具体特征如表2所示。

表2 视觉特征汇总表

步骤3：由音频情感特征构成情感分布直方图；具体构建方法如下：

步骤3.1：将所有训练视频的音频情感特征进行聚类，得到K个聚类中心；聚类方法采用k近邻聚类方法。具体步骤为：

步骤3.1.1：由训练视频的音频情感特征组成的训练视频集合中随机选取K个特征样本作为初始聚类质心点μ₁，μ₂，...，μ_K。

步骤3.1.2：对于每一个训练集合中的音频特征样本x_i，如下计算其应属于的聚类质心类：

d^{(i)} = \underset{j}{argmin} | | x_{i} - μ_{j} | |^{2}

步骤3.1.3：重新计算新的质心如下：

μ_{j} = \frac{Σ_{i = 1}^{m} 1 {d^{(i)} = j} x_{i}}{Σ_{i = 1}^{m} 1 {d^{(i)} = j}}

其中，1{d⁽ⁱ⁾＝j}为指示函数，表示当d⁽ⁱ⁾＝j时，该函数取值为1，否则为0。

步骤3.1.4：反复迭代步骤3.1.2～3.1.3直至本次迭代的新质心与上一次迭代的质心相等或小于指定阈值(≤10^-4)，则将本次迭代的新质心确定为最终的聚类中心。

步骤3.2：将K个聚类中心作为词包模型的音频情感单词，构成音频情感词典；

步骤3.3：将每个视频的音频情感特征投影到音频情感词典，得到每个视频的音频情感分布直方图，具体步骤如下：

步骤3.3.1：将每个视频V的每个镜头音频特征a_i映射为视觉词典中的某个视觉单词如下：

π (a_{i}) = \underset{1 \leq j \leq N}{\arg \min} | | a_{i} - μ_{j} | |

步骤3.3.2：统计每个视频中所包含的音频情感单词频率h(j；V)，得到音频情感分布直方图。

h(j；V)的计算如下：

h(j；V)＝|{a_i∈V：π(a_i)＝j}|

其中，j＝1，...，N，|·|表示集合的势。

步骤4：视觉情感特征基于视觉词典构成情感注意力特征，与音频情感分布直方图特征进行自上而下的融合，构成具有情感显著性的视频特征；具体步骤如下：

步骤4.1：将每个视频的视觉特征同样进行k近邻聚类，得到N个聚类中心，并由此N个聚类中心作为视觉单词组成视觉情感词典；

步骤4.2：将视频的视觉特征投影为视觉单词，按视频情感类别分别得到视觉情感单词的后验概率分布，即得到各情感类别的情感注意力特征，具体计算方法如下：

p (c l a s s | w_{j}^{v i s}) \infty p (w_{j}^{v i s} | c l a s s) p (c l a s s)

其中，为视觉情感单词的后验概率分布，class为视频情感类别，为视频包含的视觉情感单词；p(class)为类别class的情感视频概率分布，通过统计该类别情感视频占总视频的比例得到；是类别为class的视觉情感词典的第j个视觉情感单词的分布，可根据下式获得：

p (w_{j}^{v i s} | c l a s s) \infty \underset{{Scene}^{c l a s s}}{Σ} \underset{l &Element; D}{Σ} δ (w_{l}^{v i s}, w_{j}^{v i s})

其中，Scene^class是类别为class的视频场景数，D是类别为class的视频情感词典所含单词数。是类别为class的场景所包含的第l个视觉单词。δ为符号函数，其定义为：

δ (x, y) \{\begin{matrix} 0 & f o r & x &NotEqual; y \\ 1 & f o r & x = y \end{matrix} .

x,y为符号函数δ的输入变量。

步骤4.3：将4.2得到的视觉情感注意力特征与每个视频的音频特征分布直方图进行加权融合，得到具有情感显著性的视频特征；具体加权融合过程如下：

步骤4.3.1、如下计算每个音频情感单词直方图分布的加权结果：

n (w^{a u d} | V^{s}, c l a s s) = \underset{j &Element; F}{Σ} δ (w^{a u d}, w_{j}^{a u d}) p (c l a s s | w_{j}^{v i s})

w^aud为音频情感词典中的情感单词，V^s为第s个视频，为音频情感词典中的第j个情感单词。

步骤4.3.2、将步骤4.3.1得到的所有音频情感单词直方图加权以后的结果按行排列起来即得到具有情感显著性的视频特征。

步骤5、将融合后的训练集视频特征送入SVM(Supported Vector Machine)(中文：支持向量机)训练后，对测试视频的类别进行预测。具体步骤如下：

步骤5.1：将训练视频集合按照步骤1-4得到具有情感显著性的视频情感特征；

步骤5.2：将训练视频的情感显著性特征送入SVM(Supported Vector machine)进行训练，得到模型参数；

步骤5.3：对未知情感类别的测试视频按照步骤1-4获得具有情感显著性的视频情感特征；

步骤5.4：将测试视频的情感显著性特征送入已训练好的SVM分类器，得到预测的视频情感类别；

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于情感显著性特征融合的视频情感识别方法，其特征是，包括以下步骤：

音频特征基于词包模型构成情感分布直方图特征；

将训练视频集合中形成的具有情感显著性的视频特征送入SVM分类器进行训练，得到训练模型的参数，训练模型用于对测试视频的情感类别进行预测；

情感注意力特征的构成方式为：将每个视频的视觉情感特征同样进行k近邻聚类，得到N个聚类中心，并由此N个聚类中心作为视觉单词组成视觉情感词典；

将视频的视觉情感特征投影到视觉情感词典，按视频情感类别分别得到每个类别对应的视觉情感单词的后验概率分布，即得到各情感类别的情感注意力特征；

视觉情感单词的后验概率分布计算如下：

p (c l a s s | w_{j}^{v i s}) \infty p (w_{j}^{v i s} | c l a s s) p (c l a s s)

p (w_{j}^{v i s} | c l a s s) \infty \underset{{Scene}^{c l a s s}}{Σ} \underset{l &Element; D}{Σ} δ (w_{l}^{v i s}, w_{j}^{v i s})

其中，Scene^class是类别为class的视频场景数，D是类别为class的视频情感词典所含单词数，是类别为class的场景所包含的第l个视觉单词，δ为符号函数，其定义为：x,y为符号函数δ的输入变量。

2.如权利要求1所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，对每个视频镜头选取情感关键帧时，以视频镜头为单位计算每个视频帧的颜色情感强度值，以时间作为横轴，颜色情感强度值为纵轴得到镜头情感波动曲线；找到情感波动曲线最大值对应的视频帧，选择该帧作为情感关键帧。

3.如权利要求2所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，其中，颜色情感强度值计算方法如下：

{IT}_{i} = \frac{1}{M \times N} \sqrt{Σ_{p = 1}^{M} Σ_{q = 1}^{N} {IT}^{2} (p, q)}

I T (p, q) = \sqrt{H^{2} + W^{2} + A^{2}}

其中，H表示热度，W表示重要性，A表示活动性。

4.如权利要求1所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，情感分布直方图特征获取时，将训练视频集合中所有训练视频的音频特征基于k近邻方法进行聚类，得到K个聚类中心；

5.如权利要求1所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，将情感注意力特征与视频的情感分布直方图特征进行加权融合，得到具有情感显著性的视频特征；具体加权融合过程如下：

计算每个情感单词直方图分布的加权结果；

6.如权利要求5所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，计算每个情感单词直方图分布的加权结果时：

n (w^{a u d} | V^{s}, c l a s s) = \underset{j &Element; F}{Σ} δ (w^{a u d}, w_{j}^{a u d}) p (c l a s s | w_{j}^{v i s})

w^aud为音频情感词典中的情感单词，V^s为第s个视频，为音频情感词典中的第j个情感单词；F为视频镜头V^s对应的音频帧集合。

7.如权利要求1所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，对测试视频的情感类别进行预测时，首先获得测试视频的具有情感显著性的视频特征；

8.如权利要求7所述的一种基于情感显著性特征融合的视频情感识别方法，其特征是，测试视频的具有情感显著性的视频特征获取方式与训练视频获取的具有情感显著性的视频特征的方式相同。