CN101241595A

CN101241595A - 一种视频情感信息提取方法

Info

Publication number: CN101241595A
Application number: CNA2007100636106A
Authority: CN
Inventors: 赵照; 蒋树强; 黄庆明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-02-06
Filing date: 2007-02-06
Publication date: 2008-08-13

Abstract

本发明公开了一种视频情感信息提取方法，包括以下步骤：选择目标视频片断；为所选择的目标视频建立情感的兴奋度模型；为所选择的目标视频建立情感的效价模型；将所建立的情感效价模型的正值映射到一个维度，将情感效价模型的负值映射到另一个维度，然后将情感效价模型的正值、负值、情感兴奋度模型三个分量映射到三维空间，得到情感的三维特征；对映射到三维空间的情感模型进行压缩，得到情感三维模型的压缩模型。

Description

一种视频情感信息提取方法

技术领域

本发明涉及计算机视频理解与分析，特别涉及视频情感信息的提取。

背景技术

随着数字技术的发展，视频数据也开始呈现爆炸性增长的趋势，电视、电影、家用摄像设备正在不断地提供更多的视频数据。在这种背景下，利用计算机从庞大的视频数据信息中挖掘特定的信息成为一个热点问题。

视频的情感分析指的是利用计算机自动分析视频可能给观众情感上带来的主观反应。比如区分影片中恐怖的、紧张激烈的、浪漫的等不同的感情元素。对视频的情感属性的分析可以帮助观众快速的从视频数据库中找到自己感兴趣的视频，满足不同观众对视频多样化的要求。

视频的情感属性通常可以用效价(valence)和兴奋度(arousal)两个维度表示。效价指情绪的负面性或正面性，从不高兴到高兴；兴奋度指情绪的激烈程度，从十分平静到极度激动。图1是一个情感空间的示意图，例如，对于“极度恐惧”的情感，从效价纬度上来看，它属于负面情绪，从兴奋度纬度上来看，它属于激烈的情绪。

视频所表达的上述情感属性可以由视频中的一些底层特征如颜色、运动、声音等来表示。当建立了视频的情感模型后，可以绘制出效价及兴奋度沿视频时间的曲线图，来表达视频的情感属性。图2为视频情感曲线随时间的分布图，在该图中，显示了兴奋度以及效价随视频时间的变化情况。不少文献都采用上述的视频底层特征进行视频情感信息提取，如Hanjalic博士在″Affective Video Content Representationand Modeling″文章中便采用底层特征建立效价及兴奋度模型。在他的工作中，当情感曲线被绘制后，采用设定阈值的方法获得某段视频的情感描述。其他人的工作通常也是基于某时刻的情感特征，而不是把一段视频整个的情感信息用一个特征描述。而如果想要分析视频的情感特性的话，应该对整段视频提取一个情感特征，则多个视频样本可以在某特征空间中对应一个样本点的集合。如果仅仅是将获得的效价和兴奋度向量罗列的话，依采样频率的不同，一段一个小时的视频通常可以表示成数千至上万维的情感特征。这样，就需要找到一种特征压缩的方法，对情感特征进行降维。

发明内容

本发明的目的是克服现有的视频情感提取方法中，所得到的情感特征维数过高的缺陷，从而提供一种可降维的视频情感信息提取方法。

为了实现上述目的，本发明提供了一种视频情感信息提取方法，具体包括以下步骤：

步骤10)、选择目标视频片断；

步骤20)、为步骤10)所选择的目标视频建立情感的兴奋度模型；

步骤30)、为步骤10)所选择的目标视频建立情感的效价模型；

步骤40)、将步骤30)所建立的情感效价模型的正值映射到一个维度，将情感效价模型的负值映射到另一个维度，然后将情感效价模型的正值、负值、情感兴奋度模型三个分量映射到三维空间，得到情感的三维特征；

步骤50)、对步骤40)中映射到三维空间的情感模型进行压缩，得到情感三维模型的压缩模型。

上述技术方案中，在所述的步骤20)中，所述的情感的兴奋度模型的计算公式如公式(1)所示，

R_{i} = \underset{j}{Σ} α_{j} M_{ij} - - - (1)

其中，i表示时刻，α是为不同特征所赋的权值，M_ij表示前述的运动强度、镜头变换频率、音频能量特征。

所述的对运动强度特征的计算如公式(2)所示，

M_{m} = F (\underset{p}{Σ} | v_{p} |) - - - (2)

其中，|v_p|为运动向量长度，F为一平滑函数。该公式说明了运动强度特征可用当前时刻所有运动向量的平均幅度表示。

所述的对镜头变换频率特征的计算公式如公式(3)所示：

M_s＝F(e^(1-(E-B))/δ) (3)

其中，E表示镜头结束帧，B表示镜头开始帧，δ为常数，F为一平滑函数。所述的对音频能量特征的计算如公式(4)所示，

M_{a} = F (\underset{n}{Σ} (e (n) - \overset{&OverBar;}{e}) / N) - - - (4)

其中，e(n)为短时音频能量，e为采样区间平均能量，N为某时刻音频采样长度，F为一平滑函数。

在所述的步骤30)中，对所述的情感效价按公式(5)计算：

V_i＝R_isign(β₁M_p+β₂M_c)+λ(β₁M_p+β₂M_c) (5)

其中，R_i表示情感的兴奋度模型，sign为符号函数，β为权值，M_p为音频频率特征，M_c代表颜色特征。

所述的音频频率特征是当前频率p(n)与无感情时的音频频率常数N的差，对该特征的计算如公式(6)所示：

M_p＝F(p(n)-N) (6)

对所述的颜色特征M_c的计算如公式(7)所示：

M_c＝F(0.69b+0.22s) (7)

其中b代表当前时刻视频帧的主颜色区域的亮度，s代表当前时刻视频帧的主颜色区域的饱和度。

上述技术方案中，在所述的步骤50)中，所述的对映射到三维空间的情感模型进行压缩的具体实现步骤包括：

步骤51)、对步骤40)中得到的情感三维特征中的每个点建立模型；

步骤52)、对步骤51)所建立的模型做最大似然估计得到情感压缩模型。

在所述的步骤51)中，用A表示情感三维特征，用矩阵e表示情感三维模型的压缩模型，其中每个点服从均值和方差为{μ，φ)的高斯分布，所述的为情感三维特征上的点A_i建立模型的过程如公式(11)所示：

p (A_{i} | T_{i,} e) = N (A_{i}; μ_{T_{i}}, φ_{T_{i}}) - - - (11)

其中，T代表e到A的映射。

在所述的步骤52)中，所述的对模型做最大似然估计的计算如公式(13)所示：

{\hat{μ}}_{j} = \frac{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i}) A_{i}}{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i})} - - - (13)

{\hat{φ}}_{j} = \frac{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i}) {(A_{i} - μ_{j})}^{2}}{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i})}

其中，q(T)为映射分布的估计值。

本发明的优点在于：

提出了一种视频情感信息的提取方法，与现有方法相比，除了建立了情感模型，还利用产生式模型得到了视频经过压缩后的情感特征，为进一步的视频情感研究提供了帮助。

附图说明

图1是二维情感空间的示意图；

图2是视频情感属性沿时间的曲线图；

图3为视频情感信息提取的过程；

图4为本发明的视频情感信息提取方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

图3是视频情感信息提取的基本过程，对于一段视频，分别根据兴奋度特征建立兴奋度模型，根据效价特征建立效价模型。在建立兴奋度模型时，所采用的兴奋度特征包括运动强度、镜头变换频率、声音能量特征，在建立效价模型时，所采用的效价特征包括音频频率特征和颜色特征。在得到效价模型后，还要将该模型中的正负值分别映射到两个维度，得到正效价模型和负效价模型。对所得到的兴奋度模型、正效价模型、负效价模型进行压缩，得到视频情感的压缩模型。

下面对视频情感信息的提取做进一步的说明，如图4所示，本发明的视频情感提取方法具体包含以下步骤：

步骤10、选择目标视频片断；在后续步骤中，从所选择的目标视频片断提取视频情感特征；

步骤20、为目标视频建立情感的兴奋度模型；在建立情感的兴奋度模型时，采用了运动强度(用平均运动向量表达)、镜头变换频率、声音能量等特征。所建立的兴奋度模型的计算公式如公式(1)所示，

R_{i} = \underset{j}{Σ} α_{j} M_{ij} - - - (1)

其中，i表示时刻，α是为不同特征所赋的权值，M_ij表示前述的运动强度、镜头变换频率、音频能量等特征。具体计算如下：

对运动强度特征的计算如公式(2)所示，

M_{m} = F (\underset{p}{Σ} | v_{p} |) - - - (2)

对镜头变换频率特征的计算公式如公式(3)所示：

M_s＝F(e^(1-(E-B))/δ) (3)

其中，E表示镜头结束帧，B表示镜头开始帧，δ为常数，F为一平滑函数。对音频能量特征的计算如公式(4)所示，

M_{a} = F (\underset{n}{Σ} (e (n) - \overset{&OverBar;}{e}) / N) - - - (4)

步骤30、为目标视频建立情感的效价模型；

与Hanjalic的工作类似，为了获得效价和兴奋度的匹配，按如下公式计算情感效价：

V_i＝R_isign(β₁M_p+β₂M_c)+λ(β₁M_p+β₂M_c) (5)

其中，sign为符号函数，β为权值，M_p为音频频率特征，M_c代表颜色特征。

音频频率特征是当前频率p(n)与无感情时的音频频率常数N的差，对该特征的计算如公式(6)所示：

M_p＝F(p(n)-N) (6)

颜色特征M_c的计算如公式(7)所示：

M_c＝F(0.69b+0.22s) (7)

步骤40、将步骤20和步骤30中得到的情感兴奋度模型和情感效价模型映射到三维空间中。在本步骤的映射过程中，由于情感效价模型具有正负两种值，为了后续处理的方便，需要将情感效价的值映射到两个维度，一个维度表示效价的正分量，一个维度表示效价的负分量，情感效价映射的实现如公式(8)、公式(9)所示：

{Vp}_{i} = \{\begin{matrix} V_{i} & V_{i} &GreaterEqual; 0 \\ 0 & V_{i} < 0 \end{matrix} - - - (8)

{Vn}_{i} = \{\begin{matrix} 0 & V_{i} &GreaterEqual; 0 \\ - V_{i} & V_{i} < 0 \end{matrix} - - - (9)

上述情感效价的正负分量连同情感兴奋度一维坐标，得到在时刻i的一个三元组{R_i，Vp_i，Vn_i}，该三元组用A_i表示。为了可视化的方便，可将该三元组按公式(10)排列在一个矩阵X中：

X_j，i＝A_n(i-1)+j (10)

将矩阵X映射到RGB空间中，则可以得到一个视频情感图。在视频情感图中，每个点的颜色表示了视频当前情感位于情感空间的位置，而纹理则表示了视频中的各种情感如何在时间轴上分布。

步骤50、对步骤40中映射到三维空间的情感模型进行压缩，得到情感压缩模型。在本步骤中，假定情感三维模型中的每一点由情感压缩模型中的某一点映射产生，并假定情感压缩模型中的任一点独立产生且符合高斯分布。然后通过最大似然估计就可得到情感压缩模型。

在具体实现时，对情感三维特征A的每个点建模。假设情感三维模型的压缩模型为一矩阵e，其中每个点服从均值和方差为{μ，φ}的高斯分布.情感三维特征上的点A_i的计算如公式(11)所示：

p (A_{i} | T_{i,} e) = N (A_{i}; μ_{T_{i}}, φ_{T_{i}}) - - - (11)

其中，T代表e到A的映射。

假设情感三维模型上的点是独立产生的，那么联合分布可以表示为下式：

p (A, T, e) = p (e) \underset{i}{Π} p (T_{i}) N (A_{i}; μ_{T_{i}}, φ_{T_{i}}) - - - (12)

然后利用最大似然估计就可以得到情感压缩模型：

{\hat{μ}}_{j} = \frac{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i}) A_{i}}{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i})} - - - (13)

{\hat{φ}}_{j} = \frac{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i}) {(A_{i} - μ_{j})}^{2}}{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i})}

这里q(T)为映射分布的估计值。

通过本步骤实现对情感模型的压缩后，可将一段视频中数万维的情感特征的维数压缩到数百维，有利于对视频情感做进一步分析。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1. 一种视频情感信息提取方法，具体包括以下步骤：

步骤10)、选择目标视频片断；

步骤30)、为步骤10)所选择的目标视频建立情感的效价模型；

2. 根据权利要求1所述的视频情感信息提取方法，其特征在于，在所述的步骤20)中，所述的情感的兴奋度模型的计算公式如公式(1)所示，

R_{i} = \underset{j}{Σ} α_{j} M_{ij} - - - (1)

3. 根据权利要求2所述的视频情感信息提取方法，其特征在于，所述的对运动强度特征的计算如公式(2)所示，

M_{m} = F (\underset{p}{Σ} | v_{p} |) - - - (2)

4. 根据权利要求2所述的视频情感信息提取方法，其特征在于，所述的对镜头变换频率特征的计算公式如公式(3)所示：

M_s＝F(e^(1-(E-B))/δ) (3)

其中，E表示镜头结束帧，B表示镜头开始帧，δ为常数，F为一平滑函数。

5. 根据权利要求2所述的视频情感信息提取方法，其特征在于，所述的对音频能量特征的计算如公式(4)所示，

M_{a} = F (\underset{n}{Σ} (e (n) - \overset{&OverBar;}{e}) / N) - - - (4)

6. 根据权利要求2所述的视频情感信息提取方法，其特征在于，在所述的步骤30)中，对所述的情感效价按公式(5)计算：

V_i＝R_isign(β₁M_p+β₂M_c)+λ(β₁M_p+β₂M_c) (5)

7. 根据权利要求6所述的视频情感信息提取方法，其特征在于，所述的音频频率特征是当前频率p(n)与无感情时的音频频率常数N的差，对该特征的计算如公式(6)所示：

M_p＝F(p(n)-N) (6)

8. 根据权利要求6所述的视频情感信息提取方法，其特征在于，对所述的颜色特征M_c的计算如公式(7)所示：

M_c＝F(0.69b+0.22s) (7)

9. 根据权利要求1所述的视频情感信息提取方法，其特征在于，在所述的步骤50)中，所述的对映射到三维空间的情感模型进行压缩的具体实现步骤包括：

10. 根据权利要求9所述的视频情感信息提取方法，其特征在于，在所述的步骤51)中，用A表示情感三维特征，用矩阵e表示情感三维模型的压缩模型，其中每个点服从均值和方差为{μ，φ}的高斯分布，所述的为情感三维特征上的点A_i建立模型的过程如公式(11)所示：

p (A_{i} | T_{i}, e) = N (A_{i}; μ_{T_{i}}, φ_{T_{i}}) - - - (11)

其中，T代表e到A的映射。

11. 根据权利要求9所述的视频情感信息提取方法，其特征在于，在所述的步骤52)中，所述的对模型做最大似然估计的计算如公式(13)所示：

{\hat{μ}}_{j} = \frac{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i}) A_{i}}{Σ_{i} Σ_{T_{i} {, T}_{i} = j} q (T_{i})} - - - (13)

{\hat{φ}}_{j} = \frac{Σ_{i} Σ_{T_{i}, T_{i} = j} q (T_{i}) {(A_{i} - μ_{j})}^{2}}{Σ_{i} Σ_{T_{i} {, T}_{i} = j} q (T_{i})}

其中，q(T)为映射分布的估计值。