CN102088597A

CN102088597A - 动静结合估计视频视觉显著度的方法

Info

Publication number: CN102088597A
Application number: CN 200910216538
Authority: CN
Inventors: 魏维; 邹书蓉; 舒红平; 何嘉; 刘文清; 魏敏; 叶斌
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu University of Information Technology; Chengdu Information Technology Co Ltd of CAS
Priority date: 2009-12-04
Filing date: 2009-12-04
Publication date: 2011-06-08
Anticipated expiration: 2029-12-04
Also published as: CN102088597B

Abstract

本发明公开了一种动静结合估计视频视觉显著度的方法，特别是一种通过图形图像处理技术和人工神经网络技术估计视频视觉显著度的方法。本方法主要包括以下步骤：先将视频镜头进行解压处理，得到帧序列、帧切片，并提取关键帧；然后对关键帧提取早期视觉特征图、显著图正规化处理、最终的静态显著图；根据视频中稳定的背景信息和帧间差进行动态运动信息提取镜头的动态信息图像的动态显著图；最后用脉冲耦合神经网络进行动静态显著融合得到视觉显著度。根据本发明能综合静态和动态的显著对象特征计算得到较满意的显著结果，适用于估计动、静特征丰富的视频数据显著度。

Description

动静结合估计视频视觉显著度的方法

技术领域

本发明涉及一种动静显著结合自动估计视频视觉显著度的方法，特别是一种通过图形图像处理技术和人工神经网络技术估计视频视觉显著度的方法。

背景技术

目前，随着网络和存储技术的发展，视频等数字媒体数据增长非常迅速。多媒体信息呈现出爆炸式增长，海量的视频数据需要高效的浏览、检索工具来对媒体数据进行管理和访问。视频中含有丰富的时空信息，要逐一对媒体中的所有细节都进行处理、分析提取语义，进行语义标注是不现实也是不可能的。海量的视频数据迫切需要计算机能自动进行显著计算，选择出其中最有意义和价值的内容，从而进行进一步的分析和理解。

注意力是一个生理学上的专业名词，表示视觉系统对单一对象、景色的关注程度。灵长类动物的视觉系统时刻都收到丰富的信息，但是灵长类动物的视觉系统却只处理其中的一部分信息，大量的非重要视觉信息并没有进行细致处理和加工。视觉系统注意力机制使得人脑合理而巧妙地通过感官有选择地接受和处理外来信息，注意机制在视觉信息处理中指挥大脑将资源有选择有先后地分配给被认为是重要的或感兴趣的信息。利用注意力选择机制进行媒体中视觉关注内容的选取，然后对这些显著内容进行分析和理解，可以避免“平均”对所有时空信息进行处理。

视觉显著性(Visual Salience or Visual Saliency)是一种独特的主观知觉性质，这种性质使得一些事物与其周围景物分辨开并立即吸引人们的注意力。目前，显著度提取的策略主要包括两种：采用自底向上(bottom-up)控制策略的，通过低层视觉特征进行输入景象的显著性计算；采用自顶向下(top-down)控制策略，它通过调整选择准则，以适应外界命令的要求，从而达到将注意力集中于特定目标的目的。到目前为止，对前者的认识比对后者的深入，如在论文“Computational Modeling of Visual Attention”(视觉注意力计算模型，Itti，Koch，NatureReviews-Neuroscience，2001)中提出模拟人类视觉系统探测局部视觉特性与其周围明显不同显著度计算模型，用的颜色、边方向、亮度或运动方向等简单视觉特征表示分显著图，然后通过“胜者优先”机制得到最终显著图。中国专利(03134423.2)“一种基于显著兴趣点的图像检索方法”，主要通过低层特征计算每个像素点的兴趣测度，进行兴趣点和显著区域选择。美国专利(7274741)“Systems and methods for generating a comprehensive user attentionmodel”(产生全面用户注意力模型的系统和方法)，其主要思想是用多角度的显著度模型得到不同的分特征分布图，最后将分显著图融合得到整体显著图。

然而，上述方法对显著估计的法主要问题是局限于静态场景，即处理从关键帧得到的低层特征并得到各分显著图，然后进行融合得到整体显著图。视频数据包括丰富的时空信息，显著注意的对象可能是静态的对象也可能是动态的运动区域。因此，这样得到的显著区域，静态特性表现很充分，而动态(运动)对象的显著性会得到“抑制”。

因此，需要发明一种动静结合，解决静态和动态显著特性融合的自动显著估计的方法。

发明内容

为了克服现在有方法的不足，本发明的解决的技术问题是：通过关键帧提取以静态显著为主的“静态显著分图”，同时得到以运动对象特征为主的“动态显著分图”，然后通过融合技术得到总体显著分布图。本发明以镜头(或场景)作为语义理解和语义标注的基本单位，提供一种动静结合自动估计视频视觉显著度的方法。

1.实现本发明的技术方案为：动静结合估计视频视觉显著度的方法，主要包括以下步骤：

(1)首先，将视频镜头进行解压处理，得到帧序列、帧切片，并提取关键帧；

(2)接着，在第一步的基础上，对关键帧提取早期视觉特征图、显著图正规化处理、最终的静态显著图；

(3)其次，根据关键抽取得到信息，进行动态信息抽取；

(4)再次，提取镜头的动态信息图像的动态显特征，并计算动态显著度；

(5)最后，用脉冲耦合神经网络动进行静态显著融合，计算最终视频视觉显著度。

2.本发明中将视频镜头进行解压处理得到帧序列和帧切片并提取关键帧，包括以下步骤：

(1)按镜头为单位进行解压缩得到镜头解压帧序列，在首帧和尾帧之间等时间间隔选取10中间帧。10个中间与首帧和尾帧组成固定12帧的帧切片；

(2)对帧切片中的每一帧，提取平均颜色、纹理和形状三视觉信息底层特征。分别计算12帧的颜色、纹理和形状平均值。然后计算12个的帧切片图像与3低层特征的差异值；

(3)选取帧切片中与3低层特征平均值差异最小对应的帧作为关键帧。

3.本发明中根据关键抽取得到信息进行动态信息抽取，包括以下步骤：

(1)对12帧的帧切片采样图像，计算得到11个帧切片帧间差(Frame Segment Difference，F_SD)；

(2)利用连续几帧的帧差掩模图像，将较长一段时间内保持不动的像素认为是可靠的镜头背景，即镜头背景信息图像为连续6个以上帧间差为0像素点组成；

(3)镜头背景信息示性函数提取；

(4)动态信息图像提取。

4.本发明中提取镜头的动态信息图像的动态显特征，并计算动态显著度，包括以下步骤：

(1)计算动态信息图像亮度、颜色通道信息；

(2)将I，RG，BY用于构造多尺度的高斯金字塔；

(3)然后进行中心-环绕差运算，得到亮度显著、颜色对显著征图：

I(c，s)＝|I(c)ΘI(s)|

RG(c，s)＝|(R(c)-G(c))(G(s)-R(s))|

BY(c，s)＝|(B(c)-Y(c))(Y(s)-B(s))|；

(4)得到正规化的亮度分特征图表示动态分显著图：

D = {&CirclePlus;}_{c = 1}^{3} {&CirclePlus;}_{s = c + 2}^{c + 3} (N (I^{'} (c, s)) + N (RG (c, s)) + N (BY (c, s))) .

5.本发明中用脉冲耦合神经网络动进行静态显著融合，计算最终视频视觉显著度，包括以下步骤：

(1)链接强度β_ij计算可通过多尺度金字塔分解，然后进行中心-环绕差运算得到。

(2)设参与融合的静态显著图为S，动态显著图为D。分别计算S，D中每个像素的对比度β_S(ij)和β_D(ij)，并以其作为对应PCNN神经元的链接强度。设每个神经元与周围n×n邻域神经元链接。对应的PCNN点火映射图Y_S和Y_D进行显著选择。

本发明的有益效果：(1)能综合静态和动态的显著特征计算得到较满意的显著结果，适用于估计动、静特征丰富的视频数据显著度。(2)所得的显著次序与人视觉认知中的次序相近，较符合人的意识概念。

附图说明

图1动静显著结合视频视觉显著度估计原理图。

图2关键帧提取策略原理图。

图3动态信息抽取与动态显著计算流程。

图4脉冲耦合神经网络动静态显著融合原理图。

图5本方法与Itti模型显著对比结果，其中，左边为Itti显著算法实验结果，右边对应的即为本发明的动静态综合方法的实验结果，数字表明显著选择的次序。

具体实施方式

以下通过实施例并结合附图对本发明具体步骤进行描述：

(1)将视频镜头进行解压处理，得到帧序列、帧切片，并提取关键帧，包括以下步骤：

按镜头为单位进行解压缩得到镜头解压帧序列，在首帧和尾帧之间等时间间隔选取10中间帧。10个中间与首帧和尾帧组成固定12帧的帧切片；

对帧切片中的每一帧，提取平均颜色、纹理和形状三视觉信息底层特征。分别计算12帧的颜色、纹理和形状平均值。然后计算12个的帧切片图像与三底层特征的差异值：

D = \frac{ω_{1} D_{1} + ω_{2} D_{2} + ω_{3} D_{3}}{ω_{1} + ω_{2} + ω_{3}}

其中，D是每帧与平均值总的差异，而D1，D2，D3则分别是用三低层做匹配得到的差异值。w1，w1，w1，是权值(三个权值不可同时为零，本方法中将颜色、纹理和形状三个权值都设为2，1，2)；

选取帧切片中与3低层特征平均值差异最小对应的帧作为关键帧；

(2)然后，在(1)基础上，对关键帧进行静态显著计算：提取早期视觉特征图、显著图正规化处理、最终的静态显著图；

(3)根据关键抽取得到信息，进行动态信息抽取，其步骤如下：

对12帧帧切片采样图像，计算得到11个帧切片帧间差(Frame Segment Difference，F_SD)：(F_SD)_i(x，y)＝|(F_S)_i(x，y)-(F_S)_i-1(x，y)|，i＝1，2，…，12；

利用连续几帧的帧差掩模图像，把较长一段时间内部保持不动的像素认为是可靠的镜头背景，即镜头背景信息图像为连续6个以上帧间差为0像素点组成：

镜头背景信息图像示性函数：

其中，示性函数取1表示是可靠的镜头背景；

动态信息图像提取：

D (x, y) = F_{K} DM (x, y) \cdot \overset{&OverBar;}{BI} (x, y) + F_{K} BDM (x, y) \cdot BI (x, y)

其中，F_KDM表示关键帧与前帧的帧间差掩模图像(若关键帧为第一帧，则表取与帧的帧间差)，F_KBDM表示关键帧与镜头背景信息图像差的掩模图像。将非背景信息图像中的运动对象和背景信息图像中的运动对象、静止对象检测出，组成动态信息图像；

(4)接着，提取镜头的动态信息图像的动态显特征，并计算动态显著度，包括以下步骤：

计算动态信息图像亮度、颜色通道信息：

I＝(r+g+b)/3

R＝r-(g+b)/2

G＝g-(r+b)/2

B＝b-(r+g)/2

Y＝(r+g)/2-|r-g|/2-b；

将I，RG，BY用于构造多尺度的高斯金字塔。用高斯低通滤波器采样生成9级(尺度)特征空间子图(多尺度金字塔)，各级图像大小依次为1∶256。设输入图像为I_D(0)，生成的9级子图计算公式为：

I(σ+1)＝Subsampled[I(σ)*G]

RG(σ+1)＝Subsampled[RG(σ)*G]

BY(σ+1)＝Subsampled[BY(σ)*G]

其中，σ＝0，1，2，3，...，8，G为高斯低通滤波器，“*”代表卷积。按上述建立多尺度特征空间方法得到金字塔多尺度特征空问；

然后根据Itti对彩色图像处理的方法，进行中心-环绕差运算，得到亮度显著、颜色对显著征图：

I(c，s)＝|I(c)ΘI(s)|

RG(c，s)＝|(R(c)-G(c))(G(s)-R(s))|

BY(c，s)＝|(B(c)-Y(c))(Y(s)-B(s))|

其中，I(c，s)表示取中心半径为c的圆区域与s为边缘的圆环区域的对比，c∈{1，2，3}，s＝c+δ，δ∈{2，3}，符号“Θ”表示将边缘级插补运算后得到中心级图像大小，再与中心级作逐像素的特征差值运算；

得到正规化的亮度分特征图表示动态分显著图：

D = {&CirclePlus;}_{c = 1}^{3} {&CirclePlus;}_{s = c + 2}^{c + 3} (N (I^{'} (c, s)) + N (RG (c, s)) + N (BY (c, s)));

(5)脉冲耦合神经网络动静态显著融合模型，步骤如下：

链接强度β_ij计算可通过多尺度金字塔分解，然后进行中心-环绕差运算得到：设I(σ+1)＝Subsampled[I(σ)*G]，其中，σ＝0，1，2，3，...，8，G为高斯低通滤波器，“*”代表卷积)低通滤波器的回复逆向运算

则通过Totalsampled运算可实现利用插值法将Gaussian金字塔的某一级图像经过插值恢复成上一级图像的大小，然后通过I(c，s)＝|I(c)ΘI(s)|，这样可得到链接强度β_ij；

设参与融合的静态显著图为S，动态显著图为D：分别计算S，D中每个像素的对比度β_S(ij)和β_D(ij)，并以其作为对应PCNN神经元的链接强度；设每个神经元与周围n×n邻域神经元链接。对应的PCNN点火映射图Y_S和Y_D进行显著选择可通过下式得到：

其中，点(i，j)处对应两PCNN点火时间为Y_S(i，j)和Y_D(i，j)，其对应的邻域亮度为分别为I(sur.)_S(ij)和I(sur.)_D(ij)。

Claims

1.一种动静结合估计视频视觉显著度的方法，其特征在于包括以下步骤：

(1)首先，在镜头解压帧序列的首帧和尾帧之间等时间间隔选取中间帧，组成固定的帧切片；选取帧切片中与3低层特征平均值差异最小对应的帧作为关键帧；

(2)其次，在(1)基础上，对关键帧计算静态显著特征，得到静态显著图；

(3)再次，利用帧间差掩模图像，把较长一段时间内部保持不动的像素认为是可靠的镜头背景，提取动态运动对象，根据运动对象提取镜头动态信息图像的动态显著特征，计算得到动态显著图；

(4)最后，将步骤(2)和步骤(3)得到的静态、动态显著图利用脉冲耦合神经网络进行显著融合，得到最终视频的显著度。

2.如权利要求1所述的方法，其特征是：按镜头为单位解压缩得到镜头帧序列，在首帧和尾帧之间等时间间隔选取10中间帧，并与首帧和尾帧组成固定12帧的帧切片，抽取每帧的平均颜色、纹理和形状3个视觉信息低层特征，选取帧切片中与3个低层特征平均值差异最小的对应帧作为关键帧。

3.如权利要求1所述的方法，其特征是：所述动态运动对象提取包括以下步骤：

(1)首先，计算帧切片的11个帧间差；

(2)其次，利用帧差掩模图像，把连续6个以上帧间差为0对应的像素点认为是可靠的镜头背景，得到镜头背景BI；

(3)提取镜头背景信息图像示性函数，得到动态运动对象：

D (x, y) = F_{K} DM (x, y) \cdot \overset{&OverBar;}{BI} (x, y) + F_{K} BDM (x, y) \cdot BI (x, y)

其中，F_KDM表示关键帧与前帧的帧间差掩模图像(若关键帧为第一帧，则表取与帧的帧间差)，F_KBDM表示关键帧与镜头背景信息图像差的掩模图像。将非背景信息图像中的运动对象和背景信息图像中的运动对象、静止对象检测出，组成动态信息图像。