CN102088597B - 动静结合估计视频视觉显著度的方法 - Google Patents

动静结合估计视频视觉显著度的方法 Download PDF

Info

Publication number
CN102088597B
CN102088597B CN 200910216538 CN200910216538A CN102088597B CN 102088597 B CN102088597 B CN 102088597B CN 200910216538 CN200910216538 CN 200910216538 CN 200910216538 A CN200910216538 A CN 200910216538A CN 102088597 B CN102088597 B CN 102088597B
Authority
CN
China
Prior art keywords
frame
salience
significantly
dynamic
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910216538
Other languages
English (en)
Other versions
CN102088597A (zh
Inventor
魏维
邹书蓉
舒红平
何嘉
刘文清
魏敏
叶斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Chengdu Information Technology Co Ltd of CAS
Original Assignee
Chengdu Information Technology Co Ltd of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Information Technology Co Ltd of CAS filed Critical Chengdu Information Technology Co Ltd of CAS
Priority to CN 200910216538 priority Critical patent/CN102088597B/zh
Publication of CN102088597A publication Critical patent/CN102088597A/zh
Application granted granted Critical
Publication of CN102088597B publication Critical patent/CN102088597B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种动静结合估计视频视觉显著度的方法,特别是一种通过图形图像处理技术和人工神经网络技术估计视频视觉显著度的方法。本方法主要包括以下步骤:先将视频镜头进行解压处理,得到帧序列、帧切片,并提取关键帧;然后对关键帧提取早期视觉特征图、显著图正规化处理、最终的静态显著图;根据视频中稳定的背景信息和帧间差进行动态运动信息提取镜头的动态信息图像的动态显著图;最后用脉冲耦合神经网络进行动静态显著融合得到视觉显著度。根据本发明能综合静态和动态的显著对象特征计算得到较满意的显著结果,适用于估计动、静特征丰富的视频数据显著度。

Description

动静结合估计视频视觉显著度的方法
技术领域
本发明涉及一种动静显著结合自动估计视频视觉显著度的方法,特别是一种通过图形图像处理技术和人工神经网络技术估计视频视觉显著度的方法。
背景技术
目前,随着网络和存储技术的发展,视频等数字媒体数据增长非常迅速。多媒体信息呈现出爆炸式增长,海量的视频数据需要高效的浏览、检索工具来对媒体数据进行管理和访问。视频中含有丰富的时空信息,要逐一对媒体中的所有细节都进行处理、分析提取语义,进行语义标注是不现实也是不可能的。海量的视频数据迫切需要计算机能自动进行显著计算,选择出其中最有意义和价值的内容,从而进行进一步的分析和理解。
注意力是一个生理学上的专业名词,表示视觉系统对单一对象、景色的关注程度。灵长类动物的视觉系统时刻都收到丰富的信息,但是灵长类动物的视觉系统却只处理其中的一部分信息,大量的非重要视觉信息并没有进行细致处理和加工。视觉系统注意力机制使得人脑合理而巧妙地通过感官有选择地接受和处理外来信息,注意机制在视觉信息处理中指挥大脑将资源有选择有先后地分配给被认为是重要的或感兴趣的信息。利用注意力选择机制进行媒体中视觉关注内容的选取,然后对这些显著内容进行分析和理解,可以避免“平均”对所有时空信息进行处理。
视觉显著性(Visual Salience or Visual Saliency)是一种独特的主观知觉性质,这种性质使得一些事物与其周围景物分辨开并立即吸引人们的注意力。目前,显著度提取的策略主要包括两种:采用自底向上(bottom-up)控制策略的,通过底层视觉特征进行输入景象的显著性计算;采用自顶向下(top-down)控制策略,它通过调整选择准则,以适应外界命令的要求,从而达到将注意力集中于特定目标的目的。到目前为止,对前者的认识比对后者的深入,如在论文“Computational Modeling ofVisual Attention”(视觉注意力计算模型,Itti,Koch,NatureReviews-Neuroscience,2001)中提出模拟人类视觉系统探测局部视觉特性与其周围明显不同显著度计算模型,用的颜色、边方向、亮度或运动方向等简单视觉特征表示分显著图,然后通过“胜者优先”机制得到最终显著图。中国专利(03134423.2)“一种基于显著兴趣点的图像检索方法”,主要通过底层特征计算每个像素点的兴趣测度,进行兴趣点和显著区域选择。美国专利(7274741)“Systems and methods for generating a comprehensive user attentionmodel”(产生全面用户注意力模型的系统和方法),其主要思想是用多角度的显著度模型得到不同的分特征分布图,最后将分显著图融合得到整体显著图。
然而,上述方法对显著估计的法主要问题是局限于静态场景,即处理从关键帧得到的底层特征并得到各分显著图,然后进行融合得到整体显著图。但是,视频数据包括丰富的时空信息,显著注意的对象可能是静态的对象也可能是动态的运动区域。因此,这样得到的显著区域,静态特性表现很充分,而动态(运动)对象的显著性会得到“抑制”。
因此,需要发明一种动静结合,解决静态和动态显著特性融合的自动显著估计的方法。
发明内容
为了克服现在有方法的不足,本发明的解决的技术问题是:通过关键帧提取以静态显著为主的“静态显著分图”,同时得到以运动对象特征为主的“动态显著分图”,然后通过融合技术得到总体显著分布图。本发明以镜头(或场景)作为语义理解和语义标注的基本单位,提供一种动静结合自动估计视频视觉显著度的方法。
1.实现本发明的技术方案为:动静结合估计视频视觉显著度的方法,主要包括以下步骤:
(1)首先,将视频镜头进行解压处理,得到帧序列、帧切片,并提取关键帧;
(2)接着,在第一步的基础上,对关键帧提取早期视觉特征图、显著图正规化处理、最终的静态显著图;
(3)其次,根据关键抽取得到信息,进行动态信息抽取;
(4)在次,提取镜头的动态信息图像的动态显特征,并计算动态显著度;
(5)最后,用脉冲耦合神经网络动进行静态显著融合,计算最终视频视觉显著度。
2.本发明中将视频镜头进行解压处理得到帧序列和帧切片并提取关键帧,包括以下步骤:
(1)按镜头为单位进行解压缩得到镜头解压帧序列,在首帧和尾帧之间等时时间间隔选取10中间帧。10个中间与首帧和尾帧组成固定12帧的帧切片;
(2)对帧切片中的每一帧,提取平均颜色、纹理和形状三视觉信息底层特征。分别计算12帧的颜色、纹理和形状平均值。然后计算12个的帧切片图像与三底层特征的差异值;
(3)选取帧切片中与3底层特征平均值差异最小对应的帧作为关键帧。
3.本发明中根据关键抽取得到信息进行动态信息抽取,包括以下步骤:
(1)对12帧帧切片采样图像,计算得到11个帧切片帧间差(Frame Segment Difference,FSD);
(2)利用连续几帧的帧差掩模图像,把较长一段时间内部保持不动的像素认为是可靠的镜头背景,即镜头背景信息图像为连续6个以上帧间差为0像素点组成;
(3)镜头背景信息示性函数提取;
(4)动态信息图像提取。
4.本发明中提取镜头的动态信息图像的动态显特征,并计算动态显著度,包括以下步骤:
(1)计算动态信息图像亮度、颜色通道信息;
(2)将I,RG,BY用于构造多尺度的高斯金字塔;
(3)然后根据Itti对彩色图像处理的方法,进行中心-环绕差运算,得到亮度显著、颜色对显著征图:
I(c,s)=|I(c)ΘI(s)|
RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|
BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|;
(4)得到正规化的亮度分特征图表示动态分显著图:
D = ⊕ c = 1 3 ⊕ s = c + 2 c + 3 ( N ( I ′ ( c , s ) ) + N ( RG ( c , s ) ) + N ( BY ( c , s ) ) ) .
5.本发明中用脉冲耦合神经网络动进行静态显著融合,计算最终视频视觉显著度,包括以下步骤:
(1)链接强度βij计算可通过多尺度金字塔分解,然后进行中心-环绕差运算得到。
(2)设参与融合的静态显著图为S,动态显著图为D。分别计算S,D中每个像素的对比度βS(ij)和βD(ij),并以其作为对应PCNN神经元的链接强度。设每个神经元与周围n×n邻域神经元链接。对应的PCNN点火映射图YS和YD进行显著选择。
本发明的有益效果:(1)能综合静态和动态的显著对象特征计算得到较满意的显著结果,适用于估计动静特征丰富的视频数据显著度。(2)所得的显著次序与人视觉认知中的次序相近,较符合人的意识概念。
附图说明
图1动静显著结合视频视觉显著度估计原理图。
图2关键帧提取策略原理图。
图3动态信息抽取与动态显著计算流程。
图4脉冲耦合神经网络动静态显著融合原理图。
图5本方法与Itti模型显著对比结果,其中,左边为Itti显著算法实验结果,右边对应的即为本发明的动静态综合方法的实验结果,数字表明显著选择的次序。
具体实施方式
以下通过实施例并结合附图对本发明具体步骤进行描述:
(1)将视频镜头进行解压处理,得到帧序列、帧切片,并提取关键帧,包括以下步骤:
按镜头为单位进行解压缩得到镜头解压帧序列,在首帧和尾帧之间等时时间间隔选取10中间帧。10个中间与首帧和尾帧组成固定12帧的帧切片;
对帧切片中的每一帧,提取平均颜色、纹理和形状三视觉信息底层特征。分别计算12帧的颜色、纹理和形状平均值。然后计算12个的帧切片图像与三底层特征的差异值:
D = ω 1 D 1 + ω 2 D 2 + ω 3 D 3 ω 1 + ω 2 + ω 3
其中,D是每帧与平均值总的差异,而D1,D2,D3则分别是用三底层做匹配得到的差异值。w1,w1,w1,是权值(三个权值不可同时为零,本方法中将颜色、纹理和形状三个权值都设为2,1,2);
选取帧切片中与3底层特征平均值差异最小对应的帧作为关键帧;
(2)然后,在(1)基础上,对关键帧进行静态显著计算:提取早期视觉特征图、显著图正规化处理、最终的静态显著图;
(3)根据关键抽取得到信息,进行动态信息抽取,其步骤如下:
对12帧帧切片采样图像,计算得到11个帧切片帧间差(Frame Segment Difference,FSD):(FSD)i(x,y)=|(FS)i(x,y)-(FS)i-1(x,y)|,i=1,2,…,12;
利用连续几帧的帧差掩模图像,把较长一段时间内部保持不动的像素认为是可靠的镜头背景,即镜头背景信息图像为连续6个以上帧间差为0像素点组成:
Figure GSB00001050348100032
镜头背景信息图像示性函数:
Figure GSB00001050348100033
其中,示性函数取1表示是可靠的镜头背景;
动态信息图像提取:
D ( x , y ) = F K DM ( x , y ) · BI ‾ ( x , y ) + F K BDM ( x , y ) · ( x , y )
其中,FKDM表示关键帧与前帧的帧间差掩模图像(若关键帧为第一帧,则表取与帧的帧的帧间差),FKBDM表示关键帧与镜头背景信息图像差的掩模图像。将非背景信息图像中的运动对象和背景信息图像中的运动对象、静止对象检测出,组成动态信息图像;
(4)接着,提取镜头的动态信息图像的动态显特征,并计算动态显著度,包括以下步骤:
计算动态信息图像亮度、颜色通道信息:
I=(r+g+b)/3
R=r-(g+b)/2
G=g-(r+b)/2
B=b-(r+g)/2
Y=(r+g)/2-|r-g|/2-b;
将I,RG,BY用于构造多尺度的高斯金字塔。用高斯低通滤波器采样生成9级(尺度)特征空间子图(多尺度金字塔),各级图像大小依次为1:256。设输入图像为ID(0),生成的9级子图计算公式为:
I(σ+1)=Subsampled[I(σ)*G]
RG(σ+1)=Subsampled[RG(σ)*G]
BY(σ+1)=Subsampled[BY(σ)*G]
其中,σ=0,1,2,3,...,8,G为高斯低通滤波器,“*”代表卷积。按上述建立多尺度特征空间方法得到金字塔多尺度特征空问;
然后根据Itti对彩色图像处理的方法,进行中心-环绕差运算,得到亮度显著、颜色对显著征图:
I(c,s)=|I(c)ΘI(s)|
RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|
BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|
其中,I(c,s)表示取中心半径为c的圆区域与s为边缘的圆环区域的对比,c∈{1,2,3},s=c+δ,δ∈{2,3},符号“Θ”表示将边缘级插补运算后得到中心级图像大小,再与中心级作逐像素的特征差值运算;
得到正规化的亮度分特征图表示动态分显著图:
D = ⊕ c = 1 3 ⊕ s = c + 2 c + 3 ( N ( I ′ ( c , s ) ) + N ( RG ( c , s ) ) + N ( BY ( c , s ) ) ) ;
(5)脉冲耦合神经网络动静态显著融合模型,步骤如下:
链接强度βij计算可通过多尺度金字塔分解,然后进行中心-环绕差运算得到:设I(σ+1)=Subsampled[I(σ)*G],其中,σ=0,1,2,3,...,8,G为高斯低通滤波器,“*”代表卷积)低通滤波器的回复逆向运算
Figure GSB00001050348100042
则通过Totalsampled运算可实现利用插值法将Gaussian金字塔的某一级图像经过插值恢复成上一级图像的大小,然后通过I(c,s)=|I(c)ΘI(s)|,这样可得到链接强度βij
设参与融合的静态显著图为S,动态显著图为D:分别计算S,D中每个像素的对比度βS(ij)和βD(ij),并以其作为对应PCNN神经元的链接强度;设每个神经元与周围n×n邻域神经元链接。对应的PCNN点火映射图YS和YD进行显著选择可通过下式得到:
Figure GSB00001050348100051
其中,点(i,j)处对应两PCNN点火时间为YS(i,j)和YD(i,j),其对应的邻域亮度分别为I(sur.)S(ij)和I(sur.)D(ij)

Claims (3)

1.一种动静显著结合估计视频视觉显著度的方法,其特征在于包括以下步骤: 
(1)首先,按镜头为单位解压缩得到镜头帧序列,在首帧和尾帧之间等时间间隔选取10中间帧,并与首帧和尾帧组成固定12帧的帧切片;根据帧切片平均颜色、纹理和形状3底层特征选取关键帧; 
(2)其次,在(1)基础上,对关键帧计算静态显著特征,得到静态显著图; 
(3)再次,利用帧间差掩模图像和可靠的镜头背景提取动态信息,根据动态信息图像提取镜头的动态显著特征,计算得到动态显著图; 
(4)最后,将步骤(2)得到的静态显著图S和步骤(3)得到的动态显著图D通过脉冲耦合神经网络进行显著融合,通过点火映射图YS和YD进行显著选择,得到最终视频的显著度: 
Figure FSB00001050348000011
其中,点(i,j)处对应两脉冲耦合神经网络点火时间为YS(i,j)和YD(i,j),其对应的邻域亮度分别为I(sur.)S(ij)和I(sur.)D(ij);静态显著图S和动态显著图脉冲耦合神经网络神经元的链接强度通过多尺度金字塔分解、中心-环绕差运算分别计算每个像素的亮度对比度βS(ij)和βD(ij)得到。 
2.如权利要求1所述的方法,其特征是:抽取帧切片中每帧的平均颜色、纹理和形状3底层特征,计算12帧平均颜色、纹理和形状的3个底层特征平均值,选取帧切片中与该3底层特征平均值差异最小对应的帧作为关键帧。 
3.如权利要求1所述的方法,其特征是:所述动态运动对象提取包括以下步骤: 
(1)首先,对12帧帧切片采样图像,计算得到11个帧切片帧间差; 
(2)其次,镜头可靠的背景信息图像由连续6个以上帧间差为0的所有像素点组成; 
(3)提取镜头背景信息图像示性函数,得到动态运动对象: 
Figure FSB00001050348000012
其中,若关键帧不是第一帧,FKDM表示关键帧与前帧的帧间差掩模图像,若关键帧为第一帧,则FKDM表示该关键帧与后一帧的帧间差掩模图像,FKBDM表示关键帧与镜头背景信息图像差的掩模图像,BI(x,y)表示镜头背景信息图像示性函数,连续6个以上帧间差为0的像素点对应示性函数值为1,其余示性函数值为0;将非背景信息图像中的运动对象和背景信息图像中的运动对象、静止对象检测出,组成动态信息图像。 
CN 200910216538 2009-12-04 2009-12-04 动静结合估计视频视觉显著度的方法 Expired - Fee Related CN102088597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910216538 CN102088597B (zh) 2009-12-04 2009-12-04 动静结合估计视频视觉显著度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910216538 CN102088597B (zh) 2009-12-04 2009-12-04 动静结合估计视频视觉显著度的方法

Publications (2)

Publication Number Publication Date
CN102088597A CN102088597A (zh) 2011-06-08
CN102088597B true CN102088597B (zh) 2013-10-30

Family

ID=44100175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910216538 Expired - Fee Related CN102088597B (zh) 2009-12-04 2009-12-04 动静结合估计视频视觉显著度的方法

Country Status (1)

Country Link
CN (1) CN102088597B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824284B (zh) * 2014-01-26 2017-05-10 中山大学 一种基于视觉注意力模型的关键帧提取方法和系统
US9195903B2 (en) 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
US9373058B2 (en) 2014-05-29 2016-06-21 International Business Machines Corporation Scene understanding using a neurosynaptic system
US10115054B2 (en) 2014-07-02 2018-10-30 International Business Machines Corporation Classifying features using a neurosynaptic system
US9798972B2 (en) 2014-07-02 2017-10-24 International Business Machines Corporation Feature extraction using a neurosynaptic system for object classification
CN104778238B (zh) * 2015-04-03 2018-01-05 中国农业大学 一种视频显著性的分析方法及装置
CN105205782B (zh) * 2015-09-06 2019-08-16 京东方科技集团股份有限公司 超解像方法和系统、服务器、用户设备及其方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108364273B (zh) * 2018-01-30 2022-02-25 中南大学 一种空间域下的多聚焦图像融合的方法
CN110971833B (zh) 2018-09-30 2021-05-14 北京微播视界科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN110110578B (zh) * 2019-02-21 2023-09-29 北京工业大学 一种室内场景语义标注方法
CN110956219B (zh) * 2019-12-09 2023-11-14 爱芯元智半导体(宁波)有限公司 视频数据的处理方法、装置和电子系统
CN114466153B (zh) * 2022-04-13 2022-09-09 深圳时识科技有限公司 自适应脉冲生成方法、装置、类脑芯片和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366422A (zh) * 2001-01-17 2002-08-28 特克特朗尼克公司 视觉注意模式
CN101329767A (zh) * 2008-07-11 2008-12-24 西安交通大学 基于学习的视频中显著物体序列自动检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1366422A (zh) * 2001-01-17 2002-08-28 特克特朗尼克公司 视觉注意模式
EP1225769B1 (en) * 2001-01-17 2005-03-02 Tektronix, Inc. Spatial temporal visual attention model for a video frame sequence
CN101329767A (zh) * 2008-07-11 2008-12-24 西安交通大学 基于学习的视频中显著物体序列自动检测方法

Also Published As

Publication number Publication date
CN102088597A (zh) 2011-06-08

Similar Documents

Publication Publication Date Title
CN102088597B (zh) 动静结合估计视频视觉显著度的方法
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN101651772B (zh) 一种基于视觉注意的视频感兴趣区域的提取方法
CN109815867A (zh) 一种人群密度估计和人流量统计方法
CN102084397B (zh) 图像处理设备、方法
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN111881755B (zh) 一种视频帧序列的裁剪方法及装置
CN111539290A (zh) 视频动作识别方法、装置、电子设备及存储介质
CN111444826A (zh) 视频检测方法、装置、存储介质及计算机设备
CN106570885A (zh) 基于亮度和纹理融合阈值的背景建模方法
Hu et al. Gabor-CNN for object detection based on small samples
CN112272295A (zh) 具有三维效果的视频的生成方法、播放方法、装置及设备
CN113420703A (zh) 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN112101344A (zh) 一种视频文本跟踪方法及装置
WO2012153744A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
Liu RETRACTED: Beach sports image detection based on heterogeneous multi-processor and convolutional neural network
CN116030516A (zh) 基于多任务学习与全局循环卷积的微表情识别方法及装置
CN115222578A (zh) 图像风格迁移方法、程序产品、存储介质及电子设备
CN113269131A (zh) 一种基于空中视角的跨场景视频人群理解双通道网络方法
CN112784631A (zh) 一种基于深度神经网络进行人脸情绪识别的方法
Lin et al. Domain adaptation with foreground/background cues and gated discriminators
CN112714304B (zh) 基于增强现实的大屏显示方法及装置
Yang et al. Combining attention mechanism and dual-stream 3d convolutional neural network for micro-expression recognition
Zhou et al. IEEE Access Special Section Editorial: Deep Learning Technologies for Internet of Video Things

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131030

Termination date: 20151204

EXPY Termination of patent right or utility model