CN103345763B - 一种基于多尺度可变块的运动注意力计算方法 - Google Patents

一种基于多尺度可变块的运动注意力计算方法 Download PDF

Info

Publication number
CN103345763B
CN103345763B CN201310258419.2A CN201310258419A CN103345763B CN 103345763 B CN103345763 B CN 103345763B CN 201310258419 A CN201310258419 A CN 201310258419A CN 103345763 B CN103345763 B CN 103345763B
Authority
CN
China
Prior art keywords
motion
image
block
attention
motion attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310258419.2A
Other languages
English (en)
Other versions
CN103345763A (zh
Inventor
刘龙
赵晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201310258419.2A priority Critical patent/CN103345763B/zh
Publication of CN103345763A publication Critical patent/CN103345763A/zh
Application granted granted Critical
Publication of CN103345763B publication Critical patent/CN103345763B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度可变块的运动注意力计算方法,具体按照以下步骤实施:提取两帧图像;使用高斯函数对两帧图像进行多尺度分解,得到三层分辨率逐渐减小的图像金字塔;对多分辨率图像进行可变块划分;进行多尺度图像的可变块运动注意力计算。本发明基于多尺度可变块的运动注意力计算方法,在计算运动矢量时采用可变块来划分图像,这样能根据图像的运动信息来分割图像。融合多尺度运动注意力图,用多尺度来计算显著图具有某种分辨率下无法发现的特性在另一种分辨率下将很容易被发现的优势。模型考虑了图像的纹理特征,能更有效地提取出运动注意力区域。

Description

一种基于多尺度可变块的运动注意力计算方法
技术领域
本发明属于视频图像检测技术领域,具体涉及一种基于多尺度可变块的运动注意力计算方法。
背景技术
随着科学的不断发展,计算机能够模仿人的眼睛完成人类眼睛的视觉感知。注意机制便是视觉感知模型的一部分,它与学习、记忆等模块协同工作,完成将待注意目标从背景中分离、注意焦点在多个目标间转移、注意目标与记忆中的模式匹配等任务。视觉注意机制是灵长类动物的一个共同属性,它指导我们去注意我们感兴趣的目标,帮助我们从在大量信息中滤除对我们无用的信息。也就是说视觉注意机制不是对进入视野的所有信息进行处理,而是对感兴趣的目标赋予优先处理权。视觉注意机制是一个多学科交叉的领域,目前,很难给予一个固定的模型来处理问题,它对图像处理、模式识别等很多领域都有非常重要的意义。
上个世纪80年代marr第一次提出了完整的视觉计算理论,视觉注意的第一个模型是Koch模型,该模型对marr的理论不足之处进行了补充,但也是只体现在理论研究上。现在的视觉注意机制模型,主要基于Koch的框架和Treisman的特征整合理论,对输入图像提取边缘方向、亮度等初级视觉特征,形成各个特征维的显著图。然后基于非均匀采样的方式,采用多特征图合并策略对这些不同特征维的显著图进行融合,形成一幅最终的显著图。根据显著图,可以得到一系列的待注意的目标。各目标通过注意转移的禁止返回机制和胜者为王的竞争机制吸引注意焦点,并使得注意焦点在各个待注意的目标之间按一定的原则转移。其中最具有代表性的是Itti在98年提出的视觉显著性区域概念。他首先将输入的图像按照预先设定的不同特征通道分解为一组特征图,每一幅图中不同的空间区域相互竞争显著性,只有那些与局部邻域明显区别的区域能够突出。在后续的研究中,Ming-ChiehChi等提出了一个基于视频自动决定感兴趣区域的视觉节奏分析的注意力模型,该模型能利用较低的计算复杂度准确的提取感兴趣的区域为实时应用。ZhiwenYu等提出了一种基于实时聚类的感兴趣区域的提取方案,该方案的优点是在对象层检测视觉注意力区域,填补了传统的视觉注意力区域和高层语义之间的沟壑,有效且容易实现。XiaodongGu等针对当前注意力模型结构的场景中产生的注意力区域不稳定的固有缺点,提出了一个通过时间校正的方法以产生稳定的注意区域方法。Wen-FuLee等提出了一种采用低级特征颜色、定位、运动和高级特征人脸通过机器学习从视频信号中预测视觉注意力的计算方案。HuiWang等提出了一个基于视觉注意力在已知的背景形式下的目标快速搜索策略,该策略能有效地提高目标快速搜索算法。Ma等人提出了一种运动注意力模型,该模型通过分析运动矢量的运动强度,空间和时间相关性来计算图像的运动注意力。同样,视频中两帧图像的差异也反映了视频的运动信息。但是目前现有的技术都不能很有效地提取出运动注意力区域。
发明内容
本发明的目的在提供一种基于多尺度可变块的运动注意力计算方法,解决了现有技术不能有效的提取出图像中的运动注意力区域的问题。
本发明所采用的技术方案是,一种基于多尺度可变块的运动注意力计算方法,具体按照以下步骤实施:
步骤1:提取两帧图像;
步骤2:使用高斯函数对两帧图像进行多尺度分解,得到三层分辨率逐渐减小的图像金字塔;
其中的步骤2使用高斯函数对两帧图像进行多尺度分解,得到三层分辨率逐渐减小的图像金字塔,具体按照以下步骤实施:在一段视频中截取一幅目标图像进行多尺度分解,分别得到三幅分辨率逐渐减小的高斯金字塔图像;对于大小为m×n的图像I,高斯金字塔G由三个分辨率减小的图像Ii组成,其中,i={i=0,1...,j}代表金字塔的级数,以下公式是第i层图像的大小:
Ii=(m/2i)×(n/2i),
图像Ii由两步得到:第一步是高斯平滑处理,第二步是下采样。
步骤3:对多分辨率图像进行可变块划分;
其中的步骤3对多分辨率图像进行可变块划分,具体按照以下步骤实施:
1)将输入图像划分成64×64大小的块;
2)根据公式 S A D = Σ i = 1 , j = 1 i = a , j = b | I k ( i , j ) - I k - 1 ( i , j ) | , 计算每个待分割块的SAD值,即两帧图像的绝对差和值,当块的SAD值大于根据图像内容设定的阈值th,阈值取值由公式 t h = 20000 64 × 64 5000 32 × 32 1300 16 × 16 350 8 × 8 得出,认为两帧之间发生了明显的变化,则对该块进行再分割;其中Ik(i,j)表示第k帧图像,Ik-1(i,j)表示第k-1帧图像,a×b是待分块的大小;其中20000是大小为64×64大小的块所对应的阈值,其中5000是大小为32×32大小的块所对应的阈值,其中1300是大小为16×16大小的块所对应的阈值,其中350是大小为8×8大小的块所对应的阈值;
3)先将待划分块划分成上下左右四个相等的子块进行预先计算,按照公式计算这四个子块的SAD值,如果上边两个块的SAD值大于阈值th而下边两个块的SAD值小于阈值th或者上边两个块的SAD值小于阈值th而下边两个块的SAD值大于阈值th,将待分块重新分成上下两个子块;同理,如果左边两个块的SAD值大于阈值th而右边两个块的SAD值小于阈值th或者右边两个块的SAD值小于阈值th而左边两个块的SAD值大于阈值th,将待分块重新分成左右两个子块;其他情况,则将待分块分成上下左右的四个等大小的子块;
4)重复步骤2)和3)的块划分原则将块划分成最小8×8大小。
步骤4:进行多尺度图像的可变块运动注意力计算。
本发明的特点还在于,
其中的步骤4进行多尺度图像的可变块运动注意力计算,具体按照以下步骤实施:
1)采用三步法进行可变块运动估计;
2)采用中值滤波进行可变块运动矢量场的时空滤波;
3)可变块运动注意力的计算,其包括:
a.局部运动注意力模型:
局部运动注意力模型是通过将运动矢量场划分成w×w大小的不重叠的块来进行计算的,得到每个块的局部运动注意力;
首先根据n=0,1,2...35计算出每个w×w大小的块的运动矢量的相位分布,运动矢量的相位根据公式:
P H = arcsin ( MV y / MV x 2 + MV y 2 ) MV x > 0 , MV y > 0 &pi; - arcsin ( MV y / MV x 2 + MV y 2 ) MV x < 0 , MV y > 0 &pi; + arcsin ( | MV y | / MV x 2 + MV y 2 ) MV x < 0 , MV y < 0 2 &pi; - arcsin ( | MV y | / MV x 2 + MV y 2 ) MV x > 0 , MV y < 0 0 MV x > 0 , MV y = 0 &pi; / 2 MV x = 0 , MV y > 0 &pi; MV x < 0 , MV y = 0 3 &pi; / 2 MV x = 0 , MV y < 0
计算,在统计相位分布前先将运动矢量的弧度表示根据式AN=PH×360/2π转换成角度表示;式中PH为运动矢量的弧度,MVx和MVy分别为运动矢量的x轴和y轴分量;AN为运动矢量的角度,PH为运动矢量的弧度;Tn为在每个块内运动矢量角度在AN=10n到AN=10(n+1)范围内的运动矢量数量,n的取值范围为0到35;
局部运动注意力根据以下公式计算:
P n = T n / &Sigma; n = 0 35 T n n=0,1,2...35,
MA l o = - &Sigma; n = 0 35 P n log P n n=0,1,2...35;
b.全局运动注意力模型:
全局运动注意力是通过计算全局运动矢量场之间的反差来定义的,全局运动注意力根据下式计算:
MA g l = - &Sigma; n = 0 35 P n log P n n=0,1,2...35,
式中MAgl是全局运动注意力,pn是在全局范围内运动矢量角度在AN=10n到AN=10(n+1)范围内的所占全部运动矢量的概率;
c.运动注意力模型:
最终的运动注意力将局部运动注意力和全局运动注意力进行融合,融合方法如下式所示:
MA=aMAlo+bMAgl
上式中MA是最终的运动注意力,MAlo和MAgl分别是局部和全局运动注意力,a,b是局部运动注意力和全局运动注意力融合时的权值,得到的不同尺度的运动注意力图;
将上面计算得到的多尺度运动注意力图按照下面的公式融合得到最终的显著图:
B=aB1+bB2+(1-a-b)B3
式中B是最终的显著图,Bi是多尺度显著图,a,b,c为分辨率特征图的权值。
本发明的有益效果是,
1.在计算运动矢量时采用可变块来划分图像,这样能根据图像的运动信息来分割图像。
2.融合多尺度运动注意力图,用多尺度来计算显著图具有某种分辨率下无法发现的特性在另一种分辨率下将很容易被发现的优势。
3.模型考虑了图像的纹理特征,能更有效地提取出运动注意力区域。
附图说明
图1为可变块的分割原则示意图,其中(a)为将一个待分块分为相等四部分的示意图,(b)是根据本发明提出的分块原则将待分块分为左右两块的示意图,(c)是根据本发明提出的分块原则待分块分为上下两块的示意图,(d)是根据本发明提出的分块原则待分块分为上下左右四个小块的示意图;
图2为可变块和固定块分割图像结果图,其中(a)为固定块划分图像结果,(b)为可变块划分图像结果;
图3为运动矢量场时空滤波,其中(a)为foreman原始帧,(b)为原始运动矢量场,(c)为累加滤波后的运动矢量场,(d)为中值滤波后的运动矢量场,(e)为时空滤波后的运动矢量场;
图4为由不同分辨率的原始帧计算得到的运动注意力显著图,其中(a)为高分辨率,(b)为次分辨率,(c)为低分辨率;
图5为实验结果图,其中第一列为测试序列的原始帧,第二列为MA计算运动注意力方法的算法1的实验结果图,第三列为帧间差分法算法2的实验结果图,第四列为本发明算法的实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于多尺度可变块的运动注意力计算方法,具体按照以下步骤实施:
步骤1:提取两帧图像;
步骤2:使用高斯函数对两帧图像进行多尺度分解,得到三层分辨率逐渐减小的图像金字塔。具体按照以下步骤实施:
在一段视频中截取一幅目标图像进行多尺度分解,分别得到三幅分辨率逐渐减小的高斯金字塔图像;对于大小为m×n的图像I,高斯金字塔G由三个分辨率减小的图像Ii组成,其中,i={i=0,1...,j}代表金字塔的级数,公式(1)是第i层图像的大小:
Ii=(m/2i)×(n/2i)(1)
图像Ii由两步得到:第一步是高斯平滑处理,第二步是下采样。
本发明将输入图像利用高斯金字塔分解成三层分辨率逐步降低的图像。
步骤3:对上一步得到的多分辨率图像进行可变块划分,具体按照以下步骤实施:
目前固定块的匹配方法被广泛应用于运动估计中,但是,固定块的匹配方法在图像细节尺寸较大的区域会导致运动估计精度不够且编码率较低。而在可变块匹配方法中,将图像细节尺寸较大的区域划分成更小的块。虽然块越小,块匹配越精确,残差越小,预测更精确,编码效率越高,但是,块分的越多,运算复杂度越大,所以本发明先将图像划分为64×64的块,再根据图像的具体内容进行下一步的划分,具体划分步骤如下:
1)将输入图像划分成64×64大小的块。
2)根据公式(2),计算每个待分割块的SAD值,即两帧图像的绝对差和值,当块的SAD值大于根据图像内容设定的阈值th,阈值取值由公式(3)得出,认为两帧之间发生了明显的变化,则需要对该块进行再分割。
3)如图1所示,先将待划分块划分成上下左右四个相等的子块进行预先计算,按照公式(2)计算这四个子块的SAD值,如果上边两个块的SAD值大于阈值th而下边两个块的SAD值小于阈值th或者上边两个块的SAD值小于阈值th而下边两个块的SAD值大于阈值th,将待分块重新分成上下两个子块。同理,如果左边两个块的SAD值大于阈值th而右边两个块的SAD值小于阈值th或者右边两个块的SAD值小于阈值th而左边两个块的SAD值大于阈值th,将待分块重新分成左右两个子块。其他情况,则将待分块分成上下左右的四个等大小的子块。
4)重复步骤2)和步骤3)的块划分原则最小将块划分成8×8大小。
S A D = &Sigma; i = 1 , j = 1 i = a , j = b | I k ( i , j ) - I k - 1 ( i , j ) | - - - ( 2 )
其中Ik(i,j)表示第k帧图像,Ik-1(i,j)表示第k-1帧图像,a×b是待分块的大小。
t h = 20000 64 &times; 64 5000 32 &times; 32 1300 16 &times; 16 350 8 &times; 8 - - - ( 3 )
其中20000是大小为64×64大小的块所对应的阈值,其中5000是大小为32×32大小的块所对应的阈值,其中1300是大小为16×16大小的块所对应的阈值,其中350是大小为8×8大小的块所对应的阈值。
图2(a)为固定块划分图像的结果,(b)为可变块划分图像的结果。从图中可以看出,可变块划分图像考虑了图像的运动信息,在运动剧烈的部分将图像划分成较小的块,运动越激烈,划分的块就越小,这样划分更合理,因为这样划分更接近图像的纹理特征。
步骤4:进行多尺度图像的可变块运动注意力计算,具体步骤如下:
a.可变块运动估计。运动图像多数情况下只是其中的很少一部分图像在运动,同一场景相邻的两幅图像之间在内容的差异上不会太大,或者说后一帧的内容与前一帧重复的部分很多。对于相关的视频图像,发送端不一定必须把每一帧图像的所有像素都传送给接收端,接收端就可以根据运动信息和前一帧图像的内容来更新当前帧,这比全部传送每帧图像的具体细节所需的数据量要小的多。
要这样做,首先要解决的问题是如何从序列图像中提取有关物体的相关信息,这个过程称为运动估计,其表达方式是运动矢量,运动估计研究的主要内容就是如何加速、有效的获得足够精度的运动矢量。可变块运动估计的基本思想是把图像序列的每一帧分成许多互不重叠的大小可变的块,并认为块内所有的像素的位移量是相同的,然后对于当前帧中的每一块的前一帧或后一帧某一给定搜索范围内根据一定的匹配准则找出与当前块最相似的块,即匹配块。由匹配块与当前块的相对位置计算出运动位移,所得的运动位移即为当前块的运动矢量。本发明是利用三步法进行运动估计的,三步法为公知的运动估计方法。
b.可变块运动矢量场的时空滤波。初提取的运动矢量场由于噪声,如果不进行处理,会导致最终计算结果不准确,所以需要对运动矢量进行预处理。
在时间维度上,帧间图像具有很强的相关性。累加滤波是一个在时间维度上有效的滤波方法,它能降低噪声,提高信噪比。对运动矢量进行累加滤波就是将时间维度上相近的几个运动矢量场进行叠加再平均。
在空间维度上一般用中值滤波对运动矢量进行滤波,中值滤波就是用每一个非零运动矢量相邻的运动矢量的中值来代替该运动矢量。时-空滤波结果如图3(e)所示。
c.可变块运动注意力的计算。上一小节对运动矢量进行了时-空滤波,可以看出对滤波后的运动矢量之间存在着反差,运动矢量之间的反差的不同,我们的注意程度也就不同。所以,我们利用运动矢量之间的反差来定义运动注意力模型。在Ma提出的运动注意力模型中只考虑了运动矢量的局部反差,忽略了全局反差,因此会造成计算结果不准确。本发明在此基础上进行了改进,不仅计算运动矢量的局部反差也计算了运动矢量的全局反差。
可变块运动注意力的计算,其包括:
局部运动注意力模型:
局部运动注意力模型是通过将运动矢量场划分成w×w大小的不重叠的块来进行计算的,得到每个块的局部运动注意力。
首先根据下式(6)计算出每个w×w大小的块的运动矢量的相位分布,运动矢量的相位根据公式(4)计算,在统计相位分布前先将运动矢量的弧度表示根据式(5)转换成角度表示:
P H = arcsin ( MV y / MV x 2 + MV y 2 ) MV x > 0 , MV y > 0 &pi; - arcsin ( MV y / MV x 2 + MV y 2 ) MV x < 0 , MV y > 0 &pi; + arcsin ( | MV y | / MV x 2 + MV y 2 ) MV x < 0 , MV y < 0 2 &pi; - arcsin ( | MV y | / MV x 2 + MV y 2 ) MV x > 0 , MV y < 0 0 MV x > 0 , MV y = 0 &pi; / 2 MV x = 0 , MV y > 0 &pi; MV x < 0 , MV y = 0 3 &pi; / 2 MV x = 0 , MV y < 0 - - - ( 4 )
式(3)中PH为运动矢量的弧度,MVx和MVy分别为运动矢量的x轴和y轴分量。
AN=PH×360/2π(5)
n=0,1,2...35(6)
式(5)中AN为运动矢量的角度,PH为运动矢量的弧度。式(6)中Tn为在每个块内运动矢量角度在AN=10n到AN=10(n+1)范围内的运动矢量数量,n的取值范围为0到35。
局部运动注意力根据式(8)计算
P n = T n / &Sigma; n = 0 35 T n n=0,1,2...35(7)
MA l o = - &Sigma; n = 0 35 P n log P n n=0,1,2...35(8)
全局运动注意力模型:
全局运动注意力是通过计算全局运动矢量场之间的反差来定义的,按照公式(5),(6),(7)计算出全局运动矢量的分布,全局运动注意力根据下式(9)计算:
MA g l = - &Sigma; n = 0 35 P n log P n n=0,1,2...35(9)
式(9)中MAgl是全局运动注意力,pn是在全局范围内运动矢量角度在AN=10n到AN=10(n+1)范围内的所占全部运动矢量的概率。
运动注意力模型:
最终的运动注意力将局部运动注意力和全局运动注意力进行融合,融合方法如下式所示:
MA=aMAlo+bMAgl(10)
上式中MA是最终的运动注意力,MAlo和MAgl分别是局部和全局运动注意力,a,b是局部运动注意力和全局运动注意力融合时的权值。得到的不同尺度的运动注意力图。
将上面计算得到的多尺度运动注意力图按照下面的公式融合得到最终的显著图:
B=aB1+bB2+(1-a-b)B3(11)
式(11)中B是最终的显著图,Bi是多尺度显著图。a,b,c为分辨率特征图的权值。
如图4所示:(a)为高分辨率,(b)为次分辨率,(c)为低分辨率;研究表明,多分辨率图像更符合人类的视觉系统。低分辨率的图像描述出了图像中物体的大概轮廓,而高分辨率图像能发现图像的细节信息,所以多分辨率图像能获得更多的图像信息和更好的描述图像。
本发明的实验环境matlab2010,实验采用了不同的视频序列,原视频的分辨率为1920×1080,本发明的实验视频将原视频截为1024×1024的分辨率,以上视频都为全局运动视频场景。将通过分析运动矢量的运动强度,空间和时间相关性来计算图像的运动注意力的方法记为算法1,帧间差分法记算法2,本发明的方法记为算法3。图5为这三种算法的实验结果图,图中第一列为测试序列的原始帧,第二列为算法1的实验结果图,第三列为算法2的实验结果图,第四列为本发明算法的实验结果图。
从实验结果可以看出由于算法1没有考虑图像本身的纹理信息和运动矢量的全局反差,所以对全局运动比较大的视频计算的运动注意力图效果模糊,如第二个测试序列,很难看清运动显著的部分。算法2只能反映出两帧间图像的运动信息,没有考虑图像本身的信息,如第四个测试序列,图像内容本身的运动注意力点在人跟马上,但是计算出来的显著图无法区分出人和马比背景的围栏更引人注意。本发明提出的模型使用可变块分割图像,考虑了图象的纹理信息,融合了多尺度的显著图,综合了每个尺度下的显著性,在计算运动注意力时考虑了运动矢量的局部反差和全局反差,综上所述,本发明提出的算法能准确计算出运动注意力显著图,实验也证明了本发明方法的准确性。

Claims (2)

1.一种基于多尺度可变块的运动注意力计算方法,其特征在于,具体按照以下步骤实施:
步骤1:提取两帧图像;
步骤2:使用高斯函数对两帧图像进行多尺度分解,得到三层分辨率逐渐减小的图像金字塔;
具体按照以下步骤实施:在一段视频中截取一幅目标图像进行多尺度分解,分别得到三幅分辨率逐渐减小的高斯金字塔图像;对于大小为m×n的图像I,高斯金字塔G由三个分辨率减小的图像Ii组成,其中,i={i=0,1...,j}代表金字塔的级数,以下公式是第i层图像的大小:
Ii=(m/2i)×(n/2i),
图像Ii由两步得到:第一步是高斯平滑处理,第二步是下采样;
步骤3:对多分辨率图像进行可变块划分;
具体按照以下步骤实施:
1)将输入图像划分成64×64大小的块;
2)根据公式 S A D = &Sigma; i = 1 , j = 1 i = a , j = b | I k ( i , j ) - I k - 1 ( i , j ) | , 计算每个待分割块的SAD值,即两帧图像的绝对差和值,当块的SAD值大于根据图像内容设定的阈值th,阈值取值由公式 t h = 20000 64 &times; 64 5000 32 &times; 32 1300 16 &times; 16 350 8 &times; 8 得出,认为两帧之间发生了明显的变化,则对该块进行再分割;其中Ik(i,j)表示第k帧图像,Ik-1(i,j)表示第k-1帧图像,a×b是待分块的大小;其中20000是大小为64×64大小的块所对应的阈值,其中5000是大小为32×32大小的块所对应的阈值,其中1300是大小为16×16大小的块所对应的阈值,其中350是大小为8×8大小的块所对应的阈值;
3)先将待划分块划分成上下左右四个相等的子块进行预先计算,按照公式计算这四个子块的SAD值,如果上边两个块的SAD值大于阈值th而下边两个块的SAD值小于阈值th或者上边两个块的SAD值小于阈值th而下边两个块的SAD值大于阈值th,将待分块重新分成上下两个子块;同理,如果左边两个块的SAD值大于阈值th而右边两个块的SAD值小于阈值th或者右边两个块的SAD值小于阈值th而左边两个块的SAD值大于阈值th,将待分块重新分成左右两个子块;其他情况,则将待分块分成上下左右的四个等大小的子块;
4)重复步骤2)和步骤3)的块划分原则将块划分成最小8×8大小;
步骤4:进行多尺度图像的可变块运动注意力计算。
2.根据权利要求1所述的基于多尺度可变块的运动注意力计算方法,其特征在于,所述的步骤4进行多尺度图像的可变块运动注意力计算,具体按照以下步骤实施:
1)采用三步法进行可变块运动估计;
2)采用中值滤波进行可变块运动矢量场的时空滤波;
3)可变块运动注意力的计算,其包括:
a.局部运动注意力模型:
局部运动注意力模型是通过将运动矢量场划分成w×w大小的不重叠的块来进行计算的,得到每个块的局部运动注意力;
首先根据计算出每个w×w大小的块的运动矢量的相位分布,运动矢量的相位根据公式:
P H = arcsin ( MV y / MV x 2 + MV y 2 ) MV x > 0 , MV y > 0 &pi; - arcsin ( MV y / MV x 2 + MV y 2 ) MV x < 0 , MV y > 0 &pi; + arcsin ( | MV y | / MV x 2 + MV y 2 ) MV x < 0 , MV y < 0 2 &pi; - arcsin ( | MV y | / MV x 2 + MV y 2 ) MV x > 0 , MV y < 0 0 MV x > 0 , MV y = 0 &pi; / 2 MV x = 0 , MV y > 0 &pi; MV x < 0 , MV y = 0 3 &pi; / 2 MV x = 0 , MV y < 0
计算,在统计相位分布前先将运动矢量的弧度表示根据式AN=PH×360/2π转换成角度表示;式中PH为运动矢量的弧度,MVx和MVy分别为运动矢量的x轴和y轴分量;AN为运动矢量的角度,PH为运动矢量的弧度;Tn为在每个块内运动矢量角度在AN=10n到AN=10(n+1)范围内的运动矢量数量,n的取值范围为0到35;
局部运动注意力根据以下公式计算:
P n = T n / &Sigma; n = 0 35 T n , n = 0 , 1 , 2 ... 35 ,
MA l o = - &Sigma; n = 0 35 P n log P n , n = 0 , 1 , 2 ... 35 ;
b.全局运动注意力模型:
全局运动注意力是通过计算全局运动矢量场之间的反差来定义的,全局运动注意力根据下式计算:
MA g l = - &Sigma; n = 0 35 P n log P n , n = 0 , 1 , 2 ... 35 ,
式中MAgl是全局运动注意力,pn是在全局范围内运动矢量角度在AN=10n到AN=10(n+1)范围内的所占全部运动矢量的概率;
c.运动注意力模型:
最终的运动注意力将局部运动注意力和全局运动注意力进行融合,融合方法如下式所示:
MA=aMAlo+bMAgl
上式中MA是最终的运动注意力,MAlo和MAgl分别是局部和全局运动注意力,a,b是局部运动注意力和全局运动注意力融合时的权值,得到的不同尺度的运动注意力图;
将上面计算得到的多尺度运动注意力图按照下面的公式融合得到最终的显著图:
B=aB1+bB2+(1-a-b)B3
式中B是最终的显著图,Bi是多尺度显著图,a,b,c为分辨率特征图的权值。
CN201310258419.2A 2013-06-25 2013-06-25 一种基于多尺度可变块的运动注意力计算方法 Expired - Fee Related CN103345763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310258419.2A CN103345763B (zh) 2013-06-25 2013-06-25 一种基于多尺度可变块的运动注意力计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310258419.2A CN103345763B (zh) 2013-06-25 2013-06-25 一种基于多尺度可变块的运动注意力计算方法

Publications (2)

Publication Number Publication Date
CN103345763A CN103345763A (zh) 2013-10-09
CN103345763B true CN103345763B (zh) 2016-06-01

Family

ID=49280556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310258419.2A Expired - Fee Related CN103345763B (zh) 2013-06-25 2013-06-25 一种基于多尺度可变块的运动注意力计算方法

Country Status (1)

Country Link
CN (1) CN103345763B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229490B (zh) * 2017-02-23 2021-01-05 北京市商汤科技开发有限公司 关键点检测方法、神经网络训练方法、装置和电子设备
CN107197281A (zh) * 2017-05-12 2017-09-22 武汉斗鱼网络科技有限公司 一种实现运动估计的方法及电子设备
CN108388901B (zh) * 2018-02-05 2020-06-16 西安电子科技大学 基于空间-语义通道的协同显著目标检测方法
CN108510012B (zh) * 2018-05-04 2022-04-01 四川大学 一种基于多尺度特征图的目标快速检测方法
CN111723829B (zh) * 2019-03-18 2022-05-06 四川大学 一种基于注意力掩模融合的全卷积目标检测方法
CN110458221B (zh) * 2019-08-05 2021-03-16 南开大学 基于在线注意力累积的挖掘目标物体区域的方法
CN111612790B (zh) * 2020-04-29 2023-10-17 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法
CN111935417B (zh) * 2020-07-02 2021-12-14 清华大学 基于多尺度相机阵列的分级视频拼接方法及装置
CN114565977B (zh) * 2022-03-16 2023-05-02 电子科技大学 一种步态特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1681291A (zh) * 2003-12-23 2005-10-12 创世纪微芯片公司 运动补偿帧速率转换
CN101976439A (zh) * 2010-11-02 2011-02-16 上海海事大学 海难搜救机器视觉系统中结合运动信息的视觉注意模型
CN103020985A (zh) * 2012-11-12 2013-04-03 华中科技大学 一种基于场量分析的视频图像显著性检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1681291A (zh) * 2003-12-23 2005-10-12 创世纪微芯片公司 运动补偿帧速率转换
CN101976439A (zh) * 2010-11-02 2011-02-16 上海海事大学 海难搜救机器视觉系统中结合运动信息的视觉注意模型
CN103020985A (zh) * 2012-11-12 2013-04-03 华中科技大学 一种基于场量分析的视频图像显著性检测方法

Also Published As

Publication number Publication date
CN103345763A (zh) 2013-10-09

Similar Documents

Publication Publication Date Title
CN103345763B (zh) 一种基于多尺度可变块的运动注意力计算方法
Qin et al. U2-Net: Going deeper with nested U-structure for salient object detection
Yin et al. Geonet: Unsupervised learning of dense depth, optical flow and camera pose
Zhou et al. Self-attention feature fusion network for semantic segmentation
Sagar et al. Semantic segmentation with multi scale spatial attention for self driving cars
CN107273800A (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN106952286A (zh) 基于运动显著图和光流矢量分析的动态背景目标分割方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
Hua et al. Depth estimation with convolutional conditional random field network
Zhai et al. Optical flow estimation using channel attention mechanism and dilated convolutional neural networks
Wu et al. A local–global estimator based on large kernel CNN and transformer for human pose estimation and running pose measurement
Yang et al. Depth map super-resolution using stereo-vision-assisted model
Wei et al. Scene-adaptive attention network for crowd counting
CN117274883A (zh) 基于多头注意力优化特征融合网络的目标跟踪方法与系统
Xu et al. CCFNet: Cross-complementary fusion network for RGB-D scene parsing of clothing images
Du et al. Srh-net: Stacked recurrent hourglass network for stereo matching
CN116758104A (zh) 一种基于改进GCNet的多实例人像抠图方法
Zheng et al. Self-supervised monocular depth estimation based on combining convolution and multilayer perceptron
Yue et al. SCFNet: Semantic correction and focus network for remote sensing image object detection
CN102724530B (zh) 基于反馈控制的平面视频立体化方法
Yian et al. Improved deeplabv3+ network segmentation method for urban road scenes
Feng et al. Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction
Lee et al. Boundary-aware camouflaged object detection via deformable point sampling
Yan et al. EMTNet: efficient mobile transformer network for real-time monocular depth estimation
Wu et al. Dual Attention D-LinkNet for Road Segmentation in Remote Sensing Images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601

Termination date: 20200625