CN1468004A - 基于时空梯度范围和分层结构的全局运动估计方法 - Google Patents

基于时空梯度范围和分层结构的全局运动估计方法 Download PDF

Info

Publication number
CN1468004A
CN1468004A CNA021528489A CN02152848A CN1468004A CN 1468004 A CN1468004 A CN 1468004A CN A021528489 A CNA021528489 A CN A021528489A CN 02152848 A CN02152848 A CN 02152848A CN 1468004 A CN1468004 A CN 1468004A
Authority
CN
China
Prior art keywords
stgs
global motion
space
image
parameter estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA021528489A
Other languages
English (en)
Inventor
王洪燕
胡敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hantang Science & Technology Co Ltd Shanghai
Original Assignee
Hantang Science & Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hantang Science & Technology Co Ltd Shanghai filed Critical Hantang Science & Technology Co Ltd Shanghai
Priority to CNA021528489A priority Critical patent/CN1468004A/zh
Publication of CN1468004A publication Critical patent/CN1468004A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其处理步骤包括:先对输入的两帧图像进行高斯低通滤波和下采样处理,然后做STGS预分析得到重要的全局运动信息,特别是关于无效区的信息;接着把这些信息运用到参数估计模块中,并且利用最小化中的迭代方法寻找最佳的估计参数;最后把这些结果用于后续的视频压缩、运动的分割和视频信息分类处理。本发明可应用于视频编码压缩、视频对象分割、视频信息分类检索以及镶嵌等方面,特别是在MPEG-4中的精灵的产生和视频对象的分割尤其重要。本发明对全局运动估计准确、快速。

Description

基于时空梯度范围和分层结构的全局运动估计方法
技术领域
本发明涉及一种在两种运动模型下进行全局运动估计的方法,具体地说,是一种适用于视频编码标准MPEG-4/7的基于Special Temporal GradientScale(光流方程的时空梯度范围)分析和分层结构的全局运动估计方法。
背景技术
在一般情况下,在任何一种运动模型下进行全局运动估计都是利用估计的误差ε(x,y)作最小化处理,从而得到估计的运动参数。如果对误差进行简单的平方求和,然后求最小乘方意义下的各个参数,最后得到的估计效果太差,而且往往陷入局部最小值的陷阱中,导致估计失败。因此,一般是产生一个加权函数ω(ε)来纠正或改进参数估计,这个函数的设计反映了不同的估计思想,最常见是Geman-Mclure,Andrew’s sine和Turkey’s biweight等加权函数,但是这些函数不是抗错性不好就是没有全局唯一的最小值,更糟糕的是这些函数是高阶、非线性的,计算量很大,因此,找一个合适的加权函数对于估计过程尤为重要。
另外,从运动信息的挖掘和利用角度看,以前的一系列的估计方法都是没有预先对图像进行全局运动信息分析的,这样得到的估计过程收敛很慢。目前比较好的做法是采用STGS分析技术。但是在STGS分析的方式和STGS信息的利用方式上仍值得深入研究。
在运动模型的使用上,一般采用单一的运动模型。由于平移模型对于镜头的旋转或焦距的调节无法作出正确的描述,而仿射模型对于大的平移运动估计的误差却很大,更高阶的模型则计算复杂度太大。因而,运动模型的使用对运动估计的效果有重要的影响。
发明内容
本发明的目的在于克服已有技术的缺陷,提供一种基于光流方程的时空梯度范围分析和分层结构()的全局运动估计方法。
本发明的技术方案如下:
根据本发明的一种基于STGS(光流方程的时空梯度范围)分析和分层结构的全局运动估计方法,其处理步骤包括:第一步,先对输入的两帧图象进行高斯低通滤波和下采样处理,然后做STGS预分析得到重要的全局运动信息,特别是关于outliers(无效区)的信息;第二步,接着把这些信息运用到参数估计模块中,并且利用最小化中的迭代方法寻找最佳的估计参数;第三步,最后把这些结果用于后续的视频压缩、运动的分割和视频信息分类处理。
进一步,所说的对输入的两帧下采样图像进行STGS分析的步骤是指对输入的连续两帧下采样图像I0(ax,ay,t-1)和I1(ax,ay,t)进行STGS预分析,其中a为下采样因子;所说的对输入的连续两帧下采样图像进行STGS预分析的步骤包括利用水平和垂直两个空间上的STGS分析图像,通过对其滤波后并对该两幅STGS图像进行加权,得到一个综合的STGS图像,以其作为outliers mask(无效区掩膜);利用所说的outliers mask作为估计平移参数作为的重要信息并利用所说的outliers mask来设计ω0(ε),然后再根据误差大小来设计ω(ε);
所说的参数估计系采用两层的参数估计结构,先是做平移模型的参数估计,把估计得到的平移参数用于第二层的仿射模型的参数估计,并且通过基于I0帧图像的卷绕得到预测图像;接着进行仿射模型的参数估计,利用平移模型估计的结果用于改善仿射模型的参数估计;最后仿射模型的参数在已有的预测图像基础上进行基于I0帧的图像卷绕得到最终的预测图像。本发明具有如下的优点:
1.有效地挖掘和利用运动信息:
利用光流方程式推导出的STGS图像预分析方法,对于确定全局运动中的outliers非常有效,而且可以提供比较准确的初始搜索方向,计算代价较低。本发明利用STGS得到的运动信息确定了outliers的范围,排除它对全局运动估计的影响,在最小化过程中找到最佳的搜索方向。
特别是本发明方法先对输入的连续两帧图像进行下采样,而后才做STGS分析。这种方法可以减少噪声对STGS分析的影响,忽略那些可以不考虑的小outliers,更利于真正的大outliers的检测而且计算量更小;接下来是对两幅滤波后的STGS图像进行加权,得到一个加权的STGS分析图像,这样更充分地利用了全局运动信息。
2.本发明方法使用由STGS图像得到的关于outliers的信息来选取初始加权函数,这样的估计具有更快的收敛速度。
3.本发明同时采用两种运动模型,进行分层结构的参数估计,即两层结构:第一层是采用平移模型,第二层采用仿射模型,这样的结构可以弥补单一模型的不足,提高估计准确度,从而产生好的预测图像。
附图说明
图1是本发明的全局运动估计方法处理框图;
图2是本发明提到的STGS分析流程图;
图3是本发明分层结构的参数估计模块图。
具体实施方式
本发明提到的全局运动估计方法的主要处理步骤是:先对输入的连续两帧图像进行下采样,然后做STGS预分析得到重要的全局运动信息,特别是关于outliers的信息;接着是把这些信息运用到参数估计模块中,并且利用最小化中的迭代方法寻找最佳的估计参数;最终把这些结果用于后续的视频压缩、运动的分割和视频信息分类等处理。
根据图1可以看出总的模块组成结构:当前帧(I1)输入当前帧存储器10,前一帧I0存储在前一帧存储器12,这两帧I0、I1输入到STGS图像预分析模块11和分层结构的参数估计模块13,其中STGS图像预分析得到的数据也要输入分层结构的参数估计模块13中,最后进入后续处理14。下面将详细描述这一系列处理过程。
图2描述了STGS图像预分析这一过程。首先,在运动估计之前,对输入的连续两帧下采样图像I0(ax,ay,t-1)和I1(ax,ay,t)经由图像高斯低通滤波处理模块110滤波后进入下采样图像STGS分析模块111进行STGS预分析,其中a为下采样因子。在本实施例中以2∶1(即a=2)的下采样比率为例,即I0(2x,2y,t-1)和I1(2x,2y,t)进行STGS预分析,令x=2x,y=2y: G h ( x , y ) = I t ( x , y ) I h ( x , y ) G v ( x , y ) = I t ( x , y ) I v ( x , y ) 其中Gh(x,y)和Gv(x,y)分别是水平和垂直方向的STGS分析图像;It(x,y)是I0和I1之间的时间梯度图像;Ih(x,y)和Iv(x,y)分别是当前I1水平和垂直空间的梯度图像,它们分别被送入水平方向STGS图像三灰度级处理模块112和垂直方向STGS图像三灰度级处理模块113。其次,对利用Gh(x,y)和Gv(x,y)值的符号对其进行灰度值处理,得到灰度级的SGh(x,y)和SGv(x,y)。具体的方法可以是:在水平方向上,如果Gh(x,y)大于0则相应像素的灰度值为255,如果小于0则为0,如果It(x,y)或Ih(x,y)等于0则为128;对于Gv(x,y)做相同的处理。
然后,把这两个方向上的STGS图像送入滤波和加权模块114并对灰度级的SGh(x,y)和SGv(x,y)做中值滤波(或形态滤波)处理进行加权,得到综合的STGS图像,最后对综合的STGS图像送入上采样处理模块115进行上采样得到outliers mask(无效区掩膜),这样完成了对outliers(无效区)的信息提取的过程,并最后,把得到的outliers mask送入STGS预分析信息(outliers mask)模块116。
从图1可见,参数估计过程是在分层结构的参数估计模块13中实现的。如图3所示,先是将两帧图像I0帧和I1帧输入二参数平移模型估计模块132做平移模型的参数估计,把估计得到的平移参数分别送入图像卷绕模块133和六参数仿射模型估计模块134用于第二层的仿射模型的参数估计,并且在图像卷绕模块133中进行基于I0帧图像卷绕得到预测图像;接着进行仿射模型的参数估计,利用平移模型估计的结果可以改善仿射模型的参数估计;最后利用仿射模型的参数在已有的预测图像基础上做基于I0帧的图像卷绕模块135上进行图像卷绕得到最终的预测图像。
上述的第一层是用二参数的平移运动模型:
其中a0和b0是平移分量,作为下面的仿射模型估计的平移参量的初始值。利用outliers mask信息来估计平移参数,这样的计算效率提高了。在左上角顶点为原点(0,0)的情况下,mask=0的区域,a0是正值而b0为负;mask=255的区域,a0是负值而b0是正值;mask=128则均为0。这样根据outliersmask的值就可确定该区域的运动方向,从而提高估计的速度。
第二层是基于仿射运动的运动估计模型,即仿射变换: x 1 y 1 = a 1 a 2 b 1 b 2 x 0 y 0 + a 0 b 0 这样要估计的参数矢量就是 a → = ( A , D ) , A = a 1 a 2 b 1 b 2 和平移参数 D = a 0 b 0 , x是像素的坐标对,整个变换函数可以写成:
             F(x,a)=Ax+D于是,预测图像I0和I1图像间的残差 ϵ ( x ) = I 1 ( x ) - I 0 ( F ( x , a → ) ) , 根据经典的robust M-estimator(鲁棒性M-估计)有最小化过程中的目标函数: min Σ x ∈ Ω ω 2 ( ϵ ) ϵ x 2 其中x是坐标对(x,y),Ω是估计的图像区域,一般是整幅图像。在本实施例中先利用前面产生的outliers mask来设计ω0(ε),然后再根据误差大小来设计ω(ε),从而有效的消除outliers对参数估计的影响,提高准确度和效率,即:
(1)初始时刻,利用outliers mask来设计ω0(ε)的方法可以是:
Figure A0215284800078
(2)由于考虑了图像STGS预分析得到的outliers mask信息,因此在迭代过程中的ω(ε)设计可以简化如下:
Figure A0215284800081
其中,c是一个可调的正参数;而μ是图像区域的误差的方差。
根据本发明的估计方法,在对目标函数进行最小化过程中,仍然可以采用常用的线性迭代方法,诸如高斯-牛顿、SOR、Levenberg-Marquardt等算法。

Claims (6)

1.一种基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其处理步骤包括:先对输入的两帧图像进行高斯低通滤波和下采样处理,然后做STGS预分析得到重要的全局运动信息,特别是关于无效区的信息;接着把这些信息运用到参数估计模块中,并且利用最小化中的迭代方法寻找最佳的估计参数;最后把这些结果用于后续的视频压缩、运动的分割和视频信息分类处理。
2.根据权利要求1所述的基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其特征在于,所说的对输入的两帧下采样图像进行STGS分析的步骤是指对输入的连续两帧下采样图像I0(ax,ay,t-1)和I1(ax,ay,t)进行STGS预分析,其中a为下采样因子。
3.根据权利要求2所述的基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其特征在于,所说的对输入的连续两帧下采样图像进行STGS预分析的步骤包括利用水平和垂直两个空间上的STGS分析图像,通过对其滤波后的该两幅STGS图像进行加权,得到一个综合的STGS图像,以其作为无效区掩膜。
4.根据权利要求3所述的基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其特征在于,利用所说的综合的STGS图像的无效区掩膜作为估计平移参数的重要信息。
5.根据权利要求3所述的基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其特征在于,利用所说的无效区掩膜来设计ω0(ε),然后再根据误差大小来设计ω(ε)。
6.根据权利要求1或2所述的基于光流方程的时空梯度范围分析和分层结构的全局运动估计方法,其特征在于,所说的参数估计系采用两层的参数估计结构,先是做平移模型的参数估计,把估计得到的平移参数用于第二层的仿射模型的参数估计,并且通过基于I0帧图像的卷绕得到预测图像;接着进行仿射模型的参数估计,利用平移模型估计的结果来改善仿射模型的参数估计;最后仿射模型的参数在已有的预测图像基础上进行基于I0帧的图像卷绕得到最终的预测图像。
CNA021528489A 2002-06-27 2002-11-25 基于时空梯度范围和分层结构的全局运动估计方法 Pending CN1468004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA021528489A CN1468004A (zh) 2002-06-27 2002-11-25 基于时空梯度范围和分层结构的全局运动估计方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN021122806 2002-06-27
CN02112280 2002-06-27
CNA021528489A CN1468004A (zh) 2002-06-27 2002-11-25 基于时空梯度范围和分层结构的全局运动估计方法

Publications (1)

Publication Number Publication Date
CN1468004A true CN1468004A (zh) 2004-01-14

Family

ID=34195353

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA021528489A Pending CN1468004A (zh) 2002-06-27 2002-11-25 基于时空梯度范围和分层结构的全局运动估计方法

Country Status (1)

Country Link
CN (1) CN1468004A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100345085C (zh) * 2004-12-30 2007-10-24 中国科学院自动化研究所 基于玩家姿势和语音的电子游戏场景和角色控制方法
CN101600106B (zh) * 2009-06-22 2012-10-03 北京大学 一种全局运动估计方法及装置
WO2017036399A1 (en) * 2015-09-02 2017-03-09 Mediatek Inc. Method and apparatus of motion compensation for video coding based on bi prediction optical flow techniques
CN108416266A (zh) * 2018-01-30 2018-08-17 同济大学 一种利用光流提取运动目标的视频行为快速识别方法
CN110472651A (zh) * 2019-06-17 2019-11-19 青岛星科瑞升信息科技有限公司 一种基于边缘点局部特征值的目标匹配与定位方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100345085C (zh) * 2004-12-30 2007-10-24 中国科学院自动化研究所 基于玩家姿势和语音的电子游戏场景和角色控制方法
CN101600106B (zh) * 2009-06-22 2012-10-03 北京大学 一种全局运动估计方法及装置
WO2017036399A1 (en) * 2015-09-02 2017-03-09 Mediatek Inc. Method and apparatus of motion compensation for video coding based on bi prediction optical flow techniques
CN108416266A (zh) * 2018-01-30 2018-08-17 同济大学 一种利用光流提取运动目标的视频行为快速识别方法
CN110472651A (zh) * 2019-06-17 2019-11-19 青岛星科瑞升信息科技有限公司 一种基于边缘点局部特征值的目标匹配与定位方法
CN110472651B (zh) * 2019-06-17 2022-11-29 青岛星科瑞升信息科技有限公司 一种基于边缘点局部特征值的目标匹配与定位方法

Similar Documents

Publication Publication Date Title
Wang et al. UNFusion: A unified multi-scale densely connected network for infrared and visible image fusion
CN111368846B (zh) 一种基于边界语义分割的道路积水识别方法
CN108447078A (zh) 基于视觉显著性的干扰感知跟踪算法
CN109522840B (zh) 一种高速路车流密度监测计算系统及方法
CN111310582A (zh) 基于边界感知和对抗学习的湍流退化图像语义分割方法
CN116862828A (zh) 一种架空输电线路关键部件及缺陷的检测方法
CN111783675A (zh) 基于车辆语义感知的智慧城市视频自适应hdr控制方法
Yang et al. Emernerf: Emergent spatial-temporal scene decomposition via self-supervision
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN115035172A (zh) 基于置信度分级及级间融合增强的深度估计方法及系统
CN1468004A (zh) 基于时空梯度范围和分层结构的全局运动估计方法
CN114550014A (zh) 道路分割方法及计算机装置
CN112733734A (zh) 一种基于黎曼流形特征和lstm网络相结合的交通异常事件检测方法
Al Okaishi et al. Real-time traffic light control system based on background updating and edge detection
CN111444913A (zh) 一种基于边缘引导稀疏注意力机制的车牌实时检测方法
CN108492308B (zh) 一种基于相互结构引导滤波的变分光流的确定方法及系统
CN113920733B (zh) 一种基于深度网络的交通体量估计方法及系统
CN115825946A (zh) 基于无监督学习的毫米波雷达测距方法及装置
CN115578691A (zh) 一种基于场景目标的视频异常检测方法、系统及设备
CN109951705B (zh) 一种面向监控视频中车辆对象编码的参考帧合成方法及装置
CN112183310A (zh) 冗余监控画面过滤及无效监控画面筛选的方法及系统
Rosende et al. Optimization algorithm to reduce training time for deep learning computer vision algorithms using large image datasets with tiny objects
Jehad et al. Developing and validating a real time video based traffic counting and classification
Li et al. Multi-scale feature extraction and fusion net: Research on UAVs image semantic segmentation technology
CN111144209B (zh) 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication