CN101505423B

CN101505423B - 一种用于视频图像的非均匀采样方法

Info

Publication number: CN101505423B
Application number: CN 200910021270
Authority: CN
Inventors: 张斌; 梅魁志; 雷浩; 李宇海; 张顺
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2009-02-25
Filing date: 2009-02-25
Publication date: 2011-01-05
Anticipated expiration: 2029-02-25
Also published as: CN101505423A

Abstract

本发明涉及视频图像采集和存储领域，公开一种用于视频图像的非均匀采样方法。它包括以下步骤：(a)采用视频图像的标准坐标系，建立非均匀采样的视觉模型；(b)选择方式一或方式二，确定采样层和采样密度：方式一，先将视频图像以注视点为中心向外逐步分层，确定各采样层边界，根据视觉模型计算各采样层边界处的采样密度，然后选取每个采样层的采样密度；方式二，先确定视频图像以注视点为中心向外逐步分层的层数和对应各采样层边界的采样密度，根据视觉模型反向计算各采样层的边界位置。

Description

一种用于视频图像的非均匀采样方法

技术领域

本发明涉及视频图像采集和存储领域，特别涉及一种用于视频图像的非均匀采样方法。

背景技术

人类获取信息的80％来自视觉。人脑中有各种不同的组织参与到视觉信息处理中，因而能够轻易的处理视觉问题。但是视觉认知作为一个过程，到目前为止，人类仍难以模仿自身的视觉功能。

近30年来，视觉和图像处理不仅在模型与算法方面得到了长足的进展，而且在先进制造工业、医学、国防、公共安全和空间技术等领域获得广泛应用。但是，当前多数视觉处理系统是建立在PC机与图像采集卡上的。如何将机器视觉和小体积、低功耗的微型化视觉处理系统结合，最终构建具有视觉感知和图像处理功能的机器视觉微系统，是当前视觉研究与智能信息处理领域的重大课题。

传统的视频图像处理方法是对图像中的每一像素进行采样。一般对720P(分辨率为1280×720，帧频为60Hz)视频图像中的亮度信息进行处理，每秒的数据量超过了55M字节(60×1280×720Byte)，数据量非常大。

目前的视频图像处理是基于CPU和多级片内、片外的存储器执行结构，而视频图像的算法十分复杂，运算量很大，存在多层次计算粒度，对系统CPU的性能、存储芯片的带宽和容量都有非常高的要求，通用处理器很难满足视频图像的低功耗和实时处理，一般的嵌入式系统更难满足应用要求。根据视频图像处理的数据和算法的特点，研究具有视觉特征同时又有高压缩率的采样和恢复方法具有十分重要的意义。

发明内容

本发明的目的在于提供一种用于视频图像的非均匀采样方法，它模拟生物视觉对视频图像进行采样，在保证实现生物视觉特性的前提下，大幅度压缩视频图像的的数据量，减少视频图像的数据存储和数据处理量。

为了达到上述目的，本发明采用以下技术方案予以实现。一种用于视频图像的非均匀采样方法，其特征在于，包括以下步骤：

(a)采用视频图像的标准坐标系，建立非均匀采样的视觉模型：

f_{(x)} = e^{- \frac{{(4.3 \cdot \frac{x - X / 2}{X / 2} -)}^{2}}{2}} - - - (1)

或

f_{(y)} = e^{- \frac{{(4.3 \cdot \frac{y - Y / 2}{Y / 2})}^{2}}{2}} - - - (2)

其中：以视频图像中心为注视点，f_(x)表示采样密度，X、Y分别为视频图像的水平和垂直大小，x、y分别表示像素点距注视点的水平和垂直距离，1≤x≤X，1≤y≤Y；

(b)选择方式一或方式二，确定采样层和采样密度：

方式一，先将视频图像以注视点为中心向外逐步分层，确定各采样层边界，根据公式(1)或(2)计算各采样层边界处的采样密度，然后选取每个采样层的采样密度；

方式二，先确定视频图像以注视点为中心向外逐步分层的层数和对应各采样层边界的采样密度，根据公式(1)或2)反向计算各采样层的边界位置。

本发明的进一步改进在于：

所述各采样层边界都为矩形且长宽比与所处理视频图像的长宽比相同。

所述方式一中的任意一采样层再分为多个子采样层，所述多个子采样层的边界划分采用方式二实现。

所述方式一中，视频图像以注视点为中心向外逐步分为三层，采样层边界为矩形，第一采样层外边界长度为

Figure DEST_PATH_RE-GSB00000067195100021

宽度

Figure DEST_PATH_RE-GSB00000067195100022

第二采样层外边界长度为

Figure DEST_PATH_RE-GSB00000067195100023

宽度其余视频图像部分为第三采样层。

所述方式二中，视频图像以注视点为中心向外逐步分层的层数为n，第一采样层外边界的采样密度为c，其他采样层外边界的采样密度依次为

Figure DEST_PATH_RE-GSB00000067195100025

Figure DEST_PATH_RE-GSB00000067195100026

在视觉系统中，视频图像是中间区域清晰可见，外围区域逐渐模糊，但可辨识物体。根据生物视觉特性，可以将视觉模拟为一个选择注意机制的可配置的数据处理过程。在具体处理过程中，根据生物视觉对视频图像的非均匀敏感性，以注视点为中心，定义一个注视区。需要注视区内图像最为清晰，进行逐点采样，采样密度高，数据量大；注视区外的图像逐渐模糊，距离注视点越远采样间隔越大，采样密度越低，数据量越小。这样，就能够很好的解决视频图像数据大，存储和计算造成硬件开销大的问题。

附图说明

下面结合附图说明和具体实施方式对本发明做详细说明。

图1为人眼结构图；

图2为非均匀采样层划分示意图；

图3为720P格式视频图像的水平方向的视觉模型曲线。

具体实施方式

参照图1，为人眼结构图。眼球壁内层的视网膜是眼球的感光部分，由锥体细胞和杆体细胞两种感光细胞组成。在视网膜上，以视轴为中心，直径约6毫米的中央区中，有一直径2毫米左右的黄斑。黄斑中央有一小凹，叫做中央凹，面积约1平方毫米。中央凹的锥体细胞密度很高，是产生最清晰视觉的地方。离开中央凹，锥体细胞急剧减少，杆体细胞急剧增多。杆体细胞主要是在黑暗的条件下起作用，同时负责观察物体的运动。

视网膜上的光感受器(锥体细胞和杆体细胞)通过接受光，并将它转换为输出神经信号影响其他神经细胞。所以，在视觉通路上任何一种神经细胞的输出都依赖于视网膜上的光感受器。将直接或间接影响某一特定神经细胞的光感受器细胞的全体称为该特定神经细胞的感受野。猫的感受野是由中心的兴奋区域和周边的抑制区域构成的同心圆结构，称为On型感受野。也就是说，当用光点刺激On型感受野中心时，细胞发放频率增加。刺激感受野周边时，细胞发放频率受到抑制而变低。结合猫的这种视觉特性，以及对人眼视觉特性的实验和研究，可以看出，生物对视频图像的视觉特性是非均匀的。

视觉系统中的图像是中间区域清晰可见，外围区域逐渐模糊，但可辨识物体。发明人发现，根据生物视觉特性，可以将视觉模拟为一个选择注意机制的可配置的数据处理过程。在具体处理过程中，根据生物视觉对视频图像的非均匀敏感性，以视频图像中心为注视点，定义一个注视区。注视区内需要图像最为清晰，进行逐点采样，采样密度高，数据量大；注视区外的图像逐渐模糊，距离注视点越远，采样间隔越大，采样密度越低，数据量越小。也即以视频图像中心为注视点，远离注视点的视频图像的采样密度逐渐变小。

采样密度可以用单位视频图像面积内的像素采样数表示；也可以用一个采样点代表几个像素点表示；也可以采用相对法表示，即逐点(像素点)采样，其采样密度为1；两个像素点取任一个作为采样值，其采样密度为，三个像素点取任一个作为采样值，其采样密度为

，四个像素点取任一个作为采样值，其采样密度为，……，依次类推。本说明书采用后者的采样密度表示方法。

根据人眼视网膜特点：以视轴为中心，直径约6毫米的中央区中，有一直径2毫米左右的黄斑，黄斑中央有中央凹，面积约1平方毫米。在保证视觉特性的下，相应的本发明的用于视频图像的非均匀采样方法为：以视频图像中心为注视点，将视频图像以注视点为中心向外逐步分为三层，采样边界为矩形，第一层外边界长度为

、宽度

；第二层外边界长度为、宽度

；其余视频图像部分为第三层采样层。然后，根据视觉模型，计算各采样层边界处的采样密度，选取每个采样层的采样密度。

参照图2，采用视频图像的标准坐标系。由图可见，在视频图像中，以左上角作为坐标原点O，向右为水平正方向X，向下为垂直正方向Y。更为一般地，本发明用于视频图像的非均匀采样方法，基于生物的视觉模型为高斯函数s＝S(d)，d表示距注视点的距离，s表示采样密度。首先在图中所示视频图像坐标系下，设定注视点坐标为(h₀，v₀)，其中根据视觉模型s＝S(d)，将视频图像以注视点为中心划分为n层，各层边界与注视点的距离分别为d₁，d₂，…，d_n，其中n＝1的采样层就是注视区。与注视点距离为d₁的采样层的采样密度值为s_i，注视区中采样密度s₁最大，1≤i≤n。

为了获得具有一般性的视觉模型，并且为了计算的方便，本发明选择在标准正态分布概率密度函数的基础上扩展出生物的视觉模型。标准正态分布概率密度函数为

f (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}} .

首先将其自变量扩展到视频图像大小

f (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{{(\frac{4.3}{X / 2} x)}^{2}}{2}} .

然后，平移函数到图像中心

f (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{{(\frac{4.3}{X / 2} (x - X / 2))}^{2}}{2}} .

最后，函数值乘以

(其中

{f (x)}_{\max} = \frac{1}{\sqrt{2 π}}

)把函数值扩展到最大值为1。综上所述，得到本发明非均匀采样的视觉模型：

f_{(x)} = e^{- \frac{{(4.3 \cdot \frac{x - X / 2}{X / 2})}^{2}}{2}} - - - (1)

同理，可得，

f_{(y)} = e^{- \frac{{(4.3 \cdot \frac{y - Y / 2}{Y / 2})}^{2}}{2}} - - - (2)

其中：以视频图像中心为注视点，f_(x)表示采样密度，X、Y分别为视频图像的水平或垂直大小，x、y分别表示采样点距注视点的水平和垂直距离， 1≤x≤X，1≤y≤Y。为方便起见，令各层边界都为矩形且长宽比与所处理视频图像的长宽比相同，公式(1)或(2)择一使用即可。

在实际应用时，可以根据采样层与采样密度的重要性不同，优先确定采样密度或者采样层边界，再根据公式(1)或(2)计算其余参数。

下面通过两个实际使用的例子说明该方法。

方式一：根据之前所述人眼结构，优先划分采样层。由人眼中央凹、黄斑和视网膜中央区的直径比值为1∶2∶6，可以选择采样层数为3，各采样层外边界距注视点的水平距离分别为：

。由公式(1)计算在距注视点距离为0、

时，采样密度分别为：1、0.7735、0.3580、0.0001。实际采样时，若需要最优采样效果，则三个采样层都选取内边界采样密度：1、0.7735、0.3580；若需要最大压缩率，则选取外边界采样密度：0.7735、0.3580、0.0001；或者选择两个边界采样密度的平均值作为各层采样密度：0.8868、0.5658、0.1791。

方式二：由公式(1)的反函数可得到第二种方法所用的函数为

g (u) = \frac{X}{2} &PlusMinus; \frac{X \sqrt{- 2 \ln u}}{2 \times 4.3} .

其中：g(u)表示采样点距注视点的水平距离；自变量u表示采样密度，0≤u≤1；X为视频图像的水平大小。根据硬件实现的简便与否，首先确定各层采样密度。采样密度为2的幂时，硬件实现比较简单，所以选择各采样层的采样密度为1、0.5、0.25、0.125，采样层数为4。根据上式计算，划分得到各采样层外边界距注视点的水平距离分别为：0.1369X、0.1936X、0.2371X、0.5X。实际硬件实现时，可根据采样的像素点数，微调各采样层边界，也可根据实际需要进行调整。若需要最优采样效果，则采样层都选取其内边界的采样密度；若需要最大压缩率，则选取外边界的采样密度；或者根据实际需要选择两个边界采样密度之间的任意值。

对于视频图像频格式为720P，即H＝1280、V＝720，也就是每行的像素点为1280个，每列的像素点为720个。因此，由非均匀采样的视觉模型，得到图像水平方向的视觉模型为：

f_{(x)} = e^{- \frac{{(4.3 \cdot \frac{x - 640}{640})}^{2}}{2}} - - - (3)

其函数曲线如图3所示，其中：x为像素点的坐标，注视点坐标(h₀，v₀)为(640，360)。

采用方式一：视网膜中央区、黄斑、中央凹的直径分别为6mm、2mm、1mm。整幅视频图像长度的六分之一作为注视区，即第一采样层，其水平外边界长度(用像素点个数表示，以下相同)：

2 d_{1} = \frac{1280}{6} = 213;

同理，第二采样层外边界长度为2d₂＝1280/3＝427；其余为第三采样层。各采样层外边界都为矩形且长宽比与所处理视频图像的长宽比相同。

将上述第一、二采样层的外边界坐标代入公式(3)，通过计算可得，注视区(第一采样层)的采样密度为1～0.7721，第二采样层的采样密度为0.7721～0.3565。通过比较，为了硬件实现的方便，选择注视区采样密度为1，即每个像素采一点，第二层的采样密度为0.5，即每两个像素采一点，然后选择第三层采样密度为0.25。

采用方式二：在720P格式下，水平方向各参数值为：H₀＝640；采样层数n＝4；各层采样密度分别为1、0.5、0.25、0.125；各采样层外边界距注视点的水平距离(以像素点表示)分别为：0.1369X(175)、0.1936X(248)、0.2371X(304)、0.5X(640)；同理得到各采样层外边界距注视点的垂直距离分别为：0.1369Y(98)、0.1936Y(139)、0.2371Y(171)、0.5Y(360)。

当然，对于方式一中的第三采样层，还可以等分为两个子采样层，其边界采用方式二计算划分。具体为：两个子采样层的采样密度分别为0.25和0.125，通过公式(3)计算两个子采样层边界与注视点的距离。

本发明的非均匀采样方法的方式一和方式二，在得到近似的参数情况下，采样数据的压缩效率相当，它们均能够在保证视觉效果的情况下，成倍降低视频图像的采样数据量，使视频图像的处理硬件简单、成本大幅度减低。

发明人使用采样方法二对多幅不同格式的视频图像的亮度信号进行非均匀采样，其共同的采样参数为：采样层数n＝4；各层采样密度分别为1、0.5、0.25、0.125；各采样层外边界距注视点的水平距离(以像素点表示)分别为：0.1369X、0.1936X、0.2371X、0.5X；各采样层外边界距注视点的垂直距离与水平距离比例相同。对多幅不同格式的图像，采样后输出的数据进行记录，与原图像数据大小进行比较，其统计结果如下表：表中数据量单位为KB。

图像格式	720× 400	800× 600	1024× 768	1280× 720	1280× 1024	1920× 1080
							原始图像数据	2250	3750	6144	6300	10240	16200
非采样后图像数据	80	132	217	254	361	570

从上表中可以看出，在选择最高采样效果的情况下，对原始图像的亮度信号采样后，其压缩率可达到28倍左右。