CN101964055B

CN101964055B - 一种模仿视觉感知机制的自然场景类型辨识方法

Info

Publication number: CN101964055B
Application number: CN201010515043A
Authority: CN
Inventors: 龚卫国; 张睿; 李伟红; 杜兴; 白志; 黄庆忠; 罗凌; 熊健
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2010-10-21
Filing date: 2010-10-21
Publication date: 2012-09-26
Anticipated expiration: 2030-10-21
Also published as: CN101964055A

Abstract

本发明公开了一种模仿视觉感知机制的自然场景类型辨识方法，属于计算机视觉技术领域。该方法旨在利用自然场景图像中的固有统计性视觉特征来进行自然场景图像类型辨识，其技术方案包括以下步骤：1、对给定的自然场景图像样本集进行预处理；2、用模仿视觉感知机制的方法提取自然场景图像样本集的特征；3、用自然场景图像样本集的特征训练出一个自然场景类型辨识器模型；4、对一幅待辨识的自然场景图像，进行预处理和用模仿视觉感知机制的方法提取其特征；5、利用自然场景类型辨识器模型对待辨识的自然场景图像进行场景类型辨识。本发明能够实现对多种自然场景类型的辨识，有效提高对自然场景图像进行场景类型辨识的正确率。

Description

一种模仿视觉感知机制的自然场景类型辨识方法

技术领域

本发明涉及计算机视觉领域关于自然场景分析的方法，特别是涉及一种其核心部分在于模仿人类视觉感知机制的自然场景类型辨识方法。

背景技术

自然场景又称为现实世界场景，泛指真实存在的一个具有特定时空界限的物理环境。人类的视觉感知系统在漫长的自然进化中具备了极强地自然场景分析能力，其中，人类所具有的快速辨识自然场景类型的能力是目前脑神经科学和心理学的研究热点，同时也是下一代智能计算机视觉技术正在努力实现的关键技术之一。对自然场景类型的计算机辨识技术在智能视频监控、无人驾驶系统、移动式自主机器人、海量图像数据库的自动整理等实际应用中具有重要价值。

目前，对自然场景类型的计算机辨识研究主要以自然场景图像为对象。自然场景图像是真实地记录了物理环境外观与状态的图片，这些图片中包含了各种各样人们在日常生活中可能见到的自然场景类型。目前，对自然场景图像中呈现的场景类型的划分主要是依据自然场景图像的语义外观。最早的研究者们将自然场景图像划分为“室内”与“室外”两大类，或者是“城市”与“自然风光”两大类。近年来，有研究者开始探索更为细化的语义分类标准，例如：麻省理工学院的Aude Oliva等人将自然场景图像按语义外观划分为海岸、森林、山脉、旷野、市内、街道、高速公路、高层建筑等8大类；之后，斯坦福大学的Li Fei-Fei和北卡罗来纳大学的Svetlana Lazebnik等人又分别在上述的8类语义分类标准基础之上，扩展出了针对自然场景图像的13类语义分类标准和15类语义分类标准。目前，自然场景类型的计算机辨识技术的核心关键在于如何利用计算机有效地提取出自然场景图像中蕴含的语义信息，从而实现对自然场景类型的快速、准确辨识。

到目前为止，各种自然场景类型辨识技术都可以归结为以下四大途径：基于物体识别的场景类型辨识方法，基于图像区域识别的场景类型辨识方法，基于语境分析的场景类型辨识方法，以及模仿生物视觉机制的场景类型辨识方法。基于物体识别的方法需要首先辨识出场景中存在的物体再藉此推断场景所属的语义类型，该方法受限于物体识别技术的不成熟，目前已经较少使用。基于图像区域识别的方法则首先将场景图像分割为若干子区域，然后识别出每个子区域的语义，最后通过分析子区域的语义组合来推断场景所属的语义类型；由于图像分割技术远未成熟，因此这类方法的发展也受到了较大的限制。基于语境分析的方法通过直接建立图像底层特征(形状、纹理、色彩等)与高层语义之间的对应关系来实现对自然场景类型的辨识，此类方法在近年来获得了很大的成功，是目前比较主流的方法；但是，该类方法的缺点在于实现过程比较复杂，需要人工选择和设定较多参数，而且其处理过程无法与人类视觉系统的工作机制相对应。而模仿生物视觉机制的场景类型辨识方法，则通过模仿人类视觉系统对自然场景中语义信息的感知机制来实现对自然场景类型的有效辨识，该类方法在实现过程上与人类视觉系统的工作机制有较好的对应，无需人工选择和设定大量参数，而且在算法的实现上也通常较以上三种方法更简单、计算复杂度更低且鲁棒性更好，因此模仿生物视觉机制的方法被认为是该领域未来的发展方向。

模仿生物视觉机制的场景类型辨识方法实际上是从基于语境分析的场景类型辨识方法上发展起来的，两者的关键区别在于对自然场景图像底层特征的提取方式不同。基于语境分析的场景类型辨识方法利用的是一些传统的、通用的图像特征提取方法，由于没有充分挖掘自然场景图像所具有的独特视觉统计特性，因此无法保证所提取的图像特征能够真正反映自然场景图像中隐含的本质特性。而模仿生物视觉机制的场景类型辨识方法则从分析自然场景图像所具有的视觉统计特性入手，通过模仿人类视觉系统在感知自然场景图像固有统计特性时呈现的生理机制，构建出一种更具有针对性的自然场景图像特征提取方法，然后利用所提取的有效特征实现对自然场景图像类型的辨识。

发明内容

本发明所要解决的技术问题在于提供一种模仿视觉感知机制的自然场景类型辨识方法。该方法通过模仿人类视觉感知系统在处理自然场景图像时的生物机制，获得了一种能够有效对应于自然场景图像语义类型的图像统计性特征，利用该特征可以有效地提高计算机对自然场景图像进行场景类型辨识的正确率。

本发明的技术方案如下：

首先，需要具备一个自然场景图像样本集，该图像样本集必须满足以下条件：

(1)样本集中所有图像样本反映的内容必须为场景，而不是其他的内容；

(2)样本集中具有N个不同的自然场景类型，N为大于2的自然数；

(3)样本集中的每一个图像样本都唯一的归属于上述N个自然场景类型中的一种；

(4)每种自然场景类型下包含的自然场景图像样本个数不小于1；

(5)每种自然场景类型下包含的自然场景图像样本具有相同的类别标号；

(6)不同的自然场景类型下的自然场景图像样本具有不同的类别标号。

在具备满足上述条件的自然场景图像样本集的前提下，本发明通过以下步骤实现模仿视觉感知机制的自然场景类型辨识，具体如下：

步骤1：对一个给定的包含有K幅自然场景图像的自然场景图像样本集{I₁，I₂，...，I_K}(K是自然数)进行预处理，预处理包括以下步骤：

(1)对自然场景图像样本集中的任一幅图像I_k(1≤k≤K)进行色彩空间变化，转换为灰度图像，具体转化方法如下：

I_{k_Gray}＝(I_{k_Red}+I_{k_Green}+I_{k_Blue})/3 (1)

其中，I_{k_Red}、I_{k_Green}、I_{k_Blue}分别表示原图像I_k中对应的红、绿、蓝3个通道分量，I_{k_Gray}表示转化后的灰度图像(如果输入图像已经为灰度图像，则可不进行公式(1)的操作)。

(2)将步骤(1)中得到的灰度图像I_{k_Gray}归一化为m×n像素大小的图像I_{k_Gray}(m，n)， m表示图像的每行有m个像素点，n表示图像的每行有n个像素点，m和n的取值可根据需要设置，一般取m＝n＝2^P，P为正整数。

(3)用逻辑算子对步骤(2)中归一化后的图像I_{k_Gray}(m，n)进行图像局部信息增强，具体方法如下：

G_k＝I_{k_Gray}(m，n)*H (2)

其中，H表示逻辑算子，本发明中使用的是合取逻辑算子，其形式为： *表示卷积运算，G_k是增强之后的对应图像。

(4)对给定的自然场景图像样本集{I₁，I₂，...，I_K}中的所有自然场景图像均进行上述步骤(1)至步骤(3)的操作，得到预处理后的一个对应的自然场景图像样本集{G₁，G₂，...，G_K}。

步骤2：用模仿视觉感知机制的特征提取方法，对步骤1中产生的自然场景样本集{G₁，G₂，...，G_K}中的所有自然场景图像进行特征提取，具体方法如下：

(1)模拟人类初级视皮层中简单细胞感受野所具有的多尺度选择和朝向性选择的视觉感知机制，用二维的双密度双树复小波变换(Double-density Dual-tree Complex Wavelet Transform)对{G₁，G₂，...，G_K}中的任一幅自然场景图像G_k在多个空间尺度和多个空间朝向上进行二维小波分解，具体过程如下：

①进行第一个尺度的二维双密度双树复小波分解。将图像G_k输入如附图4所示的滤波器组，在输出端得到4幅低频子带图像(LF₁～LF₄)和32幅高频子带图像(HF₁～HF₃₂)，其中，32幅高频子带图像构成16个高频子带图像对：(HF_i，HF_i+8)，i＝1，...，8，17，...，24。对每一组高频子带图像对进行“相加”和“相减”运算，产生两幅具有不同方向的小波子带图像，具体方法如下：

W_{i} = ({HF}_{i} + {HF}_{i + 8}) / \sqrt{2}

(i＝1，...，8，17，...，24) (3)

W_{i + 8} = ({HF}_{i} - {HF}_{i + 8}) / \sqrt{2}

(i＝1，...，8，17，...，24) (4)

其中，W_i和W_i+8分别表示16幅不同朝向的复小波子带图像的实部子带图像和虚部子带图像。通过上述操作，第一个尺度的二维双密度双树复小波分解共产生4幅低频子带图像和32幅具有方向性的小波子带图像。

②进行第L个尺度(L≥2)的二维双密度双树复小波分解。将L-1个尺度上输出的4幅低频子带图像分别输入如附图5所示的滤波器组，在滤波器组的输出端同样得到4幅低频子带图像和32幅高频子带图像。对32幅高频子带图像使用公式(3)和(4)进行计算，又产生出32幅具有方向性的小波子带图像。

③重复进行第②步，直到完成在所有预定尺度上的分解。

对于自然场景图像样本集{G₁，G₂，...，G_K}中的任一幅自然场景图像G_k，如果对G_k进行了Q个尺度(Q≥1)上的二维双密度双树复小波变换，将产生32×Q幅不同空间尺度与空间朝向上的小波子带图像。本发明通过实验确定出Q的最佳取值在3至5之间。

(2)模拟人类视皮层中高层复杂细胞结构所呈现出的统计性特征提取的视觉感知机制，用一种基于特征层融合的复合统计性特征提取方法对步骤(1)中生成的每一个小波子带图像再进行统计性特征的提取，使得每一幅小波子带图像对应产生一个位于特定空间尺度与朝向上的复合统计特征向量。

其中，本发明使用的基于特征层融合的统计性特征提取方法是由小波熵方法(wavelet entropy)和小波共生矩阵方法(Wavelet Co-Occurrence Matrix)融合得到。对任意一幅小波子带图像W，利用小波熵方法和小波共生矩阵方法融合产生复合统计特征向量的具体步骤如下：

①由小波熵方法计算得到小波子带图像W对应的熵值。具体地，小波熵有多种不同的计算方法，本发明中使用的小波熵计算方法如下：

E (W) = - \underset{x}{Σ} \underset{y}{Σ} {| W (x, y) |}^{p} - - - (5)

其中，W(x，y)表示小波子带图像W在像素点位置为(x，y)处的小波系数(即像素值)，|·|表示求取绝对值，p表示幂指数(在本发明中取p＝1)，E(W)就是小波子带图像W对应的熵值。

②由小波共生矩阵方法计算得到小波子带图像W对应的共生矩阵统计特征向量，具体方法如下：

首先，求出小波子带图像W对应的小波共生矩阵，小波共生矩阵计算方法为

其中，W(x，y)和W(x+Δx，y+Δy)分别表示小波子带图像W在像素点位置为(x，y)和(x+Δx，y+Δy)处的小波系数(即像素值)，(Δx，Δy)的取值决定着两个像素点位置之间的相对距离和相对方向，Cm(s，t)表示小波共生矩阵，s和t分别表示小波共生矩阵的行下标和列下标。

本发明中分别将(Δx，Δy)的取值设置为(0，1)、(-1，1)、(-1，0)以及(0，1)，得到方向分别为0度、45度、90度以及135度的4个小波共生矩阵。对上述每个方向上的小波共生矩阵分别计算4种统计特征，分别为：能量(Energy)、对比度(Contrast)、同质性(Homogeneity)，以及相关性(Correlation)，具体方法如下：

能量

En (Cm) = \underset{s}{Σ} \underset{t}{Σ} {[Cm (s, t)]}^{p} - - - (7)

对比度

Con (Cm) = \underset{s}{Σ} \underset{t}{Σ} {(s - t)}^{2} Cm (s, t) - - - (8)

同质性

Hom (Cm) = \underset{s}{Σ} \underset{t}{Σ} \frac{Cm (s, t)}{1 + {(s - t)}^{2}} - - - (9)

相关性

Cor (Cm) = \frac{\underset{s}{Σ} \underset{t}{Σ} (s - μ_{a}) (t - μ_{b})}{σ_{a} σ_{b}} - - - (10)

其中，Cm(s，t)表示小波共生矩阵，p表示幂指数，

μ_{a} = \underset{s}{Σ} s \underset{t}{Σ} Cm (s, t),

μ_{b} = \underset{t}{Σ} t \underset{s}{Σ} Cm (s, t),

σ_{a} = \underset{s}{Σ} {(s - μ_{a})}^{2},

σ_{b} = \underset{t}{Σ} {(t - μ_{b})}^{2} .

经过上述计算，4个小波共生矩阵一共产生出16个统计特征值。将这16个统计特征值组成的一个维数为16的一维向量，该向量即为小波子带图像W对应的小波共生矩阵统计特征向量。

③将步骤②中产生的小波共生矩阵统计特征向量与步骤①中产生的小波熵值，首先归一化到同一个数量级，再以串联方式融合成一个维数为17的一维向量，该向量就是从小波子带图像W中提取出的复合统计特征向量。

(3)对于步骤(1)中所述的任一幅自然场景图像G_k，经过上述步骤(1)和步骤(2)的操作，产生出32×Q个包含着不同空间尺度和空间朝向信息的复合统计特征向量。将上述32×Q个复合统计特征向量再以串联方式合并成为一个(维数为32×Q×17的)一维特征向量，该特征向量就是从自然场景图像G_k中提取出的特征值。

(4)建立一个特征值矩阵F和一个对应的类型标号矩阵C，两个矩阵的行数均为K。将上述自然场景图像G_k对应的特征值和G_k所属的类型标号分别存放在F和C的第k行中。

(5)对自然场景图像样本集{G₁，G₂，...，G_K}中剩余的K-1幅自然场景图像，重复进行上述步骤(1)至步骤(4)的操作。

在完成上述步骤(1)至步骤(5)的操作后，特征值矩阵F中存放着自然场景图像样本集{G₁，G₂，...，G_K}中所有K幅自然场景图像的特征值，而类型标号矩阵C中存放的是这些自然场景图像对应的类型标号。上述的矩阵F和矩阵C就作为与步骤1中所述的自然场景图像样本集{I₁，I₂，...，I_K}相对应的特征值矩阵和类型标号矩阵。

步骤3：用步骤2中生成的与自然场景图像样本集{I₁，I₂，...，I_K}对应的特征值矩阵F和类型标号矩阵C，对支持向量机(SVM)进行训练，构建出一个自然场景类型辨识器模型(即一个训练好的支持向量机分类器)。这里，对支持向量机进行训练的方法与常规模式识别技术中对支持向量机进行训练的方法完全相同。

步骤4：对于上述自然场景样本集{I₁，I₂，...，I_K}以外的任意一幅场景类型未知的自然场景图像J，对其提取相应的特征值，具体方法如下：

(1)采用步骤1中所述的预处理方法，对自然场景图像J进行预处理；

(2)采用步骤2中所述的模仿视觉感知机制的特征提取方法中的(1)至(3)步，对自然场景图像J提取相应的特征值。

步骤5：对步骤4中所述的任意一幅场景类型未知的自然场景图像J进行场景类型的辨识，具体方法是：

将步骤4中得到的自然场景图像J对应的特征值输入步骤3中所述的自然场景类型辨识器模型，然后由自然场景类型辨识器模型计算并输出一个自然场景类型标号，该自然场景类型标号即表明了自然场景图像J所应归属的自然场景类型。

本发明的优点在于模仿了人类视觉系统在辨识不同类型自然场景时呈现的视觉感知机制，构建出一种能够对自然场景类型进行辨识的方法。该方法能够提取自然场景图像中蕴含的固有统计性视觉特征，利用该特征可以有效地提高计算机对自然场景图像进行类型辨识的正确率。与传统的基于物体识别的场景类型辨识方法和基于图像区域识别的场景类型辨识方法相比，本发明的方法无需物体识别与图像分割等中间环节，因此具有更好的鲁棒性；与基于语境分析的场景类型辨识方法相比，本发明的方法在对训练样本集的处理上更简单，无需人工选择和设定大量参数，因此计算复杂度更低、适应性更好。

附图说明

图1是本发明方法的整体处理流程示意图。

图2是本发明步骤2中模仿视觉感知机制的特征提取方法的流程示意图。

图3是本发明步骤2中基于特征层融合的复合统计性特征提取方法的流程示意图。

图4是二维双密度双树复小波变换进行第一个尺度分解所使用的滤波器组。

图5是二维双密度双树复小波变换进行第二个及以上尺度分解所使用的滤波器组。

图6是本发明第一个实施例中采用的一个国际通用的8类自然场景图像集中的部分图例。

图7是本发明在图6所示的8类自然场景图像集上进行实施所获得的识别率柱状图。

图8是本发明第二个实施例中采用的一个国际通用的13类自然场景图像集中的部分图例。

图9是本发明在图9所示的13类自然场景图像集上进行实施所获得的识别率柱状图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述：

图1是本发明方法的整体处理流程图，具体步骤包括：

1、对给定的自然场景图像样本集进行预处理；

2、用模仿视觉感知机制的特征提取方法对自然场景样本集进行特征提取；

3、用自然场景样本集对应的特征构建出自然场景类型辨识器模型；

4、对任意一幅自然场景图像，进行预处理和模仿视觉感知机制的特征提取；

5、用自然场景类型辨识器模型对任意一幅自然场景图像所属的场景类型进行辨识。

图2是本发明步骤2中模仿视觉感知机制的特征提取方法的流程示意图，具体步骤包括：

步骤1、对一幅自然场景图像首先使用二维双密度双树复小波变换进行小波分解，得到对应的小波子带图像集；

步骤2、对小波子带图像集中的每一个小波子带图像，用基于特征层融合的复合统计性特征提取方法提取小波子带图像中的复合统计特征向量；

步骤3、对由小波子带图像集产生的所有复合统计特征向量进行合并，得到一幅自然场景图像对应的特征值。

图3是本发明步骤2中基于特征层融合的复合统计性特征提取方法的流程示意图，具体步骤包括：

1、对一幅小波子带图像，由小波熵方法得到对应的熵值；

2、对同一幅小波子带图像，由小波共生矩阵方法得到对应的小波共生矩阵统计特征向量；

3、将小波熵与小波共生矩阵统计特征向量在特征层上进行融合，得到一幅小波子带图像对应的复合统计特征向量。

图4是二维双密度双树复小波变换进行第一个尺度分解所使用的滤波器组。该滤波器的输入是一幅自然场景图像，输出的是4幅低频子带图像和32幅高频子带图像。

图5是二维双密度双树复小波变换进行第二个及以上尺度分解所使用的滤波器组。该滤波器的输入为上一个尺度分解产生的4幅低频子带图像，输出的是4幅低频子带图像和32幅高频子带图像。

图6是本发明第一个实施例中采用的一个国际通用的8类自然场景图像集中的部分图例。该自然场景图像集一共包含8个自然场景类型，分别是海滩、森林、高速公路、市内、山脉、旷野、街道和高楼。上述每种场景类型下大约包含200～400幅图像，图6中给出了每种自然场景类型的一幅示例图(每幅示例图下的序号就作为该类场景对应的类型标号)。

图7是本发明在图6所示的8类自然场景图像集上进行实施所获得的识别率柱状图。参照图1，具体实施过程如下：

首先，从每类自然场景中随机选择100幅图像，产生一个包含有800幅自然场景图像的自然场景样本集{I₁，I₂，...，I₈₀₀}。将每类自然场景中剩余的图像全部作为场景类型未知的待辨识自然场景图像。

然后，按照以下五个步骤实现模仿视觉感知机制的自然场景类型辨识：

第一步：对自然场景图像集{I₁，I₂，...，I₈₀₀}进行预处理，预处理后的自然场景图像样本集为{G₁，G₂，...，G₈₀₀}。

第二步：用模仿视觉感知机制的特征提取方法，对自然场景图像样本集{G₁，G₂，...，G₈₀₀}中的所有自然场景图像进行特征提取。具体步骤如下：

(1)对{G₁，G₂，...，G₈₀₀}中的任一幅自然场景图像G_k，进行四个尺度的二维双密度双树复小波变换，其中每个尺度的小波分解产生32幅小波子带图像，四个尺度的分解一共产生128幅小波子带图像。

(2)用基于特征层融合的复合统计性特征提取方法，对每幅小波子带图像提取出一个维数是1×17的复合统计特征向量。

(3)将128幅小波子带图像对应的复合统计特征向量串联成一个维数是1×2176的一维向量，该向量就是从自然场景图像G_k中提取出的特征值。

(4)建立一个维数是800×2176的特征值矩阵F和一个维数是800×1的类型标号矩阵C，将上述自然场景图像G_k对应的特征值和类型标号分别存放在特征值矩阵F和类型标号矩阵C的第k行中。

(5)对自然场景图像样本集{G₁，G₂，...，G₈₀₀}中剩余的799幅自然场景图像，重复进行上述步骤(1)至步骤(4)的操作。

在完成上述步骤(1)至步骤(5)的操作后，特征值矩阵F中存放着自然场景图像样本集{G₁，G₂，...，G₈₀₀}中所有800幅自然场景图像的特征值，而类型标号矩阵C中存放的是这些场景图像对应的类型标号。上述的矩阵F和矩阵C就作为与自然场景图像样本集{I₁，I₂，...，I₈₀₀}相对应的特征值矩阵和类型标号矩阵。

第三步，用上述与自然场景图像样本集{I₁，I₂，...，I₈₀₀}对应的特征值矩阵F和类别标号矩阵C，对支持向量机(SVM)进行训练，构建出一个自然场景类型辨识器模型(即一个训练好的支持向量机分类器)。

第四步，对任意一幅待辨识的自然场景图像进行预处理，并用模仿视觉感知机制的特征提取方法提取其对应的特征值。

第五步，将上述待辨识的自然场景图像所对应的特征值输入自然场景类型辨识器模型，通过自然场景类型辨识器模型计算后输出一个预测的自然场景类型标号。

最后，对所有待辨识的自然场景图像均按照上述步骤求出其相应的预测类型标号；然后，通过统计所有待辨识图像的预测类别标号与其实际类别标号的一致性，计算得出本发明方法的正确率。进一步，通过重复上述五个步骤10次然后求平均，就得到本发明方法的平均正确率，如图7所示。在图7中，横坐标表示自然场景的类型标号，纵坐标表示本发明对每类自然场景图像进行类型辨识的平均正确率。例如，当横坐标为1时，对应的纵坐标为84，这表示对于第1类自然场景——海滩，采用本发明进行自然场景类型辨识的平均正确率是84％。

表1是在图6所示的自然场景图像集上本发明方法与其它方法的性能比较。如表1所示，比较在两种方法间展开，分别是美国麻省理工学院Aude Oliva(8类自然场景图像集的创立者)的方法与本发明的方法，两种方法的运算结果是在相同的测试平台上采用相同的实验设置获得。进行比较的数据是对8类自然场景图像进行场景类型辨识时所获得的平均正确率，该平均正确率是对如图7中所示的8个百分比数值求平均得到。从表1中可以看到，本发明的方法优于Aude Oliva的方法。

表1

图8是本发明实施例中采用的一个国际通用的13类自然场景图像集中的部分图例。该自然场景图像集一共包含13个自然场景类型，分别是卧室、郊区、厨房、客厅、海滩、森林、高速公路、市内、山脉、旷野、街道、高楼和办公室。上述每种场景类型下大约包含200～400幅图像，图8中给出了每种自然场景类型的一幅示例图(每幅示例图下的序号就作为该类场景对应的类型标号)。

图9是本发明在图8所示的13类自然场景图像集上进行实施所获得的识别率柱状图。参照图1，具体实施过程如下：

首先，从每类自然场景中随机选择100幅图像，产生一个包含有1300幅自然场景图像的自然场景样本集{I₁，I₂，...，I₁₃₀₀}。将每类自然场景中剩余的图像全部作为场景类型未知的待辨识自然场景图像。

第一步：对自然场景图像集{I₁，I₂，...，I₁₃₀₀}进行预处理，预处理后的自然场景图像样本集为{G₁，G₂，...，G₁₃₀₀}。

第二步：用模仿视觉感知机制的特征提取方法，对自然场景图像样本集{G₁，G₂，...，G₁₃₀₀}中的所有自然场景图像进行特征提取。具体步骤如下：

(1)对{G₁，G₂，...，G₁₃₀₀}中的任一幅自然场景图像G_k，进行四个尺度的二维双密度双树复小波变换，其中每个尺度的小波分解产生32幅小波子带图像，四个尺度的分解一共产生128幅小波子带图像。

(4)建立一个维数是1300×2176的特征值矩阵F和一个维数是1300×1的类型标号矩阵C，将上述自然场景图像G_k对应的特征值和类型标号分别存放在特征值矩阵F和类型标号矩阵C的第k行中。

(5)对自然场景图像样本集{G₁，G₂，...，G₁₃₀₀}中剩余的1299幅自然场景图像，重复进行上述步骤(1)至步骤(4)的操作。

在完成上述步骤(1)至步骤(5)的操作后，特征值矩阵F中存放着自然场景图像样本集{G₁，G₂，...，G₁₃₀₀}中的所有1300幅自然场景图像的特征值，而类型标号矩阵C中存放的是这些场景图像对应的类型标号。上述的矩阵F和矩阵C就作为与给定的自然场景图像样本集{I₁，I₂，...，I₁₃₀₀}相对应的特征值矩阵和类型标号矩阵。

第三步，用上述与自然场景图像样本集{I₁，I₂，...，I₁₃₀₀}对应的特征值矩阵F和类别标号矩阵C，对支持向量机(SVM)进行训练，构建出一个自然场景类型辨识器模型(即一个训练好的支持向量机分类器)。

第五步，将上述待辨识的自然场景图像对应的特征值输入自然场景类型辨识器模型，通过自然场景类型辨识器模型计算后输出一个预测的自然场景类型标号。

最后，对所有待辨识的自然场景图像均按照上述步骤求出其相应的预测类型标号；然后，通过统计所有待辨识图像的预测类别标号与其实际类别标号的一致性，计算得出本发明方法的正确率。进一步，通过重复上述五个步骤10次然后求平均，就得到本发明方法的平均正确率，如图9所示。在图9中，横坐标表示自然场景的类型标号，纵坐标表示本发明对每类自然场景图像进行类型辨识的平均正确率。例如，当横坐标为1时，对应的纵坐标为88，这表示对于第1类自然场景——街道，采用本发明进行自然场景类型辨识的平均正确率是88％。

表2是在图8所示的13类自然场景图像集上本发明方法与其它方法的性能比较。如表2所示，比较在4种方法间展开，分别是：美国斯坦福大学Li Fei-Fei(13类自然场景图像集的创立者)的方法，西班牙罗纳大学Anna Bosch的方法，中国人民解放军国防科技大学吴玲达的方法，以及本发明的方法。进行比较的数据是对13类自然场景图像进行场景类型辨识时所获得的平均正确率，该平均正确率是对如图9中所示的13个百分比数值求平均得到。其中，Li Fei-Fei、Anna Bosch和吴玲达等人所提方法的平均正确率来源于其所发表论文中提供的数据，本发明采用了与这些论文中一致的实验设置。从表2中可以看到，本发明的方法优于上述3人的方法。

表2

Claims

1.一种模仿视觉感知机制的自然场景类型辨识方法，其特征在于用一种模仿人类视觉感知机制的特征提取方法来提取与自然场景类型相对应的特征，然后利用该特征进行自然场景类型的辨识，所述辨识方法包括以下步骤：

步骤1：对给定的自然场景图像样本集进行预处理；

步骤2：用模仿视觉感知机制的特征提取方法对经步骤1处理后的自然场景图像样本集中的所有自然场景图像进行特征提取，具体方法如下：

（1）模拟人类初级视皮层中简单细胞感受野所具有的多尺度选择和朝向性选择的视觉感知机制，用双密度双树复小波变换对上述自然场景图像样本集中的任一幅自然场景图像在多个空间尺度和多个空间朝向上进行二维小波分解，产生对应于该幅自然场景图像的一系列不同空间尺度和不同空间朝向上的小波子带图像；

（2）模拟人类视皮层中高层复杂细胞结构所呈现出的统计性特征提取的视觉感知机制，用一种基于特征层融合的复合统计性特征提取方法对上述（1）中生成的每一幅小波子带图像再进行统计性特征的提取，使得每一幅小波子带图像对应产生一个位于特定空间尺度与空间朝向上的复合统计特征向量；

其中，所述基于特征层融合的复合统计性特征提取方法是由小波熵方法和小波共生矩阵方法融合得到，由该基于特征层融合的复合统计性特征提取方法对一幅小波子带图像生成复合统计特征向量的具体方法如下：

①由小波熵方法计算得到该小波子带图像对应的一个小波熵值；

②对上述小波子带图像在0度、45度、90度以及135度等四个方向上计算得到4个小波共生矩阵，对每一个小波共生矩阵分别计算“能量”、“对比度”、“同质性”以及“相关性”等4种统计特征，总共得到16个统计特征值，由这16个统计特征值组成的一个16维向量；

③将②中由小波共生矩阵方法产生的16维向量与①中由小波熵方法计算得到的熵值先归一化到同一个数量级，再以串联方式融合成一个17维向量，该融合产生的向量就作为从上述小波子带图像中提取的复合统计特征向量；

（3）用步骤（2）中所述方法对步骤（1）中产生的所有小波子带图像提取复合统计特征向量，然后将所有产生的复合统计特征向量再以串联方式合并成一个特征向量，该向量就是从（1）中所述的任一幅自然场景图像中提取出的特征值；

（4）建立一个特征值矩阵和一个对应的类型标号矩阵，将（1）中所述的任一幅自然场景图像的特征值和该自然场景图像所属的类型标号分别存放在特征值矩阵和类型标号矩阵中的对应行；

（5）对自然场景图像样本集中剩余的所有自然场景图像重复进行上述步骤（1）至（4），最终得到的特征值矩阵和类型标号矩阵存放着自然场景图像样本集中所有自然场景图像的特征值和对应的类型标号；

步骤3：用步骤2中生成的与自然场景图像样本集对应的特征值矩阵和类型标号矩阵，对支持向量机（SVM）进行训练，构建出一个自然场景类型辨识器模型；步骤4：对于上述自然场景样本集以外的任意一幅场景类型未知的自然场景图像，对其提取相应的特征值，具体方法如下：

（1）采用步骤1中所述的预处理方法，对该场景类型未知的自然场景图像进行预处理；

（2）采用步骤2中所述的模仿视觉感知机制的特征提取方法中的（1）至（3）步，对该场景类型未知的自然场景图像提取相应的特征值；

步骤5：对步骤4中所述的任意一幅场景类型未知的自然场景图像进行场景类型的辨识，具体方法是：

将步骤4中得到的该自然场景图像对应的特征值输入步骤3中所述的自然场景类型辨识器模型，然后由自然场景类型辨识器模型计算并输出一个自然场景类型标号，该自然场景类型标号即表明了这幅场景类型未知的自然场景图像所应归属的场景类型。

2.根据权利要求1所述的模仿视觉感知机制的自然场景类型辨识方法，其特征在于：步骤1中所述的给定的自然场景图像样本集必须满足以下条件：（1）样本集中所有图像样本反映的内容必须为场景，而不是其他的内容；（2）样本集中具有N个不同的自然场景类型，N为大于2的自然数；（3）样本集中的每一个图像样本都唯一的归属于上述N个自然场景类型中的一种；（4）每种自然场景类型下包含的自然场景图像样本个数不小于1；（5）每种自然场景类型下包含的自然场景图像样本具有相同的类别标号；（6）不同的自然场景类型下的自然场景图像样本具有不同的类别标号。

3.根据权利要求1所述的模仿视觉感知机制的自然场景类型辨识方法，其特征在于：步骤1中所述的对给定的自然场景图像样本集的预处理包括以下步骤：

（1）对自然场景图像样本集{I₁,I₂,…,I_K}中的任一幅图像I_k进行色彩空间变化，转换为灰度图像，其中1≤k≤K，K是自然数，具体转化方法如下：

I_{k_Gray}=(I_{k_Red}+I_{k_Green}+I_{k_Blue})/3 （1）

其中，I_{k_Red}、I_{k_Green}、I_{k_Blue}分别表示原图像I_k中对应的红、绿、蓝3个通道分量，I_{k_Gray}表示转化后的灰度图像；

（2）将步骤（1）中得到的灰度图像I_{k_Gray}归一化为m×n像素大小的图像I_{k_Gray}(m,n)，m表示图像的每行有m个像素点，n表示图像的每行有n个像素点，m和n的取值根据需要设置，一般取m=n=2^P,P为正整数；

（3）用逻辑算子对步骤（2）中归一化后的图像I_{k_Gray}(m,n)进行图像局部信息增强，具体方法如下：

G_k=I_{k_Gray}(m,n)*H （2）

其中，H表示逻辑算子，使用的是合取逻辑算子，其形式为：

*表示卷积运算，G_k是增强之后的对应图像；

（4）对给定的自然场景图像样本集{I₁，I₂,…,I_K}中的所有自然场景图像均进行上述步骤（1）至步骤（3）的操作，得到预处理后的一个对应的自然场景图像样本集{G₁,G₂,…,G_K}。

4.根据权利要求1所述的模仿视觉感知机制的自然场景类型辨识方法，其特征在于：步骤2中所述的双密度双树复小波变换，其最优分解层数在3至5之间。

5.根据权利要求1所述的模仿视觉感知机制的自然场景类型辨识方法，其特征在于：所述小波熵计算方法如下：

E (W) = - \underset{x}{Σ} \underset{y}{Σ} {| W (x, y) |}^{p} - - - (5)

其中，W(x,y)表示小波子带图像W在像素点位置为(x,y)处的小波系数（即像素值），p表示幂指数，取p＝1，E(W)就是小波子带图像W对应的熵值。

6.根据权利要求1所述的模仿视觉感知机制的自然场景类型辨识方法，其特征在于：所述小波共生矩阵计算方法为

（6）

其中，W(x，y)和W(x+Δx，y+Δy)分别表示小波子带图像W在像素点位置为(x，y)和(x+Δx，y+Δy)处的小波系数，即像素值，(Δx，Δy)的取值决定着两个像素点位置之间的相对距离和相对方向，Cm(s,t)表示小波共生矩阵，s和t分别表示小波共生矩阵的行下标和列下标。

7.根据权利要求1所述的模仿视觉感知机制的自然场景类型辨识方法，其特征在于：所述对每一个小波共生矩阵分别计算“能量”、“对比度”、“同质性”以及“相关性”4种统计特征的具体方法如下：

En (Cm) = \underset{s}{Σ} \underset{t}{Σ} {[Cm (s, t)]}^{p}

能量

（7）

Con (Cm) = \underset{s}{Σ} \underset{t}{Σ} {(s - t)}^{2} Cm (s, t)

对比度

（8）

Hom (Cm) = \underset{s}{Σ} \underset{t}{Σ} \frac{Cm (s, t)}{1 + {(s - t)}^{2}}

同质性

（9）

Cor (Cm) = \frac{\underset{s}{Σ} \underset{t}{Σ} (s - μ_{a}) (t - μ_{b})}{σ_{a} σ_{b}}