CN105023016B

CN105023016B - 基于压缩感知分类的目标感知方法

Info

Publication number: CN105023016B
Application number: CN201510377145.8A
Authority: CN
Inventors: 潘晨
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2018-08-28
Anticipated expiration: 2035-06-25
Also published as: CN105023016A

Abstract

本发明公开了一种基于压缩感知分类的目标感知方法，包括以下各步骤：1)通过谱残差法对目标图像作显著性检测，得到相应的像素显著度图；2)对所述的像素显著度图中的显著点，依据显著度排序；3)选取前N个显著点作为注视点，包含这些注视点的最小矩形范围作为注视区域；4)对所述的注视区域内部像素进行随机采样，并对注视区域外部进行等量的像素随机采样；5)利用压缩感知分类器策略，得到一个二分类的像素分类模型，通过该模型分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一注视目标区。本发明根据人类视觉注视的过程，通过注视点排序和像素分类模型，来模拟人类视觉，对目标场景作快速有效注视，实现机器对目标场景的视觉感知。

Description

基于压缩感知分类的目标感知方法

技术领域

本发明涉及人类视觉仿真技术领域，具体地讲是一种基于压缩感知分类的目标感知方法。

背景技术

随着信息技术的发展，计算机视觉已经被广泛应用于低层特征检测和描述、模式识别、人工智能推理和机器学习算法等领域。然而，传统的计算机视觉方法通常是任务驱动型，即需要限定许多条件，并根据实际任务来设计相应的算法，缺乏通用性；需要解决高维非线性特征空间、超大数据量对问题求解和实时处理等问题，使得其研究和应用面临巨大的挑战。

人类视觉系统能够在不同环境下高效、可靠地工作，其具有以下优点：具有关注机制、显著性检测和与此相关的视觉处理中的选择性和目的性；能够从低层视觉处理中利用先验知识，使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配合；上下境信息在视觉处理的各个层次都发挥着重要作用，并且能够综合利用环境中各种模态的信息。但在人类视觉感知机理尚不完全明了的情况下，如何构造具有人类视觉特点的机器视觉仍存在较大困难，若能够构建模拟人类视觉的机器视觉系统，以此来对目标场景进行感知，则必然会给目标的识别和感知等应用带来重要的影响。

发明内容

有鉴于此，本发明要解决的技术问题是，提供一种能够模拟人类视觉的基于压缩感知分类的目标感知方法，通过模拟人类主动视觉行为、对目标场景作快速有效注视，实现机器对目标场景的视觉感知。

本发明的技术解决方案是，提供以下步骤的基于压缩感知分类的目标感知方法，包括以下各步骤：

1)通过谱残差法对目标图像作显著性检测，得到相应的像素显著度图，所述像素显著度图与所述目标图像的像素位置信息一致；

2)对所述的像素显著度图中的显著点，依据显著度进行排序；

3)选取前N个显著点作为注视点，包含这些注视点的最小矩形范围作为注视区域；

4)对所述的注视区域内部像素进行随机采样，并对注视区域外部进行等量的像素随机采样；采样得到的注视区域内部像素作为正样本，注视区域外部像素作为负样本；

5)利用压缩感知分类器策略，得到一个二分类的像素分类模型，通过该模型分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一注视目标区。

采用本发明的方法，与现有技术相比，本发明具有以下优点：通过谱残差法进行显著性检测，能够快速形成像素显著度图；依据显著度排序像素，可粗略定位显著度高的注视区域；对该区域内部和外部同时进行少量像素采样，组成正负样本数据集，并作为一个完备字典提供给压缩感知分类模型，随后借助该模型分类像素，能获得显著度高的、更精确的区域作为第一注视目标区；且可建立第一注视目标区的基础上，适当扩大显著度高的注视区域范围，再次构建一个完备字典，经压缩感知分类模型分类形成相应的注视目标区，并与第一注视目标区进行比较，以判断注视目标区是否稳定。本发明根据人类视觉注视的过程，通过注视点排序和像素分类模型，来模拟人类视觉，对目标场景作快速有效注视，实现机器对目标场景的视觉感知。

作为改进，选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二注视目标区；比较第一注视目标区和第二注视目标区的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的注视目标区为上述过程所有注视目标区的叠加。该设计能够加快视觉感知目标的生成与输出，并得到更为稳定的注视目标区，注视的结果更为可靠。

作为改进，获得注视目标区后，获得注视目标区后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的注视目标区，依次获得图像中的多个目标区。这样能够完成对整幅图像的有效信息进行注视识别和读取，提高注视的准确性和完整度。

作为改进，所述的谱残差法是指通过傅立叶变换，只保留幅度谱的残差和相位谱信息，经傅立叶反变换获得像素显著度图；并通过扰动目标图像尺度，得到目标图像在不同尺度下的多个显著度图，再将这些显著度图缩放到同一尺度进行叠加。该设计用于解决现有技术对图像尺度变化敏感的问题，可有效地提高显著度图的信噪比，增强谱残差法的适应性。

附图说明

图1为本发明基于压缩感知分类的目标感知方法的流程图。

具体实施方式

下面就具体实施例对本发明作进一步说明，但本发明并不仅仅限于这些实施例。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外，本发明之附图中为了示意的需要，并没有完全精确地按照实际比例绘制，在此予以说明。

如图1所示，本发明的基于压缩感知分类的目标感知方法，包括以下各步骤：

对目标场景的感知，图像相当于人类视觉所注视的场景，无论场景大小，在视网膜上成像的范围的不变的，因而图像之于机器视觉也是如此。

通过与其他显著性检测方法比较，谱残差法的计算速度很快。本文用该类算法作为图像感兴趣区域的自动检测工具。通过谱残差法对目标图像作显著性检测的具体步骤如下：

对于给定的待感知图像I(x)(此处x表示像素坐标向量)，首先对其进行二维离散傅里叶变换F[I(x)]，将图像由空间域转换到频域，得到幅值A(f)和相位P(f)信息：

A(f)＝|F[I(x)]| (1)

接着对幅值取对数，得到log谱L(f)：

L(f)＝log(A(f)) (3)

式中F表示二维离散傅里叶变换，|.|表示幅值运算，表示相位运算。由于log曲线满足局部线性条件，所以用局部平均滤波器h_n(f)对其进行平滑，获得log谱的大致形状：

V(f)＝L(f)*h_n(f) (4)

其中h_n(f)是一个n×n的矩阵(本实施例实验中n＝3。)，定义如下：

谱残差R(f)则是对图像中的突变区域的描述：

R(f)＝L(f)-V(f) (6)

通过傅里叶逆变换，可以在空间域得到显著度图像。

S(x)＝|F^-1[exp{R(f)+jP(f)}]|² (7)

显著度图上每点的值表示该位置的显著度。考虑到人眼视觉的局部成组效应，为了消除少数孤立的显著点，得到更好的视觉效果，我们在得到S(x)后再用平均滤波器进行一次平滑，得到最终的显著度图Z(x)。

Z(x)＝S(x)*h_n(f) (8)

谱残差算法对像素的操作是一种批处理，算法简单、快速、易实现，且对于噪声具有一定的鲁棒性。

图1中，涉及训练数据、分类模型、完备字典、结果等均为采用压缩感知分类器训练策略相应实施过程。利用压缩感知分类器策略，得到一个二分类的像素分类模型，具体实施过程如下：

1)建立训练样本矩阵

压缩感知分类技术的核心可简述为：用训练样本的基矩阵来获得测试样本的线性表示。首先依据正负两类像素样本的特征向量B_j构成训练样本矩阵，即：

B＝[B₁B₂B₃...B_v] (9)

其中，v为训练样本个数，矩阵B被称为完备字典。

2)对测试样本进行稀疏分解

将测试样本像素z表示为关于B的线性表示，即下式，

其中，z在B中各训练样本上的投影系数为

由压缩感知和稀疏表示理论可以得出，若是稀疏的，则可通过L1范数意义下的最小化过程来求解，如下式，

因此，当已知z和B的情况下，可依据公式(12)做L1范数意义下的稀疏化矩阵分解。理想情形下，测试样本z在它所属的类别上的投影系数不为零，而在其他类别上的投影系数均为零。

3)对测试样本进行分类识别

假设z属于第j类，则只用中的第j类样本的投影系数来重构一次测试样本

求测试样本z与重构样本的最小残差对应的类别，即被测样本的预测类别。

压缩感知分类的优点是：a)不过分依赖于参数模型，有效避免了由于知识的不精确和不完整带来的误差。b)算法无需对分类器进行训练，直接用训练样本作为完备字典，降低了对程序与设备的需求，可加快程序运行速度。

为了优化本发明，采用分类器多次分类像素方式获得稳定的注视目标区。框图中则体现为判断是否存在稳定的输出。因此需要形成进一步的目标区：

选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二注视目标区；比较第一注视目标区和第二注视目标区的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的注视目标区为上述过程所有注视目标区的叠加。

获得注视目标区后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的注视目标区，依次获得图像中的多个目标区。这样便可从图中分割出所有有效注视区域的信息，构建了模拟人类视觉的机器视觉。

所述的谱残差法是指目标图像通过二维傅立叶变换后，只保留幅度谱残差和相位谱信息，经傅立叶反变换获得像素显著度图。然而原谱残差法对图像尺度变化比较敏感，检测得到的显著图随图像尺度变化而改变。为了克服这种问题，一种改进策略是通过扰动源图像尺度，得到同一源图像在不同尺度下的k个显著度图；再将这些显著度图缩放到同一尺度进行叠加，具体如下式：

根据统计学原理，若图像中存在随机噪声，则显著图叠加可明显降低噪声影响，增加显著度高区域的信噪比。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化。总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于压缩感知分类的目标感知方法，其特征在于：包括以下步骤：

5)利用压缩感知分类器策略，得到一个二分类的像素分类模型，通过该模型分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一注视目标区；

选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二注视目标区；

比较第一注视目标区和第二注视目标区的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的注视目标区为上述过程所有注视目标区的叠加。

2.根据权利要求1所述的基于压缩感知分类的目标感知方法，其特征在于：获得注视目标区后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的注视目标区，依次获得图像中的多个目标区。

3.根据权利要求1或2所述的基于压缩感知分类的目标感知方法，其特征在于：所述的谱残差法是指目标图像通过傅立叶变换，只保留幅度谱残差和相位谱信息，经傅立叶反变换获得像素显著度图；并通过扰动源图像尺度，得到同一源图像在不同尺度下的多个显著度图，再将这些显著度图缩放到同一尺度进行叠加。