CN104933435A

CN104933435A - 基于模拟人类视觉的机器视觉构建方法

Info

Publication number: CN104933435A
Application number: CN201510377168.9A
Authority: CN
Inventors: 潘晨
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2015-09-23
Anticipated expiration: 2035-06-25
Also published as: CN104933435B

Abstract

本发明公开了一种基于模拟人类视觉的机器视觉构建方法，包括以下各步骤：1)通过频域法对目标图像作显著性检测，得到相应的像素显著度图；2)对所述的像素显著度图中的显著点，依据显著度排序；3)选取前N个显著点作为注视点，以每个注视点为中心，形成信息熵最大的局部区域，这些局部区域组成注视区域；4)对所述的注视区域内部像素进行随机采样，并对注视区域外部进行等量的像素随机采样；5)利用极限学习机训练策略，通过该模型分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一注视目标区。本发明根据人类视觉注视的过程，通过注视点排序和神经网络模型，来模拟人类主动视觉过程，以构建具有对目标场景快速有效注视的机器视觉。

Description

基于模拟人类视觉的机器视觉构建方法

技术领域

本发明涉及人类视觉构建技术领域，具体地讲是一种基于模拟人类视觉的机器视觉构建方法。

背景技术

随着信息技术的发展，计算机视觉已经被广泛应用于低层特征检测和描述、模式识别、人工智能推理和机器学习算法等领域。然而，传统的计算机视觉方法通常是任务驱动型，即需要限定许多条件，并根据实际任务来设计相应的算法，缺乏通用性；需要解决高维非线性特征空间、超大数据量对问题求解和实时处理等问题，使得其研究和应用面临巨大的挑战。

人类视觉系统能够在不同环境下高效、可靠地工作，其具有以下优点：具有关注机制、显著性检测和与此相关的视觉处理中的选择性和目的性；能够从低层视觉处理中利用先验知识，使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配合；上下境信息在视觉处理的各个层次都发挥着重要作用，并且能够综合利用环境中各种模态的信息。但在人类视觉感知机理尚不完全明了的情况下，如何构造具有人类视觉特点的机器视觉仍存在较大困难，若能够构建模拟人类视觉的机器视觉系统，必然会给计算机视觉的各个实际应用领域带来重要的影响。

发明内容

有鉴于此，本发明要解决的技术问题是，提供一种能够模拟人类视觉的机器视觉构建方法，通过模拟人类主动视觉行为、对目标场景作快速有效注视，实现机器对目标场景的视觉感知。

本发明的技术解决方案是，提供以下步骤的基于模拟人类视觉的机器视觉构建方法，包括以下各步骤：

1)通过频域法对目标图像作显著性检测，得到相应的像素显著度图，所述像素显著度图与所述目标图像的像素位置信息一致；

2)对所述的像素显著度图中的显著点，依据显著度进行排序；

3)选取前N个显著点作为注视点，以每个注视点为中心，形成信息熵最大的局部区域，这些局部区域组成注视区域；

4)对所述的注视区域内部像素进行随机采样，并对注视区域外部进行等量的像素随机采样；采样得到的注视区域内部像素作为正样本，注视区域外部像素作为负样本；

5)利用极限学习机训练策略，训练得到一个二分类的前馈神经网络模型，通过该模型分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一注视目标区。

采用本发明的方法，与现有技术相比，本发明具有以下优点：通过频域法进行显著性检测，能够快速形成像素显著度图；依据显著度排序像素，可粗略定位显著度高的注视区域；对该区域内部和外部同时进行少量像素采样，组成正负样本数据集训练前馈神经网络，随后借助该神经网络分类像素，能获得显著度高的、更精确的区域作为第一注视目标区；且可建立第一注视目标区的基础上，适当扩大显著度高的注视区域范围，再次经神经网络学习-分类形成相应的注视目标区，并与第一注视目标区进行比较，以判断注视目标区是否稳定。本发明根据人类视觉注视的过程，通过注视点排序和神经网络模型，来模拟人类视觉，以构建具有对目标场景快速有效注视的机器视觉。

作为改进，选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二注视目标区；比较第一注视目标区和第二注视目标区的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的注视目标区为上述过程所有注视目标区的叠加。该设计能够加快视觉感知目标的生成与输出，并得到更为稳定的注视目标区，注视的结果更为可靠。

作为改进，获得注视目标区后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的注视目标区，依次获得图像中的多个目标区。这样能够完成对整幅图像的有效信息进行注视识别和读取，提高注视的准确性和完整度。

作为改进，所述的频域法是指通过超复数傅立叶变换，将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换，只保留相位谱信息，经傅立叶反变换获得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题，有效地针对彩色图像相应地改进了频域法的具体步骤。

附图说明

图1为本发明基于模拟人类视觉的机器视觉构建方法的流程图。

具体实施方式

下面就具体实施例对本发明作进一步说明，但本发明并不仅仅限于这些实施例。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外，本发明之附图中为了示意的需要，并没有完全精确地按照实际比例绘制，在此予以说明。

如图1所示，本发明的基于模拟人类视觉的机器视觉构建方法，包括以下各步骤：

对于机器视觉构建来说，图像相当于人类视觉所注视的场景，无论场景大小，在视网膜上成像的范围是不变的，因而图像之于机器之于机器视觉也是如此。

通过频域法对目标图像作显著性检测，可采用以下步骤实施：对待目标图像I(i，j)进行二维离散傅里叶变换F[I(i，j)]，将图像由空间域转换到频域，得到相位P(u，v)信息：

式中F表示二维离散傅里叶变换，表示相位运算。将相位信息经傅里叶逆变换后，可以在空间域得到显著度图像Sa_Map。

Sa_Map(i，j)＝|F^-1[exp{jP(u，v)}]|² (2)

图1中，涉及训练数据、分类模型、结果等均为采用极限学习机训练策略相应实施过程。具体实施过程如下：

极限学习机(ELM)是一种单隐层前馈神经网络(Single-hidden layer feedforwardnetworks，SLFNs)。对一个给定的训练样本集有L个隐层结点的SLFNs表示为：

f_{L} (x_{j}) = Σ_{i = 1}^{L} β_{i} K (α_{i}, b_{i}, x_{j}) = t_{j}, j = 1, . . ., N - - - (3)

其中α_i和b_i是隐结点与输入结点的连接参数(内权)，内权可独立于训练数据的随机产生。K(α_i，b_i，x_j)是第i个隐结点对应于输入的输出项。β_i是第i个隐结点到输出结点的连接权值(外权)。如果已知给定的训练样本，且已知随机产生的内权，则K(α_i，b_i，x_j)可计算；公式(3)成为一个线性系统，只有β_i是未知项，可通过线性代数方法求解。

基于上述原理，在给定训练集下，单隐层反馈神经网络的性能完全由其隐层结点与输出结点的连接权值(外权)确定，而与输入端与隐层结点的连接权值、偏移值等(内权)无关。由此能用数学手段解得关键连接权值的解析解而非迭代近似解，从而使得ELM算法本质上最优，避免了基于梯度下降法迭代求解的神经网络出现局部极小的情况。由于无需迭代运算，使得学习速度数百倍于传统神经网络。

ELM只有一个可调参数——隐节点数量。只要该参数相对于具体问题而言取值足够大，就能保证算法的逼近能力。这样的特性使我们能避免参数寻优问题的困扰，从而集中注意力获取合适的训练样本。同时，增加样本数据的维度变得很容易，可以考虑不同模态的属性(颜色、梯度、邻域、纹理、位置、深度、差别和上下境信息等)。避免了传统机器学习算法在线训练需合理设置参数的困难问题。

为了优化本发明，克服ELM内权随机产生导致的分类性能不稳定问题，采用多个分类器的结果集成方式获得稳定的注视目标区。框图中则体现为判断是否存在稳定的输出。因此需要形成进—步的目标区：

选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二注视目标区；比较第一注视目标区和第二注视目标区的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的注视目标区为上述过程所有注视目标区的叠加。

获得注视目标区后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的注视目标区，依次获得图像中的多个目标区。这样便可从图中分割出所有有效注视区域的信息，构建了模拟人类视觉的机器视觉。

所述的频域法是指通过超复数傅立叶变换，将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换，只保留相位谱信息，经傅立叶反变换获得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题，有效地针对彩色图像相应地改进了频域法的具体步骤。

超复数由四个部分组成，表示为

q＝a+bi+cj+dk (4)

其中a，b，c，d都是实数，i，j，k都是虚数单位，且具有以下性质：i²＝j²＝k²＝ijk＝-1，ij＝—ji＝k，ki＝-ik＝j，jk＝-kj＝i。

彩色图像的RGB模型可以描述为没有实部的纯超复数：

f＝R(m，n)i+G(m，n)j+B(m，n)k (5)

其中R(m，n)，G(m，n)，B(m，n)分别表示图像红绿蓝三个分量。若q＝f，则a＝0，b＝R(m，n)，c＝G(m，n)，d＝B(m，n)。对构造好的彩色矢量可按照式(6)进行超复数傅里叶变换：

F^R(v，u)＝(real(fft2(a))+μ·imag(fft2(a)))+

i(real(fft2(b))+μ·imag(fft2(b)))+ (6)

j(real(fft2(c))+μ·imag(fft2(c)))+

k(real(fft(d))+μ·imag(fft2(d)))

其中，fft2()表示传统二维傅里叶变换，real()表示取实部，imag()表示取虚部。

为单位虚向量。此处，只需取F^R(v，u)的相位谱P(f)：

令：A＝e^jP(f) (8)

利用传统二维快速傅里叶逆变换(ifft2)组合可以得到超复数傅里叶逆变换，如式(9)：

F^-R(v，u)＝(real(ifft2(A))+μ·imag(ifft2(A)))+

i(real(ifft2(B))+μ·imag(ifft2(B)))+ (9)

j(real(ifft2(C))+μ·imag(ifft2(C)))+

k(real(ifft2(D))+μ·imag(ifft2(D)))

其中，B＝fft2(b)，C＝fft2(c)，D＝fft2(d)。

Real(F^-R(v，u))即为求得的显著图。由于彩色像素在数据处理前后的整体性得到了保持，从而避免了由于矢量分量的变换或交换引起的色彩失真。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化。总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于模拟人类视觉的机器视觉构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于模拟人类视觉的机器视觉构建方法，其特征在于：选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二注视目标区；

比较第一注视目标区和第二注视目标区的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的注视目标区为上述过程所有注视目标区的叠加。

3.根据权利要求1所述的基于模拟人类视觉的机器视觉构建方法，其特征在于：获得注视目标区后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的注视目标区，依次获得图像中的多个目标区。

4.根据权利要求1或2所述的基于模拟人类视觉的机器视觉构建方法，其特征在于：所述的频域法是指通过超复数傅立叶变换，将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换，只保留相位谱信息，经傅立叶反变换获得像素显著度图。