CN104933725B

CN104933725B - 模拟人类视觉的图像分割方法

Info

Publication number: CN104933725B
Application number: CN201510377210.7A
Authority: CN
Inventors: 潘晨
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2018-05-04
Anticipated expiration: 2035-06-25
Also published as: CN104933725A

Abstract

本发明公开了一种基于模拟人类视觉的图像分割方法，包括以下各步骤：1)对目标图像作显著性检测，得到像素显著度图；2)对像素显著度图中的显著点，依据显著度排序；3)选取前N个显著点作为注视点，以注视点为中心，形成信息熵最大的局部区域，局部区域组成注视区域；4)对注视区域内随机采样，并对注视区域外部进行等量的像素随机采样；5)利用极限学习机训练策略获得分类模型，分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一分割结果；重复3‑5步骤获得重复的分割结果，当分割结果稳定时，记录该区域；重复2‑5步骤，直至图像中无可注视区域。本发明通过注视点排序和神经网络模型来模拟人类视觉，以实现对目标图像的分割。

Description

模拟人类视觉的图像分割方法

技术领域

本发明涉及人类视觉模拟技术领域，具体地讲是一种模拟人类视觉的图像分割方法。

背景技术

随着信息技术的发展，计算机视觉已经被广泛应用于低层特征检测和描述、模式识别、人工智能推理和机器学习算法等领域。然而，传统的计算机视觉方法通常是任务驱动型，即需要限定许多条件，并根据实际任务来设计相应的算法，缺乏通用性；需要解决高维非线性特征空间、超大数据量对问题求解和实时处理等问题，使得其研究和应用面临巨大的挑战。

人类视觉系统能够在不同环境下高效、可靠地工作，其具有以下优点：具有关注机制、显著性检测和与此相关的视觉处理中的选择性和目的性；能够从低层视觉处理中利用先验知识，使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配合；上下境信息在视觉处理的各个层次都发挥着重要作用，并且能够综合利用环境中各种模态的信息。但在人类视觉感知机理尚不完全明了的情况下，如何构造具有人类视觉特点的机器视觉仍存在较大困难，若能够构建模拟人类视觉的机器视觉系统，以此来对目标场景的显著性信息进行提取和分割，则必然会给计算机视觉应用领域带来重要的影响。

发明内容

有鉴于此，本发明要解决的技术问题是，提供一种模拟人类主动视觉行为、对目标场景作快速有效注视，从而实现图像自动分割的有效方法。

本发明的技术解决方案是，提供以下步骤的模拟人类视觉的图像分割方法，包括以下各步骤：

1)通过频域法对目标图像作显著性检测，得到相应的像素显著度图，所述像素显著度图与所述目标图像的像素位置信息一致；

2)对所述的像素显著度图中的显著点，依据显著度进行排序；

3)选取前N个显著点作为注视点，以每个注视点为中心，形成信息熵最大的局部区域，这些局部区域组成注视区域；

4)对所述的注视区域内部像素进行随机采样，并对注视区域外部进行等量的像素随机采样；采样得到的注视区域内部像素作为正样本，注视区域外部像素作为负样本；

5)利用极限学习机训练策略，训练得到一个二分类的前馈神经网络模型，通过该模型分类所述目标图像的全部像素，将被分为正样本的像素区域作为第一分割结果；

选取前N+M个显著点作为注视点，依照步骤3)形成注视区域，再经步骤4)和5)得到相应的第二分割结果；

比较第一分割结果和第二分割结果的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的分割结果为上述过程所有分割结果的叠加。

获得最终的分割结果后，在目标图像和像素显著度图中该区域被清零，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的分割结果，直至目标图像中的所有目标分割完毕。

采用本发明的方法，与现有技术相比，本发明具有以下优点：通过频域法进行显著性检测，能够快速形成像素显著度图；依据显著度排序像素，可粗略定位显著度高的注视区域；对该区域内部和外部同时进行少量像素采样，组成正负样本数据集训练前馈神经网络，随后借助该神经网络分类像素，能获得显著度高的、更精确的区域作为第一分割结果；且可建立第一分割结果的基础上，适当扩大显著度高的注视区域范围，再次经神经网络学习-分类形成相应的分割结果，并与第一分割结果进行比较，以判断分割结果是否稳定。本发明根据人类视觉注视的过程，通过注视点排序和像素分类模型，来模拟人类视觉，对目标场景作快速有效注视，实现机器对目标场景的视觉感知，并从图像中予以分割。

作为改进，所述的频域法是指通过超复数傅立叶变换，将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换，只保留相位谱信息，经傅立叶反变换获得像素显著度图。并可通过扰动源图像尺度，得到同一源图像在不同尺度下的多个显著度图，再将这些显著度图缩放到同一尺度进行叠加。该设计用于解决现有技术仅能处理黑白图像识别的问题，有效地针对彩色图像相应地改进了频域法的具体步骤；能提高像素显著度图的信噪比，解决现有技术对图像尺度变化敏感的问题。

作为改进，所述随机采样针对的像素所具有的梯度值大于其所在区域的平均梯度值。根据梯度值大处的图像区域对应的信息熵也大的特点，可获取最具信息量的、所感知的目标区域样本。

附图说明

图1为本发明模拟人类视觉的图像分割方法的流程图。

具体实施方式

下面就具体实施例对本发明作进一步说明，但本发明并不仅仅限于这些实施例。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外，本发明之附图中为了示意的需要，并没有完全精确地按照实际比例绘制，在此予以说明。

如图1所示，本发明的模拟人类视觉的图像分割方法，包括以下各步骤：

比较第一分割结果和第二分割结果的重叠程度，重叠程度大则表明对目标的视觉感知强度大；重叠程度小则表明还未形成足够的对目标的视觉感知强度，继续重复上述过程，直至达到足够的视觉感知强度，最终的分割结果为上述过程所有分割结果的叠加；

获得最终的分割结果后，在目标图像和像素显著度图中该区域被清零(更新)，对更新后的像素显著度图中的显著点，依据显著度再次排序，重复步骤3)、4)和5)，得到新的分割结果，直至目标图像中的所有目标分割完毕。

对目标场景的感知，图像相当于人类视觉所注视的场景，无论场景大小，在视网膜上成像的范围的不变的，因而图像之于机器视觉也是如此。

通过频域法对目标图像作显著性检测，可采用以下步骤实施：对待目标图像I(i，j)进行二维离散傅里叶变换F[I(i，j)]，将图像由空间域转换到频域，得到相位P(u，v)信息：

式中F表示二维离散傅里叶变换，表示相位运算。将相位信息经傅里叶逆变换后，可以在空间域得到显著度图像Sa_Map。

Sa_Map(i，j)＝|F^-1[exp{jP(u，v)}]|² (2)

图1中，涉及训练数据、分类模型、结果等均为采用极限学习机训练策略相应实施过程。具体实施过程如下：

极限学习机(ELM)是一种单隐层前馈神经网络(Single-hidden layerfeedforward networks，SLFNs)。对一个给定的训练样本集有L个隐层结点的SLFNs表示为：

其中α_i和b_i是隐结点与输入结点的连接参数(内权)，内权可独立于训练数据的随机产生。K(α_i，b_i，x_j)是第i个隐结点对应于输入的输出项。β_i是第i个隐结点到输出结点的连接权值(外权)。如果已知给定的训练样本，且已知随机产生的内权，则K(α_i，b_i，x_j)可计算；公式(3)成为一个线性系统，只有β_i是未知项，可通过线性代数方法求解。

基于上述原理，在给定训练集下，单隐层反馈神经网络的性能完全由其隐层结点与输出结点的连接权值(外权)确定，而与输入端与隐层结点的连接权值、偏移值等(内权)无关。由此能用数学手段解得关键连接权值的解析解而非迭代近似解，从而使得ELM算法本质上最优，避免了基于梯度下降法迭代求解的神经网络出现局部极小的情况。由于无需迭代运算，使得学习速度数百倍于传统神经网络。

ELM只有一个可调参数——隐节点数量。只要该参数相对于具体问题而言取值足够大，就能保证算法的逼近能力。这样的特性使我们能避免参数寻优问题的困扰，从而集中注意力获取合适的训练样本。同时，增加样本数据的维度变得很容易，可以考虑不同模态的属性(颜色、梯度、邻域、纹理、位置、深度、差别和上下境信息等)。避免了传统机器学习算法在线训练需合理设置参数的困难问题。

为了优化本发明，克服ELM内权随机产生导致的分类性能不稳定问题，采用多个分类器的结果集成方式获得稳定的分割结果。框图中则体现为判断是否存在稳定的输出。因此需要形成进一步的分割结果。框图中则体现为判断是否存在稳定的输出。

所述的频域法是指通过超复数傅立叶变换，将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换，只保留相位谱信息，经傅立叶反变换获得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题，有效地针对彩色图像相应地改进了频域法的具体步骤。

超复数由四个部分组成，表示为

q＝a+bi+cj+dk (4)

其中a，b，c，d都是实数，i，j，k部是虚数单位，且具有以下性质：i²＝j²＝k²＝ijk＝-1，ij＝-ji＝k，ki＝-ik＝j，jk＝-kj＝i。

彩色图像的RGB模型可以描述为没有实部的纯超复数：

f＝R(m，n)i+G(m，n)j+B(m，n)k (5)

其中R(m，n)，G(m，n)，B(m，n)分别表示图像红绿蓝三个分量。若q＝f，则a＝0，b＝R(m，n)，c＝G(m，n)，d＝B(m，n)。对构造好的彩色矢量可按照式(6)进行超复数傅里叶变换：

F^R(v，u)＝(real(fft2(a))+μ·imag(fft2(a)))+

i(real(fft2(b))+μ·imag(fft2(b)))+ (6)

j(real(fft2(c))+μ·imag(fft2(c)))+

k(real(fft(d))+μ·imag(fft2(d)))

其中，fft2()表示传统二维傅里叶变换，real()表示取实部，imag()表示取虚部。为单位虚向量。此处，只需取F^R(v，u)的相位谱P(f)；

令：A＝e^jP(f) (8)

利用传统二维快速傅里叶逆变换(ifft2)组合可以得到超复数傅里叶逆变换，如式(9)：

F^-R(v，u)＝(real(ifft2(A))+μ·imag(ifft2(A)))+

i(real(ifft2(B))+μ·imag(ifft2(B)))+ (9)

j(real(ifft2(C))+μ·imag(ifft2(C)))+

k(real(ifft2(D))+μ·imag(ifft2(D)))

其中，B＝fft2(b)，C＝fft2(c)，D＝fft2(d)。

Real(F^-R(v，u))即为求得的显著图。由于彩色像素在数据处理前后的整体性得到了保持，从而避免了由于矢量分量的变换或交换引起的色彩失真。

相位谱法对图像尺度变化比较敏感，检测得到的显著图随图像尺度变化而改变。为了克服这种现象，一种改进策略是通过扰动源图像尺度，得到同一源图像在不同尺度下的k个显著度图；再将这些显著度图缩放到同一尺度进行叠加，具体如下式：

根据统计学原理，若图像中存在随机噪声，则显著图叠加可明显降低噪声影响，增加显著度高区域的信噪比。

所述随机采样针对的像素所具有的梯度值大于其所在区域的平均梯度值。对图像信息熵的研究表明，图像中有较高梯度的部分像素产生的信息熵大于源图像全体像素形成的信息熵。这是由于图像信息冗余导致的现象。鉴于此现象，为了获得注视区域内的最富信息量的、有代表性的像素样本，采样应针对高梯度像素进行。为了避免大量计算，一种有效的应对策略是：只针对注视区域内部梯度值大于该区域平均梯度值的像素进行随机采样。而注视区域外部的采样仍采取对全体像素随机采样方式。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化。总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种模拟人类视觉的图像分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的模拟人类视觉的图像分割方法，其特征在于：所述的频域法是指通过超复数傅立叶变换，将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换，只保留相位谱信息，经傅立叶反变换获得像素显著度图。

3.根据权利要求1或2所述的模拟人类视觉的图像分割方法，其特征在于：所述随机采样针对的像素所具有的梯度值大于其所在区域的平均梯度值。