CN104933725B - 模拟人类视觉的图像分割方法 - Google Patents

模拟人类视觉的图像分割方法 Download PDF

Info

Publication number
CN104933725B
CN104933725B CN201510377210.7A CN201510377210A CN104933725B CN 104933725 B CN104933725 B CN 104933725B CN 201510377210 A CN201510377210 A CN 201510377210A CN 104933725 B CN104933725 B CN 104933725B
Authority
CN
China
Prior art keywords
pixel
segmentation result
image
watching area
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510377210.7A
Other languages
English (en)
Other versions
CN104933725A (zh
Inventor
潘晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN201510377210.7A priority Critical patent/CN104933725B/zh
Publication of CN104933725A publication Critical patent/CN104933725A/zh
Application granted granted Critical
Publication of CN104933725B publication Critical patent/CN104933725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模拟人类视觉的图像分割方法,包括以下各步骤:1)对目标图像作显著性检测,得到像素显著度图;2)对像素显著度图中的显著点,依据显著度排序;3)选取前N个显著点作为注视点,以注视点为中心,形成信息熵最大的局部区域,局部区域组成注视区域;4)对注视区域内随机采样,并对注视区域外部进行等量的像素随机采样;5)利用极限学习机训练策略获得分类模型,分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一分割结果;重复3‑5步骤获得重复的分割结果,当分割结果稳定时,记录该区域;重复2‑5步骤,直至图像中无可注视区域。本发明通过注视点排序和神经网络模型来模拟人类视觉,以实现对目标图像的分割。

Description

模拟人类视觉的图像分割方法
技术领域
本发明涉及人类视觉模拟技术领域,具体地讲是一种模拟人类视觉的图像分割方法。
背景技术
随着信息技术的发展,计算机视觉已经被广泛应用于低层特征检测和描述、模式识别、人工智能推理和机器学习算法等领域。然而,传统的计算机视觉方法通常是任务驱动型,即需要限定许多条件,并根据实际任务来设计相应的算法,缺乏通用性;需要解决高维非线性特征空间、超大数据量对问题求解和实时处理等问题,使得其研究和应用面临巨大的挑战。
人类视觉系统能够在不同环境下高效、可靠地工作,其具有以下优点:具有关注机制、显著性检测和与此相关的视觉处理中的选择性和目的性;能够从低层视觉处理中利用先验知识,使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配合;上下境信息在视觉处理的各个层次都发挥着重要作用,并且能够综合利用环境中各种模态的信息。但在人类视觉感知机理尚不完全明了的情况下,如何构造具有人类视觉特点的机器视觉仍存在较大困难,若能够构建模拟人类视觉的机器视觉系统,以此来对目标场景的显著性信息进行提取和分割,则必然会给计算机视觉应用领域带来重要的影响。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种模拟人类主动视觉行为、对目标场景作快速有效注视,从而实现图像自动分割的有效方法。
本发明的技术解决方案是,提供以下步骤的模拟人类视觉的图像分割方法,包括以下各步骤:
1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一分割结果;
选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二分割结果;
比较第一分割结果和第二分割结果的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的分割结果为上述过程所有分割结果的叠加。
获得最终的分割结果后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的分割结果,直至目标图像中的所有目标分割完毕。
采用本发明的方法,与现有技术相比,本发明具有以下优点:通过频域法进行显著性检测,能够快速形成像素显著度图;依据显著度排序像素,可粗略定位显著度高的注视区域;对该区域内部和外部同时进行少量像素采样,组成正负样本数据集训练前馈神经网络,随后借助该神经网络分类像素,能获得显著度高的、更精确的区域作为第一分割结果;且可建立第一分割结果的基础上,适当扩大显著度高的注视区域范围,再次经神经网络学习-分类形成相应的分割结果,并与第一分割结果进行比较,以判断分割结果是否稳定。本发明根据人类视觉注视的过程,通过注视点排序和像素分类模型,来模拟人类视觉,对目标场景作快速有效注视,实现机器对目标场景的视觉感知,并从图像中予以分割。
作为改进,所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获得像素显著度图。并可通过扰动源图像尺度,得到同一源图像在不同尺度下的多个显著度图,再将这些显著度图缩放到同一尺度进行叠加。该设计用于解决现有技术仅能处理黑白图像识别的问题,有效地针对彩色图像相应地改进了频域法的具体步骤;能提高像素显著度图的信噪比,解决现有技术对图像尺度变化敏感的问题。
作为改进,所述随机采样针对的像素所具有的梯度值大于其所在区域的平均梯度值。根据梯度值大处的图像区域对应的信息熵也大的特点,可获取最具信息量的、所感知的目标区域样本。
附图说明
图1为本发明模拟人类视觉的图像分割方法的流程图。
具体实施方式
下面就具体实施例对本发明作进一步说明,但本发明并不仅仅限于这些实施例。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外,本发明之附图中为了示意的需要,并没有完全精确地按照实际比例绘制,在此予以说明。
如图1所示,本发明的模拟人类视觉的图像分割方法,包括以下各步骤:
1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一分割结果;
选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二分割结果;
比较第一分割结果和第二分割结果的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的分割结果为上述过程所有分割结果的叠加;
获得最终的分割结果后,在目标图像和像素显著度图中该区域被清零(更新),对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的分割结果,直至目标图像中的所有目标分割完毕。
对目标场景的感知,图像相当于人类视觉所注视的场景,无论场景大小,在视网膜上成像的范围的不变的,因而图像之于机器视觉也是如此。
通过频域法对目标图像作显著性检测,可采用以下步骤实施:对待目标图像I(i,j)进行二维离散傅里叶变换F[I(i,j)],将图像由空间域转换到频域,得到相位P(u,v)信息:
式中F表示二维离散傅里叶变换,表示相位运算。将相位信息经傅里叶逆变换后,可以在空间域得到显著度图像Sa_Map。
Sa_Map(i,j)=|F-1[exp{jP(u,v)}]|2 (2)
图1中,涉及训练数据、分类模型、结果等均为采用极限学习机训练策略相应实施过程。具体实施过程如下:
极限学习机(ELM)是一种单隐层前馈神经网络(Single-hidden layerfeedforward networks,SLFNs)。对一个给定的训练样本集有L个隐层结点的SLFNs表示为:
其中αi和bi是隐结点与输入结点的连接参数(内权),内权可独立于训练数据的随机产生。K(αi,bi,xj)是第i个隐结点对应于输入的输出项。βi是第i个隐结点到输出结点的连接权值(外权)。如果已知给定的训练样本,且已知随机产生的内权,则K(αi,bi,xj)可计算;公式(3)成为一个线性系统,只有βi是未知项,可通过线性代数方法求解。
基于上述原理,在给定训练集下,单隐层反馈神经网络的性能完全由其隐层结点与输出结点的连接权值(外权)确定,而与输入端与隐层结点的连接权值、偏移值等(内权)无关。由此能用数学手段解得关键连接权值的解析解而非迭代近似解,从而使得ELM算法本质上最优,避免了基于梯度下降法迭代求解的神经网络出现局部极小的情况。由于无需迭代运算,使得学习速度数百倍于传统神经网络。
ELM只有一个可调参数——隐节点数量。只要该参数相对于具体问题而言取值足够大,就能保证算法的逼近能力。这样的特性使我们能避免参数寻优问题的困扰,从而集中注意力获取合适的训练样本。同时,增加样本数据的维度变得很容易,可以考虑不同模态的属性(颜色、梯度、邻域、纹理、位置、深度、差别和上下境信息等)。避免了传统机器学习算法在线训练需合理设置参数的困难问题。
为了优化本发明,克服ELM内权随机产生导致的分类性能不稳定问题,采用多个分类器的结果集成方式获得稳定的分割结果。框图中则体现为判断是否存在稳定的输出。因此需要形成进一步的分割结果。框图中则体现为判断是否存在稳定的输出。
所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题,有效地针对彩色图像相应地改进了频域法的具体步骤。
超复数由四个部分组成,表示为
q=a+bi+cj+dk (4)
其中a,b,c,d都是实数,i,j,k部是虚数单位,且具有以下性质:i2=j2=k2=ijk=-1,ij=-ji=k,ki=-ik=j,jk=-kj=i。
彩色图像的RGB模型可以描述为没有实部的纯超复数:
f=R(m,n)i+G(m,n)j+B(m,n)k (5)
其中R(m,n),G(m,n),B(m,n)分别表示图像红绿蓝三个分量。若q=f,则a=0,b=R(m,n),c=G(m,n),d=B(m,n)。对构造好的彩色矢量可按照式(6)进行超复数傅里叶变换:
FR(v,u)=(real(fft2(a))+μ·imag(fft2(a)))+
i(real(fft2(b))+μ·imag(fft2(b)))+ (6)
j(real(fft2(c))+μ·imag(fft2(c)))+
k(real(fft(d))+μ·imag(fft2(d)))
其中,fft2()表示传统二维傅里叶变换,real()表示取实部,imag()表示取虚部。为单位虚向量。此处,只需取FR(v,u)的相位谱P(f);
令:A=ejP(f) (8)
利用传统二维快速傅里叶逆变换(ifft2)组合可以得到超复数傅里叶逆变换,如式(9):
F-R(v,u)=(real(ifft2(A))+μ·imag(ifft2(A)))+
i(real(ifft2(B))+μ·imag(ifft2(B)))+ (9)
j(real(ifft2(C))+μ·imag(ifft2(C)))+
k(real(ifft2(D))+μ·imag(ifft2(D)))
其中,B=fft2(b),C=fft2(c),D=fft2(d)。
Real(F-R(v,u))即为求得的显著图。由于彩色像素在数据处理前后的整体性得到了保持,从而避免了由于矢量分量的变换或交换引起的色彩失真。
相位谱法对图像尺度变化比较敏感,检测得到的显著图随图像尺度变化而改变。为了克服这种现象,一种改进策略是通过扰动源图像尺度,得到同一源图像在不同尺度下的k个显著度图;再将这些显著度图缩放到同一尺度进行叠加,具体如下式:
根据统计学原理,若图像中存在随机噪声,则显著图叠加可明显降低噪声影响,增加显著度高区域的信噪比。
所述随机采样针对的像素所具有的梯度值大于其所在区域的平均梯度值。对图像信息熵的研究表明,图像中有较高梯度的部分像素产生的信息熵大于源图像全体像素形成的信息熵。这是由于图像信息冗余导致的现象。鉴于此现象,为了获得注视区域内的最富信息量的、有代表性的像素样本,采样应针对高梯度像素进行。为了避免大量计算,一种有效的应对策略是:只针对注视区域内部梯度值大于该区域平均梯度值的像素进行随机采样。而注视区域外部的采样仍采取对全体像素随机采样方式。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims (3)

1.一种模拟人类视觉的图像分割方法,其特征在于:包括以下步骤:
1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一分割结果;
选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二分割结果;
比较第一分割结果和第二分割结果的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的分割结果为上述过程所有分割结果的叠加;
获得最终的分割结果后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的分割结果,直至目标图像中的所有目标分割完毕。
2.根据权利要求1所述的模拟人类视觉的图像分割方法,其特征在于:所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获得像素显著度图。
3.根据权利要求1或2所述的模拟人类视觉的图像分割方法,其特征在于:所述随机采样针对的像素所具有的梯度值大于其所在区域的平均梯度值。
CN201510377210.7A 2015-06-25 2015-06-25 模拟人类视觉的图像分割方法 Active CN104933725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510377210.7A CN104933725B (zh) 2015-06-25 2015-06-25 模拟人类视觉的图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510377210.7A CN104933725B (zh) 2015-06-25 2015-06-25 模拟人类视觉的图像分割方法

Publications (2)

Publication Number Publication Date
CN104933725A CN104933725A (zh) 2015-09-23
CN104933725B true CN104933725B (zh) 2018-05-04

Family

ID=54120879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510377210.7A Active CN104933725B (zh) 2015-06-25 2015-06-25 模拟人类视觉的图像分割方法

Country Status (1)

Country Link
CN (1) CN104933725B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169959B (zh) * 2017-05-08 2022-01-21 中国计量大学 一种背景抑制与视觉感知正反馈的白细胞检测方法
CN116188809B (zh) * 2023-05-04 2023-08-04 中国海洋大学 基于视觉感知与排序驱动的纹理相似性判别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
主动学习的白细胞图像自动分割;崔凤 等;《中国图像图形学报》;20120816(第08期);第1029-1034页 *
基于空间和时间差别采样的彩色图像分割;潘晨;《计算机工程》;20120705;第38卷(第13期);第199-204页 *
模拟人类视觉的自动图像分割技术研究;侯庆岑;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150215(第02期);第15-40页,及图4.4-4.10 *

Also Published As

Publication number Publication date
CN104933725A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104966085B (zh) 一种基于多显著特征融合的遥感图像感兴趣区域检测方法
CN104992183B (zh) 自然场景中的显著目标的自动检测方法
CN107909015A (zh) 基于卷积神经网络及空谱信息融合的高光谱图像分类方法
CN107944442A (zh) 基于改进卷积神经网络的对象检测装置及方法
CN104992452B (zh) 基于热成像视频的飞行目标自动跟踪方法
CN106599773A (zh) 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN107665492A (zh) 基于深度网络的结直肠全景数字病理图像组织分割方法
CN108573222A (zh) 基于循环对抗生成网络的行人图像遮挡检测方法
CN108053398A (zh) 一种半监督特征学习的黑色素瘤自动检测方法
CN107967474A (zh) 一种基于卷积神经网络的海面目标显著性检测方法
CN110728324A (zh) 基于深度复值全卷积神经网络的极化sar图像分类方法
CN104933691B (zh) 基于相位谱视觉显著性检测的图像融合方法
CN107463954A (zh) 一种模糊异谱图像的模板匹配识别方法
CN104021567B (zh) 基于首数字定律的图像高斯模糊篡改检测方法
CN110276363A (zh) 一种基于密度图估计的鸟类小目标检测方法
CN109636764A (zh) 一种基于深度学习与显著性检测的图像风格转移方法
CN110472699A (zh) 一种基于gan的电力场所有害生物运动模糊图像检测方法
Hosseinpoor et al. Convolutional neural network for building extraction from high-resolution remote sensing images
CN104933435B (zh) 基于模拟人类视觉的机器视觉构建方法
CN109784205A (zh) 一种基于多光谱巡检图像的杂草智能识别方法
CN106780468B (zh) 基于视觉感知正反馈的显著性检测方法
CN104933725B (zh) 模拟人类视觉的图像分割方法
CN105913451B (zh) 一种基于图模型的自然图像超像素分割方法
CN107169958A (zh) 机器学习、背景抑制与感知正反馈相结合的视觉显著性检测方法
CN107341449A (zh) 一种基于云块特征变化的静止气象卫星降水估算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant