CN104933435A - 基于模拟人类视觉的机器视觉构建方法 - Google Patents

基于模拟人类视觉的机器视觉构建方法 Download PDF

Info

Publication number
CN104933435A
CN104933435A CN201510377168.9A CN201510377168A CN104933435A CN 104933435 A CN104933435 A CN 104933435A CN 201510377168 A CN201510377168 A CN 201510377168A CN 104933435 A CN104933435 A CN 104933435A
Authority
CN
China
Prior art keywords
fixation
pixel
vision
significance
fixation object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510377168.9A
Other languages
English (en)
Other versions
CN104933435B (zh
Inventor
潘晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN201510377168.9A priority Critical patent/CN104933435B/zh
Publication of CN104933435A publication Critical patent/CN104933435A/zh
Application granted granted Critical
Publication of CN104933435B publication Critical patent/CN104933435B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模拟人类视觉的机器视觉构建方法,包括以下各步骤:1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图;2)对所述的像素显著度图中的显著点,依据显著度排序;3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;5)利用极限学习机训练策略,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。本发明根据人类视觉注视的过程,通过注视点排序和神经网络模型,来模拟人类主动视觉过程,以构建具有对目标场景快速有效注视的机器视觉。

Description

基于模拟人类视觉的机器视觉构建方法
技术领域
本发明涉及人类视觉构建技术领域,具体地讲是一种基于模拟人类视觉的机器视觉构建方法。
背景技术
随着信息技术的发展,计算机视觉已经被广泛应用于低层特征检测和描述、模式识别、人工智能推理和机器学习算法等领域。然而,传统的计算机视觉方法通常是任务驱动型,即需要限定许多条件,并根据实际任务来设计相应的算法,缺乏通用性;需要解决高维非线性特征空间、超大数据量对问题求解和实时处理等问题,使得其研究和应用面临巨大的挑战。
人类视觉系统能够在不同环境下高效、可靠地工作,其具有以下优点:具有关注机制、显著性检测和与此相关的视觉处理中的选择性和目的性;能够从低层视觉处理中利用先验知识,使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配合;上下境信息在视觉处理的各个层次都发挥着重要作用,并且能够综合利用环境中各种模态的信息。但在人类视觉感知机理尚不完全明了的情况下,如何构造具有人类视觉特点的机器视觉仍存在较大困难,若能够构建模拟人类视觉的机器视觉系统,必然会给计算机视觉的各个实际应用领域带来重要的影响。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种能够模拟人类视觉的机器视觉构建方法,通过模拟人类主动视觉行为、对目标场景作快速有效注视,实现机器对目标场景的视觉感知。
本发明的技术解决方案是,提供以下步骤的基于模拟人类视觉的机器视觉构建方法,包括以下各步骤:
1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
采用本发明的方法,与现有技术相比,本发明具有以下优点:通过频域法进行显著性检测,能够快速形成像素显著度图;依据显著度排序像素,可粗略定位显著度高的注视区域;对该区域内部和外部同时进行少量像素采样,组成正负样本数据集训练前馈神经网络,随后借助该神经网络分类像素,能获得显著度高的、更精确的区域作为第一注视目标区;且可建立第一注视目标区的基础上,适当扩大显著度高的注视区域范围,再次经神经网络学习-分类形成相应的注视目标区,并与第一注视目标区进行比较,以判断注视目标区是否稳定。本发明根据人类视觉注视的过程,通过注视点排序和神经网络模型,来模拟人类视觉,以构建具有对目标场景快速有效注视的机器视觉。
作为改进,选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二注视目标区;比较第一注视目标区和第二注视目标区的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上述过程所有注视目标区的叠加。该设计能够加快视觉感知目标的生成与输出,并得到更为稳定的注视目标区,注视的结果更为可靠。
作为改进,获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注视目标区,依次获得图像中的多个目标区。这样能够完成对整幅图像的有效信息进行注视识别和读取,提高注视的准确性和完整度。
作为改进,所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题,有效地针对彩色图像相应地改进了频域法的具体步骤。
附图说明
图1为本发明基于模拟人类视觉的机器视觉构建方法的流程图。
具体实施方式
下面就具体实施例对本发明作进一步说明,但本发明并不仅仅限于这些实施例。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外,本发明之附图中为了示意的需要,并没有完全精确地按照实际比例绘制,在此予以说明。
如图1所示,本发明的基于模拟人类视觉的机器视觉构建方法,包括以下各步骤:
1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
对于机器视觉构建来说,图像相当于人类视觉所注视的场景,无论场景大小,在视网膜上成像的范围是不变的,因而图像之于机器之于机器视觉也是如此。
通过频域法对目标图像作显著性检测,可采用以下步骤实施:对待目标图像I(i,j)进行二维离散傅里叶变换F[I(i,j)],将图像由空间域转换到频域,得到相位P(u,v)信息:
式中F表示二维离散傅里叶变换,表示相位运算。将相位信息经傅里叶逆变换后,可以在空间域得到显著度图像Sa_Map。
Sa_Map(i,j)=|F-1[exp{jP(u,v)}]|2    (2)
图1中,涉及训练数据、分类模型、结果等均为采用极限学习机训练策略相应实施过程。具体实施过程如下:
极限学习机(ELM)是一种单隐层前馈神经网络(Single-hidden layer feedforwardnetworks,SLFNs)。对一个给定的训练样本集有L个隐层结点的SLFNs表示为:
f L ( x j ) = Σ i = 1 L β i K ( α i , b i , x j ) = t j , j = 1 , . . . , N - - - ( 3 )
其中αi和bi是隐结点与输入结点的连接参数(内权),内权可独立于训练数据的随机产生。K(αi,bi,xj)是第i个隐结点对应于输入的输出项。βi是第i个隐结点到输出结点的连接权值(外权)。如果已知给定的训练样本,且已知随机产生的内权,则K(αi,bi,xj)可计算;公式(3)成为一个线性系统,只有βi是未知项,可通过线性代数方法求解。
基于上述原理,在给定训练集下,单隐层反馈神经网络的性能完全由其隐层结点与输出结点的连接权值(外权)确定,而与输入端与隐层结点的连接权值、偏移值等(内权)无关。由此能用数学手段解得关键连接权值的解析解而非迭代近似解,从而使得ELM算法本质上最优,避免了基于梯度下降法迭代求解的神经网络出现局部极小的情况。由于无需迭代运算,使得学习速度数百倍于传统神经网络。
ELM只有一个可调参数——隐节点数量。只要该参数相对于具体问题而言取值足够大,就能保证算法的逼近能力。这样的特性使我们能避免参数寻优问题的困扰,从而集中注意力获取合适的训练样本。同时,增加样本数据的维度变得很容易,可以考虑不同模态的属性(颜色、梯度、邻域、纹理、位置、深度、差别和上下境信息等)。避免了传统机器学习算法在线训练需合理设置参数的困难问题。
为了优化本发明,克服ELM内权随机产生导致的分类性能不稳定问题,采用多个分类器的结果集成方式获得稳定的注视目标区。框图中则体现为判断是否存在稳定的输出。因此需要形成进—步的目标区:
选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二注视目标区;比较第一注视目标区和第二注视目标区的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上述过程所有注视目标区的叠加。
获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注视目标区,依次获得图像中的多个目标区。这样便可从图中分割出所有有效注视区域的信息,构建了模拟人类视觉的机器视觉。
所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获得像素显著度图。该设计用于解决现有技术仅能处理黑白图像识别的问题,有效地针对彩色图像相应地改进了频域法的具体步骤。
超复数由四个部分组成,表示为
q=a+bi+cj+dk    (4)
其中a,b,c,d都是实数,i,j,k都是虚数单位,且具有以下性质:i2=j2=k2=ijk=-1,ij=—ji=k,ki=-ik=j,jk=-kj=i。
彩色图像的RGB模型可以描述为没有实部的纯超复数:
f=R(m,n)i+G(m,n)j+B(m,n)k    (5)
其中R(m,n),G(m,n),B(m,n)分别表示图像红绿蓝三个分量。若q=f,则a=0,b=R(m,n),c=G(m,n),d=B(m,n)。对构造好的彩色矢量可按照式(6)进行超复数傅里叶变换:
FR(v,u)=(real(fft2(a))+μ·imag(fft2(a)))+
i(real(fft2(b))+μ·imag(fft2(b)))+    (6)
j(real(fft2(c))+μ·imag(fft2(c)))+
k(real(fft(d))+μ·imag(fft2(d)))
其中,fft2()表示传统二维傅里叶变换,real()表示取实部,imag()表示取虚部。
为单位虚向量。此处,只需取FR(v,u)的相位谱P(f):
令:A=ejP(f)    (8)
利用传统二维快速傅里叶逆变换(ifft2)组合可以得到超复数傅里叶逆变换,如式(9):
F-R(v,u)=(real(ifft2(A))+μ·imag(ifft2(A)))+
i(real(ifft2(B))+μ·imag(ifft2(B)))+    (9)
j(real(ifft2(C))+μ·imag(ifft2(C)))+
k(real(ifft2(D))+μ·imag(ifft2(D)))
其中,B=fft2(b),C=fft2(c),D=fft2(d)。
Real(F-R(v,u))即为求得的显著图。由于彩色像素在数据处理前后的整体性得到了保持,从而避免了由于矢量分量的变换或交换引起的色彩失真。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims (4)

1.一种基于模拟人类视觉的机器视觉构建方法,其特征在于:包括以下步骤:
1)通过频域法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,以每个注视点为中心,形成信息熵最大的局部区域,这些局部区域组成注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用极限学习机训练策略,训练得到一个二分类的前馈神经网络模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
2.根据权利要求1所述的基于模拟人类视觉的机器视觉构建方法,其特征在于:选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二注视目标区;
比较第一注视目标区和第二注视目标区的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上述过程所有注视目标区的叠加。
3.根据权利要求1所述的基于模拟人类视觉的机器视觉构建方法,其特征在于:获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注视目标区,依次获得图像中的多个目标区。
4.根据权利要求1或2所述的基于模拟人类视觉的机器视觉构建方法,其特征在于:所述的频域法是指通过超复数傅立叶变换,将彩色图像中的红、绿、蓝三个分量作为超复数的三个虚部参与傅立叶变换,只保留相位谱信息,经傅立叶反变换获得像素显著度图。
CN201510377168.9A 2015-06-25 2015-06-25 基于模拟人类视觉的机器视觉构建方法 Expired - Fee Related CN104933435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510377168.9A CN104933435B (zh) 2015-06-25 2015-06-25 基于模拟人类视觉的机器视觉构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510377168.9A CN104933435B (zh) 2015-06-25 2015-06-25 基于模拟人类视觉的机器视觉构建方法

Publications (2)

Publication Number Publication Date
CN104933435A true CN104933435A (zh) 2015-09-23
CN104933435B CN104933435B (zh) 2018-08-28

Family

ID=54120595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510377168.9A Expired - Fee Related CN104933435B (zh) 2015-06-25 2015-06-25 基于模拟人类视觉的机器视觉构建方法

Country Status (1)

Country Link
CN (1) CN104933435B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169958A (zh) * 2017-05-08 2017-09-15 中国计量大学 机器学习、背景抑制与感知正反馈相结合的视觉显著性检测方法
CN112307932A (zh) * 2020-10-27 2021-02-02 上海交通大学 一种参数化全场视觉振动模态分解方法
CN112418296A (zh) * 2020-11-18 2021-02-26 中国科学院上海微系统与信息技术研究所 基于人眼视觉注意机制的仿生双眼目标识别与跟踪方法
CN114445275A (zh) * 2021-09-03 2022-05-06 中国计量大学 一种图像极限缩小导致视觉感知饱和现象的判断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980248A (zh) * 2010-11-09 2011-02-23 西安电子科技大学 基于改进视觉注意力模型的自然场景目标检测方法
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
CN102945378A (zh) * 2012-10-23 2013-02-27 西北工业大学 一种基于监督方法的遥感图像潜在目标区域检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
CN101980248A (zh) * 2010-11-09 2011-02-23 西安电子科技大学 基于改进视觉注意力模型的自然场景目标检测方法
CN102945378A (zh) * 2012-10-23 2013-02-27 西北工业大学 一种基于监督方法的遥感图像潜在目标区域检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAODI HOU: "Saliency Detection: A Spectral Residual Approach", 《COMPUTER VISION AND PATTERN RECOGNITION(CVPR),2007IEEE CONFERENCE ON》 *
侯庆岑: "模拟人类视觉的自动图像分割技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
潘晨 等: "基于空间和时间差别采样的彩色图像分割", 《计算机工程》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169958A (zh) * 2017-05-08 2017-09-15 中国计量大学 机器学习、背景抑制与感知正反馈相结合的视觉显著性检测方法
CN107169958B (zh) * 2017-05-08 2022-01-25 中国计量大学 机器学习、背景抑制与感知正反馈相结合的视觉显著性检测方法
CN112307932A (zh) * 2020-10-27 2021-02-02 上海交通大学 一种参数化全场视觉振动模态分解方法
CN112307932B (zh) * 2020-10-27 2023-02-17 上海交通大学 一种参数化全场视觉振动模态分解方法
CN112418296A (zh) * 2020-11-18 2021-02-26 中国科学院上海微系统与信息技术研究所 基于人眼视觉注意机制的仿生双眼目标识别与跟踪方法
CN112418296B (zh) * 2020-11-18 2024-04-02 中国科学院上海微系统与信息技术研究所 基于人眼视觉注意机制的仿生双眼目标识别与跟踪方法
CN114445275A (zh) * 2021-09-03 2022-05-06 中国计量大学 一种图像极限缩小导致视觉感知饱和现象的判断方法

Also Published As

Publication number Publication date
CN104933435B (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN110619282B (zh) 一种无人机正射影像建筑物自动提取方法
US11544522B2 (en) Methods, systems, and computer readable mediums for determining a system state of a power system using a convolutional neural network
CN108038445B (zh) 一种基于多视角深度学习框架的sar自动目标识别方法
CN104992452A (zh) 基于热成像视频的飞行目标自动跟踪方法
CN112465111A (zh) 一种基于知识蒸馏和对抗训练的三维体素图像分割方法
CN106874688A (zh) 基于卷积神经网络的智能化先导化合物发现方法
CN104933435A (zh) 基于模拟人类视觉的机器视觉构建方法
CN113313180B (zh) 一种基于深度对抗学习的遥感图像语义分割方法
CN104992183A (zh) 自然场景中的显著目标的自动检测方法
CN104933691A (zh) 基于相位谱视觉显著性检测的图像融合方法
Chen et al. Agricultural remote sensing image cultivated land extraction technology based on deep learning
CN116343053B (zh) 基于光学遥感影像和sar遥感影像融合的固废自动提取方法
CN113284046A (zh) 基于无高分辨率参考图的遥感图像增强和复原方法及网络
CN117933095B (zh) 一种基于机器学习的地表发射率实时反演及同化方法
CN104933725A (zh) 模拟人类视觉的图像分割方法
CN104933724A (zh) 实蝇磁共振图像的自动图像分割方法
CN105005788A (zh) 仿真人类低层视觉的目标感知方法
Wang et al. LLNet: Lightweight network with a channel and spatial attention mechanism for local climate zone classification from Sentinel-2 image
Zhang et al. SE-EDSR: A Deep Learning Method for Gas Distribution Mapping
CN105023016A (zh) 基于压缩感知分类的目标感知方法
Su et al. A sub-pixel mapping method based on logistic regression and pixel-swapping model
Yu et al. Land cover changes of bagua island with collaborative representation using multi-temporal satellite images
Li et al. Rural settlements extraction based on deep learning from high spatial resolution remote sensing imagery
Gu Automation disassembly sequence generation based on visual recognition and rules in remanufacturing
CN103810705B (zh) 基于判别随机场的无监督sar图像变化检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180828