CN105023016B - 基于压缩感知分类的目标感知方法 - Google Patents
基于压缩感知分类的目标感知方法 Download PDFInfo
- Publication number
- CN105023016B CN105023016B CN201510377145.8A CN201510377145A CN105023016B CN 105023016 B CN105023016 B CN 105023016B CN 201510377145 A CN201510377145 A CN 201510377145A CN 105023016 B CN105023016 B CN 105023016B
- Authority
- CN
- China
- Prior art keywords
- pixel
- target
- area
- fixation object
- compressed sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于压缩感知分类的目标感知方法,包括以下各步骤:1)通过谱残差法对目标图像作显著性检测,得到相应的像素显著度图;2)对所述的像素显著度图中的显著点,依据显著度排序;3)选取前N个显著点作为注视点,包含这些注视点的最小矩形范围作为注视区域;4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;5)利用压缩感知分类器策略,得到一个二分类的像素分类模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。本发明根据人类视觉注视的过程,通过注视点排序和像素分类模型,来模拟人类视觉,对目标场景作快速有效注视,实现机器对目标场景的视觉感知。
Description
技术领域
本发明涉及人类视觉仿真技术领域,具体地讲是一种基于压缩感知分类的目标感知方法。
背景技术
随着信息技术的发展,计算机视觉已经被广泛应用于低层特征检测和描述、模式识别、人工智能推理和机器学习算法等领域。然而,传统的计算机视觉方法通常是任务驱动型,即需要限定许多条件,并根据实际任务来设计相应的算法,缺乏通用性;需要解决高维非线性特征空间、超大数据量对问题求解和实时处理等问题,使得其研究和应用面临巨大的挑战。
人类视觉系统能够在不同环境下高效、可靠地工作,其具有以下优点:具有关注机制、显著性检测和与此相关的视觉处理中的选择性和目的性;能够从低层视觉处理中利用先验知识,使数据驱动的自底向上处理与自顶向下的知识指导在视觉处理中相互协调配合;上下境信息在视觉处理的各个层次都发挥着重要作用,并且能够综合利用环境中各种模态的信息。但在人类视觉感知机理尚不完全明了的情况下,如何构造具有人类视觉特点的机器视觉仍存在较大困难,若能够构建模拟人类视觉的机器视觉系统,以此来对目标场景进行感知,则必然会给目标的识别和感知等应用带来重要的影响。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种能够模拟人类视觉的基于压缩感知分类的目标感知方法,通过模拟人类主动视觉行为、对目标场景作快速有效注视,实现机器对目标场景的视觉感知。
本发明的技术解决方案是,提供以下步骤的基于压缩感知分类的目标感知方法,包括以下各步骤:
1)通过谱残差法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,包含这些注视点的最小矩形范围作为注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用压缩感知分类器策略,得到一个二分类的像素分类模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
采用本发明的方法,与现有技术相比,本发明具有以下优点:通过谱残差法进行显著性检测,能够快速形成像素显著度图;依据显著度排序像素,可粗略定位显著度高的注视区域;对该区域内部和外部同时进行少量像素采样,组成正负样本数据集,并作为一个完备字典提供给压缩感知分类模型,随后借助该模型分类像素,能获得显著度高的、更精确的区域作为第一注视目标区;且可建立第一注视目标区的基础上,适当扩大显著度高的注视区域范围,再次构建一个完备字典,经压缩感知分类模型分类形成相应的注视目标区,并与第一注视目标区进行比较,以判断注视目标区是否稳定。本发明根据人类视觉注视的过程,通过注视点排序和像素分类模型,来模拟人类视觉,对目标场景作快速有效注视,实现机器对目标场景的视觉感知。
作为改进,选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二注视目标区;比较第一注视目标区和第二注视目标区的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上述过程所有注视目标区的叠加。该设计能够加快视觉感知目标的生成与输出,并得到更为稳定的注视目标区,注视的结果更为可靠。
作为改进,获得注视目标区后,获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注视目标区,依次获得图像中的多个目标区。这样能够完成对整幅图像的有效信息进行注视识别和读取,提高注视的准确性和完整度。
作为改进,所述的谱残差法是指通过傅立叶变换,只保留幅度谱的残差和相位谱信息,经傅立叶反变换获得像素显著度图;并通过扰动目标图像尺度,得到目标图像在不同尺度下的多个显著度图,再将这些显著度图缩放到同一尺度进行叠加。该设计用于解决现有技术对图像尺度变化敏感的问题,可有效地提高显著度图的信噪比,增强谱残差法的适应性。
附图说明
图1为本发明基于压缩感知分类的目标感知方法的流程图。
具体实施方式
下面就具体实施例对本发明作进一步说明,但本发明并不仅仅限于这些实施例。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。此外,本发明之附图中为了示意的需要,并没有完全精确地按照实际比例绘制,在此予以说明。
如图1所示,本发明的基于压缩感知分类的目标感知方法,包括以下各步骤:
1)通过谱残差法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,包含这些注视点的最小矩形范围作为注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用压缩感知分类器策略,得到一个二分类的像素分类模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区。
对目标场景的感知,图像相当于人类视觉所注视的场景,无论场景大小,在视网膜上成像的范围的不变的,因而图像之于机器视觉也是如此。
通过与其他显著性检测方法比较,谱残差法的计算速度很快。本文用该类算法作为图像感兴趣区域的自动检测工具。通过谱残差法对目标图像作显著性检测的具体步骤如下:
对于给定的待感知图像I(x)(此处x表示像素坐标向量),首先对其进行二维离散傅里叶变换F[I(x)],将图像由空间域转换到频域,得到幅值A(f)和相位P(f)信息:
A(f)=|F[I(x)]| (1)
接着对幅值取对数,得到log谱L(f):
L(f)=log(A(f)) (3)
式中F表示二维离散傅里叶变换,|.|表示幅值运算,表示相位运算。由于log曲线满足局部线性条件,所以用局部平均滤波器hn(f)对其进行平滑,获得log谱的大致形状:
V(f)=L(f)*hn(f) (4)
其中hn(f)是一个n×n的矩阵(本实施例实验中n=3。),定义如下:
谱残差R(f)则是对图像中的突变区域的描述:
R(f)=L(f)-V(f) (6)
通过傅里叶逆变换,可以在空间域得到显著度图像。
S(x)=|F-1[exp{R(f)+jP(f)}]|2 (7)
显著度图上每点的值表示该位置的显著度。考虑到人眼视觉的局部成组效应,为了消除少数孤立的显著点,得到更好的视觉效果,我们在得到S(x)后再用平均滤波器进行一次平滑,得到最终的显著度图Z(x)。
Z(x)=S(x)*hn(f) (8)
谱残差算法对像素的操作是一种批处理,算法简单、快速、易实现,且对于噪声具有一定的鲁棒性。
图1中,涉及训练数据、分类模型、完备字典、结果等均为采用压缩感知分类器训练策略相应实施过程。利用压缩感知分类器策略,得到一个二分类的像素分类模型,具体实施过程如下:
1)建立训练样本矩阵
压缩感知分类技术的核心可简述为:用训练样本的基矩阵来获得测试样本的线性表示。首先依据正负两类像素样本的特征向量Bj构成训练样本矩阵,即:
B=[B1B2B3...Bv] (9)
其中,v为训练样本个数,矩阵B被称为完备字典。
2)对测试样本进行稀疏分解
将测试样本像素z表示为关于B的线性表示,即下式,
其中,z在B中各训练样本上的投影系数为
由压缩感知和稀疏表示理论可以得出,若是稀疏的,则可通过L1范数意义下的最小化过程来求解,如下式,
因此,当已知z和B的情况下,可依据公式(12)做L1范数意义下的稀疏化矩阵分解。理想情形下,测试样本z在它所属的类别上的投影系数不为零,而在其他类别上的投影系数均为零。
3)对测试样本进行分类识别
假设z属于第j类,则只用中的第j类样本的投影系数来重构一次测试样本
求测试样本z与重构样本的最小残差对应的类别,即被测样本的预测类别。
压缩感知分类的优点是:a)不过分依赖于参数模型,有效避免了由于知识的不精确和不完整带来的误差。b)算法无需对分类器进行训练,直接用训练样本作为完备字典,降低了对程序与设备的需求,可加快程序运行速度。
为了优化本发明,采用分类器多次分类像素方式获得稳定的注视目标区。框图中则体现为判断是否存在稳定的输出。因此需要形成进一步的目标区:
选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二注视目标区;比较第一注视目标区和第二注视目标区的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上述过程所有注视目标区的叠加。
获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注视目标区,依次获得图像中的多个目标区。这样便可从图中分割出所有有效注视区域的信息,构建了模拟人类视觉的机器视觉。
所述的谱残差法是指目标图像通过二维傅立叶变换后,只保留幅度谱残差和相位谱信息,经傅立叶反变换获得像素显著度图。然而原谱残差法对图像尺度变化比较敏感,检测得到的显著图随图像尺度变化而改变。为了克服这种问题,一种改进策略是通过扰动源图像尺度,得到同一源图像在不同尺度下的k个显著度图;再将这些显著度图缩放到同一尺度进行叠加,具体如下式:
根据统计学原理,若图像中存在随机噪声,则显著图叠加可明显降低噪声影响,增加显著度高区域的信噪比。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。
Claims (3)
1.一种基于压缩感知分类的目标感知方法,其特征在于:包括以下步骤:
1)通过谱残差法对目标图像作显著性检测,得到相应的像素显著度图,所述像素显著度图与所述目标图像的像素位置信息一致;
2)对所述的像素显著度图中的显著点,依据显著度进行排序;
3)选取前N个显著点作为注视点,包含这些注视点的最小矩形范围作为注视区域;
4)对所述的注视区域内部像素进行随机采样,并对注视区域外部进行等量的像素随机采样;采样得到的注视区域内部像素作为正样本,注视区域外部像素作为负样本;
5)利用压缩感知分类器策略,得到一个二分类的像素分类模型,通过该模型分类所述目标图像的全部像素,将被分为正样本的像素区域作为第一注视目标区;
选取前N+M个显著点作为注视点,依照步骤3)形成注视区域,再经步骤4)和5)得到相应的第二注视目标区;
比较第一注视目标区和第二注视目标区的重叠程度,重叠程度大则表明对目标的视觉感知强度大;重叠程度小则表明还未形成足够的对目标的视觉感知强度,继续重复上述过程,直至达到足够的视觉感知强度,最终的注视目标区为上述过程所有注视目标区的叠加。
2.根据权利要求1所述的基于压缩感知分类的目标感知方法,其特征在于:获得注视目标区后,在目标图像和像素显著度图中该区域被清零,对更新后的像素显著度图中的显著点,依据显著度再次排序,重复步骤3)、4)和5),得到新的注视目标区,依次获得图像中的多个目标区。
3.根据权利要求1或2所述的基于压缩感知分类的目标感知方法,其特征在于:所述的谱残差法是指目标图像通过傅立叶变换,只保留幅度谱残差和相位谱信息,经傅立叶反变换获得像素显著度图;并通过扰动源图像尺度,得到同一源图像在不同尺度下的多个显著度图,再将这些显著度图缩放到同一尺度进行叠加。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377145.8A CN105023016B (zh) | 2015-06-25 | 2015-06-25 | 基于压缩感知分类的目标感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377145.8A CN105023016B (zh) | 2015-06-25 | 2015-06-25 | 基于压缩感知分类的目标感知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105023016A CN105023016A (zh) | 2015-11-04 |
CN105023016B true CN105023016B (zh) | 2018-08-28 |
Family
ID=54412971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510377145.8A Active CN105023016B (zh) | 2015-06-25 | 2015-06-25 | 基于压缩感知分类的目标感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105023016B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573472B (zh) * | 2018-04-18 | 2022-05-24 | 中国计量大学 | 利用最小熵判断视觉感知饱和的图像自适应缩小方法 |
CN108958000B (zh) * | 2018-09-17 | 2019-06-21 | 电子科技大学 | 一种基于分类学习与二分法的光学扫描全息自聚焦方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980248A (zh) * | 2010-11-09 | 2011-02-23 | 西安电子科技大学 | 基于改进视觉注意力模型的自然场景目标检测方法 |
US7940985B2 (en) * | 2007-06-06 | 2011-05-10 | Microsoft Corporation | Salient object detection |
CN104240256A (zh) * | 2014-09-25 | 2014-12-24 | 西安电子科技大学 | 一种基于层次化稀疏建模的图像显著性检测方法 |
-
2015
- 2015-06-25 CN CN201510377145.8A patent/CN105023016B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7940985B2 (en) * | 2007-06-06 | 2011-05-10 | Microsoft Corporation | Salient object detection |
CN101980248A (zh) * | 2010-11-09 | 2011-02-23 | 西安电子科技大学 | 基于改进视觉注意力模型的自然场景目标检测方法 |
CN104240256A (zh) * | 2014-09-25 | 2014-12-24 | 西安电子科技大学 | 一种基于层次化稀疏建模的图像显著性检测方法 |
Non-Patent Citations (4)
Title |
---|
A Model of Saliency-Based Visual Attention for Rapid Scene Analysis;L.Itti;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;19981130;第20卷(第11期);第1254页右栏第16行-20行、第1254页右栏第41行、第1255页左栏第1-14行,第1225页右栏第36-38行 * |
Saliency Detection: A Spectral Residual Approach;Xiaodi Hou;《Computer Vision and Pattern Recognition(CVPR),2007IEEE Conference on》;20070716;全文 * |
压缩感知稀疏识别用于多视角图像目标分类;刘佶鑫 等;《应用科学学报》;20130331;第31卷(第2期);第178页左栏第4-6行 * |
模拟人类视觉的自动图像分割技术研究;侯庆岑;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150215;第I138-932-15页、16页、17页、28页、35页、36页、图3.1 * |
Also Published As
Publication number | Publication date |
---|---|
CN105023016A (zh) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107123111B (zh) | 一种用于手机屏幕缺陷检测的深度残差网络构造方法 | |
KR102384269B1 (ko) | 반도체 표본의 딥 러닝 - 기반 검사의 방법 및 그 시스템 | |
CN106875373B (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN104023230B (zh) | 一种基于梯度关联性的无参考图像质量评价方法 | |
CN111898523A (zh) | 一种基于迁移学习的遥感图像特种车辆目标检测方法 | |
CN104680542B (zh) | 基于在线学习的遥感影像变化检测方法 | |
CN104992183B (zh) | 自然场景中的显著目标的自动检测方法 | |
CN110490212A (zh) | 钼靶影像处理设备、方法和装置 | |
CN106780546B (zh) | 基于卷积神经网络的运动模糊编码点的身份识别方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN104657717A (zh) | 一种基于分层核稀疏表示的行人检测方法 | |
CN104680185B (zh) | 基于边界点重分类的高光谱图像分类方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN106097290A (zh) | 基于nmf图像融合的sar图像变化检测方法 | |
Mikeš et al. | Benchmarking of remote sensing segmentation methods | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN105023016B (zh) | 基于压缩感知分类的目标感知方法 | |
CN111275126A (zh) | 样本数据集生成方法、装置、设备及存储介质 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN114140373A (zh) | 一种基于LabVIEW深度学习的开关缺陷检测方法 | |
CN109284752A (zh) | 一种车辆的快速检测方法 | |
CN105528791B (zh) | 一种面向触摸屏手绘图像的质量评价装置及其评价方法 | |
CN104933435B (zh) | 基于模拟人类视觉的机器视觉构建方法 | |
CN116597275A (zh) | 一种基于数据增强的高速移动目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |