CN107392211A

CN107392211A - 基于视觉稀疏认知的显著目标检测方法

Info

Publication number: CN107392211A
Application number: CN201710589218.9A
Authority: CN
Inventors: 王敏; 王勇
Original assignee: SUZHOU WENJIE SENSING TECHNOLOGY Co Ltd
Current assignee: SUZHOU WENJIE SENSING TECHNOLOGY Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-11-24
Anticipated expiration: 2037-07-19
Also published as: CN107392211B

Abstract

本发明公开了一种基于视觉稀疏认知的显著目标检测方法，通过根据人类视觉认知的稀疏特性，将显著性检测过程处理为图像背景与显著目标的重构误差过程，分别得到基于全局稀疏重构误差和基于局部稀疏误差重构的显著图，通过一种简单的结合方法将两幅显著图进行有效融合。弥补了现有方法没有利用到图像本身视觉信息的缺陷，提升了显著图的质量。

Description

基于视觉稀疏认知的显著目标检测方法

技术领域

本发明属于计算机技术领域，更进一步涉及计算机视觉技术领域中的一种基于视觉稀疏认知的显著目标检测方法。本发明可用于对自然图像的缩放、自然图像的背景渲染等诸多图像处理。

背景技术

视觉显著性目标检测的目的是让计算机模拟人类视觉注意机制来寻找场景中最引人注意的部分或区域。近些年，显著目标检测逐渐成为计算机视觉领域的研究热点，其研究主要致力于寻找使计算机智能地学习和检测出场景中最引人注意的区域的技术方法，通常应于用场景分析、图像缩放、背景渲染、内容传输等领域。

西安电子科技大学在其申请专利文献“基于稀疏表示和视皮层注意机制的目标检测方法”(专利申请号：CN201210001677，公开号：CN102567997A)中公开一种基于稀疏表示和视觉皮层注意机制的显著性检测方法。该方法通过使用规格大小不一的滤波器来对所输入的自然场景图像滤波，利用主分量分析方法来得到稀疏基，通过尺度不变性以及香农熵理论进一步构造用于显著目标检测的测度，从而得到显著图。该方法简单有效，虽然可以获得与原始图像相同分辨率的显著图，但仍存在的不足之处是，得到显著图的轮廓比较模糊，且采用主分量分析方法得到稀疏基并没有利用到图像的自身信息。

Borji A等人在其发表的论文“Exploiting local and global patch raritiesfor saliency detection”(Computer Vision and Pattern Recognition.IEEE,2012:478-485.)中公开一种基于稀疏表示的显著性检测方法。该方法首先对自然界中不用的图像进行分块，然后对得到的图像块进行学习，从而获得一个基于自然图像的字典，并对自然场景中的任意图像进行表示，再进行后续的显著度运算。该方法虽然能够大致地描述出显著目标的位置，但仍然存在的不足之处是，字典的选取并没有利用到图像自身的特征，如颜色、纹理等，因此，得到的显著图质量较差，且背景信息较为复杂。

发明内容

本发明针对上述方法的不足，提出一种新的基于视觉稀疏认知的显著目标检测方法，通过根据人类视觉认知的稀疏特性，将显著性检测过程处理为与图像背景信息与显著目标信息的重构误差过程，弥补了现有方法没有利用到图像本身视觉信息的缺陷。

实现本发明的具体思路是：首先，将原始图像分割成不同的超像素，并对所有超像素进行分类，将不属于某一特定类的超像素作为字典，得到一幅基于全局稀疏重构误差的显著图。其次，通过局部约束线性编码，得到一幅基于局部稀疏重构误差显著图。最后，通过一种简单的结合方法将两幅显著图进行有效融合，进而得到最终的显著图。

为了实现上述目的，本发明方法包括如下步骤：

(1)提取输入图像的特征向量：

(1a)输入一幅自然图像；

(1b)采用简单线性迭代聚类(SLIC)超像素分割方法，将输入的自然图像分割成不同的超像素；

(1c)分别求出每个超像素对应红绿蓝RGB空间和LAB空间的颜色特征的平均值；

(1d)将对应红绿蓝RGB空间和LAB空间的颜色特征得到的平均值，将其按照R,G,B,l,a,b的形式组合成向量，作为该超像素的颜色特征，其中R,G,B表示对应红绿蓝RGB空间的平均值，l,a,b表示对应LAB空间的平均值；

(1e)分别求出输入自然图像中每个超像素对应像素坐标位置的平均值；

(1f)将颜色特征和每个超像素对应像素坐标位置的平均值组成每个超像素的特征向量；

(2)获取全局稀疏重构误差的显著图：

(2a)将得到的所有超像素按照其对应的特征向量进行分类；

(2b)按照下式，计算某个固定超像素的基于全局稀疏重构误差值：

e_i＝||x_i-D_kα_i||₂

其中，e_i表示第i个超像素的重构误差值，||·||₂表示l-2范数操作，x_i表示属于第k类的超像素i的特征向量，D_k表示不属于第k类的其它所有超像素组成的字典，α_i表示第i个超像素的稀疏编码系数；

(2c)将得到的基于全局稀疏重构误差值归一化；

(2d)按照下式，计算加入中心先验后的基于全局稀疏重构误差值：

S_g(i)＝(1-d_i)×e_i

其中，S_g(i)表示第i个超像素基于全局稀疏重构误差的显著度值，d_i表示第i个超像素与图像中心归一化后的欧式距离，e_i表示第i个超像素的重构误差值；

(2e)对所有的超像素做相同的运算，将结果归一化在[0,1]之间；

(2f)将所有计算得到的显著值分别赋值给对应超像素内的所有像素，得到基于全局稀疏重构误差的像素级别的显著图；

(3)获取局部稀疏重构误差的显著图：

(3a)设定高阈值，选取大于高阈值的所有超像素作为前景字典；

(3b)设定低阈值，选取小于低阈值的所有超像素作为背景字典；

(3c)按照下式，分别将选取的前景字典和背景字典代入，计算局部约束线性编码的稀疏重构误差值：

其中，x_i表示第i个超像素的特征向量，B_i表示第i个超像素所选取的局部字典，c_i表示第i个超像素的编码系数，约定1^Tc_i＝1是为了满足局部约束线性编码的尺度不变性；

(3d)将得到的局部约束线性编码的稀疏重构误差值归一化；

(3e)按照下式，将基于前景字典和背景字典得到的局部稀疏重构误差值进行结合，计算基于局部稀疏重构的误差值：

其中，S_l(i)表示第i个超像素基于局部稀疏重构误差的显著度值，S^b(i)表示第i个超像素用背景字典获得的归一化后的重构误差结果，表示组合方法，即对应位置元素相乘，S^f(i)表示第i个超像素用前景字典获得的归一化后的重构误差结果；

(3f)将重构误差结果归一化在[0,1]之间；

(3g)将所有计算得到的显著值分别赋值给对应超像素内的所有像素，得到基于局部稀疏重构误差的像素级别的显著图；

(4)全局与局部稀疏重构误差的显著图结合：

按照下式，将全局稀疏重构误差显著图与局部稀疏重构误差显著图进行结合，得到结合后的显著图：

其中，S_final表示结合后的显著图，S_g表示基于全局稀疏重构误差的显著图，⊕表示对应元素相加，S_l表示基于局部稀疏重构误差的显著图；

(5)输出显著图。

本发明与现有技术相比，具有以下优点：

第一，由于本发明利用输入图像的自身视觉信息选取字典进一步计算稀疏重构误差，相较于从不属于输入图像自身信息的自然场景中得到字典对原始图像进行重构的方法方法更具有说服力；

第二，本发明利用高低阈值选取前景、背景字典，避免了人为选取字典进行有效编码的繁琐性，更具有自适应性；

第三，采用局部约束线性编码既保证了稀疏性，又保证了相似的图像块共享一组字典的局部性，使得检测的结果背景更加干净，更接近真实的真值图。

附图说明

图1为本发明的流程图；

图2为本发明仿真实验中输入的自然图像以及对应的真值图；

图3为本发明仿真实验中得到的显著图；

图4为本发明仿真实验中在数据集ASD、ECSSD和DUTOMRON上的对比图；

图5为本发明仿真实验中在高分辨率SAR图像舰船检测中的对比结果；

具体实施措施

下面结合附图对发明做进一步的描述。

结合附图1，对本发明的具体步骤描述如下。

步骤1，提取输入图像的特征向量。

输入一幅自然图像。

采用简单线性迭代聚类(SLIC)超像素分割方法，将输入的自然图像分割成不同的超像素。

分别求出每个超像素对应红绿蓝RGB空间和LAB空间的颜色特征的平均值。

将对应红绿蓝RGB空间和LAB空间的颜色特征得到的平均值，将其按照R,G,B,l,a,b的形式组合成向量，作为该超像素的颜色特征，其中R,G,B表示对应红绿蓝RGB空间的平均值，l,a,b表示对应LAB空间的平均值。

分别求出输入自然图像中每个超像素对应像素坐标位置的平均值。

将颜色特征和每个超像素对应像素坐标位置的平均值组成每个超像素的特征向量。

步骤2，获取全局稀疏重构误差的显著图。

将得到的所有超像素按照其对应的特征向量进行分类。

所述的分类方法具体步骤如下：

第1步，按照下式，构造相似度矩阵：

w_i,j＝exp(-||x_i-x_j||²/2σ²)

其中，w_i,j表示超像素i和超像素j之间的相似度值，i和j的取值范围均为[0,N]，N表示超像素的总个数，exp(·)表示指数操作，||·||表示取模操作，x_i表示超像素i的特征向量，x_j表示超像素j的特征向量，σ²表示用于控制权重w_i,j大小的参数，σ²取值为0.02；

第2步，按照下式，计算对角矩阵：

其中，D_ii表示对角矩阵第i行第i列的值，i的取值范围为[0,N*N]，N表示超像素的总个数，w_i,j表示第一步中超像素i和超像素j之间的相似度值；

第3步，按照下式，计算图的拉普拉斯矩阵：

L＝D-W

其中，L表示图的拉普拉斯矩阵，D表示第2步中得到的对角矩阵，W表示第1步中得到的相似度矩阵；

第4步，计算图的拉普拉斯矩阵的前k个特征值及其对应的特征向量，将其构建成相应的特征向量空间；

第5步，利用K-means聚类算法对特征空间中的k个特征向量进行聚类。

按照下式，计算某个固定超像素的基于全局稀疏重构误差值：

e_i＝||x_i-D_kα_i||₂

其中，e_i表示第i个超像素的重构误差值，||·||₂表示l-2范数操作，x_i表示属于第k类的超像素i的特征向量，D_k表示不属于第k类的其它所有超像素组成的字典，α_i表示第i个超像素的稀疏编码系数。

将得到的基于全局稀疏重构误差值归一化。

按照下式，计算加入中心先验后的基于全局稀疏重构误差值：

S_g(i)＝(1-d_i)×e_i

其中，S_g(i)表示第i个超像素基于全局稀疏重构误差的显著度值，d_i表示第i个超像素与图像中心归一化后的欧式距离，e_i表示第i个超像素的重构误差值。

对所有的超像素做相同的运算，将结果归一化在[0,1]之间。

将所有计算得到的显著值分别赋值给对应超像素内的所有像素，得到基于全局稀疏重构误差的像素级别的显著图；

步骤3，获取局部稀疏重构误差的显著图。

选取前景字典和背景字典。

所述的选取前景字典和背景字典的具体步骤如下：

第1步，计算基于全局稀疏重构误差的像素级别的显著图的平均值；

第2步，取平均值的1.5倍作为高阈值；

第3步，设定低阈值；

第4步，将所有超像素的基于全局稀疏重构误差分别与设定的高低阈值进行比较；

第5步，将大于高阈值的超像素对应特征向量组合成前景字典；

第6步，将小于低阈值的超像素对应特征向量组合成背景字典。

按照下式，分别将选取的前景字典和背景字典代入，计算局部约束线性编码的稀疏重构误差值：

其中，x_i表示第i个超像素的特征向量，B_i表示第i个超像素所选取的局部字典，c_i表示第i个超像素的编码系数，约定1^Tc_i＝1是为了满足局部约束线性编码的尺度不变性。

将得到的局部约束线性编码的稀疏重构误差值归一化。

按照下式，将基于前景字典和背景字典得到的局部稀疏重构误差值进行结合，计算基于局部稀疏重构的误差值：

将重构误差结果归一化在[0,1]之间。

将所有计算得到的显著值分别赋值给对应超像素内的所有像素，得到基于局部稀疏重构误差的像素级别的显著图。

步骤4，全局与局部稀疏重构误差的显著图结合。

其中，S_final表示结合后的显著图，S_g表示基于全局稀疏重构误差的显著图，表示对应元

素相加，S_l表示基于局部稀疏重构误差的显著图。

步骤5，输出显著图。

本发明的效果可以通过以下仿真实验做进一步描述。

1.仿真条件：

本发明的仿真是在数据集ASD、数据集ECCSD和数据集DUTOMRON三个公开具有代表性的数据集上进行的，ASD数据集包含1000幅内容较为单一、背景相对简单且显著目标突出的自然图像，ECCSD数据集包含1000幅场景相对复杂的自然图像，DUTOMRON数据集包含5168幅背景相对复杂且每幅图像有一个或者多个的自然图像，三个数据集对应的真值图均是基于像素级别的人为标定而成，此外，还将本发明应用在了五幅中高分辨率的真实SAR图像上用来验证本发明方法的有效性。

本发明仿真实验中步骤1中的超像素分割的个数设为200个，设置步骤2中k＝7，步骤2中的高阈值为整幅显著图的平均值的1.5倍，低阈值为0.05。

本发明的仿真实验环境为MATLAB2014b，英特尔酷睿处理器i5-6200U处理，4.00GB运行内存，Windows 7旗舰版64位操作系统。本发明仿真实验中的输入图像是从DUTOMRON数据集中选取，如附图2(a)、图2(b)中所示的图像。其中，附图2(a)是本发明在仿真实验中的自然图像(图片的尺寸为400×268像素)，附图2(b)是本发明在仿真实验中参考的真值图(图片的尺寸为400×268像素)。

2.仿真内容及分析

图3(a)是本发明对图2(a)进行全局稀疏重构误差分析得到的显著图，图3(b)是本发明对图2(a)进行局部稀疏重构误差分析得到的显著图，图3(c)是本发明对图3(a)和图3(b)进行结合后的效果图。

本发明的仿真实验结果客观分析：

为了证明本发明的效果，现将本发明的方法与现有六种显著性检测方法进行对比，现有方法分别是：CSP，CW，HFT，LRMR，SUN，SRIV。分别绘制上述六种方法的准确率-召回率曲线以及F柱状图。

在仿真实验中用到了准确率-召回率曲线，其绘制方法如下：

给定一个阈值T∈[0,255]，用该阈值对获取的显著图进行分割，所获得显著图中的显著值小于T的区域标记为背景，剩余的区域则标记为前景，让T从0变化到255，分别计算取不同阈值时的准确率和召回率，进而得到255对值，从而可以绘制出一条准确-召回率曲线。其中，准确率是由检测到正确的显著目标像素总数与所检测到的显著目标像素总数的比值而决定，召回率则由检测到正确显著目标的像素总数与对应真值图中显著目标像素总数的比值而决定。对数据集里的每一幅图像均做此计算，计算所有准确-召回率曲线对应点的平均值，从而可以得到整个数据集的PR曲线结果。

在仿真实验中用到了F值，其绘制方法如下：

用mean-shift算法将输入图像过分割成不同的区域，计算每一个超像素区域内的平均显著值，将所有的平均显著值再取均值，因此可以得到整体的平均显著值，选该平均显著值的二倍作为阈值对显著图进行分割，如果显著值大于所选的阈值，则将该显著值对应的位置标记为前景，剩余的标记为背景，从而可以得到准确率和召回率，则F值可用如下公式得到：

其中β²表示用于控制准确率和召回率重要程度的参数，β²取值为0.3，P表示平均准确率，R平均召回率。

将计算出的平均准确率、召回率和F值描绘成柱状图。

附图4(a)，图4(c)和图4(e)分别为在三个数据集中对应的准确率-召回率曲线，其中，横、纵轴分别表示召回率和准确率，图4(b)，图4(d)和图4(f)为在三个数据集上的F值柱状图对比结果。

好的显著显著目标检测算法需要保证F值足够大的同时，准确率和召回率也同时较高，表现在附图4的准确召回率曲线上就是曲线越接近图像的右上角，则说明该方法就越好。可以从附图4看到，本发明的方法的鲁棒性较好，且在准确率、召回率和F值上均表现最优；本发明的方法通过模拟人类视觉认知的稀疏特性，将显著性检测过程处理为双通道协同学习过程，说明了本发明与现有的方法相比具有明显的优势。

此外，为了证明本发明的效果，还将本发明应用在了五幅中高分辨率的真实SAR图像上，并与传统的检测算法进行对比，这几种方法分别是：CA-CFAR，OS-CFAR和ISD。

附图5给出了视觉对比结果，图5(a)为原始的中、高分辨SAR图像，图5(b)为对应的真值图，图5(c)本发明方法的结果图，图5(d-f)分别为对应CA-CFAR，OS-CFAR和ISD方法的结果图。

可以看到，本发明的方法将船舶区域作为一个整体被检测到了。对于高分辨率SAR图像的船舶目标检测，这验证了高等先验如目标稀疏性的有用性。在CA-CFAR方法中，船舶区域被划分成了好几个不同的部分，并且目标的形状在检测结果中并不清楚。对于OS-CFAR与ISD检测器，虽然检测出了船舶的轮廓，但所获取的检测结果明显与真实情况相差太远。

综上，本发明通过模拟人类视觉感知系统对信息进行平行加工的特性，通过根据人类视觉认知的稀疏特性，将显著性检测过程处理为与图像背景与显著目标的重构误差过程，弥补了现有方法没有利用到图像本身视觉信息的缺陷，提升了显著图的质量。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于视觉稀疏认知的显著目标检测方法，包括以下步骤：

(1)提取输入图像的特征向量：

(1a)输入一幅自然图像；

(2)获取全局稀疏重构误差的显著图：

(2a)将得到的所有超像素按照其对应的特征向量进行分类；

e_i＝||x_i-D_kα_i||₂

(2c)将得到的基于全局稀疏重构误差值归一化；

S_g(i)＝(1-d_i)×e_i

(3)获取局部稀疏重构误差的显著图：

(3a)选取前景字典和背景字典；

(3b)按照下式，分别将选取的前景字典和背景字典代入，计算局部约束线性编码的稀疏重构误差值：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>C</mi> </munder> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msup> <mn>1</mn> <mi>T</mi> </msup> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>i</mi> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

(3c)将得到的局部约束线性编码的稀疏重构误差值归一化；

(3d)按照下式，将基于前景字典和背景字典得到的局部稀疏重构误差值进行结合，计算基于局部稀疏重构的误差值：

<mrow> <msub> <mi>S</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>S</mi> <mi>b</mi> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>&CircleTimes;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>S</mi> <mi>f</mi> </msup> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

(3e)将重构误差结果归一化在[0,1]之间；

(3f)将所有计算得到的显著值分别赋值给对应超像素内的所有像素，得到基于局部稀疏重构误差的像素级别的显著图；

(4)全局与局部稀疏重构误差的显著图结合：

<mrow> <msub> <mi>S</mi> <mrow> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>a</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>g</mi> </msub> <mo>&CirclePlus;</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，S_final表示结合后的显著图，S_g表示基于全局稀疏重构误差的显著图，表示对应元素相加，S_l表示基于局部稀疏重构误差的显著图；

(5)输出显著图。

2.根据权利要求1所述的基于视觉稀疏认知的显著目标检测方法，其特征在于，步骤(2a)中所述的分类方法具体步骤如下：

第1步，按照下式，构造相似度矩阵：

w_i,j＝exp(-||x_i-x_j||²/2σ²)

第2步，按照下式，计算对角矩阵：

<mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>*</mo> <mi>N</mi> </mrow> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow>

第3步，按照下式，计算图的拉普拉斯矩阵：

L＝D-W

3.根据权利要求1所述的基于视觉稀疏认知的显著目标检测方法，其特征在于，步骤(3a)中所述的选取前景字典和背景字典的具体步骤如下：

第2步，取平均值的1.5倍作为高阈值；

第3步，设定低阈值；