CN114049503A

CN114049503A - 一种基于非端到端深度学习网络的显著性区域检测方法

Info

Publication number: CN114049503A
Application number: CN202111388848.2A
Authority: CN
Inventors: 徐丹; 蒋奔; 史金龙; 钱萍; 左欣
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-15

Abstract

本发明公开了一种基于非端到端深度学习网络的显著性区域检测方法，包括如下步骤：步骤1：训练样本生成；步骤2：深度网络构建：构建四段式卷积神经网络；步骤3：深度网络训练；步骤4：显著性检测：将测试样本导入步骤3中训练所得的网络模型，通过softmax分类器获得区域块属于显著性区域的概率，即为该区域块对应的超像素的显著值，测试样本中所有超像素的显著值构成测试样本的颜色显著图和纹理显著图；步骤5：显著图融合：将颜色显著图和纹理显著图按自适应加权方式融合，得到最终的显著图。本发明采用深度学习网络进行图像特征提取，可实现复杂图像场景中显著性区域和物体的检测，解决了在复杂图象场景中检测率较低的问题。

Description

一种基于非端到端深度学习网络的显著性区域检测方法

技术领域

本发明涉及图像处理与计算机视觉技术领域，具体涉及一种基于非端到端深度学习网络的显著性区域检测方法。

背景技术

图像显著性可描述为图像中的组成元素吸引人类视觉注意的能力，显著性检测可在无需任何先验知识的情况下定位一个场景中的重要区域，帮助快速检测图像或视频中的目标区域，可用于自动驾驶、智能安防、社交网络等场景。

术语“显著”与前景/背景的对比度有关，基于此产生了直接采用对比度度量的显著性检测方法。Cheng等人[Cheng M,Mitra N J,Huang X,et al.Global contrast basedsalient region detection[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2015,37(3):569-582]提出了全局对比度方法，将某一区域和图像中其他区域之间的特征距离作为该区域的显著性度量。Yang等人[Yang C,Zhang L,Lu H,etal.Saliency detection via graph-based manifold ranking[C].In:Proceedings ofIEEE International Conference on CVPR,2013:3166-3173.]以不同的方式考虑前景和背景线索，通过基于图的流形排序对图像元素与背景种子和前景查询之间的相似性进行排序，再根据相似性估计图像元素的显著值。该类方法易于理解和实现，但仅适用于目标和背景单一的图像。

基于深度学习的显著性检测方法通过深度学习网络自动提取场景高层语义特征。Liu等人[Liu N.DHSNet:Deep Hierarchical Saliency Network for Salient ObjectDetection[C].In:Proceedings of IEEE International Conference on CVPR,2016:678–686]提出的端到端网络DHSnet包括编码和解码两部分，编码部分从全局角度出发得到初始显著图，解码部分则利用VGG网络不同层级的特征对得到的初始显著图进行优化。Hou等人[Hou Q,Cheng M,Hu X,et al.Deeply supervised salient object detection withshort connections[C].In:Proceedings of IEEE International Conference on CVPR,2017:5300–5309]提出的DSS网络，采用短连接结构融合不同尺度的侧向输出，并让深层侧向输出直接对浅层侧向输出产生影响，以充分利用侧向输出特征图中的丰富显著性语义。

以上基于端到端深度网络的显著性检测模型的性能较之传统方法有了明显改进，然而，在此过程中，深度学习模型完全依赖网络自身从数据中学习与显著性检测相关的特征或映射函数，这导致显著性线索的作用并不清楚；此外，上述深度网络中单层卷积操作只能提取卷积核局部范围内的语义信息，缺乏全局性信息，影响了方法的最终检测性能。

发明内容

本发明提供了一种基于非端到端深度学习网络的显著性区域检测方法，以解决现有技术中直接采用对比度度量的显著性检测方法在复杂图象场景中检测率较低，端到端的深度学习显著性检测方法中全局对比度缺失的问题。

本发明提供了一种基于非端到端深度学习网络的显著性区域检测方法，包括如下步骤：

步骤1：训练样本生成：采用SLIC方法对原始图像进行超像素分割，同时，将原始图像均匀划分为N×N个区域块，按照超像素和区域块重叠面积的大小将超像素与区域块进行匹配，以区域块为单位，计算区域块对应的超像素与其他区域块对应的超像素之间的全局对比度，得到相应的对比度立方体作为训练样本；

步骤2：深度网络构建：构建四段式卷积神经网络，第一阶段包含卷积层、最大池化层和Relu非线性函数；第二阶段包含卷积层、最大池化层和Relu非线性函数，其中卷积层的尺寸与第一阶段不同；第三阶段包含卷积层和ReLu非线性函数，最后一阶段包含全连接层；

步骤3：深度网络训练：将所述步骤1中获取的训练样本作为卷积神经网络的输入，设置网络训练的超参数，随机初始化网络权重参数，利用交叉熵损失函数计算网络预测值与真值之间的损失，利用随机梯度下降法调整网络参数，进行网络训练；

步骤4：显著性检测：将测试样本导入所述步骤3中训练所得的网络模型，通过softmax分类器获得区域块属于显著性区域的概率，即为该区域块对应的超像素的显著值，测试样本中所有超像素的显著值构成测试样本的颜色显著图和纹理显著图；

步骤5：显著图融合：将颜色显著图和纹理显著图按自适应加权方式融合，得到最终的显著图。

进一步地，所述步骤1的具体步骤如下：

步骤11：采用SLIC方法将原始图像分割成Q个超像素；

步骤12：将原始图像均匀划分为N×N个区域块，使得Q≈N×N；

步骤13：按照超像素和区域块重叠面积的大小将超像素与区域块进行匹配，具体如下：当区域块包含于某一超像素时，将该区域块用该超像素表示；当区域块跨越两个或更多超像素时，将该区域块用包含面积最大的超像素表示；

步骤14：通过计算与某一区域块对应的超像素与图像中其他超像素之间的特征距离来获取某一区域块的对比度立方体，对比度立方体的尺度为N×N×M，其中，M为特征维度；

步骤15：构建颜色特征立方体，将RGB、Lab、HSV三种不同的颜色空间的每个颜色通道作为一维特征，一共9维特征，颜色特征立方体大小为N×N×9；

步骤16：构建纹理特征立方体，利用Circular LBP特征描述子提取纹理特征，纹理特征立方体大小为N×N×8。

进一步地，所述步骤2的深度网络的构建具体为：

卷积神经网络第一阶段包含64通道、卷积核大小为5×5的卷积层，2×2的最大池化层和Relu非线性层；卷积神经网络第二阶段包含96通道、卷积核大小为3×3的卷积层，2×2的最大池化层和Relu非线性层；卷积神经网络第三阶段包含48通道、卷积核大小为3×3的卷积层和Relu非线性层；卷积神经网络第四阶段包含2通道、卷积核大小为2×2的全连接层，将前层特征映射到样本标记空间，即非显著区域和显著性区域。

进一步地，所述步骤3的具体步骤如下：

步骤31：分别将步骤1得到的颜色特征立方体和纹理特征立方体输入卷积神经网络；

步骤32：设置网络训练的超参，包括学习率、动量、权重衰减、批处理大小、迭代次数等；

步骤33：随机初始化网络权重参数，包括各卷积层神经元权重和偏置；

步骤34：利用交叉熵损失函数计算网络预测值与真值之间的损失，用公式表示为：

式中，m表示批处理大小，θ是网络的参数集，包含了所有卷积层的权重和偏置参数，1(l_i＝j)是指示函数，用来指示真值，P(l_i＝j|θ)是由softmax生成的第i个超像素属于显著性区域的条件概率，λ是权重衰减因子，K是神经网络的卷积层数，

是W_k的L2正则化项；

步骤35：利用随机梯度下降法更新神经网络的权重；

步骤36：得到训练后的颜色对比度网络和纹理对比度网络。

进一步地，所述步骤4的具体步骤如下：

步骤41：将测试图像按照生成训练样本同样的方式构建颜色特征立方体和纹理特征立方体，从而构成测试样本；

步骤42：将测试样本中的颜色特征立方体和纹理特征立方体分别输入训练好的颜色对比度网络和纹理对比度网络，利用softmax函数输出每个区域块对应的超像素属于显著性区域的概率，作为该超像素的显著值；

步骤43：将超像素的显著值作为该超像素的灰度值，构成原始图像的显著图；

步骤44：根据不同的测试数据和深度网络，分别获得颜色显著图和纹理显著图。

进一步地，所述步骤5的具体步骤如下：

步骤51：计算每个超像素与其它超像素的颜色对比度和纹理对比度，公式如下：

式中，Cdc(sp_i)为颜色对比度，Cdt(sp_i)为纹理对比度，cn(sp_i)表示超像素sp_i的颜色特征，lbp(sp_i)表示超像素sp_i的纹理特征；

步骤52：计算每个超像素在融合时颜色对比度在总对比度中的比值，记为β_i，公式如下：

β_i＝Cdc(sp_i)/(Cdc(sp_i)+Cdt(sp_i))

步骤53：将β_i作为自适应权重，融合颜色显著图和纹理显著图，公式如下：

其中，csal和tsal分别是颜色显著图和纹理显著图，sal为融合后的显著图。

本发明的有益效果：

本发明提供一种基于非端到端深度学习网络的显著性区域检测方法，采用深度学习网络进行图像特征提取，可实现复杂图像场景中显著性区域和物体的检测，解决了直接采用对比度度量的显著性检测方法在复杂图象场景中检测率较低的问题；与端到端的深度学习显著性检测方法中以原始图像作为网络输入不同，本发明首先进行全局对比度计算，得到对比度立方体，作为深度网络的输入，能够缓解端到端的深度学习显著性检测方法中全局对比度缺失的问题。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1是本发明的流程图；

图2是SLIC超像素分割结果示意图；

图3是对比度立方体的形成过程示意图；

图4是颜色对比度卷积神经网络结构示意图；

图5是纹理对比度卷积神经网络结构示意图；

图6是网络训练过程示意图；

图7是显著性检测和融合示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于非端到端深度学习网络的显著性区域检测方法，该方法分为两个阶段，训练阶段和测试阶段。在训练阶段，利用图像的颜色特征和纹理特征分别构建颜色对比度立方体和纹理对比度立方体，然后构建颜色对比度网络和纹理对比度网络，将对比度立方体作为训练样本进行网络训练，得到网络模型。在测试阶段，利用测试图像构建对比度立方体，导入训练好的网络模型，得到颜色显著图和纹理显著图，再将两者按自适应加权方式融合，得到最终的显著图。主要包括如下详细步骤：

(1)训练样本生成：采用SLIC方法对原始图像进行超像素分割，同时，将原始图像均匀划分为N×N个区域，按照超像素和区域块重叠面积的大小将超像素与区域进行匹配，以区域块为单位计算其对应的超像素与其他区域块对应的超像素之间的全局对比度，得到对比度立方体。

所述训练样本生成的的具体内容是：

(11)如图2所示，采用SLIC方法将原始图像分割成Q个超像素，取Q＝600；

(12)将原始图像均匀划分为N×N个区域块，使得Q≈N×N，这里取N＝24；

(13)如图3所示，按照区域块和超像素重叠面积的大小将两者进行匹配，具体地，如果区域完整地包含某一超像素，该区域与该超像素相匹配；如果区域中包括多个超像素，则与区域内面积最大的超像素相匹配。

(14)如图3所示，某一区域r_i的全局对比度立方体可通过计算与该区域对应的超像素sp_i与图像中其他区域对应的超像素之间的特征距离获得，对比度立方体的尺度为N×N×M，其中，M为特征维度。

(15)构建颜色特征立方体，颜色特征采用RGB、Lab、HSV三种不同的颜色空间，将每个颜色通道作为一维特征，一共9维特征，因此，颜色特征立方体大小为24×24×9。

(16)构建纹理特征立方体，利用Circular LBP特征描述子提取超像素的局部纹理特征，纹理特征立方体大小为24×24×8。

(17)该步骤中建立图像区域块和超像素之间的对应关系在于，超像素分割可得到具有语义信息的图像区域，但形状不规则，很难形成大小统一的立方体；另一方面，均匀划分的区域块又不具有图像的语义信息，故将二者结合，在立方体生成中以区域块为单位，但对比度特征提取以及后期的显著性计算均以区域块对应的超像素为计算对象。

(2)深度网络构建：构建四段式卷积神经网络，第一阶段包含卷积层、最大池化层和Relu非线性函数，除卷积层的尺寸外，第二阶段与第一阶段完全相同，第三阶段包含卷积层和ReLu非线性函数，最后一阶段仅包含一个全连接层，用来将前层特征映射到样本标记空间。

所述颜色对比度神经网络结构如图4所示：

(21)第一阶段：输入大小为24×24×9的对比度立方体，也可记为9@24×24，把特征维度9看作通道数，24×24看作输入样本的尺寸大小；经过64个大小为5×5的卷积核得到的特征图尺寸为64@20×20，再经过大小为2×2的池化层，输出尺寸为64@10×10；ReLu层不改变特征图尺寸；

(22)第二阶段：输入即为第一阶段的输出，大小为64@10×10；经过96个大小为3×3的卷积核得到的特征图尺寸为96@8×8，再经过大小为2×2的池化层，输出尺寸为96@4×4；ReLu层不改变特征图尺寸；

(23)第三阶段：输入即为第二阶段的输出，大小为96@4×4；经过48个大小为3×3的卷积核得到的特征图尺寸为48@2×2；ReLu层不改变特征图尺寸；

(24)第四阶段：输入即为第三阶段的输出，大小为48@2×2；经过2个大小为2×2的卷积核得到的特征图尺寸为2@1×1；

(25)所述纹理对比度神经网络结构如图5所示，其结构与颜色对比度神经网络相同，不同之处在于前三个阶段中卷积层的通道数不同，分别为32@5×5、64@3×3和32@2×2。

(3)深度网络训练：将特征对比度立方体作为卷积神经网络的输入，设置网络训练的超参数，随机初始化网络权重参数，利用交叉熵损失函数计算网络预测值与真值之间的损失，利用随机梯度下降法调整网络参数，进行网络训练。

该步骤的详细内容是：

(31)设置神经网络的超参，具体如下，设置随机梯度下降法的学习率为0.01，动量为0.9，学习率每次下降0.1直至损失函数收敛；权重衰减因子设置为0.0005；采用批处理方式进行训练，批大小为256；整个训练集的训练次数为100代。

(32)随机初始化卷积神经网络中各卷积层的权重和偏置。

(33)利用交叉熵损失函数计算训练网络预测结果与真值图之间的损失，如图6所示，从左至右依次为原始图像、网络预测结果、真值图，以更新网络权重，交叉熵损失函数表示如下：

式中，m＝256为批处理大小；θ是网络的参数集，包含了所有卷积层的权重和偏置参数；1(l_i＝j)是真值指示函数，j＝0表示背景区域，j＝1表示显著性区域；P(l_i＝j|θ)是由softmax生成的第i个超像素在参数集为θ时属于显著性区域的条件概率，即显著值；λ＝0.0005是权重衰减因子；K＝4是神经网络的卷积层数；

是W_k的L2正则化项；

(34)根据交叉熵损失函数，利用随机梯度下降法，沿梯度下降最快的方向更新神经网络权重，得到训练后的颜色对比度网络和纹理对比度网络。

(4)显著性检测：将测试样本导入训练所得的网络模型，通过softmax分类器获得区域块属于显著性区域的概率，即为该区域块对应的超像素的显著值，图像中所有超像素的显著值构成输入图像的显著图。

该步骤的详细内容是：

(41)将测试图像按照生成训练样本同样的方式构建颜色特征立方体和纹理特征立方体，构成测试样本；

(42)将测试样本中的颜色特征立方体和纹理特征立方体分别输入训练好的颜色对比度网络和纹理对比度网络，利用softmax函数输出每个区域块对应的超像素属于显著性区域的概率，作为该超像素的显著值；

(43)将超像素的显著值作为该超像素的灰度值，构成原始图像的显著图；

(44)根据不同的测试数据和深度网络，分别获得颜色显著图和纹理显著图。

(5)显著图融合：将得到的颜色显著图和纹理显著图按自适应加权方式融合，得到最终的显著图。该步骤的详细内容是：

(51)计算每个超像素sp_i与其它超像素的颜色对比度Cdc(sp_i)和纹理对比度Cdt(sp_i)，公式如下：

式中，cn(sp_i)表示超像素sp_i的颜色特征，lbp(sp_i)表示超像素sp_i的纹理特征；

(52)计算每个超像素在融合时颜色对比度在总对比度中的比值，记为β_i，公式如下：

β_i＝Cdc(sp_i)/(Cdc(sp_i)+Cdt(sp_i)) (4)

(53)将β_i作为自适应权重，融合颜色显著图和纹理显著图，公式如下：

如图7所示，从左到右依次为原图、颜色对比度产生的显著图、纹理对比度产生的显著图、融合之后的显著图和真值图，公式(5)中，csal和tsal分别是颜色显著图，如图7左2和纹理显著图，如图7左3，sal为融合后的显著图，如图7左4。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。