CN113723474A

CN113723474A - 一种跨通道聚合相似性网络系统

Info

Publication number: CN113723474A
Application number: CN202110923436.8A
Authority: CN
Inventors: 刘浙东
Original assignee: Zhejiang Yunpeng Technology Co ltd
Current assignee: Zhejiang Yunpeng Technology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-30

Abstract

本发明公开了一种跨通道聚合相似性网络系统，所述网络系统包括跨通道聚合模块，相似度融合模块和密集残差模块；所述跨通道聚合模块：用于保留来自集成的不同层特征图的高响应通道，以提取有效的全局上下文信息；所述相似度融合模块：用于计算各种特征之间的相似度，这些特征包括高级语义，低级空间和全局上下文信息，以增强特征图的互补性；所述密集残差模块：在多尺度感受野下提取更密集的特征，以获得更为密集的特征图。

Description

一种跨通道聚合相似性网络系统

技术领域

本发明涉及显著目标检测技术领域，尤其是涉及一种跨通道聚合相似性网络系统。

背景技术

显著目标检测是一种有效的预处理技术，用于处理二进制分割任务。在计算机视觉领域，基于深度学习的现有工作取得了卓越成效。大多数方法采用多尺度融合和注意机制来促进有效的特征提取，但忽略了必要的全局上下文特征和通用模型的计算限制。

显著目标检测旨在从场景中捕获最吸引人的区域或物体，在许多计算机视觉任务（包括图像标题，视觉跟踪，图像分割和重新识别）中起着重要的预处理作用。

得益于全卷积网络强大的特征提取能力，显著目标检测已从基于手工提示的中心周围对比方法逐渐发展为基于语义提示的端到端深度学习方法。为了提高目标的完整性，常用方法通常是插入单个由堆叠的卷积和池化层构成的模块以集成多尺度特征或增加感受野以获得密集结果。与传统算法相比，这些方法在局部和粗糙场景中检测显著物体的能力已经取得了明显进步。然而，它们在完全检测和精确分割方面仍然面临两个主要的挑战性问题。一种是当前的工作，忽略了全局上下文信息。另一个是高级特征的稀释，这是由于在多个卷积层之后使用具有不同步长和填充操作引起的。通常，这种影响对于特征提取是不可逆的，这会导致目标边界变得模糊。

发明内容

为了解决自上而下特征传递过程中的稀释现象，我们提出了跨通道聚合相似性网络（CCANet）。该网络含有三个模块，跨通道聚合模块（CCA）用来保留来自集成的不同层特征图的高响应通道，以提取有效的全局上下文信息。相似度融合模块（SFM）计算各种特征之间的相似度，这些特征包括高级语义，低级空间和全局上下文信息，以增强特征图的互补性。密集残差模块（DRM）在多尺度感受野下提取更密集的特征，以获得更为密集的特征图。此外，我们利用组合损失函数和改进的加权二进制交叉熵来减轻类不平衡问题。在六个公开基准数据集上的实验结果均胜于其他实验，结果表明，该方法可实现最先进的性能，无需任何后处理操作，并且能够以32 FPS的速度进行实时推断尺寸为320×320的图片。

本发明解决其技术问题所采用的技术方案是：基于骨干网络，CCANet包括三个新颖的模块：跨通道聚合模块（CCA），相似融合模块（SFM）和密集残差模块（DRM）。为了缓解类不平衡问题，我们采用组合损失函数通过重新定义加权二进制交叉熵来调整正例和反例之间的权重，从而优化模型。

通过聚合来自骨干网络的不同层，CCA保持了高响应通道特征图，以减少通道的冗余。SFM通过计算高级特征，它们的相邻低级特征和全局上下文特征三者的全局相似性来获得有效的高级语义信息。

为了减轻高语义线索的特征稀释，最常见的方法是通过引入独立的数据流将深层特征传输到每一层。为了形成密集的特征，空洞卷积可以代替普通卷积来扩大感受野。

如图1所示，所提出的方法能够推断出一些具有挑战性的场景，其中第一行图像中的显著物体是自行车。对于此场景，自行车和背景具有相似的颜色，并且此自行车的分布不平衡。自行车仅覆盖整个图片的一小部分，它分布在图片的左下角而不是中心。第二行中的场景显示了三个突出的目标，它们在杂乱的背景中相互接触。

综上所述，这项工作的贡献可以总结如下：

为了提高特征聚合的效率，提出了一种跨通道聚合相似性网络，该网络包括跨通道聚合模块（CCA），相似度融合模块（SFM）和密集残差模块（DRM）。

2. CCA模块聚合低级空间图，高级语义图和全局上下文特征图以筛选高响应通道。SFM用于提取更有效的信息。DRM通过集成多粒度特征图来减轻特征稀释。考虑到类不平衡问题，我们采用了包括自适应加权二进制交叉熵损失和骰子损失在内的组合损失。

3.与六个公共数据集上的最新方法相比， CCANet通过定量和定性评估获得了较强的优势。此外，通过消融分析，我们进一步验证了每个模块的有效性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的网络架构。

图2是本发明的跨通道聚合模块。

图3是本发明的特征聚合。

图4是本发明的相似度融合模块。

图5是本发明的密集残差模块。

图6是本发明的SRM和DRM的视觉比较。

图7是本发明的CCS的视觉比较。

图8是本发明的不同组件的视觉比较。

图9是本发明的六个数据集上的PR曲线图。

图10是本发明的在六个数据集上的直方图可视化结果。

图11是本发明的所提出模型与其他最新方法的定性比较。

具体实施方式

网络架构：本发明提出的网络的体系结构如图1所示。数据流传输涉及两个方向，一个方向用于特征提取，另一个方向用于有效的特征选择。图像特征图被送到CCA，SFM中以进行逐步编码，并馈入DRM进行解码以进行最终的显著预测。

骨干网络 CCANet采用ResNet-50作为骨干网。具体来说，我们丢弃了ResNet原始体系结构中的全局平均池化层和全连接层，以适应二进制分割任务。

跨通道聚合模块对于一幅图像而言，不同的特征提取层获得不同级别的信息。由于感受野较小，低层通常包含细节和纹理特征。中间层包含更多的空间信息，而高层通常包含丰富的语义信息[32]。因此，多级特征聚合是生成显著目标互补特征的有效策略。一方面，特征融合为特定任务提供了更丰富的信息。另一方面，从上到下的多尺度聚合降低了特征稀释的影响。融合后，生成的显著图具有更丰富的上下文信息，便于推断出显著区域及其相邻区域之间的关系。对于特征通道而言，并非所有的信息都可用于显著性推断，通道压缩是一种简单而有效的方法，可用于降低模型的复杂性。但是，这只是预测准确性和计算代价之间折衷选择，忽略了保留有效特征信息的可能性，本模块可以有效的解决该问题。具体来说，该模块有两个步骤。第一步是聚合多级特征，将通道数减少到256，称为特征聚合（FA）。第二步保留高响应特征，进一步将通道减少到64，称为跨通道选择（CCS）。图2是该模块的简化图。

参见图2：跨通道聚合模块

第一步，将多个来自骨干网络的输出映射进行级联。根据文献[Z. Wu, L. Su, Q.Huang, Cascaded partial decoder for fast and accurate salient objectdetection, in: Proceedings of the IEEE conference on computer vision andpattern recognition, 2019, pp. 3907–3916.]的研究，第一阶段的规模太大，无法保证高度优化。因此，本文的聚合模块仅考虑骨干网络的第二，第三，第四和第五阶段的输出。此外，为了减少计算负担，我们将每层通道的数量减少到64，并且级联特征映射通过3×3卷积层进行微调。融合阶段后，特征图共包含256个通道，特征图的融合大小与第三阶段特征图相同，请参见图3，获得的特征图包含更多的上下文信息。

参见图3：特征聚合

为了进一步减少计算负担，受[H. Zhou, X. Xie, J. Lai, Z. Chen, L. Yang,Interactive two-stream decoder for accurate and fast saliency detection, in:Proceedings of the IEEE conference on computer vision and patternrecognition, 2020, pp. 9138–9147.]的启发，我们引入跨通道选择以建立一个具有64个通道的高响应组。与广泛使用的注意力机制相比，通过使用该方式能够获得更好的性能，无需任何额外的可学习参数，其定义如下：

其中i，m，j和r为整数，i表示高响应通道的索引，m表示高响应通道的数量。在本文中，m等于64，j是划分后的通道索引，r是每组中的通道数。与Maxout [I. J. Goodfellow,D. Warde-Farley, M. Mirza, A. C. Courville, Y. Bengio, Maxout networks, in:Proceedings of the International Conference on Machine Learning, Vol. 28,2013, pp. 1319–1327.]相似，此步骤收集每个组中通道的最大值，并将它们级联起来作为估计输出。更多关于跨通道选择阶段的细节可以在图2中查看。

相似度融合模块CCA模块集成了来自骨干网的多个特征图，尽可能的保留了高响应通道，从而提供了丰富而可靠的全局上下文信息。为了增强高级特征与它们的相邻要素以及全局上下文特征间的交互，我们设计了相似度融合模块（SFM）。

具体而言，首先将高级特征及其相邻的低级特征流送入3×3卷积层中，分别将通道尺寸压缩为64。最初包含64个通道，因此不需要通道压缩。然后，使用自适应平均池化操作获得它们的全局特征图。通过计算三者间的相似度关系来得到最终的预测。这部分操作如图4所示。

参见图4：相似度融合模块

密集残差模块如上所述，这些功能仅来自骨干网，这导致性能欠佳。因此，受Res2Net [S.-H. Gao, M.-M. Cheng, K. Zhao, X.-Y. Zhang, M.-H. Yang, P. Torr,Res2net: A new multi-scale backbone architecture, IEEE Transactions onPattern Analysis and Machine Intelligence (2020) 1–1.]的启发，我们设计了DRM以进一步增强特征图的密度。具体而言，在不同感受野下利用具有不同膨胀率的卷积核来实现对特征的密集输出。受[Z. Chen, Q. Xu, R. Cong, Q. Huang, Global context-awareprogressive aggregation network for salient object detection, in: The Thirty-Fourth AAAI Conference on Artificial Intelligence, The Thirty-SecondInnovative Applications of Artificial Intelligence Conference,The Tenth AAAISymposium on Educational Advances in Artificial Intelligence, 2020, pp.10599–10606.]的启发，我们在DRM的末尾插入了一个带有乘法和加法运算的细化过程，如图5所示。

参见图5：密集残差模块

组合损失函数为了解决类不平衡问题，我们重新定义了加权二进制交叉熵（wBCE）的权重，称为自适应加权二进制交叉熵（awBCE）。按照[35]，我们使用awBCE和Dice联合优化模型。总损失函数定义如下。

与二元交叉熵（BCE）损失不同，awbCE可以根据预测地图与其像素级标注之间的差异来自适应地调整权重。与wBCE损失相比，awBCE同时考虑了正例和反例对预测结果的影响。awBCE定义如下，

其中α和β的值由正确预测和错误预测在每个图像中的比例确定。在本文中，我们认为正确的预测值大于相应标签值的90％，反之，预测结果小于真实值10％则是不正确的预测，pos和neg分别表示正例和反例。

wBCE损失从像素的角度解决了类不平衡的问题。为了更全面地描述模型，我们添加了额外的图像级损失以共同优化模型。引入Dice损失[36]来测量预测显著性图与其掩膜之间的重叠，其定义为

其中S表示预测的显著性图，G是其像素级标签。为了避免分母为零，我们插入一个平滑参数，在此函数中设置为1。

实验结果：

实验细节：我们使用去掉FC层的ResNet-50[K. He, X. Zhang, S. Ren, J. Sun,Deep residual learning for image recognition, in: Proceedings of the IEEEconference on computer vision and pattern recognition, 2016, pp. 770–778.]用作我们的骨干网络。在训练阶段，每个图像的大小为320×320，水平翻转以进行数据增强，然后随机裁剪大小为288×288的块进行训练。我们使用PyTorch [46]作为我们的实现框架。小批随机梯度下降（SGD）用于优化整个网络，每批的大小为40。训练周期设置为60。初始学习率设置为1e-3，预热和权重衰减设置为5e-4，使用线性衰减策略，其中主干[Z. Chen,Q. Xu, R. Cong, Q. Huang, Global context-aware progressive aggregationnetwork for salient object detection, in: The Thirty-Fourth AAAI Conferenceon Artificial Intelligence, The Thirty-Second Innovative Applications ofArtificial Intelligence Conference,The Tenth AAAI Symposium on EducationalAdvances in Artificial Intelligence, 2020, pp. 10599–10606.]的最大学习率为5e-3，其他部分为0.05。动量设置为0.9。在推论阶段，在一台Nvidia GTX 1080Ti的加速下，生成320×320的估计大约需要32fps。

消融分析：为了验证本文提到的每个组件（包括CCA，SFM和DRM）的有效性，我们在本部分中进行了消融研究。为了公平地比较，我们使用相同的训练图像和超参数训练所有模型，并选择ResNet-50作为骨干网络。在分析特定模块之前，我们首先比较一些模块中涉及的组件的详细信息。

•DRM或SRM。为了进一步表现DRM与SRM的性能区别，我们添加了SRM选项。此外，我们将这两个模块的预测结果可视化，在图6中可以看到。其中，（a）图片（b）标签（c）在CCANet中使用SRM（d）在CCANet中使用DRM。

参见图6：SRM和DRM的视觉比较。

•CCA模块中是否带有CCS。

图7首先验证了DRM对保留显著目标完整性的贡献。同时，通过观察是否添加可视化图，不难发现CCS在保留和提取有效特征方面表现出优秀的性能。其中，（a）图像（b）标签（c）CCANet（DRM）中没有CCS（d）CCANet（SRM）中没有CCS（e）CCANet（DRM）中具有CCS

参见图7：CCS的视觉比较。

表1给出了各个模块的对整体性能的影响。通过比较性能提升，我们逐步验证了每个模块的必要性。通过数据分析，我们有以下观察结果：基于基线网络，此工作首先测试每个模块的性能。实践证明，本文提到的各种模块对模型性能都有一定程度的积极影响。 CCA中两个步骤（即FA，CCS）的比较证实，正确的通道选择对于执行多尺度融合时的有效特征提取很有用。通过比较是否使用SFM模块，我们发现全局特征，高级特征能够及其相邻的低级特征的建立可以更加关注有效信息。精度和召回率都有一定的提高。

与SRM相比，DRM使用层内多尺度融合来获得密集的输出，从而节省了一些计算时间和存储空间，并且效果更好。结合本文中提到的模型后，测试列表表明该框架具有竞争优势，并且每个模块都有自己的优势。图8展示了不同设计模块的可视化效果，CCA，SFM和DRM可以帮助模型有效地汇总具有各种特征的有效预测。CCA和DRM为增强显著目标的完整性做出巨大贡献，而SFM可以帮助模型保留更准确的特征。为了更全面地分析此模型的特征，表2显示出了每个模块的推理速度。

（a）图片（b）标注（c）没有CCA（d）没有SFM（e）没有DRM（f）CCANet

与其他方法的比较为了验证该模型的有效性，我们在六个公开数据集上测试了模型的性能，并将其与近两年来的九种最新方法（包括AFNet [M. Feng, H. Lu, E. Ding,Attentive feedback network for boundary-aware salient object detection, in:Proceedings of the IEEE conference on computer vision and patternrecognition, 2019, pp. 1623–1632.]，BASNet [X. Qin, Z. V. Zhang, C. Huang, C.Gao, M. Dehghan, M. Jägersand, Basnet: Boundary-aware salient objectdetection, in: Proceedings of the IEEE conference on computer vision andpattern recognition, 2019, pp. 7479–7489.]，CPD [Z. Wu, L. Su, Q. Huang,Cascaded partial decoder for fast and accurate salient object detection, in:Proceedings of the IEEE conference on computer vision and patternrecognition, 2019, pp. 3907–3916.]，PAGE [W. Wang, S. Zhao, J. Shen, S. C. H.Hoi, A. Borji, Salient object detection with pyramid attention and salientedges, in: Proceedings of the IEEE conference on computer vision and patternrecognition, 2019, pp. 1448–1457.]，PoolNet [J. Liu, Q. Hou, M. Cheng, J.Feng, J. Jiang, A simple pooling-based design for real-time salient objectdetection, in: Proceedings of the IEEE conference on computer vision andpattern recognition, 2019, pp. 3917–3926.]，EGNet [J. Zhao, J. Liu, D. Fan, Y.Cao, J. Yang, M. Cheng, Egnet: Edge guidance network for salient objectdetection, in: 2019 IEEE/CVF International Conference on Computer Vision,2019, pp. 8778–8787.]，GCPANet [Z. Chen, Q. Xu, R. Cong, Q. Huang, Globalcontext-aware progressive aggregation network for salient object detection,in: The Thirty-Fourth AAAI Conference on Artificial Intelligence, The Thirty-Second Innovative Applications of Artificial Intelligence Conference,TheTenth AAAI Symposium on Educational Advances in Artificial Intelligence,2020, pp. 10599–10606.]，F3Net [J. Wei, S. Wang, Q. Huang, F3net: Fusion,feedback and focus for salient object detection, CoRR abs/1911.11445. arXiv:1911.11445.]，ITSD [H. Zhou, X. Xie, J. Lai, Z. Chen, L. Yang, Interactivetwo-stream decoder for accurate and fast saliency detection, in: Proceedingsof the IEEE conference on computer vision and pattern recognition, 2020, pp.9138–9147.]。为了公平比较，我们使用相同的评估代码评估所有显着性图和作者提供的训练模型。

定量评估：表3我们列出了九种最先进的方法以及我们的定量比较方法。粗体红色表示模型获得了最佳性能，而粗体蓝色表示次优。尽管在某些数据集上本文（即DUT-OMRON，HKU-IS）的评估指标不是最佳的，但本文的算法根据比较结果基本上达到了最佳水平。

为了更全面地分析该模型的性能，我们在图9和图10中插入了PR曲线和精度，召回率和F测度的柱状图，本文提出的方法表现出更好的性能。

通过观察实验结果，发现过去两年算法的性能具有很强的竞争力。对直方图的进一步观察表明，该模型在每个数据集上都有均衡的性能提升。大多数方法通常在精度和查全率之间不平衡，这使得它们的F测量值趋势趋低。结果表明，该模型具有良好的精度和召回率。

定性评估为了清楚地观察到该模型的优势，图11中显示了上述方法在各种复杂场景中的测试结果。

第一列用于测试反射场景中模型分割的准确性。该场景的困难在于如何准确，完整地保留目标，丢弃反射部分。实验结果表明，在这种情况下CCANet和GCPANet表现良好。第二列用于检查模型在多个对象，小目标和高对比度场景上的性能。大多数算法具有很强的泛化性能。第三列仍显示多个对象。与第二列的不同之处在于，该列中的对象以较锐利的边缘相互连接。可以看出，ITSD，PAGE和CCANet可以更完整地保留整个区域。第四列是检测到具有锋利边缘的单个对象。目标和背景之间的对比度较低。像素越靠近对象边缘，越难预测。实验结果表明，除AFNet和F3Net以外，大多数算法都能表现出更好的性能。第五列中的场景选择对象和背景颜色相似的情况。结果表明，各种算法通常表现良好，但所涵盖的细节将有偏差。第六列分析了尖锐的物体。结果表明，该算法对路灯具有较好的分割效果。在最后一栏中进行分割的困难在于被检测物体与背景之间的强烈相互作用，并且在分割期间难以消除车辆。

根据可视化结果，该算法的检测效果在全局感知范围内具有较好的泛化性能和较强的特征推理能力。

在本文中，我们提出了跨通道聚合相似网络（CCANet）来完成显著性目标检测。针对不同级别的特征，我们构建了跨通道聚合（CCA）模块，以在聚合过程后将高响应通道作为其输出。考虑到全局上下文特征，高级特征和低级特征的互补关系，我们进一步设计了融合相似度模块以计算不同层之间的相似度。密集残差模块（DRM）在块内采用具有不同膨胀率的多分支残差结构，对不同感受野下的密集特征输出，从而可以在一定程度上缓解特征稀释现象。在六个基准数据集上的实验结果表明，在不同的评估指标下，该网络在复杂场景中的性能优于其他九种最新方法。

由于这项工作的重点是确保完整和准确的特征提取，因此该模型在测试阶段的处理速度仅符合实时要求。在未来的工作中，我们将更加致力于在确保模型性能的同时减少模型计算的复杂性，提高分割效率。此外，显著目标检测可以为各种计算机视觉任务提供预处理。因此，我们期待着更好地处理有趣的下游任务并在此基础上实施它们。

表1：ECSSD和DUTS-TE数据集的消融研究结果。

表2：各模块运行速度比较

表3：在六个公开数据集上的定量评估结果

以上所述，只是本发明的较佳实施例，并非对本发明作出任何形式上的限制，在不脱离本发明的技术方案基础上，所作出的简单修改、等同变化或修饰，均落入本发明的保护范围。

Claims

1.一种跨通道聚合相似性网络系统，其特征在于，所述网络系统包括跨通道聚合模块，相似度融合模块和密集残差模块；

所述跨通道聚合模块：用于保留来自集成的不同层特征图的高响应通道，以提取有效的全局上下文信息；

所述相似度融合模块：用于计算各种特征之间的相似度，这些特征包括高级语义，低级空间和全局上下文信息，以增强特征图的互补性；

所述密集残差模块：在多尺度感受野下提取更密集的特征，以获得更为密集的特征图。

2.根据权利要求1所述的一种跨通道聚合相似性网络系统，其特征在于，所述跨通道聚合模块聚合低级空间图，高级语义图和全局上下文特征图以筛选高响应通道；所述相似度融合模块用于提取更有效的信息；所述密集残差模块通过集成多粒度特征图来减轻特征稀释。

3.根据权利要求2所述的一种跨通道聚合相似性网络系统，其特征在于，通过组合损失函数和改进的加权二进制交叉熵来减轻类不平衡问题。

4.根据权利要求2所述的一种跨通道聚合相似性网络系统，其特征在于，网络框架的数据流传输涉及两个方向，一个方向用于特征提取，另一个方向用于有效的特征选择，图像特征图被送到所述跨通道聚合模块，所述相似度融合模块中以进行逐步编码，并馈入所述密集残差模块进行解码以进行最终的显著预测。

5.根据权利要求2所述的一种跨通道聚合相似性网络系统，其特征在于，采用ResNet-50作为骨干网络，具体而言，是为丢弃了ResNet原始体系结构中的全局平均池化层和全连接层，以适应二进制分割任务。

6.根据权利要求2所述的一种跨通道聚合相似性网络系统，其特征在于，所述跨通道聚合模块具有两个步骤，第一步是聚合多级特征，将通道数减少到256，称为特征聚合；第二步保留高响应特征，进一步将通道减少到64，称为跨通道选择。

7.根据权利要求2所述的一种跨通道聚合相似性网络系统，其特征在于，所述相似度融合模块首先将高级特征及其相邻的低级特征流送入3×3卷积层中，分别将通道尺寸压缩为64；最初包含64个通道，因此不需要通道压缩；然后，使用自适应平均池化操作获得它们的全局特征图；通过计算三者间的相似度关系来得到最终的预测。

8.根据权利要求2所述的一种跨通道聚合相似性网络系统，其特征在于，所述密集残差模块在不同感受野下利用具有不同膨胀率的卷积核来实现对特征的密集输出。