CN117392499A - 一种显著性目标的检测方法及装置 - Google Patents
一种显著性目标的检测方法及装置 Download PDFInfo
- Publication number
- CN117392499A CN117392499A CN202311617546.7A CN202311617546A CN117392499A CN 117392499 A CN117392499 A CN 117392499A CN 202311617546 A CN202311617546 A CN 202311617546A CN 117392499 A CN117392499 A CN 117392499A
- Authority
- CN
- China
- Prior art keywords
- processed
- feature map
- image data
- salient
- saliency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 123
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000003708 edge detection Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000020061 kirsch Nutrition 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种显著性目标的检测方法及装置,该检测方法包括:获得显著性目标检测模型;获取待处理的图像数据;将待处理的图像数据输入至显著性目标检测模型,获得显著性目标检测结果;其中,采用轻量级编码器,对待处理的图像数据进行特征提取,获得待处理的图像数据的特征图;基于双向并行解码器,分别提取待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得待处理的图像数据的显著性掩膜特征图和目标边缘特征图;采用卷积块注意模块,对显著性掩膜特征图和目标边缘特征图进行特征融合,获得显著性目标检测结果。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种显著性目标的检测方法及装置。
背景技术
图像显著性目标检测(Salient Object Detection,SOD)在计算机视觉任务中扮演了重要角色,如视频检测,视觉跟踪和图像分割,旨在准确分割图像中感兴趣的物体的像素。
传统显著性目标检测算法,主要依赖不同的先验信息和手工设计的低层次特征,例如颜色、对比度、纹理信息和亮度等。但是,这种方法由于缺乏高层次的语义信息,其精度的缺陷会使其难以应用于复杂的场景。随着深度学习神经网络的发展,显著性目标的检测方法取得了巨大进展,但是依然存在图像边缘和与背景颜色相近的目标检测效果较差的共性问题,目前显著性目标检测算法模型体积与网络检测精度无法兼顾。这可能是因为在显著性信息逐层传递的过程中,边缘细节信息没有得到充分关注,限制了显著性结果的准确率。通过引入边缘信息进行监督使得显著性检测模型取得不错效果。由于边缘信息和非边缘信息的像素点分布处于不平衡的状态,简单的将边缘信息和非边缘信息进行融合,很难得到一个令人满意的结果,简单的将边缘用于监督学习可能会得到模型的次优解。并且这些设计的模型中一部分只使用了单分支网络,即在浅层信息中提取边缘信息,在深层特征中提取显著性信息。这种单分支的网络很难同时学习到丰富的边缘信息与显著性信息,对于边缘信息与显著性信息的融合不够充分。不同于单分支网络,Focal-BG提出了双分支网络,双分支分别学习边缘信息和显著性信息,每一个分支有自己独立的编解码模块,通过显著性信息与边缘信息之间逐层交互,获得更加准确的显著图。然而这种独立的编码网络增加了计算量,带来了冗余信息。网络SCRN和LDF选择共享编码器网络,这样不仅减少了网络参数,而且提高了网络精度,取得了不错的效果。
因此,不仅要充分融合特征层间的显著性信息与边缘信息,也要学习丰富的特征层内多尺度信息,以解决现行显著性目标检测方法中图像边缘和与背景颜色相近,目标检测效果较差的问题。
具体来说,设计一个包含显著性检测子网络和边缘检测子网络的双分支网络模型,边缘信息和显著性信息在网络中逐层融合。在显著性检测子网络中,真值图作为标签对最终生成的显著图监督学习,其中显著性检测子网络的输出也是推导阶段整个网络模型的最终输出,从层间和层内两个维度出发,提高了网络的整体性能,并且在边缘细节处取得了非常明显的提高。
另一方面,目前显著性目标的检测方法大多存在模型体积与网络检测精度无法兼得的问题。在提高精度的同时,不可避免的增加了模型复杂度,从而导致模型参数增多,计算负荷加重,检测速度缓慢等问题,因而在实际生活场景中较难应用这些技术。
目前流行的这些方法都表现出了良好的性能,但大多数都具有大量的参数量和缓慢的推理速度,不适合目前一些实际的系统应用。随着登陆应用需求的增加,人们开始考虑网络参数和效率,提出了一些轻量级模型,如HVPNet和SAMNet,但在性能上会有一定的差距。因此,需要设计一个参数少、速度快、精度好的网络,使其更适合当前的需求。基于此,本说明书提供一种新的显著性目标的检测方法。
发明内容
本申请实施例提供一种显著性目标的检测方法,用以解决如下问题:现有的显著性目标的检测方法,依然存在图像边缘和与背景颜色相近的目标检测效果较差的共性问题,目前显著性目标检测算法模型体积与网络检测精度无法兼顾。
具体的,一种显著性目标的检测方法,包括以下步骤:
获得显著性目标检测模型;
获取待处理的图像数据;
将所述待处理的图像数据输入至所述显著性目标检测模型,获得显著性目标检测结果;
其中,
所述显著性目标检测模型由显著性目标检测网络组成,所述显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块;
采用所述轻量级编码器,对所述待处理的图像数据进行特征提取,获得所述待处理的图像数据的特征图;
基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图;
采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果。
本申请实施例还提供一种显著性目标的检测装置。
具体的,一种显著性目标的检测装置,包括:
第一获取模块,获得显著性目标检测模型;
第二获取模块,获取待处理的图像数据;
检测模块,将所述待处理的图像数据输入至所述显著性目标检测模型,获得显著性目标检测结果;
其中,
所述显著性目标检测模型由显著性目标检测网络组成,所述显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块;
采用所述轻量级编码器,对所述待处理的图像数据进行特征提取,获得所述待处理的图像数据的特征图;
基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图;
采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果。
本申请实施例提供的技术方案,至少具有如下有益效果:通过基于多约束耦合优化的方法,以解决模型规模与推理能力之间的冲突,能够达到较好的图像边缘和与背景颜色相近的效果,且能够兼顾显著性目标检测算法模型体积与网络检测精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种显著性目标的检测方法的系统架构示意图;
图2为本说明书实施例提供的一种显著性目标的检测方法的流程示意图;
图3为本说明书实施例提供的样本数据的样本及其显著性目标检测结果示意图;
图4为本说明书实施例提供的特征金字塔网络模块的结构示意图;
图5为本说明书实施例提供的卷积块注意力模块的结构示意图;
图6为本说明书实施例提供的一种显著性目标的检测方法的框架图;
图7为本说明书实施例提供的显著性目标的检测方法的检测效果对比图;
图8为本说明书实施例提供的一种显著性目标的检测装置的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本说明书实施例提供的一种显著性目标的检测方法的系统架构示意图。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如进行显著性目标检测等专用程序。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种专用或通用的电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上所安装的客户端应用提供服务的后端服务器。例如,服务器可以进行显著性目标检测,以便将显著性目标检测结果显示在终端设备服务器101、102、103上,服务器也可以进行显著性目标检测,以便将显著性目标检测结果显示在终端设备101、102、103上。
服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现为多个服务器组成的分布式服务器集群,也可以实现为单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。
图2为本说明书实施例提供的一种显著性目标的检测方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器或应用终端的程序。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该显著性目标的检测方法包括:
步骤S201:获得显著性目标检测模型。
显著性目标检测模型是通过对样本数据进行训练后获得的模型,在本说明书实施例中,所述获得显著性目标检测模型,具体包括:
对样本数据进行预处理,获得待处理样本数据;
将所述待处理样本数据作为所述显著性目标检测网络的输入,进行模型训练,获得训练好的显著性目标检测模型;
利用损失函数对所述训练好的显著性目标检测模型进行优化,获得所述显著性目标检测模型。
在具体实施例中,对样本数据进行预处理,获得待处理样本数据,包括:
获取所述样本数据的原始标签掩膜;
采用边缘检测算子提取所述样本数据的原始标签掩膜的边缘作为边缘辅助标签,形成训练数据集作为所述待处理样本数据,所述训练数据集包括样本数据,样本数据的原始标签掩膜及边缘辅助标签。
边缘检测的目的在于识别图像中亮度变化明显的点,大幅度减少数据量,并且剔除可以认为不相关的信息,保留图像重要的结构属性。边缘检测算子可以为一阶算子也可以为二阶算子。一阶算子可以选择为:Roberts Cross算子,Prewitt算子,Sobel算子,Kirsch算子,罗盘算子;二阶算子可以选择为:Marr-Hildreth,在梯度方向的二阶导数过零点,Canny算子,Laplacian算子。
在本说明书的一个实施例中,边缘检测算子为canny算子。Canny算子作为一种多阶边缘检测算法。由于边缘属于图像中的高频信号,噪声亦属于高频信号,故通过高斯模糊的方法对样本数据的原始标签掩膜进行降噪,进而计算降噪后图像的梯度大小和方向,边缘跟踪,实现对样本数据的原始标签掩膜进行边缘提取的目的,从而获得边缘辅助标签。
在本说明书实施例中,样本数据可以为人工构造的数据,也可以为来自于公共数据集的数据。在本实施例中,公共数据集为SOD、HKU-IS、ECSSD、PASCAL-S、DUTS等5个常用的公共数据集。具体而言,SOD包含300张图像,是最具挑战性的数据集之一。HKU-IS包含4447个高质量的带注释的图像样本,图像中通常有多个显著对象。ECSSD包含1000张语义丰富但结构复杂的自然场景图像。PASCAL-S包含850张图像,图像中突出物体复杂重叠,具有挑战性。DUTS由DUTS-TR和DUTS-TE两部分组成,分别包含10553张训练图像和5019张测试图像,是目前最大、最常用的SOD数据集。
在本说明书实施例中,样本数据优选为DUTS-TR,测试集优选为DUTS测试集(DUTS-TE)和/或SOD和/或HKU-IS和/或ECSSD和/或PASCAL-S。
图3为本说明书实施例提供的样本数据的样本及其显著性目标检测结果示意图。如图3所示,样本数据来自SOD、HKU-IS、ECSSD、PASCAL-S、DUTS等5个常用的公共数据集。其中,第一行图像是原始RGB图像,第二行图像是相应的显著性目标结果。具体来说,第一至第五列的图像分别代表来自HKU-IS、SOD、ECSSD、PASCAL-S和DUT数据集的样本数据及其显著性目标检测结果。
在本说明书实施例中,显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块。
在本说明书实施例中,所述轻量级编码器为基于U-net网络的编码器结构,按照预设比例减少所述U-net网络的编码器结构不同层的卷积核的数目及尺寸获得所述轻量级编码器。
U-net网络的编码器,原始输入图像通过卷积-最大池化进行四次下采样,获得四层级的特征图。而本申请的轻量级编码器,在U-net网络的编码器结构的基础上,按照预设比例减少U-net网络的编码器结构不同层的卷积核的数目及尺寸的方法实现。在具体实施例中,预设比例的具体数值可以根据业务场景而定。预设比例的确定可以由计算资源及计算效率而定。在本说明书的一个具体实施例中,预设比例选择为10%~20%,优选为10%或20%。若要求显著性目标检测具有较高的计算效率,则预设比例优选为10%,若要求显著性目标检测具有较高的准确性,则预设比例优选为20%。而卷积核的尺寸随着输入图像的尺寸的大小而发生变化。经过预设比例减少U-net网络的编码器结构不同层的卷积核的数目及尺寸形成的轻量级编码器,作为骨干网特征提取(backbone feature extraction,BFE)模块,以进行特征提取,获得不同尺度的特征图。
需要特别说明的是,按照预设比例减少U-net网络的编码器不同层的卷积核的数目及尺寸时,可能会出现卷积核的数目及尺寸不是整数,此时,采用取整函数保证轻量级编码器的卷积核的数目及尺寸均为整数。
由于在目标检测中,对于大目标的检测,需要特征图每个点的感受野大一些(即高级语义信息),而对于小目标,需要感受野小一些(即低级细节信息),在本说明书实施例中,通过特征金字塔网络模块作为解码器进行高级语义信息与低级细节信息进行信息融合,增加低级接受野,提供高级抽象语义特征和低级细粒度特征,提高模型的结构特征表示能力。为了进一步理解本说明书实施例提供的特征金字塔网络模块,图4为本说明书实施例提供的特征金字塔网络模块的结构示意图。如图4所示,特征金字塔网络模块的总体架构主要由自下而上网络、自上而下网络、水平连接和卷积融合四部分组成。将骨干网特征提取的不同尺度的特征图像作为特征金字塔网络模块的输入,对不同尺度的特征图像进行预测及特征融合。具体而言,将骨干网特征提取的每个阶段的最后一层特征{C2,C3,C4,C5}作为特征金字塔网络模块的对应级别输入。
在本说明书实施例中,结合特征金字塔网络模块的结构,基于特征金字塔网络模块的自下而上网络获得低级细节信息;基于获得的低级细节信息,采用特征金字塔网络模块的自上而下网络获得高级语义信息,进而基于特征金字塔网络模块的水平连接,实现低级细节信息与高级语义信息的融合。
在本说明书实施例中,基于特征金字塔网络模块的自下而上网络获得低级细节信息时,采用步长=2的下采样,对应的{C2,C3,C4,C5}每一级的下采样的倍数为{4,8,16,32},而在基于特征金字塔网络模块的自上而下网络获得高级语义信息是经特征图放大的过程。
图5为本说明书实施例提供的卷积块注意力模块的结构示意图。如图5所示,经特征金字塔网络模块输出的特征图,作为卷积块注意力模块的输入,经通道注意模块进行通道注意操作,生成通道注意操作的特征信息,通道注意操作的特征信息再经空间注意模块,进行空间注意操作,生成空间注意模块对应的特征信息。随后,通道注意模块生成的对应的特征信息、空间注意模块对应的特征信息与特征金字塔网络模块输出的特征图相乘进行自适应特征校正,从而获得最终的特征图。该方法,能够在增强特征的同时,增强最终特征的鲁棒性。
在具体实施例中,通道注意模块的操作具体为:
CAM(F)=σ(MLP(AvgPools(F))+MLP(MaxPools(F))) 公式(1)
其中:
F表示输入特征;
CAM(F)表示对输入特征F进行通道注意操作;
σ(·)为sigmoid函数;
MLP(·)表示多层感知网络;
AvgPools(·)和MaxPools(·)分别表示空间维度上的全局平均池化和全局最大池化;
所述空间注意模块的操作具体为:
SAM(F)=σ(Conv7×7(Cat[AvgPoolc(F);MaxPoolc(F)])) 公式(2)
其中,
SAM(F)表示对输入特征F进行空间注意操作;
σ(·)为sigmoid函数;
Conv7×7(·)表示核大小为7、输出通道为1的卷积层;
Cat(·)表示通道维度的连接操作符;
AvgPoolc(·)和MaxPoolc(·)分别表示通道维度上的全局平均池化和全局最大池化。
利用损失函数对所述训练好的显著性目标检测模型进行优化时,在本说明书实施例中,所述损失函数为
其中,
表示损失函数;
表示边缘损失;λm表示显著性掩膜分支损失项的权重因子;
λe表示边缘分支损失项的权重因子;
λf表示融合特征损失项的权重因子;
表示焦损。
在本说明书的一个实施例中,显著性掩膜分支损失项的权重因子、边缘分支损失项的权重因子及融合特征损失项的权重因子可以按照预设的比例进行设定,在一个具体实施例中,显著性掩膜分支损失项的权重因子、边缘分支损失项的权重因子及融合特征损失项的权重因子的比例为20:7:5。
在本说明书实施例中,所述焦损定义为:
其中,
W和H分别表示待检测图像数据的宽度和高度;
表示待检测图像数据中像素的真实标签;
表示待检测图像数据中像素的预测显著性分数;
α用于调节正负样本损失的比例;
γ表示简单样本与不可区分样本数量的比例因子。
在本说明书实施例中,待检测图像即用于显著性目标检测模型训练的样本数据。正负样本是指正样本和负样本,其中,正样本为样本数据中含有显著性目标的样本,负样本为样本数据中不含有显著性目标的样本。不可区分样本是无法确定是否含有显著性目标的样本,简单样本是指样本数据中显著性目标非常容易区分的样本,需要特别说明的是,简单样本的认定具有人为性。
在本说明书的一个具体实施例中,设置γ=1,α1=α2=α3=α4=α6=α7=0.65和α5=0.97。
在本说明书实施例中,αi定义为:
其中,
当时,/>为1;
当时,/>为0。
在本说明书的一个实施例中,显著性目标检测模型的训练在Pytorch框架下使用Python语言进行,计算平台为NVIDIA RTX 3090。所有实验均由Adam优化器训练,参数为β1=0.9,β2=0.999。训练epoch设置为60,batch size设置为80。初始学习率设置为5×10-4,每10次学习率降低到9/10。权重衰减设为5×10-5。
在获得显著性目标检测模型后,进一步利用测试集对训练好的显著性目标检测模型进行推理,获得量化指标。在本说明书实施例中,对于显著性目标检测模型的评价,使用F-measure(Fβ)和平均绝对误差(MAE)两个评价指标从不同角度检验模型的性能。
在具体实施例中,Fβ由查准率和查全率的加权调和平均值计算,定义为:
其中,β是用来平衡P和R的超参数,其中P和R分别表示准确率和召回率。
式中TP、FP、FN分别为真阳性、假阳性、假阴性样本个数。在一个具体实施例中,Fβ设置为0.3。
MAE表示显著图与地面真值之间的平均绝对差,定义为:
式中,P表示预测的显著映射的二进制掩码,G为相应的真值图。此外,H和W表示P的高度和宽度。
需要特别说明的是,本说明书实施例中,作为骨干网络的轻量级编码器可以为经过ImageNet预先训练的轻量级编码器,也可以为不经过ImageNet预先训练的轻量级编码器。作为骨干网络的轻量级网络编码器是否经过ImageNet预先训练,在此不做限定。
步骤S203:获取待处理的图像数据。
在本说明书实施例中,待处理的图像数据为含有显著性目标的图像数据,待处理的图像数据的格式可以为任意图像数据格式,待处理的图像数据的格式并不构成对本申请的限定。
步骤S205:将所述待处理的图像数据输入至所述显著性目标检测模型,获得显著性目标检测结果;
其中,
所述显著性目标检测模型由显著性目标检测网络组成,所述显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块;
采用所述轻量级编码器,对所述待处理的图像数据进行特征提取,获得所述待处理的图像数据的特征图;
基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图;
采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果。
在本说明书实施例中,基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图,具体包括:
所述解码器为特征金字塔网络,所述双向并行解码器包括第一解码器和第二解码器;
基于所述第一解码器,提取所述待处理的图像数据的特征图的显著性掩膜特征,获得所述待处理的图像数据的显著性掩膜特征图;
基于所述第二解码器,提取所述待处理的图像数据的特征图的目标边缘特征图,获得所述待处理的图像数据的目标边缘特征图。在本说明书实施例中,特征图的低级细节信息表示待处理的图像数据的特征图中,是否属于显著性目标的细节信息,即是否属于显著性目标的浅层表征,亦即本说明书实施例中的目标边缘特征图;特征图的高级语义信息是基于特征图的低级细节信息获得的,表示待处理的图像数据的特征图中,是否属于显著性目标的区域,亦即本说明书实施例中的显著性掩膜特征图。
在本说明书实施例中,所述卷积块注意模块包括通道注意模块和空间注意模块,所述采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果,具体包括:
所述显著性掩膜特征图和所述目标边缘特征图经所述通道注意模块进行通道注意操作后,再经所述空间注意模块进行空间注意操作,获得所述显著性目标检测结果。
在本说明书实施例中,所述采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果,具体包括:
基于所述通道注意模块,将所述著性掩膜特征图和所述目标边缘特征图进行通道注意操作,获得通道注意特征图信息;
基于所述空间注意模块,对所述通道注意特征图信息进行空间注意操作,获得空间注意特征图信息;
将所述著性掩膜特征图和所述目标边缘特征图与所述空间注意特征图信息进行自适应特征校正,获得所述显著性目标检测结果。
在本说明书实施例中,自适应特征校正采用的方法是特征图相乘。即:将所述著性掩膜特征图和所述目标边缘特征图与所述空间注意特征图信息通过相乘的方法,进行适应特征校正,获得所述显著性目标检测结果。
为了进一步理解本说明书实施例中提供的显著性目标的检测方法,图6为本说明书实施例提供的一种显著性目标的检测方法的框架图。如图6所示,待处理的图像数据S,经轻量级编码器生成待处理图像数据的特征图。生成的待处理的图像数据经第一解码器获得显著性掩膜特征图,生成的图像数据经第二解码器获得目标边缘特征图,且第一解码器和第二解码器均为特征金字塔网络,第一解码器和第二解码器并行操作;随后,采用卷积块注意模块(CBAM),对显著性掩膜特征图和边缘特征图进行特征融合,获得所述显著性检测结果P。
为了验证本说明书实施例提供的显著性目标检测方法的效果,本说明书实施例还提供了本方法与基于U-net网络进行显著性目标检测方法的效果比较,如图7所示,第一列为待处理图像,第二列为本说明书实施例提供的基于轻量编码器的显著性目标的检测方法的检测效果,第三列为基于U-net网络的显著性目标的检测方法的检测效果。从图7可见,尽管本申请中,对U-net网络进行了改进,将U-net网络的编码器改为轻量级编码器,但是并不因为减少了编码器的卷积核的数目及尺寸而影响显著性目标的结果。从图7的结果来看,本说明书实施例提供的显著性目标的检测方法,效果更佳。
采用本说明书实施例提供的显著性目标的检测方法,基于多约束耦合优化,从网络架构设计和优化策略构建两个方面解决现行显著性目标检测算法模型体积与网络检测精度无法兼得的问题,能够达到较好的图像边缘和与背景颜色相近的效果,且能够兼顾显著性目标检测算法模型体积与网络检测精度。
上述内容详细说明了一种显著性目标的检测方法,与之相应的,本说明书还提供了一种显著性目标的检测装置,如图8所示。图8为本说明书实施例提供的一种显著性目标的检测装置的示意图,该目标检测装置包括:
第一获取模块801,获得显著性目标检测模型;
第二获取模块803,获取待处理的图像数据;
检测模块805,将所述待处理的图像数据输入至所述显著性目标检测模型,获得显著性目标检测结果;
其中,
所述显著性目标检测模型由显著性目标检测网络组成,所述显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块;
采用所述轻量级编码器,对所述待处理的图像数据进行特征提取,获得所述待处理的图像数据的特征图;
基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图;
采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性检测结果。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种显著性目标的检测方法,其特征在于,所述检测方法包括:
获得显著性目标检测模型;
获取待处理的图像数据;
将所述待处理的图像数据输入至所述显著性目标检测模型,获得显著性目标检测结果;
其中,
所述显著性目标检测模型由显著性目标检测网络组成,所述显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块;
采用所述轻量级编码器,对所述待处理的图像数据进行特征提取,获得所述待处理的图像数据的特征图;
基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图;
采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果。
2.如权利要求1所述的显著性目标的检测方法,其特征在于,所述获得显著性目标检测模型,具体包括:
对样本数据进行预处理,获得待处理样本数据;
将所述待处理样本数据作为所述显著性目标检测网络的输入,进行模型训练,获得训练好的显著性目标检测模型;
基于所述训练好的显著性目标检测模型对测试集进行推理,利用损失函数对所述训练好的显著性目标检测模型进行优化,获得所述显著性目标检测模型。
3.如权利要求1所述的显著性目标的检测方法,其特征在于,所述轻量级编码器为基于U-net网络的编码器结构,按照预设比例减少所述U-net网络的编码器结构不同层的卷积核的数目及尺寸获得所述轻量级编码器。
4.如权利要求1所述的显著性目标的检测方法,其特征在于,基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图,具体包括:
所述解码器为特征金字塔网络,所述双向并行解码器包括第一解码器和第二解码器;
基于所述第一解码器,提取所述待处理的图像数据的特征图的显著性掩膜特征,获得所述待处理的图像数据的显著性掩膜特征图;
基于所述第二解码器,提取所述待处理的图像数据的特征图的目标边缘特征图,获得所述待处理的图像数据的目标边缘特征图。
5.如权利要求1所述的显著性目标的检测方法,其特征在于,所述卷积块注意模块包括通道注意模块和空间注意模块,所述采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果,具体包括:
所述显著性掩膜特征图和所述目标边缘特征图经所述通道注意模块进行通道注意操作后,再经所述空间注意模块进行空间注意操作,获得所述显著性目标检测结果。
6.如权利要求5所述的显著性目标的检测方法,其特征在于,所述通道注意操作具体为:
CAM(F)=σ(MLP(AvgPools(F))+MLP(MaxPools(F))) 公式(1)
其中:
F表示输入特征;
CAM(F)表示对输入特征F进行通道注意操作
σ(·)为sigmoid函数;
MLP(·)表示多层感知网络;
AvgPools(·)和MaxPools(·)分别表示空间维度上的全局平均池化和全局最大池化;
所述空间注意操作具体为:
SAM(F)=σ(Conv7×7(Cat[AvgPoolc(F);MaxPoolc(F)])) 公式(2)
其中,
SAM(F)表示对输入特征F进行空间注意操作;
σ(·)为sigmoid函数;
Conv7×7(·)表示核大小为7、输出通道为1的卷积层;
Cat(·)表示通道维度的连接操作符;
AvgPoolc(·)和MaxPoolc(·)分别表示通道维度上的全局平均池化和全局最大池化。
7.如权利要求2所述的显著性目标的检测方法,其特征在于,所述损失函数为
其中,
表示损失函数;
表示边缘损失;
λm表示显著性掩膜分支损失项的权重因子;
λe表示边缘分支损失项的权重因子;
λf表示融合特征损失项的权重因子;
表示焦损。
8.如权利要求7所述的显著性目标的检测方法,其特征在于,所述焦损定义为:
其中,
W和H分别表示待检测图像的宽度和高度;
表示待检测图像中像素的真实标签;
表示待检测图像中像素的预测显著性分数;
α用于调节正负样本损失的比例;
γ表示简单样本与不可区分样本数量的比例因子。
9.如权利要求8所述的显著性目标的检测方法,其特征在于,αi定义为:
其中,
当时,/>为1;
当时,/>为0。
10.一种显著性目标的检测装置,其特征在于,所述检测装置包括:
第一获取模块,获得显著性目标检测模型;
第二获取模块,获取待处理的图像数据;
检测模块,将所述待处理的图像数据输入至所述显著性目标检测模型,获得显著性目标检测结果;
其中,
所述显著性目标检测模型由显著性目标检测网络组成,所述显著性目标检测网络包括:作为骨干网络的轻量级编码器、双向并行解码器及卷积块注意模块;
采用所述轻量级编码器,对所述待处理的图像数据进行特征提取,获得所述待处理的图像数据的特征图;
基于所述双向并行解码器,分别提取所述待处理的图像数据的特征图的显著性掩膜特征和目标边缘特征,获得所述待处理的图像数据的显著性掩膜特征图和目标边缘特征图;
采用所述卷积块注意模块,对所述显著性掩膜特征图和所述目标边缘特征图进行特征融合,获得所述显著性目标检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311617546.7A CN117392499B (zh) | 2023-11-29 | 2023-11-29 | 一种显著性目标的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311617546.7A CN117392499B (zh) | 2023-11-29 | 2023-11-29 | 一种显著性目标的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117392499A true CN117392499A (zh) | 2024-01-12 |
CN117392499B CN117392499B (zh) | 2024-07-19 |
Family
ID=89463309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311617546.7A Active CN117392499B (zh) | 2023-11-29 | 2023-11-29 | 一种显著性目标的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392499B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118351412A (zh) * | 2024-04-29 | 2024-07-16 | 盐城工学院 | 一种融合边缘特征的显著目标检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018233708A1 (zh) * | 2017-06-23 | 2018-12-27 | 华为技术有限公司 | 图像显著性物体检测方法和装置 |
CN113408350A (zh) * | 2021-05-17 | 2021-09-17 | 杭州电子科技大学 | 一种基于创新边缘特征提取方法的遥感图像显著性检测方法 |
CN116012602A (zh) * | 2023-01-31 | 2023-04-25 | 河南科技学院 | 一种在线定位的轻量化显著性检测方法 |
CN116524354A (zh) * | 2023-04-04 | 2023-08-01 | 吉林大学 | 一种基于显著特征的轻量化sar舰船检测方法 |
-
2023
- 2023-11-29 CN CN202311617546.7A patent/CN117392499B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018233708A1 (zh) * | 2017-06-23 | 2018-12-27 | 华为技术有限公司 | 图像显著性物体检测方法和装置 |
CN113408350A (zh) * | 2021-05-17 | 2021-09-17 | 杭州电子科技大学 | 一种基于创新边缘特征提取方法的遥感图像显著性检测方法 |
CN116012602A (zh) * | 2023-01-31 | 2023-04-25 | 河南科技学院 | 一种在线定位的轻量化显著性检测方法 |
CN116524354A (zh) * | 2023-04-04 | 2023-08-01 | 吉林大学 | 一种基于显著特征的轻量化sar舰船检测方法 |
Non-Patent Citations (1)
Title |
---|
吴一全等: "基于机器视觉的PCB缺陷检测算法研究现状及展望", 《仪器仪表学报》, vol. 43, no. 08, 5 September 2022 (2022-09-05), pages 1 - 17 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118351412A (zh) * | 2024-04-29 | 2024-07-16 | 盐城工学院 | 一种融合边缘特征的显著目标检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117392499B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
CN112651978B (zh) | 舌下微循环图像分割方法和装置、电子设备、存储介质 | |
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN109753878B (zh) | 一种恶劣天气下的成像识别方法及系统 | |
CN117392499B (zh) | 一种显著性目标的检测方法及装置 | |
CN113066034B (zh) | 人脸图像的修复方法与装置、修复模型、介质和设备 | |
CN113505792A (zh) | 面向非均衡遥感图像的多尺度语义分割方法及模型 | |
Hu et al. | A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network | |
CN111444807B (zh) | 目标检测方法、装置、电子设备和计算机可读介质 | |
CN111079764A (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN111027576A (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN116152591B (zh) | 模型训练方法、红外小目标检测方法、装置及电子设备 | |
CN110942097A (zh) | 基于单像素探测器的免成像分类方法和系统 | |
CN112132867B (zh) | 一种遥感影像变化检测方法及装置 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
Wu et al. | Fish Target Detection in Underwater Blurred Scenes Based on Improved YOLOv5 | |
CN117689617A (zh) | 基于去雾约束网络和串联多尺度注意力的绝缘子检测方法 | |
CN116912675A (zh) | 一种基于特征迁移的水下目标检测方法及系统 | |
CN116630302A (zh) | 细胞图像分割方法、装置以及电子设备 | |
CN116721091A (zh) | 一种布匹瑕疵检测方法、装置及可读介质 | |
CN115578364A (zh) | 基于混合注意力与调和因子的微弱目标检测方法及系统 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
CN113627342B (zh) | 视频深度特征提取优化的方法、系统、设备及存储介质 | |
CN115760589A (zh) | 一种用于运动模糊图像的图像优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |